CN103577406B

CN103577406B - 一种管理非结构化数据的方法及装置

Info

Publication number: CN103577406B
Application number: CN201210250348.7A
Authority: CN
Inventors: 孟进; 马春光
Original assignee: ZTE ICT Technologies Co Ltd
Current assignee: ZTE ICT Technologies Co Ltd
Priority date: 2012-07-19
Filing date: 2012-07-19
Publication date: 2019-04-16
Anticipated expiration: 2032-07-19
Also published as: CN103577406A

Abstract

本发明公开了一种管理非结构化数据的方法，包括：利用正则表达式，建立一个或多个匹配规则；利用匹配规则，对当前保存的所有非结构化数据进行分组；选出一组非结构化数据，对该组对应的匹配规则进行调整，利用调整后的匹配规则对该组非结构化数据进行调整。本发明还同时公开了一种管理非结构化数据的装置，采用本发明能缩短搜索周期，提高查找准确度及扩展性。

Description

一种管理非结构化数据的方法及装置

技术领域

本发明涉及数据管理领域，尤其涉及一种管理非结构化数据的方法及装置。

背景技术

所有信息分为两类：一类信息能够用数据或统一的结构加以表示，成为结构化数据，如数字、符号等；另一类信息无法用数字或统一的结构表示，比如文本、图片、网页、各类报表、图像和音频/视频信息等等。随着网络技术的发展非结构化数据的数量日趋增大。

目前，对非结构化数据进行管理，主要使用全文索引技术，具体的：建立倒排索引文件，根据关键字对非结构化数据进行内容检索，再对检索到的内容进行处理。但是，这种对非结构化数据进行管理的方法，由于每次索引都需要进行全文搜索，且只能对预置的关键字进行搜索，无法根据需要进行扩展以便更准确的查找。

可见，现有技术中对非结构化数据库信息进行管理，存在搜索周期长、查找准确度不高、以及扩展性差的问题。

发明内容

有鉴于此，本发明的目的在于提供一种管理非结构化数据的方法及装置，能缩短搜索周期，提高查找准确度及扩展性。

为达到上述目的，本发明的技术方案是这样实现的：

本发明提供了一种管理非结构化数据的方法，该方法包括：

利用正则表达式，建立匹配规则；

利用匹配规则，对当前保存的所有非结构化数据进行分组；

选出一组非结构化数据，对该组对应的匹配规则进行调整，利用调整后的匹配规则对该组非结构化数据进行调整。

上述方案中，所述匹配规则，包括：对匹配的字段、及所述匹配的字段对应的格式的定义。

上述方案中，所述对当前保存的所有非结构化数据进行分组，包括：使用当前保存的所有非结构化数据，逐个与当前建立的各条匹配规则进行匹配，并将与匹配规则匹配的非结构化数据保存在该条匹配规则对应的信息存储列表。

上述方案中，所述对该组对应的匹配规则进行调整，包括：针对当前选出的一组非结构化数据，对该组对应的匹配规则中字段以及字段格式做出添加、修改或删除等修改。

上述方案中，所述利用调整后的匹配规则对该组非结构化数据进行调整为：使用当前分组对应的信息存储列表中记录的所有非结构化数据，与调整后的匹配规则进行匹配，将与调整后的匹配规则匹配的非结构化数据，保存在该条调整后的匹配规则下对应的信息存储子列表中。

本发明还提供了一种管理非结构化数据的装置，该装置包括：匹配规则定义模块、分析模块和调整模块；其中，

匹配规则定义模块，用于利用正则表达式，建立匹配规则，并将匹配规则发给分析模块；

分析模块，用于利用匹配规则定义模块发来的匹配规则，对所在设备中当前保存的所有非结构化数据进行分组，选出一组非结构化数据，将该组非结构化数据对应的匹配规则发送给调整模块，以及根据调整模块发来的调整后的匹配规则对该组非结构化数据进行调整；

调整模块，用于接收分析模块发来的匹配规则，对该匹配规则进行调整，将调整后的匹配规则发给分析模块。

上述方案中，所述匹配规则定义模块，具体用于对匹配的字段、及所述匹配的字段对应的格式进行定义作为匹配规则。

上述方案中，所述分析模块，具体用于使用所在设备中当前保存的所有非结构化数据，逐个与当前建立的各条匹配规则进行匹配，并将与匹配规则匹配的非结构化数据保存在该条匹配规则对应的信息存储列表。

上述方案中，所述调整模块，具体用于针对当前选出的一组非结构化数据，对该组对应的匹配规则中字段以及字段格式做出添加、修改或删除等修改，得到调整后的匹配规则。

上述方案中，所述分析模块，具体用于使用当前分组对应的信息存储列表中记录的所有非结构化数据，与调整后的匹配规则进行匹配，将与调整后的匹配规则匹配的非结构化数据，保存在该条调整后的匹配规则下对应的信息存储子列表中。

本发明所提供的管理非结构化数据的方法及装置，能够通过使用正则表达式定义的匹配规则，实现对设备中当前保存的所有非结构化数据进行分组，并能根据需要，对选定的非结构化数据分组对应的匹配规则进行调整，再使用调整后的匹配规则对该组非结构化数据进行调整。如此，以对已分组的非结构化数据进行再次调整时，不需要对设备当前保存的所有非结构化数据进行再次搜索，这样就能够缩短搜索周期；另外，由于能够有针对性的，对一个非结构化数据组调整匹配规则，从而能够提高查找准确度及扩展性。

附图说明

图1为本发明管理非结构化数据的方法流程示意图；

图2为本发明管理非结构化数据的装置组成结构示意图。

具体实施方式

本发明的基本思想是：利用正则表达式，建立一个或多个匹配规则；利用匹配规则，对当前保存的所有非结构化数据进行分组；选出一组非结构化数据，对该组对应的匹配规则进行调整，利用调整后的匹配规则对该组非结构化数据进行调整。

下面结合附图及具体实施例对本发明再作进一步详细的说明。

本发明提出一种管理非结构化数据的方法，如图1所示，包括以下步骤：

步骤101：利用正则表达式，建立一个或多个匹配规则。

这里，所述匹配规则为根据实际需要，对匹配的字段、及所述匹配的字段对应的格式的定义，可以使用Visual Studio.NET编写，比如，使用Visual Studio.NET设定匹配规则为：

REGEX＝Atcachet to login by user：(.*)：login(.*)\.

FORMAT＝username::″$1″login_result::″$2″；

其中，“RegEx”为Visual Studio.NET中的正则表达式类，“Atcachet to login byuser：(.*)：login(.*)\.”表示所要匹配的字段为“用户名”字段以及“注册”字段；“FORMAT＝username::″$1″login_result::″$2″”表示字段内容的限定，即“username”及“login_result”格式的定义。

步骤102：利用匹配规则，对当前保存的所有非结构化数据进行分组。

具体为：使用当前保存的所有非结构化数据，逐个与当前建立的各条匹配规则进行匹配，并将与任意一条匹配规则匹配的非结构化数据保存在该条匹配规则对应的信息存储列表。

这里，所述当前保存的所有非结构化数据可以为当前设备中包含的所有非结构化数据。

步骤103：选出一组非结构化数据，对该组对应的匹配规则进行调整，利用调整后的匹配规则对该组非结构化数据进行调整。

这里，所述选出一组非结构化数据为根据实际情况，对现有的各个非结构化数据分组进行分析，由管理人员确定进一步对哪一组进行分析；

所述调整为：针对当前选出的一组非结构化数据，对该组对应的匹配规则中字段以及字段格式做出添加、修改或删除等修改。

所述利用调整后的匹配规则对该组非结构化数据进行调整为：使用当前分组对应的信息存储列表中记录的所有非结构化数据，与调整后的匹配规则进行匹配，将与调整后的匹配规则匹配的非结构化数据，保存在该条调整后的匹配规则下对应的信息存储子列表中。

另外，上述步骤103完成后，还可以根据实际需求进行后续操作，当需要设置新的匹配规则时，则返回步骤101；当需要对该当前非结构化数据组中的任意一组进一步分析时，返回步骤103。

如图2所示，本发明提供了一种管理非结构化数据的装置，该装置包括：匹配规则定义模块21、分析模块22和调整模块23；其中，

匹配规则定义模块21，用于利用正则表达式，建立一个或多个匹配规则，并将匹配规则发给分析模块22；

分析模块22，用于利用匹配规则定义模块21发来的匹配规则，对所在设备中当前保存的所有非结构化数据进行分组，选出一组非结构化数据，将该组非结构化数据对应的匹配规则发送给调整模块23，以及根据调整模块23发来的调整后的匹配规则对该组非结构化数据进行调整；

调整模块23，用于接收分析模块22发来的匹配规则，对该匹配规则进行调整，将调整后的匹配规则发给分析模块22。

所述匹配规则定义模块21，具体用于根据实际需要定义所要匹配的字段以及字段格式的限定匹配规则，可以用Visual Studio.NET编写。

所述分析模块22，具体用于使用所在设备中当前保存的所有非结构化数据，逐个与当前建立的各条匹配规则进行匹配，并将与任意一条匹配规则匹配的非结构化数据保存在该条匹配规则对应的信息存储列表。

所述分析模块22，具体用于为根据实际情况，对现有的各个非结构化数据分组进行分析，由管理人员确定进一步对哪一组进行分析。

所述调整模块23，具体用于针对当前选出的一组非结构化数据，对该组对应的匹配规则中字段以及字段格式做出添加、修改或删除等修改。

所述分析模块22，具体用于使用当前分组对应的信息存储列表中记录的所有非结构化数据，与调整后的匹配规则进行匹配，将与调整后的匹配规则匹配的非结构化数据，保存在该条调整后的匹配规则下对应的信息存储子列表中。

所述分析模块22，还用于根据实际需求进行后续操作，当需要设置新的匹配规则时，则通知匹配规则定义模块21利用正则表达式，建立一个或多个匹配规则，当需要对该当前非结构化数据组中的任意一组进一步分析时，选出该组非结构化数据，将该组非结构化数据对应的匹配规则发送给调整模块23；相应的，所述匹配规则定义模块21，还用于在收到分析模块22发来的通知后，开始利用正则表达式，建立一个或多个匹配规则。

所述分析模块22，还用于从当前所在设备获取保存的所有非结构化数据。

本发明提供的管理非结构化数据的装置可以作为软件，安装于需要对自身保存的数据进行分析的设备中。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种管理非结构化数据的方法，其特征在于，该方法包括：

利用正则表达式，建立匹配规则；

利用匹配规则，对当前保存的所有非结构化数据进行分组；

选出一组非结构化数据，对该组非结构化数据对应的匹配规则进行调整，利用调整后的匹配规则对该组非结构化数据进行调整；其中，所述利用调整后的匹配规则对该组非结构化数据进行调整为：使用当前分组对应的信息存储列表中记录的所有非结构化数据，与调整后的匹配规则进行匹配，将与调整后的匹配规则匹配的非结构化数据，保存在该调整后的匹配规则下对应的信息存储子列表中。

2.根据权利要求1所述的方法，其特征在于，所述匹配规则，包括：对匹配的字段、及所述匹配的字段对应的格式的定义。

3.根据权利要求1所述的方法，其特征在于，所述对当前保存的所有非结构化数据进行分组，包括：使用当前保存的所有非结构化数据，逐个与当前建立的各条匹配规则进行匹配，并将与匹配规则匹配的非结构化数据保存在该条匹配规则对应的信息存储列表。

4.根据权利要求1所述的方法，其特征在于，所述对该组对应的匹配规则进行调整，包括：针对当前选出的一组非结构化数据，对该组对应的匹配规则中字段以及字段格式做出添加、修改或删除。

5.一种管理非结构化数据的装置，其特征在于，该装置包括：匹配规则定义模块、分析模块和调整模块；其中，

调整模块，用于接收分析模块发来的匹配规则，对该匹配规则进行调整，将调整后的匹配规则发给分析模块；

其中，所述分析模块，具体用于使用当前分组对应的信息存储列表中记录的所有非结构化数据，与调整后的匹配规则进行匹配，将与调整后的匹配规则匹配的非结构化数据，保存在该调整后的匹配规则下对应的信息存储子列表中。

6.根据权利要求5所述的装置，其特征在于，

所述匹配规则定义模块，具体用于对匹配的字段、及所述匹配的字段对应的格式进行定义作为匹配规则。

7.根据权利要求5所述的装置，其特征在于，

所述分析模块，具体用于使用所在设备中当前保存的所有非结构化数据，逐个与当前建立的各条匹配规则进行匹配，并将与匹配规则匹配的非结构化数据保存在该条匹配规则对应的信息存储列表。

8.根据权利要求5所述的装置，其特征在于，

所述调整模块，具体用于针对当前选出的一组非结构化数据，对该组对应的匹配规则中字段以及字段格式做出添加、修改或删除，得到调整后的匹配规则。