CN103577406B - 一种管理非结构化数据的方法及装置 - Google Patents
一种管理非结构化数据的方法及装置 Download PDFInfo
- Publication number
- CN103577406B CN103577406B CN201210250348.7A CN201210250348A CN103577406B CN 103577406 B CN103577406 B CN 103577406B CN 201210250348 A CN201210250348 A CN 201210250348A CN 103577406 B CN103577406 B CN 103577406B
- Authority
- CN
- China
- Prior art keywords
- matching rule
- adjusted
- unstructured data
- group
- unstructured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种管理非结构化数据的方法,包括:利用正则表达式,建立一个或多个匹配规则;利用匹配规则,对当前保存的所有非结构化数据进行分组;选出一组非结构化数据,对该组对应的匹配规则进行调整,利用调整后的匹配规则对该组非结构化数据进行调整。本发明还同时公开了一种管理非结构化数据的装置,采用本发明能缩短搜索周期,提高查找准确度及扩展性。
Description
技术领域
本发明涉及数据管理领域,尤其涉及一种管理非结构化数据的方法及装置。
背景技术
所有信息分为两类:一类信息能够用数据或统一的结构加以表示,成为结构化数据,如数字、符号等;另一类信息无法用数字或统一的结构表示,比如文本、图片、网页、各类报表、图像和音频/视频信息等等。随着网络技术的发展非结构化数据的数量日趋增大。
目前,对非结构化数据进行管理,主要使用全文索引技术,具体的:建立倒排索引文件,根据关键字对非结构化数据进行内容检索,再对检索到的内容进行处理。但是,这种对非结构化数据进行管理的方法,由于每次索引都需要进行全文搜索,且只能对预置的关键字进行搜索,无法根据需要进行扩展以便更准确的查找。
可见,现有技术中对非结构化数据库信息进行管理,存在搜索周期长、查找准确度不高、以及扩展性差的问题。
发明内容
有鉴于此,本发明的目的在于提供一种管理非结构化数据的方法及装置,能缩短搜索周期,提高查找准确度及扩展性。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种管理非结构化数据的方法,该方法包括:
利用正则表达式,建立匹配规则;
利用匹配规则,对当前保存的所有非结构化数据进行分组;
选出一组非结构化数据,对该组对应的匹配规则进行调整,利用调整后的匹配规则对该组非结构化数据进行调整。
上述方案中,所述匹配规则,包括:对匹配的字段、及所述匹配的字段对应的格式的定义。
上述方案中,所述对当前保存的所有非结构化数据进行分组,包括:使用当前保存的所有非结构化数据,逐个与当前建立的各条匹配规则进行匹配,并将与匹配规则匹配的非结构化数据保存在该条匹配规则对应的信息存储列表。
上述方案中,所述对该组对应的匹配规则进行调整,包括:针对当前选出的一组非结构化数据,对该组对应的匹配规则中字段以及字段格式做出添加、修改或删除等修改。
上述方案中,所述利用调整后的匹配规则对该组非结构化数据进行调整为:使用当前分组对应的信息存储列表中记录的所有非结构化数据,与调整后的匹配规则进行匹配,将与调整后的匹配规则匹配的非结构化数据,保存在该条调整后的匹配规则下对应的信息存储子列表中。
本发明还提供了一种管理非结构化数据的装置,该装置包括:匹配规则定义模块、分析模块和调整模块;其中,
匹配规则定义模块,用于利用正则表达式,建立匹配规则,并将匹配规则发给分析模块;
分析模块,用于利用匹配规则定义模块发来的匹配规则,对所在设备中当前保存的所有非结构化数据进行分组,选出一组非结构化数据,将该组非结构化数据对应的匹配规则发送给调整模块,以及根据调整模块发来的调整后的匹配规则对该组非结构化数据进行调整;
调整模块,用于接收分析模块发来的匹配规则,对该匹配规则进行调整,将调整后的匹配规则发给分析模块。
上述方案中,所述匹配规则定义模块,具体用于对匹配的字段、及所述匹配的字段对应的格式进行定义作为匹配规则。
上述方案中,所述分析模块,具体用于使用所在设备中当前保存的所有非结构化数据,逐个与当前建立的各条匹配规则进行匹配,并将与匹配规则匹配的非结构化数据保存在该条匹配规则对应的信息存储列表。
上述方案中,所述调整模块,具体用于针对当前选出的一组非结构化数据,对该组对应的匹配规则中字段以及字段格式做出添加、修改或删除等修改,得到调整后的匹配规则。
上述方案中,所述分析模块,具体用于使用当前分组对应的信息存储列表中记录的所有非结构化数据,与调整后的匹配规则进行匹配,将与调整后的匹配规则匹配的非结构化数据,保存在该条调整后的匹配规则下对应的信息存储子列表中。
本发明所提供的管理非结构化数据的方法及装置,能够通过使用正则表达式定义的匹配规则,实现对设备中当前保存的所有非结构化数据进行分组,并能根据需要,对选定的非结构化数据分组对应的匹配规则进行调整,再使用调整后的匹配规则对该组非结构化数据进行调整。如此,以对已分组的非结构化数据进行再次调整时,不需要对设备当前保存的所有非结构化数据进行再次搜索,这样就能够缩短搜索周期;另外,由于能够有针对性的,对一个非结构化数据组调整匹配规则,从而能够提高查找准确度及扩展性。
附图说明
图1为本发明管理非结构化数据的方法流程示意图;
图2为本发明管理非结构化数据的装置组成结构示意图。
具体实施方式
本发明的基本思想是:利用正则表达式,建立一个或多个匹配规则;利用匹配规则,对当前保存的所有非结构化数据进行分组;选出一组非结构化数据,对该组对应的匹配规则进行调整,利用调整后的匹配规则对该组非结构化数据进行调整。
下面结合附图及具体实施例对本发明再作进一步详细的说明。
本发明提出一种管理非结构化数据的方法,如图1所示,包括以下步骤:
步骤101:利用正则表达式,建立一个或多个匹配规则。
这里,所述匹配规则为根据实际需要,对匹配的字段、及所述匹配的字段对应的格式的定义,可以使用Visual Studio.NET编写,比如,使用Visual Studio.NET设定匹配规则为:
REGEX=Atcachet to login by user:(.*):login(.*)\.
FORMAT=username::″$1″login_result::″$2″;
其中,“RegEx”为Visual Studio.NET中的正则表达式类,“Atcachet to login byuser:(.*):login(.*)\.”表示所要匹配的字段为“用户名”字段以及“注册”字段;“FORMAT=username::″$1″login_result::″$2″”表示字段内容的限定,即“username”及“login_result”格式的定义。
步骤102:利用匹配规则,对当前保存的所有非结构化数据进行分组。
具体为:使用当前保存的所有非结构化数据,逐个与当前建立的各条匹配规则进行匹配,并将与任意一条匹配规则匹配的非结构化数据保存在该条匹配规则对应的信息存储列表。
这里,所述当前保存的所有非结构化数据可以为当前设备中包含的所有非结构化数据。
步骤103:选出一组非结构化数据,对该组对应的匹配规则进行调整,利用调整后的匹配规则对该组非结构化数据进行调整。
这里,所述选出一组非结构化数据为根据实际情况,对现有的各个非结构化数据分组进行分析,由管理人员确定进一步对哪一组进行分析;
所述调整为:针对当前选出的一组非结构化数据,对该组对应的匹配规则中字段以及字段格式做出添加、修改或删除等修改。
所述利用调整后的匹配规则对该组非结构化数据进行调整为:使用当前分组对应的信息存储列表中记录的所有非结构化数据,与调整后的匹配规则进行匹配,将与调整后的匹配规则匹配的非结构化数据,保存在该条调整后的匹配规则下对应的信息存储子列表中。
另外,上述步骤103完成后,还可以根据实际需求进行后续操作,当需要设置新的匹配规则时,则返回步骤101;当需要对该当前非结构化数据组中的任意一组进一步分析时,返回步骤103。
如图2所示,本发明提供了一种管理非结构化数据的装置,该装置包括:匹配规则定义模块21、分析模块22和调整模块23;其中,
匹配规则定义模块21,用于利用正则表达式,建立一个或多个匹配规则,并将匹配规则发给分析模块22;
分析模块22,用于利用匹配规则定义模块21发来的匹配规则,对所在设备中当前保存的所有非结构化数据进行分组,选出一组非结构化数据,将该组非结构化数据对应的匹配规则发送给调整模块23,以及根据调整模块23发来的调整后的匹配规则对该组非结构化数据进行调整;
调整模块23,用于接收分析模块22发来的匹配规则,对该匹配规则进行调整,将调整后的匹配规则发给分析模块22。
所述匹配规则定义模块21,具体用于根据实际需要定义所要匹配的字段以及字段格式的限定匹配规则,可以用Visual Studio.NET编写。
所述分析模块22,具体用于使用所在设备中当前保存的所有非结构化数据,逐个与当前建立的各条匹配规则进行匹配,并将与任意一条匹配规则匹配的非结构化数据保存在该条匹配规则对应的信息存储列表。
所述分析模块22,具体用于为根据实际情况,对现有的各个非结构化数据分组进行分析,由管理人员确定进一步对哪一组进行分析。
所述调整模块23,具体用于针对当前选出的一组非结构化数据,对该组对应的匹配规则中字段以及字段格式做出添加、修改或删除等修改。
所述分析模块22,具体用于使用当前分组对应的信息存储列表中记录的所有非结构化数据,与调整后的匹配规则进行匹配,将与调整后的匹配规则匹配的非结构化数据,保存在该条调整后的匹配规则下对应的信息存储子列表中。
所述分析模块22,还用于根据实际需求进行后续操作,当需要设置新的匹配规则时,则通知匹配规则定义模块21利用正则表达式,建立一个或多个匹配规则,当需要对该当前非结构化数据组中的任意一组进一步分析时,选出该组非结构化数据,将该组非结构化数据对应的匹配规则发送给调整模块23;相应的,所述匹配规则定义模块21,还用于在收到分析模块22发来的通知后,开始利用正则表达式,建立一个或多个匹配规则。
所述分析模块22,还用于从当前所在设备获取保存的所有非结构化数据。
本发明提供的管理非结构化数据的装置可以作为软件,安装于需要对自身保存的数据进行分析的设备中。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (8)
1.一种管理非结构化数据的方法,其特征在于,该方法包括:
利用正则表达式,建立匹配规则;
利用匹配规则,对当前保存的所有非结构化数据进行分组;
选出一组非结构化数据,对该组非结构化数据对应的匹配规则进行调整,利用调整后的匹配规则对该组非结构化数据进行调整;其中,所述利用调整后的匹配规则对该组非结构化数据进行调整为:使用当前分组对应的信息存储列表中记录的所有非结构化数据,与调整后的匹配规则进行匹配,将与调整后的匹配规则匹配的非结构化数据,保存在该调整后的匹配规则下对应的信息存储子列表中。
2.根据权利要求1所述的方法,其特征在于,所述匹配规则,包括:对匹配的字段、及所述匹配的字段对应的格式的定义。
3.根据权利要求1所述的方法,其特征在于,所述对当前保存的所有非结构化数据进行分组,包括:使用当前保存的所有非结构化数据,逐个与当前建立的各条匹配规则进行匹配,并将与匹配规则匹配的非结构化数据保存在该条匹配规则对应的信息存储列表。
4.根据权利要求1所述的方法,其特征在于,所述对该组对应的匹配规则进行调整,包括:针对当前选出的一组非结构化数据,对该组对应的匹配规则中字段以及字段格式做出添加、修改或删除。
5.一种管理非结构化数据的装置,其特征在于,该装置包括:匹配规则定义模块、分析模块和调整模块;其中,
匹配规则定义模块,用于利用正则表达式,建立匹配规则,并将匹配规则发给分析模块;
分析模块,用于利用匹配规则定义模块发来的匹配规则,对所在设备中当前保存的所有非结构化数据进行分组,选出一组非结构化数据,将该组非结构化数据对应的匹配规则发送给调整模块,以及根据调整模块发来的调整后的匹配规则对该组非结构化数据进行调整;
调整模块,用于接收分析模块发来的匹配规则,对该匹配规则进行调整,将调整后的匹配规则发给分析模块;
其中,所述分析模块,具体用于使用当前分组对应的信息存储列表中记录的所有非结构化数据,与调整后的匹配规则进行匹配,将与调整后的匹配规则匹配的非结构化数据,保存在该调整后的匹配规则下对应的信息存储子列表中。
6.根据权利要求5所述的装置,其特征在于,
所述匹配规则定义模块,具体用于对匹配的字段、及所述匹配的字段对应的格式进行定义作为匹配规则。
7.根据权利要求5所述的装置,其特征在于,
所述分析模块,具体用于使用所在设备中当前保存的所有非结构化数据,逐个与当前建立的各条匹配规则进行匹配,并将与匹配规则匹配的非结构化数据保存在该条匹配规则对应的信息存储列表。
8.根据权利要求5所述的装置,其特征在于,
所述调整模块,具体用于针对当前选出的一组非结构化数据,对该组对应的匹配规则中字段以及字段格式做出添加、修改或删除,得到调整后的匹配规则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210250348.7A CN103577406B (zh) | 2012-07-19 | 2012-07-19 | 一种管理非结构化数据的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210250348.7A CN103577406B (zh) | 2012-07-19 | 2012-07-19 | 一种管理非结构化数据的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103577406A CN103577406A (zh) | 2014-02-12 |
CN103577406B true CN103577406B (zh) | 2019-04-16 |
Family
ID=50049214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210250348.7A Active CN103577406B (zh) | 2012-07-19 | 2012-07-19 | 一种管理非结构化数据的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103577406B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793531A (zh) * | 2014-02-26 | 2014-05-14 | 中国银行股份有限公司 | 非结构化数据管理系统 |
CN105183916A (zh) * | 2015-10-16 | 2015-12-23 | 辽宁工程技术大学 | 一种管理非结构化数据的装置和方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101784022A (zh) * | 2009-01-16 | 2010-07-21 | 北京炎黄新星网络科技有限公司 | 短信过滤、分类方法及系统 |
CN102098235A (zh) * | 2011-01-18 | 2011-06-15 | 南京邮电大学 | 一种基于文本特征分析的钓鱼邮件检测方法 |
CN102521357A (zh) * | 2011-12-13 | 2012-06-27 | 曙光信息产业(北京)有限公司 | 一种利用自动机实现文本精确匹配的系统和方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0517304D0 (en) * | 2005-08-23 | 2005-10-05 | Netronome Systems Inc | A system and method for processing and forwarding transmitted information |
CN101425083A (zh) * | 2008-10-30 | 2009-05-06 | 上海第二工业大学 | 一种非结构化格式数据搜索方法 |
CN102396181A (zh) * | 2009-11-27 | 2012-03-28 | 瑞典爱立信有限公司 | 分组分类方法和装置 |
CN102193798B (zh) * | 2011-03-22 | 2013-08-21 | 天津大学 | 基于Internet的OpenAPI自动获取方法 |
-
2012
- 2012-07-19 CN CN201210250348.7A patent/CN103577406B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101784022A (zh) * | 2009-01-16 | 2010-07-21 | 北京炎黄新星网络科技有限公司 | 短信过滤、分类方法及系统 |
CN102098235A (zh) * | 2011-01-18 | 2011-06-15 | 南京邮电大学 | 一种基于文本特征分析的钓鱼邮件检测方法 |
CN102521357A (zh) * | 2011-12-13 | 2012-06-27 | 曙光信息产业(北京)有限公司 | 一种利用自动机实现文本精确匹配的系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103577406A (zh) | 2014-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11893010B1 (en) | Data model selection and application based on data sources | |
Kaur et al. | Modeling and querying data in NoSQL databases | |
Auer et al. | Linkedgeodata: Adding a spatial dimension to the web of data | |
Stadler et al. | Linkedgeodata: A core for a web of spatial open data | |
CN103064956B (zh) | 用于搜索电子内容的方法、计算系统和计算机可读介质 | |
CN103034633B (zh) | 生成扩展的搜索结果页面摘要的方法及装置 | |
US20110196857A1 (en) | Generating Materialized Query Table Candidates | |
CN104462056B (zh) | 用于呈现基于知识的信息的方法和信息操纵系统 | |
CN106982150A (zh) | 一种基于Hadoop的移动互联网用户行为分析方法 | |
CN109388637A (zh) | 数据仓库信息处理方法、装置、系统、介质 | |
US9910870B2 (en) | System and method for creating data models from complex raw log files | |
CN106407303A (zh) | 数据存储、查询方法及装置 | |
CN102955810B (zh) | 一种网页分类方法和设备 | |
CN105282123A (zh) | 一种网络协议识别方法和装置 | |
CN105183916A (zh) | 一种管理非结构化数据的装置和方法 | |
CN106227788A (zh) | 一种以Lucene为基础的数据库查询方法 | |
CN102819600B (zh) | 面向电力生产管理系统关系数据库的关键词搜索方法 | |
CN102760150A (zh) | 基于属性重现和标签路径的网页抽取方法 | |
CN108776678A (zh) | 基于移动端NoSQL数据库的索引创建方法及装置 | |
CN112163017B (zh) | 一种知识挖掘系统及方法 | |
CN115757689A (zh) | 一种信息查询系统、方法及设备 | |
CN108900547A (zh) | 回源控制方法及装置 | |
CN109710667A (zh) | 一种基于大数据平台的多源数据融合共享实现方法及系统 | |
CN103577406B (zh) | 一种管理非结构化数据的方法及装置 | |
Liu et al. | The GEOSS clearinghouse high performance search engine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |