CN105183916A - 一种管理非结构化数据的装置和方法 - Google Patents

一种管理非结构化数据的装置和方法 Download PDF

Info

Publication number
CN105183916A
CN105183916A CN201510665574.5A CN201510665574A CN105183916A CN 105183916 A CN105183916 A CN 105183916A CN 201510665574 A CN201510665574 A CN 201510665574A CN 105183916 A CN105183916 A CN 105183916A
Authority
CN
China
Prior art keywords
data
module
matched rule
unstructured
analysis module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510665574.5A
Other languages
English (en)
Inventor
张艳平
付治国
解书华
韩雪峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Technical University
Original Assignee
Liaoning Technical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Technical University filed Critical Liaoning Technical University
Priority to CN201510665574.5A priority Critical patent/CN105183916A/zh
Publication of CN105183916A publication Critical patent/CN105183916A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种管理非结构化数据的装置,其包括服务器、数据解析模块、原始数据导入模块、数据库、匹配规则定义模块、分析模块和调整模块,服务器连接用户终端,服务器的数据输出端依次连接数据解析模块和原始数据导入模块,原始数据导入模块通过一对数据输出端口分别连接数据库和匹配规则定义模块,匹配规则定义模块依次连接分析模块和调整模块,分析模块的数据输出端口连接数据库。本发明能够实时的采集用户的访问数据,通过匹配规则定义模块、分析模块和调整模块能够对每条数据进行扩展,并即使的分类保存到数据库中,从而保证服务器在接受访问时能够快速的调取数据,使得非结构化数据的检索更加快捷、范围更加广泛和准确。

Description

一种管理非结构化数据的装置和方法
技术领域
本发明涉及非结构化数据管理领域,具体涉及一种管理非结构化数据的装置和方法。
背景技术
所有信息分为两类:一类信息能够用数据或统一的结构加以表示,成为结构化数据,如数字、符号等;另一类信息无法用数字或统一的结构表示,比如文本、图片、网页、各类报表、图像和音频/视频信息等等。随着网络技术的发展非结构化数据的数量口趋增大。
目前,对非结构化数据进行管理,主要使用全文索引技术,具体的:建立倒排索引文件,根据关键字对非结构化数据进行内容检索,再对检索到的内容进行处理。索引是对数据库表中的一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息,大大提高了数据库检索的性能。数据包括两大类:结构化数据和非结构化数据,实际应用中的数据可能混合了结构化和非结构化的数据。对结构化的数据进行检索称之为结构化检索,反之,对非结构化数据进行检索称之为非结构化检索。但是,这种对非结构化数据进行管理的方法,由于每次索引都需要进行全文搜索,且只能对预置的关键字进行搜索,无法根据需要进行扩展以便更准确的查找。
可见,现有技术中对非结构化数据库信息进行管理,存在搜索周期长、查找准确度不高、以及扩展性差的问题。
发明内容
针对以上问题,本发明提供了一种能够实时的采集用户的访问数据并对数据进行分类,将结构化数据直接储存,非结构化数据的检索更加快捷、范围更加广泛、更加准确的管理非结构化数据的装置和方法。
本发明的技术方案如下:
上述的一种管理非结构化数据的装置,包括服务器、数据解析模块、原始数据导入模块、数据库、匹配规则定义模块、分析模块和调整模块,所述服务器连接用户终端,所述服务器的数据输出端依次连接所述数据解析模块和原始数据导入模块,所述原始数据导入模块通过一对数据输出端口分别连接所述数据库和匹配规则定义模块,所述匹配规则定义模块依次连接所述分析模块和调整模块,所述分析模块的数据输出端口连接数据库。
一种管理非结构化数据的方法,其具体步骤为:
(1)通过服务器对用户终端所产生的数据进行综合采集,得到综合数据;
(2)再由服务器将综合数据发送到数据解析模块,数据解析模块对每一条数据进行解析,根据数据类型、数据格式,对无效数据和错误数据进行删除,并将有效数据分为结构化数据和非结构数据,放入原始数据队列,最后将非结构化数据通过原始数据导入模块导入匹配规则定义模块;
(3)匹配规则定义模块根据正则表达式建立若干条匹配规则,从非结构化数据中提取含有匹配字段的数据内容,并将含有匹配字段的数据内容送入到分析模块内;
(4)分析模块对含有匹配字段的数据内容进行分析,抓取数据内容内的关键字段,分析模块将关键字段进行储存;调整模块接收分析模块发来的数据内容并进行调整后,再由分析模块将调整后的数据内容上传到服务器。
所述的一种管理非结构化数据的方法,其中,所述步骤(2)中的结构化数据是通过原始数据导入模块直接导入数据库存储。
所述的一种管理非结构化数据的方法,其中,所述步骤(3)中的匹配规则包括对匹配的字段的定义以及匹配的字段对应的格式的定义。
所述的一种管理非结构化数据的方法,其中,所述步骤(3)中匹配规则定义模块是利用正则表达式建立匹配规则,并将匹配规则发给分析模块。
所述的一种管理非结构化数据的方法,其中,所述步骤(4)中的调整模块用于接收分析模块发来的匹配规则,对该匹配规则进行调整,将调整后的匹配规则发给分析模块。
所述的一种管理非结构化数据的方法,其中,所述分析模块利用匹配规则定义模块发来的匹配规则,对原始数据导入模块导入的所有非结构化数据进行分组,选出一组非结构化数据,将该组非结构化数据对应的匹配规则发送给调整模块,以及根据调整模块发来的调整后的匹配规则对该组非结构化数据进行调整。
有益效果:
本发明管理非结构化数据的装置和方法构思合理,能够实时的采集用户的访问数据,并对数据进行分类,将结构化数据直接储存,非结构化数据通过匹配规则定义模块、分析模块和调整模块能够对每条数据进行扩展,并即使的分类保存到数据库中,从而保证服务器在接受访问时能够快速的调取数据,使得非结构化数据的检索更加快捷、范围更加广泛,同时更加准确。
附图说明
图1为本发明管理非结构化数据的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明管理非结构化数据的装置,包括服务器1、数据解析模块2、原始数据导入模块3、数据库4、匹配规则定义模块5、分析模块6和调整模块7。
该服务器1连接用户终端,从用户终端采集综合类的数据,服务器1数据输出端依次连接数据解析模块2和原始数据导入模块3,通过数据解析模块2对综合类的数据进行分析,从而实现数据类型、数据格式和数据结构的判断,将错误的数据删除,将结构化数据和非结构数据进行分类,并将结构化数据和非结构数据放入原始数据队列,原始数据导入模块3的两个数据输出端口分别连接数据库4和匹配规则定义模块5,从而将结构化数据直接保存,而非结构数据送入到匹配规则定义模块5中,匹配规则定义模块5依次连接分析模块6和调整模块7,通过匹配规则定义模块5筛选出需要的数据,分析模块6对每组数据进行分析,抓取关键字段,而调整模块7对每组数据中的关键字段进行删除、添加等修改,其中分析模块6的数据输出端口连接数据库4,从而合理、简练的管理非结构化数据。
该匹配规则定义模块5根据实际需要建立若干条匹配规则,对匹配的字段、及所述匹配的字段对应的格式的定义,可以使用VisualStudio.NET编写,比如,使用VisualStudio.NET设定匹配规则为:
REGEX=Atcachettologinbyuser:(.*):login(.*)\.
FORMAT=username::“$1”login_result::“$2”
其中,“REGEX”为VisualStudio.NET中的正则表达式类,“Atcachettologinbyuser:(.*):login(.*)\.”表示所要匹配的字段为“用户名”字段以及“注册”字段;”FORMAT=username::“$1”login_result::“$2”表示字段内容的限定,即“username”及“loginresult”格式的定义。
本发明管理非结构化数据的方法,其具体步骤为:
(1)通过服务器1对用户终端所产生的数据进行综合采集,得到综合数据;
(2)服务器1将综合数据发送到数据解析模块2,数据解析模块2对每一条数据进行解析,根据数据类型、数据格式,对无效数据和错误数据进行删除,并将有效数据分为结构化数据和非结构数据,放入原始数据队列,最后将结构化数据通过原始数据导入模块3导入数据库4存储,而非结构化数据通过原始数据导入模块3导入匹配规则定义模块5;
(3)匹配规则定义模块5根据正则表达式建立若干条匹配规则,从非结构化数据中提取含有匹配字段的数据内容,并将含有匹配字段的数据内容送入到分析模块6;
(4)分析模块6对含有匹配字段的数据内容进行分析,抓取关键字段,而分析模块6的输出接口连接数据库4,从而将非结构化数据进行储存;分析模块6连接调整模块7,调整模块7对每组数据中的关键字段进行删除、添加等修改,并通过分析模块6上传到服务器1,从而实现非结构化数据的分析。
其中,该匹配规则定义模块5是利用正则表达式,建立匹配规则,并将匹配规则发给分析模块6。
该分析模块6是利用匹配规则定义模块5发来的匹配规则,对原始数据导入模块3导入的所有非结构化数据进行分组,选出一组非结构化数据,将该组非结构化数据对应的匹配规则发送给调整模块7,以及根据调整模块7发来的调整后的匹配规则对该组非结构化数据进行调整。
该调整模块7是用于接收分析模块6发来的匹配规则,对该匹配规则进行调整,将调整后的匹配规则发给分析模块6。
本发明能够实时的采集用户的访问数据,并对数据进行分类,通过匹配规则定义模块、分析模块和调整模块能够对每条数据进行扩展,并即使的分类保存到数据库中,从而保证服务器在接受访问时能够快速的调取数据,使得非结构化数据的检索更加快捷、范围更加准确。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (7)

1.一种管理非结构化数据的装置,包括服务器、数据解析模块、原始数据导入模块、数据库、匹配规则定义模块、分析模块和调整模块,其特征在于,所述服务器连接用户终端,所述服务器的数据输出端依次连接所述数据解析模块和原始数据导入模块,所述原始数据导入模块通过一对数据输出端口分别连接所述数据库和匹配规则定义模块,所述匹配规则定义模块依次连接所述分析模块和调整模块,所述分析模块的数据输出端口连接数据库。
2.一种如权利要求1所述的管理非结构化数据的装置的管理非结构化数据的方法,其特征在于,具体步骤为:
(1)通过服务器对用户终端所产生的数据进行综合采集,得到综合数据;
(2)再由服务器将综合数据发送到数据解析模块,数据解析模块对每一条数据进行解析,根据数据类型、数据格式,对无效数据和错误数据进行删除,并将有效数据分为结构化数据和非结构数据,放入原始数据队列,最后将非结构化数据通过原始数据导入模块导入匹配规则定义模块;
(3)匹配规则定义模块根据正则表达式建立若干条匹配规则,从非结构化数据中提取含有匹配字段的数据内容,并将含有匹配字段的数据内容送入到分析模块内;
(4)分析模块对含有匹配字段的数据内容进行分析,抓取数据内容内的关键字段,分析模块将关键字段进行储存;调整模块接收分析模块发来的数据内容并进行调整后,再由分析模块将调整后的数据内容上传到服务器。
3.如权利要求2所述的一种管理非结构化数据的方法,其特征在于,所述步骤(2)中的结构化数据是通过原始数据导入模块直接导入数据库存储。
4.如权利要求2所述的一种管理非结构化数据的方法,其特征在于,所述步骤(3)中的匹配规则包括对匹配的字段的定义以及匹配的字段对应的格式的定义。
5.如权利要求2所述的一种管理非结构化数据的方法,其特征在于,所述步骤(3)中匹配规则定义模块是利用正则表达式建立匹配规则,并将匹配规则发给分析模块。
6.如权利要求2所述的一种管理非结构化数据的方法,其特征在于,所述步骤(4)中的调整模块用于接收分析模块发来的匹配规则,对该匹配规则进行调整,将调整后的匹配规则发给分析模块。
7.如权利要求6所述的一种管理非结构化数据的装置的方法,其特征在于,所述分析模块利用匹配规则定义模块发来的匹配规则,对原始数据导入模块导入的所有非结构化数据进行分组,选出一组非结构化数据,将该组非结构化数据对应的匹配规则发送给调整模块,以及根据调整模块发来的调整后的匹配规则对该组非结构化数据进行调整。
CN201510665574.5A 2015-10-16 2015-10-16 一种管理非结构化数据的装置和方法 Pending CN105183916A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510665574.5A CN105183916A (zh) 2015-10-16 2015-10-16 一种管理非结构化数据的装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510665574.5A CN105183916A (zh) 2015-10-16 2015-10-16 一种管理非结构化数据的装置和方法

Publications (1)

Publication Number Publication Date
CN105183916A true CN105183916A (zh) 2015-12-23

Family

ID=54905997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510665574.5A Pending CN105183916A (zh) 2015-10-16 2015-10-16 一种管理非结构化数据的装置和方法

Country Status (1)

Country Link
CN (1) CN105183916A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126603A (zh) * 2016-06-21 2016-11-16 武汉斗鱼网络科技有限公司 一种分层模块化的数据采集方法与装置
CN109033330A (zh) * 2018-07-19 2018-12-18 北京车联天下信息技术有限公司 大数据清洗方法、装置和服务器
CN109408593A (zh) * 2018-10-16 2019-03-01 国家电网有限公司 一种数据库管理系统、装置及方法
CN109542756A (zh) * 2018-09-29 2019-03-29 中国平安人寿保险股份有限公司 自动化配置脚本的方法、装置、电子设备及存储介质
CN110442671A (zh) * 2019-08-02 2019-11-12 深圳百胜扬工业电子商务平台发展有限公司 一种非结构化数据处理的方法和系统
CN111143342A (zh) * 2019-12-26 2020-05-12 南通科普特信息技术有限公司 一种非结构化数据的处理方法及防复制加密传输系统
CN113253685A (zh) * 2021-05-31 2021-08-13 航天中认软件测评科技(北京)有限责任公司 一种工业数据采集方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440290A (zh) * 2013-08-16 2013-12-11 曙光信息产业股份有限公司 大数据加载系统和方法
CN103577406A (zh) * 2012-07-19 2014-02-12 深圳中兴网信科技有限公司 一种管理非结构化数据的方法及装置
CN103984761A (zh) * 2014-03-28 2014-08-13 广东轩辕网络科技股份有限公司 海量异构数据的存储方法及系统
CN104142949A (zh) * 2013-05-10 2014-11-12 北京航天长峰科技工业集团有限公司 一种基于结构化和非结构化数据的统一管理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577406A (zh) * 2012-07-19 2014-02-12 深圳中兴网信科技有限公司 一种管理非结构化数据的方法及装置
CN104142949A (zh) * 2013-05-10 2014-11-12 北京航天长峰科技工业集团有限公司 一种基于结构化和非结构化数据的统一管理方法
CN103440290A (zh) * 2013-08-16 2013-12-11 曙光信息产业股份有限公司 大数据加载系统和方法
CN103984761A (zh) * 2014-03-28 2014-08-13 广东轩辕网络科技股份有限公司 海量异构数据的存储方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126603A (zh) * 2016-06-21 2016-11-16 武汉斗鱼网络科技有限公司 一种分层模块化的数据采集方法与装置
CN109033330A (zh) * 2018-07-19 2018-12-18 北京车联天下信息技术有限公司 大数据清洗方法、装置和服务器
CN109542756A (zh) * 2018-09-29 2019-03-29 中国平安人寿保险股份有限公司 自动化配置脚本的方法、装置、电子设备及存储介质
CN109408593A (zh) * 2018-10-16 2019-03-01 国家电网有限公司 一种数据库管理系统、装置及方法
CN110442671A (zh) * 2019-08-02 2019-11-12 深圳百胜扬工业电子商务平台发展有限公司 一种非结构化数据处理的方法和系统
CN111143342A (zh) * 2019-12-26 2020-05-12 南通科普特信息技术有限公司 一种非结构化数据的处理方法及防复制加密传输系统
CN113253685A (zh) * 2021-05-31 2021-08-13 航天中认软件测评科技(北京)有限责任公司 一种工业数据采集方法、装置、设备及介质
CN113253685B (zh) * 2021-05-31 2021-09-24 航天中认软件测评科技(北京)有限责任公司 一种工业数据采集方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN105183916A (zh) 一种管理非结构化数据的装置和方法
CN111259006B (zh) 一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务方法及系统
US11886430B1 (en) Intent-based natural language processing system
CN107798038B (zh) 数据响应方法及数据响应设备
Prakash et al. Geo-identification of web users through logs using ELK stack
US11775767B1 (en) Systems and methods for automated iterative population of responses using artificial intelligence
CN108632100B (zh) 发现与呈现网络应用访问信息的方法和系统
US11494395B2 (en) Creating dashboards for viewing data in a data storage system based on natural language requests
CN106982150A (zh) 一种基于Hadoop的移动互联网用户行为分析方法
CN105095369A (zh) 网址匹配方法及装置
US11824729B2 (en) Generating a three-dimensional cityscape including a cluster of nodes
US10901811B2 (en) Creating alerts associated with a data storage system based on natural language requests
CN104572757A (zh) 微博群体处理方法及装置
CN115757689A (zh) 一种信息查询系统、方法及设备
CN111611448A (zh) 知识驱动的联合大数据查询和分析平台
CN113190645A (zh) 一种索引结构建立方法、装置、设备及存储介质
CN114547077A (zh) 基层政务表格数据智能处理系统及方法
CN108255963A (zh) 一种基于互联网的新闻信息检索的控制方法及装置
CN112307318A (zh) 一种内容发布方法、系统及装置
US9984107B2 (en) Database joins using uncertain criteria
Bardi et al. Coping with interoperability and sustainability in cultural heritage aggregative data infrastructures
CN116186116A (zh) 一种基于等保测评的资产问题分析方法
CN108520012A (zh) 基于机器学习的移动互联网用户评论挖掘方法
CN103577406B (zh) 一种管理非结构化数据的方法及装置
CN106503118A (zh) 一种基于hc‑table的数据分拣系统及其实现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151223