CN103631909B - 对大规模结构化和非结构化数据联合处理的系统及方法 - Google Patents
对大规模结构化和非结构化数据联合处理的系统及方法 Download PDFInfo
- Publication number
- CN103631909B CN103631909B CN201310615976.5A CN201310615976A CN103631909B CN 103631909 B CN103631909 B CN 103631909B CN 201310615976 A CN201310615976 A CN 201310615976A CN 103631909 B CN103631909 B CN 103631909B
- Authority
- CN
- China
- Prior art keywords
- data
- keyword
- module
- record
- key word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开一种对大规模结构化和非结构化数据联合处理的系统及方法,包括数据联合模块、关键词提取模块、关键词索引建立模块、海量数据存储模块以及查询处理模块。数据联合模块读取结构化和非结构化数据,并形成记录数据和内容数据;关键词提取模块对内容数据进行分词,形成记录标识和该条记录所包含的关键词对应关系数据;关键词索引建立模块接收关键词数据,对数据进行倒排,形成关键词和记录标识的对应关系数据,并将其存入关键词索引表。通过本专利申请的方法,能够快速有效的对大规模的非结构化文本数据和结构化数据进行联合处理和检索,解决了现有系统无法将二者进行高效联合处理的问题。
Description
技术领域
本申请属于信息技术领域,尤其涉及一种在海量数据中对结构化和非结构化数据进行联合处理的系统及方法。
背景技术
随着互联网的快速发展,网页、博客、社交网络、即时通信软件等应用迅速普及,产生了大量的内容数据。其中,用户注册信息、访问记录等数据呈现结构化的特征;而网页、博客、论坛等内容数据没有固定的数据结构,数据量庞大,呈现出非结构化的数据特征。如何对这些大规模的结构化和非结构化的数据进行有效的存储、管理和检索,成为了业界研究的热点。
传统的关系型数据库技术能够有效的进行结构化数据的存储和访问,支撑基于结构化数据的应用服务,如用户管理系统、课程管理系统,计费系统等。而对于非结构化文本数据,搜索引擎技术能够对其建立有效的索引,从而实现快速检索用户关注的文本内容。
用户在一些场景下,需要对结构化数据和非结构化数据进行联合检索。虽然有一些现有系统也能够处理类似的问题,如学术论文搜索系统、专利检索系统等,能够结合非结构化文本内容和结构化的文章属性等进行联合检索,但是这些系统无法处理大规模的互联网结构化和非结构化数据。
发明内容
本专利申请要解决的技术问题是:提供一种能够快速有效的对大规模的结构化和非结构化数据进行联合处理的方法,解决现有系统无法将二者进行高效联合处理的问题。
为了解决上述技术问题,本专利申请提供了一种对大规模结构化和非结构化数据联合处理的系统及方法。本申请所述系统包括数据联合模块、关键词提取模块、关键词索引建立模块、海量数据存储模块以及查询处理模块。在海量数据存储模块中包含两类数据表:联合数据表以及关键词索引表,联合数据表存储结构化和非结构化数据联合以后的数据,关键词索引表存放关键词和记录标识的对应关系数据,即关键词索引数据。
数据联合模块读取非结构化的文本数据,其中包含能够关联结构化数据的标识信息,如用户名、用户标识等。通过结构化数据标识信息,将非结构化文本和结构化数据进行联合,形成记录数据。联合的方法是将结构化数据中查询可能使用的字段(例如姓名、性别、年龄、职业、位置等)提取出来,和非结构化文本信息纽合起来,形成一个存储结构(如字符串、字节数组等)。记录数据中包含非结构化文本数据和结构化数据字段,并给每条记录数据赋予一个全局唯一的记录标识。同时数据联合模块将非结构化文本和记录标识结合形成内容数据。数据联合以后,将记录数据存入海量数据存储模块中的联合数据表,使用记录标识进行区分,并将内容数据发送给关键词提取模块进行处理。
海量数据存储模块用来存储大规模的结构化和非结构化数据。
关键词提取模块接收到内容数据以后,对其中的文本进行分词,并根据分词后各个词的权重信息,提取出能够代表文本大意的关键词信息,形成记录标识和该条记录所包含的关键词的对应关系数据,并将其发送给关键词索引建立模块。
关键词索引建立模块接收关键词数据,对数据进行倒排,形成关键词和记录标识的对应关系数据,并将其存入海量数据存储模块中的关键词索引表。
查询处理模块接收客户端的查询请求,根据请求中的关键词条件,查询关键词索引表,获取符合条件的记录标识集合,再根据结构化查询条件和关键词记录标识集合,查询联合记录表,获取符合条件的数据记录,返回给应用客户端。
本申请的有益后果是:
采用本专利申请所述的系统及方法,对非结构化文本数据提取出来的关键词建立索引,通过关键词索引快速获取到符合关键词条件的记录标识,通过记录标识查询联合数据表,并使用结构化查询条件进行过滤,能够快速有效的对大规模的非结构化文本数据和结构化数据进行联合处理和检索,解决了现有系统无法将二者进行高效联合处理的问题。
附图说明
附图1为本专利申请的系统架构图
附图2为检索流程图
具体实施方式
本专利申请所述的对大规模结构化和非结构化数据联合处理的系统及方法,其系统架构如附图1所示,包括数据联合模块、关键词提取模块、关键词索引建立模块、海量数据存储模块以及查询处理模块,其中,海量数据存储模块包含联合数据表以及关键词索引。
本专利申请所述海量数据模块区别于传统的关系型数据库,海量数据存储模块可以存储非关系型的非结构化和半结构化数据,具有分布式可线性扩展的体系架构,存储容量可以达到数百TB至数十PB级别。比较成熟的海量数据存储实现有开源的HBase、Hyper Table等。在海量数据存储模块的联合数据表中,使用记录标识作为记录数据的行键(Row Key),能够通过记录标识快速获取到记录数据。通过对记录数据中的结构化字段建立自定义的过滤器,能够获取到符合不同结构化查询条件的记录数据。
查询处理流程如附图2所示,具体包括如下步骤:
1)查询条件分析。首先,从查询请求中获取关键词条件和结构化查询条件;然后,从多个关键词条件中分离出不重复的关键词,生成关键词列表;同时保存关键词逻辑关系以及结构化查询条件;
2)关键词索引查询。根据分离出的关键词列表,从关键词索引表中查询所有关键词对应的记录标识,生成关键词对应的记录标识列表;
3)记录归并。根据关键词逻辑关系,对关键词查询到的关键词对应记录标识列表做集合运算,获取最终符合关键词条件的记录标识集合。关键词为“与”关系,则对应的记录标识列表做交集运算;关键词为“或”关系,则对应的记录标识列表做并集运算。
例如关键词逻辑关系为:(关键词1&&关键词2)||关键词3,则最终符合条件的记录标识集合为关键词1和关键词2对应的记录列表做交集,之后再和关键词3对应的记录标识集合做并集。
4)联合数据表查询。对符合关键词条件的记录标识集合中的每个记录标识,结合结构化查询条件做过滤,查询联合数据表,获取最终符合全部查询条件的记录,并返回给客户端。
以上实施方案的说明只适用于帮助理解本专利申请的原理,同时对本领域的一般技术人员,依据本专利申请实施例,在具体实施方式以及应用范围上均会有改变之处,因此本说明书内容不应理解为对本专利申请的限制。
Claims (4)
1.对大规模结构化和非结构化数据联合处理的系统,其特征在于:包括数据联合模块、关键词提取模块、关键词索引建立模块、海量数据存储模块以及查询处理模块,其中:
1)数据联合模块读取结构化数据和非结构化数据,通过结构化数据标识信息将非结构化数据和结构化数据进行联合,形成记录数据;
2)给每条记录数据赋予一个全局唯一的记录标识,将非结构化数据和该记录标识结合形成内容数据;将记录数据存入海量数据存储模块中,将内容数据发送给关键词提取模块;
3)关键词提取模块接收到内容数据以后,对其中的文本进行分词,并根据分词后各个词的权重信息,提取出能够代表文本大意的关键词信息,形成记录标识和该条记录所包含的关键词对应关系数据,并将其发送给关键词索引建立模块;
4)关键词索引建立模块接收关键词数据,对数据进行倒排,形成关键词和记录标识的对应关系数据,并将其存入海量数据存储模块中。
2.对大规模结构化和非结构化数据联合处理的方法,其特征在于,数据存储过程包括如下步骤:
1)数据联合模块读取结构化数据和非结构化数据,通过结构化数据标识信息将非结构化数据和结构化数据进行联合,形成记录数据,联合的方法是将结构化数据中查询可能使用的字段提取出来,和非结构化文本信息组合起来,形成一个存储结构;
2)给每条记录数据赋予一个全局唯一的记录标识,将非结构化数据和该记录标识结合形成内容数据;
3)将记录数据存入海量数据存储模块中,将内容数据发送给关键词提取模块;
4)关键词提取模块接收到内容数据以后,对其中的文本进行分词,并根据分词后各个词的权重信息,提取出能够代表文本大意的关键词信息,形成记录标识和该条记录所包含的关键词对应关系数据,并将其发送给关键词索引建立模块;
5)关键词索引建立模块接收关键词数据,对数据进行倒排,形成关键词和记录标识的对应关系数据,并将其存入海量数据存储模块中。
3.如权利要求2所述的对大规模结构化和非结构化数据联合处理的方法,其特征在于:海量数据存储模块中包含联合数据表以及关键词索引表;联合数据表存储记录数据,关键词索引表存储关键词索引数据。
4.如权利要求2所述的对大规模结构化和非结构化数据联合处理的方法,其特征在于,进行数据检索时,包括如下步骤:
1)从查询请求中获取关键词条件和结构化查询条件,从关键词条件中分离出不重复的关键词,生成关键词列表;同时保存关键词逻辑关系以及结构化查询条件;
2)根据分离出的关键词列表,从关键词索引表中查询所有关键词对应的记录标识,生成关键词对应的记录标识列表;
3)根据关键词逻辑关系,对关键词查询到的关键词对应记录标识列表做集合运算,关键词为“与”关系,则对应的记录标识列表做交集运算,关键词为“或”关系,则对应的记录标识列表做并集运算,获取最终符合关键词条件的记录标识集合;
4)对符合关键词条件的记录标识集合中的每个记录标识,结合结构化查询条件做过滤,查询联合数据表,获取最终符合全部查询条件的记录。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310615976.5A CN103631909B (zh) | 2013-11-26 | 2013-11-26 | 对大规模结构化和非结构化数据联合处理的系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310615976.5A CN103631909B (zh) | 2013-11-26 | 2013-11-26 | 对大规模结构化和非结构化数据联合处理的系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103631909A CN103631909A (zh) | 2014-03-12 |
CN103631909B true CN103631909B (zh) | 2017-01-11 |
Family
ID=50212950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310615976.5A Active CN103631909B (zh) | 2013-11-26 | 2013-11-26 | 对大规模结构化和非结构化数据联合处理的系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103631909B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104765830B (zh) * | 2015-04-13 | 2018-11-20 | 天脉聚源(北京)传媒科技有限公司 | 一种信息搜索方法及装置 |
CN104765834B (zh) * | 2015-04-13 | 2019-01-18 | 天脉聚源(北京)传媒科技有限公司 | 一种信息搜索方法及装置 |
CN104765831B (zh) * | 2015-04-13 | 2018-06-19 | 天脉聚源(北京)传媒科技有限公司 | 一种词典表的生成及其应用方法及装置 |
CN104765828B (zh) * | 2015-04-13 | 2018-06-19 | 天脉聚源(北京)传媒科技有限公司 | 一种词典数据表的生成及应用方法和装置 |
CN104765833B (zh) * | 2015-04-13 | 2018-06-19 | 天脉聚源(北京)传媒科技有限公司 | 一种词语关联表的生成方法及装置 |
CN104765827B (zh) * | 2015-04-13 | 2018-01-05 | 天脉聚源(北京)传媒科技有限公司 | 一种信息检索方法及装置 |
CN104765829B (zh) * | 2015-04-13 | 2018-06-19 | 天脉聚源(北京)传媒科技有限公司 | 一种信息检索方法及装置 |
CN106959963B (zh) * | 2016-01-12 | 2020-04-28 | 杭州海康威视数字技术股份有限公司 | 一种数据查询方法、装置及系统 |
CN107085595B (zh) * | 2017-03-23 | 2023-07-14 | 国网浙江省电力公司信息通信分公司 | 一种电力行业非结构化元数据关联方法及系统 |
CN110265032A (zh) * | 2019-06-05 | 2019-09-20 | 平安科技(深圳)有限公司 | 会议数据分析处理方法、装置、计算机设备和存储介质 |
CN112732946B (zh) * | 2019-10-12 | 2023-04-18 | 四川医枢科技有限责任公司 | 一种医学文献的模块化数据分析和数据库建立方法 |
US11551146B2 (en) | 2020-04-14 | 2023-01-10 | International Business Machines Corporation | Automated non-native table representation annotation for machine-learning models |
CN112395292B (zh) * | 2020-11-25 | 2024-03-29 | 电信科学技术第十研究所有限公司 | 一种数据特征提取、匹配方法及装置 |
CN114201532A (zh) * | 2021-12-09 | 2022-03-18 | 富途网络科技(深圳)有限公司 | 基于esop系统的数据查询方法、装置、介质及设备 |
CN116450727B (zh) * | 2023-06-19 | 2023-08-18 | 中国人民解放军联勤保障部队第九八〇医院 | 医疗数据处理方法、装置、终端设备和可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1761962A (zh) * | 2003-03-21 | 2006-04-19 | 国际商业机器公司 | 将非结构化数据实时聚集为结构化数据以便关系数据库引擎进行sql处理 |
CN101136014A (zh) * | 2006-09-01 | 2008-03-05 | 北大方正集团有限公司 | 一种支持全文检索系统同时检索数值类型数据域的方法 |
CN101477568A (zh) * | 2009-02-12 | 2009-07-08 | 清华大学 | 一种结构化数据和非结构化数据综合检索的方法 |
CN102200974A (zh) * | 2010-03-25 | 2011-09-28 | 北京师范大学 | 一种用于搜索引擎的统一信息检索智能体系统与方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8290967B2 (en) * | 2007-04-19 | 2012-10-16 | Barnesandnoble.Com Llc | Indexing and search query processing |
US8442982B2 (en) * | 2010-11-05 | 2013-05-14 | Apple Inc. | Extended database search |
US8521743B2 (en) * | 2010-12-16 | 2013-08-27 | Authoritude | System and method for performing authority based content searching |
-
2013
- 2013-11-26 CN CN201310615976.5A patent/CN103631909B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1761962A (zh) * | 2003-03-21 | 2006-04-19 | 国际商业机器公司 | 将非结构化数据实时聚集为结构化数据以便关系数据库引擎进行sql处理 |
CN101136014A (zh) * | 2006-09-01 | 2008-03-05 | 北大方正集团有限公司 | 一种支持全文检索系统同时检索数值类型数据域的方法 |
CN101477568A (zh) * | 2009-02-12 | 2009-07-08 | 清华大学 | 一种结构化数据和非结构化数据综合检索的方法 |
CN102200974A (zh) * | 2010-03-25 | 2011-09-28 | 北京师范大学 | 一种用于搜索引擎的统一信息检索智能体系统与方法 |
Non-Patent Citations (2)
Title |
---|
半结构化数据查询的处理和优化;陈滢;《软件学报》;19990831;883-890 * |
非结构化文本数据的GIS描述性查询方法;蒲海霞;《计算机应用》;20120901;2483-2487 * |
Also Published As
Publication number | Publication date |
---|---|
CN103631909A (zh) | 2014-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103631909B (zh) | 对大规模结构化和非结构化数据联合处理的系统及方法 | |
CN106227800B (zh) | 一种高度关联大数据的存储方法及管理系统 | |
CN104750681B (zh) | 一种海量数据的处理方法及装置 | |
CN110704411B (zh) | 适用于艺术领域的知识图谱搭建方法及装置、电子设备 | |
CN104239513B (zh) | 一种面向领域数据的语义检索方法 | |
CN103049575B (zh) | 一种主题自适应的学术会议搜索系统 | |
CN104850601B (zh) | 基于图数据库的警务实时分析应用平台及其构建方法 | |
CN104391908B (zh) | 一种图上基于局部敏感哈希的多关键字索引方法 | |
CN106294695A (zh) | 一种面向实时大数据搜索引擎的实现方法 | |
CN106874425B (zh) | 基于Storm的实时关键词近似搜索算法 | |
CN110750599B (zh) | 一种基于实体建模的关联信息抽取和显示方法 | |
CN103198136B (zh) | 一种基于时序关联的个人电脑文件查询方法 | |
CN103440249A (zh) | 一种非结构化数据快速检索的系统及方法 | |
Wang et al. | A novel blockchain oracle implementation scheme based on application specific knowledge engines | |
Gao et al. | Real-time social media retrieval with spatial, temporal and social constraints | |
Zhang et al. | Efficient spatio-textual similarity join using mapreduce | |
Kricke et al. | Graph data transformations in Gradoop | |
CN101963993B (zh) | 一种数据库单表记录快速查找的方法 | |
CN102156749B (zh) | 一种地图网站的自动搜索判别方法、系统及其分布式服务器系统 | |
CN105069101A (zh) | 分布式索引构建及检索方法 | |
Ahamed et al. | An efficient mechanism for deep web data extraction based on tree-structured web pattern matching | |
Tang et al. | SMPKR: Search engine for Internet of Things | |
Alsubaiee et al. | Asterix: scalable warehouse-style web data integration | |
CN103365960A (zh) | 电力多级调度管理结构化数据的离线搜索方法 | |
CN105824956A (zh) | 一种基于链表结构的倒排索引模型及其构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |