CN107038225A - 信息智能检索系统的检索方法 - Google Patents
信息智能检索系统的检索方法 Download PDFInfo
- Publication number
- CN107038225A CN107038225A CN201710206556.XA CN201710206556A CN107038225A CN 107038225 A CN107038225 A CN 107038225A CN 201710206556 A CN201710206556 A CN 201710206556A CN 107038225 A CN107038225 A CN 107038225A
- Authority
- CN
- China
- Prior art keywords
- word
- data
- dictionary
- hdfs
- carried out
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Artificial Intelligence (AREA)
- Automation & Control Theory (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种信息智能检索系统的检索方法,其特征在于,所述方法如下,1)平台系统首先从数据采集节点通过日志传输系统采集数据2)将采集的数据通过调取hadoop api传入hadoop大数据集群的hdfs分布式文件存储存3)然后根据平台相关业务确定好词典,通过平台的接口进行定时处理,将hdfs存储的元数据进行预处理,清洗无意义的数据和因编码格式产生的中文乱码 4)在此基础上,根据词典的词元分词,将词进行倒排序,进行数据分片,分布式存储在集群磁盘中,形成索引,使得数据能够进行全文检索;本发明实现自然语言处理分词,建立索引实现基于大数据量下的全文检索,对所需信息进行搜索内容快速匹配。
Description
技术领域
本发明涉及一种检索方法,具体涉及一种信息智能检索系统及检索方法,属于信息检索技术领域。
背景技术
随着计算机技术、网络技术和通信技术的发展和应用,各行各业信息化也得到了突飞猛进的发展。近年来,随着大量的信息化系统的建设,系统存储的数据量以几何级开始增长。如何在庞大的信息中快速、精确地检索数据,已经成为信息化发展的重点,建全信息智能检索能够有效地满足这个需求。
建立一个全文检索系统,首先要将源文档转化为能够进行文本查找的全文数据库,包括全文的分割处理以及检索标识的提取,称为全文本的前处理工作。众所周知,英文是以词为单位的,单词之间以空格分割,而中文是字的序列,词与词之间没有间隔标记,使得词的界定缺乏自然标准。而“词”又是自然语言处理的一个基本单位,是最小的能够独立活动的有意义的语 言成分。显而易见,自动识别词的边界,将书面汉字序列切分成正确的词串的中文分词问题,无疑是实现中文信息处理的首要问题。
同时,传统数据库的大数据检索,效率受限于磁盘io读写和传统数据库的框架,不能实现大数据量下的快速的检索。因此,迫切的需要一种新的方案解决该技术问题。
发明内容
本发明正是针对现有技术中存在的技术问题,提供一种信息智能检索系统的检索方法,本发明实现自然语言处理分词,建立索引实现基于大数据量下的全文检索,对所需信息进行搜索内容快速匹配。
为了实现上述目的,本发明的技术方案如下,一种信息智能检索系统的检索方法,其特征在于,所述方法如下,1)平台系统首先从数据采集节点通过日志传输系统采集数据2)将采集的数据通过调取hadoop api传入hadoop大数据集群的hdfs分布式文件存储存3)然后根据平台相关业务确定好词典,通过平台的接口进行定时处理,将hdfs存储的元数据进行预处理,清洗无意义的数据和因编码格式产生的中文乱码,4)在此基础上,根据词典的词元分词,将词进行倒排序,进行数据分片,分布式存储在集群磁盘中,形成索引,使得数据能够进行全文检索。所述通过存储在hdfs上的的信息数据,进行数据清洗,预处理,然后导入进信息智能检索平台,平台中现在有10亿条数据,能做到毫秒级的相应,对地址姓名等能做到模糊查询和关键字匹配。同时平台在舆情搜索中也有应用。
作为本发明的一种改进,所述步骤3)中需要进行分词处理,所述分词处理使用了“正向迭代最细粒度切分算法”,简单说来就是: Segmenter会逐字识别加载在内存中的字典词元,从中选取最优的方案,其基本思想为:假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典,若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来;如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理……;如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止,这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理,直到文档被扫描完为止。上述技术方案中,在海量数据的信息中,进行毫秒级全文检索匹配,并返回相应的检索、分析结果。信息的内容很长很杂,搜索输入的内容可能没有连续性,传统数据库无法实现。需要从中提取关键字,进行关键字的倒排序和分类,以实现快速的检索匹配。因为信息的数据量很大,数据在hdfs进行分布式存储。需要先从hdfs存储中读取相应的数据进行转换,将数据导入智能检索平台进行存储转换。内存和磁盘需要进行充分使用,尽可能减少传统数据库或者检索中磁盘io所造成的性能瓶颈。
相对于现有技术,本发明具有如下优点,1)索引文件格式独立于应用平台,信息智能检索定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件;2)在传统全文检索引擎的倒排索引的基础上,实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优化的目的。对亿级别的海量数据能做到毫秒级的响应。查询实现中默认实现了布尔操作、模糊查询(Fuzzy Search[11])、分组查询等等;3)能够有效的将hdfs数据清洗预处理,导入信息搜索平台,保证数据的准时实现。
附图说明
图1 为倒排序原理图;
图2为索引建立示意图;
图3、图4为分词转换过程示意图;
图5为整个检索过程示意图。
具体实施方式:
为了加深对本发明的理解,下面结合附图对本实施例做详细的说明。
实施例1:参见图,5,一种信息智能检索系统的检索方法,所述方法如下,1)平台系统首先从数据采集节点通过日志传输系统采集数据2)将采集的数据通过调取hadoop api传入hadoop大数据集群的hdfs分布式文件存储存3)然后根据平台相关业务确定好词典,通过平台的接口进行定时处理,将hdfs存储的元数据进行预处理,清洗无意义的数据和因编码格式产生的中文乱码,4)在此基础上,根据词典的词元分词,将词进行倒排序,进行数据分片,分布式存储在集群磁盘中,形成索引,使得数据能够进行全文检索。所述通过存储在hdfs上的的信息数据,进行数据清洗,预处理,然后导入进信息智能检索平台,平台中现在有10亿条数据,能做到毫秒级的相应,对地址姓名等能做到模糊查询和关键字匹配。同时平台在舆情搜索中也有应用。
参见图3,所述步骤3)中需要进行分词处理,所述分词处理使用了“正向迭代最细粒度切分算法”,简单说来就是: Segmenter会逐字识别加载在内存中的字典词元,从中选取最优的方案,其基本思想为:假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典,若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来;如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理……;如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止,这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理,直到文档被扫描完为止。
在传统的数据库中,一个字段存一个值,但是这对于全文搜索是不足的。想要让文本中的而每个单词都可以被搜索,这意味着数据库需要多个值。支持一个字段多个值的最佳数据结构是倒排索引。倒排索引包含了出现在所有文档中唯一的值或或词的有序列表,以及每个词所属的文档列表,如图1,因为数据实时性,需要保证索引的动态更新。所以设计了使用不只一个的索引。 新添额外的索引来反映新的更改来替代重写所有倒序索引。所以引入了per-segment搜索的概念一个segment是一个完整的倒序索引的子集,索引是一个segments的集合,每个segment都包含一些提交点新的文档建立时首先在内存建立索引buffer。然后再被写入到磁盘的segment。如图2。我们要找概率最大的分词结构的话,可以看做是一个动态规划问题, 也就是说,要找整个句子的最大概率结构,对于其子串也应该是最大概率的。
对于句子任意一个位置t上的字,我们要从词典中找到其所有可能的词组形式,如上图中的第一个字,可能有:中、中国、中国人三种组合,第四个字可能只有民,经过整理,我们的分词结构可以转换成以下的有向图模型,如图4写的定时任务,调用hdfs接口,从hdfs到处数据,预处理数据,进行乱码、无意义字符清洗,导入到信息智能搜索中。
需要说明的是上述实施例,并非用来限定本发明的保护范围,在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。
Claims (2)
1.一种信息智能检索系统的检索方法,其特征在于,1)平台系统首先从数据采集节点通过日志传输系统采集数据2)将采集的数据通过调取hadoop api传入hadoop大数据集群的hdfs分布式文件存储存3)然后根据平台相关业务确定好词典,通过平台的接口进行定时处理,将hdfs存储的元数据进行预处理,清洗无意义的数据和因编码格式产生的中文乱码,4)在此基础上,根据词典的词元分词,将词进行倒排序,进行数据分片,分布式存储在集群磁盘中,形成索引,使得数据能够进行全文检索。
2.根据权利要求1所述的信息智能检索系统的检索方法,其特征在于,所述步骤3)中需要进行分词处理,所述分词处理使用了“正向迭代最细粒度切分算法”, Segmenter会逐字识别加载在内存中的字典词元,从中选取最优的方案,其基本思想为:假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典,若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来;如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理……;如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止,这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理,直到文档被扫描完为止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710206556.XA CN107038225A (zh) | 2017-03-31 | 2017-03-31 | 信息智能检索系统的检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710206556.XA CN107038225A (zh) | 2017-03-31 | 2017-03-31 | 信息智能检索系统的检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107038225A true CN107038225A (zh) | 2017-08-11 |
Family
ID=59534266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710206556.XA Pending CN107038225A (zh) | 2017-03-31 | 2017-03-31 | 信息智能检索系统的检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107038225A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573048A (zh) * | 2018-04-19 | 2018-09-25 | 中译语通科技股份有限公司 | 一种多维数据接入方法及系统、大数据接入系统 |
CN108874956A (zh) * | 2018-06-05 | 2018-11-23 | 中国平安人寿保险股份有限公司 | 海量文件检索方法、装置、计算机设备及存储介质 |
CN109241432A (zh) * | 2018-09-07 | 2019-01-18 | 云南东巴文信息技术有限公司 | 离散数据采集分析系统及方法 |
CN109885536A (zh) * | 2019-02-26 | 2019-06-14 | 深圳众享互联科技有限公司 | 一种基于分布式数据分片存储和模糊查找方法 |
CN109933660A (zh) * | 2019-03-25 | 2019-06-25 | 广东石油化工学院 | 面向自然语言形式的基于讲义和Stack Overflow的API信息检索方法 |
CN110096478A (zh) * | 2019-05-09 | 2019-08-06 | 中国联合网络通信集团有限公司 | 文档索引生成方法及设备 |
CN110767227A (zh) * | 2019-12-30 | 2020-02-07 | 浙江互灵科技有限公司 | 用于单灯控制的语音识别系统及方法 |
CN117851538A (zh) * | 2024-03-07 | 2024-04-09 | 济南浪潮数据技术有限公司 | 一种分布式检索方法、系统、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101582073A (zh) * | 2008-12-31 | 2009-11-18 | 北京中机科海科技发展有限公司 | 一种基于领域本体的智能检索系统及方法 |
CN102426609A (zh) * | 2011-12-28 | 2012-04-25 | 厦门市美亚柏科信息股份有限公司 | 一种基于MapReduce编程架构的索引生成方法和装置 |
US20150220529A1 (en) * | 2014-02-06 | 2015-08-06 | International Business Machines Corporation | Split elimination in mapreduce systems |
CN105741191A (zh) * | 2016-02-22 | 2016-07-06 | 江苏省电力公司徐州供电公司 | 一种输变电工程施工和验收标准规范移动检索方法 |
-
2017
- 2017-03-31 CN CN201710206556.XA patent/CN107038225A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101582073A (zh) * | 2008-12-31 | 2009-11-18 | 北京中机科海科技发展有限公司 | 一种基于领域本体的智能检索系统及方法 |
CN102426609A (zh) * | 2011-12-28 | 2012-04-25 | 厦门市美亚柏科信息股份有限公司 | 一种基于MapReduce编程架构的索引生成方法和装置 |
US20150220529A1 (en) * | 2014-02-06 | 2015-08-06 | International Business Machines Corporation | Split elimination in mapreduce systems |
CN105741191A (zh) * | 2016-02-22 | 2016-07-06 | 江苏省电力公司徐州供电公司 | 一种输变电工程施工和验收标准规范移动检索方法 |
Non-Patent Citations (1)
Title |
---|
图书情报工作杂志社编: "《知识网络研究的进展与创新》", 30 June 2015, 《海洋出版社》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573048A (zh) * | 2018-04-19 | 2018-09-25 | 中译语通科技股份有限公司 | 一种多维数据接入方法及系统、大数据接入系统 |
CN108874956A (zh) * | 2018-06-05 | 2018-11-23 | 中国平安人寿保险股份有限公司 | 海量文件检索方法、装置、计算机设备及存储介质 |
CN109241432A (zh) * | 2018-09-07 | 2019-01-18 | 云南东巴文信息技术有限公司 | 离散数据采集分析系统及方法 |
CN109885536A (zh) * | 2019-02-26 | 2019-06-14 | 深圳众享互联科技有限公司 | 一种基于分布式数据分片存储和模糊查找方法 |
CN109933660A (zh) * | 2019-03-25 | 2019-06-25 | 广东石油化工学院 | 面向自然语言形式的基于讲义和Stack Overflow的API信息检索方法 |
CN109933660B (zh) * | 2019-03-25 | 2019-11-12 | 广东石油化工学院 | 面向自然语言形式基于讲义和网站的api信息检索方法 |
CN110096478A (zh) * | 2019-05-09 | 2019-08-06 | 中国联合网络通信集团有限公司 | 文档索引生成方法及设备 |
CN110096478B (zh) * | 2019-05-09 | 2021-06-29 | 中国联合网络通信集团有限公司 | 文档索引生成方法及设备 |
CN110767227A (zh) * | 2019-12-30 | 2020-02-07 | 浙江互灵科技有限公司 | 用于单灯控制的语音识别系统及方法 |
CN117851538A (zh) * | 2024-03-07 | 2024-04-09 | 济南浪潮数据技术有限公司 | 一种分布式检索方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107038225A (zh) | 信息智能检索系统的检索方法 | |
CN109492077B (zh) | 基于知识图谱的石化领域问答方法及系统 | |
CN111353030B (zh) | 基于旅游领域知识图谱的知识问答检索方法及装置 | |
Jin et al. | SCARAB: Scaling reachability computation on large graphs | |
CN101645082B (zh) | 基于并行编程模式的相似网页去重系统 | |
CN104375992B (zh) | 一种地址匹配的方法和装置 | |
CN1845104B (zh) | 信息智能检索加工的系统和方法 | |
CN102142038B (zh) | 用于记号空间资料库的多级查询处理系统与方法 | |
CN102207945B (zh) | 基于知识网络的文本标引系统及其方法 | |
CN104281702B (zh) | 基于电力关键词分词的数据检索方法及装置 | |
CN1290036C (zh) | 根据机器可读词典建立概念知识的计算机系统及方法 | |
CN102789464B (zh) | 基于语意识别的自然语言处理方法、装置和系统 | |
CN104021198B (zh) | 基于本体语义索引的关系数据库信息检索方法及装置 | |
CN109710792B (zh) | 一种基于索引的快速人脸检索系统应用 | |
CN101079024A (zh) | 一种专业词表动态生成系统和方法 | |
CN104199965A (zh) | 一种语义信息检索方法 | |
Chen et al. | Template detection for large scale search engines | |
Papadakis et al. | A survey of blocking and filtering techniques for entity resolution | |
CN101261629A (zh) | 基于自动分类技术的特定信息搜索方法 | |
CN104391908B (zh) | 一种图上基于局部敏感哈希的多关键字索引方法 | |
CN109885641B (zh) | 一种数据库中文全文检索的方法及系统 | |
CN1158460A (zh) | 一种跨语种语料自动分类与检索方法 | |
CN102339294A (zh) | 一种对关键词进行预处理的搜索方法和系统 | |
CN102722526B (zh) | 基于词性分类统计的重复网页和近似网页的识别方法 | |
CN103064847A (zh) | 索引装置、索引方法、检索装置、检索方法和检索系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170811 |
|
RJ01 | Rejection of invention patent application after publication |