CN107220354A

CN107220354A - 一种大数据检索方法

Info

Publication number: CN107220354A
Application number: CN201710403456.6A
Authority: CN
Inventors: 张惠元
Original assignee: Suzhou Far And Right Intellectual Property Rights Operation Co Ltd
Current assignee: Suzhou Far And Right Intellectual Property Rights Operation Co Ltd
Priority date: 2017-06-01
Filing date: 2017-06-01
Publication date: 2017-09-29

Abstract

本发明涉及计算机信息处理领域，公开了一种大数据检索方法，包括数据预处理、数据检索匹配、检索结果优化排序等三个关键步骤。利用Lucene的索引模块，通过索引数据预处理提高索引质量，利用查询语句与Lucene得到检索结果，利用遗传算法对检索结果优化排序。适合云存储的大数据检索方法。

Description

一种大数据检索方法

技术领域

本发明涉及计算机信息处理领域，更具体地涉及一种大数据检索方法。

背景技术

现代的检索技术逐渐向语意理解、特定领域等方向发展。科学家都在不遗余力的建设“本体库”，如WordNet、HowNet等本体字典。通过本体库将数据转化为语义集合，从提炼数据的语义，以提供语义层次的检索。此外，对于生物、医学、法律、新闻、以及博客等领域，都出现了转门针对单个领域的检索技术，并且得到了迅猛发展。

大数据是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等四大特征。

大数据检索与文本检索、图象检索、声音检索、图片检索等都是信息检索的一部分，是指根据数据特征，如关键字、语意、内容等对大数据集合进行检索、分类、过滤等。

随着数据量的增加，运用第一代检索技术已经很难检索出精确的检索结果，于是根据特征的第二代检索技术应运而生。即根据系统对数据和语句的理解，计算数据和检索语句的相似度，根据相似度对检索结果排序，将相似度最高的检索结果呈现给用户。

在现有的研究成果和公开文献中，尚未发现利用Lucene的索引模块，适合云存储的大数据检索方法。

发明内容

发明目的

本发明提出了一种适合云存储的大数据检索方法，利用Lucene的索引模块，并对其进行改进，利用遗传算法对检索结果优化排序，以提高其查全率和查准率等指标。

本发明所采用的技术方案

本发明提出的一种大数据检索方法，包括如下三个步骤：

步骤1；数据预处理；

步骤2：数据检索匹配；

步骤3：检索结果优化排序。

进一步的，数据预处理包括如下五个步骤：

步骤1：对文档分词，删除停用词；

步骤2：统计剩余词的词频，如果索引的文档数量大于10篇跳转到步骤4，小于10篇下一步；

步骤3：选取词频排前50-100的词作文档特征项；

步骤4：计算每个词的TF值，根据值的大小降序排列，选取排名前50-100的词作为文档特征项；

步骤5：将选取出的特征项代替文档内容来建立索引。

其中，TF表示向量由每个词在文档中出现的次数。

进一步的，数据检索匹配包括如下五个步骤：

步骤l：对于用户输入的查询语句使用QueryParse进行解析；

步骤2：利用Lucene在索引文件中找出包含特征项的文档集合；

步骤3：计算检索表达式中特征项的TF权重以及文档集合中每篇文档中特征项的TF权重，分别构成查询特征向量和文档特征向量；

步骤4：根据向量空间模型，计算文档与查询表达式之间的相似度，得分越高表示相似度越大；

步骤5：对相似度最大的前N个文档进行输出。

进一步的，检索结果优化排序包括如下五个步骤：

步骤1：机产生的P个假设；

步骤2：对于P中的每—个h，计算Fitness(h)；

步骤3：用概率方法选择P的(1-r)P个成员加入Ps；

步骤4：从P中按概率选择rP/2对假设，把所有的后代加入Ps；

步骤5：更新PßPs，输出结果并返回。

本发明所产生的技术效果

本发明提出的一种大数据检索方法，利用Lucene的索引模块，通过索引数据预处理提高索引质量，利用查询语句与Lucene得到检索结果，利用遗传算法对检索结果优化排序。

附图说明

图1为本发明的大数据检索方法步骤示意图。

具体实施方式

实施例

（1）数据预处理：

步骤1：对文档分词，删除停用词；

步骤3：选取词频排前80的词作文档特征项；

步骤4：计算每个词的TF值，根据值的大小降序排列，选取排名前80的词作为文档特征项；

步骤5：将选取出的特征项代替文档内容来建立索引。

(2) 数据检索匹配包括如下五个步骤：

步骤l：对于用户输入的查询语句使用QueryParse进行解析；

步骤2：利用Lucene在索引文件中找出包含特征项的文档集合；

步骤5：对相似度最大的前N个文档进行输出。

(3) 检索结果优化排序包括如下五个步骤：

步骤1：机产生的P个假设；

步骤2：对于P中的每—个h，计算Fitness(h)；

步骤3：用概率方法选择P的(1-r)P个成员加入Ps；

步骤4：从P中按概率选择rP/2对假设，把所有的后代加入Ps；

步骤5：更新PßPs，输出结果并返回。

实验数据是从百度搜索引擎下载了涉及100个主题的原始数据，然后从部分原始数据随机抽取段落合并后形成50个大数据集(分别标记为docl、doc2……doc50，每个大数据集不少于50k)。同时从原始文本剩余的段落中随机抽取段落形成50个查询集(分别标记为key1、key2……key50)，且查询集与大数据集的对应关系提前做好标记。

将Lucene方法与本发明方法进行对比，查全率、查准率指标如表1所示，显然本发明较Lucence方法更优。

表1 本发明方法与Lucene方法对比

	Lucene	本发明方法
			查全率	88％	97％
查准率	54％	68％

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种大数据检索方法，其特征在于包括如下三个步骤：

步骤1；数据预处理；

步骤2：数据检索匹配；

步骤3：检索结果优化排序。

2.根据权利要求1所述的一种大数据检索方法，其特征在于数据预处理包括如下五个步骤：

步骤1：对文档分词，删除停用词；

步骤3：选取词频排前50-100的词作文档特征项；

步骤5：将选取出的特征项代替文档内容来建立索引。

3.根据权利要求1所述的一种大数据检索方法，其特征在于数据检索匹配包括如下五个步骤：

步骤l：对于用户输入的查询语句使用QueryParse进行解析；

步骤2：利用Lucene在索引文件中找出包含特征项的文档集合；

步骤5：对相似度最大的前N个文档进行输出。

4.根据权利要求1所述的一种大数据检索方法，其特征在于检索结果优化排序包括如下五个步骤：

步骤1：机产生的P个假设；

步骤2：对于P中的每—个h，计算Fitness(h)；

步骤3：用概率方法选择P的(1-r)P个成员加入Ps；

步骤4：从P中按概率选择rP/2对假设，把所有的后代加入Ps；

步骤5：更新PßPs，输出结果并返回。