CN107220354A - 一种大数据检索方法 - Google Patents
一种大数据检索方法 Download PDFInfo
- Publication number
- CN107220354A CN107220354A CN201710403456.6A CN201710403456A CN107220354A CN 107220354 A CN107220354 A CN 107220354A CN 201710403456 A CN201710403456 A CN 201710403456A CN 107220354 A CN107220354 A CN 107220354A
- Authority
- CN
- China
- Prior art keywords
- document
- word
- search method
- big data
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机信息处理领域,公开了一种大数据检索方法,包括数据预处理、数据检索匹配、检索结果优化排序等三个关键步骤。利用Lucene的索引模块,通过索引数据预处理提高索引质量,利用查询语句与Lucene得到检索结果,利用遗传算法对检索结果优化排序。适合云存储的大数据检索方法。
Description
技术领域
本发明涉及计算机信息处理领域,更具体地涉及一种大数据检索方法。
背景技术
现代的检索技术逐渐向语意理解、特定领域等方向发展。科学家都在不遗余力的建设“本体库”,如WordNet、HowNet等本体字典。通过本体库将数据转化为语义集合,从提炼数据的语义,以提供语义层次的检索。此外,对于生物、医学、法律、新闻、以及博客等领域,都出现了转门针对单个领域的检索技术,并且得到了迅猛发展。
大数据是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等四大特征。
大数据检索与文本检索、图象检索、声音检索、图片检索等都是信息检索的一部分,是指根据数据特征,如关键字、语意、内容等对大数据集合进行检索、分类、过滤等。
随着数据量的增加,运用第一代检索技术已经很难检索出精确的检索结果,于是根据特征的第二代检索技术应运而生。即根据系统对数据和语句的理解,计算数据和检索语句的相似度,根据相似度对检索结果排序,将相似度最高的检索结果呈现给用户。
在现有的研究成果和公开文献中,尚未发现利用Lucene的索引模块,适合云存储的大数据检索方法。
发明内容
发明目的
本发明提出了一种适合云存储的大数据检索方法,利用Lucene的索引模块,并对其进行改进,利用遗传算法对检索结果优化排序,以提高其查全率和查准率等指标。
本发明所采用的技术方案
本发明提出的一种大数据检索方法,包括如下三个步骤:
步骤1;数据预处理;
步骤2:数据检索匹配;
步骤3:检索结果优化排序。
进一步的,数据预处理包括如下五个步骤:
步骤1:对文档分词,删除停用词;
步骤2:统计剩余词的词频,如果索引的文档数量大于10篇跳转到步骤4,小于10篇下一步;
步骤3:选取词频排前50-100的词作文档特征项;
步骤4:计算每个词的TF值,根据值的大小降序排列,选取排名前50-100的词作为文档特征项;
步骤5:将选取出的特征项代替文档内容来建立索引。
其中,TF表示向量由每个词在文档中出现的次数。
进一步的,数据检索匹配包括如下五个步骤:
步骤l:对于用户输入的查询语句使用QueryParse进行解析;
步骤2:利用Lucene在索引文件中找出包含特征项的文档集合;
步骤3:计算检索表达式中特征项的TF权重以及文档集合中每篇文档中特征项的TF权重,分别构成查询特征向量和文档特征向量;
步骤4:根据向量空间模型,计算文档与查询表达式之间的相似度,得分越高表示相似度越大;
步骤5:对相似度最大的前N个文档进行输出。
进一步的,检索结果优化排序包括如下五个步骤:
步骤1:机产生的P个假设;
步骤2:对于P中的每—个h,计算Fitness(h);
步骤3:用概率方法选择P的(1-r)P个成员加入Ps;
步骤4:从P中按概率选择rP/2对假设,把所有的后代加入Ps;
步骤5:更新PßPs,输出结果并返回。
本发明所产生的技术效果
本发明提出的一种大数据检索方法,利用Lucene的索引模块,通过索引数据预处理提高索引质量,利用查询语句与Lucene得到检索结果,利用遗传算法对检索结果优化排序。
附图说明
图1为本发明的大数据检索方法步骤示意图。
具体实施方式
实施例
(1)数据预处理:
步骤1:对文档分词,删除停用词;
步骤2:统计剩余词的词频,如果索引的文档数量大于10篇跳转到步骤4,小于10篇下一步;
步骤3:选取词频排前80的词作文档特征项;
步骤4:计算每个词的TF值,根据值的大小降序排列,选取排名前80的词作为文档特征项;
步骤5:将选取出的特征项代替文档内容来建立索引。
(2) 数据检索匹配包括如下五个步骤:
步骤l:对于用户输入的查询语句使用QueryParse进行解析;
步骤2:利用Lucene在索引文件中找出包含特征项的文档集合;
步骤3:计算检索表达式中特征项的TF权重以及文档集合中每篇文档中特征项的TF权重,分别构成查询特征向量和文档特征向量;
步骤4:根据向量空间模型,计算文档与查询表达式之间的相似度,得分越高表示相似度越大;
步骤5:对相似度最大的前N个文档进行输出。
(3) 检索结果优化排序包括如下五个步骤:
步骤1:机产生的P个假设;
步骤2:对于P中的每—个h,计算Fitness(h);
步骤3:用概率方法选择P的(1-r)P个成员加入Ps;
步骤4:从P中按概率选择rP/2对假设,把所有的后代加入Ps;
步骤5:更新PßPs,输出结果并返回。
实验数据是从百度搜索引擎下载了涉及100个主题的原始数据,然后从部分原始数据随机抽取段落合并后形成50个大数据集(分别标记为docl、doc2……doc50,每个大数据集不少于50k)。同时从原始文本剩余的段落中随机抽取段落形成50个查询集(分别标记为key1、key2……key50),且查询集与大数据集的对应关系提前做好标记。
将Lucene方法与本发明方法进行对比,查全率、查准率指标如表1所示,显然本发明较Lucence方法更优。
表1 本发明方法与Lucene方法对比
Lucene | 本发明方法 | |
查全率 | 88% | 97% |
查准率 | 54% | 68% |
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (4)
1.一种大数据检索方法,其特征在于包括如下三个步骤:
步骤1;数据预处理;
步骤2:数据检索匹配;
步骤3:检索结果优化排序。
2.根据权利要求1所述的一种大数据检索方法,其特征在于数据预处理包括如下五个步骤:
步骤1:对文档分词,删除停用词;
步骤2:统计剩余词的词频,如果索引的文档数量大于10篇跳转到步骤4,小于10篇下一步;
步骤3:选取词频排前50-100的词作文档特征项;
步骤4:计算每个词的TF值,根据值的大小降序排列,选取排名前50-100的词作为文档特征项;
步骤5:将选取出的特征项代替文档内容来建立索引。
3.根据权利要求1所述的一种大数据检索方法,其特征在于数据检索匹配包括如下五个步骤:
步骤l:对于用户输入的查询语句使用QueryParse进行解析;
步骤2:利用Lucene在索引文件中找出包含特征项的文档集合;
步骤3:计算检索表达式中特征项的TF权重以及文档集合中每篇文档中特征项的TF权重,分别构成查询特征向量和文档特征向量;
步骤4:根据向量空间模型,计算文档与查询表达式之间的相似度,得分越高表示相似度越大;
步骤5:对相似度最大的前N个文档进行输出。
4.根据权利要求1所述的一种大数据检索方法,其特征在于检索结果优化排序包括如下五个步骤:
步骤1:机产生的P个假设;
步骤2:对于P中的每—个h,计算Fitness(h);
步骤3:用概率方法选择P的(1-r)P个成员加入Ps;
步骤4:从P中按概率选择rP/2对假设,把所有的后代加入Ps;
步骤5:更新PßPs,输出结果并返回。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710403456.6A CN107220354A (zh) | 2017-06-01 | 2017-06-01 | 一种大数据检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710403456.6A CN107220354A (zh) | 2017-06-01 | 2017-06-01 | 一种大数据检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107220354A true CN107220354A (zh) | 2017-09-29 |
Family
ID=59947410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710403456.6A Withdrawn CN107220354A (zh) | 2017-06-01 | 2017-06-01 | 一种大数据检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107220354A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112785400A (zh) * | 2021-01-12 | 2021-05-11 | 四川天行健穗金科技有限公司 | 一种用于去财税数据的智能检索方法及系统 |
CN113688280A (zh) * | 2021-07-19 | 2021-11-23 | 广州荔支网络技术有限公司 | 一种排序方法、装置、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096845A (zh) * | 2009-12-10 | 2011-06-15 | 黑龙江省森林工程与环境研究所 | 森林分类经营知识库全文搜索引擎系统 |
US20110184933A1 (en) * | 2010-01-28 | 2011-07-28 | International Business Machines Corporation | Join algorithms over full text indexes |
CN106202552A (zh) * | 2016-07-27 | 2016-12-07 | 成都四象联创科技有限公司 | 基于云计算的数据搜索方法 |
-
2017
- 2017-06-01 CN CN201710403456.6A patent/CN107220354A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096845A (zh) * | 2009-12-10 | 2011-06-15 | 黑龙江省森林工程与环境研究所 | 森林分类经营知识库全文搜索引擎系统 |
US20110184933A1 (en) * | 2010-01-28 | 2011-07-28 | International Business Machines Corporation | Join algorithms over full text indexes |
CN106202552A (zh) * | 2016-07-27 | 2016-12-07 | 成都四象联创科技有限公司 | 基于云计算的数据搜索方法 |
Non-Patent Citations (2)
Title |
---|
李芳: "基于检索排序新进展研究综述", 《情报科学》 * |
王婧: "基于内容的中文文本检索方法", 《计算机系统应用》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112785400A (zh) * | 2021-01-12 | 2021-05-11 | 四川天行健穗金科技有限公司 | 一种用于去财税数据的智能检索方法及系统 |
CN113688280A (zh) * | 2021-07-19 | 2021-11-23 | 广州荔支网络技术有限公司 | 一种排序方法、装置、计算机设备和存储介质 |
CN113688280B (zh) * | 2021-07-19 | 2024-04-05 | 广州荔支网络技术有限公司 | 一种排序方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Singh et al. | Relevance feedback based query expansion model using Borda count and semantic similarity approach | |
Treeratpituk et al. | Disambiguating authors in academic publications using random forests | |
US7849077B2 (en) | Document ranking with sub-query series | |
US8423546B2 (en) | Identifying key phrases within documents | |
Singh et al. | Vector space model: an information retrieval system | |
JP2016532173A (ja) | 意味情報、キーワード拡張及びそれに関するキーワード検索の方法及びシステム | |
CN104298715B (zh) | 一种基于tf‑idf的多索引结果合并排序方法 | |
CN111026710A (zh) | 一种数据集的检索方法及系统 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN108875065B (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
US9501569B2 (en) | Automatic taxonomy construction from keywords | |
Adamu et al. | A survey on big data indexing strategies | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
CN105404677B (zh) | 一种基于树形结构的检索方法 | |
Campbell et al. | Content+ context networks for user classification in twitter | |
CN110019637B (zh) | 一种标准文献检索的排序算法 | |
CN107220354A (zh) | 一种大数据检索方法 | |
Murthy et al. | A comparative study on term weighting methods for automated telugu text categorization with effective classifiers | |
Zhang et al. | A hot spot clustering method based on improved kmeans algorithm | |
Zhang | Start small, build complete: Effective and efficient semantic table interpretation using tableminer | |
CN105426490B (zh) | 一种基于树形结构的索引方法 | |
CN104166712A (zh) | 科技文献检索方法及系统 | |
Dalton et al. | Semantic entity retrieval using web queries over structured RDF data | |
Parida et al. | Ranking of Odia text document relevant to user query using vector space model | |
Asa et al. | A comprehensive survey on extractive text summarization techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20170929 |
|
WW01 | Invention patent application withdrawn after publication |