CN107220354A - 一种大数据检索方法 - Google Patents

一种大数据检索方法 Download PDF

Info

Publication number
CN107220354A
CN107220354A CN201710403456.6A CN201710403456A CN107220354A CN 107220354 A CN107220354 A CN 107220354A CN 201710403456 A CN201710403456 A CN 201710403456A CN 107220354 A CN107220354 A CN 107220354A
Authority
CN
China
Prior art keywords
document
word
search method
big data
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710403456.6A
Other languages
English (en)
Inventor
张惠元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Far And Right Intellectual Property Rights Operation Co Ltd
Original Assignee
Suzhou Far And Right Intellectual Property Rights Operation Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Far And Right Intellectual Property Rights Operation Co Ltd filed Critical Suzhou Far And Right Intellectual Property Rights Operation Co Ltd
Priority to CN201710403456.6A priority Critical patent/CN107220354A/zh
Publication of CN107220354A publication Critical patent/CN107220354A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机信息处理领域,公开了一种大数据检索方法,包括数据预处理、数据检索匹配、检索结果优化排序等三个关键步骤。利用Lucene的索引模块,通过索引数据预处理提高索引质量,利用查询语句与Lucene得到检索结果,利用遗传算法对检索结果优化排序。适合云存储的大数据检索方法。

Description

一种大数据检索方法
技术领域
本发明涉及计算机信息处理领域,更具体地涉及一种大数据检索方法。
背景技术
现代的检索技术逐渐向语意理解、特定领域等方向发展。科学家都在不遗余力的建设“本体库”,如WordNet、HowNet等本体字典。通过本体库将数据转化为语义集合,从提炼数据的语义,以提供语义层次的检索。此外,对于生物、医学、法律、新闻、以及博客等领域,都出现了转门针对单个领域的检索技术,并且得到了迅猛发展。
大数据是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等四大特征。
大数据检索与文本检索、图象检索、声音检索、图片检索等都是信息检索的一部分,是指根据数据特征,如关键字、语意、内容等对大数据集合进行检索、分类、过滤等。
随着数据量的增加,运用第一代检索技术已经很难检索出精确的检索结果,于是根据特征的第二代检索技术应运而生。即根据系统对数据和语句的理解,计算数据和检索语句的相似度,根据相似度对检索结果排序,将相似度最高的检索结果呈现给用户。
在现有的研究成果和公开文献中,尚未发现利用Lucene的索引模块,适合云存储的大数据检索方法。
发明内容
发明目的
本发明提出了一种适合云存储的大数据检索方法,利用Lucene的索引模块,并对其进行改进,利用遗传算法对检索结果优化排序,以提高其查全率和查准率等指标。
本发明所采用的技术方案
本发明提出的一种大数据检索方法,包括如下三个步骤:
步骤1;数据预处理;
步骤2:数据检索匹配;
步骤3:检索结果优化排序。
进一步的,数据预处理包括如下五个步骤:
步骤1:对文档分词,删除停用词;
步骤2:统计剩余词的词频,如果索引的文档数量大于10篇跳转到步骤4,小于10篇下一步;
步骤3:选取词频排前50-100的词作文档特征项;
步骤4:计算每个词的TF值,根据值的大小降序排列,选取排名前50-100的词作为文档特征项;
步骤5:将选取出的特征项代替文档内容来建立索引。
其中,TF表示向量由每个词在文档中出现的次数。
进一步的,数据检索匹配包括如下五个步骤:
步骤l:对于用户输入的查询语句使用QueryParse进行解析;
步骤2:利用Lucene在索引文件中找出包含特征项的文档集合;
步骤3:计算检索表达式中特征项的TF权重以及文档集合中每篇文档中特征项的TF权重,分别构成查询特征向量和文档特征向量;
步骤4:根据向量空间模型,计算文档与查询表达式之间的相似度,得分越高表示相似度越大;
步骤5:对相似度最大的前N个文档进行输出。
进一步的,检索结果优化排序包括如下五个步骤:
步骤1:机产生的P个假设;
步骤2:对于P中的每—个h,计算Fitness(h);
步骤3:用概率方法选择P的(1-r)P个成员加入Ps;
步骤4:从P中按概率选择rP/2对假设,把所有的后代加入Ps;
步骤5:更新PßPs,输出结果并返回。
本发明所产生的技术效果
本发明提出的一种大数据检索方法,利用Lucene的索引模块,通过索引数据预处理提高索引质量,利用查询语句与Lucene得到检索结果,利用遗传算法对检索结果优化排序。
附图说明
图1为本发明的大数据检索方法步骤示意图。
具体实施方式
实施例
(1)数据预处理:
步骤1:对文档分词,删除停用词;
步骤2:统计剩余词的词频,如果索引的文档数量大于10篇跳转到步骤4,小于10篇下一步;
步骤3:选取词频排前80的词作文档特征项;
步骤4:计算每个词的TF值,根据值的大小降序排列,选取排名前80的词作为文档特征项;
步骤5:将选取出的特征项代替文档内容来建立索引。
(2) 数据检索匹配包括如下五个步骤:
步骤l:对于用户输入的查询语句使用QueryParse进行解析;
步骤2:利用Lucene在索引文件中找出包含特征项的文档集合;
步骤3:计算检索表达式中特征项的TF权重以及文档集合中每篇文档中特征项的TF权重,分别构成查询特征向量和文档特征向量;
步骤4:根据向量空间模型,计算文档与查询表达式之间的相似度,得分越高表示相似度越大;
步骤5:对相似度最大的前N个文档进行输出。
(3) 检索结果优化排序包括如下五个步骤:
步骤1:机产生的P个假设;
步骤2:对于P中的每—个h,计算Fitness(h);
步骤3:用概率方法选择P的(1-r)P个成员加入Ps;
步骤4:从P中按概率选择rP/2对假设,把所有的后代加入Ps;
步骤5:更新PßPs,输出结果并返回。
实验数据是从百度搜索引擎下载了涉及100个主题的原始数据,然后从部分原始数据随机抽取段落合并后形成50个大数据集(分别标记为docl、doc2……doc50,每个大数据集不少于50k)。同时从原始文本剩余的段落中随机抽取段落形成50个查询集(分别标记为key1、key2……key50),且查询集与大数据集的对应关系提前做好标记。
将Lucene方法与本发明方法进行对比,查全率、查准率指标如表1所示,显然本发明较Lucence方法更优。
表1 本发明方法与Lucene方法对比
Lucene 本发明方法
查全率 88% 97%
查准率 54% 68%
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (4)

1.一种大数据检索方法,其特征在于包括如下三个步骤:
步骤1;数据预处理;
步骤2:数据检索匹配;
步骤3:检索结果优化排序。
2.根据权利要求1所述的一种大数据检索方法,其特征在于数据预处理包括如下五个步骤:
步骤1:对文档分词,删除停用词;
步骤2:统计剩余词的词频,如果索引的文档数量大于10篇跳转到步骤4,小于10篇下一步;
步骤3:选取词频排前50-100的词作文档特征项;
步骤4:计算每个词的TF值,根据值的大小降序排列,选取排名前50-100的词作为文档特征项;
步骤5:将选取出的特征项代替文档内容来建立索引。
3.根据权利要求1所述的一种大数据检索方法,其特征在于数据检索匹配包括如下五个步骤:
步骤l:对于用户输入的查询语句使用QueryParse进行解析;
步骤2:利用Lucene在索引文件中找出包含特征项的文档集合;
步骤3:计算检索表达式中特征项的TF权重以及文档集合中每篇文档中特征项的TF权重,分别构成查询特征向量和文档特征向量;
步骤4:根据向量空间模型,计算文档与查询表达式之间的相似度,得分越高表示相似度越大;
步骤5:对相似度最大的前N个文档进行输出。
4.根据权利要求1所述的一种大数据检索方法,其特征在于检索结果优化排序包括如下五个步骤:
步骤1:机产生的P个假设;
步骤2:对于P中的每—个h,计算Fitness(h);
步骤3:用概率方法选择P的(1-r)P个成员加入Ps;
步骤4:从P中按概率选择rP/2对假设,把所有的后代加入Ps;
步骤5:更新PßPs,输出结果并返回。
CN201710403456.6A 2017-06-01 2017-06-01 一种大数据检索方法 Withdrawn CN107220354A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710403456.6A CN107220354A (zh) 2017-06-01 2017-06-01 一种大数据检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710403456.6A CN107220354A (zh) 2017-06-01 2017-06-01 一种大数据检索方法

Publications (1)

Publication Number Publication Date
CN107220354A true CN107220354A (zh) 2017-09-29

Family

ID=59947410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710403456.6A Withdrawn CN107220354A (zh) 2017-06-01 2017-06-01 一种大数据检索方法

Country Status (1)

Country Link
CN (1) CN107220354A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112785400A (zh) * 2021-01-12 2021-05-11 四川天行健穗金科技有限公司 一种用于去财税数据的智能检索方法及系统
CN113688280A (zh) * 2021-07-19 2021-11-23 广州荔支网络技术有限公司 一种排序方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096845A (zh) * 2009-12-10 2011-06-15 黑龙江省森林工程与环境研究所 森林分类经营知识库全文搜索引擎系统
US20110184933A1 (en) * 2010-01-28 2011-07-28 International Business Machines Corporation Join algorithms over full text indexes
CN106202552A (zh) * 2016-07-27 2016-12-07 成都四象联创科技有限公司 基于云计算的数据搜索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096845A (zh) * 2009-12-10 2011-06-15 黑龙江省森林工程与环境研究所 森林分类经营知识库全文搜索引擎系统
US20110184933A1 (en) * 2010-01-28 2011-07-28 International Business Machines Corporation Join algorithms over full text indexes
CN106202552A (zh) * 2016-07-27 2016-12-07 成都四象联创科技有限公司 基于云计算的数据搜索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李芳: "基于检索排序新进展研究综述", 《情报科学》 *
王婧: "基于内容的中文文本检索方法", 《计算机系统应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112785400A (zh) * 2021-01-12 2021-05-11 四川天行健穗金科技有限公司 一种用于去财税数据的智能检索方法及系统
CN113688280A (zh) * 2021-07-19 2021-11-23 广州荔支网络技术有限公司 一种排序方法、装置、计算机设备和存储介质
CN113688280B (zh) * 2021-07-19 2024-04-05 广州荔支网络技术有限公司 一种排序方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
Singh et al. Relevance feedback based query expansion model using Borda count and semantic similarity approach
Treeratpituk et al. Disambiguating authors in academic publications using random forests
US7849077B2 (en) Document ranking with sub-query series
US8423546B2 (en) Identifying key phrases within documents
Singh et al. Vector space model: an information retrieval system
JP2016532173A (ja) 意味情報、キーワード拡張及びそれに関するキーワード検索の方法及びシステム
CN104298715B (zh) 一种基于tf‑idf的多索引结果合并排序方法
CN111026710A (zh) 一种数据集的检索方法及系统
CN107291895B (zh) 一种快速的层次化文档查询方法
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
US9501569B2 (en) Automatic taxonomy construction from keywords
Adamu et al. A survey on big data indexing strategies
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
CN105404677B (zh) 一种基于树形结构的检索方法
Campbell et al. Content+ context networks for user classification in twitter
CN110019637B (zh) 一种标准文献检索的排序算法
CN107220354A (zh) 一种大数据检索方法
Murthy et al. A comparative study on term weighting methods for automated telugu text categorization with effective classifiers
Zhang et al. A hot spot clustering method based on improved kmeans algorithm
Zhang Start small, build complete: Effective and efficient semantic table interpretation using tableminer
CN105426490B (zh) 一种基于树形结构的索引方法
CN104166712A (zh) 科技文献检索方法及系统
Dalton et al. Semantic entity retrieval using web queries over structured RDF data
Parida et al. Ranking of Odia text document relevant to user query using vector space model
Asa et al. A comprehensive survey on extractive text summarization techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20170929

WW01 Invention patent application withdrawn after publication