CN104298715B - 一种基于tf‑idf的多索引结果合并排序方法 - Google Patents

一种基于tf‑idf的多索引结果合并排序方法 Download PDF

Info

Publication number
CN104298715B
CN104298715B CN201410473307.3A CN201410473307A CN104298715B CN 104298715 B CN104298715 B CN 104298715B CN 201410473307 A CN201410473307 A CN 201410473307A CN 104298715 B CN104298715 B CN 104298715B
Authority
CN
China
Prior art keywords
resource
idf
weight
term
feature words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410473307.3A
Other languages
English (en)
Other versions
CN104298715A (zh
Inventor
王德庆
陈勇
刘瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201410473307.3A priority Critical patent/CN104298715B/zh
Publication of CN104298715A publication Critical patent/CN104298715A/zh
Application granted granted Critical
Publication of CN104298715B publication Critical patent/CN104298715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于TF‑IDF的多索引结果合并排序方法,包括如下步骤:对待索引资源的核心元数据进行特征词提取,构建不同类别资源的特征词库;通过计算用户检索词与各类资源的所有特征词的相关度系数确定索引权重因子;根据用户输入的检索词,采用改进的TF‑IDF算法获得每类资源的TF‑IDF权重;采用加权合并算法,将每类资源的索引权重因子以及该类资源的TF‑IDF权重相结合,获得该类资源的最终TF‑IDF权重,并根据资源的最终TF‑IDF权重的大小将检索结果进行排序。本发明充分考虑了检索过程中词语的重要性、词语的分布情况以及词序因子和词距因子,有效改善了多索引结果合并排序的效果。

Description

一种基于TF-IDF的多索引结果合并排序方法
技术领域
本发明涉及一种索引结果排序方法,尤其涉及一种基于TF-IDF(词频-逆文档频率)的多索引结果合并排序方法,属于信息检索技术领域。
背景技术
随着科学技术的飞速发展,各类信息层出不穷,甚至远远超出了人类阅读的能力,如何有效地从海量数据中找出需要的信息越来越受到人们的重视。于是,各种信息检索系统应运而生。信息检索系统的目的是向用户提高快速、准确、友好的查询结果,而对于用户而言,往往只关心最终的查询结果。因此,信息检索系统中根据用户的需求对结果进行排序是最重要的一个环节。尤其是面对多索引的情况,不同的索引包含不同的资源,用户的感兴趣程度也不尽相同。如何能够将多索引检索结果合并排序,以满足用户的检索需求,成为文本检索领域的研究热点之一。
用户进行信息检索时,传统的做法是对检索结果采用TF-IDF算法进行排序,将排序后的检索结果返回给用户。在公开号为CN103744984A的中国专利申请中,公开了一种利用语义信息检索文档的方法。该专利申请通过采用基于关键词的用户检索方法,降低了用户使用难度;采用基于距离和稠密度的文档-本体映射方法,提高映射的准确率;采用基于语义的检索方法,利用多本体索引文档的方法,并且采用了一种结合本体的TF-IDF排序方法,对检索结果按照用户感兴趣的程度进行排序。但是,现有的TF-IDF算法存在以下问题:
(1)结构简单,容易产生计算偏差
TF-IDF算法的理论基础是:对于区别不同文档的最有意义的特征词应该具备两个特征:一是在相关文档中出现频率高,二是在其他文档中的出现频率低。其目的是为了突出重要单词,抑制次要单词。但是,由于其结构过于简单,单纯地认为文本频率越小的特征词就越重要,显然与实际情况不符。
(2)无法反映词语的重要程度
在TF-IDF算法中,一篇文档的权重是由其全部特征词的权重叠加而来,无法反应不同的特征词对该文档的重要程度,即特征词权重对文档整体权重的贡献。
(3)没有考虑特征词的分布情况
在多索引的文本检索中,文档集关于类别的分布往往是偏斜的,不同类别的文档的数目可能相差几个数量级,这对TF-IDF算法的权重计算结果产生较大的影响。因为,在计算IDF值时,使用的是全部文档集的数量,对于抑制文档数量较多的文档类别中的次要特征词具有一定的作用,但是却无法抑制文档数量较少的文档类别中的次要关键词。
(4)没有考虑词序、词距等因素
在现有的TF-IDF算法中,一篇文档的权重是由其全部特征词的权重叠加而来。但是,当用户输入的查询词包含多个词条时,查询词词条之间的距离、查询词的相互顺序也是影响文档整体权重的重要因素。
为了克服现有TF-IDF算法的不足,使其具有更强的适应性和更准确的计算能力,Java开源全文检索引擎Lucene对现有TF-IDF算法进行了改进,增加了TF-IDF权重对特征词分布、特征词权重以及特征词数量比重的依赖,但是没有考虑词序、词距等因素,排序后的检索结果并不能很好地满足用户的检索需求。
发明内容
本发明所要解决的技术问题在于提供一种基于TF-IDF算法的多索引结果合并排序方法。
为实现上述的发明目的,本发明采用下述的技术方案:
一种基于TF-IDF的多索引结果合并排序方法,包括如下步骤:
对待索引资源的核心元数据进行特征词提取,构建不同类别资源的特征词库;通过计算用户检索词与各类资源的所有特征词的相关度系数确定索引权重因子;
根据用户输入的检索词,采用改进的TF-IDF算法获得每类资源的TF-IDF权重;
采用加权合并算法,将每类资源的索引权重因子以及该类资源的TF-IDF权重相结合,获得该类资源的最终TF-IDF权重,并根据资源的最终TF-IDF权重的大小将检索结果进行排序。
其中较优地,所述用户检索词与各类资源的所有特征词的相关度系数是用户输入的检索词与该类资源的所有特征词的相似度的算术平均值。
其中较优地,所述索引权重因子通过公式求得;
其中,Qterm是用户输入的检索词,Dterm是该类资源的特征词,n是用户输入的检索词的个数,N是该类资源的特征词的个数,sim(Qtermi,Dtermj)代表用户输入的检索词i与该类资源的特征词j的相似度。
其中较优地,所述改进的TF-IDF算法通过公式求得;
其中,TF-IDF因子是Lucene中TF-IDF算法的计算结果;distance(terms)是所有词语之间的词序和词距因子;boost因子指特征词权重因子,是在建索引过程中,检索词权重对文档的整体权重的贡献权重;decrease是在计算TF-IDF权重过程中由于扩展查询增加的扩展词权重衰减因子;动态调整因子a用以对特征词的权重进行调整。
其中较优地,所述distance(terms)由词序因子和词距因子两部分构成;由公式:distance(terms)=t.seq*t.dis计算得到;
所述t.seq是词序因子,由公式:计算得到;
所述t.dis是词距因子,由公式计算得到;
其中,V(Qterms)是检索词构成的N0维向量;V(Dterms)是由文档中的特征词构成的N0维向量;NumOfTerms(i,j)表示特征词i与特征词j之间的特征词数量,即二者的词距;N是文档中出现的检索词的个数;N0是用户输入的检索词的个数。
其中较优地,所述特征词权重因子是计算用户输入的检索词与该类资源的所有特征词之间的相似度的最大值,即:
其中,Qterm是用户输入的检索词,Dterm是该类资源的特征词。
其中较优地,所述资源的最终TF-IDF权重通过公式weight=indexDecrease*indexBoost*score求得;
其中,indexDecrease是索引权重衰减因子;indexBoost是索引权重因子;score是资源在本类索引内部的TF-IDF权重。
本发明提供的多索引结果合并排序方法,通过索引权重因子的确定,实现动态调整索引权重,改善多索引的结果合并排序效果;采用改进的TF-IDF算法获得每类资源的TF-IDF权重;采用加权合并算法,将每类资源的索引权重因子以及该类资源的TF-IDF权重相结合,获得该类资源的最终TF-IDF权重。本发明充分考虑了检索过程中词语的重要性、词语的分布情况以及词序因子和词距因子,有效地满足用户的检索需求。
附图说明
图1为本发明所提供的基于TF-IDF的多索引结果合并排序方法的流程图;
图2为本发明所提供的义元层次树的结构图。
具体实施方式
下面结合附图和具体实施例对本发明的技术内容作进一步的详细说明。
如图1所示,本发明提供一种基于TF-IDF的多索引结果合并排序方法,包括如下步骤:对待索引资源的核心元数据进行特征词提取,构建不同类别资源的特征词库;通过计算用户输入的检索词与各类资源的所有特征词的相关度系数来确定该索引的特征权重(索引权重因子),从而实现动态调整索引权重,改善多索引的结果合并排序效果。根据用户输入的检索词,采用改进的TF-IDF算法获得每类资源的TF-IDF权重。采用加权合并算法,将每类资源的索引权重因子以及该类资源的TF-IDF权重相结合,获得该类资源的最终TF-IDF权重,并根据资源的最终TF-IDF权重的大小将检索结果进行排序。其中,用户检索词与各类资源的所有特征词的相关度系数是用户输入的检索词与该类资源的所有特征词的相似度的算术平均值。下面以科技资源共享网为例对这一过程做详细具体的说明。
在科技资源共享网中,所有的科技资源都是按类别组织的元数据资源,目前,国家科技基础条件平台已整合了大型仪器设备、研究实验基地、自然科技资源、科学数据、科技文献、科技成果、网络科研环境等七大领域的60类科技资源。其中,科技资源种类的部分信息见下表1。
表1科技资源部分种类的列表
核心元数据的信息主要包含在名称(gresourcename)、描述(gdescription)、关键词(gkeywords)、负责单位名称(gorgname)四个字段中,详见下表1。因此,在本发明所提供的实施例中,只对这四个字段做特征词提取处理。目前常用的特征提取方法有特征频率法、文档频率法、x2统计法、信息增益法、互信息法等。这些方法都是基于阈值的统计方法,即对每一个特征项,计算一种或几种统计值,然后设定一个阈值并把小于该阈值的特征项去掉,剩下的则视为有效的特征项。在本发明所提供的实施例中,为了降低计算复杂度,采用了特征频率法,提取不同类别资源中出现次数最高的30个特征词(如不足30,则取全部特征词)。为了提高结果的准确性,对其进行初步处理,过滤掉不具有区分度的特征词,将处理后的特征词构建成不同类别资源的特征词库。
通过计算用户输入的检索词与各类资源的所有特征词的相关度系数来确定该索引的特征权重,从而实现动态调整索引权重,改善多索引的结果合并排序效果。其中,用户检索词与各类资源的所有特征词的相关度系数是用户输入的检索词与该类资源的所有特征词的相似度的算术平均值。在本发明所提供的实施例中,用户输入的检索词与该类资源的所有特征词的相似度由基于《知网》的相似度计算得到,在下文进行详细的描述。而索引权重因子(indexBoost)根据公式:求得。其中,Qterm是用户输入的检索词,Dterm是该类资源的特征词,n是用户输入的检索词的个数,N是该类资源的特征词的个数,而sim(Qtermi,Dtermj)代表用户输入的检索词i与该类资源的特征词j的相似度。
另一方面,当用户输入检索词进行检索时,根据用户输入的检索词,采用改进的TF-IDF算法获得每类资源的TF-IDF权重。在本发明所提供的实施例中,根据用户输入的检索词,在每类资源中根据公式:计算每类资源的TF-IDF权重。
其中,TF-IDF因子是Lucene对TF-IDF算法进行了改进之后计算的结果。在Lucene中对TF-IDF算法改进之后的公式为:其中,tf因子是检索词真实频率的平方根值,这样可以调整检索词权重对频率的倚重,使结果更为准确。idf因子的计算为:N是总的文档数,n是用户输入的检索词出现的文档数。首先通过加1处理,避免了零概率甚至负概率的可能;同时对idf因子做平方处理,增加了检索词权重对检索词分布的倚重。boost因子是指在建索引过程中,对每个索引域(field)设置的激励因子,即该检索词权重对文档的整体权重的贡献权重。它通过提高检索词的重要性来提高了文档的重要性。在Lucene中,其默认值为1。lengthNorm是一个长度因子,与字段内的检索词个数有关,是检索词占该字段全部特征词的比重。一个字段内的检索词个数越多,其长度因子越小。
在本发明所提供的实施例中,TF-IDF因子保留了Lucene中计算出的结果,保留了TF-IDF权重对检索词分布、检索词权重以及检索词数量比重的依赖。除此之外,增添的distance(terms)是所有term(词语)之间的词序和词距因子,它由两部分构成,分别是词序因子和词距因子。由公式:distance(terms)=t.seq*t.dis计算得到。其中t.seq是词序因子,由公式:计算得到;t.dis是词距因子,由公式计算得到。V(Qterms)是检索词构成的N0维向量,每一维的权重为1;V(Dterms)是由文档中的特征词构成的N0维向量,在本发明所提供的实施例中,将文本看作特征空间的一个向量,文本中的每个特征词作为特征空间坐标系的一维;如果第i维的term与检索词的term一致,则其权重为1,否则为0。NumOfTerms(i,j)表示特征词i与特征词j之间的特征词数量,即二者的词距。N是文档中出现的检索词的个数,N0是用户输入的检索词的个数。
由于Lucene中TF-IDF算法的boost因子必须在建索引时指定,导致特征词对文档的贡献权重是固定的,无法根据用户检索的不同而改变。在本发明所提供的实施例中,在计算TF-IDF权重时增加了特征词权重因子boost。boost因子的计算依赖于用户输入检索词和结果文档所属的资源种类,由基于《知网》的相似度计算得到。《知网》含有丰富的词汇语义知识和复杂的内部结构,其基本形式是对词语的释义和描述。《知网》中有两个重要的概念:“概念”与“义元”。义元主要分为三个大类:基本义元、语法义元、关系义元。其中,基本义元,用来描述单个概念的语义特征;语法义元,用于描述词语的语法特征,主要是词性(Part ofSpeech);关系义元,用于描述概念和概念之间的关系。《知网》是通过一系列的义元,利用某种知识描述语言来描述一个概念。概念并不是一个简单的义元集合,而是要描述为使用某种专门的“知识描述语言”来表达的一个表达式。也就是说,在用多个义元对一个概念进行描述时,每个义元所起的作用是不同的。比如:
癌细胞N part|部件,%AnimalHuman|动物,*CauseToDo|使动,#disease|疾
其中,符号“%”表示“是其中的一部分”,即说明癌细胞是动物的一部分。当计算“癌细胞”和“动物”的相似度时,“%AnimalHuman|动物”这条描述就更为重要。
在本发明所提供的语义相似度计算过程中,采用如下的方法计算词语的相似度。对于两个概念C1和C2,如果C1有n个义元:O11,O12,……,O1n,C2有m个义元:O21,O22,……,O2m,规定C1和C2的相似度是各个义元的相似度最大值,即:而概念之间的相似度可由如图2所述的义元层次树求得。对于不同的义元,其相似度与义元节点在树中的路径长度成反比。根据公式:求得。其中,dis(Oi,Oj)是义元Oi和Oj在同一棵义元层次树中的路径长度,a是可调参数。由于a的不确定性,在本发明所提供的实施例中,采用公式进行计算。其中,H是该义元层次树的高度,可由义元层次树得到。
通常,2个义元间距离为0时,其相似度为1;2个义元间距离为无穷大时,其相似度为0;2个义元间距离越大,其相似度越小(单调下降)。
在计算TF-IDF权重时增加的特征词权重因子boost就是计算用户输入的检索词与该类资源的所有特征词之间的相似度的最大值。即:
除此之外,在检索过程中往往需要对用户输入的检索词进行扩展查询,包括全称简称扩展查询、同义词扩展查询、近义词扩展查询等。如用户输入“北航”,包含“北京航空航天大学”的文档也应该被检出;用户输入“土豆”,包含“马铃薯”的文档也应该返回给用户;用户输入“计算机”,包含“电脑”的文档或许也是用户感兴趣的内容。但是,扩展词对文档的权重贡献应该低于用户输入的原始检索词对文档的权重贡献。在本发明所提供的实施例中,在计算TF-IDF权重过程中增加了扩展词权重衰减因子decrease。经过大量的实验分析,当decrease值为0.5时,具有最佳的检索效果。
另外,在本发明所提供的实施例中,设置了动态调整因子a,可以方便地调整某特征词的权重。
当获得了索引权重因子以及每类资源的TF-IDF权重之后,采用加权合并算法,通过计算用户输入的检索词与不同类别资源的词语相似度,确定该类别资源的整体权重,根据资源的最终TF-IDF权重的大小将检索结果进行排序。
在获得每类资源的TF-IDF权重之后,可以实现单索引内的检索结果排序。但是,由于资源种类的多样性,尤其是用户输入的检索词往往具有一定的资源类别偏向性,如果不经过处理直接根据不同类别资源各自的TF-IDF权重进行合并排序,往往带来较差的用户体验。
为此,在本发明所提供的实施例中,采用加权合并算法,即通过计算用户输入的检索词与不同类别资源的词语的相似度,确定该类资源的整体权重,在本发明所提供的实施例中,通过索引权重因子来实现,这样可以确保与用户输入的检索词最相关的资源的权重最大。同时为了保证结果的多样性,避免因增大资源的整体权重,导致该类资源的整体权重偏大,造成用户真正感兴趣的资源的权重相对较低。
在本发明所提供的实施例中,还增加了索引权重衰减因子indexDecrease,即在同一类别资源内,每计算一条资源的加权权重,需要对其索引权重做一定程度的衰减,在一定程度上降低索引权重因子对资源的最终TF-IDF权重的影响。公式:weight=indexDecreas*indexBoost*score是多索引合并排序时资源的最终TF-IDF权重计算公式。
其中,indexDecrease是索引权重衰减因子,在本发明所提供的实施例中,indexDecrease取0.5;indexBoost是索引权重因子,是用户输入检索词与该类资源的所有特征词的相似度的算术平均值。score是资源在本类索引内部的TF-IDF权重。
通过对不同种类的科技资源进行加权合并,不仅能够增加最相关的资源的权重,使其排在返回结果的前列;还能够调整不同类别资源之间的权重,避免同类资源集中出现,使得检索结果离散化、能够在首页返回更多类别的资源,提升用户体验,满足不同用户的需要。
综上所述,本发明所提供的基于TF-IDF的多索引结果合并排序方法,通过计算用户输入的检索词与各类资源的所有特征词的相关度系数来确定索引权重因子,从而实现动态调整索引权重,改善多索引的结果合并排序效果。根据用户输入的检索词,采用改进的TF-IDF算法获得每类资源的TF-IDF权重,充分考虑了检索过程中词语的重要性以及词语的分布情况。在此基础上,采用加权合并算法,将每类资源的索引权重因子以及该类资源的TF-IDF权重相结合,获得该类资源的最终TF-IDF权重,并根据资源的最终TF-IDF权重的大小将检索结果进行排序。
以上对本发明所提供的基于TF-IDF的多索引结果合并排序方法进行了详细的说明。对本领域的技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。

Claims (4)

1.一种基于TF-IDF的多索引结果合并排序方法,其特征在于包括如下步骤:
对科技资源核心元数据进行特征词提取,构建不同类别资源的特征词库;
通过计算用户检索词与每类资源的所有特征词的相关度系数确定索引权重因子;索引权重因子通过公式求得;Qterm是用户输入的检索词,Qterm是该类资源的特征词,n是用户输入的检索词的个数,N是该类资源的特征词的个数,sim(Qtermi,Dtermj)代表用户输入的检索词i与该类资源的特征词j的相似度;
根据用户输入的检索词,采用获得每类资源的TF-IDF权重score;其中,TF-IDF因子是Lucene中TF-IDF算法的计算结果;distance(terms)是每类资源的所有词语之间的词序和词距因子;boost(term)指特征词权重因子;decrease是在计算每类资源的TF-IDF权重score过程中由于扩展查询增加的扩展词权重衰减因子;动态调整因子a用以对特征词的权重进行调整;
针对每类资源,分别通过公式weight=indexDecrease*indexBoot*score将该类资源索引权重因子以及该类资源的TF-IDF权重score相结合,获得该类资源的最终TF-IDF权重weight,并根据每类资源的最终TF-IDF权重weight的大小将检索结果进行排序;其中,indexDecrease是索引权重衰减因子。
2.如权利要求1所述的基于TF-IDF的多索引结果合并排序方法,其特征在于:
所述用户检索词与各类资源的所有特征词的相关度系数是用户输入的检索词与该类资源的所有特征词的相似度的算术平均值。
3.如权利要求1所述的基于TF-IDF的多索引结果合并排序方法,其特征在于:
所述distance(terms)由词序因子和词距因子两部分构成;由公式:distance(terms)=t.seq*t.dis计算得到;
所述
t.seq是词序因子,由公式:计算得到;
所述t.dis是词距因子,由公式计算得到;
其中,V(Qterms)是检索词构成的N0维向量;V(Dterms)是由文档中的特征词构成的N0维向量;NumOfTerms(i,j)表示特征词i与特征词j之间的特征词数量,即二者的词距;N是文档中出现的检索词的个数;N0是用户输入的检索词的个数。
4.如权利要求1所述的基于TF-IDF的多索引结果合并排序方法,其特征在于:
所述特征词权重因子是计算用户输入的检索词与该类资源的所有特征词之间的相似度的最大值,即:
其中,Qterm是用户输入的检索词,Dterm是该类资源的特征词。
CN201410473307.3A 2014-09-16 2014-09-16 一种基于tf‑idf的多索引结果合并排序方法 Active CN104298715B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410473307.3A CN104298715B (zh) 2014-09-16 2014-09-16 一种基于tf‑idf的多索引结果合并排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410473307.3A CN104298715B (zh) 2014-09-16 2014-09-16 一种基于tf‑idf的多索引结果合并排序方法

Publications (2)

Publication Number Publication Date
CN104298715A CN104298715A (zh) 2015-01-21
CN104298715B true CN104298715B (zh) 2017-12-19

Family

ID=52318440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410473307.3A Active CN104298715B (zh) 2014-09-16 2014-09-16 一种基于tf‑idf的多索引结果合并排序方法

Country Status (1)

Country Link
CN (1) CN104298715B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156135A (zh) * 2015-04-10 2016-11-23 华为技术有限公司 查询数据的方法及装置
CN104778276A (zh) * 2015-04-29 2015-07-15 北京航空航天大学 一种基于改进tf-idf的多索引合并排序算法
CN107016018B (zh) * 2015-10-23 2021-04-09 阿里巴巴集团控股有限公司 数据库索引创建方法及装置
CN106991092B (zh) * 2016-01-20 2021-11-05 阿里巴巴集团控股有限公司 基于大数据挖掘相似裁判文书的方法和设备
CN105893533B (zh) * 2016-03-31 2021-05-07 北京奇艺世纪科技有限公司 一种文本匹配方法及装置
CN109101485B (zh) * 2018-07-09 2022-07-29 重庆邂智科技有限公司 一种信息处理方法、装置、电子设备及计算机存储介质
CN109784046B (zh) * 2018-12-07 2021-02-02 中国人民解放军战略支援部队航天工程大学 一种恶意软件检测方法、装置与电子设备
CN110909725B (zh) * 2019-10-18 2023-09-19 平安科技(深圳)有限公司 识别文本的方法、装置、设备及存储介质
CN111831786A (zh) * 2020-07-24 2020-10-27 刘秀萍 完善主题词的全文数据库精准高效检索方法
CN112559708A (zh) * 2020-12-16 2021-03-26 四川智仟科技有限公司 基于语义相似度的问答对匹配技术

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364467A (zh) * 2011-09-29 2012-02-29 北京亿赞普网络技术有限公司 一种网络搜索方法和系统
CN102682132A (zh) * 2012-05-18 2012-09-19 合一网络技术(北京)有限公司 一种基于词频、播放量和创建时间检索信息的方法及系统
CN103838833A (zh) * 2014-02-24 2014-06-04 华中师范大学 基于相关词语语义分析的全文检索系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080313167A1 (en) * 2007-06-15 2008-12-18 Jim Anderson System And Method For Intelligently Indexing Internet Resources

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364467A (zh) * 2011-09-29 2012-02-29 北京亿赞普网络技术有限公司 一种网络搜索方法和系统
CN102682132A (zh) * 2012-05-18 2012-09-19 合一网络技术(北京)有限公司 一种基于词频、播放量和创建时间检索信息的方法及系统
CN103838833A (zh) * 2014-02-24 2014-06-04 华中师范大学 基于相关词语语义分析的全文检索系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"FAQ问答系统中的问句相似度研究";强继朋;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140315;全文 *
"Lucene排序算法的个性化改进";陈忱;《信息技术》;20120131;全文 *
"一种基于向量词序的句子相似度算法研究";程志强 等;《计算机仿真》;20140730;第31卷(第7期);第421-422页 *
"基于遗传神经网络的相似重复记录检测方法";孟祥逢;《计算机工程与设计》;20101231;全文 *
"热点新闻间关系的研究";程佳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20100715;全文 *

Also Published As

Publication number Publication date
CN104298715A (zh) 2015-01-21

Similar Documents

Publication Publication Date Title
CN104298715B (zh) 一种基于tf‑idf的多索引结果合并排序方法
Singh et al. Vector space model: an information retrieval system
Nagwani et al. A frequent term and semantic similarity based single document text summarization algorithm
Sun et al. The keyword extraction of Chinese medical web page based on WF-TF-IDF algorithm
CN103617157A (zh) 基于语义的文本相似度计算方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN106372122B (zh) 一种基于维基语义匹配的文档分类方法及系统
CN104778276A (zh) 一种基于改进tf-idf的多索引合并排序算法
TW202001620A (zh) 自動化網站資料蒐集方法
CN101625680A (zh) 面向专利领域的文档检索方法
CN109376352A (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN104462399B (zh) 搜索结果的处理方法及装置
CN102789452A (zh) 类似内容提取方法
Galkó et al. Biomedical question answering via weighted neural network passage retrieval
Wang et al. A semantic query expansion-based patent retrieval approach
Wang et al. Improving short text classification through better feature space selection
Sharaff et al. Document Summarization by Agglomerative nested clustering approach
Aliguliyev Automatic document summarization by sentence extraction
CN108595413A (zh) 一种基于语义依存树的答案抽取方法
Bollegala et al. Websim: A web-based semantic similarity measure
Pita et al. Strategies for short text representation in the word vector space
Parida et al. Ranking of Odia text document relevant to user query using vector space model
CN107220354A (zh) 一种大数据检索方法
Saenko et al. Filtering abstract senses from image search results
Zaw et al. Web document clustering using Gauss distribution based cuckoo search clustering algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant