CN102890711A - 一种检索排序方法及系统 - Google Patents

一种检索排序方法及系统 Download PDF

Info

Publication number
CN102890711A
CN102890711A CN2012103379044A CN201210337904A CN102890711A CN 102890711 A CN102890711 A CN 102890711A CN 2012103379044 A CN2012103379044 A CN 2012103379044A CN 201210337904 A CN201210337904 A CN 201210337904A CN 102890711 A CN102890711 A CN 102890711A
Authority
CN
China
Prior art keywords
retrieval
document
result
documents
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103379044A
Other languages
English (en)
Other versions
CN102890711B (zh
Inventor
陈洪辉
蔡飞
舒振
马建威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201210337904.4A priority Critical patent/CN102890711B/zh
Publication of CN102890711A publication Critical patent/CN102890711A/zh
Application granted granted Critical
Publication of CN102890711B publication Critical patent/CN102890711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种检索排序方法,包括:接收查询短语并检索;返回检索结果;提取文档库中所有文档的低维特征;获取检索结果中多个文档的相关度反馈信息;生成相关度判断模型;计算检索结果中所有文档的相关度得分;返回按相关度得分高低排序的再次检索结果;本发明还公开了一种检索排序系统,包括:检索模块、特征提取模块、相关度反馈模块、排序模块、存储模块;本发明所提出的一种检索排序方法及系统,其能提供高效准确的检索结果。

Description

一种检索排序方法及系统
技术领域
本发明涉及信息检索技术领域,特别是指一种检索排序方法及系统。
背景技术
近年来,随着互联网的普及以及信息产生媒体的多样化,信息资源总量以指数级速度不断增长,一项针对2000年至2007年的互联网页总数的研究统计表明,参考附图1,网页数目增速也在不断提高。同时普遍以非结构化形式存储于节点上。对用户而言,如何有效获取信息,急需相应的理论和方法来解决。因此,学术界和工业界对信息检索也掀起了一个新的研究高潮,成为当前信息处理领域的一个研究热点。
目前信息检索领域已经形成了一些检索模型,其中影响较大的有:布尔模型、向量空间模型、语言模型、BM25模型等,不断提高信息检索性能,推动信息检索研究的发展。这些方法在其特定应用中都体现出一定的优越性,但是它们仍有可改进之处。其主要问题是,算法无法自适应选取参数,运行过程中需手动调整模型参数,为此产生了基于机器学习的检索算法,称为排序学习,即系统根据用户提交的查询短语自动判断存储库中文档与查询的相关度大小,并给出排序列表,位置越靠前表示返回结果与查询越相关。
同时,检索系统面临如下问题:当用户构造一个好的查询有困难时,检索结果往往不尽如人意,而让用户判断文档与其查询的相关性却是比较容易的,于是考虑通过用户交互直接给出文档相关性判断引入检索系统,来提高检索结果的准确性,这就是基于用户相关反馈的信息检索方法。利用用户相关反馈进行检索的反复迭代是非常有意义的,并且相关反馈对于跟踪用户信息需求的变化也是有效的。图像检索就是一个使用相关反馈很好的例子,因为在图像检索中返回结果直观,而且用户不容易用词语来表达其需求,但很容易标记相关和不相关的图像结果。
从基于机器学习的信息检索方法和基于用户相关反馈的信息检索方法研究成果来看,目前两类算法并没有很好的交叉融合,往往各自具有一定的应用范围,如何结合机器学习方法和用户相关反馈机制对信息进行更有效的检索与排序是本领域技术人员极为关注的技术问题。
发明内容
有鉴于此,本发明的目的在于提出一种检索排序方法及系统,其能提供高效准确的检索结果。
基于上述目的本发明提供的一种检索排序方法,包括:
接收查询短语并检索;
返回检索结果;
提取文档库中所有文档的低维特征;
获取检索结果中多个文档的相关度反馈信息;
生成相关度判断模型;
计算检索结果中所有文档的相关度得分;
返回按相关度得分高低排序的再次检索结果。
在一个实施例中,所述方法还包括初始化步骤:
提取文档库中所有文档的多维特征。
在另一个实施例中,所述检索结果是按照相似度得分高低排序的。
在另一个实施例中,所述相似度得分表达式为:
相似度得分=b1×TF1+b2×TF2+…+bn×TFn,其中,TFn为文档的多维特征,bn为该特征对应的权重。
在另一个实施例中,所述低维特征的提取方法为主成分分析方法。
在另一个实施例中,所述相关度判断模型的生成方法为:
利用检索结果中多个文档的相关度反馈信息及其低维特征进行逻辑回归。
在另一个实施例中,所述相关度判断模型表达式为:
相关度得分=a1×F1+a2×F2+…+an×Fn,其中,Fn为文档的低维特征,an为该特征对应的系数。
在另一个实施例中,所述文档库具有可扩展性。
本发明还提供了一种检索排序系统,包括:
检索模块,用于接收查询短语并检索,以及返回检索结果和再次检索结果;
特征提取模块,用于提取文档库中所有文档的低维特征;
相关度反馈模块,用于获取检索结果中多个文档的相关度反馈信息;
排序模块,用于生成相关度判断模型,计算检索结果中所有文档的相关度得分,并对所有文档按相关度得分高低排序;
存储模块,用于保存文档库和用于存储低维特征的特征库。
在一个实施例中,所述特征提取模块还用于提取文档库中所有文档的多维特征,所述存储模块中的特征库还用于存储所述多维特征。
在另一个实施例中,所述排序模块还用于生成相似度判断模型,计算检索结果中所有文档的相似度得分,并对检索结果按照相似度得分高低排序。
从上面所述可以看出,本发明提供的一种检索排序方法及系统,便于信息资源的及时注册更新,统一管理,同时将相关度反馈信息引入检索系统来提高检索性能。该方法从实现角度来看,运行过程中无需手动调节算法参数,同时计算复杂度低,降低了检索时间,实现了快速自主的信息检索与排序。结合低维特征和相关度反馈信息建立相关度判断模型,对检索结果进行多次排序,最后得到并返回最佳排序的检索结果。
附图说明
图1为互联网网页数量统计示意图;
图2为本发明提供的检索排序方法实施例流程图;
图3为文档库中文档特征表示模型实施例示意图;
图4为本发明检索排序系统工作界面实施例示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
参考附图2,为本发明提供的检索排序方法实施例流程图。
本实施例中所提供的一种检索排序方法,包括:
接收查询短语并检索;
返回检索结果;
提取文档库中所有文档的低维特征;
获取检索结果中多个文档的相关度反馈信息;
生成相关度判断模型;
计算检索结果中所有文档的相关度得分;
返回按相关度得分高低排序的再次检索结果。
具体的,本实施例中所提供的一种检索排序方法,可包括:
步骤1:在离线状态下提取文档库中各个文档的多维特征,便于检索系统在进行初次检索时使用,同时可减少用户的实时查询时间。
所述文档库中保存的文档是待检索的文件,优选为各应用域(如标题、摘要、正文等)明确的HTML文件,便于后续特征的提取。
根据信息检索领域研究成果,结合文档库中以HTML文件形式保存的文档,对基于应用域的文档信息提取重要特征,并建立了如表1所示的文档多维特征表,并将此多维特征表信息在特征库中以图3所示格式存储。
表1
  序号   名称   描述
  1   TF(Term frequency)of body   文档Body部分词频
  2   TF of anchor   文档Anchor部分词频
  3   TF of title   文档Title部分词频
  4   TF of URL   文档URL部分词频
  5   TF of whole document   整个文档的词频
  6   IDF(Inverse document frequency)of body   文档Body部分逆文档词频
  7   IDF of anchor   文档Anchor部分逆文档词频
  8   IDF of title   文档Title部分逆文档词频
  9   IDF of URL   文档URL部分逆文档词频
  10   IDF of whole document   整个文档的逆文档词频
  11   TF*IDF of body   文档Body部分TF*IDF值
  12   TF*IDF of anchor   文档Anchor部分TF*IDF值
  13   TF*IDF of title   文档Title部分TF*IDF值
  14   TF*IDF of URL   文档URL部分TF*IDF值
  15   TF*IDF of whole document   整个文档的TF*IDF值
  16   DL(Documentlength)of body   文档Body部分长度
  17   DL of anchor   文档Anchor部分长度
  18   DL of title   文档Title部分长度
  19   DL of URL   文档URL部分长度
  20   DL of whole document   整个文档的长度
  21   BM25 of body   文档Body部分BM25值
  22   LMIR.ABS of body   文档Body部分LMIR.ABS值
  23   LMIR.DIR of body   文档Body部分LMIR.DIR值
  24   LMI R.JM of body   文档Body部分LMIR.JM值
  25   BM25 of anchor   文档anchor部分BM25值
  26   LMIR.ABS of anchor   文档anchor部分LMIR.ABS值
  27   LMIR.DIR of anchor   文档anchor部分LMIR.DIR值
  28   LMIR.JM of anchor   文档anchor部分LMIR.JM值
  29   BM25 of title   文档Title部分BM25值
  30   LMIR.ABS of title   文档Title部分LMIR.ABS值
  31   LMIR.DIR of title   文档Title部分LMIR.DIR值
  32   LMIR.JM of title   文档Title部分LMIR.JM值
  33   BM25 of URL   文档URL部分BM25值
  34   LMIR.ABS of URL   文档URL部分LMIR.ABS值
  35   LMIR.DIR of URL   文档URL部分LMIR.DIR值
  36   LMIR.JM of URL   文档URL部分LMIR.JM值
  37   BM25 of whole document   整个文档BM25值
  38   LMIR.AB S of whole document   整个文档LMIR.ABS值
  39   LMIR.DIR of whole document   整个文档LMIR.DIR值
  40   LMIR.JM of whole document   整个文档LMIR.JM值
  41   PageRank   网页PageRank值
  42   Inlink number   网页入度
  43   Outlink number   网页出度
  44   Number of slash in URL   URL中无用字符个数
  45   Length of URL   URL长度
  46   Number of child page   子网页个数
步骤2:接收用户根据其信息需求输入的查询短语,检索系统根据查询短语与文档库中文档内容关键词匹配等技术,通过计算返回给用户初次检索结果,从而完成文档的初次检索。
具体可为,系统根据用户输入的查询短语依次在文档的标题、正文等不同特征域中进行匹配,或直接查询调用上述文档多维特征表中的值,并通过计算匹配次数衡量短语的重要性,获取待检索信息资源的重要属性信息。
根据查询短语在文档出现的位置差异,赋予短语在计算相似度时不同的权重;通过匹配关键词的次数和位置计算相似度得分,而不同的特征域对相似度得分贡献权重不同。例如:通常查询短语在标题中出现权重大于摘要和正文,可设对应的权重比为5:2:1,得到:
相似度得分=5×T1+2×T2+1×T3,其中,T1、T2和T3分别为查询短语在标题、摘要和正文中出现次数。
上述关键词匹配在文档的标题、正文等不同特征域中进行,具体实现时可以直接从已提取出的多维特征表中调用,若无法直接获取多维特征,则进行匹配操作,此步骤主要优点在于响应时间短,满足用户在线查询的需求。
若采用直接从已提取出的多维特征表中调用的方式计算相似度得分,则所述相似度得分表达式为:
相似度得分=b1×TF1+b2×TF2+…+bn×TFn,其中,TFi(i=1…n)为文档的不同特征,bi(i=1…n)为对应特征的权重。
最后,找出关键词匹配次数多、相似度得分高的文档视为符合用户需求的文档首先返回给用户,并完成对检索结果按相似度得分高低排序的初次检索排序,并返回该排序完成的检索结果。
此时,若该检索结果满足用户要求,用户可以终止检索过程,则检索过程结束。
若用户对初次检索结果不满意,需要继续再次进行检索排序操作,则进行步骤3。
步骤3:提取文档库中所有文档的低维特征。
由于文档多维特征较多,直接用于计算导致运行时间增多,很难满足用户在线实时、快速的查询需求,为了降低计算复杂度,减少检索时间,同时提高检索准确率,需要对离线状态下提取的文档多维特征,进一步提炼以获取低维且有用信息,在不影响检索准确率的同时,提高系统运行速度。
采用主成分分析(Principal Component Analysis,PCA)对多维特征降维,获取文档在低维空间的特征表示。
主成分分析(Principal Component Analysis,PCA),将多个变量通过线性变换以构造出较少个数重要变量的一种多元统计分析方法。
主成分分析是设法将原来众多具有一定相关性的指标(比如n个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来结实多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来n个指标作线性组合,作为新的综合指标。此处,即从众多具有一定相关性的多维特征,重新组合成一组新的互相无关的低维特征来代替原来的多维特征。
主成分分析最经典的分析方法是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即F1的方差越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。
如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求F1和F2的协方差为零,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第n个主成分。
具体主成分分析步骤主要包括:
步骤301:多维特征数据标准化(可利用主成分分析相关软件自动执行);
步骤302:多维特征之间的相关性判定;
步骤303:确定低维特征个数n;
步骤304:得到低维特征Fn表达式;
Fn=fn×ZX,ZX是多维特征经过标准化处理后的特征矩阵,fn是ZX的协方差阵Σ的特征值λn1≥λ2≥…≥λn≥0)所对应的特征向量。因为本实施例中所采用的多维特征就存在量纲影响,所以在计算之前须先消除量纲的影响,而将多维特征标准化。
主成分分析(PCA)将文档映射到低维空间特征表示,既降低了计算复杂度,又提高了检索准确率,因为经主成分分析降维后提取的低维特征之间彼此相互独立,是对文档初始多维特征的充分利用。
步骤4:获取检索结果中多个文档的相关度反馈信息。
参考附图4,本发明检索排序系统工作界面实施例示意图。
在用户输入查询短语后,根据初次检索排序,所述检索排序系统返回按相似度高低排序的检索结果,并同时给出每个文档的简要描述信息,便于用户进行相关反馈。由于在第一步基于关键字匹配进行检索后,系统根据判断与查询短语的相似度,返回给用户一张文档排序列表,用户可能没有得到满意的检索结果,此时,用户可在返回的检索结果中选择一部分容易判断与查询相关度的文档,给出文档的相关反馈信息。
具体可为,用户根据检索系统给出的检索结果,通过系统交互接口,选择其中一部分作为进行相关度信息反馈的文档,通过交互界面进行相关度判断;根据其所需查询的信息内容,通过选择2分、1分还是0分,分别表示很相关、一般相关和不相关,给出每个文档与其所需查询内容的相关度,然后点击再次检索,作为相关反馈信息提供给检索系统。
系统接收用户通过交互接口提交的对初次检索结果中部分文档的相关度
关度判断模型,重新计算每个文档关于用户查询的相关度得分,将按照相关度得分由高到低的文档排序结果作为再次检索结果返回用户。
所述检索排序系统返回按相关度得分高低排序的再次检索结果,相较初次检索结果给出了更准确的相关文档排序。
此时,若该再次检索结果满足用户要求,用户可以终止检索过程,则检索过程结束。
若用户对再次检索结果仍不满意,需要继续进行再次检索排序操作,则可跳到步骤4,对再次检索结果中的部分文档进行相关度判断,并将相关度反馈信息提供给检索系统,然后再次进行检索排序,并返回给用户再一次的检索结果。以此迭代,直至用户满意停止检索过程。
若用户需要进行新的检索排序操作,则可返回至步骤2接收查询短语,否则结束整个流程。
进一步的,所述文档库具有可扩展性。意即,所述排序检索方法还可包括:
在所述文档库中添加新的信息资源,并根据新的信息资源重新提取多维特征。
根据用户需求,创建新的信息资源注册至文档库,便于检索。按照存储库中信息存储格式,建立索引关系,并提取相同的特征。同时可以根据信息检索领域新的研究成果,提取文档新的特征,添加至文档的特征表示中,便于检索算法的利用,并提高了检索性能。
从上述实施例可以看出,本发明的提供的一种检索排序方法,该方法按照用户查询短语,提取文档多维度特征,并利用降维方法获取文档低维空间下的重要特征,结合用户相关反馈,利用统计学逻辑回归思想生成用户查询与文档相关度判断模型,利用该模型计算查询与文档相关度得分,依据该得分给出文档相关度排序列表,实现非结构化数据信息检索与排序。进一步的,所述检索排序方法克服了当用户无法构建好的查询时,导致信息检索性能降低的困难,改为利用用户判断检索结果的相关性这一反馈信息,提高了信息检索的准确性。更进一步的,通过主成分分析降维方法获取文档的低维特征表示,系统可以对较少的特征信息进行逻辑回归分析,降低计算复杂度,但不影响系统信息检索性能,尤其是检索准确率有一定的提高。优选的,所述文档库和特征库还可具备可扩展性,即可以通过在文档库中添加新
判断,通常用户会选择明显很相关或不相关的文档进行反馈,因此,这些文档在特征表示上差异大,有利于统计分析;用户提交对部分初次检索结果的相关度反馈信息,包括非常相关(2分)、一般相关(1分)或不相关(0分)三个层次,多层次的相关度标记更有利于逻辑回归分析。
步骤5:生成相关度判断模型。
检索排序系统利用所述相关度反馈信息以及所述低维特征表示进行逻辑回归分析,建立两者的映射关系,生成相关度判断模型:
在回归分析中,当因变量相关度y是一个定性的变量,比如,y=0或1,分别表示不相关或相关时,就可以采用逻辑回归(Logistic Regression)对相关度y与步骤3提取的低维特征进行回归分析。
逻辑回归的基本思想,不是直接对相关度y进行回归,而是先定义一种概率函数PI,令PI=Pr(y=1|X1,X2,…,Xp),其中X1,X2,…,Xp是低维特征,然后令PI=1/(1+a×exp(-b1X1-b2X2-…-bnXn)),其中(a>0,b>=0),PI是一个Logistic型的函数,于是,log((1-PI)/PI)=b0-b1X1-b2X2……-bnXn,然后,对log((1-PI)/PI)进行通常的线性回归,即可生成相关度判断模型。
生成相关度判断模型步骤主要包括:
步骤501:将用户反馈的相关度值进行二值化,即;用户反馈值大于0时,y=1;用户反馈值等于0时,y=0,进而计算相关文档的概率PI和log((1-PI)/PI)值;
步骤502:设定文档用低维(如n=3,三维)特征表示;
步骤503:将步骤501和502结果作为逻辑回归函数的输入,进行统计分析,生成相关度判断模型M,即为一组特征权重系数(a1,a2,a3);a1,a2,a3分别对应文档第一、二和三维特征对相关度的贡献权重。
模型生成后,当用户检索信息时,输入查询短语,计算所有文档与查询词的相关度得分。相关度得分=a1×F1+a2×F2+…+an×Fn,其中,Fn为文档的低维特征,an为该特征对应的系数,系统按照相关度得分由高到低将文档排序返回给用户。
逻辑回归的分析设计挖掘了文档低维特征与相关度之间的映射关系,经大量的训练数据验证,获取具有规律性的判断模型。
步骤:6:计算检索结果中所有文档的相关度得分。
利用文档的低维特征以及相关度判断模型,将所述文档低维特征输入相文档,提取其新多维特征入特征库,即可被广泛应用检索。较佳的,所述检索排序系统界面中,在每个返回结果的下方给出获取用户对检索结果相关度判断的按钮,用户通过点击鼠标这一简单操作就可以提供相关反馈信息,操作简单快捷,便于用户反馈信息的提取。
需要特别指出的是,上述实施例中所述初次检索结果是采用了计算相似度得分并进行排序并返回的检索结果,但并不代表初次检索一定需要进行相似度,可以看出,这只是一个优选实施例,它的好处在于第一次返回检索结果就可以得到经过初次排序的检索结果;而后续再次检索结果所返回的是根据用户返回的相关度进行排序的结果,不用按照相似度得分进行初次排序,也可以对检索结果进行排序,因此,不应该把对初次检索结果进行排序作为限制本发明保护范围的必要技术特征。
上述实施例中,所述多维特征的提取是采用主成分分析方法进行提取,而其他的特征提取方法虽然没有在此提到,但可以知道,本发明技术领域技术人员很容易联想到类似的实现方式,因此,其他的特征提取方法也应当属于本发明保护范围。
上述实施例中,所述相关度判断分为了三种层次,当然,很明显,分为两种层次(如:相关、不相关),或者五种层次(如:非常相关、较相关、一般相关、较不相关、非常不相关),也可实现本发明,因此可以推断,相关度判断分为两种层次或以上,都应该属于本发明保护范围。
上述实施例中,所述相关度判断模型是采用逻辑回归方式得出的,当然,其他的回归分析模型,也可实现本发明,都应该属于本发明保护范围。
上述实施例中,所述文档库和特征库具有可扩展性,其目的之一在于实时更新文档库并提高检索性能,这只是一种优选方式,因此,不应该把对初次检索结果进行排序作为限制本发明保护范围的必要技术特征。
本发明还提供了一种采用上述检索排序方法的检索排序系统,包括:
检索模块,用于接收查询短语并检索,以及返回检索结果和再次检索结果;
特征提取模块,用于提取文档库中所有文档的低维特征;
相关度反馈模块,用于获取检索结果中多个文档的相关度反馈信息;
排序模块,用于生成相关度判断模型,计算检索结果中所有文档的相关度得分,并对所有文档按相关度得分高低排序;
存储模块,用于保存文档库和用于存储低维特征的特征库。
优选的,所述特征提取模块还用于提取文档库中所有文档的多维特征,所述存储模块中的特征库还用于存储所述多维特征。
较佳的,所述排序模块还用于生成相似度判断模型,计算检索结果中所有文档的相似度得分,并对检索结果按照相似度得分高低排序。
进一步的,所述低维特征的提取方法为主成分分析方法。
更进一步的,所述文档库和/或特征库具有可扩展性。
所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种检索排序方法,其特征在于,包括:
接收查询短语并检索;
返回检索结果;
提取文档库中所有文档的低维特征;
获取检索结果中多个文档的相关度反馈信息;
生成相关度判断模型;
计算检索结果中所有文档的相关度得分;
返回按相关度得分高低排序的再次检索结果。
2.根据权利要求1所述的一种检索排序方法,其特征在于,所述方法还包括初始化步骤:
提取文档库中所有文档的多维特征。
3.根据权利要求2所述的一种检索排序方法,其特征在于,所述检索结果是按照相似度得分高低排序的。
4.根据权利要求3所述的一种检索排序方法,其特征在于,所述相似度得分表达式为:
相似度得分=b1×TF1+b2×TF2+…+bn×TFn,其中,TFn为文档的多维特征,bn为该特征对应的权重。
5.根据权利要求2所述的一种检索排序方法,其特征在于,所述低维特征的提取方法为主成分分析方法。
6.根据权利要求1所述的一种检索排序方法,其特征在于,所述相关度判断模型的生成方法为:
利用检索结果中多个文档的相关度反馈信息及其低维特征进行逻辑回归。
7.根据权利要求6所述的一种检索排序方法,其特征在于,所述相关度判断模型表达式为:
相关度得分=a1×F1+a2×F2+…+an×Fn,其中,Fn为文档的低维特征,an为该特征对应的系数。
8.根据权利要求1-7任意一项所述的一种检索排序方法,其特征在于,所述文档库和/或特征库具有可扩展性。
9.一种采用权利要求1-8任意一项所述检索排序方法的检索排序系统,其特征在于,包括:
检索模块,用于接收查询短语并检索,以及返回检索结果和再次检索结果;
特征提取模块,用于提取文档库中所有文档的低维特征;
相关度反馈模块,用于获取检索结果中多个文档的相关度反馈信息;
排序模块,用于生成相关度判断模型,计算检索结果中所有文档的相关度得分,并对所有文档按相关度得分高低排序;
存储模块,用于保存文档库和用于存储低维特征的特征库。
10.根据权利要求9所述的一种检索排序系统,其特征在于,所述特征提取模块还用于提取文档库中所有文档的多维特征,所述存储模块中的特征库还用于存储所述多维特征。
11.根据权利要求10所述的一种检索排序系统,其特征在于,所述排序模块还用于生成相似度判断模型,计算检索结果中所有文档的相似度得分,并对检索结果按照相似度得分高低排序。
CN201210337904.4A 2012-09-13 2012-09-13 一种检索排序方法及系统 Active CN102890711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210337904.4A CN102890711B (zh) 2012-09-13 2012-09-13 一种检索排序方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210337904.4A CN102890711B (zh) 2012-09-13 2012-09-13 一种检索排序方法及系统

Publications (2)

Publication Number Publication Date
CN102890711A true CN102890711A (zh) 2013-01-23
CN102890711B CN102890711B (zh) 2015-08-12

Family

ID=47534213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210337904.4A Active CN102890711B (zh) 2012-09-13 2012-09-13 一种检索排序方法及系统

Country Status (1)

Country Link
CN (1) CN102890711B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279577A (zh) * 2013-06-21 2013-09-04 冶金自动化研究设计院 一种基于主成分分析的钢号查询对照系统
CN103970747A (zh) * 2013-01-24 2014-08-06 爱帮聚信(北京)科技有限公司 网络侧计算机对搜索结果进行排序的数据处理方法
WO2015100980A1 (zh) * 2013-12-31 2015-07-09 华为技术有限公司 一种信息检索方法及装置
CN107133290A (zh) * 2017-04-19 2017-09-05 中国人民解放军国防科学技术大学 一种个性化信息检索方法与装置
CN107291871A (zh) * 2017-06-15 2017-10-24 北京百度网讯科技有限公司 基于人工智能的多域信息的匹配度评估方法、设备及介质
CN107391535A (zh) * 2017-04-20 2017-11-24 阿里巴巴集团控股有限公司 在文档应用中搜索文档的方法及装置
CN107463554A (zh) * 2016-06-02 2017-12-12 阿里巴巴集团控股有限公司 短语挖掘方法及装置
CN109151073A (zh) * 2018-10-29 2019-01-04 恒安嘉新(北京)科技股份公司 手机应用软件推荐方法及系统
CN109299383A (zh) * 2018-11-02 2019-02-01 北京字节跳动网络技术有限公司 生成推荐词的方法、装置、电子设备及存储介质
CN109740692A (zh) * 2019-01-13 2019-05-10 胡燕祝 一种基于主成分分析的逻辑斯蒂回归的目标归类方法
CN112732883A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 基于知识图谱的模糊匹配方法、装置和计算机设备
CN112988969A (zh) * 2021-03-09 2021-06-18 北京百度网讯科技有限公司 用于文本检索的方法、装置、设备以及存储介质
CN113449063A (zh) * 2021-06-25 2021-09-28 树根互联股份有限公司 一种构建文档结构信息检索库的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040091135A1 (en) * 2002-11-07 2004-05-13 Bourg Wilfred M. Method for on-line machine vision measurement, monitoring and control of product features during on-line manufacturing processes
CN1967536A (zh) * 2006-11-16 2007-05-23 华中科技大学 基于区域的多特征融合及多级反馈的潜伏语义图像检索方法
CN101281545A (zh) * 2008-05-30 2008-10-08 清华大学 一种基于多特征相关反馈的三维模型检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040091135A1 (en) * 2002-11-07 2004-05-13 Bourg Wilfred M. Method for on-line machine vision measurement, monitoring and control of product features during on-line manufacturing processes
CN1967536A (zh) * 2006-11-16 2007-05-23 华中科技大学 基于区域的多特征融合及多级反馈的潜伏语义图像检索方法
CN101281545A (zh) * 2008-05-30 2008-10-08 清华大学 一种基于多特征相关反馈的三维模型检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵玉茗: "文本间语义相关性计算及其应用研究", 《中国博士学位论文全文数据库 信息科技辑》, 15 November 2011 (2011-11-15) *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970747A (zh) * 2013-01-24 2014-08-06 爱帮聚信(北京)科技有限公司 网络侧计算机对搜索结果进行排序的数据处理方法
CN103970747B (zh) * 2013-01-24 2017-02-15 爱帮聚信(北京)科技有限公司 网络侧计算机对搜索结果进行排序的数据处理方法
CN103279577A (zh) * 2013-06-21 2013-09-04 冶金自动化研究设计院 一种基于主成分分析的钢号查询对照系统
CN103279577B (zh) * 2013-06-21 2017-02-15 冶金自动化研究设计院 一种基于主成分分析的钢号查询对照系统
WO2015100980A1 (zh) * 2013-12-31 2015-07-09 华为技术有限公司 一种信息检索方法及装置
CN107463554A (zh) * 2016-06-02 2017-12-12 阿里巴巴集团控股有限公司 短语挖掘方法及装置
CN107133290A (zh) * 2017-04-19 2017-09-05 中国人民解放军国防科学技术大学 一种个性化信息检索方法与装置
CN107133290B (zh) * 2017-04-19 2019-10-29 中国人民解放军国防科学技术大学 一种个性化信息检索方法与装置
CN107391535A (zh) * 2017-04-20 2017-11-24 阿里巴巴集团控股有限公司 在文档应用中搜索文档的方法及装置
CN107291871A (zh) * 2017-06-15 2017-10-24 北京百度网讯科技有限公司 基于人工智能的多域信息的匹配度评估方法、设备及介质
US11481656B2 (en) 2017-06-15 2022-10-25 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for evaluating a matching degree of multi-domain information based on artificial intelligence, device and medium
CN107291871B (zh) * 2017-06-15 2021-02-19 北京百度网讯科技有限公司 基于人工智能的多域信息的匹配度评估方法、设备及介质
CN109151073A (zh) * 2018-10-29 2019-01-04 恒安嘉新(北京)科技股份公司 手机应用软件推荐方法及系统
CN109151073B (zh) * 2018-10-29 2021-07-16 恒安嘉新(北京)科技股份公司 手机应用软件推荐方法及系统
CN109299383A (zh) * 2018-11-02 2019-02-01 北京字节跳动网络技术有限公司 生成推荐词的方法、装置、电子设备及存储介质
CN109740692A (zh) * 2019-01-13 2019-05-10 胡燕祝 一种基于主成分分析的逻辑斯蒂回归的目标归类方法
CN112732883A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 基于知识图谱的模糊匹配方法、装置和计算机设备
CN112988969A (zh) * 2021-03-09 2021-06-18 北京百度网讯科技有限公司 用于文本检索的方法、装置、设备以及存储介质
CN112988969B (zh) * 2021-03-09 2024-05-10 北京百度网讯科技有限公司 用于文本检索的方法、装置、设备以及存储介质
CN113449063A (zh) * 2021-06-25 2021-09-28 树根互联股份有限公司 一种构建文档结构信息检索库的方法及装置

Also Published As

Publication number Publication date
CN102890711B (zh) 2015-08-12

Similar Documents

Publication Publication Date Title
CN102890711B (zh) 一种检索排序方法及系统
Hiemstra Information retrieval models
CN103473283B (zh) 一种文本案例匹配方法
US9104733B2 (en) Web search ranking
US20110047166A1 (en) System and methods of relating trademarks and patent documents
Moreira et al. Learning to rank academic experts in the DBLP dataset
Kanwal et al. A review of text-based recommendation systems
US20140289675A1 (en) System and Method of Mapping Products to Patents
CN102043812A (zh) 一种医疗信息的检索方法及系统
Kim et al. A framework for tag-aware recommender systems
Bordogna et al. Disambiguated query suggestions and personalized content-similarity and novelty ranking of clustered results to optimize web searches
Simón et al. Calculating the significance of automatic extractive text summarization using a genetic algorithm
Crescenzi et al. Crowdsourcing for data management
Jannach et al. Automated ontology instantiation from tabular web sources—the AllRight system
Lee et al. Reducing noises for recall-oriented patent retrieval
Rajman et al. From text to knowledge: Document processing and visualization: A text mining approach
Chen Building a term suggestion and ranking system based on a probabilistic analysis model and a semantic analysis graph
Cai et al. Term-level semantic similarity helps time-aware term popularity based query completion
CN107423298B (zh) 一种搜索方法和装置
Huang et al. Rough-set-based approach to manufacturing process document retrieval
Ayorinde et al. Topic Clustering Using Induced Squared Correlation Thresholding with Dimension Reduction
Plansangket New weighting schemes for document ranking and ranked query suggestion
McCamish et al. A signaling game approach to databases querying and interaction
Liu Entity centric information retrieval
Zhang et al. An advanced user intent model based on user learning process

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant