CN102890711A

CN102890711A - 一种检索排序方法及系统

Info

Publication number: CN102890711A
Application number: CN2012103379044A
Authority: CN
Inventors: 陈洪辉; 蔡飞; 舒振; 马建威
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2012-09-13
Filing date: 2012-09-13
Publication date: 2013-01-23
Anticipated expiration: 2032-09-13
Also published as: CN102890711B

Abstract

本发明公开了一种检索排序方法，包括：接收查询短语并检索；返回检索结果；提取文档库中所有文档的低维特征；获取检索结果中多个文档的相关度反馈信息；生成相关度判断模型；计算检索结果中所有文档的相关度得分；返回按相关度得分高低排序的再次检索结果；本发明还公开了一种检索排序系统，包括：检索模块、特征提取模块、相关度反馈模块、排序模块、存储模块；本发明所提出的一种检索排序方法及系统，其能提供高效准确的检索结果。

Description

一种检索排序方法及系统

技术领域

本发明涉及信息检索技术领域，特别是指一种检索排序方法及系统。

背景技术

近年来，随着互联网的普及以及信息产生媒体的多样化，信息资源总量以指数级速度不断增长，一项针对2000年至2007年的互联网页总数的研究统计表明，参考附图1，网页数目增速也在不断提高。同时普遍以非结构化形式存储于节点上。对用户而言，如何有效获取信息，急需相应的理论和方法来解决。因此，学术界和工业界对信息检索也掀起了一个新的研究高潮，成为当前信息处理领域的一个研究热点。

目前信息检索领域已经形成了一些检索模型，其中影响较大的有：布尔模型、向量空间模型、语言模型、BM25模型等，不断提高信息检索性能，推动信息检索研究的发展。这些方法在其特定应用中都体现出一定的优越性，但是它们仍有可改进之处。其主要问题是，算法无法自适应选取参数，运行过程中需手动调整模型参数，为此产生了基于机器学习的检索算法，称为排序学习，即系统根据用户提交的查询短语自动判断存储库中文档与查询的相关度大小，并给出排序列表，位置越靠前表示返回结果与查询越相关。

同时，检索系统面临如下问题：当用户构造一个好的查询有困难时，检索结果往往不尽如人意，而让用户判断文档与其查询的相关性却是比较容易的，于是考虑通过用户交互直接给出文档相关性判断引入检索系统，来提高检索结果的准确性，这就是基于用户相关反馈的信息检索方法。利用用户相关反馈进行检索的反复迭代是非常有意义的，并且相关反馈对于跟踪用户信息需求的变化也是有效的。图像检索就是一个使用相关反馈很好的例子，因为在图像检索中返回结果直观，而且用户不容易用词语来表达其需求，但很容易标记相关和不相关的图像结果。

从基于机器学习的信息检索方法和基于用户相关反馈的信息检索方法研究成果来看，目前两类算法并没有很好的交叉融合，往往各自具有一定的应用范围，如何结合机器学习方法和用户相关反馈机制对信息进行更有效的检索与排序是本领域技术人员极为关注的技术问题。

发明内容

有鉴于此，本发明的目的在于提出一种检索排序方法及系统，其能提供高效准确的检索结果。

基于上述目的本发明提供的一种检索排序方法，包括：

接收查询短语并检索；

返回检索结果；

提取文档库中所有文档的低维特征；

获取检索结果中多个文档的相关度反馈信息；

生成相关度判断模型；

计算检索结果中所有文档的相关度得分；

返回按相关度得分高低排序的再次检索结果。

在一个实施例中，所述方法还包括初始化步骤：

提取文档库中所有文档的多维特征。

在另一个实施例中，所述检索结果是按照相似度得分高低排序的。

在另一个实施例中，所述相似度得分表达式为：

相似度得分=b₁×TF₁+b₂×TF₂+…+b_n×TF_n，其中，TF_n为文档的多维特征，b_n为该特征对应的权重。

在另一个实施例中，所述低维特征的提取方法为主成分分析方法。

在另一个实施例中，所述相关度判断模型的生成方法为：

利用检索结果中多个文档的相关度反馈信息及其低维特征进行逻辑回归。

在另一个实施例中，所述相关度判断模型表达式为：

相关度得分=a₁×F₁+a₂×F₂+…+a_n×F_n，其中，F_n为文档的低维特征，a_n为该特征对应的系数。

在另一个实施例中，所述文档库具有可扩展性。

本发明还提供了一种检索排序系统，包括：

检索模块，用于接收查询短语并检索，以及返回检索结果和再次检索结果；

特征提取模块，用于提取文档库中所有文档的低维特征；

相关度反馈模块，用于获取检索结果中多个文档的相关度反馈信息；

排序模块，用于生成相关度判断模型，计算检索结果中所有文档的相关度得分，并对所有文档按相关度得分高低排序；

存储模块，用于保存文档库和用于存储低维特征的特征库。

在一个实施例中，所述特征提取模块还用于提取文档库中所有文档的多维特征，所述存储模块中的特征库还用于存储所述多维特征。

在另一个实施例中，所述排序模块还用于生成相似度判断模型，计算检索结果中所有文档的相似度得分，并对检索结果按照相似度得分高低排序。

从上面所述可以看出，本发明提供的一种检索排序方法及系统，便于信息资源的及时注册更新，统一管理，同时将相关度反馈信息引入检索系统来提高检索性能。该方法从实现角度来看，运行过程中无需手动调节算法参数，同时计算复杂度低，降低了检索时间，实现了快速自主的信息检索与排序。结合低维特征和相关度反馈信息建立相关度判断模型，对检索结果进行多次排序，最后得到并返回最佳排序的检索结果。

附图说明

图1为互联网网页数量统计示意图；

图2为本发明提供的检索排序方法实施例流程图；

图3为文档库中文档特征表示模型实施例示意图；

图4为本发明检索排序系统工作界面实施例示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

参考附图2，为本发明提供的检索排序方法实施例流程图。

本实施例中所提供的一种检索排序方法，包括：

接收查询短语并检索；

返回检索结果；

提取文档库中所有文档的低维特征；

获取检索结果中多个文档的相关度反馈信息；

生成相关度判断模型；

计算检索结果中所有文档的相关度得分；

返回按相关度得分高低排序的再次检索结果。

具体的，本实施例中所提供的一种检索排序方法，可包括：

步骤1：在离线状态下提取文档库中各个文档的多维特征，便于检索系统在进行初次检索时使用，同时可减少用户的实时查询时间。

所述文档库中保存的文档是待检索的文件，优选为各应用域（如标题、摘要、正文等）明确的HTML文件，便于后续特征的提取。

根据信息检索领域研究成果，结合文档库中以HTML文件形式保存的文档，对基于应用域的文档信息提取重要特征，并建立了如表1所示的文档多维特征表，并将此多维特征表信息在特征库中以图3所示格式存储。

表1

序号	名称	描述
			1	TF(Term frequency)of body	文档Body部分词频
2	TF of anchor	文档Anchor部分词频
			3	TF of title	文档Title部分词频
4	TF of URL	文档URL部分词频
			5	TF of whole document	整个文档的词频
6	IDF(Inverse document frequency)of body	文档Body部分逆文档词频
			7	IDF of anchor	文档Anchor部分逆文档词频
8	IDF of title	文档Title部分逆文档词频
			9	IDF of URL	文档URL部分逆文档词频
10	IDF of whole document	整个文档的逆文档词频
			11	TF*IDF of body	文档Body部分TF*IDF值
12	TF*IDF of anchor	文档Anchor部分TF*IDF值
			13	TF*IDF of title	文档Title部分TF*IDF值

14	TF*IDF of URL	文档URL部分TF*IDF值
			15	TF*IDF of whole document	整个文档的TF*IDF值
16	DL(Documentlength)of body	文档Body部分长度
			17	DL of anchor	文档Anchor部分长度
18	DL of title	文档Title部分长度
			19	DL of URL	文档URL部分长度
20	DL of whole document	整个文档的长度
			21	BM25 of body	文档Body部分BM25值
22	LMIR.ABS of body	文档Body部分LMIR.ABS值
			23	LMIR.DIR of body	文档Body部分LMIR.DIR值
24	LMI R.JM of body	文档Body部分LMIR.JM值
			25	BM25 of anchor	文档anchor部分BM25值
26	LMIR.ABS of anchor	文档anchor部分LMIR.ABS值
			27	LMIR.DIR of anchor	文档anchor部分LMIR.DIR值
28	LMIR.JM of anchor	文档anchor部分LMIR.JM值
			29	BM25 of title	文档Title部分BM25值
30	LMIR.ABS of title	文档Title部分LMIR.ABS值
			31	LMIR.DIR of title	文档Title部分LMIR.DIR值
32	LMIR.JM of title	文档Title部分LMIR.JM值
			33	BM25 of URL	文档URL部分BM25值
34	LMIR.ABS of URL	文档URL部分LMIR.ABS值
			35	LMIR.DIR of URL	文档URL部分LMIR.DIR值

36	LMIR.JM of URL	文档URL部分LMIR.JM值
			37	BM25 of whole document	整个文档BM25值
38	LMIR.AB S of whole document	整个文档LMIR.ABS值
			39	LMIR.DIR of whole document	整个文档LMIR.DIR值
40	LMIR.JM of whole document	整个文档LMIR.JM值
			41	PageRank	网页PageRank值
42	Inlink number	网页入度
			43	Outlink number	网页出度
44	Number of slash in URL	URL中无用字符个数
			45	Length of URL	URL长度
46	Number of child page	子网页个数

步骤2：接收用户根据其信息需求输入的查询短语，检索系统根据查询短语与文档库中文档内容关键词匹配等技术，通过计算返回给用户初次检索结果，从而完成文档的初次检索。

具体可为，系统根据用户输入的查询短语依次在文档的标题、正文等不同特征域中进行匹配，或直接查询调用上述文档多维特征表中的值，并通过计算匹配次数衡量短语的重要性，获取待检索信息资源的重要属性信息。

根据查询短语在文档出现的位置差异，赋予短语在计算相似度时不同的权重；通过匹配关键词的次数和位置计算相似度得分，而不同的特征域对相似度得分贡献权重不同。例如：通常查询短语在标题中出现权重大于摘要和正文，可设对应的权重比为5:2:1，得到：

相似度得分=5×T₁+2×T₂+1×T₃，其中，T₁、T₂和T₃分别为查询短语在标题、摘要和正文中出现次数。

上述关键词匹配在文档的标题、正文等不同特征域中进行，具体实现时可以直接从已提取出的多维特征表中调用，若无法直接获取多维特征，则进行匹配操作，此步骤主要优点在于响应时间短，满足用户在线查询的需求。

若采用直接从已提取出的多维特征表中调用的方式计算相似度得分，则所述相似度得分表达式为：

相似度得分=b₁×TF₁+b₂×TF₂+…+b_n×TF_n，其中，TF_i(i=1…n)为文档的不同特征，b_i(i=1…n)为对应特征的权重。

最后，找出关键词匹配次数多、相似度得分高的文档视为符合用户需求的文档首先返回给用户，并完成对检索结果按相似度得分高低排序的初次检索排序，并返回该排序完成的检索结果。

此时，若该检索结果满足用户要求，用户可以终止检索过程，则检索过程结束。

若用户对初次检索结果不满意，需要继续再次进行检索排序操作，则进行步骤3。

步骤3：提取文档库中所有文档的低维特征。

由于文档多维特征较多，直接用于计算导致运行时间增多，很难满足用户在线实时、快速的查询需求，为了降低计算复杂度，减少检索时间，同时提高检索准确率，需要对离线状态下提取的文档多维特征，进一步提炼以获取低维且有用信息，在不影响检索准确率的同时，提高系统运行速度。

采用主成分分析（Principal Component Analysis，PCA）对多维特征降维，获取文档在低维空间的特征表示。

主成分分析（Principal Component Analysis，PCA），将多个变量通过线性变换以构造出较少个数重要变量的一种多元统计分析方法。

主成分分析是设法将原来众多具有一定相关性的指标（比如n个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。主成分分析，是考察多个变量间相关性一种多元统计方法，研究如何通过少数几个主成分来结实多个变量间的内部结构，即从原始变量中导出少数几个主成分，使它们尽可能多地保留原始变量的信息，且彼此间互不相关.通常数学上的处理就是将原来n个指标作线性组合，作为新的综合指标。此处，即从众多具有一定相关性的多维特征，重新组合成一组新的互相无关的低维特征来代替原来的多维特征。

主成分分析最经典的分析方法是用F₁（选取的第一个线性组合，即第一个综合指标）的方差来表达，即F₁的方差越大，表示F₁包含的信息越多。因此在所有的线性组合中选取的F₁应该是方差最大的，故称F₁为第一主成分。

如果第一主成分不足以代表原来P个指标的信息，再考虑选取F₂即选第二个线性组合，为了有效地反映原来信息，F₁已有的信息就不需要再出现在F₂中，用数学语言表达就是要求F₁和F₂的协方差为零，则称F₂为第二主成分，依此类推可以构造出第三、第四，……，第n个主成分。

具体主成分分析步骤主要包括：

步骤301：多维特征数据标准化（可利用主成分分析相关软件自动执行）；

步骤302：多维特征之间的相关性判定；

步骤303：确定低维特征个数n；

步骤304：得到低维特征F_n表达式；

Fn=fn×ZX，ZX是多维特征经过标准化处理后的特征矩阵，fn是ZX的协方差阵Σ的特征值λ_n(λ₁≥λ₂≥…≥λ_n≥0)所对应的特征向量。因为本实施例中所采用的多维特征就存在量纲影响，所以在计算之前须先消除量纲的影响，而将多维特征标准化。

主成分分析（PCA）将文档映射到低维空间特征表示，既降低了计算复杂度，又提高了检索准确率，因为经主成分分析降维后提取的低维特征之间彼此相互独立，是对文档初始多维特征的充分利用。

步骤4：获取检索结果中多个文档的相关度反馈信息。

参考附图4，本发明检索排序系统工作界面实施例示意图。

在用户输入查询短语后，根据初次检索排序，所述检索排序系统返回按相似度高低排序的检索结果，并同时给出每个文档的简要描述信息，便于用户进行相关反馈。由于在第一步基于关键字匹配进行检索后，系统根据判断与查询短语的相似度，返回给用户一张文档排序列表，用户可能没有得到满意的检索结果，此时，用户可在返回的检索结果中选择一部分容易判断与查询相关度的文档，给出文档的相关反馈信息。

具体可为，用户根据检索系统给出的检索结果，通过系统交互接口，选择其中一部分作为进行相关度信息反馈的文档，通过交互界面进行相关度判断；根据其所需查询的信息内容，通过选择2分、1分还是0分，分别表示很相关、一般相关和不相关，给出每个文档与其所需查询内容的相关度，然后点击再次检索，作为相关反馈信息提供给检索系统。

系统接收用户通过交互接口提交的对初次检索结果中部分文档的相关度

关度判断模型，重新计算每个文档关于用户查询的相关度得分，将按照相关度得分由高到低的文档排序结果作为再次检索结果返回用户。

所述检索排序系统返回按相关度得分高低排序的再次检索结果，相较初次检索结果给出了更准确的相关文档排序。

此时，若该再次检索结果满足用户要求，用户可以终止检索过程，则检索过程结束。

若用户对再次检索结果仍不满意，需要继续进行再次检索排序操作，则可跳到步骤4，对再次检索结果中的部分文档进行相关度判断，并将相关度反馈信息提供给检索系统，然后再次进行检索排序，并返回给用户再一次的检索结果。以此迭代，直至用户满意停止检索过程。

若用户需要进行新的检索排序操作，则可返回至步骤2接收查询短语，否则结束整个流程。

进一步的，所述文档库具有可扩展性。意即，所述排序检索方法还可包括：

在所述文档库中添加新的信息资源，并根据新的信息资源重新提取多维特征。

根据用户需求，创建新的信息资源注册至文档库，便于检索。按照存储库中信息存储格式，建立索引关系，并提取相同的特征。同时可以根据信息检索领域新的研究成果，提取文档新的特征，添加至文档的特征表示中，便于检索算法的利用，并提高了检索性能。

从上述实施例可以看出，本发明的提供的一种检索排序方法，该方法按照用户查询短语，提取文档多维度特征，并利用降维方法获取文档低维空间下的重要特征，结合用户相关反馈，利用统计学逻辑回归思想生成用户查询与文档相关度判断模型，利用该模型计算查询与文档相关度得分，依据该得分给出文档相关度排序列表，实现非结构化数据信息检索与排序。进一步的，所述检索排序方法克服了当用户无法构建好的查询时，导致信息检索性能降低的困难，改为利用用户判断检索结果的相关性这一反馈信息，提高了信息检索的准确性。更进一步的，通过主成分分析降维方法获取文档的低维特征表示，系统可以对较少的特征信息进行逻辑回归分析，降低计算复杂度，但不影响系统信息检索性能，尤其是检索准确率有一定的提高。优选的，所述文档库和特征库还可具备可扩展性，即可以通过在文档库中添加新

判断，通常用户会选择明显很相关或不相关的文档进行反馈，因此，这些文档在特征表示上差异大，有利于统计分析；用户提交对部分初次检索结果的相关度反馈信息，包括非常相关（2分）、一般相关（1分）或不相关（0分）三个层次，多层次的相关度标记更有利于逻辑回归分析。

步骤5：生成相关度判断模型。

检索排序系统利用所述相关度反馈信息以及所述低维特征表示进行逻辑回归分析，建立两者的映射关系，生成相关度判断模型：

在回归分析中，当因变量相关度y是一个定性的变量，比如，y=0或1，分别表示不相关或相关时，就可以采用逻辑回归（Logistic Regression）对相关度y与步骤3提取的低维特征进行回归分析。

逻辑回归的基本思想，不是直接对相关度y进行回归，而是先定义一种概率函数PI，令PI=Pr(y=1|X₁，X₂,…,X_p)，其中X₁，X₂，…，X_p是低维特征，然后令PI=1/(1+a×exp(-b₁X₁-b₂X₂-…-b_nX_n))，其中(a>0，b>=0)，PI是一个Logistic型的函数，于是，log((1-PI)/PI)=b₀-b₁X₁-b₂X₂……-b_nX_n，然后，对log((1-PI)/PI)进行通常的线性回归，即可生成相关度判断模型。

生成相关度判断模型步骤主要包括：

步骤501：将用户反馈的相关度值进行二值化，即；用户反馈值大于0时，y=1；用户反馈值等于0时，y=0，进而计算相关文档的概率PI和log((1-PI)/PI)值；

步骤502：设定文档用低维（如n=3，三维）特征表示；

步骤503：将步骤501和502结果作为逻辑回归函数的输入，进行统计分析，生成相关度判断模型M，即为一组特征权重系数(a₁，a₂，a₃)；a₁，a₂，a₃分别对应文档第一、二和三维特征对相关度的贡献权重。

模型生成后，当用户检索信息时，输入查询短语，计算所有文档与查询词的相关度得分。相关度得分=a₁×F₁+a₂×F₂+…+a_n×F_n，其中，F_n为文档的低维特征，a_n为该特征对应的系数，系统按照相关度得分由高到低将文档排序返回给用户。

逻辑回归的分析设计挖掘了文档低维特征与相关度之间的映射关系，经大量的训练数据验证，获取具有规律性的判断模型。

步骤:6：计算检索结果中所有文档的相关度得分。

利用文档的低维特征以及相关度判断模型，将所述文档低维特征输入相文档，提取其新多维特征入特征库，即可被广泛应用检索。较佳的，所述检索排序系统界面中，在每个返回结果的下方给出获取用户对检索结果相关度判断的按钮，用户通过点击鼠标这一简单操作就可以提供相关反馈信息，操作简单快捷，便于用户反馈信息的提取。

需要特别指出的是，上述实施例中所述初次检索结果是采用了计算相似度得分并进行排序并返回的检索结果，但并不代表初次检索一定需要进行相似度，可以看出，这只是一个优选实施例，它的好处在于第一次返回检索结果就可以得到经过初次排序的检索结果；而后续再次检索结果所返回的是根据用户返回的相关度进行排序的结果，不用按照相似度得分进行初次排序，也可以对检索结果进行排序，因此，不应该把对初次检索结果进行排序作为限制本发明保护范围的必要技术特征。

上述实施例中，所述多维特征的提取是采用主成分分析方法进行提取，而其他的特征提取方法虽然没有在此提到，但可以知道，本发明技术领域技术人员很容易联想到类似的实现方式，因此，其他的特征提取方法也应当属于本发明保护范围。

上述实施例中，所述相关度判断分为了三种层次，当然，很明显，分为两种层次（如：相关、不相关），或者五种层次（如：非常相关、较相关、一般相关、较不相关、非常不相关），也可实现本发明，因此可以推断，相关度判断分为两种层次或以上，都应该属于本发明保护范围。

上述实施例中，所述相关度判断模型是采用逻辑回归方式得出的，当然，其他的回归分析模型，也可实现本发明，都应该属于本发明保护范围。

上述实施例中，所述文档库和特征库具有可扩展性，其目的之一在于实时更新文档库并提高检索性能，这只是一种优选方式，因此，不应该把对初次检索结果进行排序作为限制本发明保护范围的必要技术特征。

本发明还提供了一种采用上述检索排序方法的检索排序系统，包括：

特征提取模块，用于提取文档库中所有文档的低维特征；

存储模块，用于保存文档库和用于存储低维特征的特征库。

优选的，所述特征提取模块还用于提取文档库中所有文档的多维特征，所述存储模块中的特征库还用于存储所述多维特征。

较佳的，所述排序模块还用于生成相似度判断模型，计算检索结果中所有文档的相似度得分，并对检索结果按照相似度得分高低排序。

进一步的，所述低维特征的提取方法为主成分分析方法。

更进一步的，所述文档库和/或特征库具有可扩展性。

所属领域的普通技术人员应当理解：以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种检索排序方法，其特征在于，包括：

接收查询短语并检索；

返回检索结果；

提取文档库中所有文档的低维特征；

获取检索结果中多个文档的相关度反馈信息；

生成相关度判断模型；

计算检索结果中所有文档的相关度得分；

返回按相关度得分高低排序的再次检索结果。

2.根据权利要求1所述的一种检索排序方法，其特征在于，所述方法还包括初始化步骤：

提取文档库中所有文档的多维特征。

3.根据权利要求2所述的一种检索排序方法，其特征在于，所述检索结果是按照相似度得分高低排序的。

4.根据权利要求3所述的一种检索排序方法，其特征在于，所述相似度得分表达式为：

5.根据权利要求2所述的一种检索排序方法，其特征在于，所述低维特征的提取方法为主成分分析方法。

6.根据权利要求1所述的一种检索排序方法，其特征在于，所述相关度判断模型的生成方法为：

7.根据权利要求6所述的一种检索排序方法，其特征在于，所述相关度判断模型表达式为：

8.根据权利要求1-7任意一项所述的一种检索排序方法，其特征在于，所述文档库和/或特征库具有可扩展性。

9.一种采用权利要求1-8任意一项所述检索排序方法的检索排序系统，其特征在于，包括：

特征提取模块，用于提取文档库中所有文档的低维特征；

存储模块，用于保存文档库和用于存储低维特征的特征库。

10.根据权利要求9所述的一种检索排序系统，其特征在于，所述特征提取模块还用于提取文档库中所有文档的多维特征，所述存储模块中的特征库还用于存储所述多维特征。

11.根据权利要求10所述的一种检索排序系统，其特征在于，所述排序模块还用于生成相似度判断模型，计算检索结果中所有文档的相似度得分，并对检索结果按照相似度得分高低排序。