CN107229738A

CN107229738A - 一种基于文档评分模型和相关度的学术论文搜索排序方法

Info

Publication number: CN107229738A
Application number: CN201710461109.9A
Authority: CN
Inventors: 徐小良; 顾高飞; 王宇翔
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2017-06-18
Filing date: 2017-06-18
Publication date: 2017-10-03
Anticipated expiration: 2037-06-18
Also published as: CN107229738B

Abstract

本发明公开了一种基于文档评分模型和相关度的学术论文搜索排序方法。该方法包含以下步骤：对论文库中的数据进行预处理，得到论文基本信息，包括发表年份、发表期刊质量、引用次数，同时记录论文被点击查看的次数，作为反馈值；对论文以时间、质量和搜索反馈三个因素建立论文文档评分模型；结合搜索词与论文文档的相关度以及论文文档评分模型，计算得到搜索词相关的论文文档集合中每篇论文文档的综合评分；根据该综合评分对搜索结果进行排序并返回。本发明在搜索过程中综合考虑了多方面因素，对论文本身建立文档评分模型，克服了搜索引擎对于多搜索目的处理上的不足，使得论文搜索的准确率和搜索体验有了很大的改善。

Description

一种基于文档评分模型和相关度的学术论文搜索排序方法

技术领域

本发明涉及搜索引擎领域，具体涉及一种基于文档评分模型和相关度的学术论文搜索排序方法。

背景技术

学术科研发展十分迅速，成果日新月异，大多数学术科研成果都以论文的形式进行公开和发表，并在学术界和工业界交流传播。显然，针对论文库中庞大的论文集，进行高效和准确地搜索是非常重要和有意义的。

搜索引擎的出现，正是为了解决如何在海量数据中获取有用信息的问题。搜索引擎整体大致可以分为两个部分，即对数据的索引和对索引数据的搜索。对于第二部分搜索，又可以分为两个步骤，先寻找出当前搜索词相关的文档，然后根据一定的策略对这些文档进行排序，生成搜索结果。

传统的通用搜索引擎是根据相关度的高低来衡量搜索结果与搜索词的符合程度，但这对于学术论文这样特定领域的搜索并不是很合理。对于学术论文的搜索，搜索者通常更希望内容相关度更紧密、期刊质量更高、发表时间更新的论文排在搜索结果的前面。当前学术搜索引擎对于多搜索目的的处理有所不足，无法同时满足多种需求，或者效果较差，影响了搜索的准确率和搜索体验。

发明内容

本发明的目的在于克服上述已有技术的不足，提出一种基于文档评分模型和相关度的学术论文搜索排序方法，以满足学术论文搜索领域的特殊需求，提高学术论文搜索的准确率和用户体验。

本发明方法的具体内容如下：

1.对论文库进行预处理

搜索前，先对论文库进行预处理和标准化工作，得到每篇论文的发表年份d_t、发表期刊的等级d_r、论文被引用次数d_c以及论文搜索后的被点击查看次数d_v。将这些数据连同论文内容本身都加入到搜索引擎的索引库中，使之可以在搜索评分的时候被使用。

2.基于文档评分模型和相关度的学术论文搜索排序方法

2.1建立论文文档评分模型

当搜索者输入搜索词Q进行搜索的时候，搜索引擎首先会得到与当前搜索词相关的论文文档集合D。对于D中每一篇论文文档d建立评分模型。论文文档评分模型P(d)可由下面的公式得到：

P(d)＝T(d)M(d)F(d)

T(d)代表论文文档的时间因子：

其中d_t为论文的发表年份。θ为一个常数年份值，通常取当前年份和论文库中论文的最早发表年份的中间值，即

current_year表示当前年份，oldest_year表示论文库中最早的论文的发表年份。α、β、γ分别为调节因子，调节时间因素对于评分的影响。

M(d)代表论文文档的质量因子：

M(d)＝[log(d_c+1)]·g(d_r)

其中d_c为论文被引用次数，引用次数越多，说明该篇论文质量越高，质量因子会越大。d_r为论文发表期刊的等级，一般来说，期刊的质量越高，发表在该期刊上面的论文的质量也越高，所以为每种论文期刊等级设定对应的常数影响值g(d_r)。

F(d)代表论文文档的反馈因子：

其中d_v为论文被搜索之后点击查看的次数，用该值作为搜索的反馈值，反馈值作为一个激励值来反向影响搜索结果。如果某篇论文在被搜索出来之后经常被点击查看，则可以认为该篇论文价值较大，可以适当提高该篇论文文档的评分分值。δ的值为一个常数值，代表论文被点击查看次数的阈值，在该阈值以下，随着点击查看次数的增加，文档反馈因子的值增加较快，在该阈值以上，随着点击查看次数的增加，文档反馈因子的值增加较慢，并接近上限值。当点击查看次数d_v与δ的相等的时候，F(d)反馈因子的值达到其上限的90％。该值可根据论文库中论文的平均点击查看次数数据灵活修改。F(d)的取值范围为[1，2)，这样可以控制搜索反馈对于搜索评分的影响在一个较小的范围中。

由上所述，P(d)具体描述如下：

2.2计算综合评分

每篇论文文档的综合评分由两部分组成，即搜索词与论文文档的相关度R(Q，d)，以及论文文档评分模型P(d)。

对于某一搜索词Q，如果它可以分成多个更小的词，那么搜索引擎的分词工具就会将其分为多个语素q_i。所以需要分别计算每个语素与论文文档的评分，最后进行求和得到R(Q，d)。

因此论文文档的综合评分Score(Q，d)可以表示为如下：

Score(Q，d)＝R(Q，d)P(d)

w(q_i)代表语素q_i的权重，如果当前语素在许多文档中都出现，说明该语素在当前搜索关键词中的重要性比较低，因此在评分中可以将其权重调低。此处使用逆文档频率(工DF)来计算语素权重：

其中，N表示论文库中所有文档的数量，n(q_i)表示包含语素q_i的文档的数量。分子分母同时加上0.5是为了防止在没有任何文档包含语素q_i的情况下，分母出现零的情况。

R(q_i，d)代表语素q_i与论文文档d之间的相关度评分，此处采用概率模型来表征两者的相关度，在计算相关度评分上面，概率模型的表现比传统空间向量模型更优秀。有：

其中，f_i表示语素q_i在论文文档d中出现的次数，dl为d的长度，avgdl则为所有论文文档的平均长度。k₁和b为调节因子，调节词频和论文文档长度对于相关度的影响。

综合起来，论文文档综合评分的公式如下：

2.3搜索结果排序并返回

依次计算得到搜索结果相关论文文档集合D中每篇文档的综合评分，根据该评分对D中的论文文档进行排序并返回结果，搜索者即可得到搜索词的相关论文搜索排序结果。

与现有技术相比，本发明的有益效果：

本发明在对论文进行搜索的时候，增加了对论文本身的一些因素如论文发表年份，论文发表期刊等级，论文被引用次数的考虑，同时还增加了对搜索反馈的考虑。在此基础上对论文文档本身建立了评分模型。这样做，可以使得内容相关度更紧密、期刊质量更高、发表时间更新的论文更容易被搜索出来，克服了搜索引擎对于多搜索目的处理上的不足。

同时论文本身与搜索词的相关度评分用概率模型来代替向量空间模型。最后结合搜索词与论文文档的相关度评分和论文文档自身的评分，可以对每篇相关论文计算出一个综合的评分。以此评分来对搜索结果进行排序，返回搜索结果。应用证明，本发明对于论文搜索的准确率和搜索体验有了很大的改善。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图对本发明进一步说明。

图1描述了本发明的流程图，下面结合图1给出详细说明。

步骤1，对论文库进行预处理

如图1所示，搜索前，先对论文库进行预处理和标准化工作，得到每篇论文的发表年份d_t、发表期刊的等级d_r、论文被引用次数d_c以及论文搜索后的被点击查看次数d_v。之后将这些数据连同论文内容本身都加入到搜索引擎的索引库中，使之可以在搜索评分的时候被使用。

步骤2，基于文档评分模型和相关度的学术论文搜索排序方法

步骤2.1，建立论文文档评分模型

在搜索过程中，当搜索者输入搜索词Q进行搜索的时候，搜索引擎首先会得到与当前搜索词相关的论文文档集合D。

对D中的每一篇论文文档d建立评分模型。论文文档评分模型P(d)可由下面的公式得到：

P(d)＝T(d)M(d)F(d)

T(d)代表论文文档的时间因子：

current_year表示当前年份，oldest_year表示论文库中最早的论文的发表年份。例如当前为2017年，论文库中最早的论文的发表年份为2000年，则取θ为2008。α、β、γ分别为调节因子，调节时间因素对于评分的影响，此处可取α＝0.5，β＝0.5，γ＝0.75。上述调节因子值使得T(d)的取值范围限定在(0.75，1.25)，年份早于θ的论文分值会受到衰减，而晚于θ的论文则可以得到奖励。

M(d)代表论文文档的质量因子：

M(d)＝[log(d_c+1)]·g(d_r)

F(d)代表论文文档的反馈因子：

其中d_v为论文被搜索之后点击查看的次数，用该值作为搜索的反馈值，反馈值作为一个激励值来反向影响搜索结果。如果某篇论文在被搜索出来之后经常被点击查看，则可以认为该篇论文价值较大，可以适当提高该篇论文文档的评分分值。δ的值为一个常数值，代表论文被点击查看次数的阈值，在该阈值以下，随着点击查看次数的增加，文档反馈因子的值增加较快，在该阈值以上，随着点击查看次数的增加，文档反馈因子的值增加较慢，并接近上限值。当点击查看次数d_v与δ的相等的时候，F(d)反馈因子的值达到其上限的90％。该值可根据论文库中论文的平均点击查看次数数据灵活修改。例如取δ＝1000，表示大多数论文的点击查看次数都在1000次以下，点击查看次数在1000次以上的论文的搜索反馈因子基本达到上限。F(d)的取值范围为[1，2)，这样可以控制搜索反馈对于搜索评分的影响在一个较小的范围中。

由上所述，P(d)具体描述如下：

如图1流程图所示，在计算得到论文文档的时间因子、质量因子以及反馈因子之后，论文文档评分模型也就可以计算得到了。

步骤2.2，计算综合评分

在得到每篇论文文档的文档模型评分之后，就可以计算论文文档的综合评分了。每篇论文文档的综合评分由两部分组成，即搜索词与论文文档的相关度R(Q，d)，以及论文文档评分模型P(d)。

因此论文文档的综合评分Score(Q，d)可以表示为如下：

Score(Q，d)＝R(Q，d)P(d)

w(q_i)代表语素q_i的权重，如果当前语素在许多文档中都出现，说明该语素在当前搜索关键词中的重要性比较低，因此在评分中可以将其权重调低。此处使用逆文档频率(IDF)来计算语素权重：

其中，f_i表示语素q_i在论文文档d中出现的次数，dl为d的长度，avgdl则为所有论文文档的平均长度。k₁和b为调节因子，调节词频和论文文档长度对于相关度的影响。根据经验，一般取k₁＝1.2，b＝0.75。

综合起来，论文文档综合评分的公式如下：

先计算当前搜索词Q的每个语素q_i的权重w(q_i)，语素与论文文档d的相关度评分R(q_i，d)，并进行求和得到搜索词与论文文档的相关度R(Q，d)，再计算论文文档评分模型的分值P(d)，两者相乘得到搜索词Q与当前论文文档d的综合评分Score(Q，d)。

步骤2.3，搜索结果排序并返回

如图1所示，依次计算得到搜索结果相关论文文档集合D中每篇文档的综合评分，根据该评分对D中的论文文档进行排序并返回结果，搜索者即可得到搜索词的相关论文搜索排序结果。

Claims

1.一种基于文档评分模型和相关度的学术论文搜索排序方法，其特征在于，该方法包含如下步骤：

步骤1：对论文库进行预处理

a)搜索前，先对论文库进行预处理和标准化工作，得到每篇论文的发表年份d_t、发表期刊的等级d_r、论文被引用次数d_c以及论文搜索后的被点击查看次数d_v；

b)将这些数据连同论文内容本身都加入到搜索引擎的索引库中，使之可以在搜索评分的时候被使用；

步骤2：基于文档评分模型和相关度的学术论文搜索排序

步骤2.1：对论文文档建立评分模型

a)在搜索过程中，得到搜索词Q的搜索结果论文文档集合D；

b)对于集合D中每一篇论文文档d建立论文文档评分模型P(d)：

P(d)＝T(d)M(d)F(d)

T(d)代表论文文档的时间因子，P(d)代表论文文档的质量因子，F(d)代表论文文档的反馈因子；

c)先计算论文文档的时间因子T(d)；

d)再计算论文文档的质量因子M(d)；

e)接着计算论文文档的反馈因子F(d)；

f)根据上面的计算结果，得到论文文档评分模型分值P(d)；

步骤2.2：计算综合评分

a)每篇论文文档的综合评分由两部分组成，即搜索词与论文文档的相关度R(Q,d)，以及论文文档评分模型P(d)；对于某一搜索词Q，如果它可以分成多个更小的词，那么搜索引擎的分词工具就会将其分为多个语素q_i；所以分别计算每个语素与论文文档的评分，最后进行求和得到R(Q,d)；所以有：

Score(Q,d)＝R(Q,d)P(d)

<mrow> <mi>R</mi> <mrow> <mo>(</mo> <mi>Q</mi> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mi>i</mi> <mi>n</mi> </munderover> <mi>w</mi> <mrow> <mo>(</mo> <msub> <mi>q</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>q</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> </mrow>

w(q_i)代表语素q_i的权重,R(q_i,d)代表语素q_i与论文文档d之间的相关度评分；

b)先计算语素q_i的权重w(q_i)；

c)再计算语素q_i与论文文档d之间的相关度评分R(q_i,d)；

d)计算出每个语素q_i与论文文档d之间的相关度评分之后进行求和，得到搜索词Q与论文文档d的相关度评分R(Q,d)；

e)最后结合论文文档评分模型分值P(d)，计算得到搜索词Q与当前文档d的综合评分Score(Q,d)；

步骤2.3：搜索结果排序并返回

a)依次计算相关论文文档集合D中每篇文档的综合评分；

b)根据该评分对集合D中的论文文档进行排序；

b)返回排序后的结果给搜索者。

2.根据权利要求1所述的一种基于文档评分模型和相关度的学术论文搜索排序方法，其特征在于：

步骤2.1中论文文档的时间因子T(d)按如下公式计算：

<mrow> <mi>T</mi> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mi>&alpha;</mi> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>&beta;</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>t</mi> </msub> <mo>-</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> </msup> </mrow> </mfrac> <mo>+</mo> <mi>&gamma;</mi> </mrow>

其中d_t为论文的发表年份；θ为一个常数年份值，取当前年份和论文库中论文的最早发表年份的中间值,即

<mrow> <mi>&theta;</mi> <mo>=</mo> <mfrac> <mrow> <mi>c</mi> <mi>u</mi> <mi>r</mi> <mi>r</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mo>_</mo> <mi>y</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> <mo>-</mo> <mi>o</mi> <mi>l</mi> <mi>d</mi> <mi>e</mi> <mi>s</mi> <mi>t</mi> <mo>_</mo> <mi>y</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow> <mn>2</mn> </mfrac> <mo>+</mo> <mi>o</mi> <mi>l</mi> <mi>d</mi> <mi>e</mi> <mi>s</mi> <mi>t</mi> <mo>_</mo> <mi>y</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow>

current_year表示当前年份，oldest_year表示论文库中最早的论文的发表年份；α、β、γ分别为调节因子，调节时间因素对于评分的影响。

3.根据权利要求1所述的一种基于文档评分模型和相关度的学术论文搜索排序方法，其特征在于：

步骤2.1中论文文档质量因子M(d)按如下公式计算：

M(d)＝[log(d_c+1)]·g(d_r)

其中d_c为论文被引用次数，d_r为论文发表期刊的等级，g(d_r)为每种论文期刊等级对应的常数影响值。

4.根据权利要求1所述的一种基于文档评分模型和相关度的学术论文搜索排序方法，其特征在于：

步骤2.1中论文文档反馈因子F(d)按如下公式计算：

<mrow> <mi>F</mi> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mfrac> <mrow> <mi>ln</mi> <mn>10</mn> </mrow> <mi>&delta;</mi> </mfrac> <msub> <mi>d</mi> <mi>v</mi> </msub> </mrow> </msup> <mo>+</mo> <mn>2</mn> </mrow>

其中d_v为论文被搜索之后点击查看的次数，δ为一个常数值，代表论文被点击查看次数的阈值。

5.根据权利要求1所述的一种基于文档评分模型和相关度的学术论文搜索排序方法，其特征在于：

步骤2.2中语素q_i的权重w(q_i)按如下公式计算：

其中，N表示论文库中所有文档的数量，n(q_i)表示包含语素q_i的文档的数量。

6.根据权利要求1所述的一种基于文档评分模型和相关度的学术论文搜索排序方法，其特征在于：

步骤2.2中语素q_i与论文文档d之间的相关度评分R(q_i,d)按如下公式计算：

其中，f_i表示语素q_i在论文文档d中出现的次数，dl为d的长度，avgdl则为所有论文文档的平均长度；k₁和b为调节因子，调节词频和论文文档长度对于相关度的影响。