CN106202313A

CN106202313A - 面向学术元搜索的检索结果合成排序方法

Info

Publication number: CN106202313A
Application number: CN201610512911.1A
Authority: CN
Inventors: 李青山; 蔺帅; 蔺一帅; 陈小利; 王梅嘉; 周柏宇; 李英健
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2016-07-01
Filing date: 2016-07-01
Publication date: 2016-12-07
Anticipated expiration: 2036-07-01
Also published as: CN106202313B

Abstract

本发明公开了一种面向学术元搜索的检索结果合成排序方法，主要解决现有搜索引擎覆盖率低，检索结果不全，计算收敛速度慢，及新领域论文不被重视的问题。其实现方案是：1)调用成员引擎检索文档；2)利用成员搜索引擎结果比重计算搜索引擎能力；3)综合考虑文献的发表年份、文献发表期刊的影响因子或发表会议的举办次数、文献被引用次数、文献的相关度，并结合成员搜索引擎检索能力的差异性，计算检索文档权重；4)将成员搜索引擎返回的结果去重、合并，展示检索结果。本发明为用户提供更加全面、精确检索结果的同时，提高了那些新兴领域文献的重要性，实现了学术元搜索引擎更高效的用户检索体验，可应用于互联网信息检索和数字图书馆。

Description

面向学术元搜索的检索结果合成排序方法

技术领域

本发明属于信息处理技术领域，更进一步涉及一种检索结果合成排序方法，可应用于互联网信息检索和数字图书馆领域中科技文献的排序。

背景技术

元搜索引擎MSE，是一种调用其它独立搜索引擎的引擎，亦被称为“搜索引擎之母”。学术元搜索引擎则主要利用元搜索引擎的高覆盖率、高重合率等诸多优异特性，并结合学术搜索领域内高度目标化、专业化的检索需求，衍生出的一种学术检索工具。结果合成技术作为学术元搜索引擎的核心技术之一，其排序结果的优劣直接影响用户的搜索体验，为获得让用户满意的搜索结果，学术元搜索引擎结果排序的相关技术被提出：面向科技文献的论文、作者和期刊排序模型及排序方法；一种论文时间与引用兼顾的科研论文排序算法。

北京大学申请的专利“面向科技文献的论文、作者和期刊排序模型及排序方法”(专利申请号：CN201010204676.4，公布号CN102298579A)中公开了一种面向科技文献的论文、作者和期刊排序模型及排序方法。该方法提出了一种面向科技文献的排序模型PAJ，该模型是一个有向图，包括论文、作者、期刊或会议三种节点以及这三种节点间的五种关系。同时提出了一种基于PAJ模型的排序方法，该方法通过抽取科研文献实体，并建立PAJ模型，生成转移概率矩阵，再对矩阵进行计算并生成结果。该算法利用矩阵迭代计算，达到收敛结果，以此作为排序的依据。该方法存在的不足之处是：对于一些新的高质量的论文，因其引用次数较少，很难将其排列在靠前的位置；通过抽取科技文献实体，并对生成的矩阵进行迭代计算，造成服务器负载增加，影响检索效率；同时，在排序时，仅考虑在期刊上发表的文献的数量引起的变化，而对期刊的质量不加以考虑，影响结果的准确性。

Mushtaq AbdulMutalib Hasson在其发表的学位论文“一种论文时间与引用兼顾的科研论文排序算法”(华中科技大学，计算机应用技术专业，2012年，硕士论文)中结合论文的发表时间和引用次数设计了一种新的科研论文排序算法。该算法考虑了论文的发表年份、引用频次、所属刊物这三个要素，综合计算搜索结果的最终权重信息，并以此为依据来进行重新排序。该方法存在的不足之处是：由于仅考虑文献引用频次，而没有考虑相关度对文献排序的影响，导致相关度高但引用频次较少的文献排列在偏后的位置，降低了新领域文献的重要性；同时，该方法也没有考虑不同成员搜索引擎搜索能力的差异，导致具有较强搜索能力的引擎检索返回的文献不能被重视。

发明内容

本发明的目的在于克服上述已有技术的不足，提出一种面向学术元搜索的检索结果合成排序方法，以通过对成员搜索引擎检索结果重新整理排序，结合不同成员搜索引擎检索能力的差异，使相关度高但引用频次较少文献的排序位置相对靠前，为用户展示更加可靠地搜索结果。

本发明的技术思路是：同时考虑论文的发表年份、引用次数、结果的相关性、会议或期刊的重要程度等多种因素，并结合不同成员搜索引擎检索能力的差异性，实现学术元搜索引擎更准确、更高效的用户检索体验。

根据上述思路，本发明的实现步骤包括如下：

(1)搜索引擎检索文档：用户输入查询词并选择需要的成员搜索引擎，学术元搜索引擎调用该成员搜索引擎进行搜索；

(2)计算搜索引擎能力：

(2a)为每个成员搜索引擎创建一个当前结果列表，成员搜索引擎将检索得到的结果文档添加到当前结果列表中；

(2b)计算每个成员搜索引擎当前结果列表的结果比重，作为该成员搜索引擎的本次搜索能力SEC：

S E C = \frac{l e n (i)}{Σ_{i = 1}^{n} l e n (i)},

其中，len(i)表示第i个成员搜索引擎返回的结果条目数，n表示成员搜索引擎的数量；

(3)计算检索文档权重：

(3a)遍历每个成员搜索引擎的当前结果列表，根据论文发表年限距离当前的时间长度，计算论文发表年限对结果分数的影响力T：

T = d_{1} * \frac{1}{\sqrt{(c u r_y - y)}},

其中，d₁表示论文发表年限的常系数，取值为0.1；cur_y表示系统当前的时间，y表示该论文的发表时间；

(3b)计算论文引用次数对结果分数的影响力PC：

PC＝d₂*cite_num，

其中，d₂表示论文引用情况的常系数，取值为0.01；cite_num表示该论文的引用次数；

(3c)利用分词工具，对查询词串以及系统结果列表中所有结果文档的标题和摘要文本内容分别进行分词，统计文本中出现的词条及相对频度，得到查询词向量A和文档向量B；

(3d)利用余弦相似度，计算(3c)中得到的查询词向量A和文档向量B的相似程度SM；

(3e)根据(2b)得到的成员搜索引擎的本次搜索能力SEC，计算成员搜索引擎能力对结果分数的影响力SC：

SC＝d₃*SEC，

其中，d₃表示搜索引擎能力的常系数，取值为0.1；

(3f)判断当前文档是否是会议论文，若是，则执行步骤(3g)，否则，执行步骤(3h)；

(3g)根据会议举办的届数，计算该会议对结果文档分数的影响力CTH，执行步骤(3i)；

CTH＝d₄*Conf_th，

其中，d₄表示会议举办届数的常系数，取值为0.1；Conf_th表示该会议举办的届数；

(3h)根据发表期刊的影响因子，计算该期刊对结果文档分数的影响力JIF：

JIF＝d₅*Journ_if，

其中，JIF表示期刊影响因子对结果分数的影响力；d₅表示期刊影响因子的常系数，取值为2；Journ_if表示该期刊的影响因子；

(3i)判断当前文档是否是会议论文，若是，则执行步骤(3j)，否则，执行步骤(3k)；

(3j)根据上述步骤(3a)，(3b)，(3d)，(3e)和(3g)的结果，计算当前文档的总分值S，执行步骤(4)；

S＝T+PC+d₆*SM+SC+CTH，

其中，d₆表示文档相关度的常系数，取值为0.1；

(3k)根据上述步骤(3a)，(3b)，(3d)，(3e)和(3h)的结果，计算当前文档的总分值S：

S＝T+PC+d₆*SM+SC+JIF；

(4)合并成员搜索引擎结果文档：

(4a)创建一个系统结果列表，系统结果列表中的每一项内容包括结果文档的标题文本、摘要文本、作者列表、发表年限、引用次数以及文档来源相关信息；

(4b)对所有成员搜索引擎返回的结果列表进行去重，并将去重后的结果添加到系统结果列表中；

(4c)利用排序方法对系统结果列表按照文档总分值S从大到小依次排序；

(5)学术元搜索引擎将排序后的系统结果列表展示在浏览器上。

本发明与现有的技术相比具有以下优点：

第一，本发明通过利用元搜索元的特性，综合多个成员搜索引擎返回的结果列表，克服了现有技术中单一搜索引擎覆盖率低，检索结果不全的缺陷，提升了检索结果的覆盖率；同时，通过分析成员搜索引擎检索能力的差异，克服了现有技术中对具有较强搜索能力的引擎检索返回的文献不重视的问题，提升了检索结果的准确性。

第二，本发明通过对文献引用次数和相关度的分析，克服了现有技术中将相关度高但引用频次较少的文献排列位置偏后的问题，使得这类文献的排序位置相对提前；同时，通过分析文献发表年份对文献分值的影响，在一定程度上缓解了马太效应，使得本发明不仅对高引用论文进行重点考虑，同时对新兴领域的论文也给予相应的重视，从而为用户获得更加全面的检索结果。

第三，本发明通过直接分析期刊影响因子、文献引用次数、文献发表年限、会议举办届数、文献相似程度以及成员搜索引擎能力对结果分值的影响，再利用线性求和的方式计算每条结果的总分值，克服了现有技术中利用矩阵迭代计算收敛计算复杂的问题，减轻了服务器负载，提升了服务器的检索效率，使得本发明在学术元搜索结果合成排序过程中获得更高的效率。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图1对本发明作进一步的详细描述。

步骤1，搜索引擎检索文档。

用户输入查询词并选择需要的成员搜索引擎，学术元搜索引擎调用该成员搜索引擎进行搜索。

步骤2，计算搜索引擎能力。

为每个成员搜索引擎创建一个当前结果列表，成员搜索引擎将检索得到的结果文档添加到当前结果列表中；

计算每个成员搜索引擎当前结果列表的结果比重，作为该成员搜索引擎的本次搜索能力SEC；

S E C = \frac{l e n (i)}{Σ_{i = 1}^{n} l e n (i)},

其中，len(i)表示第i个成员搜索引擎返回的结果条目数，n表示成员搜索引擎的数量。

步骤3，计算检索文档权重。

(3.1)遍历每个成员搜索引擎的当前结果列表，根据论文发表年限距离当前的时间长度，计算论文发表年限对结果分数的影响力T；

T = d_{1} * \frac{1}{\sqrt{(c u r_y - y)}},

(3.2)计算论文引用次数对结果分数的影响力PC；

PC＝d₂*cite_num，

(3.3)利用ICTCLAS分词工具，对查询词串以及系统结果列表中所有结果文档的标题和摘要文本内容分别进行分词，统计文本中出现的词条及相对频度，得到查询词向量A和文档向量B，

所述ICTCLAS，是中科院开发的一款用于对中文文本分词的工具，该分词工具通过对词性的分析，去除文本中的标点符号、副词、介词、连词、叹语、语气词、代词等无用词，统计文本中出现的词条及相对频度；

(3.4)利用余弦相似度计算得到的查询词向量A和文档向量B的相似程度SM；

S M = \frac{Σ_{j = 1}^{n} (A_{j} * B_{j})}{\sqrt{Σ_{j = 1}^{n} {(A_{j})}^{2}} * \sqrt{Σ_{j = 1}^{n} {(B_{j})}^{2}}},

其中，n表示查询词向量A和文档向量B的维度，A_j表示查询词向量A第j维的值，*表示相乘操作，B_j表示文档向量B第j维的值；

(3.5)根据成员搜索引擎的本次搜索能力SEC，计算成员搜索引擎能力对结果分数的影响力SC；

SC＝d₃*SEC，

其中，d₃表示搜索引擎能力的常系数，取值为0.1；

(3.6)判断当前文档是否是会议论文，若是，则执行步骤(3.7)，否则，执行步骤(3.8)；

(3.7)根据会议举办的届数，计算该会议对结果文档分数的影响力CTH，执行步骤(3.9)；

CTH＝d₄*Conf_th，

(3.8)根据发表期刊的影响因子，计算该期刊对结果文档分数的影响力JIF；

JIF＝d₅*Journ_if，

其中，d₅表示期刊影响因子的常系数，取值为2；Journ_if表示该期刊的影响因子，是表征期刊影响大小的一项定量指标，即期刊平均每篇论文的被引用数，该期刊影响因子从学术网站公布的期刊影响因子中获得；

(3.9)判断当前文档是否是会议论文，若是，则执行步骤(3.10)，否则，执行步骤(3.11)；

(3.10)根据上述步骤(3.1)，(3.2)，(3.4)，(3.5)和(3.9)的结果，计算当前文档的总分值：S＝T+PC+d₆*SM+SC+CTH，执行步骤(4)，其中d₆表示文档相关度的常系数，取值为0.1；

(3.11)根据上述步骤(3.1)，(3.2)，(3.4)，(3.5)和(3.8)的结果，计算当前文档的总分值S：

S＝T+PC+d₆*SM+SC+JIF。

步骤4，合并成员搜索引擎结果文档。

(4.1)创建一个系统结果列表，系统结果列表中的每一项内容包括结果文档的标题文本、摘要文本、作者列表、发表年限、引用次数以及文档来源相关信息；

(4.2)从当前结果列表中获取一项内容，判断当前内容的标题文本、摘要文本、链接信息是否均已存在于系统结果列表中，若是，则执行步骤(4.3)，否则，执行步骤(4.4)；

(4.3)获取当前文档的来源、总分值S以及引用次数，将当前文档的来源添加到系统结果文档的来源中，更新分值为原分值与当前分值之和，更新引用次数为两者中的较大者，执行步骤(4.5)；

(4.4)将当前结果文档直接添加到系统结果列表中；

(4.5)判断是否遍历了当前结果列表的所有结果，若是，执行步骤(4.6)，否则，执行步骤(4.2)；

(4.6)利用排序方法对系统结果列表按照文档总分值S从大到小依次排序。

步骤5，展示检索结果。

学术元搜索引擎将排序后的系统结果列表展示在浏览器上，方便用户进行预览、查看以及下载，从而获取想要的结果信息。

Claims

1.面向学术元搜索的检索结果合成排序方法，包括：

(2)计算搜索引擎能力：

S E C = \frac{l e n (i)}{Σ_{i = 1}^{n} l e n (i)},

(3)计算检索文档权重：

T = d_{1} * \frac{1}{\sqrt{(c u r_y - y)}},

(3b)计算论文引用次数对结果分数的影响力PC：

PC＝d₂*cite_num，

SC＝d₃*SEC，

其中，d₃表示搜索引擎能力的常系数，取值为0.1；

CTH＝d₄*Conf_th，

JIF＝d₅*Journ_if，

S＝T+PC+d₆*SM+SC+CTH，

其中，d₆表示文档相关度的常系数，取值为0.1；

S＝T+PC+d₆*SM+SC+JIF；

(4)合并成员搜索引擎结果文档：

2.根据权利要求1所述的面向学术元搜索的检索结果合成排序方法，其特征在于：步骤(3d)中利用余弦相似度，计算查询词和文档这两个向量的相似程度SM，通过下式计算：

S M = \frac{Σ_{j = 1}^{n} (A_{j} * B_{j})}{\sqrt{Σ_{j = 1}^{n} {(A_{j})}^{2}} * \sqrt{Σ_{j = 1}^{n} {(B_{j})}^{2}}}

其中，n表示查询词向量A和文档向量B的维度，A_j表示查询词向量A第j维的值，*表示相乘操作，B_j表示文档向量B第j维的值。

3.根据权利要求1所述的面向学术元搜索的检索结果合成排序方法，其特征在于：步骤(3h)中所述的期刊影响因子，是表征期刊影响大小的一项定量指标，即期刊平均每篇论文的被引用数，该期刊影响因子从学术网站公布的期刊影响因子中获得。

4.根据权利要求1所述的面向学术元搜索的检索结果合成排序方法，其特征在于：步骤(4b)中对所有成员搜索引擎返回的结果列表进行去重，按照如下步骤进行：

(4b1)从当前结果列表中获取一项内容，判断当前内容的标题文本、摘要文本、链接信息是否均已存在于系统结果列表中，若是，则执行步骤(4b2)，否则，执行步骤(4b3)；

(4b2)获取当前文档的来源、总分值S以及引用次数，将当前文档的来源添加到系统结果文档的来源中，更新分值为原分值与当前分值之和，更新引用次数为两者中的较大者，执行步骤(4b4)；

(4b3)将当前结果文档直接添加到系统结果列表中；

(4b4)判断是否遍历当前结果列表的所有结果，若是，利用排序方法对系统结果列表按照文档总分值S从大到小依次排序，否则，返回步骤(4b1)。