CN112463950B

CN112463950B - 文献搜索方法、装置及电子设备

Info

Publication number: CN112463950B
Application number: CN202011433146.7A
Authority: CN
Inventors: 吴嘉澍; 王洋; 须成忠
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2023-10-24
Anticipated expiration: 2040-12-10
Also published as: WO2022120975A1; CN112463950A

Abstract

本发明适用文献搜索技术领域，提供了一种文献搜索方法及装置、电子设备，该方法包括：获取各学者所有文献中的词条，根据词条层级关系对所有文献进行词条扩展；针对每一学者，根据各词条在学者所著文献中的出现状况、词条扩展情况，对词条进行不同权重的赋分，构建学者‑词条矩阵；采用机器学习算法对学者‑词条矩阵进行训练生成搜索模型；将搜索关键词在搜索模型中进行运算而输出文献搜索结果。由于在词条扩展时，扩展分数根据该学者其他文献的扩展情况对学者所有文献进行全局考量，并且扩展分数还会根据其与原词条在词条层级关系中的层级差距远近被赋予不同分数，实现文献的合理扩展，有效解决了搜索关键词不显式出现时的搜索质量问题。

Description

文献搜索方法、装置及电子设备

技术领域

本发明属于文献搜索技术领域，尤其涉及一种文献搜索方法、装置及电子设备。

背景技术

随着大数据时代数据量的激增，为了满足人们的信息需求，如何高效地从海量信息中搜索出与自身需求相关的信息变得愈发重要。作为信息检索应用技术之一，针对学者的文献搜索可以让用户通过输入感兴趣的关键词，即可从一个机构、一所学校或是更广范围的学者中检索出与关键词相关的学者，且结果根据相关程度做降序排列。为实现这一功能，检索系统中往往存储有各个学者所发表的学术文献，如论文、期刊文章等，从而使得系统可以根据各个学者的文献在搜索时产生搜索结果及其排序。

然而，针对学者的搜索系统会面临一个问题，如用户在搜索“计算机科学”时，从事“自然语言处理”的学者虽与计算机科学高度相关，但却不会被搜索到，或是搜索排序很低。导致这一现象的原因是绝大多数的学者并不会在每篇“自然语言处理”文献中都提及像“计算机科学”这种更高层级领域的概念及关键词，也就是说，用户所键入的搜索关键词“计算机科学”并没有显式的出现在学者所著的文献之中，从而导致搜索结果的质量降低。

发明内容

本发明的目的在于提供一种文献搜索方法、装置及电子设备，旨在解决现有技术中对搜索关键词不显式出现时的搜索质量不高的技术问题。

第一方面，本发明提供了一种文献搜索方法，应用于电子设备，包括：

获取各学者所有文献中的词条；

根据词条层级关系对所有文献进行词条扩展；

针对每一学者，根据各词条在所述学者所著文献中的出现状况、词条扩展情况，对词条进行不同权重的赋分，构建学者-词条矩阵；

采用机器学习算法对所述学者-词条矩阵进行训练，生成搜索模型；

将搜索关键词在所述搜索模型中进行匹配运算，按照匹配程度输出文献搜索结果。

进一步的，所述获取各学者所有文献中的词条的步骤包括：

获取各学者的所有文献；

对各文献进行预操作处理，获取各文献中的词条。

进一步的，所述词条层级关系为学术词汇层级关系，所述根据词条层级关系对所有文献进行词条扩展的步骤包括：

针对文献中的各词条，在所述学术词汇层级关系中查找对应的学术词汇；

按照所述学术词汇层级关系，将所述学术词汇进行向上层级的词条扩展。

进一步的，所述针对每一学者，根据各词条在所述学者所著文献中的出现状况、词条扩展情况，对词条进行不同权重的赋分，构建学者-词条矩阵的步骤包括：

针对每一学者，根据各词条在所述学者所著文献中的出现状况、及词条扩展情况，对词条进行不同权重的赋分；

按照各文献及文献中词条的分数，形成文献-词条矩阵；

将所述文献-词条矩阵转换为学者-词条矩阵。

进一步的，所述出现状况包括出现次数、出现位置，所述针对每一学者，根据各词条在所述学者所著文献中的出现状况、词条扩展情况，对词条进行不同权重的赋分的步骤包括：

针对每一学者，根据各词条在所述学者所著文献中的出现次数、出现位置，赋予相应的出现次数分数、出现位置分数。

进一步的，所述针对每一学者，根据各词条在所述学者所著文献中的出现状况、词条扩展情况，对词条进行不同权重的赋分的步骤包括：

针对每一学者，根据词条在所述学者所有所著的文献中平均被扩展出来的次数，赋予所述词条相应的学者分数；且

根据词条扩展时词条层级关系的远近，对词条赋予相应的扩展分数。

进一步的，所述采用机器学习算法对所述学者-词条矩阵进行训练，生成搜索模型的步骤包括：

采用XGBoost算法对所述学者-词条矩阵进行训练学习，得到搜索排序数据集上的训练损失值；

在所述训练损失值未收敛时，采用贝叶斯优化网格搜索算法进行参数优化，更新所述学者-词条矩阵，直至所述训练损失值收敛。

第二方面，本发明提供了一种文献搜索装置，包括：

词条获取模块，用于获取各学者所有文献中的词条；

词条扩展模块，用于根据词条层级关系对所有文献进行词条扩展；

矩阵构建模块，用于针对每一学者，根据各词条在所述学者所著文献中的出现状况、词条扩展情况，对词条进行不同权重的赋分，构建学者-词条矩阵；

训练模块，用于采用机器学习算法对所述学者-词条矩阵进行训练，生成搜索模型；

搜索模块，用于将搜索关键词在所述搜索模型中进行匹配运算，按照匹配程度输出文献搜索结果。

第三方面，本发明还提供了一种电子设备，包括：

处理器；以及

与所述处理器通讯连接的存储器；其中，

所述存储器存储有可读性指令，所述可读性指令被所述处理器执行时实现如第一方面所述的方法。

第四方面，本发明提供了一种计算机可读性存储介质，其上存储有计算机程序，所述计算机程序在被执行时实现如第一方面的方法。

本发明提供的文献搜索方法及装置、电子设备中，利用词条层级关系对文献进行词条扩展时，扩展分数根据该学者其他文献的扩展情况对学者所著所有文献进行全局考量，充分考虑了该词条在该学者其他文献中的扩展情况、扩展词条与原词条在词汇层级关系中层级间隔的远近以及原词条出现在文献中的位置等因素，从而达到对文献的合理扩展，因此也能更好地进行对学者的文献搜索，有效解决了搜索关键词不显式出现时的搜索质量问题。

附图说明

图1是实施例一示出的文献搜索方法的实现流程图。

图2是一种包含学术词汇层级关系的知识树的示意图。

图3是根据一示例性实施例示出的进行文本词条扩展的示意图。

图4是根据一示例性实施例示出的实施例一的一种具体应用流程图。

图5是实施例二示出的文献搜索装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1是实施例一示出的文献搜索方法的实现流程图。实施例一示出的文献搜索方法适用于电子设备中，电子设备中设置处理器，以根据搜索关键词进行文献搜索。为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

步骤S110，获取各学者所有文献中的词条。

步骤S120，根据词条层级关系对所有文献进行词条扩展。

步骤S130，针对每一学者，根据各词条在学者所著文献中的出现状况、词条扩展情况，对词条进行不同权重的赋分，构建学者-词条矩阵。

步骤S140，采用机器学习算法对学者-词条矩阵进行训练，生成搜索模型。

步骤S150，将搜索关键词在搜索模型中进行匹配运算，按照匹配程度输出文献搜索结果。

由于文献数据量的剧增，如何从海量资源中检索出与搜索关键词最相关的信息，并合理排序，从而满足用户的信息需求将显得愈发重要。

现有的信息检索系统可以对多种实体进行检索，如文本、音视频、游戏、学者专家等，且在进行搜索时，这些检索系统都会或多或少的面临上述所提问题：搜索关键词并没有显式的出现在文本中。

本发明中，将利用一种包含学术词汇层级关系的知识树(如图2所示)来辅助文献搜索，以应对搜索关键词不显式地出现在文献中的问题。在利用知识树对文献进行词条扩展时，扩展分数根据该学者其他文献的扩展情况对学者所著所有文献进行全局考量。与此同时，在对文献中不同部分进行扩展时，扩展分数会相应调整，扩展分数还会根据其与原词条在知识树中的层级差距远近被赋以不同的分数，从而达到对文献的合理扩展，因此也能更好地进行对学者的文献搜索。

具体的，在获取各学者所有文献中的词条时，先获取各学者的所有文献，然后对各文献进行预操作处理，获取各文献中的词条。例如，对于特定的语言，如英语、法语等，需要将文本小写化，对如中文等语言则无需此步。之后，删除重复的空格、标点等。之后进行分句操作，最后用词库对每篇文献进行分词操作。

具体的，在进行词条扩展时，针对文献中的各词条，在学术词汇层级关系中查找对应的学术词汇，然后按照学术词汇层级关系，将学术词汇进行向上层级的词条扩展。

在训练模型时需用到一个包含搜索条目及对应的正确排序的数据集对文献进行分词预处理。在该数据集中，数据以以下形式呈现：

搜索条目1：计算机科学；相关学者排序：1.张三，2.李四，……

搜索条目2：自然语言处理；相关学者排序：1.王五，2.张三，……

图2是一种包含学术词汇层级关系的知识树的示意图，如图2所示，该知识树中，从上至下的学术词汇分别为：工程学、计算机科学、自然语言处理、机器翻译、神经机器翻译等。图3是根据一示例性实施例示出的进行文本词条扩展的示意图。

图2、3中的知识树包含了“机器翻译”是“自然语言处理”的一个子分支等诸多类似的知识。所以，在知识树的辅助下对文献进行扩展，如果文献中包含“机器翻译”这一词条，那么在这一词条作为原词条时，词条“自然语言处理”、“计算机科学”、“工程学”等高层级关键词均会被拓展出来。所以，当用户搜索“计算机科学”时，即使该学者所著文献中从未提及“计算机科学”一词，该学者依旧可以被本算法搜索到，并有可能拥有较高的排名，只要其所著文献中“计算机科学”被扩展了很多次。值得注意的是，关于“机器翻译”的文献未必一定与“统计机器翻译”相关，所以，在扩展时，本算法只向上层级扩展。在向上对词条进行扩展时，以“机器翻译”为原词条为例，“自然语言处理”会被扩展出来，且其在知识树中与“机器翻译”的层级差距为一层。“计算机科学”也会被扩展出来，其在知识树中与“机器翻译”的层级差距为两层。

在进行词条扩展后，将根据各词条在学者所著文献中的出现状况、及词条扩展情况，对词条进行不同权重的赋分，按照各文献及文献中词条的分数，形成文献-词条矩阵，并将文献-词条矩阵转换为学者-词条矩阵，然后再将学者-词条矩阵作为模型输入进行训练。

在对词条赋分时，将充分考虑以下因素：该词条在该学者其他文献中的扩展情况、扩展词条与原词条在词汇层级关系中层级间隔的远近以及原词条出现在文献中的位置等。

通过与原词条拥有不同层级差距的被扩展词条应被赋以不同的分数，从而体现出不同的匹配程度，将更进一步体现出搜索的针对性，一视同仁的赋分方式并不能凸显知识树中词与词的远近关系。

与普通的文本搜索不同，针对学者的搜索需要在搜索时将每个学者所著的所有文献做整体考虑，所以在利用知识树对词条进行扩展时，需要考虑扩展出的词条在该学者所著其他文献中的扩展情况。例如，每个学者的全部所著文献中的全部被拓展出来的词条计算该词条在该学者下的“学者得分”，其分子为该词条在该学者的所有文献中被拓展出来的次数，其分母为该学者有该词条被拓展出来的文献的数量。故该词条的学者得分即为该词条在该学者的所有所著的有该词条被扩展出的文献中平均被扩展出来的次数。也就是说，那些在该学者所有所著文献中被频繁扩展出来的词条就会拥有更高的赋分。这种赋分方式充分地将该学者所著所有文献中该词条的拓展情况进行了考虑，相较于传统文本扩展方法中一视同仁的扩展方式，这种拓展方式更加合理，也更适用于针对学者进行搜索的算法。

另外，将对扩展词条根据该词条与原始词条在词条层级关系中层级相差远近与原始词条所在的文献部分进行差别赋分。

赋分的方式由原始词条与拓展词条在词条层级关系中相差的层数决定。例如，如果词条层级关系拥有六层，则会产生5个参数，分别对应相差一层至五层的赋分。同时，对于文献的每个部分(标题、摘要、正文等)，其赋分也应不同。所以，最终算法将会有“(知识树高度-1)*部分个数”个赋分参数。

最终，对于各个学者文献中的每个词条而言，其：

词条分数(term_score)＝出现次数+学者分数*扩展分数

该词条在该文献中出现的次数越高，词条分数越高。该词条在该学者所著文献中被扩展的程度越高，即学者分数越高，词条分数越高。该词条扩展得分越高，词条分数越高。扩展分数应与其在该学者的所著文献中的扩展情况一同考虑，故取二者相乘之结果。

由各文献及文献中词条的分数，即可形成文献-词条矩阵，为对各个学者所著的所有文献进行整体考虑，将文献-词条矩阵转化为学者-词条矩阵。

对于每个学者所有所著文献中的所有词条，其在学者-词条矩阵中的分数为该词条在该学者的所有文献中的最终分数之和，乘以该学者所著的包含该词条的文献的篇数的对数，除以该学者所著文献的篇数的对数。所以，一个词条在该学者的所有文献中的累计分数越高，该词条在学者-词条矩阵中的分数就会越高。该学者拥有该词条的文献篇数越多，该词条在学者-词条矩阵中的分数就会越高。更多的所著文章篇数会使得词条的累计分数高的概率升高，所以在矩阵转化时将该学者所著文章篇数作为分母。

构建学者-词条矩阵后，将采用机器学习算法对学者-词条矩阵进行训练，生成搜索模型。进行文献搜索时，将搜索关键词在搜索模型中进行匹配运算，按照匹配程度即可准确输出文献搜索结果。

具体的，采用XGBoost算法对学者-词条矩阵进行训练学习，得到模型在搜索排序数据集上的训练损失值，在训练损失值未收敛时，采用贝叶斯优化网格搜索算法进行参数优化，更新学者-词条矩阵，直至训练损失值收敛。

XGBoost算法是一种基于结果对的排序学习算法，该算法将排序问题转换为给定两两一组的搜索结果A和B，结果A是否比结果B排序高的二分类问题。最终，算法将输出训练后的两两排序二分类错误率。

为找到本发明所提算法中所涉及的参数的最优配置，本发明采用了贝叶斯优化网格搜索算法对参数进行快速优化选取，优化目标为最小化XGBoost模型所产生的两两排序二分类错误率。

贝叶斯优化网格搜索是一个参数优化算法，通过贝叶斯优化网格搜索算法对训练模型中的权重和分数等参数进行优化。例如，贝叶斯优化网格搜索算法先对参数的组合进行试验，然后新的一轮参数选取会基于上一轮参数选取试验效果来指导下一轮参数的选取，以XGBoost模型损失最小化作为目标，不断迭代来优化参数选取，直至收敛。相较于传统的网格搜索优化算法，贝叶斯优化网格搜索算法可以基于上一次参数选择的训练结果，动态的优化调整下一迭代的参数选择，从而能够更快地优化参数选择。

图4是根据一示例性实施例示出的实施例一的一种具体应用流程图。如图4所示，首先对文献进行文本预处理，抽取出文献中的词条，然后利用知识树对文献进行词条扩展。在进行词条扩展后，根据各词条在学者所著文献中的出现状况、及词条扩展情况，对词条进行不同权重的赋分，按照各文献及文献中词条的分数，形成文献-词条矩阵，并将文献-词条矩阵转换为学者-词条矩阵，再将学者-词条矩阵作为XGBoost模型的输入进行训练，计算训练损失值，在训练损失值未收敛时，采用贝叶斯优化网格搜索算法进行参数优化，更新学者-词条矩阵，直至训练损失值收敛。最后进行文献搜索时，将搜索关键词在搜索模型中进行匹配运算，按照匹配程度即可准确输出文献搜索结果。

实施例二：

如图5所示，本发明实施例二提供了一种文献搜索装置，该装置可执行上述任一所示的文献搜索方法的全部或者部分步骤。该系统包括：

词条获取模块1，用于获取各学者所有文献中的词条；

词条扩展模块2，用于根据词条层级关系对所有文献进行词条扩展；

矩阵构建模块3，用于针对每一学者，根据各词条在学者所著文献中的出现状况、词条扩展情况，对词条进行不同权重的赋分，构建学者-词条矩阵；

训练模块4，用于采用机器学习算法对学者-词条矩阵进行训练，生成搜索模型；

搜索模块5，用于将搜索关键词在搜索模型中进行匹配运算，按照匹配程度输出文献搜索结果。

实施例三：

本发明实施例三提供了一种电子设备，该电子设备可执行上述任一所示的文献搜索方法的全部或者部分步骤。该电子设备包括：

处理器；以及

与处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一示例性实施例所述的方法，此处将不做详细阐述说明。

在本实施例中，还提供了一种存储介质，该存储介质为计算机可读存储介质，例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质例如包括指令的存储器，上述指令可由服务器系统的处理器执行以完成上述文献搜索方法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文献搜索方法，应用于电子设备，其特征在于，所述方法包括：

获取各学者所有文献中的词条；

根据词条层级关系对所有文献进行词条扩展；

将搜索关键词在所述搜索模型中进行匹配运算，按照匹配程度输出文献搜索结果;

所述获取各学者所有文献中的词条的步骤包括：

获取各学者的所有文献；

对各文献进行预操作处理，获取各文献中的词条；

所述词条层级关系为学术词汇层级关系，所述根据词条层级关系对所有文献进行词条扩展的步骤包括：

按照所述学术词汇层级关系，将所述学术词汇进行向上层级的词条扩展；

所述针对每一学者，根据各词条在所述学者所著文献中的出现状况、词条扩展情况，对词条进行不同权重的赋分，构建学者-词条矩阵的步骤包括：

按照各文献及文献中词条的分数，形成文献-词条矩阵；

将所述文献-词条矩阵转换为学者-词条矩阵；

所述出现状况包括出现次数、出现位置，所述针对每一学者，根据各词条在所述学者所著文献中的出现状况、词条扩展情况，对词条进行不同权重的赋分的步骤包括：

针对每一学者，根据各词条在所述学者所著文献中的出现次数、出现位置，赋予相应的出现次数分数、出现位置分数；

所述针对每一学者，根据各词条在所述学者所著文献中的出现状况、词条扩展情况，对词条进行不同权重的赋分的步骤包括：

根据词条扩展时词条层级关系的远近，对词条赋予相应的扩展分数；

所述采用机器学习算法对所述学者-词条矩阵进行训练，生成搜索模型的步骤包括：

2.一种文献搜索装置，该装置基于如权利要求1所述的方法，其特征在于，所述装置包括：

词条获取模块，用于获取各学者所有文献中的词条；

3.一种电子设备，其特征在于，所述电子设备包括：

处理器；以及

与所述处理器通讯连接的存储器；其中，

所述存储器存储有可读性指令，所述可读性指令被所述处理器执行时实现如权利要求1所述的方法。

4.一种计算机可读性存储介质，其上存储有计算机程序，所述计算机程序在被执行时实现如权利要求1所述的方法。