CN116881436A

CN116881436A - 基于知识图谱的文献检索方法、系统、终端及存储介质

Info

Publication number: CN116881436A
Application number: CN202311004772.8A
Authority: CN
Inventors: 陈清财; 褚达文; 杨扬; 任鹏宇; 刘荣; 王斐; 张恭
Original assignee: Shenzhen Graduate School Harbin Institute of Technology; First Medical Center of PLA General Hospital
Current assignee: Shenzhen Graduate School Harbin Institute of Technology; First Medical Center of PLA General Hospital
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2023-10-13

Abstract

本发明提供的基于知识图谱的文献检索方法、系统、终端及存储介质，具体涉及医疗大数据处理技术领域，本方案通过对查询语句进行实体和关系抽取，构建实体集合和关系集合；训练字向量模型并对未登记词进行模糊匹配，获得查询语句中的候选词，并提取出匹配度最高的候选词加入实体集合；基于实体集合和关系集合，生成三元组；基于目标领域知识图谱和目标领域文献，获取三元组对应的文献索引；根据关联度对文献索引排序，根据排序列表输出检索结果。该方案从查询语句的实体、关系、值和未登记字等多个角度进行定位和扩展，能够筛选出与查询语句关联程度最高的文献，实现了对目标领域文献的精确且高效地检索。

Description

基于知识图谱的文献检索方法、系统、终端及存储介质

技术领域

本发明涉及医疗大数据处理技术领域，尤其涉及的是一种基于知识图谱的文献检索方法、系统、终端及存储介质。

背景技术

随着大数据的快速发展，各个领域的文献的种类和数量急剧增加，那么，如何从海量医疗文献中准确、快速地检索出需要的医疗文献，成了亟待解决的技术问题。

目前，大多数文献书籍检索方法是通过关键字段的精确匹配进行检索，而且设置的关键字段往往是文献的标题、作者、索引号或者领域关键字段等。如果检索者不了解所查询的内容对应的标题、作者、索引号，那么就无法准确检索出需要的文献。又由于现有的文献检索系统中的知识图谱中所包含的文本语料库有限，在这种情况下仅仅通过自定义的关键词，特别是可能会出现相同的关键词在不同的语境中表达不同的含义的情况，甚至会出现相同的关键词由于翻译的不同导致以不同的关键词的形式出现的情况，很难检索到符合需求的文献，致使文献检索的精确性较低，基于词频、引用量、年限等因素权衡检索方法的有效性较低。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种基于知识图谱的文献检索方法、系统、终端及存储介质，旨在解决现有技术中存在的文献检索的精确性较低的问题。

为了实现上述目的，本发明第一方面提供一种基于知识图谱的文献检索方法，包括以下步骤：

获取用户输入的查询语句；

采用前缀字典扫描所述查询语句，抽取出所有实体，构建实体集合；利用所述实体生成有向无环图，并基于所述有向无环图抽取出所有实体关系，构建关系集合；

采用预设的字向量训练模型和预设的训练语料，训练字向量模型并对未登记词进行模糊匹配，获得已匹配的字向量，并由所述已匹配的字向量构成词向量组；获得所述查询语句中的候选词，并计算所述词向量组与所述候选词的匹配度，从所述词向量组中提取出匹配度最高的候选词加入所述实体集合；

基于所述实体集合和所述关系集合，生成三元组；

提取目标领域文献中的所有目标领域实体，并组成目标领域实体对，从目标领域知识图谱中获取所有包含所述目标领域实体对的所述三元组，获得三元组集合；基于所述三元组集合，获得与所述三元组集合中的各个三元组匹配的目标领域文献，获得文献与三元组对集合，按照关联度对所述文献与三元组对集合中的目标领域文献进行排序，获得三元组对应的文献索引；

根据关联度对所述文献索引排序，获得检索结果并输出。

进一步的，所述利用所述实体生成有向无环图，并基于所述有向无环图抽取出所有实体关系，构建关系集合，包括：

将每个所述实体作为一条边生成有向无环图；

采用动态规划算法寻找所述有向无环图上的每个点的权重和最大路径，并将所述权重和最大路径上产生的实体关系作为抽取出的实体关系；

利用抽取出的所述有向无环图图上各个点的所述实体关系，构建关系集合。

进一步的，所述获取所述查询语句中的候选词，包括：

将目标领域知识图谱中的每个实体词、关系词和值均拆分为单个字，将每个所述字均存入倒排索引中，获得索引词；

对所述查询语句中的字进行倒排索引，获得所有与所述查询语句中的字关联的所述索引词，获得所述查询语句的候选词。

进一步的，所述计算所述词向量组与所述候选词的匹配度，并提取出匹配度最高的候选词加入所述实体集合，包括：

利用预设的字向量训练模型将所述候选词和所述查询语句中的词均转换为字向量，获得候选词的字向量和所述查询语句中的词的字向量；

将所述候选词的字向量和所述查询语句中的词的字向量组成字向量对，采用词移距离算法计算所述字向量对的匹配度，并提取出匹配度最高的候选词加入所述实体集合。

进一步的，所述基于所述实体集合和所述关系集合，生成三元组，包括：

基于所述实体集合中的各个实体之间的关系，生成实体关系集合，利用抽取的关系生成关系集合，并基于所述关系集合的数量和类型以及实体的数量，将各个所述实体之间的关系分为确定关系、模糊关系、单实体和多实体；

当所述关系集合不为空时，利用预设的关系匹配运算对所述实体关系集合中的关系与所述关系集合中的所有关系进行匹配，并根据匹配值进行排序，得到抽取关系的排序队列；抽取所述抽取关系的排序队列中的若干个关系作为块，提取每个所述关系对应的实体的所有三元组，并对每个所述块中的三元组按照匹配值进行排序，获得确定关系的三元组块或模糊关系的三元组块；

当所述关系集合为空时，从目标领域知识图谱中找出所述关系集合中的实体的所有三元组，且当所述关系集合中的实体个数大于一个时，使用路径优化算法找到各个所述实体之间的所有最短路径，并将所有所述三元组按照关系分类生成块，按照关系块的三元组数量进行排序，获得单实体三元组或多实体三元组。

进一步的，所述按照关联度对所述文献与三元组对集合中的目标领域文献进行排序，获得文献索引，包括：

基于重要度和相关度，对所述目标领域文献与三元组集合中的目标领域文献与三元组对添加标注，获得预测模型；

基于所述预测模型对所述目标领域文献与三元组对进行关联度预测，获得预测结果，根据所述预测结果排序，获得三元组对应的文献索引。

进一步的，所述基于重要度和相关度，对所述目标领域文献与三元组对添加标注，获得预测模型，包括：

基于重要度和相关度，对所述目标领域文献与三元组对添加机器特征标注和人工标注，获得机器特征标注的数据和人工标注的数据；

利用所述机器特征标注的数据训练预设的文献映射模型，得到特征模型；

利用所述人工标注的数据和所述特征模型，继续训练所述预设的文献映射模型，获得预测模型。

本发明第二方面提供一种基于知识图谱的文献检索系统，所述系统包括交互单元和检索单元，交互单元包括用于接收查询语句的输入模块和用于输出文献检索结果的输出模块，检索单元包括查询语句实体及关系抽取模块、未登记词模糊匹配模块、匹配三元组模块、医学文献三元组索引构建模块、关联模块。

查询语句实体及关系抽取模块，用于基于输入模块中输入的查询语句进行实体及关系抽取，采用前缀字典扫描所述查询语句，抽取出所有实体，构建实体集合；利用所述实体生成有关系图，并基于所述关系图抽取出所有实体关系，构建关系集合，并输出至匹配三元组模块；

未登记词模糊匹配模块，用于对输入模块存在的未登记词进行模糊匹配，采用预设的字向量训练模型和预设的训练语料，训练所述预设的字向量模型并对未登记词进行模糊匹配，获得已匹配的字向量，并由所述已匹配的字向量构成词向量组；获得所述查询语句中的候选词，并计算所述词向量组与所述候选词的匹配度，并提取出匹配度最高的候选词加入接收到的查询语句实体及关系抽取模块中的实体集合，并将实体集合输出至匹配三元组模块；

匹配三元组模块，用于基于接收到的实体集合和关系集合，生成三元组，并输出至医学文献三元组索引构建模块；

医学文献三元组索引构建模块，用于提取目标领域文献中的所有目标领域实体，并组成目标领域实体对，从目标领域知识图谱中获取所有包含所述目标领域实体对的所述三元组，获得三元组集合；基于所述三元组集合，获得与所述三元组集合中的各个三元组匹配的目标领域文献，获得文献与三元组对集合，按照关联度对所述文献与三元组对集合中的目标领域文献进行排序，获得文献索引，并将文献索引输出至关联模块；

关联模块，用于根据关联度对所述文献索引排序，获得检索结果并输出。

本发明第三方面提供一种智能终端，所述智能终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于知识图谱的文献检索程序，所述基于知识图谱的文献检索程序被所述处理器执行时实任意一项上述基于知识图谱的文献检索方法的步骤。

本发明第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于知识图谱的文献检索程序，所述基于知识图谱的文献检索程序被处理器执行时实现任意一项上述基于知识图谱的文献检索方法的步骤。

与现有技术相比，本方案的有益效果如下：

本发明基于目标领域知识图谱和自然语言处理技术，对查询语句进行实体及关系抽取，构建实体集合和关系集合，并训练字向量模型并对未登记词进行模糊匹配，提取出查询语句中匹配度最高的候选词加入实体集合；然后基于实体集合和关系集合，生成三元组；并建立目标领域文献到三元组的映射关系，获得文献索引，以筛选出与查询语句关联程度最高的文献，实现了对目标领域文献的精确且高效地检索，该方法从查询语句的实体、关系、值和未未登记字等多个角度进行定位和扩展，提高了用户检索文献的效率和准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明的基于知识图谱的文献检索方法流程图；

图2为本发明的查询语句实体及关系抽取流程图；

图3为本发明的未登记词模糊匹配流程图；

图4为本发明的未登记词模糊匹配示例流程图；

图5为本发明的三元组匹配流程图；

图6为本发明的三元组匹配示例流程图；

图7为本发明的医学文献三元组索引构建流程图；

图8为本发明的文献与三元组对生成示例流程图；

图9为本发明的检索结果排序流程图；

图10为本发明的文献编号序列构建流程示意图；

图11为本发明的数据标注中的机器特征标注流程图；

图12为本发明的数据标注中的人工特征标注流程图；

图13为本发明的基于知识图谱的文献检索系统结构示意图；

图14为本发明的基于知识图谱的文献检索的智能终端结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况下，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当…时”或“一旦”或“响应于确定”或“响应于检测到”。类似的，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述的条件或事件]”或“响应于检测到[所描述条件或事件]”。

下面结合本发明实施例的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

知识图谱是人工智能领域的重要研究方法，同时也是一个多方向多领域的学术研究领域，涉及了数据挖掘、实体抽取、关系抽取、信息处理等研究方向，也涉及医学、金融等多个领域，不同的专业领域里知识图谱也会不同。知识图谱是一种结构化的知识并由大量的文本信息中抽取获得，并一般需要由该领域专家对知识进行判断和整理，通常可视为可靠的基础知识，从而可为智能检索、智能问答、智能分析提供知识基础。近年来知识图谱的构建技术随着自然语言模型的技术提升日益成熟，知识的获取从以前的人工整理方式变为如今机器的读取识别，使得知识图谱应用更加广泛。

鉴于近年来大语言模型的突破和各类专业知识图谱的出现，以及现有技术中存在的基于关键字索引或基于词频、引用量、年限等多因素权衡计算方式模型的文献检索算法，在专业领域文献检索中存在的有效性低、功能单一、对用户查询内容的理解准确性差等因素，导致的对文献检索的精确性较低的问题。本发明提出一种基于知识图谱的文献检索方法，该方法利用知识图谱和自然语言处理技术，并结合知识映射，实现了对目标领域文献的高效检索。在目标领域文献检索过程中，能有效提高检索效率，筛选出与查询语句关联程度最高的文献。该方法首先建立起目标领域文献到三元组的映射关系，并建立索引；当用户输入查询语句后，该方法对查询语句进行实体及关系抽取，并按实际情况进行确定匹配或模糊匹配，得到查询语句对应的三元组块；然后将查询语句匹配到的三元组通过文献三元组索引，根据与查询语句的匹配度输出目标文献；该方法能够从用户查询的多个角度进行定位和扩展，提高用户检索文献的效率，检索结果包含的知识结构也有助于用户对检索结果的理解，具有一定的研究意义和实用价值。

示例性方法

本发明实施例提供一种基于知识图谱的文献检索方法，部署于电脑、服务器等电子设备上，涉及医学、金融、科学技术等多个领域中的数据挖掘、实体抽取、关系抽取、信息处理等研究方向，应用场景为对文献的检索，针对的是特定领域内文本语料库较少的情况。具体的，本实施例以医学文献检索为例来详细阐述本申请的基于知识图谱的文献检索方法流程，需要声明的是该方法的应用领域包括但不限于医学领域，该方法流程图如图1所示，主要步骤以下包括：

步骤S1000：获取用户输入的查询语句。

具体地，用户根据自身需求输入一段自然语言查询语句，可以是一个词语、短语或者语句，或者是一个或者多个词语、短语或者语句的任意组合，以下将用户输入的自然语言查询语句简称为查询语句。

步骤S2000：采用前缀字典扫描查询语句，抽取出所有实体，构建实体集合；利用实体生成有向无环图，并基于有向无环图抽取出所有实体关系，构建关系集合。

具体地，查询语句实体及关系抽取，对输入的查询语句，使用前缀字典来快速扫描文本，并抽取出所有可能的提取词，然后根据所有可能成词情况生成一个有向无环图，并采用动态规划算法找出一条最优路径，以最优路径来进行抽取；

如图2所示，在查询语句实体及关系抽取中，包括如下步骤：

步骤2100：前缀字典构建：使用CMeKG(Chinese Medical Knowledge Graph)知识图谱进行前缀字典构建，将该知识图谱的所有实体(记作E)、关系(记作R)和值(记作V)都放入到前缀词典中，并使用哈希表加快文本的扫描速度，并对实体、关系、值、停用词设置不同类型的标签，其中1为实体类标、2为关系类标、3为值类标、4为停用词类标，此外，所有词的前缀以0为类标，如{流：0}、{流鼻：0}、{流鼻涕：1}；

本实施例选择CMeKG知识图谱进行前缀字典构建，它是利用自然语言处理与文本挖掘技术，基于大规模医学文本数据，以人机结合的方式研发的中文医学知识图谱，作为其他优选实施方式，还可以根据实际应用情况，灵活选择UMLS语义网络、Wikidata、Schema.org、cnSchema或OMAHA知识库等知识图谱来构建前缀字典。

步骤2200：使用前缀字典进行文本扫描：逐字扫描查询语句，若当前队列内的词不在前缀词表内，则表示不会产生以当前队列的第一个字为首的新词，那么让第一个字出列，对队列中剩余的字继续逐字扫描判断；若队列内的词出现在前缀词表中，则进一步判断该前缀词是否为实体、关系等有效词，是则进行保留，然后读入下一字继续扫描；

步骤2300：构造有向无环图：将文本每个字作为一条边生成初始有向无环图(DAG)，其中每个结点会连接后面的一个或多个节点，根据上一步抽取到的有效词进行连边。每条边都是一个可行路径，同时也表示词组形式，而有向无环图的每条路径都会产生不同的实体关系抽取结果；

步骤2400：动态规划确定最佳组合：综合词频、词长、优先级定义每个词的权重，该权重可映射为有向无环图中边的权值，并定义状态为有向无环图上点的从起点到某点的权重和，有向图中每个点的最优状态为所有可到达当前点的状态加上转移成本(即有向边的权重)的和取最优，即权重和最大；

权重公式为：

其中，typeWeight_word表示某个词的权重优先级，其中权重优先级从高到低排序为：关系>实体>值>停用词，frequency_word表示该词的词频，length_word表示该词的词长。

动态规划算法的具体步骤如下：

1)基于有向无环图的节点构建初始值为0的权重矩阵W和位置矩阵pre,获取有向无环图的邻接矩阵P，其中P_ij表示节点i与节点j之间的邻接关系，P_ij不为0表示节点i到节点j存在通路，并且P的取值大小表示该词所属的类标。

2)从第一行开始遍历P的所有行，基于第i行中P_ij不为0的值，更新权重矩阵W，更新公式如下：

W_j＝max{W_j,[(-+1)*(P_ij)+W_i]}

其中，ty(·)表示类标权重，例如将实体类标权重设置为1、将关系类标权重设置为1.1、将停用词类标权重设置为0.2，以及将值类标权重设置为0.55，W_j表示W数组中的第j个值，W_i表示W数组中的第i个值，W更新的同时更新位置矩阵pre。

3)在W更新完之后，从位置矩阵pre的最后一个数开始读，读出的值再作为索引值继续读直至索引到0类标为止，对每个路径通过文本读取出对应片段，并使用前缀字典来识别出抽取的类型。

步骤3000：采用预设的字向量训练模型和预设的训练语料，训练字向量模型并对未登记词进行模糊匹配，获得已匹配的字向量，并由已匹配的字向量构成词向量组；获得查询语句中的候选词，并计算词向量组与候选词的匹配度，从词向量组中提取出匹配度最高的候选词加入实体集合。

具体地，对于未登记词模糊匹配，采用连续词袋(CBOW)模型进行字向量训练，通过查询语句中字的倒排索引获得候选词，然后使用词移距离(Word Mover's Distance，WMD)算法计算出输入出词向量组与候选词的匹配度，匹配度最高的候选词即为匹配结果。

本实施例采用的字训练模型为word2vec中的连续词袋(CBOW)模型，作为其他优选实施方式，还可以基于系统配置、数据量、准确度和/或效率等情况，灵活选择word2vec中的跳字(skip-gram)模型、glove、fastText、elmo、GPT或bert、xlnet等模型训练字向量。

如图3所示，未登记词模糊匹配中，包括如下步骤：

步骤3100：训练字向量：采用连续词袋模型进行字向量训练，将目标数据库中的所有医学文献的摘要进行拼接，作为字向量模型的训练语料，然后将训练语料的文本中的每个字进行分隔，形成字符序列的训练样本；

步骤3200：字的倒排索引：将知识图谱中的每个实体词、关系词和值都拆分成单个字，将每个字均存入倒排索引中，生成每个字到包含该字的词的索引。通过倒排索引找到每个字相关的所有实体；

步骤3300：获得模糊词：除去已准确匹配的词及停用词，将未标记的词进行拼接，得到模糊词。

举例说明未登记词模糊匹配的过程，如图4所示，假设输入词为“儿童伤寒”，经过连续词袋模型进行字向量训练，通过查询语句中字的倒排索引获得候选词，如小二伤寒、儿童伤风或儿童发热，然后利用医学文献中的文章摘要字符序列和连续词袋模型进行字向量训练，获得字向量，在采用词移距离算法计算词向量组中的各个字向量与候选词的匹配度，如儿童伤寒的字向量与小二伤寒、儿童伤风和儿童发热的匹配度分别为0.88、0.82和0.66，可见匹配度最高的候选词为小二伤寒，那么小二伤寒就是最后要检索的匹配结果。

步骤4000：基于实体集合和关系集合，生成三元组。

具体地，对查询语句进行实体及关系抽取之后得到实体集合、关系集合和值集合，基于得到的实体集合、关系集合和值集合生成三元组，并将三元组分为确定关系、模糊关系、单实体和多实体。

如图5和图6所示，三元组匹配中，包括如下步骤：

步骤4100：确定关系处理：利用实体集合中的各个实体之间的各种关系生成实体关系集合R'，利用抽取的关系生成关系集合R。当关系集合不为空且不为模糊关系时，利用TransE关系匹配运算对R'中的关系与R中的所有关系进行匹配，并按照R'中的关系与R中的所有关系的匹配值进行排序，得到R'的排序队列；取出该队列的前n个关系作为块，并提取每个关系对应的实体的所有三元组，对每个块中的三元组的尾实体，以及实体和值中除头实体外的词进行TransE实体匹配，根据计算结果对每个块中的三元组按照匹配值进行排序，生成确定关系的三元组块；

步骤4200：模糊关系处理：当关系集合不为空且为模糊关系时，对R'中的关系与模糊关系利用词移距离算法进行模糊匹配，并按照对R'的匹配值进行排序，得到R'的排序队列，取出前n个关系作为块，提取每个关系对应的实体的所有三元组，对每个块中的三元组的尾实体，以及实体和值中除头实体外的词做TransE实体匹配，根据计算结果对每个块中的三元组按照匹配值进行排序，生成模糊关系的三元组块；

步骤4300：无关系、单实体处理：当关系集合为空且仅有一个实体时，从知识图谱中找出该实体的所有三元组，将所有的三元组按照关系分类生成块，按照关系块的三元组数量进行排序，取出前n个关系块作为单实体三元组；

步骤4400：无关系、多实体处理：当关系集合为空且有多个实体时，使用路径优化算法找到实体集合中实体间最短路径的所有路径，将所有路径的所有三元组按照关系分类生成关系块，按照关系块的三元组数量进行排序，取出前n个关系块作为多实体三元组。

步骤5000：提取目标领域文献中的所有目标领域实体，并组成目标领域实体对，从目标领域知识图谱中获取所有包含目标领域实体对的三元组，获得三元组集合；基于三元组集合，获得与三元组集合中的各个三元组匹配的目标领域文献，获得文献与三元组对集合，按照关联度对文献与三元组对集合中的目标领域文献进行排序，获得三元组对应的文献索引。

具体地，提取医学文献中的所有实体，并组成实体对，从医学知识图谱中获取包含这些实体对的三元组，在BERT预训练模型中进行微调，以使输出结果更符合医学领域的预期输出，通过弱监督训练的方式获得文献映射模型，通过对输出的弱类标概率结果进行排序，获得三元组与文献索引。

如图7所示，在医学文献三元组索引构建中，包括如下步骤：

步骤5100：构造文献与三元组对：文献与三元组对用于数据标注和构成索引，首先从医学文献数据库中把医学文献的摘要和标题取出并组合，使用实体关系抽取模型抽取出摘要和标题中的所有实体，并两两组合生成实体对，并从知识图谱中找出每个实体对对应的所有三元组，组合成此医学文献数据库的三元组集合，三元组集合再分别与各个匹配的医学文献ID构成文献与三元组对集合；

步骤5200：数据标注：基于生成的文献与三元组对，以重要度、相关度两个指标对其进行数据标注，以添加关联度类标，重要度表示三元组的两个实体是否为文献的主要描述对象或出现在文献中的重要地方，相关度表示三元组的关系是否表现在文献的语义中或是否为文献描述的内容，数据标注分为机器特征标注和人工标注，本实施例通过标注的数据对BERT预训练模型进行微调，使其在对文献进行三元组抽取映射上获得更好地表现；

步骤5300：模型训练和预测：先利用机器特征标注的数据训练文献映射模型，得到特征模型，虽然特征模型可以学到机器标注的特征但是对于关系语义的理解不够准确，因此使用人工标注数据和特征模型，继续对文献映射模型进行训练，得到预测模型；利用预测模型对文献与三元组对进行大类标预测，通过对预测概率结果排序，得到三元组与文献的索引。

本实施例用于文献三元组构造的模型是基于弱监督的学习排序模型，使用self-attention机制将文献种的摘要和标题转换为文本向量表示，并与三元组的嵌入序列做一个关联计算，并最后连接一个全连接层和softmax层来进行弱类标分类，并通过弱类标的概率值来进行关联度的排序。模型的构建是在BERT(Bidirectional EncoderRepresentation from Transformers)的预训练模型的基础上做微调(fine-tuning)，并使用了其中的NSP(Next Sentence Prediction)机制来理解文献与三元组之间的关联关系，并在BERT的最后一个transformer后面加一个全连接层分类层进行弱监督分类。

举例说明文献与三元组对生成流程，如图8所示，首先基于医学文献数据库，读取每篇医学文献的标题和摘要，基于标题和摘要从预设的实体关系抽取模型中抽取实体，获得实体集合；然后将实体集合中的实体两两组合成实体对，到医学知识图谱中匹配所有同时包含这两个实体的三元组，构成三元组集合；再通过训练文献映射模型得到的预测模型对文献与三元组对进行匹配，生成文献与三元组对集合。

步骤6000：根据关联度对文献索引排序，获得检索结果并输出。

具体地，如图9所示，在检索结果排序中，包括如下步骤：

步骤6100：获取文献块：将步骤4000得到的三元组对按关联程度排序形成三元组块，并根据步骤5000，得到各个三元组对应的文献ID编号序列并按关联程度排序，获得文献块；

步骤6200：横向窗口排序：定义一个横向窗口，窗口的宽度表示每次取出三元组中对应的优先级最高的文献数目；基于设定的文献窗口，将各个文献序列中关联度排序位置靠前的文献进行切割，并将切割出来的文献ID按照窗口横向排成一列；依次类推，直至将所有的文献ID切割完并按照关联度排成一列。

举例说明文献编号序列构建方式，如图10所示，首先根据文献与三元组对集合，将三元组按照匹配度从高到低的顺序排列成三元组序列，针对每一个三元组对应的多个文献，按照文献ID编号的关联度从高到低的顺序排列成文献序列，也就是三元组序列包括多个三元组，每个三元组对应一个文献序列；然后基于设定的文献窗口，将各个文献序列中关联度排序位置靠前的文献进行切割，并将切割出来的文献ID按照窗口横向排成一列；依次类推，基于设定的文献窗口，将切割后的文献序列中关联度排序位置靠前的文献进行切割，并将切割出来的文献ID按照窗口横向排成一列，并拼接在第一次切割的文献ID所在列的后面，直至将所有的文献ID按照关联度排成一列。

步骤5200中对数据添加机器特征标注和人工标注中，包括如下步骤：

步骤5210：数据标注中的机器特征标注；

如图11所示，在数据标注中的机器特征标注中，包括如下步骤：

步骤5211：重要度标注：重要度分为三个类标，具体如表1所示，用来衡量实体覆盖率和重要区域分布的特征，这里的重要区域是指出现在文献中的标题、目的和结论等文献核心区域，中文医学文献的摘要一般都会有目的、方法、结果和结论的结构；

表1

步骤5212：相关度标注：相关度分类三个类标，具体如表2所示，用来衡量头尾实体是否出现在同一个句子中，句中是否出现与关系相关的词语等；

表2

步骤5213：整合大类标：基于重要度类标的类型和相关度类标的类型，将重要度和相关度标注整合为统一的大类标，共分为五类，具体如表3所示，其中，表中的斜线表示“或”。大类标1表示三元组与文献的关联度最高，大类标5表示三元组与文献的关联度最低。例如，当重要度类标为1且相关度类标为1时，将大类标设置为1；当重要度类标为1且相关度类标为2时，将大类标设置为3。

表3

步骤5220：数据标注中的人工特征标注，

如图12所示，在数据标注中的人工特征标注中，包括如下步骤：

步骤5221：人工理解：人工理解文献的主要内容和三元组关系；

步骤5222：人工关联度标注：共分为五个类标，具体如表4所示，主要衡量三元组中两个实体在文献中的重要性，三元组关系与文献的一致性以及三元组知识在文献中的相关程度，第1类表示三元组与文献的关联程度最高。

表4

示例性系统

如图13所示，对应于上述基于知识图谱的文献检索方法，本发明实施例还提供一种基于知识图谱的文献检索系统，该系统包括交互单元1和检索单元2，交互单元包括用于接收查询语句的输入模块11和用于输出文献检索结果的输出模块12，检索单元包括查询语句实体及关系抽取模块21、未登记词模糊匹配模块22、匹配三元组模块23、医学文献三元组索引构建模块24、关联模块25。

查询语句实体及关系抽取模块21，用于基于输入模块11中输入的查询语句进行实体及关系抽取，采用前缀字典扫描查询语句，抽取出所有实体，构建实体集合；利用实体生成有向无环图，并基于有向无环图抽取出所有实体关系，构建关系集合，并输出至匹配三元组模块23；

未登记词模糊匹配模块22，用于对输入模块11存在的未登记词进行模糊匹配，采用预设的字向量训练模型和预设的训练语料，训练预设的字向量模型并对未登记词进行模糊匹配，获得已匹配的字向量，并由已匹配的字向量构成词向量组；获得查询语句中的候选词，并计算词向量组与候选词的匹配度，从词向量组中提取出匹配度最高的候选词加入接收到的查询语句实体及关系抽取模块21中的实体集合，并将实体集合输出至匹配三元组模块23；

匹配三元组模块23，用于基于接收到的实体集合和关系集合，生成三元组，并输出至医学文献三元组索引构建模块24；

医学文献三元组索引构建模块24，用于提取目标领域文献中的所有目标领域实体，并组成目标领域实体对，从目标领域知识图谱中获取所有包含目标领域实体对的三元组，获得三元组集合；基于三元组集合，获得与三元组集合中的各个三元组匹配的目标领域文献，获得文献与三元组对集合，按照关联度对文献与三元组对集合中的目标领域文献进行排序，获得三元组对应的文献索引，并将文献索引输出至关联模块25；

关联模块25，用于根据关联度对文献索引排序，获得检索结果并输出。

本实施例系统的具体工作过程如下：

查询语句实体及关系抽取模块21基于输入模块11中输入的查询语句，进行实体及关系抽取；未登记词模糊匹配模块22主要是对输入模块11存在的未登记词进行模糊匹配；匹配三元组模块23主要是提取的关系与实体与知识图谱中的三元组进行匹配；医学文献三元组索引构建模块24主要是对医学文献进行实体与关系抽取，并与知识图谱中的三元组进行匹配，进而建立文献索引；关联模块25主要是将匹配三元组模块23获得的三元组与医学文献三元组索引构建模块24获得的文献三元组进行关联，并通过索引寻找对应的文献，而后后将检索结果送至输出模块12，输出模块按横向窗口排序的方式将检索结果输出至交互界面界面。

具体的，本实施例中，上述基于知识图谱的文献检索系统的具体功能还可以参照上述基于知识图谱的文献检索方法中的对应描述，在此不再赘述。

基于上述实施例，本发明还提供了一种智能终端，其原理框图可以如图14所示。上述智能终端包括通过系统总线连接的处理器、存储器、网络接口以及显示屏。其中，该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内部存储器。该非易失性存储介质存储有操作系统和基于知识图谱的文献检索程序。该内部存储器为非易失性存储介质中的操作系统和基于基于知识图谱的文献检索程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该基于知识图谱的文献检索程序被处理器执行时实现上述任意一种基于知识图谱的文献检索方法的步骤。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏。

本领域技术人员可以理解，图14中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的智能终端的限定，具体的智能终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种智能终端，上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的基于知识图谱的文献检索程序，上述基于知识图谱的文献检索程序被上述处理器执行时实现本发明实施例提供的任意一种基于知识图谱的文献检索方法的步骤。

本发明实施例还提供一种计算机可读存储介质，上述计算机可读存储介质上存储有基于知识图谱的文献检索程序，上述基于知识图谱的文献检索程序被处理器执行时实现本发明实施例提供的任意一种基于知识图谱的文献检索方法的步骤。

应理解，上述实施例中各步骤的序号大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集合成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集合成在一个单元中，上述集合成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各实例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以由另外的划分方式，例如多个单元或组件可以结合或者可以集合成到另一个系统，或一些特征可以忽略，或不执行。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不是相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识图谱的文献检索方法，其特征在于，包括以下步骤：

获取用户输入的查询语句；

采用预设的字向量训练模型和预设的训练语料，训练所述预设的字向量模型并对未登记词进行模糊匹配，获得已匹配的字向量，并由所述已匹配的字向量构成词向量组；获得所述查询语句中的候选词，并计算所述词向量组与所述候选词的匹配度，并提取出匹配度最高的候选词加入所述实体集合；

基于所述实体集合和所述关系集合，生成三元组；

提取目标领域文献中的所有目标领域实体，并组成目标领域实体对，从目标领域知识图谱中获取所有包含所述目标领域实体对的所述三元组，获得三元组集合；基于所述三元组集合，获得与所述三元组集合中的各个三元组匹配的目标领域文献，获得文献与三元组对集合，按照关联度对所述文献与三元组对集合中的目标领域文献进行排序，获得文献索引；

根据关联度对所述文献索引排序，获得检索结果并输出。

2.根据权利要求1所述的基于知识图谱的文献检索方法，其特征在于，所述利用所述实体生成有向无环图，并基于所述有向无环图抽取出所有实体关系，构建关系集合，包括：

将每个所述实体作为一条边生成有向无环图；

采用动态规划算法寻找所述有向无环图上的每个点的权重和最大路径，并将所述权重和所述最大路径上产生的实体关系作为抽取出的实体关系；

利用抽取出的所述有向无环图上各个点的所述实体关系，构建关系集合。

3.根据权利要求1所述的基于知识图谱的文献检索方法，其特征在于，所述获取所述查询语句中的候选词，包括：

4.根据权利要求3所述的基于知识图谱的文献检索方法，其特征在于，所述计算所述词向量组与所述候选词的匹配度，并提取出匹配度最高的候选词加入所述实体集合，包括：

5.根据权利要求1所述的基于知识图谱的文献检索方法，其特征在于，所述基于所述实体集合和所述关系集合，生成三元组，包括：

6.根据权利要求1所述的基于知识图谱的文献检索方法，其特征在于，所述按照关联度对所述文献与三元组对集合中的目标领域文献进行排序，获得文献索引，包括：

7.根据权利要求6所述的基于知识图谱的文献检索方法，其特征在于，所述基于重要度和相关度，对所述目标领域文献与三元组对添加标注，获得预测模型，包括：

8.基于知识图谱的文献检索系统，其特征在于，所述系统包括交互单元和检索单元，交互单元包括用于接收查询语句的输入模块和用于输出文献检索结果的输出模块，检索单元包括查询语句实体及关系抽取模块、未登记词模糊匹配模块、匹配三元组模块、医学文献三元组索引构建模块、关联模块。

查询语句实体及关系抽取模块，用于基于输入模块中输入的查询语句进行实体及关系抽取，采用前缀字典扫描所述查询语句，抽取出所有实体，构建实体集合；利用所述实体生成有向无环图，并基于所述有向无环图抽取出所有实体关系，构建关系集合；

9.智能终端，其特征在于，所述智能终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于知识图谱的文献检索程序，所述基于知识图谱的文献检索程序被所述处理器执行时实现如权利要求1-7任意一项所述基于知识图谱的文献检索方法的步骤。

10.计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于知识图谱的文献检索程序，所述基于知识图谱的文献检索程序被处理器执行时实现如权利要求1-7任意一项所述基于知识图谱的文献检索方法的步骤。