CN113761220A

CN113761220A - 信息获取方法、装置、设备及存储介质

Info

Publication number: CN113761220A
Application number: CN202110501638.3A
Authority: CN
Inventors: 张子恒; 赖盛章; 陈曦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2021-12-07

Abstract

本申请实施例公开了一种信息获取方法、装置、设备及存储介质，属于人工智能技术领域。所述方法包括：获取查询关键词；对查询关键词进行编码处理，得到查询关键词对应的表示向量；基于查询关键词对应的表示向量，从表示向量集合中选择出目标表示向量；其中，表示向量集合包括目标领域的知识图谱中各个实体节点对应的关键词的表示向量，目标表示向量是指表示向量集合中与查询关键词对应的表示向量的相似度满足第一条件的表示向量；基于目标表示向量对应的目标实体节点获取查询信息对应的知识信息。本申请通过基于关键词的语义信息从知识图谱中召回目标实体节点，从而提高了实体节点的召回率。本申请可适用于医疗领域知识信息的获取。

Description

信息获取方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能技术领域，特别涉及一种信息获取方法、装置、设备及存储介质。

背景技术

随着人工智能技术的发展，基于知识图谱的关键词搜索技术可应用于多种任务，例如知识召回、知识校验、知识问答等。

以召回医疗知识图谱中的实体节点为例，相关技术采用字符串匹配的方式进行实体节点的召回。例如，用户输入关于病症的查询关键词，相关技术将查询关键词的字符串和医疗知识图谱中的各个实体节点对应的关键词的字符串进行遍历式地匹配，将匹配度符合条件的实体节点召回。

然而，由于病症的口语化表达的多样性，相关技术基于查询关键词的字符串并不能匹配出医疗知识图谱中所有对应的实体节点，从而导致召回的实体节点的数量过少，实体节点的召回率较低。

发明内容

本申请实施例提供了一种信息获取方法、装置、设备及存储介质，能够提高知识图谱中的所需实体节点的召回率。技术方案如下：

根据本申请实施例的一个方面，提供了一种信息获取方法，所述方法包括：

获取查询信息中的查询关键词；

对所述查询关键词进行编码处理，得到所述查询关键词对应的表示向量；

基于所述查询关键词对应的表示向量，从表示向量集合中选择出目标表示向量；其中，所述表示向量集合包括目标领域的知识图谱中各个实体节点对应的关键词的表示向量，所述目标表示向量是指所述表示向量集合中与所述查询关键词对应的表示向量的相似度满足第一条件的表示向量；

基于所述目标表示向量对应的目标实体节点，从所述目标领域的知识图谱中获取所述查询信息对应的知识信息。

根据本申请实施例的一个方面，提供了一种信息获取装置，所述装置包括：

关键词获取模块，用于获取查询信息中的查询关键词；

关键词编码模块，用于对所述查询关键词进行编码处理，得到所述查询关键词对应的表示向量；

目标向量获取模块，用于基于所述查询关键词对应的表示向量，从表示向量集合中选择出目标表示向量；其中，所述表示向量集合包括目标领域的知识图谱中各个实体节点对应的关键词的表示向量，所述目标表示向量是指所述表示向量集合中与所述查询关键词对应的表示向量的相似度满足第一条件的表示向量；

知识信息获取模块，用于基于所述目标表示向量对应的目标实体节点，从所述目标领域的知识图谱中获取所述查询信息对应的知识信息。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述信息获取方法。

可选地，所述计算机设备为终端或服务器。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述信息获取方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述信息获取方法。

本申请实施例提供的技术方案可以带来如下有益效果：

通过基于查询关键词的表示向量和目标领域的知识图谱中各个实体节点对应的关键词的表示向量之间的相似度，召回目标实体节点，再基于目标实体节点获取知识信息，实现了从语义层面上进行知识图谱中的实体节点召回，提高了实体节点(即关键词)的召回率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的方案实施环境的示意图；

图2是本申请一个实施例提供的信息获取方法的流程图；

图3是本申请一个实施例提供的关键词编码模型的示意图；

图4是本申请一个实施例提供的知识图谱关键词搜索的示意图；

图5是本申请另一个实施例提供的信息获取方法的流程图；

图6是本申请另一个实施例提供的知识图谱关键词搜索的示意图；

图7是本申请一个实施例提供的信息获取装置的框图；

图8是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的自然语言处理技术，利用自然语言处理技术训练关键词编码模型，并基于关键词编码模型对查询关键词或医疗知识图谱中的各个实体节点对应的关键词进行编码等。

本申请实施例提供的方法，各步骤的执行主体可以是计算机设备，该计算机设备是指具备数据计算、处理和存储能力的电子设备。该计算机设备可以是诸如PC(PersonalComputer，个人计算机)、平板电脑、智能手机、可穿戴设备、智能机器人等终端；也可以是服务器。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。

本申请实施例提供的技术方案，可以被使用在任何需要知识信息搜索功能的产品或系统中，比如知识召回系统、知识问答系统、知识校验系统、情感分析系统、意图分析系统等，本申请实施例提供的技术方案能够有效提升知识图谱中的所需实体节点的召回率。

在一个示例中，如图1所示，以知识召回系统为例，该系统可以包括终端10和服务器20。

终端10可以是诸如手机、平板电脑、PC、可穿戴设备等电子设备。用户可以通过终端10接入服务器20，并进行知识召回操作。例如，终端10中可以安装目标应用程序的客户端，用户可以通过该客户端接入服务器20，并进行知识召回操作。上述目标应用程序可以是任何提供知识召回服务的应用程序，如知识查询类应用程序、信息检索类应用程序、信息推荐类应用程序等，本申请实施例在此不做限定。

服务器20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。服务器20用于为终端10中的目标应用程序的客户端提供后台服务。例如，服务器20可以是上述目标应用程序的后台服务器。

终端10和服务器20之间可以通过网络30进行通信。

示例性地，用户在目标应用程序的客户端中输入了一段文字信息(如“痛风的简介”)，客户端从该文字信息中提取关键词(如“痛风”)，并将关键词发送给服务器20，服务器20基于该关键词从知识图谱(如医疗知识图谱)中获取对应的知识信息，并将得到的知识信息返回给客户端。

请参考图2，其示出了本申请一个实施例提供的信息获取方法的流程图，该方法各步骤的执行主体可以是上文介绍的计算机设备，该方法可以包括如下几个步骤(201～203)：

步骤201，获取查询信息中的查询关键词。

在本申请实施例中，查询信息用于获取所需的知识信息。例如，查询信息可以是指用户在上述目标应用程序的客户端中输入的信息，该信息可以是诸如文字、数字、字母等类型的信息。查询信息可以是标准的表达形式，也可以是非标准的表达形式。例如，痛风可以称为痛痹、历节、Gout(痛风)等，则输入痛风、痛痹、厉节、Gout(痛风)等，都可以得到痛风对应的知识信息。

查询关键词是指可用于表示查询信息的中心概念的词语。例如，查询信息为“痛风的病症”，则查询信息中的“痛风”可作为查询关键词。可选地，查询信息中可以包括多个查询关键词。例如，查询信息为“A药物对痛风的治疗效果”，则该查询信息对应的查询关键词可以包括“痛风”和“A药物”。

步骤202，对查询关键词进行编码处理，得到查询关键词对应的表示向量。

在本申请实施例中，表示向量用于表示查询关键词的语义特征。例如，上述病症痛风可以有口语化表达：痛痹和厉节，但实质上痛风、痛痹和厉节所表示的语义是相同的，即痛风、痛痹和厉节分别对应的表示向量是相同的，基于语义信息可以将同一病症的不同的口语化表达归一到同一个医学实体概念。

可选地，查询关键词对应的表示向量的获取方法可以如下：调用关键词编码模型，关键词编码模型是以目标领域的文本语料训练得到的模型；通过关键词编码模型对查询关键词进行编码处理，得到查询关键词对应的表示向量。

其中，关键词编码模型用于获取关键词的表示向量。可选地，本申请中的关键词编码模型可以通过BERT(Bidirectional Encoder Representation from Transformers，基于转换器的双向编码器表示)模型训练得到。BERT模型是一种预训练语言表达的模型，可以学习到丰富的语义信息。

在示例性实施例中，参考图3，BERT模型301在获取查询关键词“Tok”之后，在查询关键词“Tok”的前面添加一个[CLS]标志，再经过BERT模型301的词嵌入提取单元得到查询关键词“Tok”的词向量“E_(CLS)，E”，然后通过BERT模型301的编码器得到查询关键词“Tok”相应的语义向量“C,T”，并取[CLS]在编码器最后一层的隐状态向量C作为查询关键词“Tok”的语义向量，即上述表示向量。

可选地，目标领域可以是指诸如医疗、服务、食品、以及任何需要知识信息搜索的领域。文本语料即是指对应目标领域的语料。示例性地，在医疗领域中，可以采用包括医学文章、医学问答、药物知识、药学科研等多种主题的语料样本对BERT模型进行训练，以得到针对医疗领域的关键词编码模型。由于BERT模型是在通用语料上进行训练的，与实际应用场景还有一定的语义漂移，因此针对不同的目标领域，需要采用不同的目标领域对应的语料样本对模型进行训练，以降低语义漂移的影响。

在一个示例中，关键词编码模型的训练过程可以如下：获取目标领域的语料样本；对语料样本进行关键词掩藏处理，得到掩藏后的语料样本以及掩藏的关键词；通过关键词编码模型对掩藏后的语料样本进行编码处理，得到输出表示向量；基于输出表示向量，获取预测关键词；基于预测关键词和掩藏的关键词，得到关键词编码模型的训练损失；基于训练损失对关键词编码模型进行训练。

可选地，可以将输出表示向量输入到一个由全连接层和Softmax函数组成的分类器中，从而得到预测关键词。最后通过最小化训练损失，不断地迭代，以完成关键词编码模型的训练。

步骤203，基于查询关键词对应的表示向量，从表示向量集合中选择出目标表示向量；其中，表示向量集合包括目标领域的知识图谱中各个实体节点对应的关键词的表示向量，目标表示向量是指表示向量集合中与查询关键词对应的表示向量的相似度满足第一条件的表示向量。

在本申请实施例中，知识图谱是指显示知识发展进程与结构关系的无向图。知识图谱包括大量知识信息，每条知识信息表示为一个SPO(Subject-Predicate-Object，主谓宾语)三元组。其中，每条知识信息的主语或宾语对应知识图谱中的一个实体节点，每条知识信息的主语和宾语之间的关系由主语和宾语分别对应的实体节点之间的点边表示。可选地，本申请采用关系抽取算法判断实体节点之间的点边关系成立概率，并将该概率作为该条边的权重，在不同的应用场景中，知识图谱中的边的权重可以做针对性地调整。示例性地，以医疗知识图谱为例，参考图4，实体节点401对应的信息为病症“痛风”，实体节点402对应的信息为“痛风石切除术”，实体节点402对应的信息是实体节点401对应的信息的治疗手术，实体节点402和实体节点401之间的点边关系成立概率为0.8。

可选地，表示向量集合的获取方法可以如下：通过关键词编码模型对目标领域的知识图谱中各个实体节点对应的关键词进行编码处理，得到表示向量集合。其中，该关键词编码模型与用于对查询关键词进行编码的关键词编码模型为同一模型。示例性地，参考图4，获取实体节点401对应的信息“痛风”，可将“痛风”作为实体节点401对应的关键词(可选地，一个实体节点可以包括多个关键词)，然后通过关键词编码模型对关键词“痛风”进行编码，得到实体节点401对应的表示向量。最后将知识图谱中所有实体节点对应的表示向量集合成表示向量集合。

可选地，上述第一条件可以是表示向量之间的余弦相似度大于第一设定阈值，也即将表示向量集合中与查询关键词对应的表示向量的余弦相似度大于第一设定阈值的表示向量作为目标表示向量。第一设定阈值可以根据实际需求进行适应性地调整。可选地，本申请采用Faiss方法进行表示向量的相似度匹配。

示例性地，目标表示向量的获取方法可以如下：对表示向量集合中的表示向量进行聚类处理，得到多个聚类向量组合以及多个聚类向量组合各自对应的聚类中心向量；基于查询关键词对应的表示向量和多个聚类向量组合各自对应的聚类中心向量之间的距离，确定目标聚类中心向量；其中，目标聚类中心向量是指多个聚类向量组合各自对应的聚类中心向量中，与查询关键词对应的表示向量的距离满足第二条件的聚类中心向量；将目聚类中心向量对应的聚类向量组合中，与查询关键词对应的表示向量的相似度满足第一条件的表示向量，确定为目标表示向量。

其中，聚类向量组合是指由与聚类中心向量相同类型的表示向量聚合而成的向量组合。聚类中心向量可以通过K-means(K均值聚类算法)方法得到，上述第二条件可以是指向量之间的余弦相似度小于第二设定阈值，也即将与查询关键词对应的表示向量之间的余弦相似度小于第二设定阈值的聚类中心向量作为目标聚类中心向量。第二设定阈值可以根据实际需求进行适应性地调整。最后将目标聚类中心向量对应的聚类向量组合中的与查询关键词对应的表示向量的余弦相似度小于第一审定阈值的表示向量作为目标表示向量。本申请通过Faiss方法实现向量之间的相似度快速匹配，而无需对知识图谱中的所有实体节点进行遍历式地匹配，减少了相似度的匹配时间，进而提高了实体节点的召回效率。

获取目标表示向量对应的关键词，再基于关键词获取对应的目标实体节点。可选地，知识图谱中的不同的实体节点可以包括相同的关键词，也即一个查询关键词可以从知识图谱中召回多个目标实体节点。例如，参考图4，查询关键词“痛风”可以召回实体节点401、实体节点402和实体节点403。

综上所述，本申请实施例提供的技术方案，通过基于查询关键词的表示向量和目标领域的知识图谱中各个实体节点对应的关键词的表示向量之间的相似度，召回目标实体节点，再基于目标实体节点获取知识信息，实现了从语义层面上进行知识图谱中的实体节点召回，提高了实体节点(即关键词)的召回率。

另外，通过Faiss方法实现向量之间的相似度快速匹配，而无需对知识图谱中的所有实体节点进行遍历式地匹配，减少了相似度的匹配时间，进而提高了实体节点的召回效率。

上文对实体节点的召回方法进行了介绍说明，下面将对如何基于召回的实体节点进行知识信息的获取进行介绍说明：

请参考图5，其示出了本申请另一个实施例提供的信息获取方法的流程图，该方法各步骤的执行主体可以是上文介绍的计算机设备，该方法可以包括如下几个步骤(501～504)：

步骤501，获取查询信息中的查询关键词。

步骤502，对查询关键词进行编码处理，得到查询关键词对应的表示向量。

步骤503，基于查询关键词对应的表示向量，从表示向量集合中选择出目标表示向量；其中，表示向量集合包括目标领域的知识图谱中各个实体节点对应的关键词的表示向量，目标表示向量是指表示向量集合中与查询关键词对应的表示向量的相似度满足第一条件的表示向量。

步骤501至步骤503与上述实施例介绍相同，这里不再赘述。

步骤504，基于目标表示向量对应的目标实体节点，从目标领域的知识图谱中获取查询信息对应的知识信息。

可选地，在召回实体节点之后，可以基于召回的实体节点从知识图谱中提取查询信息对应的知识信息，知识信息的具体提取方法可以如下：获取各个目标实体节点对应的中心点标签信息，中心点标签信息包括目标领域的知识图谱中直接或间接连接到目标实体节点的关联实体节点，以及关联实体节点到目标实体节点的最小距离；对各个目标实体节点进行划分处理，得到至少一个候选实体节点集合，候选实体集合包括各个目标表示向量对应的至少一个目标实体节点；基于候选实体节点集合中各个目标实体节点对应的中心点标签信息，确定候选实体节点集合对应的目标节点树，目标节点树是指候选实体节点集合中各个目标实体节点所组成的节点树中路径权重最小的节点树；将至少一个候选实体节点集合各自对应的目标节点树中路径权重最小的节点树作为最终节点树；基于最终节点树从目标领域的知识图谱中获取查询信息对应的知识信息。

其中，中心点标签信息可以通过HL(Hub Labeling，集线器标签)方法得到。HL方法是一种可以极大减少资源损耗并快速完成知识图谱上两实体节点之间最短距离的查询方法。HL方法可以将知识图谱中所有的实体节点添加上一个“可访问到的实体节点(即关联实体节点)列表”，并且给出“可访问到的实体节点列表”中的每个实体节点到对应实体节点的最短访问距离。在本申请实施例中，可通过HL方法对静态知识图谱进行静态预先处理，即每个实体节点的“可访问到的实体节点列表”不会再发生变化。由于可以通过HL方法预先处理静态知识图谱，来获取各个实体节点的中心点标签信息，在进行静态知识图谱关键词搜索时，可以在保证搜索质量的前提下极大地减少计算时间和计算资源的损耗。

在一个示例性实施例中，候选实体节点集合的获取过程可以如下：基于查询关键词A召回实体节点1和实体节点2，基于查询关键词B召回实体节点3和实体节点4，基于查询关键词C召回实体节点5，则候选实体节点集合可以包括由实体节点1、实体节点3和实体节点5组成的集合、由实体节点1、实体节点4和实体节点5组成的集合、由实体节点2、实体节点3和实体节点5组成的集合、由实体节点2、实体节点4和实体节点5组成的集合等。

在一个示例中，目标节点树的获取过程可以如下：

1、获取候选实体节点集合中各个目标实体节点对应的至少一个候选节点树，候选节点树是指以目标实体节点为起点连接候选实体节点集合中剩余目标实体节点所形成的节点树；其中，节点树包括实体节点和实体节点之间的点边关系。

示例性地，以上述实体节点1、实体节点3和实体节点5组成的集合为例。实体节点1对应的候选节点树可以包括实体节点1到实体节点3的路径(包括路径经过的其他实体节点以及实体节点之间的点边关系)、实体节点1到实体节点5的路径、实体节点1、实体节点3和实体节点5。其中，实体节点1是该候选节点树的根部。可选地，由于实体节点1到实体节点3的路径有多种可能，实体节点1到实体节点5的路径有多种可能，不同可能的组合形成不同形态的候选节点树。

2、基于各个目标实体节点对应的中心点标签信息，确定候选节点树对应的最小路径权重。

可选地，最小路径权重的获取方法可以如下：基于各个目标实体节点对应的中心点标签信息，确定候选节点树对应的起点实体节点分别到候选实体节点集合中剩余目标实体节点的最小路径，起点实体节点是指候选节点树的根部；基于候选节点树对应的起点实体节点分别到候选实体节点集合中剩余目标实体节点的最小路径的权重，确定候选节点树对应的最小路径权重。

示例性地，以上述实体节点1为起点实体节点为例。获取实体节点1到实体节点3的最小路径，以及实体节点1到实体节点5的最小路径，将两个最小路径对应的路径权重之和作为以实体节点1为起点实体节点的候选节点树对应的最小路径权重。然后分别获取以候选实体节点集合中剩余目标实体节点为起点实体节点的候选节点树对应的最小路径权重。

在一个示例中，目标实体节点之间的最小路径的获取方可以如下：基于起点实体节点和第一目标实体节点的中心点标签信息，确定起点实体节点和第一目标实体节点之间的最小距离；获取最小距离对应的目标公共实体节点，目标公共实体节点是指最小距离对应的既属于起点实体节点的中心点标签信息又属于第一目标实体节点的中心点标签信息的实体节点；获取起点实体节点到目标公共实体节点的第一最小路径，以及第一目标实体节点到目标公共实体节点的第二最小路径；基于第一最小路径和第二最小路径，确定起点实体节点到第一目标实体节点的最小路径。

其中，公共实体节点可以是起点实体节点和第一目标实体节点之间的最小距离上对应的中间公共实体节点。

示例性地，以获取上述实体节点1到上述实体节点5的最小路径为例。基于实体节点1和实体节点5的中心标签信息，判断实体节点1是否可以访问到实体节点5。若实体节点1无法访问到实体节点5，则判定实体节点1和实体节点5之间的距离无限大。若实体节点1可以访问到实体节点5，则获取实体节点1和实体节点5之间的最小距离。选择实体节点1和实体节点5之间的最小距离上对应的中间公共实体节点，然后获取实体节点1到中间公共实体节点之间的最小距离上对应的实体节点以及点边关系，进而生成实体节点1到中间公共实体节点的最小路径，同理获取实体节点5到中间公共实体节点的最小路径，将两个最小路径的组合确定为实体节点1到实体节点5的最小路径。

3、将至少一个候选节点树对应的最小路径权重中路径权重最小的候选节点树作为候选实体节点集合对应的目标节点树。

最后，将最终节点树中的各个实体节点对应的知识信息，以及各个实体节点之间的点边关系组合成查询信息对应的知识信息。示例性地，参考图4，最终节点树包括实体节点401、实体节点402、实体节点403、实体节点404、实体节点401和实体节点404之间的点边关系、实体节点404和实体节点403之间的点边关系以及实体节点403和实体节点402之间的点边关系。则查询关键词“痛风”对应的知识信息为“痛风的并发症有股骨头坏死，痛风包括原发性痛风，可通过痛风石切除术进行治疗”。

另外，通过HL方法实现实体节点之间的最小距离的快速获取，从而提高了实体节点之间的最小路径的获取效率，进而提高了最终节点树的获取效率。另外，由于可以通过HL方法预先处理静态知识图谱，来获取各个实体节点的中心点标签信息，在进行静态知识图谱关键词搜索时，可以在保证搜索质量的前提下极大地减少计算时间和计算资源的损耗。

在一个示例性实施例中，以医疗知识图谱为例，对知识信息的获取过程进行介绍：

参考图6，医疗知识图谱601包括9个实体节点和11个点边关系，点边关系旁的数值为该点边关系的权重。获取查询关键词“新冠”和“考孚亭”，通过关键词编码模型分别对查询关键词“新冠”和“考孚亭”进行编码，得到查询关键词“新冠”和“考孚亭”各自对应的表示向量，利用Faiss方法分别将“新冠”的表示向量和“考孚亭”的表示向量与医疗知识图谱601对应的表示向量集合中的表示向量进行余弦相似度匹配，得到实体节点602和实体节点603。

实体节点602到实体节点603的候选节点树有：A：实体节点602-实体节点605-实体节点606-实体节点603、B：实体节点602-实体节点605-实体节点606-实体节点604-实体节点603、C：实体节点602-实体节点606-实体节点603、D：实体节点602-实体节点606-实体节点604-实体节点603、E：实体节点602-实体节点604-实体节点603、F：实体节点602-实体节点604-实体节点606-实体节点603。

其中，A的路径权重为2.8、B的路径权重为3.1、C的路径权重为0.9、D的路径权重为1.2、E的路径权重为1.3、F的路径权重为1.2，则可将C作为最终节点树。最终节点树对应的知识信息可以为“新冠肺炎是一种肺部疾病，肺部疾病的治疗药物可以为考孚亭”。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图7，其示出了本申请一个实施例提供的信息获取装置的框图。该装置具有实现上述方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置在计算机设备中。该装置700可以包括：关键词获取模块701、关键词编码模块702、目标向量获取模块703和知识信息获取模块704。

关键词获取模块701，用于获取查询信息中的查询关键词。

关键词编码模块702，用于对所述查询关键词进行编码处理，得到所述查询关键词对应的表示向量。

目标向量获取模块703，用于基于所述查询关键词对应的表示向量，从表示向量集合中选择出目标表示向量；其中，所述表示向量集合包括目标领域的知识图谱中各个实体节点对应的关键词的表示向量，所述目标表示向量是指所述表示向量集合中与所述查询关键词对应的表示向量的相似度满足第一条件的表示向量。

知识信息获取模块704，用于基于所述目标表示向量对应的目标实体节点，从所述目标领域的知识图谱中获取所述查询信息对应的知识信息。

在一个示例性实施例中，所述关键词编码模块702，用于：

调用关键词编码模型，所述关键词编码模型是以所述目标领域的文本语料训练得到的模型；

通过所述关键词编码模型对所述查询关键词进行编码处理，得到所述查询关键词对应的表示向量。

在一个示例性实施例中，所述关键词编码模型的训练方法如下：

获取所述目标领域的语料样本；

对所述语料样本进行关键词掩藏处理，得到掩藏后的语料样本以及掩藏的关键词；

通过所述关键词编码模型对所述掩藏后的语料样本进行编码处理，得到输出表示向量；

基于所述输出表示向量，获取预测关键词；

基于所述预测关键词和所述掩藏的关键词，得到所述关键词编码模型的训练损失；

基于所述训练损失对所述关键词编码模型进行训练。

在一个示例性实施例中，所述关键词编码模块702，还用于：

通过关键词编码模型对所述目标领域的知识图谱中各个实体节点对应的关键词进行编码处理，得到所述表示向量集合。

在一个示例性实施例中，所述目标向量获取模块703，用于：

对所述表示向量集合中的表示向量进行聚类处理，得到多个聚类向量组合以及所述多个聚类向量组合各自对应的聚类中心向量；

基于所述查询关键词对应的表示向量和所述多个聚类向量组合各自对应的聚类中心向量之间的距离，确定目标聚类中心向量；其中，所述目标聚类中心向量是指所述多个聚类向量组合各自对应的聚类中心向量中，与所述查询关键词对应的表示向量的距离满足第二条件的聚类中心向量；

将所述目聚类中心向量对应的聚类向量组合中，与所述查询关键词对应的表示向量的相似度满足所述第一条件的表示向量，确定为所述目标表示向量。

在一个示例性实施例中，所述知识信息获取模块704，用于：

获取各个所述目标实体节点对应的中心点标签信息，所述中心点标签信息包括所述目标领域的知识图谱中直接或间接连接到所述目标实体节点的关联实体节点，以及所述关联实体节点到所述目标实体节点的最小距离；

对各个所述目标实体节点进行划分处理，得到至少一个候选实体节点集合，所述候选实体集合包括各个所述目标表示向量对应的至少一个所述目标实体节点；

基于所述候选实体节点集合中各个所述目标实体节点对应的中心点标签信息，确定所述候选实体节点集合对应的目标节点树，所述目标节点树是指所述候选实体节点集合中各个所述目标实体节点所组成的节点树中路径权重最小的节点树；

将所述至少一个候选实体节点集合各自对应的目标节点树中路径权重最小的节点树作为最终节点树；

基于所述最终节点树从所述目标领域的知识图谱中获取所述查询信息对应的知识信息。

在一个示例性实施例中，所述知识信息获取模块704，还用于：

获取所述候选实体节点集合中各个所述目标实体节点对应的至少一个候选节点树，所述候选节点树是指以所述目标实体节点为起点连接所述候选实体节点集合中剩余所述目标实体节点所形成的节点树；

基于各个所述目标实体节点对应的中心点标签信息，确定所述候选节点树对应的最小路径权重；

将所述至少一个候选节点树对应的最小路径权重中路径权重最小的候选节点树作为所述候选实体节点集合对应的目标节点树。

基于各个所述目标实体节点对应的中心点标签信息，确定所述候选节点树对应的起点实体节点分别到所述候选实体节点集合中剩余所述目标实体节点的最小路径，所述起点实体节点是指所述候选节点树的根部；

基于所述候选节点树对应的起点实体节点分别到所述候选实体节点集合中剩余所述目标实体节点的最小路径的权重，确定所述候选节点树对应的最小路径权重。

基于所述起点实体节点和第一目标实体节点的中心点标签信息，确定所述起点实体节点和所述第一目标实体节点之间的最小距离；

获取所述最小距离对应的目标公共实体节点，所述目标公共实体节点是指所述最小距离对应的既属于所述起点实体节点的中心点标签信息又属于所述第一目标实体节点的中心点标签信息的实体节点；

获取所述起点实体节点到所述目标公共实体节点的第一最小路径，以及所述第一目标实体节点到所述目标公共实体节点的第二最小路径；

基于所述第一最小路径和所述第二最小路径，确定所述起点实体节点到所述第一目标实体节点的最小路径。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图8，其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以用于实施上述实施例中提供的信息获取方法。具体来讲：

该计算机设备800包括中央处理单元(如CPU(Central Processing Unit，中央处理器)、GPU(Graphics Processing Unit，图形处理器)和FPGA(Field Programmable GateArray，现场可编程逻辑门阵列)等)801、包括RAM(Random-Access Memory，随机存取存储器)802和ROM(Read-Only Memory，只读存储器)803的系统存储器804，以及连接系统存储器804和中央处理单元801的系统总线805。该计算机设备800还包括帮助服务器内的各个器件之间传输信息的基本输入/输出系统(Input Output System，I/O系统)806，和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。

该基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中，该显示器808和输入设备809都通过连接到系统总线805的输入输出控制器810连接到中央处理单元801。该基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。

该大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。该大容量存储设备807及其相关联的计算机可读介质为计算机设备800提供非易失性存储。也就是说，该大容量存储设备807可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory，电可擦写可编程只读存储器)、闪存或其他固态存储其技术，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知该计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。

根据本申请实施例，该计算机设备800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备800可以通过连接在该系统总线805上的网络接口单元811连接到网络812，或者说，也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括计算机程序，该计算机程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述信息获取方法。

在一个示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集在被处理器执行时以实现上述信息获取方法。

可选地，该计算机可读存储介质可以包括：ROM(Read-Only Memory，只读存储器)、RAM(Random-Access Memory，随机存储器)、SSD(Solid State Drives，固态硬盘)或光盘等。其中，随机存取记忆体可以包括ReRAM(Resistance Random Access Memory，电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory，动态随机存取存储器)。

在一个示例性实施例中，还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行上述信息获取方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种信息获取方法，其特征在于，所述方法包括：

获取查询信息中的查询关键词；

2.根据权利要求1所述的方法，其特征在于，所述对所述查询关键词进行编码处理，得到所述查询关键词对应的表示向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述关键词编码模型的训练方法如下：

获取所述目标领域的语料样本；

基于所述输出表示向量，获取预测关键词；

基于所述训练损失对所述关键词编码模型进行训练。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述查询关键词对应的表示向量，从表示向量集合中选择出目标表示向量，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述目标表示向量对应的目标实体节点，从所述目标领域的知识图谱中获取所述查询信息对应的知识信息，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述候选实体节点集合中各个所述目标实体节点对应的中心点标签信息，确定所述候选实体节点集合对应的目标节点树，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于各个所述目标实体节点对应的中心点标签信息，确定所述候选节点树对应的最小路径权重，包括：

9.根据权利要求8所述的方法，其特征在于，所述基于各个所述目标实体节点对应的中心点标签信息，确定所述候选节点树对应的起点实体节点分别到所述候选实体节点集合中剩余所述目标实体节点的最小路径，包括：

10.一种信息获取装置，其特征在于，所述装置包括：

关键词获取模块，用于获取查询信息中的查询关键词；

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一项所述的信息获取方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一项所述的信息获取方法。