CN111797245B

CN111797245B - 基于知识图谱模型的信息匹配方法及相关装置

Info

Publication number: CN111797245B
Application number: CN202010741211.6A
Authority: CN
Inventors: 何斐斐; 金培根; 陆林炳; 林加新; 李炫�
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2023-07-25
Anticipated expiration: 2040-07-27
Also published as: CN111797245A

Abstract

本申请涉及人工智能技术领域，提供了一种基于知识图谱模型的信息匹配方法，该方法包括：提取输入信息中含有的第一实体，以及待与输入信息匹配的候选信息中含有的第二实体；根据第一实体和第二实体确定输入信息与候选信息之间的语义相似度特征，以及根据输入信息与候选信息在不同维度的匹配规则下的相似度，确定输入信息与候选信息之间的规则特征；对语义相似度特征以及规则特征进行特征融合运算，获得输入信息与候选信息之间的相似度得分，相似度得分用于表征输入信息与候选信息之间的匹配程度；将相似度得分高于相似度阈值的候选信息选取为与输入信息相匹配的目标信息。本申请还涉及区块链技术，候选信息和知识图谱模型可存储在区块链节点中。

Description

基于知识图谱模型的信息匹配方法及相关装置

技术领域

本申请涉及人工智能技术领域，特别涉及一种基于知识图谱模型的信息匹配方法及装置、电子设备、计算机可读存储介质。

背景技术

随着互联网技术的蓬勃发展，互联网上涌现出大量的数据，需要使用检索系统来满足用户需求。排序模块是检索系统必不可少的模块，通过对用户问题和每个候选问题进行相似度计算，然后根据相似度得分排序来选择得分较高的候选问题，将候选问题的答案作为用户问题的答案返回给用户。因此，排序模块需要对用户问题进行精准理解，以得到用户问题对应的准确答案。

因此，如何提升排序模块对于用户问题的理解精准度，是本领域的技术人员需要不断研究的技术问题。

发明内容

为了解决上述技术问题，本申请提供一种基于知识图谱模型的信息匹配方法及装置、电子设备、计算机可读存储介质。

本申请所揭示的技术方案包括：

一种基于知识图谱模型的信息匹配方法，包括：提取输入信息中含有的第一实体，以及待与所述输入信息匹配的候选信息中含有的第二实体；根据所述第一实体和所述第二实体分别在知识图谱中对应的三元知识组，确定所述输入信息与所述候选信息之间的语义相似度特征，以及根据所述输入信息与所述候选信息在不同维度的匹配规则下的相似度，确定所述输入信息与所述候选信息之间的规则相似度特征；对所述语义相似度特征以及所述规则相似度特征进行特征融合运算，获得所述输入信息与所述候选信息之间的相似度得分；根据所述相似度得分从所述候选信息中选取与所述输入信息相匹配的目标信息。

在一个示例性实施例中，根据所述第一实体和所述第二实体确定所述输入信息与所述候选信息之间的语义相似度特征，包括：从知识图谱中查询与所述第一实体有关的第一三元知识组，以及与所述第二实体有关的第二三元知识组；根据所述第一三元知识组与所述输入信息对应的语义相关程度，以及所述第二三元知识组与所述候选信息对应的语义相关程度，计算所述输入信息与所述候选信息之间的语义相似度。

在一个示例性实施例中，根据所述第一三元知识组与所述输入信息对应的语义相关程度，以及所述第二三元知识组与所述候选信息对应的语义相关程度，计算所述输入信息与所述候选信息之间的语义相似度，包括：分别提取所述输入信息、所述第一三元知识组、所述候选信息以及所述第二三元知识组的语义特征；根据所述第一三元知识组与所述输入信息分别对应的语义特征，确定所述第一三元知识组与所述输入信息之间的相关程度，并差异化所述第一三元知识组相对所述输入信息的重要程度，获得第一融合特征，以及根据所述第二三元知识组与所述输入信息分别对应的语义特征，确定所述第二三元知识组与所述输入信息之间的相关程度，并差异化所述第二三元知识组相对所述候选信息的重要程度，获得第二融合特征；根据所述输入信息的语义特征、所述候选信息的语义特征、所述第一融合特征以及所述第二融合特征，计算所述输入信息与所述候选信息之间的语义相似度特征。

在一个示例性实施例中，差异化所述第一三元知识组相对所述输入信息的重要程度，包括：根据所述第一三元知识组与所述输入信息的相关程度，计算所述第一三元知识组对应的注意力因子，所述注意力因子用于表征所述第一三元知识组相对所述输入信息的重要程度；计算所述第一三元知识组对应的注意力因子与所述第一三元知识组对应的语义特征之间的向量积，获得所述第一融合特征。

在一个示例性实施例中，根据所述输入信息与所述候选信息在不同维度的匹配规则下的相似度，确定所述输入信息与所述候选信息之间的规则相似度特征，包括：根据所述输入信息与所述候选信息在不同维度进行匹配的匹配规则，计算所述输入信息与所述候选信息在各个匹配规则下的相似度特征；对所述输入信息与所述候选信息在各个匹配规则下的相似度特征进行叠加运算，获得所述输入信息与所述候选信息之间的规则相似度特征。

在一个示例性实施例中，将所述输入信息与所述候选信息进行匹配的维度包括关键词重要性维度；根据所述输入信息与所述候选信息在不同维度进行匹配的匹配规则，计算所述输入信息与所述候选信息在各个匹配规则下的相似度特征，包括：分别对所述输入信息和所述候选信息进行关键词提取，获得所述输入信息和所述候选信息中的关键词；对每个所述关键词进行打分；根据所述关键词对应的分值计算所述输入信息与所述候选信息在所述关键词重要性维度下的相似度特征。

在一个示例性实施例中，将所述输入信息与所述候选信息进行匹配的维度包括实体匹配维度；根据所述输入信息与所述候选信息在不同维度进行匹配的匹配规则，计算所述输入信息与所述候选信息在各个匹配规则下的相似度特征，包括：提取所述第一实体以及所述第二实体对应的语义向量；计算所述第一实体的语义向量与所述第二实体的语义向量之间的相似度，获得所述输入信息与所述候选信息在所述实体匹配维度下的相似度特征。

一种基于知识图谱模型的信息匹配装置，包括：实体提取模块，用于提取输入信息中含有的第一实体，以及待与所述输入信息匹配的候选信息中含有的第二实体；特征确定模块，用于根据所述第一实体和所述第二实体分别在知识图谱中对应的三元知识组，确定所述输入信息与所述候选信息之间的语义相似度特征，以及根据所述输入信息与所述候选信息在不同维度的匹配规则下的相似度，确定所述输入信息与所述候选信息之间的规则相似度特征；特征处理模块，用于对所述语义相似度特征以及所述规则相似度特征进行特征融合运算，获得所述输入信息与所述候选信息之间的相似度得分；信息匹配模块，用于根据所述相似度得分从所述候选信息中选取与所述输入信息相匹配的目标信息。

一种电子设备，包括处理器和存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如前任一项所述的基于知识图谱模型的信息匹配方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如前任一项所述的基于知识图谱模型的信息匹配方法。

本申请实施例提供的技术方案可以包括以下有益效果：

在上述技术方案中，基于输入信息和候选信息中含有的实体计算输入信息与候选信息之间的语义相似度特征，并基于输入信息和候选信息在不同维度的匹配规则下的相似度计算输入信息与候选信息之间的规则相似度特征，然后通过对语义相似度特征和规则相似度特征进行融合运算得到输入信息与候选信息之间的相似度得分，该相似度得分即反映了输入信息与候选信息之间的匹配程度，因此本申请从语音相似度和匹配规则相似度两个方面对输入信息与候选信息进行匹配，能够得到输入信息与候选信息之间的准确的匹配程度，由此能够极大地提升信息匹配的准确性。

如果将本申请应用至排序模块中，将用户问题作为输入信息，以及将候选问题作为候选信息，即能准确地获得各个候选问题与用户问题之间的匹配度，通过选取匹配度更高的候选问题对应的答案作为用户问题的答案，即能够得到关于用户问题的准确答案。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并于说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种基于知识图谱模型的信息匹配方法的流程图；

图2是图1所示实施例中的步骤120在一个实施例的流程图；

图3是图2所示实施例中的步骤122在一个实施例的流程图；

图4是图1所示实施例中的步骤120在另一个实施例的流程图；

图5是根据一示例性实施例示出的一种应用场景示意图；

图6是根据一示例性实施例示出的一种基于知识图谱的信息匹配装置的框图；

图7是根据一示例性实施例所示出的一种电子设备的硬件示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述，这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

请参阅图1，图1是根据一示例性实施例示出的一种基于知识图谱模型的信息匹配方法的流程图，该方法用于实现输入信息与若干候选信息之间的匹配，并具体得到输入信息与各个候选信息之间的匹配度得分。基于输入信息与各个候选信息之间的匹配度得分，即可从若干候选信息中筛选得到与输入信息匹配度较高的候选信息。

如图1所示，在一示例性实施例中，该基于知识图谱模型的信息匹配方法至少包括如下步骤：

步骤110，提取输入信息中含有的第一实体，以及待与输入信息匹配的候选信息中含有的第二实体。

首先需要说明的是，输入信息是指用户输入的用户信息，例如在检索系统中输入信息即为输入的用户问题。候选信息设置预设的标准信息，用于与输入信息进行匹配，以从若干候选信息中选取与输入信息匹配度较高的目标信息，例如在检索系统中候选信息即为预设的若干候选问题。其中，为进一步保证预设的若干候选信息的私密和安全性，还可以将这些候选信息存储于一区块链的节点中。

实体是信息领域中的术语，用于表示概念性的事物，具体来说是指自然语言中的命名实体，例如可以将命名实体划分为实体类、时间类、数字类、人名、地名、机构名、时间、日期、货币、百分比等类型。

在本实施例中，从输入信息和候选信息中分别进行实体提取是根据实体识别模型实现的。例如，实体识别模型基于规则和词典匹配的方法从输入信息和候选信息中提取出关键词、指示词、中心词等作为具体实体。或者，实体识别模型基于统计的方法从输入信息和候选信息中提取得到实体，基于统计的方法主要是通过隐马尔可夫模型(HiddenMarkovMode，HMM)、支持向量机(SupportVectorMachine，SVM)、条件随机场(ConditionalRandom Fields，CRF)等机器学习模型具体实现。

由此，针对输入信息进行实体提取，可以得到输入信息中含有的第一实体，而针对各个候选信息进行实体提取，即可以得到各个候选信息中分别含有的第二实体。

步骤120，根据第一实体和第二实体分别在知识图谱中对应的三元知识组，确定输入信息与候选信息之间的语义相似度特征，以及根据输入信息与候选信息在不同维度的匹配规则下的相似度，确定输入信息与候选信息之间的规则相似度特征。

在本实施例中，输入信息与各个候选信息之间的匹配度分别从语义匹配度和规则匹配度两个方面进行体现。

语义匹配度是指输入信息和候选信息在语义上的相似程度，即语义相似度，由于实体是自然语句中的概念性词语，因此实体在很大程度上能够反映输入信息和候选信息的语义信息，通过计算第一实体与第二实体之间的相似度特征，即能够得到输入信息和候选信息之间的语义匹配度。

在本实施例中，具体是根据第一实体和第二实体分别在知识图谱中对应的三元知识组来确定输入信息与候选信息之间的语义相似度特征的。知识图谱是一种揭示实体之间关系的语义网络，是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系。知识图谱的基本组成单位是“实体关系实体”三元组，实体之间通过关系相互联结，从而构成网状的知识结构。由此，第一实体和第二实体分别在知识图谱中对应的三元知识组更加能够体现输入信息和候选信息的语义表达，因此基于第一实体和第二实体分别在知识图谱中对应的三元知识组所确定的语义相似度特征能够准确地表征输入信息和候选信息之间的语义相似度。

规则匹配度则是指输入信息和候选信息在除语义维度之外的其它维度上的相似程度，即规则相似度。示例性的，除语义维度之外的其它维度可以是关键词重要性维度、实体匹配维度、词匹配顺序维度、相似语句维度等。

因此，相比于仅通过语义维度来进行输入信息与候选信息的匹配，本实施例中还引入了匹配规则维度，基于语义维度和匹配规则维度进行的信息匹配，即能够极大程度地提升信息匹配的精准度。

步骤130，对语义相似度特征以及规则相似度特征进行特征融合运算，获得输入信息与候选信息之间的相似度得分。

其中，输入信息与候选信息之间的语义相似度特征以及规则相似度特征的实质为特征向量，因此对语义相似度特征以及规则相似度特征进行的特征融合运算，即是指对相应的特征向量进行相加运算的过程。

对相应的特征向量进行相加运算所得到的特征向量即融合了输入信息与候选信息之间的语义相似度和匹配规则相似度，因此，所得到的输入信息与候选信息之间的相似度得分即为综合考虑了输入信息与候选信息之间的语义相似度和匹配规则相似度。

步骤140，根据相似度得分从候选信息中选取与输入信息相匹配的目标信息。

如前所述的，输入信息与候选信息之间的相似度得分综合考虑了输入信息与候选信息之间的语义相似度和匹配规则相似度，因此可以将相似度得分高于预设阈值的候选信息选取为与输入信息相匹配的目标信息。

或者，在其它的实施例中，还可以根据相似度得分由大到小的顺序对各个候选信息进行排序，并选取指定排名的候选信息作为与输入信息相匹配的目标信息。在实际的应用过程中，与输入信息相匹配的目标信息可以根据实际需求进行选择，本实施例不对此进行限制。

因此，如果将本实施例提供的方法应用至检索系统的排序模块中，将用户问题作为输入信息，以及将候选问题作为候选信息，即能准确地获得各个候选问题与用户问题之间的匹配度，通过选取匹配度更高的候选问题对应的答案作为用户问题的答案，即能得到关于用户问题的准确答案。

请参阅图2，图2是图1所示实施例中步骤120在一个实施例的流程图。

如图2所示，在一示例性的实施例中，步骤120中关于根据第一实体和第二实体确定输入信息与候选信息之间的语义相似度特征的过程，具体可以包括如下步骤：

步骤121，从知识图谱中查询与第一实体有关的第一三元知识组，以及与第二实体有关的第二三元知识组。

如前所述的，知识图谱是实体间通过关系相互联结构成的网状的知识结构，因此可以从知识图谱中查询与第一实体有关系的第一三元知识组，以及与第二实体有关系的第二三元知识组。同理，为进一步保证知识图谱的私密和安全性，知识图谱也可以存储于一区块链的节点中。

如果将知识图谱表示为G，并且G∈(E，R，S)，表示实体集合E和实体集合S之间通过关系集合R相互联结构成知识图谱G，将输入信息中含有的第一实体表示为e_us，将候选信息中含有的第二实体表示为e_cs，从知识图谱中查询到的与第一实体相关的所有第一三元知识组则表示为：T_u＝{(e_us，r_i，e_oi)|e_us∈Q_u，r_i∈G，e_oi∈G，i∈{1，……，N}}，从知识图谱中查询到的与第二实体相关的所有第二三元知识组则表示为：T_c＝{(e_cs，r_j，e_oj)|e_cs∈Q_c，r_j∈G，e_oj∈G，j∈{1，……，M}}。

其中，Q_u表示从输入信息中提取的所有第一实体的集合，Q_c表示从候选信息中提取的所有第二实体的集合，r_i表示第一实体在知识图谱中对应的关系，r_j表示第二实体在知识图谱中对应的关系，e_oi表示知识图谱中与第一实体e_us有r_i关系的实体，e_oj表示知识图谱中与第二实体e_cs有r_j关系的实体。

步骤122，根据第一三元知识组与输入信息对应的语义相关程度，以及第二三元知识组与候选信息对应的语义相关程度，计算输入信息与候选信息之间的语义相似度。

如前所述，由于第一实体和第二实体分别在知识图谱中对应的三元知识组更能准确体现输入信息和候选信息的语义表达，因此基于第一实体和第二实体分别在知识图谱中对应的三元知识组，能够更加准确地确定的输入信息与候选信息之间的语义相似性。

其中，第一三元知识组与输入信息对应的语义相关程度，可以根据第一三元知识组和输入信息分别对应的语义特征具体确定，第一三元知识组和输入信息分别对应的语义特征可以通过对第一三元知识组和输入信息进行语义特征提取得到。第二三元知识组与候选信息对应的语义相关程度同理，本处不对此进行赘述。

第一三元知识组与输入信息对应的语义相关程度进一步加强了输入信息的语义表达，第二三元知识组与候选信息对应的语义相关程度也进一步加强了候选信息的语义表达，因此基于二者语义相关程度所计算得到的语义相似度能够更加准确地体现输入信息与所述候选信息之间的语义匹配度。

在另一示例性的实施例中，如图3所示，步骤122中计算输入信息和候选信息之间的语义相似度的过程具体包括如下步骤：

步骤210，分别提取输入信息、第一三元知识组、候选信息以及第二三元知识组的语义特征。

其中，对输入信息、第一三元知识组、候选信息以及第二三元知识组进行的语义特征提取可以通过语义特征提取模型实现的。例如在一示例性实施例中，具体采用Bi-Lstm(Bi-directional Long Short-Term Memory，双向长短期记忆网络)模型进行语义提取，由于该模型在进行语义提取的过程中充分考虑了上下文之间的联系，因此所能到的语义特征能够增强语义上的表达，从而提升语义特征提取的准确性。

示例性的，可以将输入信息对应的语义特征表示为s_emb_u，将候选信息对应的语义特征表示为s_emb_c，将第一三元知识组对应的语义特征表示为t_emb_ui，将第二三元知识组对应的语义特征表示为t_emb_ci。

并且由于从输入信息中提取得到的第一实体通常含有多个，因此从知识图谱中提取的与第一实体有关的第一三元知识组的数量也为多组，则可以将各个第一三元知识组所形成的语义特征集合表示为：T_emb_u＝{t_emb_ui|t_emb_ui＝Bi-lstm(e_us，r_i，e_oi)，i∈{1，……，N}}，以及将各个第二三元知识组所形成的语义特征集合表示为：T_emb_c＝{t_emb_ci|t_emb_ci＝Bi-lstm(e_cs，r_j，e_oj)，j∈{1，……，M}}。

步骤220，根据第一三元知识组与输入信息分别对应的语义特征，确定第一三元知识组与输入信息之间的相关程度，并差异化第一三元知识组相对输入信息的重要程度，获得第一融合特征，以及根据第二三元知识组与输入信息分别对应的语义特征，确定第二三元知识组与输入信息之间的相关程度，并差异化第二三元知识组相对候选信息的重要程度，获得第二融合特征。

第一三元知识组与输入信息之间的相关程度具体是指第一三元知识组与输入信息之间的语义相关程度，因此需要根据第一三元知识组与输入信息分别对应的语义特征计算得到，具体的计算公式如下：

w_i＝f(W^T[s_emb_u，t_emb_ui]+b)

其中，s_emb_u是指输入信息对应的语义特征，t_emb_ui是指第i个第一三元知识组对应的语义特征，W^T表示由输入信息的语义特征和各个第一三元知识组的语义特征组成的矩阵对应的转置矩阵，b则为预设的常量。

为准确地获取输入信息的语义信息，本实施例还引入注意力网络，并设置注意力网络关注于从知识图谱中提取得到的各个三元知识组，以增强对于输入信息和候选信息的语义理解。由此，第一三元知识组相对输入信息的重要程度，也即是指各个第一三元知识组在注意力网络中的注意力因子，差异化第一三元知识组的重要程度即是在注意力因子中融入相应的语义特征，以增强第一三元知识组与输入信息在语义关联性上的表达，得到第一融合特征。

在一示例性的实施例中，根据第一三元知识组与输入信息的相关程度计算第一三元知识组对应的注意力因子，然后计算第一三元知识组对应的注意力因子与第一三元知识组对应的语义特征之间的向量积，即能够获得第一融合特征。注意力因子的计算公式如下：

其中，w_i表示与第一实体相关的三元知识组集合中的第i个三元知识组与输入信息的相关程度，表示相关程度对应的指数，/>表示与第一实体相关的三元知识组集合中所有三元知识组与输入信息的相关程度对应的指数之和。

计算第一三元知识组对应的注意力因子与第一三元知识组对应的语义特征之间的向量积的公式如下：

其中，C(s_emb_u，T_emb_u)即表示第一融合特征，a_i表示与第一实体相关的三元知识组集合中的第i个三元知识组的注意因子，t_emb_ui表示与第一实体相关的三元知识组集合中的第i个三元知识组对应的语义特征。

另外还需要说明的是，计算第二融合特征的过程与上述计算第一融合特征的过程同理，本处不对此进行赘述。

步骤230，根据输入信息的语义特征、候选信息的语义特征、第一融合特征以及第二融合特征，计算输入信息与候选信息之间的语义相似度特征。

在本实施例中，需要融合输入信息对应的语义特征与第一融合特征，以得到与输入信息的语义相关的特征，并且还需要融合候选信息对应的语义特征与第二融合特征，以得到与候选信息的语义相关的特征，并通过计算二者特征之间的相似度，即能够得到输入信息与候选信息之间的语义相似度特征。

融合输入信息对应的语义特征与第一融合特征的公式如下，new_s_emb_u即表示融合得到的与输入信息的语义相关的特征：

new_s_emb_u＝[s_emb_u，C(s_emb_u，T_emb_u)]

融合候选信息对应的语义特征与第二融合特征的公式如下，new_s_emb_c即表示融合得到的与候选信息的语义相关的特征：

new_s_emb_c＝[s_emb_c，C(s_emb_c，T_emb_c)]

通过计算二者特征之间的相似性，即能够得到输入信息与候选信息之间的语义相似度特征f(new_s_emb_u，new_s_emb_c)。

可以看出，在本实施例提供的方法中，由于语义相似度特征的计算过程中融入了知识图谱信息，并基于知识图谱信息丰富输入信息和候选信息的语义特征，增强了语义特征的语义表达能力，所得到的语义相似度特征也更加准确。

在另一示例性的实施例中，如图4所示，步骤120中关于输入信息与候选信息之间的规则相似度特征的计算过程包括如下步骤：

步骤310，根据输入信息与候选信息在不同维度进行匹配的匹配规则，计算输入信息与候选信息在各个匹配规则下的相似度特征。

其中，输入信息与候选信息在不同维度进行匹配的匹配规则具体可以包括输入信息与候选信息在关键词重要性、实体匹配、词匹配顺序、相似语句等，以基于多种匹配规则来补充输入信息与候选信息之间单从语义维度计算相似性的不足。

在一个实施例中，基于关键词重要性维度对应的匹配规则，计算输入信息与候选信息之间的相似度特征可以包括如下步骤：

分别对输入信息和候选信息进行关键词提取，获得输入信息和候选信息中的关键词；

对每个关键词进行打分；

根据关键词对应的分值计算输入信息与候选信息在关键词重要性维度下的相似度特征。

其中，对输入信息和候选信息进行关键词提取，可以通过关键词提取工具实现，例如具体可以使用TF-IDF(term frequency-inverse document frequency，词频-逆文本频率指数)、TextRank等算法工具。

对每个关键词进行打分的规则可以为：为表示实体的关键词赋值一个较高的得分，并为表示非实体的关键词赋值一个较低的得分，由此能够加强实体的重要性，补充了语义相似度计算的不足。

根据关键词对应的分值计算输入信息与候选信息在关键词重要性维度下的相似度特征的公式可以表示如下：

其中，t_ui∈Q_u and t_i∈Q_u∩Q_c用于表示输入信息中的实体为输入信息与候选信息的共同实体，α和β均为预设的可调参数，表示输入信息中的关键词打分，表示候选信息中的关键词打分。

并且考虑到在某些特定领域，例如保险的垂坠领域，很多关键词出现次数会比较多，计算出来的idf(逆向文件频率，Inverse Document Frequency)值却很低，因此在一个实施例中，还采用chi-square(开发分布)和关键词典等手段优化输入信息和候选信息中关键词的idf值，并将优化得到的关键词的idf值带入上述基于关键词重要性维度的相似度特征计算公式中计算相似度特征。关键词原始的idf值是预先设置的。

在另一个实施例中，基于实体匹配维度对应的匹配规则，计算输入信息与候选信息之间的相似度特征可以包括如下步骤：

分别提取第一实体以及第二实体对应的语义向量；

计算第一实体的语义向量与第二实体的语义向量之间的相似度，获得输入信息与候选信息在实体匹配维度下的相似度特征。

其中，考虑到在某些特定领域，输入信息中的实体词是输入信息中非常重要的语义成分，对能否匹配到正确的候选信息起到非常重要的作用，例如在寿险领域，输入信息中含有的保险、疾病、工种等实体词对于输入信息的匹配将起到直接性的作用，因此在本实施例中，还基于实体词的直接匹配维度来计算输入信息与候选信息之间的相似度特征，以进一步地补充针对输入信息与候选信息之间的语义相似度的不足。

由此，本实施例通过分别提取第一实体以及第二实体对应的语义向量，并直接计算第一实体的语义向量与第二实体的语义向量之间的相似度，即可获得输入信息与候选信息在实体匹配维度下的相似度特征。示例性的，可以采用transE(Translating Embedding，翻译嵌入)算法模型分别提取第一实体以及第二实体对应的语义向量。

在另一个实施例中，针对每个候选信息获取与该候选信息的语义相似的至少一个候选语句，获得相似语句集合，然后计算输入信息与相似语句集合中每个候选语句之间的相似度，并计算平均相似度，最后得到相似度特征。候选语句的语义相似度可以通过DSSM(Deep Structured Semantic Models，深层语义模型)、LSTM-DSSM等深度学习模型获得。也即是说，本实施例是通过与候选信息的语义相似的语义信息来进一步地补充针对输入信息与候选信息之间的语义相似度的不足。

步骤320，对输入信息与候选信息在各个匹配规则下的相似度特征进行叠加运算，获得输入信息与候选信息之间的规则相似度特征。

在计算得到输入信息与候选信息在各个匹配规则下的相似度特征之后，通过对输入信息与候选信息在各个匹配规则下的相似度特征进行叠加运算，即可得到融合有输入信息与候选信息在各个匹配规则下的相似度特征的规则相似度特征。

由此可以得出，本实施例根据输入信息与候选信息在不同维度的匹配规则下的相似度，以进一步地补充输入信息与候选信息之间的语义相似度，使得最终计算得到的输入信息与候选信息之间的相似度得分能够准确地反映二者信息之间的语义相似度，加深了语义理解，因此能够准确地从候选信息中选取与输入信息相匹配的目标信息。

图5是根据一示例性实施例示出的一种应用场景示意图。

在该示例性的应用场景中，输入信息为“白血病能否理赔”，待与该输入信息匹配的其中一候选信息为“血癌可以报销吗”。如图5所示，输入信息与候选信息之间的相似度得分具体是由输入信息与候选信息之间的语义相似度特征和规则特征(即上述实施例中描述的规则相似度特征)融合得到的，以通过规则特征来加强输入信息与候选信息之间的语义相似度得分，使最终获得的相似度得分能够准确地反映输入信息与候选信息之间的匹配程度，从而能够提升信息匹配的精准度。

而输入信息与候选信息之间的语义相似度特征在获取过程中通过引入了知识图谱，其含有由实体e_s和实体e_o之间相互联结的关系r所组成的若干三元知识组，并设有注意力关注于从知识图谱中提取的三元知识组，以基于知识图谱来丰富输入信息与候选信息的语义特征，由此提升输入信息与候选信息之间的语义相似度特征的准确性，在一定程度上也提升了信息匹配的准确性。

输入信息与候选信息之间的规则特征是分别根据输入信息与候选信息在不同维度的匹配规则下的相似度特征叠加得到的，例如图5所示的关键词匹配维度、实体匹配维度等，以分别从多个匹配规则维度补充计算输入信息与候选信息之间的语义相似度的不足，从而能够提升信息匹配的准确性。

图6是根据一示例性实施例示出的一种基于知识图谱的信息匹配装置的框图，该装置包括实体提取模块410、特征确定模块420、特征处理模块430和信息匹配模块440。

实体提取模块410用于提取输入信息中含有的第一实体，以及待与输入信息匹配的候选信息中含有的第二实体。特征确定模块420用于根据第一实体和第二实体分别在知识图谱中对应的三元知识组，确定输入信息与候选信息之间的语义相似度特征，以及根据输入信息与候选信息在不同维度的匹配规则下的相似度，确定输入信息与候选信息之间的规则相似度特征。特征处理模块430用于对语义相似度特征以及规则相似度特征进行特征融合运算，获得输入信息与候选信息之间的相似度得分。信息匹配模块440用于根据相似度得分从候选信息中选取与输入信息相匹配的目标信息。

在另一示例性实施例中，特征确定模块420包括知识组提取单元和相似度计算单元。知识组提取单元用于从知识图谱中查询与第一实体有关的第一三元知识组，以及与第二实体有关的第二三元知识组。相似度计算单元用于根据第一三元知识组与输入信息对应的语义相关程度，以及第二三元知识组与候选信息对应的语义相关程度，计算输入信息与候选信息之间的语义相似度。

在另一示例性实施例中，相似度计算单元包括语义特征提取子单元、融合特征计算子单元和语义相似度计算子单元。语义特征提取子单元用于分别提取输入信息、第一三元知识组、候选信息以及第二三元知识组的语义特征。融合特征计算子单元用于根据第一三元知识组与输入信息分别对应的语义特征，确定第一三元知识组与输入信息之间的相关程度，并差异化第一三元知识组相对输入信息的重要程度，获得第一融合特征，以及根据第二三元知识组与输入信息分别对应的语义特征，确定第二三元知识组与输入信息之间的相关程度，并差异化第二三元知识组相对候选信息的重要程度，获得第二融合特征。语义相似度计算子单元用于根据输入信息的语义特征、候选信息的语义特征、第一融合特征以及第二融合特征，计算输入信息与候选信息之间的语义相似度特征。

在另一示例性实施例中，融合特征计算子单元包括注意力计算子单元和特征融合单子单元。注意力计算子单元用于根据第一三元知识组与输入信息的相关程度，计算第一三元知识组对应的注意力因子，注意力因子用于表征第一三元知识组相对输入信息的重要程度。特征融合单子单元用于计算第一三元知识组对应的注意力因子与第一三元知识组对应的语义特征之间的向量积，获得第一融合特征。

在另一示例性实施例中，特征确定模块420还包括规则相似度计算单元和规则特征值叠加单元。规则相似度计算单元用于根据输入信息与候选信息在不同维度进行匹配的匹配规则，计算输入信息与候选信息在各个匹配规则下的相似度特征。规则特征值叠加单元用于对输入信息与候选信息在各个匹配规则下的相似度特征进行叠加运算，获得输入信息与候选信息之间的规则相似度特征。

在另一示例性实施例中，将输入信息与候选信息进行匹配的维度包括关键词重要性维度，规则相似度计算单元包括关键词提取子单元、关键词打分子单元和分值计算子单元。关键词提取子单元用于分别对输入信息和候选信息进行关键词提取，获得输入信息和候选信息中的关键词。关键词打分子单元用于对每个关键词进行打分。分值计算子单元用于根据关键词对应的分值计算输入信息与候选信息在关键词重要性维度下的相似度特征。

在另一示例性实施例中，将输入信息与候选信息进行匹配的维度包括实体匹配维度，规则相似度计算单元包括语义向量提取子单元和语义向量计算子单元。语义向量提取子单元用于提取第一实体以及第二实体对应的语义向量。语义向量计算子单元用于计算第一实体的语义向量与第二实体的语义向量之间的相似度，获得输入信息与候选信息在实体匹配维度下的相似度特征。

需要说明的是，上述实施例所提供的装置与上述实施例所提供的方法属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

在一示例性的实施例中，本申请还提供一种电子设备，该设备包括处理器和存储器，该存储器上存储有计算机可读指令，该计算机可读指令被处理器执行时，实现如前所述的基于知识图谱的信息匹配方法。

需要说明的是，该电子设备只是一个适配于本申请的示例，不能认为是提供了对本申请的使用范围的任何限制。该电子设备也不能解释为需要依赖于或者必须具有图7中示出的示例性的电子设备中的一个或者多个组件。

该电子设备的硬件结构可因配置或者性能的不同而产生较大的差异，如图7所示，电子设备包括：电源510、接口530、至少一存储器550、以及至少一中央处理器(CPU，CentralProcessing Units)570。

其中，电源510用于为电子设备上的各硬件设备提供工作电压。

接口530包括至少一有线或无线网络接口531、至少一串并转换接口533、至少一输入输出接口535以及至少一USB接口537等，用于与外部设备通信。

存储器550作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统551、应用程序553或者数据555等，存储方式可以是短暂存储或者永久存储。

其中，操作系统551用于管理与控制电子设备上的各硬件设备以及应用程序553，以实现中央处理器570对海量数据555的计算与处理，其可以是Windows ServerTM、Mac OSXTM、UnixTM、LinuxTM等。应用程序553是基于操作系统551之上完成至少一项特定工作的计算机程序，其可以包括至少一模块(图7中未示出)，每个模块都可以分别包含有对电子设备的一系列计算机可读指令。数据555可以是存储于磁盘中的http协议数据等。

中央处理器570可以包括一个或多个以上的处理器，并设置为通过总线与存储器550通信，用于运算与处理存储器550中的海量数据555。

如上面所详细描述的，适用本申请的电子设备将通过中央处理器570读取存储器550中存储的一系列计算机可读指令的形式来完成前述实施例所述的基于知识图谱的信息匹配方法。

此外，通过硬件电路或者硬件电路结合软件指令也能同样实现本申请，因此实现本申请并不限于任何特定硬件电路、软件以及两者的组合。

在一示例性的实施例中，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如前所述的基于知识图谱的信息匹配方法。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

应当理解的是，本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

还应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种基于知识图谱模型的信息匹配方法，其特征在于，包括：

提取输入信息中含有的第一实体，以及待与所述输入信息匹配的候选信息中含有的第二实体；

根据所述第一实体和所述第二实体分别在知识图谱中对应的三元知识组，确定所述输入信息与所述候选信息之间的语义相似度特征，以及根据所述输入信息与所述候选信息在不同维度的匹配规则下的相似度，确定所述输入信息与所述候选信息之间的规则相似度特征；

对所述语义相似度特征以及所述规则相似度特征进行特征融合运算，获得所述输入信息与所述候选信息之间的相似度得分；

根据所述相似度得分从所述候选信息中选取与所述输入信息相匹配的目标信息；

其中，所述根据所述第一实体和所述第二实体确定所述输入信息与所述候选信息之间的语义相似度特征，包括：

从知识图谱中查询与所述第一实体有关的第一三元知识组，以及与所述第二实体有关的第二三元知识组；

分别提取所述输入信息、所述第一三元知识组、所述候选信息以及所述第二三元知识组的语义特征；

根据所述第一三元知识组与所述输入信息分别对应的语义特征，确定所述第一三元知识组与所述输入信息之间的相关程度，并差异化所述第一三元知识组相对所述输入信息的重要程度，获得第一融合特征，以及根据所述第二三元知识组与所述输入信息分别对应的语义特征，确定所述第二三元知识组与所述输入信息之间的相关程度，并差异化所述第二三元知识组相对所述候选信息的重要程度，获得第二融合特征；

根据所述输入信息的语义特征、所述候选信息的语义特征、所述第一融合特征以及所述第二融合特征，计算所述输入信息与所述候选信息之间的语义相似度特征。

2.根据权利要求1所述的方法，其特征在于，差异化所述第一三元知识组相对所述输入信息的重要程度，包括：

根据所述第一三元知识组与所述输入信息的相关程度，计算所述第一三元知识组对应的注意力因子，所述注意力因子用于表征所述第一三元知识组相对所述输入信息的重要程度；

计算所述第一三元知识组对应的注意力因子与所述第一三元知识组对应的语义特征之间的向量积，获得所述第一融合特征。

3.根据权利要求1所述的方法，其特征在于，根据所述输入信息与所述候选信息在不同维度的匹配规则下的相似度，确定所述输入信息与所述候选信息之间的规则相似度特征，包括：

根据所述输入信息与所述候选信息在不同维度进行匹配的匹配规则，计算所述输入信息与所述候选信息在各个匹配规则下的相似度特征；

对所述输入信息与所述候选信息在各个匹配规则下的相似度特征进行叠加运算，获得所述输入信息与所述候选信息之间的规则相似度特征。

4.根据权利要求3所述的方法，其特征在于，将所述输入信息与所述候选信息进行匹配的维度包括关键词重要性维度；根据所述输入信息与所述候选信息在不同维度进行匹配的匹配规则，计算所述输入信息与所述候选信息在各个匹配规则下的相似度特征，包括：

分别对所述输入信息和所述候选信息进行关键词提取，获得所述输入信息和所述候选信息中的关键词；

对每个所述关键词进行打分；

根据所述关键词对应的分值计算所述输入信息与所述候选信息在所述关键词重要性维度下的相似度特征。

5.根据权利要求3所述的方法，其特征在于，将所述输入信息与所述候选信息进行匹配的维度包括实体匹配维度；根据所述输入信息与所述候选信息在不同维度进行匹配的匹配规则，计算所述输入信息与所述候选信息在各个匹配规则下的相似度特征，包括：

提取所述第一实体以及所述第二实体对应的语义向量；

计算所述第一实体的语义向量与所述第二实体的语义向量之间的相似度，获得所述输入信息与所述候选信息在所述实体匹配维度下的相似度特征。

6.一种基于知识图谱模型的信息匹配装置，其特征在于，包括：

实体提取模块，用于提取输入信息中含有的第一实体，以及待与所述输入信息匹配的候选信息中含有的第二实体；

特征确定模块，用于根据所述第一实体和所述第二实体分别在知识图谱中对应的三元知识组，确定所述输入信息与所述候选信息之间的语义相似度特征，以及根据所述输入信息与所述候选信息在不同维度的匹配规则下的相似度，确定所述输入信息与所述候选信息之间的规则相似度特征；

特征处理模块，用于对所述语义相似度特征以及所述规则相似度特征进行特征融合运算，获得所述输入信息与所述候选信息之间的相似度得分；

信息匹配模块，用于根据所述相似度得分从所述候选信息中选取与所述输入信息相匹配的目标信息；

其中，所述特征确定模块还用于执行如下步骤：

7.一种电子设备，其特征在于，包括：

存储器，存储有计算机可读指令；

处理器，读取存储器存储的计算机可读指令，以执行权利要求1-5中的任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1-5中的任一项所述的方法。