CN116628219A

CN116628219A - 一种基于知识图谱的问答方法

Info

Publication number: CN116628219A
Application number: CN202310521713.1A
Authority: CN
Inventors: 张鹏; 季白杨
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2023-05-10
Filing date: 2023-05-10
Publication date: 2023-08-22

Abstract

一种基于知识图谱的问答方法，包括以下步骤：采集相关领域的问答语料和领域知识，进行预处理，构建好知识库和问答训练库；利用训练库进行特征融合训练，捕捉问题特征，识别出提问问题中的关键实体；基于识别出的关键实体进行知识推理，在知识推理过程中为了处理可能会遇到的较为复杂的提问，提出一种基于卷积推理的多跳知识图谱问答算法，在问答系统最终的答案推理部分利用一种全新的组合嵌入向量提取方法，通过组合嵌入向量和候选实体嵌入向量之间的相似度计算作为答案推理的评分依据来构建评分函数最终确定问题的答案。本发明依据知识库中已有的实体关系进行延伸，能够回答较为复杂的自然语言问题。

Description

一种基于知识图谱的问答方法

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于知识图谱的问答方法。

背景技术

知识图谱问答算法是一种基于人工智能和自然语言处理技术的智能问答系统，旨在帮助用户在知识图谱上提出问题，并给出准确的答案。多跳知识图谱问答算法是一种能够回答关于实体之间复杂关系的自然语言问题的算法。知识图谱问答是利用整理在知识图谱中的领域数据作为问答库进行智能问答的技术，它通过在知识图谱中整理好的知识的基础上进行推理来回答给定的问题，并利用知识图谱中的三元组来获取答案。传统的问答系统一般基于检索或基于模板，其缺点是对于复杂问题的处理能力弱。

发明内容

本发明要克服现有技术的上述缺点，提供一种基于知识图谱的问答方法。本发明利用多跳知识图谱问答算法能够自动推理并获取多个实体之间的关系，从而回答复杂的自然语言问题。

一种基于知识图谱的问答方法，包括以下步骤：

S1.采集相关领域的问答语料和领域知识，进行预处理，构建好知识库和问答训练库。

S2.利用训练库进行特征融合训练，捕捉问题特征，识别出提问问题中的关键实体。

S3.基于识别出的关键实体进行知识推理，在知识推理过程中为了处理可能会遇到的较为复杂的提问，提出一种基于卷积推理的多跳知识图谱问答算法，在问答系统最终的答案推理部分利用一种全新的组合嵌入向量提取方法，通过组合嵌入向量和候选实体嵌入向量之间的相似度计算作为答案推理的评分依据来构建评分函数最终确定问题的答案。

进一步，步骤S1具体包括：

S1.1从领域专业网站获取数据获取问答数据；

将依据从相关领域的专业网站上获取咨询对话作为训练语料帮助理解提问的问题。数据包括即为一组键值对，QS＝{<Q1,A1>,<Q2,A2>,<Q3,A3>...<Qn,An>},其中<Qi,Ai>就是一组相对应的问题和回答，将采集到的数据进行清洗，接着对用户提出的问题进行分类和标注，以便更好地理解和回答这些问题。

S1.2数据预处理；

对所获取的数据进行预处理，使用N-gram模型得到获取的领域问答数据的字符级特征向量表示，通过Word2Vec将每个单词转换为低维向量，然后将这些向量组合成句子向量或段落向量，获取问题的语义级向量特征。

S1.3构建领域知识图谱；

从各种渠道收集领域相关的数据，对收集到的数据进行清洗、去重、标注等处理，使其符合建模要求。进行知识抽取，将相关的信息以三元组的形式存储。确定好知识图谱的构建规则，将知识存入数据库中。

进一步，步骤S2具体包括：

明确提问者的问题并提取出关键的信息；为了获取的问题中信息的质量所提出的问题信息模型，结合了单词的语义和字符特征，从而更好地描述了问题的特征。提取出问题中的关键实体。下面是详细步骤：

S2.1特征融合

问题中的单词与知识图谱中的关系词存在的语义相似性，准确地学习问题中与知识图谱相似的关系信息对于获得正确答案至关重要。因此，将步骤S1.2中获得的问题语义级特征和字符级特征进行融合，然后输入到LSTM语言模型中，此处所用向量需要进行归一化处理，以获得问题中单词的嵌入向量。

使用两个LSTM模型，一个用于处理字符级输入，另一个用于处理语义级输入。这两个模型的输出将被连接起来，然后输入到一个全连接层中，以产生最终的融合表示。

hz＝LSTMh(qy)+LSTMc(qz)⑴

hi＝hzi/(hz1+hz2+…+hzn)*100％⑵

其中中，hz代表问题q中每个单词z的语义级特征qy和字符级特征qz输入后将输出全连接的结果。并且对于问题中的n个单词，每个单词得到的嵌入向量都进行归一化处理得到嵌入向量hi。

S2.2用全局注意力机制计算嵌入向量；

为了更好地捕捉问题的关键特征实体，采用一种全局注意力机制来计算问题的嵌入向量。具体地说，这种机制利用前面得到的每个单词的嵌入向量hi作为基础，能够有效地捕捉关键信息并产生更为准确的嵌入向量。

α＝Softmax(hz*uv)⑶

α代表问题中每个单词的重要性权重，u和v则代表两个不同的权重矩阵。使用α对hz进行加权，并将加权后的结果累加，以计算问题嵌入向量he。

S2.3问题实体识别基于步骤S1.1得到的问答训练语料，帮助识别出提问中的实体。在步骤s1.1中已经把训练问题进行了分类标注，按照该领域的常用分类进行划分。通过对已有的训练数据集进行词性标注，更准确地识别和回答用户的提问。通过卷积神经网络融合步骤s2.2全局注意力机制的嵌入向量计算方法，提取出问题中的特征。也就是识别出问题中的实体与关系。

进一步，步骤S3具体包括：

利用多跳推理探索与知识库中的实体关系相关的更深层次的信息，推理得出新的关系。这个过程需要使用多个三元组进行推理。

多个实体和关系之间的复杂信息通过多次跳跃来获取。步骤S2中已经识别出问题中的特征也就是知识图谱中的实体，接下来就要通过实体与关系进行推理并得到答案。下面是详细步骤。

S3.1单跳查询；

利用知识图谱进行单跳查询。如此可以通过查询某个节点的所有邻居节点来实现，单跳查询即可满足查询需要。

S3.2多跳推理；

如果遇到相对复杂的问题，无法通过单跳查询解决时候，就要使用多跳推理进行答案推理，具体包括：

S3.2.1实体关系向量化表示；

进行多跳推理之前，针对每个实体e和关系r，先使用知识图谱嵌入模型将映射到低维空间转化为低维的向量表示。

S3.2.2多跳知识推理；

根据步骤S3.2.1中映射的低维向量表示,通过一个单层卷积神经网络计算每个三元组的得分，构建答案评分函数,计算候选答案各自的评分。

其公式如下所示。

score＝σ(MLP(f([hs；hq]z))·hc)⑸

公式中有三个向量：主题实体s、问题q和候选答案实体c各自的嵌入向量。步骤s3.2.1中得到的向量被输入到一个单层卷积神经网络中进行处理，以获取更深层次的特征嵌入。将主题实体和问题嵌入向量连接在一起，并使用卷积神经网络和多层神经网络来获得这些特征。最后通过全连接层与候选答案实体c的嵌入向量进行相乘，来得到各个答案实体的得分。选取其中得分最高的候选答案作为多跳知识推理的答案。

S3.3推理结果汇总；

将单跳查询和多跳推理得到的结果进行汇总，得到最终的答案。

本发明结合卷积推理技术尝试提出了一种基于知识图谱的问答模型构建方法帮助处理复杂提问，采用字符特征和语义特征相结合的方式进行实体识别，从而更好地理解问题。而在答案推理模型中，本发明采用基于卷积神经网络的策略辅以新的评分函数来帮助推理，以获得更好的多跳接推理能力。

本发明的优点是：利用多跳知识图谱算法，推理并获取多个实体之间的关系，通过全局注意力机制极大地加强了对于多跳复杂问题的推理能力。从而依据知识库中已有的实体关系进行延伸，能够回答较为复杂的自然语言问题。

附图说明

图1是本发明方法的流程图。

具体实施方式

下面结合附图，进一步说明本发明的技术方案。

本发明以医疗知识图谱的问答系统为例，说明本发明方法。为此，需要将医疗专业网站为信息源得到的信息为例整理成知识图谱。

本实施例的一种基于知识图谱的问答方法，包括以下步骤：

步骤一、数据采集和预处理；

使用知识图谱进行知识库构建，将构建问答模型。将医疗专业网站为信息源得到的信息为例整理成知识图谱。具体包括：

S1.1从医疗网站获取数据获取问答数据；

将依据从丁香园等专业网站上获取的医生与患者之间的对话作为训练语料帮助理解提问的问题。数据包括即为一组键值对，QS＝{<Q1,A1>,<Q2,A2>,<Q3,A3>...<Qn,An>},其中<Qi,Ai>就是一组相对应的问题和回答，将采集到的数据进行清洗，接着对用户提出的问题进行分类和标注，以便更好地理解和回答这些问题。

S1.2数据预处理；

对所获取的数据进行预处理，使用N-gram模型得到获取的医疗问答数据的字符级特征向量表示，通过Word2Vec将每个单词转换为低维向量，然后将这些向量组合成句子向量或段落向量，获取问题的语义级向量特征。

S1.3构建医疗知识图谱；

从各种渠道收集医疗相关的数据，如医疗网站、论文、书籍、医院数据等。这些数据包括病例、症状、药品、手术等信息。对收集到的数据进行清洗、去重、标注等处理，使其符合建模要求。进行知识抽取，将相关的信息以三元组的形式存储。确定好知识图谱的构建规则，将知识存入数据库中，涉及基础医学类、临床医学类、口腔医学类、公共卫生与预防医学类等方向。

步骤二、捕捉问题特征；

S2.1特征融合

hz＝LSTMh(qy)+LSTMc(qz)⑴

hi＝hzi/(hz1+hz2+…+hzn)*100％⑵

S2.2用全局注意力机制计算嵌入向量；

α＝Softmax(hz*uv)⑶

S2.3问题实体识别基于步骤S1.1得到的问答训练语料，帮助识别出提问中的实体。在步骤s1.1中已经把训练问题进行了分类标注，例如基础医学类、临床医学类、口腔医学类、公共卫生与预防医学类等。通过对已有的训练数据集进行词性标注，更准确地识别和回答用户的提问。通过卷积神经网络融合步骤s2.2全局注意力机制的嵌入向量计算方法，提取出问题中的特征。也就是识别出问题中的实体与关系。

步骤三、基于问题实体进行知识推理；

多跳知识推理可以用来推导出更加深入的关联信息。比如病人提出问题“我手臂上的皮肤有红疹和瘙痒，是什么原因？”，根据用户提供的症状(红疹和瘙痒)，系统可以查询知识库，找到可能的疾病，例如湿疹、荨麻疹等。然后，系统可以利用知识库中的医学知识来进一步推断疾病的原因。例如，湿疹可能由于过敏、环境因素或基因遗传等因素引起，而荨麻疹则通常是过敏反应导致。从而得到正确的答案。接下来，利用多跳推理探索与症状相关的更深层次的信息，例如，系统可以利用知识库中的医学知识，找到与红疹和瘙痒相关的更深层次的症状，如皮疹的形状、疼痛程度等等。通过这些信息，得出更加准确的诊断和解释。这个过程需要使用多个三元组进行推理。

在知识图谱中，每个实体都可以看作是一个节点，每个关系都可以看作是节点之间的边。但是，在实际应用中，通常需要获取的是多个实体和关系之间的复杂信息通过多次跳跃来获取。步骤二中已经识别出问题中的特征也就是知识图谱中的实体，接下来就要通过实体与关系进行推理并得到答案。下面是详细步骤。

S3.1单跳查询；

利用知识图谱进行单跳查询，如前述例子中即查询实体“湿疹”与属性“瘙痒”的相关节点。如此可以通过查询某个节点的所有邻居节点来实现，单跳查询即可满足查询需要。

S3.2多跳推理；

遇到如题例中的复杂医疗问题，无法通过单跳查询解决时候，就要使用多跳推理进行答案推理，具体包括：

S3.2.1实体关系向量化表示；

S3.2.2多跳知识推理；

根据步骤s3.2.1中映射的低维向量表示,通过一个单层卷积神经网络计算每个三元组的得分，构建答案评分函数,计算候选答案各自的评分，其公式如下：

score＝σ(MLP(f([hs；hq]z))·hc)⑸

S3.3推理结果汇总；

将单跳查询和多跳推理得到的结果进行汇总，得到最终的答案。对于该问题，汇总得到的答案可能包括“过敏、环境因素或基因遗传等因素引起”。

Claims

1.一种基于知识图谱的问答方法，包括以下步骤：

S1.采集相关领域的问答语料和领域知识，进行预处理，构建好知识库和问答训练库；

S2.利用训练库进行特征融合训练，捕捉问题特征，识别出提问问题中的关键实体；

2.如权利要求1所述的一种基于知识图谱的问答方法，其特征在于：步骤S1具体包括：

S1.1从领域专业网站获取数据获取问答数据；

将依据从相关领域的专业网站上获取咨询对话作为训练语料帮助理解提问的问题；数据包括即为一组键值对，QS＝{<Q1,A1>,<Q2,A2>,<Q3,A3>...<Qn,An>},其中<Qi,Ai>就是一组相对应的问题和回答，将采集到的数据进行清洗，接着对用户提出的问题进行分类和标注，以便更好地理解和回答这些问题；

S1.2数据预处理；

对所获取的数据进行预处理，使用N-gram模型得到获取的领域问答数据的字符级特征向量表示，通过Word2Vec将每个单词转换为低维向量，然后将这些向量组合成句子向量或段落向量，获取问题的语义级向量特征；

S1.3构建领域知识图谱；

从各种渠道收集领域相关的数据，对收集到的数据进行清洗、去重、标注等处理，使其符合建模要求；进行知识抽取，将相关的信息以三元组的形式存储；确定好知识图谱的构建规则，将知识存入数据库中。

3.如权利要求1所述的一种基于知识图谱的问答方法，其特征在于：步骤S2具体包括：

明确提问者的问题并提取出关键的信息；为了获取的问题中信息的质量所提出的问题信息模型，结合了单词的语义和字符特征，从而更好地描述了问题的特征，提取出问题中的关键实体；下面是详细步骤：

S2.1特征融合

问题中的单词与知识图谱中的关系词存在的语义相似性，准确地学习问题中与知识图谱相似的关系信息对于获得正确答案至关重要；因此，将步骤S1.2中获得的问题语义级特征和字符级特征进行融合，然后输入到LSTM语言模型中，此处所用向量需要进行归一化处理，以获得问题中单词的嵌入向量；

使用两个LSTM模型，一个用于处理字符级输入，另一个用于处理语义级输入；这两个模型的输出将被连接起来，然后输入到一个全连接层中，以产生最终的融合表示；

hz＝LSTMh(qy)+LSTMc(qz)⑴

hi＝hzi/(hz1+hz2+…+hzn)*100％⑵

其中中，hz代表问题q中每个单词z的语义级特征qy和字符级特征qz输入后将输出全连接的结果；并且对于问题中的n个单词，每个单词得到的嵌入向量都进行归一化处理得到嵌入向量hi；

S2.2用全局注意力机制计算嵌入向量；

为了更好地捕捉问题的关键特征实体，采用一种全局注意力机制来计算问题的嵌入向量；具体地说，这种机制利用前面得到的每个单词的嵌入向量hi作为基础，能够有效地捕捉关键信息并产生更为准确的嵌入向量；

α＝Softmax(hz*uv)⑶

α代表问题中每个单词的重要性权重，u和v则代表两个不同的权重矩阵；使用α对hz进行加权，并将加权后的结果累加，以计算问题嵌入向量he；

S2.3问题实体识别基于步骤S1.1得到的问答训练语料，帮助识别出提问中的实体；在步骤s1.1中已经把训练问题进行了分类标注，按照该领域的常用分类进行划分；通过对已有的训练数据集进行词性标注，更准确地识别和回答用户的提问；通过卷积神经网络融合步骤s2.2全局注意力机制的嵌入向量计算方法，提取出问题中的特征；也就是识别出问题中的实体与关系。

4.如权利要求1所述的一种基于知识图谱的问答方法，其特征在于：步骤S3具体包括：

S3.1单跳查询；

利用知识图谱进行单跳查询；如此可以通过查询某个节点的所有邻居节点来实现，单跳查询即可满足查询需要；

S3.2多跳推理；

S3.2.1实体关系向量化表示；

进行多跳推理之前，针对每个实体e和关系r，先使用知识图谱嵌入模型将映射到低维空间转化为低维的向量表示；

S3.2.2多跳知识推理；

根据步骤S3.2.1中映射的低维向量表示,通过一个单层卷积神经网络计算每个三元组的得分，构建答案评分函数,计算候选答案各自的评分；

其公式如下所示；

score＝σ(MLP(f([hs；hq]z))·hc)⑸

公式中有三个向量：主题实体s、问题q和候选答案实体c各自的嵌入向量；步骤s3.2.1中得到的向量被输入到一个单层卷积神经网络中进行处理，以获取更深层次的特征嵌入；将主题实体和问题嵌入向量连接在一起，并使用卷积神经网络和多层神经网络来获得这些特征；最后通过全连接层与候选答案实体c的嵌入向量进行相乘，来得到各个答案实体的得分；选取其中得分最高的候选答案作为多跳知识推理的答案；

S3.3推理结果汇总；将单跳查询和多跳推理得到的结果进行汇总，得到最终的答案。