CN116822530A

CN116822530A - 一种基于知识图谱的问答对生成方法

Info

Publication number: CN116822530A
Application number: CN202310034743.XA
Authority: CN
Inventors: 徐小良; 张吉锋
Original assignee: Hangzhou Dianzi University; Zhejiang Lab
Current assignee: Hangzhou Dianzi University; Zhejiang Lab
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-09-29

Abstract

本发明公开了一种基于知识图谱的问答对生成方法。本发明包含以下内容：首先抽取领域知识图谱中实体、关系、属性词，利用知识图谱标注策略，得到实体、关系、属性词对应的同义词；抽取连通子图，通过基于DPT‑Loss的问句生成模型生成标准问句；将匹配到的同义词通过槽位填充替换到标准问句中，得到相似问句，最后与原答案组成问答对集合。本发明根据给定领域知识图谱生成领域问答对，使用知识图谱标注策略扩展问答对多样性，增强了知识图谱在问句理解中的领域性和专业性，提高了模板匹配的准确度，同时解决了在神经网络训练时领域问答对语料不足的问题。

Description

一种基于知识图谱的问答对生成方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于知识图谱的问答对生成方法。

背景技术

基于知识图谱的问句生成(KBQG)指充分利用知识图谱中知识，根据指定的答案信息，生成对应问句的问题。目前解决KBQG有三种主流方法、即基于模板的问句生成，基于Seq2Seq模型的问句生成、基于Graph2Seq模型的问句生成。

基于模板的问句生成通过人工构造问句模板，利用槽位填充生成问句；基于Seq2Seq模型的问句生成把一个三元组构造为一个序列，通过训练的Encoder-Decoder模型生成问句；基于Graph2Seq模型的问句生成保留了子图的结构信息，对整个子图进行编码，能够生成较为复杂的问句。

近来的研究主要在基于Graph2Seq模型的问句生成上，这种方式在应用复杂的KBQG时，会存在如下一些挑战：(1)现有的学习模型无法保证生成的问句在句法和语法上与答案相符；(2)现有的方法无法生成多样化的问句，从而导致在处理下游任务时准确度不高的问题；(3)现在的方法是建立在通用领域上，在回答专业性更强的问题时存在缺陷。

发明内容

本发明提出了一种基于知识图谱的问答对生成方法。针对挑战(1)，对Graph2Seq模型做出改进，引入句法依存树解决语法句法上不相似的问题；针对挑战(2)(3)，提出了一种对知识图谱标注的策略，通过知识图谱标注获取同义词对，增强生成问句的多样性。

一种基于知识图谱的问答对生成方法，包含以下步骤：

S1、获取领域知识图谱，根据所述领域知识图谱，对实体、关系、属性词自动化向导化标注，获取同义词对；

S2、训练基于的问句生成模型；

S21、获取开放域知识图谱，所述开放域知识图谱中包括问题和标准答案，分别将所述开放域知识图谱和所述标准答案用Graph Transformer和BiLSTM进行编码，输入到LSTM解码器中，得到所述LSTM解码器的输出，拼接所述LSTM解码器的输出，构成初始问句序列q；

S22、将初始问句序列q与步骤S21中所述开放域知识图谱中的问题，进行分词得到q¹,…,q^n-1,qⁿ，其中，q¹,…,q^n-1,qⁿ代表进行分词操作后得到的n个分词，利用TF-IDF算法分别计算所述n个分词q¹,…,q^n-1,qⁿ的权重，得到n个分词的权重w¹,…,w^n-1,wⁿ，通过BERT模型进行词嵌入，得到n个分词对应的语义向量e¹,…,e^n-1,eⁿ；

S23、对初始问句序列q与步骤S21中所述开放域知识图谱中的问题做依存句法分析，形成对应的句法依存树，所述句法依存树的叶子结点为{qⁱ,wⁱ,eⁱ},1≤i≤n；其中，qⁱ,wⁱ,eⁱ分别代表第i个分词、第i个分词的权重、第i个分词对应的语义向量；

S24、将初始问句序列q的句法依存树与步骤S21中所述开放域知识图谱中问题的句法依存树中，任意两结点n_i，n_j进行对比，如果n_i，n_j均为叶子结点，则

其中Cos(eⁱ,e^j)表示eⁱ与e^j之间的余弦相似度，K表示相似度矩阵，表示结点n_i与结点n_j之间的相似度；

如果n_i，n_j中只有一个结点为叶子结点，则令

如果n_i，n_j两者均不是叶子结点，则将以n_i，n_j为根结点的子树重复S24操作，直至所有结点完成对比；

S25、对S24所述的K的每一行进行Max Pooling，得到n*1的矩阵，再对所述n*1的矩阵进行Average Pooling，得到相似度

S26、定义损失函数:

其中λ表示超参数，控制两个损失函数的比重，表示交叉墒损失函数；

S27、将损失函数的值反馈给问句生成模型，对所述问句生成模型进行微调，获取微调后的问句生成模型。

S3、从步骤S1所述的领域知识图谱中，抽取连通子图，遍历所述连通子图的数据作为答案，利用步骤S27获得的微调后的问句生成模型，生成与所述答案相对应的标准问句；

S4、对于步骤S3中得到的标准问句中涉及的实体、关系、属性词，用步骤S1中得到的同义词对进行替换，得到若干个不同的相似问句，将标准问句、相似问句与S3中所述的答案进行组合，得到问答对集合。

作为优选，所述步骤S1中，所述对实体、关系、属性词自动化向导化标注的方法为：

对所述领域知识图谱中的每一个三元组中的实体、关系、属性词进行词性标注，去除被标注为虚词、数词、量词、代词的实体、关系和属性，保留被标注为名词、动词、形容词的实体、关系和属性；

作为优选，所述步骤S1中，所述获取同义词对的方法为：

定义同义词匹配模式集合P＝{p₁,p₂,...,p_m}，其中p指带有目标词槽位和同义词槽位的同义词匹配模式，m表示同义词匹配模式的数量；

将被标注为名词、动词、形容词的实体、关系和属性词作为目标词W，遍历所述同义词匹配模式集合P中的所有元素p∈P，将W替换到p中的目标词槽位，得到只包含同义词槽位的匹配模式p_w；

在开源知识库中，按照p_w进行匹配，得到W的同义词s，组成同义词对(W,s)。

作为优选，所述步骤S3中，所述连通子图为G_i(V,E)，其中，i，V，E分别表示子图编号，节点集合，边集合；

所述步骤S3中，所述数据为所述连通子图G_i(V,E)中的所有实体、关系、属性词；

对步骤S3中的所述答案进行词性标注，获取答案类型信息；

步骤S3中，所述利用步骤S27获得的微调后的问句生成模型，生成与所述答案相对应的标准问句，包括：将连通子图G_i(V,E)、答案、答案类型信息输入到利用步骤S27获得的微调后的问句生成模型中，所述问句生成模型输出标准问句。

本发明提出的一种基于知识图谱的问答对生成方法，首先抽取领域知识图谱中实体、关系、属性词，利用知识图谱标注策略，得到实体、关系、属性对应的同义词；抽取连通子图，通过基于的问句生成模型生成标准问句；将匹配到的同义词通过槽位填充替换到标准问句中，得到相似问句，最后与原答案组成问答对集合。本发明根据给定领域知识图谱生成领域问答对，使用知识图谱标注策略扩展问答对多样性，增强了知识图谱在问句理解中的领域性和专业性，提高了模板匹配的准确度，同时解决了在神经网络训练时领域问答对语料不足的问题。

附图说明

图1为根据本发明实施例提供的基于知识图谱的问答对生成方法的流程示意图；

具体实施方式

为了使本发明的技术方案和优点更加明确，下面将结合附图对本发明作进一步的描述说明，具体内容如下：

S1、获取领域知识图谱，根据所述领域知识图谱，对实体、关系、属性词自动化向导化标注，获取同义词对：

S11、根据给定领域知识图谱，对每一个三元组中的实体、关系、属性利用HanLP进行词性标注，去除被标注为虚词、数词、量词、代词的实体、关系和属性，保留被标注为名词、动词、形容词的实体、关系和属性；

S12、定义同义词匹配模式集合P＝{p₁,p₂,...,p_m}，其中p指带有目标词槽位和同义词槽位的同义词匹配模式，m代表同义词匹配模式的数量，同义词匹配模式如下，其中X表示目标词槽位，Y表示同义词槽位：

S13、在本实施例中，定义所述同义词匹配模式集合P如下：

I.X，又称Y；

II.X(Y)

III.X简称Y

IV.X，也称为Y

S14、将S11中被标注为名词、动词、形容词的实体、关系和属性作为目标词W，遍历所述同义词匹配模式集合P中的所有元素p∈P，将W替换到p中的目标词槽位，得到只包含同义词槽位的匹配模式p_w；

S15、在本实施例中，抽取S11中被标注为地名的杭州电子科技大学为例，用杭州电子科技大学替换同义词匹配模式中的标准词槽位X，得到匹配模式p_w如下：

I.杭州电子科技大学，又称Y；

II.杭州电子科技大学(Y)

III.杭州电子科技大学简称Y

IV.杭州电子科技大学，也称为Y

S16、在维基百科、百度百科中，按照p_w进行匹配，抽取维基百科、百度百科中包含p_w的句子；

S17、在本实施例中，得到所述句子如下：

I.杭州电子科技大学，又称杭电；

II.杭州电子科技大学(杭电)

III.杭州电子科技大学简称杭电

IV.杭州电子科技大学，也称为杭电

S18、根据所述p_w中同义词槽位Y的位置，抽取步骤S16得到的句子中的对应词语，得到W的同义词s，组成同义词对(W,s)；

S19、在本实施例中，得到同义词对(杭州电子科技大学,杭电)

S2、训练基于的问句生成模型：

S21、获取DBpedia数据，DBpedia数据中包括开放域知识图谱、问题和标准答案，分别将所述开放域知识图谱和所述标准答案用Graph Transformer和BiLSTM进行编码，输入到LSTM解码器中，拼接所述解码器的输出，构成初始问句序列q；

S22、将初始问句序列q与S21所述DBpedia中的问题，利用HanLP进行分词得到q¹,…,q^n-1,qⁿ，其中，q¹,…,q^n-1,qⁿ代表进行分词操作后得到的n个分词，利用TF-IDF算法分别计算n个分词q¹,…,q^n-1,qⁿ的权重，得到n个分词的权重w¹,…,w^n-1,wⁿ，通过BERT模型进行词嵌入，得到n个分词对应的语义向量e¹,…,e^n-1,eⁿ；

S23、对初始问句序列q与S21所述DBpedia中的问题，利用HanLP做依存句法分析，形成对应句法依存树，所述句法依存树的叶子结点为{qⁱ,wⁱ,eⁱ},1≤i≤n；其中，qⁱ,wⁱ,eⁱ分别代表第i个分词、第i个分词的权重、第i个分词对应的语义向量；

S24、将初始问句序列q的句法依存树与S21所述DBpedia中的问题的句法依存树中，任意两结点n_i，n_j作对比，如果n_i，n_j均为叶子结点，则

如果n_i，n_i中只有一个结点为叶子结点，则令

S26、定义损失函数:

其中λ表示超参数，控制两个损失函数的比重，在本实施例中λ取0.5，表示交叉墒损失函数；

S27、将损失函数的值反馈给模型，对所述模型进行微调，获取微调后的问句生成模型。

S3、从步骤S1所述的领域知识图谱中，抽取连通子图，遍历所述连通子图的数据作为答案，利用步骤S27获得的微调后的问句生成模型，生成与所述答案相对应的标准问句：

S31、从S1所述领域知识图谱中抽取连通子图G_i(V,E)，遍历G_i(V,E)中所有实体、关系、属性作为答案，对答案做词性标注，获取答案类型信息，i，V，E分别表示子图编号，节点集合，边集合；

S32、在本实施例中，从S1所述领域知识图谱中抽取连通子图，用三元组形式展示为(杭州电子科技大学，位置，杭州)，遍历连通子图中所有实体、关系、属性作为答案，这里以杭州为例，对杭州做词性标注，得到答案类型信息属于地名；

S33、将S31所述的连通子图、答案、答案类型信息输入到步骤S2训练得到的问句生成模型中，问句生成模型输出标准问句；

S34、在本实施例中，将(杭州电子科技大学，位置，杭州)、杭州、地名输入到问句生成模型中，问句生成模型输出标准问句：杭州电子科技大学所处位置在哪里？

S4、对于步骤S3中得到的标准问句中涉及的实体、关系、属性词，用步骤S1中得到的同义词对进行替换，得到若干个不同的相似问句，将标准问句、相似问句与S3中所述的答案进行组合，得到问答对集合：

S41、在本实施例中，将步骤S34得到的标准问句：杭州电子科技大学所处位置在哪里中的杭州电子科技大学用步骤S19得到的同义词对(杭州电子科技大学，杭电)替换，得到相似问句：杭电所处位置在哪里。将标准问句和相似问句与所述答案相组合，得到问答对(杭州电子科技大学所处位置在哪里，杭州)以及(杭电所处位置在哪里，杭州)。

Claims

1.一种基于知识图谱的问答对生成方法，其特征在于，包含以下步骤：

S2、训练基于的问句生成模型；

S22、将初始问句序列q与步骤S21中所述开放域知识图谱中的问题，进行分词得到q¹，...，q^n-1，qⁿ，其中，q¹，...，q^n-1，qⁿ代表进行分词操作后得到的n个分词，利用TF-IDF算法分别计算所述n个分词q¹，...，q^n-1，qⁿ的权重，得到n个分词的权重w¹，...，w^n-1，wⁿ，通过BERT模型进行词嵌入，得到n个分词对应的语义向量e¹，...，e^n-1，eⁿ；

S23、对初始问句序列q与步骤S21中所述开放域知识图谱中的问题做依存句法分析，形成对应的句法依存树，所述句法依存树的叶子结点为{qⁱ，wⁱ，eⁱ}，1≤i≤n；其中，qⁱ，wⁱ，eⁱ分别代表第i个分词、第i个分词的权重、第i个分词对应的语义向量；

其中Cos(eⁱ，e^j)表示eⁱ与e^j之间的余弦相似度，K表示相似度矩阵，表示结点n_i与结点n_j之间的相似度；

如果n_i，n_j中只有一个结点为叶子结点，则令

S26、定义损失函数：

S27、将损失函数的值反馈给问句生成模型，对所述问句生成模型进行微调，获取微调后的问句生成模型；

2.如权利要求1所述的一种基于知识图谱的问答对生成方法，其特征在于，

所述步骤S1中，所述对实体、关系、属性词自动化向导化标注的方法为：

对所述领域知识图谱中的每一个三元组中的实体、关系、属性词进行词性标注，去除被标注为虚词、数词、量词、代词的实体、关系和属性，保留被标注为名词、动词、形容词的实体、关系和属性。

3.如权利要求2所述的一种基于知识图谱的问答对生成方法，其特征在于，

所述步骤S1中，所述获取同义词对的方法为：

定义同义词匹配模式集合P＝{p₁，p₂，...，p_m}，其中p指带有目标词槽位和同义词槽位的同义词匹配模式，m表示同义词匹配模式的数量；

在开源知识库中，按照p_w进行匹配，得到W的同义词s，组成同义词对(W，s)。

4.如权利要求3所述的一种基于知识图谱的问答对生成方法，其特征在于，

所述步骤S3中，所述连通子图为G_i(V，E)，其中，i，V，E分别表示子图编号，节点集合，边集合；

所述步骤S3中，所述数据为所述连通子图G_i(V，E)中的所有实体、关系、属性；

对步骤S3中的所述答案进行词性标注，获取答案类型信息；

步骤S3中，所述利用步骤S27获得的微调后的问句生成模型，生成与所述答案相对应的标准问句，包括：将连通子图G_i(V，E)、答案、答案类型信息输入到利用步骤S27获得的微调后的问句生成模型中，所述问句生成模型输出标准问句。