CN112766507B

CN112766507B - 基于嵌入式和候选子图剪枝的复杂问题知识库问答方法

Info

Publication number: CN112766507B
Application number: CN202110073070.XA
Authority: CN
Inventors: 朱跃龙; 杨晓晴; 陆佳民; 冯钧; 张紫璇
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2023-04-25
Anticipated expiration: 2041-01-20
Also published as: CN112766507A

Abstract

本发明公开了基于嵌入式和候选子图剪枝的复杂问题知识库问答方法，属于数据处理技术领域，基于依存句法分析来区分关系的复杂程度，初步筛选出候选子图范围；通过基于尾部实体和关系类型的剪枝方法，对候选子图进行剪枝，以减少候选子图中错误路径在模型训练时带来的干扰；训练基于神经网络的短文本匹配模型使得问题和正确的问答路径上下文的匹配得分较高，本发明的SPE‑QA在构建新的问答数据集时，基于依存句法分析问题中关系的复杂程度，初步筛选出候选子图范围；训练关系路径类型选择器，进一步对候选子图进行剪枝；构建基于神经网络的短文本匹配模型，使得问题和正确的问答路径上下文的匹配得分较高。

Description

基于嵌入式和候选子图剪枝的复杂问题知识库问答方法

技术领域

本发明涉及属于数据处理技术领域，具体涉及基于嵌入式和候选子图剪枝的复杂问题知识库问答方法。

背景技术

通常，当给定一个自然语言问题，知识库问答系统通过问题进行语义理解和解析，进而利用知识库进行查询、推理得出答案。

根据知识图谱三元组的个数，将自然语言问题分为两种：

(1)单关系问题，只依赖一个三元组完成问答；

(2)多关系问题，至少需要两个三元组；由于自然语言的多样性，以及候选答案的复杂性回答多关系问题仍具有挑战性。

针对单关系问题的问答，Yih等人提出了基于语义相似度的开放域问题回答的语义解析框架，通过卷积神经网络模型测量实体与实体、关系与关系之间的相似度，来对三元组评分从而选出最合适的三元组来回答问题。虽然在问答任务中具有高精准度，但是由于数据量不够，不能训练出完善稳定的实体链接模型。

目前针对多关系问题的问答多采用顺序决策的方法，后来Qiu等人提出可解释的推理机制来逐步获取问题的答案实体，且在此基础上增加注意力机制以保证推理过程的准确性，并采用束搜索优化查询路径，从而减少候选答案的数量。这些方法在回答2-HOP问题上都取得很大进展，但在回答3-HOP或混合问题集的问题时性能较差，在顺序决策过程中增加了错误累积，限制了此类方法对复杂问题的问答能力。

发明内容

发明目的：为解决当前复杂问题的知识图谱问答中的不足之处，本发明目的在于提供基于嵌入式和候选子图剪枝的复杂问题知识库问答方法，能够减少候选子图的范围，并在部分多关系问答上获得更高的精准度。

技术方案：为实现上述发明目的，本发明采用如下技术方案：

基于嵌入式和候选子图剪枝的复杂问题知识库问答方法，提出了基于图上下文编码的复杂问题智能问答模型SPE-QA，包括以下模块：

1)候选子图剪枝模块，包括基于尾部实体的剪枝和基于关系类型的剪枝；其中基于尾部实体的剪枝删除尾部关系类型不相关的问答路径上下文，将保留的候选问答路径上下文和问题一起输入到语义匹配模型中训练；基于关系类型的剪枝方法通过关系路径类型选择器，只保留候选子图中相关类型的问答路径上下文进行后续操作；

2)语义匹配模块，将多关系的复杂问答过程转化成短文本匹配过程，即问题句和候选问答路径上下文序列的匹配问题；基于RE2模型，使用BERT预训练模型，对问题句和问答路径上下文的词及位置同时编码。

进一步地，所述的候选子图剪枝模块中，包括以下步骤：

2.1)对于基于尾部关系类型的剪枝方法，首先构建关系类型映射文件，将知识库关系进行简单聚类，判断知识库中两种类型是否相关后，保留尾部关系类型相关的PathContext作为候选问答路径上下文，并与问题句构成新的问答数据集，输入到问答句匹配模型中进行训练；

2.2)对于基于关系类型的剪枝方法，将问题和关系词类型作为输入，预测问题中的关系词所属的域类型，然后输出与问题最相关的三种关系类型，在候选子图中只保留相关类型的问答路径上下文路径。为了构建关系类型选择器，首先将不同知识库的关系类型简单聚类成关系的域类型T，然后构建基于知识库问题和关系类型匹配的多标签数据集进行训练和测试，来标记问题的正确问答路径上下文所属的关系域类型。

进一步地，所述的步骤2.2)具体过程如下：

2.21)在构建基于知识库问题和关系类型匹配的多标签数据集过程中，包含多个三元组(code,question,labels)，其中，code表示问题的唯一标识，question表示问题，labels以向量的形式表示，并以一种类似于one-hot编码的形式进行编码，其中每个元素用1或0来表示，表示问题中的关系属于域关系的类型；

2.22)在关系类型选择器的训练过程中，首先用BERT预训练模型在大型语料上进行无监督的训练，然后用预训练的参数，对下游任务进行微调来用于多标签分类任务。模型的全连接层融合了这些特征参数，并将问题标记上相关的一系列域类型，由于每一个关系类型都是独立不相关的，因此对标签中的每个关系类型使用sigmoid激活函数来计算其概率:

然后采用梯度法最小化预测的概率值a_j和目标值y_j之间的交叉熵：

其中y_i＝labels，表示问题中的关系属于域关系的类型；

2.23)在构建关系类型选择器之后，首先用这个类型选择器预测问题中的关系词最有可能属于的域类型，然后用输出的labels对候选子图进行剪枝，只保留至少包含一个属于top-k域类型关系的问答路径上下文。当一个问答路径上下文中包含不属于域类型中的关系，该问答路径上下文也会被删除。最后将保留的候选问答路径上下文和问题作为语义匹配模型的术语，以获得候选答案实体，完成整个自动回答的流程。

进一步地，所述的语义匹配模块中，包括以下步骤：

3.1)BERT预处理，使用BERT初始化问题和问答路径上下文的向量表示，因为SPE-QA模型不仅要考虑语义上下文信息，还要考虑位置信息；每个初始化的向量由残差循环融合网络处理，包含Encoder层、Alignment层、Fusion层；

3.2)Encoder层，是残差循环的block的入口，初始化的向量进入此block中，其中包含多层卷积神经网络的特征提取层，计算p和q的上下文特征作为矩阵p^*和q^*，问题序列q被标记为q^*＝(q₁,q₂,...,q_|q|)，q^*表示问题序列对应的矩阵，|q|表示问题序列中问题的数量，问答路径上下文p被标记为矩阵p^*＝(p₁,p₂,...,p_|p|)，p^*表示问答路径上下文对应的矩阵，|p|表示问答路径上下文的数量；

3.3)Alignment层，使用attention机制实现句子信息交互，得到两个句子的交互向量，更新词向量；相似性分数e_ij用点击方式求得：

e_ij＝F(p_i)^TF(q_j) (3)

更步骤3.3)中，e_ij表示p_i和q_j的相似性分数，F表示一个恒等函数或一个单层前馈神经网络，p_i表示第i个问答路径上下文，i的取值为1到|p|，q_j表示第j个问题，j的取值为1到|q|，F(p_i)表示p_i的恒等函数，F(p_i)^T表示p_i的恒等函数的转置，F(q_j)表示q_j的恒等函数；然后使用attention机制计算特征表示。

进一步地，所述的使用attention机制计算特征表示得到的attention系数后，分别乘以问题和问答路径上下文得到两个新的向量，两个句向量经过全连接网络后，进行矩阵相乘，得到两个句子在字维度上的相似度，之后经过softmax得到一个系数后乘以原句向量：

其中，p’和q’是问题序列和问答路径上下文的输出向量，它们通过另一个序列表示的加权求和来计算；求和通过当前位置与另一序列中相应位置的相似度得分加权，p’_i表示第i个位置的问题序列的输出向量，q’_j表示第j个位置的问答路径上下文的输出向量，i的取值为1到|p|，j的取值为1到|q|；e_ik表示p_i和q_k的相似性分数，k的取值为1到|q|，e_kj表示p_k和q_j的相似性分数，k的取值为1到|p|；

3.4)Fusion层，使用单层全连接网络将前面得到的向量进行语义混合:

更步骤3.4)中，G1，G2，G3和G是带有独立参数的单层全连接网络，用来控制维度；“；”表示直接拼接，“-”表示减法操作，“ο”表示乘法操作；其中，p_i表示第i个问答路径上下文，p’_i表示第i个位置的问题序列的输出向量，是p_i和p’_i直接拼接后的结果值，是p_i与p_i-p’_i拼接后的结果值，是p_i与p_iοp’_i拼接后的结果值，是与拼接后的结果值；

3.5)Fusion层的输出输入Pooling层，并转化为向量v₁和v₂，作为Prediction层的输入；

3.6)Pooling层中两个序列v₁和v₂的向量表示作为Prediction层的输入，以多层前馈神经网络进行二分类预测：

其中，H是一个多层前馈神经网络，表示第i个预测分数，表示所有类的预测分数，argmax表示对求集合。

有益效果：与现有技术相比，提出基于图上下文编码的复杂问题智能问答模型SPE-QA；基于依存句法分析来区分关系的复杂程度，初步筛选出候选子图范围；通过基于尾部实体和关系类型的剪枝方法，进一步对候选子图进行剪枝，以减少候选子图中错误路径在模型训练时带来的干扰；训练基于神经网络的短文本匹配模型使得问题和正确的问答路径上下文的匹配得分较高。本发明的效果为：有效降低候选子图范围，相较于现有方法，在部分复杂问题上取得更高的精确度。

本发明的SPE-QA，在构建新的问答数据集时，基于依存句法分析问题中关系的复杂程度，初步筛选出候选子图范围；训练关系路径类型选择器，进一步对候选子图进行剪枝；构建基于神经网络的短文本匹配模型，使得问题和正确的问答路径上下文的匹配得分较高。本发明能有效降低候选子图范围，在部分复杂问题上获得更高的精准度。

附图说明

图1为本发明方法的实施流程图；

图2为依据本发明方法实现的SPE-QA模型框架图；

图3为依据本发明方法实现的候选答案子图；

图4为依据本发明方法实现的RE2模型改进框架图。

具体实施方式

为了详细的说明本发明所公开的技术方案，下面结合说明书附图及具体实施例做进一步的阐述。

1)候选子图剪枝模块，包括基于尾部实体的剪枝和基于关系类型的剪枝。其中基于尾部实体的剪枝删除尾部关系类型不相关的问答路径上下文，将保留的候选问答路径上下文和问题一起输入到语义匹配模型中训练。基于关系类型的剪枝方法通过关系路径类型选择器，只保留候选子图中相关类型的问答路径上下文进行后续操作；

2)语义匹配模块，将多关系的复杂问答过程转化成短文本匹配过程，即问题句和候选问答路径上下文序列的匹配问题。基于RE2模型，使用BERT预训练模型，对问题句和问答路径上下文的词及位置同时编码。

具体地，基于嵌入式和候选子图剪枝的复杂问题知识库问答方法，包括如下步骤：

(1)定义了问答路径上下文新概念，并构建一个基于图上下文编码的复杂问题智能问答模型SPE-QA；

(2)基于依存句法分析问题中关系的复杂程度，初步筛选出候选子图的范围；

(3)通过两种剪枝方法，进一步缩小候选子图的范围；

(4)通过基于神经网络的短文本匹配模型，计算问题和问答路径上下文的相似度，获得正确的问答路径上下文，从而找到答案实体。

步骤(1)构建一个基于图上下文编码的复杂问题智能问答模型SPE-QA包括以下步骤：

(11)将知识图谱抽象表示为G＝{E,R,F}，其中G表示知识图谱，E，R，F分别表示实体、关系和事实的集合。在一个原子事实(h,r,t)∈F中，(h,r,t)表示一个三元组，h、r和t分别表示这个三元组的头实体、关系和尾实体，其中r∈R。将实体集合中的某个实体定义为e，且e∈E。特别的，将聚类后的关系类型的集合定义为T＝{T₁,T₂,…,T_m}，m为聚类后的关系的数量，T_i表示聚类后的第i个关系，i的取值为1到m；

(12)给定一个问题序列q，区别于其他问答路径，将问答路径上下文p定义为p＝{e_s；r₁；e₁；r₂；e₂；...；e_a}，其中e_s代表问题中主题实体，e_a代表知识图谱中的答案实体,r₁表示问答路径上下文中主题实体的下一个关系，e₁表示问答路径上下文中与r₁相连的实体，“；”代表序列拼接。而问答路径上下文不仅包括主题实体和答案实体，还包含两者之间的所有中间关系和中间实体；并定义候选答案子图S为问答路径上下文的集合，表示为S＝{p₁,p₂,...,p_n}，其中n为候选问答路径上下文的数量；

(13)为了充分利用知识图谱中节点和结构的丰富信息，构建基于问答路径上下文编码的复杂问题智能问答模型SPE-QA，包括两个主要部分：子图剪枝和语义匹配；

步骤(2)基于依存句法分析问题中关系的复杂程度，初步筛选出候选子图的范围，具体如下：

(21)将知识库中的三元组存储在Virtuoso数据库中，然后利用链接实体通过SPARQL查询语句查询数据库，将距离链接实体2-HOP或3-HOP的实体作为候选答案实体，并保留中间的所有实体和关系以形成候选子图；

(22)分词时使用空格分词，针对混合数据集，使用Hanlp对文体局进行依存句法分析来区分问题的复杂程度；

(23)词性标记过程中问句中的关键词会被标注为NN或NNP，其中NN表示问题中的实体词，NNP表示问题中的关系词。当count(NN+NNP)≤2时为2-HOP，当count(NN+NNP)≥4时为3-HOP，当count(NN+NNP)＝3时为2-HOP或3-HOP。此方法在一定程度上缩减了候选子图的范围，获得候选问答路径上下文；

步骤(3)将采用基于尾部关系类型和基于关系类型两种剪枝方法进一步筛选候选子图，删除不相关的问题答案路径。具体如下：

(31)对于基于尾部关系类型的剪枝方法，首先构建关系类型映射文件，将知识库关系进行简单聚类，判断知识库中两种类型是否相关后，保留尾部关系类型相关的问答路径上下文p作为候选问答路径上下文，并与问题句构成新的问答数据集，输入到问答句匹配模型中进行训练；

(32)对于基于关系类型的剪枝方法，将问题和关系词类型作为输入，预测问题中的关系词所属的域类型，然后输出与问题最相关的三种关系类型，在候选子图中只保留相关类型的问答路径上下文路径。为了构建关系类型选择器，首先将不同知识库的关系类型简单聚类成关系的域类型T，然后构建基于知识库问题和关系类型匹配的多标签数据集进行训练和测试，来标记问题的正确问答路径上下文所属的关系域类型；

更步骤(32)在构建基于知识库问题和关系类型匹配的多标签数据集过程中，包含多个三元组(code,question,labels)，其中，code表示问题的唯一标识，question表示问题，labels以向量的形式表示，并以一种类似于one-hot编码的形式进行编码，其中每个元素用1或0来表示，表示问题中的关系属于域关系的类型。

在关系类型选择器的训练过程中，首先用BERT预训练模型在大型语料上进行无监督的训练，然后用预训练的参数，对下游任务进行微调来用于多标签分类任务。模型的全连接层融合了这些特征参数，并将问题标记上相关的一系列域类型，由于每一个关系类型都是独立不相关的，因此对标签中的每个关系类型使用sigmoid激活函数来计算其概率：

其中，a为labels的概率，a_i表示第i个labels的概率，logits为全连接层的概率，logits_i为第i个labels的全连接层的概率，sigmoid(logits_i)表示对logits_i归一化，i的取值为1到m，m为聚类后的关系的数量。然后采用梯度法最小化预测概率值a_i和目标值y_i之间的交叉熵：

其中，loss()是损失函数，a是预测概率值，y是目标值，a_i是第i个预测概率值，y_i表示第i个目标值，i的取值为1到d，d为聚类后的关系的数量。

在构建关系类型选择器之后，首先用这个类型选择器预测问题中的关系词最有可能属于的域类型，然后用输出的labels对候选子图进行剪枝，只保留至少包含一个属于top-k域类型关系的问答路径上下文。当一个问答路径上下文中包含不属于域类型中的关系，该问答路径上下文也会被删除。最后将保留的候选问答路径上下文和问题作为语义匹配模型的术语，以获得候选答案实体，完成整个自动回答的流程；

步骤(4)在得到剪枝后的候选问答路径上下文之后，多关系的复杂问答过程就转化成了短文本匹配过程，即问题和候选问答路径上下文序列的匹配问题。受基于CNN的快速短文本匹配模型RE2所启发，在RE2模型基础上做了改进，使用BERT预训练模型，对文体局和问答路径上下文的词以及词位置同时进行编码，得到词的初始化向量表示，会随着上下文的不同而变动，从而解决一词多义的问题。具体步骤如下：

(41)BERT预处理，使用BERT初始化问题和问答路径上下文的向量表示，因为SPE-QA模型不仅要考虑语义上下文信息，还要考虑位置信息。每个初始化的向量由残差循环融合网络处理，包含Encoder层、Alignment层、Fusion层；

(42)Encoder层，是残差循环的block的入口，初始化的向量进入此block中，其中包含多层卷积神经网络的特征提取层，计算p和q的上下文特征作为矩阵p^*和q^*，问题序列q被标记为q^*＝(q₁,q₂,...,q_|q|)，q^*表示问题序列对应的矩阵，|q|表示问题序列中问题的数量，问答路径上下文p被标记为矩阵p^*＝(p₁,p₂,…,p_|p|)，p^*表示问答路径上下文对应的矩阵，|p|表示问答路径上下文的数量；

(43)Alignment层，使用attention机制实现句子信息交互，得到两个句子的交互向量，更新词向量。相似性分数e_ij用点击方式求得：

e_ij＝F(p_i)^TF(q_j) (3)

更步骤(43)中，e_ij表示p_i和q_j的相似性分数，F表示一个恒等函数或一个单层前馈神经网络，p_i表示第i个问答路径上下文，i的取值为1到|p|，q_j表示第j个问题，j的取值为1到|q|，F(p_i)表示p_i的恒等函数，F(p_i)^T表示p_i的恒等函数的转置，F(q_j)表示q_j的恒等函数。然后使用attention机制计算特征表示。在得到attention系数后，分别乘以问题和问答路径上下文得到两个新的向量，两个句向量经过全连接网络后，进行矩阵相乘，得到两个句子在字维度上的相似度，之后经过softmax得到一个系数后乘以原句向量：

其中，p’和q’是问题序列和问答路径上下文的输出向量，它们通过另一个序列表示的加权求和来计算。求和通过当前位置与另一序列中相应位置的相似度得分加权，p’_i表示第i个位置的问题序列的输出向量，q’_j表示第j个位置的问答路径上下文的输出向量，i的取值为1到|p|，j的取值为1到|q|。e_ik表示p_i和q_k的相似性分数，k的取值为1到|q|，e_kj表示p_k和q_j的相似性分数，k的取值为1到|p|；

(44)Fusion层，使用单层全连接网络将前面得到的向量进行语义混合:

更步骤(44)中，G1，G2，G3和G是带有独立参数的单层全连接网络，用来控制维度。“；”表示直接拼接，“-”表示减法操作，“ο”表示乘法操作；其中，p_i表示第i个问答路径上下文，p’_i表示第i个位置的问题序列的输出向量，是p_i和p’_i直接拼接后的结果值，是p_i与p_i-p’_i拼接后的结果值，是p_i与p_iοp’_i拼接后的结果值，是与拼接后的结果值。

(45)Fusion层的输出输入Pooling层，并转化为向量v₁和v₂，作为Prediction层的输入；

(46)Pooling层中两个序列v₁和v₂的向量表示作为Prediction层的输入，以多层前馈神经网络进行二分类预测：

实施例

本发明公开的是一种基于问答路径上下文编码的复杂问题智能问答模型SPE-QA，其基本架构图见图2，其中，图2中的(a)包括基于尾部实体的候选子图剪枝和语义匹配模型；图2中的(b)包括基于关系类型的候选子图剪枝和语义匹配模型。本方法所提出的SPE-QA模型可以具体应用在基于知识图谱的智能问答上。其整体实施流程架构如图1所示，本实施例以在FB13构建的图谱上进行查询、剪枝、语义匹配、回答为例，具体步骤如下：

步骤一：根据问题q:what faith doesGeorge_of_saxony’s child have？识别出主题实体e_s:George_of_saxony。

步骤二：获得候选子图，形成问答路径上下文，包含以下步骤：

(21)将知识库三元组存储在Virtuoso数据库中，根据主题实体链接到的链接实体“George_of_saxony”，使用SPARQL语句查询数据库中距离链接实体“George_of_saxony”2-HOP或3-HOP的实体作为候选答案实体并保留查找的中间完整路径形成候选子图，如图3所示。SPARQL语句如下：

SELECT distinct？rel,？z,？rel2,？a

WHERE{

＜Georgeofsaxony＞？rel？z.

？z？rel2？a.

}

其中，George_of_saxony为主题实体对应的链接实体，rel为与链接实体相连的第一个关系，z为与链接实体相连的第一个中间实体，rel2为为与链接实体相连的第二个关系，a为候选答案实体。

(22)根据候选子图得到问答路径上下文，其中正确的问答路径上下文由实线连接：

p＝(georgeofsaxony；children；

princejohanngeorgofsaxonyreligion；romancatholicchurch)

Claims

1.基于嵌入式和候选子图剪枝的复杂问题知识库问答方法，其特征在于：提出了基于图上下文编码的复杂问题智能问答模型SPE-QA，包括以下模块：

1)候选子图剪枝模块，包括基于尾部实体的剪枝和基于关系类型的剪枝；其中基于尾部实体的剪枝删除尾部关系类型不相关的问答路径上下文，将保留的候选问答路径上下文和问题一起输入到语义匹配模型中训练；基于关系类型的剪枝方法通过关系路径类型选择器，只保留候选子图中相关类型的问答路径上下文进行后续操作；所述的候选子图剪枝模块中，包括以下步骤：

2.2)对于基于关系类型的剪枝方法，将问题和关系词类型作为输入，预测问题中的关系词所属的域类型，然后输出与问题最相关的三种关系类型，在候选子图中只保留相关类型的问答路径上下文路径；为了构建关系类型选择器，首先将不同知识库的关系类型简单聚类成关系的域类型T，然后构建基于知识库问题和关系类型匹配的多标签数据集进行训练和测试，来标记问题的正确问答路径上下文所属的关系域类型；

所述的步骤2.2)具体过程如下：

2.21)在构建基于知识库问题和关系类型匹配的多标签数据集过程中，包含三元组code,question,labels，其中，code表示问题的唯一标识，question表示问题，labels以向量的形式表示，并以一种类似于one-hot编码的形式进行编码，其中每个元素用1或0来表示，表示问题中的关系属于域关系的类型；

2.22)在关系类型选择器的训练过程中，首先用BERT预训练模型在大型语料上进行无监督的训练，然后用预训练的参数，对下游任务进行微调来用于多标签分类任务，模型的全连接层融合了这些特征参数，并将问题标记上相关的一系列域类型，由于每一个关系类型都是独立不相关的，因此对标签中的每个关系类型使用sigmoid激活函数来计算其概率:

其中y_i＝labels，表示问题中的关系属于域关系的类型；

2.23)在构建关系类型选择器之后，首先用这个类型选择器预测问题中的关系词属于的域类型，然后用输出的labels对候选子图进行剪枝，只保留至少包含一个属于top-k域类型关系的问答路径上下文。当一个问答路径上下文中包含不属于域类型中的关系，该问答路径上下文也会被删除。最后将保留的候选问答路径上下文和问题作为语义匹配模型的术语，以获得候选答案实体，完成整个自动回答的流程；

2.根据权利要求1所述的基于嵌入式和候选子图剪枝的复杂问题知识库问答方法，其特征在于：所述的语义匹配模块中，包括以下步骤：

3.2)Encoder层，是残差循环的block的入口，初始化的向量进入此block中，其中包含多层卷积神经网络的特征提取层，计算p和q的上下文特征作为矩阵p^*和q^*，问题序列q被标记为q^*＝(q₁,q₂,,q_|q|)，q^*表示问题序列对应的矩阵，|q|表示问题序列中问题的数量，问答路径上下文p被标记为矩阵p^*＝(p₁,p₂,,p_|p|)，p^*表示问答路径上下文对应的矩阵，|p|表示问答路径上下文的数量；

e_ij＝F(p_i)^TF(q_j) (3)

3.根据权利要求2所述的基于嵌入式和候选子图剪枝的复杂问题知识库问答方法，其特征在于：所述的使用attention机制计算特征表示得到的attention系数后，分别乘以问题和问答路径上下文得到两个新的向量，两个句向量经过全连接网络后，进行矩阵相乘，得到两个句子在字维度上的相似度，之后经过softmax得到一个系数后乘以原句向量：

其中，p'和q'是问题序列和问答路径上下文的输出向量，它们通过另一个序列表示的加权求和来计算；求和通过当前位置与另一序列中相应位置的相似度得分加权，p'_i表示第i个位置的问题序列的输出向量，q'_j表示第j个位置的问答路径上下文的输出向量，i的取值为1到|p|，j的取值为1到|q|；e_ik表示p_i和q_k的相似性分数，k的取值为1到|q|，e_kj表示p_k和q_j的相似性分数，k的取值为1到|p|；

更步骤3.4)中，G1，G2，G3和G是带有独立参数的单层全连接网络，用来控制维度；“；”表示直接拼接，“-”表示减法操作，表示乘法操作；其中，p_i表示第i个问答路径上下文，p_i'表示第i个位置的问题序列的输出向量，是p_i和p_i'直接拼接后的结果值，是p_i与p_i-p_i'拼接后的结果值，是p_i与拼接后的结果值，是与拼接后的结果值；

y＝argmax_iy_i (8)

其中，H是一个多层前馈神经网络，y_i表示第i个预测分数，y表示所有类的预测分数，argmax表示对y_i求集合。