CN111581365A

CN111581365A - 一种谓词抽取方法

Info

Publication number: CN111581365A
Application number: CN202010374689.XA
Authority: CN
Inventors: 吴昊; 陈森; 俞晓云; 礼欣
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2020-08-25
Anticipated expiration: 2040-05-07
Also published as: CN111581365B

Abstract

本发明提出一种谓词抽取方法，属于知识图谱问答领域。针对谓词抽取，本发明提供了一种全新的谓词抽取框架模型，通过使用神经网络对谓词、问题进行特征表示后计算二者的相似度实现；进一步，基于该谓词抽取方法，提供一种简单问答系统的实现方法，提高了问答系统的准确率；此外，对候选池生成方法进行改进，在降低其规模的同时有效提高了实体召回率；同时，提出一种启发式标签编码算法，应用于谓词抽取模型的初始化。对比现有技术，本发明使用软直方图和自注意力的模型用于谓词抽取，其通过特征矩阵更好地保留了问题的全局信息，提出的上述方法，以更少的资源，更简单的算法过程提高了问答系统的鲁棒性和准确率。

Description

一种谓词抽取方法

技术领域

本发明涉及一种谓词抽取方法，特别涉及一种在知识图谱问答系统中提高谓词抽取性能并基于此实现简单问答系统的方法，属于知识图谱问答技术领域。

背景技术

随着互联网技术的蓬勃发展各种类型的网络信息呈爆炸式增长，万维网(World-Wide-Web,WWW)已发展成为大型分布式全球信息集散地。然而网络是一把双刃剑。一方面，大量信息涌入互联网，为信息服务提供了强有力支撑，网络已经成为获取知识和信息的重要途径。另一方面，网络信息的多样性、无序性、分散性以及信息污染给信息的获取造成了干扰。如何高效地进行网络信息的检索，如何依据网络用户的查询请求帮助他们海量数据中准确迅速地选择出需要的信息。搜索引擎技术应运而生。依托于庞大的商业计算机群和强有力的搜索核心算法，用户逐渐习惯于使用搜索引擎进行信息检索。

随着各大搜索引擎服务的日趋完善，人们不再满足于传统的文档检索。他们更希望直接获取所查询问题的准确答案而不是一组包含指定关键词的文档。基于此需求，智能问答任务已成为工业界和学术界的研究热点。一个典型的问答系统涉及信息检索，信息抽取，自然语言处理三大研究领域。该系统的主要任务是通过自然语言处理理解问题，通过信息检索获取相关文档，通过信息抽取生成答案，从而将最终结果返回给用户。根据搜索领域划分，问答系统可以分为闭域问答和开域问答系统，分别对应垂直搜索领域和通用搜索领域。闭域问答任务因其需要处理的数据规模较小而可以被看作是更简单的任务。开域问答系统处理几乎各种类型的问题，包括事实型、枚举型、定义型、假设型、语义约束型和跨语言型等。因此，如何从庞大的数据规模中高效快速地抓取有用信息成为构建开域问答系统的一大难题。近年来，知识图谱研究工作的推进为开域问答系统的研究提供了助力。

目前，在自然语言处理领域，知识图谱已成为构建知识型数据库的有效手段，用以进行知识获取和推理，从而回答用户提出的问题。知识图谱中的节点，又称实体，由统一资源定位符(Uniform Resource Locator,URI)标识。节点与节点之间通过具有显式语义关系的有向边连接在一起，共同构成了知识图谱，而以特定节点为中心的知识图谱子图形成了具体的概念。由于知识图谱中的知识通常以三元组的形式进行存储，天然地对应了自然语言语句中的主语、谓语和宾语，所以知识图谱可以很方便地应用于智能问答任务中。

不同于需要多级推理能力的复杂问答系统，简单问答系统在知识图谱中寻找单跳路径来检索问题的答案。我们将仅涉及单个三元组的问题称之为一阶事实型问题或简单问题。事实上，这些涉及“何时”、“何地”、“是什么”、“哪一个”等简单查询的一阶事实型问题构成了通用搜索查询的主要部分。此外，随着大规模知识图谱结构的不断完善，例如，CN-DBPedia,Satori，谷歌知识图谱等，许多复杂问题可以降级为一阶事实型问题。简单问答任务无论在商业还是在学术上都有着重要地位，该任务虽然称之为“简单”却远未解决。如何将自然语言问题中的主语链接到知识图谱中的节点，如何从富于变换的问法中抽取出真正的谓语，仍然是知识图谱问答任务中的研究热点。现有知识图谱问答系统的框架模型如下：

现有知识图谱以三元组(主语，谓语，宾语)的形式存储知识，我们将这种三元组表示为(s，p，o)。由于一阶自然语言问题q具有唯一主语s和一阶谓词p，因此一阶事实型问答只涉及知识图谱中的一个三元组。具体来说，一阶知识图谱问答(Knowledge GraphQuestion Answering，KGQA)系统的目标是从自然语言问题中抽取主语s^*和谓词p^*，然后通过结构化查询语言从知识图谱中查找满足s＝s^*且p＝p^*条件的三元组(s，p，o)，最终将答案o返回。该系统可以使用概率公式建模如下：

其中，KG表示完整知识图谱，q表示自然语言问题，P(p，s|q)表示在已知问题q的情况下，知识图谱中的谓词p和主语s与问题q匹配的概率，P(p|q)表示在已知问题q的情况下，知识图谱中的谓词p与问题q匹配的概率，P(s|p，q)表示在已知问题q和确定谓词p的情况下，知识图谱中的主语s与问题q匹配的概率。由于知识图谱的规模通常非常庞大，即使上述模型采用贝叶斯公式将模型进行了分解，计算复杂度依然很高且模型准确率极低，因此KGQA系统通常采用知识图谱剪枝后的子图C检索自然语言问题的答案。其概率建模如下：

尽管对知识图谱进行剪枝会导致模型只能获得次优解，但是该方法有助于减少冗余信息，极大地提高推断效率。因此，KGQA任务可以被分解为三大步骤：候选池生成，谓词抽取，主语抽取。

步骤一：候选池生成

本步骤目的为缩减需要计算的知识图谱规模。根据自然语言问题q对知识图谱KG进行剪枝获得与问题相关联的知识图谱子图C。进一步可以划分为两个子步骤，即主语短语标注任务和知识图谱匹配任务。

步骤一(a)：主语短语标注。该步骤目的为标注出自然语言问题q中最有可能是主语的词序列，称之为主语相关短语g^*。公式表示如下：

g^*＝argmax_g∈G(q)P(g|q)

其中，G(q)表示对于自然语言问题q所有可能的n元语法集合，n＝1，...，|q|，|q|表示问题q中词语的个数，一个词串的n元语法是指该词串中长度为n的连续子词串。P(g|q)表示问题q的一个n元语法g是问题q的主语的概率，其建模了主语相关短语标注模型，用以生成主语相关短语。

具体操作为：

自然语言问题可以表示为：

q＝[w₁，w₂，…，w_i，…，w_|q|]

其对应标签形式为：L＝[I(w₁∈g^*)，I(w₂∈g^*)，…，I(w_i∈g^*)，…，I(w_|q|∈g^*)]，其中I(·)是指示函数，g^*是真实主语；w_i为问题q中的词语。

由于主语通常由多个词语组成，该任务的标签应该有多个连续的1，剩余非主语部分全为0。将最长的连续标识为1的多个词语取出，即为主语相关短语。

步骤一(b)：知识图谱匹配

该步骤根据匹配策略在知识图谱中查找名字与步骤一(a)所得结果g^*匹配的所有节点，以这些节点及其有向边指向的一阶邻节点构成的子图为剪枝后的知识图谱C。用公式表示如下。

C＝{(s，p)|MF(s，g^*)＝1，I((s，p，o)∈KG)＝1}

其中，KG表示完整的知识图谱；MF(s，g^*)是匹配函数，表示知识图谱中节点s与主语相关短语g^*之间的匹配程度，若匹配则函数值取1，否则为0。I(·)为指示函数，I((s，p，o)∈KG)＝1用于约束候选池中的谓词必须属于原始知识图谱中从主语所在节点出发的有向边。

该步骤关键一步为对匹配函数MF(s，g^*)进行设计。当前主流方法通常采用严格匹配，仅查找节点名完全匹配主语相关短语或n元语法的知识图谱实体。然而，实际问题中情况比较复杂，比如在自然语言问题“水浒的作者是谁？”中，对于主语“水浒”，如果知识图谱对应的节点名和别名列表中只有“水浒传”而没有“水浒”，则无法通过上述方法找到匹配的知识图谱节点。

步骤二：谓词抽取本步骤在步骤一所得结果知识图谱子图C上优化概率模型P(p|q)，即从C所包含的候选谓词中抽取自然语言问题q对应的谓词p。该任务属于多分类任务，即对候选谓词按与问题q匹配的概率进行排序，概率建模如下：

其中，θ将概率模型参数化，代表模型中所有待训练参数权重；w_pi表示谓词p_i对应的权重参数向量；v(q)是自然语言问题q的特征表示向量，n_p表示候选谓词数目。该模型的输出为维度为n_p的条件概率向量

其中概率最高的谓词即为预测谓词。多分类模型通常采用交叉熵损失函数更新模型参数：

其中，

是训练数据集；(q，t)是训练集

中的样例；q代表自然语言问题输入；t代表样例q对应的知识图谱谓词；n_p表示候选谓词的数目，谓词是个向量，t_i表示候选谓词中的第i个谓词的表示向量。

步骤三：主语抽取

本步骤在知识图谱子图C上优化概率模型P(s|p.q)，即在步骤二得到谓词p的条件下，从C的候选主语中抽取问题q对应的主语s。由于主语抽取模块比较简单，只要在C上反向查找谓词p的上一节点即可，在获得q对应的主语s、谓词p后，直接输入RDF(ResourceDescription Framework)引擎查询，即可在知识图谱中查到宾语节点作为该问题q的答案。

现有的基于上述框架实现的问答系统还不能满足人们日益增长的物质文化需要，因此，有必要进一步提高简单问答系统的性能及准确率。而上述谓词抽取模块目前大都基于神经网络实现，而其主流方法是使用循环神经网络将自然语言问题q在空间中的表示从矩阵压缩为与谓词表示一致的向量，这种方法可能使问题的表示分布失真并且遭受长距离依赖不足的困扰，从而降低了问答系统的准确率。

发明内容

本发明的目的是为部分或全部解决上述问题，提供一种谓词抽取方法，并基于此提供一种更高效，更鲁棒的知识图谱问答系统的实现方法。

本发明的主要思想为对知识图谱问答系统的谓词抽取框架提出新的实现方法，克服已有方法的缺点。本发明将谓词抽取框架分割成三部分：问题特征表示模型，谓词特征表示模型和相似度计算模型。针对问题特征表示，本发明设计了一种基于自注意力机制的神经网络模型，改进了循环神经网络在长距离依赖方面的不足；针对谓词特征表示，本发明设计单层权重共享前馈神经网络模型，提高了模型稳定性并降低了系统复杂度。针对相似度计算，本发明设计了一种基于软统计分布直方图的计算模型，解决了问题模板表示和谓词特征表示维度不一致的问题。综合以上方法，最终实现了知识图谱问答系统准确率的有效提升。

本发明的目的是通过以下技术方案实现的：

第一方面，本发明提供一种谓词抽取方法，所述方法通过下式所示框架模型实现：

其中，T(q)是自然语言问题q的特征表示，p(p_i)是所述q的候选谓词p_i的特征表示，n_p表示候选谓词的数量，s(·)是相似度计算函数，用于计算自然语言问题和候选谓词之间的相似度得分，θ将整个框架模型参数化，代表了模型中所有待训练的参数权重，P_θ(p_i|q)得到所有n_p个候选谓词的概率。

作为优选，所述T(q)通过下述过程获得：

首先，将所述q去除所述主语相关短语后的词序列输入到嵌入表示层得到输出

其中，n_q是所述q屏蔽主语相关短语后的问题序列长度；

其次，将E传入三个深度神经网络DNN^Q，DNN^K和DNN^V后分别得到三个输出矩阵

和

以Q为注意力中心计算每个词表示向量q_i和K之间的相似度向量a_i，从而获得注意力权重分布矩阵

接下来通过计算V以相似度向量a_i为权重的加权和向量

获得自注意力输出矩阵

最后，根据如下公式计算得到问题特征表示矩阵T：

所述p(p_i)通过下述公式获得：

p＝p^word+W_p e^pred

其中，p^word为候选谓词的词语级表示向量，为将候选谓词p_i按词分割后分别表示为词向量，并用这些词向量初始化嵌入表示层，随后通过权重共享前馈神经网络，再经最大池化得到；其中，i为小于等于n_p的自然数；e^pred为候选谓词的谓词级表示向量，为将候选谓词p_i经编码后初始化嵌入表示层，随后经线性前馈神经网络后输出得到W_p e^pred，该网络权重为W_p；

所述s(·)通过下述过程计算：

首先，采用余弦相似度作为度量，通过下式计算相似度向量

m_i＝cos(t_i，p)

其中，t_i是所述自然语言问题q中屏蔽主语相关短语后第i个词语的特征表示向量，p是所述自然语言问题q的候选谓词的特征表示向量；

其次，利用统计分布直方图，将相似度向量的值所在区间划分成v个分箱，计数相似度向量m中落入各个分箱的元素数量，获得统计分布结果c＝[c₁，c₂，...，c_v]；

最后，将统计分布送入一个全连接层可以获得最终的相似度得分s，表示如下：

s＝tanh(w^Tc+b)

其中，w是全连接层权重，b是全连接层偏移量。

作为优选，所述深度神经网络为单层线性前馈神经网络。

作为优选，所述相似度计算方法采用加式方法。

作为优选，所述编码采用如下启发式标签编码方法：

设定标签类别的嵌入表示向量维度k和衰减因子α，根据不等式：

k-log₂(n)≥2(d_min-1)-log₂(d_min)

令n＝n_p，计算最小汉明距离上界

然后生成k个取值范围为{-1，1}的独立样本，组成标签类别的候选嵌入表示向量t_i，将t_i与之前生成的所有标签L[j]进行计算，如果满足

则t_i为第i个类别的嵌入表示向量，否则继续采样，直到满足条件为止，最后得到所有候选谓词的标签编码t；其中i为小于等于n_p的自然数，j为小于i的自然数。

作为优选，所述统计分布结果c采用如下高斯径向基函数计算：

其中，μ表示高斯分布的均值，σ表示高斯分布的标准差，v表示高斯核的个数。

作为优选，所述框架模型的损失函数为：

其中，q是数据集

中的问题样本，t是问题样本对应的谓词标签，

是根据问题q生成的候选谓词集合；

是除t以外的候选谓词集合；p(·)表示谓词特征表示向量；T(·)表示问题特征表示矩阵；γ表示预定义的铰链损失(Hinge Loss)裕度。

第二方面，本发明提供一种基于知识图谱匹配的简单问答系统的实现方法，包括以下步骤：

步骤1、根据自然语言问题生成候选池C；

步骤2、从所述C所包含的候选谓词中从第一方面提供的任一方法中抽取所述自然语言问题q对应的排名靠前的z个谓词，对每个谓词p，重复步骤3和步骤4；其中z为自然数；

步骤3、根据所述p从所述C的候选主语中抽取所述q对应的主语s；

步骤4、将所述s和所述p输入所述知识图谱的RDF引擎得到宾语作为所述q的答案。

作为优选，所述候选池C通过下述过程获得：

步骤1、对自然语言问题q进行主语相关短语标注得到主语相关短语g^*；

步骤2、对g^*采用如下非严格N元语法字符串匹配方法在知识图谱中查找匹配的节点得到候选主语集合E：

以词串g^*为关键词在知识图谱中查找节点名或别名完全相同的节点，并将该节点的标识符加入候选主语集合E；

如果E为空，则继续查找节点名或别名部分匹配g^*的节点，并将其加入候选集合E；

如果E仍然为空，令N＝|g^*|-1，其中|g^*|表示g^*中词语的数量，并执行以下循环：首先生成g^*所有可能的N元语法集合G_N，然后以g_N∈G_N为关键词在知识图谱中查找节点名或别名完全匹配的节点；如果不存在匹配的节点，令N＝N-1并继续执行此循环，否则将所有匹配节点的标识符加入E并跳出循环；

步骤3、将知识图谱中从E中元素出发的有向边抽取出来得到候选谓词集合P；则知识图谱中候选主语所在节点及其有向边共同构成了候选池C。

作为优选，所述g^*通过下述过程获得：首先收集q中所有被连续标注为主语成分的n元语法，其中1≤n≤|q|，|q|表示问题中词语的数量；然后合并仅间隔一个非标注词语的n元语法，合并后最长的n元语法被选为主语标注短语g^*。

有益效果：

对比现有技术，本发明具有以下特点：

1、设计了全新的谓词抽取框架模型，提升了谓词抽取的准确率，进而提升了简单问答系统的准确率；

2、设计的基于软统计分布直方图和自注意力机制的谓词抽取框架，通过特征矩阵更好地保留了问题的全局信息，提高了谓词抽取的准确性，并且提出的启发式标签嵌入编码算法也提高了简单问答系统的效率，以更少的资源、更简单的算法过程实现了鲁棒性和准确率的提升；

3、采用非严格N元语法字符串匹配方法对匹配函数MF(s，g^*)进行设计，以克服知识图谱节点名和主语短语之间的词汇差异；在提高召回率和降低平均候选池规模之间取得了平衡，应用于简单问答系统，既提高了目标主语节点出现在候选池中的可能，又未将候选池规模大幅扩大；

4、在提取自然语言问题q的主语标注短语g^*时，将仅间隔一个非标注词语的n元语法进行合并，从而确保标注的主语成分的连续性，进而提高候选池的性能。

附图说明

图1为知识图谱问答系统的工作流程图；

图2知识图谱问答系统任务示意图；

图3为非严格N元语法字符串匹配策略流程图；

图4是基于单层权重共享前馈神经网络的谓词特征表示模型图；

图5是基于自注意力机制的问题特征表示模型图；

图6是基于软统计分布直方图的相似度计算模型；

图7是启发式标签编码算法在通用多分类模型上的准确率曲线；

图8为本发明提出方法的整体流程示意图。

图9为本发明具体实现过程流程图。

具体实施方式

下面结合附图和示例对本发明进行详细介绍。

图1展示了一个知识图谱问答系统的工作流程。图2为一般知识图谱问答系统的示意图。整个系统主要目的为理解用户的问题，然后从知识图谱中找到相应答案并反馈给用户。举例来讲，如果用户提出问题“双峰位于哪个州？”，在知识图谱有与之对应的三元组(双峰，所属地区，加利福尼亚州)，问答系统需要识别问题中的主语(双峰)和谓语(位于)，然后在知识图谱中查询即可直接获得答案。由于一个问题的问法变化形式较多，如何从各种变化中准确识别谓语是该问题的一大挑战。同时问题中的谓语与知识图谱中的谓词表达形式又有差异。如何解决表达差异也是需要解决的问题。本发明对以上问题提出新的解决方案，下面结合实例及图8，图9来进一步阐述。图8展示了一种基于知识图谱匹配的简单问答系统的实现方法基于此例的整体示意。图9则为一种基于知识图谱匹配的简单问答系统的实现方法的具体实施方式流程。

例子：what instrument dose Taylor play...

步骤1、生成候选池C

本步骤可以按传统的方法生成候选池。但为了提高目标主语节点出现在候选池中的可能，又不将候选池规模大幅扩大，本例采用如下过程生成候选池：

一、主语相关短语标注

问题可以表示为：

q＝[what，instrument，dose，Talor，play，...]

然后对问题的主语进行标签编码。示例问题中的主语应为Talor，编码结果应为[0，0，0，1，0，...]。

由于示例问题比较简单，真实情况可能会遇到更复杂的问题，主语成分也会更复杂。此时可能会出现主语词汇之间间隔有非主语词汇，因此，较优的，为了保证主语的连续性，将间隔一个非主语词汇的n元语法进行合并，最后选择最长的n元语法作为主语相关短语。

二、知识图谱匹配

上一步已从问题中抽取出主语相关短语，现在根据所抽取的主语短语在知识图谱中寻找与其匹配的主语节点，此处采用非严格N元匹配算法，算法流程如图3所示：

首先，考虑到g^*是最有可能的主语，本发明先以词串g^*为关键词在知识图谱中查找节点名或别名完全相同的节点，并将该节点的标识符加入候选主语集合E；

如果E仍然为空，为了进一步提高主语召回率，令N＝|g^*|-1，其中|g^*|表示g^*中词语的数量，并执行以下循环：首先生成g^*所有可能的N元语法集合G_N，然后以g_N∈G_N为关键词在知识图谱中查找节点名或别名完全匹配的节点；如果不存在匹配的节点，令N＝N-1并继续执行此循环，否则将所有匹配节点的标识符加入E并跳出循环。

然后再根据主语节点寻找从其出发的有向边，即对应的谓词。主语节点和谓词共同构成候选池。如，生成主语节点Talor，则从其出发的有向边可能有(postal_codes，educational_institution，instruments_played，...)。

步骤2、从前面步骤生成的候选池C所包含的候选谓词中抽取自然语言问题q对应的谓词p

本步骤可以按传统的方法提取谓词，但为了提升谓词抽取模型的准确率，可以采用如下全新的谓词抽取框架模型提取：

其中，p(p_i)是谓词p_i的特征表示，T(q)是自然语言问题q的特征表示，n_p表示谓词的数量，s(·)是相似度计算函数，用于计算自然语言问题和谓词之间的相似度得分，θ将整个框架模型参数化，代表了模型中所有待训练的参数权重，z为自然数。经由该模型能够给出所有候选谓词的概率，根据实际需要，可以将排名最靠前的谓词或排名靠前的前几个谓词输出。

该模型中的谓词特征表示、问题特征表示，以及相似度计算可以采用现有的方法进行表达和计算，如用一阶逻辑、语义网、词向量等来表示谓词和句子，相似度计算采用词形相似度，词序相似度、向量相似度等来计算相似度。为了提高谓词抽取的准确率和效率，本例均采用向量的形式以如下方式进行谓词、问题特征表示和相似度计算。

三、对谓词进行表示

知识图谱中的谓词标识符通常包含语义信息。例如，在Freebase知识图谱中，谓词music.group_member.instruments_played由三部分组成，谓词信息instruments_played，谓词所属类信息group_member以及类所属域信息music。为了充分利用知识图谱中的谓词所携带的信息，一些学者借助循环神经网络设计了谓词级和词语级谓词表示方法。其中谓词级表示谓词的类信息，词语级表示谓词的语义信息。

本例即将谓词的表示分为谓词级和词语级两部分。

因为单个训练样例通常包含上百个候选谓词，当前使用的循环神经网络方法计算成本较高。本发明提出一种单层权重共享非线性前馈神经网络模型来抽取知识图谱谓词中的语义信息。其输入由词语级和谓词级两部分组成。

针对谓词级输入，谓词p作为一个整体被送入嵌入表示层，可以采用独热编码等方法对谓词级进行表示，但该种方法会带来编码过长从而导致计算效率下降问题。因此，较优的，该步骤利用如下启发式标签编码所得到的嵌入表示初始化嵌入表示层，谓词级表示向量用符号表示为e^pred。

启发式标签编码：

如何根据问题q，找到候选谓词集合P中对应的正确谓词，可以认为是一个多分类任务，其中谓词p∈P为类别，问题q为分类对象。一般多分类模型采用独热编码对类别进行编码，然而如果用独热编码，则编码向量的维度为类别数目，知识图谱中的谓词类别数量上千甚至上万，这在实践中是不可接受的。

本发明受Word2Vector的启发，如果标签类别使用低维嵌入向量替代独热编码，那么多分类模型的输出向量只需要在度量空间内最大可能地接近真实类别地嵌入表示向量，并远离其他类别，模型就能成功对样例进行分类。所以本发明为大型多分类任务设计了一种启发式标签编码算法，降低了多分类模型的输出维度，优化了标签类别的嵌入编码在度量空间上的距离。本发明提出的启发式算法将自变量的取值范围离散化来近似原始问题，即约束嵌入向量的元素只能取-1或1。

假设在多分类任务中有n_t个标签类别，每个类别被编码为一个k维嵌入向量，那么标签编码的优化目标是最大化每个标签类别与其最近邻之间的距离，本发明采用汉明距离来衡量。所以优化的目标为最大化每个标签类别和其最近邻之间的汉明距离，类似信道编码优化方法。优化问题建模如下：

s.t.t_i，j∈{-1，1} i＝1，2，...，n_t；j＝1，2，...，k

其中，符号

表示逐元素异或操作；||·||₁是l₁范数，即向量元素求和；t_i，j表示标签嵌入向量t_i的第j个元素。根据普罗特金限，为了用k维向量编码n_t个标签，最小汉明距离须满足下面公式：

k-log₂(n_t)≥2(d_min-1)-log₂(d_min)

其中，d_min表示最小汉明距离。同时在实践中应满足k≥log₂n_t。

因此，给定k和n_t，当上式等号成立时，最小汉明距离d_min达到上界

该上界可以通过二分法求解得到。然而，当前没有能够达到此上界的编码方案，因此本文采用衰减因子乘以最小汉明距离上界

获得标签类别之间的预定义最小汉明距离α·d_min。

综上，针对谓词级输入，本例通过下述过程对上一步得到的候选池中的谓词进行编码：

首先根据候选池中的候选谓词数量确定标签类别的数目n_p，标签类别的嵌入表示向量维度k，定义衰减因子α。本发明实验中设置了

然后根据不等式：

k-log₂(n)≥2(d_min-1)-log₂(d_min)

计算最小汉明距离上界

然后从服从概率为0.5的伯努利分布，取值范围为{-1，1}生成k个独立样本，组成标签类别的候选嵌入表示向量t_i。因为伯努利分布通常用于只有两种结果的单词随机试验，适合用于该场景。当然，也可以不限于从伯努利分布生成k维嵌入表示向量t_i，可以采用其它分布或随机生成嵌入表示向量。

然后将t_i与之前生成的所有标签L[j]进行计算，如果满足

则t_i为第i个类别的嵌入表示向量，否则继续采样，直到满足条件为止，最后得到所有候选谓词的标签编码t。

采用上一步标签编码的向量(256维)来初始化嵌入表示层(embedding层)，随后经线性前馈神经网络，该网络权重为W_p，输出为300维的谓词级表示e^pred。

针对词语级输入，首先将谓词信息分割为词语序列，然后利用GloVe预训练的词向量表示词语，获得词语级嵌入表示向量

其中m是词序列长度。将词语级嵌入矩阵传入权重共享的非线性前馈神经网络并在序列方向上执行最大的池化操作，获得词语级语义特征向量：

p^word＝MaxPooling(tanh(W_f·E^word))

其中，W_f是非线性前馈神经网络中待优化的参数权重矩阵，在词序列之间共享，tanh(·)是所采用的非线性激活函数。

针对本例问题，词语级表示首先需要对谓词按词分割，如：第二步中的谓词instruments_played可以分割为{instruments，played}，然后将这些词用300维GloVe预训练的词向量表示并初始化嵌入表示层，随后通过权重共享前馈神经网络，本发明中该网络采用300维的隐层输出。再经最大池化，得到谓词的词语级表示p^word。

最后将谓词级表示和词语级表示相加得到谓词特征表示向量p。

p＝p^word+W_p e^pred

其中，W_p是线性前馈神经网络的参数权重矩阵，用于平衡谓词级和词语级特征抽取网络的深度。具体过程如图4所示。

四、对问题进行表示

该步骤对问题特征基于自注意力机制进行表示。首先将自然语言问题序列q＝[w₁，w₂，...，w_|q|]输入到嵌入表示层(embedding层)，此处使用GloVe方法预训练的词向量表示问题q中的每个词，并用该向量初始化嵌入表示层；其中|q|表示q中词语的数量。由于构成实体名的词语包含的语义通常无法用常规词典表达，因此为了避免输入问题中的主语干扰，本文采用特殊符号<s>屏蔽与主语相关的短语，即真正输入模型的问题序列是

因此，嵌入表示层的输出符号表示为

其中，n_q是屏蔽后的问题序列长度。

嵌入层的输出E，被传入三个深度神经网络，此处的神经网络一般可用单层双向LSTM、单层双向GRU、单层线性前馈神经网络。本发明分别做实验进行了验证，较优的，此处选用单层线性前馈神经网络。三个网络分别命名为DNN^Q，DNN^K和DNN^V。DNN^Q的输出矩阵表示为

DNN^K的输出矩阵表示为

DNN^V的输出矩阵表示为

以Q为注意力中心计算每个词表示向量q_i和DNN^K输出矩阵K之间的相似度向量a_i，从而获得注意力权重分布矩阵

最后通过计算V以相似度向量a_i为权重的加权和向量

获得自注意力输出矩阵

当前有加式、点积式和推广点积式三种相似度计算方法，实验表明采用加式的方法模型更稳定，因此本文采用加式相似度作为注意力的计算方式。

以第i个输入词语为例，其对应的自注意力输出向量

计算公式如下：

首先计算q_i与K中所有向量的相似度

然后对相似度

进行归一化处理，得到归一化后的相似度a_ij：

最后，用归一化后的相似度a_ij作为权重，对V中所有向量加权求和，得到第i个词语的自注意力向量

其中w_q和w_k是待训练的模型参数。

此外，为了模型训练的鲁棒性，本文还将残差网络的思想应用于此模型。通过将嵌入表示层输出跨层连接到自注意力输出矩阵，自注意力层转而学习自然语言问题的特征残差，加快了训练速度并缓解了梯度消失问题。因此，问题特征表示模型的输出矩阵实际上是：

T为问题特征表示矩阵。

基于以上过程，对于本例问题q，首先进行预处理，用符号<s>屏蔽主语词汇，本例中应得到

q＝[what，instrument，dose，<s>，play，...]

然后将q用300维GloVe预训练词向量表示，并初始化嵌入表示层，其输出为E。嵌入表示层后接三个双向门控循环单元网络(Gate Recurrent Unit，GRU)，均采用300维隐层输出。经三个神经网络分别得到Q，K，V三个矩阵表示。经如下公式计算得自注意力矩阵

然后，将自注意力矩阵

和嵌入表示层输出E相加得到问题特征表示矩阵T。

具体过程如图5所示。

五、相似度计算

经过问题和谓词表示，分别得到谓词特征表示向量p和问题特征表示矩阵T后，接下来按照上述谓词抽取框架模型需要计算问题中的每个词语与谓词特征向量的相似度得分s。本例采用余弦相似度作为度量，因为余弦距离等价于对输入层做归一化处理，有利于提高模型的稳定性。相似度向量

计算方式如下：

m_i＝cos(t_i，p)

其中，t_i是自然语言问题中第i个词语的特征表示向量，p是谓词特征表示向量。由于问题的长度难以确定，所以不能直接将相似度向量送入神经网络计算最终得分。我们注意到，自然语言问题中与谓词特征向量相似度高的词语越多，则该谓词越有可能代表问题对应的谓词。因此，相似度计算模型需要统计m中所有词语的相似度分布情况。由于相似度向量的值分布在[-1，1]区间内，一种简单的统计方法是，利用统计分布直方图，将该区间均匀划分成v个分箱，计数相似度向量中落入各个分箱的元素数量，获得统计分布结果c＝[c₁，c₂，...，c_v]。将统计分布送入一个全连接层可以获得最终的相似度得分s。

s＝tanh(w^Tc+b)

其中，w是全连接层权重，b是全连接层偏移量。

统计分布直方图是一种离散统计方式，使得网络变得不可导，为解决这一问题本发明采用高斯径向基函数来表示相似度的分布情况。

首先计算相似度向量在各个高斯核上的分布情况：

其中，μ表示高斯分布的均值，σ表示高斯分布的标准差。

最后，代入s＝tanh(w^Tc+b)计算最终得分s。

因此，综上所述，对于本例问题采用如下过程计算相似度：

首先，采用下式，计算谓词表示向量p和问题中每个词语表示向量t_i得相似度m_i：

m_i＝cos(t_i，p)

然后，用高斯径向基函数来重新表示相似度。本例实现中使用了4个高斯核，初始均值和方差分别取[-0.66，0，0.66，1]和[0.3，0.3，0.3，0.3]。

经过如下公式计算可得各相似度向量在各高斯核上的分量，此处v＝4

然后，将相似度向量在各高斯核上的分布输入全连接层，得到最终的相似度得分s。

s＝tanh(w^Tc+b)

具体过程如图6所示。

六、损失及训练

首先，使用下式计算损失并训练上述谓词抽取框架模型：

其中，q是数据集

中的问题样本，t是对应谓词标签，

是根据问题q生成的候选谓词集合；

是除谓词标签t以外的候选谓词集合；p(·)表示谓词特征表示向量；T(·)表示问题特征表示矩阵；γ表示预定义的铰链损失(Hinge Loss)裕度。事实上，排序型代价函数是基于负采样的铰链损失函数，用于约束模型的输出向量在度量空间上尽可能地接近目标谓词，同时还要远离其他候选谓词。

此时需要计算损失函数的梯度

来更新训练模型参数θ。使用梯度下降算法来更新参数对模型进行训练：

实验初始学习率为0.001，批尺寸为128，负采样规模为150，模型参数更新均采用Adam优化算法，自适应更新学习率，防止训练过程中发生震荡，提高损失收敛速度。本例使用Torch7为深度学习框架构建神经网络。

使用训练数据对上述谓词抽取框架模型训练好后，就可以使用该模型基于候选池和问题进行谓词抽取以回答问题了。

步骤3、根据步骤2抽取的谓词从候选池C的候选主语中抽取所述q对应的主语s；

步骤4、将谓词p及其对应的主语s输入知识图谱的RDF引擎得到宾语作为问题q的答案。

上述过程总结如下：

模型训练好后，如果遇到一个新的问题，首先对问题基于知识图谱匹配生成候选池。然后将问题和候选谓词的Glove词向量表示、谓词的嵌入标签编码输入训练好的神经网络，经神经网络计算可得该问题与候选谓词之间的相似度得分，选取相似度得分最高或者多个排名靠前的谓词作为抽取谓词。

得到抽取谓词后，即可选择该谓词的主语节点，最后将抽取的谓词节点和主语节点输入RDF(Resource Description Framework)引擎查询，即可在知识图谱中查到宾语节点作为该问题的答案。

评价指标

下面对本发明基于知识图谱的问答系统进行评价。通过定义召回率来评估问答系统的回答准确性：

P@N：

其中M为测试集样例数目，y_i表示第i个样本的真实结果，R_i，1：N为得到的候选实体列表的前N个。I(·)为指示函数，其定义为：

因此，P@N表示候选谓词中前N个的平均命中率。

数据集：

数据集和知识图谱：我们使用SimpleQuestions训练和评估了本发明，SimpleQuestions是最大的可公开获得的一阶仿真QA数据集，由108，442个英文人工注释问题组成，其中75，910个用于训练，10，845个用于验证，以及21，687进行测试。知识图谱Freebase有两个子集，即具有5M个实体(7K谓词)的FB5M和具有2M个实体(6K谓词)的FB2M。

实验结果：

本发明首先设计了新的候选池生成方法和新的嵌入编码方式，然后设计了基于软直方图和自注意力机制的谓词抽取方法。因此实验分三部分进行：(1)本发明设计的候选池生成方法有效性对比实验，(2)汉明距离嵌入编码算法的有效性对比实验，(3)本发明提出的软直方图和自注意力机制的性能对比实验。

在候选池生成有效性对比实验中，本发明提出的非严格N元语法字符串匹配主要与以下三个方法进行对比：纯聚焦剪枝方法，动态链接方法和严格局部匹配方法。

我们利用训练集优化模型参数，并将最优模型应用于测试集，实验结果如表1所示。

表1候选池生成任务召回率@k对比

表1比较了所提出的算法与三种对比算法的候选实体召回率@K，召回率和平均规模。我们可以看出，由于本文设计了更加细致的实体匹配策略，非严格N元语法字符串匹配算法的实体召回率比纯聚焦剪枝方法高1.5％。严格局部匹配方法仅使用主语相关短语的k元语法严格匹配知识图谱中的实体名，而本文采用主语相关短语的k元语法匹配知识图谱中实体名的k元语法，且k的长度不受限制，实验结果亦证实本文方法高于前者0.6％召回率。动态链接方法由于采用主语相关短语的所有k元语法查找匹配的实体，在扩大实体召回率的同时，也大幅度增加了候选池噪声。从表格可以看出，尽管召回率略低于动态链接方法，但是本文所产生的候选池规模远小于前者。

几种算法的候选实体召回率@K(K∈{1,5,10,20,50,100,400)),即前K个候选实体中包含了正确实体的测试集样例所占百分比。本文所提出的方法和严格局部匹配方法均采用实体节点出度做为实体排序准则，而动态链接方法利用最长连续公共子序列计算实体重要度。从表格可以看出，本文所提出的方法获得了最优性能，证明所提出的非严格N元语法字符串匹配方法在不显著扩大候选池规模的同时提高了实体召回率。

标签嵌入编码算法效果对比分析

为了对比标签嵌入编码算法的效果，我们与通用多分类模型进行对比实验。不失一般性地，本文将启发式标签嵌入编码算法应用于步骤四所提到的谓词抽取模型上，该模型是一种基于双向循环神经网络的分类器，常用于自然语言处理领域。

如图7，本实验比较了所提出的启发式标签编码算法与随机初始化方法对多分类任务准确率的影响，并观察了标签嵌入表示向量更新与否对性能的影响。从图中我们可以看出，无论标签嵌入向量更新与否，所提出的启发式标签编码算法的分类准确率都比随机初始化方法平均高出近0.5％。此外，在标签嵌入向量进行梯度更新的情况下，本文所提出的方法在经历了大约400轮训练后测试集准确率就基本达到了收敛，而随机初始化方法在800轮左右才达到收敛，证实了启发式标签编码算法优越的收敛性能；在标签嵌入向量不更新的情况下，本文方法的训练曲线波动相对较小，这是因为启发式标签编码算法迫使标签在度量空间上的距离尽可能地远，而随机初始化方法可能令某些标签在度量空间上非常接近彼此，从而变得不可靠。

软直方图和自注意力机制的性能对比实验

数据集：

本实验的数据集，对上文提到的SimpleQuestions数据集进行了预处理，预先使用特殊符号<s>屏蔽了主语相关短语并为每个自然语言处理问题构建了候选谓词集合，从而将候选池生成任务与谓词抽取任务分割，保证了实验对比的公平性。

表2谓词抽取框架各组件在谓词抽取任务上的准确率对比

本实验对所提出的谓词抽取框架各组件在谓词抽取任务上的准确率进行对比，并以本发明所提的基于启发式标签编码的谓词抽取模型为基准方法进行比较。

首先，对问题特征表示模型在三种模式上进行了实验，以GRU为深度神经网络的自注意力机制(GRU-SA)以91.8的准确率击败了基于LSTM和前馈神经网络FFN的自注意力机制。相比基准方法，尽管基于自注意力机制的问题特征表示仅有0.1％的准确率提升，但是当其与谓词特征表示和相似度计算模块联合执行谓词抽取任务(GRU-SA+SFFN+SH)时，相比仅采用谓词特征表示和相似度计算模块的模式(SFFN+SH)，前者获得了0.3％的性能收益。

谓词特征表示模型在两种模式上进行了实验，单层权重共享前馈神经网络模式(SFFN)的准确率击败了基准方法，证实了谓词特征表示模块的有效性。

相似度计算模块在软统计分布直方图(SH)模式上进行了实验，并对高斯核的均值和方差是否参与更新对模型性能的影响进行测试。从表格数据可以看出，参数不参与更新的软统计分布直方图模式在测试集上的准确率比参数更新的模式高出0.3％，比基准方法高0.5％，证实了特征表示矩阵相比特征表示向量能够更好地保留自然语言问题中的语义信息。此外，由于软统计分布直方图位于谓词抽取网络的顶层，因此高斯核的均值和方差受损失函数误差传播的影响较大且损失函数关于该参数的梯度波动更大，导致相似度计算模块参数难以收敛，而且高斯核的输出受方差的影响呈指数级，微小的变动可能导致巨大的模型偏差，不利于模型的训练。最后，本实验联合了谓词抽取框架的三个组件，并在最优模式(GRU-SA+SFFN+SH，以下简写为SHSA)上进行实验，获得了最优的测试集准确率(93.7％)，其准确率比基准方法高出2％，证实了本发明所提出的谓词抽取框架的模型优越性。

综上所述，本发明所提出的基于软统计分布直方图和自注意力机制的谓词抽取框架准确性优于对比实验，并且提出的非严格N元字符串匹配方法和启发式标签嵌入编码算法两个组件的效率也更高，以更少的资源实现了准确率优于基准实验，从而证明了本发明的有效性，可以应用到一阶知识图谱问答系统中。

为了说明本发明的内容及实施方法，本说明书给出了一个具体实施例。在实施例中引入细节的目的不是限制权利要求书的范围，而是帮助理解本发明所述方法。本领域的技术人员应理解：在不脱离本发明及其所附权利要求的精神和范围内，对最佳实施例步骤的各种修改、变化或替换都是可能的。因此，本发明不应局限于最佳实施例及附图所公开的内容。

Claims

1.一种谓词抽取方法，其特征在于：所述方法通过下式所示框架模型实现：

2.根据权利要求1所述的方法，其特征在于：

所述T(q)通过下述过程获得：

其中，n_q是所述q屏蔽主语相关短语后的问题序列长度；

和

接下来通过计算V以相似度向量a_i为权重的加权和向量

获得自注意力输出矩阵

最后，根据如下公式计算得到问题特征表示矩阵T：

所述p(p_i)通过下述公式获得：

p＝p^word+W_pe^pred

其中，p^word为候选谓词的词语级表示向量，为将候选谓词p_i按词分割后分别表示为词向量，并用这些词向量初始化嵌入表示层，随后通过权重共享前馈神经网络，再经最大池化得到；其中，i为小于等于n_p的自然数；e^pred为候选谓词的谓词级表示向量，为将候选谓词p_i经编码后初始化嵌入表示层，随后经线性前馈神经网络后输出得到W_pe^pred，该网络权重为W_p；

所述s(·)通过下述过程计算：

首先，采用余弦相似度作为度量，通过下式计算相似度向量