CN113705196A

CN113705196A - 基于图神经网络的中文开放信息抽取方法和装置

Info

Publication number: CN113705196A
Application number: CN202110882753.XA
Authority: CN
Inventors: 侯磊; 吕志亨; 李涓子; 张鹏; 唐杰; 许斌
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2021-11-26

Abstract

本发明提供一种基于图神经网络的中文开放信息抽取方法和装置，包括：将待测中文语句文本输入谓语抽取模型，输出谓语结果；谓语抽取模型是基于样本中文语句文本和谓语标签进行训练得到的，谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络；将谓语结果和待测中文语句文本输入主宾抽取模型，输出主语结果和宾语结果；主宾抽取模型是基于样本中文语句文本和主谓宾三元组标签进行训练得到的，主宾抽取模型训练时的网络结构与谓语抽取模型架构相同。本发明提供的方法和装置，实现了融合分词和依存句法信息，提高了抽取开放的事实主谓宾知识三元组的准确率。

Description

基于图神经网络的中文开放信息抽取方法和装置

技术领域

本发明涉及信息抽取技术领域，尤其涉及一种基于图神经网络的中文开放信息抽取方法和装置。

背景技术

开放信息抽取是自然语言处理领域的一个重要任务，其目的是从无结构化的文本中抽取出半结构化的事实知识。相比于传统的模式(schema)限定的关系抽取，开放信息抽取不限制关系类别，因此能够从文本中抽取更丰富的事实知识。开放信息抽取能够用于很多下游任务，如使用开放的事实三元组进行知识库构建，用于搜索引擎返回搜索结果，以及构建文档知识图来帮助文档摘要等。

传统的开放信息抽取系统大多是基于句法模式和启发式规则。例如，英文开放信息抽取系统ReVerb、ClausIE、OpenIE4以及中文系统CORE、ZORE等，都是利用外部的自然语言处理工具来得到句子的词性标签或依存句法特征，之后生成词性或依存句法模式来抽取事实知识元组。这些系统中所使用的句法模式仅能用于特定语言，难以扩展到其他语言。另外，这些基于模式的系统难以处理复杂的句子以及自然语言多样的表达，在工业场景下难以达到实用水平。

最近，研究人员尝试把神经网络模型应用到开放信息抽取任务上，来解决基于句法模式的系统的局限性。神经网络开放信息抽取模型可以分为两大类：序列生成和区间筛选。序列生成模型，如Neural Open IE、Logician、IMOJIE等，使用编码器-解码器框架从输入句子中直接生成事实知识元组。区间筛选模型，如RnnOIE、SpanOIE等，从句子中选择区间作为谓语、主语、宾语等。SpanOIE采用候选区间分类的方法来得到谓语及对应的主语和宾语，最终组合得到事实知识元组。

之前的序列生成模型和区间筛选模型大多是单词级别的，在中文上会造成分词错误的传递。例如，在句子“A国外交部长/B/率/团/访问/C国”中，单词“A国”和“外交部长”被错误地切分为了一个单词“A国外交部长”，这会导致单词级别的模型无法提取出另一组事实主谓宾知识三元组(A国，外交部长，B)。

事实证明，依存句法知识有利于许多信息抽取任务，如语义角色标注和关系抽取等。然而，现有的神经开放信息抽取模型通常以比较浅层次的方式来整合依存句法信息。例如，SpanOIE把单词的依存标签嵌入和词嵌入拼接起来，共同作为句子编码器的输入。这种做法忽略了依存句法树的拓扑结构信息，难以捕获关系和实体之间在依存树上的多跳依赖。

因此，如何避免现有的中文信息抽取技术中由于分词错误的传递，以及缺乏依存句法树的拓扑结构，难以捕获多跳依赖造成的事实主谓宾三元组的提取错误，仍然是本领域技术人员亟待解决的问题。

发明内容

本发明提供一种基于图神经网络的中文开放信息抽取方法和装置，用以解决现有的中文信息抽取技术中由于分词错误的传递，缺乏依存句法树的拓扑结构，以及难以捕获多跳依赖造成的事实主谓宾三元组的提取错误的问题。

本发明提供一种基于图神经网络的中文开放信息抽取方法，包括：

确定待抽取主谓宾三元组信息的待测中文语句文本；

将所述待测中文语句文本输入谓语抽取模型，输出对应的谓语结果；其中，所述谓语抽取模型是基于样本中文语句文本和对应的谓语标签进行训练得到的，所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络；

将所述谓语结果和所述待测中文语句文本输入主宾抽取模型，输出对应的主语结果和宾语结果；其中，所述主宾抽取模型是基于样本中文语句文本和对应的主谓宾三元组标签进行训练得到的，所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络。

根据本发明提供的一种基于图神经网络的中文开放信息抽取方法，所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、多粒度依存图字符表示神经网络和谓语区间分类网络，具体包括：

所述谓语抽取模型的训练过程中，

嵌入词性的字符上下文表示网络将输入的样本中文语句文本中的字符进行嵌入式表示得到字符嵌入向量，并拼接字符对应的单词的词性嵌入向量，通过字符级的上下文编码器输出样本中文语句文本中各个字符的第一字符上下文表示向量至第一多粒度依存图字符表示神经网络；

所述第一多粒度依存图字符表示神经网络基于输入的所述第一字符上下文表示向量得到所述多粒度依存图中节点的初始第一字符结点表示向量，并输出至谓语区间分类网络；

所述谓语区间分类网络基于输入的所述初始第一字符结点表示向量确定任一连续字符组成短语区间的谓语预测概率；

其中，所述谓语预测概率用于构建所述谓语抽取模型训练时的损失函数。

根据本发明提供的一种基于图神经网络的中文开放信息抽取方法，所述谓语区间分类网络基于输入的所述初始第一字符结点表示向量确定任一连续字符组成短语区间的谓语预测概率，具体包括：

所述谓语区间分类网络通过如下公式计算任一短语区间<c_i,…,c_j>_{1≤i≤j≤N}的谓语预测概率p^(i,j)

其中，W_p为待优化谓语分类权重矩阵，

d为所述初始第一字符结点表示向量的维度，

为任一字符结点i的初始第一字符结点表示向量，

为任一字符结点j的初始第一字符结点表示向量，L为第一多粒度依存图字符表示神经网络中的网络总层数，N为任一样本中文语句文本中字符总数，任一短语区间<c_i,…,c_j>_{1≤i≤j≤N}为由所述任一样本中文语句文本中连续的字符c_i,…,c_j组成的短语区间。

根据本发明提供的一种基于图神经网络的中文开放信息抽取方法，所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络，具体包括：

所述主宾抽取模型的训练过程中，

嵌入谓语标签的字符上下文表示网络将输入的样本中文语句文本中的字符进行嵌入式表示得到字符嵌入向量，并拼接谓语标签的相对位置嵌入向量，通过上下文编码器输出样本中文语句文本中各个字符的第二字符上下文表示向量至第二多粒度依存图字符表示神经网络；

所述第二多粒度依存图字符表示神经网络将输入的所述第二字符上下文表示向量以所述多粒度依存图中的字符结点进行表示，得到第二字符结点表示向量并输出至主宾区间抽取网络；

所述主宾区间抽取网络基于输入的所述第二字符结点表示向量确定任一连续字符组成短语区间的主语区间开始结束位置概率对和宾语区间开始结束位置概率对；

其中，所述主语预测概率和宾语预测概率用于构建所述主宾抽取模型训练时的损失函数。

根据本发明提供的一种基于图神经网络的中文开放信息抽取方法，所述主宾区间抽取网络基于输入的所述第二字符结点表示向量确定任一连续字符组成短语区间的主语区间开始结束位置概率对和宾语区间开始结束位置概率对，具体包括：

所述主宾区间抽取网络通过如下公式计算对应于目标谓语标签的样本中文语句文本的目标起始点预测概率向量p_{subj_start}和目标终止点预测概率向量p_{subj_end}：

p_{subj_start}＝softmax(W_{subj_start}U)

p_{subj_end}＝softmax(W_{subj_end}U)

其中，

均为是待学习权重矩阵，

和

分别为开始和结束位置概率在句子中所有字符上的分布，

为所有字符结点集合，当p_{subj_start}为样本中文语句文本的主语起始点预测概率向量，则p_{subj_end}为所述样本中文语句文本的主语终止点预测概率向量，当p_{subj_start}为样本中文语句文本的宾语起始点预测概率向量，则p_{subj_end}为所述样本中文语句文本的宾语终止点预测概率向量，U为所述样本中文语句文本的所有字符的第二字符结点表示向量组成的矩阵，所述第二字符结点表示向量的维度为d。

根据本发明提供的一种基于图神经网络的中文开放信息抽取方法，所述第一多粒度依存图字符表示神经网络和所述第二多粒度依存图字符表示神经网络均为基于预先构建的多粒度依存图构建的深度图注意力网络；

其中，所述深度图注意力网络用于将字符上下文表示向量对预先构建的多粒度依存图中的字符结点通过注意力机制加入邻居结点信息后进行表示输出。

根据本发明提供的一种基于图神经网络的中文开放信息抽取方法，所述深度图注意力网络用于将字符上下文表示向量对预先构建的多粒度依存图中的字符结点通过注意力机制加入邻居结点信息后进行表示输出，具体包括：

所述深度图注意力网络通过如下公式计算第0层图注意力网络输出任一字符结点i的向量表示

其中，h_i为所述任一字符结点i的目标字符上下文表示向量，

表示字符结点i在所述多粒度依存图中的所有以软切分边相连的邻居字符结点，

为所述多粒度依存图，其中，

是顶点集合，

是边集合，

为所有单词结点集合，

为所有字符结点集合，边集合

包含所有的依存边和软切分边，

为d维向量，

d为预设参数；

所述深度图注意力网络通过如下公式计算第h层图注意力网络任一字符结点对(i,j)之间的注意力分数

其中，

和

分别表示第l-1层图注意力网络输出的字符结点i和字符结点j的向量表示，

和

分别为待学习线性映射矩阵、待学习特征转化矩阵和待学习注意力参数向量，||是拼接操作符，d_h为预设参数，h＝0,1,…,L-1,l＝1,2,…,L,L为所述深度图注意力网络总层数；

所述深度图注意力网络通过如下公式计算第h层图注意力网络输出任一字符结点i的向量表示

其中，W^(h)为待学习权重矩阵，

为第h层图注意力网络任一字符结点对(i,j)之间字符结点i对字符结点j的注意力权值，

为第l-1层图注意力网络输出的集合

中任一字符结点j的向量表示。

本发明还提供一种基于图神经网络的中文开放信息抽取装置，包括：

确定单元，用于确定待抽取主谓宾三元组信息的待测中文语句文本；

谓语抽取单元，用于将所述待测中文语句文本输入谓语抽取模型，输出对应的谓语结果；其中，所述谓语抽取模型是基于样本中文语句文本和对应的谓语标签进行训练得到的，所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络；

主宾抽取单元，用于将所述谓语结果和所述待测中文语句文本输入主宾抽取模型，输出对应的主语结果和宾语结果；其中，所述主宾抽取模型是基于样本中文语句文本和对应的主谓宾三元组标签进行训练得到的，所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的基于图神经网络的中文开放信息抽取方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的基于图神经网络的中文开放信息抽取方法的步骤。

本发明提供的基于图神经网络的中文开放信息抽取方法和装置，通过确定待抽取主谓宾三元组信息的待测中文语句文本；将所述待测中文语句文本输入谓语抽取模型，输出谓语结果，再将谓语结果和待测中文语句文本输入主宾抽取模型，输出对应的主语结果和宾语结果。由于谓语抽取模型训练时的网络结构包括嵌入词性的字符上下文表示网络，因此，样本中文语句文本中的字符向量初步表示中就嵌入了词性信息，词性信息包括主语、谓语、宾语和形容词等等，而该网络结构中还包括第一多粒度依存图字符表示神经网络，即通过神经网络的迭代计算将为所有字符和单词构建的多粒度依存图中的字符结点编码成字符向量，其中，第一多粒度依存图为基于句子的分词和依存句法树构成，可以缓解中文分词错误的传递以及捕获多跳的依存知识，如此，训练好的谓语抽取模型被使用进行待测语句中的谓语抽取时，还能考虑待测语句中的各个单词的词性信息，同理，由于主宾抽取模型训练时具有与谓语抽取模型训练时相似的网络结构，故主宾抽取模型被使用进行待测语句中的谓语抽取时也能考虑待测语句中的各个单词的词性信息且可以缓解中文分词错误的传递以及捕获多跳的依存知识。因此，本发明提供的方法和装置，实现了融合分词和依存句法信息，提高了抽取开放的事实主谓宾知识三元组的准确率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于图神经网络的中文开放信息抽取方法的流程示意图；

图2为本发明提供的基于图神经网络的中文开放信息抽取装置的结构示意图；

图3为本发明提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于现有的中文信息抽取技术中普遍存在由于分词错误的传递，缺乏依存句法树的拓扑结构，以及难以捕获多跳依赖造成的事实主谓宾三元组的提取错误的问题。下面结合图1描述本发明的一种基于图神经网络的中文开放信息抽取方法。图1为本发明提供的一种基于图神经网络的中文开放信息抽取方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待抽取主谓宾三元组信息的待测中文语句文本。

具体地，确定待抽取主谓宾三元组信息的待测中文语句文本，通常，所述待测中文语句文本不止包括一个主谓宾三元组信息，例如，“A国外交部长/B/率/团/访问/C国”中，就有两组事实主谓宾知识三元组，分别是(A国，外交部长，是B)和(A国外交部长，访问，C国家)。下面先给出中文开放信息抽取任务的形式化定义。我们把中文开放信息抽取任务形式化为一个区间抽取任务：给定一个由N个字符组成的句子S＝<c₁,…,c_N>，目标是抽取出其中表达的M个事实三元组T＝{(s₁,p₁,o₁),…,(s_M,p_M,o_M)}。s_i,p_i,o_i分别表示一个事实三元组的主语、谓语和宾语，并且在本发明中被定义为句子中的区间。这里我们定义区间为句子S中连续的字符片段<c_i,…,c_j>_{1≤i≤j≤N}。我们只考虑抽取二元知识元组，也就是仅有一个主语和一个宾语。

步骤120，将所述待测中文语句文本输入谓语抽取模型，输出对应的谓语结果；其中，所述谓语抽取模型是基于样本中文语句文本和对应的谓语标签进行训练得到的，所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络。

具体地，在步骤110确定的待测中文语句文本的基础上，将所述待测中文语句文本分别输入预先训练好的谓语抽取模型，所述谓语抽取模型输出待测中文语句文本对应的谓语结果，其中，所述谓语抽取模型是基于大量的样本中文语句文本和对应的谓语标签进行训练得到的，如此可以保证训练完成后谓语抽取模型的准确率，而谓语抽取模型训练时的网络结构包括依次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络，其中，所述嵌入词性的字符上下文表示网络对输入的样本中文语句文本进行分词后加入词性特征对语句中的每一个字符进行结合上下文信息的初步嵌入式表示，此处需要说明的是，中文词性的类型即包括名词、动词、形容词、副词、代词和介词等等；然后再基于第一多粒度依存图字符表示神经网络对初步嵌入式表示进行进一步地特征表达，使用神经网络进一步嵌入式表达既有分词和依存句法树构建的多粒度依存图中的字符结点的特征向量，得到可以避免分词错误以及可以捕获多跳依存知识的字符向量，最后在字符的完整向量表达的基础上通过谓语区间分类网络对谓语区间进行预测，即输出预测概率超过预设概率阈值的区间对应的字符组合短语为谓语结果。由于嵌入词性的字符上下文表示网络中在对字符进行初步的上下文嵌入式向量表示时添加了词性特征，训练好的谓语抽取模型在被使用时也能考虑分词词性信息，而第一多粒度依存图字符表示神经网络可以避免分词错误的传递，通过依存句法树的拓扑结构，捕获多跳依赖。

步骤130，将所述谓语结果和所述待测中文语句文本输入主宾抽取模型，输出对应的主语结果和宾语结果；其中，所述主宾抽取模型是基于样本中文语句文本和对应的主谓宾三元组标签进行训练得到的，所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络。

具体地，在步骤110确定的待测中文语句文本以及步骤120输出谓语结果的基础上，将所述待测中文语句文本和所述谓语结果输入预先训练好的主宾抽取模型，主宾抽取模型输出对应的主语结果和宾语结果，此处需要说明的是，由于谓语结果中可能包括不止一个谓语，当包括两个或者以上的谓语时，输出的对应的主语结果和宾语结果是对应于各自的谓语的，即一个谓语就有一组对应的主语结果和宾语结果，Q个谓语就有Q组事实主谓宾知识三元组。所述主宾抽取模型是基于大量的样本中文语句文本和对应的主谓宾三元组标签进行训练得到的，事实上是中文语句文本和谓语作为样本，对应的主语和宾语作为标签，由于训练数据量大，可以保证训练完成后主宾抽取模型的准确率，而主宾抽取模型训练时的网络结构包括依次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络，其中，所述嵌入谓语标签的字符上下文表示网络对输入的样本中文语句文本进行分词后加入谓语位置特征对语句中的每一个字符进行结合上下文信息的初步嵌入式表示，此处需要说明的是，谓语位置特征基于谓语在对应中文语句文本样本中的起始位置和终止位置进行描述；然后再基于第二多粒度依存图字符表示神经网络对初步嵌入式表示进行进一步地特征表达，使用神经网络进一步嵌入式表达既有分词和依存句法树构建的多粒度依存图中的字符结点的特征向量，得到可以避免分词错误以及可以捕获多跳依存知识的字符向量，最后在字符的完整向量表达的基础上通过主宾区间抽取网络对主语区间和宾语区间进行预测，主宾区间抽取网络中包括两个网络分支，分别为主语区间分类网络和宾语区间分类网络，其中，主语区间分类网络输出主语预测概率最大起始位置和终止位置对应的区间中的字符组合短语为主语结果，宾语区间分类网络输出宾语预测概率最大起始位置和终止位置对应的区间中的字符组合短语为宾语结果。由于嵌入谓语标签的字符上下文表示网络中在对字符进行初步的上下文嵌入式向量表示时添加了谓语位置特征，训练好的主宾抽取模型在被使用时也能考虑分词词性信息，而第二多粒度依存图字符表示神经网络可以避免分词错误的传递，通过依存句法树的拓扑结构，捕获多跳依赖。

本发明提供的方法，通过确定待抽取主谓宾三元组信息的待测中文语句文本；将所述待测中文语句文本输入谓语抽取模型，输出谓语结果，再将谓语结果和待测中文语句文本输入主宾抽取模型，输出对应的主语结果和宾语结果。由于谓语抽取模型训练时的网络结构包括嵌入词性的字符上下文表示网络，因此，样本中文语句文本中的字符向量初步表示中就嵌入了词性信息，词性信息包括主语、谓语、宾语和形容词等等，而该网络结构中还包括第一多粒度依存图字符表示神经网络，即通过神经网络的迭代计算将为所有字符和单词构建的多粒度依存图中的字符结点编码成字符向量，其中，第一多粒度依存图为基于句子的分词和依存句法树构成，可以缓解中文分词错误的传递以及捕获多跳的依存知识，如此，训练好的谓语抽取模型被使用进行待测语句中的谓语抽取时，还能考虑待测语句中的各个单词的词性信息，同理，由于主宾抽取模型训练时具有与谓语抽取模型训练时相似的网络结构，故主宾抽取模型被使用进行待测语句中的谓语抽取时也能考虑待测语句中的各个单词的词性信息且可以缓解中文分词错误的传递以及捕获多跳的依存知识。因此，本发明提供的方法，实现了融合分词和依存句法信息，提高了抽取开放的事实主谓宾知识三元组的准确率。

基于上述实施例，该方法中，所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、多粒度依存图字符表示神经网络和谓语区间分类网络，具体包括：

所述谓语抽取模型的训练过程中，

具体地，谓语抽取模型的训练过程中，对模型训练时网络结构中的嵌入词性的字符上下文表示网络、多粒度依存图字符表示神经网络和谓语区间分类网络分别进行的处理操作进行说明。

所述嵌入词性的字符上下文表示网络将输入的样本中文语句文本中的字符进行嵌入式表示得到字符嵌入向量，并拼接字符对应的单词的词性嵌入向量，通过字符级的上下文编码器输出样本中文语句文本中各个字符的第一字符上下文表示向量，具体包括：使用预训练的word2vec词向量把每个字符c_i映射到它的分布式表示

在嵌入词性的字符上下文表示网络的初步字符向量表示阶段，拼接各个字符的词性特征嵌入f_i到每个字符，此处需要说明的是，中文词性包括常见的动词、名词、形容词、副词、代词和介词等等。拼接之后的字符表示为x_i＝[c_i；f_i]，字符嵌入的序列<x₁,…,x_N>直接作为上下文编码器的输入。为了得到每个字符的上下文相关的表示，使用BiLSTM来建模输入序列。BiLSTM从前后向两个方向来处理字符输入序列，

和

分别代表第i个字符的左右方向的隐状态。通过拼接左右隐状态，得到最终的任一字符i的第一字符上下文表示向量

可选地，所述第一多粒度依存图字符表示神经网络将输入的所述第一字符上下文表示向量以所述多粒度依存图中的字符结点进行表示。具体地，本实施例提出了构建多粒度的依存图，多粒度依存图中的单词结点和字符结点通过两种类型的无向边相互连接，所述无向边包括两种：依存边以及软切分边。为了构建多粒度依存图，先通过中文自然语言处理工具LTP获得句子的分词以及依存句法树。保留分词后的单词作为多粒度依存图中的单词结点，把依存句法树上的有向边转化为图中单词结点之间的依存边。一个单词结点与所有构成它的字符节点之间用软切分边相连。例如，单词结点“新加坡”有软切分边连向字符结点“新”、“加”和“坡”。这样，当后续使用字符结点进行预测时，通过特定NLP工具得到的分词信息可以作为软提示来指示单词的边界，既利用了分词信息，又缓解了分词错误的传递。多粒度依存图通过单词-单词依存边以及单词-字符软切分边来融入依存句法结构信息以及分词知识，来更好地帮助模型进行预测。

图神经网络已经被广泛地应用于建模图结构数据。图神经网络能够通过收集结点的邻居信息来捕获图上的多跳依赖特征。在各种图神经网络的变体中，本实施例选择了第一多粒度依存图字符表示神经网络来作为本发明的图编码器。第一多粒度依存图字符表示神经网络能基于句子的分词以及依存句法树，从而利用了分词信息，又缓解了分词错误的传递。

所述谓语区间分类网络基于第一多粒度依存图字符表示神经网络输出的中文语句文本样本中任一字符的完整的嵌入式向量表示进行谓语区间预测概率的计算，对于计算概率结果超过预设概率阈值的谓语区间中对应的字符组成的短语都认定为预测谓语结果，因此，谓语结果可以有多个，即一个中文语句文本中可以有多组事实主谓宾知识三元组，

训练过程中的最后一步即比较预测结果和参考标签之间的误差，以该误差反向传播对网络结构中的待学习参数进行逐轮次调整。该误差的表述形式为损失函数，损失函数即基于谓语预测概率和谓语标签构建，优选地，使用交叉熵公式构建。

基于上述实施例，该方法中，所述谓语区间分类网络基于输入的所述初始第一字符结点表示向量确定任一连续字符组成短语区间的谓语预测概率，具体包括：

其中，W_p为待优化谓语分类权重矩阵，

d为所述初始第一字符结点表示向量的维度，

为任一字符结点i的初始第一字符结点表示向量，

具体地，本实施例进一步限定如何使用本发明所提出的嵌入词性的字符上下文表示网络和第一多粒度依存图字符表示神经网络组成的完整字符嵌入式向量表达网络来从中文语句文本中抽取事实主谓宾知识三元组。谓语抽取模型中的谓语区间分类网络从句子中抽取出所有的谓词区间结果。

本实施例把谓语抽取建模为一个区间分类问题，仅保留满足最大长度限制和语法约束的不重叠区间作为分类候选。对于一个候选区间<c_i,…,c_j>_{1≤i≤j≤N}，选择它的开始c_i和结束字符c_j的特征，来预测它是一个谓语区间的概率，

其中，W_p为待优化谓语分类权重矩阵，

d为所述初始第一字符结点表示向量的维度，

为任一字符结点i的初始第一字符结点表示向量，

基于上述实施例，该方法中，所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络，具体包括：

所述主宾抽取模型的训练过程中，

具体地，所述嵌入谓语标签的字符上下文表示网络将输入的样本中文语句文本中的字符进行嵌入式表示得到字符嵌入向量，并拼接谓语标签的相对位置嵌入向量，通过上下文编码器输出样本中文语句文本中各个字符的第二字符上下文表示向量，具体包括：使用预训练的word2vec词向量把每个字符c_i映射到它的分布式表示

在嵌入谓语位置特征的字符上下文表示网络的初步字符向量表示阶段，拼接各个字符的谓语位置特征嵌入f_i到每个字符，此处需要说明的是，谓语位置特征通过标记谓语的起始字符和终止字符进行描述表示。拼接之后的字符表示为x_i＝[c_i；f_i]，字符嵌入的序列<x₁,…,x_N>直接作为上下文编码器的输入。为了得到每个字符的上下文相关的表示，使用BiLSTM来建模输入序列。BiLSTM从前后向两个方向来处理字符输入序列，

和

分别代表第i个字符的左右方向的隐状态。通过拼接左右隐状态，得到最终的任一字符i的第二字符上下文表示向量

可选地，所述第二多粒度依存图字符表示神经网络将输入的所述第二字符上下文表示向量以所述多粒度依存图中的字符结点进行表示。具体地，本实施例提出的构建多粒度的依存图与前文所述的谓语抽取模型中的第一多粒度依存图字符表示神经网络一致，同样是：

多粒度依存图中的单词结点和字符结点通过两种类型的无向边相互连接，所述无向边包括两种：依存边以及软切分边。为了构建多粒度依存图，先通过中文自然语言处理工具LTP获得句子的分词以及依存句法树。保留分词后的单词作为多粒度依存图中的单词结点，把依存句法树上的有向边转化为图中单词结点之间的依存边。一个单词结点与所有构成它的字符节点之间用软切分边相连。例如，单词结点“新加坡”有软切分边连向字符结点“新”、“加”和“坡”。这样，当后续使用字符结点进行预测时，通过特定NLP工具得到的分词信息可以作为软提示来指示单词的边界，既利用了分词信息，又缓解了分词错误的传递。多粒度依存图通过单词-单词依存边以及单词-字符软切分边来融入依存句法结构信息以及分词知识，来更好地帮助模型进行预测。

图神经网络已经被广泛地应用于建模图结构数据。图神经网络能够通过收集结点的邻居信息来捕获图上的多跳依赖特征。在各种图神经网络的变体中，本实施例选择了第二多粒度依存图字符表示神经网络来作为本发明提供的主宾抽取模型中的第二多粒度依存图字符表示神经网络的图编码器。第二多粒度依存图字符表示神经网络能基于句子的分词以及依存句法树，从而利用了分词信息，又缓解了分词错误的传递。

所述主宾区间抽取网络基于第二多粒度依存图字符表示神经网络输出的中文语句文本样本中任一字符的完整的嵌入式向量表示进行主语区间预测概率和宾语区间预测概率的计算，主宾区间抽取网络中包括两个网络分支，分别为主语区间分类网络和宾语区间分类网络，其中，主语区间分类网络输出主语预测概率最大起始位置和终止位置对应的区间中的字符组合短语为主语结果，宾语区间分类网络输出宾语预测概率最大起始位置和终止位置对应的区间中的字符组合短语为宾语结果。由于主语和宾语都是对应于样本谓语的输出结果，那么输入的谓语结果的个数，与主语和宾语二元组的组数相同。

训练过程中的最后一步即比较预测结果和参考标签之间的误差，以该误差反向传播对网络结构中的待学习参数进行逐轮次调整。该误差的表述形式为损失函数，包括两个损失函数，第一损失函数即基于主语预测概率和主语标签构建，第二损失函数即基于宾语预测概率和宾语标签构建，优选地，所述两个损失函数均使用交叉熵公式构建。

基于上述实施例，该方法中，所述主宾区间抽取网络基于输入的所述第二字符结点表示向量确定任一连续字符组成短语区间的主语区间开始结束位置概率对和宾语区间开始结束位置概率对，具体包括：

p_{subj_start}＝softmax(W_{subj_start}U)

p_{subj_end}＝softmax(W_{subj_end}U)

其中，

均为是待学习权重矩阵，

和

分别为开始和结束位置概率在句子中所有字符上的分布，

具体地，对于在谓语抽取模型输出得到的每隔谓语结果，也抽取每个谓语结果对应的头尾实体，即主语结果和宾语结果。为了抽取主语，对所有字符结点的特征U进行线性变换来计算得到每个字符作为主语区间的开始和结束位置的概率：

p_{subj_start}＝softmax(W_{subj_start}U)

p_{subj_end}＝softmax(W_{subj_end}U)

其中，

均为是待学习权重矩阵，

和

分别为开始和结束位置概率在句子中所有字符上的分布，

在训练时，谓语抽取模型和主宾抽取模型独立地进行优化训练。主宾抽取模型训练时使用中文语句文本样本中正确标注的谓语标签进行训练。在两个模型配合被使用时，先由谓语抽取模型得到谓语结果集合，再将谓语结果集合作为主宾抽取模型的输入，然后把两个模型输出的结果综合起来得到最终输出的事实主谓宾知识三元组结果。

基于上述实施例，该方法中，所述第一多粒度依存图字符表示神经网络和所述第二多粒度依存图字符表示神经网络均为基于预先构建的多粒度依存图构建的深度图注意力网络；

具体地，图神经网络已经被广泛地应用于建模图结构数据，图神经网络能够通过收集结点的邻居信息来捕获图上的多跳依赖特征。在各种图神经网络的变体中，本发明选择了图注意力网络来作为的图编码器。图注意力网络能够在收集邻居结点的信息时控制不同结点的权重，使结点更加关注其邻居中重要的信息而减小噪音的影响。

基于上述实施例，该方法中，所述深度图注意力网络用于将字符上下文表示向量对预先构建的多粒度依存图中的字符结点通过注意力机制加入邻居结点信息后进行表示输出，具体包括：

其中，h_i为所述任一字符结点i的目标字符上下文表示向量，

为所述多粒度依存图，其中，

是顶点集合，

是边集合，

为所有单词结点集合，

为所有字符结点集合，边集合

包含所有的依存边和软切分边，

为d维向量，

d为预设参数；

其中，

和

和

其中，W^(h)为待学习权重矩阵，

为第l-1层图注意力网络输出的集合

中任一字符结点j的向量表示。

具体地，假设

表示一个图，其中

是顶点集，

是边集。在构建的多粒度依存图中，

包含所有的单词结点

以及字符结点

边集

包含所有的依存边和软切分边。令

表示第l层图注意力网络中第i个结点的嵌入，d是结点嵌入的维度。用BiLSTM句子编码器的输出来初始化多粒度依存图中结点的表示，

其中

表示结点i的所有以软切分边相连的邻居，即单词结点的初始化是通过对它对应的所有字符的隐状态进行池化得到。使用

表示连接结点i和结点j的边的类型嵌入。根据多粒度依存图中无向边的类型来随机初始化u_i→j，得到边的初始表示。

本方法使用多头注意力机制来更新结点表示。具体地，多头注意力机制用H个注意力头来从邻居结点收集信息，每个注意力头都把输入转化到不同的特征空间来关注邻居的不同方面的信息。对于注意力头h，首先通过一层前馈神经网络来计算每一对结点之间的注意力分数

其中，

和

表示第l-1层中结点i和结点j的特征。

是线性映射矩阵，用于把图网络上一层的输出结点的特征转化到d_h维空间。

用于把图上边的特征转化到d_h维空间。||是拼接操作符，

是可学习的注意力参数向量。在注意力分数的计算中，考虑了结点之间连边的类型，来学习利用边上的特征来进行邻居结点的信息收集。

然后使用softmax函数来计算归一化的注意力权重，

其中

表示结点i的邻居集合。

表示结点i对结点j的注意力权值，对结点i比较重要的邻居结点有较高的权重，对结点i不重要的邻居权重则较低。用归一化后的注意力权重来对邻居结点的特征加权，得到结点i在注意力头h上的输出，

其中

是d_h维的输出特征向量。

本方法把H个注意力头的输出拼接起来得到更新后的结点特征

其中

是d_h×H维的特征向量。为了实现上的方便，选择使每一层图网络的输入和输出表示有相同的维度，也就是d＝d_h×H。

通过把L层图注意力网络叠加起来，每一个结点都可以从它的L跳邻居中收集信息。仅使用最后一层图网络的输出中字符结点的特征

来进行三元组抽取。

本发明提供的方法针对现有的神经开放信息抽取方法在中文上的分词错误传递问题，以及无法捕获多跳依赖的问题，提出了多粒度依存图网络模型。多粒度依存图网络利用单词和字符结点构建了一个多粒度依存图，其中单词结点之间使用依存边相连，单词和字符结点之间使用软切分边相连。本发明提出的谓语抽取模型和主宾抽取模型基于字符的特征进行预测，同时仍然可以通过单词和字符之间的软切分边获得单词的边界知识。多粒度依存图网络使用深层图注意力网络来更新结点表示，以充分利用多粒度依存图的拓扑结构，并捕获多跳的依赖关系。还通过在大规模中文开放信息抽取数据集SpanSAOKE上进行了实验，结果表明本发明提供的方法显著优于已有的神经开放信息抽取模型，实验分析表明本发明的方法能够缓解分词错误的传递问题，并且能够更有效地利用依存信息。

下面对本发明提供的基于图神经网络的中文开放信息抽取装置进行描述，下文描述的基于图神经网络的中文开放信息抽取装置与上文描述的一种基于图神经网络的中文开放信息抽取方法可相互对应参照。

图2为本发明提供的基于图神经网络的中文开放信息抽取装置的结构示意图，如图2所示，基于图神经网络的中文开放信息抽取装置包括确定单元210、谓语抽取单元220和主宾抽取单元230，其中，

所述确定单元210，用于确定待抽取主谓宾三元组信息的待测中文语句文本；

所述谓语抽取单元220，用于将所述待测中文语句文本输入谓语抽取模型，输出对应的谓语结果；其中，所述谓语抽取模型是基于样本中文语句文本和对应的谓语标签进行训练得到的，所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络；

所述主宾抽取单元230，用于将所述谓语结果和所述待测中文语句文本输入主宾抽取模型，输出对应的主语结果和宾语结果；其中，所述主宾抽取模型是基于样本中文语句文本和对应的主谓宾三元组标签进行训练得到的，所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络。

本发明提供的基于图神经网络的中文开放信息抽取装置，通过确定待抽取主谓宾三元组信息的待测中文语句文本；将所述待测中文语句文本输入谓语抽取模型，输出谓语结果，再将谓语结果和待测中文语句文本输入主宾抽取模型，输出对应的主语结果和宾语结果。由于谓语抽取模型训练时的网络结构包括嵌入词性的字符上下文表示网络，因此，样本中文语句文本中的字符向量初步表示中就嵌入了词性信息，词性信息包括主语、谓语、宾语和形容词等等，而该网络结构中还包括第一多粒度依存图字符表示神经网络，即通过神经网络的迭代计算将为所有字符和单词构建的多粒度依存图中的字符结点编码成字符向量，其中，第一多粒度依存图为基于句子的分词和依存句法树构成，可以缓解中文分词错误的传递以及捕获多跳的依存知识，如此，训练好的谓语抽取模型被使用进行待测语句中的谓语抽取时，还能考虑待测语句中的各个单词的词性信息，同理，由于主宾抽取模型训练时具有与谓语抽取模型训练时相似的网络结构，故主宾抽取模型被使用进行待测语句中的谓语抽取时也能考虑待测语句中的各个单词的词性信息且可以缓解中文分词错误的传递以及捕获多跳的依存知识。因此，本发明提供的装置，实现了融合分词和依存句法信息，提高了抽取开放的事实主谓宾知识三元组的准确率。

在上述实施例的基础上，该基于图神经网络的中文开放信息抽取装置中，所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、多粒度依存图字符表示神经网络和谓语区间分类网络，具体包括：

所述谓语抽取模型的训练过程中，

在上述实施例的基础上，该基于图神经网络的中文开放信息抽取装置中，所述谓语区间分类网络基于输入的所述初始第一字符结点表示向量确定任一连续字符组成短语区间的谓语预测概率，具体包括：

其中，W_p为待优化谓语分类权重矩阵，

d为所述初始第一字符结点表示向量的维度，

为任一字符结点i的初始第一字符结点表示向量，

在上述实施例的基础上，该基于图神经网络的中文开放信息抽取装置中，所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络，具体包括：

所述主宾抽取模型的训练过程中，

在上述实施例的基础上，该基于图神经网络的中文开放信息抽取装置中，所述主宾区间抽取网络基于输入的所述第二字符结点表示向量确定任一连续字符组成短语区间的主语区间开始结束位置概率对和宾语区间开始结束位置概率对，具体包括：

p_{subj_start}＝softmax(W_{subj_start}U)

p_{subj_end}＝softmax(W_{subj_end}U)

其中，

均为是待学习权重矩阵，

和

分别为开始和结束位置概率在句子中所有字符上的分布，

在上述实施例的基础上，该基于图神经网络的中文开放信息抽取装置中，所述第一多粒度依存图字符表示神经网络和所述第二多粒度依存图字符表示神经网络均为基于预先构建的多粒度依存图构建的深度图注意力网络；

在上述实施例的基础上，该基于图神经网络的中文开放信息抽取装置中，所述深度图注意力网络用于将字符上下文表示向量对预先构建的多粒度依存图中的字符结点通过注意力机制加入邻居结点信息后进行表示输出，具体包括：

其中，h_i为所述任一字符结点i的目标字符上下文表示向量，

为所述多粒度依存图，其中，

是顶点集合，

是边集合，

为所有单词结点集合，

为所有字符结点集合，边集合

包含所有的依存边和软切分边，

为d维向量，

d为预设参数；

其中，

和

和

其中，W^(h)为待学习权重矩阵，

为第l-1层图注意力网络输出的集合

中任一字符结点j的向量表示。

图3为本发明提供的一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行基于图神经网络的中文开放信息抽取方法，该方法包括：确定待抽取主谓宾三元组信息的待测中文语句文本；将所述待测中文语句文本输入谓语抽取模型，输出对应的谓语结果；其中，所述谓语抽取模型是基于样本中文语句文本和对应的谓语标签进行训练得到的，所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络；将所述谓语结果和所述待测中文语句文本输入主宾抽取模型，输出对应的主语结果和宾语结果；其中，所述主宾抽取模型是基于样本中文语句文本和对应的主谓宾三元组标签进行训练得到的，所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的基于图神经网络的中文开放信息抽取方法，该方法包括：确定待抽取主谓宾三元组信息的待测中文语句文本；将所述待测中文语句文本输入谓语抽取模型，输出对应的谓语结果；其中，所述谓语抽取模型是基于样本中文语句文本和对应的谓语标签进行训练得到的，所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络；将所述谓语结果和所述待测中文语句文本输入主宾抽取模型，输出对应的主语结果和宾语结果；其中，所述主宾抽取模型是基于样本中文语句文本和对应的主谓宾三元组标签进行训练得到的，所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于图神经网络的中文开放信息抽取方法，该方法包括：确定待抽取主谓宾三元组信息的待测中文语句文本；将所述待测中文语句文本输入谓语抽取模型，输出对应的谓语结果；其中，所述谓语抽取模型是基于样本中文语句文本和对应的谓语标签进行训练得到的，所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络；将所述谓语结果和所述待测中文语句文本输入主宾抽取模型，输出对应的主语结果和宾语结果；其中，所述主宾抽取模型是基于样本中文语句文本和对应的主谓宾三元组标签进行训练得到的，所述主宾抽取模型训练时的网络结构包括顺次连接的嵌入谓语标签的字符上下文表示网络、第二多粒度依存图字符表示神经网络和主宾区间抽取网络。

以上所描述的服务器实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。