CN113312498B

CN113312498B - 用无向图嵌入知识图谱的文本信息抽取方法

Info

Publication number: CN113312498B
Application number: CN202110642699.1A
Authority: CN
Inventors: 程长舸; 黄征; 周异; 陈凯
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2022-06-17
Anticipated expiration: 2041-06-09
Also published as: CN113312498A

Abstract

一种用无向图嵌入知识图谱的文本信息抽取方法，基于待抽取字符串构建包含关联句子信息节点和知识信息节点的无向图，分别根据无向图及其节点编号生成位置编码、根据无向图及其邻接矩阵生成关联控制矩阵，将关联控制矩阵引入注意力机制中，即关联控制矩阵中显示关联的节点能够正常计算注意力、显示无关联的节点对当前节点的注意力值无限趋近于0，即表示二者不相关，将节点序列中各个节点的词嵌入向量和根据位置编码和图中关联关系得到的相对位置编码输入基于注意力机制的信息抽取模型，将模型输出接入CRF层进行分类输出，得到信息抽取结果。

Description

用无向图嵌入知识图谱的文本信息抽取方法

技术领域

本发明涉及的是一种信息处理领域的技术，具体是一种用无向图嵌入知识图谱的文本信息抽取方法。

背景技术

信息是信息时代的主题，为了加强信息的获取效率，服务票据识别、产品信息自动录入等业务，信息抽取技术近年来逐渐受到越来越多的关注，而深度学习的发展以及知识图谱的构建与使用为信息抽取领域的发展提供了极大的助力。目前的深度学习信息抽取模型大多都是在大规模通用数据上训练得到的，在针对需要很强知识背景的领域，如，进行信息抽取时，采用通用数据训练的深度学习信息抽取模型往往不能起到很好的效果，针对此问题通常采用的方案有两个，一种方案是采用该特定领域的数据来进行训练，得到对应的预训练语言模型来专门服务该领域的信息抽取工作，该方案的缺点是领域内训练样本不足时不能起到很好的训练效果，且每次需要扩展领域内的文本时需要将其作为训练数据重新进行训练，可扩展性不强，资源利用效率不高；第二种方案是利用知识图谱，在预训练语言模型的选择上可以选择通用的预训练语言模型，节省了大量的计算资源，每次只需要在处理输入时将知识图谱中的知识信息嵌入到训练样本中即可起到将特定领域知识信息引入信息抽取模型的效果，具有很强的可扩展性。

发明内容

本发明针对现有技术存在的上述不足，提出一种用无向图嵌入知识图谱的文本信息抽取方法，通过引入无向图得到邻接矩阵来建模实体之间的关系，通过邻接矩阵计算得到关联控制矩阵，并构建注意力控制机制，控制知识信息在信息抽取模型当中影响的范围，在用知识信息辅助加强信息抽取效果的前提下，使信息抽取模型尽可能少地被知识噪声所影响。

本发明是通过以下技术方案实现的：

本发明涉及一种用无向图嵌入知识图谱的文本信息抽取方法，基于待抽取字符串构建包含关联句子信息节点和知识信息节点的无向图，分别根据无向图及其节点编号生成位置编码、根据无向图及其邻接矩阵生成关联控制矩阵，将关联控制矩阵引入注意力机制中，即关联控制矩阵中显示关联的节点能够正常计算注意力、显示无关联的节点对当前节点的注意力值无限趋近于0，即表示二者不相关，将节点序列中各个节点的词嵌入向量和根据位置编码和图中关联关系得到的相对位置编码输入基于注意力机制的信息抽取模型，将模型输出接入CRF层进行分类输出，得到信息抽取结果。

所述的无向图，以待抽取字符串平铺为序列作为无向图的主干，通过不断插入知识图谱中的知识信息完善无向图中的关联信息，具体步骤包括：待抽取字符串以序列的形式输入信息抽取模型，待抽取字符串中的节点记为句子信息节点，而不断插入的知识图谱中的知识信息对应的节点记为知识信息节点，通过区分句子信息节点和知识信息节点使得句子信息节点始终受到关注，而知识信息节点只被特定范围内字符串节点所关注，最终得到一个由两类节点构成的嵌入了知识信息的无向图以及一个表示各节点之间连接关系的邻接矩阵。

所述的关联控制矩阵，根据无向图中距离为1的邻接矩阵M计算得到距离为2的可达矩阵N，通过知识图谱三元组的性质限定句子信息节点所能关联到的知识信息节点到该句子信息节点的距离最多只能为2，因此可以通过邻接矩阵M和可达矩阵N相加得到任意一个句子信息节点所能关联到的知识信息节点，再加上句子信息节点之间两两相关联，M+N即可得到句子的关联控制矩阵。

所述的信息抽取模型，为Transformer-XL模型的变体，该信息抽取具体为：记邻接矩阵为M，距离为2的可达矩阵为N＝M×M，则关联矩阵中对应位置的值

得到关联矩阵G；注意力计算：

联矩阵影响注意力范围为

相对位置编码使用正余弦函数表示绝对位置，通过两者乘积得到相对位置编码:

其中Z：表示绝对位置编码的编码长度，该模型的输出每个输入的单词所对应的各个标签类别的分数，CRF模型输出每个输入的单词所对应的预测标签。

所述的相对位置编码是指：通过构建无向图得到各个词对应的绝对位置编码以及关联矩阵，根据绝对位置编码通过正弦编码得到一个没有需要学习的参数的矩阵作为相对位置编码，然后将原本输入注意力控制单元的绝对位置编码U_j替换为相对位置编码R_i-j，加上 Transformer-XL模型对注意力值计算方式的改进以及关联矩阵的控制完成对注意力控制单元的改造。

所述的CRF层为条件随机场，该条件随机场通过定义一系列的特征函数来判定输出结果在这些特征函数的限制下的符合程度，即一种词性标注组合的评分

其中：δ_j表示赋予函数的权重，f_j为描述词性标注组合限制关系的特征函数，s为待标注词性的句子s，i为句子s中第i个单词，l_i为标注序列给第i个单词标注的词性，l_i-1为标注序列给第i-1个单词标注的词性，

以评分最高视为最合理有效的输出结果。

所述的CRF层通过学习句子的约束条件，以保证最终预测结果的合理性和有效程度。

所述的分类输出是指：直接将信息抽取模型输出的某个位置的单词对应的各个类别的分数输入CRF层进行分类输出，在CRF层中经过特征函数得到各种输出结果对应的评分，从而选择出评分最高的输出选项作为最终的分类输出结果。

本发明涉及一种实现上述方法的系统，包括：无向图构造单元、词嵌入构造单元、注意力控制单元以及分类输出单元，其中：无向图构造单元与注意力控制单元相连并传输位置编码和关联矩阵信息，词嵌入构造单元与注意力控制单元相连并传输词嵌入信息，注意力控制单元与分类输出单元相连并传输每个输入的单词所对应的各个标签类别的分数，分类输出单元接收输入的单词所对应的各个标签类别的分数，输出每个输入的单词所对应的预测标签。

技术效果

本发明整体解决了现有技术中对于需要特定领域知识的信息抽取效果较差的问题，通过引入知识图谱来把相关的知识信息嵌入到信息抽取模型当中，提高特定知识领域的信息抽取效果；现有知识图谱嵌入的方式通常只是知识树的嵌入方式，无法很好描绘各个节点之间的关联信息，且知识信息的引入会影响与该知识信息不相关的部分，造成知识噪声，本发明通过无向图的构建方式以及对应的注意力控制机制来提升知识图谱嵌入方式的局限性以及较大程度地避免了知识噪声，提高了模型的鲁棒性。

附图说明

图1为本发明示意图；

图2为构建无向图的示意图；

图中：圆形节点代表句子信息节点，方形节点表示知识信息节点；

图3为关联矩阵计算示意图；

图4为本发明使用的注意力机制计算方法示意图。

具体实施方式

如图1所示，为本实施例涉及一种用无向图嵌入知识图谱的文本信息抽取方法，信息抽取的基准模型采用的是Transformer-XL模型，该方法具体包括以下步骤：

步骤1)读入句子中的各个实体，将每个实体作为一个句子信息节点，构建一个序列，同时以这些节点为基础构造无向图，具体包括：设置句子信息节点和知识信息节点的目的是区分句子中的词实体以及知识图谱引入的知识实体，使注意力更多地关注到句子中的词实体，而不用关注所有的节点，提高模型识别的整体效率。

在构建无向图时以句子中的词实体为图的主体，为了满足后续信息抽取模型需要的序列结构的输入这一要求，需要提前为图的序列化做准备，因此会对句子中实体做一个线性的编号，如0,1,2，…，n-1，其中n表示句子中实体的数量，同时按照这一序列的关系创建n×n的邻接矩阵。下一步会从知识图谱中查询满足条件的三元组，将对应的关系以及实体节点插入无向图，若头尾实体都已在无向图中则仅将实体间的关系插入无向图并设置为知识信息节点，并更新邻接矩阵；当头尾实体只有任意一个在无向图中，则需要分别将另一个实体和实体间的关系插入无向图，并设置为知识信息节点，编号为目前无向图中各节点编号的最大值加1，如第一个引入的知识信息节点编号为n，邻接矩阵的维度相应地增加1并更新邻接矩阵中的邻接关系，重复此步骤，直到知识图谱中相关的知识信息全部引入。此时，设引入的知识信息节点总数目为 m，则邻接矩阵的维度为n+m。基于邻接矩阵是以句子信息节点为基础构建的，因此从线性的编号上就可以简单地区分开句子信息节点和知识信息节点，即编号小于n的为句子信息节点，其他节点为知识信息节点，从而便于后续注意力控制算法的计算。

步骤2)对句子信息节点从0开始进行编号，用来对应其在邻接矩阵当中的index，设句子中实体个数为m，则初始构造的邻接矩阵的维度为m×m，默认句子信息节点互相关联，因此该邻接矩阵初始化为一个全1矩阵；

步骤3)在知识图谱中搜索句子中的各个实体涉及的三元组关系，将三元组中不存在于无向图的实体作为知识信息节点插入无向图，增大邻接矩阵的维度并更新邻接矩阵，知识信息节点的编号在无向图中已有节点编号的基础上依顺序往大编号；

步骤4)完成知识图谱信息插入后，对邻接矩阵M进行点乘本身的计算得到距离为2的可达矩阵N，将距离为1的邻接矩阵M和距离为2的可达矩阵N直接相加，得到距离为2以内的关联矩阵G，将关联矩阵G中不为0的元素统一为1，方便后续对关联矩阵的利用；如图 2所示，为上述方法中关联矩阵的计算步骤，具体包括：首先根据无向图得到一个描述无向图中连接关系的邻接矩阵M，然后通过邻接矩阵对自身的点乘得到一个距离为2的可达矩阵N，由于邻接矩阵和可达矩阵中都是以0表示互不关联，因此可以直接相加得到一个关联矩阵G，表示两个节点之间的距离是否小于等于2，即知识图谱三元组中两个实体之间的距离，用来控制句子中的词实体只能看到与其直接相连的知识信息以及句子中的其他词实体，最后将关联矩阵G中不为0的元素统一为1方便后续的计算。

步骤5)将无向图中的实体按照节点编号形成序列输入到Transformer-XL模型中，通过关联矩阵将注意力机制的关注范围限定在有关联的节点之间，消除不关联的知识信息对句子中词实体的影响；深度学习信息抽取部分从Transformer-XL模型出发，通过改变注意力的计算方式来控制注意力集中到需要关注的部分，注意力机制的计算方法如图3所示，在计算出图3中第一阶段的结果F(Q,K)后将相对位置关系对应的关联矩阵信息通过变换后加到F(Q,K)中，在对各个F(Q,K)值进行处理后做softmax归一化得到对各个词实体的注意力分布，各个关注度的值大于0且和为1，分别乘上对应的value矩阵输出AttentionValue。

步骤6)将Transformer-XL的输出接入到下游任务，本实施例在transformer-XL模型的输出接入CRF层进行分类输出，得到分类结果。

经过具体实际实验，在本发明所述的模型结构下，引入HowNet知网知识图谱，在Finance_NER数据集上进行实验能够得到的评价指标F1值为0.872。

综上，本方法提高了最终信息抽取命名实体识别(NER)任务的评价指标F1值，将命名实体识别的F1值从同等条件下BERT模型所能达到的F1指标0.802提升到了0.872，大幅度提升了命名实体识别的信息抽取效果。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种用无向图嵌入知识图谱的文本信息抽取方法，其特征在于，基于待抽取字符串构建包含关联句子信息节点和知识信息节点的无向图，分别根据无向图及其节点编号生成位置编码、根据无向图及其邻接矩阵生成关联控制矩阵，将关联控制矩阵引入注意力机制中，即关联控制矩阵中显示关联的节点能够正常计算注意力、显示无关联的节点对当前节点的注意力值无限趋近于0，即表示二者不相关，将待抽取字符串的序列中各个句子信息节点的词嵌入向量和根据位置编码和图中关联关系得到的相对位置编码输入基于注意力机制的信息抽取模型，将模型输出接入CRF层进行分类输出，得到信息抽取结果；

所述的无向图，以待抽取字符串平铺为序列作为无向图的主干，通过不断插入知识图谱中的知识信息完善无向图中的关联信息，具体步骤包括：待抽取字符串以序列的形式输入信息抽取模型，待抽取字符串中的节点记为句子信息节点，而不断插入的知识图谱中的知识信息对应的节点记为知识信息节点，通过区分句子信息节点和知识信息节点使得句子信息节点始终受到关注，而知识信息节点只被特定范围内字符串节点所关注，最终得到一个由两类节点构成的嵌入了知识信息的无向图以及一个表示各节点之间连接关系的邻接矩阵；

所述的关联控制矩阵，根据无向图中距离为1的邻接矩阵M计算得到距离为2的可达矩阵N，通过知识图谱三元组的性质限定句子信息节点所能关联到的知识信息节点到该句子信息节点的距离最多只能为2，因此可以通过邻接矩阵M和可达矩阵N相加得到任意一个句子信息节点所能关联到的知识信息节点，再加上句子信息节点之间两两相关联，M+N即可得到句子的关联控制矩阵；

其中：δ_j表示赋予函数的权重，f_j为描述词性标注组合限制关系的特征函数，s为待标注词性的句子s，i为句子s中第i个单词，l_i为标注序列给第i个单词标注的词性，l_i詘1为标注序列给第i-1个单词标注的词性，

以评分最高视为最合理有效的输出结果。

2.根据权利要求1所述的用无向图嵌入知识图谱的文本信息抽取方法，其特征是，所述的信息抽取模型，为Transformer-XL模型的变体，该信息抽取具体为：记邻接矩阵为M，距离为2的可达矩阵为N＝M×M，则关联矩阵中对应位置的值

得到关联矩阵G；注意力计算：qⁿ，kⁿ，

关联矩阵影响注意力范围为

其中：Z表示绝对位置编码的编码长度，该信息抽取模型输出待抽取字符串中每个单词所对应的各个标签类别的分数，CRF层输出每个输入的单词所对应的预测标签。

3.根据权利要求1所述的用无向图嵌入知识图谱的文本信息抽取方法，其特征是，所述的分类输出是指：直接将信息抽取模型输出的某个位置的单词对应的各个类别的分数输入CRF层进行分类输出，在CRF层中经过特征函数得到各种输出结果对应的评分，从而选择出评分最高的输出选项作为最终的分类输出结果。

4.一种实现权利要求1～3中任一所述方法的系统，其特征在于，包括：无向图构造单元、词嵌入构造单元、注意力控制单元以及分类输出单元，其中：无向图构造单元与注意力控制单元相连并传输位置编码和关联矩阵信息，词嵌入构造单元与注意力控制单元相连并传输词嵌入信息，注意力控制单元与分类输出单元相连并传输每个输入的单词所对应的各个标签类别的分数，分类输出单元接收输入的单词所对应的各个标签类别的分数，输出每个输入的单词所对应的预测标签。