CN115358227A

CN115358227A - 一种基于短语增强的开放域关系联合抽取方法及系统

Info

Publication number: CN115358227A
Application number: CN202210385209.9A
Authority: CN
Inventors: 姜添; 胡岩峰; 乔雪; 向镐鹏; 彭晨; 闵飞; 潘宇顺; 沈红; 付啟明
Original assignee: Suzhou Aerospace Information Research Institute
Current assignee: Suzhou Aerospace Information Research Institute
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-11-18

Abstract

本发明提出一种基于短语增强的开放域关系联合抽取方法及系统，通过BERT预训练语言模型对句子中的字符进行编码，提取句子特征向量表示；根据首实体短语标注模型，解码句子特征向量表示，抽取所有可能构成关系三元组的首实体短语；构建除首实体短语外的关系短语词汇增强词典，并将外部关系短语词汇表所包含的短语信息融合到句子特征向量表示中；根据关系短语和尾实体序列标注模型，抽取出首实体短语对应的所有关系短语和尾实体短语，构建该首实体的候选开放域关系三元组集合；根据开放域关系三元组的置信度，从候选开放域关系三元组集合中，选择置信度高于设定阈值的开放域关系三元组，作为该首实体的开放域关系三元组。本发明能够更好地整合关系短语和实体对短语之间的信息。

Description

一种基于短语增强的开放域关系联合抽取方法及系统

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于短语增强的开放域关系联合抽取方法及系统。

背景技术

开放域关系抽取是信息抽取领域一个热点研究方向之一，与限定域关系抽取不同，开放域关系抽取不需要预先定义关系类别，而是直接从非结构化文本中抽取出关系三元组，这有助于发现实体间的新关系。开放域关系抽取在知识图谱构建、问答系统、信息检索等领域具有广阔的应用前景。

随着深度学习技术的迅猛发展以及各种开源开放域信息抽取系统的出现，基于深度学习模型的开放域关系抽取方法逐渐成为主流趋势。传统基于深度学习的开放域关系抽取方法通常采用序列标注的方式，将句子中开放域关系三元组的抽取过程分为两个子任务：首先，识别给定句子中的关系短语，然后，再根据识别的关系短语抽取对应的实体对短语。然而，传统方法主要存在三个问题：(1) 忽略了关系短语识别和实体对识别两个子任务之间的内在联系和依赖关系，导致关系抽取精度不高；(2)两个子任务产生的误差可能累积，关系短语识别的错误会影响实体对识别的效果；(3)基于字符级别的关系短语识别方法对关系短语边界的识别能力较差，导致识别的关系短语信息冗余或者信息缺失，难以表达实际关系含义。

针对上述问题，本发明创新性地提出一种基于短语增强的开放域关系联合抽取方法，将关系短语识别和实体对识别两个任务进行联合建模学习，端到端实现开放域关系三元组抽取，能够更好地整合关系短语和实体对短语之间的信息。此外，本方法引入外部关系短语词典，以增强开放域关系短语的边界学习能力，提高关系短语的语义简洁性和完整性。

[1]Fan,A.,Gardent,C.,Braud,C.,Bordes,A.:Using local knowledge graphconstruction to scale seq2seq models to multi-document inputs.In:Proceedingsof EMNLP-IJCNLP,pp.4186–4196(2019)

[2]Kolluru,K.,et al.:Imojie:iterative memory-based joint openinformation extraction.

In:Proceedings of ACL,pp.5871–5886(2020)

[3]Stanovsky,G.,Michael,J.,Zettlemoyer,L.,Dagan,I.:Supervised openinformation

extraction.In:Proceedings of NAACL-HLT,pp.885-895(2018)

[4]Sui,D.,Chen,Y.,Liu,K.,Zhao,J.,Liu,S.:Leverage lexical knowledgefor chinese

named entity recognition via collaborative graph network.In:Proceedings of EMNLP-IJCNLP,pp.3821–3831(2019)

[5]Zhan,J.,Zhao,H.:Span model for open information extraction onaccurate corpus.

In:Proceedings of AAAI,pp.9523–9530(2020)

发明内容

本发明的目的在于提出一种基于短语增强的开放域关系联合抽取方法及系统，以解决现有开放域关系抽取方法普遍存在的抽取准确性较低、关系短语信息冗余或缺失、关系语义表达不精准等问题。

实现本发明目的的技术解决方案为：一种基于短语增强的开放域关系联合抽取方法，包括下列步骤：

步骤1.特征提取：通过BERT预训练语言模型对句子中的字符进行编码，提取句子特征向量表示；

步骤2.首实体短语抽取：根据首实体短语标注模型，解码句子特征向量表示，抽取所有可能构成关系三元组的首实体短语；

步骤3.关系短语词汇表构建：构建除首实体短语外的关系短语词汇增强词典，并将外部关系短语词汇表所包含的短语信息融合到句子特征向量表示中；

步骤4.关系短语和尾实体短语抽取：根据关系短语和尾实体序列标注模型，抽取出首实体短语对应的所有关系短语和尾实体短语，构建该首实体的候选开放域关系三元组集合；

步骤5.开放域关系三元组筛选：根据开放域关系三元组的置信度，从候选开放域关系三元组集合中，选择置信度高于设定阈值的开放域关系三元组，作为该首实体的开放域关系三元组。

进一步的，步骤1，通过BERT预训练语言模型对句子中的字符进行编码，提取句子特征向量表示，具体方法为：

h₀＝SW_s+W_p (1)

其中，h₀表示提取的句子特征向量，S代表输入的句子中词的one-hot向量矩阵， W_s代表词嵌入矩阵，W_p代表位置嵌入矩阵，其中p表示输入句子中的位置索引；

hα＝Trans(h_α-1),α∈[1,N] (2)

其中，hα代表隐藏状态向量，即输入句子在第α层的上下文表示，N代表Transformer块的数量。

进一步的，步骤2，根据首实体短语标注模型，解码句子特征向量表示，抽取所有可能构成关系三元组的首实体短语，具体方法为：

首实体短语起始位置和结束位置的计算公式分别是：

其中，

分别代表输入句子序列中，第i个词作为首实体短语的开始和结束位置的概率，在模型序列标注中，若概率值大于阈值，则该位置设为1，反之设为0，x_i代表第i个词的编码序列，W_start、W_end表示首实体短语开始和结束位置的权重，b_start、b_end表示首实体短语开始和结束位置的偏差，σ表示 sigmoid激活函数。

进一步的，步骤3，构建除首实体短语外的关系短语词汇增强词典，并将外部关系短语词汇表所包含的短语信息融合到句子特征向量表示中，具体方法为：

步骤3.1，构建关系短语词汇增强词典：采集维基百科语料数据，使用依存句法分析、词性分析方法对数据进行处理，提取维基百科数据中的关系短语而构建关系短语词汇增强词典；

步骤3.2，匹配词分类：通过构建的关系短语词典集匹配输入句子中除首实体短语外的每个字符，将匹配的结构词分为“BMES”四类，对于一个去除首实体短语的输入句子序列s＝{c₁,c₂,...,c_n}，“BMES”四类定义为：

B(c_i)＝{w_i,k,w_i,k∈L,i＜k≤n} (5)

M(c_i)＝{w_j,k,w_j,k∈L,1≤j＜i＜k≤n} (6)

E(c_i)＝{w_j,i,w_j,i∈L,1≤j＜i} (7)

S(c_i)＝{c_i,c_i∈L} (8)

其中，L代表构建的关系短语词汇增强词典；B、M、E、S分别表示以c_i为起始位置的词、以c_i为中间位置的词、以c_i为结尾位置的词、单个c_i的词，w表示所有可能匹配到的B、M、E、S词集的词；

步骤3.3，词集压缩：获得“BMES”四个词集后，将每个词集的内容压缩为固定维数的向量，得到关系短语词汇表信息，压缩公式为：

其中，

S代表一个词集，e^w代表词嵌入查找表，z(w)代表词w在维基数据集中出现的频率；

步骤3.4，将关系短信词汇表信息嵌入到句子特征向量，公式为：

其中，v^s代表加权函数，

表示“BMES”四个词集拼接，

表示嵌入了关系短信词汇表信息的句子特征向量。

进一步的，步骤4，根据关系短语和尾实体序列标注模型，抽取出首实体短语对应的所有关系短语和尾实体短语，构建该首实体的候选开放域关系三元组集合，具体方法为：

抽取首实体可能对应的尾实体短语位置公式为：

其中，

分别代表输入句子序列中，第i个词作为尾实体短语的开始和结束位置的概率，

代表第k个候选首实体，x_i代表第i个词的编码序列，

表示尾实体短语开始和结束位置的权重，

表示尾实体短语开始和结束位置的偏差，σ表示sigmoid激活函数；

抽取首实体可能对应的关系短语位置公式为:

其中

分别代表输入句子序列中，第i个词作为关系短语的开始和结束位置的概率，

代表第k个候选首实体，

代表候选首实体可能对应的第m 个尾实体,x_i代表第i个词的编码序列，

表示关系短语开始和结束位置的权重，

表示关系短语开始和结束位置的偏差，σ表示sigmoid激活函数。

进一步的，步骤5，对于首实体存在多元关系的情况，通过筛选结果保留多个关系三元组。

一种基于短语增强的开放域关系联合抽取系统，基于所述的基于短语增强的开放域关系联合抽取方法，实现基于短语增强的开放域关系联合抽取。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，基于所述的基于短语增强的开放域关系联合抽取方法，实现基于短语增强的开放域关系联合抽取。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，基于所述的基于短语增强的开放域关系联合抽取方法，实现基于短语增强的开放域关系联合抽取。

本发明与现有技术相比，其显著优点为：1)利用关系短语识别和实体对识别两个子任务之间的内在联系和依赖关系，将关系短语识别和实体对识别两个任务进行联合建模学习，实现端到端的开放域关系三元组抽取，能够更好地整合关系短语和实体对短语之间的信息。2)引入外部关系短语词典，以增强开放域关系短语的边界学习能力，提高关系短语的语义简洁性和完整性。

附图说明

图1是一种基于短语增强的开放域关系联合抽取方法的框架图；

图2是一种基于短语增强的开放域关系联合抽取方法的流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为本发明一种基于短语增强的开放域关系联合抽取方法的框架图。基于短语增强的开放域关系联合抽取方法，包括：

步骤1.特征提取。原始句子通过BERT预训练模型编码，提取句子特征向量。

h₀＝SW_s+W_p (1)

其中，S代表输入的句子中词的one-hot向量矩阵，W_s代表词嵌入矩阵，W_p代表位置嵌入矩阵，p表示输入句子中的位置索引。

hα＝Trans(h_α-1),α∈[1,N] (2)

其中，hα代表隐藏状态向量，即输入句子在第α层的上下文表示，N代表Transformer块Trans(.)的数量。

步骤2.抽取句子中候选首实体短语。通过解码BERT编码器生成的句子特征向量，抽取输入句子中所有可能的首实体短语。首实体短语起始位置和结束位置的计算公式是：

其中，

分别代表输入句子序列中，第i个词作为首实体短语的开始位置和结构位置的概率。在模型序列标注中，若概率值大于阈值，则该位置设为 1，反之设为0。x_i代表第i个词的编码序列，W表示权重，b表示偏差，σ表示sigmoid激活函数。

步骤3.关系短语词汇表构建。为了解决开放域关系抽取结果中出现的关系短语冗余、关系信息错误等情况，提出构建关系短语增强词汇表提炼抽取的关系表达短语，使得抽取的关系三元组表达更简洁、清晰。关系短语词汇表构建主要包括以下步骤：

(1)构建关系短语词典集：采集维基百科语料数据，使用依存句法分析、词性分析等方法对数据进行处理，提取维基百科数据中的关系短语而构建关系短语词典集。

(2)匹配词分类：通过构建的关系短语词典集匹配输入句子中除首实体短语外的每个字符，将匹配的结构词分为“BMES”四类，对于一个去除首实体短语的输入句子序列s＝{c₁,c₂,...,c_n}，“BMES”四类定义为：

B(c_i)＝{w_i,k,w_i,k∈L,i＜k≤n} (5)

M(c_i)＝{w_j,k,w_j,k∈L,1≤j＜i＜k≤n} (6)

E(c_i)＝{w_j,i,w_j,i∈L,1≤j＜i} (7)

S(c_i)＝{c_i,c_i∈L} (8)

其中，L代表构建的词典集，B、M、E、S分别表示以c_i为起始位置的词、以c_i为中间位置的词、以c_i为结尾位置的词、单个c_i的词，w表示所有可能匹配到的B、 M、E、S词集的词。

(3)词集压缩：获得“BMES”四个词集后，将每个词集的内容压缩为固定维数的向量。压缩公式为：

其中，

S代表一个词集，e^w代表词嵌入查找表，z(w)代表词w在维基数据集中出现的频率。

(4)将关系短信词汇表信息嵌入到字符特征：关系短信词汇表信息嵌入到句子的字符特征，公式为：

其中，v^s代表加权函数，

表示“BMES”四个词集拼接，

表示嵌入了关系短信词汇表信息的句子特征向量。

步骤4.抽取首实体短语对应的关系短语与尾实体短语。抽取首实体可能对应的尾实体短语位置公式为：

其中，

分别代表输入句子序列中，第i个词作为尾实体短语的开始位置和结束位置的概率，

代表第k个候选首实体，x_i代表第i个词的编码序列，W表示权重，b表示偏差，σ表示sigmoid激活函数。

抽取首实体可能对应的关系短语位置公式为:

其中

分别代表输入句子序列中，第i个词作为关系短语的开始位置和结束位置的概率，

代表第k个候选首实体，

代表候选首实体可能对应的第m个尾实体,x_i代表第i个词的编码序列，W表示权重，b表示偏差，σ表示sigmoid激活函数。

步骤5.首实体抽取的候选三元组集中，根据置信度筛选关系三元组。将置信度大于阈值0.5的三元组保留，作为该首实体对应的开放域关系三元组。

本发明还提出一种基于短语增强的开放域关系联合抽取系统，基于所述的基于短语增强的开放域关系联合抽取方法，实现基于短语增强的开放域关系联合抽取。

下面对本发明的技术方案进行举例说明。

给定输入句子s＝{某国外交部****人率团访问**地}

步骤1.数据编码，提取输入句子特征信息。通过BERT预训练模型编码，提取句子到的特征向量为[0.087197 -0.083435 0.057956 0.143120 -0.000068 0.123272 0.022439-0.323317 -0.231756 -0.009262 -0.211264 -0.021698 0.246367 0.179090 0.0541170.077638 -0.054555 -0.050630 0.072361 0.103788]；

步骤2.抽取句子中候选首实体短语。通过解码BERT编码器生成的句子特征向量，根据公式(3)和公式(4)抽取到的所有可能的首实体短语有{中国，** 人}。

步骤3.关系短语词汇表构建。首先关系短语构建的词典集有{外交，外交部长，部长，访问，率团，率团访问...}，将词典集压缩向量化转换为[-0.13128 -0.452 0.043399 -0.99798 -0.21053 -0.95868 -0.24609 0.48413 0.18178 0.475 -0.22305 0.300640.43496 -0.3605 0.20245 -0.52594 -0.34708 0.0075873 -1.0497 0.18673 0.573690.43814 0.098659 0.3877 -0.2258 0.41911 0.043602 -0.7352 -0.53583 0.19276 -0.21961],将词典嵌入到句子特征向量，得到增强关系短语的句子向量为[0.133570.41839 1.3138 0.35678 -0.32172 -1.2257 -0.26635 0.36716 -0.27586 -0.532460.16786 -0.11253 -0.99959 -0.60706 -0.89271 0.65156 -0.88784 0.049233 0.67111-0.27553 -2.4005 -0.36989 0.29136 1.3498 1.7353 0.27 0.021299 0.144220.023784 0.33643 -0.35476 1.0921 1.4845]。

步骤4.抽取首实体短语对应的关系短语与尾实体短语，得到首实体短语对应的候选关系三元组集，例如对于首实体‘王**’得到的候选关系三元组集为{(** 人，访问，**地)，(**人，率团，访问)，(**人，率团，**地)}。

步骤5.从首实体抽取的候选关系三元组集中，根据置信度筛选关系三元组。例如对于首实体‘王毅’抽取到的候选关系三元组集中，(**人，访问，**地)， (**人，率团，访问)，(**人，率团，**地)的置信度分别为0.81,0,47,0.39，从而可得出该首实体对应抽取到的关系三元组为(**人，访问，**地)。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于短语增强的开放域关系联合抽取方法，其特征在于，包括下列步骤：

2.根据权利要求1所述的基于短语增强的开放域关系联合抽取方法，其特征在于，步骤1，通过BERT预训练语言模型对句子中的字符进行编码，提取句子特征向量表示，具体方法为：

h₀＝SW_s+W_p (1)

其中，h₀表示提取的句子特征向量，S代表输入的句子中词的one-hot向量矩阵，W_s代表词嵌入矩阵，W_p代表位置嵌入矩阵，其中p表示输入句子中的位置索引；

hα＝Trans(h_α-1),α∈[1,N] (2)

3.根据权利要求1所述的基于短语增强的开放域关系联合抽取方法，其特征在于，步骤2，根据首实体短语标注模型，解码句子特征向量表示，抽取所有可能构成关系三元组的首实体短语，具体方法为：

首实体短语起始位置和结束位置的计算公式分别是：

其中，

分别代表输入句子序列中，第i个词作为首实体短语的开始和结束位置的概率，在模型序列标注中，若概率值大于阈值，则该位置设为1，反之设为0，x_i代表第i个词的编码序列，W_start、W_end表示首实体短语开始和结束位置的权重，b_start、b_end表示首实体短语开始和结束位置的偏差，σ表示sigmoid激活函数。

4.根据权利要求1所述的基于短语增强的开放域关系联合抽取方法，其特征在于，步骤3，构建除首实体短语外的关系短语词汇增强词典，并将外部关系短语词汇表所包含的短语信息融合到句子特征向量表示中，具体方法为：

B(c_i)＝{w_i,k,w_i,k∈L,i＜k≤n} (5)

M(c_i)＝{w_j,k,w_j,k∈L,1≤j＜i＜k≤n} (6)

E(c_i)＝{w_j,i,w_j,i∈L,1≤j＜i} (7)

S(c_i)＝{c_i,c_i∈L} (8)