CN114154489A

CN114154489A - 一种三元组抽取方法、装置、设备及存储介质

Info

Publication number: CN114154489A
Application number: CN202111494823.0A
Authority: CN
Inventors: 王超; 郑力; 杨声春; 游佳川; 何诺; 覃杨微; 徐欣欣; 王璇; 刘馨杨; 袁文忆
Original assignee: Chongqing Rural Commercial Bank Co ltd
Current assignee: Chongqing Rural Commercial Bank Co ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-03-08

Abstract

本发明公开了一种三元组抽取方法、装置、设备及存储介质，该方法包括：确定当前需实现三元组抽取的任意文档为待抽取文档；将所述待抽取文档输入至分段模型中，得到所述分段模型输出的分段结果，并基于该分段结果得到所述待抽取文档包含的多个段落；将所述待抽取文档包含的每个段落分别输入至抽取模型中，得到所述抽取模型输出的相应段落中包含的三元组；其中，所述分段模型为预先利用多个文档及相应分段结果训练得到的，所述抽取模型为预先利用多个段落及该多个段落中各段落分别包含的三元组训练得到的。可见，本申请能够利用相应模型自动实现文档中三元组的有效抽取，无需人工介入，从而能够节省人力，缩短抽取时间，提高抽取效率。

Description

一种三元组抽取方法、装置、设备及存储介质

技术领域

本发明涉及知识抽取技术领域，更具体地说，涉及一种三元组抽取方法、装置、设备及存储介质。

背景技术

从句子语法成分来看，可以将三元组描述为从句子中抽取句子的主语(Subject)-谓语(Predicate)-宾语(Object)；现有技术中在实现三元组抽取时，通常是人工实现，但是这种方式需要花费大量的人力，并且抽取的时间较长、效率较低。

发明内容

本发明的目的是提供一种三元组抽取方法、装置、设备及存储介质，能够利用相应模型自动实现文档中三元组的有效抽取，无需人工介入，从而能够节省人力，缩短抽取时间，提高抽取效率。

为了实现上述目的，本发明提供如下技术方案：

一种三元组抽取方法，包括：

确定当前需实现三元组抽取的任意文档为待抽取文档；

将所述待抽取文档输入至分段模型中，得到所述分段模型输出的分段结果，并基于该分段结果得到所述待抽取文档包含的多个段落；所述分段模型为预先利用多个文档及相应分段结果训练得到的；

将所述待抽取文档包含的每个段落分别输入至抽取模型中，得到所述抽取模型输出的相应段落中包含的三元组；所述抽取模型为预先利用多个段落及该多个段落中各段落分别包含的三元组训练得到的。

优选的，所述分段模型为利用BERT以及BI-LSTM进行联合建模所得的模型。

优选的，所述抽取模型为基于SpanBERT实现的CloseSPO-IE模型。

优选的，利用多个段落及该多个段落中各段落分别包含的三元组训练得到抽取模型，包括：

预定义谓语集合，所述谓语集合包括需要提取全部三元组包含的各谓语；

基于所述谓语集合获取多个段落及相应的三元组作为训练语料，并利用所述训练语料训练得到抽取模型。

优选的，在训练得到所述分段模型及所述抽取模型之后，还包括：

通过增量训练方式定时训练所述分段模型及所述抽取模型。

优选的，将所述待抽取文档包含的每个段落分别输入至抽取模型中之前，还包括：

将所述待抽取文档包含的标点符号全部替换为英文的标点符号。

优选的，得到所述抽取模型输出的相应段落中包含的三元组之后，还包括：

将所述待抽取文档包含的每个段落中包含的三元组进行整合，得到相应的三元组知识集，并将所述三元组知识集输出。

一种三元组抽取装置，包括：

确定模块，用于：确定当前需实现三元组抽取的任意文档为待抽取文档；

分段模块，用于：将所述待抽取文档输入至分段模型中，得到所述分段模型输出的分段结果，并基于该分段结果得到所述待抽取文档包含的多个段落；所述分段模型为预先利用多个文档及相应分段结果训练得到的；

抽取模块，用于：将所述待抽取文档包含的每个段落分别输入至抽取模型中，得到所述抽取模型输出的相应段落中包含的三元组；所述抽取模型为预先利用多个段落及该多个段落中各段落分别包含的三元组训练得到的。

一种三元组抽取设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上任一项所述三元组抽取方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述三元组抽取方法的步骤。

本发明提供了一种三元组抽取方法、装置、设备及存储介质，该方法包括：确定当前需实现三元组抽取的任意文档为待抽取文档；将所述待抽取文档输入至分段模型中，得到所述分段模型输出的分段结果，并基于该分段结果得到所述待抽取文档包含的多个段落；将所述待抽取文档包含的每个段落分别输入至抽取模型中，得到所述抽取模型输出的相应段落中包含的三元组；其中，所述分段模型为预先利用多个文档及相应分段结果训练得到的，所述抽取模型为预先利用多个段落及该多个段落中各段落分别包含的三元组训练得到的。本申请在需要对任意文档实现三元组抽取时，先利用预先训练得到的分段模型对该任意文档进行分段处理得到该任意文档中包含的各段落，进而利用抽取模型得到该任意文档包含的每个段落中包含的各三元组，从而实现文档中三元组的自动抽取。可见，本申请能够利用相应模型自动实现文档中三元组的有效抽取，无需人工介入，从而能够节省人力，缩短抽取时间，提高抽取效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种三元组抽取方法的流程图；

图2为本发明实施例提供的分段模型的预测模式示意图；

图3为本发明实施例提供的BERTSpan模型的原理示意图；

图4为本发明实施例提供的一种三元组抽取装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的一种三元组抽取方法的流程图，可以包括：

S11：确定当前需实现三元组抽取的任意文档为待抽取文档。

需要说明的是，本申请实施例中所抽取的三元组具体可以指主语(Subject)-谓语(Predicate)-宾语(Object)，简称为SPO；但是由于SPO的成分更加宽泛，因此只要三元组表达一条知识，则可以称其为一条SPO。在需要对任意的文档实现三元组抽取时，均可以确认该任意的文档为待抽取文档，进而对待抽取文档中的三元组实现自动抽取；另外，待抽取文档可以为包含有金融知识的文档，当然也可以根据实际需要进行其他设置。

S12：将待抽取文档输入至分段模型中，得到分段模型输出的分段结果，并基于该分段结果得到待抽取文档包含的多个段落；分段模型为预先利用多个文档及相应分段结果训练得到的。

考虑到当太长的输入发生时，会导致抽取精度下降，且不符合抽取模型的输入长度限制，因此本申请实施例在对待抽取文档实现三元组抽取前，还会对待抽取文档进行自动文本分段，在实现自动文本分段时可以利用BMEO来标注文本的段落，B表示段落开头，E表示段落结尾，M表示段落中间部分，O表示其他杂项，如图片，图片注释等。具体来说，可以预先获取多个文档及相应的分段结果作为训练语料，然后利用训练语料训练得到分段模型，进而在对任意文档实现自动文本分段时，则可以将该任意文档输入至分段模型中，分段模型则可以输出该任意文档的分段结果；其中，任意文档对应的分段结果可以是利用BMEO为该任意文档中各句子进行标注所得的结果；进而基于分段结果可以确定出相应文档中包含的各个段落。

S13：将待抽取文档包含的每个段落分别输入至抽取模型中，得到抽取模型输出的相应段落中包含的三元组；抽取模型为预先利用多个段落及该多个段落中各段落分别包含的三元组训练得到的。

为了实现三元组的自动抽取，本申请实施例可以预先获取多个段落及每个段落中分别包含的三元组作为训练语料，然后利用训练语料训练得到抽取模型，进而在对任意段落实现三元组抽取时，则可以将该任意段落输入至抽取模型中，抽取模型则可以输出该任意段落中包含的各三元组。

本发明提供了一种三元组抽取方法、装置、设备及存储介质，该方法包括：确定当前需实现三元组抽取的任意文档为待抽取文档；将待抽取文档输入至分段模型中，得到分段模型输出的分段结果，并基于该分段结果得到待抽取文档包含的多个段落；将待抽取文档包含的每个段落分别输入至抽取模型中，得到抽取模型输出的相应段落中包含的三元组；其中，分段模型为预先利用多个文档及相应分段结果训练得到的，抽取模型为预先利用多个段落及该多个段落中各段落分别包含的三元组训练得到的。

本申请在需要对任意文档实现三元组抽取时，先利用预先训练得到的分段模型对该任意文档进行分段处理得到该任意文档中包含的各段落，进而利用抽取模型得到该任意文档包含的每个段落中包含的各三元组，从而实现文档中三元组的自动抽取。可见，本申请能够利用相应模型自动实现文档中三元组的有效抽取，无需人工介入，从而能够节省人力，缩短抽取时间，提高抽取效率。

本发明实施例提供的一种三元组抽取方法，分段模型可以为利用BERT以及BI-LSTM进行联合建模所得的模型。

需要说明的是，分段模型可以主要采用基于预训练语言模型(BERT)和双向长短记忆单元(BI-LSTM)的联合建模方式对文档进行自动分段处理；其中，BI-LSTM为前向的LSTM和后向的LSTM的拼接。在具体实现方式中，分段模型可以如图2所示，具体可以包括：

定义分段模型训练batch-size大小必须大于文档段落的平均长度。由于输入分段模型的为一段字符，故输出[CLS]表征每行的信息，由于利用Bi-LSTM捕捉不同行之间的转移信息，故需要batch-size大于平均段落长度，一般地，可以设置batch-size大于16；

将BERT的输出(大小为batch_sizex 768)作为Bi-LSTM输入，设置Bi-LSTM的隐藏层大小(hidden-size)为128；

设置MLP的权重大小为(2*hidden-size,4)，得到logits矩阵；

将logits映射到softmax概率空间上，选出概率最大的标签(tag)为预测值；例如：输入一段文字，softmax得到的标签概率为[0.76,0.16,0.05,0.03]，对应的标签为[B,M,E,O],所以该段文字的最终预测标签为B，即其为段落的开头。

本发明实施例提供的一种三元组抽取方法，抽取模型可以为基于SpanBERT实现的CloseSPO-IE模型。

需要说明的是，为了更好的表征文本向量，本申请实施例可以采用预训练模型(BERT)实现抽取模型；具体的可以采用SpanBERT，进而在此基础上实现CloseSPO-IE(限定域三元组抽取)模型作为抽取模型。其中，CloseSPO-IE通过分析任意领域的数据，预先自定义该任意领域下需要抽取的三元组中包含的P的集合(可以将预定义的P的集合称作scheme)，OpenSPO-IE不需要预定义的关系类型，它可以有效地提取包含在其中的实体之间的新关系事实；另外，利用CloseSPO-IE模型可以对输入的长度小于510个中文字符的段落进行SPO的自动抽取，从而有效准确的实现相应领域下三元组的抽取。

在具体实现方式中，本申请实施例中的CloseSPO-IE模型主要采用基于SpanSPO联合建模方式对拆解后的文档进行SPO抽取，原理图可以如图3所示。具体来说，举例说明Span的含义，采用span编码的方式采样句子中的S和O，对于一个句子，设L＝(c₁c₂c₃...c_n)，其中c_i表示一个中文字符，n表示句子中含有n个中文字符，即Len(L)＝n.，span编码则为span_i～j＝(c_ic_i+1...c_j)，其表示从c_i到c_j，即为span_i～j＝L[i：j+1]。在Span采样的过程中利用SpanSPO模型训练时，正样本即为标注的SO实体的span下标以及p在scheme中的id，负样本的形成利用span，如定义span的跨度范围为[2，10]，则从句子开始迭代选取所有的符合span跨度的span作为SO，且p都定义相应正样本p的id；如：{“text”：“全球知名咨询机构IDC发布《未来银行白皮书》”，“spo_list”：[([2，11]，[13，22]，1)，([8，11]，[4，8]，2)]}，设，1表示scheme中的“制定”对应的id(为1)，2表示scheme中的“属于”对应的id(为2)，正样本即为([2，11]，[13，22]，1)，负样本可为[([2，11]，[4，8]，0)，([2，11][8，11]，0)]，负样本的实体对来自真实实体，但是实体对之间不存在关系。相应的，利用抽取模型实现任意段落中三元组的抽取可以包括：

span长度embedding，对于不同长度的span都给一个embedding编码，即为w_k+1，；span的长度范围需要自定义，一般地设置span长度在[2，10]个字符；

进行span表征如下：

e(s)＝concate(f(e_i，e_i+1，...e_i+k，)，w_k+1)：

其中，f表示一种pooling方式，可以max pooling，mean pooling等(优选maxpooling)；Concate表示把两个向量拼接在一起；

进行span分类如下：

定义x^e＝concate(e(s)，cls)；其中，cls为BERT的[CLS]输出向量，经过softmax函数，有：y^e＝softmax(w*x^e+b)；

进行p多分类如下：

定义context＝c(s₁，s₂)；其中，s1表示实体S的终点，s2表示实体O的起点位置，函数c表示，对BERT从s₁至s₂的token输出Embedding进行pooling，可以是max，mean pooling；

然后做如下拼接：

X¹²＝e(s₁)c(s₁，s₂)，e(s₂)；

X²¹＝e(s₂)c(s₁，s₂)，e(s₁)；

其中，X¹²、X²¹来表征p，不考虑头尾实体的顺序，故X¹²、X²¹都表示相同的关系或者属性p；

通过一个如下的sigmoid激活函数：

y^r＝sigmoid(W^sX^12/21+b^s)：

最终的损失函数定义为：

L＝y^e+y^r。

本发明实施例提供的一种三元组抽取方法，利用多个段落及该多个段落中各段落分别包含的三元组训练得到抽取模型，可以包括：

预定义谓语集合，谓语集合包括需要提取全部三元组包含的各谓语；

基于谓语集合获取多个段落及相应的三元组作为训练语料，并利用训练语料训练得到抽取模型。

根据语料联合金融专家经验知识，预定义SPO三元组集合中P(谓语)的取值集合，P的取值集合可以为{制定、产品定义、投资、担保、包含、别称、属于}；进而在获取训练语料时则按照CloseSPO-IE的方式获取，从而使得训练语料中的任一P以及利用抽取模型得到的任一P，均来自P的取值集合；从而能够实现任意领域内三元组的定向准确抽取。

另外，在训练得到分段模型及抽取模型之后，还可以包括：通过增量训练方式定时训练分段模型及抽取模型。具体来说，本申请实施例在训练得到分段模型及抽取模型后，还可以在后期利用新确定出的文档及相应分段结果对分段模型进行增量学习，利用新确定出的段落及其包含的三元组对抽取模型进行增量学习，从而有效提高分段模型及抽取模型的模型精度，进而提高三元组抽取的抽取精度。

需要说明的是，将待抽取文档包含的每个段落分别输入至抽取模型中之前，还可以包括：将待抽取文档包含的标点符号全部替换为英文的标点符号。具体来说，本申请在将段落输入至抽取模型之前，还可以将段落中包含的标点符合全部替换为英文的标点符号，从而使得标点符号尽可能均在BERT的vocab词典中出现，减少未知字符的出现，提高三元组抽取的准确率。另外，还可以在段落输入抽取模型前去除段落中的空格和空格。

并且，得到抽取模型输出的相应段落中包含的三元组之后，还可以包括：将待抽取文档包含的每个段落中包含的三元组进行整合，得到相应的三元组知识集，并将三元组知识集输出。具体来说，本申请实施例在实现待抽取文档中全部的三元组后，可以将这些三元组进行整合得到相应三元组知识集，简单来说可以是将其以统一的格式存储至同一文件中，进而将该文件作为三元组知识集，并将三元组知识集输出，从而方便相应人员或者模块对抽取得到的全部三元组的获取。

本申请提供一种面向任意特定领域(如金融领域)的三元组抽取方法，首先设计该领域的scheme(P集合)，然后利用对需要实现三元组抽取的文档实现文本自动分段，最后利用CloseSPO-IE模型抽取分段所得各段落中的SPO。可见，本申请首先采用段落拆解的方式对文档进行拆解，把无结构的文本转化成段落形式进行输入，该步骤保证了三元组输入的完整性，避免了过长、过短以及不完整的输入导致三元组抽取不全的问题；其次采用SpanSPO的方式抽取三元组，该方法使用句子中的负样本进行训练，提高了模型的泛化性；减少人工构建知识成本，系统获取文档，自动抽取知识点，辅助知识图谱构建；采用联合建模的方式，不仅减少了不同任务之间的误差传播，而且大大减少了模型推理时间，提高了自动抽取效率，同时能够有效提升抽取准确率。另外，本申请具有自动抽取段落中相同P且不同头尾实体的能力，即<S,P,O>来自同一个段落，P相同，SO不同；另一方面，本申请支持增量训练，通过拓展scheme的设计，抽取更加复杂的SPO。

本发明实施例还提供了一种三元组抽取装置，如图4所示，可以包括：

确定模块11，用于：确定当前需实现三元组抽取的文档为待抽取文档；

分段模块12，用于：将待抽取文档输入至分段模型中，得到分段模型输出的分段结果，并基于该分段结果得到待抽取文档包含的多个段落；分段模型为预先利用多个文档及相应分段结果训练得到的；

抽取模块13，用于：将待抽取文档包含的每个段落分别输入至抽取模型中，得到抽取模型输出的相应段落中包含的三元组；抽取模型为预先利用多个段落及该多个段落中各段落分别包含的三元组训练得到的。

本发明实施例提供的一种三元组抽取装置，分段模型可以为利用BERT以及BI-LSTM进行联合建模所得的模型；抽取模型可以为基于SpanBERT实现的CloseSPO-IE模型。

本发明实施例提供的一种三元组抽取装置，还包括：

训练模块，用于：预定义谓语集合，谓语集合包括需要提取全部三元组包含的各谓语；基于谓语集合获取多个段落及相应的三元组作为训练语料，并利用训练语料训练得到抽取模型。

本发明实施例提供的一种三元组抽取装置，还可以包括：

增量训练模块，用于：在训练得到分段模型及抽取模型之后，通过增量训练方式定时训练分段模型及抽取模型。

本发明实施例提供的一种三元组抽取装置，还可以包括：

替换模块，用于：将待抽取文档包含的每个段落分别输入至抽取模型中之前，将待抽取文档包含的标点符号全部替换为英文的标点符号。

本发明实施例提供的一种三元组抽取装置，还可以包括：

输出模块，用于：得到抽取模型输出的相应段落中包含的三元组之后，将待抽取文档包含的每个段落中包含的三元组进行整合，得到相应的三元组知识集，并将三元组知识集输出。

本发明实施例还提供了一种三元组抽取设备，可以包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上任一项三元组抽取方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可以实现如上任一项三元组抽取方法的步骤。

需要说明的是，本发明实施例提供的一种三元组抽取装置、设备及存储介质中相关部分的说明请参见本发明实施例提供的一种三元组抽取方法中对应部分的详细说明，在此不再赘述。本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种三元组抽取方法，其特征在于，包括：

确定当前需实现三元组抽取的任意文档为待抽取文档；

2.根据权利要求1所述的方法，其特征在于，所述分段模型为利用BERT以及BI-LSTM进行联合建模所得的模型。

3.根据权利要求2所述的方法，其特征在于，所述抽取模型为基于SpanBERT实现的CloseSPO-IE模型。

4.根据权利要求3所述的方法，其特征在于，利用多个段落及该多个段落中各段落分别包含的三元组训练得到抽取模型，包括：

5.根据权利要求4所述的方法，其特征在于，在训练得到所述分段模型及所述抽取模型之后，还包括：

通过增量训练方式定时训练所述分段模型及所述抽取模型。

6.根据权利要求5所述的方法，其特征在于，将所述待抽取文档包含的每个段落分别输入至抽取模型中之前，还包括：

7.根据权利要求6所述的方法，其特征在于，得到所述抽取模型输出的相应段落中包含的三元组之后，还包括：

8.一种三元组抽取装置，其特征在于，包括：

9.一种三元组抽取设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述三元组抽取方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述三元组抽取方法的步骤。