CN111309849B

CN111309849B - 一种基于联合学习模型的细粒度数值信息抽取方法

Info

Publication number: CN111309849B
Application number: CN202010083902.1A
Authority: CN
Inventors: 于佳婕; 丁文韬; 瞿裕忠
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2023-06-23
Anticipated expiration: 2040-02-10
Also published as: CN111309849A

Abstract

本发明公开了利用一种基于联合学习模型的细粒度数值信息抽取方法，包括如下步骤：对输入文本进行预处理；根据数值相关正则表达式识别候选的数值，以数值为触发词，与其前后词例拼接，作为联合学习模型的输入；联合学习模型的底层接入词嵌入层，并对词嵌入层的输出加入数值触发词的位置信息，得到每个词例最终的分布式表示；基于分布式表示接入后续的特征提取网络，并在高层分别接入具体任务的网络：接入分类网络得到数值信息的语义类型，接入序列标注网络得到数值触发词相关的数个语义角色；合并具体任务的输出得到数值信息单元；针对多个数值信息单元，基于统计方法判断它们之间的复合关系。本发明无需人工设计特征、准确性高、泛化能力强。

Description

一种基于联合学习模型的细粒度数值信息抽取方法

技术领域

本发明属于自然语言处理领域的信息抽取技术领域，具体涉及一种基于联合学习模型的细粒度数值信息抽取方法。

背景技术

随着万维网数据的高速增长，人们期望能从各类数据中更高效全面地获取信息，从而将其用于智能问答、搜索推荐等多种应用。其中，文本数据具有数据量多和信息量大等特性，成为信息抽取中非常重要的数据来源。科研工作者和业界非常关注相关技术的研究，并定义了一些经典的信息抽取任务，如：命名实体识别、关系抽取、事件抽取等。

除了经典任务能抽取的信息之外，文本数据中还存在大量的数值信息。这些数值信息的表达十分多样化，同时往往具有一定模式，例如：在英文文本中“about 10kdollars”或“～10,000$”两种表达都意味着“约一万美元”。这种多样性对专门的识别和处理数值信息的技术方法带来了挑战。

近年来，相关领域有一些关于数值信息的语义角色框架的探索，但对于数值信息的表示不够精细。Roy等提出的QVR(Quantity-Value Representation)认为，数值信息包含数字、单位、变化性等三个语义槽，这种表示虽然易于提取，但粒度较粗，仅能向下游应用提供很有限的信息；Matthew等提出的QSRL(Quantitative Semantic Role Labels)，针对金融领域的数值信息设计了细粒度的语义角色，不适用于通用领域，且并未关注到数值信息在类型上的区分。

此外，相关提取技术的研究主要聚焦于有专门表达模式的时间、货币等特定方面。其中，对时间信息的研究发展最为充分，有权威的规范和丰富的基准数据集，并且一些方法已经在基准数据集上取得了不错的表现。目前，时间信息的提取方法主要分为三类，基于规则的方法、基于语义分析的方法和基于学习的方法。经典的规则方法通过专家构建的规则来识别时间相关的词例和串，而近期的规则方法SynTime则定义了一组时间相关词例的类型，启发式地搜索这些类型来识别时间表达式并扩展其边界。专利名为“一种面向知识图谱构建的文本时间抽取与规范方法”，公开号为CN108304523A，同样是基于启发式策略自动地抽取时间基元，再对其过滤生成模板库。语义分析方法依赖在语法或语义单元上人工定义的组合语法。Angeli等通过基于期望最大化的自举方法学习了一个概率上下文无关文法，UWTime基于组合范畴文法训练了上下文相关的语义分析器。而在基于学习的方法之中，基于序列化标注模型的表现最好，它们都同时使用了语法和时间词例类型相关的特征，并把词例的前驱/后继的特征也一并作为标记来粗糙地表征结构信息。ClearTK-TimeML使用一小组形态句法特征和基于字母-数字的时间相关子词例类型。最新的TOMN使用和SynTime相同的词例正则表达式来识别时间词例、修饰词和数字作为预标记，得到了优于经典BIO标注方案的结果。

总的来说，目前数值信息的抽取主要集中在时间、货币等特定方面上，对于一般性数值信息的抽取方法尚未得到深入的研究，尚未形成系统性的工作。数值信息应当包含哪些内容，如何对其进行规范化表示和抽取，是非常值得探究的问题。基于规则和语义分析的方法利用专家知识提供了良好的可解释性，但它们有限的灵活性和适应能力在一定程度上制约了它们在多样化的真实文本上的表现。基于学习的方法通常具有更好的泛化性能，其中深度神经网络模型可以自动提取特征，避免了手动构建特征的困难，近年来更多的工作尝试将其应用到该领域的研究。因此，如何将基于深度神经网络的方法应用到数值信息抽取任务上仍然是个值得探讨的问题。

发明内容

发明目的：针对上述现有技术存在的问题和不足，本发明的目的是提供无需人工设计特征、准确性高、泛化能力强的一种基于联合学习模型的细粒度数值信息抽取方法，解决了如下技术问题：1.目前，数值信息抽取缺乏系统性的细粒度信息表示规范。2.相关抽取方法多基于规则、语义分析方法，其泛化能力不足；传统机器学习方法，仍然需要手工构建特征，可移植性差，且准确度不高；目前的深度学习方法在该领域尚未有广泛应用，且多建模为流水线模型，造成子任务之间的误差传播，影响准确度。

技术方案：为实现上述发明目的，本发明采用的技术方案为一种基于联合学习模型的细粒度数值信息抽取方法，包括如下步骤：

(1)对输入文本进行预处理；

(2)根据数值相关正则表达式识别候选的数值，以所述数值为触发词，与其前后一定窗口大小内的词例进行拼接，作为联合学习模型的输入；

(3)所述联合学习模型的底层接入词嵌入层，并对于所述词嵌入层的输出，加入数值触发词(本发明中，数值触发词和触发词的含义相同)的位置信息，得到对于每个词例最终的分布式表示；

(4)基于步骤(3)所述的分布式表示，共享地接入后续的特征提取网络，并在最上层分别接入具体任务的网络：接入分类网络得到数值信息单元的语义类型，接入序列标注网络得到所述数值触发词相关的数个语义角色；合并具体任务的输出，得到数值信息单元的抽取结果；

(5)针对所述输入文本中抽取出的多个数值信息单元，基于统计方法判断所述数值信息单元之间的复合关系。

面向自然语言文本的数值信息表示规范包含以下内容：

1)该数值信息单元的语义类型(Numeric Information Class，NIC)，包括：命名、指代、计数、序数、度量、比值等。

2)该数值信息单元相关的数个语义角色(Numeric Semantic Roles，NSRs)，包括：值、修饰、值类型、单位、属性、对象、整体等。

3)所述的数值信息单元之间的复合关系(Combine Relation，CR)，包括：并列和嵌套两种复合关系。

上述步骤中，步骤(1)为文本预处理的过程，步骤(2)、(3)、(4)是利用联合学习模型抽取数值信息单元的过程，步骤(5)为判断多条数值信息单元之间复合关系的过程。

进一步的，所述复合关系包括并列关系和嵌套关系。

进一步的，所述步骤(1)中，对所述输入文本进行分词处理，并对所述输入文本中与数值相关的符号做拆分。

进一步的，所述步骤(2)中，通过词表以及正则表达式，从文本中识别出表达完整数值含义的数值，并取前后各20个词例，并在所述词例的首尾分别添加BERT(Bidirectional Encoder Representations from Transformers，基于Transformer的双向编码器表征)模型要求的[CLS]和[SEP]符号形成联合学习模型的输入。

进一步的，所述步骤(3)中，对输入的词例是否数值触发词进行编码，并对文本中的每个词生成相应的编码表示向量，最终将所述编码表示向量与词嵌入层输出的表示向量相加，得到每个词例最终的分布式表示。

进一步的，所述步骤(4)中，对于各个词例的分布式表示，接入双向的LSTM(LongShort-Term Memory，长短期记忆网络)作为特征提取网络，将所述[CLS]经由双向LSTM的输出作为所述文本的分布式表示，将所述文本的分布式表示接入到多层感知机进行分类，得到所述数值信息单元的语义类型；将各个词例经由双向LSTM的输出接入到CRF层，对所述对应输出进行序列标注，识别所述数值触发词的相关语义角色；最终，输出数值信息单元的表示结果。

进一步的，所述步骤(5)中，基于标注数据集，通过高频的词例和依存关系共现，通过Apriori算法自动地挖掘各复合关系相应的模式，并将所述模式应用于预测数据的关系判断。这里的标注数据集指：根据某标准，进行人工标注的数据集，用以帮助训练模型。

有益效果：1.针对信息抽取领域中研究不充分的数值信息，提出了一种兼具通用性和表达能力的细粒度数值信息表示方式，用以指导后续的抽取目标。2.抽取数值信息单元是其中的难点任务，本发明将数值类型判别和数值相关语义角色标注两个相关子任务，建模为联合学习模型，不仅可以避免误差传播，还可以通过共享表示信息，使得模型能在原始子任务上泛化性能更好，取得更高的正确率。

附图说明

图1是本发明的整体处理流程及实例图；

图2是本发明的基于联合学习的深度神经网络模型示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的使用范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明的实施是先对输入的文本进行特定的预处理，以便于后续在词级别进行识别，然后通过正则表达式、规则等方法，对所有可能的数值触发词进行识别。基于识别的结果，对每个数值触发词选取其前后一定窗口大小内的词，为基于联合学习的深度神经网络模型构建输入。联合学习模型将会以该数值为触发词，判断其数值类型NIC，并抽取相关的数值语义角色NSRs，形成多个数值信息单元表示{NIC,NSRs}。接着，通过统计方法，判断抽取出的数值信息单元之间的关系CR。最终，将上述结果合并，形成最终的抽取输出。

将如图1中实例所示，对于待抽取文本“BWM i8 is about 138k Euros inGermany.”，进行必要的拆分，并从中识别出所有可能的数值触发词：“i8”、“138k”。对于触发词“138k”，以窗口为5选取前后的词，并在首尾分别加上[CLS]、[SEP]，拼接形成输入：[CLS]BWM i8 about 138k Euros in Germany.[SEP]。联合学习模型将进行两个子任务，判断出其数值语义类型为NIC＝“度量”，抽取出相关的语义角色为NSRs＝{Modifier:about,Value:138k,Unit:Euros}。同理，可对以“i8”为触发词的数值信息单元进行相应抽取。对于“i8”和“138k”相应的数值信息单元，最终判断它们之间的关系是CR＝“不相关”。最终，输出单条信息的列表，以及相关关系列表，作为最终抽取结果。

本发明的完整流程包括文本预处理、数值信息单元抽取、判断多条数值信息单元之间复合关系等三个部分。具体的实施方式分别说明如下：

文本预处理部分，包括以下内容：对输入文本进行基本的分词，并且对某些特定的数值相关符号进行拆分(如将“1-2”、“1:2”拆成“1-2”、“1:2”等)，以便于后续在词级别进行识别；

数值信息单元抽取，包括以下步骤：

(1)通过词表、正则表达式以及特定的模式等方法，识别文本中出现的完整表达数值含义的所有数值(例如：“two thousand”)，以单个数值为触发词，与其前后一定窗口大小内的词例进行拼接，不足的部分通过[PAD]符号分别在其前后进行补全，并在首尾分别添加BERT模型要求的[CLS]、[SEP]符号，拼接作为联合学习模型的输入；

(2)联合学习模型底层接入BERT网络对其进行微调，或使用其他的词嵌入层；

(3)对输入词例是否数值触发词进行编码，并将对应编码与词嵌入层的输出进行相加，从而加入数值触发词的位置信息，得到对于每个词例最终的分布式表示；

(4)将每个词例的最终分布式表示，共享地接入后续的特征提取网络，在此使用的是双向的LSTM；

(5)在最上层分别接入具体任务的网络：接入多层感知机进行分类，得到该数值信息单元的语义类型NIC；接入条件随机场进行序列标注，得到该数值触发词的相关语义角色NSRs。两者结合，即为该数值信息单元的表示结果NIR＝[NIC,NSRs]；

该模型基于联合学习的概念进行构建。在流程中需要进行多种学习任务时，以往通常会采用流水线模型逐步进行单一任务的学习。这样虽然可以使模型达到可接受的性能，但是由于关注点集中在单个任务上，因而可能忽略了帮助优化度量指标的其它信息；同时，如果后续任务依赖于之前任务执行的结果，那么会造成错误的传播。而另一类模型是多任务学习模型，它通过在相关任务间共享表示信息，在训练时由于归约偏置的存在，导致模型更倾向于那些可以同时解释多个任务的解，从而使得模型能在原始任务上泛化性能更好。多任务学习有多种形式，联合学习正是其中的一种，也是自然语言处理领域应用更广泛的一种多任务学习形式。

该模型的最上层的特征提取上，使用的是双向的长短期记忆网络(Long Short-Term Memory，LSTM)。LSTM是递归神经网络(Recursive Neural Networkt，RNN)的一种。它通过使用门机制缓解了梯度问题，从而缓解了以往RNN对于长程依赖处理的不足，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM的网络结构中，由三个门来控制细胞状态，包括：输入门、输出门、遗忘门。其中细胞状态的更新使用到了输入门和遗忘门的信息，其实现如下：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i), (输入门)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f), (遗忘门)

c_t＝f_t⊙c_t-1+i_t⊙tanh(W_xcx_t+W_hch_t-1+b_c), (细胞状态)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o), (输出门)

h_t＝o_t⊙tanh(c_t), (输出)

其中，t表示细胞所在时刻，x表示输入向量，i、f、c、o、h分别表示上述公式对应的LSTM中的网络结构，σ指sigmoid函数，⊙是元素点积操作，形如k_t的标记指的是网络结构k在t时刻的表示，形如W_mn的标记指的是网络结构m与网络结构n之间的权重矩阵，形如b_k的标记指的是网络结构k的偏置系数。

本发明使用双向的LSTM网络，相比单向而言可以捕捉更多的语言特征。它的输入为每一个字符通过嵌入层映射的d维向量。在t时刻，它使用一个前向LSTM计算从左到右的序列表示

一个后向LSTM计算从右到左的序列表示/>

最终的表示由两者连接而成，即模型在t时刻的最终表示/>

对于最上层的分类任务而言，接入的是多层感知机网络(Multi-LayerPerceptron，MLP)，除了输入输出层，它中间可以有多个隐层。在此，以x_i表示输入中的第i个词例，则对于长度为n的文本X＝(x₁，x₂，x₃，…，x_n)，我们使用的MLP输入是首部词[CLS]对应的分布式表示r，隐层将r转换为|L|维向量u(L为分类的标签集合)：

u＝σ(W_rur+b_u),

输出层通过softmax进行归一化处理，则对分类预测标签l，其正确的概率p(l|X)为：

其中，u_i为L中第i个标签l_i对应的得分，

表示所有类型标签中的任何一个。

在训练时，使用交叉熵损失函数；在预测时，得到所有类型标签的得分向量u，通过求取得分最高的类型标签

从而得出对应的数值类别。

对于最上层的序列标注任务而言，接入的是条件随机场(Conditional RandomField，CRF)，这是因为通过双向LSTM获取的特征无法捕捉输出标签之间的依赖关系。对于给定的文本X，设P为n*k维的输入矩阵，n是文本长度，k为序列预测的标签个数。下面，P_i，j是对第i个词例打第j个标签的得分。以y_i表示对第i个词例的序列标注预测标签，则对于一个序列预测结果y＝(y₁，y₂，y₃，...，y_n)，其序列得分s(X，y)为：

其中，A_i，j表示从i标签转移到j标签的得分，y_i表示对第i个词例预测的标签。将所有可能的标签序列通过softmax层进行归一化处理，则对序列预测结果y，其正确的概率p(y|X)为：

其中，Y_X是对于文本X的所有可能序列预测结果的集合，

表示所有的序列预测结果中的任何一个。

在训练时，使用交叉熵损失函数；在预测的时候，得到所有序列预测的得分向量

通过求取得分最高的序列预测/>

从而得出对应的标签序列。

对于判断多条数值信息单元之间复合关系，本发明的实现方法是：基于该标准下的人工标注数据集，通过高频的词例共现、依存关系路径等，通过频繁项集挖掘算法Apriori预先自动地挖掘出复合关系与其相对应的模式。在预测时，将该模式应用于预测数据的关系判断。

Claims

1.一种基于联合学习模型的细粒度数值信息抽取方法，其特征在于，包括如下步骤：

(1)对输入文本进行预处理；

(3)所述联合学习模型的底层接入词嵌入层，并对于所述词嵌入层的输出，加入数值触发词的位置信息，得到对于每个词例最终的分布式表示；

(5)针对所述输入文本中抽取出的多个数值信息单元，基于统计方法判断所述数值信息单元之间的复合关系；

所述步骤(2)中，通过词表以及正则表达式，从文本中识别出表达完整数值含义的数值，并取前后各20个词例，并在所述词例的首尾分别添加BERT模型要求的[CLS]和[SEP]符号形成联合学习模型的输入；

所述步骤(4)中，对于各个词例的分布式表示，接入双向的LSTM作为特征提取网络，将所述[CLS]经由双向LSTM的输出作为所述文本的分布式表示，将所述文本的分布式表示接入到多层感知机进行分类，得到所述数值信息单元的语义类型；将各个词例经由双向LSTM的输出接入到CRF层，对所述输出进行序列标注，识别所述数值触发词的相关语义角色；最终，输出数值信息单元的抽取结果。

2.根据权利要求1所述的一种基于联合学习模型的细粒度数值信息抽取方法，其特征在于，所述语义类型包括：命名、指代、计数、序数、度量以及比值，所述相关语义角色包括：值、修饰、值类型、单位、属性、对象以及整体。

3.根据权利要求1所述的一种基于联合学习模型的细粒度数值信息抽取方法，其特征在于，所述复合关系包括并列关系和嵌套关系。

4.根据权利要求1所述的一种基于联合学习模型的细粒度数值信息抽取方法，其特征在于，所述步骤(1)中，对所述输入文本进行分词处理，并对所述输入文本中与数值相关的符号做拆分。

5.根据权利要求1所述的一种基于联合学习模型的细粒度数值信息抽取方法，其特征在于，所述步骤(3)中，对输入的词例是否数值触发词进行编码，并对文本中的每个词生成相应的编码表示向量，最终将所述编码表示向量与词嵌入层输出的表示向量相加，得到每个词例最终的分布式表示。

6.根据权利要求1所述的一种基于联合学习模型的细粒度数值信息抽取方法，其特征在于，所述步骤(5)中，基于标注数据集，通过高频的词例和依存关系共现，通过Apriori算法自动地挖掘各复合关系相应的模式，并将所述模式应用于预测数据的关系判断。