CN115130462B

CN115130462B - 一种基于深度神经网络的信息抽取方法

Info

Publication number: CN115130462B
Application number: CN202210719139.6A
Authority: CN
Inventors: 王亚强; 李凯伦; 唐聃; 舒红平
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2023-09-01
Anticipated expiration: 2042-06-23
Also published as: CN115130462A

Abstract

本发明涉及自然语言序列标注技术领域，公开了一种基于深度神经网络的信息抽取方法，BERT‑BiLSTM‑CRF模型能够解决信息抽取任务中存在的一词多义与同物异名问题，以及信息抽取任务中存在的待抽取信息长短不统一和待抽取信息有错别字、描述简短等问题，通过批量过采样的方式增加批量中少数类样本信息的数量，使得模型在训练的过程中可以有效学习到少数类样本信息的特征，从而在一定程度上解决数据类别分布不均衡的问题，使得少数类样本信息的抽取效果有显著提升。

Description

一种基于深度神经网络的信息抽取方法

技术领域

本发明属于自然语言处理下的序列标注领域，涉及一种信息抽取的方法。

背景技术

信息抽取属于自然语言处理领域下的序列标注任务。过去常常使用统计机器学习方法去解决序列标注任务，其中最常用的就是条件随机场(Conditional random field,CRF)。CRF优于其他一般的统计学习方法，如最大熵马尔可夫模型(Maximum entropyMarkov model，MEMM)、隐马尔可夫模型(Hidden Markov model，HMM)。CRF是一种通过最大化条件概率来训练模型的无向图模型，其可以充分地利用数据中的特征，在所有状态上进行全局归一化，从而求得全局的最优解。解决了HMM的独立假设问题和MEMM的标注偏置问题。但是，CRF模型和其他统计机器学习模型一样，无法自动地从文本中提取丰富的语义特征，在特征提取方面仍然需要大量的人工参与。

近年来，基于预训练语言模型的深度神经网络被应用于序列标注任务。其中，预训练语言模型可以自动地从文本序列中提取出丰富的词义特征、语义级特征以及语法结构特征，使得其在序列标注任务上取得了相当理想的效果。但是，这些方法往往是基于类别分布均衡的数据集进行训练的，而真实地统计数据往往存在数据类别分布不均衡的问题，即：某一类信息的数量远少于其他信息的数量。这使得深度神经网络模型会拟合于数量较多的类别样本，忽略数量较少的类别样本的特征，从而影响模型的性能。

目前，解决数据类别分布不均衡问题，主要有三种数据级解决方法：

(1)过采样：通过不同的方法在数据集中尽可能多地合成现有的少数类别样本以平衡数据集的数据类别分布。

(2)欠采样：通过随机采样、k-近邻、聚类、分类决策边界敏感样本识别等方法对多数类样本进行选择性采样。从而过滤掉部分多数类样本，使得数据集中数据类别分布均衡。

(3)过采样与欠采样相结合的混合采样方法：通过将过采样的样本合成和欠采样的样本抽取相融合，构造类别均衡的数据集。

但是，在对复杂模型进行训练的过程中，对数量较多的类别样本对进行欠采样，将多数类样本的数量和少数类样本的数量均衡到相同水平。这会在一定程度上导致数据集中部分多数类样本的特征缺失，使得模型在拟合数据集时，无法充分学习到多数类样本数据的特征，从而影响模型性能。

发明内容

为解决上述问题，本发明采用BERT-BiLSTM-CRF模型，采用批量过采样的方式，提供了一种可全面、准确、均衡地抽取信息的方法。

本发明的技术方案如下：

一种基于深度神经网络的信息抽取方法，包括无监督域内继续预训练和基于批量过采样的有监督训练；

上述信息为中医临床四诊信息；

具体地，包括以下步骤：

S1:对开放域预训练语言模型BERT的掩码语言模型(Masked LanguageModel,MLM)进行无监督域内继续预训练；

S2:将S1中域内继续预训练之后的BERT模型与BiLSTM-CRF模型组

合成BERT-BiLSTM-CRF模型；

S3：对BERT-BiLSTM-CRF模型进行有监督训练；

在上述步骤S2中BERT-BiLSTM-CRF模型中，输入层将训练数据按字粒度进行分词，然后输入BERT层进行特征提取，BERT模型对输入的序列进行多种不同的线性变换，得到多个不同的Attention结果，并通过多头注意力机制将不同线性变换得到的Attention结果拼接起来，得到每个词在不同空间下的位置信息，从而给BERT层输出的词向量注入丰富的上下文语境信息；BiLSTM层的前向过程和后向过程的LSTM单元可以舍弃当前时刻输入词向量的无用信息，并将当前时刻输入词向量的有用信息传递给下一时刻的LSTM单元，然后，将双向过程中每个时刻对应的输出拼接，得到包含长距离上下文信息的词向量；CRF模型利用邻近标签之间的依赖关系对BiLSTM层输出的所有词向量进行解码，从而得到最优的预测序列；

上述批量过采样处理流程包括批处理策略、按比例P随机移除、随机选取、插入四个步骤，具体如下：

a)批处理策略：首先，将训练数据集D中所有的数据样本(x_i,y_i)按洗牌算法随机排列到列表中。然后，使用大小为M(批量大小)的滑动窗口去将列表划分为批量集合B，批量集合B中的批量B_k的数量批量B_k的大小为M，即：一个批量B_k中包含M个数据样本(x_i,y_i)；

b)按比例P随机移除：针对步骤a)中生成的每一个批量B_k，按批量过采样比例P随机从B_k中移除个数据样本(x_i,y_i)；

c)随机选取：从少数类样本信息数据集W中有放回地随机选取个数据样本，与步骤b)中在每个批量B_k中随机移除的数据样本数量相等；

d)插入：针对步骤b)中处理后的每一个批量B_k，将步骤c)中生成的个数据样本插入批量B_k中，形成批量过采样后的批量B'_k。其中，批量集合B'中批量B'_k的数量N'与批量集合B中批量B_k的数量N相等，即：

步骤c)中的少数类样本信息数据集为闻诊信息数据集，由训练数据集D中所有包含闻诊信息的数据样本构成。

进一步地，S3中通过小批量梯度下降方法对BERT-BiLSTM-CRF模型进行有监督训练。

进一步地，S3中对BERT-BiLSTM-CRF模型进行有监督训练的数据集是经过批量过采样处理的标注数据。

进一步地，步骤c)针对步骤b)中处理后的的每一个批量B_k都会重新执行一次。

进一步地，上述批量大小M，批量过采样比例P都为模型训练过程中的超参。

进一步地，上述批量过采样流程在训练模型的过程中会多次执行，执行次数与模型训练过程中的超参Epochs相等。

进一步地，上述步骤S2中BERT-BiLSTM-CRF模型组合的方法是，将无监督域内继续预训练后的BERT模型与BiLSTM模型相组合，用于输入序列的特征提取，并在其末尾组合一个用于抽取信息的CRF模型。

综上所述，本发明的有益效果是：

BERT-BiLSTM-CRF模型能够解决信息抽取任务中存在的一词多义与同物异名问题，以及信息抽取任务中存在的待抽取信息长短不统一和待抽取信息有错别字、描述简短等问题，通过批量过采样的方式增加批量少数类样本信息的数量，使得模型在训练的过程中可以有效学习到少数类样本信息的特征，从而在一定程度上解决数据类别分布不均衡的问题，使得少数类样本信息的抽取效果有显著提升。

附图说明

图1是实施例一的中医临床四诊信息抽取方法框架图；

图2是实施例一BERT-BiLSTM-CRF模型框架图；

图3是实施例一四诊信息批量过采样流程图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明附图，对本发明技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明实施例的描述中，需要说明的是，指示方位或位置关系为基于附图所示的方位或位置关系，或者是该发明使用时惯常摆放的方位或位置关系，或者是本领域技术人员惯常理解的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本发明实施例的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接连接，也可以通过中间媒介间接连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义；实施例中的附图用以对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

实施例一：

本实施例的中医临床四诊信息抽取方法框架图如图1所示，此方法由两部分组成，第一部分是无监督域内继续预训练，第二部分是有监督训练和批量过采样；

首先，使用无标注的中医临床记录数据对开放域预训练语言模型BERT(Bidirectional Encoder Representation from Transformers)的掩码语言模型(MaskedLanguage Model,MLM)进行无监督域内继续预训练，使得开放域的预训练语言模型更加适用于下游任务；

然后，将域内继续预训练之后的BERT模型与BiLSTM-CRF模型进行组合(模型框架图如图2所示)，并在域内高质量带标注数据集上利用小批量梯度下降方法对模型进行有监督训练。

在图2的前两层中，输入层将中医临床记录文本序列按字粒度进行分词，然后输入BERT层进行特征提取。而BERT模型对输入的序列进行多种不同的线性变换，得到多个不同的Attention结果，并通过多头注意力机制将不同线性变换得到的Attention结果拼接起来，得到每个词在不同空间下的位置信息，从而给BERT层输出的词向量注入丰富的上下文语境信息。这使得组合后的BERT-BiLSTM-CRF模型能够解决中医临床四诊信息抽取任务中存在的一词多义与同物异名问题。

在图2的后两层中，BiLSTM层的前向过程和后向过程的LSTM单元可以舍弃当前时刻输入词向量的无用信息，并将当前时刻输入词向量的有用信息传递给下一时刻的LSTM单元。然后，将双向过程中每个时刻对应的输出拼接，便可得到包含长距离上下文信息的词向量。最后，CRF模型利用邻近标签之间的依赖关系对BiLSTM层输出的所有词向量进行解码，从而得到最优的预测序列。这也使得组合后的BERT-BiLSTM-CRF模型能够在一定程度上解决中医临床四诊信息抽取任务中存在的待抽取信息长短不统一和待抽取信息有错别字、描述简短等问题。

但是，中医临床四诊信息带标注数据集还存在数据类别分布不均衡的问题，数据集中闻诊信息的数量远少于其他三诊信息的数量。在此数据集上对组合后的BERT-BiLSTM-CRF模型进行有监督训练，会使得模型过拟合数量较多的四诊类别样本，而忽略数量较少的四诊类别样本的特征。所以，本发明使用批量过采样的方式去增加批量中闻诊信息的数量，使得模型在训练的过程中可以有效学习到闻诊信息的特征，从而在一定程度上解决数据类别分布不均衡的问题。批量过采样的流程图如图3所示。

在图3中，主要有4个步骤，包括：

(1)批处理策略：首先，将训练数据集D中所有的数据样本(x_i,y_i)按洗牌算法随机排列到列表中。然后，使用大小为M(批量大小)的滑动窗口去将列表划分为批量集合B。因此，批量集合B中的批量B_k的数量批量B_k的大小为M，即：一个批量B_k中包含M个数据样本(x_i,y_i)。

(2)按比例P随机移除：针对步骤(1)中生成的每一个批量B_k，按批量过采样比例P随机从B_k中移除个数据样本(x_i,y_i)。

(3)随机选取：从闻诊信息数据集W中有放回地随机选取个数据样本，与步骤(2)中在每个批量B_k中随机移除的数据样本数量相等。此操作针对步骤(2)中处理后的的每一个批量B_k都会重新执行一次。

(4)插入：针对步骤(2)中处理后的每一个批量B_k，将步骤(3)中生成的个数据样本插入批量B_k中，形成批量过采样后的批量B'_k。其中，批量集合B'中批量B'_k的数量N'与批量集合B中批量B_k的数量N相等，即：

上述的步骤中，批量大小M，批量过采样比例P都为模型训练过程中的超参。闻诊信息数据集W由训练数据集D中所有包含闻诊信息的数据样本构成。图3所示的批量过采样流程在训练模型的过程中会多次执行，执行次数与模型训练过程中的超参Epochs相等。

本发明针对中医临床记录数据集中的四诊信息的抽取进行了一系列实验，实验结果如下表所示。首先，在HMM、CRF、BiLSTM、BiLSTM-CRF四个基线方法上分别进行了中医临床记录中四诊信息的抽取实验。然后，在本发明提出的深度学习方法上进行了实验。本发明使用常见的评价指标F1-Score(F1分数)来评价实验模型对每个中医四诊类别的抽取效果，以及使用Accuracy(准确率)来评价实验模型的整体抽取性能。

表1实验结果表格

首先，从表中可以看出，本发明的性能优于其他基线方法。就Accuracy而言，本文提出的方法达到了0.9570，相对于其他基线方法有0.0078到0.029的提升。就每个标签的F1值而言，本发明相比于基线方法中的最佳方法(CRF)有0.0009到0.0357的提升。

分析表中的结果后发现，本发明对于样本量极少的“B-闻”和“I-闻”标签的标注效果有显著提升。这是因为批量过采样增加了批量中闻诊信息出现的频率，使得原本在训练过程中容易被模型忽略的闻诊信息特征，可以有效地被模型学习到。从而在很大程度上消除了数据类别分布不均衡对模型性能的影响。并且，本发明移除批量过采样之后，“B-闻”和“I-闻”标签F1值的大幅降低也充分证明了此结论。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度神经网络的信息抽取方法，其特征在于，包括无监督域内继续预训练和基于批量过采样的有监督训练；

所述信息为中医临床四诊信息；

所述方法包括以下步骤：

S1:对开放域预训练语言模型BERT的掩码语言模型(Masked Language Model,MLM)进行无监督域内继续预训练；

S2:将S1中域内继续预训练之后的BERT模型与BiLSTM-CRF模型组合成BERT-BiLSTM-CRF模型；

S3：对BERT-BiLSTM-CRF模型进行有监督训练；

所述批量过采样处理流程包括批处理策略、按比例P随机移除、随机选取、插入；

所述批量过采样处理流程的具体步骤为：

a)批处理策略：首先，将训练数据集D中所有的数据样本(x_i,y_i)按洗牌算法随机排列到列表中。然后，使用批量大小为M的滑动窗口去将列表划分为批量集合B，批量集合B中的批量B_k的数量批量B_k的大小为M，即：一个批量B_k中包含M个数据样本(x_i,y_i)；

d)插入：针对步骤b)中处理后的每一个批量B_k，将步骤c)中生成的个数据样本插入批量B_k中，形成批量过采样后的批量B'_k，其中，批量集合B'中批量B'_k的数量N'与批量集合B中批量B_k的数量N相等，即：/>所述步骤S2中BERT-BiLSTM-CRF模型，输入层将训练数据按字粒度进行分词，然后输入BERT层进行特征提取，BERT模型对输入的序列进行多种不同的线性变换，得到多个不同的Attention结果，并通过多头注意力机制将不同线性变换得到的Attention结果拼接起来，得到每个词在不同空间下的位置信息，从而给BERT层输出的词向量注入丰富的上下文语境信息；BiLSTM层的前向过程和后向过程的LSTM单元可以舍弃当前时刻输入词向量的无用信息，并将当前时刻输入词向量的有用信息传递给下一时刻的LSTM单元，然后，将双向过程中每个时刻对应的输出拼接，得到包含长距离上下文信息的词向量；CRF模型利用邻近标签之间的依赖关系对BiLSTM层输出的所有词向量进行解码，从而得到最优的预测序列；

所述步骤c)中所述的少数类样本信息数据集W为闻诊信息数据集，由训练数据集D中所有包含闻诊信息的数据样本构成。

2.根据权利要求1所述的一种基于深度神经网络的信息抽取方法，其特征在于，所述S3中通过小批量梯度下降方法对BERT-BiLSTM-CRF模型进行有监督训练。

3.根据权利要求2所述的一种基于深度神经网络的信息抽取方法，其特征在于，所述S3中对BERT-BiLSTM-CRF模型进行有监督训练的数据集是经过批量过采样处理的标注数据。

4.根据权利要求1所述的一种基于深度神经网络的信息抽取方法，其特征在于，所述步骤c)针对步骤b)中处理后的的每一个批量B_k都会重新执行一次。

5.根据权利要求4所述的一种基于深度神经网络的信息抽取方法，其特征在于，所述批量大小M，批量过采样比例P都为模型训练过程中的超参。

6.根据权利要求4所述的一种基于深度神经网络的信息抽取方法，其特征在于，所述批量过采样流程在训练模型的过程中会多次执行，执行次数与模型训练过程中的超参Epochs相等。

7.根据权利要求1所述的一种基于深度神经网络的信息抽取方法，其特征在于，所述步骤S2中BERT-BiLSTM-CRF模型组合的方法为，将无监督域内继续预训练后的BERT模型与BiLSTM模型相组合，用于输入序列的特征提取，并在其末尾组合一个用于抽取信息的CRF模型。