CN114372465A

CN114372465A - 基于Mixup和BQRNN的法律命名实体识别方法

Info

Publication number: CN114372465A
Application number: CN202111152985.6A
Authority: CN
Inventors: 李晓林; 陈卓豪; 危欢; 徐港
Original assignee: Wuhan Institute of Technology
Current assignee: Wuhan Institute of Technology
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-04-19

Abstract

本发明公开了一种基于Mixup和BQRNN的法律文书的命名实体识别方法，包括步骤：使用BERT预训练模型对训练集的法律判决文书进行向量化处理；使用Mixup数据增强方法在词向量表示层面对训练集规模进行扩充；使用BQRNN双向准循环神经网络对增强后的词向量表示进行处理，提取法律文本中带有上下文特征的深层特征向量，并输出相应的实体标签序列；使用CRF条件随机场解码，最后将概率最大的实体标签序列，作为训练结果输出，并生成相应训练模型；将训练模型在测试集上进行测试，调整训练模型参数信息，直至选取稳定前，指标性能最好的识别模型；输入中文法律文书案列，识别模型自动进行判断并输出法律文书中的法律实体。

Description

基于Mixup和BQRNN的法律命名实体识别方法

技术领域

本发明涉及中文语言处理及识别技术领域，尤其涉及基于Mixup数据增强以及BQRNN准循环神经网络模型的法律命名实体识别方法。

背景技术

使用人工智能技术建立智慧法院系统，能够帮助法务人员对相似案件作出裁决，提高效率。要对法律文书进行语义理解，首先要解决的就是法律实体的识别问题。NER(Named Entity Recognition，命名实体识别)是指从文本中抽取特定的命名实体的过程，是一个序列标注的分类任务，对每一个输入的字符，赋予可能性最大的标注序列。

现有的中文命名实体识别方法主要分为机器学习方法和深度学习方法。机器学习方法需要预先设计规则模式，然后通过字符串搜索和匹配的手段实现实体的识别。但易受预先规则的限制，可移植性较差，对未登录词的识别效果不佳。深度学习方法相比机器学习方法具有更高的准确性，这些模型通常有数百万个参数，因此需要大量数据进行训练，以避免过拟合和更好的模型泛化。然而，收集大量带注释的数据样本既耗时又昂贵。法律领域作为特殊领域，数据语料稀缺，数据质量和数据数量都难以达到很好的预期。

数据增强则是一种旨在解决这种数据饥饿问题的技术。生成合成数据样本作为用于正则化学习模型的附加训练数据。数据增强在计算机视觉和语音识别中得到了积极而成功的应用。然而，这些方法中的大多数依赖于人类知识进行标签不变的数据转换，如图像缩放、翻转和旋转。与图像不同的是，自然语言中并没有简单的标签不变变换规则。通常，句子中单词的细微变化会显著改变句子的意思。为此，NLP中流行的数据扩充方法旨在通过使用手工制作的本体或同义词替换来转换文本。然而，这种基于同义词的转换只能应用于词汇的一部分，因为具有完全或几乎相同含义的单词很少。

发明内容

本发明主要目的在于，提供一种基于Mixup和BQRNN的法律文书法律命名实体识别方法，通过大量的数据，训练一个的深度学习经验模型，对输入的中文法律文书中的命名实体自动进行识别，同时，通过对法律文书的特征向量进行Mixup数据增强操作，在保持较低的额外计算成本的基础上，使上述模型具有更高的鲁棒性和适用性。

本发明所采用的技术方案是：

提供一种基于Mixup和BQRNN的法律文书的命名实体识别方法，包括以下步骤：

S1、使用BERT预训练模型对训练集的法律判决文书进行向量化处理，构建带有上下文语义的词向量表示；

S2、使用Mixup数据增强方法，对生成的词向量表示进行处理，在词向量表示层面对训练集规模进行扩充，生成增强后的词向量表示的训练集；

S3、使用BQRNN双向准循环神经网络对增强后的词向量表示进行处理，提取法律文本中带有上下文特征的深层特征向量，并输出相应的实体标签序列；

S4、使用CRF条件随机场依据标签之间的约束关系对实体标签序列按照法律文书命名的实体属性规则进行解码，最后将概率最大的实体标签序列，作为训练结果输出，并生成相应训练模型；

S5、将训练模型在测试集上进行测试，并根据测试结果，调整训练模型参数信息，再次训练，直至测试集测试的指标水平趋于稳定，选取稳定前，指标性能最好的识别模型；

S6、输入中文法律文书案列，识别模型自动进行判断并输出法律文书中的法律实体。

接上述技术方案，在对法律判决文书进行向量化处理后，随机获取2个输入的句子i和j，通过设定的融合参数λ，分别从2个句子中获取两个片段； Beta分布获取融合参数λ，通过Mixup算法，生成新的特征向量embedding 以及新的标签label，并选取新的特征向量embedding附近距离最近的一个字符token作为新生成的句子；最后分别将新生成的句子替换回初始的2个句子，通过句子困惑度判断哪个句子符合要求并放到训练集中参与训练，从而做到在不增加数据量的情况下，增加训练样本数量。

接上述技术方案，将增强数据与过采样后的原始数据进行1:1混合，生成新的训练集。

接上述技术方案，步骤S5中具体使用Optimizer优化器调整训练模型参数信息。

接上述技术方案，步骤S4中，使用CRF条件随机场依据标签之间的约束关系对实体标签序列按照法律文书命名的“B，M，E，O”实体规则和“D， T，N，L”属性规则进行解码。

本发明还提供了一种基于Mixup和BQRNN的法律文书的命名实体识别系统，包括：

向量化模块，用于使用BERT预训练模型对训练集的法律判决文书进行向量化处理，构建带有上下文语义的词向量表示；

Mixup数据增强模块，用于使用Mixup数据增强方法，对生成的词向量表示进行处理，在词向量表示层面对训练集规模进行扩充，生成增强后的词向量表示的训练集；

BQRNN处理模块，用于使用BQRNN双向准循环神经网络对增强后的词向量表示进行处理，提取法律文本中带有上下文特征的深层特征向量，并输出相应的实体标签序列；

CRF解码模块，用于使用CRF条件随机场依据标签之间的约束关系对实体标签序列按照法律文书命名的实体属性规则进行解码，最后将概率最大的实体标签序列，作为训练结果输出，并生成相应训练模型；

模型训练模块，用于将训练模型在测试集上进行测试，并根据测试结果，调整训练模型参数信息，再次训练，直至测试集测试的指标水平趋于稳定，选取稳定前，指标性能最好的识别模型；

识别模块，用于输入中文法律文书案列，识别模型自动进行判断并输出法律文书中的法律实体。

接上述技术方案，Mixup数据增强模块具体用于在对法律判决文书进行向量化处理后，随机获取2个输入的句子i和j，通过设定的融合参数λ，分别从2个句子中获取两个片段；Beta分布获取融合参数λ，通过Mixup算法，生成新的特征向量embedding以及新的标签label，并选取新的特征向量 embedding附近距离最近的一个字符token作为新生成的句子；最后分别将新生成的句子替换回初始的2个句子，通过句子困惑度判断哪个句子符合要求并放到训练集中参与训练，从而做到在不增加数据量的情况下，增加训练样本数量。

接上述技术方案，Mixup数据增强模块具体将增强数据与过采样后的原始数据进行1:1混合，生成新的训练集。

接上述技术方案，模型训练模块具体使用Optimizer优化器调整训练模型参数信息。

本发明还提供了一种计算机存储介质，其内存储有可被处理器执行的计算机程序，该计算机程序执行权利要求1-5中任一项所述的基于Mixup和 BQRNN的法律命名实体识别方法。

本发明产生的有益效果是：本发明通过使用Mixup数据增强方法，能够在不增强数据总量以及保持较低的额外计算成本的基础上，提高训练数据的数量，使得训练出的深度学习模型具有更高的鲁棒性和适用性。此外使用 BQRNN对特征向量进行进一步的处理，解决了传统RNN模型(如LSTM， GRU)等不能串行计算，而导致训练时间过长的问题，提高了NER工程的效率。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明实施例基于Mixup和BQRNN的法律命名实体识别方法流程图；

图2为本发明实施例常见的数据增强示意图；

图3为本发明实施例Miuxp数据增强原理图；

图4为本发明实施例的模型的结构图；

图5为本发明实施例BQRNN原理图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明使用Mixup数据增强方法，在保持较低的额外计算成本的基础上，解决了因训练样本质量和数量不足造成的模型效率低下问题；进一步采用 BQRNN神经网络，优化了传统识别方法因串行计算而导致的训练时间过长的问题，提高了训练速度和效率。

如图1所示，本发明实施例基于Mixup和BQRNN的法律命名实体识别方法，包括以下步骤：

针对法律标注数据匮乏的问题，本发明主要采用Mixup的数据增强方法，在向量表示层面对数据样本规模进行扩充。如图2所示，常见的数据增强方法往往是对数据本身进行处理，其中Null行代表原始数据。SR(Synonyms Replace)表示不考虑停用词，在句子中随机抽取n个词替换成从同义词词典中抽取的同义词的同义词替换数据增强方法；RD(RandomlyDelete)表示将句子中的每个词，以概率p随机删除的随机删除数据增强方法；RS(RandomlySwap) 表示随机交换句子中两个词的位置，该过程可以重复n次的随机替换数据增强方法。Label行表示标签线性化数据增强方法。将O以外的标签，放置于实体词语之前进行数据增强。

这些流行的数据增强方法旨在通过使用手工制作的本体或单词相似性中的同义词替换来转换文本。然而，这种基于同义词的转换只能应用于词汇的一部分，因为具有完全或几乎相同含义的单词很少。与NLP中的传统数据增强不同，Mixup方法的扩充策略是领域独立的，不包含用于数据转换的人类知识，并且具有较低的额外计算成本。

Mixup数据增强获取新数据的算法如下，如图3所示：

步骤1：随机选取两个输入的句子sequence，分别为i和j；

步骤2：通过设定的超参数，分别从2个句子sequence中获取两个片段；

步骤3：通过Beta分布获取融合参数λ的值，通过式(1)，(2)生成新的词向量embedding以及词向量对应的标签序列label；

步骤4：选取新的词向量embedding附近距离最近的一个字符token作为新生成的句子sequence；

步骤5：分别将新生成的句子sequence替换回初始的2个句子sequence，通过句子困惑度判断哪个句子符合要求，并放到训练集中参与训练，从而达到增加了数据数量的效果。句子困惑度计算公式如下：

P＝P(w₁，w₂，...w_n)......(3)

本发明通过Mixup数据增强方法，在保持较低的额外计算成本的基础上，解决了因训练样本质量和数量不足造成的模型效率低下问题。

本发明实施例中，将增强数据与过采样后的原始数据进行1∶1混合，进行下一步训练。模型训练部分通过如图4所示的深度学习模型进行训练，在不断优化后得到一个能够实现法律文书实体识别的深度学习模型，以此解决法律文书的命名实体识别问题。

给定一个句子S，有S＝{c₁，c₂，…，c_n}，对于输入S，BERT的输入模块通过式(1)会将每个输入c_i编码成向量e_i，得到输入序列S＝{e₁，e₂，…，e_n}，然后作为BERT内部Transformer编码网络的输入词表示，进一步计算出输入序列的字符级别的向量表示L＝{v₁，v₂，…，v_n}。其中，E_token表示字嵌入，E_seg表示句子嵌入，E_pos表示位置嵌入。

e_i＝E_token(c_i)+E_seg(c_i)+E_pos(c_i)(4)

将得到的向量L进行Mixup的数据增强，随机选取两个输入的句子sequence，分别为i和j。通过设定的融合参数λ，分别从2个句子sequence 中获取两个片段。然后通过Beta分布获取融合参数λ的值，通过式(1)，(2) 生成新的词向量embedding以及词向量对应的标签序列label。选取新的词向量embedding附近距离最近的一个字符token作为新生成的句子sequence。分别将新生成的句子sequence替换回初始的2个句子sequence，通过句子困惑度判断哪个句子符合要求，并放到训练集中参与训练，从而达到增加了数据数量的效果。

将经过Mixup处理后的向量送由BQRNN进行(5)～(12)的处理，得到带有内部特征信息。BQRNN的特征是可以获取带有上下文特征的特征向量。这种向量互相之间的权值和比重可以反映出彼此在中文内的指代消息。比如“苹果是红色的。”，苹果和红色经过BQRNN产生的向量会在数值或者加权后有呈现相关性。这就是带有上下文信息的特征向量。

QRNN网络由卷积层和池化层两部分组成。假设QRNN网络的卷积层使用数量为m的滤波器进行卷积运算。对于一个输入序列L＝{v₁，v₂，…，v_n}，通过卷积操作得到序列

其中，序列X中每个向量的维度为n，序列Z中每个向量的维度为m。如果t时刻时，滤波器的宽度为k，则卷积的范围为x_t-k+1到′。卷积层如式(5)～式(7)所示：

Z＝tanh(W_z*X)(5)

F＝σ(W_f*X)(6)

O＝σ(W_o*X)(7)

式中：W_z，W_f，W_o为卷积滤波器，σ为激活函数，*表示在时间顺序上的卷积运算。当滤波器的宽度k增大时，模型可以计算更多的n-gram特征。本发明选择k为2的设置，此时，QRNN的卷积层如式(8)～式(10)所示：

QRNN的池化层用于提取卷积层输出的特征信息，减少特征数目。池化层的计算是在动态平均池化的基础上，增加了输出门和遗忘门。这样的结构与LSTM的门结构非常类似，计算过程如式(11)，(12)所示：

c_t＝f_t⊙c_t-1+i_t⊙z_t(11)

h_t＝o_t⊙c_t(12)

其中f，i，o分别表示遗忘门、输入门、输出门，c_t表示t时刻的细胞状态，h，c的状态初始化为0，⊙表示向量之间的点乘运算。在文本序列处理的每一时刻，池化函数都需要运算，但是运算过程具有并行性，所以对于较长的文本序列，运算增加的时间是可以忽略的。池化时QRNN的结构如图5 所示。

经由BQRNN处理后，CRF通过式(13)对上层的结果进行解码，其中A是转化矩阵，

表示该字符第y_i个标签label的分数。利用Softmax得到归一化后的概率，如式(14)所示：

完成上述操作后，得到实体标签label序列W＝{w₁，w₂，…，w_n}。根据标签对应关系，可以得到最终的输出。

综上，将上述步骤进行简化后，模型训练部分的步骤为：

步骤1：使用BERT预训练模型对数据进行向量化处理，完成中文文本的向量化工作，构建带有上下文语义的字符级别的向量表示

步骤2：使用Mixup数据增强技术，对L_c按照图3所示方法进行式(1)- (3)的处理，从而增加训练数据，生成向量表示L；

步骤3：使用BQRNN双向准循环神经网络对特征向量L进行处理，提取文本的深层特征；

步骤4：使用CRF条件随机场，按照命名实体属性规则进行解码，得到实体序列W，便可以得到最后的预测结果；

步骤5：将预测的结果与正确结果进行比较，使用Optimizer优化器调整模型参数信息，再次训练；

步骤6：重复上述操作，直至评价指标P，R，F水平趋于稳定；

步骤7：选取指标性能最好的模型，作为实际应用的模型；

步骤8：输入中文法律文书案列“余某洋吸食HLY”，模型自动进行判断，输出每个字符对应的标注序列“B-N、M-N、E-N、O、O、B-D、M-D、 E-D”，通过标注对应的含义，解析出句子中的法律实体“余某洋(人名属性实体)”、“HLY(物品属性实体)”。

实施示例：

一、场景描述

输入：余某洋涉嫌吸食物品HLY10.2g。

输出：余某洋(姓名属性实体)、HLY(物品属性实体)、10.2g(质量属性实体)。

二、具体步骤

本方明解决法律命名实体识别方法

步骤6：重复上述操作，直至评价指标P，R，F水平趋于稳定；

步骤7：选取指标性能最好的模型，作为实际应用的模型；

该系统在Win10环境下基于Python运行，所使用的深度学习框架为 TensorFlow，版本为1.1.2。实验结果表明，本发明提出的方法对法律文书(物品类)命名实体识别方法优于传统法。

本发明还提供一种基于Mixup和BQRNN的法律命名实体识别系统，包括：

上述实施例的系统主要用于实现基于Mixup和BQRNN的法律命名实体识别方法实施例，各个模块的功能参见上文方法实施例，在此不一一赘述。

本申请还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于基于Mixup和BQRNN 的法律命名实体识别系统，被处理器执行时实现方法实施例的基于Mixup和 BQRNN的法律命名实体识别方法。

综上，本发明的创新之处在于：

1.法律领域命名实体识别数据没有标准的标注数据集，人工采集及处理的法律文书数据集往往质量和数量都不理想。而深度学习方法是通过在大量数据上训练一个经验模型，来进行法律命名实体的自动识别，数据质量和数量越好，模型效果越好。通过Mixup数据增强方法以及保持较低的额外计算成本的基础上，提高训练数据的数量，使的训练出的深度学习模型具有更高的鲁棒性和适用性。

2.传统的命名实体识别往往使用LSTM长短记忆神经网络、GRU等神经网络来提取文本深层特征，但因本身结构原因，在进行特征提取时往往是从左至右串行进行的，这样不仅会大大增加训练时间，还会导致梯度爆炸等现象。使用BQRNN双向准循环神经网络可以将原本串行的任务并行化处理，从而节约训练所需要的时间。提高模型训练效率。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于Mixup和BQRNN的法律文书的命名实体识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于Mixup和BQRNN的法律命名实体识别方法，其特征在于，在对法律判决文书进行向量化处理后，随机获取2个输入的句子i和j，通过设定的融合参数λ，分别从2个句子中获取两个片段；Beta分布获取融合参数λ，通过Mixup算法，生成新的特征向量embedding以及新的标签label，并选取新的特征向量embedding附近距离最近的一个字符token作为新生成的句子；最后分别将新生成的句子替换回初始的2个句子，通过句子困惑度判断哪个句子符合要求并放到训练集中参与训练，从而做到在不增加数据量的情况下，增加训练样本数量。

3.根据权利要求1所述的基于Mixup和BQRNN的法律命名实体识别方法，其特征在于，将增强数据与过采样后的原始数据进行1:1混合，生成新的训练集。

4.根据权利要求1所述的基于Mixup和BQRNN的法律命名实体识别方法，其特征在于，步骤S5中具体使用Optimizer优化器调整训练模型参数信息。

5.根据权利要求1所述的基于Mixup和BQRNN的法律命名实体识别方法，其特征在于，步骤S4中，使用CRF条件随机场依据标签之间的约束关系对实体标签序列按照法律文书命名的“B，M，E，O”实体规则和“D，T，N，L”属性规则进行解码。

6.一种基于Mixup和BQRNN的法律文书的命名实体识别系统，其特征在于，包括：

7.根据权利要求6所述的基于Mixup和BQRNN的法律文书的命名实体识别系统，其特征在于，Mixup数据增强模块具体用于在对法律判决文书进行向量化处理后，随机获取2个输入的句子i和j，通过设定的融合参数λ，分别从2个句子中获取两个片段；Beta分布获取融合参数λ，通过Mixup算法，生成新的特征向量embedding以及新的标签label，并选取新的特征向量embedding附近距离最近的一个字符token作为新生成的句子；最后分别将新生成的句子替换回初始的2个句子，通过句子困惑度判断哪个句子符合要求并放到训练集中参与训练，从而做到在不增加数据量的情况下，增加训练样本数量。

8.根据权利要求6所述的基于Mixup和BQRNN的法律文书的命名实体识别系统，其特征在于，Mixup数据增强模块具体将增强数据与过采样后的原始数据进行1:1混合，生成新的训练集。

9.根据权利要求6所述的基于Mixup和BQRNN的法律文书的命名实体识别系统，其特征在于，模型训练模块具体使用Optimizer优化器调整训练模型参数信息。

10.一种计算机存储介质，其特征在于，其内存储有可被处理器执行的计算机程序，该计算机程序执行权利要求1-5中任一项所述的基于Mixup和BQRNN的法律命名实体识别方法。