CN113609857A

CN113609857A - 基于级联模型和数据增强的法律命名实体识别方法及系统

Info

Publication number: CN113609857A
Application number: CN202110828255.7A
Authority: CN
Inventors: 李晓林; 陈卓豪; 黄磊; 黄博文; 危欢; 熊文菲
Original assignee: Wuhan Institute of Technology
Current assignee: Wuhan Institute of Technology
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2021-11-05
Anticipated expiration: 2041-07-22
Also published as: CN113609857B

Abstract

本发明公开了一种基于级联模型和数据增强的法律命名实体识别方法，包括以下步骤：对经过数据增强后的训练数据进行处理，构建带有上下文语义的字符级别的向量表示和带有上下文语义的词语级别的向量表示；S2、将两个向量表示进行融合；S3、使用BiLSTM双向长短记忆神经网络对融合字词特征的向量表示进行处理，提取文本的深层特征；S4、使用两个CRF条件随机场解码，得到实体序列和属性序列并拼接，得到最后的标签表示；S5、将最后的标签表示与验证集进行比较，调整模型参数信息，反复训练，得到最好的模型；S6、输入中文法律文书案列，模型自动进行判断并输出法律文书中的法律实体。

Description

基于级联模型和数据增强的法律命名实体识别方法及系统

技术领域

本发明涉及中文语言处理及识别技术领域，尤其涉及基于级联模型和数据增强的法律命名实体识别方法及系统。

背景技术

使用人工智能技术建立智慧法院系统，能够帮助法务人员对相似案件作出裁决，提高办案的效率。要对法律文书进行语义理解，首先要解决的就是法律实体的识别问题。NER(Named Entity Recognition，命名实体识别)是指从文本中抽取特定的命名实体的过程，是一个序列标注的分裂任务，对每一个输入的字符，赋予可能性最大的标注序列。如输入“武汉市”，那么输出对应“武”的标签为“B-L”。前部分的“B”包含着实体的标识信息，后部分“L”是用户定义的特定属性的信息。传统的NER任务将实体和属性作为一个组合标记进行识别。

现有的中文命名实体识别方法主要分为机器学习方法和深度学习方法。机器学习方法需要预先设计规则模式，然后通过字符串搜索和匹配的手段实现实体的识别。但易受预先规则的限制，可移植性较差，对未登录词的识别效果不佳。深度学习方法相比机器学习方法具有更高的准确性，但仍存在实体嵌套、实体堆叠等问题。长度较长和相关联性较强的法律实体，会导致上述问题更加严重。例如“上海市静安区西苏州路85弄静安河滨花园小区”在法律文书中被视作为一个地址实体，而传统的方法在识别时往往会在“上海市”、“静安区”处进行划分，无法达到法律实体识别的要求。

发明内容

本发明主要目的在于，提供一种基于级联结构和数据增强的法律文书法律命名实体识别方法，通过大量的数据，训练一个级联结构的深度学习经验模型，对输入的中文法律文书中的命名实体自动进行识别，同时，通过对法律文书进行标签线性化数据增强操作，提高数据的数量以及质量，从而使上述深度模型具有更高的鲁棒性和适用性。

本发明所采用的技术方案是：提供一种基于级联模型和数据增强的法律命名实体识别方法，其特征在于，包括以下步骤：

S1、对经过数据增强后的训练数据进行处理，构建带有上下文语义的字符级别的向量表示，并构建带有上下文语义的词语级别的向量表示；

S2、将字符级别的向量表示和词语级别的向量表示进行融合，将每个字符向量后面放置与其对应的词语向量，完成向量拼接，生成融合字词特征的向量表示；

S3、使用BiLSTM双向长短记忆神经网络对融合字词特征的向量表示进行处理，提取文本的深层特征；

S4、使用两个CRF条件随机场，分别按照实体规则和属性规则对BiLSTM层的结果进行解码，得到实体序列和属性序列；并将实体序列和属性序列进行拼接，得到最后的标签表示；

S5、将最后的标签表示与验证集进行比较，调整模型参数信息，再次训练，直至验证集测试的指标水平趋于稳定，选取稳定前，指标性能最好的模型；

S6、输入中文法律文书案列，模型自动进行判断并输出法律文书中的法律实体。

接上述技术方案，训练数据为经过增强后的数据与经过过采样后的原始数据进行1:1混合得到。

接上述技术方案，具体使用标签线性化数据增强方法对法律判决文书数据集进行处理，将数据的实体标签放置于中文字符前，生成增强数据。

接上述技术方案，具体按照“B，M，E，O”实体规则和“D，T，N，L”属性规则对BiLSTM层的结果进行解码。

接上述技术方案，文本的深层特征为带有上下文信息的特征向量。

本发明还提供了一种基于级联模型和数据增强的法律命名实体识别系统，包括：

字符级别向量表示构建模块，用于对经过数据增强后的训练数据进行处理，构建带有上下文语义的字符级别的向量表示；

词语级别向量表示构建模块，用于对经过数据增强后的训练数据进行处理，构建带有上下文语义的词语级别的向量表示；

字词特征融合模块，用于将字符级别的向量表示和词语级别的向量表示进行融合，将每个字符向量后面放置与其对应的词语向量，完成向量拼接，生成融合字词特征的向量表示；

BiLSTM处理模块，用于使用BiLSTM双向长短记忆神经网络对融合字词特征的向量表示进行处理，提取文本的深层特征；

双CRF处理模块，用于使用两个CRF条件随机场，分别按照实体规则和属性规则对BiLSTM层的结果进行解码，得到实体序列和属性序列；并将实体序列和属性序列进行拼接，得到最后的标签表示；

模型训练模块，用于将最后的标签表示与验证集进行比较，调整模型参数信息，再次训练，直至验证集测试的指标水平趋于稳定，选取稳定前，指标性能最好的模型；

识别模块，用于输入中文法律文书案列，通过模型自动进行判断并输出法律文书中的法律实体。

本发明还提供了一种计算机存储介质，其内存储有可被处理器执行的计算机程序，该计算机程序执行接上述技术方案所述的基于级联模型和数据增强的法律命名实体识别方法。

本发明产生的有益效果是：本发明通过将字符级别和词语级别的双特征进行融合，在词语级别向量本身带有词语边界信息的基础上，通过引入带有上下文语义的字符级别向量来修正因分词错误而导致的词语级别向量所导致的误差，通过自带的词边界信息能够改善法律长实体识别难的问题。此外使用级联结构对BiLSTM层提取的特征进行解码，具体通过两个CRF对属性和实体两种方式进行解码，引入更多的实体本身的信息去规范CRF的输出结果，从而提高模型的效果。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明实施例基于级联模型和数据增强的法律命名实体识别方法流程图；

图2为本发明实施例的数据增强方法原理；

图3为本发明实施例的模型结构图；

图4为本发明实施例的字符、词语级别向量拼接原理示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明融合字符级别和词语级别的双重特征，引入词与词之间的相关性的同时，通过字符信息对分词误差导致的错误进行修正；进一步采用级联结构将传统NER任务分解成实体识别和属性识别两个级联的子任务，提高了识别效果。

如图1所示，本发明实施例基于级联模型和数据增强的法律命名实体识别方法，包括以下步骤：

针对法律标注数据匮乏的问题，本发明主要采用标签线性化的数据增强方法对数据样本规模进行扩充。如图2所示，本发明采用BMEO标记方法对数据进行标记。其中B代表实体开头Begin，M代表实体中间Middle，E代表实体尾部End，O代表非实体部分Object。而标记后面的部分代表实体的属性，本发明中L代表地址属性，D代表毒品属性，N代表人名属性，W代表质量属性。比如“武汉市”对应的标记为“B-L M-L E-L”。图2中Null行代表原始数据。SR(Synonyms Replace)表示不考虑停用词，在句子中随机抽取n个词替换成从同义词词典中抽取的同义词的同义词替换数据增强方法；RD(Randomly Delete)表示将句子中的每个词，以概率p随机删除的随机删除数据增强方法；RS(Randomly Swap)表示随机交换句子中两个词的位置，该过程可以重复n次的随机替换数据增强方法。Label行表示标签线性化数据增强方法。该方法通过将除了上述O以外的标签，放置于实体词语之前进行数据增强。在生成新数据所对应的BMEO标注时，将添加的标签作为“O”类进行标记。以此保证在不破坏句子完整性的情况下，进一步强调实体在句中所处位置的信息。

数据增强获取新数据的算法如下：

步骤1：使用标签线性化数据增强方法，对中文法律数据进行处理，将原数据中除了O以外的实体标记置于对应的中文字符前方，生成如图2的Label行中文段所示的增强数据；

步骤2：对步骤1生成的增强数据进行标注。其中中文字符按照原始数据标记情况进行标记，因数据增强而添加到数据中的字符，所对应的标记为“O”，生成如图2的Label行所示的标注；

步骤3：对原始数据进行过采样操作，根据样本标签少的样本的规律去生成更多该标签样本，这样使得数据趋向于平衡。

本发明通过标签线性化数据增强方法能够扩大数据数量，从而增幅模型的识别效果。

本发明实施例中，将增强数据与过采样后的原始数据进行1:1混合，得到最后的训练数据集。本发明通过在大量数据上训练一个经验模型来进行法律命名实体的自动识别，数据质量和数量越好，模型效果越好。

模型训练部分通过如图3所示的级联结构深度学习模型对上述增强后的数据进行训练，在不断优化后得到一个能够实现法律文书实体识别的深度学习模型，以此解决法律文书的命名实体识别问题。

NER是一个序列标注任务，对每一个输入的字符，赋予可能性最大的标注序列。如输入“武汉市”，那么“武”对应的输出标签为”“B-L”。标签前部分的“B”包含着实体的标识信息，后部分“L”是用户定义的特定属性的信息。传统的NER任务将实体和属性作为一个组合标记进行识别。本发明将其重构成两个级联的子任务，采用两个CRF对实体标签序列和属性标签序列分别进行解码，以此提高模型效果。

融合字词特征的级联模型的模型框架如图3所示。给定一个句子S，有S_c＝{c₁，c₂，…，c_i}，S_w＝{w₁,w₂,…w_t}两种输入。其中S_c是句子S字符级别的输入，c_i表示句子S中的第i个字符；S_w是词语别的输入，w_t表示句子S中的第t个词语。

对于字符级别的输入S_c，BERT的输入模块通过式(1)会将每个输入c_i编码成向量e_i,得到输入序列

然后作为BERT内部Transformer编码网络的输入词表示，进一步计算出输入序列的字符级别的向量表示

其中，E_token表示字嵌入，E_seg表示句子嵌入，E_pos表示位置嵌入。

e_i＝E_token(c_i)+E_seg(c_i)+E_pos(c_i) (1)

对于词语级别的输入S_w，每个词的词嵌入表示

如式(2)所示。

其中emb^v×d是使用Word2Vec得到的词向量映射，v表示词表大小，d表示向量维度。将映射得到的词向量表示通过self-attention模块，通过式(3)～(5)可以得到每个词语的内部表示

在字词向量拼接过程中，因为词语级别的向量预先进行分词，字词级别的向量不能完全进行匹配。本发明通过图4所示的方法，在每个字符向量后面放置与其对应的词语向量，完成向量拼接。式(6)将字符级别和词语级别的向量表示进行拼接。

本发明实施例引入字符级别和词语级别的双特征，在词语级别向量本身带有词语边界信息的基础上，通过引入带有上下文语义的字符级别向量来修正因分词错误而导致的词语级别向量所导致的误差。通过自带的词边界信息能够改善法律长实体识别难的问题。

将得到的向量由BiLSTM进行(7)～(12)的处理，得到带有内部特征信息的h_i(BiLSTM的特征是可以获取带有上下文特征的特征向量。这种向量互相之间的权值和比重可以反映出彼此在中文内的指代消息。比如“苹果是红色的。”，苹果和红色经过BiLSTM产生的向量会在数值或者加权后有呈现相关性。这就是带有上下文信息的特征向量。)其中σ是sigmoid函数；⊙是点乘运算；x_t是t时刻的输入向量；h_t是隐含状态向量，储存着t时刻前后的所有信息。U不同门对输入向量x_t的权重；W是不同门对隐含状态向量h_t的权重；b是不同门的偏置向量。

i_t＝σ(W_ih_t-1+U_ix_i+b_i) (7)

ft＝σ(W_fh_t-1+U_fx_t+b_f) (8)

o_t＝σ(W_oh_t-1+U_ox_t+b_o) (11)

h_t＝o_t-1⊙tanh(c_t) (12)

CRF通过式(13)对实体和种类两种标签进行解码，其中A是转化矩阵，

表示该字符第y_i个标签的分数。利用Softmax得到归一化后的概率，如式(14)所示：

完成上述操作后，得到实体标签序列

与种类标签序列

将其按照式(15)进行拼接，得到最终的结果序列W＝{w₁,w₂,…,w_n}。根据标签对应关系，可以得到最终的输出。

使用级联结构(两个CRF并联的结构)对BiLSTM层提取的特征进行解码，通过两个CRF对属性和实体两种方式进行解码，可引入更多的实体本身的信息去规范CRF的输出结果，从而提高模型的效果。

综上，将上述步骤进行简化后，模型训练部分的步骤为：

步骤1：使用BERT预训练模型对数据(经过数据增强处理后的数据)进行向量化处理，完成中文文本的向量化工作，构建带有上下文语义的字符级别的向量表示

步骤2：使用Self-Attention自注意力机制对词语级别的数据(经过数据增强处理后的数据)进行处理，完成中文文本的向量化工作，构建带有上下文语义的词语级别的向量表示

步骤3：将字符级别L_c和词语级别的向量表示L_w，按照图3所示方法进行式(6)所示的向量拼接，生成融合字词特征的向量表示L；

步骤4：使用BiLSTM双向长短记忆神经网络对融合字词信息的特征向量L进行处理，提取文本的深层特征；

步骤5：使用CRF条件随机场，分别按照“B，M，E，O”实体规则和“D，T，N，L”属性规则两种规则BiLSTM层的结果进行解码，得到实体序列

和属性序列

步骤6：将步骤5中的序列W₁和W₂按照式(15)所示的方法进行拼接，得到最后的标签表示W；

步骤7：将预测的结果与正确结果进行比较，使用Optimizer优化器调整模型参数信息，再次训练；

步骤8：重复上述操作，直至评价指标P，R，F水平趋于稳定；

步骤9：选取指标性能最好的模型，作为实际应用的模型；

步骤10：输入中文法律文书案列“余海洋吸食海洛因”，模型自动进行判断，输出每个字符对应的标注序列“B-N、M-N、E-N、O、O、B-D、M-D、E-D”，通过标注对应的含义，解析出句子中的法律实体“余海洋(人名属性实体)”、“海洛因(毒品属性实体)”。

实施示例：

一、场景描述

输入：犯罪嫌疑人余海洋涉嫌吸食毒品海洛因10.2g。

输出：余海洋(姓名属性实体)、海洛因(毒品属性实体)、10.2g(质量属性实体)。

二、具体步骤

本发明解决法律命名实体识别方法

步骤1：使用标签线性化数据增强方法，对中文法律数据进行处理，将原数据中除了O以外的实体标记，至于对应的中文字符前方，生成如说明书附图中图1的Label行中文段所示的增强数据；

步骤2：对步骤1生成的增强数据进行标注。其中中文字符按照原始数据标记情况进行标记，因数据增强而添加到数据中的字符，所对应的标记为“O”，生成如说明书附图中图1的Label行所示的标注；

步骤3：对原始数据进行过采样操作，根据样本标签少的样本的规律去生成更多该标签样本，这样使得数据趋向于平衡；

步骤4：将增强数据与过采样后的原始数据进行1:1混合，得到训练数据集。

步骤5：使用BERT预训练模型对训练数据(经过数据增强处理后的数据)进行向量化处理，完成中文文本的向量化工作，构建带有上下文语义的字符级别的向量表示

步骤6：使用Self-Attention自注意力机制对词语级别的训练数据(经过数据增强处理后的数据)进行处理，完成中文文本的向量化工作，构建带有上下文语义的词语级别的向量表示

步骤7：将字符级别L_c和词语级别的向量表示L_w，按照图3所示方法进行式(6)所示的向量拼接，生成融合字词特征的向量表示L；

步骤8：使用BiLSTM双向长短记忆神经网络对融合字词信息的特征向量L进行处理，提取文本的深层特征；

步骤9：使用CRF条件随机场，分别按照“B，M，E，O”实体规则和“D，T，N，L”属性规则两种规则BiLSTM层的结果进行解码，得到实体序列

和属性序列

步骤10：将步骤9中的序列W₁和W₂按照式(15)所示的方法进行拼接，得到最后的标签表示W；

步骤11：将预测的结果与正确结果进行比较，使用Optimizer优化器调整模型参数信息，再次训练；

步骤12：重复上述操作，直至评价指标P，R，F水平趋于稳定；

步骤13：选取指标性能最好的模型，作为实际应用的模型；

步骤14：输入中文法律文书案列“余海洋吸食海洛因”，模型自动进行判断，输出每个字符对应的标注序列“B-N、M-N、E-N、O、O、B-D、M-D、E-D”，通过标注对应的含义，解析出句子中的法律实体“余海洋(人名属性实体)”、“海洛因(毒品属性实体)”。

该系统在Win10环境下基于Python运行，所使用的深度学习框架为TensorFlow，版本为1.1.2。实验结果表明，本发明提出的方法对法律文书(毒品类)命名实体识别方法优于传统法。

本发明还提供一种基于级联模型和数据增强的法律命名实体识别系统，包括：

上述实施例的系统主要用于实现基于级联模型和数据增强的法律命名实体识别方法实施例，各个模块的功能参见上文方法实施例，在此不一一赘述。

本申请还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于基于级联模型和数据增强的法律命名实体识别系统，被处理器执行时实现方法实施例的基于级联模型和数据增强的法律命名实体识别方法。

综上，本发明的创新之处在于：

1.引入字符级别和词语级别的双特征，在词语级别向量本身带有词语边界信息的基础上，通过引入带有上下文语义的字符级别向量来修正因分词错误而导致的词语级别向量所导致的误差。通过自带的词边界信息能够改善法律长实体识别难的问题。

2.使用级联结构对BiLSTM层提取的特征进行解码，通过两个CRF对属性和实体两种方式进行解码，引入更多的实体本身的信息去规范CRF的输出结果，从而提高模型的效果。

3.法律领域命名实体识别数据没有标准的标注数据集，人工采集及处理的法律文书数据集往往质量和数量都不理想。而深度学习方法是通过在大量数据上训练一个经验模型，来进行法律命名实体的自动识别，数据质量和数量越好，模型效果越好。通过标签线性化数据增强方法能够扩大数据数量，从而增幅模型的识别效果。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于级联模型和数据增强的法律命名实体识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于级联模型和数据增强的法律命名实体识别方法，其特征在于，训练数据为经过增强后的数据与经过过采样后的原始数据进行1:1混合得到。

3.根据权利要求1所述的基于级联模型和数据增强的法律命名实体识别方法，其特征在于，具体使用标签线性化数据增强方法对法律判决文书数据集进行处理，将数据的实体标签放置于中文字符前，生成增强数据。

4.根据权利要求1所述的基于级联模型和数据增强的法律命名实体识别方法，其特征在于，具体按照“B，M，E，O”实体规则和“D，T，N，L”属性规则对BiLSTM层的结果进行解码。

5.根据权利要求1所述的基于级联模型和数据增强的法律命名实体识别方法，其特征在于，文本的深层特征为带有上下文信息的特征向量。

6.一种基于级联模型和数据增强的法律命名实体识别系统，其特征在于，包括：

7.根据权利要求6所述的基于级联模型和数据增强的法律命名实体识别系统，其特征在于，训练数据为经过增强后的数据与经过过采样后的原始数据进行1:1混合得到。

8.根据权利要求6所述的基于级联模型和数据增强的法律命名实体识别系统，其特征在于，具体使用标签线性化数据增强方法对法律判决文书数据集进行处理，将数据的实体标签放置于中文字符前，生成增强数据。

9.根据权利要求6所述的基于级联模型和数据增强的法律命名实体识别系统，其特征在于，具体按照“B，M，E，O”实体规则和“D，T，N，L”属性规则对BiLSTM层的结果进行解码。

10.一种计算机存储介质，其特征在于，其内存储有可被处理器执行的计算机程序，该计算机程序执行权利要求1-5中任一项所述的基于级联模型和数据增强的法律命名实体识别方法。