CN115062104A

CN115062104A - 融合知识提示的法律文本小样本命名实体识别方法

Info

Publication number: CN115062104A
Application number: CN202210535070.1A
Authority: CN
Inventors: 罗森林; 程瑶; 慕星星; 吴舟婷; 吴杭颐
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-09-16

Abstract

本发明涉及融合知识提示的法律文本小样本命名实体识别方法，属于自然语言处理与机器学习领域。本发明首先定义裁判文书的提示性模板、标签集和自然词集的映射关系，从中国裁判文书网平台获取了2760篇裁定书和判决书文档；然后采用Bert模型对案件陈述和判决结果句子的嵌入向量进行编码，通过注意力加权得到句子的特征表示，结合构造的模板指导生成式预训练模型GPT生成词的类别向量；最后，利用全连接层将句子向量转化为跨度向量，生成语义标签，最小化其与标签向量的损失函数。本发明有效缓解了在法律领域下，由于其标注样本较少、与通用领域的实体类型分布不同造成的过拟合与分类不准确的问题，提升了法律实体识别的准确率和模型的迁移能力。

Description

融合知识提示的法律文本小样本命名实体识别方法

技术领域

本发明涉及融合知识提示的法律文本小样本命名实体识别方法，属于自然语言处理与机器学习领域。

背景技术

命名实体识别是自然语言处理中的一项基础任务，旨在从文本中获取实体并对其标签分类，它作为信息抽取、机器翻译等下游任务的基础，应用范围广泛。目前，命名实体识别技术只是在有限的领域和实体类型中取得了较好的成绩，但这些技术无法很好地迁移到其他特定领域中。

随着特定领域自然语言处理任务的需求不断增加，在法律领域应用命名实体识别方法获取原被告姓名、案件属性、依据法条、责任承担与涉案财产等具备领域特点的实体，能够辅助法官决策实现智慧法庭。因此，研究法律领域下的命名实体识别任务是具有应用价值的。

目前基于法律文本的命名实体识别方法包括三类：基于领域相似文本表示的方法，它依赖源域和法律领域的相似的文本表示，未充分考虑法律领域实体的特殊性；基于领域词典的方法，考虑模型迁移能力，但人工设置领域词典的成本较高；基于神经网络CNN、RNN、LSTM以及Bert预训练模型的方法，例如应用于法律领域实体识别任务中的Bert-BiLSTM-CRF主流模型，但是该方法缺少高质量的法律领域样本，识别法律实体的准确率不高，训练模型成本较高，因此针对法律小样本命名实体识别的研究仍然存在挑战。

综上所述，现有的法律文本的命名实体识别方法主要存在以下问题：(1)基于文本相似性表示的方法，没有更新网络参数，不能改善跨域实例表示，降低了领域适配能力，同时未充分考虑实体标签的深层语义信息；(2)基于领域词典的方法是利用枚举生成候选实体，存在严重的效率问题，未充分挖掘法律实体标签间关系；(3)公开的法律文本数据集较少，同时模型训练时依赖标注语料，在小样本上训练时容易造成过拟合问题。

发明内容

本发明的目的是融合提示学习方法，对法律领域小样本构造模板，借助模板对预训练模型微调，优化标签分类效果。针对法律领域的实体边界及其类型分布和通用领域中的实体有较大差别的问题，本发明通过引入法律领域的专业知识构建实体和非实体知识模板，用知识模板指导预训练模型，进行提示与微调，优化分类器，将标签映射到更广泛的语义空间上，避免了深度学习模型重新训练参数，同时减少了对标注数据的需求，充分利用了模板中实体和标签语义信息，提升语言模型的小样本学习潜力。

本发明的设计原理为：首先，从中国裁判文书网获取裁判文书原始数据，对裁判文书预处理；其次，人工定义裁判文书的正样本模板和负样本模板，定义标签集和自然词集；最后，构建裁判文书命名实体识别模型，将句子级别的裁判文书输入Bert预训练模型，输出句子特征向量，裁判文书向量与模板向量连接后使用GPT生成式预训练模型解码，对模板中的掩码做预测生成任务，结合标签特征向量最小化损失函数，优化实体分类效果。

本发明的技术方案是通过如下步骤实现的：

步骤1，从中国裁判文书网获取原始裁判文书数据，预定义五类裁判文书的命名实体，分别是原被告姓名(Person)、案件属性(Case)、依据法条(Regulations)、责任承担(Responsibility)与涉案财产(Compensate)。

步骤2，基于大量的裁判文书中的实体和非实体知识，构建提示模板、标签集和自然词集映射关系。

步骤2.1，通过人工构建实体知识的正例和负例模板引导预训练模型进行微调。

步骤2.2，预定义模型空间的实体类别标签集L＝{l₁,l₂,…,l_|L|}和语义空间的自然词集Y＝{y₁,y₂,…,y_|L|}。

步骤3，构建裁判文书命名实体识别模型，识别裁定书和判决书两类文书中存在的五类法律实体。

步骤3.1，将裁判文书中的每个词表示为token嵌入向量和记录每个词时间属性的嵌入向量，组合两个向量后输入到Bert预训练模型中，输出第i个句子的表示W_i。

步骤3.2，使用GPT生成式预训练模型作为隐变量解码器，结合步骤3.1输出的句子向量，基于模板中当前元素及其前向元素的语义信息得到当前元素标签的特征表示，基于提示模板增强特征向量表示。

步骤3.3，依据句子中标签的特征表示向量，利用全连接层将句子向量转换为跨度向量，计算属于五类标签的实体特征的非归一化概率，定义模型的损失函数，生成较高置信度的类别标签，优化标签分类效果。

有益效果

相比于Bert-BiLSTM-CRF的方法，本发明基于法律领域的模板和标签指导预训练语言模型的微调，降低了对标注数据的需求和模型训练成本，优化标签分类结果，充分考虑了语义空间中距离较近的类别词。构造模板和标签适用于法律领域小样本任务，实现了裁判文书中的原被告姓名、案件属性、依据法条、责任承担与涉案财产五类实体，提升了特定领域的实体识别准确率、模型迁移与领域适配能力。

附图说明

图1为本发明融合知识提示的法律文本小样本命名实体识别方法原理图。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合实例对本发明方法的实施方式做进一步详细说明。

本次实验在一台计算机和一台服务器上进行，计算机的具体配置为：Inter i7-6700，CPU 2.40GHz，内存16G，操作系统是windows 10，64位；服务器的具体配置为：E7-4820v4，RAM 256G，操作系统是Linux Ubuntu 64位。

实验数据是从中国裁判文书网获取的裁判文书，包括裁定书和判决书两类数据集。基于法律领域的裁判文书命名实体识别实验数据，裁定书文档总数是2060篇，判决书文档总数是700篇，两种文书的训练集分别是2000条和600条，两种文书分别随机抽取10条对模型验证与测试。

实验采用F1值评价裁判文书中实体标签分类的结果，计算方法见公式(1)。

Precision精确率和Recall召回率计算方法见公式(2),(3)。

其中，TP是将正确的实体预测正确的数目，FN是将非实体预测为负类的数目，FP是将非实体预测为正确的实体的数目。F1值综合了精确率和召回率的调和平均值，将F1作为裁判文书命名实体识别的效果评价指标，F1值越高，模型效果越好。

本次实验的具体流程为：

步骤1，从中国裁判文书网获取原始裁判文书数据，预定义裁判文书的命名实体，将裁定书和判决书两类文书通过去除停用词操作得到处理后的裁判文书。基于公开停用词库与TF-IDF词频统计结果，去除法律领域的无意义词，例如，“申请”“裁定”“依法”等，得到处理后的裁判文书数据。依据原始裁判文书数据的统计结果分析，其中民事案件裁定书和判决书中涉及的实体包括原被告姓名、案件属性、依据法条、责任承担与涉案财产五类实体。

步骤2，基于大量裁判文书中的实体和非实体知识，构建正例模板T⁺和负例模板T^-、标签集和自然词集映射关系。

步骤2.1，基于大量裁判文书数据

k表示第k个句子，N表示句子中的词数。本发明通过人工构建实体知识的正例和负例模板Template＝[T⁺,T^-]，提升裁判文书实体识别的效果。其中，T⁺设为“[X1]，[X2]是一个[MASK]类实体。”，T^-设为“[X1]，[MASK]不是一个实体。”。[X1]表示句子级别的裁判文书

[X2]处是由预训练模型得到的实体特征向量，[MASK]处是待预测生成的实体类别标签。例如，模板实例设置为“[X1]，侵权纠纷系列案是一个[MASK]实体”，其中，侵权纠纷系列案是[X2]。

依据裁判文书的原被告姓名、案件属性、依据法条、责任承担与涉案财产五类实体的特点，利用实体知识和非实体知识，定义模板实例见表1。

表1.领域知识模板实例

在模板实例表中，三个正例模板的[MASK]处分别填入“案件属性”，“依据法条”，“责任承担”。

步骤2.2，预定义模型空间的实体类别标签集L＝{l₁,l₂,…,l_|L|}和语义空间的自然词集Y＝{y₁,y₂,…,y_|L|}，Y＝{Person,Case,Regulations,Responsibility,Compensate}，人名实体匹配外部语料库中的类型。其中，|L|表示实体类别数，标签集和自然词集相对应。

步骤3，构建裁判文书命名实体识别模型，由Bert预训练模型、GPT生成式预训练模型连接组成。将步骤1中句子级裁判文书输入模型中，输出每个句子的词向量表示，通过步骤2.1构建的模板微调模型参数，输出融合模板信息的句子特征向量。

步骤3.1，获取句子级裁判文书的token嵌入向量U和位置嵌入向量P，n是句子中词的数量，令Z＝U+P，Z是组合嵌入向量，将Z输入到Bert预训练模型中，每个头中自注意力层的计算过程见公式(4),(5),(6)。

其中，

分别表示第i个头的query权重矩阵、key权重矩阵、value权重矩阵、query偏置向量、key偏置向量、value偏置向量，d_k＝64表示Q、K、V三个向量的维度。

融合底层的特征信息，即结合Q、K、V矩阵计算注意力权重矩阵A，计算过程见公式(7)。

矩阵A中每个元素a_ij表示q_i与k_j之间的权重参数。对于第i个词z_i，将其前向和后向分别计算出的隐层状态和注意力权重组合起来，即可获得新的隐层状态h_n，输出第i个句子的表示：W_i＝{w_i,1,w_i,2,w_i,3,…,w_i,n}。

步骤3.2，训练好Bert模型后，然后使用GPT生成式预训练模型作为隐变量解码器，由于模板中有[MASK]的存在，基于当前元素和掩码之前元素，预测第i个词出现的概率，结合步骤3.1隐变量h_n和token嵌入向量，计算过程见公式(8),(9)。

h₀＝UW_te+W_pe (8)

W_te表示token嵌入矩阵，W_pe表示位置嵌入矩阵，计算词w_i的条件概率，依据概率值预测[MASK]处的类别信息，实现基于模板提示的微调操作。

对于第k个句子中的第t个token的标签，属于L类(L＝1,2,3,4,5)的概率表示为[f_t,1(X_k；h_n),f_t,2(X_k；h_n),f_t,3(X_k；h_n),f_t,4(X_k；h_n),f_t,5(X_k；h_n)]。其中，f_t,L(X_k；h_n)表示第t个token属于第L类的概率，生成语义标签过程见公式(10),(11)。

其中，k表示文档中的句子数，n表示句子中的字数，M_k表示第k个句子的语义标签空间，m_k,n表示第k个句子中第n个token所属标签子空间，由不同token的类别标签组成，

计算属于第l类的token非归一化概率，生成较高置信度的类别标签。

步骤3.3，通过最小化损失函数，预测高置信度的类别标签。损失函数见公式(12)。

其中，l表示实体类别数，若第k个句子中第n个词的真实标签是l，那么m_k,n,l＝1，否则，m_k,n,l＝0；f_n,l(X_k；h_[MASK])表示模型预测出的第n个词属于第l类实体的概率，使用Adam算法优化实体标签分类结果。

本发明使用知识模板、标签词引导预训练模型，微调模型参数，结合模板提示输出实体类别标签，将标签映射到语义向量空间中。本发明随机抽取20篇文档测试，实验结果表明能正确识别出所有的原被告姓名、案件属性、依据法条、责任承担与涉案财产五类实体，相对于通用领域和法律领域的其他实体识别方法，模型识别实体的准确率较高，较大程度上降低模型训练成本，提升了召回率和模型的性能。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.融合知识提示的法律文本小样本命名实体识别方法，其特征在于所述方法包括如下步骤：

步骤1，从中国裁判文书网获取原始裁定书和判决书两类文书数据，构建裁判文书的原被告姓名、案件属性、依据法条、责任承担与涉案财产五类命名实体，通过去除停用词操作得到处理后的民事案件裁定书和判决书；

步骤2，构建裁判文书中的实体和非实体知识模板、标签词和自然词映射关系；

步骤3，构建裁判文书命名实体识别模型，模型由Bert预训练模型、GPT生成式预训练模型、全连接层组成，将句子级裁判文书序列输入模型中，Bert对句子进行编码，使用GPT模型解码，结合提示模板微调预训练模型，预测生成掩码处的实体类别标签，对每个实体的类别进行标签映射，构建损失函数优化标签分类结果。

2.根据权利要求1所述的融合知识提示的法律文本小样本命名实体识别方法，其特征在于：步骤2中使用法律领域的模板Template＝[T⁺，T^-]和语义空间的标签集来引导Bert预训练模型，依据裁判文书的原被告姓名、案件属性、依据法条、责任承担与涉案财产五类实体的特点，T⁺设为“[X1]，[X2]是一个[MASK]类实体”，T^-设为“[X1]，[MASK]不是一个实体”，[X1]表示句子级别的裁判文书

[X2]处是由预训练模型得到的实体特征向量，[MASK]处是待预测生成的实体类别标签，例如，模板实例设置为“[X1]，侵权纠纷系列案是一个[MASK]实体”，其中，侵权纠纷系列案是[X2]。

3.根据权利要求1所述的融合知识提示的法律文本小样本命名实体识别方法，其特征在于：步骤3中生成文档的语义标签空间，最小化损失函数，优化标签分类结果；结合Bert预训练模型最后一层的隐变量h_n和法律模板Template，利用GPT生成式预训练模型，使用公式h₀＝UW_te+W_pe和

预测掩码处的实体类型，U表示token嵌入向量，W_te表示token嵌入矩阵，W_pe表示位置嵌入矩阵；使用公式

计算属于第l类的token非归一化概率，f_t，L(X_k；h_n)表示第t个token是第L类的概率，k、n分别表示第k个句子和第n个字；生成语义标签空间的公式是：

表示第k个句子的语义标签空间；

m_k，n表示第k个句子中第n个token所属标签子空间，由不同token的类别标签组成；

表示标签分类的损失函数；

通过生成语义标签空间，优化实体分类效果，其中，l表示实体类别数，若第k个句子中第n个词的真实标签是l，那么m_k，n，l＝1，否则，m_k，n，l＝0；f_n，l(X_k；h_[MASK])表示模型预测出的第n个词属于第l类实体的概率，提升了实体识别的召回率和模型的性能。