CN114372470A

CN114372470A - 基于边界检测和提示学习的中文法律文本实体识别方法

Info

Publication number: CN114372470A
Application number: CN202210279342.6A
Authority: CN
Inventors: 李芳芳; 彭亦楠; 彭中礼; 黎娟
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-04-19
Anticipated expiration: 2042-03-22
Also published as: CN114372470B

Abstract

本发明中提供了一种基于边界检测和提示学习的中文法律文本实体识别方法，属于数据处理技术领域，具体包括：文本编码模块输出文本向量；将文本向量输入实体边界检测模块，输出文本中实体的边界检测结果；基于构建好的法律文本语料库进行进一步的领域预训练，得到适用于法律领域的预训练模型；在实体类型预测模块中，基于提示学习思想，根据实体边界检测模块输出的结果构建适用于命名实体识别任务的模板，再利用模板和预训练模型进行提示学习，输出实体类型的预测结果；对实体边界检测模块和实体类型预测模块进行联合训练，得到适用于中文法律文本实体识别任务的模型。通过本发明的方案，提高了法律文本命名实体识别时的适应性和精准度。

Description

基于边界检测和提示学习的中文法律文本实体识别方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于边界检测和提示学习的中文法律文本实体识别方法。

背景技术

目前，随着我国法律法规的不断完善以及人民法律意识的不断提高，各类案件数量急剧增加，为目前司法领域的相关工作带来了极大的压力。而通过对法律文本进行命名实体识别，能够准确、高效地提取出法律文本中的关键信息，减轻司法部门工作压力，同时对案件分析、确定罪名等工作有着重要的辅助作用。因此，如何利用命名实体识别技术对法律文本进行命名实体识别成为了众多研究者攻克的热点问题。

目前处理中文法律文本命名实体识别任务的主流方法是基于深度学习的方法，其常见的做法是对文本进行编码后，利用深度学习模型捕获文本的语义特征，再输入到分类层对文本中的实体进行识别和分类。但是这种方法存在着一些不足：首先，中文不存在天然分隔符，在进行实体识别过程中，不仅需要考虑到文本的语义信息，还需要考虑到实体的边界信息。但目前的方法往往是只考虑到了文本的语义信息，或是只考虑到了实体的边界信息，没有将文本的语义信息和实体的边界信息综合起来考虑，从而导致后续实体识别的效果不佳。其次，目前的方法在进行法律文本命名实体识别任务时，往往是将其视为一个序列标注问题，即预测文本中的每一个字所属的标签，标签指示着当前字在实体中所处的位置以及该实体的类别，本质上属于一个多分类的问题。但法律文本属于特殊领域的文本，其具有专业性强、语境复杂、待识别实体类型多等特点，在对法律文本的每个字预测标签时，标签类别数较多，难以对每个字进行正确分类，这也导致了最后命名实体识别的效果不佳。

可见，亟需一种适应性和识别精度高的基于边界检测和提示学习的中文法律文本实体识别方法。

发明内容

有鉴于此，本发明提供一种基于边界检测和提示学习的中文法律文本实体识别方法，至少部分解决现有技术中存在对文本适应性和识别精准度较差的问题。

本发明提供了一种基于边界检测和提示学习的中文法律文本实体识别方法，包括：

步骤1，将文本输入文本编码模块，文本编码模块输出文本向量；

步骤2，将文本向量输入实体边界检测模块，捕获实体头部边界特征、实体尾部边界特征和文本语义特征，输出文本中实体的边界检测结果；

步骤3，构建法律文本语料库，基于构建好的法律文本语料库对已开源的中文预训练模型进行进一步的领域预训练，得到适用于法律领域的预训练模型；

步骤4，在实体类型预测模块中，基于提示学习思想，根据实体边界检测模块输出的结果构建适用于命名实体识别任务的模板，再利用模板和预训练模型进行提示学习，输出实体类型的预测结果；

步骤5，对实体边界检测模块和实体类型预测模块进行联合训练，最终得到适用于中文法律文本实体识别任务的模型。

根据本发明的一种具体实现方式，所述步骤1具体包括：

步骤1.1，将文本输入文本编码模块，使用已公开的基于大规模中文新闻语料训练得到的字向量对输入的文本进行编码，得到文本的向量化表示

，其中，

表示文本的向量表示，

表示文本的长度，

表示编码维度。

根据本发明的一种具体实现方式，所述步骤2具体包括：

步骤2.1，将文本表示

分别输入到实体边界头部特征捕获模块和实体边界尾部特征捕获模块中，捕获实体的头部信息和尾部信息，其中，所述实体边界头部特征捕获模块和所述实体边界尾部特征捕获模块均使用门控循环神经网络和一个多层感知机来将文本表示

映射到实体头部和尾部向量表示空间，具体计算方式如公式（1）、（2）、（3）和（4）所示：

其中，

为文本表示

经过实体头部边界特征捕获模块中门控循环神经网络之后的输出，

为文本表示

经过实体尾部边界特征捕获模块中门控循环神经网络之后的输出，

表示实体头部边界特征捕获模块的输出，

表示实体尾部边界特征捕获模块的输出；

步骤2.2，将文本表示

输入到文本语义特征捕获模块中，对于文本语义特征捕获模块，使用双向长短期记忆网络来捕获文本的语义特征，具体计算方式如公式（5）所示：

其中

为文本表示

经过实体语义特征捕获模块中双向长短期记忆网络之后的输出；

步骤2.3，将实体头部边界特征捕获模块的输出

和实体尾部边界特征捕获模块的输出

输入到双仿射注意力机制模块中，具体计算方式如公式（6）和（7）所示：

其中，

，

分别为

和

的第

个元素；

，

和

为可训练的参数；

为双仿射注意力机制模块的输出；

步骤2.4，将文本语义特征捕获模块中双向长短期记忆网络的输出

输入到一个多层感知机中，再将多层感知机的输出

和双仿射注意力机制模块的输出

相加，并输入到Softmax层中进行分类，从而判断文本中的任意两个字是否为一个实体的边界。具体计算方式如公式(8)、(9)所示：

其中

为实体边界检测模块的输出，其元素为文本中任意两个字是否形成实体边界的概率，根据计算出的概率即可得到实体边界识别的结果，同时利用交叉熵损失函数计算得出实体边界检测模块的损失

。

根据本发明的一种具体实现方式，所述步骤3具体包括：

步骤3.1，通过整理和筛选，选择出了多条法律文本，并在不破坏文本语义的基础上，将每条长度大于512的文本截断为长度小于512的多条短文本，并将文本数据以一行一条的形式构建成法律文本语料库；

步骤3.2，利用构建好的法律文本语料库使用掩码语言模型任务和下一句预测任务两个无监督任务对预训练模型BERT-base进行进一步的领域预训练，得到基于法律文本语料库进行进一步领域预训练之后的BERT-base模型。

根据本发明的一种具体实现方式，所述步骤4具体包括：

步骤4.1，根据法律文本实体识别任务中待识别的实体类别，利用同义词词典找到每一个实体类别的同义词，并将这些同义词作为该实体类别的标签词，构建出该实体类别的标签词集合；

步骤4.2，构建用于提示学习的模板

，具体如公式（10）所示：

其中，

为待进行实体识别的法律文本，

为一个分隔符号，

代表文本

的一个实体片段，即实体边界检测模块预测出的实体片段，

表示随机初始化的向量表示，

表示需要预训练模型进行预测的词语；

步骤4.3，对构建好的模板进行训练，在实体类型预测模块，利用构建好的模板和进行了领域预训练的预训练模型来预测文本中实体片段的类别，在训练过程中，利用预训练模型来预测

部分出现的词语，同时在训练过程中冻结预训练模型的参数，只对模板中的

部分进行调整和优化，假设实体类型集合为

，输入文本为

，其包含的实体片段为

，对于一个实体类型

，其标签词集合为

，则

中的一个实体片段

类型被预测为

的概率为：

则实体类型预测模块的损失函数

为：

。

根据本发明的一种具体实现方式，所述步骤5具体包括：

步骤5.1，对实体边界检测模块和实体类型预测模块进行联合训练，将两个模块的联合损失降到最低，从而获得一个最优的法律文本命名实体识别模型，联合损失

计算方式为：

。

本发明中的基于边界检测和提示学习的中文法律文本实体识别方案，包括：步骤1，将文本输入文本编码模块，文本编码模块输出文本向量；步骤2，将文本向量输入实体边界检测模块，捕获实体头部边界特征、实体尾部边界特征和文本语义特征，输出文本中实体的边界检测结果；步骤3，构建法律文本语料库，基于构建好的法律文本语料库对已开源的中文预训练模型进行进一步的领域预训练，得到适用于法律领域的预训练模型；步骤4，在实体类型预测模块中，基于提示学习思想，根据实体边界检测模块输出的结果构建适用于命名实体识别任务的模板，再利用模板和预训练模型进行提示学习，输出实体类型的预测结果；步骤5，对实体边界检测模块和实体类型预测模块进行联合训练，最终得到适用于中文法律文本实体识别任务的模型。

本发明的有益效果为：通过本发明的方案，将中文法律文本实体识别任务视为实体边界识别和实体类型预测两个子任务，并设计了实体边界检测模块和实体类型预测模块来分别处理两个子任务。在实体边界检测模块中，在捕获实体头部边界特征、实体尾部边界特征和文本语义特征后，通过将实体的边界信息和语义信息相融合，能够使得实体边界检测模块具备更好地识别实体边界的能力，提升实体边界识别的效果。在实体类型预测模块中，本发明基于提示学习来对实体的类型进行预测。提示学习在训练的过程中会冻结预训练模型的参数，只对构建的模板进行训练，这就大大降低了训练的成本，同时也不会在训练过程中对预训练模型的语言知识造成丢失。因此通过提示学习的方式对实体的类型进行预测，能够在进行实体类型预测的过程中充分利用到预训练模型丰富的语言知识，从而使得实体类型的预测结果更加精确。最后，通过对实体边界检测模块和实体类型预测模块进行联合训练，能够对两个模块的效果共同进行优化，最终得到适用于中文法律文本实体识别任务的模型，提高了法律文本命名实体识别时的适应性和精准度。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明提供的一种基于边界检测和提示学习的中文法律文本实体识别方法的流程示意图；

图2为本发明提供的另一种基于边界检测和提示学习的中文法律文本实体识别方法的流程示意图；

图3为本发明提供的实体边界检测模块预测结果示意图。

具体实施方式

下面结合附图对本发明进行详细描述。

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本发明，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

本发明提供一种基于边界检测和提示学习的中文法律文本实体识别方法，所述方法可以应用于中文法律文本识别过程中。

参见图1，为本发明提供的一种基于边界检测和提示学习的中文法律文本实体识别方法的流程示意图。如图1所示，所述方法主要包括以下步骤：

具体实施时，本发明的上述实施例所述的基于边界检测和提示学习的中文法律文本实体识别方法，在中文法律文本命名实体识别任务中，将中文法律文本实体识别任务视为实体边界识别和实体类型预测两个子任务，并设计了实体边界检测模块和实体类型预测模块来分别处理两个子任务。

所述基于边界检测和提示学习的中文法律文本实体识别方法提出在实体边界检测模块中捕获实体头部边界特征、实体尾部边界特征和文本语义特征后，将实体的边界信息和语义信息相融合后进行实体边界检测。通过这种方式能够使得实体边界检测模块具备更好地识别实体边界的能力，提升实体边界识别的效果。

所述基于边界检测和提示学习的中文法律文本实体识别方法提出通过构建法律文本语料库，对已开源的中文预训练模型进行进一步的领域预训练，使得预训练模型能够学习到法律领域文本的数据分布，从而提升预训练模型在法律文本命名实体识别任务中的能力。

所述基于边界检测和提示学习的中文法律文本实体识别方法提出在实体类型预测模块构建适用于命名实体识别任务的模板后，以模板和经过领域预训练的预训练模型为基础，基于提示学习思想进行实体类型识别。通过这种方式能够使得训练的成本大大降低，充分保留预训练模型的语言知识，让模型在进行实体类型预测的过程中能够充分利用到预训练模型丰富的语言知识，从而提高实体类型预测的效果。

所述基于边界检测和提示学习的中文法律文本实体识别方法通过对实体边界检测模块和实体类型预测模块进行联合训练，能够对两个模块的效果共同进行优化，最终得到适用于中文法律文本实体识别任务的模型。

本发明提供的基于边界检测和提示学习的中文法律文本实体识别方法，通过将中文法律文本实体识别任务视为实体边界识别和实体类型预测两个子任务，并设计了实体边界检测模块和实体类型预测模块来分别处理两个子任务。在实体边界检测模块中，在捕获实体头部边界特征、实体尾部边界特征和文本语义特征后，通过将实体的边界信息和语义信息相融合，能够使得实体边界检测模块具备更好地识别实体边界的能力，提升实体边界识别的效果。在实体类型预测模块中，本发明基于提示学习来对实体的类型进行预测。提示学习在训练的过程中会冻结预训练模型的参数，只对构建的模板进行训练，这就大大降低了训练的成本，同时也不会在训练过程中对预训练模型的语言知识造成丢失。因此通过提示学习的方式对实体的类型进行预测，能够在进行实体类型预测的过程中充分利用到预训练模型丰富的语言知识，从而使得实体类型的预测结果更加精确。最后，通过对实体边界检测模块和实体类型预测模块进行联合训练，能够对两个模块的效果共同进行优化，最终得到适用于中文法律文本实体识别任务的模型。通过这种方式也能够有效解决利用传统命名实体识别方法进行法律文本命名实体识别任务时难度大、精度低的问题，提高了法律文本命名实体识别时的适应性和精准度。

在上述实施例的基础上，所述步骤1具体包括：

，其中，

表示文本的向量表示，

表示文本的长度，

表示编码维度。

可选的，所述步骤2具体包括：

步骤2.1，将文本表示

分别输入到实体边界头部特征捕获模块和实体边界尾部特征捕获模块中，捕获实体的头部信息和尾部信息，其中，所述实体边界头部特征捕获模块和所述实体边界尾部特征捕获模块均使用门控循环神经网络和一个多层感知机来将文本表示映射到实体头部和尾部向量表示空间，具体计算方式如公式（1）、（2）、（3）和（4）所示：

其中，

为文本表示

为文本表示经过实体尾部边界特征捕获模块中门控循环神经网络之后的输出，

表示实体头部边界特征捕获模块的输出，

表示实体尾部边界特征捕获模块的输出；

步骤2.2，将文本表示

其中

为文本表示

步骤2.3，将实体头部边界特征捕获模块的输出

和实体尾部边界特征捕获模块的输出

其中，

，

分别为

和

的第

个元素；

，

和

为可训练的参数；

为双仿射注意力机制模块的输出；

输入到一个多层感知机中，再将多层感知机的输出

和双仿射注意力机制模块的输出

其中

。

例如，所述基于边界检测和提示学习的中文法律文本实体识别方法，所述实体边界检测模块，目的是将实体的边界信息和语义信息相融合来进行实体边界检测，得到实体边界识别的结果，为后续实体类型预测模块提供良好的基础。例如，对于句子：“被告人王某甲已被逮捕”，实体边界检测模块会预测出文本中每两个字能否形成实体边界，如图3所示：

其中“0”代表文本中的两个字不是实体的边界；“1”代表文本中的两个字是实体的边界。在此句子中，实体边界检测模块预测出“王”和“甲”两个字能够构成一个实体的边界，即可获得实体片段“王某甲”。

进一步的，所述步骤3具体包括：

例如，可以通过整理和筛选，选择出了24万条法律文本，并在不破坏文本语义的基础上，将每条长度大于512的文本截断为长度小于512的多条短文本，并将文本数据以一行一条的形式构建成法律文本语料库，用于后续对已开源的中文预训练模型进行进一步的领域预训练。然后以哈工大发布的在中文维基语料库上训练得到的预训练模型BERT-base为基础，利用已构建好的法律文本语料库，使用Masked Language Model（MLM）和NextSentence Prediction (NSP)两个无监督任务对预训练模型BERT-base进行进一步的领域预训练。Masked Language Model任务的主要原理是随机将输入中15%的词遮盖起来，再通过其他词预测被遮盖的词。同时在遮盖的过程中，为了缓解数据分布偏差，BERT 并不总是将词直接进行遮盖，80% 的概率会以“[MASK]”标记对其进行遮盖，10% 的概率将其换成一个随机词，剩下10%的概率不进行替换，还用原来的词。通过该任务可以学习到词的上下文特征、语法结构特征、句法特征等，保证了特征提取的全面性。而Next SentencePrediction任务的主要目的是通过迭代训练学习到样本中两个句子之间的关系。如对样本中的两个句子A和B，若B被预测为是A的真实的后一句，则标签为IsNext；若是语料库中的随机一句，则标签为NotNext。通过Masked Language Model和Next Sentence Prediction两个预训练任务，得到了基于法律文本语料库进行进一步领域预训练之后的BERT-base模型。本发明的上述实施例所述的基于边界检测和提示学习的中文法律文本实体识别方法，所述构建法律文本语料库并对已开源的中文预训练模型进行进一步的领域预训练，目的是让预训练模型能够充分学习到法律领域文本的数据分布，提升其在法律文本命名实体识别任务中的能力。

在上述实施例的基础上，所述步骤4具体包括：

步骤4.2，构建用于提示学习的模板

，具体如公式（10）所示：

其中，

为待进行实体识别的法律文本，

为一个分隔符号，

代表文本

的一个实体片段，即实体边界检测模块预测出的实体片段，

表示随机初始化的向量表示，

表示需要预训练模型进行预测的词语；

部分进行调整和优化，假设实体类型集合为

，输入文本为

，其包含的实体片段为

，对于一个实体类型

，其标签词集合为

，则

中的一个实体片段

类型被预测为

的概率为：

则实体类型预测模块的损失函数

为：

。

例如，对于“被害人”实体，其标签词集合中包含：“受害人”, “事主”, “被害者”,“受害者” , “遇害者”等词语。本发明的上述实施例所述的基于边界检测和提示学习的中文法律文本实体识别方法，所述实体类型预测模块，目的是基于提示学习的思想，以构建好的模板和经过领域预训练的预训练模型为基础，利用预训练模型丰富的语言知识预测出实体片段所属的类型。例如，对于句子：“被告人王某甲已被逮捕”，根据实体边界检测模块的输出结果能够获取到实体片段“王某甲”，然后实体类型预测模块会输出实体片段“王某甲”的实体类型：被害人。

进一步的，所述步骤5具体包括：

计算方式为：

。

具体实施时，本发明的上述实施例所述的基于边界检测和提示学习的中文法律文本实体识别方法，所述对实体边界检测模块和实体类型预测模块进行联合训练的主要目的是对两个模块的效果共同进行优化，最终得到适用于中文法律文本实体识别任务的模型。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。