CN114036933A

CN114036933A - 基于法律文书的信息抽取方法

Info

Publication number: CN114036933A
Application number: CN202210019571.4A
Authority: CN
Inventors: 毛星亮; 施鹤远; 李琳; 曹文治; 宁肯
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2022-02-11
Anticipated expiration: 2042-01-10
Also published as: CN114036933B

Abstract

本发明提供了一种基于法律文书的信息抽取方法，包括：步骤1，获取法律文书无监督数据，对法律文书无监督数据进行数据预处理及数据清洗，去除法律文书无监督数据中的噪声，形成基于法律文书的语料库；步骤2，对基于法律文书的语料库基于法律文书的语料库采用新词发现算法进行新词发现，得到初步法律文书领域词典候选集，对初步法律文书领域词典候选集进行去噪、去通用词和组合高频词的筛查处理，得到最终的法律文书领域词典。本发明语义理解能力强，减少了人工标注，增强了对通用词汇的学习能力，精度高，为法律文书的其它下游任务或其它领域的信息抽取提供参考，会使得模型获得更好的泛化性能，提升模型对于实体分类的效果。

Description

基于法律文书的信息抽取方法

技术领域

本发明涉及信息抽取技术领域，特别涉及一种基于法律文书的信息抽取方法。

背景技术

现有的专门针对法律文书数据做命名实体提取的模型方法还很匮乏，且有标注的高质量法律文书数据非常稀缺。另一方面，开放的无人工标注的法律文书数据一般数量巨大，较容易获取，且随着时间的发展会产生大量的新数据，但获取到的数据常常属于原始的纯文本数据，对于基于有监督学习的模型，面对这些数据将显得无能为力。其次，法律文书往往存在许多专有名词和专业术语，即具有较强的领域性，通用的模型一般难以考虑数据的领域性。

法律文书的信息抽取是一项新兴的业务需求，近年来，随着以裁判文书为代表的司法大数据不断公开，以及自然语言处理技术的不断发展突破，如何将人工智能技术应用在司法领域，辅助司法工作者提升案件处理的效率和公正性，逐渐成为法律智能研究的热点。其中对于提取文书中的某些重要信息的需求，如罪名、犯罪嫌疑人名、作案工具等，一个最直接的想法便是利用自然语言处理技术中的命名实体识别相关的技术来解决。

命名实体识别是人工智能自然语言处理领域一项重要的技术，其任务是抽取文本数据中的命名实体数据，如人名、地名、时间等，这些实体数据将可以利用到其它下游任务中，如关系抽取、机器阅读理解、对话问答系统等，其本身也是构建知识图谱的必要数据基础。

对于实体抽取任务，传统方法曾使用规则、专有字典匹配等方法进行，但这些任务智能化程度极低，需要大量时间去编写规则、制作词典等，且对于新出现的文本和新的需求措手不及，对于信息飞速增长的今天，此类方法已不适于单独处理实体抽取任务。

目前常用的实体识别的方法，主要有基于传统的统计机器学习方法和深度学习方法，前者如使用机器学习中的HMM(隐马尔可夫模型)、CRF(条件随机场)等模型直接对有标注的文本序列建模，需要人工提取文本中的特征，需要标注者本身具有一定的机器学习知识，难度很大，且此类方法在需要语义及上下文理解的实体上表现欠佳。深度学习方法可以自动提取文本中的特征而且效果明显好于传统的统计学习方法，RNN结构的深度学习模型利用了文本序列化的特点，使模型可以学习到较远距离的语义信息，此类模型如BiLSTM-CRF及其各类变体，一度成为处理命名实体识别任务的主流模型。然而在多数情况下深度学习的方法需要依赖大量的标注数据来训练一个拥有可观效果的模型。

近期，在深度学习领域，随着如ELMo、GPT、BERT等预训练语言模型的出现与飞速发展，使用预训练语言模型加上自然语言处理具体下游任务的微调训练开始成为主流处理各类任务的新型关键范式，此类预训练模型先在大型的语料上进行无监督的预训练，使模型学习到语料中语言的语义信息，并将预训练好的参数保存在模型中，在下游任务训练时，只需对有标注的数据进行有监督的微调即可得到下游任务模型，比之于传统深度学习模型，在大多数下游任务都取得了更好的效果，且对标注语料的需求大大减小。

在法律领域的法律文书信息抽取任务中，也面临着许多问题和挑战，在法律文书中，实体类型往往较多且粒度细，文本表述专业性较强，人工标注数据方法需要标注人员具有一定的领域知识水平，对标注人员提出了较高的要求，这就导致这一领域有标注的数据量和数据规模很难达到深度学习的需求，所以迫切需要一种能够适应法律文书数据、充分利用少量标注数据达到较高精度的方法；领域内，包括法律法律文书的文书，获取无结构无监督的数据是简单而易行的，而直接利用传统的深度学习模型或是纯粹基于预训练模型加上微调的方法是无法利用这些无标注的数据，直接在领域标注数据上训练往往也不会取得很可观的效果。

发明内容

本发明提供了一种基于法律文书的信息抽取方法，其目的是为了解决传统方法没有考虑法律文书数据中的新词术语，法律文书有监督标注数据往往数量稀少，学习效果欠佳，抽取的实体数据分类不准确的问题。

为了达到上述目的，本发明的实施例提供了一种基于法律文书的信息抽取方法，包括：

步骤1，获取法律文书无监督数据，对法律文书无监督数据进行数据预处理及数据清洗，去除法律文书无监督数据中的噪声，形成基于法律文书的语料库；

步骤2，对基于法律文书的语料库基于法律文书的语料库采用新词发现算法进行新词发现，得到初步法律文书领域词典候选集，对初步法律文书领域词典候选集进行去噪、去通用词和组合高频词的筛查处理，得到最终的法律文书领域词典；

步骤3，在开源的中文BERT基础预训练语言模型的基础上，利用最终的法律文书领域词典，改进开源的中文BERT基础预训练语言模型的预训练任务，得到针对法律文书的改进预训练任务，并在开源的中文BERT基础预训练语言模型的嵌入层加入相对位置向量，得到新的中文BERT基础预训练语言模型；

步骤4，将基于法律文书的语料库输入新的中文BERT基础预训练语言模型中进行训练，得到法律文书预训练模型；

步骤5，将法律文书预训练模型采取针对法律文书有监督数据的文本分类与命名实体识别的多任务联合学习方式，在法律文书有监督数据上进行微调训练，得到法律文书信息抽取模型；

步骤6，将待提取的法律文书输入法律文书信息抽取模型，法律文书信息抽取模型对待提取的法律文书进行信息抽取，得到各个标签类型的法律文书的信息抽取结果。

其中，所述步骤2具体包括：

步骤21，通过互信息依次计算基于法律文书的语料库中两个连续字符或单词组合的互信息得分并依次将两个连续字符或单词组合进行连接组成新候选词；

步骤22，依次计算步骤21组成的新候选词的左熵得分和右熵得分；

步骤23，依次将所有新候选词的互信息得分、左熵得分和右熵得分相加，得到所有新候选词的新词得分；

步骤24，设置新词得分阈值，将所有新候选词的新词得分依次与新词得分阈值进行比较，将高于新词得分阈值的新候选词选入初步法律文书领域词典候选集；

步骤25，利用针对法律文书的规则设计正则表达式对初步法律文书领域词典候选集进行数据清洗，去除初步法律文书领域词典候选集中的噪声词语；

步骤26，根据通用词典排除去除噪声后的初步法律文书领域词典候选集中的通用词；

步骤27，基于法律文书中的特定的词组或短语，对排除通用词后的初步法律文书领域词典候选集进行高频词组合，并进行筛查选入词典，以发现法律文书中的特定短语搭配；

步骤28，根据去除停用词后的初步法律文书领域词典候选集和短语去重后的词典形成最终领域词典。

其中，所述步骤21具体包括：

步骤211，互信息计算公式，如下所示：

（1）

其中，x和y表示某个特定的数据集Z中的单个或多个连续字符，MI(x，y)表示x、y的互信息，

表示在某个特定的数据集Z上x、y以连续字符出现的概率，p(x)表示在某个特定的数据集Z上x出现的概率，p(y)表示在某个特定的数据集Z上y出现的概率；

在某个特定的数据集Z上x出现的概率，如下所示：

（2）

其中，f(x)表示在某个特定的数据集Z上x出现的频次；

在某个特定的数据集Z上y出现的概率，如下所示：

（3）

其中，f(y)表示在某个特定的数据集Z上y出现的频次；

在某个特定的数据集Z上x、y以连续字符出现的概率，如下所示：

（4）

其中，

表示在数据集上x、y以连续字符出现的频次；

步骤212，将x与y进行连接组成新候选词ω。

其中，所述步骤22具体包括：

步骤221，左熵计算公式，如下所示：

（5）

其中，E _L(ω)表示左熵，ω表示词，a表示某个特定的数据集Z上出现在词ω左边的字符，A表示左边字符候选集；

步骤222，右熵计算公式，如下所示：

（6）

其中，E _R(ω)表示右熵，b表示数据集上出现在词ω右边的字符，B表示右边字符候选集。

其中，所述步骤27具体包括：

步骤271，当初步法律文书领域词典候选集中的多个词经常同时在紧邻位置出现时，初步判定多个词组成为一个短语，记录当前短语出现频次；

步骤272，根据基于法律文书的语料库的大小设定选入词典的短语频次阈值；

步骤273，通过停用词表去除初步法律文书领域词典候选集中的停用词和包含停用词的短语，得到去除停用词后的初步法律文书领域词典候选集；

步骤274，判断去除停用词后的初步法律文书领域词典候选集中的各短语出现的频次是否超过短语频次阈值，当去除停用词后的初步法律文书领域词典候选集中的当前短语出现的频次超过短语频次阈值时，将当前短语选入词典，当去除停用词后的初步法律文书领域词典候选集中的当前短语出现的频次不超过短语频次阈值时，继续判断去除停用词后的初步法律文书领域词典候选集中的其他短语，直到去除停用词后的初步法律文书领域词典候选集所有短语判断完成后，执行步骤274；

步骤275，对词典进行短语去重处理，得到短语去重后的词典。

其中，所述步骤3具体包括：

步骤31，去除开源的中文BERT基础预训练语言模型中的下一句预测任务；

步骤32，将开源的中文BERT基础预训练语言模型中掩码语言模型的加入掩码的方式修改为全词掩码，得到改进后的掩码语言模型，使用改进后的掩码语言模型对整个词进行掩码时，在选取掩码词时优先选取法律文书词汇，在掩码比例不足时继续选择其它词汇；其中，获取整个词的方式为将法律文书词典加入到jieba词典中，通过jieba分词工具分解出输入的法律文书中的中文法律文书词汇和通用词汇；

步骤33，在开源的中文BERT基础预训练语言模型的嵌入层加入相对位置向量；

步骤34，得到新的中文BERT基础预训练语言模型，其中，法律文书中的字符串与法律文书词典和jieba分词工具中的通用词典进行匹配，采用最长匹配原则，匹配出相应词汇，进而得到文书中单个中文字符相对于其匹配词的相对位置，通过4种方式表示，即单字，词首，词中，词尾，分别记为0，1，2，3。

其中，所述步骤5具体包括：

步骤51，法律文书预训练模型中设置有文本分类与命名实体识别的多任务联合学习方式进行信息抽取的学习，命名实体识别任务通过法律文书有监督数据学习法律文书中关键信息的位置和该段的关键信息归属的类别，文本分类任务学习法律文书中的类别信息，文本分类任务为命名实体识别任务提供类别信息，其中，当标注文本中实体数量为0时，文本分类标签记为0；当标注文本中实体数量小于实体类别数量的三分之一时，文本分类标签记为1；当标注文本中实体数量大于等于实体类别数量的三分之一时，文本分类标签记为2；

步骤52，将法律文书有监督数据输入法律文书预训练模型，法律文书预训练模型同时进行文本分类任务与命名实体识别任务，文本分类任务作为命名实体识别任务的辅助，得到法律文书信息抽取模型。

其中，所述步骤5还包括：

文本分类任务的损失函数，如下所示：

（7）

其中，loss_tc表示文本分类任务的损失函数，C表示文本分类的类别集合，

表示文本实际的类别，

表示法律文书信息抽取模型预测出文本实际类别的概率，c表示C集合中的某种类别。

其中，所述步骤5还包括：

对于输入文本的某个位置下标为d的命名实体识别任务的损失函数，如下所示：

（8）

其中，loss_ner表示命名实体识别任务的损失函数，N表示实体的类别集合，

表示d位置字符实际的类别，

为法律文书信息抽取模型预测出d位置为n标签的概率，n表示N集合中的某种类别；

一段完整的输入文本D的命名实体识别任务的损失函数，如下所示：

（9）。

其中，所述步骤5还包括：

法律文书信息抽取模型的总体损失函数，如下所示：

（10）

其中，loss_total表示法律文书信息抽取模型的总体损失函数。

本发明的上述方案有如下的有益效果：

本发明的上述实施例所述的基于法律文书的信息抽取方法，（1）首先针对传统方法不会关注领域新词的缺点，利用互信息和左熵、右熵的原理构建无监督新词发现算法，基于大量法律文书无监督数据利用新词发现算法，提取出领域中的新词，可以为上下文发现实体提供重要的线索，或其本身就是待抽取的实体，本发明将这些新词作为外部词典加入本发明模型的预训练过程进行学习；（2）本发明以预训练语言模型为理论基础，在现有开源预训练模型的基础上，利用易于采集的大量无监督法律文书数据以及改进的预训练任务进行进一步无监督预训练，在增强预训练模型在法律文书上的语义理解能力的同时，又可避免大量费时费力的人工标注。改进的预训练任务在掩码语言模型任务的基础上，利用开放的通用词典和领域词典加入针对中文的全词掩码，并在现有开源预训练模型的嵌入层加入相对位置向量，增强模型对通用词汇尤其是领域词汇的学习能力；（3）在进行有监督微调训练时，采用“命名实体识别任务+文本分类”多任务的训练方式，提升模型的学习效果，其中文本分类任务基于实体的标注结果进行，无需进一步人工标注，同时，多任务联合学习较单任务学习相比，多任务学习通过引入归纳偏置起到与正则化相同的作用，能够获得更多额外的信息来源来提高当前任务的学习性能，会使得模型获得更好的泛化性能，提升模型对于实体分类的效果。

附图说明

图1为本发明的总体流程图；

图2为本发明的具体流程图；

图3为本发明的新词发现算法生成领域词典流程图；

图4为本发明的法律文书预训练示意图；

图5为本发明的开源的中文BERT模型加入相对位置向量示意图；

图6为本发明的多任务联合学习示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的方法没有考虑法律文书数据中的新词术语，法律文书有监督标注数据往往数量稀少，学习效果欠佳，抽取的实体数据分类不准确的问题，提供了一种基于法律文书的信息抽取方法。

如图1至图6所示，本发明的实施例提供了一种基于法律文书的信息抽取方法，包括：步骤1，获取法律文书无监督数据，对法律文书无监督数据进行数据预处理及数据清洗，去除法律文书无监督数据中的噪声，形成基于法律文书的语料库；步骤2，对基于法律文书的语料库基于法律文书的语料库采用新词发现算法进行新词发现，得到初步法律文书领域词典候选集，对初步法律文书领域词典候选集进行去噪、去通用词和组合高频词的筛查处理，得到最终的法律文书领域词典；步骤3，在开源的中文BERT基础预训练语言模型的基础上，利用最终的法律文书领域词典，改进开源的中文BERT基础预训练语言模型的预训练任务，得到针对法律文书的改进预训练任务，并在开源的中文BERT基础预训练语言模型的嵌入层加入相对位置向量，得到新的中文BERT基础预训练语言模型；步骤4，将基于法律文书的语料库输入新的中文BERT基础预训练语言模型中进行训练，得到法律文书预训练模型；步骤5，将法律文书预训练模型采取针对法律文书有监督数据的文本分类与命名实体识别的多任务联合学习方式，在法律文书有监督数据上进行微调训练，得到法律文书信息抽取模型；步骤6，将待提取的法律文书输入法律文书信息抽取模型，法律文书信息抽取模型对待提取的法律文书进行信息抽取，得到各个标签类型的法律文书的信息抽取结果。

本发明的上述实施例所述的基于法律文书的信息抽取方法，法律文书的特征：法律文书相较于通常的文书，一般为官方文书，主要阐述犯罪事实、犯罪经过或宣判结果，表述较为书面且正式，其中不可避免的含有法律文书的术语或特定表达，而在文书中又常含有与法律案件相关的要素，如犯罪嫌疑人姓名、作案时间、作案地点等，蕴含着案件的关键信息，这些相关要素往往种类繁多，如文书中的人名，可能是犯罪嫌疑人、受害人、相关人或其它，确定其类别需要上下文信息的指示；法律文书有监督数据：纯文书数据，没有任何人工标注；法律文书无监督数据：对于信息抽取任务，有监督数据指的是在文书数据上含有人工标注的需要提取的数据。

其中，所述步骤2具体包括：步骤21，通过互信息依次计算基于法律文书的语料库中两个连续字符或单词组合的互信息得分并依次将两个连续字符或单词组合进行连接组成新候选词；

步骤211，互信息计算公式，如下所示：

（1）

在某个特定的数据集Z上x出现的概率，如下所示：

（2）

其中，f(x)表示在某个特定的数据集Z上x出现的频次；

在某个特定的数据集Z上y出现的概率，如下所示：

（3）

其中，f(y)表示在某个特定的数据集Z上y出现的频次；

（4）

其中，

表示在数据集上x、y以连续字符出现的频次；

步骤212，将x与y进行连接组成新候选词ω；

步骤221，左熵计算公式，如下所示：

（5）

步骤222，右熵计算公式，如下所示：

（6）

其中，E _R(ω)表示右熵，b表示数据集上出现在词ω右边的字符，B表示右边字符候选集；步骤23，依次将所有新候选词的互信息得分、左熵得分和右熵得分相加，得到所有新候选词的新词得分；步骤24，设置新词得分阈值，将所有新候选词的新词得分依次与新词得分阈值进行比较，将高于新词得分阈值的新候选词选入初步法律文书领域词典候选集；步骤25，利用针对法律文书的规则设计正则表达式对初步法律文书领域词典候选集进行数据清洗，去除初步法律文书领域词典候选集中的噪声词语；步骤26，根据通用词典排除去除噪声后的初步法律文书领域词典候选集中的通用词；步骤27，基于法律文书中的特定的词组或短语，对排除通用词后的初步法律文书领域词典候选集进行高频词组合，并进行筛查选入词典，以发现法律文书中的特定短语搭配：步骤271，当初步法律文书领域词典候选集中的多个词经常同时在紧邻位置出现时，初步判定多个词组成为一个短语，记录当前短语出现频次；步骤272，根据基于法律文书的语料库的大小设定选入词典的短语频次阈值；步骤273，通过停用词表去除初步法律文书领域词典候选集中的停用词和包含停用词的短语，得到去除停用词后的初步法律文书领域词典候选集；步骤274，判断去除停用词后的初步法律文书领域词典候选集中的各短语出现的频次是否超过短语频次阈值，当去除停用词后的初步法律文书领域词典候选集中的当前短语出现的频次超过短语频次阈值时，将当前短语选入词典，当去除停用词后的初步法律文书领域词典候选集中的当前短语出现的频次不超过短语频次阈值时，继续判断去除停用词后的初步法律文书领域词典候选集中的其他短语，直到去除停用词后的初步法律文书领域词典候选集所有短语判断完成后，执行步骤274；

步骤275，对词典进行短语去重处理，得到短语去重后的词典；步骤28，根据去除停用词后的初步法律文书领域词典候选集和短语去重后的词典形成最终领域词典。

本发明的上述实施例所述的基于法律文书的信息抽取方法，基于互信息、左熵和右熵的计算新词得分，互信息是信息论中用于度量两个事件集合之间的相关性的度量尺度，在统计学中常用来衡量两随机变量和间的相互关联程度。所述基于法律文书的信息抽取方法使用互信息来考察两个连续字符或单词组合成新短语的概率，再次对互信息得出的新候选词的左右切分度及内部结合紧密程度进行考察，分别采用计算左熵和右熵的方法，新词发现算法的使用目的是为了一定程度上挖掘出专有领域出现的新词、热词、专有词汇、表述等。由于中文文本中，语义单位往往是词汇或短语，词汇、短语提供着丰富的上下文信息，将这些领域新词融于模型的训练过程，将有益于模型对领域语义信息的理解，从而增强模型处理任务的效果，新词发现算法是完全无监督的，而且高效、简单易于理解，可行性高。

其中，所述步骤3具体包括：步骤31，去除开源的中文BERT基础预训练语言模型中的下一句预测任务；步骤32，将开源的中文BERT基础预训练语言模型中掩码语言模型的加入掩码的方式修改为全词掩码，得到改进后的掩码语言模型，使用改进后的掩码语言模型对整个词进行掩码时，在选取掩码词时优先选取法律文书词汇，在掩码比例不足时继续选择其它词汇；其中，获取整个词的方式为将法律文书词典加入到jieba词典中，通过jieba分词工具分解出输入的法律文书中的中文法律文书词汇和通用词汇；步骤33，在开源的中文BERT基础预训练语言模型的嵌入层加入相对位置向量；步骤34，得到新的中文BERT基础预训练语言模型，其中，法律文书中的字符串与法律文书词典和jieba分词工具中的通用词典进行匹配，采用最长匹配原则，匹配出相应词汇，进而得到文书中单个中文字符相对于其匹配词的相对位置，通过4种方式表示，即单字，词首，词中，词尾，分别记为0，1，2，3。

本发明的上述实施例所述的基于法律文书的信息抽取方法，采用掩码语言模型任务通过对输入的法律文书中的字符施加随机掩码，并在训练时预测掩码位置实际的字符来学习法律文书中的上下文信息和语义信息；原始的预训练模型中，为了减少词表不存在词(out of vocabulary，OOV)的情况出现，对于中文是基于字符来处理，所以随机掩码是也基于单个中文字符来进行，故对于上下文的学习是基于字符进行的；对法律文书的中文加入全词掩码，若某个子词被选中为掩码，则将所属的整个词汇都进行掩码，如一段文书“公安机关逮捕了犯罪嫌疑人刘某某”，对于“公安机关”这个法律文书词组，采用原始的方式随机掩码时可能的结果为“#安#关”，采用全词掩码，在该段文书的结果为“####逮捕了犯罪嫌疑人刘某某”，模型预测时，将会对词汇的整个位置进行学习和预测，完成掩码后数据输入模型仍保持基于字符的方式；将领域词典加入到jieba词典中，通过jieba工具将领域词汇和通用词分出，进行掩码时，优先掩码法律文书词汇，掩码比例不足时，再继续掩码其它词汇，通过全词掩码的方式，使开源的中文BERT模型在预训练阶段学习到词汇尤其是领域词汇的信息。

本发明的上述实施例所述的基于法律文书的信息抽取方法，改进了开源的中文BERT模型的输入向量，开源的中文BERT模型输入向量是由3种向量组成的，分别是：字符向量，（绝对）位置向量，分段向量。开源的中文BERT模型中虽加入每个字符相对整段文本的绝对位置，但对某些位置之间的相对关系不自觉的忽视了，为了更好的指示词汇信息，充分考虑词汇间字符的关系，所述基于法律文书的信息抽取方法加入第四个向量：相对位置向量，其中，相对的意思是某个字符相对其在匹配词中的位置，匹配词使用领域词典和jieba分词工具中的通用词典进行匹配，采用最长匹配原则，并使用4种方式表示相对位置，即单字，词首，词中，词尾；记为0，1，2，3，如仍是此段文书“公安机关逮捕了犯罪嫌疑人刘某某”，利用法律文书词典匹配到词汇“公安机关”，则“公”字记为该词的词首，“安”和“机”都是词中，“关”是词尾，之后对应转化为向量与其它三种向量一同加入模型中，改进后的输入向量如图5所示。

本发明的上述实施例所述的基于法律文书的信息抽取方法，BERT（BidirectionalEncoder Representation from Transformers，双向编码表示器），从提出开始就在各类自然语言处理任务上达到异常优秀的效果。BERT实现自然语言处理任务主要遵循“预训练+微调”的范式，即先将模型在大规模语料上学习语言的语义信息，而后加入能适应下游任务的处理框架，进行任务的微调训练，使其可以处理具体任务，由于利用了先前学习到的语言语义特性，所以比之于以往直接进行下游任务训练的模型，常常能达到更好的效果。为了缓解法律文书的标注数据稀缺的问题，所述基于法律文书的信息抽取方法基于开源的中文BERT模型，进行法律文书进一步的预训练，同时改进原有的预训练任务；BERT在处理中文文本时，一般是基于单个汉字字符进行处理，即直接把汉字字符转为字符向量，如按分词处理，很可能会出现大量词表不存在词(out of vocabulary，OOV)的情况，而基于字符建立词表，只需较小的词表即可涵盖大多数的中文字符。BERT在做预训练任务时，使用了掩码语言模型（Masked Language Model，MLM），通过对输入样本中的字符施加随机掩码，并在训练时预测掩码位置实际的字符来学习语言之间的上下文信息和语义信息。如使用按中文字符处理的方式，掩码语言模型在进行掩码时，也只会掩蔽单个汉字字符，而不会考虑字符所属词语，故而进行训练预测时也只考虑单个位置的情况，而在汉语中，语义单位往往不只是单个字符，词语也提供着丰富的上下文信息。

对中文加入采用全词掩码(Whole Word Masking， WWM)，若某个子词被选中为掩码，则将所属的整个单词都进行掩码，而数据输入模型仍是基于字符的方式。全词掩码与普通掩码的区别可见表1。为了找出整词，所述基于法律文书的信息抽取方法使用了jieba分词工具，将领域词典加入到jieba词典中，jieba工具便可以将领域词汇和通用词分出，再通过全词掩码的方式，使模型在预训练阶段学习到词汇尤其是领域词汇的信息。

表1 全词掩码示例

修改原版模型的预训练任务之后，即可在领域语料库上训练得到法律文书预训练模型，供下一步任务使用。优点：采用预训练模型可以提供语言上的语义信息，且基于注意力机制的预训练模型，可以处理更长距离的语义依赖，所述基于法律文书的信息抽取方法改进了文本掩码方式和输入向量，同时把领域词典利用起来，在领域语料上进行进一步的预训练，相比于仅使用少量标注数据进行有监督训练的方法，可以使模型学习到更多的领域知识和领域语义信息，这在模型的训练和预测中都将会是强有力的武器，进而节省后期大量数据处理和标注的人力物力，达到更好的模型效果。

其中，所述步骤5具体包括：步骤51，法律文书预训练模型中设置有文本分类与命名实体识别的多任务联合学习方式进行信息抽取的学习，命名实体识别任务通过法律文书有监督数据学习法律文书中关键信息的位置和该段的关键信息归属的类别，文本分类任务学习法律文书中的类别信息，文本分类任务为命名实体识别任务提供类别信息，其中，当标注文本中实体数量为0时，文本分类标签记为0；当标注文本中实体数量小于实体类别数量的三分之一时，文本分类标签记为1；当标注文本中实体数量大于等于实体类别数量的三分之一时，文本分类标签记为2；步骤52，将法律文书有监督数据输入法律文书预训练模型，法律文书预训练模型同时进行文本分类任务与命名实体识别任务，文本分类任务作为命名实体识别任务的辅助，得到法律文书信息抽取模型。

其中，所述步骤5还包括：

文本分类任务的损失函数，如下所示：

（7）

表示文本实际的类别，

其中，所述步骤5还包括：

（8）

表示d位置字符实际的类别，

（9）。

其中，所述步骤5还包括：

法律文书信息抽取模型的总体损失函数，如下所示：

（10）

本发明的上述实施例所述的基于法律文书的信息抽取方法，法律文书预训练模型进行多任务联合训练的示意如图6，多任务学习在预训练任务之后，属于模型进行微调的阶段，进行的是有监督学习，其中，文本分类任务和命名实体识别任务同时进行，BERT模型可以根据自身的特点，利用每次输入文本的最开头位置的[CLS]标签作为文本分类的结果，其余每个位置经过softmax函数输出的结果作为实体标注的结果，由于针对实体识别的有监督数据中一般不含有文本分类相关的标注，对于文本分类任务，将根据实体的数量自动划分文本分类的类别，分为3类，如此可避免再进行人工标注，划分类别的方式如表2：

表2 文本分类任务的再标注

所述基于法律文书的信息抽取方法在实体识别任务中加入另一文本分类任务联合训练模型，其中，文本分类根据实体数量和类别进行自划分标注，无需二次标注，有效的将当前的标注信息运用于另一任务，使得此多任务训练易于展开。同时，多任务联合学习较单任务学习相比，多任务学习通过引入归纳偏置起到与正则化相同的作用，往往能够获得更多额外的信息来源来提高当前任务的学习性能，会使得模型获得更好的泛化性能。将法律文书预训练模型用于信息抽取的命名实体识别任务时，利用多任务联合学习进行训练，增加对整段文本类别的学习以获取更丰富的潜在信息，通过文本分类任务辅助命名实体识别任务，最终的目的是提升模型的泛化性能。

本发明的上述实施例所述的基于法律文书的信息抽取方法，利用互信息和左熵、右熵的原理构建新词发现算法，基于大量领域无监督数据利用新词发现算法，提取出领域中的新词，组成词典，无需任何标注数据，后续可以将这些词汇信息将可以加入到预训练任务中发挥作用，基于预训练语言模型加以领域数据进行进一步领域预训练，同时将新词发现算法提取的词汇加入到预训练过程中，在预训练过程中加入对词汇的处理，可以将海量而难以处理的无标注领域数据利用了起来，还可使预训练模型在训练中更多的关注词汇信息，符合中文的语言特点，达到增强领域语义理解的效果，通过在该语言、该领域上的语义理解的提升，使得总体模型可以在标注数据较少的情况下仍可以取得较好的任务效果，或是对提升模型处理下游任务的效果都大有裨益。采用多任务联合学习的方式进行预训练模型的有监督微调训练，在进行命名实体识别任务的同时进行文本分类任务，且文本分类任务的学习可以根据数据中实体的数量进行，无需做进一步的文本分类标注，总体训练时的损失函数是两个任务损失函数的相加值，训练目标即是最小化总体损失函数，通过多任务学习的新模型效果较原先会有所提升。

本发明的上述实施例所述的基于法律文书的信息抽取方法，法律文书示例：益阳市赫山区人民检察院指控，被告人谌某生因女儿谌某于2004年5月被雷某辉家饲养的狗咬伤，双方为此产生纠纷。后经法院判决，由雷支付其医药费等各项费用共计10847.68元，而雷拒不支付，被告人谌某生遂于2010年1月27日16时许，携带汽油窜至雷某辉的立某竹艺厂，将汽油泼至竹艺厂内存放的凉席上点燃后逃离现场，被在场人员抓获并扭送至公安机关。经鉴定，被损物品价值29370元。公诉机关认为，被告人谌某生的行为已触犯《中华人民共和国刑法》××之规定，构成××罪。并向本院移送了有关证据材料，要求依法判处。

将法律文书示例输入法律文书信息抽取模型进行法律文书的信息抽取，法律文书信息抽取模型输出法律文书的信息抽取结果如下：

'标签'：'嫌疑人'，'抽取位置'：'谌某生(17；20)；谌某生(96；99)；谌某生(198；201)'；

'标签'：'受害人'，'抽取位置'：'雷某辉(34；37)；雷(62；63)；雷(87；88)；雷某辉(122；125)'；

'标签'：'物品价值'，'抽取位置'：'29370元(181；187)'；

'标签'：'作案工具'，'抽取位置'：'汽油(118；120)；汽油(133；135)'；

'标签'：'作案时间'，'抽取位置'：'2010年1月27日16时许(101；115)'；

'标签'：'作案地点'，'抽取位置'：'竹艺厂内(137；141)'；

'标签'：'组织机构'，'抽取位置'：'益阳市赫山区人民检察院(0；11)；公安机关(166；170)；公诉机关(188；192)'。

以上结果以标签类型进行分条，对于法律文书的信息抽取结果，其中标签信息是根据有监督标注数据中存在的标签类型进行分类的，是事先预定义的，训练时模型根据标注数据进行学习，预测时由模型在给出相应抽取结果的分类结果，抽取位置指示了相应抽取结果在原文本中的位置。

本发明的上述实施例所述的基于法律文书的信息抽取方法，以预训练语言模型为理论基础，在现有开源预训练模型的基础上，利用易于采集的大量无标注法律文书数据以及改进的预训练任务进行进一步无监督预训练，在增强预训练模型在法律文书上的语义理解能力的同时，又可避免大量费时费力的人工标注；改进的预训练任务首先根据新词发现算法构造领域词典，其次在掩码语言模型任务的基础上，利用开放的通用词典和领域词典加入针对中文的全词掩码，并在嵌入层加入相对位置向量，增强模型对通用词汇尤其是领域词汇的学习能力；在进行有监督微调训练任务时，采用“命名实体识别任务+文本分类”多任务的训练方式，提升模型的学习效果，其中文本分类任务基于实体的标注结果进行，无需进一步人工标注；在法律文书数据集上的实验表明，所述基于法律文书的信息抽取方法基于领域数据进一步进行预训练，采用多任务学习的方式进行模型微调，在领域标注数据集较少的情况下，仍然可以取得较高的精度。同时所述基于法律文书的信息抽取方法还可为法律文书的其它下游任务或其它领域的信息抽取提供参考。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。