CN112329441A

CN112329441A - 一种法律文书阅读模型及构建方法

Info

Publication number: CN112329441A
Application number: CN202011092280.5A
Authority: CN
Inventors: 张引; 胡刚; 杜锦阳; 刘铨; 张可
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2021-02-05

Abstract

本发明涉及文书阅读技术领域，具体地说，涉及一种法律文书阅读模型及构建方法，方法包括以下步骤：一、Bert层对输入的篇章和问题进行编码；二、特征融合层融合词性标注和命名实体标注向量；三、建模层对片段提取预测和是非类型判断的建模；四、输出层输出片段预测和是非概率预测。本发明能较佳地处理片段抽取、是非判断、拒答三种类型问题。

Description

一种法律文书阅读模型及构建方法

技术领域

本发明涉及文书阅读技术领域，具体地说，涉及一种法律文书阅读模型及构建方法。

背景技术

将人工智能技术应用到法律领域，能加快和改善法律研究流程，降低法律研究的时间成本和资金，这使得法律智能研究成为一个相当有前景的领域。Katz 在2012年的研究中指出，随着人工智能的飞速发展，从法律文件生成到案件结果预测等传统法律任务将迎来变革。这种变革也可以从另外三个方面得以窥见。首先，语音识别技术被用于庭审记录。其次，使用机器学习方法辅助律师进行法律文书的审查。再有，一些机器学习方法也被应用于构建智能裁判系统[5,6]。

由此可见，人工智能应用于法学研究时，自然语言理解成为了最有希望成功应用的技术，这是因为法学研究中包含大量文本数据。例如，在数据驱动的法学实证分析中，需要研究者人工阅读大量的裁判文书，进行数据的归纳整理，这是一个相当费时费力的过程。如果使用机器阅读理解技术，构建一个辅助阅读系统，则可以减轻研究者们在归纳数据过程中的负担。

机器阅读理解任务通常被定义为给定一个篇章和与篇章相关的问题，模型在阅读了篇章之后，给出问题的答案。在深度学习出现之后，机器阅读理解技术获得了长足发展。前几年的一些研究者致力于解决完型填空或者单向选择类型的问题，出现了Attentive Reader、Stanford AR、GA Reader、AOA Reader等模型。之后，机器阅读理解的发展更趋向于解决接近现实情景的问题，如片段抽取问题或者多任务类型的问题，出现了BiDAF、Match-LSTM、S-net等模型。 2018年，谷歌发布了一个强大的语言模型—Bert。该模型在11个自然语言处理任务上获得了成功，也在一定程度上提升了机器阅读理解的最先进表现。随着机器阅读理解技术的不断发展，它展示了处理长文本、多任务问题上的能力，这使得机器阅读理解技术有应用到法学实证分析中的可能。

但是，对于一个裁判文书，研究者既可能提出一些在文书中可以直接找到答案的问题，如刑期、犯罪地点等，也可能提出需要推断才能给出答案的问题，如是否存在团伙犯罪等。同时，部分文书可能不能给出预设问题的答案，即不可回答类问题。传统的片段提取类的机器阅读理解模型并不能处理多种复杂类型的问题；因此需要法律文书阅读模型来解决上述问题。

发明内容

本发明的内容是提供一种法律文书阅读模型及构建方法，其能够克服现有技术的某种或某些缺陷。

根据本发明的一种法律文书阅读模型的构建方法，其包括以下步骤：

一、Bert层对输入的篇章和问题进行编码；

二、特征融合层融合词性标注和命名实体标注向量；

三、建模层对片段提取预测和是非类型判断的建模；

四、输出层输出片段预测和是非概率预测。

作为优选，Bert层的编码过程包括：

1.1、对输入的篇章和问题进行整理，并整理为三个序列：

(1)单词的词典映射序列：

其中，[CLS]和[SEP]为间隔符，问题序列为token₁,...,token_n，长度为n，篇章序列为token₁,...,token_m，长度为m；

(2)前后句标记序列，问题序列被标记为A，篇章序列被标记为B： {E_A,...,E_A,E_B,...,E_B}；

(3)单词位置序列，问题的位置序列为E₀,...,E_n，篇章的位置序列为E₀',...,E_m'：{E₀,...,E_n,E₀,...,E_m}；

1.2、将单词的词典映射序列、前后句标记序列和单词位置序列求和并进行编码处理，得到编码结果：

{E_[CLS]',E₁',...,E_n',E_[SEP]',E₁',...,E_m',E_[SEP]'}。

作为优选，特征融合层融合词性标注和命名实体标注向量后，得到包含富特征的语义编码向量M_t：

M_t＝[E_t'；C_t]t∈[1,n+m+3]；

得到M序列，表示为M＝{M₁,M₂,...,M_t}。

作为优选，建模层对片段提取预测的建模方法为：使用一个双向LSTM网络，在时间步t上逐时序地处理前向语义编码向量

和后向语义编码向量

得到前向和后向的上下文向量

和

将两者连接，得到最终的上下文向量L_t，公式如下：

作为优选，建模层对是非类型判断的建模方法为：

3.1、自注意力层使用激活函数为relu的前馈网络，对特征融合层传递过来 M序列中的前后元素M_i和M_j求取注意力值，并使用注意力值得到一个新的融合

公式如下：

3.2、使用了平均池化层对新的融合进行处理，得到池化输出P_i：

作为优选，输出层使用MLP多层感知机实现，对于片段预测的输出：

其中，start_logit为篇章token作为答案起始位置概率，end_logit为篇章token作为答案终止位置的概率，W_span和b_span为输出层的权值和偏置；

对于是非预测的输出：

其中，Yes_logit为答案是“Yes”的概率，No_logit为答案是“No”的概率，W_{yes_no}和b_{yes_no}为权值和偏置。

作为优选，输出层还输出拒答概率的输出：

Null_logit＝W_null·P_t+b_null；

其中，Null_logit为该问题无答案的概率，W_{yes_no}和b_{yes_no}为权值和偏置。

作为优选，步骤四后，最终的输出会被整形为两个新的概率输出，分别为：

start_logit′＝[start_logit,unk_logit,yes_logit,no_logit]；

end_logit′＝[end_logit,unk_logit,yes_logit,no_logit]；

设格式相同并且包含是非概率、拒答概率的真实输出为y_start、y_end，使用交叉熵作为损失函数计算损失loss_start、loss_end，然后对两个损失求取均值即可以得到总体损失loss_all，用公式表达为：

其中N为样本个数。

本发明还提供了一种法律文书阅读模型，其采用上述的一种法律文书阅读模型的构建方法。

本发明能同时处理片段抽取、是非判断、拒答三种类型问题，基本能满足法学实证分析中的问题类型需求。

附图说明

图1为实施例1中一种法律文书阅读模型的构建方法的流程图；

图2为实施例1中一种法律文书阅读模型的示意图；

图3为实施例2中时间类型问题可视化结果示意图；

图4为实施例2中原因类型问题可视化结果示意图；

图5为实施例2中是非类型问题的可视化结果示意图。

具体实施方式

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。应当理解的是，实施例仅仅是对本发明进行解释而并非限定。

实施例1

如图1所示，本实施例提供了一种法律文书阅读模型的构建方法，其包括以下步骤：

一、Bert层对输入的篇章和问题进行编码；该层使用谷歌提出的Bert-Chinese 实现；

二、在之前的一些研究表明，加入一些与单词相关的先验特征，可以使得模型的性能获得一定的提升，这同样适用于法律裁判文书的场景下。加入命名实体识别向量，有利于模型识别出犯罪人姓名、犯罪地点、犯罪团伙名称；加入词性向量，有利于模型识别出一些实体词、量词等；因此，在得到语义编码向量后，特征融合层融合词性标注和命名实体标注向量；

三、建模层对片段提取预测和是非类型判断的建模；

四、输出层输出片段预测和是非概率预测。

Bert层的编码过程包括：

1.1、对输入的篇章和问题进行整理，并整理为三个序列：

(1)单词的词典映射序列：

{E_[CLS]',E₁',...,E_n',E_[SEP]',E₁',...,E_m',E_[SEP]'}。

特征融合层融合词性标注和命名实体标注向量后，得到包含富特征的语义编码向量M_t：

M_t＝[E_t'；C_t]t∈[1,n+m+3]；

得到M序列，表示为M＝{M₁,M₂,...,M_t}。

在现实场景的阅读任务中，如果问题类型为是非判断，则我们通常会选择略读全文，更关心文章的宏观信息，这时候我们可以通过注意力层和池化层，得到文章中更重要的部分。如果问题类型为阐述类题目(片段提取比较类似于这类题目)，我们通常会精读全文，以期获得更为详细的上下文信息，这时候我们选择保留完整的词向量表示，再使用双向LSTM更进一步地提取上下文信息，然后使用一层MLP进映射。

建模层对片段提取预测的建模方法为：使用一个双向LSTM网络，在时间步t上逐时序地处理前向语义编码向量

和后向语义编码向量

得到前向和后向的上下文向量

和

将两者连接，得到最终的上下文向量L_t，公式如下：

建模层对是非类型判断的建模方法为：

公式如下：

输出层使用MLP多层感知机实现，对于片段预测的输出：

对于是非预测的输出：

输出层还输出拒答概率的输出：

Null_logit＝W_null·P_t+b_null；

步骤四后，最终的输出会被整形为两个新的概率输出，分别为：

start_logit′＝[start_logit,unk_logit,yes_logit,no_logit]；

end_logit′＝[end_logit,unk_logit,yes_logit,no_logit]；

其中N为样本个数。

如图2所示，本实施例还提供了一种法律文书阅读模型LegalSelfReader，其采用上述的一种法律文书阅读模型的构建方法。

实施例2

本实施例设置了两个benchmark：BIDAF、Bert，与本实施例所提出的模型LegalSelfReader一起实验。

实验环境

在一个装有64位Windows系统的机器上进行实验。该机器的外存空间大小为930GB，内存空间大小为48GB，CPU类型为单核Intel i7-8700K，GPU类型为NVIDA GeForceGTX 1080Ti，GPU大小为11GB。本实施例所有实验程序均使用python语言编写，所使用的深度学习框架为Pytorch，版本号为1.13.0。

本实施例使用的原始数据来自于CAIL 2019法律阅读理解竞赛，该数据集由哈工大科大讯飞联合实验室发布，是一个面向司法领域的多任务机器阅读理解数据集，数据集名称为CJRC。数据集的篇章来自于中国裁判文书网，问题和答案均由法学专家手工撰写，问题类型包括片段抽取、是非判断、拒绝回答等类型，答案为对应篇章的片段。原始数据集经过简单预处理后，每个样本被确定为一个五元组，包括篇章、问题、答案文本、答案在篇章中的起止位置、是非型问题标记。训练集包含4万个样本，测试集包含7000个样本。

评价指标

使用Rouge和宏平均F1分数、EM(Exact Match)分数三个个评价指标对所提出的系统进行评价。F1分数是常用的分类评价指标，它同时兼顾了分类问题中的精确度和召回率。宏平均F1分数为F1分数的变体，在评测数据集含有多个参考答案时，将预测答案与多个答案分别求取F1分数，在对其求均值，即可得到宏平均F1分数，公式如下：

Rouge和Bleu分数都是机器翻译的常用指标，但是近来有研究者指出Bleu 分数在机器阅读理解中评价时，与Rouge分数有很大的偏差，可能的一个原因是Bleu对长答案设置了惩罚项，使得Bleu更趋向于选择更短的答案，这给机器阅读理解的评价带来了影响[7]。因此，本实施例没有选择Bleu分数作为评价指标，只使用了Rouge-L。Rouge-L主要比较预测答案和参考答案之间的最长公共子序列，并求出Rouge-L分数，以期通过Rouge-L分数得到两者的“相似度”， Rouge-L的公式形式为：

LCS(X,Y)是参考摘要X和候选摘要Y的最长公共子序列的长度，m、n是参考答案X和候选答案Y的长度，R_lcs、P_lcs分别表示召回率和准确度，F_lcs即Rouge-L 分数。

EM是和金标准答案完全一致的预测答案在所有预测答案中所占的比例。

对比实验

为了验证本实施例所设计的系统的有效性，将三个模型在试验环境中所描述的数据上进行实验。实验结果如下表所示。其中，带“*”的为哈工大讯飞实验室在github上公布的部分在开发集上的实验结果。

对照实验结果

从实验结果中可以看出，与传统的BIDAF、Bert模型相比，我们的模型LegalSelfReader在三个指标都有比较大的提升。传统的BIDAF使用word2vec 预训练词向量，得到的是固定语义词向量，我们的模型使用了Bert模型获取词向量，得到的词向量是上下文相关的，因此更获得大幅度的提升。虽然我们对原始的Bert模型进行了一定调整，使其能够回答是非类型问题，但是原始的Bert 模型中并没有回答是非问题的能力，因此在我们的多任务机器阅读理解数据集上表现较差。同时，在与哈工大科大讯飞提出的一些比较新颖的Transformer类模型的比较时，我们的模型也有比较明显的表现提升。并且，我们的模型只是一个基于原始Bert-Chinese的单隐层模型，没有对Bert模型进行大规模的重新训练，对于片段抽取输出部分只是加了一个BiLSTM层，对于是非判断输出层只是加了一个注意力层和一个池化层。相较于他们重新构建新的Transformer类模型，并使用新的预料重新训练，我们的模型在如此低廉的代价下，依然获得了比较好的结果。

以下表格展示了我们的模型与哈工大讯飞联合实验室的训练花费对比，数据来自于他们在github上的公开结果。

训练花费对比

模型	设备	训练步数
			BERT-wwm	TPU v3	200K
BERT-wwm-ext	TPU v3	1.4M
			RoBERTa-wwm-ext	TPU v3	1M
RoBERTa-wwm-ext-large	TPU Pod v3-32	2M
			LegalSelfReader	GTX 1080Ti	60.3K

消融研究

本实施例在原始模型的基础上，分别对先验特征(词性向量和命名实体识别向量)、注意力层、双向LSTM层进行消融，以比较模型各个组件的有效性。最终的实验结果如下：

消融实验结果

从实验结果中，我们可以看出，在分别消除各个组件后，模型的性能都发生了一定程度的下降，消除注意力机制后在三个分数上分别下降了0.07、0.074、 0.09，消除双向LSTM模型后分别下降了0.004、0.005、0.002，消除先验特征之后分别下降了0.003、0.003、-0.001。这说明，三个组件对模型都能提升模型的表现。其中，性能下降最为明显的是在消除注意力机制之后，这个模型带了近乎10％的性能下降，这说明注意力机制的使用，是LegalSelfReader在该问题上获得性能提升的一个重要方面。

关于问题多样性的分析

为了更深入地分析本实施例所提出模型所擅长处理的问题类型，我们利用汉语中一些特定的问题关键词，设计了一个启发式的问题类别分类，类别划分如下(由于表格大小的限制，我们只能尽可能地展示我们所选地关键词)：

问题类型的关键词表

根据如上所展示的关键词，我们对测试集进行了随机筛选，每个问题类别筛选得到100个篇章-问题-答案对，然后使用所训练的模型进行评价，得到如下结果：

从实验结果中可以看出，本实施例所提出的模型在所有问题类型上都有相当优异的表现。其中，本实施例所提出的模型更擅长处理的问题类型是时间类型问题和是非类型问题，并且在宏平均F1分数上都获得了0.9以上的分数。大多数情况下，时间类型问题答案格式比较固定，模型只需要学习到这种固定的时间格式，然后进行简单匹配，基本就可以得到最终答案。而是非类型问题更为复杂，它不是一个匹配类型的问题，需要模型对文章的整体语义进行深层理解，然后再做出是非判断。本实施例所提出的模型能在是非类型获得较好的表现，说明我们针对是非类型问题设置的多任务训练获得了成功，它使得模型能够进行深层的篇章语义理解。

同时，模型在Who和Why类型问题上获得了较差的效果。我们查看了关于 Who类型问题的数据，最终发现为了保护个人隐私，数据中的人名等都进行了匿名化处理，这可能使得我们所加入的命名实体识别向量出现偏差，从而使得模型的效果变差。对于Why类型的问题，它通常可以组织出多个答案(正确答案可能不止金标准答案一个)，这是由于Why类型问题在文章中往往展示出多处关联性。除了正确答案的篇章子段之外，模型可能还会去发掘其他与问题相关的子段，并且这些子段可能会成为答案。这使得注意力值的有效范围被扩大了，从而模型不能给出一个确切的答案，并降低了模型的表现。

注意力值的可视化研究

如图3所示，在时间类型问题的样本中，可以很明显的地看到，模型给时间类型的片段赋予了高于上下文的注意力权值，这可以使得后续模型更能注意到上下文中更重要的部分，而不会关注与时间无关的信息，使得模型的预测能力大大提升。

如图4所示，在Why类型问题的样本中，可以看出答案部分虽然被赋予了较高的注意力值，但是其上下文的注意力值也较高，整体显示出注意力值近似于服从均匀分布。模型在使用这种分布下的注意力值，难以得出较为有效的答案。

如图5所示，对于是非类型问题，模型必须有比较的推理能力，推理能力其中一个很重要的一点就是，模型需要能自己找到线索。发现模型具有很好的 “找线索”能力。如图所示，为一个是非判断类型的样本，图中注意力值比较高的部分，均是回答该问题的比较重要的线索，这说明模型具有很好的推理能力。

结论

本实施例的一种法律文书自阅读模型---LegalSelfReader可以应用到法学实证研究中，可以同时回答片段抽取、是非判断、拒答三种类型的问题，基本解决了问题的多样性问题。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。