CN114764913A

CN114764913A - 融入标签信息的案情要素识别方法

Info

Publication number: CN114764913A
Application number: CN202210544080.1A
Authority: CN
Inventors: 线岩团; 张恒滔; 赖华
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-07-19

Abstract

本发明涉及融入标签信息的案情要素识别方法，属于自然语言处理领域。本发明包括：预处理CAIL2019‑SCM要素标注的关于民间借贷的裁判文书文本数据集；使用清洗过的裁判文书作为输入；之后利用在民事裁判文书上预训练的BERT对输入编码表示；进一步地利用CNN网络对事实描述部分特征提取；将提取后的表示分别与属性和标签表示进行融合；随后将合成的表示按照属性依次对该属性下的标签进行识别，分类器计算获得最终的标签概率分布。实验结果表明，该模型在CAIL2019‑SCM数据集的要素标注数据上能够更有效地将要素识别出来。

Description

融入标签信息的案情要素识别方法

技术领域

本发明涉及融入标签信息的案情要素识别方法，属于自然语言处理领域。

背景技术

民间借贷案情要素识别旨在通过对裁判文书的理解，将能够反映案件主要事实的要素按照属性体系提取出来，在智慧司法领域具有广泛应用。这些要素除了一些常见的案件发生时间、地点、涉事机构等基本要素外，还包括很多描述案件发生经过的关键要素。在司法领域，案件要素识别具有广泛的运用，识别出来的要素信息可以用于类案判断，辅助法院对同类案件审判，司法从业者可以通过案情要素快速掌握案件的来龙去脉，在实际场景在中还有更多与司法相关的其他业务会用到案件要素分析，如果能够将案件要素自动地从裁判文书中识别出来，这将会大大提高司法从业者的办公效率。

但现有的要素识别主要基于序列标注方法进行，并不适用于民间借贷案情，本发明将其转化为多标签文本分类任务，但数据稀缺和标签不平衡会导致分类器难以准确、完整地识别出要素。因此本发明通过不同的融合策略将标签属性、要素标签分别与裁判文书的编码表示融合，最后借助分类器分别识别每一类属性的要素。

发明内容

本发明提供了融入标签信息的案情要素识别方法，以用于解决无法通过序列标注方式识别民间借贷案件的案件要素和在面对数据稀缺、标签不平衡时难以准确识别案件要素的问题。

发明技术方案：融入标签信息的案情要素识别方法，所述方法的具体步骤如下：

Step1、对CAIL2019-SCM数据集的标注要素数据进行预处理，通过自己构建的正则表达式提取出裁判文书中的事实和理由部分，同时对标注的标签进行重名替换，并按照比例划分数据集；

Step2、通过在民事裁判文书上预训练的BERT模型生获得裁判文书和要素标签属性以及具体标签的表示，利用CNN对裁判文书事实描述进行特征提取，获得输入的编码表示，包括要素属性表示、要素标签表示、裁判文书的事实描述表示；

Step3、将获得的要素属性表示、要素标签表示分别与裁判文书的事实描述表示进行融合，最终按照要素属性得到对该属性下要素标签不同关注度的特征向量；

Step4、特征向量被送入不同属性对应的分类器，经分类器计算得到每一个属性下各标签的概率作为输出。

所述步骤Step1的具体步骤为：

Step1.1、对每一篇裁判文书，利用正则表达式来提取裁判文书的主体部分，具体而言就是裁判文书中的事实和理由部分；

Step1.2、对标签信息进行重名替换，将一些表述一致的标签进行修改，加上该标签对应的属性名字，例如借款交付形式中的“其他”修改为“其他借款形式”，使其更具有区分性。

Step1.3、CAIL2019-SCM标注要素数据按照8：1：1进行划分，分别设为训练集、验证集、测试集。

作为本发明的优选方案，利用基于BERT和CNN构造的编码模块获得要素属性表示、要素标签表示、裁判文书的事实描述表示，所述步骤Step2的具体步骤如下：

Step2.1、利用在两千多万篇民事裁判文书预训练的“民事BERT”同时对事实描述、要素类别属性、要素标签三部分文本进行编码，输入的文本经词表转化为对应的id表示，id表示经BERT编码后输出，其过程可以抽象为公式(1-3)所示。

H_X＝BERT(X) (1)

H_A＝BERT(A) (2)

H_Y＝BERT(Y) (3)

其中

n表示事实描述文本序列的长度，m表示类别属性总个数，s表示标签集所包含的标签总个数，d代表词向量维度；

Step2.2、对于属性和标签的表示，本发明将每一个属性

标签

的字符向量a_ti、y_ti平均后得到该属性、标签的编码表示，ti表示第i个字符，la、ly分别表示某一属性、某一标签所含的字符个数，详细计算见公式(4-5)。

上式中

即为类别属性、要素标签的编码表示，

即为类别属性集合和标签集合的BERT编码后的最终结果。

Step2.3、本发明利用CNN构成的特征提取网络来对事实描述序列进行特征提取，对于裁判文书经由BERT编码的输出

通过公式(6)来对其中的文本表示向量卷积。

C_i＝f(W·X_i:i+h-1+b) (6)

上式的含义是文本矩阵由n个词的向量表示x组成，一个与编码层维度一般长宽度为h的卷积核，自上而下地与卷积核窗口内的词做卷积，式子中的W为卷积核中的参数矩阵，b是一个偏置项，f为非线性函数，在本发明中我们使用ReLU函数代替，得到特征c_i。在窗口大小为h的卷积作用下，得到的特征图

如公式(7)所示。

C＝[C₁,C₂,...,C_n-h+1] (7)

在池化层对特征图进行最大池化操作，如公式(8)所示。每一种长度为h的卷积，设置m个，则该种卷积核卷积得到的最终池化后的特征图为一个m维向量。我们将多种窗口大小不同的卷积核卷积得到的向量拼接后得到最终的特征向量，事实描述表示矩阵的整个特征提取的过程可以概括为公式(9)，其中特征向量

h＝CNN_Pooling(H_X) (9)

作为本发明的优选方案，所述步骤Step3的具体步骤如下：

Step3.1、基于多标签文本分类的要素识别，通常直接利用文本编码表示识别要素标签，难以将标签完整识别出来，本发明将类别属性的编码表示

的行向量分别与事实描述的特征表示向量

融合，融合过程如下：

(1)加权特征：将事实描述特征表示与类别属性表示对位相加，由于事实描述文本序列本身长度较长、信息量大，对分类器而言具有主要的特征贡献，而类别属性的长度要小得多，因此通过简单的对位相加后平均的融合方式可能并不适用，本发明通过公式(10)对两者加权。

h′＝αh+βh_a (10)

上述公式表示两种表示在词向量维度d上以预先设置的权值α,β按比例进行相加。

(2)特征转化：将特征表示送入前馈神经网络，进一步融合，利用这种方式将稀疏的特征整合，通过网络参数学习来提升表示能力，其过程可表示为公式(11)。

Step3.2、Step3.1公式(11)中的W_l为参数矩阵，b_l为偏置项，转化后的特征表示记作

将所有属性与事实描述融合后的特征表示连接得到矩阵

融合了属性信息的表示分别与对应属性下的标签集合基于注意力机制加权，整个过程如下：

(1)截取标签集：经BERT编码后的标签矩阵包含了所有标签的表示，根据属性对应的标签集长度从标签矩阵上截取出m个子集矩阵，例如属性a_i，其对应的标签集

共包含l_i个标签，则l_i个标签向量表示构成了属性a_i的标签矩阵

(2)计算注意力得分：融合了属性信息的表示与该属性下的标签集分别计算注意力分数，注意力得分显性地展示了文本对不同交互对象的关注程度，由于类别属性较多，为了减小模型复杂度和计算时间，本发明基于软注意力机制(Soft-Attention)通过计算融合属性的表示与各标签向量之间的点积来计算注意力分布，计算过程如公式(13-14)所示。

(3)加权标签信息：基于公式(14)得到的注意力分数对标签集加权，得到最终的整合向量，如公式(15)所示。

h_oi＝∑α_aiY^ai (15)

表示第i个属性对应的标签集与事实描述融合后的输出，该整合向量融合了特定属性的信息并对该属性下的标签给予了不同的关注度，用做分类器的输入。

作为本发明的优选方案，所述步骤Step4的具体步骤如下：

Step4.1、本发明对每一个类别属性下的标签单独预测，为每一个整合向量h_o基于全连接网络和softmax函数构建分类器，整合向量经全连接层映射为与标签集长度一致的向量，再经过sotfmax函数转化为对应的概率表示，整个过程如公式(16)所示。

其中

表示在某一属性下，整合向量h_o属于标签y的概率，l表示该属性对应的标签集所含标签的个数，W_s为全连接层用于标签映射的参数矩阵

Step4.2、根据标签的概率分布和真实标签利用交叉熵来计算第i个属性的损失，计算公式为(17)。

则样本的(X_i,Y_i)的损失由所有属性的损失求和平均得到，如公式(18)所示，最终通过反向传播总的样本损失来对每一个分类器进行迭代优化。

Step4.3、整个模型训练过程采用选用AdamW来作为优化器，隐藏层维度d＝768，支持的最大序列长度512个字符，批次大小batch-size设置为6，初始学习率为2e-5，学习率的调整采用固定步长减小

本发明的有益效果是：

(1)本发明的融入标签信息的案情要素识别方法，基于多标签文本分类方法设计的模型，将这些特征用于识别案件要素，解决了无法利用序列标注进行提取民间借贷案情要素的问题。

(2)本发明的融入标签信息的案情要素识别方法，利用在民事裁判文书上进行预训练的BERT来对文本编码，这种领域预训练的BERT具有更好的语义敏感性，通过CNN对文本序列进行特征提取，为缓解输出特征稀疏问题，利用最大池化策略来对文本特征序列筛选有效特征值，有效提取到了民间借贷裁判文书中的特征信息。

(3)本发明的融入标签信息的案情要素识别方法，将标签所属的属性类别、以及属性对应的标签集融入到文本表示中，在标签预测层按属性进行标签预测，在数据稀缺的情况下借助标签信息有效提升了识别性能，在CAIL2019-SCM要素标注数据集上在验证集和测试集上的平均F1值分别比基线模型BERT提高了0.036和0.0469。

附图说明

图1是本发明提出的融入标签信息的案情要素识别方法的模型结构示意图。

图2是本发明提出的融入标签信息的案情要素识别方法处理后输入数据的长度分布情况。

具体实施方式

实施例1：如图1所示，融入标签信息的案情要素识别方法，所述方法的具体步骤如下：

Step1.3、CAIL2019-SCM标注要素数据按照8：1：1进行划分，分别设为训练集、验证集、测试集，数据集文本的长度大部分集中在550～670个字符，平均长度为613个字符，最长的有958个字符，最短521个字符，具体分布情况如图2所示。

H_X＝BERT(X) (1)

H_A＝BERT(A) (2)

H_Y＝BERT(Y) (3)

其中

Step2.2、对于属性和标签的表示，本发明将每一个属性

标签

上式中

即为类别属性、要素标签的编码表示，

即为类别属性集合和标签集合的BERT编码后的最终结果。

通过公式(6)来对其中的文本表示向量卷积。

C_i＝f(W·X_i:i+h-1+b) (6)

如公式(7)所示。

C＝[C₁,C₂,...,C_n-h+1] (7)

h＝CNN_Pooling(H_X) (9)

的行向量分别与事实描述的特征表示向量

融合，融合过程如下：

h′＝αh+βh_a (10)

将所有属性与事实描述融合后的特征表示连接得到矩阵

h_oi＝∑α_aiY^ai (15)

其中

Step4.3、整个模型训练过程采用选用AdamW来作为优化器，隐藏层维度d＝768，支持的最大序列长度512个字符，批次大小batch-size设置为6，初始学习率为2e-5，学习率的调整采用固定步长减小。

为了说明本发明的效果，本发明与9个模型在同一数据集上进行了对比，其中包括基于词嵌入的神经网络模型和基于与训练语言模型的方法，实验结果如表1所示：

表1对比实验结果

表1中可以看出，本发明提出的方法在该数据集上无论是验证集还是测试集上的平均F1值都达到了最好，证明了本发明方法在民间借贷裁判文书要素识别上的有效性，尤其是在Macro-F1值上相较于其他模型提升的更多，在验证集和测试集上分别比基线模型BERT提高了0.036和0.0469，这说明本发明的方法在针对一些少样本的要素标签上能够比其他模型表现得更好。从整体上来看，除了BERT-LSTM以外，基于预训练语言模型编码的方法其效果要普遍好于其他的基线模型，这可能是因为民间借贷裁判文书中涉及大量金额、日期等，利用CNN来捕获局部特征，能够有效学习到这些数字信息，在裁判文书的处理上，CNN的效果要好于LSTM，因此本发明提出的方法使用CNN作为裁判文书事实描述的特征提取器是合理的。

在前四个基于词嵌入的模型实验中，我们预先对裁判文书进行了分词处理，这四个模型中DPCNN的效果是最好的，但与基于字符输入的BERT-CNN或是本发明的方法相比还是有所差距，这也说明了BERT强大的语义编码能力，足以减轻分词对文本上下文语义信息的影响。

为了验证本发明利用正则表达式提取出裁判文书中事实和理由进行实验这一设置的合理性，我们还将全文内容保留作为输入，并在部分基于词嵌入的模型上做了验证，实验结果与本发明模型在剔除首部内容的数据上的性能作了比较，结果如表2所示。

表2在全文上的实验结果

通过表1与表2的对比可以看出，在使用相同模型的情况下，裁判文书输入是否保留涉诉人员基本情况对识别的结果影响并不大，除了FastText模型以外，其余模型的提升不足1％，这种提升可能体现在对借款人属性和还款人属性识别上的，但本发明的方法相比这一提升甚至可以忽略，因此本发明只选取事实和理由部分作为输入一方面符合预训练语言模型的输入限制，另一方面利用裁判文书中尽可能少的信息达到了较好的要素识别效果。

表3消融实验结果

为了验证本发明提出的方法中每一模块设置的合理性，上表表3给出了在保留和移除不同模块后的实验结果。从表3中可以看出，在测试集上分别移除三个模块得到的结果彼此的F1值差距不大，但是在移除任一模块后与完整的模型所得的结果相比存在一定差距。实验结果中第一行表示在不对事实和理由编码表示进行属性信息、标签信息融合的情况下的识别性能，相较于本发明的完整模型性能下降了0.0198，第二行在移除BERT模块后测试集均值F1减少了0.0206，第三行移除特征提取模块后则降低了0.0127，从以上结果可以看出，每一模块在本发明提出的方法中存在的合理性。三个模块中融合标签和属性信息模块对整体识别性能的提升最大，在加入信息融合模块后但没有使用BERT模块或是特征提取模块的情况下仍得到了好于大部分基线模型的结果，这其中的提升很大程度在于分类器对融入标签信息的输出给予了不同的关注度，标签信息有效指导了分类器对每一属性下的要素识别，从而验证了本发明提出的融入标签信息的有效性。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.融入标签信息的案情要素识别方法，其特征在于：所述方法的具体步骤如下：

Step1、对数据集的标注要素数据进行预处理，通过构建的正则表达式提取出裁判文书中的事实和理由部分，同时对标注的标签进行重名替换，并按照比例划分数据集；

2.根据权利要求1所述的融入标签信息的案情要素识别方法，其特征在于：所述步骤Step1的具体步骤为：

Step1.2、对标签信息进行重名替换，将表述一致的标签进行修改，加上该标签对应的属性名字；

3.根据权利要求1所述的融入标签信息的案情要素识别方法，其特征在于：利用基于BERT和CNN构造的编码模块获得要素属性表示、要素标签表示、裁判文书的事实描述表示，所述步骤Step2的具体步骤如下：

Step2.1、利用民事裁判文书预训练的“民事BERT”同时对事实描述、要素类别属性、要素标签三部分文本进行编码，输入的文本经词表转化为对应的id表示，id表示经BERT编码后输出，其过程抽象为公式(1-3)所示；

H_X＝BERT(X) (1)

H_A＝BERT(A) (2)

H_Y＝BERT(Y) (3)

其中

Step2.2、对于属性和标签的表示，将每一个属性

标签

的字符向量a_ti、y_ti平均后得到该属性、标签的编码表示，ti表示第i个字符，la、ly分别表示某一属性、某一标签所含的字符个数，详细计算见公式(4-5)；

上式中

即为类别属性、要素标签的编码表示，

即为类别属性集合和标签集合的BERT编码后的最终结果；

Step2.3、利用CNN构成的特征提取网络来对事实描述序列进行特征提取，对于裁判文书经由BERT编码的输出

通过公式(6)来对其中的文本表示向量卷积；

C_i＝f(W·X_i:i+h-1+b) (6)

上式的含义是文本矩阵由n个词的向量表示x组成，一个与编码层维度长宽度为h的卷积核，自上而下地与卷积核窗口内的词做卷积，式子中的W为卷积核中的参数矩阵，b是一个偏置项，f为非线性函数，使用ReLU函数代替，得到特征c_i；在窗口大小为h的卷积作用下，得到的特征图

如公式(7)所示；

C＝[C₁,C₂,...,C_n-h+1] (7)

在池化层对特征图进行最大池化操作，如公式(8)所示；每一种长度为h的卷积，设置m个，则该种卷积核卷积得到的最终池化后的特征图为一个m维向量；将多种窗口大小不同的卷积核卷积得到的向量拼接后得到最终的特征向量，事实描述表示矩阵的整个特征提取的过程概括为公式(9)，其中特征向量

h＝CNN_Pooling(H_X) (9)。

4.根据权利要求1所述的融入标签信息的案情要素识别方法，其特征在于：所述Step3的具体步骤如下：

Step3.1、基于多标签文本分类的要素识别，通常直接利用文本编码表示识别要素标签，难以将标签完整识别出来，将类别属性的编码表示

的行向量分别与事实描述的特征表示向量

融合，融合过程如下：

(1)加权特征：将事实描述特征表示与类别属性表示对位相加，通过公式(10)对两者加权；

h′＝αh+βh_a (10)

上式表示两种表示在词向量维度d上以预先设置的权值α,β按比例进行相加；

(2)特征转化：将特征表示送入前馈神经网络，进一步融合，利用这种方式将稀疏的特征整合，通过网络参数学习来提升表示能力，其过程表示为公式(11)；

将所有属性与事实描述融合后的特征表示连接得到矩阵

(1)截取标签集：经BERT编码后的标签矩阵包含了所有标签的表示，根据属性对应的标签集长度从标签矩阵上截取出m个子集矩阵，属性a_i，其对应的标签集

(2)计算注意力得分：融合了属性信息的表示与该属性下的标签集分别计算注意力分数，注意力得分显性地展示了文本对不同交互对象的关注程度，基于软注意力机制通过计算融合属性的表示与各标签向量之间的点积来计算注意力分布，计算过程如公式(13-14)所示；

(3)加权标签信息：基于公式(14)得到的注意力分数对标签集加权，得到最终的整合向量，如公式(15)所示；

h_oi＝∑α_aiY^ai (15)

5.根据权利要求1所述的融入标签信息的案情要素识别方法，其特征在于：所述Step4的具体步骤如下：

Step4.1、对每一个类别属性下的标签单独预测，为每一个整合向量h_o基于全连接网络和softmax函数构建分类器，整合向量经全连接层映射为与标签集长度一致的向量，再经过sotfmax函数转化为对应的概率表示，整个过程如公式(16)所示；

其中

表示在某一属性下，整合向量h_o属于标签y的概率，l表示该属性对应的标签集所含标签的个数，W_s为全连接层用于标签映射的参数矩阵；

Step4.2、根据标签的概率分布和真实标签利用交叉熵来计算第i个属性的损失，计算公式为(17)；

则样本的(X_i,Y_i)的损失由所有属性的损失求和平均得到，如公式(18)所示，最终通过反向传播总的样本损失来对每一个分类器进行迭代优化；