CN113901781B

CN113901781B - 融合分段编码与仿射机制的相似案例匹配方法

Info

Publication number: CN113901781B
Application number: CN202111078502.2A
Authority: CN
Inventors: 赖华; 张恒滔; 线岩团; 余正涛; 相艳
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2024-04-26
Anticipated expiration: 2041-09-15
Also published as: CN113901781A

Abstract

本发明涉及融合分段编码与仿射机制的相似案例匹配方法，属于自然语言处理领域。本发明包括：预处理CAIL2019‑SCM的关于民间借贷的裁判文书文本数据集；使用分词后的三元组裁判文书作为输入；之后利用自注意力机制来对嵌入的文本矩阵进行加权表示；将对上下文感知的文本表示利用CNN进行分段编码；随后将编码后的输出经过基于仿射变换设计的打分器来获得候选文书的相似性得分；最后根据相似性得分计算匹配概率。实验结果表明，该模型在CAIL2019‑SCM数据集上有更高的准确性，比SOTA模型LFESM提升了1.89％。

Description

融合分段编码与仿射机制的相似案例匹配方法

技术领域

本发明涉及融合分段编码与仿射机制的相似案例匹配方法，属于自然语言处理领域。

背景技术

相似案例匹配作为类案检索的重要环节，从海量裁判文书中找到与审判案件最为相似的案件成为了关键，对于给定的裁判文书，我们希望能够从候选裁判文书中找到与此情节最为相近的案件。随着数字化信息的发展，越来越多的裁判文书被以电子文本的形式储存，通过人工检索的方式费时费力，借助机器实现裁判文书的自动匹配能够降低时间和人力成本，加快法院审判进程。相似案例匹配是文本匹配在司法领域的运用，文本匹配在自然语言处理(Natural Language Processing)中诸多任务上得到了很好的应用，例如在信息检索、对话与问答、搜索引擎、推荐系统中等，这些任务从某种程度上来说都可以看作是文本的匹配任务，通常以文本相似度计算、文本相关度对比等形式呈现，相似案例匹配中的核心技术也是文本匹配。因此本发明采用民间借贷裁判文书为研究重点，故相似案例匹配任务旨在判断两篇裁判文书所描述的案件是否相似，通常被看作裁判文书的文本匹配问题。

发明内容

本发明提供了融合分段编码与仿射机制的相似案例匹配方法，以用于解决裁判文书篇幅较长、格式固定、彼此之间相似度很高，而且蕴含着丰富的语义信息，现有的深度学习模型大多将长文本表示为某一特征向量来匹配，难以学习到裁判文书之间的差异性的问题。

发明技术方案：融合分段编码与仿射机制的相似案例匹配方法，所述方法的具体步骤如下：

Step1、对CAIL2019-SCM数据集中的所有裁判文书进行预处理，利用结巴分词工具对裁判文书分词，对分词后的结果去除停用词和空字符，将处理后的裁判文书中的词转化为对应索引；

Step2、通过词嵌入获得裁判文书的嵌入表示，将文本的嵌入当作分段编码层的输入，对三篇裁判文书分别利用自注意力机制获得各自的加权表示，将加权后的表示矩阵根据自身的长度(包含的词个数)和预先设置的阈值切分成5段，对每一段利用单独的CNN来进行编码，最终获得3篇裁判文书各自的特征矩阵；

Step3、将获得的特征矩阵送入仿射打分器进行交互并获得两个相似性得分，根据相似性得分来计算最终的输出概率，即对应标签的概率。

所述Step1的具体步骤为：

Step1.1、对每一篇裁判文书，利用正则表达式来提取裁判文书中的姓名、行政地名、公司名称、法人等实体信息，将这些实体加入结巴分词的用户词典中后对裁判文书进行分词，将分词后的结果进行清理，包括停用词去除、空字符去除；

Step1.2、根据分词的结果构造词典，为每一个词设置唯一的ID，通过查询的方式获得每一个词的索引值，将裁判文书转化为数值表示。

作为本发明的优选方案，所述Step2的具体步骤如下：

Step2.1、通过预训练的300维的词向量获得裁判文书的嵌入表示，具体地对于长度为q的裁判文书a＝{a₁,a₂,...,a_q}，利用预训练的词向量来得到每一个词a_i的固定d维的向量表示，整个文档a就可以表示为一个矩阵A∈R^q×d，同样的裁判文书B∈R^n×d和裁判文书C∈R^m×d；

Step2.2、在获得每一篇裁判文书的表示矩阵之后，使用自注意力机制来对文档中的每一个词进行加权表示，具体而言对于裁判文书a首先将其词嵌入矩阵A通过三次不同的线性变换转换为三个维度同样为d的矩阵Q(Query)、K(Key)和V(Value)，将三个矩阵利用公式(1)进行计算得到新的矩阵表示，经过Self-Attention后文档中的每一个词的向量表示都是对文档其余所有词感知的一个向量。

其中Q,K,V∈R^q×d，d表示经过线性变换后词向量的维度，除以用于避免Q与K的内积过大，对裁判文书b、c采用同样方式获得新的表示。

Step2.3、本发明分段编码层的输入是来自于Step2.2的文本嵌入矩阵M＝{v₁,v₂,...,v_l}，其中v_i表示第i个词的向量，A＝{v_a1,v_a2,...,v_aq}、B＝{v_b1,v_b2,...,v_bn}、C＝{v_c1,v_c2,...,v_cm}即为三篇裁判文书的嵌入矩阵，首先利用公式(2)～(7)对文本矩阵进行编码：

p＝len(A)/5,margin (2)

m₁＝Encoder₁(M₁),M₁＝M[v₁:v_p] (3)

m₂＝Encoder₂(M₂),M₂＝M[v_p-margin:v_2p+margin] (4)

m₃＝Encoder₃(M₃),M₃＝M[v_2p-margin:v_3p+margin] (5)

m₄＝Encoder₄(M₄),M₄＝M[v_3p-margin:v_4p+margin] (6)

m₅＝Encoder₅(M₅),M₅＝M[v_4p-margin:v_l] (7)

公式(2)～(7)的含义是，给定文本的嵌入矩阵M，将文本矩阵分成5段，首先由公式(2)计算每一段的基本长度p，再定义一个阈值margin用来控制段与段之间重合的词的个数，这样根据p和margin从原始矩阵M上截取到不同长度的五个矩阵M_i，对于每一部分分别将其通过五个编码器编码成固定的向量m_i，本发明使用CNN作为编码器，与图像上的编码方式不同，对于矩阵M_i∈R^l×d，l′为矩阵M_i中包含的词的个数，使用t个宽度分别为h₁、h₂、h₃、h₄，长度与词向量维度一样为d的卷积核以步长为1对此嵌入矩阵进行卷积操作，对于某一个宽度h的卷积核而言卷积操作具体如公式(8)所示。

c_i＝f(ω·x_i:i+h-1+b),(i＝1,2,...,l′-h+1) (8)

其中x_i:i+h-1表示输入矩阵第i个词到第i+h-1个词向量所组成的一个大小为h×d的窗口，ω为一个大小为h×d的权重矩阵，b是一个偏置，f是一个非线性函数，卷积核通过自上而下移动对矩阵进行卷积得到l′-h+1个特征c。在卷积之后将这些特征拼接后得到最后的特征图C＝[c₁,c₂,...,c_l′-h+1]，再对特征图进行最大池化操作得到最后的特征c′，由于卷积核使用了4种不同的宽度，每种宽度有t个，最终得到的编码后的特征向量m_i的维度为1×4t。将这5个固定的编码向量m_i进行拼接后得到一个编码后的特征矩阵M′∈R^5×4t，三篇裁判文书的特征矩阵分别为D_A、D_B、D_C。

作为本发明的优选方案，所述步骤Step3的具体步骤如下：

Step3.1、将Step2.3获得的表示矩阵D_A、D_B、D_C，利用公式(9)、(10)来计算文本B和C相较于A的相似得分，其中Score_ab∈R^5×5、Score_ac∈R^5×5是两个得分矩阵，矩阵中的每一行分数代表A的第i部分对候选文书的每一部分的打分。

本发明将上式称为仿射变换的原因是，相较于传统的仿射分类器S_i＝Wx_i+b，本发明利用了一个变换矩阵U¹∈R^k×k，对查询文书A进行线性变换后来代替权重矩阵W，其中k为分段编码层的输出维度，而对于偏置b本发明也使用了一个变换矩阵U²∈R^k×5来对A进行线性变换后代替，这样在保留了分类器中一定可学习参数的同时与查询文书产生了更多的交互。

Step3.2、将Step3.1得到的得分矩阵中所有分数相加作为候选文书B和C的最后得分Score_b、Score_c，对于打分器输出的分数矩阵Score_ab、Score_ac，将得分为负的部分(不相似的部分)通过ReLU函数将其置为0，最后将每一个维度相似得分进行相加，具体如公式(11)、(12)所示。

在计算得到总分数后，通过公式(13)来计算概率p_i,p_i∈(0,1)来作为预测结果输出，其中Score_b＞0、Score_c＞0，当候选文档B相似得分越高p_i越大，相反候选文档C得分越高p_i越小。本发明使用交叉熵来作为损失函数，如公式(14)所示。

Step3.3、整个过程采用端到端的方式来完成训练，选用AdamW来作为优化器，训练批次大小设置为16，初始学习率为0.0001，学习率的调整采用固定步长减小。

本发明的有益效果是：

(1)本发明的融合分段编码与仿射机制的相似案例匹配方法，利用分段处理篇章级文本的编码方法，实现对裁判文书进行更细粒度的拆分，解决了裁判文书文本较长，篇章级的编码方式难以获取文本中丰富的语义信息问题。

(2)本发明的融合分段编码与仿射机制的相似案例匹配方法，利用一种基于仿射变换设计的打分机制，对候选文档进行交互和相似性得分计算，解决了裁判文书格式固定、彼此之间相似度很高，现有的深度学习模型难以学习到裁判文书之间的细微差异的问题。

(3)本发明的融合分段编码与仿射机制的相似案例匹配方法，在CAIL2019-SCM数据集上，比现有的最好模型在匹配的准确率上提升了1.89％。

附图说明

图1是本发明提出的融合分段编码与仿射机制的相似案例匹配方法的模型结构示意图；

图2是本发明分段数目对性能的影响示意图。

具体实施方式

实施例1：如图1-图2所示，融合分段编码与仿射机制的相似案例匹配方法，所述方法的具体步骤如下：

Step1.1、对每一篇裁判文书，利用正则表达式来提取裁判文书中的姓名、行政地名、公司名称、法人等实体信息，将这些实体加入结巴分词的用户词典中后对裁判文书进行分词，将分词后的结果进行清理，包括停用词去除、空字符去除，处理后的数据集统计如表1所示：

表1CAIL2019-SCM数据集统计

专业的法律从业者根据一些特定的要素对所有案件进行标注，从表1的统计结果可以看到数据的标签基本是平衡的。

Step2、通过词嵌入获得裁判文书的嵌入表示，将文本的嵌入表示当作分段编码层的输入，对若干篇裁判文书分别利用自注意力机制获得各自的加权表示，将加权后的表示矩阵根据自身的长度和预先设置的阈值切分成若干段，对每一段利用单独的CNN来进行编码，最终获得若干篇裁判文书各自的特征矩阵；

p＝len(A)/5,margin (2)

m₁＝Encoder₁(M₁),M₁＝M[v₁:v_p] (3)

m₂＝Encoder₂(M₂),M₂＝M[v_p-margin:v_2p+margin] (4)

m₃＝Encoder₃(M₃),M₃＝M[v_2p-margin:v_3p+margin] (5)

m₄＝Encoder₄(M₄),M₄＝M[v_3p-margin:v_4p+margin] (6)

m₅＝Encoder₅(M₅),M₅＝M[v_4p-margin:v_l] (7)

c_i＝f(ω·x_i:i+h-1+b),(i＝1,2,...,l′-h+1) (8)

其中x_i:i+h-1表示输入矩阵第i个词到第i+h-1个词向量所组成的一个大小为h×d的窗口，ω为一个大小为h×d的权重矩阵，b是一个偏置，f是一个非线性函数，卷积核通过自上而下移动对矩阵进行卷积得到l′-h+1个特征c。在卷积之后将这些特征拼接后得到最后的特征图C＝[c₁,c₂,...,c_l′-h+1]，再对特征图进行最大池化操作得到最后的特征c′，由于卷积核使用了4种不同的宽度，每种宽度有t个，最终得到的编码后的特征向量m_i的维度为1×4t。将这5个固定的编码向量m_i进行拼接后得到一个编码后的特征矩阵M′∈R^5×4t，三篇裁判文书的特征矩阵分别为D_A、D_B、D_C。编码过程涉及的超参设置如表2所示：

表2参数设置

为了说明本发明的效果，本发明与七个模型进行了比较：CAIL2019-SCM数据集官方提供的三个基线模型、在短文本匹配上表现优越的ESIM模型、专门为长文本设计的一个文档级预训练模型ERNIE-DOC、以及AlphaCourt团队提出的模型、和LFESM，实验采用准确率作为评价指标，实验结果如表3所示：

表3CAIL2019-SCM数据集不同方法准确率对比

从表3中可以看出，本发明的模型在验证集上和测试集的表现是要好于三个官方提供的基准模型和ESIM的，在测试集上的准确率比最好的基准模型高了6.51％，相对于ERNIE-DOC本发明的方法在测试集上的准确率提高了7.24％，其中的原因可能在于，一是这些基于孪生网络设计的基准模型都是通过将文本序列编码成某一固定的向量，然后通过这一特征向量来实现匹配，这种方式会导致原本就很相似的民间借贷裁判文书在固定的特征向量上体现不出差异性，导致模型难以学习到文本之间细微的差异；二是以字符或词为单位的编码方式使得文本上下文语义信息丢失，而ERNIE-DOC对整篇文本编码又使得裁判文书中丰富的语义信息丢失。虽然与AlphaCourt的模型和LFESM相比在验证集上表现不佳，但是本发明的模型在测试集上的准确率是要比两者更高的，分别提升了3.38％和1.89％，这或许是因为AlphaCourt的模型和LFESM融合了能够体现案件之间差异的一些案件要素特征，导致了模型的泛化能力受到了限制，从表中的结果可以看出，它们从验证集到测试集的提升甚至低于部分基准模型。

同时，为了验证本发明提出的分段编码与仿射打分器在民间借贷相似案例匹配上的有效性，本发明设置了4组实验来说明，实验结果如表4所示：

表4各模块有效性准确率对比

第一组将输入层的自注意力机制移除后直接将嵌入的文本送入分段编码层，通过分段编码和仿射打分器完成匹配，从结果可以看出在移除自注意力机制后本发明的模型在测试集上的准确率下降了2.35％；第二组保留了自注意力机制，但是在分段编码层编码时没有进行分段编码，而是直接利用CNN对每一个词编码后通过仿射打分器打分完成匹配，可以看出性能有了明显的下降，这说明分段编码在裁判文书匹配上的有效性；第三组保留了输入层和分段编码层的模块，但是不再使用仿射打分器打分，而是将分段编码层的输出经过池化后拼接，通过多层感知机预测匹配结果，可以看到在没有使用仿射打分器情况下，测试集表现下降了4.17％；最后一组不移除任何模块，但是在分段编码时没有再单独为每一段设置编码器，而是共用一个编码器，可以看出准确率下降了5.47％，说明本发明模型在分段编码层编码部分为每一段输入设计单独的编码器，从不同的文本中提取到了不同的特征，这种多角度编码的方式在CAIL2019-SCM上是有效的。

为了探索分段编码层超参数分段数目对实验结果的影响，本发明设置了一组实验来验证，图2展示了在分段编码层，将文本分为3,4,5,6段的实验结果。

如图2所示，可以看出将文本分为5段时候取得的效果是最好的，本发明认为这是与裁判文书的结构有关的，第一段可以把它看作对应裁判文书第一部分诉讼人员的情况、第二段看作对应第二部分诉讼请求，由于第三部分事实描述的长度是最长的，所以将这一部分拆分成三段，这种拆分方式与人类在进行长文本理解时的直觉是一致的，实验结果表明这种分段参数设置是合理的。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.融合分段编码与仿射机制的相似案例匹配方法，其特征在于：

所述方法的具体步骤如下：

Step1、对裁判文书进行预处理，利用结巴分词工具对裁判文书分词，对分词后的结果去除停用词和空字符，将处理后的裁判文书中的词转化为对应索引；

Step3、将获得的特征矩阵送入仿射打分器进行交互并获得两个相似性得分，根据相似性得分来计算最终的输出概率，即对应标签的概率；

所述Step2的具体步骤如下：

Step2.1、通过预训练的300维的词向量获得裁判文书的嵌入表示，具体地对于长度为q的裁判文书a＝{a₁,a₂,...,a_q}，利用预训练的词向量来得到每一个词a_i的固定d维的向量表示，整个文档a就表示为一个矩阵A∈R^q×d，同样的裁判文书B∈R^n×d和裁判文书C∈R^m×d；

Step2.2、在获得每一篇裁判文书的表示矩阵之后，使用自注意力机制来对文档中的每一个词进行加权表示，具体而言对于裁判文书a首先将其文本嵌入矩阵M通过三次不同的线性变换转换为三个维度同样为d的矩阵Q(Query)、K(Key)和V(Value)，将三个矩阵利用公式(1)进行计算得到新的矩阵表示，经过Self-Attention后文档中的每一个词的向量表示都是对文档其余所有词感知的一个向量；

其中Q,K,V∈R^q×d，d表示经过线性变换后词向量的维度，除以用于避免Q与K的内积过大，对裁判文书b、c采用同样方式获得新的表示；

Step2.3、分段编码层的输入是来自于Step2.2的文本嵌入矩阵M＝{v₁,v₂,...,v_l}，其中v_i表示第i个词的向量，

A＝{v_a1,v_a2,...,v_aq}、B＝{v_b1,v_b2,...,v_bn}、C＝{v_c1,v_c2,...,v_cm}即为三篇裁判文书的嵌入矩阵，首先利用公式(2)～(7)对文本矩阵进行编码：

p＝len(A)/5,margin (2)

m₁＝Encoder₁(M₁),M₁＝M[v₁:v_p] (3)

m₂＝Encoder₂(M₂),M₂＝M[v_p-margin:v_2p+margin] (4)

m₃＝Encoder₃(M₃),M₃＝M[v_2p-margin:v_3p+margin] (5)

m₄＝Encoder₄(M₄),M₄＝M[v_3p-margin:v_4p+margin] (6)

m₅＝Encoder₅(M₅),M₅＝M[v_4p-margin:v_l] (7)

公式(2)～(7)的含义是，给定文本的嵌入矩阵M，将文本矩阵分成5段，首先由公式(2)计算每一段的基本长度p，再定义一个阈值margin用来控制段与段之间重合的词的个数，这样根据p和margin从原始嵌入矩阵M上截取到不同长度的五个矩阵M_i，对于每一部分分别将其通过五个编码器编码成固定的向量m_i，使用CNN作为编码器，与图像上的编码方式不同，对于矩阵M_i∈R^l×d，l′为矩阵M_i中包含的词的个数，使用t个宽度分别为h₁、h₂、h₃、h₄，长度与词向量维度一样为d的卷积核以步长为1对此嵌入矩阵进行卷积操作，对于某一个宽度h的卷积核而言卷积操作具体如公式(8)所示；

c_i＝f(ω·x_i:i+h-1+b),(i＝1,2,...,l′-h+1) (8)

其中x_i:i+h-1表示输入矩阵第i个词到第i+h-1个词向量所组成的一个大小为h×d的窗口，ω为一个大小为h×d的权重矩阵，b是一个偏置，f是一个非线性函数，卷积核通过自上而下移动对矩阵进行卷积得到l′-h+1个特征c；在卷积之后将这些特征拼接后得到最后的特征图C＝[c₁,c₂,...,c_l′-h+1]，再对特征图进行最大池化操作得到最后的特征c′，由于卷积核使用了4种不同的宽度，每种宽度有t个，最终得到的编码后的特征向量m_i的维度为1×4t；将这5个固定的编码向量m_i进行拼接后得到一个编码后的特征矩阵M′∈R^5×4t，三篇裁判文书的特征矩阵分别为D_A、D_B、D_C；

所述Step3的具体步骤如下：

Step3.1、将获得的特征矩阵D_A、D_B、D_C，利用公式(9)、(10)来计算文本B和C相较于文本A的相似得分，其中Score_ab∈R^5×5、Score_ac∈R^5×5是两个得分矩阵，矩阵中的每一行分数代表A的第i部分对候选文书的每一部分的打分；

将上式称为仿射变换，利用了一个变换矩阵U¹∈R^k×k，对查询文书A进行线性变换后来代替权重矩阵W，其中k为分段编码层的输出维度，而对于偏置b使用了一个变换矩阵U²∈R^k ^×5来对A进行线性变换后代替，这样在保留了分类器中一定可学习参数的同时与查询文书产生了更多的交互；

Step3.2、将Step3.1得到的得分矩阵中所有分数相加作为候选文书B和C的最后得分Score_b、Score_c，对于打分器输出的分数矩阵Score_ab、Score_ac，将得分为负的部分通过ReLU函数将其置为0，最后将每一个维度相似得分进行相加，具体如公式(11)、(12)所示；

在计算得到总分数后，通过公式(13)来计算概率p_i,p_i∈(0,1)来作为预测结果输出，其中Score_b>0、Score_c>0，当候选文档B相似得分越高p_i越大，相反候选文档C得分越高p_i越小；整个过程采用端到端的方式来完成训练，使用交叉熵来作为损失函数。

2.根据权利要求1所述的融合分段编码与仿射机制的相似案例匹配方法，其特征在于：所述Step1的具体步骤为：

Step1.1、对每一篇裁判文书，利用正则表达式来提取裁判文书中的实体信息，将这些实体加入结巴分词的用户词典中后对裁判文书进行分词，将分词后的结果进行清理，包括停用词去除、空字符去除；