CN110442684A

CN110442684A - 一种基于文本内容的类案推荐方法

Info

Publication number: CN110442684A
Application number: CN201910748469.6A
Authority: CN
Inventors: 李玉军; 韩均雷; 王泽强; 马宝森; 张文真; 邓媛洁
Original assignee: Shandong University
Current assignee: Shandong University; Hisense Group Holding Co Ltd
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2019-11-12
Anticipated expiration: 2039-08-14
Also published as: CN110442684B

Abstract

本发明涉及一种基于文本内容的类案推荐方法，该方法分为预训练部分和微调部分，预训练部分采用transformer编码器作为主结构，训练了一个中文语言模型，从其他语料库中学习中文语言知识，获得了一个高质量的语言模型。微调部分三元组模型为框架，以预处理过的司法文书为训练数据，从司法领域中学习到更多的关于判决的知识，获得了一个比较好的文本向量表示。与传统基于关键字的类案推荐方法和基于单任务神经网络的类案推荐方法相比，本发明提出的基于内容的类案推荐方法效果更好，基于语义训练模型具有更好的鲁棒性，这表明本发明提出的方法是有效的、实用的。

Description

一种基于文本内容的类案推荐方法

技术领域

本发明涉及一种基于文本内容的类案推荐方法，属于司法与自然语言处理技术交叉技术领域。

背景技术

法律与人工智能的结合在一定程度上节省了人力，其中类案推荐是该领域内的一个重要课题，其目标是根据给定的犯罪事实描述，推荐若干篇与之相似的文书。其目的是为了给司法人员提供以往相似案例，以便于司法人员更加快速准确的确定该案件所犯罪名以及所依据的法条，还可以提供以往案例判决结果以供司法人员参考。近年来，国内外涌现出了很多关于人工智能与司法领域结合的成果，极大地提高了司法人员的办案效率。

随着人工智能技术以及相关检索技术的发展，利用人工智能与自然语言处理技术对司法裁判文书处理、分析、应用已经成为司法相关领域的热点。通过基于内容的类案推荐方法，可利用犯罪事实描述，针对现有的大规模裁判文书中包含的犯罪信息，进行高效准确的相关类案推荐，同时涉及到的中间结果可应用于其他方面，如预训练了一个中文语言模型，可通用于其他中文自然语言处理任务。基于类案推荐方法，可以给司法相关人员提供历史相似案件，为司法工作提供高效、有效的参考。

基于传统人工智能的类案推荐方法虽然在一定程度上实现了类案智能推荐。但是，传统人工智能方法根据犯罪事实描述利用远程标签进行模型训练，只利用了标签中含有的信息，而忽略了除了标签以外的其他信息，如犯罪情节信息。另外，由于长文本的信息处理本身就比较困难，长距离依赖问题没有被针对解决。所以，导致了模型效果一般，推荐的内容参差不齐，无法应用于实际工作。

因此，如何较好的处理长文本的长距离依赖问题，以及如何更好的更全面的提取出犯罪事实描述中所包含的信息，是现在要解决的重要问题。

发明内容

针对现有技术不足，本发明提供了一种基于文本内容的类案推荐方法，输入待匹配的案例描述，从数据库中推荐出若干与待匹配案例相似的以往案例；

本发明使用类似于LSTM的transformer编码器，提取语义信息，来提高类案推荐的效果。

术语解释：

1、双向transformer：一种类似于双向LSTM的序列编码器，能够更好的感知上下文信息，其原理是，位置i上的词语表示上下文所有的单词都相关，这意味着每个单词都是整句话或者整个文本的综合表示的结果，每个单词经过计算以后，原来的信息在新的表达中所占的比重，与其本身在整个文本当中所占的比重成正相关。

2、词映射：是指将每个单词经过一个与单词库一样大小的词向量映射表以后，将每个数字表示的单词转换为向量表示。

3、损失：是指模型预测出来的数值与标准数字经过某种函数计算出来的差异，一般的，我们希望这个差异越小越好，即预测值越接近标准值越好。

4、反向传播更新参数：是指根据损失，模型自动调整参数的过程。如预测值比标准值大，网络就会减小权重，预测值比标准值小，网络就会增大权重。

5、自适应梯度下降优化策略，自适应是指学习率会根据模型学习情况自我调整大小，始终保持在一个合适的数值，梯度下降指的是参数会沿着与梯度相反的方向更新。

6、模型参数矩阵，是指模型内的权重以矩阵的形式存储，权重又叫做模型参数，所以称之为参数矩阵。

本发明的技术方案为：

一种基于内容的类案推荐方法，包括步骤如下：

(1)将非结构化数据构造成结构化数据：

利用规则匹配的方式抽取犯罪事实描述，犯罪嫌疑人基本信息等所需信息，实现数据结构化，构造成结构化数据集；所需信息包括犯罪事实描述与嫌疑人基本信息数据，嫌疑人基本信息数据包括年龄、性别、捕前职业信息；

将结构化数据集不重叠的划分为训练数据集和测试数据集，训练数据集和测试数据集的比例为7∶3，即训练数据集占结构化数据集的70％，测试数据集占结构化数据集的30％；

(2)模型预训练：

所述模型包括依次连接的词映射层、双向transformer层、向量压缩层、损失层、反向传播更新参数层，包括：

A、所述词映射层将输入的犯罪事实描述的每个词映射成固定维度的向量，每个词都有一个单独的向量表示；这种向量可以直接被模型所计算；例如，[x1，x2，x3…xn]代表一个词，其中每个x代表一个数字，整体是一个向量；

B、将所述词映射层的输出输入所述双向transformer层，其原理是每个词的表达式都与其他词的表达式有关，即每个词的最终表示都由其他词共同决定；所述双向transformer将输入经过计算以更好的表达文本语义信息，输出的形式与输入一样；

C、将所述双向transformer层输出的特征向量输入所述向量压缩层，将所述双向transformer层输出的特征向量压缩成一维向量，该一维向量即为一个句子的语义表示；

D、将所述向量压缩层的输出输入所述损失层，该一维向量经过两层全连接神经网络转化为长度和数据标签一样形式的数据，计算输出与数据标签的误差；如数据标签是形如[0，0，0，0，1，0，0，0，0，…，0，0]，其中只有一个1，代表该条数据的标签，则输入向量转化后的形式为[0.01，0.001，0.0，0.0，0.8，…，0.0，0.0]，长度和标签一样，计算两个向量之间对应位置数字的误差，累计所有位置的误差；

E、所述反向传播更新参数层采用自适应梯度下降优化策略更新所述模型的参数；自适应是指模型的学习率是自我调整的，比如设定初始学习率是0.01，如果之前的学习的步长过长，那么模型就会减小学习率的值，如果之前学习的步长过短，那么模型就会增大学习率的值(一般情况下是逐步减小的)，步长是在模型训练过程中每次迭代所要更新的数值大小；

(3)微调阶段：

将步骤(2)模型预训练完成得到的模型保存，丢弃所述损失层；所述反向传播更新参数层是训练过程中的产物，无需主动丢弃。

重新设计下游模型，下游模型是指除了向量压缩层及其之前的层之外的结构，也就是向量压缩层之后的结构总称为下游模型，即添加合页误差计算层，将合页误差计算层添加在所述向量压缩层之后，以向量压缩层的输出为输入，输出为与数据标签的误差，所述合页误差计算层，采用合页损失函数计算合页误差，合页误差对于能够正确分类的样本不产生误差，对于未能正确分类的样本产生较大误差；下游模型采用三元组方式调整模型，三元组代表着使用基于对比的方式训练模型，每个输入是一个三元组，包括目标案例(指要推荐的待匹配案例)、相似案例1(指要排序输出的案例，即数据库里待推荐的案例)、相似案例2；目标案例、相似案例1、相似案例2都是一段犯罪事实描述，包括：

若目标案例与相似案例1的相似度大于等于目标案例与相似案例2的相似度，则定义这种情况的标签为1；若目标案例与相似案例1的相似度小于目标案例与相似案例2的相似度，则定义这种情况的标签为0；基于这种三元组的方式，我们把计算相似的回归问题转换为了二分类问题；

采用三元组的目的有三个：第一，把任务从回归任务转换为了分类任务，实际操作性更大；第二，对于没有直接标签的任务来说，转换任务方式使得标签的获取变得容易了许多；第三，将标签定为0和1，使得模型的训练更加容易，反向传播的时候梯度不容易消失。

三元组具有合理性，假如目标案例与相似案例1更接近，那模型会试着将目标案例和相似案例1的向量表示变得调整的更加接近，也会试着将目标案例和相似案例2的向量表示调整的更加疏远；相反，假如目标案例与相似案例2更接近，那模型会试着将目标案例和相似案例2向量表示变得调整的更加接近，也会试着将目标案例和相似案例1向量表示调整的更加疏远，这样一来，在模型的不断调整中，真正相似的案例之间的距离就会被不断减小，不相似的案例之间的距离会被不断加大，最终，每个案例与其他的案例之间的距离就可以表示他们之间的相似度。至此，说明了三元组的合理性。

(4)测试阶段：

将步骤(3)微调阶段训练完成的模型保存，丢弃所述合页误差计算层，丢弃所述下游模型；所述向量压缩层的输出为最终输出向量，该向量为样本最终表示向量；

加载步骤(3)中保存的模型，对测试数据集进行采样，获得测试所用数据，将测试所用数据输入模型，依次进行分词、词向量映射、神经网络前向传播计算，输出样本最终表示向量；神经网络前向传播计算是指从词向量映射层，到双向transformer层，再到向量压缩层，最终输出为一个一维的向量。

根据本发明优选的，所述步骤(2)中，对于所述向量压缩层的基础结构是self-attention结构，如式(I)、(II)所示：

A＝Attention(Q，K，V)＝sigmoid(Q^TKV^T) (I)

R＝Reduce(A，aixs＝-2) (II)

式(I)表示attention结构，Q、K、V是所述双向transformer层的输出，即所述向量压缩层的输入，Q，K，V三者是query，key，value的简写，分别是指请求矩阵、关键值矩阵、目标矩阵，在本发明中，三者皆为同一个矩阵；若Q、K、V三者为同一个输入的话，称之为self-attention，A代表self-attention结构的结果，为输入矩阵(输入为一个二维矩阵，每一列表示一个单词)中每个列向量(也就是单词向量)对于其他所有列向量的关注度矩阵；sigmoid是指激活函数；

公式(II)表示将获取到的关注度矩阵进行压缩，压缩方式为每一列对应位置的元素相加，其输出结果为一个一维向量，这个向量代表输入矩阵的最终压缩向量；R代表所述向量压缩层的输出，为一维向量；reduce代表将一个矩阵在第二个维度上压缩为一个一维向量；aixs代表矩阵中的轴方向。比如一个三维矩阵，有三个轴方向，aixs＝-2代表从后面数第二个轴方向，也即在第二个轴方向上操作矩阵。

根据本发明优选的，所述步骤(2)中，所述双向transformer层，如公式(III)、(IV)、(V)所示：

h_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V) (IV)

Transformer(Q，K，V)＝Concat(h_1，...，h_n)W^o (V)

式(III)为attention公式的变体，其作用为将输入进行编码；softmax是概率化操作，其操作方式为根据每个值的大小来表示该值的概率，把所有值都限制在0-1之间，原来的值越大，概率化后的概率就越大；d_k代表矩阵中向量的长度；

式(IV)为式(III)的具体实施，h_i代表执行一次式(III)所得的结果；

式(V)代表将式(IV)操作重复N遍(每次的参数矩阵都不相同)然后将得到的N个矩阵在最后一个维度上拼接在一起；Transformer(Q，K，V)为所述双向transformer层的最终输出；Concat()代表拼接操作，默认在矩阵的最后一个维度上操作；h_1，...，h_n代表操作了N次式(III)所得到的结果。

在本模型中，Q、K、V都是同一个输入，也叫做self-transformer，式中其他参数都是待训练矩阵。

根据本发明优选的，所述步骤(3)中，对于合页误差计算层，采用合页损失函数计算合页误差，合页损失函数的计算公式如公式(VI)所示：

式(VI)中，loss是指合页误差，N是指测试数据集样本个数，y_i是指第i个样本的标签(0或者1)，w是指模型参数矩阵，b是指偏置，+是指取大于零的值，小于等于零的值则置零；μ‖w‖²是指正则化，μ指超参数权重，取值范围是0-1。

进一步优选的，正则化选择L2正则化，通过减小参数的平方和，使参数矩阵中的参数都围绕在零附近，所产生的波动较小，使模型减少过拟合，其计算公式如公式(VII)所示：

式(VII)中，μ‖w‖²指正则化结果，M代表参数的数量，w_i代表第i个参数，μ取值为0.01。

根据本发明优选的，所述步骤(3)中，目标案例与相似案例1的相似度、目标案例与相似案例2的相似度的采用余弦距离表示，计算公式如式(VIII)所示：

式(VIII)中，C(X₁，X₂)是指两个向量之间的距离，向量之间的距离就是指两个向量的相似度，m代表向量里面元素的个数，是指向量X₁的第i个元素；是指X₂的第i个元素。

根据本发明优选的，所述步骤(4)，测试阶段，将待推荐的裁判文书与给定的裁判文书分别经过步骤(3)中微调保存的模型计算，输出待推荐的裁判文书的文本表示向量与给定裁判文书的文本表示向量，计算待推荐的裁判文书的文本表示向量与给定裁判文书的文本表示向量之间的距离，即相似度，根据该距离数值大小从大到小进行推荐，评估模型性能。

根据本发明优选的，在所述步骤(4)中，预先在数据库中筛选待推荐的裁判文书，是指：根据给定文书的各项属性，包括个人信息，有无前科，是否属于暴力型犯罪，预先在数据库中筛选出小部分待推荐的文本，具体方法是：在数据库中根据属性不同将所有文书分成M个部分，每部分根据该部分所有向量计算中心点向量，然后将目标文书的向量与所有M个中心点向量做相似度计算，挑选出相似度最大的中心点向量所代表的部分，再将目标文书的向量与相似度最大的中心点向量所代表的部分的所有向量做相似度计算，排序输出。计算待推荐的裁判文书的文本表示向量与给定裁判文书的文本表示向量之间的距离，大大减少了计算量。

根据本发明所优选的，所述步骤(1)中，

对嫌疑人基本信息数据实现数据结构化，是指：

对每一个犯罪嫌疑人的年龄，进行归一化处理，所有年龄都被压缩为0-1之间的数字；

对每一个犯罪嫌疑人的性别，以布尔值进行表示；

对于捕前职业信息，按照《中华人民共和国职业分类大典》，进行分类，转换成索引表示之后进行归一化处理，所有索引都被压缩为0-1之间的数字；

对犯罪事实描述实现数据结构化，是指：将犯罪事实描述依次进行分词处理、统计词频、建立词典、索引转换；

所述分词处理，是指将连续的文本信息按照常用词分开，变成离散的列表；

所述统计词频，是指统计所有文本中不重复的词各自出现的次数，生成一个映射列表，索引是每个不重复出现的词，值是该词在所有文本中出现的次数；

所述建立词典，是指将所述统计词频中生成的映射列表去除低频词汇，将所有低频词汇转换成统一的字符表示，将高频词汇每个词汇都赋予一个唯一的索引值，重新生成一个映射列表，该映射列表的值索引是筛选过后的词，对应的值是该词唯一的索引；

所述索引转换，是指根据词典将文书中的每个词转换为索引。

本发明的有益效果为：

1、本发明采用两段式训练模型的方式，第一段预训练可以使模型全面的表达语义，第二阶段的微调模型可以使模型针对任务作出调整，更加适合特定领域的任务(如本发明的类案推荐任务)，使文本更加准确的表达语义。

2、与最大池化压缩向量的方式相比，最大池化方式会把不重要的信息直接删除掉，导致丢失很多信息，本发明使用self-attention方式，认为所有信息都与任务有关，只是相关的重要程度不一样，所以我们将这些信息按照他们的重要程度重新组合信息，从语义矩阵中抽取与目标最相关的信息。

3、本发明将回归任务转变成了二分类任务，另辟蹊径，使得模型更加容易训练，经过试验，模型收敛速度比传统回归模型快1/3。

4、本发明使用三元组的方式定义任务，具有合理性，同时提高了类案推荐的效果，高于传统方法5个百分点以上。

附图说明

图1是本发明基于内容的类案推荐方法中模型预训练及微调阶段示意图；

图2是本发明使用模型的示意框图；

图3是本发明模型结构示意图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种基于内容的类案推荐方法，包括步骤如下：

(1)将非结构化数据构造成结构化数据：

(2)模型预训练：

模型包括依次连接的词映射层、双向transformer层、向量压缩层、损失层、反向传播更新参数层，包括：

A、词映射层将输入的犯罪事实描述的每个词映射成固定维度的向量，每个词都有一个单独的向量表示；这种向量可以直接被模型所计算；例如，[x1，x2，x3…xn]代表一个词，其中每个x代表一个数字，整体是一个向量；

B、将词映射层的输出输入双向transformer层，其原理是每个词的表达式都与其他词的表达式有关，即每个词的最终表示都由其他词共同决定；双向transformer将输入经过计算以更好的表达文本语义信息，输出的形式与输入一样；

C、将双向transformer层输出的特征向量输入向量压缩层，将双向transformer层输出的特征向量压缩成一维向量，该一维向量即为一个句子的语义表示；

D、将向量压缩层的输出输入所述损失层，该一维向量经过两层全连接神经网络转化为长度和数据标签一样形式的数据，计算输出与数据标签的误差；如数据标签是形如[0，0，0，0，1，0，0，0，0，…，0，0]，其中只有一个1，代表该条数据的标签，则输入向量转化后的形式为[0.01，0.001，0.0，0.0，0.8，…，0.0，0.0]，长度和标签一样，计算两个向量之间对应位置数字的误差，累计所有位置的误差；

E、反向传播更新参数层采用自适应梯度下降优化策略更新模型的参数；自适应是指模型的学习率是自我调整的，比如设定初始学习率是0.01，如果之前的学习的步长过长，那么模型就会减小学习率的值，如果之前学习的步长过短，那么模型就会增大学习率的值(一般情况下是逐步减小的)，步长是在模型训练过程中每次迭代所要更新的数值大小；

(3)微调阶段：

将步骤(2)模型预训练完成得到的模型保存，丢弃损失层；所述反向传播更新参数层是训练过程中的产物，无需主动丢弃。

重新设计下游模型，下游模型是指除了向量压缩层及其之前的层之外的结构，也就是向量压缩层之后的结构总称为下游模型，即添加合页误差计算层，将合页误差计算层添加在向量压缩层之后，模型结构如图3所示，以向量压缩层的输出为输入，输出为与数据标签的误差，合页误差计算层，采用合页损失函数计算合页误差，合页误差对于能够正确分类的样本不产生误差，对于未能正确分类的样本产生较大误差；下游模型采用三元组方式调整模型，三元组代表着使用基于对比的方式训练模型，每个输入是一个三元组，包括目标案例(指要推荐的待匹配案例)、相似案例1(指要排序输出的案例，即数据库里待推荐的案例)、相似案例2；目标案例、相似案例1、相似案例2都是一段犯罪事实描述，包括：

三元组具有合理性，假如目标案例与相似案例1更接近，那模型会试着将目标案例和相似案例1的向量表示变得调整的更加接近，也会试着将目标案例和相似案例2的向量表示调整的更加疏远；相反，假如目标案例与相似案例2更接近，那模型会试着将目标案例和相似案例2向量表示变得调整的更加接近，也会试着将目标案例和相似案例1向量表示调整的更加疏远，这样一来，在模型的不断调整中，真正相似的案例之间的距离就会被不断减小，不相似的案例之间的距离会被不断加大，最终，每个案例与其他的案例之间的距离就可以表示他们之间的相似度。至此，我们说明了三元组的合理性。

本发明基于内容的类案推荐方法中模型预训练及微调阶段如图1所示，先初始化预训练模型的参数矩阵，然后从训练数据集中采集数据，进行训练，最后保存模型；微调阶段导入预训练阶段保存的模型，然后设计三元组任务进行继续训练，最后保存模型。

使用模型的示意图如图2所示，Y代表输入目标文书，文书经过模型编码得出一个一维向量，同时文书在数据库中进行预筛选数据，筛选方式在上文已给出，然后将数据库中筛选出来的部分文书的表示向量提取出来，与目标文书的向量进行相似度计算，计算方式上文已给出，然后将这部分文书按照相似度的大小进行排序输出；

(4)测试阶段：

将步骤(3)微调阶段训练完成的模型保存，丢弃合页误差计算层，丢弃所述下游模型；向量压缩层的输出为最终输出向量，该向量为样本最终表示向量；

实施例2

根据实施例1所述的一种基于内容的类案推荐方法，其区别在于：

步骤(2)中，对于向量压缩层的基础结构是self-attention结构，如式(I)、(II)所示：

A＝Attention(Q，K，V)＝sigmoid(Q^TKV^T) (I)

R＝Reduce(A，aixs＝-2) (II)

步骤(2)中，双向transformer层，如公式(III)、(IV)、(V)所示：

h_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V) (IV)

Transformer(Q，K，V)＝Concat(h_1，...，h_n)W^o (V)

步骤(3)中，对于合页误差计算层，采用合页损失函数计算合页误差，合页损失函数的计算公式如公式(VI)所示：

式(VI)中，loss是指合页误差，N是指测试数据集样本个数，y_i是指第i个样本的标签(0或者1)，w是指模型参数矩阵，b是指偏置，+是指取大于零的值，小于等于零的值则置零；μ‖w‖²是指正则化，μ指超参数权重，μ取值为0.01。

正则化选择L2正则化，通过减小参数的平方和，使参数矩阵中的参数都围绕在零附近，所产生的波动较小，使模型减少过拟合，其计算公式如公式(VII)所示：

式(VII)中，μ‖w‖²指正则化结果，M代表参数的数量，w_i代表第i个参数。

步骤(3)中，目标案例与相似案例1的相似度、目标案例与相似案例2的相似度的采用余弦距离表示，计算公式如式(VIII)所示：

式(VIII）中，C(X₁，X₂)是指两个向量之间的距离，向量之间的距离就是指两个向量的相似度，m代表向量里面元素的个数，是指向量X₁的第i个元素；是指X的第i个元素。

步骤(4)中，测试阶段，将待推荐的裁判文书与给定的裁判文书分别经过步骤(3)中微调保存的模型计算，输出待推荐的裁判文书的文本表示向量与给定裁判文书的文本表示向量，计算待推荐的裁判文书的文本表示向量与给定裁判文书的文本表示向量之间的距离，即相似度，根据该距离数值大小从大到小进行推荐，评估模型性能。

步骤(4)中，预先在数据库中筛选待推荐的裁判文书，是指：根据给定文书的各项属性，包括个人信息，有无前科，是否属于暴力型犯罪，预先在数据库中筛选出小部分待推荐的文本，具体方法是：在数据库中根据属性不同将所有文书分成M个部分，每部分根据该部分所有向量计算中心点向量，然后将目标文书的向量与所有M个中心点向量做相似度计算，挑选出相似度最大的中心点向量所代表的部分，再将目标文书的向量与相似度最大的中心点向量所代表的部分的所有向量做相似度计算，排序输出。计算待推荐的裁判文书的文本表示向量与给定裁判文书的文本表示向量之间的距离，大大减少了计算量。

步骤(1)中，对嫌疑人基本信息数据实现数据结构化，是指：

对每一个犯罪嫌疑人的性别，以布尔值进行表示；

分词处理，是指将连续的文本信息按照常用词分开，变成离散的列表；

统计词频，是指统计所有文本中不重复的词各自出现的次数，生成一个映射列表，索引是每个不重复出现的词，值是该词在所有文本中出现的次数；

建立词典，是指将所述统计词频中生成的映射列表去除低频词汇，将所有低频词汇转换成统一的字符表示，将高频词汇每个词汇都赋予一个唯一的索引值，重新生成一个映射列表，该映射列表的值索引是筛选过后的词，对应的值是该词唯一的索引；

索引转换，是指根据词典将文书中的每个词转换为索引。

本实施例用于对以往案件进行分析与利用，即利用新获得的犯罪事实描述与犯罪嫌疑人基本信息进行推荐已有相似案件，以便于司法人员在判决过程中充分参考以往案例。

本实施例做了几组对比试验：

第一组，采用传统基于字符串的距离计算方式计算相似度，即把文本通过tf-idf进行处理，计算cos距离；

第二组，采用基于Word2vector的词向量方式计算相似度，用word2vector将文本嵌入为300维的向量，进而计算相似度，采用点积的方式计算相似度，越相似的向量的点积越大；

第三组，采用间接标签训练的方式，如将罪名，刑期，法条作为标签进行训练，间接训练模型，提取中间语义表示的部分进行表示，计算方式也采用点积方式；

第四组，采用本发明的方式进行训练，训练方式如前文所述；

验证方式，采用三元组的方式进行评测，三元组都来自法学院同学进行标注，计算准确率；

数据集，数据集采用最高法院公开数据，经过清洗，去除不常见案例，最终得到数据300万+；

实验结果如下如表1所示：

表1

结果显示，本发明的模型具有极高的准确率，前文证明了三元组的方式具有合理性，所以采用三元组的方式进行验证也具有合理性，同时，数据规模300万+，说明结果不具有特殊性，具有一般性。

Claims

1.一种基于内容的类案推荐方法，其特征在于，包括步骤如下：

(1)将非结构化数据构造成结构化数据：

利用规则匹配的方式抽取所需信息，实现数据结构化，构造成结构化数据集；所需信息包括犯罪事实描述与嫌疑人基本信息数据，嫌疑人基本信息数据包括年龄、性别、捕前职业信息；

(2)模型预训练：

A、所述词映射层将输入的犯罪事实描述的每个词映射成固定维度的向量，每个词都有一个单独的向量表示；

B、将所述词映射层的输出输入所述双向transformer层，所述双向transformer将输入经过计算以更好的表达文本语义信息，输出的形式与输入一样；

D、将所述向量压缩层的输出输入所述损失层，该一维向量经过两层全连接神经网络转化为长度和数据标签一样形式的数据，计算输出与数据标签的误差；

E、所述反向传播更新参数层采用自适应梯度下降优化策略更新所述模型的参数；

(3)微调阶段：

将步骤(2)模型预训练完成得到的模型保存，丢弃所述损失层；重新设计下游模型，即添加合页误差计算层，将合页误差计算层添加在所述向量压缩层之后，以向量压缩层的输出为输入，输出为与数据标签的误差，所述合页误差计算层，采用合页损失函数计算合页误差，合页误差对于能够正确分类的样本不产生误差，对于未能正确分类的样本产生较大误差；下游模型采用三元组方式调整模型，三元组代表着使用基于对比的方式训练模型，每个输入是一个三元组，包括目标案例、相似案例1、相似案例2；目标案例、相似案例1、相似案例2都是一段犯罪事实描述，包括：

若目标案例与相似案例1的相似度大于等于目标案例与相似案例2的相似度，则定义这种情况的标签为1；若目标案例与相似案例1的相似度小于目标案例与相似案例2的相似度，则定义这种情况的标签为0；

(4)测试阶段：

将步骤(3)微调阶段训练完成的模型保存，丢弃所述合页误差计算层，所述向量压缩层的输出为最终输出向量，该向量为样本最终表示向量；

加载步骤(3)中保存的模型，对测试数据集进行采样，获得测试所用数据，将测试所用数据输入模型，依次进行分词、词向量映射、神经网络前向传播计算，输出样本最终表示向量。

2.根据权利要求1所述的一种基于内容的类案推荐方法，其特征在于，所述步骤(2)中，对于所述向量压缩层的基础结构是self-attention结构，如式(I)、(II)所示：

A＝Attention(Q，K，V)＝sigmoid(Q^TKV^T) (I)

R＝Reduce(A，aixs＝-2) (II)

式(I)表示attention结构，Q、K、V是所述双向transformer层的输出，即所述向量压缩层的输入，Q，K，V三者是query，key，value的简写，分别是指请求矩阵、关键值矩阵、目标矩阵，若Q、K、V三者为同一个输入的话，称之为self-attention，A代表self-attention结构的结果，为输入矩阵中每个列向量对于其他所有列向量的关注度矩阵；sigmoid是指激活函数；

公式(II)表示将获取到的关注度矩阵进行压缩，压缩方式为每一列对应位置的元素相加，其输出结果为一个一维向量，这个向量代表输入矩阵的最终压缩向量；R代表所述向量压缩层的输出，为一维向量；reduce代表将一个矩阵在第二个维度上压缩为一个一维向量；aixs代表矩阵中的轴方向。

3.根据权利要求1所述的一种基于内容的类案推荐方法，其特征在于，所述步骤(2)中，所述双向transformer层，如公式(III)、(IV)、(V)所示：

h_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V) (IV)

Transformer(Q，K，V)＝Concat(h_1，...，h_n)W^o (V)

式(V)代表将式(IV)操作重复N遍，然后将得到的N个矩阵在最后一个维度上拼接在一起；Transformer(Q，K，V)为所述双向transformer层的最终输出；Concat()代表拼接操作，默认在矩阵的最后一个维度上操作；h_1，...，h_n代表操作了N次式(III)所得到的结果。

4.根据权利要求1所述的一种基于内容的类案推荐方法，其特征在于，所述步骤(3)中，对于合页误差计算层，采用合页损失函数计算合页误差，合页损失函数的计算公式如公式(VI)所示：

式(VI)中，loss是指合页误差，N是指测试数据集样本个数，y_i是指第i个样本的标签，w是指模型参数矩阵，b是指偏置，+是指取大于零的值，小于等于零的值则置零；μ‖w‖²是指正则化，μ指超参数权重，取值范围是0-1。

5.根据权利要求4所述的一种基于内容的类案推荐方法，其特征在于，正则化选择L2正则化，通过减小参数的平方和，使参数矩阵中的参数都围绕在零附近，所产生的波动较小，使模型减少过拟合，其计算公式如公式(VII)所示：

6.根据权利要求1所述的一种基于内容的类案推荐方法，其特征在于，所述步骤(3)中，目标案例与相似案例1的相似度、目标案例与相似案例2的相似度的采用余弦距离表示，计算公式如式(VIII)所示：

7.根据权利要求1所述的一种基于内容的类案推荐方法，其特征在于，所述步骤(4)，测试阶段，将待推荐的裁判文书与给定的裁判文书分别经过步骤(3)中微调保存的模型计算，输出待推荐的裁判文书的文本表示向量与给定裁判文书的文本表示向量，计算待推荐的裁判文书的文本表示向量与给定裁判文书的文本表示向量之间的距离，即相似度，根据该距离数值大小从大到小进行推荐，评估模型性能。

8.根据权利要求1所述的一种基于内容的类案推荐方法，其特征在于，在所述步骤(4)中，预先在数据库中筛选待推荐的裁判文书，是指：根据给定文书的各项属性，包括个人信息，有无前科，是否属于暴力型犯罪，预先在数据库中筛选出小部分待推荐的文本，具体方法是：在数据库中根据属性不同将所有文书分成M个部分，每部分根据该部分所有向量计算中心点向量，然后将目标文书的向量与所有M个中心点向量做相似度计算，挑选出相似度最大的中心点向量所代表的部分，再将目标文书的向量与相似度最大的中心点向量所代表的部分的所有向量做相似度计算，排序输出。

9.根据权利要求1-8任一所述的一种基于内容的类案推荐方法，其特征在于，所述步骤(1)中，对嫌疑人基本信息数据实现数据结构化，是指：

对每一个犯罪嫌疑人的性别，以布尔值进行表示；

对于捕前职业信息，按照职业进行分类，转换成索引表示之后进行归一化处理，所有索引都被压缩为0-1之间的数字；