CN112308743B

CN112308743B - 一种基于三元组相似任务的审判风险预警方法

Info

Publication number: CN112308743B
Application number: CN202011133492.3A
Authority: CN
Inventors: 王晓燕; 潘理; 刘宁
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2022-11-11
Anticipated expiration: 2040-10-21
Also published as: CN112308743A

Abstract

本发明公开了一种基于三元组相似任务的审判风险预警方法，包括以下步骤：从法律文书数据库采集数据，进行关键词匹配，提取案件描述和判决结果；进行文本预处理，包括分词和数据增强等操作，生成多个三元组；利用LSTM网络生成案件向量，进行三元组相似任务判断得到案件的表征模型；将当前和历史案件分别预处理输入表征模型得到各自的案件表征；计算相似度最高的topM案件，并得到其判决结果表示，最后计算此结果与当前案件判决结果的相似度，得出偏离风险值。本发明可以通过三元组相似度计算的方式，对当前法律文书进行分析，从历史电子案宗中找出相似度较高的案件。根据过往案件的判决结果，给出推荐性的判决范围，从而达到审判偏离预警的目的。

Description

一种基于三元组相似任务的审判风险预警方法

技术领域

本发明涉及深度学习及自然语言处理领域，尤其涉及一种基于三元组相似任务的审判风险预警方法。

背景技术

在大数据时代，人工智能在各个行业都有着广泛的应用。在智慧法院建设方面，通过赋予机器理解法律文本的能力，将人工智能技术应用在司法领域，可以为司法工作人员提供案情理解、量刑辅助、风险预警等智能辅助系统可以切实提升法院审判工作的效率，并提升判决质量，以信息化手段推进审判、执行、服务智能化。通过充分利用人工智能的前沿技术，对法律文书中的案情描述和判决结果等电子案宗标注信息进行分析、处理、归类，并找出与当前案件相似的案件。当法官判决结果与系统与过往相似案例的评估结果差异较大时自动进行风险预警。通过这些智能辅助类系统可以有效减少“同案不同判”的现象的发生。

目前的现有技术之一是人工进行简单的文本匹配搜索方法，这种方法基于已有的各种法律文本数据平台的大数据库，缺点在于无法检索出同种语义而不同陈述方式的案件，同时人工查阅、筛选参考资料的方式效率较低，需要花费大量时间进行类比讨论。

目前的现有技术之二是陈建峡等人的《一种基于词向量和词频的法院相似案件推荐模型》所提出的法院文本相似度计算，该技术先计算单词的相似度，并选取表征案件的少量关键词，从而计算不同案件的向量距离，找出相似的案件。该技术的缺点是word2vec词向量的训练方式不能很好的将单词之间的顺序关系编码进向量中，因此向量的表达性不足；其次在得到词向量后，往往只能对案件选取少量关键词(2-3个)计算案件向量，从而得到案件向量往往并不准确。

因此，本领域的技术人员致力于开发一种基于三元组相似任务的审判风险预警方法，以便能够对当前法律文书中的事实描述进行分析，从过去的历史电子案宗中找出相似度较高的案件，并根据过往案件的判决结果，给出推荐性的判决范围，从而达到审判偏离预警的目的。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题在于：(1)如何基于预训练好的通用语言模型进行法律文本领域的迁移，使获得的法律文本包含对应的案件事实和判决结果并已过滤无关信息；(2)如何从词向量的基础上拓展生成案件的表征，并计算并检索出与当前审判案件相近的历史案宗；(3)如何根据历史案件计算出当前案件判决结果是否偏移。

为实现上述目的，本发明提供了一种基于三元组相似任务的审判风险预警方法，其特征在于，包括以下步骤：

步骤S1：从法律判决书数据库中获取近3年的法院判决书，并提取对应案件的事实描述和判决结果，并对其进行文本预处理，得到案件文本的过滤语料；

步骤S2：对所述过滤语料进行处理，得到语句序列，并进行数据增强，生成数据增强语料，包含屏蔽语言语料、相邻句子判断语料；

步骤S3：使用所述数据增强语料对预训练好的BERT模型进行屏蔽语言任务和相邻句子判断任务的微调训练，得到训练后的BERT模型；

步骤S4：所述语句序列作为所述训练后的BERT模型的输入，获得句子向量，使用LSTM网络从所述句子向量生成案件向量，对所述过滤语料进行数据增强，生成三元组，并使用三元组相似度任务对所述训练后的BERT模型进一步微调训练，得到案件表征模型；

步骤S5：对当前案件文书和拟定的判决结果以及历史案件文书和判决结果进行相同的所述文本预处理操作，均输入所述案件表征模型获得当前案件和历史案件的向量表示；

步骤S6：对当前案件的所述向量表示与历史案件的所述向量表示点乘计算余弦相似度，并进行排序选取相似度较高的M个案件集合，获取其判决结果集合；

步骤S7：将当前案件文书拟定的判决结果和所述判决结果集合分别输入所述案件表征模型，获得与两个输入对应的全文向量，计算二者的判决结果余弦相似度；

步骤S8：对所述判决结果余弦相似度进行归约计算，作为该判决结果的风险值，当此值低于阈值时，系统启动风险预警。

进一步地，所述步骤S1中提取对应案件的事实描述和判决结果，并对其进行文本预处理，具体为：

获取共N封法院判决书，并提取出案件的事实描述和判决结果，格式为(P，R)，其中，P表示案件综述，R表示案件判决结果；

对案件数据(P，R)进行自然语言处理技术的预处理，对其进行jieba分词，过滤停留词、词语等，得到初步的语料；

使用关键词匹配的方式定位人名、地名、时间，并将其过滤等，对判决结果进行关键词的抽取，获得罪名、刑期和判决依据，获得过滤语料(P′，R′)。

进一步地，所述步骤S2中对所述过滤语料进行处理，得到语句序列，并进行数据增强，生成数据增强语料，具体为：

对所述过滤语料处理，得到语句序列Data_seq，其具有多个词语和一个开头标记[CLS]；

对Data_seq进行屏蔽语言任务，对每一个句子选取15％的单词将其从原文中抹去，遮蔽的单词在80％的情况下使用特殊符号[MASK]替换，10％的情况下用任意一个单词替换，剩余10％的情况保持不变，每个句子进行多次上述操作，进行数据增强，获得的第一序列用Data_mask表示；

对Data_seq进行相邻句子判断任务，对每一个语句序列选取与其连续的两个句子生成两个句子对作为正样本，并从数据中随机选取两个句子生成两个句子对作为负样本，获得的第二序列表示为Data_pair。

进一步地，所述步骤S4中所述语句序列作为所述训练后的BERT模型的输入，获得句子向量，使用LSTM网络从所述句子向量生成案件向量，对所述过滤语料进行数据增强，生成三元组，并使用三元组相似度任务对所述训练后的BERT模型进一步微调训练，具体为：

将所述语句序列Data_seq作为所述训练后的BERT模型的输入，输出开头标记[CLS]的向量为该句子的表征；

对(P′，R′)进行处理，将所述句子的[CLS]向量输入到一个LSTM网络中，得到每一个案件的向量；

对(P′，R′)数据增强，生成多个三元组＜a，p，n>；

用神经网络模块对所述三元组进行分类，输入的最大长度为三个文章向量的长度，输出表示案件p是否比n更与a相似；

使用所述训练后的BERT模型外接三元组相似任务进行微调训练，微调训练后的BERT模型和后续的LSTM模型共同形成案件表征模型model_case。

进一步地，所述步骤S5中对当前案件文书和拟定的判决结果以及历史案件文书和判决结果进行相同的所述的文本预处理操作，均输入所述案件表征模型获得当前案件和历史案件的向量表示，具体为：

对当前案件文书和拟定的判决结果(P_cur，R_cur)，数据预处理得(P′_cur，R′_cur)；

输入到所述案件表征模型model_case，得到案件cur的向量表示f(P_cur)；

对历史案件文书和对应的判决结果(P_i，R_i)，数据预处理得(P′_i，R′_i)；

输入到所述案件表征模型model_case，对每一个案件i，都得到一个d维的向量表示P_i。

进一步地，所述步骤S6中对当前案件的向量表示与历史案件的向量表示点乘计算余弦相似度，并进行排序选取相似度较高的M个案件集合，获取其判决结果的集合，具体为：

当前案件描述的向量f(P_cur)分别与历史案件描述的向量f(P_i′)进行点乘，得到相似度向量，其公式为：

相似度最高的M个案件，用集合topM＝{t₁，t₂，...，t_M}来表示；

topM案件对应的判决结果集合

进一步地，所述步骤S7中对当前案件文书拟定的判决结果和所述判决结果集合分别输入所述案件表征模型，获得两者对应的全文向量，计算两者的判决结果余弦相似度，具体为：

其公式为：

其中，全文向量f(R′_cur)是当前案件的拟定判决结果R′_cur输入到所述案件表征模型model_case中所得；

每一个案件t_i的全文向量

是集合topMR输入到所述案件表征模型model_case中所得。

进一步地，所述步骤S8中对判决结果余弦相似度进行归约计算的计算公式为：

其中，对相似度R_sim计算平均值，并求倒数得到风险值。

与现有技术相比，本发明的有益技术效果在于：

1)本发明所提技术方案是一种基于自然语言理解的类案检索和风险预警技术，充分表示了案情陈述的语义信息，以检索出尽可能相关的案件陈述和对应的判决结果供法官参考。

2)使用了自然语言处理领域的预训练和微调方案，相比传统的向量表征方法，预训练的过程具有更广的适应性，微调方案则充分与领域相关，可以提取出既通用又具有特定场景含义的向量表示。

3)在进行BERT模型的微调时，采用三元组相似度的方式进行优化微调，拓展了数据利用的方式，使得在训练时，相似的案件表征尽可能靠近，同时尽可能远离不相似的案件。

4)在风险预警方面，基于BERT模型对判决结果进行语义相似度的分析，并给出风险值，大大减轻了因统计而产生的人力负担，充分挖掘了历史电子案宗和判决结果之间的联系信息，使得法官判决时具有更便捷的参考。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的总体流程图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

首先对实施例中涉及的术语和缩略词予以说明解释。

三元组相似任务：三元组相似任务是指对一个三元组＜a，p，n＞进行相似度的计算，其中a表示锚样本，而p表示正样本，n表示负样本。在法律文书相似度匹配的场景下，锚样本即需要进行查询的法律文书，而正样本表示与锚样本较为相似的法律文书，负样本表示与锚样本不相似的法律文书。三元组相似任务即判断样本p是否比样本n与样本a更相似。通过三元组相似任务，可以更有效地利用数据。针对多篇法律文书进行相似度的计算和判断，既使得关联度高的法律文书在表征上的相似性高，且使得关联度低的法律文本在表征上具有较远的距离。

停留词：停留词是自然语言处理领域的概念，主要是指自然语言中无明显含义的词语，如连接词、冠词、量词等，如中文语境下的“的”“呢”“之”。通过过滤停留词，可以减小语料库，有利于提取语义丰富的特征。

分词：分词是指对一句话进行分割，将其解析为具体的多项词语。在中文语言中，jieba分词是一个优秀的中文分词工具，它通过运用动态规划从而找出词频最大的切分组合。

BERT模型：BERT模型是Google在2018年提出的一个自然语言领域的新模型，用于对自然语言中的词语进行表征学习，并用于后续任务。它在11项自然语言理解任务上刷新了最好指标。

词/句/位置向量：在BERT模型中对词语的多个层次的描述，一般来说每一个词语都具有一个向量，每一个句子都有一个单独的向量。为了区分同一个句子中出现的多个单词的顺序，为每个句子中出现的单词按照顺序赋予不同的位置向量。

屏蔽语言模型：屏蔽语言模型是BERT中使用的一个训练任务，即将每一句话的某些单词遮蔽作为输入，BERT模型的目的在于使用这句话的其他单词进行上下文推断，还原出该单词。类似于英语考试中的完形填空。

相邻句子判断：在BERT模型中对语料进行训练时，我们期望模型可以判断两个句子是否是连续出现的句子。通过这个任务可以很好地捕捉句子的语义。

微调：微调(Fine-tuning)在自然语言处理领域中是指通过预先的学习得到一个通用的词向量，并使用同样的网络结构和训练过程在特定的场景进行再训练。即我们首先使用海量的网络语料库得到一个通用的词语表示，并使用法律文本的语料将法律场景下的语义赋予到通用的词向量中。

LSTM模型：长短期记忆网络LSTM是一种特殊的循环神经网络，可以更好地对长序列进行建模，包含时间序列、语言序列等。在本发明所提技术方案中使用LSTM模型对句子序列进行建模，从而得到案情的全文向量。

图1是本发明实施例的一种基于三元组相似任务的审判风险预警方法总体流程图，如图1所示，该方法包括：

步骤S1，从法律判决书数据库中获取近3年的法院判决书，提取对应案件的事实描述和判决结果，并对其进行文本预处理，得到案件文本的过滤语料；

步骤S2，对所述过滤语料进行处理，得到语句序列，并进行数据增强，生成数据增强语料，包含屏蔽语言语料、相邻句子判断语料；

步骤S3，使用所述数据增强语料对预训练好的BERT模型进行屏蔽语言任务和相邻句子判断任务的微调训练，得到训练后的BERT模型；

步骤S4，所述语句序列作为所述训练后的BERT模型的输入，获得句子向量，使用LSTM网络从句子向量生成案件向量，对所述的过滤语料进行数据增强，生成三元组，并使用三元组相似度任务对所述训练后的BERT模型进一步微调训练，得到案件表征模型；

步骤S5，对当前案件文书和拟定的判决结果以及历史案件文书和判决结果进行相同的所述的文本预处理操作，均输入所述案件表征模型获得当前案件和历史案件的向量表示；

步骤S6，对所述的当前案件的向量表示与所述的历史案件的向量表示点乘计算余弦相似度，并进行排序选取相似度较高的M个案件集合，获取其判决结果的集合；

步骤S7，将所述的当前案件文书拟定的判决结果和所述判决结果集合分别输入所述案件表征模型，获得两者对应的全文向量，计算两者的余弦相似度；

步骤S8，对所述的余弦相似度进行归约计算，作为该判决结果的风险值，当此值低于阈值时，系统启动风险预警。

步骤S1，具体如下：

S1-1，从法律判决书数据库获取共N封法院判决书，并提取出对应案件的事实描述和判决结果，格式为(P，R)，其中P表示案件综述，R表示案件判决结果；

S1-2，对S1-1提取的案件数据(P，R)进行自然语言处理技术的预处理，包括进行jieba分词，过滤停留词、词语等操作，得到初步的语料；

S1-3，对S1-2得到的初步语料进行更深层次预处理，包括使用关键词匹配的方式定位人名、地名、时间，并将其过滤等，对判决结果进行关键词的抽取，获得罪名、刑期和判决依据，这一步得到过滤语料为(P′，R′)。

步骤S2，具体如下：

S2-1，将S1-3得到的过滤语料进行处理，得到语句序列Data_seq。此时每一个语句序列都具有多个词语，且具有一个开头标记[CLS]；

S2-2，对S2-1得到的语句序列Data_seq进行屏蔽操作，即对每一个句子，选取15％的单词将其从原文中抹去，为了使得模型在多轮训练中不会互相泄露信息，遮蔽的单词在80％的情况下使用特殊符号[MASK]替换，10％的情况下用任意一个单词替换，剩余10％的情况保持不变，每个句子进行多次上述操作，即进行数据增强，此时得到的序列用Data_mask表示；

S2-3，对S2-1得到的语句序列Data_seq进行成对操作，即对每一个语句序列，选取与其连续的两个句子生成两个句子对作为正样本，并从数据中随机选取两个句子生成两个句子对作为负样本。此时得到的序列对用Data_pair表示，注意Data_pair中每一个句子的最大长度是Data_mask的两倍。

步骤S3，具体如下：

S3-1，使用S2-2得到的遮蔽语料Data_mask对预训练好的BERT模型进行屏蔽语言任务的微调训练；

S3-2，使用S2-3得到的句子对S3-1得到的BERT模型进行相邻句子判断任务的微调训练。

步骤S4，具体如下：

S4-1，以S2-1中的语句序列Data_seq作为S3-1得到的BERT模型的输入，以开头标记[CLS]的向量输出作为该句子的表征。一般来说[CLS]标记可以均匀的反映句子中词语的含义；

S4-2，将S4-1得到的法律文书中每条句子的[CLS]向量输入到一个LSTM网络中，得到每一个案件的向量；

S4-3，对S1-3得到的(P′，R′)进行数据增强，生成多个三元组<a，p，n>。使用神经网络模块对三元组进行分类，此时神经网络的输入的最大长度为三个文章向量的长度。此时神经网络的输出表示案件p是否比n更与a相似。使用三元组优化是因为可以充分利用数据进行多种形式的数据增强，如Net(a，a，n)恒等于1，而Net(a，p，a)恒等于0等；

S4-4，使用S3-2得到的BERT模型外接S4-3的三元组相似任务进行微调训练，此时得到了法律场景下的案件表征模型model_case，用来表示微调训练后BERT模型和后续的LSTM模型。

步骤S5，具体如下：

S5-1，对当前案件文书和拟定的判决结果(P_cur，R_cur)进行S1-2到S1-3的数据预处理，得到(P′_cur，R′_cur)，输入到S4-4获得的案件表征模型model_case中，得到案件cur的向量表示f(P_cur)；

S5-2，对数据库中的历史案件文书和对应的判决结果(P_i，R_i)进行S1-2到S1-3的数据预处理，得到(P′_i，R′_i)，输入到S4-4获得的model_case中，此时对每一个案件i，都得到一个d维的向量表示，如

此时该向量表示P_i这个案件的向量表示，其具体数值表示不同的含义。

步骤S6，具体如下：

S6-1，使用S5-1得到的当前案件描述的向量分别与S5-2得到的历史案件描述的向量进行点乘，得到当前案件与历史所有案件的相似度向量。其公式为：

S6-2，找出S6-1得到的相似度向量中，相似度最高的M个案件，用集合topM＝{t₁，t₂，...，t_M}来表示；

S6-3，从S6-2得到的topM案件中，找到对应的判决结果集合

步骤S7，具体如下：

S7-1，将S5-1得到的当前案件的拟定判决结果R′_cur输入到S4-4获得的案件表征模型model_case中，得到全文向量f(R′_cur)；

S7-2，将S6-3得到的判决结果集合topMR输入到S4-4获得的案件表征模型model_case中，对每一个案件t_i都得到全文向量

S7-3，将S7-1得到的当前案件拟定判决结果的向量表示f(R′_cur)点乘S7-2得到的所有判决结果的向量表示

获得所有案件与当前案件的判决结果的相似度向量。其公式为：

步骤S8，具体如下：

S8-1，将S7-3得到的判决结果的相似度R_sim计算平均值，并求倒数得到风险值：

S8-2，对S8-1得到的风险值进行评估，当其大于阈值时，即该案的判决结果与相似历史案件的判决结果偏离较大，对法官进行判决结果偏离风险预警。

本发明实施例提出的一种基于三元组相似任务的审判风险预警方法，能够对当前法律文书中的事实描述进行分析，从过去的历史电子案宗中找出相似度较高的案件。根据过往案件的判决结果，给出推荐性的判决范围，从而达到审判偏离预警的目的。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于三元组相似任务的审判风险预警方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于三元组相似任务的审判风险预警方法，其特征在于，包括以下步骤：

步骤S1：从法律判决书数据库中获取近3年的法院判决书，并提取对应案件的事实描述和判决结果，并对其进行文本预处理，得到案件文本的过滤语料(P′,R′)；

步骤S8：对所述判决结果余弦相似度进行归约计算，作为该判决结果的风险值，当此值低于阈值时，系统启动风险预警；

所述步骤S2包括：

对Data_seq进行相邻句子判断任务，对每一个语句序列选取与其连续的两个句子生成两个句子对作为正样本，并从数据中随机选取两个句子生成两个句子对作为负样本，获得的第二序列表示为Data_pair；

所述步骤S4包括：

对(P′,R′)进行处理，将所述句子的[CLS]向量输入到一个LSTM网络中，得到每一个案件的向量；

对(P′,R′)数据增强，生成多个三元组<a,p,n>；

2.如权利要求1所述的基于三元组相似任务的审判风险预警方法，其特征在于，所述步骤S1中提取对应案件的事实描述和判决结果，并对其进行文本预处理，具体为：

获取共N封法院判决书，并提取出案件的事实描述和判决结果，格式为(P,R)，其中，P表示案件综述，R表示案件判决结果；

对案件数据(P,R)进行自然语言处理技术的预处理，对其进行jieba分词，过滤停留词、词语，得到初步的语料；

使用关键词匹配的方式定位人名、地名、时间，并将其过滤，对判决结果进行关键词的抽取，获得罪名、刑期和判决依据，获得过滤语料(P′,R′)。

3.如权利要求2所述的基于三元组相似任务的审判风险预警方法，其特征在于，所述步骤S5中对当前案件文书和拟定的判决结果以及历史案件文书和判决结果进行相同的所述的文本预处理操作，均输入所述案件表征模型获得当前案件和历史案件的向量表示，具体为：

对当前案件文书和拟定的判决结果(P_cur,R_cur)，数据预处理得(P′_cur,R′_cur)；

对历史案件文书和对应的判决结果(P_i,R_i)，数据预处理得(P′_i,R′_i)；

输入到所述案件表征模型model_case，对每一个案件i，都得到一个d维的向量表示f(P_i)。

4.如权利要求3所述的一种基于三元组相似任务的审判风险预警方法，其特征在于，所述步骤S6中对当前案件的向量表示与历史案件的向量表示点乘计算余弦相似度，并进行排序选取相似度较高的M个案件集合，获取其判决结果的集合，具体为：

当前案件描述的向量f(P_cur)分别与历史案件描述的向量f(P_i)进行点乘，得到相似度向量，其公式为：

相似度最高的M个案件，用集合topM＝{t₁,t₂,…,t_M}来表示；

topM案件对应的判决结果集合

5.如权利要求4所述的一种基于三元组相似任务的审判风险预警方法，其特征在于，所述步骤S7中对当前案件文书拟定的判决结果和所述判决结果集合分别输入所述案件表征模型，获得两者对应的全文向量，计算两者的判决结果余弦相似度，具体为：

其公式为：

每一个案件t_i的全文向量

是集合topMR输入到所述案件表征模型model_case中所得。

6.如权利要求5所述的一种基于三元组相似任务的审判风险预警方法，其特征在于，所述步骤S8中对判决结果余弦相似度进行归约计算的计算公式为：

其中，对相似度R_sim计算平均值，并求倒数得到风险值。