CN110675023B

CN110675023B - 一种基于神经网络的诉讼请求合理性预测模型训练方法和预测方法及装置

Info

Publication number: CN110675023B
Application number: CN201910779283.7A
Authority: CN
Inventors: 程慧芳; 杨东昊; 崔桐; 吴正午; 于婧悦; 毛小龙
Original assignee: China Judicial Big Data Research Institute Co ltd
Current assignee: China Judicial Big Data Research Institute Co ltd
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2022-03-25
Anticipated expiration: 2039-08-22
Also published as: CN110675023A

Abstract

本发明公开一种基于神经网络的诉讼请求合理性预测模型训练方法和预测方法及装置。本发明提出了基于多方证据关联模型和神经网络的诉讼请求合理性预测框架，首先基于诉讼请求的司法知识和多方证据关联模型设计了诉讼请求合理性的司法特征，然后基于深度神经网络模型对司法特征进行训练预测，最终实现了对诉讼求情合理性的预测和评估方案。本发明能够进行有效的、准确的诉讼请求合理性预测，从而提示当事人及时合理地规避风险、理性诉讼，同时支持诉前引导、案件分流，也可以为法官进行智能风险提示，辅助断案。

Description

一种基于神经网络的诉讼请求合理性预测模型训练方法和预测方法及装置

技术领域

本发明属于人工智能以及司法大数据领域，具体涉及一种基于神经网络的诉讼请求合理性预测模型训练方法和诉讼请求合理性预测方法及装置。

背景技术

随着智慧法院建设的推进，人工智能技术在诉讼风险分析中凸显出越来越重大的意义。以司法场景专用大数据与人工智能技术为驱动，对诉讼请求合理性等风险进行提醒，是构建诉讼风险分析和结果预测平台的重要模块，不仅能够有效节约法院诉讼服务人力、空间资源，同时还能够为公众随时提供简单、安全、智慧、高效的诉讼智能服务，从而在诉讼准备阶段提供全面的诉讼决策指引、合理分流不必要的诉讼请求，大力提升公众对法院诉讼服务的满意度，提高法院公信力。

诉讼合理性的预测是诉讼风险分析的重要组成部分，在诉讼风险分析研究方面，国内常规采用定性与定量结合分析。其中，风险评估定性方法是采用文字描述和定义级别，说明风险程度和风险出现可能性，包括但不限于问卷调查、集体讨论以及专家调查法，其优势在于可以更高效快速的评估风险。风险评估定量方法是使用多源数据分析风险程度和可能性，主要包括决策树分析法、蒙特卡罗模拟方法、敏感性分析等。其中，决策树法是比较常用的定量分析方法，其利用图解形式，将风险因素层层分解，绘制成树状图，逐项计算其概率和期望值，其计算量与风险因素、变化频度成指数关系，需要足够有效数据支撑，该方法层次清晰，不同对象的风险及概率一目了然，不易遗漏，能够适应多阶段风险分析。蒙特卡罗模拟方法是一种随机模拟数学方法，用于分析评估风险发生可能性、风险的成因、风险造成的损失或带来的机会等变量在未来变化的概率分布，具有效力高、结果相对精确的优点。目前针对中国法律法规的诉讼请求合理性预测准确率不高，缺乏针对异构、多样的案件进行合理化预期建模的方法；同时，基于机器学习方法对于诉讼请求合理性判断的研究较少，诉讼请求合理性的特征设计、选择和模型仍待探索。对诉讼合理性的预测既依赖于法律法规，又依赖于案件证据和事实的判定。诉讼请求合理性的关键特征以及选择是一个有待探索的问题，同时，面对诉讼活动复杂性、专业性以及法律局限性和证据不确定性等挑战，传统的浅层模型难以应对诉讼合理性预测的挑战。

近年来，随着计算能力的提升，基于海量参数训练的深度神经网络模型逐渐在各个领域大放异彩。在语音识别、图像识别和机器翻译等领域取得了巨大成就，例如AlexNet、VGG-Net、R-CNN和ResNet等。神经网络模型可以有效应对诉讼请求合理性预测的复杂性，因此，本发明提出了基于神经网络进行诉讼请求合理性预测的方法。

发明内容

本发明的目的在于提供一种基于神经网络的诉讼请求合理性预测模型训练方法和诉讼请求合理性预测方法及装置，能够进行有效的、准确的诉讼请求合理性预测，从而提示当事人及时合理地规避风险、理性诉讼，同时支持诉前引导、案件分流。

本发明通过如下技术方案来解决问题：

构建诉讼风险规则知识库：对法律法规、案件事实、裁判文书等进行无监督机器学习，对潜在风险点进行分类，形成诉讼风险规则知识库。

诉讼特征量化：依托多方证据关联模型及诉讼风险规则知识库中诉讼请求合理性相关的风险规则，围绕争议焦点、权利要求、要件事实、证据条件和诉讼请求确定诉讼特征；最终获得诉讼风险对诉讼请求合理性的诉讼特征量化方法。

诉讼请求合理性模型训练：基于历史案件样本，对训练数据进行特征量化，训练预测诉讼请求合理性的神经网络模型。

诉讼请求合理性预测：基于上一步训练的预测模型，对当前诉讼案件进行特征量化，输入神经网络模型，预测诉讼请求合理性。

具体来说，本发明采用的技术方案如下：

第一方面，本发明提供一种基于神经网络的诉讼请求合理性预测模型训练方法，包括以下步骤：

根据法律法规及相关文书，构建诉讼风险规则知识库；

构建多方证据关联模型，根据多方证据关联模型提取训练数据中用于预测诉讼请求合理性的诉讼特征；

根据诉讼风险知识规则库和相关证据条件可信评估概率对提取的诉讼特征进行量化；

采用量化后的训练数据训练用于预测诉讼请求合理性的深度神经网络模型。

进一步地，所述构建诉讼风险规则知识库，包括：

基于中国三部诉讼法、九部审判法、裁判文书、电子卷宗等，构建学习样本，形成样本数据库；

对样本数据库进行分句，然后进行证据规范法条识别；

通过Bootstrapping方法进行样本采样；

采用多分类器投票的算法进行风险规则和数据关系的高效抽取，形成诉讼风险规则知识库。

进一步地，所述构建多方证据关联模型，包括：

基于历史案例样本，确定不同类型案件的事实判定链；

根据不同来源的证据抽取证据要素；

对证据要素进行归类推理，根据证据要素之间的关联关系，计算证据之间的相关概率；

根据事实判定链将证据进行关联，并结合证据之间的相关概率，采用贝叶斯网络构建多方证据关联网络模型，其中每个节点表示一个证据，边的权重表示证据之间的相关概率。

进一步地，所述根据不同来源的证据抽取证据要素，包括：

建立证据要素模板；

通过自然语言抽取技术从不同来源的证据中抽取出文本数据信息；

将抽取的文本数据信息与所述证据要素模板中的相应内容进行匹配，利用程序自动化地抽取证据要素。

进一步地，所述相关证据条件可信评估概率的计算方式为：基于具备多方证据和证据转移概率的多方证据关联模型，利用遗传算法进行推理，计算出全部证据链条的概率值，即为相关证据条件可信评估概率。

进一步地，所述深度神经网络模型的训练过程包括：

对历史诉讼案件中包括电子卷宗、电子证据和起诉书在内的诉讼相关材料进行预处理，根据历史诉讼案件中的裁决结果对诉讼请求是否支持，整理出诉讼请求“合理”和“不合理”两类正负训练卷宗；

对正负训练卷宗提取诉讼特征，并对提取的诉讼特征进行量化；

搭建基于多层感知机的神经网络模型，用诉讼特征向量和正负标注训练神经网络模型，使其具备诉讼请求合理性的能力。

第二方面，本发明提供一种基于神经网络的诉讼请求合理性预测模型训练装置，其包括：

知识库构建模块，负责根据法律法规及相关文书，构建诉讼风险规则知识库；

模型构建及特征提取模块，负责构建多方证据关联模型，根据多方证据关联模型提取训练数据中用于预测诉讼请求合理性的诉讼特征；

特征量化模块，负责根据诉讼风险知识规则库和相关证据条件可信评估概率对提取的诉讼特征进行量化；

训练模块，负责采用量化后的训练数据训练用于预测诉讼请求合理性的深度神经网络模型。

第三方面，本发明提供一种基于神经网络的诉讼请求合理性预测方法，包括以下步骤：

对待预测的案件的材料进行特征提取和量化；

将量化后的数据输入采用上面所述方法训练完成的诉讼请求合理性预测模型，并输出诉讼请求合理性预测结果。

进一步地，所述诉讼请求合理性预测结果，包括诉讼有效性和诉讼合理性是否有效以及有效概率的预测结果。

第四方面，本发明提供一种基于神经网络的诉讼请求合理性预测装置，其包含一计算机，所述计算机包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行所述基于神经网络的诉讼请求合理性预测方法的指令。

本发明针对目前诉讼请求合理性准确性不理想的问题，结合诉讼活动复杂性、专业性以及法律知识和证据信息，提出了基于神经网络的诉讼请求合理性预测方法。将证据中提取的要素信息，结合多方证据关联模型，与法律法规知识库、诉讼风险规则库融合，运用关系网络推理方法，实现对历史案件数据和经验知识学习，做出诉讼请求合理性风险的科学决策并预警。诉讼请求的合理性预测可以引导当事人形成合理的诉讼预期，引导案件分流；同时。该功能也可以为法官进行智能风险提示，辅助断案。

附图说明

图1为基于神经网络的诉讼请求合理性判别的整体框架图。

图2为诉讼风险知识库的构建方法图。

图3为多方证据关联模型原理图。

图4为事实判定链的示例图。

图5为结构化证据要素抽取原理图。

图6为基于多方证据关联模型的证据链条推理图。

图7为诉讼请求合理性预测模型的训练过程图。

具体实施方式

下面将结合说明书附图对本发明技术方案和具体实施做进一步详细说明。

图1为基于神经网络的诉讼请求合理性判别的整体框架，包括文书数据处理，构建诉讼风险规则知识库、构建多方证据关联模型、证据特征设计与特征量化，深度神经网络模型训练，以及诉讼风险评估等过程。

1.构建诉讼风险规则知识库

图2为诉讼风险规则知识库的构建方法。基于中国三部诉讼法、九部审判法、裁判文书、电子卷宗等，构建学习样本，形成样本数据库。对样本数据库进行数据加工处理，主要是进行分句，之后通过文本分析，关键句筛选，句法分析、模式匹配以及分类预测等技术完成证据规范法条识别，并通过Bootstrapping(自助法)进行样本采样(进行有放回的抽样形成采样样本)，然后采用多分类器投票的算法进行风险规则和数据关系的高效抽取，生成证据推理规则，形成诉讼风险规则知识库。

其中，证据规范法条识别，包括：

a)行为规范法条识别：行为规范法条是指是国家制定或认可的，由国家强制力保证实施的，以规定当事人权利和义务为内容的具有普遍约束力的、调整社会关系的、概况普遍严谨的行为规范法律法规条文。

b)证据时效法条识别：证据时效法条是指对证据举证期限、证据交换、提交新证据以及证人出庭等时效性规定的法律法规条文。

c)证据有效性法条识别：证据有效性法条是指提供证据的资料来源可靠的程变的法律法规条纹。确定证据有效性的原则一般为：来自独立来源的证据比来自被审单位的证据更可靠；健全的内部控制制度所产生的证据比控制薄弱的证据更可靠；审计人员通过地审查、观察、计算和调查而取得的证据比间接得到的证据更可靠；原始证据比副本更可靠。

2.构建多方证据关联模型

图3为多方证据关联模型的原理图。多方证据关联模型主要是构建多方证据网络节点，共分为三个步骤。

1)选定事实判定链

基于历史案例样本，据专家经验确定不同类型案件的事实判定链(证据为两项以上的一系列能相互印证判定事实的证据链)。深入分析出民事、刑事、行政等不同类型的诉讼请求的诉讼支持链(能支持符合各类诉讼请求法规和原则的一系列事实证据链)，图4给出了民事类案件的事实判定链示例，事实判定链可以有效支持诉讼请求。多种类型的事实判定链可以构成司法知识库。

2)证据要素抽取：

“证据要素”是指为保证证据真实性、合法性和有效性的多方面要素，如程序合法、内容完整要素，包括时间，地点，人物、过程等。图5为结构化证据要素抽取原理，其步骤如下：通过自然语言抽取技术从PDF或TXT证据格式中，快速抽出纯文本数据信息，并除掉特殊控制信息。通过剔除语义噪音，利用触发词从文本中完成相关句子的筛选，根据匹配的模式，完成关键信息的抽取和证据要素的识别。在证据要素识别抽取过程中依赖于证据要素模板，需要人工建立，之后可以基于模板利用程序自动化的抽取证据要素。最终根据当事人的诉讼材料形成结构化的证据要素。这些证据实体是多方证据关联模型中的基本元素。

3)证据要素归类推理：

对证据要素进行归类推理，根据证据要素之间的关联关系，计算证据之间的相关概率；然后根据事实判定链将证据进行关联，并结合证据之间的相关概率，采用贝叶斯网络构建多方证据关联网络模型，其中每个节点表示一个证据，边的权重表示证据之间的相关概率。

多方多类的弱证据推理主要采用贝叶斯证据网络，从多类、多个互相印证或者互相矛盾的证据中，寻求最可信，最有说服力的证据链条，使得多个弱证据组合出可信证据链，发挥强证据的作用。

根据事实判定链将多方证据进行关联，初步形成多方证据网络。利用证据权重设定规则(即图3中的基于规则的权重定义)或者基于历史数据统计的证据转移权重(即图3中基于历史数据的权重定义)构建概率化的多方证据关联网络模型。通常可用贝叶斯推理网构建。其中，证据权重设定规则是指对于不同类型的证据，根据重要性赋予合适的权重。其中，基于历史数据统计的证据转移权重是指根据历史数据统计，计算出证据转移的先验概率。

基于具备多方证据和证据转移概率的多方证据关联模型，利用遗传算法等优化方法对多方证据关联网络进行推理，计算出全部证据链条的概率值，探寻最有优可信的证据链条。基于最优可信证据链可以为诉讼风险分析，诉讼结果预测以及证据合理性分析提供必要的量化特征和客观的解释。对于证据矛盾以及不合理的地方做出辅助判断。

证据要素归类推理原理如图6所示，通过推理，得到最优可信的证据链条。

3.建立证据条件可信评估和诉讼特征量化

根据结构化的证据要素模型，基于争议焦点、诉讼请求、案件事实输入多方证据关联模型；多方证据关联模型可以有效推理证据之间的关联关系和可信证据链。根据多方证据关联模型提取判别证据风险的关键特征，称为诉讼特征，并且根据诉讼风险规则知识库和相关证据条件可信评估概率对诉讼特征进行量化，将离散证据要素转变为特征向量。

其中，“相关证据条件可信评估概率”的计算方法为：基于具备多方证据和证据转移概率的多方证据关联模型，利用遗传算法等优化方法对多方证据关联网络进行推理，计算出全部证据链条的概率值，即为相关证据条件可信评估概率。

表1给出了借贷类案件诉讼初步特征设计与量化方法。基于多方证据关联模型，分析当事人可能面临的诉讼请求不当、诉讼时效超期、诉讼费交纳、财产证据保全、举证不能、举证超时、举证合规、上诉申请再审超时、执行程序风险、诉讼秩序等主要诉讼风险点。

表1借贷类案件诉讼特征设计与量化

4.诉讼请求合理性模型训练

对历史诉讼案件中的电子卷宗，电子证据和起诉书等诉讼相关材料进行预处理，根据历史诉讼案件中裁决结果对诉讼请求是否支持整理出诉讼请求“合理”和“不合理”两类正负训练卷宗；依据上一步的诉讼特征量化方法对正负训练卷宗进行特征提取和量化。之后搭建基于多层感知机的神经网络模型，用诉讼特征向量和正负标注训练神经网络模型，使其具备诉讼请求合理性预测训练的能力。诉讼请求合理性预测模型的训练过程如图7所示。

5.基于多层神经网络的诉讼合理性预测

如图1的流程所示，对待预测案件诉讼案件的电子卷宗、证据和起诉文书等材料进行整理信息抽取，抽取出可以代表诉讼合理性风险的结构化要素(争议焦点、诉讼请求、案件事实)。基于诉讼风险知识库、结合多方证据关联模型利用第(3)步中的方法抽取诉讼特征向量并进行量化。最后，将当前案件的诉讼特征向量输入深度神经网络预测模型中，分别对诉讼有效性和诉讼合理性进行是否有效以及有效概率的预测。

本模型的输入为表1中设计的特征向量，输出为诉讼请求是否合理的预测标签。

实验数据：采用本发明方法，对11起贷款案件的诉讼请求进行了合理评估。实验中采用Java语言和MATLAB混合编程，DELL Optiplex 7040机型，其内存64gb，操作系统为CentOS10,JDK1.7版本。实验结果表明，在这11例中，有8例索赔是合理的，其中2例的合理性达到100％；另外3种情况下的索赔都是不合理的。具体实验结果如表2所示。

表2.诉讼请求合理性预测实验结果

案件号	诉讼请求合理性预测	诉讼请求是否合理
			1	1.00	是
2	1.00	是
			3	0.988	是
4	0.963	是
			5	0.915	是
6	0.836	是
			7	0.658	是
8	0.381	否
			9	0.492	否
10	0.525	否
			11	0.824	是

本发明的方案可以通过软件的方式实现，也可以通过硬件的方式来实现。比如本发明的技术方案可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明的方法。

具体地，本发明的一个实施例提供一种基于神经网络的诉讼请求合理性预测模型训练装置，其包括：

具体地，本发明的一个实施例提供一种基于神经网络的诉讼请求合理性预测方法，包括以下步骤：

对待预测的案件的材料进行特征提取和量化；

将量化后的数据输入采用上面所述方法训练完成的诉讼请求合理性预测模型，并输出诉讼请求合理性预测结果。所述诉讼请求合理性预测结果，包括诉讼有效性和诉讼合理性是否有效以及有效概率的预测结果。

具体地，本发明的一个实施例提供一种基于神经网络的诉讼请求合理性预测装置，其包含一计算机，所述计算机包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行所述基于神经网络的诉讼请求合理性预测方法的指令。

另外，也可以通过RNN、CNN等其他神经网络模型对诉讼请求风险进行预测，但不如本发明中联合多方证据关联模型与神经网络方法得到的预测准确率高。

本发明未详细阐述的部分可以采用本领域技术人员的公知技术实现。

上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于神经网络的诉讼请求合理性预测模型训练方法，其特征在于，包括以下步骤：

根据法律法规及相关文书，构建诉讼风险规则知识库；

采用量化后的训练数据训练用于预测诉讼请求合理性的深度神经网络模型；

所述构建诉讼风险规则知识库，包括：

对样本数据库进行分句，然后进行证据规范法条识别；所述进行证据规范法条识别包括行为规范法条识别、证据时效法条识别、证据有效性法条识别；

通过Bootstrapping方法进行样本采样；

采用多分类器投票的算法进行风险规则和数据关系的高效抽取，形成诉讼风险规则知识库；

所述构建多方证据关联模型，包括：

基于历史案例样本，根据专家经验确定不同类型案件的事实判定链；

根据不同来源的证据抽取证据要素；

对证据要素进行归类推理，根据证据要素之间的关联关系，计算证据之间的相关概率；根据事实判定链将证据进行关联，并结合证据之间的相关概率，采用贝叶斯网络构建多方证据关联网络模型，其中每个节点表示一个证据，边的权重表示证据之间的相关概率；

所述相关证据条件可信评估概率的计算方式为：基于具备多方证据和证据转移概率的多方证据关联模型，利用遗传算法进行推理，计算出全部证据链条的概率值，即为相关证据条件可信评估概率；

所述深度神经网络模型的训练过程包括：

对正负训练卷宗提取诉讼特征，并对提取的诉讼特征进行量化；所述诉讼特征包括当事人可能面临的诉讼风险点，所述诉讼风险点包括诉讼请求不当、诉讼时效超期、诉讼费交纳、财产证据保全、举证不能、举证超时、举证合规、上诉申请再审超时、执行程序风险、诉讼秩序；

2.根据权利要求1所述的方法，其特征在于，所述样本数据库是基于中国三部诉讼法、九部审判法、裁判文书、电子卷宗构建学习样本，形成的样本数据库。

3.根据权利要求1所述的方法，其特征在于，所述根据不同来源的证据抽取证据要素，包括：

建立证据要素模板；

4.一种采用权利要求1～3中任一权利要求所述方法的基于神经网络的诉讼请求合理性预测模型训练装置，其特征在于，包括：

5.一种基于神经网络的诉讼请求合理性预测方法，其特征在于，包括以下步骤：

对待预测的案件的材料进行特征提取和量化；

将量化后的数据输入权利要求1～3中任一权利要求所述方法训练完成的诉讼请求合理性预测模型，并输出诉讼请求合理性预测结果。

6.根据权利要求5所述的方法，其特征在于，所述诉讼请求合理性预测结果，包括诉讼有效性和诉讼合理性是否有效以及有效概率的预测结果。

7.一种基于神经网络的诉讼请求合理性预测装置，其特征在于，包含一计算机，所述计算机包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求5或6所述方法的指令。