CN110909914A

CN110909914A - 诉讼成功率预测方法、装置、计算机设备和存储介质

Info

Publication number: CN110909914A
Application number: CN201910967108.0A
Authority: CN
Inventors: 蔡智晓; 林梓棱; 赵生安
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-03-24

Abstract

本申请涉及数据分析领域，尤其涉及一种诉讼成功率预测方法、装置、计算机设备和存储介质，包括：采集数个历史诉讼案件，建立第一案例集；获取待处理诉讼案件的案由信息，根据所述案由信息，生成第二案例集；根据预期的赔偿金额对所述第二案例集中的案件进行分类后，得到胜诉案件的数量和败诉案件的数量；应用所述胜诉案件的数量、所述败诉案件的数量和预设的胜诉率干扰参数进行运算，得到待处理诉讼案件的成功率。本申请通过采用两个案例集的方式对已有案件信息和待分析的案件信息进行有效匹配，从而实现了对诉讼案件成功率的准确预测。

Description

诉讼成功率预测方法、装置、计算机设备和存储介质

技术领域

本申请涉及数据分析领域，尤其涉及一种诉讼成功率预测方法、装置、计算机设备和存储介质。

背景技术

在现实生活中，人们可以通过互联网平台快速的查阅所需的法律信息，但由于专业知识所限，对法规法条的理解仅限于表面，并不能有针对性的对纠纷有深刻的法律认识，从而推断诉讼获胜的概率。

目前在对诉讼成功率进行预测时缺少客观的参数和方法，造成诉讼成功率预测结果与实际结果偏差较大，无法为当事人提供准确判断的问题。

发明内容

基于此，针对目前在对诉讼成功率进行预测时缺少客观的参数和方法，造成诉讼成功率预测结果与实际结果偏差较大，无法为当事人提供准确判断的问题，提供一种诉讼成功率预测方法、装置、计算机设备和存储介质。

一种诉讼成功率预测方法，包括如下步骤：

采集数个历史诉讼案件，建立第一案例集；

获取待处理诉讼案件的案由信息，根据所述案由信息，将所述案由信息的字符与所述第一案件集中各个案件的字符进行相似性比较，得到数个与所述待处理诉讼案件相似的近似诉讼案件，打包数个所述近似诉讼案件，生成第二案例集；

根据预期的赔偿金额对所述第二案例集中的案件进行分类后，得到胜诉案件的数量和败诉案件的数量；

应用所述胜诉案件的数量、所述败诉案件的数量和预设的胜诉率干扰参数进行运算，得到待处理诉讼案件的成功率。

在其中一个可能的实施例中，所述采集数个历史诉讼案件，建立第一案例集，包括：

应用网络爬虫从互联网网页进行诉讼案件的爬取，得到数个所述历史诉讼案件；

从各所述历史诉讼案件中提取出审理法院的信息，根据所述审理法院的信息对所述历史诉讼案件进行分类，生成第一案例集。

在其中一个可能的实施例中，所述获取待处理诉讼案件的案由信息，根据所述案由信息，将所述案由信息的字符与所述第一案件集中各个案件的字符进行相似性比较，得到数个与所述待处理诉讼案件相似的近似诉讼案件，打包数个所述近似诉讼案件，生成第二案例集，包括：

获取待处理诉讼案件的案由信息，将所述案由信息进行词向量转换，得到案由词向量；

获取所述第一案例集中各个案件的关键词，将所述关键词进行词向量转换，得到数个关键词向量；

将各关键词向量与所述案由词向量乘积，若所述关键词向量和所述案由词向量的乘积为0，则关键词向量对应的诉讼案件为所述近似诉讼案件，打包数个所述近似诉讼案件，生成第二案例集。

扫描所述案由信息得到第一争议点信息图像，扫描述第一案例集中各个案件得到数个第二争议点信息图像；

应用光学文字识别OCR分别对所述第一争议点信息图像和各所述第二争议点信息图像进行文字识别，得到所述第一争议点信息对应文字的第一笔画像素值和数个第二争议点信息对应文字的第二笔画像素值，若任一所述第二笔画像素值与所述第一笔画像素值的差值在预设阈值以内，则对应的诉讼案件为所述近似诉讼案件，打包数个所述近似诉讼案件，生成第二案例集。

在其中一个可能的实施例中，所述根据预期的赔偿金额对所述第二案例集中的案件进行分类后，得到胜诉案件的数量和败诉案件的数量，包括：

获取所述第二案例集中各个案件的判决书，根据预设的数据格式从各所述判决书中分别提取出数个实际赔偿金额；

将各所述实际赔偿金额分别与预期的赔偿金额作差，得到数个差值；

将各所述差值分别与预设的阈值进行比较，将大于所述阈值的所述差值对应的所述诉讼案件归为败诉案件，否则，归为胜诉案件；

汇总各所述败诉案件和所述胜诉案件，得到所述胜诉案件的数量和所述败诉案件的数量。

在其中一个可能的实施例中，所述应用所述胜诉案件的数量、所述败诉案件的数量和预设的胜诉率干扰参数进行运算，得到待处理诉讼案件的成功率，包括：

根据所述胜诉案件的数量和所述败诉案件的数量计算胜诉率R₁，计算公式为：

上式中，M为胜诉案件的数量，N为败诉案件的数量；

分别给所述胜诉率R₁和所述胜诉率干扰参数R₂赋予权重，根据所述胜诉率R₁、所述胜诉率干扰参数R₂、所述胜诉率R₁的权重和所述胜诉率干扰参数R₂的权重计算后，得到所述待处理诉讼案件的成功率R计算公式为：

R＝R₁*P₁+R₂*P₂,

上式中，R为待处理诉讼案件的成功率，P₁为胜诉率R₁的权重，P₂为胜诉率R₂的权重。

一种诉讼成功率预测装置，包括如下模块：

第一案例集生成模块，设置为采集数个历史诉讼案件，建立第一案例集；

第二案例集生成模块，设置为获取待处理诉讼案件的案由信息，根据所述案由信息，从所述第一案例集中提取出数个与所述待处理诉讼案件的近似诉讼案件，打包数个所述近似诉讼案件，生成第二案例集；

成功率计算模块，设置为根据预期的赔偿金额对所述第二案例集中的案件进行分类后，得到胜诉案件的数量和败诉案件的数量；应用所述胜诉案件的数量、所述败诉案件的数量和预设的胜诉率干扰参数进行运算，得到待处理诉讼案件的成功率。

在其中一个可能的实施例中，所述第一案例集生成模块，还用于：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述诉讼成功率预测方法的步骤。

一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述诉讼成功率预测方法的步骤。

与现有机制相比，本申请通过采用两个案例集的方式对已有案件信息和待分析的案件信息进行有效匹配，从而实现了对诉讼案件成功率的准确预测。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。

图1为本申请在一个实施例中的一种诉讼成功率预测方法的整体流程图；

图2为本申请在一个实施例中的一种诉讼成功率预测方法中的第一案例集生成过程示意图；

图3为本申请在一个实施例中的一种诉讼成功率预测装置的结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

图1为本申请在一个实施例中的一种诉讼成功率预测方法的整体流程图，一种诉讼成功率预测方法，包括以下步骤：

S1、采集数个历史诉讼案件，建立第一案例集；

具体的，本步骤可以通过现有各网络平台的网址信息连接到各所述网络平台采集若干历史诉讼案件进行采集，在进行采集时可以采用网络爬虫等手段进行关键词搜索爬取或者采用知识抽取的方式对网络平台中的信息进行筛选，得到所需的历史诉讼案件。在将历史诉讼案件采集后，可以根据预设的关键词将历史诉讼案件进行分类，例如，关键词为“民事”、“刑事”或者“行政”则可以将不同类型的诉讼案件进行有效的分类，然后对各个类别的诉讼那件赋予不同的编号，最后再构成第一案例集。

S2、获取待处理诉讼案件的案由信息，根据所述案由信息，将所述案由信息的字符与所述第一案件集中各个案件的字符进行相似性比较，得到数个与所述待处理诉讼案件相似的近似诉讼案件，打包数个所述近似诉讼案件，生成第二案例集；

具体的，通过预设的上传入口获取案件跟踪人上传的诉讼案件的案由信息，案件跟踪人拿到待处理诉讼案件后，在系统上点击预测案件的诉讼成功率，系统接收到案件跟踪人请求预测案件的诉讼成功率的请求指令后，提示案件跟踪人通过上传入口上传案件的案由信息，案件跟踪人上传完毕点击提交，系统获取该案由信息。其中，案由是具体诉讼案件的性质、内容的概括提要。

S3、根据预期的赔偿金额对所述第二案例集中的案件进行分类后，得到胜诉案件的数量和败诉案件的数量；

具体的，预期的赔偿金额是根据历次诉讼赔偿金额进行算数平均值计算后得到的，在进行预期的赔偿金额计算时可以采用截尾取平均数的方式，以便去掉大于正常取值范围的异常值，即过高的赔偿金额和过低的赔偿金额。以使得剩下的赔偿金额成正态分布为最优。根据预期的赔偿金额，大于预期的赔偿金额的案件作为胜诉案件，小于或者等于预期的赔偿金额的案件作为败诉案件。

S4、应用所述胜诉案件的数量、所述败诉案件的数量和预设的胜诉率干扰参数进行运算，得到待处理诉讼案件的成功率。

具体的，本步骤可以采用如下方式进行：

上式中，M为胜诉案件的数量，N为败诉案件的数量；

R＝R₁*P₁+R₂*P₂,

本实施例，通过采用两个案例集的方式对已有案件信息和待分析的案件信息进行有效匹配，从而实现了对诉讼案件成功率的准确预测。

图2为本申请在一个实施例中的一种诉讼成功率预测方法中的实体数据获取过程示意图，如图所示，所述S1、采集数个历史诉讼案件，建立第一案例集，包括：

S11、应用网络爬虫从互联网网页进行诉讼案件的爬取，得到数个所述历史诉讼案件；

其中，网络爬虫(又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。在应用网络爬虫进行诉讼案件爬取时可以根据不同的网络环境制定不同的爬取策略，以便于及时准确的获得历史诉讼案件的信息。

S12、从各所述历史诉讼案件中提取出审理法院的信息，根据所述审理法院的信息对所述历史诉讼案件进行分类，生成第一案例集。

具体的，在根据法院信息对历史诉讼案件进行分类时，可以先根据法院的级别进行分类，是“初级”、“中级”还是“高级”，然后再根据法院的类型进行分裂，如是否为“知识产权法院”、“海事法院”等等。不同的法院级别和地域对于案件的赔偿金额和审判结果存在着一定的差异，因此可以赋予不同的级别以编号，如初级为1，中级为2，高级为3；不同的地域也赋予不同的编号，如，北京为A，上海为S，广东为W等等，然后将上述编号进行拼接得到分类的标识符，如一个历史诉讼案件为北京中院审理的，那么它的标识符为A2，以此类推完成历史诉讼案件的分类工作，生成第一案例集。

本实施例，通过对历史诉讼案件进行有效分类，从而便于在进行诉讼案件成功率预测时得到准确的参考依据。

在一个实施例中，所述S2、获取待处理诉讼案件的案由信息，根据所述案由信息，将所述案由信息的字符与所述第一案件集中各个案件的字符进行相似性比较，得到数个与所述待处理诉讼案件相似的近似诉讼案件，打包数个所述近似诉讼案件，生成第二案例集，包括：

其中，词向量(Word embedding)，又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲，它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。常见的词向量转换方式有Word2Vec等。在进行词向量转换后，通常需要进行降维操作，将多维词向量降维成二维词向量以便在后续的步骤中进行有效的运算。

其中，案件关键词为“赔偿金额”、“标的”等具有案件指向性的词语，这些词语均预存储在本地硬盘的文件中，通过调取本地硬盘文件就可以获得相应的关键词。

本实施例，利用词向量匹配的方式建立第二案例集，从而提升了进行预测诉讼案件成功率时的准确性。

具体的，在进行争议点信息识别时，根据字符的高度和宽度建立数个矩形框，每一个矩形框内有一个字符。在进行像素值比较时，通常采用计算RGB值的方式进行比较，即在两个矩形框内RGB值一致的像素点的数量大于预设阈值的，则两个矩形框内的字符一致。

本实施例通过像素值的方式对案由信息进行有效识别，从而保证了诉讼案件成功率预测的准确性。

在一个实施例中，所述S3、根据预期的赔偿金额对所述第二案例集中的案件进行分类后，得到胜诉案件的数量和败诉案件的数量，包括：

本实施例，利用赔偿金额作为条件，从而简化了案件成功率预测的标准。

上述任一所对应的实施例或实施方式中所提及的技术特征也同样适用于本申请中的图3所对应的实施例，后续类似之处不再赘述。

以上对本申请中一种诉讼成功率预测方法进行说明，以下对执行上述诉讼成功率预测装置进行描述。

如图3所示的一种诉讼成功率预测装置的结构图，其可应用于诉讼成功率预测。本申请实施例中的诉讼成功率预测装置能够实现对应于上述图1所对应的实施例中所执行的诉讼成功率预测方法的步骤。诉讼成功率预测装置实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

在一个实施例中，提出了一种诉讼成功率预测装置，如图3所示，包括如下模块：

在一个实施例中，所述第一案例集生成模块，还用于：

在一个实施例中，所述第二案例集生成模块，还用于：

在一个实施例中，所述成功率计算模块，还用于：

在一个实施例中，提出了一种计算机设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述诉讼成功率预测方法的步骤。

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述各实施例中的所述诉讼成功率预测方法的步骤。其中，所述存储介质可以为非易失性存储介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请一些示例性实施例，其中描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种诉讼成功率预测方法，其特征在于，包括：

采集数个历史诉讼案件，建立第一案例集；

2.根据权利要求1所述的诉讼成功率预测的方法，其特征在于，所述采集数个历史诉讼案件，建立第一案例集，包括：

3.根据权利要求2所述的诉讼成功率预测的方法，其特征在于，所述获取待处理诉讼案件的案由信息，根据所述案由信息，将所述案由信息的字符与所述第一案件集中各个案件的字符进行相似性比较，得到数个与所述待处理诉讼案件相似的近似诉讼案件，打包数个所述近似诉讼案件，生成第二案例集，包括：

4.根据权利要求2所述的诉讼成功率预测的方法，其特征在于，所述获取待处理诉讼案件的案由信息，根据所述案由信息，将所述案由信息的字符与所述第一案件集中各个案件的字符进行相似性比较，得到数个与所述待处理诉讼案件相似的近似诉讼案件，打包数个所述近似诉讼案件，生成第二案例集，包括：

5.根据权利要求1所述的诉讼成功率预测的方法，其特征在于，所述根据预期的赔偿金额对所述第二案例集中的案件进行分类后，得到胜诉案件的数量和败诉案件的数量，包括：

6.根据权利要求1至5任一项所述的诉讼成功率预测的方法，其特征在于，所述应用所述胜诉案件的数量、所述败诉案件的数量和预设的胜诉率干扰参数进行运算，得到待处理诉讼案件的成功率，包括：

上式中，M为胜诉案件的数量，N为败诉案件的数量；

R＝R₁*P₁+R₂*P₂,

7.一种诉讼成功率预测装置，其特征在于，包括以下模块：

8.根据权利要求7所述的诉讼成功率预测装置，其特征在于，所述第一案例集生成模块，还用于：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项权利要求所述诉讼成功率预测方法的步骤。

10.一种存储有计算机可读指令的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至6中任一项权利要求所述诉讼成功率预测方法的步骤。