CN111797221A

CN111797221A - 类似案件推荐方法及装置

Info

Publication number: CN111797221A
Application number: CN202010549298.7A
Authority: CN
Inventors: 张君福; 张艺璇; 陈一朴; 季昕; 王靖琨
Original assignee: Beijing Peking University Software Engineering Co ltd
Current assignee: Beijing Peking University Software Engineering Co ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-10-20
Anticipated expiration: 2040-06-16
Also published as: CN111797221B

Abstract

本发明涉及一种类似案件推荐方法及装置，包括提取目标案例的案例特征并对案例特征进行预处理；预处理后的案例特征转换为非结构化信息和结构化信息，并分别对非结构化信息和结构化信息进行处理，利用处理后的非结构化信息构建第一特征向量，利用处理后的结构化信息构建第二特征向量，联合第一特征向量和第二特征向量获取案例的最终特征向量；将目标案件输入案由预测模型中，获取目标案件的案由，根据案由获取相同案由的同案由案件集合；采用最终特征向量获取同案由案件集合中的最相似案件并输出。本发明将词语通过神经网络向量化再计算相似度的方法比传统的文本相似度算法效果更好。

Description

类似案件推荐方法及装置

技术领域

本发明属于自然语言处理领域技术领域，具体涉及一种类似案件推荐方法及装置。

背景技术

进入新时代,大数据、云计算、人工智能蓬勃兴起，互联网的高速发展推动经济社会向全面信息化迈进,司法工作自然也不例外。国家建立了法律法规数据库，北京等地建立了较为完善的行政执法记录数据库，为法治社会的信息化提供了数据基础。

类案推荐是法制信息化和智能化的重要组成部分。随着我国法律的不断完善，案由越来越多，与此同时行政执法人员面临的工作任务繁重，执法情况复杂多变。如何利用好现有的资源，利用大数据的方法提高行政执法人员执法的效率和准确度称为了大数据时代法治建设的新议题。随着大数据技术的发展，法治信息化程度不断加深，对于执法记录、裁判文书等判决相关的资料的储存也越来越完善。在之前执法记录中找到类似的案件推荐给执法人员，辅助行政执法人员作出处罚决定能大大提高行政处罚的准确性和高效性。现有的类案推荐工具多是基于裁判文书网上的裁判文书进行推荐。

相关技术中，现有的方式是使用K-means聚类的方法对法院的案例文书进行聚类分析，得到同类案件，取最相似的案例进行推荐。或者利用裁判文书的标签计算相似度进行推荐。现有技术中对于行政执法记录数据库中对裁判文书的执法记录利用不够充分。

近年来深度学习被广泛应用在自然语言处理中，将词语通过神经网络向量化再计算相似度的方法比传统的信息相似度算法效果更好。目前还没有利用神经网络进行类案推荐的专利。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种类似案件推荐方法及装置，以解决现有技术中文本相似度算法效果不够好的问题。

为实现以上目的，本发明采用如下技术方案：一种类似案件推荐方法，包括：

提取目标案例的案例特征并对所述案例特征进行预处理；

将预处理后的案例特征转换为非结构化信息和结构化信息，并分别对所述非结构化信息和结构化信息进行处理，利用处理后的非结构化信息构建第一特征向量，利用处理后的结构化信息构建第二特征向量，联合所述第一特征向量和第二特征向量获取案例的最终特征向量；

将目标案件输入案由预测模型中，获取目标案件的案由，根据所述案由获取相同案由的同案由案件集合；

采用所述最终特征向量获取同案由案件集合中的最相似案件，输出所述最相似案件。

进一步的，所述非结构化信息包括：违法事实、当事人类型、行政处罚日期、是否有减轻、从轻或从重情节、案由名称、行政执法部门名称；

所述结构化信息包括：案件名称、案情描述、公民姓名、公民地址、公民单位、法人或其他组织的名称、法人或其他组织的地址、案发地址。

进一步的，所述所述案例特征进行预处理，包括：

对所述案例特征进行数据清洗。

进一步的，所述分别对所述非结构化信息和结构化信息进行处理，利用处理后的非结构化信息构建第一特征向量，利用处理后的结构化信息构建第二特征向量，包括：

对所述非结构化信息进行分词处理；

分词处理后的非结构化信息通过Bert模型构建第一特征向量；其中，第一特征向量为句向量；

将所述结构化信息数值化，得到数值化信息，将所述数值化信息归一化，最后归一化后的数值化信息通过神经网络构建结构化特征的第二特征向量。

进一步的，所述采用所述最终特征向量获取同案由案件集合中的最相似案件，包括：

设同案由案件集合为M，目标案件特征向量为S_t，S_t通过神经网络计算输出C_t；

对于同案由案件集合M的第i个案件M_i，特征向量S_i通过神经网络计算守护C_i；

分别对C_i与C_t计算皮尔逊相关系数r_i ^t，

皮尔逊相关系数的计算公式为

其中，cov(C_i,C_t)是向量C_i,C_t的i协方差，σC_iσC_t是向量C_i,C_t的标准差；

根据协方差和标准差的公式，皮尔逊相关系数可表示为：

得到同案由的案件集合M与目标案件t的皮尔逊相关系数向量R；

采用皮尔逊相关系数计算同案由案件集合中的所有案件与所述最终特征向量的相似度。

进一步的，所述采用所述最终特征向量获取同案由案件集合中的最相似案件，还包括：

预先输入推荐个数N；

输出以皮尔逊相关系数向量降序排序的最相似的N个同案由案件进行推荐。

进一步的，采用中文分词工具对所述非结构化信息进行分词处理。

进一步的，所述当事人类型，包括：

公民、法人或其他组织。

进一步的，所述神经网络采用标注好的数据进行训练，以构建数值特征的特征向量。

本申请实施例提供一种类似案件推荐装置，包括：

预处理模块，用于提取目标案例的案例特征并对所述案例特征进行预处理；

构建模块，用于将预处理后的案例特征转换为非结构化信息和结构化信息，并分别对所述非结构化信息和结构化信息进行处理，利用处理后的非结构化信息构建第一特征向量，利用处理后的结构化信息构建第二特征向量，联合所述第一特征向量和第二特征向量获取案例的最终特征向量；

获取模块，用于将目标案件输入案由预测模型中，获取目标案件的案由，根据所述案由获取相同案由的同案由案件集合；

输出模块，用于采用所述最终特征向量获取同案由案件集合中的最相似案件，输出所述最相似案件。

本发明采用以上技术方案，能够达到的有益效果包括：

本发明提供一种类似案件推荐方法，包括提取目标案例的案例特征并对案例特征进行预处理；将预处理后的案例特征转换为非结构化信息和结构化信息，并分别对非结构化信息和结构化信息进行处理，利用处理后的非结构化信息构建第一特征向量，利用处理后的结构化信息构建第二特征向量，联合第一特征向量和第二特征向量获取案例的最终特征向量；将目标案件输入案由预测模型中，获取目标案件的案由，根据案由获取相同案由的同案由案件集合；采用最终特征向量获取同案由案件集合中的最相似案件，输出最相似案件。本发明将词语通过神经网络向量化再计算相似度的方法比传统的文本相似度算法效果更好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明类似案件推荐方法的步骤示意图；

图2为本发明类似案件推荐方法的流程示意图；

图3为本发明最终特征向量计算流程示意图；

图4为本发明类似案件推荐装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

下面结合附图介绍本申请实施例中提供的一个具体的类似案件推荐方法。

如图1所示，本申请实施例中提供的类似案件推荐方法包括：

S101，提取目标案例的案例特征并对所述案例特征进行预处理；

首先，目标案例为执法案例，提取案例中的案例特征，案例特征包括包括违法事实、当事人类型，1公民、2法人或其他组织、行政处罚日期、是否有减轻、从轻或从重情节、案由名称、行政执法部门名称、案件名称、案情描述、公民姓名、公民地址、公民单位、法人或其他组织的名称、法人或其他组织的地址、案发地址。

其中，对案例特征的数据进行清洗，过滤掉案例特征不完整的案例条目，比如缺少案情描述，缺少情节严重程度判定的案例。

S102，将预处理后的案例特征转换为非结构化信息和结构化信息，并分别对所述非结构化信息和结构化信息进行处理，利用处理后的非结构化信息构建第一特征向量，利用处理后的结构化信息构建第二特征向量，联合所述第一特征向量和第二特征向量获取案例的最终特征向量；

将案例特征转换为非结构化信息和结构化信息，其中，非结构化信息为非结构化的文本信息，比如案情描述；结构化信息为案由名称、行政执法部门名称。

S103，将目标案件输入案由预测模型中，获取目标案件的案由，根据所述案由获取相同案由的同案由案件集合；

其中，案由预测模型采用现有的，本申请在此不做赘述，通过案由预测模型预测出案由，根据案由在行政执法记录数据库中寻找相同案由的所有案件，为同案由案件集合。

S104，采用所述最终特征向量获取同案由案件集合中的最相似案件，输出所述最相似案件。

采用最终特征向量使用bert模型输出计算皮尔逊相关系数，找到最相似的案件作为推荐结果。

一些实施例中，所述非结构化信息包括：违法事实、当事人类型、行政处罚日期、是否有减轻、从轻或从重情节、案由名称、行政执法部门名称；

优选的，所述所述案例特征进行预处理，包括：

对所述案例特征进行数据清洗。

其中，数据清洗是过滤掉特征不完整的案例条目。不完整的案例条目为缺少案情描述，缺少情节严重程度判定的案例。

一些实施例中，所述分别对所述非结构化信息和结构化信息进行处理，利用处理后的非结构化信息构建第一特征向量，利用处理后的结构化信息构建第二特征向量，包括：

对所述非结构化信息进行分词处理；

如图2所示，对目标案例中的文本特征分词处理以去除停用词，将分词后的非结构化文本使用Bert模型构建词向量，词向量取平均得到m维句向量，也就是第一特征向量S₁，对目标案例中的数值化信息通过神经网络构建结构化特征的向量也就是第二特征向量S₂，将非结构化文本句向量S₁和结构化信息S₂的向量级联，构成案例的最终特征向量S。

优选的，所述采用所述最终特征向量获取同案由案件集合中的最相似案件，包括：

分别对C_i与C_t计算皮尔逊相关系数r_i ^t，

皮尔逊相关系数的计算公式为

根据协方差和标准差的公式，皮尔逊相关系数可表示为：

优选的，所述采用所述最终特征向量获取同案由案件集合中的最相似案件，还包括：

预先输入推荐个数N；

优选的，采用中文分词工具对所述非结构化信息进行分词处理。

优选的，所述当事人类型，包括：公民、法人或其他组织。

优选的，所述神经网络采用标注好的数据进行训练，以构建数值特征的特征向量。

如图3所示，本申请类似案件推荐方法的一个具体实施例为，

本发明基于行政执法记录数据库实现。首先需要获取行政执法记录数据库，行政执法记录数据库是历史记录的，为现有的。

提取目标案例的特征，包括案例特征包括违法事实、当事人类型，1公民2法人或其他组织、行政处罚日期、是否有减轻、从轻或从重情节、案由名称、行政执法部门名称、案件名称、案情描述、公民姓名、公民地址、公民单位、法人或其他组织的名称、法人或其他组织的地址、案发地址。

对案例特征数据清洗，过滤掉特征不完整的案例条目，比如缺少案情描述，缺少情节严重程度判定的案例。

将文本特征也就是非结构化信息，即行政处罚日期、案件名称、案情描述、公民姓名、公民地址、公民单位、法人或其他组织的名称、法人或其他组织的地址、案发地址中的内容进行分词。

分词后的文本特征去除停用词，将案由名称、行政执法部门名称，也就是结构化信息数值化；将数值化后的案由名称、行政执法部门名称以及情节严重程度判定的值归一化。

使用处理好的文本特征微调Bert模型，使用标注好的数据训练构建数值特征的特征向量的神经网络。

获取案由预测模型，输入目标案例和推荐案例数量；使用案由预测模型预测案由，根据案由从数据库中查找同案由的案件集合M；从目标案例中提取上述特征；

对目标案例中的文本特征分词；将分词后的非结构化文本使用Bert模型构建句向量S₁，对目标案例中的数值化信息通过神经网络构建结构化特征的向量S₂，将非结构化文本句向量S₁和结构化信息S₂的向量级联,构成案例的最终特征向量S。

在进行计算时，设目标案件为的特征向量为S_t，神经网络计算得到输出C_t；

对于集合中M的第i个案件M_i，将特征向量S_i通过神经网络，输出C_i；

分别计算M_i在神经网络中的输出C_i与目标案件在神经网络中的输出C_t计算皮尔逊相关系数r_i ^t；

根据协方差和标准差的公式，对皮尔逊相关系数进行表示，如式2。

得到同案由的案件集合M与目标案件t的皮尔逊相关系数向量R。

用户输入推荐案例的个数N；

对皮尔逊相关系数向量R降序排序，取前N位的相应案件返回给用户。

本申请实施例提供一种类似案件推荐装置，如图4所示，包括：

本申请提供的类似案件推荐装置的工作原理是，预处理模块提取目标案例的案例特征并对所述案例特征进行预处理；构建模块将预处理后的案例特征转换为非结构化信息和结构化信息，并分别对所述非结构化信息和结构化信息进行处理，利用处理后的非结构化信息构建第一特征向量，利用处理后的结构化信息构建第二特征向量，联合所述第一特征向量和第二特征向量获取案例的最终特征向量；获取模块将目标案件输入案由预测模型中，获取目标案件的案由，根据所述案由获取相同案由的同案由案件集合；输出模块采用所述最终特征向量获取同案由案件集合中的最相似案件，输出所述最相似案件。

本申请实施例提供一种计算机设备，包括处理器，以及与处理器连接的存储器；

存储器用于存储计算机程序，计算机程序用于执行上述任一实施例提供的类似案件推荐方法；

处理器用于调用并执行存储器中的计算机程序。

综上所述，本发明提供一种类似案件推荐方法及装置，本申请将词语通过神经网络向量化再计算相似度的方法比传统的文本相似度算法效果更好。

可以理解的是，上述提供的方法实施例与上述的装置实施例对应，相应的具体内容可以相互参考，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品，该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种类似案件推荐方法，其特征在于，包括：

提取目标案例的案例特征并对所述案例特征进行预处理；

2.根据权利要求1所述的方法，其特征在于，

所述非结构化信息包括：违法事实、当事人类型、行政处罚日期、是否有减轻、从轻或从重情节、案由名称、行政执法部门名称；

3.根据权利要求1所述的方法，其特征在于，所述所述案例特征进行预处理，包括：

对所述案例特征进行数据清洗。

4.根据权利要求1所述的方法，其特征在于，所述分别对所述非结构化信息和结构化信息进行处理，利用处理后的非结构化信息构建第一特征向量，利用处理后的结构化信息构建第二特征向量，包括：

对所述非结构化信息进行分词处理；

5.根据权利要求1所述的方法，其特征在于，所述采用所述最终特征向量获取同案由案件集合中的最相似案件，包括：

分别对C_i与C_t计算皮尔逊相关系数

皮尔逊相关系数的计算公式为

根据协方差和标准差的公式，皮尔逊相关系数可表示为：

6.根据权利要求5所述的方法，其特征在于，所述采用所述最终特征向量获取同案由案件集合中的最相似案件，还包括：

预先输入推荐个数N；

7.根据权利要求4所述的方法，其特征在于，

采用中文分词工具对所述非结构化信息进行分词处理。

8.根据权利要求2所述的方法，其特征在于，所述当事人类型，包括：

公民、法人或其他组织。

9.根据权利要求4或5所述的方法，其特征在于，

所述神经网络采用标注好的数据进行训练，以构建数值特征的特征向量。

10.一种类似案件推荐装置，其特征在于，包括：