CN110717041B

CN110717041B - 一种案件检索方法及系统

Info

Publication number: CN110717041B
Application number: CN201910884088.0A
Authority: CN
Inventors: 万玉晴; 聂耀鑫; 衣永刚
Original assignee: Taiji Computer Corp Ltd
Current assignee: Taiji Computer Corp Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2023-10-03
Anticipated expiration: 2039-09-19
Also published as: CN110717041A

Abstract

本发明公开了一种案件检索方法及系统，该方法包括：提取案件数据库中的案件要素信息与表述文本，对司法争议焦点描述文本进行聚类处理，形成争议焦点及要素标签库；基于争议焦点及要素标签库，对案件数据库中的案件卷宗材料进行数据对应标注，形成案件卷宗争议焦点库；根据所述争议焦点及要素标签库、案件卷宗争议焦点库，构建并训练案件语言检索模型；对欲检索的案件材料，通过基于案件争议焦点的话题矛盾检测方法，确定案件卷宗材料中的矛盾点，并根据矛盾点提炼成该案件材料相匹配的争议焦点；利用所述案件语言检索模型，根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务。本发明能够从案件争议焦点角度进行相似案件的检索推送。

Description

一种案件检索方法及系统

技术领域

本发明涉及数据检索技术领域，具体来说，涉及一种案件检索方法及系统。

背景技术

随着社会信息的公开化、透明化，案件的审判结果也越来越受到社会的关注。对于同一个案件，不同的法官的裁量尺度的差别也往往不一样。如果能够在判决案件之前，及时的推荐以往的相似案件，无疑会起到一个很好的参考作用。

而在上述背景下，各级法院目前已经逐步上线了类案推荐系统，然而，现有的司类案推荐系统普遍采用的是基于向量空间模型相似度计算方法，通过检索关键词进行检索推送的。而这就使得司法人员在使用时，往往检索不到自己想要查询的审判要素点，或需要花费大量时间从推送的大量案件中逐个阅读查找，这不仅费事费力，而且效率低下。

针对上述相关技术中存在的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种案件检索方法及系统，能够从案件争议焦点角度进行相似案件的检索推送。

本发明的技术方案是这样实现的：

根据本发明的一方面，提供了一种案件检索方法。

该案件检索方法包括以下步骤：

提取案件数据库中的案件要素信息与表述文本，对表述文本中的司法争议焦点描述文本进行聚类处理，并对得到的聚类类别进行标注与校验，形成争议焦点及要素标签库；

基于争议焦点及要素标签库，对案件数据库中的案件卷宗材料进行数据对应标注，形成具有争议焦点标签与案件要素标签的案件卷宗争议焦点库；

根据所述争议焦点及要素标签库、案件卷宗争议焦点库，利用机器学习技术，构建并训练案件语言检索模型；

对欲检索的案件材料，通过基于案件争议焦点的话题矛盾检测方法，确定案件卷宗材料中的矛盾点，并根据矛盾点提炼成该案件材料相匹配的争议焦点；

利用所述案件语言检索模型，根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务。

此外，在提取案件数据库中的案件要素信息与表述文本，对表述文本中的司法争议焦点描述文本进行聚类处理时，采用面向争议焦点的层次化主题聚类方法进行聚类处理。

另外，采用面向争议焦点的层次化主题聚类方法进行聚类处理包括以下步骤：从案件数据库中提取案件要素信息与表述文本的原始数据；采用GSOM算法对所述原始数据进行聚类，得到聚类类别；将每个聚类类别划分为多个子类，并从每个子类中选择抽样数据作为该子类的类别代表，并进行密度聚类。

此外，所述GSOM算法的神经元权值调整函数公式为：

m_i(t+1)＝m_i(t)+h_c(x)，i(t)[x(t)-m_i(t)]；

其中，t代表算法的迭代次数；m_i(t+1)代表算法迭代t+1次后第i个神经元的特征向量；h_c(x)，i(t)代表近邻函数，其能够控制神经元的调整范围；x(t)代表随机选择的数据；c(x)代表获胜神经元；a(t)为学习速率，其随着算法迭代次数的增加而单调递减；||r_i-r_c(X)||代表获胜神经元与第i个神经元之间的距离；δ(t)为邻域函数。

优选的，所述卷宗材料包括以下至少之一：笔录材料、答辩状材料、判决书材料。

另外，基于争议焦点及要素标签库，对案件数据库中的案件卷宗材料进行数据对应标注包括：采用机器学习技术，将争议焦点标签与案件要素标签匹配到具体的案件卷宗材料文本中。

此外，上述案件检索方法还包括：在对欲检索的案件材料，通过基于案件争议焦点的话题矛盾检测方法，确定案件卷宗材料中的矛盾点之前，先对与检索的案件材料进行篇章分析和语句分析。

其中，所述篇章分析是对欲检索案件的卷宗材料基于文章结构级的分析，包括以下步骤：对欲检索案件的卷宗材料，根据材料的篇章构成进行结构划分，确定每个结构篇章；对每个结构篇章中的语句，进行逐条语句分析。所述语句分析包括以下步骤：对语句进行预处理，进行语句分词、词性标注处理；根据争议焦点标签库，找到相关性较大的语句，去掉无关的语句，减少干扰；标注语义角色，区分原被告各自的表述。

另外，所述话题矛盾检测方法包括通过矛盾检测模型进行检测，当检测模型中的模型公式的约束不相容时，优化算法会遇到收敛困难时，判定为存在矛盾并确定为矛盾点；所述矛盾检测模型的模型公式为：

s.t.c(x)＝0，x≥0；

其中，f：Rⁿ→R为目标函数；c：Rⁿ→R^m为系统模型；x≥0为边界约束；min f(x)表示要最小化函数f(x)，其中，x∈Rⁿ表示变量x是一个n维向量，即x包含n个实数；s.t.c(x)＝0为等式约束条件，表示要在满足条件c(x)＝0的情况下进行优化，向量x的元素满足约束函数c(x)的值等于零；x≥0表示向量x的每个分量大于或等于零。

可选的，所述数据检索服务包括：基于争议焦点的相似案件检索和推送、基于争议焦点的法条归纳检索与推送、基于争议焦点的判罚估计检索与推送。

根据本发明的另一方面，提供了一种案件检索系统。

该案件检索系统包括：

要素标签库形成模块，用于提取案件数据库中的案件要素信息与表述文本，对表述文本中的司法争议焦点描述文本进行聚类处理，并对得到的聚类类别进行标注与校验，形成争议焦点及要素标签库；

卷宗争议焦点形成模块，用于基于争议焦点及要素标签库，对案件数据库中的案件卷宗材料进行数据对应标注，形成具有争议焦点标签与案件要素标签的案件卷宗争议焦点库；

检索模型搭建模块，用于据所述争议焦点及要素标签库、案件卷宗争议焦点库，利用机器学习技术，构建并训练案件语言检索模型；

案件矛盾点确认模块，用于对欲检索的案件材料，通过基于案件争议焦点的话题矛盾检测方法，确定案件卷宗材料中的矛盾点，并根据矛盾点提炼成该案件材料相匹配的争议焦点；

检索服务模块，用于利用所述案件语言检索模型，根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务。

此外，所述要素标签库形成模块在提取案件数据库中的案件要素信息与表述文本，对表述文本中的司法争议焦点描述文本进行聚类处理时，采用面向争议焦点的层次化主题聚类方法进行聚类处理。

另外，所述要素标签库形成模块包括数据提取子模块、聚类子模块、抽样数据选择子模块；其中，数据提取子模块，用于从案件数据库中提取案件要素信息与表述文本的原始数据；聚类子模块，用于通过采用GSOM算法对所述原始数据进行聚类，得到聚类类别；抽样数据选择子模块，用于将每个聚类类别划分为多个子类，并从每个子类中选择抽样数据作为该子类的类别代表，并进行密度聚类。

此外，所述GSOM算法的神经元权值调整函数公式为：

m_i(t+1)＝m_i(t)+h_c(x)，i(t)[x(t)-m_i(t)]；

可选的，所述卷宗材料包括以下至少之一：笔录材料、答辩状材料、判决书材料。

另外，所述卷宗争议焦点形成模块基于争议焦点及要素标签库，对案件数据库中的案件卷宗材料进行数据对应标注时，采用机器学习技术，将争议焦点标签与案件要素标签匹配到具体的案件卷宗材料文本中。

此外，所述案件矛盾点确认模块还用于在对欲检索的案件材料，通过基于案件争议焦点的话题矛盾检测方法，确定案件卷宗材料中的矛盾点之前，先对与检索的案件材料进行篇章分析和语句分析。

其中，所述案件矛盾点确认模块在进行篇章分析时，是对欲检索案件的卷宗材料基于文章结构级的分析，包括：对欲检索案件的卷宗材料，根据材料的篇章构成进行结构划分，确定每个结构篇章；对每个结构篇章中的语句，进行逐条语句分析。所述案件矛盾点确认模块在语句分析时，通过对语句进行预处理，进行语句分词、词性标注处理，并根据争议焦点标签库，找到相关性较大的语句，去掉无关的语句，减少干扰；再标注语义角色，区分原被告各自的表述。

s.t.c(x)＝0，x≥0；

有益效果：本发明了提供面向争议焦点的类案检索服务，通过智能化技术，分析案件诉辩过程中的争议焦点，为法官及其他司法人员快速、准确分析案件的关键信息提供支持；利用该技术为包含相同或类似争议焦点的相似案例的智能检索和推送、基于争议焦点的依据法条的检索和推送、以及基于争议焦点的判罚估计提供辅助，以提高法官的办案效率和质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的案件检索方法的流程示意图；

图2是根据本发明实施例的案件检索系统的系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

根据本发明的实施例，提供了一种案件检索方法。

如图1所示，根据本发明实施例的案件检索方法包括以下步骤：

步骤S101，提取案件数据库中的案件要素信息与表述文本，对表述文本中的司法争议焦点描述文本进行聚类处理，并对得到的聚类类别进行标注与校验，形成争议焦点及要素标签库；

步骤S102，基于争议焦点及要素标签库，对案件数据库中的案件卷宗材料进行数据对应标注，形成具有争议焦点标签与案件要素标签的案件卷宗争议焦点库；

步骤S103，根据所述争议焦点及要素标签库、案件卷宗争议焦点库，利用机器学习技术，构建并训练案件语言检索模型；

步骤S104，对欲检索的案件材料，通过基于案件争议焦点的话题矛盾检测方法，确定案件卷宗材料中的矛盾点，并根据矛盾点提炼成该案件材料相匹配的争议焦点；

步骤S105，利用所述案件语言检索模型，根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务。

在本实施例中，在提取案件数据库中的案件要素信息与表述文本，对表述文本中的司法争议焦点描述文本进行聚类处理时，采用面向争议焦点的层次化主题聚类方法进行聚类处理。

在本实施例中，采用面向争议焦点的层次化主题聚类方法进行聚类处理包括以下步骤：从案件数据库中提取案件要素信息与表述文本的原始数据；采用GSOM算法对所述原始数据进行聚类，得到聚类类别；将每个聚类类别划分为多个子类，并从每个子类中选择抽样数据作为该子类的类别代表，并进行密度聚类。

在应用时，可使用具有最大关系值的数据代表子类的中心，使用具有最小关系值的数据代表子类的边缘位置，还可以选择一个数据来代表子类的中间部分，这样只需三个抽样数据就可以代表每个子类。

在本实施例中，所述GSOM算法的神经元权值调整函数公式为：

m_i(t+1)＝m_i(t)+h_c(x)，i(t)[x(t)-m_i(t)]；

在本实施例中，所述卷宗材料包括以下至少之一：笔录材料、答辩状材料、判决书材料。

在本实施例中，基于争议焦点及要素标签库，对案件数据库中的案件卷宗材料进行数据对应标注包括：采用机器学习技术，将争议焦点标签与案件要素标签匹配到具体的案件卷宗材料文本中。

在本实施例中，案件检索方法还包括：在对欲检索的案件材料，通过基于案件争议焦点的话题矛盾检测方法，确定案件卷宗材料中的矛盾点之前，先对与检索的案件材料进行篇章分析和语句分析。其中，所述篇章分析是对欲检索案件的卷宗材料基于文章结构级的分析，包括以下步骤：对欲检索案件的卷宗材料，根据材料的篇章构成进行结构划分，确定每个结构篇章；对每个结构篇章中的语句，进行逐条语句分析。所述语句分析包括以下步骤：对语句进行预处理，进行语句分词、词性标注处理；根据争议焦点标签库，找到相关性较大的语句，去掉无关的语句，减少干扰；标注语义角色，区分原被告各自的表述。

在本实施例中，所述话题矛盾检测方法包括通过矛盾检测模型进行检测，当检测模型中的模型公式的约束不相容时，优化算法会遇到收敛困难时，判定为存在矛盾并确定为矛盾点；所述矛盾检测模型的模型公式为：

min_x∈Rnf(x)；

s.t.c(x)＝0，x≥0；

在本实施例中，所述数据检索服务包括：基于争议焦点的相似案件检索和推送、基于争议焦点的法条归纳检索与推送、基于争议焦点的判罚估计检索与推送。

实施例二

根据本发明的实施例，提供了一种案件检索系统。

如图2所示，根据本发明的实施例的案件检索系统包括：

要素标签库形成模块201，用于提取案件数据库中的案件要素信息与表述文本，对表述文本中的司法争议焦点描述文本进行聚类处理，并对得到的聚类类别进行标注与校验，形成争议焦点及要素标签库；

卷宗争议焦点形成模块202，用于基于争议焦点及要素标签库，对案件数据库中的案件卷宗材料进行数据对应标注，形成具有争议焦点标签与案件要素标签的案件卷宗争议焦点库；

检索模型搭建模块203，用于据所述争议焦点及要素标签库、案件卷宗争议焦点库，利用机器学习技术，构建并训练案件语言检索模型；

案件矛盾点确认模块204，用于对欲检索的案件材料，通过基于案件争议焦点的话题矛盾检测方法，确定案件卷宗材料中的矛盾点，并根据矛盾点提炼成该案件材料相匹配的争议焦点；

检索服务模块205，用于利用所述案件语言检索模型，根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务。

在本实施例中，所述要素标签库形成模块201在提取案件数据库中的案件要素信息与表述文本，对表述文本中的司法争议焦点描述文本进行聚类处理时，采用面向争议焦点的层次化主题聚类方法进行聚类处理。

在本实施例中，所述要素标签库形成模块201包括数据提取子模块(图中未示出)、聚类子模块(图中未示出)、抽样数据选择子模块(图中未示出)；其中，数据提取子模块，用于从案件数据库中提取案件要素信息与表述文本的原始数据；聚类子模块，用于通过采用GSOM算法对所述原始数据进行聚类，得到聚类类别；抽样数据选择子模块，用于将每个聚类类别划分为多个子类，并从每个子类中选择抽样数据作为该子类的类别代表，并进行密度聚类。

在本实施例中，所述GSOM算法的神经元权值调整函数公式为：

m_i(t+1)＝m_i(t)+h_c(x)，i(t)[x(t)-m_i(t)]；

在本实施例中，所述卷宗争议焦点形成模块202在基于争议焦点及要素标签库，对案件数据库中的案件卷宗材料进行数据对应标注时，采用机器学习技术，将争议焦点标签与案件要素标签匹配到具体的案件卷宗材料文本中。

在本实施例中，所述案件矛盾点确认模块204还用于在对欲检索的案件材料，通过基于案件争议焦点的话题矛盾检测方法，确定案件卷宗材料中的矛盾点之前，先对与检索的案件材料进行篇章分析和语句分析。而在进行篇章分析时，是对欲检索案件的卷宗材料基于文章结构级的分析，包括：对欲检索案件的卷宗材料，根据材料的篇章构成进行结构划分，确定每个结构篇章；对每个结构篇章中的语句，进行逐条语句分析。在语句分析时，通过对语句进行预处理，进行语句分词、词性标注处理，并根据争议焦点标签库，找到相关性较大的语句，去掉无关的语句，减少干扰；再标注语义角色，区分原被告各自的表述

s.t.c(x)＝0，x≥0

在实际应用时，可进行四种应用场景的步骤，具体为：1、精准类案推送，通过过对接本地案例数据库，以及机器学习算法，总结海量的案件特征形成基于案由争议焦点的审判模型，通过提取当前案件的争议焦点特征与海量案例数据进行碰撞，精准推送与其相似的案件，精准性通过争议焦点与案件要素标签两个维度的相似算法来实现。2、精准适用法条推荐，基于精准类案推送，对接法律法规库，通过机器学习算法，归纳基于案由争议焦点的适用法条，根据当前案件案情的特征标签，精准推送其适用法条。3、判罚结果与判罚范围推荐，基于精准类案推送，以及大数据、机器学习技术，归纳基于案由争议焦点的判罚结果与判罚范围，根据当前案件的案情特征标签与判罚特征标签，估计其判罚结果与判罚范围。4、判决书说理部分内容推送，基于精准类案推送，提取形成基于案由的争议焦点说理库，在判决书说理部分攥写时，根据当前案件的案情特征，通过比对推送适合的说理语句，辅助法官在判决书说理部分的攥写工作。

综上所述，借助于本发明的上述技术方案，本发明了提供面向争议焦点的类案检索服务，通过智能化技术，分析案件诉辩过程中的争议焦点，为法官及其他司法人员快速、准确分析案件的关键信息提供支持；利用该技术为包含相同或类似争议焦点的相似案例的智能检索和推送、基于争议焦点的依据法条的检索和推送、以及基于争议焦点的判罚估计提供辅助，以提高法官的办案效率和质量。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种案件检索方法，其特征在于，包括以下步骤：

利用所述案件语言检索模型，根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务；

所述话题矛盾检测方法包括通过矛盾检测模型进行检测，当检测模型中的模型公式的约束不相容时，优化算法会遇到收敛困难时，判定为存在矛盾并确定为矛盾点；

所述矛盾检测模型的模型公式为：

s.t.c(x)＝0，x≥0；

2.根据权利要求1所述的案件检索方法，其特征在于，在提取案件数据库中的案件要素信息与表述文本，对表述文本中的司法争议焦点描述文本进行聚类处理时，采用面向争议焦点的层次化主题聚类方法进行聚类处理，采用面向争议焦点的层次化主题聚类方法进行聚类处理包括以下步骤：

从案件数据库中提取案件要素信息与表述文本的原始数据；

采用GSOM算法对所述原始数据进行聚类，得到聚类类别；

将每个聚类类别划分为多个子类，并从每个子类中选择抽样数据作为该子类的类别代表，并进行密度聚类。

3.根据权利要求2所述的案件检索方法，其特征在于，所述GSOM算法的神经元权值调整函数公式为：

m_i(t+1)＝m_i(t)+h_c(x)，i(t)[x(t)-m_i(t)]；

4.根据权利要求1所述的案件检索方法，其特征在于，还包括：

在对欲检索的案件材料，通过基于案件争议焦点的话题矛盾检测方法，确定案件卷宗材料中的矛盾点之前，先对与检索的案件材料进行篇章分析和语句分析。

5.一种案件检索系统，其特征在于，包括：

检索模型搭建模块，用于据所述争议焦点及要素标签库、案件卷宗争议焦点库，利用机器学习技术，构建并训练案件语言检索模型

检索服务模块，用于利用所述案件语言检索模型，根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务；

所述矛盾检测模型的模型公式为：

s.t.c(x)＝0，x≥0；

6.根据权利要求5所述的案件检索系统，其特征在于，所述要素标签库形成模块在提取案件数据库中的案件要素信息与表述文本，对表述文本中的司法争议焦点描述文本进行聚类处理时，采用面向争议焦点的层次化主题聚类方法进行聚类处理，所述要素标签库形成模块包括数据提取子模块、聚类子模块、抽样数据选择子模块；其中，

数据提取子模块，用于从案件数据库中提取案件要素信息与表述文本的原始数据；

聚类子模块，用于通过采用GSOM算法对所述原始数据进行聚类，得到聚类类别；

抽样数据选择子模块，用于将每个聚类类别划分为多个子类，并从每个子类中选择抽样数据作为该子类的类别代表，并进行密度聚类。

7.根据权利要求6所述的案件检索系统，其特征在于，所述GSOM算法的神经元权值调整函数公式为：

m_i(t+1)＝m_i(t)+h_c(x)，i(t)[x(t)-m_i(t)]；

8.根据权利要求7所述的案件检索系统，其特征在于，所述案件矛盾点确认模块还用于在对欲检索的案件材料，通过基于案件争议焦点的话题矛盾检测方法，确定案件卷宗材料中的矛盾点之前，先对与检索的案件材料进行篇章分析和语句分析。