CN110717041B - 一种案件检索方法及系统 - Google Patents
一种案件检索方法及系统 Download PDFInfo
- Publication number
- CN110717041B CN110717041B CN201910884088.0A CN201910884088A CN110717041B CN 110717041 B CN110717041 B CN 110717041B CN 201910884088 A CN201910884088 A CN 201910884088A CN 110717041 B CN110717041 B CN 110717041B
- Authority
- CN
- China
- Prior art keywords
- case
- dispute focus
- clustering
- contradiction
- materials
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000000463 material Substances 0.000 claims abstract description 82
- 238000001514 detection method Methods 0.000 claims abstract description 37
- 230000014509 gene expression Effects 0.000 claims abstract description 33
- 238000002372 labelling Methods 0.000 claims abstract description 14
- 238000007670 refining Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 36
- 210000002569 neuron Anatomy 0.000 claims description 36
- 238000004458 analytical method Methods 0.000 claims description 26
- 238000005516 engineering process Methods 0.000 claims description 15
- 238000010801 machine learning Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 9
- 238000013075 data extraction Methods 0.000 claims description 6
- 230000007423 decrease Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000012790 confirmation Methods 0.000 claims description 2
- 239000013590 bulk material Substances 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 230000006698 induction Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种案件检索方法及系统,该方法包括:提取案件数据库中的案件要素信息与表述文本,对司法争议焦点描述文本进行聚类处理,形成争议焦点及要素标签库;基于争议焦点及要素标签库,对案件数据库中的案件卷宗材料进行数据对应标注,形成案件卷宗争议焦点库;根据所述争议焦点及要素标签库、案件卷宗争议焦点库,构建并训练案件语言检索模型;对欲检索的案件材料,通过基于案件争议焦点的话题矛盾检测方法,确定案件卷宗材料中的矛盾点,并根据矛盾点提炼成该案件材料相匹配的争议焦点;利用所述案件语言检索模型,根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务。本发明能够从案件争议焦点角度进行相似案件的检索推送。
Description
技术领域
本发明涉及数据检索技术领域,具体来说,涉及一种案件检索方法及系统。
背景技术
随着社会信息的公开化、透明化,案件的审判结果也越来越受到社会的关注。对于同一个案件,不同的法官的裁量尺度的差别也往往不一样。如果能够在判决案件之前,及时的推荐以往的相似案件,无疑会起到一个很好的参考作用。
而在上述背景下,各级法院目前已经逐步上线了类案推荐系统,然而,现有的司类案推荐系统普遍采用的是基于向量空间模型相似度计算方法,通过检索关键词进行检索推送的。而这就使得司法人员在使用时,往往检索不到自己想要查询的审判要素点,或需要花费大量时间从推送的大量案件中逐个阅读查找,这不仅费事费力,而且效率低下。
针对上述相关技术中存在的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种案件检索方法及系统,能够从案件争议焦点角度进行相似案件的检索推送。
本发明的技术方案是这样实现的:
根据本发明的一方面,提供了一种案件检索方法。
该案件检索方法包括以下步骤:
提取案件数据库中的案件要素信息与表述文本,对表述文本中的司法争议焦点描述文本进行聚类处理,并对得到的聚类类别进行标注与校验,形成争议焦点及要素标签库;
基于争议焦点及要素标签库,对案件数据库中的案件卷宗材料进行数据对应标注,形成具有争议焦点标签与案件要素标签的案件卷宗争议焦点库;
根据所述争议焦点及要素标签库、案件卷宗争议焦点库,利用机器学习技术,构建并训练案件语言检索模型;
对欲检索的案件材料,通过基于案件争议焦点的话题矛盾检测方法,确定案件卷宗材料中的矛盾点,并根据矛盾点提炼成该案件材料相匹配的争议焦点;
利用所述案件语言检索模型,根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务。
此外,在提取案件数据库中的案件要素信息与表述文本,对表述文本中的司法争议焦点描述文本进行聚类处理时,采用面向争议焦点的层次化主题聚类方法进行聚类处理。
另外,采用面向争议焦点的层次化主题聚类方法进行聚类处理包括以下步骤:从案件数据库中提取案件要素信息与表述文本的原始数据;采用GSOM算法对所述原始数据进行聚类,得到聚类类别;将每个聚类类别划分为多个子类,并从每个子类中选择抽样数据作为该子类的类别代表,并进行密度聚类。
此外,所述GSOM算法的神经元权值调整函数公式为:
mi(t+1)=mi(t)+hc(x),i(t)[x(t)-mi(t)];
其中,t代表算法的迭代次数;mi(t+1)代表算法迭代t+1次后第i个神经元的特征向量;hc(x),i(t)代表近邻函数,其能够控制神经元的调整范围;x(t)代表随机选择的数据;c(x)代表获胜神经元;a(t)为学习速率,其随着算法迭代次数的增加而单调递减;||ri-rc(X)||代表获胜神经元与第i个神经元之间的距离;δ(t)为邻域函数。
优选的,所述卷宗材料包括以下至少之一:笔录材料、答辩状材料、判决书材料。
另外,基于争议焦点及要素标签库,对案件数据库中的案件卷宗材料进行数据对应标注包括:采用机器学习技术,将争议焦点标签与案件要素标签匹配到具体的案件卷宗材料文本中。
此外,上述案件检索方法还包括:在对欲检索的案件材料,通过基于案件争议焦点的话题矛盾检测方法,确定案件卷宗材料中的矛盾点之前,先对与检索的案件材料进行篇章分析和语句分析。
其中,所述篇章分析是对欲检索案件的卷宗材料基于文章结构级的分析,包括以下步骤:对欲检索案件的卷宗材料,根据材料的篇章构成进行结构划分,确定每个结构篇章;对每个结构篇章中的语句,进行逐条语句分析。所述语句分析包括以下步骤:对语句进行预处理,进行语句分词、词性标注处理;根据争议焦点标签库,找到相关性较大的语句,去掉无关的语句,减少干扰;标注语义角色,区分原被告各自的表述。
另外,所述话题矛盾检测方法包括通过矛盾检测模型进行检测,当检测模型中的模型公式的约束不相容时,优化算法会遇到收敛困难时,判定为存在矛盾并确定为矛盾点;所述矛盾检测模型的模型公式为:
s.t.c(x)=0,x≥0;
其中,f:Rn→R为目标函数;c:Rn→Rm为系统模型;x≥0为边界约束;min f(x)表示要最小化函数f(x),其中,x∈Rn表示变量x是一个n维向量,即x包含n个实数;s.t.c(x)=0为等式约束条件,表示要在满足条件c(x)=0的情况下进行优化,向量x的元素满足约束函数c(x)的值等于零;x≥0表示向量x的每个分量大于或等于零。
可选的,所述数据检索服务包括:基于争议焦点的相似案件检索和推送、基于争议焦点的法条归纳检索与推送、基于争议焦点的判罚估计检索与推送。
根据本发明的另一方面,提供了一种案件检索系统。
该案件检索系统包括:
要素标签库形成模块,用于提取案件数据库中的案件要素信息与表述文本,对表述文本中的司法争议焦点描述文本进行聚类处理,并对得到的聚类类别进行标注与校验,形成争议焦点及要素标签库;
卷宗争议焦点形成模块,用于基于争议焦点及要素标签库,对案件数据库中的案件卷宗材料进行数据对应标注,形成具有争议焦点标签与案件要素标签的案件卷宗争议焦点库;
检索模型搭建模块,用于据所述争议焦点及要素标签库、案件卷宗争议焦点库,利用机器学习技术,构建并训练案件语言检索模型;
案件矛盾点确认模块,用于对欲检索的案件材料,通过基于案件争议焦点的话题矛盾检测方法,确定案件卷宗材料中的矛盾点,并根据矛盾点提炼成该案件材料相匹配的争议焦点;
检索服务模块,用于利用所述案件语言检索模型,根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务。
此外,所述要素标签库形成模块在提取案件数据库中的案件要素信息与表述文本,对表述文本中的司法争议焦点描述文本进行聚类处理时,采用面向争议焦点的层次化主题聚类方法进行聚类处理。
另外,所述要素标签库形成模块包括数据提取子模块、聚类子模块、抽样数据选择子模块;其中,数据提取子模块,用于从案件数据库中提取案件要素信息与表述文本的原始数据;聚类子模块,用于通过采用GSOM算法对所述原始数据进行聚类,得到聚类类别;抽样数据选择子模块,用于将每个聚类类别划分为多个子类,并从每个子类中选择抽样数据作为该子类的类别代表,并进行密度聚类。
此外,所述GSOM算法的神经元权值调整函数公式为:
mi(t+1)=mi(t)+hc(x),i(t)[x(t)-mi(t)];
其中,t代表算法的迭代次数;mi(t+1)代表算法迭代t+1次后第i个神经元的特征向量;hc(x),i(t)代表近邻函数,其能够控制神经元的调整范围;x(t)代表随机选择的数据;c(x)代表获胜神经元;a(t)为学习速率,其随着算法迭代次数的增加而单调递减;||ri-rc(X)||代表获胜神经元与第i个神经元之间的距离;δ(t)为邻域函数。
可选的,所述卷宗材料包括以下至少之一:笔录材料、答辩状材料、判决书材料。
另外,所述卷宗争议焦点形成模块基于争议焦点及要素标签库,对案件数据库中的案件卷宗材料进行数据对应标注时,采用机器学习技术,将争议焦点标签与案件要素标签匹配到具体的案件卷宗材料文本中。
此外,所述案件矛盾点确认模块还用于在对欲检索的案件材料,通过基于案件争议焦点的话题矛盾检测方法,确定案件卷宗材料中的矛盾点之前,先对与检索的案件材料进行篇章分析和语句分析。
其中,所述案件矛盾点确认模块在进行篇章分析时,是对欲检索案件的卷宗材料基于文章结构级的分析,包括:对欲检索案件的卷宗材料,根据材料的篇章构成进行结构划分,确定每个结构篇章;对每个结构篇章中的语句,进行逐条语句分析。所述案件矛盾点确认模块在语句分析时,通过对语句进行预处理,进行语句分词、词性标注处理,并根据争议焦点标签库,找到相关性较大的语句,去掉无关的语句,减少干扰;再标注语义角色,区分原被告各自的表述。
另外,所述话题矛盾检测方法包括通过矛盾检测模型进行检测,当检测模型中的模型公式的约束不相容时,优化算法会遇到收敛困难时,判定为存在矛盾并确定为矛盾点;所述矛盾检测模型的模型公式为:
s.t.c(x)=0,x≥0;
其中,f:Rn→R为目标函数;c:Rn→Rm为系统模型;x≥0为边界约束;min f(x)表示要最小化函数f(x),其中,x∈Rn表示变量x是一个n维向量,即x包含n个实数;s.t.c(x)=0为等式约束条件,表示要在满足条件c(x)=0的情况下进行优化,向量x的元素满足约束函数c(x)的值等于零;x≥0表示向量x的每个分量大于或等于零。
可选的,所述数据检索服务包括:基于争议焦点的相似案件检索和推送、基于争议焦点的法条归纳检索与推送、基于争议焦点的判罚估计检索与推送。
有益效果:本发明了提供面向争议焦点的类案检索服务,通过智能化技术,分析案件诉辩过程中的争议焦点,为法官及其他司法人员快速、准确分析案件的关键信息提供支持;利用该技术为包含相同或类似争议焦点的相似案例的智能检索和推送、基于争议焦点的依据法条的检索和推送、以及基于争议焦点的判罚估计提供辅助,以提高法官的办案效率和质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的案件检索方法的流程示意图;
图2是根据本发明实施例的案件检索系统的系统框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
根据本发明的实施例,提供了一种案件检索方法。
如图1所示,根据本发明实施例的案件检索方法包括以下步骤:
步骤S101,提取案件数据库中的案件要素信息与表述文本,对表述文本中的司法争议焦点描述文本进行聚类处理,并对得到的聚类类别进行标注与校验,形成争议焦点及要素标签库;
步骤S102,基于争议焦点及要素标签库,对案件数据库中的案件卷宗材料进行数据对应标注,形成具有争议焦点标签与案件要素标签的案件卷宗争议焦点库;
步骤S103,根据所述争议焦点及要素标签库、案件卷宗争议焦点库,利用机器学习技术,构建并训练案件语言检索模型;
步骤S104,对欲检索的案件材料,通过基于案件争议焦点的话题矛盾检测方法,确定案件卷宗材料中的矛盾点,并根据矛盾点提炼成该案件材料相匹配的争议焦点;
步骤S105,利用所述案件语言检索模型,根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务。
在本实施例中,在提取案件数据库中的案件要素信息与表述文本,对表述文本中的司法争议焦点描述文本进行聚类处理时,采用面向争议焦点的层次化主题聚类方法进行聚类处理。
在本实施例中,采用面向争议焦点的层次化主题聚类方法进行聚类处理包括以下步骤:从案件数据库中提取案件要素信息与表述文本的原始数据;采用GSOM算法对所述原始数据进行聚类,得到聚类类别;将每个聚类类别划分为多个子类,并从每个子类中选择抽样数据作为该子类的类别代表,并进行密度聚类。
在应用时,可使用具有最大关系值的数据代表子类的中心,使用具有最小关系值的数据代表子类的边缘位置,还可以选择一个数据来代表子类的中间部分,这样只需三个抽样数据就可以代表每个子类。
在本实施例中,所述GSOM算法的神经元权值调整函数公式为:
mi(t+1)=mi(t)+hc(x),i(t)[x(t)-mi(t)];
其中,t代表算法的迭代次数;mi(t+1)代表算法迭代t+1次后第i个神经元的特征向量;hc(x),i(t)代表近邻函数,其能够控制神经元的调整范围;x(t)代表随机选择的数据;c(x)代表获胜神经元;a(t)为学习速率,其随着算法迭代次数的增加而单调递减;||ri-rc(X)||代表获胜神经元与第i个神经元之间的距离;δ(t)为邻域函数。
在本实施例中,所述卷宗材料包括以下至少之一:笔录材料、答辩状材料、判决书材料。
在本实施例中,基于争议焦点及要素标签库,对案件数据库中的案件卷宗材料进行数据对应标注包括:采用机器学习技术,将争议焦点标签与案件要素标签匹配到具体的案件卷宗材料文本中。
在本实施例中,案件检索方法还包括:在对欲检索的案件材料,通过基于案件争议焦点的话题矛盾检测方法,确定案件卷宗材料中的矛盾点之前,先对与检索的案件材料进行篇章分析和语句分析。其中,所述篇章分析是对欲检索案件的卷宗材料基于文章结构级的分析,包括以下步骤:对欲检索案件的卷宗材料,根据材料的篇章构成进行结构划分,确定每个结构篇章;对每个结构篇章中的语句,进行逐条语句分析。所述语句分析包括以下步骤:对语句进行预处理,进行语句分词、词性标注处理;根据争议焦点标签库,找到相关性较大的语句,去掉无关的语句,减少干扰;标注语义角色,区分原被告各自的表述。
在本实施例中,所述话题矛盾检测方法包括通过矛盾检测模型进行检测,当检测模型中的模型公式的约束不相容时,优化算法会遇到收敛困难时,判定为存在矛盾并确定为矛盾点;所述矛盾检测模型的模型公式为:
minx∈Rnf(x);
s.t.c(x)=0,x≥0;
其中,f:Rn→R为目标函数;c:Rn→Rm为系统模型;x≥0为边界约束;min f(x)表示要最小化函数f(x),其中,x∈Rn表示变量x是一个n维向量,即x包含n个实数;s.t.c(x)=0为等式约束条件,表示要在满足条件c(x)=0的情况下进行优化,向量x的元素满足约束函数c(x)的值等于零;x≥0表示向量x的每个分量大于或等于零。
在本实施例中,所述数据检索服务包括:基于争议焦点的相似案件检索和推送、基于争议焦点的法条归纳检索与推送、基于争议焦点的判罚估计检索与推送。
实施例二
根据本发明的实施例,提供了一种案件检索系统。
如图2所示,根据本发明的实施例的案件检索系统包括:
要素标签库形成模块201,用于提取案件数据库中的案件要素信息与表述文本,对表述文本中的司法争议焦点描述文本进行聚类处理,并对得到的聚类类别进行标注与校验,形成争议焦点及要素标签库;
卷宗争议焦点形成模块202,用于基于争议焦点及要素标签库,对案件数据库中的案件卷宗材料进行数据对应标注,形成具有争议焦点标签与案件要素标签的案件卷宗争议焦点库;
检索模型搭建模块203,用于据所述争议焦点及要素标签库、案件卷宗争议焦点库,利用机器学习技术,构建并训练案件语言检索模型;
案件矛盾点确认模块204,用于对欲检索的案件材料,通过基于案件争议焦点的话题矛盾检测方法,确定案件卷宗材料中的矛盾点,并根据矛盾点提炼成该案件材料相匹配的争议焦点;
检索服务模块205,用于利用所述案件语言检索模型,根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务。
在本实施例中,所述要素标签库形成模块201在提取案件数据库中的案件要素信息与表述文本,对表述文本中的司法争议焦点描述文本进行聚类处理时,采用面向争议焦点的层次化主题聚类方法进行聚类处理。
在本实施例中,所述要素标签库形成模块201包括数据提取子模块(图中未示出)、聚类子模块(图中未示出)、抽样数据选择子模块(图中未示出);其中,数据提取子模块,用于从案件数据库中提取案件要素信息与表述文本的原始数据;聚类子模块,用于通过采用GSOM算法对所述原始数据进行聚类,得到聚类类别;抽样数据选择子模块,用于将每个聚类类别划分为多个子类,并从每个子类中选择抽样数据作为该子类的类别代表,并进行密度聚类。
在本实施例中,所述GSOM算法的神经元权值调整函数公式为:
mi(t+1)=mi(t)+hc(x),i(t)[x(t)-mi(t)];
其中,t代表算法的迭代次数;mi(t+1)代表算法迭代t+1次后第i个神经元的特征向量;hc(x),i(t)代表近邻函数,其能够控制神经元的调整范围;x(t)代表随机选择的数据;c(x)代表获胜神经元;a(t)为学习速率,其随着算法迭代次数的增加而单调递减;||ri-rc(X)||代表获胜神经元与第i个神经元之间的距离;δ(t)为邻域函数。
在本实施例中,所述卷宗材料包括以下至少之一:笔录材料、答辩状材料、判决书材料。
在本实施例中,所述卷宗争议焦点形成模块202在基于争议焦点及要素标签库,对案件数据库中的案件卷宗材料进行数据对应标注时,采用机器学习技术,将争议焦点标签与案件要素标签匹配到具体的案件卷宗材料文本中。
在本实施例中,所述案件矛盾点确认模块204还用于在对欲检索的案件材料,通过基于案件争议焦点的话题矛盾检测方法,确定案件卷宗材料中的矛盾点之前,先对与检索的案件材料进行篇章分析和语句分析。而在进行篇章分析时,是对欲检索案件的卷宗材料基于文章结构级的分析,包括:对欲检索案件的卷宗材料,根据材料的篇章构成进行结构划分,确定每个结构篇章;对每个结构篇章中的语句,进行逐条语句分析。在语句分析时,通过对语句进行预处理,进行语句分词、词性标注处理,并根据争议焦点标签库,找到相关性较大的语句,去掉无关的语句,减少干扰;再标注语义角色,区分原被告各自的表述
在本实施例中,所述话题矛盾检测方法包括通过矛盾检测模型进行检测,当检测模型中的模型公式的约束不相容时,优化算法会遇到收敛困难时,判定为存在矛盾并确定为矛盾点;所述矛盾检测模型的模型公式为:
s.t.c(x)=0,x≥0
其中,f:Rn→R为目标函数;c:Rn→Rm为系统模型;x≥0为边界约束;min f(x)表示要最小化函数f(x),其中,x∈Rn表示变量x是一个n维向量,即x包含n个实数;s.t.c(x)=0为等式约束条件,表示要在满足条件c(x)=0的情况下进行优化,向量x的元素满足约束函数c(x)的值等于零;x≥0表示向量x的每个分量大于或等于零。
在实际应用时,可进行四种应用场景的步骤,具体为:1、精准类案推送,通过过对接本地案例数据库,以及机器学习算法,总结海量的案件特征形成基于案由争议焦点的审判模型,通过提取当前案件的争议焦点特征与海量案例数据进行碰撞,精准推送与其相似的案件,精准性通过争议焦点与案件要素标签两个维度的相似算法来实现。2、精准适用法条推荐,基于精准类案推送,对接法律法规库,通过机器学习算法,归纳基于案由争议焦点的适用法条,根据当前案件案情的特征标签,精准推送其适用法条。3、判罚结果与判罚范围推荐,基于精准类案推送,以及大数据、机器学习技术,归纳基于案由争议焦点的判罚结果与判罚范围,根据当前案件的案情特征标签与判罚特征标签,估计其判罚结果与判罚范围。4、判决书说理部分内容推送,基于精准类案推送,提取形成基于案由的争议焦点说理库,在判决书说理部分攥写时,根据当前案件的案情特征,通过比对推送适合的说理语句,辅助法官在判决书说理部分的攥写工作。
综上所述,借助于本发明的上述技术方案,本发明了提供面向争议焦点的类案检索服务,通过智能化技术,分析案件诉辩过程中的争议焦点,为法官及其他司法人员快速、准确分析案件的关键信息提供支持;利用该技术为包含相同或类似争议焦点的相似案例的智能检索和推送、基于争议焦点的依据法条的检索和推送、以及基于争议焦点的判罚估计提供辅助,以提高法官的办案效率和质量。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种案件检索方法,其特征在于,包括以下步骤:
提取案件数据库中的案件要素信息与表述文本,对表述文本中的司法争议焦点描述文本进行聚类处理,并对得到的聚类类别进行标注与校验,形成争议焦点及要素标签库;
基于争议焦点及要素标签库,对案件数据库中的案件卷宗材料进行数据对应标注,形成具有争议焦点标签与案件要素标签的案件卷宗争议焦点库;
根据所述争议焦点及要素标签库、案件卷宗争议焦点库,利用机器学习技术,构建并训练案件语言检索模型;
对欲检索的案件材料,通过基于案件争议焦点的话题矛盾检测方法,确定案件卷宗材料中的矛盾点,并根据矛盾点提炼成该案件材料相匹配的争议焦点;
利用所述案件语言检索模型,根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务;
所述话题矛盾检测方法包括通过矛盾检测模型进行检测,当检测模型中的模型公式的约束不相容时,优化算法会遇到收敛困难时,判定为存在矛盾并确定为矛盾点;
所述矛盾检测模型的模型公式为:
s.t.c(x)=0,x≥0;
其中,f:Rn→R为目标函数;c:Rn→Rm为系统模型;x≥0为边界约束;min f(x)表示要最小化函数f(x),其中,x∈Rn表示变量x是一个n维向量,即x包含n个实数;s.t.c(x)=0为等式约束条件,表示要在满足条件c(x)=0的情况下进行优化,向量x的元素满足约束函数c(x)的值等于零;x≥0表示向量x的每个分量大于或等于零。
2.根据权利要求1所述的案件检索方法,其特征在于,在提取案件数据库中的案件要素信息与表述文本,对表述文本中的司法争议焦点描述文本进行聚类处理时,采用面向争议焦点的层次化主题聚类方法进行聚类处理,采用面向争议焦点的层次化主题聚类方法进行聚类处理包括以下步骤:
从案件数据库中提取案件要素信息与表述文本的原始数据;
采用GSOM算法对所述原始数据进行聚类,得到聚类类别;
将每个聚类类别划分为多个子类,并从每个子类中选择抽样数据作为该子类的类别代表,并进行密度聚类。
3.根据权利要求2所述的案件检索方法,其特征在于,所述GSOM算法的神经元权值调整函数公式为:
mi(t+1)=mi(t)+hc(x),i(t)[x(t)-mi(t)];
其中,t代表算法的迭代次数;mi(t+1)代表算法迭代t+1次后第i个神经元的特征向量;hc(x),i(t)代表近邻函数,其能够控制神经元的调整范围;x(t)代表随机选择的数据;c(x)代表获胜神经元;a(t)为学习速率,其随着算法迭代次数的增加而单调递减;||ri-rc(X)||代表获胜神经元与第i个神经元之间的距离;δ(t)为邻域函数。
4.根据权利要求1所述的案件检索方法,其特征在于,还包括:
在对欲检索的案件材料,通过基于案件争议焦点的话题矛盾检测方法,确定案件卷宗材料中的矛盾点之前,先对与检索的案件材料进行篇章分析和语句分析。
5.一种案件检索系统,其特征在于,包括:
要素标签库形成模块,用于提取案件数据库中的案件要素信息与表述文本,对表述文本中的司法争议焦点描述文本进行聚类处理,并对得到的聚类类别进行标注与校验,形成争议焦点及要素标签库;
卷宗争议焦点形成模块,用于基于争议焦点及要素标签库,对案件数据库中的案件卷宗材料进行数据对应标注,形成具有争议焦点标签与案件要素标签的案件卷宗争议焦点库;
检索模型搭建模块,用于据所述争议焦点及要素标签库、案件卷宗争议焦点库,利用机器学习技术,构建并训练案件语言检索模型
案件矛盾点确认模块,用于对欲检索的案件材料,通过基于案件争议焦点的话题矛盾检测方法,确定案件卷宗材料中的矛盾点,并根据矛盾点提炼成该案件材料相匹配的争议焦点;
检索服务模块,用于利用所述案件语言检索模型,根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务;
所述话题矛盾检测方法包括通过矛盾检测模型进行检测,当检测模型中的模型公式的约束不相容时,优化算法会遇到收敛困难时,判定为存在矛盾并确定为矛盾点;
所述矛盾检测模型的模型公式为:
s.t.c(x)=0,x≥0;
其中,f:Rn→R为目标函数;c:Rn→Rm为系统模型;x≥0为边界约束;min f(x)表示要最小化函数f(x),其中,x∈Rn表示变量x是一个n维向量,即x包含n个实数;s.t.c(x)=0为等式约束条件,表示要在满足条件c(x)=0的情况下进行优化,向量x的元素满足约束函数c(x)的值等于零;x≥0表示向量x的每个分量大于或等于零。
6.根据权利要求5所述的案件检索系统,其特征在于,所述要素标签库形成模块在提取案件数据库中的案件要素信息与表述文本,对表述文本中的司法争议焦点描述文本进行聚类处理时,采用面向争议焦点的层次化主题聚类方法进行聚类处理,所述要素标签库形成模块包括数据提取子模块、聚类子模块、抽样数据选择子模块;其中,
数据提取子模块,用于从案件数据库中提取案件要素信息与表述文本的原始数据;
聚类子模块,用于通过采用GSOM算法对所述原始数据进行聚类,得到聚类类别;
抽样数据选择子模块,用于将每个聚类类别划分为多个子类,并从每个子类中选择抽样数据作为该子类的类别代表,并进行密度聚类。
7.根据权利要求6所述的案件检索系统,其特征在于,所述GSOM算法的神经元权值调整函数公式为:
mi(t+1)=mi(t)+hc(x),i(t)[x(t)-mi(t)];
其中,t代表算法的迭代次数;mi(t+1)代表算法迭代t+1次后第i个神经元的特征向量;hc(x),i(t)代表近邻函数,其能够控制神经元的调整范围;x(t)代表随机选择的数据;c(x)代表获胜神经元;a(t)为学习速率,其随着算法迭代次数的增加而单调递减;||ri-rc(X)||代表获胜神经元与第i个神经元之间的距离;δ(t)为邻域函数。
8.根据权利要求7所述的案件检索系统,其特征在于,所述案件矛盾点确认模块还用于在对欲检索的案件材料,通过基于案件争议焦点的话题矛盾检测方法,确定案件卷宗材料中的矛盾点之前,先对与检索的案件材料进行篇章分析和语句分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910884088.0A CN110717041B (zh) | 2019-09-19 | 2019-09-19 | 一种案件检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910884088.0A CN110717041B (zh) | 2019-09-19 | 2019-09-19 | 一种案件检索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110717041A CN110717041A (zh) | 2020-01-21 |
CN110717041B true CN110717041B (zh) | 2023-10-03 |
Family
ID=69209944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910884088.0A Active CN110717041B (zh) | 2019-09-19 | 2019-09-19 | 一种案件检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110717041B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111309911B (zh) * | 2020-02-17 | 2022-06-14 | 昆明理工大学 | 面向司法领域的案件话题发现方法 |
CN111666495B (zh) * | 2020-06-05 | 2023-08-11 | 北京百度网讯科技有限公司 | 案件推荐方法、装置、设备以及存储介质 |
CN111737420A (zh) * | 2020-08-07 | 2020-10-02 | 四川大学 | 一种基于争议焦点的类案检索方法及系统及装置及介质 |
CN111651566B (zh) * | 2020-08-10 | 2020-12-01 | 四川大学 | 基于多任务的小样本学习的裁判文书争议焦点提取方法 |
CN112464675B (zh) * | 2020-12-02 | 2024-04-16 | 科大讯飞股份有限公司 | 一种言辞矛盾检测方法、装置、设备及存储介质 |
CN113177106B (zh) * | 2021-05-19 | 2024-04-12 | 苏州黑云智能科技有限公司 | 一种基于要素提取的相似判决书检索方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108241621A (zh) * | 2016-12-23 | 2018-07-03 | 北京国双科技有限公司 | 法律知识的检索方法及装置 |
CN108334500A (zh) * | 2018-03-05 | 2018-07-27 | 上海思贤信息技术股份有限公司 | 一种基于机器学习算法的裁判文书标注方法及装置 |
CN110175605A (zh) * | 2019-05-27 | 2019-08-27 | 北京市律典通科技有限公司 | 基于要素式的电子审判数据处理方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106663087B (zh) * | 2014-10-01 | 2019-08-16 | 株式会社日立制作所 | 文章生成系统 |
-
2019
- 2019-09-19 CN CN201910884088.0A patent/CN110717041B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108241621A (zh) * | 2016-12-23 | 2018-07-03 | 北京国双科技有限公司 | 法律知识的检索方法及装置 |
CN108334500A (zh) * | 2018-03-05 | 2018-07-27 | 上海思贤信息技术股份有限公司 | 一种基于机器学习算法的裁判文书标注方法及装置 |
CN110175605A (zh) * | 2019-05-27 | 2019-08-27 | 北京市律典通科技有限公司 | 基于要素式的电子审判数据处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110717041A (zh) | 2020-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717041B (zh) | 一种案件检索方法及系统 | |
CN107491531B (zh) | 基于集成学习框架的中文网络评论情感分类方法 | |
CN109165291B (zh) | 一种文本匹配方法及电子设备 | |
CN111104526A (zh) | 一种基于关键词语义的金融标签提取方法及系统 | |
CN107193796B (zh) | 一种舆情事件检测方法及装置 | |
CN101751455B (zh) | 采用人工智能技术自动产生标题的方法 | |
CN101127042A (zh) | 一种基于语言模型的情感分类方法 | |
CN111832290A (zh) | 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质 | |
CN111694927B (zh) | 一种基于改进词移距离算法的文档自动评阅方法 | |
CN109213998B (zh) | 中文错字检测方法及系统 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN111222330B (zh) | 一种中文事件的检测方法和系统 | |
CN118096452B (zh) | 一种案件辅助审判方法、装置、终端设备及介质 | |
CN112667815A (zh) | 文本处理方法、装置、计算机可读存储介质及处理器 | |
CN111125443A (zh) | 一种基于自动去重的试题题库在线更新方法 | |
Kongwan et al. | anaphora resolution in Thai EDU segmentation | |
CN116933782A (zh) | 一种电商文本关键词提取处理方法及系统 | |
CN116644174A (zh) | 一种基于科技政策的资源分类筛选方法和系统 | |
CN115994531A (zh) | 一种多维度文本综合辨识方法 | |
CN110837735B (zh) | 一种数据智能分析识别方法及系统 | |
BOUGHACI et al. | An improved N-grams based Model for Authorship Attribution | |
CN113064979A (zh) | 基于关键词检索的工期和价格合理性判断方法 | |
CN109408801A (zh) | 一种基于朴素贝叶斯算法的中文分词方法 | |
CN117829140B (zh) | 用于规章与法规的自动比对方法及其系统 | |
CN118170933B (zh) | 一种面向科学领域多模态语料数据的构建方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |