CN112733521B - 一种用于确认法律案件相似关系的方法 - Google Patents

一种用于确认法律案件相似关系的方法 Download PDF

Info

Publication number
CN112733521B
CN112733521B CN202110058269.5A CN202110058269A CN112733521B CN 112733521 B CN112733521 B CN 112733521B CN 202110058269 A CN202110058269 A CN 202110058269A CN 112733521 B CN112733521 B CN 112733521B
Authority
CN
China
Prior art keywords
similarity
legal
text
numerical
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110058269.5A
Other languages
English (en)
Other versions
CN112733521A (zh
Inventor
潘成华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Netmarch Technologies Co ltd
Original Assignee
Jiangsu Netmarch Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Netmarch Technologies Co ltd filed Critical Jiangsu Netmarch Technologies Co ltd
Priority to CN202110058269.5A priority Critical patent/CN112733521B/zh
Publication of CN112733521A publication Critical patent/CN112733521A/zh
Application granted granted Critical
Publication of CN112733521B publication Critical patent/CN112733521B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Technology Law (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于确认法律案件相似关系的方法,其包括如下步骤:获取法律案件的特征,并将属性划分为范围、文本、数值三个类别;根据所述法律案件的范围属性集合,通过区间相似计算方法获取相似度;根据所述法律案件的文本属性集合,通过余弦相似计算方法获取相似度;根据所示法律案件的数值属性集合,通过数值相似度计算方法获取相似度;根据所述获取的范围、文本、数值相似度,获取法律案件相似关系。对法律案件的不同属性领域进行划分,有利于从多个角度分析法律在成分、制造、使用上的不同所带来的效果。

Description

一种用于确认法律案件相似关系的方法
技术领域
本发明涉及用于法律案件处理领域,尤其涉及一种用于确认法律案件相似关系的方法。
背景技术
法律案件含有繁多的属性,属性的细微差异会造成法律案件相似度变化,法律案件本身所包含的三种领域属性:范围、文本、数值,使得法律案件之间在此基础上形成三种相似关系。
对法律案件进行范围、文本、数值三个属性的划分,通过计算分别得到相似关系并在此基础上建立法律案件间的关系,有利于从多个角度分析法律案件在属性上的不同所带来的效果,研究法律案件间的异同点,充分挖掘法律案件之间的关系,并据此改进法律相似案件的计算流程,实现相似案件的检索和推荐。
本发明提供一种用于确认法律案件相似关系的方法来从多个角度分析法律在成分、制造、使用上的不同所带来的效果。
发明内容
本发明的目的在于,提供了一种用于确认法律案件相似关系的方法,研究法律案件间的异同点,充分挖掘法律案件之间的细粒度关系,并据此指导改进法律生产流程,实现法律数值提升。
为实现上述目的,本发明提供如下技术方案:步骤S101:获取法律案件的特征,并将属性划分为范围、文本、数值三个类别;
步骤S102:根据所述法律案件的范围属性集合,通过区间相似计算方法获取相似度;
步骤S103:根据所述法律案件的文本属性集合,通过余弦相似计算方法获取相似度;
步骤S104:根据所示法律案件的数值属性集合,通过数值相似度计算方法获取相似度;
步骤S105:根据所述获取的范围、文本、数值相似度,获取法律案件相似关系。
与现有技术相比,本发明一种用于确认法律案件相似关系的方法的有益效果在于,对法律案件的不同属性领域进行划分,有利于从多个角度分析法律在成分、制造、使用上的不同所带来的效果,研究法律案件间的异同点,充分挖掘法律案件之间的细粒度关系,并据此指导改进法律生产流程,实现法律数值提升。
附图说明
图1为本发明用于确认法律案件相似关系的方法的流程示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1为一种用于确认法律案件相似关系的方法的流程图,本发明提供一种用于确认法律案件相似关系的方法,其步骤包括如下:
步骤S101:根据输入需要获取法律案件的特征并将属性划分为范围、文本、数值三个类别;
将文本划分为范围、文本、数值三个类别,包括:
根据文本属性描述和值特征划分文本属性,对于文本所包含的属性集合{Xi i=1,2,…n},n为属性个数,通过不同的属性描述和属性值特征,根据区间、文本、数值三种表现形式,对法律案件划分所述文本属性集合{X范围n1n1=1,2,3,…m1}、{X文本n2 n2=1,2,3,…m2}、{X数值n3 n3=1,2,3,…m3},其中m1+m2+m3=n。
步骤S102:根据所述法律案件的范围属性集合,通过区间相似计算方法获取相似度;
具体的,根据所述法律案件的范围属性集合,通过区间相似计算方法获取相似度可以通过如下方式实现:
获取法律案件的范围属性集合{X范围n1 n1=1,2,3,…m1},提取需要获取的两个法律案件所共有的范围属性,并通过区间相似计算方法获取相似度。
通过区间相似计算方法获取相似度,具体满足下述条件:
Figure BDA0002901493550000031
其中,i,j分别表示需要对比的两个法律案件,m1为范围的属性集合,A表示法律案件i的m1属性所占区间,B表示法律案件j的m1属性所占区间。
根据每个范围属性,获取法律案件的整体范围相似度,具体满足下述条件:
Figure BDA0002901493550000032
其中
Figure BDA0002901493550000033
为所述法律案件的整体范围相似度。
步骤S103:根据所述法律案件的文本属性集合,通过余弦相似计算方法获取相似度;
具体的,所述法律案件的文本属性集合,通过余弦相似计算方法获取相似度可以通过如下方式实现:
获取法律案件的文本属性集合{X文本n2 n2=1,2,3,…m2},提取需要获取的两个法律案件所共有的文本属性,并通过余弦相似度计算方法获取相似度,包括文本预处理和相似度计算。
可选地,所述文本预处理方法,包括对法律文本描述文本进行词语切分。
可选地,所述对法律文本描述文本进行词语切分的结果进行歧义消解和停用词消除。
可选地,根据word2vec空间向量模型对消歧和去停用词后的法律文本文本进行向量化表示。
所述的余弦相似度计算相似度,具体满足下述条件:
Figure BDA0002901493550000034
其中,i,j分别表示需要对比的两个法律案件,m2为文本的属性集合,a表示法律案件i的m2属性的描述文本,b表示法律案件j的m2属性的描述文本。
根据每个文本属性,获取法律案件的整体文本相似度,具体满足下述条件:
Figure BDA0002901493550000041
其中
Figure BDA0002901493550000042
为所述法律案件的整体文本相似度。
步骤S104:根据所示法律案件的数值属性集合,通过数值相似度计算方法获取相似度;
具体的,根据所述法律案件的数值属性集合,通过数值相似计算方法获取相似度可以通过如下方式实现:
获取法律案件的数值属性集合{X数值n3 n3=1,2,3,…m3},并通过数值相似计算方法获取法律案件数值相似度。
通过数值计算方法获取法律案件数值相似度,具体满足下述条件:
Figure BDA0002901493550000043
其中,i,j分别表示需要对比的两个法律案件,m3为数值的属性集合,x表示法律案件i的m3属性的数值数值,y表示法律案件j的m3属性的数值数值。
根据每个数值属性,获取法律案件的整体数值相似度,具体满足下述条件:
Figure BDA0002901493550000044
其中
Figure BDA0002901493550000045
为所述法律案件的整体数值相似度。
根据所述计算的范围、文本、数值相似度,获取法律案件相似关系,具体满足下述条件:
Figure BDA0002901493550000046
其中α,β,γ为分别预设的权重值,
最终获取得到法律案件的相似关系。
步骤S105:根据所述计算的范围、文本、数值相似度,获取法律案件相似关系。
本发明提出将法律案件的属性分领域计算,避免了由于属性的表现形式不同造成的法律案件相似度无法计算。
本发明提出了对于法律组成使用区间相似方法计算相似度,对于法律文本使用余弦相似方法计算相似度,对于法律数值使用数值相似度方法计算相似度。为不同形式的文本属性提供了解决方案。
本发明对法律案件的不同属性领域进行划分,有利于从多个角度分析法律在成分、制造、使用上的不同所带来的效果,研究法律案件间的异同点,充分挖掘法律案件之间的细粒度关系,并据此指导改进法律生产流程,实现法律数值提升。
综上所述,本发明主要是针对法律领域的文本相似关系计算,提出了属性分领域,分方法的获取方法。从而避免了由于法律案件存在繁多的属性,使用简单同一的获取方式所造成结果的不准确。本发明针对三种不同属性各自使用不同获取方式,避免不同形式的数据混合计算,使最终的计算准确度更高。

Claims (5)

1.一种用于确认法律案件相似关系的方法,其特征在于,其包括如下步骤:
步骤S101:获取法律案件的特征,并将属性划分为范围、文本、数值三个类别;其中,根据文本属性描述和值特征划分文本属性,对于文本所包含的属性集合{Xii=1,2,…n},n为属性个数,通过不同的属性描述和属性值特征,根据区间、文本、数值三种表现形式,对法律案件划分所述文本属性集合{X范围n1 n1=1,2,3,…m1}、{X文本n2 n2=1,2,3,…m2}、{X数值n3 n3=1,2,3,…m3},其中m1+m2+m3=n;
步骤S102:根据所述法律案件的范围属性集合,通过区间相似计算方法获取相似度;获取法律案件的范围属性集合{X范围n1 n1=1,2,3,…m1},提取需要获取的两个法律案件所共有的范围属性,并通过区间相似计算方法获取相似度,通过区间相似计算方法获取相似度,具体满足下述条件:
Figure FDA0004253271900000011
其中,i,j分别表示需要对比的两个法律案件,m1为范围的属性集合,A表示法律案件i的m1属性所占区间,B表示法律案件j的m1属性所占区间;
步骤S103:根据所述法律案件的文本属性集合,通过余弦相似计算方法获取相似度;其包括:获取法律案件的文本属性集合{X文本n2 n2=1,2,3,…m2},提取需要获取的两个法律案件所共有的文本属性,并通过余弦相似度计算方法获取相似度,包括文本预处理和相似度计算;所述的余弦相似度计算相似度,具体满足下述条件:
Figure FDA0004253271900000012
其中,i,j分别表示需要对比的两个法律案件,m2为文本的属性集合,a表示法律案件i的m2属性的描述文本,b表示法律案件j的m2属性的描述文本;
步骤S104:根据所示法律案件的数值属性集合,通过数值相似度计算方法获取相似度;其包括:获取法律案件的数值属性集合{X数值n3 n3=1,2,3,…m3},并通过数值相似计算方法获取法律案件数值相似度;
通过数值计算方法获取法律案件数值相似度,具体满足下述条件:
Figure FDA0004253271900000021
其中,i,j分别表示需要对比的两个法律案件,m3为数值的属性集合,x表示法律案件i的m3属性的数值数值,y表示法律案件j的m3属性的数值数值;
步骤S105:根据所述获取的范围、文本、数值相似度,获取法律案件相似关系。
2.如权利要求1所述的用于确认法律案件相似关系的方法,其特征在于,根据每个范围属性,计算法律案件的整体范围相似度,具体满足下述公式:
Figure FDA0004253271900000022
其中
Figure FDA0004253271900000023
为所述法律案件的整体范围相似度。
3.如权利要求1所述的用于确认法律案件相似关系的方法,其特征在于,
根据每个文本属性,获取法律案件的整体文本相似度,具体满足下述条件:
Figure FDA0004253271900000024
其中
Figure FDA0004253271900000025
为所述法律案件的整体文本相似度。
4.如权利要求1所述的用于确认法律案件相似关系的方法,其特征在于,
根据每个数值属性,获取法律案件的整体数值相似度,具体满足下述条件:
Figure FDA0004253271900000026
其中
Figure FDA0004253271900000027
为所述法律案件的整体数值相似度。
5.如权利要求4所述的用于确认法律案件相似关系的方法,其特征在于,通过数值计算方法获取法律案件数值相似度,具体满足下述条件:
Figure FDA0004253271900000028
其中,i,j分别表示需要对比的两个法律案件,m3为数值的属性集合,x表示法律案件i的m3属性的数值数值,y表示法律案件j的m3属性的数值数值;
根据每个数值属性,获取法律案件的整体数值相似度,具体满足下述条件:
Figure FDA0004253271900000031
其中
Figure FDA0004253271900000032
为所述法律案件的整体数值相似度;
根据所述计算的范围、文本、数值相似度,获取法律案件相似关系,具体满足下述条件:
Figure FDA0004253271900000033
其中α,β,γ为分别预设的权重值,
最终获取得到法律案件的相似关系。
CN202110058269.5A 2021-01-16 2021-01-16 一种用于确认法律案件相似关系的方法 Active CN112733521B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110058269.5A CN112733521B (zh) 2021-01-16 2021-01-16 一种用于确认法律案件相似关系的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110058269.5A CN112733521B (zh) 2021-01-16 2021-01-16 一种用于确认法律案件相似关系的方法

Publications (2)

Publication Number Publication Date
CN112733521A CN112733521A (zh) 2021-04-30
CN112733521B true CN112733521B (zh) 2023-07-04

Family

ID=75591775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110058269.5A Active CN112733521B (zh) 2021-01-16 2021-01-16 一种用于确认法律案件相似关系的方法

Country Status (1)

Country Link
CN (1) CN112733521B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547279B (zh) * 2022-02-21 2023-04-28 电子科技大学 一种基于混合过滤的司法推荐方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014002776A1 (ja) * 2012-06-25 2014-01-03 日本電気株式会社 同義語抽出システム、方法および記録媒体
CN110019790A (zh) * 2017-10-09 2019-07-16 阿里巴巴集团控股有限公司 文本识别、文本监控、数据对象识别、数据处理方法
CN110197197A (zh) * 2019-04-15 2019-09-03 贵州电网有限责任公司 一种基于文本相似度改进的电网档案相似度计算方法
CN111400445A (zh) * 2020-03-10 2020-07-10 中国人民大学 一种基于相似文本的案件繁简分流方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014002776A1 (ja) * 2012-06-25 2014-01-03 日本電気株式会社 同義語抽出システム、方法および記録媒体
CN110019790A (zh) * 2017-10-09 2019-07-16 阿里巴巴集团控股有限公司 文本识别、文本监控、数据对象识别、数据处理方法
CN110197197A (zh) * 2019-04-15 2019-09-03 贵州电网有限责任公司 一种基于文本相似度改进的电网档案相似度计算方法
CN111400445A (zh) * 2020-03-10 2020-07-10 中国人民大学 一种基于相似文本的案件繁简分流方法

Also Published As

Publication number Publication date
CN112733521A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
Triantaphyllou et al. The impact of aggregating benefit and cost criteria in four MCDA methods
US20190138501A1 (en) System and Method for Compressing Data in a Database
CN112733521B (zh) 一种用于确认法律案件相似关系的方法
WO2021047373A1 (zh) 基于大数据的列数据处理方法、设备及介质
CN105373546B (zh) 一种用于知识服务的信息处理方法及系统
CN100354864C (zh) 数据挖掘中一种基于混合互信息的特征选择方法
CN113051370B (zh) 基于数学表达式评估语言的相似性测度方法
CN104317936A (zh) 一种基于星型模型的rolap解析引擎设计方法及装置
CN105912723B (zh) 一种自定义字段的存储方法
CN107193906B (zh) 工艺管道仪表图物料清单的生成方法及装置
CN109376120A (zh) 一种内存优化的数据文件格式转化方法、装置及存储介质
CN111159221B (zh) 一种通过动态构建立方体进行数据处理或查询的方法
CN110609927B (zh) 一种可视化家谱布局方法、终端设备及存储介质
Xie et al. Are global value chains merely global? The case of Chinese Provinces in global value chains
Yang Factor price distortion among regions in China and its influence on China’s economic growth
CN109033388B (zh) 精确读取曲线图图片上点坐标的方法
CN109740421A (zh) 一种基于形状的零件分类方法
Cartwright Simpson’s Rule Integration with MS Excel and Irregularly-spaced Data
CN111191004B (zh) 文本标签提取方法、装置及计算机可读存储介质
Bakar et al. Income modeling with the Weibull mixtures
Kim et al. Non-parametric hazard function estimation using the Kaplan–Meier estimator
Frick et al. Random permutations and unique fully supported ergodicity for the Euler adic transformation
Shott et al. Scale of production at prehistoric quarries: A pilot study in extending the “analytical core unit” concept
Pan et al. The cantor set’s multi-fractal spectrum formed by different probability factors in mathematical experiment
Silva et al. Using reorderable matrices to compare risk curves of representative models in oil reservoir development and management activities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant