CN112733521B - 一种用于确认法律案件相似关系的方法 - Google Patents
一种用于确认法律案件相似关系的方法 Download PDFInfo
- Publication number
- CN112733521B CN112733521B CN202110058269.5A CN202110058269A CN112733521B CN 112733521 B CN112733521 B CN 112733521B CN 202110058269 A CN202110058269 A CN 202110058269A CN 112733521 B CN112733521 B CN 112733521B
- Authority
- CN
- China
- Prior art keywords
- similarity
- legal
- text
- numerical
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 35
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 239000000203 mixture Substances 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Technology Law (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用于确认法律案件相似关系的方法,其包括如下步骤:获取法律案件的特征,并将属性划分为范围、文本、数值三个类别;根据所述法律案件的范围属性集合,通过区间相似计算方法获取相似度;根据所述法律案件的文本属性集合,通过余弦相似计算方法获取相似度;根据所示法律案件的数值属性集合,通过数值相似度计算方法获取相似度;根据所述获取的范围、文本、数值相似度,获取法律案件相似关系。对法律案件的不同属性领域进行划分,有利于从多个角度分析法律在成分、制造、使用上的不同所带来的效果。
Description
技术领域
本发明涉及用于法律案件处理领域,尤其涉及一种用于确认法律案件相似关系的方法。
背景技术
法律案件含有繁多的属性,属性的细微差异会造成法律案件相似度变化,法律案件本身所包含的三种领域属性:范围、文本、数值,使得法律案件之间在此基础上形成三种相似关系。
对法律案件进行范围、文本、数值三个属性的划分,通过计算分别得到相似关系并在此基础上建立法律案件间的关系,有利于从多个角度分析法律案件在属性上的不同所带来的效果,研究法律案件间的异同点,充分挖掘法律案件之间的关系,并据此改进法律相似案件的计算流程,实现相似案件的检索和推荐。
本发明提供一种用于确认法律案件相似关系的方法来从多个角度分析法律在成分、制造、使用上的不同所带来的效果。
发明内容
本发明的目的在于,提供了一种用于确认法律案件相似关系的方法,研究法律案件间的异同点,充分挖掘法律案件之间的细粒度关系,并据此指导改进法律生产流程,实现法律数值提升。
为实现上述目的,本发明提供如下技术方案:步骤S101:获取法律案件的特征,并将属性划分为范围、文本、数值三个类别;
步骤S102:根据所述法律案件的范围属性集合,通过区间相似计算方法获取相似度;
步骤S103:根据所述法律案件的文本属性集合,通过余弦相似计算方法获取相似度;
步骤S104:根据所示法律案件的数值属性集合,通过数值相似度计算方法获取相似度;
步骤S105:根据所述获取的范围、文本、数值相似度,获取法律案件相似关系。
与现有技术相比,本发明一种用于确认法律案件相似关系的方法的有益效果在于,对法律案件的不同属性领域进行划分,有利于从多个角度分析法律在成分、制造、使用上的不同所带来的效果,研究法律案件间的异同点,充分挖掘法律案件之间的细粒度关系,并据此指导改进法律生产流程,实现法律数值提升。
附图说明
图1为本发明用于确认法律案件相似关系的方法的流程示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1为一种用于确认法律案件相似关系的方法的流程图,本发明提供一种用于确认法律案件相似关系的方法,其步骤包括如下:
步骤S101:根据输入需要获取法律案件的特征并将属性划分为范围、文本、数值三个类别;
将文本划分为范围、文本、数值三个类别,包括:
根据文本属性描述和值特征划分文本属性,对于文本所包含的属性集合{Xi i=1,2,…n},n为属性个数,通过不同的属性描述和属性值特征,根据区间、文本、数值三种表现形式,对法律案件划分所述文本属性集合{X范围n1n1=1,2,3,…m1}、{X文本n2 n2=1,2,3,…m2}、{X数值n3 n3=1,2,3,…m3},其中m1+m2+m3=n。
步骤S102:根据所述法律案件的范围属性集合,通过区间相似计算方法获取相似度;
具体的,根据所述法律案件的范围属性集合,通过区间相似计算方法获取相似度可以通过如下方式实现:
获取法律案件的范围属性集合{X范围n1 n1=1,2,3,…m1},提取需要获取的两个法律案件所共有的范围属性,并通过区间相似计算方法获取相似度。
通过区间相似计算方法获取相似度,具体满足下述条件:
其中,i,j分别表示需要对比的两个法律案件,m1为范围的属性集合,A表示法律案件i的m1属性所占区间,B表示法律案件j的m1属性所占区间。
根据每个范围属性,获取法律案件的整体范围相似度,具体满足下述条件:
步骤S103:根据所述法律案件的文本属性集合,通过余弦相似计算方法获取相似度;
具体的,所述法律案件的文本属性集合,通过余弦相似计算方法获取相似度可以通过如下方式实现:
获取法律案件的文本属性集合{X文本n2 n2=1,2,3,…m2},提取需要获取的两个法律案件所共有的文本属性,并通过余弦相似度计算方法获取相似度,包括文本预处理和相似度计算。
可选地,所述文本预处理方法,包括对法律文本描述文本进行词语切分。
可选地,所述对法律文本描述文本进行词语切分的结果进行歧义消解和停用词消除。
可选地,根据word2vec空间向量模型对消歧和去停用词后的法律文本文本进行向量化表示。
所述的余弦相似度计算相似度,具体满足下述条件:
其中,i,j分别表示需要对比的两个法律案件,m2为文本的属性集合,a表示法律案件i的m2属性的描述文本,b表示法律案件j的m2属性的描述文本。
根据每个文本属性,获取法律案件的整体文本相似度,具体满足下述条件:
步骤S104:根据所示法律案件的数值属性集合,通过数值相似度计算方法获取相似度;
具体的,根据所述法律案件的数值属性集合,通过数值相似计算方法获取相似度可以通过如下方式实现:
获取法律案件的数值属性集合{X数值n3 n3=1,2,3,…m3},并通过数值相似计算方法获取法律案件数值相似度。
通过数值计算方法获取法律案件数值相似度,具体满足下述条件:
其中,i,j分别表示需要对比的两个法律案件,m3为数值的属性集合,x表示法律案件i的m3属性的数值数值,y表示法律案件j的m3属性的数值数值。
根据每个数值属性,获取法律案件的整体数值相似度,具体满足下述条件:
根据所述计算的范围、文本、数值相似度,获取法律案件相似关系,具体满足下述条件:
其中α,β,γ为分别预设的权重值,
最终获取得到法律案件的相似关系。
步骤S105:根据所述计算的范围、文本、数值相似度,获取法律案件相似关系。
本发明提出将法律案件的属性分领域计算,避免了由于属性的表现形式不同造成的法律案件相似度无法计算。
本发明提出了对于法律组成使用区间相似方法计算相似度,对于法律文本使用余弦相似方法计算相似度,对于法律数值使用数值相似度方法计算相似度。为不同形式的文本属性提供了解决方案。
本发明对法律案件的不同属性领域进行划分,有利于从多个角度分析法律在成分、制造、使用上的不同所带来的效果,研究法律案件间的异同点,充分挖掘法律案件之间的细粒度关系,并据此指导改进法律生产流程,实现法律数值提升。
综上所述,本发明主要是针对法律领域的文本相似关系计算,提出了属性分领域,分方法的获取方法。从而避免了由于法律案件存在繁多的属性,使用简单同一的获取方式所造成结果的不准确。本发明针对三种不同属性各自使用不同获取方式,避免不同形式的数据混合计算,使最终的计算准确度更高。
Claims (5)
1.一种用于确认法律案件相似关系的方法,其特征在于,其包括如下步骤:
步骤S101:获取法律案件的特征,并将属性划分为范围、文本、数值三个类别;其中,根据文本属性描述和值特征划分文本属性,对于文本所包含的属性集合{Xii=1,2,…n},n为属性个数,通过不同的属性描述和属性值特征,根据区间、文本、数值三种表现形式,对法律案件划分所述文本属性集合{X范围n1 n1=1,2,3,…m1}、{X文本n2 n2=1,2,3,…m2}、{X数值n3 n3=1,2,3,…m3},其中m1+m2+m3=n;
步骤S102:根据所述法律案件的范围属性集合,通过区间相似计算方法获取相似度;获取法律案件的范围属性集合{X范围n1 n1=1,2,3,…m1},提取需要获取的两个法律案件所共有的范围属性,并通过区间相似计算方法获取相似度,通过区间相似计算方法获取相似度,具体满足下述条件:
其中,i,j分别表示需要对比的两个法律案件,m1为范围的属性集合,A表示法律案件i的m1属性所占区间,B表示法律案件j的m1属性所占区间;
步骤S103:根据所述法律案件的文本属性集合,通过余弦相似计算方法获取相似度;其包括:获取法律案件的文本属性集合{X文本n2 n2=1,2,3,…m2},提取需要获取的两个法律案件所共有的文本属性,并通过余弦相似度计算方法获取相似度,包括文本预处理和相似度计算;所述的余弦相似度计算相似度,具体满足下述条件:
其中,i,j分别表示需要对比的两个法律案件,m2为文本的属性集合,a表示法律案件i的m2属性的描述文本,b表示法律案件j的m2属性的描述文本;
步骤S104:根据所示法律案件的数值属性集合,通过数值相似度计算方法获取相似度;其包括:获取法律案件的数值属性集合{X数值n3 n3=1,2,3,…m3},并通过数值相似计算方法获取法律案件数值相似度;
通过数值计算方法获取法律案件数值相似度,具体满足下述条件:
其中,i,j分别表示需要对比的两个法律案件,m3为数值的属性集合,x表示法律案件i的m3属性的数值数值,y表示法律案件j的m3属性的数值数值;
步骤S105:根据所述获取的范围、文本、数值相似度,获取法律案件相似关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110058269.5A CN112733521B (zh) | 2021-01-16 | 2021-01-16 | 一种用于确认法律案件相似关系的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110058269.5A CN112733521B (zh) | 2021-01-16 | 2021-01-16 | 一种用于确认法律案件相似关系的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112733521A CN112733521A (zh) | 2021-04-30 |
CN112733521B true CN112733521B (zh) | 2023-07-04 |
Family
ID=75591775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110058269.5A Active CN112733521B (zh) | 2021-01-16 | 2021-01-16 | 一种用于确认法律案件相似关系的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112733521B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114547279B (zh) * | 2022-02-21 | 2023-04-28 | 电子科技大学 | 一种基于混合过滤的司法推荐方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014002776A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
CN110019790A (zh) * | 2017-10-09 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 文本识别、文本监控、数据对象识别、数据处理方法 |
CN110197197A (zh) * | 2019-04-15 | 2019-09-03 | 贵州电网有限责任公司 | 一种基于文本相似度改进的电网档案相似度计算方法 |
CN111400445A (zh) * | 2020-03-10 | 2020-07-10 | 中国人民大学 | 一种基于相似文本的案件繁简分流方法 |
-
2021
- 2021-01-16 CN CN202110058269.5A patent/CN112733521B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014002776A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
CN110019790A (zh) * | 2017-10-09 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 文本识别、文本监控、数据对象识别、数据处理方法 |
CN110197197A (zh) * | 2019-04-15 | 2019-09-03 | 贵州电网有限责任公司 | 一种基于文本相似度改进的电网档案相似度计算方法 |
CN111400445A (zh) * | 2020-03-10 | 2020-07-10 | 中国人民大学 | 一种基于相似文本的案件繁简分流方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112733521A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Triantaphyllou et al. | The impact of aggregating benefit and cost criteria in four MCDA methods | |
US20190138501A1 (en) | System and Method for Compressing Data in a Database | |
CN112733521B (zh) | 一种用于确认法律案件相似关系的方法 | |
WO2021047373A1 (zh) | 基于大数据的列数据处理方法、设备及介质 | |
CN105373546B (zh) | 一种用于知识服务的信息处理方法及系统 | |
CN100354864C (zh) | 数据挖掘中一种基于混合互信息的特征选择方法 | |
CN113051370B (zh) | 基于数学表达式评估语言的相似性测度方法 | |
CN104317936A (zh) | 一种基于星型模型的rolap解析引擎设计方法及装置 | |
CN105912723B (zh) | 一种自定义字段的存储方法 | |
CN107193906B (zh) | 工艺管道仪表图物料清单的生成方法及装置 | |
CN109376120A (zh) | 一种内存优化的数据文件格式转化方法、装置及存储介质 | |
CN111159221B (zh) | 一种通过动态构建立方体进行数据处理或查询的方法 | |
CN110609927B (zh) | 一种可视化家谱布局方法、终端设备及存储介质 | |
Xie et al. | Are global value chains merely global? The case of Chinese Provinces in global value chains | |
Yang | Factor price distortion among regions in China and its influence on China’s economic growth | |
CN109033388B (zh) | 精确读取曲线图图片上点坐标的方法 | |
CN109740421A (zh) | 一种基于形状的零件分类方法 | |
Cartwright | Simpson’s Rule Integration with MS Excel and Irregularly-spaced Data | |
CN111191004B (zh) | 文本标签提取方法、装置及计算机可读存储介质 | |
Bakar et al. | Income modeling with the Weibull mixtures | |
Kim et al. | Non-parametric hazard function estimation using the Kaplan–Meier estimator | |
Frick et al. | Random permutations and unique fully supported ergodicity for the Euler adic transformation | |
Shott et al. | Scale of production at prehistoric quarries: A pilot study in extending the “analytical core unit” concept | |
Pan et al. | The cantor set’s multi-fractal spectrum formed by different probability factors in mathematical experiment | |
Silva et al. | Using reorderable matrices to compare risk curves of representative models in oil reservoir development and management activities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |