CN112733521A - 一种用于确认法律案件相似关系的方法 - Google Patents

一种用于确认法律案件相似关系的方法 Download PDF

Info

Publication number
CN112733521A
CN112733521A CN202110058269.5A CN202110058269A CN112733521A CN 112733521 A CN112733521 A CN 112733521A CN 202110058269 A CN202110058269 A CN 202110058269A CN 112733521 A CN112733521 A CN 112733521A
Authority
CN
China
Prior art keywords
similarity
legal
numerical
attribute
cases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110058269.5A
Other languages
English (en)
Other versions
CN112733521B (zh
Inventor
潘成华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Netmarch Technologies Co ltd
Original Assignee
Jiangsu Netmarch Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Netmarch Technologies Co ltd filed Critical Jiangsu Netmarch Technologies Co ltd
Priority to CN202110058269.5A priority Critical patent/CN112733521B/zh
Publication of CN112733521A publication Critical patent/CN112733521A/zh
Application granted granted Critical
Publication of CN112733521B publication Critical patent/CN112733521B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于确认法律案件相似关系的方法,其包括如下步骤:获取法律案件的特征,并将属性划分为范围、文本、数值三个类别;根据所述法律案件的范围属性集合,通过区间相似计算方法获取相似度;根据所述法律案件的文本属性集合,通过余弦相似计算方法获取相似度;根据所示法律案件的数值属性集合,通过数值相似度计算方法获取相似度;根据所述获取的范围、文本、数值相似度,获取法律案件相似关系。对法律案件的不同属性领域进行划分,有利于从多个角度分析法律在成分、制造、使用上的不同所带来的效果。

Description

一种用于确认法律案件相似关系的方法
技术领域
本发明涉及用于法律案件处理领域,尤其涉及一种用于确认法律案件相似关系的方法。
背景技术
法律案件含有繁多的属性,属性的细微差异会造成法律案件相似度变化,法律案件本身所包含的三种领域属性:范围、文本、数值,使得法律案件之间在此基础上形成三种相似关系。
对法律案件进行范围、文本、数值三个属性的划分,通过计算分别得到相似关系并在此基础上建立法律案件间的关系,有利于从多个角度分析法律案件在属性上的不同所带来的效果,研究法律案件间的异同点,充分挖掘法律案件之间的关系,并据此改进法律相似案件的计算流程,实现相似案件的检索和推荐。
本发明提供一种用于确认法律案件相似关系的方法来从多个角度分析法律在成分、制造、使用上的不同所带来的效果。
发明内容
本发明的目的在于,提供了一种用于确认法律案件相似关系的方法,研究法律案件间的异同点,充分挖掘法律案件之间的细粒度关系,并据此指导改进法律生产流程,实现法律数值提升。
为实现上述目的,本发明提供如下技术方案:步骤S101:获取法律案件的特征,并将属性划分为范围、文本、数值三个类别;
步骤S102:根据所述法律案件的范围属性集合,通过区间相似计算方法获取相似度;
步骤S103:根据所述法律案件的文本属性集合,通过余弦相似计算方法获取相似度;
步骤S104:根据所示法律案件的数值属性集合,通过数值相似度计算方法获取相似度;
步骤S105:根据所述获取的范围、文本、数值相似度,获取法律案件相似关系。
与现有技术相比,本发明一种用于确认法律案件相似关系的方法的有益效果在于,对法律案件的不同属性领域进行划分,有利于从多个角度分析法律在成分、制造、使用上的不同所带来的效果,研究法律案件间的异同点,充分挖掘法律案件之间的细粒度关系,并据此指导改进法律生产流程,实现法律数值提升。
附图说明
图1为本发明用于确认法律案件相似关系的方法的流程示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1为一种用于确认法律案件相似关系的方法的流程图,本发明提供一种用于确认法律案件相似关系的方法,其步骤包括如下:
步骤S101:根据输入需要获取法律案件的特征并将属性划分为范围、文本、数值三个类别;
将文本划分为范围、文本、数值三个类别,包括:
根据文本属性描述和值特征划分文本属性,对于文本所包含的属性集合{Xi i=1,2,…n},n为属性个数,通过不同的属性描述和属性值特征,根据区间、文本、数值三种表现形式,对法律案件划分所述文本属性集合{X范围n1n1=1,2,3,…m1}、{X文本n2 n2=1,2,3,…m2}、{X数值n3 n3=1,2,3,…m3},其中m1+m2+m3=n。
步骤S102:根据所述法律案件的范围属性集合,通过区间相似计算方法获取相似度;
具体的,根据所述法律案件的范围属性集合,通过区间相似计算方法获取相似度可以通过如下方式实现:
获取法律案件的范围属性集合{X范围n1 n1=1,2,3,…m1},提取需要获取的两个法律案件所共有的范围属性,并通过区间相似计算方法获取相似度。
通过区间相似计算方法获取相似度,具体满足下述条件:
Figure BDA0002901493550000031
其中,i,j分别表示需要对比的两个法律案件,m1为范围的属性集合,A表示法律案件i的m1属性所占区间,B表示法律案件j的m1属性所占区间。
根据每个范围属性,获取法律案件的整体范围相似度,具体满足下述条件:
Figure BDA0002901493550000032
其中
Figure BDA0002901493550000033
为所述法律案件的整体范围相似度。
步骤S103:根据所述法律案件的文本属性集合,通过余弦相似计算方法获取相似度;
具体的,所述法律案件的文本属性集合,通过余弦相似计算方法获取相似度可以通过如下方式实现:
获取法律案件的文本属性集合{X文本n2 n2=1,2,3,…m2},提取需要获取的两个法律案件所共有的文本属性,并通过余弦相似度计算方法获取相似度,包括文本预处理和相似度计算。
可选地,所述文本预处理方法,包括对法律文本描述文本进行词语切分。
可选地,所述对法律文本描述文本进行词语切分的结果进行歧义消解和停用词消除。
可选地,根据word2vec空间向量模型对消歧和去停用词后的法律文本文本进行向量化表示。
所述的余弦相似度计算相似度,具体满足下述条件:
Figure BDA0002901493550000034
其中,i,j分别表示需要对比的两个法律案件,m2为文本的属性集合,a表示法律案件i的m2属性的描述文本,b表示法律案件j的m2属性的描述文本。
根据每个文本属性,获取法律案件的整体文本相似度,具体满足下述条件:
Figure BDA0002901493550000041
其中
Figure BDA0002901493550000042
为所述法律案件的整体文本相似度。
步骤S104:根据所示法律案件的数值属性集合,通过数值相似度计算方法获取相似度;
具体的,根据所述法律案件的数值属性集合,通过数值相似计算方法获取相似度可以通过如下方式实现:
获取法律案件的数值属性集合{X数值n3 n3=1,2,3,…m3},并通过数值相似计算方法获取法律案件数值相似度。
通过数值计算方法获取法律案件数值相似度,具体满足下述条件:
Figure BDA0002901493550000043
其中,i,j分别表示需要对比的两个法律案件,m3为数值的属性集合,x表示法律案件i的m3属性的数值数值,y表示法律案件j的m3属性的数值数值。
根据每个数值属性,获取法律案件的整体数值相似度,具体满足下述条件:
Figure BDA0002901493550000044
其中
Figure BDA0002901493550000045
为所述法律案件的整体数值相似度。
根据所述计算的范围、文本、数值相似度,获取法律案件相似关系,具体满足下述条件:
Figure BDA0002901493550000046
其中α,β,γ为分别预设的权重值,
最终获取得到法律案件的相似关系。
步骤S105:根据所述计算的范围、文本、数值相似度,获取法律案件相似关系。
本发明提出将法律案件的属性分领域计算,避免了由于属性的表现形式不同造成的法律案件相似度无法计算。
本发明提出了对于法律组成使用区间相似方法计算相似度,对于法律文本使用余弦相似方法计算相似度,对于法律数值使用数值相似度方法计算相似度。为不同形式的文本属性提供了解决方案。
本发明对法律案件的不同属性领域进行划分,有利于从多个角度分析法律在成分、制造、使用上的不同所带来的效果,研究法律案件间的异同点,充分挖掘法律案件之间的细粒度关系,并据此指导改进法律生产流程,实现法律数值提升。
综上所述,本发明主要是针对法律领域的文本相似关系计算,提出了属性分领域,分方法的获取方法。从而避免了由于法律案件存在繁多的属性,使用简单同一的获取方式所造成结果的不准确。本发明针对三种不同属性各自使用不同获取方式,避免不同形式的数据混合计算,使最终的计算准确度更高。

Claims (7)

1.一种用于确认法律案件相似关系的方法,其特征在于,其包括如下步骤:
步骤S101:获取法律案件的特征,并将属性划分为范围、文本、数值三个类别;
步骤S102:根据所述法律案件的范围属性集合,通过区间相似计算方法获取相似度;
步骤S103:根据所述法律案件的文本属性集合,通过余弦相似计算方法获取相似度;
步骤S104:根据所示法律案件的数值属性集合,通过数值相似度计算方法获取相似度;
步骤S105:根据所述获取的范围、文本、数值相似度,获取法律案件相似关系。
2.如权利要求1所述的用于确认法律案件相似关系的方法,其特征在于,上述步骤S101,根据文本属性描述和值特征划分文本属性,对于文本所包含的属性集合{Xi i=1,2,…n},n为属性个数,通过不同的属性描述和属性值特征,根据区间、文本、数值三种表现形式,对法律案件划分所述文本属性集合{X范围n1 n1=1,2,3,…m1}、{X文本n2 n2=1,2,3,…m2}、{X数值n3 n3=1,2,3,…m3},其中m1+m2+m3=n。
3.如权利要求2所述的用于确认法律案件相似关系的方法,其特征在于,上述步骤S102,获取法律案件的范围属性集合{X范围n1 n1=1,2,3,…m1},提取需要获取的两个法律案件所共有的范围属性,并通过区间相似计算方法获取相似度,通过区间相似计算方法获取相似度,具体满足下述条件:
Figure FDA0002901493540000011
其中,i,j分别表示需要对比的两个法律案件,m1为范围的属性集合,A表示法律案件i的m1属性所占区间,B表示法律案件j的m1属性所占区间。
4.如权利要求3所述的用于确认法律案件相似关系的方法,其特征在于,所述根据每个范围属性,计算法律案件的整体范围相似度,具体满足下述公式:
Figure FDA0002901493540000021
其中
Figure FDA0002901493540000022
为所述法律案件的整体范围相似度。
5.如权利要求1所述的用于确认法律案件相似关系的方法,其特征在于,所述的余弦相似度计算相似度,具体满足下述条件:
Figure FDA0002901493540000023
其中,i,j分别表示需要对比的两个法律案件,m2为文本的属性集合,a表示法律案件i的m2属性的描述文本,b表示法律案件j的m2属性的描述文本。
根据每个文本属性,获取法律案件的整体文本相似度,具体满足下述条件:
Figure FDA0002901493540000024
其中
Figure FDA0002901493540000025
为所述法律案件的整体文本相似度。
6.如权利要求1所述的用于确认法律案件相似关系的方法,其特征在于,根据所述法律案件的数值属性集合,通过数值相似计算方法获取相似度可以通过如下方式实现:
获取法律案件的数值属性集合{X数值n3 n3=1,2,3,…m3},并通过数值相似计算方法获取法律案件数值相似度。
通过数值计算方法获取法律案件数值相似度,具体满足下述条件:
Figure FDA0002901493540000026
其中,i,j分别表示需要对比的两个法律案件,m3为数值的属性集合,x表示法律案件i的m3属性的数值数值,y表示法律案件j的m3属性的数值数值。
根据每个数值属性,获取法律案件的整体数值相似度,具体满足下述条件:
Figure FDA0002901493540000027
其中
Figure FDA0002901493540000031
为所述法律案件的整体数值相似度。
根据所述法律案件的数值属性集合,通过数值相似计算方法获取相似度可以通过如下方式实现:
获取法律案件的数值属性集合{X数值n3 n3=1,2,3,…m3},并通过数值相似计算方法获取法律案件数值相似度。
7.如权利要求6所述的用于确认法律案件相似关系的方法,其特征在于,通过数值计算方法获取法律案件数值相似度,具体满足下述条件:
Figure FDA0002901493540000032
其中,i,j分别表示需要对比的两个法律案件,m3为数值的属性集合,x表示法律案件i的m3属性的数值数值,y表示法律案件j的m3属性的数值数值;
根据每个数值属性,获取法律案件的整体数值相似度,具体满足下述条件:
Figure FDA0002901493540000033
其中
Figure FDA0002901493540000034
为所述法律案件的整体数值相似度;
根据所述计算的范围、文本、数值相似度,获取法律案件相似关系,具体满足下述条件:
Figure FDA0002901493540000035
其中α,β,γ为分别预设的权重值,
最终获取得到法律案件的相似关系。
CN202110058269.5A 2021-01-16 2021-01-16 一种用于确认法律案件相似关系的方法 Active CN112733521B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110058269.5A CN112733521B (zh) 2021-01-16 2021-01-16 一种用于确认法律案件相似关系的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110058269.5A CN112733521B (zh) 2021-01-16 2021-01-16 一种用于确认法律案件相似关系的方法

Publications (2)

Publication Number Publication Date
CN112733521A true CN112733521A (zh) 2021-04-30
CN112733521B CN112733521B (zh) 2023-07-04

Family

ID=75591775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110058269.5A Active CN112733521B (zh) 2021-01-16 2021-01-16 一种用于确认法律案件相似关系的方法

Country Status (1)

Country Link
CN (1) CN112733521B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547279A (zh) * 2022-02-21 2022-05-27 电子科技大学 一种基于混合过滤的司法推荐方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014002776A1 (ja) * 2012-06-25 2014-01-03 日本電気株式会社 同義語抽出システム、方法および記録媒体
CN110019790A (zh) * 2017-10-09 2019-07-16 阿里巴巴集团控股有限公司 文本识别、文本监控、数据对象识别、数据处理方法
CN110197197A (zh) * 2019-04-15 2019-09-03 贵州电网有限责任公司 一种基于文本相似度改进的电网档案相似度计算方法
CN111400445A (zh) * 2020-03-10 2020-07-10 中国人民大学 一种基于相似文本的案件繁简分流方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014002776A1 (ja) * 2012-06-25 2014-01-03 日本電気株式会社 同義語抽出システム、方法および記録媒体
CN110019790A (zh) * 2017-10-09 2019-07-16 阿里巴巴集团控股有限公司 文本识别、文本监控、数据对象识别、数据处理方法
CN110197197A (zh) * 2019-04-15 2019-09-03 贵州电网有限责任公司 一种基于文本相似度改进的电网档案相似度计算方法
CN111400445A (zh) * 2020-03-10 2020-07-10 中国人民大学 一种基于相似文本的案件繁简分流方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547279A (zh) * 2022-02-21 2022-05-27 电子科技大学 一种基于混合过滤的司法推荐方法
CN114547279B (zh) * 2022-02-21 2023-04-28 电子科技大学 一种基于混合过滤的司法推荐方法

Also Published As

Publication number Publication date
CN112733521B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN106095865B (zh) 一种商标文本相似性评审方法
CN110874531B (zh) 一种话题分析方法、装置和存储介质
CN104008166B (zh) 一种基于形态和语义相似度的对话短文本聚类方法
CN105930362B (zh) 搜索目标识别方法、装置及终端
CN106776544A (zh) 人物关系识别方法及装置和分词方法
CN103955703A (zh) 一种基于朴素贝叶斯的医疗影像疾病分类方法
CN103207913A (zh) 商品细粒度语义关系的获取方法和系统
CN102063424A (zh) 一种中文分词方法
CN104298715A (zh) 一种基于tf-idf的多索引结果合并排序方法
CN113051370B (zh) 基于数学表达式评估语言的相似性测度方法
CN103186522A (zh) 电子设备及其自然语言分析方法
CN112733521A (zh) 一种用于确认法律案件相似关系的方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN103336765B (zh) 一种文本关键词的马尔可夫矩阵离线修正方法
CN114328785A (zh) 提取道路信息的方法和装置
CN109871540B (zh) 一种文本相似度的计算方法以及相关设备
CN104166712A (zh) 科技文献检索方法及系统
CN111680146A (zh) 确定新词的方法、装置、电子设备及可读存储介质
CN111444337B (zh) 一种基于改进kl散度的话题跟踪方法
CN109992647A (zh) 一种内容搜索方法及装置
CN107103902B (zh) 完整语音内容递归识别方法
CN109740421A (zh) 一种基于形状的零件分类方法
CN109033388B (zh) 精确读取曲线图图片上点坐标的方法
CN102819524A (zh) 基于关键字的字符序列分割方法及装置
CN112395856B (zh) 文本匹配方法、装置、计算机系统及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant