CN113688635B - 一种基于语义相似度的类案推荐方法 - Google Patents

一种基于语义相似度的类案推荐方法 Download PDF

Info

Publication number
CN113688635B
CN113688635B CN202111019717.7A CN202111019717A CN113688635B CN 113688635 B CN113688635 B CN 113688635B CN 202111019717 A CN202111019717 A CN 202111019717A CN 113688635 B CN113688635 B CN 113688635B
Authority
CN
China
Prior art keywords
case
text
semantic similarity
similarity
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111019717.7A
Other languages
English (en)
Other versions
CN113688635A (zh
Inventor
李佳静
郝亚鑫
尤红艳
张鑫洁
王鹏
贺翔
聂福回
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology Beijing CUMTB
Original Assignee
China University of Mining and Technology Beijing CUMTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology Beijing CUMTB filed Critical China University of Mining and Technology Beijing CUMTB
Priority to CN202111019717.7A priority Critical patent/CN113688635B/zh
Publication of CN113688635A publication Critical patent/CN113688635A/zh
Application granted granted Critical
Publication of CN113688635B publication Critical patent/CN113688635B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Technology Law (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语义相似度的类案推荐方法,具体如下:1,获得法律文书,得到案件文本;2,将预处理后的案件文本划分,形成案件样本集合;3,用案件样本集合训练文本分类模型;4,计算案件样本集合中两个案件文本的事实描述的语义相似度,从而生成语义相似度样本集合;5,采用语义相似度样本集合训练语义相似度计算模型;6,获得用户输入的查询文本,进行预处理;7,使用步骤3中的文本分类模型对预处理后的查询文本进行分类;8,根据步骤7的分类结果,使用步骤5生成的模型计算查询文本与对应类别中的案件文本的相似度,并推荐相似度数值最高的若干案件文本。本方法能够在没有法律专家知识的情况下有效地查询相似案件。

Description

一种基于语义相似度的类案推荐方法
技术领域
本发明涉及人工智能技术领域,特别是一种基于语义相似度的类案推荐方法。
背景技术
随着数字化存储的法律案件文本数量的激增,法务工作者和普通大众可以更轻松的对这些资料进行查阅,但从这些文本中检索到有用的信息也会耗费大量时间,因此设计算法准确地查找信息非常有意义,相似案例推荐就是其中很重要的一环。
类案推荐作为司法智能化的主要基础任务之一,其能够在一定程度上辅助量刑决策、规范裁判标准。目前的类案推荐方法,大多数需要法律专家的参与,对各种不同类型的案件标记出其中的事实要素和结果要素等,因此只能针对特定的应用场景。同时人工划分的相似度依赖于专家的经验,可能存在不准确的情况。因此需要一种能针对不同应用场景的方法,在没有法律专家的知识时也能够进行类案推荐。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种基于语义相似度的类案推荐方法,本方法对于用户给出的案件描述或者导入的裁判文书,在裁判文书库中进行检索,将检索到的类似案例按照文本语义的相似程度进行排序,并展示给用户。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种基于语义相似度的类案推荐方法,包括以下步骤:
步骤1、获得多个法律文书,进一步得到其中的案件文本;
步骤2、对案件文本进行预处理,并进一步对预处理后的案件文本划分为事实描述、法律条款和裁判结果,划分后的案件文本形成案件样本集合;
步骤3、从案件文本的裁判结果中抽取罪名,将罪名作为类别,对案件文本划分出的事实描述进行分类;采用步骤2的案件样本集合训练文本分类模型;
步骤4、计算案件样本集合中两个案件文本的事实描述的语义相似度,从而生成语义相似度样本集合;语义相似度样本集合包括多个语义相似度样本,两个案件文本的事实描述及它们的语义相似度作为一个语义相似度样本;
步骤5、采用语义相似度样本集合训练语义相似度计算模型;
步骤6、获得用户输入的查询文本,并对其进行预处理;
步骤7、使用步骤3中训练好的文本分类模型对预处理后的用户输入的查询文本进行分类;
步骤8、根据步骤7的分类结果,使用步骤5训练好的语义相似度计算模型计算预处理后的查询文本与对应类别中的案件文本的事实描述的语义相似度,并推荐相似度数值最高的若干案件文本。
一种基于语义相似度的类案推荐方法,包括以下步骤:
步骤1、获得多个法律文书,进一步得到其中的案件文本;
步骤2、对案件文本进行预处理,并进一步对预处理后的案件文本划分为事实描述、法律条款和裁判结果,划分后的案件文本形成案件样本集合;
步骤3、从案件文本的裁判结果中抽取罪名,将罪名作为类别,对案件文本划分出的事实描述进行分类;采用步骤2的案件样本集合训练文本分类模型;
步骤4、计算案件样本集合中两个案件文本的事实描述的语义相似度,从而生成语义相似度样本集合;语义相似度样本集合包括多个语义相似度样本,两个案件文本的事实描述及它们的语义相似度作为一个语义相似度样本;
步骤5、采用语义相似度样本集合训练语义相似度计算模型;
步骤6、获得用户输入的查询文本,并对其进行预处理;
步骤7、使用步骤3中训练好的文本分类模型对预处理后的用户输入的查询文本进行分类;
步骤8、根据步骤7的分类结果,对查询文本所对应类别中的案件文本的事实描述进行筛选,筛选出相似文本;使用步骤5训练好的语义相似度计算模型计算预处理后的查询文本与筛选后的相似文本的事实描述的语义相似度,并推荐相似度数值最高的若干案件文本。
作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案,步骤8中,采用BM25算法对查询文本所对应类别中的案件文本的事实描述进行筛选。
作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案,步骤1中获得法律文书的途径是使用网页爬虫获得,或由用户提供;在获得法律文书后,将其转换为文本,每个文本就是一个案件文本。
作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案,其中步骤2中,所述预处理包括去除其中的人名、地名;对案件文本进行划分时,根据法律文书中的固定格式进行;其中事实描述以“经审理查明”开始,以“以上事实,有下列证据证实”结束;裁判结果以“判决如下”开始。
作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案,步骤3中,在进行文本分类时使用的分类算法包括朴素贝叶斯、KNN方法、决策树、支持向量机、FastText方法、TextCNN方法和TextRNN方法。
作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案,步骤4中,计算案件样本集合中两个案件文本的事实描述的语义相似度是指:根据法律条款和裁判结果计算得到两个案件文本的语义相似度数值,该语义相似度数值作为两个案件文本的事实描述的语义相似度。
作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案,步骤4中,计算案件样本集合中两个案件文本的事实描述的语义相似度是指总体相似度;总体相似度的计算方法如下:
(1)罪名的相似度simn
Figure GDA0004189128530000031
罪名从裁判结果中抽取,其中NameA是案件文本A中的罪名,NameB是案件文本B中的罪名;
(2)法条法款的相似度sima
Figure GDA0004189128530000032
法条法款从法律条款中抽取,其中,LawA是案件文本A中的法律条款集合,LawB是案件文本B中的法律条款集合;
(3)判罚结果的相似度simt
Figure GDA0004189128530000041
判罚结果包括四类因素:主刑,缓刑,剥夺政治权利和罚金;判罚结果从裁判结果中抽取;其中:
主刑的相似度simY
Figure GDA0004189128530000042
YA是案件文本A中的判罚年数,YB是案件文本B中的判罚年数;
缓刑的相似度simH
Figure GDA0004189128530000043
HA是案件文本A中的缓刑年数,HB是案件文本B中的判缓刑年数;
剥夺政治权利的相似度simZ
Figure GDA0004189128530000044
ZA是案件文本A中的剥夺政治权利年数,ZB是案件文本B中的剥夺政治权利年数;
将剥夺政治权利终身转换为剥夺政治权利10年;
罚金的相似度simM
Figure GDA0004189128530000045
MA是案件文本A中的罚金,MB是案件文本B中的罚金;
(4)总体相似度simtotal
simtotal=simn*(sima+simt)/2。
作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案,步骤4中,语义相似度样本集合D={D1,D2,…,DP},P为类别总数,P≥x≥1,第x个类别的语义相似度样本Dx={(ti,tj,sij)},M≥i≥1、M≥j≥1,M是第x个类别的语义相似度样本的总数,ti是第i个案件文本,tj是第j个案件文本,sij是第i个案件文本和第j个案件文本的语义相似度;在生成的语义相似度样本集合中,既包括相似度为0的案件文本作为负例,也包括相似度不为0的案件文本样例作为正例。
作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案,步骤5中,采用语义相似度样本集合训练语义相似度计算模型时,首先将语义相似度样本集合划分为一定比例的训练集,验证集和测试集;语义相似度计算模型包括语义表示计算模型和相似度计算模型,语义表示计算模型使用BERT或S-BERT模型,相似度计算模型使用向量的余弦夹角计算;
步骤8中,计算预处理后的查询文本与对应类别中的案件文本的语义相似度时,将预处理过的查询文本,以及案件样本集合中的事实描述作为步骤5训练好的语义相似度计算模型的输入,得到两者的语义相似度。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明只利用案件文本自身的数据,根据法律条款和判决结果进行案件相似度定义提供的类案推荐方法能够满足在没有法律专家的参与的情况下从海量的法律案件中更快更有效地查询相似案件,并且同时也可以使非法律专业用户快速检索案件,找到案情相似的案例,提高检索效率。
附图说明
图1是本发明方法。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
如附图1所述一种基于语义的类案推荐方法,包括以下步骤:
步骤1、获得多个法律文书,进一步得到其中的案件文本;
步骤2、对案件文本进行预处理,并进一步对预处理后的案件文本划分为事实描述、法律条款和裁判结果,划分后的案件文本形成案件样本集合;
步骤3、从案件文本的裁判结果中抽取罪名,将罪名作为类别,对案件文本划分出的事实描述进行分类;采用步骤2的案件样本集合训练文本分类模型;
步骤4、计算案件样本集合中两个案件文本的事实描述的语义相似度,从而生成语义相似度样本集合;语义相似度样本集合包括多个语义相似度样本,两个案件文本的事实描述及它们的语义相似度作为一个语义相似度样本;
步骤5、采用语义相似度样本集合训练语义相似度计算模型;
步骤6、获得用户输入的查询文本,并对其进行预处理;
步骤7、使用步骤3中训练好的文本分类模型对预处理后的用户输入的查询文本进行分类;
步骤8、根据步骤7的分类结果,使用步骤5训练好的语义相似度计算模型计算预处理后的查询文本与对应类别中的案件文本的事实描述的语义相似度,并推荐相似度数值最高的若干案件文本。
其中获得法律文书的方法包括从网络抓取(例如中国裁判文书网:wenshu.court.gov.cn)也可以是现有的文本案例库。获得的法律文书可能是网页也可能是pdf的文件,从中获取其中的文本,每个文本就是一个案件文本。案件文书在预处理时,将其中与案件无关的包括人名地名等信息进行删除,以提高语义分析的效果。目前只针对刑事案件判决书进行分析,其他类型的裁判文书暂没有处理。
将每个案件文本划分为事实描述,法律条款和裁判结果三部分。案件文书在编写时具有一定的格式规范,其中事实描述部分通常以“经审理查明”开始,以“以上事实,有下列证据证实”结束;裁判结果部分以“判决如下”开始。
用案件样本集合训练文本分类模型时,根据裁判结果中的罪名作为类别,对划分出的事实描述部分的文本进行分类。在进行文本分类时使用的分类算法可以使用常见的文本分类算法,包括机器学习的方法,例如朴素贝叶斯,KNN方法,决策树,支持向量机等,以及深度学习方法例如FastText,TextCNN,TextRNN等方法。
其中步骤4中,计算案件样本集合中两个案件文本的事实描述的语义相似度是指:根据法律条款和裁判结果计算得到两个案件文本的语义相似度数值,该相似度数值作为两个案件文本的事实描述的语义相似度。计算案件样本集合中两个案件文本的事实描述的语义相似度是指总体相似度;总体相似度的计算方法如下:
首先分别计算罪名,法条法款,判罚结果的相似度,然后计算总体相似度:
(1)罪名相似度:
Figure GDA0004189128530000071
罪名从裁判结果中抽取,例如法律文书中“被告人**犯诈骗罪”,从中抽取得到“诈骗罪”。其中NameA是案件文本A的中的罪名,NameB是案件文本B中的罪名。
(2)法条法款相似度:
Figure GDA0004189128530000072
法条法款从法律条款中抽取。
(3)判罚结果相似度:
Figure GDA0004189128530000073
判罚结果由四类因素组合形成:主刑、缓刑、剥夺政治权利和罚金。其中判罚结果从裁判文书中抽取,例如“判处有期徒刑三年,缓刑三年,并处罚金人民币六千元”,抽取得到(主刑,3年),(缓刑,3年),(罚金,6000元)。
分别计算主刑、缓刑、剥夺政治权利和罚金的相似度:
主刑:
Figure GDA0004189128530000074
YA是案件文本A中的判罚年数,YB是案件文本B中的判罚年数(单位转换成月数)。
主刑分为:管制(3个月以上2年以下)、拘役(1个月以上6个月以下)、有期徒刑(6个月以上15年以下)、无期徒刑、死刑,为了方便计算,将管制最高上限24个月等价于拘役的下限1个月(按限制人身自由为思考基础,管制没有限制人身自由,拘役限制了),无期徒刑转换为15年,死刑转换为100年。
缓刑:
Figure GDA0004189128530000075
HA是案件文本A中的缓刑年数,HB是案件文本B中的判缓刑年数(单位转换成月数)。
剥夺政治权利:
Figure GDA0004189128530000081
ZA是案件文本A中的剥夺政治权利年数,ZB是案件文本B中的剥夺政治权利年数(单位转换成月数)。
为了统一计算,把剥夺政治权利终身转换为剥夺政治权利10年(此为剥夺政治权利年数的上限)
罚金:
Figure GDA0004189128530000082
MA是案件文本A中的罚金,MB是案件文本B中的罚金;
(4)总相似度:
simtotal=simn*(sima+simt)/2
语义相似度样本集合D={D1,D2,…,DP},P为类别总数,P≥x≥1,第x个类别的语义相似度样本Dx={(ti,tj,sij)},M≥i≥1、M≥j≥1,M是第x个类别的语义相似度样本的总数,ti是第i个案件文本,tj是第j个案件文本,sij是第i个案件文本和第j个案件文本的语义相似度;在生成的语义相似度样本集合中,既包括相似度为0的案件文本作为负例,也包括相似度不为0的案件文本样例作为正例。
其中步骤5中,采用语义相似度样本集合训练语义相似度计算模型时,首先将语义相似度样本集合划分为一定比例的训练集,验证集和测试集;例如6:2:2。将语义相似度样本(ti,tj,sij)作为语义相似度计算模型输入,使用Transformer结构计算文本的语义表示。语义相似度计算模型包括语义表示计算模型和相似度计算模型,语义表示计算模型使用BERT或S-BERT模型但也不限于这些,相似度计算模型使用向量的余弦夹角计算。
其中步骤6中,对用户输入的查询文本的预处理方法与步骤2相同。
对于步骤8还可以改为:根据步骤7的分类结果,采用BM25等算法对查询文本所对应类别中的案件文本的事实描述进行筛选,筛选出相似文本;使用步骤5训练好的语义相似度计算模型计算预处理后的查询文本与筛选后的相似文本的事实描述的语义相似度,并推荐相似度数值最高的若干案件文本。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。

Claims (8)

1.一种基于语义相似度的类案推荐方法,其特征在于,包括以下步骤:
步骤1、获得多个法律文书,进一步得到其中的案件文本;
步骤2、对案件文本进行预处理,并进一步对预处理后的案件文本划分为事实描述、法律条款和裁判结果,划分后的案件文本形成案件样本集合;
步骤3、从案件文本的裁判结果中抽取罪名,将罪名作为类别,对案件文本划分出的事实描述进行分类;采用步骤2的案件样本集合训练文本分类模型;
步骤4、计算案件样本集合中两个案件文本的事实描述的语义相似度,从而生成语义相似度样本集合;语义相似度样本集合包括多个语义相似度样本,两个案件文本的事实描述及它们的语义相似度作为一个语义相似度样本;
步骤4中,计算案件样本集合中两个案件文本的事实描述的语义相似度是指总体相似度;总体相似度的计算方法如下:
(1)罪名的相似度simn
Figure FDA0004189128520000011
罪名从裁判结果中抽取,其中NameA是案件文本A中的罪名,NameB是案件文本B中的罪名;
(2)法条法款的相似度sima
Figure FDA0004189128520000012
法条法款从法律条款中抽取,其中,LawA是案件文本A中的法律条款集合,LawB是案件文本B中的法律条款集合;
(3)判罚结果的相似度simt
Figure FDA0004189128520000013
判罚结果包括四类因素:主刑,缓刑,剥夺政治权利和罚金;判罚结果从裁判结果中抽取;其中:
主刑的相似度simY
Figure FDA0004189128520000014
YA是案件文本A中的判罚年数,YB是案件文本B中的判罚年数;
缓刑的相似度simH
Figure FDA0004189128520000021
HA是案件文本A中的缓刑年数,HB是案件文本B中的判缓刑年数;
剥夺政治权利的相似度simZ
Figure FDA0004189128520000022
ZA是案件文本A中的剥夺政治权利年数,ZB是案件文本B中的剥夺政治权利年数;
将剥夺政治权利终身转换为剥夺政治权利10年;
罚金的相似度simM
Figure FDA0004189128520000023
MA是案件文本A中的罚金,MB是案件文本B中的罚金;
(4)总体相似度simtotal
simtotal=simn*(sima+simt)/2;
步骤5、采用语义相似度样本集合训练语义相似度计算模型;
步骤6、获得用户输入的查询文本,并对其进行预处理;
步骤7、使用步骤3中训练好的文本分类模型对预处理后的用户输入的查询文本进行分类;
步骤8、根据步骤7的分类结果,使用步骤5训练好的语义相似度计算模型计算预处理后的查询文本与对应类别中的案件文本的事实描述的语义相似度,并推荐相似度数值最高的若干案件文本;
或,根据步骤7的分类结果,对查询文本所对应类别中的案件文本的事实描述进行筛选,筛选出相似文本;使用步骤5训练好的语义相似度计算模型计算预处理后的查询文本与筛选后的相似文本的事实描述的语义相似度,并推荐相似度数值最高的若干案件文本。
2.根据权利要求1所述的一种基于语义相似度的类案推荐方法,其特征在于,步骤8中,采用BM25算法对查询文本所对应类别中的案件文本的事实描述进行筛选。
3.根据权利要求1所述的一种基于语义相似度的类案推荐方法,其特征在于,步骤1中获得法律文书的途径是使用网页爬虫获得,或由用户提供;在获得法律文书后,将其转换为文本,每个文本就是一个案件文本。
4.根据权利要求1所述的一种基于语义相似度的类案推荐方法,其特征在于,其中步骤2中,所述预处理包括去除其中的人名、地名;对案件文本进行划分时,根据法律文书中的固定格式进行;其中事实描述以“经审理查明”开始,以“以上事实,有下列证据证实”结束;裁判结果以“判决如下”开始。
5.根据权利要求1所述的一种基于语义相似度的类案推荐方法,其特征在于,步骤3中,在进行文本分类时使用的分类算法包括朴素贝叶斯、KNN方法、决策树、支持向量机、FastText方法、TextCNN方法和TextRNN方法。
6.根据权利要求1所述的一种基于语义相似度的类案推荐方法,其特征在于,步骤4中,计算案件样本集合中两个案件文本的事实描述的语义相似度是指:根据法律条款和裁判结果计算得到两个案件文本的语义相似度数值,该语义相似度数值作为两个案件文本的事实描述的语义相似度。
7.根据权利要求1所述的一种基于语义相似度的类案推荐方法,其特征在于,步骤4中,语义相似度样本集合D={D1,D2,…,DP},P为类别总数,P≥x≥1,第x个类别的语义相似度样本Dx={(ti,tj,sij)},M≥i≥1、M≥j≥1,M是第x个类别的语义相似度样本的总数,ti是第i个案件文本,tj是第j个案件文本,sij是第i个案件文本和第j个案件文本的语义相似度;在生成的语义相似度样本集合中,既包括相似度为0的案件文本作为负例,也包括相似度不为0的案件文本样例作为正例。
8.根据权利要求1所述的一种基于语义相似度的类案推荐方法,其特征在于,步骤5中,采用语义相似度样本集合训练语义相似度计算模型时,首先将语义相似度样本集合划分为一定比例的训练集,验证集和测试集;语义相似度计算模型包括语义表示计算模型和相似度计算模型,语义表示计算模型使用BERT或S-BERT模型,相似度计算模型使用向量的余弦夹角计算;
步骤8中,计算预处理后的查询文本与对应类别中的案件文本的语义相似度时,将预处理过的查询文本,以及案件样本集合中的事实描述作为步骤5训练好的语义相似度计算模型的输入,得到两者的语义相似度。
CN202111019717.7A 2021-09-01 2021-09-01 一种基于语义相似度的类案推荐方法 Active CN113688635B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111019717.7A CN113688635B (zh) 2021-09-01 2021-09-01 一种基于语义相似度的类案推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111019717.7A CN113688635B (zh) 2021-09-01 2021-09-01 一种基于语义相似度的类案推荐方法

Publications (2)

Publication Number Publication Date
CN113688635A CN113688635A (zh) 2021-11-23
CN113688635B true CN113688635B (zh) 2023-05-30

Family

ID=78584645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111019717.7A Active CN113688635B (zh) 2021-09-01 2021-09-01 一种基于语义相似度的类案推荐方法

Country Status (1)

Country Link
CN (1) CN113688635B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547245A (zh) * 2022-02-21 2022-05-27 山东大学 一种基于法律要素的类案检索方法及系统
CN115374190B (zh) * 2022-10-25 2023-03-24 支付宝(杭州)信息技术有限公司 一种类案检索的方法、装置、存储介质及电子设备
CN116049368B (zh) * 2023-02-10 2023-09-12 南京智云兴禾信息科技有限公司 一种基于法律文本矢量分析的内容抓取系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934483A (zh) * 2016-11-18 2017-07-07 北京工业大学 一种借助线性规划的基于本体的刑事审判案例推理方法
CN107291688A (zh) * 2017-05-22 2017-10-24 南京大学 基于主题模型的裁判文书相似度分析方法
CN108595547A (zh) * 2018-04-09 2018-09-28 南京网感至察信息科技有限公司 一种基于语义抽取的相似案件检索方法
CN109614479A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于距离向量的裁判文书推荐方法
CN110457443A (zh) * 2019-08-12 2019-11-15 贵州大学 一种基于刑事案件的犯罪行为链构建方法
CN110858269A (zh) * 2018-08-09 2020-03-03 清华大学 刑事罪名预测方法及装置
CN113312474A (zh) * 2020-02-27 2021-08-27 北京睿客邦科技有限公司 一种基于深度学习的法律文书的相似案件智能检索系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7752154B2 (en) * 2007-02-26 2010-07-06 International Business Machines Corporation System and method for deriving a hierarchical event based database optimized for analysis of criminal and security information
US20210109958A1 (en) * 2019-10-14 2021-04-15 Stacks LLC Conceptual, contextual, and semantic-based research system and method

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934483A (zh) * 2016-11-18 2017-07-07 北京工业大学 一种借助线性规划的基于本体的刑事审判案例推理方法
CN107291688A (zh) * 2017-05-22 2017-10-24 南京大学 基于主题模型的裁判文书相似度分析方法
CN108595547A (zh) * 2018-04-09 2018-09-28 南京网感至察信息科技有限公司 一种基于语义抽取的相似案件检索方法
CN110858269A (zh) * 2018-08-09 2020-03-03 清华大学 刑事罪名预测方法及装置
CN109614479A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于距离向量的裁判文书推荐方法
CN110457443A (zh) * 2019-08-12 2019-11-15 贵州大学 一种基于刑事案件的犯罪行为链构建方法
CN113312474A (zh) * 2020-02-27 2021-08-27 北京睿客邦科技有限公司 一种基于深度学习的法律文书的相似案件智能检索系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A Risk-Informed Interference Assessment of MetSat/LTE Coexistence;Uri Livnat等;IEEE;第5卷;第6290页-6313页 *
公共场所视频监控预警系统的应用;王鹏等;广西警察学院学报;第31卷(第2期);第42页-45页 *
基于法律要素引导的相似案例推荐算法;刘博阳等;智能计算机与应用;第11卷(第6期);第1页-13页 *
基于词语语义差异性的多标签罪名预测;王加伟等;中文信息学报;第33卷(第10期);第127页-134页 *
裁判文书类案推送中的案情相似度计算模型研究;王君泽;马洪晶;张毅;杨兰蓉;;计算机工程与科学;第41卷(第12期);第2193页-2201页 *

Also Published As

Publication number Publication date
CN113688635A (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
CN113688635B (zh) 一种基于语义相似度的类案推荐方法
CN108363753B (zh) 评论文本情感分类模型训练与情感分类方法、装置及设备
Zhang et al. A gated peripheral-foveal convolutional neural network for unified image aesthetic prediction
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
CN109271477A (zh) 一种借助互联网构建分类语料库的方法及系统
CN105279495A (zh) 一种基于深度学习和文本总结的视频描述方法
US20060155688A1 (en) Database search system
CN111709575A (zh) 基于c-lstm的学业成绩预测方法
CN104834739B (zh) 互联网信息存储系统
CN116304035B (zh) 一种复杂案件中的多被告多罪名关系抽取方法及装置
CN111723256A (zh) 一种基于信息资源库的政务用户画像构建方法及其系统
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN116186372A (zh) 一种能够提供个性化服务的书目系统
CN113204669A (zh) 一种基于语音识别的短视频搜索推荐方法、系统及计算机存储介质
CN114925691A (zh) 基于作者学术背景的合著论文作者贡献度评价分析方法
CN111966828B (zh) 一种基于文本上下文结构和属性信息叠加网络的报刊新闻分类方法
CN115600602B (zh) 一种长文本的关键要素抽取方法、系统及终端设备
CN108595593B (zh) 基于主题模型的会议研究热点与发展趋势信息分析方法
Lee A study of convolutional neural networks for clinical document classification in systematic reviews: Sysreview at CLEF eHealth 2017
CN116257618A (zh) 一种基于细粒度情感分析的多源智能旅游推荐方法
CN114238735A (zh) 一种互联网数据智能采集方法
CN112257517A (zh) 一种基于景点聚类和群体情感识别的旅游景点推荐系统
Liu Construction of personalized recommendation system of university library based on SOM neural network
CN113515621B (zh) 数据检索方法、装置、设备及计算机可读存储介质
CN117077005B (zh) 一种城市微更新潜力的优化方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant