CN113688635B - 一种基于语义相似度的类案推荐方法 - Google Patents
一种基于语义相似度的类案推荐方法 Download PDFInfo
- Publication number
- CN113688635B CN113688635B CN202111019717.7A CN202111019717A CN113688635B CN 113688635 B CN113688635 B CN 113688635B CN 202111019717 A CN202111019717 A CN 202111019717A CN 113688635 B CN113688635 B CN 113688635B
- Authority
- CN
- China
- Prior art keywords
- case
- text
- semantic similarity
- similarity
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004364 calculation method Methods 0.000 claims abstract description 41
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000013145 classification model Methods 0.000 claims abstract description 11
- 238000012216 screening Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000007635 classification algorithm Methods 0.000 claims description 4
- 238000011840 criminal investigation Methods 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Technology Law (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于语义相似度的类案推荐方法,具体如下:1,获得法律文书,得到案件文本;2,将预处理后的案件文本划分,形成案件样本集合;3,用案件样本集合训练文本分类模型;4,计算案件样本集合中两个案件文本的事实描述的语义相似度,从而生成语义相似度样本集合;5,采用语义相似度样本集合训练语义相似度计算模型;6,获得用户输入的查询文本,进行预处理;7,使用步骤3中的文本分类模型对预处理后的查询文本进行分类;8,根据步骤7的分类结果,使用步骤5生成的模型计算查询文本与对应类别中的案件文本的相似度,并推荐相似度数值最高的若干案件文本。本方法能够在没有法律专家知识的情况下有效地查询相似案件。
Description
技术领域
本发明涉及人工智能技术领域,特别是一种基于语义相似度的类案推荐方法。
背景技术
随着数字化存储的法律案件文本数量的激增,法务工作者和普通大众可以更轻松的对这些资料进行查阅,但从这些文本中检索到有用的信息也会耗费大量时间,因此设计算法准确地查找信息非常有意义,相似案例推荐就是其中很重要的一环。
类案推荐作为司法智能化的主要基础任务之一,其能够在一定程度上辅助量刑决策、规范裁判标准。目前的类案推荐方法,大多数需要法律专家的参与,对各种不同类型的案件标记出其中的事实要素和结果要素等,因此只能针对特定的应用场景。同时人工划分的相似度依赖于专家的经验,可能存在不准确的情况。因此需要一种能针对不同应用场景的方法,在没有法律专家的知识时也能够进行类案推荐。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种基于语义相似度的类案推荐方法,本方法对于用户给出的案件描述或者导入的裁判文书,在裁判文书库中进行检索,将检索到的类似案例按照文本语义的相似程度进行排序,并展示给用户。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种基于语义相似度的类案推荐方法,包括以下步骤:
步骤1、获得多个法律文书,进一步得到其中的案件文本;
步骤2、对案件文本进行预处理,并进一步对预处理后的案件文本划分为事实描述、法律条款和裁判结果,划分后的案件文本形成案件样本集合;
步骤3、从案件文本的裁判结果中抽取罪名,将罪名作为类别,对案件文本划分出的事实描述进行分类;采用步骤2的案件样本集合训练文本分类模型;
步骤4、计算案件样本集合中两个案件文本的事实描述的语义相似度,从而生成语义相似度样本集合;语义相似度样本集合包括多个语义相似度样本,两个案件文本的事实描述及它们的语义相似度作为一个语义相似度样本;
步骤5、采用语义相似度样本集合训练语义相似度计算模型;
步骤6、获得用户输入的查询文本,并对其进行预处理;
步骤7、使用步骤3中训练好的文本分类模型对预处理后的用户输入的查询文本进行分类;
步骤8、根据步骤7的分类结果,使用步骤5训练好的语义相似度计算模型计算预处理后的查询文本与对应类别中的案件文本的事实描述的语义相似度,并推荐相似度数值最高的若干案件文本。
一种基于语义相似度的类案推荐方法,包括以下步骤:
步骤1、获得多个法律文书,进一步得到其中的案件文本;
步骤2、对案件文本进行预处理,并进一步对预处理后的案件文本划分为事实描述、法律条款和裁判结果,划分后的案件文本形成案件样本集合;
步骤3、从案件文本的裁判结果中抽取罪名,将罪名作为类别,对案件文本划分出的事实描述进行分类;采用步骤2的案件样本集合训练文本分类模型;
步骤4、计算案件样本集合中两个案件文本的事实描述的语义相似度,从而生成语义相似度样本集合;语义相似度样本集合包括多个语义相似度样本,两个案件文本的事实描述及它们的语义相似度作为一个语义相似度样本;
步骤5、采用语义相似度样本集合训练语义相似度计算模型;
步骤6、获得用户输入的查询文本,并对其进行预处理;
步骤7、使用步骤3中训练好的文本分类模型对预处理后的用户输入的查询文本进行分类;
步骤8、根据步骤7的分类结果,对查询文本所对应类别中的案件文本的事实描述进行筛选,筛选出相似文本;使用步骤5训练好的语义相似度计算模型计算预处理后的查询文本与筛选后的相似文本的事实描述的语义相似度,并推荐相似度数值最高的若干案件文本。
作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案,步骤8中,采用BM25算法对查询文本所对应类别中的案件文本的事实描述进行筛选。
作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案,步骤1中获得法律文书的途径是使用网页爬虫获得,或由用户提供;在获得法律文书后,将其转换为文本,每个文本就是一个案件文本。
作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案,其中步骤2中,所述预处理包括去除其中的人名、地名;对案件文本进行划分时,根据法律文书中的固定格式进行;其中事实描述以“经审理查明”开始,以“以上事实,有下列证据证实”结束;裁判结果以“判决如下”开始。
作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案,步骤3中,在进行文本分类时使用的分类算法包括朴素贝叶斯、KNN方法、决策树、支持向量机、FastText方法、TextCNN方法和TextRNN方法。
作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案,步骤4中,计算案件样本集合中两个案件文本的事实描述的语义相似度是指:根据法律条款和裁判结果计算得到两个案件文本的语义相似度数值,该语义相似度数值作为两个案件文本的事实描述的语义相似度。
作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案,步骤4中,计算案件样本集合中两个案件文本的事实描述的语义相似度是指总体相似度;总体相似度的计算方法如下:
(1)罪名的相似度simn:
罪名从裁判结果中抽取,其中NameA是案件文本A中的罪名,NameB是案件文本B中的罪名;
(2)法条法款的相似度sima:
法条法款从法律条款中抽取,其中,LawA是案件文本A中的法律条款集合,LawB是案件文本B中的法律条款集合;
(3)判罚结果的相似度simt:
判罚结果包括四类因素:主刑,缓刑,剥夺政治权利和罚金;判罚结果从裁判结果中抽取;其中:
主刑的相似度simY:
YA是案件文本A中的判罚年数,YB是案件文本B中的判罚年数;
缓刑的相似度simH:
HA是案件文本A中的缓刑年数,HB是案件文本B中的判缓刑年数;
剥夺政治权利的相似度simZ:
ZA是案件文本A中的剥夺政治权利年数,ZB是案件文本B中的剥夺政治权利年数;
将剥夺政治权利终身转换为剥夺政治权利10年;
罚金的相似度simM:
MA是案件文本A中的罚金,MB是案件文本B中的罚金;
(4)总体相似度simtotal:
simtotal=simn*(sima+simt)/2。
作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案,步骤4中,语义相似度样本集合D={D1,D2,…,DP},P为类别总数,P≥x≥1,第x个类别的语义相似度样本Dx={(ti,tj,sij)},M≥i≥1、M≥j≥1,M是第x个类别的语义相似度样本的总数,ti是第i个案件文本,tj是第j个案件文本,sij是第i个案件文本和第j个案件文本的语义相似度;在生成的语义相似度样本集合中,既包括相似度为0的案件文本作为负例,也包括相似度不为0的案件文本样例作为正例。
作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案,步骤5中,采用语义相似度样本集合训练语义相似度计算模型时,首先将语义相似度样本集合划分为一定比例的训练集,验证集和测试集;语义相似度计算模型包括语义表示计算模型和相似度计算模型,语义表示计算模型使用BERT或S-BERT模型,相似度计算模型使用向量的余弦夹角计算;
步骤8中,计算预处理后的查询文本与对应类别中的案件文本的语义相似度时,将预处理过的查询文本,以及案件样本集合中的事实描述作为步骤5训练好的语义相似度计算模型的输入,得到两者的语义相似度。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明只利用案件文本自身的数据,根据法律条款和判决结果进行案件相似度定义提供的类案推荐方法能够满足在没有法律专家的参与的情况下从海量的法律案件中更快更有效地查询相似案件,并且同时也可以使非法律专业用户快速检索案件,找到案情相似的案例,提高检索效率。
附图说明
图1是本发明方法。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
如附图1所述一种基于语义的类案推荐方法,包括以下步骤:
步骤1、获得多个法律文书,进一步得到其中的案件文本;
步骤2、对案件文本进行预处理,并进一步对预处理后的案件文本划分为事实描述、法律条款和裁判结果,划分后的案件文本形成案件样本集合;
步骤3、从案件文本的裁判结果中抽取罪名,将罪名作为类别,对案件文本划分出的事实描述进行分类;采用步骤2的案件样本集合训练文本分类模型;
步骤4、计算案件样本集合中两个案件文本的事实描述的语义相似度,从而生成语义相似度样本集合;语义相似度样本集合包括多个语义相似度样本,两个案件文本的事实描述及它们的语义相似度作为一个语义相似度样本;
步骤5、采用语义相似度样本集合训练语义相似度计算模型;
步骤6、获得用户输入的查询文本,并对其进行预处理;
步骤7、使用步骤3中训练好的文本分类模型对预处理后的用户输入的查询文本进行分类;
步骤8、根据步骤7的分类结果,使用步骤5训练好的语义相似度计算模型计算预处理后的查询文本与对应类别中的案件文本的事实描述的语义相似度,并推荐相似度数值最高的若干案件文本。
其中获得法律文书的方法包括从网络抓取(例如中国裁判文书网:wenshu.court.gov.cn)也可以是现有的文本案例库。获得的法律文书可能是网页也可能是pdf的文件,从中获取其中的文本,每个文本就是一个案件文本。案件文书在预处理时,将其中与案件无关的包括人名地名等信息进行删除,以提高语义分析的效果。目前只针对刑事案件判决书进行分析,其他类型的裁判文书暂没有处理。
将每个案件文本划分为事实描述,法律条款和裁判结果三部分。案件文书在编写时具有一定的格式规范,其中事实描述部分通常以“经审理查明”开始,以“以上事实,有下列证据证实”结束;裁判结果部分以“判决如下”开始。
用案件样本集合训练文本分类模型时,根据裁判结果中的罪名作为类别,对划分出的事实描述部分的文本进行分类。在进行文本分类时使用的分类算法可以使用常见的文本分类算法,包括机器学习的方法,例如朴素贝叶斯,KNN方法,决策树,支持向量机等,以及深度学习方法例如FastText,TextCNN,TextRNN等方法。
其中步骤4中,计算案件样本集合中两个案件文本的事实描述的语义相似度是指:根据法律条款和裁判结果计算得到两个案件文本的语义相似度数值,该相似度数值作为两个案件文本的事实描述的语义相似度。计算案件样本集合中两个案件文本的事实描述的语义相似度是指总体相似度;总体相似度的计算方法如下:
首先分别计算罪名,法条法款,判罚结果的相似度,然后计算总体相似度:
(1)罪名相似度:
罪名从裁判结果中抽取,例如法律文书中“被告人**犯诈骗罪”,从中抽取得到“诈骗罪”。其中NameA是案件文本A的中的罪名,NameB是案件文本B中的罪名。
(2)法条法款相似度:
法条法款从法律条款中抽取。
(3)判罚结果相似度:
判罚结果由四类因素组合形成:主刑、缓刑、剥夺政治权利和罚金。其中判罚结果从裁判文书中抽取,例如“判处有期徒刑三年,缓刑三年,并处罚金人民币六千元”,抽取得到(主刑,3年),(缓刑,3年),(罚金,6000元)。
分别计算主刑、缓刑、剥夺政治权利和罚金的相似度:
主刑:
YA是案件文本A中的判罚年数,YB是案件文本B中的判罚年数(单位转换成月数)。
主刑分为:管制(3个月以上2年以下)、拘役(1个月以上6个月以下)、有期徒刑(6个月以上15年以下)、无期徒刑、死刑,为了方便计算,将管制最高上限24个月等价于拘役的下限1个月(按限制人身自由为思考基础,管制没有限制人身自由,拘役限制了),无期徒刑转换为15年,死刑转换为100年。
缓刑:
HA是案件文本A中的缓刑年数,HB是案件文本B中的判缓刑年数(单位转换成月数)。
剥夺政治权利:
ZA是案件文本A中的剥夺政治权利年数,ZB是案件文本B中的剥夺政治权利年数(单位转换成月数)。
为了统一计算,把剥夺政治权利终身转换为剥夺政治权利10年(此为剥夺政治权利年数的上限)
罚金:
MA是案件文本A中的罚金,MB是案件文本B中的罚金;
(4)总相似度:
simtotal=simn*(sima+simt)/2
语义相似度样本集合D={D1,D2,…,DP},P为类别总数,P≥x≥1,第x个类别的语义相似度样本Dx={(ti,tj,sij)},M≥i≥1、M≥j≥1,M是第x个类别的语义相似度样本的总数,ti是第i个案件文本,tj是第j个案件文本,sij是第i个案件文本和第j个案件文本的语义相似度;在生成的语义相似度样本集合中,既包括相似度为0的案件文本作为负例,也包括相似度不为0的案件文本样例作为正例。
其中步骤5中,采用语义相似度样本集合训练语义相似度计算模型时,首先将语义相似度样本集合划分为一定比例的训练集,验证集和测试集;例如6:2:2。将语义相似度样本(ti,tj,sij)作为语义相似度计算模型输入,使用Transformer结构计算文本的语义表示。语义相似度计算模型包括语义表示计算模型和相似度计算模型,语义表示计算模型使用BERT或S-BERT模型但也不限于这些,相似度计算模型使用向量的余弦夹角计算。
其中步骤6中,对用户输入的查询文本的预处理方法与步骤2相同。
对于步骤8还可以改为:根据步骤7的分类结果,采用BM25等算法对查询文本所对应类别中的案件文本的事实描述进行筛选,筛选出相似文本;使用步骤5训练好的语义相似度计算模型计算预处理后的查询文本与筛选后的相似文本的事实描述的语义相似度,并推荐相似度数值最高的若干案件文本。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。
Claims (8)
1.一种基于语义相似度的类案推荐方法,其特征在于,包括以下步骤:
步骤1、获得多个法律文书,进一步得到其中的案件文本;
步骤2、对案件文本进行预处理,并进一步对预处理后的案件文本划分为事实描述、法律条款和裁判结果,划分后的案件文本形成案件样本集合;
步骤3、从案件文本的裁判结果中抽取罪名,将罪名作为类别,对案件文本划分出的事实描述进行分类;采用步骤2的案件样本集合训练文本分类模型;
步骤4、计算案件样本集合中两个案件文本的事实描述的语义相似度,从而生成语义相似度样本集合;语义相似度样本集合包括多个语义相似度样本,两个案件文本的事实描述及它们的语义相似度作为一个语义相似度样本;
步骤4中,计算案件样本集合中两个案件文本的事实描述的语义相似度是指总体相似度;总体相似度的计算方法如下:
(1)罪名的相似度simn:
罪名从裁判结果中抽取,其中NameA是案件文本A中的罪名,NameB是案件文本B中的罪名;
(2)法条法款的相似度sima:
法条法款从法律条款中抽取,其中,LawA是案件文本A中的法律条款集合,LawB是案件文本B中的法律条款集合;
(3)判罚结果的相似度simt:
判罚结果包括四类因素:主刑,缓刑,剥夺政治权利和罚金;判罚结果从裁判结果中抽取;其中:
主刑的相似度simY:
YA是案件文本A中的判罚年数,YB是案件文本B中的判罚年数;
缓刑的相似度simH:
HA是案件文本A中的缓刑年数,HB是案件文本B中的判缓刑年数;
剥夺政治权利的相似度simZ:
ZA是案件文本A中的剥夺政治权利年数,ZB是案件文本B中的剥夺政治权利年数;
将剥夺政治权利终身转换为剥夺政治权利10年;
罚金的相似度simM:
MA是案件文本A中的罚金,MB是案件文本B中的罚金;
(4)总体相似度simtotal:
simtotal=simn*(sima+simt)/2;
步骤5、采用语义相似度样本集合训练语义相似度计算模型;
步骤6、获得用户输入的查询文本,并对其进行预处理;
步骤7、使用步骤3中训练好的文本分类模型对预处理后的用户输入的查询文本进行分类;
步骤8、根据步骤7的分类结果,使用步骤5训练好的语义相似度计算模型计算预处理后的查询文本与对应类别中的案件文本的事实描述的语义相似度,并推荐相似度数值最高的若干案件文本;
或,根据步骤7的分类结果,对查询文本所对应类别中的案件文本的事实描述进行筛选,筛选出相似文本;使用步骤5训练好的语义相似度计算模型计算预处理后的查询文本与筛选后的相似文本的事实描述的语义相似度,并推荐相似度数值最高的若干案件文本。
2.根据权利要求1所述的一种基于语义相似度的类案推荐方法,其特征在于,步骤8中,采用BM25算法对查询文本所对应类别中的案件文本的事实描述进行筛选。
3.根据权利要求1所述的一种基于语义相似度的类案推荐方法,其特征在于,步骤1中获得法律文书的途径是使用网页爬虫获得,或由用户提供;在获得法律文书后,将其转换为文本,每个文本就是一个案件文本。
4.根据权利要求1所述的一种基于语义相似度的类案推荐方法,其特征在于,其中步骤2中,所述预处理包括去除其中的人名、地名;对案件文本进行划分时,根据法律文书中的固定格式进行;其中事实描述以“经审理查明”开始,以“以上事实,有下列证据证实”结束;裁判结果以“判决如下”开始。
5.根据权利要求1所述的一种基于语义相似度的类案推荐方法,其特征在于,步骤3中,在进行文本分类时使用的分类算法包括朴素贝叶斯、KNN方法、决策树、支持向量机、FastText方法、TextCNN方法和TextRNN方法。
6.根据权利要求1所述的一种基于语义相似度的类案推荐方法,其特征在于,步骤4中,计算案件样本集合中两个案件文本的事实描述的语义相似度是指:根据法律条款和裁判结果计算得到两个案件文本的语义相似度数值,该语义相似度数值作为两个案件文本的事实描述的语义相似度。
7.根据权利要求1所述的一种基于语义相似度的类案推荐方法,其特征在于,步骤4中,语义相似度样本集合D={D1,D2,…,DP},P为类别总数,P≥x≥1,第x个类别的语义相似度样本Dx={(ti,tj,sij)},M≥i≥1、M≥j≥1,M是第x个类别的语义相似度样本的总数,ti是第i个案件文本,tj是第j个案件文本,sij是第i个案件文本和第j个案件文本的语义相似度;在生成的语义相似度样本集合中,既包括相似度为0的案件文本作为负例,也包括相似度不为0的案件文本样例作为正例。
8.根据权利要求1所述的一种基于语义相似度的类案推荐方法,其特征在于,步骤5中,采用语义相似度样本集合训练语义相似度计算模型时,首先将语义相似度样本集合划分为一定比例的训练集,验证集和测试集;语义相似度计算模型包括语义表示计算模型和相似度计算模型,语义表示计算模型使用BERT或S-BERT模型,相似度计算模型使用向量的余弦夹角计算;
步骤8中,计算预处理后的查询文本与对应类别中的案件文本的语义相似度时,将预处理过的查询文本,以及案件样本集合中的事实描述作为步骤5训练好的语义相似度计算模型的输入,得到两者的语义相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111019717.7A CN113688635B (zh) | 2021-09-01 | 2021-09-01 | 一种基于语义相似度的类案推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111019717.7A CN113688635B (zh) | 2021-09-01 | 2021-09-01 | 一种基于语义相似度的类案推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113688635A CN113688635A (zh) | 2021-11-23 |
CN113688635B true CN113688635B (zh) | 2023-05-30 |
Family
ID=78584645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111019717.7A Active CN113688635B (zh) | 2021-09-01 | 2021-09-01 | 一种基于语义相似度的类案推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113688635B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114547245A (zh) * | 2022-02-21 | 2022-05-27 | 山东大学 | 一种基于法律要素的类案检索方法及系统 |
CN115374190B (zh) * | 2022-10-25 | 2023-03-24 | 支付宝(杭州)信息技术有限公司 | 一种类案检索的方法、装置、存储介质及电子设备 |
CN116049368B (zh) * | 2023-02-10 | 2023-09-12 | 南京智云兴禾信息科技有限公司 | 一种基于法律文本矢量分析的内容抓取系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934483A (zh) * | 2016-11-18 | 2017-07-07 | 北京工业大学 | 一种借助线性规划的基于本体的刑事审判案例推理方法 |
CN107291688A (zh) * | 2017-05-22 | 2017-10-24 | 南京大学 | 基于主题模型的裁判文书相似度分析方法 |
CN108595547A (zh) * | 2018-04-09 | 2018-09-28 | 南京网感至察信息科技有限公司 | 一种基于语义抽取的相似案件检索方法 |
CN109614479A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于距离向量的裁判文书推荐方法 |
CN110457443A (zh) * | 2019-08-12 | 2019-11-15 | 贵州大学 | 一种基于刑事案件的犯罪行为链构建方法 |
CN110858269A (zh) * | 2018-08-09 | 2020-03-03 | 清华大学 | 刑事罪名预测方法及装置 |
CN113312474A (zh) * | 2020-02-27 | 2021-08-27 | 北京睿客邦科技有限公司 | 一种基于深度学习的法律文书的相似案件智能检索系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7752154B2 (en) * | 2007-02-26 | 2010-07-06 | International Business Machines Corporation | System and method for deriving a hierarchical event based database optimized for analysis of criminal and security information |
US20210109958A1 (en) * | 2019-10-14 | 2021-04-15 | Stacks LLC | Conceptual, contextual, and semantic-based research system and method |
-
2021
- 2021-09-01 CN CN202111019717.7A patent/CN113688635B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934483A (zh) * | 2016-11-18 | 2017-07-07 | 北京工业大学 | 一种借助线性规划的基于本体的刑事审判案例推理方法 |
CN107291688A (zh) * | 2017-05-22 | 2017-10-24 | 南京大学 | 基于主题模型的裁判文书相似度分析方法 |
CN108595547A (zh) * | 2018-04-09 | 2018-09-28 | 南京网感至察信息科技有限公司 | 一种基于语义抽取的相似案件检索方法 |
CN110858269A (zh) * | 2018-08-09 | 2020-03-03 | 清华大学 | 刑事罪名预测方法及装置 |
CN109614479A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于距离向量的裁判文书推荐方法 |
CN110457443A (zh) * | 2019-08-12 | 2019-11-15 | 贵州大学 | 一种基于刑事案件的犯罪行为链构建方法 |
CN113312474A (zh) * | 2020-02-27 | 2021-08-27 | 北京睿客邦科技有限公司 | 一种基于深度学习的法律文书的相似案件智能检索系统 |
Non-Patent Citations (5)
Title |
---|
A Risk-Informed Interference Assessment of MetSat/LTE Coexistence;Uri Livnat等;IEEE;第5卷;第6290页-6313页 * |
公共场所视频监控预警系统的应用;王鹏等;广西警察学院学报;第31卷(第2期);第42页-45页 * |
基于法律要素引导的相似案例推荐算法;刘博阳等;智能计算机与应用;第11卷(第6期);第1页-13页 * |
基于词语语义差异性的多标签罪名预测;王加伟等;中文信息学报;第33卷(第10期);第127页-134页 * |
裁判文书类案推送中的案情相似度计算模型研究;王君泽;马洪晶;张毅;杨兰蓉;;计算机工程与科学;第41卷(第12期);第2193页-2201页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113688635A (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113688635B (zh) | 一种基于语义相似度的类案推荐方法 | |
CN108363753B (zh) | 评论文本情感分类模型训练与情感分类方法、装置及设备 | |
Zhang et al. | A gated peripheral-foveal convolutional neural network for unified image aesthetic prediction | |
CN112256939B (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
CN110457696A (zh) | 一种面向档案数据的人才与政策智能匹配系统和方法 | |
CN109271477A (zh) | 一种借助互联网构建分类语料库的方法及系统 | |
CN105279495A (zh) | 一种基于深度学习和文本总结的视频描述方法 | |
CN101853250A (zh) | 对文档进行分类的方法及装置 | |
CN111709575A (zh) | 基于c-lstm的学业成绩预测方法 | |
CN111723256A (zh) | 一种基于信息资源库的政务用户画像构建方法及其系统 | |
CN104834739B (zh) | 互联网信息存储系统 | |
CN116304035B (zh) | 一种复杂案件中的多被告多罪名关系抽取方法及装置 | |
CN112487237B (zh) | 基于自适应cnn和半监督自训练模型的音乐分类方法 | |
CN113204669A (zh) | 一种基于语音识别的短视频搜索推荐方法、系统及计算机存储介质 | |
CN114925691A (zh) | 基于作者学术背景的合著论文作者贡献度评价分析方法 | |
CN108595593B (zh) | 基于主题模型的会议研究热点与发展趋势信息分析方法 | |
CN117077005B (zh) | 一种城市微更新潜力的优化方法和系统 | |
CN111966828A (zh) | 一种基于文本上下文结构和属性信息叠加网络的报刊新闻分类方法 | |
CN111460817A (zh) | 一种刑事法律文书相关法条的推荐方法和系统 | |
CN116257618A (zh) | 一种基于细粒度情感分析的多源智能旅游推荐方法 | |
CN114238735A (zh) | 一种互联网数据智能采集方法 | |
CN109190556B (zh) | 一种公证意愿真实性鉴别方法 | |
CN115687632B (zh) | 一种刑事量刑情节分解分析的方法和系统 | |
CN113515621B (zh) | 数据检索方法、装置、设备及计算机可读存储介质 | |
CN118152816B (zh) | 基于智能终端的取证分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |