CN109783640A - 一种类案推荐方法、系统及装置 - Google Patents
一种类案推荐方法、系统及装置 Download PDFInfo
- Publication number
- CN109783640A CN109783640A CN201811591283.6A CN201811591283A CN109783640A CN 109783640 A CN109783640 A CN 109783640A CN 201811591283 A CN201811591283 A CN 201811591283A CN 109783640 A CN109783640 A CN 109783640A
- Authority
- CN
- China
- Prior art keywords
- case
- corpus
- label
- new
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种类案推荐方法、系统及装置,方法包括:获取裁判文书,并对裁判文书进行处理得到案例语料库;计算新案例与案例语料库中每个案例的相似度;根据新案例提取特征标签,并计算得到标签权重总值;根据新案例与案例语料库中每个案例的相似度和标签权重总值,计算得到最终相似度;根据最终相似度进行排序,得到类案推荐列表。本发明通过提取标签算得标签权重总值,进而计算得到最终相似度,最后根据最终相似度进行排序列表,克服了原来的标签模型没有语义的缺点,大大提高了类案推荐的精准度。本发明可广泛应用于类案推荐领域中。
Description
技术领域
本发明涉及推荐技术领域,尤其涉及一种类案推荐方法、系统及装置。
背景技术
现有的类案推荐系统在实践中主要有两种形态:第一种是自动推送,自动推送是技术人员依托网上公布的裁判文书建立数据库,在此基础上对相关案件“贴标签”,将每个具体案例结构化为数十个法律标签。再将起诉书接入系统,与系统中的标签对比,推送标签最相似的案例;第二种是主动搜索,主动搜索是指法官对系统自动推送的类案不满意时,自主选取系统中罗列出的标签,在此基础上输入关键词,通过一整套的标签和自主搜索,在数据库中检索符合条件的类案。但是这两种推荐系统普遍存在推送类案不准确、案情细节不匹配等问题。
发明内容
为了解决上述技术问题,本发明的目的提供一种能提高推荐精准度的类案推荐方法、系统及装置。
本发明所采取的技术方案是:
一种类案推荐方法,包括以下步骤:
获取裁判文书,并对裁判文书进行处理得到案例语料库;
计算新案例与案例语料库中每个案例的相似度;
根据新案例提取特征标签,并计算得到标签权重总值;
根据新案例与案例语料库中每个案例的相似度和标签权重总值,计算得到最终相似度;
根据最终相似度进行排序,得到类案推荐列表。
作为所述的一种类案推荐方法的进一步改进,所述的获取裁判文书,并对裁判文书进行处理得到案例语料库,这一步骤具体包括:
获取裁判文书,并从裁判文书中提取得到各案例的诉讼案情信息;
对诉讼案情信息进行分词处理,得到案例文件语料;
调用doc2vec模型对案例文件语料进行训练,得到词向量、softmax参数和文档向量,形成得到案例语料库。
作为所述的一种类案推荐方法的进一步改进,所述的计算新案例与案例语料库中每个案例的相似度,这一步骤具体包括:
根据案例语料库的词向量和softmax参数,计算得出新案例的文档向量;
计算新案例的文档向量与案例语料库中每个案例的文档向量之间的计算欧式距离,得到新案例与案例语料库中每个案例的相似度。
作为所述的一种类案推荐方法的进一步改进,所述的根据新案例提取特征标签,并计算得到标签权重总值,这一步骤具体包括:
根据新案例的诉讼案情信息提取特征标签,并对其标准格式化,得到新案例的标签值;
根据预设的权重定义规则和新案例的标签值,对新案例的标签权重因子进行设定;
根据新案例的标签值和标签权重因子,计算得到标签权重总值。
作为所述的一种类案推荐方法的进一步改进,所述的最终相似度的计算公式为:
Wt=0.5*W1+(1-0.5)*(1/(1+lnW2));
其中,Wt表示最终相似度,W1表示相似度,W2表示标签权重总值。
本发明所采用的另一个技术方案是:
一种类案推荐系统,包括:
案例语料库生成单元,用于获取裁判文书,并对裁判文书进行处理得到案例语料库;
相似度计算单元,用于计算新案例与案例语料库中每个案例的相似度;
标签单元,用于根据新案例提取特征标签,并计算得到标签权重总值;
最终相似度计算单元,用于根据新案例与案例语料库中每个案例的相似度和标签权重总值,计算得到最终相似度;
列表生成单元,用于根据最终相似度进行排序,得到类案推荐列表。
作为所述的一种类案推荐系统的进一步改进,所述的案例语料库生成单元具体包括:
获取单元,用于获取裁判文书,并从裁判文书中提取得到各案例的诉讼案情信息;
分词单元,用于对诉讼案情信息进行分词处理,得到案例文件语料;
训练单元,用于调用doc2vec模型对案例文件语料进行训练,得到词向量、softmax参数和文档向量,形成得到案例语料库。
作为所述的一种类案推荐系统的进一步改进,所述的相似度计算单元具体包括:
文档向量计算单元,用于根据案例语料库的词向量和softmax参数,计算得出新案例的文档向量;
欧式距离计算单元,用于计算新案例的文档向量与案例语料库中每个案例的文档向量之间的计算欧式距离,得到新案例与案例语料库中每个案例的相似度。
作为所述的一种类案推荐系统的进一步改进,所述的标签单元具体包括:
标准化单元,用于根据新案例的诉讼案情信息提取特征标签,并对其标准格式化,得到新案例的标签值;
标签权重因子设定单元,用于根据预设的权重定义规则和新案例的标签值,对新案例的标签权重因子进行设定;
标签权重总值计算单元,用于根据新案例的标签值和标签权重因子,计算得到标签权重总值。
本发明所采用的再一个技术方案是:
一种类案推荐装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述一种类案推荐方法。
本发明的有益效果是:
本发明一种类案推荐方法、系统及装置通过提取标签算得标签权重总值,进而计算得到最终相似度,最后根据最终相似度进行排序列表,克服了原来的标签模型没有语义的缺点,大大提高了类案推荐的精准度。
附图说明
图1是本发明一种类案推荐方法的步骤流程图;
图2是本发明一种类案推荐系统的模块方框图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
参考图1,本发明一种类案推荐方法,包括以下步骤:
获取裁判文书,并对裁判文书进行处理得到案例语料库;
计算新案例与案例语料库中每个案例的相似度;
根据新案例提取特征标签,并计算得到标签权重总值;
根据新案例与案例语料库中每个案例的相似度和标签权重总值,计算得到最终相似度;
根据最终相似度进行排序,得到类案推荐列表。
进一步作为优选的实施方式,所述的获取裁判文书,并对裁判文书进行处理得到案例语料库,这一步骤具体包括:
获取裁判文书,并从裁判文书中提取得到各案例的诉讼案情信息;
对诉讼案情信息进行分词处理,得到案例文件语料;
调用doc2vec模型对案例文件语料进行训练,得到词向量、softmax参数和文档向量,形成得到案例语料库。
本实施例中,所述裁判文书可从裁判文书网进行下载,从裁判文书中提取得到各案例的诉讼案情信息可采用正则表达式实现,本实施例正则表达式如下:
诉称[,:](?P<ss_sc>.*),请求:
事实.*理由:(?P<ss_sc>.*)。#\$#本院经审理
辩称:(?P<ss_bc>.*)。#
进一步作为优选的实施方式,所述的计算新案例与案例语料库中每个案例的相似度,这一步骤具体包括:
根据案例语料库的词向量和softmax参数,计算得出新案例的文档向量;
计算新案例的文档向量与案例语料库中每个案例的文档向量之间的计算欧式距离,得到新案例与案例语料库中每个案例的相似度。
进一步作为优选的实施方式,所述的根据新案例提取特征标签,并计算得到标签权重总值,这一步骤具体包括:
根据新案例的诉讼案情信息提取特征标签,并对其标准格式化,得到新案例的标签值;
根据预设的权重定义规则和新案例的标签值,对新案例的标签权重因子进行设定;
根据新案例的标签值和标签权重因子,计算得到标签权重总值。
其中,特征标签的提取根据诉讼案情。不同案由的标签,以判决结果关联的特征为主。
举例:民间借贷纠纷,提取的特征标签包括:借款金额、借款利率、借款利息、借款周期、连带关系、借款用途、还款日期、延迟履行利息等。如借款金额<=1w,取值1;借款金额>1w且<=5w取值2;借款金额>5w并且<=20w取值3;借款金额>20w且小于100W取值4;借款金额>100w<=500w取值5,大于500w取值6;
标权重因子的定义,根据各个标签的在所有同案由案例中出现频率和对判决结论的重要性定义标签的权重因子。举例:借款金额:2;借款利率:2。
进一步作为优选的实施方式,所述的最终相似度的计算公式为:
Wt=0.5*W1+(1-0.5)*(1/(1+lnW2));
其中,Wt表示最终相似度,W1表示相似度,W2表示标签权重总值。
参考图2,本发明一种类案推荐系统,包括:
案例语料库生成单元,用于获取裁判文书,并对裁判文书进行处理得到案例语料库;
相似度计算单元,用于计算新案例与案例语料库中每个案例的相似度;
标签单元,用于根据新案例提取特征标签,并计算得到标签权重总值;
最终相似度计算单元,用于根据新案例与案例语料库中每个案例的相似度和标签权重总值,计算得到最终相似度;
列表生成单元,用于根据最终相似度进行排序,得到类案推荐列表。
进一步作为优选的实施方式,所述的案例语料库生成单元具体包括:
获取单元,用于获取裁判文书,并从裁判文书中提取得到各案例的诉讼案情信息;
分词单元,用于对诉讼案情信息进行分词处理,得到案例文件语料;
训练单元,用于调用doc2vec模型对案例文件语料进行训练,得到词向量、softmax参数和文档向量,形成得到案例语料库。
进一步作为优选的实施方式,所述的相似度计算单元具体包括:
文档向量计算单元,用于根据案例语料库的词向量和softmax参数,计算得出新案例的文档向量;
欧式距离计算单元,用于计算新案例的文档向量与案例语料库中每个案例的文档向量之间的计算欧式距离,得到新案例与案例语料库中每个案例的相似度。
进一步作为优选的实施方式,所述的标签单元具体包括:
标准化单元,用于根据新案例的诉讼案情信息提取特征标签,并对其标准格式化,得到新案例的标签值;
标签权重因子设定单元,用于根据预设的权重定义规则和新案例的标签值,对新案例的标签权重因子进行设定;
标签权重总值计算单元,用于根据新案例的标签值和标签权重因子,计算得到标签权重总值。
本发明一种类案推荐装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述一种类案推荐方法。
本发明通过提取标签算得标签权重总值,进而计算得到最终相似度,最后根据最终相似度进行排序列表,克服了原来的标签模型没有语义的缺点,大大提高了类案推荐的精准度。原来使用的按标签推荐的相似案例,能达到65%的准确率,跟行业60%-70%的准确率接近。引入doc2vec的文档向量表达模型后,包含了语义的影响,推荐类案准确率普遍超过80%。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种类案推荐方法,其特征在于,包括以下步骤:
获取裁判文书,并对裁判文书进行处理得到案例语料库;
计算新案例与案例语料库中每个案例的相似度;
根据新案例提取特征标签,并计算得到标签权重总值;
根据新案例与案例语料库中每个案例的相似度和标签权重总值,计算得到最终相似度;
根据最终相似度进行排序,得到类案推荐列表。
2.根据权利要求1所述的一种类案推荐方法,其特征在于:所述的获取裁判文书,并对裁判文书进行处理得到案例语料库,这一步骤具体包括:
获取裁判文书,并从裁判文书中提取得到各案例的诉讼案情信息;
对诉讼案情信息进行分词处理,得到案例文件语料;
调用doc2vec模型对案例文件语料进行训练,得到词向量、softmax参数和文档向量,形成得到案例语料库。
3.根据权利要求1所述的一种类案推荐方法,其特征在于:所述的计算新案例与案例语料库中每个案例的相似度,这一步骤具体包括:
根据案例语料库的词向量和softmax参数,计算得出新案例的文档向量;
计算新案例的文档向量与案例语料库中每个案例的文档向量之间的计算欧式距离,得到新案例与案例语料库中每个案例的相似度。
4.根据权利要求1所述的一种类案推荐方法,其特征在于:所述的根据新案例提取特征标签,并计算得到标签权重总值,这一步骤具体包括:
根据新案例的诉讼案情信息提取特征标签,并对其标准格式化,得到新案例的标签值;
根据预设的权重定义规则和新案例的标签值,对新案例的标签权重因子进行设定;
根据新案例的标签值和标签权重因子,计算得到标签权重总值。
5.根据权利要求1所述的一种类案推荐方法,其特征在于:所述的最终相似度的计算公式为:
Wt=0.5*W1+(1-0.5)*(1/(1+lnW2));
其中,Wt表示最终相似度,W1表示相似度,W2表示标签权重总值。
6.一种类案推荐系统,其特征在于,包括:
案例语料库生成单元,用于获取裁判文书,并对裁判文书进行处理得到案例语料库;
相似度计算单元,用于计算新案例与案例语料库中每个案例的相似度;
标签单元,用于根据新案例提取特征标签,并计算得到标签权重总值;
最终相似度计算单元,用于根据新案例与案例语料库中每个案例的相似度和标签权重总值,计算得到最终相似度;
列表生成单元,用于根据最终相似度进行排序,得到类案推荐列表。
7.根据权利要求6所述的一种类案推荐系统,其特征在于:所述的案例语料库生成单元具体包括:
获取单元,用于获取裁判文书,并从裁判文书中提取得到各案例的诉讼案情信息;
分词单元,用于对诉讼案情信息进行分词处理,得到案例文件语料;
训练单元,用于调用doc2vec模型对案例文件语料进行训练,得到词向量、softmax参数和文档向量,形成得到案例语料库。
8.根据权利要求6所述的一种类案推荐系统,其特征在于:所述的相似度计算单元具体包括:
文档向量计算单元,用于根据案例语料库的词向量和softmax参数,计算得出新案例的文档向量;
欧式距离计算单元,用于计算新案例的文档向量与案例语料库中每个案例的文档向量之间的计算欧式距离,得到新案例与案例语料库中每个案例的相似度。
9.根据权利要求6所述的一种类案推荐系统,其特征在于:所述的标签单元具体包括:
标准化单元,用于根据新案例的诉讼案情信息提取特征标签,并对其标准格式化,得到新案例的标签值;
标签权重因子设定单元,用于根据预设的权重定义规则和新案例的标签值,对新案例的标签权重因子进行设定;
标签权重总值计算单元,用于根据新案例的标签值和标签权重因子,计算得到标签权重总值。
10.一种类案推荐装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-5任一项所述一种类案推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811591283.6A CN109783640A (zh) | 2018-12-20 | 2018-12-20 | 一种类案推荐方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811591283.6A CN109783640A (zh) | 2018-12-20 | 2018-12-20 | 一种类案推荐方法、系统及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109783640A true CN109783640A (zh) | 2019-05-21 |
Family
ID=66498205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811591283.6A Pending CN109783640A (zh) | 2018-12-20 | 2018-12-20 | 一种类案推荐方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109783640A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781650A (zh) * | 2020-01-02 | 2020-02-11 | 四川大学 | 一种基于深度学习的裁判文书自动生成方法及系统 |
CN111666495A (zh) * | 2020-06-05 | 2020-09-15 | 北京百度网讯科技有限公司 | 案件推荐方法、装置、设备以及存储介质 |
CN112256566A (zh) * | 2020-09-28 | 2021-01-22 | 建信金融科技有限责任公司 | 一种测试案例的保鲜方法和装置 |
CN113486158A (zh) * | 2021-09-08 | 2021-10-08 | 中国司法大数据研究院有限公司 | 基于案情比对的类案检索方法、装置、设备及存储介质 |
CN114428840A (zh) * | 2022-04-01 | 2022-05-03 | 湖南涉外经济学院 | 基于案例集的法律咨询服务系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678548A (zh) * | 2013-12-04 | 2014-03-26 | 清华大学 | 基于组合模式的失效服务替代推荐方法 |
CN105740349A (zh) * | 2016-01-25 | 2016-07-06 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN107133276A (zh) * | 2017-04-12 | 2017-09-05 | 安徽富驰信息技术有限公司 | 一种司法类案检索系统及其检索方法 |
CN107220295A (zh) * | 2017-04-27 | 2017-09-29 | 银江股份有限公司 | 一种人民矛盾调解案例搜索和调解策略推荐方法 |
CN108280149A (zh) * | 2018-01-04 | 2018-07-13 | 东南大学 | 一种基于多维度分类标签的医患纠纷类案件推荐方法 |
US20180246955A1 (en) * | 2015-12-01 | 2018-08-30 | Beijing Gridsum Technology Co., Ltd. | Method and device for searching legal provision |
CN108681551A (zh) * | 2018-03-30 | 2018-10-19 | 北京智慧正安科技有限公司 | 文书对比方法、电子装置及计算机可读存储介质 |
-
2018
- 2018-12-20 CN CN201811591283.6A patent/CN109783640A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678548A (zh) * | 2013-12-04 | 2014-03-26 | 清华大学 | 基于组合模式的失效服务替代推荐方法 |
US20180246955A1 (en) * | 2015-12-01 | 2018-08-30 | Beijing Gridsum Technology Co., Ltd. | Method and device for searching legal provision |
CN105740349A (zh) * | 2016-01-25 | 2016-07-06 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN107133276A (zh) * | 2017-04-12 | 2017-09-05 | 安徽富驰信息技术有限公司 | 一种司法类案检索系统及其检索方法 |
CN107220295A (zh) * | 2017-04-27 | 2017-09-29 | 银江股份有限公司 | 一种人民矛盾调解案例搜索和调解策略推荐方法 |
CN108280149A (zh) * | 2018-01-04 | 2018-07-13 | 东南大学 | 一种基于多维度分类标签的医患纠纷类案件推荐方法 |
CN108681551A (zh) * | 2018-03-30 | 2018-10-19 | 北京智慧正安科技有限公司 | 文书对比方法、电子装置及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
向李兴: "基于自然语义处理的裁判文书推荐系统设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781650A (zh) * | 2020-01-02 | 2020-02-11 | 四川大学 | 一种基于深度学习的裁判文书自动生成方法及系统 |
CN111666495A (zh) * | 2020-06-05 | 2020-09-15 | 北京百度网讯科技有限公司 | 案件推荐方法、装置、设备以及存储介质 |
CN111666495B (zh) * | 2020-06-05 | 2023-08-11 | 北京百度网讯科技有限公司 | 案件推荐方法、装置、设备以及存储介质 |
CN112256566A (zh) * | 2020-09-28 | 2021-01-22 | 建信金融科技有限责任公司 | 一种测试案例的保鲜方法和装置 |
CN112256566B (zh) * | 2020-09-28 | 2024-03-05 | 中国建设银行股份有限公司 | 一种测试案例的保鲜方法和装置 |
CN113486158A (zh) * | 2021-09-08 | 2021-10-08 | 中国司法大数据研究院有限公司 | 基于案情比对的类案检索方法、装置、设备及存储介质 |
CN113486158B (zh) * | 2021-09-08 | 2021-12-14 | 中国司法大数据研究院有限公司 | 基于案情比对的类案检索方法、装置、设备及存储介质 |
CN114428840A (zh) * | 2022-04-01 | 2022-05-03 | 湖南涉外经济学院 | 基于案例集的法律咨询服务系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783640A (zh) | 一种类案推荐方法、系统及装置 | |
CN106484664B (zh) | 一种短文本间相似度计算方法 | |
CN104361127B (zh) | 基于领域本体和模板逻辑的多语种问答接口快速构成方法 | |
CN107704503A (zh) | 用户关键词提取装置、方法及计算机可读存储介质 | |
CN106970912A (zh) | 中文语句相似度计算方法、计算装置以及计算机存储介质 | |
CN109191312A (zh) | 一种理赔反欺诈风控方法及装置 | |
CN111191445B (zh) | 广告文本分类方法及装置 | |
CN107180045A (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
CN102929860B (zh) | 一种基于上下文语境的中文分句情感极性判别方法 | |
CN104111925B (zh) | 项目推荐方法和装置 | |
CN104715063B (zh) | 搜索排序方法和装置 | |
CN105843796A (zh) | 一种微博情感倾向分析方法及装置 | |
CN109388801A (zh) | 相似词集合的确定方法、装置和电子设备 | |
CN106934005A (zh) | 一种基于密度的文本聚类方法 | |
CN107656920B (zh) | 一种基于专利的科技人才推荐方法 | |
CN108549697A (zh) | 基于语义关联的信息推送方法、装置、设备以及存储介质 | |
CN106897437B (zh) | 一种知识系统的高阶规则多分类方法及其系统 | |
CN110110035A (zh) | 数据处理方法和装置以及计算机可读存储介质 | |
CN106780273A (zh) | 旅客航班需求分析方法和系统 | |
CN111858830B (zh) | 基于自然语言处理的卫生监督执法数据检索系统及其方法 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN111177332A (zh) | 自动提取裁判文书涉案标的和裁判结果的方法及装置 | |
CN112613321A (zh) | 一种抽取文本中实体属性信息的方法及系统 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN108595415B (zh) | 一种法律差异化判定方法、装置及计算机设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190521 |