CN109117434A - 裁判文书检索方法、装置、存储介质及处理器 - Google Patents

裁判文书检索方法、装置、存储介质及处理器 Download PDF

Info

Publication number
CN109117434A
CN109117434A CN201710486752.7A CN201710486752A CN109117434A CN 109117434 A CN109117434 A CN 109117434A CN 201710486752 A CN201710486752 A CN 201710486752A CN 109117434 A CN109117434 A CN 109117434A
Authority
CN
China
Prior art keywords
judgement
judgement document
document
item
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710486752.7A
Other languages
English (en)
Other versions
CN109117434B (zh
Inventor
石鹏
赵健
付梦娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201710486752.7A priority Critical patent/CN109117434B/zh
Publication of CN109117434A publication Critical patent/CN109117434A/zh
Application granted granted Critical
Publication of CN109117434B publication Critical patent/CN109117434B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Technology Law (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种裁判文书检索方法、装置、存储介质及处理器,可以在预设的裁判文书库中查找案由与第一裁判文书的案由相同的裁判文书,并计算查找到的各裁判文书与第一裁判文书的相似度,根据相似度确定作为检索结果的裁判文书。由于作为检索结果的裁判文书与第一裁判文书的案由相同,因此保证了二者属于同类型的案件。同时,本发明可以通过裁判文书进行检索,根据裁判文书相似度确定的作为检索结果的裁判文书。本发明通过裁判文书相似度检索到的裁判文书所涉案件与第一裁判文书所涉案件的相似度较高。

Description

裁判文书检索方法、装置、存储介质及处理器
技术领域
本发明涉及信息检索技术领域,尤其涉及一种裁判文书检索方法、装置、存储介质及处理器。
背景技术
随着我国法治社会的建设和完善,我国对司法审判的要求也越来越高。
法官或案件当事人常需要检索与某案件相似的案件的裁判文书,现有的检索方法是通过关键词在裁判文书检索网站上进行检索。例如:通过关键词“打伤人”在裁判文书检索网站进行检索。
由于裁判文书记载的内容较多,因此通过关键词检索到的裁判文书所涉案件与该某案件的相似度较低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的裁判文书检索方法、装置、存储介质及处理器,方案如下:
一种裁判文书检索方法,包括:
获得第一裁判文书;
确定所述第一裁判文书的案由,在预设的裁判文书库中查找案由与所述第一裁判文书的案由相同的裁判文书;
分别计算查找到的各裁判文书与所述第一裁判文书的相似度;
根据所述相似度确定作为检索结果的裁判文书。
可选的,所述根据所述相似度确定作为检索结果的裁判文书,包括:
将所述相似度高于预设相似度阈值的裁判文书确定为检索结果;
或,
按照所述相似度从高到低的顺序对所述查找到的各裁判文书进行排序,将所述排序中前N个裁判文书确定为检索结果,其中,N为自然数且不大于所述查找到的裁判文书的数量。
可选的,所述方法还包括:
确定所述第一裁判文书中的各判项的判决金额;
对每个判项:将所述第一裁判文书中的该判项的判决金额与查找到的裁判文书中该判项的判决金额进行比对,获得比对结果;
所述根据所述相似度确定作为检索结果的裁判文书,包括:
根据所述相似度和所述比对结果确定作为检索结果的裁判文书。
可选的,所述对每个判项:将所述第一裁判文书中的该判项的判决金额与查找到的裁判文书中该判项的判决金额进行比对,获得比对结果,包括:
对每个判项:确定与该判项的判决金额对应的初始区间,并将所述初始区间作为当前区间;
确定查找到的裁判文书中该判项的判决金额位于当前区间的裁判文书的数量;
判断所述数量是否不低于预设阈值,如果是,则将该判项的判决金额位于当前区间的查找到的裁判文书作为比对结果;
否则,判断将当前区间的长度扩大第一预设长度后当前区间的长度是否小于第二预设长度,如果是,则将当前区间的长度扩大所述第一预设长度并返回执行所述确定查找到的裁判文书中该判项的判决金额位于当前区间的裁判文书的数量的步骤;如果不小于所述第二预设长度,则不再扩大当前区间,将该判项的判决金额位于当前区间的查找到的裁判文书作为比对结果,其中,第二预设长度大于第一预设长度。
可选的,所述对每个判项:将所述第一裁判文书中的该判项的判决金额与查找到的裁判文书中该判项的判决金额进行比对,获得比对结果,包括:
对每个判项:计算得到所述第一裁判文书中的该判项的判决金额分别与至少一个查找到的裁判文书中该判项的判决金额之间的差的绝对值;
所述根据所述相似度和所述比对结果确定作为检索结果的裁判文书,包括:
对每个判项:确定计算得到的该判项的判决金额分别与至少一个查找到的裁判文书中该判项的判决金额之间的差的绝对值所在的数值区间;
根据所述相似度和至少一个判项的在各数值区间内的差的绝对值的数量确定作为检索结果的裁判文书。
可选的,所述根据所述相似度和至少一个判项的在各数值区间内的差的绝对值的数量确定作为检索结果的裁判文书,包括:
确定用户选择的第一判项,确定与所述第一判项对应的初始区间,将所述初始区间作为当前区间;
确定所述第一判项的在当前区间内的差的绝对值的数量是否不低于预设阈值,如果是,则根据所述相似度和至少一个在当前区间内的差的绝对值对应的查找到的裁判文书确定作为检索结果的裁判文书;否则,判断将当前区间的长度扩大第三预设长度后当前区间的区间长度是否小于第四预设长度,如果是,则将当前区间的长度扩大所述第三预设长度并返回执行所述确定所述第一判项的在当前区间内的差的绝对值的数量是否不低于预设阈值的步骤;如果不小于所述第四预设长度,则不再扩大当前区间,根据所述相似度和至少一个在当前区间内的差的绝对值对应的查找到的裁判文书确定作为检索结果的裁判文书。
可选的,所述计算查找到的各裁判文书与所述第一裁判文书的相似度,包括:
对所述第一裁判文书的各组成部分中的至少一个组成部分:确定该组成部分与查找到的各裁判文书的该组成部分的文本相似度;
根据所述文本相似度确定查找到的各裁判文书与所述第一裁判文书的相似度。
可选的,所述计算查找到的各裁判文书与所述第一裁判文书的相似度,还包括:
分别确定查找到的各裁判文书的全部文本与所述第一裁判文书的全部文本的全文相似度;
所述根据所述文本相似度确定查找到的各裁判文书与所述第一裁判文书的相似度,包括:
根据所述文本相似度和所述全文相似度确定查找到的各裁判文书与所述第一裁判文书的相似度。
一种裁判文书检索装置,包括:文书获得单元、案由确定单元、相似度计算单元和结果确定单元,
所述文书获得单元,用于获得第一裁判文书;
所述案由确定单元,用于确定所述第一裁判文书的案由,在预设的裁判文书库中查找案由与所述第一裁判文书的案由相同的裁判文书;
所述相似度计算单元,用于分别计算查找到的各裁判文书与所述第一裁判文书的相似度;
所述结果确定单元,用于根据所述相似度确定作为检索结果的裁判文书。
可选的,所述装置还包括:金额确定单元和金额比对单元,
所述金额确定单元,用于确定所述第一裁判文书中的各判项的判决金额;
所述金额比对单元,用于对每个判项:将所述第一裁判文书中的该判项的判决金额与查找到的裁判文书中该判项的判决金额进行比对,获得比对结果;
所述结果确定单元,具体用于根据所述相似度和所述比对结果确定作为检索结果的裁判文书。
一种存储介质,其上存储有程序,该程序被处理器执行时实现上述的任一种裁判文书检索方法。
一种处理器,所述处理器用于运行程序,所述程序运行时执行上述的任一种裁判文书检索方法。
借由上述技术方案,本发明实施例提供的一种裁判文书检索方法、装置、存储介质及处理器,可以在预设的裁判文书库中查找案由与第一裁判文书的案由相同的裁判文书,并分别计算查找到的各裁判文书与第一裁判文书的相似度,根据相似度确定作为检索结果的裁判文书。由于作为检索结果的裁判文书与第一裁判文书的案由相同,因此保证了二者属于同类型的案件。同时,本发明可以通过裁判文书进行检索,根据裁判文书相似度确定的作为检索结果的裁判文书。本发明通过裁判文书相似度检索到的裁判文书所涉案件与第一裁判文书所涉案件的相似度较高。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种裁判文书检索方法的流程图;
图2示出了本发明实施例提供的另一种裁判文书检索方法的流程图;
图3示出了本发明实施例提供的另一种裁判文书检索方法的流程图;
图4示出了本发明实施例提供的另一种裁判文书检索方法的流程图;
图5示出了本发明实施例提供的另一种裁判文书检索方法的流程图;
图6示出了本发明实施例提供的另一种裁判文书检索方法的流程图;
图7示出了本发明实施例提供的一种裁判文书检索装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明实施例提供的一种裁判文书检索方法,可以包括:
S100、获得第一裁判文书;
具体的,用户可将第一裁判文书的全文复制并粘贴到输入框中,这样,本发明即可获得第一裁判文书。当然,本发明还可以通过其他方式获得第一裁判文书,本发明在此不做限定。
S200、确定所述第一裁判文书的案由,在预设的裁判文书库中查找案由与所述第一裁判文书的案由相同的裁判文书;
具体的,可以通过对裁判文书进行解析以确定裁判文书的案由。其中,本发明可以通过机器学习技术对裁判文书进行解析,例如:通过大量的裁判文书及对应的文书解析结果对机器学习引擎进行训练,在机器学习引擎训练完毕后,即可使用该机器学习引擎对获得的第一裁判文书进行解析,从而确定裁判文书的案由。
可选的,裁判文书的解析结果中除案由外,还可以包括多种信息,如:判项(即:判决金额细项)、判决金额、抗辩、诉讼请求、判决如下段落(或判决如下部分)、事实认定段落(或事实认定部分)、本院认为段落(或本院认为部分)等。
在实际应用中,本发明对裁判文书进行解析的过程可以包括:分段过程和信息提取过程。其中,分段过程中本发明通过机器训练得到的裁判文书各组成部分的特征对裁判文书的内容进行识别,从而将各段内容划分到裁判文书的各组成部分中,完成分段。具体的,裁判文书的组成部分可以包括:
诉讼信息部分、诉讼请求部分、抗辩部分、事实认定部分、判决如下部分、本院认为部分等。
例如:诉讼请求部分的开头一般为“原告为此诉请法院判令”、“原告诉称”、“原告请求法院判令”等语句或相同、相似含义的语句,上述语句中的原告也可以为具体的原告名称,如公司、团体名称或个人名称等。本发明可以基于此特征确定诉讼请求部分。
其中,案由可以从诉讼信息部分中提取得到,诉讼信息部分一般位于裁判文书标题下方,记载有诉讼双方及代理人的信息及诉讼过程描述信息,案由可从诉讼过程描述信息中提取。例如:某发明专利侵权纠纷案件的诉讼过程描述信息内容为:
“原告A公司诉被告B公司侵害发明专利权纠纷(名称为“C装置”,专利号为ZL2004XXXXXXX.X)一案,本院于2013年10月15日受理后,依法组成合议庭于2014年3月25日公开开庭审理了本案。原告A公司的委托代理人D到庭参加诉讼。被告B公司经本院合法传唤没有到庭,本院依法缺席审理。本案现已审理终结”。
基于此诉讼过程描述信息,本发明就可以从中提取到案由为:侵害发明专利权纠纷。在实际应用中,本发明可以对案由进行统一的划分和命名,例如:将发明专利侵权类案件的案由定为侵害发明专利权纠纷,这样,当直接提取到的案由文本含义和“侵害发明专利权纠纷”相同或相似时,可以直接将案由确定为侵害发明专利权纠纷。
当然,在实际应用中,裁判文书的案由可以是预先为裁判文书设置的,这样,本发明可以直接确定裁判文书的案由。
其中,预设的裁判文书库可以是通过从互联网中获取的多个裁判文书构成的文书库,具体的,本发明可以通过爬虫对所需爬取的网站上公开的多个裁判文书进行爬取并按照预设裁判文书的特征对裁判文书进行分类。其中,预设裁判文书的特征可以为案由,例如,可以为三级案由。其中,确定预设的裁判文书库中裁判文书的案由的过程可以与确定第一裁判文书中的案由的过程相同或不同,本发明在此不做限定。
由于案由为案件的分类信息,因此只有当案件的案由相同时,案件之间才具有可比性,例如:同为专利权权属、侵权纠纷的两个案件具有可比性,而专利权权属、侵权纠纷与婚姻家庭纠纷之间不具有可比性。
当然,本发明的预设的裁判文书库还可以将各裁判文书的案号与各裁判文书进行对应存储,这样,就可以通过案号检索到相对应的裁判文书。
S300、分别计算查找到的各裁判文书与所述第一裁判文书的相似度;
其中,如图2所示,步骤S300可以具体包括:
S310、对所述第一裁判文书的各组成部分中的至少一个组成部分:确定该组成部分与查找到的各裁判文书的该组成部分的文本相似度;
具体的,可以通过结合Lucene的语义分析及近似文本匹配技术进行文本相似度计算。其中,Lucene是一个基于Java的全文检索引擎,它带有相似度计算,可以确定文本的相似度。
优选的,步骤S310可以确定第一裁判文书的事实认定部分和查找到的各裁判文书的事实认定部分的文本相似度,以及确定第一裁判文书的判决如下部分和查找到的各裁判文书的判决如下部分的文本相似度。可以理解的是,事实认定部分和判决如下部分是案件可比性最高的部分,当两个案件的事实认定部分相似时,就可以确定这两个案件具有较高的相似度。同样,判决如下部分是用户十分看重的部分,判决如下部分的相似度也对案件的相似度确定十分重要。
当然,在实际应用中,也可以对裁判文书的所有组成部分都确定其在第一裁判文书中以及查找到的各裁判文书中的相似度。
S320、根据所述文本相似度确定查找到的各裁判文书与所述第一裁判文书的相似度。
具体的,对每一个查找到的裁判文书的相似度计算结果:步骤S320可以对步骤S310中该查找到的裁判文书的相似度计算结果进行加权求和/加权平均来确定所述第一裁判文书与该查找到的裁判文书的相似度。例如:仅根据裁判文书中的事实认定部分、判决如下部分和诉讼请求部分确定所述第一裁判文书与该查找到的裁判文书的相似度,则可以举例如下:
对查找到的裁判文书A,步骤S310计算得到A与第一裁判文书B的事实认定部分的相似度为SA1,步骤S310计算得到A与第一裁判文书B的判决如下部分的相似度为SA2,步骤S310计算得到A与第一裁判文书B的诉讼请求部分的相似度为SA3;为事实认定部分的相似度设置的加权值为Q1,为判决如下部分的相似度设置的加权值为Q2,为诉讼请求部分的相似度设置的加权值为Q3;则A与B的相似度可以为:
((SA1*Q1)+(SA2*Q2)+(SA3*Q3))/3。
可选的,事实认定部分的相似度设置的加权值和判决如下部分的相似度设置的加权值可以大于其他组成部分(如诉讼请求部分)的相似度的加权值。
当然,在本发明另一实施例中,步骤S300可以具体包括:
步骤一、对所述第一裁判文书的各组成部分中的至少一个组成部分:确定该组成部分与查找到的各裁判文书的该组成部分的文本相似度;
步骤二、分别确定查找到的各裁判文书的全部文本与所述第一裁判文书的全部文本的全文相似度;
步骤三、根据所述文本相似度和所述全文相似度确定查找到的各裁判文书与所述第一裁判文书的相似度。
其中,步骤二在确定全文相似度时不需要再分组成部分,直接对全文进行相似度的计算即可。
具体的,对每一个查找到的裁判文书的相似度计算结果:步骤三可以对步骤一和步骤二中该查找到的裁判文书的相似度计算结果进行加权求和/加权平均来确定所述第一裁判文书与该查找到的裁判文书的相似度。例如:仅根据裁判文书中的事实认定部分、判决如下部分、诉讼请求部分及全文相似度确定所述第一裁判文书与该查找到的裁判文书的相似度,则可以举例如下:
对查找到的裁判文书A,步骤一计算得到A与第一裁判文书B的事实认定部分的相似度为SA1,步骤一计算得到A与第一裁判文书B的判决如下部分的相似度为SA2,步骤一计算得到A与第一裁判文书B的诉讼请求部分的相似度为SA3,步骤二计算得到A与第一裁判文书B的全文相似度为SA4,为事实认定部分的相似度设置的加权值为Q1,为判决如下部分的相似度设置的加权值为Q2,为诉讼请求部分的相似度设置的加权值为Q3,为全文相似度设置的加权值为Q4,则A与B的相似度可以为:
((SA1*Q1)+(SA2*Q2)+(SA3*Q3)+(SA4*Q4))/4。
可选的,事实认定部分的相似度设置的加权值和判决如下部分的相似度设置的加权值可以大于其他组成部分(如诉讼请求部分)的相似度的加权值,事实认定部分的相似度设置的加权值和判决如下部分的相似度设置的加权值可以大于全文相似度的加权值。
S400、根据所述相似度确定作为检索结果的裁判文书。
具体的,步骤S400可以包括:如下两种方式中的任一种:
方式一、将所述相似度高于预设相似度阈值的裁判文书确定为检索结果;
方式二、按照所述相似度从高到低的顺序对所述查找到的各裁判文书进行排序,将所述排序中前N个裁判文书确定为检索结果,其中,N为自然数且不大于所述查找到的裁判文书的数量。
通过方式一的处理,本发明都可以有效减少检索结果中裁判文书的数量,仅将相似度相对更高的一些裁判文书作为检索结果,这样用户就无需浏览大量的裁判文书,有效节省了用户的时间。而方式二按照相似度排序的方式也可以使得用户按照相似度选择裁判文书进行浏览,避免了用户对相似度较低的裁判文书的浏览行为,同样节省了用户的时间。
本发明实施例提供的一种裁判文书检索方法,可以在预设的裁判文书库中查找案由与第一裁判文书的案由相同的裁判文书,并分别计算查找到的各裁判文书与第一裁判文书的相似度,根据相似度确定作为检索结果的裁判文书。由于作为检索结果的裁判文书与第一裁判文书的案由相同,因此保证了二者属于同类型的案件。同时,本发明可以通过裁判文书进行检索,根据裁判文书相似度确定的作为检索结果的裁判文书。本发明通过裁判文书相似度检索到的裁判文书所涉案件与第一裁判文书所涉案件的相似度较高。
如图3所示,本发明实施例提供的另一种裁判文书检索方法,可以包括:
S100、获得第一裁判文书;
S200、确定所述第一裁判文书的案由,在预设的裁判文书库中查找案由与所述第一裁判文书的案由相同的裁判文书;
S300、分别计算查找到的各裁判文书与所述第一裁判文书的相似度;
S110、确定所述第一裁判文书中的各判项的判决金额;
具体的,案件的判项可以有多种,如:精神损害赔偿、经济损失等。判项的判决金额一般位于判项后方,例如:裁判文书中记载有:“A公司于本判决生效之日起十日内赔偿B经济损失人民币二十万元”,则可以确定经济损失的判决金额为二十万元。
S120、对每个判项:将所述第一裁判文书中的该判项的判决金额与查找到的裁判文书中该判项的判决金额进行比对,获得比对结果;
可选的,当查找到的裁判文书较多时,可以选取部分(如相似度相对较高的一些裁判文书)裁判文书中的判项的判决金额与第一裁判文书中的判项的判决金额进行比对,以确定判项的判决金额与第一裁判文书中的判项的判决金额相近的查找到的裁判文书。由于判决金额对案件来说十分重要,因此本发明可以根据比对结果确定作为检索结果的判决文书,使得检索结果更为精确。
步骤S110、步骤S120可以在步骤S200之前、之后执行,也可以并行执行,步骤S110、步骤S120可以在步骤S300之前、之后执行,也可以并行执行,本发明不做限定。
S410、根据所述相似度和所述比对结果确定作为检索结果的裁判文书。
在本发明其他实施例中,还可以根据所述比对结果确定第一裁判文书的各判项的判决金额是否合理并通知用户。
具体的,步骤S410可以将与第一裁判文书具有较高相似度且相应判项的判决金额相近的查找到的裁判文书作为检索结果,这样,用户就可以在检索结果中浏览与第一裁判文书案情等信息相似且判决金额相近的裁判文书。
在实际应用中,第一裁判文书中可能具有多个判项,这种情况下,用户可以选择需要进行判决金额比对的判项,如用户选择了判项1和判项2进行判决金额比对。当然,本发明也可以自动选择判项中的全部或部分进行判决金额比对,如:本发明将第一裁判文书的多个判项中的位于预设比对判项列表中的判项确定为需要进行判决金额比对的判项。预设比对判项列表中的判项可以为法官根据案情自由裁量度较大的判项,如精神损失费等。
当需要进行判决金额比对的判项有多个时,用户可以设定需要进行判决金额比对的各判项之间的逻辑关系,例如:第一裁判文书和A裁判文书中各判项中每一个判项的判决金额都相近且这两个裁判文书相似度高时才将A裁判文书确定为检索结果之一。或者,第一裁判文书和A裁判文书中各判项中至少N个判项的判决金额相近且这两个裁判文书相似度高时将A裁判文书确定为检索结果之一,N为自然数。
其中,如图4所示,图3所示步骤S120可以包括:
S121、对每个判项:确定与该判项的判决金额对应的初始区间,并将所述初始区间作为当前区间;
其中,初始区间可以为第一裁判文书中的判项的判决金额所在的一个数值区间,例如:判决金额为3000,则对应的初始区间可以为(3000-a,3000)、(3000,3000+a)或(3000-a,3000+a)。其中,a可以为正数和/或a可以小于3000。可选的,a小于判决金额的一半。
S122、确定查找到的裁判文书中该判项的判决金额位于当前区间的裁判文书的数量;
S123、判断所述数量是否不低于预设阈值,如果是,则执行步骤S124;否则,执行步骤S125;
S124、将该判项的判决金额位于当前区间的查找到的裁判文书作为比对结果;
S125、判断将当前区间的长度扩大第一预设长度后当前区间的长度是否小于第二预设长度,如果是,则执行步骤S126,如果不小于所述第二预设长度,则不再扩大当前区间,执行步骤S124;其中,第二预设长度大于第一预设长度。
具体的,步骤S123的判断结果还可以用于确定判决金额是否合理。当两个裁判文书的相似度较高时,这两个裁判文书所涉案件的相似度也较高。基于此,当与第一裁判文书中某判项的判决金额相近的判决金额对应的相似裁判文书较多时,则说明有很多相似案件的该判项的判决金额与第一裁判文书所涉案件的该判项的判决金额相近,这也说明了第一裁判文书中该判项的判决金额具有一定的合理性。具体的,本发明在确定判决金额是否合理后,可以输出判决金额是否合理的确定结果以通知用户。在实际应用中,随着当前区间长度的扩大,步骤S123会进行多次判断。本发明的一个可选实施例中,在步骤S125的判决结果为不小于所述第二预设长度时,再根据步骤S123的最近一次的判断结果确定判决金额是否合理。这样,该可选实施例就在一定程度上放宽了对判决金额合理确定所需的数量要求。具体的,不同判项对应的第二预设长度可以不同。
具体的,当前区间在进行第一预设长度的扩大时,可以首先进行区间下限的修改,例如:第一预设长度为200元,当前区间为(2800,3000),则第一次扩大时可以将当前区间扩大为(2600,3000);第二次扩大时可以将当前区间扩大为(2600,3200);第三次扩大时可以将当前区间扩大为(2400,3200);第四次扩大时可以将当前区间扩大为(2400,3400),以此类推。当然,在本发明其他实施例中,进行当前区间的扩大时,也可以同时修改上限和下限,例如:第一预设长度为200元,当前区间为(2800,3000),则第一次扩大时可以将当前区间扩大为(2700,3100);第二次扩大时可以将当前区间扩大为(2600,3200);第三次扩大时可以将当前区间扩大为(2500,3300);第四次扩大时可以将当前区间扩大为(2400,3400),以此类推。
S126、将当前区间的长度扩大所述第一预设长度,返回执行所述步骤S122。
图4所示方案可以依次确定查找到的裁判文书中判项的判决金额位于逐渐扩大的当前区间的裁判文书的数量,当位于当前区间的裁判文书足够多时,则不再扩大当前区间,直接将判项的判决金额位于当前区间的查找到的裁判文书作为比对结果。当当前区间扩大至第二预设长度或超过第二预设长度时,则当前区间则不再继续扩大。通过区间长度的限制,就可以防止判决金额相差较大时仍将相应的裁判文书作为比对结果之一,保证了作为比对结果的裁判文书的判决金额与第一裁判文书的判决金额的相近性。
如图5所示,本发明实施例提供的另一种裁判文书检索方法,可以包括:
S100、获得第一裁判文书;
S200、确定所述第一裁判文书的案由,在预设的裁判文书库中查找案由与所述第一裁判文书的案由相同的裁判文书;
S300、分别计算查找到的各裁判文书与所述第一裁判文书的相似度;
S110、确定所述第一裁判文书中的各判项的判决金额;
步骤S100至步骤S110已在前述实施例中进行说明,不再赘述。
S127、对每个判项:计算得到所述第一裁判文书中的该判项的判决金额分别与至少一个查找到的裁判文书中该判项的判决金额之间的差的绝对值;
下面举例说明:
举例1:
为方便起见,设用户选择了第一裁判文书中的判项“精神损失费”作为需要比对的判项。第一裁判文书中精神损失费的判决金额为10000元,查找到了五个裁判文书,这五个裁判文书中均含有精神损失费这一判项,且各自的判决金额分别为:8001、6000、8500、12001、11501。则步骤S127可以确定这五个裁判文书的精神损失费的判决金额与第一裁判文书中的精神损失费的判决金额的差的绝对值分别为:1999、4000、1500、2001、1501。
步骤S127是图3所示步骤S120的一种具体实施方式。
S411、对每个判项:确定计算得到的该判项的判决金额分别与至少一个查找到的裁判文书中该判项的判决金额之间的差的绝对值所在的数值区间;
其中,本发明可以对数值区间的大小进行设置,例如:将每1000元作为一个数值区间,这样,就可以得到如下数值区间:
(0,1000]]、(1000,2000]、(2000,3000]、(3000,4000]……
在举例1的基础上进行举例说明,可知,在数值区间(1000,2000]内的差的绝对值有3个,分别为:1999、1500、1501,在数值区间(2000,3000]内的差的绝对值有1个,为2001,在数值区间(3000,4000]内的差的绝对值有1个,为4000。
S412、根据所述相似度和至少一个判项的在各数值区间内的差的绝对值的数量确定作为检索结果的裁判文书。
步骤S411和步骤S412是图3所示步骤S410的一种具体实施方式。
可选的,当第一裁判文书中的判项仅有一个时,可以根据该判项的判决金额之间的差的绝对值在各数值区间内的差的绝对值的数量确定作为检索结果的裁判文书。在实际应用中,随着数值区间内数值的变大,落入数值区间内的差的绝对值对应的两个裁判文书之间的判决金额的差距也越大,为了使得作为检索结果的裁判文书数量不至于太少,本发明可以根据相似度和至少一个判项的在各数值区间内的差的绝对值的数量确定作为检索结果的裁判文书。当位于较小的数值区间内的差的绝对值的数量足够多时,则可以将位于较小的数值区间内的差的绝对值对应的查找到的裁判文书中相似度较高的作为检索结果。当位于较小的数值区间内的差的绝对值的数量较少时,则根据位于较大的数值区间内的差的绝对值的数量和相似度确定作为检索结果的裁判文书。
具体的,如图6所示,图5所示步骤S412可以具体包括:
S412a、确定用户选择的第一判项,确定与所述第一判项对应的初始区间,将所述初始区间作为当前区间;
需要对多个判项的判决金额做差的处理方式已在图3所示实施例中进行说明,在此不再说明。
S412b、确定所述第一判项的在所述当前区间内的差的绝对值的数量是否不低于预设阈值,如果是,则执行步骤S412c;否则,执行步骤S412d;
S412c、根据所述相似度和至少一个在所述当前区间内的差的绝对值对应的查找到的裁判文书确定作为检索结果的裁判文书;
S412d、判断将所述当前区间的长度扩大第三预设长度后所述当前区间的区间长度是否小于第四预设长度,如果是,则执行步骤S412e;如果不小于所述第四预设长度,则不再扩大所述当前区间,执行步骤S412c;
S412e、将所述当前区间的长度扩大所述第三预设长度并返回执行所述步骤S412b。
与上述方法实施例相对应,本发明还提供了一种裁判文书检索装置。
如图7所示,本发明实施例提供的一种裁判文书检索装置,可以包括:文书获得单元100、案由确定单元200、相似度计算单元300和结果确定单元400,
所述文书获得单元100,用于获得第一裁判文书;
具体的,用户可将第一裁判文书的全文复制并粘贴到输入框中,这样,本发明即可获得第一裁判文书。当然,本发明还可以通过其他方式获得第一裁判文书,本发明在此不做限定。
所述案由确定单元200,用于确定所述第一裁判文书的案由,在预设的裁判文书库中查找案由与所述第一裁判文书的案由相同的裁判文书;
具体的,案由确定单元200可以通过对裁判文书进行解析以确定裁判文书的案由。其中,本发明的案由确定单元200可以通过机器学习技术对裁判文书进行解析,例如:通过大量的裁判文书及对应的文书解析结果对机器学习引擎进行训练,在机器学习引擎训练完毕后,即可使用该机器学习引擎对获得的第一裁判文书进行解析,从而确定裁判文书的案由。
可选的,裁判文书的解析结果中除案由外,还可以包括多种信息,如:判项(即:判决金额细项)、判决金额、抗辩、诉讼请求、判决如下段落、事实认定段落、本院认为段落等。
在实际应用中,案由确定单元200对裁判文书进行解析的过程可以包括:分段过程和信息提取过程。其中,分段过程中本发明通过机器训练得到的裁判文书各组成部分的特征对裁判文书的内容进行识别,从而将各段内容划分到裁判文书的各组成部分中,完成分段。具体的,裁判文书的组成部分可以包括:
诉讼信息部分、诉讼请求部分、抗辩部分、事实认定部分、判决如下部分、本院认为部分等。
例如:诉讼请求部分的开头一般为“原告为此诉请法院判令”、“原告诉称”、“原告请求法院判令”等语句或相同、相似含义的语句,上述语句中的原告也可以为具体的原告名称,如公司、团体名称或个人名称等。本发明可以基于此特征确定诉讼请求部分。
其中,案由可以从诉讼信息部分中提取得到,诉讼信息部分一般位于裁判文书标题下方,记载有诉讼双方及代理人的信息及诉讼过程描述信息,案由可从诉讼过程描述信息中提取。
当然,在实际应用中,裁判文书的案由可以是预先为裁判文书设置的,这样,本发明的案由确定单元200可以直接确定裁判文书的案由。
其中,预设的裁判文书库可以是通过从互联网中获取的多个裁判文书构成的文书库,具体的,本发明可以通过爬虫对所需爬取的网站上公开的多个裁判文书进行爬取并按照预设裁判文书的特征对裁判文书进行分类。其中,预设裁判文书的特征可以为案由,例如,可以为三级案由。其中,确定预设的裁判文书库中裁判文书的案由的过程可以与确定第一裁判文书中的案由的过程相同或不同,本发明在此不做限定。
由于案由为案件的分类信息,因此只有当案件的案由相同时,案件之间才具有可比性,例如:同为专利权权属、侵权纠纷的两个案件具有可比性,而专利权权属、侵权纠纷与婚姻家庭纠纷之间不具有可比性。
当然,本发明的预设的裁判文书库还可以将各裁判文书的案号与各裁判文书进行对应存储,这样,就可以通过案号检索到相对应的裁判文书。
所述相似度计算单元300,用于分别计算查找到的各裁判文书与所述第一裁判文书的相似度;
其中,相似度计算单元300可以包括:部分相似度确定子单元和计算子单元,
所述部分相似度确定子单元,用于对所述第一裁判文书的各组成部分中的至少一个组成部分:确定该组成部分与查找到的各裁判文书的该组成部分的文本相似度;
所述计算子单元,用于根据所述文本相似度确定查找到的各裁判文书与所述第一裁判文书的相似度。
当然,在实际应用中,也可以对裁判文书的所有组成部分都确定其在第一裁判文书中以及查找到的各裁判文书中的相似度。
可选的,相似度计算单元300还可以包括:全文相似度确定子单元,
所述全文相似度确定子单元,用于分别确定查找到的各裁判文书的全部文本与所述第一裁判文书的全部文本的全文相似度;
所述计算子单元,具体用于根据所述文本相似度和所述全文相似度确定查找到的各裁判文书与所述第一裁判文书的相似度。
所述结果确定单元400,用于根据所述相似度确定作为检索结果的裁判文书。
其中,结果确定单元400可以具体用于:将所述相似度高于预设相似度阈值的裁判文书确定为检索结果;
或,
按照所述相似度从高到低的顺序对所述查找到的各裁判文书进行排序,将所述排序中前N个裁判文书确定为检索结果,其中,N为自然数且不大于所述查找到的裁判文书的数量。
本发明实施例提供的一种裁判文书检索装置,可以在预设的裁判文书库中查找案由与第一裁判文书的案由相同的裁判文书,并计算查找到的各裁判文书与第一裁判文书的相似度,根据相似度确定作为检索结果的裁判文书。由于作为检索结果的裁判文书与第一裁判文书的案由相同,因此保证了二者属于同类型的案件。同时,本发明可以通过裁判文书进行检索,根据裁判文书相似度确定的作为检索结果的裁判文书。本发明通过裁判文书相似度检索到的裁判文书所涉案件与第一裁判文书所涉案件的相似度较高。
可选的,图7所示的裁判文书检索装置还可以包括:金额确定单元和金额比对单元,
所述金额确定单元,用于确定所述第一裁判文书中的各判项的判决金额;
所述金额比对单元,用于对每个判项:将所述第一裁判文书中的该判项的判决金额与查找到的裁判文书中该判项的判决金额进行比对,获得比对结果;
可选的,当查找到的裁判文书较多时,可以选取部分(如相似度相对较高的一些裁判文书)裁判文书中的判项的判决金额与第一裁判文书中的判项的判决金额进行比对,以确定判项的判决金额与第一裁判文书中的判项的判决金额相近的查找到的裁判文书。由于判决金额对案件来说十分重要,因此本发明可以根据比对结果确定作为检索结果的判决文书,使得检索结果更为精确。
所述结果确定单元400,可以具体用于根据所述相似度和所述比对结果确定作为检索结果的裁判文书。
在本发明其他实施例中,还可以根据所述比对结果确定第一裁判文书的各判项的判决金额是否合理并通知用户。
具体的,结果确定单元400可以将与第一裁判文书具有较高相似度且相应判项的判决金额相近的查找到的裁判文书作为检索结果,这样,用户就可以在检索结果中浏览与第一裁判文书案情等信息相似且判决金额相近的裁判文书。
在实际应用中,第一裁判文书中可能具有多个判项,这种情况下,用户可以选择需要进行判决金额比对的判项,如用户选择了判项1和判项2进行判决金额比对。当然,本发明也可以自动选择判项中的全部或部分进行判决金额比对,如:本发明将第一裁判文书的多个判项中的位于预设比对判项列表中的判项确定为需要进行判决金额比对的判项。预设比对判项列表中的判项可以为法官根据案情自由裁量度较大的判项,如精神损失费等。
当需要进行判决金额比对的判项有多个时,用户可以设定需要进行判决金额比对的各判项之间的逻辑关系,例如:第一裁判文书和A裁判文书中各判项中每一个判项的判决金额都相近且这两个裁判文书相似度高时才将A裁判文书确定为检索结果之一。或者,第一裁判文书和A裁判文书中各判项中至少N个判项的判决金额相近且这两个裁判文书相似度高时将A裁判文书确定为检索结果之一,N为自然数。
其中,所述金额比对单元,可以包括:初始区间确定子单元、文书数量确定子单元、数量判断子单元、第一文书确定子单元、扩大判断子单元和区间扩大子单元,
所述初始区间确定子单元,用于对每个判项:确定与该判项的判决金额对应的初始区间,并将所述初始区间作为当前区间;
其中,初始区间可以为第一裁判文书中的判项的判决金额所在的一个数值区间,例如:判决金额为3000,则对应的初始区间可以为(3000-a,3000)、(3000,3000+a)或(3000-a,3000+a)。其中,a可以为正数和/或a可以小于3000。可选的,a小于判决金额的一半。
所述文书数量确定子单元,用于确定查找到的裁判文书中该判项的判决金额位于当前区间的裁判文书的数量;
所述数量判断子单元,用于判断所述数量是否不低于预设阈值,如果是,触发所述文书确定子单元;否则,触发所述扩大判断子单元;
所述文书确定子单元,用于将该判项的判决金额位于当前区间的查找到的裁判文书作为比对结果;
所述扩大判断子单元,用于判断将当前区间的长度扩大第一预设长度后当前区间的长度是否小于第二预设长度,如果是,触发所述区间扩大子单元;如果不小于所述第二预设长度,则不再扩大当前区间,触发所述文书确定子单元,其中,第二预设长度大于第一预设长度;
所述区间扩大子单元,用于将当前区间的长度扩大所述第一预设长度并触发所述文书数量确定子单元。
具体的,数量判断子单元的判断结果还可以用于确定判决金额是否合理。当两个裁判文书的相似度较高时,这两个裁判文书所涉案件的相似度也较高。基于此,当与第一裁判文书中某判项的判决金额相近的判决金额对应的相似裁判文书较多时,则说明有很多相似案件的该判项的判决金额与第一裁判文书所涉案件的该判项的判决金额相近,这也说明了第一裁判文书中该判项的判决金额具有一定的合理性。具体的,本发明在确定判决金额是否合理后,可以输出判决金额是否合理的确定结果以通知用户。在实际应用中,随着当前区间长度的扩大,数量判断子单元会进行多次判断。本发明的一个可选实施例中,在扩大判断子单元的判决结果为不小于所述第二预设长度时,再根据数量判断子单元的最近一次的判断结果确定判决金额是否合理。这样,该可选实施例就在一定程度上放宽了对判决金额合理确定所需的数量要求。
本发明可以依次确定查找到的裁判文书中判项的判决金额位于逐渐扩大的当前区间的裁判文书的数量,当位于当前区间的裁判文书足够多时,则不再扩大当前区间,直接将判项的判决金额位于当前区间的查找到的裁判文书作为比对结果。当当前区间扩大至第二预设长度或超过第二预设长度时,则当前区间则不再继续扩大。通过区间长度的限制,就可以防止判决金额相差较大时仍将相应的裁判文书作为比对结果之一,保证了作为比对结果的裁判文书的判决金额与第一裁判文书的判决金额的相近性。
在本发明另一实施例中,所述金额比对单元,可以具体用于对每个判项:计算得到所述第一裁判文书中的该判项的判决金额分别与至少一个查找到的裁判文书中该判项的判决金额之间的差的绝对值;
在此基础上,所述结果确定单元400,可以包括:数值区间确定子单元和结果确定子单元,
所述数值区间确定子单元,用于对每个判项:确定计算得到的该判项的判决金额分别与至少一个查找到的裁判文书中该判项的判决金额之间的差的绝对值所在的数值区间;
所述结果确定子单元,用于根据所述相似度和至少一个判项的在各数值区间内的差的绝对值的数量确定作为检索结果的裁判文书。
可选的,当第一裁判文书中的判项仅有一个时,可以根据该判项的判决金额之间的差的绝对值在各数值区间内的差的绝对值的数量确定作为检索结果的裁判文书。在实际应用中,随着数值区间内数值的变大,落入数值区间内的差的绝对值对应的两个裁判文书之间的判决金额的差距也越大,为了使得作为检索结果的裁判文书数量不至于太少,本发明可以根据相似度和至少一个判项的在各数值区间内的差的绝对值的数量确定作为检索结果的裁判文书。当位于较小的数值区间内的差的绝对值的数量足够多时,则可以将位于较小的数值区间内的差的绝对值对应的查找到的裁判文书中相似度较高的作为检索结果。当位于较小的数值区间内的差的绝对值的数量较少时,则根据位于较大的数值区间内的差的绝对值的数量和相似度确定作为检索结果的裁判文书。
其中,所述结果确定子单元,可以具体包括:判项确定子单元、绝对值确定子单元、第二文书确定子单元、长度判断子单元和长度扩大子单元,
所述判项确定子单元,用于确定用户选择的第一判项,确定与所述第一判项对应的初始区间,将所述初始区间作为当前区间;
所述绝对值确定子单元,用于确定所述第一判项的在当前区间内的差的绝对值的数量是否不低于预设阈值,如果是,则触发所述第二文书确定子单元;否则,触发所述长度判断子单元;
所述第二文书确定子单元,用于根据所述相似度和至少一个在当前区间内的差的绝对值对应的查找到的裁判文书确定作为检索结果的裁判文书;
所述长度判断子单元,用于判断将当前区间的长度扩大第三预设长度后当前区间的区间长度是否小于第四预设长度,如果是,则触发所述长度扩大子单元;如果不小于所述第四预设长度,则不再扩大当前区间,触发所述第二文书确定子单元。
所述长度扩大子单元,用于将当前区间的长度扩大所述第三预设长度并触发所述绝对值确定子单元。
所述裁判文书检索装置包括处理器和存储器,上述文书获得单元、案由确定单元、相似度计算单元和结果确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现裁判文书的检索。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述裁判文书检索方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述裁判文书检索方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获得第一裁判文书;
确定所述裁判文书的案由,在预设的裁判文书库中查找案由与所述第一裁判文书的案由相同的裁判文书;
分别计算查找到的各裁判文书与所述第一裁判文书的相似度;
根据所述相似度确定作为检索结果的裁判文书。
其中,所述根据所述相似度确定作为检索结果的裁判文书,包括:
将所述相似度高于预设相似度阈值的裁判文书确定为检索结果;
或,
按照所述相似度从高到低的顺序对所述查找到的各裁判文书进行排序,将所述排序中前N个裁判文书确定为检索结果,其中,N为自然数且不大于所述查找到的裁判文书的数量。
其中,所述方法还包括:
确定所述第一裁判文书中的各判项的判决金额;
对每个判项:将所述第一裁判文书中的该判项的判决金额与查找到的裁判文书中该判项的判决金额进行比对,获得比对结果;
所述根据所述相似度确定作为检索结果的裁判文书,包括:
根据所述相似度和所述比对结果确定作为检索结果的裁判文书。
其中,所述对每个判项:将所述第一裁判文书中的该判项的判决金额与查找到的裁判文书中该判项的判决金额进行比对,获得比对结果,包括:
对每个判项:确定与该判项的判决金额对应的初始区间,并将所述初始区间作为当前区间;
确定查找到的裁判文书中该判项的判决金额位于当前区间的裁判文书的数量;
判断所述数量是否不低于预设阈值,如果是,则将该判项的判决金额位于当前区间的查找到的裁判文书作为比对结果;
否则,判断将当前区间的长度扩大第一预设长度后当前区间的长度是否小于第二预设长度,如果是,则将当前区间的长度扩大所述第一预设长度并返回执行所述确定查找到的裁判文书中该判项的判决金额位于当前区间的裁判文书的数量的步骤;如果不小于所述第二预设长度,则不再扩大当前区间,将该判项的判决金额位于当前区间的查找到的裁判文书作为比对结果,其中,第二预设长度大于第一预设长度。
其中,所述对每个判项:将所述第一裁判文书中的该判项的判决金额与查找到的裁判文书中该判项的判决金额进行比对,获得比对结果,包括:
对每个判项:计算得到所述第一裁判文书中的该判项的判决金额分别与至少一个查找到的裁判文书中该判项的判决金额之间的差的绝对值;
所述根据所述相似度和所述比对结果确定作为检索结果的裁判文书,包括:
对每个判项:确定计算得到的该判项的判决金额分别与至少一个查找到的裁判文书中该判项的判决金额之间的差的绝对值所在的数值区间;
根据所述相似度和至少一个判项的在各数值区间内的差的绝对值的数量确定作为检索结果的裁判文书。
其中,所述根据所述相似度和至少一个判项的在各数值区间内的差的绝对值的数量确定作为检索结果的裁判文书,包括:
确定用户选择的第一判项,确定与所述第一判项对应的初始区间,将所述初始区间作为当前区间;
确定所述第一判项的在当前区间内的差的绝对值的数量是否不低于预设阈值,如果是,则根据所述相似度和至少一个在当前区间内的差的绝对值对应的查找到的裁判文书确定作为检索结果的裁判文书;否则,判断将当前区间的长度扩大第三预设长度后当前区间的区间长度是否小于第四预设长度,如果是,则将当前区间的长度扩大所述第三预设长度并返回执行所述确定所述第一判项的在当前区间内的差的绝对值的数量是否不低于预设阈值的步骤;如果不小于所述第四预设长度,则不再扩大当前区间,根据所述相似度和至少一个在当前区间内的差的绝对值对应的查找到的裁判文书确定作为检索结果的裁判文书。
其中,所述计算查找到的各裁判文书与所述第一裁判文书的相似度,包括:
对所述第一裁判文书的各组成部分中的至少一个组成部分:确定该组成部分与查找到的各裁判文书的该组成部分的文本相似度;
第一裁判文书根据所述文本相似度确定查找到的各裁判文书与所述第一裁判文书的相似度。
其中,所述计算查找到的各裁判文书与所述第一裁判文书的相似度,还包括:
分别确定查找到的各裁判文书的全部文本与所述第一裁判文书的全部文本的全文相似度;
所述根据所述文本相似度确定查找到的各裁判文书与所述第一裁判文书的相似度,包括:
根据所述文本相似度和所述全文相似度确定查找到的各裁判文书与所述第一裁判文书的相似度。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获得第一裁判文书;
确定所述裁判文书的案由,在预设的裁判文书库中查找案由与所述第一裁判文书的案由相同的裁判文书;
分别计算查找到的各裁判文书与所述第一裁判文书的相似度;
根据所述相似度确定作为检索结果的裁判文书。
其中,所述根据所述相似度确定作为检索结果的裁判文书,包括:
将所述相似度高于预设相似度阈值的裁判文书确定为检索结果;
或,
按照所述相似度从高到低的顺序对所述查找到的各裁判文书进行排序,将所述排序中前N个裁判文书确定为检索结果,其中,N为自然数且不大于所述查找到的裁判文书的数量。
其中,还包括:
确定所述第一裁判文书中的各判项的判决金额;
对每个判项:将所述第一裁判文书中的该判项的判决金额与查找到的裁判文书中该判项的判决金额进行比对,获得比对结果;
所述根据所述相似度确定作为检索结果的裁判文书,包括:
根据所述相似度和所述比对结果确定作为检索结果的裁判文书。
其中,所述对每个判项:将所述第一裁判文书中的该判项的判决金额与查找到的裁判文书中该判项的判决金额进行比对,获得比对结果,包括:
对每个判项:确定与该判项的判决金额对应的初始区间,并将所述初始区间作为当前区间;
确定查找到的裁判文书中该判项的判决金额位于当前区间的裁判文书的数量;
判断所述数量是否不低于预设阈值,如果是,则将该判项的判决金额位于当前区间的查找到的裁判文书作为比对结果;
否则,判断将当前区间的长度扩大第一预设长度后当前区间的长度是否小于第二预设长度,如果是,则将当前区间的长度扩大所述第一预设长度并返回执行所述确定查找到的裁判文书中该判项的判决金额位于当前区间的裁判文书的数量的步骤;如果不小于所述第二预设长度,则不再扩大当前区间,将该判项的判决金额位于当前区间的查找到的裁判文书作为比对结果,其中,第二预设长度大于第一预设长度。
其中,所述对每个判项:将所述第一裁判文书中的该判项的判决金额与查找到的裁判文书中该判项的判决金额进行比对,获得比对结果,包括:
对每个判项:计算得到所述第一裁判文书中的该判项的判决金额分别与至少一个查找到的裁判文书中该判项的判决金额之间的差的绝对值;
所述根据所述相似度和所述比对结果确定作为检索结果的裁判文书,包括:
对每个判项:确定计算得到的该判项的判决金额分别与至少一个查找到的裁判文书中该判项的判决金额之间的差的绝对值所在的数值区间;
根据所述相似度和至少一个判项的在各数值区间内的差的绝对值的数量确定作为检索结果的裁判文书。
其中,所述根据所述相似度和至少一个判项的在各数值区间内的差的绝对值的数量确定作为检索结果的裁判文书,包括:
确定用户选择的第一判项,确定与所述第一判项对应的初始区间,将所述初始区间作为当前区间;
确定所述第一判项的在当前区间内的差的绝对值的数量是否不低于预设阈值,如果是,则根据所述相似度和至少一个在当前区间内的差的绝对值对应的查找到的裁判文书确定作为检索结果的裁判文书;否则,判断将当前区间的长度扩大第三预设长度后当前区间的区间长度是否小于第四预设长度,如果是,则将当前区间的长度扩大所述第三预设长度并返回执行所述确定所述第一判项的在当前区间内的差的绝对值的数量是否不低于预设阈值的步骤;如果不小于所述第四预设长度,则不再扩大当前区间,根据所述相似度和至少一个在当前区间内的差的绝对值对应的查找到的裁判文书确定作为检索结果的裁判文书。
其中,所述计算查找到的各裁判文书与所述第一裁判文书的相似度,包括:
对所述第一裁判文书的各组成部分中的至少一个组成部分:确定该组成部分与查找到的各裁判文书的该组成部分的文本相似度;
第一裁判文书根据所述文本相似度确定查找到的各裁判文书与所述第一裁判文书的相似度。
其中,所述计算查找到的各裁判文书与所述第一裁判文书的相似度,还包括:
分别确定查找到的各裁判文书的全部文本与所述第一裁判文书的全部文本的全文相似度;
所述根据所述文本相似度确定查找到的各裁判文书与所述第一裁判文书的相似度,包括:
根据所述文本相似度和所述全文相似度确定查找到的各裁判文书与所述第一裁判文书的相似度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (11)

1.一种裁判文书检索方法,其特征在于,包括:
获得第一裁判文书;
确定所述第一裁判文书的案由,在预设的裁判文书库中查找案由与所述第一裁判文书的案由相同的裁判文书;
分别计算查找到的各裁判文书与所述第一裁判文书的相似度;
根据所述相似度确定作为检索结果的裁判文书。
2.根据权利要求1所述的方法,其特征在于,所述根据所述相似度确定作为检索结果的裁判文书,包括:
将所述相似度高于预设相似度阈值的裁判文书确定为检索结果;
或,
按照所述相似度从高到低的顺序对所述查找到的各裁判文书进行排序,将所述排序中前N个裁判文书确定为检索结果,其中,N为自然数且不大于所述查找到的裁判文书的数量。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述第一裁判文书中的各判项的判决金额;
对每个判项:将所述第一裁判文书中的该判项的判决金额与查找到的裁判文书中该判项的判决金额进行比对,获得比对结果;
所述根据所述相似度确定作为检索结果的裁判文书,包括:
根据所述相似度和所述比对结果确定作为检索结果的裁判文书。
4.根据权利要求3所述的方法,其特征在于,所述对每个判项:将所述第一裁判文书中的该判项的判决金额与查找到的裁判文书中该判项的判决金额进行比对,获得比对结果,包括:
对每个判项:确定与该判项的判决金额对应的初始区间,并将所述初始区间作为当前区间;
确定查找到的裁判文书中该判项的判决金额位于当前区间的裁判文书的数量;
判断所述数量是否不低于预设阈值,如果是,则将该判项的判决金额位于当前区间的查找到的裁判文书作为比对结果;
否则,判断将当前区间的长度扩大第一预设长度后当前区间的长度是否小于第二预设长度,如果是,则将当前区间的长度扩大所述第一预设长度并返回执行所述确定查找到的裁判文书中该判项的判决金额位于当前区间的裁判文书的数量的步骤;如果不小于所述第二预设长度,则不再扩大当前区间,将该判项的判决金额位于当前区间的查找到的裁判文书作为比对结果,其中,第二预设长度大于第一预设长度。
5.根据权利要求3所述的方法,其特征在于,所述对每个判项:将所述第一裁判文书中的该判项的判决金额与查找到的裁判文书中该判项的判决金额进行比对,获得比对结果,包括:
对每个判项:计算得到所述第一裁判文书中的该判项的判决金额分别与至少一个查找到的裁判文书中该判项的判决金额之间的差的绝对值;
所述根据所述相似度和所述比对结果确定作为检索结果的裁判文书,包括:
对每个判项:确定计算得到的该判项的判决金额分别与至少一个查找到的裁判文书中该判项的判决金额之间的差的绝对值所在的数值区间;
根据所述相似度和至少一个判项的在各数值区间内的差的绝对值的数量确定作为检索结果的裁判文书。
6.根据权利要求5所述的方法,其特征在于,所述根据所述相似度和至少一个判项的在各数值区间内的差的绝对值的数量确定作为检索结果的裁判文书,包括:
确定用户选择的第一判项,确定与所述第一判项对应的初始区间,将所述初始区间作为当前区间;
确定所述第一判项的在当前区间内的差的绝对值的数量是否不低于预设阈值,如果是,则根据所述相似度和至少一个在当前区间内的差的绝对值对应的查找到的裁判文书确定作为检索结果的裁判文书;否则,判断将当前区间的长度扩大第三预设长度后当前区间的区间长度是否小于第四预设长度,如果是,则将当前区间的长度扩大所述第三预设长度并返回执行所述确定所述第一判项的在当前区间内的差的绝对值的数量是否不低于预设阈值的步骤;如果不小于所述第四预设长度,则不再扩大当前区间,根据所述相似度和至少一个在当前区间内的差的绝对值对应的查找到的裁判文书确定作为检索结果的裁判文书。
7.根据权利要求1所述的方法,其特征在于,所述计算查找到的各裁判文书与所述第一裁判文书的相似度,包括:
对所述第一裁判文书的各组成部分中的至少一个组成部分:确定该组成部分与查找到的各裁判文书的该组成部分的文本相似度;
根据所述文本相似度确定查找到的各裁判文书与所述第一裁判文书的相似度。
8.根据权利要求7所述的方法,其特征在于,所述计算查找到的各裁判文书与所述第一裁判文书的相似度,还包括:
分别确定查找到的各裁判文书的全部文本与所述第一裁判文书的全部文本的全文相似度;
所述根据所述文本相似度确定查找到的各裁判文书与所述第一裁判文书的相似度,包括:
根据所述文本相似度和所述全文相似度确定查找到的各裁判文书与所述第一裁判文书的相似度。
9.一种裁判文书检索装置,其特征在于,包括:文书获得单元、案由确定单元、相似度计算单元和结果确定单元,
所述文书获得单元,用于获得第一裁判文书;
所述案由确定单元,用于确定所述第一裁判文书的案由,在预设的裁判文书库中查找案由与所述第一裁判文书的案由相同的裁判文书;
所述相似度计算单元,用于分别计算查找到的各裁判文书与所述第一裁判文书的相似度;
所述结果确定单元,用于根据所述相似度确定作为检索结果的裁判文书。
10.一种存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现权利要求1至8任一项所述的裁判文书检索方法。
11.一种处理器,所述处理器用于运行程序,其特征在于,所述程序运行时执行权利要求1至8任一项所述的裁判文书检索方法。
CN201710486752.7A 2017-06-23 2017-06-23 裁判文书检索方法、装置、存储介质及处理器 Active CN109117434B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710486752.7A CN109117434B (zh) 2017-06-23 2017-06-23 裁判文书检索方法、装置、存储介质及处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710486752.7A CN109117434B (zh) 2017-06-23 2017-06-23 裁判文书检索方法、装置、存储介质及处理器

Publications (2)

Publication Number Publication Date
CN109117434A true CN109117434A (zh) 2019-01-01
CN109117434B CN109117434B (zh) 2022-05-27

Family

ID=64733178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710486752.7A Active CN109117434B (zh) 2017-06-23 2017-06-23 裁判文书检索方法、装置、存储介质及处理器

Country Status (1)

Country Link
CN (1) CN109117434B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902098A (zh) * 2019-01-23 2019-06-18 平安科技(深圳)有限公司 相似案例查找和排序方法、服务器及计算机可读存储介质
WO2021057202A1 (zh) * 2019-09-25 2021-04-01 北京国双科技有限公司 一种判决结果处理方法及装置
US11734321B2 (en) 2020-09-02 2023-08-22 Tata Consultancy Services Limited Method and system for retrieval of prior court cases using witness testimonies

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070055637A1 (en) * 2005-05-26 2007-03-08 Nelson Norman A Jr Systems and methods for automated construction claim investigation, mediation and collection
CN101151631A (zh) * 2005-01-28 2008-03-26 汤姆森环球资源公司 用于将判例法、案情摘要和诉讼文书集成到律师事务所工作流中的系统、方法、软件
CN103336851A (zh) * 2013-07-24 2013-10-02 江苏大学 一种专利文献模型树构建方法
CN104835096A (zh) * 2015-05-15 2015-08-12 北京胡杨众联科技有限公司 一种检索方法、装置及终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101151631A (zh) * 2005-01-28 2008-03-26 汤姆森环球资源公司 用于将判例法、案情摘要和诉讼文书集成到律师事务所工作流中的系统、方法、软件
US20070055637A1 (en) * 2005-05-26 2007-03-08 Nelson Norman A Jr Systems and methods for automated construction claim investigation, mediation and collection
CN103336851A (zh) * 2013-07-24 2013-10-02 江苏大学 一种专利文献模型树构建方法
CN104835096A (zh) * 2015-05-15 2015-08-12 北京胡杨众联科技有限公司 一种检索方法、装置及终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵士杰,陈 秋: "基于语义和TF-IDF的项目相似度计算方法", 《计算机时代》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902098A (zh) * 2019-01-23 2019-06-18 平安科技(深圳)有限公司 相似案例查找和排序方法、服务器及计算机可读存储介质
WO2021057202A1 (zh) * 2019-09-25 2021-04-01 北京国双科技有限公司 一种判决结果处理方法及装置
US11734321B2 (en) 2020-09-02 2023-08-22 Tata Consultancy Services Limited Method and system for retrieval of prior court cases using witness testimonies

Also Published As

Publication number Publication date
CN109117434B (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
Richert Building machine learning systems with Python
CN105243087B (zh) It资讯聚合阅读个性化推荐方法
CN110019668A (zh) 一种文本检索方法及装置
US9256649B2 (en) Method and system of filtering and recommending documents
TWI398786B (zh) 產生以專業知識為基礎的搜尋結果之系統、方法及其電腦可讀取媒體
US20100153371A1 (en) Method and apparatus for blending search results
Ayache et al. Evaluation of active learning strategies for video indexing
US20110029476A1 (en) Indicating relationships among text documents including a patent based on characteristics of the text documents
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN109117434A (zh) 裁判文书检索方法、装置、存储介质及处理器
CN108427686A (zh) 文本数据查询方法及装置
US20140289260A1 (en) Keyword Determination
CN109388796A (zh) 裁判文书的推送方法及装置
Eykens et al. Fine-grained classification of social science journal articles using textual data: A comparison of supervised machine learning approaches
CN110019670A (zh) 一种文本检索方法及装置
CN110032721A (zh) 一种裁判文书推送方法及装置
Gossen et al. Extracting event-centric document collections from large-scale web archives
Aliakbary et al. Web page classification using social tags
JP5427119B2 (ja) 類似文書検索装置、類似文書検索方法、そのプログラムおよび記録媒体
US20080313166A1 (en) Research progression summary
Srivastava et al. Multi-label classification of Twitter data using modified ML-KNN
CN110019697A (zh) 一种刑事文书的推送方法及装置
CN110019665A (zh) 文本检索方法及装置
JP6520052B2 (ja) 情報処理装置及び情報処理プログラム
Liu et al. Api-prefer: An api package recommender system based on composition feature learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant