具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请的实施例,提供了一种法律条文的搜索方法。
图1是根据本申请第一实施例的法律条文的搜索方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,获取搜索查询文本中的搜索关键词。
本申请第一实施例中的搜索查询文本即是在当事人需要获得生效判决的裁判文书作为处理纠纷的参考时,基于纠纷案情输入的文本。例如,当事人基于正在处理的纠纷案情输入的搜索查询文本为:一车正在飙车时,撞上正常行驶的客车,相关补偿事宜。当事人通过输入搜索查询文本希望获取到与输入的文本相关的生效判决的裁判文书及法院对案件实施判决依据的法律法条作为后续处理的参考。
获取搜索查询文本中的搜索关键词。例如,搜索查询文本为:一车正在飙车时,撞上正常行驶的客车,相关补偿事宜。获取到搜索查询文本中的搜索关键词为“飙车”、“补偿”。
步骤S102,获取与搜索关键词含义相近和/或相同的法律词。
所谓法律词是指在司法领域有专门或特定意义的词或词组,例如“追逐竞驶”一词,是法律文献中的标准用语,但通常而言,就是“飙车”的意思。
例如,上述步骤S101获取到的搜索关键词为“飙车”、“补偿”。获取与“飙车”含义相近和/或相同的法律词为“追逐竞驶”,获取与“补偿”含义相近和/或相同的法律词为“赔偿”。
步骤S103,根据搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充,得到扩充后的搜索查询文本。
根据搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充,例如,根据“飙车”含义相近或同义的“追逐竞驶”,“补偿”含义相近和/或相同的法律词“赔偿”对搜索查询文本“一车正在飙车时,撞上正常行驶的客车,相关补偿事宜”进行扩充,得到扩充后的搜索查询文本为:“一车正在飙车时,撞上正常行驶的客车,相关补偿事宜”,“追逐竞驶”,“赔偿”。
步骤S104,根据扩充后的搜索查询文本进行搜索,得到目标裁判文书集合。
目标裁判文书集合包括与扩充后的查询文本匹配的所有目标裁判文书集合,可以包含一份以上目标裁判文书集合,也可以为空。
通过上述步骤,根据与搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充后,在更大的范围内对裁判文书进行搜索,从而得到更丰富的搜索结果即返回更多的目标裁判文书集合。当输入的搜索关键词不是法律词时,也可以通过扩充对其进行弥补,因此搜索到符合需求的目标裁判文书集合,提高了目标裁判文书集合的召回率。
可选地,在根据扩充后的搜索查询文本进行搜索,得到目标裁判文书集合之前,本申请第一实施例提供的法律条文的搜索方法还包括:对候选裁判文书建立倒排索引,得到第一倒排表,根据扩充后的搜索查询文本进行搜索,得到目标裁判文书集合包括:在第一倒排表中输入扩充后的搜索查询文本进行搜索,得到目标裁判文书集合。
倒排索引,即实际应用中根据属性的值来查找记录。倒排索引的原理如下:
采用分词器对输入的源数据库中每个文档执行分词处理,将每个文档中提取出的关键词与该文档建立链接;当输入要查询的关键词后,便可反向的列出所有包含该关键词的文档,省去了在每个文档中顺序地寻找关键词的过程,即通过建立倒排索引表达到了由部分属性查找数据来源的目的。
倒排索引的具体实现方式可以是业内比较成熟的全文搜索引擎框架(Lucene),也可以是基于Lucene开发的企业级搜索应用服务器(Solr)或全文搜索引擎(Elasticsearch)。除此之外,也可以开发一套满足需求的搜索引擎。至于究竟采用何种倒排索引方式,在实际情况中可以根据具体问题而定,本申请第一实施例不限定其实现方式。
此步骤对每个候选裁判文书的全文建立倒排索引,输入搜索查询文本后,使用与倒排索引采用的搜索引擎中相同的分词器对搜索查询文本进行分词,分词后得到一个或多个关键词,查询倒排表,返回对应的目标裁判文书集合。
可选地,本申请第一实施例提供的法律条文的搜索方法,在根据扩充后的搜索查询文本进行搜索,得到目标裁判文书集合之前,该方法还包括:对候选裁判文书进行分段解析,确定候选裁判文书中的搜索段,其中,搜索段是候选裁判文书中对案情内容进行描述的段落;对候选裁判文书和候选裁判文书中的搜索段建立倒排索引,得到第二倒排表,根据扩充后的搜索查询文本进行搜索,得到目标裁判文书集合包括:在第二倒排表中输入扩充后的搜索查询文本进行搜索,得到目标裁判文书集合。
一般而言,裁判文书具有一定格式,即需要在特定段落中描述案件相关的各种要素。例如,在裁判文书开始,需要写明原告当事人信息及其委托人信息,然后写明被告当事人信息及其委托人信息等。因此,可以通过对候选裁判文书中特定信息的捕捉,将候选裁判文书的各个段落进行分段。再如,在原告诉称段落中,主要记录原告在状告被告时所陈述的主观事实;另外在经审理查明段落中,主要记录了法院在综合原告与被告的陈述之后,结合原告与被告双方举证最终认定的事实。裁判文书中的案情描述段落,如原告诉称段落与经审理查明段落(搜索段)等,可以作为案情内容关键词的倒排索引目标裁判文书集合。
相对于对候选裁判文书的全文进行分词,对每个候选裁判文书的各个案情描述段落建立倒排索引,能够减少倒排表的存储空间,同时也减轻了非案情描述相关的段落中含有关键词带来的冗余索引。
步骤S105,获取目标裁判文书集合的目标法律条文。
分好段落的裁判文书中,有一个段落描述的是法院对案件实施判决的法律依据,通常称之为法律法条段。法律法条段包含有法院具体使用了哪些法律法条作为判决依据的信息。例如,一篇裁判文书中法律法条段的摘要如下:
“综上所述,依据《中华人民共和国劳动法》第二条、第五十条,《中华人民共和国劳动合同法》第三十一条之规定,判决如下:”
通过该裁判文书中法律法条段的摘要可知,法院对该案件的判决依据有三条法律条文,即《中华人民共和国劳动法》第二条,《中华人民共和国劳动法》第五十条和《中华人民共和国劳动合同法》第三十一条,最终对案件提出了判决结果。通常,法律条文信息含有“第*条”的字样,且“*”为数字。
在分好段落的裁判文书中,需要对裁判文书的法律法条段进行信息抽取,得到法律条文。信息抽取的方式有多种,例如通过正则表达式搜索,或基于有限状态机的规则匹配的方法等搜索方式。其实质是当裁判文书满足了一定的预设条件时,如本实施例中的预设条件为“第*条”,系统会按照预设规则返回相应的信息,如本实施例中的预设规则为,将“第*条”及其前文中距“第*条”最近的书名号(《》)中的全部内容组合为“《》第*条”的格式,作为搜索的返回信息。至于究竟采用何种信息抽取方式,在实际情况中可以根据具体问题而定,本申请第一实施例不限定其实现方式。
将所有裁判文书与各个裁判文书通过信息抽取得到的所有法律条文建立链接。对裁判文书进行分段、信息抽取与建立链接的处理后,当指定一篇裁判文书时,就可以得到法院在该裁判文书中作为判决依据的法律条文。
本申请第一实施例提供的法律条文的搜索方法,通过获取搜索查询文本中的搜索关键词;获取与搜索关键词含义相近和/或相同的法律词;根据搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充,得到扩充后的搜索查询文本;根据扩充后的搜索查询文本进行搜索,得到目标裁判文书集合;以及获取目标裁判文书集合的目标法律条文,解决了相关技术中根据输入的搜索词难以获取相关的法律条文的问题,首先通过搜索查询文本获取到目标裁判文书集合,再获取目标裁判文书集合的目标法律条文,即通过目标裁判文书集合建立了搜索查询文本与法律条文之间的联系,进而达到能够获取与输入的搜索查询文本相关的法律条文的效果。
图2是根据本申请第二实施例的法律条文的搜索方法的流程图。图2可以作为图1所示实施例的一种优选实施方式。如图2所示,该方法包括如下的步骤:
步骤S201,获取搜索查询文本中的搜索关键词。
此步骤与本申请第一实施例的步骤S101相同,在此不再赘述。
步骤S202,获取与搜索关键词含义相近和/或相同的法律词。
此步骤与本申请第一实施例的步骤S102相同,在此不再赘述。
步骤S203,根据搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充,得到扩充后的搜索查询文本。
此步骤与本申请第一实施例的步骤S103相同,在此不再赘述。
步骤S204,根据扩充后的搜索查询文本进行搜索,得到目标裁判文书集合。
此步骤与本申请第一实施例的步骤S104相同,在此不再赘述。
步骤S205,对目标裁判文书集合中的每份目标裁判文书进行分段解析,获取目标裁判文书集合的候选法律条文。
首先,在得到目标裁判文书集合后,按照裁判文书的结构对目标裁判文书集合进行分段。然后,在分好段落的目标裁判文书集合确定出法律法条段,最后,对目标裁判文书集合的法律法条段进行信息抽取,得到目标裁判文书集合的法律条文,在本申请第二实施例中将其作为候选法律条文。与本申请第一实施例中步骤S105的信息抽取方法相同,本申请第二实施例不限定信息抽取方法的实现方式。
步骤S206,对目标裁判文书集合的候选法律条文进行筛除,得到筛除后的候选法律条文。
其中,目标裁判文书集合包括多份目标裁判文书,对所有目标裁判文书进行信息抽取后得到的候选法律条文,因此在候选法律条文中极有可能会存在重复的法律条文。例如,输入一条案情描述文本(搜索查询文本),得到两份相关的目标裁判文书,其中一份目标裁判文书在最终判决时依据了《中华人民共和国劳动法》第二条,《中华人民共和国劳动法》第五十条和《中华人民共和国劳动合同法》第三十一条,另一份目标裁判文书在最终判决时依据了《中华人民共和国劳动法》第二条和《中华人民共和国劳动法》第三十九条,那么在对目标裁判文书进行信息抽取后会显示两条“《中华人民共和国劳动法》第二条”信息,而这两条信息是相同的,因此需要对这两条相同的法律条文信息进行筛除,只保留一条“《中华人民共和国劳动法》第二条”信息,即可以消除相同法律条文造成的信息冗余。
步骤S207,将筛除后的候选法律条文作为目标法律条文。
当事人想要查询类似的纠纷案件采用了哪些法律条文,在输入案情描述(搜索查询文本)后,经过对输入信息的扩充得到所有目标裁判文书。对所有目标裁判文书抽取所有的候选法律条文进行筛除,筛除后的候选法律条文中,每一条候选法律条文只出现一次,因此可以将筛除后的候选法律条文作为目标法律条文,供当事人参考。
可选地,本申请第二实施例提供的法律条文的搜索方法,筛除后的候选法律条文包括多条条文,在对目标裁判文书集合的候选法律条文进行筛除,得到筛除后的候选法律条文之后,在将筛除后的候选法律条文作为目标法律条文之前,该方法还包括:根据预设条件确定每份目标裁判文书的权重值;统计各条条文在每份目标裁判文书中出现的次数;根据每份目标裁判文书的权重值和各条条文在每份目标裁判文书中出现的次数对多条条文进行排序,得到排序后的多条条文;根据排序后的多条条文,确定返回至目标地址的目标条文,将筛除后的候选法律条文作为目标法律条文包括:将目标条文作为目标法律条文。
在将筛除后的候选法律条文作为目标法律条文之前,可以对筛除后的候选法律条文进行排序,按照一定的预设条件确定候选法律条文对当事人输入案情的相关度。该预设条件是预先设置的命中条件,预先定义该命中条件,并且定义的方式并不唯一。通过案情描述搜索与该案情相似的裁判文书时,搜索到的裁判文书与案情描述的相似程度必然有所不同,由此可知,不同的目标裁判文书对应的候选法律条文与当事人输入的案情描述的关联程度也不同,因此,需要赋予不同的目标裁判文书以不同的权重,以使目标法律条文的排序与该案情描述的关联程度相关。例如,实现方式可以如下:
若输入的案情描述匹配到了m个裁判文书,并且根据预设条件分别赋予了该m个裁判文书各自的权重值,其各自的权重值可以表示为w1,w2,…,wm,每个裁判文书对应的权重值表示该裁判文书与输入的案情描述的相似程度。该m个裁判文书经过分段解析与筛除后得到了n个候选的法律条文,并且第j篇裁判文书中应用了第i个法律条文的条件满足yij,
也即,第j篇裁判文书中要么应用了第i个法律条文,要么未应用第i个法律条文。那么,在特定案情描述下第i个法律条文的得分(RankScorei)可以表示为:
也即,第i个法律条文的得分(RankScorei)是所有应用了该法律条文的裁判文书的权重值之和。最后,对各个法律条文的得分进行降序排列,按照当前排列返回或取排名靠前的法律法条进行返回。至于究竟取几条法律条文,可以在预设条件中预先定义。
本申请第二实施例提供的法律条文的搜索方法,通过获取搜索查询文本中的搜索关键词;获取与搜索关键词含义相近和/或相同的法律词;根据搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充,得到扩充后的搜索查询文本;根据扩充后的搜索查询文本进行搜索,得到目标裁判文书集合;对目标裁判文书集合的每份目标裁判文书中的每份目标裁判文书进行分段解析,获取目标裁判文书集合的候选法律条文;对目标裁判文书集合的候选法律条文进行筛除,得到筛除后的候选法律条文;以及将筛除后的候选法律条文作为目标法律条文。解决了相关技术中根据输入的搜索词难以获取相关的法律条文的问题,进而达到能够获取与输入的搜索查询文本相关的法律条文的效果,通过筛除目标裁判文书集合抽取出的候选法律条文,得到筛除后的法律条文,将筛除后的候选法律条文作为目标法律条文,达到了消除相同法律条文造成的信息冗余的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种法律条文的搜索装置,需要说明的是,本申请实施例的法律条文的搜索装置可以用于执行本申请实施例所提供的用于法律条文的搜索方法。以下对本申请实施例提供的法律条文的搜索装置进行介绍。
图3是根据本申请第一实施例的法律条文的搜索装置的示意图。如图3所示,该装置包括:第一获取单元10、第二获取单元20、扩充单元30、搜索单元40和第三获取单元50。
第一获取单元10,用于获取搜索查询文本中的搜索关键词。
第二获取单元20,用于获取与搜索关键词含义相近和/或相同的法律词。
扩充单元30,用于根据搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充,得到扩充后的搜索查询文本。
搜索单元40,用于根据扩充后的搜索查询文本进行搜索,得到目标裁判文书集合。
第三获取单元50,用于获取目标裁判文书集合的目标法律条文。
本申请第一实施例提供的裁判文书的法律条文的搜索装置,通过第一获取单元10获取搜索查询文本中的搜索关键词;第二获取单元20获取与搜索关键词含义相近和/或相同的法律词;扩充单元30根据搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充,得到扩充后的搜索查询文本;搜索单元40根据扩充后的搜索查询文本进行搜索,得到目标裁判文书集合;以及第三获取单元50获取目标裁判文书集合的目标法律条文,解决了相关技术中根据输入的搜索词难以获取相关的法律条文的问题,通过第三获取单元50获取目标裁判文书集合的目标法律条文,进而达到能够获取与输入的搜索查询文本相关的法律条文的效果。
可选地,在本申请第一实施例提供的法律条文的搜索装置中,该装置还包括:第一创建单元,用于对候选裁判文书建立倒排索引,得到第一倒排表,搜索单元还用于在第一倒排表中输入扩充后的搜索查询文本进行搜索,得到目标裁判文书集合。
可选地,在本申请第一实施例提供的法律条文的搜索装置中,该装置还包括:第三确定单元,用于对候选裁判文书进行分段解析,确定候选裁判文书中的搜索段,其中,搜索段是候选裁判文书中对案情内容进行描述的段落;第二创建单元,用于对候选裁判文书和候选裁判文书中的搜索段建立倒排索引,得到第二倒排表,搜索单元还用于在第二倒排表中输入扩充后的搜索查询文本进行搜索,得到目标裁判文书集合。
图4是根据本申请第二实施例的法律条文的搜索装置的示意图。图4可以作为图3所示实施例的一种优选实施方式。如图4所示,该装置包括:第一获取单元10、第二获取单元20、扩充单元30、搜索单元40和第三获取单元50,其中,第三获取单元50包括获取模块501、筛除模块502和确定模块503。
第一获取单元10,用于获取搜索查询文本中的搜索关键词。
第二获取单元20,用于获取与搜索关键词含义相近和/或相同的法律词。
扩充单元30,用于根据搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充,得到扩充后的搜索查询文本。
搜索单元40,用于根据扩充后的搜索查询文本进行搜索,得到目标裁判文书集合。
第三获取单元50包括:获取模块501,用于对目标裁判文书集合中的每份目标裁判文书进行分段解析,获取目标裁判文书集合的候选法律条文;筛除模块502,用于对目标裁判文书集合的候选法律条文进行筛除,得到筛除后的候选法律条文;确定模块503,用于将筛除后的候选法律条文作为目标法律条文。
本申请实第二施例提供的裁判文书的法律条文的搜索装置,通过第一获取单元10获取搜索查询文本中的搜索关键词;第二获取单元20获取与搜索关键词含义相近和/或相同的法律词;扩充单元30根据搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充,得到扩充后的搜索查询文本;搜索单元40根据扩充后的搜索查询文本进行搜索,得到目标裁判文书集合;获取模块501对目标裁判文书集合中的每份目标裁判文书进行分段解析,获取目标裁判文书集合的候选法律条文;筛除模块502对目标裁判文书集合的候选法律条文进行筛除,得到筛除后的候选法律条文;确定模块503将筛除后的候选法律条文作为目标法律条文,解决了相关技术中根据输入的搜索词难以获取相关的法律条文的问题,进而达到能够获取与输入的搜索查询文本相关的法律条文的效果,通过获取模块501对目标裁判文书集合中的每份目标裁判文书进行分段解析,获取目标裁判文书集合的候选法律条文;筛除模块502对目标裁判文书集合的候选法律条文进行筛除,得到筛除后的候选法律条文;确定模块503将筛除后的候选法律条文作为目标法律条文,达到了消除相同法律条文造成的信息冗余的效果。
可选地,在本申请第二实施例提供的法律条文的搜索装置中,筛除后的候选法律条文包括多条条文,该装置还包括:第一确定单元,用于根据预设条件确定每份目标裁判文书的权重值;统计单元,用于统计各条条文在每份目标裁判文书中出现的次数;排序单元,用于根据每份目标裁判文书的权重值和各条条文在每份目标裁判文书中出现的次数对多条条文进行排序,得到排序后的多条条文;第二确定单元,用于根据排序后的多条条文,确定返回至目标地址的目标条文,确定模块还用于将目标条文作为目标法律条文。
所述法律条文的搜索装置包括处理器和存储器,上述第一获取单元、第二获取单元、扩充单元、搜索单元和第三获取单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现对法律条文的搜索。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取搜索查询文本中的搜索关键词;获取与所述搜索关键词含义相近和/或相同的法律词;根据所述搜索关键词含义相近和/或相同的法律词对所述搜索查询文本进行扩充,得到扩充后的搜索查询文本;根据所述扩充后的搜索查询文本进行搜索,得到目标裁判文书集合;以及获取所述目标裁判文书集合的目标法律条文。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。