CN106815265A - 裁判文书的搜索方法及装置 - Google Patents

裁判文书的搜索方法及装置 Download PDF

Info

Publication number
CN106815265A
CN106815265A CN201510869909.5A CN201510869909A CN106815265A CN 106815265 A CN106815265 A CN 106815265A CN 201510869909 A CN201510869909 A CN 201510869909A CN 106815265 A CN106815265 A CN 106815265A
Authority
CN
China
Prior art keywords
judgement document
word
law
candidate
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510869909.5A
Other languages
English (en)
Other versions
CN106815265B (zh
Inventor
何鑫
杜宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510869909.5A priority Critical patent/CN106815265B/zh
Publication of CN106815265A publication Critical patent/CN106815265A/zh
Application granted granted Critical
Publication of CN106815265B publication Critical patent/CN106815265B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种裁判文书的搜索方法及装置。该方法包括:获取搜索查询文本中的搜索关键词;获取与搜索关键词含义相近和/或相同的法律词;根据与搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充,得到扩充后的搜索查询文本;以及根据扩充后的搜索查询文本进行搜索,得到目标裁判文书。通过本申请,解决了目标裁判文书的召回率较低的问题。

Description

裁判文书的搜索方法及装置
技术领域
本申请涉及信息搜索领域,具体而言,涉及一种裁判文书的搜索方法及装置。
背景技术
裁判文书是记载人民法院审理过程和结果的载体,也是人民法院确定和分配当事人实体权利与义务的惟一凭证。一份结构完整、要素齐全、逻辑严谨的裁判文书,既是当事人享有权利和负担义务的凭证,也是上级人民法院监督下级人民法院民事审判活动的重要依据。当今,法律工作者在诉讼案件中经常需要寻找与当前正在处理的案情相似,并且已经生效判决的裁判文书。对普通人而言,在遇到纠纷时,也希望能够寻找到类似其遭遇,并且生效判决的裁判文书作为后续处理的参考。当前在对目标裁判文书的搜索过程中,当前的搜索引擎主要是针对基于案情输入的搜索查询文本进行字词的拆分和匹配。例如,基于案情输入的搜索关键词为飙车。但在裁判文书中的用语为“追逐竞驶”。因此,在多份候选裁判文书中很难搜索到目标裁判文书。因此在对案情的自然语言描述中,仅基于案情输入的搜索查询文本中的字词对目标裁判文书进行搜索,导致目标裁判文书的召回率较低。
针对相关技术中目标裁判文书的召回率较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种裁判文书的搜索方法及装置,以解决目标裁判文书的召回率较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种裁判文书的搜索方法。该方法包括:获取搜索查询文本中的搜索关键词;获取与搜索关键词含义相近和/或相同的法律词;根据与搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充,得到扩充后的搜索查询文本;以及根据扩充后的搜索查询文本进行搜索,得到目标裁判文书。
进一步地,在根据扩充后的搜索查询文本进行搜索,得到目标裁判文书之前,方法还包括:获取候选裁判文书和候选裁判文书中的法律关键词;对候选裁判文书和候选裁判文书中的法律关键词建立倒排索引,得到倒排表,根据扩充后的搜索查询文本进行搜索,得到目标裁判文书包括:在倒排表中输入扩充后的搜索查询文本进行搜索,得到目标裁判文书。
进一步地,获取候选裁判文书和候选裁判文书中的法律关键词包括:通过网络爬虫方式获取候选裁判文书;对候选裁判文书进行分词处理,得到多个基本词;获取第一预设数据库,其中,第一预设数据库存储有法律类的词;获取多个基本词中包含的第一预设数据库中的法律类的词;以及将多个基本词中包含的第一预设数据库中的法律类的词作为候选裁判文书中的法律关键词。
进一步地,获取候选裁判文书和候选裁判文书中的法律关键词包括:通过网络爬虫方式获取候选裁判文书;对候选裁判文书进行分词处理,得到多个基本词;获取第一预设数据库,其中,第一预设数据库存储有法律类的词;在分词系统中添加第一预设数据库;以及通过分词系统对候选裁判文书进行分词处理,得到候选裁判文书中的法律关键词。
进一步地,在根据扩充后的搜索查询文本进行搜索之后,得到多个目标裁判文书,在得到多个目标裁判文书之后,该方法还包括:根据搜索关键词含义相近和/或相同的法律词的个数确定搜索关键词的权重值;根据搜索关键词的权重值对根据扩充后的搜索查询文本中搜索关键词搜索出的多个目标裁判文书进行排序,得到排序后的多个目标裁判文书;以及根据排序后的多个目标裁判文书,确定返回至目标地址的目标裁判文书。
进一步地,获取与搜索关键词含义相近和/或相同的法律词包括:在第二预设数据库中查询与搜索关键词含义相近和/或相同的法律词,其中,第二预设数据库为预先存储有搜索关键词和与搜索关键词含义相近和/或相同的法律词的数据库。
为了实现上述目的,根据本申请的另一方面,提供了一种裁判文书的搜索装置。该装置包括:第一获取单元,用于获取搜索查询文本中的搜索关键词;第二获取单元,用于获取与搜索关键词含义相近和/或相同的法律词;扩充单元,用于根据与搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充,得到扩充后的搜索查询文本;以及搜索单元,用于根据扩充后的搜索查询文本进行搜索,得到目标裁判文书。
进一步地,该装置还包括:第三获取单元,用于获取候选裁判文书和候选裁判文书中的法律关键词;创建单元,用于对候选裁判文书和候选裁判文书中的法律关键词建立倒排索引,得到倒排表,搜索单元还用于在倒排表中输入扩充后的搜索查询文本进行搜索,得到目标裁判文书。
进一步地,第三获取单元包括:第一获取模块,用于通过网络爬虫方式获取候选裁判文书;第一处理模块,用于对候选裁判文书进行分词处理,得到多个基本词;第二获取模块,用于获取第一预设数据库,其中,第一预设数据库存储有法律类的词;第三获取模块,用于获取多个基本词中包含的第一预设数据库中的法律类的词;以及确定模块,用于将多个基本词中包含的第一预设数据库中的法律类的词作为候选裁判文书中的法律关键词。
进一步地,第三获取单元包括:第四获取模块,用于通过网络爬虫方式获取候选裁判文书;第二处理模块,用于对候选裁判文书进行分词处理,得到多个基本词;第五获取模块,用于获取第一预设数据库,其中,第一预设数据库存储有法律类的词;添加模块,用于在分词系统中添加第一预设数据库;以及第三处理模块,用于通过分词系统对候选裁判文书进行分词处理,得到候选裁判文书中的法律关键词。
通过本申请,采用以下步骤:获取搜索查询文本中的搜索关键词;获取与搜索关键词含义相近和/或相同的法律词;根据与搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充,得到扩充后的搜索查询文本;以及根据扩充后的搜索查询文本进行搜索,得到目标裁判文书,解决了目标裁判文书的召回率较低的问题,进而通过与搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充,再根据扩充后的搜索查询文本进行搜索,进而达到了提升目标裁判文书的召回率的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的裁判文书的搜索方法的流程图;以及
图2是根据本申请实施例的裁判文书的搜索装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请的实施例,提供了一种裁判文书的搜索方法。
图1是根据本申请实施例的裁判文书的搜索方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,获取搜索查询文本中的搜索关键词。
本申请实施例中的搜索查询文本即是在当事人需要获得生效判决的裁判文书作为处理纠纷的参考时,基于纠纷案情输入的文本。例如,当事人基于正在处理的纠纷案情输入的搜索查询文本为:一车正在飙车时,撞上正常行驶的客车,相关补偿事宜。当事人通过输入搜索查询文本希望获取到与输入的文本相关的生效判决的裁判文书作为后续处理的参考。
获取搜索查询文本中的搜索关键词。例如,搜索查询文本为:一车正在飙车时,撞上正常行驶的客车,相关补偿事宜。获取到搜索查询文本中的搜索关键词为“飙车”、“补偿”。
步骤S102,获取与搜索关键词含义相近和/或相同的法律词。
所谓法律词是指在司法领域有专门或特定意义的词或词组,例如“追逐竞驶”一词,是法律文献中的标准用语,但通常而言,就是“飙车”的意思。
例如,上述步骤S101获取到的搜索关键词为“飙车”、“补偿”。获取与“飙车”含义相同的法律词为“追逐竞驶”,获取与“补偿”含义相近的法律词为“赔偿”。
步骤S103,根据与搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充,得到扩充后的搜索查询文本。
根据与搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充,例如,根据“飙车”含义相同的法律词“追逐竞驶”,“补偿”含义相近的法律词“赔偿”对搜索查询文本“一车正在飙车时,撞上正常行驶的客车,相关补偿事宜”进行扩充,得到扩充后的搜索查询文本为:“一车正在飙车时,撞上正常行驶的客车,相关补偿事宜”,“追逐竞驶”,“赔偿”。
步骤S104,根据扩充后的搜索查询文本进行搜索,得到目标裁判文书。
通过上述步骤,根据与搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充后,在更大的范围内对目标裁判文书进行搜索,从而得到更丰富的搜索结果即返回更多的目标裁判文书。当输入的搜索关键词不是法律词时,也可以通过扩充对其进行弥补,因此搜索到符合需求的目标裁判文书,提高了目标裁判文书的召回率。
本申请实施例提供的裁判文书的搜索方法,通过获取搜索查询文本中的搜索关键词;获取与搜索关键词含义相近和/或相同的法律词;根据与搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充,得到扩充后的搜索查询文本;以及根据扩充后的搜索查询文本进行搜索,得到目标裁判文书,解决了目标裁判文书的召回率较低的问题,进而通过与搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充,再根据扩充后的搜索查询文本进行搜索,进而达到了提升目标裁判文书的召回率的效果。
可选地,在本申请实施例提供的裁判文书的搜索方法中,在根据扩充后的搜索查询文本进行搜索,得到目标裁判文书之前,该方法还包括:获取候选裁判文书和候选裁判文书中的法律关键词;对候选裁判文书和候选裁判文书中的法律关键词建立倒排索引,得到倒排表,根据扩充后的搜索查询文本进行搜索,得到目标裁判文书包括:在倒排表中输入扩充后的搜索查询文本进行搜索,得到目标裁判文书。
倒排索引,即实际应用中根据属性的值来查找记录。倒排索引的原理如下:
采用分词器对输入的源数据库中每个文档执行分词处理,将每个文档中提取出的关键词与该文档建立链接;当输入要查询的关键词后,便可反向的列出所有包含该关键词的文档,省去了在每个文档中顺序地寻找关键词的过程,即通过建立倒排索引表达到了由部分属性查找数据来源的目的。
倒排索引的具体实现方式可以是业内比较成熟的全文搜索引擎框架(Lucene),也可以是基于Lucene开发的企业级搜索应用服务器(Solr)或全文搜索引擎(Elasticsearch)。除此之外,也可以开发一套满足需求的搜索引擎。至于究竟采用何种倒排索引方式,在实际情况中可以根据具体问题而定,本申请第一实施例不限定其实现方式。
此步骤对每个候选裁判文书的全文建立倒排索引,输入搜索查询文本后,使用与倒排索引采用的搜索引擎中相同的分词器对搜索查询文本进行分词,分词后得到一个或多个关键词,查询倒排表,返回对应的目标裁判文书。
可选地,在本申请实施例提供的裁判文书的搜索方法中,获取候选裁判文书和候选裁判文书中的法律关键词包括:通过网络爬虫方式获取候选裁判文书;对候选裁判文书进行分词处理,得到多个基本词;获取第一预设数据库,其中,第一预设数据库存储有法律类的词;获取多个基本词中包含的第一预设数据库中的法律类的词;以及将多个基本词中包含的第一预设数据库中的法律类的词作为候选裁判文书中的法律关键词。
可选地,在本申请实施例提供的裁判文书的搜索方法中,获取候选裁判文书和候选裁判文书中的法律关键词包括:通过网络爬虫方式获取候选裁判文书;对候选裁判文书进行分词处理,得到多个基本词;获取第一预设数据库,其中,第一预设数据库存储有法律类的词;在分词系统中添加第一预设数据库;以及通过分词系统对候选裁判文书进行分词处理,得到候选裁判文书中的法律关键词。
一般情况下,法律类的词很难在通用的中文分词工具下被准确地识别,即系统难以自动从一段文本中识别出法律类的词。为帮助系统实现识别法律类的词的目的,需要预先建立并维护第一预设数据库,用以帮助系统的识别法律类的词。准确度高、覆盖面广的第一预设数据库能够带来更优的效果。第一预设数据库中预先存储有法律类的词,可以通过行业专家根据行业规范直接给出意见、第三方途径、或是基于对候选裁判文书语料进行概率统计方法获得法律类的词,然后将法律类的词存储至第一预设数据库。
候选裁判文书是一篇一篇的文章,欲建立倒排索引需要对文书进行分词,实质也就是需要获得候选裁判文书中的法律关键词。在倒排索引中,每当候选裁判文书中的法律关键词被搜索时,其对应的候选裁判文书就会被搜索到。通常的分词系统对候选裁判文书进行分词无法识别出候选裁判文书中的法律关键词,因此需要借助第一预设数据库中存储的法律类的词进行关键词抽取。具体实现可以为以下两种方法,第一种是添加存储有法律类的词的第一预设数据库到分词系统中,使得中文分词系统能够识别出法律类的词,进而通过分词系统可以得到需要候选裁判文书中的法律关键词。第二种是首先通过分词系统对候选裁判文书进行分词,得到多个基本词,然后获取多个基本词中包含的第一预设数据库中的法律类的词,将多个基本词中包含的第一预设数据库中的法律类的词作为候选裁判文书中的法律关键词。
需要说明的是,对获取多个基本词中包含的第一预设数据库中的法律类的词的过程中,需要判断多个基本词中是否包含第一预设数据库中的法律类的词,可以通过判断目标长字符串(基本词)是否包含每一个短字符串(法律类的词),从而确定多个基本词中是否包含第一预设数据库中的法律类的词。
可选地,为了提升获取与搜索关键词含义相近和/或相同的法律词的效率,在本申请实施例提供的裁判文书的搜索方法中,获取与搜索关键词含义相近和/或相同的法律词包括:在第二预设数据库中查询与搜索关键词含义相近和/或相同的法律词,其中,第二预设数据库为预先存储有搜索关键词和与搜索关键词含义相近和/或相同的法律词的数据库。
预先建立并维护第二预设数据库,第二预设数据库存储有与搜索关键词同义或近义的法律关系或者法律事实的词,例如,搜索关键词为“借条”,与搜索关键词同义或近义的法律关系或者法律事实的词为“借据”、“借款协议”等。
可选地,在本申请实施例提供的裁判文书的搜索方法中,在根据扩充后的搜索查询文本进行搜索之后,得到多个目标裁判文书,在得到多个目标裁判文书之后,该方法还包括:根据搜索关键词含义相近和/或相同的法律词的个数确定搜索关键词的权重值;根据搜索关键词的权重值对根据扩充后的搜索查询文本中搜索关键词搜索出的多个目标裁判文书进行排序,得到排序后的多个目标裁判文书;以及根据排序后的多个目标裁判文书,确定返回至目标地址的目标裁判文书。
例如:
word,表示一个普通词汇(搜索查询文本中的搜索关键词);
lawWord,表示一个法律关键词;
doc,表示一篇裁判文书;
query,用户查询输入的搜索查询文本,通常是一个词、短语或一段文字;
ralationTable={word(i):[word(i),lawWord(i1),lawWord(i2),…,lawWord(im)]},表示一组相近词,其中,word(i)表示第i个普通词汇,im表示第i个普通词汇有m个相近或同义的法律词;
invertedIndex={(word(i)||lawWord(i)):[doc(i1),doc(i2),…,doc(in)]},表示一条倒排索引记录,其中,doc(in)表示lawWord(i)出现在doc(in)文书中,in表示第i个法律关键词共出现在n个不同的裁判文书中。
由上述定义,可知,当用户发出一个query后,query本身并不一定就与倒排表中的lawWord相吻合,因此,系统首先需要对query进行处理。步骤可以如下:
第一步,对query进行中文分词处理,得到分词后的query数组wArray=[word1,word2,…];
第二步,遍历wArray,查询query中的是否存在与每个搜索关键词含义相近和/或相同的法律词,若存在,则记录与每个搜索关键词含义相近和/或相同的法律词,并对与每个搜索关键词含义相近和/或相同的法律词进行计数。当遍历过全部wAaary中的word后,根据得到的搜索关键词含义相近和/或相同的法律词的数量确定该搜索关键词被查询的权重值。
将扩充后的搜索查询文本放入之前建立索引的倒排表进行搜索,并在搜索过程中对法律关键词所在的字段给予更大的权重,最后降序返回与搜索查询文本相关性最高的结果。
上述步骤已得到可在倒排表中进行查询的关键词集合lawTable,并且集合中的每一个lawWord是具有权重的,在查询时,系统依次查询lawTable中的全部lawWord在倒排表中对应的裁判文书的结果,并对其进行加权。最后,统计综合所有被匹配到的裁判文书权重的大小,进行排序,作为用户query查询的结果进行输出。
例如:
lawTable={A:3,B:1,C:1}
invertedIndex={A:[doc1,doc2],B:[doc2,doc3,doc4],C:[doc1,doc2,doc4]}
则有:
Doc1.RankScore=3+1+0=4;
Doc2.RankScore=3+1+1=5;
Doc3.RankScore=0+1+0=1;
Doc4.RankScore=0+1+1=2;
通过对裁判文书RankScore的排序,确定返回至目标地址的目标裁判文书。例如,确定将Doc2、Doc1和Doc4返回至目标地址。
通过上述步骤,在解决了目标裁判文书的召回率较低的基础上,将搜索到的裁判文书按照权重值进行排序后,对裁判文书进行筛选,确定返回至目标地址的目标裁判文书,从而提高了用户的体验度。
需要说明的是,此处步骤表明在查询倒排表以后,考虑了每一个搜索关键词是附有权重的,至于如何将这些权重用于RankScore计算的,实际情况中可以根据具体问题而定,本申请实施例并不限定其实现方式。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种裁判文书的搜索装置,需要说明的是,本申请实施例的裁判文书的搜索装置可以用于执行本申请实施例所提供的用于裁判文书的搜索方法。以下对本申请实施例提供的裁判文书的搜索装置进行介绍。
图2是根据本申请实施例的裁判文书的搜索装置的示意图。如图2所示,该装置包括:第一获取单元10、第二获取单元20、扩充单元30和搜索单元40。
第一获取单元10,用于获取搜索查询文本中的搜索关键词。
第二获取单元20,用于获取与搜索关键词含义相近和/或相同的法律词。
扩充单元30,用于根据与搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充,得到扩充后的搜索查询文本。
搜索单元40,用于根据扩充后的搜索查询文本进行搜索,得到目标裁判文书。
本申请实施例提供的裁判文书的搜索装置,通过第一获取单元10获取搜索查询文本中的搜索关键词;第二获取单元20获取与搜索关键词含义相近和/或相同的法律词;扩充单元30根据与搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充,得到扩充后的搜索查询文本;以及搜索单元40根据扩充后的搜索查询文本进行搜索,得到目标裁判文书,解决了目标裁判文书的召回率较低的问题,进而通过搜索单元40根据扩充后的搜索查询文本进行搜索,进而达到了提升目标裁判文书的召回率的效果。
可选地,在本申请实施例提供的裁判文书的搜索装置中,该装置还包括:第三获取单元,用于获取候选裁判文书和候选裁判文书中的法律关键词;创建单元,用于对候选裁判文书和候选裁判文书中的法律关键词建立倒排索引,得到倒排表,搜索单元还用于在倒排表中输入扩充后的搜索查询文本进行搜索,得到目标裁判文书。
可选地,在本申请实施例提供的裁判文书的搜索装置中,第三获取单元包括:第一获取模块,用于通过网络爬虫方式获取候选裁判文书;第一处理模块,用于对候选裁判文书进行分词处理,得到多个基本词;第二获取模块,用于获取第一预设数据库,其中,第一预设数据库存储有法律类的词;第三获取模块,用于获取多个基本词中包含的第一预设数据库中的法律类的词;以及确定模块,用于将多个基本词中包含的第一预设数据库中的法律类的词作为候选裁判文书中的法律关键词。
可选地,在本申请实施例提供的裁判文书的搜索装置中,第三获取单元包括:第四获取模块,用于通过网络爬虫方式获取候选裁判文书;第二处理模块,用于对候选裁判文书进行分词处理,得到多个基本词;第五获取模块,用于获取第一预设数据库,其中,第一预设数据库存储有法律类的词;添加模块,用于在分词系统中添加第一预设数据库;以及第三处理模块,用于通过分词系统对候选裁判文书进行分词处理,得到候选裁判文书中的法律关键词。
所述裁判文书的搜索装置包括处理器和存储器,上述第一获取单元、第二获取单元、扩充单元、搜索单元、第三获取和创建单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现对裁判文书的搜索。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取搜索查询文本中的搜索关键词;获取与搜索关键词含义相近和/或相同的法律词;根据与搜索关键词含义相近和/或相同的法律词对搜索查询文本进行扩充,得到扩充后的搜索查询文本;以及根据扩充后的搜索查询文本进行搜索,得到目标裁判文书。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种裁判文书的搜索方法,其特征在于,包括:
获取搜索查询文本中的搜索关键词;
获取与所述搜索关键词含义相近和/或相同的法律词;
根据与所述搜索关键词含义相近和/或相同的法律词对所述搜索查询文本进行扩充,得到扩充后的搜索查询文本;以及
根据所述扩充后的搜索查询文本进行搜索,得到目标裁判文书。
2.根据权利要求1所述的方法,其特征在于,
在根据所述扩充后的搜索查询文本进行搜索,得到目标裁判文书之前,所述方法还包括:获取候选裁判文书和所述候选裁判文书中的法律关键词;对所述候选裁判文书和所述候选裁判文书中的法律关键词建立倒排索引,得到倒排表,
根据所述扩充后的搜索查询文本进行搜索,得到目标裁判文书包括:在所述倒排表中输入所述扩充后的搜索查询文本进行搜索,得到目标裁判文书。
3.根据权利要求2所述的方法,其特征在于,获取候选裁判文书和所述候选裁判文书中的法律关键词包括:
通过网络爬虫方式获取所述候选裁判文书;
对所述候选裁判文书进行分词处理,得到多个基本词;
获取第一预设数据库,其中,所述第一预设数据库存储有法律类的词;
获取所述多个基本词中包含的所述第一预设数据库中的法律类的词;以及
将所述多个基本词中包含的所述第一预设数据库中的法律类的词作为所述候选裁判文书中的法律关键词。
4.根据权利要求2所述的方法,其特征在于,获取候选裁判文书和所述候选裁判文书中的法律关键词包括:
通过网络爬虫方式获取所述候选裁判文书;
对所述候选裁判文书进行分词处理,得到多个基本词;
获取第一预设数据库,其中,所述第一预设数据库存储有法律类的词;
在分词系统中添加所述第一预设数据库;以及
通过所述分词系统对所述候选裁判文书进行分词处理,得到所述候选裁判文书中的法律关键词。
5.根据权利要求1所述的方法,其特征在于,在根据所述扩充后的搜索查询文本进行搜索之后,得到多个目标裁判文书,在得到所述多个目标裁判文书之后,所述方法还包括:
根据所述搜索关键词含义相近和/或相同的法律词的个数确定所述搜索关键词的权重值;
根据所述搜索关键词的权重值对根据所述扩充后的搜索查询文本中搜索关键词搜索出的所述多个目标裁判文书进行排序,得到排序后的所述多个目标裁判文书;以及
根据排序后的所述多个目标裁判文书,确定返回至目标地址的目标裁判文书。
6.根据权利要求1所述的方法,其特征在于,获取与所述搜索关键词含义相近和/或相同的法律词包括:
在第二预设数据库中查询与所述搜索关键词含义相近和/或相同的法律词,其中,所述第二预设数据库为预先存储有所述搜索关键词和与所述搜索关键词含义相近和/或相同的法律词的数据库。
7.一种裁判文书的搜索装置,其特征在于,包括:
第一获取单元,用于获取搜索查询文本中的搜索关键词;
第二获取单元,用于获取与所述搜索关键词含义相近和/或相同的法律词;
扩充单元,用于根据与所述搜索关键词含义相近和/或相同的法律词对所述搜索查询文本进行扩充,得到扩充后的搜索查询文本;以及
搜索单元,用于根据所述扩充后的搜索查询文本进行搜索,得到目标裁判文书。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第三获取单元,用于获取候选裁判文书和所述候选裁判文书中的法律关键词;
创建单元,用于对所述候选裁判文书和所述候选裁判文书中的法律关键词建立倒排索引,得到倒排表,
所述搜索单元还用于在所述倒排表中输入所述扩充后的搜索查询文本进行搜索,得到目标裁判文书。
9.根据权利要求8所述的装置,其特征在于,所述第三获取单元包括:
第一获取模块,用于通过网络爬虫方式获取所述候选裁判文书;
第一处理模块,用于对所述候选裁判文书进行分词处理,得到多个基本词;
第二获取模块,用于获取第一预设数据库,其中,所述第一预设数据库存储有法律类的词;
第三获取模块,用于获取所述多个基本词中包含的所述第一预设数据库中的法律类的词;以及
确定模块,用于将所述多个基本词中包含的所述第一预设数据库中的法律类的词作为所述候选裁判文书中的法律关键词。
10.根据权利要求8所述的装置,其特征在于,所述第三获取单元包括:
第四获取模块,用于通过网络爬虫方式获取所述候选裁判文书;
第二处理模块,用于对所述候选裁判文书进行分词处理,得到多个基本词;
第五获取模块,用于获取第一预设数据库,其中,所述第一预设数据库存储有法律类的词;
添加模块,用于在分词系统中添加所述第一预设数据库;以及
第三处理模块,用于通过所述分词系统对所述候选裁判文书进行分词处理,得到所述候选裁判文书中的法律关键词。
CN201510869909.5A 2015-12-01 2015-12-01 裁判文书的搜索方法及装置 Active CN106815265B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510869909.5A CN106815265B (zh) 2015-12-01 2015-12-01 裁判文书的搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510869909.5A CN106815265B (zh) 2015-12-01 2015-12-01 裁判文书的搜索方法及装置

Publications (2)

Publication Number Publication Date
CN106815265A true CN106815265A (zh) 2017-06-09
CN106815265B CN106815265B (zh) 2020-07-03

Family

ID=59107508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510869909.5A Active CN106815265B (zh) 2015-12-01 2015-12-01 裁判文书的搜索方法及装置

Country Status (1)

Country Link
CN (1) CN106815265B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009137A (zh) * 2017-12-22 2018-05-08 中科鼎富(北京)科技发展有限公司 一种基于配置文件的规范文书处理方法、装置及系统
CN109388796A (zh) * 2017-08-11 2019-02-26 北京国双科技有限公司 裁判文书的推送方法及装置
CN110032721A (zh) * 2018-01-11 2019-07-19 北京国双科技有限公司 一种裁判文书推送方法及装置
WO2019170015A1 (zh) * 2018-03-09 2019-09-12 北京国双科技有限公司 裁判文书搜索方法及装置
CN110647504A (zh) * 2018-06-25 2020-01-03 阿里巴巴集团控股有限公司 司法文书的检索方法及装置
CN112765311A (zh) * 2020-12-29 2021-05-07 长春市把手科技有限公司 一种裁判文书的搜索方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145153A (zh) * 2006-09-13 2008-03-19 阿里巴巴公司 一种搜索信息的方法及系统
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
US20120290577A1 (en) * 2011-05-13 2012-11-15 Microsoft Corporation Identifying visual contextual synonyms
CN103064842A (zh) * 2011-10-20 2013-04-24 北京中搜网络技术股份有限公司 信息订阅处理装置和信息订阅处理方法
US20130138429A1 (en) * 2011-11-30 2013-05-30 Alibaba Group Holding Limited Method and Apparatus for Information Searching
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN104240164A (zh) * 2014-09-29 2014-12-24 南京提坦信息科技有限公司 一种基于大数据分析的法律咨询方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145153A (zh) * 2006-09-13 2008-03-19 阿里巴巴公司 一种搜索信息的方法及系统
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
US20120290577A1 (en) * 2011-05-13 2012-11-15 Microsoft Corporation Identifying visual contextual synonyms
CN103064842A (zh) * 2011-10-20 2013-04-24 北京中搜网络技术股份有限公司 信息订阅处理装置和信息订阅处理方法
US20130138429A1 (en) * 2011-11-30 2013-05-30 Alibaba Group Holding Limited Method and Apparatus for Information Searching
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN104240164A (zh) * 2014-09-29 2014-12-24 南京提坦信息科技有限公司 一种基于大数据分析的法律咨询方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
罗爱静等: "《医学科技信息检索》", 31 July 2008, 中南大学出版社 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388796A (zh) * 2017-08-11 2019-02-26 北京国双科技有限公司 裁判文书的推送方法及装置
CN108009137A (zh) * 2017-12-22 2018-05-08 中科鼎富(北京)科技发展有限公司 一种基于配置文件的规范文书处理方法、装置及系统
CN108009137B (zh) * 2017-12-22 2021-01-29 鼎富智能科技有限公司 一种基于配置文件的规范文书处理方法、装置及系统
CN110032721A (zh) * 2018-01-11 2019-07-19 北京国双科技有限公司 一种裁判文书推送方法及装置
WO2019170015A1 (zh) * 2018-03-09 2019-09-12 北京国双科技有限公司 裁判文书搜索方法及装置
CN110647504A (zh) * 2018-06-25 2020-01-03 阿里巴巴集团控股有限公司 司法文书的检索方法及装置
CN110647504B (zh) * 2018-06-25 2023-03-21 阿里巴巴集团控股有限公司 司法文书的检索方法及装置
CN112765311A (zh) * 2020-12-29 2021-05-07 长春市把手科技有限公司 一种裁判文书的搜索方法

Also Published As

Publication number Publication date
CN106815265B (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN106815263B (zh) 法律条文的搜索方法及装置
CN106815265A (zh) 裁判文书的搜索方法及装置
US7584175B2 (en) Phrase-based generation of document descriptions
JP4976666B2 (ja) 情報検索システムにおけるフレーズ識別方法
US7599914B2 (en) Phrase-based searching in an information retrieval system
US7536408B2 (en) Phrase-based indexing in an information retrieval system
US7711679B2 (en) Phrase-based detection of duplicate documents in an information retrieval system
US7580929B2 (en) Phrase-based personalization of searches in an information retrieval system
US7617176B2 (en) Query-based snippet clustering for search result grouping
CN110334178B (zh) 数据检索方法、装置、设备及可读存储介质
CN106339756A (zh) 训练数据的生成方法、搜索方法以及装置
EP1391834A2 (en) Document retrieval system and question answering system
US20060123000A1 (en) Machine learning system for extracting structured records from web pages and other text sources
CN106156372B (zh) 一种互联网网站的分类方法及装置
White et al. A simulated study of implicit feedback models
CN108228745B (zh) 一种基于协同过滤优化的推荐算法和装置
CN107247743A (zh) 一种司法类案检索方法及系统
CN110222260A (zh) 一种搜索方法、装置及存储介质
CN107193892A (zh) 一种文档主题确定方法及装置
CN104537280A (zh) 基于文本关系相似性的蛋白质交互关系识别方法
US20140058835A1 (en) Method for displaying an advertisement on internet resources depending on the combined content thereof
CN112445895B (zh) 一种识别用户搜索场景的方法及系统
Tran et al. Learning based approaches for vietnamese question classification using keywords extraction from the web
Narwal et al. Web informative content identification and filtering using machine learning technique
CN106682216B (zh) 一种基于多源信息进行候选集排序的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: Room A, 8th Floor, Cuigong Hotel, 76 Shuangyushu District, Zhichun Road, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant