CN107784041A - 裁判文书案由的获取方法和装置 - Google Patents
裁判文书案由的获取方法和装置 Download PDFInfo
- Publication number
- CN107784041A CN107784041A CN201610799283.XA CN201610799283A CN107784041A CN 107784041 A CN107784041 A CN 107784041A CN 201610799283 A CN201610799283 A CN 201610799283A CN 107784041 A CN107784041 A CN 107784041A
- Authority
- CN
- China
- Prior art keywords
- entry
- keyword
- case
- document
- resolved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种裁判文书案由的获取方法和装置。其中,该方法包括:对待解析文书进行分词处理,得到待解析文书的关键词;将待解析文书的关键词与预设模型库中各案由条目的关键词进行匹配,其中,预设模型库中预先存储有每个案由条目对应的关键词;以及根据匹配结果在案由条目中确定待解析文书的目标案由条目。本申请解决了现有技术中为裁判文书提取案由时提取失败的技术问题。
Description
技术领域
本申请涉及数据处理领域,具体而言,涉及一种裁判文书案由的获取方法和装置。
背景技术
案由,是人民法院对诉讼案件所涉及的法律关系的性质进行概括后形成的案件名称。在对裁判文书进行解析时,准确地为裁判文书提取案由对于大数据平台下的司法统计有重大影响,为裁判文书提取案由的准确度会影响司法统计数据的可信度。
目前,对裁判文书进行解析时,对裁判文书提取案由的方法是,给定一个包括多个案由条目的案由词典,然后,对裁判文书中划分出的案由段落与案由词典进行精确匹配,以为裁判文书抽取案由。
但是,司法案件中的行政案件不同于民事案件和刑事案件,由于目前还没有关于行政案件的案由的统一、准确的标准和规定,因此司法文书中的行政文书的案由段落的构成很大程度上取决于书记员的书写习惯,重要的案由信息往往夹杂在一些差异化的文字描述之中,这就给行政文书解析过程中案由的提取造成很大困难。对于传统的案由提取方法,由于无法提供准确、统一和标准的案由词典,并且不同书记员撰写的行政文书在案由段落对案由的描述存在差异性,因此,在为行政文书提取案由时,会出现无法精确匹配的情况,造成案由提取的失败。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种裁判文书案由的获取方法和装置,以至少解决现有技术中为裁判文书提取案由时提取失败的技术问题。
根据本申请实施例的一个方面,提供了一种裁判文书案由的获取方法,包括:对待解析文书进行分词处理,得到所述待解析文书的关键词;将所述待解析文书的关键词与预设模型库中各案由条目的关键词进行匹配,其中,所述预设模型库中预先存储有每个案由条目对应的关键词;以及根据匹配结果在所述案由条目中确定所述待解析文书的目标案由条目。
进一步地,所述案由条目的数量为多个,将所述待解析文书的关键词与所述预设模型库中各案由条目的关键词进行匹配包括:计算所述待解析文书的关键词与所述每个案由条目的关键词的相似度值,得到多个相似度值,并将所述多个相似度值作为匹配结果;根据匹配结果在所述案由条目中确定所述待解析文书的目标案由条目包括:根据计算出的所述多个相似度值确定所述待解析文书的目标案由条目。
进一步地,根据计算出的所述多个相似度值确定所述待解析文书的目标案由条目包括:将所述多个相似度值中最大相似度值对应的案由条目作为所述目标案由条目;或者将所述多个相似度值中的目标相似度值对应的案由条目作为所述目标案由条目,其中,所述目标相似度值为所述多个相似度值中大于或者等于预设数值的相似度值。
进一步地,计算所述待解析文书的关键词与所述每个案由条目的关键词的相似度值包括:在所述预设模型库中的所述每个案由条目的关键词中查找与所述待解析文书的关键词相匹配的关键词,并确定所述相匹配的关键词的权值;以及计算所述相匹配的关键词的权值之和,并将计算的和值作为所述关键词与所述每个案由条目的相似度值。
进一步地,在获取待解析文书之前,所述方法还包括:建立所述预设模型库,其中,所述预设模型库中包括所述每个案由条目的关键词和所述关键词的权值。
进一步地,建立所述预设模型库包括:对所述每个案由条目进行分词,得到所述每个案由条目的关键词列表;通过公式Wi=1-Ni/M计算所述每个案由条目的关键词列表中关键词Ai的权值,其中,Ni为所述关键词Ai在所述案由条目的关键词列表中出现的次数,M为所述案由条目的数量,Wi为所述关键词Ai的权重值,i依次取1至n,n为所述每个案由条目中关键词的数量;将计算得到的所述关键词Ai的权重值和所述关键词Ai进行对应存储,得到所述预设模型库。
根据本申请实施例的另一方面,还提供了一种裁判文书案由的获取装置,包括:分词单元,用于对所述待解析文书进行分词处理,得到所述待解析文书的关键词;匹配单元,用于将所述待解析文书的关键词与预设模型库中各案由条目的关键词进行匹配,其中,所述预设模型库中预先存储有所述案由条目中每个案由条目的关键词;以及确定单元,用于根据匹配结果在所述案由条目中确定所述待解析文书的目标案由条目。
进一步地,所述案由条目的数量为多个,计算子单元,用于计算所述待解析文书的关键词与所述每个案由条目的关键词的相似度值,得到多个相似度值,并将所述多个相似度值作为匹配结果;以及所述确定单元包括:确定子单元,用于根据计算出的所述多个相似度值确定所述待解析文书的目标案由条目。
进一步地,所述确定子单元包括:第一确定模块,用于将所述多个相似度值中最大相似度值对应的案由条目作为所述目标案由条目;或者第二确定模块,用于将所述多个相似度值中的目标相似度值对应的案由条目作为所述目标案由条目,其中,所述目标相似度值为所述多个相似度值中大于或者等于预设数值的相似度值。
进一步地,所述计算子单元包括:查找模块,用于在所述预设模型库中的所述每个案由条目的关键词中查找与所述待解析文书的关键词相匹配的关键词,并确定所述相匹配的关键词的权值;以及第一计算模块,用于计算所述相匹配的关键词的权值之和,并将计算的和值作为所述关键词与所述每个案由条目的相似度值。
在本申请实施例中,采用获取待解析文书;对所述待解析文书进行分词处理,得到所述待解析文书的关键词;将所述待解析文书的关键词与预设模型库中案由条目的关键词进行匹配,并根据匹配结果在所述案由条目确定所述待解析文书的目标案由条目,其中,所述预设模型库中预先存储有所述案由条目中每个案由条目的关键词的方式,首先预先建立包含案由条目和每个案由条目的关键词的预设模型库,然后将待解析文书的关键词与预设模型库中每个案由条目的关键词进行匹配,然后根据匹配结果为待解析文书选取目标案由条目,相对于现有技术中仅采用包含案由条目的案由词典来为待解析文书确定案由的方式,达到了能够为待解析文书成功提取出案由条目的目的,进而解决了现有技术中为裁判文书提取案由时提取失败的技术问题,从而提高了为待解析文书提取案由条目的成功率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种裁判文书案由的获取方法的流程图;以及
图2是根据本申请实施例的一种裁判文书案由的获取装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种裁判文书案由的获取方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的一种裁判文书案由的获取方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,对待解析文书进行分词处理,得到待解析文书的关键词。
具体地,待解析文书可以为行政案件、民事案件和刑事等案件的判决书(又可以称为裁判文书)。裁判文书是记载人民法院审理过程和结果的文书,它是诉讼活动结果的载体,也是人民法院确定和分配当事人实体权利要求义务的唯一凭证。
在本申请实施例中,待解析文书以任一行政判决书为例进行说明,下述文书即为一种行政裁判文书的部分模型:
“原告:XX,男,XXXX年XX月XX日出生。
委托代理人:XX,女,XXXX年XX月XX日出生。
被告XX县公安局,住所地XX市XX县XX路XX号。
法定代表人XX,局长。
委托代理人XXX,女,XXXX年XX月XX日出生,XX县公安局法制处轮值轮训科科长。
第三人XXX,男,XXXX年XX月XX日出生。
原告XX不服被告XX县公安局于XX年XX月XX日对第三人XXX做出的XXXX号行政处罚决定,于XXXX年XX月XX日向本院提起行政诉讼……
被告XX县公安局与XX县公安局于XXXX年XX月XX日对第三人XX做出XXXX号行政处罚决定,认定:……
被告XX县公安局在法定期限内向本院提供当庭出示了做出被诉具体行政行为的如下证据:……
……………………
经庭审质证,本院对以下证据作如下确认:……
经审理查明……
本院认为……”
在本申请实施例中,可以采用具有司法专业词库的分词器对待解析文书进行分词处理,例如,可以对待解析文书中的案由描述段落进行分词处理,然后,对得到的多个分词进行过滤处理,即过滤掉感叹词、连接词等词汇,过滤得到待解析文书的案由关键词列表,在该关键词列表中包括至少一个关键词,例如,“经济”、“合同纠纷”和“纠纷”等关键词。
例如,上述中的行政裁判文书,可以通过Gridsum Law Dissector抽取该行政裁判文书中的一些标志性段落,即案由描述段落,(例如,经庭审质证,本院对以下证据作如下确认、经审理查明、本院认为等),然后使用Gridsum司法专业词库分词器对上述案由描述段落进行分词处理,然后,过滤掉无用的词汇(例如,连接词和语气助词),得到待解析文书的关键词。
步骤S104,将待解析文书的关键词与预设模型库中各案由条目的关键词进行匹配,其中,预设模型库中预先存储有案由条目中每个案由条目的关键词。
步骤S106,根据匹配结果在案由条目中确定待解析文书的目标案由条目。
具体地,在本申请实施例中,在为待解析文书选取目标案由条目之前,相关技术人员可以以专业司法人员提供的相关案件(例如,行政案件)的司法文书案由条目为基础,建立预设模型库。在该预设模型库中包括每个案由条目的至少一个关键词(又可以称为案由关键词)和每个关键词的权值,其中,该权值用于表示在为待解析文书选取目标案由条目的过程中该关键词的重要程度。
在本申请实施例中,首先预先建立包含案由条目和每个案由条目的关键词的预设模型库,然后将待解析文书的关键词与预设模型库中每个案由条目的关键词进行匹配,然后根据匹配结果为待解析文书选取目标案由条目,相对于现有技术中仅采用包含案由条目的案由词典来为待解析文书确定案由的方式,达到了能够为待解析文书成功提取出案由条目的目的,进而解决了现有技术中为裁判文书提取案由时提取失败的技术问题,从而提高了为待解析文书提取案由条目的成功率。
可选地,当案由条目的数量为多个时,将待解析文书的关键词与预设模型库中案由条目的关键词进行匹配包括:计算待解析文书的关键词与每个案由条目的关键词的相似度值,得到多个相似度值,并将所述多个相似度值作为匹配结果;
根据匹配结果在案由条目确定待解析文书的目标案由条目具体包括:根据计算出的多个相似度值确定待解析文书的目标案由条目。
通过上述描述可知,在预设模型库中,包括多个案由条目和每个案由条目的至少一个关键词,以及每个关键词的权值。例如,包括案由条目1至案由条目n,其中,每个案由条目包括一个或者多个关键词,如案由条目1包括关键词11至关键词1n,案由条目2包括关键词21至关键词2n,……,案由条目n包括关键词n1至关键词nn。并且每个案由条目的关键词均对应一个权值。
在计算待解析文书的关键词与每个案由条目的关键词的相似度值时,可以分别计算待解析文书的关键词(例如,关键词1至关键词n)与关键词11至关键词1n的相似度,得到相似度A1;然后,计算关键词1至关键词n与关键词21至关键词2n的相似度,得到相似度A2;直至计算至关键词1至关键词n与关键词n1至关键词nn的相似度,得到相似度An。在得到上述多个相似度A1,A2,……,An后,可以根据计算得到的多个相似度值为待解析文书确定目标案由条目,其中,目标案由条目为预设模型库中的案由条目。
进一步地,可以通过以下任一种方式根据计算出的多个相似度值确定待解析文书的目标案由条目。
方式一:将多个相似度值中最大相似度值对应的案由条目作为目标案由条目。
假设,在计算得到的多个相似度A1,A2,……,An中,相似度A20的值最大,则可以将该相似度A20对应的案由条目20作为待解析文书的目标案由条目。
方式二:将多个相似度值中的目标相似度值对应的案由条目作为目标案由条目,其中,目标相似度值为多个相似度值中大于或者等于预设数值的相似度值。
技术人员可以预先设置一个目标相似度值B,然后,在上述多个相似度A1,A2,……,An中确定大于或者等于目标相似度值的值,假设,通过判断可知,相似度A3,A7的值大于或者等于目标相似度值B,则将相似度A3和A7对应的案由条目3和案由条目7作为待解析文书的目标案由条目。
在本申请可选的实施方式中,可以根据下述步骤计算待解析文书的关键词与多个案由条目中每个案由条目的关键词的相似度值:
步骤S1,在预设模型库中的每个案由条目的关键词中查找与待解析文书的关键词相匹配的关键词,并确定相匹配的关键词的权值;
步骤S2,计算相匹配的关键词的权值之和,并将计算的和值作为关键词与每个案由条目的相似度值。
具体地,在本申请实施例中,可以通过公式计算各个案由条目与待解析文书的关键词的相似度值,其中,N为第i个案由条目中与待解析文书的关键词相匹配的案由关键词的数目,Wj为上述N个相匹配的案由关键词中第j个案由关键词的权值,ui为第i个案由条目的相似度值,其中,i依次取1至n,n为案由条目的数量,j依次取1至N。按照上述方式循环计算每个案由条目的相似度值之后,可以计算得到的多个相似度值确定相似度值最大的案由条目即为待解析文书的目标案由条目。
下面以计算案由条目1的相似度值为例进行说明。具体地,首先在案由条目1的关键词11至关键词1n中查找公有关键词(即,上述相匹配的关键词),其中,该公有关键词为在案由条目1和待解析文书的共同拥有的关键词。假设,在关键词11至关键词1n中查找到关键词11和关键词16为公有关键词,则在预设模型库中对应查找该公有关键词11的权值W1和关键词16的取值W2,并计算关键词11的权值W1和关键词16的取值W2之和u1,然后将计算得到的和值u1作为该待解析文书的关键词与案由条目1的相似度值。
在本申请实施例中,在为待解析文书获取案由条目之前,可以通过以下方式建立预设模型库:对每个案由条目进行分词,得到每个案由条目的关键词列表;通过公式Wi=1-Ni/M计算每个案由条目的关键词列表中关键词Ai的权值,其中,Ni为关键词Ai在案由条目的关键词列表中出现的次数,M为案由条目的数量,Wi为关键词Ai的权重值,i依次取1至n,n为每个案由条目中关键词的数量;将计算得到的关键词Ai的权重值和关键词Ai进行对应存储,得到预设模型库。
具体地,在本申请实施例中,可以以专业司法人员提供的行政案件司法文书案由条目为基础,使用Gridsum司法专业词库分词器对所有的行政案由条目进行分词,并且过滤掉无用词性的词汇(如连接词,语气助词等),得到每个案由条目的关键词列表。
获取到每个案由条目的关键词列表后,可以通过公式:Wi=1-Ni/M计算各个案由条目的关键词列表中每个关键词的有效权值,其中,Ni为每个案由条目的关键词列表中第i个关键词Ai在所有案由条目的关键词列表中出现的次数,M为案由条目的总数。其中,Wi的取值越大,表明关键词Ai在计算上述相似度值时发挥的作用越大。
需要说明的是,在本申请实施例中,通过上述方式训练得到每个案由条目的案由关键词及其权值之后,即得到案由关键词模型库(即,上述预设模型库)。该预设模型库后续还可以根据专业司法人员提供的案由条目继续进行训练,从而实现对关键词模型库的扩展,具体扩展的方案与上述步骤S1和步骤S2所描述的方式相同,此处不再赘述。
本申请实施例提供的裁判文书案由的获取方法,可以应用在以下任一种类型案件的裁判文书中:行政案件、民事案件和刑事案件的裁判文书,作为优选,该方法可以应用在行政案件的裁判文书中。由于,行政案件的司法文书中的行政文书的案由描述段落的构成很大程度上取决于书记员的书写习惯,重要的案由信息往往夹杂在一些差异化的文字描述之中,这就给行政文书解析过程中案由的提取造成了很大困难,从而导致无法提供准确的案由词典。然而,采用本申请实施例提供的方法,可以依据预先建立的预设模型库,准确地为行政案件的裁判文书获取案由。
在本申请实施例中,通过以专业司法人员提供的行政案由条目为基础建立案由关键词的模型库(即,上述预设模型库),并对每个案由条目中的案由关键词赋予了相应权值,能够更加准确地描述了每个关键词在计算匹配相似度时的作用。因此,在通过上述预设模型库对待解析文书进行匹配时,可以基于此模型对待解析文书中的案由描述段落进行最大相似匹配,得到该行政文书的目标案由条目。
本申请实施例还提供了一种裁判文书案由的获取装置,该数据处理装置主要用于执行本申请实施例上述内容所提供的裁判文书案由的获取方法,以下对本申请实施例送提供的裁判文书案由的获取装置做具体介绍。
图2是根据本申请实施例的一种裁判文书案由的获取装置的示意图,如图2所示,该裁判文书案由的获取主要包括分词单元21、匹配单元23和确定单元25,其中:
分词单元21,用于对待解析文书进行分词处理,得到待解析文书的关键词。
具体地,待解析文书可以为行政案件、民事案件和刑事等案件的判决书(又可以称为裁判文书)。裁判文书是记载人民法院审理过程和结果的文书,它是诉讼活动结果的载体,也是人民法院确定和分配当事人实体权利要求医务的唯一凭证。
在本申请实施例中,可以采用具有司法专业词库的分词器对待解析文书进行分词处理,例如,可以对待解析文书中的案由描述段落进行分词处理,然后,对得到的多个分词进行过滤处理,即过滤掉感叹词、连接词等词汇,过滤得到待解析文书的案由关键词列表,在该关键词列表中包括至少一个关键词,例如,“经济”、“合同纠纷”和“纠纷”等关键词。
例如上述中的行政裁判文书,可以提取该行政裁判文书中的一些标志性段落(例如,经庭审质证,本院对以下证据作如下确认、经审理查明、本院认为等),然后使用Gridsum司法专业词库的分词器对上述段落进行分词处理,并过滤得到待解析文书的关键词。
匹配单元23,用于将待解析文书的关键词与预设模型库中各案由条目的关键词进行匹配,其中,所述预设模型库中预先存储有所述案由条目中每个案由条目的关键词;
确定单元25,根据匹配结果在案由条目中确定待解析文书的目标案由条目。
具体地,在本申请实施例中,在为待解析文书选取目标案由条目之前,相关技术人员可以以专业司法人员提供的相关案件(例如,行政案件)的司法文书案由条目为基础,建立预设模型库。在该预设模型库中包括每个案由条目的至少一个关键词(又可以称为案由关键词)和每个关键词的权值,其中,该权值用于表示在为待解析文书选取目标案由条目的过程中该关键词的重要程度。
在本申请实施例中,首先预先建立包含案由条目和每个案由条目的关键词的预设模型库,然后将待解析文书的关键词与预设模型库中每个案由条目的关键词进行匹配,然后根据匹配结果为待解析文书选取目标案由条目,相对于现有技术中仅采用包含案由条目的案由词典来为待解析文书确定案由的方式,达到了能够为待解析文书成功提取出案由条目的目的,进而解决了现有技术中为裁判文书提取案由时提取失败的技术问题,从而提高了为待解析文书提取案由条目的成功率。
可选地,案由条目的数量为多个,匹配单元包括:计算子单元,用于计算待解析文书的关键词与每个案由条目的关键词的相似度值,得到多个相似度值,并将多个相似度值作为匹配结果;确定单元包括:确定子单元,用于根据计算出的多个相似度值确定待解析文书的目标案由条目。
通过上述描述可知,在预设模型库中,包括多个案由条目和每个案由条目的至少一个关键词,以及每个关键词的权值。例如,包括案由条目1至案由条目n,其中,每个案由条目包括一个或者多个关键词,如案由条目1包括关键词11至关键词1n,案由条目2包括关键词21至关键词2n,……,案由条目n包括关键词n1至关键词nn。并且每个案由条目的关键词均对应一个权值。
在计算待解析文书的关键词与每个案由条目的关键词的相似度值时,可以通过与分词单元相连接的计算子单元分别计算待解析文书的关键词(例如,关键词1至关键词n)与关键词11至关键词1n的相似度,得到相似度A1;然后,计算关键词1至关键词n与关键词21至关键词2n的相似度,得到相似度A2;直至计算至关键词1至关键词n与关键词n1至关键词nn的相似度,得到相似度An。在得到上述多个相似度A1,A2,……,An后,可以通过与计算子单元相连接的确定子单元在计算得到的多个相似度值中为待解析文书确定目标案由条目,其中,目标案由条目为预设模型库中的案由条目。
可选地,确定子单元包括:第一确定模块,用于将多个相似度值中最大相似度值对应的案由条目作为目标案由条目;或者第二确定模块,用于将多个相似度值中的目标相似度值对应的案由条目作为目标案由条目,其中,目标相似度值为多个相似度值中大于或者等于预设数值的相似度值。
假设,在计算得到的多个相似度A1,A2,……,An中,相似度A20的值最大,则可以通过第一确定模块将该相似度A20对应的案由条目20作为待解析文书的目标案由条目。
技术人员可以预先设置一个目标相似度值B,然后,在上述多个相似度A1,A2,……,An中确定大于或者等于目标相似度值的值,假设,通过判断可知,相似度A3,A7的值大于或者等于目标相似度值B,则可以通过第二确定模块将相似度A3和A7对应的案由条目3和案由条目7作为待解析文书的目标案由条目。
可选地,计算子单元包括:查找模块,用于在预设模型库中的每个案由条目的关键词中查找与待解析文书的关键词相匹配的关键词,并确定相匹配的关键词的权值;第一计算模块,用于计算相匹配的关键词的权值之和,并将计算的和值作为关键词与每个案由条目的相似度值。
具体地,在本申请实施例中,可以通过第一计算模块计算各个案由条目与待解析文书的关键词的相似度值,其中,N为通过查找模块查找到的第i个案由条目中与待解析文书的关键词相匹配的案由关键词的数目,Wj为上述N个相匹配的案由关键词中第j个案由关键词的权值,ui为第i个案由条目的相似度值,其中,i依次取1至n,n为案由条目的数量,j依次取1至N。
可选地,该装置还包括:建立单元,用于在获取待解析文书之前,建立预设模型库,其中,预设模型库中包括每个案由条目的关键词和关键词的权值。
可选地,建立单元包括:分词模块,用于对每个案由条目进行分词,得到每个案由条目的关键词列表;第二计算模块,用于通过公式Wi=1-Ni/M计算每个案由条目的关键词列表中关键词Ai的权值,其中,Ni为关键词Ai在案由条目的关键词列表中出现的次数,M为案由条目的数量,Wi为关键词Ai的权重值,i依次取1至n,n为每个案由条目中关键词的数量;存储模块,用于将计算得到的关键词Ai的权重值和关键词Ai进行对应存储,得到预设模型库。
具体地,在本申请实施例中,可以以专业司法人员提供的行政案件司法文书案由条目为基础,使用设置在Gridsum司法专业词库分词器中的分词模块对所有的行政案由条目进行分词,并且过滤掉无用词性的词汇(如连接词,语气助词等),得到每个案由条目的关键词列表。
获取到每个案由条目的关键词列表后,可以通过第二计算模块计算各个案由条目的关键词列表中每个关键词的有效权值,其中,Ni为每个案由条目的关键词列表中第i个关键词Ai在所有案由条目的关键词列表中出现的次数,M为案由条目的总数。其中,Wi的取值越大,表明关键词Ai在计算上述相似度值时发挥的作用越大。然后,通过存储模块将计算得到的关键词Ai的权重值和关键词Ai进行对应存储,得到预设模型库。
所述裁判文书案由的获取装置包括处理器和存储器,上述分词单元、匹配单元和确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来准确地为待解析文书确定目标案由条目,解决了现有技术中为裁判文书选择案由的精确度较差的技术问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:对待解析文书进行分词处理,得到所述待解析文书的关键词;将所述待解析文书的关键词与预设模型库中各案由条目的关键词进行匹配,其中,所述预设模型库中预先存储有每个案由条目对应的关键词;以及根据匹配结果在所述案由条目中确定所述待解析文书的目标案由条目。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种裁判文书案由的获取方法,其特征在于,包括:
对待解析文书进行分词处理,得到所述待解析文书的关键词;
将所述待解析文书的关键词与预设模型库中各案由条目的关键词进行匹配,其中,所述预设模型库中预先存储有每个案由条目对应的关键词;以及
根据匹配结果在所述案由条目中确定所述待解析文书的目标案由条目。
2.根据权利要求1所述的方法,其特征在于,所述案由条目的数量为多个,
将所述待解析文书的关键词与所述预设模型库中各案由条目的关键词进行匹配包括:计算所述待解析文书的关键词与所述每个案由条目的关键词的相似度值,得到多个相似度值,并将所述多个相似度值作为匹配结果;
根据匹配结果在所述案由条目中确定所述待解析文书的目标案由条目包括:根据计算出的所述多个相似度值确定所述待解析文书的目标案由条目。
3.根据权利要求2所述的方法,其特征在于,根据计算出的所述多个相似度值确定所述待解析文书的目标案由条目包括:
将所述多个相似度值中最大相似度值对应的案由条目作为所述目标案由条目;或者
将所述多个相似度值中的目标相似度值对应的案由条目作为所述目标案由条目,其中,所述目标相似度值为所述多个相似度值中大于或者等于预设数值的相似度值。
4.根据权利要求2所述的方法,其特征在于,计算所述待解析文书的关键词与所述每个案由条目的关键词的相似度值包括:
在所述预设模型库中的所述每个案由条目的关键词中查找与所述待解析文书的关键词相匹配的关键词,并确定所述相匹配的关键词的权值;以及
计算所述相匹配的关键词的权值之和,并将计算的和值作为所述关键词与所述每个案由条目的相似度值。
5.根据权利要求1所述的方法,其特征在于,在获取待解析文书之前,所述方法还包括:
建立所述预设模型库,其中,所述预设模型库中包括所述每个案由条目的关键词和所述关键词的权值。
6.根据权利要求5所述的方法,其特征在于,建立所述预设模型库包括:
对所述每个案由条目进行分词,得到所述每个案由条目的关键词列表;
通过公式Wi=1-Ni/M计算所述每个案由条目的关键词列表中关键词Ai的权值,其中,Ni为所述关键词Ai在所述案由条目的关键词列表中出现的次数,M为所述案由条目的数量,Wi为所述关键词Ai的权重值,i依次取1至n,n为所述每个案由条目中关键词的数量;
将计算得到的所述关键词Ai的权重值和所述关键词Ai进行对应存储,得到所述预设模型库。
7.一种裁判文书案由的获取装置,其特征在于,包括:
分词单元,用于对待解析文书进行分词处理,得到所述待解析文书的关键词;
匹配单元,用于将所述待解析文书的关键词与预设模型库中各案由条目的关键词进行匹配,其中,所述预设模型库中预先存储有所述案由条目中每个案由条目的关键词;以及
确定单元,用于根据匹配结果在所述案由条目中确定所述待解析文书的目标案由条目。
8.根据权利要求7所述的装置,其特征在于,所述案由条目的数量为多个,
所述匹配单元包括:计算子单元,用于计算所述待解析文书的关键词与所述每个案由条目的关键词的相似度值,得到多个相似度值,并将所述多个相似度值作为匹配结果;以及
所述确定单元包括:确定子单元,用于根据计算出的所述多个相似度值确定所述待解析文书的目标案由条目。
9.根据权利要求8所述的装置,其特征在于,所述确定子单元包括:
第一确定模块,用于将所述多个相似度值中最大相似度值对应的案由条目作为所述目标案由条目;或者
第二确定模块,用于将所述多个相似度值中的目标相似度值对应的案由条目作为所述目标案由条目,其中,所述目标相似度值为所述多个相似度值中大于或者等于预设数值的相似度值。
10.根据权利要求8所述的装置,其特征在于,所述计算子单元包括:
查找模块,用于在所述预设模型库中的所述每个案由条目的关键词中查找与所述待解析文书的关键词相匹配的关键词,并确定所述相匹配的关键词的权值;以及
第一计算模块,用于计算所述相匹配的关键词的权值之和,并将计算的和值作为所述关键词与所述每个案由条目的相似度值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610799283.XA CN107784041A (zh) | 2016-08-31 | 2016-08-31 | 裁判文书案由的获取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610799283.XA CN107784041A (zh) | 2016-08-31 | 2016-08-31 | 裁判文书案由的获取方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107784041A true CN107784041A (zh) | 2018-03-09 |
Family
ID=61451914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610799283.XA Pending CN107784041A (zh) | 2016-08-31 | 2016-08-31 | 裁判文书案由的获取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107784041A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108845985A (zh) * | 2018-05-28 | 2018-11-20 | 济南浪潮高新科技投资发展有限公司 | 一种信息匹配方法和信息匹配装置 |
CN108897770A (zh) * | 2018-05-25 | 2018-11-27 | 南京大学 | 一种面向裁判文书的法条名称规范化及案由与法条的关联统计方法 |
CN109657227A (zh) * | 2018-10-08 | 2019-04-19 | 平安科技(深圳)有限公司 | 合同可行性判定方法、设备、存储介质及装置 |
CN110287287A (zh) * | 2019-06-18 | 2019-09-27 | 北京百度网讯科技有限公司 | 案由的预测方法、装置及服务器 |
CN110377688A (zh) * | 2019-06-13 | 2019-10-25 | 北京百度网讯科技有限公司 | 案由处理方法、装置、计算机设备及存储介质 |
CN110472231A (zh) * | 2019-07-11 | 2019-11-19 | 阿里巴巴集团控股有限公司 | 一种识别法律文书案由的方法和装置 |
CN110516036A (zh) * | 2019-07-18 | 2019-11-29 | 平安科技(深圳)有限公司 | 法律文书信息提取方法、装置、计算机设备及存储介质 |
CN111291570A (zh) * | 2018-12-07 | 2020-06-16 | 北京国双科技有限公司 | 一种实现司法文书中要素识别的方法及装置 |
CN112365374A (zh) * | 2020-06-19 | 2021-02-12 | 支付宝(杭州)信息技术有限公司 | 标准案由确定方法、装置和设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104090929A (zh) * | 2014-06-23 | 2014-10-08 | 吕志雪 | 一种个性化图片推荐方法及装置 |
CN104239535A (zh) * | 2014-09-22 | 2014-12-24 | 重庆邮电大学 | 一种为文字配图的方法、服务器、终端及系统 |
US20160042427A1 (en) * | 2011-04-06 | 2016-02-11 | Google Inc. | Mining For Product Classification Structures For Internet-Based Product Searching |
CN105808685A (zh) * | 2016-03-02 | 2016-07-27 | 腾讯科技(深圳)有限公司 | 推广信息的推送方法及装置 |
-
2016
- 2016-08-31 CN CN201610799283.XA patent/CN107784041A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160042427A1 (en) * | 2011-04-06 | 2016-02-11 | Google Inc. | Mining For Product Classification Structures For Internet-Based Product Searching |
CN104090929A (zh) * | 2014-06-23 | 2014-10-08 | 吕志雪 | 一种个性化图片推荐方法及装置 |
CN104239535A (zh) * | 2014-09-22 | 2014-12-24 | 重庆邮电大学 | 一种为文字配图的方法、服务器、终端及系统 |
CN105808685A (zh) * | 2016-03-02 | 2016-07-27 | 腾讯科技(深圳)有限公司 | 推广信息的推送方法及装置 |
Non-Patent Citations (2)
Title |
---|
《图书情报工作》杂志社: "《机构知识库的建设与服务推广》", 31 May 2015 * |
向李兴: "基于自然语义处理的裁判文书推荐系统设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108897770A (zh) * | 2018-05-25 | 2018-11-27 | 南京大学 | 一种面向裁判文书的法条名称规范化及案由与法条的关联统计方法 |
CN108845985B (zh) * | 2018-05-28 | 2022-02-18 | 山东浪潮科学研究院有限公司 | 一种信息匹配方法和信息匹配装置 |
CN108845985A (zh) * | 2018-05-28 | 2018-11-20 | 济南浪潮高新科技投资发展有限公司 | 一种信息匹配方法和信息匹配装置 |
CN109657227A (zh) * | 2018-10-08 | 2019-04-19 | 平安科技(深圳)有限公司 | 合同可行性判定方法、设备、存储介质及装置 |
CN111291570A (zh) * | 2018-12-07 | 2020-06-16 | 北京国双科技有限公司 | 一种实现司法文书中要素识别的方法及装置 |
CN111291570B (zh) * | 2018-12-07 | 2022-07-05 | 北京国双科技有限公司 | 一种实现司法文书中要素识别的方法及装置 |
CN110377688A (zh) * | 2019-06-13 | 2019-10-25 | 北京百度网讯科技有限公司 | 案由处理方法、装置、计算机设备及存储介质 |
CN110287287B (zh) * | 2019-06-18 | 2021-11-23 | 北京百度网讯科技有限公司 | 案由的预测方法、装置及服务器 |
CN110287287A (zh) * | 2019-06-18 | 2019-09-27 | 北京百度网讯科技有限公司 | 案由的预测方法、装置及服务器 |
CN110472231A (zh) * | 2019-07-11 | 2019-11-19 | 阿里巴巴集团控股有限公司 | 一种识别法律文书案由的方法和装置 |
CN110472231B (zh) * | 2019-07-11 | 2023-05-12 | 创新先进技术有限公司 | 一种识别法律文书案由的方法和装置 |
CN110516036A (zh) * | 2019-07-18 | 2019-11-29 | 平安科技(深圳)有限公司 | 法律文书信息提取方法、装置、计算机设备及存储介质 |
CN112365374A (zh) * | 2020-06-19 | 2021-02-12 | 支付宝(杭州)信息技术有限公司 | 标准案由确定方法、装置和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107784041A (zh) | 裁判文书案由的获取方法和装置 | |
CN108073673B (zh) | 一种基于机器学习的法律知识图谱构建方法、装置、系统和介质 | |
CN107818138B (zh) | 一种案件法律条例推荐方法及系统 | |
CN105589844B (zh) | 一种用于多轮问答系统中缺失语义补充的方法 | |
CN110175325B (zh) | 基于词向量和句法特征的评论分析方法及可视化交互界面 | |
CN109597994B (zh) | 短文本问题语义匹配方法和系统 | |
CN105261109B (zh) | 一种钞票冠字号识别方法 | |
CN108009299A (zh) | 法律审判业务处理方法和装置 | |
CN108804677A (zh) | 结合多层级注意力机制的深度学习问题分类方法及系统 | |
CN112395410B (zh) | 一种基于实体抽取的产业舆情推荐方法、装置及电子设备 | |
CN109785975A (zh) | 辅助用户自主购药的方法、装置、设备及存储介质 | |
CN101587543A (zh) | 一种人脸识别方法 | |
CN109214562A (zh) | 一种基于rnn的电网科研热点预测与推送方法 | |
CN105279147B (zh) | 一种译员稿件快速匹配方法 | |
CN110826316A (zh) | 一种应用于裁判文书中敏感信息的识别方法 | |
US20190354855A1 (en) | Method for calculating similarity of cases based on citation relationship | |
CN116304035B (zh) | 一种复杂案件中的多被告多罪名关系抽取方法及装置 | |
CN110502694A (zh) | 基于大数据分析的律师推荐方法及相关设备 | |
CN109359599A (zh) | 基于联合学习身份和情感信息的面部表情识别方法 | |
CN108170691A (zh) | 关联文书的确定方法和装置 | |
CN110209721A (zh) | 判决文书调取方法、装置、服务器及存储介质 | |
Sikos et al. | Frame identification as categorization: Exemplars vs prototypes in embeddingland | |
CN108108346A (zh) | 文档的主题特征词抽取方法及装置 | |
CN111078859A (zh) | 一种基于引用次数的作者推荐方法 | |
CN110069614A (zh) | 一种问答交互方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180309 |
|
RJ01 | Rejection of invention patent application after publication |