CN111198934B - 一种信息处理方法及相关设备 - Google Patents

一种信息处理方法及相关设备 Download PDF

Info

Publication number
CN111198934B
CN111198934B CN201811287545.XA CN201811287545A CN111198934B CN 111198934 B CN111198934 B CN 111198934B CN 201811287545 A CN201811287545 A CN 201811287545A CN 111198934 B CN111198934 B CN 111198934B
Authority
CN
China
Prior art keywords
target
judicial
feature vector
sentences
judicial document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811287545.XA
Other languages
English (en)
Other versions
CN111198934A (zh
Inventor
马庆丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201811287545.XA priority Critical patent/CN111198934B/zh
Publication of CN111198934A publication Critical patent/CN111198934A/zh
Application granted granted Critical
Publication of CN111198934B publication Critical patent/CN111198934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种信息处理方法及相关设备,可以解析出更符合裁判文书的要素标签。该方法包括:获取目标司法文书,所述目标司法文书为待解析要素标签的司法文书;确定所述目标司法文书对应的目标标注句子以及所述目标标注句子对应的目标要素标签;对所述目标标注句子以及所述目标要素标签均进行分词和特征向量化处理,得到所述目标标注句子对应的目标句子向量以及所述目标要素标签对应的目标要素向量;将所述目标句子向量以及所述目标要素向量输入预设检索模型,得到所述目标司法文书对应的要素标签。

Description

一种信息处理方法及相关设备
技术领域
本发明涉及信息处理领域,特别涉及一种信息处理方法及相关设备。
背景技术
人工智能+司法正如火如荼的进行着,如何利用裁判文书网公开的4000万篇文书,为公检法提供有效的支持,减少司法人员重复性工作,提高工作效率,推动司法的透明和公正,是一件非常有意义的事情。在如何利用司法文书中,文书的结构化是一个非常重要的过程,而对文书进行要素标签解析又是司法结构化的基础,该工作可以使文书以要素标签的形式得以呈现,使得法律工作者无需从头到尾阅读整篇文书才能总结该文书涉及的主要事项,而是只要浏览文书的要素标签即可。将文书进行要素标签解析后,文书的要素标签可以用于类案推送、知识图谱构建、文书简化、文书对比等等多项工作。
目前的要素标签解析工作主要有两种方法,一是利用规则的方式进行提取,例如利用关键词、正则表达式等匹配文书,得到文书涉及的要素标签;二是通过标注数据,给每篇文书(按段落或者句子)打上标签,然后利用机器学习或者深度学习算法进行分类,相当于作为多类标分类进行要素标签的解析。
前者的缺点在于对于裁判文书尤其是民事文书,总结规则完全依靠人力,每个正则表达式都非常复杂,尤其针对民事文书,对于同一个要素标签会有各种各样完全不同的描述,总结规律非常复杂,且效果往往不好,准确率和召回率难以兼顾。而后者的缺点在于,要训练一个多类标分类的深度学习模型,需要的标注数据需要非常可观,且一般情况下会存在严重的数据倾斜问题,即少量要素标签在少量文书中即可标注积累大量数据,而大量的数据标注很多数据也只能积累少量数据,数据的严重倾斜会导致模型的效果不是很好。
发明内容
本发明实施例提供了一种信息处理方法及相关设备,可以解析出更加符合裁判文书的要素标签,使得后续依靠要素标签的操作更加流畅。
本发明实施例第一方面提供了一种信息处理方法,具体包括:
获取目标司法文书,所述目标司法文书为待解析要素标签的司法文书,所述要素标签用于指示所述目标司法文书的中心思想;
确定所述目标司法文书对应的目标标注句子以及所述目标标注句子对应的目标要素标签,所述目标标注句子为所述目标司法文书中有标注价值的句子;
对所述目标标注句子以及所述目标要素标签均进行分词和特征向量化处理,得到所述目标标注句子对应的目标句子向量以及所述目标要素标签对应的目标要素向量;
将所述目标句子向量以及所述目标要素向量输入预设检索模型,得到所述目标司法文书对应的要素标签,所述预设检索模型是通过预定司法领域对应的第一特征向量集合以及第二特征向量集合训练得到,其中,所述第一特征向量集合包括所述预定司法领域内的所有给定司法文书中每个司法文书的标注句子的特征向量,所述第二特征向量集合包括所述给定司法文书中每个司法文书的标注句子对应要素标签的特征向量,所述标注句子为所述每个司法文书中有提取要素标签价值的句子。
可选地,所述将所述目标句子向量以及所述目标要素向量输入预设检索模型,得到所述目标司法文书对应的要素标签之前,所述方法还包括:
获取训练数据,所述训练数据包括所述每个司法文书中的标注句子以及所述每个司法文书中的标注句子对应的要素标签,所述训练数据与所述预设检索模型相对应;
将所述训练数据进行预处理,以得到所述第一特征向量集合以及所述第二特征向量集合;
将所述第一特征向量集合按照预设比值进行划分,得到第一特征向量子集合以及第二特征向量子集合;
将所述第二特征向量集合按照所述预设比值进行划分,得到第三特征向量子集合以及第四特征向量子集合,其中,所述第一特征向量集合以及所述第二特征向量子集合分别与所述第一特征向量集合具有关联关系,所述第三特征向量子集合以及所述第四特征向量子集合分别与所述第二特征向量集合具有关联关系;
将所述第一特征向量子集合以及所述第二特征向量子集合输入模型进行训练,得到初始检索模型;
通过所述第三特征向量子集合以及所述第四特征向量子集合对所述初始检索模型进行调整,得到所述预设检索模型。
可选地,所述获取训练数据包括:
对所述所有给定司法文书中的每个司法文书分别进行分段以及分句;
将分段以及分句后的每个司法文书进行要素标签标注,以得到所述训练数据。
可选地,所述将所述训练数据进行预处理,以得到所述第一特征向量集合以及所述第二特征向量集合包括:
将所述每个司法文书的标注句子以及所述每个司法文书的标注句子对应的要素标签进行分词;
通过向量化工具对分词后的所述每个司法文书的标注句子进行向量化,得到所述第一特征向量集合;
通过所述向量化工具对分词后的所述每个司法文书的标注句子对应的要素标签进行向量化,以得到所述第二特征向量集合。
本发明实施例第二方面提供了一种信息处理装置,包括:
获取单元,用于获取目标司法文书,所述目标司法文书为待解析要素标签的司法文书,所述要素标签用于指示所述目标司法文书的中心思想;
第一确定单元,用于确定所述目标司法文书对应的目标标注句子以及所述目标标注句子对应的目标要素标签,所述目标标注句子为所述目标司法文书中有标注价值的句子;
处理单元,用于对所述目标标注句子以及所述目标要素标签均进行分词和特征向量化处理,得到所述目标标注句子对应的目标句子向量以及所述目标要素标签对应的目标要素向量;
第二确定单元,用于将所述目标司法文书输入预设检索模型,得到所述目标司法文书对应的要素标签,所述预设检索模型是通过预定司法领域对应的第一特征向量集合以及第二特征向量集合训练得到,其中,所述第一特征向量集合包括所述预定司法领域内的所有给定司法文书中每个司法文书的标注句子的特征向量的集合,所述第二特征向量集合包括所述给定司法文书中每个司法文书的标注句子对应要素标签的特征向量的集合,所述标注句子为所述每个司法文书中有提取要素标签价值的句子。
可选地,所述装置还包括:训练单元,所述训练单元用于:
获取训练数据,所述训练数据包括所述每个司法文书中的标注句子以及所述每个司法文书中的标注句子对应的要素标签,所述训练数据与所述预设检索模型相对应;
将所述训练数据进行预处理,以得到所述第一特征向量集合以及所述第二特征向量集合;
将所述第一特征向量集合按照预设比值进行划分,得到第一特征向量子集合以及第二特征向量子集合;
将所述第二特征向量集合按照所述预设比值进行划分,得到第三特征向量子集合以及第四特征向量子集合,其中,所述第一特征向量集合以及所述第二特征向量子集合分别与所述第一特征向量集合具有关联关系,所述第三特征向量子集合以及所述第四特征向量子集合分别与所述第二特征向量集合具有关联关系;
将所述第一特征向量子集合以及所述第二特征向量子集合输入模型进行训练,得到初始检索模型;
通过所述第三特征向量子集合以及所述第四特征向量子集合对所述初始检索模型进行调整,得到所述预设检索模型。
可选地,所述训练单元获取训练数据包括:
对所述给定司法文书中的每个司法文书分别进行分段以及分句;
将分段以及分句后的每个司法文书进行要素标签标注,以得到所述训练数据。
可选地,所述训练单元将所述训练数据进行预处理,以得到所述第一特征向量集合以及所述第二特征向量集合包括:
将所述每个司法文书的标注句子以及所述每个司法文书的标注句子对应的要素标签进行分词;
通过向量化工具对分词后的所述每个司法文书的标注句子进行向量化,得到所述第一特征向量集合;
通过所述向量化工具对分词后的所述每个司法文书的标注句子对应的要素标签进行向量化,以得到所述第二特征向量集合。
本发明实施例第三方面提供了一种处理器,所述处理器用于运行计算机程序,所述计算机程序运行时执行如上述各方面所述的信息处理方法的步骤。
本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时上述各方面所述的信息处理方法的步骤。
综上所述,可以看出,本发明提供的实施例中,通过预设检索模型识别出司法文书中的要素标签特征,该预设检索模型为通过预定司法领域的给定司法文书中的标注句子与标注句子对应的要素标签的特征进行向量化,之后训练得到的,由此可以解析出更加贴合司法文书的要素标签特征。
附图说明
图1为本发明实施例提供的信息处理方法的实施例示意图;
图2为本发明实施例提供的预设检索模型的训练流程示意图;
图3为本发明实施例提供的信息处理装置的实施例示意图;
图4为本发明实施例提供的服务器的硬件结构示意图。
具体实施方式
本发明实施例提供了一种信息处理方法及相关设备,可以解析出更加符合裁判文书的要素标签,使得后续依靠要素标签的操作更加流畅。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面从信息处理装置的角度对本发明的信息处理方法进行说明,该信息处理装置可以是服务器,也可以是服务器中的服务单元,具体不做限定。
请参阅图1,图1为本发明实施例提供的信息处理方法的实施例示意图,包括:
101、获取目标司法文书。
本实施例中,信息处理装置可以获取目标司法文书,该目标司法文书为待解析要素标签的司法文书,此处具体不限定获取目标司法文书的方式,例如是接收用户输入的目标司法文书。
102、确定目标司法文书对应的目标标注句子以及目标标注句子对应的目标要素标签。
本实施例中,信息处理装置可以首先将目标司法文书进行分段以及分句(例如可以通过现有的分段函数库直接调用,当然也可以采用其他方式,具体不做限定),将分段以及分句后的目标司法文书进行要素标签标注,得到目标标注句子以及目标标注句子对应的目标要素标签,其中目标标注句子为目标司法文书中有标注价值的句子。也就是说,假设该目标文书是离婚领域中的一个文书,该目标文书中包括一个句子“原告认为前述离婚协议签订时原告无民事行为能力,协议系被告乘人之危,违背原告真实意思的情况下而形成,且协议书关于共同财产部分的分割显失公平,关于婚生女的抚养问题也不符合现实条件”,可以标注上“婚后有子女,有夫妻共同财产,限制行为能力子女抚养,非真实意志的离婚协议”这4个要素标签,遍历目标司法文书中是所有句子,可以得到目标司法文书对应的目标标注句子以及目录表标注句子对应的目标要素标签,其中,把目标要素标签中的每个句子的要素标签当做一个查询query,把目标标注句子中的每个标注句子作为一个doc,同时,目标要素标签与目标标注相对应,也就是说,每个标注句子会都会有要素标签。
103、对目标标注句子以及目标要素标签均进行分词和特征向量化处理,得到目标标注句子对应的目标句子向量以及目标要素标签对应的目标要素向量。
本实施例中,信息处理装置可以将目标要素标签中的每个查询query和目标标注句子中的每个doc首先进行分词(此处具体不限定如何进行分词的),之后,对分词后的所有query以及所有doc通过向量化工具进行向量化得目标要素标签向量以及目标句子向量。
104、将目标句子向量以及目标要素向量输入预设检索模型,得到目标司法文书对应的要素标签。
本实施例中,信息处理装置可以预先训练一个预设检索模型,该预设检索模型用于对司法文书的要素标签进行解析,之后,信息处理装置可以将目标句子向量以及目标要素向量输入预设检索模型,得到目标司法文书对应的要素标签。其中,该预设检索模型是通过预定司法领域对应的第一特征向量集合以及第二特征向量集合训练得到的,该第一特征向量集合包括预定司法领域内的给定司法文书中每个司法文书的标注句子的特征向量的集合,该第二特征向量集合包括预定司法领域内的给定司法文书中每个司法文书的标注句子对应要素标签的特征向量的集合,该标注句子为每个司法文书中有提取要素标签价值的句子,也就是说司法文书中不是每个句子都是可以提取要素标签的,只有一些特殊的句子可以提取要素标签,例如某一司法文书中的句子“原告认为前述离婚协议签订时原告无民事行为能力,协议系被告乘人之危,违背原告真实意思的情况下而形成,且协议书关于共同财产部分的分割显失公平,关于婚生女的抚养问题也不符合现实条件”,则是可以提取的到该句子对应的要素标签,即“婚后有子女有夫妻共同财产、限制行为能力子女抚养、非真实意志的离婚协议”。
通过遍历预定司法领域内的给定司法文书,可以得到给定司法文书对应的标注句子以及标注句子对应的要素标签,其中,把所有的要素标签当做查询query,把所有的标注句子作为doc。
可以将所有查询query和标注句子docs进行提取特征向量化,之后进行模型的训练,得到预设检索模型,之后将该目标裁判文书输入该预设检索模型,得到该目标裁判文书对应的要素标签。
需要说明的是,信息处理装置在得到目标司法文书对应的要素标签之后,可以根据目标司法文书对应的要素标签执行相应的操作,例如可以根据该目标司法文书对应的要素标签进行类案推送、知识图谱构建、文书简化、文书对比等等多项工作。
综上所述,可以看出,本发明提供的实施例中,通过预设检索模型识别出司法文书中的要素标签特征,该预设检索模型为通过预定司法领域的给定司法文书中的标注句子与标注句子对应的要素标签的特征进行向量化,之后训练得到的,由此可以解析出更加贴合司法文书的要素标签特征。
下面对如何训练预设检索模型进行说明。
请参阅图2,图2为本发明实施例提供的预设检索模型的训练流程示意图,包括:
201、获取训练数据。
本实施例中,信息处理装置可以获取到训练数据,具体的,信息处理装置可以选取一个领域的给定司法文书也可以选取几个司法领域内的给定司法文书进行训练,获得训练数据,此处以选取离婚领域为例进行说明。
具体的,信息处理装置可以对给定司法文书中的每个司法文书分别进行分段以及分句;
将分段以及分句后的每个司法文书进行要素标签标注,以得到目标数据。也就是说,对于离婚领域的给定司法文书,将该领域内的给定司法文书中的每个司法文书分别进行分段分句(例如可以通过现有的分段函数库直接调用,当然也可以采用其他方式,具体不做限定),遍历该领域内的给定司法文书,并对适合标注合适的要素标签的句子进行要素标签的标注,例如某文书中的句子“原告认为前述离婚协议签订时原告无民事行为能力,协议系被告乘人之危,违背原告真实意思的情况下而形成,且协议书关于共同财产部分的分割显失公平,关于婚生女的抚养问题也不符合现实条件”,可以标注上“婚后有子女,有夫妻共同财产,限制行为能力子女抚养,非真实意志的离婚协议”这4个要素标签。
通过遍历该领域内的所有给定司法文书,可以得到该离婚领域内的给定司法文书对应的标注句子以及标注句子对应的要素标签,也即训练数据,其中,把所有的要素标签当做查询query,把所有的标注句子作为doc。
202、将训练数据进行预处理,以得到第一特征向量集合以及第二特征向量集合。
本实施例中,信息处理装置在得到训练数据之后,可以将该训练数据进行预处理,得到第一特征向量集合以及第二特征向量集合。具体如下:
将每个司法文书的标注句子以及每个司法文书的标注句子对应的要素标签进行分词;
通过向量化工具对分词后的每个司法文书的标注句子进行向量化,得到第一特征向量集合;
通过向量化工具对分词后的每个司法文书的标注句子对应的要素标签进行向量化,以得到第二特征向量集合。
也就是说,在通过步骤202得到训练数据之后,可以将训练数据中的所有查询query和标注句子docs进行提取特征向量化。由于深度学习模型强大的编码能力,在排序学习的特征化中融合深度学习的向量化特征,可以将训练数据中的查询query和标注句子doc首先进行分词(此处具体不限定如何进行分词的),之后,对分词后的训练数据中的所有查询query以及标注句子doc通过向量化工具进行向量化得到第一特征向量集合以及第二特征向量集合(可以理解的是,此处的向量化工具例如可以是word2Vec,当然也可以是其他的,具体不限定)。
需要说明的是,该第一特征向量集合为训练数据中的所有标注句子对应的特征向量的集合,该第二特征向量集合为训练数据中的所有查询query对应的特征向量的集合,其中该第一特征向量集合与特征向量集合具有关联关系,也就是说,该第一特征集合中的每个标注句子对应的特征向量均可以在第二特征向量集合中找到一个与之对应的查询query的特征向量。
需要说明的是,在进行模型的训练之前,先准备一批语料(该一批语料即为预定司法领域内的给定司法文书)进行分词,词向量的训练,即把每个词映射成一个n维的向量。这个词向量表中的词不会覆盖所有的词,因此,当查询query以及标注句子在向量化的过程中,遇到词向量表中缺失的词给预设一个随机的向量,例如unknown向量表示。
可以理解的是,为了提高目标数据的丰富性,还可以在得到查询query和标注句子doc中每个词的向量之后,还可以在每个词的向量中加入一些其他的文本特征,例如还加入词性的向量化表示(例如要素标签query中的词是名词、动词、形容词或副词等)、依存句法的向量化表示,以及融合其他的词频特征(例如TF-IDF,其中,该TF-IDF为计算一个句子中某一个词的“词频”(TF)和“逆文档频率”(IDF)得到两个值,之后将两个值相乘,得到了该词的TF-IDF值)、向量空间模型、BM25、语言模型、句子长度,单一词占比、停用词占比等等文本特征,之后,将查询query以及标注句子doc中的所有的特征进行连接。
203、将第一特征向量集合按照预设比例进行划分,得到第一特征向量子集合以及第二特征向量子集合。
本实施例中,信息处理装置可以将第一特征向量集合按照预设比例进行划分,例如按照9:1或者8:2比例进行划分,得到第一特征向量子集合以及第二特征向量子集合,其中,第一特征向量子集合可以作为预设检索模型中的一类训练数据,该第二特征向量子集合中可以作为预设检索模型的一类测试数据。
204、将第二特征向量集合按照预设比例进行划分,得到第三特征向量子集合以及第四特征向量子集合。
本实施例中,信息处理装置可以将第二特征向量集合按照预设比例进行划分(例如按照9:1或者8:2的比例进行划分,具体不限定),得到第三特征向量子集合以及第四特征向量子集合,其中,第三特征向量子集合可以作为预设检索模型中的一类训练数据,该第四特征向量子集合中可以作为预设检索模型的一类测试数据,第一特征向量子集合与第三特征向量子集合具有关联关系,第二特征向量子集合与第四特征向量子集合具有关联关系,也就是说,该第一特征向量子集合中的数据类型与第三特征向量子集合中的数据类(都是标注句子doc对应的特征向量)以及数据量(例如都包括1000个特征向量)相同,该第二特征向量子集合中的数据类型与第四特征向量子集合中的数据类型相同(都是要素标签query对应的特征向量)。
205、将第一特征向量子集合以及第二特征向量子集合输入模型进行训练,得到初始检索模型。
本实施例中,信息处理装置可以利用learning to rank中典型的pair wise模型RankSVM将第一特征向量子集合以及第二特征向量子集合进行训练得到初始检索模型。
206、通过第三特征向量子集合以及第四特征向量子集合对初始检索模型进行调整,得到预设检索模型。
本实施例中,信息处理装置在训练得到初始检索模型之后,可以通过第三特征向量子集合以及第四特征向量子集合对该初始检索模型进行测试,如果该初始检索模型输出的要素标签不能满足用户的需求,则可以调整该初始检索模型的参数,直到达到用户满意的效果,即得到该预设检索模型。
综上所述,可以看出,本发明提供的实施例中,通过预定司法领域的给定司法文书中的标注句子与标注句子对应的要素标签的特征进行向量化,之后对该标注句子以及标注句子对应的要素标签进行训练,得到预设检索模型,通过该预设检索模型对司法领域的裁判文书进行要素标签解析,可以使得解析出来的要素标签得出更加贴合裁判文书。
上面对本发明实施例提供的信息处理方法进行说明,下面结合图3对本发明实施例提供的信息处理装置进行说明。
请参阅图3,图3为本发明实施例提供的信息处理装置的实施例示意图,该信息处理装置包括:
获取单元301,用于获取目标司法文书,所述目标司法文书为待解析要素标签的司法文书,所述要素标签用于指示所述目标司法文书的中心思想;
第一确定单元302,用于确定所述目标司法文书对应的目标标注句子以及所述目标标注句子对应的目标要素标签,所述目标标注句子为所述目标司法文书中有标注价值的句子;
处理单元303,用于对所述目标标注句子以及所述目标要素标签均进行分词和特征向量化处理,得到所述目标标注句子对应的目标句子向量以及所述目标要素标签对应的目标要素向量;
第二确定单元304,用于将所述目标司法文书输入预设检索模型,得到所述目标司法文书对应的要素标签,所述预设检索模型是通过预定司法领域对应的第一特征向量集合以及第二特征向量集合训练得到,其中,所述第一特征向量集合包括所述预定司法领域内的所有给定司法文书中每个司法文书的标注句子的特征向量的集合,所述第二特征向量集合包括所述给定司法文书中每个司法文书的标注句子对应要素标签的特征向量的集合,所述标注句子为所述每个司法文书中有提取要素标签价值的句子。
可选地,所述装置还包括:训练单元305,所述训练单元305用于:
获取训练数据,所述训练数据包括所述每个司法文书中的标注句子以及所述每个司法文书中的标注句子对应的要素标签,所述训练数据与所述预设检索模型相对应;
将所述训练数据进行预处理,以得到所述第一特征向量集合以及所述第二特征向量集合;
将所述第一特征向量集合按照预设比值进行划分,得到第一特征向量子集合以及第二特征向量子集合;
将所述第二特征向量集合按照所述预设比值进行划分,得到第三特征向量子集合以及第四特征向量子集合,其中,所述第一特征向量集合以及所述第二特征向量子集合分别与所述第一特征向量集合具有关联关系,所述第三特征向量子集合以及所述第四特征向量子集合分别与所述第二特征向量集合具有关联关系;
将所述第一特征向量子集合以及所述第二特征向量子集合输入模型进行训练,得到初始检索模型;
通过所述第三特征向量子集合以及所述第四特征向量子集合对所述初始检索模型进行调整,得到所述预设检索模型。
可选地,所述训练单元305获取训练数据包括:
对所述给定司法文书中的每个司法文书分别进行分段以及分句;
将分段以及分句后的每个司法文书进行要素标签标注,以得到所述训练数据。
可选地,所述训练单元305将所述训练数据进行预处理,以得到所述第一特征向量集合以及所述第二特征向量集合包括:
将所述每个司法文书的标注句子以及所述每个司法文书的标注句子对应的要素标签进行分词;
通过向量化工具对分词后的所述每个司法文书的标注句子进行向量化,得到所述第一特征向量集合;
通过所述向量化工具对分词后的所述每个司法文书的标注句子对应的要素标签进行向量化,以得到所述第二特征向量集合。
本实施例中的信息处理装置的各单元之间的交互方式如前述图1以及图2所示实施例中的描述,具体此处不再赘述。
综上所述,可以看出,本发明提供的实施例中,通过预设检索模型识别出司法文书中的要素标签特征,该预设检索模型为通过预定司法领域的给定司法文书中的标注句子与标注句子对应的要素标签的特征进行向量化,之后训练得到的,由此可以解析出更加贴合司法文书的要素标签特征。
请参阅图4,图4是本发明实施例提供的一种服务器的结构示意图,该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。
服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由信息处理装置所执行的步骤可以基于该图4所示的服务器结构。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例还提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述信息处理方法。
本发明实施例还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述信息处理方法。
本发明实施例还提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获取目标司法文书,所述目标司法文书为待解析要素标签的司法文书,所述要素标签用于指示所述目标司法文书的中心思想;
确定所述目标司法文书对应的目标标注句子以及所述目标标注句子对应的目标要素标签,所述目标标注句子为所述目标司法文书中有标注价值的句子;
对所述目标标注句子以及所述目标要素标签均进行分词和特征向量化处理,得到所述目标标注句子对应的目标句子向量以及所述目标要素标签对应的目标要素向量;
将所述目标句子向量以及所述目标要素向量输入预设检索模型,得到所述目标司法文书对应的要素标签,所述预设检索模型是通过预定司法领域对应的第一特征向量集合以及第二特征向量集合训练得到,其中,所述第一特征向量集合包括所述预定司法领域内的所有给定司法文书中每个司法文书的标注句子的特征向量,所述第二特征向量集合包括所述给定司法文书中每个司法文书的标注句子对应要素标签的特征向量,所述标注句子为所述每个司法文书中有提取要素标签价值的句子。
可选地,所述将所述目标句子向量以及所述目标要素向量输入预设检索模型,得到所述目标司法文书对应的要素标签之前,所述方法还包括:
获取训练数据,所述训练数据包括所述每个司法文书中的标注句子以及所述每个司法文书中的标注句子对应的要素标签,所述训练数据与所述预设检索模型相对应;
将所述训练数据进行预处理,以得到所述第一特征向量集合以及所述第二特征向量集合;
将所述第一特征向量集合按照预设比值进行划分,得到第一特征向量子集合以及第二特征向量子集合;
将所述第二特征向量集合按照所述预设比值进行划分,得到第三特征向量子集合以及第四特征向量子集合,其中,所述第一特征向量集合以及所述第二特征向量子集合分别与所述第一特征向量集合具有关联关系,所述第三特征向量子集合以及所述第四特征向量子集合分别与所述第二特征向量集合具有关联关系;
将所述第一特征向量子集合以及所述第二特征向量子集合输入模型进行训练,得到初始检索模型;
通过所述第三特征向量子集合以及所述第四特征向量子集合对所述初始检索模型进行调整,得到所述预设检索模型。
可选地,所述获取训练数据包括:
对所述所有给定司法文书中的每个司法文书分别进行分段以及分句;
将分段以及分句后的每个司法文书进行要素标签标注,以得到所述训练数据。
可选地,所述将所述训练数据进行预处理,以得到所述第一特征向量集合以及所述第二特征向量集合包括:
将所述每个司法文书的标注句子以及所述每个司法文书的标注句子对应的要素标签进行分词;
通过向量化工具对分词后的所述每个司法文书的标注句子进行向量化,得到所述第一特征向量集合;
通过所述向量化工具对分词后的所述每个司法文书的标注句子对应的要素标签进行向量化,以得到所述第二特征向量集合。
本文中的设备可以是服务器、PC、PAD、手机等。
本发明还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获取目标司法文书,所述目标司法文书为待解析要素标签的司法文书,所述要素标签用于指示所述目标司法文书的中心思想;
确定所述目标司法文书对应的目标标注句子以及所述目标标注句子对应的目标要素标签,所述目标标注句子为所述目标司法文书中有标注价值的句子;
对所述目标标注句子以及所述目标要素标签均进行分词和特征向量化处理,得到所述目标标注句子对应的目标句子向量以及所述目标要素标签对应的目标要素向量;
将所述目标句子向量以及所述目标要素向量输入预设检索模型,得到所述目标司法文书对应的要素标签,所述预设检索模型是通过预定司法领域对应的第一特征向量集合以及第二特征向量集合训练得到,其中,所述第一特征向量集合包括所述预定司法领域内的所有给定司法文书中每个司法文书的标注句子的特征向量,所述第二特征向量集合包括所述给定司法文书中每个司法文书的标注句子对应要素标签的特征向量,所述标注句子为所述每个司法文书中有提取要素标签价值的句子。
可选地,所述将所述目标句子向量以及所述目标要素向量输入预设检索模型,得到所述目标司法文书对应的要素标签之前,所述方法还包括:
获取训练数据,所述训练数据包括所述每个司法文书中的标注句子以及所述每个司法文书中的标注句子对应的要素标签,所述训练数据与所述预设检索模型相对应;
将所述训练数据进行预处理,以得到所述第一特征向量集合以及所述第二特征向量集合;
将所述第一特征向量集合按照预设比值进行划分,得到第一特征向量子集合以及第二特征向量子集合;
将所述第二特征向量集合按照所述预设比值进行划分,得到第三特征向量子集合以及第四特征向量子集合,其中,所述第一特征向量集合以及所述第二特征向量子集合分别与所述第一特征向量集合具有关联关系,所述第三特征向量子集合以及所述第四特征向量子集合分别与所述第二特征向量集合具有关联关系;
将所述第一特征向量子集合以及所述第二特征向量子集合输入模型进行训练,得到初始检索模型;
通过所述第三特征向量子集合以及所述第四特征向量子集合对所述初始检索模型进行调整,得到所述预设检索模型。
可选地,所述获取训练数据包括:
对所述所有给定司法文书中的每个司法文书分别进行分段以及分句;
将分段以及分句后的每个司法文书进行要素标签标注,以得到所述训练数据。
可选地,所述将所述训练数据进行预处理,以得到所述第一特征向量集合以及所述第二特征向量集合包括:
将所述每个司法文书的标注句子以及所述每个司法文书的标注句子对应的要素标签进行分词;
通过向量化工具对分词后的所述每个司法文书的标注句子进行向量化,得到所述第一特征向量集合;
通过所述向量化工具对分词后的所述每个司法文书的标注句子对应的要素标签进行向量化,以得到所述第二特征向量集合。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素标签的过程、方法、商品或者设备不仅包括那些要素标签,而且还包括没有明确列出的其他要素标签,或者是还包括为这种过程、方法、商品或者设备所固有的要素标签。在没有更多限制的情况下,由语句“包括一个……”限定的要素标签,并不排除在包括要素标签的过程、方法、商品或者设备中还存在另外的相同要素标签。
本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种信息处理方法,其特征在于,包括:
获取目标司法文书,所述目标司法文书为待解析要素标签的司法文书,所述要素标签用于指示所述目标司法文书的中心思想;
确定所述目标司法文书对应的目标标注句子以及所述目标标注句子对应的目标要素标签,所述目标标注句子为所述目标司法文书中有标注价值的句子;
对所述目标标注句子以及所述目标要素标签均进行分词和特征向量化处理,得到所述目标标注句子对应的目标句子向量以及所述目标要素标签对应的目标要素向量;
将所述目标句子向量以及所述目标要素向量输入预设检索模型,得到所述目标司法文书对应的要素标签,所述预设检索模型是通过预定司法领域对应的第一特征向量集合以及第二特征向量集合训练得到,其中,所述第一特征向量集合包括所述预定司法领域内的所有给定司法文书中每个司法文书的标注句子的特征向量,所述第二特征向量集合包括所述给定司法文书中每个司法文书的标注句子对应要素标签的特征向量,所述标注句子为所述每个司法文书中有提取要素标签价值的句子;
所述确定所述目标司法文书对应的目标标注句子以及所述目标标注句子对应的目标要素标签包括:
遍历所述目标司法文书中的所有句子,将所述目标司法文书进行分段以及分句,得到分段以及分句后的目标司法文书;
将所述分段以及分句后的目标司法文书进行要素标签标注,得到所述目标司法文书对应的所述目标标注句子以及所述目标标注句子对应的所述目标要素标签。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标句子向量以及所述目标要素向量输入预设检索模型,得到所述目标司法文书对应的要素标签之前,所述方法还包括:
获取训练数据,所述训练数据包括所述每个司法文书中的标注句子以及所述每个司法文书中的标注句子对应的要素标签,所述训练数据与所述预设检索模型相对应;
将所述训练数据进行预处理,以得到所述第一特征向量集合以及所述第二特征向量集合;
将所述第一特征向量集合按照预设比值进行划分,得到第一特征向量子集合以及第二特征向量子集合;
将所述第二特征向量集合按照所述预设比值进行划分,得到第三特征向量子集合以及第四特征向量子集合,其中,所述第一特征向量集合以及所述第二特征向量子集合分别与所述第一特征向量集合具有关联关系,所述第三特征向量子集合以及所述第四特征向量子集合分别与所述第二特征向量集合具有关联关系;
将所述第一特征向量子集合以及所述第二特征向量子集合输入模型进行训练,得到初始检索模型;
通过所述第三特征向量子集合以及所述第四特征向量子集合对所述初始检索模型进行调整,得到所述预设检索模型。
3.根据权利要求2所述的方法,其特征在于,所述获取训练数据包括:
对所述给定司法文书中的每个司法文书分别进行分段以及分句;
将分段以及分句后的每个司法文书进行要素标签标注,以得到所述训练数据。
4.根据权利要求2所述的方法,其特征在于,所述将所述训练数据进行预处理,以得到所述第一特征向量集合以及所述第二特征向量集合包括:
将所述每个司法文书的标注句子以及所述每个司法文书的标注句子对应的要素标签进行分词;
通过向量化工具对分词后的所述每个司法文书的标注句子进行向量化,得到所述第一特征向量集合;
通过所述向量化工具对分词后的所述每个司法文书的标注句子对应的要素标签进行向量化,以得到所述第二特征向量集合。
5.一种信息处理装置,其特征在于,包括:
获取单元,用于获取目标司法文书,所述目标司法文书为待解析要素标签的司法文书,所述要素标签用于指示所述目标司法文书的中心思想;
第一确定单元,用于确定所述目标司法文书对应的目标标注句子以及所述目标标注句子对应的目标要素标签,所述目标标注句子为所述目标司法文书中有标注价值的句子;
处理单元,用于对所述目标标注句子以及所述目标要素标签均进行分词和特征向量化处理,得到所述目标标注句子对应的目标句子向量以及所述目标要素标签对应的目标要素向量;
第二确定单元,用于将所述目标司法文书输入预设检索模型,得到所述目标司法文书对应的要素标签,所述预设检索模型是通过预定司法领域对应的第一特征向量集合以及第二特征向量集合训练得到,其中,所述第一特征向量集合包括所述预定司法领域内的所有给定司法文书中每个司法文书的标注句子的特征向量的集合,所述第二特征向量集合包括所述给定司法文书中每个司法文书的标注句子对应要素标签的特征向量的集合,所述标注句子为所述每个司法文书中有提取要素标签价值的句子;
所述第一确定单元,具体用于:
遍历所述目标司法文书中的所有句子,将所述目标司法文书进行分段以及分句,得到分段以及分句后的目标司法文书;
将所述分段以及分句后的目标司法文书进行要素标签标注,得到所述目标司法文书对应的所述目标标注句子以及所述目标标注句子对应的所述目标要素标签。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:训练单元,所述训练单元用于:
获取训练数据,所述训练数据包括所述每个司法文书中的标注句子以及所述每个司法文书中的标注句子对应的要素标签,所述训练数据与所述预设检索模型相对应;
将所述训练数据进行预处理,以得到所述第一特征向量集合以及所述第二特征向量集合;
将所述第一特征向量集合按照预设比值进行划分,得到第一特征向量子集合以及第二特征向量子集合;
将所述第二特征向量集合按照所述预设比值进行划分,得到第三特征向量子集合以及第四特征向量子集合,其中,所述第一特征向量集合以及所述第二特征向量子集合分别与所述第一特征向量集合具有关联关系,所述第三特征向量子集合以及所述第四特征向量子集合分别与所述第二特征向量集合具有关联关系;
将所述第一特征向量子集合以及所述第二特征向量子集合输入模型进行训练,得到初始检索模型;
通过所述第三特征向量子集合以及所述第四特征向量子集合对所述初始检索模型进行调整,得到所述预设检索模型。
7.根据权利要求6所述的装置,其特征在于,所述训练单元获取训练数据包括:
对所述给定司法文书中的每个司法文书分别进行分段以及分句;
将分段以及分句后的每个司法文书进行要素标签标注,以得到所述训练数据。
8.根据权利要求6所述的装置,其特征在于,所述训练单元将所述训练数据进行预处理,以得到所述第一特征向量集合以及所述第二特征向量集合包括:
将所述每个司法文书的标注句子以及所述每个司法文书的标注句子对应的要素标签进行分词;
通过向量化工具对分词后的所述每个司法文书的标注句子进行向量化,得到所述第一特征向量集合;
通过所述向量化工具对分词后的所述每个司法文书的标注句子对应的要素标签进行向量化,以得到所述第二特征向量集合。
9.一种服务器,其特征在于,所述服务器包括一个或以上的中央处理器和存储器;
所述存储器上存储有计算机程序,所述计算机程序被所述一个或以上的中央处理器执行时实现权利要求1-4中任一项所述方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至4中任意一项所述方法的步骤。
CN201811287545.XA 2018-10-31 2018-10-31 一种信息处理方法及相关设备 Active CN111198934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811287545.XA CN111198934B (zh) 2018-10-31 2018-10-31 一种信息处理方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811287545.XA CN111198934B (zh) 2018-10-31 2018-10-31 一种信息处理方法及相关设备

Publications (2)

Publication Number Publication Date
CN111198934A CN111198934A (zh) 2020-05-26
CN111198934B true CN111198934B (zh) 2023-12-26

Family

ID=70743755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811287545.XA Active CN111198934B (zh) 2018-10-31 2018-10-31 一种信息处理方法及相关设备

Country Status (1)

Country Link
CN (1) CN111198934B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753538B (zh) * 2020-06-12 2024-06-14 鼎富智能科技有限公司 离婚纠纷裁判文书要素提取方法及装置
CN114637824B (zh) * 2022-03-18 2023-12-01 马上消费金融股份有限公司 数据增强处理方法及装置
CN118350462B (zh) * 2024-06-14 2024-08-16 人民法院信息技术服务中心 基于标签向量正交约束的司法关系要素抽取方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334500A (zh) * 2018-03-05 2018-07-27 上海思贤信息技术股份有限公司 一种基于机器学习算法的裁判文书标注方法及装置
CN108664589A (zh) * 2018-05-08 2018-10-16 苏州大学 基于领域自适应的文本信息提取方法、装置、系统及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10133724B2 (en) * 2016-08-22 2018-11-20 International Business Machines Corporation Syntactic classification of natural language sentences with respect to a targeted element

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334500A (zh) * 2018-03-05 2018-07-27 上海思贤信息技术股份有限公司 一种基于机器学习算法的裁判文书标注方法及装置
CN108664589A (zh) * 2018-05-08 2018-10-16 苏州大学 基于领域自适应的文本信息提取方法、装置、系统及介质

Also Published As

Publication number Publication date
CN111198934A (zh) 2020-05-26

Similar Documents

Publication Publication Date Title
CN110929038B (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
CN110781276A (zh) 文本抽取方法、装置、设备及存储介质
CN111198934B (zh) 一种信息处理方法及相关设备
BR112012011091B1 (pt) método e aparelho para extração e avaliação de qualidade de palavra
US10558931B2 (en) Determining comprehensiveness of question paper given syllabus
CN110210038B (zh) 核心实体确定方法及其系统、服务器和计算机可读介质
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN103164537B (zh) 一种面向用户信息需求的搜索引擎日志数据挖掘的方法
CN110008306A (zh) 一种数据关系分析方法、装置及数据服务系统
CN114861677B (zh) 信息抽取方法、装置、电子设备以及存储介质
JP2008210024A (ja) 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
CN109697231A (zh) 一种案件文书的显示方法、系统、存储介质和处理器
CN109753646B (zh) 一种文章属性识别方法以及电子设备
CN111126053B (zh) 一种信息处理方法及相关设备
CN116366312A (zh) 一种Web攻击检测方法、装置及存储介质
CN116610810A (zh) 基于调控云知识图谱血缘关系的智能搜索方法及系统
Acosta-Mendoza et al. A new algorithm for approximate pattern mining in multi-graph collections
Giannakopoulos et al. Content visualization of scientific corpora using an extensible relational database implementation
JP2015170062A (ja) 文書集合分析装置、文書集合分析方法、文書集合分析プログラム
RU2549118C2 (ru) Итеративное пополнение электронного словника
CN112613320A (zh) 一种获取相似语句的方法、装置、存储介质及电子设备
CN116992874B (zh) 一种文本引用审核溯源方法、系统、装置和存储介质
Lu et al. Data readiness level for unstructured data with a focus on unindexed text data
CN109325126B (zh) 语言文本的对象化处理方法、装置及计算机存储介质
Charles et al. Data Quality Assessment in Europeana: Metrics for Multilinguality.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant