具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
规范文书(也可称为专用文书),是现代文书的一大类别,是指在特定的法律环境或商业环境下,给予个人或公司的某种特定格式的专业文件。相对通用文书而言,规范文书通常具有约定俗称的编写格式和结构框架,并具有指定的用途和特定的使用场景。常见的规范文书,例如:在司法领域中,法院使用的判决书、调解书;在商业领域保险公司与客户约定条款时签订的保险合同等。由于,规范文书通常在某个领域具有特定的使用目的,并以指定的格式传递特定的信息,因此,规范文书对于相关领域的从业人士(用户)通常具有关注价值,因此,如果能够从规范文书中,获取到文书要素,就能够使用户全面地了解规范文书的内容,例如对于法律行业从业人员来说,可以通过统计分析某个地区法律案件的判决书等规范文书,了解当地的案件形势等;对于,保险行业的从业人员来说,可以通过统计分析某个统计周期的保险合同的规范文书,了解有关参保量、参保人群信息、保险类型、保险执行情况等信息,对保险行业的走势判断和保险服务行业的决策制定提供参考依据。
为了实现从规范文书中,获取完整的文书要素,本发明实施例提供了一种规范文书处理方法,如图1所示,所述方法可以包括以下步骤:
步骤S110,从规范文书中获取文书身份,所述文书身份至少包括文书性质。
由于规范文书的格式繁多,应用于不同领域和不同场合,以不同的特定格式表达出不同的内容,因此,为了能够使本方法对不同领域和不同场合的规范文书都能够提取出文书要素,提出了文书身份这一概念。本申请中,文书身份以规范文书的使用用途作为基本的划分原则,能够反映出规范文书所应用的领域和规范文书在对应领域中的特定用途,因此文书身份应至少包含文书性质,本申请中,每种文书性质对应了一种特定用途的规范文书,例如,在法律领域的规范文书中,文书性质可包含:判决书、开庭通知书、调解书等;在商业领域的规范文书中,文书性质可包含:保险合同、转让书、授权协议等。
此外,由于从规范文书中获取的文书要素,会被用户用于不同的用途,因此,用户希望对规范文书的处理方式也有不同的要求,例如,对于判决书来说,有些用户希望获得辖区内所有判决书的文书要素,而有的用户希望从大量的判决书中获取到民事案件判决书的文书要素,还有的用户不仅需要获得民事案件判决书的文书要素,还希望根据判决书的年份或审理程序等条件对判决书进行分类处理。因此本申请中,文书身份中除了包含诸如判决书、保险合同等文书性质以外,还可以针对不同的文书性质包含更详细的身份信息,例如,在判决书的文书性质下,根据案件类型可以进一步分为民事判决书和刑事判决书等,根据审理程序可以进一步分为一审、二审和监督审判等,根据审理年份可以进一步分为2017年、2016年等,根据审理地点可进一步分为A省(州)、B市(县)、C区(乡)等。
示例地,针对某购房贷款保险合同,部分内容如下:
购房贷款保险合同
一、保险财产
……
二、责任范围
……
在步骤S110中获取到的文书身份中,包含文书性质为保险合同,并进一步包括保险类别为购房贷款保险,因此,步骤S110中针对示例的规范文书获取到的文书身份为:购房贷款保险合同,其中文书性质为保险合同。
图2为本发明实施例提供的一种规范文书处理方法步骤S110的流程图,如图2所示,在一种可选择的实施方式中,步骤S110中包含以下步骤:
步骤S111,从所述规范文书中获取文书标题,所述标题包括主标题和副标题。
由于规范文书具有指定的或约定俗成的撰写格式,并且通常具有固定文字的标题,或者固定内容格式的标题,例如,在步骤S110示例出的规范文书中,标题为“购房贷款保险合同”,在保险合同中,根据保险类别的不同,保险合同的标题还可以为“机动车保险合同”“人身意外伤害保险合同”等。可见,规范文书的标题中通常包含了文书性质等信息,因此,能够从标题中获取到规范文书的文书身份。
示例地,在步骤S111中,从某判决书中获取文书标题,该判决书的内容为:
XX省XX市XX区人民法院
民事判决书
(2016)X0001民初001号
原告:XX
委托代理人:……
……
从该判决书中获取到的文书标题包括,主标题:XX省XX市XX区人民法院民事判决书,副标题:(2016)X0001民初001号。
步骤S112,从所述文书标题中抽取身份关键词,所述身份关键词至少包含文书性质关键词。
本申请中,身份关键词用于识别规范文书的文书身份,为了能够从文书标题中抽取身份关键词,可以预先设置身份关键词库,身份关键词库中包含的身份关键词可以根据本方法的用途进行添加或删减,例如,本方法在一个实施例中,被用于从法院文书中提取文书要素,因此在该实施例中,身份关键词库中包含了可用于识别法院文书身份的身份关键词,如:民事、判决书、调解书、民初、一审、二审等。如果需要使该实施例中的方法能够应用到其他的使用场景,例如保险行业,那么,就可以在身份关键词库中添加与保险行业有关的身份关键词,如:合同、人身保险、车辆保险等。
此外,需要说明的是,由于不同用户在使用本申请实施例提供的方法时,对要素提取的需求会有不同,以判决书为例,有些用户希望获得案件一审的判决书中的文书要素,因此,需要身份关键词库中包含“民初”、“一审”等关键词,以实现当规范文书中包含“民初”、“一审”等关键词时,在步骤S112中能够从规范文书中抽取到对应的关键词。或者,有些用户希望不区分案件的审理程序,无论案件是“一审”、“二审”或处于其他审理程序中,均希望获得案件判决书中的文书要素,此时,身份关键词库中的“民初”、“一审”等与案件的审理程序有关的身份关键词可以清除,或者对身份关键词添加状态属性,身份关键词的状态属性可以包括“可用”和“不可用”,并将与案件的审理程序有管的身份关键词的状态属性设置为“不可用”。
示例地,对步骤S111中获取的标题抽取身份关键词,其中,在判决书的主标题中抽取到案件类型关键词“民事”和文书性质关键词“判决书”,从副标题中抽取到“民初”。
步骤S113,根据所述身份关键词,获取文书身份。
在步骤S113中,以步骤S113中抽取的身份关键词为例,根据身份关键词,获取的文书身份为“民事判决书一审”,其中,“判决书”为文书性质。
需要说明的是,如果改变身份关键词库中身份关键词的内容,例如增加时间关键词和地点关键词,并设置审理程序关键词的状态属性为“不可用”,在步骤S112中抽取的关键词结果中就会缺少“一审”,并可能还会包含“2016”“XX区”等,在这种情况下,步骤S113中获取的文书身份为“2016年XX区民事判决书”。可见,步骤S113中获取到的文书身份与身份关键词库中的身份关键词有关,通过改变身份关键词库中的身份关键词,能够获取到不同文书身份,不同的文书身份会对文书要素的获取产生影响。例如,当使用本申请的方法处理大量判决书时,如果获取到的文书身份为“民事判决书一审”,本申请的方法可以实现只对审理程序为一审的民事判决书提取文书要素;如果获取到的文书身份为“2016年XX区民事判决书”,本申请的方法可以实现只对2016年XX区的民事判决书提取文书要素,且不会考虑案件的审理程序。
需要说明的是,如果规范文书中包含文书标题,但是步骤S112在文书标题中抽取不到身份关键词,那么,在步骤S112中,扩大抽取身份关键词的范围至正文,并从正文中抽取身份关键词。
步骤S120,根据所述文书身份,选择与所述规范文书对应的目录树;所述目录树包含至少一个目录节点,每个所述目录节点包含至少一个抽取表达式。
在一种可选择的实施方式中,目录树以目录节点的形式概括了规范文书中的文档结构,其中,目录节点顺序地列出了规范文书中可能会出现的内容主题,目录节点下的抽取表达式用于从规范文书中抽取与该目录节点对应的段落内容。
示例地,以使用本申请的方法处理民事判决书为例,本实施例示出一种目录树如下:
民事判决书
一审
案件信息--------<抽取表达式>
当事人信息-----<抽取表达式>
审理经过--------<抽取表达式>
原告诉称--------<抽取表达式>
本院查明--------<抽取表达式>
本院认为--------<抽取表达式>
裁判结果--------<抽取表达式>
二审
再审
其他
其中,“民事判决书”为目录树的题目,“案件信息”“当事人信息”等为目录节点,每个目录节点下设置有至少一个抽取表达式。并且,本实施例中示出的目录树,将用于处理不同审理程序的目录树合并到一个目录树中,因此,本实施例中的目录树根据审理程序还包含多个目录层级,例如“一审”“二审”等,目录节点位于每个目录层级之下,顺序地列出了规范文书中可能会出现的内容主题。本实施例中,根据步骤S110中获取到的文书身份“民事判决书一审”选择上述题目为“民事判决书”的目录树,并定位到目录层级“一审”。
需要说明的是,本申请中,目录树不局限于上述示例中示出的结构,目录树的结构可以根据用户对规范文书处理的需求做出改变。例如,当用户希望获得所有判决书的文书要素,而不希望区分案件的审理程序时,目录书中可以不包含用于区分“一审”“二审”等审理程序的目录层级,示例地,当目录树中不包含目录层级时,本实施例中示出另一种目录树如下:
民事判决书
案件信息--------<抽取表达式>
当事人信息-----<抽取表达式>
审理经过--------<抽取表达式>
原告诉称--------<抽取表达式>
本院查明--------<抽取表达式>
本院认为--------<抽取表达式>
裁判结果--------<抽取表达式>
又或者,当用户只希望获得“一审”民事判决书的文书信息时,目录树中除“一审”目录层级以外的其他目录层级就可以不会被使用,此时,目录树中可以不包含除“一审”目录层级以外的其他目录层级的内容,并可以将目录层级中的“一审”合并至目录树的题目中,以省略目录层级,例如:
民事判决书一审
案件信息--------<抽取表达式>
当事人信息-----<抽取表达式>
审理经过--------<抽取表达式>
原告诉称--------<抽取表达式>
本院查明--------<抽取表达式>
本院认为--------<抽取表达式>
裁判结果--------<抽取表达式>
需要说明的是,本申请中,根据规范文书的文档结构的不同,目录树的目录节点下还可以包至少一个子节点,即目录树中的目录节点可以有多个节点层次。
示例地,以使用本方法处理购房贷款保险合同为例,本实施例中示出一种目录树如下:
购房贷款保险合同
合同信息--------<抽取表达式>
提供的保障-----<抽取表达式>
保险责任--------<抽取表达式>
责任免除--------<抽取表达式>
保险金申请--------<抽取表达式>
保险费缴纳--------<抽取表达式>
其他、附录及释义--------<抽取表达式>
从上述的题目为“购房贷款保险合同”的目录树中可以看出,在目录节点“提供的保障”下共设有两个子节点。
由以上步骤S120可以看出,在步骤S120中根据文书身份,选择与规范文书对应的目录树,从而能够使本方法根据目录树处理规范文书,从规范文书中提取文书要素。本申请中的目录树的结构与规范文书的文档结构有关,并可以根据用户对规范文书处理的需求产生变化,从而使本方法的规范文书处理方法对不同规范文书和不同用户需求的适应能力得到提高。
步骤S130,根据所述目录树,对所述规范文书进行切块处理,生成至少一个内容区块,每个所述内容区块对应所述目录树的一个所述目录节点。
在步骤S130中,通过对规范文书进行切块处理,使规范文书被分成至少一个内容区块,由于目录树是以目录节点的形式概括了规范文书的文档结构,因此根据目录树对规范文书进行切块后,生成的内容区块是以规范文书的文档结构作为切块依据的,每个内容区块对应了目录树中的一个目录节点,展现了规范文书中叙述某个特定内容主题的部分。通过对规范文书进行切块处理,使规范文书的内容能够以内容区块的形式更加直观地呈现给用户,有助于用户快速从规范文书中发现感兴趣的内容。
图3为本发明实施例提供的一种规范文书处理方法步骤S130的流程图,如图3所示,在一种可选择的实施方式中,步骤S130包含以下步骤:
步骤S131,根据每个所述目录节点包含的所述抽取表达式,从所述规范文书中抽取块首内容。
规范文书通常根据规定的撰写要求或约定俗成的形式以特定的格式撰写,例如,下文示出的一篇规范文书为法院出具的民事判决书,其内容为:
XX省XX市XX区人民法院
民事判决书
(2016)X0001民初001号
原告:X某。
委托代理人:……。
被告:X某甲。
原告X某与被告X某甲XX纠纷一案,本院于2016年X月X日受理后,依法由审判员XXX独任审判,……
原告X某诉称:……
经审理查明,……
本院认为,……
……
从本步骤中示出的民事判决书可以看出,民事判决书中的内容能够与本申请示出的目录树中目录节点相对应。例如,“原告X某诉称”部分的内容对应目录节点“原告诉称”;经审理查明部分的内容对应目录节点中的“本院查明”。并且,在每个与目录节点相对应的段落开头都有形式为“原告:X某”“原告X某诉称”以及“本院查明”等标志词或标志句式。
本实施例中的抽取规则表达式,能够在规范文书段落的段首位置查找标志词或标志句式,并从规范文书的所有段落中抽取包含标志词或标志句式的段首内容,作为块首内容。
需要说明的是,本申请中的规则表达式可以是使用任何计算机语言编写的具有对特定内容进行识别或抽取等功能的代码段。本申请中的规则表达式在进行块首内容的识别或抽取时,包括但不限于使用字符匹配、句式匹配、模糊匹配、正则匹配等机器识别技术,因此,对于规则表达式的格式,本申请中不做出具体限定,本领域技术人员可根据本申请提供的方法,参考实施本方法所使用的系统环境和软硬件环境等因素,编写与系统环境和软硬件环境相适应地抽取规则表达式。同时,本申请中,还可以使用神经网络、支持向量机、判别模型等机器学习技术,建立机器学习模型,使用机器学习模型生成规则表达式,并使机器学习模型在使用中通过接触新的规范文书,不断获得训练语料,从而不断提高机器学习模型生成规则表达式的质量。
步骤S132,在所述块首内容的起始处设置区块分割点。
本申请中,在区块分割点处对规范文书进行切块处理,区块分割点位于块首内容的起始处。区块分割点可以表现为在块首内容前添加的具有标识作用的字符或段落前缀等,本申请对区块分割点的形式不做具体限定,只要能为本申请的切块处理过程标记切割位置,即可作为区块分割点。
示例地,对步骤S131中示出的民事判决书执行步骤S131和S132:
XX省XX市XX区人民法院
民事判决书
(2016)X0001民初001号
<br>原告:X某。
委托代理人:……。
被告:X某甲。
<br>原告X某与被告X某甲XX纠纷一案,本院于2016年X月X日受理后,依法由审判员XXX独任审判,……
<br>原告X某诉称:……
<br>经审理查明,……
<br>本院认为,……
……
其中,<br>为区块分割点,带有下划线的内容为步骤S131中被抽取的块首内容。
需要注意的是,在一种实施例中,块首内容本身就可以做为区块分割点,当以块首内容作为区块分割点时,不需要在块首内容前添加字符或段落前缀,在进行切块处理时,本方法会在每个块首内容前进行切割,从而生成内容块。
步骤S133,根据所述区块分割点,对所述规范文书进行切块处理,生成至少一个所述内容区块。
本申请中,在对规范文书进行切块处理,生成内容区块时,根据目录树,以内容区块对应的目录节点的名称作为区块的标题,添加在每个区块的起始处,从而使每个区块对应的内容主题能够直观地呈献给用户,实现了根据规范文书的文档结构对规范文书进行结构化处理,有助于用户快速从规范文书中发现感兴趣的内容。
示例地,对步骤S132中示出的民事判决书执行步骤S132之后,得到以下结构化的处理的规范文书的部分内容为:
当事人信息
原告:X某。
委托代理人:……。
被告:X某甲。
审理经过
原告X某与被告X某甲XX纠纷一案,本院于2016年X月X日受理后,依法由审判员XXX独任审判,……
原告诉称
原告X某诉称:……
本院查明
经审理查明,……
本院认为
本院认为,……
……
从上述示例中可以看出,规范文书经过切块处理后,生成了多个内容区块,每个内容区块以对应的目录节点的名称作为区块的标题,实现了对规范文书的结构化处理,当将结构化处理的规范文书呈献给用户时,用户能够根据区块的标题轻易地发现自己感兴趣地内容。
需要说明的是,在规范文书中会出现一些顺序不定且不一定出现的内容,例如在与目录树中的“原告诉称”节点对应的内容中,可能会出现一审XXX诉称、二审XXX辩称等内容。这些内容不影响本申请的切块处理过程,可根据切块分割点,直接切割并输出内容区块。
步骤S140,根据预设提取规则,从所述内容区块中提取文书要素。
在步骤S130中,已经根据目录树对规范文书进行了切块处理,使规范文书结构化。由于,规范文书结构化之后,每个内容区块分别表达了不同的内容主题,因此,在每个内容区块中就会存在与内容主题对应,并且有关注价值的文书要素。以婚姻纠纷案件为例,在内容主题为“当事人信息”的内容区块下有原告的姓名和性别、被告的姓名和性别、原告代理律师姓名和所在律师事务所名称,以及被告代理律师姓名和所在律师事务所名称等文书要素;在内容主题为“裁判结果”的内容区块下有子女抚养、诉讼费用等文书要素;在内容主题为“原告诉称”“本院查明”或“本院认为”等内容区块下存在是否性格不合、是否存在家庭暴力等文书要素。因此,本申请中,根据规范文书的不同内容区块会存在不同的文书要素的这一特征,预设一个从不同的内容区块中提取不同文书要素的提取规则,例如预设从内容主题为“当事人信息”的内容区块中提取原告的姓名、性别,被告的姓名、性别等。
需要说明的是,在规范文书中,一些文书要素是以否定句式的形式出现的规范文书中,例如在婚姻纠纷案件的判决书中,会出现如“没有子女”“无共同债权债务”等以否定句式的形式出现的文书要素。但是,虽然这些否定句式中包含了“子女”“债权债务”等文书要素,但是,由于这些文书要素存在于否定句式中,其表达的是一种否定概念,即否定句式中的文书要素实际上是不存在的,不应该被提取。因此,如果从不考虑否定句式的情况,直接提取位于否定句式中的文书要素,就会得到错误的提取结果。本申请为了避免从否定句式中错误地提取到文书要素,在提取文书要素时,在文书要素所在的句子内向前查找否定词,如果存在否定词,就不提取该文书要素,例如,在婚姻纠纷案件的判决书中存在“原、被告夫妻无债权债务”的否定句式,其中包含了“债权债务”这一文书要素,但是由于在“债权债务”前存在否定词“无”,因此,本申请不会提取该文书要素。
图4为本发明实施例提供的一种规范文书处理方法步骤S140的流程图,如图4所示,在一种可选择的实施方式中,步骤S140包含以下步骤:
步骤S141,获取与所述文书身份对应的要素树;所述要素树包含至少一个要素节点,每个所述要素节点包含至少一个要素表达式。
本申请中,要素树中包含要素节点,要素节点与目录树中的目录节点对应设置,要素节点内包含至少一个要素表达式,用于从与目录节点对应的内容区块中提取文书要素。并且,由于在每个内容区块中,可能存在的文书要素的数量和类型不同,因此在每个要素节点下,可以对要素表达式进行分组,使在步骤S140中提取到的文书要素也依照要素表达式的分组,有秩序地展示给用户。
示例地,本申请示出的一种要素树的结构如下:
判决书
-通用要素提取
-案件信息
案号------------<要素表达式>
案件类型------<要素表达式>
案由------------<要素表达式>
裁判日期------<要素表达式>
-当事人信息
-原告/上诉人/申请人信息(分组)
原告------------<要素表达式>
上诉人---------<要素表达式>
申请人---------<要素表达式>
-被告/被上诉人/被申请人信息(分组)
被告------------<要素表达式>
被上诉人---------<要素表达式>
被申请人---------<要素表达式>
代理律师--------------------<要素表达式>
代理律师所在事务所------<要素表达式>
+本院查明
+本院认为
……
需要说明的是,本申请中获取的文书要素,以多种形式展现给用户,例如以预先设计的显示样式展示,或者,在规范文书中对文书要素进行标色显示或罗列显示等。对于文书要素的展示方式或处理方式,本领域技术人员在使用本方法获得文书要素之后,可以根据实际需求自行选择,本申请中不做具体限定。
需要说明的是,本申请中的提取规则表达式,可以是使用任何计算机语言编写的能够实现对文书要素识别和提取的代码段。规则表达式中可以包含文书要素的识别逻辑、文书要素的提取逻辑和文书要素的归一化逻辑,其中,文书要素的识别逻辑可以包括在规则表达式中设置用于在规范文书中匹配文书要素的特征词或特征句式,为了适应同一个文书要素在不同规范文书中的不同表达形式,规则表达式中的特征词或特征句式可以有多个;此外,文书要素的提取逻辑可以包括对文书要素是否存在与否定句式的判断逻辑,以确定识别到的文书要素是否应该被提取出来;最后,文书要素的归一化逻辑能够将以不同的表达形式表达的相同含义的文书要素以规范的形式表达出来,要素提取的结果混乱,示例地,某要素树中存在“涉及子女”的要素节点,当使用该要素节点下的用于提取子女性别的要素表达式进行文书要素提取时,可能会匹配到“婚生女”“女儿”“女孩”“养女”等词,但是,本申请中的规则表达式在提取时,通过文书要素的归一化逻辑,将抽取到的“婚生女”“女儿”“女孩”“养女”等词最终归一化地提取到文书要素“子女性别:女”。
步骤S142,根据所述要素表达式,从所述内容区块中提取所述文书要素。
本步骤中,根据要素表达式,按照要素节点与目录节点的对应关系,从对应的内容区块中提取文书要素,并按照要素树中要素表达式的排列顺序,有秩序地显示文书要素提取的结果。
示例地,使用本申请的方法,对某判决书的要素提取的部分结果为:
案号:(2016)X0001民初001号
案件类型:民事
案由:离婚纠纷
裁判日期:20XX年XX月XX日
……
家庭暴力:有
子女数量:2
子女性别:女
从上述的要素提取的结果可以看出,本申请从规范文书中提取文书要素,并将文书要素有秩序地显示出来,使用户不再需要从大篇幅的规范文书中逐字逐句地去寻找对自己有价值的信息,能够极大地缩短用户从规范文书中发现并整理文书要素的时间。
图5为本发明实施例提供的另一种规范文书处理方法步骤S130的流程图,如图5所示,在一种可选择的实施方式中,在步骤S132之前,还包括:步骤S137和S138。
步骤S137,根据所述目录树中所述目录节点的顺序,分析所述块首内容是否存在顺序错误。
由于,受到规范文书撰写的影响,在步骤S131中,一个抽取规则表达式可能会在规范文书中抽取到多个块首内容。示例地,对于下述判决书中的部分内容:
……
本院认为,证人X某的证言可以证明……
本院认为,原审第三人提交的证据具有真实性、合法性,……
经审理查明,原审判决认定的基本事实属实,本院予以确认。……
本院认为,上诉人XXX在申请劳动仲裁时并未主张与原审第三人……
……
其中,步骤S131中抽取到的块首内容为带有下划线的内容,其中,块首内容“本院认为”是目录节点“本院认为”中的抽取规则表达式抽取到的;块首内容“经审理查明”是目录节点“本院查明”中的抽取规则表达式抽取到的。
可以看出“本院认为”作为块首内容分别在三个不同的段落的段首被抽出,其中,有两个位于“经审理查明”之前,另一个位于“经审理查明”之后。但是,在法院的判决书中,本院认为应该位于经审理查明之后,这就意味着位于“经审理查明”之前的两个“本院认为”并不是块首内容,是属于“经审理查明”之前的内容区块的内容,此时,如果直接执行步骤S132和步骤S133生成内容区块,生成的内容区块结果中就会包含三个与目录树中的“本院认为”对应的内容区块,而且其中两个还位于与目录树中的“本院查明”的内容区块之前,这显然是不正确的。
因此,本申请在步骤S137中,根据目录树中的目录节点的顺序,分析块首内容是否存在顺序错误。示例地,在本申请中示出的民事判决书的目录树中,目录节点的顺序是“本院查明”位于“本院认为”之前,而步骤S137中示出的判决书中,块首内容里出现了“本院认为”位于“经审理查明”之前的情况,这说明,块首内容存在顺序错误。
步骤S138,如果存在顺序错误,调整所述块首内容至正确顺序。
本申请中,调整区块内容至正确顺序的方式可以根据目录树中的目录节点的顺序,通过舍去顺序错误的块首内容或改变块首内容所在段落的位置等方式,调整所述块首内容至正确顺序。
示例地,根据民事判决书的目录树中,目录节点的顺序,舍去了步骤S137的示例中位于“经审理查明”之前的两个块首内容“本院认为”。
需要说明的是,本申请中的步骤S137和步骤S138还可以在步骤S132之后执行,当步骤S137和步骤S138在步骤S132之后执行时,步骤S138调整块首内容至正确顺序的方式可以是清除设置在顺序有错误的块首内容起始处的区块分割点。
需要说明的是,在步骤S131中,还会出现多个抽取表达式能够抽取到同一个块首内容的情况,此时,根据目录树中目录节点的顺序,仅记录在目录书中最靠前的抽取表达式抽取到的块首内容,设置当块首内容被抽取了一次以后,不会被再次抽取,从而使块首内容的抽取结果与目录树的目录节点的顺序相符合。
图6为本发明实施例提供的另一种规范文书处理方法的流程图,如图6所示,在一种可选择的实施方式中,步骤S140之前还可以包含步骤S139。
步骤S139,根据所述文书身份,从所述规范文书的所述内容区块中删除干扰内容。
规范文书按照约定俗成的编写格式和结构框架撰写,这其中会包含一些内容形式固定的段落,这些段落中有时会包含一些容易被要素表达式误以为是文书要素的词组或句式,因此,这些段落有时对于本申请提取文书要素的方法来说属于干扰内容,干扰内容会对文书要素的提取造成影响,因此,为了避免干扰内容影响文书要素的提取,本步骤中去除内容区块中的干扰内容,同时,还能减少步骤S140中的提取文书要素的数据处理量。
图7为本发明实施例提供的一种规范文书处理方法步骤S133的流程图,如图7所示,在一种可选择的实施方式中,步骤S133包含以下步骤:
步骤S1331,获取每个所述区块分割点对应的所述目录节点的节点层次。
由于,本申请中,根据规范文书的文档结构的不同,目录树的目录节点下还可以包至少一个子节点,即目录树中的目录节点可以有多个层次,因此,为了实现按照节点层次,有层次性地对规范文书进行切块处理,步骤S1331在对规范文书进行切块处理之前,首先获取每个区块分割点对应的目录节点的节点层次。以“购房贷款保险合同”的目录树作为示例,目录节点共包含两个节点层次,其中“合同信息”“提供的保障”等为第一层次,“保险责任”“责任免除”为第二层次,在与该目录树对应的购房贷款保险合同的规范文书中,区块分割点可以通过抽取表达式获取到与其对应的节点层次。
示例地,对某“购房贷款保险合同”设置区块分割点,并获取节点层次的部分示意性结果为:
<br1>保险财产
购房人通过……
<br2>责任范围:
由下面列明的原因引起的房屋物质损失和费用,保险公司负责赔偿:……
<br2>除外责任:
本公司对下列名项不负责赔偿:……
其中,带有下划线部分表示块首内容,<br1>和<br2>为区块分割点,<br1>表示第一层次的区块分割点,<br2>表示第二层次的区块分割点。
步骤S1332,根据所述节点层次,逐层次地对所述规范文书进行切块处理,逐层次地生成所述内容区块。
在步骤S1332中,首先在规范文书的第一层次的区块分割点进行切块,然后,再从第一层次的切块结果中,对包含第二层次区块分割点的内容进行切块,依次类推,实现逐层次地对规范文书进行切块处理,逐层次地生成内容区块。
需要说明的是,当规范文书的区块分割点具有多个层次时,本申请可以设置要进行切块处理的最低层次,位于最低层次以下的区块分割点不会参与切块处理,例如,当某规范文书的区块分割点包含第一至第五层次时,如果本申请设置要进行切块处理的最低层次为第三层次,那么,本申请在步骤S1332中,从第一层次,逐层切块处理到第三层次,对第四层次和第五层地的区块分割点,本申请就不会进行切割。从而,适当降低内容区块的数量。
图8为本发明实施例提供的一种规范文书处理方法步骤S139的流程图,如图8所示,在一种可选择的实施方式中,步骤S139包含以下步骤:
步骤S1391,根据所述文书身份,从所述内容区块中获取包含干扰词的疑似干扰内容。
由于,不同的规范文书由于编写格式不同,其干扰内容也不相同,因此,本申请根据文书身份,有针对性地从内容区块中删除干扰内容。可选择的一种方式为:可以对不同文书身份的规范文书设置去干扰模型,去干扰模型中可以包含干扰内容库,将与文书身份对应的常用干扰内容设置在干扰内容库中,然后与规范文书中的内容匹配,如果规范文书的某个段落的内容与干扰内容库相匹配,并且,在相匹配的段落中存在能够被预设提取规则提取成文书要素的干扰词,那么,该段落就为疑似干扰内容。
示例地,某判决书的部分内容示意如下:
裁判结果
一、准予原告X某与被告X某……;
二、……;
三、……。
上述款项,义务人如果未按判决书指定的期间履行给付金钱义务,应当依照《中华
人民共和国民事诉讼法》第二百五十三条之规定,加倍支付迟延履行期间的债务利息。权利
人可在本判决书确定的履行期限最后一日起二年内,向本院或与本院同级的被执行的财产
所在地人民法院申请执行。
其中,带有下划线的部分为在步骤S1391中干扰内容库匹配到的段落,在该段落中,“债务”会被当作文书要素提取,因此“债务”为干扰词,该段落为疑似干扰内容。
步骤S1392,分析所述干扰词是否存在于所述规范文书的其他位置。
由于,疑似干扰内中的干扰词“债务”会对本申请步骤S140中的提取文书要素的过程造成影响,例如,当规范文书的其他内容没有涉及到“债务”时,如果干扰内容中存在“债务”,那么,在步骤S140中,“债务”就会被当做文书要素提取出来,从而造成提取结果错误。因此,本申请在步骤S1392中,首先分析干扰词是否存在于规范文书的其他位置,如果存在,则疑似干扰内容不会对要素提取造成干扰,可不做处理。
步骤S1393,如果不存在,则确认所述疑似干扰内容为干扰内容,删除所述干扰内容。
本步骤中,如果干扰词不存在于规范文书的其他位置,说明该意思内容为干扰内容,应删除。示例地,步骤S1391中示出的为疑似干扰内容的段落,其包含的干扰词“债务”在规范文书的其余位置均为提及到,因此,该疑似干扰内容确定为干扰内容,删除掉。
需要说明的是,本申请中的去干扰模型还可以是机器学习模型,通过使用大量的干扰内容的段落,训练机器学习模型,使机器学习模型具备从未知的规范文书中发现干扰内容的能力。本申请中给出一种用机器学习模型发现并去除规范文书中干扰内容的技术思路,本领域技术人员可根据实际需求自行选择是否使用机器学习模型,对与使用机器学习模型的形式,本申请不做具体限定。
由以上技术方案可知,本发明实施例提供的技术方案,为了从规范文书中,获取完整的文书要素,首先,从规范文书中获取文书身份,文书身份至少包含文书性质;然后,根据文书身份,选择与规范文书对应的目录树,其中,目录书中至少包含一个目录节点,每个目录节点包含至少一个抽取表达式;然后,根据目录树,对规范文书进行切块处理,将规范文书切成至少一个内容区块,每个内容区块与目录树中的目录节点相对应,并根据目录节点的顺序,将切块处理后的规范文书以内容区块的形式显示,实现了对规范文书的结构化处理,使用户能够直观了解规范文书的内容结构;最后,根据预设提取规则,从内容区块中提取文书要素,从而实现从规范文书中,获取完整的文书要素。
本发明实施例还提供了一种规范文书处理装置,如图9所示,所述装置包括:
获取模块210,用于从规范文书中获取文书身份,所述文书身份至少包括文书性质。
选择模块220,用于根据所述文书身份,选择与所述规范文书对应的目录树;所述目录树包含至少一个目录节点,每个所述目录节点包含至少一个抽取表达式。
切块模块230,用于根据所述目录树,对所述规范文书进行切块处理,生成至少一个内容区块,每个所述内容区块对应所述目录树的一个所述目录节点。
提取模块240,用于根据预设提取规则,从所述内容区块中提取文书要素。
由以上技术方案可知,本发明实施例提供的技术方案,为了从规范文书中,获取完整的文书要素,首先,从规范文书中获取文书身份,文书身份至少包含文书性质;然后,根据文书身份,选择与规范文书对应的目录树,其中,目录书中至少包含一个目录节点,每个目录节点包含至少一个抽取表达式;然后,根据目录树,对规范文书进行切块处理,将规范文书切成至少一个内容区块,每个内容区块与目录树中的目录节点相对应,并根据目录节点的顺序,将切块处理后的规范文书以内容区块的形式显示,实现了对规范文书的结构化处理,使用户能够直观了解规范文书的内容结构;最后,根据预设提取规则,从内容区块中提取文书要素,从而实现从规范文书中,获取完整的文书要素。
本发明实施例还提供了一种规范文书处理系统,如图10所示,所述系统包括:
存储器310和处理器320;所述存储器310用于存储所述处理器320的可执行程序。
所述处理器320被配置为:
从规范文书中获取文书身份,所述文书身份至少包括文书性质;
根据所述文书身份,选择与所述规范文书对应的目录树;所述目录树包含至少一个目录节点,每个所述目录节点包含至少一个抽取表达式;
根据所述目录树,对所述规范文书进行切块处理,生成至少一个内容区块,每个所述内容区块对应所述目录树的一个所述目录节点;
根据预设提取规则,从所述内容区块中提取文书要素。
在一种可选择的实施方式中,本申请的一种规范文书处理系统可以设置在内置有存储器310和处理器320的终端设备中,终端设备可提供用于传输规范文书和数据的硬件传输接口或软件传输接口,并可支持通过互联网、有线局域网、无线局域网、蓝牙传输技术、近场通讯技术等方式传输规范文书或其他数据。终端设备可带有用于实现规范文书处理系统与用户之间交互和用于显示文书要素提取结果的显示输出设备,并支持通过上述方式输出要素提取结果的副本文件。
在一种可选择的实施方式中,本申请的一种规范文书处理系统可以设置在可以设置在内置有存储器310和处理器320的服务器中,服务器的处理能力强,能够实现对规范文书的批量处理、批量存储。此外,处理器可以与多个终端设备通过网络实现分布式连接,用户可使用终端设备向服务器发送规范文书,将规范文书交由服务器处理,并从服务器接收处理结果;也可在终端设备中,根据服务器给出的已处理的规范文书列表,检索并获取有价值的处理结果。
对于本申请提供的一种规范文书处理系统的其他应用形式,本申请不再赘述,本领域技术人员可以结合本领域的常用技术手段,利用其他可实现的方式应用或部分应用本申请提供的技术方案,均属于本申请的保护范围。
由以上技术方案可知,本发明实施例提供的技术方案,为了从规范文书中,获取完整的文书要素,首先,从规范文书中获取文书身份,文书身份至少包含文书性质;然后,根据文书身份,选择与规范文书对应的目录树,其中,目录书中至少包含一个目录节点,每个目录节点包含至少一个抽取表达式;然后,根据目录树,对规范文书进行切块处理,将规范文书切成至少一个内容区块,每个内容区块与目录树中的目录节点相对应,并根据目录节点的顺序,将切块处理后的规范文书以内容区块的形式显示,实现了对规范文书的结构化处理,使用户能够直观了解规范文书的内容结构;最后,根据预设提取规则,从内容区块中提取文书要素,从而实现从规范文书中,获取完整的文书要素。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。