CN111753538A

CN111753538A - 离婚纠纷裁判文书要素提取方法及装置

Info

Publication number: CN111753538A
Application number: CN202010536847.7A
Authority: CN
Inventors: 刘大双; 晋耀红; 李德彦; 张志一
Original assignee: Dingfu Intelligent Technology Co Ltd
Current assignee: Dingfu Intelligent Technology Co Ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-10-09
Anticipated expiration: 2040-06-12
Also published as: CN111753538B

Abstract

本申请公开了离婚纠纷裁判文书要素提取方法及装置，该方法首先根据预设的裁判文书目录结构，将离婚纠纷裁判文书切分成多个文本块，每个文本块对应于裁判文书目录结构中的一个目录标题；根据文本块对应的目录标题，从多个文本块中选择与待提取的目标要素对应的目标文本块，最后针对不同的目标文本块抽取不同目标要素的要素值。通过本申请方法，可以从离婚纠纷裁判文书中抽取完整的文书要素，便于相关人员通过文书要素了解离婚纠纷裁判文书。

Description

离婚纠纷裁判文书要素提取方法及装置

技术领域

本申请涉及文本处理技术领域，尤其涉及一种离婚纠纷裁判文书要素提取方法及装置。

背景技术

裁判文书是记载人民法院审理过程和结果等诉讼活动结果的载体，也是人民法院确定和分配当事人实体权利义务的唯一凭证。裁判文书通常具有规律的结构框架和编写格式，对于不同类型的裁判文书，其结构框架和编写格式可能略微不同。常见的文书类型包括民事裁判文书(如民事判决书)，刑事裁判文书(如刑事判决书)，行政裁判文书(如行政判决书)，以及其他通用诉讼文书等。

由于裁判文书中记载有审理过程和判决结果等重要信息，这些信息具有重要的分析和关注的价值，例如根据这些信息进行类案分析、案件检索等，因此从裁判文书中抽取出有价值的信息(即文书要素)成为相关领域内从业人士的基本需求。

离婚纠纷裁判文书是民事裁判文书中的一种，为了能够全面了解离婚纠纷裁判文书的内容，如何从离婚纠纷裁判文书中，抽取完整的文书要素，成为本领域技术人员亟待解决的技术问题。

发明内容

本申请提供离婚纠纷裁判文书要素提取方法及装置，以解决如何从离婚纠纷裁判文书中，抽取完整的文书要素的问题。

第一方面，本申请提供一种离婚纠纷裁判文书要素提取方法，所述方法包括：

获取离婚纠纷裁判文书；

根据预设的裁判文书目录结构，将所述离婚纠纷裁判文书切分成多个文本块，所述裁判文书目录结构包括多个目录标题，每个所述文本块对应一个所述目录标题；

根据所述文本块对应的目录标题，从所述多个文本块中选择与待提取的目标要素对应的目标文本块；

从选择的目标文本块中抽取所述目标要素的要素值。

第二方面，本申请还提供一种离婚纠纷裁判文书要素提取装置，所述装置包括：

文本获取模块，用于获取离婚纠纷裁判文书；

文本切分模块，用于根据预设的裁判文书目录结构，将所述离婚纠纷裁判文书切分成多个文本块，所述裁判文书目录结构包括多个目录标题，每个所述文本块对应一个所述目录标题；

选择模块，用于根据所述文本块对应的目录标题，从所述多个文本块中选择与待提取的目标要素对应的目标文本块；

要素抽取模块，用于从选择的目标文本块中抽取所述目标要素的要素值。

由以上技术方案可知，本申请提供一种离婚纠纷裁判文书要素提取方法，该方法首先根据预设的裁判文书目录结构，将离婚纠纷裁判文书切分成多个文本块，每个文本块对应于裁判文书目录结构中的一个目录标题；根据文本块对应的目录标题，从多个文本块中选择与待提取的目标要素对应的目标文本块，最后针对不同的目标文本块抽取不同目标要素的要素值。通过本申请方法，可以从离婚纠纷裁判文书中抽取完整的文书要素，便于相关人员通过文书要素了解离婚纠纷裁判文书。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请示例性示出的离婚纠纷裁判文书要素提取方法流程图；

图2为本申请示例性示出的离婚纠纷裁判文书要素提取装置框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

在司法领域中，裁判文书是用于记载人民法院审理过程和结果等诉讼活动结果的专用文书，其通常具有统一的结构组成和编写格式，每一部分组成(即文本区块)都对应一个内容主题，用于表征该部分所涵盖内容的主旨。

以民事判决书为例，其由头部信息、当事人信息、审理经过、诉讼方请求、被诉讼方辩解、争议焦点、证据目录、审理查明、法院观点、判决结果和尾部信息组成，前述每一主题对应的组成部分都具有特定的编写格式或者叙述方式，且每个组成部分都含有既定要素，例如头部信息必然包含“审理法院名称”、“案号”等等。

由于裁判文书中记载有审理过程和结果等重要信息，这些信息具有重要的分析和关注的价值，因此可以通过从裁判文书中抽取出有价值的信息来全面了解裁判文书。例如，了解案件类型、案号、审理法院名称、审理法院层级、地域、合议庭成员以及诸如受理时间、审理时间的时间要素等基本的文书要素。

离婚纠纷裁判文书是民事裁判文书中的一种，为了能够全面了解离婚纠纷裁判文书的内容，本申请实施例提供一种离婚纠纷裁判文书要素提取方法，图1为本申请根据一示例性实施例示出的该方法流程图，如图1所示，该方法可以包括：

步骤101，获取离婚纠纷裁判文书。

本申请中，离婚纠纷裁判文书可以为离婚纠纷一审判决书，如张某与李某离婚纠纷一审判决书。

步骤102，根据预设的裁判文书目录结构，将离婚纠纷裁判文书切分成多个文本块，裁判文书目录结构包括多个目录标题，每个文本块对应一个目录标题。

在一些实施例中，收集一定规模的离婚纠纷裁判文书数据集，学习并挖掘出离婚纠纷裁判文书的目录结构组成及每部分组成的编写特点，利用裁判文书的目录结构组成特点，搭建以目录结构组成中目录标题为目录节点的目录树，并利用每部分组成的编写特点，为每个目录节点设计抽取规则，如至少一个抽取表达式。使用目录节点对应的抽取规则，可以从离婚纠纷裁判文书中抽取与目录节点对应的文本块，即为与裁判文书目录结构中的目录标题对应的文本块。

在一些实施例中，目录节点顺序地列出了裁判文书中可能存在的文本块的内容主题，目录节点下的抽取规则用于从裁判文书中抽取出与该目录节点或者说内容主题对应的文本块，一个文本块包括一个或多个段落。

民事判决书

头部信息------------------<抽取表达式>

当事人信息---------------<抽取表达式>

审理经过------------------<抽取表达式>

诉讼方请求---------------<抽取表达式>

被诉讼方辩解------------<抽取表达式>

审理查明------------------<抽取表达式>

争议焦点------------------<抽取表达式>

法院观点------------------<抽取表达式>

判决结果------------------<抽取表达式>

尾部信息------------------<抽取表达式>

其中，“民事判决书”为根据文书类型选择的目录树的名称，“头部信息”等为该目录树包括的目录节点。

在一些实施例中，每个目录节点对应的抽取表达式用于抽取每个文本块的块首信息，进而可以根据块首信息确定每个文本块的起始位置，抽取相邻两个起始位置间的段落内容，可得到相应的文本块。

通过上述方法对某离婚纠纷裁判文书切块处理，得到示例性切分结果如下：

<头部信息>//

北京市XX区人民法院

民事判决书

(2018)京0105民初77967号

<当事人信息>//

原告：刘某，男，1983年10月31日出生，汉族，住北京市朝阳区。

委托诉讼代理人：张某，北京xx律师事务所律师。

被告：芦某，女，1985年4月25日出生，汉族，住北京市朝阳区。

委托诉讼代理人：夏某，北京xx律师事务所律师。

<审理经过>//

原告刘某诉被告芦某离婚后财产纠纷一案，本院立案受理后，本院立案后，…。本案现已审理终结。

<诉讼方请求>//

刘某向本院提出诉讼请求：1、芦某向我支付309 678元；2、诉讼费由被告承担。事实和理由：我与芦某…2012年11月，我与芦娟某共同申请购买了位于朝阳区和敬路x号院x号楼x号两限房，…我认为，芦某应将我已偿还的部分支付给我。若芦某要求分割房屋份额，我要求芦某给我缴纳契税和贷款-半的费用，并且给我装修款的一半。

<被诉讼方请求>//

芦某辩称，离婚判决中写有房屋分割和债务一并解决，我要求按份分割房屋，要求分割房屋的三分之二。

<证据目录>//

原告围绕诉讼请求依法提交了证据：

证据1，清单1，证明1；

证据2，清单2，证明2；

…

经法庭当庭质证、认证的下列证据予以证实：

证据1，认定结果1；

证据2，认定结果2；

…

<审理查明>//

本院经审理认定事实如下：…。

<争议焦点>//

芦某主张按份分割涉案房屋。芦某认为申请涉案房屋时系以家庭名义申请，考虑了双方女儿的因素，故芦某应享有三分之二的所有权。刘某认为虽然涉案房屋系以家庭名义申请，但主要考虑了其为转业军人的身份才得到摇号的资格。刘某另主张芦某偿还婚后由刘某个人支付的贷款、契税，并要求芦某支付一半的装修费用。

<法院观点>//

本院认为，根据有关法律规定,…。

<判决结果>//

判决如下：

自本判决生效之月起,…。

<尾部信息>//

在上述示例中，由于目录树的目录节点组成是依据裁判文书的区块组成设计得到，因此目录树的目录节点组成与裁判文书的区块组成相对应，通过目录树切分得到的每个文本块均与目录树中的一个目录节点对应，且通过目录节点名称可以获取到相对应的文本块的目录标题。

步骤103，根据所述文本块对应的目录标题，从所述多个文本块中选择与待提取的目标要素对应的目标文本块。

在一些实施例中，通过学习离婚纠纷裁判文书的数据结构特征，挖掘离婚纠纷案件的专业术语知识体系，如子女抚养分配、共同财产分配、感情破裂事由等等，根据挖掘出的专业术语知识体系设计离婚纠纷裁判文书的要素体系结构，该要素体系结构中包含多层级、多维度的文书要素信息，如诉讼请求、案件事实、争议焦点和判决结果等等。

在本申请实施例中，从预设的要素体系结构中选择要提取的文书要素，即目标要素。

通过学习及挖掘离婚纠纷裁判文书的数据结构特征，建立的示例性要素体系结构的如下：

诉讼请求

-诉讼请求列表

-被告是否同意离婚

-是

-否

-无

案件事实

-子女情况要素

-子女数量

-子女姓名

……

-年龄

-与原告关系String(继子女、亲生子女、养子女、婚生子女)

-与被告关系String(继子女、亲生子女、养子女、婚生子女)

-是否哺乳期

-是否未成年

-过去跟随当事人String(原告、被告)

-意愿跟随当事人String(原告、被告)

-意愿抚养方String(原告、被告)

-婚姻类型String(事实婚姻、合法婚姻)

-是否分居

……

-原告是否女方

-原告是否现役军人

-被告是否现役军人

-女方权益条件String(怀孕期间、分娩1年内、妊娠后6个月内、)

-共同财产

-共同债权债务

-是否多次起诉

-证据类要素

-原告举证

-举证表述

-举证细则

-证据编号

-证据清单

-证明事实

-被告举证

……

-原告质证

-质证表述

-质证细则

-证据编号

-质证结果

-质证意见

-被告质证

……

-法院认定要素

-证据表述

-认定细则

-证据编号

-证据提供方

-法院认定结果

-法院认定依据

争议焦点

-争议焦点列表

-争议焦点类别1

-争议焦点类别2

……

判决结果

-是否准予离婚

-子女抚养分配

-共同财产分配

……

可以理解的是，不同的文书要素可能包含在不同的文本块中，例如诉讼请求要素包含在目录标题为诉讼方请求的文本块中，子女情况要素包含在目录标题为当事人信息、诉讼方请求、被诉讼方辩解、审理查明和法院观点等一个或者多个文本块中。因此，可以根据具体的目标要素，选择包含目标要素的文本块作为分析目标，例如，当需要提取诉讼请求要素时，选择目录标题为诉讼方请求的文本块作为结构化的对象。

为便于区分与说明，根据目标要素选择的、包含目标要素的文本块定义为与目标要素对应的目标文本块。

在一些实施例中，预先建立目录标题与文书要素之间的预设对应关系，在已知待提取的目标要素的情况下，根据该预设对应关系即可选择出与目标要素对应的目录标题，进而确定包含目标要素的目标文本块。

本实施例中，目录标题与文书要素之间的预设对应关系，可以如下表所示：

需要说明的是，上述预设对应关系仅是一种示例性表示，其未包含要素体系结构中的全部层级及维度的要素，本领域技术人员可以依据该示例性表示，进一步完善和细化该预设对应关系。

步骤104，从选择的目标文本块中抽取所述目标要素的要素值。

为了能够从一个既定目标文本块中抽取出该目标文本块所包括的文书要素，本申请预先针对特定的文本块创建与其适配的要素树结构，以使用不同的要素树从不同的文本块中抽取不同的文书要素。其中，每个要素树包括至少一个要素节点，每个要素节点对应至少一个抽取规则，抽取规则用于从目标区块中抽取出与要素节点对应的文书要素。

基于此，在步骤104中，根据目标文本块和/或目标要素选择要使用的要素树，利用要素树中的要素节点，从对应的目标文本块中抽取各个要素节点对应的目标要素的要素值。

示例性的，对于子女情况要素，预先创建的要素树如下：

-子女情况要素

-子女数量---------------<抽取规则>

-子女姓名---------------<抽取规则>

-子女性别---------------<抽取规则>

-出生日期---------------<抽取规则>

-年龄---------------------<抽取规则>

-与原告关系-------------<抽取规则>

-继子女

-亲生子女

-养子女

-婚生子女

-与被告关系-------------<抽取规则>

-继子女

-亲生子女

-养子女

-婚生子女

-是否哺乳期-------------<抽取规则>

-是否未成年-------------<抽取规则>

-过去跟随当事人-------<抽取规则>

-原告

-被告

-意愿跟随当事人-------<抽取规则>

-原告

-被告

-意愿抚养方-------<抽取规则>

-原告

-被告

在一些实施例中，由于不同要素节点用于抽取不同的目标要素，因此每个要素节点对应的抽取规则不同，所述抽取规则可以为：定位规则、时间抽取规则或者规范化要素匹配规则。

其中，定位规则包括基于正则表达式的前置定位规则和后置定位规则，定位规则的主要原理是利用前置定位规则确定目标要素在目标文本块中的起始位置，利用后置定位规则确定目标文书要素在目标文本块中的结束位置。

在一些实施例中，利用前置定位规则确定目标要素在目标文本块中的起始位置，包括：利用前置定位规则识别目标要素的前置定位信息；根据前置定位信息确定目标要素在目标文本块中的起始位置。所述前置定位信息可以为特定的上文词或者上文语境，例如合议庭成员名称前的角色标签，还可以特定位置索引的中文字符或者非中文字符，例如以头部区块信息中第一个位置处中文字符作为“审理法院名称”的前置定位信息。

在一些实施例中，利用后置定位规则确定目标要素在目标文本块中的结束位置，包括：利用后置定位规则识别目标要素的后置定位信息；根据后置定位信息确定目标要素在目标文本块中的结束位置。所述后置定位信息可以为特定的后缀特征词，如“审理法院名称”的后缀特征词是“法院”或者“分院”，还可以为特定位置索引的非中文字符，如换行符号。

在一些实施例中，要素树中一个或多个要素节点对应的抽取规则为时间抽取规则，该时间抽取规则具体为至少一个时间抽取表达式，用于从审理经过区块等文本块中抽取时间要素，所述的时间要素如：包含在审理经过区块中的“起诉时间”、“受理时间”、“立案时间”、“审理时间”、和“审理周期”等，还包括分居时间等。

具体的，时间抽取表达式为支持各类日期结构类型的正则表达式，并且支持中文、阿拉伯数字、全/半角类型数值信息的识别。

为了提高抽取出的时间类要素的准确性，在一些实施例中，首先对时间类要素对应的文本块中的时间信息进行指代消解处理，然后再从指代消解处理后的文本块抽取出时间类要素的要素值。

在一些实施例中，要素树中一个或多个要素节点对应的抽取规则为规范化要素匹配规则。其中，规范化要素可以理解为裁判文书中必定以规范字/词表示的文书要素，比如当事人或者子女的性别要素必定以“男”或“女”等规范词表示。

具体实现时，根据目标规范化要素预设规范词集，规范词集中包括至少一个规范词。进而，可以将规范词集中的规范词与目标文本块进行匹配，然后根据匹配结果从目标区块中抽取文书要素。

在一些实施例中，目标要素对应的要素节点下具有至少两个子节点，每个子节点对应的一个该目标要素的类别标签，其实质为目标要素对应的要素节点的抽取结果的类别标签。针对性地对部分要素节点的抽取结果进行分类，实现了更细粒度的要素提取和分类，提高了要素识别和提取结果的准确性。

在一些实施例中，目标要素可以是诉讼请求要素，与诉讼请求要素对应的文本块的目标标题可以为诉讼方请求。参阅上述示例性的要素体系结构，诉讼请求要素具体可以包括诉讼请求列表和被告是否同意离婚，相应的，诉讼请求要素对应的要素树至少包括诉讼请求列表对应的要素节点和被告是否同意离婚对应的要素节点，其中，被告是否同意离婚对应的要素节点可以具有三个子节点，分别为“是”、“否”和“无”，其为被告是否同意离婚的节点抽取结果的类别标签。在上述实施例中，首先使用相应的要素节点从对应的目标文本块中抽取出诉讼请求信息文本，然后对抽取出的诉讼请求信息文本进行切分处理，得到一个或者多个独立诉讼请求项，该一个或者多个独立诉讼请求项即为诉讼请求列表的要素值。切分时，首先判断诉讼请求信息文本是否存在项目符号，如“1、”、“2、”等，若存在，则识别存在的项目符号，利用字符串分割方法，从诉讼请求信息文本中分离出独立诉讼请求项，若不存在，则直接根据句号和分号等分隔符号对诉讼请求信息文本进行切分。

示例的，从前述刘某与芦某离婚纠纷裁判文书中抽取的诉讼请求信息文本，及从诉讼请求信息文本中分离出的独立诉讼请求项如下：

诉讼请求信息文本：

原告张某1向本院提出诉讼请求：1、被告向我支付309 678元；2、诉讼费由被告承担。

独立诉讼请求项：

/被告向我支付309 678元/

/诉讼费由被告承担/

在上述示例中，独立诉讼请求项即为诉讼请求列表节点对应的结果。

另外，还需使用相应的要素节点从对应的目标文本块中抽取出被告是否同意离婚的表述文本，然后对抽取出的表述文本进行分类，并将第一预定值作为该表述文本命中的类别标签对应的子节点的要素值，将第二预定值作为该表述文本未命中的类别标签对应的子节点的要素值，例如，若表述文本命中“是”，则使用“True”对“是”进行赋值，使用“False”对“否”和“无”进行赋值。

在一些实施例中，目标要素可以为案件事实要素，案件事实要素进一步包括子女情况要素和其他事实要素，其中子女情况要素进一步包括子女基本情况要素和子女其他情况要素，由于子女其他情况要素属于需要分类的要素，因此子女其他情况要素对应的要素节点下设有至少两个子节点，每个子节点对应一个子女其他情况要素的类别标签，例如，子女其他情况要素包括可以子女与原告/被告关系、是否未成年/哺乳期、意愿跟随当事人等，其中，与原告/被告关系对应的要素节点下的子节点分别对应于继子女、亲生子女、养子女和婚生子女等类别标签，是否未成年/哺乳期对应的要素节点下的子节点分别对应于是、否两个类别标签，意愿跟随当事人对应的要素节点下的子节点分别对应于原告、被告。其他事实要素包括如共同财产、婚姻类型、是否分居、分居时间等，需要说明的是，其他事实要素中也包括需要分类的文书要素，对于此类其他事实要素，其对应的要素节点下也设有至少两个分别与类别标签对应的子节点，如是否分居对应的要素节点下设有是和否两个子节点。

在一些实施例中，按照下述步骤从相应的目标文本块中抽取子女情况要素：

首先，从所述子女情况要素对应的文本块中识别子女信息所在句；

其次，逐项分析每一子女信息所在句，使用相应的要素节点从子女信息所在句中抽取出子女情况要素；具体的，使用与子女基本情况要素对应的要素节点抽取子女基本情况要素，使用子女其他情况要素对应的要素节点抽取子女其他情况。

然后，对于子女基本情况要素，直接将相应要素节点的抽取结果作为要素值进行数据对象生成和保存，如，子女姓名、子女性别、子女年龄等。对于子女其他情况要素，需要对相应要素节点的抽取结果进行分类，以获取其命中的类别标签，并将第一预定值作为被命中的类别标签对应的子节点的要素值，将第二预定值作为未被命中的类别标签对应的子节点的要素值。如，对子女年龄对应的抽取结果进行分类，确定其是否属于未成年或者哺乳期，对与原告关系对应的要素节点抽取出的表述文本进行分类，确定其是为婚生子女或为养子女或为继子女或为亲生子女等，若无判断结果，则默认为婚生子女。

从上述实施例可以看出，通过对子女其他情况要素的进一步分类，因此实现了多维度、多层级的子女情况要素提取，例如子女年龄和是否未成年即为不同层级和维度的要素，是否未成年是对子女年龄进行分类得到的结果。这样，相关人员即可以了解到子女年龄，又可以直接了解到子女否未成年。

对于其他案件事实要素，根据具体的目标要素对应的要素树，使用要素树中的要素节点抽取要素结果。

示例性的，对于其他案件事实要素，预先创建的要素树结构如下：

-其他案件事实要素

-婚姻类型---------------<抽取规则>

-事实婚姻

-合法婚姻

-是否分居---------------<抽取规则>

-是

-否

……

-共同财产

-房屋信息

……

-共同债权

-共同债务

-是否多次起诉

-是

-否

在一些实施例中，目标要素还包括证据类要素，其对应目录标题为证据目录的文本块，(在其他目录结构组成中，证据类要素对应的文本块可以为标题为原告举证、被告举证、原告质证、被告质证及法院认定结果的文本块)。

在一些实施例中，证据类要素包括举证要素、质证要素和法院认证要素，举证要素包括原告举证要素和被告举证要素，质证要素包括原告质证要素和被告质证要素。

其中，举证要素包括举证证据编号、证据清单、证明事实和举证细则，举证细则包括至少一条举证条目，每条举证条目中包括按位序排列的证据清单要素和与证据清单要素位置相邻的证明事实要素各一项。具体的，通过相应的要素节点从相应的目标文本块中分别抽取出举证证据编号、证据清单、证明事实，然后根据举证证据编号、证据清单和证明事实在文本块中的位置索引，从“证据清单”开始，向后查找“证明事实”，到下一个“证据清单”为止，将按位序排列的证据清单要素和与证据清单要素位置相邻的证明事实要素各一项作为一个举证条目。

质证要素均包括质证证据编号、质证结果、质证意见和质证细则，质证细则包括至少一条质证条目，每条质证条目包括按位序排列的证据编号要素、与所述证据编号要素位置相邻的质证结果要素和与所述质证结果要素位置相邻的质证意见要素各一项；具体的，以“质证结果”为基础，向前查找“证据编号”，到前一个“质证结果”为止，向后查找“质证意见”，到下一个“质证结果”为止，将按位序排列的证据编号要素、与所述证据编号要素位置相邻的质证结果要素和与所述质证结果要素位置相邻的质证意见要素各一项作为一个质证条目。

法院认证要素包括证据编号、证据提供方、法院认定结果和法院认定依据细则，法院认定依据细则包括至少一条认证依据条目，每条认证依据条目包括按位序排列的证据提供方要素、与所述证据提供方要素位置相邻的证据编号要素和与所述证据编号要素位置相邻的法院认定结果要素各一项。具体的，以“法院认定结果”为基础，向前查找“证据提供方”和“证据编号”内容，到前一个“法院认定结果”为止，将按位序排列的证据提供方要素、与所述证据提供方要素位置相邻的证据编号要素和与所述证据编号要素位置相邻的法院认定结果要素各一项作为一个认证依据条目。

在一些实施例中，目标要素可以为争议焦点要素。参阅上述示例性的要素体系结构，争议焦点要素可以进一步包括争议焦点列表和至少一个争议焦点类别，争议节点列表中包括一个或者多个独立争议焦点项，每个独立争议焦点项在经分类后会命中一个或者多个争议焦点类别标签。相应地，争议焦点要素对应的要素树至少包括争议焦点列表对应的要素节点和争议焦点类别对应的要素节点，其中，争议焦点类别对应的要素节点下设有一个或者多个与争议焦点类别标签对应的子节点。

在一些实施例中，首先利用相应的要素树中指定的要素节点从相应的目标文本块中识别争议焦点信息文本，并对争议焦点信息文本进行切分处理，得到包含一个或者多个独立争议焦点项的争议焦点列表。然后逐一分析每一独立争议焦点项，以获取其命中的争议焦点类别标签，将第一预定值作为被命中的争议焦点类别标签对应的子节点的要素值，将第二预定值作为未被命中的争议焦点类别标签对应的子节点的要素值。

在一些实施例中，以已知类别的独立争议焦点项的文本数据作为训练样本，使用一定量的该训练样本训练得到基于神经网络模型的分类模型，使用训练得到的该分类模型对未知类别的独立争议焦点项进行分类。

示例性的，从前述芦某和刘某的离婚纠纷裁判文书中抽取的争议焦点信息文本，及从争议焦点信息文本中分离出的独立争议焦点项如下：

争议焦点信息文本：

独立争议焦点项：

/芦某主张按份分割涉案房屋/

/芦某认为申请涉案房屋时系以家庭名义申请，考虑了双方女儿的因素，故芦某应享有三分之二的所有权/

/刘某认为虽然涉案房屋系以家庭名义申请，但主要考虑了其为转业军人的身份才得到摇号的资格/

/刘某另主张芦某偿还婚后由刘某个人支付的贷款、契税，并要求芦某支付一半的装修费用/

在一示例性的离婚纠纷要素体系结构中，部分争议焦点类别如下：

-离婚纠纷争议焦点类别

-感情是否破裂

-是否存在家庭暴力

-子女由谁抚养

-财产分割

-债务分割

-债权分割

-共同财产如何处理

-共同债务如何处理

-共同债权如何处理

……

-房屋还贷

-房屋折价款

-房屋如何处理

示例性的，上述独立争议焦点项“/芦某主张按份分割涉案房屋/”命中的争议焦点类别标签至少包括“房屋如何处理”，将“/刘某另主张芦某偿还婚后由刘某个人支付的贷款、契税，并要求芦某支付一半的装修费用/”命中的争议焦点类别标签至少包括“房屋还贷”。并将第一预定值分别作为“房屋如何处理”和“房屋还贷”对应的子节点的要素值进行保存。

从上述实施例可以看出，争议焦点要素不仅包括由独立争议焦点项组成的争议焦点列表，还包括每一独立争议焦点项的一个或者多个类别标签，抽取出的争议焦点要素具有多层级、多维度的特点，例如，争议焦点列表和争议焦点类别属于不同层级的文书要素，而多个争议焦点类别之间则属于不同维度的文书要素。

在一些实施例中，目标要素还包括判决结果要素，判决结果要素包括是否准予离婚、子女抚养分配要素、共同财产分配等，其中，是否准予离婚进一步包括“是”和“否”两个类别，子女抚养分配要素进一步包括抚养方、负担年限、负担比例、金额、支付方式等，共同财产分配进一步包括房屋归属、车辆归属等。

具体实现时，对相应目录节点抽取出的判决结果文本信息进行分析，获取是否准予离婚的分类结果。若未获取到是否准予离婚的分类结果，则判断子女抚养分配对应的要素节点下是否存在具有抽取结果的子节点，若存在，则判定准予离婚。

示例性的，用于抽取子女抚养分配要素的要素节点组成如下：

-子女抚养分配要素

-抚养方

-负担年限

-负担金额

-负担比例

-支付方式

-支付方式1

-支付方式2

-是否准予离婚

-是

-否

从子女情况要素结果中筛选未成年子女信息，将未成年子女信息(如子女姓名)与判决结果信息文本进行字符串匹配，得到所有未成年子女信息在判决结果文本信息中的位置索引。

对于每一项子女分配抚养要素，使用相应要素节点对应的抽取规则抽取出相应的信息。判断抚养方节点是否具有抽取结果，若有抽取结果，说明判决结果中存在抚养方信息，获取抚养方节点的抽取结果，从中提取出包含当事人角色标签或者当事人姓名，如原告或者被告，作为抚养方的要素值。

在一些实施例中，本申请方法还包括：生成包含以目标要素对应的要素节点名称和/或子节点名称为字段名称的数据对象，使用要素节点名称和/或子节点对应的的要素值对数据对象进行赋值。

其中，对于以第一预定值或者第二预定值为要素值的节点，如争议焦点类别下的子节点、子女其他情况要素下的子节点或者判决结果要素下的子节点等，使用第一预定值或者第二预定值对包含相应子节点名称的数据对象进行赋值。

本实施例中，赋值后的数据对象即为对离婚纠纷裁判文书的结构化结果，每个数据对象中包含一个或者多个信息对，即Key(字段名称)：Value(字段属性)，如“子女性别：女”、“是否未成年：是”、“意愿抚养方：原告”“房屋归属被告：是”等等。

在一些实施例中，数据对象中与字段名称对应的字段值可以为空值。

由以上实施例可知，本申请提供一种离婚纠纷裁判文书要素提取方法，该方法首先根据预设的裁判文书目录结构，将离婚纠纷裁判文书切分成多个文本块，每个文本块对应于裁判文书目录结构中的一个目录标题；根据文本块对应的目录标题，从多个文本块中选择与待提取的目标要素对应的目标文本块，最后针对不同的目标文本块抽取不同目标要素的要素值。通过本申请方法，可以从离婚纠纷裁判文书中抽取完整的文书要素，便于相关人员通过文书要素了解离婚纠纷裁判文书。

根据上述实施例提供的离婚纠纷裁判文书要素提取方法，本申请还提供一种离婚纠纷裁判文书要素提取装置，如图2所示，该装置包括：

文本获取模块201，用于获取离婚纠纷裁判文书；文本切分模块202，用于根据预设的裁判文书目录结构，将所述离婚纠纷裁判文书切分成多个文本块，所述裁判文书目录结构包括多个目录标题，每个所述文本块对应一个所述目录标题；选择模块203，用于根据所述文本块对应的目录标题，从所述多个文本块中选择与待提取的目标要素对应的目标文本块；要素抽取模块204，用于从选择的目标文本块中抽取所述目标要素的要素值。

在一些实施例中，选择模块203具体用于：获取目录标题与文书要素的预设对应关系；根据所述预设对应关系选择与所述目标要素对应的目录标题；根据所述目标要素对应的目录标题，确定所述目标要素对应的目标文本块。

在一些实施例中，要素抽取模块204，具体用于：获取与所述目标要素对应的要素树，所述要素树包括与每个目标要素对应的要素节点和所述要素节点具有的抽取规则；利用所述要素树中的要素节点，从对应的目标文本块中抽取所述要素节点对应的所述目标要素的要素值。

在一些实施例中，所述目标要素对应的要素节点具有至少两个子节点，一个所述子节点对应一个所述目标要素的类别标签，所述装置还包括分类模块，用于：对所述目标要素的要素值进行分类，以获取所述要素值命中的类别标签；将第一预定值作为被命中的类别标签对应的子节点的要素值；将第二预定值作为未被命中的类别标签对应的子节点的要素值。

在一些实施例中，所述装置还包括数据对象生成模块，用于生成以所述目标要素对应的要素节点名称和/或子节点名称为字段名称的数据对象；使用所述要素节点名称和/或所述子节点名称对应的要素值对所述数据对象进行赋值。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种离婚纠纷裁判文书要素提取方法，其特征在于，所述方法包括：

获取离婚纠纷裁判文书；

从选择的目标文本块中抽取所述目标要素的要素值。

2.根据权利要求1所述的方法，其特征在于，所述根据文本块对应的目录标题，从所述多个文本块中选择与待提取的目标要素对应的目标文本块，包括：

获取目录标题与文书要素的预设对应关系；

根据所述预设对应关系选择与目标要素对应的目录标题；

根据所述目标要素对应的目录标题，确定所述目标要素对应的目标文本块。

3.根据权利要求1所述的方法，其特征在于，所述从选择的目标文本块中抽取所述目标要素的要素值，包括：

获取与所述目标要素对应的要素树，所述要素树包括与每个目标要素对应的要素节点和所述要素节点具有的抽取规则；

利用所述要素树从对应的目标文本块中抽取所述目标要素的要素值。

4.根据权利要求3所述的方法，其特征在于，所述目标要素对应的要素节点具有至少两个子节点，一个所述子节点对应一个所述目标要素的类别标签，所述从对应的目标文本块中抽取所述目标要素的要素值之后，所述方法还包括：

对所述目标要素的要素值进行分类，以获取所述要素值命中的类别标签；

将第一预定值作为被命中的类别标签对应的子节点的要素值；

将第二预定值作为未被命中的类别标签对应的子节点的要素值。

5.根据权利要求4所述的方法，所述从对应的目标文本块中抽取所述目标要素的要素值之后，所述方法还包括：

生成以所述目标要素对应的要素节点名称和/或子节点名称为字段名称的数据对象；

使用所述要素节点名称和/或所述子节点名称对应的要素值对所述数据对象进行赋值。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述目标要素包括诉讼请求要素，当所述目标要素为诉讼请求要素时，所述从选择的目标文本块中抽取所述目标要素的要素值，包括：

从所述诉讼请求要素对应的文本块中抽取诉讼请求信息文本；

对抽取出的所述诉讼请求信息文本进行切分处理，得到一个或者多个独立诉讼请求项。

7.根据权利要求1-5任一项所述的方法，其特征在于，所述目标要素包括争议焦点要素，所述争议焦点要素对应的要素节点包括一个或者多个与争议焦点类别标签对应的子节点；

当所述目标要素为所述争议焦点要素时，所述从选择的目标文本块中抽取所述目标要素的要素值，包括：

从所述争议焦点要素对应的文本块中识别争议焦点信息文本；

对识别出的所述争议焦点信息文本进行切分处理，得到包含一个或者多个独立争议焦点项的争议焦点列表；

获取每个独立争议焦点项命中的争议焦点类别标签；

将第一预定值作为被命中的争议焦点类别标签对应的子节点的要素值，将第二预定值作为未被命中的争议焦点类别标签对应的子节点的要素值。

8.根据权利要求1-5任一项所述的方法，其特征在于，所述目标要素包括子女情况要素，所述子女情况要素对应的要素节点包括与子女情况要素类别标签对应的子节点，当所述目标要素为子女情况要素时，所述从选择的目标文本块中抽取所述目标要素的要素值，包括：

从所述子女情况要素对应的文本块中识别子女信息所在句；

从识别出的子女信息所在句中抽取出所述子女情况要素的要素值；

获取所述子女情况要素的要素值命中的类别标签；

将第一预定值作为被命中的类别标签对应的子节点的要素值，将第二预定值作为未被命中的类别标签对应的子节点的要素值。

9.根据权利要求1-5任一项所述的方法，其特征在于，所述目标要素包括证据类要素，所述证据类要素包括举证要素、质证要素和法院认证要素；

所述举证要素包括举证证据编号、证据清单、证明事实和举证细则，所述举证细则包括至少一条举证条目，每条所述举证条目中包括按位序排列的证据清单要素和与所述证据清单要素位置相邻的证明事实要素各一项；

所述质证要素均包括质证证据编号、质证结果、质证意见和质证细则，所述质证细则包括至少一条质证条目，每条所述质证条目包括按位序排列的证据编号要素、与所述证据编号要素位置相邻的质证结果要素和与所述质证结果要素位置相邻的质证意见要素各一项；

所述法院认证要素包括证据编号、证据提供方、法院认定结果和法院认定依据细则，所述法院认定依据细则包括至少一条认证依据条目，每条所述认证依据条目包括按位序排列的证据提供方要素、与所述证据提供方要素位置相邻的证据编号要素和与所述证据编号要素位置相邻的法院认定结果要素各一项。

10.一种离婚纠纷裁判文书要素提取装置，其特征在于，所述装置包括：

文本获取模块，用于获取离婚纠纷裁判文书；