CN111310446A

CN111310446A - 裁判文书的信息抽取方法及装置

Info

Publication number: CN111310446A
Application number: CN202010042484.1A
Authority: CN
Inventors: 席丽娜; 王文军; 李德彦
Original assignee: Dinfo Beijing Science Development Co ltd
Current assignee: Dinfo Beijing Science Development Co ltd
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-06-19
Anticipated expiration: 2040-01-15
Also published as: CN111310446B

Abstract

本申请公开了裁判文书的信息抽取方法及装置，首先从裁判文书中获取目标区块，所述目标区块包括多个单元文本，每个单元文本包含一个实体对象的画像要素；然后确定每个单元文本对应的概念类属，并根据确定的概念类属选择单元文本对应的目标要素树；最后使用目标要素树从相应的单元文本中抽取实体对象的画像要素。通过本申请方法可以从裁判文书中自动化抽取出当事人和代理人的画像要素，从而帮助相关领域从业人员快速并准确地掌握当事人和代理人信息，有助于了解案情。

Description

裁判文书的信息抽取方法及装置

技术领域

本申请涉及文本处理技术领域，尤其涉及一种裁判文书的信息抽取方法及装置。

背景技术

裁判文书是记载人民法院审理过程和结果等诉讼活动结果的载体，也是人民法院确定和分配当事人实体权利义务的唯一凭证。裁判文书通常具有规律的结构框架和编写格式，对于不同类型的裁判文书，其结构框架和编写格式可能略微不同。常见的文书类型包括民事裁判文书(如民事判决书)，刑事裁判文书(如刑事判决书)，行政裁判文书(如行政判决书)，以及其他通用诉讼文书等。

由于案件当事人和当事人所委托的代理人是必要的诉讼参与人，也是审理过程和结果等信息所描述或针对的基本实体对象，因此包括当事人信息和代理人信息的实体对象信息(画像要素)是构成裁判文书的重要组成部分，快速并准确地掌握实体对象信息是了解案情的首要环节，因此从裁判文书中抽取出实体对象信息成为相关领域内从业人士的基本需求。

发明内容

本申请提供一种裁判文书的信息抽取方法及装置，以解决从裁判文书中抽取实体对象信息的问题。

第一方面，本申请提供一种裁判文书的信息抽取方法，所述方法包括：

从裁判文书中获取目标区块，所述目标区块包括多个单元文本，每个所述单元文本包含一个实体对象的画像要素；

获取所述裁判文书对应的角色标签集，根据所述角色标签集对所述目标区块进行切分，得到所述多个单元文本；

确定每个所述单元文本对应的概念类属；

根据确定的概念类属选择所述单元文本对应的目标要素树，所述目标要素树包括至少一个要素节点和所述要素节点对应的抽取规则，不同概念类属对应的要素树的节点组成不同；

使用所述目标要素树从相应的单元文本中抽取所述实体对象的画像要素。

第二方面，本申请还提供一种裁判文书的信息抽取装置，所述装置包括：

获取模块，用于从裁判文书中获取目标区块，所述目标区块由多个单元文本组成，一个所述单元文本包含一个实体对象的要素信息；

切分模块，用于获取所述裁判文书对应的角色标签集，根据所述角色标签集对所述区块进行切分，得到所述多个单元文本；

分类模块，用于确定每个所述单元文本对应的概念类属；

选择模块，用于根据确定的概念类属从预先构建的要素树中选择目标要素树，所述要素树包括至少一个要素节点和所述要素节点对应的抽取规则，不同概念类属对应的要素树的节点组成不同；

抽取模块，用于使用所述目标要素树从相应的单元文本中抽取所述实体对象的要素信息。

由以上技术方案可知，本申请实施例提供一种裁判文书的信息抽取方法及装置，首先从裁判文书中获取目标区块，所述目标区块包括多个单元文本，每个单元文本包含一个实体对象的画像要素；然后确定每个单元文本对应的概念类属，并根据确定的概念类属选择单元文本对应的目标要素树；最后使用目标要素树从相应的单元文本中抽取实体对象的画像要素。通过本申请方法可以从裁判文书中自动化抽取出当事人和代理人的画像要素，从而帮助相关领域从业人员快速并准确地掌握当事人和代理人信息，有助于了解案情。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请根据一示例性实施例示出的裁判文书的信息抽取方法流程图；

图2为图1所示实施例中的步骤100的细化流程示意图；

图3为图1所示实施例中的步骤200的细化流程示意图；

图4为本申请根据一示例性实施例示出的裁判文书的信息抽取装置框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

在司法领域中，裁判文书是用于记载人民法院审理过程和结果等诉讼活动结果的专用文书，通常具有统一的结构组成和编写格式。本申请涉及的裁判文书包括但不限于民事判决书和刑事判决书。

由于案件当事人及其代理人是必要的诉讼参与人，也是审理过程和结果等信息所描述或针对的基本实体对象，因此包括当事人信息和代理人信息的实体对象信息是构成裁判文书的重要组成部分，快速并准确地掌握实体对象信息是了解案情的首要环节，因此从裁判文书中抽取出实体对象信息成为相关领域内从业人士的基本需求。

本申请实施例提供一种裁判文书的信息抽取方法，适用于对裁判文书中实体对象的画像要素进行自动化抽取。图1为本申请根据一示例性实施例示出的裁判文书的信息抽取方法流程图。如图1所示，该方法可以包括：

步骤100，从裁判文书中获取目标区块，所述目标区块包括多个单元文本，每个所述单元文本包含一个实体对象的画像要素。

如前所述，裁判文书具有统一的结构组成和编写格式，每一部分组成(即文本区块)都对应一个内容主题，用于表征每一部分所涵盖内容的主旨。

以《民事判决书》为例，《民事判决书》由头部信息、实体对象信息、审理经过、诉讼方请求、被诉讼方辩解、争议焦点、证据目录、审理查明、法院观点、判决结果和尾部信息组成，前述每一主题对应的组成部分都具有特定的编写格式或者叙述方式，且每个组成部分都含有既定要素，例如实体对象信息必然包含诸如当事人及代理人的姓名/名称、性别、身份证号等画像要素等等。

一些现有的从裁判文书中抽取文书要素的方法中，是以裁判文书全文为分析目标，从中抽取单一或部分的文书要素，但是这种抽取方法不但容易提高分析计算复杂度，耗费大量不必要的计算资源。

为了避免上述问题，本申请利用裁判文书具有规律的结构组成且每个组成部分涵盖既定要素的特点，对待处理的裁判文书进行切块处理，并从切得的至少一个文本区块中选择包含实体对象画像要素的目标区块作为分析目标，从目标区块中抽取目标文书要素，以提高抽取结果的准确性。

图2为图1所示实施例中的步骤100的细化流程示意图，如图2所示，本申请实施例使用目录树从裁判文书中获取目标区块，具体可以包括：

步骤110，获取所述裁判文书的文书类型。

本申请中，裁判文书的文书类型包括文件类型，如判决书、裁定书、决定书等，还可以包括案件类型，如刑事、民事、行政等。对于不同文书类型的裁判文书，其结构组成可能略有差别，因此需要获取待处理的裁判文书的文书类型，以根据文书类型使用不同结构的目录树对其进行处理。

具体实现时，首先从裁判文书中获取文书名称，然后从文书名称中抽取类型关键词，不同的类型关键词表征不同的文书类型。由于裁判文书具有统一的撰写格式，而能够表征文书类型的文书名称记载在裁判文书的特定位置，例如上述《民事判决书》中“民事判决书”记载在第二行，因此可以在裁判文书的指定位置处获取文书名称。

另外，为了能够从文书名称中抽取出类型关键词，可以预先设置类型关键词集，再将类型关键词集中的类型关键词与文书名称进行匹配，根据匹配结果从文书名称中抽取类型关键词。例如，当在文书名称中匹配到“民事”和“判决”时，确定文书类型为民事判决书，当在文书名称中匹配到“刑事”和“判决”时，确定文书类型为刑事判决书。

步骤120，根据所述文书类型，选择所述裁判文书对应的目录树，所述目录树包括至少一个与所述内容主题对应的目录节点，每个所述目录节点对应至少一个抽取表达式。

本申请中，为了将完整的裁判文书切分成至少一个内容可被概括成通用内容主题的文本区块，预先根据既定文书类型的裁判文书的规律性结构组成、以及每一部分组成对应的内容主题，创建目录树结构。创建的目录树包括至少一个目录节点，每个目录节点对应至少一个抽取表达式。

在一些实施例中，目录节点顺序地列出了裁判文书中可能存在的文本区块的内容主题，目录节点下的抽取表达式用于从裁判文书中抽取出与该目录节点或者说内容主题对应的文本区块，一个文本区块包括一个或多个段落。

示例性地，一种可能的目录树结构如下：

民事判决书

头部信息------------------<抽取表达式>

实体对象信息---------------<抽取表达式>

审理经过------------------<抽取表达式>

诉讼方请求---------------<抽取表达式>

被诉讼方辩解------------<抽取表达式>

审理查明------------------<抽取表达式>

争议焦点------------------<抽取表达式>

法院观点------------------<抽取表达式>

判决结果------------------<抽取表达式>

尾部信息------------------<抽取表达式>

其中，“民事判决书”为根据文书类型选择的目录树的名称，“头部信息”、“实体对象信息”等为该目录树包括的目录节点。

步骤130，根据所述目录树对所述裁判文书进行切块处理，得到至少一个文本区块，每个所述文本区块对应所述目录树的一个所述目录节点。

在一些实施例中，每个目录节点对应的抽取表达式用于抽取每个文本区块的块首信息，进而可以根据块首信息确定每个文本区块的起始位置，抽取相邻两个起始位置间的段落内容，可得到相应的文本区块。

通过上述步骤130对某《民事判决书》进行切块处理，得到示例性切分结果如下：

<头部信息>//

河南省XX县人民法院

民事判决书

(2014)新民初字第164号

<实体对象信息>//

原告：黄XX，男，汉族，1970年11月15日出生。

委托代理人：吴XX，男，汉族，1958年1月6日出生。

被告：张XX，男，汉族，1979年2月27日出生。

委托代理人：蔡XX，河南XX律师事务所律师。

被告：李X，又名李XX，女，汉族，1987年10月6日出生。

委托代理人：邢XX，男，汉族，1981年11月22日出生。

被告：韩XX，女，汉族，1976年3月1日出生。

<审理经过>//

原告黄XX……本案现已审理终结。

<诉讼方请求>//

原告诉称……，请求法院依法判令……。

<被诉讼方请求>//

被告张XX辩称……；

被告李XX辩称……；

被告韩XX辩称……；

<证据目录>//

上述事实有诉讼方提交的，经法庭当庭质证、认证的下列证据予以证实：

一、…

…

<审理查明>//

经审理查明，被告人张XX因…。

<法院观点>//

本院认为，被告人张X…。

<判决结果>//

判决如下：

限本判决生效后十日内被告张XX支付原告黄XX借款……

如不服本判决，可在本判决书送达之日起十五日内，向本院递交上诉状，并按对方当事人的人数提出副本，上诉于河南省XX市中级人民法院。

<尾部信息>//

审判长高XX

人民陪审员管XX

人民陪审员贺X

二〇一四年四月二十六日

书记员鲁XX

在步骤130中，由于目录树的目录节点的组成是依据既定类型的裁判文书的区块组成设计得到，因此目录树的目录节点组成与裁判文书的区块组成相对应，通过目录树切分得到的文本区块与目录节点一一对应，且通过目录节点名称可以获取到相对应的内容区块的内容主题。

步骤140，根据每个所述文本区块对应的目录节点确定包含实体对象画像要素的文本区块为所述目标区块。

可以理解的是，不同用户意图获取的文书要素可能不同，而不同的文书要素可能包含在不同的文本区块中，例如审理法院名称、审理法院层级和地域等包含在头部信息区块中，审判长、审判员等合议庭成员则包含在尾部信息区块中，因此，根据想要关注或查看的目标文书要素的不同，可以根据可视化的目录节点选择包含该目标文书要素的目标区块，作为下一步抽取要素的分析目标。例如，当需要查看或获取审理法院名称时，选择头部信息区块作为目标区块。

由于本申请方法的目的是从裁判文书中抽取实体对象的画像要素，而实体对象的画像要素统一包含在目录节点“实体对象信息”抽取出的文本区块中，因此，确定“实体对象信息”对应的文本区块为目标区块。

本申请中，目标区块由多个实体对象分别对应的画像要素组成，且该多个实体对象对应的画像要素以一种约定俗成的编写格式记载在目标区块中。具体的，一个实体对象的画像要素包含在一段完整的文本描述中，该段完整的文本描述即为包含该实体对象画像要素的单元文本，多个实体对象所分别对应的多个单元文本依次罗列地记载在目标区块中。

以前述示例性《民事判决书》中的“实体对象信息”为例，该示例性目标区块包括7名实体对象，分别为原告、原告的委托代理人、三名被告以及两名被告的委托代理人。其中，原告和被告为当事人对象，原告的委托代理人和被告的委托代理人为代理人对象。为了便于区分与说明，本实施例依据三名被告在区块中的记载顺序，将该三名被告依次称为第一被告、第二被告和第三被告。

<实体对象信息>//

原告：黄XX，男，汉族，1970年11月15日出生。

委托代理人：吴XX，男，汉族，1958年1月6日出生。

被告：张XX，男，汉族，1979年2月27日出生。

委托代理人：蔡XX，河南XX律师事务所律师。

被告：李XX，又名李XX，女，汉族，1987年10月6日出生。

委托代理人：邢XX，男，汉族，1981年11月22日出生。

被告：韩XX，女，汉族，1976年3月1日出生。

其中，“原告：黄XX，男，汉族，1970年11月15日出生。”、“委托代理人：吴XX，男，汉族，1958年1月6日出生。”等分别为原告和原告的委托代理人对应的单元文本。并且，原告、原告的委托代理人、第一被告、第一被告的委托代理人、第二被告、第二被告的委托代理人以及第三被告对应的单元原本，在目标区块中依次罗列记载。

步骤200，获取所述裁判文书对应的角色标签集，根据所述角色标签集对所述目标区块进行切分，得到所述多个单元文本。

角色标签是实体对象在案件诉讼中所充当的角色类型的具象化表示，例如原告、被告等，案件涉及的多个角色类型所分别对应的角色标签则形成角色标签集，并且，由于不同类型案件涉及的角色类型组成不同，因此不同类型案件对应不同的角色标签集。例如，对于民事案件，主要包括原告、被告、委托代理人、法定代理人、指定代理人等；对于刑事案件，主要包括公安机关、检查机关、原告、被告、受害人、犯罪嫌疑人、辩护人等。

由于每个实体对象在案件诉讼中都对应一个角色，并且相应的角色标签必定包含在该实体对象对应的单元文本中，因此可以根据裁判文书对应的角色标签集，对目标区块进行切分，进而得到组成目标区块的多个单元文本。

基于此，步骤200具体可以包括图3所示步骤：

步骤210，获取所述裁判文书的文书类型。

步骤210的具体实现过程可以参见前述步骤110，此处不再赘述。

步骤220，根据所述文书类型确定所述裁判文书对应的角色标签集，所述角色标签集包括至少一个角色标签。

例如，预先收集每种裁判文书涉及的角色类型，确定每种角色的规范化的角色标签，进而组成相应的角色标签集，再将角色标签集与文书类型进行对应，从而可以在已知文书类型的情况下获得裁判文书对应的角色标签集。

示例性地，一种《民事判决书》对应的角色标签集如下：

{原告，被告，委托代理人，法定代理人，指定代理人}

步骤230，将至少一个角色标签逐一与所述目标区块进行匹配，确定每个单元文本的起始位置。

根据裁判文书对实体对象信息统一的编写可知，每个实体对象的角色标签都位于其对应的单元文本的段首位置，因此将某一角色标签与目标区块进行匹配，匹配成功的内容即为一个或多个单元本文的段首内容，进一步根据段首内容即可确定该一个或多个单元文本的起始位置，若将角色标签集中所有的角色标签均与目标区块进行匹配，即可得到每个单元文本的段首内容，进而可以确定每个单元文本的起始位置。

以上述示例性角色标签集和示例性目标区块为例，将该角色标签集中的角色标签逐一与该目标区块进行匹配，结果如下：

原告：黄XX，男，汉族，1970年11月15日出生。

吴XX，男，汉族，1958年1月6日出生。

张XX，男，汉族，1979年2月27日出生。

蔡XX，河南XX律师事务所律师。

李XX，又名李XX，女，汉族，1987年10月6日出生。

邢XX，男，汉族，1981年11月22日出生。

韩XX，女，汉族，1976年3月1日出生。

其中，采用单下划线“____”标注的内容为角色标签“原告”匹配到的段首内容，采用双下划线

标注的内容为角色标签“被告”匹配到的段首内容，采用波浪下划线

标注的内容为角色标签“委托代理人”匹配到的段首内容。

步骤240，以每个单元文本的起始位置为切分点，对所述区块进行切分，得到所述多个单元文本。

延用前述示例，根据每个单元文本的起始位置设置的切分点“n/”如下：

n/原告：黄XX，男，汉族，1970年11月15日出生。

n/

吴XX，男，汉族，1958年1月6日出生。

n/

张XX，男，汉族，1979年2月27日出生。

n/

蔡XX，河南XX律师事务所律师。

n/

李XX，又名李XX，女，汉族，1987年10月6日出生。

n/

邢XX，男，汉族，1981年11月22日出生。

n/

韩XX，女，汉族，1976年3月1日出生。

步骤300，确定每个所述单元文本对应的概念类属。

本申请从概念类属角度将实体对象划分为自然人、法人和其他组织机构。由于不同概念类属的对象对应的画像要素体系结构不同，因此，为了实现更加精准地从单元本文中抽取出实体对象的画像要素，本申请首先确定每个单元文本的概念类属。

例如，如果实体对象为自然人，则其画像要素的体系结构可以包括：姓名、年龄、性别、出生日期、籍贯、民族、政治面貌、身份证号、通讯地址、文化程度、工作单位、职务等等；如果实体对象为法人，则其画像要素的体系结构可以包括：法人名称、地址、注册号、法定代表人姓名、法定代表人职务等等；如果实体对象为其他组织机构，则其画像要素的体系结构可以包括：机构名称、地址、负责人姓名、负责人职务等等。

可见，不同概念类属的实体对象的画像要素的体系结构显著不同。在从单元文本中抽取画像要素之前，先行确定待处理的单元文本所描述的实体对象的概念类属，即该单元文本对应的概念类属，可以使后续的要素抽取流程更具针对性，简化计算，提高准确度。

由于不同概念类属对应的画像要素体系结构显著不同，使得每个概念类属都可以通过至少一个特征要素进行表征。例如，“性别”、“年龄”、“出生日期”等是唯有自然人类属才具有的特征要素，而“法定代理人”是唯有法人类属才具有的特征要素，“机构名称”则是唯有其他组织机构类属才具有的特征要素。

因此可以通过如下步骤确定单元文本对应的概念类属：

首先，从所述单元文本中抽取特征要素；然后，根据所述特征要素表征的概念类属确定所述单元文本对应的概念类属。

具体的，可以预设特征要素集，该特征要素集中包括用于表征每个概念类属的特征要素词，然后，将特征要素集中的每个特征要素词与单元文本进行匹配，从而抽取出单元文本中的特征要素。

一种示例性特征要素集为{性别，法定代表人，机构名称}，其中“性别”、“法定代表人”、“机构名称”分别为表征自然人、法人、其他组织机构的特征要素词；将这些特征要素词分别与单元文本进行匹配，若“性别”具有匹配结果，说明抽取出的特征要素为“性别”，而由于“性别”用于表征自然人，因此确定该单元文本对应的概念类属为自然人；若“法定代表人”具有匹配结果，说明抽取出的特征要素为“法定代表人”，而由于“法定代表人”用于表征法人，因此确定该单元文本对应的概念类属为法人。

需要说明的是，本领域技术人员可以根据需要预设或修改用于表征概念类属的特征要素，例如增加或删减特征要素，或者，针对同一特征要素设定多个不同的可以相互替代的特征要素词等等。另外，基于本申请记载的确定单元文本对应的概念类属的目的和意义，实际应用中还可以有多种确定单元文本对应的概念类属的实现方式，例如基于语义分析或正则表达式的实现方式。

步骤400，根据确定的概念类属选择所述单元文本对应的目标要素树，所述目标要素树包括至少一个要素节点和所述要素节点对应的抽取规则，不同概念类属对应的要素树的节点组成不同。

由于不同概念类属的实体对象的画像要素的体系结构不同，或者说，不同概念类属对应的单元文本所包含的画像要素不同，因此为了能够使信息抽取过程更具针对性，以简化计算、提高准确度，本申请预先针对每种概念类属创建与其适配的要素树结构，以使用不同的要素树从不同概念类属的单元文本中抽取出不同的画像要素。

基于此，在步骤400中，根据确定的概念类属选择单元文本对应的目标要素树。

示例性地，对于自然人类属，预先创建的要素树如下：

自然人

姓名------------------------<抽取规则>

性别------------------------<抽取规则>

年龄------------------------<抽取规则>

出生日期------------------<抽取规则>

籍贯------------------------<抽取规则>

联系方式------------------<抽取规则>

…

另一示例性地，对于法人类属，预先创建的要素树如下：

法人

名称------------------------------<抽取规则>

注册号---------------------------<抽取规则>

注册地址------------------------<抽取规则>

法定代表人---------------------<抽取规则>

法定代表人职----------------<抽取规则>

…

又一示例性地，对于其他组织机构类属，预先创建的要素树如下：

其他组织机构

组织机构名称---------------<抽取规则>

注册号------------------------<抽取规则>

负责人------------------------<抽取规则>

负责人职务------------------<抽取规则>

…

在一些实施例中，上述三种要素树的要素节点组成可以在同一个要素树结构中以不同父节点下的子节点组成的形成存在。

以下述要素树结构为例，其中，“自然人”、“法人”和“其他组织机构”的节点级别相同，可以称为父节点，用户可以根据单元文本对应的概念类属选择对应的父节点；“姓名”、“名称”和“组织机构名称”等的节点级别相同，均为父节点下的子节点。

自然人

姓名------------------<抽取规则>

…

法人

名称------------------------<抽取规则>

…

其他组织机构

名称------------------------<抽取规则>

…

步骤500，使用所述目标要素树从相应的单元文本中抽取所述实体对象的画像要素。

本申请实施例中，由于不同要素节点用于抽取不同的画像要素，因此每个要素节点对应的抽取规则不同，所述抽取规则可以为：定位规则、数字抽取规则、规范化要素的匹配规则或者对象关联规则。

在一些单元文本中，一些画像要素既没有规范化的结构，也没有规范化的内容，例如姓名、法人名称、组织机构名称、地址等。针对这类画像要素，因为用于分析的文本已经精准定位到单元信息粒度，因此上下文语境的优势变得突出。在单元文本中，针对这几类要素，能够提取出唯一的上下文语境特征。例如，姓名、法人名称、组织机构名称均是以实体对象的角色标签开始，以就近的标点符号结束。因此在提取这类结构、内容都比较灵活的要素信息时，利用角色标签，从单元文本中定位该类要素信息的起始位置，然后采用就近原则，截取至最近的标点符号结束，作为当前分析单元文本的姓名/名称要素进行提取、结构化。

类似的，地址信息通常以居住地、居住于、地址：、地址在等有规律可循的上文语境特征开始，通过识别这些上文语境特征，可以实现对地址信息的起始位置定位，通用采用就近标点符号定位尾部边界索引的方法，获取地址类要素信息，进行信息结构化操作。

基于此，本申请中，一些要素节点对应的抽取规则为定位规则，该定位规则包括基于正则表达式的前置定位规则和后置定位规则，定位规则的主要原理是利用前置定位规则确定画像要素在单元文本中的起始位置，利用后置定位规则确定画像要素在单元文本中的结束位置。

在一些实施例中，利用前置定位规则确定画像要素在单元文本中的起始位置，包括：利用前置定位规则识别画像要素的前置定位信息；根据前置定位信息确定画像要素在单元文本中的起始位置。所述前置定位信息可以为特定的上文词或者上文语境，例如位于单元文本段首位置的实体对象角色标签，或者地址类要素前的“居住于”、“居住地”的上文词。

在一些实施例中，利用后置定位规则确定画像要素在单元文本中的结束位置，包括：利用后置定位规则识别画像要素的后置定位信息；根据后置定位信息确定画像要素在单元文本中的结束位置。所述后置定位信息可以为特定位置索引的非中文字符。

结合前述《民事判决书》的内容，对利用定位规则从原告信息中抽取出原告的画像要素的具体实现方式予以说明，原告对应的单元文本如下：

原告：黄XX，男，汉族，1970年11月15日出生。

示例性地，使用自然人类属对应的要素树中要素节点“姓名”对应的抽取规则，从上述单元文本中抽取原告姓名，该抽取规则为定位规则，包括前置定位规则和后置定位规则。

具体的，利用前置定位规则识别角色标签“原告”，作为原告姓名的前置定位信息，进而确定原告姓名的起始位置；再利用后置定位规则识别就近的标点符号，作为原告姓名的后置定位信息，进而确定原告姓名的结束位置；最后，从单元文本中抽取前述确定的起始位置和结束位置之间的文本内容，得到原告姓名。

在一些单元文本中，一些画像要素实际为具有规范结构的数值类要素，如出生日期、年龄、身份证号、联系方式等。针对这类画像要素，可以根据其规范化的结构，设计并构建固定结构的数字的抽取表达式，即数字抽取规则，从而实现对指定结构的要素信息内容的抽取，进而实现该类要素的信息结构化。

基于此，本申请中，一些要素节点对应的抽取规则为数字抽取规则，使用目标要素树从相应的单元文本中抽取所述实体对象的画像要素，包括：利用所述数字抽取规则从所述单元文本中抽取数字要素，所述数字要素具有与所述数字抽取规则相符的结构组成。

在一些单元文本中，一些画像要素为规范化要素，如性别、民族、文化程度、职务等。这类画像要素的特点是，内容有至少一个规范词可依赖，通过采集或者直接构建规范词库，并采用信息匹配的方法，可精准识别对应的画像要素，实现该类要素信息的结构化处理。

基于此，本申请中，一些要素节点对应的抽取规则为规范化要素的匹配规则；使用目标要素树从相应的单元文本中抽取实体对象的画像要素，包括：根据规范化要素预设规范词集，规范词集中包括至少一个规范词；按照匹配规则将规范词集中的规范词分别与单元文本进行匹配；根据匹配结果从单元文本中抽取规范化要素，该规范化要素为规范化的画像要素，例如性别(男或女)、民族(如汉族、满足等)、文化程度(如初中、高中等)。其中，匹配规则可以是优先匹配或者顺序匹配。

当匹配规则为顺序匹配时，按照预设顺序依次从规范词集获取一个规范词，并将获取的一个规范词与目标区块进行匹配，若匹配成功，则不再从规范词集获取下一个规范词以结束匹配过程，若匹配成功则从规范词集获取下一个规范词以继续匹配过程，直到规范词集中不再有未被取到的规范词。

当匹配规则为优先匹配时，按照规范词集中每个规范词的优先级顺序从规范词集获取一个规范词，并将获取的一个规范词与目标区块进行匹配，若匹配成功，则不再从规范词集获取下一优先级的规范词以结束匹配过程，若匹配成功则从规范词集获取下一个级别规范词以继续匹配过程，直到规范词集中不再有未被取到的规范词。当规范词集中规范词的数量较多时，采用优先匹配规则可以减少匹配次数。

另外，在本实施例中，当实体对象为代理人对象时，还需要分析该代理人对象与当事人对象的关联关系，即该代理人对象为案件中哪一位或哪几位当事人对象的代理人。

为了解决该需求，一些要素节点对应的抽取规则为对象关联规则；使用目标要素树从相应的单元文本中抽取所述实体对象的画像要素，包括：当单元文本对应的实体对象为代理人对象时，利用对象关联规则识别代理人对象关联的至少一个当事人对象。

具体的，首先判断单元文本中是否包含表征当事人的指代信息。例如，“上述原告”、“上述被告”等指代信息，若存在指代信息，说明该代理人与多个当事人相关联，若不存在指代信息，说明该代理人仅与一个当事人相关联。

因此，如果单元文本中包含上述指代信息，则根据切分得到的所述多个单元文本的自然顺序，确定多个目标当事人对象；如果单元文本中不包含上述指代信息，则根据切分得到的所述多个单元文本的自然顺序，确定一个目标当事人对象。

多个单元文本的自然顺序即为单元文本在目标区块中的记载顺序。如果单元文本中包含上述指代信息，根据切分得到的多个单元文本的自然顺序，逐一获取位于该代理人对象的单元文本之前的连续当事人对象的单元文本，进而确定多个目标当事人对象。如果单元文本中不包含上述指代信息，则直接获取位于该代理人对象单元文本且紧邻该代理人对象单元文本的一个当事人对象的单元文本，进而确定一个目标当事人对象。

最后，将所述一个或者多个目标当事人对象与所述代理人对象关联。具体是将分别提取出的代理人名称与当事人名称进行关联。

由以上实施例可知，本申请实施例提供一种裁判文书的信息抽取方法，首先从裁判文书中获取目标区块，所述目标区块包括多个单元文本，每个单元文本包含一个实体对象的画像要素；然后确定每个单元文本对应的概念类属，并根据确定的概念类属选择单元文本对应的目标要素树；最后使用目标要素树从相应的单元文本中抽取实体对象的画像要素。通过本申请方法可以从裁判文书中自动化抽取出当事人和代理人的画像要素，从而帮助相关领域从业人员快速并准确地掌握当事人和代理人信息，有助于了解案情。

根据以上实施例提供的裁判文书的信息抽取方法，本申请还提供一种裁判文书的信息抽取装置，如图4所示，该装置可以包括：获取模块410，用于从裁判文书中获取目标区块，所述目标区块由多个单元文本组成，一个所述单元文本包含一个实体对象的要素信息；切分模块420，用于获取所述裁判文书对应的角色标签集，根据所述角色标签集对所述区块进行切分，得到所述多个单元文本；分类模块430，用于确定每个所述单元文本对应的概念类属；选择模块440，用于根据确定的概念类属从预先构建的要素树中选择目标要素树，所述要素树包括至少一个要素节点和所述要素节点对应的抽取规则，不同概念类属对应的要素树的节点组成不同；抽取模块450，用于使用所述目标要素树从相应的单元文本中抽取所述实体对象的要素信息。

在一些实施例中，每种概念类属预设有至少一个用于表征所述概念类属的特征要素；分类模块430包括：抽取单元，用于从所述单元文本中抽取特征要素；确定单元，用于根据所述特征要素表征的概念类属确定所述单元文本对应的概念类属。

在一些实施例中，所述要素节点对应的抽取规则包括数字抽取规则；抽取模块450具体用于，利用所述数字抽取规则从所述单元文本中抽取数字要素，所述数字要素具有与所述数字抽取规则规定的结构组成。

在一些实施例中，所述要素节点对应的抽取规则包括前置定位规则和后置定位规则；抽取模块450具体用于，利用所述前置定位规则识别所述画像要素的前置定位信息；利用所述后置定位规则识别所述画像要素的后置定位信息；分别根据所述前置定位信息和后置定位信息确定所述画像要素的起始位置和结束位置；根据所述起始位置和结束位置从所述单元文本抽取所述画像要素。

在一些实施例中，所述要素节点对应的抽取规则包括规范化要素的匹配规则；抽取模块450具体用于，按照所述匹配规则将至少一个预设规范词与所述单元文本进行匹配；根据匹配结果从所述单元文本中抽取规范化的画像要素。

在一些实施例中，所述实体对象包括当事人对象和代理人对象，所述要素节点对应的抽取规则包括对象关联规则；抽取模块450具体用于，当所述单元文本对应的实体对象为代理人对象时，利用所述对象关联规则识别所述代理人对象关联的至少一个当事人对象。

在一些实施例中，抽取模块450具体用于，判断所述单元文本中是否包含表征当事人的指代信息；如果包含，则根据切分得到的所述多个单元文本的自然顺序，确定多个目标当事人对象；如果不包含，则根据切分得到的所述多个单元文本的自然顺序，确定一个目标当事人对象；将所述一个或者多个目标当事人对象与所述代理人对象关联。

在一些实施例中，获取模块410包括：获取单元，用于获取所述裁判文书的文书类型；选择单元，用于根据所述文书类型，选择与所述裁判文书对应的目录树，所述目录树包括至少一个目录节点，每个目录节点对应至少一个抽取表达式；切块单元，用于根据所述目录树对所述裁判文书进行切块处理，得到至少一个文本区块，每个所述文本区块对应所述目录树的一个所述目录节点；确定单元，用于根据每个所述文本区块对应的目录节点确定包含实体对象画像要素的文本区块为所述目标区块。

在一些实施例中，切分模块420包括：获取单元，用于获取所述裁判文书的文书类型；确定单元，用于根据所述文书类型确定所述裁判文书对应的角色标签集，所述角色标签集包括至少一个角色标签；匹配单元，用于将所述至少一个角色标签逐一与所述目标区块进行匹配，确定每个单元文本的起始位置；切分单元，用于以每个单元文本的起始位置为切分点，对所述区块进行切分，得到所述多个单元文本。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的信息抽取方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种裁判文书的信息抽取方法，其特征在于，所述方法包括：

确定每个所述单元文本对应的概念类属；

2.根据权利要求1所述的方法，其特征在于，不同概念类属下的所述实体对象的画像要素组成不同，每种所述概念类属预设有至少一个用于表征所述概念类属的特征要素；

所述确定每个所述单元文本对应的概念类属，包括：

从所述单元文本中抽取特征要素；

根据所述特征要素表征的概念类属确定所述单元文本对应的概念类属。

3.根据权利要求1所述的方法，其特征在于，所述要素节点对应的抽取规则包括数字抽取规则；

所述使用目标要素树从相应的单元文本中抽取所述实体对象的画像要素，包括：

利用所述数字抽取规则从所述单元文本中抽取数字要素，所述数字要素具有与所述数字抽取规则规定的结构组成。

4.根据权利要求1所述的方法，其特征在于，所述要素节点对应的抽取规则包括前置定位规则和后置定位规则；

利用所述前置定位规则识别所述画像要素的前置定位信息；

利用所述后置定位规则识别所述画像要素的后置定位信息；

分别根据所述前置定位信息和后置定位信息确定所述画像要素在所述单元文本中的起始位置和结束位置；

根据所述起始位置和结束位置从所述单元文本抽取所述画像要素。

5.根据权利要求1所述的方法，其特征在于，所述要素节点对应的抽取规则包括规范化要素的匹配规则；

按照所述匹配规则将至少一个预设规范词与所述单元文本进行匹配；

根据匹配结果从所述单元文本中抽取规范化的画像要素。

6.根据权利要求1所述的方法，其特征在于，所述实体对象包括当事人对象和代理人对象，所述要素节点对应的抽取规则包括对象关联规则；

当所述单元文本对应的实体对象为代理人对象时，利用所述对象关联规则识别所述代理人对象关联的至少一个当事人对象。

7.根据权利要求6所述的方法，其特征在于，所述利用对象关联规则识别所述代理人对象关联的至少一个当事人对象，包括：

判断所述单元文本中是否包含表征当事人的指代信息；

如果包含，则根据切分得到的所述多个单元文本的自然顺序，确定多个目标当事人对象；

如果不包含，则根据切分得到的所述多个单元文本的自然顺序，确定一个目标当事人对象；

将所述一个或者多个目标当事人对象与所述代理人对象关联。

8.根据权利要求1所述的方法，其特征在于，所述从裁判文书中获取目标区块，包括：

获取所述裁判文书的文书类型；

根据所述文书类型，选择与所述裁判文书对应的目录树，所述目录树包括至少一个目录节点，每个目录节点对应至少一个抽取表达式；

根据所述目录树对所述裁判文书进行切块处理，得到至少一个文本区块，每个所述文本区块对应所述目录树的一个所述目录节点；

根据每个所述文本区块对应的目录节点确定包含实体对象画像要素的文本区块为所述目标区块。

9.根据权利要求1所述的方法，其特征在于，所述获取所述裁判文书对应的角色标签集，根据所述角色标签集对所述区块进行切分，包括：

获取所述裁判文书的文书类型；

根据所述文书类型确定所述裁判文书对应的角色标签集，所述角色标签集包括至少一个角色标签；

将所述至少一个角色标签逐一与所述目标区块进行匹配，确定每个单元文本的起始位置；

以每个单元文本的起始位置为切分点，对所述区块进行切分，得到所述多个单元文本。

10.一种裁判文书的信息抽取装置，其特征在于，所述装置包括：

分类模块，用于确定每个所述单元文本对应的概念类属；