CN112434531A

CN112434531A - 一种有格式法律文书的命名实体和属性识别方法及系统

Info

Publication number: CN112434531A
Application number: CN202011166609.8A
Authority: CN
Inventors: 赵银亮; 李郭超; 酒冲冲; 刘硕; 王晨心
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-03-02
Anticipated expiration: 2040-10-27
Also published as: CN112434531B

Abstract

本发明公开了一种有格式法律文书的命名实体和属性识别方法及系统，包括：构建随案电子卷宗有格式法律文书的实体类和实体类对应的属性集；对若干随案电子卷宗有格式法律文书进行归纳得到有格式法律文书的若干格式类别；对每个格式类别对应的有格式法律文书进行解析，得到法律文书内容；对法律文书内容利用格式匹配和词法规则，并结合实体类和实体类对应的属性集，识别出随案电子卷宗有格式法律文书中所有的命名实体和所有的属性；根据区域聚合，将每个命名实体与每个命名实体对应的属性进行匹配关联。本发明能够高效准确的解决刑事案由随案电子卷宗有格式法律文书的命名实体识别任务，且不用受限于刑事案由卷宗样本的稀缺性。

Description

一种有格式法律文书的命名实体和属性识别方法及系统

技术领域

本发明涉及自然语言处理领域，特别涉及一种有格式法律文书的命名实体和属性识别方法及系统。

背景技术

命名实体识别是自然语言处理中一项基础任务，目的是识别文本中属于预定义语义类型(如人名、地名、组织机构名、时间等)的基本信息单位(常被称为实体)。在一些应用场景下会给出特定领域内的实体，如犯罪嫌疑人、案由、证据等。中文命名实体识别顾名思义是对中文文本语料进行实体识别，通常包括实体边界识别和实体类型分类两个子任务。命名实体识别不仅是构建知识图谱的关键问题，也是问答系统等应用的基础。

刑事案由随案电子卷宗法律文书分为有格式和无格式，有格式文书包含了案件审理流程信息，无格式文书包含了案件事实描述信息。刑事案由随案电子卷宗无格式法律文书命名实体识别任务和一般的纯文本实体识别任务类似，可以使用基于有监督学习和基于弱监督学习的命名实体识别技术较好地解决。相比之下，目前针对刑事案由随案电子卷宗有格式法律文书实体识别任务的研究极少，如何高效准确地解决刑事案由随案电子卷宗有格式法律文书的命名实体识别任务，是本发明关注的重点问题。

发明内容

针对现有技术中存在的技术问题，本发明提供了一种有格式法律文书的命名实体和属性识别方法及系统，能够高效准确的解决刑事案由随案电子卷宗有格式法律文书的命名实体识别任务，且不用受限于刑事案由卷宗样本的稀缺性。

为了解决上述技术问题，本发明通过以下技术方案予以实现：

一种有格式法律文书的命名实体和属性识别方法，包括：

构建随案电子卷宗有格式法律文书的实体类和所述实体类对应的属性集；

对若干所述随案电子卷宗有格式法律文书进行归纳得到有格式法律文书的若干格式类别；

对每个所述格式类别对应的有格式法律文书进行解析，得到法律文书内容；

对所述法律文书内容利用格式匹配和词法规则，并结合所述实体类和所述实体类对应的属性集，识别出所述随案电子卷宗有格式法律文书中所有的命名实体和所有的属性；

根据区域聚合，将每个所述命名实体与每个所述命名实体对应的属性进行匹配关联。

进一步地，所述构建随案电子卷宗有格式法律文书的实体类，具体为：

根据司法流程确定整个案件中的阅卷时间点，再依次确定每个阅卷时间点上的阅卷目标；

根据每个所述阅卷时间点上的阅卷目标，得到每个阅卷时间点上阅卷人员需要的司法语义单位，所述司法语义单位组成所述实体类。

进一步地，所述对若干所述随案电子卷宗有格式法律文书进行归纳得到有格式法律文书的若干格式类别，具体为：

根据多套随案电子卷宗有格式法律文书得到随案电子卷宗有格式法律文书的特征，然后根据得到的随案电子卷宗有格式法律文书的特征对有格式法律文书进行分类，每一类属于一种自定义的文书解析格式，最终所得文书解析格式类别包括确定单一<名><值>格式、确定聚合<名><值>格式和确定归属<名><值>格式。

进一步地，采用pdf解析开源工具Pdfplumber对每个所述格式类别对应的有格式法律文书进行解析，得到法律文书内容。

进一步地，对所述法律文书内容利用格式匹配和词法规则，并结合所述实体类和所述实体类对应的属性集，识别出所述随案电子卷宗有格式法律文书中所有的命名实体和所有的属性，具体为：

对于所述确定单一<名><值>格式，直接提取出<名><值>对，然后利用枚举匹配确定<实体类><实体>和<属性类><属性>对；

对于所述确定聚合<名><值>格式，嵌套部分以表头为<名>，嵌套内容为<值>，以字典格式重新整理，得到<名><值>嵌套列表提取结果；随后进行枚举匹配，筛选出嵌套列表<属性类><属性>对，最终得到的结果嵌套内容作为实体的属性存在；

对于所述确定归属<名><值>格式，以下划线作为分隔符，对法律文书内容进行分割得到一个词列表，列表中，奇数下标的词作为<名>，其紧邻的偶数下标的词作为<值>，随后在实体类中查找该<名>，若存在，则该<名><值>对作为<实体类><实体>对。

进一步地，所述区域聚合包括有名归属聚合和匿名归属聚合，具体为：

对于有名归属聚合，有名归属聚合所针对的有格式文书由<实体>{<属性><属性值>}构成，所以可直接根据文书格式确定属性归属；

对于匿名归属聚合，当一个文本句只含有一个人名，直接将其属性判给被识别人名；

对于匿名归属聚合，一个文本句含有多个实体时，当实体与属性在同一个司法语义内共现，并且只有一个同类型实体时，属性属于该实体；当实体与属性之间距离较远且有多个同类型实体出现时，属性属于与之距离最近的实体。

一种有格式法律文书的命名实体和属性识别系统，包括：

构建模块，用于构建随案电子卷宗有格式法律文书的实体类和所述实体类对应的属性集；

归纳模块，用于对若干所述随案电子卷宗有格式法律文书进行归纳得到有格式法律文书的若干格式类别；

解析模块，用于对每个所述格式类别对应的有格式法律文书进行解析，得到法律文书内容；

识别模块，用于对所述法律文书内容利用格式匹配和词法规则，并结合所述实体类和所述实体类对应的属性集，识别出所述随案电子卷宗有格式法律文书中所有的命名实体和所有的属性；

匹配关联模块，用于根据区域聚合，将每个所述命名实体与每个所述命名实体对应的属性进行匹配关联。

与现有技术相比，本发明至少具有以下有益效果：本发明提供的一种有格式法律文书的命名实体和属性识别方法为刑事案由随案电子卷宗命名实体识别和应用工作提供了一个新的解决方案，方法简便，效率高，具体如下：

(1)相比于已有基于监督学习的命名实体识别方法，本发明所提供的方法不需要人工标注大量训练数据，节省了成本；

(2)相比于已有基于弱监督学习的命名实体识别方法，该方法较大地提高了刑事案由随案电子卷宗命名实体识别准确率；

(3)本方法基于构建的细粒度实体类以及刑事案由随案电子卷宗文书格式类进行刑事案由随案电子卷宗命名实体识别，方法简便、实体识别速度快、准确率高且不用受限于刑事案由卷宗样本的稀缺性。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式中的技术方案，下面将对具体实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种有格式法律文书的命名实体和属性识别方法的流程图；

图2是实施例中刑事案由随案电子卷宗中的一维表格示例；

图3是实施例中刑事案由随案电子卷宗中的冒号分隔片段序列示例；

图4是实施例中刑事案由随案电子卷宗中的下划线片段序列示例；

图5是实施例中刑事案由随案电子卷宗中的有名聚合表格示例；

图6是实施例中刑事案由随案电子卷宗中的匿名聚合表格示例；

图7是实施例中刑事案由随案电子卷宗中的<名>与最近的实体类相同序列示例；

图8是基于格式匹配和词法规则的实体识别方法示意图；

图9是实体属性归属判定方法示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

作为本发明的某一具体实施例，如图1所示，一种有格式法律文书的命名实体和属性识别方法，以刑事案由为例，用来解决刑事案由随案电子卷宗有格式法律文书的命名实体和属性体识别任务，包括：

步骤一、手工构建随案电子卷宗有格式法律文书的实体类和所述实体类对应的属性集，具体如下：

熟悉刑事案件的司法流程，根据司法流程确定整个案件中的阅卷时间点，再依次确定每个阅卷时间点上的阅卷目标；所述阅卷目标在司法阅卷流程中比较固定且明确，由使用系统阅卷人员给出；根据每个阅卷时间点上的阅卷目标，确定每个阅卷时间点上阅卷人员需要关注的司法语义单位，所述司法语义单位组成所述实体类；所述司法语义单位可以根据司法知识由阅卷目标明确得到，如：阅卷目标为明确犯罪事实，则阅卷人员需要关注的司法语义单位有：犯罪嫌疑人、案发时间、案发地、目击证人、被害人、被害人家属、作案工具等等。本实施例针对刑事案由随案电子卷宗构建了更细粒度的实体类层次和实体属性集，具体如表1和表2所示。

通过表1可知，刑事案由随案电子卷宗实体类分为：人名、组织机构、地点、时间、证据、刑罚、法律条文、罪名8大类，除了法律条文和罪名，其余6类都做了进一步的细化，获得细粒度实体类，最终形成实体类层次结构。

表1：刑事案由随案电子卷宗实体类

本实施例中，主要关注人名类实体、证据类实体和文书类实体的属性。如表2所示，人名类实体的属性主要包括：性别、出生日期、单位、职业、住址、联系方式、身份证件种类、身份证件号码；证据类实体的属性主要包括：编号、数量、特征、所在地；文书类实体的属性主要包括：文书编号、制作人。

表2：刑事案由随案电子卷宗属性集

步骤二、对若干随案电子卷宗有格式法律文书进行归纳得到有格式法律文书的若干格式类别，具体如下：

研读多套随案电子卷宗有格式法律文书，总结随案电子卷宗有格式法律文书特征，随后根据文书特征对有格式法律文书分类，每一类属于一种文书解析格式。

本实施例中，对刑事案由随案电子卷宗法律文书格式进行归纳得到三类文书格式，即格式类别包括确定单一<名><值>格式、确定聚合<名><值>格式和确定归属<名><值>格式，具体细化如表3所示。

表3：刑事案由随案电子卷宗格式类

其中，确定单一<名><值>格式包括一维<名><值>列表和<名><值>嵌套列表。一维<名><值>列表包括一维表格、冒号分隔片段序列和下划线片段序列，在刑事案由随案电子卷宗中的具体样例分别如图2、图3和图4所示。<名><值>嵌套列表主要对应<值>又为<名><值>列表，在刑事案由随案电子卷宗中的具体样例如图5所示，参阅图5可以看出，<报案人>的<值>也是<名><值>列表。

确定聚合<名><值>格式包括有名聚合和匿名聚合，有名聚合如图5所示，其中<姓名>、<性别>、<日期>可聚合为<报案人>的<值>；匿名聚合如图6所示，其中第一个<性别>、<出生日期>、<单位>和<律师执业证编号>可聚合为<申请人>的属性，相比有名聚合，匿名聚合的格式特征并不明显。

确定归属<名><值>格式是指<名>与最近的实体类相同，在刑事案由随案电子卷宗中的具体样例如图7所示，参阅图7，根据<值>最近的实体类来确定<值>的归属。

参照刑事案由随案电子卷宗文书模板，可以确定这三类文书格式覆盖了所有的刑事案由随案电子卷宗有格式文书。

步骤三、采用pdf解析开源工具Pdfplumber对每个格式类别对应的有格式法律文书进行解析，得到法律文书内容，具体如下：

有格式法律文书包括表格文书和下划线填空类文书，使用Pdfplumber工具能够提取有格式法律文书内容并保留文书格式。最终解析出的结果是：将法律文书内容组织为一个列表，里面包含了法律文书中所有<名><值>对。

步骤四、对法律文书内容利用格式匹配和词法规则，并结合实体类和实体类对应的属性集，识别出随案电子卷宗有格式法律文书中所有的命名实体和所有的属性，具体如下：

本实施例中，利用枚举匹配和词法规则得到实体和属性识别结果。如图8所示，具体的说，对于确定单一<名><值>格式，直接提取出<名><值>对，然后利用枚举匹配确定<实体类><实体>和<属性类><属性>对；具体来说，枚举匹配是一种查表行为，判断提取出的<名><值>对是否在步骤二所构建的实体集和属性集中。

对于确定聚合<名><值>格式，嵌套部分以表头为<名>，嵌套内容为<值>，以字典格式重新整理，得到<名><值>嵌套列表提取结果；随后进行枚举匹配，筛选出嵌套列表<属性类><属性>对，最终得到的结果嵌套内容作为实体的属性存在；

对于确定归属<名><值>格式，以下划线作为分隔符，对法律文书内容进行分割得到一个词列表，列表中，奇数下标的词作为<名>，奇数下标的词紧邻的偶数下标的词作为<值>，随后在实体类中查找该<名>，若存在，则该<名><值>对作为<实体类><实体>对。

上述枚举匹配是指：对每一个在文书内容列表中的<名><值>对，在实体类和实体属性集中查找此<名><值>对的<名>，若待查找<名>属于实体类或者实体属性集，便能够确定其实体类型或者属性类型；若<名><值>对不在实体类和实体属性集中，则该<名><值>对不是待识别实体和属性。

上述的词法规则是指：命名实体及其属性的Token对应的前缀词或后缀词，以及前缀和后缀格式。按照词法规则对电子卷宗中的<名>与最近的实体类相同序列先预处理，然后再借助枚举匹配识别实体和属性。

步骤五、根据区域聚合，将每个命名实体与每个命名实体对应的属性进行匹配关联，即确定每个命名实体对应的属性，具体如下：

区域聚合包括有名归属聚合和匿名归属聚合，其中，对于有名归属聚合，如图5所示，有名归属聚合所针对的有格式文书由<实体>{<属性><属性值>}构成，所以可直接根据文书格式确定属性归属；对于匿名归属聚合，需要利用最小共现单元和最近距离原则，其中最小共现单元是指：当实体与属性在同一个尽可能小的语法单位之内共现，并且只有一个同类型实体时，属性一般属于该实体。最近距离原则是指：当实体与属性之间距离较远且有多个同类型实体出现时，一般情况下，属性属于与之距离最近的实体。

如图9所示，具体的，对于匿名归属聚合，当一个文本句子只含有一个人名，直接将其属性判给被识别人名；

刑事案由随案电子卷宗有格式法律文书示例图如图2～图7，从图2～图7中，可以看到，无论是一类一维表格、冒号分隔片段序列、下划线片段序列，还是有名聚合、匿名聚合、<名>与最近的实体类相同序列，都可以抽象为<名><值>对列表，<名>是属于实体类或者实体属性集的，并且还可以看到，有名聚合列表和匿名聚合列表，聚合了实体和实体属性，属性的匹配可以通过格式决定。综上可以说明在刑事案由随案电子卷宗有格式法律文书中，命名实体是通过格式起到命名作用的。

本发明方法重在解决刑事案由随案电子卷宗有格式法律文书的命名实体识别任务，本发明的方法基于卷宗文书格式设计了对应的实体识别规则，识别更准确且不用受限于刑事案由卷宗样本的稀缺性。

一种有格式法律文书的命名实体和属性识别系统，包括：

构建模块，用于构建随案电子卷宗有格式法律文书的实体类和实体类对应的属性集；

归纳模块，用于对若干随案电子卷宗有格式法律文书进行归纳得到有格式法律文书的若干格式类别；

解析模块，用于对每个格式类别对应的有格式法律文书进行解析，得到法律文书内容；

识别模块，用于对法律文书内容利用格式匹配和词法规则，并结合实体类和实体类对应的属性集，识别出随案电子卷宗有格式法律文书中所有的命名实体和所有的属性；

匹配关联模块，用于根据区域聚合，将每个命名实体与每个命名实体对应的属性进行匹配关联。

本发明旨在利用刑事案由随案电子卷宗的格式，解决刑事案由随案电子卷宗有格式法律文书的命名实体识别任务。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种有格式法律文书的命名实体和属性识别方法，其特征在于，包括：

2.根据权利要求1所述的一种有格式法律文书的命名实体和属性识别方法，其特征在于，所述构建随案电子卷宗有格式法律文书的实体类，具体为：

3.根据权利要求1所述的一种有格式法律文书的命名实体和属性识别方法，其特征在于，所述对若干所述随案电子卷宗有格式法律文书进行归纳得到有格式法律文书的若干格式类别，具体为：

4.根据权利要求1所述的一种有格式法律文书的命名实体和属性识别方法，其特征在于，采用pdf解析开源工具Pdfplumber对每个所述格式类别对应的有格式法律文书进行解析，得到法律文书内容。

5.根据权利要求3所述的一种有格式法律文书的命名实体和属性识别方法，其特征在于，对所述法律文书内容利用格式匹配和词法规则，并结合所述实体类和所述实体类对应的属性集，识别出所述随案电子卷宗有格式法律文书中所有的命名实体和所有的属性，具体为：

对于所述确定聚合<名><值>格式，嵌套部分以表头为<名>，嵌套内容为<值>，以字典格式重新整理，得到<名><值>嵌套列表的提取结果；随后进行枚举匹配，即在构建的所述实体类和实体类对应的属性集中查询<名><值>嵌套列表的提取结果，筛选出嵌套列表<属性类><属性>对，最终得到的结果嵌套内容作为实体的属性存在；

对于所述确定归属<名><值>格式，以下划线作为分隔符，对法律文书内容进行分割得到一个词列表，所述词列表中，奇数下标的词作为<名>，奇数下标的词紧邻的偶数下标的词作为<值>，随后在实体类中查找该<名>，若存在，则该<名><值>对作为<实体类><实体>对。

6.根据权利要求5所述的一种有格式法律文书的命名实体和属性识别方法，其特征在于，所述区域聚合包括有名归属聚合和匿名归属聚合；

对于有名归属聚合，所述有名归属聚合所针对的有格式文书由<实体>{<属性><属性值>}构成，所以可直接根据文书格式确定属性归属；

7.一种有格式法律文书的命名实体和属性识别系统，其特征在于，包括：