CN111145052A

CN111145052A - 司法文书的结构化分析方法及系统

Info

Publication number: CN111145052A
Application number: CN201911364829.9A
Authority: CN
Inventors: 陈浩
Original assignee: Beijing Fayi Technology Co Ltd
Current assignee: Beijing Fayi Technology Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-05-12

Abstract

本发明提供了一种司法文书的结构化分析方法及系统。所述方法包括：对预先构建信息项模型中的复杂信息项，构建关系模型，构建专家规则库，创建带标注的司法文书样本集；以司法文书样本集为输入，以文本片的内容特征为依据，输出文书切片模型；提取来源于各切片或已提取的信息项，基于规则与统计混合NLP结构化技术，构建文书信息项模型；将文书的切片及文书信息项模型输出为XML结构化文档。本发明提供的司法文书的结构化分析方法及系统能够将结构化分析方法应用于多个不同种类的司法文书，扩大结构化分析方法在司法文书分析领域的覆盖面。

Description

司法文书的结构化分析方法及系统

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种司法文书的结构化分析方法及系统。

背景技术

裁判文书信息结构化是通过技术手段将裁判文书的关键信息以结构化提取、表达和存储，是机器读懂和应用裁判文书的关键技术。

申请号为201711338564.6的中国发明专利申请，涉及一种基于裁判文书的结构化处理方法，采用自然语言处理技术和高级机器学习技术，自动实现基于案由文本的关键词提取的案件类型分类，从而通过构建案件层次结构和设计的提取规则进行结构化处理，本发明通过相关词库的构建与扩展、裁判文书模块分割、设计确定聚簇数目K、初始聚类中心以及采用词语权重的增量作为第二特征选择来实现kmeans聚类算法的改进，并得到案例的类标签；根据不同案例类型创建不同层次框架，结合设计的提取规则，得到裁判文书的结构化处理。该发明通过基于关键词的文本分片方法，对分片局部进行精准关键词判断，在此基础上利用分片内部分词聚类的方法，获取裁判文书为单位的信息项提取结果。

申请号为201910237329.2的中国发明专利申请，首先以引入法律名称和司法相关专业性词汇表用于分词，并且进行人工复检来构建司法专业词汇标注表；然后通过将构建司法专业词汇标注词典和大规模的用户词典，进行分词，去除停用词等方法，获取词语；并且采集统计各类纠纷与案由的关键词搜索词汇，共同组成候选关键词；其次，加入标题词权重和词语全局性权重值方法修正候选关键词TF_IDF的权值，如果待提取的文档中未含有候选关键词，那么采用文档中每个词的TF_IDF归一化值作为TextRank算法初始权值输入，得到最终的词语权值。该发明可以较好地匹配司法文本数据，匹配性高，适用于大部分的司法文本数据；并且加快了提取速度，同时提取准确度高。

在针对一个信息项对象存在于图谱之中(比如犯罪金额归属于某个犯罪人的某个罪名之下)，并且出现多处关于该信息项具体结果值描述(一个犯罪金额或在裁判文书的多个部位都有描述，并且描述的结果可能还不一致)，需要通过对法官认定态度进行判断并输出最终法院认定结果的场景，不具有可行性。而在裁判文书开展法律数据分析、法律业务辅助时，更多的场景是指向上述情况，因此，上述发明的应用范围具有较大局限性。

发明内容

本发明要解决的技术问题是提供一种司法文书的结构化分析方法及系统，能够将结构化分析方法应用于多个不同种类的司法文书，扩大结构化分析方法在司法文书分析领域的覆盖面。

为解决上述技术问题，本发明提供了一种司法文书的结构化分析方法，所述方法包括：根据不同案件类型司法文书的书写规范与文书结构，按法院的业务标准，将文书由粗到细切分为多层级的文本切片，生成文书切片模型，其中，案件类型包括：刑事、民事、行政、执行、赔偿；分析法律标准和法院业务需求，确定司法文书中包含的信息项及信息项之间的隶属关系，生成文书信息项模型；对预先构建信息项模型中的复杂信息项，构建关系模型，构建专家规则库，创建带标注的司法文书样本集；以司法文书样本集为输入，以文本片的内容特征为依据，输出文书切片模型；提取来源于各切片或已提取的信息项，基于规则与统计混合NLP结构化技术，构建文书信息项模型；将文书的切片及文书信息项模型输出为XML结构化文档。

在一些实施方式中，在一些实施方式中，以司法文书为输入，以文本片的内容特征为依据，输出文书切片模型，包括：对文书的关键特征进行初步扫描，先识别出文书所属的案件类型以及文书类型，其中，关键特征包括：案号、文书类型、审判员；根据步骤识别的结果，分析引擎调用相应的切分规则和算法，进行一级文本片切分；分析引擎调用相应的切分规则和算法进行二级文本片的切分；根据信息项提取对段落切分颗粒度大小的要求，决定是否要进行细切；如果不需要细切，根据各文本片特征以及切片方法，将整篇文书进行层层切分后，以树状结构加入文书切片模型中。

在一些实施方式中，提取来源于各切片或已提取的信息项，基于规则与统计混合NLP结构化技术，构建文书信息项模型，包括：根据识别到的案件及文书类型，加载相应的专家规则及算法模型；采用NLP技术对切片中的句子进行分词、词性标注、句法依存分析，将切片按自然段、句子构建出树状结构；根据命名实体的类别，采用对应的识别算法识别命名实体；以专家规则和深度学习相结合的方式对非事实实体进行过滤；执行命名实体的指代消解和对齐；通过从不同句子分别构建实体三元组，最终组合成文本片的关系图，以识别出实体与实体之间的关系；根据三元组对象集合，以实体为节点、关系为边构建人-行为-实体等关系的有向图结构的三元组图谱，进而通过图的推理，识别出实体间距离更远的关系；各切片完成各自对应的信息项模型构建后，文书解析器将各逻辑段信息项模型组装成文书信息项模型。

在一些实施方式中，采用NLP技术对切片中的句子进行分词、词性标注、句法依存分析，将切片按自然段、句子构建出树状结构，包括：对司法文书内容进行预处理，清除干扰项；基于司法文书的常用表述，采用模式匹配的方式将句子进行压缩；以句子为单位，进行分词及词性标注；对分词及词性标注结果进行修正；对句子进行依存句法分析。

在一些实施方式中，以专家规则和深度学习相结合的方式对非事实实体进行过滤，包括：采用专家规则进行非事实实体过滤；采用深度学习进行非事实实体过滤。

在一些实施方式中，执行命名实体的指代消解和对齐，包括：构建人名、金额等实体的指代词库，采用模式匹配的方式，从句法依存关系中分析依赖成分缺失或指代的部份，进行前向搜索，以完成实体的补齐；执行相同实体的对齐。

在一些实施方式中，通过从不同句子分别构建实体三元组，最终组合成文本片的关系图，以识别出实体与实体之间的关系，包括：通过句法依存关系，识别出事件发生的主体及对象，提取使两个实体发生直接语义关联的三元组；通过事件行为字典库及指代消解，提取使两个实体发生隐性语义关联的三元组；根据实体出现位置的不同，将句子识别为不同的句型。

在一些实施方式中，根据三元组对象集合，以实体为节点、关系为边构建人-行为-实体等关系的有向图结构的三元组图谱，进而通过图的推理，识别出实体间距离更远的关系，包括：以罪名作为推理的出发点，在罪名与事件动词对应库中，查找出该罪下所有事件动词，通过事件动词可以将事件实体与罪名关联；在三元组图谱中，通过事件实体为起始点，利用图路径检索排序算法，计算出该罪名下所有关联的三元组对象；将该罪名下的三元组对象集合，进行合并、去重；过滤、补全三元组关系及实体属性；罪名包含多罪的情况下，修复行为冲突的判定规则；各被告人及各罪名下，对各种分类金额的汇总计算；根据司法文书的结构特点，不同逻辑片中信息项的优先级划分，进行信息项提取。

在一些实施方式中，将文书的切片及文书信息项模型输出为XML结构化文档，包括：获取预先设计的XML节点规范；按照信息项模型的层级结构创建XML结构化文档；依次创建逻辑节点的子节点；新创建的子节点所对应的信息项有下级信息项时，需要继续以该信息项节点为父节点，创建下级信息项所对应的子节点；重复执行下级信息项所对应的子节点的创建，直至所有的信息项创建了XML节点。

在一些实施方式中，根据不同类型司法文书的书写规范与文书结构，按法院的业务标准，将文书由粗到细切分为多层级的文本切片，生成文书切片模型，包括：总结司法文书书写规范和文书结构，将文书各段落按照逻辑关系划分出多层级的文本片；生成文书切片模型用以存储文书各逻辑段，每个逻辑段包含若干个细切片。

在一些实施方式中，分析法律标准和法院业务需求，确定司法文书中包含的信息项及信息项之间的隶属关系，生成文书信息项模型，包括：针对不同案件类型，分别结合文本片的内容与法院业务需求，确定可以在文本片中抽取的所有信息项；按照信息项的层级结构，构造信息项模型；各切片的信息项均组织为文书信息项模型。

此外，本发明还提供了一种司法文书的结构化分析系统，所述系统包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据前文所述的司法文书的结构化分析方法。

采用这样的设计后，本发明至少具有以下优点：

针对当前文书信息抽取准确性较低、覆盖面较窄等问题，应用司法领域垂直优化的NLP结构化技术，对文书进行结构化处理。结合司法文书半结构化的特征，利用基于规则的传统抽取技术，对司法文书进行高精度定位切片处理，并实现司法文书中部分核心信息的高精度结构化输出，在此基础上，结合基于深度学习的自然语言处理技术，对更具体的司法文书信息进行结构化输出。

附图说明

上述仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，以下结合附图与具体实施方式对本发明作进一步的详细说明。

图1是本发明实施例提供的司法文书的结构化分析方法的流程图；

图2是本发明实施例提供的刑事一审案件结案文书的判决结果段的效果图；

图3是本发明实施例提供的XML文档中主要逻辑段节点的示意图；

图4是本发明实施例提供的刑事一审判决结果段与涉案金额相关的信息项模型的结构示意图；

图5是本发明实施例提供的刑事一审裁判结果文本片对应XML结构示意图；

图6是本发明实施例提供的句法依存结构树的结构示意图；

图7是本发明实施例提供的三元组关系的示意图；

图8是本发明实施例提供的司法文书的结构化分析系统的结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

司法文书作为法官审理案件后输出的成果，包含了很多有价值的信息，同时司法文书作为一种半结构化的文本，以自然语言形态表述案情、法理，对于表述差异以及法院认定态度的语言差异，给文书中的信息项、信息项之间的关系提取带来了技术难度。本发明采用基于规则与统计混合NLP结构化技术，构建了一套面向司法文书的信息抽取方法。

针对司法文书的结构化处理主要是以司法文书书写规律与文书结构为基础，结合法律标准和法院业务需求，确定文书结构划分以及需要提取的信息项，设计文书信息项模型，研究法律领域自然语言处理技术，构建文书信息项模型，并将模型转化为XML结构化文档输出。

司法文书具有规范的书写格式与文书结构，本发明利用司法文书的这一特点设计并构造了文书分段模型，将裁判文书划分为七个逻辑段，以便于有针对性地对司法文书进行结构化处理。但是不同案件类型的逻辑段落中所包含的信息项是不同的。针对这个问题，本发明为各类案件设计了对应的文书信息项模型，并构建了对应的文书分析规则与算法，利用文书分析引擎对规则与算法进行解析后，能分别对各类案件进行结构化处理。需要抽取的文书信息项类型有多种，无法使用统一的方法进行抽取，针对这个问题，本发明提出了多种抽取方法以满足各类信息项的抽取需求。为使文书结构化有效地应用于法律业务中，采用XML文档作为文书结构化的输出载体。XML内容与应用分开，具有良好的复用性，数据可以被不同的应用程序加以利用。由于法院业务需求，需要在不同部门、不同程序之间传递司法文书信息，使用XML作为文书存储结构保证了结构化文书的普遍适用性，使法律文书中的信息可以按照法院业务需求在各种场景下适用。

本发明的目的在于针对司法文书，提出一种自动化方法将司法文书结构化，且保证结构化的司法文书可普遍适用于各类法律业务需求与司法文书研究。该方法以司法文书的书写规范和文书结构为基础，首先对司法文书进行切片处理，将文书由粗到细切分成多层级的文本片，构建文书切片模型。再以文书切片模型为输入，根据案件类型选择对应文书解析器，分别对不同切片进行解析，使用正则表达式、分词工具、语义分析、模式匹配、深度学习、知识推理的方法抽取信息项及信息项之间的关系，构造文书信息项模型，最终输出XML结构化文档。

本发明依据上述方法构建了一套文书分析引擎，该引擎是一套根据信息抽取规则和抽取算法构成的技术平台，包括平台、分类模型、规则、算法。

上述一种面向司法文书的文本信息抽取方法的详细工作流程如图1所示。

这里以一篇刑事贪污、受贿罪一审案件的裁判文书作为例子，对上述步骤分别进行实例描述。

1.司法文书通常是用WORD或WPS软件书写，且文书分段清晰，书写规范，具有明显的文书结构。通过大量阅读司法文书并总结其书写规律，本发明提出一种由粗到细结构化司法文书的方法，依据法院对文书书写规范的要求，将文书切分出多个文本片，并设计出文书切片模型，用以存储各个逻辑段落。具体步骤如下：

步骤(1.1)总结司法文书书写规范和文书结构，将文书各段落按照逻辑关系划分出多层级的文本片，例如对裁判文书的一级文本片进行分析，包括“文本首部”、“当事人段”、“诉讼记录段”、“案件基本情况”、“裁判分析过程”、“判决结果段”和“文本尾部”。

步骤(1.2)设计文书切片模型用以存储文书各逻辑段，每个逻辑段包含若干个细切片。根据每个段落所包含的细切片，设计文书切片模型，如图3所示，每个细切片内容用字符串类型存储,并以包含的内容给文本片命名，例如“当事人段”、“当事人细切段”，整个切片模型采用树状结构存储。

2.结合法律和法院业务需求，确定每个案件类型的文书所包含的信息项。本发明提取了刑事、民事、行政、执行、赔偿5大类92小类案件共5000个信息项。这里以贪污、受贿罪一审案件的判决结果段为例说明本步骤，判决结果段内容如图2所示，具体步骤包括：

步骤(2.1)结合文本片的内容与法院业务需求，确定可以在文本片中抽取的所有信息项；

步骤(2.2)信息项具有一定的组织关系和层级结构，按照信息项的层级结构，构造信息项模型，如图4，表示贪污、受贿罪一审判决段与涉案金额相关的信息项模型；

步骤(2.3)按照步骤(2.2)对所有切片设计信息项模型，各切片的信息项模型组织为文书信息项模型，部份信息项在多个切片中都会出现，需设计各切片中提取的优先顺序。

步骤(2.4)对刑事、民事、行政、执行、赔偿5大类案件，分别进行(2.1)、(2.2)、(2.3)步骤，每个案件类型都有一个相应的文书信息项模型。

3.以司法文书为输入，以切片内容特征为依据，输出文书切片模型。

具体步骤包括：

步骤(3.1)对文书的3个关键特征(案号、文书类型、审判员)进行初步扫描，先识别出文书所属的案件类型(刑事、民事、行政、执行、赔偿)以及文书类型(判决书、裁定书、通知书等)。

步骤(3.2)根据步骤(3.1)识别的结果，分析引擎调用相应的切分规则和算法，进行一级文本片切分。

步骤(3.3)在上一步骤的基础上，分析引擎调用相应的切分规则和算法进行二级文本片(不局限于自然段落)的切分，例如：“案件基本情况”是文书的主体部分，还可以细分为：诉请答辩段、举证质证段、事实证据段、审理查明事实段、争议焦点分析段。

诉请答辩段：包括原告方的诉讼请求内容以及被告方的答辩内容。

举证质证段：包括案件当事人的举证、质证情况。

事实证据段：包括当事人提出的诉请所依据的事实理由以及为主张该事实所提供的证据情况。

本审审理段：法院对案件的审理情况，包括法院查明的事实、对事实的认定与对证据的采纳情况。非一审案件还包含前审法院的审理情况，包括前审法院查明的事实、对事实的认定和对证据的采纳情况。

争议焦点分析段：案件中当事人双方对案件事实及法律问题存在的争议的焦点与法院的分析过程。

步骤(3.4)根据信息项提取对段落切分颗粒度大小的要求，决定是否要进行细切，如果需要层层细切，重复步骤(3.3)的过程。

步骤(3.5)根据步骤(3.1)到步骤(3.4)中的各文本片特征以及切片方法，将整篇文书进行层层切分后，以树状结构加入文书切片模型中。

4.以文书切片模型或已提取信息项模型为输入，信息项特征为依据，提取信息项内容，构建文书信息项模型,如图5所示。从信息项包含的属性来分析，可以将信息项分为简单信息项和复杂信息项，对于属性单一，从原文中可以直接提取或简单转换后，就能应用的信息项，称为简单信息项，例如，案由、罪名、法院名称等，比较容易从原文中提取，但由于历史沿革等因素，文书原文书写时会用简称或是当时的法律标准，针对此类信息项，本发明提供一种转换方法，通过附加字典表，并配置匹配规则进行识别，转换成现有法律规定的标准取值。

还有一类复杂信息项，需要识别信息项之间的关系，带有一定的语义理解。例如：在多人多罪的案件中，犯罪金额、量刑情节等信息项是与人、罪对应的，针对此类信息项，本发明提出了一种抽取方法，采用NLP、句法依存、专家规则、深度学习等技术，识别命名实体及命名实体的关系，构建出三元组，形成图关系，再进一步推理识别多个信息项之间的关系，具体步骤如下：

步骤(4.1)分析引擎根据步骤(3.1)中识别到的案件及文书类型，加载相应的专家规则及算法模型；

步骤(4.2)采用NLP技术对切片中的句子进行分词、词性标注、句法依存分析，将切片按自然段、句子构建出树状结构，一级节点是片，二级节点是自然段、三级节点是句子、四级节点是分词，每一级节点中按句子与分词以书写顺序存储，具体又分为以下步骤：

步骤(4.2.1)对司法文书内容进行预处理，清除干扰项，包括：文中含有的审签表、表格格式识别、文本非正常换行、连续换行符、全半角空格、空白行；

步骤(4.2.2)句子内容压缩,中文句子过长，语义成份增多，容易造成句子依存关系分析出现偏差，进而影响到实体关系识别的准确率。对句子内容压缩主要目的是在保持语法规范的前提下，不丢失句子的主要信息。本发明结合司法文书的特点，在长句子中，基于司法文书的常用表述，采用模式匹配的方式将句子进行压缩，降低依存关系分析偏差带来的噪音。

步骤(4.2.3)分词与词性标注，在对文本预处理及句子内容压缩后，以句子为单位，调用哈工大LTP工具，进行分词及词性标注。

步骤(4.2.4)对分词及词性的修正，由于分词及词性标注的准确率，对基于句法依存进行关系识别的效果影响较大，本发明采用了以下方法进行修正，具体步骤为：

①完善法律专有词库，补充到哈工大LTP工具的分词库中；

②通过上下文判定分词是否准确，例如对于人名识别的相关研究比较多，成果也比较成熟，本发明基于司法文书的特点，经过隐名的人名、利用当事人段已提取的准确人名，来判定其它段提取的人名是否有误、利用事件行为词库验证动词切分是否有错。

③一旦判定分词有错，则启动修正分词，由于人名、行为动词的分词错误会导致整个句子的句法依存关系完全产生混乱，本文提出以人名或行为动词替换的方式，指定一个或多个经过大量验证、识别准确率可靠的人名或行为动词来替代分词错误的人名或行为动词，并重新进行依存句法分析，分析成功后再将替代的人名重新恢复回原来的人名。

步骤(4.2.5)采用哈工大LTP工具对句子进行依存句法分析，通过对句子的主谓宾语构成部份的分析，为实体关系分析提供基础,如图6所示。

步骤(4.3)命名实体识别，可以把司法文书中要抽取的信息项，看作是法律领域的专有命名实体，对于不同实体的识别，采用以下不同的方法：

①对于日期、金额这类的实体，文字特征比较明显，采用正则表达式匹配识别的方法，能够得到精准的识别，对于小部份与金额相似的但不是正确的金额，可以在提取完的结果中，再加一层过滤规则排除掉。

②基于字典库的模式匹配，对于类似罪名、量刑情节、事件行为这一类的实体,有比较明确的定义，可以构建字典库加模式匹配的方式。

③基于分词语义识别，对于人名、作案工具这一类的实体，书写文字不确定，可通过深度学习，预训练命名实体识别模型或是利用业内成熟的成果。

步骤(4.4)命名实体分类,同一种命名实体，还需要进行属性分类，才能满足业务应用的需要，例如对于人名实体，在业务上需要分析出人的身份，是原告、被告、被害人、证人、辨护人，对于刑事案件中的金额，需要分析出是属于涉案金额、非法获利金额还是造成损失金额,以刑事涉案金额为例说明具体步骤：

①通过对定罪量刑的法律条文进行梳理，定义出金额实体的分类体系。

②基于NLP从句法依存关系提取金额的定中关系，作为金额名称，再通过对名称进行模式匹配，确定该金额的分类。

③基于NLP从句法依存关系提取金额的核心谓语支配关系，来确定金额的行为动词，再通过行为动词匹配金额的分类，例如“张某某侵占了5万元”，5万元就是侵占数额。

步骤(4.4)命名实体过滤，司法文书记载的是原告、被告之间或控辩双方之间的陈述，以及最后法院对双方事实的认定或不予认定，说明了这些逻辑片中识别出来的命名实体，不一定全是实际意义上的实体，需要通过一定的方法进一步确认，本发明采了用一种专家规则和深度学习相结合的方式对非事实实体进行过滤。下面以刑事案件中常出现的金额实体为例来说明。

步骤(4.4.1)首先采用专家规则进行过滤，具体过滤步骤：

①构建各罪名下的金额分类规则及过滤规则。

②识别出金额实体的出处：控辩双方的陈述、审理查明的事实或是法条引用中出现的金额。

③识别出法院对金额的认定态度，予以认定还是不予认定。

④利用专家规则对非事实金额或非涉案金额实体进行过滤。

具体规则例如：

1)引用法条中的金额不是事实金额，应从涉案金额实体列表中过滤掉。

2)法院不予认定的金额，不是事实金额，应从涉案金额实体列表中过滤掉。

3)辩护意见中的金额，不是事实金额，应从涉案金额实体列表中过滤掉。

4)各罪名下对金额实体的分类标签过滤规则，例如恶意透支信用卡罪，银行授予的信用卡透支额度与定罪量刑无关，需要过滤，而被告人透支的具体金额是需要保留涉案金额。

步骤(4.4.2)其次采用深度学习进行过滤。由于自然语言表述的差异，司法文书中存在着大量“非涉案金额”及“非事实金额”类型的金额实体，无法全部采用专家规则进行判别。涉案金额的过滤本质上属于二元分类问题，对于专家规则无法判别是否过滤的金额，本发明采用LSTM网络模型进行分类，属于过滤类的从命名实体中过滤。具体实现分为训练分类模型和应用分类模型两个环节，具体步骤：

①建立训练样本集：从大量司法文书中按各罪名的分布情况，抽出一定数量的与金额相关的片，标注上是否过滤的分类,作为训练样本集。

②分类模型训练：从样本中随机抽取80％的数据，进行分词，利用预训练语义模型BERT进行微调后，作为词向量输入，并进行池化后，设定词袋大小、损失率、迭代轮次等，加入一层LSTM网络模型进行训练。

③模型的评价与优化：用剩余的20％样本数据进行验证，优化金额过滤分类模型。

④模型应用：将模型应用到文本分析平台上，对于规则无法明确过滤的金额，用该模型计算过滤概率，超出预设阀值的金额从系统中过滤。

步骤(4.5)命名实体的指代消解与对齐。在自然语言表述中，经常会根据上下文省略句子的成份，在司法文书中对主语的省略、对主语或宾语的指代情形都较为普遍，对于同一实体在文中多次出现也普遍存在，这就涉及到对同一实体的对齐。

步骤(4.5.1)构建人名、金额等实体的指代词库，采用模式匹配的方式，从句法依存关系中分析依赖成分缺失或指代的部份，进行前向搜索，进行实体的补齐。

步骤(4.5.2)实体的对齐，例如刑事案件中对同一涉案金额在文书的不同位置重复提及，如果不进行对齐，就会被误判成多个金额，对金额进行汇总时将出现偏差。以金额为例说明对齐的规则：

①该金额实体上下文中有明确的指代词，则利用指代关系，对齐到前一个金额实体；

②如果没有指代词，则依据金额的数量、金额对应事件发生的时间、施事人、受事人、事件关联性这5个特征，来综合评价为同一金额实体的概率。

步骤(4.6)构建实体三元组,由于前述步骤中采用的NLP技术是基于句子级别的，关系的识别被限制在了单个句子中，本发明通过从不同句子分别构建实体三元组，最终组合成文本片的关系图，解决在句子间距离过远的情况下，仍能识别出实体与实体之间的关系。

步骤(4.6.1)显性关系提取，以事件行为词为核心谓语，通过句法依存关系，识别出事件发生的主体及对象，提取使2个实体发生直接语义关联的三元组，具体步骤为：

①通过事件行为字典库，找出行为动词Vt，作为事件实体；

②找出与行为动词发生SBV或FOB依存关系的实体1；

③找出与行为动词发生VOB依存关系的实体2；

④分别构成实体1、实体2与事件实体的三元组。

步骤(4.6.2)隐性关系提取，两个实体之间没有直接的行为动词，以及实体需要通过指代消解来识别的情形，提取使2个实体发生隐性语义关联的三元组的具体步骤为：

①通过事件行为字典库，找出行为动词Vt，作为事件实体；

②找出与行为动词Vt有COO并列关系的动词Vt1、Vt2…Vtn；

③找出与行为动词Vt1、Vt2…Vtn发生SBV或FOB依存关系的实体1；

④找出与行为动词Vt1、Vt2…Vtn发生VOB依存关系的实体2；

⑤找出与实体1有COO并列关系的实体11、实体12…实体1n；

⑥找出与实体2有COO并列关系的实体21、实体22…实体2n；

⑦通过指代字典库，找出与实体有指代关系的实体，考虑到跨句子的指代，本发明针对此类情形，提出了关系向前追溯的方法，将识别到的实体叠加到前一个三元组中；

⑧分别构成实体11、实体21与事件实体的三元组；

步骤(4.6.3)句型分类，司法文书中通常都以陈述句进行表述，但不同的句型表述，让命名实体出现的位置不同，进而对实体关系类型识别产生影响，本发明根据中文语法的结构特点，将司法文书中出现的句型划分为以下五类，以金额实体出现的位置为例：

1.普通陈述句型:在这类句子主干中实体出现的顺序为：人→事件→金额实体；

2.被动句型：在这类句子主干中实体出现的顺序为：金额实体→被→人→事件；

3.“把”字句型：在这类句子主干中实体出现的顺序为：人→将(把)→金额实体→事件；

4.“是”字句型：在这类句子主干中实体出现的顺序为：金额实体→是→人(PO)→事件；

5.“对”字句型：在这类句子主干中实体出现的顺序为：人→对→人→事件。

本发明以出现的介词来划分句型，再根据句型中实体出现的顺序来提取实体间的关系，进一步提升识别的准确率，具体步骤为：

①通过介词识别出句子所属的类型；

②中文常见的长句中，有多个句型的组合，通过事件行为词作为切分点，将一个句子细分为单个句型或多个句型组合，以及识别单个句型的影响范围；

③将句型分类作为一个输入特征，应用到实体关系识别，进一步提升识别的准确率。

步骤(4.6.3)主语成分选优，以事件词作为核心谓语词提取的方法中，通常人名是作为主语。直接通过句法依存分析结果，来提取主语成分，在句干清晰的情况下，效果比较理想，但在长句子的情况下，句法成分复杂，特别是内容中出现了多个人名，仅依赖句法依存关系，并不能有效识别出事件行为词的发出人，本发明通过一定的样本量，训练出主语判定的概率模型，具体的步骤为：

①按不同的罪名分布，筛选出一批样本,作为标注的训练样本集；

②对样本集进行文本的预处理、分词、句法依存分析；

③寻找合适的特征，通过对特征的筛选后，保留了句型分类、主语所在的叶子节点类型(主语大多数是左叶子节点，宾语大多数是右叶子节点)、主语与谓语之间的距离长度、主语所属的人身份、主语待选词的后一个词的词性这五个特征，作为主语选优的输入特征，采用SVM算法训练出主语判定的概率模型。

④利用该模型对语句中出现的人名实体是否构成主语进行择优选取。

步骤(4.7)图谱推理,在前一步骤的基础上，根据三元组对象集合，以实体为节点、关系为边构建人-行为-实体等关系的有向图结构的三元组图谱，将一份司法文书中的案件，抽取出的信息项构成了一张大图，进而通过图的推理，可以识别出实体间距离更远的关系，如图7所示。

步骤(4.7.1)以罪名作为推理的出发点，在罪名与事件动词对应库中，查找出该罪下所有事件动词，通过事件动词可以将事件实体与罪名关联；

步骤(4.7.2)在三元组图谱中，通过事件实体为起始点，利用图路径检索排序算法，计算出该罪名下所有关联的三元组对象；

步骤(4.7.3)将该罪名下的三元组对象集合，进行合并、去重；

步骤(4.7.4)过滤、补全三元组关系及实体属性，例如金额实体如果在前面的环节点未识别出类别，则在本环节中可以根据罪名下金额分类规则，通过事件行为与金额分类关系库，匹配出该金额具体的分类；个别罪名下，根据规则引擎，定义特殊罪名下金额过滤业务规则，通过该规则找出潜在冲突点，再根据不一致性验证结果，补全三元组关系。

步骤(4.7.5)多罪下，修复行为冲突的判定规则

1)根据规则引擎，定义交叉罪名业务规则，以定义罪名优先级为准；

2)同时出现相同的行为时，按不同罪下，事件动词优先级越高，就最大可能的归属该罪；

步骤(4.7.6)各被告人及各罪名下，对各种分类金额的汇总计算：

1)得到具体人、罪下所有金额三元组对象，按金额种类进行归类分组；

2)每个金额种类下的三元组，按三元组的每个逻辑片，做归类分组；

3)遍历每个逻辑片下的三元组集合，获取每个组的三元组列表，判断小计金额和明细金额；

4)汇总出每个罪名下，犯罪金额(又细分为既遂犯罪金额、未遂犯罪金额)、非法获利、造成损失；

步骤(4.7.7)根据司法文书的结构特点，不同逻辑片中对于情节等信息项的提取，置信度是有权重分别的，本发明按权重值对提取位置进行优先级划分，顺序分别是：

①裁判分析过程段或裁决理由段；

②本审审理段综述段；

③本审事实综述段或起诉事实段综述段；

④本审事实分述段或起诉事实段分述段；

⑤前审事实综述段或指控事实段综述段；

⑥前审事实分述段或指控事实段分述段。

优先级高的逻辑片中未提取到值时，则继续向优先级较低的下一个片中提取。

步骤(4.8)各切片完成各自对应的信息项模型构建后，文书解析器将各逻辑段信息项模型组装成文书信息项模型。

5.将文书信息项模型转化为XML结构化文档。由于文书信息项模型以数据结构的方式存储在系统中，不便于阅读、存储，而且文书信息项模型作为其他关于裁判文书的基础信息来源，必须满足普遍适用性，因此，需要将文书信息项模型存储为易于阅读、理解、传输的格式，本发明中采用XML文档格式，将文书信息项模型转化为XML结构化文档。

步骤(5.1)本发明设计了一种XML节点规范，用于表示文书信息项模型。每个信息项对应一个XML节点，节点名称统一名命为“<信息组>”，节点属性“name”取值为信息项中文名称，节点属性“value”取值为信息项内容；

步骤(5.2)按照信息项模型的层级结构创建XML结构化文档，如图5所示，一级节点下有案件信息、组织审判成员、当事人信息等；

步骤(5.3)依次创建逻辑节点的子节点，如图6所示，以判决结果为父节点，按照本发明提出的XML节点规范创建其子节点；

步骤(5.4)当步骤(5.3)中新创建的子节点所对应的信息项有下级信息项时，需要继续以该信息项节点为父节点，创建下级信息项所对应的子节点。

步骤(5.5)重复步骤(5.4)，直到为所有的信息项创建了XML节点，即完成了该逻辑段的XML文档创建，当所有逻辑段都完成对应XML文档创建时，就标志文书信息项模型已转化为XML结构化文档。

图8是本发明实施例提供的司法文书的结构化分析系统的结构图。参见图8，司法文书的结构化分析系统包括：中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM803中，还存储有系统操作所需的各种程序和数据。CPU801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，本领域技术人员利用上述揭示的技术内容做出些许简单修改、等同变化或修饰，均落在本发明的保护范围内。

Claims

1.一种司法文书的结构化分析方法，其特征在于，包括：

根据不同案件类型司法文书的书写规范与文书结构，按法院的业务标准，将文书由粗到细切分为多层级的文本切片，生成文书切片模型，其中，案件类型包括：刑事、民事、行政、执行、赔偿；

分析法律标准和法院业务需求，确定司法文书中包含的信息项及信息项之间的隶属关系，生成文书信息项模型；

对预先构建信息项模型中的复杂信息项，构建关系模型，构建专家规则库，创建带标注的司法文书样本集；

以司法文书样本集为输入，以文本片的内容特征为依据，输出文书切片模型；

提取来源于各切片或已提取的信息项，基于规则与统计混合NLP结构化技术，构建文书信息项模型；

将文书的切片及文书信息项模型输出为XML结构化文档。

2.根据权利要求1所述的司法文书的结构化分析方法，其特征在于，以司法文书为输入，以文本片的内容特征为依据，输出文书切片模型，包括：

对文书的关键特征进行初步扫描，先识别出文书所属的案件类型以及文书类型，其中，关键特征包括：案号、文书类型、审判员；

根据步骤识别的结果，分析引擎调用相应的切分规则和算法，进行一级文本片切分；

分析引擎调用相应的切分规则和算法进行二级文本片的切分；

根据信息项提取对段落切分颗粒度大小的要求，决定是否要进行细切；

如果不需要细切，根据各文本片特征以及切片方法，将整篇文书进行层层切分后，以树状结构加入文书切片模型中。

3.根据权利要求1所述的司法文书的结构化分析方法，其特征在于，提取来源于各切片或已提取的信息项，基于规则与统计混合NLP结构化技术，构建文书信息项模型，包括：

根据识别到的案件及文书类型，加载相应的专家规则及算法模型；

采用NLP技术对切片中的句子进行分词、词性标注、句法依存分析，将切片按自然段、句子构建出树状结构；

根据命名实体的类别，采用对应的识别算法识别命名实体；

以专家规则和深度学习相结合的方式对非事实实体进行过滤；

执行命名实体的指代消解和对齐；

通过从不同句子分别构建实体三元组，最终组合成文本片的关系图，以识别出实体与实体之间的关系；

根据三元组对象集合，以实体为节点、关系为边构建人-行为-实体等关系的有向图结构的三元组图谱，进而通过图的推理，识别出实体间距离更远的关系；

各切片完成各自对应的信息项模型构建后，文书解析器将各逻辑段信息项模型组装成文书信息项模型。

4.根据权利要求3所述的司法文书的结构化分析方法，其特征在于，采用NLP技术对切片中的句子进行分词、词性标注、句法依存分析，将切片按自然段、句子构建出树状结构，包括：

对司法文书内容进行预处理，清除干扰项；

基于司法文书的常用表述，采用模式匹配的方式将句子进行压缩；

以句子为单位，进行分词及词性标注；

对分词及词性标注结果进行修正；

对句子进行依存句法分析。

5.根据权利要求3所述的司法文书的结构化分析方法，其特征在于，以专家规则和深度学习相结合的方式对非事实实体进行过滤，包括：

采用专家规则进行非事实实体过滤；

采用深度学习进行非事实实体过滤。

6.根据权利要求3所述的司法文书的结构化分析方法，其特征在于，执行命名实体的指代消解和对齐，包括：

构建人名、金额等实体的指代词库，采用模式匹配的方式，从句法依存关系中分析依赖成分缺失或指代的部份，进行前向搜索，以完成实体的补齐；

执行相同实体的对齐。

7.根据权利要求3所述的司法文书的结构化分析方法，其特征在于，通过从不同句子分别构建实体三元组，最终组合成文本片的关系图，以识别出实体与实体之间的关系，包括：

通过句法依存关系，识别出事件发生的主体及对象，提取使两个实体发生直接语义关联的三元组；

通过事件行为字典库及指代消解，提取使两个实体发生隐性语义关联的三元组；

根据实体出现位置的不同，将句子识别为不同的句型。

8.根据权利要求3所述的司法文书的结构化分析方法，其特征在于，根据三元组对象集合，以实体为节点、关系为边构建人-行为-实体等关系的有向图结构的三元组图谱，进而通过图的推理，识别出实体间距离更远的关系，包括：

以罪名作为推理的出发点，在罪名与事件动词对应库中，查找出该罪下所有事件动词，通过事件动词可以将事件实体与罪名关联；

在三元组图谱中，通过事件实体为起始点，利用图路径检索排序算法，计算出该罪名下所有关联的三元组对象；

将该罪名下的三元组对象集合，进行合并、去重；

过滤、补全三元组关系及实体属性；

罪名包含多罪的情况下，修复行为冲突的判定规则；

各被告人及各罪名下，对各种分类金额的汇总计算；

根据司法文书的结构特点，不同逻辑片中信息项的优先级划分，进行信息项提取。

9.根据权利要求1所述的司法文书的结构化分析方法，其特征在于，将文书的切片及文书信息项模型输出为XML结构化文档，包括：

获取预先设计的XML节点规范；

按照信息项模型的层级结构创建XML结构化文档；

依次创建逻辑节点的子节点；

新创建的子节点所对应的信息项有下级信息项时，需要继续以该信息项节点为父节点，创建下级信息项所对应的子节点；

重复执行下级信息项所对应的子节点的创建，直至所有的信息项创建了XML节点。

10.根据权利要求1所述的司法文书的结构化分析方法，其特征在于，根据不同类型司法文书的书写规范与文书结构，按法院的业务标准，将文书由粗到细切分为多层级的文本切片，生成文书切片模型，包括：

总结司法文书书写规范和文书结构，将文书各段落按照逻辑关系划分出多层级的文本片；

生成文书切片模型用以存储文书各逻辑段，每个逻辑段包含若干个细切片。

11.根据权利要求1所述的司法文书的结构化分析方法，其特征在于，分析法律标准和法院业务需求，确定司法文书中包含的信息项及信息项之间的隶属关系，生成文书信息项模型，包括：

针对不同案件类型，分别结合文本片的内容与法院业务需求，确定可以在文本片中抽取的所有信息项；

按照信息项的层级结构，构造信息项模型；

各切片的信息项均组织为文书信息项模型。

12.一种司法文书的结构化分析系统，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1至11任意一项所述的司法文书的结构化分析方法。