CN107632968B

CN107632968B - 一种面向裁判文书的证据链关系模型的构建方法

Info

Publication number: CN107632968B
Application number: CN201710376342.7A
Authority: CN
Inventors: 葛季栋; 周业茂; 孔思圆; 李忠金; 李传艺; 周筱羽; 骆斌
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2017-05-22
Filing date: 2017-05-22
Publication date: 2021-01-05
Anticipated expiration: 2037-05-22
Also published as: CN107632968A

Abstract

本发明是一种面向中文裁判文书的证据链关系模型构建方法，构建方法的流程如图所示，主要包括以下步骤：针对中文裁判文书进行文本预处理；读取处理后的XML格式文件提取出证据链体集合和事实集合；根据4W1H关键要素提取策略获得每个证据链体及事实的关键词集合；通过计算关键要素关联度构造证据链关系模型中的联结完成模型构建；将构建出的模型生成为Excel表格；将结构化模型显示为可视模型。本发明主要针对法律裁判文书说理评估中的证据链关系模型构建任务，根据裁判文书说理的特征和法院文书词汇的特点，改善裁判文书预处理方法，优化关键要素提取技术，提高证据链中联结的计算正确率，能够有效运用于评估裁判文书的事实说理水平。

Description

一种面向裁判文书的证据链关系模型的构建方法

技术领域

本发明涉及一种裁判文书说理分析技术，具体涉及一种面向裁判文书的证据链关系模型构建方法，属于自然语言处理技术领域。

背景技术

裁判文书的说理技术研究主要基于对证据链的提取与分析，研究遵循法言法语及文书说理(带有法律术语特征的语言)的自然语言处理技术，抽取裁判文书说理的关键语段和证据，逆向构建证据链和文书说理逻辑关系，并通过计算机程序绘制可视化的证据链与文书说理逻辑图。对于历史大数据的处理，需要引入Hadoop或Spark等大数据处理技术部署该抽取算法，保持较高的处理效率。

案件中由多个证据、证据间关系及证据与事实关联构成的集合称为证据链。关于证据链的研究由来已久，Bentham在《Rationale of Judicial Evidence》一书中根据各种不同司法证据的案例透彻的分析了司法举证的合理性，并提出了构建合理证据链的指导。上海市人民检察院第二分院法律政策研究室的陈为钢的《刑事证据链研究》是国内对于证据链研究的代表作，定义了证据链的链节、链头、链体和联结点等基本概念，并提出了证据链的简单联结、多重联结和网状联结等多种不同的联结形态。

对法律文书的研究主要限于相关法律专业人士，直到1970年Buchanan发表的《关于人工智能和法律推理若干问题的考察》标志着人工智能与法律作为研究分支的诞生。该文讨论了法律推理模型的可行性，借助于计算机编程提出判决建议模型、法律分析并强调了类推的重要性。近年来随着人工智能算法和自然语言处理技术再一次成为热潮，国内外涌现出很多自动分析法律文书语义及证据信息的研究。2007年Bex， F.J.在文章《Formalising argumentative story-based analysis of evidence》中提出形式化的、论证性的、基于故事的证据分析方法，该方法将证据与事实表达为因果性网络，为案件事实的判定提出启发式的解释，使用可替代的事实解释引导进一步的证据收集，为证据强弱程度的分析打下基础。2011年Keppens J在《On Extracting Arguments from BayesianNetwork Representations of Evidential Reasoning》中提出从贝叶斯网络中提取论证图的方法；因为贝叶斯网络可以精确地、全面地表现出推理假设和争议证据之间的关系，所以贝叶斯网络是分析法律文书说理逻辑的一个重要途径；协同使用贝叶斯网络和论证图可以结合两者的优点，实现可量化的、可视的证据推理关系图。

裁判文书中证据、事实信息的书写具有一定的规范，但是每个证据链关系模型有其特殊之处存在很多不确定性，比如证据链节的链头数量无法估量，所以并不能直接将现有的建模方式和无监督的机器学习运用到模型的构建中。针对这个问题，本专利运用面向裁判文书特征的自然语言处理技术进行文本预处理，然后采用先提取关键要素再计算关联度的方法来实现证据链头的计算，为证据链节之间、证据与事实之间建立关联。在计算证据链头时采用哈希算法，哈希算法的原理是抽样，就是提取信息的特征，与证据链头计算的目标是一致的。哈希算法是一种单向密码体制，是一个不可逆的映射，哈希函数可以将任意长度的输入经过变化以后得到固定长度的输出，如果输入数据中有变化，则哈希也会发生变化。哈希表是根据设定的哈希函数H(key)和处理冲突方法将一组关键字映射到一个有限的地址区间上，并以关键字在地址区间中的象作为记录在表中的存储位置，作为线性数据结构与表格和队列等相比，哈希表无疑是查找速度比较快的一种。

发明内容

本发明是一种面向裁判文书的证据链关系模型构建方法，主要针对法律裁判文书说理评估中的证据链关系模型构建任务，根据裁判文书说理的特征和法院文书词汇的特点，提出一种裁判文书文本预处理方法，提出一种4W1H关键要素的提取策略，并提出一种构造证据链关系模型中联结的方法。实现针对性地改善裁判文书预处理方法，优化关键要素提取技术，提高证据链中联结的计算正确率，使得证据链关系模型构建能有效运用于评估裁判文书的事实说理水平。

本发明所属的一种面向裁判文书的证据链关系模型构建方法，包括以下步骤：

步骤(1)针对中文裁判文书进行自动化文本预处理，将非结构化的裁判文书转换成半结构化的XML格式文件；

步骤(2)读取处理后的半结构化XML格式文件提取出证据链的证据链体集合和事实集合；

步骤(3)根据4W1H关键要素提取策略，获得每个证据链体及每个事实的关键词集合；

步骤(4)通过计算关键要素关联度构造证据链关系模型中的联结点，针对没有关联点的证据构建与事实的关联关系；

步骤(5)通过计算关键要素关联度构造证据链关系模型中的证据链头，针对每个证据构建相互之间的印证关系；

步骤(6)将构建出的证据链关系模型生成为Excel表格；

步骤(7)将结构化的证据链关系模型显示为可视模型。

具体而言，步骤(1)对非结构化的裁判文书进行预处理，具体包括以下步骤：

(1.1)根据需要解析的文书的类型，使用相应的方法对文书文本逐段提取并进行分析，将非结构化的文书转换成半结构化的XML格式文件，XML格式文书中主要包含“文首”、“当事人”、“诉讼记录”、“案件基本情况”、“裁判分析过程”、“判决结果”和“文尾”七个主段落；

(1.2)分析XML格式文书中“案件基本情况”段落下的“证据段”中关于质证情况的描述，为证据标记采信情况；

(1.3)针对没有严格书写规范的民事文书和行政文书，分析XML格式文书中“案件基本情况”段落下的“事实段”的描述，将整段事实分解成数条独立事实，并将每条事实写入一个“认定事实”节点。

步骤(2)中读取处理后的半结构化XML格式文书，具体包括以下步骤：

(2.1)读取XML格式文书中的“认定事实”节点生成事实集；

(2.2)读取XML格式文书中事实所在分组中的“证据信息”节点生成有事实关联点的证据集；并读取 XML格式文书中没有“认定事实”节点的分组中的“证据信息”节点生成无事实关联点的证据集。

步骤(3)中对事实集和证据集中的信息进行文本预处理并提取4W1H关键要素，具体包括以下步骤：

(3.1)对事实及证据信息进行分词，并分析语句依存结构关系，辅助使用正则表达式，提取关键要素 What，即信息中涉及到的事物；

(3.2)使用正则表达式从事实及证据信息中提取关键要素When，即信息中涉及到的时间；

(3.3)对事实及证据信息进行分词，并分析词性、词组结构关系，提取关键要素Where，即信息中涉及到的地点；

(3.4)对事实及证据信息进行分词，并分析词性，提取关键要素Who，即信息中涉及到的当事人；

(3.5)使用正则表达式从事实及证据信息中提取关键要素How much，即信息中涉及到的数量，主要包括金额和重量。

步骤(4)中针对没有关联点的证据集，分析证据与事实之间的关键要素关联度，关键要素关联度越高则证明两者之间存在关系的可能性越大，从而发现证据与事实的关系，构建证据链关系模型中的关联点；步骤(5)中针对每个证据，分析证据之间及证据与相关事实之间关键要素的关联关系，关键要素存在重合则证明两者之间具有存在关系的可能性，从而发现证据之间的相互印证关系，得到每个证据链节的链头。

步骤(6)中对构建出的证据链关系模型中的关键元素进行分析和提取，将系统中的数据结构转换成结构化的Excel表格文件；并与步骤(7)中将结构化的存储证据链关系模型的Excel表格文件进行可视化显示，展示在系统的界面上。

本发明与现有技术相比，其显著优点是：使用正则表达式等技术分析提取出文书中各个段落和重要元素，避免了全篇幅使用文书引入其他无关信息的问题，减少无关的段落和词语对证据链关系模型构建结果的影响；使用先提取关键要素再计算的方法，关注事实与证据中的重点内容，降低证据事实关联计算和证据链头计算的复杂度；在提取关键要素时去除法院专用停用词及证据链头无关词语，减少噪声词语，进一步降低计算复杂度，提高证据链头计算正确率，显著优化证据链关系模型构建方法。

附图说明

图1证据链关系模型结构图

图2证据链关系模型构建流程图

图3法院裁判文书示例

图4XML格式的法院裁判文书中证据事实相关节点示例

图5法院专用停用词表示例

图6证据链头无关词语表示例

图7Excel表格示例

具体实施方式

为使本发明的目的、技术方案和优点更加清晰，下面将结合附图及具体实施例对本发明进行详细描述。

本发明的目的在于针对法律裁判文书说理评估中的证据链关系模型构建问题，提出一种面向裁判文书的证据链关系模型构建方法，证据链关系模型的结构图如图1所示。通过使用特定的正则规则提取出文书中相关段落和重要元素，避免了全篇幅使用文书引入其他无关信息的问题，减少无关的段落和词语对证据链关系模型构建结果的影响；使用去除标点符号、去除特定词性词语、去除法院专用停用词、去除重复词语和合并过度分词等文本预处理方法，去除噪声词语，降低证据链头计算的复杂度；通过去除证据链头无关词语，提高证据链头计算正确率，显著优化证据链关系模型构建方法。发明概括来说主要包括以下步骤：

步骤(6)将构建出的证据链关系模型生成为Excel表格；

步骤(7)将结构化的证据链关系模型显示为可视模型。

上述一种面向裁判文书的证据链关系模型构建方法的详细工作流程如图2所示。这里以裁判文书中有关刑事二审的证据链关系模型构建作为例子，对上述步骤分别进行实例描述。

1.法院裁判文书通常是用DOC或RTF格式进行存储，如图3中的DOC文书格式。二审案件作为再次进行审理的案件，文书中不仅要书写本审内容，也要书写前审相关信息，因此二审文书文字多且内容复杂；然而裁判文书通常具有相应的书写规范，刑事文书更是如此。因此，可以使用特定的正则规则提取出文书中相关段落和重要元素，通过预处理将非结构化文书转换成半结构化的XML格式文件，具体步骤包括：

(1.1)将裁判文书进行分段，根据针对刑事二审文书规定的格式规范和总结出的常用书写习惯，编写正则表达式，对每段进行标记，包括“文首”、“当事人”、“诉讼记录”、“案件基本情况”、“裁判分析过程”、“文尾”等主要段落；并且在各段中使用正则方法提取出关键要素，比如“案件基本情况”段中分出的“本审审理段”里可提取出“证据分组”，每个“证据分组”中会有“证据记录”要素，也可能会有“认定事实”要素；完成全部段落的提取和分析后即可将非结构化的文书转换成半结构化的XML格式文件。

(1.2)针对上诉人(刑事二审中的原告角色)和被告人提出证据，法院、上诉人、被告均可提出质证意见，认定不可采信的证据自然不可以作为证明事实的依据，也就不可以作为证据链中的链节。因此需要分析文书中关于质证情况的描述，在刑事二审文书中就是分析“本审审理段”中关于证据质证情况的内容，通常这些内容出现在段末或举证情况之后，使用正则方法提取出质证信息，并分析其中的关键词判断质证信息针对的证据对象和确定的采信结果，然后为相应的证据标记采信情况。

(1.3)因为民事案件和行政案件通常案情较为简单，民事文书和行政文书的书写规范也没有那么严格，所以在(1.1)中进行简单的分段分析时可能无法分解出案件的具体事实，导致多个独立事实被混合书写在一起。针对这种情况就需要进行特殊处理，对事实段进行分句，然后根据时间点、连接词等关键词汇进行判断，将整段事实分解成多个独立事实。由于本实例采用刑事二审文书作为目标文书，所以不需要进行这个步骤。

2.进行过预处理的裁判文书已经成为半结构化文本，如图4中所示，可以根据标签简单地读取到需要的内容，对于构建证据链关系模型而言，所需要的就是事实和证据，因此需要读取XML文件生成事实集和证据集，具体步骤包括：

(2.1)读取XML格式文书中的每个“证据分组”，如果其中包含“认定事实”，则将该事实纳入事实集中，并进入(2.2.1)；如果不包含“认定事实”，则进入(2.2.2)；

(2.2.1)读取和“认定事实”在同一“证据分组”中的“证据记录”，形成关联到具体事实的证据集；

(2.2.2)读取没有“认定事实”的“证据分组”中的“证据记录”，形成没有关联到任何事实的无关联点证据集。

3.形成的事实集中每个事实的内容都是一个事实明细，证据集中每个证据的内容都是一个证据链节，事实明细和证据链节由多个词语组成，而其中很多词语都是无用的、不需要纳入计算的，因此需要对证据链节信息进行文本预处理并提取4W1H关键要素，具体步骤包括：

(3.1)对于关键要素What的提取采用结构式和句法分析两种方法。结构式是指结构式方法是指针对具有固定结构的事物，使用正则表达式进行提取，比如书名号中的文件名称。句法分析方法是针对没有特殊标识的事物的提取方法，首先对事实及证据信息进行分词，并分析语句依存结构关系，事物通常会作为语句的主语或宾语，所以可以根据分析出的依存句法结构，提取出主语和宾语，筛选掉其中属于名称和地点的词语，然后根据定中关系进行词语完善。这里采用HanLP作为分词和语句分析工具；

(3.2)针对关键要素When的提取采用正则表达式方法。正则表达式可以匹配出从最精确的“X年X月 X日X时X分”到粗略的“X年”等多种时间表达的写法；

(3.3)针对关键要素Where的提取采用词法分析和句法分析两种方法。首先对事实及证据信息进行分词，并分析词性和词组结构关系。将连续中文文本进行分词几乎是所有自然语言处理方法中必须的步骤，在经过分词之后，才能对文本进行进一步的处理。目前，分词系统是一个理论较为成熟的系统，这里采用Ansj中文分词器作为我们的分词系统，采用NLP分词模式作为我们的分词模式。Ansj中文分词器在分词后会对每个词的词性进行标注，词性为S(处所词)的词语即是所需要提取的地点。考虑到分词的错误率，还需要进行基于介词的句法分析，因为地点通常出现在介词之后，所以通过建立介词列表，提取介词之后的词语作为地点；又因为分词时可能出现过度划分的问题，所以还需要对介词之后的多个词语进行判断，并通过连接成组成完整的地点；

(3.4)针对关键要素Who的提取采用词性分析方法。因为裁判文书中的人物，不仅包含个人，还可能是单位或机关，所以不能单纯提取人名。首先需要对事实及证据信息进行分词，然后分析词语的词性和词组结构关系，词性以NR开头(包含汉语人名、外语人名和音译人名)、和词性为NT(机构团体名)的词语都是所需要提取的名称；

(3.5)针对关键要素How much的提取采用正则表达式方法。正则表达式可以匹配出金额(如“X元人民币”)、重量(如“X克”)等多种数量词语的种类；

因为信息中的关键要素可能出现重复表述的情况，所以以上步骤中还需要考虑去重问题，确保每种关键要素中都没有重复的词语。

4.如步骤(2)中所述可能存在无关联点的证据集，所以在计算证据链体的链头之前，还需要将证据与事实相互关联。关键要素就是代表着信息中重要内容的具有特征性的词，所以多个信息之间相关度的计算可以简化为关键要素重合度的计算。计算每个无关联点证据和每个事实之间有几个关键要素相同，关键要素的重合度越高则代表着相关证据与事实之间的关联度越高。在进行重合度计算时，需要注意两方面的问题：一是关键要素的类型，相互比较的两个词语必须是同一种类的关键要素，也就是说要分别计算4W1H 中每类关键要素的重合度；二是关键要素的权重，可以为不同类型的关键要素设定不同的权重，比如刑事销售毒品案件中案件事实通常是一伙毒贩在不同时间不同地点贩售某类毒品，因此What关键要素通常不具有区分度，可以设置较低的权重值，而When和Where可以设置较高的权重值。

5.计算证据链体的链头包含两个部分，一是发现证据链体之间的关联，并将相互佐证的点作为链头；二是发现证据链体和事实明细之间的关联，将证据佐证事实的点作为链头。在进行链头计算时，使用哈希算法计算提取出的证据、事实中的关键要素；具体做法是将关键要素词语作为key值，如果一个事实明细或证据链体中包含该词语，则将编号存入key对应的value中。也就是说每个value中都保存一个列表，列表中所存储的就是包含该key值词语的事实明细与证据链体的编号。完成全部的映射之后，依次查看每个key包含的value，发现相互关联的证据链头。完成全部key值的检查之后，即可计算出每个证据链体的初选链头以及相互之间的关系。

因为在裁判文书中存在大量法院专用术语，这些专有术语基本会出现在每一篇裁判文书中，但是显而易见，这次词语不可以成为证据链头，。尽管已经有很多现成的停用词库可以使用，但是这些停用词库无法满足这种情况下的需求，比如“证据”、“事实”、“原告”、“被告”这些词语几乎出现在所有裁判文书中，但是它们却不是通常意义上的停用词。还有很多词语词频虽然不是法院专用术语，但是对于证据链头而言也是噪声词语，比如“行为”、“内容”、“过程”，这些没有具体意义的词语。

本发明使用大量裁判文书作为输入，通过统计裁判文书审理段中各个词语的词频，再进行降序排列，从而筛选出高频词语，即法院专有术语，部分结果如图5所示，这些词语需要从链头列表中去除。除去法院专用术语外，还有很多词语词频不算很高，但是对于证据链头而言是噪声词语也需去除，部分词语如图 6所示，这些和证据链头无关的词语也需要从链头列表中去除。

6.通过上述步骤构建出的证据链关系模型是存储在系统的数据结构中的，不便于进行阅读、理解和存储，而且证据链关系模型的可视化显示需要借助正向构建证据链的工具实现，所以需要将证据链关系模型存储为一种便于阅读、理解、存储和数据交换的格式，本发明中采用Excel表格格式，将系统中的数据结构转换成结构化的Excel表格文件。输出的Excel表格示例如图7所示。

7.将Excel格式的证据链关系模型输入正向构建证据链的工具，通过提取、解析和自动排版后将其展示在系统的界面上。

上面已经参考附图对根据本发明实施的一种面向裁判文书的证据链关系模型构建方法进行了详细描述。本发明具有如下优点：使用正则表达式等技术分析提取出文书中各个段落和重要元素，避免了全篇幅使用文书引入其他无关信息的问题，减少无关的段落和词语对证据链关系模型构建结果的影响；使用先提取关键要素再计算的方法，关注事实与证据中的重点内容，降低证据事实关联计算和证据链头计算的复杂度；在提取关键要素时去除法院专用停用词及证据链头无关词语，减少噪声词语，进一步降低计算复杂度，提高证据链头计算正确率，显著优化证据链关系模型构建方法。

需要明确，本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且，为了简明起见，这里省略对已知方法技术的详细描述。当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims

1.一种面向中文裁判文书的证据链关系模型构建方法，其特征在于包括以下步骤：

步骤(3)根据4W1H关键要素提取策略，获得每个证据链体及每个事实的关键词集合，其中4W1H分别是What、When、Where、Who、How much；

步骤(5)通过计算关键要素关联度构造证据链关系模型中的证据链头，针对每个证据构建相互之间的印证关系，且步骤(5)中针对每个证据，分析证据之间及证据与相关事实之间关键要素的关联关系，关键要素存在重合则证明两者之间具有存在关系的可能性，从而发现证据之间的相互印证关系，得到每个证据链节的链头；

步骤(6)将构建出的证据链关系模型生成为Excel表格；

步骤(7)将结构化的证据链关系模型显示为可视模型。

2.根据权利要求1所述的一种面向中文裁判文书的证据链关系模型构建方法，其特征在于步骤(1)中针对中文裁判文书进行自动化文本预处理，将非结构化的裁判文书转换成半结构化的XML格式文件；且步骤(2)中读取处理后的半结构化XML格式文件提取出证据链的证据链体集合和事实集合，具体包括：

(1.1)根据需要解析的文书的类型，使用相应的方法对文书文本逐段提取并进行分析，将非结构化的文书转换成结构化的XML格式文件，XML格式文书中主要包含“文首”、“当事人”、“诉讼记录”、“案件基本情况”、“裁判分析过程”、“判决结果”和“文尾”七个主段落；

(1.3)针对没有严格书写规范的民事文书和行政文书，分析XML格式文书中“案件基本情况”段落下的“事实段”的描述，将整段事实分解成数条独立事实，并将每条事实写入一个“认定事实”节点；

(2.1)读取XML格式文书中的“认定事实”节点生成事实集；

(2.2)读取XML格式文书中事实所在分组中的“证据信息”节点生成有事实关联点的证据集；并读取XML格式文书中没有“认定事实”节点的分组中的“证据信息”节点生成无事实关联点的证据集。

3.根据权利要求1所述的一种面向中文裁判文书的证据链关系模型构建方法，其特征在于步骤(3)中根据4W1H关键要素提取策略，获得每个证据链体及每个事实的关键词集合，具体包括：

(3.1)对事实及证据信息进行分词，并分析语句依存结构关系，辅助使用正则表达式，提取关键要素What，即信息中涉及到的事物；

(3.5)使用正则表达式从事实及证据信息中提取关键要素How much，即信息中涉及到的数量，包括金额和重量。

4.根据权利要求1所述的一种面向中文裁判文书的证据链关系模型构建方法，其特征在于步骤(4)中针对没有关联点的证据集，分析证据与事实之间的关键要素关联度，关键要素关联度越高则证明两者之间存在关系的可能性越大，从而发现证据与事实的关系，构建证据链关系模型中的关联点；步骤(6)中对构建出的证据链关系模型中的关键元素进行分析和提取，将系统中的数据结构转换成结构化的Excel表格文件；最终步骤(7)中将结构化的存储证据链关系模型的Excel表格文件进行可视化显示，展示在系统的界面上。