CN113010684B

CN113010684B - 民事诉判图谱的构建方法及系统

Info

Publication number: CN113010684B
Application number: CN202011638284.9A
Authority: CN
Inventors: 陈浩
Original assignee: Beijing Fayi Technology Co ltd
Current assignee: Beijing Fayi Technology Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2024-02-09
Anticipated expiration: 2040-12-31
Also published as: CN113010684A

Abstract

本发明提供了一种民事诉判图谱的构建方法及系统。该方法通过对诉讼主体、诉讼请求、民事判项及民事诉判依次的文本分片，图谱模型设计，以及信息抽取算法设计，使得复杂的法律文书能够将文书信息项模型存储为易于阅读、理解、传输的格式，将文书信息项模型转化为XML结构化文档。

Description

民事诉判图谱的构建方法及系统

技术领域

本发明涉及法律知识工程技术领域，特别是涉及一种民事诉判图谱的构建方法及系统。

背景技术

民事诉判图谱是指法官针对当事人诉讼请求对应给出裁判结果而形成的一套知识图谱。民事诉判图谱是刻画民事司法裁判主干内容诉讼请求与判决结果的知识表示形式，构建民事诉判图谱是计算机读懂和应用民事裁判文书数据的关键技术。最接近的同类技术及其不足之处，分述如下：

1.一种基于机器学习的法律知识图谱构建方法、装置、系统和介质与流程(申请号/专利号：CN201710339258.8)：核心的方法包括(1)利用自然语言理解模块抽取得到的文本特征；(2)特征机器学习模块学习得到的法律知识特征；(3)知识工程模块识别得到的法律概念；(4)对原始法律数据识别出法律知识点；(5)通过法律概念框架自动关联法律知识点以构建法律知识图谱。

2.一种基于信息抽取的法律知识图谱构建方法(申请号/专利号：CN201910980158.2)：核心方法包括(1)从网络中爬取大量法律文书和法律实体；(2)从百度百科中抽取和法律相关的法律实体；(3)融合爬取得到的法律实体和百度百度中抽取得到的法律实体，并将法律实体链接至法律文书，构建法律实体与法律文书之间的网络；(4)利用实体描述和实体名称构建实体网络，基于实体结构信息构建实体相似度网络；(5)抽取法律文书中的三元组，结合法律知识网络构建法律知识图谱。

3.一种法律知识图谱自动构建方法(申请号/专利号：CN201710270508.7)：(1)获取民事、刑事、行政三类审判文书作为法律知识图谱构建的语料，对所述语料去停用词和进行分词；(2)根据分词后的语料，分别抽取三类审判文书的主题词，对抽取的主题词进行词性标注和过滤，根据过滤结果，抽取名词或名词短语主题词作为法律知识图谱的实体概念；(3)获取与抽取的每一名词或名词短语主题词关系相近的词，对获取的相近词进行词性标注和过滤，根据过滤结果，抽取名词或名词短语相近词作为法律知识图谱的实体概念；(4)同属于主题词的实体概念之间形成主题关系，每一主题词实体概念与其相近词实体概念构成相近关系，根据抽取的主题词实体概念和相近词实体概念以及其之间的关系形成的主题词-主题关系-主题词，主题词-相近关系-相近词三元组结构，构建法律知识图谱。

上述三个专利，相对于民事裁判中的诉判对照图谱的构建来说，不足之处在于：(1)都是一个通用方法，对简单的法律知识图谱的构建是适用的，基于文本上下文短距离的语义关联来形成图谱，而对于复杂的知识图谱的构建则没有进一步的进行方法上的设计；(2)针对局部文本语义的图谱构建，不能支持多个图谱之间的推理来构建新的图谱，因为难以实现对诉讼请求、判决结果之间的关系进行二次图谱的构建；(3)针对具体每一类知识图谱并没有提供提取率、提准率的控制机制；(4)特征机器学习模块利用随机森林、支持向量机等算法训练学习法律知识特征，并没有很好的利用法律知识特征的行业特点，其训练效果难以达到高精度的指标。

发明内容

本发明要解决的技术问题是提供一种民事诉判图谱的构建方法及系统，最终实现诉判对照知识图谱的构建，输出XML结构化文档，使得民事一审判决书能够更有效地应用于针对民事审判实体规则的研究中。

为解决上述技术问题，本发明提供了一种民事诉判图谱的构建方法，所述方法包括：根据民事裁判文书的书写规范与文书结构，按民事诉讼的业务标准，将文书由粗到细切分为多层级的文本片，设计文书的切片模型；根据民事裁判文书当事人基本信息切片的内容特征，按民事诉讼主体及其他诉讼参与人的业务标准，将民事诉讼主体包含的信息进行分解，设计民事诉讼主体信息图谱模型；根据民事裁判文书当事人基本信息的书写规范和业务特征，按民事诉讼主体信息图谱模型，设计民事诉讼主体信息图谱抽取算法；结合文书的切片模型和民事诉讼请求的语义特征，设计民事诉讼请求的文书切片模型；根据民事诉讼请求切片的书写规范和内容特征，设计民事诉讼请求明细的文书切片模型；根据民事诉讼请求明细切片的书写规范和内容特征，按一个具体的民事诉讼请求明细的要素业务标准，将民事诉讼请求明细包含的信息要素进行分解，设计民事诉讼请求信息图谱模型；根据民事诉讼请求明细切片的书写规范和业务特征，按民事诉讼请求信息图谱模型，链接民事诉讼主体信息图谱抽取算法，设计民事诉讼请求信息图谱抽取算法；结合文书的切片模型和民事判决结果的语义特征，设计民事判决结果的文书切片模型；根据民事判决结果切片的书写规范和内容特征，设计民事判项的文书切片模型；根据民事判项切片的书写规范和内容特征，按一个具体的民事判项的要素业务标准，将民事判项包含的信息要素进行分解，设计民事判项信息图谱模型；根据民事判项切片的书写规范和业务特征，按民事判项信息图谱模型，链接民事诉讼主体信息图谱抽取算法，设计民事判项信息图谱抽取算法；根据民事诉讼请求信息图谱模型和民事判项信息图谱模型，按照民事诉讼请求和民事判决结果对照业务特征，设计民事诉判图谱模型；根据民事诉讼请求信息图谱模型和民事判项信息图谱模型，按照民事诉讼基本原理和民事审判要件法，设计民事诉判对照推理算法；根据民事诉判图谱模型和民事诉判对照推理算法，输出民事诉判图谱项信息图谱模型，按照民事诉讼基本原理和民事审判要件法，设计以XML格式的民事诉判图谱。

在一些实施方式中，根据民事裁判文书当事人基本信息切片的内容特征，按民事诉讼主体及其他诉讼参与人的业务标准，将民事诉讼主体包含的信息进行分解，设计民事诉讼主体信息图谱模型，包括：民事诉讼主体信息图谱模型包括了诉讼参加人类型，是自然人、法人还是其它组织，对应的是自然人的姓名或组织名称，以及诉讼参加人对应的法律关系主体类型、诉讼地位；设计诉讼主体信息图谱的Schema表示，通对Schema对RDFS进行封装，提供支持类继承、属性多态的面向对象描述体系。

在一些实施方式中，根据民事裁判文书当事人基本信息的书写规范和业务特征，按民事诉讼主体信息图谱模型，设计民事诉讼主体信息图谱抽取算法，包括：从目标裁判文书中获取目标文本，其中，目标文本包括民事诉讼主体文本，民事诉讼主体文本包括至少两个民事诉讼主体；利用信息抽取方法对目标裁判文书进行结构解析，从前到后的进行处理，标记起始位置和终止位置，为各个段落结构添加相应的标识，标记出多个民事诉讼主体切分信息，然后利用句法、词性、位置、关键词、段落标签等信息编写正则表达式和规则，利用编写的正则表达式和规则从目标裁判文书中抽取出民事诉讼主体；利用正则表达式和实体识别技术，可抽取诉讼参加人姓名或组织名称、类型以及诉讼地位；通过预先建立的民事诉讼主体完备性检测模型，检测文本中的民事诉讼主体是否完整。

在一些实施方式中，根据民事诉讼请求明细切片的书写规范和内容特征，按一个具体的民事诉讼请求明细的要素业务标准，将民事诉讼请求明细包含的信息要素进行分解，设计民事诉讼请求信息图谱模型，包括：民事诉讼请求信息图谱模型由诉请人、被诉请人、请求内容构成，请求内容又细分为诉请的权利、标的构成，诉请的类别分为给付之诉、确认之诉、形成之诉，给付之诉细分为标的物、标的物的类型、数量，以此构成完整的诉请模型；设计民事诉讼请求信息图谱的Schema表示，通对Schema对RDFS进行封装，提供支持类继承、属性多态的面向对象描述体系。

在一些实施方式中，根据民事诉讼请求明细切片的书写规范和业务特征，按民事诉讼请求信息图谱模型，链接民事诉讼主体信息图谱抽取算法，设计民事诉讼请求信息图谱抽取算法，包括：通过文书识别出案由；识别诉请方与被诉请方的法律关系主体类型；根据识别得到的案由，以及法律关系主体类型，抽取民事请求信息图谱。

在一些实施方式中，根据民事诉讼请求明细切片的书写规范和业务特征，按民事诉讼请求信息图谱模型，链接民事诉讼主体信息图谱抽取算法，设计民事诉讼请求信息图谱抽取算法，还包括：原告诉称段中遇到倒装句式的描述，则部分诉请要素需要从事实理由段中提取。

在一些实施方式中，根据民事判项切片的书写规范和内容特征，按一个具体的民事判项的要素业务标准，将民事判项包含的信息要素进行分解，设计民事判项信息图谱模型，包括：设计民事判项信息模型，由权利人、义务人、责任承担方式和判决结果类别等构成，责任承担方式又细分为给付、确认、形成等类型，给付类再细分为标的物、标的物的类型、数量，以此构成完整的判项信息模型；设计民事判项信息图谱的Schema表示，通对Schema对RDFS进行封装，提供支持类继承、属性多态的面向对象描述体系。

在一些实施方式中，根据民事判项切片的书写规范和业务特征，按民事判项信息图谱模型，链接民事诉讼主体信息图谱抽取算法，设计民事判项信息图谱抽取算法，包括：定义一套命名实体识别模型，用于识别判项信息中的标的物、金额名称；定义一套分类模型，用于识别判项类型；通过句法依存关系及中文语义角色分析，对应权利人、义务人、责任承担方式的关系，以及标的金额之间的总分关系。

此外，本发明还提供了一种民事诉判图谱的构建系统，所述装置包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据前文所述的民事诉判图谱的构建方法。

采用这样的设计后，本发明至少具有以下优点：

综合运用专家工程、基于规则的自然语言处理技术、基于深度学习的分类技术、实体对齐技术，将文书信息项模型存储为易于阅读、理解、传输的格式，本发明中采用XML文档格式，将文书信息项模型转化为XML结构化文档。

附图说明

上述仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，以下结合附图与具体实施方式对本发明作进一步的详细说明。

图1是民事诉判图谱的构建方法的流程图；

图2是民事诉讼主体信息图谱模型的模型图；

图3是民事诉讼请求信息图谱模型的模型图；

图4是ALBERT-BiLSTM-CRM模型的模型图；

图5是ALBERT模型结构图；

图6是LSTM模型的模型结构图；

图7是模型流程图；

图8是民事判项信息图谱模型的模型图；

图9是民事诉判图谱模型的模型图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

步骤(1)根据民事裁判文书的书写规范与文书结构，按民事诉讼的业务标准，将文书由粗到细切分为多层级的文本片，设计文书的切片模型；

民事裁判文书通常是用WORD或WPS软件书写，且文书分段清晰，书写规范，具有明显的文书结构。按民事诉讼的业务标准并总结其书写规律，本专利采用一种由粗到细结构化司法文书的方法，依据法院对文书书写规范的要求，将文书切分出多个文本片，并设计出文书切片模型，用以存储各个逻辑段落。具体步骤如下：

步骤(1.1)总结司法文书书写规范和文书结构，将文书各段落按照逻辑关系划分出多层级的文本片，对民事裁判文书的一级文本片进行分析，包括“文本首部”、“当事人基本信息段”、“案件由来段”、“诉辩信息段”、“案件事实段”、“裁判分析过程段”、“判决结果段”和“文本尾部”。

步骤(1.2)设计文书切片模型用以存储文书各逻辑段，每个逻辑段包含若干个细切片。根据每个段落所包含的细切片，设计文书切片模型，每个细切片内容用字符串类型存储,并以包含的内容给文本片命名，例如“当事人基本信息段”、“当事人基本信息细切段”，整个切片模型采用树状结构存储。

步骤(2)根据民事裁判文书当事人基本信息切片的内容特征，按民事诉讼主体及其他诉讼参与人的业务标准，将民事诉讼主体包含的信息进行分解，设计民事诉讼主体信息图谱模型，如图2所示。具体步骤如下：

步骤(2.1)民事诉讼主体信息图谱模型包括了诉讼参加人类型，是自然人、法人还是其它组织，对应的是自然人的姓名或组织名称，以及诉讼参加人对应的法律关系主体类型、诉讼地位，如图1所示。

步骤(2.2)设计诉讼主体信息图谱的Schema表示，通对Schema对RDFS进行封装，提供支持类继承、属性多态的面向对象描述体系。

步骤(3)根据民事裁判文书当事人基本信息的书写规范和业务特征，按民事诉讼主体信息图谱模型，设计民事诉讼主体信息图谱抽取算法；

步骤(3.1)从目标裁判文书中获取目标文本，其中，目标文本包括民事诉讼主体文本，民事诉讼主体文本包括至少两个民事诉讼主体；

步骤(3.2)利用信息抽取方法对目标裁判文书进行结构解析，从前到后的进行处理，标记起始位置和终止位置，为各个段落结构添加相应的标识，标记出多个民事诉讼主体切分信息，然后利用句法、词性、位置、关键词、段落标签等信息编写正则表达式和规则，利用编写的正则表达式和规则从目标裁判文书中抽取出民事诉讼主体；

步骤(3.3)利用正则表达式和实体识别技术，可抽取诉讼参加人姓名或组织名称、类型以及诉讼地位，但对于诉讼参加人对应的法律关系主体类型，系统构建了法律关系主体识别模型进行识别，具体为：1.利用专家工程构建了各案由对应的法律关系主体类型；2.通过纠分事件分析模型，识别法律关系主体类型。

步骤(3.4)通过预先建立的民事诉讼主体完备性检测模型，检测文本中的民事诉讼主体是否完整。

步骤(4)结合文书的切片模型和民事诉讼请求的语义特征，设计民事诉讼请求的文书切片模型；

1.民事裁判文书中对于诉请通常是在“当事人诉称”逻辑段，也有少部分文书会直接在“案件基本情况”段中描述，依据文书的这些书特点，设计出民事诉讼请求的文书切片模型，用以存储各个逻辑段落。具体步骤如下：

步骤(4.1)总结民事诉讼请求在司法文书的书写规范和文书结构，将民事诉讼请求按照逻辑关系划分出“诉讼请求内容”、“诉请变更内容”、“诉的事实与理由”等段落。

步骤(4.2)设计民事诉讼请求的文书切片模型用以存储诉讼请求各逻辑段，每个逻辑段包含若干个细切片，整个切片模型采用树状结构存储。

步骤(5)根据民事诉讼请求切片的书写规范和内容特征，设计民事诉讼请求明细的文书切片模型；

步骤(5.1)诉讼请求由多条诉请组成。

具体的，可利用信息抽取方法对目标裁判文书进行结构解析，将原告诉称部分中的每条诉请抽取出来，依据民事诉讼请求的文书切片模型的顺序，将抽取出的所有诉请组成诉请文本。

利用正则表达式从原告诉称部分中抽取出每条诉请。

示例性的，从裁判文书中抽取出的原告诉称部分为：“原告向本院提出诉讼请求：一、请求法院判决解除原告与被告之间的商品房预售合同关系；二、请求法院判决被告向原告退还已收订金人民币200000元及相应利息(利息：以人民币200000元为基数，按年利率6％，从2014年4月15日起计算至被告实际支付完毕之日止)，利息暂计至2018年1月11日共44942元；三、请求法院判决原告对被告开发建设的某市场项目依法处置所得价款享有优先受偿权；四、本案诉讼费用由被告承担。”，则步骤目的在于从上述的原告诉称部分中抽取出如下4条诉请：

1、请求法院判决解除原告与被告之间的商品房预售合同关系；

2、请求法院判决被告向原告退还已收订金人民币200000元及相应利息，利息暂计至2018年1月11日共44942元；

3、请求法院判决原告对被告开发建设的某市场项目依法处置所得价款享有优先受偿权；

4、本案诉讼费用由被告承担。

需要说的是，如果诉请文本中把谓语词及被请求方作为共用部分，再分别描述诉请项，则请求明细的文书切片都要带入谓语词。例如：“请求法院判决被告赔偿原告：1、护理费1205.5元；2、住院伙食补助费920元；3、伤残赔偿金84972元；4、误工费9373.56元；5、被抚养人生活费6178.8元；6、精神抚慰金6000元；后续治疗费20000元。合计128649.86元。”，需切分成“1、被告赔偿原告护理费1205.5元；2、被告赔偿原告住院伙食补助费920元；……”

步骤(6)根据民事诉讼请求明细切片的书写规范和内容特征，按一个具体的民事诉讼请求明细的要素业务标准，将民事诉讼请求明细包含的信息要素进行分解，设计民事诉讼请求信息图谱模型，如图3所示。

步骤(6.1)民事诉讼请求信息图谱模型由诉请人、被诉请人、请求内容构成，请求内容又细分为诉请的权利、标的构成，诉请的类别分为给付之诉、确认之诉、形成之诉，给付之诉细分为标的物、标的物的类型、数量(具体数量、金额、份额、比率)等，以此构成完整的诉请模型。

步骤(6.2)设计民事诉讼请求信息图谱的Schema表示，通对Schema对RDFS进行封装，提供支持类继承、属性多态的面向对象描述体系。

步骤(7)根据民事诉讼请求明细切片的书写规范和业务特征，按民事诉讼请求信息图谱模型，链接民事诉讼主体信息图谱抽取算法，设计民事诉讼请求信息图谱抽取算法；

步骤(7.1)首先通过文书识别出案由，一个案件可以是有多个案由构成的，以案由作为前提条件，能更精准的确定诉讼请求的各个组成要素。

步骤(7.2)识别诉请方与被诉请方的法律关系主体类型，也是消除歧义的方式之一，例如保险纠纷中，提到的返还保险金，如果诉请人是保险公司，保险理赔金，被保险人，指的是保险费。

步骤(7.3)原告诉称段中遇到倒装句式的描述，则部分诉请要素需要从事实理由段中提取。

对于提取民事诉讼请求信息图谱，具体方法是：

1)定义一套命名实体识别模型，用于识别诉请中标的物、金额名称等实体；

实体识别模型主要由三部分构成,分别为ALBERT预训练语言模型、BILSTM层和CRF层。以ALBERT的编码输出作为BILSTM层的输入,再在BILSTM的隐藏层后加一层CRF层用以解码,最终得到每个字符的标注类型。具体结构如图4。

传统语言模型,如神经网络语言模型,一方面由于其是单向的,无法融入上下文信息,另一方面由于训练得到的词嵌入为固定的,无法表示词的多义性。ALBERT的模型结构很好地解决了这两个问题。ALBERT模型结构如图5所示，采用双向Transformer作为编码器,一方面使用效果更好的Transformer替代了LSTM方面,双向的语言模型使得BERT可以获取上下文信息,进而使词嵌入具有更丰富的语义信息。

2)定义一套分类模型，用于识别诉请类型；

由于每个诉请项都是一个短文本，在常用的短文本分类方法中有CNN、RNN、LSTM、Attention等，本系统采用LSTM进行模型训练达到一个比较好的效果。

LSTM(长短期记忆神经网络)的结构如图6所示，是在RNN的基础上增加了门的概念(输入门、遗忘门、输出门)，简单来说就像一个阀门，它可以控制之前信息和当前信息的记忆和遗忘程度，从而使RNN网络具备了长期记忆功能。

步骤：

1.预处理数据，在每个诉讼请求的分类中，诉请方与被诉请方对于分类是无意义的，可以去掉这些干扰数据；

2.对句子进行分词处理，选择性除去标点符号、换行符、停用词等；

3.采用ALBERT作为词向量；

4.定义网络结构，基于LSTM搭建诉请分类的深度学习模型，如图7所示。

3)定义一套关系识别模型，用于识别各实体之间的关系；

通过句法依存关系、中文语义角色分析，对诉请方、被诉请方、请求内容之间的实体关系，以及实体之间总分关系，进行识别，从而构建出民事诉讼请求信息图谱。

在本实施例中，所述目标序列标注模型可以用于对测试集中的语料进行中文语义角色标注，即对词的中文语义角色进行预测，得到预测标签。举例来说，将“被告赔偿原告护理费1205.5元”输入所述目标序列标注模型后，“[被告Agent][赔偿V][原告Dative][护理费Patient][1205.5元]。”其中“赔偿”是谓语动词，分别对“被告”“原告”和“护理费”进行标注，对应分别是施事、涉事、受事。

步骤(8)结合文书的切片模型和民事判决结果的语义特征，设计民事判决结果的文书切片模型；

具体步骤如下：

步骤(8.1)总结判决结果在司法文书的书写规范和文书结构，将判决结果按照逻辑关系划分出“判决结果”、“诉讼费用负担”、“效力提示”等段落。

步骤(8.2)设计民事判决结果的文书切片模型用以存储诉讼请求各逻辑段，每个逻辑段包含若干个细切片，整个切片模型采用树状结构存储。

步骤(9)根据民事判决结果切片的书写规范和内容特征，设计民事判项的文书切片模型；

步骤(9.1)民事判决结果由多条民事判项组成。

具体的，可利用信息抽取方法对目标裁判文书进行结构解析，将“判决结果”部分中的每条判项抽取出来，按照每条判项的顺序，抽取出的所有判项组成判决结果文本。

可利用正则表达式从判决结果部分中抽取出每条判项。

示例，从裁判文书中抽取出的民事判决结果切为：“综上所述，依照《中华人民共和国合同法》第九十三条、第九十七条、《最高人民法院关于建设工程价款优先受偿权问题的批复》第一条、第二条的规定，判决如下：一、解除原告侯某某与被告某公司之间的商品房预约合同关系；二、被告某公司应退还原告侯某某购房意向金200000元及利息(利息以200000元为基数，从2014年4月16日起至本案生效判决确定的履行期限届满之日止按年利率6％计付)；三、原告侯某某对被告某公司开发建设的某市场(物流小区)项目依法处置所得价款享有所交购房意向金范围内的优先受偿权。本案件受理费4974元，减半收取2487元(原告已预交)，由被告某公司负担。”

则步骤目的在于从上述的原告诉称部分中抽取出如下4条判项：

1、解除原告侯某某与被告某公司之间的商品房预约合同关系；

2、被告某公司应退还原告侯某某购房意向金200000元及利息(利息以200000元为基数，从2014年4月16日起至本案生效判决确定的履行期限届满之日止按年利率6％计付)；

3、原告侯某某对被告某公司开发建设的某市场(物流小区)项目依法处置所得价款享有所交购房意向金范围内的优先受偿权。

4、本案件受理费4974元，减半收取2487元(原告已预交)，由被告某公司负担。

步骤(10)根据民事判项切片的书写规范和内容特征，按一个具体的民事判项的要素业务标准，将民事判项包含的信息要素进行分解，设计民事判项信息图谱模型，如图8所示。

判决结果是由法官书写的，格式相对规范些，每个判决项有明确的人、物表述。

步骤(10.1)设计民事判项信息模型，由权利人、义务人、责任承担方式和判决结果类别等构成，责任承担方式又细分为给付、确认、形成等类型，给付类再细分为标的物、标的物的类型、数量(具体数量、金额、份额、比率)等，以此构成完整的判项信息模型。

步骤(10.2)设计民事判项信息图谱的Schema表示，通对Schema对RDFS进行封装，提供支持类继承、属性多态的面向对象描述体系。

步骤(11)根据民事判项切片的书写规范和业务特征，按民事判项信息图谱模型，链接民事诉讼主体信息图谱抽取算法，设计民事判项信息图谱抽取算法；

步骤(11.1)定义一套命名实体识别模型，用于识别判项信息中的标的物、金额名称；

步骤(11.2)定义一套分类模型，用于识别判项类型；

步骤(11.3)通过句法依存关系及中文语义角色分析，对应权利人、义务人、责任承担方式的关系，以及标的金额之间的总分关系。

民事判项信息图谱抽取算法的技术实现与民事诉请信息图谱抽取算法类似，只是训练所使用的数据集不同，对应的分析模型也不同。

步骤(12)根据民事诉讼请求信息图谱模型和民事判项信息图谱模型，按照民事诉讼请求和民事判决结果对照业务特征，设计民事诉判图谱模型；

通过复杂的民事诉判知识图谱的设计，来解决语义、知识关联、远距离文本来解决诉讼请求、判决结果之间的对照，图谱模型如图9所示。

步骤(12.1)民事诉讼请求和民事判决结果对照除了将诉讼主体对齐，最为复杂的还是对于客体的对照，设计一种以法律关系、权利、义务、标的物等客体构成的图谱，用于对齐客体，例如：请求解除劳动关系与判决解除劳动合同是同一意思表达。

步骤(12.2)将民事诉请与民事判项各自抽取形成的图谱，组合成一个更为完成民事诉判信息图谱模型。

步骤(13.3)设计民事诉判信息图谱的Schema表示，通对Schema对RDFS进行封装，提供支持类继承、属性多态的面向对象描述体系。

步骤(13)根据民事诉讼请求信息图谱模型和民事判项信息图谱模型，按照民事诉讼基本原理和民事审判要件法，设计民事诉判对照推理算法；

由于诉称与判决来自不同人的表述，语言差异较大，诉称段的文本较口语化，判决段的文本较为规范、多采用专业词汇，因此在诉判对照中，实体对齐尤为关键。采用的技术包括：

1)基于专家工程，定义一套知识库，用于实体对齐，例如保险金、理赔金、保险赔偿费，属于同一实体；并梳理业务领域的基础知识图谱，通过将诉请与判决提取的信息图谱叠加后，形成更完整的图谱，通过知识图谱为实体引入了更多的语义关系，可以深层次的提升实体之间关系的置信度。

2)将自然语言处理和文本挖掘的多个核心任务与图结构的强大表示能力结合起来，从而充分利用深度学习的表示能力和文本中的结构信息来解决诸多问题，提出了基于树/图结构的短文本对的分解算法以提高语义匹配能力。

3)基于规则，推理实体之间隐含的关系，完成民事诉判对照.

具体步骤：

步骤(13.1)类型对应，确定诉请的类型与判决的类型是否一致；

步骤(13.2)诉请人与被诉请人对应，确定诉请与判决的诉请人与被诉请人是否一致；

步骤(13.3)推理标的物对应，确定诉请的标的物与判决的标的物是否一致；

步骤(13.4)标的数量对应，确定诉请数量与判决的数量是否一致；

步骤(13.5)推理上下位关系，对应判决的前提条件；

例如，诉请有俩项，离婚、分割共同财产，如果驳回离婚的诉请，则分割共同财产自然消除。

步骤(13.6)等价关系的对应，例如诉请返还原物或按原价赔偿，判决中的对应的是赔偿金额。

步骤(13.7)总分关系的对应，诉请赔偿多明细，判决为总价。

步骤(13.8)实现驳回所有、驳回其它请求的对应关系。

步骤(14)根据民事诉判图谱模型和民事诉判对照推理算法，输出民事诉判图谱项信息图谱模型，按照民事诉讼基本原理和民事审判要件法，设计以XML格式的民事诉判图谱。

由于民事诉判图谱模型以数据结构的方式存储在系统中，不便于阅读、存储，而且民事诉判图谱模型作为其他关于裁判文书的基础信息来源，必须满足普遍适用性，因此，需要将文书信息项模型存储为易于阅读、理解、传输的格式，本发明中采用XML文档格式，将文书信息项模型转化为XML结构化文档。

步骤(14.1)本发明设计了一种XML节点规范，用于表示文书信息项模型。每个信息项对应一个XML节点，节点名称统一名命为“<信息组>”，节点属性“name”取值为信息项中文名称，节点属性“value”取值为信息项内容；

步骤(14.2)按照切片与要素模型的层级结构创建XML结构化文档，一级节点下分为切片节点、民事诉请、民事判决、诉判对照节点；

步骤(14.3)依次创建逻辑节点的子节点，按照前述提取的三个知识图谱模型及XML节点规范创建其子节点；

步骤(14.4)当步骤(14.3)中新创建的子节点所对应的信息项有下级信息项时，需要继续以该信息项节点为父节点，创建下级信息项所对应的子节点。

步骤(14.5)重复步骤(14.4)，直到为所有的信息项创建了XML节点，即完成了该逻辑段的XML文档创建，当所有逻辑段都完成对应XML文档创建时，就标志文书信息模型已转化为XML结构化文档。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，本领域技术人员利用上述揭示的技术内容做出些许简单修改、等同变化或修饰，均落在本发明的保护范围内。

Claims

1.一种民事诉判图谱的构建方法，其特征在于，包括：

根据民事裁判文书的书写规范与文书结构，按民事诉讼的业务标准，将文书由粗到细切分为多层级的文本片，设计文书的切片模型；

根据民事裁判文书当事人基本信息切片的内容特征，按民事诉讼主体及其他诉讼参与人的业务标准，将民事诉讼主体包含的信息进行分解，设计民事诉讼主体信息图谱模型；

根据民事裁判文书当事人基本信息的书写规范和业务特征，按民事诉讼主体信息图谱模型，设计民事诉讼主体信息图谱抽取算法；

结合文书的切片模型和民事诉讼请求的语义特征，设计民事诉讼请求的文书切片模型；

根据民事诉讼请求切片的书写规范和内容特征，设计民事诉讼请求明细的文书切片模型；

根据民事诉讼请求明细切片的书写规范和内容特征，按一个具体的民事诉讼请求明细的要素业务标准，将民事诉讼请求明细包含的信息要素进行分解，设计民事诉讼请求信息图谱模型；

根据民事诉讼请求明细切片的书写规范和业务特征，按民事诉讼请求信息图谱模型，链接民事诉讼主体信息图谱抽取算法，基于实体识别模型设计民事诉讼请求信息图谱抽取算法；其中，所述实体识别模型包括ALBERT预训练语言模型、BILSTM层和CRF层，以ALBERT的编码输出作为BILSTM层的输入,再在BILSTM的隐藏层后加一层CRF层用以解码,最终得到每个字符的标注类型；

结合文书的切片模型和民事判决结果的语义特征，设计民事判决结果的文书切片模型；

根据民事判决结果切片的书写规范和内容特征，设计民事判项的文书切片模型；

根据民事判项切片的书写规范和内容特征，按一个具体的民事判项的要素业务标准，将民事判项包含的信息要素进行分解，设计民事判项信息图谱模型；

根据民事判项切片的书写规范和业务特征，按民事判项信息图谱模型，链接民事诉讼主体信息图谱抽取算法，基于实体识别模型设计民事判项信息图谱抽取算法；

根据民事诉讼请求信息图谱模型和民事判项信息图谱模型，按照民事诉讼请求和民事判决结果对照业务特征，设计民事诉判图谱模型；

根据民事诉讼请求信息图谱模型和民事判项信息图谱模型，按照民事诉讼基本原理和民事审判要件法，设计民事诉判对照推理算法；

根据民事诉判图谱模型和民事诉判对照推理算法，输出民事诉判图谱项信息图谱模型，按照民事诉讼基本原理和民事审判要件法，设计以XML格式的民事诉判图谱。

2.根据权利要求1所述的民事诉判图谱的构建方法，其特征在于，根据民事裁判文书当事人基本信息切片的内容特征，按民事诉讼主体及其他诉讼参与人的业务标准，将民事诉讼主体包含的信息进行分解，设计民事诉讼主体信息图谱模型，包括：

民事诉讼主体信息图谱模型包括了诉讼参加人类型，是自然人、法人还是其它组织，对应的是自然人的姓名或组织名称，以及诉讼参加人对应的法律关系主体类型、诉讼地位；

设计诉讼主体信息图谱的Schema表示，通对Schema对RDFS进行封装，提供支持类继承、属性多态的面向对象描述体系。

3.根据权利要求1所述的民事诉判图谱的构建方法，其特征在于，根据民事裁判文书当事人基本信息的书写规范和业务特征，按民事诉讼主体信息图谱模型，设计民事诉讼主体信息图谱抽取算法，包括：

从目标裁判文书中获取目标文本，其中，目标文本包括民事诉讼主体文本，民事诉讼主体文本包括至少两个民事诉讼主体；

利用信息抽取方法对目标裁判文书进行结构解析，从前到后的进行处理，标记起始位置和终止位置，为各个段落结构添加相应的标识，标记出多个民事诉讼主体切分信息，然后利用句法、词性、位置、关键词、段落标签信息编写正则表达式和规则，利用编写的正则表达式和规则从目标裁判文书中抽取出民事诉讼主体；

利用正则表达式和实体识别技术，抽取诉讼参加人姓名或组织名称、类型以及诉讼地位；

通过预先建立的民事诉讼主体完备性检测模型，检测文本中的民事诉讼主体是否完整。

4.根据权利要求1所述的民事诉判图谱的构建方法，其特征在于，根据民事诉讼请求明细切片的书写规范和内容特征，按一个具体的民事诉讼请求明细的要素业务标准，将民事诉讼请求明细包含的信息要素进行分解，设计民事诉讼请求信息图谱模型，包括：

民事诉讼请求信息图谱模型由诉请人、被诉请人、请求内容构成，请求内容又细分为诉请的权利、标的构成，诉请的类别分为给付之诉、确认之诉、形成之诉，给付之诉细分为标的物、标的物的类型、数量，以此构成完整的诉请模型；

设计民事诉讼请求信息图谱的Schema表示，通对Schema对RDFS进行封装，提供支持类继承、属性多态的面向对象描述体系。

5.根据权利要求1所述的民事诉判图谱的构建方法，其特征在于，根据民事诉讼请求明细切片的书写规范和业务特征，按民事诉讼请求信息图谱模型，链接民事诉讼主体信息图谱抽取算法，设计民事诉讼请求信息图谱抽取算法，包括：

通过文书识别出案由；

识别诉请方与被诉请方的法律关系主体类型；

根据识别得到的案由，以及法律关系主体类型，抽取民事请求信息图谱。

6.根据权利要求5所述的民事诉判图谱的构建方法，其特征在于，根据民事诉讼请求明细切片的书写规范和业务特征，按民事诉讼请求信息图谱模型，链接民事诉讼主体信息图谱抽取算法，设计民事诉讼请求信息图谱抽取算法，还包括：

原告诉称段中遇到倒装句式的描述，则部分诉请要素需要从事实理由段中提取。

7.根据权利要求1所述的民事诉判图谱的构建方法，其特征在于，根据民事判项切片的书写规范和内容特征，按一个具体的民事判项的要素业务标准，将民事判项包含的信息要素进行分解，设计民事判项信息图谱模型，包括：

设计民事判项信息模型，由权利人、义务人、责任承担方式和判决结果类别构成，责任承担方式又细分为给付、确认、形成类型，给付类再细分为标的物、标的物的类型、数量，以此构成完整的判项信息模型；

设计民事判项信息图谱的Schema表示，通对Schema对RDFS进行封装，提供支持类继承、属性多态的面向对象描述体系。

8.根据权利要求1所述的民事诉判图谱的构建方法，其特征在于，根据民事判项切片的书写规范和业务特征，按民事判项信息图谱模型，链接民事诉讼主体信息图谱抽取算法，设计民事判项信息图谱抽取算法，包括：

定义一套命名实体识别模型，用于识别判项信息中的标的物、金额名称；

定义一套分类模型，用于识别判项类型；

通过句法依存关系及中文语义角色分析，对应权利人、义务人、责任承担方式的关系，以及标的金额之间的总分关系。

9.一种民事诉判图谱的构建系统，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1至8任意一项所述的民事诉判图谱的构建方法。