CN111597803B

CN111597803B - 一种要素提取方法、装置、电子设备及存储介质

Info

Publication number: CN111597803B
Application number: CN202010410982.7A
Authority: CN
Inventors: 刘大双; 晋耀红; 席丽娜
Original assignee: Dingfu Intelligent Technology Co ltd
Current assignee: Dingfu Intelligent Technology Co ltd
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2024-03-26
Anticipated expiration: 2040-05-14
Also published as: CN111597803A

Abstract

本申请提供一种要素提取方法、装置、电子设备及存储介质，用于改善难以有效地从刑事判决书中抽取到判决结果要素的问题。该方法包括：获得刑事判决书；从刑事判决书中提取至少一个当事人名称；从刑事判决书中筛选出与至少一个当事人名称对应的内容区块，获得至少一个内容区块；使用预设结构化抽取模型从至少一个内容区块中的每个内容区块中提取判决结果要素。在上述的实现过程中，先提取当事人名称，再提取与当事人的名称对应的判决结果要素，有效地提取到了与当事人的名称有关的判决结果要素，从而改善了难以有效地从刑事判决书中抽取到判决结果要素的问题。

Description

一种要素提取方法、装置、电子设备及存储介质

技术领域

本申请涉及文本分析、文本处理和自然语言处理处理的技术领域，具体而言，涉及一种要素提取方法、装置、电子设备及存储介质。

背景技术

判决书，是指法院对审理结束的案件作出的裁决的具有法律效力文书；常见的判决书大概包括两类：民事判决书和刑事判决书；判决书中包括对当事人的判决结果，其中，当事人包括原告当事人和被告当事人，判决结果由许多结果要素构成，这里的结果要素例如：被告人名称、是否有罪、成立罪名、主刑类型、刑期和罚金等等。

目前对判决书进行要素提取的方法只能实现从判决书中获取部分指定信息，具体例如：检索判决书中是否有数值，将数值确定为罚金；根据判决书的身份性质将判决书进行分类筛选出民事判决书，再根据预设格式模板从民事诉讼的判决书抽取出判决结果等等。在具体的实践过程中发现，使用目前的方法难以有效地从刑事判决书中抽取到判决结果要素。

发明内容

本申请实施例的目的在于提供一种要素提取方法、装置、电子设备及存储介质，用于改善难以有效地从刑事判决书中抽取到判决结果要素的问题。

本申请实施例提供了一种要素提取方法，包括：获得刑事判决书；从刑事判决书中提取至少一个当事人名称；从刑事判决书中筛选出与至少一个当事人名称对应的内容区块，获得至少一个内容区块；使用预设结构化抽取模型从至少一个内容区块中的每个内容区块中提取判决结果要素。在上述的实现过程中，通过先刑事判决书中提取当事人名称，再根据当事人的名称将刑事判决书切块划分为至少一个内容区块，使用预设结构化抽取模型从每个内容区块中提取判决结果要素；也就是说，先提取当事人名称，再提取与当事人的名称对应的判决结果要素，有效地提取到了与当事人的名称有关的判决结果要素，从而改善了难以有效地从刑事判决书中抽取到判决结果要素的问题。

可选地，在本申请实施例中，获得刑事判决书，包括：获得多个判决书；从多个判决书中筛选出至少一个刑事判决书。在上述的实现过程中，通过获得多个判决书；并从多个判决书中筛选出至少一个刑事判决书；从而减少了对无效数据的计算，有效地提高了对判决书的分析和提取速度。

可选地，在本申请实施例中，从刑事判决书中提取至少一个当事人名称，包括：提取刑事判决书中的多个当事人名称；对多个当事人名称进行分组合并，获得至少一个当事人名称。在上述的实现过程中，通过提取刑事判决书中的多个当事人名称；并对多个当事人名称进行分组合并，获得至少一个当事人名称；从而有效地提高了获得当事人的速度，并通过当事人来提取判决结果要素简化了提取运算。

可选地，在本申请实施例中，从刑事判决书中筛选出与至少一个当事人名称对应的内容区块，包括：根据段落标记对刑事判决书进行分段，获得多个划分段落；判断多个划分段落中的每个划分段落是否包括当事人名称；若是，则将划分段落加入当事人名称对应的内容区块。在上述的实现过程中，通过根据段落标记对刑事判决书进行分段，获得多个划分段落；若多个划分段落中的每个划分段落包括当事人名称，则将划分段落加入当事人名称对应的内容区块；从而有效地提高了获得当事人名称对应内容区块的准确率，即从内容区块中提取判决结果要素的准确率。

可选地，在本申请实施例中，预设结构化抽取模型包括：第一抽取表达式集合和第二抽取表达式集合，判决结果要素包括：总罪结果要素和分罪结果要素；使用预设结构化抽取模型从至少一个内容区块中的每个内容区块中提取判决结果要素，包括：判断刑事判决书中是否包括分罪结果要素；若是，则使用第一抽取表达式集合从至少一个内容区块中的每个内容区块中提取总罪结果要素，并使用第二抽取表达式集合从至少一个内容区块中的每个内容区块中提取分罪结果要素；若否，则使用第一抽取表达式集合从至少一个内容区块中的每个内容区块中提取总罪结果要素。

在上述的实现过程中，若刑事判决书中包括分罪结果要素，则抽取总罪结果要素和分罪结果要素；若刑事判决书中不包括分罪结果要素，则仅抽取总罪结果要素；从而有效地提高了提取包括总罪和分罪的判决结果要素的完整度，同时也提高了获得判决结果要素的速度。

可选地，在本申请实施例中，获得刑事判决书，包括：接收终端设备发送的刑事判决书；在使用预设结构化抽取模型从至少一个内容区块中的每个内容区块中提取判决结果要素之后，还包括：向终端设备发送判决结果要素。在上述的实现过程中，通过接收终端设备发送的刑事判决书；在使用预设结构化抽取模型从至少一个内容区块中的每个内容区块中提取判决结果要素之后，还从而有效地提高了终端设备获得判决结果要素的速度。

可选地，在本申请实施例中，在使用预设结构化抽取模型从至少一个内容区块中的每个内容区块中提取判决结果要素之后，还包括：根据判决结果要素构建刑事关系知识图谱；使用刑事关系知识图谱分析刑事判决书的人物关系图；向终端设备发送人物关系图。在上述的实现过程中，通过根据判决结果要素构建刑事关系知识图谱；使用刑事关系知识图谱分析刑事判决书的人物关系图；向终端设备发送人物关系图；从而提高了终端设备有效地获得与当事人有关的人物关系图。

本申请实施例还提供了一种要素提取装置，包括：判决书获得模块，用于获得刑事判决书；判决书提取模块，用于从刑事判决书中提取至少一个当事人名称；内容区块获得模块，用于从刑事判决书中筛选出与至少一个当事人名称对应的内容区块，获得至少一个内容区块；结果要素提取模块，用于使用预设结构化抽取模型从至少一个内容区块中的每个内容区块中提取判决结果要素。

可选地，在本申请实施例中，判决书获得模块，包括：第一获得模块，用于获得多个判决书；判决书筛选模块，用于从多个判决书中筛选出至少一个刑事判决书。

可选地，在本申请实施例中，判决书提取模块，包括；名称提取模块，用于提取刑事判决书中的多个当事人名称；名称获得模块，用于对多个当事人名称进行分组合并，获得至少一个当事人名称。

可选地，在本申请实施例中，内容区块获得模块，包括：划分段落获得模块，用于根据段落标记对刑事判决书进行分段，获得多个划分段落；划分段落判断模块，用于判断多个划分段落中的每个划分段落是否包括当事人名称；划分段落加入模块，用于若多个划分段落中的每个划分段落包括当事人名称，则将划分段落加入当事人名称对应的内容区块。

可选地，在本申请实施例中，判决书获得模块，包括：判决书接收模块，用于接收终端设备发送的刑事判决书；要素提取装置，还包括：结果要素发送模块，用于向终端设备发送判决结果要素。

可选地，在本申请实施例中，要素提取装置，还包括：知识图谱构建模块，用于根据判决结果要素构建刑事关系知识图谱；人物关系分析模块，用于使用刑事关系知识图谱分析刑事判决书的人物关系图；人物关系发送模块，用于向终端设备发送人物关系图。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的要素提取方法的流程示意图；

图2示出的本申请实施例提供的预设结构化抽取模型的示例图；

图3示出的本申请实施例提供的电子设备与终端设备进行交互方法的流程示意图；

图4示出的本申请实施例提供的人物关系图分析方法的流程示意图；

图5示出的本申请实施例提供的要素提取装置的结构示意图；

图6示出的本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

在介绍本申请实施例提供的要素提取方法之前，先介绍本申请实施例所涉及的一些概念：

规范文书，又被称为专用文书，是指在特定环境下，给予某种特定格式的专业文件，规范文书通常具有约定俗称的编写格式和结构框架；这里的规范文书通常用来表达某个指定类型的信息，具有特定的用途；具体例如：在法律领域，法院使用的裁判文书就以指定的格式记录了案件的详细信息。法律规范文书是指在法律领域中，具有某种特定格式的专业文件的规范文书。

正则表达式(regular expression)，有时又称规则表达式，在代码中常简写为regex、regexp或RE，计算机科学的一个概念，正则表达式通常被用来检索、替换那些符合某个模式(pattern)的文本。正则表达式描述了一种字符串匹配的模式(pattern)，可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

机器学习(Machine Learning)，是指人工智能领域中研究人类学习行为的一个分支。借鉴认知科学、生物学、哲学、统计学、信息论、控制论、计算复杂性等学科或理论的观点，通过归纳、一般化、特殊化、类比等基本方法探索人类的认识规律和学习过程，建立各种能通过经验自动改进的算法，使计算机系统能够具有自动学习特定知识和技能的能力。

深度学习(Deep Learning)，是机器学习中一种基于对数据进行表征学习的算法，深度学习是机器学习的分支，也是一种以人工神经网络为架构，对数据进行表征学习的算法。

知识图谱(Knowledge Graph)，是指将知识按照一定规律联系在一起，并能够以图谱的形式展现的方法或工具，在图书情报界称为知识域可视化知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

命名实体识别(Named Entity Recognition，NER)又称作专名识别或者命名实体，是指识别文本中具有特定意义的实体，命名实体主要包括人名、地名、机构名、专有名词等，以及时间、数量、货币、比例数值等文字。命名实体指的是可以用专有名词或名称标识的事物，一个命名实体一般代表唯一一个具体事物个体，具体包括人名、地名等。

双向编码表示编码器(Bidirectional Encoder Representations fromTransformers，BERT)，又被翻译为基于Transformer的双向编码器表征，或者翻译为来自Transformer的双向编码器表示，又被称为双向自注意力层编解码，通常简称为BERT，BERT是一种语言表现层(Representation)模型，该模型的设计目的在于，利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation，即：文本的语义表示，然后将文本的语义表示在特定自然语言处理任务中作微调，最终应用于该自然语言处理任务。在使用双向编码表示编码层进行运算时，即可以使用BERT模型进行编码(encode)、解码(decode)、自注意力(self attention)机制和变形(transformer)等运算。

服务器是指通过网络提供计算服务的设备，服务器例如：x86服务器以及非x86服务器，非x86服务器包括：大型机、小型机和UNIX服务器。当然在具体的实施过程中，上述的服务器可以具体选择大型机或者小型机，这里的小型机是指采用精简指令集计算(ReducedInstruction Set Computing，RISC)、单字长定点指令平均执行速度(MillionInstructions Per Second，MIPS)等专用处理器，主要支持UNIX操作系统的封闭且专用的提供计算服务的设备；这里的大型机，又名大型主机，是指使用专用的处理器指令集、操作系统和应用软件来提供计算服务的设备。

需要说明的是，本申请实施例提供的要素提取方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者上述的服务器，设备终端例如：智能手机、个人电脑(personal computer，PC)、平板电脑、个人数字助理(personal digitalassistant，PDA)、移动上网设备(mobile Internet device，MID)、网络交换机或网络路由器等。

在介绍本申请实施例提供的要素提取方法之前，先介绍该要素提取方法适用的应用场景，这里的应用场景包括但不限于：使用该要素提取方法提取刑事判决书中的刑事判决结果要素或者当事人相关的要素，或者使用该要素提取方法提供从法律规范文书分析服务或者要素提取服务，或者使用该要素提取方法分析法律规范文书中的人物关系，或者提供人物关系分析服务等。

请参见图1示出的本申请实施例提供的要素提取方法的流程示意图；该要素提取方法可以包括如下步骤：

步骤S110：获得刑事判决书。

刑事判决书，是指人民法院依照刑事诉讼法规定的程序，对刑事诉讼案件审理终结，依法对被告人定罪量刑的书面决定的一种具有法律效力的规范文书。

上述步骤S110中的刑事判决书的获得方式包括：第一种方式，使用浏览器等软件获取互联网上的刑事判决书，或者使用其它应用程序访问互联网获得刑事判决书；第二种方式，对刑事判决书进行拍照获得判决书图像，然后使用光学字符识别(OpticalCharacter Recognition，OCR)软件对判决书图像进行识别，获得刑事判决书的具体内容；其中，这里的OCR软件是指利用相机、扫描仪等光学输入设备对票据、订单号、文本文件或其它载体上的字符进行拍摄或扫描，然后对拍摄或扫描后的图像文件进行数字化处理，得到文字信息的应用软件。

当然，在具体的实施过程中，还可以对上述的刑事判决书进行数据清洗，具体的数据清洗方法例如：删除刑事判决书中的原判信息；上述步骤S110中的获得刑事判决书的实施方式还可以包括如下步骤：

步骤S111：获得多个判决书。

上述步骤S111中的多个判决书的获得方式包括：第一种方式，获取预先存储的多个判决书，从文件系统中获取多个判决书，或者从数据库中获取多个判决书；第二种方式，其他终端设备向电子设备发送多个判决书，然后电子设备从其他终端设备接收多个判决书；第三种方式，使用浏览器等软件获取互联网上的多个判决书，或者使用其它应用程序访问互联网获得多个判决书。可以理解的是，这里的多个判决书可以包括：民事诉讼案件中的民事判决书和刑事诉讼案件中的刑事判决书。

步骤S112：从多个判决书中筛选出至少一个刑事判决书。

上述步骤S112中的从多个判决书中筛选出至少一个刑事判决书，可以是指将多个判决书分类为民事判决书和刑事判决书；其中，分类为民事判决书和刑事判决书的具体方法包括：第一种方法，使用人工地阅读理解、检索和判断后，将该判决书进行分类；第二种方法，采用机器学习算法将刑事判决书从多个判决书筛选出来或者分类出来，这里的机器学习算法包括：决策树、贝叶斯学习、基于实例的学习、遗传算法、基于规则学习和深度学习等算法。在上述的实现过程中，通过获得多个判决书；并从多个判决书中筛选出至少一个刑事判决书；从而减少了对无效数据的计算，有效地提高了对判决书的分析和提取速度。

在具体的实施过程中，从多个判决书中筛选刑事判决书的实施方式还可以包括：获取刑事判决书的类型，这里的刑事判决书的类型包括：一审刑事判决书和多审刑事判决书，这里的多审刑事判决书包括：二审刑事判决书和三审刑事判决书等；若刑事判决书的类型为多审刑事判决书，则从该刑事判决书中截去原判信息。具体地，从该刑事判决书中截去原判信息包括：根据原判信息的具体内容确定原判正则表达式，使用该原判正则表达式从该刑事判决书中匹配出原判信息，并从该刑事判决书中截去或删除原判信息；其中，这里的该原判正则表达式例如：@[原前][判犯][^\n]*{0,1}k决定执行，或者@撤销[^,.:；\n]*缓刑部分@。

在步骤S110之后，执行步骤S120：从刑事判决书中提取至少一个当事人名称。

当事人名称，是指刑事判决书中的当事人的唯一标识(identification，ID)，能够唯一标识该当事人身份的标识符号，这里的唯一标识例如：当事人的姓名、当事人的身份证号码、当事人的代号或者代称等。

上述步骤S120中的从刑事判决书中提取至少一个当事人名称的实施方式可以包括如下步骤：

步骤S121：提取刑事判决书中的多个当事人名称。

上述步骤S121中的提取刑事判决书中的多个当事人名称的实施方式例如：使用NER技术或者深度学习技术提取刑事判决书中的多个当事人名称，具体可以使用基于规则和词典的方法、基于统计的方法、基于深度学习领域中的深度神经网络方法或者知识图谱方法等来实现，这里获得的多个当事人名称例如：张三、李四、李四、李四；其中，张三为原告当事人，而李四为被告当事人。

当然，在提取上述当事人名称的实践过程中，可能会存在刑事判决书中不是当事人名称，而是使用“原告”、“被告”和“嫌疑人”之类的指示代词替代当事人名称。此时，可以使用指代消解技术来识别这些指示代词对应的当事人名称，并使用当事人名称替换这些指示代词；指代消解的具体含义将在下面说明，在具体的实施过程中，可以使用的指代消解技术包括：基于词向量技术和基于向量空间模型(Vector Space Model，VSM)的技术；其中，词向量技术具体可以包括：GPT-2和BERT，即可以使用上述经过预训练的语言模型对刑事判决书进行词向量化等操作，这里的GPT-2是OpenAI发布的基于transformer的大型语言模型，GPT-2包含15亿参数、在一个800万网页数据集上训练而成，模型能够生产连贯的文本段落，而且该模型在没有任务特定训练的情况下，GPT-2能够做到初步的阅读理解、机器翻译、问答和自动摘要；这里的VSM是指把对文本内容的处理简化为向量空间中的向量运算，并且向量空间模型以空间上的相似度表达语义的相似度；当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。

其中，上述的指代消解是指在一个语义单位中明确指示代词的指示实体的运输方法；简单地可以理解为消除文章中的歧义，以上面的刑事判决书中出现的“原告”、“被告”和“嫌疑人”等指示代词为例，使用指代消解技术能够从上下文的语义信息中确定上述的指示代词具体指的是那个当事人名称；广义上说，就是在篇章中确定代词指向哪个名词短语的问题。按照指向，可以分为回指和预指；其中，回指就是代词的先行语在代词前面，预指就是代词的先行语在代词后面；按照指代的类型可以分为三类：人称代词、指示代词、有定描述、省略、部分整体指代和普通名词短语等。

步骤S122：对多个当事人名称进行分组合并，获得至少一个当事人名称。

上述步骤S122中的对多个当事人名称进行分组合并的实施方式包括：

步骤S1221：获得刑事判决书中的判决结果内容。

上述步骤S1221的实施方式例如：根据判决结果内容生成判决结果抽取表达式；使用判决结果抽取表达式从刑事判决书中匹配出判决结果内容；其中，上述的判决结果抽取表达式的生成方法可以是人工地对大量刑事判决书进行学习，并总结多个判决书的判决结果，然后写出的从刑事判决书中抽取判决结果内容的正则表达式，也可以是使用机器学习方法或者统计学习方法相关的软件程序生成的正则表达式。

步骤S1222：根据当事人名称对判决结果内容进行分离，获得相对位置偏移量。

相对位置偏移量，是指表征分离的当事人名称相对于判决结果内容的位置偏移量；具体例如：假设判决结果内容一共有10000个字，当事人名称第一次出现在1500个字的位置，那么这里的1500则可以理解为这里的相对位置偏移量。

上述步骤S1222的实施方式例如：由于上面已经将刑事判决书中的所有指示代词替换成了当事人名称，因此，这里的可以根据当事人名称对判决结果进行分类，而不会发生遗漏当事人名称的情况。若当事人名称是张三，根据张三对判决结果内容进行分离，假设判决结果内容一共有10000个字，而张三分别出现在判决结果的第2000个字的位置和3000个字的位置，那么张三相对于判决结果内容的位置偏移量为[2000,3000]，将这里的[2000,3000]作为相对位置偏移量进行保存，具体可以保存在内存缓存、硬盘文件或者数据库服务器中。

步骤S1223：将当事人名称与相对位置偏移量进行关联，获得名称偏移关联关系。

上述步骤S1223的实施方式例如：若当事人名称是张三，且相对位置偏移量是[2000,3000]，则将张三与[2000,3000]进行关联，获得名称偏移关联关系，这里的名称偏移关联关系可以使用脚本对象简谱(JavaScript Object Notation，JSON)格式表示为[{"id":"1","当事人名称":"张三","相对位置偏移量":"2000,3000"}]。

步骤S1224：根据名称偏移关联关系对多个当事人名称进行分组合并，获得至少一个当事人名称。

上述步骤S1224的实施方式例如：假设上述的名称偏移关联关系使用JSON格式表示为[{"id":"1","当事人名称":"张三","相对位置偏移量":"2000,3000"},{"id":"2","当事人名称":"李四","相对位置偏移量":"3500,4500"},{"id":"3","当事人名称":"李四","相对位置偏移量":"5000,6000"},{"id":"4","当事人名称":"李四","相对位置偏移量":"6500,7500"}]；那么可以理解的是，从上述的名称偏移关联关系提取出所有的当事人名称，即可获得这里的多个当事人名称为：[张三、李四、李四、李四]，对多个当事人名称进行分组操作后，获得第一当事人集合为：[[张三]、[李四、李四、李四]]；对第一当事人集合进行合并，获得第二当事人名称集合为[[张三]、[李四]]；将第二当事人名称集合确定为上述的至少一个当事人名称。在上述的实现过程中，通过提取刑事判决书中的多个当事人名称；并对多个当事人名称进行分组合并，获得至少一个当事人名称；从而有效地提高了获得当事人的速度，并通过当事人来提取判决结果要素简化了提取运算。

在步骤S120之后，执行步骤S130：从刑事判决书中筛选出与至少一个当事人名称对应的内容区块，获得至少一个内容区块。

内容区块，是指与当事人名称对应的逻辑划分的内容单位，在具体的实施过程中，通常内容单位可以包括一个段落或者多个段落；当然，也可以根据具体实际情况，将一个语句或者多个语句为内容单位作为一个内容区块。

上述步骤S130中的从刑事判决书中筛选出与至少一个当事人名称对应的内容区块的实施方式可以包括如下步骤：

步骤S131：根据段落标记对刑事判决书进行分段，获得多个划分段落。

步骤S132：判断多个划分段落中的每个划分段落是否包括当事人名称。

步骤S133：若多个划分段落中的每个划分段落包括当事人名称，则将划分段落加入当事人名称对应的内容区块。

上述步骤S131至步骤S133的实施方式例如：根据段落标记对刑事判决书的文本内容进行分段，获得多个划分段落；判断多个划分段落中的每个划分段落是否包括当事人名称；若多个划分段落中的其中一个划分段落包括当事人名称，则将划分段落加入当事人名称对应的内容区块；若多个划分段落中的该划分段落不包括当事人名称，则判断该划分段落在语义上是否属于当事人名称，若是，则将划分段落加入当事人名称对应的内容区块；若不是，则继续判断下一个段落是否包括当事人名称，直到所有的段落都被判断完。在上述的实现过程中，通过根据段落标记对刑事判决书进行分段，获得多个划分段落；若多个划分段落中的每个划分段落包括当事人名称，则将划分段落加入当事人名称对应的内容区块；从而有效地提高了获得当事人名称对应内容区块的准确率，即从内容区块中提取判决结果要素的准确率。

在步骤S130之后，执行步骤S140：使用预设结构化抽取模型从至少一个内容区块中的每个内容区块中提取判决结果要素。

请参见图2示出的本申请实施例提供的预设结构化抽取模型的示例图；结构化抽取模型，是指由抽取要素信息的正则表达式构成的抽取框架，这里的结构化抽取模型可以包括多个节点和从属于多个节点的子节点，每个节点或者子节点均对应一个或多个抽取要素信息的正则表达式，节点名称代表抽取要素信息的名称，节点内容为抽取要素信息的正则表达式。具体例如：预设结构化抽取模型的多个节点可以包括：被告人名称、有罪、成立罪名、数罪并罚、免于刑事责任、免于刑事责任依据、主刑类型、刑期、执行制度、罚金、处罚金额、剥夺政治权利、没收财产、驱逐出境和分罪处罚明细；其中，名称为分罪处罚明细的节点又包括从属于该节点的多个子节点，这里的多个子节点可以包括：罪名、主刑类型、刑期、执行制度、罚金、处罚金额、剥夺政治权利、没收财产和驱逐出境。

上述的预设结构化抽取模型的构建过程可以例如：人工地对大量刑事判决书进行学习，并总结多个判决书的判决结果，然后写出的从刑事判决书中抽取判决结果内容的人工编写正则表达式，也可以是使用机器学习方法或者统计学习方法相关的软件程序生成的机器生成正则表达式；然后再将上述的人工编写正则表达式和/或机器生成正则表达式按照预设组织结构存储为预设结构化抽取模型。这里的预设结构化抽取模型用于从内容区块中提取判决结果要素，其可包括抽取表达式；这里的预设结构化抽取模型包括：第一抽取表达式集合和第二抽取表达式集合；其中，这里的抽取表达式是指用于抽取特定目标信息的正则表达式，具体例如：这里的第一抽取表达式用于抽取与总罪相关的内容，第一抽取表达式集合是总罪结果对应的表达式集合；这里的第二抽取表达式用于抽取与分罪相关的内容，第二抽取表达式集合是与分罪结果对应的表达式集合。

上述步骤S140中的使用预设结构化抽取模型从至少一个内容区块中的每个内容区块中提取判决结果要素的实施方式可以包括如下步骤：

步骤S141：判断刑事判决书中是否包括分罪结果要素。

上述步骤S141的实施方式例如：判断刑事判决书中是否包括预设关键字，该预设关键字表征数罪并罚的含义，若刑事判决书中包括预设关键字，则确定刑事判决书中包括分罪结果要素；相应地，若刑事判决书中不包括预设关键字，则确定刑事判决书中不包括分罪结果要素。

步骤S142：若刑事判决书中包括分罪结果要素，则使用第一抽取表达式集合从至少一个内容区块中的每个内容区块中提取总罪结果要素，并使用第二抽取表达式集合从至少一个内容区块中的每个内容区块中提取分罪结果要素。

上述的第一抽取表达式集合可以是用于抽取被告人名称、有罪、成立罪名、数罪并罚、免于刑事责任、免于刑事责任依据、主刑类型、刑期、执行制度、罚金、处罚金额、剥夺政治权利、没收财产和驱逐出境等总罪结果要素的正则表达式集合。上述的第二抽取表达式集合可以是用于罪名、主刑类型、刑期、执行制度、罚金、处罚金额、剥夺政治权利、没收财产和驱逐出境等分罪结果要素的正则表达式集合。

上述的步骤S142的实施方式例如：若刑事判决书中包括分罪结果要素，则在刑事判决书中查找预设罪名，这里的预设罪名是指上述的第一抽取表达式集合的成立罪名，将刑事判决书中的全部内容按照预设罪名分离为总罪相关内容和分罪相关内容，并使用第二抽取表达式集合从分罪相关内容的每个内容区块中提取分罪结果要素，然后使用第一抽取表达式集合从总罪相关内容的每个内容区块中提取总罪结果要素。在具体的实施过程中，也可以先使用第二抽取表达式集合从分罪相关内容中抽取罪名列表，并根据罪名列表抽取每项分罪结果要素，当抽取完每项分罪结果要素，便将该分罪结果要素对应的内容从刑事判决书中删除，最后使用第一抽取表达式集合从剩下的内容中提取总罪结果要素。

步骤S143：若刑事判决书中不包括分罪结果要素，则使用第一抽取表达式集合从至少一个内容区块中的每个内容区块中提取总罪结果要素。

其中，该步骤S143的实施原理和实施方式与步骤S142的实施原理和实施方式是相似或类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S142的描述。

当然，在具体的实施过程中，在抽取到多个当事人名称对应的判决结果要素之后，还可以将多个当事人名称对应的判决结果要素发送给其它电子设备，以便该电子设备进行展示，或者直接在执行该要素提取方法的电子设备上输出展示，例如，显示多个当事人名称中的每个当事人名称，以及显示每个当事人名称对应的判决结果要素，这里的判决结果要素可以包括总罪结果要素和/分罪结果要素。

在上述的实现过程中，通过先刑事判决书中提取当事人名称，再根据当事人的名称将刑事判决书切块划分为至少一个内容区块，使用预设结构化抽取模型从每个内容区块中提取判决结果要素；也就是说，先提取当事人名称，再提取与当事人的名称对应的判决结果要素，有效地提取到了与当事人的名称有关的判决结果要素，从而改善了难以有效地从刑事判决书中抽取到判决结果要素的问题。

请参见图3示出的本申请实施例提供的电子设备与终端设备进行交互方法的流程示意图；可选地，在本申请实施例中，电子设备还可以与终端设备进行交互，具体例如：使用上述的要素提取方法来提供判决结果要素分析服务，那么电子设备与终端设备进行交互方法可以包括：

步骤S210：电子设备接收终端设备发送的刑事判决书。

上述的步骤S210的实施方式例如：电子设备通过传输控制协议(TransmissionControl Protocol，TCP)或者用户数据报协议(User Datagram Protocol，UDP)接收终端设备发送的刑事判决书；这里的TCP协议又名网络通讯协议，是一种面向连接的、可靠的、基于字节流的传输层通信协议；在因特网协议族(Internet protocol suite)中，TCP层是位于IP层之上，应用层之下的中间层；不同主机的应用层之间经常需要可靠的、像管道一样的连接，但是IP层不提供这样的流机制，而是提供不可靠的包交换。这里的UDP协议是UserDatagram Protocol的简称，中文名是用户数据报协议，UDP协议是开放式系统互联(OpenSystem Interconnection，OSI)参考模型中一种无连接的传输层协议，提供面向事务的简单不可靠信息传送服务。

步骤S220：电子设备从刑事判决书中提取至少一个当事人名称。

步骤S230：电子设备从刑事判决书中筛选出与至少一个当事人名称对应的内容区块，获得至少一个内容区块。

步骤S240：电子设备使用预设结构化抽取模型从至少一个内容区块中的每个内容区块中提取判决结果要素。

其中，上述步骤S220至步骤S240的实施原理和实施方式与步骤S120至步骤S140的实施原理和实施方式是相似或类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S120至步骤S140的描述。

步骤S250：电子设备向终端设备发送判决结果要素。

上述步骤S250中的电子设备向终端设备发送判决结果要素的实施方式例如：电子设备通过TCP协议或者UDP协议向终端设备发送判决结果要素，终端设备以脚本对象简谱(JavaScript Object Notation，JSON)格式或者可扩展标记语言(eXtensible MarkupLanguage，XML)格式展示在该终端设备上；这里的JSON是一种轻量级的数据交换格式；JSON基于ECMAScript(欧洲计算机协会制定的js规范)的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得JSON成为理想的数据交换语言；易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输效率；这里的XML是指标准通用标记语言的子集，也是一种用于标记电子文件使其具有结构性的标记语言。

在上述的实现过程中，通过接收终端设备发送的刑事判决书；在使用预设结构化抽取模型从至少一个内容区块中的每个内容区块中提取判决结果要素之后，还从而有效地提高了终端设备获得判决结果要素的速度。

请参见图4示出的本申请实施例提供的人物关系图分析方法的流程示意图；可选地，在本申请实施例中，在上述要素提取方法之后，还可以使用判决结果要素分析刑事判决书中的人物关系图，那么人物关系图分析方法可以包括：

步骤S310：电子设备接收终端设备发送的刑事判决书。

步骤S320：电子设备从刑事判决书中提取至少一个当事人名称。

步骤S330：电子设备从刑事判决书中筛选出与至少一个当事人名称对应的内容区块，获得至少一个内容区块。

步骤S340：电子设备使用预设结构化抽取模型从至少一个内容区块中的每个内容区块中提取判决结果要素。

其中，上述步骤S310至步骤S340的实施原理和实施方式与步骤S210至步骤S240的实施原理和实施方式是相似或类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S210至步骤S240的描述。

步骤S350：电子设备根据判决结果要素构建刑事关系知识图谱。

上述步骤S350中的电子设备根据判决结果要素构建刑事关系知识图谱的实施方式例如：电子设备使用知识图谱工具根据判决结果要素构建刑事关系知识图谱；这里的知识图谱工具例如可以是非关系型数据库，这里的非关系型数据库又可以理解为NoSQL数据库，常见的可以构建知识图谱的NoSQL数据库例如：Neo4j图数据库和grakn知识图谱管理系统等等。上述构建刑事关系知识图谱的具体方法例如：将获得的判决结果要素存储至Neo4j图数据库中，并按照判决结果要素中的当事人名称与当事人之间的关系构建刑事关系知识图谱。当然，在构建刑事关系知识图谱之后，还可以更新刑事关系知识图谱，具体例如：为了保证当事人与当事人之间关系的准确率，便于后期的案情挖掘和案件分析，可以对该知识图谱进行周期性更新，即每隔三个月，进行基于当事人关系的知识图谱更新。

在具体的实施过程中，电子设备还可以使用机器学习方法和深度学习方法学习和分析判决书获得的判决结果要素，具体例如：根据每个判决结果要素在业务知识体系中的分类打上业务标签，以判决结果要素为训练数据，以业务标签为训练标签，对深度神经网络进行训练，获得深度神经网络模型；并使用深度神经网络模型对后续分析出来的判决结果要素进行分类。

步骤S360：电子设备使用刑事关系知识图谱分析刑事判决书的人物关系图。

上述步骤S360中电子设备使用刑事关系知识图谱分析刑事判决书的人物关系图的方式例如：电子设备根据当事人名称生成数据库查询语句，将数据库查询语句输入Neo4j图数据库和grakn知识图谱数据库，从Neo4j图数据库和grakn知识图谱数据库查询获得与当事人相关的其它关键人的人物关系图。

步骤S370：电子设备向终端设备发送人物关系图。

上述步骤S370中的电子设备向终端设备发送人物关系图的实施方式例如：电子设备通过超文本传输协议(Hyper Text Transfer Protocol，HTTP)或者超文本传输安全协议(HyperText Transfer Protocol Secure，HTTPS)向终端设备发送人物关系图；其中，这里的HTTP协议是一个简单的请求响应协议，HTTP协议通常运行在传输控制协议(Transmission Control Protocol，TCP)之上，HTTP协议指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应；这里的HTTPS协议又称为HTTP Secure，是一种通过计算机网络进行安全通信的传输协议；HTTPS开发的主要目的，是提供对网站服务器的身份认证，保护交换数据的隐私与完整性。又称为HTTP Secure，是一种通过计算机网络进行安全通信的传输协议；HTTPS开发的主要目的，是提供对网站服务器的身份认证，保护交换数据的隐私与完整性。

在上述的实现过程中，通过根据判决结果要素构建刑事关系知识图谱；使用刑事关系知识图谱分析刑事判决书的人物关系图；向终端设备发送人物关系图；从而提高了终端设备有效地获得与当事人有关的人物关系图。

请参见图5示出的本申请实施例提供的要素提取装置的结构示意图；本申请实施例提供了一种要素提取装置400，包括：

判决书获得模块410，用于获得刑事判决书。

判决书提取模块420，用于从刑事判决书中提取至少一个当事人名称。

内容区块获得模块430，用于从刑事判决书中筛选出与至少一个当事人名称对应的内容区块，获得至少一个内容区块。

结果要素提取模块440，用于使用预设结构化抽取模型从至少一个内容区块中的每个内容区块中提取判决结果要素。

可选地，在本申请实施例中，判决书获得模块，包括：

第一获得模块，用于获得多个判决书。

判决书筛选模块，用于从多个判决书中筛选出至少一个刑事判决书。

可选地，在本申请实施例中，判决书提取模块，包括。

名称提取模块，用于提取刑事判决书中的多个当事人名称。

名称获得模块，用于对多个当事人名称进行分组合并，获得至少一个当事人名称。

可选地，在本申请实施例中，内容区块获得模块，包括：

划分段落获得模块，用于根据段落标记对刑事判决书进行分段，获得多个划分段落。

划分段落判断模块，用于判断多个划分段落中的每个划分段落是否包括当事人名称。

划分段落加入模块，用于若多个划分段落中的每个划分段落包括当事人名称，则将划分段落加入当事人名称对应的内容区块。

可选地，在本申请实施例中，判决书获得模块，还可以包括：

判决书接收模块，用于接收终端设备发送的刑事判决书。

要素提取装置，还包括：

结果要素发送模块，用于向终端设备发送判决结果要素。

可选地，在本申请实施例中，要素提取装置，还包括：

知识图谱构建模块，用于根据判决结果要素构建刑事关系知识图谱。

人物关系分析模块，用于使用刑事关系知识图谱分析刑事判决书的人物关系图。

人物关系发送模块，用于向终端设备发送人物关系图。

应理解的是，该装置与上述的要素提取方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

请参见图6示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备500，包括：处理器510和存储器520，存储器520存储有处理器510可执行的机器可读指令，机器可读指令被处理器510执行时执行如上的方法。

本申请实施例还提供了一种存储介质530，该存储介质530上存储有计算机程序，该计算机程序被处理器510运行时执行如上的方法。

其中，存储介质530可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Red-Only Memory,简称PROM)，只读存储器(Read-Only Memory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种要素提取方法，其特征在于，包括：

获得刑事判决书；

从所述刑事判决书中提取至少一个当事人名称；

使用指代消解技术将所述刑事判决书中指代当事人名称的词语替换为当事人名称；

从所述刑事判决书中筛选出与所述至少一个当事人名称对应的内容区块，获得至少一个内容区块；

所述从所述刑事判决书中筛选出与所述至少一个当事人名称对应的内容区块，包括：

根据段落标记对所述刑事判决书进行分段，获得多个划分段落；

判断所述多个划分段落中的每个划分段落是否包括当事人名称；

若是，则将所述划分段落加入所述当事人名称对应的内容区块；

使用预设结构化抽取模型从所述至少一个内容区块中的每个内容区块中提取判决结果要素；

所述从所述刑事判决书中提取至少一个当事人名称，包括：

提取所述刑事判决书中的多个当事人名称；

对所述多个当事人名称进行分组合并，获得所述至少一个当事人名称；

对所述多个当事人名称进行分组合并，获得所述至少一个当事人名称，包括：获得所述刑事判决书中的判决结果内容；根据所述当事人名称对所述判决结果内容进行分离，获得相对位置偏移量；将所述当事人名称与所述相对位置偏移量进行关联，获得名称偏移关联关系；根据所述名称偏移关联关系对多个所述当事人名称进行分组合并，获得所述至少一个当事人名称。

2.根据权利要求1所述的方法，其特征在于，所述获得刑事判决书，包括：

获得多个判决书；

从所述多个判决书中筛选出至少一个所述刑事判决书。

3.根据权利要求1所述的方法，其特征在于，所述预设结构化抽取模型包括：第一抽取表达式集合和第二抽取表达式集合，所述判决结果要素包括：总罪结果要素和分罪结果要素；所述使用预设结构化抽取模型从所述至少一个内容区块中的每个内容区块中提取判决结果要素，包括：

判断所述刑事判决书中是否包括所述分罪结果要素；

若是，则使用所述第一抽取表达式集合从所述至少一个内容区块中的每个内容区块中提取所述总罪结果要素，并使用所述第二抽取表达式集合从所述至少一个内容区块中的每个内容区块中提取所述分罪结果要素；

若否，则使用所述第一抽取表达式集合从所述至少一个内容区块中的每个内容区块中提取所述总罪结果要素。

4.根据权利要求1-3任一所述的方法，其特征在于，所述获得刑事判决书，包括：

接收终端设备发送的刑事判决书；

在所述使用预设结构化抽取模型从所述至少一个内容区块中的每个内容区块中提取判决结果要素之后，还包括：

向所述终端设备发送所述判决结果要素。

5.根据权利要求4所述的方法，其特征在于，在所述使用预设结构化抽取模型从所述至少一个内容区块中的每个内容区块中提取判决结果要素之后，还包括：

根据所述判决结果要素构建刑事关系知识图谱；

使用所述刑事关系知识图谱分析所述刑事判决书的人物关系图；

向所述终端设备发送所述人物关系图。

6.一种要素提取装置，其特征在于，包括：

判决书获得模块，用于获得刑事判决书；

判决书提取模块，用于从所述刑事判决书中提取至少一个当事人名称，使用指代消解技术将所述刑事判决书中指代当事人名称的词语替换为当事人名称；

内容区块获得模块，用于从所述刑事判决书中筛选出与所述至少一个当事人名称对应的内容区块，获得至少一个内容区块；

所述内容区块获得模块包括：划分段落获得模块，用于根据段落标记对刑事判决书进行分段，获得多个划分段落；划分段落判断模块，用于判断多个划分段落中的每个划分段落是否包括当事人名称；划分段落加入模块，用于若多个划分段落中的每个划分段落包括当事人名称，则将划分段落加入当事人名称对应的内容区块；

结果要素提取模块，用于使用预设结构化抽取模型从所述至少一个内容区块中的每个内容区块中提取判决结果要素；

所述判决书提取模块，包括：

名称提取模块，用于提取所述刑事判决书中的多个当事人名称

名称获得模块，用于对所述多个当事人名称进行分组合并，获得所述至少一个当事人名称；

所述名称获得模块，还用于获得所述刑事判决书中的判决结果内容；根据所述当事人名称对所述判决结果内容进行分离，获得相对位置偏移量；将所述当事人名称与所述相对位置偏移量进行关联，获得名称偏移关联关系；根据所述名称偏移关联关系对多个所述当事人名称进行分组合并，获得所述至少一个当事人名称。

7.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至5任一所述的方法。

8.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至5任一所述的方法。