CN111783420A

CN111783420A - 基于bert模型的抗诉书要素抽取方法、系统、介质及设备

Info

Publication number: CN111783420A
Application number: CN202010566920.5A
Authority: CN
Inventors: 张月国; 蒋兴浩; 盛海涛; 孙锬锋; 董莉莉; 姚立红
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2020-10-16

Abstract

本发明提供了一种基于BERT模型的抗诉书要素抽取方法、系统、介质及设备，包括：步骤1：根据段落标志信息，利用段落标志对刑事抗诉书文本进行段落划分，获取以下任一种或者任多种段落信息；步骤2：根据段落对应要素抽取控制信息，通过要素抽取单元从四个段落中抽取段落对应要素；步骤3：根据要素组织整合信息，将所述抽取得到的要素进行组织整合，得到整个刑事抗诉书文本的要素，获取基于BERT模型的抗诉书要素抽取结果信息。本发明通过微调BERT模型并进行针对性优化、改进TextTeaser抽取式文本摘要算法、建立案由词典，有效从刑事抗诉书中抽取12项要素，解决了刑事抗诉书要素抽取效率低、准确度差的问题。

Description

基于BERT模型的抗诉书要素抽取方法、系统、介质及设备

技术领域

本发明涉及BERT模型技术领域，具体地，涉及基于BERT模型的抗诉书要素抽取方法、系统、介质及设备，尤其是一种基于BERT模型的刑事抗诉书要素抽取方法、系统、介质及设备。

背景技术

目前，检察系统正经历着深层次变革，面临着重大机遇和挑战，审判活动监督实务中缺乏有效的支撑工具和方法，办案人员依靠人工方式开展监督工作。对于刑事抗诉书的要素抽取，多为人工标记，效率低下，准确率低。

专利文献CN110765889A的中国专利，公开了“法律文书的特征提取方法、相关装置及存储介质”，这种法律文书的特征提取方法，虽然能够对法律文书进行特征提取，但却缺乏针对审判监督领域深入研究，提取特征数量少，不充分，不具体；虽然能够融合三种网络(TextCNN，TextRNN，TextRCNN)实现了神经网络模型，但未能结合准确度更高，效果更好，更新颖的BERT模型进行使用。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于BERT模型的抗诉书要素抽取方法、系统、介质及设备。

根据本发明提供的一种基于BERT模型的抗诉书要素抽取方法，包括：步骤1：根据段落标志信息，利用段落标志对刑事抗诉书文本进行段落划分，获取以下任一种或者任多种段落信息：-文本头部段落信息；-审查意见段落信息；-抗诉理由段落信息；-结束段落信息；步骤2：根据段落对应要素抽取控制信息，通过要素抽取单元从四个段落中抽取段落对应要素；所述要素抽取单元包括以下任一种或者任多种：-Bert+Dense网络单元；-Bert+BiLSTM+CRF网络单元；-TextTeaser改进算法单元；-案由抽取单元；-正则表达式单元；步骤3：根据要素组织整合信息，将所述抽取得到的要素进行组织整合，得到整个刑事抗诉书文本的要素，获取基于BERT模型的抗诉书要素抽取结果信息。

优选地，所述步骤2包括：步骤2.1：通过正则表达式单元从文书头部段落抽取抗诉书号、判决书号、检察院、法院、法律依据；从检察院观点段落抽取审查意见；从结束段落抽取抗诉时间；通过案由抽取单元从文书头部段落抽取案由；

优选地，所述步骤2还包括：步骤2.2：通过Bert+BiLSTM+CRF网络单元从文书头部段落抽取案件主体。

优选地，所述步骤2还包括：步骤2.3：通过Bert+Dense网络单元从观点详述段落生成抗诉标签；步骤2.4：通过TextTeaser改进算法单元从观点详述段落生成案件描述；其中输入标题内容时，用到了步骤2.1抽取到的审查意见。

根据本发明提供的一种基于BERT模型的抗诉书要素抽取系统，包括：模块M1：根据段落标志信息，利用段落标志对刑事抗诉书文本进行段落划分，获取以下任一种或者任多种段落信息：-文本头部段落信息；-审查意见段落信息；-抗诉理由段落信息；-结束段落信息；模块M2：根据段落对应要素抽取控制信息，通过要素抽取单元从四个段落中抽取段落对应要素；所述要素抽取单元包括以下任一种或者任多种：-Bert+Dense网络单元；-Bert+BiLSTM+CRF网络单元；-TextTeaser改进算法单元；-案由抽取单元；-正则表达式单元；模块M3：根据要素组织整合信息，将所述抽取得到的要素进行组织整合，得到整个刑事抗诉书文本的要素，获取基于BERT模型的抗诉书要素抽取结果信息。

优选地，所述模块M2包括：模块M2.1：通过正则表达式单元从文书头部段落抽取抗诉书号、判决书号、检察院、法院、法律依据；从检察院观点段落抽取审查意见；从结束段落抽取抗诉时间；通过案由抽取单元从文书头部段落抽取案由；

优选地，所述模块M2还包括：模块M2.2：通过Bert+BiLSTM+CRF网络单元从文书头部段落抽取案件主体。

优选地，所述模块M2还包括：模块M2.3：通过Bert+Dense网络单元从观点详述段落生成抗诉标签；模块M2.4：通过TextTeaser改进算法单元从观点详述段落生成案件描述；其中输入标题内容时，用到了模块M2.1抽取到的审查意见。

根据本发明提供的一种存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现基于BERT模型的抗诉书要素抽取方法的步骤。

根据本发明提供的一种基于BERT模型的抗诉书要素抽取设备，包括：控制器；所述控制器包存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现基于BERT模型的抗诉书要素抽取方法的步骤；或者，所述控制器包括基于BERT模型的抗诉书要素抽取系统。

与现有技术相比，本发明具有如下的有益效果：

1、本发明基于BERT模型、TextTeaser改进算法对刑事抗诉书中“抗诉书号、判决书号、检察院、法院、案件主体、原判决、案由、审查意见、案件描述、抗诉标签、法律依据、抗诉时间共12项要素”进行要素抽取，能够克服现有技术的缺陷；

2、本发明中，微调BERT模型进行多标签分类、命名实体识别时，在网络结构、损失函数、额外预训练三个方面上进行了针对性的优化；

3、本发明中，TextTeaser改进算法中加入了刑事抗诉书特征及列项句分数计算、改进对句子位置的权重计算方法；抽取案由要素时建立了案由词典，采用案由词典匹配与案由语法结构分析相结合的方法抽取案由要素；

4、本发明通过微调BERT模型并进行针对性优化、改进TextTeaser抽取式文本摘要算法、建立案由词典，有效从刑事抗诉书中抽取12项要素，解决了刑事抗诉书要素抽取效率低、准确度差的问题。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例中要素抽取流程示意图。

图2为本发明实施例中要素抽取单元示意图。

图3为本发明实施例中Bert+Dense网络单元示意图。

图4为本发明实施例中Bert+BiLSTM+CRF网络单元示意图。

图5为本发明实施例中TextTeaser改进算法单元示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

如图1-5所示，根据本发明提供的一种基于BERT模型的抗诉书要素抽取方法，包括：步骤1：根据段落标志信息，利用段落标志对刑事抗诉书文本进行段落划分，获取以下任一种或者任多种段落信息：-文本头部段落信息；-审查意见段落信息；-抗诉理由段落信息；-结束段落信息；步骤2：根据段落对应要素抽取控制信息，通过要素抽取单元从四个段落中抽取段落对应要素；所述要素抽取单元包括以下任一种或者任多种：-Bert+Dense网络单元；-Bert+BiLSTM+CRF网络单元；-TextTeaser改进算法单元；-案由抽取单元；-正则表达式单元；步骤3：根据要素组织整合信息，将所述抽取得到的要素进行组织整合，得到整个刑事抗诉书文本的要素，获取基于BERT模型的抗诉书要素抽取结果信息。

本发明基于BERT模型、TextTeaser改进算法对刑事抗诉书中“抗诉书号、判决书号、检察院、法院、案件主体、原判决、案由、审查意见、案件描述、抗诉标签、法律依据、抗诉时间共12项要素”进行要素抽取，能够克服现有技术的缺陷；本发明中，微调BERT模型进行多标签分类、命名实体识别时，在网络结构、损失函数、额外预训练三个方面上进行了针对性的优化；本发明中，TextTeaser改进算法中加入了刑事抗诉书特征及列项句分数计算、改进对句子位置的权重计算方法；抽取案由要素时建立了案由词典，采用案由词典匹配与案由语法结构分析相结合的方法抽取案由要素。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、单元、系统以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、单元、系统以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、单元、系统可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、单元、系统也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、单元、系统视为既可以是实现方法的软件单元又可以是硬件部件内的结构。

在本申请的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于BERT模型的抗诉书要素抽取方法，其特征在于，包括：

步骤1：根据段落标志信息，利用段落标志对刑事抗诉书文本进行段落划分，获取以下任一种或者任多种段落信息：

-文本头部段落信息；

-审查意见段落信息；

-抗诉理由段落信息；

-结束段落信息；

步骤2：根据段落对应要素抽取控制信息，通过要素抽取单元从四个段落中抽取段落对应要素；

所述要素抽取单元包括以下任一种或者任多种：

-Bert+Dense网络单元；

-Bert+BiLSTM+CRF网络单元；

-TextTeaser改进算法单元；

-案由抽取单元；

-正则表达式单元；

步骤3：根据要素组织整合信息，将所述抽取得到的要素进行组织整合，得到整个刑事抗诉书文本的要素，获取基于BERT模型的抗诉书要素抽取结果信息。

2.根据权利要求1所述的基于BERT模型的抗诉书要素抽取方法，其特征在于，所述步骤2包括：

步骤2.1：通过正则表达式单元从文书头部段落抽取抗诉书号、判决书号、检察院、法院、法律依据；从检察院观点段落抽取审查意见；从结束段落抽取抗诉时间；通过案由抽取单元从文书头部段落抽取案由。

3.根据权利要求2所述的基于BERT模型的抗诉书要素抽取方法，其特征在于，所述步骤2还包括：

步骤2.2：通过Bert+BiLSTM+CRF网络单元从文书头部段落抽取案件主体。

4.根据权利要求3所述的基于BERT模型的抗诉书要素抽取方法，其特征在于，所述步骤2还包括：

步骤2.3：通过Bert+Dense网络单元从观点详述段落生成抗诉标签；

步骤2.4：通过TextTeaser改进算法单元从观点详述段落生成案件描述；

其中输入标题内容时，用到了步骤2.1抽取到的审查意见。

5.一种基于BERT模型的抗诉书要素抽取系统，其特征在于，包括：

模块M1：根据段落标志信息，利用段落标志对刑事抗诉书文本进行段落划分，获取以下任一种或者任多种段落信息：

-文本头部段落信息；

-审查意见段落信息；

-抗诉理由段落信息；

-结束段落信息；

模块M2：根据段落对应要素抽取控制信息，通过要素抽取单元从四个段落中抽取段落对应要素；

所述要素抽取单元包括以下任一种或者任多种：

-Bert+Dense网络单元；

-Bert+BiLSTM+CRF网络单元；

-TextTeaser改进算法单元；

-案由抽取单元；

-正则表达式单元；

模块M3：根据要素组织整合信息，将所述抽取得到的要素进行组织整合，得到整个刑事抗诉书文本的要素，获取基于BERT模型的抗诉书要素抽取结果信息。

6.根据权利要求5所述的基于BERT模型的抗诉书要素抽取系统，其特征在于，所述模块M2包括：

模块M2.1：通过正则表达式单元从文书头部段落抽取抗诉书号、判决书号、检察院、法院、法律依据；从检察院观点段落抽取审查意见；从结束段落抽取抗诉时间；通过案由抽取单元从文书头部段落抽取案由。

7.根据权利要求6所述的基于BERT模型的抗诉书要素抽取系统，其特征在于，所述模块M2还包括：

模块M2.2：通过Bert+BiLSTM+CRF网络单元从文书头部段落抽取案件主体。

8.根据权利要求7所述的基于BERT模型的抗诉书要素抽取系统，其特征在于，所述模块M2还包括：

模块M2.3：通过Bert+Dense网络单元从观点详述段落生成抗诉标签；

模块M2.4：通过TextTeaser改进算法单元从观点详述段落生成案件描述；

其中输入标题内容时，用到了模块M2.1抽取到的审查意见。

9.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的基于BERT模型的抗诉书要素抽取方法的步骤。

10.一种基于BERT模型的抗诉书要素抽取设备，其特征在于，包括：控制器；

所述控制器包括权利要求9所述的存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的基于BERT模型的抗诉书要素抽取方法的步骤；或者，所述控制器包括权利要求5至8中任一项所述的基于BERT模型的抗诉书要素抽取系统。