CN113609840B

CN113609840B - 一种汉语法律判决摘要生成方法及系统

Info

Publication number: CN113609840B
Application number: CN202110980483.6A
Authority: CN
Inventors: 李东晋; 彭德中; 郑鈜; 汪灏
Original assignee: Xihua University
Current assignee: Xihua University
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2023-06-16
Anticipated expiration: 2041-08-25
Also published as: CN113609840A

Abstract

本发明公开了一种汉语法律判决摘要生成方法及系统，属于法律文书数据处理的技术领域，该生成方法包括：S1：从原始法律判决中提取重要的语句；S2：根据上述各个语句的语篇结构分别对其进行分词；S3：根据分词后所获取的关键语句生成抽象摘要，并将抽象摘要融合为法律判决摘要，以达到解决法律判决存在输入长度长、语篇结构特殊以及显著内容分布均匀的问题，能有效生成汉语法律判决的目的。

Description

一种汉语法律判决摘要生成方法及系统

技术领域

本发明属于法律文书数据处理的技术领域，具体而言，涉及一种汉语法律判决摘要生成方法及系统。

背景技术

随着互联网上大量的文本内容、新闻、论文、法律文件等各种文档以指数形式增长，自动文本摘要变得越来越重要。人工摘要需要耗费大量的时间、精力和成本，在文本内容庞大的情况下变得不切实际，因此，对各类文本进行一个“降维”处理显得非常必要。

自动文本摘要技术已被应用于中文法律判决文件的自动汇总，该方法利用领域的元素结构，如：新闻文章、电子邮件、科学论文和法律判决。首先，我们提取了近几年来取得巨大成功的高质量的句子以证明其对法律判决的重要性；其次，由于在线提供大量法律判决、句子及其摘要被分为不同的部分，越来越多的人需要能够生成用于自动文本摘要的目标元素对的系统，这将减少繁重和抽象的模型，以总结法律专业人员冗余工作的不同要素，并分别提供可靠的判断；最后，一个完整的总结是指那些不熟悉法律的人，通过结合我们所研究领域的每个元素的总结而产生的。

以往关于文本摘要的研究主要集中在对中文法律判断进行英语语料库和抽取模型的对比实验，因为大数据集方法，只有很少的数据集和结果证明了关键字在中文法律摘要方面的有效性。我们必须指出：当前提出的法律文件范本是不适用的。此外，与新闻文章相比，生成摘要的数量更多，信息损失更少，同时减少了法律文件中的挑战，并降低了计算复杂性。与科学论文相比，一方面，法律判决的规模往往比其他领域更长；另一方面，法律文件具有特殊的话语信息系统网络架构。法律判决摘要的人工结构，其显著内容均匀分布。

上述所存在的这些问题使得法律摘要生成更加耗时，并且很容易在最终摘要中丢失关键元素，关键字为生成更准确的中文摘要、中文法律判决、有限硬件资源的预训练法律判决和模型注释数据至关重要。

发明内容

鉴于此，为了解决现有技术存在的上述问题，本发明的目的在于提供一种汉语法律判决摘要生成方法及系统以达到解决法律判决存在输入长度长、语篇结构特殊以及显著内容分布均匀的问题，能有效生成汉语法律判决的目的。

本发明所采用的技术方案为：一种汉语法律判决摘要生成方法，该生成方法包括：

S1：从原始法律判决中提取重要的语句；

S2：根据上述各个语句的语篇结构分别对其进行分词；

S3：根据分词后所获取的关键语句生成抽象摘要，并将抽象摘要融合为法律判决摘要。

进一步地，在步骤S1中，从输入的原始法律判决中选择具有高度重要性的语句，将原始法律判决中的各个语句设为序列标记任务，依次访问原始法律判决中的每个语句，并用标签1或0分别标记每个语句。

进一步地，S101：将原始法律判决中的各个语句作为数据集输入，数据集表示为：D＝(S₁，S₂，...，S_N)，其中，N表示原始法律判决中语句的数量；

S102：将数据集输入至分类层，分类层根据对各个语句的标签对其进行分类获取语句序列；

S103：使用文档级双向Bi-LSTM对语句序列进行编码，得到语句序列的隐藏表示，分别为：d₁，d₂，....d_N；

S104：通过具有S形函数的线性层计算每个语句的重要性分数，计算公式为：

Y_i＝σ(We*di+be)

其中，σ为Sigmoid激活函数，We和be为可学习参数，该训练模型使输出概率之间的二元交叉熵函数最小化Y_i。

进一步地，基于法律判决书及其摘要是高度结构化的，由以下六个修辞角色组成：法律纠纷类型、原告请求、被告请求、法院观点、法律依据和判决结果；在步骤S2中，根据关键语句的修辞作用来划分。

进一步地，在步骤S2中，其具体方法为：

S201：以包含所有修辞角色的指示条款作为判断依据，并通过各指示条款分割文档；

S202：自动为文档中每个语句添加一个对应的修辞标签；

S203：通过含有修辞标签的数据来训练Bert-BiLSTM-CRF模型，直至模型训练收敛；

S204：通过训练后的Bert-BiLSTM-CRF模型对原始法律判决自动拆分为六个修辞角色；

S205：生成每个修辞角色对应的关键语句，然后用于训练抽象摘要模型。

进一步地，在步骤S3中，提取的每个修辞角色的关键语句作为抽象摘要模型的输入，并通过抽象摘要模型生成相应的单节摘要；

通过对各个单节摘要进行融合以生成最终的法律判决摘要。

在本发明中还提供了一种汉语法律判决摘要生成系统，该系统包括：提取模块、分割模块以及生成模块，所述提取模块、分割模块和生成模块之间通信连接；

所述提取模块用于从原始法律判决中提取重要的语句；

所述分割模块根据提取模块输出的各个语句的语篇结构分别对其进行分词；

所述生成模块根据分词后所获取的关键语句生成抽象摘要，并将抽象摘要融合为法律判决摘要。

进一步地，所述生成模块包括Unilm模型，Unilm模型基于Transformers，通过三个语言模型目标进行训练。

本发明的有益效果为：

1.采用本发明所提供的汉语法律判决摘要生成方法及系统，其包括三个步骤：从正文中提取重要句子，主题化介绍切分以识别文档结构，文本摘要的目的是产生简明摘要每个主题的抽象摘要生成，涵盖原始文本中的突出信息和事实信息生成最终摘要，本方法从将文档分解为修辞角色中获益匪浅，这增加了培训数据的数量，减少了原始法律判决中的关键信息丢失。此外，本方法还可以降低计算复杂度，并且在推理时更具时间效率，因为不同修辞角色的摘要可以以并行方式生成，这使得它更可能在我们的日常生活中使用。

附图说明

图1是本发明所提供的汉语法律判决摘要生成方法的整体工作流程图；

图2是本发明所提供的汉语法律判决摘要生成方法中提取模块的内部架构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

实施例1

在本实施例中具体提供了一种汉语法律判决摘要生成方法，该生成方法由三部分组成，分别是：提取、分割和生成，如图1所示，该生成方法包括：

S1：从原始法律判决中提取重要的语句，在该S1中，从输入的原始法律判决中选择具有高度重要性的语句，将原始法律判决中的各个语句设为序列标记任务，依次访问原始法律判决中的每个语句，并用标签1或0分别标记每个语句。具体如下：

S101：将原始法律判决中的各个语句作为数据集输入，数据集表示为：D＝(S₁，S₂，...，S_N)，其中，N表示原始法律判决中语句的数量；

Y_i＝σ(We*di+be)

S2：根据上述各个语句的语篇结构分别对其进行分词；基于法律判决书及其摘要是高度结构化的，由以下六个修辞角色组成：法律纠纷类型、原告请求、被告请求、法院观点、法律依据和判决结果；在步骤S2中，根据关键语句的修辞作用来划分。

对于该步骤S2，其具体方法如下：

在步骤S2中，其具体方法为：

S202：自动为文档中每个语句添加一个对应的修辞标签；

S3：根据分词后所获取的关键语句生成抽象摘要，并将抽象摘要融合为法律判决摘要，在步骤S3中，提取的每个修辞角色的关键语句作为抽象摘要模型的输入，并通过抽象摘要模型生成相应的单节摘要；通过对各个单节摘要进行融合以生成最终的法律判决摘要。

在实际应用时，为了证明我们方法的有效性，我们建立了多个在文本摘要任务中表现良好的模型。详情介绍如下：

(1)Seq2Seq+模型：使用Sequence-to-Sequence模型，输入被馈送到单层Bi LSTM编码器以获得其隐藏状态，并使用单层单向LSTM生成摘要。

(2)PGN模型：指针生成器网络是一种新颖的体系结构，它通过使用指针机制和覆盖机制来解决Seq2Seq模型的实际错误和重复问题。

(3)SuperAE模型：SuperAE模型使用带注释的摘要来监督源内容表示学习，因为Seq2Seq很难学习准确的语义表示，它在中国社交媒体数据集上实现了最先进的表演。

(4)CGU模型：CGU模型提出了一个卷积选通单元来执行全局编码，以解决Seq2Seq模型的重复和语义无关问题。

(5)Unilm模型：Unilm模型基于Transformers，通过三个语言模型目标进行训练，使其既适合自然语言理解任务，也适合生成任务。

在本实施例中，使用Unilm模型来生成关键句子的抽象摘要，数据集上使用ROUGE度量的测试集结果如下：

如上表所示，显然SuperAE和CGU都可以改善传统seq2seq模型的性能。SuperAE的胭脂评分略高于CGU。本实施例所提出的方法在数据集上表现最好，这表明了预训练模型对抽象摘要任务的强大能力。

本方法从将文档分解为修辞角色中获益匪浅，这增加了培训数据的数量，减少了原始法律判决中的关键信息丢失。此外，本方法可以降低计算复杂度，并且在推理时更具时间效率，因为不同修辞角色的摘要可以以并行方式生成，这使得它更可能在我们的日常生活中使用。

实施例2

在本发明中还提供了一种汉语法律判决摘要生成系统，该系统在运行时应用实施例1中所提供的汉语法律判决摘要生成方法，该系统包括：提取模块、分割模块以及生成模块，所述提取模块、分割模块和生成模块之间通信连接；所述提取模块用于从原始法律判决中提取重要的语句；所述分割模块根据提取模块输出的各个语句的语篇结构分别对其进行分词；所述生成模块根据分词后所获取的关键语句生成抽象摘要，并将抽象摘要融合为法律判决摘要。

优选的，所述生成模块包括Unilm模型，Unilm模型基于Transformers，通过三个语言模型目标进行训练。

基于现有的法律判决摘要生成系统，其在实际应用时，存在输入长度长、语篇结构特殊以及显著内容分布均匀的问题。采用本系统首先从文档中提取关键句子，然后分割它们生成最终摘要，从而解决了上述问题。在民事判决数据集上的实验结果证明了该系统的有效性和实用性。

需要说明的是，流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。