CN112784578A

CN112784578A - 法律要素提取方法、装置和电子设备

Info

Publication number: CN112784578A
Application number: CN202110279814.3A
Authority: CN
Inventors: 李东海; 章毓文; 石崇德
Original assignee: Beijing Huayu Yuandian Information Services Co ltd
Current assignee: Beijing Huayu Yuandian Information Services Co ltd
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2021-05-11
Anticipated expiration: 2041-03-16
Also published as: CN112784578B

Abstract

本申请涉及一种法律要素提取方法、装置和电子设备。该法律要素提取方法包括：获取法律裁判文书；基于所述法律裁判文书的案由对所述法律裁判文书进行预处理；使用文本分类模型对所述法律裁判文书的自然段进行段落识别以获得待提取法律要素的候选段落；对所述候选段落结合用于法律要素提取的神经网络模型和正则表达式进行法律要素的初步提取以获得法律要素的初步提取结果；以及，基于根据法律知识图谱和要素提取需求配置的要素提取策略，对所述初步提取结果进行调整以获得法律要素的最终提取结果。这样，能够通过融合模型提取和规则提取来将自然语言理解技术与法律逻辑体系相结合，在使用尽量少的标注数据进行模型训练的基础上实现了从文书的自然语言描述中提取具体的法律概念。

Description

法律要素提取方法、装置和电子设备

技术领域

本申请涉及文本处理技术领域，更为具体地说，涉及一种法律要素提取方法、法律要素提取装置和电子设备。

背景技术

随着法律行业信息化建设的不断深入，不仅需要对海量数据的采集和治理，更需要计算机自动对案情要素进行梳理，能够为法官提供精确化的审判辅助。法律要素抽取是通过自然语言处理技术将法律案件描述中的重要事实描述自动抽取出来，并根据法律领域专家设计的案情要素体系进行分类。案情要素抽取的结果可以用于司法领域的实际业务需求中，例如案情摘要、类案推送、审判辅助以及知识推荐等。

在中国专利CN111597803A中提出了一种使用预设结构化抽取模型从刑事判决书的内容区块中提取判决结果要素的方法。首先从判决书中提取当事人名称和对应的内容区块，然后使用预设结构化抽取模型提取与当事人名称有关的判决结果要素，这种方法可以有效提取判决结果要素等特征较为明确的要素，但是对于一些表达方式多样化的法律要素提取效果较差。

在中国专利CN111783399A中提出了一种法律裁判文书的信息抽取方法，此方法针对现有规则提取的缺点，利用深度学习技术，构建了基于注意力机制的神经网络模型用于标签信息的提取，然后对提取结果进行数据格式的微调，可以提高法律要素提取的效率和准确度，但是这种方法完全依赖模型的提取结果，在模型训练过程中，通常需要大量的标注数据。

总而言之，现有的技术和方法对裁判文书的要素提取主要包括两大类方法，一类是传统的规则提取方法，即通过人工总结的规则进行法律要素的解析提取，这种方法不仅需要耗费大量的人力物力，而且准确率不高，尤其是面对一些较为复杂法律要素，总结规则较为困难。另一类是通过自然语言处理技术领域的神经网络模型进行提取，这种方法通常需要大量的标注数据，模型提取要素的效果依赖于标注数据的数量和质量。

因此，期望提供改进的法律要素提取方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种法律要素提取方法、装置和电子设备，其能够通过融合模型提取和规则提取来将自然语言理解技术与法律逻辑体系相结合，在使用尽量少的标注数据进行模型训练的基础上实现了从文书的自然语言描述中提取具体的法律概念。

根据本申请的一方面，提供了一种法律要素提取方法，包括：获取法律裁判文书；基于所述法律裁判文书的案由对所述法律裁判文书进行预处理；使用文本分类模型对所述法律裁判文书的自然段进行段落识别以获得待提取法律要素的候选段落；对所述候选段落结合用于法律要素提取的神经网络模型和正则表达式进行法律要素的初步提取以获得法律要素的初步提取结果；以及，基于根据法律知识图谱和要素提取需求配置的要素提取策略，对所述初步提取结果进行调整以获得法律要素的最终提取结果。

在上述法律要素提取方法中，获取法律裁判文书包括：获取初始法律裁判文书；以及，对所述初始法律裁判文书进行数据清洗。

在上述法律要素提取方法中，基于所述法律裁判文书的案由对所述法律裁判文书进行预处理包括：基于所述法律裁判文书的案由，通过可配置的正则表达式删除所述法律裁判文书中包含法律要素的内容。

在上述法律要素提取方法中，使用文本分类模型对所述法律裁判文书的自然段进行段落识别以获得待提取法律要素的候选段落包括：获取所述法律裁判文书的自然段中的每个句子；将所述每个句子中的每个字转换为K维向量，并组合每个句子中的N个字以获得N*K矩阵；将所述N*K矩阵输入所述文本分类模型的卷积层以获得特征图；对于所述特征图进行最大值池化以获得一维向量；将所述一维向量通过全连接层和Dropout层后以分类函数获得分类结果；以及，基于所述分类结果确定所述法律裁判文书的自然段中的待提取法律要素的候选段落。

在上述法律要素提取方法中，所述用于法律要素提取的神经网络模型是语言预训练模型，且所述语言预训练模型的训练过程包括：基于大规模法律领域语料对所述语言预训练模型进行预训练；以及，使用标注好的法律文书对预训练的模型进行训练。

在上述法律要素提取方法中，对所述候选段落结合用于法律要素提取的神经网络模型和正则表达式进行法律要素的初步提取以获得法律要素的初步提取结果包括：将所述候选段落的序列文本按字切分输入到所述神经网络模型；获取所述神经网络模型输出的隐藏向量；将所述隐藏向量通过全连接层和sigmoid层以获得类别分布概率向量；以及，基于输出值大于设定阈值的类别确定所述法律要素的初步提取结果。

在上述法律要素提取方法中，对所述候选段落结合用于法律要素提取的神经网络模型和正则表达式进行法律要素的初步提取以获得法律要素的初步提取结果包括：使用正则表达式匹配所述候选段落中的表达方式固定的法律要素；以及，基于匹配结果获取所述法律要素的初步提取结果。

在上述法律要素提取方法中，基于根据法律知识图谱和要素提取需求配置的要素提取策略，对所述初步提取结果进行调整以获得法律要素的最终提取结果包括：基于所述神经网络模型获得的所述初步提取结果中的具有否定表述的句子，利用正则表达式对所述否定表述进行后处理排除，以获得所述法律要素的最终提取结果。

在上述法律要素提取方法中，基于根据法律知识图谱和要素提取需求配置的要素提取策略，对所述初步提取结果进行调整以获得法律要素的最终提取结果包括：确定所述初步提取结果中的句子是否需要确定法律要素在句子内的具体位置；响应于需要确定所述法律要素在句子内的具体位置，将所述句子经过词嵌入层转换为词向量序列；将所述词向量序列输入两个双向长短期记忆单元以获得每个词的正向输出向量和反向输出向量；将所述正向输出向量和所述反向输出向量拼接后通过全连接层映射为维度为输出标签数量的特征向量；以及，将所述特征向量通过条件随机场层以获得所述句子中的每个词的标签。

在上述法律要素提取方法中，基于根据法律知识图谱和要素提取需求配置的要素提取策略，对所述初步提取结果进行调整以获得法律要素的最终提取结果包括：根据法律知识图谱和要素提取需求，确定是否存在要素具有明确依赖关系的情况；以及，响应于存在要素具有明确依赖关系的情况，使用二分类模型或正则表达式对所述初步提取结果进行区分和判断以获得法律要素的最终提取结果。

在上述法律要素提取方法中，基于根据法律知识图谱和要素提取需求配置的要素提取策略，对所述初步提取结果进行调整以获得法律要素的最终提取结果包括：根据法律知识图谱和要素提取需求，确定是否存在要素含义相反的情况；响应于存在要素含义相反的情况，使用标签提取模型提取合并后的标签以获得临时提取结果；以及，使用二分类模型或正则表达式对所述临时提取结果进行区分和判断以获得法律要素的最终提取结果。

在上述法律要素提取方法中，基于根据法律知识图谱和要素提取需求配置的要素提取策略，对所述初步提取结果进行调整以获得法律要素的最终提取结果包括：根据法律知识图谱和要素提取需求，确定不同案由下对不同要素在不同段落的提取位置和数量的配置需求；以及，基于所述配置需求对初步提取结果进行筛选以获得所述法律要素的最终提取结果。

根据本申请的另一方面，提供了一种法律要素提取装置，包括：文书获取单元，用于获取法律裁判文书；预处理单元，用于基于所述法律裁判文书的案由对所述法律裁判文书进行预处理；段落识别单元，用于使用文本分类模型对所述法律裁判文书的自然段进行段落识别以获得待提取法律要素的候选段落；结合处理单元，用于对所述候选段落结合用于法律要素提取的神经网络模型和正则表达式进行法律要素的初步提取以获得法律要素的初步提取结果；以及，策略调整单元，用于基于根据法律知识图谱和要素提取需求配置的要素提取策略，对所述初步提取结果进行调整以获得法律要素的最终提取结果。

根据本申请的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在所述处理器运行时使得所述处理器执行如上所述的法律要素提取方法。

根据本申请的又一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，当所述计算机程序指令被计算装置执行时，可操作来执行如上所述的法律要素提取方法。

本申请的实施例提供的法律要素提取方法、装置和电子设备，能够通过融合模型提取和规则提取来将自然语言理解技术与法律逻辑体系相结合，在使用尽量少的标注数据进行模型训练的基础上实现了从文书的自然语言描述中提取具体的法律概念。

附图说明

通过阅读下文优选的具体实施方式中的详细描述，本申请各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。显而易见地，下面描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。而且在整个附图中，用相同的附图标记表示相同的部件。

图1图示了根据本申请实施例的法律要素提取方法的流程图；

图2图示了根据本申请实施例的法律要素提取方法中使用的语言预训练模型的示意图；

图3图示了根据本申请实施例的法律要素提取方法的具体示例的整体流程的示意图；

图4图示了根据本申请实施例的法律要素提取装置的框图；

图5图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

示例性方法

图1图示了根据本申请实施例的法律要素提取方法的流程图。

如图1所示，根据本申请实施例的法律要素提取方法包括以下步骤。

S110，获取法律裁判文书。在本申请实施例中，法律要素又可以被称为案件要素，其指的是法律裁判文书中法律案件描述中的重要事实描述。通过从复杂的案情中自动抽取案件语义要素，可用于法律行业非结构化文本信息的语义理解分析，提高办案效率，同时，案情要素抽取的结果可以用于司法领域的各类实际业务需求中。

在实际场景下，给定裁判文书中的相关段落，一段描述中可能包含多个关键的法律要素，即每个句子对应的标签个数不定，在本申请实施例中，其可以转化为自然语言处理中的多标签分类问题。此外，对于某些法律要素可能需要提取法律要素在句内的具体位置，在本申请实施例中，其可以转化为自然语言处理中的序列标注问题。这些将在下文中进一步详细说明。

并且，在本申请实施例中，在获取法律裁判文书之后，可以进行一些常规的数据清洗操作。

也就是，在根据本申请实施例的法律要素提取方法中，获取法律裁判文书包括：获取初始法律裁判文书；以及，对所述初始法律裁判文书进行数据清洗。

步骤S120，基于所述法律裁判文书的案由对所述法律裁判文书进行预处理。具体地，可以根据不同的案由进行不同的文书预处理过程，例如，主要是通过可配置的正则表达式来去掉一些不会包含法律要素的内容。

这里，正则表达式又称正则表示式、正则表示法、规则表达式、常规表示法，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在本申请实施例中，正则表达式可用来匹配裁判文书中与可能出现的表达方式固定的要素的提取，也可用来排除与案件要素无关的裁判文书内容。

因此，在根据本申请实施例的法律要素提取方法中，基于所述法律裁判文书的案由对所述法律裁判文书进行预处理包括：基于所述法律裁判文书的案由，通过可配置的正则表达式删除所述法律裁判文书中包含法律要素的内容。

步骤S130，使用文本分类模型对所述法律裁判文书的自然段进行段落识别以获得待提取法律要素的候选段落。也就是，由于如上所述，不同类别的要素出现在不同的段落类别中，在本发明实施例中，首先使用文本分类模型来对裁判文书的自然段进行识别。例如，文本分类模型可以是文本卷积神经网络模型，其是卷积神经网络在文本分类的主要应用，将原始文本作为输入，不需要人工进行特征提取。

具体地，在根据本申请实施例的文本分类模型中，句子中的每个字使用K维向量来表示，由此句子可表示为一个N*K的矩阵，作为模型的输入。然后使用不同的过滤器进行卷积操作得到特征图，之后对特征图使用最大池化操作，把特征图向量中最大的值提取出来，组成一个一维向量。再经过全连接层输出，加上Dropout层防止过拟合。在多分类时，通常使用Softmax层进行多分类，这里，Softmax函数可以将神经网络的输出映射到(0-1)区间内，可以将这个值看作一个类别分布概率向量，取概率值最大的类别作为最终预测结果。当然，本领域技术人员可以理解，也可以使用其它分类函数来进行分类。

这样，基于分类结果，可以对所述法律裁判文书的自然段进行筛选，选择可能出现法律要素的段落作为待提取法律要素的候选段落。

因此，在根据本申请实施例的法律要素提取方法中，使用文本分类模型对所述法律裁判文书的自然段进行段落识别以获得待提取法律要素的候选段落包括：获取所述法律裁判文书的自然段中的每个句子；将所述每个句子中的每个字转换为K维向量，并组合每个句子中的N个字以获得N*K矩阵；将所述N*K矩阵输入所述文本分类模型的卷积层以获得特征图；对于所述特征图进行最大值池化以获得一维向量；将所述一维向量通过全连接层和Dropout层后以分类函数获得分类结果；以及，基于所述分类结果确定所述法律裁判文书的自然段中的待提取法律要素的候选段落。

步骤S140，对所述候选段落结合用于法律要素提取的神经网络模型和正则表达式进行法律要素的初步提取以获得法律要素的初步提取结果。

如上所述，在本申请实施例中，通过融合模型提取和规则提取来将自然语言理解技术与法律逻辑体系相结合。具体地，在本申请实施例中，模型提取是基础的提取策略，其通常作为其它各种提取策略的输入。由于要素表述方式多样，因此需要对句子语义信息进行理解，通常使用语言预训练模型，比如Bert语言预训练模型进行模型提取。此外，采用正则表达式提取来进行规则提取，这对于表述方式非常固定，如“情节特别严重”等法律要素是适用的，因为如果这些法律要素使用模型提取反而会降低提取的准确率，因此这类要素直接使用正则表达式提取。

如上所述，在进行模型提取时，可以使用Bert语言预训练模型。这里，Bert语言预训练模型是谷歌研究人员2018年提出的一种语言预训练模型，通过在33亿文本的语料上训练语言模型，分别在不同的下游任务上微调，这样的模型在不同的自然语言处理任务均取得了目前为止最好的结果。Bert模型使用Transformer构成了双向语言模型进行预训练，在训练过程中提出了遮挡机制和下一句预测机制，然后根据不同的下游任务基于微调的方式，对下层网络的输出方式进行调整。

当然，本领域技术人员可以理解，除了Bert语言预训练模型以外，还可以使用其它的语言预训练模型，在使用该语言预训练模型对法律裁判文书进行法律要素的提取时，首先基于大规模法律领域语料对模型进行预训练，使模型更适合处理法律领域的自然语言处理问题。然后，使用标注好的法律文书进行模型的训练。

具体地，用于法律要素提取的语言预训练模型的结构可以如图2所示。在输入层将文书中的序列文本按字切分输入到模型中，然后取模型输出的隐藏向量，通过全连接和sigmoid层进行输出，得到一个类别分布概率向量，取输出值大于设定阈值的类别作为模型的初步预测结果。这里，图2图示了根据本申请实施例的法律要素提取方法中使用的语言预训练模型的示意图。具体地，CLS是语言预训练模型，比如Bert模型中用来表示整个句子语义表示的特殊符号，Tok代表法律文本按字切分的字符，Ecls和E分别代表特殊符号和字符的向量表示。Trm是指Bert模型中的Transformer编码器，T是编码器的中间输出，h是模型计算过程中的隐藏状态，C是最终的句子语义特征表示。

因此，在根据本申请实施例的法律要素提取方法中，所述用于法律要素提取的神经网络模型是语言预训练模型，且所述语言预训练模型的训练过程包括：基于大规模法律领域语料对所述语言预训练模型进行预训练；以及，使用标注好的法律文书对预训练的模型进行训练。

并且，在上述法律要素提取方法中，对所述候选段落结合用于法律要素提取的神经网络模型和正则表达式进行法律要素的初步提取以获得法律要素的初步提取结果包括：将所述候选段落的序列文本按字切分输入到所述神经网络模型；获取所述神经网络模型输出的隐藏向量；将所述隐藏向量通过全连接层和sigmoid层以获得类别分布概率向量；以及，基于输出值大于设定阈值的类别确定所述法律要素的初步提取结果。

此外，在上述法律要素提取方法中，对所述候选段落结合用于法律要素提取的神经网络模型和正则表达式进行法律要素的初步提取以获得法律要素的初步提取结果包括：使用正则表达式匹配所述候选段落中的表达方式固定的法律要素；以及，基于匹配结果获取所述法律要素的初步提取结果。

步骤S150，基于根据法律知识图谱和要素提取需求配置的要素提取策略，对所述初步提取结果进行调整以获得法律要素的最终提取结果。最后，根据法律知识图谱和按照要素提取需求配置的要素提取策略，对如上所述的初步提取结果按照配置的规则进行修改，或者使用要素句内位置提取模型进行细粒度的提取，得到最终的法律要素提取结果。也就是，为了达到最优的提取效果，在通过神经网络模型和正则表达式匹配提取的基础上，在本申请实施例中进一步提出了一种要素提取的框架，针对不同类别的要素，使用不同的要素提取策略。

具体地，在一个示例中，使用模型+正则后处理的提取策略，其主要作为对模型提取结果的一种修正方式。例如，在模型对一些要素的提取中，可能会对一些具有否定表述的句子提取到要素，利用正则表达式对这类否定表述进行后处理排除，可以提高要素识别的准确率。

也就是，在根据本申请实施例的法律要素提取方法中，基于根据法律知识图谱和要素提取需求配置的要素提取策略，对所述初步提取结果进行调整以获得法律要素的最终提取结果包括：基于所述神经网络模型获得的所述初步提取结果中的具有否定表述的句子，利用正则表达式对所述否定表述进行后处理排除，以获得所述法律要素的最终提取结果。

另外，在另一示例中，需要使用要素句内位置提取模型进行细粒度的提取，也就是，需要提取法律要素在句中的具体位置，例如法律要素中的金额类要素。因此，在本申请实施例中，要素句内位置提取模型将如上所述的神经网络模型提取到该要素的句子作为输入，使用基于双向长短期记忆+条件随机场(LSTM+CRF)的序列标注模型进行要素位置的具体提取。

具体地，序列标注模型将输入的文本序列，即由各个词组成的句子的文本序列经过一个词嵌入层转化为一个词向量的序列，然后输入两个双向长短期记忆单元，得到由每个词向量的特征向量组成的正向和反向的输出序列。然后，将正向和反向的输出序列拼接，经过全连接层将每个特征向量映射为一个维度为输出标签数量的向量，再经过条件随机场层将输出转化每种标签的概率，即得到每个词对应的特征向量属于每种标签的概率，从而标记句子中的每个词。这里，使用条件随机场层作为输出层的原因是为了考虑标签的转移特征，而不仅仅是双向长短期记忆层提取的上下文特征。

也就是，在根据本申请实施例的法律要素提取方法中，基于根据法律知识图谱和要素提取需求配置的要素提取策略，对所述初步提取结果进行调整以获得法律要素的最终提取结果包括：确定所述初步提取结果中的句子是否需要确定法律要素在句子内的具体位置；响应于需要确定所述法律要素在句子内的具体位置，将所述句子经过词嵌入层转换为词向量序列；将所述词向量序列输入两个双向长短期记忆单元以获得每个词的正向输出向量和反向输出向量；将所述正向输出向量和所述反向输出向量拼接后通过全连接层映射为维度为输出标签数量的特征向量；以及，将所述特征向量通过条件随机场层以获得所述句子中的每个词的标签。

此外，在又一示例中，在要素提取过程中，存在一种要素之前具有明确依赖关系的情况，这种依赖于其他要素的要素，只使用模型提取效果不佳。因此，在模型提取结果之上，在本申请实施例中进一步使用二分类模型或正则表达式来进行区分和判断。

也就是，在根据本申请实施例的法律要素提取方法中，基于根据法律知识图谱和要素提取需求配置的要素提取策略，对所述初步提取结果进行调整以获得法律要素的最终提取结果包括：根据法律知识图谱和要素提取需求，确定是否存在要素具有明确依赖关系的情况；以及，响应于存在要素具有明确依赖关系的情况，使用二分类模型或正则表达式对所述初步提取结果进行区分和判断以获得法律要素的最终提取结果。

此外，在又一示例中，对于一些含义相反的要素，直接使用模型进行提取的结果容易造成相互之间的混淆，因此在本申请实施例中使用标签合并提取策略，即只使用模型提取合并后的标签，再通过正则表达式或者二分类模型进行具体要素的区分和判断。

也就是，在根据本申请实施例的法律要素提取方法中，基于根据法律知识图谱和要素提取需求配置的要素提取策略，对所述初步提取结果进行调整以获得法律要素的最终提取结果包括：根据法律知识图谱和要素提取需求，确定是否存在要素含义相反的情况；响应于存在要素含义相反的情况，使用标签提取模型提取合并后的标签以获得临时提取结果；以及，使用二分类模型或正则表达式对所述临时提取结果进行区分和判断以获得法律要素的最终提取结果。

此外，在本申请实施例中，在要素提取过程中，可能存在具体的要素配置需求，即，法律业务专家针对要素提取的实际需求，也就是，在各个案由下，对不同要素在不同段落的提取位置和数量的具体配置。这在整个要素提取流程中，主要体现在裁判文书的预处理和最终结果的筛选上。

因此，在根据本申请实施例的法律要素提取方法中，基于根据法律知识图谱和要素提取需求配置的要素提取策略，对所述初步提取结果进行调整以获得法律要素的最终提取结果包括：根据法律知识图谱和要素提取需求，确定不同案由下对不同要素在不同段落的提取位置和数量的配置需求；以及，基于所述配置需求对初步提取结果进行筛选以获得所述法律要素的最终提取结果。

图3图示了根据本申请实施例的法律要素提取方法的具体示例的整体流程的示意图。如图3所示，首先获取法律裁判文书，完成数据清洗工作，然后根据不同的案由进行不同的文书预处理过程，主要是通过可配置的正则表达式去掉一些不会包含案件要素的内容。之后，首先使用文本分类模型，比如文本卷积神经网络模型对裁判文书的自然段进行段落识别，然后根据段落识别的结果进行筛选，对于可能出现法律要素的段落，按句子切分后，输入到主神经网络模型中，得到模型提取的初步结果。最后，根据法律知识图谱和按照要素提取需求配置的要素提取策略，对模型提取的初步结果按照配置的规则进行修改或者使用位置提取模型进行细粒度的提取，得到最终的要素提取结果。

示例性装置

图4图示了根据本申请实施例的法律要素提取装置的框图。

如图4所示，根据本申请实施例的法律要素提取装置200包括：文书获取单元210，用于获取法律裁判文书；预处理单元220，用于基于所述法律裁判文书的案由对所述法律裁判文书进行预处理；段落识别单元230，用于使用文本分类模型对所述法律裁判文书的自然段进行段落识别以获得待提取法律要素的候选段落；结合处理单元240，用于对所述候选段落结合用于法律要素提取的神经网络模型和正则表达式进行法律要素的初步提取以获得法律要素的初步提取结果；以及，策略调整单元250，用于基于根据法律知识图谱和要素提取需求配置的要素提取策略，对所述初步提取结果进行调整以获得法律要素的最终提取结果。

在一个示例中，在上述法律要素提取装置200中，所述文书获取单元210用于：获取初始法律裁判文书；以及，对所述初始法律裁判文书进行数据清洗。

在一个示例中，在上述法律要素提取装置200中，所述预处理单元220用于：基于所述法律裁判文书的案由，通过可配置的正则表达式删除所述法律裁判文书中包含法律要素的内容。

在一个示例中，在上述法律要素提取装置200中，所述段落识别单元230用于：获取所述法律裁判文书的自然段中的每个句子；将所述每个句子中的每个字转换为K维向量，并组合每个句子中的N个字以获得N*K矩阵；将所述N*K矩阵输入所述文本分类模型的卷积层以获得特征图；对于所述特征图进行最大值池化以获得一维向量；将所述一维向量通过全连接层和Dropout层后以分类函数获得分类结果；以及，基于所述分类结果确定所述法律裁判文书的自然段中的待提取法律要素的候选段落。

在一个示例中，在上述法律要素提取装置200中，所述用于法律要素提取的神经网络模型是语言预训练模型，且所述语言预训练模型的训练过程包括：基于大规模法律领域语料对所述语言预训练模型进行预训练；以及，使用标注好的法律文书对预训练的模型进行训练。

在一个示例中，在上述法律要素提取装置200中，所述结合处理单元240用于：将所述候选段落的序列文本按字切分输入到所述神经网络模型；获取所述神经网络模型输出的隐藏向量；将所述隐藏向量通过全连接层和sigmoid层以获得类别分布概率向量；以及，基于输出值大于设定阈值的类别确定所述法律要素的初步提取结果。

在一个示例中，在上述法律要素提取装置200中，所述结合处理单元240用于：使用正则表达式匹配所述候选段落中的表达方式固定的法律要素；以及，基于匹配结果获取所述法律要素的初步提取结果。

在一个示例中，在上述法律要素提取装置200中，所述策略调整单元250用于：基于所述神经网络模型获得的所述初步提取结果中的具有否定表述的句子，利用正则表达式对所述否定表述进行后处理排除，以获得所述法律要素的最终提取结果。

在一个示例中，在上述法律要素提取装置200中，所述策略调整单元250用于：确定所述初步提取结果中的句子是否需要确定法律要素在句子内的具体位置；响应于需要确定所述法律要素在句子内的具体位置，将所述句子经过词嵌入层转换为词向量序列；将所述词向量序列输入两个双向长短期记忆单元以获得每个词的正向输出向量和反向输出向量；将所述正向输出向量和所述反向输出向量拼接后通过全连接层映射为维度为输出标签数量的特征向量；以及，将所述特征向量通过条件随机场层以获得所述句子中的每个词的标签。

在一个示例中，在上述法律要素提取装置200中，所述策略调整单元250用于：根据法律知识图谱和要素提取需求，确定是否存在要素具有明确依赖关系的情况；以及，响应于存在要素具有明确依赖关系的情况，使用二分类模型或正则表达式对所述初步提取结果进行区分和判断以获得法律要素的最终提取结果。

在一个示例中，在上述法律要素提取装置200中，所述策略调整单元250用于：根据法律知识图谱和要素提取需求，确定是否存在要素含义相反的情况；响应于存在要素含义相反的情况，使用标签提取模型提取合并后的标签以获得临时提取结果；以及，使用二分类模型或正则表达式对所述临时提取结果进行区分和判断以获得法律要素的最终提取结果。

在一个示例中，在上述法律要素提取装置200中，所述策略调整单元250用于：根据法律知识图谱和要素提取需求，确定不同案由下对不同要素在不同段落的提取位置和数量的配置需求；以及，基于所述配置需求对初步提取结果进行筛选以获得所述法律要素的最终提取结果。

这里，本领域技术人员可以理解，上述法律要素提取装置200中的各个单元和模块的具体功能和操作已经在上面参考图1到图3描述的法律要素提取方法中详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的法律要素提取装置200可以实现在各种终端设备中，例如用于处理法律裁判文书的服务器中。在一个示例中，根据本申请实施例的法律要素提取装置200可以作为一个软件模块和/或硬件模块而集成到所述终端设备中。例如，该法律要素提取装置200可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该法律要素提取装置200同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该法律要素提取装置200与该终端设备也可以是分立的设备，并且该法律要素提取装置200可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图5来描述根据本申请实施例的电子设备。

图5图示了根据本申请实施例的电子设备的框图。

如图5所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的法律要素提取方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如法律裁判文书，候选段落，初步提取结果等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置13可以是例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，例如法律要素的最终提取结果等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图5中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的法律要素提取方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Python、Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的法律要素提取方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种法律要素提取方法，其特征在于，包括：

获取法律裁判文书；

基于所述法律裁判文书的案由对所述法律裁判文书进行预处理；

使用文本分类模型对所述法律裁判文书的自然段进行段落识别以获得待提取法律要素的候选段落；

对所述候选段落结合用于法律要素提取的神经网络模型和正则表达式进行法律要素的初步提取以获得法律要素的初步提取结果；以及

基于根据法律知识图谱和要素提取需求配置的要素提取策略，对所述初步提取结果进行调整以获得法律要素的最终提取结果。

2.如权利要求1所述的法律要素提取方法，其特征在于，获取法律裁判文书包括：

获取初始法律裁判文书；以及

对所述初始法律裁判文书进行数据清洗。

3.如权利要求1所述的法律要素提取方法，其特征在于，基于所述法律裁判文书的案由对所述法律裁判文书进行预处理包括：

基于所述法律裁判文书的案由，通过可配置的正则表达式删除所述法律裁判文书中包含法律要素的内容。

4.如权利要求1所述的法律要素提取方法，其特征在于，使用文本分类模型对所述法律裁判文书的自然段进行段落识别以获得待提取法律要素的候选段落包括：

获取所述法律裁判文书的自然段中的每个句子；

将所述每个句子中的每个字转换为K维向量，并组合每个句子中的N个字以获得N*K矩阵；

将所述N*K矩阵输入所述文本分类模型的卷积层以获得特征图；

对于所述特征图进行最大值池化以获得一维向量；

将所述一维向量通过全连接层和Dropout层后以分类函数获得分类结果；以及

基于所述分类结果确定所述法律裁判文书的自然段中的待提取法律要素的候选段落。

5.如权利要求1所述的法律要素提取方法，其特征在于，所述用于法律要素提取的神经网络模型是语言预训练模型，且所述语言预训练模型的训练过程包括：

基于大规模法律领域语料对所述语言预训练模型进行预训练；以及

使用标注好的法律文书对预训练的模型进行训练。

6.如权利要求5所述的法律要素提取方法，其特征在于，对所述候选段落结合用于法律要素提取的神经网络模型和正则表达式进行法律要素的初步提取以获得法律要素的初步提取结果包括：

将所述候选段落的序列文本按字切分输入到所述神经网络模型；

获取所述神经网络模型输出的隐藏向量；

将所述隐藏向量通过全连接层和sigmoid层以获得类别分布概率向量；以及

基于输出值大于设定阈值的类别确定所述法律要素的初步提取结果。

7.如权利要求1所述的法律要素提取方法，其特征在于，对所述候选段落结合用于法律要素提取的神经网络模型和正则表达式进行法律要素的初步提取以获得法律要素的初步提取结果包括：

使用正则表达式匹配所述候选段落中的表达方式固定的法律要素；以及

基于匹配结果获取所述法律要素的初步提取结果。

8.如权利要求1所述的法律要素提取方法，其特征在于，基于根据法律知识图谱和要素提取需求配置的要素提取策略，对所述初步提取结果进行调整以获得法律要素的最终提取结果包括：

基于所述神经网络模型获得的所述初步提取结果中的具有否定表述的句子，利用正则表达式对所述否定表述进行后处理排除，以获得所述法律要素的最终提取结果。

9.如权利要求1所述的法律要素提取方法，其特征在于，基于根据法律知识图谱和要素提取需求配置的要素提取策略，对所述初步提取结果进行调整以获得法律要素的最终提取结果包括：

确定所述初步提取结果中的句子是否需要确定法律要素在句子内的具体位置；

响应于需要确定所述法律要素在句子内的具体位置，将所述句子经过词嵌入层转换为词向量序列；

将所述词向量序列输入两个双向长短期记忆单元以获得每个词的正向输出向量和反向输出向量；

将所述正向输出向量和所述反向输出向量拼接后通过全连接层映射为维度为输出标签数量的特征向量；以及

将所述特征向量通过条件随机场层以获得所述句子中的每个词的标签。

10.如权利要求1所述的法律要素提取方法，其特征在于，基于根据法律知识图谱和要素提取需求配置的要素提取策略，对所述初步提取结果进行调整以获得法律要素的最终提取结果包括：

根据法律知识图谱和要素提取需求，确定是否存在要素具有明确依赖关系的情况；以及

响应于存在要素具有明确依赖关系的情况，使用二分类模型或正则表达式对所述初步提取结果进行区分和判断以获得法律要素的最终提取结果。

11.如权利要求1所述的法律要素提取方法，其特征在于，基于根据法律知识图谱和要素提取需求配置的要素提取策略，对所述初步提取结果进行调整以获得法律要素的最终提取结果包括：

根据法律知识图谱和要素提取需求，确定是否存在要素含义相反的情况；

响应于存在要素含义相反的情况，使用标签提取模型提取合并后的标签以获得临时提取结果；以及

使用二分类模型或正则表达式对所述临时提取结果进行区分和判断以获得法律要素的最终提取结果。

12.如权利要求1所述的法律要素提取方法，其特征在于，基于根据法律知识图谱和要素提取需求配置的要素提取策略，对所述初步提取结果进行调整以获得法律要素的最终提取结果包括：

根据法律知识图谱和要素提取需求，确定不同案由下对不同要素在不同段落的提取位置和数量的配置需求；以及

基于所述配置需求对初步提取结果进行筛选以获得所述法律要素的最终提取结果。

13.一种法律要素提取装置，其特征在于，包括：

文书获取单元，用于获取法律裁判文书；

预处理单元，用于基于所述法律裁判文书的案由对所述法律裁判文书进行预处理；

段落识别单元，用于使用文本分类模型对所述法律裁判文书的自然段进行段落识别以获得待提取法律要素的候选段落；

结合处理单元，用于对所述候选段落结合用于法律要素提取的神经网络模型和正则表达式进行法律要素的初步提取以获得法律要素的初步提取结果；以及

策略调整单元，用于基于根据法律知识图谱和要素提取需求配置的要素提取策略，对所述初步提取结果进行调整以获得法律要素的最终提取结果。

14.一种电子设备，其特征在于，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在所述处理器运行时使得所述处理器执行如权利要求1-12中任意一项所述的法律要素提取方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，当所述计算机程序指令被计算装置执行时，可操作来执行如权利要求1-12中任意一项所述的法律要素提取方法。