CN113869049B

CN113869049B - 基于法律咨询问题的具有法律属性的事实抽取方法及装置

Info

Publication number: CN113869049B
Application number: CN202111468395.4A
Authority: CN
Inventors: 杨晓雷
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-03-04
Anticipated expiration: 2041-12-03
Also published as: CN113869049A

Abstract

本发明提供了一种基于法律咨询问题的具有法律属性的事实抽取方法及装置，该方法包括：获取用户的原始咨询问题；对所述原始咨询问题进行分句处理，获得原子句集合；将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型，抽取出原始咨询问题中的具有法律属性的事实；其中，所述具有法律属性的事实抽取模型包括二阶段BERT预训练模型和解码模型。本发明可以基于法律咨询问题进行具有法律属性的事实抽取，准确率高。

Description

基于法律咨询问题的具有法律属性的事实抽取方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于法律咨询问题的具有法律属性的事实抽取方法及装置。

背景技术

当前法律专业知识和服务资源供给无法满足广大民众的庞大需求，急需智能式的法律问答系统来解决现实法律服务资源紧缺的问题。

构建法律问答系统时，需要准确抽取出具有法律属性的事实，基于此智能分析出下一个对用户的提问，在获得用户回答后，继续抽取出具有法律属性的事实，而目前缺乏一种高效的具有法律属性的事实抽取方法。

发明内容

本发明实施例提出一种基于法律咨询问题的具有法律属性的事实抽取方法，用以基于法律咨询问题进行具有法律属性的事实抽取，准确率高，该方法包括：

获取用户的原始咨询问题；

对所述原始咨询问题进行分句处理，获得原子句集合；

将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型，抽取出原始咨询问题中的具有法律属性的事实；

其中，所述具有法律属性的事实抽取模型包括二阶段BERT预训练模型和解码模型。

本发明实施例提出一种基于法律咨询问题的具有法律属性的事实抽取装置，用以基于法律咨询问题进行具有法律属性的事实抽取，准确率高，该装置包括：

原始咨询问题获取模块，用于获取用户的原始咨询问题；

分句处理模块，用于对所述原始咨询问题进行分句处理，获得原子句集合；

具有法律属性的事实抽取模块，用于将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型，抽取出原始咨询问题中的具有法律属性的事实；

本发明实施例还提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于法律咨询问题的具有法律属性的事实抽取方法。

本发明实施例还提出了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述基于法律咨询问题的具有法律属性的事实抽取方法的计算机程序。

在本发明实施例中，获取用户的原始咨询问题；对所述原始咨询问题进行分句处理，获得原子句集合；将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型，抽取出原始咨询问题中的具有法律属性的事实；其中，所述具有法律属性的事实抽取模型包括二阶段BERT预训练模型和解码模型。在上述过程中，提出了采用具有法律属性的事实抽取模型进行具有法律属性的事实抽取，其中，具有法律属性的事实抽取模块包括二阶段BERT预训练模型和解码模型，相比于不经过预训练模型的具有法律属性的事实抽取过程，本发明实施例提出的方法抽取的具有法律属性的事实准确度更高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中基于法律咨询问题的具有法律属性的事实抽取方法的流程图；

图2为本发明实施例中二阶段BERT预训练模型的训练流程图；

图3为本发明实施例中解码模型的训练流程图；

图4为本发明实施例中基于法律咨询问题的具有法律属性的事实抽取装置的示意图一；

图5为本发明实施例中基于法律咨询问题的具有法律属性的事实抽取装置的示意图二；

图6为本发明实施例中基于法律咨询问题的具有法律属性的事实抽取装置的示意图三；

图7为本发明实施例中计算机设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

在本说明书的描述中，所使用的“包含”、“包括”、“具有”、“含有”等，均为开放性的用语，即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本申请的实施，其中的步骤顺序不作限定，可根据需要作适当调整。

图1为本发明实施例中基于法律咨询问题的具有法律属性的事实抽取方法的流程图，如图1所示，该方法包括：

步骤101，获取用户的原始咨询问题；

步骤102，对所述原始咨询问题进行分句处理，获得原子句集合；

步骤103，将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型，抽取出原始咨询问题中的具有法律属性的事实；

在本发明实施例中，在上述过程中，提出了采用具有法律属性的事实抽取模型进行具有法律属性的事实抽取，其中，具有法律属性的事实抽取模块包括二阶段BERT预训练模型和解码模型，相比于不经过预训练模型的具有法律属性的事实抽取过程，本发明实施例提出的方法抽取的具有法律属性的事实准确度更高。

在步骤101中，获取用户的原始咨询问题。

例如，用户输入的原始咨询问题如下：

你好，男的具有A1的行为，我想离婚，现有一个三周半的女儿，我想争取到孩子。

这就是一个原始咨询问题，可以通过对话框的方式接收用户的输入。

在步骤102中，对所述原始咨询问题进行分句处理，获得原子句集合。

分句处理是指将原始咨询问题所涉及的法律知识中的每个句子分解为多个易于理解的简单的短句的过程。

在步骤103中，将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型，抽取出原始咨询问题中的具有法律属性的事实；

图2为本发明实施例中二阶段BERT预训练模型的训练流程图，在一实施例中，所述二阶段BERT预训练模型的训练步骤如下：

步骤201，以通用领域文本为输入，执行MLM预训练任务，执行NSP任务，获得一阶段BERT预训练模型；

步骤202，以多个用户的原始咨询问题的历史数据集为输入，在一阶段BERT预训练模型的基础上，采用修改版的Masked language model执行MLM任务，执行NSP任务，获得训练好的二阶段BERT预训练模型。

在上述实施例中，通用领域文本知识不止包括法律知识的所有社会知识的数据库的集合，多个用户的原始咨询问题的历史数据集是指互联网等各个数据来源的海量用户咨询的问题。

BERT模型结构是一个多层的双向transformer结构的Encoder部分。

BERT预训练是采用多任务的方式，包括遮蔽语言模型(MLM)和下一个句子预测(NSP)。

任务1：Masked Language Model(MLM)预训练任务

所谓MLM预训练任务是指在训练的时候随即从输入预料上遮蔽（Mask）掉一些词，然后通过上下文预测该词。正如传统的语言模型算法和RNN匹配那样，MLM的这个性质和Transformer的结构是非常匹配的。

任务2：Next Sentence Prediction(NSP)任务

Next Sentence Prediction（NSP）的任务是判断句子B是否是句子A的下文。如果是的话输出“IsNext”，否则输出“NotNext”。训练数据的生成方式是从平行语料中随机抽取的连续两句话，其中50%保留抽取的两句话，它们符合IsNext关系，另外50%的第二句话是随机从预料中提取的，它们的关系是NotNext的。

可见，传统的BERT预训练模型采用的是Masked language model的训练方式，对于一个文本：

在训练阶段每个单词

都独立地有20%的概率被破坏，得到一个含有噪音的版本。而训练的目标是采用Transformer结构将其恢复：

该方法在法律文本上的表现较差，原因是BERT预训练模型通常在常规的新闻和网页数据上进行预训练，所学到的通用领域的语言表征与法律领域的语言表征有较大差距。为了减小表征差距，在法律文本上取得更好的效果，本发明实施例提出采用二阶段预训练方式优化，即采用步骤201和步骤202来获得二阶段BERT预训练模型。

在步骤201中，以通用领域文本为输入，通过执行上述的MLM预训练任务和NSP任务，获得一阶段BERT预训练模型，其中，为了提高训练精度，通用领域文本量越大越好，例如可以使用100G的通用领域文本进行训练。

在步骤202中，首先，将原子句中的具有法律属性的事实拆解为：

实体A.属性B=取值C

修改版的Masked language model中，被Mask的概率为：

其中

为系数，

为词

被抹去的概率，

为通用词被抹去的概率；

，

，

为实体，属性和取值的标签的集合。

通过上述修改，预训练模型会更加关注与标注相关的关键词，从而达到更好的泛化效果。

这里用到了与一阶段训练MLM类似的想法，有一定的概率将文本中某个词与进行“抹去”，并通过模型预测该位置的词语。一阶段训练MLM是等概率抹去词语，这里对于数据法律领域的词语，增加其被抹去的概率。比如，通用词是15%概率，

是25%概率抹去。

步骤104，将所述中间输出输入至预先训练好的解码模型中，抽取出原始咨询问题中的具有法律属性的事实。

在一实施例中，所述解码模型包括基于Dynamic Convolution的三层Decoder结构。

需要说明的是，最初的Transformer结构被用于机器翻译，是6层Encoder+6层Decoder结构。而本发明实施例提出的Decoder结构为3层Decoder（L=3，hidden=512, FFN=1024），模型轻便，占用内存小，计算效率高。

图3为本发明实施例中解码模型的训练流程图，在一实施例中，所述解码模型的训练步骤如下：

步骤301，获取多个用户的原始咨询问题的历史数据的数据集；

步骤302，对数据集中每个历史数据进行具有法律属性的事实抽取，获得三元组标识的具有法律属性的事实；

步骤303，对所述三元组表示的具有法律属性的事实中的每个元素进行三元组标签的标注，获得数据集的标签；

步骤304，基于所述数据集的标签，训练所述解码模型，获得训练好的解码模型。

在一实施例中，所述三元组包括实体、属性和取值。

在这里，需要进行三元组标签的标注。标注的目标是通过建模和训练能够让解码模型完成诸如如下句子的事实抽取，从而理解相关具有法律属性的事实：

男方具有行为A；

女方有怀孕；

子女倾向男方抚养。

其中，A1是A的法定的日常体现形式。通常的标注方式是将上述句子简单建模为上述的多标签分类问题，采用神经网络对其进行多标签独立预测。比如，将上述句子表示的整段文本表示为向量形式

，通过该向量来建立多分类模型，从而判断用户所描述的提问中是否存在某个具有法律属性的事实，可表示为：

其中L为所有可能的标签。这种表达方式的局限有两个：

第一，任意两个标签，l _i和l _j之间关于h条件独立，不能很好建模标签之间的关系。但本发明实施例需要的标签，如“子女倾向男方抚养”与“子女倾向女方抚养”是负相关的（因为这两个条件矛盾，通常情况下不会出现在一个用户的同一个提问中）。

第二，产生的L集合达到数百个，分布稀疏，对样本较少的标签准确率并不高。需要很大的标注量才能达到可用的效果。尤其是对少数长尾的事实，可能在上万个用户提问中，都不会存在一个正样本。

基于此，本发明实施例提出创新的标签标注方式，如前述，原子句中的具有法律属性的事实可拆解为：

实体A.属性B=取值C

可以通过此方法大幅降低标签的数量，将原有标签数量：

降低为：

其中

，

，

为实体，属性和取值的标签的集合。

如：[男方].[行为A]=[1]，则代表男方具有行为A的事实。

这样就完成了标签的标注。

在一实施例中，基于所述数据集的标签，训练所述解码模型，获得训练好的解码模型，包括：

将所述数据集的标签构成一个序列；

对所述序列采用自回归和Beam search的方法进行概率解码，以训练出解码模型的参数，获得训练好的解码模型。

上述序列可记为

；

其中，

在一实施例中，对所述序列采用自回归和Beam search的方法进行概率解码时，概率解码的输出为合法三元组。

在概率解码时，最可能的预测可表示为：

其中，解码时保证所有的取值范围仅枚举合法三元组的组合，丢弃不合法的组合。得到的概率最大组合，即为模型预测的具有法律属性的事实。

例如，女方.怀孕=1表示“女方怀孕”，（实体、属性、取值）=（女方、怀孕、1）为合法三元组，但有些三元组的组合不存在，如：“男方.怀孕=1”对应的三元组为不合法三元组。

综上所述，在本发明实施例提出的方法中，获取用户的原始咨询问题；对所述原始咨询问题进行分句处理，获得原子句集合；将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型，抽取出原始咨询问题中的具有法律属性的事实；其中，所述具有法律属性的事实抽取模型包括二阶段BERT预训练模型和解码模型。在上述过程中，提出了采用具有法律属性的事实抽取模型进行具有法律属性的事实抽取，其中，具有法律属性的事实抽取模块包括二阶段BERT预训练模型和解码模型，相比于不经过预训练模型的具有法律属性的事实抽取过程，本发明实施例提出的方法抽取的具有法律属性的事实准确度更高。另外，创新的标签标注方式降低了标签数量，提高了训练效率。二阶段BERT预训练模型的训练精度更高，进一步提高了准确度。

本发明实施例还提出一种基于法律咨询问题的具有法律属性的事实抽取装置，其原理与基于法律咨询问题的具有法律属性的事实抽取方法类似，这里不再赘述。

图4为本发明实施例中基于法律咨询问题的具有法律属性的事实抽取装置的示意图一，包括：

原始咨询问题获取模块401，用于获取用户的原始咨询问题；

分句处理模块402，用于对所述原始咨询问题进行分句处理，获得原子句集合；

具有法律属性的事实抽取模块403，用于具有法律属性的事实抽取模块，用于将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型，抽取出原始咨询问题中的具有法律属性的事实；

图5为本发明实施例中基于法律咨询问题的具有法律属性的事实抽取装置的示意图二，在一实施例中，所述装置还包括二阶段BERT预训练模型训练模块501，用于：采用如下步骤训练所述二阶段BERT预训练模型：

以通用领域文本为输入，执行MLM预训练任务，执行NSP任务，获得一阶段BERT预训练模型；

以多个用户的原始咨询问题的历史数据集为输入，在一阶段BERT预训练模型的基础上，采用修改版的Masked language model执行MLM任务，执行NSP任务，获得训练好的二阶段BERT预训练模型。

图6为本发明实施例中基于法律咨询问题的具有法律属性的事实抽取装置的示意图三，在一实施例中，所述装置还包括解码模型训练模块601，用于：采用如下步骤训练所述解码模型：

获取多个用户的原始咨询问题的历史数据的数据集；

对数据集中每个历史数据进行具有法律属性的事实抽取，获得三元组标识的具有法律属性的事实；

对所述三元组表示的具有法律属性的事实中的每个元素进行三元组标签的标注，获得数据集的标签；

基于所述数据集的标签，训练所述解码模型，获得训练好的解码模型。

在一实施例中，解码模型训练模块601还用于：将所述数据集的标签构成一个序列；

在一实施例中，所述三元组包括实体、属性和取值。

在一实施例中，解码模型训练模块601还用于：对所述序列采用自回归和Beamsearch的方法进行概率解码时，概率解码的输出为合法三元组。

综上所述，在本发明实施例提出的装置中，原始咨询问题获取模块，用于获取用户的原始咨询问题；分句处理模块，用于对所述原始咨询问题进行分句处理，获得原子句集合；具有法律属性的事实抽取模块，用于将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型，抽取出原始咨询问题中的具有法律属性的事实；其中，所述具有法律属性的事实抽取模型包括二阶段BERT预训练模型和解码模型。在上述过程中，提出了采用具有法律属性的事实抽取模型进行具有法律属性的事实抽取，其中，具有法律属性的事实抽取模块包括二阶段BERT预训练模型和解码模型，相比于不经过预训练模型的具有法律属性的事实抽取过程，本发明实施例提出的方法抽取的具有法律属性的事实准确度更高。另外，创新的标签标注方式降低了标签数量，提高了训练效率。二阶段BERT预训练模型的训练精度更高，进一步提高了准确度。

本申请的实施例还提供一种计算机设备，图7为本发明实施例中计算机设备的示意图，该计算机设备能够实现上述实施例中的基于法律咨询问题的具有法律属性的事实抽取方法中全部步骤，所述计算机设备具体包括如下内容：

处理器(processor) 701、存储器(memory) 702、通信接口(CommunicationsInterface) 703和通信总线704；

其中，所述处理器701、存储器702、通信接口703通过所述通信总线704完成相互间的通信；所述通信接口703用于实现服务器端设备、检测设备以及用户端设备等相关设备之间的信息传输；

所述处理器701用于调用所述存储器702中的计算机程序，所述处理器执行所述计算机程序时实现上述实施例中的基于法律咨询问题的具有法律属性的事实抽取方法中的全部步骤。

本申请的实施例还提供一种计算机可读存储介质，能够实现上述实施例中的基于法律咨询问题的具有法律属性的事实抽取方法中全部步骤，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的基于法律咨询问题的具有法律属性的事实抽取方法的全部步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于法律咨询问题的具有法律属性的事实抽取方法，其特征在于，包括：

获取用户的原始咨询问题；

对所述原始咨询问题进行分句处理，获得原子句集合；

其中，所述具有法律属性的事实抽取模型包括二阶段BERT预训练模型和解码模型；

所述二阶段BERT预训练模型的训练步骤如下：以通用领域文本为输入，执行MLM预训练任务，执行NSP任务，获得一阶段BERT预训练模型；以多个用户的原始咨询问题的历史数据集为输入，在一阶段BERT预训练模型的基础上，采用修改版的Masked language model执行MLM任务，执行NSP任务，获得训练好的二阶段BERT预训练模型；

修改版的Masked language model中，被Mask的概率为：

其中

为系数，

为词

被抹去的概率，

为通用词被抹去的概率；

，

，

分别为实体、属性和取值的标签的集合；实体、属性和取值是由原子句中的具有法律属性的事实拆解出的；

所述解码模型的训练步骤如下：获取多个用户的原始咨询问题的历史数据的数据集；对数据集中每个历史数据进行具有法律属性的事实抽取，获得三元组标识的具有法律属性的事实；对所述三元组表示的具有法律属性的事实中的每个元素进行三元组标签的标注，获得数据集的标签；基于所述数据集的标签，训练所述解码模型，获得训练好的解码模型；

所述三元组包括实体、属性和取值。

2. 如权利要求1所述的基于法律咨询问题的具有法律属性的事实抽取方法，其特征在于，所述解码模型包括基于Dynamic Convolution的三层Decoder结构。

3.如权利要求1所述的基于法律咨询问题的具有法律属性的事实抽取方法，其特征在于，基于所述数据集的标签，训练所述解码模型，获得训练好的解码模型，包括：

将所述数据集的标签构成一个序列；

4. 如权利要求3所述的基于法律咨询问题的具有法律属性的事实抽取方法，其特征在于，对所述序列采用自回归和Beam search的方法进行概率解码时，概率解码的输出为合法三元组。

5.一种基于法律咨询问题的具有法律属性的事实抽取装置，其特征在于，包括：

原始咨询问题获取模块，用于获取用户的原始咨询问题；

修改版的Masked language model中，被Mask的概率为：