CN113886555B

CN113886555B - 法律咨询服务方法及装置

Info

Publication number: CN113886555B
Application number: CN202111466726.0A
Authority: CN
Inventors: 杨晓雷
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-03-04
Anticipated expiration: 2041-12-03
Also published as: CN113886555A

Abstract

本发明提供了一种法律咨询服务方法及装置，该方法包括：接收用户输入的原始咨询问题；对所述原始咨询问题进行分类，获得多个用户咨询问题，并抽取出每个用户咨询问题对应的具有法律属性的事实，输出每个用户咨询问题及对应的具有法律属性的事实；接收用户对每个用户咨询问题的补充的具有法律属性的事实；对每个用户咨询问题，基于该用户咨询问题的所有的具有法律属性的事实，动态激活法律知识图谱，进行与用户的多轮提问与回答，获得该用户咨询问题的咨询结果；根据每个用户咨询问题的咨询结果及对应的具有法律属性的事实，生成法律咨询报告。本发明可以使得交互过程便于用户理解，咨询结果专业度高。

Description

法律咨询服务方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种法律咨询服务方法及装置。

背景技术

随着普通民众法律服务需求的不断上升，越来越多的民众选择通过互联网咨询法律问题，法律与人工智能结合的智能法律服务逐步开展。

在智能咨询领域，受到技术条件和人才缺乏的制约，法律与人工智能的结合尚处于表面。市场上多数智能咨询产品依然处于让用户进行法律问题选择或者一问一答的服务提供形式，无法做到深度协同。单纯依靠司法数据库和机器学习算法开发模式而研发的公共法律服务系统至今依旧存在法律信息提取准确率低，法律问题和相关关系判断不清，服务提供方式和结果不适于法律知识水平不高的普通群众进行应用、理解和接受等诸多问题。

发明内容

本发明实施例提出一种法律咨询服务方法，交互过程便于用户理解，咨询结果专业度高，该方法包括：

接收用户输入的原始咨询问题；

对所述原始咨询问题进行分类，获得多个用户咨询问题，并抽取出每个用户咨询问题对应的具有法律属性的事实，输出每个用户咨询问题及对应的具有法律属性的事实；

接收用户对每个用户咨询问题的补充的具有法律属性的事实；

对每个用户咨询问题，基于该用户咨询问题的所有的具有法律属性的事实，动态激活法律知识图谱，进行与用户的多轮提问与回答，获得该用户咨询问题的咨询结果；

根据每个用户咨询问题的咨询结果及对应的具有法律属性的事实，生成法律咨询报告。

本发明实施例提出一种法律咨询服务装置，交互过程便于用户理解，咨询结果专业度高，该装置包括：

原始咨询问题获取模块，用于接收用户输入的原始咨询问题；

问题分类模块，用于对所述原始咨询问题进行分类，获得多个用户咨询问题，并抽取出每个用户咨询问题对应的具有法律属性的事实，输出每个用户咨询问题及对应的具有法律属性的事实；

具有法律属性的事实补充模块，用于接收用户对每个用户咨询问题的补充的具有法律属性的事实；

咨询结果获得模块，用于对每个用户咨询问题，基于该用户咨询问题的所有的具有法律属性的事实，动态激活法律知识图谱，进行与用户的多轮提问与回答，获得该用户咨询问题的咨询结果；

报告生成模块，用于根据每个用户咨询问题的咨询结果及对应的具有法律属性的事实，生成法律咨询报告。

本发明实施例还提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述法律咨询服务方法。

本发明实施例还提出了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述法律咨询服务方法的计算机程序。

在本发明实施例中，接收用户输入的原始咨询问题；对所述原始咨询问题进行分类，获得多个用户咨询问题，并抽取出每个用户咨询问题对应的具有法律属性的事实，输出每个用户咨询问题及对应的具有法律属性的事实；接收用户对每个用户咨询问题补充的具有法律属性的事实；对每个用户咨询问题，基于该用户咨询问题的所有的具有法律属性的事实，动态激活法律知识图谱，进行与用户的多轮提问与回答，获得该用户咨询问题的咨询结果；根据每个用户咨询问题的咨询结果及对应的具有法律属性的事实，生成法律咨询报告。在上述过程中，模拟真实的法律咨询流程，律师与客户的互动问答方式。多轮问询通过原始咨询问题这个开放式问题描述，锁定用户咨询问题和涉及到的具有法律属性的事实。再对每个用户咨询问题，基于该用户咨询问题的所有的具有法律属性的事实，动态激活法律知识图谱，进行与用户的多轮提问与回答，交互过程便于用户理解，咨询结果专业度高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中法律咨询服务方法的流程图一；

图2为本发明实施例中原始咨询问题交互界面的一个示例；

图3为本发明实施例中法律问题分类的流程图；

图4为本发明实施例中法律问题分类的结果示意图；

图5为本发明实施例中法律咨询服务方法的流程图二；

图6为本发明实施例中构建的一个构建法律知识图谱的示例；

图7为本发明实施例中与用户多轮提问与回答的交互流程图；

图8为本发明实施例中与用户进行交互的界面展示图；

图9为本发明实施例中与用户进行交互时不断激活法律知识图谱的示意图；

图10为本发明实施例中生成法律咨询报告的流程图；

图11为本发明实施例中Encoder-Decoder模型框架的示意图；

图12为本发明实施例中改进的Transformer模型的编码器Encoder部分示意图；

图13和图14为本发明实施例中法律咨询报告展示示意图；

图15为本发明实施例中法律咨询服务装置的示意图；

图16为本发明实施例中计算机设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

在本说明书的描述中，所使用的“包含”、“包括”、“具有”、“含有”等，均为开放性的用语，即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本申请的实施，其中的步骤顺序不作限定，可根据需要作适当调整。

图1为本发明实施例中法律咨询服务方法的流程图一，如图1所示，该方法包括：

步骤101，接收用户输入的原始咨询问题；

步骤102，对所述原始咨询问题进行分类，获得多个用户咨询问题，并抽取出每个用户咨询问题对应的具有法律属性的事实，输出每个用户咨询问题及对应的具有法律属性的事实；

步骤103，接收用户对每个用户咨询问题的补充的具有法律属性的事实；

步骤104，对每个用户咨询问题，基于该用户咨询问题的所有的具有法律属性的事实，动态激活法律知识图谱，进行与用户的多轮提问与回答，获得该用户咨询问题的咨询结果；

步骤105，根据每个用户咨询问题的咨询结果及对应的具有法律属性的事实，生成法律咨询报告。

在步骤101中，接收用户输入的原始咨询问题，该原始咨询问题可以是用户输入的一段话，例如：

你好，男的具有A1的行为，我想离婚，现有一个三周半的女儿，我想争取到孩子。

上述原始咨询问题可以通过给用户交互界面，让用户输入的形式获得。图2为本发明实施例中原始咨询问题交互界面的一个示例。在图2中，用户点击“分析问题”可以进行到步骤102。

在步骤102中，对所述原始咨询问题进行分类，获得多个用户咨询问题，并抽取出每个用户咨询问题对应的具有法律属性的事实，输出每个用户咨询问题及对应的具有法律属性的事实。

图3为本发明实施例中法律问题分类的流程图，在一实施例中，对所述原始咨询问题进行分类，获得多个用户咨询问题，包括：

步骤301，对所述原始咨询问题进行分类，获得多个用户咨询问题及每个用户咨询问题的概率；

步骤302，输出概率最大的若干用户咨询问题。

图4为本发明实施例中法律问题分类的结果示意图。在前述原始咨询问题中，概率最大的用户咨询问题为抚养权争夺、女方请求离婚，因此，这里输出这两个用户咨询问题，以交互界面的形式展示给用户。

需要指出的是，在图4中，还展示出了其他小概率的用户咨询问题，本发明实施例支持用户勾选其想咨询的其他用户咨询问题。另外，本发明实施例还在该步骤中抽取出每个用户咨询问题对应的具有法律属性的事实，例如，上述原始咨询问题描述中给出了“男的具有A1的行为”，女方请求离婚这个用户咨询问题中的具有法律属性的事实就包括“男方具有行为A”，其中，A1是A的法定的日常体现形式。输出这些用户咨询问题及对应的具有法律属性的事实，展示给用户。

在一实施例中，抽取出每个用户咨询问题对应的具有法律属性的事实，包括：

对所述原始咨询问题进行分句处理，获得原子句集合；

将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型，抽取出原始咨询问题中的具有法律属性的事实；

按照用户咨询问题的类别，将抽取出的具有法律属性的事实与用户咨询问题相对应，获得每个用户咨询问题对应的具有法律属性的事实。

其中，分句处理是指将原始咨询问题所涉及的法律知识中的每个句子分解为多个易于理解的简单的短句的过程。

所述具有法律属性的事实抽取模型包括二阶段BERT预训练模型和解码模型。

所述二阶段BERT预训练模型的训练步骤如下：

以通用领域文本为输入，执行MLM预训练任务，执行NSP任务，获得一阶段BERT预训练模型；

以多个用户的原始咨询问题的历史数据集为输入，在一阶段BERT预训练模型的基础上，采用修改版的Masked language model执行MLM任务，执行NSP任务，获得训练好的二阶段BERT预训练模型。

在上述实施例中，通用领域文本知识不止包括法律知识的所有社会知识的数据库的集合，多个用户的原始咨询问题的历史数据集是指互联网等各个数据来源的海量用户咨询的问题。

BERT模型结构是一个多层的双向transformer结构的encoder部分。

BERT预训练是采用多任务的方式，包括遮蔽语言模型(MLM)和下一个句子预测(NSP)。

任务1：Masked Language Model(MLM)预训练任务

所谓MLM预训练任务是指在训练的时候随即从输入预料上遮蔽（Mask）掉一些词，然后通过上下文预测该词。正如传统的语言模型算法和RNN匹配那样，MLM的这个性质和Transformer的结构是非常匹配的。

任务2：Next Sentence Prediction(NSP)任务

Next Sentence Prediction（NSP）的任务是判断句子B是否是句子A的下文。如果是的话输出“IsNext”，否则输出“NotNext”。训练数据的生成方式是从平行语料中随机抽取的连续两句话，其中50%保留抽取的两句话，它们符合IsNext关系，另外50%的第二句话是随机从预料中提取的，它们的关系是NotNext的。

可见，传统的BERT预训练模型采用的是Masked language model的训练方式，对于一个文本：

在训练阶段每个单词

都独立地有20%的概率被破坏，得到一个含有噪音的版本

。而训练的目标是采用Transformer结构将其恢复：

该方法在法律文本上的表现较差，原因是BERT预训练模型通常在常规的新闻和网页数据上进行预训练，所学到的通用领域的语言表征与法律领域语言表征有较大差距。为了减小表征差距，在法律文本上取得更好的效果，本发明实施例提出采用二阶段预训练方式优化，即获得二阶段BERT预训练模型。

以通用领域文本为输入，通过执行上述的MLM预训练任务和NSP任务，获得一阶段BERT预训练模型时，其中，为了提高训练精度，通用领域文本量越大越好，例如100G的通用领域文本。

在训练二阶段BERT预训练模型时，首先，将原子句中的具有法律属性的事实拆解为：

实体A.属性B=取值C

修改版的Masked language model中，被Mask的概率为：

其中

为系数，

为词

被抹去的概率，

为通用词被抹去的概率；

，

，

为实体，属性和取值的标签的集合。

通过上述修改，预训练模型会更加关注与标注相关的关键词，从而达到更好的泛化效果。

这里用到了与一阶段训练MLM类似的想法，有一定的概率将文本中某个词与进行“抹去”，并通过模型预测该位置的词语。一阶段训练MLM是等概率抹去词语，这里对于数据法律领域的词语，增加其被抹去的概率。比如，通用词是15%概率，

是25%概率抹去。

所述解码模型包括基于Dynamic Convolution的三层Decoder结构。

需要说明的是，最初的Transformer结构被用于机器翻译，是6层Encoder+6层Decoder结构。而本发明实施例提出的解码模型为3层Decoder结构（L=3，hidden=512, FFN=1024），模型轻便，占用内存小，计算效率高。

所述解码模型的训练步骤如下：

获取多个用户的原始咨询问题的历史数据的数据集；

对数据集中每个历史数据进行具有法律属性的事实抽取，获得三元组标识的具有法律属性的事实；

对所述三元组表示的具有法律属性的事实中的每个元素进行标签的标注，获得数据集的标签；

基于所述数据集的标签，训练所述解码模型，获得训练好的解码模型。

在一实施例中，所述三元组包括实体、属性和取值。

在这里，需要进行标签的标注。标注的目标是通过建模和训练能够让解码模型完成诸如如下句子的事实抽取，从而理解相关具有法律属性的事实：

男方具有行为A；

女方有怀孕；

子女倾向男方抚养。

通常的标注方式是将上述句子简单建模为上述的多标签分类问题，采用神经网络对其进行多标签独立预测。比如，将上述句子表示的整段文本表示为向量形式

，通过该向量来建立多分类模型，从而判断用户所描述的提问中是否存在某个具有法律属性的事实，可表示为：

其中L为所有可能的标签。这种表达方式的局限有两个：

第一，任意两个标签，l _i和l _j之间关于h条件独立，不能很好建模标签之间的关系。但本发明实施例需要的标签，如“子女倾向男方抚养”与“子女倾向女方抚养”是负相关的（因为这两个条件矛盾，通常情况下不会出现在一个用户的同一个提问中）。

第二，产生的L集合达到数百个，分布稀疏，对样本较少的标签准确率并不高。需要很大的标注量才能达到可用的效果。尤其是对少数长尾的事实，可能在上万个用户提问中，都不会存在一个正样本。

基于此，本发明实施例提出创新的标签标注方式，如前述，原子句中的具有法律属性的事实可拆解为：

实体A.属性B=取值C

可以通过此方法大幅降低标签的数量，将原有标签数量：

降低为：

其中

，

，

为实体，属性和取值的标签的集合。

如：[男方].[行为A]=[1]，则代表男方具有行为A的事实。这样就完成了标签的标注。

在一实施例中，基于所述数据集的标签，训练所述解码模型，获得训练好的解码模型，包括：

将所述数据集的标签构成一个序列；

对所述序列采用自回归和Beam search的方法进行概率解码，以训练出解码模型的参数，获得训练好的解码模型。

上述序列可记为

；

其中，

在一实施例中，对所述序列采用自回归和Beam search的方法进行概率解码时，概率解码的输出为合法三元组。

在概率解码时，最可能的预测可表示为：

其中，解码时保证所有的取值范围仅枚举合法三元组的组合，丢弃不合法的组合。得到的概率最大组合，即为模型预测的具有法律属性的事实。

例如，女方.怀孕=1表示“女方怀孕”，（实体、属性、取值）=（女方、怀孕、1）为合法三元组，但有些三元组的组合不存在，如：“男方.怀孕=1”对应的三元组为不合法三元组。

在步骤103中，接收用户对每个用户咨询问题的补充的具有法律属性的事实；

图5为本发明实施例中法律咨询服务方法的流程图二，在一实施例中，在接收用户对每个用户咨询问题的补充的具有法律属性的事实之前，还包括：

步骤501，分析每个用户咨询问题涉及的可能的具有法律属性的事实，并输出；

接收用户对每个用户咨询问题的补充的具有法律属性的事实，包括：

对每个用户咨询问题，接收用户从多个可能的具有法律属性的事实中选定的补充的具有法律属性的事实。

在上述实施例中，给出了用户补充具有法律属性的事实的一种方法，即提前为用户展示多个可能的具有法律属性的事实，例如，女方请求离婚这个用户咨询问题中，可能的具有法律属性的事实包括是否有结婚证，是否非近亲结婚，将这些可能的具有法律属性的事实展示给客户，客户通过勾选是或否的方式，来添加补充的具有法律属性的事实，若用户未对该可能的具有法律属性的事实进行勾选，则未勾选的不属于用户补充的具有法律属性的事实。

步骤104，对每个用户咨询问题，基于该用户咨询问题的所有的具有法律属性的事实，动态激活法律知识图谱，进行与用户的多轮提问与回答，获得该用户咨询问题的咨询结果。在一实施例中，所述法律知识图谱的构建步骤包括：

获取本次待构建的法律知识图谱的领域涉及的法律知识；

对所述法律知识中的每个句子进行分句处理，获得原子句集合；

将每个原子句拆解为逻辑关系句式，所述逻辑关系句式包括多个逻辑关系字段的值；

基于多个逻辑关系句式，查询原子句集合，获得多个逻辑关系句式对应的结论；

将多个逻辑关系句式及对应的结论转换为CNF合取范式的原子句；

基于CNF合取范式的原子句构建法律知识图谱。

在获取本次待构建的法律知识图谱的领域涉及的法律知识时，具体领域可以划分为婚姻家庭领域、劳动用工领域等等，每个领域可形成一个知识图谱，每个知识图谱可针对该领域多个问题，以婚姻家庭关系领域为例，针对的问题可以归纳为婚姻问题和非婚姻问题。婚姻问题可以进一步分为婚姻关系、子女关系、财产分割、诉讼管辖等；非婚姻问题可以分为彩礼财物归属、重婚认定、同居关系认定等。所述法律知识包括法律、法规和司法解释以及相关有效的规范性法律文件等专业的通用法律知识，准确性高。

在获得原子句集合后，还包括：

将原子句集合中的原子句存储至搜索数据库中，并确定每个原子句在搜索数据库的倒排索引。存储至搜索数据库，并形成倒排索引，可便于后续进行原子句的检索。

其中，所述逻辑关系字段包括实体字段、属性字段和取值字段。该逻辑关系句式可表示为：

前提条件（实体，属性，取值）；

一般情况下，前提条件可以为“否”、“是”等，在前提条件为“是”时，可以省略。

实体是人、行为、事物等现实存在，例如，婚姻家庭案件中的法律实体可以被区分为法律关系上的主体和客体等。主体可细分为妻父母、夫父母、妻、夫、子女（男、女）、法人以及单位、组织、机构等。客体可分为不动产、动产、股权和期权以及相关的非物质财富和行为等。以上这些实体是形成相对应的法律关系的主体和客体。

属性指的是实体一些性质、特点、状况、状态等方面的法定的关联或者规定，其既体现作为实体事物本身的一种自然性，也具有复杂的社会性。

取值指的是实体与属性之间的关联的真与假的状况。

在一实施例中，在将每个原子句拆解为逻辑关系句式之前，还包括：

对每个原子句，判断该原子句是否属于简单事实命题；

若否，基于该原子句查询所述原子句集合，获得该原子句细化后的属于简单事实命题的多个原子句。

所谓简单事实命题，是指基于客观事实，可被正常受过（非法律类）教育的用户所能理解并回答的问题。例如，法律法规F1认定夫妻感情确已破裂可包括如下情况：

一方患有法定禁止结婚的疾病，或一方存在问题B。

上述对应的原子句为：

男方/女方患有法定禁止结婚疾病。

男方/女方存在问题B。

其中“患有法定禁止结婚疾病”的前提，超过一般用户可以判断的范畴，因此，“男方/女方患有法定禁止结婚疾病”不属于简单事实命题，需要将该原子句细化。

在一实施例中，基于该原子句查询所述原子句集合，获得该原子句细化后的属于简单事实命题的多个原子句，包括：

获得该原子句在搜索数据库的倒排索引；

基于所述倒排索引查询该原子句所在法律知识的相关法律知识；

从搜索数据库中获得所述相关法律知识对应的多个原子句。

在上面的例子中，基于所述倒排索引查询该原子句所在法律知识的相关法律知识，得到的法律法规F2描述了婚前医学检查包括对下列疾病的检查：

（一）疾病C；

（二）疾病D；

（三）疾病E。

上述描述进行分句处理可表示为：患有法定禁止结婚的疾病<—>疾病C∨疾病D∨疾病E。

通过上述分句处理，相关法律知识对应的原子句为：

男方/女方患有疾病C。

男方/女方患有疾病D。

男方/女方患有疾病E。

上述三个原子句仍然不属于简单事实命题，仍需要细化。法律法规F2还提出：

疾病C，是指同时具有症状G、症状H和症状I的疾病。

疾病D，是指疾病M、疾病N以及医学上认为影响结婚和生育的其他D类疾病。

疾病E，是指疾病Z、疾病X以及疾病V。

关于疾病C，通过分句处理可表示为：

疾病C<—>具有症状G的疾病∨具有症状H的疾病∨具有症状I的疾病。

关于疾病E，通过分句处理可表示为：

疾病E<—>疾病Z∨疾病X∨疾病V。

通过上述过程，都可以将所有非简单事实命题细化为简单事实命题，“男方/女方患有疾病C”这个原子句可细化为：

男方/女方患有具有症状G的疾病。

男方/女方患有具有症状H的疾病。

男方/女方患有具有症状I的疾病。

“男方/女方患有疾病E”这个原子句可细化为：

男方/女方患有疾病Z。

男方/女方患有疾病X。

男方/女方患有疾病V。

上述原子句都可以进行拆解，例如，原子句“男方/女方患有疾病Z”可拆解为：

[男方/女方].[疾病Z]=1

其中，“男方/女方”为实体，“疾病Z”为属性，“1”为取值。

具体地，所述逻辑关系表包括实体字段表、属性字段表和取值字段表。表1-表3分别为实体字段表、属性字段表和取值字段表的示例，表4为结论表的示例。

表1

标识	实体
		ST1	实体1
ST2	实体2
		ST3	实体3
ST4	实体4

表2

标识	属性
		SX1	属性1
SX2	属性2
		SX3	属性3
SX4	属性4

表3

标识	取值
		Z1	取值1
Z2	取值2
		Z3	取值3
Z4	取值4

表4

标识	结论
		YYY1	结论1
YYY 2	结论2

从表1-表4可见，ST1、SX1、Z1可对应一个逻辑关系句式，结论1可对应逻辑关系句式，例如，ST1、SX1、Z1组成的逻辑关系句式，ST1、SX2、Z3组成的逻辑关系句式。结论和逻辑关系句式是一对多的关系。

在将每个原子句拆解成的逻辑关系句式中的每个逻辑关系字段的值填入对应的逻辑关系表时，参见表1，将实体字段的值填入表1，将属性字段的值填入表2，将取值字段的值填入表3；其中前提条件可在取值字段中体现，例如“是”、“否”的布尔表达。

在一实施例中，将每个原子句拆解成的逻辑关系句式中的每个逻辑关系字段的值填入对应的逻辑关系表，包括：

对每个原子句拆解成的逻辑关系句式中的每个逻辑关系字段的值，查找该逻辑关系字段对应的逻辑关系表；

若该逻辑关系字段的值在对应的逻辑关系表中存在同义词，使用该同义词代替该逻辑关系字段的值，否则，将该逻辑关系字段的值填入对应的逻辑关系表中。

也就是，如果该逻辑关系句式中，实体字段的值为“母亲、妈妈、孩子妈”，通过实体字段表查找，发现有“母亲”，都是同义词，那么不再添加至实体字段表，相当去重功能。

在一实施例中，将所述结论填入结论表中，包括：

判断所述结论是否与已存储的结论的含义相同；

若否，将所述结论填入结论表中。

也就是，结论也是需要进行去重的。

在上述实施例中，根据逻辑关系句式确定结论的过程，可以通过人工参与，或通过机器学习算法实现，一般多个逻辑关系句式可对应一个结论，且逻辑关系句式可以复用。也就是结论1可以用到逻辑关系句式1，结论2也可以用到逻辑关系句式1。

在形成结论时，可以以本领域知识图谱要解决的问题为导向，在前述的例子中，婚姻问题可以进一步分为婚姻关系问题、子女关系问题、财产分割问题、诉讼管辖问题。

以婚姻关系问题为例，可以提取婚姻关系的显式关键词“婚姻”和隐式关键词“男”“女”“结婚”“离婚”等，从表1中查找这些关键词对应的逻辑关系字段的值，并从原子句集合（例如搜索数据库）中查找这些关键词对应的结论，若能找到结论，填入表4，确定该结论对应的具体的逻辑关系字段的值，并记录这些逻辑关系式在表1-表3中的标识。因此，本发明实施例实现了从法律知识中提取相关描述来构建知识图谱，及对应的逻辑关系。

图6为本发明实施例中构建的一个构建法律知识图谱的示例，该法律知识图谱可动态生成，实时根据法律知识进行更新。

图7为本发明实施例中与用户多轮提问与回答的交互流程图，在一实施例中，对每个用户咨询问题，基于该用户咨询问题的所有的具有法律属性的事实，动态激活法律知识图谱，进行与用户的多轮提问与回答，获得该用户咨询问题的咨询结果，包括：

步骤701，根据所有的具有法律属性的事实，查询法律知识图谱，确定下一个对用户的提问；

步骤702，获得用户根据所述提问输入的回答；若所述回答为预设的咨询结果，转至步骤703；否则，转至步骤704；

步骤703，输出所述咨询结果；

步骤704，分析出所述回答中的具有法律属性的事实；转至步骤701，直至获得咨询结果。

其中，每个用户咨询问题都对应预设的多个可能的咨询结果。

在前述的例子中，对于女方请求离婚这个提问，可能的咨询结果如下：

会被准许；

不会被准许；

婚姻关系不成立（或可被撤销）；

双方一致同意；

法官酌定判断感情是否破裂。

上述每个可能的咨询结果都对应多个具有法律属性的事实，也就是多个具有法律属性的事实可确定一个咨询结果。

在一实施例中，加权期望最短路径方法的步骤包括：

确定法律知识图谱中每个原子句对应的提问；

将用户咨询问题中的具有法律属性的事实和多个原子句对应的提问输入至动态规划函数中；

求解获得所述动态规划函数最小值对应的提问为对用户的提问。

在一实施例中，所述法律知识图谱为基于CNF合取范式的原子句构建的。

一个标准的CNF合取范式可以表达为：

其中每个

为一个原子句，所有的原子句之间用“与”进行连接，整个表达式的可满足行，取决于每个

都需要同时被满足。这里共有m个原子句需要被满足，涉及到的变

为n个，1<=j<=n。

这种表达的形式，理论上可以采取枚举的形式，对可能的

进行赋值和检查，来判断上述CNF合取范式的表达式是否为可满足状态。

最简单的枚举算法的时间复杂度为

，在变量规模稍大的实际问题上，无法完成短时间的求解。所以本发明实施例采用启发式方法DPLL（Davis-Putnam-Logemann-Loveland）算法进行真值求解，该求解方式因为会动态将不适合的分支进行提前剪枝，从而减少不必要的枚举。

在前述女方请求离婚的用户咨询问题中，将每个可能的咨询结果视为一个命题子句{

}，将现有具有法律属性的事实作为CNF的子句，每个具有法律属性的事实是一个子句，当获得相应子句的值时，能否推导出咨询结果的真值就意味着该咨询结果在现有具有法律属性的事实下是否能够成立。可以将推导过程转换为CNF命题逻辑求真值的过程：

推导给出咨询结果

那么命题

为真，则证明可以通过法律知识图谱和具有法律属性的事实推导出需要的咨询结果。反之则根据具有法律属性的事实还不能推导出咨询结果。

因此，本发明实施例确定咨询结果的核心是：当目前的具有法律属性的事实不能推导出咨询结果时，如何有效进行提问，以帮助后续的推导。本发明实施例采用加权期望最短路径方法。

上述加权期望最短路径方法的原理是将逻辑表达转化为SAT问题，对于SAT问题的求解可采用DPLL算法进行。即根据用户对问题的回答，激活法律知识图谱上的相应区域（即：回答中具有法律属性的事实对应的或者相关部分）。法律专家提前对每个知识结点涉及到的提问给出相应的权重。通过最优加权步数算法可以推导出从当前提问到任意咨询结果的路径值，选取最短的路径进行状态转移，并输出相应提问。

在一实施例中，所述问题对应回答包括两个极值。即用“是”和“否”来表示，从而简化用户的回答。

将每一个提问定一个权重

，对应用户回答该问题的难度，对于比较简单的场景，可以不区分提问难度，则认为用户回答每个提问的难度都为1。在一些情况下，用户回答有些提问的难度明显超过其他提问，则可以通过先验知识，来给对应的提问的权重赋值，从而最小化用户的回答提问的负担。

在一实施例中，所述动态规划函数的表达式如下：

其中，

为已知条件；

为第

个提问的权重；

为第

个提问的回答；

和

分别为

为0和1的先验概率；

为咨询结果。

当

时，

为边界条件。

上述动态规划函数的表达式的含义是，当选择第

个提问时，需要付出

的代价，为动态规划函数的表达式的第一部分。对于上述提问，用户的回答可能有两种情况，即

=0或

=1。这两种情况对应的概率分别为

和

，当这两种情况确定了以后，需要进一步分析确定在新的条件下，如何进行提问是最优的，那么分别再进行两个子问题

和

的求解，因此，动态规划函数的表达式可以分为三大部分，直到找到最优的

，使得动态规划函数的表达式能够被最小化。

在一实施例中，所述先验概率通过对历史提问对应的回答的统计数据获得。

在一实施例中，在分析出所述回答中的具有法律属性的事实之后，还包括：

结合用户的回答，将通过知识图谱推导出的中间结论作为具有法律属性的事实。

也就是，除了分析出所述回答中的具有法律属性的事实，例如，双方有结婚证，还通过知识图谱推导出中间结论，例如，双方婚姻有效，也作为具有法律属性的事实，这样具有法律属性的事实就包括两类了。

图8为本发明实施例中与用户进行交互的界面展示图，展示过程中不断激活法律知识图谱，来生成提问，让用户给出是或否的回答，图9为本发明实施例中与用户进行交互时不断激活法律知识图谱的示意图。

在步骤105中，根据每个用户咨询问题的咨询结果及对应的具有法律属性的事实，生成法律咨询报告。

在一实施例中，所述咨询结果及对应的具有法律属性的事实为采用逻辑关系句式表示的原子句，所述逻辑关系句式包括多个逻辑关系字段的值；

图10为本发明实施例中生成法律咨询报告的流程图，根据每个用户咨询问题的咨询结果及对应的具有法律属性的事实，生成法律咨询报告，包括：

步骤1001，将采用逻辑关系句式表示的原子句输入至法律咨询报告生成模型中，获得输出的多个子句，所述法律咨询报告生成模型是以采用逻辑关系句式表示的历史文本数据为输入，以子句为输出进行模型训练获得的；

步骤1002，基于多个子句，获得法律咨询报告。

在一实施例中，所述法律咨询报告生成模型包括编码器和解码器。

也就是，法律咨询报告生成模型采用Encoder（编码器）-Decoder（解码器）模型框架，图11为本发明实施例中Encoder-Decoder模型框架的示意图，但有别于标准的Encoder-Decoder模型框架，本发明实施例中法律咨询报告生成模型的输出并非是以token来计算，而是一个子句。

相比于传统GPT算法的按照字或单词的输出，子句输出一方面可以有效降低法律咨询报告生成模型所需要训练的文本规模（一版语言模型至少需要上百兆文本进行学习），并且子句的正确性可以由人预先定义和验证，避免产生错误的报告内容。另外，在速度上也有很大的优势。这极大减小了所需要输出的词典大小，因为常见汉字的规模在3000字以上，而这里所需要用到的拆分后的子句形成的段落不超过100段，并且生成的速度在30倍以上。

假设咨询结果表示为：

其中，

为咨询结果；实体

、属性

、取值

为三元组。

而最后输出的子句是由专家根据现有的法律知识提前准备好的易于普通的非法律专业的用户理解的句子。这些子句可形成一个段落。

所述段落也形成一个序列：

其中，

为一个字符串描述。

而Encoder-Decoder模型框架的原理如下：

在一实施例中，所述编码器采用改进的Transformer模型的编码器实现，所述改进的Transformer模型的编码器采用逻辑关系句式表示的输入代替Transformer模型的编码器的输入。发明人注意到，传统的Transformer模型应用时，为编码每个token的信息，输入为字嵌入+每个字的位置信息，可表示为：

其中，

为原子句

的输入；

为位置信息。

而任意交换原子句的顺序都不会改变事实，所以有别于传统的Transformer实现，本发明实施例中，对于原子句的理解并不是一个序列，而是一个集合。因此，采用逻辑关系句式表示的输入代替Transformer模型的编码器的输入，即去掉了Transformer模型的编码器的位置信息Positional Embedding。

在一实施例中，所述逻辑关系句式表示的输入的表达式如下：

其中，

为原子句

对应的输入向量表示；

为原子句

中的实体

对应的输入向量表示；

为原子句

中的属性

对应的输入向量表示；

为原子句

中的取值

对应的输入向量表示。

这样的编码方式，既能够将所需要的原子句进行编码，又不指定具体的绝对位置信息，更有利于编码器的泛化。

图12为本发明实施例中改进的Transformer模型的编码器Encoder部分示意图，在图12中，在逻辑关系句式表示的输入之后，经过自关注Self-attention层，使得Encoder在对每个字进行编码时可以查看该字的前后信息，Encoder的输出会在经过一层标准加处理Add&Norm层处理。同样地，反馈Feed Forward层一会经过相应的标准加处理Add&Norm层处理，之后输出归一化的词向量列表。

在一实施例中，所述解码器采用动态卷积Dynamic Convolution实现。传统的Convolution采用的是固定参数的Kernel W对输入信号进行卷积，而Dynamic Convolution通过一个线性函数，根据当前输入信号的向量Xi来构造所采用的卷积核Wc=f(Xi)，从而达到更好的泛化效果。

使用动态卷积的结构，一方面其时间复杂度与生成的报告的长度为线性关系，而标准的Transformer中的解码器中的自关注Self-attention为平方。另一方面，动态卷积更多考虑临近的段落的关系，可以更好的捕捉临近句子的上下文，让生成的报告更为流畅。

法律咨询报告包括多个段落，每个段落包括多个子句，其中，除了上述得到的咨询结果外，还包括其他专家提前准备好的模板，例如，报告初始段落为：

感谢您对我们的信任和支持，基于您向我们提供的信息，系统生成了如下法律建 议。

再例如，为了方便用户理解，若咨询结果的建议包括“通过诉讼方式解除双方婚姻关系”，那么还可以提供行动指南，所述行动指南包括“向哪个法院起诉”以及“离婚流程是什么样的”等等，除此之外，还可以包括用户咨询问题涉及的相关法律法规。

在一实施例中，所述方法还包括：

在咨询结果有多个时，所述法律咨询报告对每个咨询结果进行分页展示。

例如，在前述的原始咨询问题中，抚养权争夺对应的咨询结果及对应的具有法律属性的事实通过本发明实施例提出的方法，可获得多个子句，并形成段落，如下：

因此法院会判决由女方抚养小孩。

同样，女方请求离婚对应的咨询结果及对应的具有法律属性的事实通过本发明实施例提出的方法，可获得多个子句，并形成段落，如下：

目前，您与男方无法就离婚相关事宜达成一致，因此您需要通过调解或诉讼方式 解除双方婚姻关系。

如果您选择诉讼途径，由于男方在婚姻关系存续期间存在实施行为A或行为Q、行 为W等情形，符合关于夫妻感情破裂法定情形的规定，属于有过错的一方，并且目前不存在 法定保护男方的特殊婚姻形式，因此我们认为法院大概率会支持您的诉讼请求，判决你们 双方离婚。

上述两个法律咨询报告会以分页形式展示，见图13和图14，图13和图14为本发明实施例中法律咨询报告展示示意图，两个法律咨询报告以分页形式进行展示，所述法律咨询报告除了展示用户咨询问题对应的及对应的具有法律属性的事实形成的段落，还展示了相关的行动指南和相关规定，以充分帮助用户理解。

综上所述，在本发明实施例提出的方法中，接收用户输入的原始咨询问题；对所述原始咨询问题进行分类，获得多个用户咨询问题，并抽取出每个用户咨询问题对应的具有法律属性的事实，输出每个用户咨询问题及对应的具有法律属性的事实；接收用户对每个用户咨询问题的补充的具有法律属性的事实；对每个用户咨询问题，基于该用户咨询问题的所有的具有法律属性的事实，动态激活法律知识图谱，进行与用户的多轮提问与回答，获得该用户咨询问题的咨询结果；根据每个用户咨询问题的咨询结果及对应的具有法律属性的事实，生成法律咨询报告。在上述过程中，模拟真实的法律咨询流程，律师与客户的互动问答方式。多轮问询通过原始咨询问题这个开放式问题描述，锁定用户咨询问题和涉及到的具有法律属性的事实。再对每个用户咨询问题，基于该用户咨询问题的所有的具有法律属性的事实，动态激活法律知识图谱，进行与用户的多轮提问与回答，交互过程便于用户理解，咨询结果专业度高。

本发明实施例还提出一种法律咨询服务装置，其原理与法律咨询服务方法类似，这里不再赘述。

图15为本发明实施例中法律咨询服务装置的示意图，包括：

原始咨询问题获取模块1501，用于接收用户输入的原始咨询问题；

问题分类模块1502，用于对所述原始咨询问题进行分类，获得多个用户咨询问题，并抽取出每个用户咨询问题对应的具有法律属性的事实，输出每个用户咨询问题及对应的具有法律属性的事实；

具有法律属性的事实补充模块1503，用于接收用户对每个用户咨询问题的补充的具有法律属性的事实；

咨询结果获得模块1504，用于对每个用户咨询问题，基于该用户咨询问题的所有的具有法律属性的事实，动态激活法律知识图谱，进行与用户的多轮提问与回答，获得该用户咨询问题的咨询结果；

报告生成模块1505，用于根据每个用户咨询问题的咨询结果及对应的具有法律属性的事实，生成法律咨询报告。

在一实施例中，问题分类模块1502具体用于：

对所述原始咨询问题进行分类，获得多个用户咨询问题及每个咨询问题的概率；

输出概率最大的若干用户咨询问题。

在一实施例中，问题分类模块1502具体用于：

对所述原始咨询问题进行分句处理，获得原子句集合；

在一实施例中，咨询结果获得模块1504具体用于：

根据所有的具有法律属性的事实，查询法律知识图谱，确定下一个对用户的提问；

获得用户根据所述提问输入的回答；

若所述回答为预设的咨询结果，输出所述咨询结果，否则，分析出所述回答中的具有法律属性的事实，重复执行上述步骤，直至获得咨询结果。

报告生成模块1505具体用于：

根据每个用户咨询问题的咨询结果，生成法律咨询报告，包括：

将采用逻辑关系句式表示的原子句输入至法律咨询报告生成模型中，获得输出的多个子句，所述法律咨询报告生成模型是以采用逻辑关系句式表示的历史文本数据为输入，以子句为输出进行模型训练获得的；

基于多个子句，获得法律咨询报告。

在一实施例中，具有法律属性的事实补充模块1503还用于：

分析每个用户咨询问题涉及的可能的具有法律属性的事实，并输出；

在一实施例中，所述法律知识图谱的构建步骤包括：

获取本次待构建的法律知识图谱的领域涉及的法律知识；

基于CNF合取范式的原子句构建法律知识图谱。

综上所述，在本发明实施例提出的装置中，原始咨询问题获取模块，用于接收用户输入的原始咨询问题；问题分类模块，用于对所述原始咨询问题进行分类，获得多个用户咨询问题，并抽取出每个用户咨询问题对应的具有法律属性的事实，输出每个用户咨询问题及对应的具有法律属性的事实；具有法律属性的事实补充模块，用于接收用户对每个用户咨询问题的补充的具有法律属性的事实；咨询结果获得模块，用于对每个用户咨询问题，基于该用户咨询问题的所有的具有法律属性的事实，动态激活法律知识图谱，进行与用户的多轮提问与回答，获得该用户咨询问题的咨询结果；报告生成模块，用于根据每个用户咨询问题的咨询结果及对应的具有法律属性的事实，生成法律咨询报告。在上述过程中，模拟真实的法律咨询流程，律师与客户的互动问答方式。多轮问询通过原始咨询问题这个开放式问题描述，锁定用户咨询问题和涉及到的具有法律属性的事实。再对每个用户咨询问题，基于该用户咨询问题的所有的具有法律属性的事实，动态激活法律知识图谱，进行与用户的多轮提问与回答，交互过程便于用户理解，咨询结果专业度高。

本申请的实施例还提供一种计算机设备，图16为本发明实施例中计算机设备的示意图，该计算机设备能够实现上述实施例中的法律咨询服务方法中全部步骤，所述计算机设备具体包括如下内容：

处理器(processor) 1601、存储器(memory) 1602、通信接口(CommunicationsInterface) 1603和通信总线1604；

其中，所述处理器1601、存储器1602、通信接口1603通过所述通信总线1604完成相互间的通信；所述通信接口1603用于实现服务器端设备、检测设备以及用户端设备等相关设备之间的信息传输；

所述处理器1601用于调用所述存储器1602中的计算机程序，所述处理器执行所述计算机程序时实现上述实施例中的法律咨询服务方法中的全部步骤。

本申请的实施例还提供一种计算机可读存储介质，能够实现上述实施例中的法律咨询服务方法中全部步骤，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的法律咨询服务方法的全部步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种法律咨询服务方法，其特征在于，包括：

接收用户输入的原始咨询问题；

根据每个用户咨询问题的咨询结果及对应的具有法律属性的事实，生成法律咨询报告；

抽取出每个用户咨询问题对应的具有法律属性的事实，包括：对所述原始咨询问题进行分句处理，获得原子句集合；将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型，抽取出原始咨询问题中的具有法律属性的事实；按照用户咨询问题的类别，将抽取出的具有法律属性的事实与用户咨询问题相对应，获得每个用户咨询问题对应的具有法律属性的事实。

2.如权利要求1所述的法律咨询服务方法，其特征在于，对所述原始咨询问题进行分类，获得多个用户咨询问题，包括：

对所述原始咨询问题进行分类，获得多个用户咨询问题及每个用户咨询问题的概率；

输出概率最大的若干用户咨询问题。

3.如权利要求1所述的法律咨询服务方法，其特征在于，对每个用户咨询问题，基于该用户咨询问题的所有的具有法律属性的事实，动态激活法律知识图谱，进行与用户的多轮提问与回答，获得该用户咨询问题的咨询结果，包括：

获得用户根据所述提问输入的回答；

4.如权利要求1所述的法律咨询服务方法，其特征在于，所述咨询结果及对应的具有法律属性的事实为采用逻辑关系句式表示的原子句，所述逻辑关系句式包括多个逻辑关系字段的值；

根据每个用户咨询问题的咨询结果及对应的具有法律属性的事实，生成法律咨询报告，包括：

基于多个子句，获得法律咨询报告。

5.如权利要求1所述的法律咨询服务方法，其特征在于，在接收用户对每个用户咨询问题的补充的具有法律属性的事实之前，还包括：

6.如权利要求1所述的法律咨询服务方法，其特征在于，所述法律知识图谱的构建步骤包括：

获取本次待构建的法律知识图谱的领域涉及的法律知识；

基于CNF合取范式的原子句构建法律知识图谱。

7.一种法律咨询服务装置，其特征在于，包括：

报告生成模块，用于根据每个用户咨询问题的咨询结果及对应的具有法律属性的事实，生成法律咨询报告；

问题分类模块具体用于：对所述原始咨询问题进行分句处理，获得原子句集合；将所述原子句集合输入至预先训练好的具有法律属性的事实抽取模型，抽取出原始咨询问题中的具有法律属性的事实；按照用户咨询问题的类别，将抽取出的具有法律属性的事实与用户咨询问题相对应，获得每个用户咨询问题对应的具有法律属性的事实。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至6任一项所述方法的计算机程序。