CN110008327B

CN110008327B - 法律回答生成方法及装置

Info

Publication number: CN110008327B
Application number: CN201910257194.6A
Authority: CN
Inventors: 王梓玥; 王宝鑫; 伍大勇; 王士进; 胡国平; 刘挺
Original assignee: Zhongke Xunfei Internet Beijing Information Technology Co ltd; Hebei Xunfei Institute Of Artificial Intelligence; iFlytek Co Ltd
Current assignee: Hebei Xunfei Institute Of Artificial Intelligence; iFLYTEK (Beijing) Co.,Ltd.; iFlytek Co Ltd
Priority date: 2019-04-01
Filing date: 2019-04-01
Publication date: 2022-01-14
Anticipated expiration: 2039-04-01
Also published as: CN110008327A

Abstract

本发明实施例提供一种法律回答生成方法及装置，属于自然语言处理技术领域。包括：获取问题数据，问题数据与法律咨询相关；将问题数据输入至强化学习模型中，输出回答数据。由于强化学习模型是基于初始模型训练得到的，而初始模型的类型为编解码模型，而不是基于历史信息检索，从而不需要依赖于历史的法律问答数据，可以针对法律提问创造出新的回答数据。因此，能够提供覆盖范围较广的回答。其次，由于初始模型的类型为编解码模型，从而不需要以三元组的形式表示训练数据，进而经初始模型训练得到的强化学习模型更适用于法律提问的回答。

Description

法律回答生成方法及装置

技术领域

本发明实施例涉及自然语言处理技术领域，尤其涉及一种法律回答生成方法及装置。

背景技术

随着法律知识的普及，越来越多的民众倾向利用法律手段维护保障自身权益，以及通过法律途径公平公正地解决问题。然而目前法律问题的解决率远低于法律问题的产生率。由于法律咨询需求的上升，线上法律咨询平台及平台注册律师越来越多，但用户难以从法律咨询平台获得专业且详细的法律帮助，多数平台注册律师倾向于提供简短且通用的回答并诱导提问者进行付费咨询或转向线下咨询。近年来，部分法律咨询网站提供了智能咨询方法，该方法主要是基于检索的法律咨询系统，该方法首先需要获取法律问题数据及其对应的回答数据以构建数据库，检索数据库中与用户法律提问之间最相似的法律问题数据，并将该法律问题数据对应的回答数据作为用户法律提问的回答。由于该方法是基于历史信息检索，过于依赖于历史的法律问答数据，且无法创造出不在数据库中的回答，从而能够提供的回答有限，应用范围较窄。

无法从语义上保证回答的针对性和准确性或从结构上保证问答的匹配程度，也无法创造出不在数据库中的回答。另外，上述数据库大多以三元组为基本单位进行建模，而三元组仅适用于陈述事实的知识类型，并不适用于篇幅长且结构关系复杂的法律条款和法规，从而不适合应用在法律问答中。此外，对于咨询平台上的律师回答以及智能咨询功能推荐的回答，用户往往需要花费较多的时间进行甄选。

发明内容

为了解决上述问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的法律回答生成方法及装置。

根据本发明实施例的第一方面，提供了一种法律回答生成方法，包括：

获取问题数据，问题数据与法律咨询相关；

将问题数据输入至强化学习模型中，输出回答数据，强化学习模型是对初始模型进行训练后得到的，初始模型的类型为编解码模型。

根据本发明实施例的第二方面，提供了一种法律回答生成装置，包括：

获取模块，用于获取问题数据，问题数据与法律咨询相关；

输出模块，用于将问题数据输入至强化学习模型中，输出回答数据，强化学习模型是对初始模型进行训练后得到的，初始模型的类型为编解码模型。

根据本发明实施例的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与处理器通信连接的至少一个存储器，其中：

存储器存储有可被处理器执行的程序指令，处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的法律回答生成方法。

根据本发明的第四方面，提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的法律回答生成方法。

本发明实施例提供的法律回答生成方法及装置，通过获取问题数据，将问题数据输入至强化学习模型中，输出回答数据。由于强化学习模型是基于初始模型训练得到的，而初始模型的类型为编解码模型，而不是基于历史信息检索，从而不需要依赖于历史的法律问答数据，可以针对法律提问创造出新的回答数据。因此，能够提供覆盖范围较广的回答。其次，由于初始模型的类型为编解码模型，从而不需要以三元组的形式表示训练数据，进而经初始模型训练得到的强化学习模型更适用于法律提问的回答。最后，由于基于初始模型训练得到的强化学习模型其输出结果可以是唯一的，从而不需要用户花费时间对回答数据进行筛选，从而提高了用户获取回答数据的效率。

应当理解的是，以上的一般描述和后文的细节描述是示例性和解释性的，并不能限制本发明实施例。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种法律回答生成方法的流程示意图；

图2为本发明实施例提供的一种初始模型的结构示意图；

图3为本发明实施例提供的一种法律回答生成方法的流程示意图；

图4为本发明实施例提供的一种法律回答生成方法的流程示意图；

图5为本发明实施例提供的一种法律回答生成方法的流程示意图；

图6为本发明实施例提供的一种法律咨询系统的强化学习过程示意图；

图7为本发明实施例提供的一种法律回答生成装置的结构示意图；

图8为本发明实施例提供的一种电子设备的框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前在相关技术中，在生成法律回答时，通常是先获取法律问题数据及其对应的回答数据以构建数据库，再检索数据库中与用户法律提问之间最相似的法律问题数据，并将该法律问题数据对应的回答数据作为用户法律提问的回答。由于该方法是基于历史信息检索，过于依赖于历史的法律问答数据，且无法创造出不在数据库中的回答，从而能够提供的回答有限，应用范围较窄。另外，当检索出多条回答时，还需要用户花费时间进行筛选。

还需要说明的是，与一般的问答系统相比，法律问答系统主要具有以下特性：一是语言的专业性，该特性主要体现在一些法律专用词汇上，例如“立法法”，指的是《中华人民共和国立法法》；而在其它领域，“立法法”一词则可能被判断为语病或别字。因此，一般的语言相关系统或其他领域的语言系统在法律领域并不适用，或容易造成歧义，降低系统的可用性。

二是知识范围的局限性，由于各个其它知识领域的数据构成不同，无法相互通用，或将A领域的知识用于B领域会难以达到预想的结果，从而法律问答系统需要具有法律信息特殊性和专一性，在法律领域，知识结构相对单一且客观，由法律法规和案例组成，信息分布较为集中。

三是知识数据结构的特殊性。一般生成式问答中常用的知识结构为三元组，即“实体1，实体2，关系”的表示形式，在相关技术中也是以三元组为基本单位构建的数据库。三元组仅适用于陈述事实的知识类型，而在法律领域中，由于条件和事实的多样性，篇幅长且结构关系复杂的法律条款和法规等知识并不适合用三元组表示，从而常见的知识库无法用于法律知识。相应地，相关技术中使用三元组构建的数据库，也并不适用于法律问题的回答。

针对相关技术中的问题及上述情形，本发明实施例提供了一种法律回答生成方法。本发明实施例提供的方法的执行主体可以为计算机或移动设备等，本发明实施例对此不作具体限定。参见图1，该方法包括：101、获取问题数据，问题数据与法律咨询相关；102、将问题数据输入至强化学习模型中，输出回答数据，强化学习模型是对初始模型进行训练后得到的。

其中，问题数据可以为法律相关提问对应问题文本的文本向量，回答数据可以为法律相关提问对应回答文本的文本向量，本发明实施例对此不作具体限定。初始模型的类型可以为编解码模型，该初始模型的训练数据可以为法律知识文章和法律咨询数据，且不需要以三元组的形式表示。法律知识文章保证了初始模型输出的回答在法律角度上的完整度和正确性，并为初始模型提供常识性的法律知识。法律咨询数据为回答提供了模式上的多样性，同时能提供一些通用且简短的回答，保证了初始模型输出的回答在通用角度上的普适性。通过法律知识文章和法律咨询数据训练得到初始模型，主要是为了后面训练强化学习模型提供先验知识，即对问题有初步的认识，并能够对输入的问题进行简单回答。该初始模型的数学表达式可以记为

在上述数学表达式中，q为问题数据对应的文本向量，将q输入至初始模型中，可输出回答数据对应的文本向量，即为

其中，

分别表示回答数据对应文本向量中的词向量。

表示给定问题数据对应的文本向量表示为q时，初始模型产生回答数据

的概率。θ为初始模型中初始化的预设参数，该预设参数的类型可以根据初始模型的结构类型所确定。另外，初始模型可以编解码模型，初始模型的结构可参考图2。

在图2中，encoder表示该模型中的编码模块，将问题数据对应文本向量中的词向量，也即q₁至q₄，输入至encoder中经过语义编码，也即经过最大似然函数进行计算，可生成回答数据对应文本向量中的第一个词向量a₁，基于问题数据对应的文本向量及生成的第一个词向量a₁，可生成回答数据对应文本向量中的第二个词向量a₂。基于问题数据对应的文本向量、生成的第一个词向量a₁及生成的第二个词向量a₂，可生成回答数据对应文本向量中的第三个词向量a₃，后面的依次类推。

初始模型能够从训练数据中学习到一些法律常识，并对问题进行回答，则说明初始模型能够达到预期回答法律问题的目标，且对问题数据具有初步的认识，能够对输入的问题数据进行简单回答。但是考虑到初始模型回答的可能还不够准确详细。因此，以初始模型为基础，可引入更专业的法律知识，并对回答数据的长度及信息量进行优化，也即对初始模型作进一步训练，得到强化学习模型，并通过强化学习模型进行法律相关问题的回答，以实现回答的准确度、专业度及详细程度。

本发明实施例提供的方法，通过获取问题数据，将问题数据输入至强化学习模型中，输出回答数据。由于强化学习模型是基于初始模型训练得到的，而初始模型的类型为编解码模型，而不是基于历史信息检索，从而不需要依赖于历史的法律问答数据，可以针对法律提问创造出新的回答数据。因此，能够提供覆盖范围较广的回答。其次，由于初始模型的类型为编解码模型，从而不需要以三元组的形式表示训练数据，进而经初始模型训练得到的强化学习模型更适用于法律提问的回答。最后，由于基于初始模型训练得到的强化学习模型其输出结果可以是唯一的，从而不需要用户花费时间对回答数据进行筛选，从而提高了用户获取回答数据的效率。

由上述实施例的内容可知，初始模型中可包含预设参数，而预设参数是会影响输出回答数据的准确程度的。在对初始模型进行训练时，可以对预设参数进行训练。相应地，基于上述实施例的内容，作为一种可选实施例，在将问题数据输入至强化学习模型中，输出回答数据之前，还包括：对初始模型中的预设参数进行迭代优化，对于第n次迭代优化过程，若第n次迭代优化过程的损失函数值满足预设条件，则停止迭代优化，并将第n次迭代优化过程的强化学习模型作为最终的强化学习模型。

其中，n为不小于1的正整数，第n次迭代优化过程的强化学习模型是对第n-1次迭代优化过程的强化学习模型中的预设参数进行更新后得到的。迭代优化的方式可以结合更专业的法律知识，如具体的法律条款，以及结合回答数据的长度、包含的信息量等内容，以对预设参数进行迭代优化，本发明实施例对此不作具体限定。

具体地，对于第n次迭代优化过程，更新第n-1次迭代优化过程得到的强化学习模型中的预设参数，得到第n次迭代优化过程的强化学习模型，基于第n次迭代优化过程的强化学习模型，获取第n次迭代优化过程的损失函数值，若第n次迭代优化过程的损失函数值满足预设条件，则停止迭代优化，并将第n次迭代优化过程得到的强化学习模型作为最终的强化学习模型，若第n次迭代优化过程的损失函数值不满足预设条件，则继续执行迭代优化，直至执行的迭代优化过程的损失函数值满足预设条件为止，将最后执行的迭代优化过程得到的强化学习模型作为最终的强化学习模型。其中，第n-1次迭代优化过程得到的强化学习模型是对初始模型进行n-1次迭代优化后得到的，第0次迭代优化过程得到的强化学习模型为初始模型。

另外，可以使用样本问题数据来进行迭代优化过程。对于第1次迭代优化过程，可以更新第0次迭代优化过程得到的强化学习模型中的预设参数，也即更新初始模型中的预设参数。需要说明的是，第1次预设参数的更新以及后续预设参数的更新，均可以采用随机梯度下降的更新算法，本发明实施例对此不作具体限定。

在更新初始模型中的预设参数，得到第1次迭代优化过程的强化学习模型后，可以获取第1次迭代优化过程的损失函数值。其中，第1次迭代优化过程的损失函数值主要是用于反映，对于样本问题数据以及将该样本问题数据输入至第1次迭代优化过程的强化学习模型中输出得到的样本回答数据，该样本回答数据作为该样本问题数据对应回答时的精准程度。第1次迭代优化过程的损失函数值可以根据该样本问题数据及该样本回答数据计算得到，本发明实施例对此不作具体限定。

在得到第1次迭代优化过程的损失函数值后，可以判断该第1次迭代优化过程的损失函数值是否满足预设条件。其中，预设条件可以为该损失函数值与上一次迭代优化过程的损失函数值之间的差值小于第一预设阈值。若第1次迭代优化过程的损失函数值满足预设条件，则停止迭代优化，并将第1次迭代优化过程得到的强化学习模型作为最终的强化学习模型，也即作为上述步骤102中使用的强化学习模型。

若第1次迭代优化过程的损失函数值不满足预设条件，则继续执行迭代优化过程，也即开始执行第2次迭代优化过程。具体地，可先更新第1次迭代优化过程得到的强化学习模型中的预设参数，得到第2次迭代优化过程的强化学习模型，基于第2次迭代优化过程的强化学习模型，获取第2次迭代优化过程的损失函数值，若第2次迭代优化过程的损失函数值满足预设条件，则停止迭代优化，并将第2次迭代优化过程得到的强化学习模型作为最终的强化学习模型，若第2次迭代优化过程的损失函数值不满足预设条件，则继续执行第3次迭代优化过程，后面的迭代优化过程依此类推，此处不再做过多赘述。

需要说明的是，预设条件还可与损失函数值无关，对于第n次迭代优化过程，可以判断n是否达到第二预设阈值，也即判断当前迭代优化的总次数是否达到第二预设阈值，若达到，则可确定第n次迭代优化过程满足预设条件，并停止迭代优化。若n未能达到第二预设阈值，可确定第n次迭代优化过程不满足预设条件，并继续执行迭代优化，本发明实施例不对预设条件的内容作具体限定。

还需要说明的是，每次迭代优化过程使用的样本问题数据可以是不同的，每次迭代优化过程使用的样本问题数据的数量也可以为不止一个。每次迭代优化过程通过多个样本问题数据对预设参数进行迭代优化，可以提高强化模型输出结果的精准度。另外，第一预设阈值与第二预设阈值可以根据需求进行设置，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过对初始模型中的预设参数进行迭代优化，得到强化学习模型，从而使得强化学习模型在输出回答数据时，输出结果准确度、专业度及详细程度更高。

基于上述实施例的内容，作为一种可选实施例，参见图3，本发明实施例不对获取第n次迭代优化过程的损失函数值的方式作具体限定，包括但不限于：301、对于第n次迭代优化过程使用的m个样本问题数据，将m个样本问题数据分别输入至第n次迭代优化过程得到的强化学习模型中，输出m个样本回答数据，m为不小于1的正整数；302、根据每个样本问题数据与每个样本回答数据之间的预设特征，获取第n次迭代优化过程的损失函数值，预设特征用于衡量样本回答数据作为样本问题数据对应的回答时的精准程度。

在301中，由上述实施例的内容可知，样本问题数据的数量可以为1个或多个，从而m可以为不小于1的正整数。以3个样本问题数据为例，分别将3个样本问题数据输入至第n次迭代优化过程得到的强化学习模型，可分别得到该3个样本问题数据各自对应的样本回答数据。在302中，每个样本问题数据与每个样本回答数据之间的预设特征，指的是样本问题数据与该样本问题数据对应的样本回答数据之间的预设特征。以3个样本问题数据为例，则样本回答数据的数量也为3个，且与3个样本问题数据一一对应，并相应可产生3组预设特征。其中，预设特征中可以包括一个特征项，也可以包括多个特征项，预设特征中包括的每一特征项可以从不同维度衡量样本回答数据作为样本问题数据对应的回答时的精准程度，本发明实施例对此不作具体限定。

本发明实施例提供的方法，对于第n次迭代优化过程使用的m个样本问题数据，通过将m个样本问题数据分别输入至第n次迭代优化过程得到的强化学习模型中，输出m个样本回答数据。根据每个样本问题数据与每个样本回答数据之间的预设特征，获取第n次迭代优化过程的损失函数值。由于可基于预设特征获取损失函数值，并基于损失函数值对初始模型中的预设参数进行迭代优化，得到强化学习模型，从而使得强化学习模型在输出回答数据时，输出结果准确度、专业度及详细程度更高。

基于上述实施例的内容，作为一种可选实施例，预设特征包括以下三项特征中的至少任意一项，以下三项特征分别为每个样本回答数据相对于每个样本问题数据的信息增益值、每个样本问题数据与每个样本回答数据之间的相关程度值以及每个样本回答数据的语义流畅度值。

其中，信息增益值可以通过信息增益回报函数计算得到，信息增益回报函数主要是为了确保回答中携带了比问题中更多的信息，也就是确保强化学习模型产生的回答并不是在简单地重复问题中的内容，而是提供了新的信息。信息增益回报函数的计算方式可参考如下公式：

在上述公式中，r^IG表示信息增益回报函数。

表示将样本问题数据q输入至第n次迭代优化过程得到的强化学习模型中，输出得到的样本回答数据。

表示

对于q的信息增益，

表示

的信息熵，

表示在q条件下

的信息熵。p_RL表示第n次迭代优化过程得到的强化学习模型，θ_RL表示第n次迭代优化过程的强化学习模型中的预设参数。

除了从信息增益这个维度，衡量样本回答数据作为样本问题数据对应的回答时的精准程度之外，还可以从样本问题数据与样本回答数据之间的相关程度这个维度来衡量。其中，通过相关程度进行衡量，主要是为了除了确保回答相比于问题有新的信息产生之外，还需要确保回答与问题是相关的。因此，引入相关程度，可以对单一维度的信息增益进行约束，从内容和结构上保证回答的相关性及专一性。

前两项特征，也即信息增益值及相关程度值，均是在内容和语义上保证回答的专业性及专一性，但是没有从语言学上考虑产生的回答是否通顺等问题。而由前面初始模型编解码的原理可知，解码过程中是根据最大似然函数逐一产生回答中的每一词向量，且每次在产生下一个词向量时，均是产生下一个概率最大的词向量。这会导致生成的回答从词的概率分布角度上是最优的，但从语法角度上，并不能保证回答的语义流畅性。因此，还可以引入一个维度的特征，也即每个样本回答数据的语义流畅度值，来衡量样本回答数据作为样本问题数据对应的回答时的精准程度。其中，语义流畅度值可通过流畅性回报函数计算得到。另外，可将困惑度作为流畅性回报函数，具体可参考如下公式：

在上述公式中，

表示样本回答数据的长度，也即样本回答数据中词的数量。P_LM表示使用法律咨询数据和法条数据构成的语料库，所训练得到的语言模型，该语言模型能够有效地捕捉法律领域的语法结构等语言学特征。

本发明实施例提供的方法，通过根据每个样本问题数据与每个样本回答数据之间的预设特征，获取第n次迭代优化过程的损失函数值，并基于损失函数值对初始模型中的预设参数进行迭代优化，得到强化学习模型。由于可以分别从回答相比问题的内容增益性、回答的专业性和专一性以及回答的流畅性这三个维度进行迭代优化以得到强化学习模型，从而使得强化学习模型在输出回答数据时，输出结果准确度、专业度及详细程度更高。

基于上述实施例的内容，作为一种可选实施例，相关程度值是基于以下三项信息中的至少任意一项信息所确定的，以下三项信息分别为每个样本问题数据与每个样本回答数据之间的案由相似度、每个样本问题数据与每个样本回答数据之间的法条相似度以及每个样本问题数据与每个样本回答数据之间的匹配度。

其中，案由相似度用于表示样本问题数据可能所属的候选案由与样本回答数据可能所属的候选案由之间的相似程度。法条相似度用于表示样本问题数据可能所属的候选法条与样本回答数据可能所属的候选法条之间的相似程度。匹配度用于表示样本问题数据与样本回答数据之间的匹配程度。

本发明实施例提供的方法，通过基于案由相似度、法条相似度及匹配度中的至少任意一项信息，来确定相关程度值。根据相关程度值，确定预设特征。根据预设特征，获取第n次迭代优化过程的损失函数值，并基于损失函数值对初始模型中的预设参数进行迭代优化，得到强化学习模型。由于可以分别基于案由相似度、法条相似度及匹配度这三项信息进行迭代优化以得到强化学习模型，从而使得强化学习模型在输出回答数据时，输出结果准确度、专业度及详细程度更高。

基于上述实施例的内容，作为一种可选实施例，参见图4，本发明实施例不对根据每个样本问题数据与每个样本回答数据之间的预设特征，获取第n次迭代优化过程的损失函数值的方式作具体限定，包括但不限于：401、根据每个样本问题数据与每个样本回答数据之间的预设特征，确定每个样本回答数据的回报函数值；402、根据每个样本回答数据的回报函数值，确定第n次迭代优化过程的损失函数值。

其中，回报函数值可以通过对预设特征进行加权求和的方式计算得到，本发明实施例对此不作具体限定。回报函数值可通过回报函数计算得到，以预设特征包括信息增益值、相关程度值及语义流畅度值为例，回报函数的具体形式可参考如下公式：

在上述公式中，

表示回报函数，r^IG表示信息增益回报函数，r^relevance表示用于计算相关程度值的相关性回报函数，r^fluency表示用于计算语义流畅度值的流畅性回报函数。λ₁、λ₂及λ₃各自表示三个不同的权重，该三个权重可以根据需求，通过人工或自动设置的方式进行设置，本发明实施例对此不作具体限定。例如，若需要强调信息增益，则可以增大权重λ₁的值。其中，三个权重之和为1。

由上述实施例可知，对于第n次迭代优化过程，可以使用m个样本问题数据及其对应的m个样本回答数据进行迭代优化。也即，对于m个样本问题数据及其对应的m个样本回答数据，按照上述回报函数，可以计算得到m个回报函数值，记为r(a₁，...，a_m)。而强化学习模型的迭代优化目标，就是为加强对生成的回答其多样性的探索以及对生成的回答其准确性和专业性的提升，也即，迭代优化目标可以转化为对于产生的回报函数值的期望值，利用梯度下降等更新预设参数的方法，找到使得该期望值最大的预设参数θ_RL。

基于上述原理，该期望值的目标函数的数学表达式可参考如下公式：

在上述公式中，S(q)表示样本问题数据及其对应的案由信息和法条信息，

表示回报函数值的期望，J(θ_RL)表示期望值的目标函数。

由上述内容可知，迭代优化的过程是要获得最大的回报，也即上述期望值达到最大化。但由于上述期望值的目标函数并不是收敛函数，无法应用于强化学习模型的训练，从而可以将上述函数转化为能够收敛的函数，以进行强化学习模型的训练。具体地，转化成能够收敛的函数为损失函数，是由目标函数的Negative log-likelihood形式表示。相应地，迭代优化目标从获得目标函数的最大值，转化为获得损失函数的最小值。其中，损失函数的数学表达式如下所示：

在上述数学表达式中，

表示损失函数。对于第n次迭代优化过程使用的m个样本问题数据，由上述实施例的内容可知，可以将该m个样本问题数据分别输入至第n次迭代优化过程得到的强化学习模型中，输出m个样本回答数据。而按照上述计算过程，每个样本回答数据的回报函数值是可以计算出来的。因此，基于该m个样本回答数据中每个样本回答数据的回报函数值，按照上述损失函数的数学表达式，可以计算得到第n次迭代优化过程的损失函数值。

本发明实施例提供的方法，通过根据每个样本问题数据与每个样本回答数据之间的预设特征，确定每个样本回答数据的回报函数值。根据每个样本回答数据的回报函数值，确定第n次迭代优化过程的损失函数值。由于可基于预设特征获取损失函数值，并基于损失函数值对初始模型中的预设参数进行迭代优化，得到强化学习模型，从而使得强化学习模型在输出回答数据时，输出结果准确度、专业度及详细程度更高。

基于上述实施例的内容，作为一种可选实施例，预设特征包括每个样本问题数据与每个样本回答数据之间的相关程度值，相关程度值至少是基于每个样本问题数据与每个样本回答数据之间的案由相似度所确定的；相应地，在根据每个样本问题数据与每个样本回答数据之间的预设特征，确定每个样本回答数据的回报函数值之前，还包括：

对于任一样本问题数据及任一样本回答数据，获取第一案由概率向量及第二案由概率向量，任一样本回答数据是将任一样本问题数据输入至第n次迭代优化过程得到的强化学习模型中输出得到的，第一案由概率向量是由任一样本问题数据属于每种候选案由的概率所组成的，第二案由概率向量是由任一样本回答数据属于每种候选案由的概率所组成的；根据第一案由概率向量及第二案由概率向量，确定任一样本问题数据与任一样本回答数据之间的案由相似度。

其中，案由指的是人民法院对诉讼案件所涉及的法律关系的性质进行概括后形成的案件名称，如盗窃案，离婚案等。候选案由可以由人工或者自动预先设置，可以有多种，本发明实施例对此不作具体限定。例如，以候选案由为盗窃案为例，对于任一样本问题数据，可以确定该样本问题数据属于盗窃案的概率，也即该样本问题数据为盗窃案相关问题的概率。同理，对于任一样本问题数据对应的样本回答数据，可以确定该样本回答数据属于盗窃案的概率，也即该样本回答数据为盗窃案相关回答的概率。

另外，案由相似度可以为余弦相似度，本发明实施例对此不作具体限定。若案由相似度为余弦相似度，则对于任一样本问题数据及其对应的样本回答数据，计算该样本问题数据对应的第一案由概率向量与该样本回答数据对应的第二案由概率向量之间的余弦相似度，可参考如下公式：

在上述公式中，r^topic表示余弦相似度，

表示将样本问题数据q输入至第n次迭代优化过程得到的强化学习模型中，输出得到的样本回答数据。M_topic(e^q)表示第一案由概率向量，

表示第二案由概率向量。

本发明实施例提供的方法，通过获取第一案由概率向量及第二案由概率向量，根据第一案由概率向量及第二案由概率向量，确定任一样本问题数据与任一样本回答数据之间的案由相似度。由于可基于案由相似度确定相关程度值，并可以根据相关程度值确定预设特征，后续可基于预设特征获取损失函数值，并基于损失函数值对初始模型中的预设参数进行迭代优化，得到强化学习模型，从而使得强化学习模型在输出回答数据时，输出结果准确度、专业度及详细程度更高。

基于上述实施例的内容，作为一种可选实施例，本发明实施例不对获取第一案由概率向量及第二案由概率向量的方式作具体限定，包括但不限于：将任一样本问题数据输入至案由模型，输出第一案由概率向量，将任一样本回答数据输入至案由模型，输出第二案由概率向量，案由模型是基于样本文本数据及样本文本数据所属的候选案由训练得到的。

其中，案由模型在结构上可以表现为基于多个不用长度窗口的卷积神经网络的分类模型，以用来捕获不同长度的回答。实际训练时，采用的窗口个数及窗口长度均可根据需要进行改变，本发明实施例对此不作具体限定。案由模型的输出q_topic可参考如下表示式：

q_topic＝M_topic(e^q)；

本发明实施例提供的方法，通过将任一样本问题数据输入至案由模型，输出第一案由概率向量，将任一样本回答数据输入至案由模型，输出第二案由概率向量。由于基于案由相似度可最终获取损失函数值，并基于损失函数值对初始模型中的预设参数进行迭代优化，得到强化学习模型，从而使得强化学习模型在输出回答数据时，输出结果准确度、专业度及详细程度更高。

基于上述实施例的内容，作为一种可选实施例，预设特征包括每个样本问题数据与每个样本回答数据之间的相关程度值，相关程度值至少是基于每个样本问题数据与每个样本回答数据之间的法条相似度所确定的；相应地，根据每个样本问题数据与每个样本回答数据之间的预设特征，计算每个样本回答数据的回报函数值之前，还包括：

对于任一样本问题数据及任一样本回答数据，获取第一法条概率向量及第二法条概率向量，任一样本回答数据是将任一样本问题数据输入至第n次迭代优化过程得到的强化学习模型中输出得到的，第一法条概率向量是由任一样本问题数据属于每一候选法条的概率所组成的，第二法条概率向量是由任一样本回答数据属于每一候选法条的概率所组成的；根据第一法条概率向量及第二法条概率向量，确定任一样本问题数据与任一样本回答数据之间的法条相似度。

其中，候选法条可以由人工或者自动预先设置，可以有多种，本发明实施例对此不作具体限定。例如，以候选法条为婚姻法中的某一法条为例，对于任一样本问题数据，可以确定该样本问题数据属于该法条的概率，也即该样本问题数据为该法条的相关问题的概率。同理，对于任一样本问题数据对应的样本回答数据，可以确定该样本回答数据属于该法条的概率，也即该样本回答数据为该法条的相关回答的概率。另外，法条相似度可以为余弦相似度，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过获取第一法条概率向量及第二法条概率向量，根据第一法条概率向量及第二法条概率向量，确定任一样本问题数据与任一样本回答数据之间的法条相似度。由于可基于法条相似度确定相关程度值，并可以根据相关程度值确定预设特征，后续可基于预设特征获取损失函数值，并基于损失函数值对初始模型中的预设参数进行迭代优化，得到强化学习模型，从而使得强化学习模型在输出回答数据时，输出结果准确度、专业度及详细程度更高。

基于上述实施例的内容，作为一种可选实施例，本发明实施例不对获取第一法条概率向量及第二法条概率向量的方式作具体限定，包括但不限于：将任一样本问题数据输入至法条匹配模型，输出第一法条概率向量，将任一样本回答数据输入至法条匹配模型，输出第二法条概率向量，法条匹配模型是基于样本文本数据及样本文本数据所属的候选法条训练得到的。

其中，法条匹配模型可以由多个循环神经网络或其它网络所构成，法条匹配模型在被使用时，可以由其内部的多个循环神经网络或其它网络分别对问题数据及每一候选法条进行学习后，再将问题数据与候选法条之间进行形似度计算，最后通过法条匹配模型内部的多层感知层及输出层得到最终结果，也即法条概率向量。需要说明的是，以样本问题数据为例，本发明实施例中使用的第一法条概率向量，指的是该样本问题数据属于每一候选法条的概率。然而实际实施过程中，法条匹配模型除了可以输出样本问题数据属于每一候选法条的概率，也即样本问题数据与每一候选法条之间相匹配的概率之外，还可以输出样本问题数据与每一候选法条之间不匹配的概率。而在实际实施过程中，使用的是与每一候选法条之间相匹配的概率。另外，对于样本回答数据亦是如此。法条匹配模型的输出q_articlc可参考如下表示式：

q_article＝M_article(e^q)；

本发明实施例提供的方法，通过将任一样本问题数据输入至法条匹配模型，输出第一法条概率向量，将任一样本回答数据输入至法条匹配模型，输出第二法条概率向量。由于基于法条相似度可最终获取损失函数值，并基于损失函数值对初始模型中的预设参数进行迭代优化，得到强化学习模型，从而使得强化学习模型在输出回答数据时，输出结果准确度、专业度及详细程度更高。

考虑到法律及法条众多，若将样本问题数据与样本回答数据与每一法条进行匹配，以确定对应的概率，则会导致计算量过于巨大。基于上述实施例的内容，作为一种可选实施例，在获取第一法条概率向量及第二法条概率向量之前，还包括：将任一样本问题数据输入至法律分类模型，输出任一样本问题数据所属的候选法律类型，并将任一样本问题数据所属的候选法律类型下包含的法条作为候选法条，法律分类模型是基于样本文本数据及样本文本数据所属的候选法律类型训练得到的。

其中，法律分类模型的结构可以为基于多窗口的卷积神经网络分类模型，本发明实施例对此不作具体限定。在确定样本问题数据对应的法律类型后，如婚姻法，后续在法条匹配模型中，就不需要将该样本问题数据与所有法条进行匹配，而是只需要将该样本问题数据与婚姻法下包含的法条进行匹配，从而减少了计算量。

本发明实施例提供的方法，通过将任一样本问题数据输入至法律分类模型，输出任一样本问题数据所属的候选法律类型，并将任一样本问题数据所属的候选法律类型下包含的法条作为候选法条。由于可减少法条匹配模型的计算量，从而提高了强化学习模型的训练效率。

基于上述实施例的内容，作为一种可选实施例，参见图5，本发明实施例不对根据第一法条概率向量及第二法条概率向量，确定任一样本问题数据与任一样本回答数据之间的法条相似度的方式作具体限定，包括但不限于：501、对第一法条概率向量中的概率进行从大到小排序，并基于前预设数量个概率对应的候选法条数据，构建第一法条向量；502、对第二法条概率向量中的概率进行从大到小排序，并基于前预设数量个概率对应的候选法条数据，构建第二法条向量；503、根据第一法条向量及第二法条向量，确定任一样本问题数据与任一样本回答数据之间的法条相似度。

其中，预设数量可以为5，本发明实施例对此不作具体限定。另外，若法条相似度为余弦相似度，则对于任一样本问题数据及其对应的样本回答数据，计算该样本问题数据对应的第一法条向量与该样本回答数据对应的第二法条向量之间的余弦相似度，可参考如下公式：

在上述公式中，r^article表示余弦相似度，

表示将样本问题数据q输入至第n次迭代优化过程得到的强化学习模型中，输出得到的样本回答数据。M_article(e^q)表示第一法条向量，

表示第二法条向量。需要说明的是，在基于前预设数量个概率对应的候选法条数据，构建法条向量时，候选法条数据具体可以为候选法条的文本向量，将前预设数量个概率对应的候选法条的文本向量进行拼接，即可得到法条向量。

还需要说明的是，在根据第一法条向量及第二法条向量，确定法条相似度时，可以保证第一法条向量及第二法条向量的长度一致。具体地，可以设置一个较大的长度值，如200，对于长度不够200的法条向量可以补0，以使得法条向量的长度均一致。

本发明实施例提供的方法，通过对第一法条概率向量中的概率进行从大到小排序，并基于前预设数量个概率对应的候选法条数据，构建第一法条向量。对第二法条概率向量中的概率进行从大到小排序，并基于前预设数量个概率对应的候选法条数据，构建第二法条向量。根据第一法条向量及第二法条向量，确定任一样本问题数据与任一样本回答数据之间的法条相似度。由于基于法条相似度可最终获取损失函数值，并基于损失函数值对初始模型中的预设参数进行迭代优化，得到强化学习模型，从而使得强化学习模型在输出回答数据时，输出结果准确度、专业度及详细程度更高。

基于上述实施例的内容，作为一种可选实施例，预设特征包括每个样本问题数据与每个样本回答数据之间的相关程度值，相关程度值至少是基于每个样本问题数据与每个样本回答数据之间的匹配度所确定的；相应地，根据每个样本问题数据与每个样本回答数据之间的预设特征，计算每个样本回答数据的回报函数值之前，还包括：

对于任一样本问题数据及任一样本回答数据，将任一样本问题数据及任一样本回答数据输入至问答匹配模型，输出任一样本问题数据与任一样本回答数据之间的匹配度，任一样本回答数据是将任一样本问题数据输入至第n次迭代优化过程得到的强化学习模型中输出得到的，问答匹配模型是基于完全匹配的样本问答数据及完全不匹配的样本问答数据训练得到的。

其中，问答匹配模型可以使用卷积神经网络，也可以使用其它神经网络实现，本发明实施例对此不作具体限定。匹配度的取值范围可以为0至1，0表示完全不匹配，1表示完全匹配。问答匹配模型的数学表达形式可参考如下公式：

另外，使用问答匹配模型输出匹配度的示例可如下所示：

例1：

输入的问题：“上诉的过程是什么？”；

输入的回答：“上诉的过程是：1…，2…，3…”；

问答匹配模型的输出：0.98。

例2：

输入的问题：“上诉的过程是什么？”；

输入的回答：“你好，建议报警”；

问答匹配模型的输出：0.20。

本发明实施例提供的方法，由于基于匹配度可最终获取损失函数值，并基于损失函数值对初始模型中的预设参数进行迭代优化，得到强化学习模型，从而使得强化学习模型在输出回答数据时，输出结果准确度、专业度及详细程度更高。

基于上述实施例的内容，作为一种可选实施例，预设条件为迭代优化过程的损失函数值收敛。具体地，对于第n次迭代优化过程，第n次迭代优化过程的损失函数值收敛，可以指的是第n次迭代优化过程的损失函数值与第n-1次迭代优化过程的损失函数值之间的损失函数梯度趋近于0。

在计算损失函数梯度时，可以引入基础回报rbaseline。该基础回报可以为一个标量，用于表示一个训练batch的平均收益期望。其中，一个训练batch指的是迭代优化过程使用的样本问题数据的集合，如第n次迭代优化过程使用的m个样本问题数据，可以作为一个训练batch。基础回报的作用是减少训练的偏差，避免造成不收敛或困于局部最优值的情况。基础回报的可通过如下公式进行表示：

在上述公式中，N_batch表示一个训练batch中训练样本的数量，如m个。相应地，最终损失函数梯度可通过如下公式进行表示：

本发明实施例提供的方法，通过将预设条件设置为迭代优化过程的损失函数值收敛，从而使得强化学习模型在输出回答数据时，输出结果准确度、专业度及详细程度更高。

基于上述实施例的内容，作为一种可选实施例，初始模型是基于神经网络构建得到的，预设参数为初始模型对应的神经网络中每一隐藏层的每个单元的权重。

基于上述实施例的内容，作为一种可选实施例，本发明实施例还提供了一种用于实现上述方法实施例的法律咨询系统。该系统包括Agent、Agent可以由State、Policy、Action及Reward四部分组成。其中，State是由输入的问题及其案由信息和法条信息组成的，可以记为S(q)＝[e^q；q_topic；q_article]。State主要是为了使强化学习模型提供法律领域的特有信息，也即使最终的模型具有法律专业性，并且使输出的回答具有对输入问题的针对性。

Policy是强化学习的策略网络，是一个条件概率模型，记作

其中，θ_RL是需要迭代优化的预设参数，该预设参数可以由上述方法实施例中初始模型中的参数θ对其进行初始化，以回报函数最大化为目标不断对模型进行优化。State作为Agent的输入，也即作为Policy的输入。Policy的输出为根据State产生的回答序列

当强化学习模型训练完成后，便可以针对给定的问题数据，通过Policy网络输出法律咨询系统的最终回答数据。

Action是Policy(即P_RL)根据当前状态(State)所采取的动作，即对输入问题数据的回答数据，在本发明实施例中，Action即为解码端decoder输出的回答序列

Reward指的是回报函数，为了使强化学习模型充分利用法律领域专有的知识，需要针对法律知识以及法律领域的语言特征，设置专有的回报函数Reward。该函数主要由信息增益、相关性和流畅性这三个部分组成，具体函数形式可参考上述方法实施例中的内容。其中，该法律咨询系统的强化学习过程可参考图6，图6中法律记忆器的作用是模拟律师从记忆中搜索信息的过程，对咨询系统进行法律专业性强化。该法律记忆器中的案由模型、法条模型和问答匹配模型可充分利用法律领域的特有信息，并将案由、法条等信息作为法律特征，引入到强化学习模型中。其中，法条模型可以包括法律分类模型及法条匹配模型。另外，图6中涉及到的参数含义可参考上述实施例的内容，此处不再赘述。

本发明实施例提供的系统，由于在初始模型的基础上，可以引入法律专业知识，并对回答的长度、信息量等进行针对性优化，从而可提升回答的准确度、专业度和详细程度。

基于上述实施例的内容，本发明实施例提供了一种法律回答生成装置，该装置用于执行上述方法实施例中提供的法律回答生成方法。参见图7，该装置包括：

获取模块701，用于获取问题数据，问题数据与法律咨询相关；

输出模块702，用于将问题数据输入至强化学习模型中，输出回答数据，强化学习模型是对初始模型进行训练后得到的，初始模型的类型为编解码模型。

基于上述实施例的内容，作为一种可选实施例，初始模型中包含预设参数；相应地，该装置还包括：

迭代优化模块，用于对初始模型中的预设参数进行迭代优化，对于第n次迭代优化过程，若第n次迭代优化过程的损失函数值满足预设条件，则停止迭代优化，并将第n次迭代优化过程的强化学习模型作为最终的强化学习模型；

其中，n为不小于1的正整数，第n次迭代优化过程的强化学习模型是对第n-1次迭代优化过程的强化学习模型中的预设参数进行更新后得到的。

基于上述实施例的内容，作为一种可选实施例，迭代优化模块，包括：

输出单元，用于对于第n次迭代优化过程使用的m个样本问题数据，将m个样本问题数据分别输入至第n次迭代优化过程得到的强化学习模型中，输出m个样本回答数据，m为不小于1的正整数；

获取单元，用于根据每个样本问题数据与每个样本回答数据之间的预设特征，获取第n次迭代优化过程的损失函数值，预设特征用于衡量样本回答数据作为样本问题数据对应的回答时的精准程度。

基于上述实施例的内容，作为一种可选实施例，获取单元，包括：

第一确定子单元，用于根据每个样本问题数据与每个样本回答数据之间的预设特征，确定每个样本回答数据的回报函数值；

第二确定子单元，用于根据每个样本回答数据的回报函数值，确定第n次迭代优化过程的损失函数值。

基于上述实施例的内容，作为一种可选实施例，预设特征包括每个样本问题数据与每个样本回答数据之间的相关程度值，相关程度值至少是基于每个样本问题数据与每个样本回答数据之间的案由相似度所确定的；相应地，获取单元，还包括：

第一获取子单元，用于对于任一样本问题数据及任一样本回答数据，获取第一案由概率向量及第二案由概率向量，任一样本回答数据是将任一样本问题数据输入至第n次迭代优化过程得到的强化学习模型中输出得到的，第一案由概率向量是由任一样本问题数据属于每种候选案由的概率所组成的，第二案由概率向量是由任一样本回答数据属于每种候选案由的概率所组成的；

第三确定子单元，用于根据第一案由概率向量及第二案由概率向量，确定任一样本问题数据与任一样本回答数据之间的案由相似度。

基于上述实施例的内容，作为一种可选实施例，第一获取子单元，用于将任一样本问题数据输入至案由模型，输出第一案由概率向量，将任一样本回答数据输入至案由模型，输出第二案由概率向量，案由模型是基于样本文本数据及样本文本数据所属的候选案由训练得到的。

基于上述实施例的内容，作为一种可选实施例，预设特征包括每个样本问题数据与每个样本回答数据之间的相关程度值，相关程度值至少是基于每个样本问题数据与每个样本回答数据之间的法条相似度所确定的；相应地，获取单元，还包括：

第二获取子单元，用于对于任一样本问题数据及任一样本回答数据，获取第一法条概率向量及第二法条概率向量，任一样本回答数据是将任一样本问题数据输入至第n次迭代优化过程得到的强化学习模型中输出得到的，第一法条概率向量是由任一样本问题数据属于每一候选法条的概率所组成的，第二法条概率向量是由任一样本回答数据属于每一候选法条的概率所组成的；

第四确定子单元，用于根据第一法条概率向量及第二法条概率向量，确定任一样本问题数据与任一样本回答数据之间的法条相似度。

基于上述实施例的内容，作为一种可选实施例，第二获取子单元，用于将任一样本问题数据输入至法条匹配模型，输出第一法条概率向量，将任一样本回答数据输入至法条匹配模型，输出第二法条概率向量，法条匹配模型是基于样本文本数据及样本文本数据所属的候选法条训练得到的。

基于上述实施例的内容，作为一种可选实施例，获取单元，还包括：

第五确定子单元，用于将任一样本问题数据输入至法律分类模型，输出任一样本问题数据所属的候选法律类型，并将任一样本问题数据所属的候选法律类型下包含的法条作为候选法条，法律分类模型是基于样本文本数据及样本文本数据所属的候选法律类型训练得到的。

基于上述实施例的内容，作为一种可选实施例，第四确定子单元，用于对第一法条概率向量中的概率进行从大到小排序，并基于前预设数量个概率对应的候选法条数据，构建第一法条向量；对第二法条概率向量中的概率进行从大到小排序，并基于前预设数量个概率对应的候选法条数据，构建第二法条向量；根据第一法条向量及第二法条向量，确定任一样本问题数据与任一样本回答数据之间的法条相似度。

基于上述实施例的内容，作为一种可选实施例，预设特征包括每个样本问题数据与每个样本回答数据之间的相关程度值，相关程度值至少是基于每个样本问题数据与每个样本回答数据之间的匹配度所确定的；相应地，获取单元，还包括：

输出子单元，用于对于任一样本问题数据及任一样本回答数据，将任一样本问题数据及任一样本回答数据输入至问答匹配模型，输出任一样本问题数据与任一样本回答数据之间的匹配度，任一样本回答数据是将任一样本问题数据输入至第n次迭代优化过程得到的强化学习模型中输出得到的，问答匹配模型是基于完全匹配的样本问答数据及完全不匹配的样本问答数据训练得到的。

基于上述实施例的内容，作为一种可选实施例，预设条件为迭代优化过程的损失函数值收敛。

本发明实施例提供的装置，通过获取问题数据，将问题数据输入至强化学习模型中，输出回答数据。由于强化学习模型是基于初始模型训练得到的，而初始模型的类型为编解码模型，而不是基于历史信息检索，从而不需要依赖于历史的法律问答数据，可以针对法律提问创造出新的回答数据。因此，能够提供覆盖范围较广的回答。其次，由于初始模型的类型为编解码模型，从而不需要以三元组的形式表示训练数据，进而经初始模型训练得到的强化学习模型更适用于法律提问的回答。最后，由于基于初始模型训练得到的强化学习模型其输出结果可以是唯一的，从而不需要用户花费时间对回答数据进行筛选，从而提高了用户获取回答数据的效率。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行如下方法：获取问题数据，问题数据与法律咨询相关；将问题数据输入至强化学习模型中，输出回答数据，强化学习模型是对初始模型进行训练后得到的，初始模型的类型为编解码模型。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：获取问题数据，问题数据与法律咨询相关；将问题数据输入至强化学习模型中，输出回答数据，强化学习模型是对初始模型进行训练后得到的，初始模型的类型为编解码模型。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种法律回答生成方法，其特征在于，包括：

获取问题数据，所述问题数据与法律咨询相关；

将所述问题数据输入至强化学习模型中，输出回答数据，所述强化学习模型是对初始模型进行训练后得到的，所述初始模型的类型为编解码模型；

所述初始模型中包含预设参数；所述将所述问题数据输入至强化学习模型中，输出回答数据之前，还包括：

对所述初始模型中的预设参数进行迭代优化；

对于第n次迭代优化过程使用的m个样本问题数据，将m个样本问题数据分别输入至第n次迭代优化过程得到的强化学习模型中，输出m个样本回答数据，m为不小于1的正整数；

根据每个样本问题数据与每个样本回答数据之间的预设特征，获取第n次迭代优化过程的损失函数值；

所述预设特征包括以下三项特征中的至少任意一项，所述以下三项特征分别为每个样本回答数据相对于每个样本问题数据的信息增益值、每个样本问题数据与每个样本回答数据之间的相关程度值以及每个样本回答数据的语义流畅度值；

所述信息增益值基于信息增益回报函数计算得到，所述信息增益回报函数用于确保样本回答数据中携带有比样本问题数据中更多的信息；

所述相关程度值基于以下三项信息中的至少任意一项信息所确定的，所述以下三项信息分别为每个样本问题数据与每个样本回答数据之间的案由相似度、每个样本问题数据与每个样本回答数据之间的法条相似度以及每个样本问题数据与每个样本回答数据之间的匹配度；

所述语义流畅度值基于流畅性回报函数计算得到，所述流畅性回报函数为困惑度。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对于第n次迭代优化过程，若第n次迭代优化过程的损失函数值满足预设条件，则停止迭代优化，并将第n次迭代优化过程的强化学习模型作为最终的强化学习模型；

3.根据权利要求2所述的方法，其特征在于，所述预设特征用于衡量样本回答数据作为样本问题数据对应的回答时的精准程度。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述根据每个样本问题数据与每个样本回答数据之间的预设特征，获取第n次迭代优化过程的损失函数值，包括：

根据每个样本问题数据与每个样本回答数据之间的预设特征，确定每个样本回答数据的回报函数值；

根据每个样本回答数据的回报函数值，确定第n次迭代优化过程的损失函数值。

5.根据权利要求4所述的方法，其特征在于，所述预设特征包括每个样本问题数据与每个样本回答数据之间的相关程度值，所述相关程度值至少是基于每个样本问题数据与每个样本回答数据之间的案由相似度所确定的；相应地，所述根据每个样本问题数据与每个样本回答数据之间的预设特征，确定每个样本回答数据的回报函数值之前，还包括：

对于任一样本问题数据及任一样本回答数据，获取第一案由概率向量及第二案由概率向量，所述任一样本回答数据是将所述任一样本问题数据输入至第n次迭代优化过程得到的强化学习模型中输出得到的，所述第一案由概率向量是由所述任一样本问题数据属于每种候选案由的概率所组成的，所述第二案由概率向量是由所述任一样本回答数据属于每种候选案由的概率所组成的；

根据所述第一案由概率向量及所述第二案由概率向量，确定所述任一样本问题数据与所述任一样本回答数据之间的案由相似度。

6.根据权利要求5所述的方法，其特征在于，所述获取第一案由概率向量及第二案由概率向量，包括：

将所述任一样本问题数据输入至案由模型，输出所述第一案由概率向量，将所述任一样本回答数据输入至案由模型，输出所述第二案由概率向量，所述案由模型是基于样本文本数据及所述样本文本数据所属的候选案由训练得到的。

7.根据权利要求6所述的方法，其特征在于，所述预设特征包括每个样本问题数据与每个样本回答数据之间的相关程度值，所述相关程度值至少是基于每个样本问题数据与每个样本回答数据之间的法条相似度所确定的；相应地，所述根据每个样本问题数据与每个样本回答数据之间的预设特征，计算每个样本回答数据的回报函数值之前，还包括：

对于任一样本问题数据及任一样本回答数据，获取第一法条概率向量及第二法条概率向量，所述任一样本回答数据是将所述任一样本问题数据输入至第n次迭代优化过程得到的强化学习模型中输出得到的，所述第一法条概率向量是由所述任一样本问题数据属于每一候选法条的概率所组成的，所述第二法条概率向量是由所述任一样本回答数据属于每一候选法条的概率所组成的；

根据所述第一法条概率向量及所述第二法条概率向量，确定所述任一样本问题数据与所述任一样本回答数据之间的法条相似度。

8.根据权利要求7所述的方法，其特征在于，所述获取第一法条概率向量及第二法条概率向量，包括：

将所述任一样本问题数据输入至法条匹配模型，输出所述第一法条概率向量，将所述任一样本回答数据输入至法条匹配模型，输出所述第二法条概率向量，所述法条匹配模型是基于样本文本数据及所述样本文本数据所属的候选法条训练得到的。

9.根据权利要求7或8所述的方法，其特征在于，所述获取第一法条概率向量及第二法条概率向量之前，还包括：

将所述任一样本问题数据输入至法律分类模型，输出所述任一样本问题数据所属的候选法律类型，并将所述任一样本问题数据所属的候选法律类型下包含的法条作为所述候选法条，所述法律分类模型是基于样本文本数据及所述样本文本数据所属的候选法律类型训练得到的。

10.根据权利要求7所述的方法，其特征在于，所述根据所述第一法条概率向量及所述第二法条概率向量，确定所述任一样本问题数据与所述任一样本回答数据之间的法条相似度，包括：

对所述第一法条概率向量中的概率进行从大到小排序，并基于前预设数量个概率对应的候选法条数据，构建第一法条向量；

对所述第二法条概率向量中的概率进行从大到小排序，并基于前预设数量个概率对应的候选法条数据，构建第二法条向量；

根据所述第一法条向量及所述第二法条向量，确定所述任一样本问题数据与所述任一样本回答数据之间的法条相似度。

11.根据权利要求4所述的方法，其特征在于，所述预设特征包括每个样本问题数据与每个样本回答数据之间的相关程度值，所述相关程度值至少是基于每个样本问题数据与每个样本回答数据之间的匹配度所确定的；相应地，所述根据每个样本问题数据与每个样本回答数据之间的预设特征，计算每个样本回答数据的回报函数值之前，还包括：

对于任一样本问题数据及任一样本回答数据，将所述任一样本问题数据及所述任一样本回答数据输入至问答匹配模型，输出所述任一样本问题数据与所述任一样本回答数据之间的匹配度，所述任一样本回答数据是将所述任一样本问题数据输入至第n次迭代优化过程得到的强化学习模型中输出得到的，所述问答匹配模型是基于完全匹配的样本问答数据及完全不匹配的样本问答数据训练得到的。

12.根据权利要求2 所述的方法，其特征在于，所述预设条件为迭代优化过程的损失函数值收敛。

13.根据权利要求1至3中任一项所述的方法，其特征在于，所述初始模型是基于神经网络构建得到的，所述预设参数为所述初始模型对应的神经网络中每一隐藏层的每个单元的权重。

14.一种法律回答生成装置，其特征在于，包括：

获取模块，用于获取问题数据，所述问题数据与法律咨询相关；

输出模块，用于将所述问题数据输入至强化学习模型中，输出回答数据，所述强化学习模型是对初始模型进行训练后得到的，所述初始模型的类型为编解码模型；

所述初始模型中包含预设参数；相应地，所述装置还包括：

迭代优化模块，用于对所述初始模型中的预设参数进行迭代优化；

所述迭代优化模块包括：

获取单元，用于根据每个样本问题数据与每个样本回答数据之间的预设特征，获取第n次迭代优化过程的损失函数值；

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令以执行如权利要求1至13任一所述的方法。

16.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令被执行以实现如权利要求1至13任一所述的方法。