CN116822591A

CN116822591A - 法律咨询回复方法、法律领域生成式大模型训练方法

Info

Publication number: CN116822591A
Application number: CN202311107545.8A
Authority: CN
Inventors: 吴雅萱; 任梦星; 刘迎建; 彭菲
Original assignee: Hanwang Technology Co Ltd
Current assignee: Hanwang Technology Co Ltd
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-09-29

Abstract

本申请公开了一种法律咨询回复方法、法律领域生成式大模型训练方法，属于自然语言处理技术领域。所述方法包括：基于非结构化法律文本数据和通用中文数据，对预设的生成式大模型进行预训练，得到第一微调大模型；基于针对各法律细分领域预先构建的指令数据集，对第一微调大模型进行低秩矩阵增量权重训练，得到法律细分领域对应的第二微调大模型；根据预先构建的评分排序数据集和第二微调大模型，构建奖励模型；以第二微调大模型作为智能体，以奖励模型作为环境，对第二微调大模型进行强化学习训练，得到法律领域生成式大模型。在采用本方法训练得到的法律领域生成式大模型，进行法律咨询回复时，可以提升大模型生成回复文本的专业性。

Description

法律咨询回复方法、法律领域生成式大模型训练方法

技术领域

本申请涉及自然语言处理技术领域，特别是涉及法律咨询回复方法、法律领域生成式大模型训练方法、装置、电子设备，以及计算机可读存储介质。

背景技术

由于法律领域专业性强，普通群众难以通过自己的能力解决相关法律问题，因此需要寻求专业法律人员帮助，而寻求专业法律人员的咨询成本很高。

在法律咨询领域，现有技术中有利用知识图谱构建技术实现法律线上咨询的方案，该技术方案基于法条及用户律师问答对构建法律知识库，然后，利用语义理解、意图识别和文本匹配等深度学习技术构建法律语言理解模块；利用知识运营模块筛选出有效问题并匹配到知识库中获取答案。现有技术中的法律咨询回复方法至少存在以下缺陷：法律专业性要求高，法律领域知识图谱构建方法复杂，构建成本高；基于知识图谱和文本匹配的法律咨询回复生硬，不易理解。

可见，现有技术中的法律咨询回复方法还需要改进。

发明内容

本申请实施例提供一种法律咨询回复方法及装置、法律领域生成式大模型训练方法及装置、电子设备及存储介质，能够提升针对法律咨询问题生成回复的流畅性、准确度，并且实施成本低。

第一方面，本申请实施例提供了一种法律领域生成式大模型训练方法，包括：

基于非结构化法律文本数据和通用中文数据，对预设的生成式大模型进行预训练，得到第一微调大模型；

基于针对各法律细分领域预先构建的指令数据集，对所述第一微调大模型进行低秩矩阵增量权重训练，得到所述法律细分领域对应的第二微调大模型；

根据预先构建的评分排序数据集和所述第二微调大模型，构建奖励模型；

以所述第二微调大模型作为智能体，以所述奖励模型作为环境，对所述第二微调大模型进行强化学习训练，得到法律领域生成式大模型。

第二方面，本申请实施例提供了一种法律领域生成式大模型训练装置，包括：

第一微调大模型训练模块，用于基于非结构化法律文本数据和通用中文数据，对预设的生成式大模型进行预训练，得到第一微调大模型；

第二微调大模型训练模块，用于基于针对各法律细分领域预先构建的指令数据集，对所述第一微调大模型进行低秩矩阵增量权重训练，得到所述法律细分领域对应的第二微调大模型；

奖励模型构建模块，用于根据预先构建的评分排序数据集和所述第二微调大模型，构建奖励模型；

强化学习训练模块，用于以所述第二微调大模型作为智能体，以所述奖励模型作为环境，对所述第二微调大模型进行强化学习训练，得到法律领域生成式大模型。

第三方面，本申请实施例提供了一种法律咨询回复方法，包括：

对法律咨询问题进行分类处理，得到所述法律咨询问题匹配的法律细分领域；

基于所述法律咨询问题，在所述法律细分领域的预设法规知识库中进行法规检索，得到与所述法律咨询问题匹配的法规文本；

拼接所述法规文本和所述法律咨询问题，得到第二拼接文本；

将所述第二拼接文本作为预先训练的法律领域生成式大模型的输入，获取所述法律领域生成式大模型针对所述第二拼接文本输出的回复文本；

根据所述回复文本，对所述法律咨询问题进行智能回复。

第四方面，本申请实施例提供了一种法律咨询回复装置，包括：

细分领域分类模块，用于对法律咨询问题进行分类处理，得到所述法律咨询问题匹配的法律细分领域；

法规文本搜索模块，用于基于所述法律咨询问题，在所述法律细分领域的预设法规知识库中进行法规检索，得到与所述法律咨询问题匹配的法规文本；

文本拼接模块，用于拼接所述法规文本和所述法律咨询问题，得到第二拼接文本；

回复文本生成模块，用于将所述第二拼接文本作为预先训练的法律领域生成式大模型的输入，获取所述法律领域生成式大模型针对所述第二拼接文本输出的回复文本；

咨询回复模块，用于根据所述回复文本，对所述法律咨询问题进行智能回复。

第五方面，本申请实施例还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例所述的法律咨询回复方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时本申请实施例公开的法律咨询回复方法的步骤。

本申请实施例公开的法律领域生成式大模型训练方法，通过基于非结构化法律文本数据和通用中文数据，对预设的生成式大模型进行预训练，得到第一微调大模型；基于针对各法律细分领域预先构建的指令数据集，对所述第一微调大模型进行低秩矩阵增量权重训练，得到所述法律细分领域对应的第二微调大模型；根据预先构建的评分排序数据集和所述第二微调大模型，构建奖励模型；以所述第二微调大模型作为智能体，以所述奖励模型作为环境，对所述第二微调大模型进行强化学习训练，得到法律领域生成式大模型，这样，在通过所述法律领域生成式大模型进行法律咨询回复时，由于基于法律行业领域和通用中文数据对生成式大模型进行二次预训练，注入法律领域知识，可以提升大模型生成回复文本的专业性。并且，通过结合指令数据集、评分排序数据集预训练的模型进行微调，使得得到的所述法律领域生成式大模型能够生成符合人类价值观的仿真律师回复，不仅能准确的回复用户咨询的法律问题，还能带有人类正面情感价值观，解决了知识图谱检索回复生硬的问题，能更好地解决用户咨询的法律问题。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例公开的法律领域生成式大模型训练方法流程图之一；

图2是本申请实施例公开的法律领域生成式大模型训练方法流程图之二；

图3是本申请实施例公开的法律咨询回复方法流程图之一；

图4是本申请实施例公开的法律咨询回复方法流程图之二；

图5是本申请实施例公开的法律咨询回复方法实施架构示意图；

图6是本申请实施例公开的法律领域生成式大模型训练装置的结构示意图之一；

图7是本申请实施例公开的法律咨询回复装置的结构示意图之一；

图8示意性地示出了用于执行根据本申请的方法的电子设备的框图；以及

图9示意性地示出了用于保持或者携带实现根据本申请的方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开的法律咨询回复方法和法律领域生成式大模型训练方法，应用在法律问题咨询场景中，旨在当用户输入法律咨询问题时，通过所述法律领域生成式大模型可以准确的给出流畅的回复文本。

随着生成式大模型技术的发展，对于生成式大模型，输入一个问题之后，生成式大模型通常可以给出相关的回复。但是，现有技术中的生成式大模型是基于通用数据进行训练的，而法律咨询问题具有专业性的特点，因此，测试发现，现有技术中的通用的生成式大模型，不适用于法律咨询问题的解答。另一方面，生成式大模型通过对概率的计算输出最终答案，这样的方式会产生输出回答与真实法条不一致的情况，即产生幻觉问题，而法律领域专业性要求很高，如果输出答案不符合真实法条，会给用户带来困扰。

基于上述原因，本申请实施例中公开了一种法律领域生成式大模型训练方法，通过基于法律领域的数据对生成式大模型进行二次预训练，之后，对每个法律细分领域，基于该法律细分领域的数据，采用增量学习的方式训练独立法律细分领域的增量权重，部署时，只需要加载一个基座模型，通过动态调用增量权重，实现生成回复时根据不同法律细分领域动态切换增量权重，极大降低了生成式大模型的部署成本。

下面结合图1和图2对本申请实施例中公开的法律领域生成式大模型训练方法进行举例说明。

如图1所示，本申请实施例中还公开的法律领域生成式大模型训练方法包括：步骤110至步骤140。

步骤110，基于非结构化法律文本数据和通用中文数据，对预设的生成式大模型进行预训练，得到第一微调大模型；

步骤120，基于针对各法律细分领域预先构建的指令数据集，对所述第一微调大模型进行低秩矩阵增量权重训练，得到所述法律细分领域对应的第二微调大模型；

步骤130，根据预先构建的评分排序数据集和所述第二微调大模型，构建奖励模型；

步骤140，以所述第二微调大模型作为智能体，以所述奖励模型作为环境，对所述第二微调大模型进行强化学习训练，得到法律领域生成式大模型。

可选的，所述非结构化法律文本数据包括但不限于：法律法规文本、律师问答、司法解释等。例如，非结构化法律文本数据包括：刑法、宪法、民法典等正式法律法规文本。另外，非结构化法律文本数据还包括：真实案例、律师问答，以及，司法解释等文本数据。

仅用法律领域数据进行大模型微调效果不佳，而通用中文数据只能加强中文处理能力。本申请实施例中，通过结合通用中文数据和法律领域数据，可以在加强模型中文理解能力的基础上提高法律领域专业度。

可选的，所述预设的生成式大模型可以为现有技术中基于通用数据训练得到的生成式大模型。基于非结构化法律文本数据和通用中文数据，对所述预设的生成式大模型进行微调的具体方法可参见现有技术，此处不再赘述。

本申请的实施例中，将基于非结构化法律文本数据和通用中文数据，对预设的生成式大模型（即基座大模型）进行预训练后得到的生成式大模型，记为“第一微调大模型”。

基于非结构化法律文本数据和通用中文数据，对生成式大模型进行预训练，可以让模型理解人类的语言，对于中文法律领域咨询需求而言，还需要提高大模型的中文理解能力，而对于法律领域，由于专业性要求高，因此需要用通用中文数据和法律法规、司法案例等数据对生成式大模型进行微调，使得微调训练得到的第一微调大模型能理解用中文提出的法律领域的咨询问题。

在得到第一微调大模型之后，进一步的，对得到的第一微调大模型进行精调。

可选的，所述指令数据集中的指令数据包括：指令文本、输入文本和回复文本真实值，基于针对各法律细分领域预先构建的指令数据集，对所述第一微调大模型进行低秩矩阵增量权重训练，得到所述法律细分领域对应的第二微调大模型，包括：对针对各法律细分领域预先构建的指令数据集，分别对所述指令数据集中各所述指令数据的所述指令文本和所述输入文本进行拼接，得到第一拼接文本；将所述第一拼接文本作为所述第一微调大模型的输入，获取所述第一微调大模型针对所述第一拼接文本输出的回复文本预测值；根据所述回复文本预测值和所述回复文本真实值，计算所述第一微调大模型的损失值；以优化所述损失值为目标，迭代训练所述第一微调大模型的低秩矩阵增量权重，得到相应法律细分领域对应的第二微调大模型。

本申请的实施例中，通过预先构建每个法律细分领域的指令数据集，并基于各指令数据集分别对前述步骤得到的第一微调大模型进一步进行微调，从而得到每个法律细分领域对应的生成式大模型，记为“第二微调大模型”。

其中，所述法律细分领域包括但不限于：婚姻家庭、劳动纠纷、经济法、知识产权、刑事诉讼、行政诉讼等。不同法律细分领域分别包括不同的法律法规，为确保训练模型时细分领域专业性足够强，通常需要针对不同的法律细分领域分别训练模型。然而，生成式大模型的参数量非常大，训练成本很高，如果对每个法律细分领域都采用全参训练的方法，训练成本会非常高。为例降低成本，在本申请实施例中采用增量训练的方法，在不修改基座模型参数的前提下，仅仅训练低秩矩阵，在使用时将增量训练的参数注入基座模型中，最终得到一个完整的生成式大模型。

例如，在用户输入咨询问题之后，首先会调用分类模型对咨询问题进行法律细分领域分类，在确定法律细分领域后，根据该法律细分领域决定要调用哪一个法律细分领域的增量权重，从而基于不同的法律细分领域调用不同的增量权重注入基座模型，得到适配生成该法律细分领域问题的解答的法律领域生成式大模型。

本申请的一些实施例中，可以根据各法律细分领域的真实用户律师问答对，基于不同的问题类型，人工编写不同法律细分领域的指令数据，从而得到精调阶段需要的指令微调数据集。

本申请的实施例中，要求法律领域生成式大模型在理解用户咨询问题的基础上，需要进一步对用户咨询的问题生成准确度高的回复，因此，需要基于指令微调数据集对生成式大模型进行进一步精调。可选的，指令微调数据集中的指令数据包括：指令文本、输入文本和输出文本三个部分。其中，所述指令文本为了让生成式模型能理解输入的问题并回答，可以理解为是生成式模型的一部分提示词；输出文本是在指令文本的提示下，生成式大模型基于输入文本给出的输出文本。

具体举例而言，基于用户咨询的问题调用领域分类模型获取问题所属法律细分领域后，可以基于法律细分领域生成指令文本。例如，对于输入文本“结婚证撕了怎么办”，其对应的法律细分领域为“婚姻家庭”，则编写的指令文本可以为：“请扮演一名婚姻法律师，基于法条回答用户的提问”。另外，为防止大模型生成有害性答复，在指令文本中还可以限定大模型生成内容必须无害。例如，指令文本可以为：“你旨在生成无害且准确的回答”。

相应的，生成式大模型基于上述指令文本和输入文本给出的输出文本可以为：“如果结婚证被撕掉了，你需要立即联系当地的婚姻登记机关并提出申请。你需要提供相关的证明文件，例如身份证、户口簿等，以证明自己是否有权利获得补发结婚证。婚姻登记机关将会对你提交的申请进行审查，确保其正确性和合法性，然后将结婚证重新发放给你。法律依据：婚姻登记条例第十七条，结婚证、离婚证遗失或者损毁的，当事人可以持户口簿、身份证向原办理婚姻登记的机关或者一方当事人常住户口所在地的婚姻登记机关申请补领。婚姻登记机关对当事人的婚姻登记档案进行查证，确认属实的，应当为当事人补发结婚证、离婚证。”

按照上述方法，可以对现有技术中已有生成式大模型解答的法律问题的数据进行筛选，从而得到每个法律细分领域的多条指令数据，构成各法律细分领域的指令微调数据集。

在对第一微调大模型进行精调时，对于某个法律细分领域，可以通过拼接每条指令数据的指令文本和输入文本，得到拼接文本，本申请的实施例中记为“第一拼接文本”。之后，将得到的第一拼接文本作为生成式大模型的输入，从而得到每条指令数据对应的模型输出，即回复文本预测值。进一步的，将第一微调大模型的输出的回复文本预测值与指令数据集中该法律细分领域的相应指令数据的回复文本真实值，计算模型的损失值，之后，通过梯度下降的方法优化模型，训练模型参数。

本申请的实施例中，基于法律细分领域的指令微调数据集对第一微调大模型进行精调时，通过迭代优化所述第一微调大模型的低秩矩阵增量权重，进行模型精调，对于第一微调大模型的其他参数不做修改，从而分别训练适配指定法律细分领域的低秩矩阵增量权重。适配指定法律细分领域的低秩矩阵增量权重与第一微调大模型的其他参数结合，即可构成适配指定法律细分领域的第二微调大模型。

可选的，可以采用交叉熵损失函数计算模型损失值。

在步骤120中，通过指令微调数据集对第一微调大模型进行精调，可以提升得到的第二微调大模型对咨询问题的理解能力。进一步的，为了提升法律领域生成式大模型生成回复的通顺性，本申请的实施例中，进一步基于人类反馈对第二微调大模型进行强化学习训练，使得最终训练得到的法律领域生成式大模型能够生成符合人类偏好的回答。

本申请的一些实施例中，所述评分排序数据集是预先构建的。所述评分排序数据集是带有评价标签的问答对。例如，所述评价标签用于描述问答对的关系是否通顺、回答是否流畅。本申请的一些实施例中，对于一个问题，可以设置两种回答文本，对这两种回答文本分别设置评价标签。

本申请的一些实施例中，所述评分排序数据集主要目的是得到符合人类偏好的回答，该数据集需要人工进行标注。可选的，所述评分排序数据集中的评价标签可以人工手动标注。但是，人工标注需要消耗大量的人力成本，不利于大模型的更新。本申请的实施例中可以采用半监督学习实现数据标注，通过训练分类模型预标注再由人工进行校验的方式，降低标注人力成本。

可选的，如图2所示，所述根据预先构建的评分排序数据集和所述第二微调大模型，构建奖励模型之前，还包括：步骤125。

步骤125，采用半监督学习方式，构建评分排序数据集。

可选的，采用半监督学习方式，构建评分排序数据集进一步包括：子步骤1251、子步骤1252、子步骤1253和子步骤1254。

子步骤1251，根据预先构建的评分排序数据集中人工标注的样本，训练问答对二分类模型；

步骤1252，通过所述问答对二分类模型对所述预先构建的评分排序数据集中未标注样本进行分类，得到分类结果；

步骤1253，根据所述分类结果，对相应未标注样本进行预标注；

步骤1254，对预标注的所述未标注样本，进行标注校正。

例如，首先获取若干法律咨询问题，并获取每个法律咨询问题的两个回复，其中一个回复为通顺的，流畅的，另一个回复为不通顺的，之后，手动为该法律咨询问题和每个回复组成的问答对标注不同的评价标签，得到带标注的样本数据。之后，基于带标注的样本数据，训练问答对二分类模型。该问答对二分类模型，可以对输入的问答对进行二分类，输出问答对匹配不同评价标签类别的分类概率。

接下来，通过训练得到的问答对二分类模型对所述预先构建的评分排序数据集中没有标注的样本，分别进行分类，得到每个未标注的问答对匹配不同评价标签类别的分类概率。进一步的，根据所述分类概率，设置每个未标注的问答对的评价标签，完成自动对相应未标注样本进行预标注。

之后，可以采用人工方式对所述未标注样本的所述预标注结果，进行标注校正，从而得到准确标注的评分排序数据。

采用本申请实施例中公开的评分排序数据标注方法，人工只需要对标注结果进行校正即可，不需要依赖过多人工成本，有助于降低人力成本。

前述步骤130中，可以在微调后得到的第二微调模型外加上一层线性层，得到一个分类模型，之后，采用评分排序数据集对该分类模型进行训练，从而得到奖励模型。

前述步骤140中，以所述第二微调大模型作为智能体，以所述奖励模型作为环境，对所述第二微调大模型进行强化学习训练，得到法律领域生成式大模型，包括：以所述第二微调大模型作为智能体，采用PPO2以所述奖励模型作为环境，对所述第二微调大模型进行强化学习训练，得到法律领域生成式大模型。

之后，以所述第二微调大模型作为智能体，以所述奖励模型作为环境，从而代替人类对模型的回答给予反馈，采用PPO2（Proximal Policy Optimization，PPO第2版的改进算法）进行强化学习训练，使得训练得到的法律领域生成式大模型能够生成具备人类正向价值观的仿真人回复。

具体举例而言，在实现基于指令数据微调和奖励模型构建后，最终实现基于人类反馈的强化学习训练阶段，本阶段以经指令数据微调后的得到的第二微调大模型作为智能体agent，以构建的奖励模型为环境，采用PPO2实现强化学习阶段训练。强化学习训练的过程参见现有技术，本申请实施例中不再赘述。

本申请实施例中选用PPO2而非PPO进行强化训练。在PPO2中不使用KL散度衡量第二微调大模型和与环境互动的第二微调大模型分布的差异，而是使用一个clip函数来实现，KL散度在算法作为惩罚项对参数更新进行硬约束，而clip函数对两个分布之间的差异进行限幅处理，直接用强制裁剪的方式来保证参数的更新保持在一定的范围内，实验证明这种方式对参数更新更加有效。

在强化学习之前，第二微调大模型生成回答会出现不断重复或回答不完整的问题，这些属于中文表达流畅度不足的问题。在经过强化学习精调后，得到的法律领域生成式大模型能够生成更加通顺的回答，生成回答不会出现重复或截断的问题。

在经过微调、精调，得到法律领域生成式大模型之后，即可以应用该法律领域生成式大模型对用户输入的法律咨询问题自动生成回复。

本申请实施例中公开的法律领域生成式大模型训练方法，通过基于非结构化法律文本数据和通用中文数据，对预设的生成式大模型进行预训练，得到第一微调大模型；基于针对各法律细分领域预先构建的指令数据集，对所述第一微调大模型进行低秩矩阵增量权重训练，得到所述法律细分领域对应的第二微调大模型；根据预先构建的评分排序数据集和所述第二微调大模型，构建奖励模型；以所述第二微调大模型作为智能体，以所述奖励模型作为环境，对所述第二微调大模型进行强化学习训练，得到法律领域生成式大模型，这样，在通过所述法律领域生成式大模型进行法律咨询回复时，由于基于法律行业领域和通用中文数据对生成式大模型进行二次预训练，注入法律领域知识，可以提升大模型生成回复文本的专业性。并且，通过结合指令数据集、评分排序数据集预训练的模型进行微调，使得得到的所述法律领域生成式大模型能够生成符合人类价值观的仿真律师回复，不仅能准确的回复用户咨询的法律问题，还能带有人类正面情感价值观，解决了知识图谱检索回复生硬的问题，能更好地解决用户咨询的法律问题。

本申请实施例还公开了一种法律咨询回复方法，如图3所示，所述方法包括：步骤340至步骤380。

步骤340，对法律咨询问题进行分类处理，得到所述法律咨询问题匹配的法律细分领域；

步骤350，基于所述法律咨询问题，在所述法律细分领域的预设法规知识库中进行法规检索，得到与所述法律咨询问题匹配的法规文本；

步骤360，拼接所述法规文本和所述法律咨询问题，得到第二拼接文本；

步骤370，将所述第二拼接文本作为预先训练的法律领域生成式大模型的输入，获取所述法律领域生成式大模型针对所述第二拼接文本输出的回复文本；

步骤380，根据所述回复文本，对所述法律咨询问题进行智能回复。

本申请的实施例中，可以采用现有技术中的文本分类方法，对法律咨询问题文本匹配的法律细分领域进行分类识别。例如，采用现有技术中预先训练的，用于对文本进行法律细分领域分类的分类模型，对法律咨询问题进行分类处理，得到所述法律咨询问题匹配的法律细分领域。

本申请的实施例中，对法律咨询问题进行分类处理，得到所述法律咨询问题匹配的法律细分领域的具体实施方式不做限定。

接下来，在预先构建的法规知识库中检索与所述法律咨询问题匹配的法规文本。

本申请的一些实施例中，所述预设法规知识库根据非结构化的法律文本数据构建。例如，所述预设法规知识库中可以包括：法条、司法解释等。法律法规专业性和准确性要求高，然而生成式大模型的回答结果往往有随机性，可能存在不能完全正确生成法条的情况，因此需要借助构建法规知识库，来辅助生成式大模型实现正确引用法条，防止大模型幻觉问题。

与现有技术中构建知识图谱用于回复法律问题不同之处在于：本申请实施例中构建法规知识库时，无需对法律法规进行信息抽取，直接使用非结构化的法律文本数据即可。

在前述步骤350中，可以基于Milvus（一种向量搜索引擎）向量检索库对预设法规知识库实现分布式快速检索，最终返回与法律咨询问题相关度最高的法条，作为检索结果。本申请的另一些实施例中，还可以采用Elasticsearch（一个分布式搜索数据分析引擎）算法，实现在所述法律细分领域的预设法规知识库中进行法规检索，得到与所述法律咨询问题匹配的法规文本。本申请实施例中对在所述法律细分领域的预设法规知识库中进行法规检索，得到与所述法律咨询问题匹配的法规文本的具体实施方式不做限定。

接下来，在步骤360中，对查询预设法规知识库得到的法规文本和用户输入的法律咨询问题进行拼接，本申请实施例中，将进行拼接得到的文本记为“第二拼接文本”。

本申请的实施例中，在执行步骤370之前，首先需要训练法律领域生成式大模型。如图4所示，所述法律咨询回复方法还包括：步骤300、步骤310、步骤320和步骤330。

步骤300，基于非结构化法律文本数据和通用中文数据，对预设的生成式大模型进行预训练，得到第一微调大模型；

步骤310，基于针对各法律细分领域预先构建的指令数据集，对所述第一微调大模型进行低秩矩阵增量权重训练，得到所述法律细分领域对应的第二微调大模型；

步骤320，根据预先构建的评分排序数据集和所述第二微调大模型，构建奖励模型；

步骤330，以所述第二微调大模型作为智能体，以所述奖励模型作为环境，对所述第二微调大模型进行强化学习训练，得到法律领域生成式大模型。

步骤300、步骤310、步骤320和步骤330的具体实施方式，参见前文中对训练法律领域生成式大模型的训练方法的相关描述，此处不再赘述。

之后，将所述第二拼接文本作为预先训练的法律领域生成式大模型的输入，获取法律领域生成式大模型针对当前输入生成的问题回复文本。

本申请的一些实施例中，所述将所述第二拼接文本作为预先训练的法律领域生成式大模型的输入，获取所述法律领域生成式大模型针对所述第二拼接文本输出的回复文本，包括：获取针对所述法律细分领域预先训练得到的低秩矩阵增量权重；将所述低秩矩阵增量权重注入预先加载的法律领域生成式大模型，得到适配所述法律细分领域的目标法律领域生成式大模型；将所述第二拼接文本作为目标法律领域生成式大模型的输入，获取所述目标法律领域生成式大模型针对所述第二拼接文本输出的回复文本。

如前文所述，法律行业包含许多法律细分领域，如婚姻家庭、劳动纠纷等，不同法律细分领域分别包括不同的法律法规。为确保训练得到的法律领域生成式大模型在各法律细分领域专业性足够强，本申请实施例在基于法律领域数据和通用数据对生成式大模型进行预训练得到第一微调模型之后，进一步基于各法律细分领域预先构建的指令数据集，对所述第一微调大模型进行低秩矩阵增量权重训练，得到所述法律细分领域对应的第二微调大模型。即本申请实施例中，为每个法律细分领域分别训练了一组低秩矩阵增量权重，每组低秩矩阵增量权重与基座大模型的通用部分，即第一微调模型中进行低秩矩阵增量权重训练保持不变的部分，可以构成一个与指定法律细分领域对应的第二微调大模型。

本申请的实施例中，为了降低部署成本，采用了预加载一个基座模型，然后动态加载增强权重模型的方式，实现动态调用匹配各法律细分领域的法律领域生成式大模型。这样，仅需要占用一个完整模型的显存空间就可以实现多个动态增量权重调用，极大程度降低了部署成本和调用速度。

例如，在大模型使用过程中，首先根据确定的法律细分领域，进一步获取针对该法律细分领域预先训练得到的低秩矩阵增量权重。之后，将所述低秩矩阵增量权重注入到预先加载的法律领域生成式大模型（即基座大模型），对预先加载的法律领域生成式大模型的低秩矩阵增量权重进行重新初始化，以得到适配该法律细分领域的目标法律领域生成式大模型。

具体举例而言，当用户输入的法律咨询问题属于婚姻家庭领域时，本方法动态选择调用婚姻家庭领域的低秩矩阵增量权重，注入法律领域生成式大模型，得到适配婚姻家庭领域的目标法律领域生成式大模型，之后，将用户输入的法律咨询问题作为目标法律领域生成式大模型的输入，所述目标法律领域生成式大模型将输出婚姻家庭领域的答复。假如用户的下一个法律咨询问题所属劳动纠纷领域，则本方法动态选择调用劳动纠纷领域的低秩矩阵增量权重，注入法律领域生成式大模型，得到适配劳动纠纷领域的目标法律领域生成式大模型，并调用适配劳动纠纷领域的目标法律领域生成式大模型给出相应的回复。由此可见，在动态切换调用大模型的过程中，占用的显存空间都仅仅是一个基座模型占用的显存空间，并不会因为动态切换而重复加载基座模型，由此很大程度降低了大模型部署调用的成本。

然后，将所述第二拼接文本作为目标法律领域生成式大模型的输入，以获取目标法律领域生成式大模型针对所述第二拼接文本输出的回复文本。

接下来，可以根据所述回复文本，对所述法律咨询问题进行智能回复。

可选的，所述根据所述回复文本，对所述法律咨询问题进行智能回复，包括：对所述智能回复进行后校验，得到校验结果，其中，所述进行后校验包括以下一种或多种校验操作：进行内容无害性校验、进行引用法条准确性校验；根据所述校验结果，对所述法律咨询问题进行智能回复。

本申请的一些实施例中，为了进一步提升回复文本的流畅性、安全性，可以进一步对目标法律领域生成式大模型输出的回复文本进行校验。

例如，检查回复文本中是否包括负面情感词语、是否包括敏感词语等。具体举例而言，可以通过情感分析模型、情感词库匹配等方式对回复文本进行内容无害性校验。

又例如，可以进一步调用知识库校验回复文本是否准确。其中，所述知识库中包括已知准确的问答对。通过将当前法律咨询问题与知识库中问答对中的问题进行匹配，找到知识库中包含当前法律咨询问题的最相似问题的问答对，之后，将回复文本与该问答对中的答复文本进行相似度比较，若问题和答复均相似，则可以认为回复文本校验通过。反之，如果对于相似问题，目标法律领域生成式大模型输出的回复文本与知识库中的答复文本相似度不高，则可以认为回复文本校验失败。

之后，可以基于校验通过的回复文本，作为对当前的法律咨询问题的回复。

本申请实施例中，通过对目标法律领域生成式大模型输出的回复文本进行校验，可以有效避免幻觉问题，有助于输出准确的回复。

为使本申请的内容更加清楚，下面结合图5所示的实施架构，对本申请实施例公开的法律咨询回复方法的实施流程进形说明。

首先，加载基座模型。即采用前文所述的法律领域生成式大模型训练方法训练得到的法律领域生成式大模型。

在获取到用户输入的法律咨询问题之后，首先确定法律咨询问题匹配的法律细分领域，以基于法律细分领域和法律咨询问题调用加载的基座模型，生成回复文本。

接下来，根据确定的法律细分领域动态加载预先训练的相应法律细分领域的增量权重，注入到加载的基座模型中。

之后，通过预设法规知识库检索用户输入的法律咨询问题，获取关联的法规文本。

然后，将法规文本和用户输入的法律咨询问题进行拼接，将拼接得到的文本输入至注入了相应法律细分领域的增量权重的基座模型，执行相应法律细分领域回复文本生成操作，并输出回复文本。

通过以上描述可以看出，本申请实施例公开的法律咨询回复方法具有以下有益效果：对法律咨询问题首先进行法律细分领域分类，并给予分类结果；通过动态加载增量权重，能够实现随时切换调用不同法律细分领域的法律领域生成式大模型，仅需加载一次基座模型次，极大程度降低了显存占用空间，提高部署调用的效率，并且，模型输出的回复文本更具专业性；对法律咨询问题首先基于预设法规知识库进行关联法规文本，之后，将法律咨询问题和检索到的法规文本共同作为法律领域生成式大模型的输入，触发生成相应回复文本，有助于提高生成的回复文本的准确度和避免幻觉问题。

并且，基于法律领域生成式大模型的训练过程可知，采用本方法输出的回复问题具有人类正向的情感价值观，并且更加流畅、通顺，更具专业性。

本申请实施例还公开了一种法律领域生成式大模型训练装置，如图6所示，所述装置包括：

第一微调大模型训练模块610，用于基于非结构化法律文本数据和通用中文数据，对预设的生成式大模型进行预训练，得到第一微调大模型；

第二微调大模型训练模块620，用于基于针对各法律细分领域预先构建的指令数据集，对所述第一微调大模型进行低秩矩阵增量权重训练，得到所述法律细分领域对应的第二微调大模型；

奖励模型构建模块630，用于根据预先构建的评分排序数据集和所述第二微调大模型，构建奖励模型；

强化学习训练模块640，用于以所述第二微调大模型作为智能体，以所述奖励模型作为环境，对所述第二微调大模型进行强化学习训练，得到法律领域生成式大模型。

可选的，所述指令数据集中的指令数据包括：指令文本、输入文本和回复文本真实值，所述第二微调大模型训练模块620，进一步用于：

对针对各法律细分领域预先构建的指令数据集，分别对所述指令数据集中各所述指令数据的所述指令文本和所述输入文本进行拼接，得到第一拼接文本；

将所述第一拼接文本作为所述第一微调大模型的输入，获取所述第一微调大模型针对所述第一拼接文本输出的回复文本预测值；

根据所述回复文本预测值和所述回复文本真实值，计算所述第一微调大模型的损失值；

以优化所述损失值为目标，迭代训练所述第一微调大模型的低秩矩阵增量权重，得到相应法律细分领域对应的第二微调大模型。

可选的，所述强化学习训练模块640，进一步用于：

以所述第二微调大模型作为智能体，以所述奖励模型作为环境，采用PPO2对所述第二微调大模型进行强化学习训练，得到法律领域生成式大模型。

可选的，所述装置还包括：

评分排序数据集构建模块，用于采用半监督学习方式，构建评分排序数据集。

可选的，评分排序数据集构建模块，进一步用于：根据预先构建的评分排序数据集中人工标注的样本，训练问答对二分类模型；通过所述问答对二分类模型对所述预先构建的评分排序数据集中未标注样本进行分类，得到分类结果；根据所述分类结果，对相应未标注样本进行预标注；对预标注的所述未标注样本，进行标注校正。

本申请实施例公开的法律领域生成式大模型训练装置，用于实现本申请实施例中所述的法律领域生成式大模型训练方法，装置的各模块的具体实施方式不再赘述，可参见方法实施例相应步骤的具体实施方式。

本申请实施例公开的法律领域生成式大模型训练装置，通过基于非结构化法律文本数据和通用中文数据，对预设的生成式大模型进行预训练，得到第一微调大模型；基于针对各法律细分领域预先构建的指令数据集，对所述第一微调大模型进行低秩矩阵增量权重训练，得到所述法律细分领域对应的第二微调大模型；根据预先构建的评分排序数据集和所述第二微调大模型，构建奖励模型；以所述第二微调大模型作为智能体，以所述奖励模型作为环境，对所述第二微调大模型进行强化学习训练，得到法律领域生成式大模型，这样，在通过所述法律领域生成式大模型进行法律咨询回复时，由于基于法律行业领域和通用中文数据对生成式大模型进行二次预训练，注入法律领域知识，可以提升大模型生成回复文本的专业性。并且，通过结合指令数据集、评分排序数据集预训练的模型进行微调，使得得到的所述法律领域生成式大模型能够生成符合人类价值观的仿真律师回复，不仅能准确的回复用户咨询的法律问题，还能带有人类正面情感价值观，解决了知识图谱检索回复生硬的问题，能更好地解决用户咨询的法律问题。

本申请实施例还公开了一种法律咨询回复装置，如图7所示，所述装置包括：

细分领域分类模块710，用于对法律咨询问题进行分类处理，得到所述法律咨询问题匹配的法律细分领域；

法规文本搜索模块720，用于基于所述法律咨询问题，在所述法律细分领域的预设法规知识库中进行法规检索，得到与所述法律咨询问题匹配的法规文本；

文本拼接模块730，用于拼接所述法规文本和所述法律咨询问题，得到第二拼接文本；

回复文本生成模块740，用于将所述第二拼接文本作为预先训练的法律领域生成式大模型的输入，获取所述法律领域生成式大模型针对所述第二拼接文本输出的回复文本；

咨询回复模块750，用于根据所述回复文本，对所述法律咨询问题进行智能回复。

可选的，所述咨询回复模块750，进一步用于：

对所述智能回复进行后校验，得到校验结果，其中，所述进行后校验包括以下一种或多种校验操作：进行内容无害性校验、进行引用法条准确性校验；以及，

根据所述校验结果，对所述法律咨询问题进行智能回复。

可选的，所述回复文本生成模块740，进一步用于：

获取针对所述法律细分领域预先训练得到的低秩矩阵增量权重；

将所述低秩矩阵增量权重注入预先加载的法律领域生成式大模型，得到适配所述法律细分领域的目标法律领域生成式大模型；

将所述第二拼接文本作为目标法律领域生成式大模型的输入，获取所述目标法律领域生成式大模型针对所述第二拼接文本输出的回复文本。

可选的，所述装置还包括：

法律领域生成式大模型训练模块，用于基于非结构化法律文本数据和通用中文数据，对预设的生成式大模型进行预训练，得到第一微调大模型；以及，基于针对各法律细分领域预先构建的指令数据集，对所述第一微调大模型进行低秩矩阵增量权重训练，得到所述法律细分领域对应的第二微调大模型；

所述法律领域生成式大模型训练模块，还用于根据预先构建的评分排序数据集和所述第二微调大模型，构建奖励模型；之后，以所述第二微调大模型作为智能体，以所述奖励模型作为环境，对所述第二微调大模型进行强化学习训练，得到法律领域生成式大模型。

本申请实施例公开的法律咨询回复装置，用于实现本申请实施例中所述的法律咨询回复方法，装置的各模块的具体实施方式不再赘述，可参见方法实施例相应步骤的具体实施方式。

本申请实施例公开的法律咨询回复装置具有以下有益效果：对法律咨询问题首先进行法律细分领域分类，并给予分类结果；通过动态加载增量权重，能够实现随时切换调用不同法律细分领域的法律领域生成式大模型，仅需加载一次基座模型次，极大程度降低了显存占用空间，提高部署调用的效率，并且，模型输出的回复文本更具专业性；对法律咨询问题首先基于预设法规知识库进行关联法规文本，之后，将法律咨询问题和检索到的法规文本共同作为法律领域生成式大模型的输入，触发生成相应回复文本，有助于提高生成的回复文本的准确度和避免幻觉问题。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本申请提供的一种法律咨询回复方法及装置、法律领域生成式大模型训练方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其一种核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本申请实施例的电子设备中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图8示出了可以实现根据本申请的方法的电子设备。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。该电子设备传统上包括处理器810和存储器820及存储在所述存储器820上并可在处理器810上运行的程序代码830，所述处理器810执行所述程序代码830时实现上述实施例中所述的方法。所述存储器820可以为计算机程序产品或者计算机可读介质。存储器820可以是诸如闪存、EEPROM（电可擦除可编程只读存储器）、EPROM、硬盘或者ROM之类的电子存储器。存储器820具有用于执行上述方法中的任何方法步骤的计算机程序的程序代码830的存储空间8201。例如，用于程序代码830的存储空间8201可以包括分别用于实现上面的方法中的各种步骤的各个计算机程序。所述程序代码830为计算机可读代码。这些计算机程序可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘（CD）、存储卡或者软盘之类的程序代码载体。所述计算机程序包括计算机可读代码，当所述计算机可读代码在电子设备上运行时，导致所述电子设备执行根据上述实施例的方法。

本申请实施例还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例所述的法律咨询回复方法的步骤。

这样的计算机程序产品可以为计算机可读存储介质，该计算机可读存储介质可以具有与图8所示的电子设备中的存储器820类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩存储在所述计算机可读存储介质中。所述计算机可读存储介质通常为如参考图9所述的便携式或者固定存储单元。通常，存储单元包括计算机可读代码830’，所述计算机可读代码830’为由处理器读取的代码，这些代码被处理器执行时，实现上面所描述的方法中的各个步骤。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本申请的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种法律领域生成式大模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述指令数据集中的指令数据包括：指令文本、输入文本和回复文本真实值，基于针对各法律细分领域预先构建的指令数据集，对所述第一微调大模型进行低秩矩阵增量权重训练，得到所述法律细分领域对应的第二微调大模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述以所述第二微调大模型作为智能体，以所述奖励模型作为环境，对所述第二微调大模型进行强化学习训练，得到法律领域生成式大模型，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据预先构建的评分排序数据集和所述第二微调大模型，构建奖励模型之前，还包括：

根据预先构建的评分排序数据集中人工标注的样本，训练问答对二分类模型；

通过所述问答对二分类模型对所述预先构建的评分排序数据集中未标注样本进行分类，得到分类结果；

根据所述分类结果，对相应未标注样本进行预标注；

对预标注的所述未标注样本，进行标注校正。

5.一种法律咨询回复方法，其特征在于，所述方法包括：

根据所述回复文本，对所述法律咨询问题进行智能回复。

6.根据权利要求5所述的方法，其特征在于，所述根据所述回复文本，对所述法律咨询问题进行智能回复，包括：

对所述智能回复进行后校验，得到校验结果，其中，所述进行后校验包括以下一种或多种校验操作：进行内容无害性校验、进行引用法条准确性校验；

根据所述校验结果，对所述法律咨询问题进行智能回复。

7.根据权利要求5所述的方法，其特征在于，所述将所述第二拼接文本作为预先训练的法律领域生成式大模型的输入，获取所述法律领域生成式大模型针对所述第二拼接文本输出的回复文本，包括：

8.根据权利要求5所述的方法，其特征在于，所述将所述第二拼接文本作为预先训练的法律领域生成式大模型的输入，获取所述法律领域生成式大模型针对所述第二拼接文本输出的回复文本之前，还包括：

9.一种法律领域生成式大模型训练装置，其特征在于，所述装置包括：

10.一种法律咨询回复装置，其特征在于，所述装置包括：

11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的程序代码，其特征在于，所述处理器执行所述程序代码时实现权利要求1至4任意一项所述的法律领域生成式大模型训练方法和/或5至8任一项所述的法律咨询回复方法。

12.一种计算机可读存储介质，其上存储有程序代码，其特征在于，该程序代码被处理器执行时实现权利要求1至4任意一项所述的法律领域生成式大模型训练方法的步骤和/或5至8任一项所述的法律咨询回复方法的步骤。