CN117648408B

CN117648408B - 基于大模型的智能问答方法、装置、电子设备及存储介质

Info

Publication number: CN117648408B
Application number: CN202410121641.6A
Authority: CN
Inventors: 黄婷; 黄明星; 郑福; 沈鹏; 周晓波
Original assignee: Beijing Shuidi Technology Group Co ltd
Current assignee: Beijing Shuidi Technology Group Co ltd
Priority date: 2024-01-30
Filing date: 2024-01-30
Publication date: 2024-04-30
Anticipated expiration: 2044-01-30
Also published as: CN117648408A

Abstract

本申请公开了一种基于大模型的智能问答方法、装置、电子设备及存储介质，涉及对话机器人技术领域，对话术做标签增强，使智能对话大模型能够深入理解用户意图，提升准确回答用户异议的概率，有助于人机更流畅的交互。所述方法包括：获取原始训练数据，对原始训练数据进行整理，得到多轮对话数据；利用意图分类模型和状态分类模型对多轮对话数据进行识别，得到用户意图标签和引导状态标签；将用户意图标签和引导状态标签标注在多轮对话数据中并进行大模型训练，得到智能对话大模型；当检测到与用户所持终端成功建立对话时，将终端输入的对话内容输入至智能对话大模型，获取智能对话大模型针对对话内容输出的应对内容，将应对内容下发至终端。

Description

基于大模型的智能问答方法、装置、电子设备及存储介质

技术领域

本申请涉及对话机器人技术领域，特别是涉及一种基于大模型的智能问答方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术和大模型技术的发展，人们可以通过人工智能设备利用各种模型训练实现统计、判断、模仿等多种功能，智能问答为常见功能中的一种。在智能问答的过程中，用户会提出各种问题，需要机器人能及时准确回答用户，同时还要求机器人能够主动继续引导对话流程。

相关技术中，需要先训练一个可以模仿人工对话的智能对话大模型，具体来说，需要将人人的多轮对话整理成大模型训练的数据格式，得到数据集。其中，数据集可以包括用户的问题、工作人员的回答以及用户的反馈等等，以便于大模型进行学习和训练。每一条训练数据是一通人人的多轮对话，第一句是用户说的话，第二句是真实工作人员的话，第三句又是用户说的话，依此类推。接下来，选取一个开源大模型，比如选取开源大模型ChatGLM2-6B，基于前面整理的数据集对大模型进行微调，得到一个可以模仿工作人员对话的智能对话大模型。实际应用中，利用智能对话大模型识别用户说话的内容并进行应答，实现与用户之间的交互。

在实现本申请的过程中，申请人发现相关技术至少存在以下问题：

数据集里包括的对话通常是引导流程的对话，依赖智能对话大模型能够按照指定的步骤引导用户进行对话，但是在对话的过程中经常有用户存在异议，比如用户不知道当前正在介绍的产品是做什么的。对于这种存在异议意图的对话，智能对话大模型难以准确识别，会忽略用户的异议问题，自顾自的继续引导用户进行固定流程的对话，无法涵盖输入问题的多样性，智能对话大模型的准确性和适应性较差，人机之间的交互不够流畅。

发明内容

有鉴于此，本申请提供了一种基于大模型的智能问答方法、装置、电子设备及存储介质，主要目的在于解决目前对于这种存在异议意图的对话，智能对话大模型难以准确识别，会忽略用户的异议问题，自顾自的继续引导用户进行固定流程的对话，无法涵盖输入问题的多样性，智能对话大模型的准确性和适应性较差，人机之间的交互不够流畅的问题。

依据本申请第一方面，提供了一种基于大模型的智能问答方法，该方法包括：

获取原始训练数据，对所述原始训练数据进行整理，得到多轮对话数据；

利用意图分类模型和状态分类模型对多轮对话数据进行识别，得到所述多轮对话数据对应的至少一个用户意图标签和至少一个引导状态标签；

将所述至少一个用户意图标签和所述至少一个引导状态标签标注在所述多轮对话数据中，以及基于标注后的所述多轮对话数据进行大模型训练，得到智能对话大模型；

当检测到与用户所持终端成功建立对话时，将所述终端输入的对话内容输入至所述智能对话大模型，获取所述智能对话大模型针对所述对话内容输出的应对内容，将所述应对内容下发至所述终端。

可选地，所述获取原始训练数据，对所述原始训练数据进行整理，得到多轮对话数据，包括：

获取历史对话音频，对所述历史对话音频进行语音识别处理，得到所述历史对话音频的对话文字信息，以及将所述对话文字信息作为所述原始训练数据；

对所述对话文字信息进行拆分，将所述对话文字信息拆分为多轮对话文字；

确定所述多轮对话文字中每轮对话文字对应的角色信息，采用对应的角色信息对所述每轮对话文字进行标注，得到标注后的所述多轮对话文字，以及将标注后的所述多轮对话文字作为所述多轮对话数据。

可选地，所述对所述历史对话音频进行语音识别处理，得到所述历史对话音频的对话文字信息，以及将所述对话文字信息作为所述原始训练数据，包括：

识别所述历史对话音频中每条语音所对应的声道，以及按照所述声道，将所述历史对话音频中的语音划分为用户侧语音和坐席侧语音；

分别对所述用户侧语音和所述坐席侧语音进行语音识别，得到文字形式的用户侧语音内容和坐席侧语音内容；

根据所述用户侧语音和所述坐席侧语音之间的相对顺序，对文字形式的所述用户侧语音内容和所述坐席侧语音内容进行整理，得到一对话文字信息，以及将所述对话文字信息作为所述原始训练数据。

可选地，所述利用意图分类模型和状态分类模型对多轮对话数据进行识别，得到所述多轮对话数据对应的至少一个用户意图标签和至少一个引导状态标签，包括：

获取所述意图分类模型和所述状态分类模型；

在所述多轮对话数据中提取至少一个第一对话文字，将所述至少一个第一对话文字输入至所述意图分类模型中，基于所述意图分类模型对每个第一对话文字进行意图识别，得到所述至少一个用户意图标签，所述至少一个第一对话文字在所述多轮对话数据中对应的角色信息是用户；

同时或分别在所述多轮对话数据中提取至少一个第二对话文字，将所述至少一个第二对话文字输入至所述状态分类模型中，基于所述状态分类模型对每个第二对话文字进行引导状态识别，得到所述至少一个引导状态标签，所述至少一个第二对话文字在所述多轮对话数据中对应的角色信息是坐席。

可选地，所述将所述至少一个用户意图标签和所述至少一个引导状态标签标注在所述多轮对话数据中，包括：

对于所述至少一个用户意图标签中的每个用户意图标签，在所述多轮对话数据中确定识别到所述用户意图标签的第一对话文字，以及确定所述第一对话文字所在的第一对话轮次，在所述多轮对话数据中将所述用户意图标签标注在所述第一对话轮次上；

对于所述至少一个引导状态标签中的每个引导状态标签，在所述多轮对话数据中确定识别到所述引导状态标签的第二对话文字，以及确定所述第二对话文字所在的第二对话轮次，在所述多轮对话数据中确定所述第二对话轮次的下一对话轮次，将所述引导状态标签标注在所述下一对话轮次上。

可选地，所述将所述终端输入的对话内容输入至所述智能对话大模型，获取所述智能对话大模型针对所述对话内容输出的应对内容，将所述应对内容下发至所述终端，包括：

确定与所述用户所持终端成功建立对话的目标坐席，基于所述目标坐席向所述终端播报默认音频；

持续采集所述用户基于所述终端输入的音频，以及对采集到的音频进行语音识别处理，将识别到的文字内容作为所述对话内容；

将所述对话内容输入至所述智能对话大模型，基于所述智能对话大模型对所述对话内容进行意图和引导状态识别，以及获取所述智能对话大模型针对识别到的意图和引导状态输出的所述应对内容；

调用所述目标坐席将所述应对内容播报至所述终端，以使所述应对内容下发至所述终端。

可选地，所述方法还包括：

获取多个第一样本语句，以及获取所述多个第一样本语句中每个第一样本语句对应的样本意图标签，采用对应的样本意图标签对所述每个第一样本语句进行标注，并采用标注后的多个第一样本语句进行模型预训练，得到所述意图分类模型；和/或，

获取多个第二样本语句，以及获取所述多个第二样本语句中每个第二样本语句对应的引导状态类别标签，采用对应的引导状态类别标签对所述每个第二样本语句进行标注，并采用标注后的多个第二样本语句进行模型预训练，得到所述状态分类模型。

依据本申请第二方面，提供了一种基于大模型的智能问答装置，该装置包括：

整理模块，用于获取原始训练数据，对所述原始训练数据进行整理，得到多轮对话数据；

识别模块，用于利用意图分类模型和状态分类模型对多轮对话数据进行识别，得到所述多轮对话数据对应的至少一个用户意图标签和至少一个引导状态标签；

训练模块，用于将所述至少一个用户意图标签和所述至少一个引导状态标签标注在所述多轮对话数据中，以及基于标注后的所述多轮对话数据进行大模型训练，得到智能对话大模型；

问答模块，用于当检测到与用户所持终端成功建立对话时，将所述终端输入的对话内容输入至所述智能对话大模型，获取所述智能对话大模型针对所述对话内容输出的应对内容，将所述应对内容下发至所述终端。

可选地，所述整理模块，用于获取历史对话音频，对所述历史对话音频进行语音识别处理，得到所述历史对话音频的对话文字信息，以及将所述对话文字信息作为所述原始训练数据；对所述对话文字信息进行拆分，将所述对话文字信息拆分为多轮对话文字；确定所述多轮对话文字中每轮对话文字对应的角色信息，采用对应的角色信息对所述每轮对话文字进行标注，得到标注后的所述多轮对话文字，以及将标注后的所述多轮对话文字作为所述多轮对话数据。

可选地，所述整理模块，用于识别所述历史对话音频中每条语音所对应的声道，以及按照所述声道，将所述历史对话音频中的语音划分为用户侧语音和坐席侧语音；分别对所述用户侧语音和所述坐席侧语音进行语音识别，得到文字形式的用户侧语音内容和坐席侧语音内容；根据所述用户侧语音和所述坐席侧语音之间的相对顺序，对文字形式的所述用户侧语音内容和所述坐席侧语音内容进行整理，得到一对话文字信息，以及将所述对话文字信息作为所述原始训练数据。

可选地，所述识别模块，用于获取所述意图分类模型和所述状态分类模型；在所述多轮对话数据中提取至少一个第一对话文字，将所述至少一个第一对话文字输入至所述意图分类模型中，基于所述意图分类模型对每个第一对话文字进行意图识别，得到所述至少一个用户意图标签，所述至少一个第一对话文字在所述多轮对话数据中对应的角色信息是用户；同时或分别在所述多轮对话数据中提取至少一个第二对话文字，将所述至少一个第二对话文字输入至所述状态分类模型中，基于所述状态分类模型对每个第二对话文字进行引导状态识别，得到所述至少一个引导状态标签，所述至少一个第二对话文字在所述多轮对话数据中对应的角色信息是坐席。

可选地，所述训练模块，用于对于所述至少一个用户意图标签中的每个用户意图标签，在所述多轮对话数据中确定识别到所述用户意图标签的第一对话文字，以及确定所述第一对话文字所在的第一对话轮次，在所述多轮对话数据中将所述用户意图标签标注在所述第一对话轮次上；对于所述至少一个引导状态标签中的每个引导状态标签，在所述多轮对话数据中确定识别到所述引导状态标签的第二对话文字，以及确定所述第二对话文字所在的第二对话轮次，在所述多轮对话数据中确定所述第二对话轮次的下一对话轮次，将所述引导状态标签标注在所述下一对话轮次上。

可选地，所述问答模块，用于确定与所述用户所持终端成功建立对话的目标坐席，基于所述目标坐席向所述终端播报默认音频；持续采集所述用户基于所述终端输入的音频，以及对采集到的音频进行语音识别处理，将识别到的文字内容作为所述对话内容；将所述对话内容输入至所述智能对话大模型，基于所述智能对话大模型对所述对话内容进行意图和引导状态识别，以及获取所述智能对话大模型针对识别到的意图和引导状态输出的所述应对内容；调用所述目标坐席将所述应对内容播报至所述终端，以使所述应对内容下发至所述终端。

可选地，所述训练模块，还用于获取多个第一样本语句，以及获取所述多个第一样本语句中每个第一样本语句对应的样本意图标签，采用对应的样本意图标签对所述每个第一样本语句进行标注，并采用标注后的多个第一样本语句进行模型预训练，得到所述意图分类模型；和/或，获取多个第二样本语句，以及获取所述多个第二样本语句中每个第二样本语句对应的引导状态类别标签，采用对应的引导状态类别标签对所述每个第二样本语句进行标注，并采用标注后的多个第二样本语句进行模型预训练，得到所述状态分类模型。

依据本申请第三方面，提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述方法的步骤。

依据本申请第四方面，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。

借由上述技术方案，本申请提供的一种基于大模型的智能问答方法、装置、电子设备及存储介质，本申请获取原始训练数据，对原始训练数据进行整理，得到多轮对话数据，利用意图分类模型和状态分类模型对多轮对话数据进行识别，得到多轮对话数据对应的至少一个用户意图标签和至少一个引导状态标签，将至少一个用户意图标签和至少一个引导状态标签标注在多轮对话数据中，以及基于标注后的多轮对话数据进行大模型训练，得到智能对话大模型，当检测到与用户所持终端成功建立对话时，将终端输入的对话内容输入至智能对话大模型，获取智能对话大模型针对对话内容输出的应对内容，将应对内容下发至终端，基于意图分类模型和状态分类模型对话术做标签增强，使得训练得到的智能对话大模型能够深入理解用户意图，减少自顾自带流程的问题，提升机器人准确回答用户异议的概率，智能对话大模型的准确性和适应性较好，有助于人机更流畅的交互。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请实施例提供的一种基于大模型的智能问答方法流程示意图；

图2A示出了本申请实施例提供的另一种基于大模型的智能问答方法流程示意图；

图2B示出了本申请实施例提供的一种基于大模型的智能问答方法流程示意图；

图3示出了本申请实施例提供的一种基于大模型的智能问答装置的结构示意图；

图4示出了本申请实施例提供的一种计算机设备的装置结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

随着人工智能技术飞速发展，深度学习也不断发展，大模型开始飞速发展和落地尝试。以保险销售为例，在保险销售过程中，客户会提出各种问题和异议，需要销售机器人能及时准确回答客户异议，同时还要求机器人会主动继续引导销售流程。

目前，大模型应用于保险销售领域的一种方式是将销售场景里，人人的多轮对话整理成大模型训练的数据格式，然后选取一个开源大模型，基于自己的销售场景的多轮对话训练集加以微调，就初步得到一个可以模仿销售人员的模型。具体来说，可以将销售场景中的多轮对话整理成数据集，这些数据集可以包括客户的问题、销售人员的回答以及客户的反馈等等，以便于大模型进行学习和训练。其中，每一条训练数据是一通人人的多轮对话，第一句是用户说的话，第二句是真实销售人员的话，第三句又是用户说的话，依此类推。接下来，选取一个开源大模型，这些大模型通常是由一些科技公司或学术机构开发的，具有广泛的应用价值，比如选取目前开源大模型ChatGLM2-6B（一种开源的大语言模型）。然后，基于前面整理的销售场景的多轮对话训练集对大模型进行微调，以提高模型的准确性和适应性。

但是，申请人认识到，在训练数据集里，引导销售流程的数据分布远大于用户异议类的数据分布，导致用户异议问题成了训练集中的稀疏数据，因此直接使用这种训练集训练出来的大模型，存在忽略用户异议问题、自顾自带流程的现象和缺陷。因此，本申请提出了一种基于大模型的智能问答方法，基于意图分类模型和状态分类模型对话术做标签增强，使得训练得到的智能对话大模型能够深入理解用户意图，减少自顾自带流程的问题，提升机器人准确回答用户异议的概率，智能对话大模型的准确性和适应性较好，有助于人机更流畅的交互。

本申请实施例提供了一种基于大模型的智能问答方法，如图1所示，该方法包括：

101、获取原始训练数据，对原始训练数据进行整理，得到多轮对话数据。

本申请实施例可以应用于智能问答系统，智能问答系统基于服务器对外提供智能对话功能。其中，原始训练数据是用户与坐席之间的对话内容，具体地，可以在坐席与用户成功对话时，询问用户是否可以对对话进行录音，当用户允许对对话进行录音时，对当前通话进行录音，以及将对话录音作为原始训练数据。其中，由于原始训练数据中用户和坐席实际上是交替说话的，因此，为了在训练智能对话大模型时能够帮助大模型理解这类交替对话的训练数据，在本申请实施例中，获取到原始训练数据后，并没有直接采用原始训练数据进行智能对话大模型的训练，而是对原始训练数据进行整理，将原始训练数据整理成多轮对话数据，从而确保后面训练的智能对话大模型能够理解和处理多轮对话中的信息。

102、利用意图分类模型和状态分类模型对多轮对话数据进行识别，得到多轮对话数据对应的至少一个用户意图标签和至少一个引导状态标签。

本申请实施例中事先训练有意图分类模型和状态分类模型。其中，意图分类模型能够将用户的对话意图分为不同的类别，具体来说分成肯定意图、否定意图、异议意图和其它意图这四大类，意图分类模型能够帮助智能问答系统更好地理解用户的需求和意图。状态分类模型能够识别坐席在对话中的引导到哪一个环节了，具体来说，在销售场景中，状态分类模型的类别能够覆盖整个销售过程中的所有销售环节，总共有60个类别，例如询问用户身份、要求打开微信、操作指引、点此完善弹窗等，状态分类模型能够帮助智能问答系统更好地了解对话过程的进展，以及目前操作环节。

进一步，本申请实施例会利用意图分类模型和状态分类模型对多轮对话数据进行识别，得到多轮对话数据对应的至少一个用户意图标签和至少一个引导状态标签，实现对训练数据的意图和状态识别，使得在后续的训练中能够帮助大模型理解用户意图和引导状态，进而增强大模型在这两个方面的理解能力，有助于人机更流畅的交互。

103、将至少一个用户意图标签和至少一个引导状态标签标注在多轮对话数据中，以及基于标注后的多轮对话数据进行大模型训练，得到智能对话大模型。

其中，获取到多轮对话数据对应的至少一个用户意图标签和至少一个引导状态标签后，智能问答系统会将至少一个用户意图标签和至少一个引导状态标签标注在多轮对话数据中，以及基于标注后的多轮对话数据进行大模型训练，得到智能对话大模型。具体地，用户意图标签实际上均是从用户说话的内容中识别到的，比如当用户说“什么意思啊”，识别出的用户意图标签为“异议意图”，而引导状态标签主要是为了标注出通过引导流程能够引导用户说出哪些内容，因此，在获取到至少一个用户意图标签和至少一个引导状态标签后，需要将至少一个用户意图标签和至少一个引导状态标签标注在多轮对话数据中，在多轮对话数据中增加用户意图的分类结果和已引导的分类状态，以便智能对话大模型对用户意图和已引导状态的理解。

完成标签的标注后，智能问答系统会基于标注后的多轮对话数据训练一个智能对话大模型，这个智能对话大模型能够处理更复杂的对话任务，同时可以克服训练数据集中用户异议类数据稀疏的问题，进而达到动态平和解答用户异议和主动引导销售过程的目的。

104、当检测到与用户所持终端成功建立对话时，将终端输入的对话内容输入至智能对话大模型，获取智能对话大模型针对对话内容输出的应对内容，将应对内容下发至终端。

在本申请实施例中，训练得到智能对话大模型后，智能问答系统会将智能对话大模型应用在与用户的日常沟通中。其中，当检测到与用户所持终端成功建立对话时，智能问答系统会按照既定的程序向用户介绍内容，并持续采集用户基于所持终端输入的对话内容，将对话内容输入到智能对话大模型中进行意图和引导状态的识别。智能对话大模型识别后，会根据识别到的意图结果和引导状态结果确定下一步应该向用户播报什么内容，该内容也即智能对话大模型针对对话内容输出的应对内容。智能问答系统获取该应对内容，将应对内容下发至终端即可完成与用户之间的一轮交互。实际应用的过程中，完成本轮次的交互后，智能问答系统还会继续采集用户基于所持终端输入的对话内容并再次调用智能对话大模型进行内容识别，并继续将智能对话大模型输出的应对内容下发至终端，直至对话结束。

本申请实施例提供的方法，获取原始训练数据，对原始训练数据进行整理，得到多轮对话数据，利用意图分类模型和状态分类模型对多轮对话数据进行识别，得到多轮对话数据对应的至少一个用户意图标签和至少一个引导状态标签，将至少一个用户意图标签和至少一个引导状态标签标注在多轮对话数据中，以及基于标注后的多轮对话数据进行大模型训练，得到智能对话大模型，当检测到与用户所持终端成功建立对话时，将终端输入的对话内容输入至智能对话大模型，获取智能对话大模型针对对话内容输出的应对内容，将应对内容下发至终端，基于意图分类模型和状态分类模型对话术做标签增强，使得训练得到的智能对话大模型能够深入理解用户意图，减少自顾自带流程的问题，提升机器人准确回答用户异议的概率，智能对话大模型的准确性和适应性较好，有助于人机更流畅的交互。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的具体实施过程，本申请实施例提供了另一种基于大模型的智能问答方法，如图2A所示，该方法包括：

201、获取原始训练数据，对原始训练数据进行整理，得到多轮对话数据。

本申请实施例可以应用于智能问答系统，智能问答系统基于服务器对外提供智能对话功能。其中，原始训练数据是用户与坐席之间的对话内容，具体地，可以在坐席与用户成功对话时，询问用户是否可以对对话进行录音，当用户允许对对话进行录音时，对当前通话进行录音，以及将对话录音作为原始训练数据。其中，由于原始训练数据中用户和坐席实际上是交替说话的，因此，为了在训练智能对话大模型时能够帮助大模型理解这类交替对话的训练数据，在本申请实施例中，获取到原始训练数据后，并没有直接采用原始训练数据进行智能对话大模型的训练，而是对原始训练数据进行整理，将原始训练数据整理成多轮对话数据，从而确保后面训练的智能对话大模型能够理解和处理多轮对话中的信息。下面对生成多轮对话数据的过程进行描述：

首先，智能问答系统会获取历史对话音频，对历史对话音频进行语音识别处理，得到历史对话音频的对话文字信息，以及将对话文字信息作为原始训练数据。其中，由于不同的角色说话时对应的声道不同，因此，在本申请实施例中，智能问答系统会识别历史对话音频中每条语音所对应的声道，以及按照声道，将历史对话音频中的语音划分为用户侧语音和坐席侧语音，分别对用户侧语音和坐席侧语音进行语音识别，得到文字形式的用户侧语音内容和坐席侧语音内容，并根据用户侧语音和坐席侧语音之间的相对顺序，对文字形式的用户侧语音内容和坐席侧语音内容进行整理，得到一对话文字信息，以及将对话文字信息作为原始训练数据。以销售场景为例，可以将在用户允许下采集到的电话录音作为历史对话音频，智能问答系统识别电话录音中用户和销售人员所处的声道，按照声道将电话录音区分为用户侧语音和坐席侧语音；接着，经过ASR（Automatic Speech Recognition，自动语音识别技术）技术，将录音转译成文字，并根据用户侧语音和坐席侧语音片段间的相对顺序进行整理，得到原始训练数据。假设U表示用户侧语音的文字，A表示坐席侧语音的文字，则原始训练数据的格式是U\nA\nU\nA\n…。

随后，为了方便智能对话大模型理解场景中的多轮对话，智能问答系统会对对话文字信息进行拆分，将对话文字信息拆分为多轮对话文字。接着，确定多轮对话文字中每轮对话文字对应的角色信息，采用对应的角色信息对每轮对话文字进行标注，得到标注后的多轮对话文字，以及将标注后的多轮对话文字作为多轮对话数据。实际应用的过程中，在标注角色信息时，可以将原始训练数据的格式转成JSON（一种用于数据交换的文本）格式，采用ChatGLM3（一种开源的语言大模型）的训练数据格式，一条测试用例是一个多轮对话，每一轮对话由Role（角色）和Content（内容）两个字段组成，Role表示多轮对话的角色信息，Content表示这个角色说的话。需要说明的是，实际应用的过程中可以设置三种角色，分别为System（系统）、User（用户）、Assistant（助手）；其中，System表示系统信息，不用做模型训练，User表示用户，Assistant表示坐席。下面以一个例子说明一下多轮对话数据的具体格式：

[{

"role": "system",

"content": "假设你是一个保险销售员，你要通过电话给客户介绍和推销保险产品A，还要解答客户关于产品的问题。"

},

{

"role": "user",

"content": "喂"

},

{

"role": "assistant",

"content": "你好。我这边是您的一对一客服顾问，很高兴服务到您哈。呃，您之前在我们平台领取的这个保障已经生效了，您还记得吧？"

},

{

"role": "user",

"content": "什么意思啊？"

},

{

"role": "assistant",

"content": "是这样的，我这边是您的一对一客服顾问。就您之前在我们平台有一份保障，已经生效了。如果出险是可以理赔，获得不少钱的，怕您不知道流程。所以这边呢呃单独带您操作演示一下，您看好吧？",

}]

202、获取意图分类模型和状态分类模型，同时或分别执行下述步骤203以及步骤204。

为了在后续的训练中能够帮助大模型理解用户意图和引导状态，进而增强大模型在这两个方面的理解能力，本申请实施例中设置有意图分类模型和状态分类模型，两个模型可以事先训练好并设置在智能问答系统中，以便智能问答系统随时调用。其中，意图分类模型能够将用户的对话意图分为不同的类别，具体来说分成肯定意图、否定意图、异议意图和其它意图这四大类，意图分类模型能够帮助智能问答系统更好地理解用户的需求和意图。状态分类模型能够识别坐席在对话中的引导到哪一个环节了，具体来说，在销售场景中，状态分类模型的类别能够覆盖整个销售过程中的所有销售环节，总共有60个类别，例如询问用户身份、要求打开微信、操作指引、点此完善弹窗等，状态分类模型能够帮助智能问答系统更好地了解对话过程的进展，以及目前操作环节。下面分别对两个模型的训练过程进行描述：

在训练意图分类模型时，可以获取多个第一样本语句，以及获取多个第一样本语句中每个第一样本语句对应的样本意图标签，采用对应的样本意图标签对每个第一样本语句进行标注，并采用标注后的多个第一样本语句进行模型预训练，得到意图分类模型。实际应用的过程中，可以先定义用户的意图包括肯定意图、否定意图、异议意图和其它意图这四大类，接着采用人工标注的方式按照这四大类对多个第一样本语句进行标注，最后采用标注后的多个第一样本语句进行预训练模型微调，比如用Tinybert（模型蒸馏）预训练模型进行微调，从而得到意图分类模型。

进一步地，在训练状态分类模型时，可以获取多个第二样本语句，以及获取多个第二样本语句中每个第二样本语句对应的引导状态类别标签，采用对应的引导状态类别标签对每个第二样本语句进行标注，并采用标注后的多个第二样本语句进行模型预训练，得到状态分类模型。实际应用的过程中，可以先定义坐席引导状态类别，例如询问用户身份、要求打开微信、操作指引、点此完善弹窗等，本申请中定义了60个类别；接着，采用人工标注的方式按照这60个类别对多个第二样本语句进行标注，最后采用标注后的多个第二样本语句进行预训练模型微调，比如用Tinybert预训练模型进行微调，从而得到训练状态分类模型。其中，需要说明的是，状态分类模型的训练整体流程类似于意图分类模型，不同点在于坐席的话往往比较长，一个轮次的坐席话术可能包含多种状态，为此人工标注的时候，可能会标注出多个引导状态类别标签，因此预训练模型的微调任务改成了多标签分类任务。另外，状态分类模型也可以应用于清洗训练数据，以便使训练数据更加精细，从而提升训练得到的智能对话大模型的精度。

获取到意图分类模型和状态分类模型后，本申请实施例会利用意图分类模型和状态分类模型对多轮对话数据进行识别，也即同时或分别执行下述步骤203以及步骤204，从而得到多轮对话数据对应的至少一个用户意图标签和至少一个引导状态标签，实现对训练数据的意图和状态识别，使得在后续的训练中能够帮助大模型理解用户意图和引导状态，进而增强大模型在这两个方面的理解能力，有助于人机更流畅的交互。

203、在多轮对话数据中提取至少一个第一对话文字，将至少一个第一对话文字输入至意图分类模型中，基于意图分类模型对每个第一对话文字进行意图识别，得到至少一个用户意图标签，以及执行下述步骤205。

在本申请实施例中，获取到意图分类模型后，由于意图分类模型是用来识别用户说话的意图的，因此，智能问答系统会在多轮对话数据中提取至少一个第一对话文字，其中，至少一个第一对话文字在多轮对话数据中对应的角色信息是用户，将至少一个第一对话文字输入至意图分类模型中，基于意图分类模型对每个第一对话文字进行意图识别，得到至少一个用户意图标签，后续将识别到的这些用户意图标签标注在用于训练大模型的多轮对话数据中，以便在训练大模型的过程中帮助大模型理解样本，提升大模型理解用户意图的能力，也即执行下述步骤205。

204、在多轮对话数据中提取至少一个第二对话文字，将至少一个第二对话文字输入至状态分类模型中，基于状态分类模型对每个第二对话文字进行引导状态识别，得到至少一个引导状态标签，以及执行下述步骤205。

在本申请实施例中，获取到状态分类模型后，由于状态分类模型是用来识别坐席将流程引导到哪里了，因此，智能问答系统会在多轮对话数据中提取至少一个第二对话文字，其中，至少一个第二对话文字在多轮对话数据中对应的角色信息是坐席，将至少一个第二对话文字输入至状态分类模型中，基于状态分类模型对每个第二对话文字进行引导状态识别，得到至少一个引导状态标签，后续将识别到的这些引导状态标签标注在用于训练大模型的多轮对话数据中，以便在训练大模型的过程中帮助大模型理解样本，提升大模型理解引导状态的能力，也即以及执行下述步骤205。

205、将至少一个用户意图标签和至少一个引导状态标签标注在多轮对话数据中。

在本申请实施例中，获取到多轮对话数据对应的至少一个用户意图标签和至少一个引导状态标签后，智能问答系统会将至少一个用户意图标签和至少一个引导状态标签标注在多轮对话数据中，以及基于标注后的多轮对话数据进行大模型训练，得到智能对话大模型。具体地，用户意图标签实际上均是从用户说话的内容中识别到的，比如当用户说“什么意思啊”，识别出的用户意图标签为“异议意图”，而引导状态标签主要是为了标注出通过引导流程能够引导用户说出哪些内容，因此，在获取到至少一个用户意图标签和至少一个引导状态标签后，需要将至少一个用户意图标签和至少一个引导状态标签标注在多轮对话数据中，在多轮对话数据中增加用户意图的分类结果和已引导的分类状态，以便智能对话大模型对用户意图和已引导状态的理解。下面对至少一个用户意图标签和至少一个引导状态标签的标注过程进行描述：

对于至少一个用户意图标签中的每个用户意图标签，智能问答系统会在多轮对话数据中确定识别到用户意图标签的第一对话文字，以及确定第一对话文字所在的第一对话轮次，在多轮对话数据中将用户意图标签标注在第一对话轮次上。而对于至少一个引导状态标签中的每个引导状态标签，智能问答系统会在多轮对话数据中确定识别到引导状态标签的第二对话文字，以及确定第二对话文字所在的第二对话轮次，在多轮对话数据中确定第二对话轮次的下一对话轮次，将引导状态标签标注在下一对话轮次上。以前面多轮对话的例子为例，经过用户意图标签和引导状态标签的标注后，数据格式处理成如下形式：

[{

"role": "system",

},

{

"role": "user",

"content": "[其它意图]喂"

},

{

"role": "assistant",

},

{

"role": "user",

"content": "[表明来意][异议意图]什么意思啊？"

},

{

"role": "assistant",

"content": "是这样的，我这边是您的一对一客服顾问。就您之前在我们保平台有一份保障，已经生效了。如果出险是可以理赔，获得不少钱的，怕您不知道流程。所以这边呢呃单独带您操作演示一下，您看好吧？",

}]

其中，上面例子中的[其它意图]以及[异议意图]是其所在Content字段的意图分类模型的分类结果；而[表明来意]是其所在Content字段的上一轮次的Assistant的Content字段的状态分类模型的分类结果。

参见上面的描述可知，对多轮对话数据进行标注的过程总结如下：如图2B所示，一方面，在多轮对话数据中提取角色信息为用户的第一对话文字，调用意图分类模型对第一对话文字进行识别，得到至少一个用户意图标签；另一方面，在多轮对话数据中提取角色信息为坐席的第二对话文字，调用状态分类模型对第二对话文字进行识别，得到至少一个引导状态标签。随后，将两个模型的结果也即至少一个用户意图标签和至少一个引导状态标签添加到多轮对话数据的用户侧文本中，其中，用户意图标签需要添加到其所对应的轮次的用户文本前面，而引导状态标签需要添加到其所对应的轮次的下一轮次的用户文本前面，从而得到标注后的多轮对话数据，该多轮对话数据也即是一种新的多轮对话训练集格式。

206、基于标注后的多轮对话数据进行大模型训练，得到智能对话大模型。

在本申请实施例中，完成标签的标注后，智能问答系统会基于标注后的多轮对话数据训练一个智能对话大模型，这个智能对话大模型能够处理更复杂的对话任务，同时可以克服训练数据集中用户异议类数据稀疏的问题，进而达到动态平和解答用户异议和主动引导销售过程的目的。实际应用的过程中，也可以将标注后的多轮对话数据经过开源的某个大模型进一步做微调训练，就能够得到一个能动态平衡对用户异议准确回答同时又能主动继续引导流程的智能对话大模型。

207、当检测到与用户所持终端成功建立对话时，将终端输入的对话内容输入至智能对话大模型，获取智能对话大模型针对对话内容输出的应对内容，将应对内容下发至终端。

具体地，由于智能问答系统通常基于坐席与用户所持终端建立通讯连接，因此，智能问答系统可以确定与用户所持终端成功建立对话的目标坐席，并先基于目标坐席向终端播报默认音频。比如，电话接通后坐席先播报“你好。我这边是您的一对一客服顾问，很高兴服务到您哈。呃，您之前在我们平台领取的这个保障已经生效了，您还记得吧？”。而在播放的过程中，智能问答系统会持续采集用户基于终端输入的音频，以及对采集到的音频进行语音识别处理，将识别到的文字内容作为对话内容，并将对话内容输入至智能对话大模型，基于智能对话大模型对对话内容进行意图和引导状态识别，以及获取智能对话大模型针对识别到的意图和引导状态输出的应对内容。随后，智能问答系统会调用目标坐席将应对内容播报至终端，以使应对内容下发至终端。比如，假设在播报默认音频后，采集到的用户基于终端输入的音频为“什么意思啊？”，智能问答系统会将这一音频内容转文字后输入到智能对话大模型中，获取智能对话大模型输出的应对内容“是这样的，我这边是您的一对一客服顾问。就您之前在我们保平台有一份保障，已经生效了。如果出险是可以理赔，获得不少钱的，怕您不知道流程。所以这边呢呃单独带您操作演示一下，您看好吧？”，并调用目标坐席，将该应对内容播报给用户所持终端。

本申请实施例提供的方法，基于意图分类模型和状态分类模型对话术做标签增强，使得训练得到的智能对话大模型能够深入理解用户意图，减少自顾自带流程的问题，提升机器人准确回答用户异议的概率，智能对话大模型的准确性和适应性较好，有助于人机更流畅的交互。

进一步地，作为图1所述方法的具体实现，本申请实施例提供了一种基于大模型的智能问答装置，如图3所示，所述装置包括：整理模块301，识别模块302，训练模块303和问答模块304。

该整理模块301，用于获取原始训练数据，对所述原始训练数据进行整理，得到多轮对话数据；

该识别模块302，用于利用意图分类模型和状态分类模型对多轮对话数据进行识别，得到所述多轮对话数据对应的至少一个用户意图标签和至少一个引导状态标签；

该训练模块303，用于将所述至少一个用户意图标签和所述至少一个引导状态标签标注在所述多轮对话数据中，以及基于标注后的所述多轮对话数据进行大模型训练，得到智能对话大模型；

该问答模块304，用于当检测到与用户所持终端成功建立对话时，将所述终端输入的对话内容输入至所述智能对话大模型，获取所述智能对话大模型针对所述对话内容输出的应对内容，将所述应对内容下发至所述终端。

在具体的应用场景中，该整理模块301，用于获取历史对话音频，对所述历史对话音频进行语音识别处理，得到所述历史对话音频的对话文字信息，以及将所述对话文字信息作为所述原始训练数据；对所述对话文字信息进行拆分，将所述对话文字信息拆分为多轮对话文字；确定所述多轮对话文字中每轮对话文字对应的角色信息，采用对应的角色信息对所述每轮对话文字进行标注，得到标注后的所述多轮对话文字，以及将标注后的所述多轮对话文字作为所述多轮对话数据。

在具体的应用场景中，该整理模块301，用于识别所述历史对话音频中每条语音所对应的声道，以及按照所述声道，将所述历史对话音频中的语音划分为用户侧语音和坐席侧语音；分别对所述用户侧语音和所述坐席侧语音进行语音识别，得到文字形式的用户侧语音内容和坐席侧语音内容；根据所述用户侧语音和所述坐席侧语音之间的相对顺序，对文字形式的所述用户侧语音内容和所述坐席侧语音内容进行整理，得到一对话文字信息，以及将所述对话文字信息作为所述原始训练数据。

在具体的应用场景中，该识别模块302，用于获取所述意图分类模型和所述状态分类模型；在所述多轮对话数据中提取至少一个第一对话文字，将所述至少一个第一对话文字输入至所述意图分类模型中，基于所述意图分类模型对每个第一对话文字进行意图识别，得到所述至少一个用户意图标签，所述至少一个第一对话文字在所述多轮对话数据中对应的角色信息是用户；同时或分别在所述多轮对话数据中提取至少一个第二对话文字，将所述至少一个第二对话文字输入至所述状态分类模型中，基于所述状态分类模型对每个第二对话文字进行引导状态识别，得到所述至少一个引导状态标签，所述至少一个第二对话文字在所述多轮对话数据中对应的角色信息是坐席。

在具体的应用场景中，该训练模块303，用于对于所述至少一个用户意图标签中的每个用户意图标签，在所述多轮对话数据中确定识别到所述用户意图标签的第一对话文字，以及确定所述第一对话文字所在的第一对话轮次，在所述多轮对话数据中将所述用户意图标签标注在所述第一对话轮次上；对于所述至少一个引导状态标签中的每个引导状态标签，在所述多轮对话数据中确定识别到所述引导状态标签的第二对话文字，以及确定所述第二对话文字所在的第二对话轮次，在所述多轮对话数据中确定所述第二对话轮次的下一对话轮次，将所述引导状态标签标注在所述下一对话轮次上。

在具体的应用场景中，该问答模块304，用于确定与所述用户所持终端成功建立对话的目标坐席，基于所述目标坐席向所述终端播报默认音频；持续采集所述用户基于所述终端输入的音频，以及对采集到的音频进行语音识别处理，将识别到的文字内容作为所述对话内容；将所述对话内容输入至所述智能对话大模型，基于所述智能对话大模型对所述对话内容进行意图和引导状态识别，以及获取所述智能对话大模型针对识别到的意图和引导状态输出的所述应对内容；调用所述目标坐席将所述应对内容播报至所述终端，以使所述应对内容下发至所述终端。

在具体的应用场景中，该训练模块303，还用于获取多个第一样本语句，以及获取所述多个第一样本语句中每个第一样本语句对应的样本意图标签，采用对应的样本意图标签对所述每个第一样本语句进行标注，并采用标注后的多个第一样本语句进行模型预训练，得到所述意图分类模型；和/或，获取多个第二样本语句，以及获取所述多个第二样本语句中每个第二样本语句对应的引导状态类别标签，采用对应的引导状态类别标签对所述每个第二样本语句进行标注，并采用标注后的多个第二样本语句进行模型预训练，得到所述状态分类模型。

本申请实施例提供的装置，获取原始训练数据，对原始训练数据进行整理，得到多轮对话数据，利用意图分类模型和状态分类模型对多轮对话数据进行识别，得到多轮对话数据对应的至少一个用户意图标签和至少一个引导状态标签，将至少一个用户意图标签和至少一个引导状态标签标注在多轮对话数据中，以及基于标注后的多轮对话数据进行大模型训练，得到智能对话大模型，当检测到与用户所持终端成功建立对话时，将终端输入的对话内容输入至智能对话大模型，获取智能对话大模型针对对话内容输出的应对内容，将应对内容下发至终端，基于意图分类模型和状态分类模型对话术做标签增强，使得训练得到的智能对话大模型能够深入理解用户意图，减少自顾自带流程的问题，提升机器人准确回答用户异议的概率，智能对话大模型的准确性和适应性较好，有助于人机更流畅的交互。

需要说明的是，本申请实施例提供的一种基于大模型的智能问答装置所涉及各功能单元的其他相应描述，可以参考图1和图2A至图2B中的对应描述，在此不再赘述。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

在示例性实施例中，参见图4，还提供了一种计算机设备，该计算机设备包括总线、处理器、存储器和通信接口，还可以包括输入输出接口和显示设备，其中，各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序，处理器，用于执行存储器上所存放的程序，执行上述实施例中的基于大模型的智能问答方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的基于大模型的智能问答方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施场景所述的方法。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种基于大模型的智能问答方法，其特征在于，包括：

利用意图分类模型和状态分类模型对多轮对话数据进行识别，得到所述多轮对话数据对应的至少一个用户意图标签和至少一个引导状态标签，所述用户意图标签用于指示所述多轮对话数据中角色信息是用户的对话文字的需求和意图，所述引导状态标签用于指示所述多轮对话数据中角色信息是坐席的对话文字引导到的环节，其中，训练所述状态分类模型时，采用人工标注的方式按照定义的引导状态类别对角色信息是坐席的多个第二样本语句进行标注，并采用标注后的所述多个第二样本语句进行预训练模型微调，得到所述状态分类模型，其中，对每个第二样本语句进行标注时可标注多个引导状态类别标签，所述预训练模型的微调任务是多标签分类任务；

将所述至少一个用户意图标签和所述至少一个引导状态标签标注在所述多轮对话数据中，以及基于标注后的所述多轮对话数据进行大模型训练，得到智能对话大模型，其中，在标注所述至少一个用户意图标签和所述至少一个引导状态标签时，所述用户意图标签添加到其所对应的轮次的用户文本前面，所述引导状态标签添加到其所对应的轮次的下一轮次的用户文本前面；

2.根据权利要求1所述的方法，其特征在于，所述获取原始训练数据，对所述原始训练数据进行整理，得到多轮对话数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述历史对话音频进行语音识别处理，得到所述历史对话音频的对话文字信息，以及将所述对话文字信息作为所述原始训练数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述利用意图分类模型和状态分类模型对多轮对话数据进行识别，得到所述多轮对话数据对应的至少一个用户意图标签和至少一个引导状态标签，包括：

获取所述意图分类模型和所述状态分类模型；

5.根据权利要求1所述的方法，其特征在于，所述将所述至少一个用户意图标签和所述至少一个引导状态标签标注在所述多轮对话数据中，包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述终端输入的对话内容输入至所述智能对话大模型，获取所述智能对话大模型针对所述对话内容输出的应对内容，将所述应对内容下发至所述终端，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种基于大模型的智能问答装置，其特征在于，包括：

识别模块，用于利用意图分类模型和状态分类模型对多轮对话数据进行识别，得到所述多轮对话数据对应的至少一个用户意图标签和至少一个引导状态标签，所述用户意图标签用于指示所述多轮对话数据中角色信息是用户的对话文字的需求和意图，所述引导状态标签用于指示所述多轮对话数据中角色信息是坐席的对话文字引导到的环节，其中，训练所述状态分类模型时，采用人工标注的方式按照定义的引导状态类别对角色信息是坐席的多个第二样本语句进行标注，并采用标注后的所述多个第二样本语句进行预训练模型微调，得到所述状态分类模型，其中，对每个第二样本语句进行标注时可标注多个引导状态类别标签，所述预训练模型的微调任务是多标签分类任务；

训练模块，用于将所述至少一个用户意图标签和所述至少一个引导状态标签标注在所述多轮对话数据中，以及基于标注后的所述多轮对话数据进行大模型训练，得到智能对话大模型，其中，在标注所述至少一个用户意图标签和所述至少一个引导状态标签时，所述用户意图标签添加到其所对应的轮次的用户文本前面，所述引导状态标签添加到其所对应的轮次的下一轮次的用户文本前面；

9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。