CN117059082B

CN117059082B - 基于大模型的外呼通话方法、装置、介质和计算机设备

Info

Publication number: CN117059082B
Application number: CN202311321575.9A
Authority: CN
Inventors: 张航飞; 黄明星; 王福钋; 沈鹏; 周晓波
Original assignee: Beijing Shuidi Technology Group Co ltd
Current assignee: Beijing Shuidi Technology Group Co ltd
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2023-12-29
Anticipated expiration: 2043-10-13
Also published as: CN117059082A

Abstract

本申请公开了一种基于大模型的外呼通话方法、装置、介质和计算机设备。方法包括：响应于接收到用户基于第一外呼语音反馈的响应语音，确定响应语音的文本向量；将响应语音的文本向量输入意图分类模型，得到意图信息；将第一外呼语音的文本向量、响应语音的文本向量和意图信息，输入大规模语言模型，得到与响应语音符合目标上下文关系的应答文本；根据应答文本输出第二外呼语音。本申请的方法，能够为外呼机器人根据用户请求作出精确应答，使得人机对话更加连贯流畅，而且大大降低对人工操作和干预的需求，有利于降低成本和人力资源消耗。

Description

基于大模型的外呼通话方法、装置、介质和计算机设备

技术领域

本申请涉及人工智能技术领域，尤其是涉及到一种基于大模型的外呼通话方法、装置、介质和计算机设备。

背景技术

随着人工智能技术飞度发展，人机交互对话机器人更多的走进人们日常生活中，在电商、智能设备等方面有着广泛的应用。

相关技术中，外呼对话机器人话术设置均为通过人工标注或者关键词映射，这种形式很难满足复杂的人机交互场景，不仅增加了企业的运营成本，而且回复内容无法覆盖用户多样性的意图，特别是针对某一特定任务，需要设计大量的规则模板并且工程量巨大，进而影响人机对话整体流程和用户感受。

发明内容

有鉴于此，本申请提供了一种基于大模型的外呼通话方法、装置、介质和计算机设备，能够提高外呼机器人应答准确率，有利于推进人机对话整体流程。

根据本申请的一个方面实施例，提供了一种基于大模型的外呼通话方法，包括：

响应于接收到用户基于第一外呼语音反馈的响应语音，确定响应语音的文本向量；

将响应语音的文本向量输入意图分类模型，得到意图信息；

将第一外呼语音的文本向量、响应语音的文本向量和意图信息，输入大规模语言模型，得到与响应语音符合目标上下文关系的应答文本，其中，大规模语言模型包括外呼通话流程中不同意图信息对应的多个流程节点以及与多个流程节点关联的上下文关系，目标上下文关系与外呼通话流程中目标流程节点和意图信息相关联，目标流程节点为外呼通话流程中第一外呼语音所处流程节点的下一个流程节点；

根据应答文本输出第二外呼语音。

可选地，基于大模型的外呼通话方法还包括：

在目标流程节点为外呼通话流程中结束节点的情况下，执行通话结束操作。

可选地，基于大模型的外呼通话方法还包括：

在意图信息满足预设条件，且目标流程节点不为外呼通话流程中结束节点的情况下，确定连续检测到意图信息满足预设条件的次数，其中，预设条件包括用户意图为预设意图或未获取到用户意图；

在次数大于或等于预设次数的情况下，取消根据应答文本输出第二外呼语音；

根据外呼通话流程中结束节点的外呼结束文本输出第二外呼语音，并执行通话结束操作。

可选地，根据应答文本输出第二外呼语音之前，基于大模型的外呼通话方法还包括：

对响应语音进行识别处理，确定用户情绪；

若用户情绪为预设情绪，获取用户情绪对应的情绪特征文本；

根据情绪特征文本更新应答文本。

可选地，确定响应语音的文本向量，包括：

对响应语音进行文本识别处理，确定响应语音的响应文本；

提取响应文本的文本特征；

将响应文本的文本特征输入文本向量模型，得到文本向量。

可选地，基于大模型的外呼通话方法还包括：

获取人工客服与用户通话的样本文本对应的样本文本向量；

根据意图标签和文本向量之间的预设映射关系，确定样本文本向量对应的第一意图标签；

根据第一意图标签和样本文本向量训练预设神经网络模型，得到意图分类模型。

可选地，基于大模型的外呼通话方法还包括：

在意图信息包括未获取到用户意图的情况下，将响应语音发送至管理端；

接收管理端反馈的响应语音对应的第二意图标签；

根据第二意图标签和响应语音的文本向量，更新意图分类模型。

可选地，基于大模型的外呼通话方法还包括：

获取预设业务的配置信息，其中，配置信息包括外呼通话流程和外呼通话流程中不同意图信息对应的多个流程节点的上下文关系；

根据配置信息构建候选语言模型；

获取人工客服与用户通话的样本文本对应的样本文本向量；

将样本文本向量输入候选语言模型，确定测试应答文本；

根据样本文本对测试应答文本进行评估处理，确定测试应答文本的评分；

根据评分对候选语言模型进行增强学习处理，得到大规模语言模型。

根据本申请的另一方面实施例，提供了一种基于大模型的外呼通话装置，包括：

语音处理模块，用于响应于接收到用户基于第一外呼语音反馈的响应语音，确定响应语音的文本向量；

意图分析模块，用于将响应语音的文本向量输入意图分类模型，得到意图信息；

应答模块，用于将第一外呼语音的文本向量、响应语音的文本向量和意图信息，输入大规模语言模型，得到与响应语音符合目标上下文关系的应答文本，其中，大规模语言模型包括外呼通话流程中不同意图信息对应的多个流程节点以及与多个流程节点关联的上下文关系，目标上下文关系与外呼通话流程中目标流程节点和意图信息相关联，目标流程节点为外呼通话流程中第一外呼语音所处流程节点的下一个流程节点；

输出模块，用于根据应答文本输出第二外呼语音。

可选地，应答模块，还用于在目标流程节点为外呼通话流程中结束节点的情况下，执行通话结束操作。

可选地，基于大模型的外呼通话装置还包括：

统计模块，用于在意图信息满足预设条件，且目标流程节点不为外呼通话流程中结束节点的情况下，确定连续检测到意图信息满足预设条件的次数，其中，预设条件包括用户意图为预设意图或未获取到用户意图；

应答模块，还用于在次数大于或等于预设次数的情况下，取消根据应答文本输出第二外呼语音；

输出模块，还用于根据外呼通话流程中结束节点的外呼结束文本输出第二外呼语音；

应答模块，还用于执行通话结束操作。

可选地，基于大模型的外呼通话装置还包括：

情绪识别模块，用于对响应语音进行识别处理，确定用户情绪；

应答模块，还用于若用户情绪为预设情绪，获取用户情绪对应的情绪特征文本；以及，根据情绪特征文本更新应答文本。

可选地，语音处理模块，具体用于对响应语音进行文本识别处理，确定响应语音的响应文本；提取响应文本的文本特征；将响应文本的文本特征输入文本向量模型，得到文本向量。

可选地，语音处理模块，还用于获取人工客服与用户通话的样本文本对应的样本文本向量；

意图分析模块，还用于根据意图标签和文本向量之间的预设映射关系，确定样本文本向量对应的第一意图标签；

可选地，基于大模型的外呼通话装置还包括：

第一训练模块，用于根据第一意图标签和样本文本向量训练预设神经网络模型，得到意图分类模型。

可选地，基于大模型的外呼通话装置还包括：

通信模块，用于在意图信息包括未获取到用户意图的情况下，将响应语音发送至管理端；以及，接收管理端反馈的响应语音对应的第二意图标签；

第一训练模块，还用于根据第二意图标签和响应语音的文本向量，更新意图分类模型。

可选地，基于大模型的外呼通话装置还包括：

获取模块，用于获取预设业务的配置信息，其中，配置信息包括外呼通话流程和外呼通话流程中不同意图信息对应的多个流程节点的上下文关系；

第二训练模块，用于根据配置信息构建候选语言模型；以及，获取人工客服与用户通话的样本文本对应的样本文本向量；将样本文本向量输入候选语言模型，确定测试应答文本；以及，根据样本文本对测试应答文本进行评估处理，确定测试应答文本的评分；以及，根据评分对候选语言模型进行增强学习处理，得到大规模语言模型。

根据本申请再一个方面实施例，提供了可读存储介质，其上存储有程序或指令，程序或指令被处理器执行时实现上述基于大模型的外呼通话方法的步骤。

根据本申请又一个方面实施例，提供了一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，处理器执行程序时实现上述基于大模型的外呼通话方法的步骤。

借由上述技术方案，在外呼通话的过程中，外呼机器人会按照外呼通话流程的每个流程节点对用户输出一段语音，用户会根据外呼机器人输出的语音进行语音反馈。当外呼机器人接收到用户基于外呼机器人已经输出第一外呼语音反馈的响应语音后，对该响应语音进行处理，以确定系统处理所需的响应语音的文本向量。将响应语音的文本向量输入意图分类模型，并确定意图信息。然后将第一外呼语音的文本向量、响应语音的文本向量和意图信息，输入大规模语言模型。外呼机器人将人机对话中的每个对话视为一个节点，通过大规模语言模型动态捕捉与意图信息相关的目标流程节点，并获取与目标流程节点相关联的目标上下文关系。如此，大规模语言模型即可利用目标上下文关系查询出与第一外呼语音的文本向量、响应语音的文本向量相互呼应的应答文本向量，并将应答文本向量转换成与用户对话所需的应答文本。最后，外呼机器人根据应答文本输出第二外呼语音，以按照流程回复用户。通过本申请的技术方案，一方面，综合与用户意图相关的意图信息和人机交互的上下文关键信息选取应答文本，为外呼机器人根据用户请求作出精确应答，使得人机对话更加连贯流畅，提高了用户与外呼机器人之间对话的灵活性，同时，生成的应答文本可以更加个性化和针对性，即使在复杂的对话场景也能进行准确的应答，提高用户的交互体验，有助于顺利推进人机对话整体流程。另一方面，通过无监督学习得到的大规模语言模型发现存在跳转关系和上下文关系的句子，能够理解更复杂的语意和语境，可迁移性高，而且语言模型无需人工标注，不仅使生成的应答文本的质量更高，而且大大降低对人工操作和干预的需求，降低成本和人力资源消耗。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例提供的基于大模型的外呼通话方法的流程示意图；

图2示出了本申请实施例提供的外呼流程节点示意图；

图3示出了本申请实施例提供的基于大模型的外呼通话装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“相接”到另一元件时，它可以直接连接或相接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“相接”可以包括无线连接或无线稠接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

现在，将参照附图更详细地描述根据本申请的示例性实施例。然而，这些示例性实施例可以多种不同的形式来实施，并且不应当被解释为只限于这里所阐述的实施例。应当理解的是，提供这些实施例是为了使得本申请的公开彻底且完整，并且将这些示例性实施例的构思充分传达给本领域普通技术人员。

在本实施例中提供了一种基于大模型的外呼通话方法，如图1所示，该方法包括：

步骤101，响应于接收到用户基于第一外呼语音反馈的响应语音，确定响应语音的文本向量；

其中，第一外呼语音是指外呼机器人在本次外呼通话中已输出的语音。

本申请实施例提供的基于大模型的外呼通话方法可应用于外呼机器人的控制端中。在一些实施例中，控制端可以是智能手机、平板电脑、笔记本电脑、台式计算机等终端，也可以配置成独立的物理服务器或多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器。

在该实施例中，当外呼机器人接收到用户基于外呼机器人已经输出第一外呼语音反馈的响应语音后，对该响应语音进行处理，以将语音的内容表示为一个向量，得到系统处理所需的响应语音的文本向量。从而方便地利用模型对语音和其文本进行分析和处理，为响应语音的应用提供了更多的可能性。

可以理解的是，由于原始的响应语音是没有经过任何处理的语音，包括噪声段（如，街道环境杂音、物体的碰撞发出声音）和由于用户呼吸、思考没有发音的静音段。在获得响应语音后，需要对原始响应语音进行处理，去除响应语音中的噪声段和静音段，为后续步骤提供有效且准确的数据来源。例如，对响应语音进行预加重、分帧和加窗处理，获取标准语音，再确定标准语音的起始点和结束点进行检测，保留仅包含声纹连续变化明显的响应语音，减少后续将响应语音转化为文本时需要处理的数据量，提高响应语音的文本向量准确性。

在实际应用场景中，步骤101，也即确定响应语音的文本向量，具体包括如下步骤：

步骤101-1，对响应语音进行文本识别处理，确定响应语音的响应文本；

具体地，文本识别处理可以使用预先配置的模板音频和对应的文本进行匹配，通过比较音频的特征与模板的相似度来识别文本。或者基于深度神经网络模型，通过大量的语音数据进行训练，实现自动的语音识别。其中，可采用，ASR（Automatic SpeechRecognition，自动语音识别技术）模型来完成语音转换。

可以理解的是，在获得响应语音的响应文本后，可进行响应文本的预处理，以去除特殊符号和停用词等不能识别或无用的字符，例如&、#、+。

步骤101-2，提取响应文本的文本特征；

步骤101-3，将响应文本的文本特征输入文本向量模型，得到响应语音的文本向量。

具体地，文本向量模型可以是词袋模型（Bag-of-Words Model）、TF-IDF模型（TermFrequency-Inverse Document Frequency Model）或Doc2Vec模型等，本申请实施例不做具体限定。

在该实施例中，通过文本识别处理将语音转化为文本，方便后续文本处理和分析。并进一步提取响应语音的响应文本的文本特征。通过文本向量模型将响应文本转化为向量表示。从而可以更好地表示响应语音的文本内容，加快响应语音的分析处理的速度，语音处理效率更高，有助于提高意图分类模型和大规模语言模型的准确性和泛化能力。

值得一提的是，外呼机器人系统可以预先建立方言数据库，根据方言数据库中方言语音对应的普通话语音和文本，建立并训练方言识别模型。当响应语音为方言时，利用训练后的方言识别模型对响应语音进行识别，并根据用户反馈不断对方言数据库和方言识别模型进行优化。从而通过方言识别模型对方言语音进行识别，提高语音识别能力。

步骤102，将响应语音的文本向量输入意图分类模型，得到意图信息；

其中，意图信息包括：识别到的用户意图和未识别到用户意图的消息。

在一实施例中，步骤102之前，基于大模型的外呼通话方法还包括：获取人工客服与用户通话的样本文本对应的样本文本向量；根据意图标签和文本向量之间的预设映射关系，确定样本文本向量对应的第一意图标签；根据第一意图标签和样本文本向量训练预设神经网络模型，得到意图分类模型。

可以理解的是，可基于与步骤101-1~步骤101-3相同的原理，对样本文本进行处理，得到对应的样本文本向量。

在该实施例中，利用人人通话产生的历史通话获取用户可能出现的样本文本。然后通过大规模预训练模型bert将样本文本进行token级别的向量提取，生成样本文本向量。将该样本文本向量映射到意图词典中以确定人人通话中用户的意图，并根据用户的意图生成第一意图标签。将第一意图标签及其对应的样本文本向量作为训练样本训练预设神经网络模型，得到意图分类模型。从而利用意图标签和文本向量之间的预设映射关系，可以快速确定样本文本向量对应的第一意图标签，减少人工标注的工作量。而且，根据第一意图标签和样本文本向量训练预设神经网络模型，可以得到高效准确的意图分类模型，便于实现后续自动化的意图识别和分类任务。

具体地，预设神经网络模型可采用单体神经网络模型，例如，深度神经网络（DeepNeural Networks，DNN）模型、卷积网络（Convolutional Neural Networks，CNN）模型、循环神经网络（Recurrent Neural Networks，RNN）模型、残差网络（Residual Network，ResNet）模型、BERT（Bidirectional Encoder Representation from Transformers，深度双向自注意力网络）模型，也可以替换为效果相当的RoBERTa（Robustly Optimized BERTPretraining Approach，鲁棒深度双向自注意力网络）或MacBERT（MLM as correctionBERT，掩码矫正的深度双向自注意力网络），或者由多网络并行的双重网络结构模型（Conformer）等，本申请实施例对此不做具体限定。

步骤103，将第一外呼语音的文本向量、响应语音的文本向量和意图信息，输入大规模语言模型，得到与响应语音符合目标上下文关系的应答文本；

其中，大规模语言模型包括外呼通话流程中不同意图信息对应的多个流程节点以及与多个流程节点关联的上下文关系，上下文关系包括至少一组对话文本（输出文本和对应的反馈文本）。目标上下文关系与外呼通话流程中目标流程节点和意图信息相关联，目标流程节点为外呼通话流程中第一外呼语音所处流程节点的下一个流程节点。

需要说明的是，外呼通话流程中每个流程节点均对应至少一个意图信息的分支节点。例如，如图2所示，位于外呼通话流程的节点1之后的下一个节点包括下一步意图的节点2、跳转页面意图的节点3和无法理解意图（为识别到用户意图）的节点4。位于外呼通话流程的节点2之后的下一个节点又包括下一步意图的节点5、拒绝意图的节点6和无法理解意图的节点4。位于外呼通话流程的节点3之后的下一个节点又包括询问页面意图的节点7、下一步意图的节点8和无法理解意图的节点4。位于外呼通话流程的节点4之后的下一个节点又包括结束节点25。以此类推，针对每个节点形成不同意图的分支节点，直至流程结束，从而构成完整的外呼通话流程。如此，当接收到用户回复节点1的响应语音后，通过意图信息可以从节点2~节点4中确定目标流程节点，并将与目标流程节点关联的上下文关系作为目标上下文关系。

在该实施例中，将第一外呼语音的文本向量、响应语音的文本向量和意图信息，输入大规模语言模型。外呼机器人将人机对话中的每个对话视为一个节点，通过大规模语言模型动态捕捉与意图信息相关的目标流程节点，并获取与目标流程节点相关联的目标上下文关系。如此，大规模语言模型即可利用目标上下文关系查询出与第一外呼语音的文本向量、响应语音的文本向量相互呼应的应答文本向量，并将应答文本向量转换成与用户对话所需的应答文本。从而综合意图信息和人机交互的上下文关键信息选取应答文本，为外呼机器人根据用户请求作出精确应答，使得人机对话更加连贯流畅，提高了用户与外呼机器人之间对话的灵活性，同时，生成的应答文本可以更加个性化和针对性，即使在复杂的对话场景也能进行准确的应答，提高用户的交互体验，有助于顺利推进人机对话整体流程。而且通过无监督学习得到的大规模语言模型发现存在跳转关系和上下文关系的句子，由于语言模型无需人工标注，不仅保证了生成的应答文本的质量，而且降低对人工操作和干预的需求，降低成本和人力资源消耗。

在一实施例中，步骤103之前，基于大模型的外呼通话方法还包括：

步骤201，获取预设业务的配置信息；

其中，配置信息包括外呼通话流程和外呼通话流程中不同意图信息对应的多个流程节点的上下文关系，需要说明的是，为了避免流程混乱意图信息与流程节点一一对应，每个流程节点的上下文关系可以包括一组后多组对话文本。配置信息可通过人工客服与用户之间的历史通话生成。

具体地，预设业务可按照外呼需求合理选择，例如，推销业务、提醒业务、数据调查业务等。

步骤202，根据配置信息构建候选语言模型；

具体地，候选语言模型可以以具有庞大的参数规模和复杂程度的机器学习模型为基础建立。

步骤203，获取人工客服与用户通话的样本文本对应的样本文本向量；

步骤204，将样本文本向量输入候选语言模型，确定测试应答文本；

步骤205，根据样本文本对测试应答文本进行评估处理，确定测试应答文本的评分；

步骤206，根据评分对候选语言模型进行增强学习处理，得到大规模语言模型。

其中，大规模语言模型（Large Language Model）具有更强的上下文理解能力，能够理解更复杂的语意和语境，可迁移性高，从而克服传统语言模型捕捉词语之间的距离依赖关系和生成连贯的有意义的文本方面存在局限性。

在该实施例中，根据外呼机器人所需的业务获取包含外呼通话流程和外呼通话流程中不同意图信息对应的多个流程节点的上下文关系的配置信息。将配置信息作为训练样本建立候选语言模型，以加强每个流程节点的全局表示。将人工客服与用户通话的样本文本作为测试集，对候选语言模型的输出结果（测试应答文本）进行评分。将评分输入强化学习网络中对候选语言模型继续进行训练，得到最终的大规模语言模型。一方面，能够有针对性的生成不同业务场景下的语言模型，便于满足不同外呼通话的场景需求，有利于语音模型的应用拓展。另一方面，利用人人对话的样本文本对候选语言模型进行有监督精调，使得大规模语言模型能够在不断变化的环境中不断改进自己的策略和决策，具备较高的灵活性和准确度。再一方面，模型建立过程无需人工进行标注，大大降低对人工操作和干预的需求，降低成本和人力资源消耗。

步骤104，根据应答文本输出第二外呼语音。

其中，第二外呼语音是指外呼机器人针对第一外呼语音的响应信息的应答。当用户对输出的第二外呼语音做出反馈后，可将该第二外呼语音作为第一外呼语音进行后续的响应回复。

具体地，可通过TTS技术将应答文本转换成第二外呼语音，并控制外呼机器人播放该第二外呼语音，以完成外呼机器人与用户之间的对话。其中，TTS技术指将计算机自己产生或者外部输入的文字信息转变为汉语口语并输出的技术。

通过本实施例提供的基于大模型的外呼通话方法，在外呼通话的过程中，外呼机器人会按照外呼通话流程的每个流程节点对用户输出一段语音，用户会根据外呼机器人输出的语音进行语音反馈。当外呼机器人接收到用户基于外呼机器人已经输出第一外呼语音反馈的响应语音后，对该响应语音进行处理，以确定系统处理所需的响应语音的文本向量。将响应语音的文本向量输入意图分类模型，并确定意图信息。然后将第一外呼语音的文本向量、响应语音的文本向量和意图信息，输入大规模语言模型。外呼机器人将人机对话中的每个对话视为一个节点，通过大规模语言模型动态捕捉与意图信息相关的目标流程节点，并获取与目标流程节点相关联的目标上下文关系。如此，大规模语言模型即可利用目标上下文关系查询出与第一外呼语音的文本向量、响应语音的文本向量相互呼应的应答文本向量，并将应答文本向量转换成与用户对话所需的应答文本。最后，外呼机器人根据应答文本输出第二外呼语音，以按照流程回复用户。通过本申请的技术方案，一方面，综合意图信息和人机交互的上下文关键信息选取应答文本，为外呼机器人根据用户请求作出精确应答，使得人机对话更加连贯流畅，提高了用户与外呼机器人之间对话的灵活性，同时，生成的应答文本可以更加个性化和针对性，即使在复杂的对话场景也能进行准确的应答，提高用户的交互体验，有助于顺利推进人机对话整体流程，进一步提升外呼机器人的工作效率。另一方面，通过无监督学习得到的大规模语言模型发现存在跳转关系和上下文关系的句子，能够理解更复杂的语意和语境，可迁移性高，而且大规模语言模型无需人工标注，不仅保证了生成的应答文本质量，而且降低了对人工操作和干预的需求，降低成本和人力资源消耗。

在一实施例中，在外呼机器人与用户进行人机对话过程中，外呼通信方法还包括：在满足通话结束条件的情况下，执行通话结束操作。

在实际应用场景中，在满足通话结束条件的情况下，执行通话结束操作的步骤可采用下述方式：

方式一，在目标流程节点为外呼通话流程中结束节点的情况下，执行通话结束操作。

在该实施例中，当检测到当前需要应答的流程节点流转至外呼通话流程中最后一个节点，也即结束节点时，判定本次外呼通话的需求已完成，可结束通话，此时执行通话结束操作，以将外呼机器人自动切出当前外呼通话流程。从而实现了自动化的外呼通话流程切换控制。

具体举例来说，以提醒业务为例，如图2所示，首先加载配置文件，利用外呼通话流程节点1的首播节点话术呼通用户电话。

第一轮对话[机器人播放语音：您好请问是X先生吗？客户回复：有什么事情吗？]，意图识别为下一步意图，则外呼机器人跳转到下一步意图的节点2。

第二轮对话[机器人播放语音：给您来电是因为您在我们平台有未领取的奖励，现在带您查看一下。客户回复：好的。]，意图识别为下一步意图，则外呼机器人跳转到下一步意图的节点5。

第三轮对话[机器人播放语音：接下来请您打开免提，进入平台，请问您进入平台了吗？客户回复：哪里呢没有找到。]，意图识别为查找页面意图，则外呼机器人跳转到查找页面意图的节点9。

第四轮对话[机器人播放语音：请问您现在手机页面显示什么内容或者有什么关键字吗。客户回复：通讯录，右上角有加号] ，意图识别为识别页面意图，则外呼机器人跳转到查找识别页面的节点14。

第五轮对话[机器人播放语音：那麻烦您点一下右上角的加号按键添加好友。客户回复：这是让我干嘛呢？]，意图识别为询问意图，则外呼机器人跳转到询问意图的节点7。

第六轮对话[机器人播放语音：是这样的，您之前在我们平台免费领取一份保险，带您查看一下后续如何获得理赔? 客户回复：好的]。依次进行多轮会话直至判断满足结束条件则挂机。

方式二，在意图信息满足预设条件，且目标流程节点不为外呼通话流程中结束节点的情况下，确定连续检测到意图信息满足预设条件的次数；在次数大于或等于预设次数的情况下，取消根据应答文本输出第二外呼语音；根据外呼通话流程中结束节点的外呼结束文本输出第二外呼语音，并执行通话结束操作。

其中，预设条件包括：意图信息中用户意图为预设意图，或者意图信息包括未获取到用户意图。预设意图包括无需回复、结束对话等用户期望结束通话的意图。

可以理解的是，对于预设条件为用户意图为预设意图的预设次数和对于预设条件为未获取到用户意图的预设次数可以相同或不同，例如，若检测到意图信息为结束对话，则立即执行通话结束操作，也即预设次数配置为1次。若连续未获取到用户意图达到5次，则执行通话结束操作，也即预设次数配置为5次。

其中，在外呼机器人处于人机交互对话过程中，若检测到外呼通话过程意图信息满足预设条件，说明用户可能需要结束通话或外呼机器人无法理解该用户的实际意图。此时，统计连续检测到用户意图为预设意图的次数或未获取到用户意图的次数。当该次数达到预设次数后，外呼机器人不再按照外呼通话流程进行应答对话，而是直接输出外呼结束文本对应的语音，以结束本次通话。从而不仅避免因人机交互无法满足用户需对用户造成的不良感受，而且方式外呼机器人进行频繁的无效对话，达到了优化的外呼通话流程切换控制的目的，提升外呼通话过程中的用户体验。

进一步地，基于大模型的外呼通话方法还包括：在意图信息包括未获取到用户意图的情况下，将响应语音发送至管理端；接收管理端反馈的响应语音对应的第二意图标签；根据第二意图标签和响应语音的文本向量，更新意图分类模型。

在该实施例中，当外呼机器人无法理解用户实际意图时，可以将用户输出的响应语音发送至管理端。通过管理端对应的运营人员人工标注响应语音对应的第二意图标签。将人工标注的第二意图标签和响应语音的文本向量作为增强样本对意图分类模型进行增强学习，以实现意图分类模型的迭代更新。从而通过不断优化意图分类模型，增强意图分类模型的意图识别能力，使得外呼机器人在下一次出现同样响应语音时能够及时识别出用户的真实意图，进而增强人机交互外呼通话的准确度。

在一实施例中，步骤104之前，基于大模型的外呼通话方法还包括：

步骤301，对响应语音进行识别处理，确定用户情绪；

步骤302，若用户情绪为预设情绪，获取用户情绪对应的情绪特征文本；

其中，预设情绪包括不满、愤怒、着急等不良情绪。情绪特征文本用于安抚或缓解不良情绪。

步骤303，根据情绪特征文本更新应答文本。

在该实施例中，当检测到用户处于不良情绪时，在应答文本的基础上添加或替换情绪特征文本，得到更新后的应答文本，使得根据更新后的应答文本生成的第二外呼语音可以包含不同情感词，使得应答信息的情感更为多样，并起到安抚或缓解用户不良情绪的作用，从而提升用户的通话体验。

例如，通过目标上下文关系得到的应答文本为“现在需要您打开页面1”，在识别到用户情绪为生气时，确定生气情绪的情绪特征文本为“您先不要生气”、“很抱歉”。利用情绪特征文本更新应答文本后得到“您先不要生气，很抱歉需要您打开页面1”。

需要说明的是，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

进一步地，如图3所示，作为上述基于大模型的外呼通话方法的具体实现，本申请实施例提供了一种基于大模型的外呼通话装置400，该基于大模型的外呼通话装置400包括：语音处理模块401、意图分析模块402、应答模块403以及输出模块404。

其中，语音处理模块401，用于响应于接收到用户基于第一外呼语音反馈的响应语音，确定响应语音的文本向量；

意图分析模块402，用于将响应语音的文本向量输入意图分类模型，得到意图信息；

应答模块403，用于将第一外呼语音的文本向量、响应语音的文本向量和意图信息，输入大规模语言模型，得到与响应语音符合目标上下文关系的应答文本，其中，大规模语言模型包括外呼通话流程中不同意图信息对应的多个流程节点以及与多个流程节点关联的上下文关系，目标上下文关系与外呼通话流程中目标流程节点和意图信息相关联，目标流程节点为外呼通话流程中第一外呼语音所处流程节点的下一个流程节点；

输出模块404，用于根据应答文本输出第二外呼语音。

在该实施例中，在外呼通话的过程中，外呼机器人会按照外呼通话流程的每个流程节点对用户输出一段语音，用户会根据外呼机器人输出的语音进行语音反馈。当外呼机器人接收到用户基于外呼机器人已经输出第一外呼语音反馈的响应语音后，对该响应语音进行处理，以确定系统处理所需的响应语音的文本向量。将响应语音的文本向量输入意图分类模型，并确定意图信息。然后将第一外呼语音的文本向量、响应语音的文本向量和意图信息，输入大规模语言模型。外呼机器人将人机对话中的每个对话视为一个节点，通过大规模语言模型动态捕捉与意图信息相关的目标流程节点，并获取与目标流程节点相关联的目标上下文关系。如此，大规模语言模型即可利用目标上下文关系查询出与第一外呼语音的文本向量、响应语音的文本向量相互呼应的应答文本向量，并将应答文本向量转换成与用户对话所需的应答文本。最后，外呼机器人根据应答文本输出第二外呼语音，以按照流程回复用户。通过本申请的技术方案，一方面，综合意图信息和人机交互的上下文关键信息选取应答文本，为外呼机器人根据用户请求作出精确应答，使得人机对话更加连贯流畅，提高了用户与外呼机器人之间对话的灵活性，同时，生成的应答文本可以更加个性化和针对性，即使在复杂的对话场景也能进行准确的应答，提高用户的交互体验，有助于顺利推进人机对话整体流程。另一方面，通过无监督学习得到的大规模语言模型发现存在跳转关系和上下文关系的句子，能够理解更复杂的语意和语境，可迁移性高，而且大规模语言模型无需人工标注，不仅使生成的应答文本向量的质量更高，而且大大降低对人工操作和干预的需求，降低成本和人力资源消耗。

在一实施例中，应答模块403，还用于在目标流程节点为外呼通话流程中结束节点的情况下，执行通话结束操作。

在一实施例中，基于大模型的外呼通话装置400还包括：统计模块（图中未示出），统计模块用于在意图信息满足预设条件，且目标流程节点不为外呼通话流程中结束节点的情况下，确定连续检测到意图信息满足预设条件的次数，其中，预设条件包括用户意图为预设意图或未获取到用户意图；应答模块403，还用于在次数大于或等于预设次数的情况下，取消根据应答文本输出第二外呼语音；输出模块404，还用于根据外呼通话流程中结束节点的外呼结束文本输出第二外呼语音；应答模块403，还用于执行通话结束操作。

在一实施例中，基于大模型的外呼通话装置400还包括：情绪识别模块（图中未示出），情绪识别模块用于对响应语音进行识别处理，确定用户情绪；应答模块403，还用于若用户情绪为预设情绪，获取用户情绪对应的情绪特征文本；以及，根据情绪特征文本更新应答文本。

在一实施例中，语音处理模块401，具体用于对响应语音进行文本识别处理，确定响应语音的响应文本；提取响应文本的文本特征；将响应文本的文本特征输入文本向量模型，得到文本向量。

在一实施例中，语音处理模块401，还用于获取人工客服与用户通话的样本文本对应的样本文本向量；意图分析模块402，还用于根据意图标签和文本向量之间的预设映射关系，确定样本文本向量对应的第一意图标签；基于大模型的外呼通话装置400还包括：第一训练模块（图中未示出），第一训练模块用于根据第一意图标签和样本文本向量训练预设神经网络模型，得到意图分类模型。

在一实施例中，基于大模型的外呼通话装置400还包括：通信模块（图中未示出），通信模块用于在意图信息包括未获取到用户意图的情况下，将响应语音发送至管理端；以及，接收管理端反馈的响应语音对应的第二意图标签；第一训练模块，还用于根据第二意图标签和响应语音的文本向量，更新意图分类模型。

在一实施例中，基于大模型的外呼通话装置400还包括：获取模块（图中未示出），获取模块用于获取预设业务的配置信息，其中，配置信息包括外呼通话流程和外呼通话流程中不同意图信息对应的多个流程节点的上下文关系；第二训练模块（图中未示出），第二训练模块用于根据配置信息构建候选语言模型；以及，获取人工客服与用户通话的样本文本对应的样本文本向量；将样本文本向量输入候选语言模型，确定测试应答文本；以及，根据样本文本对测试应答文本进行评估处理，确定测试应答文本的评分；以及，根据评分对候选语言模型进行增强学习处理，得到大规模语言模型。

关于基于大模型的外呼通话装置的具体限定可以参见上文中对于基于大模型的外呼通话方法的限定，在此不再赘述。上述基于大模型的外呼通话装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

基于上述如图1所示方法，相应的，本申请实施例还提供了一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1所示的基于大模型的外呼通话方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施场景所述的方法。

基于上述如图1所示的方法，以及图3所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该计算机设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1所示的基于大模型的外呼通话方法。

可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频（RadioFrequency，RF）电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏（Display）、输入单元比如键盘（Keyboard）等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口（如蓝牙接口、WI-FI接口）等。

本领域技术人员可以理解，本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现响应于接收到用户基于第一外呼语音反馈的响应语音，确定响应语音的文本向量；将响应语音的文本向量输入意图分类模型，得到意图信息；将第一外呼语音的文本向量、响应语音的文本向量和意图信息，输入大规模语言模型，得到与响应语音符合目标上下文关系的应答文本，其中，大规模语言模型包括外呼通话流程中不同意图信息对应的多个流程节点以及与多个流程节点关联的上下文关系，目标上下文关系与外呼通话流程中目标流程节点和意图信息相关联，目标流程节点为外呼通话流程中第一外呼语音所处流程节点的下一个流程节点；根据应答文本输出第二外呼语音。本申请实施例，一方面，综合意图信息和人机交互的上下文关键信息选取应答文本，为外呼机器人根据用户请求作出精确应答，使得人机对话更加连贯流畅，提高了用户与外呼机器人之间对话的灵活性，同时，生成的应答文本可以更加个性化和针对性，即使在复杂的对话场景也能进行准确的应答，提高用户的交互体验，有助于顺利推进人机对话整体流程。另一方面，通过无监督学习得到的大规模语言模型发现存在跳转关系和上下文关系的句子，由于语言模型无需人工标注，不仅保证了生成的应答文本的质量更高，而且大大降低对人工操作和干预的需求，降低成本和人力资源消耗。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种基于大模型的外呼通话方法，其特征在于，所述方法包括：

响应于接收到用户基于第一外呼语音反馈的响应语音，确定所述响应语音的文本向量；

将所述响应语音的文本向量输入意图分类模型，得到意图信息；

将所述第一外呼语音的文本向量、所述响应语音的文本向量和所述意图信息，输入大规模语言模型，得到与所述响应语音符合目标上下文关系的应答文本，其中，所述大规模语言模型包括外呼通话流程中不同意图信息对应的多个流程节点以及与多个所述流程节点关联的上下文关系，所述目标上下文关系与所述外呼通话流程中目标流程节点和意图信息相关联，所述目标流程节点为所述外呼通话流程中所述第一外呼语音所处流程节点的下一个流程节点；

根据所述应答文本输出第二外呼语音。

2.根据权利要求1所述的基于大模型的外呼通话方法，其特征在于，所述方法还包括：

在所述目标流程节点为所述外呼通话流程中结束节点的情况下，执行通话结束操作；

在所述意图信息满足预设条件，且所述目标流程节点不为所述外呼通话流程中结束节点的情况下，确定连续检测到所述意图信息满足所述预设条件的次数，其中，所述预设条件包括用户意图为预设意图或未获取到用户意图；

在所述次数大于或等于预设次数的情况下，取消根据所述应答文本输出第二外呼语音；

3.根据权利要求1所述的基于大模型的外呼通话方法，其特征在于，所述根据所述应答文本输出第二外呼语音之前，所述方法还包括：

对所述响应语音进行识别处理，确定用户情绪；

若所述用户情绪为预设情绪，获取所述用户情绪对应的情绪特征文本；

根据所述情绪特征文本更新所述应答文本。

4.根据权利要求1至3中任一项所述的基于大模型的外呼通话方法，其特征在于，所述确定所述响应语音的文本向量，包括：

对所述响应语音进行文本识别处理，确定所述响应语音的响应文本；

提取所述响应文本的文本特征；

将所述响应文本的文本特征输入文本向量模型，得到所述文本向量。

5.根据权利要求1至3中任一项所述的基于大模型的外呼通话方法，其特征在于，所述方法还包括：

获取人工客服与用户通话的样本文本对应的样本文本向量；

根据意图标签和文本向量之间的预设映射关系，确定所述样本文本向量对应的第一意图标签；

根据所述第一意图标签和所述样本文本向量训练预设神经网络模型，得到所述意图分类模型。

6.根据权利要求5所述的基于大模型的外呼通话方法，其特征在于，所述方法还包括：

在所述意图信息包括未获取到用户意图的情况下，将所述响应语音发送至管理端；

接收所述管理端反馈的所述响应语音对应的第二意图标签；

根据所述第二意图标签和所述响应语音的文本向量，更新所述意图分类模型。

7.根据权利要求1至3中任一项所述的基于大模型的外呼通话方法，其特征在于，所述方法还包括：

获取预设业务的配置信息，其中，所述配置信息包括所述外呼通话流程和所述外呼通话流程中不同意图信息对应的多个流程节点的上下文关系；

根据所述配置信息构建候选语言模型；

获取人工客服与用户通话的样本文本对应的样本文本向量；

将人工客服与用户通话的样本文本向量输入所述候选语言模型，确定测试应答文本；

根据所述样本文本对所述测试应答文本进行评估处理，确定所述测试应答文本的评分；

根据所述评分对所述候选语言模型进行增强学习处理，得到大规模语言模型。

8.一种基于大模型的外呼通话装置，其特征在于，所述装置包括：

语音处理模块，用于响应于接收到用户基于第一外呼语音反馈的响应语音，确定所述响应语音的文本向量；

意图分析模块，用于将所述响应语音的文本向量输入意图分类模型，得到意图信息；

应答模块，用于将所述第一外呼语音的文本向量、所述响应语音的文本向量和所述意图信息，输入大规模语言模型，得到与所述响应语音符合目标上下文关系的应答文本，其中，所述大规模语言模型包括外呼通话流程中不同意图信息对应的多个流程节点以及与多个所述流程节点关联的上下文关系，所述目标上下文关系与所述外呼通话流程中目标流程节点和意图信息相关联，所述目标流程节点为所述外呼通话流程中所述第一外呼语音所处流程节点的下一个流程节点；

输出模块，用于根据所述应答文本输出第二外呼语音。

9.一种可读存储介质，其上存储有程序或指令，其特征在于，所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的基于大模型的外呼通话方法的步骤。

10.一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的基于大模型的外呼通话方法。