CN115665325B

CN115665325B - 一种智能外呼的方法、装置、电子设备及存储介质

Info

Publication number: CN115665325B
Application number: CN202211117304.7A
Authority: CN
Inventors: 潘建东; 王赵鹏; 刘国杨; 尹序鑫
Original assignee: China Securities Co Ltd
Current assignee: China Securities Co Ltd
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2023-06-02
Anticipated expiration: 2042-09-14
Also published as: CN115665325A

Abstract

本发明实施例提供了一种智能外呼的方法、装置、电子设备及存储介质，涉及人工智能技术领域。该方法包括：针对智能外呼系统在目标场景下向用户发起的对话过程，获取用户的目标语音；将目标语音转化为目标文本；对目标文本的文本内容进行语义识别分析，得到每一备选意图的匹配概率；在经过语义识别分析后得到的匹配概率均小于第一预设匹配阈值的情况下，将用户个人信息、目标语音的语音行为、目标文本、目标场景的场景信息和备选意图输入基于专用知识训练得到的实时意图识别模型，得到实时意图识别模型输出的匹配概率；向用户输出对应有第一匹配概率的备选意图的应答话术。通过本方案，可以提升意图识别准确率，从而降低通话的转人工率和挂机率。

Description

一种智能外呼的方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及人工智能技术领域，特别是涉及一种智能外呼的方法、装置、电子设备及存储介质。

背景技术

随着各行业的经济业务的发展，证券、银行、信托等行业内的企业通过线上、线下等多种渠道积累了大量的用户。针对不同用户的需求，企业的工作人员会与用户进行不同场景下的电话沟通，比如在通知场景下，工作人员可以电话通知用户身份证信息过期。然而工作人员的数量有限，为了确保及时服务到用户，企业会采用智能外呼系统，来替代工作人员，自动与需要沟通的用户进行电话沟通。

相关技术中，智能外呼系统通过SIP(Session Initiation Protocol，会话发起协议)对接语音网关，语音网关可以通过运营商的网络主动向用户发起电话呼叫。在电话沟通中，系统针对场景需求，与用户进行问答；在用户应答后，系统通过语音识别技术将用户的语音转为文本，再对文本的文本内容进行语义识别分析，从而基于语义识别结果，确定出用户意图；并根据用户意图，选择应答话术。其中，语义识别分析可以基于预定的语义识别模型，而语义识别结果可以包括每一备选意图的匹配概率，其中，每一备选意图的匹配概率用于表征该备选意图作为用户的语音所表达的问题的概率。

由于用户的覆盖地域广，用户的表达方式各异，在人工客服与用户通话的过程中还会产生新的、可以用于识别用户意图及应答用户的实时性语料，也就是，用户的语音所表征的问题及回答问题的应答话术；然而，用于意图识别的语义识别模型的训练是建立在较大的数据基础上预先训练完成的，这也意味着语义识别模型需要大周期、大规模地训练，在产生实时性语料时，无法将其特征加入语义识别模型中，以应对可能出现的包含实时性语料的用户的新语音，语义识别模型的效果容易衰退，使得智能外呼过程中会存在用户意图识别准确率不高的问题。在用户意图识别的准确率不高的情况下，系统无法与用户进行有效对话，会将电话转接给人工坐席的工作人员；有时，由于系统无法与用户进行有效对话，甚至还会导致用户直接挂断电话。因此，系统对用户的意图识别的准确率会随着实时性语料的增多逐渐下降，导致系统将通话转接给工作人员的转人工率和用户挂断电话的挂机率变高。可见，在智能外呼系统向用户发起电话呼叫后，如何提升意图识别准确率，从而降低通话的转人工率和挂机率，是一个亟待解决的问题。

发明内容

本发明实施例的目的在于提供一种智能外呼的方法、装置、电子设备及存储介质，以实现在智能外呼系统向用户发起电话呼叫后，提升意图识别准确率，从而降低通话的转人工率和挂机率。具体技术方案如下：

第一方面，为了达到上述目的，本发明实施例公开了一种智能外呼的方法，应用于智能外呼系统，所述方法包括：针对智能外呼系统在目标场景下向用户发起的外呼过程，获取所述目标用户的目标语音；其中，所述目标场景表征所述对话的目的；

将所述目标语音转化为目标文本；

对所述目标文本的文本内容进行语义识别分析，得到每一备选意图对应的匹配概率；其中，各个备选意图为从数据库中的针对所述目标场景的意图中选取得到的意图，针对所述目标场景的意图用于表征在所述目标场景下外呼过程所存在的问题；每一备选意图对应的匹配概率用于表征该备选意图作为所述用户的语音所表达的问题的概率；

在经过语义识别分析后得到的每一备选意图对应的匹配概率均小于第一预设匹配阈值的情况下，将所述用户的个人信息、所述目标语音的语音行为、所述目标文本、所述目标场景的场景信息和各个备选意图输入预先训练得到的实时意图识别模型，得到所述实时意图识别模型输出的每一备选意图对应的匹配概率；其中，所述语音行为用于表征用户语速、用户语调、用户音量和用户情绪变化中的至少一种；

在所述实时意图识别模型输出的每一备选意图对应的匹配概率均小于所述第二预设匹配阈值的情况下，将通话转接人工客服以与所述用户进行通话；获取所述人工客服针对所述目标语音所标注的专用知识，其中，所述专用知识包括用于表征所述目标语音所表达问题的专用意图以及所述专用意图的应答话术，所述专用知识设置有生命周期，所述生命周期用于标记任一专用知识在数据库中存在的时间；以所获取的专用知识中的专用意图和应答话术作为针对所述目标场景的意图和对应的应答话术，将所获取的专用知识添加至所述数据库；

在所述实时意图识别模型输出的每一备选意图对应的匹配概率中，存在匹配概率大于或等于第二预设匹配阈值的匹配概率的情况下，确定对应有第一匹配概率的备选意图；其中，所述第二预设匹配阈值为大于或等于所述第一预设匹配阈值的数值，所述第一匹配概率为所述实时意图识别模型输出的每一备选意图对应的匹配概率中的最大值；

向所述用户输出与对应有第一匹配概率的备选意图的应答话术；

其中，所述实时意图识别模型为利用样本场景的场景信息、所述样本场景下的样本语音转换得到的样本文本、所述样本场景下的样本语音所属的样本用户的语音行为、所述样本用户的个人信息、各个样本意图以及每一样本意图对应的匹配概率，所训练得到的模型，且在符合预定的更新条件时所述实时意图识别模型被进行更新训练；其中，各个样本意图为从所述数据库中的针对所述样本场景的意图中选取得到的意图；每一样本意图对应的匹配概率用于表征该样本意图作为所述样本语音所表达的问题的概率；

所述预定的更新条件包括检测到所述数据库中已存在的专用知识的数量大于预设数量阈值；所述实时意图识别模型被更新训练时所利用的样本场景包括有已存在的专用知识中的专用意图所属的场景，且所利用的各个样本意图包括有所述数据库中已存在的专用知识中的专用意图。

可选的，所述实时意图识别模型具体用于在接收到所述用户的个人信息、所述目标语音的语音行为、所述目标文本、所述目标场景的场景信息和各个备选意图后，分别生成所述用户的个人信息对应的第一特征向量、所述目标语音的语音行为对应的第二特征向量、所述目标文本对应的第三特征向量、所述目标场景的场景信息对应的第四特征向量和各个备选意图对应的第五特征向量；针对每一备选意图，对该备选意图对应的第五特征向量、所述第一特征向量、第二特征向量、第三特征向量和第四特征向量进行拼接以及降维处理，得到该备选意图对应的稠密向量，所述稠密向量中包括有针对所述第一特征向量降维后所得的第一类元素、针对所述第二特征向量降维后所得的第二类元素、针对所述第三特征向量降维后所得的第三类元素、针对所述第四特征向量降维后所得的第四类元素以及针对该备选意图对应的第五特征向量降维后所得的第五类元素；分别计算该备选意图对应的稠密向量中的所述第一类元素、第二类元素、第三类元素、第四类元素和第五类元素中的任意两个元素之间的二维交叉信息，以及计算该备选意图对应的稠密向量中的所述第一类元素、第二类元素、第三类元素、第四类元素和第五类元素之间的多维交叉信息；将计算得到的二维交叉信息以及多维交叉信息输入预定的激活函数，得到该备选意图对应的匹配概率。

可选的，所述方法还包括：在经过语义识别分析后得到的每一备选意图对应的匹配概率中，存在匹配概率大于或等于所述第一预设匹配阈值的情况下，确定对应有第二匹配概率的备选意图；其中，所述第二匹配概率为经过语义识别分析后得到的每一备选意图对应的匹配概率中的最大值；

向所述用户输出对应有第二匹配概率的备选意图的应答话术。

可选的，所述实时意图识别模型的训练过程包括：获取样本场景的场景信息、所述样本场景下的样本语音转换得到的样本文本、所述样本场景下的样本语音所属的样本用户的语音行为、所述样本用户的个人信息、各个样本意图以及每一样本意图对应的匹配概率；

将所述样本场景的场景信息、所述样本场景下的样本语音转换得到的样本文本、所述样本场景下的样本语音所属的样本用户的语音行为、所述样本用户的个人信息、各个样本意图以及每一样本意图对应的匹配概率输入至所述实时意图识别模型，得到预测出的表征各个样本意图的匹配概率分布；其中，各个样本意图的匹配概率分布中包括每一样本意图对应的匹配概率的预测值；

基于所述匹配概率分布与每一样本意图对应的匹配概率，计算损失值；

基于所述损失值，判断训练中的所述实时意图识别模型是否收敛，如果收敛，结束训练，得到训练完成的所述实时意图识别模型；如果否，调整所述实时意图识别模型的网络参数，继续训练所述实时意图识别模型。

可选的，在所述实时意图识别模型的训练过程中，还包括：判断训练中的所述实时意图识别模型是否在预设时间范围内收敛，如果是，判定训练成功，得到训练完成的所述实时意图识别模型；如果否，判定训练失败，并发出检查通知；其中，所述检查通知至少包括检查所述样本意图的通知。

第二方面，为了达到上述目的，本发明实施例公开了一种智能外呼的装置，所述装置包括：第一获取模块，用于针对智能外呼系统在目标场景下向用户发起的外呼过程，获取所述目标用户的目标语音；其中，所述目标场景表征所述对话的目的；

转化模块，用于将所述目标语音转化为目标文本；

语义识别模块，用于对所述目标文本的文本内容进行语义识别分析，得到每一备选意图对应的匹配概率；其中，各个备选意图为从数据库中的针对所述目标场景的意图中选取得到的意图，针对所述目标场景的意图用于表征在所述目标场景下外呼过程所存在的问题；每一备选意图对应的匹配概率用于表征该备选意图作为所述用户的语音所表达的问题的概率；

实时意图识别模块，用于在经过语义识别分析后得到的每一备选意图对应的匹配概率均小于第一预设匹配阈值的情况下，将所述用户的个人信息、所述目标语音的语音行为、所述目标文本、所述目标场景的场景信息和各个备选意图输入预先训练得到的实时意图识别模型，得到所述实时意图识别模型输出的每一备选意图对应的匹配概率；其中，所述语音行为用于表征用户语速、用户语调、用户音量和用户情绪变化中的至少一种；

第二获取模块，用于在所述实时意图识别模型输出的每一备选意图对应的匹配概率均小于所述第二预设匹配阈值的情况下，将通话转接人工客服以与所述用户进行通话；获取所述人工客服针对所述目标语音所标注的专用知识，其中，所述专用知识包括用于表征所述目标语音所表达问题的专用意图以及所述专用意图的应答话术，所述专用知识设置有生命周期，所述生命周期用于标记任一专用知识在数据库中存在的时间；以所获取的专用知识中的专用意图和应答话术作为针对所述目标场景的意图和对应的应答话术，将所获取的专用知识添加至所述数据库；

意图确定模块，用于在所述实时意图识别模型输出的每一备选意图对应的匹配概率中，存在匹配概率大于或等于第二预设匹配阈值的匹配概率的情况下，确定对应有第一匹配概率的备选意图；其中，所述第二预设匹配阈值为大于或等于所述第一预设匹配阈值的数值，所述第一匹配概率为所述实时意图识别模型输出的每一备选意图对应的匹配概率中的最大值；

第一输出模块，用于向所述用户输出与对应有第一匹配概率的备选意图的应答话术；

可选的，所述装置还包括：语义确定模块，用于在经过语义识别分析后得到的每一备选意图对应的匹配概率中，存在匹配概率大于或等于所述第一预设匹配阈值的情况下，确定对应有第二匹配概率的备选意图；其中，所述第二匹配概率为经过语义识别分析后得到的每一备选意图对应的匹配概率中的最大值；

第二输出模块，用于向所述用户输出对应有第二匹配概率的备选意图的应答话术。

本发明实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现任一所述智能外呼的方法步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现任一所述智能外呼的方法步骤。

本发明实施例有益效果：

基于上述方案可知，在智能外呼系统针对目标场景向用户发起外呼的过程中，可以获取用户的目标语音；在将目标语音转化为目标文本后，可以将目标文本的文本内容进行语义识别分析，得到每一备选意图的匹配概率；在经过语义识别分析后得到的所有的匹配概率均小于第一预设匹配阈值的情况下，可以将用户的个人信息、目标语音的语音行为、目标文本、目标场景的场景信息和各个备选意图输入预先训练的实时意图识别模型，得到每一备选意图对应的匹配概率，从而在每一备选意图对应的匹配概率均小于第二预设匹配阈值的情况下，将通话转接人工客服以与用户进行通话；获取到人工客服针对目标语音标注的专用知识，而这些专用知识可以用于在符合预定的更新条件时，训练实时意图识别模型；在存在匹配概率大于第二预设匹配阈值的情况下，可以确定对应有第一匹配概率的备选意图，最后可以向用户输出对应有第一匹配概率的备选意图的应答话术。可见，基于本方案，在智能外呼系统与用户进行电话通话的过程中，在目标文本的文本内容经过语义识别分析后，得到的每一备选意图对应匹配概率均小于第一预设匹配阈值的情况下，也就是经过语义识别分析后得到的意图识别结果的准确率不高的情况下，可以借助实时意图识别模型来进行意图识别以得到应答话术，而实时意图识别模型所利用的输入内容更加丰富，提升模型识别准确性，同时可以在满足更新条件时基于数据库中的专用知识进行更新训练，避免模型识别效果的衰退，以向用户输出对应备选意图的应答话术。可见，本方案可以在智能外呼系统向用户发起电话呼叫后，提升意图识别准确率，从而降低通话的转人工率和挂机率。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的实施例。

图1为现有的智能外呼系统的结构示意图；

图2为本发明实施例提供的一种智能外呼的方法的流程示意图；

图3为本发明实施例提供的一种实时意图识别模型的结构示意图；

图4为本发明实施例提供的一种智能外呼系统的结构示意图；

图5为本发明实施例提供的另一种智能外呼的方法的流程示意图；

图6为本发明实施例提供的一种实时意图识别模型的训练方法的流程示意图；

图7为本发明实施例提供的另一种实时意图识别模型的训练方法的流程示意图；

图8为本发明实施例提供的一种智能外呼系统的运行流程示意图；

图9为本发明实施例提供的一种实时意图识别模块的原理示意图；

图10为本发明实施例提供的一种智能外呼的装置的结构示意图；

图11为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本发明保护的范围。

为了方便理解方案，首先对现有的智能外呼系统进行介绍。

现有的智能外呼系统的结构示意图如图1所示，包括：

语音模块：其中语音网关为硬件设备，负责承载运营商的中继线，同时支持SIP(Session Initiation Protocol，会话发起协议)通信协议；语音合成组件将文字转为录音；语音识别组件将录音转写为文本；语音总线负责语音识别、语音合成组件与机器人的交互；其中，语音合成组件也可以称为语音合成单元，类似的，语音识别组件也可以称为语音识别单元。

任务调度模块：负责外呼任务、外呼线路、外呼机器人的调度；另外用户在通话过程中要求转人工时，该模块可实时将通话转接给坐席。

语义模块：用户的声音转写为文本后，该模块通过关键词、关键词组合和深度学习语义模型识别用户意图，同时利用多轮对话技术从知识库中选择应答话术，完成与用户问题相关的答案筛选，其中，筛选得到的答案即为对应用户意图的应答话术。特别的，语义模块可以包括语义适配器、关键词与正则匹配服务组件、机器人总控，以及多轮对话服务组件。

数据服务模块：主要为知识库，包括模板文件、录音文件、通用问答对等知识；其中，上述的数据库也包含在知识库中。

现有的智能外呼系统的运行步骤可以包括：系统主动发起呼叫，用户应答后，系统通过语音识别技术将用户的语音转为文本，利用自然语言处理技术识别用户意图，根据用户意图从话术模板和问答知识库中选择应答话术，同时利用多轮对话技术对会话流程进行管理。筛选完应答话术后，为用户播放所筛选到的应答话术的预设的录音或者利用语音合成技术实时生成所筛选到的应答话术的录音，完成人机智能交互。当该系统无法识别或解决用户问题时，通常情况是输出预设的挽回话术或者转人工坐席的员工进行处理。

综上可见，相关技术中，智能外呼系统通过SIP(Session Initiation Protocol，会话发起协议)对接语音网关，语音网关可以通过运营商的网络主动向用户发起电话呼叫。在电话沟通中，系统针对场景需求，与用户进行问答；在用户应答后，系统通过语音识别技术将用户的语音转为文本，再对文本的文本内容进行语义识别分析，从而基于语义识别结果，确定出用户意图；并根据用户意图，选择应答话术。其中，语义识别分析可以基于预定的语义识别模型，而语义识别结果可以包括每一备选意图的匹配概率，其中，每一备选意图的匹配概率用于表征该备选意图作为用户的语音所表达的问题的概率。

然而，由于用户的覆盖地域广，用户的表达方式各异，从而，基于文本的文本内容进行语义识别处理的方式，使得智能外呼过程中会存在用户意图识别准确率不高的问题，例如：在语义识别模型使用一段时间后，模型的效果容易衰退，模型对用户的意图识别准确率降低。在用户意图识别的准确率不高的情况下，系统无法与用户进行有效对话，会将电话转接给人工坐席的工作人员；有时，由于系统无法与用户进行有效对话，甚至还会导致用户直接挂断电话。因此，系统对用户的意图识别的准确率会随着时间推移下降，系统无法与用户进行有效对话，这导致系统将通话转接给工作人员的转人工率和用户挂断电话的挂机率变高。

另外，现有的智能外呼系统可以基于历史数据对外呼人群、外呼时间、外呼重播次数等做精准筛选，以期达到提高电话触达成功率的效果。然而，现有的智能外呼系统的外呼模板及应答话术需要预先准备，一旦外呼模板及应答话术准备好，在一段时间内就不会进行更新，系统应对用户的实时性问题能力较差，导致转人工率或者挂机率较高。

可见，在智能外呼系统向用户发起电话呼叫后，如何提升意图识别准确率，从而降低通话的转人工率和挂机率，是一个亟待解决的问题。

综上所述，为了在智能外呼系统向用户发起电话呼叫后，提升意图识别准确率，从而降低通话的转人工率和挂机率，本发明实施例提供了一种智能外呼的方法、装置、电子设备及存储介质。

下面首先对本发明实施例所提供的一种智能外呼的方法进行介绍。

本发明实施例所提供的一种智能外呼的方法，可以应用于智能外呼系统。其中，该智能外呼系统可以应用于证券、银行、信托等行业内，以针对用户进行针对不同场景的电话沟通，示例性的，在通知场景下，智能外呼系统可以电话通知用户身份证信息过期。其中，为了方便描述，后续将智能外呼系统简称为系统。

其中，本发明实施例所提供的一种智能外呼方法，可以包括如下步骤：

针对智能外呼系统在目标场景下向用户发起的外呼过程，获取所述目标用户的目标语音；其中，所述目标场景表征所述对话的目的；

将所述目标语音转化为目标文本；

基于上述方案可知，在智能外呼系统针对目标场景向用户发起外呼的过程中，可以获取用户的目标语音；在将目标语音转化为目标文本后，可以将目标文本的文本内容进行语义识别分析，得到每一备选意图的匹配概率；在经过语义识别分析后得到的所有的匹配概率均小于第一预设匹配阈值的情况下，可以将用户的个人信息、目标语音的语音行为、目标文本、目标场景的场景信息和各个备选意图输入预先训练的实时意图识别模型，得到每一备选意图对应的匹配概率，从而在每一备选意图对应的匹配概率均小于第二预设匹配阈值的情况下，将通话转接人工客服以与用户进行通话；获取到人工客服针对目标语音标注的专用知识，而这些专用知识可以用于在符合预定的更新条件时，训练实时意图识别模型；在存在匹配概率大于第二预设匹配阈值的情况下，可以确定对应有第一匹配概率的备选意图，最后可以向用户输出对应有第一匹配概率的备选意图的应答话术。可见，基于本方案，在智能外呼系统与用户进行电话通话的过程中，在目标文本的文本内容经过语义识别分析后，得到的每一备选意图对应匹配概率均小于第一预设匹配阈值的情况下，也就是经过语义识别分析后得到的意图识别结果的准确率不高的情况下，可以借助实时意图识别模型来进行意图识别以得到应答话术，而实时意图识别模型所利用的输入内容更加丰富，提升模型识别准确性，同时可以在满足更新条件时基于数据库中的专用知识进行更新训练，避免模型识别效果的衰退，以向用户输出对应备选意图的应答话术。可见，本方案可以在智能外呼系统向用户发起电话呼叫后，提升意图识别准确率，从而降低通话的转人工率和挂机率。

下面结合附图介绍本发明实施例所提供的一种智能外呼的方法。

图2为本发明实施例提供的一种智能外呼的方法的流程示意图，如图2所示，该方法可以包括如下步骤：

S201，针对智能外呼系统在目标场景下向用户发起的外呼过程，获取所述目标用户的目标语音；其中，所述目标场景表征所述对话的目的。

可以理解的是，出于某一特定的目的，智能外呼系统会向用户发起对话，而在对话过程中用户与系统进行问答的语音可以被系统的语音模块所获取。需要说明的是，某一特定的目的在系统中可以被目标场景所表征，不同的目标场景可以表征不同的对话目的。例如，在通知类型的场景下，系统需要通知用户一些事务，比如用户身份证信息过期、用户获取到购买特定产品的资格等；在合规类型的场景下，系统需要按相关规定满足用户相关权利，比如系统需要就用户已签约购买的产品，向用户进行回访，使得用户了解产品，以满足用户知情权，等。

S202，将所述目标语音转化为目标文本。

可以理解的是，在一种实现方式中，系统可以利用语音模块中的语音识别模型将目标语音转化为目标文本。其中，语音识别模型可以是利用样本语音和基于样本语音识别出来的样本文本，训练得到的模型，本发明实施例并不对语音识别模型的模型结构和训练过程进行限定。需要说明的是，将目标语音转换为目标文本的方式，并不局限于调用预先训练的语音识别模型，任一种能够将语音转文本的方式均可以适用于本发明实施例。

S203，对所述目标文本的文本内容进行语义识别分析，得到每一备选意图对应的匹配概率；其中，各个备选意图为从数据库中的针对所述目标场景的意图中选取得到的意图，针对所述目标场景的意图用于表征在所述目标场景下外呼过程所存在的问题；每一备选意图对应的匹配概率用于表征该备选意图作为所述用户的语音所表达的问题的概率。

可以理解的是，在一种实现方式中，系统为了解读用户的意图，需要对目标文本的文本内容进行语义识别分析，而系统可以通过语义识别模型对目标文本进行识别；由于语义识别模型可以是利用样本语音转换得到的样本文本、各个样本意图以及每一样本意图对应的匹配概率训练得到的模型，因此，在向语义识别模型输入目标文本和各个备选意图后，可以得到各个备选意图的匹配概率。例如，现在有四个备选意图a、b、c、d，目标文本的文本内容可以表征一特定意图，向语义识别模型输入目标文本和各个备选意图，可以得到备选意图a的匹配概率0.9、备选意图b的匹配概率0.6、备选意图c的匹配概率0.4、备选意图d的匹配概率0.03。需要说明的是，每一样本意图对应的匹配概率属于模型训练过程中监督值，该监督值也可以称为真值。

在另一种实现方式中，语义识别分析的过程可以是基于关键词的提取算法、基于关键词组合规则及基于深度学习语义相似度的算法的组合使用。使用基于关键词的提取算法可以提取目标文本中的关键词和各个备选意图的关键词，进而得到每一备选意图的匹配概率；在上述基于关键词的提取算法的方法得到的备选意图的匹配概率不高的情况下，可以基于关键词组合规则，针对各个备选意图和目标文本中的每一文本，将该文本的关键词进行组合，进而得到每一备选意图的匹配概率；在上述基于关键词组合规则的方法得到的备选意图的匹配概率不高的情况下，可以基于深度学习语义相似度的算法，得到每一备选意图对应的匹配概率。

需要说明的是，备选意图可以按照目标场景的类型在数据库中分别存储，这样，在需要向模型输入备选意图的时候，可以直接从数据库中，调取对应目标场景类型的备选意图。

S204，在经过语义识别分析后得到的每一备选意图对应的匹配概率均小于第一预设匹配阈值的情况下，将所述用户的个人信息、所述目标语音的语音行为、所述目标文本、所述目标场景的场景信息和各个备选意图输入预先训练得到的实时意图识别模型，得到所述实时意图识别模型输出的每一备选意图对应的匹配概率；其中，所述语音行为用于表征用户语速、用户语调、用户音量和用户情绪变化中的至少一种。

可以理解的是，在经过语义识别分析后得到的每一备选意图对应的匹配概率不高的情况下，系统可以使用实时意图识别模型对用户意图进行识别，也就是，将实时意图识别模型作为语义识别分析处理的辅助模型来进行意图识别。

其中，用户的个人信息可以是用户的姓名、性别、年龄、地域、资产状况、理财偏好、风险承担能力、历史客服电话记录时间、历史客服电话场景以及触达结果；触达结果可以是历史通话的目的完成与否。目标场景的场景信息可以包括当前对话的场景类型以及当前对话的时间；针对当前对话的场景类型，可以有通知类型、合规类型等。

针对实时意图识别模型，需要说明的是，所述实时意图识别模型具体用于在接收到所述用户的个人信息、所述目标语音的语音行为、所述目标文本、所述目标场景的场景信息和各个备选意图后，分别生成所述用户的个人信息对应的第一特征向量、所述目标语音的语音行为对应的第二特征向量、所述目标文本对应的第三特征向量、所述目标场景的场景信息对应的第四特征向量和各个备选意图对应的第五特征向量；针对每一备选意图，对该备选意图对应的第五特征向量、所述第一特征向量、第二特征向量、第三特征向量和第四特征向量进行拼接以及降维处理，得到该备选意图对应的稠密向量，所述稠密向量中包括有针对所述第一特征向量降维后所得的第一类元素、针对所述第二特征向量降维后所得的第二类元素、针对所述第三特征向量降维后所得的第三类元素、针对所述第四特征向量降维后所得的第四类元素以及针对该备选意图对应的第五特征向量降维后所得的第五类元素；分别计算该备选意图对应的稠密向量中的所述第一类元素、第二类元素、第三类元素、第四类元素和第五类元素中的任意两个元素之间的二维交叉信息，以及计算该备选意图对应的稠密向量中的所述第一类元素、第二类元素、第三类元素、第四类元素和第五类元素之间的多维交叉信息；将计算得到的二维交叉信息以及多维交叉信息输入预定的激活函数，得到该备选意图对应的匹配概率。

可以理解的是，实时意图识别模型可以使用one-hot方法对用户的个人信息进行编码处理得到第一特征向量；可以使用one-hot方法对目标语音的语音行为进行编码处理，得到第二特征向量；可以使用基于Attention机制的深度网络方法对目标文本进行编码，得到第三特征向量；可以使用one-hot方法对目标场景的场景信息进行编码处理得到第四特征向量；可以使用基于Attention机制的深度网络方法对各个备选意图进行编码处理得到第五特征向量。需要说明的是，在一次使用实时意图识别模型的过程中，第五特征向量可以表征各个备选意图中的某一备选意图，并不表征每一备选意图，因此，在使用实时意图识别模型的过程中，针对每一备选意图都可以进行一次编码处理，从而得到多个第五特征向量，每一特征向量是对一个备选意图进行编码所得到的特征向量。

在数据量较大的情况下，上述第一特征向量、第二特征向量、第三特征向量、第四特征向量和第五特征向量中的有效数据较为分散，因此，针对每一备选意图，需要先将该备选意图对应的第五特征向量以及上述第一特征向量、第二特征向量、第三特征向量和第四特征向量进行加权拼接，得到包含各个特征的多维向量，例如，设定第一特征向量的权重为0.1，第二特征向量的权重为0.1，第三特征向量的权重为0.5，第四特征向量的权重为0.2，第五特征向量的权重为0.1，可以将各个特征向量乘以各自权重拼接在一起，得到多维向量。然而包含各个特征的多维向量中的有效数据还是分散的，因此，可以使用基于拉普拉斯特征映射(Laplacian Eigenmaps，LE)的方法，对多维向量进行降维处理，得到一个有效数据较为集中的稠密向量。例如，一个1000维的多维向量，经过降维处理后，可以变成一个100维的稠密向量。第一特征向量、第二特征向量、第三特征向量、第四特征向量以及第五特征向量均被包含在稠密向量中，但这些特征向量并不是完全融合，他们只是以有效数据相对集中的方式，在稠密向量中，以第一类元素、第二类元素、第三类元素、第四类元素和第五类元素的形式体现。其中，稠密向量可以表示为X＝{X₁X₂…,Xn}。

为了将各个特征向量完全融合起来，可以分别计算上述稠密向量中的第一类元素、第二类元素、第三类元素、第四类元素和第五类元素中任意两维向量交叉融合的二维交叉信息，以及，上述第一类元素、第二类元素、第三类元素、第四类元素和第五类元素中各维向量全部交叉融合的多维交叉信息。其中，针对二维交叉信息的计算，可以基于FM(Factorization Machine，因子分解机)算法将第一类元素、第二类元素、第三类元素、第四类元素和第五类元素中任意两维向量交叉融合；计算二维交叉信息的具体数学公式可以为：

其中ω₀、ω_i、ω_ij是权值，在使用实时意图识别模型的过程中，ω₀、ω_i、ω_ij是已经训练成功的模型的最优参数；x_i是需要进行二维交叉融合的、稠密向量中的一维，x_j是需要进行二维交叉融合的、稠密向量中的另一维，n是稠密向量中所包括各类元素的类别数量，y_FM是经过计算得到的二维交叉信息；可以理解的是，二维交叉信息可以是前述稠密向量中的元素经过上述计算二维交叉信息的数学公式得到的一个具体数值。针对多维交叉信息的计算，可以基于Transformer算法，将第一类元素、第二类元素、第三类元素、第四类元素和第五类元素中各维向量全部交叉融合，得到多维交叉信息y_transformer；可以理解的是，多维交叉信息可以是前述稠密向量中的元素经过基于Transformer算法的方式处理得到的另一个具体数值。需要说明的是，基于Transformer算法的网络结构在实时意图识别模型中可以限定只有一层，从而简化模型结构，当然并不局限于此。

需要强调的是，针对每一备选意图编码得到的第五特征向量，都需要与前述第一特征向量、第二特征向量、第三特征向量以及第四特征向量进行上述加权降维、计算二维交叉信息、计算多维交叉信息的处理，此处不多作赘述。

实时意图识别模型可以将计算得到的二维交叉信息以及多维交叉信息输入预设的激活函数，得到每一备选意图中的某一个备选意图对应的匹配概率，可以理解的是，预设的激活函数可以是sigmoid函数，具体的数学公式可以是：

其中，y_FM是二维交叉信息，y_transformer是多维交叉信息，

表征各个备选意图中的某一备选意图对应的匹配概率；需要说明的是，激活函数可以是sigmoid函数，此处仅为举例说明，本发明对激活函数的形式不作具体限定。

需要强调的是，针对每一备选意图，都可以使用一次激活函数，以得到每一备选意图对应的匹配概率。

在一种实现方式中，实时意图识别模型的结构示意图可以如图3所示，被输入至模型的用户的个人信息、目标语音的语音行为和目标文本、目标场景的场景信息以及各个备选意图经过加权拼接和拉普拉斯映射降维处理后，经过基于FM算法的FM模块以及Transformer网络，进行二维交叉信息计算和多维交叉信息计算，在模型输出层经过基于激活函数的处理，得到每一备选意图对应的匹配概率。

S205，在所述实时意图识别模型输出的每一备选意图对应的匹配概率均小于所述第二预设匹配阈值的情况下，将通话转接人工客服以与所述用户进行通话；获取所述人工客服针对所述目标语音所标注的专用知识，其中，所述专用知识包括用于表征所述目标语音所表达问题的专用意图以及所述专用意图的应答话术，所述专用知识设置有生命周期，所述生命周期用于标记任一专用知识在数据库中存在的时间；以所获取的专用知识中的专用意图和应答话术作为针对所述目标场景的意图和对应的应答话术，将所获取的专用知识添加至所述数据库。

可以理解的是，在实时意图识别模型输出的每一备选意图对应的匹配概率均小于第二预设匹配阈值的情况下，智能外呼系统可以将正在进行的通话转接给人工座席的人工客服，让可以灵活应变的真人与用户对话；在人工客服与用户对话时，可以对用户做出令用户满意的回答，也就是对之前的目标语音中用户的专用意图做出了应答；而人工客服可以在通话结束后，对通话内容进行复盘，将对应目标语音的专用意图和该专用意图的应答话术标注出来。其中，专用意图和专用意图对应的应答话术可以统称为专用知识。由人工客服标注而获取的专用意图及其应答话术可以作为针对目标场景的意图和对应的应答话术，而这些专用知识在之后会其他作用，因此可以先被添加到数据库中保存。

需要说明的是，人工客服可以在复盘环节找到通话转人工的原因，以作他用。例如，在语义识别分析由目标语音转化的目标文本的文本内容时，得到的备选意图的匹配概率不高，那么，可以将目标文本与人工客服从备选意图中找到的意图作为样本，离线训练语义识别模型；在语音识别模块将目标语音转化为目标文本时，得到的目标文本准确率不高，那么，可以将目标语音和人工客服转化出的文本作为样本，离线训练语音识别模型。

需要强调的是，每一专用知识还设置有生命周期，被设置有生命周期的专用知识在数据库中可以在一定时间内保持有效的、可被查看的状态。

特别的，在一种实施例中，所述一种智能外呼的方法还可以包括以下步骤A1：

A1：在检测到任一专用知识的生命周期结束时，从所述数据库中删除该专用知识。

可以理解的是，任一专用知识均可以被设置一个表征该专用知识可以存在的时间的生命周期，在其生命周期结束时，就可以从数据库中删除该专用知识。

S206，在所述实时意图识别模型输出的每一备选意图对应的匹配概率中，存在匹配概率大于或等于第二预设匹配阈值的匹配概率的情况下，确定对应有第一匹配概率的备选意图；其中，所述第二预设匹配阈值为大于或等于所述第一预设匹配阈值的数值，所述第一匹配概率为所述实时意图识别模型输出的每一备选意图对应的匹配概率中的最大值。

可以理解的是在实时意图识别模型输出的每一备选意图对应的匹配概率中，存在匹配概率大于或等于第二预设匹配阈值的匹配概率的情况下，也就是，在得到与用户意图匹配程度较高的问题的情况下，确定对应匹配概率最高的备选意图，即确定可以作为用户的语音所表达的问题。

S207，向所述用户输出与对应有第一匹配概率的备选意图的应答话术；其中，所述实时意图识别模型为利用样本场景的场景信息、所述样本场景下的样本语音转换得到的样本文本、所述样本场景下的样本语音所属的样本用户的语音行为、所述样本用户的个人信息、各个样本意图以及每一样本意图对应的匹配概率，所训练得到的模型，且在符合预定的更新条件时所述实时意图识别模型被进行更新训练；其中，各个样本意图为从所述数据库中的针对所述样本场景的意图中选取得到的意图；每一样本意图对应的匹配概率用于表征该样本意图作为所述样本语音所表达的问题的概率；所述预定的更新条件包括检测到所述数据库中已存在的专用知识的数量大于预设数量阈值；所述实时意图识别模型被更新训练时所利用的样本场景包括有已存在的专用知识中的专用意图所属的场景，且所利用的各个样本意图包括有所述数据库中已存在的专用知识中的专用意图。

可以理解的是，在确定对应有匹配概率的备选意图后，可以从数据库中，获取对应有第一匹配概率的备选意图的应答话术，再向用户输出该应答话术。其中，向用户输出应答话术时，可以将获取到的文本形式的应答话术通过语音模块里的语音合成组件，合成为机器播放的语音，以在通话过程中，向用户播放。

需要说明的是，实时意图识别模型是利用样本场景的场景信息、样本场景下的样本语音转换得到的样本文本、样本场景下的样本语音所属的样本用户的语音行为、样本用户的个人信息、各个样本意图以及每一样本意图对应的匹配概率，训练得到的模型。其中，每一样本意图对应的匹配概率属于模型训练过程中监督值，该监督值也可以称为真值。

可以理解的是，步骤S205中，专用知识可以被不断添加到数据库中，在检测到数据库中已存在的专用知识的数量大于预设数量阈值时，也就是满足预定的更新条件时，可以将这些数据库中已存在的专用知识中的专用意图作为用于模型更新训练的各个样本意图，然后可以利用各个样本意图，对实时意图识别模型进行更新训练。

需要说明的是，在智能外呼系统刚开始启动的时候，也就是在智能外呼系统处于冷启动状态时，实时意图识别模型还没有可以用于训练的专用意图，这时可以利用历史的智能外呼转人工语料、人工客服标注的信息以及用户数据，进行基础模型的预训练，得到最初的实时意图识别模型。

可以理解的是，在另一种实现方式中，每当数据库中存入新的专用知识时，智能外呼系统可以将数据库中存在的、有效的专用知识(包括新存入的专用知识)用于实时意图识别模型的训练。

为了更好理解本发明实施例，下面将结合本发明的智能外呼系统的结构示意图来说明。如图4所示，在图1所示的现有的智能外呼系统的结构示意图的基础上可以增加实时意图识别模块，该模块用于在经过语义识别分析后得到的每一备选意图对应的匹配概率均小于第一预设匹配阈值的情况下，通过任务调度模块调用实时意图识别模型，将用户的个人信息、目标语音的语音行为、目标文本、目标场景的场景信息和各个备选意图输入预先训练得到的实时意图识别模型，得到所述实时意图识别模型输出的每一备选意图对应的匹配概率；其中，语义模块可以包括关键词与正则匹配服务组件、机器人总控、基于深度学习的语义服务组件以及多轮对话组件。

另外，在具体的通话场景下，用户的属性、行为、声音等记录可以作为基础数据辅助判断用户意图，本发明实施例对这些历史用户的数据及实时的人工座席数据都有充分利用，在用户意图的识别过程中，进行了多维度的考量，意图识别的结果相对现有技术来说也更全面。

另外，智能外呼系统的运行过程中，因为用户的口音、个性化表达、实时性提问等问题会产生大量的转人工事件，给人工坐席的客服造成工作压力。包括实时意图识别模型的智能外呼系统可以充分利用用户的实时数据、历史数据及坐席在电话交互后的标注数据，在线实时提升意图识别准确率，并且不会影响需大规模语料训练的语音及语义模型，有效防止了大模型的效果衰退，提升了系统整体的用户意图识别准确率，降低了转人工率。

另外，在实时意图识别模型输出的每一备选意图对应的匹配概率均小于第二预设匹配阈值的情况下，可以将通话转接人工，但人工客服并不只是与用户对话，还需要将智能外呼系统未完成对话的原因找到，并将人工客服与用户的对话中的专用知识标注出来，以便智能外呼系统可以利用专用知识中的专用意图对实时意图识别模型定时定量地训练，保证了实时意图识别模型的时效性，确保了智能外呼系统可以向用户输出对应目标场景的意图的应答话术，进一步提升意图识别准确率，从而降低通话的转人工率和挂机率。

另外，存放在数据库中的专用知识都有生命周期，从而，在一定时间后，数据库中的专用知识会失效，这既保证了专用知识的时效性，又保证了数据库的资源可以不被无限制地占用。

可选的，在另一种实施例中，如图5所示，在图2的基础上，本发明实施例提供的一种智能外呼的方法还可以包括如下步骤：

S501，在经过语义识别分析后得到的每一备选意图对应的匹配概率中，存在匹配概率大于或等于所述第一预设匹配阈值的情况下，确定对应有第二匹配概率的备选意图；其中，所述第二匹配概率为经过语义识别分析后得到的每一备选意图对应的匹配概率中的最大值。

可以理解的是，在经过语义识别分析后得到的每一备选意图对应的匹配概率中，存在匹配概率大于或等于第一预设匹配阈值的匹配概率的情况下，也就是，在得到与用户意图匹配程度较高的备选意图的情况下，确定对应匹配概率最高的备选意图。例如，现在有四个备选意图a、b、c、d，目标文本的文本内容可以表征一特定意图，在经过语义识别分析后，可以得到备选意图a的匹配概率0.9、备选意图b的匹配概率0.6、备选意图c的匹配概率0.4、备选意图d的匹配概率0.03；而第一预设匹配阈值为0.7，在这种情况下，可以确定对应匹配概率为0.9的备选意图a。

S502，向所述用户输出对应有第二匹配概率的备选意图的应答话术。

可以理解的是，在向用户输出对应有第二匹配概率的备选意图的应答话术时，可以将数据库中文本形式的应答话术通过语音模块里的语音合成组件，合成为机器播放的语音，以在通话过程中，向用户播放。

在本实施例中，如果经过语义识别分析后就可以找到满足条件的备选意图，那么可以直接将对应匹配概率最高的备选意图的应答话术输出给用户，保证针对目标语音的响应速度。

为了更好理解本发明实施例提供的智能外呼的方法，下面结合图6，对实时意图识别模型的训练方法进行介绍。

如图6所示，实时意图识别模型的训练方法可以包括以下步骤：

S601，获取样本场景的场景信息、所述样本场景下的样本语音转换得到的样本文本、所述样本场景下的样本语音所属的样本用户的语音行为、所述样本用户的个人信息、各个样本意图以及每一样本意图对应的匹配概率。

可以理解的是，样本场景的场景信息、样本场景的样本语音及其转换得到的样本文本、样本语音所属的样本用户的语音行为、样本用户的个人信息、各个样本意图以及每一样本意图对应的匹配概率，可以从人工客服通话的实时数据和历史数据、呼叫中心的历史数据中获取；而样本用户的个人信息，比如在证券行业，样本用户的偏好理财产品等，可以从电商系统中获取。

其中，人工客服通话的实时数据可以由人工对通话记录进行标注得到，需要说明的是，通话记录可以被标注为三类：第一类，语音识别错误带来的转人工案例及标注数据，且可以用于离线训练语音识别模型；第二类，语义识别错误带来的转人工案例及标注数据，且可以用于离线训练语义识别模型；第三类，用户个性化表达或实时问题提问带来的转人工案例及标注数据，且可以用于定期训练实时意图识别模型。并且，针对用户个性化表达或实时问题提问，客服回答后得到的专用知识会被增加一个生命周期标签，用来限制专用知识被检索到的时间，且会被推送至专用知识库。

S602，将所述样本场景的场景信息、所述样本场景下的样本语音转换得到的样本文本、所述样本场景下的样本语音所属的样本用户的语音行为、所述样本用户的个人信息、各个样本意图以及每一样本意图对应的匹配概率输入至所述实时意图识别模型，得到预测出的表征各个样本意图的匹配概率分布；其中，各个样本意图的匹配概率分布中包括每一样本意图对应的匹配概率的预测值。

可以理解的是，将样本场景的场景信息、样本场景下的样本语音转换得到的样本文本、样本场景下的样本语音所属的样本用户的语音行为、样本用户的个人信息、各个样本意图以及每一样本意图对应的匹配概率输入实时意图识别模型，此时实时意图识别模型中已经预设了模型的网络参数。实时意图识别模型可以利用基于ETL(Extract-Transform-Load，抽取-装换-加载)的方法，获取到离线特征、实时特征以及专用知识库中的意图的语义特征；其中，离线特征包括：从数据仓库中获取的用户个人信息特征，用户个人信息可以包括：用户行为、性别、地域、年龄、资产、喜好等；实时特征包括：场景信息特征、声音信息特征和对话及坐席标注信息特征。

然后离线特征、实时特征以及语义特征可以在实时意图识别模型中，经过加权拼接及降维处理，再经过二维交叉信息计算和多维交叉信息计算，最后输入激活函数，得到预测出的表征各个样本意图的匹配概率分布。其中，各个样本意图的匹配概率分布中包括每一样本意图对应的匹配概率。

需要说明的是，在训练实时意图识别模型的过程中，将样本场景的场景信息、样本场景的样本语音及其转换得到的样本文本、样本语音所属的样本用户的语音行为、样本用户的个人信息、各个样本意图以及每一样本意图对应的匹配概率进行编码处理、加权拼接、降维处理、计算二维交叉信息、计算多维交叉信息以及将二维交叉信息和多维交叉信息输入激活函数，以上步骤的具体应用可以与使用实时意图识别模型的过程类似，在前述实施例中已经进行详细描述，在此不多做赘述。

S603，基于所述匹配概率分布与每一样本意图对应的匹配概率，计算损失值。

可以理解的是，为了计算损失值，可以利用损失函数：

其中E_k为损失值；

为样本意图j对应的、预测出的匹配概率，作为用于计算损失值的预测值；y_j为在训练实时意图识别模型之初输入的样本意图j对应的匹配概率，作为用于计算损失值的监督值；l为样本意图的数量，j为1到l中的任一数。

S604，基于所述损失值，判断训练中的所述实时意图识别模型是否收敛，如果收敛，结束训练，得到训练完成的所述实时意图识别模型；如果否，调整所述实时意图识别模型的网络参数，继续训练所述实时意图识别模型。

可以理解的是，模型训练的过程中可以采用误差逆传播算法，在得到损失值之后，模型通过反向传播去更新模型的网络参数；来降低真实的匹配概率与预测的匹配概率之间的损失，使得模型生成的预测值向真实值方向靠拢。

在本实施例中，将实时获取的专用意图作为训练的样本来源之一，可以保证实时意图识别模型的有效性，提升意图识别准确率。

在另一种实施例中，如图7所示，在图6的基础上，实时意图识别模型的训练方法还可以包括以下步骤：

S701，判断训练中的所述实时意图识别模型是否在预设时间范围内收敛，如果是，判定训练成功，得到训练完成的所述实时意图识别模型；如果否，判定训练失败，并发出检查通知；其中，所述检查通知至少包括检查所述样本意图的通知。

可以理解的是，实时意图识别模型是否收敛可以由图7所示的实施例判断，而本实施例需要在判断是否收敛的基础上，规定一个时间范围。在时间范围中，如果模型收敛的话，那么可以判定训练成功；在时间范围中，如果模型不收敛的话，那么可以判定训练失败。而每次模型训练成功都可以在模型训练日志中记录，通过日志实时分析组件，可以对日志进行监控；若监控到在预设时间范围内，模型没有收敛，则可以通知相关人员对数据进行检查，例如通知相关人员检查样本意图是否有误。需要说明的是，在检查出样本意图无误后，还可以通知相关人员检查模型结构。

在本实施例中，对实时意图识别模型训练的过程进行实时监控，以保证模型在预设时间范围内收敛，如果在训练过程中出现错误，也可以有检查的措施来校正。

为了更好理解本发明实施例，下面将结合图8，对应用了本发明提供的智能外呼的方法的智能外呼系统进行介绍。

如图8所示，在一种智能外呼系统的运行流程示意图中，智能外呼系统的运行过程如下：

发起呼叫过程，该过程中，系统可以通过语音模块主动对用户发起电话呼叫。

用户应答过程，该过程中，用户的语音可以输入语音模块。

语音转文字过程，该过程中，用户的语音可以被语音模块转为文字。

语义模块返回结果过程，该过程中，语义模块可以根据关键词、关键词组合规则、基于深度学习语义相似度算法计算每一备选意图的匹配概率p₁，根据概率对话术模板和问答库中的相似问题排序。若匹配概率p₁高于第一预设匹配阈值，则返回问题对应的文字答案或者录音。如果设置为返回录音，则直接播放给用户，若设置为文字，则调用语音模块中的语音合成单元生成录音并播放。

阈值降低转实时意图识别模块过程，该过程中，若匹配概率p₁低于第一预设匹配阈值，则可以调用实时意图识别模块。

实时意图识别模块返回结果过程，该过程中，实时意图识别模块可以根据用户的个人信息、用户应答的语音的语音行为、用户应答的语音的文本、对话场景的场景信息和备选意图建模，模型计算专用知识库中知识与用户实时意图的匹配概率p₂，基于匹配概率和知识的生命周期，筛选专用知识。若匹配概率p₂高于第二预设匹配阈值，则返回文字，同时调用语音合成模块合成录音并播放。若匹配概率p₂低于第二预设匹配阈值，则调用任务调度平台，将通话转接给人工客服。。

以上过程可以统称为人机交互阶段。

用户要求转人工过程，该过程中，用户可以直接在应答中要求转接人工客服。

语音转文字过程，该过程中，语音模块可以接收用户应答的语音，并将其转换为文字，发送给语义模块。

转人工指令过程，该过程中，语义模块可以识别出用户需要转接人工客服，将识别结果发送给任务调度平台。

通话转接过程，该过程中，任务调度平台可以将通话转接给人工坐席系统。

坐席返回结果过程，该过程中，人工坐席系统中的人工客服可以与用户电话沟通，并解答用户问题。

以上过程可以被统称为人人交互阶段。

坐席服务后进行话术筛选和标注过程，该过程中，坐席可以基于与用户的交互内容做标注，标注分为三类，记为t₁、t₂、t₃，其中t₁用来离线训练语音识别模型，t₂用来离线训练语义识别模型，t₃用来训练实时意图识别模型，且t₃类型的问题通常会被坐席标注一个生命周期。

离线训练语义识别模型过程，该过程中，语义模块可以接收类型为t₂的标注内容来离线训练语义识别模型。

离线训练语音识别模型过程，该过程中，语音模块可以接收类型为t₁的标注内容来离线训练语音识别模型。

实时特征获取过程，该过程中，实时意图识别模块中的ETL(数据抽取、转换、加载)工具可以将类型为t₃的标注内容加载至特征库及专用知识库，知识数量在一定时间内积累数量多于阈值c时，触发模型的实时训练。

基础特征获取过程，该过程中，实时意图识别模块可以从数据仓库中获取用户的个人信息等基础特征。

离线模型定时训练过程，该过程中，实时意图识别模块可以定时结合实时特征和基础特征对实时意图识别模型进行训练。

在线模型实时训练过程，该过程中，实时意图识别模块可以在数据库中的专用知识的数量达到预设数量阈值时，对实时意图识别模型进行训练。

模型训练及运行日志监控过程，该过程中，可以对模型训练日志进行实时记录，通过日志实时分析组件，对日志进行监控。模型在预设时间范围内收敛时，则可以认定模型训练成功，自动上线新模型，若模型在预设时间范围内不收敛，则认定模型训练失败，仍采用之前的模型，并通知技术人员关注及分析相关数据及模型。

以上过程可以统称为数据赋能阶段。

为了更好理解本发明提供的智能外呼方法，下面将结合图9，对实时意图识别模块的原理进行介绍。

电商系统、呼叫中心、在线客服等可以向数据仓库中提供离线数据，而ETL工具可以根据用户ID从数据仓库中搜集用户历史标签信息，包括行为、性别、地域、资产、喜好等，得到离线特征，并将离线特征推送至离线特征库。

ETL工具从电商系统、呼叫中心、在线客服等获取实时数据，实时分析用户特征，包括场景信息、声音信息和对话及坐席标注信息，得到实时特征，并将实时特征推送至实时特征库。

离线特征、实时特征、专用知识库中意图的语义特征三种特征通过加权形成用户问答行为特征，若用户特征缺失，则通过用户年龄、性别、行为、资产等纬度选择相似用户特征进行补充。问答特征输入到实时模型中，得到可以回答用户的问答话术。其中，离线特征还可以与专用知识库中意图的语义特征进行样本拼接处理，以训练离线模型。

图10为本发明实施例提供的一种智能外呼的装置的结构示意图，如图10所示，该装置可以包括如下模块：

第一获取模块1010，用于针对智能外呼系统在目标场景下向用户发起的外呼过程，获取所述目标用户的目标语音；其中，所述目标场景表征所述对话的目的；

转化模块1020，用于将所述目标语音转化为目标文本；

语义识别模块1030，用于对所述目标文本的文本内容进行语义识别分析，得到每一备选意图对应的匹配概率；其中，各个备选意图为从数据库中的针对所述目标场景的意图中选取得到的意图，针对所述目标场景的意图用于表征在所述目标场景下外呼过程所存在的问题；每一备选意图对应的匹配概率用于表征该备选意图作为所述用户的语音所表达的问题的概率；

实时意图识别模块1040，用于在经过语义识别分析后得到的每一备选意图对应的匹配概率均小于第一预设匹配阈值的情况下，将所述用户的个人信息、所述目标语音的语音行为、所述目标文本、所述目标场景的场景信息和各个备选意图输入预先训练得到的实时意图识别模型，得到所述实时意图识别模型输出的每一备选意图对应的匹配概率；其中，所述语音行为用于表征用户语速、用户语调、用户音量和用户情绪变化中的至少一种；

第二获取模块1050，用于在所述实时意图识别模型输出的每一备选意图对应的匹配概率均小于所述第二预设匹配阈值的情况下，将通话转接人工客服以与所述用户进行通话；获取所述人工客服针对所述目标语音所标注的专用知识，其中，所述专用知识包括用于表征所述目标语音所表达问题的专用意图以及所述专用意图的应答话术，所述专用知识设置有生命周期，所述生命周期用于标记任一专用知识在数据库中存在的时间；以所获取的专用知识中的专用意图和应答话术作为针对所述目标场景的意图和对应的应答话术，将所获取的专用知识添加至所述数据库；

意图确定模块1060，用于在所述实时意图识别模型输出的每一备选意图对应的匹配概率中，存在匹配概率大于或等于第二预设匹配阈值的匹配概率的情况下，确定对应有第一匹配概率的备选意图；其中，所述第二预设匹配阈值为大于或等于所述第一预设匹配阈值的数值，所述第一匹配概率为所述实时意图识别模型输出的每一备选意图对应的匹配概率中的最大值；

第一输出模块1070，用于向所述用户输出与对应有第一匹配概率的备选意图的应答话术；

所述实时意图识别模型具体用于在接收到所述用户的个人信息、所述目标语音的语音行为、所述目标文本、所述目标场景的场景信息和各个备选意图后，分别生成所述用户的个人信息对应的第一特征向量、所述目标语音的语音行为对应的第二特征向量、所述目标文本对应的第三特征向量、所述目标场景的场景信息对应的第四特征向量和各个备选意图对应的第五特征向量；针对每一备选意图，对该备选意图对应的第五特征向量、所述第一特征向量、第二特征向量、第三特征向量和第四特征向量进行拼接以及降维处理，得到该备选意图对应的稠密向量，所述稠密向量中包括有针对所述第一特征向量降维后所得的第一类元素、针对所述第二特征向量降维后所得的第二类元素、针对所述第三特征向量降维后所得的第三类元素、针对所述第四特征向量降维后所得的第四类元素以及针对该备选意图对应的第五特征向量降维后所得的第五类元素；分别计算该备选意图对应的稠密向量中的所述第一类元素、第二类元素、第三类元素、第四类元素和第五类元素中的任意两个元素之间的二维交叉信息，以及计算该备选意图对应的稠密向量中的所述第一类元素、第二类元素、第三类元素、第四类元素和第五类元素之间的多维交叉信息；将计算得到的二维交叉信息以及多维交叉信息输入预定的激活函数，得到该备选意图对应的匹配概率。

所述装置还可以包括：语义确定模块，用于在经过语义识别分析后得到的每一备选意图对应的匹配概率中，存在匹配概率大于或等于所述第一预设匹配阈值的情况下，确定对应有第二匹配概率的备选意图；其中，所述第二匹配概率为经过语义识别分析后得到的每一备选意图对应的匹配概率中的最大值；

所述实时意图识别模型的训练装置可以包括：

信息获取模块，用于获取样本场景的场景信息、所述样本场景下的样本语音转换得到的样本文本、所述样本场景下的样本语音所属的样本用户的语音行为、所述样本用户的个人信息、各个样本意图以及每一样本意图对应的匹配概率；

计算模块，用于基于所述匹配概率分布与每一样本意图对应的匹配概率，计算损失值；

第一判断模块，用于基于所述损失值，判断训练中的所述实时意图识别模型是否收敛，如果收敛，结束训练，得到训练完成的所述实时意图识别模型；如果否，调整所述实时意图识别模型的网络参数，继续训练所述实时意图识别模型。

所述实时意图识别模型的训练装置，在所述实时意图识别模型训练过程中，还可以包括：第二判断模块，用于判断训练中的所述实时意图识别模型是否在预设时间范围内收敛，如果是，判定训练成功，得到训练完成的所述实时意图识别模型；如果否，判定训练失败，并发出检查通知；其中，所述检查通知至少包括检查所述样本意图的通知。

本发明实施例还提供了一种电子设备，如图11所示，包括处理器1101、通信接口1102、存储器1103和通信总线1104，其中，处理器1101，通信接口1102，存储器1103通过通信总线1104完成相互间的通信，

存储器1103，用于存放计算机程序；

处理器1101，用于执行存储器1103上所存放的程序时，实现所述智能外呼的方法步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一智能外呼的方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一智能外呼的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种智能外呼的方法，其特征在于，应用于智能外呼系统，所述方法包括：

针对智能外呼系统在目标场景下向用户发起的外呼过程，获取所述用户的目标语音；其中，所述目标场景表征对话的目的；

将所述目标语音转化为目标文本；

在所述实时意图识别模型输出的每一备选意图对应的匹配概率均小于第二预设匹配阈值的情况下，将通话转接人工客服以与所述用户进行通话；获取所述人工客服针对所述目标语音所标注的专用知识，其中，所述专用知识包括用于表征所述目标语音所表达问题的专用意图以及所述专用意图的应答话术，所述专用知识设置有生命周期，所述生命周期用于标记任一专用知识在数据库中存在的时间；以所获取的专用知识中的专用意图和应答话术作为针对所述目标场景的意图和对应的应答话术，将所获取的专用知识添加至所述数据库；

2.根据权利要求1所述的方法，其特征在于，所述实时意图识别模型具体用于在接收到所述用户的个人信息、所述目标语音的语音行为、所述目标文本、所述目标场景的场景信息和各个备选意图后，分别生成所述用户的个人信息对应的第一特征向量、所述目标语音的语音行为对应的第二特征向量、所述目标文本对应的第三特征向量、所述目标场景的场景信息对应的第四特征向量和各个备选意图对应的第五特征向量；针对每一备选意图，对该备选意图对应的第五特征向量、所述第一特征向量、第二特征向量、第三特征向量和第四特征向量进行拼接以及降维处理，得到该备选意图对应的稠密向量，所述稠密向量中包括有针对所述第一特征向量降维后所得的第一类元素、针对所述第二特征向量降维后所得的第二类元素、针对所述第三特征向量降维后所得的第三类元素、针对所述第四特征向量降维后所得的第四类元素以及针对该备选意图对应的第五特征向量降维后所得的第五类元素；分别计算该备选意图对应的稠密向量中的所述第一类元素、第二类元素、第三类元素、第四类元素和第五类元素中的任意两个元素之间的二维交叉信息，以及计算该备选意图对应的稠密向量中的所述第一类元素、第二类元素、第三类元素、第四类元素和第五类元素之间的多维交叉信息；将计算得到的二维交叉信息以及多维交叉信息输入预定的激活函数，得到该备选意图对应的匹配概率。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

在经过语义识别分析后得到的每一备选意图对应的匹配概率中，存在匹配概率大于或等于所述第一预设匹配阈值的情况下，确定对应有第二匹配概率的备选意图；其中，所述第二匹配概率为经过语义识别分析后得到的每一备选意图对应的匹配概率中的最大值；

4.根据权利要求1或2所述的方法，其特征在于，所述实时意图识别模型的训练过程包括：

获取样本场景的场景信息、所述样本场景下的样本语音转换得到的样本文本、所述样本场景下的样本语音所属的样本用户的语音行为、所述样本用户的个人信息、各个样本意图以及每一样本意图对应的匹配概率；

5.根据权利要求4所述的方法，其特征在于，在所述实时意图识别模型的训练过程中，还包括：

判断训练中的所述实时意图识别模型是否在预设时间范围内收敛，如果是，判定训练成功，得到训练完成的所述实时意图识别模型；如果否，判定训练失败，并发出检查通知；其中，所述检查通知至少包括检查所述样本意图的通知。

6.一种智能外呼的装置，其特征在于，所述装置包括：

第一获取模块，用于针对智能外呼系统在目标场景下向用户发起的外呼过程，获取所述用户的目标语音；其中，所述目标场景表征对话的目的；

转化模块，用于将所述目标语音转化为目标文本；

第二获取模块，用于在所述实时意图识别模型输出的每一备选意图对应的匹配概率均小于第二预设匹配阈值的情况下，将通话转接人工客服以与所述用户进行通话；获取所述人工客服针对所述目标语音所标注的专用知识，其中，所述专用知识包括用于表征所述目标语音所表达问题的专用意图以及所述专用意图的应答话术，所述专用知识设置有生命周期，所述生命周期用于标记任一专用知识在数据库中存在的时间；以所获取的专用知识中的专用意图和应答话术作为针对所述目标场景的意图和对应的应答话术，将所获取的专用知识添加至所述数据库；

7.根据权利要求6所述的装置，其特征在于，所述实时意图识别模型具体用于在接收到所述用户的个人信息、所述目标语音的语音行为、所述目标文本、所述目标场景的场景信息和各个备选意图后，分别生成所述用户的个人信息对应的第一特征向量、所述目标语音的语音行为对应的第二特征向量、所述目标文本对应的第三特征向量、所述目标场景的场景信息对应的第四特征向量和各个备选意图对应的第五特征向量；针对每一备选意图，对该备选意图对应的第五特征向量、所述第一特征向量、第二特征向量、第三特征向量和第四特征向量进行拼接以及降维处理，得到该备选意图对应的稠密向量，所述稠密向量中包括有针对所述第一特征向量降维后所得的第一类元素、针对所述第二特征向量降维后所得的第二类元素、针对所述第三特征向量降维后所得的第三类元素、针对所述第四特征向量降维后所得的第四类元素以及针对该备选意图对应的第五特征向量降维后所得的第五类元素；分别计算该备选意图对应的稠密向量中的所述第一类元素、第二类元素、第三类元素、第四类元素和第五类元素中的任意两个元素之间的二维交叉信息，以及计算该备选意图对应的稠密向量中的所述第一类元素、第二类元素、第三类元素、第四类元素和第五类元素之间的多维交叉信息；将计算得到的二维交叉信息以及多维交叉信息输入预定的激活函数，得到该备选意图对应的匹配概率。

8.根据权利要求6或7所述的装置，其特征在于，所述装置还包括：

语义确定模块，用于在经过语义识别分析后得到的每一备选意图对应的匹配概率中，存在匹配概率大于或等于所述第一预设匹配阈值的情况下，确定对应有第二匹配概率的备选意图；其中，所述第二匹配概率为经过语义识别分析后得到的每一备选意图对应的匹配概率中的最大值；

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。