CN117041430B

CN117041430B - 一种提高智能协调外呼系统的外呼质量及鲁棒方法和装置

Info

Publication number: CN117041430B
Application number: CN202311296049.1A
Authority: CN
Inventors: 周阳; 蔡翰林; 向方正
Original assignee: Chengdu Lechaoren Technology Co ltd
Current assignee: Chengdu Lechaoren Technology Co ltd
Priority date: 2023-10-09
Filing date: 2023-10-09
Publication date: 2023-12-05
Anticipated expiration: 2043-10-09
Also published as: CN117041430A

Abstract

本发明涉及外呼协调技术领域，提供了一种提高智能协调外呼系统的外呼质量及鲁棒方法，包括：利用外呼窗口向客户发送初始外呼话术，通过监听获取客户的客户语音，从客户语音中提取出方言类别；从客户语音中提取出音素特征，根据音素特征和音调特征匹配出语音情感，根据音素特征和方言类别对客户语音进行文本转码，得到客户会话文本；从客户会话文本中提取出会话文本特征，根据语音情感对会话文本特征进行意图分析，得到客户意图；根据客户意图和方言类别生成外呼方案，利用外呼方案和外呼窗口进行迭代外呼。本发明还提出一种提高智能协调外呼系统的外呼质量及鲁棒装置。本发明可以提高协调外呼系统的外呼质量。

Description

一种提高智能协调外呼系统的外呼质量及鲁棒方法和装置

技术领域

本发明涉及外呼协调技术领域，尤其涉及一种提高智能协调外呼系统的外呼质量及鲁棒方法和装置。

背景技术

智能协调外呼系统是一种利用人工智能技术实现的自动化呼叫系统，旨在高效地进行大规模的电话外呼活动，它能够自动拨打电话、识别和理解对方的语音内容，并根据预设的规则和逻辑进行相应的处理，广泛应用于市场营销、客户服务、市场调查、预约提醒等领域。

现有的智能协调外呼系统多为基于简单语义分析的外呼方法，通过利用预先训练好的语义识别模型识别出客户的通话语义，并根据通话语义选取适当的回复话术进行外呼作业，实际应用中，基于简单语义分析的外呼方法无法对使用方言的客户进行准确的语义分析，且无法分析客户在通话时的情绪波动，针对突发状况的反应较差，鲁棒性较低，可能会导致进行协调外呼时外呼质量较低。

发明内容

本发明提供一种提高智能协调外呼系统的外呼质量及鲁棒方法和装置，其主要目的在于解决进行协调外呼时外呼质量较低的问题。

为实现上述目的，本发明提供的一种提高智能协调外呼系统的外呼质量及鲁棒方法，包括：

初始化外呼窗口，利用所述外呼窗口向客户发送初始外呼话术，通过监听获取所述客户针对所述初始外呼话术的客户语音，依次对所述客户语音进行语音除噪和语音标准化操作，得到标准会话语音；

分别从所述标准会话语音中提取出音系特征、音调特征以及发音特征，根据所述音系特征、所述音调特征以及所述发音特征匹配出所述标准会话语音对应的方言类别，其中，所述分别从所述标准会话语音中提取出音系特征、音调特征以及发音特征，包括：从所述标准会话语音中提取出首尾音节，将所述首尾音节中作为音系特征；分别计算出所述标准会话语音的短时过零率和帧间语音能量，将所述短时过零率和所述帧间语音能量汇集成发音特征；利用如下的音调频域转化算法将所述标准会话语音转化成会话语音频域：

其中，是指所述会话语音频域在第/>个语音帧、第/>频率分量上的频域能量，/>是指语音帧的索引，/>是频率的索引，/>是指频域能量，/>是指时间索引，/>是指所述标准会话语音的加窗窗口长度，/>是指所述标准会话语音中第/>个时间索引时的布兰克曼窗函数权重，/>布兰克曼窗函数符号，/>是指所述标准会话语音在第/>个时间索引时的信号值，/>是指所述标准会话语音的帧移，/>是指指数函数，/>是虚数符号，/>是指所述会话语音频域的采样点数；依次从所述会话语音频域中提取出共振峰频率、共振峰带宽以及音频声调，将所述共振峰频率、所述共振峰带宽以及所述音频声调汇集成音调特征；

从所述标准会话语音中提取出音素特征，根据所述音素特征和所述音调特征匹配出所述标准会话语音对应的语音情感，根据所述音素特征和所述方言类别对所述标准会话语音进行文本转码，得到客户会话文本；

依次对所述客户会话文本进行停用词检测和文本特征提取，得到会话文本特征，根据所述语音情感对所述会话文本特征进行意图分析，得到客户意图；

根据所述客户意图和所述方言类别生成外呼方案，利用所述外呼方案和所述外呼窗口进行迭代外呼，直至所述客户结束会话时，关闭所述外呼窗口。

可选地，所述依次对所述客户语音进行语音除噪和语音标准化操作，得到标准会话语音，包括：

将所述客户语音转化成客户语音列信号，对所述客户语音列信号进行时序采样，得到语音时序信号；

根据所述客户语音列信号以及所述语音时序信号生成语音趋势项，并根据所述语音趋势项对所述客户语音进行信号纠偏，得到纠偏会话语音；

根据所述语音时序信号对所述纠偏会话语音进行音频除噪，得到除噪会话语音；

根据预设的帧长度和帧移对所述除噪会话语音进行音频分帧操作，得到分帧会话语音；

利用汉明窗对所述分帧会话语音进行加窗操作，得到标准会话语音。

可选地，所述根据所述音系特征、所述音调特征以及所述发音特征匹配出所述标准会话语音对应的方言类别，包括：

利用预设的全局池化层将所述音系特征降维成降维音系特征；

利用所述全局池化层将所述音调特征降维成降维音调特征；

利用所述全局池化层将所述发音特征降维成降维发音特征；

将所述降维音系特征、所述降维音调特征以及所述降维发音特征的均值向量作为降维方言特征；

对所述降维方言特征进行特征归一化和特征编码操作，得到方言编码；

从预设的方言库中提取出所述方言编码对应的方言类别。

可选地，所述从所述标准会话语音中提取出音素特征，包括：

对所述标准会话语音进行频域变换，得到会话频域信号；

利用预设的音素滤波组对所述会话频域信号进行多重滤波，得到音素频域信号；

对所述音素频域信号进行对数压缩，得到对数频域信号；

利用如下的音素特征算法计算出所述对数频域信号对应的音素特征：

其中，是指所述音素特征中的第/>个特征系数，/>是指序号，/>是指所述对数频域信号的采样点数，/>是指余弦函数的第/>个归一化系数，/>是指所述对数频域信号的信号序号，/>是指所述对数频域信号的第/>个信号的汉宁窗函数权重，/>为汉宁窗函数符号，是指所述对数频域信号的第/>个信号的采样值。

可选地，所述根据所述音素特征和所述音调特征匹配出所述标准会话语音对应的语音情感，包括：

将所述音素特征标准化成标准音素特征，将所述音调特征标准化成标准音调特征；

将所述标准音素特征和所述标准音调特征拼接成初始情感特征；

对所述初始情感特征进行主成分分析，得到次级情感特征；

对所述次级情感特征进行线性激活，得到标准情感特征；

在预先训练的情感空间内对所述标准情感特征进行情感映射，得到语音情感。

可选地，所述根据所述音素特征和所述方言类别对所述标准会话语音进行文本转码，得到客户会话文本，包括：

逐帧选取所述标准会话语音的语音帧作为目标语音帧，从所述音素特征中选取所述目标语音帧对应的特征作为目标帧音素特征；

根据所述方言类别对所述目标帧音素特征进行双向状态编码，得到目标帧状态编码；

对所述目标帧状态编码进行路径回溯解码，得到目标帧音素，并将所有的目标帧音素拼接成客户音素序列；

依次对所述客户音素序列进行音素对齐和拼音转化操作，得到客户会话文本。

可选地，所述依次对所述客户会话文本进行停用词检测和文本特征提取，得到会话文本特征，包括：

对所述客户会话文本进行文本分词操作，得到客户会话词集；

从所述客户会话词集中筛除停用词，得到标准会话词集；

依次对所述标准会话词集进行词向量化和位置编码操作，得到会话词向量集；

对所述会话词向量集中的各个会话词向量进行拼接，得到会话文本特征。

可选地，所述根据所述语音情感对所述会话文本特征进行意图分析，得到客户意图，包括：

根据所述语音情感生成所述会话文本特征的多头会话编码特征集；

利用自注意力机制计算出所述多头会话编码特征集的文本意图特征；

对所述文本意图特征进行注意力解码，得到会话意图特征；

对所述会话意图特征进行线性激活，得到客户意图。

可选地，所述根据所述客户意图和所述方言类别生成外呼方案，包括：

判断预设的标准意图库中是否包含所述客户意图；

若是，则根据所述方言类别从所述标准意图库中提取出所述客户意图对应的外呼话术，利用所述外呼话术生成外呼方案；

若否，则将所述客户意图发送至所述方言类别对应的人工客服，并利用所述人工客服生成外呼方案。

为了解决上述问题，本发明还提供一种提高智能协调外呼系统的外呼质量及鲁棒装置，所述装置包括：

语音获取模块，用于初始化外呼窗口，利用所述外呼窗口向客户发送初始外呼话术，通过监听获取所述客户针对所述初始外呼话术的客户语音，依次对所述客户语音进行语音除噪和语音标准化操作，得到标准会话语音；

方言匹配模块，用于分别从所述标准会话语音中提取出音系特征、音调特征以及发音特征，根据所述音系特征、所述音调特征以及所述发音特征匹配出所述标准会话语音对应的方言类别，其中，所述分别从所述标准会话语音中提取出音系特征、音调特征以及发音特征，包括：从所述标准会话语音中提取出首尾音节，将所述首尾音节中作为音系特征；分别计算出所述标准会话语音的短时过零率和帧间语音能量，将所述短时过零率和所述帧间语音能量汇集成发音特征；利用如下的音调频域转化算法将所述标准会话语音转化成会话语音频域：

其中，是指所述会话语音频域在第/>个语音帧、第/>频率分量上的频域能量，/>是指语音帧的索引，/>是频率的索引，/>是指频域能量，/>是指时间索引，/>是指所述标准会话语音的加窗窗口长度，/>是指所述标准会话语音中第/>个时间索引时的布兰克曼窗函数权重，/>布兰克曼窗函数符号，/>是指所述标准会话语音在第/>时间段时个时间索引时的信号值，/>是指所述标准会话语音的帧移，/>是指指数函数，/>是虚数符号，/>是指所述会话语音频域的采样点数；依次从所述会话语音频域中提取出共振峰频率、共振峰带宽以及音频声调，将所述共振峰频率、所述共振峰带宽以及所述音频声调汇集成音调特征；

文本提取模块，用于从所述标准会话语音中提取出音素特征，根据所述音素特征和所述音调特征匹配出所述标准会话语音对应的语音情感，根据所述音素特征和所述方言类别对所述标准会话语音进行文本转码，得到客户会话文本；

意图分析模块，用于依次对所述客户会话文本进行停用词检测和文本特征提取，得到会话文本特征，根据所述语音情感对所述会话文本特征进行意图分析，得到客户意图；

迭代外呼模块，用于根据所述客户意图和所述方言类别生成外呼方案，利用所述外呼方案和所述外呼窗口进行迭代外呼，直至所述客户结束会话时，关闭所述外呼窗口。

本发明实施例通过初始化外呼窗口，利用所述外呼窗口向客户发送初始外呼话术，可以与客户建立会话窗口，从而开始外呼工作，通过监听获取所述客户针对所述初始外呼话术的客户语音，依次对所述客户语音进行语音除噪和语音标准化操作，得到标准会话语音，可以提高客户语音质量，方便后续客户的意图识别，从而提高外呼质量，通过根据所述音系特征、所述音调特征以及所述发音特征匹配出所述标准会话语音对应的方言类别，可以结合多维度的语音特征匹配出所述客户所使用的方言，从而方便后续对客户语音的解析，也方便后续针对方言的话术选择，进而提高外呼质量，通过所述从所述标准会话语音中提取出音素特征，根据所述音素特征和所述音调特征匹配出所述标准会话语音对应的语音情感，可以确定出所述标准会话语音中每时刻客户的实时情感，从而提高客户语义分析的准确性，并优化外呼系统的话术方案，提高外呼质量，通过根据所述音素特征和所述方言类别对所述标准会话语音进行文本转码，得到客户会话文本，可以方便理解客户意图。

通过依次对所述客户会话文本进行停用词检测和文本特征提取，得到会话文本特征，根据所述语音情感对所述会话文本特征进行意图分析，得到客户意图，可以结合语音情感实现语义识别，得到客户的意图，从而提高客户意图分析的准确性，提高外呼话术的匹配度，通过根据所述客户意图和所述方言类别生成外呼方案，利用所述外呼方案和所述外呼窗口进行迭代外呼，直至所述客户结束会话时，关闭所述外呼窗口，可以针对不同方言的客户选用熟悉的方言话术进行外呼，提高外呼的适应性，并通过转接人工客服提高外呼服务的鲁棒性。因此本发明提出的提高智能协调外呼系统的外呼质量及鲁棒方法和装置，可以解决进行协调外呼时外呼质量较低的问题。

附图说明

图1为本发明一实施例提供的提高智能协调外呼系统的外呼质量及鲁棒方法的流程示意图；

图2为本发明一实施例提供的提取语音情感的流程示意图；

图3为本发明一实施例提供的分析客户意图的流程示意图；

图4为本发明一实施例提供的提高智能协调外呼系统的外呼质量及鲁棒装置的功能模块图；

图中：100、提高智能协调外呼系统的外呼质量及鲁棒装置；101、语音获取模块；102、方言匹配模块；103、文本提取模块；104、意图分析模块；105、迭代外呼模块。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例提供一种提高智能协调外呼系统的外呼质量及鲁棒方法。所述提高智能协调外呼系统的外呼质量及鲁棒方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之，所述提高智能协调外呼系统的外呼质量及鲁棒方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

参照图1所示，为本发明一实施例提供的提高智能协调外呼系统的外呼质量及鲁棒方法的流程示意图。在本实施例中，所述提高智能协调外呼系统的外呼质量及鲁棒方法包括：

S1、初始化外呼窗口，利用所述外呼窗口向客户发送初始外呼话术，通过监听获取所述客户针对所述初始外呼话术的客户语音，依次对所述客户语音进行语音除噪和语音标准化操作，得到标准会话语音。

本发明实施例中，所述外呼窗口是指向客户推销产品或服务、处理投诉、提供解决方案等情况下的通话窗口，所述初始外呼话术为预先设置的定型语音或录音，用于向用户初步介绍产品或自我介绍，所述客户语音是指所述客户在接收到所述初始外呼话术后针对所述初始外呼话术的回复语音。

本发明实施例中，所述依次对所述客户语音进行语音除噪和语音标准化操作，得到标准会话语音，包括：

详细地，所述客户语音列信号是一端连续的列向量数据，可以利用MATLAB工具将所述客户语音转化成客户语音列信号，所述对所述客户语音列信号进行时序采样，得到语音时序信号是指按照固定的采样频率对所述客户语音列信号进行数据采样，得到语音时序信号。

具体地，所述语音趋势项是指所述客户语音的振动信号数据，用于表述传感器由于环境或振动干扰，导致振动信号数据偏离数据基线的行为，可以利用最小二乘法根据所述客户语音列信号以及所述语音时序信号生成语音趋势项。

具体地，所述根据所述语音趋势项对所述客户语音进行信号纠偏，得到纠偏会话语音是指从所述客户语音中删除所述语音趋势项，得到纠偏会话语音，可以利用FilterDesigner滤波器根据所述语音时序信号对所述纠偏会话语音进行音频除噪，得到除噪会话语音是指从所述纠偏会话语音，所述帧长度是指每个语音帧的长度，所述帧移是指分帧时每一帧语音的时间长度。

本发明实施例中，通过初始化外呼窗口，利用所述外呼窗口向客户发送初始外呼话术，可以与客户建立会话窗口，从而开始外呼工作，通过监听获取所述客户针对所述初始外呼话术的客户语音，依次对所述客户语音进行语音除噪和语音标准化操作，得到标准会话语音，可以提高客户语音质量，方便后续客户的意图识别，从而提高外呼质量。

S2、分别从所述标准会话语音中提取出音系特征、音调特征以及发音特征，根据所述音系特征、所述音调特征以及所述发音特征匹配出所述标准会话语音对应的方言类别。

本发明实施例中，所述音系特征是指各地区发音方式上的特征、所述音调特征是指平调、上升调、下降调等声调上的特征，所述发音特征是指元音、辅音以及浊音等发音的差异特征。

本发明实施例中，所述分别从所述标准会话语音中提取出音系特征、音调特征以及发音特征，包括：

从所述标准会话语音中提取出首尾音节，将所述首尾音节中作为音系特征；

分别计算出所述标准会话语音的短时过零率和帧间语音能量，将所述短时过零率和所述帧间语音能量汇集成发音特征；

利用如下的音调频域转化算法将所述标准会话语音转化成会话语音频域：

其中，是指所述会话语音频域在第/>个语音帧、第/>频率分量上的频域能量，/>是指语音帧的索引，/>是频率的索引，/>是指频域能量，/>是指时间索引，/>是指所述标准会话语音的加窗窗口长度，/>是指所述标准会话语音中第/>个时间索引时的布兰克曼窗函数权重，/>是时间索引，/>布兰克曼窗函数符号，/>是指所述标准会话语音在第/>个时间索引时的信号值，/>是指所述标准会话语音的帧移，/>是指指数函数，是虚数符号，/>是指所述会话语音频域的采样点数；

依次从所述会话语音频域中提取出共振峰频率、共振峰带宽以及音频声调，将所述共振峰频率、所述共振峰带宽以及所述音频声调汇集成音调特征。

具体地，可以通过端点检测或静音检测等方法从所述标准会话语音中提取出首尾音节，从所述首尾音节中提取出音系特征，所述短时过零率是指在一个短时窗口内语音信号穿过零点的次数，其中，所述零点是指信号从正变为负或从负变为正的交叉点，所述帧间语音能量表示在一个帧内语音信号的能量，可以通过将帧内每个样本的平方相加，然后对结果进行缩放得到帧间语音能量。

详细地，所述共振峰频率（Formant Frequency）是指在语音信号中具有较高能量的频率区域，所述共振峰带宽（Formant Bandwidth）是指共振峰在频率轴上的宽度，表示共振峰的频率范围，所述音频声调是指音频信号的基频，它表示音频信号中重复发生的基本周期，通常对应于人耳所感知到的音高。

本发明实施例中，通过利用所述音调频域转化算法将所述标准会话语音转化成会话语音频域，可以获得不同时间段内音频信号的频率信息，可以更好地理解音频在不同时间段内的频谱特征。

详细地，所述根据所述音系特征、所述音调特征以及所述发音特征匹配出所述标准会话语音对应的方言类别，包括：

利用所述全局池化层将所述音调特征降维成降维音调特征；

利用所述全局池化层将所述发音特征降维成降维发音特征；

从预设的方言库中提取出所述方言编码对应的方言类别。

详细地，所述全局池化层（Global Pooling Layer）是深度学习神经网络中常用的一种层类型，所述全局池化层用于将输入特征的空间维度降低为一个固定长度的向量。

具体的，可以利用softmax或sigmoid函数对所述降维方言特征进行特征归一化和特征编码操作，得到方言编码，所述方言库是由多种方言和对应的方言编码组成的方言库，且每个方言和方言编码的对应关系由大量方言数据训练的支持向量机模型或随机森林模型确定。

本发明实施例中，通过根据所述音系特征、所述音调特征以及所述发音特征匹配出所述标准会话语音对应的方言类别，可以结合多维度的语音特征匹配出所述客户所使用的方言，从而方便后续对客户语音的解析，也方便后续针对方言的话术选择，进而提高外呼质量。

S3、从所述标准会话语音中提取出音素特征，根据所述音素特征和所述音调特征匹配出所述标准会话语音对应的语音情感，根据所述音素特征和所述方言类别对所述标准会话语音进行文本转码，得到客户会话文本。

本发明实施例中，所述音素特征是指语音信号的波形特征，所述语音情感数值所述标准会话语音中表达出来的客户的情感，例如“平静”、“焦躁”、或者“愤怒”等。

本发明实施例中，所述从所述标准会话语音中提取出音素特征，包括：

对所述标准会话语音进行频域变换，得到会话频域信号；

对所述音素频域信号进行对数压缩，得到对数频域信号；

具体地，可以利用快速傅里叶变换算法对所述标准会话语音进行频域变换，得到会话频域信号，所述音素滤波组可以是梅尔滤波器组。

具体地，通过利用所述音素特征算法计算出所述对数频域信号对应的音素特征可以将音频信号中的频率特征转换为更符合人耳听觉感知的频率特征，有助于音频信号处理中的分类、识别和检索等任务的性能提升。

详细地，参照图2所示，所述根据所述音素特征和所述音调特征匹配出所述标准会话语音对应的语音情感，包括：

S21、将所述音素特征标准化成标准音素特征，将所述音调特征标准化成标准音调特征；

S22、将所述标准音素特征和所述标准音调特征拼接成初始情感特征；

S23、对所述初始情感特征进行主成分分析，得到次级情感特征；

S24、对所述次级情感特征进行线性激活，得到标准情感特征；

S25、在预先训练的情感空间内对所述标准情感特征进行情感映射，得到语音情感。

详细地，所述将所述音素特征标准化成标准音素特征，将所述音调特征标准化成标准音调特征是指将所述音素特征和所述音调特征的特征长度和特征维度规范至统一长度，所述主成分分析（Principal Component Analysis，PCA）是一种常用的数据降维技术和数据探索方法，通过线性变换将原始数据从高维空间投影到低维空间，以提取数据中的主要特征或结构。

具体地，可以利用Linear激活函数或Leaky ReLU激活函数对所述次级情感特征进行线性激活，得到标准情感特征，所述所述情感空间可以是利用大量的标注了语音情感的标准情感特征训练后的支持向量机模型的核函数。

本发明实施例中，所述根据所述音素特征和所述方言类别对所述标准会话语音进行文本转码，得到客户会话文本，包括：

具体地，可以利用针对不同方言类别的语音数据集训练后的隐马尔可夫模型（Hidden Markov Model，简称HMM）根据所述方言类别对所述目标帧音素特征进行双向状态编码，得到目标帧状态编码，可以利用维比特算法（Viterbi Algorithm）或Baum-Welch算法（Forward-Backward Algorithm）对所述目标帧状态编码进行路径回溯解码，得到目标帧音素，可以利用基于字典的方法或自注意力模型等深度学习的方法依次对所述客户音素序列进行音素对齐和拼音转化操作，得到客户会话文本。

本发明实施例中，通过所述从所述标准会话语音中提取出音素特征，根据所述音素特征和所述音调特征匹配出所述标准会话语音对应的语音情感，可以确定出所述标准会话语音中每时刻客户的实时情感，从而提高客户语义分析的准确性，并优化外呼系统的话术方案，提高外呼质量，通过根据所述音素特征和所述方言类别对所述标准会话语音进行文本转码，得到客户会话文本，可以方便理解客户意图。

S4、依次对所述客户会话文本进行停用词检测和文本特征提取，得到会话文本特征，根据所述语音情感对所述会话文本特征进行意图分析，得到客户意图。

本发明实施例中，所述会话文本特征是指所述客户会话文本的词向量组成的特征，通过从所述客户会话文本中提取出会话文本特征，可以方便处理文本数据，从而提高客户意图的准确性。

本发明实施例中，所述依次对所述客户会话文本进行停用词检测和文本特征提取，得到会话文本特征，包括：

从所述客户会话词集中筛除停用词，得到标准会话词集；

详细地，可以利用双向最大匹配算法或正向最大匹配算法对所述客户会话文本进行文本分词操作，得到客户会话词集，可以利用停用词表匹配的方法从所述客户会话词集中筛除停用词，得到标准会话词集，其中，所述停用词表（Stopword List）是在自然语言处理任务中用于过滤掉常见但无实际语义意义的词语列表，这些词语通常是一些常见的功能词、代词、连词、介词等，可以利用word2Vec或GloVe等编码方式依次对所述标准会话词集进行词向量化，所述位置编码是指所述标准会话词集中每个标准会话词语在词集中所处位置的位置特征，将所述位置特征添加在向量化后的标准会话词语后，得到会话词向量。

详细地，所述客户意图是指客户在标准会话语音中包含的意图，例如要求进一步介绍服务、要求更换人工客服或者是沉默、训斥等突发意图。

详细地，参照图3所示，所述根据所述语音情感对所述会话文本特征进行意图分析，得到客户意图，包括：

S31、根据所述语音情感生成所述会话文本特征的多头会话编码特征集；

S32、利用自注意力机制计算出所述多头会话编码特征集的文本意图特征；

S33、对所述文本意图特征进行注意力解码，得到会话意图特征；

S34、对所述会话意图特征进行线性激活，得到客户意图。

具体地，可以利用多头注意力机制根据所述语音情感生成所述会话文本特征的多头会话编码特征集，所述利用自注意力机制计算出所述多头会话编码特征集的文本意图特征是指将所述多头会话编码特征集中的各向量进行矩阵计算，并进行归一化操作，得到文本意图特征。

详细地，可以利用经过大量标注了客户意图的会话意图特征训练后的Transformer模型对所述文本意图特征进行注意力解码，得到会话意图特征，即利用多个位置前馈网络、残差网络层以及归一化层对所述文本意图特征进行解码，得到会话意图特征。

本发明实施例中，通过依次对所述客户会话文本进行停用词检测和文本特征提取，得到会话文本特征，根据所述语音情感对所述会话文本特征进行意图分析，得到客户意图，可以结合语音情感实现语义识别，得到客户的意图，从而提高客户意图分析的准确性，提高外呼话术的匹配度。

S5、根据所述客户意图和所述方言类别生成外呼方案，利用所述外呼方案和所述外呼窗口进行迭代外呼，直至所述客户结束会话时，关闭所述外呼窗口。

本发明实施例中，所述外呼方案是指针对所述客户语音的系统反馈语音，可以是一种话术的语音录音，或者是协作的人工客服转接服务。

本发明实施例中，所述根据所述客户意图和所述方言类别生成外呼方案，包括：

判断预设的标准意图库中是否包含所述客户意图；

详细地，所述标准意图库包含着预设的多种情况下的客户意图以及对应的不同方言的回复话术录音，所述利用所述人工客服生成外呼方案是指利用人工客服进行转接。

具体地，所述利用所述外呼方案和所述外呼窗口进行迭代外呼是指通过所述外呼窗口将所述外呼方案传递给所述客户后，返回所述通过监听获取所述客户针对所述初始外呼话术的客户语音的步骤。

本发明实施例中，通过根据所述客户意图和所述方言类别生成外呼方案，利用所述外呼方案和所述外呼窗口进行迭代外呼，直至所述客户结束会话时，关闭所述外呼窗口，可以针对不同方言的客户选用熟悉的方言话术进行外呼，提高外呼的适应性，并通过转接人工客服提高外呼服务的鲁棒性，进而提高外呼的整体效率。

通过依次对所述客户会话文本进行停用词检测和文本特征提取，得到会话文本特征，根据所述语音情感对所述会话文本特征进行意图分析，得到客户意图，可以结合语音情感实现语义识别，得到客户的意图，从而提高客户意图分析的准确性，提高外呼话术的匹配度，通过根据所述客户意图和所述方言类别生成外呼方案，利用所述外呼方案和所述外呼窗口进行迭代外呼，直至所述客户结束会话时，关闭所述外呼窗口，可以针对不同方言的客户选用熟悉的方言话术进行外呼，提高外呼的适应性，并通过转接人工客服提高外呼服务的鲁棒性。因此本发明提出的提高智能协调外呼系统的外呼质量及鲁棒方法，可以解决进行协调外呼时外呼质量较低的问题。

如图4所示，是本发明一实施例提供的提高智能协调外呼系统的外呼质量及鲁棒装置的功能模块图。

本发明所述提高智能协调外呼系统的外呼质量及鲁棒装置100可以安装于电子设备中。根据实现的功能，所述提高智能协调外呼系统的外呼质量及鲁棒装置100可以包括语音获取模块101、方言匹配模块102、文本提取模块103、意图分析模块104及迭代外呼模块105。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

所述语音获取模块101，用于初始化外呼窗口，利用所述外呼窗口向客户发送初始外呼话术，通过监听获取所述客户针对所述初始外呼话术的客户语音，依次对所述客户语音进行语音除噪和语音标准化操作，得到标准会话语音；

所述方言匹配模块102，用于分别从所述标准会话语音中提取出音系特征、音调特征以及发音特征，根据所述音系特征、所述音调特征以及所述发音特征匹配出所述标准会话语音对应的方言类别，其中，所述分别从所述标准会话语音中提取出音系特征、音调特征以及发音特征，包括：从所述标准会话语音中提取出首尾音节，将所述首尾音节中作为音系特征；分别计算出所述标准会话语音的短时过零率和帧间语音能量，将所述短时过零率和所述帧间语音能量汇集成发音特征；利用如下的音调频域转化算法将所述标准会话语音转化成会话语音频域：

其中，是指所述会话语音频域在第/>个语音帧、第/>频率分量上的频域能量，/>是指语音帧的索引，/>是频率的索引，/>是指频域能量，/>是指时间索引，/>是指所述标准会话语音的加窗窗口长度，/>是指所述标准会话语音中第/>个时间索引时的布兰克曼窗函数权重，/>是时间索引，/>布兰克曼窗函数符号，/>是指所述标准会话语音在第/>个时间索引时的信号值，/>是指所述标准会话语音的帧移，/>是指指数函数，是虚数符号，/>是指所述会话语音频域的采样点数；依次从所述会话语音频域中提取出共振峰频率、共振峰带宽以及音频声调，将所述共振峰频率、所述共振峰带宽以及所述音频声调汇集成音调特征；

所述文本提取模块103，用于从所述标准会话语音中提取出音素特征，根据所述音素特征和所述音调特征匹配出所述标准会话语音对应的语音情感，根据所述音素特征和所述方言类别对所述标准会话语音进行文本转码，得到客户会话文本；

所述意图分析模块104，用于依次对所述客户会话文本进行停用词检测和文本特征提取，得到会话文本特征，根据所述语音情感对所述会话文本特征进行意图分析，得到客户意图；

所述迭代外呼模块105，用于根据所述客户意图和所述方言类别生成外呼方案，利用所述外呼方案和所述外呼窗口进行迭代外呼，直至所述客户结束会话时，关闭所述外呼窗口。

详细地，本发明实施例中所述提高智能协调外呼系统的外呼质量及鲁棒装置100中所述的各模块在使用时采用与上述图1至图3中所述的提高智能协调外呼系统的外呼质量及鲁棒方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能（Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统实施例中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种提高智能协调外呼系统的外呼质量及鲁棒方法，其特征在于，所述方法包括：

S1：初始化外呼窗口，利用所述外呼窗口向客户发送初始外呼话术，通过监听获取所述客户针对所述初始外呼话术的客户语音，依次对所述客户语音进行语音除噪和语音标准化操作，得到标准会话语音；

S2：分别从所述标准会话语音中提取出音系特征、音调特征以及发音特征，根据所述音系特征、所述音调特征以及所述发音特征匹配出所述标准会话语音对应的方言类别，其中，所述分别从所述标准会话语音中提取出音系特征、音调特征以及发音特征，包括：

从所述标准会话语音中提取出首尾音节，将所述首尾音节作为音系特征；

其中，是指所述会话语音频域在第/>个语音帧、第/>频率分量上的频域能量，/>是指语音帧的索引，/>是频率的索引，/>是指频域能量，/>是指时间索引，/>是指所述标准会话语音的加窗窗口长度，/>是指所述标准会话语音中第/>个时间索引时的布兰克曼窗函数权重，/>布兰克曼窗函数符号，/>是指所述标准会话语音在第/>个时间索引时的信号值，/>是指所述标准会话语音的帧移，/>是指指数函数，/>是虚数符号，/>是指所述会话语音频域的采样点数；

依次从所述会话语音频域中提取出共振峰频率、共振峰带宽以及音频声调，将所述共振峰频率、所述共振峰带宽以及所述音频声调汇集成音调特征；

S3：从所述标准会话语音中提取出音素特征，根据所述音素特征和所述音调特征匹配出所述标准会话语音对应的语音情感，根据所述音素特征和所述方言类别对所述标准会话语音进行文本转码，得到客户会话文本；

S4：依次对所述客户会话文本进行停用词检测和文本特征提取，得到会话文本特征，根据所述语音情感对所述会话文本特征进行意图分析，得到客户意图；

S5：根据所述客户意图和所述方言类别生成外呼方案，利用所述外呼方案和所述外呼窗口进行迭代外呼，直至所述客户结束会话时，关闭所述外呼窗口。

2.如权利要求1所述的提高智能协调外呼系统的外呼质量及鲁棒方法，其特征在于，所述依次对所述客户语音进行语音除噪和语音标准化操作，得到标准会话语音，包括：

3.如权利要求1所述的提高智能协调外呼系统的外呼质量及鲁棒方法，其特征在于，所述根据所述音系特征、所述音调特征以及所述发音特征匹配出所述标准会话语音对应的方言类别，包括：

利用所述全局池化层将所述音调特征降维成降维音调特征；

利用所述全局池化层将所述发音特征降维成降维发音特征；

从预设的方言库中提取出所述方言编码对应的方言类别。

4.如权利要求1所述的提高智能协调外呼系统的外呼质量及鲁棒方法，其特征在于，所述从所述标准会话语音中提取出音素特征，包括：

对所述标准会话语音进行频域变换，得到会话频域信号；

对所述音素频域信号进行对数压缩，得到对数频域信号；

其中，是指所述音素特征中的第/>个特征系数，/>是指序号，/>是指所述对数频域信号的采样点数，/>是指余弦函数的第/>个归一化系数，/>是指所述对数频域信号的信号序号，是指所述对数频域信号的第/>个信号的汉宁窗函数权重，/>为汉宁窗函数符号，/>是指所述对数频域信号的第/>个信号的采样值。

5.如权利要求1所述的提高智能协调外呼系统的外呼质量及鲁棒方法，其特征在于，所述根据所述音素特征和所述音调特征匹配出所述标准会话语音对应的语音情感，包括：

对所述初始情感特征进行主成分分析，得到次级情感特征；

对所述次级情感特征进行线性激活，得到标准情感特征；

6.如权利要求1所述的提高智能协调外呼系统的外呼质量及鲁棒方法，其特征在于，所述根据所述音素特征和所述方言类别对所述标准会话语音进行文本转码，得到客户会话文本，包括：

7.如权利要求1所述的提高智能协调外呼系统的外呼质量及鲁棒方法，其特征在于，所述依次对所述客户会话文本进行停用词检测和文本特征提取，得到会话文本特征，包括：

从所述客户会话词集中筛除停用词，得到标准会话词集；

8.如权利要求1所述的提高智能协调外呼系统的外呼质量及鲁棒方法，其特征在于，所述根据所述语音情感对所述会话文本特征进行意图分析，得到客户意图，包括：

对所述文本意图特征进行注意力解码，得到会话意图特征；

对所述会话意图特征进行线性激活，得到客户意图。

9.如权利要求1所述的提高智能协调外呼系统的外呼质量及鲁棒方法，其特征在于，所述根据所述客户意图和所述方言类别生成外呼方案，包括：

判断预设的标准意图库中是否包含所述客户意图；

10.一种提高智能协调外呼系统的外呼质量及鲁棒装置，其特征在于，所述装置包括：

方言匹配模块，用于分别从所述标准会话语音中提取出音系特征、音调特征以及发音特征，根据所述音系特征、所述音调特征以及所述发音特征匹配出所述标准会话语音对应的方言类别，其中，所述分别从所述标准会话语音中提取出音系特征、音调特征以及发音特征，包括：从所述标准会话语音中提取出首尾音节，将所述首尾音节作为音系特征；分别计算出所述标准会话语音的短时过零率和帧间语音能量，将所述短时过零率和所述帧间语音能量汇集成发音特征；利用如下的音调频域转化算法将所述标准会话语音转化成会话语音频域：