CN114666449B

CN114666449B - 一种呼叫系统的语音数据处理方法及呼叫系统

Info

Publication number: CN114666449B
Application number: CN202210316189.XA
Authority: CN
Inventors: 胡晨晴; 尤伊凤
Original assignee: Shenzhen Yinfutong Enterprise Management Consulting Co ltd
Current assignee: Shenzhen Yinfutong Enterprise Management Consulting Co ltd
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2022-12-06
Anticipated expiration: 2042-03-29
Also published as: CN114666449A

Abstract

本发明提出一种呼叫系统的语音数据处理方法及呼叫系统，通过对话务员的实时通话语音数据执行语音识别以获取对应的实时通话文本数据，对所述实时通话文本数据执行切片处理得到以短语、词汇或单字为单位的最小语义文本单元，对所述实时通话语音数据执行切片处理得到与所述最小语义单元对应的最小语义音频单元，根据所述实时通话文本数据匹配所述通话录音数据库中相同音色分类下具有最多连续相同最小语义文本单元的高分区间分类的录音数据，提取该录音数据的声音特征，根据所述声音特征对所述实时通话语音数据进行处理，将处理后的所述实时通话语音数据发送给通话对端，可以提升话务员声音的亲和力，改善话务员的声音形象。

Description

一种呼叫系统的语音数据处理方法及呼叫系统

技术领域

本发明涉及通信技术领域，特别涉及一种呼叫系统的语音数据处理方法及呼叫系统。

背景技术

呼叫系统是充分利用现代通讯与计算机技术，如IVR(交互式语音应答系统)、ACD(自动呼叫分配系统)等等，可以自动灵活地处理大量各种不同的电话呼入和呼出业务和服务的话务处理系统。现代呼叫系统是结合了计算机(软硬件)技术、Internet技术、计算机电话集成技术(CTI)、数据仓库(商业智能BI)技术、客户关系管理(CRM)技术、交换机(PBX)通讯技术和企业ERP技术等为一体的统一、高效的服务工作平台，集中化地安置坐席，采用统一的标准服务模式，为用户提供系统化、智能化、人性化的服务。

话务员使用呼叫系统最基本的工作就是沟通，行业特殊性决定了交流只能通过声音语气传达，这就要求话务员具备专业、亲和的声音形象。话务员每天需要与大量的客户进行沟通，专业优质的语音无疑是成功沟通的基础。但目前很多企业的话务员沟通缺乏亲和力、对于树立专业的声音形象欠缺改善方法、不懂得科学发声塑造亲和力等等问题。虽然通过后天训练可以塑造更加专业的声音，但话务员的发声技巧培训难度大、培训周期长，无疑会给企业增加极大的成本负担，因此期望从呼叫系统的技术层面帮助企业解决这个问题。

发明内容

本发明正是基于上述问题，提出了一种呼叫系统的语音数据处理方法及呼叫系统，可以提升话务员声音的亲和力，改善话务员的声音形象。

有鉴于此，本发明的第一方面提出了一种基于人工智能的呼叫系统，包括：

语音数据获取模块，用于获取话务员的实时通话语音数据；

频谱信息提取模块，用于从所述实时通话语音数据中提取问候语的频谱信息；

音色分类模块，用于根据所述问候语频谱信息中的谐波特征匹配所述实时通话语音数据的音色分类；

预分类模块，用于将所述话务员的通话语音数据输入相应音色分类的神经网络模型中进行预分类；

通话语音优化模块，用于当所述话务员的通话语音数据的预分类结果为低分区间分类时，对所述实时通话语音数据进行实时优化处理；

语音数据发送模块，用于将处理后的所述实时通话语音数据发送给通话对端。

进一步的，在上述的基于人工智能的呼叫系统中，还包括：

录音数据获取模块，用于获取呼叫系统通话录音数据库中的录音数据及对应的评价信息；

所述频谱信息提取模块还用于从每一份所述通话录音中提取相同语音内容对应的频谱信息；

所述音色分类模块还用于提取所述频谱信息中的谐波特征以对所述录音数据执行音色分类；

所述呼叫系统还包括：

评价信息分类模块，用于将所述录音数据的评价信息划分为高分区间和低分区间，根据所述高分区间和所述低分区间的评分数值对所述录音数据执行评价分类；

信息关联模块，用于将所述录音数据与对应的音色分类、评价分类相关联；

样本数据划分模块，用于按照预设比例将所述分类后的录音数据划分为训练样本数据和测试样本数据。

进一步的，在上述的基于人工智能的呼叫系统中，还包括：

训练参数配置模块，用于配置神经网络模型的训练参数；(合并特征信号矩阵；配置输入输出数据维度；初始化网络结构和权值)

归一化处理模块，用于对所述训练样本数据进行归一化处理；

神经网络训练模块，用于顺序将每一个所述训练样本数据输入所述神经网络模型中进行训练；

误差计算模块，用于计算每一个所述训练样本数据的误差值；

权重矩阵修正模块，用于根据所述误差值对所述神经网络模型中的权重矩阵进行修正。

进一步的，在上述的基于人工智能的呼叫系统中，所述归一化处理模块还用于对所述测试样本数据进行归一化处理，所述神经网络训练模块还用于顺序将每一个所述测试样本数据输入相应音色分类的神经网络模型中进行测试，所述误差计算模块还用于计算每一个所述测试样本数据的误差值，所述呼叫系统还包括：

音色分类确定模块，用于根据所述误差值得到训练错误率高的音色分类；

所述录音数据获取模块还用于从所述呼叫系统通话录音数据库中获取相应音色分类的其它录音数据及对应的评价信息作为新的训练样本数据以继续训练相应音色分类的神经网络模型。

进一步的，在上述的基于人工智能的呼叫系统中，所述通话语音优化模块具体包括：

录音数据获取子模块，用于获取与所述实时通话语音数据的音色分类相同的高分区间分类的录音数据；

声音特征提取子模块，用于提取该录音数据的声音特征(语速、音调)；

语音数据处理子模块，用于根据所述声音特征对所述实时通话语音数据进行处理。

本发明的第二方面提出了一种呼叫系统的语音数据处理方法，包括：

获取话务员的实时通话语音数据；

从所述实时通话语音数据中提取问候语的频谱信息；

根据所述问候语频谱信息中的谐波特征匹配所述实时通话语音数据的音色分类；

将所述话务员的通话语音数据输入相应音色分类的神经网络模型中进行预分类；

当所述话务员的通话语音数据的预分类结果为低分区间分类时，对所述实时通话语音数据进行实时优化处理；

将处理后的所述实时通话语音数据发送给通话对端。

进一步的，在上述的语音数据处理方法中，还包括：

获取呼叫系统通话录音数据库中的录音数据及对应的评价信息；

从每一份所述通话录音中提取相同语音内容对应的频谱信息；

提取所述频谱信息中的谐波特征以对所述录音数据执行音色分类；

将所述录音数据的评价信息划分为高分区间和低分区间，根据所述高分区间和所述低分区间的评分数值对所述录音数据执行评价分类；

将所述录音数据与对应的音色分类、评价分类相关联；

按照预设比例将所述分类后的录音数据划分为训练样本数据和测试样本数据。

进一步的，在上述的语音数据处理方法中，还包括：

配置神经网络模型的训练参数；(合并特征信号矩阵；配置输入输出数据维度；初始化网络结构和权值)

对所述训练样本数据进行归一化处理；

顺序将每一个所述训练样本数据输入所述神经网络模型中进行训练；

计算每一个所述训练样本数据的误差值；

根据所述误差值对所述神经网络模型中的权重矩阵进行修正。

进一步的，在上述的语音数据处理方法中，还包括：

对所述测试样本数据进行归一化处理；

顺序将每一个所述测试样本数据输入相应音色分类的神经网络模型中进行测试；

计算每一个所述测试样本数据的误差值；

根据所述误差值得到训练错误率高的音色分类；

从所述呼叫系统通话录音数据库中获取相应音色分类的其它录音数据及对应的评价信息作为新的训练样本数据以继续训练相应音色分类的神经网络模型。

进一步的，在上述的语音数据处理方法中，对所述实时通话语音数据进行实时优化处理的步骤具体包括：

获取与所述实时通话语音数据的音色分类相同的高分区间分类的录音数据；

提取该录音数据的声音特征(语速、音调)；

根据所述声音特征对所述实时通话语音数据进行处理。

本发明的第三方面提出了一种呼叫系统，包括：

语音识别模块，用于对话务员的实时通话语音数据执行语音识别以获取对应的实时通话文本数据；

文本切片模块，用于对所述实时通话文本数据执行切片处理得到以短语、词汇或单字为单位的最小语义文本单元；

语音切片模块，用于对所述实时通话语音数据执行切片处理得到与所述最小语义文本单元对应的最小语义音频单元；

录音数据匹配模块，用于根据所述实时通话文本数据匹配所述通话录音数据库中相同音色分类下具有最多连续相同最小语义文本单元的高分区间分类的录音数据；

声音特征提取模块，提取该录音数据的声音特征(语速、音调)；

语音数据处理模块，用于根据所述声音特征对所述实时通话语音数据进行处理；

进一步的，在上述的呼叫系统中，还包括：

语音数据获取模块，用于获取话务员的实时通话语音数据；

通话语音优化模块，用于当所述话务员的通话语音数据的预分类结果为低分区间分类时，执行所述对话务员的实时通话语音数据执行语音识别以获取对应的实时通话文本数据及其后续步骤。

进一步的，在上述的呼叫系统中，还包括：

所述语音识别模块还用于对所述通话录音执行语音识别以获取对应的通话文本数据；

所述文本切片模块还用于对所述通话文本数据执行切片处理得到以短语、词汇或单字为单位的最小语义文本单元；

所述语音切片模块还用于对所述通话录音数据执行切片处理得到与所述最小语义文本单元对应的最小语义音频单元；

所述呼叫系统还包括：

信息关联模块，用于将每一个所述最小语义文本单元、最小语义音频单元与对应的音色分类、评价分类相关联；

样本数据划分模块，用于按照预设比例将每一音色分类下的所述最小语义音频单元划分为训练样本数据和测试样本数据。

进一步的，在上述的呼叫系统中，还包括：

进一步的，在上述的呼叫系统中，所述归一化处理模块还用于对所述测试样本数据进行归一化处理，所述神经网络训练模块还用于顺序将每一个所述测试样本数据输入相应音色分类的神经网络模型中进行测试，所述误差计算模块还用于计算每一个所述测试样本数据的误差值，所述呼叫系统还包括：

本发明的第四方面提出了一种呼叫系统的语音数据处理方法，包括：

对话务员的实时通话语音数据执行语音识别以获取对应的实时通话文本数据；

对所述实时通话文本数据执行切片处理得到以短语、词汇或单字为单位的最小语义文本单元；

对所述实时通话语音数据执行切片处理得到与所述最小语义文本单元对应的最小语义音频单元；

根据所述实时通话文本数据匹配所述通话录音数据库中相同音色分类下具有最多连续相同最小语义文本单元的高分区间分类的录音数据；

提取该录音数据的声音特征(语速、音调)；

根据所述声音特征对所述实时通话语音数据进行处理；

将处理后的所述实时通话语音数据发送给通话对端。

进一步的，在上述的语音数据处理方法中，在所述对话务员的实时通话语音数据执行语音识别以获取对应的实时通话文本数据的步骤之前，还包括：

获取话务员的实时通话语音数据；

从所述实时通话语音数据中提取问候语的频谱信息；

当所述话务员的通话语音数据的预分类结果为低分区间分类时，执行所述对话务员的实时通话语音数据执行语音识别以获取对应的实时通话文本数据及其后续步骤。

进一步的，在上述的语音数据处理方法中，还包括：

对所述通话录音执行语音识别以获取对应的通话文本数据；

对所述通话文本数据执行切片处理得到以短语、词汇或单字为单位的最小语义文本单元；

对所述通话录音数据执行切片处理得到与所述最小语义文本单元对应的最小语义音频单元；

将每一个所述最小语义文本单元、最小语义音频单元与对应的音色分类、评价分类相关联；

按照预设比例将每一音色分类下的所述最小语义音频单元划分为训练样本数据和测试样本数据。

进一步的，在上述的语音数据处理方法中，还包括：

对所述训练样本数据进行归一化处理；

计算每一个所述训练样本数据的误差值；

进一步的，在上述的语音数据处理方法中，还包括：

对所述测试样本数据进行归一化处理；

计算每一个所述测试样本数据的误差值；

根据所述误差值得到训练错误率高的音色分类；

本发明提出一种呼叫系统的语音数据处理方法及呼叫系统，通过对话务员的实时通话语音数据执行语音识别以获取对应的实时通话文本数据，对所述实时通话文本数据执行切片处理得到以短语、词汇或单字为单位的最小语义文本单元，对所述实时通话语音数据执行切片处理得到与所述最小语义文本单元对应的最小语义音频单元，根据所述实时通话文本数据匹配所述通话录音数据库中相同音色分类下具有最多连续相同最小语义文本单元的高分区间分类的录音数据，提取该录音数据的声音特征，根据所述声音特征对所述实时通话语音数据进行处理，将处理后的所述实时通话语音数据发送给通话对端，可以提升话务员声音的亲和力，改善话务员的声音形象。

附图说明

图1是本发明一个实施例提供的一种基于人工智能的呼叫系统的示意框图；

图2是本发明一个实施例提供的一种语音数据处理方法的示意流程图；

图3是本发明一个实施例提供的一种基于人工智能的呼叫系统的示意框图；

图4是本发明一个实施例提供的一种语音数据处理方法的示意流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

在本发明的描述中，术语“多个”则指两个或两个以上，除非另有明确的限定，术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。术语“连接”、“安装”、“固定”等均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本说明书的描述中，术语“一个实施例”、“一些实施方式”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

下面参照图1至图4来描述根据本发明一些实施方式提供的一种基于人工智能的呼叫系统及方法。

如图1所示，本发明的第一方面提出了一种基于人工智能的呼叫系统，包括：

语音数据获取模块，用于获取话务员的实时通话语音数据。即在话务员接通客户来电或者拨通给客户的去电后，实时获取话务员通话过程中的语音数据。

频谱信息提取模块，用于从所述实时通话语音数据中提取问候语的频谱信息。作为标准的通话礼仪要求，话务员无论是在去电或者接听来电的情况下，在电话接通后，都会以一句简短的问候语作为开头，例如，“您好！”、“尊敬的客户，早上好！”等，由于问候语本身较为简短，仅需通过简单的练习即可在发音标准、语速标准和语调标准上达到服务要求，无需对其通话语音进行专门的处理，因此可以对提取到的问候语的频谱信息进行分析，从而以此为基础对后续通话语音数据进行处理。

音色分类模块，用于根据所述问候语频谱信息中的谐波特征匹配所述实时通话语音数据的音色分类。由于声带结构、发声习惯等的差异，每个人的声音在音色上都会有所区别，不同的人之间的音色差异可大可小，其差异性主要集中在其声音频谱信息中的谐波特征上。以谐波的频率、谐波的振幅强度以及谐波的数量等因素的不同范围组合作为分类条件对不同话务员的声音的音色进行分类，可以将音色相近的声音划分到同一音色分类中。

预分类模块，用于将所述话务员的实时通话语音数据输入相应音色分类的神经网络模型中进行预分类。在本发明的技术方案中，对不同的音色分类分别建立相应的用于进行客户评价分类预判的神经网络模型，在话务员与客户的通话过程中，实时获取话务员的通话语音数据，并将这些通话语音数据输入到所述神经网络模型中对其评价分类进行预分类，即根据所述神经网络模型预判所述实时通话语音数据的客户评价分类。所述神经网络模型基于呼叫系统通话录音数据库中的录音数据及对应的评价信息训练得到。

通话语音优化模块，用于当所述话务员的通话语音数据的预分类结果为低分区间分类时，对所述实时通话语音数据进行实时优化处理。当通过所述神经网络模型的预判得到所述实时通话语音数据的预分类结果为低分区间分类时，表明当前获取到的该话务员的实时通话语音数据没有达到服务标准，需要对所述实时通话语音数据进行实时的优化处理。

语音数据发送模块，用于将处理后的所述实时通话语音数据发送给通话对端。所述呼叫系统基于云计算服务器等具有强大运算能力的服务设备建立，能够对海量的语音数据进行实时处理，所述对实时通话语音数据进行实时优化处理带来的轻微延迟可以达到微秒级别，并不影响实时通话过程。

进一步的，在上述的基于人工智能的呼叫系统中，还包括：

录音数据获取模块，用于获取呼叫系统通话录音数据库中的录音数据及对应的评价信息。

所述频谱信息提取模块还用于从每一份所述通话录音中提取相同语音内容对应的频谱信息。企业话务员一般都接受过标准话术训练，在与客户沟通的过程中，采用标准话术进行应对是话务员的基本素质要求。因此，在不同话务员的通话录音数据中，一般都存在大量相同的标准话术对应的语音内容，提取这些相同语音内容对应的频谱信息用于音色分类，使得对所述通话录音的音色分类更为准确。

所述音色分类模块还用于提取所述频谱信息中的谐波特征以对所述录音数据执行音色分类。

所述呼叫系统还包括：

评价信息分类模块，用于将所述录音数据的评价信息划分为高分区间和低分区间，根据所述高分区间和所述低分区间的评分数值对所述录音数据执行评价分类。不同的呼叫系统在客户对话务员的评价方式上采用多种不同的评价方式，有的采用梯度式分值评价方式，例如输入1到10之间的数字，10表示非常满意、1表示非常不满意；有的采用非此即彼的评价方式，例如输入0或1，1表示满意，0表示不满意等。对于前一种，可以设定一个梯度比例作为高分区间和低分区间的划分依据，例如在上述输入1到10之间的数字的实施方式中，采用4：1的划分方式，即1-8分为低分区间，9-10分为高分区间。在另一些实施方式中，还可以设备更多的评价分类，例如划分为高分区间、中等分区间、低分区间等。而对于采用非此即彼的评价方式，则代表满意的1分为高分区间，代表不满意的0分为低为区间。

信息关联模块，用于将所述录音数据与对应的音色分类、评价分类相关联。使所述录音数据与其对应的音色分类、评价分类建立对应关系，以便后续数据处理过程中进行使用。

样本数据划分模块，用于按照预设比例将所述分类后的录音数据划分为训练样本数据和测试样本数据。在本发明的一些实施方式中，对每一种音色分类均取一定数量的录音数据作为样本数据。例如，假设所述呼叫系统的通话录音数据库中的录音数据按音色分类可分为10类，每一个音色分类取1000个录音文件共计10000个录音文件作为样本数据，其中每一音色分类下的1000个样本数据按比例划分为训练样本数据和测试样本数据，例如采用9：1的划分比例，其中900个样本数据作为训练样本数据，100个样本数据作为测试样本数据。为了提升所述神经网络模型的训练效果，可以适当提高所述样本数据的数量以及所述测试样本数据所占比例。

进一步的，在上述的基于人工智能的呼叫系统中，还包括：

训练参数配置模块，用于配置神经网络模型的训练参数。具体的，包括对所输入输出矩阵和权重矩阵进行初始化，对所述神经网络模型的中间层结构进行初始化。

归一化处理模块，用于对所述训练样本数据进行归一化处理。每个所述训练样本数据在初始状态下音频时长、采样率和增益强度等均有所不同，需要对其进行归一化处理以形成统一的输入向量，否则无法得到预期的训练结果。

神经网络训练模块，用于顺序将每一个所述训练样本数据输入所述神经网络模型中进行训练。将所述训练样本数据输入到包含所述权重矩阵的具有多层结构的所述神经网络模型中进行训练，通过输入层、一个或多个中间层以及输出层的计算，得到当次计算的结果。

误差计算模块，用于计算每一个所述训练样本数据的误差值。将当次计算的结果与预期的分类结果进行比较，以计算得到所述训练样本数据的误差值。

权重矩阵修正模块，用于根据所述误差值对所述神经网络模型中的权重矩阵进行修正。反复调整所述权重矩阵中的权重值，使得每一个所述训练样本的计算结果均与预期的分类结果相匹配。

通过上述实施例的神经网络模型训练，得到与每一个所述音色分类对应的用于进行评价分类的神经网络模型。

进一步的，在上述的基于人工智能的呼叫系统中，所述归一化处理模块还用于对所述测试样本数据进行归一化处理，所述神经网络训练模块还用于顺序将每一个所述测试样本数据输入相应音色分类的神经网络模型中进行测试，所述误差计算模块还用于计算每一个所述测试样本数据的误差值。同样的，对所述测试样本数据进行归一化处理后输入经过训练的所述神经网络模型中对所述神经网络模型的所述权重矩阵进行验证。

在上述实施方式中，所述呼叫系统还包括：

音色分类确定模块，用于根据所述误差值得到训练错误率高的音色分类。在使用所述测试样本数据对经过训练的所述神经网络模型进行验证过程中，如某一音色分类对应的所述神经网络模型的计算结果与预期的分类结果不匹配的所述测试样本数据数量大于预设值时，将所述音色分类确定为所述训练错误率高的音色分类。

所述录音数据获取模块还用于从所述呼叫系统通话录音数据库中获取相应音色分类的其它录音数据及对应的评价信息作为新的训练样本数据以继续训练相应音色分类的神经网络模型。对于所述训练错误率高的音色分类，需要对其对应的所述神经网络模型进行继续训练以使其达到预期的训练结果。因此，需要从所述呼叫系统通话录音数据库中获取相应音色分类的其它录音数据及对应的评价信息作为新的样本数据包括训练样本数据和测试样本数据，以对所述神经网络模型进行继续训练和验证。

录音数据获取子模块，用于获取与所述实时通话语音数据的音色分类相同的高分区间分类的录音数据。在本发明的一些实施方式中，基于所述呼叫系统通话录音数据库中的通话录音数据的评价信息对所述通话录音数据按前述的划分方式分为不同的评价分类。在获取到话务员的实时通话语音数据并确定所述实时通话语音数据的音色分类后，从所述呼叫系统通话录音数据库中获取与所述实时通话语音数据的音色分类相同的高分区间分类的录音数据。

声音特征提取子模块，用于提取该录音数据的声音特征。从多个音色分类相同的高分区间分类的所述录音数据中提取其声音特征，包括其基频周期、信噪比、谐噪比、短时能量以及共振峰等一个或一个以上的组合。

语音数据处理子模块，用于根据所述声音特征对所述实时通话语音数据进行处理。具体的，选取多个音色分类相同的高分区间分类的所述录音数据中具有相同或相近的一个或一个以上的所述声音特征值的录音数据对应的一个或一个以上的所述声音特征值作为目标声音特征值，将所述实时通话语音数据的一个或一个以上的所述声音特征值修改为与所述目标声音特征值相同。

如图2所示，本发明的第二方面提出了一种呼叫系统的语音数据处理方法，包括：

获取话务员的实时通话语音数据。即在话务员接通客户来电或者拨通给客户的去电后，实时获取话务员通话过程中的语音数据。

从所述实时通话语音数据中提取问候语的频谱信息。作为标准的通话礼仪要求，话务员无论是在去电或者接听来电的情况下，在电话接通后，都会以一句简短的问候语作为开头，例如，“您好！”、“尊敬的客户，早上好！”等，由于问候语本身较为简短，仅需通过简单的练习即可在发音标准、语速标准和语调标准上达到服务要求，无需对其通话语音进行专门的处理，因此可以对提取到的问候语的频谱信息进行分析，从而以此为基础对后续通话语音数据进行处理。

根据所述问候语频谱信息中的谐波特征匹配所述实时通话语音数据的音色分类。由于声带结构、发声习惯等的差异，每个人的声音在音色上都会有所区别，不同的人之间的音色差异可大可小，其差异性主要集中在其声音频谱信息中的谐波特征上。以谐波的频率、谐波的振幅强度以及谐波的数量等因素的不同范围组合作为分类条件对不同话务员的声音的音色进行分类，可以将音色相近的声音划分到同一音色分类中。

将所述话务员的通话语音数据输入相应音色分类的神经网络模型中进行预分类。在本发明的技术方案中，对不同的音色分类分别建立相应的用于进行客户评价分类预判的神经网络模型，在话务员与客户的通话过程中，实时获取话务员的通话语音数据，并将这些通话语音数据输入到所述神经网络模型中对其评价分类进行预分类，即根据所述神经网络模型预判所述实时通话语音数据的客户评价分类。所述神经网络模型基于呼叫系统通话录音数据库中的录音数据及对应的评价信息训练得到。

当所述话务员的通话语音数据的预分类结果为低分区间分类时，对所述实时通话语音数据进行实时优化处理。当通过所述神经网络模型的预判得到所述实时通话语音数据的预分类结果为低分区间分类时，表明当前获取到的该话务员的实时通话语音数据没有达到服务标准，需要对所述实时通话语音数据进行实时的优化处理。

将处理后的所述实时通话语音数据发送给通话对端。所述呼叫系统基于云计算服务器等具有强大运算能力的服务设备建立，能够对海量的语音数据进行实时处理，所述对实时通话语音数据进行实时优化处理带来的轻微延迟可以达到微秒级别，并不影响实时通话过程。

进一步的，在上述的语音数据处理方法中，还包括：

获取呼叫系统通话录音数据库中的录音数据及对应的评价信息。

从每一份所述通话录音中提取相同语音内容对应的频谱信息。企业话务员一般都接受过标准话术训练，在与客户沟通的过程中，采用标准话术进行应对是话务员的基本素质要求。因此，在不同话务员的通话录音数据中，一般都存在大量相同的标准话术对应的语音内容，提取这些相同语音内容对应的频谱信息用于音色分类，使得对所述通话录音的音色分类更为准确。

提取所述频谱信息中的谐波特征以对所述录音数据执行音色分类。

将所述录音数据的评价信息划分为高分区间和低分区间，根据所述高分区间和所述低分区间的评分数值对所述录音数据执行评价分类。不同的呼叫系统在客户对话务员的评价方式上采用多种不同的评价方式，有的采用梯度式分值评价方式，例如输入1到10之间的数字，10表示非常满意、1表示非常不满意；有的采用非此即彼的评价方式，例如输入0或1，1表示满意，0表示不满意等。对于前一种，可以设定一个梯度比例作为高分区间和低分区间的划分依据，例如在上述输入1到10之间的数字的实施方式中，采用4：1的划分方式，即1-8分为低分区间，9-10分为高分区间。在另一些实施方式中，还可以设备更多的评价分类，例如划分为高分区间、中等分区间、低分区间等。而对于采用非此即彼的评价方式，则代表满意的1分为高分区间，代表不满意的0分为低为区间。

将所述录音数据与对应的音色分类、评价分类相关联。使所述录音数据与其对应的音色分类、评价分类建立对应关系，以便后续数据处理过程中进行使用。

按照预设比例将所述分类后的录音数据划分为训练样本数据和测试样本数据。在本发明的一些实施方式中，对每一种音色分类均取一定数量的录音数据作为样本数据。例如，假设所述呼叫系统的通话录音数据库中的录音数据按音色分类可分为10类，每一个音色分类取1000个录音文件共计10000个录音文件作为样本数据，其中每一音色分类下的1000个样本数据按比例划分为训练样本数据和测试样本数据，例如采用9：1的划分比例，其中900个样本数据作为训练样本数据，100个样本数据作为测试样本数据。为了提升所述神经网络模型的训练效果，可以适当提高所述样本数据的数量以及所述测试样本数据所占比例。

进一步的，在上述的语音数据处理方法中，还包括：

配置神经网络模型的训练参数。具体的，包括对所输入输出矩阵和权重矩阵进行初始化，对所述神经网络模型的中间层结构进行初始化。

对所述训练样本数据进行归一化处理。每个所述训练样本数据在初始状态下音频时长、采样率和增益强度等均有所不同，需要对其进行归一化处理以形成统一的输入向量，否则无法得到预期的训练结果。

顺序将每一个所述训练样本数据输入所述神经网络模型中进行训练。将所述训练样本数据输入到包含所述权重矩阵的具有多层结构的所述神经网络模型中进行训练，通过输入层、一个或多个中间层以及输出层的计算，得到当次计算的结果。

计算每一个所述训练样本数据的误差值。将当次计算的结果与预期的分类结果进行比较，以计算得到所述训练样本数据的误差值。

根据所述误差值对所述神经网络模型中的权重矩阵进行修正。反复调整所述权重矩阵中的权重值，使得每一个所述训练样本的计算结果均与预期的分类结果相匹配。

进一步的，在上述的语音数据处理方法中，还包括：

对所述测试样本数据进行归一化处理。

顺序将每一个所述测试样本数据输入相应音色分类的神经网络模型中进行测试。

计算每一个所述测试样本数据的误差值。

根据所述误差值得到训练错误率高的音色分类。在使用所述测试样本数据对经过训练的所述神经网络模型进行验证过程中，如某一音色分类对应的所述神经网络模型的计算结果与预期的分类结果不匹配的所述测试样本数据数量大于预设值时，将所述音色分类确定为所述训练错误率高的音色分类。

从所述呼叫系统通话录音数据库中获取相应音色分类的其它录音数据及对应的评价信息作为新的训练样本数据以继续训练相应音色分类的神经网络模型。对于所述训练错误率高的音色分类，需要对其对应的所述神经网络模型进行继续训练以使其达到预期的训练结果。因此，需要从所述呼叫系统通话录音数据库中获取相应音色分类的其它录音数据及对应的评价信息作为新的样本数据包括训练样本数据和测试样本数据，以对所述神经网络模型进行继续训练和验证。

获取与所述实时通话语音数据的音色分类相同的高分区间分类的录音数据。在本发明的一些实施方式中，基于所述呼叫系统通话录音数据库中的通话录音数据的评价信息对所述通话录音数据按前述的划分方式分为不同的评价分类。在获取到话务员的实时通话语音数据并确定所述实时通话语音数据的音色分类后，从所述呼叫系统通话录音数据库中获取与所述实时通话语音数据的音色分类相同的高分区间分类的录音数据。

提取该录音数据的声音特征。从多个音色分类相同的高分区间分类的所述录音数据中提取其声音特征，包括其基频周期、信噪比、谐噪比、短时能量以及共振峰等一个或一个以上的组合。

根据所述声音特征对所述实时通话语音数据进行处理。具体的，选取多个音色分类相同的高分区间分类的所述录音数据中具有相同或相近的一个或一个以上的所述声音特征值的录音数据对应的一个或一个以上的所述声音特征值作为目标声音特征值，将所述实时通话语音数据的一个或一个以上的所述声音特征值修改为与所述目标声音特征值相同。

如图3所示，本发明的第三方面提出了一种呼叫系统，包括：

语音识别模块，用于对话务员的实时通话语音数据执行语音识别以获取对应的实时通话文本数据。

文本切片模块，用于对所述实时通话文本数据执行切片处理得到以短句、词汇或单字为单位的最小语义文本单元。所述最小语义文本单元是指在当前会话场景下切片得到的每一个短句、词汇或单字所代表的语义在将该短句、词汇或单字放到其它会话场景下不会改变的最小切片方式所得到的文本单元。例如，当所述话务员的实时通话文本数据中包含“祝您身体健康、生活愉快！”的实时通话文本数据时，将其切片得到的应该是“祝您”、“身体健康”、“生活愉快”三个最小语义文本单元，而非更小的“身体”、“健康”、“生活”、“愉快”甚至拆成单字的切片方式，因为这些更小的语义单元在更换到其它会话场景下时，根据上下文环境的不同，会有更多的其它含义。

语音切片模块，用于对所述实时通话语音数据执行切片处理得到与所述最小语义文本单元对应的最小语义音频单元。最小语义音频单元与所述最小语义文本单元相对应，即所述最小语义音频单元为所述话务员的实时通话语音数据中所包含的与所述最小语义文本单元对应的一段音频数据。

录音数据匹配模块，用于根据所述实时通话文本数据匹配所述通话录音数据库中相同音色分类下具有最多连续相同最小语义文本单元的高分区间分类的录音数据。当所述通话录音数据库中相同音色分类下高分区间分类的录音数据与所述实时通话文本数据具有越多的连续相同的最小语义文本单元，意味着两者间的语义越为相近，从而在使用所述录音数据的声音特征对所述实时通话语音数据进行处理得到的语音数据更为自然和流畅。

声音特征提取模块，提取该录音数据的声音特征。从多个音色分类相同的高分区间分类的所述录音数据中提取其声音特征，包括其基频周期、信噪比、谐噪比、短时能量以及共振峰等一个或一个以上的组合。

语音数据处理模块，用于根据所述声音特征对所述实时通话语音数据进行处理。具体的，选取多个音色分类相同的高分区间分类的所述录音数据中具有相同或相近的一个或一个以上的所述声音特征值的录音数据对应的一个或一个以上的所述声音特征值作为目标声音特征值，将所述实时通话语音数据的一个或一个以上的所述声音特征值修改为与所述目标声音特征值相同。

进一步的，在上述的呼叫系统中，还包括：

通话语音优化模块，用于当所述话务员的通话语音数据的预分类结果为低分区间分类时，执行所述对话务员的实时通话语音数据执行语音识别以获取对应的实时通话文本数据及其后续步骤。当通过所述神经网络模型的预判得到所述实时通话语音数据的预分类结果为低分区间分类时，表明当前获取到的该话务员的实时通话语音数据没有达到服务标准，需要对所述实时通话语音数据进行实时的优化处理。

进一步的，在上述的呼叫系统中，还包括：

所述语音识别模块还用于对所述通话录音执行语音识别以获取对应的通话文本数据。

所述文本切片模块还用于对所述通话文本数据执行切片处理得到以短句、词汇或单字为单位的最小语义文本单元。

所述语音切片模块还用于对所述通话录音数据执行切片处理得到与所述最小语义文本单元对应的最小语义音频单元。

所述呼叫系统还包括：

信息关联模块，用于将每一个所述最小语义文本单元、最小语义音频单元与对应的音色分类、评价分类相关联。使所述录音数据的最小语义文本单元、最小语义音频单元与其对应的音色分类、评价分类建立对应关系，以便后续数据处理过程中进行使用。

样本数据划分模块，用于按照预设比例将每一音色分类下的所述最小语义音频单元划分为训练样本数据和测试样本数据。在本发明的一些实施方式中，对每一种音色分类均取一定数量的录音数据作为样本数据。例如，假设所述呼叫系统的通话录音数据库中的录音数据按音色分类可分为10类，每一个音色分类取1000个录音文件共计10000个录音文件作为样本数据，其中每一音色分类下的1000个样本数据按比例划分为训练样本数据和测试样本数据，例如采用9：1的划分比例，其中900个样本数据作为训练样本数据，100个样本数据作为测试样本数据。为了提升所述神经网络模型的训练效果，可以适当提高所述样本数据的数量以及所述测试样本数据所占比例。

进一步的，在上述的呼叫系统中，还包括：

如图4所示，本发明的第四方面提出了一种呼叫系统的语音数据处理方法，包括：

对话务员的实时通话语音数据执行语音识别以获取对应的实时通话文本数据。

对所述实时通话文本数据执行切片处理得到以短句、词汇或单字为单位的最小语义文本单元。所述最小语义文本单元是指在当前会话场景下切片得到的每一个短句、词汇或单字所代表的语义在将该短句、词汇或单字放到其它会话场景下不会改变的最小切片方式所得到的文本单元。例如，当所述话务员的实时通话文本数据中包含“祝您身体健康、生活愉快！”的实时通话文本数据时，将其切片得到的应该是“祝您”、“身体健康”、“生活愉快”三个最小语义文本单元，而非更小的“身体”、“健康”、“生活”、“愉快”甚至拆成单字的切片方式，因为这些更小的语义单元在更换到其它会话场景下时，根据上下文环境的不同，会有更多的其它含义。

对所述实时通话语音数据执行切片处理得到与所述最小语义文本单元对应的最小语义音频单元。最小语义音频单元与所述最小语义文本单元相对应，即所述最小语义音频单元为所述话务员的实时通话语音数据中所包含的与所述最小语义文本单元对应的一段音频数据。

根据所述实时通话文本数据匹配所述通话录音数据库中相同音色分类下具有最多连续相同最小语义文本单元的高分区间分类的录音数据。当所述通话录音数据库中相同音色分类下高分区间分类的录音数据与所述实时通话文本数据具有越多的连续相同的最小语义文本单元，意味着两者间的语义越为相近，从而在使用所述录音数据的声音特征对所述实时通话语音数据进行处理得到的语音数据更为自然和流畅。

当所述话务员的通话语音数据的预分类结果为低分区间分类时，执行所述对话务员的实时通话语音数据执行语音识别以获取对应的实时通话文本数据及其后续步骤。当通过所述神经网络模型的预判得到所述实时通话语音数据的预分类结果为低分区间分类时，表明当前获取到的该话务员的实时通话语音数据没有达到服务标准，需要对所述实时通话语音数据进行实时的优化处理。

进一步的，在上述的语音数据处理方法中，还包括：

对所述通话录音执行语音识别以获取对应的通话文本数据。

对所述通话文本数据执行切片处理得到以短句、词汇或单字为单位的最小语义文本单元。

对所述通话录音数据执行切片处理得到与所述最小语义文本单元对应的最小语义音频单元。

将每一个所述最小语义文本单元、最小语义音频单元与对应的音色分类、评价分类相关联。使所述录音数据的最小语义文本单元、最小语义音频单元与其对应的音色分类、评价分类建立对应关系，以便后续数据处理过程中进行使用。

按照预设比例将每一音色分类下的所述最小语义音频单元划分为训练样本数据和测试样本数据。在本发明的一些实施方式中，对每一种音色分类均取一定数量的录音数据作为样本数据。例如，假设所述呼叫系统的通话录音数据库中的录音数据按音色分类可分为10类，每一个音色分类取1000个录音文件共计10000个录音文件作为样本数据，其中每一音色分类下的1000个样本数据按比例划分为训练样本数据和测试样本数据，例如采用9：1的划分比例，其中900个样本数据作为训练样本数据，100个样本数据作为测试样本数据。为了提升所述神经网络模型的训练效果，可以适当提高所述样本数据的数量以及所述测试样本数据所占比例。

进一步的，在上述的语音数据处理方法中，还包括：

对所述测试样本数据进行归一化处理。

计算每一个所述测试样本数据的误差值。

应当说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

依照本发明的实施例如上文所述，这些实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施例。显然，根据以上描述，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种呼叫系统的语音数据处理方法，其特征在于，包括：

对所述实时通话文本数据执行切片处理得到以短句、词汇或单字为单位的最小语义文本单元；

对所述录音数据执行语音识别以获取对应的通话文本数据；

对所述通话文本数据执行切片处理得到以短句、词汇或单字为单位的最小语义文本单元；

对所述录音数据执行切片处理得到与所述最小语义文本单元对应的最小语义音频单元；

从每一份所述录音数据中提取相同语音内容对应的频谱信息；

将每一个所述最小语义文本单元、最小语义音频单元与对应的音色分类、评价分类相关联，使所述录音数据与其对应的音色分类、评价分类建立对应关系；

按照预设比例将每一音色分类下的所述最小语义音频单元划分为训练样本数据和测试样本数据；

从多个音色分类相同的高分区间分类的所述录音数据中提取其声音特征，包括其基频周期、信噪比、谐噪比、短时能量以及共振峰一个或一个以上的组合；

根据所述声音特征对所述实时通话语音数据进行处理；

将处理后的所述实时通话语音数据发送给通话对端。

2.根据权利要求1所述的语音数据处理方法，其特征在于，在所述对话务员的实时通话语音数据执行语音识别以获取对应的实时通话文本数据的步骤之前，还包括：

获取话务员的实时通话语音数据；

从所述实时通话语音数据中提取问候语的频谱信息；

3.根据权利要求2所述的语音数据处理方法，其特征在于，还包括：

配置神经网络模型的训练参数，包括对所输入输出矩阵和权重矩阵进行初始化，对所述神经网络模型的中间层结构进行初始化；

对所述训练样本数据进行归一化处理；

计算每一个所述训练样本数据的误差值；

4.根据权利要求3所述的语音数据处理方法，其特征在于，还包括：

对所述测试样本数据进行归一化处理；

计算每一个所述测试样本数据的误差值；

根据所述误差值得到训练错误率高的音色分类；

5.一种呼叫系统，其特征在于，包括：

文本切片模块，用于对所述实时通话文本数据执行切片处理得到以短句、词汇或单字为单位的最小语义文本单元；

所述语音识别模块还用于对所述录音数据执行语音识别以获取对应的通话文本数据；

所述文本切片模块还用于对所述通话文本数据执行切片处理得到以短句、词汇或单字为单位的最小语义文本单元；

所述语音切片模块还用于对所述录音数据执行切片处理得到与所述最小语义文本单元对应的最小语义音频单元；

频谱信息提取模块，用于从每一份所述录音数据中提取相同语音内容对应的频谱信息；

音色分类模块，用于提取所述频谱信息中的谐波特征以对所述录音数据执行音色分类；

信息关联模块，用于将每一个所述最小语义文本单元、最小语义音频单元与对应的音色分类、评价分类相关联，使所述录音数据与其对应的音色分类、评价分类建立对应关系；

样本数据划分模块，用于按照预设比例将每一音色分类下的所述最小语义音频单元划分为训练样本数据和测试样本数据；

声音特征提取模块，用于从多个音色分类相同的高分区间分类的所述录音数据中提取其声音特征，包括其基频周期、信噪比、谐噪比、短时能量以及共振峰一个或一个以上的组合；

6.根据权利要求5所述的呼叫系统，其特征在于，还包括：

语音数据获取模块，用于获取话务员的实时通话语音数据；

所述频谱信息提取模块还用于从所述实时通话语音数据中提取问候语的频谱信息；

所述音色分类模块还用于根据所述问候语频谱信息中的谐波特征匹配所述实时通话语音数据的音色分类；

预分类模块，用于将所述话务员的实时通话语音数据输入相应音色分类的神经网络模型中进行预分类；

7.根据权利要求6所述的呼叫系统，其特征在于，还包括：

训练参数配置模块，用于配置神经网络模型的训练参数，包括对所输入输出矩阵和权重矩阵进行初始化，对所述神经网络模型的中间层结构进行初始化；

8.根据权利要求7所述的呼叫系统，其特征在于，所述归一化处理模块还用于对所述测试样本数据进行归一化处理，所述神经网络训练模块还用于顺序将每一个所述测试样本数据输入相应音色分类的神经网络模型中进行测试，所述误差计算模块还用于计算每一个所述测试样本数据的误差值，所述呼叫系统还包括：