CN115956359A

CN115956359A - 用于音调和语音分类的累积平均频谱熵分析

Info

Publication number: CN115956359A
Application number: CN202180039279.2A
Authority: CN
Inventors: R·韦尔金; J·A·麦克道尔; A·M·波
Original assignee: Guinness Cloud Services Second Holdings Ltd
Current assignee: Guinness Cloud Services Second Holdings Ltd
Priority date: 2020-06-30
Filing date: 2021-06-30
Publication date: 2023-04-11
Also published as: JP2023532182A; BR112022025073A2; WO2022006233A1; US20210409543A1; EP4173271A1; CA3184152A1; EP4173271A4; US11290594B2; AU2021300121A1

Abstract

根据实施方案的一种用于执行包括音调和语音分类的呼叫进程分析的联络中心系统，包括至少一个处理器和至少一个存储器，该至少一个存储器包括存储在其上的多个指令，这些指令响应于由至少一个处理器执行而使联络中心系统：确定由联络中心系统接收的音频信号的熵的累积平均值；确定音频信号的累积平均功率频谱幅度和累积平均频谱熵；将音频信号的差异度量计算为熵的累积平均值和累积平均频谱熵之间的差；基于差异度量将音频信号的音调和语音区分开；以及响应于音频信号中的一个或多个音调的识别，处理音频信号的一个或多个音调。

Description

用于音调和语音分类的累积平均频谱熵分析

相关申请的交叉引用

本申请要求于2020年6月30日提交的题为“Cumulative Average SpectralEntropy Analysis for Tone and Speech Classification”的美国临时申请63/045,908的优先权和权益，其内容全文以引用方式并入本文。

背景技术

呼叫分析或呼叫进程分析(CPA)是一个用于一组信号处理算法的术语，该组信号处理算法在呼叫设置期间在音频信号(由音调和语音两者组成)上操作，以便确定呼叫的结果。人类能够容易地收听和检测各种音调(例如，拨号前的拨号音、回铃、占线、应答等)。然而，要让一台机器能够以同样的精度做同样的事情，在其实现过程中(特别是当网络载波消息中的人类语音必须与各种音调区分开来时)需要非常小心。

具有呼出呼叫能力的电话应用程序需要准确和快速地解释由网络传递给呼叫实体的呼叫进程音调(例如，回铃和占线)的能力。尽管国际电信联盟公布了每个国家的建议音调定义，这些建议音调定义在很大程度上得到遵循，但仍然没有一套一致的、标准的音调频率和模式供所有电话提供商在全球范围内使用以表示特定事件，这使得呼叫进程分析变得复杂。提供商使用各种方法来尝试检测和识别在分析呼叫进程的过程中涉及的不同音调。然而，当在分析中的音频信号由于较差传输网络或其他原因而被劣化时，当前采用的大多数信号处理算法常常不能充分发挥功能。

发明内容

一个实施方案涉及用于音调和语音分类的累积平均频谱熵分析的独特系统、部件和方法。其他实施方案涉及用于音调和语音分类的累积平均频谱熵分析的装置、系统、设备、硬件、方法和其组合。

根据实施方案，一种用于使用音调和语音分类来执行呼叫进程分析的联络中心系统可以包括至少一个处理器和至少一个存储器，该至少一个存储器包括存储在其上的多个指令，这些指令响应于由至少一个处理器执行而使联络中心系统：确定由联络中心系统接收的音频信号的熵的累积平均值；确定音频信号的累积平均功率频谱幅度并基于音频信号的累积平均功率频谱幅度确定音频信号的累积平均频谱熵；将音频信号的差异度量计算为音频信号的熵的累积平均值与音频信号的累积平均频谱熵之间的差；基于音频信号的差异度量将音频信号的音调和语音区分开；以及响应于音频信号中的一个或多个音调的识别，处理音频信号的一个或多个音调。

在一些实施方案中，处理音频信号的一个或多个音调可以包括：识别音频信号的一个或多个音调中的呼叫进程音调模式，并且响应于音频信号的一个或多个音调中的呼叫进程音调模式的识别，将电话呼叫从联络中心系统的第一系统转移到联络中心系统的第二系统。

在一些实施方案中，处理音频信号的一个或多个音调可以包括将呼出呼叫连接到联络中心系统的自动交互式语音应答(IVR)系统。

在一些实施方案中，处理音频信号的一个或多个音调可以包括将呼出呼叫连接到联络中心系统的座席。

在一些实施方案中，音频信号的一个或多个音调可以包括呼叫进程音调模式。

在一些实施方案中，呼叫进程音调模式可以是占线信号模式、回铃模式或特殊信息音调模式。

在一些实施方案中，处理音频信号的一个或多个音调可以包括确定音频信号的一个或多个音调中的每个音调的对应频率。

在一些实施方案中，确定音频信号的熵的累积平均值可以包括计算音频信号的熵。

根据另一实施方案，一种或多种非暂态机器可读存储介质，其包括存储在其上的多个指令，这些指令响应于由至少一个处理器的执行可以使联络中心系统：计算由联络中心系统接收的音频信号的熵；计算音频信号的熵的累积平均值；计算音频信号的累积平均功率频谱幅度；基于音频信号的累积平均功率频谱幅度，计算音频信号的累积平均频谱熵；将音频信号的差异度量计算为音频信号的熵的累积平均值与音频信号的累积平均频谱熵之间的差；基于音频信号的差异度量对音频信号的音调和语音进行分类；以及响应于音频信号中的一个或多个音调的识别，处理音频信号的一个或多个音调。

在一些实施方案中，处理音频信号的一个或多个音调可以包括：响应于音频信号的一个或多个音调中的呼叫进程音调模式的识别，将电话呼叫从联络中心系统的第一系统转移到联络中心系统的第二系统。

根据又另一实施方案，一种在联络中心系统中使用音调和语音分类来执行呼叫进程分析的方法可以包括：由联络中心系统接收音频信号；由联络中心系统确定由联络中心系统接收的音频信号的熵；由联络中心系统确定音频信号的熵的累积平均值；由联络中心系统确定音频信号的累积平均功率频谱幅度；由联络中心系统基于音频信号的累积平均功率频谱幅度确定音频信号的累积平均频谱熵；由联络中心系统将音频信号的差异度量确定为音频信号的熵的累积平均值与音频信号的累积平均频谱熵之间的差；由联络中心系统基于音频信号的差异度量对音频信号的音调和语音进行分类；以及响应于音频信号中的一个或多个音调的识别，由联络中心系统处理音频信号的一个或多个音调。

在一些实施方案中，处理音频信号的一个或多个音调可以包括：识别音频信号的一个或多个音调中的呼叫进程音调模式，并且响应于识别音频信号的一个或多个音调中的呼叫进程音调模式，将电话呼叫从联络中心系统的第一系统转移到联络中心系统的第二系统。

在一些实施方案中，处理音频信号的一个或多个音调可以包括将呼出呼叫连接到联络中心系统的座席或自动交互式语音应答(IVR)系统中的一者。

本发明内容不旨在识别所要求保护的主题的关键或必要特征，也不旨在用作限制所要求保护的主题的范围的辅助。本申请的其他实施方案、形式、特征和方面将根据随本文提供的描述和附图变得显而易见。

附图说明

本文描述的概念在附图中通过举例的方式并且不是通过限制的方式进行说明。为了简单和清楚说明，图中示出的元件不一定按比例绘制。在认为适当的情况下，参考标记已在附图中重复以指示对应或类似的元件。

图1A至图1B描绘使用音调和语音分类来执行呼叫进程分析的方法的至少一个实施方案的简化流程图；

图2是呼叫中心系统的至少一个实施方案的简化框图；

图3是计算系统的至少一个实施方案的简化框图；

图4是包含音调信号和语音信号两者的示例音频信号的声谱图；

图5是在音调和语音期间音频信号的频谱平坦度的曲线图；

图6是在音频和语音期间音频信号的熵度量的曲线图；

图7是在呼叫中心观察到的示例低质量音调音频信号的声谱图；

图8是音频音调信号的熵度量的曲线图；

图9是具有劣化音调的音频信号的三个熵度量的曲线图；并且

图10是在音调和语音期间针对音频信号的三个熵度量的曲线图。

具体实施方式

尽管本公开的概念易受各种修改和可替代形式的影响，但特定实施方案在附图中已通过举例的方式示出，并且将在本文中详细描述。然而，应当理解，不意图将本公开的概念限制为所公开的特定形式，但是相反，意图是涵盖与本公开和所附权利要求一致的所有修改、等同形式和替代方案。

说明书中对“一个实施方案”、“实施方案”、“说明性实施方案”等的提及指示所描述的实施方案可以包括特定特征、结构或特性，但是每个实施方案可以或可以不一定包括该特定特征、结构或特性。此外，此类短语不一定是指同一实施方案。还应当理解，尽管提及“优选的”部件或特征可以指示特定部件或特征关于实施方案的合意性，但是本公开不因此关于可以省略此种部件或特征的其他实施方案进行限制。此外，当结合实施方案描述特定特征、结构或特性时，认为结合其他实施方案实施此种特征、结构或特性在本领域技术人员的知识范围内，无论是否明确地描述。此外，在各种实施方案中，特定特征、结构或特性可以任何合适的组合和/或子组合进行组合。

另外，应当理解，以“A、B和C中的至少一者”的形式包括在列表中的项目可以意指(A)；(B)；(C)；(A和B)；(B和C)；(A和C)；或(A、B和C)。相似地，以“A、B或C中的至少一者”的形式列出的项目可以意指(A)；(B)；(C)；(A和B)；(B和C)；(A和C)；或(A、B和C)。此外，关于权利要求，单词和短语诸如“一个(a)”、“一个(an)”、“至少一个”、和/或“至少一部分”的使用不应被解释为限制于仅一个此种元件，除非相反地具体陈述，并且短语诸如“至少一部分”和/或“一部分”的使用应被解释为涵盖仅包括此种元件中的一部分的实施方案和包括整个此种元件的实施方案两者，除非相反地具体陈述。

在一些情况下，所公开的实施方案可以硬件、固件、软件或其组合来实施。所公开的实施方案还可以实施为在一个或多个暂态或非暂态机器可读(例如，计算机可读)存储介质上携载或存储的指令，该指令可以由一个或多个处理器读取和执行。机器可读存储介质可以体现为用于以机器可读的形式(例如，易失性或非易失性存储器、介质盘或其他介质设备)存储或传输信息的任何存储设备、机构或其他物理结构。

在附图中，可以在特定布置和/或排序中示出一些结构或方法特征。然而，应当理解，可以不需要此类特定布置和/或排序。相反，在一些实施方案中，除非相反指示，否则此类特征可以与说明性图所示不同的方式和/或顺序进行布置。另外，在特定图中包括结构或方法特征并不意味着暗示所有实施方案中需要此种特征，并且在一些实施方案中，可以不包括此种特征或可以将其与其他特征组合。

提供商使用各种方法来尝试检测和识别在分析呼叫进程的过程中涉及的不同音调。例如，在一些实施方案中，可以使用Goertzel算法或快速傅里叶变换(FFT)，其中每一个算法表现出不同的优点和缺点。音调的检测和识别与Goertzel算法同时执行。也就是说，该算法不仅仅检测音调的存在，而且还识别正在检测哪个音调。然而，当使用FFT算法时，该过程通常被分成两个步骤。在第一步中，执行通用音调与语音分类。在第二步中，一旦知道存在音调，则识别其频率以便解释呼叫的结果。本文描述的技术通过将“累积平均频谱熵”结合到分析中来改进FFT算法，这使该过程在音频信号被较差传输网络劣化时更加稳健。

电话网络没有在全世界被标准化。例如，在欧洲，单音调主要用于报告事件，并且大多数欧洲国家的回铃音是425Hz。然而，在北美，双音调是优选的，因为350Hz-440Hz双音调用于指示回铃。因此，任何电话提供商想要向不同国家提供其服务，通常都需要进行相对复杂的设置。Goertzel算法和FFT算法代表检测和识别音调的两种方法。

Goertzel算法是一种在数字信号处理(DSP)中使用的技术，用于有效评估离散傅里叶变换(DFT)中的单个项，并且该算法用于计算信号的第k个DFT分量{x(n),n＝[0,N]}。Goertzel算法从离散信号中分析一个可选择的频率分量。假设已知频率ω₀由下式指定：

其中N是音频信号序列中的项数(例如，通常，N＝205)。Goertzel算法由基本方程定义，包括计算中间序列s[n]＝x[n]+2 cosω₀s[n-1]-s[n-2]的第一阶段和将过滤器应用于s[n]以生成输出序列

的第二阶段。迭代计算s[n]和y[n]的值直到n＝N。

应当理解，Goertzel算法相对简单并且在大多数情况下表现良好。然而，Goertzel算法的一个重要约束是必须事先知道特定目标频率。目标频率由索引k定义并且选自索引号k∈{0,1,2,…,N-1}。假设采样频率为8000Hz(在电话中是常见的)，那么频率分辨率Δf由下式给出：

应当理解，当Goertzel算法被应用于电话以分析某些特定频带时，通常使用值f_s＝8000和N＝205。

在电话中，Goertzel算法可用于检测双音多频(DTMF)信号，其中信令的含义由同时存在的总共八个频率中的两个频率确定。因为如下表1中所示同时评估了八个不同频率，所以通过定义频率ω₀的不同k值采用Goertzel算法分别评估各n值八次。尽管Goertzel算法的复杂度比FFT高，但它对于计算少量选定的频率分量仍然有效。

频率	1209Hz	1336Hz	1477Hz
				697Hz	1	2	3
770Hz	4	5	6
				852Hz	7	8	9
941Hz	*	0	#

表1：DTMF信令中使用的音调列表

电话中使用的其他声音信号包括指示电话呼叫进程或处置的呼叫进程音调模式。占线信号、回铃和特殊信息音调(SIT)都是这种呼叫进程音调模式的示例。在CPA中，需要区分一大组音调，以便能够对音调模式进行分类。例如，在北美，如下表2所示的多达16个音调频率用于创建不同的音调模式，其中每个音调模式由一个或多个以特定间隔播放的频率构成。如上所述，当FFT用于CPA时，该过程分为两个步骤：检测音调的存在并识别其频率。

表2：呼叫进程分析支持的北美音调列表

可以在音频信号的频域中计算频谱平坦度度量和熵度量。如下所述，频谱平坦度和熵度量在区分了音调和语音上起到相对较好的作用。具体地，可以首先将音频信号分段成重叠帧。例如，在一些实施方案中，每一帧可以具有0.03秒的长度并且由相同长度的汉明窗口加权。所使用的重叠可以是2/3，使得窗口在每个时间步长前进0.01秒。可以在每一帧上执行256个点的FFT。在一些实施方案中，对于后续分析，只有一半的功率频谱幅度系数X_k保留索引k∈[1,128]，因为功率频谱幅度对于实际信号是对称的。图4显示包含音调信号和语音信号两者的示例音频信号的声谱图。

频谱平坦度或音调系数是DSP中用来表征音频频谱的一种度量。它提供了一种方法来量化一个声音如何像音调，而不是像噪音。通过根据下式将功率频谱的几何平均值除以功率频谱的算术平均值来计算频谱平坦度度量：

高平坦度值(即，值接近1.0)指示频谱在所有频谱带中具有相似的功率量，这可能是噪声，而低频谱平坦度值指示频谱功率在相对较少数量的频带中集中。因此，接近零的平坦度值更可能是纯音调。图5示出在音调和语音期间的频谱平坦度的示例。

在一些实施方案中，熵可以用作随机性的度量，以区分音调和语音。熵的定义可以用一个离散集来表示，如下所示：

不失一般性地假设p_klog p_k＝0用于p_k＝0和p_k＝1，并且用归一化的功率幅度频谱代替概率p_k的离散集，将会理解，熵H(X)将在音调期间具有较低值，而在语音期间具有较高值，如图6所描绘。

因为平坦度和熵两者的测量值通常在语音期间显著变化(参见图5至图6)，所以累积平均值通常优于瞬时值。对于熵度量，例如，熵的累积平均值

由下式给出：

其中参数t_b指示当前音频信号块的起始点。计算该点t_b直至当前时间t之间熵的累积平均值。在静音期间，可以将熵和平坦度值设置为零。

然而，在许多情况下，例如，由于较差传输网络而音频质量较差，这通常导致CPA系统性能不佳。图7示出在呼叫中心观察到的低质量音调音频信号的示例，并且图8描绘图7的音频信号的对应熵度量。尽管将期望每个音调信号块具有相同的近似值，但是从图8中可以清楚地看出，低质量音调信号可能导致每个音调信号块具有不同的熵值，从而使得难以找到合适的阈值来区分音调信号和语音信号。因此，当面对这种较差音频信号时，CPA算法通常难以正确对音调进行分类。

如上所述，根据下式给出可以用于区分来自语音的音调的熵度量的累积平均值

然而，如上文参考图8所述，例如，由

给出的值在劣化音调期间变化太多，使其适用于音调和语音分类而无需改进。

本文描述的改进技术通过利用累积平均频谱分析来生成累积平均频谱熵度量以用于区分音调和语音，克服了由劣化音频信号引起的这个问题。在说明性实施方案中，根据下式通过

定义累积平均功率频谱幅度：

然后，系统根据下式使用累积平均功率频谱幅度值(X_t)计算累积平均频谱熵度量

实质上，累积平均功率频率幅度

是在评估熵

本身之前计算的。在说明性实施方案中，只有当检测到有源音频信号时，才计算累积平均功率频谱幅度

否则，值

被设置为零。累积平均功率频谱幅度

是在区间[t_b,t]内计算的，其中t是当前帧索引，并且t_b标记音频信号开始为有源的最后位置。

图9描绘在分析中的相同示例性劣化音调信号的瞬时熵度量

累积平均熵度量

和差值

用于区分音调和语音的差异度量D(t)大大改进了音频分类。即使平均熵度量

和累积平均频谱度量

的值在劣化音调期间变化，差异度量D(t)仍然相对较低。实际上，如图9所描绘，在音调期间(劣化或未劣化)，差异度量D(t)接近零，指示当前在分析中音频信号的部分最有可能是音调。相比之下，图10描绘在分析具有音调和语音两者的信号时相同的度量。如图所示，当音频信号是语音(图10的右侧)时，差异度量D(t)变化，但是在音调(图10的左侧的两个音频信号)期间保持接近零。

为了验证改进的技术和算法(即，新方法)的性能和稳健性，分析了在非常差的传输网络上传送的一组音频信号。更具体地，用于评估系统稳健性的音频文件都是来自被报告为有问题的联络中心的音频信号。在第一步中，使用新方法分析525个主要包含带有偶然语音的音调信号的文件，其中使用差异度量

来进行分类。还使用包括将Goertzel算法与频谱平坦度和平均熵度量

相结合以进行分类的方法(即，旧方法)来分析相同的文件。还使用经过训练的神经网络(NN)模型分析这些文件。结果在下表3中提供，其中“S-M-T”指示被标记/分类为声调的语音，“T-M-S”指示被标记/分类为语音的声调，并且“C-C”指示正确的分类。

	S-M-T	T-M-S	C-C
				旧方法	58	11	415
神经网络	20	26	438
				新方法	16	10	458

表3：三种不同方法的第一比较结果

如图所示，新方法比替代方法产生更少的分类错误，包括通过在语音标记为音调的情况下减少将近20％的错误和在音调标记为语音的情况下减少65％的错误而胜过NN模型。因此，应当理解，这类结果对新方法/技术的可行性提供了充分的置信度。

在第二步中，使用相同的方法分析了225个主要包含带有偶然音调的语音音频信号的文件。结果在下表4中提供。

	S-M-T	T-M-S	C-C
				旧方法	82	1	138
神经网络	48	1	172
				新方法	12	2	207

表4：三种不同方法的第二比较结果因此，对主要包含带有偶然音调的语音的音频信号的分析产生类似的比较结果，其中新方法/技术比所分析的其他两种方法产生更少的分类错误。

能够准确且有效地检测音频流中何时出现音调是呼叫进程分析(CPA)系统中的关键步骤。鉴于信号代表音调，识别特定音调(例如，作为400Hz音调或679Hz音调)通常相对简单。本文描述的涉及累积平均频谱分析的方法和技术即使在遇到劣化音频信号时其区分音调和语音的能力也是稳健的，因此将用于显著提高全球CPA系统的性能。

应当理解，音频信号可以由联络中心系统(例如，图2的联络中心系统)的一个或多个设备通过使用本文描述的技术来接收和/或分析，以区分音频信号中的音调和语音，例如，以便自动解释/处理呼叫。例如，在一些实施方案中，呼叫的发起者(例如，自动呼出拨号器系统)想知道线路是否占线、是否有人应答等，以便采取下一个适当的操作，例如将呼出呼叫连接到座席或自动交互式语音应答(IVR)系统。

现在参考图1A至图1B，在使用中，系统可以执行使用音调和语音分类来执行呼叫进程分析的方法100。应当理解，在一些实施方案中，系统可以体现为计算设备(例如，图3的计算设备300)和/或联络中心系统(例如，图2的联络中心系统200)或其系统/设备。应当理解，除非另有说明，否则方法100的特定框通过举例的方式示出，并且此类框可以根据特定实施方案全部或部分地组合或划分、添加或移除和/或重新排序。

说明性方法100从图1A的框102开始，其中系统(例如，计算设备300或联络中心系统200)接收音频信号。在框104中，系统确定接收到的音频信号的熵。这样做时，在框106中，系统可以根据下式计算所接收的音频信号的熵：

在框108中，系统确定音频信号的熵的累积平均值。这样做时，在框110中，系统可以根据下式计算音频信号的熵的累积平均值：

在框112中，系统确定音频信号的累积平均功率频谱幅度。这样做时，在框114中，系统可以根据下式计算音频信号的累积平均功率频谱幅度：

在图1B的框116中，系统基于音频信号的累积平均功率频谱幅度来确定音频信号的累积平均频谱熵。这样做时，在框118中，系统可以根据下式计算音频信号的累积平均频谱熵：

在框120中，系统将音频信号的差异度量确定为音频信号的熵的累积平均值和音频信号的累积平均频谱熵之间的差。这样做时，在框122中，系统可以根据下式计算音频信号的差异度量：

在框124中，系统基于音频信号的差异度量对音调和语音进行分类。例如，如上所述，在音调期间，差异度量可以接近或近似为零，指示如果差异度量近似为零，则在分析下的音频信号的部分(例如，频率范围)可能对应于音调。因此，在一些实施方案中，系统可以利用一个或多个阈值来区分音频信号的音调和语音部分。具体地，系统可以将低于预定阈值的音频信号的部分识别为音频信号的音调部分，将高于(或至少为)预定阈值的音频信号的部分识别为音频信号的语音部分。在其他实施方案中，应当理解，系统可以基于音频信号的差异度量对音调和语音进行区分/分类。

在框126中，系统确定是否在音频信号中识别出一个或多个音调。如果是，则方法100前进到框128，其中系统处理(或尝试处理)一个或多个音调。否则，方法100可以终止。在音频信号中识别音调的情况下，应当理解，所识别的音调可以是或可以包括一个或多个呼叫进程音调模式。例如，在一些实施方案中，音调可以包括或表示占线信号模式、回铃模式或特殊信息音调(SIT)模式。应当理解，系统可以使用任何合适的技术和/或算法来处理一个或多个音调，例如通过确定在音频信号中识别的音调中的每个音调的相应频率。例如，在一些实施方案中，系统可以识别音频信号的一个或多个音调中的呼叫进程音调模式，并将电话呼叫转移到另一个实体。具体地，在联络中心系统的上下文中，电话呼叫可以从联络中心系统的第一系统转移到联络中心系统的第二系统。在另一实施方案中，音频信号的音调的处理(例如，呼叫进程音调模式)可以包括将呼出呼叫连接到联络中心系统的座席或自动交互式语音应答(IVR)系统。

尽管以相对串行的方式描述了框102-框128，但是应当理解，在一些实施方案中，方法100的各种框可以并行执行。

现在参考图2，示出了可以与本文描述的实施方案中的一个或多个实施方案结合使用的通信基础设施和/或内容中心系统的至少一个实施方案的简化框图。联系中心系统200可以体现为能够向终端用户提供联系中心服务(例如，呼叫中心服务、聊天中心服务、SMS中心服务等)并且以其他方式执行本文描述的功能的任何系统。说明性联络中心系统200包括客户设备205、网络210、交换机/媒体网关212、呼叫控制器214、交互式媒体应答(IMR)服务器216、路由服务器218、存储设备220、统计服务器226、座席设备230A、座席设备230B、座席设备230C、媒体服务器234、知识管理服务器236、知识系统238、聊天服务器240、web服务器242、交互(iXn)服务器244、通用联络服务器246、报告服务器248、媒体服务服务器249和分析模块250。尽管仅一个客户设备205、一个网络210、一个交换机/媒体网关212、一个呼叫控制器214、一个IMR服务器216、一个路由服务器218、一个存储设备220、一个统计服务器226、一个媒体服务器234、一个知识管理服务器236、一个知识系统238、一个聊天服务器240、一个iXn服务器244、一个通用联络服务器246、一个报告服务器248、一个媒体服务服务器249和一个分析模块250在图2的说明性实施方案中示出，但是联络中心系统200在其他实施方案可以包括多个客户设备205、多个网络210、多个交换机/媒体网关212、多个呼叫控制器214、多个IMR服务器216、多个路由服务器218、多个存储设备220、多个统计服务器226、多个媒体服务器234、多个知识管理服务器236、多个知识系统238、多个聊天服务器240、多个iXn服务器244、多个通用联络服务器246、多个报告服务器248、多个媒体服务服务器249和多个分析模块250。此外，在一些实施方案中，本文描述的部件中的一个或多个部件可以从系统200中排除，被描述为独立的部件中的一个或多个部件可以形成另一部件的一部分，和/或被描述为形成另一部件的一部分的部件中的一个或多个部件可以是独立的。

应当理解，术语“联络中心系统”在本文用来指图2所示的系统和/或其部件，而术语“联络中心”更一般地用来指联络中心系统、操作那些系统的客户服务提供商和/或与其相关联的组织或企业。因此，除非另有明确限制，否则术语“联络中心”一般是指联络中心系统(诸如联络中心系统200)，相关联的客户服务提供商(诸如通过联络中心系统200提供客户服务的特定客户服务提供商)以及代表其提供那些客户服务的组织或企业。

就后台而言，客户服务提供商可以通过联络中心提供多种类型的服务。此类联络中心可配备员工或客户服务座席(或简称为“座席”)，其中座席充当公司、企业、政府机构或组织(在下文可互换地称为“组织”或“企业”)与个人诸如用户、个体或客户(在下文可互换地称为“个体”或“客户”)之间的中介。例如，联络中心处的座席可协助客户做出购买决定、接收订单，或者解决已接收到的产品或服务的问题。在联络中心内，联络中心座席与外部实体或客户之间的此类交互可在各种通信渠道上进行，诸如例如经由语音(例如，电话呼叫或IP语音或VoIP呼叫)、视频(例如，视频会议)、文本(例如，电子邮件和文本聊天)、屏幕共享、共同浏览和/或其他通信渠道。

在操作上，联络中心一般努力为客户提供高质量的服务，同时使成本最小化。例如，联络中心操作的一种方式是处理每个客户与实时座席的交互。虽然这种方法在服务质量方面可能评分良好，但由于座席劳动力的成本高，它也可能也会非常昂贵。因此，大多数联络中心利用某种程度的自动化过程来代替实时座席，诸如例如交互式语音应答(IVR)系统、交互式媒体应答(IMR)系统、互联网机器人或“机器人”、自动聊天模块或“聊天机器人”和/或其他自动化过程。在许多情况下，这已被证明是一种成功的策略，因为自动化过程可非常高效地处理某些类型的交互，并有效地减少对实时座席的需求。此类自动化允许联络中心针对更困难的客户交互使用人工座席，而自动化过程处理更重复或例行的任务。此外，可以优化效率并促进可重复性的方式构建自动化过程。虽然人工座席或实时座席可能忘记询问某些问题或跟进特定细节，但通常可通过使用自动化过程来避免此类错误。虽然客户服务提供商越来越依赖于自动化过程来与客户进行交互，但客户对此类技术的使用仍然少得多。因此，虽然IVR系统、IMR系统和/或机器人用于在交互的联络中心侧自动执行部分交互，但客户侧的动作仍由客户手动执行。

应当理解，客户服务提供商可使用联络中心系统200来向客户提供各种类型的服务。例如，联络中心系统200可用于参与和管理自动化过程(或机器人)或人工座席与客户通信的交互。应当理解，联络中心系统200可以是业务或企业的内部设施，用于相对于通过企业可用的产品和服务执行销售和客户服务的功能。在另一实施方案中，联络中心系统200可由签约为另一组织提供服务的第三方服务提供商操作。此外，联络中心系统200可被部署在专用于企业或第三方服务提供方的装备上，和/或部署在远程计算环境中，诸如例如具有用于为多个企业支持多个联络中心的基础结构的私有或公共云环境。联络中心系统200可包括软件应用程序或程序，其可在现场或在远程或以它们的某种组合执行。还应当理解，联络中心系统200的各种部件可分布在各种地理位置上，并且不一定包含在单个位置或计算环境中。

还应当理解，除非另有明确限制，否则本发明的计算元件中的任一个计算元件也可在基于云的或云计算环境中实现。如本文所用以及下文参考计算设备300进一步描述的，“云计算”(或简称“云”)被定义为一种模型，用于实现对可配置计算资源(例如，网络、服务器、存储、应用程序和服务)的共享池的无处不在、方便的按需网络访问，其可经由虚拟化快速配置，并以最少的管理工作或服务提供商交互来发布，然后相应地进行扩展。云计算可由各种特征(例如，按需自助服务、广泛的网络访问、资源池、快速弹性、可计量的服务等)、服务模型(例如，软件即服务(“SaaS”)、平台即服务(“PaaS”)、基础结构即服务(“IaaS”)和部署模型(例如，私有云、社区云、公共云、混合云等)构成。云执行模型通常被称为“无服务器架构”，其通常包括动态地管理远程服务器的分配和配置以实现所需功能的服务提供商。

应当理解，相对于图2描述的计算机实现的部件、模块或服务器中的任一者都可经由一种或多种类型的计算设备(诸如例如图3的计算设备300)来实现。如将所见的，联络中心系统200一般管理资源(例如，人员、计算机、电信装备等)以使得能够经由电话、电子邮件、聊天或其他通信机制递送服务。此类服务可取决于联络中心的类型而变化，并且例如可以包括客户服务、帮助台功能、紧急应答、远程营销、接订单和/或其他特性。

期望从联络中心系统200接收服务的客户可经由客户设备205发起到联络中心系统200的入站通信(例如，电话呼叫、电子邮件、聊天等)。虽然图2示出一个这样的客户设备(即，客户设备205)，但是应当理解，可以存在任意数量的客户设备205。客户设备205例如可为通信设备，诸如电话、智能电话、计算机、平板计算机或膝上型计算机。根据本文所述的功能，客户一般可使用客户设备205来发起、管理和进行与联络中心系统200的通信，诸如电话呼叫、电子邮件、聊天、文本消息、网页浏览会话和其他多媒体交易。

来自和通向客户设备205的入站通信和出站通信可遍历网络210，其中网络的性质通常取决于所使用的客户设备的类型和通信的形式。例如，网络210可包括电话、蜂窝和/或数据服务的通信网络。网络210可以是专用或公共交换电话网络(PSTN)、局域网(LAN)、专用广域网(WAN)和/或公共WAN诸如互联网。此外，网络210可包括无线运营商网络，该无线运营商网络包括码分多址(CDMA)网络、全球移动通信系统(GSM)网络或本领域中常规的任何无线网络/技术，包括但不限于3G、4G、LTE、5G等。

交换机/媒体网关212可耦接到网络210，以用于在客户和联络中心系统200之间接收和传输电话呼叫。交换机/媒体网关212可包括电话交换机或通信交换机，该电话交换机或通信交换机被配置为用作用于中心内的座席级别路由的中心交换机。交换机可以是硬件交换系统或经由软件实现。例如，交换机212可以包括自动呼叫分配器、专用交换分机(PBX)、基于IP的软件交换机和/或具有专用硬件和软件的任何其他交换机，该专用硬件和软件被配置为从客户接收互联网来源的交互和/或电话网络来源的交互，并且将那些交互路由到例如座席设备230中的一个座席设备。因此，一般来讲，交换机/媒体网关212通过在客户设备205与座席设备230之间建立连接来在客户与座席之间建立语音连接。

如进一步所示，交换机/媒体网关212可耦接到呼叫控制器214，该呼叫控制器例如用作交换机与联络中心系统200的其他路由、监视和通信处理部件之间的适配器或接口。呼叫控制器214可被配置为处理PSTN呼叫、VoIP呼叫和/或其他类型的呼叫。例如，呼叫控制器214可以包括用于与交换机/媒体网关和其他部件接合的计算机电话集成(CTI)软件。呼叫控制器214可包括用于处理SIP呼叫的会话发起协议(SIP)服务器。呼叫控制器214还可提取关于传入交互的数据，诸如客户的电话号码、IP地址或电子邮件地址，然后在处理交互时将这些数据与其他联络中心部件进行通信。

交互式媒体应答(IMR)服务器216可被配置为启用自助或虚拟助理功能。具体地，IMR服务器216可类似于交互式语音应答(IVR)服务器，不同的是IMR服务器216不限于语音并且还可覆盖各种媒体渠道。在示出语音的示例中，IMR服务器216可被配置有IMR脚本以用于向客户查询其需求。例如，银行的联络中心可经由IMR脚本指示客户如果他们希望检索其账户余额，则“按下1”。通过与IMR服务器216继续交互，客户可接收服务而无需与座席说话。IMR服务器216还可被配置为查明客户为何联系联络中心，使得可将通信路由到适当的资源。IMR配置可通过使用自助和/或辅助服务工具来执行，该工具包括用于开发在联络中心环境中运行的IVR应用程序和路由应用程序的基于web的工具(例如，

设计器)。

路由服务器218可用于路由传入交互。例如，一旦确定入站通信应该由人工座席处理，路由服务器218内的功能就可选择最适当的座席并向其路由通信。该座席选择可基于哪个可用座席最适合于处理通信。更具体地，适当座席的选择可基于由路由服务器218实现的路由策略或算法。这样做时，路由服务器218可查询与传入交互相关的数据，例如与特定客户、可用座席和交互类型相关的数据，如本文描述的，这些数据可存储在特定数据库中。一旦选择了座席，路由服务器218就可与呼叫控制器214进行交互以将传入交互路由(即，连接)到对应的座席设备230。作为该连接的一部分，关于客户的信息可经由其座席设备230提供给所选择的座席。该信息旨在增强座席能够向客户提供的服务。

应当理解，联络中心系统200可以包括一个或多个大容量存储设备(一般由存储设备220表示)，该一个或多个大容量存储设备用于将数据存储在与联络中心的功能相关的一个或多个数据库中。例如，存储设备220可存储保持在客户数据库中的客户数据。此类客户数据可以包括例如客户档案、联系人信息、服务级别协议(SLA)和交互历史(例如，与特定客户的先前交互的细节，包括先前交互的性质、处置数据、等待时间、处理时间和联络中心为解决客户问题而采取的行动)。又如，存储设备220可将座席数据存储在座席数据库中。由联络中心系统200维护的座席数据可以包括例如座席可用性和座席档案、时间表、技能、处理时间和/或其他相关数据。又如，存储设备220可将交互数据存储在交互数据库中。交互数据可以包括例如与客户和联络中心之间的许多过往交互相关的数据。更一般地，应当理解，除非另外指明，否则存储设备220可被配置为包括数据库和/或存储与本文所述的任何类型的信息相关的数据，其中这些数据库和/或数据能够以促进本文所述的功能的方式被联络中心系统200的其他模块或服务器访问。例如，联络中心系统200的服务器或模块可查询此类数据库以检索存储在其中的数据或向其中传输数据以供存储。例如，存储设备220可采取任何常规存储介质的形式，并且可本地容纳或从远程位置操作。例如，数据库可以是Cassandra数据库、NoSQL数据库或SQL数据库，并且由数据库管理系统(诸如Oracle、IBMDB2、Microsoft SQL服务器、Microsoft Access、PostgreSQL)管理。

统计服务器226可被配置为记录和聚合与联络中心系统200的性能和操作方面相关的数据。此类信息可由统计服务器226编译并且可供其他服务器和模块(诸如报告服务器248)使用，该其他服务器和模块然后可使用该数据来产生报告，该报告用于管理联络中心的操作方面并根据本文描述的功能来执行自动化动作。此类数据可涉及联络中心资源的状态，例如，平均等待时间、放弃率、座席占用率以及如本文描述的功能所需的其他数据。

联络中心系统200的座席设备230可以是通信设备，这些通信设备被配置为以促进本文描述的功能的方式与联络中心系统200的各种部件和模块进行交互。例如，座席设备230可包括适用于常规电话呼叫或VoIP呼叫的电话。座席设备230还可包括计算设备，该计算设备被配置为根据本文所述的功能与联络中心系统200的服务器通信，执行与操作相关联的数据处理，并且经由语音、聊天、电子邮件和其他多媒体通信机制与客户进行交互。虽然图2示出了三个此类座席设备230(即，座席设备230A、座席设备230B和座席设备230C)，但应当理解，在特定实施方案中可存在任何数量的座席设备230。

多媒体/社交媒体服务器234可被配置为促进与客户设备205和/或服务器242的媒体交互(语音除外)。此类媒体交互可与例如电子邮件、语音邮件、聊天、视频、文本消息收发、网络、社交媒体、共同浏览等相关。多媒体/社交媒体服务器234可采用本领域中常规的具有用于接收、处理和转发多媒体事件和通信的专用硬件和软件的任何IP路由器的形式。

知识管理服务器236可被配置为促进客户与知识系统238之间的交互。一般来讲，知识系统238可为能够接收问题或查询并作为响应提供答案的计算机系统。知识系统238可被包括作为联络中心系统200的一部分或由第三方远程操作。知识系统238可以包括人工智能计算机系统，该人工智能计算机系统能够通过从诸如百科全书、词典、新闻专线文章、文学作品或作为参考材料提交给知识系统238的其他文档等信息源检索信息来回答以自然语言提出的问题。例如，知识系统238可体现为IBM Watson或类似系统。

聊天服务器240可被配置为进行、编排和管理与客户的电子聊天通信。一般来讲，聊天服务器240被配置为实现和保持聊天会话并生成聊天转录。此类聊天通信可由聊天服务器240以客户与自动聊天机器人、人工座席或两者通信的方式进行。在示例性实施方案中，聊天服务器240可用作聊天编排服务器，该聊天编排服务器在聊天机器人和可用人工座席之间调度聊天会话。在此类情况下，聊天服务器240的处理逻辑可由规则驱动，以便利用可用聊天资源之间的智能工作负载分布。聊天服务器240还可以实现、管理和促进与聊天特征相关联的用户界面(UI)，包括在客户设备205或座席设备230处生成的那些UI。聊天服务器240可被配置为在自动化资源和人力资源之间在单个聊天会话内转移聊天，使得例如聊天会话从聊天机器人转移到人工座席或从人工座席转移到聊天机器人。聊天服务器240还可耦接到知识管理服务器236和知识系统238，用于接收对客户在聊天期间提出的查询的建议和回答，使得例如可提供到相关文章的链接。

web服务器242可以包括此类服务器来为客户订阅的各种社交交互站点(诸如Facebook、Twitter、Instagram等)提供站点主机。尽管被描绘为联络中心系统200的一部分，但应当理解，web服务器242可由第三方提供和/或远程维护。web服务器242还可为正由联络中心系统200支持的企业或组织提供网页。例如，客户可浏览网页并接收关于特定企业的产品和服务的信息。在此类企业网页内，可提供用于例如经由网络聊天、语音或电子邮件发起与联络中心系统200的交互的机制。此类机制的示例是可部署在web服务器242上托管的网页或网站上的桌面小程序。如本文所用，桌面小程序是指执行特定功能的用户界面部件。在一些具体实施中，桌面小程序可包括图形用户界面控件，该图形用户界面控件可覆盖在经由互联网向客户显示的网页上。桌面小程序可诸如在窗口或文本框中显示信息，或者包括允许客户访问某些功能诸如共享或打开文件或发起通信的按钮或其他控件。在一些具体实施中，桌面小程序包括用户界面部件，该用户界面部件具有代码的可移植部分，该可移植部分可在单独的网页内安装和执行而无需编译。一些桌面小程序可包括对应的或附加的用户界面，并且可被配置为经由网络(例如，即时消息、电子邮件或社交网络更新)访问多种本地资源(例如，客户设备上的日历或联系人信息)或远程资源。

交互(iXn)服务器244可被配置为管理联络中心的可延期活动及其到人工座席的路由以供完成。如本文所用，可延期活动可以包括可离线执行的后台工作，例如回复电子邮件、参加培训以及不需要与客户实时通信的其他活动。例如，交互(iXn)服务器244可被配置为与路由服务器218进行交互以用于选择适当的座席来处理可延期活动中的每个可延期活动。一旦分配给特定座席，就将可延期活动推送到该座席，使得其出现在所选择座席的座席设备230上。可延期活动可作为所选择座席完成的任务出现在工作区中。工作区的功能可以通过任何常规数据结构来实施，诸如例如链表、阵列和/或其他合适的数据结构。座席设备230中的每个座席设备可以包括工作区。例如，工作区可以被保持在对应座席设备230的缓冲存储器中。

通用联络服务器(UCS)246可被配置为检索存储在客户数据库中的信息和/或向其传输信息以便存储在其中。例如，UCS 246可用作聊天特征的一部分以便于维护关于如何处理与特定客户的聊天的历史，然后可将其用作对应如何处理未来聊天的参考。更一般地，UCS 246可被配置为便于维护客户偏好的历史，诸如优选媒体渠道和最佳联系时间。为此，UCS 246可被配置为识别与每个客户的交互历史相关的数据，诸如例如与来自座席的评论、客户通信历史等相关的数据。然后，可将这些数据类型中的每种数据类型存储在客户数据库222中或存储在其他模块上，并根据本文描述的功能需要进行检索。

报告服务器248可被配置为从由统计服务器226或其他来源编译和聚合的数据生成报告。此类报告可以包括近实时报告或历史报告，并且涉及联络中心资源的状态和性能特性，诸如例如平均等待时间、放弃率和/或座席占用率。报告可自动生成或响应于来自请求者(例如，座席、管理员、联络中心应用程序等)的特定请求而生成。然后，这些报告可用于根据本文描述的功能来管理联络中心操作。

媒体服务服务器249可被配置为提供音频和/或视频服务以支持联络中心特征。根据本文描述的功能，此类特征可以包括对IVR或IMR系统的提示(例如，音频文件的回放)、保持音乐、语音邮件/单方记录、多方记录(例如，音频和/或视频呼叫的多方记录)、语音识别、双音多频(DTMF)识别、传真、音频和视频转码、安全实时传输协议(SRTP)、音频会议、视频会议、教程(例如，支持教练收听客户和座席之间的交互以及支持教练在客户未听到评论的情况下向座席提供评论)、呼叫分析、关键字定位和/或其他相关特征。

分析模块250可被配置为提供用于对从多个不同数据源所接收的数据执行分析的系统和方法，如本文描述的功能可能需要的。根据示例性实施方案，分析模块250还可基于所收集的数据(诸如例如，客户数据、座席数据和交互数据)生成、更新、训练和修改预测器或模型。模型可以包括客户或座席的行为模型。行为模型可用于在各种情况下预测例如客户或座席的行为，从而允许本发明的实施方案基于此类预测来定制交互或分配资源以准备未来交互的预测特性，从而改善联络中心的总体性能和客户体验。应当理解，虽然分析模块被描述为联络中心的一部分，但此类行为模型也可在客户系统上(或者，也如本文所用，在交互的“客户侧”上)实现并用于客户利益。

根据示例性实施方案，分析模块250可访问存储在存储设备220中的数据，包括客户数据库和座席数据库。分析模块250还可访问交互数据库，该交互数据库存储与交互和交互内容相关的数据(例如，其中检测到的交互和事件的转录)、交互元数据(例如，客户标识符、座席标识符、交互媒体、交互时长、交互开始和结束时间、部门、带标签的类别)以及应用程序设置(例如，通过联络中心的交互路径)。此外，分析模块250可被配置为检索存储在存储设备220内的数据，以用于例如通过应用机器学习技术来开发和训练算法和模型。

所包括的模型中的一个或多个模型可被配置为预测客户或座席行为和/或与联络中心操作和性能相关的方面。此外，模型中的一个或多个模型可用于自然语言处理，并且例如包括意图识别等。可以基于以下内容来开发模型：描述系统的已知第一原理方程；产生经验模型的数据；或已知第一原理方程和数据的组合。在开发与本发明的实施方案一起使用的模型时，由于第一原理公式通常是不可用的或不容易导出的，因此通常可能优选的是基于收集和存储的数据来构建经验模型。为了正确地捕获复杂系统的操纵/干扰变量与受控变量之间的关系，在一些实施方案中，可能优选的是模型是非线性的。这是因为非线性模型可表示操纵/干扰变量与控制变量之间的曲线关系而不是直线关系，这对于复杂系统诸如本文所讨论的那些是常见的。鉴于前述要求，基于机器学习或神经网络的方法是用于实现模型的优选实施方案。例如，可使用高级回归算法基于经验数据来开发神经网络。

分析模块250还可以包括优化器。应当理解，可使用优化器来使受制于一组约束的“成本函数”最小化，其中成本函数是期望目标或系统操作的数学表示。由于模型可以是非线性的，因此优化器可以是非线性编程优化器。然而，可以设想的是，本文描述的技术可通过单独地或组合地使用多种不同类型的优化方法来实现，包括但不限于线性编程、二次编程、混合整数非线性编程、随机编程、全局非线性编程、遗传算法、粒子/群技术等。

根据一些实施方案，模型和优化器可在优化系统内一起使用。例如，分析模块250可利用优化系统作为优化过程的一部分，通过优化过程优化或至少增强联络中心性能和操作的各方面。例如，这可以包括与客户体验、座席体验、交互路由、自然语言处理、意图识别相关的特征或与自动化过程相关的其他功能。

图2(以及本文包括的其他附图)的各种部件、模块和/或服务器可各自包括一个或多个处理器，该一个或多个处理器执行计算机程序指令并与其他系统部件交互以执行本文所述的各种功能。此类计算机程序指令可存储在使用标准存储设备(诸如例如随机存取存储器(RAM))实现的存储器中，或存储在其他非暂态计算机可读介质(诸如例如CD-ROM、闪存驱动器等)中。尽管每个服务器的功能被描述为由特定服务器提供，但本领域的技术人员应当认识到，在不脱离本发明的范围的情况下，各种服务器的功能可被组合或集成到单个服务器中，或者特定服务器的功能可分布在一个或多个其他服务器上。此外，术语“交互”和“通信”可互换使用，并且一般是指使用任何通信渠道的任何实时和非实时交互，包括但不限于电话呼叫(PSTN或VoIP呼叫)、电子邮件、语音邮件、视频、聊天、屏幕共享、文本消息、社交媒体消息、WebRTC呼叫等。可通过可在客户设备205和/或座席设备230上生成的用户界面(UI)来影响对联络中心系统200的部件的访问和控制。如已经指出的，联络中心系统200可作为混合系统操作，其中一些或所有部件被远程托管，诸如在基于云的或云计算环境中。应当理解，联络中心系统200的设备中的每个设备可以体现为、包括或形成类似于下文参考图3所描述的计算设备300的一个或多个计算设备的一部分。

现在参考图3，示出了计算设备300的至少一个实施方案的简化框图。说明性计算设备300描绘了本文描述的计算设备、系统、服务器、控制器、交换机、网关、引擎、模块和/或计算部件(例如，为了描述的简洁性，它们可互换地统称为计算设备、服务器或模块)中的每一者的至少一个实施方案。例如，各种计算设备可以是在一个或多个计算设备300的一个或多个处理器上运行的过程或线程，该过程或线程可执行计算机程序指令并与其他系统模块进行交互以便执行本文描述的各种功能。除非另有明确限制，否则关于多个计算设备描述的功能可集成到单个计算设备中，或者关于单个计算设备描述的各种功能可分布在若干计算设备上。此外，关于本文描述的计算系统(诸如图2的联络中心系统200)，各种服务器及其计算机设备可位于本地计算设备300上(例如，在与联络中心的座席相同的物理位置处在现场)、远程计算设备300上(例如，在现场外或在基于云的或云计算环境中，例如，在经由网络连接的远程数据中心中)或它们的某种组合。在一些实施方案中，由位于现场外的计算设备上的服务器提供的功能可通过虚拟专用网络(VPN)来访问和提供，就像此类服务器在现场一样，或者可使用软件即服务(SaaS)(使用各种协议通过互联网来访问)来提供功能，诸如通过经由可扩展标记语言(XML)和JSON来交换数据，和/或该功能可以以其他方式被访问/利用。

在一些实施方案中，计算设备300可以体现为服务器、台式计算机、膝上型计算机、平板计算机、笔记本、上网本、Ultrabook^TM、蜂窝电话、移动计算设备、智能手机、可穿戴计算设备、个人数字助理、物联网(IoT)设备、处理系统、无线接入点、路由器、网关和/或能够执行本文描述的功能的任何其他计算设备、处理设备和/或通信设备。

计算设备300包括根据操作逻辑308执行算法和/或处理数据的处理设备302、实现计算设备300与一个或多个外部设备310之间的通信的输入/输出设备304以及存储例如经由输入/输出设备304从外部设备310接收的数据的存储器306。

输入/输出设备304允许计算设备300与外部设备310通信。例如，输入/输出设备304可以包括收发器、网络适配器、网卡、接口、一个或多个通信端口(例如，USB端口、串行端口、并行端口、模拟端口、数字端口、VGA、DVI、HDMI、火线、CAT 5或任何其他类型的通信端口或接口)和/或其他通信电路。取决于特定计算设备300，计算设备300的通信电路可以被配置为使用任何一种或多种通信技术(例如，无线或有线通信)和相关联的协议(例如，以太网、

WiMAX等)来实现此类通信。输入/输出设备304可以包括适合于执行本文描述的技术的硬件、软件和/或固件。

外部设备310可以是允许从计算设备300输入或输出数据的任何类型的设备。例如，在各种实施方案中，外部设备310可以体现为本文描述的设备/系统中的一个或多个设备/系统，和/或其一部分。此外，在一些实施方案中，外部设备310可以体现为另一计算设备、交换机、诊断工具、控制器、打印机、显示器、警报、外围设备(例如，键盘、鼠标、触摸屏显示器等)和/或能够执行本文描述的功能的任何其他计算设备、处理设备和/或通信设备。此外，在一些实施方案中，应当理解，外部设备310可集成到计算设备300中。

处理设备302可被体现为能够执行本文描述的功能的任何类型的处理器。具体地，处理设备302可被体现为一个或多个单核或多核处理器、微控制器或其他处理器或处理/控制电路。例如，在一些实施方案中，处理设备302可以包括或体现为算术逻辑单元(ALU)、中央处理单元(CPU)、数字信号处理器(DSP)、图形处理单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)和/或另一个合适处理器。处理设备302可以是可编程类型、专用硬连线状态机或它们的组合。在各种实施方案中，具有多个处理单元的处理设备302可利用分布式、流水线和/或并行处理。此外，处理设备302可以专用于仅执行本文描述的操作，或可以在一个或多个附加应用中利用。在说明性实施方案中，处理设备302是可编程的并且根据操作逻辑308执行算法和/或处理数据，如由存储在存储器306中的编程指令(诸如软件或固件)定义的。附加地或另选地，用于处理设备302的操作逻辑308可以至少部分地由硬连线逻辑或其他硬件定义。此外，处理设备302可以包括适合于处理从输入/输出设备304或从其他部件或设备接收的信号并且提供期望的输出信号的任何类型的一个或多个部件。此类部件可以包括数字电路、模拟电路或其组合。

存储器306可以是一种或多种类型的非暂态计算机可读介质，诸如固态存储器、电磁存储器、光学存储器或它们的组合。此外，存储器306可以是易失性的和/或非易失性的，并且在一些实施方案中，存储器306中的一些或全部可以是便携式类型，诸如盘、磁带、记忆棒、盒式磁带和/或其他合适的便携式存储器。在操作中，存储器306可以存储在计算设备300的操作期间使用的各种数据和软件，诸如操作系统、应用程序、程序、库和驱动程序。应当理解，除了存储定义处理设备302的操作逻辑308的编程指令之外或代替该存储，存储器306可以存储由操作逻辑308操纵的数据，诸如，例如表示从输入/输出设备304接收和/或发送到该输入/输出设备的信号的数据。如图3所示，取决于特定实施方案，存储器306可以与处理设备302一起被包括和/或耦接到处理设备302。例如，在一些实施方案中，处理设备302、存储器306和/或计算设备300的其他部件可以形成片上系统(SoC)中的一部分以及并入单个集成电路芯片上。

在一些实施方案中，计算设备300的各种部件(例如，处理设备302和存储器306)可以经由输入/输出子系统通信地耦接，该输入/输出子系统可以体现为电路和/或部件以促进与计算设备300的处理设备302、存储器306和其他部件的输入/输出操作。例如，输入/输出子系统可以体现为或以其他方式包括存储器控制器集线器、输入/输出控制集线器、固件设备、通信链路(即，点对点链路、总线链路、电线、电缆、光导、印刷电路板迹线等)和/或其他部件和子系统，以促进输入/输出操作。

在其他实施方案中，计算设备300可以包括其他或附加部件，诸如在典型的计算设备中常见的那些部件(例如，各种输入/输出设备和/或其他部件)。还应当理解，本文描述的计算设备300的部件中的一个或多个部件可以跨多个计算设备分布。换句话说，本文描述的技术可以由包括一个或多个计算设备的计算系统采用。另外，尽管仅在图3中说明性地示出单个处理设备302、I/O设备304和存储器306，但是应当理解，在其他实施方案中，特定计算设备300可以包括多个处理设备302、I/O设备304和/或存储器306。此外，在一些实施方案中，多于一个外部设备310可以与计算设备300通信。

计算设备300可以是由网络连接或经由网络连接到其他系统/资源的多个设备中的一个设备。网络可以体现为能够促进经由网络通信地连接的各种设备之间的通信的任何一种或多种类型的通信网络。因此，网络可以包括一个或多个网络、路由器、交换机、接入点、集线器、计算机、客户端设备、终端、节点和/或其他中间网络设备。例如，网络可以体现为或以其他方式包括一个或多个蜂窝网络、电话网络、局域网或广域网、公共可用的全局网络(例如，互联网)、自组织网络、短程通信链路或它们的组合。在一些实施方案中，网络可以包括电路交换语音或数据网络、分组交换语音或数据网络和/或能够承载语音和/或数据的任何其他网络。具体地，在一些实施方案中，网络可以包括基于互联网协议(IP)和/或基于异步传输模式(ATM)的网络。在一些实施方案中，网络可处理语音流量(例如，经由IP语音(VOIP)网络)、web流量和/或取决于彼此通信的系统的特定实施方案和/或设备的其他网络流量。在各种实施方案中，网络可以包括模拟或数字有线和无线网络(例如，IEEE 802.11网络、公共交换电话网络(PSTN)、集成服务数字网络(ISDN)和数字订户线路(xDSL))、第三代(3G)移动电信网络、第四代(4G)移动电信网络、第五代(5G)移动电信网络、有线以太网网络、专用网络(例如，诸如内联网)、无线电、电视、电缆、卫星和/或用于承载数据的任何其他递送或隧道机制，或此类网络的任何适当组合。应当理解，各种设备/系统可取决于源和/或目的地设备经由不同网络彼此通信。

应当理解，计算设备300可经由任何类型的网关或隧道协议(诸如安全套接层或传输层安全)与其他计算设备300进行通信。网络接口可包括内置网络适配器(诸如网络接口卡)，其适于将计算设备接合到能够执行本文所述的操作的任何类型的网络。此外，网络环境可以是虚拟网络环境，其中各种网络部件被虚拟化。例如，各种机器可以是被实现为在物理机器上运行的基于软件的计算机的虚拟机。虚拟机可共享相同的操作系统，或者在其他实施方案中，可在每个虚拟机实例上运行不同的操作系统。例如，使用了“虚拟机管理程序”类型的虚拟化，其中多个虚拟机在相同主机物理机器上运行，每个虚拟机的作用就好像其具有自身的专用盒一样。在其他实施方案中，可以采用其他类型的虚拟化，诸如例如网络(例如，经由软件定义联网)或功能(例如，经由网络功能虚拟化)。

因此，本文描述的一个或多个计算设备300可以体现为或者形成一个或多个基于云的系统的一部分。在基于云的实施方案中，基于云的系统可以体现为服务器模糊的计算解决方案，该服务器模糊计算解决方案例如按需执行多个指令，包含仅在由特定活动/触发事件提示时执行指令的逻辑，并且在不使用时不消耗计算资源。也就是说，系统可以体现为驻留在计算系统“上”的虚拟计算环境(例如，设备的分布式网络)，其中各种虚拟函数(例如，λ函数、Azure函数、Google cloud函数和/或其他合适的虚拟函数)可对应于本文描述的系统的函数来执行。例如，当发生事件时(例如，数据被传输到系统以用于处理)，可与虚拟计算环境通信(例如，经由对虚拟计算环境的API的请求)，由此API可基于规则集合将请求路由到正确虚拟函数(例如，特定的服务器模糊的计算资源)。因此，当用户进行对数据传输的请求(例如，经由到系统的适当用户界面)时，可执行适当的虚拟函数以在消除虚拟函数的实例之前执行动作。

Claims

1.一种用于使用音调和语音分类来执行呼叫进程分析的联络中心系统，所述联络中心系统包括：

至少一个处理器；和

至少一个存储器，所述至少一个存储器包括存储在其上的多个指令，所述多个指令响应于由所述至少一个处理器执行而使所述联络中心系统：

确定由所述联络中心系统接收的音频信号的熵的累积平均值；

确定所述音频信号的累积平均功率频谱幅度，并基于所述音频信号的所述累积平均功率频谱幅度确定所述音频信号的累积平均频谱熵；

将所述音频信号的差异度量计算为所述音频信号的所述熵的所述累积平均值与所述音频信号的所述累积平均频谱熵之间的差；

基于所述音频信号的所述差异度量将所述音频信号的音调和语音区分开；以及

响应于所述音频信号中的一个或多个音调的识别，处理所述音频信号的一个或多个音调。

2.根据权利要求1所述的联络中心系统，其中处理所述音频信号的所述一个或多个音调包括：

识别所述音频信号的所述一个或多个音调中的呼叫进程音调模式；以及

响应于所述音频信号的所述一个或多个音调中的所述呼叫进程音调模式的识别，将电话呼叫从所述联络中心系统的第一系统转移到所述联络中心系统的第二系统。

3.根据权利要求1所述的联络中心系统，其中处理所述音频信号的所述一个或多个音调包括将呼出呼叫连接到所述联络中心系统的自动交互式语音应答(IVR)系统。

4.根据权利要求1所述的联络中心系统，其中处理所述音频信号的所述一个或多个音调包括将呼出呼叫连接到所述联络中心系统的座席。

5.根据权利要求1所述的联络中心系统，其中所述音频信号的所述一个或多个音调包括呼叫进程音调模式。

6.根据权利要求1所述的联络中心系统，其中所述呼叫进程音调模式包括占线信号模式、回铃模式或特殊信息音调模式中的一种模式。

7.根据权利要求1所述的联络中心系统，其中处理所述音频信号的所述一个或多个音调包括确定所述音频信号的所述一个或多个音调中的每个音调的对应频率。

8.根据权利要求1所述的联络中心系统，其中确定所述音频信号的所述熵的所述累积平均值包括计算所述音频信号的所述熵。

9.一种或多种非暂态机器可读存储介质，所述一种或多种非暂态机器可读存储介质包括存储在其上的多个指令，所述多个指令响应于由至少一个处理器执行而使联络中心系统：

计算由所述联络中心系统接收的音频信号的熵；

计算所述音频信号的所述熵的累积平均值；

计算所述音频信号的累积平均功率频谱幅度；

基于所述音频信号的所述累积平均功率频谱幅度，计算所述音频信号的累积平均频谱熵；

基于所述音频信号的所述差异度量对所述音频信号的音调和语音进行分类；以及

10.根据权利要求9所述的一种或多种非暂态机器可读存储介质，其中处理所述音频信号的所述一个或多个音调包括：响应于所述音频信号的所述一个或多个音调中的呼叫进程音调模式的识别，将电话呼叫从所述联络中心系统的第一系统转移到所述联络中心系统的第二系统。

11.根据权利要求9所述的一种或多种非暂态机器可读存储介质，其中处理所述音频信号的所述一个或多个音调包括将呼出呼叫连接到所述联络中心系统的自动交互式语音应答(IVR)系统。

12.根据权利要求9所述的一种或多种非暂态机器可读存储介质，其中处理所述音频信号的所述一个或多个音调包括将呼出呼叫连接到所述联络中心系统的座席。

13.根据权利要求9所述的一种或多种非暂态机器可读存储介质，其中所述音频信号的所述一个或多个音调包括呼叫进程音调模式。

14.根据权利要求9所述的一种或多种非暂态机器可读存储介质，其中所述呼叫进程音调模式包括占线信号模式、回铃模式或特殊信息音调模式中的一种模式。

15.根据权利要求9所述的一种或多种非暂态机器可读存储介质，其中处理所述音频信号的所述一个或多个音调包括确定所述音频信号的所述一个或多个音调中的每个音调的对应频率。

16.一种在联络中心系统中使用音调和语音分类来执行呼叫进程分析的方法，所述方法包括：

由所述联络中心系统接收音频信号；

由所述联络中心系统确定由所述联络中心系统接收的所述音频信号的熵；

由所述联络中心系统确定所述音频信号的所述熵的累积平均值；

由所述联络中心系统确定所述音频信号的累积平均功率频谱幅度；

由所述联络中心系统基于所述音频信号的所述累积平均功率频谱幅度确定所述音频信号的累积平均频谱熵；

由所述联络中心系统将所述音频信号的差异度量确定为所述音频信号的所述熵的所述累积平均值与所述音频信号的所述累积平均频谱熵之间的差；

由所述联络中心系统基于所述音频信号的所述差异度量对所述音频信号的音调和语音进行分类；以及

响应于所述音频信号中的一个或多个音调的识别，由所述联络中心系统处理所述音频信号的一个或多个音调。

17.根据权利要求16所述的方法，其中处理所述音频信号的所述一个或多个音调包括：

响应于识别所述音频信号的所述一个或多个音调中的所述呼叫进程音调模式，将电话呼叫从所述联络中心系统的第一系统转移到所述联络中心系统的第二系统。

18.根据权利要求16所述的方法，其中处理所述音频信号的所述一个或多个音调包括将呼出呼叫连接到所述联络中心系统的座席或自动交互式语音应答(IVR)系统中的一者。

19.根据权利要求16所述的方法，其中所述音频信号的所述一个或多个音调包括呼叫进程音调模式。

20.根据权利要求16所述的方法，其中处理所述音频信号的所述一个或多个音调包括确定所述音频信号的所述一个或多个音调中的每个音调的对应频率。