CN117153185B

CN117153185B - 通话处理方法、装置、计算机设备和存储介质

Info

Publication number: CN117153185B
Application number: CN202311426625.XA
Authority: CN
Inventors: 陈晔
Original assignee: CCB Finetech Co Ltd
Current assignee: CCB Finetech Co Ltd
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-01-30
Anticipated expiration: 2043-10-31
Also published as: CN117153185A

Abstract

本申请涉及一种通话处理方法和装置，可用于智能客服技术领域或金融领域，以提升客户和客服的人声音频质量，从而提高客服与客户之间的通话效果。所述方法包括：获取客服端预先录入的朗读音频的客服声纹，以及获取客户端在通话预备阶段录入的待咨询业务的业务名称朗读音频的客户声纹；在客户端与客服端的通话过程中，根据客服声纹和客户声纹，从通话音频中匹配得到客服人声音频和客户人声音频；过滤客服人声音频中的背景声音信号和客户人声音频中的背景声音信号，得到过滤后的客服人声音频和过滤后的客户人声音频，进而调整过滤后的音频的音量，得到目标音量的客服人声音频和目标音量的客户人声音频并分别发送至客户端和客服端。

Description

通话处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及智能客服技术领域，特别是涉及一种通话处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

客户在与客服进行热线通话的过程中，通话场所的背景杂音经常会干扰到与客服的沟通，无法达到双方清晰对话的效果。

传统技术中，为提高通话质量，常通过消噪算法对通话的语音信号进行消噪处理，但是客户的声音也容易被误判为噪声信号而被一并消除，导致通话声音存在中断、不连续，导致客服难以理解客户想要咨询的业务内容，影响了客服与客户之间的正常通话，降低了通话质量。

发明内容

基于此，有必要针对上述技术问题，提供一种通话处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种通话处理方法。所述方法包括：

获取客服端预先录入的朗读音频的客服声纹，以及获取客户端在通话预备阶段录入的待咨询业务的业务名称朗读音频的客户声纹；

在所述客户端与所述客服端的通话过程中，根据所述客服声纹和所述客户声纹，对所述客户端与所述客服端之间的通话音频进行人声匹配，得到所述通话音频中的客服人声音频和客户人声音频；

过滤所述客服人声音频中的背景声音信号和所述客户人声音频中的背景声音信号，得到过滤后的客服人声音频和过滤后的客户人声音频；

调整所述过滤后的客服人声音频的音量，得到目标音量的客服人声音频，并发送所述目标音量的客服人声音频至所述客户端；

调整所述过滤后的客户人声音频的音量，得到目标音量的客户人声音频，并发送所述目标音量的客户人声音频至所述客服端。

在其中一个实施例中，所述过滤所述客服人声音频中的背景声音信号和所述客户人声音频中的背景声音信号，得到过滤后的客服人声音频和过滤后的客户人声音频，包括：对所述客服人声音频和所述客户人声音频分别进行傅里叶变换处理，得到所述客服人声音频的第一频率、第二频率和频率均值，以及所述客户人声音频的第一频率、第二频率和频率均值；根据所述客服人声音频的第一频率、第二频率和频率均值，对所述客服人声音频中的背景声音信号进行过滤，得到所述过滤后的客服人声音频；根据所述客户人声音频的第一频率、第二频率和频率均值，对所述客户人声音频中的背景声音信号进行过滤，得到所述过滤后的客户人声音频。

在其中一个实施例中，所述根据所述客服人声音频的第一频率、第二频率和频率均值，对所述客服人声音频中的背景声音信号进行过滤，得到所述过滤后的客服人声音频，包括：确定所述客服端预先录入的朗读音频的第一频率、第二频率和频率均值；根据所述朗读音频的第一频率、第二频率和频率均值，以及所述客服人声音频的第一频率、第二频率和频率均值，得到所述朗读音频与所述客服人声音频之间的客服音频方差；根据所述客服音频方差，确定所述客服人声音频中的背景声音信号并进行过滤，得到所述过滤后的客服人声音频。

在其中一个实施例中，所述根据所述客户人声音频的第一频率、第二频率和频率均值，对所述客户人声音频中的背景声音信号进行过滤，得到所述过滤后的客户人声音频，包括：确定所述客户端在通话预备阶段录入的业务名称朗读音频的第一频率、第二频率和频率均值；根据所述业务名称朗读音频的第一频率、第二频率和频率均值，以及所述客户人声音频的第一频率、第二频率和频率均值，得到所述业务名称朗读音频与所述客户人声音频之间的客户音频方差；根据所述客户音频方差，确定所述客户人声音频中的背景声音信号并进行过滤，得到所述过滤后的客户人声音频。

在其中一个实施例中，所述获取客服端预先录入的朗读音频的客服声纹，包括：预先发送待朗读文本至所述客服端；获取所述客服端基于所述待朗读文本录入的朗读音频；根据所述朗读音频，得到所述客服端的客服声纹。

在其中一个实施例中，所述调整所述过滤后的客服人声音频的音量，得到目标音量的客服人声音频，包括：判断所述过滤后的客服人声音频的音量是否达到目标音量的分贝值；若所述过滤后的客服人声音频的音量未达到所述目标音量的分贝值，则将所述过滤后的客服人声音频的音量调整为所述目标音量的分贝值，得到所述目标音量的客服人声音频。

第二方面，本申请还提供了一种通话处理装置。所述装置包括：

音频声纹获取模块，用于获取客服端预先录入的朗读音频的客服声纹，以及获取客户端在通话预备阶段录入的待咨询业务的业务名称朗读音频的客户声纹；

人声音频匹配模块，用于在所述客户端与所述客服端的通话过程中，根据所述客服声纹和所述客户声纹，对所述客户端与所述客服端之间的通话音频进行人声匹配，得到所述通话音频中的客服人声音频和客户人声音频；

音频信号过滤模块，用于过滤所述客服人声音频中的背景声音信号和所述客户人声音频中的背景声音信号，得到过滤后的客服人声音频和过滤后的客户人声音频；

第一音量调整模块，用于调整所述过滤后的客服人声音频的音量，得到目标音量的客服人声音频，并发送所述目标音量的客服人声音频至所述客户端；

第二音量调整模块，用于调整所述过滤后的客户人声音频的音量，得到目标音量的客户人声音频，并发送所述目标音量的客户人声音频至所述客服端。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取客服端预先录入的朗读音频的客服声纹，以及获取客户端在通话预备阶段录入的待咨询业务的业务名称朗读音频的客户声纹；在所述客户端与所述客服端的通话过程中，根据所述客服声纹和所述客户声纹，对所述客户端与所述客服端之间的通话音频进行人声匹配，得到所述通话音频中的客服人声音频和客户人声音频；过滤所述客服人声音频中的背景声音信号和所述客户人声音频中的背景声音信号，得到过滤后的客服人声音频和过滤后的客户人声音频；调整所述过滤后的客服人声音频的音量，得到目标音量的客服人声音频，并发送所述目标音量的客服人声音频至所述客户端；调整所述过滤后的客户人声音频的音量，得到目标音量的客户人声音频，并发送所述目标音量的客户人声音频至所述客服端。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述通话处理方法、装置、计算机设备、存储介质和计算机程序产品，获取客服端预先录入的朗读音频的客服声纹，以及获取客户端在通话预备阶段录入的待咨询业务的业务名称朗读音频的客户声纹；在客户端与客服端的通话过程中，根据客服声纹和客户声纹，对客户端与客服端之间的通话音频进行人声匹配，得到通话音频中的客服人声音频和客户人声音频；过滤客服人声音频中的背景声音信号和客户人声音频中的背景声音信号，得到过滤后的客服人声音频和过滤后的客户人声音频；调整过滤后的客服人声音频的音量，得到目标音量的客服人声音频，并发送目标音量的客服人声音频至客户端；调整过滤后的客户人声音频的音量，得到目标音量的客户人声音频，并发送目标音量的客户人声音频至客服端。

本申请有益效果：通过客服端和客户端在通话之前录入的音频，预先提取出客户声纹和客服声纹，进而利用客户声纹和客服声纹在通话过程中识别出客服和客户双方的人声音频，还通过过滤人声音频中的背景声音信号和调整音频音量来进一步提升客户和客服的人声音频质量，从而提高了客服与客户之间的通话效果。

附图说明

图1为一个实施例中通话处理方法的应用环境图；

图2为一个实施例中通话处理方法的流程示意图；

图3为一个实施例中过滤音频处理的步骤的流程示意图；

图4为一个实施例中过滤客服人声音频的步骤的流程示意图；

图5为一个实施例中过滤客户人声音频的步骤的流程示意图；

图6为一个实施例中通话处理装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要符合相关规定。

本申请实施例提供的通话处理方法，可以应用于如图1所示的应用环境中。其中，客服端和客户端通过网络与服务器进行通信。数据存储系统可以存储服务器需要处理的数据。数据存储系统可以集成在服务器上，也可以放在云上或其他网络服务器上。服务器获取客服端预先录入的朗读音频的客服声纹，以及获取客户端在通话预备阶段录入的待咨询业务的业务名称朗读音频的客户声纹；在客户端与客服端的通话过程中，服务器根据客服声纹和客户声纹，对客户端与客服端之间的通话音频进行人声匹配，得到通话音频中的客服人声音频和客户人声音频；过滤客服人声音频中的背景声音信号和客户人声音频中的背景声音信号，得到过滤后的客服人声音频和过滤后的客户人声音频；调整过滤后的客服人声音频的音量，得到目标音量的客服人声音频，并发送目标音量的客服人声音频至客户端；调整过滤后的客户人声音频的音量，得到目标音量的客户人声音频，并发送目标音量的客户人声音频至客服端。其中，客服端和客户端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种通话处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S201，获取客服端预先录入的朗读音频的客服声纹，以及获取客户端在通话预备阶段录入的待咨询业务的业务名称朗读音频的客户声纹。

其中，朗读音频是指客服朗读某段文字的音频信号。业务名称朗读音频是指客户针对待咨询业务的业务名称进行朗读的音频信号。

具体地，客户人员可以通过客服端预先录入朗读某文字材料的音频，得到朗读音频，然后通过客服端将录入的朗读音频传输至服务器，服务器对接收到的客服端的朗读音频进行声纹提取处理，得到客服人员的客服声纹。客户在与客服进行正式通话之前，服务器会发送一段提示语音（比如说提示客户“请口述您想咨询的业务的名称”）至客户端，客户端播放提示语音给客户听，以使客户在收听提示信息后朗读想要咨询的业务（即待咨询业务）的业务名称，同时客户端会录音客户的口述内容，则客户端得到客户的业务名称朗读音频，进而将客户待咨询业务的业务名称朗读音频传输至服务器。服务器通过对接收到的业务名称朗读音频进行声纹提取处理，得到客户的客户声纹。

步骤S202，在客户端与客服端的通话过程中，根据客服声纹和客户声纹，对客户端与客服端之间的通话音频进行人声匹配，得到通话音频中的客服人声音频和客户人声音频。

其中，客户人声音频是指客户在通话过程中说话的人声音频信号。客服人声音频是指客服在通话过程中说话的人声音频信号。

具体地，服务器可以基于声纹训练得到多个人声识别模型，然后将客服声纹、客户声纹、以及客户端与客服端之间的通话音频，分别输入至每个人声识别模型中，以综合多个人声识别模型将通话音频与客户声纹和客服声纹进行比对的结果，识别出通话音频中的客服人声音频和客户人声音频。比如说，可以是计算N个人声识别模型针对通话音频的音频帧输出的N帧解码结果的N帧人声平均概率和N帧人声累计概率，若N帧人声平均概率达到人声的指定平均阈值且N帧人声累计概率达到人声的指定累计阈值，则输出通话音频中音频帧的人声识别结果，从而得到通话音频中的客服人声音频和客户人声音频，还能有效排除通话过程中其他人员的声音对通话的干扰。

其中，人声识别模型可以采用以下方式进行训练：对输入的样本声音信号进行预处理；从预处理后的样本声音信号中提取声学特征信号；利用声学特征信号和样本声音信号对应的人声声纹，对待训练的人声识别模型进行训练，得到训练后的人声识别模型。

步骤S203，过滤客服人声音频中的背景声音信号和客户人声音频中的背景声音信号，得到过滤后的客服人声音频和过滤后的客户人声音频。

其中，背景声音信号是指通话环境的声音信号。

具体地，为进一步提高客服与客户的声音信号清晰度，服务器可以根据客服的朗读音频的频率，分辨出客服人声音频中的背景声音信号，然后将该背景声音信号过滤掉，得到过滤后的客服人声音频。同理，服务器还可以根据客户的业务名称根据音频的频率，分别出客户人声音频中的背景声音信号，然后将该背景声音信号过滤掉，得到过滤后的客户人声音频。

步骤S204，调整过滤后的客服人声音频的音量，得到目标音量的客服人声音频，并发送目标音量的客服人声音频至客户端。

其中，目标音量是指设置的通话音量。例如目标音量可以设置为80分贝。

步骤S205，调整过滤后的客户人声音频的音量，得到目标音量的客户人声音频，并发送目标音量的客户人声音频至客服端。

具体地，为使客服和客户更清晰地听清通话内容，服务器还可以对过滤后的客服人声音频的音量和过滤后的客户人声音频的音量进行调整，统一将客户人声音频和客服人声音频调整到目标音量，然后将调整后的目标音量的客服人声音频发送至客户端，同时将调整后的目标音量的客户人声音频发送至客服端，从而实现客服与客户之间通话清晰度、通话音量效果的双重提升。

上述通话处理方法中，获取客服端预先录入的朗读音频的客服声纹，以及获取客户端在通话预备阶段录入的待咨询业务的业务名称朗读音频的客户声纹；在客户端与客服端的通话过程中，根据客服声纹和客户声纹，对客户端与客服端之间的通话音频进行人声匹配，得到通话音频中的客服人声音频和客户人声音频；过滤客服人声音频中的背景声音信号和客户人声音频中的背景声音信号，得到过滤后的客服人声音频和过滤后的客户人声音频；调整过滤后的客服人声音频的音量，得到目标音量的客服人声音频，并发送目标音量的客服人声音频至客户端；调整过滤后的客户人声音频的音量，得到目标音量的客户人声音频，并发送目标音量的客户人声音频至客服端。上述通话处理方法的有益效果：通过客服端和客户端在通话之前录入的音频，预先提取出客户声纹和客服声纹，进而利用客户声纹和客服声纹在通话过程中识别出客服和客户双方的人声音频，还通过过滤人声音频中的背景声音信号和调整音频音量来进一步提升客户和客服的人声音频质量，从而提高了客服与客户之间的通话效果。

在一个实施例中，如图3所示，上述步骤S203，过滤客服人声音频中的背景声音信号和客户人声音频中的背景声音信号，得到过滤后的客服人声音频和过滤后的客户人声音频，具体包括如下内容：

步骤S301，对客服人声音频和客户人声音频分别进行傅里叶变换处理，得到客服人声音频的第一频率、第二频率和频率均值，以及客户人声音频的第一频率、第二频率和频率均值。

其中，第一频率的值高于第二频率的值，例如第一频率可以是最大频率，而第二频率可以是最小频率。

具体地，服务器对客服人声音频和客户人声音频分别进行快速傅里叶变换处理（Fast Fourier Transformation，FFT），得到客服人声频谱图和客户人声频谱图。针对客服人声频谱图中每帧信号的非空频率（即这个频率段有声强数据），提取出客服人声频谱图中每帧信号的最大频率、最小频率，并计算每帧信号所有的非空频率的平均值，得到频率均值。同理服务器可得客户人声频谱图中每帧信号的最大频率、最小频率以及频率均值。

步骤S302，根据客服人声音频的第一频率、第二频率和频率均值，对客服人声音频中的背景声音信号进行过滤，得到过滤后的客服人声音频。

具体地，背景声音信号的频率通常与人声频率存在较大的差异，因此，服务器可利用客服预先录入的朗读音频的频率信息，与客服人声音频的客服人声频谱图中每帧信号的频率信息（包括最大频率、最小频率以及频率均值）进行对比，将频率差异较大的信号确定为背景声音信号，然后将背景声音信号剔除，从而得到过滤后的客服人声音频。

步骤S303，根据客户人声音频的第一频率、第二频率和频率均值，对客户人声音频中的背景声音信号进行过滤，得到过滤后的客户人声音频。

具体地，服务器可利用客户在通话预备阶段采集的业务名称朗读音频的频率信息，与客户人声音频的客户人声频谱图中每帧信号的频率信息（包括最大频率、最小频率以及频率均值）进行对比，将频率差异较大的信号确定为背景声音信号，然后将背景声音信号剔除，从而得到过滤后的客户人声音频。

本实施例中，通过对客服人声音频和客户人声音频分别进行傅里叶变换处理，得到客服人声音频以及客户人声音频中的频率信息，从而借助预先录入的朗读音频和业务名称朗读音频的频率信息，分辨出客服人声音频和客户人声音频中的背景声音信号，然后剔除掉背景声音信号得到过滤后的客服人声音频和过滤后的客户人声音频，利用频率信息实现了音频中背景声音信号的深度剥离，进一步增强了客服人声音频和客户人声音频的质量，提高了客服与客户之间的通话效果。

在一个实施例中，如图4所示，上述步骤S302，根据客服人声音频的第一频率、第二频率和频率均值，对客服人声音频中的背景声音信号进行过滤，得到过滤后的客服人声音频，具体包括如下内容：

步骤S401，确定客服端预先录入的朗读音频的第一频率、第二频率和频率均值。

具体地，服务器对客服端预先录入的朗读音频进行快速傅里叶变换处理，得到客服朗读频谱图。针对客服朗读频谱图中每帧信号的非空频率，提取出客服朗读频谱图中每帧信号的最大频率、最小频率，并计算每帧信号所有的非空频率的平均值，得到频率均值。

步骤S402，根据朗读音频的第一频率、第二频率和频率均值，以及客服人声音频的第一频率、第二频率和频率均值，得到朗读音频与客服人声音频之间的客服音频方差。

具体地，服务器将朗读音频的第一频率、第二频率和频率均值，以及客服人声音频的第一频率、第二频率和频率均值，输入如下所示的公式（1），得到朗读音频与客服人声音频之间每帧信号的客服音频方差σ1。

σ1=(E1’-E1)²+(E2’-E2)²+(E3’-E3)² （1）

其中，E1’表示朗读音频的第一频率；E2’表示朗读音频的第二频率；E3’表示朗读音频的频率均值；E1表示客服人声音频的第一频率；E2表示客服人声音频的第二频率；E3表示客服人声音频的频率均值。

步骤S403，根据客服音频方差，确定客服人声音频中的背景声音信号并进行过滤，得到过滤后的客服人声音频。

具体地，获取预设的方差阈值，若朗读音频与客服人声音频之间某帧信号的客服音频方差小于预设的方差阈值，则认为这一帧不是背景声音信号，若某帧信号的客服音频方差大于或者等于预设的方差阈值，则认为这一帧是背景声音信号，可以剔除这一帧，进而服务器得到过滤后的客服人声音频。

举例说明，假设朗读音频的在0-0.1秒这一帧的{最高频率E1’，最低频率E2’，频率均值E3’}为{3500，1200，3000}，而客服人声音频在0-0.1秒这一帧的{最高频率E1，最低频率E2，频率均值E3}为{9500，3200，6000}，服务器可以将朗读音频的在0-0.1秒这一帧的频率信息和客服人声音频在0-0.1秒这一帧的频率信息代入上述公式（1），计算得到客服音频方差。若计算得到的客服音频方差小于预设的方差阈值（比如10000），则认为这一帧不是背景声音信号，若计算得到的客服音频方差大于或者等于预设的方差阈值（比如10000），则认为这一帧是背景声音信号，可以剔除这一帧。

在本实施例中，先处理得到客服端的朗读音频的第一频率、第二频率和频率均值，然后利用朗读音频和客服人声音频第一频率、第二频率和频率均值，计算得到朗读音频与客服人声音频之间的客服音频方差，进而根据客服音频方差，识别出客服人声音频中的背景声音信号并进行过滤，得到音频质量更高的过滤后的客服人声音频，避免了背景声音信号对客服通话的影响，大大提高了客服人声音频的音频质量。

在一个实施例中，如图5所示，上述步骤S303，根据客户人声音频的第一频率、第二频率和频率均值，对客户人声音频中的背景声音信号进行过滤，得到过滤后的客户人声音频，具体包括如下内容：

步骤S501，确定客户端在通话预备阶段录入的业务名称朗读音频的第一频率、第二频率和频率均值。

具体地，服务器对客户端在通话预备阶段录入的业务名称朗读音频进行快速傅里叶变换处理，得到客户朗读频谱图。针对客户朗读频谱图中每帧信号的非空频率，提取出客户朗读频谱图中每帧信号的最大频率、最小频率，并计算每帧信号所有的非空频率的平均值，得到频率均值。

步骤S502，根据业务名称朗读音频的第一频率、第二频率和频率均值，以及客户人声音频的第一频率、第二频率和频率均值，得到业务名称朗读音频与客户人声音频之间的客户音频方差。

具体地服务器将业务名称朗读音频的第一频率、第二频率和频率均值，以及客户人声音频的第一频率、第二频率和频率均值，输入如下所示的公式（2），得到业务名称朗读音频与客户人声音频之间每帧信号的客户音频方差σ2。

σ2=(P1’-P1)²+(P2’-P2)²+(P3’-P3)² （2）

其中，P1’表示业务名称朗读音频的第一频率；P2’表示业务名称朗读音频的第二频率；P3’表示业务名称朗读音频的频率均值；P1表示客户人声音频的第一频率；P2表示客户人声音频的第二频率；P3表示客户人声音频的频率均值。

步骤S503，根据客户音频方差，确定客户人声音频中的背景声音信号并进行过滤，得到过滤后的客户人声音频。

具体地，获取预设的方差阈值，若朗读音频与客户人声音频之间某帧信号的客户音频方差小于预设的方差阈值，则认为这一帧不是背景声音信号，若某帧信号的客户音频方差大于或者等于预设的方差阈值，则认为这一帧是背景声音信号，可以剔除这一帧，进而服务器得到过滤后的客户人声音频。

在本实施例中，先处理得到客户端的业务名称朗读音频的第一频率、第二频率和频率均值，然后利用业务名称朗读音频和客户人声音频第一频率、第二频率和频率均值，计算得到业务名称朗读音频与客户人声音频之间的客户音频方差，进而根据客户音频方差，识别出客户人声音频中的背景声音信号并进行过滤，得到音频质量更高的过滤后的客户人声音频，避免了背景声音信号对客户通话的影响，大大提高了客户人声音频的音频质量。

在一个实施例中，上述步骤S201，获取客服端预先录入的朗读音频的客服声纹，具体包括如下内容：预先发送待朗读文本至客服端；获取客服端基于待朗读文本录入的朗读音频；根据朗读音频，得到客服端的客服声纹。

其中，待朗读文本是指需要客服朗读口述的文本材料。

具体地，在通话之前，服务器预先发送一段待朗读文本至客服端，客服端将待朗读文本展示在屏幕上，以供客服查看；其中，待朗读文本可以是任意合规内容的文本材料。客服口述待朗读文本的内容，并通过客服端进行录音，则客服端得到朗读音频。然后客服端将朗读音频发送至服务器。服务器对朗读音频进行声纹提取处理，得到客服人员的客服声纹。可以理解的是，可以是在录音环境更佳的场景中录入的朗读音频，比如是在没有干扰源等背景噪声的安静环境下录入的朗读音频，以确保朗读音频的音频质量，从而后续与通话音频中的客服人声音频进行方差计算时能够更准确的分辨出背景声音信号。

在本实施例中，服务器预先客服端基于待朗读文本录入的朗读音频，使得后续步骤中能够依据录音环境更佳的朗读音频，准确识别出客服人声音频的背景声音信号，从而提高得到的客服端的客服声纹的质量，有利于提高客服人声音频的识别准确性和背景声音信号的识别准确性，从而大大提高了处理得到的客服人声音频的音频质量。

在一个实施例中，上述步骤S204，调整过滤后的客服人声音频的音量，得到目标音量的客服人声音频，并发送目标音量的客服人声音频至客户端，具体包括如下内容：判断过滤后的客服人声音频的音量是否达到目标音量的分贝值；若过滤后的客服人声音频的音量未达到目标音量的分贝值，则将过滤后的客服人声音频的音量调整为目标音量的分贝值，得到目标音量的客服人声音频。

具体地，服务器确定过滤后的客服人声音频的音量分贝值，并获取目标音量的分贝值，然后将客服人声音频的音量分贝值与目标音量的分贝值进行比较。如果过滤后的客服人声音频的音量小于目标音量的分贝值，则将过滤后的客服人声音频的音量增加到目标音量的分贝值；如果过滤后的客服人声音频的音量大于目标音量的分贝值，则将过滤后的客服人声音频的音量减少到目标音量的分贝值；如果过滤后的客服人声音频的音量等于目标音量的分贝值，则无需调整过滤后的客服人声音频的音量；进而服务器得到目标音量的客服人声音频。

进一步地，客户人声音频与之同理，服务器可先确定过滤后的客户人声音频的音量分贝值，然后将客户人声音频的音量分贝值与目标音量的分贝值进行比较。如果过滤后的客户人声音频的音量小于目标音量的分贝值，则将过滤后的客户人声音频的音量增加到目标音量的分贝值；如果过滤后的客户人声音频的音量大于目标音量的分贝值，则将过滤后的客户人声音频的音量减少到目标音量的分贝值；如果过滤后的客户人声音频的音量等于目标音量的分贝值，则无需调整过滤后的客户人声音频的音量；进而服务器得到目标音量的客户人声音频。

在本实施例中，若检测到过滤后的客服人声音频（或过滤后的客户人声音频）的音量未达到目标音量的分贝值，则服务器将过滤后的客服人声音频（或过滤后的客户人声音频）的音量增加或减少至目标音量的分贝值，使得通话过程中的客服人声音频和客户人声音频均为标准的目标音量的分贝值，避免其中一方说话声音过大或过小而影响通话清晰度，提高了客服与客户之间的通话效果。

为了更清晰阐明本公开实施例提供的通话处理方法，以下以一个具体的实施例对上述通话处理方法进行具体说明。提供了又一种通话处理方法，可以应用于图1中的服务器，具体包括如下内容：

预录入客服人员语音数据信息：通过客服阅读任意合规的文字材料，录入客服人员语音，得到客服人员的朗读音频。

预录入客户语音数据信息：通过IVR（Interactive Voice Response，交互式语音应答）前端接入，让客户口述跟读所需要服务的业务的对应业务名称，录入客户语音，得到业务名称朗读音频。

采集声纹：从客服人员的朗读音频中辨识出人声声纹，得到客服声纹；从客户业务名称朗读音频中辨识出人声声纹，得到客户声纹。

录入实时通话声源：客服与客户进行通话，并实时录入客服与客户之间的全部通话音频。

过滤实时通话中其它声纹信息：在实时通话过程中，根据客服声纹和客户声纹，对实时通话音频进行人身匹配，仅提取和保留客服人声音频和客户人声音频，对于其他人员的人声音频进行剔除。利用频谱分析，进一步剔除掉客服人声音频和客户人声音频中的背景声音信号，得到过滤后的客服人声音频和过滤后的客户人声音频。

调整音量：将过滤后的客服人声音频和过滤后的客户人声音频的音量，自动调节到目标音量分贝值80。

本实施例具有以下有益效果：通过预先获取的客服声纹和用户声纹，从通话音频中精准提取出客服人声音频和客户人声音频，以排除通话过程中其他人员的声音对通话的干扰，实现了通话音频的第一重过滤；进而利用频谱分析，剔除掉客服人声音频和客户人声音频中的背景声音信号，以排除通话过程中环境噪声对通话的干扰，实现了通话音频的第二重过滤；此外还通过音量调节来进一步增强通话音频的质量和清晰度，使得客服与客户可以专注在对话上，大大提高了客服与客户之间的通话效果。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的通话处理方法的通话处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个通话处理装置实施例中的具体限定可以参见上文中对于通话处理方法的限定，在此不再赘述。

在一个实施例中，如图6所示，提供了一种通话处理装置，该装置600可以包括：

音频声纹获取模块601，用于获取客服端预先录入的朗读音频的客服声纹，以及获取客户端在通话预备阶段录入的待咨询业务的业务名称朗读音频的客户声纹；

人声音频匹配模块602，用于在所述客户端与所述客服端的通话过程中，根据所述客服声纹和所述客户声纹，对所述客户端与所述客服端之间的通话音频进行人声匹配，得到所述通话音频中的客服人声音频和客户人声音频；

音频信号过滤模块603，用于过滤所述客服人声音频中的背景声音信号和所述客户人声音频中的背景声音信号，得到过滤后的客服人声音频和过滤后的客户人声音频；

第一音量调整模块604，用于调整所述过滤后的客服人声音频的音量，得到目标音量的客服人声音频，并发送所述目标音量的客服人声音频至所述客户端；

第二音量调整模块605，用于调整所述过滤后的客户人声音频的音量，得到目标音量的客户人声音频，并发送所述目标音量的客户人声音频至所述客服端。

在一个实施例中，所述音频信号过滤模块603，用于对所述客服人声音频和所述客户人声音频分别进行傅里叶变换处理，得到所述客服人声音频的第一频率、第二频率和频率均值，以及所述客户人声音频的第一频率、第二频率和频率均值；根据所述客服人声音频的第一频率、第二频率和频率均值，对所述客服人声音频中的背景声音信号进行过滤，得到所述过滤后的客服人声音频；根据所述客户人声音频的第一频率、第二频率和频率均值，对所述客户人声音频中的背景声音信号进行过滤，得到所述过滤后的客户人声音频。

在一个实施例中，所述音频信号过滤模块603，用于确定所述客服端预先录入的朗读音频的第一频率、第二频率和频率均值；根据所述朗读音频的第一频率、第二频率和频率均值，以及所述客服人声音频的第一频率、第二频率和频率均值，得到所述朗读音频与所述客服人声音频之间的客服音频方差；根据所述客服音频方差，确定所述客服人声音频中的背景声音信号并进行过滤，得到所述过滤后的客服人声音频。

在一个实施例中，所述音频信号过滤模块603，用于确定所述客户端在通话预备阶段录入的业务名称朗读音频的第一频率、第二频率和频率均值；根据所述业务名称朗读音频的第一频率、第二频率和频率均值，以及所述客户人声音频的第一频率、第二频率和频率均值，得到所述业务名称朗读音频与所述客户人声音频之间的客户音频方差；根据所述客户音频方差，确定所述客户人声音频中的背景声音信号并进行过滤，得到所述过滤后的客户人声音频。

在一个实施例中，所述音频声纹获取模块601，用于预先发送待朗读文本至所述客服端；获取所述客服端基于所述待朗读文本录入的朗读音频；根据所述朗读音频，得到所述客服端的客服声纹。

在一个实施例中，所述第一音量调整模块604，用于判断所述过滤后的客服人声音频的音量是否达到目标音量的分贝值；若所述过滤后的客服人声音频的音量未达到所述目标音量的分贝值，则将所述过滤后的客服人声音频的音量调整为所述目标音量的分贝值，得到所述目标音量的客服人声音频。

上述通话处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储音频等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种通话处理方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种通话处理方法，其特征在于，所述方法包括：

在所述客户端与所述客服端的通话过程中，获取所述客户端与所述客服端之间的通话音频；

通过预先训练的人声识别模型，对所述通话音频中的音频帧、所述客服声纹和所述客户声纹进行处理，得到所述通话音频中的音频帧的人声识别结果；

根据所述通话音频中的音频帧的人声识别结果，得到所述通话音频中的客服人声音频和客户人声音频；

根据所述朗读音频与所述客服人声音频之间的客服音频方差，以及所述业务名称朗读音频与所述客户人声音频之间的客户音频方差，过滤所述客服人声音频中的背景声音信号和所述客户人声音频中的背景声音信号，得到过滤后的客服人声音频和过滤后的客户人声音频；

2.根据权利要求1所述的方法，其特征在于，所述过滤所述客服人声音频中的背景声音信号和所述客户人声音频中的背景声音信号，得到过滤后的客服人声音频和过滤后的客户人声音频，包括：

对所述客服人声音频和所述客户人声音频分别进行傅里叶变换处理，得到所述客服人声音频的第一频率、第二频率和频率均值，以及所述客户人声音频的第一频率、第二频率和频率均值；

根据所述客服人声音频的第一频率、第二频率和频率均值，对所述客服人声音频中的背景声音信号进行过滤，得到所述过滤后的客服人声音频；

根据所述客户人声音频的第一频率、第二频率和频率均值，对所述客户人声音频中的背景声音信号进行过滤，得到所述过滤后的客户人声音频。

3.根据权利要求2所述的方法，其特征在于，所述根据所述客服人声音频的第一频率、第二频率和频率均值，对所述客服人声音频中的背景声音信号进行过滤，得到所述过滤后的客服人声音频，包括：

确定所述客服端预先录入的朗读音频的第一频率、第二频率和频率均值；

根据所述朗读音频的第一频率、第二频率和频率均值，以及所述客服人声音频的第一频率、第二频率和频率均值，得到所述朗读音频与所述客服人声音频之间的客服音频方差；

根据所述客服音频方差，确定所述客服人声音频中的背景声音信号并进行过滤，得到所述过滤后的客服人声音频。

4.根据权利要求2所述的方法，其特征在于，所述根据所述客户人声音频的第一频率、第二频率和频率均值，对所述客户人声音频中的背景声音信号进行过滤，得到所述过滤后的客户人声音频，包括：

确定所述客户端在通话预备阶段录入的业务名称朗读音频的第一频率、第二频率和频率均值；

根据所述业务名称朗读音频的第一频率、第二频率和频率均值，以及所述客户人声音频的第一频率、第二频率和频率均值，得到所述业务名称朗读音频与所述客户人声音频之间的客户音频方差；

根据所述客户音频方差，确定所述客户人声音频中的背景声音信号并进行过滤，得到所述过滤后的客户人声音频。

5.根据权利要求1所述的方法，其特征在于，所述获取客服端预先录入的朗读音频的客服声纹，包括：

预先发送待朗读文本至所述客服端；

获取所述客服端基于所述待朗读文本录入的朗读音频；

根据所述朗读音频，得到所述客服端的客服声纹。

6.根据权利要求1所述的方法，其特征在于，所述调整所述过滤后的客服人声音频的音量，得到目标音量的客服人声音频，包括：

判断所述过滤后的客服人声音频的音量是否达到目标音量的分贝值；

若所述过滤后的客服人声音频的音量未达到所述目标音量的分贝值，则将所述过滤后的客服人声音频的音量调整为所述目标音量的分贝值，得到所述目标音量的客服人声音频。

7.一种通话处理装置，其特征在于，所述装置包括：

人声音频匹配模块，用于在所述客户端与所述客服端的通话过程中，获取所述客户端与所述客服端之间的通话音频；通过预先训练的人声识别模型，对所述通话音频中的音频帧、所述客服声纹和所述客户声纹进行处理，得到所述通话音频中的音频帧的人声识别结果；根据所述通话音频中的音频帧的人声识别结果，得到所述通话音频中的客服人声音频和客户人声音频；

音频信号过滤模块，用于根据所述朗读音频与所述客服人声音频之间的客服音频方差，以及所述业务名称朗读音频与所述客户人声音频之间的客户音频方差，过滤所述客服人声音频中的背景声音信号和所述客户人声音频中的背景声音信号，得到过滤后的客服人声音频和过滤后的客户人声音频；

8.根据权利要求7所述的装置，其特征在于，所述音频信号过滤模块，用于对所述客服人声音频和所述客户人声音频分别进行傅里叶变换处理，得到所述客服人声音频的第一频率、第二频率和频率均值，以及所述客户人声音频的第一频率、第二频率和频率均值；根据所述客服人声音频的第一频率、第二频率和频率均值，对所述客服人声音频中的背景声音信号进行过滤，得到所述过滤后的客服人声音频；根据所述客户人声音频的第一频率、第二频率和频率均值，对所述客户人声音频中的背景声音信号进行过滤，得到所述过滤后的客户人声音频。

9.根据权利要求8所述的装置，其特征在于，所述音频信号过滤模块，用于确定所述客服端预先录入的朗读音频的第一频率、第二频率和频率均值；根据所述朗读音频的第一频率、第二频率和频率均值，以及所述客服人声音频的第一频率、第二频率和频率均值，得到所述朗读音频与所述客服人声音频之间的客服音频方差；根据所述客服音频方差，确定所述客服人声音频中的背景声音信号并进行过滤，得到所述过滤后的客服人声音频。

10.根据权利要求8所述的装置，其特征在于，所述音频信号过滤模块，用于确定所述客户端在通话预备阶段录入的业务名称朗读音频的第一频率、第二频率和频率均值；根据所述业务名称朗读音频的第一频率、第二频率和频率均值，以及所述客户人声音频的第一频率、第二频率和频率均值，得到所述业务名称朗读音频与所述客户人声音频之间的客户音频方差；根据所述客户音频方差，确定所述客户人声音频中的背景声音信号并进行过滤，得到所述过滤后的客户人声音频。

11.根据权利要求7所述的装置，其特征在于，所述音频声纹获取模块，用于预先发送待朗读文本至所述客服端；获取所述客服端基于所述待朗读文本录入的朗读音频；根据所述朗读音频，得到所述客服端的客服声纹。

12.根据权利要求7所述的装置，其特征在于，所述第一音量调整模块，用于判断所述过滤后的客服人声音频的音量是否达到目标音量的分贝值；若所述过滤后的客服人声音频的音量未达到所述目标音量的分贝值，则将所述过滤后的客服人声音频的音量调整为所述目标音量的分贝值，得到所述目标音量的客服人声音频。

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。