CN112992153A

CN112992153A - 音频处理方法、声纹识别方法、装置、计算机设备

Info

Publication number: CN112992153A
Application number: CN202110456967.0A
Authority: CN
Inventors: 熊肇煜; 周晨光; 李恩燮; 李庆; 杨正超
Original assignee: Taiping Finance Technology Services Shanghai Co ltd
Current assignee: Taiping Finance Technology Services Shanghai Co ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-06-18
Anticipated expiration: 2041-04-27
Also published as: CN112992153B

Abstract

本申请涉及一种音频处理方法、装置、计算机设备和存储介质，以及一种声纹识别方法、装置、计算机设备和存储介质。所述音频处理方法包括：获取待处理音频数据以及待处理音频数据的音频采集场景；根据音频采集场景获取与音频采集场景对应的音频处理参数；根据与音频采集场景对应的音频处理参数，对待处理音频数据进行音频处理，得到目标音频数据。采用本方法通过对已获取的待处理音频数据进行音频处理，可以减少待处理音频数据中的无效音频，从而可以节省内存空间，降低无效音频对音频数据的应用过程的干扰；通过基于音频采集场景自适应选取音频处理参数，可以提高音频处理的准确性。

Description

音频处理方法、声纹识别方法、装置、计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种音频处理方法、装置、计算机设备和存储介质，以及一种声纹识别方法、装置、计算机设备和存储介质。

背景技术

声纹识别是生物识别技术的一种，也称为说话人识别，包括说话人辨认和说话人确认。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而金融行业交易时则需要确认技术。

在金融行业，声纹识别的应用场景主要分为身份识别和风险识别，例如，客户在线办理业务时，客户通过语音或者电话实时录音的方式进行声纹比对确认客户身份，或者通过对客服系统进行改造实现客服通过语音进行身份验证登录。

但是，由于实际应用场景中用于声纹识别的语音或者录音中经常存在干扰信息（例如噪音、彩铃等），容易导致声纹识别的准确率降低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高声纹识别准确性的音频处理方法、装置、计算机设备和存储介质，以及一种声纹识别方法、装置、计算机设备和存储介质。

第一方面，本申请实施例提供一种音频处理方法，所述方法包括：

获取待处理音频数据，以及采集待处理音频数据的音频采集场景；根据音频采集场景，获取与音频采集场景对应的音频处理参数，对待处理音频数据进行音频处理的音频处理方式包括以下方式中的至少一种：噪音抑制和噪音消除；根据与音频采集场景对应的音频处理参数，对待处理音频数据进行音频处理，得到目标音频数据。

在其中一个实施例中，音频处理场景根据采集待处理音频数据的信道和业务场景确定。

在其中一个实施例中，音频处理方式为噪音抑制；音频处理场景还根据采集待处理音频数据的时间段确定；根据音频采集场景，获取与音频采集场景对应的音频处理参数，包括：获取与采集待处理音频数据的信道所对应的噪音分贝表，噪音分贝表包括音频采集场景和降噪阈值的对应关系；从噪音分贝表中查询与采集待处理音频数据的业务场景和时间段匹配的目标降噪阈值。

在其中一个实施例中，根据与音频采集场景对应的音频处理参数，对待处理音频数据进行音频处理，得到目标音频数据，包括：根据目标降噪阈值对待处理音频数据进行降噪处理，得到目标音频数据。

在其中一个实施例中，噪音分贝表的生成方式，包括：针对预先配置的多个业务场景，获取每个时间段中通过信道采集的多个历史音频数据；生成每个历史音频数据对应的历史信噪比；根据每个时间段对应的多个历史信噪比，确定每个时间段对应的降噪阈值；根据每个业务场景下每个时间段对应的降噪阈值，生成与信道对应的噪音分贝表。

在其中一个实施例中，根据每个时间段对应的多个历史信噪比，确定每个时间段对应的降噪阈值，包括：获取每个时间段对应的多个历史信噪比的四分位数区间；从四分位数区间中获取预设区间的历史信噪比；获取预设区间的历史信噪比的平均值，作为每个时间段对应的降噪阈值。

在其中一个实施例中，音频处理方式为噪音消除；根据音频采集场景，获取与音频采集场景对应的音频处理参数，包括：获取与采集待处理音频数据的信道和业务场景所对应的多种噪音底纹向量。

在其中一个实施例中，音频采集场景还根据采集待处理音频数据的时间段确定；根据音频采集场景，获取与音频采集场景对应的音频处理参数，还包括：获取与采集待处理音频数据的信道、业务场景和时间段所对应的多种噪音底纹向量。

在其中一个实施例中，根据与音频采集场景对应的音频处理参数，对待处理音频数据进行音频处理，得到目标音频数据，包括：对待处理音频数据进行分帧处理，得到多帧待处理音频数据帧；生成与每帧待处理音频数据帧对应的待处理音频向量；获取待处理音频向量和每种噪音底纹向量的相似度；获取相似度大于阈值的待处理音频数据帧；对相似度大于阈值的待处理音频数据帧进行噪声消除处理，得到目标音频数据。

在其中一个实施例中，多种噪音底纹向量包括多种节拍的节拍底纹向量；对待处理音频数据进行分帧处理，得到多帧待处理音频数据帧，包括：按照每种节拍所对应的时间步长对待处理音频数据进行分帧处理，得到与每种节拍对应的多帧待处理音频数据帧。在本实施例中，生成与每帧待处理音频数据帧对应的待处理音频向量，获取待处理音频向量和每种噪音底纹向量的相似度，包括：针对每种节拍，生成与每帧待处理音频数据帧对应的待处理音频向量；针对每种节拍，获取每个待处理音频向量与节拍底纹向量的相似度。

在其中一个实施例中，所述方法还包括：获取对目标音频数据进行静音消除处理将采用的短时能量门限值和过零率门限值；对目标音频数据进行分帧处理，得到多帧目标音频数据帧；生成每帧目标音频数据帧的短时能量值和过零率值；根据每帧目标音频数据帧对应的短时能量值和过零率值，以及已获取的短时能量门限值和过零率门限值，确定多帧目标音频数据帧中的静音帧；剪切多帧目标音频数据帧中的静音帧，得到静音消除处理后的目标音频数据。

第二方面，本申请实施例提供一种声纹识别方法，所述方法包括：

获取待识别音频数据；采用第一方面任一项实施例所述的音频处理方法对待识别音频数据进行音频处理，得到目标音频数据；从目标音频数据中提取出目标用户的目标声纹特征；获取目标声纹特征和目标用户的标准声纹特征的相似度；根据相似度，得到是否是目标用户的声纹识别结果。

在其中一个实施例中，若待识别音频数据为通过单声道采集得到的，则从目标音频数据中提取出目标用户的目标声纹特征，包括：对目标音频数据进行分帧处理，得到多帧目标音频数据帧；生成与每帧目标音频数据帧对应的目标音频向量；获取相邻的目标音频向量的相似度；对相似度大于第一阈值的目标音频向量所对应的目标音频数据帧进行聚类处理，得到目标用户的目标音频数据；从目标用户的目标音频数据中提取出目标用户的目标声纹特征。

在其中一个实施例中，目标用户的标准声纹特征的生成方式，包括：获取目标用户的标准音频数据；对标准音频数据进行分帧处理，得到多帧标准音频数据帧；生成与每帧标准音频数据帧对应的标准音频向量；获取相邻的标准音频向量的相似度；当存在预设数量的相似度达到第二阈值时，从标准音频数据中提取出目标用户的标准声纹特征。

在其中一个实施例中，当存在预设数量的相似度达到第二阈值时，从标准音频数据中提取出目标用户的标准声纹特征之前，所述方法还包括：获取采集标准音频数据的标准音频采样率；获取相似度未达到第二阈值的多帧标准音频向量；检测相似度未达到第二阈值的每帧标准音频向量所对应的目标音频采样率；若目标音频采样率和标准音频采样率相同，则确定存在预设数量的相似度达到第二阈值。

第三方面，本申请实施例提供一种音频处理装置，所述装置包括：

第一获取模块，用于获取待处理音频数据，以及采集待处理音频数据的音频采集场景；第二获取模块，用于根据音频采集场景，获取与音频采集场景对应的音频处理参数，对待处理音频数据进行音频处理的音频处理方式包括以下方式中的至少一种：噪音抑制和噪音消除；音频处理模块，用于根据与音频采集场景对应的音频处理参数，对待处理音频数据进行音频处理，得到目标音频数据。

第四方面，本申请实施例提供一种声纹识别装置，所述装置包括：

获取模块，用于获取待识别音频数据；音频处理模块，用于采用第一方面任一项实施例的音频处理方法对待识别音频数据进行音频处理，得到目标音频数据；特征提取模块，用于从目标音频数据中提取出目标用户的目标声纹特征；比对模块，用于获取目标声纹特征和目标用户的标准声纹特征的相似度；结果生成模块，用于根据相似度，得到是否是目标用户的声纹识别结果。

第五方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项实施例所述的音频处理方法或者上述第二方面任一项实施例所述的声纹识别方法。

第六方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一项实施例所述的音频处理方法或者上述第二方面任一项实施例所述的声纹识别方法。

上述音频处理方法、装置、计算机设备和存储介质，获取待处理音频数据以及采集待处理音频数据的音频采集场景；根据音频采集场景，获取与音频采集场景对应的音频处理参数；根据与音频采集场景对应的音频处理参数，对待处理音频数据进行音频处理，得到目标音频数据。通过对已获取的待处理音频数据进行音频处理，可以减少待处理音频数据中的无效音频成分，从而可以节省内存空间，降低无效音频对音频数据的应用过程的干扰；通过基于待处理音频数据的音频采集场景自适应选取相应的音频处理参数，可以提高音频处理的准确性。

上述声纹识别方法、装置、计算机设备和存储介质，在获取待识别音频数据后，采用上述音频处理方法对待识别音频数据进行音频处理，得到目标音频数据，并基于所得到的目标音频数据进行声纹识别。通过采用上述音频处理方法对待识别音频数据进行音频处理，并基于音频处理后的待识别音频数据进行声纹识别，可以提高声纹识别的效率和准确性。

附图说明

图1为一个实施例中音频处理方法的应用环境图；

图2为一个实施例中音频处理方法的流程示意图；

图3为一个实施例中生成噪音分贝表步骤的流程示意图；

图4为一个实施例中噪声消除步骤的流程示意图；

图4a为一个实施例中带有杂音的音频的音轨示意图；

图5为一个实施例中静音消除步骤的流程示意图；

图5a为一个实施例中包含静音段音频的音轨示意图；

图6为一个实施例中音频处理方法的流程示意图；

图6a为一个实施例中业务场景和音频处理方式的对应关系的示意图；

图7为一个实施例中声纹识别方法的应用环境图；

图8为一个实施例中声纹识别方法的流程示意图；

图9为一个实施例中单声道分割步骤的流程示意图；

图10为一个实施例中防录音攻击检测步骤的流程示意图；

图10a为一个实施例中包含音轨断层的示意图；

图11为一个实施例中声纹识别方法的流程示意图；

图12为一个实施例中音频处理装置的结构框图；

图13为一个实施例中声纹识别装置的结构框图；

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的音频处理方法，可以应用于如图1所示的应用环境中。其中，服务器110可以用独立的服务器或者是多个服务器组成的服务器集群来实现。待处理音频数据可以是通过音频采集设备预先采集并保存在服务器110中的数据，也可以是实时采集并发送至服务器110中的数据。服务器110获取待处理音频数据以及采集待处理音频数据的音频采集场景；根据音频采集场景，获取与音频采集场景对应的音频处理参数；通过预先部署的音频处理策略，根据与音频采集场景对应的音频处理参数对待处理音频数据进行音频处理，得到目标音频数据。

在另一个实施例中，本申请提供的音频处理方法还可以应用于终端。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。待处理音频数据可以是通过音频采集设备预先采集并保存在终端中的数据，也可以是实时采集的数据。其中，音频采集设备可以内嵌在终端中，也可以是独立的设备。终端获取待处理音频数据以及采集待处理音频数据的音频采集场景；根据音频采集场景，获取与音频采集场景对应的音频处理参数；通过预先部署的音频处理策略，根据与音频采集场景对应的音频处理参数对待处理音频数据进行音频处理，得到目标音频数据。

在一个实施例中，如图2所示，提供了一种音频处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S210，获取待处理音频数据，以及采集待处理音频数据的音频采集场景。

其中，待处理音频数据是指待进行音频处理的数据。待处理音频数据可以是实时采集的数据，也可以是预先采集并保存在服务器中的数据。音频采集场景不限于包括采集待处理音频数据的业务场景、时间、地点、设备以及采集待处理音频数据的信道等信息。音频采集场景可以通过对待处理音频数据进行标识得到，例如，待处理音频数据的时间可以在采集时进行标识；也可以通过对待处理音频数据进行检测得到，例如采集待处理音频数据的地点可以基于深度学习理论对待处理音频数据进行分类识别得到。

具体地，服务器接收音频处理请求。音频处理请求可以是在实时采集待处理音频数据时触发的，也可以在满足预先配置的条件时触发的。服务器根据所接收的音频处理请求，获取需要处理的待处理音频数据，以及采集待处理音频数据的音频采集场景。

步骤S220，根据音频采集场景，获取与音频采集场景对应的音频处理参数，对待处理音频数据进行音频处理的音频处理方式包括以下方式中的至少一种：噪音抑制和噪音消除。

其中，音频处理参数根据采集待处理音频数据的音频采集场景以及需要进行的音频处理方式确定。在本申请的实施例中，音频处理方式包括噪音抑制和噪音消除中的至少一种。噪音是指会对待处理音频数据的进一步使用（例如音频检测、声纹识别等）产生干扰的声音。噪音的种类可以包括多种，例如，彩铃、公众场合的杂音（例如机器运作声）等。噪音抑制是指以一定量的分贝为标准对待处理处理音频数据进行控制。噪音消除是指将检测到的噪声从待处理处理音频数据中进行清除。针对噪音抑制，音频处理参数不限于是降噪阈值（预先配置的分贝值）；针对噪音消除，音频处理参数不限于是预先配置的各种噪音的音频数据或者声纹特征等。

具体地，音频处理参数、音频处理方式和音频采集场景的对应关系可以预先配置在服务器中。服务器在获取待处理音频数据以及待处理音频数据对应的音频采集场景后，根据待处理音频数据的音频采集场景确定需要进行的音频处理方式，并从预先配置的多个音频处理参数中查询与待处理音频数据的音频采集场景对应的音频处理参数。

步骤S230，根据与音频采集场景对应的音频处理参数，对待处理音频数据进行音频处理，得到目标音频数据。

具体地，针对不同的音频处理方式，服务器采用与音频采集场景对应的音频处理参数对待处理音频数据进行音频处理。示例性地，若音频处理方式为噪声抑制，音频处理参数可以是与音频采集场景对应的降噪阈值，则服务器采用所获取的降噪阈值对待处理音频数据进行降噪处理。若音频处理方式为噪声消除，则服务器可以基于深度学习理论对待处理音频数据进行检测，若检测存在噪音，则将所检测到的噪音的音频数据从待处理音频数据中进行消除。

上述音频处理方法中，获取待处理音频数据以及采集待处理音频数据的音频采集场景；根据音频采集场景，获取与音频采集场景对应的音频处理参数；根据与音频采集场景对应的音频处理参数，对待处理音频数据进行音频处理，得到目标音频数据。通过对已获取的待处理音频数据进行音频处理，可以减少待处理音频数据中的无效音频成分，从而可以节省内存空间，降低无效音频对音频数据的应用过程的干扰；通过基于待处理音频数据的音频采集场景自适应选取相应的音频处理参数，可以提高音频处理的准确性。

在一个实施例中，音频处理场景根据采集待处理音频数据的信道和业务场景确定。

其中，信道是指通信的通道，是信号传输的媒介。信道可以根据待处理音频数据的每帧采样率确定。例如，若检测待处理音频数据的每帧采样率为8kHz（千赫兹），则确认待处理音频数据的信道为电话信道；若检测待处理音频数据的每帧采样率为16kHz（千赫兹），则可确认待处理音频数据的信道为网络信道。服务器中预先存储有多种信道的音频处理参数。需要说明的是，以下实施例中所采用的音频处理参数的信道均与待处理音频数据的信道相同。

业务场景可以用于表征一种活动交互过程。示例性地，对于保险行业的客服服务业务，可以包括产险呼入（呼入是指客户给客服的语音呼入）、产险呼出（呼出是指客服给客户的语音呼出）、寿险呼入、寿险呼出、车险呼入、车险呼出、内勤登录等多个业务场景。业务场景可以通过唯一性的业务场景标识表示。在采集待处理音频数据时对待处理音频数据进行标识，以使服务器能够从待处理音频数据的标识信息中获取相应的业务场景。

具体地，服务器在获取待处理音频数据后，对待处理音频数据的每帧采样率进行检测，根据所得到的每帧采样率查找对应的信道。进而根据所得到的信道自适应查找与该信道对应的音频处理参数。对待处理音频数据的标识信息进行解析，获取业务场景标识，并根据所获取的业务场景标识查找对应的业务场景。进而可以根据业务场景确定音频处理方式以及音频处理方式所需的音频处理参数等信息。

本实施例中，通过将信道和业务场景配置为音频处理场景的组成部分，从而使服务器能够自适应地根据信道和业务场景选择需要使用的音频处理参数，以及需要执行的音频处理方式，从而可以提高音频处理的自动化程度、提高音频处理的效率，且使音频处理方式更具灵活性。

在一个实施例中，音频处理方式为噪音抑制；音频处理场景还根据采集待处理音频数据的时间段确定。步骤S220，根据音频采集场景，获取与音频采集场景对应的音频处理参数，包括：获取与采集待处理音频数据的信道所对应的噪音分贝表，噪音分贝表包括音频采集场景和降噪阈值的对应关系；从噪音分贝表中查询与采集待处理音频数据的业务场景和时间段匹配的目标降噪阈值。

具体地，对于每个信道，预先制定与每个信道对应的噪音分贝表。噪音分贝表中包含根据业务场景和时间段确定的多个类型与降噪阈值的对应关系。由于在日常生活中，不同的业务场景下和/或不同的时间段所出现的噪音分贝有所不同，因此对于根据业务场景和时间段确定的类型，可以预先设置相应的降噪阈值。示例性地，业务场景包括寿险呼入、寿险呼出、车险呼入、车险呼出；时间段是对全天时间进行均分得到的8个时间段，那么根据业务场景和时间段可以得到32个不同的类型。通过参照现有的环境噪声标准值或者参照已采集的若干历史音频数据等方式，为每个类型设置相应的降噪阈值。例如，业务场景为车险呼出、时间段为8:00-11:00，则此时客户可能在马路或者车上接听电话，那么可以设置相对较高的降噪阈值，例如90dB（分贝）；业务场景为内勤登录（客服登录个人办公平台系统进行工作）、时间段为8:00-11:00，则此时噪音可能主要为电流声、耳语声等，那么可以设置相对较低的降噪阈值，例如70dB。

服务器在获取采集待处理音频数据的业务场景和时间段后，从噪音分贝表中查询与待处理音频数据的业务场景和时间段对应的目标降噪阈值。进而根据所得到的目标降噪阈值，采用谱减算法对待处理音频数据进行降噪处理，得到目标音频数据。

本实施例中，通过根据业务场景和时间段设置相应的降噪阈值，使得噪音抑制能够贴合待处理音频数据发生时的实际环境，使得噪音抑制更具针对性，可以提高噪音抑制的准确性。

在一个实施例中，对噪音分贝表的一种生成方式进行说明。如图3所示，噪音分贝表的生成可以通过以下步骤实现：

步骤S310，针对预先配置的多个业务场景，获取每个时间段中通过信道采集的多个历史音频数据。

步骤S320，生成每个历史音频数据对应的历史信噪比。

步骤S330，根据每个时间段对应的多个历史信噪比，确定每个时间段对应的降噪阈值。

步骤S340，根据每个业务场景下每个时间段对应的降噪阈值，生成与信道对应的噪音分贝表。

在本实施例中，每个类型对应的降噪阈值是通过对已采集的相同类型下的若干历史音频数据进行统计分析得到的。具体地，针对每个类型，获取预先采集的若干个历史音频数据。对每个历史音频数据进行分析，得到每个历史音频数据对应的历史信噪比。采用预先配置的算法基于每个类型的历史信噪比-数量的分布情况，对每个类型对应的多个历史信噪比进行分析，得到每个类型对应的降噪阈值。进而根据每个类型对应的降噪阈值生成噪音分贝表。

以下对历史信噪比的生成方式进行说明：以PCM（Pulse Code Modulation，脉冲编码调制）格式的历史音频数据为例。历史信噪比的计量单位可以采用dB（分贝），可以通过以下公式得到历史信噪比：

其中，

代表历史音频数据的最大振幅值；

代表当前帧的振幅值；

代表当前帧的历史信噪比。

最大振幅值

可以根据历史音频数据的采样深度得到，例如：

（1）若采样深度是无符号16bit（比特），则

= 2^16 -1 = 65535

（2）若采样深度是有符号16bit，则

= 32767

当前帧振幅

可以根据当前帧所在内存的地址和PCM声音的大小，在PCM所在地址里面按顺序取出2个byte（字节）的数据。然后将所取出的2个byte的数据转化成shortint（一种整型变量）的值，作为得到当前帧的振幅。

在通过以上公式得到历史音频数据对应的多帧历史信噪比后，可以从多帧历史信噪比中筛选高于一定分贝值（例如20dB）的历史信噪比。计算筛选后的历史信噪比的平均值，作为历史音频数据的历史信噪比。

本实施例中，通过根据业务场景和时间段设置相应的降噪阈值，使得噪音抑制能够贴合待处理音频数据发生时的实际环境，使得噪音抑制更具针对性，可以提高噪音抑制的准确性；通过将业务场景和时间段与降噪阈值的对应关系以列表的方式进行存储，便于服务器进行查找，且便于后续对噪音分贝表进行维护和管理。

在一个实施例中，步骤S330，每个时间段对应的多个历史信噪比，确定每个时间段对应的降噪阈值，包括：获取每个时间段对应的多个历史信噪比的四分位数区间；从四分位数区间中获取预设区间的历史信噪比；获取预设区间的历史信噪比的平均值，作为每个时间段对应的降噪阈值。

其中，四分位数也称四分位点，是指在统计学中把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值。四分位数区间是指由相邻的分割点形成的区间。预设区间依实际情况而定，可以是所有的四分位数区间，也可以是其中的一个或者多个四分位数区间。优选地，在本实施例中，预设区间采用上四位分数区间和下四位分数区间。

具体地，在根据每个类型对应的历史信噪比-数量的分布情况进行分析，得到历史信噪比的四分位数区间后，从四分位数区间中筛选得到预设区间的历史信噪比。计算筛选得到的预设区间的历史信噪比的平均值，作为每个类型对应的降噪阈值。

在一个实施例中，音频处理方式为噪音消除；步骤S220，根据音频采集场景，获取与音频采集场景对应的音频处理参数，包括：获取与采集待处理音频数据的信道和业务场景所对应的多种噪音底纹向量。

其中，需要消除的噪音种类可以有多种，而每种类型的噪音可以包含多种声音。例如，噪音类型包括杂音和彩铃。杂音可以包含汽车鸣笛声、虫叫声、咖啡机运作声、扫码枪扫描声、捏包装袋声、婴儿声等。彩铃可以包含多个乐曲。对于不同的业务场景，需要消除的噪音类型可以不同。例如，业务场景为车险、寿险等呼入，待处理音频数据为客户打给客服的通话录音数据，那么需要消除的噪音类型可以包括杂音；业务场景为车险、寿险等呼出，待处理音频数据为客服打给客户的通话录音数据，那么需要消除的噪音可以包括彩铃以及杂音。

具体地，对于每个信道，可以预先采集每类噪音的多种噪音音频数据，从每种噪音音频数据中提取到对应的噪音底纹向量，建立每类噪音对应的噪音底纹库。将所建立的噪音底纹库保存在服务器存储中。当服务器根据待处理音频数据的业务场景确定需要对待处理音频数据进行噪音消除时，则根据待处理音频数据的业务场景确定噪音消除的噪音类别。进而获取预先建立的与该噪音类别对应的噪音底纹库。

本实施例中，通过预先建立包含多种噪音底纹向量的噪音底纹库，在确定需要对待处理音频数据进行噪音消除时，直接获取所需的噪音底纹库，并参照噪音底纹库中的多个噪音底纹向量对待处理处理中的噪音进行检测并消除，可以提高噪音消除的效率和准确性。

在一个实施例中，音频采集场景还根据采集待处理音频数据的时间段确定；步骤S220，根据音频采集场景，获取与音频采集场景对应的音频处理参数，还包括：获取与采集待处理音频数据的信道、业务场景和时间段所对应的多种噪音底纹向量。

具体地，由于在日常生活中，不同类型（业务场景和时间段）所出现的噪音种类有所不同，因此对于每个类型，可以设置不同的噪音种类。例如，业务场景为车险呼出、时间段为8:00-11:00，则此时客户可能在马路或者车上接听电话，那么可以在噪音种类中另外增加虫鸣、孩童嬉闹声等低音；业务场景为内勤登录、时间段为8:00-11:00，那么可以在噪音种类中另外增加耳语、电流声、悄悄话等低音。

服务器在获取待处理音频数据的业务场景和时间段后，查询与待处理音频数据的业务场景和时间段对应的噪音种类。获取与该噪音种类对应的噪音底纹库。进而采用噪音底纹库中的多个噪音底纹向量对待处理音频数据进行检测和噪声消除，得到目标音频数据。

本实施例中，通过建立业务场景和时间段相对噪音种类的对应关系，参照待处理音频数据的业务场景和时间段灵活地确定需要消除的噪音种类，可以有效地提高噪音消除的准确性。

在一个实施例中，对采用所获取的多种噪音底纹向量对待处理音频数据进行噪音消除的过程进行说明。如图4所示，步骤S230，根据与音频采集场景对应的音频处理参数，对待处理音频数据进行音频处理，得到目标音频数据，可以通过以下步骤实现：

步骤S410，对待处理音频数据进行分帧处理，得到多帧待处理音频数据帧。

具体地，在得到待处理音频数据后，可以通过高通滤波器对待处理音频数据进行预加重。由于音频数据具有短时平稳性，将待处理音频数据按照时间步长进行分帧处理。每一个时间步长称为一帧，每一帧对应的时间步长可以取预设数值，例如20~30ms之间任意数值。进一步地，为了避免相邻两帧的变化过大，因此可以在两相邻帧之间设置一段重叠区域。然后，将每一帧进行加窗处理，以增加帧左端和右端的连续性，例如使用25 ms的窗口进行计算，每10 ms进行移位。加窗处理可以采用加矩形窗或者非矩形窗的方式。在本实施例中，优先采用加非矩形窗，例如汉明窗。

步骤S420，生成与每帧待处理音频数据帧对应的待处理音频向量。

具体地，在得到多帧待处理音频数据帧后，对每帧待处理音频数据帧进行快速傅里叶变换处理，得到每帧待处理音频数据帧的待处理音频向量。快速傅里叶变换可以通过以下公式实现：

F[X]=Y=a₀X₀+a₁X₁+a₂X₂+......+a_nX_n

其中，F[X]是快速傅里叶变换的多项式；a_n代表多项式的系数；X_n是一个不定元，不表示任何值，不定元在多项式中最大项的次数称作多项式的次数。在快速傅里叶变换处理后，根据所得到的系数构成每帧待处理音频数据帧对应的待处理音频向量{a₀,a₁,a₂,...,a_n}。

步骤S430，获取待处理音频向量和每种噪音底纹向量的相似度。

步骤S440，获取相似度大于阈值的待处理音频数据帧。

步骤S450，对相似度大于阈值的待处理音频数据帧进行噪声消除处理，得到目标音频数据。

具体地，在得到每帧待处理音频数据帧对应的待处理音频向量后，可以从第一帧开始，依次根据预设数量帧的待处理音频向量生成对应的待处理向量矩阵。计算所得到的每个待处理向量矩阵和每种噪音底纹向量的相似度。相似度G[X]可以通过以下公式得到：

G[X]=F0[X]F1[X]

其中，F0[X]是噪音底纹的向量矩阵，F1[X]是待处理音频的向量矩阵。

将所得到的相似度与阈值进行比较。阈值可以为97%。若相似度大于阈值，确定与待处理向量矩阵对应的多帧待处理音频数据帧为噪音数据。服务器获取与待处理向量矩阵对应的多帧待处理音频数据帧。采用谱减法对所获取的多帧待处理音频数据帧进行值信号归零和减值处理。图4a示意性示出了相似度大于阈值的一种杂音与待处理音频的音轨示意图。

本实施例中，通过建立业务场景和时间段相对噪音种类的对应关系，参照待处理音频数据的业务场景和时间段灵活地确定需要消除的噪音种类，可以有效地提高噪音消除的准确性；通过基于噪音种类对应的多种噪音底纹向量从待处理音频数据中检测得到噪音数据，可以对待处理音频数据进行精准地噪音消除处理，从而可以提高待处理音频数据的纯净度。

在一个实施例中，噪音种类包含彩铃。多种噪音底纹向量包括多种节拍的节拍底纹向量；步骤S410，对待处理音频数据进行分帧处理，得到多帧待处理音频数据帧，包括：按照每种节拍所对应的时间步长对待处理音频数据进行分帧处理，得到与每种节拍对应的多帧待处理音频数据帧。

其中，节拍是指强拍和弱拍的组合规律，具体是指在乐谱中每一小节的音符总长度，包括常见的节拍，如1/4、2/4、3/4、4/4、3/8、6/8、7/8、9/8、12/8拍等；以及罕见的节拍，如8/8、8/16拍等。每一小节的时间长度是固定的。一首乐曲可以是由若干种节拍相结合组成的。

具体地，预先建立的噪声底纹库中可以包括彩铃对应的节拍底纹库。节拍底纹库中包含多种节拍的节拍底纹向量。节拍底纹向量可以是对现有的若干乐曲进行提取得到，也可以是对历史音频数据进行检测和提取得到。当需要对待处理音频数据进行彩铃消除时，服务器获取预设的多种节拍的节拍底纹向量。根据每种节拍对应的时间步长对待处理音频数据进行分帧处理，得到与每种节拍对应的多帧待处理音频数据帧。对待处理音频数据进行分帧处理的具体步骤可以参照上述实施例说明，在此不做具体阐述。

在本实施例中，步骤S420，生成与每帧待处理音频数据帧对应的待处理音频向量，包括：针对每种节拍，生成与每帧待处理音频数据帧对应的待处理音频向量。步骤S430，获取待处理音频向量和每种噪音底纹向量的相似度，包括：针对每种节拍，获取每个待处理音频向量与节拍底纹向量的相似度。

具体地，针对每种节拍，在得到多帧待处理音频数据帧后，对每帧待处理音频数据帧进行快速傅里叶变换处理，得到每帧待处理音频数据帧的待处理音频向量。对待处理音频数据进行快速傅里叶变换处理的具体步骤可以参照上述实施例说明，在此不做具体阐述。从第一帧开始，依次获取预设数量帧的相邻的待处理音频向量，生成对应的待处理向量矩阵。计算所得到的待处理向量矩阵和相同节拍的节拍底纹向量的相似度。参照上述步骤获取所有节拍对应的相似度。将所得到的所有节拍对应的相似度与阈值进行比较。若相似度大于阈值，则可以认为与待处理向量矩阵对应的多帧待处理音频数据帧为彩铃帧，则可以采用谱减法对该多帧待处理音频数据帧进行值信号归零和减值处，得到彩铃消除后的待处理音频数据。

本实施例中，通过预先配置节拍底纹库，当根据待处理音频数据的业务场景确定需要对待处理音频数据进行彩铃消除时，直接调用已建立的节拍底纹库进行相似的彩铃查找，从而可以提高噪声消除效率；通过在节拍底纹库中存储多种节拍对应的节拍底纹向量，可以提高彩铃消除的准确性。

在一个实施例中，对上述任一项实施例得到的目标音频数据进行静音消除处理。如图5所示，静音消除处理可以通过以下步骤实现：

步骤S510，获取对目标音频数据进行静音消除处理将采用的短时能量门限值和过零率门限值。

步骤S520，对目标音频数据进行分帧处理，得到多帧目标音频数据帧。

步骤S530，生成每帧目标音频数据帧的短时能量值和过零率值。

步骤S540，根据每帧目标音频数据帧对应的短时能量值和过零率值，以及已获取的短时能量门限值和过零率门限值，确定多帧目标音频数据帧中的静音帧。

步骤S550，剪切多帧目标音频数据帧中的静音帧，得到静音消除处理后的目标音频数据。

图5a示例性示出了一种音频数据的音轨图。图5a中的黑色矩形框中的部分为静音段。静音段过多会占用内存空间，且降低后续对音频数据进行应用过程的效率和准确性。尤其地，通过上述噪音抑制和/或噪音消除所得到的目标音频数据中可能会存在较多的静音段，因此，更加需要对上述实施例得到的目标音频数据进行静音消除处理。

具体地，预先配置短时能量值门限值，包括：能量最低值（en_sn_low）和能量最高值（en_sn_high）。预先配置过零率门限值，包括：界限最低值（zcn_low）和界限最高值（zcn_high）。可以理解的是，能量最高值大于能量最低值，界限最高值大于界限最低值。在获取目标音频数据后，对目标音频数据进行分帧处理，得到多帧目标音频数据帧。对目标音频数据进行分帧处理的具体步骤可以参照上述实施例说明，在此不做具体阐述。服务器采用预先部署的短时能量算法对每帧目标音频数据帧进行计算，得到每帧目标音频数据帧对应的短时能量值（en_sn）。采用预先部署的过零率算法对每帧目标音频数据帧进行计算，得到每帧目标音频数据帧对应的过零率值（zcn）。

从第一帧开始，将每帧目标音频数据帧对应的短时能量值和过零率值分别与短时能量门限值和过零率门限值进行比较。若当前帧的短时能量值大于能量最高值、且过零率值大于界限最高值，即，en_sn > en_sn_high 且 zcn > zcn_high，则将当前帧作为第一段有效音频的起点。继续进行检测，若当前帧的短时能量值大于能量最低值、且过零率值大于界限最低值，即，en_sn > en_sn_low && zcn> zcn_low，则将当前帧作为过度帧；继续进行检测，若当前帧的短时能量值小于能量最低值、且过零率值小于界限最低值，即，en_sn<en_sn_low且zcn< zcn_low，则判断音频静止，将当前帧作为第一段有效音频的终点。参照上述步骤继续对当前帧进行检测，直至出现当前帧的en_sn > en_sn_high且zcn > zcn_high，则将当前帧作为第二段有效音频的起点，直至检测到目标音频数据帧的最后一帧，得到至少一段静音段和至少一段有效音频段。剪切所得到的静音段，并合成所得到的有效音频段，生成静音消除后的目标音频数据。进一步地，为了提高静音消除后的目标音频数据的可用性，在获取静音消除后的目标音频数据后，可以对静音消除后的目标音频数据的时长进行检测。若时长大于阈值（可以为5秒），判断静音消除后的目标音频数据为有效数据；若时长小于等于阈值，判断静音消除后的目标音频数据为无效数据，可以反馈提示信息，以使用户能够及时获知异常情况。

本实施例中，通过对目标音频数据进行静音消除处理，根据短时能量值和过零率值检测得到目标音频数据中的静音片段，可以减少目标音频数据的占用空间，且提高目标音频数据的可用性。

在一个实施例中，如图6所示，提供了一种具体地音频处理方法，以该方法应用于服务器为例进行说明，包括以下步骤：

步骤S601，获取待处理音频数据，以及采集待处理音频数据的音频采集场景。

其中，音频处理场景不限于根据待处理音频数据的信道、业务场景和时间段确定。在本实施中，业务可以是指保险行业的客服服务业务，业务场景包括寿险呼入、寿险呼出、车险呼入、车险呼出和内勤登录。待处理音频数据可以是客服和客户通话过程中采集到的录音数据，

步骤S602，根据音频采集场景中的业务场景，确定需要进行的音频处理方式。

其中，音频处理方式包括以下方式中的至少一种：噪音抑制和噪音消除。噪音消除包含彩铃消除和杂音消除。图6a示出了一个实施例中业务场景和音频处理方式的对应关系的示意图。具体地，当获取待处理音频数据的业务场景为寿险呼入、车险呼入和内勤登录，则可以对待处理音频数据依次进行噪音抑制和杂音消除处理；当获取待处理音频数据的业务场景为寿险呼出和车险呼出，则可以对待处理音频数据依次进行噪音抑制、彩铃消除和杂音消除处理。

步骤S603，获取与音频采集场景对应的目标降噪阈值。

其中，目标降噪阈值可以根据业务场景和时间段，从与信道对应的噪音分贝表中查询得到。噪音分贝表的生成方式可以参照上述实施例说明，在此不做具体阐述。

步骤S604，根据目标降噪阈值对待处理音频数据进行降噪处理。

步骤S605，获取与音频采集场景对应的多种噪音底纹向量。

步骤S606，根据所获取的多种噪音底纹向量，从待处理音频数据中检测到与噪音底纹向量匹配的待处理音频数据帧，并对所检测到的待处理音频数据帧进行噪音消除处理，得到目标音频数据。

其中，当根据待处理音频数据的业务场景确定需要对待处理音频数据进行彩铃消除和杂音消除，则首先获取多种节拍的节拍底纹向量。按照每种节拍所对应的时间步长对降噪后的待处理音频数据进行分帧处理，得到与每种节拍对应的多帧待处理音频数据帧。分别针对每种节拍进行彩铃消除处理，具体可参照上述实施例说明，在不做具体阐述。

继续获取多种杂音底纹向量。按照预设的时间步长对彩铃消除后的待处理音频数据进行分帧处理，得到多帧待处理音频数据帧。生成与每帧待处理音频数据帧对应的待处理音频向量；基于待处理音频向量得到待处理音频向量与多种杂音底纹向量的相似度；根据相似度对待处理音频数据帧进行杂音消除处理。

进一步地，为了提高音频处理的准确性，在本实施例中可以建立多个与时间段对应的杂音底纹库。在对待处理音频数据进行噪音消除时，采用与待处理音频数据的业务场景和时间段对应的杂音底纹库。示例性地，业务场景为寿险呼入、寿险呼出、车险呼入、车险呼出和内勤登录，时间段分为5个区间，因此根据业务场景和时间段可以生成25个类型。统计每个类型对应的若干历史音频数据。将每个类型对应的若干历史音频数据中出现过的各种杂音建立多个杂音底纹库。例如，将历史音频数据中出现过的超市、理发店、KTV（卡拉OK）或者商场等公众场合出现的咖啡机运作声、扫码枪扫描声、捏包装袋声等低分贝杂音进行声纹注册建立一个杂音底纹库；将每个类型对应的若干历史音频数据中出现的耳语、虫鸣、婴儿声、悄悄话等低噪音录音进行声纹注册建立另一个杂音底纹库。

步骤S607，对噪音抑制和噪音消除后得到的目标音频数据进行静音消除处理。静音消除处理的具体方式可以参照上述实施例说明，在此不做具体阐述。

本申请提供的声纹识别方法，可以应用于如图7所示的应用环境中。其中，终端710通过网络与服务器720进行通信。用户可以通过终端710采集待识别音频数据、向服务器720发送声纹识别请求等操作。服务器720中存储有若干预先注册的标准声纹特征，以及部署有音频处理的相关逻辑和声纹识别的相关逻辑。具体地，服务器720获取待识别音频数据。采用上述任一项实施例所述的音频处理方法对待识别音频数据进行音频处理，得到目标音频数据。从目标音频数据中提取出目标用户的目标声纹特征。获取目标声纹特征和目标用户的标准声纹特征的相似度。根据相似度，得到是否是目标用户的声纹识别结果。其中，终端710可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器720可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

以下对声纹识别的相关概念进行说明：

声纹识别是指根据待识别音频的声纹特征识别该段音频所对应的说话人的过程。声纹识别包含声纹确认和声纹辨认。在本申请中涉及的声纹识别特指声纹确认。声纹确认是指给定一段只含一名说话人的待识别音频和一个说话人的声纹模型，判断待识别音频是否是该说话人所说的。声纹识别系统的输出是一个“二值判别”，输出结果包括两种：接受或拒识。接受是指声纹识别系统判定待识别音频是宣称说话人所说。拒识是指声纹识别系统判定待识别音频不是宣称说话人所说。

在一个实施例中，如图8所示，提供了一种声纹识别方法，以该方法应用于图7中的服务器为例进行说明，包括以下步骤：

步骤S810，获取待识别音频数据。

步骤S820，采用上述任一项实施例所述的音频处理方法对待识别音频数据进行音频处理，得到目标音频数据。

其中，待识别音频数据是指待进行声纹识别的数据。待识别音频数据可以是实时采集的数据，例如，客服与客户通话过程中实时采集到的数据；也可以预先采集并保存在服务器中的数据，例如，客服与客户的历史通话数据。

具体地，服务器接收到对待识别音频数据的声纹识别请求。声纹识别请求可以是在实时采集待识别音频数据时触发的，也可以在满足预先配置的条件时触发的。服务器根据所接收的声纹识别请求，获取待识别音频数据。采用上述任一项实施例所述的音频处理方法对待识别音频数据进行噪声抑制、噪声消除、静音消除等处理，得到目标音频数据。

步骤S830，从目标音频数据中提取出目标用户的目标声纹特征。

步骤S840，获取目标声纹特征和目标用户的标准声纹特征的相似度。

步骤S850，根据相似度，得到是否是目标用户的声纹识别结果。

其中，标准声纹特征是指预先通过指定的方式采集标准音频数据，并对标准音频数据进行声纹特征提取所得到的声纹特征。指定的方式可以是指朗读指定的内容。服务器中存储有多个用户的标准声纹特征。具体地，在得到目标音频数据后，服务器对目标音频数据进行声纹特征提取，得到目标用户的目标声纹特征。声纹特征提取可以包含两步：首先，通过高通滤波器对目标音频数据进行预加重、加窗处理。对加窗后的目标音频数据进行傅里叶变换得到频谱图并进行滤波。使用谱或者倒谱分析得到目标音频数据的原始特征，所得到的原始特征可以是FBank（FilterBank，滤波器组），MFCCs（Mel Frequency CepstralCoefficents，在梅尔标度频率域提取出来的倒谱参数）或者PLP（Perceptual LinearPredict ive，感知线性预测）特征。然后，采用预训练的声纹模型对原始特征进行进一步提取，得到目标用户的目标声纹特征。声纹模型可以采用任一种能够提取说话人特征的深度学习模型，例如，端到端神经网络DNN。

服务器计算目标声纹特征和目标用户的标准声纹特征的相似度。若相似度大于预设阈值，则生成“接受”的声纹识别结果；若相似度小于阈值，则生成“拒识”的声纹识别结果。相似度的生成方式可以参照上述音频处理方法的实施例说明，在此不做具体阐述。

上述声纹识别方法中，在获取待识别音频数据后，采用上述音频处理方法对待识别音频数据进行音频处理，得到目标音频数据，并基于所得到的目标音频数据进行声纹识别。通过采用上述音频处理方法对待识别音频数据进行音频处理，并基于音频处理后的待识别音频数据进行声纹识别，可以提高声纹识别的效率和准确性。

在一个实施例中，若待识别音频数据为通过单声道采集得到的，则如图9所示，步骤S830，从目标音频数据中提取出目标用户的目标声纹特征，可以通过以下步骤实现：

步骤S831，对目标音频数据进行分帧处理，得到多帧目标音频数据帧。

步骤S832，生成与每帧目标音频数据帧对应的目标音频向量。

步骤S833，获取相邻的目标音频向量的相似度。

步骤S834，对相似度大于第一阈值的目标音频向量所对应的目标音频数据帧进行聚类处理，得到目标用户的目标音频数据。

步骤S835，从目标用户的目标音频数据中提取出目标用户的目标声纹特征。

具体地，若目标音频数据为通过单声道采集到的数据。当目标音频数据中包含多人的音频数据时，为了提高声纹识别的准确性，可以对目标音频数据进行单声道分割处理，从目标音频数据中分割出每个人单独的目标音频数据。

在单声道分割前，服务器获取目标音频数据中的说话人数量。然后，对目标音频数据进行分帧处理，得到多帧目标音频数据帧。并根据每帧目标音频数据帧生成对应的目标音频向量。分帧处理和生成目标音频向量的具体方式可以参照上述实施例说明，在此不做具体阐述。在得到多帧目标音频向量后，从第一帧开始，依次获取预设数量帧的相邻的目标音频向量，生成多个目标向量矩阵。计算所得到的相邻的目标向量矩阵的相似度。最后，采用最K-means聚类算法（k-means clustering algorithm，k均值聚类算法）根据相似度结果对目标音频数据帧进行分类汇总，并按照分类结果合成每个说话人对应的目标音频数据。

服务器调用预先配置的说话人的音频数据分类策略，从每个说话人对应的目标音频数据中确定出目标用户的目标音频数据。示例性地，目标音频数据为客户和客服的通话录音数据，那么在对目标音频数据进行单身道分割后可以得到两个人的目标音频数据。可以预先配置将时间长的作为客服的目标音频数据；将时间短的作为客户的目标音频数据，从而根据时长从得到的两个人的目标音频数据中确认出客户的目标音频数据。

本实施例中，由于单身道采集的多人音频数据无法直接用于声纹识别，传统技术中只能通过人工方式进行身份核对，大大降低了声纹技术的可用性。本实施例中，通过将单声道采集的音频数据进行分割处理，得到每个人单独的音频数据，提高了声纹识别效率，且提高了声纹识别技术的可用性。

在一个实施例中，如图10所示，对目标用户的标准声纹特征的生成方式进行说明。标准声纹特征的生成可以通过以下步骤实现：

步骤S1010，获取目标用户的标准音频数据。

步骤S1020，对标准音频数据进行分帧处理，得到多帧标准音频数据帧。

步骤S1030，生成与每帧标准音频数据帧对应的标准音频向量。

步骤S1040，获取相邻的标准音频向量的相似度。

步骤S1050，当存在预设数量的相似度达到第二阈值时，从标准音频数据中提取出目标用户的标准声纹特征。

标准声纹特征是用户的参考性特征，确保标准声纹特征正确可靠对于金融行业尤为重要。在对用户进行声纹注册时，可以对用户的标准音频数据进行防录音攻击检测，在确定标准音频数据为非二次录音的音频数据和/或非合成音频数据后，再对标准音频数据进行特征提取，得到用户的标准声纹特征。通常情况下，二次录音的音频或者合成音频会存在包含低分贝噪音、音质有损和失真率极高等问题。图10a示例性示出了一种二次录音的音轨图。图10中椭圆框中为原音的音轨，方形框中为二次录音的音轨，可以看到原音的音轨和二次录音的音轨之间存在明显的音轨断层。防录音攻击检测通过对标准音频数据进行音质损伤检测和声音失真扭曲检测，区分标准音频数据是否存在录音攻击行为，保证声纹识别系统的安全性。

具体地，在获取目标用户的标准音频数据后，对标准音频数据进行分帧处理，得到多帧标准音频数据帧。并根据每帧标准音频数据帧生成对应的标准音频向量。分帧处理和生成标准音频向量的具体方式可以参照上述音频处理方法的实施例说明，在此不做具体阐述。在得到多帧标准音频向量后，从第一帧开始，依次获取预设数量帧的相邻的标准音频向量，生成多个标准向量矩阵。计算所得到的相邻的标准向量矩阵的相似度。将相似度与第二阈值进行比较。第二阈值可以为50%。若相似度大于第二阈值，则认为相邻的标准向量矩阵对应的标准音频数据帧为正常衔接的音帧。服务器对所得到的所有相似度进行分析，当确定预设数量的相似度达到第二阈值时，则判断标准音频数据为非二次录音的音频数据。预设数量可以是所有相似度数量的50%。

进一步地，为了提高标准声纹特征的质量，可以参照上述音频处理方法对通过防录音攻击检测的标准音频数据进行音频处理。进而从音频处理后的标准音频数据中提取出目标用户的标准声纹特征。

进一步地，为了提高声纹识别的可靠性，对于待识别音频数据和待进行音频处理的待处理音频数据，同样可以参照本实施例中所述的防录音攻击检测方法对待识别音频数据和待处理音频数据进行检测，从而确保待识别音频数据和待处理音频数据的可靠性。

本实施例中，在进行声纹注册时，通过对采集到的标准音频数据进行防录音攻击检测，确保标准音频数据为非二次录音的音频数据，可以提高声纹识别系统的安全性，确保声纹识别的有效进行。

在一个实施例中，步骤S1050，当存在预设数量的相似度达到第二阈值时，从标准音频数据中提取出目标用户的标准声纹特征之前，所述方法还包括：获取采集标准音频数据的标准音频采样率；获取相似度未达到第二阈值的多帧标准音频向量；检测相似度未达到第二阈值的每帧标准音频向量所对应的目标音频采样率；若目标音频采样率和标准音频采样率相同，则确定存在预设数量的相似度达到第二阈值。

在本实施例中，服务器每一次获取相邻的标准音频向量矩阵的相似度小于第二阈值，进一步对该相邻的标准音频向量矩阵所对应的目标音频采样率进行检测，以检测标准音频数据是否是合成的音频数据。具体地，服务器获取标准音频数据的标准音频采样率。若获取相邻的标准音频向量矩阵的相似度小于第二阈值，则获取该相邻的标准音频向量矩阵所对应的多帧标准音频数据帧。对多帧标准音频数据帧的采样率进行检测，得到目标音频采样率。将目标音频采样率与标准音频采样率进行比较。若目标音频采样率和标准音频采样率相同，则判断该多帧标准音频数据为非合成音频数据。同理，若服务器确定所有相似度小于第二阈值的多帧标准音频数据均为非合成音频数据，那么可以进一步确定是否存在预设数量的相似度达到第二阈值。若存在，则判断标准音频数据为非二次录音的音频数据以及非合成音频数据。若服务器确定存在相似度小于第二阈值的多帧标准音频数据为合成音频数据，那么判断该标准音频数据为合成音频数据。

本实施例中，在进行声纹注册时，通过对采集到的标准音频数据进行防录音攻击检测，确保标准音频数据为非二次录音的音频数据以及非合成音频数据，可以提高声纹识别系统的安全性，确保声纹识别的有效进行。

在一个实施例中，如图11所示，提供了一种具体地声纹识别方法，声纹识别方法可应用于保险行业的电话报案、理赔和投诉等场景。以该方法应用于服务器为例进行说明，包括以下步骤：

步骤S1101，获取待识别音频数据。

步骤S1102，对待识别音频数据进行音频处理，得到目标音频数据。对待识别音频数据进行音频处理的具体方式可以参照上述任一项实施例所述的音频处理方法，在此不作具体阐述。

步骤S1103，从目标音频数据中提取出目标用户的目标声纹特征。

具体地，当目标音频数据为通过单声道采集的数据时，首先对目标音频数据进行单身道分割处理，得到目标用户的目标音频数据。进而从目标用户的目标音频数据中提取出目标用户的目标声纹特征。

步骤S1104，获取目标声纹特征和目标用户的标准声纹特征的相似度。

标准声纹特征的生成方式可以参照上述实施例说明，在此不作具体阐述。

步骤S1105，根据相似度得到是否是目标用户的声纹识别结果。

声纹识别结果的生成方式可以参照上述实施例说明，在此不作具体阐述。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图12所示，提供了一种音频处理装置1200，包括：第一获取模块1201、第二获取模块1202和音频处理模块1203，其中：

第一获取模块1201，用于获取待处理音频数据，以及采集待处理音频数据的音频采集场景；第二获取模块1202，用于根据音频采集场景，获取与音频采集场景对应的音频处理参数，对待处理音频数据进行音频处理的音频处理方式包括以下方式中的至少一种：噪音抑制和噪音消除；音频处理模块1203，用于根据与音频采集场景对应的音频处理参数，对待处理音频数据进行音频处理，得到目标音频数据。

在一个实施例中，音频处理方式为噪音抑制；音频处理场景还根据采集待处理音频数据的时间段确定；第二获取模块1202，包括：第一获取单元，用于获取与采集待处理音频数据的信道所对应的噪音分贝表，噪音分贝表包括音频采集场景和降噪阈值的对应关系；查询单元，用于从噪音分贝表中查询与采集待处理音频数据的业务场景和时间段匹配的目标降噪阈值。

在一个实施例中，音频处理模块1203，用于根据目标降噪阈值对待处理音频数据进行降噪处理，得到目标音频数据。

在一个实施例中，所述装置1200还包括第三获取模块，用于针对预先配置的多个业务场景，获取每个时间段中通过信道采集的多个历史音频数据；信噪比生成模块，用于生成每个历史音频数据对应的历史信噪比；降噪阈值确定模块，用于根据每个时间段对应的多个历史信噪比，确定每个时间段对应的降噪阈值；噪音分贝表生成模块，用于根据每个业务场景下每个时间段对应的降噪阈值，生成与信道对应的噪音分贝表。

在一个实施例中，降噪阈值确定模块，包括：第二获取单元，用于获取每个时间段对应的多个历史信噪比的四分位数区间；从四分位数区间中获取预设区间的历史信噪比；降噪阈值确定单元，用于获取预设区间的历史信噪比的平均值，作为每个时间段对应的降噪阈值。

在一个实施例中，音频处理方式为噪音消除；第二获取模块1202，用于获取与采集待处理音频数据的信道和业务场景所对应的多种噪音底纹向量。

在一个实施例中，音频采集场景还根据采集待处理音频数据的时间段确定；第二获取模块1202，还用于获取与采集待处理音频数据的信道、业务场景和时间段所对应的多种噪音底纹向量。

在一个实施例中，音频处理模块1203，包括：分帧单元，用于对待处理音频数据进行分帧处理，得到多帧待处理音频数据帧；向量生成单元，用于生成与每帧待处理音频数据帧对应的待处理音频向量；相似度生成单元，用于获取待处理音频向量和每种噪音底纹向量的相似度；筛选单元，用于获取相似度大于阈值的待处理音频数据帧；噪声消除单元，用于对相似度大于阈值的待处理音频数据帧进行噪声消除处理，得到目标音频数据。

在一个实施例中，多种噪音底纹向量包括多种节拍的节拍底纹向量；分帧单元，用于按照每种节拍所对应的时间步长对待处理音频数据进行分帧处理，得到与每种节拍对应的多帧待处理音频数据帧。向量生成单元，用于针对每种节拍，生成与每帧待处理音频数据帧对应的待处理音频向量。相似度生成单元，用于针对每种节拍，获取每个待处理音频向量与节拍底纹向量的相似度。

在一个实施例中，所述装置1200还包括：第四获取模块，用于获取对目标音频数据进行静音消除处理将采用的短时能量门限值和过零率门限值；分帧模块，用于对目标音频数据进行分帧处理，得到多帧目标音频数据帧；短时能量值和过零率值生成模块，用于生成每帧目标音频数据帧的短时能量值和过零率值；静音帧确定模块，用于根据每帧目标音频数据帧对应的短时能量值和过零率值，以及已获取的短时能量门限值和过零率门限值，确定多帧目标音频数据帧中的静音帧；剪切模块，用于剪切多帧目标音频数据帧中的静音帧，得到静音消除处理后的目标音频数据。

在一个实施例中，如图13所示，提供了一种声纹识别装置1300，包括：获取模块1301、音频处理模块1302、特征提取模块1303、比对模块1304和结果生成模块1305，其中：

获取模块1301，用于获取待识别音频数据；音频处理模块1302，用于采用上述任一项实施例所述的音频处理方法对待识别音频数据进行音频处理，得到目标音频数据；特征提取模块1303，用于从目标音频数据中提取出目标用户的目标声纹特征；比对模块1304，用于获取目标声纹特征和目标用户的标准声纹特征的相似度；结果生成模块1305，用于根据相似度，得到是否是目标用户的声纹识别结果。

在一个实施例中，若待识别音频数据为通过单声道采集得到的，则特征提取模块1303，包括：分帧单元，用于对目标音频数据进行分帧处理，得到多帧目标音频数据帧；向量生成单元，用于生成与每帧目标音频数据帧对应的目标音频向量；相似度生成单元，用于获取相邻的目标音频向量的相似度；聚类单元，用于对相似度大于第一阈值的目标音频向量所对应的目标音频数据帧进行聚类处理，得到目标用户的目标音频数据；特征提取单元，用于从目标用户的目标音频数据中提取出目标用户的目标声纹特征。

在一个实施例中，所述装置1300还包括：第二获取模块，用于获取目标用户的标准音频数据；分帧模块，用于对标准音频数据进行分帧处理，得到多帧标准音频数据帧；向量生成模块，用于生成与每帧标准音频数据帧对应的标准音频向量；相似度生成模块，用于获取相邻的标准音频向量的相似度；第二特征提取模块，用于当存在预设数量的相似度达到第二阈值时，从标准音频数据中提取出目标用户的标准声纹特征。

在一个实施例中，所述装置1300还包括：第三获取模块，用于获取采集标准音频数据的标准音频采样率；获取相似度未达到第二阈值的多帧标准音频向量；采样率检测模块，用于检测相似度未达到第二阈值的每帧标准音频向量所对应的目标音频采样率；比较模块，用于若目标音频采样率和标准音频采样率相同，则确定存在预设数量的相似度达到第二阈值。

关于音频处理装置的具体限定可以参见上文中对于音频处理方法的限定，关于声纹识别装置的具体限定可以参见上文中对于声纹识别方法的限定，在此不再赘述。上述音频处理装置和声纹识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待识别音频数据、音频处理参数等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频处理方法和/或声纹识别方法。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

获取待处理音频数据，以及采集所述待处理音频数据的音频采集场景；

根据所述音频采集场景，获取与所述音频采集场景对应的音频处理参数，对所述待处理音频数据进行音频处理的音频处理方式包括以下方式中的至少一种：噪音抑制和噪音消除；

根据与所述音频采集场景对应的音频处理参数，对所述待处理音频数据进行音频处理，得到目标音频数据。

2.根据权利要求1所述的方法，其特征在于，所述音频处理场景根据采集所述待处理音频数据的信道和业务场景确定。

3.根据权利要求2所述的方法，其特征在于，所述音频处理方式为噪音抑制；所述音频处理场景还根据采集所述待处理音频数据的时间段确定；

所述根据所述音频采集场景，获取与所述音频采集场景对应的音频处理参数，包括：

获取与采集所述待处理音频数据的信道所对应的噪音分贝表，所述噪音分贝表包括音频采集场景和降噪阈值的对应关系；

从所述噪音分贝表中查询与采集所述待处理音频数据的业务场景和时间段匹配的目标降噪阈值。

4.根据权利要求3所述的方法，其特征在于，所述根据与所述音频采集场景对应的音频处理参数，对所述待处理音频数据进行音频处理，得到目标音频数据，包括：

根据所述目标降噪阈值对所述待处理音频数据进行降噪处理，得到所述目标音频数据。

5.根据权利要求3所述的方法，其特征在于，所述噪音分贝表的生成方式，包括：

针对预先配置的多个业务场景，获取每个时间段中通过所述信道采集的多个历史音频数据；

生成每个历史音频数据对应的历史信噪比；

根据所述每个时间段对应的多个历史信噪比，确定所述每个时间段对应的降噪阈值；

根据每个业务场景下每个时间段对应的降噪阈值，生成与所述信道对应的所述噪音分贝表。

6.根据权利要求5所述的方法，其特征在于，根据所述每个时间段对应的多个历史信噪比，确定所述每个时间段对应的降噪阈值，包括：

获取所述每个时间段对应的多个历史信噪比的四分位数区间；

从所述四分位数区间中获取预设区间的历史信噪比；

获取所述预设区间的历史信噪比的平均值，作为所述每个时间段对应的降噪阈值。

7.根据权利要求2所述的方法，其特征在于，所述音频处理方式为噪音消除；所述根据所述音频采集场景，获取与所述音频采集场景对应的音频处理参数，包括：

获取与采集所述待处理音频数据的信道和业务场景所对应的多种噪音底纹向量。

8.根据权利要求7所述的方法，其特征在于，所述音频采集场景还根据采集所述待处理音频数据的时间段确定；所述根据所述音频采集场景，获取与所述音频采集场景对应的音频处理参数，还包括：

获取与采集所述待处理音频数据的信道、业务场景和时间段所对应的多种噪音底纹向量。

9.根据权利要求7所述的方法，其特征在于，所述根据与所述音频采集场景对应的音频处理参数，对所述待处理音频数据进行音频处理，得到目标音频数据，包括：

对所述待处理音频数据进行分帧处理，得到多帧待处理音频数据帧；

生成与每帧待处理音频数据帧对应的待处理音频向量；

获取所述待处理音频向量和每种噪音底纹向量的相似度；

获取所述相似度大于阈值的待处理音频数据帧；

对所述相似度大于阈值的待处理音频数据帧进行噪声消除处理，得到所述目标音频数据。

10.根据权利要求9所述的方法，其特征在于，所述多种噪音底纹向量包括多种节拍的节拍底纹向量；所述对所述待处理音频数据进行分帧处理，得到多帧待处理音频数据帧，包括：

按照每种节拍所对应的时间步长对所述待处理音频数据进行分帧处理，得到与所述每种节拍对应的多帧待处理音频数据帧；

所述生成与每帧待处理音频数据帧对应的待处理音频向量，获取所述待处理音频向量和每种噪音底纹向量的相似度，包括：

针对每种节拍，生成与每帧待处理音频数据帧对应的待处理音频向量；

针对所述每种节拍，获取每个待处理音频向量与所述节拍底纹向量的相似度。

11.根据权利要求1~10任一项所述的方法，其特征在于，所述方法还包括：

获取对所述目标音频数据进行静音消除处理将采用的短时能量门限值和过零率门限值；

对所述目标音频数据进行分帧处理，得到多帧目标音频数据帧；

生成每帧目标音频数据帧的短时能量值和过零率值；

根据所述每帧目标音频数据帧对应的短时能量值和过零率值，以及已获取的短时能量门限值和过零率门限值，确定所述多帧目标音频数据帧中的静音帧；

剪切所述多帧目标音频数据帧中的静音帧，得到静音消除处理后的目标音频数据。

12.一种声纹识别方法，其特征在于，所述方法包括：

获取待识别音频数据；

采用权利要求1~10任一项所述的音频处理方法对所述待识别音频数据进行音频处理，得到目标音频数据；

从所述目标音频数据中提取出目标用户的目标声纹特征；

获取所述目标声纹特征和所述目标用户的标准声纹特征的相似度；

根据所述相似度，得到是否是所述目标用户的声纹识别结果。

13.根据权利要求12所述的方法，其特征在于，若所述待识别音频数据为通过单声道采集得到的，则所述从所述目标音频数据中提取出目标用户的目标声纹特征，包括：

生成与每帧目标音频数据帧对应的目标音频向量；

获取相邻的目标音频向量的相似度；

对所述相似度大于第一阈值的目标音频向量所对应的目标音频数据帧进行聚类处理，得到所述目标用户的目标音频数据；

从所述目标用户的目标音频数据中提取出所述目标用户的目标声纹特征。

14.根据权利要求12所述的方法，其特征在于，所述目标用户的标准声纹特征的生成方式，包括：

获取所述目标用户的标准音频数据；

对所述标准音频数据进行分帧处理，得到多帧标准音频数据帧；

生成与每帧标准音频数据帧对应的标准音频向量；

获取相邻的标准音频向量的相似度；

当存在预设数量的相似度达到第二阈值时，从所述标准音频数据中提取出所述目标用户的标准声纹特征。

15.根据权利要求14所述的方法，其特征在于，所述当存在预设数量的相似度达到第二阈值时，从所述标准音频数据中提取出所述目标用户的标准声纹特征之前，所述方法还包括：

获取采集所述标准音频数据的标准音频采样率；

获取所述相似度未达到所述第二阈值的多帧标准音频向量；

检测所述相似度未达到所述第二阈值的每帧标准音频向量所对应的目标音频采样率；

若所述目标音频采样率和所述标准音频采样率相同，则确定存在预设数量的相似度达到所述第二阈值。

16.一种音频处理装置，其特征在于，所述装置包括：

第一获取模块，用于获取待处理音频数据，以及采集所述待处理音频数据的音频采集场景；

第二获取模块，用于根据所述音频采集场景，获取与所述音频采集场景对应的音频处理参数，对所述待处理音频数据进行音频处理的音频处理方式包括以下方式中的至少一种：噪音抑制和噪音消除；

音频处理模块，用于根据与所述音频采集场景对应的音频处理参数，对所述待处理音频数据进行音频处理，得到目标音频数据。

17.一种声纹识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别音频数据；

音频处理模块，用于采用权利要求1~10任一项所述的音频处理方法对所述待识别音频数据进行音频处理，得到目标音频数据；

特征提取模块，用于从所述目标音频数据中提取出目标用户的目标声纹特征；

比对模块，用于获取所述目标声纹特征和所述目标用户的标准声纹特征的相似度；

结果生成模块，用于根据所述相似度，得到是否是所述目标用户的声纹识别结果。

18.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至15中任一项所述的方法的步骤。

19.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至15中任一项所述的方法的步骤。