CN108399913B

CN108399913B - 高鲁棒性音频指纹识别方法及系统

Info

Publication number: CN108399913B
Application number: CN201810146446.3A
Authority: CN
Inventors: 曾国卿
Original assignee: Beijing Ronglian Yitong Information Technology Co ltd
Current assignee: Beijing Ronglian Yitong Information Technology Co ltd
Priority date: 2018-02-12
Filing date: 2018-02-12
Publication date: 2021-10-15
Anticipated expiration: 2038-02-12
Also published as: CN108399913A

Abstract

本发明提供了一种高鲁棒性音频指纹识别方法及系统，其中，该方法包括：获取待识别音频数据，并对待识别音频数据进行预处理；对预处理后的待识别音频数据依次进行频域变换和Bark域变换，将所有的子带能量作为待识别音频数据的原始特征；对原始特征进行修正处理，将修正后的原始特征作为待识别音频数据的鲁棒性特征；根据待识别音频数据的鲁棒性特征进行语音指纹建模，生成与待识别音频数据对应的待识别音频指纹；加载预设的音频指纹库，将待识别音频指纹与音频指纹库中的标准音频指纹进行匹配，识别待识别音频指纹。该方法利用该鲁棒性特征生成待识别音频指纹并进行匹配，可以提高识别过程的鲁棒性，识别结果更加准确。

Description

高鲁棒性音频指纹识别方法及系统

技术领域

本发明涉及音频识别技术领域，特别涉及一种高鲁棒性音频指纹识别方法及系统。

背景技术

目前，音频指纹技术通过将音频信号中的不变特征提取出来，并作为描述信号的唯一标识，这种特征称为音频指纹。音频指纹作为内容自动识别技术的核心算法，已广泛的应用于歌曲识别、内容监播、内容去重、文件识别等领域。

音频指纹技术具有基于内容、指纹数据少、有一定的抗攻击的鲁棒性特点，所以能较好的解决音频检索与匹配的问题。指纹技术提出之后，获得迅猛发展，提出了很多的技术方案，并取得了很好的商业应用。近年来出现的微信摇一摇、哼唱识曲、第二屏互动等技术也均基于该技术实现。

随着云计算及网络电话的发展，基于互联网的云通讯平台获得了广泛应用。基于互联网的智能外呼正逐渐取代传统的呼叫中心，这种新型的呼叫中心成本更低，坐席利用率更高。实际上，在电话发起呼叫到电话接通的期间，运营商会返回给主叫提示音，这些提示音包括振铃音、彩铃音、忙音和正常提示语音，如果能够识别这些提示音，将会大幅度的提高呼叫频率，从而很大程度上提高坐席的利用率。由于这种呼叫中心往往存在超高并发需求，如果采用语音识别技术，将无法满足系统的性能要求，严重限制智能外呼的应用和落地。另外，电话语音通常是8K信号，且采用G729或G711等编码方式，尤其是G729可以达到16:1的压缩率，给语音识别技术带来了更大的挑战。如何设计一种极高效的识别技术，可以快速准确地识别提示音，是亟待解决的一个问题。

发明内容

本发明提供一种高鲁棒性音频指纹识别方法及系统，用以解决现有语音识别技术不能很好适应智能外呼应用的缺陷。

本发明实施例提供的一种高鲁棒性音频指纹识别方法，包括：

获取待识别音频数据，并对所述待识别音频数据进行预处理，去除特殊信号，所述特殊信号包括振铃音、彩铃音、忙音、静音中的一项或多项；

对预处理后的所述待识别音频数据依次进行频域变换和Bark域变换，将预设频率区间划分为多个子带，并将所有的子带能量作为所述待识别音频数据的原始特征；

对所述原始特征进行修正处理，将修正后的原始特征作为所述待识别音频数据的鲁棒性特征；

根据所述待识别音频数据的鲁棒性特征进行语音指纹建模，生成与所述待识别音频数据对应的待识别音频指纹；

加载预设的音频指纹库，将所述待识别音频指纹与所述音频指纹库中的标准音频指纹进行匹配，识别所述待识别音频指纹。

在一种可能的实现方式中，所述对预处理后的所述待识别音频数据依次进行频域变换和Bark域变换，将预设频率区间划分为多个子带，并将所有的子带能量作为所述待识别音频数据的原始特征，包括：

对预处理后的所述待识别音频数据依次进行分帧、加窗、快速傅里叶变换处理，之后通过Bark域变换变换到由预设频率区间划分出的33个子带，并计算33个子带的子带能量，进而形成33维的原始特征向量；

其中，第m个子带的子带能量E(m)为：

其中，f(m)是预设频率区间经Bark域变换后对应的第m个子带频率，m＝1,2,…,33；X(k)表示在[f(m),f(m+1)]之间的FFT值，|X(k)|表示X(k)的模；

子带频率f(m)的划分公式如下：

其中，F_min是Bark域变换的下限频率，F_max是Bark域变换的上限频率，M＝32。

在一种可能的实现方式中，所述对所述原始特征进行修正处理包括：

基于预设的自编码网络对所述原始特征进行修正处理，获得修正后的原始特征；

其中，所述自编码网络为以预先获取的预设原始特征为输入、以预设修正原始特征为输出进行自编码网络训练后生成的网络；所述预设修正原始特征为将所述预设原始特征按照预设编码方式进行编解码处理后获得的修正原始特征，所述预设编码方式为G729或G711编码方式。

在一种可能的实现方式中，所述根据所述鲁棒性特征进行语音指纹建模，生成与所述待识别音频数据对应的待识别音频指纹，包括：

根据所述鲁棒性特征进行语音指纹建模，确定与所述待识别音频数据对应的待识别音频指纹的每个分量F(i,j)：

其中，E'(i,j)表示第i个鲁棒性特征E′对应的第j个分量，j＝1,2,3…,32。

在一种可能的实现方式中，所述将所述待识别音频指纹与所述音频指纹库中的标准音频指纹进行匹配，识别所述待识别音频指纹，包括：

将所述待识别音频指纹通过Hash映射方式映射到音频指纹库中相似标准音频指纹的位置，并分别计算所述待识别音频指纹与所有相似标准音频指纹的误码率，当最小误码率不大于预设误码率时，将与所述最小误码率相对应的相似标准音频指纹作为与所述待识别音频指纹相匹配的标准音频指纹。

在一种可能的实现方式中，该方法还包括：

获取标准音频数据，并对所述标准音频数据进行预处理，去除特殊信号，所述特殊信号包括振铃音、彩铃音、忙音、静音中的一项或多项；

对预处理后的所述标准音频数据依次进行频域变换和Bark域变换，将预设频率区间划分为多个子带，并将所有的子带能量作为所述标准音频数据的原始特征；

对所述原始特征进行修正处理，将修正后的原始特征作为所述标准音频数据的鲁棒性特征；

根据所述标准音频数据的鲁棒性特征进行语音指纹建模，生成与所述标准音频数据对应的标准音频指纹；

将所述标准音频指纹进行标记归档，并存入所述音频指纹库中。

基于同样的发明构思，本发明实施例还提供一种高鲁棒性音频指纹识别系统，包括：

音频采集模块，用于获取待识别音频数据，并对所述待识别音频数据进行预处理，去除特殊信号，所述特殊信号包括振铃音、彩铃音、忙音、静音中的一项或多项；

原始特征提取模块，用于对预处理后的所述待识别音频数据依次进行频域变换和Bark域变换，将预设频率区间划分为多个子带，并将所有的子带能量作为所述待识别音频数据的原始特征；

修正模块，用于对所述原始特征进行修正处理，将修正后的原始特征作为所述待识别音频数据的鲁棒性特征；

音频指纹生成模块，用于根据所述待识别音频数据的鲁棒性特征进行语音指纹建模，生成与所述待识别音频数据对应的待识别音频指纹；

指纹匹配识别模块，用于加载预设的音频指纹库，将所述待识别音频指纹与所述音频指纹库中的标准音频指纹进行匹配，识别所述待识别音频指纹。

在一种可能的实现方式中，所述原始特征提取模块用于：

其中，第m个子带的子带能量E(m)为：

子带频率f(m)的划分公式如下：

在一种可能的实现方式中，所述修正模块用于：

在一种可能的实现方式中，所述音频指纹生成模块用于：

在一种可能的实现方式中，所述指纹匹配识别模块用于：

在一种可能的实现方式中，该系统还包括：指纹库生成模块；

其中，所述音频采集模块还用于获取标准音频数据，并对所述标准音频数据进行预处理，去除特殊信号，所述特殊信号包括振铃音、彩铃音、忙音、静音中的一项或多项；

所述原始特征提取模块还用于对预处理后的所述标准音频数据依次进行频域变换和Bark域变换，将预设频率区间划分为多个子带，并将所有的子带能量作为所述标准音频数据的原始特征；

所述修正模块还用于对所述原始特征进行修正处理，将修正后的原始特征作为所述标准音频数据的鲁棒性特征；

所述音频指纹生成模块还用于根据所述标准音频数据的鲁棒性特征进行语音指纹建模，生成与所述标准音频数据对应的标准音频指纹；

所述指纹库生成模块用于将所述标准音频指纹进行标记归档，并存入所述音频指纹库中。

本发明实施例提供的一种高鲁棒性音频指纹识别方法及系统，对待识别音频数据依次进行频域变换和Bark域变换获得原始特征，之后对该原始特征进行修正从而可以获得具有高鲁棒性的鲁棒性特征，利用该鲁棒性特征生成待识别音频指纹并进行匹配，可以提高识别过程的鲁棒性，识别结果更加准确。同时，在智能外呼应用中，可以提前进行超前呼叫或预测式外呼，根据呼叫中的被叫提示音精确识别被叫主机的状态，进而在被叫主机是“无法接通”、"已关机"、"电话正忙"等情况时拨号器主动挂断电话，并自动进行下一批呼叫，从而大大加速了呼叫频率，也提高了坐席利用率。本发明基于深度自编码网络产生鲁棒性更好的特征，并基于该鲁棒性特征进一步生成指纹，进而建立基于深度学习的音频指纹识别方法或系统。通过大量的测试表明，该方法或系统可以精确的识别30种提示音，一颗CPU可以支持100路的识别需求，可以广泛的应用于超高并发的呼叫中心。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中高鲁棒性音频指纹识别方法的流程图；

图2为本发明实施例中基于深度学习的自编码网络的结构示意图；

图3为本发明实施例中高鲁棒性音频指纹识别系统的结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供的一种高鲁棒性音频指纹识别方法，参见图1所示，包括步骤101-105：

步骤101：获取待识别音频数据，并对待识别音频数据进行预处理，去除特殊信号，特殊信号包括振铃音、彩铃音、忙音、静音中的一项或多项。

本发明实施例中，该待识别音频数据具体可以为与主叫提示音或被叫提示音相关的音频数据；以被叫提示音为例，被叫提示音的种类非常多，一般至少有30多种，通过去除特殊信号可以更精确的进行识别。同时，本发明实施例中所述的预处理过程除了需要去除特殊信号之外，还可以包含滤波、降噪、重采样的处理；例如，该预处理具体可以包括依次滤波、降噪、重采样、去除特殊信号等处理，以更精确的进行识别。

步骤102：对预处理后的待识别音频数据依次进行频域变换和Bark域变换，将预设频率区间划分为多个子带，并将所有的子带能量作为待识别音频数据的原始特征。

本发明实施例中，上述步骤101中去除特殊信号等预处理是在时域中进行，从而避免了复杂的频域变换等运算，可以提高预处理效率。同时，在预处理结束后变换到频域处理，可以明显加速识别效率；通过Bark域变换方便获得高鲁棒性特征。

具体的，将预设频率区间经Bark域变换后可以对应对个子带，每个子带对应一个频率区间，通过计算每个子带的子带能量来确定待识别音频数据的多个原始特征。其中，预设频率区间可以是根据经验值确定的经验区间，其与具体应用场景有关。例如，该预设频率区间可以为[100Hz,2500Hz]，本实施例对此不做限定。

步骤103：对原始特征进行修正处理，将修正后的原始特征作为待识别音频数据的鲁棒性特征。

本发明实施例中，可以利用预先训练好的自编码网络重建(即修正)待识别音频数据的原始特征，将其作为待识别音频数据的鲁棒性特征。具体的，该步骤103可以包括：基于预设的自编码网络对原始特征进行修正处理，获得修正后的原始特征。

本发明实施例中，自编码网络为以预先获取的预设原始特征为输入、以预设修正原始特征为输出进行自编码网络训练后生成的网络；预设修正原始特征为将预设原始特征按照预设编码方式进行编解码处理后获得的修正原始特征，预设编码方式为G729或G711编码方式。具体的，该预设原始特征为预先获取的特征，例如可以是丰富音频指纹库时采集的标准音频数据的多维原始特征(如33维原始特征)等；相应的预设修正原始特征为经由G729等编解码后获得的多维原始特征(如修正后的33维原始特征)。本发明实施例提供的一种基于深度学习的自编码网络的结构示意图参见图2所示。

本发明实施例中，自编码网络的训练是单独进行的，训练的过程就是将训练集内的音频数据对应原始33维特征(即步骤102中的原始特征)作为网络输入，将这些音频数据的G729编解码后的33维原始特征作为网络输出，不断进行训练，让网络可以学习到G729模式下鲁棒性特征，这个鲁棒性特征类似于G729下的特征，同时又具有很强的鲁棒性。经过大量的训练，可以让网络学习到由输入特征和输出特征之间的映射关系。对于任意输入33维特征，经过自编码网络后都可以得到类似基于G729格式的输出特征。

步骤104：根据待识别音频数据的鲁棒性特征进行语音指纹建模，生成与待识别音频数据对应的待识别音频指纹。

步骤105：加载预设的音频指纹库，将待识别音频指纹与音频指纹库中的标准音频指纹进行匹配，识别待识别音频指纹。

本发明实施例中预先生成含有标准音频指纹的音频指纹库，在需要识别音频指纹时可以采用高效的Hash映射方式加载该预设的音频指纹库，采用Hash映射方式可以高效地组织指纹数据，在指纹查询时可以大大提升查询效率；同时，将待识别音频指纹与音频指纹库中的标准音频指纹进行匹配，在匹配成功后即可识别该待识别音频指纹。

具体的，上述将待识别音频指纹与音频指纹库中的标准音频指纹进行匹配，识别待识别音频指纹，包括：将待识别音频指纹通过Hash映射方式映射到音频指纹库中相似标准音频指纹的位置，并分别计算待识别音频指纹与所有相似标准音频指纹的误码率，当最小误码率ebr_min不大于预设误码率ebr时，将与最小误码率ebr_min相对应的相似标准音频指纹作为与待识别音频指纹相匹配的标准音频指纹。若最小误码率ebr_min大于预设误码率ebr，则认为匹配失败。

本发明实施例提供的一种高鲁棒性音频指纹识别方法，对待识别音频数据依次进行频域变换和Bark域变换获得原始特征，之后对该原始特征进行修正从而可以获得具有高鲁棒性的鲁棒性特征，利用该鲁棒性特征生成待识别音频指纹并进行匹配，可以提高识别过程的鲁棒性，识别结果更加准确。同时，在智能外呼应用中，可以提前进行超前呼叫或预测式外呼，根据呼叫中的被叫提示音精确识别被叫主机的状态，进而在被叫主机是“无法接通”、"已关机"、"电话正忙"等情况时拨号器主动挂断电话，并自动进行下一批呼叫，从而大大加速了呼叫频率，也提高了坐席利用率。

本发明另一实施例提供一种高鲁棒性音频指纹识别方法，该方法包括上述实施例中的步骤101-105，其实现原理以及技术效果参见图1对应的实施例。同时，本发明实施例中，步骤102“对预处理后的待识别音频数据依次进行频域变换和Bark域变换，将预设频率区间划分为多个子带，并将所有的子带能量作为待识别音频数据的原始特征”具体包括：

对预处理后的待识别音频数据依次进行分帧、加窗、快速傅里叶变换(FFT，FastFourier Transformation)处理，之后通过Bark域变换变换到由预设频率区间划分出的33个子带，并计算33个子带的子带能量，进而形成33维的原始特征向量；

其中，第m个子带的子带能量E(m)为：

其中，f(m)是预设频率区间经Bark域变换后对应的第m个子带频率，m＝1,2,…,33；X(k)表示在[f(m),f(m+1)]之间的FFT值，X(k)是一个复数，|X(k)|表示X(k)的模；

子带频率f(m)的划分公式如下：

其中，F_min是Bark域变换的下限频率，F_max是Bark域变换的上限频率，M＝32。F_min和F_max即为预设频率区间的上下限，例如F_min可以取值100Hz，F_max可以取值2500Hz。

在上述实施例的基础上，步骤104“根据鲁棒性特征进行语音指纹建模，生成与待识别音频数据对应的待识别音频指纹”具体包括：

根据鲁棒性特征进行语音指纹建模，确定与待识别音频数据对应的待识别音频指纹的每个分量F(i,j)：

其中，E'(i,j)表示第i个鲁棒性特征E′对应的第j个分量，由于鲁棒性特征E′有33个分量，故j＝1,2,3…,32。

本发明实施例中，i表示一段音频信号或者一个帧，理论上来说i取值可以无限大；当i值确定时，由32个F(i,j)生成的待识别音频指纹F是一个32bit的整数。

在上述实施例的基础上，步骤105中“将待识别音频指纹与音频指纹库中的标准音频指纹进行匹配，识别待识别音频指纹”具体包括：

将待识别音频指纹通过Hash映射方式映射到音频指纹库中相似标准音频指纹的位置，并分别计算待识别音频指纹与所有相似标准音频指纹的误码率，当最小误码率不大于预设误码率时，将与最小误码率相对应的相似标准音频指纹作为与待识别音频指纹相匹配的标准音频指纹。

本发明实施例中采用高效的Hash映射的方式，可以高效的组织指纹数据，在指纹查询时，可以大大提升查询效率。

在上述实施例的基础上，该方法还包括生成标准音频指纹的过程，该过程与生成待识别音频指纹的过程基本一致，具体地，生成标准音频指纹的过程包括步骤A1-A5：

步骤A1：获取标准音频数据，并对标准音频数据进行预处理，去除特殊信号，特殊信号包括振铃音、彩铃音、忙音、静音中的一项或多项。

步骤A2：对预处理后的标准音频数据依次进行频域变换和Bark域变换，将预设频率区间划分为多个子带，并将所有的子带能量作为标准音频数据的原始特征。

步骤A3：对原始特征进行修正处理，将修正后的原始特征作为标准音频数据的鲁棒性特征。

步骤A4：根据鲁棒性特征进行语音指纹建模，生成与标准音频数据对应的标准音频指纹。

步骤A5：将标准音频指纹进行标记归档，并存入音频指纹库中。

本发明实施例中，生成标准音频指纹的过程与生成待识别音频指纹的过程基本一致，例如，在步骤A2中可以采用上述实施例中相同的公式计算子带能量E(m)，在步骤A4中以相同方式计算每个分量F(i,j)。

由于电话呼叫中心的超高并发需求，基于传统的语音识别技术来识别电话提示音的方案无法满足系统的要求，另外，由于电话通信中的低码率编码特点，所以传统的指纹识别技术识别率也不高，很难达到应用要求。本发明实施例提供的一种高鲁棒性音频指纹识别方法，对待识别音频数据依次进行频域变换和Bark域变换获得原始特征，之后对该原始特征进行修正从而可以获得具有高鲁棒性的鲁棒性特征，利用该鲁棒性特征生成待识别音频指纹并进行匹配，可以提高识别过程的鲁棒性，识别结果更加准确。同时，在智能外呼应用中，可以提前进行超前呼叫或预测式外呼，根据呼叫中的被叫提示音精确识别被叫主机的状态，进而在被叫主机是“无法接通”、"已关机"、"电话正忙"等情况时拨号器主动挂断电话，并自动进行下一批呼叫，从而大大加速了呼叫频率，也提高了坐席利用率。本发明基于深度自编码网络产生鲁棒性更好的特征，并基于该鲁棒性特征进一步生成指纹，进而建立基于深度学习的音频指纹识别方法。通过大量的测试表明，该方法可以精确的识别30种提示音，一颗CPU可以支持100路的识别需求，可以广泛的应用于超高并发的呼叫中心。

以上详细介绍了高鲁棒性音频指纹识别方法流程，该方法也可以通过相应的系统实现，下面详细介绍该系统的结构和功能。

本发明实施例提供的一种高鲁棒性音频指纹识别系统，参见图3所示，包括：

音频采集模块31，用于获取待识别音频数据，并对所述待识别音频数据进行预处理，去除特殊信号，所述特殊信号包括振铃音、彩铃音、忙音、静音中的一项或多项；

原始特征提取模块32，用于对预处理后的所述待识别音频数据依次进行频域变换和Bark域变换，将预设频率区间划分为多个子带，并将所有的子带能量作为所述待识别音频数据的原始特征；

修正模块33，用于对所述原始特征进行修正处理，将修正后的原始特征作为所述待识别音频数据的鲁棒性特征；

音频指纹生成模块34，用于根据所述待识别音频数据的鲁棒性特征进行语音指纹建模，生成与所述待识别音频数据对应的待识别音频指纹；

指纹匹配识别模块35，用于加载预设的音频指纹库，将所述待识别音频指纹与所述音频指纹库中的标准音频指纹进行匹配，识别所述待识别音频指纹。

在一种可能的实现方式中，所述原始特征提取模块32用于：

其中，第m个子带的子带能量E(m)为：

子带频率f(m)的划分公式如下：

在一种可能的实现方式中，所述修正模块33用于：

在一种可能的实现方式中，所述音频指纹生成模块34用于：

在一种可能的实现方式中，所述指纹匹配识别模块35用于：

其中，所述音频采集模块31还用于获取标准音频数据，并对所述标准音频数据进行预处理，去除特殊信号，所述特殊信号包括振铃音、彩铃音、忙音、静音中的一项或多项；

所述原始特征提取模块32还用于对预处理后的所述标准音频数据依次进行频域变换和Bark域变换，将预设频率区间划分为多个子带，并将所有的子带能量作为所述标准音频数据的原始特征；

所述修正模块33还用于对所述原始特征进行修正处理，将修正后的原始特征作为所述标准音频数据的鲁棒性特征；

所述音频指纹生成模块34还用于根据所述标准音频数据的鲁棒性特征进行语音指纹建模，生成与所述标准音频数据对应的标准音频指纹；

本发明实施例提供的一种高鲁棒性音频指纹识别系统，对待识别音频数据依次进行频域变换和Bark域变换获得原始特征，之后对该原始特征进行修正从而可以获得具有高鲁棒性的鲁棒性特征，利用该鲁棒性特征生成待识别音频指纹并进行匹配，可以提高识别过程的鲁棒性，识别结果更加准确。同时，在智能外呼应用中，可以提前进行超前呼叫或预测式外呼，根据呼叫中的被叫提示音精确识别被叫主机的状态，进而在被叫主机是“无法接通”、"已关机"、"电话正忙"等情况时拨号器主动挂断电话，并自动进行下一批呼叫，从而大大加速了呼叫频率，也提高了坐席利用率。本发明基于深度自编码网络产生鲁棒性更好的特征，并基于该鲁棒性特征进一步生成指纹，进而建立基于深度学习的音频指纹识别系统。通过大量的测试表明，该系统可以精确的识别30种提示音，一颗CPU可以支持100路的识别需求，可以广泛的应用于超高并发的呼叫中心。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。