CN108399913A - 高鲁棒性音频指纹识别方法及系统 - Google Patents

高鲁棒性音频指纹识别方法及系统 Download PDF

Info

Publication number
CN108399913A
CN108399913A CN201810146446.3A CN201810146446A CN108399913A CN 108399913 A CN108399913 A CN 108399913A CN 201810146446 A CN201810146446 A CN 201810146446A CN 108399913 A CN108399913 A CN 108399913A
Authority
CN
China
Prior art keywords
audio
identified
fingerprint
frequency
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810146446.3A
Other languages
English (en)
Other versions
CN108399913B (zh
Inventor
曾国卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ronglian Ets Information Technology Co Ltd
Original Assignee
Beijing Ronglian Ets Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ronglian Ets Information Technology Co Ltd filed Critical Beijing Ronglian Ets Information Technology Co Ltd
Priority to CN201810146446.3A priority Critical patent/CN108399913B/zh
Publication of CN108399913A publication Critical patent/CN108399913A/zh
Application granted granted Critical
Publication of CN108399913B publication Critical patent/CN108399913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种高鲁棒性音频指纹识别方法及系统,其中,该方法包括:获取待识别音频数据,并对待识别音频数据进行预处理;对预处理后的待识别音频数据依次进行频域变换和Bark域变换,将所有的子带能量作为待识别音频数据的原始特征;对原始特征进行修正处理,将修正后的原始特征作为待识别音频数据的鲁棒性特征;根据待识别音频数据的鲁棒性特征进行语音指纹建模,生成与待识别音频数据对应的待识别音频指纹;加载预设的音频指纹库,将待识别音频指纹与音频指纹库中的标准音频指纹进行匹配,识别待识别音频指纹。该方法利用该鲁棒性特征生成待识别音频指纹并进行匹配,可以提高识别过程的鲁棒性,识别结果更加准确。

Description

高鲁棒性音频指纹识别方法及系统
技术领域
本发明涉及音频识别技术领域,特别涉及一种高鲁棒性音频指纹识别方法及系统。
背景技术
目前,音频指纹技术通过将音频信号中的不变特征提取出来,并作为描述信号的唯一标识,这种特征称为音频指纹。音频指纹作为内容自动识别技术的核心算法,已广泛的应用于歌曲识别、内容监播、内容去重、文件识别等领域。
音频指纹技术具有基于内容、指纹数据少、有一定的抗攻击的鲁棒性特点,所以能较好的解决音频检索与匹配的问题。指纹技术提出之后,获得迅猛发展,提出了很多的技术方案,并取得了很好的商业应用。近年来出现的微信摇一摇、哼唱识曲、第二屏互动等技术也均基于该技术实现。
随着云计算及网络电话的发展,基于互联网的云通讯平台获得了广泛应用。基于互联网的智能外呼正逐渐取代传统的呼叫中心,这种新型的呼叫中心成本更低,坐席利用率更高。实际上,在电话发起呼叫到电话接通的期间,运营商会返回给主叫提示音,这些提示音包括振铃音、彩铃音、忙音和正常提示语音,如果能够识别这些提示音,将会大幅度的提高呼叫频率,从而很大程度上提高坐席的利用率。由于这种呼叫中心往往存在超高并发需求,如果采用语音识别技术,将无法满足系统的性能要求,严重限制智能外呼的应用和落地。另外,电话语音通常是8K信号,且采用G729或G711等编码方式,尤其是G729可以达到16:1的压缩率,给语音识别技术带来了更大的挑战。如何设计一种极高效的识别技术,可以快速准确地识别提示音,是亟待解决的一个问题。
发明内容
本发明提供一种高鲁棒性音频指纹识别方法及系统,用以解决现有语音识别技术不能很好适应智能外呼应用的缺陷。
本发明实施例提供的一种高鲁棒性音频指纹识别方法,包括:
获取待识别音频数据,并对所述待识别音频数据进行预处理,去除特殊信号,所述特殊信号包括振铃音、彩铃音、忙音、静音中的一项或多项;
对预处理后的所述待识别音频数据依次进行频域变换和Bark域变换,将预设频率区间划分为多个子带,并将所有的子带能量作为所述待识别音频数据的原始特征;
对所述原始特征进行修正处理,将修正后的原始特征作为所述待识别音频数据的鲁棒性特征;
根据所述待识别音频数据的鲁棒性特征进行语音指纹建模,生成与所述待识别音频数据对应的待识别音频指纹;
加载预设的音频指纹库,将所述待识别音频指纹与所述音频指纹库中的标准音频指纹进行匹配,识别所述待识别音频指纹。
在一种可能的实现方式中,所述对预处理后的所述待识别音频数据依次进行频域变换和Bark域变换,将预设频率区间划分为多个子带,并将所有的子带能量作为所述待识别音频数据的原始特征,包括:
对预处理后的所述待识别音频数据依次进行分帧、加窗、快速傅里叶变换处理,之后通过Bark域变换变换到由预设频率区间划分出的33个子带,并计算33个子带的子带能量,进而形成33维的原始特征向量;
其中,第m个子带的子带能量E(m)为:
其中,f(m)是预设频率区间经Bark域变换后对应的第m个子带频率,m=1,2,…,33;X(k)表示在[f(m),f(m+1)]之间的FFT值,|X(k)|表示X(k)的模;
子带频率f(m)的划分公式如下:
其中,Fmin是Bark域变换的下限频率,Fmax是Bark域变换的上限频率,M=32。
在一种可能的实现方式中,所述对所述原始特征进行修正处理包括:
基于预设的自编码网络对所述原始特征进行修正处理,获得修正后的原始特征;
其中,所述自编码网络为以预先获取的预设原始特征为输入、以预设修正原始特征为输出进行自编码网络训练后生成的网络;所述预设修正原始特征为将所述预设原始特征按照预设编码方式进行编解码处理后获得的修正原始特征,所述预设编码方式为G729或G711编码方式。
在一种可能的实现方式中,所述根据所述鲁棒性特征进行语音指纹建模,生成与所述待识别音频数据对应的待识别音频指纹,包括:
根据所述鲁棒性特征进行语音指纹建模,确定与所述待识别音频数据对应的待识别音频指纹的每个分量F(i,j):
其中,E'(i,j)表示第i个鲁棒性特征E′对应的第j个分量,j=1,2,3…,32。
在一种可能的实现方式中,所述将所述待识别音频指纹与所述音频指纹库中的标准音频指纹进行匹配,识别所述待识别音频指纹,包括:
将所述待识别音频指纹通过Hash映射方式映射到音频指纹库中相似标准音频指纹的位置,并分别计算所述待识别音频指纹与所有相似标准音频指纹的误码率,当最小误码率不大于预设误码率时,将与所述最小误码率相对应的相似标准音频指纹作为与所述待识别音频指纹相匹配的标准音频指纹。
在一种可能的实现方式中,该方法还包括:
获取标准音频数据,并对所述标准音频数据进行预处理,去除特殊信号,所述特殊信号包括振铃音、彩铃音、忙音、静音中的一项或多项;
对预处理后的所述标准音频数据依次进行频域变换和Bark域变换,将预设频率区间划分为多个子带,并将所有的子带能量作为所述标准音频数据的原始特征;
对所述原始特征进行修正处理,将修正后的原始特征作为所述标准音频数据的鲁棒性特征;
根据所述标准音频数据的鲁棒性特征进行语音指纹建模,生成与所述标准音频数据对应的标准音频指纹;
将所述标准音频指纹进行标记归档,并存入所述音频指纹库中。
基于同样的发明构思,本发明实施例还提供一种高鲁棒性音频指纹识别系统,包括:
音频采集模块,用于获取待识别音频数据,并对所述待识别音频数据进行预处理,去除特殊信号,所述特殊信号包括振铃音、彩铃音、忙音、静音中的一项或多项;
原始特征提取模块,用于对预处理后的所述待识别音频数据依次进行频域变换和Bark域变换,将预设频率区间划分为多个子带,并将所有的子带能量作为所述待识别音频数据的原始特征;
修正模块,用于对所述原始特征进行修正处理,将修正后的原始特征作为所述待识别音频数据的鲁棒性特征;
音频指纹生成模块,用于根据所述待识别音频数据的鲁棒性特征进行语音指纹建模,生成与所述待识别音频数据对应的待识别音频指纹;
指纹匹配识别模块,用于加载预设的音频指纹库,将所述待识别音频指纹与所述音频指纹库中的标准音频指纹进行匹配,识别所述待识别音频指纹。
在一种可能的实现方式中,所述原始特征提取模块用于:
对预处理后的所述待识别音频数据依次进行分帧、加窗、快速傅里叶变换处理,之后通过Bark域变换变换到由预设频率区间划分出的33个子带,并计算33个子带的子带能量,进而形成33维的原始特征向量;
其中,第m个子带的子带能量E(m)为:
其中,f(m)是预设频率区间经Bark域变换后对应的第m个子带频率,m=1,2,…,33;X(k)表示在[f(m),f(m+1)]之间的FFT值,|X(k)|表示X(k)的模;
子带频率f(m)的划分公式如下:
其中,Fmin是Bark域变换的下限频率,Fmax是Bark域变换的上限频率,M=32。
在一种可能的实现方式中,所述修正模块用于:
基于预设的自编码网络对所述原始特征进行修正处理,获得修正后的原始特征;
其中,所述自编码网络为以预先获取的预设原始特征为输入、以预设修正原始特征为输出进行自编码网络训练后生成的网络;所述预设修正原始特征为将所述预设原始特征按照预设编码方式进行编解码处理后获得的修正原始特征,所述预设编码方式为G729或G711编码方式。
在一种可能的实现方式中,所述音频指纹生成模块用于:
根据所述鲁棒性特征进行语音指纹建模,确定与所述待识别音频数据对应的待识别音频指纹的每个分量F(i,j):
其中,E'(i,j)表示第i个鲁棒性特征E′对应的第j个分量,j=1,2,3…,32。
在一种可能的实现方式中,所述指纹匹配识别模块用于:
将所述待识别音频指纹通过Hash映射方式映射到音频指纹库中相似标准音频指纹的位置,并分别计算所述待识别音频指纹与所有相似标准音频指纹的误码率,当最小误码率不大于预设误码率时,将与所述最小误码率相对应的相似标准音频指纹作为与所述待识别音频指纹相匹配的标准音频指纹。
在一种可能的实现方式中,该系统还包括:指纹库生成模块;
其中,所述音频采集模块还用于获取标准音频数据,并对所述标准音频数据进行预处理,去除特殊信号,所述特殊信号包括振铃音、彩铃音、忙音、静音中的一项或多项;
所述原始特征提取模块还用于对预处理后的所述标准音频数据依次进行频域变换和Bark域变换,将预设频率区间划分为多个子带,并将所有的子带能量作为所述标准音频数据的原始特征;
所述修正模块还用于对所述原始特征进行修正处理,将修正后的原始特征作为所述标准音频数据的鲁棒性特征;
所述音频指纹生成模块还用于根据所述标准音频数据的鲁棒性特征进行语音指纹建模,生成与所述标准音频数据对应的标准音频指纹;
所述指纹库生成模块用于将所述标准音频指纹进行标记归档,并存入所述音频指纹库中。
本发明实施例提供的一种高鲁棒性音频指纹识别方法及系统,对待识别音频数据依次进行频域变换和Bark域变换获得原始特征,之后对该原始特征进行修正从而可以获得具有高鲁棒性的鲁棒性特征,利用该鲁棒性特征生成待识别音频指纹并进行匹配,可以提高识别过程的鲁棒性,识别结果更加准确。同时,在智能外呼应用中,可以提前进行超前呼叫或预测式外呼,根据呼叫中的被叫提示音精确识别被叫主机的状态,进而在被叫主机是“无法接通”、"已关机"、"电话正忙"等情况时拨号器主动挂断电话,并自动进行下一批呼叫,从而大大加速了呼叫频率,也提高了坐席利用率。本发明基于深度自编码网络产生鲁棒性更好的特征,并基于该鲁棒性特征进一步生成指纹,进而建立基于深度学习的音频指纹识别方法或系统。通过大量的测试表明,该方法或系统可以精确的识别30种提示音,一颗CPU可以支持100路的识别需求,可以广泛的应用于超高并发的呼叫中心。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中高鲁棒性音频指纹识别方法的流程图;
图2为本发明实施例中基于深度学习的自编码网络的结构示意图;
图3为本发明实施例中高鲁棒性音频指纹识别系统的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供的一种高鲁棒性音频指纹识别方法,参见图1所示,包括步骤101-105:
步骤101:获取待识别音频数据,并对待识别音频数据进行预处理,去除特殊信号,特殊信号包括振铃音、彩铃音、忙音、静音中的一项或多项。
本发明实施例中,该待识别音频数据具体可以为与主叫提示音或被叫提示音相关的音频数据;以被叫提示音为例,被叫提示音的种类非常多,一般至少有30多种,通过去除特殊信号可以更精确的进行识别。同时,本发明实施例中所述的预处理过程除了需要去除特殊信号之外,还可以包含滤波、降噪、重采样的处理;例如,该预处理具体可以包括依次滤波、降噪、重采样、去除特殊信号等处理,以更精确的进行识别。
步骤102:对预处理后的待识别音频数据依次进行频域变换和Bark域变换,将预设频率区间划分为多个子带,并将所有的子带能量作为待识别音频数据的原始特征。
本发明实施例中,上述步骤101中去除特殊信号等预处理是在时域中进行,从而避免了复杂的频域变换等运算,可以提高预处理效率。同时,在预处理结束后变换到频域处理,可以明显加速识别效率;通过Bark域变换方便获得高鲁棒性特征。
具体的,将预设频率区间经Bark域变换后可以对应对个子带,每个子带对应一个频率区间,通过计算每个子带的子带能量来确定待识别音频数据的多个原始特征。其中,预设频率区间可以是根据经验值确定的经验区间,其与具体应用场景有关。例如,该预设频率区间可以为[100Hz,2500Hz],本实施例对此不做限定。
步骤103:对原始特征进行修正处理,将修正后的原始特征作为待识别音频数据的鲁棒性特征。
本发明实施例中,可以利用预先训练好的自编码网络重建(即修正)待识别音频数据的原始特征,将其作为待识别音频数据的鲁棒性特征。具体的,该步骤103可以包括:基于预设的自编码网络对原始特征进行修正处理,获得修正后的原始特征。
本发明实施例中,自编码网络为以预先获取的预设原始特征为输入、以预设修正原始特征为输出进行自编码网络训练后生成的网络;预设修正原始特征为将预设原始特征按照预设编码方式进行编解码处理后获得的修正原始特征,预设编码方式为G729或G711编码方式。具体的,该预设原始特征为预先获取的特征,例如可以是丰富音频指纹库时采集的标准音频数据的多维原始特征(如33维原始特征)等;相应的预设修正原始特征为经由G729等编解码后获得的多维原始特征(如修正后的33维原始特征)。本发明实施例提供的一种基于深度学习的自编码网络的结构示意图参见图2所示。
本发明实施例中,自编码网络的训练是单独进行的,训练的过程就是将训练集内的音频数据对应原始33维特征(即步骤102中的原始特征)作为网络输入,将这些音频数据的G729编解码后的33维原始特征作为网络输出,不断进行训练,让网络可以学习到G729模式下鲁棒性特征,这个鲁棒性特征类似于G729下的特征,同时又具有很强的鲁棒性。经过大量的训练,可以让网络学习到由输入特征和输出特征之间的映射关系。对于任意输入33维特征,经过自编码网络后都可以得到类似基于G729格式的输出特征。
步骤104:根据待识别音频数据的鲁棒性特征进行语音指纹建模,生成与待识别音频数据对应的待识别音频指纹。
步骤105:加载预设的音频指纹库,将待识别音频指纹与音频指纹库中的标准音频指纹进行匹配,识别待识别音频指纹。
本发明实施例中预先生成含有标准音频指纹的音频指纹库,在需要识别音频指纹时可以采用高效的Hash映射方式加载该预设的音频指纹库,采用Hash映射方式可以高效地组织指纹数据,在指纹查询时可以大大提升查询效率;同时,将待识别音频指纹与音频指纹库中的标准音频指纹进行匹配,在匹配成功后即可识别该待识别音频指纹。
具体的,上述将待识别音频指纹与音频指纹库中的标准音频指纹进行匹配,识别待识别音频指纹,包括:将待识别音频指纹通过Hash映射方式映射到音频指纹库中相似标准音频指纹的位置,并分别计算待识别音频指纹与所有相似标准音频指纹的误码率,当最小误码率ebrmin不大于预设误码率ebr时,将与最小误码率ebrmin相对应的相似标准音频指纹作为与待识别音频指纹相匹配的标准音频指纹。若最小误码率ebrmin大于预设误码率ebr,则认为匹配失败。
本发明实施例提供的一种高鲁棒性音频指纹识别方法,对待识别音频数据依次进行频域变换和Bark域变换获得原始特征,之后对该原始特征进行修正从而可以获得具有高鲁棒性的鲁棒性特征,利用该鲁棒性特征生成待识别音频指纹并进行匹配,可以提高识别过程的鲁棒性,识别结果更加准确。同时,在智能外呼应用中,可以提前进行超前呼叫或预测式外呼,根据呼叫中的被叫提示音精确识别被叫主机的状态,进而在被叫主机是“无法接通”、"已关机"、"电话正忙"等情况时拨号器主动挂断电话,并自动进行下一批呼叫,从而大大加速了呼叫频率,也提高了坐席利用率。
本发明另一实施例提供一种高鲁棒性音频指纹识别方法,该方法包括上述实施例中的步骤101-105,其实现原理以及技术效果参见图1对应的实施例。同时,本发明实施例中,步骤102“对预处理后的待识别音频数据依次进行频域变换和Bark域变换,将预设频率区间划分为多个子带,并将所有的子带能量作为待识别音频数据的原始特征”具体包括:
对预处理后的待识别音频数据依次进行分帧、加窗、快速傅里叶变换(FFT,FastFourier Transformation)处理,之后通过Bark域变换变换到由预设频率区间划分出的33个子带,并计算33个子带的子带能量,进而形成33维的原始特征向量;
其中,第m个子带的子带能量E(m)为:
其中,f(m)是预设频率区间经Bark域变换后对应的第m个子带频率,m=1,2,…,33;X(k)表示在[f(m),f(m+1)]之间的FFT值,X(k)是一个复数,|X(k)|表示X(k)的模;
子带频率f(m)的划分公式如下:
其中,Fmin是Bark域变换的下限频率,Fmax是Bark域变换的上限频率,M=32。Fmin和Fmax即为预设频率区间的上下限,例如Fmin可以取值100Hz,Fmax可以取值2500Hz。
在上述实施例的基础上,步骤104“根据鲁棒性特征进行语音指纹建模,生成与待识别音频数据对应的待识别音频指纹”具体包括:
根据鲁棒性特征进行语音指纹建模,确定与待识别音频数据对应的待识别音频指纹的每个分量F(i,j):
其中,E'(i,j)表示第i个鲁棒性特征E′对应的第j个分量,由于鲁棒性特征E′有33个分量,故j=1,2,3…,32。
本发明实施例中,i表示一段音频信号或者一个帧,理论上来说i取值可以无限大;当i值确定时,由32个F(i,j)生成的待识别音频指纹F是一个32bit的整数。
在上述实施例的基础上,步骤105中“将待识别音频指纹与音频指纹库中的标准音频指纹进行匹配,识别待识别音频指纹”具体包括:
将待识别音频指纹通过Hash映射方式映射到音频指纹库中相似标准音频指纹的位置,并分别计算待识别音频指纹与所有相似标准音频指纹的误码率,当最小误码率不大于预设误码率时,将与最小误码率相对应的相似标准音频指纹作为与待识别音频指纹相匹配的标准音频指纹。
本发明实施例中采用高效的Hash映射的方式,可以高效的组织指纹数据,在指纹查询时,可以大大提升查询效率。
在上述实施例的基础上,该方法还包括生成标准音频指纹的过程,该过程与生成待识别音频指纹的过程基本一致,具体地,生成标准音频指纹的过程包括步骤A1-A5:
步骤A1:获取标准音频数据,并对标准音频数据进行预处理,去除特殊信号,特殊信号包括振铃音、彩铃音、忙音、静音中的一项或多项。
步骤A2:对预处理后的标准音频数据依次进行频域变换和Bark域变换,将预设频率区间划分为多个子带,并将所有的子带能量作为标准音频数据的原始特征。
步骤A3:对原始特征进行修正处理,将修正后的原始特征作为标准音频数据的鲁棒性特征。
步骤A4:根据鲁棒性特征进行语音指纹建模,生成与标准音频数据对应的标准音频指纹。
步骤A5:将标准音频指纹进行标记归档,并存入音频指纹库中。
本发明实施例中,生成标准音频指纹的过程与生成待识别音频指纹的过程基本一致,例如,在步骤A2中可以采用上述实施例中相同的公式计算子带能量E(m),在步骤A4中以相同方式计算每个分量F(i,j)。
由于电话呼叫中心的超高并发需求,基于传统的语音识别技术来识别电话提示音的方案无法满足系统的要求,另外,由于电话通信中的低码率编码特点,所以传统的指纹识别技术识别率也不高,很难达到应用要求。本发明实施例提供的一种高鲁棒性音频指纹识别方法,对待识别音频数据依次进行频域变换和Bark域变换获得原始特征,之后对该原始特征进行修正从而可以获得具有高鲁棒性的鲁棒性特征,利用该鲁棒性特征生成待识别音频指纹并进行匹配,可以提高识别过程的鲁棒性,识别结果更加准确。同时,在智能外呼应用中,可以提前进行超前呼叫或预测式外呼,根据呼叫中的被叫提示音精确识别被叫主机的状态,进而在被叫主机是“无法接通”、"已关机"、"电话正忙"等情况时拨号器主动挂断电话,并自动进行下一批呼叫,从而大大加速了呼叫频率,也提高了坐席利用率。本发明基于深度自编码网络产生鲁棒性更好的特征,并基于该鲁棒性特征进一步生成指纹,进而建立基于深度学习的音频指纹识别方法。通过大量的测试表明,该方法可以精确的识别30种提示音,一颗CPU可以支持100路的识别需求,可以广泛的应用于超高并发的呼叫中心。
以上详细介绍了高鲁棒性音频指纹识别方法流程,该方法也可以通过相应的系统实现,下面详细介绍该系统的结构和功能。
本发明实施例提供的一种高鲁棒性音频指纹识别系统,参见图3所示,包括:
音频采集模块31,用于获取待识别音频数据,并对所述待识别音频数据进行预处理,去除特殊信号,所述特殊信号包括振铃音、彩铃音、忙音、静音中的一项或多项;
原始特征提取模块32,用于对预处理后的所述待识别音频数据依次进行频域变换和Bark域变换,将预设频率区间划分为多个子带,并将所有的子带能量作为所述待识别音频数据的原始特征;
修正模块33,用于对所述原始特征进行修正处理,将修正后的原始特征作为所述待识别音频数据的鲁棒性特征;
音频指纹生成模块34,用于根据所述待识别音频数据的鲁棒性特征进行语音指纹建模,生成与所述待识别音频数据对应的待识别音频指纹;
指纹匹配识别模块35,用于加载预设的音频指纹库,将所述待识别音频指纹与所述音频指纹库中的标准音频指纹进行匹配,识别所述待识别音频指纹。
在一种可能的实现方式中,所述原始特征提取模块32用于:
对预处理后的所述待识别音频数据依次进行分帧、加窗、快速傅里叶变换处理,之后通过Bark域变换变换到由预设频率区间划分出的33个子带,并计算33个子带的子带能量,进而形成33维的原始特征向量;
其中,第m个子带的子带能量E(m)为:
其中,f(m)是预设频率区间经Bark域变换后对应的第m个子带频率,m=1,2,…,33;X(k)表示在[f(m),f(m+1)]之间的FFT值,|X(k)|表示X(k)的模;
子带频率f(m)的划分公式如下:
其中,Fmin是Bark域变换的下限频率,Fmax是Bark域变换的上限频率,M=32。
在一种可能的实现方式中,所述修正模块33用于:
基于预设的自编码网络对所述原始特征进行修正处理,获得修正后的原始特征;
其中,所述自编码网络为以预先获取的预设原始特征为输入、以预设修正原始特征为输出进行自编码网络训练后生成的网络;所述预设修正原始特征为将所述预设原始特征按照预设编码方式进行编解码处理后获得的修正原始特征,所述预设编码方式为G729或G711编码方式。
在一种可能的实现方式中,所述音频指纹生成模块34用于:
根据所述鲁棒性特征进行语音指纹建模,确定与所述待识别音频数据对应的待识别音频指纹的每个分量F(i,j):
其中,E'(i,j)表示第i个鲁棒性特征E′对应的第j个分量,j=1,2,3…,32。
在一种可能的实现方式中,所述指纹匹配识别模块35用于:
将所述待识别音频指纹通过Hash映射方式映射到音频指纹库中相似标准音频指纹的位置,并分别计算所述待识别音频指纹与所有相似标准音频指纹的误码率,当最小误码率不大于预设误码率时,将与所述最小误码率相对应的相似标准音频指纹作为与所述待识别音频指纹相匹配的标准音频指纹。
在一种可能的实现方式中,该系统还包括:指纹库生成模块;
其中,所述音频采集模块31还用于获取标准音频数据,并对所述标准音频数据进行预处理,去除特殊信号,所述特殊信号包括振铃音、彩铃音、忙音、静音中的一项或多项;
所述原始特征提取模块32还用于对预处理后的所述标准音频数据依次进行频域变换和Bark域变换,将预设频率区间划分为多个子带,并将所有的子带能量作为所述标准音频数据的原始特征;
所述修正模块33还用于对所述原始特征进行修正处理,将修正后的原始特征作为所述标准音频数据的鲁棒性特征;
所述音频指纹生成模块34还用于根据所述标准音频数据的鲁棒性特征进行语音指纹建模,生成与所述标准音频数据对应的标准音频指纹;
所述指纹库生成模块用于将所述标准音频指纹进行标记归档,并存入所述音频指纹库中。
本发明实施例提供的一种高鲁棒性音频指纹识别系统,对待识别音频数据依次进行频域变换和Bark域变换获得原始特征,之后对该原始特征进行修正从而可以获得具有高鲁棒性的鲁棒性特征,利用该鲁棒性特征生成待识别音频指纹并进行匹配,可以提高识别过程的鲁棒性,识别结果更加准确。同时,在智能外呼应用中,可以提前进行超前呼叫或预测式外呼,根据呼叫中的被叫提示音精确识别被叫主机的状态,进而在被叫主机是“无法接通”、"已关机"、"电话正忙"等情况时拨号器主动挂断电话,并自动进行下一批呼叫,从而大大加速了呼叫频率,也提高了坐席利用率。本发明基于深度自编码网络产生鲁棒性更好的特征,并基于该鲁棒性特征进一步生成指纹,进而建立基于深度学习的音频指纹识别系统。通过大量的测试表明,该系统可以精确的识别30种提示音,一颗CPU可以支持100路的识别需求,可以广泛的应用于超高并发的呼叫中心。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种高鲁棒性音频指纹识别方法,其特征在于,包括:
获取待识别音频数据,并对所述待识别音频数据进行预处理,去除特殊信号,所述特殊信号包括振铃音、彩铃音、忙音、静音中的一项或多项;
对预处理后的所述待识别音频数据依次进行频域变换和Bark域变换,将预设频率区间划分为多个子带,并将所有的子带能量作为所述待识别音频数据的原始特征;
对所述原始特征进行修正处理,将修正后的原始特征作为所述待识别音频数据的鲁棒性特征;
根据所述待识别音频数据的鲁棒性特征进行语音指纹建模,生成与所述待识别音频数据对应的待识别音频指纹;
加载预设的音频指纹库,将所述待识别音频指纹与所述音频指纹库中的标准音频指纹进行匹配,识别所述待识别音频指纹。
2.根据权利要求1所述的方法,其特征在于,所述对预处理后的所述待识别音频数据依次进行频域变换和Bark域变换,将预设频率区间划分为多个子带,并将所有的子带能量作为所述待识别音频数据的原始特征,包括:
对预处理后的所述待识别音频数据依次进行分帧、加窗、快速傅里叶变换处理,之后通过Bark域变换变换到由预设频率区间划分出的33个子带,并计算33个子带的子带能量,进而形成33维的原始特征向量;
其中,第m个子带的子带能量E(m)为:
其中,f(m)是预设频率区间经Bark域变换后对应的第m个子带频率,m=1,2,…,33;X(k)表示在[f(m),f(m+1)]之间的FFT值,|X(k)|表示X(k)的模;
子带频率f(m)的划分公式如下:
其中,Fmin是Bark域变换的下限频率,Fmax是Bark域变换的上限频率,M=32。
3.根据权利要求2所述的方法,其特征在于,所述对所述原始特征进行修正处理包括:
基于预设的自编码网络对所述原始特征进行修正处理,获得修正后的原始特征;
其中,所述自编码网络为以预先获取的预设原始特征为输入、以预设修正原始特征为输出进行自编码网络训练后生成的网络;所述预设修正原始特征为将所述预设原始特征按照预设编码方式进行编解码处理后获得的修正原始特征,所述预设编码方式为G729或G711编码方式。
4.根据权利要求2所述的方法,其特征在于,所述根据所述鲁棒性特征进行语音指纹建模,生成与所述待识别音频数据对应的待识别音频指纹,包括:
根据所述鲁棒性特征进行语音指纹建模,确定与所述待识别音频数据对应的待识别音频指纹的每个分量F(i,j):
其中,E'(i,j)表示第i个鲁棒性特征E′对应的第j个分量,j=1,2,3…,32。
5.根据权利要求1所述的方法,其特征在于,所述将所述待识别音频指纹与所述音频指纹库中的标准音频指纹进行匹配,识别所述待识别音频指纹,包括:
将所述待识别音频指纹通过Hash映射方式映射到音频指纹库中相似标准音频指纹的位置,并分别计算所述待识别音频指纹与所有相似标准音频指纹的误码率,当最小误码率不大于预设误码率时,将与所述最小误码率相对应的相似标准音频指纹作为与所述待识别音频指纹相匹配的标准音频指纹。
6.根据权利要求1-5任一所述的方法,其特征在于,还包括:
获取标准音频数据,并对所述标准音频数据进行预处理,去除特殊信号,所述特殊信号包括振铃音、彩铃音、忙音、静音中的一项或多项;
对预处理后的所述标准音频数据依次进行频域变换和Bark域变换,将预设频率区间划分为多个子带,并将所有的子带能量作为所述标准音频数据的原始特征;
对所述原始特征进行修正处理,将修正后的原始特征作为所述标准音频数据的鲁棒性特征;
根据所述标准音频数据的鲁棒性特征进行语音指纹建模,生成与所述标准音频数据对应的标准音频指纹;
将所述标准音频指纹进行标记归档,并存入所述音频指纹库中。
7.一种高鲁棒性音频指纹识别系统,其特征在于,包括:
音频采集模块,用于获取待识别音频数据,并对所述待识别音频数据进行预处理,去除特殊信号,所述特殊信号包括振铃音、彩铃音、忙音、静音中的一项或多项;
原始特征提取模块,用于对预处理后的所述待识别音频数据依次进行频域变换和Bark域变换,将预设频率区间划分为多个子带,并将所有的子带能量作为所述待识别音频数据的原始特征;
修正模块,用于对所述原始特征进行修正处理,将修正后的原始特征作为所述待识别音频数据的鲁棒性特征;
音频指纹生成模块,用于根据所述待识别音频数据的鲁棒性特征进行语音指纹建模,生成与所述待识别音频数据对应的待识别音频指纹;
指纹匹配识别模块,用于加载预设的音频指纹库,将所述待识别音频指纹与所述音频指纹库中的标准音频指纹进行匹配,识别所述待识别音频指纹。
8.根据权利要求7所述的系统,其特征在于,所述原始特征提取模块用于:
对预处理后的所述待识别音频数据依次进行分帧、加窗、快速傅里叶变换处理,之后通过Bark域变换变换到由预设频率区间划分出的33个子带,并计算33个子带的子带能量,进而形成33维的原始特征向量;
其中,第m个子带的子带能量E(m)为:
其中,f(m)是预设频率区间经Bark域变换后对应的第m个子带频率,m=1,2,…,33;X(k)表示在[f(m),f(m+1)]之间的FFT值,|X(k)|表示X(k)的模;
子带频率f(m)的划分公式如下:
其中,Fmin是Bark域变换的下限频率,Fmax是Bark域变换的上限频率,M=32。
9.根据权利要求8所述的系统,其特征在于,所述音频指纹生成模块用于:
根据所述鲁棒性特征进行语音指纹建模,确定与所述待识别音频数据对应的待识别音频指纹的每个分量F(i,j):
其中,E'(i,j)表示第i个鲁棒性特征E′对应的第j个分量,j=1,2,3…,32。
10.根据权利要求7-9任一所述的系统,其特征在于,还包括:指纹库生成模块;
其中,所述音频采集模块还用于获取标准音频数据,并对所述标准音频数据进行预处理,去除特殊信号,所述特殊信号包括振铃音、彩铃音、忙音、静音中的一项或多项;
所述原始特征提取模块还用于对预处理后的所述标准音频数据依次进行频域变换和Bark域变换,将预设频率区间划分为多个子带,并将所有的子带能量作为所述标准音频数据的原始特征;
所述修正模块还用于对所述原始特征进行修正处理,将修正后的原始特征作为所述标准音频数据的鲁棒性特征;
所述音频指纹生成模块还用于根据所述标准音频数据的鲁棒性特征进行语音指纹建模,生成与所述标准音频数据对应的标准音频指纹;
所述指纹库生成模块用于将所述标准音频指纹进行标记归档,并存入所述音频指纹库中。
CN201810146446.3A 2018-02-12 2018-02-12 高鲁棒性音频指纹识别方法及系统 Active CN108399913B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810146446.3A CN108399913B (zh) 2018-02-12 2018-02-12 高鲁棒性音频指纹识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810146446.3A CN108399913B (zh) 2018-02-12 2018-02-12 高鲁棒性音频指纹识别方法及系统

Publications (2)

Publication Number Publication Date
CN108399913A true CN108399913A (zh) 2018-08-14
CN108399913B CN108399913B (zh) 2021-10-15

Family

ID=63096004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810146446.3A Active CN108399913B (zh) 2018-02-12 2018-02-12 高鲁棒性音频指纹识别方法及系统

Country Status (1)

Country Link
CN (1) CN108399913B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658939A (zh) * 2019-01-26 2019-04-19 北京灵伴即时智能科技有限公司 一种电话录音未接通原因识别方法
CN111028860A (zh) * 2019-11-22 2020-04-17 深圳市康冠智能科技有限公司 音频数据处理方法、装置、计算机设备以及存储介质
CN111629108A (zh) * 2020-04-27 2020-09-04 北京青牛技术股份有限公司 呼叫结果的实时识别方法
CN113160850A (zh) * 2021-04-27 2021-07-23 广州国音智能科技有限公司 一种基于重参数化的解耦方式的音频特征提取方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997033273A1 (en) * 1996-03-08 1997-09-12 Motorola Inc. Method and recognizer for recognizing a sampled sound signal in noise
CN101594527A (zh) * 2009-06-30 2009-12-02 成都艾索语音技术有限公司 从音频视频流中高精度检测模板的两阶段方法
CN102404462A (zh) * 2010-09-08 2012-04-04 北京商路通信息技术有限公司 一种用于电话外拨系统的呼叫进程分析方法和设备
CN103295585A (zh) * 2012-02-24 2013-09-11 北京英立讯科技有限公司 识别电话自动外呼是否真人应答的处理系统及方法
CN103440313A (zh) * 2013-08-27 2013-12-11 复旦大学 基于音频指纹特征的音乐检索系统
CN104050259A (zh) * 2014-06-16 2014-09-17 上海大学 一种基于som算法的音频指纹提取方法
CN104715033A (zh) * 2015-03-16 2015-06-17 太原理工大学 一种阶梯式音频检索方法
US9179200B2 (en) * 2007-03-14 2015-11-03 Digimarc Corporation Method and system for determining content treatment
CN105103229A (zh) * 2013-01-29 2015-11-25 弗劳恩霍夫应用研究促进协会 用于产生频率增强音频信号的译码器、译码方法、用于产生编码信号的编码器以及使用紧密选择边信息的编码方法
CN105979108A (zh) * 2016-04-28 2016-09-28 朱宇光 一种用户号码状态识别方法及系统
CN106251860A (zh) * 2016-08-09 2016-12-21 张爱英 面向安防领域的无监督的新颖性音频事件检测方法及系统
US20170193315A1 (en) * 2015-12-30 2017-07-06 Samsung Electronics Co., Ltd. System and method for providing an on-chip context aware contact list

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997033273A1 (en) * 1996-03-08 1997-09-12 Motorola Inc. Method and recognizer for recognizing a sampled sound signal in noise
US9179200B2 (en) * 2007-03-14 2015-11-03 Digimarc Corporation Method and system for determining content treatment
CN101594527A (zh) * 2009-06-30 2009-12-02 成都艾索语音技术有限公司 从音频视频流中高精度检测模板的两阶段方法
CN102404462A (zh) * 2010-09-08 2012-04-04 北京商路通信息技术有限公司 一种用于电话外拨系统的呼叫进程分析方法和设备
CN103295585A (zh) * 2012-02-24 2013-09-11 北京英立讯科技有限公司 识别电话自动外呼是否真人应答的处理系统及方法
CN105103229A (zh) * 2013-01-29 2015-11-25 弗劳恩霍夫应用研究促进协会 用于产生频率增强音频信号的译码器、译码方法、用于产生编码信号的编码器以及使用紧密选择边信息的编码方法
CN103440313A (zh) * 2013-08-27 2013-12-11 复旦大学 基于音频指纹特征的音乐检索系统
CN104050259A (zh) * 2014-06-16 2014-09-17 上海大学 一种基于som算法的音频指纹提取方法
CN104715033A (zh) * 2015-03-16 2015-06-17 太原理工大学 一种阶梯式音频检索方法
US20170193315A1 (en) * 2015-12-30 2017-07-06 Samsung Electronics Co., Ltd. System and method for providing an on-chip context aware contact list
CN105979108A (zh) * 2016-04-28 2016-09-28 朱宇光 一种用户号码状态识别方法及系统
CN106251860A (zh) * 2016-08-09 2016-12-21 张爱英 面向安防领域的无监督的新颖性音频事件检测方法及系统

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
HAITSMA J, KALKER T.: "A highly robust audio fingerprinting system", 《ISMIR. 2002》 *
HINTON G E, SALAKHUTDINOV R R: "Reducing the dimensionality of data with neural networks", 《SCIENCE》 *
HÖCHST J, BAUMGÄRTNER L, HOLLICK M, 等: "Unsupervised traffic flow classification using a neural autoencoder", 《2017 IEEE 42ND CONFERENCE ON LOCAL COMPUTER NETWORKS (LCN)》 *
Y. LI 等: "Mobile Phone Clustering From Speech Recordings Using Deep Representation and Spectral Clustering", 《IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY》 *
何启明: "音频样例检索的索引方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
焦仁瑜: "基于听觉机理的音频指纹算法研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
黄丽霞,等: "基于深度自编码网络语音识别噪声鲁棒性研究", 《计算机工程与应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658939A (zh) * 2019-01-26 2019-04-19 北京灵伴即时智能科技有限公司 一种电话录音未接通原因识别方法
CN109658939B (zh) * 2019-01-26 2020-12-01 北京灵伴即时智能科技有限公司 一种电话录音未接通原因识别方法
CN111028860A (zh) * 2019-11-22 2020-04-17 深圳市康冠智能科技有限公司 音频数据处理方法、装置、计算机设备以及存储介质
CN111629108A (zh) * 2020-04-27 2020-09-04 北京青牛技术股份有限公司 呼叫结果的实时识别方法
CN113160850A (zh) * 2021-04-27 2021-07-23 广州国音智能科技有限公司 一种基于重参数化的解耦方式的音频特征提取方法及装置

Also Published As

Publication number Publication date
CN108399913B (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN108399913A (zh) 高鲁棒性音频指纹识别方法及系统
JP6535706B2 (ja) データセットの3値ビットマップを作成するための方法
CN1119794C (zh) 分布式话音识别系统
CN108140399A (zh) 用于超宽带音乐的自适应噪声抑制
CN102576542A (zh) 从窄频带信号确定上频带信号
CN1531722A (zh) 使用内置式扬声器的语音识别系统
CN105321525A (zh) 一种降低voip通信资源开销的系统和方法
WO2016101571A1 (zh) 一种语音翻译方法、通讯方法及相关装置
CN1125437C (zh) 语音识别方法
CN115602165B (zh) 基于金融系统的数字员工智能系统
WO2023116660A2 (zh) 一种模型训练以及音色转换方法、装置、设备及介质
CN107949881A (zh) 解码器之后的音频信号分类和后处理
CN109036470A (zh) 语音区分方法、装置、计算机设备及存储介质
CN114338623A (zh) 音频的处理方法、装置、设备、介质及计算机程序产品
CN108806725A (zh) 语音区分方法、装置、计算机设备及存储介质
CN110120228A (zh) 基于声谱图及深度残差网络的音频通用隐写分析方法及系统
CN114333893A (zh) 一种语音处理方法、装置、电子设备和可读介质
CN116665675B (zh) 语音转写方法、系统、电子设备和存储介质
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
CN2790077Y (zh) 基于蓝牙技术的监控系统
CN108010533A (zh) 音频数据码率的自动识别方法和装置
CN113438368B (zh) 一种实现回铃音检测的方法、装置及计算机可读存储介质
CN113012684B (zh) 一种基于语音分割的合成语音检测方法
CN112927680B (zh) 一种基于电话信道的声纹有效语音的识别方法及装置
CN115116458A (zh) 语音数据转换方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant