CN105788603B - 一种基于经验模态分解的音频识别方法及系统 - Google Patents
一种基于经验模态分解的音频识别方法及系统 Download PDFInfo
- Publication number
- CN105788603B CN105788603B CN201610103443.2A CN201610103443A CN105788603B CN 105788603 B CN105788603 B CN 105788603B CN 201610103443 A CN201610103443 A CN 201610103443A CN 105788603 B CN105788603 B CN 105788603B
- Authority
- CN
- China
- Prior art keywords
- characteristic value
- audio signal
- frequency band
- time migration
- mode decomposition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000005236 sound signal Effects 0.000 claims abstract description 68
- 238000001228 spectrum Methods 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000001629 suppression Effects 0.000 claims abstract description 7
- 230000005012 migration Effects 0.000 claims description 64
- 238000013508 migration Methods 0.000 claims description 64
- 238000005070 sampling Methods 0.000 claims description 41
- 238000009826 distribution Methods 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 9
- 230000000737 periodic effect Effects 0.000 claims description 8
- 238000012512 characterization method Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 239000004568 cement Substances 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
本发明公开一种基于经验模态分解的音频识别方法及系统。其中,方法包括步骤:A、输入原始音频信号,对所述原始音频信号进行采样,然后依次进行去噪预处理、加汉明窗以及傅氏变换处理得到频谱数据,再依次连接每帧的频谱数据,获得声谱图;B、获得所述声谱图各频率段的能量最大值所在点,并依次连接各频率段的能量最大值所在点生成时间‑频率曲线;C、将所述生成的时间‑频率曲线进行经验模态分解,获得多个本征模函数;D、通过获得的多个本征模函数结合相应的频率段以及时间帧,生成用于表征原始音频信号的多个特征值,并输出。本发明将音频特征的变化趋势信息充分融合到特征值的生成,使生成的特征值更完整的表征音频信号。
Description
技术领域
本发明涉及音频识别领域,尤其涉及一种基于经验模态分解的音频识别方法及系统。
背景技术
音频识别是指通过对音频信号进行频谱分析,获得音频信号的频谱,提取音频信号的特征值,构建模型或星座图,进行目标匹配、识别。主要技术包括短时傅氏变换、声谱图特征提取、特征模板生成等。
对一段原始音频或语音的具体处理大多经过如下步骤:预加重(Pre-emphasis)去噪、分帧、加窗处理、快速傅里叶转换(FFT)、滤波组处理(Mel-Filter Bank)、离散余弦转换DCT(计算倒谱参数)、对数能量、差量倒谱参数(向量形式、逆傅氏变换IFFT)、MFCC(梅尔频率倒谱系数---一帧音频的特征值)等,最终获得一段音频信号的一系列特征值,此系列特征值可充分、完全表征此段音频信号。
目前,主流音频信号的匹配识别算法主要是对声谱图(描述了特定频率的强度随着时间的变化)进行处理,包括比较时间、频率变化和不同或者寻找波峰。其中的一个主要技术实现方案为将频率转换为音符进行处理,每个音符对应一个音域,形成一个N维的特征向量,再经过过滤和标准化处理,获得特征声谱图,通过滑动子图的方法获得音频声纹,并针对声纹计算位错误率完成识别匹配。另一个主要技术方案为获取一段声谱图的一系列极大值点,获得此极大值点的所处的时间点和频率,基于多个极大值点构建星座图,依据星座图内两点的时间偏移和各自的频率强度生成此时间点上的哈希值,最终通过统计相同时间偏移的哈希值的个数完成目标的识别。
特征模型和星座图的构建相对复杂,不能有效的、完整的表征音频信号特征的变化,无法将特征的变化过程和趋势融入到特征值的生成,即形成的特征模板不能完整、充分表征音频信号。
因此,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供一种基于经验模态分解的音频识别方法及系统,旨在解决现有的识别方法无法完整、充分表征音频信号的问题。
本发明的技术方案如下:
一种基于经验模态分解的音频识别方法,其中,包括步骤:
A、输入原始音频信号,对所述原始音频信号进行采样,然后依次进行去噪预处理、加汉明窗以及傅氏变换处理得到频谱数据,再依次连接每帧的频谱数据,获得声谱图;
B、获得所述声谱图各频率段的能量最大值所在点,并依次连接各频率段的能量最大值所在点生成时间-频率曲线;
C、将所述生成的时间-频率曲线进行经验模态分解,获得多个本征模函数;
D、通过获得的多个本征模函数结合相应的频率段以及时间帧,生成用于表征原始音频信号的多个特征值,并输出。
优选的,所述步骤D具体包括:
D1、对每一个本征模函数等间隔取样,获得一组相应的取样序列;
D2、在所述取样序列后追加所处的频率段序号;
D3、对追加后的取样序列进行处理获得一个哈希值;
D4、通过N组本征模函数获得N个哈希值,共同组成一组特征值。
优选的,所述步骤D之后还包括:
E、根据所述特征值获取时间偏移差的分布和数量,以表征原始音频信号。
优选的,所述步骤E具体包括:
E1、通过所述特征值在一数据库中进行搜索,获得与所述特征值相匹配的若干其他特征值所处的时间偏移构成的时间偏移组;
E2、将所述时间偏移组中各时间偏移与所述特征值所处的时间偏移分别求得时间偏移差,再通过这些时间偏移差的分布和数量,确定需识别的目标音频。
优选的,所述步骤D3中,对追加后的取样序列通过sha1哈希算法或Murmur哈希算法处理获得一个哈希值。
一种基于经验模态分解的音频识别系统,其中,包括:
声谱图获取模块,用于输入原始音频信号,对所述原始音频信号进行采样,然后依次进行去噪预处理、加汉明窗以及傅氏变换处理得到频谱数据,再依次连接每帧的频谱数据,获得声谱图;
时间-频率曲线生成模块,用于获得所述声谱图各频率段的能量最大值所在点,并依次连接各频率段的能量最大值所在点生成时间-频率曲线;
经验模态分解模块,用于将所述生成的时间-频率曲线进行经验模态分解,获得多个本征模函数;
特征值输出模块,用于通过获得的多个本征模函数结合相应的频率段以及时间帧,生成用于表征原始音频信号的多个特征值,并输出。
优选的,所述特征值输出模块具体包括:
取样单元,用于对每一个本征模函数等间隔取样,获得一组相应的取样序列;
追加单元,用于在所述取样序列后追加所处的频率段序号;
哈希处理单元,用于对追加后的取样序列进行处理获得一个哈希值;
向量组成单元,用于通过N组本征模函数获得N个哈希值,共同组成一组特征值。
优选的,所述音频识别系统还包括:
分布数量获取模块,用于根据所述特征值获取时间偏移差的分布和数量,以表征原始音频信号。
优选的,所述分布数量获取模块具体包括:
时间偏移组获取单元,用于通过所述特征值在数据库中进行搜索,获得与所述特征值相匹配的若干其他特征值所处的时间偏移构成的时间偏移组;
时间偏移差计算单元,用于将所述时间偏移组中各时间偏移与所述特征值所处的时间偏移分别求得时间偏移差,再通过这些时间偏移差的分布和数量,确定需识别的目标音频。
优选的,所述哈希处理单元中,对追加后的取样序列通过sha1哈希算法或Murmur哈希算法处理获得一个哈希值。
有益效果:本发明将EMD经验模态分解的方法引入到音频信号特征值的生成,从而将音频特征的变化趋势信息充分融合到特征值的生成,使生成的特征值更完整的表征音频信号。本发明可取代构建复杂的特征模型和星座图,并能够有效融合特征的变化过程信息,使得特征值对音频信号的表征更加充分、精确、有效。
附图说明
图1为本发明一种基于经验模态分解的音频识别方法第一实施例的流程图;
图2为本发明中经过短时傅里叶变换生成的声谱图;
图3为图1所示方法中步骤S104的具体流程图;
图4为本发明中经EMD分解后生成的5项IMF数据曲线;
图5为本发明一种基于经验模态分解的音频识别方法第二实施例的流程图;
图6为图5所示方法中步骤S105的具体流程图;
图7为本发明一种基于经验模态分解的音频识别系统第一实施例的结构框图;
图8为图7所示系统中特征值输出模块的具体结构框图;
图9为本发明一种基于经验模态分解的音频识别系统第二实施例的结构框图;
图10为图9所示系统中分布数量获取模块的具体结构框图。
具体实施方式
本发明提供一种基于经验模态分解的音频识别方法及系统,为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,图1为本发明一种基于经验模态分解的音频识别方法第一实施例的流程图,如图所示,其包括步骤:
S101、输入原始音频信号,对所述原始音频信号进行采样,然后依次进行去噪预处理、加汉明窗以及傅氏变换处理得到频谱数据,再依次连接每帧的频谱数据,获得声谱图;
S102、获得所述声谱图各频率段的能量最大值所在点,并依次连接各频率段的能量最大值所在点生成时间-频率曲线;
S103、将所述生成的时间-频率曲线进行经验模态分解,获得多个本征模函数;
S104、通过获得的多个本征模函数结合相应的频率段以及时间帧,生成用于表征原始音频信号的多个特征值,并输出。
本发明的方法将经验模态分解(EMD,Empirical Mode Decomposition)的方法引入到音频信号特征值的生成,由于EMD生成的本征模函数(IMF,Intrinsic Mode Function)项具有能够充分保留原始队列信号的特征、易于处理非平稳序列等优点,将经验模态分解的方法引入到特征值的生成,通过将声谱图生成的能量最大值所在点(tn, fn)构成为EMD分解的原始信号队列,对此原始信号队列进行EMD分解获得N个IMF项。本发明的方法可充分保留信号特征在频域随时间变化的趋势信息,使得特征值对音频信号的表征更加充分、精确、有效。
具体来说,在步骤S101中,原始音频信号(即模拟音频信号)通过麦克风输入后,通过A/D模数转换、采样(例如按照44100Hz的采样率采样),获得数字音频信号。
然后通过谱减法去噪,其主要利用音频信号的短时平稳特性,从带噪音频信号的短时谱值中减去噪声的短时谱,即消除信号内掺杂的随机环境噪声,从而得到纯净音频信号的频谱(即音频数据,将其缓存),达到语音增强的目的。在谱减法去噪之前,可对数字音频信号进行预加重处理。预加重处理其是利用信号特性和噪声特性的差别有效地对信号进行处理,在噪声引入之前采用预加重网络,减小噪声的高频分量,提高输出信噪比。
再对缓存内的音频数据进行分帧处理,每帧时长N毫秒,分帧后的每段音频数据都可以看成一段稳态信号。
再生成汉明窗,重叠加在音频数据上,重叠率为1/2,帧移为N/2毫秒;由于直接对信号截断会产生频率泄露,为了改善频率泄露的情况,加非矩形窗,例如加汉明窗,因为汉明窗的幅频特性是旁瓣衰减较大,主瓣峰值与第一个旁瓣峰值衰减可达40db。
再对每帧音频数据进行傅氏变换处理(即FFT快速傅里叶变换),获得频谱数据;关于傅氏变换处理的具体技术细节可参考现有技术的内容,在此不再详述。
依次连接每帧的频谱数据,以时间为横轴,以所处频率为纵轴,以颜色表征频谱振幅(能量)强度,绘制得到如图2所示的声谱图。
在步骤S102中,计算声谱图中每帧频谱数据上的各个频率段各个频率点的能量值,取得各频率段能量最大值;依次获得每个频率段能量最大值所在点所处的时间帧和频率段,将此时间帧和频率段作为新的点,依次连接各能量最大值所在点生成目标曲线,即时间-频率曲线。
例如,在声谱图中划分n段连续的频率段,各频率段的序号依次为id1,id2,...,idn, 在某个频率范围内(例如频率段idn,如图2中6kHz至9kHz)连接声谱图各能量最大值所在点,而未达到指定强度阈值的点归为此频率范围的下限值处理,形成一条以时间为横轴,以频率为纵轴的连续的动态变化曲线,即时间-频率曲线。
在所述步骤S103中,将生成的时间-频率曲线进行经验模态分解,获得能充分表征此曲线变化的多个本征模函数项,如获得N组(本曲线生成截止到12组)IMF本征模函数项(每项为时域的变化曲线)。
如图3所示,所述步骤S104具体包括:
S201、对每一个本征模函数等间隔取样,获得一组相应的取样序列;
S202、在所述取样序列后追加所处的频率段序号;
S203、对追加后的取样序列进行处理获得一个哈希值;
S204、通过N组本征模函数获得N个哈希值,共同组成一组特征值。
具体来说,通过对每一个IMF项进行等间隔取样(所有对IMF项的抽样处理间隔保持一致,并且间隔不可过大以保留曲线动态变化信息),如图4中的IMF C1,IMF C2, IMFC3,IMF C4和IMF C5曲线,获得一组相应的取样序列x1、x2...xn,将此取样序列后追加相应IMF项所处的频率段序号idn,对此追加后的取样序列通过sha1哈希算法或Murmur哈希算法获得一个32位或64位的哈希值,这样通过N组(即N个)IMF项获得N个哈希值组成一组特征值(也可称为一组特征向量)。同时保存此组特征值所处的时间偏移tm(即音频信号的起始帧所在时间轴上的位置)。
本发明的方法可将音频特征的变化趋势信息充分融合到特征值的生成,使生成的特征值更完整的表征音频信号。本发明将每帧生成特征值和局部时间段生成特征值结合,丰富了音频特征信息,即对每帧音频和对若干帧音频提取特征值分别进行EMD经验模态分解。本发明可取代构建复杂的特征模型和星座图,并能够有效融合特征的变化过程信息,使得特征值对音频信号的表征更加充分、精确、有效。
请参阅图5,图5为本发明本发明一种基于经验模态分解的音频识别方法第二实施例的流程图,其具体包括:
S101、输入原始音频信号,对所述原始音频信号进行采样,然后依次进行去噪预处理、加汉明窗以及傅氏变换处理得到频谱数据,再依次连接每帧的频谱数据,获得声谱图;
S102、获得所述声谱图各频率段的能量最大值所在点,并依次连接各频率段的能量最大值所在点生成时间-频率曲线;
S103、将所述生成的时间-频率曲线进行经验模态分解,获得多个本征模函数;
S104、通过获得的多个本征模函数结合相应的频率段以及时间帧,生成用于表征原始音频信号的多个特征值,并输出;
S105、根据所述特征值获取时间偏移差的分布和数量,以表征原始音频信号。
其与方法第一实施例不同的是,在步骤S104之后增加了步骤S105。步骤S105,其主要是利用前面生成的特征值,来获取时间偏移差的分布和数量,从而根据直观的表征音频信号。
具体来说,如图6所示,所述步骤S105具体包括:
S301、通过所述特征值在一数据库中进行搜索,获得与所述特征值相匹配的若干其他特征值所处的时间偏移构成的时间偏移组;
S302、将所述时间偏移组中各时间偏移与所述特征值所处的时间偏移分别求得时间偏移差,再通过这些时间偏移差的分布和数量,确定需识别的目标音频。
通过生成的若干特征值在数据库中进行搜索,每个特征值(即目标特征值)可获得与此特征值匹配的若干其他特征值向量所处的时间偏移t1、t2...tn,将这组时间偏移与此特征值(即目标特征值)所处的时间偏移tm分别求得时间偏移差td1、td2...tdn,依次,每平移一次(步长n帧)即可获得N组时间偏移差。
依次,直至处理完整个原始音频信号,最后再通过统计所有时间偏移差的分布和数目,确定目标,其中时间偏移差分布最集中的音频即为识别的目标音频。
为了适当增加所生成特征值的丰富性,通过若干帧(例如50帧)分块,求得每块的能量最大值,再进行如上S103~S105步骤,可获得更多的特征值和时间偏移差。这样,就可以充分捕捉较大范围特征变化信息,以加强整个音频信号的表征。
基于上述方法,本发明还提供一种基于经验模态分解的音频识别系统第一实施例,如图7所示,其包括:
声谱图获取模块100,用于输入原始音频信号,对所述原始音频信号进行采样,然后依次进行去噪预处理、加汉明窗以及傅氏变换处理得到频谱数据,再依次连接每帧的频谱数据,获得声谱图;
时间-频率曲线生成模块200,用于获得所述声谱图各频率段的能量最大值所在点,并依次连接各频率段的能量最大值所在点生成时间-频率曲线;
经验模态分解模块300,用于将所述生成的时间-频率曲线进行经验模态分解,获得多个本征模函数;
特征值输出模块400,用于通过获得的多个本征模函数结合相应的频率段以及时间帧,生成用于表征原始音频信号的多个特征值,并输出。
本发明的系统将经验模态分解引入到音频信号特征值的生成,由于EMD生成的本征模函数项具有能够充分保留原始队列信号的特征、易于处理非平稳序列等优点,将经验模态分解引入到特征值的生成,通过将声谱图生成的能量最大值所在点(tn, fn)构成为EMD分解的原始信号队列,对此原始信号队列进行EMD分解获得N个IMF项。本发明的系统可充分保留信号特征在频域随时间变化的趋势信息,使得特征值对音频信号的表征更加充分、精确、有效。
具体来说,在声谱图获取模块100中,原始音频信号(即模拟音频信号)通过麦克风输入后,通过A/D模数转换、采样(例如按照44100Hz的采样率采样),获得数字音频信号。
然后通过谱减法去噪,其主要利用音频信号的短时平稳特性,从带噪音频信号的短时谱值中减去噪声的短时谱,即消除信号内掺杂的随机环境噪声,从而得到纯净音频信号的频谱(即音频数据,将其缓存),达到语音增强的目的。在谱减法去噪之前,可对数字音频信号进行预加重处理。预加重处理其是利用信号特性和噪声特性的差别有效地对信号进行处理,在噪声引入之前采用预加重网络,减小噪声的高频分量,提高输出信噪比。
再对缓存内的音频数据进行分帧处理,每帧时长N毫秒,分帧后的每段音频数据都可以看成一段稳态信号。
再生成汉明窗,重叠加在音频数据上,重叠率为1/2,帧移为N/2毫秒;由于直接对信号截断会产生频率泄露,为了改善频率泄露的情况,加非矩形窗,例如加汉明窗,因为汉明窗的幅频特性是旁瓣衰减较大,主瓣峰值与第一个旁瓣峰值衰减可达40db。
再对每帧音频数据进行傅氏变换处理(即FFT快速傅里叶变换),获得频谱数据;关于傅氏变换处理的具体技术细节可参考现有技术的内容,在此不再详述。
依次连接每帧的频谱数据,以时间为横轴,以所处频率为纵轴,以颜色表征频谱振幅(能量)强度,绘制得到如图2所示的声谱图。
在所述时间-频率曲线生成模块200中,计算声谱图中每帧频谱数据上的各个频率段各个频率点的能量值,取得各频率段能量最大值;依次获得每个频率段能量最大值所在点所处的时间帧和频率段,将此时间帧和频率段作为新的点,依次连接各能量最大值所在点生成目标曲线,即时间-频率曲线。
例如,在声谱图中划分n段连续的频率段,各频率段的序号依次为id1,id2,...,idn, 在某个频率范围内(例如频率段idn,如图2中6kHz至9kHz)连接声谱图各能量最大值所在点,而未达到指定强度阈值的点归为此频率范围的下限值处理,形成一条以时间为横轴,以频率为纵轴的连续的动态变化曲线,即时间-频率曲线。
在所述经验模态分解模块300中,将生成的时间-频率曲线进行经验模态分解,获得能充分表征此曲线变化的多个本征模函数项,如获得N组(本曲线生成截止到12组)IMF本征模函数项(每项为时域的变化曲线)。
进一步,如图8所示,所述特征值输出模块400具体包括:
取样单元410,用于对每一个本征模函数等间隔取样,获得一组相应的取样序列;
追加单元420,用于在所述取样序列后追加所处的频率段序号;
哈希处理单元430,用于对追加后的取样序列进行处理获得一个哈希值;
向量组成单元440,用于通过N组本征模函数获得N个哈希值,共同组成一组特征值。
具体来说,通过对每一个IMF项进行等间隔取样(所有对IMF项的抽样处理间隔保持一致,并且间隔不可过大以保留曲线动态变化信息),如图4中的IMF C1,IMF C2, IMFC3,IMF C4和IMF C5曲线,获得一组相应的取样序列x1、x2...xn,将此取样序列后追加相应IMF项所处的频率段序号idn,对此追加后的取样序列通过sha1哈希算法或Murmur哈希算法获得一个32位或64位的哈希值,这样通过N组(即N个)IMF项获得N个哈希值组成一组特征值(也可称为一组特征向量)。同时保存此组特征值所处的时间偏移tm(即音频信号的起始帧所在时间轴上的位置)。
本发明的系统可将音频特征的变化趋势信息充分融合到特征值的生成,使生成的特征值更完整的表征音频信号。本发明将每帧生成特征值和局部时间段生成特征值结合,丰富了音频特征信息,即对每帧音频和对若干帧音频提取特征值分别进行EMD经验模态分解。本发明可取代构建复杂的特征模型和星座图,并能够有效融合特征的变化过程信息,使得特征值对音频信号的表征更加充分、精确、有效。
本发明还提供一种基于经验模态分解的音频识别系统第二实施例,如图9所示,其包括:
声谱图获取模块100,用于输入原始音频信号,对所述原始音频信号进行采样,然后依次进行去噪预处理、加汉明窗以及傅氏变换处理得到频谱数据,再依次连接每帧的频谱数据,获得声谱图;
时间-频率曲线生成模块200,用于获得所述声谱图各频率段的能量最大值所在点,并依次连接各频率段的能量最大值所在点生成时间-频率曲线;
经验模态分解模块300,用于将所述生成的时间-频率曲线进行经验模态分解,获得多个本征模函数;
特征值输出模块400,用于通过获得的多个本征模函数结合相应的频率段以及时间帧,生成用于表征原始音频信号的多个特征值,并输出;
分布数量获取模块500,用于根据所述特征值获取时间偏移差的分布和数量,以表征原始音频信号。
其与系统第一实施例不同的是,增加了分布数量获取模块500。所述分布数量获取模块500其主要是利用前面生成的特征值,来获取时间偏移差的分布和数量,从而根据直观的表征音频信号。
进一步,如图10所示,所述分布数量获取模块500具体包括:
时间偏移组获取单元510,用于通过所述特征值在数据库中进行搜索,获得与所述特征值相匹配的若干其他特征值所处的时间偏移构成的时间偏移组;
时间偏移差计算单元520,用于将所述时间偏移组中各时间偏移与所述特征值所处的时间偏移分别求得时间偏移差,再通过这些时间偏移差的分布和数量,确定需识别的目标音频。
通过生成的若干特征值在数据库中进行搜索,每个特征值(即目标特征值)可获得与此特征值匹配的若干其他特征值向量所处的时间偏移t1、t2...tn,将这组时间偏移与此特征值(即目标特征值)所处的时间偏移tm分别求得时间偏移差td1、td2...tdn,依次,每平移一次(步长n帧)即可获得N组时间偏移差。
依次,直至处理完整个原始音频信号,最后再通过统计所有时间偏移差的分布和数目,确定目标,其中时间偏移差分布最集中的音频即为识别的目标音频。
为了适当增加所生成特征值的丰富性,通过若干帧(例如50帧)分块,求得每块的能量最大值,再执行经验模态分解模块300、特征值输出模块400、分布数量获取模块500,可获得更多的特征值和时间偏移差。这样,就可以充分捕捉较大范围特征变化信息,以加强整个音频信号的表征。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (8)
1.一种基于经验模态分解的音频识别方法,其特征在于,包括步骤:
A、输入原始音频信号,对所述原始音频信号进行采样,然后依次进行去噪预处理、加汉明窗以及傅氏变换处理得到频谱数据,再依次连接每帧的频谱数据,获得声谱图;
B、获得所述声谱图各频率段的能量最大值所在点,并依次连接各频率段的能量最大值所在点生成时间-频率曲线;
C、将所述生成的时间-频率曲线进行经验模态分解,获得多个本征模函数;
D、通过获得的多个本征模函数结合相应的频率段以及时间帧,生成用于表征原始音频信号的多个特征值,并输出;
所述步骤D具体包括:
D1、对每一个本征模函数等间隔取样,获得一组相应的取样序列;
D2、在所述取样序列后追加所处的频率段序号;
D3、对追加后的取样序列进行处理获得一个哈希值;
D4、通过N组本征模函数获得N个哈希值,共同组成一组特征值。
2.根据权利要求1所述的基于经验模态分解的音频识别方法,其特征在于,所述步骤D之后还包括:
E、根据所述特征值获取时间偏移差的分布和数量,以表征原始音频信号。
3.根据权利要求2所述的基于经验模态分解的音频识别方法,其特征在于,所述步骤E具体包括:
E1、通过所述特征值在一数据库中进行搜索,获得与所述特征值相匹配的若干其他特征值所处的时间偏移构成的时间偏移组;
E2、将所述时间偏移组中各时间偏移与所述特征值所处的时间偏移分别求得时间偏移差,再通过这些时间偏移差的分布和数量,确定需识别的目标音频。
4.根据权利要求1所述的基于经验模态分解的音频识别方法,其特征在于,所述步骤D3中,对追加后的取样序列通过sha1哈希算法或Murmur哈希算法处理获得一个哈希值。
5.一种基于经验模态分解的音频识别系统,其特征在于,包括:
声谱图获取模块,用于输入原始音频信号,对所述原始音频信号进行采样,然后依次进行去噪预处理、加汉明窗以及傅氏变换处理得到频谱数据,再依次连接每帧的频谱数据,获得声谱图;
时间-频率曲线生成模块,用于获得所述声谱图各频率段的能量最大值所在点,并依次连接各频率段的能量最大值所在点生成时间-频率曲线;
经验模态分解模块,用于将所述生成的时间-频率曲线进行经验模态分解,获得多个本征模函数;
特征值输出模块,用于通过获得的多个本征模函数结合相应的频率段以及时间帧,生成用于表征原始音频信号的多个特征值,并输出;
所述特征值输出模块具体包括:
取样单元,用于对每一个本征模函数等间隔取样,获得一组相应的取样序列;
追加单元,用于在所述取样序列后追加所处的频率段序号;
哈希处理单元,用于对追加后的取样序列进行处理获得一个哈希值;
向量组成单元,用于通过N组本征模函数获得N个哈希值,共同组成一组特征值。
6.根据权利要求5所述的基于经验模态分解的音频识别系统,其特征在于,还包括:
分布数量获取模块,用于根据所述特征值获取时间偏移差的分布和数量,以表征原始音频信号。
7.根据权利要求6所述的基于经验模态分解的音频识别系统,其特征在于,所述分布数量获取模块具体包括:
时间偏移组获取单元,用于通过所述特征值在数据库中进行搜索,获得与所述特征值相匹配的若干其他特征值所处的时间偏移构成的时间偏移组;
时间偏移差计算单元,用于将所述时间偏移组中各时间偏移与所述特征值所处的时间偏移分别求得时间偏移差,再通过这些时间偏移差的分布和数量,确定需识别的目标音频。
8.根据权利要求5所述的基于经验模态分解的音频识别系统,其特征在于,所述哈希处理单元中,对追加后的取样序列通过sha1哈希算法或Murmur哈希算法处理获得一个哈希值。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610103443.2A CN105788603B (zh) | 2016-02-25 | 2016-02-25 | 一种基于经验模态分解的音频识别方法及系统 |
PCT/CN2017/074706 WO2017144007A1 (zh) | 2016-02-25 | 2017-02-24 | 一种基于经验模态分解的音频识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610103443.2A CN105788603B (zh) | 2016-02-25 | 2016-02-25 | 一种基于经验模态分解的音频识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105788603A CN105788603A (zh) | 2016-07-20 |
CN105788603B true CN105788603B (zh) | 2019-04-16 |
Family
ID=56403668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610103443.2A Active CN105788603B (zh) | 2016-02-25 | 2016-02-25 | 一种基于经验模态分解的音频识别方法及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105788603B (zh) |
WO (1) | WO2017144007A1 (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105788603B (zh) * | 2016-02-25 | 2019-04-16 | 深圳创维数字技术有限公司 | 一种基于经验模态分解的音频识别方法及系统 |
CN107895571A (zh) * | 2016-09-29 | 2018-04-10 | 亿览在线网络技术(北京)有限公司 | 无损音频文件识别方法及装置 |
CN106656882B (zh) * | 2016-11-29 | 2019-05-10 | 中国科学院声学研究所 | 一种信号合成方法及系统 |
CN106601265B (zh) * | 2016-12-15 | 2019-08-13 | 中国人民解放军第四军医大学 | 一种消除毫米波生物雷达语音中噪声的方法 |
GB201801875D0 (en) * | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Audio processing |
CN110070874B (zh) * | 2018-01-23 | 2021-07-30 | 中国科学院声学研究所 | 一种针对声纹识别的语音降噪方法及装置 |
CN108986840A (zh) * | 2018-04-03 | 2018-12-11 | 五邑大学 | 一种在检测验电笔过程中对蜂鸣器音频的识别方法 |
CN108682429A (zh) * | 2018-05-29 | 2018-10-19 | 平安科技(深圳)有限公司 | 语音增强方法、装置、计算机设备及存储介质 |
CN109102811B (zh) * | 2018-07-27 | 2021-03-30 | 广州酷狗计算机科技有限公司 | 音频指纹的生成方法、装置及存储介质 |
CN109616143B (zh) * | 2018-12-13 | 2019-09-10 | 山东省计算中心(国家超级计算济南中心) | 基于变分模态分解和感知哈希的语音端点检测方法 |
CN109410977B (zh) * | 2018-12-19 | 2022-09-23 | 东南大学 | 一种基于EMD-Wavelet的MFCC相似度的语音段检测方法 |
CN109948286B (zh) * | 2019-03-29 | 2023-10-03 | 华北理工大学 | 基于改进经验小波分解的信号分解方法 |
CN110556125B (zh) * | 2019-10-15 | 2022-06-10 | 出门问问信息科技有限公司 | 基于语音信号的特征提取方法、设备及计算机存储介质 |
CN111046323A (zh) * | 2019-12-24 | 2020-04-21 | 国网河北省电力有限公司信息通信分公司 | 一种基于emd的网络流量数据预处理方法 |
CN111276154B (zh) * | 2020-02-26 | 2022-12-09 | 中国电子科技集团公司第三研究所 | 风噪声抑制方法与系统以及炮声检测方法与系统 |
CN113314137B (zh) * | 2020-02-27 | 2022-07-26 | 东北大学秦皇岛分校 | 一种基于动态进化粒子群屏蔽emd的混合信号分离方法 |
CN111402926A (zh) * | 2020-03-19 | 2020-07-10 | 中国电影科学技术研究所 | 影院放映内容的检测方法、装置、设备及智能网络传感器 |
CN111524493A (zh) * | 2020-05-27 | 2020-08-11 | 珠海格力智能装备有限公司 | 调试曲谱的方法及装置 |
CN111935044B (zh) * | 2020-08-20 | 2021-03-09 | 金陵科技学院 | 基于emd分解的psk及qam类信号调制识别方法 |
CN112214635B (zh) * | 2020-10-23 | 2022-09-13 | 昆明理工大学 | 一种基于倒频谱分析的快速音频检索方法 |
CN113628641A (zh) * | 2021-06-08 | 2021-11-09 | 广东工业大学 | 一种基于深度学习的用于检查口鼻呼吸的方法 |
CN114023313B (zh) * | 2022-01-04 | 2022-04-08 | 北京世纪好未来教育科技有限公司 | 语音处理模型的训练、语音处理方法、装置、设备及介质 |
CN115129923B (zh) * | 2022-05-17 | 2023-10-20 | 荣耀终端有限公司 | 语音搜索方法、设备及存储介质 |
CN116127277B (zh) * | 2023-04-12 | 2023-06-27 | 武汉工程大学 | 激波流场动态压力测量不确定度评定方法及系统 |
CN116129926B (zh) * | 2023-04-19 | 2023-06-09 | 北京北信源软件股份有限公司 | 智能设备自然语言交互信息处理方法 |
CN117118536B (zh) * | 2023-10-25 | 2023-12-19 | 南京派格测控科技有限公司 | 调频稳定性的确定方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010152884A (ja) * | 2008-12-02 | 2010-07-08 | Intel Corp | 画像認識アルゴリズム、それを用いて目標画像を識別する方法、および、携帯用電子装置へ送信するデータを選択する方法 |
CN103209036A (zh) * | 2013-04-22 | 2013-07-17 | 哈尔滨工程大学 | 基于Hilbert-黄变换双重降噪的瞬态信号检测方法 |
CN104299620A (zh) * | 2014-09-22 | 2015-01-21 | 河海大学 | 一种基于emd算法的语音增强方法 |
CN104900229A (zh) * | 2015-05-25 | 2015-09-09 | 桂林电子科技大学信息科技学院 | 一种语音信号混合特征参数的提取方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6862558B2 (en) * | 2001-02-14 | 2005-03-01 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Empirical mode decomposition for analyzing acoustical signals |
JP3886372B2 (ja) * | 2001-12-13 | 2007-02-28 | 松下電器産業株式会社 | 音響変節点抽出装置及びその方法、音響再生装置及びその方法、音響信号編集装置、音響変節点抽出方法プログラム記録媒体、音響再生方法プログラム記録媒体、音響信号編集方法プログラム記録媒体、音響変節点抽出方法プログラム、音響再生方法プログラム、音響信号編集方法プログラム |
US7908103B2 (en) * | 2007-05-21 | 2011-03-15 | Nilanjan Senroy | System and methods for determining masking signals for applying empirical mode decomposition (EMD) and for demodulating intrinsic mode functions obtained from application of EMD |
CN101727905B (zh) * | 2009-11-27 | 2012-06-20 | 江南大学 | 一种得到具有精细时频结构的声纹图的方法 |
CN104795064B (zh) * | 2015-03-30 | 2018-04-13 | 福州大学 | 低信噪比声场景下声音事件的识别方法 |
CN105788603B (zh) * | 2016-02-25 | 2019-04-16 | 深圳创维数字技术有限公司 | 一种基于经验模态分解的音频识别方法及系统 |
-
2016
- 2016-02-25 CN CN201610103443.2A patent/CN105788603B/zh active Active
-
2017
- 2017-02-24 WO PCT/CN2017/074706 patent/WO2017144007A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010152884A (ja) * | 2008-12-02 | 2010-07-08 | Intel Corp | 画像認識アルゴリズム、それを用いて目標画像を識別する方法、および、携帯用電子装置へ送信するデータを選択する方法 |
CN103209036A (zh) * | 2013-04-22 | 2013-07-17 | 哈尔滨工程大学 | 基于Hilbert-黄变换双重降噪的瞬态信号检测方法 |
CN104299620A (zh) * | 2014-09-22 | 2015-01-21 | 河海大学 | 一种基于emd算法的语音增强方法 |
CN104900229A (zh) * | 2015-05-25 | 2015-09-09 | 桂林电子科技大学信息科技学院 | 一种语音信号混合特征参数的提取方法 |
Non-Patent Citations (1)
Title |
---|
基于EMD的语音信号检测与增强方法研究;金辉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130215(第02期);I136-201 |
Also Published As
Publication number | Publication date |
---|---|
WO2017144007A1 (zh) | 2017-08-31 |
CN105788603A (zh) | 2016-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105788603B (zh) | 一种基于经验模态分解的音频识别方法及系统 | |
Yin et al. | Phasen: A phase-and-harmonics-aware speech enhancement network | |
CN108597496B (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
CN106024010B (zh) | 一种基于共振峰曲线的语音信号动态特征提取方法 | |
CN106971740A (zh) | 基于语音存在概率和相位估计的语音增强方法 | |
CN103794207A (zh) | 一种双模语音身份识别方法 | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN109036470B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN107785028A (zh) | 基于信号自相关的语音降噪方法及装置 | |
CN103594083A (zh) | 通过电视伴音自动识别电视节目的技术 | |
CN102930863B (zh) | 一种基于简化自适应内插加权谱模型的语音转换及重构方法 | |
CN104952446A (zh) | 基于语音交互的数字楼盘展示系统 | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
CN110909827A (zh) | 一种适用于风机叶片声音信号的降噪方法 | |
CN103971697B (zh) | 基于非局部均值滤波的语音增强方法 | |
CN116095357B (zh) | 虚拟主播的直播方法、装置及系统 | |
CN112116921A (zh) | 一种基于整合优化器的单声道语音分离方法 | |
CN111785262A (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
CN110070887B (zh) | 一种语音特征重建方法及装置 | |
Wang | The improved MFCC speech feature extraction method and its application | |
CN105513609B (zh) | 一种水声目标信号声纹特征提取装置和方法 | |
Zheng et al. | Bandwidth extension WaveNet for bone-conducted speech enhancement | |
Han et al. | Perceptual improvement of deep neural networks for monaural speech enhancement | |
Li et al. | Research on voiceprint recognition technology based on deep neural network | |
Huang et al. | A speaker recognition method based on GMM using non-negative matrix factorization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |