CN108305616B - 一种基于长短时特征提取的音频场景识别方法及装置 - Google Patents
一种基于长短时特征提取的音频场景识别方法及装置 Download PDFInfo
- Publication number
- CN108305616B CN108305616B CN201810039421.3A CN201810039421A CN108305616B CN 108305616 B CN108305616 B CN 108305616B CN 201810039421 A CN201810039421 A CN 201810039421A CN 108305616 B CN108305616 B CN 108305616B
- Authority
- CN
- China
- Prior art keywords
- audio
- time
- short
- scene
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000005236 sound signal Effects 0.000 claims abstract description 39
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 238000013145 classification model Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 59
- 230000008859 change Effects 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 16
- 238000000556 factor analysis Methods 0.000 claims description 13
- 230000007774 longterm Effects 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims 1
- 239000000203 mixture Substances 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 10
- 238000009826 distribution Methods 0.000 description 8
- 230000006872 improvement Effects 0.000 description 7
- 238000005070 sampling Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- RVRCFVVLDHTFFA-UHFFFAOYSA-N heptasodium;tungsten;nonatriacontahydrate Chemical compound O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W] RVRCFVVLDHTFFA-UHFFFAOYSA-N 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于长短时特征提取的音频场景识别方法及装置,该方法包括,对输入待识别音频信号进行预处理;对经过预处理后的所述待识别音频信号,进行短时音频特征提取,再进行长时音频特征提取,将所述待识别音频信号的所述长、短时音频特征联合,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签。本发明在常规短时特征提取的基础之上,进一步联合音频场景长时特征,可以表征复杂的音频场景信息,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签,其鲁棒性更强、区分性更好,且能够在更大程度上表征场景数据的整体特性,识别效率高、稳定性强。
Description
技术领域
本发明涉及音频场景识别领域,特别涉及一种基于长短时特征提取的音频场景识别方法及装置。
背景技术
伴随着信息化社会的发展和互联网技术的普及,大量的数字化音频内容充斥在日常生活当中。面对数据量的快速膨胀,传统基于手工本文标注和结构化先验知识的分析方法受到效率和稳定性的限制,无法实现对音频数据的内容分析和信息管理,从而使得真正被人关注的信息或有价值的知识被淹没在海量的音频大数据当中。与此同时,真实声音采集条件下的特定复杂场景同样限制了人们对数字化音频内容和事件的有效管理。这里音频场景的复杂性主要体现在背景声音的多样性及其时频非平稳特性、声场空间混响条件的不确定性以及多个声源目标的时频交叠性。在真实环境下对音频场景和事件检测需要模拟人类的听觉感知和音频场景理解机制,提取能够表征潜在的、有限的先验信息、具有某种规律和内容的特征信息,进而为音频内容中场景识别、事件检测以及音频内容高层语义的知识挖掘提供支撑,以期实现对海量音频数据的高效管理。
随着大数据和机器学习理论的迅猛发展,声音中所携带的信息已经可以被更深入地发掘和利用。音频场景分类通过采用信号处理和机器学习方法对一段连续音频流进行分析,辨别该段音频发生的环境场景,并联合特定的语义标签对系统输入的所有音频场景类别进行区分。一般来说,音频场景识别技术主要分为音频特征的提取和分类模型的构建两个方面。其中,特征提取模块对后续模型识别性能的提升具有至关重要的作用。目前音频场景识别主要采用传统识别特征,例如:短时能量、过零率、梅尔频率倒谱系数等及其变种、采用模型拟合或无监督学习得到的特征等,这些特征基本上都是在较短时间窗内进行分析和提取而得到。由于实际音频场景存在背景噪声等干扰声、场景采集的真实环境具有复杂性以及场景频谱结构具有多样性等原因,音频场景数据与语音和音乐信号相比,频谱结构更为复杂,甚至同一种场景数据也会呈现不同的时频动态变化。而且音频场景数据跟语音信号相比,具有较长时间范围内的稳定性,且存在更强的全局整体特性。因此目前借鉴其他领域采用帧级别的短时特征并不足以表征复杂的音频场景信息,需针对音频场景识别领域引入鲁棒性更强、区分性更好的特征提取方法,且能够在更大程度上表征场景数据的整体特性。
常见音频场景识别系统的流程图如图1所示,常见音频场景识别系统根据输入的音频文件,首先对其进行预处理,该模块具体包括音频格式转换、采样率转换,对格式统一后的音频信号进行分帧、加窗、预滤波和预加重等处理过程。然后,对经过预处理后的信号进行时域、频域和倒谱域等特征提取和不同方式的特征拼接过程。接下来,采用不同分类模型及其融合模型根据提取的特征进行分类和识别,这些模型包括GMM(Gaussian MixtureModel)、HMM(Hidden Markov Model)、SVM(Support Vector Machine)等传统分类模型,也可以是CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)、TDNN(Time-DelayNeuralNetwork)、LSTM(Long Short-Term Memory)等深度神经网络模型。最后对识别结果进行多数投票、打分融合等后处理过程得到最终的音频场景识别标签。
鉴于音频场景数据存在背景噪声干扰、场景采集环境复杂以及频谱结构多样等原因,目前很难找到能够充分表征不同音频场景信息的有效特征。
发明内容
本发明的目的在于,克服现有技术中很难找到能够充分表征不同音频场景信息的有效特征的问题,引入鲁棒性更强、区分性更好的特征提取方法,从而提供一种基于长短时特征提取的音频场景识别方法及装置。
为了解决上述技术问题,第一方面,本发明实施例提供一种基于长短时特征提取的音频场景识别方法,包括:
对输入待识别音频信号进行预处理;
对经过预处理后的所述待识别音频信号,进行短时音频特征提取,再进行长时音频特征提取;
将所述待识别音频信号的所述长、短时音频特征联合,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签。
作为上述方法的一种改进,所述短时音频特征提取,为短时窗内或者帧级别的短时音频特征提取;
所述短时音频特征包括:时域特征、频域特征和倒谱特征。
作为上述方法的又一种改进,所述长时音频特征提取,包括:整条音频文件的音频场景高斯超向量和音频场景总变化因子特征提取。
作为上述方法的再一种改进,所述音频场景高斯超向量特征提取,包括:
使用大量音频场景背景数据训练一个与目标场景无关的背景模型;
然后针对每个音频场景进行最大后验估计,更新所述背景模型参数,得到不同目标场景的GMM模型;
作为上述方法的还一种改进,所述音频场景总变化因子特征提取,包括:
提取高斯超向量;
根据GMM-UBM、高斯超向量和总变化因子分析模型假设,计算总变化矩阵T;
计算总变化因子wn的期望;
将wn期望进行存储得到SI-vector特征向量,所述SI-vector特征向量为音频场景总变化因子特征向量。
第二方面,本发明实施例提供一种基于长短时特征提取的音频场景识别装置,
包括:预处理模块,用于对输入待识别音频信号进行预处理;
短时提取模块,用于对经过预处理后的所述待识别音频信号,进行短时音频特征提取;
长时提取模块,用于在所述短时提取模块对短时音频特征提取后,进行长时音频特征提取;
输出模块,用于将所述待识别音频信号的所述长、短时音频特征联合,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签。
作为上述装置的一种改进,所述短时提取模块,具体用于短时窗内或者帧级别的短时音频特征提取;所述短时音频特征包括:时域特征、频域特征和倒谱特征。
作为上述装置的又一种改进,所述长时提取模块,包括:
第一提取子模块,用于整条音频文件的音频场景高斯超向量特征提取;
第二提取子模块,用于音频场景总变化因子特征提取。
作为上述装置的再一种改进,所述第一提取子模块,具体用于使用大量音频场景背景数据训练一个与目标场景无关的背景模型;然后针对每个音频场景进行最大后验估计,更新所述背景模型参数,得到不同目标场景的GMM模型;对所述目标场景均值向量进行更新得到采用计算统计量的方法将所述目标场景的均值向量拼接成一个高维的超向量Sn,所述Sn为音频场景高斯超向量。
作为上述装置的还一种改进,所述第二提取子模块,具体用于构建GMM-UBM模型,采用期望最大化算法计算得到模型参数提取高斯超向量;根据GMM-UBM、高斯超向量和总变化因子分析模型假设,计算总变化矩阵T;计算总变化因子wn的期望;将wn期望进行存储得到SI-vector特征向量,所述SI-vector特征向量为音频场景总变化因子特征向量。
本发明的优点在于,本发明的一种基于长短时特征提取的音频场景识别方法及装置,针对现有技术中很难找到能够充分表征不同音频场景信息的有效特征的问题,引入鲁棒性更强、区分性更好的特征提取方法,本发明在常规短时特征提取的基础之上,进一步联合音频场景长时特征,可以表征复杂的音频场景信息,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签,其鲁棒性更强、区分性更好,且能够在更大程度上表征场景数据的整体特性,识别效率高、稳定性强。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为现有技术中常见音频场景识别系统的流程图;
图2为本发明实施例提供的基于长短时特征提取的音频场景识别方法的流程图;
图3为本发明实施例提供的长短时特征提取框架图;
图4为本发明实施例提供的音频场景识别系统;
图5为本发明实施例提供的基于长短时特征提取的音频场景识别装置。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种基于长短时特征提取的音频场景识别方法,参照图2所示,包括:
S201、对输入待识别音频信号进行预处理;
S202、对经过预处理后的所述待识别音频信号,进行短时音频特征提取,再进行长时音频特征提取;
S203、将所述待识别音频信号的所述长、短时音频特征联合,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签。
本发明在常规短时特征提取的基础之上,进一步联合音频场景长时特征,可以表征复杂的音频场景信息,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签,其鲁棒性更强、区分性更好,且能够在更大程度上表征场景数据的整体特性,识别效率高、稳定性强。
下面将对音频场景的特征提取进行详细介绍,如图3所示,该过程分为短时特征提取过程和长时特征提取过程两块内容,训练和测试的时候均按照该流程进行特征提取过程,用于后端模型的分类和识别。
音频场景特征提取之前,需要对输入音频信号进行预处理。上述步骤S201,具体包括:首先是对音频格式、采样率、声道数目等进行转换,常见音频信号采样率包括8kHz、16kHz、44.1kHz。然后该信号通过等时间间隔采样转换为特征序列,由于音频信号在10ms~50ms内具有短时平稳性,所以算法需要对输入信号进行分帧处理(加短时窗),一般帧长设置为20ms,帧移10ms或者帧长40ms,帧移20ms。考虑到音频信号采样率的提升及音频信号内容的复杂性,可以将帧长和帧移适当加长。语音信号常见的预加重模块在此处并不适用,原因在于语音信号受声门激励和口鼻辐射等影响,高频部分约在800Hz以上按照6dB/倍频程衰减,而音频信号并不适应该原理。
步骤S202中短时音频特征提取,一般包括在短时帧或若干拼接帧内进行不同时频域特征或倒谱特征及其变种特征的提取过程。相对于语音和音乐文件,音频文件背景噪声更为复杂、频谱结构更加多样,仅在短时特征基础上进行音频场景识别效果一般。并且将包含场景信息的整条音频文件进行对比发现:相同场景的整段音频具有明显的整体相似性,在较长时间段内发生事件、产生背景噪声的次序略有区别但事件内容、噪声类型基本相似,频谱结构相近;不同场景的整段音频具有明显的区分性,在较长时间段内事件内容、噪声类型区别较大,频谱分布差异明显。因此,本发明在常规短时特征提取的基础之上,进一步联合音频场景长时特征进行识别,音频场景识别方法应用于音频场景识别系统,增加了针对整段音频文件进行综合处理来更好表达音频整体信息的特征提取步骤。
上述音频场景识别系统如图4所示,首先根据背景数据经过特征提取、高斯混合模型训练得到一个高斯通用背景模型即GMM-UBM(Gaussian MixtureModel-UniversalBackground Model),同时基于背景数据和统计量计算得到总变化因子分析模型;然后,分别对训练数据中每个音频文件逐帧提取短时音频特征向量;接下来根据训练好的GMM-UBM,结合训练数据提取的短时特征向量对统计量进行计算,并基于计算出的统计量和前面得到的总变化因子分析模型进一步提取总变化因子wn来表征训练数据中每条音频的整体信息,并将训练数据中的长、短时音频特征联合(例如将长短时特征逐帧串联拼接,或将短时特征经前后帧拓展后与长时特征进行串联拼接)输入识别模型(例如深度神经网络)进行训练,最后根据训练好的模型和测试音频对不同场景进行识别,其中测试数据长短时特征的提取过程与训练数据类似,不再赘述。通过上述过程,最终完成对不同音频场景类型的识别过程。
基于长短时联合特征提取的音频场景识别方法,具体操作如下:
第一,对经过预处理后的音频信号,音频场景识别系统首先进行短时窗内或者说帧级别的短时特征提取。短时特征包括短时能量、基频、过零率等时域特征;频谱重心、频谱通量、谱平坦度、谱熵等频域特征;还有梅尔频率倒谱系数、Gammatone滤波器组倒谱系数等倒谱特征等。假设数据集中共有N条音频场景文件,第n(n=1,…,N)条音频所提取的短时特征向量用xn来表示。
第二,在短时特征提取完成的基础上,音频场景识别系统将继续对音频场景长时特征进行提取。长时特征的提取包括整条音频文件的高斯超向量(GaussianSupervector)和场景总变化因子(Scene Identity Vector,SI-vector)特征提取两个步骤,下面将分别对这两部分内容进行详细介绍。
A)音频场景高斯超向量
高斯超向量主要来源于高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)。GMM-UBM基于GMM模型构建,建模方法是首先使用大量音频场景背景数据训练一个与目标场景无关的背景模型,然后针对每个场景进行最大后验估计,更新背景模型参数,从而达到估计每个场景GMM模型参数的目的。
高斯混合模型是一种非常适于构建概率密度的统计模型,只要高斯数足够大,高斯混合模型可以描述任意一种概率分布。高斯混合模型中的混合高斯分布是一系列高斯分布的加权组合。假设背景训练数据集中共有N条音频,每条音频的总帧数为P帧。假设:第n(n=1,…,N)条音频的第p(p=1,…,P)帧的特征向量用xnp来表示;对于M个高斯分布,在第j(j=1,…,M)个高斯分布上产生向量xnp的概率密度函数为pj(xnp);;高斯混合模型的权重向量定义为πj,并且有πj≥0;则xnp的概率密度函数可以表示为:
对于高斯混合模型中的第j个高斯分量有pj(xnp)=N(xnp|μj,Σj),N(.)表示高斯分布。于是,上述公式化为:
音频场景高斯超向量是在上述UBM模型基础上根据目标场景音频数据进行最大后验估计得到不同目标场景的GMM模型,同时对目标场景均值向量进行更新得到并进行拼接所得。这里的目标场景是指训练或测试数据集中包含的音频场景,假设目标场景的音频文件总条数仍为N,第n(n=1,…,N)条音频的第p(p=1,…,P)帧的特征向量仍用xnp来表示,这里采用p(j|xnp)表示场景特征向量xnp在GMM-UBM模型中第j个高斯上的后验概率值,j=1,…,M。下面将采用计算统计量的方法对目标场景的均值向量进行更新。
首先,需要求解第n条音频在第j个高斯上的零阶统计量Njn与一阶统计量Fjn:
根据所得到的统计量对模型的均值向量进行更新,有
其中,初值β0一般取值为8~20之间,常取16。
B)音频场景总变化因子
GMM-UBM系统通过高斯混合模型的训练将场景的低维声学特征投影到高维空间上,成为具有较高维度的高斯超向量。鉴于高斯超向量的联合因子分析(Joint FactorAnalysis,JFA)和总变化因子分析具有比较成熟的技术,而且音频场景特征不仅需要充分表征内容等信息,同时需要考虑去除特征间冗余,能在较少维度下保证特征的鲁棒性,因此本发明将音频场景的高斯超向量进行压缩投影,使其变成一种能够表征场景标签的低维因子SI-vector,在较少维度下作为长时鲁棒特征来描述不同音频场景的整体信息。下面将对该长时特征的提取过程进行详细介绍。
SI-vector来源于总变化空间中的总变化因子分析。总变化空间由总变化矩阵T来构建,该空间将高维空间的高斯超向量通过因子分析的方式映射到低维空间,得到的低维因子就是音频场景总变化因子wn。假设训练或者测试数据集中共有N条音频文件,第n条音频的高斯超向量用Sn来表示。GMM高斯数目设为M,则总变化因子wn分析的模型假设如下:
Sn=m+Twn (6)
其中,
wn~N(0,I) (9)
符号t代表矩阵的转置。
上述公式8中N(.)表示高斯分布,总变化因子分析模型中,总变化因子wn符合均值为0,方差为I的高斯分布。假设训练和测试音频的特征维数设为F,总变化因子的维数设为C,则总变化矩阵T的大小为MF×C。总变化因子分析假设不区分场景类别和这个场景对应音频的类别,认为它们都是等价且独立的。由于模型假设中并未假设因子分析独立的的均值和方差,它们依附于GMM-UBM的模型参数,均值m由UBM均值向量构成,方差∑由UBM各高斯分量上的方差按对角线拼接而成。
从上述模型假设来看,总变化因子分析模型中只有一个隐藏因子T,即模型需要估计的参数为T,下面将采用期望最大化算法和模型假设即公式6对参数T进行推导和估计。为方便计算,首先求解第n条音频在第j个高斯上的Baum-Welch统计量N’jn与F’jn,公式如下:
为了方便得到后验概率,进行如下的矩阵拼接:
Nn=[N′1nN′2n…N′Mn]t (12)
Fn=[F′1nF′2n…F′Mn]t (13)
根据Baum-Welch统计量和GMM-UBM模型,可得到如下结果:
其中,
E[wn]==(Tt∑-1NnT+I)-1(Tt∑-1Fn) (15)
E[wnwn t]=(Tt∑-1NnT+I)-1+E[wn]E[wn]t (16)
符号t代表矩阵的转置。
在上述期望最大化算法中,求期望和最大化两步之间利用的参数互相依赖,相辅相成。满足一定的迭代次数或满足算法收敛条件之后,模型T估计完毕。根据上述求解过程,可以得到总变化因子wn的期望。最后将所求总变化因子的期望进行存储得到每条音频文件的总变化因子特征向量,从而完成音频场景长时特征的提取。
下面举例说明本实施例提供的基于长短时特征提取的音频场景识别方法。
1.预处理:对输入音频信号进行预处理,具体包括音频格式转换、采样率转换,以及对格式统一后的音频信号进行分帧、加窗、预滤波和预加重等处理过程。
2.短时特征提取:对预处理后的信号进行时域、频域和倒谱域等特征提取和不同方式的特征拼接过程。
3.长时特征SI-vector提取:
B)提取高斯超向量;
C)根据GMM-UBM、高斯超向量和模型假设,计算总变化矩阵T;
D)计算总变化因子wn的期望;
E)将wn期望进行存储得到SI-vector特征向量。
4.模型识别:长、短时特征联合输入不同模型例如GMM、HMM、SVM、CNN、RNN、TDNN、LSTM等及其融合模型进行分类和识别;
5.后处理:对识别结果进行平滑、融合等处理,最终输出音频场景识别标签。
基于同一发明构思,本发明实施例还提供了基于长短时特征提取的音频场景识别装置,由于该装置所解决问题的原理与前述基于长短时特征提取的音频场景识别方法相似,因此该装置的实施可以参见前述方法的实施,重复之处不再赘述。
本发明实施例还提供了一种基于长短时特征提取的音频场景识别装置,参照图5所示,包括:
预处理模块51,用于对输入待识别音频信号进行预处理;
短时提取模块52,用于对经过预处理后的所述待识别音频信号,进行短时音频特征提取;
长时提取模块53,用于在所述短时提取模块对短时音频特征提取后,进行长时音频特征提取;
输出模块54,用于将所述待识别音频信号的所述长、短时音频特征联合,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签。
在一个实施例中,所述短时提取模块52,具体用于短时窗内或者帧级别的短时音频特征提取;所述短时音频特征包括:时域特征、频域特征和倒谱特征。
在一个实施例中,所述长时提取模块53,包括:
第一提取子模块531,用于整条音频文件的音频场景高斯超向量特征提取;
第二提取子模块532,用于音频场景总变化因子特征提取。
在一个实施例中,所述第一提取子模块531,具体用于使用大量音频场景背景数据训练一个与目标场景无关的背景模型;然后针对每个音频场景进行最大后验估计,更新所述背景模型参数,得到不同目标场景的GMM模型;对所述目标场景均值向量进行更新得到采用计算统计量的方法将所述目标场景的均值向量拼接成一个高维的超向量Sn,所述Sn为音频场景高斯超向量。
在一个实施例中,所述第二提取子模块532,具体用于构建GMM-UBM模型,采用期望最大化算法计算得到模型参数提取高斯超向量;根据GMM-UBM、高斯超向量和总变化因子分析模型假设,计算总变化矩阵T;计算总变化因子wn的期望;将wn期望进行存储得到SI-vector特征向量,所述SI-vector特征向量为音频场景总变化因子特征向量。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (2)
1.一种基于长短时特征提取的音频场景识别方法,其特征在于,包括:
对输入待识别音频信号进行预处理;
对经过预处理后的所述待识别音频信号,进行短时音频特征提取,再进行长时音频特征提取;
将所述待识别音频信号的所述长、短时音频特征联合,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签;
所述短时音频特征提取,为短时窗内或者帧级别的短时音频特征提取;所述短时音频特征包括:时域特征、频域特征和倒谱特征;
所述长时音频特征提取,包括:整条音频文件的音频场景高斯超向量和音频场景总变化因子特征提取;
所述音频场景高斯超向量特征提取,包括:
使用大量音频场景背景数据训练一个与目标场景无关的背景模型;
然后针对每个音频场景进行最大后验估计,更新所述背景模型参数,得到不同目标场景的GMM模型;
所述音频场景总变化因子特征提取,包括:
提取高斯超向量;
根据GMM-UBM、高斯超向量和总变化因子分析模型假设,计算总变化矩阵T;
计算总变化因子wn的期望;
将wn期望进行存储得到SI-vector特征向量,所述SI-vector特征向量为音频场景总变化因子特征向量。
2.一种基于长短时特征提取的音频场景识别装置,其特征在于,包括:
预处理模块,用于对输入待识别音频信号进行预处理;
短时提取模块,用于对经过预处理后的所述待识别音频信号,进行短时音频特征提取;
长时提取模块,用于在所述短时提取模块对短时音频特征提取后,进行长时音频特征提取;
输出模块,用于将所述待识别音频信号的所述长、短时音频特征联合,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签;
所述短时提取模块,具体用于短时窗内或者帧级别的短时音频特征提取;所述短时音频特征包括:时域特征、频域特征和倒谱特征;
所述长时提取模块,包括:
第一提取子模块,用于整条音频文件的音频场景高斯超向量特征提取;
第二提取子模块,用于音频场景总变化因子特征提取;
所述第一提取子模块,具体用于使用大量音频场景背景数据训练一个与目标场景无关的背景模型;然后针对每个音频场景进行最大后验估计,更新所述背景模型参数,得到不同目标场景的GMM模型;对所述目标场景均值向量进行更新得到采用计算统计量的方法将所述目标场景的均值向量拼接成一个高维的超向量Sn,所述Sn为音频场景高斯超向量;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810039421.3A CN108305616B (zh) | 2018-01-16 | 2018-01-16 | 一种基于长短时特征提取的音频场景识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810039421.3A CN108305616B (zh) | 2018-01-16 | 2018-01-16 | 一种基于长短时特征提取的音频场景识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108305616A CN108305616A (zh) | 2018-07-20 |
CN108305616B true CN108305616B (zh) | 2021-03-16 |
Family
ID=62869055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810039421.3A Active CN108305616B (zh) | 2018-01-16 | 2018-01-16 | 一种基于长短时特征提取的音频场景识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108305616B (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036382B (zh) * | 2018-08-15 | 2020-06-09 | 武汉大学 | 一种基于kl散度的音频特征提取方法 |
CN110913242B (zh) * | 2018-09-18 | 2021-12-10 | 阿基米德(上海)传媒有限公司 | 一种广播音频标签自动化生成方法 |
CN109346103B (zh) * | 2018-10-30 | 2023-03-28 | 交通运输部公路科学研究所 | 一种用于公路隧道交通事件的音频检测方法 |
CN109448755A (zh) * | 2018-10-30 | 2019-03-08 | 上海力声特医学科技有限公司 | 人工耳蜗听觉场景识别方法 |
CN109448703B (zh) * | 2018-11-14 | 2021-05-11 | 山东师范大学 | 结合深度神经网络和主题模型的音频场景识别方法及系统 |
CN111354372B (zh) * | 2018-12-21 | 2023-07-18 | 中国科学院声学研究所 | 一种基于前后端联合训练的音频场景分类方法及系统 |
CN109741747B (zh) * | 2019-02-19 | 2021-02-12 | 珠海格力电器股份有限公司 | 语音场景识别方法和装置、语音控制方法和设备、空调 |
CN110415707B (zh) * | 2019-04-12 | 2021-11-26 | 杭州电子科技大学 | 一种基于语音特征融合和gmm的说话人识别方法 |
CN110120218B (zh) * | 2019-04-29 | 2021-06-22 | 东北大学 | 基于gmm-hmm的高速公路大型车辆识别方法 |
CN110349597B (zh) * | 2019-07-03 | 2021-06-25 | 山东师范大学 | 一种语音检测方法及装置 |
CN110428835B (zh) * | 2019-08-22 | 2022-09-23 | 深圳市优必选科技股份有限公司 | 一种语音设备的调节方法、装置、存储介质及语音设备 |
CN110600054B (zh) * | 2019-09-06 | 2021-09-21 | 南京工程学院 | 基于网络模型融合的声场景分类方法 |
CN110827854A (zh) * | 2019-10-28 | 2020-02-21 | 国家计算机网络与信息安全管理中心 | 一种环境声音识别方法、装置及可读存储介质 |
CN111091809B (zh) * | 2019-10-31 | 2023-05-23 | 国家计算机网络与信息安全管理中心 | 一种深度特征融合的地域性口音识别方法及装置 |
CN110808067A (zh) * | 2019-11-08 | 2020-02-18 | 福州大学 | 基于二值多频带能量分布的低信噪比声音事件检测方法 |
CN111028861B (zh) * | 2019-12-10 | 2022-02-22 | 思必驰科技股份有限公司 | 频谱掩码模型训练方法、音频场景识别方法及系统 |
CN111182347B (zh) * | 2020-01-07 | 2021-03-23 | 腾讯科技(深圳)有限公司 | 视频片段剪切方法、装置、计算机设备和存储介质 |
CN113129917A (zh) * | 2020-01-15 | 2021-07-16 | 荣耀终端有限公司 | 基于场景识别的语音处理方法及其装置、介质和系统 |
CN111354371B (zh) * | 2020-02-26 | 2022-08-05 | Oppo广东移动通信有限公司 | 交通工具运行状态的预测方法、装置、终端及存储介质 |
CN111369982B (zh) * | 2020-03-13 | 2024-06-25 | 北京远鉴信息技术有限公司 | 音频分类模型的训练方法、音频分类方法、装置及设备 |
CN111445921B (zh) * | 2020-03-20 | 2023-10-17 | 腾讯科技(深圳)有限公司 | 音频特征的提取方法、装置、计算机设备及存储介质 |
CN111816166A (zh) * | 2020-07-17 | 2020-10-23 | 字节跳动有限公司 | 声音识别方法、装置以及存储指令的计算机可读存储介质 |
CN112750459B (zh) * | 2020-08-10 | 2024-02-02 | 腾讯科技(深圳)有限公司 | 音频场景识别方法、装置、设备及计算机可读存储介质 |
CN111798871B (zh) * | 2020-09-08 | 2020-12-29 | 共道网络科技有限公司 | 会话环节识别方法、装置及设备、存储介质 |
CN112908301B (zh) * | 2021-01-27 | 2024-06-11 | 科大讯飞(上海)科技有限公司 | 一种语音识别方法、装置、存储介质及设备 |
CN113192487B (zh) * | 2021-04-30 | 2024-05-03 | 平安科技(深圳)有限公司 | 支持多语言混合的语音识别方法、装置、设备及存储介质 |
CN113539243A (zh) * | 2021-07-06 | 2021-10-22 | 上海商汤智能科技有限公司 | 语音分类模型的训练方法、语音分类方法及相关装置 |
CN116030822A (zh) * | 2022-12-21 | 2023-04-28 | 瑞声科技(南京)有限公司 | 一种音频信号增强方法、装置、设备及可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8639502B1 (en) * | 2009-02-16 | 2014-01-28 | Arrowhead Center, Inc. | Speaker model-based speech enhancement system |
KR101524848B1 (ko) * | 2014-04-10 | 2015-06-02 | 전남대학교산학협력단 | 오디오 유형 판별장치 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102623007B (zh) * | 2011-01-30 | 2014-01-01 | 清华大学 | 基于可变时长的音频特征分类方法 |
CN102799899B (zh) * | 2012-06-29 | 2014-12-10 | 北京理工大学 | 基于svm和gmm的特定音频事件分层泛化识别方法 |
CN102968986B (zh) * | 2012-11-07 | 2015-01-28 | 华南理工大学 | 基于长时特征和短时特征的重叠语音与单人语音区分方法 |
CN104992708B (zh) * | 2015-05-11 | 2018-07-24 | 国家计算机网络与信息安全管理中心 | 短时特定音频检测模型生成与检测方法 |
US10056076B2 (en) * | 2015-09-06 | 2018-08-21 | International Business Machines Corporation | Covariance matrix estimation with structural-based priors for speech processing |
CN105161093B (zh) * | 2015-10-14 | 2019-07-09 | 科大讯飞股份有限公司 | 一种判断说话人数目的方法及系统 |
CN105654944B (zh) * | 2015-12-30 | 2019-11-01 | 中国科学院自动化研究所 | 一种融合了短时与长时特征建模的环境声识别方法及装置 |
CN107342077A (zh) * | 2017-05-27 | 2017-11-10 | 国家计算机网络与信息安全管理中心 | 一种基于因子分析的说话人分段聚类方法及系统 |
-
2018
- 2018-01-16 CN CN201810039421.3A patent/CN108305616B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8639502B1 (en) * | 2009-02-16 | 2014-01-28 | Arrowhead Center, Inc. | Speaker model-based speech enhancement system |
KR101524848B1 (ko) * | 2014-04-10 | 2015-06-02 | 전남대학교산학협력단 | 오디오 유형 판별장치 |
Non-Patent Citations (2)
Title |
---|
基于GMM-UBM的稳健的说话人识别技术研究;张黛;《中国优秀硕士学位论文全文数据库信息科技辑》;20171115;第I136-132页 * |
说话人识别中的总变化因子分析技术;杨琳;《网络新媒体技术》;20130228;第26-30页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108305616A (zh) | 2018-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305616B (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
Basu et al. | A review on emotion recognition using speech | |
CN107731233B (zh) | 一种基于rnn的声纹识别方法 | |
Gaikwad et al. | A review on speech recognition technique | |
Stöter et al. | Countnet: Estimating the number of concurrent speakers using supervised learning | |
Mannepalli et al. | MFCC-GMM based accent recognition system for Telugu speech signals | |
Li et al. | Automatic speaker age and gender recognition using acoustic and prosodic level information fusion | |
CN107452379B (zh) | 一种方言语言的识别方法及虚拟现实教学方法和系统 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN105023573A (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
CN103985381A (zh) | 一种基于参数融合优化决策的音频索引方法 | |
Swain et al. | Study of feature combination using HMM and SVM for multilingual Odiya speech emotion recognition | |
Todkar et al. | Speaker recognition techniques: A review | |
Mistry et al. | Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann) | |
CN111341319A (zh) | 一种基于局部纹理特征的音频场景识别方法及系统 | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
Wu et al. | The DKU-LENOVO Systems for the INTERSPEECH 2019 Computational Paralinguistic Challenge. | |
CN111081273A (zh) | 一种基于声门波信号特征提取的语音情感识别方法 | |
CN111666996A (zh) | 一种基于attention机制的高精度设备源识别方法 | |
Prakash et al. | Analysis of emotion recognition system through speech signal using KNN & GMM classifier | |
Aggarwal et al. | Application of genetically optimized neural networks for hindi speech recognition system | |
Sawakare et al. | Speech recognition techniques: a review | |
Praksah et al. | Analysis of emotion recognition system through speech signal using KNN, GMM & SVM classifier | |
CN114298019A (zh) | 情绪识别方法、装置、设备、存储介质、程序产品 | |
CN114121018A (zh) | 语音文档分类方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |