CN103824557A - 一种具有自定义功能的音频检测分类方法 - Google Patents

一种具有自定义功能的音频检测分类方法 Download PDF

Info

Publication number
CN103824557A
CN103824557A CN201410055255.8A CN201410055255A CN103824557A CN 103824557 A CN103824557 A CN 103824557A CN 201410055255 A CN201410055255 A CN 201410055255A CN 103824557 A CN103824557 A CN 103824557A
Authority
CN
China
Prior art keywords
hybrid models
gauss hybrid
sigma
training
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410055255.8A
Other languages
English (en)
Other versions
CN103824557B (zh
Inventor
杨毅
刘加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huacong Zhijia Technology Co., Ltd.
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201410055255.8A priority Critical patent/CN103824557B/zh
Publication of CN103824557A publication Critical patent/CN103824557A/zh
Priority to PCT/CN2014/091959 priority patent/WO2015124006A1/zh
Application granted granted Critical
Publication of CN103824557B publication Critical patent/CN103824557B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Abstract

一种具有自定义功能的音频检测分类方法,对音频数据进行音频激活检测,通过将部分原始训练集首先按照类型分为若干类训练集,针对每类训练集进行特征提取,并训练与其对应的高斯混合模型及其参数,得到一个全局高斯混合模型;进一步将其他训练集作为新的训练样本,对全局高斯混合模型进行参数更新得到一个局部模型;最后对测试集提取特征,输入局部模型分类器,并对结果进行平滑和输出,本发明通过全局及局部高斯混合模型的训练,可以使高斯混合模型的类别和参数随着样本的增加而更新,与分类器的结合进一步提高了系统性能,最终实现音频检测分类,可广泛应用于涉及音频检测分类的说话人识别、语音识别、人机交互等多种机器学习领域。

Description

一种具有自定义功能的音频检测分类方法
技术领域
本发明属于音频处理技术领域,特别涉及一种具有自定义功能的音频检测分类方法。
背景技术
在音频识别和说话人识别等系统中,音频激活检测(Voice activitydetection,VAD)技术被广泛应用,主要用于排除连续音频信号中与说话人无关的静音和噪声信号,确定音频段的起点以及终点位置,提高语音识别和说话人识别系统的性能。有效而准确的音频激活检测,通过去除噪声段或是无声段的信号,减少系统的数据处理量及对后续音频分析处理的干扰,可以达到提高系统识别性能的目的。对音频激活检测算法的研究已经进行了多年,传统的音频激活检测方法基本上针对安静环境下获得的音频信号进行处理,如基于短时平均能量的方法、基于短时平均过零率的算法和基于倒谱特征的方法。
基于短时平均能量的激活检测算法根据清音能量与浊音能量的差别,利用短时平均能量特征来区分安静环境下的静音段及音频段的清浊音。三者按短时能量顺序排列依次为:浊音>清音>静音,据此可来区分安静环境下的静音段和音频段及音频段信号的清音与浊音。
双门限音频信号的激活检测算法是基于短时平均过零率与短时平均能量相结合的音频激活检测算法,它结合了两种音频信号的特征参数。这种方法首先使用短时平均能量来区分音频段\非音频段,进一步用过零率再次区分音频段\非音频段。相比较于基于短时平均能量的激活检测算法,能够更好的避免以清辅音开头的音频信号被误判成非音频段。
在噪声环境下,短时能量与其它特征参数都不能很好地区分音频段与非音频段。倒谱能很好表示音频的特征,因此在大多数音频识别系统中选择倒谱系数作为输入特征矢量,因此将倒谱系数作为端点检测的参数。基于倒谱特征的激活检测算法将音频信号在频域上分为高、低频带两个信号,频带间可重叠,将得到的两个信号进行预处理后就提取线性预测编码(linearpredictive coding,LPC)倒谱参数,进一步用美尔尺度进行非线性变换得到LPC美尔倒谱系数。随后用倒谱距离法,将倒谱距离代替短时能量作为门限。首先假定前几帧音频信号为背景噪声,计算这些帧的倒谱系数矢量,利用前几帧倒谱矢量的平均值可估计背景噪声的倒谱矢量并不断更新,计算所有测试帧与背景噪声之间的倒谱距离可得到倒谱距离轨迹,利用倒谱距离轨迹可实现激活检测。
隐马尔柯夫模型(Hidden Markov Model,HMM)也可以像倒谱系数那样作为音频特征的统计模型。在HMM音频检测器中,一个为词作标记的连续HMM和一个为背景噪声作标记的连续HMM被训练来分别表示一般音频与噪声的特征,训练采用基于Baum-Welch算法的倒谱向量来进行。HMM与一个语法模型相连接,在端点检测阶段对带噪音频进行预处理以得到输入特征矢量,每一矢量由倒谱系数,倒谱系数的增量或时间导数以及当前帧的短时能量增量等组成,然后引入维特比解码,按照模型参数与输入音频特征流得到与正发生的音频非常相似的音频,维特比解码器给出音频的端点,这种方法的基本系统结构与通常的音频识别器相同。
基于子带能量特征的音频激活检测算法借鉴了图像处理领域中使用的边缘检测方法。边缘检测是一个在图像处理领域中的经典问题,其中较为常用的方法是根据某种优化的准则推导出的线性滤波器,例如指数滤波器、高斯函数一阶差分滤波器等。子带选取主要目标是去除噪声信号能量比较集中的部分,同时尽量保留音频信号的绝大部分能量,据此将音频信号分为高、低频两个子带进行音频段\非音频段的判决。在得到两个子带的起点和结束点后,需要进行子带的融合即综合的判决。最终的音频段起点选取两个子带的起点中靠前的点,终点选取两个子带中比较靠后的结束点作为最终的结束点。
基于熵函数的判决方法设语音信号s(n)的帧长为N,在一帧语音中最大和最小的幅度分别为M和-M,则这一帧的熵定义为:
Figure BDA0000467138980000031
构造出了熵函数之后就可以计算出每帧语音信号的信息熵,根据背景噪声信号的熵值小而浊音信号的熵值大的原理,定义一个门限h,然后对每帧语音的熵值进行比较,大于门限h为语音帧,小于门限h则为无声帧。
上述各种算法在安静环境下性能较好,但在实际的复杂背景噪声环境下系统性能下降明显,在背景噪声较大或者存在大能量突发噪声的情况下就会失效。由于语音识别和说话人识别的应用非常广泛灵活,因此设计一个固定的分类器进行音频激活检测没有通用性。
目前大多数使用的音频激活检测方法在安静的环境下具有很好的性能,但在背景噪声较大,或者存在大能量突发噪声的情况下就会失效。由于语音识别和说话人识别的应用非常广泛灵活,因此设计一个固定的分类器进行噪声探测没有通用性,不具有实际意义。例如,如果安装在一个空调旁边,那么空调的发出的声音应该被定义为主要噪声;而安装在门旁边,那么开门、关门和敲门所产生的声音则应该被定义为主要噪声。例如,在语音识别系统中,环境背景声音和低能量的人声可被定义为主要噪声;在另一些说话人识别系统里,类似尖叫声、爆炸声等突发信号被定义为是噪声,而人声、汽车声等则并不定义为噪声。因此,VAD应该被设计成一个可以自定义的分类器,同时可以用新的音频数据来更新分类器,提高分类器的环境适应性。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种具有自定义功能的音频检测分类方法,将部分原始训练集首先按照类型分为若干类训练集,针对每类训练集进行特征提取,并训练与其对应的高斯混合模型及其参数,得到一个全局高斯混合模型;进一步将其他训练集作为新的训练样本,对全局高斯混合模型进行参数更新得到一个局部模型;最后对测试集提取特征,输入局部模型分类器,并对结果进行平滑和输出,其主要优点在于克服了原有的音频激活检测无法自定义多个类别并进行判决的问题。
为了实现上述目的,本发明采用的技术方案是:
一种具有自定义功能的音频检测分类方法,包括以下步骤:
第一步,不同类别训练样本的特征提取
训练样本包括不同类别的音频信号,对这些训练样本提取声学特征作为说话人识别的训练特征;
第二步,训练全局高斯混合模型参数
在完成对训练样本的特征提取后,对第一类训练样本进行高斯混合模型参数训练,输出第一类训练样本对应的高斯混合模型参数;以此类推,对第m类训练样本进行高斯混合模型参数训练,输出第m类训练样本对应的高斯混合模型参数;
第三步,训练局部高斯混合模型参数
假设在第二步骤得到一系列高斯混合模型参数,当获得新的训练样本,则对全局高斯混合模型进行更新得到局部高斯混合模型参数,将新的训练样本结合全局高斯混合模型进一步训练高斯混合模型参数得到局部高斯混合模型;
第四步,测试分类器
在第三步得到了局部高斯混合模型参数后,构造基于局部高斯混合模型的贝叶斯分类器
Figure BDA0000467138980000041
并对所有测试样本进行音频检测分类。
所述第一步中的声学特征包括人说话声、背景噪声、关门声以及闹市噪声。
所述第一步中,全局模型训练的目的是训练出最基本且最广泛的模型,例如人说话声、背景噪声、关门声、闹市噪声(Babble Noise)等,这些声音几乎在所有的应用里都是需要定义的对象。因此需要对这几种数据预先进行模型训练,得到它们的概率密度分布,从而训练得到全局模型。类似于说话人识别中的通用背景模型(Universal Background Model,UBM),全局模型得到的输出是多个高斯混合模型参数
Figure BDA0000467138980000051
n=1,2,...,Nm,m=1,2,...,M,其中π表示混合模型的混合比例,μ和Σ对应着每一个高斯分布的均值向量和协方差矩阵。Nm表示第m个混合模型高斯分布的个数,n表示类别数量。
所述第三步中局部高斯混合模型训练主要将新的训练数据结合全局模型进一步训练高斯混合模型参数得到局部模型,包括两种情况:一种是新的训练样本属于已有音频类型,则将其加入到已有的训练样本中,更新高斯混合模型参数;另一种是新的训练样本不属于已有音频类型,需要增加高斯混合模型的类别并更新高斯混合模型参数;
在第一种情况中,高斯混合模型参数通常用期望最大化(ExpectationMaximization,EM)的方法来求解,即给定训练数据
Figure BDA0000467138980000052
其中l是样本数目,求出所有的未知参数。在建立高斯混合模型的过程中,如果保存所有的训练样本,需要消耗的资源非常大,可以采用增量学习的思想来用已有的高斯混合模型参数以及新的训练样本来更新高斯混合模型参数。其方法如下:
假设某类高斯混合模型参数为πjjj,j=1,2,...,g,其中g是混合模型的个数,其训练的样本为x1,x2,...,xN,而新的训练样本为
Figure BDA0000467138980000053
需要重新估计高斯混合模型的参数π′j,μ′j,Σ′j,j=1,2,...,g。则其总的期望Q为:
Q ( θ ′ , θ ) = Σ i = 1 N w i T π → + Σ i = 1 N w i T log ( p ( x i | μ → , Σ → ) ) + Σ i = 1 K ( w i in ) T π → m + Σ i = 1 K ( w i in ) T log ( p ( x i in | μ → , Σ → ) ) - - - ( 1 )
其中θ={πjjj},j=1,2,...,g,θ′={π′j,μ′j,Σ′j},j=1,2,...,g, w ij = π j p ( x i | μ j , Σ j ) Σ k = 1 g π k p ( x i | μ k , Σ k ) , i = 1,2 , . . . , N , w ij in = π j p ( x i in | μ j , Σ j ) Σ k = 1 g π k p ( x i in | μ k , Σ k ) , i = 1,2 , . . . , K .
用数学期望来代替训练样本,估计π′j,μ′j,Σ′j,j=1,2,...,g:
π j ′ = 1 N + K ( Nπ j + Σ i = 1 K π j p ( x i in | μ j , Σ j ) Σ k = 1 g π k p ( x i in | μ k , Σ k ) ) - - - ( 2 )
μ j ′ = 1 ( N + K ) π j ′ ( Nπ j μ j + Σ i = 1 K π j x i in p ( x i in | μ j , Σ j ) Σ k = 1 g π k p ( x i in | μ k , Σ k ) ) - - - ( 3 )
Σ j ′ = 1 ( N + K ) π j ( Nπ j ( Σ j + Δμ Δμ j T ) + Σ i = 1 N π j x i in p ( x i in | μ j , Σ j ) Σ k = 1 g π k p ( x i in | μ k , Σ k ) ( x i in - μ j ) ( x i in - μ j ) T ) - - - ( 4 )
其中N和K分别为训练样本xi和新的训练样本
Figure BDA0000467138980000062
的个数。
在第二种情况中,当需要增加一类或者几类新的音频类型并进行判别时,已知当前某类的高斯混合模型参数为πjjj,j=1,2,...,g,其中g是混合模型的个数,原来训练的样本数是N个。同时,我们得到了一些新的训练样本
Figure BDA0000467138980000063
但并不属于现有的高斯混合模型。为了重新估计高斯混合模型的参数,假设新增了h个高斯混合模型参数为πjjj,j=g+1,g+2,...,g+h,则全部g+h个高斯混合模型参数为π′jjj,j=1,2,...,g+h。
与现有技术相比,本发明通过建立全局模型和局部模型,对不同类型的训练样本细化分类,结合全局高斯混合模型训练得到局部高斯混合模型,最终实现具有自定义功能的音频激活检测。本发明方法可以看作一种在机器学习中用局部学习替代全局学习、对不同类型的数据进行建模的方法,通过该方法,可有效地解决无法对音频自定义类型并进行区分的问题。在一些音频激活检测的数据集上采用这种方法,可以获得比基于音频能量或其他特征进行检测的方法更好的性能。
附图说明
图1是本发明的音频检测分类的全局模型训练模块流程图。
图2是本发明的音频检测分类的局部模型训练模块流程图。
图3是本发明的音频检测分类的分类器测试方法流程图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
图1为本发明的音频检测分类的全局模型训练流程图,包括以下内容:
本发明提出一种基于音频检测分类的全局模型训练方法和装置,特别地,用于音频激活检测分类的场景下。这些方法和装置不局限于音频激活检测分类,也可以是任何与音频分类有关的方法和装置。
图1描述了一种基于音频检测分类的全局模型训练实例。
如图1所示的第一类训练样本101包括全部第一类用于训练的音频信号,第二类训练样本102包括全部第二类用于训练的音频信号,以此类推,第M类训练样本103包括全部第M类用于训练的音频信号。
特征提取104指的是,在利用第一步获得音频信号后,提取声学特征作为检测信息,这些声学特征可以为Mel频率倒谱系数(Mel Frequency CepstralCoefficients,MFCC)或线性预测倒谱系数(Linear Frequency CepstralCoefficients,LPCC)等多种声学特征;
第一类高斯混合模型105首先对第一类训练样本101进行模型训练,得到它们的概率密度分布,输出是第一类训练样本对应的高斯混合模型参数
Figure BDA0000467138980000071
其中π表示混合模型的混合比例,μ和Σ对应着每一个高斯分布的均值向量和协方差矩阵。m表示混合模型高斯分布的个数;以此类推,第二类高斯混合模型106输出是第二类训练样本对应的高斯混合模型参数第Nm类高斯混合模型107输出是第Nm类训练样本对应的高斯混合模型参数 π n m , μ n m , Σ n m , n = 1,2 , . . . , N m , m = 1,2 , . . . M , 其中π表示混合模型的混合比例,μ和Σ对应着每一个高斯分布的均值向量和协方差矩阵。Nm表示第m个混合模型高斯分布的个数,n表示类别数量。
图2为本发明的音频检测分类的局部模型训练流程图,包括以下内容:
已知当前全局模型202的参数为πjjj,j=1,2,...,g,其中g是混合模型的个数,原来训练的样本数是N个。当获得新的训练样本201后,其参数更新203方法如下:
局部模型训练包括两种情况:一种是新的训练样本属于已有音频类型,则需要将其加入到已有的训练样本中,更新高斯混合模型参数;另一种是新的训练样本不属于已有音频类型,需要增加高斯混合模型的类别并更新高斯混合模型参数。
在第一种情况中,高斯混合模型参数通常用期望最大化(ExpectationMaximization,EM)的方法来求解,即给定训练数据
Figure BDA0000467138980000081
其中l是样本数目,求出所有的未知参数。在建立高斯混合模型的过程中,如果保存所有的训练样本,需要消耗的资源非常大,可以采用增量学习的思想来用已有的高斯混合模型参数以及新的训练样本来更新高斯混合模型参数。其方法如下:
假设某类高斯混合模型参数为πjjj,j=1,2,...,g,其中g是混合模型的个数,其训练的样本为x1,x2,...,xN,而新的训练样本为
Figure BDA0000467138980000082
需要重新估计高斯混合模型的参数π′j,μ′j,Σ′j,j=1,2,...,g。则其总的期望Q为:
Q ( θ ′ , θ ) = Σ i = 1 N w i T π → + Σ i = 1 N w i T log ( p ( x i | μ → , Σ → ) ) + Σ i = 1 K ( w i in ) T π → m + Σ i = 1 K ( w i in ) T log ( p ( x i in | μ → , Σ → ) )
其中θ={πjjj},j=1,2,...,g,θ′={π′j,μ′j,Σ′j},j=1,2,...,g, w ij = π j p ( x i | μ j , Σ j ) Σ k = 1 g π k p ( x i | μ k , Σ k ) , i = 1,2 , . . . , N , w ij in = π j p ( x i in | μ j , Σ j ) Σ k = 1 g π k p ( x i in | μ k , Σ k ) , i = 1,2 , . . . , K .
用数学期望来代替训练样本,估计π′j,μ′j,Σ′j,j=1,2,...,g:
π j ′ = 1 N + K ( Nπ j + Σ i = 1 K π j p ( x i in | μ j , Σ j ) Σ k = 1 g π k p ( x i in | μ k , Σ k ) )
μ j ′ = 1 ( N + K ) π j ′ ( Nπ j μ j + Σ i = 1 K π j x i in p ( x i in | μ j , Σ j ) Σ k = 1 g π k p ( x i in | μ k , Σ k ) )
Σ j ′ = 1 ( N + K ) π j ( Nπ j ( Σ j + Δμ Δμ j T ) + Σ i = 1 N π j x i in p ( x i in | μ j , Σ j ) Σ k = 1 g π k p ( x i in | μ k , Σ k ) ( x i in - μ j ) ( x i in - μ j ) T )
其中N和K分别为训练样本xi和新的训练样本
Figure BDA0000467138980000088
的个数。
在第二种情况中,当需要增加一类或者几类新的音频类型并进行判别时,已知当前某类的高斯混合模型参数为πjjj,j=1,2,...,g,其中g是混合模型的个数,原来训练的样本数是N个。同时,我们得到了一些新的训练样本
Figure BDA0000467138980000089
但并不属于现有的高斯混合模型。为了重新估计高斯混合模型的参数,假设新增了h个高斯混合模型参数为πjjj,j=g+1,g+2,...,g+h,则全部g+h个高斯混合模型参数为π′jjj,j=1,2,...,g+h。
图3为本发明的音频检测分类的分类器测试流程图,包括以下内容:
测试样本301包括全部第一类用于测试的音频信号;
特征提取302指的是,在利用第一步获得音频信号后,提取声学特征作为检测信息,这些声学特征可以为Mel频率倒谱系数(Mel Frequency CepstralCoefficients,MFCC)或线性预测倒谱系数(Linear Frequency CepstralCoefficients,LPCC)等多种声学特征;
局部分类器303为基于高斯混合模型的贝叶斯分类器,分类器定义如下:
p ( x ) = Σ j = 1 l π j p j ( x ; μ j , Σ j )
其中l=g+h是全部高斯混合模型个数,πj表示第j个混合模型的百分比,pj(x;μjj)是第j个多维高斯分布,其定义如下:
p j ( x ; μ j , Σ j ) = 1 | Σ j | 1 2 ( 2 π ) p 2 exp { - 1 2 ( x - μ j ) T Σ j - 1 ( x - μ j ) }

Claims (3)

1.一种具有自定义功能的音频检测分类方法,其特征在于,包括以下步骤:
第一步,不同类别训练样本的特征提取
训练样本包括不同类别的音频信号,对这些训练样本提取声学特征作为说话人识别的训练特征;
第二步,训练全局高斯混合模型参数
在完成对训练样本的特征提取后,对第一类训练样本进行高斯混合模型参数训练,输出第一类训练样本对应的高斯混合模型参数;以此类推,对第m类训练样本进行高斯混合模型参数训练,输出第m类训练样本对应的高斯混合模型参数;
第三步,训练局部高斯混合模型参数
假设在第二步骤得到一系列高斯混合模型参数,当获得新的训练样本,则对全局高斯混合模型进行更新得到局部高斯混合模型参数,将新的训练样本结合全局高斯混合模型进一步训练高斯混合模型参数得到局部高斯混合模型;
第四步,测试分类器
在第三步得到了局部高斯混合模型参数后,构造基于局部高斯混合模型的贝叶斯分类器
Figure FDA0000467138970000011
并对所有测试样本进行音频检测分类。
2.根据权利要求1所述的具有自定义功能的音频检测分类方法,其特征在于,所述第一步中的声学特征包括人说话声、背景噪声、关门声以及闹市噪声。
3.根据权利要求1所述的具有自定义功能的音频检测分类方法,其特征在于,所述第三步中局部高斯混合模型训练包括两种情况:一种是新的训练样本属于已有音频类型,则将其加入到已有的训练样本中,更新高斯混合模型参数;另一种是新的训练样本不属于已有音频类型,需要增加高斯混合模型的类别并更新高斯混合模型参数;
在第一种情况中,假设已知某类高斯混合模型参数为πjjj,j=1,2,...,g,其中π表示高斯混合模型的混合比例,μ对应每一个高斯分布的均值向量,Σ对应每一个高斯分布的协方差矩阵,g是混合模型的个数,其训练的样本为x1,x2,...,xN,新的训练样本为
Figure FDA0000467138970000021
重新估计高斯混合模型的参数π′j,μ′j,Σ′j,j=1,2,...,g如下:
π j ′ = 1 N + K ( Nπ j + Σ i = 1 K π j p ( x i in | μ j , Σ j ) Σ k = 1 g π k p ( x i in | μ k , Σ k ) )
μ j ′ = 1 ( N + K ) π j ′ ( Nπ j μ j + Σ i = 1 K π j x i in p ( x i in | μ j , Σ j ) Σ k = 1 g π k p ( x i in | μ k , Σ k ) )
Σ j ′ = 1 ( N + K ) π j ( Nπ j ( Σ j + Δμ Δμ j T ) + Σ i = 1 N π j x i in p ( x i in | μ j , Σ j ) Σ k = 1 g π k p ( x i in | μ k , Σ k ) ( x i in - μ j ) ( x i in - μ j ) T )
其中N和K分别为训练样本xi和新的训练样本
Figure FDA0000467138970000025
的个数;
在第二种情况中,当需要增加一类或者几类新的音频类型并进行判别时,已知当前某类的高斯混合模型参数为πjjj,j=1,2,...,g,其中π表示混合模型的混合比例,μ对应每一个高斯分布的均值向量,Σ对应每一个高斯分布的协方差矩阵,g是混合模型的个数,原来训练的样本数是N个;而新的训练样本
Figure FDA0000467138970000026
不属于现有的高斯混合模型,为了重新估计高斯混合模型的参数,假设新增了h个高斯混合模型参数为πjjj,j=g+1,g+2,...,g+h,则全部g+h个高斯混合模型参数为π′jjj,j=1,2,...,g+h。
CN201410055255.8A 2014-02-19 2014-02-19 一种具有自定义功能的音频检测分类方法 Active CN103824557B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410055255.8A CN103824557B (zh) 2014-02-19 2014-02-19 一种具有自定义功能的音频检测分类方法
PCT/CN2014/091959 WO2015124006A1 (zh) 2014-02-19 2014-11-22 一种具有自定义功能的音频检测分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410055255.8A CN103824557B (zh) 2014-02-19 2014-02-19 一种具有自定义功能的音频检测分类方法

Publications (2)

Publication Number Publication Date
CN103824557A true CN103824557A (zh) 2014-05-28
CN103824557B CN103824557B (zh) 2016-06-15

Family

ID=50759580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410055255.8A Active CN103824557B (zh) 2014-02-19 2014-02-19 一种具有自定义功能的音频检测分类方法

Country Status (2)

Country Link
CN (1) CN103824557B (zh)
WO (1) WO2015124006A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361891A (zh) * 2014-11-17 2015-02-18 科大讯飞股份有限公司 特定人群的个性化彩铃自动审核方法及系统
CN104409080A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 语音端点检测方法和装置
WO2015124006A1 (zh) * 2014-02-19 2015-08-27 清华大学 一种具有自定义功能的音频检测分类方法
CN106251861A (zh) * 2016-08-05 2016-12-21 重庆大学 一种基于场景建模的公共场所异常声音检测方法
WO2017166651A1 (zh) * 2016-03-30 2017-10-05 乐视控股(北京)有限公司 语音识别模型训练方法、说话人类型识别方法及装置
CN107358947A (zh) * 2017-06-23 2017-11-17 武汉大学 说话人重识别方法及系统
CN107452384A (zh) * 2016-04-15 2017-12-08 感官公司 针对用于说话人验证的非介入性训练的装置、媒体及方法
CN107993664A (zh) * 2018-01-26 2018-05-04 北京邮电大学 一种基于竞争神经网络的鲁棒说话人识别方法
CN109473112A (zh) * 2018-10-16 2019-03-15 中国电子科技集团公司第三研究所 一种脉冲声纹识别方法、装置、电子设备及存储介质
CN111433843A (zh) * 2017-10-27 2020-07-17 谷歌有限责任公司 语义音频表示的无监督学习
CN111797708A (zh) * 2020-06-12 2020-10-20 瑞声科技(新加坡)有限公司 气流杂音检测方法、装置、终端及存储介质
CN113393848A (zh) * 2021-06-11 2021-09-14 上海明略人工智能(集团)有限公司 用于训练说话人识别模型的方法、装置、电子设备和可读存储介质
CN113421552A (zh) * 2021-06-22 2021-09-21 中国联合网络通信集团有限公司 音频识别方法和装置
CN114626418A (zh) * 2022-03-18 2022-06-14 中国人民解放军32802部队 一种基于多中心复残差网络的辐射源识别方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112396084A (zh) * 2019-08-19 2021-02-23 中国移动通信有限公司研究院 数据处理方法、装置、设备及存储介质
CN114186581A (zh) * 2021-11-15 2022-03-15 国网天津市电力公司 基于mfcc和扩散化高斯混合模型的电缆隐患识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050021337A1 (en) * 2003-07-23 2005-01-27 Tae-Hee Kwon HMM modification method
JP2008209698A (ja) * 2007-02-27 2008-09-11 Nippon Telegr & Teleph Corp <Ntt> 適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体
CN101546557A (zh) * 2008-03-28 2009-09-30 展讯通信(上海)有限公司 用于音频内容识别的分类器参数更新方法
CN101546556A (zh) * 2008-03-28 2009-09-30 展讯通信(上海)有限公司 用于音频内容识别的分类系统
CN103035239A (zh) * 2012-12-17 2013-04-10 清华大学 一种基于局部学习的说话人识别方法
CN103077708A (zh) * 2012-12-27 2013-05-01 安徽科大讯飞信息科技股份有限公司 一种语音识别系统中拒识能力提升方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6963835B2 (en) * 2003-03-31 2005-11-08 Bae Systems Information And Electronic Systems Integration Inc. Cascaded hidden Markov model for meta-state estimation
CN101188107B (zh) * 2007-09-28 2011-09-07 中国民航大学 一种基于小波包分解及混合高斯模型估计的语音识别方法
KR101014321B1 (ko) * 2009-02-24 2011-02-14 한국전자통신연구원 최소 분류 오차 기법을 이용한 감정 인식 방법
CN101937678A (zh) * 2010-07-19 2011-01-05 东南大学 一种针对烦躁情绪的可据判的自动语音情感识别方法
CN103824557B (zh) * 2014-02-19 2016-06-15 清华大学 一种具有自定义功能的音频检测分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050021337A1 (en) * 2003-07-23 2005-01-27 Tae-Hee Kwon HMM modification method
JP2008209698A (ja) * 2007-02-27 2008-09-11 Nippon Telegr & Teleph Corp <Ntt> 適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体
CN101546557A (zh) * 2008-03-28 2009-09-30 展讯通信(上海)有限公司 用于音频内容识别的分类器参数更新方法
CN101546556A (zh) * 2008-03-28 2009-09-30 展讯通信(上海)有限公司 用于音频内容识别的分类系统
CN103035239A (zh) * 2012-12-17 2013-04-10 清华大学 一种基于局部学习的说话人识别方法
CN103077708A (zh) * 2012-12-27 2013-05-01 安徽科大讯飞信息科技股份有限公司 一种语音识别系统中拒识能力提升方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
冷严: ""复杂音频事件检测与分类中的关键词问题研究"", 《中国优秀博士学位论文全文数据库信息科技辑》 *
邬显康: ""基于内容的音频检索技术研究与系统实现"", 《中国优秀博硕士学位论文全文数据库信息科技辑》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015124006A1 (zh) * 2014-02-19 2015-08-27 清华大学 一种具有自定义功能的音频检测分类方法
CN104361891A (zh) * 2014-11-17 2015-02-18 科大讯飞股份有限公司 特定人群的个性化彩铃自动审核方法及系统
CN104409080A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 语音端点检测方法和装置
CN104409080B (zh) * 2014-12-15 2018-09-18 北京国双科技有限公司 语音端点检测方法和装置
WO2017166651A1 (zh) * 2016-03-30 2017-10-05 乐视控股(北京)有限公司 语音识别模型训练方法、说话人类型识别方法及装置
CN107452384A (zh) * 2016-04-15 2017-12-08 感官公司 针对用于说话人验证的非介入性训练的装置、媒体及方法
CN107452384B (zh) * 2016-04-15 2021-02-05 感官公司 针对用于说话人验证的非介入性训练的装置、媒体及方法
CN106251861B (zh) * 2016-08-05 2019-04-23 重庆大学 一种基于场景建模的公共场所异常声音检测方法
CN106251861A (zh) * 2016-08-05 2016-12-21 重庆大学 一种基于场景建模的公共场所异常声音检测方法
CN107358947A (zh) * 2017-06-23 2017-11-17 武汉大学 说话人重识别方法及系统
CN111433843A (zh) * 2017-10-27 2020-07-17 谷歌有限责任公司 语义音频表示的无监督学习
CN107993664A (zh) * 2018-01-26 2018-05-04 北京邮电大学 一种基于竞争神经网络的鲁棒说话人识别方法
CN107993664B (zh) * 2018-01-26 2021-05-28 北京邮电大学 一种基于竞争神经网络的鲁棒说话人识别方法
CN109473112A (zh) * 2018-10-16 2019-03-15 中国电子科技集团公司第三研究所 一种脉冲声纹识别方法、装置、电子设备及存储介质
CN109473112B (zh) * 2018-10-16 2021-10-26 中国电子科技集团公司第三研究所 一种脉冲声纹识别方法、装置、电子设备及存储介质
CN111797708A (zh) * 2020-06-12 2020-10-20 瑞声科技(新加坡)有限公司 气流杂音检测方法、装置、终端及存储介质
CN113393848A (zh) * 2021-06-11 2021-09-14 上海明略人工智能(集团)有限公司 用于训练说话人识别模型的方法、装置、电子设备和可读存储介质
CN113421552A (zh) * 2021-06-22 2021-09-21 中国联合网络通信集团有限公司 音频识别方法和装置
CN114626418A (zh) * 2022-03-18 2022-06-14 中国人民解放军32802部队 一种基于多中心复残差网络的辐射源识别方法及装置

Also Published As

Publication number Publication date
CN103824557B (zh) 2016-06-15
WO2015124006A1 (zh) 2015-08-27

Similar Documents

Publication Publication Date Title
CN103824557B (zh) 一种具有自定义功能的音频检测分类方法
US9792897B1 (en) Phoneme-expert assisted speech recognition and re-synthesis
CN101136199B (zh) 语音数据处理方法和设备
CN103065627A (zh) 基于dtw与hmm证据融合的特种车鸣笛声识别方法
CN104078039A (zh) 基于隐马尔科夫模型的家用服务机器人语音识别系统
US20100145697A1 (en) Similar speaker recognition method and system using nonlinear analysis
CN102890930A (zh) 基于hmm/sofmnn混合模型的语音情感识别方法
CN103985381A (zh) 一种基于参数融合优化决策的音频索引方法
Ramgire et al. A survey on speaker recognition with various feature extraction and classification techniques
Park et al. Voice activity detection in noisy environments based on double-combined fourier transform and line fitting
Sivaram et al. Data-driven and feedback based spectro-temporal features for speech recognition
CN102237082B (zh) 语音识别系统的自适应方法
Miyake et al. Sudden noise reduction based on GMM with noise power estimation
Žibert et al. Speech/non-speech segmentation based on phoneme recognition features
Komlen et al. Text independent speaker recognition using LBG vector quantization
Mathur et al. A study of machine learning algorithms in speech recognition and language identification system
CN114373453A (zh) 一种基于运动轨迹和区分性信息的语音关键词检测方法
Janicki et al. Improving GMM-based speaker recognition using trained voice activity detection
Bora et al. Speaker identification for biometric access control using hybrid features
Salman et al. Speaker verification using boosted cepstral features with gaussian distributions
Hidayat Frequency domain analysis of MFCC feature extraction in children’s speech recognition system
Fujimura Simultaneous gender classification and voice activity detection using deep neural networks
Nehra et al. Speaker identification system using CNN approach
Fabricius et al. Detection of vowel segments in noise with ImageNet neural network architectures
Mittal et al. Age approximation from speech using Gaussian mixture models

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20181115

Address after: 100085 Beijing Haidian District Shangdi Information Industry Base Pioneer Road 1 B Block 2 Floor 2030

Patentee after: Beijing Huacong Zhijia Technology Co., Ltd.

Address before: 100084 Beijing Haidian District 100084 box 82 box, Tsinghua University Patent Office

Patentee before: Tsinghua University