CN102968986A - 基于长时特征和短时特征的重叠语音与单人语音区分方法 - Google Patents

基于长时特征和短时特征的重叠语音与单人语音区分方法 Download PDF

Info

Publication number
CN102968986A
CN102968986A CN2012104421138A CN201210442113A CN102968986A CN 102968986 A CN102968986 A CN 102968986A CN 2012104421138 A CN2012104421138 A CN 2012104421138A CN 201210442113 A CN201210442113 A CN 201210442113A CN 102968986 A CN102968986 A CN 102968986A
Authority
CN
China
Prior art keywords
voice
short
time characteristic
sigma
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012104421138A
Other languages
English (en)
Other versions
CN102968986B (zh
Inventor
李艳雄
陈祝允
贺前华
李广隆
杜佳媛
吴伟
王梓里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201210442113.8A priority Critical patent/CN102968986B/zh
Publication of CN102968986A publication Critical patent/CN102968986A/zh
Application granted granted Critical
Publication of CN102968986B publication Critical patent/CN102968986B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于长时特征和短时特征的重叠语音与单人语音区分方法,包括如下步骤:读入语音;语音预处理,包括预加重、分帧、加窗;提取短时特征参数,从每帧语音中提取各种短时特征参数;提取长时特征参数,计算短时特征参数的统计特征;训练高斯混合模型:采用期望最大化算法训练四个高斯混合模型;模型融合判决:从测试语音中提取短时特征参数和长时特征参数分别作为短时特征模型和长时特征模型的输入,将这两种模型的输出概率进行加权得到总的概率输出值,根据该概率输出值的大小将测试语音判为重叠语音或单人语音,实现两者的区分。与采用短时特征的方法相比,本方法取得了更好的区分效果,区分准确率平均提高了5.9%。

Description

基于长时特征和短时特征的重叠语音与单人语音区分方法
技术领域
本发明涉及语音信号处理和模式识别技术,尤其涉及一种基于长时特征和短时特征的重叠语音与单人语音区分方法。
背景技术
重叠语音(Overlapped Speech,OS)是指多人同时说话时所产生的语音。在多人会话语音中重叠语音频繁出现,例如在ICSI会议语音数据库中,6~14%的语音存在重叠。由于重叠语音与单人语音(一个发音人所产生的语音)的声学特性不同,因此重叠语音的出现将导致目前处理单人语音的语音识别系统、说话人分割聚类系统的性能急剧下降。将重叠语音与单人语音区分开,对于提高多说话人语音识别的性能、说话人分割聚类性能、语音处理系统的实用性都具有非常重要的意义。
目前,文献报道的重叠语音与单人语音的区分方法所采用的特征都是短时特征(Short-term Features,SF),即从短时语音帧(20~40毫秒)中提取的特征。这些短时特征也被应用于语音识别、说话人识别中。例如,梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)、短时能量(Short Time Energy,STE)、过零率(Zero-Crossing Rate,ZCR)等。尽管短时帧层的特征参数能够较好地刻画重叠语音与单人语音的某些差异,但它们却不能刻画上述两种语音在统计意义的差异,例如特征的均值差异、最大值差异、最小值差异、中值差异、均方差的差异等。也就是说,短时特征参数不能有效表征重叠语音与单人语音的统计特性差异。
发明内容
本发明的目的在于解决现有技术所存在的不足,提供一种基于长时特征和短时特征的重叠语音与单人语音区分方法:
一种基于长时特征和短时特征的重叠语音与单人语音区分方法,包括如下步骤:
S1读入语音:读入记录有重叠语音或单人语音的语音文件;
S2语音预处理:对读入的语音文件进行预加重、分帧、加窗;
S3提取短时特征:从经过预处理的语音帧中提取短时特征,所述短时特征包括梅尔频率倒谱系数及其一阶差分、短时能量、过零率,将提取的短时特征拼接得到短时特征矩阵;
S4提取长时特征:计算短时特征矩阵的统计特征,所述统计特征包括均值、最大值、最小值、中值、均方差,得到长时特征矩阵;
S5训练高斯混合模型:采用EM算法训练四个高斯混合模型,包括单人语音的短时特征模型、单人语音的长时特征模型、重叠语音的短时特征模型、重叠语音的长时特征模型;
S6模型融合判决:将短时特征矩阵和长时特征矩阵分别输入短时特征模型和 长时特征模型,所述短时特征模型包括单人语音的短时特征模型和重叠语音的短时特征模型,长时特征模型包括单人语音的长时特征模型和重叠语音的长时特征模型,并将这两种模型的输出概率进行加权得到总的概率输出值,根据总的概率输出值将测试语音判为重叠语音或单人语音,实现重叠语音与单人语音的区分。
所述S2中对读入的语音文件进行预加重、分帧、加窗,具体步骤为:
S2.1预加重,具体为:设置数字滤波器的Z传递函数为H(z)=1-αz-1,其中α取值为:0.9≤α≤1,读入的语音通过数字滤波器后实现预加重;
S2.2分帧、加窗,具体步骤为:
S2.2.1设置语音帧的帧长为40毫秒、帧移为20毫秒,帧长和帧移所对应的采样点个数分别为N=0.04×fs和S=0.02×fs,其中fs为语音采样频率,将输入语音分割成T个语音帧x′t(n),且每个语音帧包含N个采样点;
S2.2.2计算汉明窗函数ω(n):
S2.2.3对每一个语音帧x′t(n)加汉明窗,得到xt(n):
ω ( n ) × x t ′ ( n ) ⇒ { x t ( n ) | n = 0,1 , . . . , N - 1 ; t = 1,2 , . . . , T } .
所述S3从经过预处理的语音帧中提取短时特征,所述短时特征包括梅尔频率倒谱系数及其一阶差分、短时能量、过零率,将提取的短时特征拼接得到短时特征矩阵,具体包括如下步骤:
S3.1提取梅尔频率倒谱系数及其一阶差分,具体为:
S3.1.1对第t帧语音信号xt(n)做离散傅立叶变换,得到线性频谱Xt(k):
X t ( k ) = Σ n = 0 N - 1 x t ( n ) e - j 2 πnk / N ( 0 ≤ n , k ≤ N - 1 )
S3.1.2将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),
S3.1.3将上述对数频谱St(m)经过离散余弦变换变换到倒谱域,得到第t帧梅尔频率倒谱系数Ct(p):
C t ( p ) = &Sigma; m = 0 M - 1 S t ( m ) cos ( ( m + 0.5 ) n&pi; M ) ( 0 &le; p < M )
S3.1.4计算第t帧梅尔频率倒谱系数的一阶差分C′t(p):
C t &prime; ( p ) = 1 &Sigma; q = - Q Q q 2 &Sigma; q = - Q Q q &times; C t ( p + q ) ( 0 &le; p < M )
其中,Q为常数,  Q优选值为3;
S3.1.5对每帧语音重复步骤S3.1.1~S3.1.4,得到所有T帧语音的梅尔频率倒谱系数及其一阶差分,将它们按帧的顺序组合成一个梅尔频率倒谱系数矩阵与一阶差分矩阵,再将这两个矩阵合并构成特征矩阵;
S3.2提取短时能量:
S3.2.1计算第t帧短时能量STEt
STE t = &Sigma; n = 0 N - 1 ( x t ( n ) ) 2 1 &le; t < T
S3.2.2将T帧短时能量STEt拼接成大小为T×1的短时能量特征矩阵STE:
STE=[STE1,STE2,...,STET]TRS
上式中,TRS表示矩阵的转置
S3.3提取过零率,具体为:
S3.3.1计算第t帧过零率ZCRt
ZCR t = 1 2 &Sigma; n = 0 N - 2 | sgn ( x t ( n + 1 ) ) - sgn ( x t ( n ) ) | 1 &le; t &le; T
式中sgn(·)为符号函数;
S3.3.2将T帧过零率ZCRt拼接成大小为T×1的过零率特征矩阵ZCR:
ZCR=[ZCR1,ZCR2,...,ZCRT]TRS
S3.4将MFCCs、ΔMFCCs、STE和ZCR拼接成短时特征矩阵SF:
SF=[MFCCs,ΔMFCCS,STE,ZCR]T×D
式中,D表示短时特征矩阵的维数。
所述S5采用EM算法训练四个高斯混合模型,具体步骤为:
S5.1设一个G阶混合分量的D维高斯混合模型表示为:
P ( F | &theta; ) = &Sigma; i = 1 G w i &times; b i ( F )
式中:wi表示混合权重系数,bi(F)是D维高斯概率分布,表示为:
b i ( F ) = 1 ( 2 &pi; ) D | &Sigma; i | exp ( - 1 2 ( F - u i ) T &Sigma; i - 1 ( F - u i ) )
式中:ui表示均值,∑i表示协方差矩阵,一个高斯模型表示为:θ={wi,ui,∑i},大小为T×D的特征矩阵F=[F1,F2,...,FT]TRS输入高斯混合模型θ,得到的概率值为:
P ( F | &theta; ) = &Pi; t = 1 T P ( F t | &theta; ) ;
S5.2求期望:计算函数Q(θ,θ*):
Q(θ,θ*)=E{lnP[(F,i)|θ]}
整理得:
Q ( &theta; , &theta; * ) = &Sigma; i = 1 G &Sigma; t = 1 T In ( w i ) P ( i | F t , &theta; * ) + &Sigma; i = 1 G &Sigma; t = 1 T In ( P i ( F t | &theta; i ) ) P ( i | F t , &theta; * ) ,
式中ln(·)表示自然对数函数,根据贝叶斯公式,训练特征矩阵在第i个高斯的概率为:
P ( i | F t , &theta; ) = w i P i ( F t ) &Sigma; j = 1 G w j P j ( F t )
S5.3最大化:根据Q(θ,θ*)函数估计θ*={wi,ui,∑i}:
w i = 1 T &Sigma; t = 1 T P ( i | F t , &theta; * ) ,
u i = &Sigma; t = 1 T P ( i | F t , &theta; * ) F t &Sigma; t = 1 T P ( i | F t , &theta; * ) ,
&Sigma; i = &Sigma; t = 1 T P ( i | F t , &theta; * ) ( F t - u i ) ( F t - u i ) TRS &Sigma; t = 1 T P ( i | F t , &theta; * ) ;
S5.4 EM算法迭代高斯混合模型:当似然函数值达到最大时停止迭代,即当P(F|θ*)值相对上次迭代时的P(F|θ)值增幅小于设定的阈值10-4,则停止迭代,得到最终的模型参数:
混合权重系数: w i * = 1 T &Sigma; t = 1 T P ( i | F t , &theta; ) ,
均值矢量: u i * = &Sigma; t = 1 T P ( i | F t , &theta; ) F t &Sigma; t = 1 T P ( i | F t , &theta; ) ,
协方差矩阵: &Sigma; i * * = &Sigma; t = 1 T P ( i | F t , &theta; ) ( F t - u i ) 2 &Sigma; t = 1 T P ( i | F t , &theta; ) ;
S5.5从单人语音的训练样本中提取短时特征矩阵SFS、从重叠语音的训练样本中提取短时特征矩阵SFO
从单人语音的训练样本中提取长时特征矩阵LFS、从重叠语音的训练样本中提取长时特征矩阵LFO;将SFS、SFO、LFS和LFO依次作为特征矩阵F,再重复S5.1-S5.4训练得到单人语音的短时特征模型θSS、单人语音的长时特征模型θSL、重叠语音的短时特征模型θOS、重叠语音的长时特征模型θOL
所述S6模型融合判决的步骤包括:
S6.1将S3中提取的短时特征矩阵SF和S4中提取的长时特征矩阵LF按照S5训练得到θSS和θSL,并按下式进行模型融合,得到最终的输出概率值:
P1=(1-β)×ln(p(SF|θSS))+β×ln(p(LF|θSL)),
上式中,p(SF|θSS)表示特征矩阵SF输入模型θSS时所得到的输出概率,p(LF|θSL)表示特征矩阵LF输入模型θSL时所得到的输出概率,β为加权系数且取值为:0≤β≤1;
S6.2将上述SF和LF分别输入θOS和θOL,并按下式进行模型融合,得到最终的输出概率值:
P2=(1-β)×ln(p(SF|θOS))+β×ln(p(LF|θOL));
S6.3如果P1>P2,则该测试样本被判为单人语音,否则被判为重叠语音。
本发明的有益效果是:结合长时特征和短时特征,并将长时特征模型和短时特征模型进行融合,利用长时特征和短时特征的互补性提高重叠语音与单人语音区分时的准确率。与目前仅采用短时特征的方法相比,区分准确率提高了5.9%。
附图说明
图1为本发明的工作流程图。
具体实施方式
下面结合具体的实施例与说明书附图进行详细描述。
如图1所示,一种基于长时特征和短时特征的重叠语音与单人语音区分方法,具体包括如下步骤:
步骤101,读入语音文件。语音文件记录有单人语音或重叠语音数据,可以是各种格式的音频文件,例如WAV、RAM、MP3、VOX等。
步骤102,对读入的语音进行预处理,包括预加重、分帧、加窗。
所述预处理具体包括以下步骤:
1)预加重:设置数字滤波器的Z传递函数为H(z)=1-αz-1,其中α为预加重系数且取值为0.95,读入的语音通过该数字滤波器后实现预加重处理;
2)分帧、加窗:
2.1)设置语音帧的帧长为40毫秒、帧移为20毫秒,帧长和帧移所对应的采样点个数分别为N=0.04×fs和S=0.02×fs,其中fs为语音采样频率,将读入语音分割成T个语音帧x′t(n),且每帧包含N个采样点;所述N和S越大,同一个语音段被分帧之后得到的帧数T就越小,反之则越大。
2.2)计算汉明窗函数:
Figure BDA00002366071000061
2.3)对每一个语音帧x′t(n)加汉明窗,得到xt(n):
&omega; ( n ) &times; x t &prime; ( n ) &DoubleRightArrow; { x t ( n ) | n = 0,1 , . . . , N - 1 ; t = 1,2 , . . . , T } .
步骤103,从经过预处理的语音帧中提取包括梅尔频率倒谱系数MFCCs、一阶差分ΔMFCCs、短时能量STE和过零率ZCR的短时特征,并将它们拼接成一个短时特征矩阵SF。具体步骤如下:
1)提取MFCCs及其一阶差分ΔMFCCs:
1.1)对第t帧语音xt(n)做离散傅立叶变换(Discrete Fourier Transformation,DFT)得到线性频谱Xt(k):
X t ( k ) = &Sigma; n = 0 N - 1 x t ( n ) e - j 2 &pi;nk / N (0≤n,k≤N-1)
1.2)将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),其中梅尔频率滤波器组为若干个带通滤波器Hm(k),0≤m<M,M为滤波器的个数,每个滤波器具有三角形滤波特性,其中心频率为f(m),当m值较小时相邻f(m)之间的间隔也较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
H m ( k ) = 0 ( k < f ( m - 1 ) ) k - f ( m - 1 ) f ( m ) - f ( m - 1 ) ( f ( m - 1 ) &le; k &le; f ( m ) ) f ( m + 1 ) - k f ( m + 1 ) - f ( m ) ( f ( m ) < k &le; f ( m + 1 ) ) 0 ( k > f ( m + 1 ) ) ( 0 &le; m < M )
其中,f(m)定义如下:
f ( m ) = ( N f s ) B - 1 ( B ( f l ) + m B ( f h + B ( f l ) ) M + 1 )
其中,fl、fh为滤波器的频率应用范围的最低频率和最高频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
因此由线性谱Xt(k)到对数谱St(m)的函数式为:
S t ( m ) = In ( &Sigma; k = 0 N - 1 | X t ( k ) | 2 H m ( k ) ) (0≤m<M)
1.3)将上述对数频谱St(m)经过离散余弦变换变换到倒谱域,得到第t帧MFCCs,Ct(p):
C t ( p ) = &Sigma; m = 0 M - 1 S t ( m ) cos ( ( m + 0.5 ) n&pi; M ) (0≤p<M)
1.4)计算第t帧MFCCs的一阶差分ΔMFCCs,C′t(p):
C t &prime; ( p ) = 1 &Sigma; q = - Q Q q 2 &Sigma; q = - Q Q q &times; C t ( p + q ) (0≤p<M)
其中,Q为常数,实验时取值为3;
1.5)对每帧语音重复步骤1.1)~1.4),得到所有T帧语音的MFCCs和ΔMFCCs,将它们按帧的顺序组合成一个MFCCs矩阵和ΔMFCCs矩阵,再将这两个矩阵合并构成特征矩阵[MFCCs,ΔMFCCs]。
2)提取短时能量,具体为:
2.1)计算第t帧短时能量STEt
STE t = &Sigma; n = 0 N - 1 ( x t ( n ) ) 2 1≤t≤T
2.2)将T帧短时能量STEt拼接成大小为T×1的短时能量特征矩阵STE:
STE=[STE1,STE2,...,STET]TRS
式中TRS表示矩阵的转置;
3)提取过零率,具体为:
3.1)计算第t帧过零率ZCRt
ZCR t = 1 2 &Sigma; n = 0 N - 2 | sgn ( x t ( n + 1 ) ) - sgn ( x t ( n ) ) | 1≤t≤T
式中sgn(·)为符号函数;
3.2)将T帧过零率ZCRt拼接成大小为T×1的过零率特征矩阵ZCR:
ZCR=[ZCR1,ZCR2,...,ZCRT]TRS
4)将MFCCs、ΔMFCCs、STE和ZCR拼接成短时特征矩阵SF:
SF=[MFCCs,ΔMFCCS,STE,ZCR]T×D
式中D表示短时特征矩阵的维数,与所采用的短时特征个数有关,文中采用3个短时特征。如果MFCC和Delta-MFCC各取12阶,STE和ZCR各取1阶,则D值为26。其实,MFCC和ΔMFCCs的阶数确定时,D的值就确定了。
步骤104,计算短时特征参数的统计特征,包括均值、最大值、最小值、中值、均方差,得到长时特征矩阵LF。具体步骤如下:
1)计算均值特征Mean,具体为:
1.1)计算短时特征矩阵SF各维的均值Meanj
Mean j = 1 T &Sigma; t = 1 T SF t , j 1≤j≤D;
1.2)将各维均值拼接成均值矩阵Mean:
Mean=[Mean1,Mean2,...,MeanD]1×D
2)计算最大值特征Maxi,具体为:
2.1)计算短时特征矩阵SF各维的最大值Maxij
Maxi j = max 1 &le; t &le; T ( SF t , j ) 1≤j≤D,
式中max(·)表示计算最大值;
2.2)将各维最大值拼接成最大值矩阵Maxi:
Maxi=[Maxi1,Maxi2,...,MaxiD]1×D
3)计算最小值特征Mini,具体为:
3.1)计算短时特征矩阵SF各维的最小值Minij
Mini j = min 1 &le; t &le; T ( SF t , j ) 1≤j≤D,
式中min(·)表示计算最小值;
3.2)将各维最小值拼接成最小值矩阵Mini:
Mini=[Mini1,Mini2,...,MiniD]1×D
4)计算中值特征Medi,具体为:
4.1)计算短时特征矩阵SF各维的中值Medij
Medi j = median 1 &le; t &le; T ( SF t , j ) 1≤j≤D,
式中median(·)表示计算中值;
4.2)将各维中值拼接成中值矩阵Medi:
Medi=[Medi1,Medi2,...,MediD]1×D
5)计算标准差特征Std,具体为:
5.1)计算短时特征矩阵SF各维的标准差Stdj
Std j = std 1 &le; t &le; T ( SF t , j ) 1≤j≤D,
式中std(·)表示计算标准差;
5.2)将各维标准差拼接成标准差矩阵Std:
Std=[Std1,Std2,...,StdD]1×D
6)将上述提取出来的5个长时特征拼接成长时特征矩阵LF:
LF=[Mean,Maxi,Mini,Medi,Std]1×D′
式中D′=5×D为长时特征矩阵的维数。
步骤105,采用EM算法训练四个高斯混合模型(GMM):单人语音的短时特征模型θSS、单人语音的长时特征模型θSL、重叠语音的短时特征模型θOS、重叠语音的长时特征模型θOL。具体步骤如下:
1)设一个G阶混合分量的D维GMM表示为:
P ( F | &theta; ) = &Sigma; i = 1 G w i &times; b i ( F )
式中wi表示混合权重系数,bi(F)是D维高斯概率分布,表示为:
b i ( F ) = 1 ( 2 &pi; ) D | &Sigma; i | exp ( - 1 2 ( F - u i ) T &Sigma; i - 1 ( F - u i ) )
式中ui表示均值,表示∑i协方差矩阵,一个GMM表示为:θ={wi,ui,∑i},大小为T×D的特征矩阵F=[F1,F2,...,FT]TRS输入高斯混合模型θ,得到的概率值(似然函数值)为:
P ( F | &theta; ) = &Pi; t = 1 T P ( F t | &theta; ) ;
2)求期望:计算函数Q(θ,θ*):
Q(θ,θ*)=E{lnP[(F,i)|θ]}
整理得:
Q ( &theta; , &theta; * ) = &Sigma; i = 1 G &Sigma; t = 1 T In ( w i ) P ( i | F t , &theta; * ) + &Sigma; i = 1 G &Sigma; t = 1 T In ( P i ( F t | &theta; i ) ) P ( i | F t , &theta; * ) ,
式中ln(·)表示自然对数函数,根据贝叶斯公式,训练特征矩阵在第i个高斯的概率为:
P ( i | F t , &theta; ) = w i P i ( F t ) &Sigma; j = 1 G w j P j ( F t )
3)最大化:根据Q(θ,θ*)函数估计θ*={wi,ui,∑i}:
w i = 1 T &Sigma; t = 1 T P ( i | F t , &theta; * ) ,
u i = &Sigma; t = 1 T P ( i | F t , &theta; * ) F t &Sigma; t = 1 T P ( i | F t , &theta; * ) ,
&Sigma; i = &Sigma; t = 1 T P ( i | F t , &theta; * ) ( F t - u i ) ( F t - u i ) TRS &Sigma; t = 1 T P ( i | F t , &theta; * ) ;
4)EM算法迭代高斯混合模型GMM:当似然函数的值达到最大时停止迭代,即当P(F|θ*)值相对上次迭代时的P(F|θ)值增幅小于设定的阈值10-4,则停止迭代,得到最终的模型参数:
混合权重系数: w i * = 1 T &Sigma; t = 1 T P ( i | F t , &theta; ) ,
均值矢量: u i * = &Sigma; t = 1 T P ( i | F t , &theta; ) F t &Sigma; t = 1 T P ( i | F t , &theta; ) ,
协方差矩阵: &Sigma; i * = &Sigma; t = 1 T P ( i | F t , &theta; ) ( F t - u i ) 2 &Sigma; t = 1 T P ( i | F t , &theta; ) ;
5)按照步骤103,从单人语音的训练样本中提取短时特征矩阵SFS、从重叠语音的训练样本中提取短时特征矩阵SFO;按照步骤104,从单人语音的训练样本中提取长时特征矩阵LFS、从重叠语音的训练样本中提取长时特征矩阵LFO;将SFS、SFO、LFS和LFO依次作为特征矩阵F,再重复步骤1)至4)(即重复采用EM算法)训练得到四个高斯混合模型:单人语音的短时特征模型θSS、单人语音的长时特征模型θSL、重叠语音的短时特征模型θOS、重叠语音的长时特征模型θOL
步骤106,将短时特征矩阵SF和长时特征矩阵LF分别输入短时特征模型θS和长时特征模型θL,将这两种模型的输出概率(p(SF|θS)和p(LF|θL))进行加权(融合)得到总的概率输出值,根据该概率输出值的大小将测试语音判为重叠语音或单人语音,实现两者的区分。具体步骤如下:
1)分别按照步骤103和步骤104,从读入的测试样本中依次提取短时特征矩阵SF和长时特征矩阵LF;
2)将上述SF和LF分别输入步骤105训练得到的θSS和θSL,并按下式进行模型融合,得到最终的输出概率值:
P1=(1-β)×ln(p(SF|θSS))+β×ln(p(LF|θSL)),
上式中,p(SF|θSS)表示特征矩阵SF输入模型θSS时所得到的输出概率,p(LF|θSL)表示特征矩阵LF输入模型θSL时所得到的输出概率,β为加权系数且取值为:0≤β≤1;
3)将上述SF和LF分别输入θOS和θOL,并按下式进行模型融合,得到最终的输出概率值:
P2=(1-β)×ln(p(SF|θOS))+β×ln(p(LF|θOL));
4)如果P1>P2,则该测试样本被判为单人语音,否则被判为重叠语音;
5)重复步骤1)至4),直到所有测试样本被处理完为止,从而实现重叠语音与单人语音的区分。
所述N、T、n、D均为正整数。
实施例1
实验数据取自汉语普通话自然口语对话语料库(Chinese Annotated Dialogueand Conversation Corpus,CADCC)。语音数据由经过挑选的标准普通话发音人在专业录音环境下录制,共计12个对话单元,每一对话单元有两位发音人。采样频率为16 kHz,16 bit量化,并保存为单声道WAV格式,库容量约1.6GB。训练数据中,重叠语音样本和单人语音样本各500个;测试数据中,重叠语音样本和单人语音样本分别为427个和505个。重叠语音及单人语音样本的时长范围为0.8~6秒。对每个语音样本分帧并提取特征,帧长为40毫秒,帧移为20毫秒。短时特征矩阵的维数D=28,其中MFCCs和ΔMFCCs的维数各为13,短时能量和过零率的维数各为1。长时特征矩阵的维数D′=140。令NO和NS分别表示标注为重叠语音和单人语音的样本总数(NO+NS表示待区分重叠语音和单人语音样本的总数),N′O和N′S分别表示被正确区分的重叠语音和单人语音样本个数。区分正确率(DiscriminationAccuracy,DA)定义为:
DA = N O &prime; + N S &prime; N O + N S
为了评估本方法的有效性,实验比较了本方法与基于短时特征的方法的性能差异。实验讨论了7种常用高斯混合度(G)情况下,两种方法的性能差异。表1给出了加权系数β为0~1,高斯混合度G分别为4、8、16、20、25、30、32时的实验结果。
表1  区分重叠语音与单人语音的实验结果
Figure BDA00002366071000131
根据模型融合表达式P1(或P2),β等于0时的结果即为基于短时特征的区分方法的结果,β等于1.0时的结果即为基于长时特征的区分方法的结果。从表1可知:当高斯混合度G从4增大到32时,(1)长时特征的区分能力都优于短时特征的能力,而且本方法(基于长时特征和短时特征的方法)的区分能力是最优的,验证了本方法的有效性;(2)在β=0.7~1.0时,本方法都取得了最高的区分正确率;(3)在上述7种高斯混合度的情况下,当β=0.8时,本方法的平均区分正确率最高且为92.3%,而基于短时特征的方法(β=0)的平均区分正确率仅为86.4%;与后者相比,区分正确率提高了5.9%。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种基于长时特征和短时特征的重叠语音与单人语音区分方法,其特征在于,包括如下步骤:
S1读入语音:读入记录有重叠语音或单人语音的语音文件;
S2语音预处理:对读入的语音文件进行预加重、分帧、加窗;
S3提取短时特征:从经过预处理的语音帧中提取短时特征,所述短时特征包括梅尔频率倒谱系数及其一阶差分、短时能量、过零率,将提取的短时特征拼接得到短时特征矩阵;
S4提取长时特征:计算短时特征矩阵的统计特征,所述统计特征包括均值、最大值、最小值、中值、均方差,得到长时特征矩阵;
S5训练高斯混合模型:采用EM算法训练四个高斯混合模型,包括单人语音的短时特征模型、单人语音的长时特征模型、重叠语音的短时特征模型、重叠语音的长时特征模型;
S6模型融合判决:将短时特征矩阵和长时特征矩阵分别输入短时特征模型和长时特征模型,所述短时特征模型包括单人语音的短时特征模型和重叠语音的短时特征模型,长时特征模型包括单人语音的长时特征模型和重叠语音的长时特征模型,并将这两种模型的输出概率进行加权得到总的概率输出值,根据总的概率输出值将测试语音判为重叠语音或单人语音,实现重叠语音与单人语音的区分。
2.根据权利要求1所述的区分方法,其特征在于,所述S2中对读入的语音文件进行预加重、分帧、加窗,具体步骤为:
S2.1所述预加重,具体为:设置数字滤波器的Z传递函数为H(z)=1-αz-1,其中α取值为:0.9≤α≤1,读入的语音文件通过数字滤波器后实现预加重;
S2.2所述分帧、加窗,具体步骤为:
S2.2.1设置语音帧的帧长为40毫秒、帧移为20毫秒,帧长和帧移所对应的采样点个数分别为N=0.04×fs和S=0.02×fs,其中fs为语音采样频率,将输入语音信号分割成T个语音帧x′t(n),且每个语音帧包含N个采样点;
S2.2.2计算汉明窗函数ω(n):
Figure FDA00002366070900011
S2.2.3对每一个语音帧x′t(n)加汉明窗,得到xt(n):
&omega; ( n ) &times; x t &prime; ( n ) &DoubleRightArrow; { x t ( n ) | n = 0,1 , . . . , N - 1 ; t = 1,2 , . . . , T } .
3.根据权利要求1所述的区分方法,其特征在于,所述S3从经过预处理的语音帧中提取短时特征,所述短时特征包括梅尔频率倒谱系数及其一阶差分、短时能量、过零率,将提取的短时特征拼接得到短时特征矩阵,具体包括如下步骤:
S3.1提取梅尔频率倒谱系数及其一阶差分,具体为:
S3.1.1对第t帧语音信号xt(n)做离散傅立叶变换,得到线性频谱Xt(k):
X t ( k ) = &Sigma; n = 0 N - 1 x t ( n ) e - j 2 &pi;nk / N (0≤n,k≤N-1)
S3.1.2将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),
S3.1.3将上述对数频谱St(m)经过离散余弦变换变换到倒谱域,得到第t帧梅尔频率倒谱系数Ct(p):
C t ( p ) = &Sigma; m = 0 M - 1 S t ( m ) cos ( ( m + 0.5 ) n&pi; M ) (0≤p<M),
S3.1.4计算第t帧梅尔频率倒谱系数的一阶差分C′t(p):
C t &prime; ( p ) = 1 &Sigma; q = - Q Q q 2 &Sigma; q = - Q Q q &times; C t ( p + q ) (0≤p<M)
其中,Q为常数;
S3.1.5对每帧语音重复步骤S3.1.1~S3.1.4,得到所有T帧语音的梅尔频率倒谱系数及其一阶差分,将它们按帧的顺序组合成一个梅尔频率倒谱系数矩阵与一阶差分矩阵,再将这两个矩阵合并构成特征矩阵;
S3.2提取短时能量,具体为:
S3.2.1计算第t帧短时能量STEt
STE t = &Sigma; n = 0 N - 1 ( x t ( n ) ) 2 1≤t≤T
S3.2.2将T帧短时能量STEt拼接成大小为T×1的短时能量特征矩阵STE:
STE=[STE1,STE2,...,STET]TRS
上式中,TRS表示矩阵的转置,T表示帧数;
S3.3提取过零率,具体为:
S3.3.1计算第t帧过零率ZCRt
ZCR t = 1 2 &Sigma; n = 0 N - 2 | sgn ( x t ( n + 1 ) ) - sgn ( x t ( n ) ) | 1≤t≤T
式中sgn(·)为符号函数;
S3.3.2将T帧过零率ZCRt拼接成大小为T×1的过零率特征矩阵ZCR:
ZCR=[ZCR1,ZCR2,...,ZCRT]TRS
S3.4将MFCCs、ΔMFCCs、STE和ZCR拼接成短时特征矩阵SF:
SF=[MFCCs,ΔMFCCS,STE,ZCR]T×D
式中,D表示短时特征矩阵的维数。
4.根据权利要求1所述的区分方法,其特征在于,所述S4计算短时特征矩阵的统计特征,所述统计特征包括均值、最大值、最小值、中值、均方差,得到长时特征矩阵,具体步骤为:
S4.1计算均值特征Mean,具体为:
S4.1.1计算短时特征矩阵SF各维的均值Meanj
Mean j = 1 T &Sigma; t = 1 T SF t , j 1≤j≤D;
S4.1.2将各维均值拼接成均值矩阵Mean:
Mean=[Mean1,Mean2,...,MeanD]1×D
S4.2计算最大值特征Maxi,具体为:
S4.2.1计算短时特征矩阵SF各维的最大值Maxij
Maxi j = max 1 &le; t &le; T ( SF t , j ) 1≤j≤D,
S4.2.2将各维最大值拼接成最大值矩阵Maxi:
Maxi=[Maxi1,Maxi2,...,MaxiD]1×D
S4.3计算最小值特征Mini,具体为:
S4.3.1计算短时特征矩阵SF各维的最小值Minij
Mini j = min 1 &le; t &le; T ( SF t , j ) 1≤j≤D,
S4.3.2将各维最小值拼接成最小值矩阵Mini:
Mini=[Mini1,Mini2,...,MiniD]1×D
S4.4计算中值特征Medi,具体为:
S4.4.1计算短时特征矩阵SF各维的中值Medij
Medi j = median 1 &le; t &le; T ( SF t , j ) 1≤j≤D,
式中median(·)表示计算中值;
S4.4.2将各维中值拼接成中值矩阵Medi:
Medi=[Medi1,Medi2,...,MediD]1×D
S4.5计算标准差特征Std,具体为:
S4.5.1计算短时特征矩阵SF各维的标准差Stdj
Std j = std 1 &le; t &le; T ( SF t , j ) 1≤j≤D,
式中std(·)表示计算标准差;
S4.5.2将各维标准差拼接成标准差矩阵Std:
Std=[Std1,Std2,...,StdD]1×D
S4.6将上述提取出来的均值、最大值、最小值、中值、均方差特征拼接成长时特征矩阵LF:
LF=[Mean,Maxi,Mini,Medi,Std]1×D′
式中D′=5×D为长时特征矩阵的维数。
5.根据权利要求1所述的区分方法,其特征在于,所述S5采用EM算法训练四个高斯混合模型,具体步骤为:
S5.1设一个G阶混合分量的D维高斯混合模型表示为:
P ( F | &theta; ) = &Sigma; i = 1 G w i &times; b i ( F )
式中:wi表示混合权重系数,bi(F)是D维高斯概率分布,表示为:
b i ( F ) = 1 ( 2 &pi; ) D | &Sigma; i | exp ( - 1 2 ( F - u i ) T &Sigma; i - 1 ( F - u i ) )
式中:ui表示均值,∑i表示协方差矩阵,一个高斯模型表示为:θ={wi,ui,∑i},大小为T×D的特征矩阵F=[F1,F2,...,FT]TRS输入高斯混合模型θ,得到的概率值为:
P ( F | &theta; ) = &Pi; t = 1 T P ( F t | &theta; ) ;
S5.2求期望:计算函数Q(θ,θ*):
Q(θ,θ*)=E{lnP[(F,i)|θ]}
整理得:
Q ( &theta; , &theta; * ) = &Sigma; i = 1 G &Sigma; t = 1 T In ( w i ) P ( i | F t , &theta; * ) + &Sigma; i = 1 G &Sigma; t = 1 T In ( P i ( F t | &theta; i ) ) P ( i | F t , &theta; * ) ,
式中ln(·)表示自然对数函数,根据贝叶斯公式,训练特征矩阵在第i个高斯的概率为:
P ( i | F t , &theta; ) = w i P i ( F t ) &Sigma; j = 1 G w j P j ( F t )
S5.3最大化:根据Q(θ,θ*)函数估计θ*={wi,ui,∑i}:
w i = 1 T &Sigma; t = 1 T P ( i | F t , &theta; * ) ,
u i = &Sigma; t = 1 T P ( i | F t , &theta; * ) F t &Sigma; t = 1 T P ( i | F t , &theta; * ) ,
&Sigma; i = &Sigma; t = 1 T P ( i | F t , &theta; * ) ( F t - u i ) ( F t - u i ) TRS &Sigma; t = 1 T P ( i | F t , &theta; * ) ;
S5.4EM算法迭代高斯混合模型:当似然函数值达到最大时停止迭代,即当P(F|θ*)值相对上次迭代时的P(F|θ)值增幅小于设定的阈值,则停止迭代,得到最终的模型参数,所述模型参数如下:
混合权重系数: w i * = 1 T &Sigma; t = 1 T P ( i | F t , &theta; ) ,
均值矢量: u i * = &Sigma; t = 1 T P ( i | F t , &theta; ) F t &Sigma; t = 1 T P ( i | F t , &theta; ) ,
协方差矩阵: &Sigma; i * = &Sigma; t = 1 T P ( i | F t , &theta; ) ( F t - u i ) 2 &Sigma; t = 1 T P ( i | F t , &theta; ) ;
S5.5从单人语音的训练样本中提取短时特征矩阵SFS、从重叠语音的训练样本中提取短时特征矩阵SFO
从单人语音的训练样本中提取长时特征矩阵LFS、从重叠语音的训练样本中提取长时特征矩阵LFO;将SFS、SFO、LFS和LFO依次作为特征矩阵F,再重复S5.1-S5.4训练得到单人语音的短时特征模型θSS、单人语音的长时特征模型θSL、重叠语音的短时特征模型θOS、重叠语音的长时特征模型θOL
6.根据权利要求1所述的区分方法,其特征在于,所述S6模型融合判决,具体步骤包括:
S6.1将S3中提取的短时特征矩阵SF和S4中提取的长时特征矩阵LF按照S5训练得到θSS和θSL,并按下式进行模型融合,得到最终的输出概率值:
P1=(1-β)×ln(p(SF|θSS))+β×ln(p(LF|θSL)),
上式中,p(SF|θSS)表示特征矩阵SF输入模型θSS时所得到的输出概率,p(LF|θSL)表示特征矩阵LF输入模型θSL时所得到的输出概率,β为加权系数且取值为:0≤β≤1;
S6.2将上述SF和LF分别输入θOS和θOL,并按下式进行模型融合,得到最终的输出概率值:
P2=(1-β)×ln(p(SF|θOS))+β×ln(p(LF|θOL));
S6.3如果P1>P2,则该测试样本被判为单人语音,否则被判为重叠语音。
7.根据权利要求3所述的区分方法,其特征在于,所述步骤S3.1.4中Q取值为3。
8.根据权利要求5所述的区分方法,其特征在于,所述步骤S5.4中设定的阈值为10-4
CN201210442113.8A 2012-11-07 2012-11-07 基于长时特征和短时特征的重叠语音与单人语音区分方法 Expired - Fee Related CN102968986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210442113.8A CN102968986B (zh) 2012-11-07 2012-11-07 基于长时特征和短时特征的重叠语音与单人语音区分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210442113.8A CN102968986B (zh) 2012-11-07 2012-11-07 基于长时特征和短时特征的重叠语音与单人语音区分方法

Publications (2)

Publication Number Publication Date
CN102968986A true CN102968986A (zh) 2013-03-13
CN102968986B CN102968986B (zh) 2015-01-28

Family

ID=47799093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210442113.8A Expired - Fee Related CN102968986B (zh) 2012-11-07 2012-11-07 基于长时特征和短时特征的重叠语音与单人语音区分方法

Country Status (1)

Country Link
CN (1) CN102968986B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530432A (zh) * 2013-09-24 2014-01-22 华南理工大学 一种具有语音提取功能的会议记录器及语音提取方法
CN104992707A (zh) * 2015-05-19 2015-10-21 四川大学 一种腭裂语音喉塞音自动识别算法及装置
CN105578115A (zh) * 2015-12-22 2016-05-11 深圳市鹰硕音频科技有限公司 一种具有语音评估功能的网络教学方法及系统
CN106531195A (zh) * 2016-11-08 2017-03-22 北京理工大学 一种对话冲突检测方法及装置
CN106611604A (zh) * 2015-10-23 2017-05-03 中国科学院声学研究所 一种基于深度神经网络的自动语音叠音检测方法
CN106847267A (zh) * 2015-12-04 2017-06-13 中国科学院声学研究所 一种连续语音流中的叠音检测方法
CN106920557A (zh) * 2015-12-24 2017-07-04 中国电信股份有限公司 一种基于小波变换的分布声纹识别方法和装置
CN106941005A (zh) * 2017-02-24 2017-07-11 华南理工大学 一种基于语音声学特征的声带异常检测方法
CN106952644A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于瓶颈特征的复杂音频分割聚类方法
CN106982286A (zh) * 2017-04-26 2017-07-25 努比亚技术有限公司 一种录音方法、设备和计算机可读存储介质
CN107045870A (zh) * 2017-05-23 2017-08-15 南京理工大学 一种基于特征值编码的语音信号端点检测方法
CN108169639A (zh) * 2017-12-29 2018-06-15 南京康尼环网开关设备有限公司 基于并行长短时记忆神经网络的识别开关柜故障的方法
CN108305616A (zh) * 2018-01-16 2018-07-20 国家计算机网络与信息安全管理中心 一种基于长短时特征提取的音频场景识别方法及装置
CN108766459A (zh) * 2018-06-13 2018-11-06 北京联合大学 一种多人语音混合中目标说话人估计方法及系统
CN109431517A (zh) * 2018-11-13 2019-03-08 四川长虹电器股份有限公司 一种基于心音的身份识别方法
CN109871817A (zh) * 2019-02-27 2019-06-11 河北工业大学 基于足底压力和自适应集成学习的行走状态识别方法
CN110411554A (zh) * 2018-04-27 2019-11-05 华为技术有限公司 一种电机设备检测方法、装置及系统
CN110648656A (zh) * 2019-08-28 2020-01-03 北京达佳互联信息技术有限公司 语音端点检测方法、装置、电子设备及存储介质
CN110675845A (zh) * 2019-09-25 2020-01-10 杨岱锦 人声哼唱精确识别算法及数字记谱方法
CN111145782A (zh) * 2019-12-20 2020-05-12 深圳追一科技有限公司 重叠语音识别方法、装置、计算机设备和存储介质
CN111640456A (zh) * 2020-06-04 2020-09-08 合肥讯飞数码科技有限公司 叠音检测方法、装置和设备
CN112331181A (zh) * 2019-07-30 2021-02-05 中国科学院声学研究所 一种基于多说话人条件下目标说话人语音提取方法
CN112687390A (zh) * 2021-03-12 2021-04-20 中国科学院自动化研究所 基于混合网络和lp范数池化的抑郁状态检测方法及装置
CN112750459A (zh) * 2020-08-10 2021-05-04 腾讯科技(深圳)有限公司 音频场景识别方法、装置、设备及计算机可读存储介质
WO2022033109A1 (zh) * 2020-08-14 2022-02-17 海宁奕斯伟集成电路设计有限公司 语音检测方法、装置和电子设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135492B (zh) * 2019-05-13 2020-12-22 山东大学 基于多高斯模型的设备故障诊断与异常检测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1920947A (zh) * 2006-09-15 2007-02-28 清华大学 用于低比特率音频编码的语音/音乐检测器
CN101236742A (zh) * 2008-03-03 2008-08-06 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置
CN101833951A (zh) * 2010-03-04 2010-09-15 清华大学 用于说话人识别的多背景模型建立方法
WO2010117688A2 (en) * 2009-03-30 2010-10-14 Microsoft Corporation Adaptation for statistical language model
CN102623007A (zh) * 2011-01-30 2012-08-01 清华大学 基于可变时长的音频特征分类方法
CN102682760A (zh) * 2011-03-07 2012-09-19 株式会社理光 重叠语音检测方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1920947A (zh) * 2006-09-15 2007-02-28 清华大学 用于低比特率音频编码的语音/音乐检测器
CN101236742A (zh) * 2008-03-03 2008-08-06 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置
WO2010117688A2 (en) * 2009-03-30 2010-10-14 Microsoft Corporation Adaptation for statistical language model
CN101833951A (zh) * 2010-03-04 2010-09-15 清华大学 用于说话人识别的多背景模型建立方法
CN102623007A (zh) * 2011-01-30 2012-08-01 清华大学 基于可变时长的音频特征分类方法
CN102682760A (zh) * 2011-03-07 2012-09-19 株式会社理光 重叠语音检测方法和系统

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530432A (zh) * 2013-09-24 2014-01-22 华南理工大学 一种具有语音提取功能的会议记录器及语音提取方法
CN104992707A (zh) * 2015-05-19 2015-10-21 四川大学 一种腭裂语音喉塞音自动识别算法及装置
CN106611604A (zh) * 2015-10-23 2017-05-03 中国科学院声学研究所 一种基于深度神经网络的自动语音叠音检测方法
CN106611604B (zh) * 2015-10-23 2020-04-14 中国科学院声学研究所 一种基于深度神经网络的自动语音叠音检测方法
CN106847267B (zh) * 2015-12-04 2020-04-14 中国科学院声学研究所 一种连续语音流中的叠音检测方法
CN106847267A (zh) * 2015-12-04 2017-06-13 中国科学院声学研究所 一种连续语音流中的叠音检测方法
CN105578115A (zh) * 2015-12-22 2016-05-11 深圳市鹰硕音频科技有限公司 一种具有语音评估功能的网络教学方法及系统
CN105578115B (zh) * 2015-12-22 2016-10-26 深圳市鹰硕音频科技有限公司 一种具有语音评估功能的网络教学方法及系统
CN106920557A (zh) * 2015-12-24 2017-07-04 中国电信股份有限公司 一种基于小波变换的分布声纹识别方法和装置
CN106531195A (zh) * 2016-11-08 2017-03-22 北京理工大学 一种对话冲突检测方法及装置
CN106531195B (zh) * 2016-11-08 2019-09-27 北京理工大学 一种对话冲突检测方法及装置
CN106941005A (zh) * 2017-02-24 2017-07-11 华南理工大学 一种基于语音声学特征的声带异常检测方法
CN106952644A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于瓶颈特征的复杂音频分割聚类方法
CN106982286B (zh) * 2017-04-26 2020-06-09 温州青苗影视传媒有限公司 一种录音方法、设备和计算机可读存储介质
CN106982286A (zh) * 2017-04-26 2017-07-25 努比亚技术有限公司 一种录音方法、设备和计算机可读存储介质
CN107045870A (zh) * 2017-05-23 2017-08-15 南京理工大学 一种基于特征值编码的语音信号端点检测方法
CN108169639A (zh) * 2017-12-29 2018-06-15 南京康尼环网开关设备有限公司 基于并行长短时记忆神经网络的识别开关柜故障的方法
CN108305616A (zh) * 2018-01-16 2018-07-20 国家计算机网络与信息安全管理中心 一种基于长短时特征提取的音频场景识别方法及装置
CN110411554A (zh) * 2018-04-27 2019-11-05 华为技术有限公司 一种电机设备检测方法、装置及系统
CN110411554B (zh) * 2018-04-27 2022-04-29 华为技术有限公司 一种电机设备检测方法、装置及系统
CN108766459B (zh) * 2018-06-13 2020-07-17 北京联合大学 一种多人语音混合中目标说话人估计方法及系统
CN108766459A (zh) * 2018-06-13 2018-11-06 北京联合大学 一种多人语音混合中目标说话人估计方法及系统
CN109431517A (zh) * 2018-11-13 2019-03-08 四川长虹电器股份有限公司 一种基于心音的身份识别方法
CN109871817A (zh) * 2019-02-27 2019-06-11 河北工业大学 基于足底压力和自适应集成学习的行走状态识别方法
CN109871817B (zh) * 2019-02-27 2021-08-27 河北工业大学 基于足底压力和自适应集成学习的行走状态识别方法
CN112331181A (zh) * 2019-07-30 2021-02-05 中国科学院声学研究所 一种基于多说话人条件下目标说话人语音提取方法
CN110648656A (zh) * 2019-08-28 2020-01-03 北京达佳互联信息技术有限公司 语音端点检测方法、装置、电子设备及存储介质
CN110675845A (zh) * 2019-09-25 2020-01-10 杨岱锦 人声哼唱精确识别算法及数字记谱方法
CN111145782B (zh) * 2019-12-20 2021-07-13 深圳追一科技有限公司 重叠语音识别方法、装置、计算机设备和存储介质
CN111145782A (zh) * 2019-12-20 2020-05-12 深圳追一科技有限公司 重叠语音识别方法、装置、计算机设备和存储介质
CN111640456A (zh) * 2020-06-04 2020-09-08 合肥讯飞数码科技有限公司 叠音检测方法、装置和设备
CN111640456B (zh) * 2020-06-04 2023-08-22 合肥讯飞数码科技有限公司 叠音检测方法、装置和设备
CN112750459A (zh) * 2020-08-10 2021-05-04 腾讯科技(深圳)有限公司 音频场景识别方法、装置、设备及计算机可读存储介质
CN112750459B (zh) * 2020-08-10 2024-02-02 腾讯科技(深圳)有限公司 音频场景识别方法、装置、设备及计算机可读存储介质
WO2022033109A1 (zh) * 2020-08-14 2022-02-17 海宁奕斯伟集成电路设计有限公司 语音检测方法、装置和电子设备
CN112687390A (zh) * 2021-03-12 2021-04-20 中国科学院自动化研究所 基于混合网络和lp范数池化的抑郁状态检测方法及装置

Also Published As

Publication number Publication date
CN102968986B (zh) 2015-01-28

Similar Documents

Publication Publication Date Title
CN102968986B (zh) 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN101136199B (zh) 语音数据处理方法和设备
Ali et al. Automatic speech recognition technique for Bangla words
CN104835498A (zh) 基于多类型组合特征参数的声纹识别方法
CN102820033A (zh) 一种声纹识别方法
CN101226743A (zh) 基于中性和情感声纹模型转换的说话人识别方法
CN107154264A (zh) 在线教学精彩片段提取的方法
CN102486920A (zh) 音频事件检测方法和装置
Safavi et al. Speaker recognition for children's speech
CN102655003B (zh) 基于声道调制信号mfcc的汉语语音情感点识别方法
Sinith et al. A novel method for text-independent speaker identification using MFCC and GMM
Tolba A high-performance text-independent speaker identification of Arabic speakers using a CHMM-based approach
CN103258537A (zh) 利用特征结合对语音情感进行识别的方法及其装置
Chauhan et al. Speech to text converter using Gaussian Mixture Model (GMM)
Gamit et al. Isolated words recognition using mfcc lpc and neural network
Kaur et al. Analysis of feature extraction methods for speaker dependent speech recognition
Sapijaszko et al. An overview of recent window based feature extraction algorithms for speaker recognition
Zouhir et al. A bio-inspired feature extraction for robust speech recognition
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Deiv et al. Automatic gender identification for hindi speech recognition
Vachhani et al. Use of PLP cepstral features for phonetic segmentation
Allen et al. Warped magnitude and phase-based features for language identification
Nagaraja et al. Mono and cross lingual speaker identification with the constraint of limited data
CN111210845B (zh) 一种基于改进自相关特征的病理语音检测装置
Jagtap et al. Speaker verification using Gaussian mixture model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150128

Termination date: 20201107

CF01 Termination of patent right due to non-payment of annual fee