CN103400580A - 一种多人会话语音中的说话人重要程度估计方法 - Google Patents

一种多人会话语音中的说话人重要程度估计方法 Download PDF

Info

Publication number
CN103400580A
CN103400580A CN2013103110723A CN201310311072A CN103400580A CN 103400580 A CN103400580 A CN 103400580A CN 2013103110723 A CN2013103110723 A CN 2013103110723A CN 201310311072 A CN201310311072 A CN 201310311072A CN 103400580 A CN103400580 A CN 103400580A
Authority
CN
China
Prior art keywords
speaker
voice
segments
voice segments
conference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013103110723A
Other languages
English (en)
Inventor
李艳雄
王梓里
吴伟
贺前华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN2013103110723A priority Critical patent/CN103400580A/zh
Publication of CN103400580A publication Critical patent/CN103400580A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种多人会话语音中的说话人重要程度估计方法,包括S1读入记录有多人会话语音的音频文件;S2说话人分割:检测上述多人会话语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成多个语音段;S3说话人聚类:把相同说话人的语音段聚在一类,得到音频文件中说话人个数、各个说话人的语音及各个说话人的语音段数;S4说话人语速估计:分别从上述各个说话人的语音中提取能量包络,找出能量包络的局部最大值点,确定音节数,估计各个说话人的语速;S5基于语速、语音时长及语音段数,估计说话人的重要程度,本发明为多人会话语音的快速浏览、摘要提取、说话人检索等奠定基础。

Description

一种多人会话语音中的说话人重要程度估计方法
技术领域
本发明涉及语音信号处理和模式识别技术,尤其涉及一种多人会话语音中的说话人重要程度估计方法。
背景技术
说话人重要程度是指在多人会话的会议中,不同说话人在会议议题解决及对公众的影响等方面的差异。议题决策权越高、公众影响力越大的说话人则越重要。例如在新闻发布会中,答记者问的政府官员或企事业单位领导是最重要的说话人,而主持人、现场提问的记者等的重要性就相对低一些。又例如在访谈会中,特邀嘉宾的重要程度就比主持人、提问人的要高。人们在浏览分析会议语音时,往往希望能够得到会议录音中的说话人个数、各个说话人的重要程度,且最想聆听最重要说话人的发言。因此,快速有效地估计出多人会话语音中的各个说话人的重要程度,以便找出重要说话人的精彩发言,对于多人会话语音的快速浏览、摘要提取、说话人检索等应用都具有非常重要的意义。
发明内容
为了克服现有技术存在的缺点与不足,本发明提供一种多人会话语音中的说话人重要程度估计方法。
一种多人会话语音中的说话人重要程度估计方法,包括如下步骤:
S1读入记录有多人会话语音的音频文件;
S2说话人分割:检测上述多人会话语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成多个语音段,所述语音段的个数等于改变点个数加1;
S3说话人聚类:把相同说话人的语音段聚在一类,得到音频文件中说话人个数、各个说话人的语音时长及各个说话人的语音段数;
S4说话人语速估计:分别从上述各个说话人的语音时长中提取能量包络,并找出能量包络的局部最大值点,进一步确定音节数,估计各个说话人的语速;
S5基于语速、语音时长及语音段数,估计说话人的重要程度。
进一步地,所述S2说话人分割:检测上述多人会话语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成多个语音段,具体为:
S2.1利用门限判决的语音检测算法从上述音频文件中找出静音段和语音段;
S2.2将上述语音段按时间顺序拼接成一个长语音段,并从长语音段中提取音频特征;
S2.3利用上述提取的音频特征,根据贝叶斯信息准则,判断长语音段中相邻数据窗之间的相似度来检测说话人改变点;
S2.4依次把相邻两个改变点之间的语音样点作为一个语音段,从而将音频文件分割成多个语音段,且每个语音段包含一个说话人。
进一步地,所述S2.1利用门限判决的语音检测算法从上述音频文件中找出静音段和语音段,具体包括如下步骤:
S2.1.1对读入的多人会话语音进行分帧,并计算每帧语音的能量,得到多人会话语音的能量特征矢量;
S2.1.2计算每帧语音的能量门限;
S2.1.3将每帧语音的能量与能量门限比较,低于能量门限的帧为静音帧,否则为语音帧,将静音帧按时间顺序拼接成一个静音段,将语音帧按时间顺序拼接成一个语音段。
进一步地,所述S3中把相同说话人的语音段聚在一类,具体采用谱聚类算法,包括如下步骤:
S3.1每帧语音中提取梅尔频率倒谱系数及其一阶差分的音频特征,MFCCs和Delta-MFCCs的维数M,每个语音段的特征构成一个特征矩阵Fj,特征矩阵Fj的维数d=2M;
S3.2根据各个特征矩阵Fj得到所有待聚类语音段的特征矩阵集合F={F1,...,FJ},J为语音段总个数,再根据F构造亲和矩阵A∈RJ×J,A的第(i,j)个元素Aij定义如下:
A ij = exp ( - d 2 ( F i , F j ) 2 σ i σ j ) i ≠ j , 1 ≤ i , j ≤ J 0 i = j , 1 ≤ i , j ≤ J
其中,d(Fi,Fj)是特征矩阵Fi与Fj之间的欧式距离,σi或σj表示尺度参数,定义为第i或j个特征矩阵Fi或Fj与其它J-1个特征矩阵之间的欧式距离矢量的方差,所述T表示将多人会话语音分成的总帧数,i、j表示语音段的编号;
S3.3构造对角矩阵D,它的第(i,i)个元素等于亲和矩阵A的第i行所有元素之和,再根据矩阵D和A构造归一化的亲和矩阵L=D-1/2AD-1/2
S3.4计算亲和矩阵L的前Kmax个最大的特征值
Figure BDA00003551008300031
及其特征值矢量
Figure BDA00003551008300032
其中vk为列向量且根据相邻特征值之间的差值估计说话人个数K:
K = arg max i ∈ [ 1 , K max - 1 ] ( λ i - λ i + 1 )
根据估计出来的说话人个数K,构造矩阵V=[v1,v2,...,vK]∈RJ×K,式中:1≤k≤Kmax
S3.5归一化矩阵V的每一行,得到矩阵Y∈RJ×K,Y的第(j,k)个元素Yjk
Y jk = V jk ( Σ k = 1 K V jk 2 ) 1≤j≤J;
S3.6将矩阵Y中的每一行当作空间RK中的一个点,利用K均值算法聚类成K类;
S3.7当矩阵Y的第j行被聚类在第k类中,则特征矩阵Fj所对应的语音段判为第k类即第k个说话人;
S3.8根据上述聚类结果,得到说话人个数、各个说话人的语音及各个说话人的语音段数。
进一步地,所述S4估计各个说话人的语速,具体将说话人语音能量包络中的局部最大值点的个数作为音节个数,并除以该说话人语音的时长,得到该说话人的语速。
进一步地,所述S4中分别从上述各个说话人的语音中提取能量包络,并找出能量包络的局部最大值点,具体为:
计算能量包络阈值TE',找出局部最大值点;
TE'=0.4×mean(E'(n))
其中,mean(E'(n))是能量包络的平均值;
能量包络中满足下述两个条件的元素作为局部最大值点:
a:该元素值大于能量包络阈值TE'
b:该元素值大于其前、后β秒的所有元素值,即大于其前、后β×fs个元素值,其中β一般取值范围为:0.07-0.2。
进一步地,所述基于语速、语音时长及语音段数,估计说话人的重要程度,具体为:
S5.1分别将说话人按照如下顺序排序;
将各个说话人按照语速由慢到快的顺序排列编号,
将各个说话人按照说话人的语音时长由大到小的顺序排列编号,
将各个说话人按照语音段数由多到少的顺序排列编号,
S5.2将每个说话人对应的上述三个顺序编号求和,根据三个顺序编号和值的大小,对上述说话人进行重要程度的排序,所述说话人对应的三个顺序编号和值越小的说话人越重要,反之则不重要。
进一步地,所述S2.2中音频特征包括梅尔频率倒谱系数及其一阶差分。
进一步地,所述S3.1中M值为12。
本发明的有益效果:
基于说话人分割和说话人聚类结果,估计各个说话人的语速、说话时长和说话次数,再根据上述三个特征快速有效地估计出多人会话语音中的各个说话人的重要程度,为多人会话语音的快速浏览、摘要提取、说话人检索等奠定基础。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
如图1所示,一种多人会话语音中的说话人重要程度估计方法,包括如下步骤:
S1读入记录有多人会话语音的音频文件,多人会话语音可以是各种格式的音频文件,例如WAV、RAM、MP3、VOX等。
S2利用基于门限判决的语音检测方法找出语音流中的静音段和语音段,将上述语音段按时间顺序拼接成一个长语音段,并从长语音段中提取音频特征,利用上述提取出来的音频特征,根据贝叶斯信息准则,判断长语音段中相邻数据窗之间的相似度来检测说话人改变点;最后根据上述说话人改变点,把音频文件分割成多个语音段,且每个语音段只包含一个说话人,所述语音段的个数等于改变点个数加1。
所述门限判决的语音检测方法从上述音频文件中找出静音段和语音段,具体包括以下步骤:
S2.1.1将读入的音频文件分成T帧,帧长为32毫秒(帧长对应的采样点个数N=0.032×fs,其中fs为语音信号的采样频率),帧移为16毫秒,如果最后一帧语音的采样点个数小于N,则将其舍去;计算第t(1≤t≤T)帧语音信号xt(n)的能量Et
E t = Σ n = 1 N x t 2 ( n ) 1≤t≤T
得到语音流的能量特征矢量E=[E1,E2,...,ET],其中T为总帧数;
S2.1.2用固定的能量门限判断静音与语音有很大的局限性,因为各种环境下的语音能量相差很大,但语音与静音之间能量大小的相对关系是不变的,所以定义每帧语音的能量门限TE
TE=min(E)+0.3×[mean(E)-min(E)]
其中,min(E)是各帧能量的最小值,mean(E)是各帧能量的平均值。
S2.1.3将每帧语音的能量与能量门限比较,低于能量门限的帧为静音帧,否则为语音帧,将所有静音帧都舍弃,将相邻的语音帧按时间顺序拼接成一个语音段。
S2中的利用贝叶斯信息准则确定说话人改变点的方法具体包括以下步骤:
S2.3.1将经过语音检测得到的各个语音段按顺序拼接成一个长语音段,将长语音段切分成数据窗,窗长为2秒,窗移为0.1秒。对每个数据窗进行分帧,帧长为32毫秒,帧移为16毫秒,从每一帧语音信号中提取MFCCs与Delta-MFCCs特征,MFCCs与Delta-MFCCs的维数M都取12,每个数据窗的特征构成一个特征矩阵F,特征矩阵F的维数d=2M为24;
S2.3.2计算两个相邻数据窗(x和y)之间的BIC距离,BIC距离计算公式
如下:
ΔBIC=(nx+ny)ln(|det(cov(Fz))|)-nxln(|det(cov(Fx))|)-
n y ln ( | det ( cov ( F y ) ) | ) - α ( d + d ( d + 1 ) 2 ) ln ( n x + n y )
其中,z是将数据窗x和y合并之后得到的数据窗,nx和ny分别是数据窗x和y的帧数,Fx、Fy和Fz分别是数据窗x、y和z的特征矩阵,cov(Fx)、cov(Fy)和cov(Fz)分别是特征矩阵Fx、Fy和Fz的协方差矩阵,det(·)表示求矩阵的行列式值,α是惩罚系数且实验取值为2.0;
S2.3.3如果BIC距离ΔBIC大于零,则这两个数据窗被视为属于两个不同的说话人(即它们之间存在说话人改变点),否则这两个数据窗被视为属于同一个说话人并将它们合并;
S2.3.4不断地滑动数据窗判断两个相邻数据窗之间的BIC距离是否大于零,并保存说话人改变点,直到长语音段的所有相邻数据窗之间的BIC距离都被判断完为止。
上述提取音频特征包括梅尔频率倒谱系数(MFCCs)及其一阶差分(Delta-MFCCs)特征的步骤包括:
S2.2.1将语音信号分成T帧,帧长为32毫秒(帧长对应的采样点个数N=0.032×fs,其中fs为语音信号的采样频率),帧移为16毫秒,如果最后一帧语音的采样点个数小于N,则将其舍去;
S2.2.2对第t(1≤t≤T)帧语音信号xt(n)做离散傅立叶变换(DiscreteFourier Transformation,DFT)得到线性频谱Xt(k):
X t ( k ) = Σ n = 0 N - 1 x t ( n ) e - j 2 πnk / N (0≤n,k≤N-1)
S2.2.3将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),其中梅尔频率滤波器组为若干个带通滤波器Hm(k),0≤m<M,M为滤波器的个数,每个滤波器具有三角形滤波特性,其中心频率为f(m),当m值较小时相邻f(m)之间的间隔也较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
H m ( k ) = 0 ( k < f ( m - 1 ) ) k - f ( m - 1 ) f ( m ) - f ( m - 1 ) ( f ( m - 1 ) &le; k &le; f ( m ) ) f ( m + 1 ) - k F ( m + 1 ) - f ( m ) ( f ( m ) < k &le; f ( m + 1 ) ) 0 ( k > f ( m + 1 ) ) (0≤m<M)
其中,f(m)定义如下:
f ( m ) = ( N f s ) B - 1 ( B ( f l ) + m B ( f h ) - B ( f l ) M + 1 )
其中,fl、fh为滤波器的频率应用范围的最低频率和最高频率,B-1为B的逆函数:B-1(b)=700(eb/1125-1),因此由线性谱Xt(k)到对数谱St(m)的函数式为:
S t ( m ) = ln ( &Sigma; k = 0 N - 1 | X t ( k ) | 2 H m ( k ) ) (0≤m<M)
S2.2.4将上述对数频谱St(m)经过离散余弦变换(Discrete CosineTransformation,DCT)变换到倒谱域,得到第t帧MFCCs,Ct(p):
C t ( p ) = &Sigma; m = 0 M - 1 S t ( m ) cos ( ( m + 0.5 ) n&pi; M ) (0≤p<M)
S2.2.5计算第t帧MFCCs的一阶差分(Delta‐MFCCs),C't(p):
C t &prime; ( p ) = 1 &Sigma; q = - Q Q q 2 &Sigma; q = - Q Q q &times; C t ( p + q ) (0≤p<M)
其中,Q为常数,实验时取值为3。
S2.2.6对每帧语音信号重复上述步骤2)~5),得到所有T帧语音信号的MFCCs与Delta-MFCCs,将它们按帧的顺序组合成一个MFCC矩阵与Delta-MFCC矩阵,再将MFCC矩阵与Delta-MFCC矩阵合并构成特征矩阵F。
S3中,从分割出来的各个语音段中提取包括MFCCs与Delta-MFCCs的音频特征,并利用谱聚类算法对各个只包含一个说话人的语音段进行说话人聚类,得到说话人个数及各个说话人的语音。具体步骤如下:
S3.1对每个语音段进行分帧,帧长为32毫秒,帧移为16毫秒,从每一帧语音信号中提取MFCCs与Delta-MFCCs特征,MFCCs与Delta-MFCCs的维数M都为12,每个语音段的特征构成一个特征矩阵Fj,特征矩阵Fj的维数d=2M为24;
S3.2根据各个特征矩阵Fj得到所有待聚类语音段的特征矩阵集合F={F1,...,FJ},J为语音段总个数,再根据F构造亲和矩阵(Affinity matrix)A∈RJ×J,A的第(i,j)个元素Aij定义如下:
A ij = exp ( - d 2 ( F i , F j ) 2 &sigma; i &sigma; j ) i &NotEqual; j , 1 &le; i , j &le; J 0 i = j , 1 &le; i , j &le; J
其中,d(Fi,Fj)是特征矩阵Fi与Fj之间的欧式距离,σi(或σj)是一个尺度参数,定义为第i(或j)个特征矩阵Fi(或Fj)与其它J-1个特征矩阵之间的欧式距离矢量的方差;
S3.3构造对角矩阵D,它的第(i,i)个元素等于亲和矩阵A的第i行所有元素之和,再根据矩阵D和A构造归一化的亲和矩阵L=D-1/2AD-1/2
S3.4计算矩阵L的前Kmax个最大的特征值
Figure BDA00003551008300084
及其特征值矢量
Figure BDA00003551008300085
其中vk(1≤k≤Kmax)为列向量且
Figure BDA00003551008300086
根据相邻特征值之间的差值估计最优类别数(即说话人个数)K:
K = arg max i &Element; &lsqb; 1 , K max - 1 &rsqb; ( &lambda; i - &lambda; i + 1 )
根据估计出来的说话人个数K,构造矩阵V=[v1,v2,...,vK]∈RJ×K;
所述K是算法估计的说话人个数,R是实际说话人数,一般情况下k不等于R,但两者比较接近。
S3.5归一化矩阵V的每一行,得到矩阵Y∈RJ×K,Y的第(j,k)个元素Yjk
Y jk = V jk ( &Sigma; k = 1 k V jk 2 ) 1≤j≤J;
S3.6将矩阵Y中的每一行当作空间RK中的一个点,利用K均值算法(K-means algorithm)将这J行(即J个点)聚类成K类
S3.7将特征矩阵Fj所对应的语音段判为第k类(即第k个说话人),当且仅当矩阵Y的第j行被聚类在第k类中;
S3.8根据上述聚类结果,得到说话人个数、每个说话人的语音时长(说话时长)和语音段数(说话次数)。
S4中,从每个说话人语音中提取能量包络,并通过检测能量包络局部最大值点确定音节个数,估计各个说话人的语速。
在汉语普通话中,每个音节基本上都包含韵母,韵母个数即为音节个数,音节个数即为字个数,而且音节中韵母的能量最大,因此通过检测能量最大的韵母个数即可得到字的个数,从而估计出语速。
基于上述考虑的语速估计方法的具体步骤如下:
S4.1计算每个说话人语音信号s(n)的能量E(n):
E(n)=s2(n),1≤n≤Len
其中,Len是语音信号的采样点总个数;
S4.2利用一个低通滤波器对能量E(n)进行滤波,得到能量包络E'(n),该低通滤波器的技术指标如下:基于Equiripple方法的FIR滤波器,采样频率fs为16000赫兹,通带截止频率fpass为50赫兹,阻带截止频率fstop为100赫兹,通带的最大衰减Apass为1dB,阻带的最小衰减Astop为80dB;
S4.3计算能量包络阈值TE',找出局部最大值点;
TE'=0.4×mean(E'(n))
其中,mean(E'(n))是能量包络的平均值;
能量包络中满足下述两个条件的元素作为局部最大值点:
a:该元素值大于能量包络阈值TE'
b:该元素值大于其前、后β秒的所有元素值,即大于其前、后β×fs个元素值,其中β一般取值范围为:0.07-0.2,
上述局部最大值点所在的位置(采样点)即为每个音节的韵母的能量峰值所在的位置,取0.07-0.2秒的原因是:音节平均时长的大约是0.14-0.4秒,所以E'(n)中大于TE'且大于其前、后0.07-0.2秒的元素值所在的位置就是每个音节的韵母的能量峰值所在的位置;
S4.4将某个说话人语音能量包络中的局部最大值点的个数作为音节(字)个数,将字的个数除以该说话人语音的时长(秒),得到该说话人的语速(字/秒);
S4.5重复上述步骤S4.1-S4.4,直到所有说话人语音的语速都估计完为止。
最后,在S5中,将各个说话人:按语速从慢到快的顺序进行排列编号、按说话时长从大到小的顺序进行排列编号以及按说话次数从多到少的顺序进行排列编号,再将各个说话人的上述三个编号求和,根据编号和值的大小对各个说话人进行重要程度的排序,编号和值越小的说话人则越重要。
具体步骤如下(假设共有R个说话人):
S5.1将各个说话人的语速按从慢到快的顺序进行排列编号,将语速最慢的说话人编号为1,语速第二慢的说话人编号为2,以此类推,语速最快的说话人编号为R;
S5.2将各个说话人的说话时长按从大到小的顺序进行排列编号,说话时长最大的说话人编号为1,说话时长第二大的说话人编号为2,以此类推,说话时长最小的说话人编号为R;
S5.3将各个说话人的说话次数按从多到少的顺序进行排列编号,说话次数最多的说话人编号为1,说话次数第二多的说话人编号为2,以此类推,说话次数最少的说话人编号为R;
S5.4将各个说话人的语速编号、说话时长编号和说话次数编号进行求和,再根据上述和值的大小对各个说话人进行重要程度的排序,上述和值越小的则越重要,根据上述和值的大小就得到各个说话人的重要程度。
例如,假设经过上述说话人分割聚类之后共有5个说话人(R=5):说话人S1、说话人S2、说话人S3、说话人S4和说话人S5,且各个说话人的说话时长SL(单位为秒)、说话次数SN和语速SR(单位为字每分钟)分别为:说话人S1的(SL,SN,SR)为(70,6,264)、说话人S2的(SL,SN,SR)为(40,2,204)、说话人S3的(SL,SN,SR)为(200,10,168)、说话人S4的(SL,SN,SR)为(25,3,246)、说话人S5的(SL,SN,SR)为(50,4,270)。将这5个说话人的说话时长按从大到小的顺序进行排列、说话次数按从多到少的顺序进行排列、语速按从慢到快的顺序进行排列,如下所示:
SL : 200 S 3 > 70 S 1 > 50 S 5 > 40 S 2 > 25 S 4 SN : 10 S 3 > 6 S 1 > 4 S 5 > 3 S 4 > 2 S 2 SR : 168 S 3 > 204 S 2 > 246 S 4 > 264 S 1 > 270 S 5
因此,上述5个说话人的说话时长编号SLn、说话次数编号SNn和语速编号SRn为:说话人S1的(SLn,SNn,SRn)为(2,2,4)、说话人S2的(SLn,SNn,SRn)为(4,5,2)、说话人S3的(SLn,SNn,SRn)为(1,1,1)、说话人S4的(SLn,SNn,SRn)为(5,4,3)、说话人S5的(SLn,SNn,SRn)为(3,3,5)。因此,说话人S1、S2、S3、S4、S5的语速编号、说话时长编号和说话次数编号的和值分别为:8、11、3、12、11。上述和值越小的说话人则越重要,所以,说话人重要程度从高到低依次是:S3、S1、S2、S5、S4(或S3、S1、S5、S2、S4)。如果说话人的上述编号和值相等,那么他们的重要程度相同。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种多人会话语音中的说话人重要程度估计方法,其特征在于,包括如下步骤:
S1读入记录有多人会话语音的音频文件;
S2说话人分割:检测上述多人会话语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成多个语音段,所述语音段的个数等于改变点个数加1;
S3说话人聚类:把相同说话人的语音段聚在一类,得到音频文件中说话人个数、各个说话人的语音时长及各个说话人的语音段数;
S4说话人语速估计:分别从上述各个说话人的语音时长中提取能量包络,并找出能量包络的局部最大值点,进一步确定音节数,估计各个说话人的语速;
S5基于语速、语音时长及语音段数,估计说话人的重要程度。
2.根据权利要求1所述的多人会话语音中的说话人重要程度估计方法,其特征在于,所述S2说话人分割:检测上述多人会话语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成多个语音段,具体为:
S2.1利用门限判决的语音检测算法从上述音频文件中找出静音段和语音段;
S2.2将上述语音段按时间顺序拼接成一个长语音段,并从长语音段中提取音频特征;
S2.3利用上述提取的音频特征,根据贝叶斯信息准则,判断长语音段中相邻数据窗之间的相似度来检测说话人改变点;
S2.4依次把相邻两个改变点之间的语音样点作为一个语音段,从而将音频文件分割成多个语音段,且每个语音段包含一个说话人。
3.根据权利要求2所述的多人会话语音中的说话人重要程度估计方法,其特征在于,所述S2.1利用门限判决的语音检测算法从上述音频文件中找出静音段和语音段,具体包括如下步骤:
S2.1.1对读入的多人会话语音进行分帧,并计算每帧语音的能量,得到多人会话语音的能量特征矢量;
S2.1.2计算每帧语音的能量门限;
S2.1.3将每帧语音的能量与能量门限比较,低于能量门限的帧为静音帧,否则为语音帧,将所有的静音帧都舍弃,将语音帧按时间顺序拼接成一个语音段。
4.根据权利要求1所述的多人会话语音中的说话人重要程度估计方法,其特征在于,所述S3中把相同说话人的语音段聚在一类,具体采用谱聚类算法,包括如下步骤:
S3.1每帧语音中提取梅尔频率倒谱系数及其一阶差分的音频特征,MFCCs和Delta-MFCCs的维数M,每个语音段的特征构成一个特征矩阵Fj,特征矩阵Fj的维数d=2M;
S3.2根据各个特征矩阵Fj得到所有待聚类语音段的特征矩阵集合F={F1,...,FJ},J为语音段总个数,再根据F构造亲和矩阵A∈RJ×J,A的第(i,j)个元素Aij定义如下:
A ij = exp ( - d 2 ( F i , F j ) 2 &sigma; i &sigma; j ) i &NotEqual; j , 1 &le; i , j &le; J 0 i = j , 1 &le; i , j &le; J
其中,d(Fi,Fj)是特征矩阵Fi与Fj之间的欧式距离,σi或σj表示尺度参数,定义为第i或j个特征矩阵Fi或Fj与其它J-1个特征矩阵之间的欧式距离矢量的方差,所述T表示将多人会话语音分成的总帧数,i、j表示语音段的编号;
S3.3构造对角矩阵D,它的第(i,i)个元素等于亲和矩阵A的第i行所有元素之和,再根据矩阵D和A构造归一化的亲和矩阵L=D-1/2AD-1/2
S3.4计算亲和矩阵L的前Kmax个最大的特征值
Figure FDA00003551008200024
及其特征值矢量
Figure FDA00003551008200025
其中vk为列向量且
Figure FDA00003551008200026
根据相邻特征值之间的差值估计说话人个数K:
K = arg max i &Element; &lsqb; 1 , K max - 1 &rsqb; ( &lambda; i - &lambda; i + 1 )
根据估计出来的说话人个数K,构造矩阵V=[v1,v2,...,vK]∈RJ×K,式中:1≤k≤Kmax
S3.5归一化矩阵V的每一行,得到矩阵Y∈RJ×K,Y的第(j,k)个元素Yjk
Y jk = V jk ( &Sigma; k = 1 K V jk 2 ) 1≤j≤J;
S3.6将矩阵Y中的每一行当作空间RK中的一个点,利用K均值算法聚类成K类;
S3.7当矩阵Y的第j行被聚类在第k类中,则特征矩阵Fj所对应的语音段判为第k类即第k个说话人;
S3.8根据上述聚类结果,得到说话人个数、各个说话人的语音时长及各个说话人的语音段数。
5.根据权利要求1所述的多人会话语音中的说话人重要程度估计方法,其特征在于,所述S4估计各个说话人的语速,具体将说话人语音能量包络中的局部最大值点的个数作为音节个数,并除以该说话人语音的时长,得到该说话人的语速。
6.根据权利要求5所述的多人会话语音中的说话人重要程度估计方法,其特征在于,所述S4中分别从上述各个说话人的语音中提取能量包络,并找出能量包络的局部最大值点,具体为:
计算能量包络阈值TE',找出局部最大值点;
TE'=0.4×mean(E'(n))
其中,mean(E'(n))是能量包络的平均值;
能量包络中满足下述两个条件的元素作为局部最大值点:
a:该元素值大于能量包络阈值TE'
b:该元素值大于其前、后β秒的所有元素值,即大于其前、后β×fs个元素值,所述fs为采样频率,β的取值范围为:0.07-0.2。
7.根据权利要求1所述的多人会话语音中的说话人重要程度估计方法,其特征在于,所述基于语速、语音时长及语音段数,估计说话人的重要程度,具体为:
S5.1分别将说话人按照如下顺序排序;
将各个说话人按照语速由慢到快的顺序排列编号,
将各个说话人按照说话人的语音时长由大到小的顺序排列编号,
将各个说话人按照语音段数由多到少的顺序排列编号,
S5.2将每个说话人对应的上述三个顺序编号求和,根据三个顺序编号和值的大小,对上述说话人进行重要程度的排序,所述说话人对应的三个顺序编号和值越小的说话人越重要,反之则不重要。
8.根据权利要求2所述的多人会话语音中的说话人重要程度估计方法,其特征在于,所述S2.2中音频特征包括梅尔频率倒谱系数及其一阶差分。
9.根据权利要求4所述的多人会话语音中的说话人重要程度估计方法,其特征在于,所述S3.1中M值为12。
CN2013103110723A 2013-07-23 2013-07-23 一种多人会话语音中的说话人重要程度估计方法 Pending CN103400580A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013103110723A CN103400580A (zh) 2013-07-23 2013-07-23 一种多人会话语音中的说话人重要程度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013103110723A CN103400580A (zh) 2013-07-23 2013-07-23 一种多人会话语音中的说话人重要程度估计方法

Publications (1)

Publication Number Publication Date
CN103400580A true CN103400580A (zh) 2013-11-20

Family

ID=49564188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013103110723A Pending CN103400580A (zh) 2013-07-23 2013-07-23 一种多人会话语音中的说话人重要程度估计方法

Country Status (1)

Country Link
CN (1) CN103400580A (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021785A (zh) * 2014-05-28 2014-09-03 华南理工大学 一种提取会议中最重要嘉宾语音的方法
CN104992707A (zh) * 2015-05-19 2015-10-21 四川大学 一种腭裂语音喉塞音自动识别算法及装置
CN105161093A (zh) * 2015-10-14 2015-12-16 科大讯飞股份有限公司 一种判断说话人数目的方法及系统
CN105405439A (zh) * 2015-11-04 2016-03-16 科大讯飞股份有限公司 语音播放方法及装置
CN106658180A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 确定用户对频道偏好程度的方法及装置
CN106940997A (zh) * 2017-03-20 2017-07-11 海信集团有限公司 一种向语音识别系统发送语音信号的方法和装置
CN106971725A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种具有优先级的声纹识方法和系统
CN107358945A (zh) * 2017-07-26 2017-11-17 谢兵 一种基于机器学习的多人对话音频识别方法及系统
CN107613151A (zh) * 2017-08-11 2018-01-19 华迪计算机集团有限公司 一种用于会议代表之间互动的电话会议的混音方法及系统
CN107978317A (zh) * 2017-12-18 2018-05-01 北京百度网讯科技有限公司 会议纪要合成方法、系统及终端设备
CN108090051A (zh) * 2017-12-20 2018-05-29 深圳市沃特沃德股份有限公司 连续长语音文件的翻译方法与翻译机
CN109065051A (zh) * 2018-09-30 2018-12-21 珠海格力电器股份有限公司 一种语音识别处理方法及装置
CN109346107A (zh) * 2018-10-10 2019-02-15 中山大学 一种基于lstm的独立说话人语音发音逆求解的方法
CN109979467A (zh) * 2019-01-25 2019-07-05 出门问问信息科技有限公司 人声过滤方法、装置、设备及存储介质
CN109979474A (zh) * 2019-03-01 2019-07-05 珠海格力电器股份有限公司 语音设备及其用户语速修正方法、装置和存储介质
CN109994116A (zh) * 2019-03-11 2019-07-09 南京邮电大学 一种基于会议场景小样本条件下的声纹准确识别方法
CN110060665A (zh) * 2019-03-15 2019-07-26 上海拍拍贷金融信息服务有限公司 语速检测方法及装置、可读存储介质
CN110491392A (zh) * 2019-08-29 2019-11-22 广州国音智能科技有限公司 一种基于说话人身份的音频数据清洗方法、装置和设备
CN110517694A (zh) * 2019-09-06 2019-11-29 北京清帆科技有限公司 一种教学场景说话人转换检测系统
CN110875036A (zh) * 2019-11-11 2020-03-10 广州国音智能科技有限公司 语音分类方法、装置、设备及计算机可读存储介质
WO2020224217A1 (zh) * 2019-05-07 2020-11-12 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质
CN113098626A (zh) * 2020-01-09 2021-07-09 北京君正集成电路股份有限公司 一种近距离声波通信同步的方法
CN113098627A (zh) * 2020-01-09 2021-07-09 北京君正集成电路股份有限公司 一种实现近距离声波通信同步的系统
CN113891177A (zh) * 2021-05-31 2022-01-04 多益网络有限公司 一种音视频数据的摘要生成方法、装置、设备和存储介质
CN114067787A (zh) * 2021-12-17 2022-02-18 广东讯飞启明科技发展有限公司 一种语音语速自适应识别系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1953052A (zh) * 2005-10-20 2007-04-25 株式会社东芝 训练时长预测模型、时长预测和语音合成的方法及装置
US20110119060A1 (en) * 2009-11-15 2011-05-19 International Business Machines Corporation Method and system for speaker diarization
CN102074236A (zh) * 2010-11-29 2011-05-25 清华大学 一种分布式麦克风的说话人聚类方法
CN102543063A (zh) * 2011-12-07 2012-07-04 华南理工大学 基于说话人分割与聚类的多说话人语速估计方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1953052A (zh) * 2005-10-20 2007-04-25 株式会社东芝 训练时长预测模型、时长预测和语音合成的方法及装置
US20110119060A1 (en) * 2009-11-15 2011-05-19 International Business Machines Corporation Method and system for speaker diarization
CN102074236A (zh) * 2010-11-29 2011-05-25 清华大学 一种分布式麦克风的说话人聚类方法
CN102543063A (zh) * 2011-12-07 2012-07-04 华南理工大学 基于说话人分割与聚类的多说话人语速估计方法

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021785A (zh) * 2014-05-28 2014-09-03 华南理工大学 一种提取会议中最重要嘉宾语音的方法
CN104992707A (zh) * 2015-05-19 2015-10-21 四川大学 一种腭裂语音喉塞音自动识别算法及装置
CN105161093B (zh) * 2015-10-14 2019-07-09 科大讯飞股份有限公司 一种判断说话人数目的方法及系统
CN105161093A (zh) * 2015-10-14 2015-12-16 科大讯飞股份有限公司 一种判断说话人数目的方法及系统
CN106658180A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 确定用户对频道偏好程度的方法及装置
CN105405439A (zh) * 2015-11-04 2016-03-16 科大讯飞股份有限公司 语音播放方法及装置
CN105405439B (zh) * 2015-11-04 2019-07-05 科大讯飞股份有限公司 语音播放方法及装置
CN106971725A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种具有优先级的声纹识方法和系统
CN106940997B (zh) * 2017-03-20 2020-04-28 海信集团有限公司 一种向语音识别系统发送语音信号的方法和装置
CN106940997A (zh) * 2017-03-20 2017-07-11 海信集团有限公司 一种向语音识别系统发送语音信号的方法和装置
CN107358945A (zh) * 2017-07-26 2017-11-17 谢兵 一种基于机器学习的多人对话音频识别方法及系统
CN107613151A (zh) * 2017-08-11 2018-01-19 华迪计算机集团有限公司 一种用于会议代表之间互动的电话会议的混音方法及系统
CN107978317A (zh) * 2017-12-18 2018-05-01 北京百度网讯科技有限公司 会议纪要合成方法、系统及终端设备
CN108090051A (zh) * 2017-12-20 2018-05-29 深圳市沃特沃德股份有限公司 连续长语音文件的翻译方法与翻译机
CN109065051A (zh) * 2018-09-30 2018-12-21 珠海格力电器股份有限公司 一种语音识别处理方法及装置
CN109346107A (zh) * 2018-10-10 2019-02-15 中山大学 一种基于lstm的独立说话人语音发音逆求解的方法
CN109346107B (zh) * 2018-10-10 2022-09-30 中山大学 一种基于lstm的独立说话人语音发音逆求解的方法
CN109979467A (zh) * 2019-01-25 2019-07-05 出门问问信息科技有限公司 人声过滤方法、装置、设备及存储介质
CN109979467B (zh) * 2019-01-25 2021-02-23 出门问问信息科技有限公司 人声过滤方法、装置、设备及存储介质
CN109979474A (zh) * 2019-03-01 2019-07-05 珠海格力电器股份有限公司 语音设备及其用户语速修正方法、装置和存储介质
CN109979474B (zh) * 2019-03-01 2021-04-13 珠海格力电器股份有限公司 语音设备及其用户语速修正方法、装置和存储介质
CN109994116A (zh) * 2019-03-11 2019-07-09 南京邮电大学 一种基于会议场景小样本条件下的声纹准确识别方法
CN109994116B (zh) * 2019-03-11 2021-01-19 南京邮电大学 一种基于会议场景小样本条件下的声纹准确识别方法
CN110060665A (zh) * 2019-03-15 2019-07-26 上海拍拍贷金融信息服务有限公司 语速检测方法及装置、可读存储介质
WO2020224217A1 (zh) * 2019-05-07 2020-11-12 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质
CN110491392A (zh) * 2019-08-29 2019-11-22 广州国音智能科技有限公司 一种基于说话人身份的音频数据清洗方法、装置和设备
CN110517694A (zh) * 2019-09-06 2019-11-29 北京清帆科技有限公司 一种教学场景说话人转换检测系统
CN110875036A (zh) * 2019-11-11 2020-03-10 广州国音智能科技有限公司 语音分类方法、装置、设备及计算机可读存储介质
CN113098626A (zh) * 2020-01-09 2021-07-09 北京君正集成电路股份有限公司 一种近距离声波通信同步的方法
CN113098627A (zh) * 2020-01-09 2021-07-09 北京君正集成电路股份有限公司 一种实现近距离声波通信同步的系统
CN113098627B (zh) * 2020-01-09 2023-03-24 北京君正集成电路股份有限公司 一种实现近距离声波通信同步的系统
CN113098626B (zh) * 2020-01-09 2023-03-24 北京君正集成电路股份有限公司 一种近距离声波通信同步的方法
CN113891177A (zh) * 2021-05-31 2022-01-04 多益网络有限公司 一种音视频数据的摘要生成方法、装置、设备和存储介质
CN113891177B (zh) * 2021-05-31 2024-01-05 多益网络有限公司 一种音视频数据的摘要生成方法、装置、设备和存储介质
CN114067787A (zh) * 2021-12-17 2022-02-18 广东讯飞启明科技发展有限公司 一种语音语速自适应识别系统

Similar Documents

Publication Publication Date Title
CN103400580A (zh) 一种多人会话语音中的说话人重要程度估计方法
CN102543063B (zh) 基于说话人分割与聚类的多说话人语速估计方法
CN105405439B (zh) 语音播放方法及装置
US7263485B2 (en) Robust detection and classification of objects in audio using limited training data
CN103559882B (zh) 一种基于说话人分割的会议主持人语音提取方法
CN100485780C (zh) 基于基音频率的快速音频分割方法
CN104021785A (zh) 一种提取会议中最重要嘉宾语音的方法
CN103137137B (zh) 一种会议音频中的精彩说话人发现方法
CN102915728B (zh) 声音分段设备和方法以及说话者识别系统
CN102074236A (zh) 一种分布式麦克风的说话人聚类方法
CN103530432A (zh) 一种具有语音提取功能的会议记录器及语音提取方法
CN106409298A (zh) 一种声音重录攻击的识别方法
CN103559879A (zh) 语种识别系统中声学特征提取方法及装置
Silovsky et al. Speaker diarization of broadcast streams using two-stage clustering based on i-vectors and cosine distance scoring
CN105469807A (zh) 一种多基频提取方法及装置
CN106548786A (zh) 一种音频数据的检测方法及系统
CN116524939A (zh) 一种基于ecapa-tdnn的鸟鸣物种自动识别方法
CN102655002A (zh) 音频处理方法和音频处理设备
Narkhede et al. Acoustic scene identification for audio authentication
Feroze et al. Sound event detection in real life audio using perceptual linear predictive feature with neural network
CN106601233A (zh) 语音命令识别方法、装置及电子设备
Anguera et al. Xbic: Real-time cross probabilities measure for speaker segmentation
Kaur et al. Traffic state detection using smartphone based acoustic sensing
CN114970695B (zh) 一种基于非参贝叶斯模型的说话人分割聚类方法
Zhang et al. Deep scattering spectra with deep neural networks for acoustic scene classification tasks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20131120