CN104021785A - 一种提取会议中最重要嘉宾语音的方法 - Google Patents

一种提取会议中最重要嘉宾语音的方法 Download PDF

Info

Publication number
CN104021785A
CN104021785A CN201410231431.9A CN201410231431A CN104021785A CN 104021785 A CN104021785 A CN 104021785A CN 201410231431 A CN201410231431 A CN 201410231431A CN 104021785 A CN104021785 A CN 104021785A
Authority
CN
China
Prior art keywords
voice
voice segments
segments
cov
bic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410231431.9A
Other languages
English (en)
Inventor
李艳雄
金海�
贺前华
王琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201410231431.9A priority Critical patent/CN104021785A/zh
Publication of CN104021785A publication Critical patent/CN104021785A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种提取会议中最重要嘉宾语音的方法,包括以下步骤:S1、读入记录有会议语音的音频文件;S2、说话人分割:检测上述会议语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,从而将音频文件分成多个语音段;S3、语音段的距离比较及合并:比较上述语音段中最长语音段与第二长语音段之间的距离,根据该距离与门限的关系判断这两个语音段是不是最重要嘉宾的语音,再根据其他语音段(除了最长和第二长语音段之外的语音段)与上述两个语音段之间的距离,判断其他语音段是不是最重要嘉宾的语音,从而得到最重要嘉宾的所有语音段。本发明为会议语音的快速浏览、主题提取、说话人检索等奠定了基础。

Description

一种提取会议中最重要嘉宾语音的方法
技术领域
本发明涉及语音信号处理和模式识别技术,尤其涉及一种提取会议中最重要嘉宾语音的方法。
背景技术
最重要嘉宾是指在多人参与的会议中,发言权最高、在整个会议进程中处于主导地位的说话人,例如会议中的某个国家领导人、单位负责人、行业精英或权威人士。在经常召开的发布会、讨论会、演讲等会议中,一般都有一个最重要的嘉宾,他的语音是人们在浏览分析会议语音时最感兴趣的。最重要嘉宾是与会人员中的最主要发言人,他在整个会议中的说话时间一般是最长的。另外,他单次连续说话时间一般也是最长的(我们统计发现,说话人分割之后的最长语音段和第二长语音段中至少有一个是最重要嘉宾的语音)。因此,会议中的最重要嘉宾的语音总时长和单次说话的最大语音时长在所有与会人员中是最大的。从最重要嘉宾的语音中,可以得到该会议的主题、会议决议等重要信息。这些信息是人们在浏览分析冗长的会议语音时最希望获取的。因此,快速有效地提取出会议中最重要嘉宾的语音,对于会议语音的快速浏览、主题提取、说话人分析与检索等应用都具有非常重要的意义。
发明内容
目前的说话人语音提取方法在说话人分割之后,一般采取基于凝聚分层聚类(Agglomerative Hierarchical Clustering)的方法进行说话人聚类,从而得到各个说话人的语音。目前的方法存在聚类次数多,速度慢的不足。为了克服现有技术存在的缺点与不足,本发明提供一种快速提取会议中最重要嘉宾语音的方法。
一种提取会议中最重要嘉宾语音的方法,包括如下步骤:
S1读入记录有会议语音的音频文件;
S2说话人分割:检测上述会议语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成J个语音段,并将这J个语音段按时长从大到小的顺序编号得到排序后的语音段xj,1≤j≤J,x1和x2分别是最长和第二长的语音段,以此类推;
S3语音段的距离比较及合并:比较语音段x1与语音段x2的距离,根据该距离与门限的关系判断语音段x1与语音段x2是否都是最重要嘉宾的语音,再根据其他语音段xj与语音段x1和语音段x2的距离,判断其他语音段xj是不是最重要嘉宾的语音,从而实现最重要嘉宾语音的提取,其中3≤j≤J。
进一步地,所述S2说话人分割:检测上述会议语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成多个语音段,具体为:
S2.1利用基于门限判决的语音检测算法从上述音频文件中找出静音段和语音段;
S2.2将上述语音段按时间顺序拼接成一个长语音段,并从长语音段中提取音频特征;
S2.3利用上述提取的音频特征,根据贝叶斯信息准则,判断长语音段中相邻数据窗之间的相似度来检测说话人改变点;
S2.4依次把相邻两个改变点之间的语音样点作为一个语音段,从而将音频文件分割成多个语音段,且每个语音段包含一个说话人。
进一步地,所述S2.1利用基于门限判决的语音检测算法从上述音频文件中找出静音段和语音段,具体包括如下步骤:
S2.1.1对读入的会议语音进行分帧,并计算每帧语音的能量,得到会议语音的能量特征矢量;
S2.1.2计算每帧语音的能量门限;
S2.1.3将每帧语音的能量与能量门限进行比较,低于能量门限的帧为静音帧,否则为语音帧,将所有的静音帧都舍弃,将语音帧按时间顺序拼接成一个语音段。
进一步地,所述S2.3根据贝叶斯信息准则判断长语音段中相邻数据窗之间的相似度来检测说话人改变点,具体包括如下步骤:
S2.3.1将长语音段切分成数据窗,对每个数据窗进行分帧,从每一帧语音信号中提取音频特征,每个数据窗的音频特征构成一个音频特征矩阵F;
S2.3.2计算两个相邻数据窗(x和y)之间的距离ΔBICx,y
Δ BIC x , y = ( n x + n y ) ln ( | det ( cov ( F z ) ) | ) - n x ln ( | det ( cov ( F x ) ) | ) - n y ln ( | det ( cov ( F y ) ) | ) - α ( d + d ( d + 1 ) 2 ) ln ( n x + n y ) ,
其中,z是将数据窗x和y合并之后得到的数据窗,nx和ny分别是数据窗x和y的帧数,Fx、Fy和Fz分别是数据窗x、y和z的音频特征矩阵,cov(Fx)、cov(Fy)和cov(Fz)分别是音频特征矩阵Fx、Fy和Fz的协方差矩阵,det(·)表示求矩阵的行列式值,d是音频特征的维数,α是惩罚系数;
S2.3.3如果距离ΔBICx,y小于零,则数据窗x和y属于同一个说话人并将它们合并,否则数据窗x和y属于两个不同的说话人(即它们之间存在说话人改变点);
S2.3.4不断地滑动数据窗,判断两个相邻数据窗之间的距离是否小于零,并保存说话人改变点,直到所有相邻数据窗之间的距离都被判断完为止。
进一步地,所述S3中进行语音段的距离比较及合并,从而得到最重要嘉宾的语音,包括如下步骤:
S3.1将语音段x1、x2和xj都切分成语音帧,再从每帧语音中提取音频特征,各个语音段的音频特征构成一个音频特征矩阵,语音段x1、x2和xj的音频特征矩阵分别为F1、F2和Fj,其中3≤j≤J;
S3.2计算语音段x1与x2之间的距离ΔBIC1,2
Δ B / C 1 , 2 = ( n 1 + n 2 ) ln ( | det ( cov ( F x 1,2 ) ) | ) - n 1 ln ( | det ( cov ( F 1 ) ) | ) - n 2 ln ( | det ( cov ( F 2 ) ) | ) - α ( d + d ( d + 1 ) 2 ) ln ( n 1 + n 2 ) ,
其中,x1,2是语音段x1和x2合并之后得到的语音段,n1和n2分别是语音段x1和x2的帧数,F1、F2分别是语音段x1、x2和x1,2的音频特征矩阵,cov(F1)、cov(F2)和cov()分别是音频特征矩阵F1、F2的协方差矩阵,det(·)表示求矩阵的行列式值,d是音频特征的维数,α是惩罚系数且实验取值为2.0;
S3.3如果ΔBIC1,2小于零,则语音段x1和x2都是最重要嘉宾的语音,并跳到步骤S3.4,否则语音段x1和x2属于两个不同的说话人,并跳到步骤S3.5;
S3.4计算语音段x1与其他语音段xj之间的距离ΔBIC1,j,3≤j≤J,
Δ BIC 1 , j = ( n 1 + n j ) ln ( | det ( cov ( F x 1 , j ) ) | ) - n 1 ln ( | det ( cov ( F 1 ) ) | ) - n j ln ( | det ( cov ( F j ) ) | ) - α ( d + d ( d + 1 ) 2 ) ln ( n 1 + n j ) ,
如果ΔBIC1,j小于零,则语音段xj是最重要嘉宾的语音,否则语音段xj不是最重要嘉宾的语音,重复这个过程直到第3至第J个语音段全部被判断完为止,并跳到步骤S3.7;
S3.5计算语音段x1和语音段x2分别与其他语音段xj之间的距离ΔBIC1,j和ΔBIC2,j,3≤j≤J,
Δ BIC 1 , j = ( n 1 + n j ) ln ( | det ( cov ( F x 1 , j ) ) | ) - n 1 ln ( | det ( cov ( F 1 ) ) | ) - n j ln ( | det ( cov ( F j ) ) | ) - α ( d + d ( d + 1 ) 2 ) ln ( n 1 + n j ) ,
Δ BIC 2 , j = ( n 2 + n j ) ln ( | det ( cov ( F x 2 , j ) ) | ) - n 2 ln ( | det ( cov ( F 2 ) ) | ) - n j ln ( | det ( cov ( F j ) ) | ) - α ( d + d ( d + 1 ) 2 ) ln ( n 2 + n j ) ,
如果ΔBIC1,j小于ΔBIC2,j且ΔBIC1,j小于零,则语音段x1和语音段xj属于同一个说话人,如果ΔBIC2,j小于ΔBIC1,j且ΔBIC2,j小于零,则语音段x2和语音段xj属于同一个说话人,否则语音段xj、x1和x2是三个不同的说话人的语音,重复这个过程直到第3至第J个语音段全部被判断完为止,并跳到步骤S3.6;
S3.6计算在步骤S3.5中与语音段x1是同一个说话人的语音段总时长L1,计算在步骤S3.5中与语音段x2是同一个说话人的语音段总时长L2,如果L1大于L2,则与语音段x1是同一个说话人的语音段是最重要嘉宾的语音,否则与语音段x2是同一个说话人的语音段是最重要嘉宾的语音,并跳到步骤S3.7;
S3.7最重要嘉宾语音提取结束。
本发明的有益效果:
1、在说话人分割之后得到最长语音段x1及第二长语音段x2,并基于语音段x1和x2中至少有一个是最重要嘉宾语音以及最重要嘉宾语音的总时长最大,提取出会议中最重要嘉宾的语音,为会议语音的快速浏览、主题提取、说话人检索等奠定基础。
2、目前在提取最重要嘉宾语音的方法需要在说话人分割之后,进行凝聚分层聚类将各个说话人的语音聚类在一起,再根据各个说话人的时长大小,将时长最大的说话人语音判为最重要嘉宾的语音。由于凝聚分层聚类方法计算量大,特别是说话人分割之后的语音段个数较多时,需要花费更多的时间,而本方法无需进行凝聚分层聚类,有效克服了目前方法运算速度慢的缺陷。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例
如图1所示,一种提取会议中最重要嘉宾语音的方法,包括如下步骤:
S1、读入记录有会议语音的音频文件,会议语音可以是各种格式的音频文件,例如WAV、RAM、MP3、VOX等。
S2、利用基于门限判决的语音检测方法找出语音流中的静音段和语音段,将上述语音段按时间顺序拼接成一个长语音段,并从长语音段中提取音频特征,利用上述提取出来的音频特征,根据贝叶斯信息准则,判断长语音段中相邻数据窗之间的相似度来检测说话人改变点;最后根据上述说话人改变点,将音频文件分成J个语音段,并将这J个语音段按时长从大到小的顺序编号得到排序后的语音段xj,1≤j≤J,x1和x2分别是最长和第二长的语音段,以此类推;
S3、比较语音段x1与语音段x2的距离,根据该距离与门限的关系判断语音段x1与语音段x2是否都是最重要嘉宾的语音,再根据其他语音段xj与语音段x1和语音段x2的距离,判断其他语音段xj是不是最重要嘉宾的语音,从而实现最重要嘉宾语音的提取,其中3≤j≤J。
所述S2中所述基于门限判决的语音检测方法,从音频文件中找出静音段和语音段,具体包括以下步骤:
S2.1.1、将读入的音频文件分成T帧,帧长为32毫秒(帧长对应的采样点个数N=0.032×fs,其中fs为语音信号的采样频率),帧移为16毫秒,如果最后一帧语音的采样点个数小于N,则将其舍去;计算第t帧语音信号xt(n)的能量Et
E t = Σ n = 1 N x t 2 ( n ) 1 ≤ t ≤ T ,
得到语音流的能量特征矢量E=[E1,E2,...,ET],其中,T为总帧数;
S2.1.2、用固定的能量门限判断静音与语音有很大的局限性,因为各种环境下的语音能量相差很大,但语音与静音之间能量大小的相对关系是不变的,所以定义每帧语音的能量门限TE
TE=min(E)+0.3×[mean(E)-min(E)],
其中,min(E)是各帧能量的最小值,mean(E)是各帧能量的平均值;
S2.1.3、将每帧语音的能量与能量门限TE进行比较,低于能量门限TE的帧为静音帧,否则为语音帧,将所有静音帧都舍弃,将相邻的语音帧按时间顺序拼接成一个语音段。
所述S2中提取的音频特征包括梅尔频率倒谱系数(Mel Frequency CepstralCoefficients,MFCCs)及其一阶差分(ΔMFCCs),特征的步骤包括:
S2.2.1、将语音信号分成T帧,帧长为32毫秒(帧长对应的采样点个数N=0.032×fs,其中fs为语音信号的采样频率),帧移为16毫秒,如果最后一帧语音的采样点个数小于N,则将其舍去;
S2.2.2、对第t帧语音xt(n)做离散傅立叶变换(Discrete FourierTransformation,DFT)得到线性频谱Xt(k):
X t ( k ) = Σ n = 0 N - 1 x t ( n ) e - j 2 πnk / N , 1 ≤ t ≤ T , 0 ≤ n ≤ N - 1,0 ≤ k ≤ N - 1 ;
S2.2.3、将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),其中梅尔频率滤波器组为若干个带通滤波器Hm(k),0≤m<M,M为滤波器的个数且通常取值为23~26,实验时取值为24,每个滤波器具有三角形滤波特性,其中心频率为f(m),当m值较小时相邻f(m)之间的间隔也较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
H m ( k ) = 0 ( f < f ( m - 1 ) ) k - f ( m - 1 ) f ( m ) - f ( m - 1 ) ( f ( m - 1 ) &le; k &le; f ( m ) ) f ( m + 1 ) - k f ( m + 1 ) - f ( m ) ( f ( m ) < k &le; f ( m + 1 ) ) 0 ( k > f ( m + 1 ) ) ( 0 &le; m < m ) ,
其中,f(m)定义如下:
f ( m ) = ( N f s ) B - 1 ( B ( f l ) + m B ( f h ) - B ( f l ) M + 1 ) ,
其中,fl、fh为滤波器的频率应用范围的最低频率和最高频率,B-1为B的逆函数:B-1(b)=700(eb/1125-1),因此由线性谱Xt(k)到对数谱St(m)的函数式为:
S t ( m ) = ln ( &Sigma; K = 0 N - 1 | X t ( k ) | 2 H m ( k ) ) ( 0 &le; m < M ) ;
S2.2.4、将上述对数频谱St(m)经过离散余弦变换(Discrete CosineTransformation,DCT)变换到倒谱域,得到第t帧MFCCs,Ct(p):
C t ( p ) = &Sigma; m = 0 M - 1 S t ( m ) cos ( ( m + 0.5 ) p&pi; M ) 0 &le; p < P , 0 &le; m < M ,
其中,P为梅尔频率倒谱系数的阶数,通常取值为12~16,实验时取值为13;
S2.2.5、计算第t帧MFCCs的一阶差分(ΔMFCCs),C't(p): C t &prime; ( p ) = 1 &Sigma; q = - Q Q q 2 &Sigma; q = - Q Q q &times; C t ( p + q ) 0 &le; p < P , 0 &le; q &le; Q ,
其中,Q为常数,实验时取值为3;
S2.2.6、对每帧语音信号重复上述步骤S2.2.2~S2.2.5,得到所有T帧语音信号的MFCCs与ΔMFCCs,将它们按帧的顺序组合成一个MFCCs矩阵与ΔMFCCs矩阵,再将MFCCs矩阵与ΔMFCCs矩阵合并构成音频特征矩阵F。
所述S2中的利用贝叶斯信息准则确定说话人改变点的方法具体包括以下步骤:
S2.3.1、将经过语音检测得到的各个语音段按顺序拼接成一个长语音段,将长语音段切分成数据窗,窗长为2秒,窗移为0.1秒,对每个数据窗进行分帧,帧长为32毫秒,帧移为16毫秒,从每一帧语音信号中提取MFCCs与ΔMFCCs特征,它们的维数M都为12,每个数据窗的音频特征构成一个音频特征矩阵F,特征矩阵F的维数d=2M为24;
S2.3.2、计算两个相邻数据窗(x和y)之间的距离ΔBICx,y
&Delta; BIC x , y = ( n x + n y ) ln ( | det ( cov ( F z ) ) | ) - n x ln ( | det ( cov ( F x ) ) | ) - n y ln ( | det ( cov ( F y ) ) | ) - &alpha; ( d + d ( d + 1 ) 2 ) ln ( n x + n y ) ,
其中,z是将数据窗x和y合并之后得到的数据窗,nx和ny分别是数据窗x和y的帧数,Fx、Fy和Fz分别是数据窗x、y和z的音频特征矩阵,cov(Fx)、cov(Fy)和cov(Fz)分别是音频特征矩阵Fx、Fy和Fz的协方差矩阵,det(·)表示求矩阵的行列式值,d是音频特征的维数,α是惩罚系数且实验取值为2.0;
S2.3.3、如果距离ΔBICx,y小于零,则数据窗x和y属于同一个说话人并将它们合并,否则数据窗x和y属于两个不同的说话人(即它们之间存在说话人改变点);
S2.3.4、不断地滑动数据窗,判断两个相邻数据窗之间的距离是否小于零,并保存说话人改变点,直到所有相邻数据窗之间的距离都被判断完为止。
所述S3中进行语音段的距离比较及合并,从而得到最重要嘉宾的语音,包括如下步骤:
S3.1、将语音段x1、x2和xj都切分成语音帧,再从每帧语音中提取梅尔频率倒谱系数MFCCs及其一阶差分ΔMFCCs的音频特征,各个语音段的音频特征构成一个音频特征矩阵,语音段x1、x2和xj的音频特征矩阵分别为F1、F2和Fj,其中3≤j≤J;
S3.2、计算语音段x1与x2之间的距离ΔBIC1,2
&Delta; B / C 1 , 2 = ( n 1 + n 2 ) ln ( | det ( cov ( F x 1,2 ) ) | ) - n 1 ln ( | det ( cov ( F 1 ) ) | ) - n 2 ln ( | det ( cov ( F 2 ) ) | ) - &alpha; ( d + d ( d + 1 ) 2 ) ln ( n 1 + n 2 ) ,
其中,x1,2是语音段x1和x2合并之后得到的语音段,n1和n2分别是语音段x1和x2的帧数,F1、F2分别是语音段x1、x2和x1,2的音频特征矩阵,cov(F1)、cov(F2)和cov()分别是音频特征矩阵F1、F2的协方差矩阵,det(·)表示求矩阵的行列式值,α是惩罚系数且实验取值为2.0;
S3.3、如果ΔBIC1,2小于零,则语音段x1和x2都是最重要嘉宾的语音,并跳到步骤S3.4,否则语音段x1和x2属于两个不同的说话人,并跳到步骤S3.5;
S3.4、计算语音段x1与其他语音段xj之间的距离ΔBIC1,j,3≤j≤J,
&Delta; BIC 1 , j = ( n 1 + n j ) ln ( | det ( cov ( F x 1 , j ) ) | ) - n 1 ln ( | det ( cov ( F 1 ) ) | ) - n j ln ( | det ( cov ( F j ) ) | ) - &alpha; ( d + d ( d + 1 ) 2 ) ln ( n 1 + n j ) ,
如果ΔBIC1,j小于零,则语音段xj是最重要嘉宾的语音,否则语音段xj不是最重要嘉宾的语音,重复这个过程直到第3至第J个语音段全部被判断完为止,并跳到步骤S3.7;
S3.5、计算语音段x1和语音段x2分别与其他语音段xj之间的距离ΔBIC1,j和ΔBIC2,j,3≤j≤J,
&Delta; BIC 1 , j = ( n 1 + n j ) ln ( | det ( cov ( F x 1 , j ) ) | ) - n 1 ln ( | det ( cov ( F 1 ) ) | ) - n j ln ( | det ( cov ( F j ) ) | ) - &alpha; ( d + d ( d + 1 ) 2 ) ln ( n 1 + n j ) ,
&Delta; BIC 2 , j = ( n 2 + n j ) ln ( | det ( cov ( F x 2 , j ) ) | ) - n 2 ln ( | det ( cov ( F 2 ) ) | ) - n j ln ( | det ( cov ( F j ) ) | ) - &alpha; ( d + d ( d + 1 ) 2 ) ln ( n 2 + n j ) ,
如果ΔBIC1,j小于ΔBIC2,j且ΔBIC1,j小于零,则语音段x1和语音段xj属于同一个说话人,如果ΔBIC2,j小于ΔBIC1,j且ΔBIC2,j小于零,则语音段x2和语音段xj属于同一个说话人,否则语音段xj、x1和x2是三个不同的说话人的语音,重复这个过程直到第3至第J个语音段全部被判断完为止,并跳到步骤S3.6;
S3.6、计算在步骤S3.5中与语音段x1是同一个说话人的语音段总时长L1,计算在步骤S3.5中与语音段x2是同一个说话人的语音段总时长L2,如果L1大于L2,则与语音段x1是同一个说话人的语音段是最重要嘉宾的语音,否则与语音段x2是同一个说话人的语音段是最重要嘉宾的语音,并跳到步骤S3.7;
S3.7、最重要嘉宾语音提取结束。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种提取会议中最重要嘉宾语音的方法,其特征在于,包括如下步骤:
S1、读入记录有会议语音的音频文件;
S2、说话人分割:检测上述会议语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成J个语音段,并将这J个语音段按时长从大到小的顺序编号得到排序后的语音段xj,1≤j≤J,x1和x2分别是最长和第二长的语音段,以此类推;
S3、语音段的距离比较及合并:比较语音段x1与语音段x2的距离,根据该距离与门限的关系判断语音段x1与语音段x2是否都是最重要嘉宾的语音,再根据其他语音段xj与语音段x1和语音段x2的距离,判断其他语音段xj是不是最重要嘉宾的语音,从而实现最重要嘉宾语音的提取,其中,3≤j≤J。
2.根据权利要求1所述的提取会议中最重要嘉宾语音的方法,其特征在于,所述S2说话人分割:检测上述会议语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成多个语音段,具体为:
S2.1利用基于门限判决的语音检测算法从上述音频文件中找出静音段和语音段;
S2.2将上述语音段按时间顺序拼接成一个长语音段,并从长语音段中提取音频特征;
S2.3利用上述提取的音频特征,根据贝叶斯信息准则,判断长语音段中相邻数据窗之间的相似度来检测说话人改变点;
S2.4依次把相邻两个改变点之间的语音样点作为一个语音段,从而将音频文件分割成多个语音段,且每个语音段包含一个说话人。
3.根据权利要求2所述的提取会议中最重要嘉宾语音的方法,其特征在于,所述S2.1利用基于门限判决的语音检测算法从上述音频文件中找出静音段和语音段,具体包括如下步骤:
S2.1.1对读入的会议语音进行分帧,并计算每帧语音的能量,得到会议语音的能量特征矢量;
S2.1.2计算每帧语音的能量门限;
S2.1.3将每帧语音的能量与能量门限进行比较,低于能量门限的帧为静音帧,否则为语音帧,将所有的静音帧都舍弃,将语音帧按时间顺序拼接成一个语音段。
4.根据权利要求2所述的提取会议中最重要嘉宾语音的方法,其特征在于,所述S2.3根据贝叶斯信息准则,判断长语音段中相邻数据窗之间的相似度来检测说话人改变点,具体包括如下步骤:
S2.3.1将长语音段切分成数据窗,对每个数据窗进行分帧,从每一帧语音信号中提取音频特征,每个数据窗的音频特征构成一个音频特征矩阵F;
S2.3.2计算两个相邻数据窗(x和y)之间的距离ΔBICx,y
&Delta; BIC x , y = ( n x + n y ) ln ( | det ( cov ( F z ) ) | ) - n x ln ( | det ( cov ( F x ) ) | ) - n y ln ( | det ( cov ( F y ) ) | ) - &alpha; ( d + d ( d + 1 ) 2 ) ln ( n x + n y ) ,
其中,z是将数据窗x和y合并之后得到的数据窗,nx和ny分别是数据窗x和y的帧数,Fx、Fy和Fz分别是数据窗x、y和z的音频特征矩阵,cov(Fx)、cov(Fy)和cov(Fz)分别是音频特征矩阵Fx、Fy和Fz的协方差矩阵,det(·)表示求矩阵的行列式值,d是音频特征的维数,α是惩罚系数;
S2.3.3如果距离ΔBICx,y小于零,则数据窗x和y属于同一个说话人并将它们合并,否则数据窗x和y属于两个不同的说话人(即它们之间存在说话人改变点);
S2.3.4不断地滑动数据窗,判断两个相邻数据窗之间的距离是否小于零,并保存说话人改变点,直到所有相邻数据窗之间的距离都被判断完为止。
5.根据权利要求1所述的提取会议中最重要嘉宾语音的方法,其特征在于,所述S3的语音段的距离比较及合并,包括如下步骤:
S3.1将语音段x1、x2和xj都切分成语音帧,再从每帧语音中提取音频特征,各个语音段的音频特征构成一个音频特征矩阵,语音段x1、x2和xj的音频特征矩阵分别为F1、F2和Fj,其中3≤j≤J;
S3.2计算语音段x1与x2之间的距离ΔBIC1,2
&Delta; B / C 1 , 2 = ( n 1 + n 2 ) ln ( | det ( cov ( F x 1,2 ) ) | ) - n 1 ln ( | det ( cov ( F 1 ) ) | ) - n 2 ln ( | det ( cov ( F 2 ) ) | ) - &alpha; ( d + d ( d + 1 ) 2 ) ln ( n 1 + n 2 ) ,
其中,x1,2是语音段x1和x2合并之后得到的语音段,n1和n2分别是语音段x1和x2的帧数,F1、F2分别是语音段x1、x2和x1,2的音频特征矩阵,cov(F1)、cov(F2)和cov()分别是音频特征矩阵F1、F2的协方差矩阵,det(·)表示求矩阵的行列式值,d是音频特征的维数,α是惩罚系数;
S3.3如果ΔBIC1,2小于零,则语音段x1和x2都是最重要嘉宾的语音,并跳到步骤S3.4,否则语音段x1和x2属于两个不同的说话人,并跳到步骤S3.5;
S3.4计算语音段x1与其他语音段xj之间的距离ΔBIC1,j,3≤j≤J,
&Delta; BIC 1 , j = ( n 1 + n j ) ln ( | det ( cov ( F x 1 , j ) ) | ) - n 1 ln ( | det ( cov ( F 1 ) ) | ) - n j ln ( | det ( cov ( F j ) ) | ) - &alpha; ( d + d ( d + 1 ) 2 ) ln ( n 1 + n j ) ,
如果ΔBIC1,j小于零,则语音段xj是最重要嘉宾的语音,否则语音段xj不是最重要嘉宾的语音,重复这个过程直到第3至第J个语音段全部被判断完为止,并跳到步骤S3.7;
S3.5计算语音段x1和语音段x2分别与其他语音段xj之间的距离ΔBIC1,j和ΔBIC2,j,3≤j≤J,
&Delta; BIC 1 , j = ( n 1 + n j ) ln ( | det ( cov ( F x 1 , j ) ) | ) - n 1 ln ( | det ( cov ( F 1 ) ) | ) - n j ln ( | det ( cov ( F j ) ) | ) - &alpha; ( d + d ( d + 1 ) 2 ) ln ( n 1 + n j ) , &Delta; BIC 2 , j = ( n 2 + n j ) ln ( | det ( cov ( F x 2 , j ) ) | ) - n 2 ln ( | det ( cov ( F 2 ) ) | ) - n j ln ( | det ( cov ( F j ) ) | ) - &alpha; ( d + d ( d + 1 ) 2 ) ln ( n 2 + n j ) ,
如果ΔBIC1,j小于ΔBIC2,j且ΔBIC1,j小于零,则语音段x1和语音段xj属于同一个说话人,如果ΔBIC2,j小于ΔBIC1,j且ΔBIC2,j小于零,则语音段x2和语音段xj属于同一个说话人,否则语音段xj、x1和x2是三个不同的说话人的语音,重复这个过程直到第3至第J个语音段全部被判断完为止,并跳到步骤S3.6;
S3.6计算在步骤S3.5中与语音段x1是同一个说话人的语音段总时长L1,计算在步骤S3.5中与语音段x2是同一个说话人的语音段总时长L2,如果L1大于L2,则与语音段x1是同一个说话人的语音段是最重要嘉宾的语音,否则与语音段x2是同一个说话人的语音段是最重要嘉宾的语音,并跳到步骤S3.7;
S3.7最重要嘉宾语音提取结束。
CN201410231431.9A 2014-05-28 2014-05-28 一种提取会议中最重要嘉宾语音的方法 Pending CN104021785A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410231431.9A CN104021785A (zh) 2014-05-28 2014-05-28 一种提取会议中最重要嘉宾语音的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410231431.9A CN104021785A (zh) 2014-05-28 2014-05-28 一种提取会议中最重要嘉宾语音的方法

Publications (1)

Publication Number Publication Date
CN104021785A true CN104021785A (zh) 2014-09-03

Family

ID=51438510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410231431.9A Pending CN104021785A (zh) 2014-05-28 2014-05-28 一种提取会议中最重要嘉宾语音的方法

Country Status (1)

Country Link
CN (1) CN104021785A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104992707A (zh) * 2015-05-19 2015-10-21 四川大学 一种腭裂语音喉塞音自动识别算法及装置
CN105161093A (zh) * 2015-10-14 2015-12-16 科大讯飞股份有限公司 一种判断说话人数目的方法及系统
CN105429984A (zh) * 2015-11-27 2016-03-23 刘军 媒体播放方法、设备及音乐教学系统
CN107342077A (zh) * 2017-05-27 2017-11-10 国家计算机网络与信息安全管理中心 一种基于因子分析的说话人分段聚类方法及系统
CN108172219A (zh) * 2017-11-14 2018-06-15 珠海格力电器股份有限公司 识别语音的方法和装置
CN108242241A (zh) * 2016-12-23 2018-07-03 中国农业大学 一种纯语音快速筛选方法及其装置
CN109036386A (zh) * 2018-09-14 2018-12-18 北京网众共创科技有限公司 一种语音处理方法及装置
CN109948124A (zh) * 2019-03-15 2019-06-28 腾讯科技(深圳)有限公司 语音文件切分方法、装置及计算机设备
CN109960743A (zh) * 2019-01-16 2019-07-02 平安科技(深圳)有限公司 会议内容区分方法、装置、计算机设备及存储介质
WO2022161264A1 (zh) * 2021-01-26 2022-08-04 阿里巴巴集团控股有限公司 音频信号处理、会议记录与呈现方法、设备、系统及介质
CN115529432A (zh) * 2021-06-27 2022-12-27 瑞昱半导体股份有限公司 视讯处理方法与相关的系统芯片

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021854A (zh) * 2006-10-11 2007-08-22 鲍东山 基于内容的音频分析系统
US20090281644A1 (en) * 2008-02-26 2009-11-12 Kabushiki Kaisha Toshiba Apparatus and method product for accessing information related to a particular setting from an information repository
CN102543063A (zh) * 2011-12-07 2012-07-04 华南理工大学 基于说话人分割与聚类的多说话人语速估计方法
CN103137137A (zh) * 2013-02-27 2013-06-05 华南理工大学 一种会议音频中的精彩说话人发现方法
CN103400580A (zh) * 2013-07-23 2013-11-20 华南理工大学 一种多人会话语音中的说话人重要程度估计方法
CN103530432A (zh) * 2013-09-24 2014-01-22 华南理工大学 一种具有语音提取功能的会议记录器及语音提取方法
CN103559882A (zh) * 2013-10-14 2014-02-05 华南理工大学 一种基于说话人分割的会议主持人语音提取方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021854A (zh) * 2006-10-11 2007-08-22 鲍东山 基于内容的音频分析系统
US20090281644A1 (en) * 2008-02-26 2009-11-12 Kabushiki Kaisha Toshiba Apparatus and method product for accessing information related to a particular setting from an information repository
CN102543063A (zh) * 2011-12-07 2012-07-04 华南理工大学 基于说话人分割与聚类的多说话人语速估计方法
CN103137137A (zh) * 2013-02-27 2013-06-05 华南理工大学 一种会议音频中的精彩说话人发现方法
CN103400580A (zh) * 2013-07-23 2013-11-20 华南理工大学 一种多人会话语音中的说话人重要程度估计方法
CN103530432A (zh) * 2013-09-24 2014-01-22 华南理工大学 一种具有语音提取功能的会议记录器及语音提取方法
CN103559882A (zh) * 2013-10-14 2014-02-05 华南理工大学 一种基于说话人分割的会议主持人语音提取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
WU WEI 等: "《Spotting Chief Speaker form Press Conference Recordings Based on Silence Detection》", 《ELECTRONIC MEASUREMENT & INSTRUMENTS (ICEMI),2013 IEEE 11TH INTERNATIONAL CONFERENCE ON》 *
YONG WU 等: "《Speaking Rate Estimation for multi-Speakers》", 《AUDIO,LANGUAGE AND IMAGE PROCESSING(ICALIP),2012 INTERNATIONAL CONFERENCE ON》 *
李艳雄 等: "《基于特征均值距离的短语音段说话人聚类算法》", 《电子与信息学报》 *
杨继臣等: "《一种改进的BIC说话人改变检测算法》", 《华南理工大学学报(自然科学版)》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104992707A (zh) * 2015-05-19 2015-10-21 四川大学 一种腭裂语音喉塞音自动识别算法及装置
CN105161093B (zh) * 2015-10-14 2019-07-09 科大讯飞股份有限公司 一种判断说话人数目的方法及系统
CN105161093A (zh) * 2015-10-14 2015-12-16 科大讯飞股份有限公司 一种判断说话人数目的方法及系统
CN105429984A (zh) * 2015-11-27 2016-03-23 刘军 媒体播放方法、设备及音乐教学系统
CN105429984B (zh) * 2015-11-27 2019-03-15 刘军 媒体播放方法、设备及音乐教学系统
CN108242241A (zh) * 2016-12-23 2018-07-03 中国农业大学 一种纯语音快速筛选方法及其装置
CN107342077A (zh) * 2017-05-27 2017-11-10 国家计算机网络与信息安全管理中心 一种基于因子分析的说话人分段聚类方法及系统
CN108172219A (zh) * 2017-11-14 2018-06-15 珠海格力电器股份有限公司 识别语音的方法和装置
CN108172219B (zh) * 2017-11-14 2021-02-26 珠海格力电器股份有限公司 识别语音的方法和装置
CN109036386A (zh) * 2018-09-14 2018-12-18 北京网众共创科技有限公司 一种语音处理方法及装置
CN109960743A (zh) * 2019-01-16 2019-07-02 平安科技(深圳)有限公司 会议内容区分方法、装置、计算机设备及存储介质
CN109948124A (zh) * 2019-03-15 2019-06-28 腾讯科技(深圳)有限公司 语音文件切分方法、装置及计算机设备
CN109948124B (zh) * 2019-03-15 2022-12-23 腾讯科技(深圳)有限公司 语音文件切分方法、装置及计算机设备
WO2022161264A1 (zh) * 2021-01-26 2022-08-04 阿里巴巴集团控股有限公司 音频信号处理、会议记录与呈现方法、设备、系统及介质
CN115529432A (zh) * 2021-06-27 2022-12-27 瑞昱半导体股份有限公司 视讯处理方法与相关的系统芯片

Similar Documents

Publication Publication Date Title
CN104021785A (zh) 一种提取会议中最重要嘉宾语音的方法
CN102543063B (zh) 基于说话人分割与聚类的多说话人语速估计方法
CN103559882B (zh) 一种基于说话人分割的会议主持人语音提取方法
Zhou et al. Efficient audio stream segmentation via the combined T/sup 2/statistic and Bayesian information criterion
Dhanalakshmi et al. Classification of audio signals using AANN and GMM
CN103400580A (zh) 一种多人会话语音中的说话人重要程度估计方法
CN103137137B (zh) 一种会议音频中的精彩说话人发现方法
Venter et al. Automatic detection of African elephant (Loxodonta africana) infrasonic vocalisations from recordings
CN101221762A (zh) 一种mp3压缩域音频分割方法
Le et al. Speaker diarization using normalized cross likelihood ratio.
Linh et al. MFCC-DTW algorithm for speech recognition in an intelligent wheelchair
Thiruvengatanadhan Speech recognition using SVM
Pham et al. Toward better speaker embeddings: Automated collection of speech samples from unknown distinct speakers
Jothilakshmi et al. Speaker diarization using autoassociative neural networks
Wang et al. Automatic audio segmentation using the generalized likelihood ratio
Prasasti et al. Identification of baby cry with discrete wavelet transform, mel frequency cepstral coefficient and principal component analysis
Anguera et al. Xbic: Real-time cross probabilities measure for speaker segmentation
Jothilakshmi Spoken keyword detection using autoassociative neural networks
Rouniyar et al. Channel response based multi-feature audio splicing forgery detection and localization
Kadri et al. Robust audio speaker segmentation using one class SVMs
Kos et al. Speaker's gender classification and segmentation using spectral and cepstral feature averaging
Bhandari et al. Audio segmentation for speech recognition using segment features
Bera et al. Emotion recognition using combination of mfcc and lpcc with supply vector machine
Khatter et al. Deep Learning based Identification of Primary Speaker in Voice-Controlled Devices
Ismail et al. Kamrupi dialect identification using GMM

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140903

WD01 Invention patent application deemed withdrawn after publication