CN103559882A - 一种基于说话人分割的会议主持人语音提取方法 - Google Patents

一种基于说话人分割的会议主持人语音提取方法 Download PDF

Info

Publication number
CN103559882A
CN103559882A CN201310479266.4A CN201310479266A CN103559882A CN 103559882 A CN103559882 A CN 103559882A CN 201310479266 A CN201310479266 A CN 201310479266A CN 103559882 A CN103559882 A CN 103559882A
Authority
CN
China
Prior art keywords
voice
voice segments
segments
frame
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310479266.4A
Other languages
English (en)
Other versions
CN103559882B (zh
Inventor
李艳雄
金海�
贺前华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201310479266.4A priority Critical patent/CN103559882B/zh
Publication of CN103559882A publication Critical patent/CN103559882A/zh
Application granted granted Critical
Publication of CN103559882B publication Critical patent/CN103559882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于说话人分割的会议主持人语音提取方法,包括如下步骤:S1、读入记录有会议语音的音频文件;S2、说话人分割:检测上述会议语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成多个语音段;S3、语音段距离比较:将说话人分割之后的第一个语音段作为会议主持人的语音,并比较该语音段与其他语音段的距离,将距离小于门限的语音段也判为会议主持人语音,从而得到会议主持人的所有语音段。本发明为会议语音的快速浏览、主题提取、说话人检索等奠定了基础,具有能快速有效地提取出会议主持人的语音等优点。

Description

一种基于说话人分割的会议主持人语音提取方法
技术领域
本发明涉及语音信号处理和模式识别技术,尤其涉及一种基于说话人分割的会议主持人语音提取方法。
背景技术
会议主持人是指在多人会话的会议中,使会议进程有序进行的说话人。在经常召开的讨论会、新闻发布会、演讲等会议中,一般都有一个会议主持人。主持人往往是整个会议的第一个发言人,他组织并引导与会者有序地参与会议议程的讨论。从会议主持人的发言中,可以得到该会议的主题、与会人员人数及身份、主要议程、会议决议等重要信息。这些信息是人们在浏览分析会议语音时最希望获取的。因此,快速有效地提取出会议主持人的语音,对于会议语音的快速浏览、主题提取、说话人检索等应用都具有非常重要的意义。目前的会议主持人语音提取方法流程如下:先对会议语音进行说话人分割,再对分割结果进行说话人聚类得到各个说话人语音,最后进行说话人角色分析得到会议主持人语音。目前的方法在说话人分割之后还需要进行说话人聚类和说话人角色分析才能得到会议主持人语音。因此,目前的方法存在步骤多、计算量大的缺点,难以实现快速的会议主持人语音提取。
发明内容
本发明的目的在于克服现有技术存在的缺点与不足,提供一种基于说话人分割的会议主持人语音提取方法,该方法能快速有效地提取出会议主持人的语音。
本发明的目的通过以下技术方案实现:一种基于说话人分割的会议主持人语音提取方法,包括如下步骤:
S1、读入记录有会议语音的音频文件;
S2、说话人分割:检测上述会议语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成多个语音段,所述语音段的个数等于改变点个数加1;
S3、语音段距离比较:将说话人分割之后的第一个语音段作为会议主持人的语音,并比较该语音段与其他语音段的距离,将距离小于门限的语音段也判为会议主持人语音,从而得到会议主持人的所有语音段。
进一步地,所述S2说话人分割:检测上述会议语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成多个语音段,具体为:
S2.1、利用门限判决的语音检测算法从上述音频文件中找出静音段和语音段;
S2.2、将上述语音段按时间顺序拼接成一个长语音段,并从长语音段中提取音频特征;
S2.3、利用上述提取的音频特征,根据贝叶斯信息准则,判断长语音段中相邻数据窗之间的相似度来检测说话人改变点;
S2.4、依次把相邻两个改变点之间的语音样点作为一个语音段,从而将音频文件分割成多个语音段,且每个语音段包含一个说话人。
进一步地,所述S2.1利用门限判决的语音检测算法从上述音频文件中找出静音段和语音段,具体包括如下步骤:
S2.1.1、对读入的会议语音进行分帧,并计算每帧语音的能量,得到会议语音的能量特征矢量;
S2.1.2、计算每帧语音的能量门限;
S2.1.3、将每帧语音的能量与能量门限比较,低于能量门限的帧为静音帧,否则为语音帧,将静音帧按时间顺序拼接成一个静音段,将语音帧按时间顺序拼接成一个语音段。
进一步地,所述S3中比较第一个语音段X1与其他语音段Xi(i≥2)之间的距离,将距离小于门限的语音段也判为会议主持人语音,包括如下步骤:
S3.1、将第一个语音段X1与其他语音段Xi都分为语音帧,再从每帧语音中提取梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)及其一阶差分(Delta-MFCCs)的音频特征,各个语音段的特征构成一个特征矩阵,语音段X1的特征矩阵为F1,Xi的特征矩阵为Fi(i≥2);
S3.2、计算语音段X1与Xi之间的BIC距离,BIC距离计算公式如下:
ΔBIC = ( n 1 + n i ) ln ( | det ( cov ( F z ) ) | ) - n 1 ln ( | det ( cov ( F 1 ) ) | ) - n i ln ( | det ( cov ( F i ) ) | ) - α ( d + d ( d + 1 ) 2 ) ln ( n 1 + n i ) ,
其中,Z是将语音段X1和Xi合并之后得到的语音段,n1和ni分别是语音段X1和Xi的帧数,F1、Fi和Fz分别是语音段X1、Xi和Z的特征矩阵,cov(F1)、cov(Fi)和cov(Fz)分别是特征矩阵F1、Fi和Fz的协方差矩阵,det(·)表示求矩阵的行列式值,α是惩罚系数且实验取值为2.0;
S3.3、如果BIC距离ΔBIC大于零,则这两个语音段被视为属于两个不同的说话人(即Xi不是主持人语音),否则这两个语音段被视为属于主持人并将它们合并;
S3.4、不断地判断其他语音段Xi与第一个语音段X1之间的BIC距离是否大于零,直到所有Xi与X1之间的BIC距离都被判断完为止。
本发明的优点与效果(有益效果):
1、无需进行说话人聚类和角色分析,步骤简单,计算速度快。
2、基于说话人分割的结果,提取出会议主持人的语音,为会议语音的快速浏览、主题提取、说话人检索等奠定了基础。
附图说明
图1为本发明的会议主持人语音提取方法的主持人语音提取流程示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例
如图1所示,一种基于说话人分割的会议主持人语音提取方法,包括如下步骤:
S1、读入记录有会议语音的音频文件,会议语音可以是各种格式的音频文件,例如WAV、RAM、MP3、VOX等。
S2、利用基于门限判决的语音检测方法找出语音流中的静音段和语音段,将上述语音段按时间顺序拼接成一个长语音段,并从长语音段中提取音频特征,利用上述提取出来的音频特征,根据贝叶斯信息准则,判断长语音段中相邻数据窗之间的相似度来检测说话人改变点;最后根据上述说话人改变点,把音频文件分割成多个语音段,且每个语音段只包含一个说话人,所述语音段的个数等于改变点个数加1。
所述门限判决的语音检测方法从上述音频文件中找出静音段和语音段,具体包括以下步骤:
S2.1.1、将读入的音频文件分成T帧,帧长为32毫秒(帧长对应的采样点个数N=0.032×fs,其中fs为语音信号的采样频率),帧移为16毫秒,如果最后一帧语音的采样点个数小于N,则将其舍去;计算第t(1≤t≤T)帧语音信号xt(n)的能量Et
E t = Σ n = 1 N X t 2 ( n ) , 1 ≤ t ≤ T ,
得到语音流的能量特征矢量E=[E1,E2,...,ET],其中T为总帧数;
S2.1.2、用固定的能量门限判断静音与语音有很大的局限性,因为各种环境下的语音能量相差很大,但语音与静音之间能量大小的相对关系是不变的,所以定义每帧语音的能量门限TE
TE=min(E)+0.3×[mean(E)-min(E)],
其中,min(E)是各帧能量的最小值,mean(E)是各帧能量的平均值。
S2.1.3、将每帧语音的能量与能量门限比较,低于能量门限的帧为静音帧,否则为语音帧,将所有静音帧都舍弃,并将相邻的语音帧按时间顺序拼接成一个语音段。
所述步骤S2中的利用贝叶斯信息准则确定说话人改变点的方法具体包括以下步骤:
S2.3.1、将经过语音检测得到的各个语音段按顺序拼接成一个长语音段,将长语音段切分成数据窗,窗长为2秒,窗移为0.1秒。对每个数据窗进行分帧,帧长为32毫秒,帧移为16毫秒,从每一帧语音信号中提取MFCCs与Delta-MFCCs特征,MFCCs与Delta-MFCCs的维数M都取12,每个数据窗的特征构成一个特征矩阵F,特征矩阵F的维数d=2M为24;
S2.3.2、计算两个相邻数据窗(x和y)之间的BIC距离,BIC距离计算公式如下:
ΔBIC = ( n x + n y ) ln ( | det ( cov ( F z ) ) | ) - n x ln ( | det ( cov ( F x ) ) | ) - n y ln ( | det ( cov ( F y ) ) | ) - α ( d + d ( d + 1 ) 2 ) ln ( n x + n y ) ,
其中,z是将数据窗x和y合并之后得到的数据窗,nx和ny分别是数据窗x和y的帧数,Fx、Fy和Fz分别是数据窗x、y和z的特征矩阵,cov(Fx)、cov(Fy)和cov(Fz)分别是特征矩阵Fx、Fy和Fz的协方差矩阵,det(·)表示求矩阵的行列式值,α是惩罚系数且实验取值为2.0;
S2.3.3、如果BIC距离ΔBIC大于零,则这两个数据窗被视为属于两个不同的说话人(即它们之间存在说话人改变点),否则这两个数据窗被视为属于同一个说话人并将它们合并;
S2.3.4、不断地滑动数据窗判断两个相邻数据窗之间的BIC距离是否大于零,并保存说话人改变点,直到长语音段的所有相邻数据窗之间的BIC距离都被判断完为止。
上述提取音频特征包括梅尔频率倒谱系数(MFCCs)及其一阶差分(Delta-MFCCs)特征的步骤包括:
S2.2.1、将语音信号分成T帧,帧长为32毫秒(帧长对应的采样点个数N=0.032×fs,其中fs为语音信号的采样频率),帧移为16毫秒,如果最后一帧语音的采样点个数小于N,则将其舍去;
S2.2.2、对第t(1≤t≤T)帧语音信号xt(n)做离散傅立叶变换(DiscreteFourier Transformation,DFT)得到线性频谱Xt(k):
X t ( k ) = Σ n = 0 N - 1 X t ( n ) e - j 2 πnk / N , ( 0 ≤ n , k ≤ N - 1 ) ;
S2.2.3、将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),其中梅尔频率滤波器组为若干个带通滤波器Hm(k),0≤m<M,M为滤波器的个数,每个滤波器具有三角形滤波特性,其中心频率为f(m),当m值较小时相邻f(m)之间的间隔也较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
H m ( k ) = 0 , ( k < f ( m - 1 ) ) k - f ( m - 1 ) f ( m ) - f ( m - 1 ) , ( f ( m - 1 ) &le; k &le; f ( m ) ) f ( m + 1 ) - k f ( m + 1 ) - f ( m ) , ( f ( m ) < k &le; f ( m + 1 ) ) 0 , ( k > f ( m + 1 ) ) , ( 0 &le; m < M ) ,
其中,f(m)定义如下:
f ( m ) = ( N f s ) B - 1 ( B ( f l ) + m B ( f h ) - B ( f l ) M + 1 ) ,
其中,fl、fh为滤波器的频率应用范围的最低频率和最高频率,B-1为B的逆函数:B-1(b)=700(eb/1125-1),因此由线性谱Xt(k)到对数谱St(m)的函数式为:
S t ( m ) = ln ( &Sigma; k = 0 N - 1 | X t ( k ) | 2 H m ( k ) ) , ( 0 &le; m < M ) ,
S2.2.4、将上述对数频谱St(m)经过离散余弦变换(Discrete CosineTransformation,DCT)变换到倒谱域,得到第t帧MFCCs,Ct(p):
C t ( p ) = &Sigma; m = 0 M - 1 S t ( m ) cos ( ( m + 0.5 ) n&pi; M ) , ( 0 &le; p < M ) ,
S2.2.5、计算第t帧MFCCs的一阶差分(Delta‐MFCCs),C't(p):
C t &prime; ( p ) = 1 &Sigma; q = - Q Q q 2 &Sigma; q = - Q Q q &times; C t ( p + q ) , ( 0 &le; p < M ) ,
其中,Q为常数,实验时取值为3。
S2.2.6、对每帧语音信号重复上述步骤2)~5),得到所有T帧语音信号的MFCCs与Delta-MFCCs,将它们按帧的顺序组合成一个MFCC矩阵与Delta-MFCC矩阵,再将MFCC矩阵与Delta-MFCC矩阵合并构成特征矩阵F。
所述步骤S3中,比较第一个语音段X1与其他语音段Xi(i≥2)之间的距离,将距离小于门限的语音段也判为会议主持人语音,包括如下步骤:
S3.1、将第一语音段X1与其他语音段Xi都分为语音帧,帧长为32毫秒(帧长对应的采样点个数N=0.032×fs,其中fs为语音信号的采样频率),帧移为16毫秒,如果最后一帧语音的采样点个数小于N,则将其舍去;
S3.2、按照步骤S2.2.2至S2.2.5的方法从每帧语音中提取MFCCs及Delta-MFCCs的音频特征,各个语音段的特征构成一个特征矩阵,语音段X1的特征矩阵为F1,Xi的特征矩阵为Fi(i≥2);
S3.3、计算语音段X1与Xi之间的BIC距离,BIC距离计算公式如下:
&Delta;BIC = ( n 1 + n i ) ln ( | det ( cov ( F z ) ) | ) - n 1 ln ( | det ( cov ( F 1 ) ) | ) - n i ln ( | det ( cov ( F i ) ) | ) - &alpha; ( d + d ( d + 1 ) 2 ) ln ( n 1 + n i ) ,
其中,Z是将语音段X1和Xi合并之后得到的语音段,n1和ni分别是语音段X1和Xi的帧数,F1、Fi和Fz分别是语音段X1、Xi和Z的特征矩阵,cov(F1)、cov(Fi)和cov(Fz)分别是特征矩阵F1、Fi和Fz的协方差矩阵,det(·)表示求矩阵的行列式值,α是惩罚系数且实验取值为2.0;
S3.4、如果BIC距离ΔBIC大于零,则这两个语音段被视为属于两个不同的说话人(即Xi不是主持人语音),否则这两个语音段被视为属于主持人并将它们合并;
S3.5、不断地判断其他语音段Xi与第一个语音段X1之间的BIC距离是否大于零,直到所有Xi与X1之间的BIC距离都被判断完为止。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (4)

1.一种基于说话人分割的会议主持人语音提取方法,其特征在于,包括如下步骤:
S1、读入记录有会议语音的音频文件;
S2、对会议上说话人的语音进行分割:检测上述会议语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成若干个语音段,所述语音段的个数等于改变点个数加1;
S3、语音段距离比较:将说话人的语音进行分割之后的第一个语音段作为会议主持人的一部分语音,并比较该语音段与其他语音段的距离,并将距离小于门限的语音段也判为会议主持人的另一部分语音,根据分割后的第一个语音段和距离小于门限的语音段,得到会议主持人的全部语音段。
2.根据权利要求1所述的会议语音中的主持人语音提取方法,其特征在于,所述步骤S2包括以下步骤:
S2.1、利用门限判决的语音检测算法从上述音频文件中找出静音段和语音段;
S2.2、将步骤S2.1中的语音段按时间顺序拼接成一个长语音段,并从长语音段中提取音频特征;
S2.3、利用步骤S2.2中提取的音频特征,根据贝叶斯信息准则,判断长语音段中相邻数据窗之间的相似度来检测说话人改变点;
S2.4、依次把相邻两个改变点之间的语音样点作为一个语音段,从而将音频文件分割成多个语音段,且每个语音段包含一个说话人的语音。
3.根据权利要求2所述的会议语音中的主持人语音提取方法,其特征在于,所述步骤S2.1包括如下步骤:
S2.1.1、对读入的会议语音进行分帧,并计算每帧语音的能量,得到会议语音的能量特征矢量;
S2.1.2、计算每帧语音的能量门限;
S2.1.3、将每帧语音的能量与能量门限比较,低于能量门限的帧为静音帧,否则为语音帧,将所有的静音帧都舍弃,并将语音帧按时间顺序拼接成一个语音段。
4.根据权利要求1所述的会议语音中的主持人语音提取方法,其特征在于,所述步骤S3包括如下步骤:
S3.1、将第一语音段X1与其他语音段Xi都分为语音帧,从每帧语音中提取梅尔频率倒谱系数及其一阶差分的音频特征,各个语音段的特征构成一个特征矩阵,语音段X1的特征矩阵为F1,Xi的特征矩阵为Fi,其中,i≥2;
S3.2、计算语音段X1与Xi之间的BIC距离,所述BIC距离的计算公式如下:
&Delta;BIC = ( n 1 + n i ) ln ( | det ( cov ( F z ) ) | ) - n 1 ln ( | det ( cov ( F 1 ) ) | ) - n i ln ( | det ( cov ( F i ) ) | ) - &alpha; ( d + d ( d + 1 ) 2 ) ln ( n 1 + n i ) ,
其中,Z是将语音段X1和Xi合并之后得到的语音段,n1和ni分别是语音段X1和Xi的帧数,F1、Fi和Fz分别是语音段X1、Xi和Z的特征矩阵,cov(F1)、cov(Fi)和cov(Fz)分别是特征矩阵F1、Fi和Fz的协方差矩阵,det(·)表示求矩阵的行列式值,α是惩罚系数且取值为2.0;
S3.3、如果BIC距离ΔBIC大于零,则两个语音段被视为属于两个不同的说话人,否则,两个语音段被视为属于主持人并将它们合并;
S3.4、重复执行步骤S3.1至步骤S3.3,判断语音段Xi与第一个语音段X1之间的BIC距离是否大于零,直到所有的Xi与X1之间的BIC距离都被判断完为止。
CN201310479266.4A 2013-10-14 2013-10-14 一种基于说话人分割的会议主持人语音提取方法 Active CN103559882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310479266.4A CN103559882B (zh) 2013-10-14 2013-10-14 一种基于说话人分割的会议主持人语音提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310479266.4A CN103559882B (zh) 2013-10-14 2013-10-14 一种基于说话人分割的会议主持人语音提取方法

Publications (2)

Publication Number Publication Date
CN103559882A true CN103559882A (zh) 2014-02-05
CN103559882B CN103559882B (zh) 2016-08-10

Family

ID=50014113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310479266.4A Active CN103559882B (zh) 2013-10-14 2013-10-14 一种基于说话人分割的会议主持人语音提取方法

Country Status (1)

Country Link
CN (1) CN103559882B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021785A (zh) * 2014-05-28 2014-09-03 华南理工大学 一种提取会议中最重要嘉宾语音的方法
CN105429984A (zh) * 2015-11-27 2016-03-23 刘军 媒体播放方法、设备及音乐教学系统
CN106782508A (zh) * 2016-12-20 2017-05-31 美的集团股份有限公司 语音音频的切分方法和语音音频的切分装置
CN108346034A (zh) * 2018-02-02 2018-07-31 深圳市鹰硕技术有限公司 一种会议智能管理方法及系统
CN109036386A (zh) * 2018-09-14 2018-12-18 北京网众共创科技有限公司 一种语音处理方法及装置
CN109920434A (zh) * 2019-03-11 2019-06-21 南京邮电大学 一种基于会议场景的噪声分类去除方法
CN110517694A (zh) * 2019-09-06 2019-11-29 北京清帆科技有限公司 一种教学场景说话人转换检测系统
US10522151B2 (en) 2015-02-03 2019-12-31 Dolby Laboratories Licensing Corporation Conference segmentation based on conversational dynamics
CN110930984A (zh) * 2019-12-04 2020-03-27 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
WO2020147407A1 (zh) * 2019-01-16 2020-07-23 平安科技(深圳)有限公司 一种会议记录生成方法、装置、存储介质及计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1662956A (zh) * 2002-06-19 2005-08-31 皇家飞利浦电子股份有限公司 大量说话人识别(id)系统及其相应方法
US20090281644A1 (en) * 2008-02-26 2009-11-12 Kabushiki Kaisha Toshiba Apparatus and method product for accessing information related to a particular setting from an information repository
CN102170528A (zh) * 2011-03-25 2011-08-31 天脉聚源(北京)传媒科技有限公司 一种新闻节目的分段方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1662956A (zh) * 2002-06-19 2005-08-31 皇家飞利浦电子股份有限公司 大量说话人识别(id)系统及其相应方法
US20090281644A1 (en) * 2008-02-26 2009-11-12 Kabushiki Kaisha Toshiba Apparatus and method product for accessing information related to a particular setting from an information repository
CN102170528A (zh) * 2011-03-25 2011-08-31 天脉聚源(北京)传媒科技有限公司 一种新闻节目的分段方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
冀中等: "面向新闻视频内容分析的音频分层分类算法", 《计算机应用研究》, vol. 26, no. 5, 31 May 2009 (2009-05-31) *
庄越挺等: "基于隐马尔可夫链的广播新闻分割分类", 《计算机研究与发展》, vol. 39, no. 9, 30 September 2002 (2002-09-30) *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021785A (zh) * 2014-05-28 2014-09-03 华南理工大学 一种提取会议中最重要嘉宾语音的方法
US10522151B2 (en) 2015-02-03 2019-12-31 Dolby Laboratories Licensing Corporation Conference segmentation based on conversational dynamics
CN105429984A (zh) * 2015-11-27 2016-03-23 刘军 媒体播放方法、设备及音乐教学系统
CN105429984B (zh) * 2015-11-27 2019-03-15 刘军 媒体播放方法、设备及音乐教学系统
CN106782508A (zh) * 2016-12-20 2017-05-31 美的集团股份有限公司 语音音频的切分方法和语音音频的切分装置
CN108346034A (zh) * 2018-02-02 2018-07-31 深圳市鹰硕技术有限公司 一种会议智能管理方法及系统
CN108346034B (zh) * 2018-02-02 2021-10-15 深圳市鹰硕技术有限公司 一种会议智能管理方法及系统
CN109036386A (zh) * 2018-09-14 2018-12-18 北京网众共创科技有限公司 一种语音处理方法及装置
WO2020147407A1 (zh) * 2019-01-16 2020-07-23 平安科技(深圳)有限公司 一种会议记录生成方法、装置、存储介质及计算机设备
CN109920434A (zh) * 2019-03-11 2019-06-21 南京邮电大学 一种基于会议场景的噪声分类去除方法
CN109920434B (zh) * 2019-03-11 2020-12-15 南京邮电大学 一种基于会议场景的噪声分类去除方法
CN110517694A (zh) * 2019-09-06 2019-11-29 北京清帆科技有限公司 一种教学场景说话人转换检测系统
CN110930984A (zh) * 2019-12-04 2020-03-27 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备

Also Published As

Publication number Publication date
CN103559882B (zh) 2016-08-10

Similar Documents

Publication Publication Date Title
CN103559882B (zh) 一种基于说话人分割的会议主持人语音提取方法
CN102543063B (zh) 基于说话人分割与聚类的多说话人语速估计方法
CN104021785A (zh) 一种提取会议中最重要嘉宾语音的方法
Hrúz et al. Convolutional neural network for speaker change detection in telephone speaker diarization system
Harb et al. Gender identification using a general audio classifier
CN102968986B (zh) 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN103400580A (zh) 一种多人会话语音中的说话人重要程度估计方法
CN103137137B (zh) 一种会议音频中的精彩说话人发现方法
Zhou et al. Efficient audio stream segmentation via the combined T/sup 2/statistic and Bayesian information criterion
CN106531159B (zh) 一种基于设备本底噪声频谱特征的手机来源识别方法
CN101221762A (zh) 一种mp3压缩域音频分割方法
CN106409298A (zh) 一种声音重录攻击的识别方法
CN105825857A (zh) 基于声纹识别帮助失聪患者判断声音类别的方法
Zehetner et al. Wake-up-word spotting for mobile systems
Jothilakshmi et al. Speaker diarization using autoassociative neural networks
Anguera et al. Xbic: Real-time cross probabilities measure for speaker segmentation
Jothilakshmi Spoken keyword detection using autoassociative neural networks
US11521629B1 (en) Method for obtaining digital audio tampering evidence based on phase deviation detection
KR101382356B1 (ko) 오디오파일의 위변조 검출장치
Prasasti et al. Identification of baby cry with discrete wavelet transform, mel frequency cepstral coefficient and principal component analysis
Kos et al. Speaker's gender classification and segmentation using spectral and cepstral feature averaging
Akdeniz et al. Linear prediction coefficients based copy-move forgery detection in audio signal
Kadri et al. Robust audio speaker segmentation using one class SVMs
Prasad et al. Frame selection for robust speaker identification: A hybrid approach
Rouniyar et al. Channel response based multi-feature audio splicing forgery detection and localization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant