CN103137137B - 一种会议音频中的精彩说话人发现方法 - Google Patents

一种会议音频中的精彩说话人发现方法 Download PDF

Info

Publication number
CN103137137B
CN103137137B CN201310061167.4A CN201310061167A CN103137137B CN 103137137 B CN103137137 B CN 103137137B CN 201310061167 A CN201310061167 A CN 201310061167A CN 103137137 B CN103137137 B CN 103137137B
Authority
CN
China
Prior art keywords
audio
frame
frequency
audio section
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310061167.4A
Other languages
English (en)
Other versions
CN103137137A (zh
Inventor
李艳雄
吴伟
贺前华
李广隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201310061167.4A priority Critical patent/CN103137137B/zh
Publication of CN103137137A publication Critical patent/CN103137137A/zh
Application granted granted Critical
Publication of CN103137137B publication Critical patent/CN103137137B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种会议音频中的精彩说话人发现方法,步骤如下:读入会议音频;检测上述音频中的掌声音频段,将各个掌声音频段前面5秒语音段提取出来作为精彩语音段,同时得到精彩语音段在会议音频中出现的位置;对上述精彩语音段进行说话人聚类,得到精彩说话人个数及其精彩语音段。本发明的有益效果是:基于掌声检测和说话人聚类,快速有效地估计出会议音频中的精彩说话人个数、精彩语音段及其在会议音频中出现的位置,为会议音频的快速浏览、摘要提取、说话人检索等奠定基础。

Description

一种会议音频中的精彩说话人发现方法
技术领域
本发明涉及语音信号处理和模式识别技术,尤其涉及一种会议音频中的精彩说话人发现方法。
背景技术
    精彩说话人是指在多人会话的会议中,能够引起听众共鸣或使听众产生高兴、激动等积极情感反应的说话人。精彩说话人是与会人员中的关键说话人或重要说话人。人们在浏览分析会议音频记录时,一般最想聆听的就是精彩说话人的精彩发言。因此,快速有效地发现会议音频中的精彩说话人,即得到精彩说话人个数及其精彩发言,对于会议音频的快速浏览、摘要提取、说话人检索等应用都具有非常重要的意义。
在多人会话的会议中,听众听到精彩发言时一般都会自发地鼓掌,表示对说话人所说内容的认可。而且,认可的程度越高,掌声响度越大、掌声持续时间越长。因此,通过检测会议音频中的掌声音频段就可以快速地定位精彩说话人的精彩语音段,然后再采用说话人聚类技术对各个精彩语音段进行聚类处理,得到会议音频中的精彩说话人的个数、精彩语音段及精彩语音段出现的位置。
发明内容
针对上述技术问题,本发明的目的在于提供一种基于掌声检测和说话人聚类的会议音频中精彩说话人发现方法,高效快捷的得到会议音频中的精彩说话人的个数、精彩语音段及精彩语音段出现的位置。
本发明是通过如下技术方案来实现:
一种会议音频中的精彩说话人发现方法,包括如下步骤:
S1)读入会议音频:读入记录有多说话人语音的会议音频文件;
S2)精彩语音提取:通过基于门限判决的静音检测从上述读入的会议音频中找出所有静音段和音频段,再从上述音频段中检测出掌声音频段,最后将各个掌声音频段前面5秒语音段提取出来作为精彩语音段,同时得到这些精彩语音段在会议音频中出现的位置;
S3)说话人聚类:从上述精彩语音段中提取梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients, MFCCs)及其一阶差分(Delta-MFCCs)的音频特征,再采用谱聚类算法对各个精彩语音段的音频特征进行说话人聚类,得到精彩说话人个数及其精彩语音段。
进一步地,所述步骤2)中的静音检测具体包括以下步骤:
S201)将读入的会议音频分成                                                帧,帧长为40毫秒(帧长对应的采样点个数,其中为音频信号的采样频率),帧移为20毫秒,如果最后一帧语音的采样点个数小于,则将其舍去;
S202)计算第)帧音频信号的能量
得到会议音频的能量矢量,其中为总帧数;
S203)用固定的能量门限判断静音与音频有很大的局限性,因为各种环境下的音频能量相差很大,但音频与静音之间能量大小的相对关系是不变的,所以定义自适应能量门限
其中,是各帧能量的最小值,是各帧能量的平均值。
S204)将每帧音频的能量与能量门限比较,低于能量门限的帧为静音帧,否则为音频帧,将相邻的静音帧按顺序拼接成一个静音段,将相邻的音频帧按顺序拼接成一个音频段。
进一步地,所述步骤S2中从音频段中检测掌声音频段及提取精彩语音段具体包括以下步骤:
S211)将上述提取出来的各个音频段的时长与一个最短掌声音频段时长门限(实验取值为2秒)进行比较,如果某个音频段的时长小于门限,则该音频段被判为非掌声音频段;否则,继续提取该音频段的基音频率
S212)如果上述提取出来的基音频率全部为零,则该音频段被判为掌声音频段,否则,按下述步骤将该音频段判为非掌声音频段,例如语音段,包括辅音段和元音段;或混合音频段,例如语音与掌声的混合音频段;
S213)计算上述音频段中所有基音频率为零的子段(即零值子段)和所有基音频率不为零的子段(即非零值子段)的时长;
S214)如果上述音频段中有某个零值子段的时长既大于其紧邻的前一个非零值子段时长又大于其紧邻的后一个非零值子段时长,则上述音频段被判为混合音频段,并将满足上述条件的零值子段判为掌声音频段(因为掌声音频段的基音频率为零且其时长大于基音频率不为零的元音段时长);否则,该零值子段被判为非掌声音频段,辅音段的基音频率为零且其时长小于元音段时长,因为在汉语中,一个音节(或字)一般由声母(辅音)和韵母(元音)组成,例如音节/fa/,/f/是该音节的辅音段,/a/是该音节的元音段,辅音的发音时间比元音的发音时间短,所以辅音段的时长小于元音段的时长;
S215)如果上述音频段中没有一个零值子段既大于其紧邻的前一个非零值子段时长又大于其紧邻的后一个非零值子段时长,则上述音频段整体被判为非掌声音频段(例如纯语音段);
S216)提取上述各掌声音频段前面5秒语音作为精彩语音段,各个掌声音频段出现位置前5秒即为相应精彩语音段在会议音频中的位置;
S217)重复步骤S211至S216,直到提取出所有精彩语音段及其出现的位置为止。
进一步地,所述步骤S211中提取音频段的基音频率具体包括以下步骤:
S2111)音频段的分帧:设置音频帧的帧长为40毫秒、帧移为20毫秒,帧长和帧移所对应的采样点个数分别为,其中为音频采样频率,将输入音频段分割成个音频帧,且每帧包含个采样点;
S2112)采用一个通带为800Hz的低通滤波器对一帧音频信号进行滤波,得到音频帧,该低通滤波器的技术指标如下:基于Equiripple方法的FIR滤波器,采样频率为4000赫兹,通带截止频率为800赫兹,阻带截止频率为900赫兹,通带最大衰减为1dB,阻带最小衰减为100dB;
S2113)分别求的最前个样点和最后个样点的最大幅度,并取其中较小的一个乘以因子0.68作为门限电平
S2114)根据下式对进行中心削波处理,得到削波后的音频帧
S2115)根据下式对进行三电平削波处理,得到削波后的音频帧
S2116)求的互相关值
其中,的取值范围为,对应于基音频率范围为50~500Hz,对应于短时能量;
S2117)求出互相关值,…,中的最大值
S2118)如果,则该音频帧被判为清音,令其基音频率为0;否则其基音频率为使为最大值时位置对应的频率值
S2119)对每帧音频信号都重复步骤S2112)~S2118),得到所有帧音频信号的基音频率矢量
进一步地,从上述精彩语音段中提取梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients, MFCCs)及其一阶差分(Delta-MFCCs)的音频特征的具体步骤如下:
S301)将精彩语音段分成帧,帧长为40毫秒(帧长对应的采样点个数,其中为音频信号的采样频率),帧移为20毫秒,如果最后一帧语音的采样点个数小于,则将其舍去;
S302)对第)帧精彩语音做离散傅立叶变换(Discrete Fourier Transformation, DFT)得到线性频谱
S303)将上述线性频谱通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱,其中梅尔频率滤波器组为若干个带通滤波器为滤波器的个数,每个滤波器具有三角形滤波特性,其中心频率为,当值较小时相邻之间的间隔也较小,随着的增加相邻的间隔逐渐变大,每个带通滤波器的传递函数为:
其中,定义如下:
其中,为滤波器的频率应用范围的最低频率和最高频率,的逆函数:,因此由线性谱到对数谱的函数式为:
S304)将上述对数频谱经过离散余弦变换(Discrete Cosine Transformation, DCT)变换到倒谱域,得到第帧MFCCs,
S305)计算第帧MFCCs的一阶差分(Delta-MFCCs),
其中,为常数,实验时取值为3;
S306)对每帧精彩语音重复上述步骤S302~S305,得到所有帧精彩语音的MFCCs和Delta-MFCCs,将它们按帧的顺序组合成一个MFCC矩阵和Delta-MFCC矩阵,再将MFCC矩阵和Delta-MFCC矩阵合并构成特征矩阵;MFCCs和Delta-MFCCs的维数都为12,每个精彩语音段的特征构成一个特征矩阵,特征矩阵的维数为24。
进一步地,步骤S3中采用谱聚类算法对各个精彩语音段的音频特征进行说话人聚类的具体步骤如下:
S311)根据各个特征矩阵得到所有待聚类精彩语音段的特征矩阵集合为精彩语音段总个数,再根据构造亲和矩阵(Affinity matrix)的第个元素定义如下:
其中,是特征矩阵之间的欧式距离,(或)是一个尺度参数,定义为第(或)个特征矩阵(或)与其它个特征矩阵之间的欧式距离矢量的方差;
S312)构造对角矩阵,它的第个元素等于亲和矩阵的第行所有元素之和,再根据矩阵构造归一化的亲和矩阵
S313)计算矩阵的前个最大的特征值()及其特征值矢量(),其中)为列向量且,根据相邻特征值之间的差值估计最优类别数(即精彩说话人个数)
根据估计出来的说话人个数,构造矩阵
S314)归一化矩阵的每一行,得到矩阵 的第个元素
S315)将矩阵中的每一行当作空间中的一个点,利用均值算法(K-means algorithm)将这行(即个点)聚类成类(均值算法是一个公知的经典聚类算法,参见文献:MacQueen, J. B, Some Methods for classification and Analysis of Multivariate Observations, Proceedings of 5 th  Berkeley Symposium on Mathematical Statistics and Probability, University of California Press, 1967, pp. 281–297);
S316)将特征矩阵所对应的精彩语音段判为第类(即第个精彩说话人),当且仅当矩阵的第行被聚类在第类中;
S317)根据上述聚类结果,得到精彩说话人的个数及其精彩语音段。
本发明的有益效果是:基于掌声检测和说话人聚类,快速有效地估计出会议音频中的精彩说话人个数、精彩语音段及其在会议音频中出现的位置,为会议音频的快速浏览、摘要提取、说话人检索等奠定基础。
附图说明
图1为本发明实施例1的流程图。
具体实施方式
下面结合具体的实施例与说明书附图进行详细描述。
实施例1
一种会议音频中的精彩说话人发现方法,包括如下步骤:
S101)读入会议音频:读入记录有多说话人语音的会议音频文件,会议音频可以是各种格式的音频文件,例如WAV、RAM、MP3、VOX等;
S102)精彩语音提取:通过基于门限判决的静音检测从上述读入的会议音频中找出所有静音段和音频段,再从上述音频段中检测出掌声音频段,最后将各个掌声音频段前面5秒语音段提取出来作为精彩语音段,同时得到这些精彩语音段在会议音频中出现的位置;
S103)说话人聚类:从上述精彩语音段中提取梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients, MFCCs)及其一阶差分(Delta-MFCCs)的音频特征,再采用谱聚类算法对各个精彩语音段的音频特征进行说话人聚类,得到精彩说话人个数及其精彩语音段。
实施例2
一种会议音频中的精彩说话人发现方法,包括如下步骤:
S1)读入会议音频:读入记录有多说话人语音的会议音频文件;
S2)精彩语音提取:通过基于门限判决的静音检测从上述读入的会议音频中找出所有静音段和音频段,再从上述音频段中检测出掌声音频段,最后将各个掌声音频段前面5秒语音段提取出来作为精彩语音段,同时得到这些精彩语音段在会议音频中出现的位置;
S3)说话人聚类:从上述精彩语音段中提取梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients, MFCCs)及其一阶差分(Delta-MFCCs)的音频特征,再采用谱聚类算法对各个精彩语音段的音频特征进行说话人聚类,得到精彩说话人个数及其精彩语音段。
具体地,所述步骤S2中的静音检测具体包括以下步骤:
S201)将读入的会议音频分成帧,帧长为40毫秒(帧长对应的采样点个数,其中为音频信号的采样频率),帧移为20毫秒,如果最后一帧语音的采样点个数小于,则将其舍去;
S202)计算第)帧音频信号的能量
得到会议音频的能量矢量,其中为总帧数;
S203)用固定的能量门限判断静音与音频有很大的局限性,因为各种环境下的音频能量相差很大,但音频与静音之间能量大小的相对关系是不变的,所以定义自适应能量门限
其中,是各帧能量的最小值,是各帧能量的平均值。
S204)将每帧音频的能量与能量门限比较,低于能量门限的帧为静音帧,否则为音频帧,将相邻的静音帧按顺序拼接成一个静音段,将相邻的音频帧按顺序拼接成一个音频段。
具体地,所述步骤S2中从音频段中检测掌声音频段及提取精彩语音段具体包括以下步骤:
S211)将上述提取出来的各个音频段的时长与一个最短掌声音频段时长门限(实验取值为2秒)进行比较,如果某个音频段的时长小于门限,则该音频段被判为非掌声音频段;否则,继续提取该音频段的基音频率
S212)如果上述提取出来的基音频率全部为零,则该音频段被判为掌声音频段,否则,按下述步骤将该音频段判为非掌声音频段,例如语音段,包括辅音段和元音段;或混合音频段,例如语音与掌声的混合音频段;
S213)计算上述音频段中所有基音频率为零的子段(即零值子段)和所有基音频率不为零的子段(即非零值子段)的时长;
S214)如果上述音频段中有某个零值子段的时长既大于其紧邻的前一个非零值子段时长又大于其紧邻的后一个非零值子段时长,则上述音频段被判为混合音频段,并将满足上述条件的零值子段判为掌声音频段(因为掌声音频段的基音频率为零且其时长大于基音频率不为零的元音段时长);否则,该零值子段被判为非掌声音频段,辅音段的基音频率为零且其时长小于元音段时长,因为在汉语中,一个音节(或字)一般由声母(辅音)和韵母(元音)组成,例如音节/fa/,/f/是该音节的辅音段,/a/是该音节的元音段,辅音的发音时间比元音的发音时间短,所以辅音段的时长小于元音段的时长;
S215)如果上述音频段中没有一个零值子段既大于其紧邻的前一个非零值子段时长又大于其紧邻的后一个非零值子段时长,则上述音频段整体被判为非掌声音频段(例如纯语音段);
S216)提取上述各掌声音频段前面5秒语音作为精彩语音段,各个掌声音频段出现位置前5秒即为相应精彩语音段在会议音频中的位置;
S217)重复步骤S211)至S216),直到提取出所有精彩语音段及其出现的位置为止。
具体地,所述步骤S211中提取音频段的基音频率具体包括以下步骤:
S2111)音频段的分帧:设置音频帧的帧长为40毫秒、帧移为20毫秒,帧长和帧移所对应的采样点个数分别为,其中为音频采样频率,将输入音频段分割成个音频帧,且每帧包含个采样点;
S2112)采用一个通带为800Hz的低通滤波器对一帧音频信号进行滤波,得到音频帧,该低通滤波器的技术指标如下:基于Equiripple方法的FIR滤波器,采样频率为4000赫兹,通带截止频率为800赫兹,阻带截止频率为900赫兹,通带最大衰减为1dB,阻带最小衰减为100dB;
S2113)分别求的最前个样点和最后个样点的最大幅度,并取其中较小的一个乘以因子0.68作为门限电平
S2114)根据下式对进行中心削波处理,得到削波后的音频帧
S2115)根据下式对进行三电平削波处理,得到削波后的音频帧
S2116)求的互相关值
其中,的取值范围为,对应于基音频率范围为50~500Hz,对应于短时能量;
S2117)求出互相关值,…,中的最大值
S2118)如果,则该音频帧被判为清音,令其基音频率为0;否则其基音频率为使为最大值时位置对应的频率值
S2119)对每帧音频信号都重复步骤S2112)~S2118),得到所有帧音频信号的基音频率矢量
具体地,从上述精彩语音段中提取梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients, MFCCs)及其一阶差分(Delta-MFCCs)的音频特征的具体步骤如下:
S301)将精彩语音段分成帧,帧长为40毫秒(帧长对应的采样点个数,其中为音频信号的采样频率),帧移为20毫秒,如果最后一帧语音的采样点个数小于,则将其舍去;
S302)对第)帧精彩语音做离散傅立叶变换(Discrete Fourier Transformation, DFT)得到线性频谱
S303)将上述线性频谱通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱,其中梅尔频率滤波器组为若干个带通滤波器为滤波器的个数,每个滤波器具有三角形滤波特性,其中心频率为,当值较小时相邻之间的间隔也较小,随着的增加相邻的间隔逐渐变大,每个带通滤波器的传递函数为:
其中,定义如下:
其中,为滤波器的频率应用范围的最低频率和最高频率,的逆函数:,因此由线性谱到对数谱的函数式为:
S304)将上述对数频谱经过离散余弦变换(Discrete Cosine Transformation, DCT)变换到倒谱域,得到第帧MFCCs,
S305)计算第帧MFCCs的一阶差分(Delta-MFCCs),
其中,为常数,实验时取值为3;
S306)对每帧精彩语音重复上述步骤S302~S305,得到所有帧精彩语音的MFCCs和Delta-MFCCs,将它们按帧的顺序组合成一个MFCC矩阵和Delta-MFCC矩阵,再将MFCC矩阵和Delta-MFCC矩阵合并构成特征矩阵;MFCCs和Delta-MFCCs的维数都为12,每个精彩语音段的特征构成一个特征矩阵,特征矩阵的维数为24。
具体地,步骤S3中采用谱聚类算法对各个精彩语音段的音频特征进行说话人聚类的具体步骤如下:
S311)根据各个特征矩阵得到所有待聚类精彩语音段的特征矩阵集合为精彩语音段总个数,再根据构造亲和矩阵(Affinity matrix)的第个元素定义如下:
其中,是特征矩阵之间的欧式距离,(或)是一个尺度参数,定义为第(或)个特征矩阵(或)与其它个特征矩阵之间的欧式距离矢量的方差;
S312)构造对角矩阵,它的第个元素等于亲和矩阵的第行所有元素之和,再根据矩阵构造归一化的亲和矩阵
S313)计算矩阵的前个最大的特征值()及其特征值矢量(),其中)为列向量且,根据相邻特征值之间的差值估计最优类别数(即精彩说话人个数)
根据估计出来的说话人个数,构造矩阵
S314)归一化矩阵的每一行,得到矩阵 的第个元素
S315)将矩阵中的每一行当作空间中的一个点,利用均值算法(K-means algorithm)将这行(即个点)聚类成类(均值算法是一个公知的经典聚类算法,参见文献:MacQueen, J. B, Some Methods for classification and Analysis of Multivariate Observations, Proceedings of 5 th  Berkeley Symposium on Mathematical Statistics and Probability, University of California Press, 1967, pp. 281–297);
S316)将特征矩阵所对应的精彩语音段判为第类(即第个精彩说话人),当且仅当矩阵的第行被聚类在第类中;
S317)根据上述聚类结果,得到精彩说话人的个数及其精彩语音段。
以上虽然通过上述实施例对本发明的会议音频中的精彩说话人发现方法进行了详细描述,但并不能因此而理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

Claims (4)

1.一种会议音频中的精彩说话人发现方法,其特征在于,包括如下步骤:
S1)读入会议音频:读入记录有多说话人语音的会议音频文件;
S2)精彩语音提取:通过基于门限判决的静音检测从上述读入的会议音频中找出所有静音段和音频段,再从上述音频段中检测出掌声音频段,最后将各个掌声音频段前面5秒语音段提取出来作为精彩语音段,同时得到这些精彩语音段在会议音频中出现的位置;
S3)说话人聚类:从上述精彩语音段中提取梅尔频率倒谱系数及其一阶差分的音频特征,再采用谱聚类算法对各个精彩语音段的音频特征进行说话人聚类,得到精彩说话人个数及其精彩语音段;
所述步骤S2中的静音检测具体包括以下步骤:
S201)将读入的会议音频分成T帧,帧长为40毫秒,帧移为20毫秒,如果最后一帧语音的采样点个数小于N,则将其舍去;
S202)计算第t(1≤t≤T)帧音频信号xt(n)的能量Et
E t = Σ n = 1 N x t 2 ( n )    1≤t≤T
得到会议音频的能量矢量E=[E1,E2,...,ET],其中T为总帧数;
S203)用固定的能量门限判断静音与音频有很大的局限性,因为各种环境下的音频能量相差很大,但音频与静音之间能量大小的相对关系是不变的,所以定义自适应能量门限TE
TE=min(E)+0.3×[mean(E)-min(E)]
其中,min(E)是各帧能量的最小值,mean(E)是各帧能量的平均值。
S204)将每帧音频的能量与能量门限比较,低于能量门限的帧为静音帧,否则为音频帧,将相邻的静音帧按顺序拼接成一个静音段,将相邻的音频帧按顺序拼接成一个音频段;
所述步骤S2中从音频段中检测掌声音频段及提取精彩语音段具体包括以下步骤:
S211)将上述提取出来的各个音频段的时长与一个最短掌声音频段时长门限Tmin进行比较,如果某个音频段的时长小于门限Tmin,则该音频段被判为非掌声音频段;否则,继续提取该音频段的基音频率F0
S212)如果上述提取出来的基音频率全部为零,则该音频段被判为掌声音频段,否则,按下述步骤将该音频段判为非掌声音频段或混合音频段;
S213)计算上述音频段中所有基音频率为零的子段和所有基音频率不为零的子段的时长;
S214)如果上述音频段中有某个零值子段的时长既大于其紧邻的前一个非零值子段时长又大于其紧邻的后一个非零值子段时长,则上述音频段被判为混合音频段,并将满足上述条件的零值子段判为掌声音频段;否则,该零值子段被判为非掌声音频段;
S215)如果上述音频段中没有一个零值子段既大于其紧邻的前一个非零值子段时长又大于其紧邻的后一个非零值子段时长,则上述音频段整体被判为非掌声音频段;
S216)提取上述各掌声音频段前面5秒语音作为精彩语音段,各个掌声音频段出现位置前5秒即为相应精彩语音段在会议音频中的位置;
S217)重复步骤S211至S216,直到提取出所有精彩语音段及其出现的位置为止。
2.根据权利要求1所述的会议音频中的精彩说话人发现方法,其特征在于,所述步骤S211中提取音频段的基音频率具体包括以下步骤:
S2111)音频段的分帧:设置音频帧的帧长为40毫秒、帧移为20毫秒,帧长和帧移所对应的采样点个数分别为N=0.04×fs和S=0.02×fs,其中fs为音频采样频率,将输入音频段分割成T个音频帧xt(n),1≤t≤T,且每帧包含N个采样点;
S2112)采用一个通带为800Hz的低通滤波器对一帧音频信号xt(n)进行滤波,得到音频帧x′t(n),该低通滤波器的技术指标如下:基于Equiripple方法的FIR滤波器,采样频率f为4000赫兹,通带截止频率fpass为800赫兹,阻带截止频率fstop为900赫兹,通带最大衰减Apass为1dB,阻带最小衰减Astop为100dB;
S2113)分别求x′t(n)的最前N/3个样点和最后N/3个样点的最大幅度,并取其中较小的一个乘以因子0.68作为门限电平CL
S2114)根据下式对x′t(n)进行中心削波处理,得到削波后的音频帧yt(n):
y t ( n ) = x t &prime; ( n ) - C L , x t &prime; ( n ) > C L 0 , | x t &prime; ( n ) | &le; C L x t &prime; ( n ) + C L , x t &prime; ( n ) < - C L
S2115)根据下式对yt(n)进行三电平削波处理,得到削波后的音频帧y′t(n):
y t &prime; ( n ) = 1 , y t ( n ) > 0.01 0 , | y t ( n ) | &le; 0.01 - 1 , y t ( n ) < - 0.01
S2116)求yt(n)和y′t(n)的互相关值R(k):
R ( k ) = &Sigma; n = 1 N y ( n ) y &prime; ( n + k )
其中,k的取值范围为对应于基音频率范围为50~500Hz,R(0)对应于短时能量;
S2117)求出互相关值中的最大值Rmax
S2118)如果Rmax<0.25R(0),则该音频帧被判为清音,令其基音频率为0;否则其基音频率为使R(k)为最大值Rmax时位置k对应的频率值ft
f t = f s p ,   
S2119)对每帧音频信号都重复步骤S2112~S2118,得到所有T帧音频信号的基音频率矢量F0
3.根据权利要求1所述的会议音频中的精彩说话人发现方法,其特征在于,从上述精彩语音段中提取梅尔频率倒谱系数及其一阶差分的音频特征的具体步骤如下:
S301)将精彩语音段分成T帧,帧长为40毫秒,帧移为20毫秒,如果最后一帧语音的采样点个数小于N,则将其舍去;
S302)对第t(1≤t≤T)帧精彩语音xt(n)做离散傅立叶变换得到线性频谱Xt(k):
X t ( k ) = &Sigma; n = 0 N - 1 x t ( n ) e - j 2 &pi;nk / N    (0≤n,k≤N-1)
S303)将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),其中梅尔频率滤波器组为若干个带通滤波器Hm(k),0≤m<M,M为滤波器的个数,每个滤波器具有三角形滤波特性,其中心频率为f(m),当m值较小时相邻f(m)之间的间隔也较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
H m ( k ) = 0 ( k < f ( m - 1 ) ) k - f ( m - 1 ) f ( m ) - f ( m - 1 ) ( f ( m - 1 ) &le; k &le; f ( m ) ) f ( m + 1 ) - k f ( m + 1 ) - f ( m ) ( f ( m ) < k &le; f ( m + 1 ) ) 0 ( k > f ( m + 1 ) ) , ( 0 &le; m < M )
其中,f(m)定义如下:
f ( m ) = ( N f s ) B - 1 ( B ( f l ) + m B ( f h ) - B ( f l ) M + 1 )
其中,fl、fh为滤波器的频率应用范围的最低频率和最高频率,B-1为B的逆函数:B-1(b)=700(eb/1125-1),因此由线性谱Xt(k)到对数谱St(m)的函数式为:
S t ( m ) = ln ( &Sigma; k = 0 N - 1 | X t ( k ) | 2 H m ( k ) )    (0≤m<M)
S304)将上述对数频谱St(m)经过离散余弦变换(Discrete CosineTransformation,DCT)变换到倒谱域,得到第t帧MFCCs,Ct(p):
C t ( p ) = &Sigma; m = 0 M - 1 S t ( m ) cos ( ( m + 0.5 ) n&pi; M )    (0≤p<M)
S305)计算第t帧MFCCs的一阶差分(Delta-MFCCs),C′t(p):
C t &prime; ( p ) = 1 &Sigma; q = - Q Q q 2 &Sigma; q = - Q Q q &times; C t ( p + q )    (0≤p<M)
其中,Q为取值为3的常数;
S306)对每帧精彩语音重复上述步骤S302~S305,得到所有T帧精彩语音的梅尔频率倒谱系数及其一阶差分,将它们按帧的顺序组合成一个梅尔频率倒谱系数矩阵和一阶差分矩阵,再将梅尔频率倒谱系数矩阵和一阶差分矩阵合并构成特征矩阵;梅尔频率倒谱系数和一阶差分的维数M都为12,每个精彩语音段的特征构成一个特征矩阵Fj,特征矩阵Fj的维数d=2M为24。
4.根据权利要求1所述的会议音频中的精彩说话人发现方法,其特征在于,步骤S3中采用谱聚类算法对各个精彩语音段的音频特征进行说话人聚类的具体步骤如下:
S311)根据各个特征矩阵Fj得到所有待聚类精彩语音段的特征矩阵集合F={F1,...,Fj},J为精彩语音段总个数,再根据F构造亲和矩阵A∈RJ×J,A的第(i,j)个元素Aij定义如下:
A ij = exp ( - d 2 ( F i , F j ) 2 &sigma; i &sigma; j ) i &NotEqual; j 0 i = j
其中,d(Fi,Fj)是特征矩阵Fi与Fj之间的欧式距离,σi(或σj)是一个尺度参数,定义为第i(或j)个特征矩阵Fi(或Fj)与其它T-1个特征矩阵之间的欧式距离矢量的方差;
S312)构造对角矩阵D,它的第(i,i)个元素等于亲和矩阵A的第i行所有元素之和,再根据矩阵D和A构造归一化的亲和矩阵L=D-1/2AD-1/2
S313)计算矩阵L的前Kmax个最大的特征值及其特征值矢量其中vk(1≤k≤Kmax)为列向量且根据相邻特征值之间的差值估计最优类别数(即精彩说话人个数)K:
K = arg max i &Element; [ 1 , K max - 1 ] ( &lambda; i - &lambda; i + 1 )
根据估计出来的说话人个数K,构造矩阵V=[v1,v2,...,vK]∈RJ×K
S314)归一化矩阵V的每一行,得到矩阵Y∈RJ×K,Y的第(j,k)个元素Yjk
Y jk = V jk ( &Sigma; k = 1 K V jk 2 )    1≤j≤J;
S315)将矩阵Y中的每一行当作空间RK中的一个点,利用K均值算法将这J行聚类成K类;
S316)将特征矩阵Fj所对应的精彩语音段判为第k类,当且仅当矩阵Y的第j行被聚类在第k类中;
S317)根据上述聚类结果,得到精彩说话人的个数及其精彩语音段。
CN201310061167.4A 2013-02-27 2013-02-27 一种会议音频中的精彩说话人发现方法 Expired - Fee Related CN103137137B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310061167.4A CN103137137B (zh) 2013-02-27 2013-02-27 一种会议音频中的精彩说话人发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310061167.4A CN103137137B (zh) 2013-02-27 2013-02-27 一种会议音频中的精彩说话人发现方法

Publications (2)

Publication Number Publication Date
CN103137137A CN103137137A (zh) 2013-06-05
CN103137137B true CN103137137B (zh) 2015-07-01

Family

ID=48496873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310061167.4A Expired - Fee Related CN103137137B (zh) 2013-02-27 2013-02-27 一种会议音频中的精彩说话人发现方法

Country Status (1)

Country Link
CN (1) CN103137137B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103327014B (zh) * 2013-06-06 2015-08-19 腾讯科技(深圳)有限公司 一种语音处理方法、装置及系统
CN104347068B (zh) * 2013-08-08 2020-05-22 索尼公司 音频信号处理装置和方法以及监控系统
CN104021785A (zh) * 2014-05-28 2014-09-03 华南理工大学 一种提取会议中最重要嘉宾语音的方法
CN104464722B (zh) * 2014-11-13 2018-05-25 北京云知声信息技术有限公司 基于时域和频域的语音活性检测方法和设备
CN107507627B (zh) * 2016-06-14 2021-02-02 科大讯飞股份有限公司 语音数据热度分析方法及系统
CN106782496B (zh) * 2016-11-15 2019-08-20 北京科技大学 一种基于语音和群智感知的人群数量监测方法
CN106601233A (zh) * 2016-12-22 2017-04-26 北京元心科技有限公司 语音命令识别方法、装置及电子设备
CN106941005A (zh) * 2017-02-24 2017-07-11 华南理工大学 一种基于语音声学特征的声带异常检测方法
CN107154264A (zh) * 2017-05-18 2017-09-12 北京大生在线科技有限公司 在线教学精彩片段提取的方法
CN108305632B (zh) * 2018-02-02 2020-03-27 深圳市鹰硕技术有限公司 一种会议的语音摘要形成方法及系统
CN109147796B (zh) * 2018-09-06 2024-02-09 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及计算机可读存储介质
CN110300001B (zh) * 2019-05-21 2022-03-15 深圳壹账通智能科技有限公司 会议音频控制方法、系统、设备及计算机可读存储介质
CN110211590B (zh) * 2019-06-24 2021-12-03 新华智云科技有限公司 一种会议热点的处理方法、装置、终端设备及存储介质
CN111883165A (zh) * 2020-07-02 2020-11-03 中移(杭州)信息技术有限公司 说话人语音切分方法、装置、电子设备及存储介质
CN113891177B (zh) * 2021-05-31 2024-01-05 多益网络有限公司 一种音视频数据的摘要生成方法、装置、设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69831991T2 (de) * 1997-03-25 2006-07-27 Koninklijke Philips Electronics N.V. Verfahren und Vorrichtung zur Sprachdetektion
GB2397908A (en) * 2003-01-31 2004-08-04 Hewlett Packard Co Image-capture event monitoring
CN101650722B (zh) * 2009-06-01 2011-10-26 南京理工大学 基于音视频融合的足球视频精彩事件检测方法
CN102543063B (zh) * 2011-12-07 2013-07-24 华南理工大学 基于说话人分割与聚类的多说话人语速估计方法

Also Published As

Publication number Publication date
CN103137137A (zh) 2013-06-05

Similar Documents

Publication Publication Date Title
CN103137137B (zh) 一种会议音频中的精彩说话人发现方法
CN102543063B (zh) 基于说话人分割与聚类的多说话人语速估计方法
CN109036382B (zh) 一种基于kl散度的音频特征提取方法
Sadjadi et al. Mean Hilbert envelope coefficients (MHEC) for robust speaker and language identification
CN102968986B (zh) 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN103559882B (zh) 一种基于说话人分割的会议主持人语音提取方法
CN103400580A (zh) 一种多人会话语音中的说话人重要程度估计方法
CN111261189B (zh) 一种车辆声音信号特征提取方法
WO2017045429A1 (zh) 一种音频数据的检测方法、系统及存储介质
CN104021785A (zh) 一种提取会议中最重要嘉宾语音的方法
Wanli et al. The research of feature extraction based on MFCC for speaker recognition
KR101250668B1 (ko) Gmm을 이용한 응급 단어 인식 방법
CN109473102A (zh) 一种机器人秘书智能会议记录方法及系统
Thiruvengatanadhan Speech recognition using SVM
Manurung et al. Speaker recognition for digital forensic audio analysis using learning vector quantization method
Murugaiya et al. Probability enhanced entropy (PEE) novel feature for improved bird sound classification
Wang et al. Low pass filtering and bandwidth extension for robust anti-spoofing countermeasure against codec variabilities
Jothilakshmi et al. Speaker diarization using autoassociative neural networks
Mu et al. MFCC as features for speaker classification using machine learning
Chou et al. Bird species recognition by wavelet transformation of a section of birdsong
CN111261192A (zh) 一种基于lstm网络的音频检测方法、电子设备及存储介质
Jothilakshmi Spoken keyword detection using autoassociative neural networks
Köpüklü et al. ResectNet: An Efficient Architecture for Voice Activity Detection on Mobile Devices.
Mills et al. Replay attack detection based on voice and non-voice sections for speaker verification
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150701

Termination date: 20210227