CN106952643A - 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 - Google Patents
一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 Download PDFInfo
- Publication number
- CN106952643A CN106952643A CN201710101547.4A CN201710101547A CN106952643A CN 106952643 A CN106952643 A CN 106952643A CN 201710101547 A CN201710101547 A CN 201710101547A CN 106952643 A CN106952643 A CN 106952643A
- Authority
- CN
- China
- Prior art keywords
- sigma
- outfit
- gaussian
- sound pick
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Databases & Information Systems (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供一种基于高斯均值超矢量与谱聚类的录音设备聚类方法,首先,从语音样本中提取刻画录音设备特性的梅尔频率倒谱系数MFCC特征;接着,将全部语音样本的MFCC特征作为输入,采用期望最大化EM算法训练一个通用背景模型UBM;然后以每个语音样本的MFCC特征作为输入,采用最大后验概率MAP算法更新UBM参数,得到每个语音样本的高斯混合模型GMM;将每个GMM的所有高斯分量的均值矢量依次拼接,构成高斯均值超矢量;最后,采用谱聚类算法对所有语音样本的高斯均值超矢量进行聚类,估计录音设备个数并将相同录音设备的语音样本合并。本发明无需知道录音设备类型、个数等先验知识,就能找出相同录音设备采集的语音样本,适用范围更广。
Description
技术领域
本发明涉及智能语音信号处理、模式识别与音频取证技术领域,特别是涉及一种基于高斯均值超矢量与谱聚类的录音设备聚类方法。
背景技术
随着语音取证技术的发展,基于语音样本的录音设备辨识已取得较好效果,在司法取证中具有重要意义。录音设备采集的语音证据已成为常见证据形式之一,被大量递交到法庭或者其他执法机构,对破案具有重要作用。
在实际案例中,可能由于录音设备标签信息丢失、设备损坏、设备识别结果不确定等因素,导致录音设备的识别结果受到影响,从而降低其在法庭取证中的认可度;另一方面,当法官面对大量被递交上来的语音样本时,首要关心的可能并不是录音设备所属的类别,而是想知道哪些语音样本来自于相同的录音设备。此时,法官所要面对的问题变为:在未知任何录音设备先验信息的情况下,如何估计用于采集语音样本的录音设备个数并将相同录音设备的语音样本合并在一起。
发明内容
本发明的目的在于克服现有技术的不足和缺点,提供了一种基于高斯均值超矢量与谱聚类的录音设备聚类方法:对读入的语音样本进行预加重、分帧和加窗等预处理;从每帧语音中提取梅尔频率倒谱系数MFCC特征;采用期望最大化EM算法训练一个通用背景模型UBM;通过最大后验概率MAP算法对UBM进行自适应调整,得到每个语音样本的高斯混合模型GMM;将每个GMM的所有高斯分量的均值矢量依次拼接构成高斯均值超矢量特征;利用谱聚类算法对所有语音样本的高斯均值超矢量进行聚类,得到语音样本所包含的录音设备个数并将相同录音设备的语音样本合并在一起。
为了达到上述目的,本发明采用以下技术方案:
一种基于高斯均值超矢量与谱聚类的录音设备聚类方法,包括以下步骤:
S1、读入语音:读入由不同录音设备采集的语音样本;
S2、预处理:对读入的语音样本进行预加重、分帧和加窗处理;
S3、提取特征:从每帧语音中提取MFCC特征;
S4、训练通用背景模型:以全部语音样本的MFCC特征作为输入,采用EM算法训练生成一个UBM;
S5、训练高斯混合模型:以某个语音样本的MFCC特征作为输入,采用MAP算法更新UBM参数,得到该语音样本对应的GMM;
S6、构造高斯均值超矢量:将某个GMM的所有高斯分量的均值矢量依次拼接,构成该GMM的高斯均值超矢量;
S7、录音设备聚类:采用谱聚类算法对全部语音样本的高斯均值超矢量进行聚类,估计录音设备个数并将相同录音设备的语音样本合并。
优选的,所述步骤S2中语音预处理包括以下步骤:
S2.1、预加重:设置数字滤波器的传递函数为H(z)=1-αz-1,其中α为一个系数且取值为:0.9≤α≤1,读入的语音通过该数字滤波器后实现预加重;
S2.2、分帧:设置语音帧的帧长为25毫秒、帧移为10毫秒,帧长和帧移所对应的采样点个数分别为N=0.025×fs和S=0.01×fs,其中fs为语音采样频率,将读入的语音切分成语音帧xt'(n),1≤t≤T,0≤n≤N-1,其中T和N分别表示语音帧数和每帧语音的采样点数;
S2.3、加窗:窗函数ω(n)为汉明窗:
将每帧语音xt'(n)与汉明窗ω(n)相乘得到加窗后的语音xt(n):
xt(n)=ω(n)×xt'(n)n=0,1,...,N-1;t=1,2,...,T。
优选的,所述步骤S3中提取语音信号特征的步骤如下:
S3.1、对第t帧语音xt(n)做离散傅立叶变换(Discrete FourierTransformation,DFT)得到线性频谱Xt(k):
S3.2、将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),其中梅尔频率滤波器组为若干个带通滤波器Hm(k),0≤m<D,D为滤波器的个数,每个滤波器具有三角形滤波特性,其中心频率为f(m),当m值较小时相邻f(m)的间隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
其中,0≤m<D,f(m)定义如下:
其中,fl、fh为滤波器的最低频率和最高频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1)
因此由线性谱Xt(k)到对数谱St(m)的变换为:
S3.3、采用离散余弦变换(Discrete Cosine Transformation,DCT)将上述对数频谱St(m)变换到倒谱域,得到第t帧的MFCC特征,即Ct(p):
S3.4、对每帧语音重复步骤S3.1-S3.3,得到所有T帧语音的MFCC特征,将它们按帧的顺序组合成一个MFCC特征矩阵。
优选的,所述步骤S4采用EM算法训练UBM的步骤包括:
S4.1、包含G个高斯分量的UBM表示为:
θ={wi,μi,Σi}1≤i≤G
其中wi表示第i个高斯分量的权重系数,μi表示第i个高斯分量的均值矢量,∑i表示第i个高斯分量的协方差矩阵,第t帧语音的特征矩阵Ft输入θ的输出概率为:
其中bi(Ft)表示第i个高斯分量的概率分布,表示为:
其中D和Ft分别表示特征维数和第t帧语音的特征矩阵,所有T帧语音的特征矩阵F=[F1,…,Ft,…,FT]T,T表示矩阵转置运算,F输入θ的输出概率为:
S4.2、求期望:计算函数Q(θ,θ*):
Q(θ,θ*)=E{ln P[(F,i)|θ]}
整理得:
其中θ*表示迭代更新后的通用背景模型,ln(·)表示自然对数函数,P(i|Ft,θ*)表示更新后的UBM的第i个高斯对特征矩阵Ft的输出概率,P(i|Ft,θ)表示更新前的UBM的第i个高斯对特征矩阵Ft的输出概率,P(i|Ft,θ*)与P(i|Ft,θ)的表达式相同,只需用当前迭代后的UBM参数代替当前迭代前的UBM参数即可,根据贝叶斯公式,特征矩阵Ft在第i个高斯的概率为:
其中Pi(Ft)和Pj(Ft)分别为:
S4.3、最大化:根据Q(θ,θ*)函数估计θ={wi,ui,Σi}:
S4.4、UBM参数迭代:当似然函数值达到最大时停止迭代,即当前迭代的输出概率P(F|θ*)相对上次迭代时的输出概率P(F|θ)增幅小于设定的阈值10-4,则停止迭代,得到最终的模型参数:
混合权重系数:
均值矢量:
协方差矩阵:
优选的,步骤S5采用MAP算法更新UBM参数,得到GMM的步骤包括:
S5.1、计算GMM参数:已知UBM和某个语音样本的特征矩阵F=[F1,…,Ft,…,FT]T,第t帧语音的特征矩阵Ft在第i个高斯的概率为:
S5.2、由于录音设备之间的差别主要由各高斯分量的均值矢量描述,因此只更新UBM的均值矢量,UBM的第i个高斯分量的均值矢量更新如下:
其中和μi分别表示更新后和更新前的第i个高斯分量的均值矢量,而且
其中系数ai与特征矩阵有关,控制着均值矢量的原值与新值之间的均衡。τ是一个常数相关因子,控制着每个高斯分量的更新程度,通常取值为14;
S5.3、参数迭代:设MAP的迭代次数为M,则重复M次步骤S5.1和步骤S5.2,得到更新的均值矢量,M通常取值为5~10;
S5.4、将UBM的权重系数、协方差矩阵及更新后的均值矢量分别作为GMM的权重系数、协方差矩阵及均值矢量,得到GMM的参数。
优选的,步骤S6的高斯均值超矢量的提取步骤如下:
S6.1、表示第j个GMM的第i个高斯分量的均值矢量,1≤j≤J,1≤i≤G,其中J和G分别表示语音样本总个数和GMM的高斯分量个数,表示如下:
S6.2、将第j个GMM的G个高斯分量的均值矢量依次拼接,得到第j个GMM的高斯均值超矢量:
优选的,步骤S7中的谱聚类算法步骤如下:
S7.1、所有待聚类语音样本的高斯均值矢量集合U={U1,U2,...,UJ},J为语音样本总个数,根据Uj构造亲和矩阵A∈RJ×J,A的第(j,k)个元素Ajk定义如下:
其中d(Uj,Uk)是高斯均值超矢量Uj与Uk之间的欧氏距离,σj是一个尺度参数,定义为第j个高斯均值超矢量Uj与其他J-1个高斯均值超矢量之间的欧氏距离矢量的方差;
S7.2、构造对角矩阵H,其第(j,k)个元素代表亲和矩阵中第j行所有元素之和,再根据对角矩阵H和A构造归一化的亲和矩阵:
S7.3、计算矩阵L的前Kmax个最大的特征值及其特征矢量其中1≤k≤Kmax,vk为列矢量,根据相邻特征值之间的差值估计最优类别数(即录音设备个数)K:
根据估计出来的录音设备个数K,构造矩阵V=[v1,v2,...,vK]∈RJ×K;
S7.4、归一化矩阵V的每一行,得到矩阵Y∈RJ×K,Y的第(j,k)个元素Yjk:
S7.5、将矩阵中的每一行当作空间RK中的一个点,利用K均值算法(K-meansAlgorithm)将这J行聚类成K类。将高斯均值超矢量Uj所对应的语音样本判为第k类(即第k个录音设备),当且仅当矩阵Y的第j行被聚类在第k类中;
S7.6、根据上述聚类结果,得到全部待聚类语音样本所对应的录音设备个数,并将相同录音设备的语音样本合并。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明采用高斯均值超矢量特征表征各语音样本对应的录音设备,比传统MFCC特征更有效刻画录音设备的特性差异。
2、本发明采用谱聚类的录音设备聚类方法是一种无监督方法,与传统的有监督分类方法相比,不需要训练复杂分类器且无须知道待聚类录音设备的任何先验知识,适用范围更广。
附图说明
图1是本发明实施例一种基于高斯均值超矢量和谱聚类的录音设备聚类方法的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
图1是本发明的结构流程图。包括如下步骤:
1、首先读入记录有录音设备信息的语音样本。
2、对读入的语音样本进行预处理,预处理包括对语音信号的预加重、分帧和加窗等步骤。预处理具体包括以下步骤:
2.1、预加重:设置数字滤波器的传递函数为H(z)=1-αz-1,其中α为一个系数且取值为:0.9≤α≤1,读入的语音通过该数字滤波器后实现预加重;
2.2、分帧:设置语音帧的帧长为25毫秒、帧移为10毫秒,帧长和帧移所对应的采样点个数分别为N=0.025×fs和S=0.01×fs,其中fs为语音采样频率,将读入的语音切分成语音帧xt'(n),1≤t≤T,0≤n≤N-1,其中T和N分别表示语音帧数和每帧语音的采样点数;
2.3、窗函数ω(n)为汉明窗:
将每帧语音xt'(n)与汉明窗ω(n)相乘得到加窗后的语音xt(n):
xt(n)=ω(n)×xt'(n)n=0,1,...,N-1;t=1,2,...,T。
3、提取MFCC特征,具体步骤如下:
3.1、对第t帧语音xt(n)做离散傅立叶变换(Discrete Fourier Transformation,DFT)得到线性频谱Xt(k):
3.2、将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),其中梅尔频率滤波器组为若干个带通滤波器Hm(k),0≤m<D,D为滤波器的个数,每个滤波器具有三角形滤波特性,其中心频率为f(m),当m值较小时相邻f(m)的间隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
其中,0≤m<D,f(m)定义如下:
其中,fl、fh为滤波器的最低频率和最高频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
因此由线性谱Xt(k)到对数谱St(m)的变换为:
3.3、采用离散余弦变换(Discrete Cosine Transformation,DCT)将上述对数频谱St(m)变换到倒谱域,得到第t帧的MFCC特征,即Ct(p):
3.4、对每帧语音重复步骤3.1-3.3,得到所有T帧语音的MFCC,将它们按帧的顺序组合成一个MFCC矩阵。
4、训练通用背景模型(UBM),以全部语音样本的MFCC特征作为输入,采用EM算法训练生成一个UBM,具体步骤如下:
4.1、包含G个高斯分量的UBM表示为:
θ={wi,μi,Σi}1≤i≤G
其中wi表示第i个高斯分量的权重系数,μi表示第i个高斯分量的均值矢量,∑i表示第i个高斯分量的协方差矩阵,第t帧语音的特征矩阵Ft输入θ的输出概率为:
其中bi(Ft)表示第i个高斯分量的概率分布,表示为:
其中D和Ft分别表示特征维数和第t帧语音的特征矩阵,所有T帧语音的特征矩阵F=[F1,…,Ft,…,FT]T,T表示矩阵转置运算,F输入θ的输出概率为:
4.2、求期望:计算函数Q(θ,θ*):
Q(θ,θ*)=E{ln P[(F,i)|θ]}
整理得:
其中θ*表示迭代更新后的通用背景模型,ln(·)表示自然对数函数,P(i|Ft,θ*)表示更新后的UBM的第i个高斯对特征矩阵Ft的输出概率,P(i|Ft,θ)表示更新前的UBM的第i个高斯对特征矩阵Ft的输出概率,P(i|Ft,θ*)与P(i|Ft,θ)的表达式相同,只需用当前迭代后的UBM参数代替当前迭代前的UBM参数即可,根据贝叶斯公式,特征矩阵Ft在第i个高斯的概率为:
其中Pi(Ft)和Pj(Ft)分别为:
4.3、最大化:根据Q(θ,θ*)函数估计θ={wi,ui,Σi}:
4.4、UBM参数迭代:当似然函数值达到最大时停止迭代,即当前迭代的输出概率P(F|θ*)相对上次迭代时的输出概率P(F|θ)增幅小于设定的阈值10-4,则停止迭代,得到最终的模型参数:
混合权重系数:
均值矢量:
协方差矩阵:
5、训练高斯混合模型,以某个语音样本的MFCC特征作为输入,采用MAP算法更新UBM参数,得到该语音样本对应的GMM。得到GMM的步骤具体包括:
5.1、计算GMM参数:已知UBM和某个语音样本的特征矩阵F=[F1,…,Ft,…,FT]T,第t帧语音的特征矩阵Ft在第i个高斯的概率为:
5.2由于录音设备之间的差别主要由各高斯分量的均值矢量描述,因此只更新UBM的均值矢量,UBM的第i个高斯分量的均值矢量更新如下:
其中和μi分别表示更新后和更新前的第i个高斯分量的均值矢量,
系数ai与特征数据有关,并且控制着均值矢量在原值与新值之间的均衡。τ是一个常数相关因子,控制着每个高斯分量的更新程度,通常取值为14;
5.3、设MAP的迭代次数为M,则重复M次步骤1)和步骤2),得到更新的均值矢量,M通常取值为5~10;
5.4、将UBM的权重系数、协方差矩阵及更新后的均值矢量分别作为GMM的权重系数、协方差矩阵及均值矢量,得到GMM的参数。
6、构造高斯均值超矢量,将某个GMM的所有高斯分量的均值矢量依次拼接,构成该GMM的高斯均值超矢量。高斯均值超矢量具体提取步骤如下:
6.1、表示第j个GMM的第i个高斯分量的均值矢量,1≤j≤J,1≤i≤G,其中J和G分别表示语音样本总个数和GMM的高斯分量个数。表示如下:
6.2、将第j个GMM的G个高斯分量的均值矢量依次拼接,得到第j个GMM的高斯均值超矢量:
7、录音设备聚类:采用谱聚类算法对全部语音样本的高斯均值超矢量进行聚类,估计录音设备个数并将相同录音设备的语音样本合并。谱聚类算法步骤如下:
7.1、所有待聚类语音样本的高斯均值矢量集合U={U1,U2,...,UJ},J为语音样本总个数,根据Uj构造亲和矩阵A∈RJ×J,A的第(j,k)个元素Ajk定义如下:
其中d(Uj,Uk)是高斯均值超矢量Uj与Uk之间的欧氏距离,σj是一个尺度参数,定义为第j个高斯均值超矢量Uj与其他J-1个高斯均值超矢量之间的欧氏距离矢量的方差;
7.2、构造对角矩阵H,其第(j,k)个元素代表亲和矩阵中第j行所有元素之和,再根据对角矩阵H和A构造归一化的亲和矩阵:
7.3、计算矩阵L的前Kmax个最大的特征值及其特征矢量其中1≤k≤Kmax,vk为列矢量,根据相邻特征值之间的差值估计最优类别数(即录音设备个数)K:
根据估计出来的录音设备个数K,构造矩阵V=[v1,v2,...,vK]∈RJ×K;
7.4、归一化矩阵V的每一行,得到矩阵Y∈RJ×K,Y的第(j,k)个元素Yjk:
7.5、将矩阵中的每一行当作空间RK中的一个点,利用K均值算法(K-meansAlgorithm)将这J行聚类成K类。将高斯均值超矢量Uj所对应的语音样本判为第k类(即第k个录音设备),当且仅当矩阵Y的第j行被聚类在第k类中;
7.6、根据上述聚类结果,得到全部待聚类语音样本所对应的录音设备个数,并将相同录音设备的语音样本合并。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种基于高斯均值超矢量与谱聚类的录音设备聚类方法,其特征在于,包括下述步骤:
S1、读入语音:读入由不同录音设备采集的语音样本;
S2、预处理:对读入的语音样本进行预加重、分帧和加窗处理;
S3、提取特征:从每帧语音中提取梅尔频率倒谱系数MFCC特征;
S4、训练通用背景模型:以全部语音样本的梅尔频率倒谱系数MFCC特征作为输入,采用期望最大化EM算法训练生成一个通用背景模型UBM;
S5、训练高斯混合模型:以某个语音样本的梅尔频率倒谱系数MFCC特征作为输入,采用最大后验概率MAP算法更新通用背景模型UBM参数,得到该语音样本对应的高斯混合模型GMM;
S6、构造高斯均值超矢量:将某个高斯混合模型GMM的所有高斯分量的均值矢量依次拼接,构成该高斯混合模型GMM的高斯均值超矢量;
S7、录音设备聚类:采用谱聚类算法对全部语音样本的高斯均值超矢量进行聚类,估计录音设备个数并将相同录音设备的语音样本合并。
2.根据权利要求1所述的一种基于高斯均值超矢量与谱聚类的录音设备聚类方法,其特征在于,所述步骤S2中语音预处理包括以下步骤:
S2.1、预加重:设置数字滤波器的传递函数为H(z)=1-αz-1,其中α为一个系数且取值为:0.9≤α≤1,读入的语音通过该数字滤波器后实现预加重;
S2.2、分帧:设置语音帧的帧长为25毫秒、帧移为10毫秒,帧长和帧移所对应的采样点个数分别为N=0.025×fs和S=0.01×fs,其中fs为语音采样频率,将读入的语音切分成语音帧x′t(n),1≤t≤T,0≤n≤N-1,其中T和N分别表示语音帧数和每帧语音的采样点数;
S2.3、加窗:窗函数ω(n)为汉明窗:
将每帧语音x′t(n)与汉明窗ω(n)相乘得到加窗后的语音xt(n):
xt(n)=ω(n)×x′t(n)n=0,1,...,N-1;t=1,2,...,T。
3.根据权利要求1所述的一种基于高斯均值超矢量与谱聚类的录音设备聚类方法,其特征在于,所述步骤S3中提取语音信号特征的步骤如下:
S3.1、对第t帧语音xt(n)做离散傅立叶变换得到线性频谱Xt(k):
S3.2、将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),其中梅尔频率滤波器组为若干个带通滤波器Hm(k),0≤m<D,D为滤波器的个数,每个滤波器具有三角形滤波特性,其中心频率为f(m),当m值较小时相邻f(m)的间隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
其中,0≤m<D,f(m)定义如下:
其中,fl、fh为滤波器的最低频率和最高频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1)
因此由线性谱Xt(k)到对数谱St(m)的变换为:
S3.3、采用离散余弦变换将上述对数频谱St(m)变换到倒谱域,得到第t帧的MFCC特征,即Ct(p):
S3.4、对每帧语音重复步骤S3.1-S3.3,得到所有T帧语音的梅尔频率倒谱系数MFCC特征,将它们按帧的顺序组合成一个梅尔频率倒谱系数MFCC特征矩阵。
4.根据权利要求1所述的一种基于高斯均值超矢量与谱聚类的录音设备聚类方法,其特征在于,所述步骤S4采用期望最大化EM算法训练通用背景模型UBM的步骤包括:
S4.1、包含G个高斯分量的通用背景模型UBM表示为:
θ={wi,μi,Σi}1≤i≤G
其中wi表示第i个高斯分量的权重系数,μi表示第i个高斯分量的均值矢量,∑i表示第i个高斯分量的协方差矩阵;
第t帧语音的特征矩阵Ft输入θ的输出概率为:
其中bi(Ft)表示第i个高斯分量的概率分布,表示为:
其中D和Ft分别表示特征维数和第t帧语音的特征矩阵,所有T帧语音的特征矩阵F=[F1,…,Ft,…,FT]T,T表示矩阵转置运算,F输入θ的输出概率为:
S4.2、求期望:计算函数Q(θ,θ*):
Q(θ,θ*)=E{ln P[(F,i)|θ]}
整理得:
其中θ*表示迭代更新后的通用背景模型,ln(·)表示自然对数函数,P(i|Ft,θ*)表示更新后的UBM的第i个高斯对特征矩阵Ft的输出概率,P(i|Ft,θ)表示更新前的UBM的第i个高斯对特征矩阵Ft的输出概率,P(i|Ft,θ*)与P(i|Ft,θ)的表达式相同,只需用当前迭代后的UBM参数代替当前迭代前的UBM参数即可,根据贝叶斯公式,特征矩阵Ft在第i个高斯的概率为:
其中Pi(Ft)和Pj(Ft)分别为:
S4.3、最大化:根据Q(θ,θ*)函数估计θ={wi,ui,Σi}:
S4.4、通用背景模型UBM参数迭代:当似然函数值达到最大时停止迭代,即当前迭代的输出概率P(F|θ*)相对上次迭代时的输出概率P(F|θ)增幅小于设定的阈值10-4,则停止迭代,得到最终的模型参数:
混合权重系数:
均值矢量:
协方差矩阵:
5.根据权利要求1所述的一种基于高斯均值超矢量与谱聚类的录音设备聚类方法,其特征在于,所述步骤S5采用最大后验概率MAP算法更新通用背景模型UBM参数,得到高斯混合模型GMM的步骤包括:
S5.1、计算高斯混合模型GMM参数:已知通用背景模型UBM和某个语音样本的特征矩阵F=[F1,…,Ft,…,FT]T,第t帧语音的特征矩阵Ft在第i个高斯的概率为:
S5.2、由于录音设备之间的差别主要由各高斯分量的均值矢量描述,因此只更新通用背景模型UBM的均值矢量,通用背景模型UBM的第i个高斯分量的均值矢量更新如下:
其中和μi分别表示更新后和更新前的第i个高斯分量的均值矢量,
其中系数ai与特征矩阵有关,控制着均值矢量的原值与新值之间的均衡;τ是一个常数相关因子,控制着每个高斯分量的更新程度;
S5.3、参数迭代:设最大后验概率MAP的迭代次数为M,则重复M次步骤S5.1和步骤S5.2,得到更新的均值矢量;
S5.4、将通用背景模型UBM的权重系数、协方差矩阵及更新后的均值矢量分别作为高斯混合模型GMM的权重系数、协方差矩阵及均值矢量,得到高斯混合模型GMM的参数。
6.根据权利要求1所述的一种基于高斯均值超矢量与谱聚类的录音设备聚类方法,其特征在于,所述步骤S6的高斯均值超矢量的提取步骤如下:
S6.1、表示第j个高斯混合模型GMM的第i个高斯分量的均值矢量,1≤j≤J,1≤i≤G,其中J和G分别表示语音样本总个数和高斯混合模型GMM的高斯分量个数;表示如下:
S6.2、将第j个高斯混合模型GMM的G个高斯分量的均值矢量依次拼接,得到第j个高斯混合模型GMM的高斯均值超矢量:
7.根据权利要求1所述的一种基于高斯均值超矢量与谱聚类的录音设备聚类方法,其特征在于,所述步骤S7中的谱聚类算法步骤如下:
S7.1、所有待聚类语音样本的高斯均值矢量集合U={U1,U2,...,UJ},J为语音样本总个数,根据Uj构造亲和矩阵A∈RJ×J,A的第(j,k)个元素Ajk定义如下:
其中d(Uj,Uk)是高斯均值超矢量Uj与Uk之间的欧氏距离,σj是一个尺度参数,定义为第j个高斯均值超矢量Uj与其他J-1个高斯均值超矢量之间的欧氏距离矢量的方差;
S7.2、构造对角矩阵H,其第(j,k)个元素代表亲和矩阵中第j行所有元素之和,再根据对角矩阵H和A构造归一化的亲和矩阵:
S7.3、计算矩阵L的前Kmax个最大的特征值及其特征矢量其中1≤k≤Kmax,vk为列矢量,根据相邻特征值之间的差值估计最优类别数,即录音设备个数K:
根据估计出来的录音设备个数K,构造矩阵V=[v1,v2,...,vK]∈RJ×K;
S7.4、归一化矩阵V的每一行,得到矩阵Y∈RJ×K,Y的第(j,k)个元素Yjk:
S7.5、将矩阵中的每一行当作空间RK中的一个点,利用K均值算法将这J行聚类成K类;将高斯均值超矢量Uj所对应的语音样本判为第k类,即第k个录音设备,当且仅当矩阵Y的第j行被聚类在第k类中;
S7.6、根据上述聚类结果,得到全部待聚类语音样本所对应的录音设备个数,并将相同录音设备的语音样本合并。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710101547.4A CN106952643A (zh) | 2017-02-24 | 2017-02-24 | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710101547.4A CN106952643A (zh) | 2017-02-24 | 2017-02-24 | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106952643A true CN106952643A (zh) | 2017-07-14 |
Family
ID=59466716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710101547.4A Pending CN106952643A (zh) | 2017-02-24 | 2017-02-24 | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106952643A (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107656983A (zh) * | 2017-09-08 | 2018-02-02 | 广州索答信息科技有限公司 | 一种基于声纹识别的智能推荐方法及装置 |
CN108417207A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 一种深度混合生成网络自适应方法及系统 |
CN108766464A (zh) * | 2018-06-06 | 2018-11-06 | 华中师范大学 | 基于电网频率波动超矢量的数字音频篡改自动检测方法 |
CN108766465A (zh) * | 2018-06-06 | 2018-11-06 | 华中师范大学 | 一种基于enf通用背景模型的数字音频篡改盲检测方法 |
CN108922559A (zh) * | 2018-07-06 | 2018-11-30 | 华南理工大学 | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 |
CN108922544A (zh) * | 2018-06-11 | 2018-11-30 | 平安科技(深圳)有限公司 | 通用向量训练方法、语音聚类方法、装置、设备及介质 |
CN109346104A (zh) * | 2018-08-29 | 2019-02-15 | 昆明理工大学 | 一种基于谱聚类的音频特征降维方法 |
CN109345472A (zh) * | 2018-09-11 | 2019-02-15 | 重庆大学 | 一种复杂场景的红外运动小目标检测方法 |
CN109448755A (zh) * | 2018-10-30 | 2019-03-08 | 上海力声特医学科技有限公司 | 人工耳蜗听觉场景识别方法 |
CN109431517A (zh) * | 2018-11-13 | 2019-03-08 | 四川长虹电器股份有限公司 | 一种基于心音的身份识别方法 |
CN109840517A (zh) * | 2019-03-08 | 2019-06-04 | 兰州交通大学 | 一种mems陀螺噪声估计和滤波方法 |
CN109903777A (zh) * | 2019-01-15 | 2019-06-18 | 华南理工大学 | 一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法 |
CN109978034A (zh) * | 2019-03-18 | 2019-07-05 | 华南理工大学 | 一种基于数据增强的声场景辨识方法 |
CN110197665A (zh) * | 2019-06-25 | 2019-09-03 | 广东工业大学 | 一种用于公安刑侦监听的语音分离与跟踪方法 |
CN110534101A (zh) * | 2019-08-27 | 2019-12-03 | 华中师范大学 | 一种基于多模融合深度特征的移动设备源识别方法及系统 |
CN110728991A (zh) * | 2019-09-06 | 2020-01-24 | 南京工程学院 | 一种改进的录音设备识别算法 |
CN111144461A (zh) * | 2019-12-16 | 2020-05-12 | 华南理工大学 | 一种端口去加载效应的动态聚类矢量拟合方法 |
CN111161713A (zh) * | 2019-12-20 | 2020-05-15 | 北京皮尔布莱尼软件有限公司 | 一种语音性别识别方法、装置及计算设备 |
CN111462763A (zh) * | 2019-09-21 | 2020-07-28 | 美律电子(深圳)有限公司 | 由计算机实施的语音命令验证方法及电子装置 |
CN111833842A (zh) * | 2020-06-30 | 2020-10-27 | 讯飞智元信息科技有限公司 | 合成音模板发现方法、装置以及设备 |
CN111915844A (zh) * | 2020-07-15 | 2020-11-10 | 北京科技大学 | 利用倒谱系数分析震动信号评价煤岩稳定性的方法和装置 |
CN112000047A (zh) * | 2020-09-07 | 2020-11-27 | 广东众科智能科技股份有限公司 | 一种远程智能化监控系统 |
CN112820318A (zh) * | 2020-12-31 | 2021-05-18 | 西安合谱声学科技有限公司 | 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统 |
CN112908303A (zh) * | 2021-01-28 | 2021-06-04 | 广东优碧胜科技有限公司 | 音频信号的处理方法、装置以及电子设备 |
CN113178197A (zh) * | 2021-04-27 | 2021-07-27 | 平安科技(深圳)有限公司 | 语音验证模型的训练方法、装置以及计算机设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6411930B1 (en) * | 1998-11-18 | 2002-06-25 | Lucent Technologies Inc. | Discriminative gaussian mixture models for speaker verification |
CN104036777A (zh) * | 2014-05-22 | 2014-09-10 | 哈尔滨理工大学 | 一种语音活动检测方法及装置 |
-
2017
- 2017-02-24 CN CN201710101547.4A patent/CN106952643A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6411930B1 (en) * | 1998-11-18 | 2002-06-25 | Lucent Technologies Inc. | Discriminative gaussian mixture models for speaker verification |
CN104036777A (zh) * | 2014-05-22 | 2014-09-10 | 哈尔滨理工大学 | 一种语音活动检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
C. KOTROPOULOS AND S. SAMARAS: "Mobile Phone Identification Using Recorded Speech Signals", 《IN PROC. 19TH INT. CONF. DIGIT. SIGNAL PROCESS》 * |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107656983A (zh) * | 2017-09-08 | 2018-02-02 | 广州索答信息科技有限公司 | 一种基于声纹识别的智能推荐方法及装置 |
CN108417207A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 一种深度混合生成网络自适应方法及系统 |
CN108766465B (zh) * | 2018-06-06 | 2020-07-28 | 华中师范大学 | 一种基于enf通用背景模型的数字音频篡改盲检测方法 |
CN108766464A (zh) * | 2018-06-06 | 2018-11-06 | 华中师范大学 | 基于电网频率波动超矢量的数字音频篡改自动检测方法 |
CN108766465A (zh) * | 2018-06-06 | 2018-11-06 | 华中师范大学 | 一种基于enf通用背景模型的数字音频篡改盲检测方法 |
CN108766464B (zh) * | 2018-06-06 | 2021-01-26 | 华中师范大学 | 基于电网频率波动超矢量的数字音频篡改自动检测方法 |
CN108922544A (zh) * | 2018-06-11 | 2018-11-30 | 平安科技(深圳)有限公司 | 通用向量训练方法、语音聚类方法、装置、设备及介质 |
CN108922559A (zh) * | 2018-07-06 | 2018-11-30 | 华南理工大学 | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 |
CN109346104A (zh) * | 2018-08-29 | 2019-02-15 | 昆明理工大学 | 一种基于谱聚类的音频特征降维方法 |
CN109345472B (zh) * | 2018-09-11 | 2021-07-06 | 重庆大学 | 一种复杂场景的红外运动小目标检测方法 |
CN109345472A (zh) * | 2018-09-11 | 2019-02-15 | 重庆大学 | 一种复杂场景的红外运动小目标检测方法 |
CN109448755A (zh) * | 2018-10-30 | 2019-03-08 | 上海力声特医学科技有限公司 | 人工耳蜗听觉场景识别方法 |
CN109431517A (zh) * | 2018-11-13 | 2019-03-08 | 四川长虹电器股份有限公司 | 一种基于心音的身份识别方法 |
CN109903777A (zh) * | 2019-01-15 | 2019-06-18 | 华南理工大学 | 一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法 |
CN109903777B (zh) * | 2019-01-15 | 2020-10-27 | 华南理工大学 | 一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法 |
CN109840517A (zh) * | 2019-03-08 | 2019-06-04 | 兰州交通大学 | 一种mems陀螺噪声估计和滤波方法 |
CN109978034A (zh) * | 2019-03-18 | 2019-07-05 | 华南理工大学 | 一种基于数据增强的声场景辨识方法 |
CN110197665A (zh) * | 2019-06-25 | 2019-09-03 | 广东工业大学 | 一种用于公安刑侦监听的语音分离与跟踪方法 |
CN110534101B (zh) * | 2019-08-27 | 2022-02-22 | 华中师范大学 | 一种基于多模融合深度特征的移动设备源识别方法及系统 |
CN110534101A (zh) * | 2019-08-27 | 2019-12-03 | 华中师范大学 | 一种基于多模融合深度特征的移动设备源识别方法及系统 |
CN110728991B (zh) * | 2019-09-06 | 2022-03-01 | 南京工程学院 | 一种改进的录音设备识别算法 |
CN110728991A (zh) * | 2019-09-06 | 2020-01-24 | 南京工程学院 | 一种改进的录音设备识别算法 |
CN111462763A (zh) * | 2019-09-21 | 2020-07-28 | 美律电子(深圳)有限公司 | 由计算机实施的语音命令验证方法及电子装置 |
CN111462763B (zh) * | 2019-09-21 | 2024-02-27 | 美律电子(深圳)有限公司 | 由计算机实施的语音命令验证方法及电子装置 |
CN111144461B (zh) * | 2019-12-16 | 2023-11-24 | 华南理工大学 | 一种端口去加载效应的动态聚类矢量拟合方法 |
CN111144461A (zh) * | 2019-12-16 | 2020-05-12 | 华南理工大学 | 一种端口去加载效应的动态聚类矢量拟合方法 |
CN111161713A (zh) * | 2019-12-20 | 2020-05-15 | 北京皮尔布莱尼软件有限公司 | 一种语音性别识别方法、装置及计算设备 |
CN111833842A (zh) * | 2020-06-30 | 2020-10-27 | 讯飞智元信息科技有限公司 | 合成音模板发现方法、装置以及设备 |
CN111833842B (zh) * | 2020-06-30 | 2023-11-03 | 讯飞智元信息科技有限公司 | 合成音模板发现方法、装置以及设备 |
CN111915844A (zh) * | 2020-07-15 | 2020-11-10 | 北京科技大学 | 利用倒谱系数分析震动信号评价煤岩稳定性的方法和装置 |
CN111915844B (zh) * | 2020-07-15 | 2021-09-14 | 北京科技大学 | 利用倒谱系数分析震动信号评价煤岩稳定性的方法和装置 |
CN112000047A (zh) * | 2020-09-07 | 2020-11-27 | 广东众科智能科技股份有限公司 | 一种远程智能化监控系统 |
CN112820318A (zh) * | 2020-12-31 | 2021-05-18 | 西安合谱声学科技有限公司 | 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统 |
CN112908303A (zh) * | 2021-01-28 | 2021-06-04 | 广东优碧胜科技有限公司 | 音频信号的处理方法、装置以及电子设备 |
CN113178197A (zh) * | 2021-04-27 | 2021-07-27 | 平安科技(深圳)有限公司 | 语音验证模型的训练方法、装置以及计算机设备 |
CN113178197B (zh) * | 2021-04-27 | 2024-01-09 | 平安科技(深圳)有限公司 | 语音验证模型的训练方法、装置以及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106952643A (zh) | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 | |
CN106952644A (zh) | 一种基于瓶颈特征的复杂音频分割聚类方法 | |
CN107146601A (zh) | 一种用于说话人识别系统的后端i‑vector增强方法 | |
CN108847244A (zh) | 基于mfcc和改进bp神经网络的声纹识别方法及系统 | |
CN102968990B (zh) | 说话人识别方法和系统 | |
CN105096955B (zh) | 一种基于模型生长聚类的说话人快速识别方法及系统 | |
CN105206270A (zh) | 一种组合pca和rbm的孤立数字语音识别分类系统及方法 | |
CN112270931B (zh) | 一种基于孪生卷积神经网络进行欺骗性语音检测的方法 | |
CN110111797A (zh) | 基于高斯超矢量和深度神经网络的说话人识别方法 | |
CN111462729B (zh) | 基于音素对数似然比和稀疏表征的快速语种识别方法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN102664010B (zh) | 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN108962229A (zh) | 一种基于单通道、无监督式的目标说话人语音提取方法 | |
CN110148408A (zh) | 一种基于深度残差的中文语音识别方法 | |
CN108091326A (zh) | 一种基于线性回归的声纹识别方法及系统 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
CN107358947A (zh) | 说话人重识别方法及系统 | |
CN113488060B (zh) | 一种基于变分信息瓶颈的声纹识别方法及系统 | |
CN104732972A (zh) | 一种基于分组统计的hmm声纹识别签到方法及系统 | |
CN111666996B (zh) | 一种基于attention机制的高精度设备源识别方法 | |
CN106373559A (zh) | 一种基于对数谱信噪比加权的鲁棒特征提取方法 | |
CN113763965A (zh) | 一种多重注意力特征融合的说话人识别方法 | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170714 |