CN108922541B - 基于dtw和gmm模型的多维特征参数声纹识别方法 - Google Patents
基于dtw和gmm模型的多维特征参数声纹识别方法 Download PDFInfo
- Publication number
- CN108922541B CN108922541B CN201810515482.2A CN201810515482A CN108922541B CN 108922541 B CN108922541 B CN 108922541B CN 201810515482 A CN201810515482 A CN 201810515482A CN 108922541 B CN108922541 B CN 108922541B
- Authority
- CN
- China
- Prior art keywords
- voice
- training
- matching
- representing
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 62
- 238000005070 sampling Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 239000000203 mixture Substances 0.000 claims description 28
- 238000009432 framing Methods 0.000 claims description 12
- 238000007476 Maximum Likelihood Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000005315 distribution function Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
一种基于DTW和GMM模型的多维特征参数声纹识别方法,包括如下步骤:S1、语音信号采样,S2、语音信号预处理,S3、语音信号特征参数提取,S4、语音信号模型训练,S5、待识别语音信号匹配识别。本发明通过在MFCC的基础上引入基音周期的方式,构造出经过改进的多维特征参数,不仅有效地提升了声纹识别的识别率,而且也避免了现有技术中因单独使用MFCC参数所造成的易被模仿的缺陷。同时,本发明采用了两步匹配识别算法,第一步运用DTW法部分匹配基音周期这个特征参数,进行初步识别,筛选掉数据库中不匹配的模板;第二步运用GMM匹配识别MFCC参数,从而在不影响识别率的前提下,极大缩减匹配识别的时间。
Description
技术领域
本发明涉及一种声纹识别方法,尤其涉及一种基于DTW和GMM模型的多维 特征参数声纹识别方法,属于信号识别与处理领域。
背景技术
随着信息技术的快速发展和迅速普及,信息安全问题越来越受到人们的关 注,如何快速、准确地认证使用者的身份,保护个人隐私和保障信息安全,也 日益成为目前信息安全领域亟待解决的一个重要问题。与传统身份认证方式相 比,生物特征识别身份认证技术在使用过程中具有不会丢失、被盗或遗忘的特 性,通过生物特征来进行身份认证,不仅认证过程快捷、方便,而且认证结果 也十分准确、可靠。
在种类繁多的生物特征识别技术中,声纹识别技术可以称得上是当前最热 门的生物特征识别技术之一,由于其在远程认证等应用领域中具有独特优势, 因此受到了业内的持续关注。
声纹识别又可以称作说话人识别,简单来说,其基本原理是把待检测的说 话人和已经建立的说话人库中所有的语音信号进行比较,并加以判断,确立是 否为其中一员。目前,大多数的声纹识别系统一般都只提取梅尔倒谱系数作为 说话人语音信号的特征参数,并用高斯混合模型作为模型对语音信号的进行训 练和识别。
例如中国专利CN102324232A揭示了一种基于高斯混合模型的声纹识别方法 及系统,步骤包括:语音信号采集;语音信号预处理;语音信号特征参数提 取:采用梅尔频率倒谱系数(MFCC),MFCC的阶数通常取为12~16;模型训练: 采用EM算法为说话人的语音信号特征参数训练高斯混合模型(GMM),模型的参 数初始化方法选用k-means算法;声纹辨识:将采集到的待识别语音信号特征 参数与已建立的说话人语音模型进行比较,并根据最大后验概法进行判断,若 对应的说话人模型使得待识别的话者语音特征向量X具有最大的后验概率,则 识别出说话人。
虽然上述技术方案具备一定的识别性能和抗噪能力,但是仍然存在着诸多 不足。具体而言,梅尔倒谱系数(MFCC)虽然可以描述语音频率结构的时间变化 信息,反应出声道运动的动态特征(发音方式、发音习惯等),但是其描述的 特征很容易被模仿,在应用过程中很容易出现误判情况。此外,使用高斯混合 模型(GMM)来表述说话人样本在声学特征空间中的分布,虽然在语音信号的训 练和匹配识别研究中取得了很好的效果,但是其计算量较大,所需要的匹配识 别时间一般都很长,这一点在实际的应用过程中也会是一项缺陷。
为了应对和解决上述问题,技术人员开始尝试将动态时间规整法(DTW) 应用于声纹识别中,动态时间规整法可以把两个不同长度的语音信号的特征进 行时间上的“对齐”,进而计算其最短路径,来判断两个语音是否相似。但是 目前,将这一技术应用于声纹识别还处于理论阶段,仍存在着诸多的不完善。
综上所述,人们亟待一种能够充分利用DTW模型、实现识别正确率和匹配 识别时间共同优化的声纹识别方法,以满足实际的使用需要。
发明内容
鉴于现有技术存在上述缺陷,本发明的目的是提出一种基于DTW和GMM模型 的多维特征参数声纹识别方法。
一种基于DTW和GMM模型的多维特征参数声纹识别方法,包括如下步骤:
S1、语音信号采样,对训练语音和来自说话人的待识别语音进行采样收 集;
S2、语音信号预处理,将所采样的训练语音和待识别语音进行预处理;
S3、语音信号特征参数提取,对训练语音及待识别语音进行特征参数提 取,分别提取出梅尔倒谱系数和基音周期;
S4、语音信号模型训练,对所采样的训练语音通过最大似然概率估计法得 到高斯混合模型的均值、协方差矩阵和加权系数,记录得到的数据,保存相对 应的高斯混合模型;
S5、待识别语音信号匹配识别,先运用动态时间规整法匹配识别待识别语 音,再运用高斯混合模型来匹配识别待识别语音,得出识别结果。
优选地,所述S2包括如下步骤:
S21、对训练语音和待识别语音进行预加重,预加重表达式为,
S(n)=S1(n)-a*S1(n)
其中,S1(n)表示语音的时域的信号,a表示预加重系数;
S22、对训练语音和待识别语音进行分帧,选择帧长为25ms,帧移为 10ms,采样点个数为25;
S23、对训练语音和待识别语音进行加窗,将分得的每一帧都乘上窗函 数,窗函数为海明窗,窗函数表达式为,
其中,N为分帧后的取样个数,a’表示海明窗系数;
S24、对训练语音和待识别语音进行端点检测,去除语音信号中的无声部 分,采用双门限法分别计算出语音信号的短时平均能量和短时平均过零率,通 过设置阈值来去除无声部分,
短时平均能量公式为
其中,Ei表示第i帧的短时能量,s(n)表示语音的时域信号,w(n)表示加 窗函数,h(n)表示单位冲冲激响应,
短时平均过零率公式如下:
其中,Zi表示第i帧的短时过零率,w(n)表示加窗函数。
优选地,所述S3包括如下步骤:
S31、对训练语音及待识别语音进行梅尔倒谱系数提取;
S32、对训练语音及待识别语音进行基音周期提取。
优选地,所述S31包括如下步骤:
S311、快速傅里叶变换,快速傅里叶变换的公式为,
其中,Si为第i个帧的向量,N为分帧后的取样个数;
S312、三角带通滤波,所使用的三角滤波器函数表达式为,
其中,f[i]为第i个三角带通滤波的频率中心值,Hi(k)为第i个三角带通 滤波的加权系数;
S313、对数变化,将三角带通滤波器处理得到的语音信号进行对数运算;
S314、离散余弦变换,离散余弦变换的表达式为,
其中,Si表示为第i个帧向量在频域的成分表,N表示分帧后的取样个 数,Ci(n)表示第i个帧的梅尔倒谱系数。
优选地,所述S32包括如下步骤:
S321、对清音和浊音识别判断,提取出浊音段;
S322、将提取得到的浊音段信号进行中心削波处理,中心削波的表达式 为,
其中,CL表示削波电平,本发明取最大幅度的53%,x表示该点的幅度;
S323、将得到的语音信号进行自相关运算,即计算峰值与原点之间的距 离,得到基音周期。
优选地,所述S4中所述高斯混合模型的表达式为,
其中,ωi表示第i个高斯分量的加权系数,Φ表示单一高斯分布函数,μi表示第i个高斯分量的均值,Σi表示第i个高斯分量的方差,x表示短时语音 特征。
优选地,所述S5包括如下步骤,
S51、动态时间规整法匹配识别,以从待识别语音中提取出的基音周期作 为x轴、训练语音的基音周期作为y轴,将规整函数局限在一个平行四边形 内,将平行四边形其中一条边的斜率设定为2、另一条边的斜率被设定为 0.5,分别将训练语音和待识别语音的头部相对齐、尾部相对齐,以点(1,1) 为起点开始行进,所经历的路线必须为0或1或2,最终到达终点,计算得出 行进距离,将行进距离数据进行从小到大排序,筛选出位于前30%的训练语音 作为训练模板;
S52、高斯混合模型匹配识别,将待识别语音中每一帧的梅尔倒谱系数分 别与训练模板进行匹配,通过最大似然概率法得到高斯混合模型的识别结果, 最后结合匹配结果得出最终识别结果。
与现有技术相比,本发明的优点主要体现在以下几个方面:
本发明通过在MFCC的基础上引入基音周期的方式,构造出经过改进的多维 特征参数,不仅有效地提升了声纹识别的识别率,而且也避免了现有技术中因 单独使用MFCC参数所造成的易被模仿的缺陷。
同时,本发明采用了两步匹配识别算法,第一步运用DTW法部分匹配基音 周期这个特征参数,进行初步识别,筛选掉数据库中不匹配的模板;第二步运 用GMM匹配识别MFCC参数,从而在不影响识别率的前提下,极大缩减匹配识别 的时间。
综上所述,本发明提出了一种能够充分利用DTW模型、实现识别正确率和 匹配识别时间共同优化的声纹识别方法,具有很高的推广价值。
以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使 本发明技术方案更易于理解、掌握。
附图说明
图1是本发明的流程图;
图2是本发明中动态时间规整法的原理图;
图3是本发明中高斯混合模型的原理图。
具体实施方式
如图所示,本发明揭示了一种基于DTW和GMM模型的多维特征参数声纹识 别方法,包括如下步骤:
S1、语音信号采样,对训练语音和来自说话人的待识别语音进行采样收 集。
S2、语音信号预处理,将所采样的训练语音和待识别语音进行预处理。
S3、语音信号特征参数提取,对训练语音及待识别语音进行特征参数提 取,分别提取出梅尔倒谱系数和基音周期。
S4、语音信号模型训练,对所采样的训练语音通过最大似然概率估计法得 到高斯混合模型的均值、协方差矩阵和加权系数,记录得到的数据,保存相对 应的高斯混合模型。
S5、待识别语音信号匹配识别,先运用动态时间规整法匹配识别待识别语 音,再运用高斯混合模型来匹配识别待识别语音,得出识别结果。
本发明所用训练语音和待识别语音数据是在实验室环境下采样的,音频格 式为PCM编码,采样频率为8kHz,采样精度为16bit,保存格式为wav音频格 式。一共有10组训练语音,每段长度为50s。20段待识别语音,每段长度5- 10s不等。所录制语音内容随机,并且不重复。
所述S2包括如下步骤:
S21、对训练语音和待识别语音进行预加重,预加重的目的在于弥补高频 传播的能量损失,预加重表达式为,
S(n)=S1(n)-a*S1(n)
其中,S1(n)表示语音的时域的信号,a表示预加重系数。在本发明中,所 述预加重系数的取值为0.95。
S22、对训练语音和待识别语音进行分帧,选择帧长为25ms,帧移为 10ms,采样点个数为25。
S23、对训练语音和待识别语音进行加窗,将分得的每一帧都乘上窗函 数,窗函数为海明窗,窗函数表达式为,
其中,N为分帧后的取样个数,a’表示海明窗系数。在本发明中,所述 海明窗系数取值为0.45。
S24、对训练语音和待识别语音进行端点检测,去除语音信号中的无声部 分,采用双门限法分别计算出语音信号的短时平均能量和短时平均过零率,通 过设置阈值来去除无声部分,
短时平均能量公式为
其中,Ei表示第i帧的短时能量,s(n)表示语音的时域信号,w(n)表示加 窗函数,h(n)表示单位冲冲激响应,
短时平均过零率公式如下:
其中,Zi表示第i帧的短时过零率,w(n)表示加窗函数。
所述S3包括如下步骤:
S31、对训练语音及待识别语音进行梅尔倒谱系数提取。
S32、对训练语音及待识别语音进行基音周期提取。
所述S31包括如下步骤:
S311、快速傅里叶变换,快速傅里叶变换的公式为,
其中,Si为第i个帧的向量,N为分帧后的取样个数。
S312、三角带通滤波,这一步骤的目的在于模拟人耳听觉系统,将所得语 音信号划分成特定的适合人耳的频率范围。所使用的三角滤波器函数表达式 为,
其中,f[i]为第i个三角带通滤波的频率中心值,Hi(k)为第i个三角带通 滤波的加权系数。
在本发明的实施例中,选取20个三角带通滤波器。
S313、对数变化,将三角带通滤波器处理得到的语音信号进行对数运算。
S314、离散余弦变换,离散余弦变换的表达式为,
其中,Si表示为第i个帧向量在频域的成分表,N表示分帧后的取样个 数,Ci(n)表示第i个帧的梅尔倒谱系数。
在本发明中,因为选取了20个三角带通滤波,所以得到了20维梅尔倒谱 系数,舍去首两维和末三维,将第3-17维特征参数作为MFCC参数进行保存。
所述S32包括如下步骤:
S321、对清音和浊音识别判断,提取出浊音段。
S322、将提取得到的浊音段信号进行中心削波处理,中心削波的表达式 为,
其中,CL表示削波电平,本发明取最大幅度的53%,x表示该点的幅度。
S323、将得到的语音信号进行自相关运算,即计算峰值与原点之间的距 离,得到基音周期。
本发明所采用的语音模型训练方法为基于高斯混合模型的梅尔倒谱系数的 模型训练。S4中将提取的每一帧梅尔倒谱系数当做单一的高斯模型,对其进行 加权(即设置相应的加权系数),将单一的高斯模型转变为为高斯混合模型, 通过最大似然概率估计法得到高斯混合模型的均值、协方差矩阵和加权系数。 记录下这些得到的数据,即保存了语音信号对应的高斯混合模型。
所述S4中所述高斯混合模型的表达式为,
其中,ωi表示第i个高斯分量的加权系数,Φ表示单一高斯分布函数,μi表示第i个高斯分量的均值,Σi表示第i个高斯分量的方差,x表示短时语音 特征。
所述S5包括如下步骤,
S51、动态时间规整法匹配识别,以从待识别语音中提取出的基音周期作 为x轴、训练语音的基音周期作为y轴,将规整函数局限在一个平行四边形 内,将平行四边形其中一条边的斜率设定为2、另一条边的斜率被设定为 0.5,分别将训练语音和待识别语音的头部相对齐、尾部相对齐,以点(1,1) 为起点开始行进,所经历的路线必须为0或1或2,最终到达终点(终点为N),计算得出行进距离,将行进距离数据进行从小到大排序,筛选出位于前30%的训练语音作为训练模板。
S52、高斯混合模型匹配识别,将待识别语音中每一帧的梅尔倒谱系数分 别与训练模板进行匹配,通过最大似然概率法得到高斯混合模型的识别结果, 最后结合匹配结果得出最终识别结果。即使用高斯混合模型待识别语音中梅尔 倒谱系数在训练模板中的最大似然概率,再对这个识别结果进行判断(即该结 果是否为基音周期检测中距离最小的),如果相同则判断确认说话人,否则结 果为陌生人。
在本发明中,将20段待识别语音都进行匹配识别,并记录下识别时间和 正确性。
计算正确率的公式如下:
根据结果绘制表格,
GMM模型匹配MFCC系数 | DTW+GMM模型匹配多维特征参数 | |
识别时间 | 7.13s | 3.16s |
识别率 | 84.74% | 91.25% |
从上表中可明显地看出按照本发明提出的方法对语音信号进行识别,识别 时间和识别率均得到了优化。
本发明通过在MFCC的基础上引入基音周期的方式,构造出经过改进的多维 特征参数,不仅有效地提升了声纹识别的识别率,而且也避免了现有技术中因 单独使用MFCC参数所造成的易被模仿的缺陷。
同时,本发明采用了两步匹配识别算法,第一步运用DTW法部分匹配基音 周期这个特征参数,进行初步识别,筛选掉数据库中不匹配的模板。第二步运 用GMM匹配识别MFCC参数,从而在不影响识别率的前提下,极大缩减匹配识别 的时间。
综上所述,本发明提出了一种能够充分利用DTW模型、实现识别正确率和 匹配识别时间共同优化的声纹识别方法,具有很高的推广价值。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节, 而且在不背离本发明的精神和基本特征的情况下,能够以其他的具体形式实现 本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非 限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落 在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权 利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式 仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领 域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当 组合,形成本领域技术人员可以理解的其他实施方式。
Claims (6)
1.一种基于DTW和GMM模型的多维特征参数声纹识别方法,其特征在于,包括如下步骤:
S1、语音信号采样,对训练语音和来自说话人的待识别语音进行采样收集;
S2、语音信号预处理,将所采样的训练语音和待识别语音进行预处理;
S3、语音信号特征参数提取,对训练语音及待识别语音进行特征参数提取,分别提取出梅尔倒谱系数和基音周期;
S4、语音信号模型训练,对所采样的训练语音通过最大似然概率估计法得到高斯混合模型的均值、协方差矩阵和加权系数,记录得到的数据,保存相对应的高斯混合模型;
S5、待识别语音信号匹配识别,先运用动态时间规整法匹配识别待识别语音,再运用高斯混合模型来匹配识别待识别语音,得出识别结果,包括如下步骤:
S51、动态时间规整法匹配识别,以从待识别语音中提取出的基音周期作为x轴、训练语音的基音周期作为y轴,将规整函数局限在一个平行四边形内,将平行四边形其中一条边的斜率设定为2、另一条边的斜率被设定为0.5,分别将训练语音和待识别语音的头部相对齐、尾部相对齐,以点(1,1)为起点开始行进,所经历的路线必须为0或1或2,最终到达终点,计算得出行进距离,将行进距离数据进行从小到大排序,筛选出位于前30%的训练语音作为训练模板;
S52、高斯混合模型匹配识别,将待识别语音中每一帧的梅尔倒谱系数分别与训练模板进行匹配,通过最大似然概率法得到高斯混合模型的识别结果,最后结合匹配结果得出最终识别结果。
2.根据权利要求1所述的基于DTW和GMM模型的多维特征参数声纹识别方法,其特征在于,所述S2包括如下步骤:
S21、对训练语音和待识别语音进行预加重,预加重表达式为,
S(n)=S1(n)-a*S1(n)
其中,S1(n)表示语音的时域的信号,a表示预加重系数;
S22、对训练语音和待识别语音进行分帧,选择帧长为25ms,帧移为10ms,采样点个数为25;
S23、对训练语音和待识别语音进行加窗,将分得的每一帧都乘上窗函数,窗函数为海明窗,窗函数表达式为,
其中,N为分帧后的取样个数,a’表示海明窗系数;
S24、对训练语音和待识别语音进行端点检测,去除语音信号中的无声部分,采用双门限法分别计算出语音信号的短时平均能量和短时平均过零率,通过设置阈值来去除无声部分,
短时平均能量公式为
其中,Ei表示第i帧的短时能量,s(n)表示语音的时域信号,w(n)表示加窗函数,h(n)表示单位冲激响应,
短时平均过零率公式如下:
其中,Zi表示第i帧的短时过零率,w(n)表示加窗函数。
3.根据权利要求1所述的基于DTW和GMM模型的多维特征参数声纹识别方法,其特征在于,所述S3包括如下步骤:
S31、对训练语音及待识别语音进行梅尔倒谱系数提取;
S32、对训练语音及待识别语音进行基音周期提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810515482.2A CN108922541B (zh) | 2018-05-25 | 2018-05-25 | 基于dtw和gmm模型的多维特征参数声纹识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810515482.2A CN108922541B (zh) | 2018-05-25 | 2018-05-25 | 基于dtw和gmm模型的多维特征参数声纹识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108922541A CN108922541A (zh) | 2018-11-30 |
CN108922541B true CN108922541B (zh) | 2023-06-02 |
Family
ID=64410589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810515482.2A Active CN108922541B (zh) | 2018-05-25 | 2018-05-25 | 基于dtw和gmm模型的多维特征参数声纹识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108922541B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111383658B (zh) * | 2018-12-29 | 2023-06-09 | 广州市百果园信息技术有限公司 | 音频信号的对齐方法和装置 |
CN110428841B (zh) * | 2019-07-16 | 2021-09-28 | 河海大学 | 一种基于不定长均值的声纹动态特征提取方法 |
CN110400565A (zh) * | 2019-08-20 | 2019-11-01 | 广州国音智能科技有限公司 | 说话人识别方法、系统及计算机可读存储介质 |
CN110838296B (zh) * | 2019-11-18 | 2022-04-29 | 锐迪科微电子科技(上海)有限公司 | 录音过程的控制方法、系统、电子设备和存储介质 |
CN111307939A (zh) * | 2020-03-16 | 2020-06-19 | 吉林省运捷轨道科技开发有限公司 | 一种利用声纹ai技术识别轨道车辆轮对缺陷的方法 |
CN111429922A (zh) * | 2020-03-27 | 2020-07-17 | 佛山科学技术学院 | 一种基于自适应语音增强的说话人识别方法及装置 |
CN111681671B (zh) * | 2020-05-20 | 2023-03-10 | 浙江大华技术股份有限公司 | 异常音识别方法、装置及计算机存储介质 |
CN112542174A (zh) * | 2020-12-25 | 2021-03-23 | 南京邮电大学 | 基于vad的多维特征参数声纹识别方法 |
CN113160797B (zh) * | 2021-04-25 | 2023-06-02 | 北京华捷艾米科技有限公司 | 音频特征处理方法及装置、存储介质及电子设备 |
CN113112999B (zh) * | 2021-05-28 | 2022-07-12 | 宁夏理工学院 | 基于dtw和gmm的短词句语音识别方法及系统 |
CN114626039A (zh) * | 2022-02-17 | 2022-06-14 | 浪潮软件集团有限公司 | 一种基于国产cpu和操作系统环境的语音识别登陆方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1291324A (zh) * | 1997-01-31 | 2001-04-11 | T-内提克斯公司 | 检测录制声音的系统和方法 |
CN101540170B (zh) * | 2008-03-19 | 2011-03-30 | 中国科学院半导体研究所 | 一种基于仿生模式识别的声纹识别方法 |
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
CN102509547B (zh) * | 2011-12-29 | 2013-06-19 | 辽宁工业大学 | 基于矢量量化的声纹识别方法及系统 |
CN103236260B (zh) * | 2013-03-29 | 2015-08-12 | 京东方科技集团股份有限公司 | 语音识别系统 |
CN104835498B (zh) * | 2015-05-25 | 2018-12-18 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
US10325601B2 (en) * | 2016-09-19 | 2019-06-18 | Pindrop Security, Inc. | Speaker recognition in the call center |
-
2018
- 2018-05-25 CN CN201810515482.2A patent/CN108922541B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108922541A (zh) | 2018-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN106935248B (zh) | 一种语音相似度检测方法及装置 | |
Dhingra et al. | Isolated speech recognition using MFCC and DTW | |
CN108986824B (zh) | 一种回放语音检测方法 | |
CN103617799B (zh) | 一种适应于移动设备的英语语句发音质量检测方法 | |
CN101226743A (zh) | 基于中性和情感声纹模型转换的说话人识别方法 | |
CN105679312B (zh) | 一种噪声环境下声纹识别的语音特征处理方法 | |
CN101923855A (zh) | 文本无关的声纹识别系统 | |
Vyas | A Gaussian mixture model based speech recognition system using Matlab | |
CN101136199A (zh) | 语音数据处理方法和设备 | |
Das et al. | Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model | |
CN113823293B (zh) | 一种基于语音增强的说话人识别方法及系统 | |
CN108091340B (zh) | 声纹识别方法、声纹识别系统和计算机可读存储介质 | |
Tolba | A high-performance text-independent speaker identification of Arabic speakers using a CHMM-based approach | |
Chauhan et al. | Speech to text converter using Gaussian Mixture Model (GMM) | |
CN110570870A (zh) | 一种文本无关的声纹识别方法、装置及设备 | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
Kaminski et al. | Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models | |
Fauzi et al. | The recognition of hijaiyah letter pronunciation using mel frequency cepstral coefficients and hidden markov model | |
Zhang et al. | Speaker recognition based on dynamic time warping and Gaussian mixture model | |
CN112767961B (zh) | 一种基于云端计算的口音矫正方法 | |
CN109003613A (zh) | 结合空间信息的声纹识别支付信息防伪方法 | |
Bouziane et al. | An open and free speech corpus for speaker recognition: The fscsr speech corpus | |
Li et al. | Voice-based recognition system for non-semantics information by language and gender | |
CN104240699A (zh) | 一种简单有效的短语语音识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |