CN108922541B - 基于dtw和gmm模型的多维特征参数声纹识别方法 - Google Patents

基于dtw和gmm模型的多维特征参数声纹识别方法 Download PDF

Info

Publication number
CN108922541B
CN108922541B CN201810515482.2A CN201810515482A CN108922541B CN 108922541 B CN108922541 B CN 108922541B CN 201810515482 A CN201810515482 A CN 201810515482A CN 108922541 B CN108922541 B CN 108922541B
Authority
CN
China
Prior art keywords
voice
training
matching
representing
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810515482.2A
Other languages
English (en)
Other versions
CN108922541A (zh
Inventor
邓立新
李秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201810515482.2A priority Critical patent/CN108922541B/zh
Publication of CN108922541A publication Critical patent/CN108922541A/zh
Application granted granted Critical
Publication of CN108922541B publication Critical patent/CN108922541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

一种基于DTW和GMM模型的多维特征参数声纹识别方法,包括如下步骤:S1、语音信号采样,S2、语音信号预处理,S3、语音信号特征参数提取,S4、语音信号模型训练,S5、待识别语音信号匹配识别。本发明通过在MFCC的基础上引入基音周期的方式,构造出经过改进的多维特征参数,不仅有效地提升了声纹识别的识别率,而且也避免了现有技术中因单独使用MFCC参数所造成的易被模仿的缺陷。同时,本发明采用了两步匹配识别算法,第一步运用DTW法部分匹配基音周期这个特征参数,进行初步识别,筛选掉数据库中不匹配的模板;第二步运用GMM匹配识别MFCC参数,从而在不影响识别率的前提下,极大缩减匹配识别的时间。

Description

基于DTW和GMM模型的多维特征参数声纹识别方法
技术领域
本发明涉及一种声纹识别方法,尤其涉及一种基于DTW和GMM模型的多维 特征参数声纹识别方法,属于信号识别与处理领域。
背景技术
随着信息技术的快速发展和迅速普及,信息安全问题越来越受到人们的关 注,如何快速、准确地认证使用者的身份,保护个人隐私和保障信息安全,也 日益成为目前信息安全领域亟待解决的一个重要问题。与传统身份认证方式相 比,生物特征识别身份认证技术在使用过程中具有不会丢失、被盗或遗忘的特 性,通过生物特征来进行身份认证,不仅认证过程快捷、方便,而且认证结果 也十分准确、可靠。
在种类繁多的生物特征识别技术中,声纹识别技术可以称得上是当前最热 门的生物特征识别技术之一,由于其在远程认证等应用领域中具有独特优势, 因此受到了业内的持续关注。
声纹识别又可以称作说话人识别,简单来说,其基本原理是把待检测的说 话人和已经建立的说话人库中所有的语音信号进行比较,并加以判断,确立是 否为其中一员。目前,大多数的声纹识别系统一般都只提取梅尔倒谱系数作为 说话人语音信号的特征参数,并用高斯混合模型作为模型对语音信号的进行训 练和识别。
例如中国专利CN102324232A揭示了一种基于高斯混合模型的声纹识别方法 及系统,步骤包括:语音信号采集;语音信号预处理;语音信号特征参数提 取:采用梅尔频率倒谱系数(MFCC),MFCC的阶数通常取为12~16;模型训练: 采用EM算法为说话人的语音信号特征参数训练高斯混合模型(GMM),模型的参 数初始化方法选用k-means算法;声纹辨识:将采集到的待识别语音信号特征 参数与已建立的说话人语音模型进行比较,并根据最大后验概法进行判断,若 对应的说话人模型使得待识别的话者语音特征向量X具有最大的后验概率,则 识别出说话人。
虽然上述技术方案具备一定的识别性能和抗噪能力,但是仍然存在着诸多 不足。具体而言,梅尔倒谱系数(MFCC)虽然可以描述语音频率结构的时间变化 信息,反应出声道运动的动态特征(发音方式、发音习惯等),但是其描述的 特征很容易被模仿,在应用过程中很容易出现误判情况。此外,使用高斯混合 模型(GMM)来表述说话人样本在声学特征空间中的分布,虽然在语音信号的训 练和匹配识别研究中取得了很好的效果,但是其计算量较大,所需要的匹配识 别时间一般都很长,这一点在实际的应用过程中也会是一项缺陷。
为了应对和解决上述问题,技术人员开始尝试将动态时间规整法(DTW) 应用于声纹识别中,动态时间规整法可以把两个不同长度的语音信号的特征进 行时间上的“对齐”,进而计算其最短路径,来判断两个语音是否相似。但是 目前,将这一技术应用于声纹识别还处于理论阶段,仍存在着诸多的不完善。
综上所述,人们亟待一种能够充分利用DTW模型、实现识别正确率和匹配 识别时间共同优化的声纹识别方法,以满足实际的使用需要。
发明内容
鉴于现有技术存在上述缺陷,本发明的目的是提出一种基于DTW和GMM模型 的多维特征参数声纹识别方法。
一种基于DTW和GMM模型的多维特征参数声纹识别方法,包括如下步骤:
S1、语音信号采样,对训练语音和来自说话人的待识别语音进行采样收 集;
S2、语音信号预处理,将所采样的训练语音和待识别语音进行预处理;
S3、语音信号特征参数提取,对训练语音及待识别语音进行特征参数提 取,分别提取出梅尔倒谱系数和基音周期;
S4、语音信号模型训练,对所采样的训练语音通过最大似然概率估计法得 到高斯混合模型的均值、协方差矩阵和加权系数,记录得到的数据,保存相对 应的高斯混合模型;
S5、待识别语音信号匹配识别,先运用动态时间规整法匹配识别待识别语 音,再运用高斯混合模型来匹配识别待识别语音,得出识别结果。
优选地,所述S2包括如下步骤:
S21、对训练语音和待识别语音进行预加重,预加重表达式为,
S(n)=S1(n)-a*S1(n)
其中,S1(n)表示语音的时域的信号,a表示预加重系数;
S22、对训练语音和待识别语音进行分帧,选择帧长为25ms,帧移为 10ms,采样点个数为25;
S23、对训练语音和待识别语音进行加窗,将分得的每一帧都乘上窗函 数,窗函数为海明窗,窗函数表达式为,
Figure BDA0001673016770000031
其中,N为分帧后的取样个数,a’表示海明窗系数;
S24、对训练语音和待识别语音进行端点检测,去除语音信号中的无声部 分,采用双门限法分别计算出语音信号的短时平均能量和短时平均过零率,通 过设置阈值来去除无声部分,
短时平均能量公式为
Figure BDA0001673016770000032
其中,Ei表示第i帧的短时能量,s(n)表示语音的时域信号,w(n)表示加 窗函数,h(n)表示单位冲冲激响应,
短时平均过零率公式如下:
Figure BDA0001673016770000041
Figure BDA0001673016770000042
其中,Zi表示第i帧的短时过零率,w(n)表示加窗函数。
优选地,所述S3包括如下步骤:
S31、对训练语音及待识别语音进行梅尔倒谱系数提取;
S32、对训练语音及待识别语音进行基音周期提取。
优选地,所述S31包括如下步骤:
S311、快速傅里叶变换,快速傅里叶变换的公式为,
Figure BDA0001673016770000043
其中,Si为第i个帧的向量,N为分帧后的取样个数;
S312、三角带通滤波,所使用的三角滤波器函数表达式为,
Figure BDA0001673016770000044
其中,f[i]为第i个三角带通滤波的频率中心值,Hi(k)为第i个三角带通 滤波的加权系数;
S313、对数变化,将三角带通滤波器处理得到的语音信号进行对数运算;
S314、离散余弦变换,离散余弦变换的表达式为,
Figure BDA0001673016770000045
其中,Si表示为第i个帧向量在频域的成分表,N表示分帧后的取样个 数,Ci(n)表示第i个帧的梅尔倒谱系数。
优选地,所述S32包括如下步骤:
S321、对清音和浊音识别判断,提取出浊音段;
S322、将提取得到的浊音段信号进行中心削波处理,中心削波的表达式 为,
Figure BDA0001673016770000051
其中,CL表示削波电平,本发明取最大幅度的53%,x表示该点的幅度;
S323、将得到的语音信号进行自相关运算,即计算峰值与原点之间的距 离,得到基音周期。
优选地,所述S4中所述高斯混合模型的表达式为,
Figure BDA0001673016770000052
其中,ωi表示第i个高斯分量的加权系数,Φ表示单一高斯分布函数,μi表示第i个高斯分量的均值,Σi表示第i个高斯分量的方差,x表示短时语音 特征。
优选地,所述S5包括如下步骤,
S51、动态时间规整法匹配识别,以从待识别语音中提取出的基音周期作 为x轴、训练语音的基音周期作为y轴,将规整函数局限在一个平行四边形 内,将平行四边形其中一条边的斜率设定为2、另一条边的斜率被设定为 0.5,分别将训练语音和待识别语音的头部相对齐、尾部相对齐,以点(1,1) 为起点开始行进,所经历的路线必须为0或1或2,最终到达终点,计算得出 行进距离,将行进距离数据进行从小到大排序,筛选出位于前30%的训练语音 作为训练模板;
S52、高斯混合模型匹配识别,将待识别语音中每一帧的梅尔倒谱系数分 别与训练模板进行匹配,通过最大似然概率法得到高斯混合模型的识别结果, 最后结合匹配结果得出最终识别结果。
与现有技术相比,本发明的优点主要体现在以下几个方面:
本发明通过在MFCC的基础上引入基音周期的方式,构造出经过改进的多维 特征参数,不仅有效地提升了声纹识别的识别率,而且也避免了现有技术中因 单独使用MFCC参数所造成的易被模仿的缺陷。
同时,本发明采用了两步匹配识别算法,第一步运用DTW法部分匹配基音 周期这个特征参数,进行初步识别,筛选掉数据库中不匹配的模板;第二步运 用GMM匹配识别MFCC参数,从而在不影响识别率的前提下,极大缩减匹配识别 的时间。
综上所述,本发明提出了一种能够充分利用DTW模型、实现识别正确率和 匹配识别时间共同优化的声纹识别方法,具有很高的推广价值。
以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使 本发明技术方案更易于理解、掌握。
附图说明
图1是本发明的流程图;
图2是本发明中动态时间规整法的原理图;
图3是本发明中高斯混合模型的原理图。
具体实施方式
如图所示,本发明揭示了一种基于DTW和GMM模型的多维特征参数声纹识 别方法,包括如下步骤:
S1、语音信号采样,对训练语音和来自说话人的待识别语音进行采样收 集。
S2、语音信号预处理,将所采样的训练语音和待识别语音进行预处理。
S3、语音信号特征参数提取,对训练语音及待识别语音进行特征参数提 取,分别提取出梅尔倒谱系数和基音周期。
S4、语音信号模型训练,对所采样的训练语音通过最大似然概率估计法得 到高斯混合模型的均值、协方差矩阵和加权系数,记录得到的数据,保存相对 应的高斯混合模型。
S5、待识别语音信号匹配识别,先运用动态时间规整法匹配识别待识别语 音,再运用高斯混合模型来匹配识别待识别语音,得出识别结果。
本发明所用训练语音和待识别语音数据是在实验室环境下采样的,音频格 式为PCM编码,采样频率为8kHz,采样精度为16bit,保存格式为wav音频格 式。一共有10组训练语音,每段长度为50s。20段待识别语音,每段长度5- 10s不等。所录制语音内容随机,并且不重复。
所述S2包括如下步骤:
S21、对训练语音和待识别语音进行预加重,预加重的目的在于弥补高频 传播的能量损失,预加重表达式为,
S(n)=S1(n)-a*S1(n)
其中,S1(n)表示语音的时域的信号,a表示预加重系数。在本发明中,所 述预加重系数的取值为0.95。
S22、对训练语音和待识别语音进行分帧,选择帧长为25ms,帧移为 10ms,采样点个数为25。
S23、对训练语音和待识别语音进行加窗,将分得的每一帧都乘上窗函 数,窗函数为海明窗,窗函数表达式为,
Figure BDA0001673016770000081
其中,N为分帧后的取样个数,a’表示海明窗系数。在本发明中,所述 海明窗系数取值为0.45。
S24、对训练语音和待识别语音进行端点检测,去除语音信号中的无声部 分,采用双门限法分别计算出语音信号的短时平均能量和短时平均过零率,通 过设置阈值来去除无声部分,
短时平均能量公式为
Figure BDA0001673016770000082
其中,Ei表示第i帧的短时能量,s(n)表示语音的时域信号,w(n)表示加 窗函数,h(n)表示单位冲冲激响应,
短时平均过零率公式如下:
Figure BDA0001673016770000083
Figure BDA0001673016770000084
其中,Zi表示第i帧的短时过零率,w(n)表示加窗函数。
所述S3包括如下步骤:
S31、对训练语音及待识别语音进行梅尔倒谱系数提取。
S32、对训练语音及待识别语音进行基音周期提取。
所述S31包括如下步骤:
S311、快速傅里叶变换,快速傅里叶变换的公式为,
Figure BDA0001673016770000091
其中,Si为第i个帧的向量,N为分帧后的取样个数。
S312、三角带通滤波,这一步骤的目的在于模拟人耳听觉系统,将所得语 音信号划分成特定的适合人耳的频率范围。所使用的三角滤波器函数表达式 为,
Figure BDA0001673016770000092
其中,f[i]为第i个三角带通滤波的频率中心值,Hi(k)为第i个三角带通 滤波的加权系数。
在本发明的实施例中,选取20个三角带通滤波器。
S313、对数变化,将三角带通滤波器处理得到的语音信号进行对数运算。
S314、离散余弦变换,离散余弦变换的表达式为,
Figure BDA0001673016770000093
其中,Si表示为第i个帧向量在频域的成分表,N表示分帧后的取样个 数,Ci(n)表示第i个帧的梅尔倒谱系数。
在本发明中,因为选取了20个三角带通滤波,所以得到了20维梅尔倒谱 系数,舍去首两维和末三维,将第3-17维特征参数作为MFCC参数进行保存。
所述S32包括如下步骤:
S321、对清音和浊音识别判断,提取出浊音段。
S322、将提取得到的浊音段信号进行中心削波处理,中心削波的表达式 为,
Figure BDA0001673016770000101
其中,CL表示削波电平,本发明取最大幅度的53%,x表示该点的幅度。
S323、将得到的语音信号进行自相关运算,即计算峰值与原点之间的距 离,得到基音周期。
本发明所采用的语音模型训练方法为基于高斯混合模型的梅尔倒谱系数的 模型训练。S4中将提取的每一帧梅尔倒谱系数当做单一的高斯模型,对其进行 加权(即设置相应的加权系数),将单一的高斯模型转变为为高斯混合模型, 通过最大似然概率估计法得到高斯混合模型的均值、协方差矩阵和加权系数。 记录下这些得到的数据,即保存了语音信号对应的高斯混合模型。
所述S4中所述高斯混合模型的表达式为,
Figure BDA0001673016770000102
其中,ωi表示第i个高斯分量的加权系数,Φ表示单一高斯分布函数,μi表示第i个高斯分量的均值,Σi表示第i个高斯分量的方差,x表示短时语音 特征。
所述S5包括如下步骤,
S51、动态时间规整法匹配识别,以从待识别语音中提取出的基音周期作 为x轴、训练语音的基音周期作为y轴,将规整函数局限在一个平行四边形 内,将平行四边形其中一条边的斜率设定为2、另一条边的斜率被设定为 0.5,分别将训练语音和待识别语音的头部相对齐、尾部相对齐,以点(1,1) 为起点开始行进,所经历的路线必须为0或1或2,最终到达终点(终点为N),计算得出行进距离,将行进距离数据进行从小到大排序,筛选出位于前30%的训练语音作为训练模板。
S52、高斯混合模型匹配识别,将待识别语音中每一帧的梅尔倒谱系数分 别与训练模板进行匹配,通过最大似然概率法得到高斯混合模型的识别结果, 最后结合匹配结果得出最终识别结果。即使用高斯混合模型待识别语音中梅尔 倒谱系数在训练模板中的最大似然概率,再对这个识别结果进行判断(即该结 果是否为基音周期检测中距离最小的),如果相同则判断确认说话人,否则结 果为陌生人。
在本发明中,将20段待识别语音都进行匹配识别,并记录下识别时间和 正确性。
计算正确率的公式如下:
Figure RE-GDA0001768534020000111
根据结果绘制表格,
GMM模型匹配MFCC系数 DTW+GMM模型匹配多维特征参数
识别时间 7.13s 3.16s
识别率 84.74% 91.25%
从上表中可明显地看出按照本发明提出的方法对语音信号进行识别,识别 时间和识别率均得到了优化。
本发明通过在MFCC的基础上引入基音周期的方式,构造出经过改进的多维 特征参数,不仅有效地提升了声纹识别的识别率,而且也避免了现有技术中因 单独使用MFCC参数所造成的易被模仿的缺陷。
同时,本发明采用了两步匹配识别算法,第一步运用DTW法部分匹配基音 周期这个特征参数,进行初步识别,筛选掉数据库中不匹配的模板。第二步运 用GMM匹配识别MFCC参数,从而在不影响识别率的前提下,极大缩减匹配识别 的时间。
综上所述,本发明提出了一种能够充分利用DTW模型、实现识别正确率和 匹配识别时间共同优化的声纹识别方法,具有很高的推广价值。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节, 而且在不背离本发明的精神和基本特征的情况下,能够以其他的具体形式实现 本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非 限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落 在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权 利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式 仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领 域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当 组合,形成本领域技术人员可以理解的其他实施方式。

Claims (6)

1.一种基于DTW和GMM模型的多维特征参数声纹识别方法,其特征在于,包括如下步骤:
S1、语音信号采样,对训练语音和来自说话人的待识别语音进行采样收集;
S2、语音信号预处理,将所采样的训练语音和待识别语音进行预处理;
S3、语音信号特征参数提取,对训练语音及待识别语音进行特征参数提取,分别提取出梅尔倒谱系数和基音周期;
S4、语音信号模型训练,对所采样的训练语音通过最大似然概率估计法得到高斯混合模型的均值、协方差矩阵和加权系数,记录得到的数据,保存相对应的高斯混合模型;
S5、待识别语音信号匹配识别,先运用动态时间规整法匹配识别待识别语音,再运用高斯混合模型来匹配识别待识别语音,得出识别结果,包括如下步骤:
S51、动态时间规整法匹配识别,以从待识别语音中提取出的基音周期作为x轴、训练语音的基音周期作为y轴,将规整函数局限在一个平行四边形内,将平行四边形其中一条边的斜率设定为2、另一条边的斜率被设定为0.5,分别将训练语音和待识别语音的头部相对齐、尾部相对齐,以点(1,1)为起点开始行进,所经历的路线必须为0或1或2,最终到达终点,计算得出行进距离,将行进距离数据进行从小到大排序,筛选出位于前30%的训练语音作为训练模板;
S52、高斯混合模型匹配识别,将待识别语音中每一帧的梅尔倒谱系数分别与训练模板进行匹配,通过最大似然概率法得到高斯混合模型的识别结果,最后结合匹配结果得出最终识别结果。
2.根据权利要求1所述的基于DTW和GMM模型的多维特征参数声纹识别方法,其特征在于,所述S2包括如下步骤:
S21、对训练语音和待识别语音进行预加重,预加重表达式为,
S(n)=S1(n)-a*S1(n)
其中,S1(n)表示语音的时域的信号,a表示预加重系数;
S22、对训练语音和待识别语音进行分帧,选择帧长为25ms,帧移为10ms,采样点个数为25;
S23、对训练语音和待识别语音进行加窗,将分得的每一帧都乘上窗函数,窗函数为海明窗,窗函数表达式为,
Figure FDA0004164404450000021
其中,N为分帧后的取样个数,a’表示海明窗系数;
S24、对训练语音和待识别语音进行端点检测,去除语音信号中的无声部分,采用双门限法分别计算出语音信号的短时平均能量和短时平均过零率,通过设置阈值来去除无声部分,
短时平均能量公式为
Figure FDA0004164404450000022
其中,Ei表示第i帧的短时能量,s(n)表示语音的时域信号,w(n)表示加窗函数,h(n)表示单位冲激响应,
短时平均过零率公式如下:
Figure FDA0004164404450000023
Figure FDA0004164404450000024
其中,Zi表示第i帧的短时过零率,w(n)表示加窗函数。
3.根据权利要求1所述的基于DTW和GMM模型的多维特征参数声纹识别方法,其特征在于,所述S3包括如下步骤:
S31、对训练语音及待识别语音进行梅尔倒谱系数提取;
S32、对训练语音及待识别语音进行基音周期提取。
4.根据权利要求3所述的基于DTW和GMM模型的多维特征参数声纹识别方法,其特征在于,所述S31包括如下步骤:
S311、快速傅里叶变换,快速傅里叶变换的公式为,
Figure FDA0004164404450000031
其中,Si为第i个帧的向量,N为分帧后的取样个数;
S312、三角带通滤波,所使用的三角滤波器函数表达式为,
Figure FDA0004164404450000032
其中,f[i]为第i个三角带通滤波的频率中心值,Hi(k)为第i个三角带通滤波的加权系数;
S313、对数变化,将三角带通滤波器处理得到的语音信号进行对数运算;
S314、离散余弦变换,离散余弦变换的表达式为,
Figure FDA0004164404450000033
其中,Si表示为第i个帧向量在频域的成分表,N表示分帧后的取样个数,Ci(n)表示第i个帧的梅尔倒谱系数。
5.根据权利要求3所述的基于DTW和GMM模型的多维特征参数声纹识别方法,其特征在于,所述S32包括如下步骤:
S321、对清音和浊音识别判断,提取出浊音段;
S322、将提取得到的浊音段信号进行中心削波处理,中心削波的表达式为,
Figure FDA0004164404450000041
其中,CL表示削波电平,取最大幅度的53%,x表示中心削波的幅度;
S323、将得到的语音信号进行自相关运算,即计算峰值与原点之间的距离,得到基音周期。
6.根据权利要求1所述的基于DTW和GMM模型的多维特征参数声纹识别方法,其特征在于:所述S4中所述高斯混合模型的表达式为,
Figure FDA0004164404450000042
其中,ωi表示第i个高斯分量的加权系数,Φ表示单一高斯分布函数,μi表示第i个高斯分量的均值,Σi表示第i个高斯分量的方差,τ表示短时语音特征。
CN201810515482.2A 2018-05-25 2018-05-25 基于dtw和gmm模型的多维特征参数声纹识别方法 Active CN108922541B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810515482.2A CN108922541B (zh) 2018-05-25 2018-05-25 基于dtw和gmm模型的多维特征参数声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810515482.2A CN108922541B (zh) 2018-05-25 2018-05-25 基于dtw和gmm模型的多维特征参数声纹识别方法

Publications (2)

Publication Number Publication Date
CN108922541A CN108922541A (zh) 2018-11-30
CN108922541B true CN108922541B (zh) 2023-06-02

Family

ID=64410589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810515482.2A Active CN108922541B (zh) 2018-05-25 2018-05-25 基于dtw和gmm模型的多维特征参数声纹识别方法

Country Status (1)

Country Link
CN (1) CN108922541B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111383658B (zh) * 2018-12-29 2023-06-09 广州市百果园信息技术有限公司 音频信号的对齐方法和装置
CN110428841B (zh) * 2019-07-16 2021-09-28 河海大学 一种基于不定长均值的声纹动态特征提取方法
CN110400565A (zh) * 2019-08-20 2019-11-01 广州国音智能科技有限公司 说话人识别方法、系统及计算机可读存储介质
CN110838296B (zh) * 2019-11-18 2022-04-29 锐迪科微电子科技(上海)有限公司 录音过程的控制方法、系统、电子设备和存储介质
CN111307939A (zh) * 2020-03-16 2020-06-19 吉林省运捷轨道科技开发有限公司 一种利用声纹ai技术识别轨道车辆轮对缺陷的方法
CN111429922A (zh) * 2020-03-27 2020-07-17 佛山科学技术学院 一种基于自适应语音增强的说话人识别方法及装置
CN111681671B (zh) * 2020-05-20 2023-03-10 浙江大华技术股份有限公司 异常音识别方法、装置及计算机存储介质
CN112542174A (zh) * 2020-12-25 2021-03-23 南京邮电大学 基于vad的多维特征参数声纹识别方法
CN113160797B (zh) * 2021-04-25 2023-06-02 北京华捷艾米科技有限公司 音频特征处理方法及装置、存储介质及电子设备
CN113112999B (zh) * 2021-05-28 2022-07-12 宁夏理工学院 基于dtw和gmm的短词句语音识别方法及系统
CN114626039A (zh) * 2022-02-17 2022-06-14 浪潮软件集团有限公司 一种基于国产cpu和操作系统环境的语音识别登陆方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1291324A (zh) * 1997-01-31 2001-04-11 T-内提克斯公司 检测录制声音的系统和方法
CN101540170B (zh) * 2008-03-19 2011-03-30 中国科学院半导体研究所 一种基于仿生模式识别的声纹识别方法
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
CN102509547B (zh) * 2011-12-29 2013-06-19 辽宁工业大学 基于矢量量化的声纹识别方法及系统
CN103236260B (zh) * 2013-03-29 2015-08-12 京东方科技集团股份有限公司 语音识别系统
CN104835498B (zh) * 2015-05-25 2018-12-18 重庆大学 基于多类型组合特征参数的声纹识别方法
US10325601B2 (en) * 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center

Also Published As

Publication number Publication date
CN108922541A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN106935248B (zh) 一种语音相似度检测方法及装置
Dhingra et al. Isolated speech recognition using MFCC and DTW
CN108986824B (zh) 一种回放语音检测方法
CN103617799B (zh) 一种适应于移动设备的英语语句发音质量检测方法
CN101226743A (zh) 基于中性和情感声纹模型转换的说话人识别方法
CN105679312B (zh) 一种噪声环境下声纹识别的语音特征处理方法
CN101923855A (zh) 文本无关的声纹识别系统
Vyas A Gaussian mixture model based speech recognition system using Matlab
CN101136199A (zh) 语音数据处理方法和设备
Das et al. Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统
CN108091340B (zh) 声纹识别方法、声纹识别系统和计算机可读存储介质
Tolba A high-performance text-independent speaker identification of Arabic speakers using a CHMM-based approach
Chauhan et al. Speech to text converter using Gaussian Mixture Model (GMM)
CN110570870A (zh) 一种文本无关的声纹识别方法、装置及设备
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Kaminski et al. Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models
Fauzi et al. The recognition of hijaiyah letter pronunciation using mel frequency cepstral coefficients and hidden markov model
Zhang et al. Speaker recognition based on dynamic time warping and Gaussian mixture model
CN112767961B (zh) 一种基于云端计算的口音矫正方法
CN109003613A (zh) 结合空间信息的声纹识别支付信息防伪方法
Bouziane et al. An open and free speech corpus for speaker recognition: The fscsr speech corpus
Li et al. Voice-based recognition system for non-semantics information by language and gender
CN104240699A (zh) 一种简单有效的短语语音识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant