CN107039037A - 一种基于dtw的孤立词语音识别方法 - Google Patents

一种基于dtw的孤立词语音识别方法 Download PDF

Info

Publication number
CN107039037A
CN107039037A CN201710264774.9A CN201710264774A CN107039037A CN 107039037 A CN107039037 A CN 107039037A CN 201710264774 A CN201710264774 A CN 201710264774A CN 107039037 A CN107039037 A CN 107039037A
Authority
CN
China
Prior art keywords
template
vector
frame
training
speech characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710264774.9A
Other languages
English (en)
Inventor
邓立新
周炳良
洪民江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201710264774.9A priority Critical patent/CN107039037A/zh
Publication of CN107039037A publication Critical patent/CN107039037A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于DTW的孤立词语音识别方法,该方法通过截取测试语音特征矢量起始部分长度与库模板矢量进行最优路径匹配,并且匹配后只保留失真度较小的部分库模板矢量继续进行下一次最优路径匹配,如此反复截取待测语音特征矢量的起始不同部分进行匹配与模板矢量保留,直至保留模板矢量唯一。这种算法的实现,在保证识别精度较高的情况下,能大幅减少孤立词语音识别系统的计算开销,有效提高孤立词语音识别系统的识别效率。

Description

一种基于DTW的孤立词语音识别方法
技术领域
本发明属于语音识别技术领域,特别是涉及一种基于DTW的孤立词语音识别 方法。
背景技术
语音识别即让机器接收、识别和理解语音信号,能够“听懂”会话中的语 音语义并执行人类意图。常用的识别方法包括动态时间规整(DTW)、隐马尔科夫 模型(HMM)和人工神经网络(ANN)等。在孤立词语音识别中,动态时间规整是最简 单有效的方法。DTW算法基于动态规划(DP)的思想,能够较好地解决孤立词识别 时说话速度不均匀的难题。相较于传统的语音线性伸缩匹配的方法,DTW方法有 效的提高了孤立词语音识别系统的识别率,因此在特定场合下获得较好的应用。
近年来,为了提高孤立词语音识别系统的效率,使其广泛地适用于市场和各 类服务领域,科研人员提出了许多基于DTW的改进型语音识别算法,经典的主要 有3种:基于音节个数的高效DTW算法、改变局部路径限制的DTW算法以及增设参 考模板阈值的DTW算法。
(1)基于音节个数的高效DTW算法,该算法利用双门限检测法预先检测出语音 信号中的音节个数,并将其只与含有相同音节个数的训练模板进行最优匹配,减 少了系统的计算开销,提高了系统的识别效率。但该算法对双门限阈值精度要求 很高,一旦阈值设置不准确,系统识别效率将大幅降低。
(2)改变局部路径限制的DTW算法,该算法改善了局部路径节点前进的范围, 有利于解决测试语音特征矢量与模板矢量均匀变化剧烈的匹配问题,加快了两矢 量匹配的过程。但该算法增加了系统局部路径搜索的复杂度和内存消耗,且不利 于解决两矢量均匀变化平缓的匹配过程。
(3)增设参考模板阈值的DTW算法,该算法在进行测试语音特征矢量与模板矢 量匹配时,一旦计算出部分失真度大于预先增设的模板阈值,将终止对该模板继 续运算,转入对其他模板继续匹配运算。由于是中途停止对模板的匹配运算,因 此可以节省部分计算开销,提高了系统的识别效率。但该算法必须要为每一个模 板预先找到一个合理的阈值,否则将无法减少系统的运算量,甚至大幅度降低系 统的识别率。
发明内容
本发明的目的在于解决上述现有技术的不足,提出一种基于DTW的孤立词语 音识别方法,该方法通过提取测试语音信号的特征参数并截取测试语音特征矢量 起始部分长度与库模板矢量进行最优路径匹配,并且匹配后只保留失真度较小的 部分库模板矢量继续进行下一次最优路径匹配,如此反复截取测试语音特征矢量 的起始不同部分进行匹配与模板矢量保留,直至保留模板矢量唯一。
本发明的目的可以通过以下技术方法实现:
该方法基于传统的语音训练模式,改进了语音识别阶段,先提取出测试语音 信号的特征参数并截取测试语音特征矢量的起始部分长度,并从起点开始搜索它 们与各个模板矢量的最优匹配路径,采用松弛端点检测的方法找到最优匹配路径 的止点并求出各自的最小累积距离D,即找出各模板矢量与截取语音特征矢量匹 配度最大的起始部分长度并求出相应的D,然后选择D相对较小的部分模板保留下 来,排除掉D相对较大的模板。如此循环采用这种方法对剩余的模板进行部分长 度匹配和排除,直至剩余模板数量唯一。
有益效果
本发明仅截取部分测试语音特征矢量与所有模板进行最优路径匹配,便排除 了大量的不可能模板。相较于传统的利用全部语音特征矢量与模板进行最优路径 匹配,前者在保证了识别精度基本不变的情况下,大幅度减少了识别系统的运算 量,有效提高了系统的识别效率。同时对比于上述第三种改进算法,本发明避免 了预先设置模板阈值的问题,减少了系统的额外工作量。
附图说明
图1是本发明的语音识别流程图。
图2是本发明语音特征矢量起始部分截取方式示意图。
图3是本发明最优匹配路径的全局限制示意图。
图4是本发明最优匹配路径的局部限制示意图。
具体实施方式
下面结合附图对本发明创造作进一步的详细说明。
如图1所示,本发明是一种基于DTW孤立词语音识别方法的研究。其基于传统 的语音训练模式,针对语音识别阶段加以改进,包括3个部分:语音信号预处理、 特征参数提取和语音识别,下面将具体描述改进的识别阶段内容。
本发明识别阶段具体实施步骤包括如下:
1.语音信号预处理
语音信号预处理目的是分析处理输入的语音信号,并将其转化为语音预处理 信号,其主要包括预加重、分帧加窗和端点检测3个部分内容。
(1)预加重
由于人体发音系统的抑制(口唇辐射和声带影响等),导致语音信号的频谱 呈升余弦滚降衰落,高频分量的值通常远小于低频分量,为了增加语音信号高频 分辨率和突出高频部分的共振峰,我们对语音信号预加重。将输入的语音测试信 号通过一个高通滤波器,系统函数为:H(z)=1-uz-1,其中u为预加重系数, 介于0.9-1之间,一般u=0.93。
(2)分帧加窗
由于语音信号是慢时变信号,具有短时平稳性,可以认为语音信号在一段时 间(一般10ms-30ms)内参数模型近似不变。这样,可以把语音信号分成一些短 时段(分帧)来分析,一般1秒的帧数约为33-100帧。同时为了使相邻帧之间平 滑过渡,保持连续性,因此会让相邻帧之间有一段重叠区域,这个重叠区域称之 为帧移,通常帧移与帧长的比值取1/3-1/2之间。最后将每一帧信号乘以汉明窗, 这样可以确保每一帧信号具有平滑性,反应出每一帧信号的包络和能量变化。
其中汉明窗表达式为:
式中a为汉明窗系数,通常取值0.46。
(3)端点检测
端点检测主要目的是从已分帧的语音信号中准确的检测语音信号的起止帧, 排除掉无声段干扰,从而提高语音识别的精度。本发明中使用语音信号的2个时 域特征区别语音段和无声段,分别为:短时平均能量和过零率。其中短时平均能 量的定义表示为:其中x(n)为输入语音信号,w(n) 为汉明窗函数;过零率的定义表达式为:
其中x(n)为输入语音信号。由于当帧信号的短时平均能量较大,过零率较小或短时平均能量较小,过零率较大时,可以认为该帧信号 为语音帧,否则为无声段信号。因此本发明中预先设置短时平均能量和过零率阈 值,并将语音帧信号的短时平均能量和过零率求出与阈值作比较,从而判断该帧 是否为语音段。
2.特征参数提取
根据人耳的听觉机理,人耳对不同频率的声波有不同的听觉敏感度。对于人 耳而言,一般低音容易掩蔽高音,而高音掩蔽低音较困难,在低频处的声音掩蔽 的临界带宽较高频要小。为了符合人耳的听觉特性,本发明中采用梅尔倒谱系数 (MFCC)来描述人耳的非线性特性。下面具体描述MFCC的提取步骤:
(1)对语音预处理信号的各帧信号进行FFT得到各帧的频谱,并对语音信号的 频谱取模平方得到语音信号的功率谱。
(2)将能量谱通过一组Mel三角形滤波器组,其中滤波器的个数一般取22-26, 滤波器组的中心频率按Mel频率均匀排列,每个滤波器的底角为相邻滤波器的 中心频率。Mel频率与频率的近似关系式:其中f 为频率。
(3)计算每个滤波器组输出的对数能量,通过离散余弦变换(DCT)得到MFCC 特征矢量。
3.语音识别
(1)将语音训练模板存入内存,总数记为c,同时进行语音识别预设工作:设 置测试语音特征矢量的截取方式,包括截取次数m和各次截取长度a1,a2… am(百分比),其中每次截取时都是从起点开始,且截取比例a1,a2…am逐次增加如图2所示;设置各次最优路径匹配后训练模板的保留个数 b1,b2…bm-1(百分比且最后一次取一个模板,bm可忽略),其中保留比例 b1,b2…bm-1逐次减小。
(2)利用测试语音特征矢量与训练模板矢量最优匹配路径的全局限制条件, 排除部分训练模板,保留满足条件的训练模板。条件公式如下: 其中N为测试语音特征矢量长度,M为训练模板矢量长度
(3)设某一保留训练模板矢量与测试语音特征矢量的帧匹配失真度矩阵为d 和累积失真度矩阵为D=Realmax,其中d和D的大小均为N*M且横向表示测 试语音帧,纵向表示训练模板帧。计算训练模板矢量第一帧与测试语音 特征矢量第一帧的帧失真度(欧式距离),并保存到d(1,1)和D(1,1)中。 同理,计算所有保留训练模板矢量第一帧与测试语音特征矢量第一帧的 帧失真度(欧式距离),并分别保存到各自的帧失真度矩阵与累积失真 度矩阵相同的位置。
(4)搜索出训练模板矢量中与测试语音特征矢量第s-f帧相交的且在图3平行 四边形之内的训练模板矢量帧,其中(四舍五入取整), n为截取迭代次数,初值n=1且a0=0。
(5)计算搜索到的训练模板矢量帧与测试语音s~f帧的帧失真度(欧式距离), 并利用如下公式递推帧之间的累积失真度,分别保存到d与D相应的位置, 其中累积失真度公式满足2步局部路径限制。累积失真度公式:
D(x,y)=d(T(x),R(y))+min{D(x-1,y),D(x-1,y-1),D(x-1,y-2)},其中T(x) 为测试语音特征矢量第x帧,R(y)为训练模板矢量第y帧。
(6)搜索累积失真度矩阵f列中最小的值,记为该训练模板矢量与测试语音特 征矢量部分匹配失真度Dmin。
(7)利用步骤4-6,计算并搜索出测试语音特征矢量与所有保留训练模板矢量 的部分匹配失真度Dmin。将所有训练模板矢量按照得到的Dmin进行从小 到大排序,保留排序前c*bn(四舍五入取整)个模板。
(8)判决c*bn>1?
若是,则转入步骤9执行;
若否,则转入步骤10执行。
(9)步骤9:检测n<m?
若是,则截取迭代次数n=n+1,转入步骤4执行;
若否,则转入步骤10执行。
(10)将步骤7中已排序的训练模板矢量中的第一个训练模板矢量表示的 语音判决为测试语音,结束。
本发明不局限于以上实例,不以任何方式限制本发明,凡在不背离本发明原 则的范围内,任何根据以上实例修改、等同替换所得到的技术方案,均应包含在 本发明的保护权利范围内。

Claims (2)

1.一种基于DTW的孤立词语音识别方法,基于传统的语音训练模式,改进了语音识别阶段,其特征在于,先截取测试语音特征矢量的起始部分长度,并从起点开始搜索它们与各个模板矢量的最优匹配路径,采用松弛端点检测的方法找到最优匹配路径的止点并求出各自的最小累积距离D,即找出各模板矢量与截取语音特征矢量匹配度最大的起始部分长度并求出相应的D,然后选择D相对较小的部分模板保留下来,排除掉D相对较大的模板;如此循环采用这种方法对剩余的模板进行部分长度匹配和排除,直至剩余模板数量唯一。
2.如权要求1所述的方法,其特征在于,识别阶段具体步骤如下:
步骤1:将通过训练得到语音训练模板存入内存,总数记为c,同时进行识别阶段预设工作,设置测试语音特征矢量的截取方式,包括截取次数m和各次截取长度a1,a2…am即百分比;设置各次最优路径匹配后训练模板的保留个数b1,b2…bm-1,百分比且最后一次取一个模板,bm可忽略;
步骤2:利用测试语音特征矢量与训练模板矢量最优匹配路径的全局限制条件,排除部分训练模板,保留满足条件的训练模板;条件公式如下:
其中N为测试语音特征矢量长度,M为训练模板矢量长度;
步骤3:记保存测试语音特征矢量与某一保留训练模板矢量帧匹配失真度矩阵为d和累积失真度矩阵为D=Realmax,其中d和D的大小均为N*M且横向表示测试语音帧,纵向表示训练模板帧。计算测试语音特征矢量第一帧与上述训练模板矢量第一帧的帧失真度,并保存到d(1,1)和D(1,1)中;同理,计算测试语音特征矢量第一帧与所有保留训练模板矢量第一帧的帧失真度,并分别保存到各自的帧失真度矩阵d与累积失真度矩阵D相同的位置;
步骤4:满足图4全局路径限制,搜索出训练模板矢量中与测试语音特征矢量第s-f帧相交的帧,其中四舍五入取整,n为截取迭代次数,初值n=1且a0=0;
步骤5:计算搜索到的相交帧的帧失真度,并利用如下公式递推相交帧的累积失真度,分别保存到d与D相应的位置,其中累积失真度公式满足图5的局部路径限制方式;累积失真度公式:
D(x,y)=d(T(x),R(y))+min{D(x-1,y),D(x-1,y-1),D(x-1,y-2)}
其中T(x)为测试语音特征矢量第x帧,R(y)为训练模板矢量第y帧;
步骤6:搜索累积失真度矩阵f列中最小的值,记为该训练模板矢量与测试语音特征矢量部分匹配失真度Dmin;
步骤7:利用步骤4~6,计算并搜索出测试语音特征矢量与所有保留训练模板矢量的部分匹配失真度Dmin。将所有训练模板矢量按照得到的Dmin进行从小到大排序,保留排序前c*bn个模板,,四舍五入取整;
步骤8:判决c*bn>1?
若是,则转入步骤9执行;
若否,则转入步骤10执行;
步骤9:检测n<m?
若是,则截取迭代次数n=n+1,转入步骤4执行;
若否,则转入步骤10执行;
步骤10:将步骤7中已排序的训练模板矢量中的第一个训练模板矢量表示的语音判决为测试语音,结束。
CN201710264774.9A 2017-04-21 2017-04-21 一种基于dtw的孤立词语音识别方法 Pending CN107039037A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710264774.9A CN107039037A (zh) 2017-04-21 2017-04-21 一种基于dtw的孤立词语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710264774.9A CN107039037A (zh) 2017-04-21 2017-04-21 一种基于dtw的孤立词语音识别方法

Publications (1)

Publication Number Publication Date
CN107039037A true CN107039037A (zh) 2017-08-11

Family

ID=59535144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710264774.9A Pending CN107039037A (zh) 2017-04-21 2017-04-21 一种基于dtw的孤立词语音识别方法

Country Status (1)

Country Link
CN (1) CN107039037A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108320750A (zh) * 2018-01-23 2018-07-24 东南大学—无锡集成电路技术研究所 一种基于改进型动态时间规整语音识别算法的实现方法
CN110610695A (zh) * 2018-05-28 2019-12-24 宁波方太厨具有限公司 一种基于孤立词的语音识别方法及应用有该方法的吸油烟机
CN110890086A (zh) * 2018-08-17 2020-03-17 北京嘉楠捷思信息技术有限公司 一种基于贪心算法的语音相似度计算方法和装置
CN112017641A (zh) * 2019-05-28 2020-12-01 中移(苏州)软件技术有限公司 一种语音处理方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002021513A1 (en) * 2000-09-08 2002-03-14 Qualcomm Incorporated Combining dtw and hmm in speaker dependent and independent modes for speech recognition
CN101114449A (zh) * 2006-07-26 2008-01-30 大连三曦智能科技有限公司 非特定人孤立词的模型训练方法、识别系统及识别方法
CN102354496A (zh) * 2011-07-01 2012-02-15 中山大学 一种基于psm变调的语音识别及其还原方法及其装置
CN102982803A (zh) * 2012-12-11 2013-03-20 华南师范大学 基于hrsf及改进dtw算法的孤立词语音识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002021513A1 (en) * 2000-09-08 2002-03-14 Qualcomm Incorporated Combining dtw and hmm in speaker dependent and independent modes for speech recognition
CN101114449A (zh) * 2006-07-26 2008-01-30 大连三曦智能科技有限公司 非特定人孤立词的模型训练方法、识别系统及识别方法
CN102354496A (zh) * 2011-07-01 2012-02-15 中山大学 一种基于psm变调的语音识别及其还原方法及其装置
CN102982803A (zh) * 2012-12-11 2013-03-20 华南师范大学 基于hrsf及改进dtw算法的孤立词语音识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐利军: "基于DTW的孤立词语音识别研究", 《软件导刊》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108320750A (zh) * 2018-01-23 2018-07-24 东南大学—无锡集成电路技术研究所 一种基于改进型动态时间规整语音识别算法的实现方法
CN110610695A (zh) * 2018-05-28 2019-12-24 宁波方太厨具有限公司 一种基于孤立词的语音识别方法及应用有该方法的吸油烟机
CN110610695B (zh) * 2018-05-28 2022-05-17 宁波方太厨具有限公司 一种基于孤立词的语音识别方法及应用有该方法的吸油烟机
CN110890086A (zh) * 2018-08-17 2020-03-17 北京嘉楠捷思信息技术有限公司 一种基于贪心算法的语音相似度计算方法和装置
CN110890086B (zh) * 2018-08-17 2023-12-26 嘉楠明芯(北京)科技有限公司 一种基于贪心算法的语音相似度计算方法和装置
CN112017641A (zh) * 2019-05-28 2020-12-01 中移(苏州)软件技术有限公司 一种语音处理方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN105118502B (zh) 语音识别系统的端点检测方法及系统
US10424289B2 (en) Speech recognition system using machine learning to classify phone posterior context information and estimate boundaries in speech from combined boundary posteriors
US9123342B2 (en) Method of recognizing gender or age of a speaker according to speech emotion or arousal
US9251783B2 (en) Speech syllable/vowel/phone boundary detection using auditory attention cues
CN104091603B (zh) 基于基频的端点检测系统及其计算方法
CN110232933B (zh) 音频检测方法、装置、存储介质及电子设备
CN107039037A (zh) 一种基于dtw的孤立词语音识别方法
Ma et al. Exploiting correlogram structure for robust speech recognition with multiple speech sources
WO2023283823A1 (zh) 语音对抗样本检测方法、装置、设备及计算机可读存储介质
WO2018095167A1 (zh) 声纹识别方法和声纹识别系统
CN108335699A (zh) 一种基于动态时间规整和语音活动检测的声纹识别方法
Von Zeddelmann et al. Perceptual audio features for unsupervised key-phrase detection
Yan et al. Rich context modeling for high quality HMM-based TTS
CN110379438A (zh) 一种语音信号基频检测与提取方法及系统
CN110265049A (zh) 一种语音识别方法及语音识别系统
Thirumuru et al. Application of non-negative frequency-weighted energy operator for vowel region detection
Shankar et al. Weakly Supervised Syllable Segmentation by Vowel-Consonant Peak Classification.
Sas et al. Gender recognition using neural networks and ASR techniques
Laleye et al. Automatic text-independent syllable segmentation using singularity exponents and rényi entropy
Laleye et al. An algorithm based on fuzzy logic for text-independent fongbe speech segmentation
Chaudhary Short-term spectral feature extraction and their fusion in text independent speaker recognition: A review
CN114678040B (zh) 语音一致性检测方法、装置、设备及存储介质
Pawar et al. Analysis of FFSR, VFSR, MFSR techniques for feature extraction in speaker recognition: a review
Fahad et al. Emotion recognition from spontaneous speech using emotional vowel-like regions
Kobayashi et al. Estimated relative vocal tract lengths from vowel spectra based on fundamental frequency adaptive analyses and their relations to relevant physical data of speakers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170811

WD01 Invention patent application deemed withdrawn after publication