CN114420091A

CN114420091A - 一种基于dtw算法的语音识别方法

Info

Publication number: CN114420091A
Application number: CN202210102014.9A
Authority: CN
Inventors: 陶亚雄
Original assignee: Chongqing College of Electronic Engineering
Current assignee: Chongqing College of Electronic Engineering
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-04-29

Abstract

本发明属于语音识别的应用领域，尤其涉及一种基于DTW算法的语音识别方法，首先获取测试语音信号，对语音信号进行预处理，预处理过程中，将现有的短时过零率分析改进为：通过将过零的预设门限值改为过T的门限值；测试语音在经过预处理后，通过特征参数提取步骤计算测试语音信号的MFCC值以及将MFCC值进行倒谱提升，获取到测试模板，随后将参考语音信号通过同样的步骤生成参考模板，通过改进的DTW算法计算测试模板和参考模板之间的最小累计距离，输出最小匹配距离结果。本发明通过对语音信号的端点检测进行改进，同时结合改进的DTW算法，以消除端点检测中的误差，提高语音信号的识别速度和准确率。

Description

一种基于DTW算法的语音识别方法

技术领域

本发明属于语音识别的应用领域，尤其涉及一种基于DTW算法的语音识别方法。

背景技术

语言是人与人之间最自然、最重要的交流工具，同时也是人类获取信息的重要途经之一。语音信号处理有四大分支，分别是语音识别、语音合成、语音编码和说话人识别；语音识别就是为了让计算机能“听懂”人类的说话，并将说话内容转换为相关计算机指令，进行计算机控制。语音识别是一门涉及生理学、心理学、声学、语言学、人工智能、信号处理、概率论、计算机科学、模式识别等领域的交叉学科，被认为是新世纪头十年信息技术领域十大重要的科技发展技术之一。最近几年，语音识别技术取得显著进步，开始从实验室研究走向市场应用。

目前，国内外语音识别技术的研究只要集中在非特定人、大词库、连续语音识别系统上，而连续语音识别,语音新特征的提取,高噪声环境下的识别率改善,基于隐马尔科夫模型(HMM，Hidden Markov Models)及人工神经网络(ANN，Artificial Neural Network)等的识别技术则是国内研究的重点。相比之下，进一步提高语音信号识别速度和准确率的研究却不多，尤其是在端点检测时对于端点的起点和终点的精确度要求很高，现有的技术中采用双门限的检测方式进行，双门限为短时平均能量和短时过零率结合的方式，当信噪比较低时，短时过零率的误差是比较大的，因此端点检测往往会不准确，对DTW算法可能会在成不可预知的误差影响。

发明内容

本发明所解决的技术问题在于提供一种基于DTW算法的语音识别方法，通过对语音信号的端点检测进行改进，同时结合改进的DTW算法，以消除端点检测中的误差，提高语音信号的识别速度和准确率。

本发明提供的基础方案：一种基于DTW算法的语音识别方法，包括：

语音信号预处理步骤：对采集到的测试语音信号进行预处理，得到每一帧的时域序列x(n)；所述预处理包括预滤波、预加重、分帧加窗以及端点检测；所述端点检测包括短时平均能量分析和改进短时过零率分析，所述改进短时过零率分析中将预设的门限值T取代零点门限值，统计信号幅度越过±T的次数；

语音信号特征参数提取步骤：将经过预处理得到的每一帧的时域序列x(n)进行快速傅里叶变换后得到线性频谱X(k)；对线性频谱X(k)取模的平方，得到离散功率谱S(n)；根据Mel滤波器组对离散功率谱S(n)进行带通滤波，计算MFCC参数，并根据计算的MFCC参数进行一阶差分和二价差分后再进行半升正弦函数倒谱提升，生成测试语音特征矢量；集合每一帧时域序列x(n)的特征矢量，存入测试模板；

语音识别与分类步骤：将参考语音信号经过语音信号预处理步骤和语音信号特征参数提取步骤后，生成参考模板，利用DTW算法对测试模块和参考模块进行最小累计距离匹配，输出最小匹配距离结果；所述DTW算法中将起点帧放宽2-3帧，终点帧放宽2-3帧。

本发明的原理及优点在于：在现有相关技术中，语音识别技术采用DTW算法进行计算，其中在预处理步骤中，针对端点检测采用双门限的方式进行，双门限检测中的短时过零率分析目前存在当信噪比较低时，误差越大，对于语音识别技术会带来不可预知的误差影响。

因此，为解决现有相关技术中存在的问题，本申请中为首先获取测试语音信号，对语音信号进行预处理，预处理过程中，将现有的短时过零率分析改进为：通过将过零的预设门限值改为过T的门限值，而T则由实际语音信号的情况来设定，使得改进的短时过零率分析在零点附近具有很好的抗干扰性，就算语音信号中夹杂的微小的随机信号干扰，绝对值不大于门限值T，就不会被计算到过零率中，确保了过零率的计算相对准确，消除了虚假过零点，提高了检测精度；测试语音在经过预处理后，通过特征参数提取步骤计算测试语音信号的MFCC值以及将MFCC值进行倒谱提升，获取到测试模板，随后将参考语音信号通过同样的步骤生成参考模板，通过DTW算法计算测试模板和参考模板之间的最小累计距离，而DTW算法中为了进一步消除端点检测带来的误差，将测试模板和参考模板中的起点和终点分别在横轴和纵轴两个方向上各放宽2-3帧，通过结合改进的端点检测和改进的DTW算法，在最大程度上就可以在不影响识别结果的前提下解决端点检测的缺陷问题。

因此，本申请的优点在于，(1)改进的短时过零率分析在零点附近具有很好的抗干扰性，就算语音信号中夹杂的微小的随机信号干扰，绝对值不大于门限值T，就不会被计算到过零率中，确保了过零率的计算相对准确，消除了虚假过零点，提高了检测精度；(2)通过结合改进的端点检测和改进的DTW算法，在最大程度上实现在不影响识别结果的前提下解决端点检测的缺陷问题。

进一步，所述语音信号预处理步骤中端点检测具体为：

预设有效语音段的长度阈值，将经过分帧加窗的测试语音信号的起始帧和结束帧进行短时平均能量分析，生成分析结果，并根据改进短时过零率分析进行分析结果的修正，判断修正后的分析结果是否超过有效语音段的长度阈值，若是，则标记有效语音段；若否，则结束该帧语音信号。

有益效果：通过两次判断，第一次使用短时平均能量，在此基础上，第二次根据短时过零率判断，修正第一次结果，最后判断有效语音段的长度是否超过阈值，从而确定起始点和结束点，能够实现端点检测的目的。

进一步，所述短时平均能量分析的计算公式为：

其中，N表示窗长度，R_i(n)表示第i帧语音信号的第n个值；

所述改进短时过零率的计算公式为：

其中S_W(n)表示经分帧加窗后的语音信号，sgn(x)是符号函数，表达式为：

T为预设的门限值，用于取代零点门限值。

有益效果：以能量为主，过零率为辅，两者结合作为判断依据，可以有效地减少气音对端点检测的影响，而当信噪比较低时，通过设定门限值T替换过零的门限值，从而使得语音信号中夹杂的微小的随机信号干扰，绝对值只要不大于门限值T，就不会被计算到过零率中，确保了过零率的计算相对准确，消除了虚假过零点，提高了检测精度。

进一步，所述语音信号特征参数提取步骤中计算MFCC参数具体为：

S1：将采集到的测试语音信号经过预处理步骤后，得到每一帧的时域序列x(n)，将x(n)进行快速傅里叶变换后得到线性频谱X(k)，线性频谱X(k)的计算公式为：

S2：对线性频谱X(k)取模的平方，得到离散功率谱S(n)；

S3：构建一组Mel带通滤波器H_m(k)，对离散功率谱S(n)进行带通滤波，带通滤波器H_m(k)的计算公式为：

其中，f(m)为Mel滤波器H_m(k)的中心频率，m＝1，2…，M，M为滤波器个数；

S4：计算每个滤波器组输出的对数能量值L(m)，计算公式为：

S5：对数能量值L(m)经过离散余弦变换后得到MFCC系数，计算公式为：

有益效果：通过Mel频率倒谱系数来进行语音信号特征参数提取，具有很好的抗干扰性能。

进一步，所述语音识别与分类步骤中，所述DTW算法中将起点帧放宽2-3帧，终点帧放宽2-3帧具体为：

将参考模板和测试模块中的起点帧和终点帧分别在横轴方向和纵轴方向上各子放宽2-3帧。

有益效果：DTW算法对端点检测的精确度要求非常高，针对端点检测中的短时过零率进行改进后，在结合DTW算法的中将参考模板和测试模块中的起点帧和终点帧分别在横轴方向和纵轴方向上各子放宽2-3帧，就可以在不影响识别结果的前提下解决端点检测缺陷问题。

附图说明

图1为本发明实施例一的流程框图；

图2为本发明实施例一的双门限端点检测的主程序流程图；

图3为本发明实施例一中MFCC特征矢量提取流程图；

图4为本发明实施例一的DTW算法示意图；

图5为本发明实施例一的DTW连续条件示意图；

图6为本发明实施例二的车载语音控制系统的实现步骤流程框图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例一：

实施例一基本如附图1所示：一种基于DTW算法的语音识别方法，包括：

语音信号预处理步骤：对采集到的测试语音信号进行预处理，得到每一帧的时域序列x(n)。

其中，预处理包括预滤波、预加重、分帧加窗以及端点检测；在本实施例中，采用数字滤波方法，通过一个五阶巴特沃斯带通滤波器，其通频带范围为370Hz-3.4kHz。

预加重处理通过一个一阶高通滤波器来实现，滤波器的传递函数为：

H(z)＝1-μz^-1

其中，μ是提升系数，取值区间为[0.90,0.97]，本实施例中选择0.97，滤波器的时域表达式为：

y(n)＝x(n)-μx(n-1)

其中x(n)是测试语音信号序列，y(n)为预提升后的语音信号序列；经过预加重提升后，测试语音信号中的低频干扰得到抑制，改善了高频部分，使得高频信号得到增强。

分帧加窗为了实现处理非平稳信号的平稳化过程，具体为，设定测试语音信号序列为x(m)，将x(m)乘以一个矩形窗函数w(n-m)，并在处理每一帧语音信号时对语音信号进行线性变换或者非线性变换，变换公式如下：

其中，T为某种线性或者非线性变换，本实施例中采用线性变换，x(m)为输入的测试语音信号序列，Q_n为输出处理后的每帧语音信号序列；此外，在本实施例中采用汉明窗进行处理。

端点检测包括短时平均能量分析以及改进短时过零率分析，其中，短时平均能量分析的计算公式为：

其中，N表示窗长度，R_i(n)表示第i帧语音信号的第n个值；

所述改进短时过零率的计算公式为：

T为预设的门限值，用于取代零点门限值。

端点检测的方式为，如图2所示：预设有效语音段的长度阈值，将经过分帧加窗的测试语音信号的起始帧和结束帧进行短时平均能量分析，生成分析结果，并根据改进短时过零率分析进行分析结果的修正，判断修正后的分析结果是否是否超过有效语音段的长度阈值，若是，则标记有效语音段；若否，则结束识别该帧语音信号。

语音信号特征参数提取步骤：将经过预处理得到的每一帧的时域序列x(n)进行快速傅里叶变换后得到线性频谱X(k)；对线性频谱X(k)取模的平方，得到离散功率谱S(n)；根据Mel滤波器组对离散功率谱S(n)进行带通滤波，计算MFCC参数，并根据计算的MFCC参数进行一阶差分和二价差分后再进行半升正弦函数倒谱提升，生成测试语音特征矢量；集合每一帧时域序列x(n)的特征矢量，存入测试模板。

在本实施例中，如图3所示，语音信号特征参数提取步骤具体为：

S2：对线性频谱x(k)取模的平方，得到离散功率谱S(n)；

其中，f(m)为Mel滤波器H_m(k)的中心频率，m＝1，2…，M，M为滤波器个数，在本实施例中，M＝24，m较小的时候f(m)相邻之间的间隔也较小；m较大的时候f(m)相邻之间的间隔逐渐变大；

Mel滤波器组的频带划分如下表所示：

S4：计算每个滤波器组输出的对数能量值L(m)，计算公式为：

此外，根据计算的MFCC参数进行一阶差分和二价差分后再进行半升正弦函数倒谱提升具体为，采用一阶差分和二价差分时的差分参数计算公式如下：

其中，C是MFCC参数，D是一阶差分MFCC参数，k通常取2，表示当前帧的前两帧和后两帧的线性组合为差分参数。将一阶差分参数再做一次差分就可以得到二阶差分参数。

另外，并不是每个特征参数都对识别起着相同的作用。高阶MFCC分量比低阶MFCC分量具有更好的抗干扰性。所以利用半升正弦函数对MFCC参数进行倒谱提升，减少容易受到噪声干扰的低阶分量影响；半升正弦函数的计算公式为：

r_i＝0.5+0.5sin(πi/k)

在本实施例中，通过端点检测确定了测试语音信号的起点和终点，在此，假设参考模板为{R₁,R₂,…R_m…,R_M}，共M帧；测试语音为{T₁,T₂,…T_n…,T_N}，共N帧。由于M≠N，DTW算法通过寻找一个时间规整函数m＝w(n)，使得测试语音的时间轴n通过非线性变换函数w映射到参考模板的时间轴m，并使得该函数满足以下公式：

其中，d[T_n,R_w(n)]是第n帧测试语音特征矢量与第m帧参考模板特征矢量之间的距离。D就是处于最优时间规整情况下两矢量的累积距离。由于DTW不断地计算两矢量的距离以寻找最优的匹配路径，所以得到的是两矢量匹配时累积距离最小所对应的规整函数，这就保证了它们之间存在的最大声学相似性。

如图4和图5所示，为DTW算法的示意图以及连续条件，那么，当规整函数w(n)满足边界条件和连续条件的时候，w(n)被约束在一个平行四边形内。这样做的目的是基于两个前提考虑的。第一，虽然语音发音快慢，时间长短会有变化，但是表达内容的前后顺序不会颠倒，因此路径必然是从左下角出发，在右上角终止。第二，为了防止盲目搜索，减少计算量，一般限制平行四边形的斜率，通常最大斜率为2，最小斜率为1/2。这样，动态时间规整问题就简化为：从初始位置(1,1)沿着一条使得两个特征参数模板匹配时累积距离D最小的路线到达终止位置(N,M)。

其中，基本的DTW算法对端点检测非常敏感，它要求进行比较的两个模板起点和终点分别对应，并且对端点检测的精度要求很高，在背景噪声较大或者语音中存在摩擦音时，端点检测往往不会非常精准，端点检测结果可能会对动态规整造成不可预知的误差，因此需要将边界约束条件放宽，在本实施例中，通过将起点和终点分别在横轴和纵轴两个方向上各放宽2-3帧，即起点(1,1)、(1,2)、(1,3)、(2,1)、(3,1)处，终点类推，就可以在不影响识别结果的前提下解决端点检测缺陷问题，如图所示为DTW算法的流程图。

如图所示为DTW算法的流程图，本实施例中结合流程图和针对实验采集了十位实验者的语音数据，五位男性实验者，五位女实验者，受试者没有发音障碍，不对受试者口音限制。每位实验者根据屏幕提示分别朗读“开窗户”、“关窗户”、“开空调”、“关空调”、“开音乐”、“关音乐”这六个词语，每个词语重复10遍，采集卡每次记录1.2s的语音数据，采样率为8000Hz。为了减少偶然性，奇数次朗读作为训练集，偶数次朗读作为测试集。整个实验在白天普通实验室环境下进行。为保证实验效果，正式实验前，受试者进行10分钟的熟悉和练习。实验结果如下：

实验结果表明，对于每个实验者而言，识别准确率都超过95％，识别率高，效果好。男性实验组和女性实验组没有统计学差异，说明DTW语音识别算法不会因为性别不同影响性能。

实施例二：

如图6所示，实施例二与实施例一的不同之处在于，实施例二中，还包括：

根据DTW算法对语音信号进行识别，生成车载语音控制系统，其中，车载语音控制系统实现的步骤包括：

S1：采集成人、儿童以及动物类语音信号，经过DTW算法语音信号识别，生成成人语音类别、儿童语音类别以及动物语音类别；

S2：获取车载摄像头权限，结合车内视频和语音信号，生成语音识别权限以及警报控制权限；其中，语音识别权限具体为，若车内视频中出现儿童及成人，则车载语音系统只对成人开放语音控制权限，即“开窗户”、“关窗户”、“开空调”、“关空调”、“开音乐”、“关音乐”等孤立词汇的控制权限只对成人开放，儿童不能通过语音来进行车载控制，避免儿童误操作引起车主开车的注意力，避免造成危害。

同时，警报控制权限具体为，若动物语音识别类别中出现宠物一类的语音信号，例如狗、猫等，结合车载视频比对车上人员与动物之间的接触关系，则不会引发警报提醒；若语音信号出现动物语音类别，结合车载视频发现无人员在车上，则车载语音系统控制车载警报发出警报提醒；通过动物语音类别和车载视频的结合，避免蛇鼠类动物误入车内，对车上人员造成伤害。其中，警报提醒在本实施例中可以为短信提醒。

以上的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。