CN114387952A

CN114387952A - 一种车载语音识别方法、系统、装置及存储介质

Info

Publication number: CN114387952A
Application number: CN202210067890.2A
Authority: CN
Inventors: 张慧敏
Original assignee: Chongqing College of Electronic Engineering
Current assignee: Chongqing College of Electronic Engineering
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-04-22

Abstract

本发明涉及语音识别技术领域，尤其是一种车载语音识别方法、系统、装置及存储介质，所述方法包括以下步骤：S100，采集语音信号；S200，对采集的语音信号进行预处理，生成有效语音段；S300，对有效语音段进行特征参数提取，生成测试模板；S400，利用DTW算法将测试模板和预存的参考模板进行比对，并生成比对结果；S500，根据比对结果，生成识别结果。采用本方案，能够对语音信号中的有效语音段进行识别，提升孤立词识别效率及准确率。

Description

一种车载语音识别方法、系统、装置及存储介质

技术领域

本发明涉及语音识别技术领域，特别涉及一种车载语音识别方法、系统、装置及存储介质。

背景技术

语言是人与人之间最自然、最重要的交流工具，同时也是人类获取信息的重要途径之一。语音识别是下一代人机交互的核心技术之一，也是机器智能化、人性化的重要技术基础。能够让机器按照人的语音指令进行各项操作，甚至与人交流，这在实际应用中具有极其重要的意义。通过语音识别技术可以使得原先规模冗余，形式复杂的多层输入操作变得简单便捷，并且使用者不需要进行专门的专业操作培训，就能够掌握设备使用方法。

目前，国内外在语音识别技术中，关于孤立词识别速度与识别准确率的研究较少，这也使得孤立词识别算法在实际生活生产中没有取得理想应用。研究特定环境下的小词汇量识别，可以将语音识别技术应用于车载系统，帮助驾驶人实现开关空调、启动雨刷、升降窗户等工作，使得驾驶人专心于驾驶。还可以应用于手术室的医疗设备上。由于手术人员在进行手术操作时，不方便按下各种仪器设备的开关，利用语音识别功能，将帮助他们在无接触条件下完成各种仪器设备的操作。另外，对于智能轮椅，语音识别技术也是有非常大帮助的。因此，亟需研究一种具有实际应用意义的语音识别方法，能够对语音信号中的有效语音段进行识别，从而提升孤立词识别效率及准确率。

发明内容

本发明提供了一种车载语音识别方法、系统、装置及存储介质，能够对语音信号中的有效语音段进行识别，提升孤立词识别效率及准确率。

本发明提供的基础方案：

一种车载语音识别方法，包括以下步骤：

S100，采集语音信号；

S200，对采集的语音信号进行预处理，生成有效语音段；

S300，对有效语音段进行特征参数提取，生成测试模板；

S400，利用DTW算法将测试模板和预存的参考模板进行比对，并生成比对结果；

S500，根据比对结果，生成识别结果。

本发明的原理及优点在于：对采集的语音信号进行预处理，生成有效语音段，便于后续的语音识别。对于孤立词、小词汇量进行识别时，其起始点的精准定位尤为重要，由于有效的语音信号本身就较短，故起点稍许靠前或终点稍许靠后，无效语音信号在整体语音信号中的占比就会很高，从而对语音识别准确性造成较大的影响，故本方案在采集到语音信号后，首先对其进行预处理，生成有效语音段，减少杂音对于语音识别带来的影响，减少待识别语音信号量后，也能够减少特征参数提取时的工作量，提升语音识别效率。综上，采用本方案，能够提升语音识别效率及语音识别准确性。

进一步，所述预处理包括滤波处理，S200包括：

S201，获取采集的语音信号；

S202，对语音信号进行滤波处理，生成一级处理语音信号；所述滤波处理采用巴特沃斯带通滤波器。

有益效果：对语音信号进行滤波处理，减少杂音对于特征参数提取的影响。具体的，采用巴特沃斯带通滤波器进行滤波处理，巴特沃斯滤波器的振幅对角频率单调下降，并且也是唯一的无论阶数、振幅对角频率曲线都保持同样的形状的滤波器。

进一步，所述预处理还包括预加重处理，S200还包括：

S203，对一级处理语音信号进行预加重处理，生成二级处理语音信号；所述二级处理语音信号的计算公式如下：

y(n)＝x(n)-μx(n-1),μ＝0.97

式中，y(n)为第n时刻的二级处理语音信号，x(n)为第n时刻的一级处理语音信号，μ为提升系数。

有益效果：对一级处理语音信号进行预加重处理，以补偿高频分量在传输过程中的过大衰减。经过预加重后，一级处理语音信号中的低频干扰得到抑制，改善了高频部分，使得高频信号得到增强。预加重不仅能够有效抑制低频，提升高频，还能有效消除50-60Hz的工频干扰。特别是在端点检测前进行预加重，可以起到消除基线漂移、抑制随机噪声的作用。

进一步，所述预处理还包括分帧加窗处理，S200还包括：

S204，对二级处理语音信号进行分帧加窗处理，生成三级处理语音信号；所述分帧加窗处理采用的加窗函数为汉明窗。

有益效果：采用汉明窗进行分帧加窗操作，其原理在于，矩形窗具有较好的平滑性能，但丢失了高频成分，波形会产生部分失真，然而汉明窗具有较好的平滑性能同时，又不会造成高频丢失现象。所以，汉明窗比矩形窗更适合应用到语音识别中。

进一步，所述预处理还包括端点检测，S200还包括：

S205，对三级处理语音信号进行端点检测，并生成检测结果，所述检测结果包括语音信号的起始帧和结束帧；

S206，根据检测结果，生成有效语音段。

有益效果：在语音识别系统中，通过端点检测准确找到语音信号的起始帧和结束帧，便于获取有效的语音信息，减少语音处理数据量，抑制无声段噪声干扰，有助于实时语音识别。

进一步，还包括S600，对语音信号中的睡眠特征声音进行识别，并生成睡眠识别结果；根据睡眠识别结果，生成控制音效。

有益效果：对语音信号中的睡眠特征声音进行识别，从而可以得知是否有用户处于睡眠状态，睡眠状态下，用户无法发出相关语音指令，但睡眠状态下的用户生理特征会发生变化，例如相同温度下，睡眠状态的人更易感冒。故本方案中，根据睡眠识别结果，生成控制音效，能够在用户处于睡眠状态时，根据其相应需求自动生成相应控制音效，辅助其进行系列智能控制。

进一步，S600中，将语音信号与预存的睡眠特征语音库进行比对，识别语音信号中的睡眠特征声音，并生成睡眠识别结果。

有益效果：将语音信号与预存的睡眠特征语音库进行比对，从而快速识别语音信号中的睡眠特征声音，提升识别效率。

车载语音识别系统，使用了上述车载语音识别方法。

车载语音识别装置，包括处理器；以及被配置成计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器实现上述车载语音识别方法。

车载语音识别存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被执行时实现上述车载语音识别方法。

附图说明

图1为本发明实施例一种车载语音识别方法的语音识别流程框图。

图2为本发明实施例一种车载语音识别方法中三种窗函数性能比较图。

图3为本发明实施例一种车载语音识别方法的端点检测流程框图。

图4为本发明实施例一种车载语音识别方法中短时过零率计算对比图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例1：

实施例1基本如附图1所示：

一种车载语音识别方法，包括以下步骤：

S100，采集语音信号，本实施中，采用麦克风进行语音信号的采集。

S200，对采集的语音信号进行预处理，生成有效语音段。由于语音信号是一种典型的非平稳随机信号，容易受到呼吸气流、环境背景噪声、电流噪声的影响，所以在对语音信号进行下一步分析之前，需要对硬件电路采集回来的语音信号进行预处理。本实施例中，所述预处理包括滤波处理、预加重处理、分帧加窗处理和端点检测。预处理后的语音信号噪声干扰较小，信号较纯净，特征参数较稳定，有利于后续的语音识别工作。

S200包括：

S201，获取采集的语音信号。

S202，对语音信号进行滤波处理，生成一级处理语音信号；所述滤波处理采用巴特沃斯带通滤波器。本实施例中，采用五阶巴特沃斯带通滤波器，且其通频带范围为370Hz-3.4kHz。一般情况下人们的语音信号频率范围300Hz-3.7kHz之间，而语音的关键频率大致分布在370Hz到3.4kHz这个频率范围内。由于使用麦克风，会在采集过程中不可避免地引入环境背景噪声和工频干扰等，这些噪声表现为高斯随机毛刺。如果在进行后续的处理前没有滤除这些噪声，将影响到识别准确性，带来不可预知的干扰。因此，采用有效的滤波器进行预滤波处理对提高信号质量和识别精度有很大帮助。

y(n)＝x(n)-μx(n-1)

式中，y(n)为第n时刻的二级处理语音信号，x(n)为第n时刻的一级处理语音信号，n为语音信号的时刻值，μ为提升系数，本实施例中，μ＝0.97。

S204，对二级处理语音信号进行分帧加窗处理，生成三级处理语音信号；所述分帧加窗处理采用的加窗函数为汉明窗。其基本原理为，将采样量化后的语音信号按照设定的时间长度分成小的时间片段，称为“短帧”，之后的信号处理都是基于这些短帧。由于时间长度较短，所以每一帧可以看作是具有稳定特性的持续语音段。因此，实现了处理非平稳信号的平稳化过程。

在语音信号的短时处理方法中，选择一个合适的窗口类型对于识别结果有至关重要的影响。比如，选用不同的窗口类型，得到的短时平均能量结果差距很大。从图2可以看出，汉明窗和哈宁窗的主瓣宽度比矩形窗大一倍，并且带外衰减也比矩形窗大一倍多，汉明窗的带外衰减比哈宁窗更大。虽然矩形窗具有较好的平滑性能，但丢失了高频成分，波形会产生部分失真。然而汉明窗具有较好的平滑性能同时，又不会造成高频丢失现象。所以，汉明窗比矩形窗更适合应用到语音识别中。故本实施例中，采用汉明窗进行分帧加窗处理。

在离线测试中，采样语音时间长度为1.2s，采样频率为8000Hz，即9600点。分帧函数中，每帧长度设置为80，帧移间隔为40，为了减少信号的时域截断效应，窗函数选用汉明窗。经过分帧以后，语音信号被分成了239帧。

S205，对三级处理语音信号进行端点检测，并生成检测结果，所述检测结果包括语音信号的起始帧和结束帧。在语音识别系统中，通过端点检测准确找到原始语音信号的起始点可以获取有效的语音信息，减少语音处理数据量，抑制无声段噪声干扰，有助于实时语音识别。如图3所示，本实施例中，采用能量和过零率的双门限检测方法，其基本原理是：进行两次判断，第一次使用短时平均能量，在此基础上，第二次根据短时过零率判断，修正第一次结果，最后判断有效语音段的长度是否超过阈值，从而确定起始帧和结束帧，实现端点检测的目的。

当信噪比较低时，采用现有短时过零率计算方法得到的短时过零率误差较大，容易受到噪声干扰。本实施例中，为了提升短时过零率计算准确性，采用改进的短时过零率进行计算。具体的，设定一个门限值T，将“过零”修改为“过T”，即统计信号幅度越过±T的次数。如图4所示，图4为现有短时过零率计算公式与改进后的短时过零率计算公式的对比图。

S206，根据检测结果，生成有效语音段。具体的，取起始帧和结束帧之间的语音信号为有效语音段。

S300，对有效语音段进行特征参数提取，生成测试模板。

S400，利用DTW算法将测试模板中的特征参数与预存的参考模板中的特征参数进行比对，并生成比对结果。所述比对结果为测试模板与参考模板中，各特征参数的匹配值。因基本的DTW算法对端点检测非常敏感，它要求进行比较的两个模板起点和终点分别对应，并且对端点检测的精度要求很高，在背景噪声较大或者语音中存在摩擦音时，端点检测往往不会非常精准，端点检测结果可能会对动态规整造成不可预知的误差，故本实施例中，采用改进的DTW算法。在基本的DTW算法中，参考模板的起始帧和结束帧分别位于(1,1)和(N,M)，那么改进后的DTW算法中，起始帧与结束帧的约束条件放宽，不再要求测试模板与参考模板中的起始帧和结束帧严格对齐，具体的，将起始帧和结束帧分别在横轴和纵轴两个方向上各放宽2-13帧，本实施例中，起点帧坐标为(1,2)、(1,2)、(1,3)、(2,1)、(3,1),终点帧类推。由此，就可以在不影响识别结果的前提下解决端点检测缺陷问题。

S500，根据比对结果，生成识别结果。具体的，根据总匹配值生成识别结果，将总匹配值最高的参考模板作为最终的语音识别结果。识别成功后，根据识别结果控制车载智能系统控制车辆执行相应操作，如识别结果为“关窗户”，则控制车辆的窗户关闭。

车载语音识别系统，使用了上述车载语音识别方法。

实施例2：

实施例2基本如附图1所示：

实施例2基本原理与实施例1相同，其区别在于实施例2还包括S600，对语音信号中的睡眠特征声音进行识别，并生成睡眠识别结果；根据睡眠识别结果，生成控制音效。具体的，将语音信号与预存的睡眠特征语音库进行比对，识别语音信号中的睡眠特征声音，并生成睡眠识别结果。本实施例中，所述睡眠特征语音库中包括以下睡眠特征声音：鼾声和磨牙声。当识别到用户处于睡眠状态时，生成“关窗”和“调高空调温度”的控制音效。

车载语音识别系统，使用了上述车载语音识别方法。

实施例3：

实施例3基本如附图1所示：

实施例3基本原理与实施例2相同，其区别在于实施例3的S600中，识别语音信号中的呼吸声，生成用户呼吸频率，根据用户呼吸频率的变化，生成睡眠识别结果。其原理在于，用户睡眠状态的呼吸频率较清醒状态，相对缓慢，故本方案中检测用户呼吸频率变化，从而进行更加准确的睡眠状态识别。

车载语音识别系统，使用了上述车载语音识别方法。

以上的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种车载语音识别方法，其特征在于：包括以下步骤：

S100，采集语音信号；

S200，对采集的语音信号进行预处理，生成有效语音段；

S300，对有效语音段进行特征参数提取，生成测试模板；

S500，根据比对结果，生成识别结果。

2.根据权利要求1所述的车载语音识别方法，其特征在于：所述预处理包括滤波处理，S200包括：

S201，获取采集的语音信号；

3.根据权利要求2所述的车载语音识别方法，其特征在于：所述预处理还包括预加重处理，S200还包括：

y(n)＝x(n)-μx(n-1),μ＝0.97

4.根据权利要求3所述的车载语音识别方法，其特征在于：所述预处理还包括分帧加窗处理，S200还包括：

5.根据权利要求4所述的车载语音识别方法，其特征在于：所述预处理还包括端点检测，S200还包括：

S206，根据检测结果，生成有效语音段。

6.根据权利要求1所述的车载语音识别方法，其特征在于：还包括S600，对语音信号中的睡眠特征声音进行识别，并生成睡眠识别结果；根据睡眠识别结果，生成控制音效。

7.根据权利要求6所述的车载语音识别方法，其特征在于：S600中，将语音信号与预存的睡眠特征语音库进行比对，识别语音信号中的睡眠特征声音，并生成睡眠识别结果。

8.车载语音识别系统，其特征在于：使用了上述权利要求1-7中任一项所述的车载语音识别方法。

9.车载语音识别装置，其特征在于：包括处理器；以及被配置成计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器实现上述权利要求1-7中任一项所述的车载语音识别方法。

10.车载语音识别存储介质，用于存储计算机可执行指令，其特征在于：所述计算机可执行指令在被执行时实现上述权利要求1-7中任一项所述的车载语音识别方法。