CN117437913B

CN117437913B - 一种自适应近远场的离线语音命令词识别方法、系统及介质

Info

Publication number: CN117437913B
Application number: CN202311735038.9A
Authority: CN
Inventors: 余倬先; 樊绍胜; 欧阳峰; 宋运团; 孙文敏; 余震; 冷望
Original assignee: Shenzhen Yutuo Intelligent Co ltd
Current assignee: Shenzhen Yutuo Intelligent Co ltd
Priority date: 2023-12-18
Filing date: 2023-12-18
Publication date: 2024-03-19
Anticipated expiration: 2043-12-18
Also published as: CN117437913A

Abstract

本发明公开了一种自适应近远场的离线语音命令词识别方法、系统及介质，方法包括：以指定的时间间隔获取语音数据片段并更新语音数据，对语音数据音量自适应增强后进行唤醒识别，若能识别则提取人声部分，保存人声部分特征与识别词，若无法识别则提取人声部分，将人声部分特征与已保存的人声部分特征进行匹配，将匹配结果的识别词作为唤醒词；若识别到唤醒词，获取新的语音数据，对语音数据音量自适应增强后进行命令识别，若能识别则提取人声部分，保存人声部分特征与识别词，若无法识别则提取人声部分，将人声部分特征与已保存的人声部分特征进行匹配，将匹配结果的识别词作为命令词。本发明解决了近远场不定环境下，远场声音难以识别的问题。

Description

一种自适应近远场的离线语音命令词识别方法、系统及介质

技术领域

本发明涉及语音识别技术，尤其涉及一种自适应近远场的离线语音命令词识别方法、系统及介质。

背景技术

随着近来语音深度学习的发展，离线语音命令词得以实现并应用于局域网智能设备中，可以达到对于语音近场采样较好的情况下较准确的识别语音命令词。但如果是语音远场采样，如声音较小的情况下，虽然人耳可以听出声音，但由于存在较大的环境噪声，离线语音处理包往往并不能实现较好的识别效果。

因此，亟需一种有效的方案，能够在麦克风采样近场远场不定的语音环境下实现有效的离线语音识别。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种自适应近远场的离线语音命令词识别方法、系统及介质，解决近场远场声音因信噪比不同而难以识别的问题。

为解决上述技术问题，本发明提出的技术方案为：

一种自适应近远场的离线语音命令词识别方法，包括以下步骤：

S101）以指定的时间间隔获取语音数据片段并更新语音数据，对语音数据音量自适应增强后进行唤醒识别，若能识别，提取人声部分，并保存人声部分特征和识别词，若无法识别，提取人声部分，并将人声部分特征与已保存的人声部分特征进行匹配，将匹配结果对应的识别词作为唤醒词识别结果；

S102）若识别到唤醒词，获取新的语音数据，对语音数据音量自适应增强后进行命令识别，若能识别，提取人声部分，并保存人声部分特征和识别词，若无法识别，提取人声部分，并将人声部分特征与已保存的人声部分特征进行匹配，将匹配结果对应的识别词作为命令词识别结果。

进一步的，步骤S101中以指定的时间间隔获取语音数据片段并更新语音数据时，包括：获取当前时段的语音数据片段，将当前时段的语音数据片段加入原始语音数据尾部，并丢弃原始语音数据头部的语音数据片段。

进一步的，步骤S101以及步骤S102中，对语音数据音量自适应增强时，均包括：

S201）遍历语音数据得到绝对值最大的极值；

S202）将指定值除以绝对值最大的极值，得到放大倍数；

S203）按照放大倍数对语音数据进行音量增强。

进一步的，步骤S101与步骤S102中，提取语音数据的人声部分时，均包括：

S301）计算语音数据的均值pcmAverage，提取语音数据中大于均值pcmAverage的连续部分作为人声部分；

S302）对人声部分进行高通滤波，得到高音量人声部分。

进一步的，步骤S301中，提取语音数据中大于均值pcmAverage的连续部分时，包括：

S401）在语音数据的图谱中选取最大值处下标为中心；

S402）从中心开始，以指定的时间步长向语音数据图谱的两端移动，若当前时间步长中语音数据的均值pcmAverage1大于均值pcmAverage，向对应端点移动下一个时间步长，若当前时间步长中语音数据的均值pcmAverage1小于均值pcmAverage，则停止移动并执行步骤S403；

S403）截取所有时间步长中的语音数据。

进一步的，步骤S302中，对人声部分进行高通滤波时，包括：遍历人声部分并提取大于所述均值pcmAverage和滤波系数乘积的语音数据。

进一步的，步骤S101与步骤S102中，保存人声部分特征和识别词时，包括：

S501）获取语音数据识别后的识别词与置信度c1；

S502）若置信度c1大于预设的第一阈值，提取语音数据的人声部分的特征矩阵t1；

S503）获取备份库中已保存的相同识别词的特征矩阵tn，计算特征矩阵t1与特征矩阵tn的相似度；

S504）若特征矩阵t1与特征矩阵tn的相似度大于预设的第二阈值，且置信度c1大于相同识别词的置信度cn，将备份库中的所述识别词的置信度cn和特征矩阵tn分别更新为置信度c1和特征矩阵t1；

若特征矩阵t1与特征矩阵tn的相似度小于预设的第三阈值，将置信度c1和特征矩阵t1保存在备份库中。

进一步的，步骤S101与步骤S102中，将人声部分特征与已保存的人声部分特征进行匹配时，包括：

S601）提取语音数据的人声部分的特征矩阵t2；

S602）遍历备份库中所有特征矩阵，并计算备份库中的每个特征矩阵与特征矩阵t2的相似度；

S603）若备份库中的特征矩阵与特征矩阵t2的相似度均小于预设的第二阈值，则丢弃语音数据；

若备份库中存在与特征矩阵t2的相似度大于预设的第二阈值的特征矩阵，将所述特征矩阵作为匹配结果。

本发明还提出一种自适应近远场的离线语音命令词识别系统，包括互相连接的微处理器和计算机可读存储介质，所述微处理器被编程或配置以执行权利要求任一项所述的自适应近远场的离线语音命令词识别方法。

本发明还提出一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序用于被微处理编程或配置以执行任一项所述的自适应近远场的离线语音命令词识别方法。

与现有技术相比，本发明的优点在于：

本发明对需要识别的语音进行音量自适应增强处理后，进行唤醒识别或者命令识别，针对能识别且置信度较高的语音保存其人声部分特征，对于无法识别的语音，将其人声部分特征与所保存的人声部分特征进行匹配，将特征相似度大的匹配结果判定为相同语音，并且输出所保存的对应识别词作为语音命令词的识别结果，从而通过近远场声音自适应增强和备份提高了近场远场不定的语音环境下的语音识别概率。

本发明还在唤醒过程中，通过指定间隔获取语音数据片段并以此更新唤醒语音，通过切片方式提高了唤醒词唤醒概率。

附图说明

图1为本发明实施例的简要步骤示意图。

图2为本发明实施例的唤醒识别流程中语音数据片段持续唤醒流程示意图。

图3为本发明实施例的唤醒识别流程及命令识别流程中音量自适应增强处理流程示意图。

图4为本发明实施例的唤醒识别流程及命令识别流程中提取人声部分的流程图。

图5为本发明实施例的唤醒识别流程及命令识别流程中进行人声部分识别的详细流程图。

图6为本发明实施例的唤醒识别流程及命令识别流程中更新备份库的流程图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

实施例一

为了解决目前远场的语音难以被离线语音包识别的问题，本实施例提出一种自适应近远场的离线语音命令词识别方法，结合离线唤醒词识别，对采集到的语音pcm（脉冲编码调制）数据进行音量增强、备份检查，从而达到远近场的语音都可以准确识别，如图1所示，包括以下步骤：

S101）唤醒识别流程：以指定的时间间隔获取语音数据片段并更新语音数据，语音数据具体指通过单麦克风或多麦克风采集到的语音pcm数据，对语音数据音量自适应增强后进行唤醒识别，对于能识别且置信度较高的语音数据，提取语音数据的人声部分，保存其人声部分特征与识别词，对于无法识别的语音数据，提取语音数据的人声部分，将其人声部分特征与已保存的人声部分特征进行匹配，将匹配结果的识别词作为唤醒词识别结果；

S102）命令识别流程：若识别到唤醒词，获取新的语音数据，对语音数据音量自适应增强后进行命令识别，对于能识别且置信度较高的语音数据，提取语音数据的人声部分，保存其人声部分特征与识别词，对于无法识别的语音数据，提取语音数据的人声部分，将其人声部分特征与已保存的人声部分特征进行匹配，将匹配结果的识别词作为命令词识别结果。

通过上述步骤，在麦克风采样近场远场环境不定的语音环境下，对所采集的语音数据进行识别对能识别且置信度较高的语音保存其人声部分特征与识别词，待有不能识别的语音时，提取其人声部分特征并与已保存的可识别的人声部分特征进行匹配，匹配结果即为相同语音，从而获取得到对应的识别词，从而有效的解决了远场声音难以识别的问题。

下面对于每一步骤进行具体说明。

为了提高唤醒概率，本实施例的唤醒识别流程中，采用窗口数据切片的方式进行唤醒，步骤S101中以指定的时间间隔获取语音数据片段并更新语音数据时，如图2所示，包括：获取当前时段的语音数据片段，将当前时段的语音数据片段加入指定时长的原始语音数据尾部，并丢弃原始语音数据头部的语音数据片段。

具体的，设置指定的时间窗口长度和步长，例如设置时间窗口为1.5秒，步长为500ms，这样1.5秒的语音数据进行唤醒识别后，只丢弃原始语音数据头部500ms的片段，剩余的语音数据和新采集的500ms语音数据片段一起组成新的1.5秒语音数据进行下一次唤醒识别，这样每500ms进行一次唤醒识别流程，可以加大唤醒概率。

为了统一提取特征，步骤S101中对语音数据进行唤醒识别之前，以及步骤S102中对语音数据进行命令识别之前，将所有需要送去唤醒和识别的语音数据都进行动态音量增强，使得所有语音数据的最大值均为相同值，有利于统一提取特征进行比较。如图3所示，对语音数据音量自适应增强时，包括：

S201）遍历语音数据pcm1得到绝对值最大的极值，如16位pcm采样值范围为-32768~32768，对pcm取绝对值，并得出最大值pcmMax；

S202）将指定值除以绝对值最大的极值，得到放大倍数，本实施例中，放大倍数为：gain=32768/pcmMax；

S203）按照放大倍数对语音数据pcm1进行音量增强，即将语音数据pcm1乘以gain得到放大后的语音数据pcm2。

本实施例的步骤S101与步骤S102中，提取语音数据的人声部分时，均包括：

S301）计算语音数据pcm2的均值pcmAverage，提取语音数据pcm2中大于均值pcmAverage的连续部分作为人声部分，记为pcmPeople；

S302）对人声部分pcmPeople进行高通滤波，具体的，遍历人声部分pcmPeople并提取大于所述均值pcmAverage和滤波系数乘积的语音数据，得到高音量人声部分pcmArrayH1。

如图4所示，步骤S301中，提取语音数据pcm2中大于均值pcmAverage的连续部分时，包括：

S401）在语音数据pcm2的图谱中选取最大值pcmMax处下标为中心；

S402）从中心开始，以指定的时间步长向语音数据图谱的两端移动，本实施例中时间步长为300ms，即从中心开始，往前（后）取300ms数据，若当前时间步长中语音数据的均值pcmAverage1大于均值pcmAverage，向对应端点移动下一个时间步长，即继续往前（后）取300ms数据，若当前时间步长中语音数据的均值pcmAverage1小于均值pcmAverage，则已经到达人声部分的开始时间和结束时间，停止移动并执行步骤S403；

S403）截取已移动的所有时间步长中的语音数据。

本实施例的步骤S302中，对人声部分pcmPeople进行高通滤波，保留高音量部分，滤波系数可以视现场工况调节，现场噪音越大，系数则定为越大，本实施例中的滤波系数为1.2。

步骤S101中对语音数据进行唤醒识别以及步骤S102中对语音数据进行命令识别，具体是指使用离线语音处理包，对于语音数据进行唤醒识别或者命令识别，使用离线语音处理包进行语音数据识别是本领域技术人员所采用的常规技术手段，本方案中不赘述具体的实施过程。

如图5所示，对语音数据进行唤醒识别或者命令识别后，当语音数据为近场语音时，通常可以识别出来，并得到其对应的识别词和置信度，可以给远场识别起到关键参考作用，而不必过分依赖后台算法的适应能力，提高了语音识别在远场近场切换的鲁棒性。当置信度较高（>70），此时将语音数据的高音量人声部分的特征矩阵、识别词和置信度以数组的形式存储。

具体的，如图5和图6所示，步骤S101与步骤S102中，对于能识别且置信度较高的语音数据，保存人声部分特征与识别词时，均包括：

S501）获取语音数据pcm2识别后的识别词与置信度c1；

S502）若置信度c1大于预设的第一阈值（大于70），提取高音量人声部分pcmArrayH1的特征矩阵t1，如何提取人声部分的特征矩阵是本领域技术人员公知的，本方案不赘述具体的实施过程；

S503）获取备份库pcmArrayHAll中已保存的相同识别词的特征矩阵tn，计算特征矩阵t1与特征矩阵tn的相似度，本实施例中通过计算两个特征矩阵的欧式距离得到相似度，例如使用音频处理库librosa中的campare_features接口就可以得到相似度；

S504）若特征矩阵t1与特征矩阵tn的相似度大于预设的第二阈值（大于90），且置信度c1大于相同识别词的置信度cn，则判定为同一个人在近场的语音，因此将备份库中的所述识别词的置信度cn和特征矩阵tn分别更新为更高的置信度c1和对应特征矩阵t1；

若特征矩阵t1与特征矩阵tn的相似度小于预设的第三阈值（小于30），说明是不同人在近场的语音或者是同一个人在近场不同语速的语音，因此在保留置信度cn和特征矩阵tn的同时，将置信度c1和特征矩阵t1新增在备份库pcmArrayHAll中，备份库pcmArrayHAll在新的已识别语音数据到来时，根据特征矩阵相似度，可以进行更新和扩展，从而同一个识别词可以对应不同的置信度和特征均值。

当语音数据为远场语音时，一般难以识别，如果语音数据不能识别，则将其人声部分的特征矩阵与备份库pcmArrayHAll中所有特征矩阵比较相似度，具体的，如图2所示，步骤S101与步骤S102中，对于无法识别的语音数据，将人声部分特征与已保存的人声部分特征进行匹配时，包括：

S601）提取高音量人声部分pcmArrayH1的特征矩阵t2；

S602）遍历备份库pcmArrayHAll中所有特征矩阵，并计算备份库中的每个特征矩阵与特征矩阵t2的相似度；

S603）若备份库中的特征矩阵与特征矩阵t2的相似度均小于预设的第二阈值，则丢弃语音数据pcm2；

若备份库中存在与特征矩阵t2的相似度大于预设的第二阈值（大于90）的特征矩阵t1，将所述特征矩阵t1作为匹配结果，在相似度高（大于90）的情况下，可判定语音数据pcm2为因噪音干扰而无法被识别出来的特征矩阵t1的命令语音，由已保存的特征矩阵t1对应的识别词等同识别出了语音数据pcm2的识别词。这样，只要被近场声音识别过一次，同一人说的相同指令在远场声音识别上便可以大大提升识别率。

实施例二

本发明提出一种自适应近远场的离线语音命令词识别系统，包括互相连接的微处理器和计算机可读存储介质，所述微处理器被编程或配置以执行实施例一所述的自适应近远场的离线语音命令词识别方法。

本发明还提出一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序用于被微处理编程或配置以执行实施例一所述的自适应近远场的离线语音命令词识别方法。

具体的，本实施例中，微处理执行实施例一所述的自适应近远场的离线语音命令词识别方法的具体过程如下：

（1）通过麦克风采样pcm1数据，每隔一段时间进行唤醒识别一次，例如识别唤醒时1.5秒一次。这里1.5秒的唤醒数据使用后，只丢弃500ms数据，剩余数据和新的500ms数据一起组成新的1.5秒数据进行下一次唤醒识别，这样可以加大唤醒概率。

（2）pcm1使用前进行增强处理。对整个pcm1数据进行遍历，如16位pcm采样值范围为-32768~32768，对pcm取绝对值，并得出最大值pcmMax，然后需要放大的倍数则为：gain=32768/pcmMax；对所有pcm乘以gain得到放大后的pcm2。

（3）将pcm2进行识别(包括唤醒词和命令词)，当pcm2为近场语音时，通常可以识别出来，得到pcm2的识别词key1和置信度c1，当置信度较高（>70），此时提取pcm2中高音量的人声部分数据为备份数据pcmArrayH1，并以数组的形式存储起来。提取方法为：取pcm2的均值pcmAverage和最大点值pcmMax，并以pcmMax处下标为中心，往前（后）取300ms数据，计算这个300ms的均值pcmAverage1，当pcmAverage1>pcmAverage时，继续往前（后）取300ms数据，直到pcmAverage1<pcmAverage，说明人声部分已经到头了，这时可得到人声部分的开始时间和结束时间，截取出pcmPeople；

（4）对pcmPeople进行高通滤波，保留高音量部分。在pcmPeople中，将大于pcmAverage乘以滤波系数（可以定为1.2，该系数可以视现场工况调节，现场噪音越大，系数则定为越大）的数据提取出来，并记为数组pcmArrayH1。

（5）对pcmArrayH1进行特征提取和比较。如用短时傅里叶变换方法计算pcmArrayH1的短幅值特性然后计算能量特征，得到特征矩阵t1。记录保存对应特征t1、识别词key1以及置信度c1。后面可以通过比较这个t1和后面的特征矩阵tn的相似度来确定是否为相同指令语音。

（6）相似度比较方法可以为比较两个矩阵的欧氏距离,例如librosa中的campare_features接口就可以得到相似度。

（7）处理新的被识别pcm，更新备份t、key、c。当有新的pcm被识别为key，且置信度c2较高（大于70），提取特征矩阵t2，比较t1和t2的特征值相似度s1。当s1>90，即相似度和置信度都高，判定为同一个人在近场的语音，取置信度较高的pcm更新为备份t1、key1、c1；当s1<30，即相似度低，说明是不同人说的命令词或者是相同人不同语速说的命令词，记录保存为t2、key1、c2，这样假设有n个key，则会有许多不通t、key、c组成的备份库。

（8）处理新的pcm，如果识别不出来，则进行高音量人声区提取，并提取特征t2，比较pcmArrayHAll中的所有特征矩阵tn和t2的相似度，若相似度高（大于90），则可判定为因噪音干扰而无法被识别出来的命令语音，将此pcm等同识别出了keyN。这样，只要被近场声音识别过一次，相同人说的相同指令在远场声音识别上便可以大大提升识别率。

综上所述，本发明提出一种自适应近远场的离线语音命令词识别方法、系统及介质，在语音的麦克风采样近场远场环境不定的场景下，对语音数据先进行音量增强处理，然后通过离线语音处理包法进行识别；对能识别且置信度较高的语音提取出高音量人声区和对应的识别词并保存，待有不能被识别的噪音大的语音数据之后，同样提取高音量人声区数据，跟保存的可识别语音的高音量人声区作特征比较，特征值相似度大的直接判定为相同语音，并获得对应的识别词。只要被近场声音识别过一次，相同人说的相同指令在远场声音识别上便可以大大提升识别率。

本发明使用了唤醒词窗口切片的方法，提高唤醒词唤醒概率，并使用了近远场声音自适应增强、备份检查方法，提高远场距离的语音识别概率。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种自适应近远场的离线语音命令词识别方法，其特征在于，包括以下步骤：

S102）若识别到唤醒词，获取新的语音数据，对语音数据音量自适应增强后进行命令识别，若能识别，提取人声部分，并保存人声部分特征和识别词，若无法识别，提取人声部分，并将人声部分特征与已保存的人声部分特征进行匹配，将匹配结果对应的识别词作为命令词识别结果；

步骤S101与步骤S102中，保存人声部分特征和识别词时，包括：

S501）获取语音数据识别后的识别词与置信度c1；

S502）若置信度c1大于预设的第一阈值，提取对应人声部分的特征矩阵t1；

2.根据权利要求1所述的自适应近远场的离线语音命令词识别方法，其特征在于，步骤S101中以指定的时间间隔获取语音数据片段并更新语音数据时，包括：获取当前时段的语音数据片段，将当前时段的语音数据片段加入原始语音数据尾部，并丢弃原始语音数据头部的语音数据片段。

3.根据权利要求1所述的自适应近远场的离线语音命令词识别方法，其特征在于，步骤S101以及步骤S102中，对语音数据音量自适应增强时均包括：

S201）遍历语音数据得到绝对值最大的极值；

S202）将指定值除以绝对值最大的极值，得到放大倍数；

S203）按照放大倍数对语音数据进行音量增强。

4.根据权利要求1所述的自适应近远场的离线语音命令词识别方法，其特征在于，步骤S101与步骤S102中，提取人声部分时，均包括：

S302）对人声部分进行高通滤波，得到高音量人声部分。

5.根据权利要求4所述的自适应近远场的离线语音命令词识别方法，其特征在于，步骤S301中，提取语音数据中大于均值pcmAverage的连续部分时，包括：

S401）在语音数据的图谱中选取最大值处下标为中心；

S403）截取所有时间步长中的语音数据。

6.根据权利要求4所述的自适应近远场的离线语音命令词识别方法，其特征在于，步骤S302中，对人声部分进行高通滤波时，包括：遍历人声部分并提取大于所述均值pcmAverage和滤波系数乘积的语音数据。

7.根据权利要求1所述的自适应近远场的离线语音命令词识别方法，其特征在于，步骤S101与步骤S102中，将人声部分特征与已保存的人声部分特征进行匹配时，包括：

S601）提取人声部分的特征矩阵t2；

8.一种自适应近远场的离线语音命令词识别系统，其特征在于，包括互相连接的微处理器和计算机可读存储介质，所述微处理器被编程或配置以执行权利要求1~7任一项所述的自适应近远场的离线语音命令词识别方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序用于被微处理编程或配置以执行权利要求1~7任一项所述的自适应近远场的离线语音命令词识别方法。