CN112381069A

CN112381069A - 免语音唤醒方法、智能设备和计算机可读存储介质

Info

Publication number: CN112381069A
Application number: CN202110019690.5A
Authority: CN
Inventors: 傅涛; 杨杰; 冯凌; 王力
Original assignee: Bozhi Safety Technology Co ltd
Current assignee: Bozhi Safety Technology Co ltd
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2021-02-19

Abstract

本发明公开了一种免语音唤醒方法、智能设备和计算机可读存储介质，其中方法包括：获取嘴部图像序列，从嘴部图像序列中提取嘴部特征；确定嘴部特征对应的音素值；计算音素值与设定的唤醒词对应的音素值之间的相似度，当相似度大于设定的相似度阈值时，则唤醒智能设备。本发明的方法使用了图像识别技术，识别发出语音指令的人的嘴部图像序列，根据嘴部图像序列确定其对应的音素值，计算该音素值与与设定的唤醒词对应的音素值之间的相似度，当相似度大于设定的相似度阈值时，则唤醒智能设备。本发明降低了智能设备的误判率，提升了用户的无感交互体验，语音交互更流畅自然。

Description

免语音唤醒方法、智能设备和计算机可读存储介质

技术领域

本申请涉及一种免语音唤醒方法、使用该唤醒方法的智能设备和存储该唤醒方法的计算机可读存储介质，属于图像识别技术领域。

背景技术

语音识别技术在近些年取得了显著的进步，该技术已进入工业、家电、智能家居等各个领域。包含唤醒词的语音唤醒技术是语音识别技术中的一种形式，其不直接接触硬件设备，通过包含唤醒词的语音即可实现设备的唤醒或者运行。现有带有扬声器的智能语音设备，例如智能音箱、车载的手机架或者语音机器人等的播放打断功能也采用了包含唤醒词的语音唤醒技术进行实现，且现有应用于智能语音设备的语音唤醒技术中的唤醒词都是采用固定阈值的方式，即在智能语音设备的正唤醒率与误唤醒率之间取一个平衡数值作为固定的唤醒词阈值。在智能语音设备的工作过程中，例如在播放音乐或语音播报时，由于智能语音设备的扬声器发岀的声音会传播到智能语音设备的麦克风并被麦克风采集，使得扬声器发出的声音会对智能语音设备的语音识别造成干扰。针对这种情况,智能语音设备通常会对扬声器发出的声音进行回声消除处理，但如果回声消除不完善或者扬声器到麦克风的非线性失真太大则会导致出现回声残余过大的情况，而当智能语音设备长时间处于具有过大的回声残余的环境中时，由于应用于智能语音设备内的唤醒词阈值始终是固定不变的，这样就会大大增加智能语音设备被回声残余误唤醒的可能性。如果智能语音设备的麦克风没有收到用户发出的包含唤醒词的语音，但智能语音设备当前的播放状态却因为残余的回声被打断了，这样便会大大降低用户的使用体验。

发明内容

本申请的目的在于，提供一种免语音唤醒方法、智能设备和计算机可读存储介质，以解决现有技术中存在的唤醒方法易受干扰，存在误判的技术问题。

本发明的第一实施例提供了一种免语音唤醒方法，包括：

获取嘴部图像序列，从所述嘴部图像序列中提取嘴部特征；

确定所述嘴部特征对应的音素值；

计算所述音素值与设定的唤醒词对应的音素值之间的相似度，当所述相似度大于设定的相似度阈值时，则唤醒智能设备；

所述从所述嘴部图像序列中提取嘴部特征，具体为：

利用2D卷积神经网络从所述嘴部图像序列中提取嘴部运动的空间特征，得到嘴部运动的空间特征信息；

利用1D卷积神经网络从所述嘴部图像序列中提取嘴部运动的时间特征，得到嘴部运动的时域特征信息；

利用多时空信息融合残差网络融合所述时域特征信息和所述空间特征信息，得到融合后的所述嘴部特征；

相应地，确定所述嘴部特征对应的音素值，具体为：

确定融合后的所述嘴部特征对应的音素值。

优选地，所述确定融合后的所述嘴部特征对应的音素值，具体为：

利用融合后的所述嘴部特征，确定因素单元的识别概率结果；

将所述音素单元的识别概率结果输入连接时序分类器，得到音素单元的分类结果；

采用引入注意力机制的解码方法解码所述音素单元的分类结果，得到所述嘴部特征对应的音素值。

优选地，所述利用融合后的所述嘴部特征，确定因素单元的识别概率结果，具体为：

将融合后的所述嘴部特征输入Bi-GRU模型，得到音素单元的识别概率结果。

优选地，所述采用引入注意力机制的解码方法解码所述音素单元的分类结果，得到所述嘴部特征对应的音素值，具体为：

通过注意力得到所述音素单元的分类结果中音素单元每个时刻的隐藏状态；

获取每个所述隐藏状态的得分；

获取注意力的得分；

计算所述隐藏状态的得分与所述注意力的得分的加权和，得到语境向量；

将所述语境向量输入至所述解码器中进行联合训练，得到所述嘴部特征对应的音素值。

优选地，所述获取嘴部图像序列，具体为：

获取面部视频图像；

利用人脸检测器，从所述面部视频图像中切割出嘴部图像序列。

本发明的第二实施例提供了一种智能设备，包括：

图像获取单元，用于获取嘴部图像序列，并从所述嘴部图像序列中提取出嘴部特征；

音素确定单元，用于确定所述嘴部特征对应的音素值；

唤醒单元，用于计算所述音素值与设定的唤醒词对应的音素值之间的相似度，当所述相似度大于设定的相似度阈值时，则唤醒智能设备；

所述图像获取单元包括视频采集模块、图像序列确定模块、空间特征提取模块、时域特征提取模块和融合模块；

所述视频采集模块，用于获取面部视频图像；

所述图像序列确定模块，用于利用人脸检测器，从所述面部视频图像中切割出嘴部图像序列；

所述空间特征提取模块，用于利用2D卷积神经网络从所述嘴部图像序列中提取嘴部运动的空间特征，得到嘴部运动的空间特征信息；

所述时域特征提取模块，用于利用1D卷积神经网络从所述嘴部图像序列中提取嘴部运动的时间特征，得到嘴部运动的时域特征信息；

所述融合模块，用于利用多时空信息融合残差网络融合所述时域特征信息和所述空间特征信息，得到融合后的所述嘴部特征；

相应地，所述音素确定单元，用于确定所述嘴部特征对应的音素值，具体为：

所述音素确定单元，用于确定融合后的所述嘴部特征对应的音素值。

本发明的第三实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明的免语音唤醒方法、智能设备和计算机可读存储介质，相较于现有技术，具有如下有益效果：

本发明的方法使用了图像识别技术，识别发出语音指令的人的嘴部图像序列，根据嘴部图像序列确定其对应的音素值，计算该音素值与与设定的唤醒词对应的音素值之间的相似度，当相似度大于设定的相似度阈值时，则唤醒智能设备。本发明降低了智能设备的误判率，提升了用户的无感交互体验，语音交互更流畅自然。

附图说明

图1为本发明免语音唤醒方法的流程图；

图2为本发明实施例中免语音唤醒方法的详细流程图；

图3为本发明实施例中免语音唤醒方法中2D卷积核1D卷积融合后的改进MST(多时空信息融合)单元示意图；

图4为本发明实施例中免语音唤醒方法中嘴部时空特征提取网络的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明的技术方案，下面通过实施例来进行说明。

本发明提供了一种基于图像识别的免语音唤醒方法、智能设备和计算机可读存储介质。通过图像传感器实时监测当前环境人的嘴巴动作信号，利用算法分析判断当前人的嘴巴动作特征是否有意唤醒智能设备。若判断为存在，则唤醒。本申请能在特定的环境中有效降低智能设备误唤醒可能性，提升了用户的无感交互体验。

图1为本发明免语音唤醒方法的流程图。

本发明第一实施例的免语音唤醒方法，包括：

步骤1、嘴部图像序列，从嘴部图像序列中提取嘴部特征，具体为：

通过图像传感器实时监测当前环境人的嘴巴动作信号，具体为：通过双目摄像头实时检测可视区域人物面部视频图像信息，然后利用人脸检测器从面部视频图像信息中检测切割出嘴部图像序列；

然后，利用混合卷积神经网络对嘴部图像序列进行嘴部特征提取，具体为：本申请的混合卷积神经网络由改进的3D卷积神经网络和MST（多时空信息融合）残差网络组成；改进的3D卷积神经网络是将3D卷积操作分解为两个接连进行的子卷积块，分别是2D卷积神经网络和1D卷积神经网络。其中，2D卷积神经网络对嘴部图像序列进行嘴部运动的空间特征提取，得到嘴部的空间特征信息；1D卷积神经网络对嘴部图像序列进行嘴部运动的时间维度特征提取，得到嘴部运动的时域特征信息；MST（多时空信息融合）残差网络对嘴部的空间特征和时间特征进行多尺度的信息融合，得到融合后的嘴部特征；

相应地，确定所述嘴部特征对应的音素值，具体为：

确定融合后的所述嘴部特征对应的音素值。

步骤2、确定融合后的嘴部特征对应的音素值，具体为：

利用融合后的嘴部特征，确定因素单元的识别概率结果，具体为：

将音素单元的识别概率结果输入连接时序分类器，得到音素单元的分类结果；

采用引入注意力机制的解码方法解码音素单元的分类结果，得到嘴部特征对应的音素值，具体为：

通过注意力得到音素单元每个时刻的隐藏状态，通过为每个隐藏状态打分，获取注意力的得分状态，通过使用音素单元的隐藏状态和注意力得分的加权和，聚合音素单元的隐藏状态，获得语境向量，将语境向量输入到解码器中进行联合训练，得到嘴部图像序列对应的音素值。

步骤3、计算音素值与设定的唤醒词对应的音素值之间的相似度，当相似度大于设定的相似度阈值时，则唤醒智能设备。

本发明的第二实施例公开了一种智能设备，包括：

音素确定单元，用于确定所述嘴部特征对应的音素值；

所述视频采集模块，用于获取面部视频图像；

本发明的第三实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述免语音唤醒方法的步骤。

下面，将以具体的实施例详述本申请。

图2为本实施例的详细流程图。

本实施例中，应用设备为摄像头，其中摄像头为480pusb的摄像头，使用USB摄像头固定在说话者面前，距离说话者45cm。唤醒方法的具体步骤如下：

获取摄像头采集的实时视频中的每一帧图像和利用人脸检测器从面部图像信息中检测切割出嘴部图像序列；

本实施例采用dlib库人脸68特征点提取器提取唇读数据集中说话人唇部区域，利用dlib库人脸检测模型可以快速捕捉人脸的大幅度晃动，灵敏度高；

将采集到的图像输入网络，最终输出包围人脸68个关键点的图像，通过提取46~68唇部关键点的坐标，得到唇部矩形区域的中心点坐标

以及矩形宽度

，矩形高度

；

利用混合卷积神经网络对唇部图像序列进行特征提取；采用混合卷积神经网络((2+1)D+MST)进行唇部序列不同空间幅度和不同时间周期的特征提取；其中(2+1)D卷积块是将3D卷积操作分解为两个接连进行的子卷积块，分别是2D卷积神经网络和1D卷积神经网络；2D卷积神经网络对唇部图像序列进行唇部运动的空间特征提取，得到唇部的空间特征信息；1D卷积神经网络对唇部图像序列进行唇部运动的时间维度特征提取,得到唇部运动的时域特征信息；MST(多时空信息融合)残差网络对所述唇部的空间特征和时间特征进行多尺度的信息融合。

本实施例中，针对(2+1)D卷积神经网络的每层具有单一大小的空间尺度和时间深度，特征图中的每一元素对应单一特征信息，导致模型泛化能力差的不足，将分别在空间和时间上使用不同尺度的2D卷积核和1D卷积核，可以更好的处理单一时空未能捕获的重要时空信息。如图3所示，是2D卷积核ID卷积融合后的改进MST(多时空信息融合)单元示意图。所述改进的MST单元包括n个2D卷积核，m个1D卷积核，2个EN层和2个非线性层。在特征提取的过程中，首先经过不同尺度的2D卷积核，在单帧图片上同时提取多尺度的空间特征信息，然后将它们按视频时间序列组合成为短视频，再将短视频输入至多尺度1D卷积层，同时提取长、中、短三种时间周期的时域特征信息，最后经过融合层构成新的特征图。

如图4所示，是嘴部时空特征提取网络的结构示意图。混合卷积神经网络具体包括1个输入层、6个改进MST残差单元、一个全局池化层、1个全连接层、1个softmax分类层、3个时域下采样层和4个空间下采样层。3个时域下采样层分别设置在第4、5、6个MST残差单元，4个空间下采样层分别设置在第1、4、5、6个MST残差单元。

将嘴部特征输入双向门控循环单元Bi-GRU模型，获得音素单元的识别概率结果。其中Bi-GRU网络具体为正向GRU和反向GRU，是一个门递归单元GRU，每层GRU网络各有256个滤波器，GRU每个时间步的输出通过全连接层Softmax处理，得到音素单元的识别概率结果。

将音素单元的识别概率结果输入连接时序分类器CTC，获得音素单元分类结果；

对音素单元的分类结果采用引入注意力机制的解码方法进行处理，获得嘴部特征对应的音素值。

本发明为了进一步增加长句子嘴部动作识别的精度，在所述算法架构的输出端引入了注意力机制，即引入注意力机制的解码方法；其可以使得模型解码器关注特定位置的编码内容，而不用将整个编码内容都作为解码的依据，提高模型解码效果，增加系统的鲁棒性。

解码器是一个级联了3层的门控循环单元(GRU)，常规的解码处理是将音素单元分类结果直接输入解码器进行训练得到嘴部动作识别结果，引入注意力机制的解码处理是通过注意力得到音素单元每个时刻的隐藏状态，使用additive函数为每个隐藏状态打分，通过softmax层获取注意力的得分状态。通过使用音素单元的隐藏状态和注意力得分的加权和，来聚合音素单元的隐藏状态，从而获得语境向量，将语境向量输入到解码器中进行联合训练，得到嘴部动作识别结果。通过在解码的过程中应用注意力机制可以在解码器的每个时刻使用不同的音素单元识别结果，这样解码过程就能够有选择的关注音素识别结果中有用的部分，提高解码效果，对于长句子的识别效果更好。若是不引入注意力机制，音素单元识别结果进行普通的解码处理将会按照其顺序逐字转化成相对应的汉字，但若句子很长的话,在转化过程中，可能已经忘记之前的转化结果，导致语义出错以及识别准确率的下降。

本实施例中，还公开了一种智能设备，包括：

图像获取单元，用于获取嘴部图像序列，并从嘴部图像序列中提取出嘴部特征；

音素确定单元，用于确定所述嘴部特征对应的音素值；

唤醒单元，用于计算所述音素值与设定的唤醒词对应的音素值之间的相似度，当所述相似度大于设定的相似度阈值时，则唤醒智能设备。

其中，图像获取单元包括视频采集模块、图像序列确定模块、空间特征提取模块、时域特征提取模块和融合模块；视频采集模块用于获取面部视频图像；图像序列确定模块用于利用人脸检测器，从所述面部视频图像中切割出嘴部图像序列；空间特征提取模块用于利用2D卷积神经网络从所述嘴部图像序列中提取嘴部运动的空间特征，得到嘴部运动的空间特征信息；时域特征提取模块用于利用1D卷积神经网络从所述嘴部图像序列中提取嘴部运动的时间特征，得到嘴部运动的时域特征信息；融合模块，用于利用多时空信息融合残差网络融合所述时域特征信息和所述空间特征信息，得到融合后的所述嘴部特征；相应地，音素确定单元用于确定所述嘴部特征对应的音素值，具体为：音素确定单元，用于确定融合后的嘴部特征对应的音素值。

以上所述，仅是本申请的几个实施例，并非对本申请做任何形式的限制，虽然本申请以较佳实施例揭示如上，然而并非用以限制本申请，任何熟悉本专业的技术人员，在不脱离本申请技术方案的范围内，利用上述揭示的技术内容做出些许的变动或修饰均等同于等效实施案例，均属于技术方案范围内。

Claims

1.一种免语音唤醒方法，其特征在于，包括：

获取嘴部图像序列，从所述嘴部图像序列中提取嘴部特征；

确定所述嘴部特征对应的音素值；

所述从所述嘴部图像序列中提取嘴部特征，具体为：

相应地，确定所述嘴部特征对应的音素值，具体为：

确定融合后的所述嘴部特征对应的音素值。

2.根据权利要求1所述的免语音唤醒方法，其特征在于，所述确定融合后的所述嘴部特征对应的音素值，具体为：

3.根据权利要求2所述的免语音唤醒方法，其特征在于，所述利用融合后的所述嘴部特征，确定因素单元的识别概率结果，具体为：

4.根据权利要求2所述的免语音唤醒方法，其特征在于，所述采用引入注意力机制的解码方法解码所述音素单元的分类结果，得到所述嘴部特征对应的音素值，具体为：

获取每个所述隐藏状态的得分；

获取注意力的得分；

5.根据权利要求1~4任一项所述的免语音唤醒方法，其特征在于，所述获取嘴部图像序列，具体为：

获取面部视频图像；

6.一种智能设备，其特征在于，包括：

音素确定单元，用于确定所述嘴部特征对应的音素值；

所述视频采集模块，用于获取面部视频图像；

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1~5任一项所述方法的步骤。