CN116631380A

CN116631380A - 一种音视频多模态的关键词唤醒方法及装置

Info

Publication number: CN116631380A
Application number: CN202310909532.6A
Authority: CN
Inventors: 白炳潮; 宛敏红; 宋伟; 朱世强
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-08-22
Anticipated expiration: 2043-07-24
Also published as: CN116631380B

Abstract

本发明公开了一种音视频多模态的关键词唤醒方法及装置，该方法包括：获取图像序列和音频序列；对所述图像序列进行嘴唇检测处理并提取检测到的嘴唇部分图像，将提取出的嘴唇图像序列利用嘴唇特征提取神经网络进行处理，得到图像特征；对所述音频序列做音频特征提取，将提取到的音频特征利用音频特征处理神经网络进行处理，得到音频高维特征；对所述图像特征和所述音频高维特征进行特征融合；将融合得到的音视频特征利用多模特征处理神经网络进行处理，得到多模高维特征；将所述图像特征、音频高维特征和多模高维特征融合成一个混合高维特征；基于所述混合高维特征，利用关键词唤醒分类器判断是否需要唤醒。

Description

一种音视频多模态的关键词唤醒方法及装置

技术领域

本发明属于音视频多模态信号处理技术领域，尤其涉及一种音视频多模态的关键词唤醒方法及装置。

背景技术

在涉及到图像和音频信号处理的应用场景中，常常会有关键词唤醒设备的需求，在智能家居，物联网中，关键词唤醒常常是一个不可缺少的功能。但是，在日常使用中，关键词唤醒的准确性和使用效果常常不如人意。在《终端的语音唤醒方法、设备及存储介质》（公布号：CN 202211498799.2）中，该方案利用多个语音终端以及适配多个语音终端的联合处理模型提升语音唤醒的准确性。只考虑了多个语音终端之间的差异性，没有考虑环境噪声对语音唤醒准确性的影响，没有结合图像信息提升唤醒的准确性。在《多模态语音唤醒方法、装置及计算机可读存储介质》（公布号： CN 202210098130.8）中，该方案利用用户的脸部特征提升语音唤醒的准确性。该方案的缺点是只单独的使用了脸部唇形特征、眼球图像特征和语音信息，没有对上述特征做更深一步的挖掘和联合使用，没有在真正意义对各种不同的特征和数据信息做融合。

综上所述，目前尚缺乏一种充分利用音视频信息提升关键词唤醒的方法。

发明内容

针对现有技术存在的问题，本申请提供一种音视频多模态的关键词唤醒方法及装置，通过利用神经网络处理融合的音视频多模特征信息，提升人机交互时关键词唤醒的准确性。

根据本申请实施例的第一方面，提供一种音视频多模态的关键词唤醒方法，包括：

获取图像序列和音频序列；

对所述图像序列进行嘴唇检测处理并提取检测到的嘴唇部分图像，将提取出的嘴唇图像序列利用嘴唇特征提取神经网络进行处理，得到图像特征；

对所述音频序列做音频特征提取，将提取到的音频特征利用音频特征处理神经网络进行处理，得到音频高维特征；

对所述图像特征和所述音频高维特征进行特征融合；

将融合得到的音视频特征利用多模特征处理神经网络进行处理，得到多模高维特征；

将所述图像特征、音频高维特征和多模高维特征融合成一个混合高维特征；

基于所述混合高维特征，利用关键词唤醒分类器判断是否需要唤醒。

进一步地，利用音视频交互终端设备以预定的帧率和音频采样率分别获取所述图像序列和所述音频序列，若所述预定的帧率和音频采样率与实际不一致，则通过重采样调整成预定的帧率和音频采样率。

进一步地，在将提取出的嘴唇图像序列利用嘴唇特征提取神经网络进行处理之前，对所述嘴唇图像序列进行预处理，所述预处理的操作包括缩放、转灰度图。

进一步地，对所述音频序列做音频特征提取，包括：

对所述音频序列做短时傅里叶变换，对变换后的频域复数取幅度值，得到频域幅度特征序列；

对所述音频序列中的每帧数据均提取MFCC特征；

将所述频域幅度特征序列与提取到的MFCC特征序列进行拼接，得到音频特征。

进一步地，所述多模特征处理神经网络为基于注意力机制的神经网络。

进一步地，通过数据向量维度拼接、数据向量加减或使用全连接神经网络实现特征融合。

进一步地，所述关键词唤醒分类器为神经网络或机器学习分类器，输出的结果是0或1，0表示未检测到用户说了关键词，不对用户进行唤醒；1表示检测到用户说了关键词，对用户进行唤醒。

根据本申请实施例的第二方面，提供一种音视频多模态的关键词唤醒装置，包括：

获取模块，用于获取图像序列和音频序列；

图像特征提取模块，用于对所述图像序列进行嘴唇检测处理并提取检测到的嘴唇部分图像，将提取出的嘴唇图像序列利用嘴唇特征提取神经网络进行处理，得到图像特征；

音频特征提取模块，用于对所述音频序列做音频特征提取，将提取到的音频特征利用音频特征处理神经网络进行处理，得到音频高维特征；

第一特征融合模块，用于对所述图像特征和所述音频高维特征进行特征融合；

多模特征处理模块，用于将融合得到的音视频特征利用多模特征处理神经网络进行处理，得到多模高维特征；

第二特征融合模块，用于将所述图像特征、音频高维特征和多模高维特征融合成一个混合高维特征；

唤醒判断模块，用于基于所述混合高维特征，利用关键词唤醒分类器判断是否需要唤醒。

根据本申请实施例的第三方面，提供一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。

根据本申请实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面所述方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本申请融合了唇形图像特征和音频高维特征，并使用多模特征处理模块从融合的高维特征中挖掘有利于音频唤醒的音视频高维特征；设计了一种多模特征处理神经网络用于处理音视频多模态特征；利用唇形图像特征，音频高维特征和音视频高维特征构造出一个高维混合特征，使用分类器对高维混合特征进行处理，判断是否唤醒，提升了唤醒的准确性；通过融合图像特征和音频特征形成音视频多模特征，并使用神经网络对音视频多模特征进行处理，充分挖掘了音视频中有利于关键词唤醒的高维混合特征和信息，充分利用了音频和视频在关键词唤醒上的互补性，为噪声环境下关键词唤醒提供了可靠的解决方案。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种音视频多模态的关键词唤醒方法的流程图。

图2是根据一示例性实施例示出的一种音视频多模态的关键词唤醒方法中涉及的模型结构示意图。

图3是根据一示例性实施例示出的一种音视频多模态的关键词唤醒装置的框图。

图4是根据一示例性实施例示出的一种电子设备的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请提供一种音视频多模态的关键词唤醒方法，请参阅图1，图1为本申请音视频多模态的关键词唤醒方法一实施方式的流程示意图，如图1所示，该方法包括以下步骤：

步骤S11：获取图像序列和音频序列；

在一台音视频交互终端设备上，通过摄像头和麦克风实时获取图像序列数据和音频序列数据，本实施例中图像帧率为每秒25帧；同时从麦克风获取音频序列，音频采样率为16kHz，每1280个采样点分为一帧音频，帧和帧之间重叠640个点，每秒为25帧音频数据，记采集的音视频数据为，其中/>表示时间戳，表示对应时间戳/>的图像数据，/>表示对应时间戳/>的音频帧数据。如果终端设备的帧率或音频采样率与上述设定（即中图像帧率为每秒25帧，音频采样率为16kHz）的不一样，则通过重采样的调整成指定图像帧率和音频数据采样率。

步骤S12：对所述图像序列进行嘴唇检测处理并提取检测到的嘴唇部分图像，将提取出的嘴唇图像序列利用嘴唇特征提取神经网络进行处理，得到图像特征；

具体地，将图像序列输入到嘴唇图像检测模块中检测出嘴唇部分的图像，并将嘴唇部分的图像提取出来，记为嘴唇图像序列，本申请中可以采用Yolo系列模型作为所述嘴唇图像检测模块，在进行检测前需对模型进行训练，训练数据集可以自己采集标注或采用开源数据集LRW-1000等唇形检测数据集。需要说明的是，所述图像序列中图像并不一定含有嘴唇部分，故本申请中设定所述图像序列中至少连续25帧图像含有嘴唇部分，才会形成嘴唇图像序列，进而进行后续操作。使用神经网络对嘴唇图像序列进行特征提取，网络的输入是/>，输出是一组特征/>，网络的输入维度是/>，如果/>中的图像大小不符合设定的/>，则通过重采样的方式调整成/>，网络的输出维度是/>。所以，输出的特征组/>的维度是/>。所述嘴唇特征提取神经网络的模型结构如图2中的“嘴唇特征提取”部分所示，包括若干二维卷积层、池化层和全连接层，在一实施例中具体为依次连接的二维卷积层、最大池化层、二维卷积层、最大池化层、二维卷积层、最大池化层、三层全连接层，其中最后一个池化层的输出通过reshape操作展开成为一维向量后再输入三层全连接层。还可以采用3到5层的ResNet结构，Inception结构作为嘴唇特征提取神经网络。本申请中先对图像序列检测嘴唇部分图像，再对嘴唇部分图像进行特征提取，避免在图像没有嘴唇时，也就行了后续处理；排除人脸上除了嘴唇的其他图像对特征提取造成干扰。由于本方法目的是使用音视频信息做关键词唤醒，显然嘴唇和音频信号才包含了该目标所需的有用信息，所以通过提取嘴唇部分图像能够提高实现该目标的可靠性和有效性。

在使用神经网络对嘴唇图像序列进行特征提取之前，对所述嘴唇图像序列进行预处理，预处理的方式包括但不限于：缩放，转灰度图。

步骤S13：对所述音频序列做音频特征提取，将提取到的音频特征利用音频特征处理神经网络进行处理，得到音频高维特征；

具体地，对音频序列数据做短时傅里叶变换，帧移640个点，帧长1280个点，FFT点数1280，这样就可以每秒钟获取25个频域特征，对转换后的频域复数取幅度值，就获得了25个频域幅度特征序列，每个序列长度为1280，记为，其中/>，…，/>是维度为/>的实数向量。对音频序列数据每帧都提取39维的MFCC（Mel FrequencyCepstral Coefficents，梅尔倒频谱系数）特征，也就是MFCC静态特征加上一阶和二阶差分动态特征，记为/>。将/>和/>拼接成音频特征/>，/>的维度就是/>。 F₁表示音频的频域，属于低维信息；F₂表示MFCC，可以理解成对频域信号做进一步的特征提取，也就是高维一些的特征。将F₁和F₂拼接起来，能够保证后续网络不仅仅接收到低维频域信息，还有高维一些的特征。这样的特征拼接，能够保证网络同时接收到数据的低维特征和高维特征。还可以采用如Bark谱、Mel谱的音频特征提取方法。

使用神经网络对音频特征进行特征提取，网络的输入是，输出是音频高维特征/>，网络的输入维度是/>，网络的输出维度是/>。神经网络的模型结构如图2中“音频高维特征提取”部分所示，包括若干二维卷积层、池化层和全连接层，在一实施例中具体为依次连接的二维卷积层、最大池化层、二维卷积层、最大池化层、三层全连接层，还可以采取其他网络结构，如基于1维卷积层的3到5层ResNet结构。前述操作降低了数据维度，去掉冗余信息，提取对唤醒词起关键作用的特征。

步骤S14：对所述图像特征和所述音频高维特征进行特征融合；

具体地，融合的方式包括但不限于：数据的维度拼接，数据的加减运算、使用全连接神经网络等。在一实施例中，将图像特征和音频高维特征/>拼接成一个音视频特征/>，/>的维度就是/>。

步骤S15：将融合得到的音视频特征利用多模特征处理神经网络进行处理，得到多模高维特征；

在一实施例中，如图2中“多模特征处理”部分所示，先将输入到三层卷积层，经过卷积层后的输出/>数据维度是/>，然后将/>输入到自注意力机制神经网络，所述自注意力机制神经网络的输出记作/>，/>的维度是/>，将/>输入到归一化层，记归一化层的输出/>沿着列方向展开成/>，它的维度是/>。将/>输入到一层全连接层，输出的维度是/>，记作多模高维特征/>。在具体实施中，所述多模特征处理神经网络可以是不同的基于注意力机制的神经网络，包括但不限于自注意力机制、互注意力机制神经网络等常用神经网络结构，可以是其中一种或几种的组合。

步骤S16：将所述图像特征、音频高维特征和多模高维特征融合成一个混合高维特征；

具体地，融合的方式包括但不限于数据向量维度拼接、数据向量加减和使用全连接神经网络进行融合。在一实施例中，将图像特征（维度/>），音频高维特征（维度/>）和高维的音视频特征信息/>（维度/>）拼接成一个混合高维特征/>，其维度是/>。在具体实施中，多模高维特征可能会损失掉一些音频和图像的有用信息，所以将音频高维特征和图像特征也拼接进来，避免信息的损失。

步骤S17：基于所述混合高维特征，利用关键词唤醒分类器判断是否需要唤醒；

具体地，分类器可是不同的神经网络或机器学习分类器；分类的形式可以是是否唤醒的二元分类器，也可以是输出一个唤醒概率值。在一实施例中，分类器模型选用logistic回归，也可以是svm（支持向量机）等机器学习分类器。分类器的输入是混合高维特征，输出的结果是0或1，0表示未检测到用户说了关键词，不对用户进行唤醒；1表示检测到用户说了关键词，对用户进行唤醒。

在本实施例中，利用通过检测唇形图像和音频序列获得图像特征和音频特征，并在音频特征的基础上利用神经网络进一步获取高维音频特征，将音频高维特征和图像特征融合，使用多个神经网络结构进行多模特征处理，获取对音视频唤醒有用的高维信息，最后使用分类器对图像特征，音频高维特征，混合高维特征做处理。充分利用了音频和图像信息，深度挖掘了音视频多模态处理中对多模态关键词唤醒有用的特征，有效提升了音视频关键词唤醒的准确性。

与前述的音视频多模态的关键词唤醒方法的实施例相对应，本申请还提供了音视频多模态的关键词唤醒装置的实施例。

图3是根据一示例性实施例示出的一种音视频多模态的关键词唤醒装置框图。参照图3，该装置可以包括：

获取模块21，用于获取图像序列和音频序列；

图像特征提取模块22，用于对所述图像序列进行嘴唇检测处理并提取检测到的嘴唇部分图像，将提取出的嘴唇图像序列利用嘴唇特征提取神经网络进行处理，得到图像特征；

音频特征提取模块23，用于对所述音频序列做音频特征提取，将提取到的音频特征利用音频特征处理神经网络进行处理，得到音频高维特征；

第一特征融合模块24，用于对所述图像特征和所述音频高维特征进行特征融合；

多模特征处理模块25，用于将融合得到的音视频特征利用多模特征处理神经网络进行处理，得到多模高维特征；

第二特征融合模块26，用于将所述图像特征、音频高维特征和多模高维特征融合成一个混合高维特征；

唤醒判断模块27，用于基于所述混合高维特征，利用关键词唤醒分类器判断是否需要唤醒。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的音视频多模态的关键词唤醒方法。如图4所示，为本发明实施例提供的一种深度学习数据集存取系统所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存以及网络接口之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述的音视频多模态的关键词唤醒方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种音视频多模态的关键词唤醒方法，其特征在于，包括：

获取图像序列和音频序列；

对所述图像特征和所述音频高维特征进行特征融合；

2.根据权利要求1所述的方法，其特征在于，利用音视频交互终端设备以预定的帧率和音频采样率分别获取所述图像序列和所述音频序列，若所述预定的帧率和音频采样率与实际不一致，则通过重采样调整成预定的帧率和音频采样率。

3.根据权利要求1所述的方法，其特征在于，在将提取出的嘴唇图像序列利用嘴唇特征提取神经网络进行处理之前，对所述嘴唇图像序列进行预处理，所述预处理的操作包括缩放、转灰度图。

4.根据权利要求1所述的方法，其特征在于，对所述音频序列做音频特征提取，包括：

对所述音频序列中的每帧数据均提取MFCC特征；

5.根据权利要求1所述的方法，其特征在于，所述多模特征处理神经网络为基于注意力机制的神经网络。

6.根据权利要求1所述的方法，其特征在于，通过数据向量维度拼接、数据向量加减或使用全连接神经网络实现特征融合。

7.根据权利要求1所述的方法，其特征在于，所述关键词唤醒分类器为神经网络或机器学习分类器，输出的结果是0或1，0表示未检测到用户说了关键词，不对用户进行唤醒；1表示检测到用户说了关键词，对用户进行唤醒。

8.一种音视频多模态的关键词唤醒装置，其特征在于，包括：

获取模块，用于获取图像序列和音频序列；

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。