CN111899723A

CN111899723A - 语音激活状态检测方法和装置

Info

Publication number: CN111899723A
Application number: CN202010885673.5A
Authority: CN
Inventors: 王子扬; 宫一尘
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-11-06

Abstract

本发明实施例提供了一种语音激活状态检测方法和装置、计算机可读存储介质和电子设备，解决了现有语音激活状态检测方法的精度差的问题。该语音激活状态检测方法包括：基于当前图像帧的信息以及当前图像帧之前预设帧数的历史图像帧的信息，得到图像特征序列；基于当前音频帧的信息以及当前音频帧之前的与所述预设帧数同步对应的预设时段的历史音频帧的信息，得到音频特征序列；以及基于所述图像特征序列和所述音频特征序列，获取语音激活状态检测结果。

Description

语音激活状态检测方法和装置

技术领域

本发明涉及语音技术领域，具体涉及一种语音激活状态检测方法和装置、计算机可读存储介质和电子设备。

背景技术

随着人工智能技术的不断发展，智能语音交互技术被应用在了越来越多的应用场景中，并发挥了重要作用。在实际的人机交互场景中，机器所采集到的音频文件并非仅仅包括用户发出的语音内容，还可能包括了没有实际语音内容的段落。因此，为了提高人机之间智能语音交互的准确率和效率，就有必要从采集到的音频文件中检测出对应语音激活状态的音频段落作为语音段落，并仅利用语音段落作为样本进行智能语音交互模型的训练，或仅利用语音段落进行语义分析。

现有的语音激活状态检测方法是依赖音频文件进行的，通过提取音频文件的特征信息，并基于指定的或自适应的特征阈值判断音频文件中的哪些音频段落是语音激活状态，对应语音激活状态的音频段落则为语音段落。然而当音频文件采集自高噪声的复杂场景时，音频文件本身的信噪比较低，采用现有的语音激活状态检测方法难以区分噪音内容和语音内容，从而导致对于语音激活状态的检测精度较差。

发明内容

有鉴于此，本发明实施例提供了一种语音激活状态检测方法和装置、计算机可读存储介质和电子设备，解决了现有语音激活状态检测方法的精度差的问题。

根据本申请的一方面，本申请一实施例提供的一种语音激活状态检测方法包括：基于当前图像帧的信息以及当前图像帧之前预设帧数的历史图像帧的信息，得到图像特征序列；基于当前音频帧的信息以及当前音频帧之前的与所述预设帧数同步对应的预设时段的历史音频帧的信息，得到音频特征序列；以及基于所述图像特征序列和所述音频特征序列，获取语音激活状态检测结果。

根据本申请的另一方面，本申请一实施例提供的一种语音激活状态检测装置包括：图像特征序列获取模块，配置为基于当前图像帧的信息以及当前图像帧之前预设帧数的历史图像帧的信息，得到图像特征序列；音频特征序列获取模块，配置为基于当前音频帧的信息以及当前音频帧之前的与所述预设帧数同步对应的预设时段的历史音频帧的信息，得到音频特征序列音频帧；以及检测模块，配置为基于所述图像特征序列和所述音频特征序列，获取语音激活状态检测结果。

根据本申请的另一方面，本申请一实施例提供的一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行如前任一所述的语音激活状态检测方法。

根据本申请的另一方面，本申请一实施例提供的一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于执行如前任一所述的语音激活状态检测方法。

本发明实施例提供的一种语音激活状态检测方法和装置、计算机可读存储介质和电子设备，除了要基于音频文件的预设时段的音频帧的信息得到音频特征序列外，还要基于与预设时段对应的预设帧数的图像帧的信息获得图像特征序列，并综合利用音频特征序列和音频特征序列实现语音激活状态检测。这样即使音频文件本身采集于高噪声的复杂场景，由于图像帧的信息内容是并不会因为噪声的存在而产生额外变化的，图像帧的信息内容包括了用户在图像层面上呈现出的与说话状态相关的动作影像，因此通过参考图像特征序列可排除掉仅对应噪音的非语音段落，避免了现有语音激活状态检测方式仅依赖音频文件进行语音激活状态检测的局限性，从而显著提高了对于语音段落的检测精度。

附图说明

图1所示为本申请一实施例提供的一种语音激活状态检测方法的流程示意图。

图2所示为本申请另一实施例提供的一种语音激活状态检测方法的流程示意图。

图3所示为本申请另一实施例提供的一种语音激活状态检测方法获取对应单个时间点的融合特征信息的流程示意图。

图4所示为本申请另一实施例提供的一种语音激活状态检测方法的流程示意图。

图5所示为本申请一实施例提供的一种语音激活状态检测装置的结构示意图。

图6所示为本申请另一实施例提供的一种语音激活状态检测装置的结构示意图。

图7所示为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

申请概述

如前所述，现有的语音激活状态检测方法是仅依赖音频文件进行的。但采集到的音频文件中是包括噪音内容的，因此仅依赖音频文件进行语音激活状态检测的精度具有局限性。尤其是当音频文件采集于高噪声的复杂场景时，噪音内容和语音内容会更加难以区分。

针对上述的技术问题，本申请的基本构思是提出一种语音激活状态检测方式，考虑到在实际的人机交互场景中，除了采集音频文件外，往往还会采集视频文件，而视频文件中的图像帧的信息是并不会因为噪声的存在而产生额外变化的，从而可有助于将对应噪音内容的段落从音频文件中排除。因此，如果在进行语音激活状态检测时能同时参考音频文件的特征信息和视频文件的特征信息，便可显著提高对于语音激活状态的检测精度。

需要说明的是，本申请所提供的语音激活状态检测方法可以应用于任何需要获取语音段落的应用场景。例如，在对用于完成智能语音交互的神经网络模型进行训练时，会需要大量的语音段落样本用于训练，那么采用本申请所提供的语音激活状态检测方法便可从大量的音频文件中批量且准确地获取大量的语音段落样本。再例如，在实时的智能语音交互时，也可采用本申请所提供的语音激活状态检测方法从实时采集到的用户音频文件中剔除非语音段落，而仅对包括了实际语音内容的语音段落进行语义分析，并根据语义分析结果生成智能回复，以保证智能交互的实时性。然而，本申请对该语音激活状态检测方法所适用的具体应用场景不做限定。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性语音激活状态检测方法

图1所示为本申请一实施例提供的一种语音激活状态检测方法的流程示意图。如图1所示，该语音激活状态检测方法包括：

步骤101：基于当前图像帧的信息以及当前图像帧之前预设帧数的历史图像帧的信息，得到图像特征序列。

图像帧是所采集的视频文件在时间尺度上的组成单元，每个图像帧对应一个时间点。视频文件中包括了发出语音的用户的动作影像，这样基于图像帧进行特征提取得到的图像特征信息便可用于表征某一个时间点上该用户是否正在说话，例如当提取得到的图像特征信息显示用户有特殊的面部动作(例如嘴部处于张开状态)时，则可认为用户在该时间点上处于说话状态；而当提取得到的图像特征信息显示用户并没有特殊的面部动作时，则可认为用户在该时间点上并未处于说话状态。通过分别提取当前图像帧以及当前图像帧之前预设帧数的历史图像帧的特征，便可得到图像特征序列。因此，图像特征序列包括了在时间尺度上连续的多个时间点的多个图像特征信息，该多个图像特征信息分别提取自该多个时间点分别对应的多个图像帧。图像特征序列表征的是用户在多个时间点在图像层面上呈现出的与说话状态相关的动作影像。

在本申请一实施例中，图像特征序列可包括：基于视频流提取的多个图像帧的统计特征信息，具体而言，可以基于当前图像帧的统计特征信息以及当前图像帧之前一定帧数的历史图像帧的统计特征信息，得到该图像特征序列。统计特征信息可包括以下信息中的一种或多种的组合：尺度不变特征变换信息、加速稳健特征信息和ORB特征信息。由于统计特征信息是通过图像特征参数统计的方式获取，因此可快速地获取到量化的图像特征。在另一实施例中，可基于用于图像特征提取的深度神经网络模型，对多个图像帧进行特征提取，将获得的当前图像帧的深度特征信息以及当前图像帧之前一定帧数的历史图像帧的深度特征信息作为图像特征序列。例如，深度神经网络模型包括以下几项中的一种或多种组合：ResNet、MobileNet和VargNet。由于深度特征信息需要通过经过深度神经网络模型获取，而深度神经网络模型是需要通过训练过程建立的，因此基于深度神经网络模型提取到的图像特征更加准确，也能更好地表征原始图像帧的特征。然而应当理解，图像特征序列也可采用除上述列出的数据形式外的其他数据形式，本申请对图像特征序列的具体数据形式并不做严格限定。

在本申请一实施例中，考虑到在一些应用场景下，并非视频文件中的所有图像区域都包括了与说话状态相关的动作影像，为了减少所需要处理的数据量，提高图像特征信息提取以及后续语音激活状态检测的效率，可以仅对感兴趣区域(例如用户嘴部)的图像进行图像特征信息提取。具体而言，可先基于原始视频数据进行感兴趣区域提取以获取与感兴趣区域对应的视频流；然后，再基于该与感兴趣区域对应的视频流的当前图像帧的信息以及当前图像帧之前一定帧数的历史图像帧的信息，得到图像特征序列。

步骤102：基于当前音频帧的信息以及当前音频帧之前的与预设帧数同步对应的预设时段的历史音频帧的信息，得到音频特征序列。

音频帧是所采集的音频文件在时间尺度上的组成单元，每个音频帧也对应一个时间点。音频文件包括用户发出的语音内容和噪音内容，对于要检测出的语音段落，语音内容和噪音内容是混杂在一起的；而非语音段落则仅包括噪音内容。音频特征序列包括了在时间尺度上连续的多个时间点的多个音频特征信息，该多个音频特征信息分别提取自该多个时间点分别对应的多个图像帧。音频特征序列表征的是音频文件在多个时间点的音频特征。

在本申请一实施例中，可对先对原始音频数据的波形数据进行傅里叶变换以获得频谱特征信息，然后基于该连续的频谱特征信息获取对应多个音频帧的离散的频谱特征信息作为音频特征序列。然而应当理解，音频特征序列的具体数据形式也可采用其他形式，本申请对音频特征序列的具体数据形式也不做严格限定。

在本申请一实施例中，为了进一步提高音频特征信息提取的准确性，有必要在获取音频特征序列之前，对原始音频数据进行预处理以提高音频清晰度，然后再基于经过预处理的音频文件的当前音频帧的信息以及当前音频帧之前的一定时段的历史音频帧的信息获取音频特征序列。

应当理解，由于后续要综合参考图像特征序列和音频特征序列进行语音激活状态检测，因此上述预设帧数和预设时段应当在时间尺度上是对应的。然而预设帧数和预设时段所对应的实际时间长度可根据应用场景的需求而调整，本申请对预设帧数和预设时段所对应的实际时间长度并不做限定。

步骤103：基于图像特征序列和音频特征序列，获取语音激活状态检测结果。

如前所述，当采用现有的语音激活状态检测方法，且音频文件采集于高噪音的复杂场景时，本来包括语音内容的语音段落就有可能因为同时包括了噪音内容而被误判为非语音段落，而并未包括语音内容的非语音段落也有可能因为噪音过大而被误判为语音段落。这也是本申请实施例所提供的语音激活状态检测方法要同时参考图像特征序列和音频特征序列的原因，因为虽然音频特征序列能够表征语音段落的音频特征，图像特征序列可表征用户在多个时间点在图像层面上呈现出的与说话状态相关的动作影像，通过同时参考图像特征序列和音频特征序列便可更加准确地确定音频文件中的语音段落。

由此可见，本发明实施例提供的一种语音激活状态检测方法，除了要基于音频文件的预设时段的音频帧的信息得到音频特征序列外，还要基于与预设时段对应的预设帧数的图像帧的信息获得图像特征序列，并综合利用音频特征序列和音频特征序列实现语音激活状态检测。这样即使音频文件本身采集于高噪声的复杂场景，由于图像帧的信息内容是并不会因为噪声的存在而产生额外变化的，图像帧的信息内容包括了用户在图像层面上呈现出的与说话状态相关的动作影像，因此通过参考图像特征序列可排除掉仅对应噪音的非语音段落，避免了现有语音激活状态检测方式仅依赖音频文件进行语音激活状态检测的局限性，从而显著提高了对于语音激活状态的检测精度。

图2所示为本申请另一实施例提供的一种语音激活状态检测方法的流程示意图。相比于图1所示的方法，图2所示的语音激活状态检测方法中语音激活状态检测结果的获取过程可具体包括如下步骤：

步骤1031：基于音频特征序列和图像特征序列，获取融合特征序列。

如前所述，图像特征序列表征的是用户在多个时间点在图像层面上呈现出的与说话状态相关的动作影像，音频特征序列表征的是音频文件在多个时间点的音频特征，因此融合特征序列便会同时包括了图像特征序列所包括的图像特征信息以及音频特征序列所包括的音频特征信息。在本申请一实施例中，可将多个时间点各自对应的图像特征信息与音频特征信息融合，例如以向量拼接或元素相加的方式进行融合，以获得分别对应多个时间点的多个融合特征信息。向量拼接的特征融合方式会保留图像特征新和音频特征信息各自对应的特征向量的原始取值；而元素相加的特征融合方式可在实现特征融合的基础上保持通道数不变，从而避免因通道数的增加而增加后续计算过程的负担。即，通过这种方式或获得的融合特征序列包括了对应多个时间点的多个融合特征信息，其中的每个时间点的融合特征信息既表征了该时间点上用户呈现的与说话状态相关的动作影像，也表征了该时间点上采集到的音频特征，从而实现了在多个不同的时间点同时表征图像特征信息和音频特征信息。

在本申请一实施例中，考虑到在获取某一时间点的融合特征信息时，仅将该时间点对应的图像特征信息与音频特征信息进行融合存在一定局限性，可参考该时间点前后一定时间范围内的图像特征信息与音频特征信息融合，以提高所获取到的融合特征信息的准确性。例如，某一时间点对应的图像特征信息显示为用户嘴部处于闭合状态，但这并不代表着用户此时一定并未说话，而有可能是恰好在说话的过程中嘴部闭合了一下，此时就有必要参考该时间点前后一定时间范围内的图像特征信息与音频特征信息进行融合，以使得获取到的融合特征信息能够更好地反应用户实际的说话状态。具体而言，如图3所示，可先将多个时间点各自对应的图像特征信息与音频特征信息融合，以获得分别对应多个时间点的多个特征融合结果(S31)；然后，整合预设时间范围内的特征融合结果，以作为预设时间范围内一时间点的融合特征信息(S32)。

步骤1032：通过第一神经网络分类模型，基于融合特征序列获得预测概率序列，其中，预测概率序列包括与预设时间段内的多个时间点分别对应的多个预测概率值，预测概率值用于表征对应的时间点的音频内容处于语音激活状态的概率。

由于预测概率序列包括了对应多个时间点的多个预测概率值，根据预测概率值的大小，通过设定概率阈值便可判断出对应的时间点的音频内容是否处于语音激活状态。同时，由于预测概率序列中所包括的预测概率值是与时间点对应的，因此基于预测概率序列便可确定音频文件中的哪些时间段落为语音段落。

第一神经网络分类模型可基于融合特征序列输出预测概率序列的神经网络模型，第一神经网络分类模型可通过训练过程预先建立，通过采用神经网络分类模型可进一步提高获取预测概率序列的效率。具体而言，第一神经网络分类模型的训练过程可包括：首先获取在时间尺度上对应的音频样本和图像样本，其中，音频样本是带有语音段落的时间标记的；然后通过前述的特征提取过程分别获得音频特征序列样本和图像特征序列样本；将该音频特征序列样本和图像特征序列样本通过前述的融合过程获得融合特征序列样本，并将该融合特征序列样本输入神经网络模型以获得预测的预测概率序列训练结果，基于该预测概率序列训练结果确定语音段落的时段预测结果后，将该时段预测结果与音频样本自带的时间标记进行比对以计算损失，并基于损失结果调整神经网络模型的网络参数。通过基于一定量的音频样本和图像样本，并重复迭代上述过程以达到精度要求便可获得该第一神经网络分类模型。

图4所示为本申请另一实施例提供的一种语音激活状态检测方法的流程示意图。相比于图2所示该语音激活状态检测方法，图4所示的语音激活状态检测方法进一步包括如下步骤：

步骤104：基于预测概率序列获得语音端点检测结果。

如前所述，由于预测概率序列中所包括的预测概率值是与时间点对应的，因此基于预测概率序列便可确定音频文件中的哪些时间段落为语音段落，由此便可确定语音段落的语音端点。通过获取语音端点检测结果便可更直观地确定音频文件中的哪些部分对应语音段落，从而可准确地将这些语音段落从音频文件中截取出来以进行处理。

在本申请一实施例中，可将预测概率值大于第一阈值的时间点对应的音频内容判断为处于语音激活状态，将预测概率值小于第二阈值的时间点对应的音频内容判断为并未处于语音激活状态。此时，可将预测概率值大于第一阈值的时间点所构成的时间区间的端点检测为语音端点，此时该时间区间对应的就是对应语音激活状态的语音段落；或，也可将预测概率值小于第二阈值的时间点所构成的时间区间的端点检测为语音端点，此时该时间区间对应的就是并未处于语音激活状态的音频段落。

在本申请一实施例中，在基于预测概率序列获得语音端点检测结果之前，可先将预测概率序列进行平滑处理，以减少预测概率序列的误差。平滑处理可包括一次指数平滑、二次指数平滑等平滑方式。

在本申请一实施例中，考虑到用户的语音内容实际上也不总是连续的，也可能包括正常的语音内容停顿，例如语句间隙或换气部分，而这些语音内容停顿实际上应当是属于语音内容的一部分的，即应当是属于语音激活状态的。因此可在当检测到预测概率值小于第二阈值的时间点所构成的时间区间的时间长度少于第三阈值时，将该时间长度少于第三阈值的时间区间的预测概率值修正为大于第一阈值。具体而言，当一个时间点的预测概率值小于第二阈值时，则意味着该时间点并未包括明显的音频内容，而当预测概率值小于第二阈值的时间区间长度少于第三阈值时，该时间区间会被认为其实对应的是正常的语音内容停顿，此时可将该时间区间对应的预测概率值修正为大于第一阈值，以将该时间区间对应为语音激活状态。

在本申请一实施例中，考虑到音频文件在采集过程中可能会因为信号质量或采集设备的问题而产生短时的高频噪音，可在获取语音激活状态检测结果之前先将这些短时的高频噪音过滤掉。可在当检测到预测概率值大于第一阈值的时间点所构成的时间区间的时间长度少于第四阈值时，从预测概率序列过滤掉该时间长度少于第四阈值的时间区间的预测概率值。具体而言，当一个时间点的预测概率值大于第一阈值时，则意味着该时间点包括了明显的音频内容，而当预测概率值大于第一阈值的时间点所构成的时间区间的时间长度少于第四阈值时，该时间区间会被认为其实对应的是短时的高频噪音，此时可将该时间区间对应的预测概率值从预测概率序列中过滤掉。

应当理解，上述的第一阈值、第二阈值、第三阈值和第四阈值的大小均可根据实际应用场景的需求而调整，本申请对该第一阈值、第二阈值、第三阈值和第四阈值的大小均不做严格限定。

示例性语音激活状态检测装置

图5所示为本申请一实施例提供的一种语音激活状态检测装置的结构示意图。如图5所示，该语音激活状态检测装置50包括：

图像特征序列获取模块501，配置为基于当前图像帧的信息以及当前图像帧之前预设帧数的历史图像帧的信息，得到图像特征序列；

音频特征序列获取模块502，配置为基于当前音频帧的信息以及当前音频帧之前的与所述预设帧数同步对应的预设时段的历史音频帧的信息，得到音频特征序列音频帧；以及

检测模块503，配置为基于所述图像特征序列和所述音频特征序列，获取语音激活状态检测结果。

由此可见，本发明实施例提供的一种语音激活状态检测装置，除了要基于音频文件的预设时段的音频帧的信息得到音频特征序列外，还要基于与预设时段对应的预设帧数的图像帧的信息获得图像特征序列，并综合利用音频特征序列和音频特征序列实现语音激活状态检测。这样即使音频文件本身采集于高噪声的复杂场景，由于图像帧的信息内容是并不会因为噪声的存在而产生额外变化的，图像帧的信息内容包括了用户在图像层面上呈现出的与说话状态相关的动作影像，因此通过参考图像特征序列可排除掉仅对应噪音的非语音段落，避免了现有语音激活状态检测方式仅依赖音频文件进行语音激活状态检测的局限性，从而显著提高了对于语音激活状态的检测精度。

在本申请一实施例中，所述检测模块503进一步配置为：基于所述音频特征序列和所述图像特征序列，获取融合特征序列；以及通过第一神经网络分类模型，基于所述融合特征序列获得预测概率序列，其中，所述预测概率序列包括与所述预设时间段内的多个时间点分别对应的多个预测概率值，所述预测概率值用于表征对应的时间点的音频内容处于语音激活状态的概率。

在本申请一实施例中，所述检测模块503进一步配置为：将所述多个时间点各自对应的所述图像特征信息与所述音频特征信息融合，以获得分别对应所述多个时间点的多个融合特征信息。

在本申请一实施例中，所述检测模块503包括：融合单元，配置为将所述多个时间点各自对应的所述图像特征信息与所述音频特征信息融合，以获得分别对应所述多个时间点的多个特征融合结果；以及整合单元，配置为整合预设时间范围内的所述特征融合结果，以作为所述预设时间范围内一时间点的所述融合特征信息。

在本申请一实施例中，所述融合单元进一步配置为：将所述多个时间点各自对应的所述图像特征信息与所述音频特征信息进行向量拼接或元素相加。

在本申请一实施例中，如图6所示，所述装置50进一步包括：端点获取模块504，配置为基于所述预测概率序列获得语音端点检测结果。

在本申请一实施例中，所述端点获取模块504进一步配置为：将所述预测概率值大于第一阈值的时间点所构成的时间区间的端点检测为语音端点；或，将所述预测概率值小于第二阈值的时间点所构成的时间区间的端点检测为语音端点。

在本申请一实施例中，如图6所示，所述装置50进一步包括：后处理模块505，配置为在所述基于所述预测概率序列获得语音端点检测结果之前，将所述预测概率序列进行平滑处理；和/或，在所述基于所述预测概率序列获得语音端点检测结果之前，当检测到大于第一阈值或小于第二阈值的时间点所构成的时间区间的时间长度少于第三阈值时，从所述预测概率序列过滤掉该时间区间的预测概率值。

在本申请一实施例中，如图6所示，所述装置50进一步包括：预处理模块506，配置为在基于当前音频帧的信息以及当前音频帧之前的一定时段的历史音频帧的信息，得到音频特征序列之前，对原始音频数据进行预处理以提高音频清晰度。

在本申请一实施例中，如图6所示，所述装置50进一步包括：感兴趣区域获取模块507，配置为在基于当前图像帧的信息以及当前图像帧之前一定帧数的历史图像帧的信息，得到图像特征序列之前，基于原始视频数据进行感兴趣区域提取以获取与所述感兴趣区域对应的所述视频流。

在本申请一实施例中，图像特征序列获取模块501进一步配置为：基于当前图像帧的统计特征信息以及当前图像帧之前一定帧数的历史图像帧的统计特征信息，得到所述图像特征序列；或，基于用于图像特征提取的深度神经网络模型，获取当前图像帧的深度特征信息以及当前图像帧之前一定帧数的历史图像帧的深度特征信息，以得到所述图像特征序列。

在本申请一实施例中，所述统计特征信息包括以下信息中的一种或多种的组合：尺度不变特征变换信息、加速稳健特征信息和ORB特征信息；所述深度神经网络模型包括以下几项中的一种或多种组合：ResNet、MobileNet和VargNet。

上述语音激活状态检测装置50中的各个模块的具体功能和操作已经在上面参考图1到图4描述的语音激活状态检测方法中进行了详细介绍，因此，这里将省略其重复描述。

需要说明的是，根据本申请实施例的语音激活状态检测装置50可以作为一个软件模块和/或硬件模块而集成到电子设备70中，换言之，该电子设备70可以包括该语音激活状态检测装置50。例如，该语音激活状态检测装置50可以是该电子设备70的操作系统中的一个软件模块，或者可以是针对于其所开发的一个应用程序；当然，该语音激活状态检测装置50同样可以是该电子设备70的众多硬件模块之一。

在本申请另一实施例中，该语音激活状态检测装置50与该电子设备70也可以是分立的设备(例如，服务器)，并且该语音激活状态检测装置50可以通过有线和/或无线网络连接到该电子设备70，并且按照约定的数据格式来传输交互信息。

示例性电子设备

图7所示为本申请一实施例提供的电子设备的结构示意图。如图7所示，该电子设备70包括：一个或多个处理器701和存储器702；以及存储在存储器702中的计算机程序指令，计算机程序指令在被处理器701运行时使得处理器701执行如上述任一实施例的语音激活状态检测方法。

处理器701可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器702可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器701可以运行所述程序指令，以实现上文所述的本申请的各个实施例的语音激活状态检测方法中的步骤以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如光线强度、补偿光强度、滤光片的位置等信息。

在一个示例中，电子设备70还可以包括：输入装置703和输出装置704，这些组件通过总线系统和/或其他形式的连接机构(图7中未示出)互连。

此外，该输入设备703还可以包括例如键盘、鼠标、麦克风等等。

该输出装置704可以向外部输出各种信息，例如可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图7中仅示出了该电子设备70中与本申请有关的组件中的一些，省略了诸如总线、输入装置50/输出接口等组件。除此之外，根据具体应用情况，电子设备70还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，包括计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行如上述任一实施例的语音激活状态检测方法中的步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性语音激活状态检测方法”部分中描述的根据本申请各种实施例的语音激活状态检测方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器((RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种语音激活状态检测方法，包括：

基于当前图像帧的信息以及当前图像帧之前预设帧数的历史图像帧的信息，得到图像特征序列；

基于当前音频帧的信息以及当前音频帧之前的与所述预设帧数同步对应的预设时段的历史音频帧的信息，得到音频特征序列；以及

基于所述图像特征序列和所述音频特征序列，获取语音激活状态检测结果。

2.根据权利要求1所述的方法，其中，所述基于所述图像特征序列和所述音频特征序列，获取语音激活状态检测结果包括：

基于所述音频特征序列和所述图像特征序列，获取融合特征序列；以及

通过第一神经网络分类模型，基于所述融合特征序列获得预测概率序列，其中，所述预测概率序列包括与所述预设时间段内的多个时间点分别对应的多个预测概率值，所述预测概率值用于表征对应的时间点的音频内容处于语音激活状态的概率。

3.根据权利要求2所述的方法，其中，所述基于所述音频特征序列和所述图像特征序列，获取融合特征序列包括：

将所述多个时间点各自对应的所述图像特征信息与所述音频特征信息融合，以获得分别对应所述多个时间点的多个融合特征信息。

4.根据权利要求3所述的方法，其中，所述将所述多个时间点各自对应的所述图像特征信息与所述音频特征信息融合，以获得分别对应所述多个时间点的多个融合特征信息包括：

将所述多个时间点各自对应的所述图像特征信息与所述音频特征信息融合，以获得分别对应所述多个时间点的多个特征融合结果；以及

整合预设时间范围内的所述特征融合结果，以作为所述预设时间范围内一时间点的所述融合特征信息。

5.根据权利要求3所述的方法，其中所述将所述多个时间点各自对应的所述图像特征信息与所述音频特征信息融合包括：

将所述多个时间点各自对应的所述图像特征信息与所述音频特征信息进行向量拼接或元素相加。

6.根据权利要求2所述的方法，其中，所述方法进一步包括：

基于所述预测概率序列获得语音端点检测结果。

7.根据权利要求1所述的方法，其中，所述基于当前图像帧的信息以及当前图像帧之前一定帧数的历史图像帧的信息，得到图像特征序列包括：

基于当前图像帧的统计特征信息以及当前图像帧之前一定帧数的历史图像帧的统计特征信息，得到所述图像特征序列；或，

基于用于图像特征提取的深度神经网络模型，获取当前图像帧的深度特征信息以及当前图像帧之前一定帧数的历史图像帧的深度特征信息，以得到所述图像特征序列。

8.一种语音激活状态检测装置，包括：

图像特征序列获取模块，配置为基于当前图像帧的信息以及当前图像帧之前预设帧数的历史图像帧的信息，得到图像特征序列；

音频特征序列获取模块，配置为基于当前音频帧的信息以及当前音频帧之前的与所述预设帧数同步对应的预设时段的历史音频帧的信息，得到音频特征序列音频帧；以及

检测模块，配置为基于所述图像特征序列和所述音频特征序列，获取语音激活状态检测结果。

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的语音激活状态检测方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行上述权利要求1-7任一所述的语音激活状态检测方法。