CN113380236A

CN113380236A - 基于唇部的语音端点检测方法及装置、车载终端、存储介质

Info

Publication number: CN113380236A
Application number: CN202110633035.9A
Authority: CN
Inventors: 管岱
Original assignee: Zebra Network Technology Co Ltd
Current assignee: Zebra Network Technology Co Ltd
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-09-10

Abstract

本发明提供一种基于唇部的语音端点检测方法及装置、终端设备、存储介质，该方法包括：获取语音信息及所述语音信息所对应的第一时间段；基于所述第一时间段获取视频流；基于所述视频流，进行唇动检测，提取视觉特征；基于唇部的视觉特征，确定语音端点；该检测方法结合视频特征来判断语音端点，能够去除无效的、噪音类的语音信息，有效克服了噪声音频被VAD误召回后的风险；此外，在从视频流中提取视觉特征的过程中，通过输入唇部区域的图像序列，并利用帧间时序融合处理方法，得到第一时间段内驾驶员唇动的视觉特征，不依赖唇部特征点定位方法，因此该方法链路短，适合车载低算力场景，提高语音端点的检测效率。

Description

基于唇部的语音端点检测方法及装置、车载终端、存储介质

技术领域

本申请涉及语音检测技术领域，尤其涉及一种基于唇部的语音端点检测方法及装置、车载终端、计算机可读存储介质。

背景技术

VAD(Voice Activity Detection,语音活动检测)又称语音端点检测,语音边界检测，目的是检测语音信号是否存在，作为车载语音识别技术的前序流程，在人车交互流程中尤为重要。

目前主流的VAD技术都是基于音频信号进行分析，通常利用能量、频谱、谐波等特征，使用高斯混合模型、深度神经网络等模型来实现。在全双工语音交互流程中，用户一次唤醒90秒内任意对话。

然而，在车载场景中，通常伴随着乘客闲聊、车外风声和车内有声设备播放等噪声场景，这些噪声对基于声学的VAD技术带来了极大的挑战，噪声音频被VAD误召回后，容易在云端NLU产生错误理解，从而降低了自然对话中的用户体验。

发明内容

有鉴于此，本申请的目的在于提供一种基于唇部的语音端点检测方法、装置、终端设备、及计算机可读存储介质，该检测方法能够避免噪声音频的污染，提高用户体验。

为解决上述技术问题，本申请采用以下技术方案：

一方面，根据本发明实施例提供一种基于唇部的语音端点检测方法，包括：

获取语音信息及所述语音信息所对应的第一时间段；

基于所述第一时间段获取视频流；

基于所述视频流，进行唇动检测，提取视觉特征；

基于唇部的所述视觉特征，确定语音端点。

优选地，所述基于所述视频流，进行唇动检测，提取视觉特征，包括：

将所述视频流以帧为单位分割为多帧图像；

确定时间窗口，获取该时间窗口内的视觉特征，其中，所述时间窗口内包括多帧图像；

通过滑窗处理确定所述视频流对应的视觉特征。

优选地，获取该时间窗口内的视觉特征包括：

对于时间窗口内的每帧所述图像，确定唇部区域；

基于每帧图像的唇部区域，提取唇部特征；

基于该时间窗口内的所有帧图像的所述唇部特征进行融合，得到该时间窗口内的所述视觉特征。

优选地，对于时间窗口内的每帧所述图像，确定唇部区域包括：

对于每帧所述图像，利用人脸检测算法确定人脸位置；

基于所述人脸位置，利用人脸特征点定位算法获得人脸特征点位置；

基于所述人脸特征点位置，在所述图像中确定所述唇部区域。

优选地，基于每帧图像的唇部区域，提取唇部特征包括：

利用神经网络编码器从每帧所述图像的唇部区域中，提取所述唇部特征。

优选地，在对于每帧所述图像的唇部区域提取唇部特征后，将所提取的唇部特征与此前一帧图像的唇部特征进行帧间时序融合处理，得到作为该帧图像的唇部特征的融合唇部特征，基于该时间窗口内的所有帧图像的融合唇部特征进行融合，得到该时间窗口内的所述视觉特征。

优选地，所述帧间时序融合包括：

从上一帧图像得到的唇部特征抽取预定比例，得到第一特征图；

从当前帧图像提取的唇部特征抽取残余比例，得到第二特征图，其中所述残余比例与所述预定比例的总和合计为1；

将所述第一特征图与所述第二特征图进行拼接，得到所述融合唇部特征。

优选地，基于该时间窗口内的所有帧图像的所述唇部特征进行融合，得到该时间窗口内的所述视觉特征包括：

对该时间窗口内的所有帧图像的所述唇部特征进行融合后，利用神经网络解码器进行解码，得到所述视觉特征。

第二方面，本发明实施例提供一种基于唇部的语音端点检测装置，包括：

获取模块，用于获取语音信息及语音信息所对应的第一时间段，以及基于所述第一时间段获取视频流；

视频特征提取模块，用于基于所述视频流，进行唇动检测，提取视觉特征；

语音端点确定模块，用于基于唇部的所述视觉特征，确定语音端点。

第三方面，本发明实施例还提供一种终端设备，包括：处理器；和存储器，在所述存储器中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行根据第一方面实施例的基于唇部的语音端点检测方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序指令，所述计算机程序指令被处理器运行时，使得所述处理器执行根据第一方面实施例的基于唇部的语音端点检测方法。

本申请的上述技术方案至少具有如下有益效果之一：

根据本申请实施例的基于唇部的语音端点检测方法，结合视频特征来判断语音端点，能够去除无效的、噪音类的语音信息，有效克服了噪声音频被VAD误召回后的风险；

此外，在从视频流中提取视觉特征的过程中，通过输入唇部区域的图像序列，并利用帧间时序融合处理方法，得到第一时间段内驾驶员唇动的视觉特征，不依赖唇部特征点定位方法，因此该方法链路短，适合车载低算力场景，提高语音端点的检测效率；

此外，该方法对时间窗口内的数帧图像提取唇部特征，并将数帧的唇部特征进行融合，得到该时间窗口的视觉特征，并通过滑窗处理对整个视频流进行处理，得到整个视频流的视觉特征，该处理方法可以获得更加鲁棒和准确的视觉特征。

附图说明

图1为本申请实施例的基于唇部的语音端点检测方法的整体流程示意图；

图2为本申请实施例的基于唇部的语音端点检测方法的局部流程图；

图3为本申请实施例的基于唇部的语音端点检测方法的局部流程图；

图4为本申请实施例的基于唇部的语音端点检测方法的逻辑示意图；

图5为本申请实施例的基于唇部的语音端点检测方法中进行帧间时序融合的示意图；

图6为本申请实施例的基于唇动检测的语音端点检测方法的逻辑示意图；

图7为本申请实施例的基于唇动检测的语音端点检测装置的模块图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先描述一下根据本发明实施例的一个适用场景。

作为一个具体的应用场景，例如：在车辆行驶过程中，希望通过驾乘人员发出的语音信息来进行相应的车机控制。

在现有技术中，当用户发出唤醒词，比如“斑马，您好”用户在唤醒车载终端后开始向车载终端发送指令，比如“导航去人民公园”，车载终端的语音处理系统在接收用户发出的指令的同时还可能会接收到噪音，比如:乘客闲聊、其他播放设备发出的声音等。在该情况下车载终端的语音处理系统在处理接收的语音信息后将可能产生错误的理解，降低用户与车载终端的对话体验。

另外，现有唇动检测技术通过预定唇部特征点的位置来确定唇部区域的唇形变化状态，结合唇动状态发生的时刻，从语音信号中识别并确定语音指令，该算法链路较长，计算量大，无法适合车场景实时交互。

根据本发明实施例的基于唇部的语音端点检测方法，一方面，通过语音采集装置采集语音信息；同时，还通过图像采集装置例如车内摄像头对准驾驶员以采集驾驶员的视频数据，根据所采集的视频数据来分析驾驶员是否存在说话动作，例如，是否存在唇形变化，将唇形变化的检测用来作为语音活动检测的判断依据。

也就是说，在检测到有语音信息的时候，并不是仅仅根据该语音信息进行识别与操控，同时还结合视频信息来判断该语音信息是否为有效的语音信息，由此来降低噪声音频被VAD误召回后的风险。

具体地，下面通过结合具体的附图对本申请的各个实施例进行详细的说明。如图1所示，本发明实施例提供一种基于唇部的语音端点检测方法，包括如下步骤：

S10、获取语音信息及语音信息所对应的第一时间段。

也就是说，在抓取到语音信息的同时，获取与该语音信息所对应的第一时间段，即语音信息发出的开始时间到结束时间。

S11、基于第一时间段获取视频流。

在一实施例中，例如可以通过视频采集装置持续采集视频流，并通过语音采集装置采集语音信息，在由语音采集装置采集并提供的语音信息与视频采集装置采集并提供的视频流进行进程通信，以确保语音信息与视频流的同步。通过同步可以简单地获取同一时间段内的语音信息与对应的视频流。

当然还可以通过其他方式获取第一时间段内的视频流与语音信息，比如通过在视频流与语音信息中添加时间戳，通过时间戳来实现同步。

S12、基于视频流，进行唇动检测，提取视觉特征。

也就是说，基于视频流提取基于唇部的视觉特征。

S13、基于唇部的所述视觉特征，确定语音端点。

基于唇部的视觉特征确定语音端点的方法例如可以包括对获取的多个唇部的视觉特征进行计算，当计算结果显示在时序相邻的视觉特征中一个为驾驶员未说话(唇形特征值在预定阈值范围内)，另一个判断为驾驶员说话(例如唇形特征值超过预定阈值)，则该相邻的视觉特征附带的时间戳对应驾驶员说话开始或结束的端点位置。

作为语音端点检测结果，例如：可以输出第一时间段内驾驶员是否说话以及说话开始、结束时的端点位置。

由此，根据本申请实施例的上述基于唇部的语音端点检测方法，结合视频特征来判断语音端点，能够去除无效的、噪音类的语音信息，有效克服了噪声音频被VAD误召回后的风险。

在一实施例中，如图2所示，基于视频流提取基于唇部的视觉特征(步骤S12)具体包括如下步骤：

S121、将所述视频流以帧为单位分割为多帧图像。

也就是说，为了提取视觉特征，首先将视频流数据分割为以帧为单位的多帧图像。

S122、确定时间窗口，获取该时间窗口内的视觉特征，其中，所述时间窗口内包括多帧图像。

也就是说，针对该多帧图像，首先确定一时间窗口，每个时间窗口可以包括若干帧的图像。对这若干帧连续图像，提取视觉特征。

S123、通过滑窗处理确定所述视频流对应的视觉特征。

也就是说，在对当前时间窗口内的多帧图像提取了特征之后，通过滑窗技术，对下一窗口进行处理，提取下一窗口的视觉特征，直到整个视频流所分割得到的多帧图像均被处理完，由此得到视频流对应的视觉特征。

也就是说，该方法对时间窗口内的数帧图像提取唇部特征，并将数帧的唇部特征进行融合，得到该时间窗口的视觉特征，并通过滑窗处理对整个视频流进行处理，得到整个视频流的视觉特征，该处理方法可以获得更加鲁棒和准确的视觉特征。

具体地，如图3所示，在获取时间窗口内的视觉特征(步骤S122)时，可以进行如下处理：

步骤S1221，对于时间窗口内的每帧所述图像，确定唇部区域。

可以通过现有的人脸识别技术，通过确定人脸上的一些特征点，例如唇部两侧的特征点等来确定唇部区域。

在一实施例中，如图4所示，对于时间窗口内的每帧所述图像确定唇部区域具体可以包括如下步骤：

对于每帧图像，利用人脸检测算法确定人脸位置；

基于人脸位置，利用人脸特征点定位算法获得人脸特征点位置；

基于人脸特征点位置，在图像中确定唇部区域。

步骤S1222，基于每帧图像的唇部区域，提取唇部特征。

也就是说，在获得唇部区域之后，提取其中的唇部特征。

在一实施例中，利用神经网络编码器从每帧图像的唇部区域中，提取唇部特征。关于提取唇部特征的具体算法，可以通过现有的算法进行，在此不再进行详细赘述。

步骤S1223，基于该时间窗口内的所有帧图像的所述唇部特征进行融合，得到该时间窗口内的所述视觉特征。

在一实施例中，在对于每帧图像的唇部区域提取唇部特征后，将所提取的唇部特征与此前一帧图像的唇部特征进行帧间时序融合处理，得到作为该帧图像的唇部特征的融合唇部特征，基于各帧图像的融合唇部特征进行融合，得到视觉特征。

也就是说，在从视频流中提取视觉特征的过程中，通过输入唇部区域的图像序列，并利用帧间时序融合处理方法，得到第一时间段内驾驶员唇动的视觉特征，不依赖唇部特征点定位方法，因此该方法链路短，适合车载低算力场景，提高语音端点的检测效率。

作为优选地，对该时间窗口内的所有帧图像的唇部特征进行融合后，利用神经网络解码器进行解码，得到视觉特征。

其中，例如可以按照如下进行帧间时序融合处理：

从上一帧图像得到的唇部特征抽取预定比例，得到第一特征图；从当前帧图像提取的唇部特征抽取残余比例，得到第二特征图，其中残余比例与预定比例的总和合计为1；将第一特征图与第二特征图进行拼接，得到融合唇部特征。

比如：如图5所示，从上一帧图像10的唇部特征中抽取1/6的特征图，从当前帧图像20的唇部特征中抽取5/6的特征图，并将抽取的1/6的特征图与抽取的5/6的特征图进行拼接；将当前帧图像20的唇部特征中抽取1/6的特征图，从下一帧图像30的唇部特征中抽取5/6的特征图，并将抽取的1/6的特征图与抽取的5/6的特征图进行拼接，作为该帧图像的融合唇部特征。由此，实现帧间时序融合。由此，通过帧间时序融合，可以避免单帧识别错误导致的误差，更有利于提高计算准确性、降低计算量、快速高效识别。

如图6所示，在帧间时序融合处理过程中，当发现帧数不足时，可返回重新进行获取更多帧图像。比如：当语音信息的时间太短时，可能会造成帧数不足的情况。

另外，该方法在从视频流中提取视觉特征的过程中，通过输入唇部区域的图像序列，并利用帧间时序融合处理方法，得到第一时间段内驾驶员的唇部的视觉特征，不依赖唇部特征点定位方法，因此该方法链路短，适合车载低算力场景，提高语音端点的检测效率；

本发明还提供一种基于唇部的语音端点检测装置2，如图7所示，包括获取模块21、视频特征提取模块22和语音端点确定模块23，其中，

获取模块21用于获取语音信息及语音信息所对应的第一时间段，以及基于所述第一时间段获取视频流；

视频特征提取模块22，用于基于所述视频流，进行唇动检测，提取视觉特征；

语音端点确定模块23，用于基于唇部的所述视觉特征，确定语音端点。

其中，获取模块21包括通信单元，通信单元用于在由语音采集装置采集并提供的语音信息与视频采集装置采集并提供的所述视频流进行进程通信，以获得所述第一时间段内的所述视频流与语音信息。

进一步的，视频特征提取模块22包括分割单元、窗口内特征提取单元和滑窗处理单元，其中，

分割单元用于将所述视频流以帧为单位分割为多帧图像；

窗口内特征提取单元用于确定时间窗口，并获取该时间窗口内的视觉特征，其中，所述时间窗口内包括多帧图像；

滑窗处理单元用于通过滑窗处理确定所述视频流对应的视觉特征。

进一步的，窗口内特征提取单元还包括唇部区域确定子单元、唇部特征提取子单元和融合处理子单元。

其中，唇部区域确定子单元用于对于时间窗口内的每帧所述图像，确定唇部区域。

唇部特征提取子单元用于基于每帧图像的唇部区域，提取唇部特征。

融合处理子单元用于基于该时间窗口内的所有帧图像的所述唇部特征进行融合，得到该时间窗口内的所述视觉特征。

进一步的，唇部区域确定子单元包括：

人脸位置确定子单元，用于对于每帧所述图像，利用人脸检测算法确定人脸位置；

人脸特征点位置确定子单元，用于基于所述人脸位置，利用人脸特征点定位算法获得人脸特征点位置；

唇部区域划分子单元，用于基于所述人脸特征点位置，在所述图像中确定所述唇部区域。

所述窗口内特征提取单元还包括：

帧间时序融合单元，所述帧间时序融合单元用于在对于每帧所述图像的唇部区域提取唇部特征后，将所提取的唇部特征与此前一帧图像的唇部特征进行帧间时序融合处理，得到作为该帧图像的唇部特征的融合唇部特征，基于该时间窗口内的所有帧图像的融合唇部特征进行融合，得到该时间窗口内的所述视觉特征。

进一步的，帧间时序融合单元用于从上一帧图像得到的唇部特征抽取预定比例，得到第一特征图；

进一步的，融合处理子单元还包括：

解码子单元用于对该时间窗口内的所有帧图像的所述唇部特征进行融合后，利用神经网络解码器进行解码，得到所述视觉特征。

本发明实施例还提供一种车载终端，车载终端包括：处理器；和存储器，在存储器中存储有计算机程序指令，其中，在计算机程序指令被处理器运行时，使得处理器执行一种基于唇部的语音端点检测方法。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序指令，计算机程序指令被处理器运行时，使得处理器执行一种基于唇部的语音端点检测方法。

需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于唇部的语音端点检测方法，其特征在于，包括：

获取语音信息及所述语音信息所对应的第一时间段；

基于所述第一时间段获取视频流；

基于所述视频流，进行唇动检测，提取视觉特征；

基于唇部的所述视觉特征，确定语音端点。

2.根据权利要求1所述的方法，其特征在于，基于所述第一时间段获取视频流包括：

在由语音采集装置采集并提供的语音信息与视频采集装置采集并提供的所述视频流进行进程通信，以获得所述第一时间段内的所述视频流与语音信息。

3.根据权利要求2所述的方法，其特征在于，所述基于所述视频流，进行唇动检测，提取视觉特征，包括：

将所述视频流以帧为单位分割为多帧图像；

通过滑窗处理确定所述视频流对应的视觉特征。

4.根据权利要求3所述的方法，其特征在于，获取该时间窗口内的视觉特征包括：

对于时间窗口内的每帧所述图像，确定唇部区域；

基于每帧图像的唇部区域，提取唇部特征；

5.根据权利要求4所述的方法，其特征在于，对于时间窗口内的每帧所述图像，确定唇部区域包括：

对于每帧所述图像，利用人脸检测算法确定人脸位置；

6.根据权利要求4所述的方法，其特征在于，基于每帧图像的唇部区域，提取唇部特征包括：

7.根据权利要求4所述的方法，其特征在于，在对于每帧所述图像的唇部区域提取唇部特征后，将所提取的唇部特征与此前一帧图像的唇部特征进行帧间时序融合处理，得到作为该帧图像的唇部特征的融合唇部特征，基于该时间窗口内的所有帧图像的融合唇部特征进行融合，得到该时间窗口内的所述视觉特征。

8.根据权利要求7所述的方法，其特征在于，所述帧间时序融合包括：

9.根据权利要求4所述的方法，其特征在于，基于该时间窗口内的所有帧图像的所述唇部特征进行融合，得到该时间窗口内的所述视觉特征包括：

10.一种基于唇部的语音端点检测装置，其特征在于，包括：

11.一种车载终端，其特征在于，包括：

处理器；和

存储器，在所述存储器中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行如权利要求1至9所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序指令，所述计算机程序指令被处理器运行时，使得所述处理器执行如权利要求1至9所述的方法。