CN111768760B

CN111768760B - 一种多模态语音端点检测方法及装置

Info

Publication number: CN111768760B
Application number: CN202010454932.9A
Authority: CN
Inventors: 刘高成
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2023-04-18
Anticipated expiration: 2040-05-26
Also published as: CN111768760A

Abstract

本发明公开了一种多模态语音端点检测方法及装置，方法包括：获取待检测的视频信息，并对所述视频信息进行处理，以得到带有时间戳的音频信息和图像信息；对所述图像信息中的每一帧图片进行人物对象的检测，并将检测到人物对象的目标帧图片按照人物对象分类存储成按时间顺序排列的目标图片序列；从每个人物对象的所述目标图片序列中提取视觉信息的特征编码，并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息；从所述目标音频信息中提取语音信息的特征编码；将所述视觉信息的特征编码和语音信息的特征编码进行融合，得到融合的多模态特征编码；将所述融合的多模态特征编码输入至分类器中，以得到每个人物对象的语音活动分类结果。

Description

一种多模态语音端点检测方法及装置

技术领域

本发明涉及语音处理技术领域，更具体地，涉及一种多模态语音端点检测方法及装置。

背景技术

随着人机交互技术的发展，语音识别技术显示出其重要性。在语音识别系统中，语音端点检测技术是非常重要的一项技术，通常也称为语音活动性检测技术(VoiceActivity Detection，VAD)。语音端点检测是指在连续声音信号中找出语音部分的起始点和终止点。

现有的语音端点检测方案，主要通过对语音信号进行提取和分类来确定语音起始点和终止点，但是，此方案在信噪比降低、噪声环境复杂的情况下，检测效果急剧下降。

发明内容

鉴于上述问题，本发明提出了一种多模态语音端点检测方法和相应的装置，其可以有效提高VAD在噪声环境下的性能。

根据本发明实施例的第一方面，提供一种多模态语音端点检测方法，包括：

获取待检测的视频信息，并对所述视频信息进行处理，以得到带有时间戳的音频信息和图像信息；

对所述图像信息中的每一帧图片进行人物对象的检测，当从所述图片中检测到人物对象时，按照人物对象从所述图片中获取每个人物对象对应的目标图片，并将每个人物对象对应的所有目标图片存储成按时间顺序排列的目标图片序列；

从每个人物对象的所述目标图片序列中提取视觉信息的特征编码，并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息；

从所述目标音频信息中提取语音信息的特征编码；

将所述视觉信息的特征编码和语音信息的特征编码进行融合，得到融合的多模态特征编码；

将所述融合的多模态特征编码输入至分类器中，以得到每个人物对象的语音活动分类结果。

在一个实施例中，优选地，对所述图像信息中的每一帧图片进行人物对象的检测，并将检测到人物对象的目标帧图片按照人物对象分类存储成按时间顺序排列的目标图片序列，包括：

检测所述每一帧图片是否包含人物对象；

当所述图片中不包含人物对象时，将所述图片判定为非语音活动图片；

当所述图片中包含人物对象时，从所述图片中获取每个人物对象对应的目标图片；

对于每个人物对象，获取包含该人物对象的所有目标图片，并按照时间顺序存储成目标图片序列。

在一个实施例中，优选地，从每个人物对象的所述目标图片序列中提取视觉信息的特征编码，并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息，包括：

按照预设时间间隔，将每个人物对象的所述目标图片序列等间隔的分割成多个片段；

分别从每个片段中提取视觉信息的特征编码，并获取每个片段对应的时间间隔内的音频信息片段。

在一个实施例中，优选地，从所述目标音频信息中提取语音信息的特征编码，包括：

从所述音频信息片段中提取语音信息的特征编码。

在一个实施例中，优选地，所述视觉信息至少包括嘴部特征信息。

根据本发明实施例的第二方面，提供一种多模态语音端点检测装置，包括：

处理模块，用于获取待检测的视频信息，并对所述视频信息进行处理，以得到带有时间戳的音频信息和图像信息；

存储模块，用于对所述图像信息中的每一帧图片进行人物对象的检测，当从所述图片中检测到人物对象时，按照人物对象从所述图片中获取每个人物对象对应的目标图片，并将每个人物对象对应的所有目标图片存储成按时间顺序排列的目标图片序列；

第一提取模块，用于从每个人物对象的所述目标图片序列中提取视觉信息的特征编码，并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息；

第二提取模块，用于从所述目标音频信息中提取语音信息的特征编码；

融合模块，用于将所述视觉信息的特征编码和语音信息的特征编码进行融合，得到融合的多模态特征编码；

分类模块，用于将所述融合的多模态特征编码输入至分类器中，以得到每个人物对象的语音活动分类结果。

在一个实施例中，优选地，所述存储模块包括：

检测单元，用于检测所述每一帧图片是否包含人物对象；

判定单元，用于当所述图片中不包含人物对象时，将所述图片判定为非语音活动图片；

分类单元，用于当所述图片中包含人物对象时，从所述图片中获取每个人物对象对应的目标图片；

获取单元，用于对于每个人物对象，获取包含该人物对象的所有目标帧图片，并按照时间顺序存储成目标图片序列。

在一个实施例中，优选地，所述第一提取模块包括：

分割单元，用于按照预设时间间隔，将每个人物对象的所述目标图片序列等间隔的分割成多个片段；

提取单元，用于分别从每个片段中提取视觉信息的特征编码，并获取每个片段对应的时间间隔内的音频信息片段。

在一个实施例中，优选地，所述第二提取模块用于：

从所述音频信息片段中提取语音信息的特征编码。

在一个实施例中，优选地，所述视觉信息至少包括嘴部特征信息。、

根据本发明实施例的第三方面，提供一种多模态语音端点检测装置，包括：

存储器和处理器；

所述存储器用于保存所述处理器执行计算机程序时所使用的数据；

所述处理器用于执行计算机程序以实现上述第一方面所述的实施例中任意一项所述的方法。

根据本发明实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在设备上运行时，所述设备执行如第一方面实施例中任一项所述的方法。

本发明实施例中，由于在用户说话时，面部动作以及身体动作这些视觉信息不会受复杂噪声环境的干扰，因此，本发明将视觉信息和语音信息结合来进行语音端点的检测，从而可以有效的提高VAD在噪声环境下的性能，并且通过对不同人物对象的判断，在语音端点检测的同时，还可以有效的判别出说话人，从而为其他相关任务提高辅助信息。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种多模态语音端点检测方法的流程图。

图2是本发明一个实施例的一种多模态语音端点检测方法中步骤S102的流程图。

图3是本发明一个实施例的一种多模态语音端点检测方法中步骤S103的流程图。

图4是本发明一个实施例的一种多模态语音端点检测装置的框图。

图5是本发明一个实施例的一种多模态语音端点检测装置中存储模块的框图。

图6是本发明一个实施例的一种多模态语音端点检测装置中第一提取模块的框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明一个实施例的一种多模态语音端点检测方法的流程图，如图1所示，多模态语音端点检测方法包括：

步骤S101，获取待检测的视频信息，并对所述视频信息进行处理，以得到带有时间戳的音频信息和图像信息。

步骤S102，对所述图像信息中的每一帧图片进行人物对象的检测，当从所述图片中检测到人物对象时，按照人物对象从所述图片中获取每个人物对象对应的目标图片，并将每个人物对象对应的所有目标图片存储成按时间顺序排列的目标图片序列。

步骤S103，从每个人物对象的所述目标图片序列中提取视觉信息的特征编码，并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息。

在一个实施例中，优选地，所述视觉信息至少包括嘴部特征信息。视频信息可以以嘴部特征信息为主，还可以加入其他区域特征信息作为辅助。

步骤S104，从所述目标音频信息中提取语音信息的特征编码。

步骤S105，将所述视觉信息的特征编码和语音信息的特征编码进行融合，得到融合的多模态特征编码。

步骤S106，将所述融合的多模态特征编码输入至分类器中，以得到每个人物对象的语音活动分类结果。

在该实施例中，由于在用户说话时，面部动作以及身体动作这些视觉信息不会受复杂噪声环境的干扰，因此，本发明将视觉信息和语音信息结合来进行语音端点的检测，从而可以有效的提高VAD在噪声环境下的性能，并且通过对不同人物对象的判断，在语音端点检测的同时，还可以有效的判别出说话人，从而为其他相关任务提高辅助信息。

在一个实施例中，优选地，上述步骤S102包括：

步骤S201，检测所述每一帧图片是否包含人物对象。

步骤S202，当所述图片中不包含人物对象时，将所述图片判定为非语音活动图片。

步骤S203，当所述图片中包含人物对象时，从所述图片中获取每个人物对象对应的目标图片。

步骤S204，对于每个人物对象，获取包含该人物对象的所有目标图片，并按照时间顺序存储成目标图片序列。

在该实施例中，对于每一帧图片，在检测到图片中包含人物对象后，分别获取该图片中的每个人物对象对应的目标图片，继而针对每个人物对象，将其对应的所有目标图片存储成目标图片序列，这样，如果图片中有多个人物对象，就会得到多个人物对象的图片序列，每个人物对象对应一个目标图片序列，这样，就能够在视频中含有多个人物对象时，区分出具体是谁在说话。

如图3所示，在一个实施例中，优选地，上述步骤S103包括：

步骤S301，按照预设时间间隔，将每个人物对象的所述目标图片序列等间隔的分割成多个片段；

步骤S302，分别从每个片段中提取视觉信息的特征编码，并获取每个片段对应的时间间隔内的音频信息片段。

在一个实施例中，优选地，上述步骤S104包括：

步骤S303，从所述音频信息片段中提取语音信息的特征编码。

在该实施例中，可以将目标图片序列等间隔分割成多个片段，再分片段分别进行视觉信息和音频信息的提取，这样，可以加快处理速度。

如图4所示，根据本发明实施例的第二方面，提供一种多模态语音端点检测装置，包括：

处理模块41，用于获取待检测的视频信息，并对所述视频信息进行处理，以得到带有时间戳的音频信息和图像信息；

存储模块42，用于对所述图像信息中的每一帧图片进行人物对象的检测，当从所述图片中检测到人物对象时，按照人物对象从所述图片中获取每个人物对象对应的目标图片，并将每个人物对象对应的所有目标图片存储成按时间顺序排列的目标图片序列；

第一提取模块43，用于从每个人物对象的所述目标图片序列中提取视觉信息的特征编码，并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息；

第二提取模块44，用于从所述目标音频信息中提取语音信息的特征编码；

融合模块45，用于将所述视觉信息的特征编码和语音信息的特征编码进行融合，得到融合的多模态特征编码；

分类模块46，用于将所述融合的多模态特征编码输入至分类器中，以得到每个人物对象的语音活动分类结果。

如图5所示，在一个实施例中，优选地，所述存储模块42包括：

检测单元51，用于检测所述每一帧图片是否包含人物对象；

判定单元52，用于当所述图片中不包含人物对象时，将所述图片判定为非语音活动图片；

分类单元53，用于当所述图片中包含人物对象时，从所述图片中获取每个人物对象对应的目标图片；

获取单元54，用于对于每个人物对象，获取包含该人物对象的所有目标图片，并按照时间顺序存储成目标图片序列。

如图6所示，在一个实施例中，优选地，所述第一提取模块43包括：

分割单元61，用于按照预设时间间隔，将每个人物对象的所述目标图片序列等间隔的分割成多个片段；

提取单元62，用于分别从每个片段中提取视觉信息的特征编码，并获取每个片段对应的时间间隔内的音频信息片段。

在一个实施例中，优选地，所述第二提取模块用于：

从所述音频信息片段中提取语音信息的特征编码。

存储器和处理器；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上对本发明所提供的一种便捷式多功能设备进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种多模态语音端点检测方法，其特征在于，包括：

从所述目标音频信息中提取语音信息的特征编码；

将所述融合的多模态特征编码输入至分类器中，以得到每个人物对象的语音活动分类结果；

从每个人物对象的所述目标图片序列中提取视觉信息的特征编码，并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息，包括：

分别从每个片段中提取视觉信息的特征编码，并获取每个片段对应的时间间隔内的音频信息片段；

从所述目标音频信息中提取语音信息的特征编码，包括：

从所述音频信息片段中提取语音信息的特征编码。

2.根据权利要求1所述的多模态语音端点检测方法，其特征在于，对所述图像信息中的每一帧图片进行人物对象的检测，当从所述图片中检测到人物对象时，按照人物对象从所述图片中获取每个人物对象对应的目标图片，并将每个人物对象对应的所有目标图片存储成按时间顺序排列的目标图片序列，包括：

检测所述每一帧图片是否包含人物对象；

3.根据权利要求1至2中任一项所述的多模态语音端点检测方法，其特征在于，所述视觉信息至少包括嘴部特征信息。

4.一种多模态语音端点检测装置，其特征在于，包括：

分类模块，用于将所述融合的多模态特征编码输入至分类器中，以得到每个人物对象的语音活动分类结果；

所述第一提取模块包括：

提取单元，用于分别从每个片段中提取视觉信息的特征编码，并获取每个片段对应的时间间隔内的音频信息片段；

所述第二提取模块用于：

从所述音频信息片段中提取语音信息的特征编码。

5.根据权利要求4所述的多模态语音端点检测装置，其特征在于，所述存储模块包括：

检测单元，用于检测所述每一帧图片是否包含人物对象；

判定单元，用于当所述帧图片中不包含人物对象时，将所述帧图片判定为非语音活动图片；

获取单元，用于对于每个人物对象，获取包含该人物对象的所有目标图片，并按照时间顺序存储成目标图片序列。

6.根据权利要求4至5中任一项所述的多模态语音端点检测装置，其特征在于，所述视觉信息至少包括嘴部特征信息。