CN111916061B

CN111916061B - 语音端点检测方法、装置、可读存储介质及电子设备

Info

Publication number: CN111916061B
Application number: CN202010709596.8A
Authority: CN
Inventors: 王子扬; 宫一尘
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2024-05-07
Anticipated expiration: 2040-07-22
Also published as: CN111916061A

Abstract

本公开实施例公开了一种语音端点检测方法和装置，其中，该方法包括：获取针对目标对象采集的音频信息和视频信息，其中，音频信息中的音频帧和视频信息中的图像帧一一对应；提取音频信息包括的音频帧的特征，得到音频特征序列，以及提取视频信息包括的图像帧的特征，得到图像特征序列；将音频特征序列和图像特征序列合并，得到合并特征序列；基于合并特征序列，确定合并特征序列中的每个合并特征对应的语音状态概率；基于语音状态概率，确定音频信息中的语音信号段的端点。本公开实施例实现了将音频特征和图像特征相结合进行语音状态检测，提高了在高噪声的复杂场景下的语音端点检测的精确性。

Description

语音端点检测方法、装置、可读存储介质及电子设备

技术领域

本公开涉及计算机技术领域，尤其是一种语音端点检测方法、装置、计算机可读存储介质及电子设备。

背景技术

随着人机信息交互技术的发展，语音识别技术显示出其重要性。在语音识别系统中，语音端点检测是语音识别中的关键技术之一。语音端点检测是指在连续声音信号中找出语音部分的起始点和终止点。端点检测准确与否，会直接影响到语音识别系统的性能。

目前的语音端点检测方法主要包括基于信号处理的方案和纯语音的识别方案。基于信号处理的方案通过基于短时能量或过零率的方法，通过指定的或自适应的阈值判断音频是否为静音状态。进而使用一定的策略得到语音的端点。纯语音的识别方案通过语音信号的降噪，特征提取，激活状态分类，后处理等步骤进行语音端点检测。

发明内容

本公开的实施例提供了一种语音端点检测方法、装置、计算机可读存储介质及电子设备。

本公开的实施例提供了一种语音端点检测方法，该方法包括：获取针对目标对象采集的音频信息和视频信息，其中，音频信息中的音频帧和视频信息中的图像帧一一对应；提取音频信息包括的音频帧的特征，得到音频特征序列，以及提取视频信息包括的图像帧的特征，得到图像特征序列；将音频特征序列和图像特征序列合并，得到合并特征序列；基于合并特征序列，确定合并特征序列中的每个合并特征对应的语音状态概率；基于语音状态概率，确定音频信息中的语音信号段的端点。

根据本公开实施例的另一个方面，提供了一种语音端点检测装置，该装置包括：获取模块，用于获取针对目标对象采集的音频信息和视频信息，其中，音频信息中的音频帧和视频信息中的图像帧一一对应；提取模块，用于提取音频信息包括的音频帧的特征，得到音频特征序列，以及提取视频信息包括的图像帧的特征，得到图像特征序列；合并模块，用于将音频特征序列和图像特征序列合并，得到合并特征序列；第一确定模块，用于基于合并特征序列，确定合并特征序列中的每个合并特征对应的语音状态概率；第二确定模块，用于基于语音状态概率，确定音频信息中的语音信号段的端点。

根据本公开实施例的另一个方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序用于执行上述语音端点检测方法。

根据本公开实施例的另一个方面，提供了一种电子设备，电子设备包括：处理器；用于存储处理器可执行指令的存储器；处理器，用于从存储器中读取可执行指令，并执行指令以实现上述语音端点检测方法。

基于本公开上述实施例提供的语音端点检测方法、装置、计算机可读存储介质及电子设备，通过对提取音频信息包括的音频帧的特征和视频信息包括的图像帧的特征，将音频帧的特征和图像帧的特征合并，确定得到的合并特征序列中的每个合并特征对应的语音状态概率，最后基于语音状态概率，确定语音信号段的端点，从而实现了将音频特征和图像特征相结合进行语音状态检测，在检测时可以将图像特征作为参考，同时由于结合的特征不仅可以表征对音频的特征，还可以表征对图像的特征，使检测所用到的特征的内容更加丰富，因此大大提高了在高噪声的复杂场景下的语音端点检测的精确性。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开所适用的系统图。

图2是本公开一示例性实施例提供的语音端点检测方法的流程示意图。

图3是本公开另一示例性实施例提供的语音端点检测方法的滑动窗口的示例性示意图。

图4是本公开另一示例性实施例提供的语音端点检测方法的流程示意图。

图5是本公开另一示例性实施例提供的语音端点检测方法的流程示意图。

图6是本公开一示例性实施例提供的语音端点检测装置的结构示意图。

图7是本公开另一示例性实施例提供的语音端点检测装置的结构示意图。

图8是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

目前的基于信号处理的方案和纯语音方案的语音端点检测算法精度日趋饱和，这些方案在高噪声条件下，识别精度受到一定限制，不能够满足后续语音识别的需求。

示例性系统

图1示出了可以应用本公开的实施例的语音端点检测方法或语音端点检测装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101，网络102和服务器103。网络102用于在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101通过网络102与服务器103交互，以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用，例如语音识别应用、图像识别应用、搜索类应用、网页浏览器应用、购物类应用、即时通信工具等。

终端设备101可以是各种电子设备，包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

服务器103可以是提供各种服务的服务器，例如对终端设备101上传的音频信息、视频信息进行分析的后台服务器。后台服务器可以对接收到的音频信息、视频信息进行处理，得到音频信息中的语音段的端点。

需要说明的是，本公开的实施例所提供的语音端点检测方法可以由服务器103执行，也可以由终端设备101执行，相应地，语音端点检测装置可以设置于服务器103中，也可以设置于终端设备101中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。在音频信息、视频信息等不需要从远程获取的情况下，上述系统架构可以不包括网络，只包括服务器或终端设备。

示例性方法

图2是本公开一示例性实施例提供的语音端点检测方法的流程示意图。本实施例可应用在电子设备(如图1所示的终端设备101或服务器103)上，如图2所示，该方法包括如下步骤：

步骤201，获取针对目标对象采集的音频信息和视频信息。

在本实施例中，电子设备可以从本地或从远程获取针对目标对象采集的音频信息和视频信息。其中，音频信息中的音频帧和视频信息中的图像帧一一对应。

具体地，音频信息和视频信息可以是音频采集设备和视频采集设备同步对目标对象录制音频和视频得到的信息。目标对象可以是实体的人或动物，也可以是人或动物的影像(例如对屏幕上播放的人或动物进行录制音频和视频)。

步骤202，提取音频信息包括的音频帧的特征，得到音频特征序列，以及提取视频信息包括的图像帧的特征，得到图像特征序列。

在本实施例中，电子设备可以提取音频信息包括的音频帧的特征，得到音频特征序列，以及提取视频信息包括的图像帧的特征，得到图像特征序列。

具体地，电子设备可以利用现有的提取音频特征的方法，提取音频信息包括的每个音频帧的特征，提取的特征组成音频特征序列。电子设备还可以利用现有的提取图像特征的方法，提取视频信息包括的每个图像帧的特征，提取的特征组成图像特征序列。

其中，音频特征包括但不限于以下至少一种：MFCC(梅尔频率倒谱系数，MelFrequency Cepstral Coefficents)、Fbank等。图像特征可以包括但不限于以下至少一种：利用神经网络提取的特征，以及SIFT(尺度不变特征变换，Scale-Invariant FeatureTransform)、SURF(Speeded Up Robust Features，加速稳健特征)和ORB(Oriented Fastand Rotated Brief)等统计特征。

步骤203，将音频特征序列和图像特征序列合并，得到合并特征序列。

在本实施例中，电子设备可以将音频特征序列和图像特征序列合并，得到合并特征序列。

具体地，音频特征和图像特征通常为向量的形式，因此，可以将相对应的音频特征和图像特征连接为合并特征。例如，一个图像特征的维度为256维，一个音频特征的维度为360维，则合并特征为616维。

步骤204，基于合并特征序列，确定合并特征序列中的每个合并特征对应的语音状态概率。

在本实施例中，电子设备可以基于合并特征序列，确定合并特征序列中的每个合并特征对应的语音状态概率。

通常，电子设备可以利用神经网络，对每个合并特征进行语音状态预测，得到每个合并特征对应的语音状态概率。语音状态概率用于表征某个合并特征对应的音频帧为语音帧的概率，即语音帧对应的时间点，目标对象正在发出语音的概率。神经网络可以包括但不限于卷积神经网络、循环神经网络等的其中至少一种。电子设备可以利用卷积神经网络对每个合并特征单独地进行语音状态预测，也可以利用循环神经网络等用于分析各个合并特征之间的联系的模型，进行语音状态预测。

步骤205，基于语音状态概率，确定音频信息中的语音信号段的端点。

在本实施例中，电子设备可以基于语音状态概率，确定音频信息中的语音信号段的端点。作为示例，电子设备可以将各个语音状态概率与预设的概率阈值进行对比，将大于或等于概率阈值且连续排列的多个语音状态概率分别对应的音频帧确定为语音信号段，该语音信号段两端的音频帧即为语音信号段的端点。

本公开的上述实施例提供的方法，通过对提取音频信息包括的音频帧的特征和视频信息包括的图像帧的特征，将音频帧的特征和图像帧的特征合并，确定得到的合并特征序列中的每个合并特征对应的语音状态概率，最后基于语音状态概率，确定语音信号段的端点，从而实现了将音频特征和图像特征相结合进行语音状态检测，在检测时可以将图像特征作为参考，同时由于结合的特征不仅可以表征对音频的特征，还可以表征对图像的特征，使检测所用到的特征的内容更加丰富，因此大大提高了在高噪声的复杂场景下的语音端点检测的精确性。

在一些可选的实现方式中，在步骤202中，电子设备可以按照如下步骤提取视频信息包括的图像帧的特征，得到图像特征序列：

首先，从视频信息包括的图像帧中，确定目标对象的目标部位。

其中，目标部位可以是预先指定的、目标对象上包括嘴唇的部位的图像区域，例如：嘴部区域、脸部区域等。通常，电子设备可以利用现有的目标检测方法，从图像帧中确定目标部位。例如，可以使用目标检测模型进行目标检测，目标检测模型可以是基于现有的目标检测网络(例如SSD(Single Shot MultiBox Detector)、DPM(Deformable Part Model)、RPN(Region Proposal Networks)等)建立的模型。目标检测模型可以从输入其中的图像中，确定目标部位的位置。通常，目标检测模型可以输出表示目标部位的位置的坐标信息。例如，目标位置信息可以包括矩形框的两个对角坐标，通过两个对角坐标，可以在图像帧中确定一个矩形框，从而确定目标部位的位置。

然后，提取目标部位的特征，得到由目标部位的特征组成的图像特征序列。

具体地，电子设备可以利用现有的提取图像特征的方法，提取每个图像帧中的目标部位的特征，将所提取的各个特征组成图像特征序列。

本实现方式可以将提取图像特征的注意力集中到目标部位，使图像特征序列中的图像特征更有针对性及更准确地表征唇部的状态，提高确定唇动状态的准确性，有助于基于唇动状态提高语音端点检测的准确性。

在一些可选的实现方式中，在步骤202中，电子设备可以采用如下任一方式提取视频信息包括的图像帧的特征，得到图像特征序列：

方式一，将视频信息包括的图像帧输入预设的图像特征提取模型，得到图像特征序列。

其中，图像特征提取模型用于表征图像帧和图像特征的对应关系。作为示例，图像特征提取模型可以是预先训练的神经网络模型，神经网络模型可以基于各种结构的深度神经网络，利用预设的训练样本，采用机器学习方法训练得到。作为示例，上述深度神经网络可以包括但不限于以下至少一种：ResNet、MobileNet、VargNet等。

方式二，将视频信息包括的图像帧输入预设的至少两个图像特征提取模型，得到至少两个初始图像特征序列，并将至少两个初始图像特征序列合并为图像特征序列。

作为示例，上述至少两个图像特征提取模型可以包括上述神经网络模型和自定义特征(例如SIFT、SURF、ORB等特征)提取模型。神经网络模型可以输出第一初始图像特征序列，自定义特征提取模型可以输出第二初始图像特征序列，电子设备可以将第一图像特征序列中的每个图像特征与第二图像特征序列中相对应的图像特征合并(合并方式可以与上述步骤203中描述的特征合并方式相同)，得到图像特征序列。

需要说明的是，本实现方式可以与上述可选的实现方式相结合，即图像特征提取模型可以从输入的图像帧中确定目标部位，再提取目标部位的特征，将提取的各个特征组成图像特征序列。

本实现方式通过使用图像特征提取模型，可以准确地提取各种类型的图像特征，通过使用至少两个图像特征提取模型，可以更全面地得到图像特征，使得到的图像特征更准确地表征图像帧，提高确定唇动状态的准确性，有助于基于唇动状态提高语音端点检测的准确性。

在一些可选的实现方式中，步骤204可以如下执行：

对于合并特征序列中的每个合并特征，执行如下步骤：

首先，确定该合并特征对应的预设长度的滑动窗口。其中，滑动窗口包括至少两个合并特征，其包括的合并特征的数量即滑动窗口的长度。作为示例，预设长度为3，对于序号为i的合并特征，其对应的滑动窗口可以包括序号为i-1、i、i+1的合并特征，也可以包括序号为i、i+1、i+2的合并特征，即滑动窗口包括的合并特征可以任意设置。如图3所示，滑在某个时刻，需要基于序号为i的合并特征进行语音状态预测，此时的滑动窗口(图中虚线所示)包括序号为i-1、i、i+1的合并特征。本次语音状态预测结束后，需要基于序号为i+1的合并特征进行语音状态预测，滑动窗口向后移动，即包括i、i+1、i+2。需要说明的是，若滑动窗口包括的合并特征的数量无法达到预设长度，例如当前为第一个合并特征、最后一个合并特征等，则可以用预设的特征将滑动窗口的长度补齐。

然后，提取滑动窗口包括的合并特征。

最后，基于预先训练的语音状态预测模型，利用滑动窗口包括的合并特征，确定该合并特征对应的语音状态概率。

其中，语音状态预测模型用于表征滑动窗口包括的合并特征与语音状态概率的对应关系。通常，语音状态预测模型可以为分类模型，可以对输入的合并特征进行分类，得到每个类别的概率。这里的类别可以为二分类，即合并特征对应的时间点为目标对象发出语音的概率(即语音状态概率)和未发出语音的概率。

作为示例，语音状态预测模型可以包括神经网络(例如卷积神经网络、循环神经网络等)，神经网络可以对输入的滑动窗口包括的合并特征进行诸如卷积、池化、全连接、分类等处理，得到语音状态概率。语音状态预测模型可以利用机器学习方法，利用预设的训练样本对初始模型进行训练。针对每次训练输入的合并特征，可以得到实际输出。其中，实际输出是初始模型实际输出的数据，用于表征输入的合并特征对应的时间点，目标对象是否处于语音状态。然后，上述执行主体可以采用梯度下降法和反向传播法，基于实际输出和期望输出，调整初始模型的参数，将每次调整参数后得到的模型作为下次训练的初始模型，并在满足预设的训练结束条件(例如损失函数的损失值收敛、训练次数达到预设次数等)的情况下，结束训练，从而训练得到语音状态预测模型。

通过对合并特征序列中的每个合并特征执行上述步骤，可以最终得到每个合并特征对应的语音状态概率。本实现方式通过使用滑动窗口，可以在预测某个合并特征对应的语音状态时，结合与该合并特征相邻的合并特征，从而使语音状态预测所使用的数据更加全面，提高了语音状态预测的准确性。

进一步参考图4，示出了语音端点检测方法的又一个实施例的流程示意图。如图4所示，在上述图2所示实施例的基础上，步骤205可以包括如下步骤：

步骤2051，基于语音状态概率，确定音频信息中的音频帧的语音状态信息。

在本实施例中，电子设备可以基于语音状态概率，确定音频信息中的音频帧的语音状态信息。其中，语音状态信息用于表征在语音状态概率对应的音频帧的时间点，目标对象是否发出语音。作为示例，语音状态信息包括数字1和数字0，数字1表示目标对象正在发出语音，数字0表示目标对象未发出语音。电子设备可以将每个语音状态概率与预设的概率阈值进行比较，如果大于或等于概率阈值，则确定语言状态信息为1，否则为0。

步骤2052，基于语音状态信息，确定音频信息中的语音信号段的端点。

在本实施例中，电子设备可以基于语音状态信息，确定音频信息中的语音信号段的端点。作为示例，电子设备可以从语音状态为1的音频帧中，确定连续排列的、数量大于预设数量的音频帧作为语音信号段，语音信号段包括的第一个音频帧和最后一个音频帧即为语音信号段的端点。

上述图4对应实施例提供的方法，通过确定音频帧的语音状态信息，可以更方便地确定语音信号段，有助于利用语音状态信息对语音信号段进行后续的过滤、筛选等处理，提高语音端点检测的准确性。

在一些可选的实现方式中，如图5所示，上述步骤2051可以包括如下步骤：

步骤20511，基于图像特征序列，确定图像特征序列中的每个图像特征对应的唇动状态概率。

通常，电子设备可以利用神经网络，对每个图像特征进行唇动状态预测，得到每个图像特征对应的唇动状态概率。唇动状态概率用于表征某个图像特征对应的图像帧为唇动图像帧的概率，即唇动图像帧对应的时间点，目标对象的唇部在动(即正在发出语音)的概率。神经网络可以包括但不限于卷积神经网络、循环神经网络等的其中至少一种。电子设备可以利用神经网络对每个图像特征单独地进行唇动状态预测，也可以利用循环神经网络等用于分析各个图像特征之间的联系的模型，进行唇动状态预测。

步骤20512，基于唇动状态概率，确定图像特征序列中的每个图像特征对应的唇动状态信息。

其中，唇动状态信息用于表征在唇动状态概率对应的图像帧的时间点，目标对象的唇部是否在动，即是否发出语音。作为示例，唇动状态信息包括数字1和数字0，数字1表示目标对象正在发出语音，数字0表示目标对象未发出语音。电子设备可以将每个唇动状态概率与预设的概率阈值进行比较，如果大于或等于概率阈值，则确定唇动状态信息为1，否则为0。

步骤20513，对于视频信息中的每个图像帧，基于该图像帧对应的唇动状态信息，确定该图像帧对应的语音状态阈值。

其中，语音状态阈值用于与对应的语音状态概率进行对比，以确定音频帧对应的语音状态信息。作为示例，当唇动状态信息表征目标对象的唇部在动时，设置较小的语音状态阈值(例如0.4)，此时目标对象正常发出语音的可能性较大，设置较小的阈值，降低语音状态概率误检测造成的确定语音状态信息的错误风险。当唇动状态信息表征目标对象的唇部不在动时，设置较大的语音状态阈值(例如0.7)，在语音状态概率较大时才能确定目标对象正在发出语音。

本步骤执行完毕后，可以得到每个图像帧对应的语音状态阈值。

步骤20514，对于音频信息中的每个音频帧，基于该音频帧对应的语音状态概率和语音状态阈值，确定该音频帧的语音状态信息。

具体地，对于某个音频帧，确定该音频帧对应的语音状态概率后，将语音状态概率与对应的语音状态阈值对比，若大于或等于语音状态阈值，则确定表征目标对象正在发出语音的语音状态信息，若小于语音状态阈值，则确定表征目标对象未发出语音的语音状态信息。

本步骤执行完毕后，可以得到每个音频帧对应的语音状态信息。

本实现方式通过确定每个图像帧对应的语音状态阈值，基于语音状态阈值确定每个音频帧对应的语音状态信息，可以将唇动状态信息作为确定语音状态信息的参考，从而提高了确定语音状态信息的准确性。

在一些可选的实现方式中，在上述步骤20514中，对于频信息中的每个音频帧，可以采用如下任一方式确定该音频帧的语音状态信息：

方式一，将该音频帧对应的语音状态概率和唇动状态概率进行融合，得到该音频帧对应的融合后概率；基于融合后概率和对应的语音状态阈值，确定该音频帧的语音状态信息。

其中，融合的方式可以包括以下至少一种：相乘、相加、按照预设权值加权求和等。得到融合后概率后，将融合后概率与对应的语音状态阈值进行比较，确定语音状态信息。

方式二，基于该音频帧对应的唇动状态信息，确定预先与唇动状态信息建立对应关系的预设参量；基于预设参量，对该音频帧对应的语音状态概率进行变换，得到变换后概率；基于变换后概率和对应的语音状态阈值，确定该音频帧的语音状态信息。

其中，预设参量可以包括以下至少一种：概率偏移值、概率缩放值。作为示例，语音状态概率为p，当唇动状态信息表征目标对象的唇部在动时，概率偏移值为0.4，概率缩放值为1.1，变换后概率可以为p+0.4或p*1.1或p*1.1+0.4。当唇动状态信息表征目标对象的唇部不在动时，可以不设置预设参量或数值较小的预设参量进行变换。

本实现方式通过将语音状态概率和唇动状态概率进行融合，或基于预设参量对语音状态概率进行变换，从而实现了根据唇动状态的预测结果调整语音状态概率，提高了确定语音状态信息的准确性。

在一些可选的实现方式中，上述步骤20511可以如下执行：

对于图像特征序列中的每个图像特征，执行如下步骤：

首先，确定该图像特征对应的预设长度的滑动窗口。其中，关于滑动窗口的概念可以参考上述关于步骤204的可选的实现方式中描述的滑动窗口，这里不再赘述。

然后，提取滑动窗口包括的图像特征。

最后，基于预先训练的唇动状态预测模型，利用滑动窗口包括的图像特征，确定该图像特征对应的唇动状态概率。

其中，唇动状态预测模型用于表征滑动窗口包括的图像特征与唇动状态概率的对应关系。通常，唇动状态预测模型可以为分类模型，可以对输入的图像特征进行分类，得到每个类别的概率。这里的类别可以为二分类，即图像特征对应的时间点为目标对象的唇部在动的概率(即唇动状态概率)和唇部不在动的概率。

作为示例，唇动状态预测模型可以包括神经网络(例如卷积神经网络、循环神经网络等)，神经网络可以对输入的滑动窗口包括的图像特征进行诸如卷积、池化、全连接、分类等处理，得到唇动状态概率。唇动状态预测模型可以利用机器学习方法，利用预设的训练样本对初始模型进行训练。针对每次训练输入的图像特征，可以得到实际输出。其中，实际输出是初始模型实际输出的数据，用于表征输入的图像特征对应的时间点，目标对象是否处于唇动状态。然后，上述执行主体可以采用梯度下降法和反向传播法，基于实际输出和期望输出，调整初始模型的参数，将每次调整参数后得到的模型作为下次训练的初始模型，并在满足预设的训练结束条件(例如损失函数的损失值收敛、训练次数达到预设次数等)的情况下，结束训练，从而训练得到唇动状态预测模型。

通过对图像特征序列中的每个图像特征执行上述步骤，可以最终得到每个图像特征对应的唇动状态概率。本实现方式通过使用滑动窗口，可以在预测某个图像特征对应的唇动状态时，结合与该图像特征相邻的图像特征，从而使唇动状态预测所使用的数据更加全面，提高了唇动状态预测的准确性。

在一些可选的实现方式中，上述步骤20512可以如下执行：

首先，对所得到的唇动状态概率组成的唇动状态概率序列进行平滑处理和/或过滤处理，得到处理后唇动状态概率序列。

其中，平滑处理可以包括但不限于以下至少一种：一次指数平滑、二次指数平滑等。过滤处理是指，如果一段较大(或较小)的唇动状态概率中，出现一段较短(例如连续出现的次数小于预设次数)的数值较小(或较大)的唇动状态概率，则可以将该较短的唇动状态概率作为异常值过滤掉(例如将该较短的唇动状态概率删除或设置为预设概率)。上述较大的唇动状态概率可以是大于等于预设的概率阈值的唇动状态概率，相应的，上述较小的唇动状态概率可以是小于预设的概率阈值的唇动状态概率。

然后，基于处理后唇动状态概率序列，确定图像特征序列中的每个图像特征对应的唇动状态信息。

本实现方式通过对唇动状态概率序列进行平滑处理和/或过滤处理，可以去除异常状态的唇动状态概率对确定唇动状态的影响，有助于进一步提高语音端点检测的准确性。

在一些可选的实现方式中，上述步骤2051可以如下执行：

首先，对所得到的语音状态概率组成的语音状态概率序列进行平滑处理和/或过滤处理，得到处理后语音状态概率序列。

其中，平滑处理和过滤处理可以参考上述可选的实现方式，这里不再赘述。

然后，基于处理后语音状态概率序列，确定音频信息中的音频帧对应的语音状态信息。

本实现方式通过对语音状态概率序列进行平滑处理和/或过滤处理，可以去除异常状态的语音状态概率对确定语音状态的影响，有助于进一步提高语音端点检测的准确性。

在一些可选的实现方式中，上述步骤2052可以如下执行：

首先，对音频信息中的音频帧的语音状态信息组成的语音状态信息序列进行过滤处理。

其中，过滤处理是指，如果一段语音状态信息中，出现一段较短(例如连续出现的次数小于预设次数)的表征另一状态的语音状态信息(例如一串“1”中出现个别“0”)，则可以将该表征另一状态的语音状态信息作为异常状态过滤掉(例如将一串“1”中出现的“0”删除或设置为“1”)。

然后，基于过滤处理后的语音状态信息序列，确定音频信息中的语音信号段的端点。

本实现方式通过对语音状态信息序列进行过滤处理，可以去除异常状态的语音状态信息，有助于进一步提高语音端点检测的准确性。

示例性装置

图6是本公开一示例性实施例提供的语音端点检测装置的结构示意图。本实施例可应用在电子设备上，如图6所示，语音端点检测装置包括：获取模块601，用于获取针对目标对象采集的音频信息和视频信息，其中，音频信息中的音频帧和视频信息中的图像帧一一对应；提取模块602，用于提取音频信息包括的音频帧的特征，得到音频特征序列，以及提取视频信息包括的图像帧的特征，得到图像特征序列；合并模块603，用于将音频特征序列和图像特征序列合并，得到合并特征序列；第一确定模块604，用于基于合并特征序列，确定合并特征序列中的每个合并特征对应的语音状态概率；第二确定模块605，用于基于语音状态概率，确定音频信息中的语音信号段的端点。

在本实施例中，获取模块601可以从本地或从远程获取针对目标对象采集的音频信息和视频信息。其中，音频信息中的音频帧和视频信息中的图像帧一一对应。

在本实施例中，提取模块602可以提取音频信息包括的音频帧的特征，得到音频特征序列，以及提取视频信息包括的图像帧的特征，得到图像特征序列。

具体地，提取模块602可以利用现有的提取音频特征的方法，提取音频信息包括的每个音频帧的特征，提取的特征组成音频特征序列。提取模块602还可以利用现有的提取图像特征的方法，提取视频信息包括的每个图像帧的特征，提取的特征组成图像特征序列。

在本实施例中，合并模块603可以将音频特征序列和图像特征序列合并，得到合并特征序列。

在本实施例中，第一确定模块604可以基于合并特征序列，确定合并特征序列中的每个合并特征对应的语音状态概率。

通常，第一确定模块604可以利用神经网络，对每个合并特征进行语音状态预测，得到每个合并特征对应的语音状态概率。语音状态概率用于表征某个合并特征对应的音频帧为语音帧的概率，即语音帧对应的时间点，目标对象正在发出语音的概率。神经网络可以包括但不限于卷积神经网络、循环神经网络等的其中至少一种。第一确定模块604可以利用卷积神经网络对每个合并特征单独地进行语音状态预测，也可以利用循环神经网络等用于分析各个合并特征之间的联系的模型，进行语音状态预测。

在本实施例中，第二确定模块605可以基于语音状态概率，确定音频信息中的语音信号段的端点。作为示例，第二确定模块605可以将各个语音状态概率与预设的概率阈值进行对比，将大于或等于概率阈值且连续排列的多个语音状态概率分别对应的音频帧确定为语音信号段，该语音信号段两端的音频帧即为语音信号段的端点。

参照图7，图7是本公开另一示例性实施例提供的语音端点检测装置的结构示意图。

在一些可选的实现方式中，第二确定模块605可以包括：第一确定单元6051，用于基于语音状态概率，确定音频信息中的音频帧的语音状态信息；第二确定单元6052，用于基于语音状态信息，确定音频信息中的语音信号段的端点。

在一些可选的实现方式中，第一确定单元6051可以包括：第一确定子单元60511，用于基于图像特征序列，确定图像特征序列中的每个图像特征对应的唇动状态概率；第二确定子单元60512，用于基于唇动状态概率，确定图像特征序列中的每个图像特征对应的唇动状态信息；第三确定子单元60513，用于对于视频信息中的每个图像帧，基于该图像帧对应的唇动状态信息，确定该图像帧对应的语音状态阈值；第四确定子单元60514，用于对于音频信息中的每个音频帧，基于该音频帧对应的语音状态概率和语音状态阈值，确定该音频帧的语音状态信息。

在一些可选的实现方式中，第四确定子单元60514可以进一步用于：将该音频帧对应的语音状态概率和唇动状态概率进行融合，得到该音频帧对应的融合后概率；基于融合后概率和对应的语音状态阈值，确定该音频帧的语音状态信息；或者，基于该音频帧对应的唇动状态信息，确定预先与唇动状态信息建立对应关系的预设参量；基于预设参量，对该音频帧对应的语音状态概率进行变换，得到变换后概率；基于变换后概率和对应的语音状态阈值，确定该音频帧的语音状态信息。

在一些可选的实现方式中，第一确定子单元60511可以进一步用于：对于图像特征序列中的每个图像特征，确定该图像特征对应的预设长度的滑动窗口；提取滑动窗口包括的图像特征；基于预先训练的唇动状态预测模型，利用滑动窗口包括的图像特征，确定该图像特征对应的唇动状态概率。

在一些可选的实现方式中，提取模块602可以包括：第三确定单元6021，用于从视频信息包括的图像帧中，确定目标对象的目标部位；第一提取单元6022，用于提取目标部位的特征，得到由目标部位的特征组成的图像特征序列。

在一些可选的实现方式中，提取模块602可以包括：第二提取单元6023，用于将视频信息包括的图像帧输入预设的图像特征提取模型，得到图像特征序列；或者，第三提取单元6024，用于将视频信息包括的图像帧输入预设的至少两个图像特征提取模型，得到至少两个初始图像特征序列，并将至少两个初始图像特征序列合并为图像特征序列。

在一些可选的实现方式中，第一确定模块604可以包括：第四确定单元6041，用于对于合并特征序列中的每个合并特征，确定该合并特征对应的预设长度的滑动窗口；第五确定单元6042，用于提取滑动窗口包括的合并特征；第六确定单元6043，用于基于预先训练的语音状态预测模型，利用滑动窗口包括的合并特征，确定该合并特征对应的语音状态概率。

在一些可选的实现方式中，第二确定子单元60512可以进一步用于：对所得到的唇动状态概率组成的唇动状态概率序列进行平滑处理和/或过滤处理，得到处理后唇动状态概率序列；基于处理后唇动状态概率序列，确定图像特征序列中的每个图像特征对应的唇动状态信息。

在一些可选的实现方式中，第一确定单元6051可以包括：第一处理子单元60515，用于对所得到的语音状态概率组成的语音状态概率序列进行平滑处理和/或过滤处理，得到处理后语音状态概率序列；第五确定子单元60516，用于基于处理后语音状态概率序列，确定音频信息中的音频帧对应的语音状态信息。

在一些可选的实现方式中，第二确定单元6052可以包括：第二处理子单元60521，用于对音频信息中的音频帧的语音状态信息组成的语音状态信息序列进行过滤处理；第六确定子单元60522，用于基于过滤处理后的语音状态信息序列，确定音频信息中的语音信号段的端点。

本公开上述实施例提供的语音端点检测装置，通过对提取音频信息包括的音频帧的特征和视频信息包括的图像帧的特征，将音频帧的特征和图像帧的特征合并，确定得到的合并特征序列中的每个合并特征对应的语音状态概率，最后基于语音状态概率，确定语音信号段的端点，从而实现了将音频特征和图像特征相结合进行语音状态检测，在检测时可以将图像特征作为参考，同时由于结合的特征不仅可以表征对音频的特征，还可以表征对图像的特征，使检测所用到的特征的内容更加丰富，因此大大提高了在高噪声的复杂场景下的语音端点检测的精确性。

示例性电子设备

下面，参考图8来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备，该单机设备可以与终端设备101和服务器103进行通信，以从它们接收所采集到的输入信号。

图8图示了根据本公开实施例的电子设备的框图。

如图8所示，电子设备800包括一个或多个处理器801和存储器802。

处理器801可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备800中的其他组件以执行期望的功能。

存储器802可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器801可以运行程序指令，以实现上文的本公开的各个实施例的语音端点检测方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如音频信息、视频信息、音频特征序列、图像特征序列等各种内容。

在一个示例中，电子设备800还可以包括：输入装置803和输出装置804，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是终端设备101或服务器103时，该输入装置803可以是鼠标、键盘、麦克风、相机等设备，用于输入音频信息和视频信息等。在该电子设备是单机设备时，该输入装置803可以是通信网络连接器，用于从终端设备101和服务器103接收所输入的音频信息和视频信息等。

该输出装置804可以向外部输出各种信息，包括确定出的语音信号段的端点。该输出设备804可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图8中仅示出了该电子设备800中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备800还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音端点检测方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音端点检测方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种语音端点检测方法，包括：

获取针对目标对象采集的音频信息和视频信息，其中，所述音频信息中的音频帧和所述视频信息中的图像帧一一对应；提取所述音频信息包括的音频帧的特征，得到音频特征序列，以及提取所述视频信息包括的图像帧的特征，得到图像特征序列；

将所述音频特征序列和所述图像特征序列合并，得到合并特征序列；

基于所述合并特征序列，确定所述合并特征序列中的每个合并特征对应的语音状态概率；

基于所述语音状态概率，确定所述音频信息中的语音信号段的端点；

其中，所述基于所述语音状态概率，确定所述音频信息中的语音信号段的端点，包括：

对于所述视频信息中的每个图像帧，确定该图像帧对应的语音状态阈值；

对于所述音频信息中的每个音频帧，基于该音频帧对应的语音状态概率和语音状态阈值，确定该音频帧的语音状态信息；

基于所述语音状态信息，确定所述音频信息中的语音信号段的端点。

2.根据权利要求1所述的方法，其中，所述对于所述视频信息中的每个图像帧，确定该图像帧对应的语音状态阈值，包括：

基于所述图像特征序列，确定所述图像特征序列中的每个图像特征对应的唇动状态概率；

基于所述唇动状态概率，确定所述图像特征序列中的每个图像特征对应的唇动状态信息；

对于所述视频信息中的每个图像帧，基于该图像帧对应的唇动状态信息，确定该图像帧对应的语音状态阈值。

3.根据权利要求2所述的方法，其中，所述基于该音频帧对应的语音状态概率和语音状态阈值，确定该音频帧的语音状态信息，包括：

将该音频帧对应的语音状态概率和唇动状态概率进行融合，得到该音频帧对应的融合后概率；基于所述融合后概率和对应的语音状态阈值，确定该音频帧的语音状态信息；或者，

基于该音频帧对应的唇动状态信息，确定预先与所述唇动状态信息建立对应关系的预设参量，所述预设参量包括以下至少一种：概率偏移值、概率缩放值；基于所述预设参量，对该音频帧对应的语音状态概率进行变换，得到变换后概率；基于所述变换后概率和对应的语音状态阈值，确定该音频帧的语音状态信息。

4.根据权利要求2所述的方法，其中，所述基于所述图像特征序列，确定所述图像特征序列中的每个图像特征对应的唇动状态概率，包括：

对于所述图像特征序列中的每个图像特征，确定该图像特征对应的预设长度的滑动窗口；

提取所述滑动窗口包括的图像特征；

基于预先训练的唇动状态预测模型，利用所述滑动窗口包括的图像特征，确定该图像特征对应的唇动状态概率。

5.根据权利要求1所述的方法，其中，所述提取所述视频信息包括的图像帧的特征，得到图像特征序列，包括：

从所述视频信息包括的图像帧中，确定所述目标对象的目标部位；

提取所述目标部位的特征，得到由所述目标部位的特征组成的图像特征序列。

6.根据权利要求1所述的方法，其中，所述基于所述合并特征序列，确定所述合并特征序列中的每个合并特征对应的语音状态概率，包括：

对于所述合并特征序列中的每个合并特征，确定该合并特征对应的预设长度的滑动窗口；

提取所述滑动窗口包括的合并特征；

基于预先训练的语音状态预测模型，利用所述滑动窗口包括的合并特征，确定该合并特征对应的语音状态概率。

7.一种语音端点检测装置，包括：

获取模块，用于获取针对目标对象采集的音频信息和视频信息，其中，所述音频信息中的音频帧和所述视频信息中的图像帧一一对应；

提取模块，用于提取所述音频信息包括的音频帧的特征，得到音频特征序列，以及提取所述视频信息包括的图像帧的特征，得到图像特征序列；

合并模块，用于将所述音频特征序列和所述图像特征序列合并，得到合并特征序列；

第一确定模块，用于基于所述合并特征序列，确定所述合并特征序列中的每个合并特征对应的语音状态概率；

第二确定模块，用于基于所述语音状态概率，确定所述音频信息中的语音信号段的端点；

其中，所述第二确定模块包括：

第一确定单元，用于对于所述视频信息中的每个图像帧，确定该图像帧对应的语音状态阈值；对于所述音频信息中的每个音频帧，基于该音频帧对应的语音状态概率和语音状态阈值，确定该音频帧的语音状态信息；

第二确定单元，用于基于所述语音状态信息，确定所述音频信息中的语音信号段的端点。

8.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-6任一所述的方法。

9.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-6任一所述的方法。