CN115063867A

CN115063867A - 说话状态识别方法及模型训练方法、装置、车辆、介质

Info

Publication number: CN115063867A
Application number: CN202210772934.1A
Authority: CN
Inventors: 范栋轶; 李潇婕; 王飞; 钱晨
Original assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-09-16
Also published as: WO2024001539A1

Abstract

本申请实施例公开了一种说话状态识别方法及模型训练方法、装置、车辆、介质，其中，说话状态识别方法包括：获取目标对象的面部图像帧序列；获取面部图像帧序列中各图像帧的嘴部关键点信息；基于嘴部关键点信息，确定面部图像帧序列对应的嘴部关键点的位移特征，位移特征表征嘴部关键点在面部图像帧序列中的多个图像帧之间的位置变化；根据位移特征确定目标对象的说话状态的识别结果。

Description

说话状态识别方法及模型训练方法、装置、车辆、介质

技术领域

本申请涉及但不限于信息技术领域，尤其涉及一种说话状态识别方法及模型训练方法、装置、车辆、介质。

背景技术

唇动检测技术，可以利用计算机视觉技术从视频图像中识别人脸，提取人脸的嘴部区域的变化特征，从而识别嘴部区域运动状态。然而，相关技术中的唇动检测的准确度较低。

发明内容

有鉴于此，本申请实施例至少提供一种说话状态识别方法及模型训练方法、装置、车辆、介质。

本申请实施例的技术方案是这样实现的：

一方面，本申请实施例提供一种说话状态识别方法，所述方法包括：获取目标对象的面部图像帧序列；获取所述面部图像帧序列中各图像帧的嘴部关键点信息；基于所述嘴部关键点信息，确定所述面部图像帧序列对应的嘴部关键点的位移特征，所述位移特征表征所述嘴部关键点在所述面部图像帧序列中的多个图像帧之间的位置变化；根据所述位移特征确定所述目标对象的说话状态的识别结果。

另一方面，本申请实施例提供一种模型训练方法，所述方法包括：

获取目标对象的样本面部图像帧序列，其中，所述样本面部图像帧序列标注有表征所述目标对象的说话状态的样本标签；

获取所述样本面部图像帧序列中各样本图像帧的嘴部关键点信息；

基于所述嘴部关键点信息，确定所述样本面部图像帧序列对应的嘴部关键点的位移特征，所述位移特征表征所述嘴部关键点在所述样本面部图像帧序列中的多个样本图像帧之间的位置变化；

利用待训练的模型中的识别结果生成网络，根据所述位移特征确定所述目标对象的说话状态的识别结果；

基于所述识别结果和所述样本标签，对所述模型的网络参数进行至少一次更新，得到训练后的所述模型。

再一方面，本申请实施例提供一种说话状态识别装置，所述装置包括：

第一获取模块，用于获取目标对象的面部图像帧序列；

第二获取模块，用于获取所述面部图像帧序列中各图像帧的嘴部关键点信息；

第一确定模块，用于基于所述嘴部关键点信息，确定所述面部图像帧序列对应的嘴部关键点的位移特征，所述位移特征表征所述嘴部关键点在所述面部图像帧序列中的多个图像帧之间的位置变化；

第二确定模块，用于根据所述位移特征确定所述目标对象的说话状态的识别结果。

又一方面，本申请实施例提供一种模型训练装置，包括：

第三获取模块，用于获取目标对象的样本面部图像帧序列，其中，所述样本面部图像帧序列标注有表征所述目标对象的说话状态的样本标签；

第四获取模块，用于获取所述样本面部图像帧序列中各样本图像帧的嘴部关键点信息；

第三确定模块，用于基于所述嘴部关键点信息，确定所述样本面部图像帧序列对应的嘴部关键点的位移特征，所述位移特征表征所述嘴部关键点在所述样本面部图像帧序列中的多个样本图像帧之间的位置变化；

第四确定模块，用于利用待训练的模型中的识别结果生成网络，根据所述位移特征确定所述目标对象的说话状态的识别结果；

更新模块，用于基于所述识别结果和所述样本标签，对所述模型的网络参数进行至少一次更新，得到训练后的所述模型。

又一方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法中的部分或全部步骤。

又一方面，本申请实施例提供一种车辆，包括：

车载相机，用于拍摄包含目标对象的面部图像帧序列；

车机，与所述车载相机连接，用于从所述车载相机获取所述目标对象的面部图像帧序列；获取所述面部图像帧序列中各图像帧的嘴部关键点信息；基于所述嘴部关键点信息，确定所述面部图像帧序列对应的嘴部关键点的位移特征，所述位移特征表征所述嘴部关键点在所述面部图像帧序列中的多个图像帧之间的位置变化；根据所述位移特征确定所述目标对象的说话状态的识别结果。

又一方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。

又一方面，本申请实施例提供一种计算机程序，包括计算机可读代码，当所述计算机可读代码在计算机设备中运行时，所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。

又一方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现上述方法中的部分或全部步骤。

本申请实施例中，首先，获取目标对象的面部图像帧序列，获取面部图像帧序列中各图像帧的嘴部关键点信息；这样，能够获取目标对象在面部图像帧序列中各图像帧的嘴部关键点信息；其次，基于嘴部关键点信息，确定面部图像帧序列对应的嘴部关键点的位移特征，位移特征表征嘴部关键点在面部图像帧序列中的多个图像帧之间的位置变化；这样，面部图像帧序列对应的嘴部关键点的位移特征，能够表示目标对象在面部图像帧序列中嘴部关键点的位置变化过程；最后，根据位移特征确定目标对象的说话状态的识别结果；这样，能够提升确定出的目标对象的说话状态的识别结果的精确度。在本申请实施例中，由于面部图像帧序列对应的嘴部关键点的位移特征，能够表示目标对象在面部图像帧序列中嘴部关键点的位置变化过程，根据位移特征确定目标对象的说话状态的识别结果，能够精确识别目标对象的说话状态，从而能够提升说话状态的识别的精确度。并且，相较于利用面部图像帧裁剪得到的嘴部区域图像序列进行说话状态识别，上述方案利用嘴部关键点的位移特征，能够降低说话状态识别所需的计算量，从而降低执行说话状态识别方法的计算机设备的硬件要求。此外，利用嘴部关键点的位移特征，对不同脸型、纹理等外观信息的面部图像帧都能取得良好的识别效果，从而提高了说话状态识别的泛化能力。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请的技术方案。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1为本申请实施例提供的一种说话状态识别方法的实现流程示意图；

图2为本申请实施例提供的一种说话状态识别方法的实现流程示意图；

图3为本申请实施例提供的一种脸部关键点示意图；

图4为本申请实施例提供的一种说话状态识别方法的实现流程示意图；

图5为本申请实施例提供的一种说话状态识别方法的实现流程示意图；

图6为本申请实施例提供的一种说话状态识别方法的实现流程示意图；

图7为本申请实施例提供的一种模型训练方法的实现流程示意图；

图8为本申请实施例提供的一种说话状态识别模型的组成结构示意图；

图9为本申请实施例提供的一种说话状态识别装置的组成结构示意图；

图10为本申请实施例提供的一种模型训练装置的组成结构示意图；

图11为本申请实施例提供的一种计算机设备的硬件实体示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图和实施例对本申请的技术方案进一步详细阐述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

所涉及的术语“第一/第二/第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请的目的，不是旨在限制本申请。

车舱智能化包括多模交互、个性化服务、安全感知等方面的智能化，是当前汽车行业发展的重要方向。其中，车舱多模交互意在为乘客提供舒适的交互体验，多模交互的方式包括但不限于语音识别、手势识别等。然而，在车舱实际应用中，例如存在窗外风声、车内闲聊等声音干扰的情况下，语音识别的准确度不高。因此，引入利用计算机视觉特征的唇动检测，有利于识别出更精确的说话状态的区间，从而提升语音识别精度。但是，本申请实施例的发明人发现相关技术的唇动检测方案存在局限：一方面，将嘴部区域的图像序列作为模型输入的方案，通过人脸检测找出图像中人脸对应的位置，把图像中嘴部区域切割出来，得到嘴部区域图像的图像序列，将该图像序列输入卷积神经网络进行特征提取，并将特征输入时序预测网络进行分类。由于嘴部区域图像的图像序列对嘴部运动信息不敏感，使得说话状态识别的精准度不高，且三维卷积需要消耗大量计算资源，对硬件要求也很高，难以大范围应用。另一方面，根据上下嘴唇点的距离与阈值进行判断，根据判断结果确定是否处于说话状态的方案，一些张嘴但不说话动作容易引起误报，说话状态识别的精准度不高。

本申请实施例提供一种说话状态识别方法，该方法可以由计算机设备的处理器执行。其中，计算机设备指的可以是车机、服务器、笔记本电脑、平板电脑、台式计算机、智能电视、机顶盒、移动设备(例如移动电话、便携式视频播放器、个人数字助理、专用消息设备、便携式游戏设备)等具备数据处理能力的设备。图1为本申请实施例提供的一种说话状态识别方法的实现流程示意图，如图1所示，该方法包括如下步骤S101至步骤S104：

步骤S101，获取目标对象的面部图像帧序列。

计算机设备获取到多个图像帧，多个图像帧由摄像头等采集组件对目标对象拍摄得到，按照每一图像帧对应的采集时间进行排序，或者根据图像帧的采集顺序，实时地将采集到的图像帧加入至目标对象的面部图像序列。得到目标对象的面部图像帧序列。面部图像帧序列的长度可以是不固定的。在实施时，面部图像帧序列的长度可以为40帧、50帧或100帧。计算机设备获取多个图像帧的方式，可以是由本计算机设备通过调用摄像头获取的，也可以是从其他计算机设备获取的；例如本计算机设备为车辆，可以通过车载相机获取图像，也可以利用与移动终端的无线传输等方式，获取移动终端采集的图像。需要说明的是，面部图像帧序列的至少一个图像帧可以来源于视频流，一个视频流可以包括多个视频帧，每一视频帧对应一个图像帧。

在一些实施方式中，可以根据预设规则从视频中获取与每一目标面部图像帧对应的至少一个面部图像帧序列。其中，预设规则可以是滑动窗口法，从滑动窗口中多次取出面部图像帧序列，也就是利用预设的滑动步长，每一次从连续的多个面部图像帧中选取连续的预设数量个图像帧为面部图像帧序列，在完成一个面部图像帧序列的处理(即完成基于该面部图像帧序列的说话状态识别)之后，将滑动窗口沿预设方向、按照滑动步长滑动，取出滑动窗口内的面部图像帧，形成新的面部图像帧序列；可以是以固定间隔或不固定间隔选取图像帧为面部图像帧序列。目标面部图像帧的图像画面可以包含目标对象的部分或全部的面部，且至少包括嘴部；目标对象通常是人类，但也可以是其他具有表达能力的动物，例如猩猩。并且，目标面部图像帧可以理解为待识别说话状态的图像帧。

这样，能够获取目标对象的面部图像帧序列。

步骤S102，获取面部图像帧序列中各图像帧的嘴部关键点信息。

针对至少一个面部图像帧序列中的每一面部图像帧序列，面部图像帧序列包括至少一个图像帧，可以对该面部图像帧序列中的至少一个图像帧进行关键点检测，得到至少包括在图像帧中各嘴部关键点的位置信息的嘴部关键点信息。

在一些实施方式中，获取面部图像帧序列中各图像帧的嘴部关键点信息，包括：针对面部图像帧序列中的每一面部图像帧进行人脸关键点检测，以获取每一面部图像帧中的嘴部关键点信息。

每一面部图像帧中的嘴部关键点信息，可以采用任意合适的方式得到。例如，可以利用已训练的关键点检测模型对面部图像帧进行人脸关键点检测。在实施时，卷积神经网络、循环神经网络等对面部图像帧进行关键点检测得到。

在一些实施方式中，位置信息可以通过位置参数表示，例如以图像坐标系中的二维坐标表示，二维坐标包括宽度(横坐标)和高度(纵坐标)；位移特征可以表示关键点在面部图像帧序列的运动特征。关键点的位置信息与嘴部形状相关，同一关键点在不同图像帧的位置信息随嘴部形状变化而变化。

步骤S103，基于嘴部关键点信息，确定面部图像帧序列对应的嘴部关键点的位移特征，位移特征表征嘴部关键点在面部图像帧序列中的多个图像帧之间的位置变化。

根据嘴部关键点信息，确定能够表征嘴部关键点在面部图像帧序列中的多个图像帧之间的位置变化的位移特征。

在一些实施方式中，在面部图像帧序列包括至少两个图像帧的情况下，针对每一图像帧，可以计算嘴部关键点在该图像帧和在面部图像帧序列中与该图像帧相邻的第一设定数量的图像帧之间的位置信息的差异信息，并根据图像帧的嘴部关键点信息得到位移特征，例如，可以根据设定顺序对差异信息进行排序，将得到的结果作为位移特征。其中，第一设定数量可以为一个，也可以为两个或以上，与该图像帧相邻的第一设定数量的图像帧可以是在该图像帧之前和/或在该图像帧之后的连续的图像帧。

例如，第一设定数量为一个，位移特征可以包括以下至少之一：该图像帧与前一图像帧之间的位置信息的差异信息；该图像帧与后一图像帧之间的位置信息的差异信息。以位移特征为该图像帧与前一图像帧之间的位置信息的差异信息，每一图像帧包括4个嘴部关键点为例，嘴部关键点在该图像帧的位置信息分别为(x₁，y₁)、(x₂，y₂)、(x₃，y₃)、(x₄，y₄)，嘴部关键点在前一图像帧的位置信息分别为(x'₁，y'₁)、(x'₂，y'₂)、(x'₃，y'₃)、(x'₄，y'₄)，得到的位移特征为[(x'1-x₁，y'₁-y₁),(x'₂-x₂，y'₂-y₂),(x'₃-x₃，y'₃-y₃),(x'₄-x₄，y'₄-y₄)]。

步骤S104，根据位移特征确定目标对象的说话状态的识别结果。

利用面部图像帧序列对应的位移特征，对目标对象的说话状态进行识别，得到识别结果，识别结果表征目标对象在面部图像帧序列的设定图像帧时是否处于正在说话状态。

目标对象的说话状态可以采用任意合适的识别方式得到，例如，可以采用用于分类的神经网络对位移特征进行分类得到；又例如，可以通过预先设置规则对位移特征进行匹配得到。

目标对象的说话状态的识别结果，可以表示在设定图像帧时，目标对象是否处于正在说话的状态。其中，设定图像帧可以是图像帧序列中设定序号的图像帧，包括但不限于第一帧、第二帧、最后一帧或倒数第二帧。

识别结果包括任意合适的能够描述目标对象是否处于说话状态的信息，例如，可以是直接描述目标对象是否处于正在说话状态的信息，也可以包括间接描述目标对象是否处于正在说话状态的信息，例如置信度。这里，目标对象处于说话状态，表示对应的目标图像帧是对正在说话的目标对象拍摄得到的图像帧；目标对象处于未在说话状态，表示对应的目标图像帧是对未在说话的目标对象拍摄得到的图像帧。

这样，能够提升确定出的目标对象的说话状态的识别结果的精确度。

在本申请实施例中，由于面部图像帧序列对应的嘴部关键点的位移特征，能够表示目标对象在面部图像帧序列中嘴部关键点的位置变化过程，根据位移特征确定目标对象的说话状态的识别结果，能够精确识别目标对象的说话状态，从而能够提升说话状态的识别的精确度。并且，相较于利用嘴部区域图像序列进行说话状态识别，利用嘴部关键点的位移特征进行说话状态识别，能够降低说话状态识别所需的计算量，从而降低执行说话状态识别方法的计算机设备的硬件要求。此外，利用嘴部关键点的位移特征，对不同脸型、纹理等外观信息的面部图像帧都能取得良好的识别效果，从而提高了说话状态识别的泛化能力。

在一些实施例中，在根据位移特征确定目标对象的说话状态的识别结果之后，可以根据识别结果从面部图像帧序列来源的视频流中取出目标对象处于说话状态的图像帧序列。这样，能够提升从视频流中选取目标对象处于正在说话状态的图像帧序列的精准度。并且，在利用识别结果从视频流中选取的图像帧序列进行唇语识别时，还能够提升唇语识别的准确度，降低唇语识别的图像处理过程所需的计算量。

在一些实施方式中，在面部图像帧序列包括多个面部图像帧的情况下，上述步骤S103可以通过图2所示的步骤实现。图2为本申请实施例提供的一种说话状态识别方法的实现流程示意图，结合图2所示的步骤进行以下说明：

步骤S1031，针对每一面部图像帧，执行以下步骤：根据每一嘴部关键点在面部图像帧和面部图像帧的相邻帧中的嘴部关键点信息，确定每一嘴部关键点的帧间位移信息；根据面部图像帧中的多个嘴部关键点对应的嘴部关键点信息，确定面部图像帧中的多个嘴部关键点的帧内差异信息；基于多个嘴部关键点各自的帧间位移信息以及帧内差异信息，确定面部图像帧对应的嘴部关键点的位移特征。

在一些实施例中，对于每一面部图像帧，根据嘴部关键点在该面部图像帧中和在面部图像帧序列中与该面部图像帧相邻的第二设定数量的面部图像帧之间的位置信息的差异信息，确定该嘴部关键点的帧间位移信息。其中，第二设定数量可以为一个，也可以为两个或以上，与该面部图像帧相邻的第二设定数量的图像帧可以是在该面部图像帧之前和/或在该面部图像帧之后的连续的面部图像帧。以第二设定数量为两个，该面部图像帧在面部图像帧序列中的序号为20为例进行说明，与该面部图像帧相邻的第二设定数量的图像帧可以是面部图像帧序列中序号为18、19、21、22的图像帧。

在一些实施方式中，面部图像帧之间的位置信息的差异信息包括但不限于：第一高度差、第一宽度差等中的至少之一；第一宽度差为该嘴部关键点在图像帧帧间的宽度差值，第一高度差为该嘴部关键点在图像帧帧间的高度差值。在实施时，可以将面部图像帧序列中在后的图像帧的位置信息作为被减数，在前的图像帧的位置信息作为减数；也可以将面部图像帧序列中在前的图像帧的位置信息作为被减数，在后的图像帧的位置信息作为减数。

在一些实施例中，针对每一面部图像帧，计算嘴部关键点所属的预设关键点对在该面部图像帧的第二高度差、第二宽度差等中的至少之一，得到该预设关键点对中的每一嘴部关键点在面部图像帧的帧内差异信息。其中，预设关键点对包括两个关键点，在设置预设关键点对时通常考虑关键点在图像中的位置信息，也就是说，属于同一预设关键点对的两个关键点之间满足设定位置关系；例如，将分别位于上下嘴唇的两个关键点作为一个关键点对。实际应用中，可以将图像中宽度的差异信息小于预设值的两个关键点确定为预设关键点对。

在一些实施方式中，一个嘴部关键点可以分别与两个或以上的关键点构成预设关键点对，也就是说，每一嘴部关键点可以属于至少一个关键点对。此时，分别确定该嘴部关键点所属每一关键点对的第二高度差，并可以通过至少两个第二高度差加权计算或取最值的方式，得到该嘴部关键点在该面部图像帧的帧内差异信息。图3为本申请实施例提供的一种脸部关键点示意图，以图3示出的106点脸部关键点示意图为例，包括0-105号共106个关键点，可以描述人脸的脸部轮廓、眉毛、眼睛、鼻子、嘴巴等特征，其中的84至103号关键点是用于描述嘴巴的嘴部关键点。在实施时，86号关键点可以分别与103号关键点和94号关键点构成预设关键点对，也就是说，86号关键点可以属于两个预设关键点对，分别计算得到两个第二高度差，再通过加权求和确定86号关键点在该面部图像帧的帧内差异信息。这样，可以改善因关键点检测误差导致的位移特征计算偏差，基于位移特征进行说话状态识别，能够提升说话状态识别的精准度。

对于每一面部图像帧，基于面部图像帧中的每一嘴部关键点的帧内差异信息和帧间位移信息，通过顺序拼接或加权计算的方式确定该面部图像帧的位移特征。这样，基于所有关键点在该面部图像帧的帧间位移信息和帧内差异信息，可以确定该面部图像帧的位移特征。例如，每一嘴部关键点在位移特征中对应一个5维特征，5维特征中的前4维为帧间位移信息，分别是该图像帧和前一图像帧的宽度差、该图像帧和前一图像帧的高度差、该图像帧和后一图像帧的宽度差、该图像帧和后一图像帧的高度差，第5维为帧内差异信息，是预设关键点对在该图像帧的第二高度差。

步骤S1032，根据面部图像帧序列中的多个面部图像帧分别对应的嘴部关键点的位移特征，确定面部图像帧序列对应的嘴部关键点的位移特征。

在一些实施方式中，可以根据设定顺序对多个面部图像帧分别对应的嘴部关键点的位移特征进行排序，得到面部图像帧序列对应的嘴部关键点的位移特征。

在本申请实施例中，帧内差异信息可以表示满足设定关系的嘴部关键点之间的差异，提升每一面部图像帧中的嘴部形状识别的准确度；帧间位移信息可以表示在图像帧序列对应的说话过程中嘴部关键点的帧间变化过程；这样，利用每一面部图像帧中的帧内差异信息和帧间位移信息，可以更好地提取说话过程中嘴部形状的变化特征，进而能够提升说话状态识别的精确度。

在一些实施方式中，步骤S1031，可以包括如下步骤S10311至步骤S10314：

步骤S10311：确定面部图像帧序列中各图像帧中目标对象的眼嘴距离。

眼嘴距离表示图像帧中目标对象的眼睛与嘴部之间的距离。在一些实施方式中，针对面部图像帧序列内每一图像帧，将该图像帧中两眼关键点坐标均值作为第一坐标，以及将嘴部关键点坐标均值作为第二坐标，计算第一坐标和第二坐标的距离得到该图像帧中目标对象的眼嘴距离。其中，眼嘴距离可以是第一坐标和第二坐标之间的横向距离，可以是第一坐标和第二坐标之间的纵向距离，还可以是第一坐标和第二坐标之间的二维距离。

步骤S10312：根据面部图像帧序列中各图像帧中目标对象的眼嘴距离，确定参考距离。

在一些实施方式中，可以将面部图像帧序列对应的多个眼嘴距离中的最大值、最小值、均值或中位数值等中的之一作为参考距离。

在一些实施方式中，在存在多个面部图像帧序列的情况下，可以从多个面部图像帧序列对应的眼嘴距离中确定出最大的眼嘴距离，将这个最大的眼嘴距离作为参考距离。

步骤S10313：将参考距离作为归一化分母，分别对多个嘴部关键点各自的帧间位移信息和帧内差异信息进行归一化处理，得到处理后的帧间位移信息和处理后的帧内差异信息。

将参考距离作为归一化分母，各嘴部关键点的帧间位移信息作为归一化分子，得到该嘴部关键点的处理后的帧间位移信息；将参考距离作为归一化分母，各嘴部关键点的帧内差异信息作为归一化分子，得到该嘴部关键点的处理后的帧内差异信息。

步骤S10314：基于多个嘴部关键点各自的处理后的帧间位移信息以及处理后的帧内差异信息，确定面部图像帧对应的嘴部关键点的位移特征。

对于每一面部图像帧，基于面部图像帧中的多个嘴部关键点各自的处理后的帧内差异信息，以及处理后的帧间位移信息，通过顺序拼接或加权计算的方式确定该面部图像帧的位移特征。

在本申请实施例中，以面部图像帧序列中各图像帧中目标对象的眼嘴距离，确定帧间位移信息和帧内差异信息的归一化分母，根据归一化处理得到的位移特征，这样，能够使得位移特征更加规范，从而提升确定出的目标对象的说话状态的识别结果的精确度。并且，在使用模型实现目标对象的说话状态的识别的情况下，可以提升该模型在训练过程中的收敛速度。

图4为本申请实施例提供的一种说话状态识别方法的实现流程示意图，结合图4所示的步骤进行以下说明：

步骤S201，以滑动窗口的方式从包含目标对象的面部信息的视频流中，依次取出预设长度的图像帧序列，作为目标对象的面部图像帧序列。

获取包含目标对象的面部信息的视频流，以预设的窗口大小的滑动窗口、预设的滑动步长对该视频流进行处理，从该视频流中依次取出多个与窗口大小相同的预设长度的图像帧序列，将取出的多个图像帧序列中的每个图像帧序列分别作为目标对象的面部图像帧序列。其中，滑动窗口的滑动步长不小于1，且滑动窗口的滑动步长不大于预设长度，由此滑动窗口每滑动一次所取出的面部图像帧序列与上一次取出的面部图像帧序列中至少具有一个非重叠帧，同时至少具有一个重叠帧。

在实施时，考虑说话状态的识别精度等因素，可以将窗口大小设置为22个图像帧，滑动步长设置为1至22中的任一整数，这样能够得到多个长度为22的图像帧序列。

步骤S202，获取面部图像帧序列中各图像帧的嘴部关键点信息。

步骤S203，基于嘴部关键点信息，确定面部图像帧序列对应的嘴部关键点的位移特征，位移特征表征嘴部关键点在面部图像帧序列中的多个图像帧之间的位置变化。

在一些实施方式中，面部图像帧序列包括多个面部图像帧；基于嘴部关键点信息，确定面部图像帧序列对应的嘴部关键点的位移特征，包括：针对每一面部图像帧，执行以下步骤：根据每一嘴部关键点在面部图像帧和面部图像帧的相邻帧中的嘴部关键点信息，确定每一嘴部关键点的帧间位移信息；根据面部图像帧中的多个嘴部关键点对应的嘴部关键点信息，确定面部图像帧中的多个嘴部关键点的帧内差异信息；基于多个嘴部关键点各自的帧间位移信息以及帧内差异信息，确定面部图像帧对应的嘴部关键点的位移特征；根据面部图像帧序列中的多个面部图像帧分别对应的嘴部关键点的位移特征，确定面部图像帧序列对应的嘴部关键点的位移特征。

在一些实施方式中，基于多个嘴部关键点各自的帧间位移信息以及帧内差异信息，确定面部图像帧对应的嘴部关键点的位移特征，包括：确定面部图像帧序列中各图像帧中目标对象的眼嘴距离；根据面部图像帧序列中各图像帧中目标对象的眼嘴距离，确定参考距离；将参考距离作为归一化分母，分别对多个嘴部关键点各自的帧间位移信息和帧内差异信息进行归一化处理，得到处理后的帧间位移信息和处理后的帧内差异信息；基于多个嘴部关键点各自的处理后的帧间位移信息以及处理后的帧内差异信息，确定面部图像帧对应的嘴部关键点的位移特征。

步骤S204，根据位移特征确定目标对象的说话状态的识别结果。

这里，上述步骤S202至步骤S204分别对应于前述步骤S102至步骤S104，在实施时可以参照前述步骤S102至步骤S104的实施方式。

在本申请实施例中，利用滑动窗口从视频流中依次取出多个预设长度的面部图像帧序列，以这些预设长度的面部图像帧序列确定在视频流中设定图像帧时，目标对象是否处于正在说话的状态的识别结果，得到视频流中多个图像帧的识别结果。可以通过滑动窗口多次获取的面部图像帧序列进行说话状态识别，能够反映目标对象在滑动窗口取出的多个面部图像帧序列中嘴部关键点的位置变化过程，且多个面部图像帧序列之间至少有部分重叠帧，从而可以精确识别目标对象在连续的图像帧中的任意设定图像帧的说话状态，提升目标对象的说话状态的识别结果的精确度，进而可以提升从视频流中选取目标对象处于正在说话状态的图像帧序列的精准度。

图5为本申请实施例提供的一种说话状态识别方法的实现流程示意图，结合图5所示的步骤进行以下说明：

步骤S301，获取目标对象的面部图像帧序列。

步骤S302，获取面部图像帧序列中各图像帧的嘴部关键点信息。

步骤S303，基于嘴部关键点信息，确定面部图像帧序列对应的嘴部关键点的位移特征，位移特征表征嘴部关键点在面部图像帧序列中的多个图像帧之间的位置变化。

这里，上述步骤S301至步骤S303分别对应于前述步骤S101至步骤S103，在实施时可以参照前述步骤S101至步骤S103的实施方式。

步骤S304，采用经过训练的关键点特征提取网络对位移特征进行处理，得到面部图像帧序列的空间特征。

在一些实施方式中，可以先对位移特征中帧间位移信息、帧内差异信息分别进行特征提取，得到嘴部关键点的帧间位移特征和帧内差异特征，再在帧间位移特征和帧内差异特征之间进行空间特征提取，得到该图像帧的空间特征，根据面部图像帧序列中的各图像帧的空间特征，得到面部图像帧序列的空间特征。例如，每一关键点在位移特征中对应一个5维特征，5维特征中的前4维是帧间位移信息，分别是图像帧和前一图像帧的宽度差、图像帧和前一图像帧的高度差、图像帧和后一图像帧的宽度差、图像帧和图像帧的高度差，第5维是帧内差异信息。分别对5维特征中的每一维在不同关键点之间进行特征提取得到特征，在该特征中前4维是嘴部关键点在该图像帧的帧间位移特征，第5维是嘴部关键点在该图像帧的帧内差异特征。再对这5维之间进行进行空间特征提取，得到该图像帧的空间特征。

经过训练的关键点特征提取网络经过预设样本集训练得到，可以由任意合适的网络架构实现，包括但不限于卷积神经网络、循环神经网络等中的至少之一。

步骤S305，采用经过训练的时序特征提取网络对空间特征进行处理，得到面部图像帧序列的时空特征。

在一些实施方式中，对面部图像帧序列中多个图像帧的空间特征进行至少一次时间特征提取，得到该图像帧对应的时空特征，根据面部图像帧序列中的各图像帧的时空特征，得到面部图像帧序列的时空特征。时空特征可以是采用任意合适的特征提取方式从空间特征中提取得到的。例如，以一次时间特征提取为例，利用1×5的卷积核进行特征提取，每次卷积对该图像帧前后各两个图像帧的空间特征进行提取，提取得到的时空特征包括五个图像帧的信息。

经过训练的时序特征提取网络经过预设样本集训练得到，可以由任意合适的网络架构实现，包括但不限于卷积神经网络、循环神经网络等中的至少之一。

由于时间特征提取的次数越多、使用的卷积核越大，每一图像帧的时空特征能表示更多图像帧的信息，对应的感受野越大，利于提升说话状态识别的精确度，但需要消耗的计算资源更大，影响硬件运算效率；综合考虑精确度和硬件运算效率等因素，在实施时可以将时间特征提取的次数设置为5次。

在一些实施方式中，基于训练样本集对关键点特征提取网络和时序特征提取网络进行训练，其中，训练样本集包括已标注所包含的各视频帧中的对象说话状态的连续视频帧序列。

这里，以包括已标注所包含的各视频帧中的对象说话状态的连续视频帧序列，对关键点特征提取网络和时序特征提取网络进行训练，得到经过训练的关键点特征提取网络和经过训练的时序特征提取网络。

步骤S306，基于时空特征确定目标对象的说话状态的识别结果。

利用面部图像帧序列中图像帧的时空特征，对目标对象的说话状态进行识别，得到识别结果，识别结果表征目标对象在面部图像帧序列中设定图像帧时，是否处于正在说话状态。

目标对象的说话状态可以采用任意合适的识别方式得到，例如，可以采用分类网络对位移特征识别得到，例如全局平均池化层(Global Average Pooling，GAP)，或者全连接层；又例如，可以通过预先设置规则对位移特征进行匹配得到。

在本申请实施例中，由于各网络是可学习的，通过学习能够精确识别目标对象的说话状态，从而提升说话状态的识别的精确度。并且，本申请实施例支持使用卷积神经网络进行时空特征提取；相较于采用循环神经网络(例如，递归神经网路)等时序预测网络提取时空特征，通过卷积神经网络提取时空特征的计算量较少，能够降低计算资源的消耗，降低说话状态识别的计算机设备的硬件要求。并且，对于采用卷积神经网络能够降低对芯片计算能力的要求，从而本申请实施例提供的说话状态识别方法能够通过更多轻量化的芯片实现，更多硬件支持本申请实施例的说话状态识别方法，使得更多的硬件支持说话状态识别，提升了说话状态识别的通用性，例如车机等计算机设备也可以实现说话状态识别。

图6为本申请实施例提供的一种说话状态识别方法的实现流程示意图，结合图6所示的步骤进行以下说明：

步骤S401，获取目标对象的面部图像帧序列。

步骤S402，获取面部图像帧序列中各图像帧的嘴部关键点信息。

步骤S403，基于嘴部关键点信息，确定面部图像帧序列对应的嘴部关键点的位移特征，位移特征表征嘴部关键点在面部图像帧序列中的多个图像帧之间的位置变化。

这里，上述步骤S401至步骤S403分别对应于前述步骤S101至步骤S103，在实施时可以参照前述步骤S101至步骤S103的实施方式。

步骤S404，采用经过训练的关键点特征提取网络对位移特征进行处理，得到面部图像帧序列的空间特征。

步骤S405，采用经过训练的时序特征提取网络对空间特征进行处理，得到面部图像帧序列的时空特征。

这里，上述步骤S404至步骤S405分别对应于前述步骤S304至步骤S305，在实施时可以参照前述步骤S304至步骤S305的实施方式。

步骤S406，根据时空特征确定目标对象与面部图像帧序列对应的说话状态的识别结果，作为目标对象在面部图像帧序列中的最后一个图像帧中的说话状态的识别结果。

利用面部图像帧序列中图像帧的时空特征，对目标对象的说话状态进行识别，得到识别结果，识别结果表征目标对象在面部图像帧序列中最后一个图像帧的对应时刻时，是否处于正在说话状态。

步骤S407，根据目标对象在多个滑动窗口中分别取出的面部图像帧序列中的最后一个图像帧中的说话状态的识别结果，确定目标对象说话的起始帧和结束帧。

对于以多个滑动窗口分别从视频流中取出的对应面部图像帧序列，根据每一面部图像帧序列中的最后一个图像帧中的说话状态的识别结果，获知目标对象在该最后一个图像帧中是否处于正在说话状态，确定目标对象在视频流中满足设定位置关系的多个图像帧中是否处于正在说话状态，从而确定目标对象在视频流中开始说话的起始帧，以及目标对象在视频流中结束说话的结束帧。其中，设定位置关系与滑动窗口的步长相关，例如，步长为1，能够确定目标对象在连续的多个图像帧中是否处于正在说话状态。

在一些实施方式中，获取包含目标对象的面部信息的视频流，以预设的窗口大小的滑动窗口、预设的滑动步长对该视频流进行处理，从该视频流中依次取出多个与窗口大小相同的预设长度的图像帧序列，将取出的多个图像帧序列中的每个图像帧序列分别作为目标对象的面部图像帧序列。其中，滑动窗口的滑动步长不小于1，且滑动窗口的滑动步长不大于预设长度。

可以将面部图像帧序列中的每一图像帧作为待判断图像帧，确定待判断图像帧是否为说话的起始帧或结束帧。在一些实施方式中，说话状态的识别结果包括目标对象处于表征正在说话的第一状态的第一置信度；在待判断图像帧对应的第一置信度大于或等于第一预设阈值，且待判断图像帧在面部图像帧序列中的前一图像帧对应的第一置信度小于第一预设阈值的情况下，将待判断图像帧作为目标对象说话的起始帧；在待判断图像帧对应的第一置信度大于或等于第一预设阈值，且待判断图像帧在面部图像帧序列中的后一图像帧对应的第一置信度小于第一预设阈值的情况下，将待判断图像帧作为目标对象说话的结束帧。

在一些实施方式中，说话状态的识别结果包括目标对象处于表征未在说话的第二状态的第二置信度；在待判断图像帧对应的第二置信度小于第二预设阈值，且待判断图像帧在面部图像帧序列中的前一图像帧对应的第二置信度大于或等于第二预设阈值的情况下，将待判断图像帧作为目标对象说话的起始帧；在待判断图像帧对应的第二置信度小于第一预设阈值，且待判断图像帧在面部图像帧序列中的后一图像帧对应的第二置信度大于或等于第二预设阈值的情况下，将待判断图像帧作为目标对象说话的结束帧。

在本申请实施例中，根据从视频流中滑动窗口取出的多个面部图像帧序列中最后一个图像帧的识别结果，确定目标对象在该视频流中说话的起始帧和结束帧，这样能够提升从视频流中选取目标对象处于正在说话状态的图像帧序列的精准度。并且，在利用识别结果从视频流中选取的图像帧序列进行唇语识别时，还能够提升唇语识别的准确度，降低唇语识别的图像处理过程所需的计算量。

本申请实施例提供一种模型训练方法，该方法可以由计算机设备的处理器执行。如图7所示，该方法包括如下步骤S501至步骤S505：

步骤S501，获取目标对象的样本面部图像帧序列。

其中，样本面部图像帧序列标注有表征目标对象的说话状态的样本标签。

计算机设备获取已标注样本标签的样本面部图像帧序列，样本面部图像帧序列包括样本图像帧，样本图像帧包含设定的目标对象的部分或全部的面部，且至少包括嘴部，样本标签能够描述目标对象在样本图像帧中的说话状态。

在一些实施例中，可以将所有样本图像帧中的目标对象均处于正在说话状态的样本面部图像帧序列标注为样本标签1，将所有样本图像帧中的目标对象均处于未在说话状态的样本面部图像帧序列标注为样本标签0。

在一些实施方式中，样本面部图像帧序列可以利用预先设置的窗口大小和滑动步长，以滑动窗口的方式从视频流中依次取出。

步骤S502，获取样本面部图像帧序列中各样本图像帧的嘴部关键点信息。

步骤S503，基于嘴部关键点信息，确定样本面部图像帧序列对应的嘴部关键点的位移特征，位移特征表征嘴部关键点在样本面部图像帧序列中的多个样本图像帧之间的位置变化。

步骤S504，利用待训练的模型中的识别结果生成网络，根据位移特征确定目标对象的说话状态的识别结果。

这里，待训练的模型可以是任意合适的深度学习模型，这里并不限定。在实施时，本领域技术人员可以根据实际情况采用合适的网络结构构建待训练的模型。

可选地，待训练的模型还可以包括上述关键点特征提取网络和时序特征提取网络，则在步骤S503中，可以将位移特征输入至关键点特征提取网络，并利用时序特征提取网络进一步处理关键点特征提取网络的输出数据，之后利用识别结果生成网络处理时序特征提取网络输出的时空特征，得到说话状态的识别结果。

在一些实施方式中，待训练的模型采用端到端的方式训练分类得分，得到识别结果。端到端的优势在于，通过缩减人工预处理和后续处理，尽可能使模型从原始输入到最终输出，给模型更多可以根据数据自动调节的空间，增加模型的拟合程度。

这里，上述步骤S501至步骤S504分别对应于前述步骤S101至步骤S104，在实施时可以参照前述步骤S101至步骤S104的实施方式。

步骤S505，基于识别结果和样本标签，对模型的网络参数进行至少一次更新，得到训练后的模型。

这里，可以基于识别结果和样本标签，确定是否对模型的网络参数进行更新，在确定对模型的网络参数进行更新的情况下，采用合适的参数学习难度更新算法对模型的网络参数进行更新，并利用参数更新后的模型重新确定识别结果，以基于重新确定的识别结果和样本标签，确定是否对模型的网络参数进行继续更新。在确定不对模型的网络参数进行继续更新的情况下，将最终更新后的模型确定为训练后的模型。

在一些实施例中，可以基于识别结果和样本标签确定损失值，并在该损失值不满足预设条件的情况下，对模型的网络参数进行更新，在损失值满足预设条件或对模型的网络参数进行更新的次数达到设定阈值的情况下，停止对模型的网络参数进行更新，并将最终更新后的模型确定为训练后的模型。预设条件可以包括但不限于损失值小于设定的损失阈值、损失值的变化收敛等至少之一。在实施时，预设条件可以根据实际情况设定，本申请实施例对此并不限定。

对模型的网络参数进行更新的方式可以是根据实际情况确定的，可以包括但不限于梯度下降法、牛顿动量法等中的至少一种，这里并不限定。

下面说明本申请实施例提供的说话状态识别方法在实际场景中的应用，以一段包含人物说话的视频流的说话状态识别为例，对本申请实施例的说话状态识别方法进行说明。

本申请实施例提供一种说话状态识别方法，该方法可以由计算机设备的处理器执行。其中，计算机设备指的可以是车机等具备数据处理能力的设备。说话状态识别方法可以至少包括以下两个步骤：

步骤一，时序特征构造。

对输入的视频流进行处理，得到的每一帧图像。例如，输入的视频流可以表示为[N，720,1280，3]。其中，第一维的N为视频流的长度，第二维的720为每个图像帧的高度，第三维的1280为每个图像帧的宽度，第四维的3为图像通道数。

对每一帧图像进行人脸检测，得到每个人脸对应的检测框，利用检测框辅助关键点检测和定位。这里，以图3示出的106点脸部关键点示意图为例进行说明，其中的84至103号关键点是嘴部关键点，共20个。

考虑识别精度等因素，技术人员根据经验设置窗口大小为22个图像帧，对视频流的所有视频帧以滑动步长为1进行滑动，得到多个面部图像帧序列，这些面部图像帧序列可以表示为[N-21,22,106，2]。其中，N为视频流的帧数，第一维的N-21为面部图像帧序列的数量，第二维的22为每个面部图像帧序列的长度，第三维的106为关键点的数量，第四维的2为每个关键点的二维坐标。

针对每个面部图像帧序列，对其中的第2帧至第21帧的每一图像帧，计算20个嘴部关键点中的每个关键点在当前图像帧与前后图像帧之间的位移差量，每个关键点的位移差量可以表示为[x_{pre_diff}，y_{pre_diff},x_{next_diff}，y_{next_diff}]。其中，第一维为当前图像帧与前一图像帧之间的横坐标的位移差量，第二维为当前图像帧与前一图像帧之间的纵坐标的位移差量，第三维为当前图像帧与后一图像帧之间的横坐标的位移差量，第四维为当前图像帧与后一图像帧之间的纵坐标的位移差量。

计算预设关键点对之间的高度差的绝对值，将计算结果作为这些点的上下嘴唇距离特征。例如，85至89分别对应于95至91，97至99分别对应于103至101。

针对每个面部图像帧序列，计算面部图像帧序列内所有图像帧中的眼部关键点的平均坐标与嘴部关键点的平均坐标之间的距离，将距离的最大值确定为归一化分母，对得到的上下嘴唇距离特征值进行归一化，得到每一面部图像帧序列的关键点位移特征，输出可以表示为[N-21,20,20,5]。其中，第一维的N-21为面部图像帧序列的数量，第二维的20为每个输入序列的长度，通过每个面部图像帧序列的长度(22帧)确定，第三维的20为嘴部关键点个数，第四维的5为特征维数。

步骤二，特征提取模型处理。

利用本申请实施例提供说话状态识别模型，以步骤一的输出[N-21,20,20,5]为说话状态识别模型的输入，预测视频流中人物说话的开始和结束时间点。图8为本申请实施例提供的一种说话状态识别模型的组成结构示意图。如图8所示，该说话状态识别模型结构包括两个部分：关键点特征提取主干网络(backbone)81和时序特征提取分支82。两个部分为串联方式，即模型输入831为关键点特征提取主干网络81的输入，关键点特征提取主干网络81的主干网络输出832为时序特征提取分支82的输入，时序特征提取分支82的输出为模型输出说话得分833。

实际应用中，模型输入831可以为[N-21,20,20,5]，同步骤一的输出；主干网络输出832可以为[N-21,64,20,1]，其中，第一维的N-21为面部图像帧序列的数量，第二维的64为时空特征的维度，第三维的20为嘴部关键点的数量，第四维的1为帧内特征融合后的特征维数；模型输出说话得分833可以为[N-21,2]，其中，第一维的N-21为面部图像帧序列的数量，第二维的2分别为表征正在说话的第一状态的第一置信度和表征未在说话的第二状态的第二置信度。

关键点特征提取主干网络81包括4个卷积模块，每个卷积模块包含卷积核(kernel)为(1，1)或(5，1)的卷积、批量归一化(Batch Normalization，BN)、线性整流函数(Linear rectification function，ReLU)和残差网络(Residual Networks，ResNets)，用于学习面部图像帧序列中的每个图像帧内的嘴部20个关键点的共现特征(Co-occurrenceFeature)，共现特征包括但不限于嘴部形状、唇距。

时序特征提取分支82包括5个卷积模块、GAP、全连接层(Fully Connected layer，FC)、矩阵变换(Reshape)层、丢弃(dropout)层、窗口分类层(Cls)、softmax，每个卷积模块包含卷积核为(1,5)的卷积、BN、ReLU，整个时序特征提取分支用于学习图像帧间特征，和关键点在整个面部图像帧序列中的全局运动位移信息，从而最终输出该面部图像帧序列是否为说话的预测得分，也就是预测的模型输出说话得分833。将面部图像帧序列的模型输出说话得分833作为面部图像帧序列中的特定的图像帧的得分，利用模型输出说话得分833与预设阈值的比较结果，可以判断特定的图像帧是否处于说话状态。例如，将模型输出说话得分833大于或等于预设阈值的图像帧确定为正在说话的图像帧，将模型输出说话得分833小于预设阈值的图像帧确定为未在说话的图像帧。实际应用中，根据检测精度的要求，预设阈值可以设置为0.7。并且，多个面部图像帧序列是对视频流以滑动步长为1的滑动窗口方式得到，对应的多个特定的图像帧也是相邻的，在预测视频流中说话开始图像帧和说话结束图像帧时，还可以利用相邻的图像帧的得分变化趋势。

实际应用中，在时序特征提取分支82中，可以利用(1,5)的卷积核在面部图像帧序列的长度维度上卷积，将面部图像帧序列中的每一图像帧的空间特征和前后各两个图像帧的空间特征融合，并重复5次上述卷积以提升感受野，完成帧间特征融合，得到每一图像帧的时空特征。这样，使得帧间的信息得到交流，加强相邻帧间关联。由于该步骤将占用一定的计算资源，为提高性能可以将卷积核尺寸增大，并将重复次数增多，相应地影响效率。综合考虑准确度和硬件运算效率，实际应用中可以将提取次数设置为5次，卷积核尺寸设置为5。

对图8示出的说话状态识别模型的训练，可以采用以下方式实现：

获取一段标注说话开始图像帧和说话结束图像帧的第一样本图像帧序列，第一样本图像帧序列是连续的视频帧，以步长为S、窗口大小为L的滑动窗口得到样本面部图像帧序列。若每个样本面部图像帧序列中全部帧均处于说话状态，确定样本面部图像帧序列的标签为1；若每个样本面部图像帧序列中全部帧均未处于说话状态全部帧，确定样本面部图像帧序列的标签为0。这里，包含部分说话帧的样本暂不加入训练。整个模型采用端到端的方式训练分类得分，损失函数为裕量Softmax损失函数(Margin Softmax Loss)。

这里，利用标注说话开始图像帧和说话结束图像帧的标签，可以将连续的第一样本图像帧序列划分为说话区间和不说话区间，分别从两个区间选取样本面部图像帧序列。

本申请实施例中，首先通过人脸检测、关键点定位的方式，得到每个人脸图像对应的检测框和关键点，然后以滑动窗口的形式逐帧处理得到长度为L的面部图像帧序列。根据嘴部关键点构造面部图像帧序列的运动特征，将特征输入模型后，得到用于预测该面部图像帧序列是否为说话的得分，以面部图像帧序列的得分作为特定的一个图像帧(通常为第21帧)的得分，若该帧得分高于预设阈值则判断为正在说话，从而确定视频流的开始说话和结束说话的时间点结果。

这样，仅利用视频流中的嘴部关键点作为输入，对视频流进行滑动窗口处理，构造关键点运动特征进行模型预测，可以使用较小的模型计算量和资源占用实现对视频流中人物说话的起始帧和结束帧的实时预测，并对各类复杂不说话嘴部动作有较好的识别精度。尤其，对于用户在智能座舱内使用语音交互时，在车窗外风声、车内闲聊声或音乐外放声过大的情况下，语音识别准确度不高，采用本申请实施例提供的说话状态识别方法，结合语音进行多模态识别，利用视觉特征可有效避免声音干扰，提供更准确的说话区间，提升语音识别精度，避免漏报误报。

需要说明的是，在实施时，上述模型输出说话得分833可以对应于前述实施例中的识别结果，运动特征可以对应于前述实施例中的位移特征，位移差量可以对应于前述实施例中的帧间位移信息，上下嘴唇距离特征可以对应于前述实施例中的帧内差异信息，样本视频帧序列可以对应于前述实施例中的样本面部图像帧序列。

基于前述的实施例，本申请实施例提供一种说话状态识别装置，该装置包括所包括的各单元、以及各单元所包括的各模块，可以通过计算机设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(CentralProcessing Unit，CPU)、微处理器(Microprocessor Unit，MPU)、数字信号处理器(DigitalSignal Processor，DSP)或现场可编程门阵列(Field Programmable Gate Array，FPGA)等。

图9为本申请实施例提供的一种说话状态识别装置的组成结构示意图，如图9所示，说话状态识别装置900包括：第一获取模块910、第二获取模块920、第一确定模块930和第二确定模块940，其中：

第一获取模块910，用于获取目标对象的面部图像帧序列；

第二获取模块920，用于获取所述面部图像帧序列中各图像帧的嘴部关键点信息；

第一确定模块930，用于基于所述嘴部关键点信息，确定所述面部图像帧序列对应的嘴部关键点的位移特征，所述位移特征表征所述嘴部关键点在所述面部图像帧序列中的多个图像帧之间的位置变化；

第二确定模块940，用于根据所述位移特征确定所述目标对象的说话状态的识别结果。

在一些实施例中，所述第二获取模块920，包括：第一检测子模块，用于针对所述面部图像帧序列中的每一面部图像帧进行人脸关键点检测，以获取所述每一面部图像帧中的嘴部关键点信息。。

在一些实施例中，所述第一获取模块910，包括：第一获取子模块，用于以滑动窗口的方式从包含所述目标对象的面部信息的视频流中，依次取出预设长度的图像帧序列，作为所述目标对象的面部图像帧序列，其中，所述滑动窗口的滑动步长不小于1，且所述滑动窗口的滑动步长不大于所述预设长度。

在一些实施例中，所述面部图像帧序列包括多个所述面部图像帧；所述第一确定模块930，包括：第一执行子模块，用于针对每一面部图像帧，执行以下步骤：根据每一嘴部关键点在所述面部图像帧和所述面部图像帧的相邻帧中的嘴部关键点信息，确定每一嘴部关键点的帧间位移信息；根据所述面部图像帧中的多个所述嘴部关键点对应的嘴部关键点信息，确定所述面部图像帧中的多个嘴部关键点的帧内差异信息；基于所述多个嘴部关键点各自的帧间位移信息以及所述帧内差异信息，确定所述面部图像帧对应的嘴部关键点的位移特征；第一确定子模块，用于根据所述面部图像帧序列中的多个所述面部图像帧分别对应的嘴部关键点的位移特征，确定所述面部图像帧序列对应的嘴部关键点的位移特征。

在一些实施例中，所述第一确定子模块，包括：第一确定单元，用于确定所述面部图像帧序列中各图像帧中目标对象的眼嘴距离；第二确定单元，用于根据所述面部图像帧序列中各图像帧中目标对象的眼嘴距离，确定参考距离；第一处理单元，用于将所述参考距离作为归一化分母，分别对所述多个嘴部关键点各自的所述帧间位移信息和所述帧内差异信息进行归一化处理，得到处理后的帧间位移信息和处理后的帧内差异信息；第三确定单元，用于基于所述多个嘴部关键点各自的处理后的帧间位移信息以及处理后的帧内差异信息，确定所述面部图像帧对应的嘴部关键点的位移特征。

在一些实施例中，所述第二确定模块940，包括：第一处理子模块，用于采用经过训练的关键点特征提取网络对所述位移特征进行处理，得到所述面部图像帧序列的空间特征；第二处理子模块，用于采用经过训练的时序特征提取网络对所述空间特征进行处理，得到所述面部图像帧序列的时空特征；第一识别子模块，用于基于所述时空特征确定所述目标对象的说话状态的识别结果。

在一些实施例中，所述第一识别子模块，包括：第一识别单元，用于根据所述时空特征确定所述目标对象与所述面部图像帧序列对应的说话状态的识别结果，作为所述目标对象在所述面部图像帧序列中的最后一个图像帧中的说话状态的识别结果；所述装置还包括：第五确定模块，用于根据所述目标对象在多个所述滑动窗口中分别取出的面部图像帧序列中的最后一个图像帧中的说话状态的识别结果，确定所述目标对象说话的起始帧和结束帧。

在一些实施例中，所述说话状态的识别结果包括所述目标对象处于表征正在说话的第一状态的第一置信度、或者所述目标对象处于表征未在说话的第二状态的第二置信度；所述第五确定模块，包括：第二执行子模块，用于将所述面部图像帧序列中的每一所述图像作为待判断图像帧，针对待判断图像帧执行以下步骤之一：在所述待判断图像帧对应的所述第一置信度大于或等于第一预设阈值，且所述待判断图像帧在所述面部图像帧序列中的前一图像帧对应的所述第一置信度小于第一预设阈值的情况下，将所述待判断图像帧作为所述目标对象说话的起始帧；在所述待判断图像帧对应的所述第一置信度大于或等于第一预设阈值，且所述待判断图像帧在所述面部图像帧序列中的后一图像帧对应的所述第一置信度小于第一预设阈值的情况下，将所述待判断图像帧作为所述目标对象说话的结束帧；在所述待判断图像帧对应的所述第二置信度小于第二预设阈值，且所述待判断图像帧在所述面部图像帧序列中的前一图像帧对应的所述第二置信度大于或等于第二预设阈值的情况下，将所述待判断图像帧作为所述目标对象说话的起始帧；在所述待判断图像帧对应的所述第二置信度小于第一预设阈值，且所述待判断图像帧在所述面部图像帧序列中的后一图像帧对应的所述第二置信度大于或等于第二预设阈值的情况下，将所述待判断图像帧作为所述目标对象说话的结束帧。

在一些实施例中，所述装置还包括：第一训练模块，用于基于训练样本集对所述关键点特征提取网络和所述时序特征提取网络进行训练，其中，所述训练样本集包括已标注所包含的各视频帧中的对象说话状态的连续视频帧序列。

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。在一些实施例中，本申请实施例提供的装置具有的功能或包含的模块可以用于执行上述方法实施例描述的方法，对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

基于前述的实施例，本申请实施例提供一种模型训练装置，该装置包括所包括的各单元、以及各单元所包括的各模块，可以通过计算机设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为CPU、MPU、DSP或FPGA等。

图10为本申请实施例提供的模型训练装置的组成结构示意图，如图10所示，模型训练装置1000包括：第三获取模块1010、第四获取模块1020、第三确定模块1030、第四确定模块1040和更新模块1050，其中：

第三获取模块1010，用于获取目标对象的样本面部图像帧序列，其中，所述样本面部图像帧序列标注有表征所述目标对象的说话状态的样本标签；

第四获取模块1020，用于获取所述样本面部图像帧序列中各样本图像帧的嘴部关键点信息；

第三确定模块1030，用于基于所述嘴部关键点信息，确定所述样本面部图像帧序列对应的嘴部关键点的位移特征，所述位移特征表征所述嘴部关键点在所述样本面部图像帧序列中的多个样本图像帧之间的位置变化；

第四确定模块1040，用于利用待训练的模型中的识别结果生成网络，根据所述位移特征确定所述目标对象的说话状态的识别结果；

更新模块1050，用于基于所述识别结果和所述样本标签，对所述模型的网络参数进行至少一次更新，得到训练后的所述模型。

本申请实施例提供一种车辆，包括：

车载相机，用于拍摄包含目标对象的面部图像帧序列；

以上车辆实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请车辆实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件、软件或固件，或者硬件、软件、固件三者之间的任意结合。

本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法中的部分或全部步骤。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。所述计算机可读存储介质可以是瞬时性的，也可以是非瞬时性的。

本申请实施例提供一种计算机程序，包括计算机可读代码，在所述计算机可读代码在计算机设备中运行的情况下，所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。

本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一些实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一些实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

这里需要指出的是：上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考。以上设备、存储介质、计算机程序及计算机程序产品实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请设备、存储介质、计算机程序及计算机程序产品实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，图11为本申请实施例中计算机设备的一种硬件实体示意图，如图11所示，该计算机设备1100的硬件实体包括：处理器1101、通信接口1102和存储器1103，其中：

处理器1101通常控制计算机设备1100的总体操作。

通信接口1102可以使计算机设备通过网络与其他终端或服务器通信。

存储器1103配置为存储由处理器1101可执行的指令和应用，还可以缓存待处理器1101以及计算机设备1100中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory，RAM)实现。处理器1101、通信接口1102和存储器1103之间可以通过总线1104进行数据传输。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各步骤/过程的序号的大小并不意味着执行顺序的先后，各步骤/过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

若本申请技术方案涉及个人信息，应用本申请技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本申请技术方案涉及敏感个人信息，应用本申请技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式、处理的个人信息种类等信息。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种说话状态识别方法，包括：

获取目标对象的面部图像帧序列；

获取所述面部图像帧序列中各图像帧的嘴部关键点信息；

基于所述嘴部关键点信息，确定所述面部图像帧序列对应的嘴部关键点的位移特征，所述位移特征表征所述嘴部关键点在所述面部图像帧序列中的多个图像帧之间的位置变化；

根据所述位移特征确定所述目标对象的说话状态的识别结果。

2.根据权利要求1所述的方法，其中，所述获取所述面部图像帧序列中各图像帧的嘴部关键点信息，包括：

针对所述面部图像帧序列中的每一面部图像帧进行人脸关键点检测，以获取所述每一面部图像帧中的嘴部关键点信息。

3.根据权利要求1或2所述的方法，其中，所述获取目标对象的面部图像帧序列，包括：

以滑动窗口的方式从包含所述目标对象的面部信息的视频流中，依次取出预设长度的图像帧序列，作为所述目标对象的面部图像帧序列，其中，所述滑动窗口的滑动步长不小于1，且所述滑动窗口的滑动步长不大于所述预设长度。

4.根据权利要求3所述的方法，其中，所述面部图像帧序列包括多个所述面部图像帧；

所述基于所述嘴部关键点信息，确定所述面部图像帧序列对应的嘴部关键点的位移特征，包括：

针对每一面部图像帧，执行以下步骤：根据每一嘴部关键点在所述面部图像帧和所述面部图像帧的相邻帧中的嘴部关键点信息，确定每一嘴部关键点的帧间位移信息；根据所述面部图像帧中的多个所述嘴部关键点对应的嘴部关键点信息，确定所述面部图像帧中的多个嘴部关键点的帧内差异信息；基于所述多个嘴部关键点各自的帧间位移信息以及所述帧内差异信息，确定所述面部图像帧对应的嘴部关键点的位移特征；

根据所述面部图像帧序列中的多个所述面部图像帧分别对应的嘴部关键点的位移特征，确定所述面部图像帧序列对应的嘴部关键点的位移特征。

5.根据权利要求4所述的方法，其中，所述基于所述多个嘴部关键点各自的帧间位移信息以及所述帧内差异信息，确定所述面部图像帧对应的嘴部关键点的位移特征，包括：

确定所述面部图像帧序列中各图像帧中目标对象的眼嘴距离；

根据所述面部图像帧序列中各图像帧中目标对象的眼嘴距离，确定参考距离；

将所述参考距离作为归一化分母，分别对所述多个嘴部关键点各自的所述帧间位移信息和所述帧内差异信息进行归一化处理，得到处理后的帧间位移信息和处理后的帧内差异信息；

基于所述多个嘴部关键点各自的处理后的帧间位移信息以及处理后的帧内差异信息，确定所述面部图像帧对应的嘴部关键点的位移特征。

6.根据权利要求4或5所述的方法，其中，所述根据所述位移特征确定所述目标对象的说话状态的识别结果，包括：

采用经过训练的关键点特征提取网络对所述位移特征进行处理，得到所述面部图像帧序列的空间特征；

采用经过训练的时序特征提取网络对所述空间特征进行处理，得到所述面部图像帧序列的时空特征；

基于所述时空特征确定所述目标对象的说话状态的识别结果。

7.根据权利要求6所述的方法，其中，所述基于所述时空特征确定所述目标对象的说话状态的识别结果，包括：

根据所述时空特征确定所述目标对象与所述面部图像帧序列对应的说话状态的识别结果，作为所述目标对象在所述面部图像帧序列中的最后一个图像帧中的说话状态的识别结果；

所述方法还包括：

根据所述目标对象在多个所述滑动窗口中分别取出的面部图像帧序列中的最后一个图像帧中的说话状态的识别结果，确定所述目标对象说话的起始帧和结束帧。

8.根据权利要求7所述的方法，其中，所述说话状态的识别结果包括所述目标对象处于表征正在说话的第一状态的第一置信度、或者所述目标对象处于表征未在说话的第二状态的第二置信度；所述根据所述目标对象在多个所述滑动窗口中分别取出的面部图像帧序列中的最后一个图像帧中的说话状态的识别结果，确定所述目标对象说话的起始帧和结束帧，包括：

将所述面部图像帧序列中的每一所述图像帧作为待判断图像帧，针对所述待判断图像帧执行以下步骤之一：

在所述待判断图像帧对应的所述第一置信度大于或等于第一预设阈值，且所述待判断图像帧在所述面部图像帧序列中的前一图像帧对应的所述第一置信度小于第一预设阈值的情况下，将所述待判断图像帧作为所述目标对象说话的起始帧；

在所述待判断图像帧对应的所述第一置信度大于或等于第一预设阈值，且所述待判断图像帧在所述面部图像帧序列中的后一图像帧对应的所述第一置信度小于第一预设阈值的情况下，将所述待判断图像帧作为所述目标对象说话的结束帧；

在所述待判断图像帧对应的所述第二置信度小于第二预设阈值，且所述待判断图像帧在所述面部图像帧序列中的前一图像帧对应的所述第二置信度大于或等于第二预设阈值的情况下，将所述待判断图像帧作为所述目标对象说话的起始帧；

在所述待判断图像帧对应的所述第二置信度小于第一预设阈值，且所述待判断图像帧在所述面部图像帧序列中的后一图像帧对应的所述第二置信度大于或等于第二预设阈值的情况下，将所述待判断图像帧作为所述目标对象说话的结束帧。

9.根据权利要求6至8中任一项所述的方法，其中，所述方法还包括：

基于训练样本集对所述关键点特征提取网络和所述时序特征提取网络进行训练，其中，所述训练样本集包括已标注所包含的各视频帧中的对象说话状态的连续视频帧序列。

10.一种模型训练方法，所述方法包括：

11.一种说话状态识别装置，包括：

第一获取模块，用于获取目标对象的面部图像帧序列；

12.一种模型训练装置，包括：

13.一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至10任一项所述方法中的步骤。

14.一种车辆，包括：

车载相机，用于拍摄包含目标对象的面部图像帧序列；

15.一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1至10任一项所述方法中的步骤。