CN114821794A

CN114821794A - 图像处理方法及模型生成方法、装置、车辆、存储介质

Info

Publication number: CN114821794A
Application number: CN202210476318.1A
Authority: CN
Inventors: 康硕; 李潇婕; 王飞; 钱晨
Original assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-07-29
Also published as: WO2023208134A1

Abstract

本申请实施例公开了一种图像处理方法及模型生成方法、装置、车辆、存储介质，其中，图像处理方法包括：获取包含嘴部对象的图像帧序列；对图像帧序列中的每一图像帧进行嘴部关键点特征提取，得到每一图像帧的嘴部关键点特征；根据图像帧序列中多个图像帧的嘴部关键点特征，生成音节分类特征；其中，音节分类特征表征图像帧序列中嘴部对象的口型对应的音节类别；在预设关键词库中确定与音节分类特征匹配的关键词。

Description

图像处理方法及模型生成方法、装置、车辆、存储介质

技术领域

本申请涉及但不限于信息技术领域，尤其涉及一种图像处理方法及模型生成方法、装置、车辆、存储介质。

背景技术

唇语识别技术，可以利用计算机视觉技术从视频图像中识别人脸，提取人脸的嘴部区域的变化特征，从而识别出视频对应的文本内容。然而，相关技术中的唇语识别的准确度较低。

发明内容

有鉴于此，本申请实施例至少提供一种图像处理方法及模型生成方法、装置、车辆、存储介质。

本申请实施例的技术方案是这样实现的：

一方面，本申请实施例提供一种图像处理方法，所述方法包括：获取包含嘴部对象的图像帧序列；对所述图像帧序列中的每一图像帧进行嘴部关键点特征提取，得到所述每一图像帧的嘴部关键点特征；根据所述图像帧序列中多个图像帧的所述嘴部关键点特征，生成音节分类特征；其中，所述音节分类特征表征所述图像帧序列中嘴部对象的口型对应的音节类别；在预设关键词库中确定与所述音节分类特征匹配的关键词。

在一些实施例中，所述对所述图像帧序列中的每一图像帧进行嘴部关键点特征提取，得到所述每一图像帧的嘴部关键点特征，包括：确定所述嘴部对象的至少两个嘴部关键点在所述每一图像帧中的位置信息；针对所述图像帧序列中的每一图像帧，根据所述图像帧和所述图像帧的相邻帧中的嘴部关键点的位置信息，确定所述图像帧对应的嘴部关键点特征。相较于利用脸部图像裁剪得到的嘴部区域图像序列进行唇语识别，本申请实施例利用多个嘴部关键点在多个图像帧的位置信息得到嘴部关键点特征，使得嘴部关键点特征能够表示图像帧序列对应的说话过程中嘴部关键点的变化过程，从而更好地提取说话过程中口型的变化特征；这样，利用嘴部关键点特征进行唇语识别，能够提升唇语识别的准确度。

在一些实施例中，所述嘴部关键点特征包括每一所述嘴部关键点的帧间差异信息和帧内差异信息；所述根据所述图像帧和所述图像帧的相邻帧中的嘴部关键点的位置信息，确定所述图像帧对应的嘴部关键点特征，包括：针对每一所述嘴部关键点，根据所述嘴部关键点在所述图像帧中的位置信息，以及所述嘴部关键点在所述图像帧的相邻图像帧中的位置信息，确定所述嘴部关键点在所述图像帧和相邻帧之间的第一高度差和/或第一宽度差，作为所述嘴部关键点的帧间差异信息；针对每一所述嘴部关键点，根据所述图像帧中的所述嘴部关键点与同一嘴部对象的其他嘴部关键点之间的第二高度差和/或第二宽度差，确定所述嘴部关键点的帧内差异信息。上述实施例中，利用每个嘴部关键点在相邻图像帧的位置信息的帧间差异信息，和这个嘴部关键点与预设嘴部关键点的位置信息的帧内差异信息，得到嘴部关键点特征，提升确定每一帧图像中的口型的准确度；并且，嘴部关键点特征也能够表示图像帧序列对应的说话过程中嘴部关键点在帧间变化过程；这样，可以更好地提取说话过程中口型的变化特征，进而能够提升唇语识别的准确度。

在一些实施例中，所述根据所述图像帧序列中多个图像帧的嘴部关键点特征，生成音节分类特征，包括：分别对每一所述图像帧的嘴部关键点特征进行空间特征提取，得到所述嘴部对象在每一图像帧的空间特征；对所述嘴部对象在多个所述图像帧的空间特征进行时间特征提取，得到所述嘴部对象的时空特征；基于所述嘴部对象的时空特征进行音节分类特征提取，得到所述嘴部对象的音节分类特征。上述实施例支持通过卷积神经网络提取时空特征，所需的计算量较少，能够降低计算资源的消耗，降低唇语识别的计算机设备的硬件要求。尤其，采用卷积神经网络能够降低对芯片的计算能力的要求，从而本申请实施例提供的图像处理方法能够通过更多轻量化的芯片实现，使更多硬件支持本申请实施例的唇语识别过程中的图像处理方法，提升了唇语识别的通用性，例如车机等计算机设备也可以实现唇语识别。

在一些实施例中，所述分别对每一所述图像帧的嘴部关键点特征进行空间特征提取，得到所述嘴部对象在每一图像帧的空间特征，包括：对所述嘴部对象的多个所述嘴部关键点的帧间差异信息和帧内差异信息进行融合，得到所述嘴部对象在每一图像帧的帧间差异特征和帧内差异特征；对所述嘴部对象在多个所述图像帧的帧间差异特征和帧内差异特征进行融合，得到所述嘴部对象在每一图像帧的空间特征。上述实施例中，对嘴部对象的至少两个嘴部关键点在每一图像帧的帧间差异信息和帧内差异信息分别进行融合，得到表示嘴部关键点之间的帧间差异信息的帧间差异特征，以及表示嘴部关键点之间的帧内差异信息的帧内差异特征，再对嘴部关键点在每一图像帧的帧间差异特征和帧内差异特征进行特征融合，能够更好地提取嘴部对象在每一图像帧的空间特征，从而提升确定每一帧图像中的口型的准确度。

在一些实施例中，所述获取包含嘴部对象的图像帧序列，包括：获取图像画面包含所述嘴部对象的视频；对所述嘴部对象进行唇动识别，将所述嘴部对象处于说话状态的多个视频帧确定为图像帧序列。这样，使得图像帧序列能够至少覆盖设定对象说话的完整过程，且通过唇动识别使图像帧序列包括的与说话过程无关的图像帧减少，利用这样得到的图像帧序列进行图像处理，得到匹配的关键词，能够进一步提升唇语识别的准确度，降低唇语识别的图像处理过程所需的计算量。

在一些实施例中，所述根据所述图像帧序列中多个图像帧的所述嘴部关键点特征，生成音节分类特征，包括：利用经过训练的音节特征提取网络对所述图像帧序列中多个图像帧的嘴部关键点特征进行处理，得到音节分类特征；所述在预设关键词库中确定与所述音节分类特征匹配的关键词，包括：利用经过训练的分类网络，在预设关键词库中确定与所述音节分类特征匹配的关键词。上述实施例中，由于深度学习模型中的各网络是可学习的，可以提升提取的音节分类特征以及与音节分类特征匹配的关键词的准确性，从而可以使得图像处理得到的关键词更精确，能够提升唇语识别的准确度。

在一些实施例中，所述音节特征提取网络包括空间特征提取子网络、时间特征提取子网络和音节分类特征提取子网络；所述利用模型中的音节特征提取网络，根据所述至少一个嘴部关键点特征，确定音节分类特征，包括：利用所述空间特征提取子网络，分别对每一所述图像帧的嘴部关键点特征进行空间特征提取，得到所述嘴部对象在每一图像帧的空间特征；利用所述时间特征提取子网络，对所述嘴部对象在多个所述图像帧的空间特征进行时间特征提取，得到所述嘴部对象的时空特征；利用所述音节分类特征提取子网络，对所述嘴部对象的每一所述时空特征进行分类特征提取，得到所述嘴部对象的音节分类特征。

在一些实施例中，所述获取包含嘴部对象的图像帧序列，包括：对获取到的包含嘴部对象的原始图像序列进行图像插帧，得到所述图像帧序列；或者，基于获取到的包含嘴部对象的原始图像序列中的嘴部关键点，对所述原始图像序列进行插帧，得到所述图像帧序列。这样，利用插帧处理的图像帧序列进行唇语识别，在唇语识别过程中对采集得到的原始图像序列的帧数不作要求，可以提升唇语识别过程中的图像识别方法的强健性。

另一方面，本申请实施例提供一种生成唇语识别模型的方法，所述方法包括：获取包含嘴部对象的样本图像帧序列；其中，所述样本图像帧序列标注有关键词标签；对所述样本图像帧序列中的每一样本图像帧进行嘴部关键点特征提取，得到所述每一样本图像帧的嘴部关键点特征；利用待训练的模型，根据所述样本图像帧序列中多个样本图像帧的所述嘴部关键点特征，生成音节分类特征，并在预设关键词库中确定与所述音节分类特征匹配的关键词；其中，所述音节分类特征表征所述样本图像帧序列中嘴部对象的口型对应的音节类别；基于确定出的所述关键词和所述关键词标签，对所述模型的网络参数进行至少一次更新，得到经过训练的唇语识别模型。

上述实施例中，在模型训练过程中，通过音节辅助学习能够有效降低关键词识别分类的学习难度，从而可以提升经过训练的唇语识别模型进行唇语识别的准确度。并且，由于音节分类特征是基于嘴部关键点特征确定的，因而音节分类特征可以更好地体现与图像帧序列中口型对应的音节，利用音节分类特征辅助唇语识别，从而使得图像处理得到的关键词更精确，提升唇语识别的准确度。并且，相较于利用脸部图像裁剪得到的嘴部区域图像序列进行唇语识别，利用嘴部关键点特征进行唇语识别，能够降低图像处理过程所需的计算量，从而降低执行图像处理方法的计算机设备的硬件要求；并且，对不同脸型、纹理等外观信息的脸部图像都能取得良好的识别效果，从而基于嘴部关键点特征可以提高对模型训练过程中未涉及的脸型、纹理的图像类别的识别能力，进而提高了唇语识别的泛化能力。

在一些实施例中，所述模型中包括音节特征提取网络和分类网络；所述利用待训练的模型，根据所述样本图像帧序列中多个样本图像帧的所述嘴部关键点特征，生成音节分类特征，并在预设关键词库中确定与所述音节分类特征匹配的关键词，包括：利用所述音节特征提取网络，根据所述样本图像帧序列中多个样本图像帧的所述嘴部关键点特征，生成音节分类特征；利用所述分类网络，在预设关键词库中确定与所述音节分类特征匹配的关键词。

在一些实施例中，所述音节特征提取网络包括空间特征提取子网络、时间特征提取子网络和音节分类特征提取子网络；所述利用所述音节特征提取网络，根据所述样本图像帧序列中多个样本图像帧的所述嘴部关键点特征，生成音节分类特征，包括：利用所述空间特征提取子网络，分别对每一所述样本图像帧的嘴部关键点特征进行空间特征提取，得到所述嘴部对象在每一样本图像帧的空间特征；利用所述时间特征提取子网络，对所述嘴部对象在多个所述样本图像帧的空间特征进行样本时间特征提取，得到所述嘴部对象的时空特征；利用所述音节分类特征提取子网络，基于所述嘴部对象的时空特征进行音节分类特征提取，得到所述嘴部对象的音节分类特征。

再一方面，本申请实施例提供一种图像处理装置，所述装置包括：

第一获取模块，用于获取包含嘴部对象的图像帧序列；

第一识别模块，用于对所述图像帧序列中的每一图像帧进行嘴部关键点特征提取，得到所述每一图像帧的嘴部关键点特征；

第一确定模块，用于根据所述图像帧序列中多个图像帧的所述嘴部关键点特征，生成音节分类特征；其中，所述音节分类特征表征所述图像帧序列中嘴部对象的口型对应的音节类别；

第一匹配模块，用于在预设关键词库中确定与所述音节分类特征匹配的关键词。

又一方面，本申请实施例提供一种生成唇语识别模型的装置，所述装置包括：

第二获取模块，用于获取包含嘴部对象的样本图像帧序列；其中，所述样本图像帧序列标注有关键词标签；

第二识别模块，用于对所述样本图像帧序列中的每一样本图像帧进行嘴部关键点特征提取，得到所述每一样本图像帧的嘴部关键点特征；

第二匹配模块，用于利用待训练的模型，根据所述样本图像帧序列中多个样本图像帧的所述嘴部关键点特征，生成音节分类特征，并在预设关键词库中确定与所述音节分类特征匹配的关键词；其中，所述音节分类特征表征所述样本图像帧序列中嘴部对象的口型对应的音节类别；

更新模块，用于基于确定出的所述关键词和所述关键词标签，对所述模型的网络参数进行至少一次更新，得到经过训练的唇语识别模型。

又一方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法中的部分或全部步骤。

又一方面，本申请实施例提供一种车辆，包括：

车载相机，用于拍摄包含嘴部对象的图像帧序列；

车机，与所述车载相机连接，用于从所述车载相机获取包含嘴部对象的图像帧序列；对所述图像帧序列中的每一图像帧进行嘴部关键点特征提取，得到所述每一图像帧的嘴部关键点特征；根据所述图像帧序列中多个图像帧的所述嘴部关键点特征，生成音节分类特征；其中，所述音节分类特征表征所述图像帧序列中嘴部对象的口型对应的音节类别；在预设关键词库中确定与所述音节分类特征匹配的关键词。

又一方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。

又一方面，本申请实施例提供一种计算机程序，包括计算机可读代码，当所述计算机可读代码在计算机设备中运行时，所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。

又一方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现上述方法中的部分或全部步骤。

本申请实施例中，首先，获取图像内容包含嘴部对象的图像帧序列；这样，能够得到记录设定对象说话时的嘴部对象变化过程的图像帧序列；其次，对图像帧序列中的每一图像帧进行嘴部关键点特征提取，得到图像帧序列中多个图像帧的每一图像帧的嘴部关键点特征；相较于利用脸部图像裁剪得到的嘴部区域图像序列进行唇语识别，利用嘴部关键点特征进行唇语识别，能够降低图像处理过程所需的计算量，从而降低执行图像处理方法的计算机设备的硬件要求；并且，对不同脸型、纹理等外观信息的脸部图像都能取得良好的识别效果，从而提高了唇语识别的泛化能力；再次，根据图像帧序列中多个图像帧的嘴部关键点特征生成音节分类特征，音节分类特征表征图像帧序列中嘴部对象的口型对应的音节类别；这样，从嘴部关键点特征中提取音节分类特征，音节分类特征可以表示与图像帧序列中嘴部对象的口型所对应的至少一种音节，利用音节分类特征辅助唇语识别，能够提升唇语识别的准确度；最后，根据音节分类特征在预设关键词库中匹配确定出匹配的关键词；这样，通过表示图像帧序列对应的音节分类特征，根据音节分类特征表征的音节类别确定与音节对应字词的关键词，从而提升图像处理得到的关键词的正确度。上述方案中，通过图像帧序列中的图像帧的嘴部关键点特征提取得到嘴部关键点特征，利用嘴部关键点特征生成图像帧序列对应的音节分类特征，根据音节分类特征在预设关键词库中匹配得到关键词。这样，可以降低唇语识别的图像处理过程所需的计算量，从而可以降低对计算机设备的硬件要求；同时，可以对不同脸型、纹理等外观信息的脸部图像都能取得良好的识别效果，从而提高了唇语识别的泛化能力；此外，通过表示图像帧序列对应的音节分类特征，根据音节分类特征表征的音节类别确定与音节对应字词的关键词，可以使得图像处理得到的关键词更精确，从而能够提升唇语识别的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请的技术方案。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1为本申请实施例提供的一种图像处理方法的实现流程示意图；

图2为本申请实施例提供的一种图像处理方法的又一实现流程示意图；

图3为本申请实施例提供的一种脸部关键点示意图；

图4为本申请实施例提供的一种图像处理方法的又一实现流程示意图；

图5为本申请实施例提供的一种图像处理方法的又一实现流程示意图；

图6为本申请实施例提供的一种生成唇语识别模型的方法的实现流程示意图；

图7为本申请实施例提供的一种唇语识别模型的组成结构示意图；

图8为本申请实施例提供的一种图像处理装置的组成结构示意图；

图9为本申请实施例提供的一种生成唇语识别模型的装置的组成结构示意图；

图10为本申请实施例提供的一种计算机设备的硬件实体示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图和实施例对本申请的技术方案进一步详细阐述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

所涉及的术语“第一/第二/第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请的目的，不是旨在限制本申请。

在环境噪音过大或不方便发声的场景中，唇语识别可以弥补语音识别的局限性，从而能够增强人机交互的强健性。在相关技术的唇语识别的图像处理过程中，通过人脸检测找出图像中人脸对应的位置，把图像中嘴部区域切割出来，得到嘴部区域图像的图像序列，将该图像序列输入三维卷积神经网络(3D卷积神经网络)进行特征提取，并将特征输入时序预测网络进行分类。但是，嘴部区域图像的图像序列对嘴部运动信息不敏感，使得唇语识别的准确度不高，且三维卷积需要消耗大量计算资源，对硬件要求也很高，难以大范围应用。

本申请实施例提供一种图像处理方法，该方法可以由计算机设备的处理器执行。其中，计算机设备指的可以是车机、服务器、笔记本电脑、平板电脑、台式计算机、智能电视、机顶盒、移动设备(例如移动电话、便携式视频播放器、个人数字助理、专用消息设备、便携式游戏设备)等具备数据处理能力的设备。图1为本申请实施例提供的一种图像处理方法的实现流程示意图，如图1所示，该方法包括如下步骤S101至步骤S104：

步骤S101，获取包含嘴部对象的图像帧序列。

计算机设备获取到多个图像帧，多个图像帧可以由摄像头等采集组件对说话过程的设定对象拍摄得到，按照每一图像帧对应的时间顺序进行排序，得到原始图像帧序列。其中，图像帧序列中多个图像帧的画面至少包含同一设定对象的嘴部对象。设定对象通常是人类，但也可以是其他具有表达能力的动物，例如猩猩。在一些实施方式中，图像帧序列至少覆盖设定对象说一句话的完整过程，例如，图像帧序列中多个图像帧至少覆盖设定对象说“打开音乐”这句话过程。并且，图像帧序列包括的图像帧的帧数可以是不固定的，例如，图像帧序列的帧数可以为40帧、50帧或100帧。这里，可以直接将原始图像帧序列作为后续使用的图像帧序列；也可以进一步处理原始图像序列得到后续图像处理的图像帧序列，例如，对原始图像序列进行插帧处理，获得设定帧数的图像帧序列。因而，在本申请各实施例中的图像帧序列中的图像帧，可以是真实采集的，也可以是根据真实采集的图像生成的。

在一些实施方式中，计算机设备获取多个图像帧的方式，可以是本计算机设备通过调用摄像头获取的，也可以是从其他计算机设备获取的；例如本计算机设备为车辆，可以通过车载相机获取图像，也可以利用与移动终端的无线传输等方式，获取移动终端采集的图像。需要说明的是，图像帧序列中至少一个图像帧可以来源于视频，一个视频可以包括多个视频帧，每个视频帧分别对应一个图像帧，图像帧序列中的图像帧可以是连续的图像帧，可以是以固定或不固定的时间间隔在视频中选取的图像帧。在实施时，可以获取预先采集的多个图像帧，也可以实时对设定对象进行图像采集得到多个图像帧，这里并不限定。

这样，能够得到记录设定对象说话时的嘴部对象变化过程的图像帧序列。

步骤S102，对所述图像帧序列中的每一图像帧进行嘴部关键点特征提取，得到所述每一图像帧的嘴部关键点特征。

对图像帧序列中的至少一个图像帧进行嘴部关键特征提取，从图像帧的脸部关键点中提取与嘴部对象关联的嘴部关键点的位置信息，并基于至少一个图像帧的嘴部关键点的位置信息，确定每一个图像帧对应的一个嘴部关键点特征，从而得到图像帧序列的至少一个嘴部关键点特征。其中，嘴部关键点特征由嘴部关键点的位置信息计算得到，而嘴部关键点的位置信息与图像包含的嘴部对象的口型关联，同一嘴部关键点在不同图像帧的位置信息，与这个图像帧中嘴部对象的口型相关。

在一些实施方式中，基于图像帧的嘴部关键点的位置信息确定图像对应的嘴部关键点特征的方式，可以是按照对应的关键点序号，对一个图像帧中的每个嘴部关键点的位置信息进行排序，得到位置序列，将位置序列作为嘴部关键点特征。例如，每一图像帧包括4个嘴部关键点，嘴部关键点在坐标分别为(x₁，y₁)、(x₂，y₂)、(x₃，y₃)、(x₄，y₄)，确定出的该图像帧对应的嘴部关键点特征为[(x₁，y₁),(x₂，y₂),(x₃，y₃),(x₄，y₄)]。

在一些实施方式中，在图像帧序列包括两个图像帧，或者多于两个图像帧的情况下，基于图像帧的嘴部关键点的位置信息确定图像对应的嘴部关键点特征的方式，可以是通过计算每一图像帧和与该图像帧的相邻帧的嘴部关键点的位置信息的差异信息，按照对应的关键点序号，对一个图像帧中的每个嘴部关键点的差异信息进行排序，将排序序列作为嘴部关键点特征；其中，相邻帧可以是该图像帧的在图像帧序列中的前一图像帧和/或后一图像帧，也就是说，位置信息的差异信息包括以下至少之一：该图像帧与前一图像帧之间的差异信息；该图像帧与后一图像帧之间的差异信息。例如，根据该图像帧与前一图像帧之间的差异信息确定嘴部关键点特征，每一图像帧包括4个嘴部关键点，嘴部关键点在第一帧图像帧的坐标分别为(x₁，y₁)、(x₂，y₂)、(x₃，y₃)、(x₄，y₄)，嘴部关键点在第二帧图像帧的坐标分别为(x'₁，y'₁)、(x'₂，y'₂)、(x'₃，y'₃)、(x'₄，y'₄)，这样，确定出的第二帧图像帧对应的嘴部关键点特征为[(x'₁-x₁，y'₁-y₁),(x'₂-x₂，y'₂-y₂),(x'₃-x₃，y'₃-y₃),(x'₄-x₄，y'₄-y₄)]。

这样，相较于利用嘴部区域图像序列进行唇语识别，利用嘴部关键点特征进行唇语识别，能够降低图像处理过程所需的计算量，从而降低执行图像处理方法的计算机设备的硬件要求，进而使图像处理方法能够普遍适用于各种计算机设备。并且，利用嘴部关键点特征进行唇语识别，对不同脸型、纹理等外观信息的脸部图像都能取得良好的识别效果，从而能够提升唇语识别的泛化能力和准确度。

步骤S103，根据所述图像帧序列中多个图像帧的所述嘴部关键点特征，生成音节分类特征。

对图像帧序列中多个图像帧的嘴部关键点特征进行特征提取，得到音节分类特征，音节分类特征表征图像帧序列对应的至少一种预设音节类别，每一预设音节类别表征口型相同或相似的至少一种音节，也就是说，音节分类特征可以表示与图像帧序列中嘴部对象的口型对应的音节类别。其中，可以利用音节分类特征中的每一元素表示图像帧序列中是否存在一种音节类型，从而确定图像帧序列中图像包含的口型对应的至少一种音节。这里，可以根据口型的相似程度，预先将音节种类划分为设定数量的预设音节类别，每一预设音节类别包括口型相同或相似的至少一个音节种类，设定数量可以根据语言的类型进行设定；其中，口型相似程度可以根据经验人为或通过机器学习进行判定。以汉语为例进行说明，在不考虑音调的情况下，汉字共有419个音节种类，根据对应的口型可以将这419种音节划分为100类，对应的音节分类特征的长度为100；对于其他语言，例如英语，可以结合音标将音节种类划分为设定数量的预设音节类别，并根据音节和口型的对应关系设置音节分类特征的长度。

在一些实施方式中，可以通过对图像帧序列的至少两个嘴部关键点特征进行时空特征提取，得到每一嘴部关键点特征对应的时空特征，并根据时空特征确定音节分类特征。这里，可以利用时序预测网络和/或全卷积网络进行时空特征提取，得到每一嘴部关键点特征对应的时空特征。在一些可能的实现方式中，还可以利用平坦(Flatten)层或其他方式拼接至少两个时空特征，再对拼接的时空特征进行分类，得到音节分类特征。

这样，从嘴部关键点特征中提取音节分类特征，音节分类特征可以表示与图像帧序列中嘴部对象的口型所对应的至少一种音节，利用音节分类特征辅助唇语识别，能够提升唇语识别的准确度。

步骤S104，在预设关键词库中确定与所述音节分类特征匹配的关键词。

在一些实施方式中，预先在关键词库中设置一定数量的关键词，用于与音节分类特征进行匹配，得到唇语识别的图像处理结果。其中，确定关键词的方式，可以直接输出关键词，也可以输出关键词在关键词库中的序号。

在一些可能的实现方式中，预设关键词库可以根据具体的应用场景进行设置，在驾驶场景下，可以将关键词设置为“打开音响”、“打开左侧车窗”等。需要说明的是，预设关键词库表示关键词的存储形式。

在一些可能的实现方式中，可以结合说话检测得到的检测结果和唇语识别得到的识别结果，确定匹配的关键词；例如，分别设置说话检测的检测结果和唇语识别的识别结果的权重，将加权计算结果作为匹配依据。

这样，通过表示图像帧序列对应的音节分类特征，根据音节分类特征表征的音节类别确定与音节对应字词的关键词，从而提升图像处理得到的关键词的正确度。

在本申请实施例中，通过图像帧序列中的图像帧的嘴部关键点特征提取得到嘴部关键点特征，利用嘴部关键点特征生成图像帧序列对应的音节分类特征，根据音节分类特征在预设关键词库中匹配得到关键词。这样，可以降低唇语识别的图像处理过程所需的计算量，从而可以降低对计算机设备的硬件要求；同时，可以对不同脸型、纹理等外观信息的脸部图像都能取得良好的识别效果，从而提高了唇语识别的泛化能力；此外，通过表示图像帧序列对应的音节分类特征，根据音节分类特征表征的音节类别确定与音节对应字词的关键词，可以使得图像处理得到的关键词更精确，从而能够提升唇语识别的准确度。

在一些可能的实现方式中，通过唇动识别处理检测视频中设定对象的说话区间，得到覆盖设定对象说话过程的图像帧序列，即上述步骤S101可以通过以下步骤S1011和S1012实现：

步骤S1011，获取图像画面包含所述嘴部对象的视频。

计算机设备通过摄像头等采集组件对设定对象进行拍摄，得到图像画面包含嘴部对象的视频。

步骤S1012，对所述嘴部对象进行唇动识别，将所述嘴部对象处于说话状态的多个视频帧确定为图像帧序列。

利用唇动识别技术对视频进行裁剪，得到记录设定对象说话过程的视频，视频帧的图像画面包含嘴部对象处于说话状态，从裁剪得到的视频中选取多个视频帧图像作为图像帧序列。

上述方案中，使得图像帧序列能够至少覆盖设定对象说话的完整过程，且通过唇动识别使图像帧序列包括的与说话过程无关的图像帧减少，利用这样得到的图像帧序列进行图像处理，得到匹配的关键词，能够进一步提升唇语识别的准确度，降低唇语识别的图像处理过程所需的计算量。

前文提及，图像处理的图像帧序列包括的图像帧的帧数可以是不固定的。在一些可能的实现方式中，可以对采集得到的原始图像序列进行插帧处理，得到包括预设数量的图像帧的图像帧序列。

在一些实施方式中，可以包括以下步骤S1013或步骤S1014：

步骤S1013，对获取到的包含嘴部对象的原始图像序列进行图像插帧，得到所述图像帧序列。

对采集得到的原始图像序列进行插帧处理，获得包括预设数量的图像帧的图像帧序列的方式，可以是基于原始图像序列中的图像帧进行图像插帧处理，生成预设数量的图像帧，根据生成的图像帧和/或采集的图像帧，得到进行后续嘴部关键点特征提取的图像帧序列。

步骤S1014，基于获取到的包含嘴部对象的原始图像序列中的嘴部关键点，对所述原始图像序列进行插帧，得到所述图像帧序列。

对采集得到的原始图像序列进行插帧处理，获得包括预设数量的图像帧的图像帧序列的方式，可以是基于原始图像序列中的嘴部关键点的位置信息，生成新插入的图像帧，新插入的图像帧中嘴部关键点的位置信息基于原始图像序列中的嘴部关键点的位置信息预测得到，从而实现对原始图像序列的插帧，得到图像帧序列对应的预设数量的关键点信息，实现后续的嘴部关键点特征提取。

其中，可以根据经验预先设置图像帧的帧数，预设数量越大则识别的准确度越高，但消耗的计算资源越大，影响硬件运算效率；综合考虑准确度、硬件运算效率以及关键词的字数，实际应用中可以将预设数量设置为60。

这样，利用插帧处理的图像帧序列进行唇语识别，在唇语识别过程中对采集得到的原始图像序列的帧数不作要求，可以提升唇语识别过程中的图像识别方法的强健性。

在一些可能的实现方式中，利用嘴部关键点在每一图像帧和相邻帧的位置信息，确定该图像帧的嘴部关键点特征，即上述步骤S102可以通过图2所示的步骤实现。图2为本申请实施例提供的图像处理方法的又一实现流程示意图，结合图2所示的步骤进行以下说明：

步骤S201，确定所述嘴部对象的至少两个嘴部关键点在所述每一图像帧中的位置信息。

图像帧序列包括至少两个图像帧，提取与嘴部对象关联的嘴部关键点在每一图像帧的位置信息。其中，嘴部关键点的数量至少为两个，且至少分布于图像中的上下嘴唇，具体设置通常与关键点识别算法相关，例如68点关键点检测的嘴部关键点为16个。每一嘴部关键点的位置信息可以通过位置参数表示，例如通过图像坐标系中的二维坐标表示，二维坐标包括宽度(横坐标)和高度(纵坐标)。这里，嘴部关键点的位置信息与图像包含的嘴部对象的口型相关，同一嘴部关键点在不同图像的位置信息随口型变化而变化。图3示出的106点脸部关键点示意图为例，包括0-105号共106个关键点，可以描述脸部的脸部轮廓、眉毛、眼睛、鼻子、嘴巴等特征，其中的84-103号关键点是用于描述嘴巴的嘴部关键点。这里，93号关键点在两帧对应不同说话内容的图像中的位置不相同，当93号关键点在图像的纵坐标更小，表示嘴部的张开程度更大，在“啊”和“哦”之中对应为“啊”的可能性更高。

步骤S202，针对所述图像帧序列中的每一图像帧，根据所述图像帧和所述图像帧的相邻帧中的嘴部关键点的位置信息，确定所述图像帧对应的嘴部关键点特征。

针对所述图像帧序列中每一第一图像帧，可以利用嘴部关键点在包括第一图像帧在内的至少两个图像帧的位置信息，计算每个嘴部关键点在第一图像帧对应的嘴部关键点特征，嘴部关键点特征可以包括帧间差异信息和/或帧内差异信息。其中，第一图像帧可以是所述图像帧序列中任一图像帧。帧间差异信息可以表示同一嘴部关键点在不同图像帧的位置信息的差异信息，帧内差异信息可以表示不同嘴部关键点在同一图像帧的位置信息之间的差异信息。这里，利用每个嘴部关键点在第一图像帧的位置信息，以及这个嘴部关键点在第一图像帧的相邻帧的位置信息，计算这个嘴部关键点在不同图像帧的帧间差异信息；和/或，利用至少两个嘴部关键点在第一图像帧的位置信息，计算这个嘴部关键点在第一图像帧的帧内差异信息。

相较于利用嘴部区域图像序列进行唇语识别，本申请实施例利用多个嘴部关键点在多个图像帧的位置信息得到嘴部关键点特征，使得嘴部关键点特征能够表示图像帧序列对应的说话过程中嘴部关键点的变化过程，从而更好地提取说话过程中口型的变化特征；这样，利用嘴部关键点特征进行唇语识别，能够提升唇语识别的准确度。

在一些可能的实现方式中，利用嘴部关键点在相邻帧的位置信息的差异，以及预设嘴部关键点对在同一图像帧的位置信息的差异，确定嘴部关键点特征，即上述步骤S202可以通过以下步骤S2021、S2022实现：

步骤S2021，针对每一所述嘴部关键点，根据所述嘴部关键点在所述图像帧中的位置信息，以及所述嘴部关键点在所述图像帧的相邻图像帧中的位置信息，确定所述嘴部关键点在所述图像帧和相邻帧之间的第一高度差和/或第一宽度差，作为所述嘴部关键点的帧间差异信息。

在一些实施方式中，在计算每一第一图像帧对应的嘴部关键点特征时，对于每一嘴部关键点，根据这个嘴部关键点在第一图像帧的位置信息，以及这个嘴部关键点在至少一个第二图像帧中的每一第二图像帧的位置信息，计算这个嘴部关键点在第一图像帧和这两个第二图像帧的位置信息的差异信息。其中，第二图像帧为与第一图像帧相邻的图像帧，也就是第一图像帧的相邻帧；差异信息可以是第一高度差，可以是第一宽度差，还可以是第一高度差和第一宽度差的组合；第一宽度差为嘴部关键点在两个图像帧(第一图像帧和第二图像帧)之间的宽度差值，第一高度差为嘴部关键点在这两个图像帧的高度差值。在一些可能的实现方式中，在计算差值时，可以设置为在后图像帧的位置信息减去在前图像帧的位置信息，也可以设置为在前图像帧的位置信息减去在后图像帧的位置信息。那么，对于每一嘴部关键点，利用第一图像帧和至少一个第二图像帧中的每一第二图像帧，可以得到与第二图像帧的数量相同的差异信息，将这些差异信息确定为这个嘴部关键点在第一图像帧的帧间差异信息。

例如，一个嘴部关键点在三个连续的图像帧的坐标分别为(x₁，y₁)、(x'₁，y'₁)、(x"₁，y"₁)，以第二个图像帧为第一图像帧，前后的第一个图像帧和第三个图像帧为第二图像帧，计算第一高度差和第一宽度差，得到这个嘴部关键点在第一图像帧的帧间差异信息为(x'₁-x₁，y'₁-y₁,x"₁-x'₁，y"₁-y'₁)。

步骤S2022，针对每一所述嘴部关键点，根据所述图像帧中的所述嘴部关键点与同一嘴部对象的其他嘴部关键点之间的第二高度差和/或第二宽度差，确定所述嘴部关键点的帧内差异信息。

在一些实施方式中，在确定每一第一图像帧对应的嘴部关键点特征时，对于每一嘴部关键点，计算该嘴部关键点与同一嘴部对象的其他嘴部关键点之间的第二高度差和/或第二宽度差，并将第二高度差和/或第二宽度差确定为对应的预设嘴部关键点对中的每一嘴部关键点在第一图像帧的帧内差异信息。其中，其他嘴部关键点可以固定的嘴部关键点，例如唇珠对应的嘴部关键点，例如图3示出的98号关键点；也可以是与每个嘴部关键点满足设定位置关系的嘴部关键点，两个嘴部关键点是一个预设嘴部关键点对。并且，在设置预设嘴部关键点时，可以考虑嘴部关键点在图像中的位置信息，也就是说，属于同一预设嘴部关键点对的两个嘴部关键点之间满足设定位置关系；例如，将分别位于嘴部对象的上下嘴唇的两个嘴部关键点确定为一个嘴部关键点对；进一步地，还可以在图像的宽度的差异信息小于预设值的两个嘴部关键点确定为预设嘴部关键点对。这样，预设嘴部关键点对的第二高度差能够更好地表示嘴部对象在第一图像帧的口型。

在一些可能的实现方式中，一个嘴部关键点可以与两个或以上的嘴部关键点分别构成预设嘴部关键点对，也就是说，每个嘴部关键点可以不仅属于一个嘴部关键点对。此时，分别确定这个嘴部关键点所属每一嘴部关键点对的第二高度差，并利用至少两个第二高度差加权求和确定这个嘴部关键点在第一图像帧的帧内差异信息。以图3示出的106点脸部关键点示意图为例，86号关键点可以分别与103号关键点和94号关键点构成预设嘴部关键点对，也就是说，86号关键点属于两个嘴部关键点对，分别计算每个嘴部关键点对的第二高度差，再对两个第二高度差进行加权求和，确定86号关键点在这个第一图像帧的帧内差异信息。这样，可以改善因关键点识别误差导致的嘴部关键点特征计算偏差，基于这样的嘴部关键点特征进行唇语识别，能够提升唇语识别的准确度。

在一些可能的实现方式中，通过步骤S2021和步骤S2022，分别得到一个嘴部关键点在第一图像帧的帧间差异信息和帧内差异信息，可以对帧间差异信息和帧内差异信息进行拼接，得到这个嘴部关键点在第一图像帧时对应的嘴部关键点特征中的一个元素，从而基于所有嘴部关键点在第一图像帧的帧间差异信息和帧内差异信息确定第一图像帧对应的嘴部关键点特征。

本申请实施例中，利用每个嘴部关键点在相邻图像帧的位置信息的帧间差异信息，和这个嘴部关键点与预设嘴部关键点的位置信息的帧内差异信息，得到嘴部关键点特征，使得嘴部关键点特征能够表示满足设定关系的嘴部关键点之间的差异，提升确定每一帧图像中的口型的准确度；并且，嘴部关键点特征也能够表示图像帧序列对应的说话过程中嘴部关键点在帧间变化过程；这样，可以更好地提取说话过程中口型的变化特征，进而能够提升唇语识别的准确度。

在一些可能的实现方式中，根据图像帧序列的嘴部关键点特征进行时空特征提取，得到嘴部对象在每一图像帧对应的时空特征，基于时空特征进行音节特征分类得到嘴部对象对应的音节分类特征，即上述步骤S103可以通过图4所示的步骤实现。图4为本申请实施例提供的图像处理方法的又一实现流程示意图，结合图4所示的步骤进行以下说明：

步骤S401，分别对每一所述图像帧的嘴部关键点特征进行空间特征提取，得到所述嘴部对象在每一图像帧的空间特征。

前文提及，可以得到图像帧序列的至少一个嘴部关键点特征，每一嘴部关键点特征由嘴部关键点的位置信息计算得到，嘴部关键点的位置信息表示嘴部对象在一个图像帧的位置，每一嘴部关键点特征分别对应一个图像帧。针对每一嘴部关键点特征，嘴部对象在对应的图像帧的空间特征可以是采用任意合适的特征提取方式从该嘴部关键点特征中提取得到的。例如，可以采用卷积神经网络、循环神经网络等方式进行提取，得到空间特征。

在一些可能的实现方式中，通过唇动识别处理检测视频中设定对象的说话区间，得到覆盖设定对象说话过程的图像帧序列，即上述步骤S401可以通过以下步骤S4011和S4012实现：

步骤S4011，对所述嘴部对象的多个所述嘴部关键点的帧间差异信息和帧内差异信息进行融合，得到所述嘴部对象在每一图像帧的帧间差异特征和帧内差异特征。

前文提及，每个嘴部关键点特征由嘴部关键点的位置信息计算得到，嘴部关键点的位置信息表示嘴部对象在一个图像帧的位置，每一嘴部关键点特征分别对应一个图像帧。帧间差异信息可以表示同一嘴部关键点在不同帧的位置信息的差异信息，帧内差异信息可以表示不同嘴部关键点在同一帧的位置信息之间的差异信息。在一些实施方式中，对每一图像帧的多个嘴部关键点的帧间差异信息进行融合，并对每一图像帧的多个嘴部关键点的帧内差异信息进行融合，得到所述嘴部对象在每一图像帧的帧间差异特征和帧内差异特征；其中，对帧间差异信息和/或帧内差异信息进行融合的方式，可以是采用卷积神经网络、循环神经网络等方式，利用预设大小的卷积核对多个嘴部关键点的信息进行融合，实现多个嘴部关键点的帧间和/或帧差异信息的融合。

例如，一个嘴部关键点对应嘴部关键点特征中的一个元素，包括5维特征，5维特征中的前4维是帧间差异信息，分别是第一图像帧和前一图像帧的宽度差、第一图像帧和前一图像帧的高度差、第一图像帧和后一图像帧的宽度差、第一图像帧和后一图像帧的高度差，第5维是帧内差异信息，分别对5维特征中的每一维在至少两个嘴部关键点(也就是嘴部关键点特征的元素之间)进行特征提取，得到的特征中前4维是嘴部对象在这个图像帧的帧间差异特征，第5维是嘴部对象在这个图像帧的帧内差异特征。

步骤S4012，对所述嘴部对象在多个所述图像帧的帧间差异特征和帧内差异特征进行融合，得到所述嘴部对象在每一图像帧的空间特征。

在一些实施方式中，对多个图像帧帧间差异特征和帧内差异特征进行融合的方式，可以是卷积神经网络、循环神经网络等方式，利用预设大小的卷积核对多个嘴部关键点的信息进行融合，实现每一嘴部关键点的帧间差异信息和帧内差异信息之间的融合，得到嘴部对象在这个图像帧的空间特征。

上述步骤S4011至步骤S4012，对嘴部对象的至少两个嘴部关键点在每一图像帧的帧间差异信息和帧内差异信息分别进行融合，得到表示嘴部关键点之间的帧间差异信息的帧间差异特征，以及表示嘴部关键点之间的帧内差异信息的帧内差异特征，再对嘴部关键点在每一图像帧的帧间差异特征和帧内差异特征进行特征融合，能够更好地提取嘴部对象在每一图像帧的空间特征，从而提升确定每一帧图像中的口型的准确度。

步骤S402，对所述嘴部对象在多个所述图像帧的空间特征进行时间特征提取，得到所述嘴部对象的时空特征。

在一些实施方式中，针对至少一个图像帧中的每一第三图像帧，可以利用嘴部对象在包括第三图像帧在内的至少两个图像帧的空间特征进行特征提取，得到嘴部对象在第三图像帧对应的时空特征。嘴部对象的时空特征可以是采用任意合适的特征提取方式从空间特征中提取得到的。例如，可以采用卷积神经网络、循环神经网络等方式对时间特征进行提取，得到时空特征。

在一些可能的实现方式中，对嘴部对象在多个所述图像帧的空间特征进行时间特征提取可以执行多次，以一次时间特征提取为例，利用1×5的卷积核进行特征提取，每次卷积对第三图像帧前后各两个图像帧的空间特征进行提取，提取得到的时空特征包括五个图像帧的信息。

由于时间特征提取的次数越多、使用的卷积核越大，每一图像帧对应的时空特征能表示更多图像帧的信息，使得帧间的信息得到交流，因而对应的感受野越大，有利于学习多帧图像构成的字词和不同字词之间的时序，能够提升唇语识别的准确度，但需要消耗的计算资源更大，影响硬件运算效率；综合考虑准确度和硬件运算效率，实际应用中可以将图像特征提取的次数设置为5次。

步骤S403，基于所述嘴部对象的时空特征进行音节分类特征提取，得到所述嘴部对象的音节分类特征。

在一些实施方式中，对嘴部对象在至少两个图像帧中的每一图像帧对应的时空特征进行音节分类特征提取，得到嘴部对象的音节分类特征；其中，音节分类特征可以表示嘴部对象在说话过程中出现的口型相对应的至少一种音节，利用音节分类特征中的每一元素表示说话过程中是否存在一种预设音节类型，从而确定图像帧序列中图像包含的口型对应的至少一种音节。嘴部对象的音节分类特征可以是采用任意合适的特征提取方式从时空特征中提取得到的。例如，可以采用全连接层、全局平均池化层等方式对时空特征进行音节分类特征提取，得到音节分类特征。

本申请实施例支持使用卷积神经网络进行时空特征提取；相较于采用循环神经网络(递归神经网路)等时序预测网络提取时空特征，通过卷积神经网络提取时空特征的计算量较少，能够降低计算资源的消耗，降低唇语识别的计算机设备的硬件要求。尤其，对于采用卷积神经网络能够降低对芯片计算能力的要求，从而本申请实施例提供的图像处理方法能够通过更多轻量化的芯片实现，使更多硬件支持本申请实施例的唇语识别过程中的图像处理方法，提升了唇语识别的通用性，例如车机等计算机设备也可以实现唇语识别。

本申请实施例提供一种图像处理方法，该方法可以由计算机设备的处理器执行。如图5所示，该方法包括如下步骤S501至步骤S504：

步骤S501，获取包含嘴部对象的图像帧序列。

这里，步骤S501对应于前述步骤S101，在实施时可以参照前述步骤S101的具体实施方式。

步骤S502，对所述图像帧序列中的每一图像帧进行嘴部关键点特征提取，得到所述每一图像帧的嘴部关键点特征。

这里，步骤S502对应于前述步骤S102，在实施时可以参照前述步骤S102的具体实施方式。

步骤S503，利用经过训练的音节特征提取网络对所述图像帧序列中多个图像帧的嘴部关键点特征进行处理，得到音节分类特征。

在实施时，音节特征提取网络可以是任意合适的用于进行特征提取的网络，可以包括但不限于卷积神经网络、循环神经网络等；本领域技术人员可以根据实际情况为音节特征提取网络选择合适的网络结构，本申请实施例并不限定。

步骤S504，利用经过训练的分类网络，在预设关键词库中确定与音节分类特征匹配的关键词。

在实施时，分类网络可以是任意合适的用于特征分类的网络，可以是全局平均池化层，也可以是全连接层等。本领域技术人员可以根据实际情况为分类网络选择合适的网络结构，本申请实施例并不限定。

本申请实施例中，利用经过训练的音节特征提取网络，对嘴部关键点特征处理得到音节分类特征；利用经过训练的分类网络，在预设关键词库中确定与音节分类特征匹配的关键词。这样，由于深度学习模型中的各网络是可学习的，可以提升提取的音节分类特征以及与音节分类特征匹配的关键词的准确性，从而可以使得图像处理得到的关键词更精确，能够提升唇语识别的准确度。

在一些可能的实现方式中，所述音节特征提取网络包括空间特征提取子网络、时间特征提取子网络和分类特征提取子网络，即上述步骤S503可以通过以下步骤S5031至S5033实现：

步骤S5031，利用所述空间特征提取子网络，分别对每一所述图像帧的嘴部关键点特征进行空间特征提取，得到所述嘴部对象在每一图像帧的空间特征。

在实施时，空间特征提取子网络可以是任意合适的用于进行图像特征提取的网络，可以包括但不限于卷积神经网络、循环神经网络等。本领域技术人员可以根据实际对每一所述嘴部关键点特征进行空间特征提取的方式，选择合适的网络结构，本申请实施例并不限定。

步骤S5032，利用所述时间特征提取子网络，对所述嘴部对象在多个所述图像帧的空间特征进行时间特征提取，得到所述嘴部对象的时空特征。

这里，时间特征提取子网络可以是任意合适的用于进行图像特征提取的网络，可以包括但不限于卷积神经网络、循环神经网络网络等。本领域技术人员可以根据实际对嘴部对象在至少一个图像帧的空间特征进行至少一次时间特征提取的方式，选择合适的网络结构，本申请实施例并不限定。

步骤S5033，利用所述分类特征提取子网络，基于所述嘴部对象的时空特征进行音节分类特征提取，得到所述嘴部对象的音节分类特征。

这里，分类特征提取子网络可以是任意合适的用于特征分类的网络，可以是全局平均池化层，也可以是全连接层等。本领域技术人员可以根据实际对嘴部对象的每一时空特征进行分类特征提取的方式，选择合适的网络结构，本申请实施例并不限定。

本申请实施例提供一种生成唇语识别模型的方法，该方法可以由计算机设备的处理器执行。如图6所示，该方法包括如下步骤S601至步骤S604：

步骤S601，获取包含嘴部对象的样本图像帧序列。

在一些实施方式中，计算机设备获取已标注关键词标签的样本图像帧序列，样本图像帧序列包括多个样本图像帧，样本图像帧序列中的样本图像按照每一个样本图像帧对应的时间顺序进行排序。并且，样本图像帧序列包括的样本图像的帧数可以是不固定的，例如，样本图像帧序列的样本图像帧数为40帧、50帧或100帧。

这样，能够得到至少覆盖设定对象说一句话的完整过程的样本图像帧序列。

步骤S602，对所述样本图像帧序列中的每一样本图像帧进行嘴部关键点特征提取，得到所述每一样本图像帧的嘴部关键点特征。

对样本图像帧序列中的至少一个样本图像帧进行嘴部关键点提取，从样本图像帧的脸部关键点中提取与嘴部对象关联的嘴部关键点的位置信息，并基于至少一个样本图像帧的嘴部关键点的位置信息，确定每一个样本图像帧对应的一个嘴部关键点特征，从而得到样本图像帧序列的至少一个嘴部关键点特征。其中，嘴部关键点特征由嘴部关键点的位置信息计算得到，而嘴部关键点的位置信息与样本图像包含的嘴部对象的口型关联，同一嘴部关键点在不同样本图像帧的位置信息，与这个样本图像帧中嘴部对象的口型相关。

在一些实施方式中，基于样本图像帧的嘴部关键点的位置信息确定样本图像对应的嘴部关键点特征的方式，可以是按照对应的关键点序号，对一个样本图像帧中的每个嘴部关键点的位置信息进行排序得到位置序列，将位置序列作为嘴部关键点特征。

在一些实施方式中，在样本图像帧序列包括两个样本图像帧，或者多于两个样本图像帧的情况下，基于样本图像帧的嘴部关键点的位置信息确定样本图像对应的嘴部关键点特征的方式，可以通过计算每一个样本图像帧和与该样本图像帧的相邻帧的嘴部关键点的位置信息的差异信息，按照对应的关键点序号，对一个样本图像帧中的每个嘴部关键点的差异信息进行排序，将排序序列作为嘴部关键点特征；其中，相邻帧可以是该样本图像帧的前一样本图像帧和/或后一样本图像帧。

这里，步骤S601至步骤S602分别对应于前述步骤S101至步骤S102，在实施时可以参照前述步骤S101至步骤S102的具体实施方式。

步骤S603，利用待训练的模型，根据所述样本图像帧序列中多个样本图像帧的所述嘴部关键点特征，生成音节分类特征，并在预设关键词库中确定与所述音节分类特征匹配的关键词。

其中，所述音节分类特征表征所述样本图像帧序列中嘴部对象的口型对应的音节类别。

这里，待训练的模型可以是任意合适的深度学习模型，这里并不限定。在实施时，本领域技术人员可以根据实际情况采用合适的网络结构构建待训练的模型。

利用待训练的模型对样本图像帧序列中多个样本图像帧的嘴部关键点特征进行处理，生成音节分类特征，音节分类特征表征样本图像帧序列中嘴部对象的口型对应的音节类别，并在预设关键词库中确定与音节分类特征匹配的关键词的过程，对应于前述实施例中的步骤S103至步骤S104中对嘴部关键点特征进行处理的过程，在实施时可以参照前述步骤S103至步骤S104的具体实施方式。

这样，通过音节辅助学习能够有效降低关键词识别分类的学习难度，从而提升唇语识别的准确度。

步骤S604，基于确定出的所述关键词和所述关键词标签，对所述模型的网络参数进行至少一次更新，得到经过训练的唇语识别模型。

这里，可以基于确定出的关键词和关键词标签，确定是否对模型的网络参数进行更新，在确定对模型的网络参数进行更新的情况下，采用合适的参数学习难度更新算法对模型的网络参数进行更新，并利用参数更新后的模型重新确定匹配的关键词，以基于重新确定的关键词和关键词标签，确定是否对模型的网络参数进行继续更新。在确定不对模型的网络参数进行继续更新的情况下，将最终更新后的模型确定为经过训练的唇语识别模型。

在一些实施方式中，可以基于确定出的关键词和关键词标签确定损失值，并在该损失值不满足预设条件的情况下，对模型的网络参数进行更新，在损失值满足预设条件或对模型的网络参数进行更新的次数达到设定阈值的情况下，停止对模型的网络参数进行更新，并将最终更新后的模型确定为经过训练的唇语识别模型。预设条件可以包括但不限于损失值小于设定的损失阈值、损失值的变化收敛等至少之一。在实施时，预设条件可以根据实际情况设定，本申请实施例对此并不限定。

对模型的网络参数进行更新的方式可以是根据实际情况确定的，可以包括但不限于梯度下降法、牛顿动量法等中的至少一种，这里并不限定。

本申请实施例中，在模型训练过程中，通过音节辅助学习能够有效降低关键词识别分类的学习难度，从而可以提升经过训练的唇语识别模型进行唇语识别的准确度。并且，由于音节分类特征是基于嘴部关键点特征确定的，因而音节分类特征可以更好地体现与图像帧序列中口型对应的音节，利用音节分类特征辅助唇语识别，从而使得图像处理得到的关键词更精确，提升唇语识别的准确度。并且，相较于利用脸部图像裁剪得到的嘴部区域图像序列进行唇语识别，利用嘴部关键点特征进行唇语识别，能够降低图像处理过程所需的计算量，从而降低执行图像处理方法的计算机设备的硬件要求；并且，对不同脸型、纹理等外观信息的脸部图像都能取得良好的识别效果，从而基于嘴部关键点特征可以提高对模型训练过程中未涉及的脸型、纹理的图像类别的识别能力，进而提高了唇语识别的泛化能力。

在一些实施例中，所述模型中包括音节特征提取网络和分类网络，上述步骤S603可以包括如下步骤S6031至步骤S6032：

步骤S6031，利用所述音节特征提取网络，根据所述样本图像帧序列中多个样本图像帧的所述嘴部关键点特征，生成音节分类特征。

步骤S6032，利用所述分类网络，在预设关键词库中确定与所述音节分类特征匹配的关键词。

这里，步骤S6031至步骤S6032分别对应于前述步骤S503至步骤S504，在实施时可以参照前述步骤S503至步骤S504的具体实施方式。

在一些实施方式中，所述音节特征提取网络包括空间特征提取子网络、时间特征提取子网络和音节分类特征提取子网络，上述步骤S6031可以包括如下步骤S60311至步骤S60313：

步骤S60311，利用所述空间特征提取子网络，分别对每一所述样本图像帧的嘴部关键点特征进行空间特征提取，得到所述嘴部对象在每一样本图像帧的空间特征。

步骤S60312，利用所述时间特征提取子网络，对所述嘴部对象在多个所述样本图像帧的空间特征进行样本时间特征提取，得到所述嘴部对象的时空特征。

步骤S60313，利用所述音节分类特征提取子网络，基于所述嘴部对象的时空特征进行音节分类特征提取，得到所述嘴部对象的音节分类特征。

这里，步骤S60311至步骤S60313分别对应于前述步骤S5031至步骤S5033，在实施时可以参照前述步骤S5031至步骤S5033的具体实施方式。

下面说明本申请实施例提供的图像处理方法在实际场景中的应用，以图像处理用于汉语的唇语识别为例进行说明。

图7为本申请实施例提供的一种唇语识别模型的组成结构示意图。如图7所示，该唇语识别模型结构包括：单帧特征提取网络701、帧间特征融合网络702和特征序列分类网络703。其中，单帧特征提取网络701包括空间特征提取网络7011和空间特征融合网络7012，特征序列分类网络703包括音节特征层7031和第一线性层7032。本申请实施例提供一种图像处理方法，根据唇动识别检测结果生成对象说话的图像帧序列，将人脸关键点的特征作为唇语识别模型的输入，利用单音节辅助检测说话序列中的音节，并利用音节特征层实现对说话序列的分类。下面结合图7对本申请实施例的图像处理方法进行说明。

本申请实施例提供一种图像处理方法，该方法可以由计算机设备的处理器执行。其中，计算机设备指的可以是车机等具备数据处理能力的设备。图像处理方法可以包括如下步骤一至步骤四：

步骤一，输入预处理。

计算机设备获得的输入视频序列为不固定帧，视频序列可以包括不固定数量的视频帧。关键点序列在每个图像帧对应有106个关键点，将嘴部对象的20个关键点取出，再将利用插值法(例如，双线性插值法)生成长度为60个图像帧的关键点的位置序列。20个嘴部关键点作为特征维度，位置序列中每个关键点在每一图像帧对应长度为5的特征，从而得到对应于60帧嘴部关键点特征704，每帧嘴部关键点特征704对应一个图像帧，20个关键点中的每个关键点在每一图像帧对应有5维特征。

具体地，根据这一帧与前后帧的坐标差值得到特征的前4维，根据这一帧的预设的关键点对之间的高度差得到特征的第5维。其中，前4维能够反映当前帧与前后帧的口型变化，第5维反映当前帧口型。这里，可以利用通过唇动识别等方式处理采集到的视频，使每个视频能够至少覆盖设定对象(通常是人)说一句话的过程，每句话对应一个关键词。这样，视频与关键词是一对一的关系。并且，无论获取的视频说话序列的帧数是多少帧，都可以利用插值法得到60帧的位置序列。

这里，位置序列的帧数越多，计算效率降低但唇语识别的性能提升，综合考虑性能、计算效率以及待检测关键词的字数分布，将位置序列的帧数设置为60帧。其中，性能可以是唇语识别的准确度。

步骤二，单帧特征提取。

计算机设备通过图7中单帧特征提取网络701实现单帧特征提取。单帧特征提取网络701包括空间特征提取网络7011和空间特征融合网络7012。

将嘴部关键点特征704输入唇语识别模型，利用空间特征提取网络7011，独立地对每帧嘴部关键点特征704以1×1的卷积核进行特征提取，重复2次上述卷积，将提取的特征输入空间特征融合网络7012。在空间特征融合网络7012中，先采用5×1的卷积核对每个关键点的5个特征进行融合得到每一图像帧的空间特征，得到每一图像帧经空间特征提取网络7011提取得到的特征705，再采用1×1的卷积核对20个关键点间的特征进行融合，得到图像帧的空间特征706，完成单帧特征提取。

在一些可能的实现方式中，卷积核可以是残差块卷积核(Residual Blockkernel)。

步骤三，帧间特征融合。

计算机设备通过图7中帧间特征融合网络702实现相邻图像帧的帧间特征融合。

将每一图像帧的空间特征706输入帧间特征融合网络702，利用1×5的卷积核在序列长度维度上卷积，将每一图像帧的空间特征706和前后各两个图像帧的空间特征706融合，并重复5次上述卷积以提高感受野，使得帧间的信息得到交流，加强相邻帧间关联，有利于学习多帧构成的关键词和汉字之间的时间序列。

该步骤将占用一定的计算资源，为提高性能可以将卷积核尺寸增大，并将重复次数增多，相应地影响效率。综合考虑准确度和硬件运算效率，实际应用中可以将提取次数设置为5次，卷积核尺寸设置为5。

步骤四，特征序列分类。

计算机设备通过图7中特征序列分类网络703实现对特征序列的分类，得到视频序列对应的关键词序号。其中，特征序列包括多图像帧的时空特征。特征序列分类网络703包括音节特征层7031和第一线性层7032。

将时空特征输入“平坦层+第二线性层+非线性激活(relu)层”进行处理，所有图像帧的时空特征融合至一维向量707，实现时空特征的特征融合。将一维向量707输入第三线性层进行100分类单音节辅助分类得到音节分类特征，将音节分类特征输入第一线性层7032，输出需要检测的视频序列的关键词序号。其中，第三线性层可以利用Softmax函数，以二分类交叉熵损失(BCEloss)函数为损失函数训练得到。第一线性层7032可以以焦点损失(Focalloss)函数为损失函数进行训练，利用Softmax函数进行预测；实际应用中，第一线性层7032可以是间隔线性(MarginLinear)层，由全连接层或全局平均池化层实现。相比使用全局平均池化层，全连接层直接展开等价于每帧对应一个可学习的位置编码(learnableposition embedding)，从而能够记录每帧在语句中的位置顺序前后信息。

在一些可能的实现方式中，使用音节辅助学习的唇语识别的检测算法。目前，汉语所有字的读音不考虑音调一共有419类，根据口型将这419类音节分为100类，同一口型的音节划为同一类，将长度为100的特征(对应于前述实施例中的音节分类特征)放在最后分类的全连接层之前，并将该特征的输出作为100分类的辅助监督，此时音节特征层7031的输出代表唇语序列中共有哪些音节，对音节特征层7031的输出结果进行分类，能够有效降低全连接层分类的学习难度，从而提升性能。其中，音节特征层7031可以采用线性(Linear)层实现。

本申请实施例中，单音节辅助策略对性能提升明显；并且，这些用于匹配的关键词可以以预设关键词库的形式存储，方便后续增加新的用于匹配的关键词，在需要增加关键词时则可以在预设关键词库中相应增加。

需要说明的是，在实施时，上述坐标差值可以对应于前述实施例中的位置信息的差异信息，视频序列可以对应于前述实施例中的图像帧序列，单帧特征提取网络701可以对应于前述实施例中的空间特征提取子网络，帧间特征融合网络702可以对应于前述实施例中的时间特征提取子网络，音节特征层7031可以对应于前述实施例中的音节分类特征提取子网络，第一线性层7032可以对应于前述实施例中的分类网络。

在人机交互领域，语音识别的应用仍存在一定的局限，如噪音或音乐音量较大、不方便说话的场合等，此时唇语识别能够在一定程度上弥补语音识别的局限带来的不便。唇语识别能够根据唇动识别检测到的说话区间，检测到说话人在该区间内所说的内容所对应的关键词。例如，在车舱中，语音识别是人机交互的主要手段，但当汽车在高速上的噪音较大，或者，播放音乐声音较大时，语音识别均不能准确识别用户的语音；又或者，当车内有人睡觉时，用户也不方便利用语音进行交互，此时通过唇语识别，用户只需要利用口型模拟说话，便可以让车机检测用户的指示，从而完成人机交互。

相较于相关技术的唇语识别技术，本申请实施例利用关键点识别，占用的计算资源更少，且能够学习到嘴唇的帧间运动信息，方便部署、效率更高且准确性更好。本申请实施例提供的图像处理方法，用于唇语识别时，支持35类常用关键词的识别，识别召回率在控制误报率小于千分之一的情况下达到81％。

基于前述的实施例，本申请实施例提供一种图像处理装置，该装置包括所包括的各单元、以及各单元所包括的各模块，可以通过计算机设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(Central ProcessingUnit，CPU)、微处理器(Microprocessor Unit，MPU)、数字信号处理器(Digital SignalProcessor，DSP)或现场可编程门阵列(Field Programmable Gate Array，FPGA)等。

图8为本申请实施例提供的一种图像处理装置的组成结构示意图，如图8所示，图像处理装置800包括：第一获取模块810、第一识别模块820、第一确定模块830和第一匹配模块840，其中：

第一获取模块810，用于获取包含嘴部对象的图像帧序列；

第一识别模块820，用于对所述图像帧序列中的每一图像帧进行嘴部关键点特征提取，得到所述每一图像帧的嘴部关键点特征；

第一确定模块830，用于根据所述图像帧序列中多个图像帧的所述嘴部关键点特征，生成音节分类特征；其中，所述音节分类特征表征所述图像帧序列中嘴部对象的口型对应的音节类别；

第一匹配模块840，用于在预设关键词库中确定与所述音节分类特征匹配的关键词。

在一些实施例中，在所述图像帧序列包括至少两帧图像的情况下，所述第一识别模块820，包括：第一确定子模块，用于确定所述嘴部对象的至少两个嘴部关键点在所述每一图像帧中的位置信息；第二确定子模块，用于针对所述图像帧序列中的每一图像帧，根据所述图像帧和所述图像帧的相邻帧中的嘴部关键点的位置信息，确定所述图像帧对应的嘴部关键点特征。

在一些实施例中，所述嘴部关键点特征包括每一所述嘴部关键点的帧间差异信息和帧内差异信息；所述第二确定子模块，包括：第一确定单元，用于针对每一所述嘴部关键点，根据所述嘴部关键点在所述图像帧中的位置信息，以及所述嘴部关键点在所述图像帧的相邻图像帧中的位置信息，确定所述嘴部关键点在所述图像帧和相邻帧之间的第一高度差和/或第一宽度差，作为所述嘴部关键点的帧间差异信息；第二确定单元，用于针对每一所述嘴部关键点，根据所述图像帧中的所述嘴部关键点与同一嘴部对象的其他嘴部关键点之间的第二高度差和/或第二宽度差，确定所述嘴部关键点的帧内差异信息。

在一些实施例中，所述第一确定模块830，包括：第一提取子模块，用于分别对每一所述图像帧的嘴部关键点特征进行空间特征提取，得到所述嘴部对象在每一图像帧的空间特征；第二提取子模块，用于对所述嘴部对象在多个所述图像帧的空间特征进行时间特征提取，得到所述嘴部对象的时空特征；第三提取子模块，用于基于所述嘴部对象的时空特征进行音节分类特征提取，得到所述嘴部对象的音节分类特征。

在一些实施例中，所述第一提取子模块，包括：第一提取单元，用于对所述嘴部对象的多个所述嘴部关键点的帧间差异信息和帧内差异信息进行融合，得到所述嘴部对象在每一图像帧的帧间差异特征和帧内差异特征；第二提取单元，用于对所述嘴部对象在多个所述图像帧的帧间差异特征和帧内差异特征进行融合，得到所述嘴部对象在每一图像帧的空间特征。

在一些实施例中，所述第一确定模块830，包括：第三确定子模块，用于利用经过训练的音节特征提取网络对所述图像帧序列中多个图像帧的嘴部关键点特征进行处理，得到音节分类特征；所述第一匹配模块840，包括：第一匹配子模块，用于所述在预设关键词库中确定与所述音节分类特征匹配的关键词，包括：利用经过训练的分类网络，在预设关键词库中确定与所述音节分类特征匹配的关键词。

在一些实施例中，所述第一获取模块810，包括插帧子模块，用于：对获取到的包含嘴部对象的原始图像序列进行图像插帧，得到所述图像帧序列；或者，基于获取到的包含嘴部对象的原始图像序列中的嘴部关键点，对所述原始图像序列进行插帧，得到所述图像帧序列。

在一些实施例中，所述音节特征提取网络包括空间特征提取子网络、时间特征提取子网络和分类特征提取子网络；所述第三确定子模块，包括：第三提取单元，用于利用所述空间特征提取子网络，分别对每一所述图像帧的嘴部关键点特征进行空间特征提取，得到所述嘴部对象在每一图像帧的空间特征；第四提取单元，用于利用所述时间特征提取子网络，对所述嘴部对象在多个所述图像帧的空间特征进行时间特征提取，得到所述嘴部对象的时空特征；第五提取单元，用于利用所述分类特征提取子网络，基于所述嘴部对象的时空特征进行音节分类特征提取，得到所述嘴部对象的音节分类特征。

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。在一些实施例中，本申请实施例提供的装置具有的功能或包含的模块可以用于执行上述方法实施例描述的方法，对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

基于前述的实施例，本申请实施例提供一种生成唇语识别模型的装置，该装置包括所包括的各单元、以及各单元所包括的各模块，可以通过计算机设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为CPU、MPU、DSP或FPGA等。

图9为本申请实施例提供的一种生成唇语识别模型的装置的组成结构示意图，如图9所示，该装置900包括：第二获取模块910、第二识别模块920、第二匹配模块930和更新模块940，其中：

第二获取模块910，用于获取包含嘴部对象的样本图像帧序列；其中，所述样本图像帧序列标注有关键词标签；

第二识别模块920，用于对所述样本图像帧序列中的每一样本图像帧进行嘴部关键点特征提取，得到所述每一样本图像帧的嘴部关键点特征；

第二匹配模块930，用于利用待训练的模型，根据所述样本图像帧序列中多个样本图像帧的所述嘴部关键点特征，生成音节分类特征，并在预设关键词库中确定与所述音节分类特征匹配的关键词；其中，所述音节分类特征表征所述样本图像帧序列中嘴部对象的口型对应的音节类别；

更新模块940，用于基于确定出的所述关键词和所述关键词标签，对所述模型的网络参数进行至少一次更新，得到经过训练的唇语识别模型。

在一些实施例中，所述模型中包括音节特征提取网络和分类网络；所述第二匹配模块930，包括：第四确定子模块，用于利用所述特征提取网络，根据所述样本图像帧序列中多个样本图像帧的所述嘴部关键点特征，生成音节分类特征；第五确定子模块，用于利用所述分类网络，在预设关键词库中确定与所述音节分类特征匹配的关键词。

在一些实施例中，所述特征提取网络包括空间特征提取子网络、时间特征提取子网络和音节分类特征提取子网络；所述第四确定子模块，包括：第六提取单元，用于利用所述空间特征提取子网络，分别对每一所述样本图像帧的嘴部关键点特征进行空间特征提取，得到所述嘴部对象在每一样本图像帧的空间特征；第七提取单元，用于利用所述时间特征提取子网络，对所述嘴部对象在多个所述样本图像帧的空间特征进行样本时间特征提取，得到所述嘴部对象的时空特征；第八提取单元，用于利用所述音节分类特征提取子网络，基于所述嘴部对象的时空特征进行音节分类特征提取，得到所述嘴部对象的音节分类特征。

本申请实施例提供一种车辆，包括：

车载相机，用于拍摄包含嘴部对象的图像帧序列；

以上车辆实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请车辆实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件、软件或固件，或者硬件、软件、固件三者之间的任意结合。

本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法中的部分或全部步骤。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。所述计算机可读存储介质可以是瞬时性的，也可以是非瞬时性的。

本申请实施例提供一种计算机程序，包括计算机可读代码，在所述计算机可读代码在计算机设备中运行的情况下，所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。

本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一些实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一些实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

这里需要指出的是：上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考。以上设备、存储介质、计算机程序及计算机程序产品实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请设备、存储介质、计算机程序及计算机程序产品实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，图10为本申请实施例中计算机设备的一种硬件实体示意图，如图10所示，该计算机设备1000的硬件实体包括：处理器1001、通信接口1002和存储器1003，其中：

处理器1001通常控制计算机设备1000的总体操作。

通信接口1002可以使计算机设备通过网络与其他终端或服务器通信。

存储器1003配置为存储由处理器1001可执行的指令和应用，还可以缓存待处理器1001以及计算机设备1000中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory，RAM)实现。处理器1001、通信接口1002和存储器1003之间可以通过总线1004进行数据传输。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各步骤/过程的序号的大小并不意味着执行顺序的先后，各步骤/过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

若本申请技术方案涉及个人信息，应用本申请技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本申请技术方案涉及敏感个人信息，应用本申请技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式、处理的个人信息种类等信息。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取包含嘴部对象的图像帧序列；

对所述图像帧序列中的每一图像帧进行嘴部关键点特征提取，得到所述每一图像帧的嘴部关键点特征；

根据所述图像帧序列中多个图像帧的所述嘴部关键点特征，生成音节分类特征；其中，所述音节分类特征表征所述图像帧序列中嘴部对象的口型对应的音节类别；

在预设关键词库中确定与所述音节分类特征匹配的关键词。

2.根据权利要求1所述的方法，其特征在于，所述对所述图像帧序列中的每一图像帧进行嘴部关键点特征提取，得到所述每一图像帧的嘴部关键点特征，包括：

确定所述嘴部对象的至少两个嘴部关键点在所述每一图像帧中的位置信息；

针对所述图像帧序列中的每一图像帧，根据所述图像帧和所述图像帧的相邻帧中的嘴部关键点的位置信息，确定所述图像帧对应的嘴部关键点特征。

3.根据权利要求2所述的方法，其特征在于，所述嘴部关键点特征包括每一所述嘴部关键点的帧间差异信息和帧内差异信息；

所述根据所述图像帧和所述图像帧的相邻帧中的嘴部关键点的位置信息，确定所述图像帧对应的嘴部关键点特征，包括：

针对每一所述嘴部关键点，根据所述嘴部关键点在所述图像帧中的位置信息，以及所述嘴部关键点在所述图像帧的相邻图像帧中的位置信息，确定所述嘴部关键点在所述图像帧和相邻帧之间的第一高度差和/或第一宽度差，作为所述嘴部关键点的帧间差异信息；

针对每一所述嘴部关键点，根据所述图像帧中的所述嘴部关键点与同一嘴部对象的其他嘴部关键点之间的第二高度差和/或第二宽度差，确定所述嘴部关键点的帧内差异信息。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述图像帧序列中多个图像帧的嘴部关键点特征，生成音节分类特征，包括：

分别对每一所述图像帧的嘴部关键点特征进行空间特征提取，得到所述嘴部对象在每一图像帧的空间特征；

对所述嘴部对象在多个所述图像帧的空间特征进行时间特征提取，得到所述嘴部对象的时空特征；

基于所述嘴部对象的时空特征进行音节分类特征提取，得到所述嘴部对象的音节分类特征。

5.根据权利要求4所述的方法，其特征在于，所述分别对每一所述图像帧的嘴部关键点特征进行空间特征提取，得到所述嘴部对象在每一图像帧的空间特征，包括：

对所述嘴部对象的多个所述嘴部关键点的帧间差异信息和帧内差异信息进行融合，得到所述嘴部对象在每一图像帧的帧间差异特征和帧内差异特征；

对所述嘴部对象在多个所述图像帧的帧间差异特征和帧内差异特征进行融合，得到所述嘴部对象在每一图像帧的空间特征。

6.根据权利要求1至5任一项所述的方法，其特征在于，

所述根据所述图像帧序列中多个图像帧的所述嘴部关键点特征，生成音节分类特征，包括：利用经过训练的音节特征提取网络对所述图像帧序列中多个图像帧的嘴部关键点特征进行处理，得到音节分类特征；

所述在预设关键词库中确定与所述音节分类特征匹配的关键词，包括：利用经过训练的分类网络，在预设关键词库中确定与所述音节分类特征匹配的关键词。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述获取包含嘴部对象的图像帧序列，包括：

对获取到的包含嘴部对象的原始图像序列进行图像插帧，得到所述图像帧序列；或者，

基于获取到的包含嘴部对象的原始图像序列中的嘴部关键点，对所述原始图像序列进行插帧，得到所述图像帧序列。

8.一种生成唇语识别模型的方法，其特征在于，所述方法包括：

获取包含嘴部对象的样本图像帧序列；其中，所述样本图像帧序列标注有关键词标签；

对所述样本图像帧序列中的每一样本图像帧进行嘴部关键点特征提取，得到所述每一样本图像帧的嘴部关键点特征；

利用待训练的模型，根据所述样本图像帧序列中多个样本图像帧的所述嘴部关键点特征，生成音节分类特征，并在预设关键词库中确定与所述音节分类特征匹配的关键词；其中，所述音节分类特征表征所述样本图像帧序列中嘴部对象的口型对应的音节类别；

基于确定出的所述关键词和所述关键词标签，对所述模型的网络参数进行至少一次更新，得到经过训练的唇语识别模型。

9.根据权利要求8所述的方法，其特征在于，所述模型中包括音节特征提取网络和分类网络；所述利用待训练的模型，根据所述样本图像帧序列中多个样本图像帧的所述嘴部关键点特征，生成音节分类特征，并在预设关键词库中确定与所述音节分类特征匹配的关键词，包括：

利用所述音节特征提取网络，根据所述样本图像帧序列中多个样本图像帧的所述嘴部关键点特征，生成音节分类特征；

利用所述分类网络，在预设关键词库中确定与所述音节分类特征匹配的关键词。

10.根据权利要求9所述的方法，其特征在于，所述音节特征提取网络包括空间特征提取子网络、时间特征提取子网络和音节分类特征提取子网络；

所述利用所述音节特征提取网络，根据所述样本图像帧序列中多个样本图像帧的所述嘴部关键点特征，生成音节分类特征，包括：

利用所述空间特征提取子网络，分别对每一所述样本图像帧的嘴部关键点特征进行空间特征提取，得到所述嘴部对象在每一样本图像帧的空间特征；

利用所述时间特征提取子网络，对所述嘴部对象在多个所述样本图像帧的空间特征进行样本时间特征提取，得到所述嘴部对象的时空特征；

利用所述音节分类特征提取子网络，基于所述嘴部对象的时空特征进行音节分类特征提取，得到所述嘴部对象的音节分类特征。

11.一种图像处理装置，其特征在于，包括：

第一获取模块，用于获取包含嘴部对象的图像帧序列；

12.一种生成唇语识别模型的装置，其特征在于，包括：

13.一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至10任一项所述方法中的步骤。

14.一种车辆，包括：

车载相机，用于拍摄包含嘴部对象的图像帧序列；

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至10任一项所述方法中的步骤。