CN116721191A

CN116721191A - 口型动画处理方法、装置及存储介质

Info

Publication number: CN116721191A
Application number: CN202310997157.5A
Authority: CN
Inventors: 陈欢; 陈长海; 陈伟杰; 童妍钰; 陈宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2023-09-08
Anticipated expiration: 2043-08-09
Also published as: CN116721191B

Abstract

本申请公开了一种口型动画处理方法、装置及存储介质，先在口型动画中确定与目标音素对应的多个候选音频帧以及与目标视素对应的多个口型图像帧，再获取各个候选音频帧中目标音素的音频强度，并根据音频强度在多个口型图像帧中确定多个目标图像帧区间，然后确定会与目标视素产生冲突的冲突视素，并根据冲突视素在多个目标图像帧区间中确定视素冲突帧区间，接着获取视素冲突帧区间的视素权重曲线，根据视素权重曲线计算得到权重抑制曲线，并根据权重抑制曲线和视素权重曲线对视素冲突帧区间的图像内容进行调整。本申请实施例能够提高口型的准确性，从而能够提高口型与发音的匹配度，改善观众的观看体验。

Description

口型动画处理方法、装置及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种口型动画处理方法、装置及存储介质。

背景技术

随着动画技术的发展以及动画质量的提高，观众对动画中虚拟角色的说话口型与说话内容的匹配度要求越来越高。为了提高观众对于动画的观看体验，在相关技术中，常用文本驱动虚拟人脸动画生成方式或者音频驱动虚拟人脸动画生成方式，来制作虚拟人脸的口型动画。通过为口型图像帧配置与音频中的音素对应的视素权重系数，使得在每个口型图像帧中，都能够基于视素权重系数生成对应的口型图像，从而使得虚拟人脸的口型变化能够与音频内容相匹配。

但是，当某些关键发音对应的口型图像帧中的视素权重系数发生冲突时，容易导致出现口型不准确的问题，从而会导致口型与发音不匹配，影响观众的观看体验。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请实施例提供了一种口型动画处理方法、装置及存储介质，能够提高口型的准确性，从而能够提高口型与发音的匹配度，改善观众的观看体验。

一方面，本申请实施例提供了一种口型动画处理方法，包括以下步骤：

在待处理的口型动画中，确定与目标音素对应的多个候选音频帧，以及与目标视素对应的多个口型图像帧，其中，所述目标音素与所述目标视素对应，所述候选音频帧与所述口型图像帧对齐；

获取各个所述候选音频帧中所述目标音素的音频强度，根据所述音频强度在所述多个口型图像帧中确定多个目标图像帧区间；

确定会与所述目标视素产生冲突的冲突视素，根据所述冲突视素在所述多个目标图像帧区间中确定视素冲突帧区间，所述视素冲突帧区间中的至少一个所述口型图像帧与所述冲突视素对应；

获取所述视素冲突帧区间的视素权重曲线，根据所述视素权重曲线计算得到权重抑制曲线；

根据所述权重抑制曲线和所述视素权重曲线，对所述视素冲突帧区间的图像内容进行调整。

另一方面，本申请实施例还提供了一种口型动画处理装置，包括：

第一帧处理单元，用于在待处理的口型动画中，确定与目标音素对应的多个候选音频帧，以及与目标视素对应的多个口型图像帧，其中，所述目标音素与所述目标视素对应，所述候选音频帧与所述口型图像帧对齐；

第一帧区间确定单元，用于获取各个所述候选音频帧中所述目标音素的音频强度，根据所述音频强度在所述多个口型图像帧中确定多个目标图像帧区间；

第二帧区间确定单元，用于确定会与所述目标视素产生冲突的冲突视素，根据所述冲突视素在所述多个目标图像帧区间中确定视素冲突帧区间，所述视素冲突帧区间中的至少一个所述口型图像帧与所述冲突视素对应；

曲线计算单元，用于获取所述视素冲突帧区间的视素权重曲线，根据所述视素权重曲线计算得到权重抑制曲线；

图像调整单元，用于根据所述权重抑制曲线和所述视素权重曲线，对所述视素冲突帧区间的图像内容进行调整。

可选地，所述第一帧区间确定单元还用于：

在所述多个候选音频帧中，确定所述音频强度大于预设强度阈值的多个目标音频帧；

根据所述多个目标音频帧，在所述多个口型图像帧中确定多个目标图像帧区间。

可选地，所述第一帧区间确定单元还用于：

在所述多个口型图像帧中，确定与所述多个目标音频帧对应的多个目标图像帧；

根据所述多个目标图像帧的分布情况，确定多个目标图像帧区间。

可选地，所述目标视素的种类有多个；所述第一帧区间确定单元还用于：

在所述多个口型图像帧中，确定各种所述目标视素对应的多个候选图像帧；

在各种所述目标视素对应的所述多个候选图像帧中，分别确定与所述多个目标音频帧对应的多个目标图像帧。

可选地，所述第一帧区间确定单元还用于：

根据所述多个目标图像帧的分布情况，确定各种所述目标视素对应的候选图像帧区间；

对不同种类的所述目标视素对应的所述候选图像帧区间之间，进行基于时间维度的区间去重，得到多个目标图像帧区间。

可选地，所述第一帧区间确定单元还用于：

遍历所有种类的所述目标视素，如果当前种类的所述目标视素对应的所述候选图像帧区间，与其他种类的所述目标视素对应的所述候选图像帧区间，在时间维度上属于包含关系，将被包含的所述候选图像帧区间进行删除。

可选地，所述第二帧区间确定单元还用于：

在所述多个目标图像帧区间中，将存在包括所述冲突视素的口型图像帧的所述目标图像帧区间，确定为视素冲突帧区间。

可选地，所述曲线计算单元还用于：

计算所述视素权重曲线的权重均值；

根据所述视素权重曲线和所述权重均值，计算得到权重抑制曲线。

可选地，所述曲线计算单元还用于：

根据所述视素权重曲线和所述权重均值，计算得到初始抑制曲线；

对所述初始抑制曲线进行基于幅值的归一化处理，得到权重抑制曲线。

可选地，所述曲线计算单元还用于：

根据所述视素冲突帧区间的长度确定幅值上限超参数和幅值下限超参数；

根据所述幅值上限超参数和所述幅值下限超参数，对所述初始抑制曲线进行归一化处理，得到权重抑制曲线。

可选地，所述图像调整单元还用于：

将所述权重抑制曲线和所述视素权重曲线进行相乘处理，得到权重调整曲线；

根据所述权重调整曲线对所述视素冲突帧区间的图像内容进行调整。

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当至少一个所述程序被至少一个所述处理器执行时实现如前面所述的口型动画处理方法。

另一方面，本申请实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的计算机程序，所述处理器可执行的计算机程序被处理器执行时用于实现如前面所述的口型动画处理方法。

另一方面，本申请实施例还提供了一种计算机程序产品，包括计算机程序或计算机指令，所述计算机程序或所述计算机指令存储在计算机可读存储介质中，口型动画处理装置的处理器从所述计算机可读存储介质读取所述计算机程序或所述计算机指令，所述处理器执行所述计算机程序或所述计算机指令，使得所述口型动画处理装置执行如前面所述的口型动画处理方法。

本申请实施例至少包括以下有益效果：在待处理的口型动画中，先确定与目标音素对应的多个候选音频帧，以及与目标视素对应的多个口型图像帧，其中目标音素与目标视素对应，候选音频帧与口型图像帧对齐；然后，获取各个候选音频帧中目标音素的音频强度，并根据音频强度在多个口型图像帧中确定多个目标图像帧区间，通过根据音频强度确定目标图像帧区间，可以达到利用音频强度筛选目标图像帧区间的目的，从而有利于提高在目标图像帧区间中确定视素冲突帧区间的效率；接着，确定会与目标视素产生冲突的冲突视素，并根据冲突视素在多个目标图像帧区间中确定视素冲突帧区间，其中视素冲突帧区间中的至少一个口型图像帧与冲突视素对应，通过先确定会与目标视素产生冲突的冲突视素，然后在多个目标图像帧区间中确定具有与冲突视素对应的口型图像帧的视素冲突帧区间，可以提高确定视素冲突帧区间的准确性，从而有利于提高对视素冲突帧区间的图像内容进行调整的准确性；在确定视素冲突帧区间之后，获取视素冲突帧区间的视素权重曲线，并根据视素权重曲线计算得到权重抑制曲线，然后根据权重抑制曲线和视素权重曲线对视素冲突帧区间的图像内容进行调整，与对整个待处理的口型动画的图像内容进行调整相比，通过利用权重抑制曲线和视素权重曲线对视素冲突帧区间的图像内容进行调整，可以达到对视素冲突帧区间的图像内容的局部增强，从而可以更加突出口型与发音之间的协调；此外，由于权重抑制曲线是根据视素冲突帧区间的视素权重曲线而计算得到的，因此在根据权重抑制曲线和视素权重曲线对视素冲突帧区间的图像内容进行调整时，可以有效提高口型的准确性，从而能够提高口型与发音的匹配度，进而可以改善观众的观看体验。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的另一种实施环境的示意图；

图3是本申请实施例提供的一种口型动画处理方法的流程图；

图4是本申请实施例提供的待处理的口型动画的一种可选的示意图；

图5是本申请实施例提供的视素的一种可选的示意图；

图6是本申请实施例提供的候选音频帧与口型图像帧对齐的一种可选的示意图；

图7是本申请一个实施例提供的根据音频强度筛选目标图像帧区间的流程示意图；

图8是本申请实施例提供的确定视素冲突帧区间的一种可选的流程示意图；

图9是本申请实施例提供的视素权重曲线的一种可选的示意图；

图10是本申请实施例提供的计算权重抑制曲线的一种可选的流程示意图；

图11是本申请实施例提供的权重抑制曲线的一种可选的示意图；

图12是本申请另一实施例提供的根据音频强度筛选目标图像帧区间的流程示意图；

图13是本申请另一实施例提供的根据音频强度筛选目标图像帧区间的流程示意图；

图14是本申请实施例提供的筛选目标图像帧的一种可选的流程示意图；

图15是本申请实施例提供的各个目标视素对应目标图像帧区间的一种可选的示意图；

图16是本申请实施例提供的候选图像帧区间去重的一种可选的流程示意图；

图17是本申请实施例提供的候选图像帧区间去重的一种可选的流程示意图；

图18是本申请实施例提供的口型动画处理方法的一种可选的流程示意图；

图19是本申请实施例提供的一个具体例子的口型动画处理方法的步骤流程图；

图20是本申请实施例提供的一种口型动画处理装置的示意图；

图21是本申请实施例提供的另一种口型动画处理装置的示意图。

具体实施方式

下面结合说明书附图和具体的实施例对本申请进行进一步的说明。所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1）Blendshapes（可简称BS），是一种在三维动画中用于插值不同几何形状的技术。例如，在面部动画中，Blendshapes通常用于在表情之间进行转换，如从中性表情转换为微笑表情或皱眉表情。Blendshapes必须由一个基础网格和至少一个目标网格组成。该技术通常用于动画和游戏开发中，用以创建更真实和富有表现力的角色。其中，基础网格是一组预先定义好的三维模型，通常是一些基本的形状，例如球体、立方体和圆柱体等。这些基础网格被用来作为角色或物体的基础形状，开发者可以通过对基础网格的调整来创建出各种不同的表情和动作。而目标网格则是角色或物体在某个状态下的最终形状，通常是一个高度细化的三维模型，具有更多的细节和精度，可以用于最终的渲染和显示。在BlendShapes技术中，目标网格通常是通过对基础网格的调整和混合来创建的。例如，如果想要创建一个角色的笑容动画，可以使用一个基础网格来表示角色的基本脸型，然后使用BlendShapes技术来将其调整为一个带有笑容的脸型，最后使用目标网格来表示最终的笑容表情。

2）音素，是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素可以分为元音与辅音两大类。例如汉语音节啊（ā）只有一个音素，爱（ài）有两个音素，代（dài）有三个音素等。

3）视素，用于表示发音的口型形态，是根据单块或一组肌肉的基本运动得到的基础模型，通过视素的不同组合可以得到不同的口型。

随着观众对动画细节的要求越来越高，观众对动画中虚拟角色的说话口型与说话内容的匹配度要求越来越高。为了使得虚拟角色的说话口型能够与说话内容相匹配，相关技术中的一种处理方式是通过人工的手动制作来优化说话口型与说话内容的匹配度。其中，动画师在进行逼真的口型动画的关键帧制作时，为了考虑口型的准确性，常常会根据先验知识对关键的发音制作关键帧，并且使对应的关键发音口型保持一定时长，从而实现说话口型与说话内容之间的匹配。但是，这种处理方式繁琐且耗费人力，不利于动画的高效制作。

为了能够在保证说话口型与说话内容的匹配度的基础上，提高动画制作的效率，相关技术中提出了可以采用文本驱动虚拟人脸动画生成方式，或者采用音频驱动虚拟人脸动画生成方式，来制作虚拟人脸的口型动画。在采用文本驱动虚拟人脸动画生成方式或者音频驱动虚拟人脸动画生成方式时，通过为口型图像帧配置与音频中的音素对应的视素权重系数，可以使得在每个口型图像帧中，都能够基于视素权重系数生成对应的口型图像，因此可以在提高动画的制作效率的情况下，使得虚拟人脸的口型变化能够与音频内容相匹配。

但是，相关技术中的这些处理方式，需要动画师在综合考虑语言学和先验知识的前提下，针对不同的发音过程和口型形态，通过对应的规则合成来制作对应的口型动画。然而，动画师的先验知识并不能涵盖各种情况，例如，当某些关键发音对应的口型图像帧中的视素权重系数发生冲突时，仍然会导致出现口型不准确的问题，从而会导致口型与发音不匹配，影响观众的观看体验。

为了能够提高口型的准确性而提高口型与发音的匹配度，以改善观众的观看体验，本申请实施例提供了一种口型动画处理方法、口型动画处理装置、计算机可读存储介质以及计算机程序产品，在待处理的口型动画中，先确定与目标音素对应的多个候选音频帧，以及与目标视素对应的多个口型图像帧，其中目标音素与目标视素对应，候选音频帧与口型图像帧对齐；然后，获取各个候选音频帧中目标音素的音频强度，并根据音频强度在多个口型图像帧中确定多个目标图像帧区间，通过根据音频强度确定目标图像帧区间，可以达到利用音频强度筛选目标图像帧区间的目的，从而有利于提高在目标图像帧区间中确定视素冲突帧区间的效率；接着，确定会与目标视素产生冲突的冲突视素，并根据冲突视素在多个目标图像帧区间中确定视素冲突帧区间，其中视素冲突帧区间中的至少一个口型图像帧与冲突视素对应，通过先确定会与目标视素产生冲突的冲突视素，然后在多个目标图像帧区间中确定具有与冲突视素对应的口型图像帧的视素冲突帧区间，可以提高确定视素冲突帧区间的准确性，从而有利于提高对视素冲突帧区间的图像内容进行调整的准确性；在确定视素冲突帧区间之后，获取视素冲突帧区间的视素权重曲线，并根据视素权重曲线计算得到权重抑制曲线，然后根据权重抑制曲线和视素权重曲线对视素冲突帧区间的图像内容进行调整，与对整个待处理的口型动画的图像内容进行调整相比，通过利用权重抑制曲线和视素权重曲线对视素冲突帧区间的图像内容进行调整，可以达到对视素冲突帧区间的图像内容的局部增强，从而可以更加突出口型与发音之间的协调；此外，由于权重抑制曲线是根据视素冲突帧区间的视素权重曲线而计算得到的，因此在根据权重抑制曲线和视素权重曲线对视素冲突帧区间的图像内容进行调整时，可以有效提高口型的准确性，从而能够提高口型与发音的匹配度，进而可以改善观众的观看体验。

参照图1，图1是本申请实施例提供的一种实施环境的示意图。该实施环境可以包括动画生成服务器110和动画调整服务器120，动画生成服务器110和动画调整服务器120可以通过有线或无线通信方式进行直接或间接的连接。其中，动画生成服务器110和动画调整服务器120可以为区块链中的节点，本实施例对此并不作具体限定。

动画生成服务器110和动画调整服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（ContentDelivery Network，内容分发网络）以及大数据和人工智能平台等基础云计算服务的云服务器。其中，动画生成服务器110能够通过文本驱动虚拟人脸动画生成方法，或者通过音频驱动虚拟人脸动画生成方法，生成虚拟角色的口型动画。而动画调整服务器120则能够对动画生成服务器110所生成的口型动画进行口型冲突检测，并对口型动画中存在口型冲突的图像帧进行口型图像的调整，使得口型与发音相匹配。

参照图1所示，在一应用场景中，假设动画师采用音频驱动虚拟人脸动画生成方法在动画生成服务器110中生成了口型动画，动画生成服务器110会将生成的口型动画发送给动画调整服务器120。响应于接收到口型动画，动画调整服务器120会先在该口型动画中，确定与目标音素对应的多个候选音频帧，以及与目标视素对应的多个口型图像帧，其中，目标音素与目标视素对应，候选音频帧与口型图像帧对齐；然后，动画调整服务器120获取各个候选音频帧中目标音素的音频强度，并根据音频强度在多个口型图像帧中确定多个目标图像帧区间；接着，动画调整服务器120确定会与目标视素产生冲突的冲突视素，并根据冲突视素在多个目标图像帧区间中确定视素冲突帧区间，其中，视素冲突帧区间中的至少一个口型图像帧与冲突视素对应；当确定视素冲突帧区间之后，动画调整服务器120获取视素冲突帧区间的视素权重曲线，并根据视素权重曲线计算得到权重抑制曲线；接着，动画调整服务器120根据权重抑制曲线和视素权重曲线，对视素冲突帧区间的图像内容进行调整。当动画调整服务器120对视素冲突帧区间的图像内容进行了调整之后，动画调整服务器120可以得到经过调整的口型动画，此时，动画调整服务器120可以向动画生成服务器110返回经过调整的口型动画，或者，动画调整服务器120可以根据经过调整的口型动画得到调整后的视素权重曲线，然后将调整后的视素权重曲线返回给动画生成服务器110，使得动画生成服务器110可以根据调整后的视素权重曲线重新生成口型动画。

参照图2，图2是本申请实施例提供的另一种实施环境的示意图。该实施环境可以包括动画处理服务器210和数据存储服务器220，动画处理服务器210和数据存储服务器220可以通过有线或无线通信方式进行直接或间接的连接。其中，动画处理服务器210和数据存储服务器220可以为区块链中的节点，本实施例对此并不作具体限定。

动画处理服务器210和数据存储服务器220可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN网络以及大数据和人工智能平台等基础云计算服务的云服务器。其中，数据存储服务器220中预先存储有音素与视素之间的关系映射表，并且可以响应于动画处理服务器210发送的请求，向动画处理服务器210发送音素与视素之间的关系映射表。另外，动画处理服务器210能够通过文本驱动虚拟人脸动画生成方法，或者通过音频驱动虚拟人脸动画生成方法，生成虚拟角色的口型动画，并且，动画处理服务器210还能够在生成口型动画之后，从数据存储服务器220中获取音素与视素之间的关系映射表，然后根据该关系映射表对该口型动画进行口型冲突检测，并对口型动画中存在口型冲突的图像帧进行口型图像的调整，使得口型与发音相匹配。

参照图2所示，在另一应用场景中，假设动画师采用音频驱动虚拟人脸动画生成方法在动画处理服务器210中生成了口型动画，动画处理服务器210可以先确定目标音素，然后向数据存储服务器220发送映射表获取请求；响应于接收到映射表获取请求，数据存储服务器220可以根据映射表获取请求将预存的音素与视素之间的关系映射表发送给动画处理服务器210；响应于接收到音素与视素之间的关系映射表，动画处理服务器210可以根据目标音素和该关系映射表确定目标音素对应的目标视素，然后在待处理的口型动画中，确定与目标音素对应的多个候选音频帧，以及与目标视素对应的多个口型图像帧，其中，候选音频帧与口型图像帧对齐；然后，动画处理服务器210获取各个候选音频帧中目标音素的音频强度，并根据音频强度在多个口型图像帧中确定多个目标图像帧区间；接着，动画处理服务器210确定会与目标视素产生冲突的冲突视素，并根据冲突视素在多个目标图像帧区间中确定视素冲突帧区间，其中，视素冲突帧区间中的至少一个口型图像帧与冲突视素对应；当确定视素冲突帧区间之后，动画处理服务器210获取视素冲突帧区间的视素权重曲线，并根据视素权重曲线计算得到权重抑制曲线；接着，动画处理服务器210根据权重抑制曲线和视素权重曲线，对视素冲突帧区间的图像内容进行调整。当动画处理服务器210对视素冲突帧区间的图像内容进行了调整之后，即可得到经过调整的口型动画。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据目标对象（例如用户等）的属性信息或属性信息集合等与目标对象的特性相关的数据进行相关处理时，都会先获得目标对象的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关法律法规和标准。此外，当本申请实施例需要获取目标对象的属性信息时，会通过弹窗或者跳转到确认页面等方式获得目标对象的单独许可或单独同意，在明确获得目标对象的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的目标对象的相关数据。

图3是本申请实施例提供的一种口型动画处理方法的流程图，该口型动画处理方法可以由服务器执行，或者由服务器和终端共同执行，在本申请实施例中，以该方法由服务器执行为例进行说明。参照图3，该口型动画处理方法可以包括但不限于步骤310至步骤350。

步骤310：在待处理的口型动画中，确定与目标音素对应的多个候选音频帧，以及与目标视素对应的多个口型图像帧。

在一实施例中，口型动画可以是指模拟对象通过模拟人的嘴部变化运动来实现口型和发音一致性的动画，口型动画可以应用于二维/三维动画视频、电子游戏、虚拟助手等领域，例如，口型动画可以是动画视频中动画角色对话的动画片段，也可以是电子游戏中与游戏形象进行交互的互动画面，还可以是虚拟助手中虚拟人物进行功能介绍的解说动画，等等；相应地，模拟对象可以是动画角色、游戏形象、虚拟人物等等。

其中，待处理的口型动画可以是通过文本驱动生成的人脸图像动画，或者音频驱动生成的人脸图像动画，例如，在三维动画视频的制作过程中，可以利用视频捕获人脸动画信息驱动生成三维虚拟人物的人物图像动画，从而得到待处理的口型动画，相应地，模拟对象是三维虚拟人物，口型动画是三维虚拟人物通过模拟人的嘴部实现口型变化并发出相应声音的动画。通过对已生成的口型动画进行校正调整处理，可以更加突出口型与发音之间的协调，有效提高口型的准确性，从而能够提高口型与发音的匹配度，进而可以改善观众的观看体验。

在一实施例中，口型动画中包括有音频数据和视频数据，音频数据用于表征在口型动画中的声音，而音频数据包括有多个音频帧，各个音频帧表示口型动画中的声音在时间上的一个片段；相应地，视频数据用于表征在口型动画中的图像画面，视频数据包括有多个图像帧，各个图象帧表示口型动画中的图像画面在时间上的一个片段。在口型动画中，音频帧与图像帧对齐，需要说明的是，音频帧可以与图像帧一一对齐，也可以一个音频帧与由多个图像帧组成的图像区间对齐。

例如，参照图4，图4示出了本申请实施例提供的待处理的口型动画的一种可选的示意图。可见，待处理的口型动画包括有音频数据和视频数据，且音频数据和视频数据在时间上相对应，其中，音频数据包括有多个音频帧，而视频数据包括有与音频帧相匹配的图像帧，一个音频帧与由两个图像帧组成的图像区间在时间上对齐，具体地，如图4所示，音频帧A与由图像帧B和图像帧C组成的图像区间X在时间上对齐。

在一实施例中，由于不同音素可以通过不同的发音方式进行划分，即空气通过发音器官时不同的阻碍程度，因此音素可以包括有闭塞音、摩擦音、清擦音等分类；或者，音素还可以通过发音位置进行分类，即根据发音器官所处的位置进行划分，因此，音素还可以包括唇音、齿音、舌音或喉音等。所以，不同音素在发音时嘴巴的张合程度不同，相关技术中着重于通过模拟调整嘴巴的张合来表示模拟对象发出不同音素的口型，如通过闭合嘴巴来模拟发出鼻塞音或者张开嘴巴来模拟发出部分辅音音素（如音素/a/或音素/o/），但部分音素在发音过程中会伴随着嘴巴的张合动作或者唇齿部分的咬合动作，具体地，如需要依靠唇齿部分的咬合动作发出声音的双唇音、唇齿音和齿擦音，这些音素由于需要依赖口型变化实现发音，在语速过快的情况下，在口型动画中，这些音素对应的口型图像帧中的视素权重系数容易出现误差，导致发生冲突，使得口型动画过渡不自然，容易出现口型不准确的情况。因此，需要针对在发音过程中会伴随着嘴巴的张合动作或者唇齿部分的咬合动作的音素对应的模拟口型进行调整，即目标音素可以是在发音过程中会伴随着嘴巴的张合动作或者唇齿部分的咬合动作的音素。

在一实施例中，候选音频帧可以是指含有目标音素对应特征的音频帧，换句话说，通过播放候选音频帧可以发出含有目标音素对应的声音，即一个候选音频帧可以包含有多个音素，且至少包括一个目标音素。其中，在确定出目标音素之后，可以将原始的口型动画转换为对应的文本表示，即识别出口型动画的音频中所包含的语音内容；基于所得到的文本表示，将其划分成对应的音素序列，然后将划分好的音素序列与原始口型动画的音频进行对齐，通过音素识别算法或音素对齐算法，将每个音素对应的时间段与原始口型动画的音频中的音频帧进行匹配，从而可以确定与目标音素对应的候选音频帧。

在一实施例中，在口型动画中，音频和视频是相互对应的，且在时间上是同步的。在生成口型动画时，可以根据音频数据的音素特征和视频数据对应的嘴部动作，选择合适的口型图像来模拟发音过程。视素是一种对应于音素的可视化表示，即不同的音素可能对应于相似的口型和嘴部运动，从而可以通过选择合适的视素序列来模拟人在发音时的口型。而目标视素则对应于模拟目标音素的可视化表示，可以通过目标视素来模拟出目标音素发音时的口型。通过根据各个音素在单音素的发音特征和在多音素的组合发音特征，以及视素的口型特征进行归类，构建各个音素与各个视素之间的对应关系。参照表1，表1是本申请实施例提供的音素与视素的一种可选的映射关系表。

表1 音素与视素的映射关系表

可见，视素可以有16种，且视素与音素并非一一对应，不同的音素可以对应于同一视素，如音素/g/、音素/k/和音素/h/可以对应于同一视素/GK/，而且部分视素无对应的单音素，即部分视素与多个音素组合后的音节对应，如视素/AAA/无单音素对应，视素/AAA/与音素/a/和音素/i/组合后的音节/ai/对应，又如视素/TTH/无单音素对应，视素/TTH/与音素/t/和音素/e/组合后的音节/te/对应。另外，通过对音素中的双唇音、唇齿音和齿擦音进行筛选，确定出目标音素/f/、/m/、/b/、/p/、/zh/、/ch/、/sh/、/z/、/c/和/s/。参照表2，表2是本申请实施例提供的目标音素与目标视素的一种可选的映射关系表。

表2 目标音素与目标视素的映射关系表

可见，目标音素/f/为唇齿音，对应的目标视素为/FFF/；目标音素/m/、/b/和/p/为双唇音，对应的目标视素为/MBP/；而目标音素/zh/、/ch/、/sh/、/z/、/c/和/s/为齿擦音，对应的目标视素为/SSH/和/SSS/。

在一实施例中，图像帧可以是指在口型动画中嘴部运动的静态或动态图像，参照图5，图5示出了本申请实施例提供的视素的一种可选的示意图。可见，图像帧具有16个，具体包括与视素/AAA/、视素/AHH/、视素/EH/、视素/FFF/、视素/GK/、视素/IEE/、视素/LNTD/、视素/MBP/、视素/OHH/、视素/RRR/、视素/SCHWA/、视素/SSH/、视素/SSS/、视素/TTH/、视素/UUU/和视素/WWW/一一对应的口型图像。而口型图像帧则是与目标视素对应的图像帧，即目标视素/FFF/、目标视素/MBP/、目标视素/SSH/和目标视素/SSS/对应的图像帧，另外，口型图像帧可以包括有目标视素对应的图像帧，还可以包括非目标视素对应的图像帧。具体地，口型图像帧可以是如图5所示中与目标视素对应的第一个图像、第二个图像、第三个图像和第四个图像，也可以是如图5所示中与非目标视素对应的第五个图像至第十六个图像。其中，口型图像帧可以是通过计算机视觉算法对口型动画的视频数据进行处理和分析，以提取与口型有关的信息；例如，可以使用人脸识别技术或人脸关键点检测算法来提取嘴部区域的轮廓和关键点信息，从而生成口型图像帧。

另外，由于口型图像帧与目标视素对应，目标视素与目标音素对应，而目标音素与候选音频帧对应，且音频帧与图像帧同步播放生成口型动画，因此，口型图像帧与候选音频帧对齐。需要说明的是，口型图像帧与候选音频帧对齐是指含有目标音素的一个或多个候选音频帧，与用于表示对应的至少一个目标视素的口型图像帧对齐。例如，参照图6，图6示出了本申请实施例提供的候选音频帧与口型图像帧对齐的一种可选的示意图。可见，目标音素为/f/，所对应的目标视素为/FFF/，其中，在口型动画中音频数据具有10个音频帧，而包含有目标音素/f/的候选音频帧具有3个；另外，在口型动画中视频数据具有30个图像帧，即每个音频帧与有3个图像帧对齐，而包含有目标视素/FFF/的图像帧具有6个，即与目标音素/f/对应的口型图像帧为6个，根据音频帧与图像帧在时间上的对应关系，其中候选音频帧X与口型图像帧A对齐，候选音频帧Y与口型图像帧B以及口型图像帧C对齐，候选音频帧Z与口型图像帧D、口型图像帧E和口型图像帧F对齐。需要说明的是，口型图像帧为目标视素/FFF/、目标视素/MBP/、目标视素/SSH/和目标视素/SSS/中至少一个目标视素所对应的图像帧。

步骤320：获取各个候选音频帧中目标音素的音频强度，根据音频强度在多个口型图像帧中确定多个目标图像帧区间。

在一实施例中，目标音素的音频强度是指含有目标音素的音频信号在固定时间段内的总能量大小，或者指含有目标音素的音频信号的幅值大小。其中，可以对各个候选音频帧进行傅里叶变化，将时域音频信号转换为频域表示，从频域表示中可以获得每个频率分量的幅值信息，从而能够估计候选音频帧中目标音素的音频强度。由于音频强度越高，说明声音越大，听感越明显，则对应的候选音频帧以及口型图像帧对于口型动画中口型与音频之间的匹配性越重要，而音频强度越低，说明声音越小，容易被忽略，则对应的候选音频帧以及口型图像帧对于口型动画中口型与音频之间匹配度的影响越小。因此，可以通过音频强度从多个口型图像帧中确定出具有较大影响力的目标图像帧区间，其中，目标图像帧区间可以是指包括有音频强度满足预设强度条件的口型图像帧的图像帧区间，预设强度条件可以是指该口型图像帧对应音素在候选音频帧中音频强度大于预设强度阈值；由于音频强度满足预设强度条件的口型图像帧具有多个，且部分满足预设强度条件的口型图像帧连续，所以，目标图像帧区间中可以包括一个满足预设强度条件的口型图像帧，也可以包括多个满足预设强度条件的连续的口型图像帧。利用音频强度筛选出满足影响力条件的目标图像帧区间，有利于提高在目标图像帧区间中确定视素冲突帧区间的效率。

在一实施例中，当候选音频帧仅含有一个目标音素，可以根据该目标音素的音频强度，从多个口型图像帧中确定出多个目标图像帧区间；而当候选音频帧中含有多个目标音素，可以取所有目标音素中的最小音频强度或者最大音频强度或者音频强度均值，从多个口型图像中确定出多个目标图像帧区间。

例如，参照图7，图7示出了本申请实施例提供的根据音频强度筛选目标图像帧区间的一种可选的流程示意图。对4个候选音频帧进行音频强度提取，得到各个候选音频帧的音频强度。由于音频帧与图像帧的采用频率可以不同，各个候选音频帧分别与3个口型图像帧对齐，可以利用音频强度对对齐的12个口型图像帧进行筛选，确定出包括有满足预设强度条件的7个口型图像帧，具体地，根据候选音频帧A的音频强度X可以筛选出满足预设强度条件的口型图像帧1，根据候选音频帧B的音频强度Y可以筛选出满足预设强度条件的口型图像帧4和口型图像帧5，根据候选音频帧C的音频强度Z可以筛选出满足预设强度条件的口型图像帧7至口型图像帧9，根据候选音频帧D的音频强度S可以筛选出满足预设强度条件的口型图像帧10。由于口型图像帧1无相邻满足预设强度条件的口型图像帧，因此，口型图像帧1可以独立形成第一目标图像帧区间；而口型图像帧4与口型图像帧5为连续帧，因此，口型图像帧4和口型图像帧5可以组合形成第二目标图像帧区间；相应地，口型图像帧7、口型图像帧8、口型图像帧9和口型图像帧10同样为连续帧，因此，口型图像帧7、口型图像帧8、口型图像帧9和口型图像帧10可以组合形成第三目标图像帧区间，其中，口型图像帧7、口型图像帧8和口型图像帧9分别与候选音频帧3对齐，而口型图像帧10、口型图像帧11和口型图像帧12分别与候选音频帧4对齐，即目标图像帧区间可以突破单个候选音频帧所对齐的口型图像帧的数量。

步骤330：确定会与目标视素产生冲突的冲突视素，根据冲突视素在多个目标图像帧区间中确定视素冲突帧区间。

在一实施例中，在口型动画生成的过程中，不同的音素需要特定的口型形状和嘴部动作，当目标音素为唇齿音、齿擦音和双唇音，需要在模拟出嘴巴的闭合动作的或者唇齿部分的咬合动作，那么冲突视素则是需要嘴巴张开动作所对应的视素。若在目标图像帧区间中包含有嘴巴张开的口型状态所对应的视素，由于嘴巴张开的口型动作与发出唇齿音、齿擦音和双唇音的口型动作冲突，会导致口型不准确。因此，将嘴巴张开的口型状态所对应的视素确定为冲突视素，即，当目标图像帧区间中包含有冲突视素，则会影响发音口型的准确性。其中，参考图5，可以确定出与目标视素产生冲突的冲突视素为视素/AAA/、视素/AHH/、视素/EH/、视素/SCHWA/和视素/UUU/，具体如图5所示中的第五个口型图像、第六个口型图像、第七个口型图像、第八个口型图像和第九个口型图像。

在一实施例中，在根据冲突视素在多个目标图像帧区间中确定视素冲突帧区间的过程中，可以在多个目标图像帧区间中，将存在包括冲突视素的口型图像帧的目标图像帧区间，确定为视素冲突帧区间。由于在连续的音频中，可能会出现语速过快的情况，即不同音素快速切换，则会容易在口型图像帧出现与目标视素冲突的冲突视素，即目标图像帧区间出现冲突视素，例如，在一个单词的发音中，需要嘴巴张开才能发音的音素，与需要在嘴巴闭合或者唇齿部分咬合才能发音的因素可能相继出现，则会容易将需要嘴巴张开才能发音的音素对应的图像帧确定为口型图像帧，并且会导致过渡动画不自然，口型不准确的情况出现。

另外，在口型动画生成过程中，采用文本驱动虚拟人脸动画生成方式，或者采用音频驱动虚拟人脸动画生成方式，仍会得到候选音频帧对应的口型图像帧中的视素权重系数发生冲突，导致在口型图像帧出现与目标视素冲突的冲突视素，即目标图像帧区间出现冲突视素，出现口型不准确的问题，从而会导致口型与发音不匹配，影响观众的观看体验。

在采用文本驱动虚拟人脸动画生成方式或者音频驱动虚拟人脸动画生成方式时，通过为口型图像帧配置与音频中的音素对应的视素权重系数，但相关技术中的这些处理方式，需要动画师在综合考虑语言学和先验知识的前提下，针对不同的发音过程和口型形态，通过对应的规则合成来制作对应的口型动画。然而，动画师的先验知识并不能涵盖各种情况，导致在口型图像帧中会出现与目标视素冲突的冲突视素，即为冲突视素分配大于预设权重阈值的视觉权重系统，会出现唇齿咬合不到位导致说话含糊不清的现象，使得口型不准确，从而会导致口型与发音不匹配，影响观众的观看体验。因此，当目标图像帧区间中含有包括冲突视素的口型图像帧，则可以将该目标图像帧区间确定为视素冲突帧区间。

例如，参照图8，图8示出了本申请实施例提供的确定视素冲突帧区间的一种可选的流程示意图，可见，由于目标视素均为需要模拟唇齿部分的咬合动作的视素，即需要模拟出嘴巴的闭合动作，因此，目标视素的冲突视素均为需要嘴巴张开动作所对应的视素，即视素/AAA/、视素/AHH/、视素/EH/、视素/SCHWA/和视素/UUU/。而目标图像帧区间中可以包含有至少一个口型图像帧，当目标图像帧区间中口型图像帧中包含有视素/AAA/、视素/AHH/、视素/EH/、视素/SCHWA/或视素/UUU/中的至少一个冲突视素，则可以认为该目标图像帧区间为视素冲突帧区间。如图8所示，已确定有3个目标图像帧区间，其中，目标图像帧区间A包含有目标视素/MBP/对应的目标图像帧，且目标图像帧区间A中不存在含有任意一个冲突视素对应的口型图像帧；目标图像帧区间B包含有目标视素/FFF/对应的目标图像帧，而目标图像帧区间B中存在含有冲突视素/EH/对应的口型图像帧；目标图像帧区间C包含有目标视素/SSS/对应的目标图像帧，且目标图像帧区间C中存在含有冲突视素/AAA/对应的口型图像帧以及冲突视素/UUU/对应的口型图像帧；因此，目标图像帧区间B和目标图像帧区间C均为视素冲突区间，其中，一个目标图像帧区间可以包含有一个或多个冲突视素对应的口型图像帧。所以，通过先确定会与目标视素产生冲突的冲突视素，然后在多个目标图像帧区间中确定具有与冲突视素对应的口型图像帧的视素冲突帧区间，可以提高确定视素冲突帧区间的准确性，从而有利于提高对视素冲突帧区间的图像内容进行调整的准确性。

步骤340：获取视素冲突帧区间的视素权重曲线，根据视素权重曲线计算得到权重抑制曲线。

在一实施例中，视觉权重曲线用于表征在口型动画生成的过程中不同视素对每个图像帧的影响力或贡献度，而视觉权重曲线可以用于控制口型动画中嘴型变化的动作效果，通过调整各个视素的视素权重曲线来确保口型动画中口型与发音相一致，其中，各个视素均对应有视觉权重曲线，即获取每个视素冲突帧区间的视觉权重曲线可以有16个，换句话说，可以获取每个视素冲突帧区间中所有视素的视觉权重曲线。另外，由于视素冲突帧区间是指同时出现冲突视素和目标视素的帧区间，因此，获取每个视素冲突帧区间的视觉权重曲线的过程中，可以所有冲突视素和所有目标视素所对应的视觉权重曲线，也可以仅获取该视素冲突帧区间中含有的冲突视素以及目标视素所对应的视觉权重曲线。

在一实施例中，由于在视素冲突帧区间中为目标视素分配大于预设权重阈值的视素权重系数的同时，也为与目标视素冲突的冲突视素分配大于预设权重阈值的视素权重系数，即在视素冲突帧区间中同时出现目标视素和冲突视素，导致出现口型不准确的问题，从而使得口型与发音不匹配，影响观众的观看体验，因此，可以通过视素权重曲线计算得出权重抑制曲线，以抑制在视素冲突帧区间中冲突视素的视素权重系数，来降低冲突视素对口型动作的影响，对视素冲突帧区间的图像内容的局部增强，使得口型与发音相一致，提高口型动画的流畅度和自然度。

例如，参照图9，图9示出了本申请实施例提供的视素权重曲线的一种可选的示意图。可见，该视素冲突帧区间中出现具有目标视素/SSH/以及与目标视素/SSH/冲突的冲突视素/UUU/的口型图像帧。如图9中的中间子图所示的视素冲突帧区间示意图，该视素冲突帧区间具有5个口型图像帧，如图9中的左侧子图示出的目标视素/SSH/对应的视素权重曲线，可以看出，该视素冲突帧区间中存在4个为目标视素/SSH/分配视素权重系数大于预设权重阈值的口型图像帧，即口型图像帧A至口型图像帧D。如图9中的右侧子图示出的冲突视素/UUU/对应的视素权重曲线，可以看出，该视素冲突帧区间中存在2个为冲突视素/UUU/分配视素权重系数大于预设权重阈值的口型图像帧，即口型图像帧D和口型图像帧E，其中，该视素冲突帧区间中出现同时为目标视素/SSH/和冲突视素/UUU/分配大于预设权重阈值的视素权重系数的口型图像帧D，即该口型图像帧中同时出现目标视素/SSH/和冲突视素/UUU/；另外，该视素冲突帧区间中还分别出现仅具有目标视素且无冲突视素对应的口型图像帧A，以及仅具有冲突视素且无目标视素对应的口型图像帧E。需要说明的是，视素冲突图像帧中还可以含有除目标视素和冲突视素以外的视素所对应的口型图像帧。

在一实施例中，视素权重曲线是用于调整不同视素在各个图像帧区间中的视素权重系数分配；而权重抑制曲线用于抑制冲突视素对口型的影响，降低冲突视素对对应口型图像帧的贡献度或影响力。如果一个图像帧区间中同时存在目标视素以及冲突视素所对应的口型图像帧，则可以通过利用视素权重曲线和权重抑制曲线，赋予目标视素更高的视素权重系数，同时降低冲突视素的视素权重系数，从而可以强调目标视素，保证在口型动画中发音与口型的一致性。

参照图10，图10示出了本申请实施例提供的计算权重抑制曲线的一种可选的流程示意图。可见，可以通过将冲突视素对应的视素权重曲线中的视素权重系数取反，得到冲突视素对应的权重抑制曲线，因此，可以将冲突视素对应的视素权重曲线以及权重抑制曲线进行叠加调整，使得调整后的视素权重曲线中的数值均为0，从而可以消除冲突视素在视素冲突帧区间中对口型的负面影响。另外，还可以将冲突视素对应的视素权重曲线中的视素权重系数取值为0后得到冲突视素对应的权重抑制曲线，因此，可以将冲突视素对应的视素权重曲线以及权重抑制曲线进行相乘调整，使得调整后的视素权重曲线中的数值均为0，从而可以更加突出口型与发音之间的协调。

在一实施例中，当获取视素冲突帧区间的视素权重曲线不准确，如该视素冲突帧区间中需要发出与音素/z/、音素/c/或音素/s/的声音时，而对应视素/SSS/在该视素冲突帧区间的视素权重曲线中视素权重系数为0，则可以将音素与音频进行对齐，通过文本驱动虚拟人脸动画生成方式，或者音频驱动虚拟人脸动画生成方式重新合成视素/SSS/在该视素冲突帧区间的视素权重曲线。

步骤350：根据权重抑制曲线和视素权重曲线，对视素冲突帧区间的图像内容进行调整。

在一实施例中，在得到权重抑制曲线和视素权重曲线之后，可以利用权重抑制曲线对视素权重曲线进行视素权重系数的调整，提高目标视素对应的视素权重系数，同时降低冲突视素的视素权重系数，从而得到调整后的视素权重曲线，进而基于调整后的视素权重曲线为所有视素重新分配视素权重系数，并重新生成视素冲突帧区间的新的图像内容，有效提高口型的准确性，从而能够提高在新的图像内容中口型与发音的匹配度，进而可以改善观众的观看体验。例如，参照图10，当冲突视素对应的权重抑制曲线为冲突视素对应的视素权重曲线取反后的曲线，可以将冲突视素对应的视素权重曲线以及权重抑制曲线进行叠加调整，使得调整后的视素权重曲线中的数值均为0，从而可以消除冲突视素在视素冲突帧区间中对口型的负面影响。而当冲突视素对应的权重抑制曲线中的视素权重系数均为0，则可以将冲突视素对应的视素权重曲线以及权重抑制曲线进行相乘调整，使得调整后的视素权重曲线中的数值均为0，从而可以更加突出口型与发音之间的协调。

在一实施例中，在根据视素权重曲线计算得到权重抑制曲线的过程中，可以先计算视素权重曲线的权重均值；然后，根据视素权重曲线和权重均值，计算得到权重抑制曲线。权重均值可以表征该视素冲突帧区间中所有视素的视素权重系数的整体分布情况，从而可以根据权重均值以及该视素的视素权重曲线确定出该视素在该视素冲突帧区间的重要性，即能够确定出在该视素冲突帧区间中的关键视素以及对应的关键音素，进而可以基于关键视素或关键音素对视素冲突帧区间的图像内容进行调整，使得在新的图像内容中口型与发音的匹配度得到提高。例如，可以利用视素权重曲线与权重均值作差，得到候选抑制曲线，从而可以抑制非关键音素或非关键视素的影响，有助于提高图像内容中口型变化动作的平滑性和自然度，其中，当视素权重曲线与权重均值作差后对应的视素权重系数小于0，可以将该视素权重系数调整为0，即视素权重曲线中视素权重系数的下限值为0，从而避免非关键视素的视素权重系数被过度抑制；在得到候选抑制曲线之后，再将权重均值与候选抑制曲线作差，得到权重抑制曲线，从而能够保留视素权重曲线中的关键视素的部分权重系数，减弱非关键视素的部分权重，有助于提高图像内容的准确度，同时实现动态调节各个视素的抑制强度，对与权重均值差异较大的视素的抑制强度越大，实现模拟反向抑制的效果，在新的图像内容中能够提高音频与口型的匹配度。需要说明的是，权重抑制曲线的计算公式具体如下：

其中，表示第/>个音素对应的权重抑制曲线的第/>帧的抑制权重系数，/>表示第/>个音素对应的视素权重曲线的第/>帧的视素权重系数，/>表示第/>个音素对应的视素权重曲线的权重均值。

例如，参照图11，图11示出了本申请实施例提供的权重抑制曲线的一种可选的示意图。可见，利用上述权重抑制曲线的计算公式得到的权重抑制曲线，以权重均值直线为轴，与视素权重曲线呈轴对称关系，具体地，如图11所示，权重均值为0.4，冲突音素/AHH/对应的视素权重曲线在各个帧的视素权重系数依次是0.2、0.4、0.8和0.1，利用上述权重抑制曲线的计算公式得到的权重抑制曲线，在各个帧的抑制权重系数依次是0.6、0.4、0和0.7，可以看出，视素权重系数所对应的抑制权重系数越小，抑制强度越大。

在一实施例中，在计算权重抑制曲线的过程中，可以先根据视素权重曲线和权重均值，计算得到初始抑制曲线；然后，对初始抑制曲线进行基于幅值的归一化处理，得到权重抑制曲线。其中，在计算初始抑制曲线的过程中，可以先利用视素权重曲线与权重均值作差，得到候选抑制曲线，然后再将权重均值与候选抑制曲线作差，得到初始抑制曲线，从而能够保留视素冲突帧区间中的关键视素，并抑制视素冲突帧区间中的非关键视素。在得到初始抑制曲线之后，对初始抑制曲线进行基于幅值的归一化处理，通过设置幅值上限和幅值下限，从而能够控制权重抑制曲线的反向抑制效果的幅度范围，使得权重抑制曲线的反向抑制效果限制在幅值上限和幅值下限之间，避免出现过度抑制或者抑制力度不足的情况，进而能够提高音频与口型的匹配度。需要说明的是，初始抑制曲线的计算公式具体如下：

其中，表示第/>个音素对应的初始抑制曲线的第/>帧的初始权重系数，/>表示第/>个音素对应的视素权重曲线的第/>帧的视素权重系数，/>表示第/>个音素对应的视素权重曲线的权重均值，然后，对初始抑制曲线进行基于幅值的归一化处理，得到权重抑制曲线，具体计算公式如下：

其中，表示第/>个音素对应权重抑制曲线中的抑制权重系数，/>表示第/>个音素对应的初始抑制曲线中的最小初始权重系数，/>表示第/>个音素对应的初始抑制曲线中的最大初始权重系数，/>表示幅值下限，/>表示幅值上限。

在一实施例中，在对初始抑制曲线进行基于幅值的归一化处理，得到权重抑制曲线的过程中，可以先根据视素冲突帧区间的长度确定幅值上限超参数和幅值下限超参数，然后根据幅值上限超参数和幅值下限超参数，对初始抑制曲线进行归一化处理，得到权重抑制曲线。其中，幅值上限超参数和幅值下限超参数根据视素冲突帧区间的长度进行动态调节，进而能够自适应调整权重抑制曲线的反向抑制效果的幅度范围，使得在帧数较少的视素冲突帧区间可以使用较小的幅值范围，对图像内容进行细微调整，避免调整后的图像内容与相邻的图像内容变化幅度过大，而使得口型动画过渡不自然，影响用户观感；同时针对帧数较多的视素冲突帧区间可以使用较大的幅值范围，能够提高反向抑制效果，使得调整后的图像内容中发音与口型保持一致性。其中，幅值上限超参数和幅值下限超参数之间的幅值差值可以随着视素冲突帧区间的长度增大而增大，而幅值上限超参数可以随着视素冲突帧区间的长度增大而先增大后减小，幅值下限超参数可以随着视素冲突帧区间的长度增大而减小，从而能够随着视素冲突帧区间的长度增大而增大反向抑制效果的范围，同时保证后的口型动画过渡自然。

例如，当视素冲突帧区间的帧数小于第一帧数阈值（如第一帧数阈值为1），可以固定该权重抑制曲线的抑制权重系数为第一权重系数，其中，第一权重系数可以为0.9，从而避免出现过度抑制，保证图像内容衔接流畅自然；当视素冲突帧区间包含的帧数大于第一帧数阈值且小于第二帧数阈值，可以将幅值上限参数调整为第一上限参数，幅值下限参数调整第一下限参数，其中，第一上限参数可以高于第一权重系数，且第一下限参数可以低于第一权重系数，具体地，第二帧数阈值可以为6，第三帧数阈值可以为10而第一上限参数可以为1，第一下限参数可以为0.8；当视素冲突帧区间包含的帧数大于或等于第二帧数阈值且小于第三帧数阈值，可以将幅值上限参数调整为第二上限参数，幅值下限参数调整为第二下限参数，其中，第二上限参数可以低于第一上限参数，且第二下限参数可以低于第一下限参数，具体地，第三帧数阈值可以为10，第二上限参数可以为0.8，第二下限参数可以为0.3。当视素冲突帧区间包含的帧数大于第三帧数阈值，可以将幅值上限参数调整为第三上限参数，幅值下限参数调整为第三下限参数，其中，第三上限参数可以低于第二上限参数，且第三下限参数可以低于第二下限参数，具体地，第三上限参数可以为0.7，第二下限参数可以为0.05。

在一实施例中，在根据权重抑制曲线和视素权重曲线，对视素冲突帧区间的图像内容进行调整的过程中，可以先将权重抑制曲线和视素权重曲线进行相乘处理，得到权重调整曲线；然后，根据权重调整曲线对视素冲突帧区间的图像内容进行调整。将权重抑制曲线和视素权重曲线进行相乘处理，相当于利用权重抑制曲线对视素权重曲线进行加权处理，针对视素权重曲线中的不同位置进行不同程度的抑制处理，即在视素冲突帧区间中针对不同的口型图像帧分别进行抑制处理，从而能够实现对各个视素的精确调整，进而能够灵活调整不同口型图像帧的图像内容，提高调整后的图像内容的准确性，同时提高口型与发音的匹配度，改善观众的观看体验。因为口型的动画效果仅受到当前口型图像帧和邻近的口型图像帧的局部影响，即视素冲突图像帧中的口型图像帧的局部影响，若采用固定参数，如上述实施例中第一权重系数、第一上限参数、第二上限参数、第一下限参数、第二下限参数等已固定的参数对所有口型图像帧进行抑制优化，会使得部分目标音素无法得到强化调整，部分冲突音素也无法得到充分的抑制调整，失去了局部归一化的对比增强优势，因此，针对各个视素冲突帧区间分别计算对应的权重抑制曲线和权重调整曲线，并利用各个权重调整曲线对相应的视素冲突帧区间一一进行调整，达到对视素冲突帧区间的图像内容的局部增强，避免出现唇肌物理感或抖动现象，从而可以更加突出口型与发音之间的协调。

在一实施例中，在根据音频强度在多个口型图像帧中确定多个目标图像帧区间的过程中，可以先在多个候选音频帧中，确定音频强度大于预设强度阈值的多个目标音频帧；然后，根据多个目标音频帧，在多个口型图像帧中确定多个目标图像帧区间。其中，预设强度阈值可以是固定阈值，例如预设强度阈值为0.1，音频强度大于预设强度阈值的音素则认为是强关键音素，而音频强度小于或等于预设强度阈值的音素则认为是弱关键音素，强关键音素可以认为是音量足以分辨的音素，而弱关键音素可以认为是音量不足以分辨的音素，因此，强关键音素对口型动画中口型与音频之间保持一致的影响度高，弱关键音素对口型动画中口型与音频之间保持一致的影响度低，因此，通过音频强度和预设强度阈值确定出强关键音素，从而可以利用强关键音素筛选出对应的目标音频帧，即确定出具有较大影响力的目标音频帧，进而可以从多个口型图像帧中确定出与目标音频帧对应的目标图像帧区间。目标图像帧区间可以是指包括有与目标音频帧对应的口型图像帧的图像帧区间，且目标图像帧区间中可以包括一个与目标音频帧对应的口型图像帧，也可以包括多个与目标音频帧对应的连续的口型图像帧。通过音频强度和预设强度阈值筛选出对口型动画中口型与音频之间一致性的影响力大目标图像帧区间的目的，从而有利于提高在目标图像帧区间中确定视素冲突帧区间的效率。

在一实施例中，当候选音频帧中仅含有一个目标音素，可以根据该目标音素的音频强度，确定出音频强度大于预设强度阈值的多个目标音频帧；而当候选音频帧中含有多个目标音素，可以取所有目标音素中的最小音频强度或者最大音频强度或者音频强度均值作为音频强度参考值，确定出音频强度参考值大于预设强度阈值的多个目标音频帧。

在一实施例中，预设强度阈值可以是固定阈值，可以是所有音素的音频强度的均值，也可以根据所有音素的音频强度的数值大小，对所有音素按照音频强度数值由大至小进行排序，得到音频强度排名，将排名位于预设排名阈值的音素所对应的音频强度作为预设强度阈值。

在一实施例中，在根据多个目标音频帧，在多个口型图像帧中确定多个目标图像帧区间的过程中，可以先在多个口型图像帧中，确定与多个目标音频帧对应的多个目标图像帧；然后，根据多个目标图像帧的分布情况，确定多个目标图像帧区间。

在一实施例中，由于口型图像帧为与目标视素对应的图像帧，而目标视素具有多个，且各个目标视素所对应的目标音素可以相同或不同，因此，在多个口型图像帧中存在部分口型图像帧所对应的目标视素与目标音频帧所对应的目标音素不一致。所以，可以先确定出与目标音频帧对应的目标音素一致的标记音素，从而可以利用标记音素以及音素与视素的映射关系表（如表1）确定出与标记音素相对应的标记视素，进而可以从多个口型图像帧中确定出含有与标记视素对应的目标图像帧。在确定目标图像帧之后，可以判断目标图像帧是否具有连续相邻的目标图像帧；若该目标图像帧具有相邻的目标图像帧，可以将连续的目标图像帧进行合并，将多个目标图像帧组成目标图像帧区间；若该目标图像帧不具有相邻的目标图像帧，则可以将单个目标图像帧单独形成目标图像帧区间；若该目标图像帧与相邻的目标图像帧之间间隔的口型图像帧的数量小于预设合并帧阈值，则可以将该目标图像帧、相邻的目标图像帧，以及该目标图像帧与相邻的目标图像帧之间间隔的口型图像帧一并组合形成目标图像帧区间。因此，可以得到所有目标音素对应的目标图像帧数据，其中，/>表示四个目标音素，音素/FFF/、音素/MBP/、音素/SSS/和音素/SSH/，/>表示对应音素的第/>个目标图像帧区间，/>表示在对应目标图像帧区间中第/>帧。

例如，参照图12，图12示出了本申请实施例提供的根据音频强度筛选目标图像帧区间的一种可选的流程示意图。对6个候选音频帧进行音频强度提取，得到各个候选音频帧的音频强度，其中，预设音频阈值为0.1，接着利用音频强度和预设音频阈值对6个候选音频帧进行筛选，确定好音频强度大于预设音频阈值的5个目标音频帧，同时根据大于预设音频阈值的音频强度，确定出对应的标记音素/m/。利用标记音素以及音素与视素的映射关系表确定出与标记音素相对应的标记视素/MBP/，从而可以从多个口型图像帧中确定出与标记视素/MBP/对应的5个目标图像帧，具体地，目标音频帧1可以根据标记音素和标记视素筛选出目标图像帧A，目标音频帧2可以根据标记音素和标记视素筛选出目标图像帧B，目标音频帧4可以根据标记音素和标记视素筛选出目标图像帧C，目标音频帧5可以根据标记音素和标记视素筛选出目标图像帧E，目标音频帧6可以根据标记音素和标记视素筛选出目标图像帧F，需要说明的是，目标音频帧可以根据标记音素和标记视素筛选出多个目标图像帧。

若存在连续的目标图像帧，可以将连续的目标图像帧合并形成目标图像帧区间；若不存在连续的目标图像帧，可以将单个目标图像帧独立形成目标图像帧区间，即，目标图像帧区间可以仅包括一个口型图像帧，可以包括多个连续的口型图像帧。如图12所示，口型图像帧A为目标图像帧，且相邻无连续的目标图像帧，因此口型图像帧A的图像帧独立作为第一目标图像帧区间；口型图像帧B为目标图像帧，且相邻的口型图像帧C也为目标图像帧，因此，口型图像帧B和口型图像帧C组合形成第二目标图像帧区间，即第二目标图像帧区间中包含有2个图像帧；口型图像帧D为非目标图像帧，而与口型图像帧D相邻的口型图像帧E和口型图像帧F均为目标图像帧，因此，可以将口型图像帧D、口型图像帧E和口型图像帧F组合形成第三目标图像帧区间，即第三目标图像帧区间包括至少3个图像帧，其中，口型图像帧D可以有多个。

在一实施例中，由于候选音频帧与口型图像帧对齐，因此，可以从多个口型图像帧中确定出与目标音频帧对齐的多个目标图像帧，其中，音频帧与图像帧的采用频率可以相同或不同，每个音频帧可以与一个或多个图像帧对齐。

例如，参照图13，图13示出了本申请实施例提供的根据音频强度筛选目标图像帧区间的一种可选的流程示意图，对10个候选音频帧进行音频强度提取，得到各个候选音频帧的音频强度，其中，预设音频阈值为0.1，接着利用音频强度和预设音频阈值对10个候选音频帧进行筛选，确定好音频强度大于预设音频阈值的5个目标音频帧。同时根据大于预设音频阈值的音频强度，确定出对应的标记音素/m/。利用标记音素以及音素与视素的映射关系表确定出与标记音素相对应的标记视素/MBP/，从而可以从多个口型图像帧中确定出与标记视素/MBP/对应的5个目标图像帧。

由于一个音频帧可以与多个图像帧对齐，即一个音频帧可以与由多个图像帧组合形成的图像帧区间对齐，可以将含有目标图像帧的图像帧区间确定为目标图像帧区间。如图13所示，每个音频帧与三个图像帧对齐，三个相邻的图像帧形成一个图像帧区间，具体地，目标音频帧1可以根据标记音素和标记视素筛选出目标图像帧A2，目标音频帧2可以根据标记音素和标记视素筛选出目标图像帧B1，目标音频帧4可以根据标记音素和标记视素筛选出目标图像帧C3，目标音频帧5可以根据标记音素和标记视素筛选出目标图像帧D2，目标音频帧6可以根据标记音素和标记视素筛选出目标图像帧E3，需要说明的是，目标音频帧可以根据标记音素和标记视素筛选出多个目标图像帧。

因此，当口型图像帧A2为目标图像帧，且在相邻的图像帧中区间不存在目标图像帧，则将含有口型图像帧A2的图像帧区间单独确定为第一目标图像帧区间，即第一目标图像帧区间中包含有口型图像帧A1、口型图像帧A2和口型图像帧A3；当口型图像帧B1为目标图像帧，且相邻的图像帧区间中存在同为目标图像帧的口型图像帧C3，因此，将含有口型图像帧B1的图像帧区间和含有口型图像帧C3的图像帧区间组合形成第二目标图像帧区间，即第二目标图像帧区间中包含有6个图像帧，具体是口型图像帧B1、口型图像帧B2、口型图像帧B3、口型图像帧C1、口型图像帧C2和口型图像帧C3。

另外，口型图像帧D2为目标图像帧，且口型图像帧E3也为目标图像帧，而含有口型图像帧D2的图像帧区间与含有口型图像帧E3的图像帧区间之间，还存在一个不含有目标图像帧的图像帧区间Q，则可以将含有口型图像帧D2的图像帧区间、含有口型图像帧E3的图像帧区间以及图像帧区间Q组合形成第三目标图像帧区间，即第三目标图像帧区间中包含有9个图像帧。

在一实施例中，在确定与多个目标音频帧对应的多个目标图像帧的过程中，可以先在多个口型图像帧中，确定各种目标视素对应的多个候选图像帧；然后，在各种目标视素对应的多个候选图像帧中，分别确定与多个目标音频帧对应的多个目标图像帧区间。

在一实施例中，由于各个候选音频帧中不同目标音素的音频强度不同，且同一目标音素在不同候选音频帧的音频强度也不相同，因此，在不同候选音频帧中，大于预设强度阈值的目标音素可以相同或不同，即各个目标音频帧的标记音素可以相同可以不同。而根据音素与视素的对应关系（如表1），不同标记音素所对应的标记视素不同，当音频强度大于预设强度阈值的目标音素具有多个，则目标视素的种类也相应有多个，例如多个目标音频帧可以确定出多个标记音素/f/和/m/，因此，标记视素对应为/FFF/和/MBP/，所以可以从多个口型图像帧中确定出各个标记视素对应的所有目标图像帧。例如，参照图14，图14示出了本申请实施例提供的筛选目标图像帧的一种可选的流程示意图。目标音频帧中含有多个标记音素，即该候选音频中含有多个音频强度大于预设强度阈值的目标音素，而标记音素分别为音素/f/和音素/m/，音素/f/与视素/FFF/对应，而音素/m/与视素/MBP/对应，因此，分别确定出与视素/FFF/对应的目标图像帧F，以及与视素/MBP/对应的目标图像帧M，其中，目标图像帧F与目标图像帧M可以完全一致，即目标图像帧F所包含的口型图像帧，与目标图像帧M所包含的口型图像帧完全相同；目标图像帧F与目标图像帧M也可以完全不一致，即目标图像帧F中不存在与目标图像帧M所包含的口型图像帧相同的口型图像帧；目标图像帧F与目标图像帧M还可以部分一致，如图14所示，目标图像帧F含有口型图像帧1和口型图像帧2，而目标图像帧M含有口型图像帧2和口型图像帧3，即目标图像帧F与目标图像帧M可以部分一致。

在一实施例中，在确定各个目标视素对应的目标图像帧之后，可以分别判断各个目标视素对应的目标图像帧是否具有连续相邻的目标图像帧；若该目标图像帧具有相邻的目标图像帧，可以将连续的目标图像帧进行合并，将多个目标图像帧组成目标图像帧区间；若该目标图像帧不具有相邻的目标图像帧，则可以将单个目标图像帧单独形成目标图像帧区间；若该目标图像帧与相邻的目标图像帧之间间隔的口型图像帧的数量小于预设合并帧阈值，则可以将该目标图像帧、相邻的目标图像帧，以及该目标图像帧与相邻的目标图像帧之间间隔的口型图像帧一并组合形成目标图像帧区间。例如，参照图15，图15示出了本申请实施例提供的各个目标视素对应的目标图像帧区间的一种可选的示意图，根据多个目标音频帧所对应的目标音素确定出的目标视素分别是视素/FFF/、视素/MBP/、视素/SSS/和视素/SSH/。在各个目标视素对应的多个候选图像帧中，分别确定出对应的多个目标图像帧区间，如图15所示，视素/FFF/可以确定出4个目标图像帧区间，视素/MBP/可以确定出2个目标图像帧区间，视素/SSS/可以确定出1个目标图像帧区间，而视素/SSH/可以确定出1个目标图像帧区间。因此，分别对各个目标视素确定出对应的目标图像帧区间，有利于提高各个目标视素在目标图像帧区间中确定视素冲突帧区间的效率。

在一实施例中，在根据多个目标图像帧的分布情况，确定多个目标图像帧区间的过程中，可以根据多个目标图像帧的分布情况，确定各种目标视素对应的候选图像帧区间；然后，对不同种类的目标视素对应的候选图像帧区间之间，进行基于时间维度的区间去重，得到多个目标图像帧区间。由于目标音素均为双唇音、唇齿音和齿擦音对应的音素，即目标音素均为需要嘴巴闭合发音或者需要唇齿咬合发音的音素，因此，与目标音素冲突的冲突音素均为需要嘴巴张开发音的音素，即在同一时间，一个或多个目标音素所对应的冲突音素均相同，所以可以统一进行冲突视素的抑制处理，即统一确定出视素冲突帧区间以及计算权重抑制曲线，并对视素冲突帧区间的图像内容进行调整，因此可以基于时间维度的区间去重，去除重复的候选图像帧区间，减少待处理的数据量，提高处理效率。

例如，参照图16，图16示出了本申请实施例提供的候选图像帧区间去重的一种可选的流程示意图。如图16所示，在各个目标视素对应的多个候选图像帧中，分别确定出对应的多个候选图像帧区间，具体地，视素/FFF/可以确定出4个候选图像帧区间，视素/MBP/可以确定出2个候选图像帧区间，视素/SSS/可以确定出1个候选图像帧区间，而视素/SSH/可以确定出1个候选图像帧区间，其中，多个候选图像帧区间存在区间重叠的情况，即出现候选图像帧区间中部分图像帧重复的情况，因此，可以将视素/MBP/对应的2个候选图像帧区间、视素/SSS/对应的1个候选图像帧区间，以及视素/SSH/对应的1个候选图像帧区间，与视素/FFF/对应的4个候选图像帧区间依次进行比较去除，将各个候选图像帧区间中存在区间重叠的部分去除，得到多个目标图像帧区间，而各个目标图像帧区间之间无重复帧，从而可以减少待处理图像帧的数据处理量，提高口型动画的处理效率。

在一实施例中，在对不同种类的目标视素对应的候选图像帧区间之间，进行基于时间维度的区间去重的过程中，可以遍历所有种类的目标视素，如果当前种类的目标视素对应的候选图像帧区间，与其他种类的目标视素对应的候选图像帧区间，在时间维度上属于包含关系，将被包含的候选图像帧区间进行删除。由于口型的动画效果会受到邻近图像帧的局部影响，若去重后的目标图像帧区间过短，为了动画过渡自然，而减弱冲突视素的抑制效果，降低口型的准确性；若去重后的目标图像帧区间过长，则难以对部分图像帧进行精细化调整，也会影响口型的准确性，因此，为了提高口型的准确性，提高口型与发音的匹配度，保留区间部分重叠的候选图像帧区间，仅去除在时间维度上属于被包含关系的候选图像帧区间，而非对所有候选图像帧区间的区间重叠部分直接去除。例如，参照图17，图17示出了本申请实施例提供的候选图像帧区间去重的另一种可选的流程示意图。如图17所示，目标视素分别为视素/FFF/、视素/MBP/、视素/SSS/和视素/SSH/，随机确定四个目标视素的顺序，并可以从左往右依次遍历各个目标视素对应的候选图像帧区间，对于当前目标视素的任一候选图像帧区间，与右侧任一目标视素的任一候选图像帧区间在时间维度上呈现包含关系，则认为被包含的候选图像帧区间为无效图像帧区间，并将无效图像帧区间移除，同时无效图像帧区间不参与后续的遍历过程。如视素/FFF/中的候选图像帧区间F1，与右侧视素/MBP/中的候选图像帧区间M1在时间维度上呈现包含关系，且候选图像帧区间F1呈被包含关系，因此，候选图像帧区间F1被认为无效图像帧区间，并将候选图像帧区间F1移除。如视素/FFF/中的候选图像帧区间F2和候选图像帧区间F3，与右侧视素/SSS/中的的候选图像帧区间S1出现部分区间重叠现象，但由于三者在时间维度上不呈现包含关系，则保留候选图像帧区间F2和候选图像帧区间F3，并在视素/FFF/的遍历过程中保留候选图像帧区间S1。另外，由于视素/FFF/中的候选图像帧区间F3，与右侧视素/MBP/的候选图像帧区间M2在时间维度上呈现包含关系，且候选图像帧区间M2呈被包含关系，因此，候选图像帧区间M2被认为无效图像帧区间，并将候选图像帧区间M2移除，同时候选图像帧区间M2不参与后续的遍历过程。在结束视素/FFF/的遍历过程中，执行视素/MBP/的遍历过程，由于候选图像帧区间M2被移除，因此，仅比较判断候选图像帧区间M1与右侧视素/SSS/和视素/SSH/中的任一候选图像帧区间是否在时间维度上呈现包含关系。

在一实施例中，由于训练集中极少出现嘴巴完全闭合或完全张开的状态，导致模型预测值在均值附近小范围波动，相关技术中通过一个基于感知的误差加权来鼓励嘴巴预测值向开/合两极分化：当系数表征嘴巴的开/合时，引导大于均值的系数更大，小于均值的系数更小，从而使吐字清晰有力，同时还引入唇接触损失，直接对双唇音的上下唇距离进行约束，但这种方式对双唇音进行了嘴巴闭合的强约束，会导致口型动画过渡不自然，且无法适用于唇齿咬合发音的音素，使得如唇齿音和齿擦音等唇齿咬合发音的音素无法约束优化。

参照图18，图18示出了本申请实施例提供的口型动画处理的一种可选的流程示意图。如图18所示，先执行步骤1801，采用文本驱动虚拟人脸动画生成方式（Text-to-Face，T2F），或者采用音频驱动虚拟人脸动画生成方式（Speech-to-Face，S2F），来制作虚拟人脸的口型动画，而在采用文本驱动虚拟人脸动画生成方式或者音频驱动虚拟人脸动画生成方式时，通过为口型图像帧配置与音频中的音素对应的视素权重系数，可以使得在每个口型图像帧中，都能够基于视素权重系数生成对应的口型图像，因此可以在提高动画的制作效率的情况下，使得虚拟人脸的口型变化能够与音频内容相匹配，所以可以依次执行步骤1802和步骤1803，提取出所有口型图像帧的视素权重系数，得到各个视素对应的视素权重曲线。

在待处理的口型动画中，先确定与目标音素对应的多个候选音频帧，以及与目标视素对应的多个口型图像帧，其中目标音素与目标视素对应，候选音频帧与口型图像帧对齐，其中，可以执行步骤1805，利用音素与视素的映射关系表进行对齐；在采用T2F方式生成口型动画的情况下，可以采用文本与候选音频帧在时间上对齐；然后，执行步骤1804，获取各个候选音频帧中目标音素的音频强度，并根据音频强度确定出关键发音音素，利用关键发音音素进行对应的视素检测，在多个口型图像帧中确定多个目标图像帧区间，通过根据音频强度确定目标图像帧区间，可以达到利用音频强度筛选目标图像帧区间的目的，实现关键发音音素的视素检测，从而有利于提高在目标图像帧区间中确定视素冲突帧区间的效率。

接着，执行步骤1806，确定会与目标视素产生冲突的冲突视素，并根据冲突视素在多个目标图像帧区间中确定视素冲突帧区间，其中视素冲突帧区间中的至少一个口型图像帧与冲突视素对应，通过先确定会与目标视素产生冲突的冲突视素，然后在多个目标图像帧区间中确定具有与冲突视素对应的口型图像帧的视素冲突帧区间，可以提高确定视素冲突帧区间的准确性，从而有利于提高对视素冲突帧区间的图像内容进行调整的准确性；在确定视素冲突帧区间之后，执行步骤1807，获取视素冲突帧区间的视素权重曲线，并根据视素权重曲线计算得到权重抑制曲线，然后执行步骤1808，根据权重抑制曲线和视素权重曲线对视素冲突帧区间的图像内容进行调整，与对整个待处理的口型动画的图像内容进行调整相比，通过利用权重抑制曲线和视素权重曲线对视素冲突帧区间的图像内容进行调整，可以达到对视素冲突帧区间的图像内容的局部增强，并执行步骤1809，输出调整后的图像内容中各个视素对应的新的视素权重系数，从而可以更加突出口型与发音之间的协调；此外，由于权重抑制曲线是根据视素冲突帧区间的视素权重曲线而计算得到的，因此在根据权重抑制曲线和视素权重曲线对视素冲突帧区间的图像内容进行调整时，可以有效提高口型的准确性，从而能够提高口型与发音的匹配度，进而可以改善观众的观看体验。

综上，本申请实施例提供的口型动画处理方法可以针对需要唇齿咬合发音的目标音素如唇齿音、齿擦音和双唇音进行口型增强，提高口型的准确性，同时对目标音素进行片段化提取和处理，并对与目标音素冲突的冲突音素采用权重抑制曲线进行反向抑制约束，再进行平滑后处理操作，如对冲突视素图像帧区间进行平滑滤波处理，或者采用插值算法对冲突视素图像帧区间进行帧填充等，使得调整后的图像内容流畅自然，同时使得口型与发音保持一致，提高用户观感。

下面以具体的例子对本申请实施例所提供的口型动画处理方法进行详细的说明。

参照图19所示，图19是一个具体例子提供的口型动画处理方法的步骤流程图。在图19中，该口型动画处理方法可以包括但不限于步骤1901至步骤1917。

步骤1901：在待处理的口型动画中，确定与目标音素对应的多个候选音频帧，以及与目标视素对应的多个口型图像帧。

本步骤中，目标音素与目标视素对应，候选音频帧与口型图像帧对齐。

步骤1902：获取各个候选音频帧中目标音素的音频强度。

步骤1903：在多个候选音频帧中，确定音频强度大于预设强度阈值的多个目标音频帧。

步骤1904：判断目标视素的种类，如果目标视素的种类为一个，执行步骤1905；如果目标视素的种类为多个，执行步骤1907。

步骤1905：在多个口型图像帧中，确定与多个目标音频帧对应的多个目标图像帧。

步骤1906：根据多个目标图像帧的分布情况，确定多个目标图像帧区间，然后执行步骤1911。

步骤1907：在多个口型图像帧中，确定各种目标视素对应的多个候选图像帧。

步骤1908：在各种目标视素对应的多个候选图像帧中，分别确定与多个目标音频帧对应的多个目标图像帧区间。

步骤1909：根据多个目标图像帧的分布情况，确定各种目标视素对应的候选图像帧区间。

步骤1910：遍历所有种类的目标视素，如果当前种类的目标视素对应的候选图像帧区间，与其他种类的目标视素对应的候选图像帧区间，在时间维度上属于包含关系，将被包含的候选图像帧区间进行删除，得到多个目标图像帧区间。

步骤1911：确定会与目标视素产生冲突的冲突视素。

步骤1912：在多个目标图像帧区间中，将存在包括冲突视素的口型图像帧的目标图像帧区间，确定为视素冲突帧区间。

步骤1913：获取视素冲突帧区间的视素权重曲线，并计算视素权重曲线的权重均值。

步骤1914：根据视素权重曲线和权重均值，计算得到初始抑制曲线。

步骤1915：根据视素冲突帧区间的长度确定幅值上限超参数和幅值下限超参数，并根据幅值上限超参数和幅值下限超参数，对初始抑制曲线进行归一化处理，得到权重抑制曲线。

步骤1916：将权重抑制曲线和视素权重曲线进行相乘处理，得到权重调整曲线。

步骤1917：根据权重调整曲线对视素冲突帧区间的图像内容进行调整。

通过上述步骤1901至步骤1917的口型动画处理方法，在待处理的口型动画中，先确定与目标音素对应的多个候选音频帧，以及与目标视素对应的多个口型图像帧，其中目标音素与目标视素对应，候选音频帧与口型图像帧对齐；然后，获取各个候选音频帧中目标音素的音频强度，并根据音频强度在多个口型图像帧中确定多个目标图像帧区间，通过根据音频强度确定目标图像帧区间，可以达到利用音频强度筛选目标图像帧区间的目的，从而有利于提高在目标图像帧区间中确定视素冲突帧区间的效率；接着，确定会与目标视素产生冲突的冲突视素，并根据冲突视素在多个目标图像帧区间中确定视素冲突帧区间，其中视素冲突帧区间中的至少一个口型图像帧与冲突视素对应，通过先确定会与目标视素产生冲突的冲突视素，然后在多个目标图像帧区间中确定具有与冲突视素对应的口型图像帧的视素冲突帧区间，可以提高确定视素冲突帧区间的准确性，从而有利于提高对视素冲突帧区间的图像内容进行调整的准确性；在确定视素冲突帧区间之后，获取视素冲突帧区间的视素权重曲线，并根据视素权重曲线计算得到权重抑制曲线，然后根据权重抑制曲线和视素权重曲线对视素冲突帧区间的图像内容进行调整，与对整个待处理的口型动画的图像内容进行调整相比，通过利用权重抑制曲线和视素权重曲线对视素冲突帧区间的图像内容进行调整，可以达到对视素冲突帧区间的图像内容的局部增强，从而可以更加突出口型与发音之间的协调；此外，由于权重抑制曲线是根据视素冲突帧区间的视素权重曲线而计算得到的，因此在根据权重抑制曲线和视素权重曲线对视素冲突帧区间的图像内容进行调整时，可以有效提高口型的准确性，从而能够提高口型与发音的匹配度，进而可以改善观众的观看体验。

下面以一些实际例子说明本申请实施例的应用场景。

需要说明的是，本申请实施例提供的口型动画处理方法，可以应用于口型动画制作、口型动画实时优化等不同的应用场景，下面以口型动画制作场景和口型动画优化场景为例进行说明。

场景一

本申请实施例提供的口型动画处理方法，可以应用于口型动画制作场景，例如，当动画师采用音频驱动虚拟人脸动画生成方法，或者采用文本驱动虚拟人脸动画生成方法，在服务器中生成初始的口型动画之后，服务器会先在该初始的口型动画中，确定与目标音素对应的多个候选音频帧，以及与目标视素对应的多个口型图像帧，其中，目标音素与目标视素对应，候选音频帧与口型图像帧对齐；然后，服务器获取各个候选音频帧中目标音素的音频强度，并根据音频强度在多个口型图像帧中确定多个目标图像帧区间；接着，服务器确定会与目标视素产生冲突的冲突视素，并根据冲突视素在多个目标图像帧区间中确定视素冲突帧区间，其中，视素冲突帧区间中的至少一个口型图像帧与冲突视素对应；当确定视素冲突帧区间之后，服务器获取视素冲突帧区间的视素权重曲线，并根据视素权重曲线计算得到权重抑制曲线；接着，服务器根据权重抑制曲线和视素权重曲线，对视素冲突帧区间的图像内容进行调整。当服务器对视素冲突帧区间的图像内容进行了调整之后，即可得到最终的口型动画。此时，即完成了对口型动画的制作。

场景二

本申请实施例提供的口型动画处理方法，还可以应用于口型动画优化场景，例如，当动画师采用音频驱动虚拟人脸动画生成方法，或者采用文本驱动虚拟人脸动画生成方法，在服务器中制作口型动画之后，动画师可以进一步在服务器中对该口型动画进行口型优化。首先，服务器在获取到该口型动画之后，可以先在该口型动画中，确定与目标音素对应的多个候选音频帧，以及与目标视素对应的多个口型图像帧，其中，目标音素与目标视素对应，候选音频帧与口型图像帧对齐；然后，服务器获取各个候选音频帧中目标音素的音频强度，并根据音频强度在多个口型图像帧中确定多个目标图像帧区间；接着，服务器确定会与目标视素产生冲突的冲突视素，并根据冲突视素在多个目标图像帧区间中确定视素冲突帧区间，其中，视素冲突帧区间中的至少一个口型图像帧与冲突视素对应；当确定视素冲突帧区间之后，服务器获取视素冲突帧区间的视素权重曲线，并根据视素权重曲线计算得到权重抑制曲线；接着，服务器根据权重抑制曲线和视素权重曲线，对视素冲突帧区间的图像内容进行调整。当服务器对视素冲突帧区间的图像内容进行了调整之后，即可得到经过调整的口型动画。此时，即完成了对口型动画的优化。

可以理解的是，虽然上述各个流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时间执行完成，而是可以在不同的时间执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

参照图20，本申请实施例还公开了一种口型动画处理装置，该口型动画处理装置2000能够实现前面实施例中的口型动画处理方法，该口型动画处理装置2000包括：

第一帧处理单元2010，用于在待处理的口型动画中，确定与目标音素对应的多个候选音频帧，以及与目标视素对应的多个口型图像帧，其中，目标音素与目标视素对应，候选音频帧与口型图像帧对齐；

第一帧区间确定单元2020，用于获取各个候选音频帧中目标音素的音频强度，根据音频强度在多个口型图像帧中确定多个目标图像帧区间；

第二帧区间确定单元2030，用于确定会与目标视素产生冲突的冲突视素，根据冲突视素在多个目标图像帧区间中确定视素冲突帧区间，视素冲突帧区间中的至少一个口型图像帧与冲突视素对应；

曲线计算单元2040，用于获取视素冲突帧区间的视素权重曲线，根据视素权重曲线计算得到权重抑制曲线；

图像调整单元2050，用于根据权重抑制曲线和视素权重曲线，对视素冲突帧区间的图像内容进行调整。

在一实施例中，第一帧区间确定单元2020还用于：

在多个候选音频帧中，确定音频强度大于预设强度阈值的多个目标音频帧；

根据多个目标音频帧，在多个口型图像帧中确定多个目标图像帧区间。

在一实施例中，第一帧区间确定单元2020还用于：

在多个口型图像帧中，确定与多个目标音频帧对应的多个目标图像帧；

根据多个目标图像帧的分布情况，确定多个目标图像帧区间。

在一实施例中，目标视素的种类有多个；第一帧区间确定单元2020还用于：

在多个口型图像帧中，确定各种目标视素对应的多个候选图像帧；

在各种目标视素对应的多个候选图像帧中，分别确定与多个目标音频帧对应的多个目标图像帧区间。

在一实施例中，第一帧区间确定单元2020还用于：

根据多个目标图像帧的分布情况，确定各种目标视素对应的候选图像帧区间；

对不同种类的目标视素对应的候选图像帧区间之间，进行基于时间维度的区间去重，得到多个目标图像帧区间。

在一实施例中，第一帧区间确定单元2020还用于：

遍历所有种类的目标视素，如果当前种类的目标视素对应的候选图像帧区间，与其他种类的目标视素对应的候选图像帧区间，在时间维度上属于包含关系，将被包含的候选图像帧区间进行删除。

在一实施例中，第二帧区间确定单元2030还用于：

在多个目标图像帧区间中，将存在包括冲突视素的口型图像帧的目标图像帧区间，确定为视素冲突帧区间。

在一实施例中，曲线计算单元2040还用于：

计算视素权重曲线的权重均值；

根据视素权重曲线和权重均值，计算得到权重抑制曲线。

在一实施例中，曲线计算单元2040还用于：

根据视素权重曲线和权重均值，计算得到初始抑制曲线；

对初始抑制曲线进行基于幅值的归一化处理，得到权重抑制曲线。

在一实施例中，曲线计算单元2040还用于：

根据视素冲突帧区间的长度确定幅值上限超参数和幅值下限超参数；

根据幅值上限超参数和幅值下限超参数，对初始抑制曲线进行归一化处理，得到权重抑制曲线。

在一实施例中，图像调整单元2050还用于：

将权重抑制曲线和视素权重曲线进行相乘处理，得到权重调整曲线；

根据权重调整曲线对视素冲突帧区间的图像内容进行调整。

需要说明的是，由于本实施例的口型动画处理装置2000能够实现如前面实施例的口型动画处理方法，因此本实施例的口型动画处理装置2000与前面实施例的口型动画处理方法，具有相同的技术原理以及相同的有益效果，为了避免内容重复，此处不再赘述。

参照图21，本申请实施例还公开了一种口型动画处理装置，该口型动画处理装置2100包括：

至少一个处理器2101；

至少一个存储器2102，用于存储至少一个程序；

当至少一个程序被至少一个处理器2101执行时，实现如前面的口型动画处理方法。

本申请实施例还公开了一种计算机可读存储介质，其中存储有处理器可执行的计算机程序，处理器可执行的计算机程序被处理器执行时，用于实现如前面的口型动画处理方法。

本申请实施例还公开了一种计算机程序产品，包括计算机程序或计算机指令，计算机程序或计算机指令存储在计算机可读存储介质中，口型动画处理装置的处理器从计算机可读存储介质读取计算机程序或计算机指令，处理器执行计算机程序或计算机指令，使得口型动画处理装置执行如前面的口型动画处理方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其他步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机、服务器或者网络装置等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

对于上述方法实施例中的步骤编号，仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

Claims

1.一种口型动画处理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述根据所述音频强度在所述多个口型图像帧中确定多个目标图像帧区间，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述多个目标音频帧，在所述多个口型图像帧中确定多个目标图像帧区间，包括：

4.根据权利要求3所述的方法，其特征在于，所述目标视素的种类有多个；所述在所述多个口型图像帧中，确定与所述多个目标音频帧对应的多个目标图像帧，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述多个目标图像帧的分布情况，确定多个目标图像帧区间，包括：

6.根据权利要求5所述的方法，其特征在于，所述对不同种类的所述目标视素对应的所述候选图像帧区间之间，进行基于时间维度的区间去重，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述冲突视素在所述多个目标图像帧区间中确定视素冲突帧区间，包括：

8.根据权利要求1所述的方法，其特征在于，所述根据所述视素权重曲线计算得到权重抑制曲线，包括：

计算所述视素权重曲线的权重均值；

9.根据权利要求8所述的方法，其特征在于，所述根据所述视素权重曲线和所述权重均值，计算得到权重抑制曲线，包括：

10.根据权利要求9所述的方法，其特征在于，所述对所述初始抑制曲线进行基于幅值的归一化处理，得到权重抑制曲线，包括：

11.根据权利要求1所述的方法，其特征在于，所述根据所述权重抑制曲线和所述视素权重曲线，对所述视素冲突帧区间的图像内容进行调整，包括：

12.一种口型动画处理装置，其特征在于，包括：

13.一种口型动画处理装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当至少一个所述程序被至少一个所述处理器执行时实现如权利要求1至11任意一项所述的口型动画处理方法。

14.一种计算机可读存储介质，其特征在于，其中存储有处理器可执行的计算机程序，所述处理器可执行的计算机程序被处理器执行时用于实现如权利要求1至11任意一项所述的口型动画处理方法。