CN117528176A

CN117528176A - 视频确定方法、装置、电子设备及存储介质

Info

Publication number: CN117528176A
Application number: CN202210911515.1A
Authority: CN
Inventors: 李健玮; 杨骁�
Original assignee: Lemon Inc Cayman Island
Current assignee: Lemon Inc Cayman Island
Priority date: 2022-07-30
Filing date: 2022-07-30
Publication date: 2024-02-06
Also published as: WO2024030075A2; WO2024030075A3

Abstract

本公开实施例提供了一种视频确定方法、装置、电子设备及存储介质。其中，该方法包括：响应于特效触发操作，采集包括目标对象的目标面部图像；确定目标音频，并确定与目标音频相对应的关键视频帧序列；基于关键视频帧序列和目标面部图像，确定目标音频播放时目标面部图像的目标面部特征；基于目标面部特征和所述目标音频，确定所述目标特效音视频。本公开实施例的技术方案，实现了在算力有限的设备上，可以驱动目标面部图像的面部特征与目标音频播放时的面部特征相一致的效果。

Description

视频确定方法、装置、电子设备及存储介质

技术领域

本公开实施例涉及图像处理技术领域，尤其涉及一种视频确定方法、装置、电子设备及存储介质。

背景技术

随着网络技术的发展，基于人工智能的人机交互方式的应用软件也越来越普遍，而可视化语音技术成为了新一代人机交互方式。

现有技术中，软件开发商可以在应用中添加各种各样的特效道具，以供用户在拍摄视频的过程中使用，然而，目前为用户提供的特效道具十分有限，视频的质量及其内容的丰富性都有待进一步提升，同时，视频内容与所选择的特效之间缺乏同步性，用户在使用特效道具时的交互体验较差。

发明内容

本公开提供一种视频确定方法、装置、电子设备及存储介质，以实现在算力有限的设备上，可以驱动目标面部图像的面部特征与目标音频播放时的面部特征相一致的效果。

第一方面，本公开实施例提供了一种视频确定方法，应用于客户端中，该方法包括：

响应于特效触发操作，采集包括目标对象的目标面部图像；

确定目标音频，并确定与所述目标音频相对应的关键视频帧序列；

基于所述关键视频帧序列和所述目标面部图像，确定所述目标音频播放时所述目标面部图像的目标面部特征；

基于所述目标面部特征和所述目标音频，确定所述目标特效音视频。

第二方面，本公开实施例还提供了一种视频确定装置，该装置包括：

面部图像采集模块，用于响应于特效触发操作，采集包括目标对象的目标面部图像；

目标音频确定模块，用于确定目标音频，并确定与所述目标音频相对应的关键视频帧序列；

目标面部特征确定模块，用于基于所述关键视频帧序列和所述目标面部图像，确定所述目标音频播放时所述目标面部图像的目标面部特征；

目标特效音视频确定模块，用于基于所述目标面部特征和所述目标音频，确定所述目标特效音视频。

第三方面，本公开实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本公开实施例任一所述的视频确定方法。

第四方面，本公开实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如本公开实施例任一所述的视频确定方法。

本公开实施例，通过响应于特效触发操作，采集包括目标对象的目标面部图像，然后，确定目标音频，并确定与目标音频相对应的关键视频帧序列，进一步的，基于关键视频帧序列和目标面部图像，确定目标音频播放时目标面部图像的目标面部特征，最后，基于目标面部特征和目标音频，确定目标特效音视频，解决了现有技术中通过音频驱动面部图像的面部特征进行变化时，面部图像的面部五官无法与音频同步发生变化的问题，或者，仅面部图像的口型特征发生变化的问题，实现了在算力有限的设备上，可以驱动目标面部图像的面部特征与目标音频播放时的面部特征相一致的效果，提升了用户体验。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1是本公开实施例所提供的一种视频确定方法流程示意图；

图2是本公开实施例所提供的一种视频确定方法流程示意图；

图3是本公开实施例所提供的一种视频确定方法流程示意图；

图4是本公开实施例所提供的一种视频确定装置结构示意图；

图5是本公开实施例所提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

例如，在响应于接收到用户的主动请求时，向用户发送提示信息，以明确地提示用户，其请求执行的操作将需要获取和使用到用户的个人信息。从而，使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。

作为一种可选的但非限定性的实现方式，响应于接收到用户的主动请求，向用户发送提示信息的方式例如可以是弹窗的方式，弹窗中可以以文字的方式呈现提示信息。此外，弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。

可以理解的是，上述通知和获取用户授权过程仅是示意性的，不对本公开的实现方式构成限定，其它满足相关法律法规的方式也可应用于本公开的实现方式中。

可以理解的是，本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。

在介绍本技术方案之前，可以先对应用场景进行示例性说明。示例性的，当用户通过应用软件生成特效视频时，可能希望将所拍摄的包括目标对象的目标面部图像与用户所选择的目标音频结合在一起，从而生成目标对象的面部特征与目标音频的面部特征相一致的目标特效音视频，例如，当目标音频为新闻播报音频时，当用户触发显示界面上的特效道具时，可以实时采集与用户相对应的目标面部图像，根据当前采集的目标面部图像和目标音频，生成用户的面部特征与新闻播报音频进行播放时的面部特征相一致的特效视频；当用户触发特效操作时，可以上传需要进行处理的面部图像，将当前上传的面部图像作为目标面部图像，基于本公开实施例的技术方案，可以生成目标面部图像中目标对象的面部特征与新闻播报音频进行播放时的面部特征相一致的特效视频，并且，随着部署于移动端的应用软件不断增加，便出现了通过移动端来实现目标特效音视频生成过程的诉求。此时，可以根据本公开实施例的技术方案，实现在算力有限的设备上，驱动目标面部图像的面部特征与目标音频播放时的面部特征相一致的效果。

图1是本公开实施例所提供的一种视频确定方法流程示意图，本公开实施例适用于在算力有限的设备上，驱动目标面部图像的面部特征与目标音频播放时的面部特征相一致，从而生成目标特效视频的情形，该方法可以由视频确定装置来执行，该装置可以通过软件和/或硬件的形式实现，可选的，通过电子设备来实现，该电子设备可以是移动终端、PC端或服务器等。

如图1所示，所述方法包括：

S110、响应于特效触发操作，采集包括目标对象的目标面部图像。

在介绍本公开实施例的方案前，首先需要说明的是，本公开实施例的技术方案可以应用于客户端，其中，客户端可以是与服务端相对应的、为用户提供本地服务的程序，同时，客户端与服务端之间可以基于超文本传输协议(Hyper Text Transfer Protocol，HTTP)进行通信。示例性的，将模型集成于支持特效视频处理功能以及自然语言处理等多种功能的应用软件中，且该软件可以安装至电子设备中，可选的，电子设备可以是移动终端或者PC端等。应用软件可以是对图像、视频以及语音等数据进行处理的一类软件，其具体的应用软件在此不再一一赘述，只要可以实现图像、视频以及语音等数据的处理即可。还可以是专门研发的应用程序，来实现添加特效并将特效进行展示的软件中，亦或是集成在相应的页面中，用户可以通过PC端中集成的页面来实现对特效视频的处理。

在本实施例中，在支持特效视频处理功能的应用软件或应用程序中，可以预先开发用于触发特效的控件，当检测到用户触发该控件时，即可对特效触发操作进行响应，从而采集包括目标对象的目标面部图像。

其中，目标面部图像可以为需要进行处理的，包含面部轮廓信息的图像。该图像可以是基于终端设备采集的图像，也可以是应用软件从存储空间中预先存储的图像。终端设备可以指相机、智能手机以及平板电脑等具有图像拍摄功能的电子产品。在实际应用中，当检测到用户触发特效操作时，终端设备可以是面向用户以实现目标面部图像的采集，当检测到目标对象出现在终端设备的视野区域内时，可以对当前终端设备中的视频帧图像进行采集，作为当前待处理图像；在当检测到目标对象没有出现在终端设备的视野区域内时，当前终端设备中显示的视频帧图像不包括目标对象，则可以不对当前终端设备中的视频帧图像进行采集。相应地，目标面部图像中可以包括目标对象。目标对象可以是入镜画面中任何姿态或者位置信息发生变化的对象，例如可以是用户或者动物等。

需要说明的是，在获取目标面部图像时，可以对拍摄视频对应的视频帧进行处理，如，可以预先设置与拍摄视频对应的目标对象，当检测到视频帧对应的图像中包括该目标对象时，则可以将该视频帧对应的图像作为目标面部图像，以使后续可以对视频中的每个视频帧的图像进行追踪，并对其进行特效处理。

还需说明的是，同一拍摄场景中目标对象的数量可以是一个，也可以是多个，不论是一个还是多个，均可以采用本公开实施例所提供的技术方案来确定特效视频。

在实际应用中，通常在触发某些特效触发操作的情况下，才会采集包括目标对象的目标面部图像，那么，特效触发操作可以包括如下至少一种：触发特效道具；入镜画面中包括目标对象；音频信息触发特效唤醒词；当前肢体动作与预设特效动作相一致。

在本实施例中，可以预先设置用于触发特效道具的控件，当用户触发该控件时，可以在显示界面上弹出特效道具显示页面，该显示页面中可以显示多个特效道具。用户可以触发相应的特效道具，当检测到用户触发了与采集目标面部图像相对应道具，则说明触发了特效触发操作。其中，终端设备的拍摄装置会有一定的拍摄视野范围，当检测到视野范围内包括目标对象的面部图像时，则说明触发了特效触发操作，例如，可以预先设置某用户为目标对象，当检测到视野区域内包括该用户的面部图像时，则可以确定触发了特效触发操作；或者，可以将目标对象的面部图像预先存储至终端设备中，当检测到视野区域内出现若干个面部图像，如果检测到在若干个面部图像中包括预设目标对象的面部图像，则可以确定触发了特效触发操作，以使终端设备可以对目标对象的面部图像进行追踪，并进一步获取目标对象的目标面部图像。还有一种实现方式为：可以预先采集用户的音频信息，并对采集的音频信息分析处理，从而识别与音频信息相对应的文字，如果与音频信息相对应的文字中包括预先设置的唤醒词，可选的，唤醒词可以是：“请拍摄当前图像”或“请开启特效功能”等类型的词汇，则说明可以获取显示界面中的目标面部图像。还有另一种实现方式为：可以预先将一些肢体动作设置为特效触发动作，当检测到视野范围内用户当前所做的肢体工作与预先设置的肢体动作一致时，则可以确定触发了特效操作，可选的，预设肢体动作可以为举手、张开嘴部或者转动头部等。

S120、确定目标音频，并确定与目标音频相对应的关键视频帧序列。

其中，目标音频可以为存储声音内容的多媒体数据流，同时，此数据流中所存储的声音内容可以是满足用户当前需求的声音信息。示例性的，目标音频可以为一段新闻朗读音频，可以为某个电影片段的音频等。

需要说明的是，确定目标音频可以是用户在应用软件的音频展示页面中任意选择确定的；也可以是前期开发阶段预先存储的，当用户触发特效道具之后，直接从存储空间中导入至当前客户端的；还可以是用户通过外接设备将音频文件实时或周期性地上传至当前客户端，以作为目标音频，本公开实施例在此不作具体限定。

在本实施例中，确定目标音频可以存在至少两种方式。一种方式可以为：基于显示界面中显示的若干个音频进行选择，以得到目标音频。可选的，确定目标音频，包括：显示至少一个待选择音频；基于第一预设时长内对至少一个待选择音频的触发操作，确定目标音频。

其中，待选择音频可以是一个或多个，每个待选择音频均存在相应的关键视频帧序列。在本实施例中，向用户提供特效相关联的待选择音频的同时，还会在显示界面中展示音频选择倒计时，倒计时时间即为预先设置的选择时长。可以理解，用户可以通过触发操作在多个待选择音频中进行选择，当选择时长达到第一预设时长，即，音频选择倒计时归零时，用户在这一时刻选择的待选择音频即为目标音频。当然，在未达到第一预设时长时，用户也可以基于确定控件下发确认指令，从而直接结束音频选择倒计时的计时过程，并将当前选择的待选择音频作为目标音频，本领域技术人员应当理解，当待选择音频有多个时，用户可以按照自身意愿对多个音频依次进行选择，但选择的时间达到第一预设时长后，应用只会将用户最后选择的待选择音频作为目标音频。或者，用户可以通过触发操作在多个待选择音频中进行选择，当选择时长达到第一预设时长，可以统计在第一预设时长内当前显示界面中各待选择音频的触发频次，并将触发频次最高的待选择音频作为目标音频。这样设置的好处在于：显示界面中的显示的音频是已经经过处理的音频，可以提高目标特效音视频的生成效率。

另一种方式可以为：可以动态调整目标音频，例如，可以实时的对当前上传的音频进行处理，此时，可以将上传的音频作为待处理音频，从而确定目标音频。可选的，确定目标音频，包括：接收上传的待处理音频，作为目标音频。

其中，待处理音频可以为当前需要进行处理并上传至客户端的音频。

在实际应用中，可以实时或周期性的将需要处理的音频上传至客户端，并将上传之后的音频作为目标音频。这样设置的好处在于：提升了所得到的特效视频内容的丰富性与趣味性，同时也增强了用户在使用特效道具时的交互体验，并且，满足了用户的个性化需求。

在实际应用中，由于目标音频是由多个单词组成的一段语音，当特定用户在说出各个单词时，均有其相应的面部动作，例如，口型或眉眼表情等，在确定目标音频之后，可以确定与该目标音频相对应的视频，并将此视频中存在面部特征变化的多个视频帧图像提取出来，以作为关键视频帧序列。

需要说明的是，若目标音频是从显示界面中显示的至少一个待选择音频中确定的，可以预先对各待选择音频进行处理，得到相应的关键视频帧序列，并将各关键视频帧序列与相应的待选择音频对应存储，以在确定目标音频时，直接调取相应的关键视频帧序列，从而生成目标特效音视频；若目标音频为实时上传的待处理音频，则可以在目标音频上传之后，对该目标音频进行处理，得到相应的关键视频帧序列，从而在存在关键视频帧序列的前提下，生成目标特效音视频。

在实际应用中，对于同一段语音内容，当对应的语言类型不同时，相应的口型特征也会发生变化。示例性的，对于同一段新闻播报音频，用英语进行播报时的嘴部张开幅度与用中文进行播报时的嘴部张开幅度不同。基于此，在上述技术方案的基础上，还包括：根据预先选择的与目标音频相对应的目标语言类型，确定与目标音频相对应的关键视频帧序列。

需要说明的是，在确定目标音频后，显示界面上可以显示包括多种语言类型的显示列表或显示控件，基于用户的触发操作，确定与目标音频相对应的目标语言类型；或者，在确定目标音频后，可以获取当前图像处理设备所属区域的地理区域信息，基于地理区域信息确定相应的语言类型，以作为目标语言类型，从而可以调取与目标语言类型相对应的关键视频帧序列。

还需说明的是，在特效道具的前期开发阶段，当确定多个待选择音频时，可以确定各待选择音频在不同语言类型下所对应的关键视频帧序列并对应存储起来，以在确定目标音频以及目标语言类型时，可以直接调取相应的关键视频帧序列。这样设置的好处在于：并且可以对不同语言类型的目标音频进行处理，增强了特效音视频的丰富性，提升了用户体验。

S130、基于关键视频帧序列和目标面部图像，确定目标音频播放时目标面部图像的目标面部特征。

在本实施例中，关键视频帧序列中包括多个关键视频帧，每个关键视频帧中均包括用户以及用户的面部特征，同时，这些面部特征是与目标音频在播放时所对应的面部特征相匹配的。

在实际应用中，关键视频帧序列是基于目标音频确定的。由于每个关键视频帧均有其对应的时间戳，将各个关键视频帧根据其显示的时间戳进行拼接，从而得到关键视频帧序列，将此关键视频帧序列的时长与目标音频的时长进行比对。若关键视频帧序列的时长与目标音频的时长相一致，在基于目标音频生成相应的视频时，可以将该视频中的所有视频帧均作为关键视频帧，即关键视频帧序列可以为与目标音频相对应的全部视频帧；若关键视频帧序列的时长与目标音频的时长不一致时，在基于目标音频生成相应的视频时，可以对该视频进行抽帧处理，从视频中获取具有突出特征的某些视频帧，以作为关键视频帧，并基于这些关键视频帧生成关键视频帧序列。

其中，目标面部特征可以包括面部五官部位中任一部位的特征，例如，嘴部特征、眼部特征或眉毛特征等。

进一步的，基于关键视频帧序列和目标面部图像，确定目标面部特征，同样可以基于关键视频帧序列中各关键视频帧的时间戳与目标音频的时间戳进行比对后确定。若关键视频帧序列中某些关键视频帧的时间戳与目标音频的时间戳是相一致的，因此，在目标音频播放过程中，当时间点与关键视频帧序列中某一关键视频帧的时间戳相一致时，则可以将此关键视频帧的面部特征作为目标面部图像的面部特征，当目标音频的播放时间戳与关键视频帧序列中任一关键视频帧的播放时间戳不一致时，则可以将目标面部图像的面部特征设置为预设面部特征，例如，嘴部保持闭合，面部五官保持无表情状态等，可以将目标音频播放时，播放时间戳与关键视频帧序列中关键视频帧的时间戳相一致时，当前关键视频帧所对应的面部特征，以及，播放时间戳与关键视频帧序列中任一关键视频帧的时间戳不一致时，所设置的预设面部特征，作为目标面部图像的目标面部特征。需要说明的是，当关键视频帧序列的时长与目标音频的时长相一致时，则可以将基于目标音频生成的视频中用户的所有面部特征作为目标面部特征。

具体的，在确定关键视频帧序列后，即可将其与目标面部图像进行处理，以根据关键视频帧序列中各关键视频帧所对应的用户面部特征以及预先设置的面部特征，确定目标音频播放时目标面部图像的目标面部特征，从而实现目标面部图像的面部特征与目标音频播放时的面部特征相一致的效果。

S140、基于目标面部特征和目标音频，确定目标特效音视频。

在本实施例中，确定出目标面部特征之后，则可以将其与目标音频进行结合，从而得到播放时长与目标音频相同，且目标对象的面部特征与目标面部特征相一致的目标特效音视频。

可以理解的是，在目标特效音视频的任意一帧画面中，目标对象的面部特征均与相同时间点下的目标面部特征相匹配。

在实际应用中，目标特效音视频可以在客户端实时生成，也可以对预先存储的视频进行后期处理而生成特效音视频等。

本公开实施例的技术方案，通过响应于特效触发操作，采集包括目标对象的目标面部图像，然后，确定目标音频，并确定与目标音频相对应的关键视频帧序列，进一步的，基于关键视频帧序列和目标面部图像，确定目标音频播放时目标面部图像的目标面部特征，最后，基于目标面部特征和目标音频，确定目标特效音视频，解决了现有技术中通过音频驱动面部图像的面部特征进行变化时，面部图像的面部五官无法与音频同步发生变化的问题，或者，仅面部图像的口型特征发生变化的问题，实现了在算力有限的设备上，可以驱动目标面部图像的面部特征与目标音频播放时的面部特征相一致的效果，提升了用户体验。

图2是本公开实施例所提供的一种视频确定方法流程示意图，在前述实施例的基础上，在确定目标音频之后，可以判断是否存在相应的关键视频帧序列，并判断结果确定关键视频帧序列。其具体的实施方式可以参见本实施例技术方案。其中，与上述实施例相同或者相应的技术术语在此不再赘述。

如图2所示，该方法具体包括如下步骤：

S210、响应于特效触发操作，采集包括目标对象的目标面部图像。

S220、确定目标音频，并确定与目标音频相对应的关键视频帧序列是否已存储，若是，则执行S230，若否，则执行S240。

S230、从预先确定的关键帧序列库中调取与目标音频相对应的关键视频帧序列。

其中，关键帧序列库中包括对各待选择音频处理后所对应的关键视频帧序列。关键视频帧序列中包括至少一个视频帧，视频帧中用户的面部特征与预设面部特征不一致。

在本实施例中，预设面部特征可以为预先设置的，用于确定面部特征是否发生变化的判断标准。示例性的，当待选择音频为一段新闻朗读语音时，当用户在朗读此待选择音频中的内容时，该用户的面部特征会相应发生变化，在各种面部特征中会存在嘴部处于闭合状态的特征，对于嘴部处于闭合状态的面部特征来说，单看该面部特征的视频帧无法判断相应的音频信息，因此，可以将嘴部处于闭合状态的面部特征作为预设面部特征，从而将与待选择音频相对应的视频帧中将面部特征与预设面部特征不一致的视频帧筛选出来，并将筛选之后的多个视频帧作为关键视频帧序列。

在实际应用中，在确定各待选择音频的同时，可以进一步确定各待选择音频所对应的面部特征以及相应的视频帧图像，并将面部特征与预设面部特征不一致的视频帧筛选出来，以作为各待选择音频所对应的关键视频帧序列，并将各关键视频帧序列与相应的待选择音频对应存储在关键视频帧序列库中，当用户从各待选择音频中选中目标音频时，则可以将与该目标音频相对应的关键视频帧序列从关键视频帧序列库中调取出来，以作为目标音频的关键视频帧序列。这样设置的好处在于：可以将目标音频的突出面部特征以及相应的关键视频帧序列筛选出来，从而在将该技术方案应用至算力有限的设备时，可以减少设备的图像处理过程，提高了设备对于特效视频的处理效率。

S240、对目标音频进行处理，以得到与目标音频相对应的关键帧序列。

在确定目标音频之后，对目标音频进行处理，确定该目标音频所对应的面部特征以及相应的视频帧，将各视频帧中面部特征与预设面部特征不一致的视频帧筛选出来，并将筛选之后的视频帧作为目标音频的关键视频帧序列。

需要说明的是，面部特征可以包括口型特征和面部五官特征，对于不同的面部特征来说，确定关键视频帧序列的方法是不同的，下面可以分别说明当面部特征为口型特征和面部五官特征时，其相应的关键视频帧序列确定方法。

还需说明的是，当预先对各待选择音频进行处理，得到相应的关键视频帧序列并存储时，确定各待选择音频相对应的关键视频帧序列也可以通过下述方法来实现。

在实际应用中，面部特征中包括口型特征，可选的，确定关键视频帧序列，包括：获取待显示面部图像；基于待显示面部图像和目标音频，得到待显示面部图像的口型特征与目标音频播放时的口型特征相一致的待处理音视频；将待处理音视频中各口型特征与预设口型特征不一致的待处理视频帧，作为关键视频帧序列。

其中，待显示面部图像可以为需要进行处理的，包括面部轮廓信息的图像。待显示面部图像可以是用户通过摄像装置拍摄后得到的，也可以是从预先存储的存储空间中获取的。预设口型特征可以为预先设定的，用于确定目标对象的口型特征是否发生变化的判断标准。示例性的，预设口型特征可以为嘴巴处于闭合状态时所对应的口型特征。

在实际应用中，当目标音频播放时，根据音频播放内容中各个单词的读音，则可以确定相应的口型特征，进一步的，在得到待显示面部图像后，可以对待显示面部图像与目标音频进行处理，将待显示面部图像中所包括的对象的口型特征与目标音频播放时的口型特征保持一致，从而得到待处理音视频。为了可以在算力有限的设备上，应用本技术方案，可以对待处理音视频中各视频帧进行筛选，将口型特征与预设口型特征不一致的待处理视频帧筛选出来，并将这些待处理视频帧作为关键视频帧序列。这样设置的好处在于：通过将关键视频帧序列筛选出来，可以实现当在算力有限的设备上触发相应特效功能时，可以直接调取相应的关键视频帧序列的效果，提高了特效视频的处理效率。

在本实施例中，可以通过预先训练完成的音频驱动模型对待显示面部图像和待选择音频或目标音频进行处理，从而得到待处理音视频。

需要说明的是，在应用本公开实施例的音频驱动模型之前，首先需要对待训练音频驱动模型进行训练，模型的具体训练过程可以为：获取至少一个第一训练样本，其中，第一训练样本中包括样本音频、样本面部图像以及与口型特征相一致的理论音视频；针对各第一训练样本，将当前第一训练样本中的样本音频和样本面部图像输入至待训练音频驱动模型中，得到实际音视频；基于实际音视频与当前第一训练样本中的理论音视频，确定损失值，并基于损失值对待训练音频驱动模型的模型参数进行修正，将待训练音频驱动模型中的损失函数收敛作为训练目标，得到训练完成的音频驱动模型。

在实际应用中，当面部特征中还包括面部五官特征时，确定待选择音频所对应的关键视频帧序列可以通过部署在服务端的神经网络模型来实现，可选的，确定关键视频帧序列，包括：基于预先训练好的面部驱动模型对待处理音视频和待处理面部图像进行处理，得到待处理面部图像中的五官特征存在变化的待选择音视频；依次确定待选择音视频中各音视频帧的五官面部特征；将五官面部特征与预设五官特征不一致的音视频帧，作为关键视频帧；基于各关键视频帧的时间戳，确定与待处理音频相对应的关键视频帧序列。

在本实施例中，面部驱动模型可以为预先训练完成的，用于实现面部图像各特征点驱动的神经网络模型。待处理面部图像可以为由用户通过摄像装置实时拍摄得到的面部图像，也可以是服务端从相关数据库中调取的预先存储的面部图像。待处理音视频可以为同时包括声音和影像的文件，并且声音与待处理音频或目标音频相一致，影像的口型特征与待显示面部图像的口型特征相一致。

在实际应用中，当待处理音视频和待处理面部图像输入至面部驱动模型进行处理后，模型即可输出与待处理面部图像中的五官特征存在变化的待选择音视频。待选择音视频是由若干个音视频帧组成的，可以根据待选择音频中各个语音单词的发音确定各音视频帧的当前五官面部特征，并将这些音视频帧中五官面部特征与预设五官特征不一致的视频帧筛选出来，以作为关键视频帧。由于各关键视频帧与待处理音频中播放时长相匹配，因此，每个关键视频帧均有其对应的时间戳，在确定关键视频帧之后，可以根据各关键视频帧的时间戳，确定与待处理音频相对应的关键视频帧序列，即按照时间戳顺序将各关键视频帧排列，并将关键视频帧序列与相应的待处理音频对应存储起来，以便可以在各待选择音频中确定目标音频时，可以从预先存储的各关键视频帧序列中调取与目标音频相对应的关键视频帧序列。这样设置的好处在于：可以基于部署在服务端的模型对各待选择音频进行处理，得到与待处理音频相对应的关键视频帧序列，从而当算力有限的设备触发相应特效功能时，可以直接调取相应的关键视频帧序列的效果，提高了特效视频的处理效率。

需要说明的是，在应用本公开实施例的面部驱动模型之前，首先需要对待训练面部驱动模型进行训练，模型的具体训练过程可以为：确定样本面部图像的基础面部五官特征点数据和样本音视频的参考面部五官特征点数据，并基于基础面部五官特征点数据和参考面部五官特征点数据，确定样本音视频的差异面部特征数据；基于各样本音视频帧的差异面部特征数据和基础面部五官特征点数据，确定样本面部图像在各样本音视频下所对应的期望面部五官特征点数据；将样本面部图像的基础面部五官特征点数据和相应的期望面部五官特征点数据输入至待训练面部驱动模型中，得到实际音视频帧；基于实际音视频帧和相应的样本音视频帧，确定损失值，并基于损失值对待训练面部驱动模型的模型参数进行修正，将待训练面部驱动模型中的损失函数收敛作为训练目标，得到训练完成的面部驱动模型。

S250、基于关键视频帧序列和目标面部图像，确定目标音频播放时目标面部图像的目标面部特征。

S260、基于目标面部特征和目标音频，确定目标特效音视频。

本公开实施例的技术方案，通过响应于特效触发操作，采集包括目标对象的目标面部图像，然后，确定目标音频，并确定与目标音频相对应的关键视频帧序列是否已存储，根据判断结果确定相应的关键视频帧序列，进一步的，基于关键视频帧序列和目标面部图像，确定目标音频播放时目标面部图像的目标面部特征，最后，基于目标面部特征和目标音频，确定目标特效音视频，解决了现有技术中通过音频驱动面部图像的面部特征进行变化时，面部图像的面部五官无法与音频同步发生变化的问题，或者，仅面部图像的口型特征发生变化的问题，实现了在算力有限的设备上，可以驱动目标面部图像的面部特征与目标音频播放时的面部特征相一致的效果。

图3是本公开实施例所提供的一种视频确定方法流程示意图，在前述实施例的基础上，在确定目标面部特征时，为了使得目标面部特征与目标音频播放时的面部特征相一致，可以根据目标面部图像的基础特征点和各关键视频帧的参考特征点之间的差异，确定目标音频播放时目标对象的目标面部特征。其具体的实施方式可以参见本实施例技术方案。其中，与上述实施例相同或者相应的技术术语在此不再赘述。

如图3所示，该方法具体包括如下步骤：

S310、响应于特效触发操作，采集包括目标对象的目标面部图像。

S320、确定目标音频，并确定与目标音频相对应的关键视频帧序列。

S330、基于关键视频帧序列中各关键视频帧的参考特征点数据和目标面部图像的基础特征点数据，确定与相应关键视频帧所对应的目标特征点数据。

其中，参考特征点数据对应于五官特征点数据或口型特征点数据。

在本实施例中，参考特征点数据可以为各关键视频帧中所显示的面部五官特征关键点的位置信息。示例性的，在嘴部周围设置至少一个关键点，将各关键视频帧中嘴部所对应的各关键点的位置信息作为参考特征点数据。基础特征点数据可以为目标面部图像中的目标对象在处于静止状态时面部五官特征关键点的位置信息，即目标对象在嘴部处于闭合状态时所对应的面部五官特征点位置信息。在实际应用中，在确定各关键视频帧中面部五官的参考特征点数据，以及目标面部图像的基础特征点数据之后，可以将两种特征点数据进行比对，以使目标面部图像的特征点数据与参考特征点数据相一致，可以将目标面部图像在此时所对应的特征点数据作为目标特征点数据。

可选的，基于关键视频帧序列中各关键视频帧的参考特征点数据和目标面部图像的基础特征点数据，确定与相应关键视频帧所对应的目标特征点数据，包括：对于各关键视频帧，确定当前关键视频帧的参考特征点数据和目标面部图像的基础特征点数据，确定与当前关键视频帧的差异特征数据；基于各关键视频帧的差异特征数据和基础特征点数据，确定目标面部图像在各关键视频帧下所对应的目标特征点数据。

在本实施例中，差异特征数据可以为基础特征点数据与参考特征点数据之间的差异值。示例性的，当参考特征点数据与基础特征点数据均为嘴部周围各关键点的位置信息时，确定这两种特征点数据中嘴部周围各关键点的位置偏移量，可以将该偏移量作为差异特征数据。

在实际应用中，对于各关键视频帧来说，确定当前关键视频帧的参考特征点数据以及目标面部图像的基础特征点数据，并基于这两种特征点数据确定当前视频帧的差异特征数据；进一步的，将目标面部图像的基础特征点数据与各关键视频帧的差异特征数据相结合，即可得到目标面部图像在各关键视频帧下所对应的目标特征点数据。这样设置的好处在于：可以分别确定各关键视频帧的参考特征点数据与基础特征点数据之间的差异，从而确定目标面部图像在各关键视频帧中的目标特征点数据，实现了可以一帧一帧地确定各差异特征数据的效果，为后续生成目标特效音视频奠定了基础。

S340、基于目标特征点数据、目标面部图像以及相应的基础特征点数据，确定目标音频播放时目标面部图像的目标面部特征。

在本实施例中，在确定目标面部图像在各关键视频帧下所对应的目标特征点数据后，为了得到完整的目标特效音视频，当目标特效音视频帧的时间戳与各关键视频帧的时间戳相一致时，可以基于当前关键视频帧的目标特征点数据对当前目标特效音视频帧中目标面部图像的面部特征点进行处理，以得到与目标特征点数据相一致的目标特效音视频帧；当目标特效音视频帧的时间戳与各关键视频帧的时间戳不一致时，则可以将目标面部图像的基础特征点数据作为目标特效音视频帧的特征点数据，从而最终确定目标音频播放时目标面部图像的目标面部特征。

在实际应用中，可以基于神经网络模型确定目标面部特征。可选的，基于目标特征点数据、目标面部图像以及相应的基础特征点数据，生成目标对象的口型特征与目标音频相一致的目标特效音视频，包括：将目标特征点数据、目标面部图像以及相应的基础特征点数据输入至预先训练得到的特效音视频生成模型中，得到目标对象的目标面部特征。

其中，特效音视频生成模型可以是预先训练完成的，用于将特定音频和特定图像结合起来的神经网络模型。

需要说明的是，在应用本公开实施例的特效音视频生成模型之前，首先需要对待训练特效音视频生成模型进行训练，在对模型进行训练之前，可以构建多个训练样本，以基于训练样本来训练模型。为了提高模型的准确性，可以尽可能多而丰富的构建训练样本。

基于此，在上述技术方案的基础上，还包括：确定至少一个待训练音频在不同语言类型下所对应的待训练音画同步视频；基于待训练音画同步视频和不同待选择对象的待选择面部图像，确定不同待选择对象在相应待训练音画同步视频下的第一关键帧序列；获取待应用对象的待应用面部图像、第一关键帧序列和待应用面部图像所对应的待训练面部特征数据，构建训练特效音视频生成模型的训练样本。

在本实施例中，对于同一待训练音频来说，在不同语言类型下，该待训练音频中各个单词进行发音时的面部特征不同。示例性的，对于同一段新闻朗读音频，采用英语进行朗读与采用中文进行朗读时所对应的面部特征是不同的。相应的，待训练音画同步视频可以为采用不同语言类型对待训练音频中的各个单词进行发音时，音频所对应的面部特征与画面中显示的面部特征处于同步状态时的视频。待选择面部图像可以为用户通过摄像装置拍摄得到的，也可以为从预先存储的存储空间中获取得到的，同时，各待选择面部图像中均包括不同的待选择对象。需要说明的是，为了得到对于不同面部特征的对象均适用的特效音视频生产模型，在构建训练样本时，可以选择不同面部特征的待选择对象，可选的，可以是处于不同国家的待选择对象，或者，可以是不同年龄的待选择对象。进一步的，对不同待选择对象的待选择面部图像与待训练音画同步视频进行处理，即可得到不同待选择对象在各待训练音画同步视频下若干个关键视频帧，从而基于这些关键视频帧构建第一关键视频帧序列。

其中，待应用面部图像可以为各待选择面部图像的任意一幅面部图像，也可以为其他面部图像。待训练面部特征数据可以为待应用面部图像中待应用对象的基础面部特征数据。

在实际应用中，确定待应用对象的待应用面部图像以及待应用面部图像所对应的待训练面部特征数据，以基于待应用面部图像、第一关键视频帧序列和待训练面部特征数据，构建训练特效音视频生成模型的训练样本。这样设置的好处在于：可以使得部署于客户端上的特效音视频生成模型对不同语言类型下的音频和面部图像进行处理，从而生成丰富多样的特效音视频，并且，提高了模型的处理效率，提升了用户体验。

在本实施例中，在构建训练样本之后，即可对特效音视频生成模型进行训练，其具体训练过程可以为：获取多个训练样本；对于各训练样本，基于当前训练样本中第一关键视频帧序列中各关键视频帧的参考面部特征数据和待应用面部图像的基础面部特征数据，确定第一关键帧序列的差异特征数据，并基于差异特征数据和基础面部特征数据，确定待应用面部图像在各关键视频帧下的期望面部特征数据；将当前训练样本中待应用面部图像和期望面部特征数据输入至待训练特效音视频生成模型中，得到待应用面部图像的实际面部特征数据；基于实际面部特征数据和待训练面部特征数据，确定损失值，并基于损失值对待训练特效音视频生成模型的模型参数进行修正，将待训练特效音视频生成模型中的损失函数收敛作为训练目标，得到训练完成的特效音视频生成模型。

在实际应用中，在得到训练完成的特效音视频生成模型后，将目标特征点数据、目标面部图像以及相应的基础特征点数据输入至特效音视频生成模型中，即可得到目标对象的目标面部特征。这样设置的好处在于：可以通过部署于客户端上的特效音视频生成模型实时对目标面部图像和目标音频进行特效处理，从而得到相应的目标面部特征，提高了目标特效音视频的生成效率，提升了用户体验。

S350、基于目标面部特征和目标音频，确定目标特效音视频。

本公开实施例的技术方案，通过响应于特效触发操作，采集包括目标对象的目标面部图像，然后，确定目标音频，根据预先选择的与目标音频相对应的目标语言类型，确定与目标音频相对应的关键视频帧序列，进一步的，基于关键视频帧序列中各关键视频帧的参考特征点数据和目标面部图像的基础特征点数据，确定与相应关键视频帧所对应的目标特征点数据，基于目标特征点数据、目标面部图像以及相应的基础特征点数据，确定目标音频播放时目标面部图像的目标面部特征，最后，基于目标面部特征和目标音频，确定目标特效音视频，解决了现有技术中通过音频驱动面部图像的面部特征进行变化时，面部图像的面部五官无法与音频同步发生变化的问题，或者，仅面部图像的口型特征发生变化的问题，实现了在算力有限的设备上，可以驱动目标面部图像的面部特征与目标音频播放时的面部特征相一致的效果，并且，通过对目标面部图像的基础面部特征点数据和关键视频帧序列的参考特征点数据进行处理，进一步提高了目标面部特征的准确率，为后续生成目标特效音视频奠定了基础。

图4是本公开实施例所提供的一种视频确定装置结构示意图，如图4所示，所述装置包括：面部图像采集模块410、目标音频确定模块420、目标面部特征确定模块430以及目标特效音视频确定模块440。

面部图像采集模块410，用于响应于特效触发操作，采集包括目标对象的目标面部图像；

目标音频确定模块420，用于确定目标音频，并确定与所述目标音频相对应的关键视频帧序列；

目标面部特征确定模块430，用于基于所述关键视频帧序列和所述目标面部图像，确定所述目标音频播放时所述目标面部图像的目标面部特征；

目标特效音视频确定模块440，用于基于所述目标面部特征和所述目标音频，确定所述目标特效音视频。

在上述各技术方案的基础上，所述特效触发操作包括下述至少一种：触发特效道具；入镜画面中包括目标对象；音频信息触发特效唤醒词；当前肢体动作与预设特效动作相一致。

在上述各技术方案的基础上，目标音频确定模块420包括目标音频确定单元，用于显示至少一个待选择音频；基于第一预设时长内对所述至少一个待选择音频的触发操作，确定所述目标音频；或，接收上传的待处理音频，作为所述目标音频。

在上述各技术方案的基础上，所述装置还包括：关键视频帧序列确定模块。

关键视频帧序列确定模块，用于根据预先选择的与所述目标音频相对应的目标语言类型，确定与所述目标音频相对应的关键视频帧序列。

在上述各技术方案的基础上，目标音频确定模块420包括关键视频帧调取子模块和目标音频处理子模块。

关键视频帧调取子模块，用于从预先确定的关键帧序列库中调取与所述目标音频相对应的关键视频帧序列；其中，所述关键帧序列库中包括对各待选择音频处理后所对应的关键视频帧序列；目标音频处理子模块，用于对所述目标音频进行处理，以得到与所述目标音频相对应的关键帧序列；其中，所述关键视频帧序列中包括至少一个视频帧，所述视频帧中用户的面部特征与预设面部特征不一致。

在上述各技术方案的基础上，所述面部特征中包括口型特征，关键视频帧调取子模块包括面部图像获取单元、待处理音视频确定单元和关键视频帧序列确定单元。

面部图像获取单元，用于获取包括待显示面部图像；待处理音视频确定单元，用于基于所述待显示面部图像、所述待选择音频或所述目标音频，得到所述待显示面部图像的口型特征与所述待处理音频或所述目标音频播放时的口型特征相一致的待处理音视频；关键视频帧序列确定单元，用于将所述待处理音视频中各口型特征与预设口型特征不一致的待处理视频帧，作为所述关键帧序列。

在上述各技术方案的基础上，所述面部特征中还包括面部五官特征，关键视频帧调取子模块包括待处理面部图像处理单元、关键视频帧确定单元和关键视频帧序列确定单元。

待处理面部图像处理单元，用于基于预先训练好的面部驱动模型对所述待处理音视频和待处理面部图像进行处理，得到所述待处理面部图像中的五官特征存在变化的待选择音视频；

关键视频帧确定单元，用于将所述五官面部特征与预设五官特征不一致的音视频帧，作为所述关键视频帧；

关键视频帧序列确定单元，用于基于各关键视频帧的时间戳，确定与所述待处理音频相对应的关键视频帧序列。

在上述各技术方案的基础上，目标面部特征确定模块430包括目标特征点数据确定子模块和目标面部特征确定子模块。

目标特征点数据确定子模块，用于基于所述关键视频帧序列中各关键视频帧的参考特征点数据和所述目标面部图像的基础特征点数据，确定与相应关键视频帧所对应的目标特征点数据；

目标面部特征确定子模块，用于基于所述目标特征点数据、所述目标面部图像以及相应的基础特征点数据，确定所述目标音频播放时所述目标面部图像的目标面部特征；其中，所述参考特征点数据对应于五官特征点数据或口型特征点数据。

在上述各技术方案的基础上，目标特征点数据确定子模块包括差异特征数据确定单元和目标特征点数据确定单元。

差异特征数据确定单元，用于对于各关键视频帧，确定当前关键视频帧的参考特征点数据和所述目标面部图像的基础特征点数据，确定与所述当前关键视频帧的差异特征数据；

目标特征点数据确定单元，用于基于各关键视频帧的差异特征数据和所述基础特征点数据，确定所述目标面部图像在各关键视频帧下所对应的目标特征点数据。

在上述各技术方案的基础上，目标面部特征确定子模块，还用于将所述目标特征点数据、所述目标面部图像以及相应的基础特征点数据输入至预先训练得到的特效音视频生成模型中，得到所述目标对象的目标面部特征。

在上述各技术方案的基础上，所述装置还包括：待训练音画同步视频确定模块、第一关键视频帧序列确定模块和训练样本构建模块。

待训练音画同步视频确定模块，用于确定至少一个待训练音频在不同语言类型下所对应的待训练音画同步视频；

第一关键视频帧序列确定模块，用于基于所述待训练音画同步视频和不同待选择对象的待选择面部图像，确定不同待选择对象在相应待训练音画同步视频下的第一关键视频帧序列；

训练样本构建模块，用于获取待应用对象的待应用面部图像、第一关键视频帧序列和所述待应用面部图像所对应的待训练面部特征数据，构建训练所述特效音视频生成模型的训练样本。

本公开实施例所提供的视频确定装置可执行本公开任意实施例所提供的视频确定方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本公开实施例的保护范围。

图5为本公开实施例所提供的一种电子设备的结构示意图。下面参考图5，其示出了适于用来实现本公开实施例的电子设备(例如图5中的终端设备或服务器)500的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。编辑/输出(I/O)接口505也连接至总线504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM 502被安装。在该计算机程序被处理装置501执行时，执行本公开实施例的方法中限定的上述功能。

本公开实施例提供的电子设备与上述实施例提供的视频确定方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例与上述实施例具有相同的有益效果。

本公开实施例提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例所提供的视频确定方法。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：响应于特效触发操作，采集包括目标对象的目标面部图像；

或者，上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：响应于特效触发操作，采集包括目标对象的目标面部图像；

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，【示例一】提供了一种视频确定方法，该方法包括：

响应于特效触发操作，采集包括目标对象的目标面部图像；

根据本公开的一个或多个实施例，【示例二】提供了一种视频确定方法，该方法，还包括：

可选的，触发特效道具；

入镜画面中包括目标对象；

音频信息触发特效唤醒词；

当前肢体动作与预设特效动作相一致。

根据本公开的一个或多个实施例，【示例三】提供了一种视频确定方法，该方法，还包括：

可选的，显示至少一个待选择音频；

基于第一预设时长内对所述至少一个待选择音频的触发操作，确定所述目标音频；或，

接收上传的待处理音频，作为所述目标音频。

根据本公开的一个或多个实施例，【示例四】提供了一种视频确定方法，该方法，还包括：

可选的，根据预先选择的与所述目标音频相对应的目标语言类型，确定与所述目标音频相对应的关键视频帧序列。

根据本公开的一个或多个实施例，【示例五】提供了一种视频确定方法，该方法，还包括：

可选的，从预先确定的关键视频帧序列库中调取与所述目标音频相对应的关键视频帧序列；其中，所述关键视频帧序列库中包括对各待选择音频处理后所对应的关键视频帧序列；或，

对所述目标音频进行处理，以得到与所述目标音频相对应的关键视频帧序列；

其中，所述关键视频帧序列中包括至少一个视频帧，所述视频帧中用户的面部特征与预设面部特征不一致。

根据本公开的一个或多个实施例，【示例六】提供了一种视频确定方法，该方法，还包括：

可选的，所述面部特征中包括口型特征，获取包括待显示面部图像；

基于所述待显示面部图像、所述待选择音频或所述目标音频，得到所述待显示面部图像的口型特征与所述待处理音频或所述目标音频播放时的口型特征相一致的待处理音视频；

将所述待处理音视频中各口型特征与预设口型特征不一致的待处理视频帧，作为所述关键帧序列。

根据本公开的一个或多个实施例，【示例七】提供了一种视频确定方法，该方法，还包括：

可选的，基于预先训练好的面部驱动模型对所述待处理音视频和待处理面部图像进行处理，得到所述待处理面部图像中的五官特征存在变化的待选择音视频；

依次确定所述待选择音视频中各音视频帧的五官面部特征；

将所述五官面部特征与预设五官特征不一致的音视频帧，作为所述关键视频帧；

基于各关键视频帧的时间戳，确定与所述待处理音频相对应的关键视频帧序列。

根据本公开的一个或多个实施例，【示例八】提供了一种视频确定方法，该方法，还包括：

可选的，基于所述关键视频帧序列中各关键视频帧的参考特征点数据和所述目标面部图像的基础特征点数据，确定与相应关键视频帧所对应的目标特征点数据；

基于所述目标特征点数据、所述目标面部图像以及相应的基础特征点数据，确定所述目标音频播放时所述目标面部图像的目标面部特征；

其中，所述参考特征点数据对应于五官特征点数据或口型特征点数据。

根据本公开的一个或多个实施例，【示例九】提供了一种视频确定方法，该方法，还包括：

可选的，对于各关键视频帧，确定当前关键视频帧的参考特征点数据和所述目标面部图像的基础特征点数据，确定与所述当前关键视频帧的差异特征数据；

基于各关键视频帧的差异特征数据和所述基础特征点数据，确定所述目标面部图像在各关键视频帧下所对应的目标特征点数据。

根据本公开的一个或多个实施例，【示例十】提供了一种视频确定方法，该方法，还包括：

可选的，将所述目标特征点数据、所述目标面部图像以及相应的基础特征点数据输入至预先训练得到的特效音视频生成模型中，得到所述目标对象的目标面部特征。

根据本公开的一个或多个实施例，【示例十一】提供了一种视频确定方法，该方法，还包括：

可选的，确定至少一个待训练音频在不同语言类型下所对应的待训练音画同步视频；

基于所述待训练音画同步视频和不同待选择对象的待选择面部图像，确定不同待选择对象在相应待训练音画同步视频下的第一关键视频帧序列；

获取待应用对象的待应用面部图像、第一关键视频帧序列和所述待应用面部图像所对应的待训练面部特征数据，构建训练所述特效音视频生成模型的训练样本。

根据本公开的一个或多个实施例，【示例十二】提供了一种视频确定装置，该装置包括：

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种视频确定方法，其特征在于，应用于客户端中，包括：

响应于特效触发操作，采集包括目标对象的目标面部图像；

2.根据权利要求1所述的方法，其特征在于，所述特效触发操作包括下述至少一种：

触发特效道具；

入镜画面中包括目标对象；

音频信息触发特效唤醒词；

当前肢体动作与预设特效动作相一致。

3.根据权利要求1所述的方法，其特征在于，所述确定目标音频，包括：

显示至少一个待选择音频；

接收上传的待处理音频，作为所述目标音频。

4.根据权利要求1所述的方法，其特征在于，还包括：

根据预先选择的与所述目标音频相对应的目标语言类型，确定与所述目标音频相对应的关键视频帧序列。

5.根据权利要求1或4所述的方法，其特征在于，所述确定与所述目标音频相对应的关键视频帧序列，包括：

从预先确定的关键视频帧序列库中调取与所述目标音频相对应的关键视频帧序列；其中，所述关键视频帧序列库中包括对各待选择音频处理后所对应的关键视频帧序列；或，

6.根据权利要求5所述的方法，其特征在于，所述面部特征中包括口型特征，确定关键视频帧序列，包括：

获取包括待显示面部图像；

基于所述待显示面部图像、待选择音频或所述目标音频，得到所述待显示面部图像的口型特征与待处理音频或所述目标音频播放时的口型特征相一致的待处理音视频；

7.根据权利要求6所述的方法，其特征在于，所述面部特征中还包括面部五官特征，确定所述关键视频帧序列，包括：

基于预先训练好的面部驱动模型对所述待处理音视频和待处理面部图像进行处理，得到所述待处理面部图像中的面部五官特征存在变化的待选择音视频；

依次确定所述待选择音视频中各音视频帧的面部五官特征；

8.根据权利要求1所述的方法，其特征在于，所述基于所述关键视频帧序列和所述目标面部图像，确定所述目标音频播放时所述目标面部图像的目标面部特征，包括：

基于所述关键视频帧序列中各关键视频帧的参考特征点数据和所述目标面部图像的基础特征点数据，确定与相应关键视频帧所对应的目标特征点数据；

9.根据权利要求8所述的方法，其特征在于，所述基于所述关键视频帧序列中各关键视频帧的参考特征点数据和所述目标面部图像的基础特征点数据，确定与相应关键视频帧所对应的目标特征点数据，包括：

对于各关键视频帧，确定当前关键视频帧的参考特征点数据和所述目标面部图像的基础特征点数据，确定与所述当前关键视频帧的差异特征数据；

10.根据权利要求8所述的方法，其特征在于，所述基于所述目标特征点数据、所述目标面部图像以及相应的基础特征点数据，确定所述目标音频播放时所述目标面部图像的目标面部特征，包括：

将所述目标特征点数据、所述目标面部图像以及相应的基础特征点数据输入至预先训练得到的特效音视频生成模型中，得到所述目标对象的目标面部特征。

11.根据权利要求10所述的方法，其特征在于，还包括：

确定至少一个待训练音频在不同语言类型下所对应的待训练音画同步视频；

12.一种视频确定装置，其特征在于，配置于客户端中，包括：

13.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-11中任一所述的视频确定方法。

14.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-11中任一所述的视频确定方法。