CN117241079A

CN117241079A - 视频互动方法、装置、存储介质及电子设备

Info

Publication number: CN117241079A
Application number: CN202311103189.2A
Authority: CN
Inventors: 王晓童
Original assignee: Shenzhen Skyworth RGB Electronics Co Ltd
Current assignee: Shenzhen Skyworth RGB Electronics Co Ltd
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2023-12-15

Abstract

本申请公开了一种视频互动方法、装置、存储介质及电子设备，应用于显示设备，该方法包括：采集用户人脸对应的第一面部特征，识别所述显示设备播放的视频中的角色人脸，并获取所述角色人脸对应的第二面部特征，从所述角色人脸中确定待换脸的目标角色人脸；接收对所述目标角色人脸的换脸指令，响应于所述换脸指令，获取所述目标角色人脸对应的目标第二面部特征，通过所述第一面部特征替换所述目标第二面部特征。本申请中用户观看视频时，可以将视频中的角色人物的脸替换为自己的脸，能够使用户与显示设备中播放的视频中的角色人物进行互动，提高观看视频的趣味性。

Description

视频互动方法、装置、存储介质及电子设备

技术领域

本申请涉及互联网技术领域，具体涉及一种视频互动方法、装置、存储介质及电子设备。

背景技术

随着互联网和数字技术的快速发展，电视追剧已成为人们最喜欢的娱乐方式之一。然而，在观看电视剧时，观众通常只能以旁观者的身份观看情节，无法真正地投入到其中。

发明内容

本申请实施例提供一种视频互动方法、装置、存储介质及电子设备，能够使用户与显示设备中播放的视频中的角色人物进行互动，提高观看视频的趣味性。

第一方面，本申请实施例提供一种视频互动方法，应用于显示设备，包括摄像头，包括：

采集用户人脸对应的第一面部特征；

识别所述显示设备播放的视频中的角色人脸，并获取所述角色人脸对应的第二面部特征；

从所述角色人脸中确定待换脸的目标角色人脸；

接收对所述目标角色人脸的换脸指令；

响应于所述换脸指令，获取所述目标角色人脸对应的目标第二面部特征，通过所述第一面部特征替换所述目标第二面部特征。

在一些实施例中，所述从所述角色人脸中确定待换脸的目标角色人脸，包括：

获取用户的历史换脸记录；

根据所述历史换脸记录获取用户进行换脸操作的偏好信息；

根据所述偏好信息推荐待换脸的候选角色人脸；

获取用户针对所述候选角色人脸的选取操作；

根据所述选取操作确定所述目标角色人脸。

获取用户的历史换脸记录；

根据所述历史换脸记录获取用户进行换脸操作的偏好信息；

根据所述偏好信息推荐待换脸的候选角色人脸；

获取用户针对所述候选角色人脸的选取操作；

根据所述选取操作确定所述目标角色人脸。

在一些实施例中，，所述从角色人脸中确定待换脸的目标角色人脸，包括：

获取用户的眼球运动轨迹数据；

根据所述眼球运动轨迹数据确定所述用户在所述视频上的注视位置；

若检测到所述注视位置包括角色人脸，则将所述注视位置处的角色人脸作为所述目标角色人脸。

在一些实施例中，所述从角色人脸中确定待换脸的目标角色人脸，包括：

连续拍摄多帧用户的图像；

根据所述图像确定用户的第一运动动作；

识别所述角色人脸对应角色人物的第二运动动作；

若所述第一运动动作与所述第二运动动作的相似度达到预设相似度阈值，则将所述角色人脸作为所述目标角色人脸。

在一些实施例中，在通过所述第一面部特征替换所述目标第二面部特征之后，还包括：

获取面部特征替换之后的所述视频相对于面部特征替换之前的所述视频的帧率变化信息；

根据所述帧率变化信息对所述视频进行插帧处理，以使所述视频的音视频同步。

在一些实施例中，在采集用户人脸对应的第一面部特征之后，还包括：

将所述第一面部特征存储在预设的本地存储空间

第二方面，本申请实施例还提供一种视频互动装置，包括：

采集单元，用于采集用户人脸对应的第一面部特征；

获取单元，用于识别所述显示设备播放的视频中的角色人脸，并获取所述角色人脸对应的第二面部特征；

确定单元，用于从所述角色人脸中确定待换脸的目标角色人脸；

接收单元，用于接收对所述目标角色人脸的换脸指令；

换脸单元，用于响应于所述换脸指令，获取所述目标角色人脸对应的目标第二面部特征，通过所述第一面部特征替换所述目标第二面部特征。

第三方面，本申请实施例还提供一种计算机可读的存储介质，其上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如本申请任一实施例提供的视频互动方法。

第四方面，本申请实施例还提供一种电子设备，包括处理器和存储器，所述存储器有计算机程序，所述处理器通过调用所述计算机程序，用于执行如本申请任一实施例提供的视频互动方法。

本申请实施例提供的技术方案，应用于显示设备，通过采集用户人脸对应的第一面部特征，识别所述显示设备播放的视频中的角色人脸，并获取所述角色人脸对应的第二面部特征，从所述角色人脸中确定待换脸的目标角色人脸；接收对所述目标角色人脸的换脸指令，响应于所述换脸指令，获取所述目标角色人脸对应的目标第二面部特征，通过所述第一面部特征替换所述目标第二面部特征。本申请中用户观看视频时，可以将视频中的角色人物的脸替换为自己的脸，能够使用户与显示设备中播放的视频中的角色人物进行互动，提高观看视频的趣味性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的视频互动方法的一种流程示意图。

图2为本申请实施例提供的视频互动装置的结构示意图。

图3为本申请实施例提供的电子设备的第一种结构示意图。

图4为本申请实施例提供的电子设备的第二种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本申请的保护范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例提供一种视频互动方法，该视频互动方法的执行主体可以是本申请实施例提供的视频互动装置，或者集成了该视频互动装置的电子设备，其中该视频互动装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、电视、或者台式电脑等设备。

请参阅图1，图1为本申请实施例提供的视频互动方法的一种流程示意图。本申请实施例提供的视频互动方法，应用于显示设备，该方法的具体流程可以包括如下步骤：

S110、采集用户人脸对应的第一面部特征。

例如，以显示设备为电视举例，当用户观看电视时，可以通过电视自带的摄像头获取观看电视的用户的人脸图像，然后根据人脸图像获取对应的面部特征，也即第一面部特征。

本申请中，可以通过内置于显示设备的摄像头或外接的USB摄像头对用户人脸图像进行采集。

在根据人脸图像获取对应的面部特征时可以通过图像特征提取技术从人脸图像中提取面部特征。

本申请中在获取用户对应的面部特征时，将用户的面部特征存储在本地存储设备中，以避免数据被网络黑客和第三方侵犯，保证数据的安全性。本申请中在存储用户对应的面部特征时可以将用户的面部特征存储在本地存储设备中的预设本地存储空间中。

在一些实施例中，显示设备在获取用户的面部特征时，可以识别出用户的脸部图像之后，对脸部图像进行截取，仅对截取的脸部图像进行面部特征提取处理。

S120、识别所述显示设备播放的视频中的角色人脸，并获取所述角色人脸对应的第二面部特征。

本实施例中，显示设备在播放视频时，可以自动识别播放的视频中的角色人脸，并获取角色人脸的人脸图像，根据角色人脸的人脸图像获取对应角色人脸的面部特征，也即第二面部特征。

在获取角色人脸对应的面部特征时，同样可以通过图像特征提取技术从角色人脸图像中提取面部特征。具体地，可以截取视频中每一角色人脸对应的脸部图像，并分别提取每一脸部图像对应的面部特征，从而得到每一角色人脸对应的第二面部特征。

S130、从所述角色人脸中确定待换脸的目标角色人脸。

本实施例中，用户可以触发换脸角色确定指令，当用户触发换脸角色确定指令时，此时视频暂停，并弹跳出换脸设置界面，该换脸设置界面中包括可以进行换脸的角色人脸，用户可以根据自己的喜好，选取自己想要替换成的角色，当选取完毕之后，显示设备接收到用户想要换脸的目标角色人脸。

S140、接收对所述目标角色人脸的换脸指令。

然后，用户针对选取好的目标角色人脸下达换脸指令，显示设备接收到对目标角色人脸的该换脸指令。

其中，换脸指令可以通过多种方式触发，如通过虚拟按键的方式触发，通过物理按键的方式触发，通过语音指令的方式触发等。此外，还可以通过特定手势触发，该特定手势可以是剪刀、拳头、布对应的手部姿势，例如当用户比剪刀手势时触发对该目标角色人脸的换脸指令。

S150、响应于所述换脸指令，获取所述目标角色人脸对应的目标第二面部特征，通过所述第一面部特征替换所述目标第二面部特征。

本实施例中，当显示设备接收到对目标角色人脸的换脸指令时，获取目标角色人脸对应的面部特征，也即目标第二面部特征，通过第一面部特征替换目标第二面部特征，以实现角色人脸替换为用户人脸。

本申请中利用深度学习技术实现自动换脸，将目标角色人脸的面部特征自动替换成用户人脸的面部特征。

具体地，本申请中通过图像处理技术和人工智能算法将用户的面部特征与角色的面部特征进行对应和融合，以生成一个新的合成图像。通过实时的面部特征匹配，可以更准确地将用户的表情、眼神等细节融入到角色的表演中，增强观众的沉浸感和参与感。

同样以步骤S130所举的例子为例，当显示设备接收到针对目标角色人脸的换脸指令后，响应该换脸指令，并获取目标角色人脸对应的目标第二面部特征，通过第一面部特征替换该目标第二面部特征，并同时从该视频的暂停节点处继续播放该视频，此时，用户就可以观察到角色人脸被替换成自己的人脸。

具体实施时，本申请不受所描述的各个步骤的执行顺序的限制，在不产生冲突的情况下，某些步骤还可以采用其它顺序进行或者同时进行。

由上可知，本申请实施例提供的视频互动方法，应用于显示设备，显示设备采集用户人脸对应的第一面部特征，识别所述显示设备播放的视频中的角色人脸，并获取所述角色人脸对应的第二面部特征，从所述角色人脸中确定待换脸的目标角色人脸；接收对所述目标角色人脸的换脸指令，响应于所述换脸指令，获取所述目标角色人脸对应的目标第二面部特征，通过所述第一面部特征替换所述目标第二面部特征。本申请中用户观看视频时，可以将视频中的角色人物的脸替换为自己的脸，能够使用户与显示设备中播放的视频中的角色人物进行互动，提高观看视频的趣味性。

在一些实施例中，步骤S130“从所述角色人脸中确定待换脸的目标角色人脸”，可以包括以下步骤：

S1310、获取用户的历史换脸记录；

其中，历史换脸记录包括用户换脸的角色人物、角色类型以及角色风格等属性。

本实施例中，可以在每次用户进行换脸操作时，将用户的换脸操作记录下来作为用户的历史换脸记录。

S1320、根据所述历史换脸记录获取用户进行换脸操作的偏好信息；

例如，通过历史换脸记录可以获取用户对某一类型的角色人物换脸频率较高，则说明用户对该类型角色人物偏好，从而获取到用户进行换脸操作的偏好信息。

此外，在获取偏好信息时，还可以获取用户的基本信息和历史行为数据，其中，用户的基本信息包括用户的年龄、性别，地址、教育水平、兴趣爱好等信息。历史行为数据是指用户在过去的某个时间段内所使用多媒体资源的行为记录。这些行为记录可以包括以下浏览记录、搜索记录、购买记录、交互记录、设备信息等。例如，当多媒体资源为视频时，历史行为数据可以是观看记录、搜索记录、点赞记录、评论记录等等。通过历史换脸记录、用户的基本信息以及历史行为数据进行模型训练，生成已训练的偏好模型。通过该偏好模型来获取用户的偏好信息。

S1330、根据所述偏好信息推荐待换脸的候选角色人脸；

本实施例中，当获取到用户的偏好信息时，可以根据偏好信息向用户推荐待换脸的候选角色人脸。

本实施例中，在获取待换脸的候选角色人脸时，而可以通过偏好模型对角色人脸进行筛选，从而获取用户可能感兴趣的角色人脸作为候选角色人脸，推荐给用户，以便于用户更快地选取到自己感兴趣的角色人脸。

S1340、获取用户针对所述候选角色人脸的选取操作；

本实施例中，用户可以触发换脸角色确定指令，当用户触发换脸角色确定指令时，此时视频暂停，并弹跳出换脸设置界面，该换脸设置界面中包括可以进行换脸的角色人脸，用户可以根据自己的喜好，通过选取操作选取自己想要替换成的角色，当选取完毕之后，显示设备接收到用户想要换脸的目标角色人脸。

其中，选取操作可以是触屏操作，也可以是通过遥控设备间接进行的选取操作。

S1350、根据所述选取操作确定所述目标角色人脸。

本实施例中，用户可以对显示设备推荐的角色人脸进行选取操作，根据选取操作来确定自己想要替换的目标角色人脸，当用户选取完毕时，显示设备接收到用户确定的想要换脸的目标角色人脸。

S1360、获取用户的眼球运动轨迹数据；

其中，该眼球运动轨迹数据包括在用户观看视频时，基于用户的眼球运动轨迹确定出的视线焦点对应在视频中的相对位置。

S1370、根据所述眼球运动轨迹数据确定所述用户在所述视频上的注视位置；

本实施例中，根据眼球运动轨迹数据可以确定用户在视频上的注视位置。

S1380、若检测到所述注视位置包括角色人脸，则将所述注视位置处的角色人脸作为所述目标角色人脸。

例如，当用户的眼球运动轨迹数据反映用户的视线(也即注视位置)集中在某一角色人脸对应的位置，则说明该用户对当前注视的角色人物感兴趣，则将该角色人物作为目标角色人物。

在一实施例中，为了避免误判，可以设置当用户的注视位置停留在某一角色人物所在的显示区域超过预设时长时，将该角色人物对应的角色人脸作为目标角色人脸。其中，该预设时长可以根据需要进行设定，例如1秒钟、或2秒钟。

此外，在一实施例中，还可以在用户观看视频时提示用户盯某一角色人物达到预设时长即可触发对该角色人物的换脸指令，使得用户能更方便地触发换脸指令以及确定想要进行换脸的角色人脸，提高用户与视频进行互动的趣味性。

S13010、连续拍摄多帧用户的图像；

本申请中，还可以通过显示设备携带的摄像头获取连续时间内拍摄的多帧用户的图像，该多帧用户的图像为实时拍摄的图像。

S13020、根据所述图像确定用户的第一运动动作；

然后，根据摄像头获取到的实时的多帧用户的图像来确定用户的运动动作作为第一运动动作。

S13030、识别所述角色人脸对应角色人物的第二运动动作；

并且，还获取视频中角色人脸对应的角色人物的运动动作作为第二运动动作。

S13040、若所述第一运动动作与所述第二运动动作的相似度达到预设相似度阈值，则将所述角色人脸作为所述目标角色人脸。

其中，预设相似度阈值可以根据需要进行设定，例如，该预设相似度阈值可以设置为80％。

检测该第一运动动作与第二运动动作的相似度是否达到预设相似度阈值，若达到该预设相似度阈值，则将该角色人脸作为目标角色人脸。

例如，当视频中的角色人物在做剪刀手的运动动作时，则获取到该角色人物的第二运动动作为剪刀手，若用户同时做该剪刀手动作，则获取到用户的第一运动动作为剪刀手，此时，第一运动动作与第二运动动作之间的相似度达到了预设相似度阈值，则触发对该角色人物的换脸指令，使得用户能更方便地触发换脸指令以及确定想要进行换脸的角色人物，提高用户与视频进行互动的趣味性。

又例如，当视频中的角色人物在做奔跑的运动动作时，则获取到该角色人物的第二动作动作为奔跑，若用户同时做该奔跑的动作，则获取到用户的第一运动动作为奔跑，此时，第一运动动作与第二运动动作之间的相似度达到了预设相似度阈值，则触发对该角色人物的换脸指令，使得用户能更方便地触发换脸指令以及确定想要进行换脸的角色人物，提高用户与视频进行互动的趣味性。

在一些实施例中，步骤S150中“通过所述第一面部特征替换所述目标第二面部特征”，还可以包括以下步骤：

S160、获取面部特征替换之后的所述视频相对于面部特征替换之前的所述视频的帧率变化信息；

需要说明的是，在将第一面部特征替换为目标第二面部特征时，由于处理面部特征的替换操作需要一定的时间，因此可能会导致视频的帧率发生变化，使得视频的音视频不同步。

S170、根据所述帧率变化信息对所述视频进行插帧处理，以使所述视频的音视频同步。

本实施例中，为了解决音视频不同步的问题，根据该帧率变化信息进行插帧处理，其中，插帧处理可以使用帧间插值技术，通过在视频帧之间插入额外的帧来平滑视频的变化，从而实现音视频同步。

此外，还可以调整音频播放速度以及视频播放速度，以同步音视频。例如将视频的播放速度变慢或加快，同时相应地调整音频的播放速度，以确保二者的同步性。

在一些实施例中，步骤S150中“通过所述第一面部特征替换所述目标第二面部特征”，可以包括以下步骤：

S1510、确定所述第一面部特征中待替换的第一局部特征；

其中，局部特征可以是人脸中的五官特征，例如，眼睛、鼻子、嘴巴等。

本实施例中，可以确定第一面部特征中的待替换的五官特征作为第一局部特征。也即，本申请中还可以仅替换脸部的某一局部特征，例如，仅替换眼睛部位的面部特征，或者仅替换鼻子部分的面部特征。

S1520、确定所述目标第二面部特征中对应所述第一局部特征的第二局部特征；

其中，对应第一局部特征的第二局部特征也即，例如，若第一局部特征为眼睛特征(对应用户的眼睛特征)，则第二局部特征同样为眼睛特征(对应角色人脸的眼睛特征)。

S1530、通过所述第一局部特征替换所述第二局部特征。

本实例，通过所述第一局部特征替换所述第二局部特征。

例如，将角色人脸的眼睛特征替换为用户人脸的眼睛特征。

在一些实施例中，还可以采集用户给视频中的角色人物进行配音的音频，并将视频中角色人物的配音替换为用户配音的音频，并进行音视频同步处理，使得用户配音的音频可以与换脸后的视频画面进行同步，使用户的声音与视频画面中展现的嘴部运动保持一致，增强观众的参与感和沉浸感。

在一些实施例中，在步骤S110“采集用户人脸对应的第一面部特征”之后，可以包括以下步骤：

S1110、将所述第一面部特征存储在预设的本地存储空间

本申请中，在存储用户对应的面部特征时可以将用户的面部特征存储在本地存储设备中的预设本地存储空间中。

在一具体的应用场景中，本申请可以应用于电视换脸追剧系统，该电视换脸追剧系统中的显示设备为电视机，该系统中还包括摄像头，可用于捕捉用户的面部特征。其中，摄像头可以是内置于电视机中的摄像头或外接的USB摄像头。

该电视机中还可以包括显卡，用于处理图像数据。显卡可以是独立显卡或集成显卡，其主要功能是提高图像处理的速度和效率。

该电视机中还可以包括处理器，用于协调整个系统的运行。处理器可以是CPU或GPU，其主要任务是解析图像数据，并根据算法进行计算和处理。

该电视机中还可以包括存储器，用于存储用户的面部特征和电视剧中不同角色的面部特征等相关数据。

该电视换脸追剧系统的核心部件是电视机，当观众收看电视节目时，系统采用摄像头捕捉用户面部特征，并使用图像处理技术将用户的面部特征与电视剧中不同角色的面部特征进行匹配，然后使用深度学习技术实现自动换脸，使得用户可以快速切换到所喜欢的角色并参与其中。

本申请中采用AI换脸技术，将角色人脸替换为用户人脸。在AI换脸技术的实际应用中，可能会受到一些限制因素，例如直播时间较紧张、网络带宽卡顿、硬件设备性能不足等，这些都可能对AI换脸的实时性和准确性产生影响。因此，在电视节目直播过程中使用AI换脸技术时，需要充分考虑这些限制因素，并进行相应的调整和优化。一些AI换脸技术的实现方式是基于云端的计算平台，需要网络连接和较高的计算性能，而电视节目直播场景下网络连接不稳定，高性能运算平台也可能无法满足实时性的要求。因此，为了确保AI换脸在电视节目直播中的实时性和稳定性，本申请提供以下策略：

(1)选择专业设备：选择具备高性能处理器和GPU的专业设备，比如显卡和处理器性能较高的工作站或笔记本电脑，可以提高AI换脸的计算速度和实时性。

(2)优化算法：针对电视节目直播场景下流媒体数据的实时性、不确定性和高并发等问题，优化AI换脸的算法设计，提高算法的实时性和稳定性。

(3)限制换脸区域：在直播场景下，为了避免出现延迟和错误等问题，可以限制AI换脸的区域范围，只进行必要的人脸特征提取和替换操作，以确保其实时性和稳定性。

综上所述，虽然AI换脸技术在电视节目直播中可能会受到一些限制因素的影响，但结合优秀的算法设计和合适的硬件设备，仍然可以保证其在直播场景下的稳定性和可靠性。

同时在使用AI换脸技术进行电视节目直播时，除了需要对算法和硬件设备进行优化外，还需要对音视频数据进行一定的处理，以确保整个流程稳定、顺畅、正确。以下是几点处理措施：

(1)实时性处理：需要使用实时编解码技术，在保证高清画质和低延迟的同时，尽可能地降低AI换脸的计算时间，达到实时换脸的效果。

(2)数据格式转换：由于不同厂商生产的设备及软件所用的编码格式不一致，所以需要将音视频数据格式进行转换，以避免产生不兼容等问题。

(3)资源管理：在AI换脸技术处理过程中，会占用大量的计算资源，需要合理分配系统资源，以保证计算资源的充分利用和节约，防止因资源不足而导致程序崩溃或运行缓慢的问题。

具体地，在本申请中进行资源分配时，可以包括以下几个关键方面：

硬件资源：电视换脸追剧系统需要适当的硬件设备支持，包括观察设备、图像处理模块、人工智能算法模块和追剧播放器等。在资源分配时，要确保硬件设备具备足够的计算和处理能力，能够满足系统对实时图像处理和人工智能算法的需求。

带宽和存储：图像和音频数据的传输和存储是电视换脸追剧系统的重要方面。为了保证换脸效果的实时呈现，需要足够的带宽来传输视频数据，并且需要适当的存储容量来存储相关的图像和音频文件。

算法优化：人工智能算法模块是电视换脸追剧系统的核心组件之一。为了高效利用资源，可以对算法进行优化，提高其运行效率和计算速度。例如，采用深度学习模型压缩和加速技术，或者使用硬件加速器等专用设备来执行算法运算。

用户数量和并发：资源分配还需要考虑到系统的用户数量和并发性。如果预计有大量用户同时使用系统，需要具备足够的并发处理能力，以确保每个用户都能够获得流畅的观看体验。可以通过合理的服务器配置和负载均衡技术来平衡系统的并发需求。

实时性要求：由于电视换脸追剧系统需要实时地处理和呈现换脸效果，因此对于图像处理、人工智能算法和播放技术都有一定的实时性要求。资源分配时需要确保系统响应速度快、延迟低，以保证用户能够即时观看到换脸效果。

综上所述，资源分配需要综合考虑硬件设备、带宽、存储、算法优化、用户数量和并发性等多方面因素，以满足系统的性能需求和用户的良好体验。

(4)防止数据传输错误：在数据传输过程中，需要采用差错校验等技术，添加一些冗余信息来保证数据的完整性和正确性。

(5)音视频同步：由于进行AI换脸处理会对音视频数据进行修改，在这个过程中需要保证音视频同步，以确保换脸效果自然、流畅，不会出现音视频不同步的问题。

具体地，在进行音视频同步，本申请主要包括以下几个方面的内容：

时间基准匹配：音频和视频都有各自的时间基准，需要通过同步机制将它们统一。通常，音频会以采样率表示，即每秒钟的采样数，而视频则以帧率表示，即每秒钟的帧数。通过确保音频和视频的时间基准相同，可以实现它们之间的同步播放。

音视频解码和缓冲：音频和视频在播放前需要进行解码操作，将压缩格式的音频数据和视频数据解码成原始的音频流和视频帧。解码后的音频和视频数据会被分别放入音频缓冲区和视频缓冲区，以便按照正确的时间顺序进行播放。

时钟同步：为了确保音频和视频的同步播放，需要使用时钟来控制它们的播放进度。通常使用一个主时钟来进行同步控制，该时钟会根据音频和视频的时间基准和进度信息来调整它们的播放速度和时序，以保持同步。

帧间同步：在视频播放过程中，需要保证相邻帧之间的播放时间间隔是恒定且精确的。如果播放时间间隔不一致，就会导致视频画面的卡顿或流畅度不佳。通过控制帧率和播放速度，可以实现视频帧之间的同步播放。

综上所述，音视频同步主要包括时间基准匹配、音视频解码和缓冲、时钟同步以及帧间同步等关键技术，以确保音频和视频的播放速度和时序完全匹配，从而实现声音与图像的同步播放。

综上所述，对于AI换脸技术在电视节目直播中的应用，需要对音视频数据进行实时性处理、数据格式转换、资源管理、数据传输错误防止和音视频同步等方面进行处理，以确保整个直播过程的稳定性和正常运行。

在一实施例中还提供一种视频互动装置。请参阅图2，图2为本申请实施例提供的视频互动装置200的结构示意图。其中，该视频互动装置200包括采集单元201、获取单元202、确定单元203、接收单元204、以及换脸单元205，如下：

采集单元201，用于采集用户人脸对应的第一面部特征；

获取单元202，用于识别所述显示设备播放的视频中的角色人脸，并获取所述角色人脸对应的第二面部特征；

确定单元203，用于从所述角色人脸中确定待换脸的目标角色人脸；

接收单元204，用于接收对所述目标角色人脸的换脸指令；

换脸单元205，用于响应于所述换脸指令，获取所述目标角色人脸对应的目标第二面部特征，通过所述第一面部特征替换所述目标第二面部特征。

在一些实施例中，确定单元203，可以用于：

获取用户的历史换脸记录；

根据所述历史换脸记录获取用户进行换脸操作的偏好信息；

根据所述偏好信息推荐待换脸的候选角色人脸；

获取用户针对所述候选角色人脸的选取操作；

根据所述选取操作确定所述目标角色人脸。

在一些实施例中，确定单元203，可以用于：

获取用户的眼球运动轨迹数据；

在一些实施例中，确定单元203，可以用于：

连续拍摄多帧用户的图像；

根据所述图像确定用户的第一运动动作；

识别所述角色人脸对应角色人物的第二运动动作；

在一些实施例中，视频互动装置200还可以包括音视频同步单元，该音视频同步单元可以用于：

在一些实施例中，换脸单元205，可以用于：

确定所述第一面部特征中待替换的第一局部特征；

确定所述目标第二面部特征中对应所述第一局部特征的第二局部特征；

通过所述第一局部特征替换所述第二局部特征。

在一些实施例中，视频互动装置200还可以包括存储单元，该存储单元可以用于：将所述第一面部特征存储在预设的本地存储空间

应当说明的是，本申请实施例提供的视频互动装置与上文实施例中的视频互动方法属于同一构思，通过该视频互动装置可以实现视频互动方法实施例中提供的任一方法，其具体实现过程详见视频互动方法实施例，此处不再赘述。

此外，为了更好实施本申请实施例中视频互动方法，在视频互动方法基础之上，本申请还提供一种电子设备，请参照图3，图3示出了本申请提供的电子设备300的一种结构示意图，如图3所示，本申请提供的电子设备300包括处理器301和存储器302，处理器301用于执行存储器302中存储的计算机程序时实现如本申请以上实施例中视频互动方法的各步骤，比如：

采集用户人脸对应的第一面部特征；

从所述角色人脸中确定待换脸的目标角色人脸；

接收对所述目标角色人脸的换脸指令；

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器302中，并由处理器301执行，以完成本申请实施例。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。

电子设备300可包括，但不仅限于处理器301、存储器302。本领域技术人员可以理解，示意仅仅是电子设备300的示例，并不构成对电子设备300的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如电子设备300还可以包括输入输出设备、网络接入设备、总线等，处理器301、存储器302、输入输出设备以及网络接入设备等通过总线相连。

处理器301可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是电子设备300的控制中心，利用各种接口和线路连接整个电子设备300的各个部分。

存储器302可用于存储计算机程序和/或模块，处理器301通过运行或执行存储在存储器302内的计算机程序和/或模块，以及调用存储在存储器302内的数据，实现计算机装置的各种功能。存储器302可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备300的使用所创建的数据(比如音频数据、视频数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的视频互动装置、电子设备300及其相应单元的具体工作过程，可以参考本申请以上实施例中关于视频互动方法的说明，具体在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读的存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请以上实施例中视频互动方法中的步骤，比如：

采集用户人脸对应的第一面部特征；

从所述角色人脸中确定待换脸的目标角色人脸；

接收对所述目标角色人脸的换脸指令；

具体操作可参考本申请以上实施例中关于视频互动方法的说明，在此不再赘述。

在一种实施方式中，请参阅图4，图4为本申请实施例提供的电子设备的第二种结构示意图。电子设备300还包括：射频电路303、显示屏304、控制电路305、输入单元306、音频电路307、传感器308以及电源309。其中，处理器301分别与射频电路303、显示屏303、控制电路305、输入单元306、音频电路307、传感器308以及电源309电性连接。

射频电路303用于收发射频信号，以通过无线通信与网络设备或其他电子设备进行通信。

显示屏304可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图像、文本、图标、视频和其任意组合来构成。

控制电路305与显示屏304电性连接，用于控制显示屏304显示信息。

输入单元306可用于接收输入的数字、字符信息或用户特征信息(例如指纹)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。其中，输入单元306可以包括指纹识别模组。

音频电路307可通过扬声器、传声器提供用户与电子设备之间的音频接口。其中，音频电路307包括麦克风。所述麦克风与所述处理器301电性连接。所述麦克风用于接收用户输入的语音信息。

传感器308用于采集外部环境信息。传感器308可以包括环境亮度传感器、加速度传感器、陀螺仪等传感器中的一种或多种。

电源309用于给电子设备300的各个部件供电。在一种实施方式中，电源309可以通过电源管理系统与处理器301逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

虽然图中未示出，电子设备300还可以包括摄像头、蓝牙模块等，在此不再赘述。

其中，该计算机可读的存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请以上实施例中视频互动方法中的步骤，因此，可以实现本申请以上实施例中视频互动方法所能实现的有益效果，详见前面的说明，在此不再赘述。

此外，本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是某些实施例还包括没有列出的步骤或模块，或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

以上对本申请所提供的一种视频互动方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频互动方法，其特征在于，应用于显示设备，包括：

采集用户人脸对应的第一面部特征；

从所述角色人脸中确定待换脸的目标角色人脸；

接收对所述目标角色人脸的换脸指令；

2.如权利要求1所述的视频互动方法，其特征在于，所述从所述角色人脸中确定待换脸的目标角色人脸，包括：

获取用户的历史换脸记录；

根据所述历史换脸记录获取用户进行换脸操作的偏好信息；

根据所述偏好信息推荐待换脸的候选角色人脸；

获取用户针对所述候选角色人脸的选取操作；

根据所述选取操作确定所述目标角色人脸。

3.如权利要求1所述的视频互动方法，其特征在于，所述从角色人脸中确定待换脸的目标角色人脸，包括：

获取用户的眼球运动轨迹数据；

4.如权利要求1所述的视频互动方法，其特征在于，所述从角色人脸中确定待换脸的目标角色人脸，包括：

连续拍摄多帧用户的图像；

根据所述图像确定用户的第一运动动作；

识别所述角色人脸对应角色人物的第二运动动作；

5.如权利要求1所述的视频互动方法，其特征在于，在通过所述第一面部特征替换所述目标第二面部特征之后，还包括：

6.如权利要求1所述的视频互动方法，其特征在于，所述通过所述第一面部特征替换所述目标第二面部特征，包括：

确定所述第一面部特征中待替换的第一局部特征；

通过所述第一局部特征替换所述第二局部特征。

7.如权利要求1至6任一项所述的视频互动方法，其特征在于，在采集用户人脸对应的第一面部特征之后，还包括：

将所述第一面部特征存储在预设的本地存储空间。

8.一种视频互动装置，其特征在于，包括：

采集单元，用于采集用户人脸对应的第一面部特征；

接收单元，用于接收对所述目标角色人脸的换脸指令；

9.一种计算机可读的存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至7任一项所述的视频互动方法。

10.一种电子设备，包括处理器和存储器，所述存储器存储有计算机程序，其特征在于，所述处理器通过调用所述计算机程序，用于执行如权利要求1至7任一项所述的视频互动方法。