CN110868635B

CN110868635B - 视频处理方法、装置、电子设备及存储介质

Info

Publication number: CN110868635B
Application number: CN201911228483.XA
Authority: CN
Inventors: 文博
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2021-01-12
Anticipated expiration: 2039-12-04
Also published as: CN110868635A

Abstract

本申请公开了一种视频处理方法、装置、电子设备及存储介质。该方法包括：当获取到用户输入的交互信息时，获取所述用户的用户画像；获取待播放的预设视频中与所述交互信息以及所述用户画像匹配的视频图像序列，其中，所述视频图像序列包括多帧视频图像；根据所述视频图像序列以及所述用户画像，确定播报虚拟人物的表现参数；将执行所述表现参数的播报虚拟人物与所述视频图像序列进行整合，并获取整合后的包含所述播报虚拟人物的回复图像序列；根据所述回复图像序列，生成并输出回复视频，所述回复视频用于替换所述预设视频进行播放。本申请通过在待播放视频中将播报虚拟人物和用户关注内容进行整合，使得用户可以及时获知到关注内容。

Description

视频处理方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及人机交互技术领域，更具体地，涉及一种视频处理方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的不断发展和进步，视频中的内容也越来越丰富。为了减小视频的时长，可能会将每帧视频图像的内容分为多个版块，以显示较多的内容。然而，随着用户对视频体验感的要求越来越高，过多的文字或图片不仅会影响浏览体验，也会让用户无法第一时间浏览到想要关注的内容。

发明内容

鉴于上述问题，本申请实施例提供一种视频处理方法、装置、电子设备及存储介质，使用户能够及时浏览到想要关注的内容，提升视频播放效果。

第一方面，本申请实施例提供了一种视频处理方法，该方法可包括：当获取到用户输入的交互信息时，获取所述用户的用户画像；获取待播放的预设视频中与所述交互信息以及所述用户画像匹配的视频图像序列，其中，所述视频图像序列包括多帧视频图像；根据所述视频图像序列以及所述用户画像，确定播报虚拟人物的表现参数；将执行所述表现参数的播报虚拟人物与所述视频图像序列进行整合，并获取整合后的包含所述播报虚拟人物的回复图像序列；根据所述回复图像序列，生成并输出回复视频，所述回复视频用于替换所述预设视频进行播放。

可选地，上述获取待播放的预设视频中与所述交互信息以及所述用户画像匹配的视频图像序列，可包括：获取待播放的预设视频中与所述交互信息以及所述用户画像匹配的目标内容；获取包含有所述目标内容的视频图像序列；

上述根据所述视频图像序列以及所述用户画像，确定播报虚拟人物的表现参数，可包括：获取所述目标内容在所述视频图像序列的每帧视频图像中的像素坐标；根据所述像素坐标以及所述用户画像，确定播报虚拟人物的表现参数，所述表现参数用于驱动所述播报虚拟人物朝向所述目标内容。

可选地，上述根据所述像素坐标以及所述用户画像，确定播报虚拟人物的表现参数，可包括：获取预先设置的多个虚拟人物；从所述多个虚拟人物中获取与所述用户画像匹配的目标虚拟人物，作为播报虚拟人物；根据所述像素坐标以及所述用户画像，确定所述播报虚拟人物的表现参数。

可选地，用户画像可包括着装信息，表现参数可包括肢体动作参数，上述根据所述像素坐标以及所述用户画像，确定播报虚拟人物的表现参数，可包括：根据所述着装信息，确定所述用户的着装风格；根据所述着装风格，确定播报虚拟人物的动作风格；根据所述像素坐标以及所述动作风格，确定所述播报虚拟人物的肢体动作参数，所述肢体动作参数用于驱动所述播报虚拟人物的肢体指向所述目标内容。

可选地，预设视频中可包括播报虚拟人物，表现参数可包括辅助工具参数，在上述根据所述像素坐标以及所述动作风格，确定所述播报虚拟人物的肢体动作参数之后，该视频处理方法还可包括：获取所述播报虚拟人物在所述视频图像序列的每帧视频图像中的人物坐标；根据所述像素坐标、人物坐标以及所述动作风格，确定所述播报虚拟人物的辅助工具参数，所述辅助工具参数用于驱动所述辅助工具指向所述目标内容。

可选地，上述获取待播放的预设视频中与所述交互信息以及所述用户画像匹配的目标内容，包括：识别并获取所述交互信息中的关键信息；根据所述用户画像以及所述关键信息，确定内容特征，所述内容特征用于表征所述用户所关注的内容的特征信息；从待播放的预设视频中获取与所述内容特征匹配的目标内容。

可选地，该视频处理方法还可包括：获取与所述目标内容对应的回复文本；获取与所述回复文本对应的回复音频；

在上述根据所述回复图像序列，生成并输出回复视频之后，该视频处理方法还可包括：在播放所述回复视频的过程中，对应播放所述回复音频。

可选地，预设视频可包括预设音频，上述获取包含有所述目标内容的视频图像序列，可包括：获取所述预设音频中与所述交互信息以及所述用户画像匹配的目标音频；获取所述预设视频中包含有所述目标内容的所有视频图像；根据所述所有视频图像以及所述目标音频的时间戳，确定所述所有视频图像中与所述时间戳匹配的一张或多张目标视频图像，作为包含有所述目标内容的视频图像序列。

可选地，回复视频的时长可与所述视频图像序列的时间戳对应，在上述根据所述回复图像序列，生成并输出回复视频之后，该视频处理方法还可包括：根据所述视频图像在所述预设视频中的播放时间先后顺序，获取所述视频图像序列的最早时间戳；调整所述预设视频的当前的播放进度至所述最早时间戳，并将所述预设视频替换为所述回复视频进行播放。

可选地，该视频处理方法还可包括：当所述预设视频的当前的播放进度在所述最早时间戳之前时，继续播放所述预设视频；当所述播放进度更新至所述最早时间戳时，将所述预设视频替换为所述回复视频进行播放。

可选地，在上述根据所述回复图像序列，生成并输出回复视频之后，该视频处理方法还可包括：在重复指定次数播放所述回复视频之后，恢复播放所述预设视频。

可选地，上述获取整合后的包含所述播报虚拟人物的回复图像序列，可包括：获取整合所述播报虚拟人物后的整合视频图像序列；获取所述预设视频中除所述视频图像序列外的其他视频图像；根据所述整合视频图像序列以及所述其他视频图像的时间戳的时间先后顺序，生成回复图像序列。

第二方面，本申请实施例提供了一种视频处理装置，该视频处理装置可包括：信息获取模块，用于当获取到用户输入的交互信息时，获取所述用户的用户画像；图像获取模块，用于获取待播放的预设视频中与所述交互信息以及所述用户画像匹配的视频图像序列，其中，所述视频图像序列包括多帧视频图像；参数获取模块，用于根据所述视频图像序列以及所述用户画像，确定播报虚拟人物的表现参数；图像整合模块，用于将执行所述表现参数的播报虚拟人物与所述视频图像序列进行整合，并获取整合后的包含所述播报虚拟人物的回复图像序列；视频生成模块，用于根据所述回复图像序列，生成并输出回复视频，所述回复视频用于替换所述预设视频进行播放。

可选地，图像获取模块可包括：内容获取单元，用于获取待播放的预设视频中与所述交互信息以及所述用户画像匹配的目标内容；序列获取单元，用于获取包含有所述目标内容的视频图像序列；

参数获取模块可包括：坐标获取单元，用于获取所述目标内容在所述视频图像序列的每帧视频图像中的像素坐标；参数确定单元，用于根据所述像素坐标以及所述用户画像，确定播报虚拟人物的表现参数，所述表现参数用于驱动所述播报虚拟人物朝向所述目标内容。

可选地，参数获取模块可包括：人物获取单元，用于获取预先设置的多个虚拟人物；目标获取单元，用于从所述多个虚拟人物中获取与所述用户画像匹配的目标虚拟人物，作为播报虚拟人物；表现确定单元，用于根据所述像素坐标以及所述用户画像，确定所述播报虚拟人物的表现参数。

可选地，用户画像可包括着装信息，表现参数可包括肢体动作参数，参数获取模块可包括：风格确定单元，用于根据所述着装信息，确定所述用户的着装风格；动作确定单元，用于根据所述着装风格，确定播报虚拟人物的动作风格；肢体确定单元，用于根据所述像素坐标以及所述动作风格，确定所述播报虚拟人物的肢体动作参数，所述肢体动作参数用于驱动所述播报虚拟人物的肢体指向所述目标内容。

可选地，预设视频中可包括播报虚拟人物，表现参数可包括辅助工具参数，该视频处理装置还可包括：人物坐标获取模块，用于获取所述播报虚拟人物在所述视频图像序列的每帧视频图像中的人物坐标；辅助参数获取模块，用于根据所述像素坐标、人物坐标以及所述动作风格，确定所述播报虚拟人物的辅助工具参数，所述辅助工具参数用于驱动所述辅助工具指向所述目标内容。

可选地，内容获取单元可具体用于：识别并获取所述交互信息中的关键信息；根据所述用户画像以及所述关键信息，确定内容特征，所述内容特征用于表征所述用户所关注的内容的特征信息；从待播放的预设视频中获取与所述内容特征匹配的目标内容。

可选地，该视频处理装置还可包括：文本确定模块，用于获取与所述目标内容对应的回复文本；音频确定模块，用于获取与所述回复文本对应的回复音频；播放模块，用于在播放所述回复视频的过程中，对应播放所述回复音频。

可选地，预设视频可包括预设音频，序列获取单元可具体用于：获取所述预设音频中与所述交互信息以及所述用户画像匹配的目标音频；获取所述预设视频中包含有所述目标内容的所有视频图像；根据所述所有视频图像以及所述目标音频的时间戳，确定所述所有视频图像中与所述时间戳匹配的一张或多张目标视频图像，作为包含有所述目标内容的视频图像序列。

可选地，回复视频的时长与所述视频图像序列的时间戳对应，该视频处理装置还可包括：时间获取模块，用于根据所述视频图像在所述预设视频中的播放时间先后顺序，获取所述视频图像序列的最早时间戳；进度调整模块，用于调整所述预设视频的当前的播放进度至所述最早时间戳，并将所述预设视频替换为所述回复视频进行播放。

可选地，该视频处理装置还可包括：播放控制模块，用于当所述预设视频的当前的播放进度在所述最早时间戳之前时，继续播放所述预设视频；视频替换模块，用于当所述播放进度更新至所述最早时间戳时，将所述预设视频替换为所述回复视频进行播放。

可选地，该视频处理装置还可包括：恢复播放模块，用于在重复指定次数播放所述回复视频之后，恢复播放所述预设视频。

可选地，图像整合模块可具体用于：获取整合所述播报虚拟人物后的整合视频图像序列；获取所述预设视频中除所述视频图像序列外的其他视频图像；根据所述整合视频图像序列以及所述其他视频图像的时间戳的时间先后顺序，生成回复图像序列。

第三方面，本申请实施例提供了一种电子设备，该电子设备可包括：存储器；一个或多个处理器，与存储器连接；一个或多个应用程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个应用程序配置用于执行如上述第一方面的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质中存储有程序代码，程序代码可被处理器调用执行如上述第一方面的方法。

本申请实施例提供了一种视频处理方法、装置、电子设备及存储介质，当获取到用户输入的交互信息时，通过获取用户的用户画像，获取待播放的预设视频中与交互信息以及用户画像匹配的视频图像序列，以根据视频图像序列以及用户画像，确定播报虚拟人物的表现参数。然后将执行表现参数的播报虚拟人物与视频图像序列进行整合，并获取整合后的包含播报虚拟人物的回复图像序列。最后根据回复图像序列，生成并输出回复视频，以替换预设视频进行播放。由此，通过视频中的虚拟人物来突出用户想要关注的内容，使用户能够及时浏览到想要关注的内容，提升视频播放效果，优化了人机交互体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例及附图，都属于本发明保护的范围。

图1示出了一种适用于本申请实施例的应用环境示意图。

图2示出了本申请一个实施例提供的视频处理方法的流程示意图。

图3示出了本申请实施例提供的视频处理方法的交互示意图。

图4示出了本申请另一个实施例提供的视频处理方法的流程示意图。

图5示出了图4中的步骤S320的一种方法流程图。

图6示出了图5中的步骤S321的一种方法流程图。

图7示出了图5中的步骤S322的一种方法流程图。

图8示出了图4中的步骤S330的一种方法流程图。

图9示出了图8中的步骤S332的一种方法流程图。

图10示出了图8中的步骤S332的另一种方法流程图。

图11示出了图8中的步骤S332的又一种方法流程图。

图12示出了本申请又一个实施例提供的视频处理方法的流程示意图。

图13示出了本申请再一个实施例提供的视频处理方法的流程示意图。

图14示出了本申请还一个实施例提供的视频处理方法的流程示意图。

图15示出了本申请又另一个实施例提供的视频处理方法的流程示意图。

图16示出了图15中的步骤S740的一种方法流程图。

图17示出了本申请一个实施例提供的视频处理装置的模块框图；

图18示出了本申请实施例用于执行根据本申请实施例的视频处理方法的电子设备的结构框图；

图19示出了本申请实施例用于执行根据本申请实施例的视频处理方法的计算机可读存储介质的模块框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。应当理解，此处描述的具体实施例仅用于解释本申请，并不用于限定本申请。

为了更好理解本申请实施例提供的一种视频处理方法、装置、电子设备及存储介质，下面先对适用于本申请实施例的应用环境进行描述。

请参阅图1，图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的视频处理方法可以应用于如图1所示的多态交互系统100。多态交互系统100包括终端设备101以及服务器102，服务器102与终端设备101通信连接。其中，服务器 102可以是传统服务器，也可以是云端服务器，在此不作具体限定。

其中，终端设备101可以是具有显示屏且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的，数据输入可以是基于终端设备101上具有的语音模块输入语音、字符输入模块输入字符、图像输入模块输入图像、视频输入模块输入视频等，还可以是基于终端设备101上安装有的手势识别模块，使得用户可以实现手势输入等交互方式。

其中，终端设备101上可以安装有客户端应用程序，用户可以基于客户端应用程序(例如APP、微信小程序等)与服务器102进行通信，具体的，服务器102上安装有对应的服务端应用程序，用户可以基于客户端应用程序在服务器102注册一个用户帐号，并基于该用户帐号与服务器102进行通信，例如用户在客户端应用程序登录用户帐号，并基于该用户帐号通过客户端应用程序进行输入，可以输入文字信息、语音信息、图像信息或视频信息等，客户端应用程序接收到用户输入的信息后，可以将该信息发送至服务器102，使得服务器102可以接收该信息并进行处理及存储，服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。

在一些实施方式中，客户端应用程序可以用于向用户提供客户服务，如向用户播报 (播放)视频，客户端应用程序可以基于虚拟机器人与用户进行交互。具体的，客户端应用程序可以接收用户输入的信息，并基于虚拟机器人对该信息作出应答。其中，虚拟机器人是基于可视化图形的软件程序，该软件程序被执行后可以向用户呈现出模拟生物行为或思想的机器人形态。虚拟机器人可以是模拟真人式的机器人，例如根据用户自身或其他人的形态建立的形似真人的机器人，也可以是动漫效果式的机器人，例如动物形态或卡通人物形态的机器人。

在一些实施方式中，终端设备101在获取与用户输入的信息对应的回复信息后，可以在终端设备101的显示屏或与其连接的其他图像输出设备上显示对应与该回复信息的虚拟机器人图像。作为一种方式，在播放虚拟机器人图像的同时，可以通过终端设备101 的扬声器或与其连接的其他音频输出设备播放与虚拟机器人图像对应的音频，还可以在终端设备101的显示屏上显示与该回复信息对应的文字或图形，实现在图像、语音、文字等多个方面上与用户的多态交互。

在一些实施方式中，对用户输入的信息进行处理的装置也可以设置于终端设备101 上，使得终端设备101无需依赖与服务器102建立通信即可实现与用户的交互，此时多态交互系统100可以只包括终端设备101。

上述应用环境仅为方便理解所作的示例，可以理解的是，本申请实施例不仅局限于上述应用环境。

下面将通过具体实施例对本申请实施例提供的视频处理方法、装置、电子设备及存储介质进行详细说明。

请参阅图2，图2示出了本申请一个实施例提供的视频处理方法的流程示意图，本实施例提供的视频处理方法可以应用于具有显示屏或其他图像输出装置的终端设备，也可以应用于服务器。其中，终端设备可以是智能手机、平板电脑、穿戴式智能终端等用户设备。在具体的实施例中，视频处理方法可应用于如图17所示的视频处理装置900以及图 18所示的电子设备600。下面将针对图2所示的流程进行详细的阐述，所示视频处理方法具体可以包括以下步骤：

步骤S210：当获取到用户输入的交互信息时，获取所述用户的用户画像。

本申请实施例中，可通过终端设备中集成的多种信息输入模块或与终端设备连接的多种信息输入装置获取用户输入的交互信息。其中，交互信息可以用于表征用户向终端设备提出的交互意向。作为一种方式，交互信息可以是明确的查询，例如“外套”，交互信息也可以是某种请求，例如“请帮我查询A店的地址”。

在一些实施方式中，交互信息可包括但不限于语音信息、文本信息、图像信息、动作信息等各种类型的信息。其中，语音信息可包括语言类的音频信息(例如汉语、英语音频等)以及非语言类的音频信息(例如音乐音频等)；文本信息可包括文字类的文本信息 (例如中文、英文等)以及非文字类的文本信息(例如特殊符号、字符表情等)；图像信息可包括静态图像信息(例如静态图片、照片等)以及动态图像信息(例如动态图片、视频图像等)；动作信息可包括用户动作信息(例如用户手势、身体动作、唇部动作、表情动作等)。从而实现通过多种方式来获取不同种类的交互信息，使得用户的多种交互方式可以自由得到响应，不再局限于传统机械式的人机交互手段，实现了人机之间的多态交互，满足更多的交互场景。

可以理解的是，对应于不同种类的交互信息，可以通过终端设备上不同类型的信息输入模块进行信息采集。例如，可通过麦克风等音频输入设备采集用户的语音信息，通过触摸屏或物理按键采集用户输入的文本信息，通过摄像头采集图像信息，通过光学传感器、重力传感器等采集动作信息等。作为一种方式，当视频播放对应的应用程序在终端设备的系统前台运行时，即可调用终端设备的各个硬件模块来获取用户通过应用程序界面输入的交互信息。

可以理解的是，同一个问题，可以对应于不同类型的交互信息。例如，用户想要查询“外套”时，用户可以通过语音输入的方式输入对应的音频，也可以上传与“外套”对应的图片或输入对应的文本信息，或是直接在应用程序界面上选择“外套”对应的虚拟图标来触发交互信息的输入。可以理解的是，对应于同一个问题，可以仅输入一种类型的交互信息，也可以同时输入多种类型的交互信息，来使用户的交互意向更加明确，更易被终端设备识别。

在本申请实施例中，当获取到用户输入的交互信息时，可以获取该用户的用户画像。其中，用户画像是一种可根据用户的属性和行为信息，了解、挖掘及定位用户，并可根据用户的特征偏好精准地分析出用户需求，从而生成的能够表征用户兴趣爱好的画像。可以理解为用于刻画用户特征的标签(tag)集合，其可包括年龄、性别、国籍等静态属性特征，也可包括用户的兴趣特征，如外貌、服饰、语言等。由此，通过用户画像可有助于终端设备理解用户，获得和分析用户的反馈，挖掘用户的潜在需求等，也可为用户提供个性化服务。

在一些实施方式中，用户画像也可通过终端设备中集成的多种信息输入模块或与终端设备连接的多种信息输入装置获取到，具体内容可参阅前述相关内容，在此不再赘述。

步骤S220：获取待播放的预设视频中与所述交互信息以及所述用户画像匹配的视频图像序列，其中，所述视频图像序列包括多帧视频图像。

在本申请实施例中，终端设备在获取到用户输入的交互信息及用户画像后，可以确定出用户的交互意图，也即确定出用户需求。从而终端设备可以从待播放的预设视频中获取与该交互信息及用户画像匹配的视频图像序列，其中，视频图像序列可包括多帧视频图像。从而可以从待播放的预设视频确定出用户可能感兴趣的视频图像，视频图像中的内容可能与用户的交互意图对应。

例如，购物场景中，用户说“外套”，终端设备可根据用户当前的穿着、年龄、性别等用户画像，进行外套的价格、风格或品牌定位，从而确定出用户需求。例如确定出用户需求为价格区间在xx-xx的外套，终端设备可以从待播放的包含有多家服装店的宣传视频中，获取与该用户需求匹配的视频图像(如包含有服装店名、外套图片或服装店的地理位置等的视频图像)。

在一些实施例中，预设视频可以是预先准备的用于向用户进行播报的视频。该预设视频可以是可用于循环播放的视频，例如，热门新片、新资讯、热点事件报道等视频，公司、机构、平台等的宣传视频、展示视频、咨询视频等，在此并不作限定。

在一些实施例中，终端设备可以对待播放的预设视频进行分解，以得到预设视频对应的多帧视频图像。例如，可以将1分钟长度的、30FPS的视频分解为1800张视频图像 (1分钟*60秒/分钟*30帧/秒)。然后可以从分解出的多帧视频图像中检测是否存在与该交互信息及用户画像匹配的目标视频图像，若存在，则提取出该目标视频图像。提取出的多帧目标视频图像即为上述视频图像序列。

步骤S230：根据所述视频图像序列以及所述用户画像，确定播报虚拟人物的表现参数。

在本申请实施例中，终端设备在获取到与交互信息以及用户画像匹配的视频图像序列后，可根据该视频图像序列以及用户画像，确定播报虚拟人物的表现参数。从而可以体现出用户感兴趣的视频图像序列与执行表现参数的播报虚拟人物的关联性。

其中，播报虚拟人物可以是一种模拟人类行为或思想的虚拟机器人形态，可以是模拟真人式的虚拟人物，也可以是卡通人物，在此并不作限定。在一些实施例中，播报虚拟人物可以基于3D(3Dimensions，三维)模型生成。终端设备可驱动播报虚拟人物对应的 3D模型中的头部、躯体以呈现不同的姿态。

播报虚拟人物的表现参数可以是用于驱动播报虚拟人物向用户呈现该播报虚拟人物的身体语言的驱动参数。例如，可以是驱动播报虚拟人物的面部表情，例如，微笑、冷酷、关切等，也可以是驱动播报虚拟人物的躯体动作，例如，转身、转头等，在此并不作限定，根据实际场景合理设定即可。

在一些实施例中，可以是根据用户画像，确定出播报虚拟人物的表现风格，从而确定出与表现风格对应的表现参数。作为一种方式，可根据用户的穿着或者化妆分析出用户听歌的流派，如流行、rap、朋克、重金属等，然后根据该流派确定播报虚拟人物的肢体动作的风格或类型，从而确定出对应的动作驱动参数。例如，当用户划了眼线，打了耳钉，可分析出用户听歌的流派属于朋克或者rap，从而确定出的播报虚拟人物的肢体动作的风格就可以朋克一点，如摇滚手势、摇滚舞蹈等。

在一些实施例中，也可以是根据视频图像中用户感兴趣的内容的显示位置，确定播报虚拟人物的表现参数。其中，用户感兴趣的内容可以是视频图像中与用户输入的交互信息以及用户画像匹配的内容。作为一种方式，表现参数可以是驱动播报虚拟人物转头或转身的参数，使得驱动后的播报虚拟人物朝向感兴趣的内容。

在一些实施例中，还可以是根据用户画像，确定播报虚拟人物的表现风格后，再根据视频图像序列以及播报虚拟人物的表现风格，确定播报虚拟人物的表现参数。例如，驱动播报虚拟人物以摇滚风格转头或转身朝向感兴趣的内容。可以理解的是，上述播报虚拟人物的表现参数的确定方式仅为举例，在本申请实施例中并不作限定。

步骤S240：将执行所述表现参数的播报虚拟人物与所述视频图像序列进行整合，并获取整合后的包含所述播报虚拟人物的回复图像序列。

在本申请实施例中，终端设备在确定出播报虚拟人物的表现参数后，可以将执行该表现参数的播报虚拟人物与上述视频图像序列进行整合，然后终端设备可以获取到整合后的包含该播报虚拟人物的回复图像序列。这样，通过在用户可能感兴趣的视频图像中整合执行表现参数的播报虚拟人物，以突出用户想要关注的内容，使用户能够及时浏览到想要关注的内容。

在一些实施例中，终端设备可根据该表现参数，驱动播报虚拟人物对应的3D模型呈现相应的表现动作，从而根据一一呈现的表现动作，对应生成包含有执行该表现动作的播报虚拟人物的图像，然后终端设备可以将该图像和视频图像序列进行整合，生成整合后的包含该播报虚拟人物的回复图像序列。

在一些实施例中，预设视频可以是包含有播报虚拟人物的视频。作为一种方式，预设视频可以是在原始背景视频上整合播报虚拟人物图像流后的视频。其中，该图像流可以是驱动播报虚拟人物对应的3D模型呈现连续姿态时，根据一一呈现的姿态生成的对应图像序列。例如，在原始新闻报道视频上整合虚拟新闻主播后的视频后得到的AI (ArtificialIntelligence，人工智能)播报视频。当终端设备确定出上述表现参数后，终端设备可以根据该表现参数，对该播报虚拟人物的表现动作进行调整，以根据调整后的姿态，重新生成对应的图像。然后终端设备可将视频图像序列中的播报虚拟人物图像替换为新生成的图像，从而实现执行表现参数的播报虚拟人物与视频图像序列的整合。

步骤S250：根据所述回复图像序列，生成并输出回复视频，所述回复视频用于替换所述预设视频进行播放。

在本申请实施例中，终端设备可以根据上述回复图像序列，生成并输出包含有执行上述表现参数的播报虚拟人物的回复视频，该回复视频用于替换上述预设视频进行播放。由此通过在视频中整合播报虚拟人物来突出用户想要关注的内容，使用户能够及时浏览到想要关注的内容，提升视频播放效果，优化了人机交互体验。

在一些实施例中，也可以使播报虚拟人物的唇部动作与输出的语音内容对应，实现播报虚拟人物可以模拟真人说话，并且利用语音配合自然的表情以及行为与用户进行多态交互，提高人机交互的真实感和自然度，优化以及丰富人机交互体验。

在一种具体的应用场景中，如图3所示，终端设备当前播放有商场展示视频。当用户说“外套”时，终端设备可以通过麦克风、摄像头等硬件模块来采集到用户输入的“外套”语音和该用户的大众品牌穿着、25岁左右年龄、性别女等用户画像，由终端设备根据该语音以及用户画像，从商场展示视频中确定相匹配的多帧视频图像，也即确定用户可能会关注的地方，如包含有“价格区间在xx-xx的女士外套”的视频图像。然后终端设备还可根据该视频图像以及用户画像，确定播报虚拟人物的表现风格为运动风，并将具有运动风的表现行为的播报虚拟人物与该视频图像整合，得到回复视频(包含执行运动风的表现行为的播报虚拟人物)，以在终端设备的显示界面播放该回复视频。其中，图3 所示回复视频中的女性形象105即为模拟真人的具有运动风格的播报虚拟人物，且该虚拟人物以运动风将手指指向用户可能会关注的内容106。在一些场景中，也可以在视频底部显示对应于回复内容的文本信息“我很抱歉～”。

在一些实施例中，在终端设备与服务器建立通信连接的状态下，当终端设备获取到用户输入的交互信息以及该用户的用户画像时，也可以将该交互信息以及该用户画像发送至服务器，由服务器对该交互信息以及该用户画像进行识别分析，然后由服务器从终端设备待播放的预设视频中确定出与该交互信息以及用户画像匹配的视频图像序列，并确定出播报虚拟人物的表现参数。然后由服务器将执行该表现参数的播报虚拟人物与视频图像序列进行整合，并根据整合后的包含该播报虚拟人物的回复图像序列，生成回复视频。再将该回复视频输出至终端设备，由终端设备获取并进行播放显示。

可以理解的是，本实施例中上述的各个步骤，可以均由终端设备在本地进行，也可以均在服务器中进行，还可以由终端设备与服务器分工进行，根据实际应用场景的不同，可以按照需求进行任务的分配，以实现最优化的拟真机器人客服体验，在此并不作限定。

本申请实施例提供的视频处理方法，当获取到用户输入的交互信息时，通过获取用户的用户画像，获取待播放的预设视频中与交互信息以及用户画像匹配的视频图像序列，以根据视频图像序列以及用户画像，确定播报虚拟人物的表现参数。然后将执行表现参数的播报虚拟人物与视频图像序列进行整合，并获取整合后的包含播报虚拟人物的回复图像序列。最后根据回复图像序列，生成并输出回复视频，以替换预设视频进行播放。由此，通过在视频中生成对应的个性化播报虚拟人物来突出用户想要关注的内容，使用户能够及时浏览到想要关注的内容，提升视频播放效果，提高了人机交互的真实感和自然度，优化了人机交互体验。

请参阅图4，图4示出了本申请另一个实施例提供的视频处理方法的流程示意图。下面将针对图4所示的流程进行详细的阐述，所示视频处理方法具体可以包括以下步骤：

步骤S310：当获取到用户输入的交互信息时，获取所述用户的用户画像。

在本申请实施例中，步骤S310可参考前述实施例中的相关描述，此处不再赘述。

步骤S320：获取待播放的预设视频中与所述交互信息以及所述用户画像匹配的视频图像序列，其中，所述视频图像序列包括多帧视频图像。

在一些实施例中，与交互信息以及用户画像匹配的视频图像序列可以是，视频图像中的局部内容与交互信息以及用户画像匹配。具体地，请参阅图5，步骤S320可以包括：

步骤S321：获取待播放的预设视频中与所述交互信息以及所述用户画像匹配的目标内容。

在一些实施例中，终端设备可从预设视频分解出的多帧视频图像中，检测是否存在与该交互信息及用户画像匹配的目标内容。其中，与该交互信息及用户画像匹配的目标内容可以是目标内容与交互信息的相似度高于一定值，例如，用户说“外套”，与“外套”相似度高于一定值的目标内容可以是各种外套图片。当然，也可以是在该相似度高于一定值的情况下，目标内容与用户画像的匹配程度高于一定值。例如，可以是在各种外套图片中适合用户年龄、穿着风格的外套图片。

在一些实施例中，可以通过交互信息中的关键信息来获取目标内容，以提高处理效率。具体地，请参阅图6，步骤S321可包括：

步骤S3211：识别并获取所述交互信息中的关键信息。

步骤S3212：根据所述用户画像以及所述关键信息，确定内容特征，所述内容特征用于表征所述用户所关注的内容的特征信息。

步骤S3213：从待播放的预设视频中获取与所述内容特征匹配的目标内容。

在一些实施例中，终端设备可以对所述交互信息进行信息识别，以提取用户输入的交互信息中的关键信息。例如，用户说“明天北京的天气怎么样”，终端设备进行语音分析后提取的关键信息可以为：明天、北京、天气等关键词。然后终端设备可以根据用户画像以及关键信息，确定用户想要关注的内容的特征信息也即上述内容特征。例如，当获取到的用户画像包括美国国籍时，确定用户想要关注的内容的特征信息可以是英文版的北京明日天气。

终端设备可以从待播放的预设视频中获取与内容特征匹配的目标内容。其中，目标内容可以是用户在某视频画面中想要获知的局部内容。例如，终端设备可以从待播放的各个语言版本的天气预报视频中，获取包含有英文版的北京明天天气情况的内容。

步骤S322：获取包含有所述目标内容的视频图像序列。

在一些实施例中，终端设备在获取到与交互信息以及用户画像匹配的目标内容后，可以从预设视频分解出的多帧视频图像中提取多帧包含有该目标内容的视频图像，得到上述视频图像序列。该视频图像序列即为终端设备预测出用户可能会关注的视频画面。

在一些实施例中，预设视频中也可包括预设音频，可能存在视频中的音频播报到用户可能会关注的内容的情况。具体地，请参阅图7，步骤S322可以包括：

步骤S3221：获取所述预设音频中与所述交互信息以及所述用户画像匹配的目标音频。

在一些实施例中，终端设备可以从预设音频中获取与交互信息以及用户画像匹配的目标音频，以确定视频中的音频是否有播报到用户可能会关注的目标内容。作为一种方式，可对预设音频进行语音识别，得到该预设音频对应的文本信息，通过将文本信息与交互信息进行比对，可以确定出文本信息中是否存在与交互信息相关的内容。若存在，终端设备可获取该相关内容对应的目标音频。

步骤S3222：获取所述预设视频中包含有所述目标内容的所有视频图像。

步骤S3223：根据所述所有视频图像以及所述目标音频的时间戳，确定所述所有视频图像中与所述时间戳匹配的一张或多张目标视频图像，作为包含有所述目标内容的视频图像序列。

在一些实施例中，当目标内容比较重要时，可以是视频图像和视频中的音频同时包含目标内容，终端设备可将该视频图像作为用户想要关注的视频图像。终端设备可以从预设视频分解出的多帧视频图像中提取所有包含有上述目标内容的视频图像，以初步预测出用户可能会关注的视频画面。

然后终端设备可根据目标音频在预设视频中的播放时间戳，从上述得到包含有目标内容的所有视频图像中，确定是否存在与该播放时间戳匹配的目标视频图像，以判断是否存在视频图像和视频中的音频同时包含目标内容。若存在与该播放时间戳匹配的一张或多张目标视频图像，则可认为视频图像和视频中的音频同时包含目标内容，终端设备可以将该一张或多张目标视频图像作为最终的包含有目标内容的视频图像序列，也即最终预测出的用户可能会关注的视频画面。以使终端设备突出的用户想要关注的内容的准确性较高。

步骤S330：根据所述视频图像序列以及所述用户画像，确定播报虚拟人物的表现参数。

在一些实施例中，当用户想要关注的内容为视频画面的局部内容时，也即当获取到的视频图像序列包括上述目标内容时，终端设备可驱动播报虚拟人物朝向目标内容。具体地，请参阅图8，步骤S330可以包括：

步骤S331：获取所述目标内容在所述视频图像序列的每帧视频图像中的像素坐标。

步骤S332：根据所述像素坐标以及所述用户画像，确定播报虚拟人物的表现参数，所述表现参数用于驱动所述播报虚拟人物朝向所述目标内容。

在一些实施例中，终端设备可以获取目标内容在视频图像序列的每帧视频图像中的像素坐标。以确定目标内容在视频画面中的显示位置。作为一种实施方式，像素坐标可以用显示坐标系中的坐标(x，y)来表示，x表征横坐标，y表征纵坐标。在一个示例中，显示坐标系可为以终端设备的显示界面的左上角为原点，水平向右为x轴正半轴，竖直向下为y轴正半轴的坐标系，但本申请对显示坐标系的构建方式不加以限定。

在一些实施例中，终端设备在获取到目标内容的像素坐标后，可以根据该像素坐标以及用户画像，确定播报虚拟人物的表现参数，该表现参数用于驱动所述播报虚拟人物朝向所述目标内容。作为一种方式，播报虚拟人物在视频图像中的显示位置可以与目标内容的显示位置具有对应关系。例如，目标内容靠画面的左边时，播报虚拟人物显示在右边，且播报虚拟人物的头部像画面的左边偏转，以看向目标内容。

在一些实施例中，上述播报虚拟人物可根据用户画像确定，也即可根据不同的用户显示个性化播报虚拟人物，提高播报效果，提升用户体验。具体地，请参阅图9，步骤 S332可以包括：

步骤S3321：获取预先设置的多个虚拟人物。

步骤S3322：从所述多个虚拟人物中获取与所述用户画像匹配的目标虚拟人物，作为播报虚拟人物。

步骤S3323：根据所述像素坐标以及所述用户画像，确定所述播报虚拟人物的表现参数。

在一些实施例中，电子设备(终端设备或服务器)中的数据库中可以预先存储有多个虚拟人物，当需要获取播报虚拟人物时，电子设备可以直接从数据库中获取与用户画像匹配的目标虚拟人物，作为播报虚拟人物。其中，目标虚拟人物可以是与用户年龄、穿着风格、性别等用户画像匹配，在此并不作限定。例如，小孩匹配的虚拟人物可以是卡通人物，男士匹配的虚拟人物可以是虚拟的女性形象。当然，也可以由用户通过电子设备中的图片或视频自行制定，并不限定播报虚拟人物的获取方式，仅需该播报虚拟人物是为用户个性化显示即可。

在一些实施例中，用户画像可以包括着装信息，表现参数可包括肢体动作参数，当用户想要关注的内容为视频画面的局部内容时，终端设备可驱动播报虚拟人物肢体朝向目标内容。具体地，请参阅图10，步骤S332也可以包括：

步骤S3324：根据所述着装信息，确定所述用户的着装风格。

步骤S3325：根据所述着装风格，确定播报虚拟人物的动作风格。

步骤S3326：根据所述像素坐标以及所述动作风格，确定所述播报虚拟人物的肢体动作参数，所述肢体动作参数用于驱动所述播报虚拟人物的肢体指向所述目标内容。

在一些实施例中，终端设备可根据用户画像，获取到用户的着装信息，从而可确定出用户的着装风格。其中，着装风格可以是商务、休闲、运动、牛仔、可爱等风格，在此并不作限定。

在一些实施例中，终端设备可根据用户的着装风格确定播报虚拟人物的动作风格，并根据目标内容的像素坐标以及该动作风格，确定播报虚拟人物的肢体动作参数，以驱动所述播报虚拟人物的肢体指向所述目标内容。从而在实现为用户制定个性化播报虚拟人物的同时，还通过播报虚拟人物指向目标内容的方式，使得用户能够快速浏览到想要关注的内容，提升了视频播放效果提高，优化了人机交互体验。例如，用户的着装风格为可爱风，终端设备可驱动播报虚拟人物以一个可爱俏皮的动作指向目标内容。

进一步地，在一些实施例中，预设视频中可以原本就包括播报虚拟人物，也即预设视频中播报虚拟人物的显示位置已经固定。当目标内容的显示位置距离播报虚拟人物的显示位置比较远时，可能单靠肢体无法准确指向目标内容。因此，作为一种实施方式，可以通过显示辅助工具，以准确指向目标内容。具体地，表现参数可包括辅助工具参数，请参阅图11，在步骤S3326之后，该视频处理方法还可以包括：

步骤S3327：获取所述播报虚拟人物在所述视频图像序列的每帧视频图像中的人物坐标。

步骤S3328：根据所述像素坐标、人物坐标以及所述动作风格，确定所述播报虚拟人物的辅助工具参数，所述辅助工具参数用于驱动所述辅助工具指向所述目标内容。

在一些实施例中，终端设备可以获取播报虚拟人物在视频图像序列的每帧视频图像中的人物坐标。该人物坐标也可用上述显示坐标系中的坐标(x，y)来表示，具体内容可参阅前述相关描述，此处不再赘述。

在一些实施例中，终端设备可根据目标内容的像素坐标、播报虚拟人物的人物坐标以及动作风格，确定辅助工具参数。其中，辅助工具参数可以包括辅助工具的类型、尺寸、轨迹等参数。作为一种方式，终端设备可根据播报虚拟人物，确定辅助工具的类型。例如，播报虚拟人物为老师时，辅助工具可以为教棍、三角板等教学用具。进一步的，终端设备也可根据目标内容的像素坐标、播报虚拟人物的人物坐标，确定辅助工具的尺寸。例如，根据目标内容与播报虚拟人物的远近确定教棍的长短。进一步的，终端设备也可根据播报虚拟人物的动作风格，确定辅助工具的运动轨迹。例如，可以使辅助工具的运动轨迹与播报虚拟人物的手部运动轨迹保持一致，以给用户产生播报虚拟人物手持辅助工具以一个动作风格指向目标内容。

步骤S340：将执行所述表现参数的播报虚拟人物与所述视频图像序列进行整合，并获取整合后的包含所述播报虚拟人物的回复图像序列。

步骤S350：根据所述回复图像序列，生成并输出回复视频，所述回复视频用于替换所述预设视频进行播放。

在本申请实施例中，步骤S340和步骤S350可参考前述实施例中的相关描述，此处不再赘述。

本申请实施例提供的视频处理方法，当获取到用户输入的交互信息时，通过获取用户的用户画像，获取待播放的预设视频中与交互信息以及用户画像匹配的目标内容，以根据目标内容以及用户画像，确定播报虚拟人物的表现参数，该表现参数可用于驱动播报虚拟人物朝向目标内容。然后将执行表现参数的播报虚拟人物与视频图像序列进行整合，并获取整合后的包含播报虚拟人物的回复图像序列。最后根据回复图像序列，生成并输出回复视频，以替换预设视频进行播放。由此，当视频中的内容较多时，可以通过在视频中整合有指向用户可能会关注的内容的虚拟人物，以突出可能会关注的内容，使用户能够及时浏览到想要关注的内容，提升视频播放效果，优化了人机交互体验。

请参阅图12，图12示出了本申请又一个实施例提供的视频处理方法的流程示意图。下面将针对图12所示的流程进行详细的阐述，所示视频处理方法具体可以包括以下步骤：

步骤S410：当获取到用户输入的交互信息时，获取所述用户的用户画像。

步骤S420：获取待播放的预设视频中与所述交互信息以及所述用户画像匹配的视频图像序列，其中，所述视频图像序列包括多帧视频图像。

步骤S430：根据所述视频图像序列以及所述用户画像，确定播报虚拟人物的表现参数。

步骤S440：将执行所述表现参数的播报虚拟人物与所述视频图像序列进行整合，并获取整合后的包含所述播报虚拟人物的回复图像序列。

步骤S450：根据所述回复图像序列，生成并输出回复视频，所述回复视频用于替换所述预设视频进行播放。

在本申请实施例中，步骤S410至步骤S450可参考前述实施例中的相关描述，此处不再赘述。

在一些实施例中，除了在视频中整合播报虚拟人物外，也可以整合播报虚拟人物的播报音频。作为一种方式，该视频处理方法还可包括：

获取与所述目标内容对应的回复文本；获取与所述回复文本对应的回复音频。

在一些实施例中，终端设备在获取到用户可能会关注的目标内容后，可以获取播报虚拟人物用于向用户进行相应答复的回复文本，该回复文本与目标内容对应。例如，用户可能会关注的目标内容为A品牌店，播报虚拟人物的回复文本可以为“A品牌店的地址为XX”。

在一些实施例中，终端设备可以预先建立问答库。终端设备在获取到目标内容后，可以从问答库中查询并获取与目标内容对应的回复文本，从而在涉及到问答库已经覆盖的用户交互意向时，终端设备可以给出较为准确的答复。其中，问答库，可以是预先配置的包含了多个问答对的数据库，其中，问答对包括预存的目标内容以及与目标内容对应的预存的回复文本。每个目标内容与其匹配的回复文本对应。

在一些实施方式中，还可以基于问答库建立问答模型(可以是机器学习模型)，问答模型可以基于大量的问答对训练得到。从而通过问答模型获取与目标内容对应的回复文本，实现对于问答库中没有预存的交互意向也可以进行对应的回复，使方案的应用更加智能化。

终端设备在获取到回复文本后，可以将回复文本转换为对应的回复音频。实现播报虚拟人物可以模拟真人说话，并且利用语音配合自然的表情以及行为与用户进行多态交互。在一些实施例中，终端设备可以基于预先训练的语音合成模型，将回复文本输入语音合成模型，得到与回复文本对应的回复音频。

在一些实施例中，上述问答模型、语音合成模型可以选择CNN(ConvolutionalNeural Networks,卷积神经网络)模型，其可以通过卷积核进行特征提取，通过神经网络生成对应的输出结果。在一些实施方式中，上述问答模型、语音合成模型还可以是RNN模型，如WaveRNN。

本实施例中，上述的问答库、问答模型、语音合成模型等均可以运行于终端设备，也可以运行于服务器，在此不作限定。

在该实施例下，在步骤S450之后，该视频处理方法还可包括：

步骤S460：在播放所述回复视频的过程中，对应播放所述回复音频。

在本申请实施例中，终端设备在播放回复视频的过程中，可以对应播放回复音频，以向用户呈现出模拟的外形与声音均形似真人的虚拟人形象，提高人机交互体验。

在一些实施例中，当预设视频中存在原始音频时，可以是将回复视频中来自预设视频的原始音频部分或全部替换为回复音频，再对包含有回复音频与播报虚拟人物的回复视频进行输出。

本申请实施例提供的视频处理方法，在生成了包含执行上述表现参数的播报虚拟人物的回复视频后，还可整合播报虚拟人物对应的回复音频。以向用户呈现出模拟的外形与声音均形似真人的虚拟人形象，优化了人机交互体验。

请参阅图13，图13示出了本申请再一个实施例提供的视频处理方法的流程示意图。下面将针对图13所示的流程进行详细的阐述，所示视频处理方法具体可以包括以下步骤：

步骤S510：当获取到用户输入的交互信息时，获取所述用户的用户画像。

步骤S520：获取待播放的预设视频中与所述交互信息以及所述用户画像匹配的视频图像序列，其中，所述视频图像序列包括多帧视频图像。

步骤S530：根据所述视频图像序列以及所述用户画像，确定播报虚拟人物的表现参数。

步骤S540：将执行所述表现参数的播报虚拟人物与所述视频图像序列进行整合，并获取整合后的包含所述播报虚拟人物的回复图像序列。

步骤S550：根据所述回复图像序列，生成并输出回复视频，所述回复视频用于替换所述预设视频进行播放。

在本申请实施例中，步骤S510至步骤S550可参考前述实施例中的相关描述，此处不再赘述。

在一些实施例中，生成的回复视频的时长可以与视频图像序列的时间戳对应。作为一种实施方式，回复视频的时长与视频图像序列的时间戳对应，可以是与视频图像序列中最早时间戳与最晚时间戳对应。其中，最早时间戳为视频图像序列中各视频图像在预设视频中的播放时间先后顺序中，最早播放的视频图像对应的时间戳。最晚时间戳为视频图像序列中各视频图像在预设视频中的播放时间先后顺序中，最晚播放的视频图像对应的时间戳。终端设备可以从预设视频中获取上述最早时间戳与最晚时间戳之间的除上述视频图像序列外的其他视频图像。然后终端设备可根据其他视频图像以及回复图像序列，按照时间戳的先后顺序，生成回复视频。例如，可根据视频图像序列中的最早时间戳 4分34秒，最晚时间戳10分56秒，生成4分34秒～10分56秒的6分22秒的回复视频，其中，回复视频中可包含有整合播报虚拟人物的视频图像序列，也可包含有预设视频中的原始视频图像。

作为另一种实施方式，回复视频的时长与视频图像序列的时间戳对应，可以是视频图像序列中的视频图像帧数对应。终端设备可根据视频图像序列的播放时间先后顺序，对视频图像序列中的视频图像排序，并根据排序后的视频图像序列，生成与视频图像帧数对应的回复视频。例如，视频图像序列中包含120帧视频图像，以30帧每秒进行视频合成，得到4S的回复视频。其中，该回复视频中仅包含有整合播报虚拟人物的视频图像序列。

在一些实施例中，当回复视频的时长与视频图像序列的时间戳对应时，在步骤S550 之后，该视频处理方法还可包括：

步骤S560：根据所述视频图像在所述预设视频中的播放时间先后顺序，获取所述视频图像序列的最早时间戳。

步骤S570：调整所述预设视频的当前的播放进度至所述最早时间戳，并将所述预设视频替换为所述回复视频进行播放。

在一些实施例中，为了让用户可以快速浏览到想要关注的内容，终端设备可以在生成回复视频后，可以直接跳转到该回复视频进行播放。作为一种方式，终端设备可以获取视频图像序列中的最早时间戳，以判断回复视频在预设视频中的起始播放节点。然后终端设备可以调整预设视频的当前的播放进度至最早时间戳，并将预设视频替换为回复视频进行播放。从而实现直接跳转到用户关注的视频画面进行播放，且在该视频画面中可显示有执行表现参数的播报虚拟人物。使用户能够及时浏览到想要关注的内容，提升视频播放效果。

本申请实施例提供的视频处理方法，在生成了包含执行上述表现参数的播报虚拟人物的回复视频后，可以直接调整预设视频的当前的播放进度至回复视频的播放节点，并将预设视频替换为回复视频进行播放。使用户能够及时浏览到想要关注的内容，提升视频播放效果，优化了人机交互体验。

请参阅图14，图14示出了本申请还一个实施例提供的视频处理方法的流程示意图。下面将针对图14所示的流程进行详细的阐述，所示视频处理方法具体可以包括以下步骤：

步骤S610：当获取到用户输入的交互信息时，获取所述用户的用户画像。

步骤S620：获取待播放的预设视频中与所述交互信息以及所述用户画像匹配的视频图像序列，其中，所述视频图像序列包括多帧视频图像。

步骤S630：根据所述视频图像序列以及所述用户画像，确定播报虚拟人物的表现参数。

步骤S640：将执行所述表现参数的播报虚拟人物与所述视频图像序列进行整合，并获取整合后的包含所述播报虚拟人物的回复图像序列。

步骤S650：根据所述回复图像序列，生成并输出回复视频，所述回复视频用于替换所述预设视频进行播放。

在本申请实施例中，步骤S610至步骤S650可参考前述实施例中的相关描述，此处不再赘述。

在一些实施例中，当生成的回复视频的时长与视频图像序列的时间戳对应时，在步骤S650之后，该视频处理方法还可包括：

步骤S660：当所述预设视频的当前的播放进度在所述最早时间戳之前时，继续播放所述预设视频。

步骤S670：当所述播放进度更新至所述最早时间戳时，将所述预设视频替换为所述回复视频进行播放。

在一些实施例中，当预设视频的当前的播放进度在上述最早时间戳之前时，可以认为预设视频还未播放到回复视频对应的播放节点。终端设备可以继续播放预设视频，直至预设视频的播放进度更新至该最早时间戳时，再将预设视频替换为回复视频进行播放，避免了突然的视频跳转产生的画面视觉差异，提高了用户的观看体验，实现了视频的无缝过渡。

具体地，终端设备可实时检测预设视频的当前播放进度。并在回复视频生成后，根据视频图像序列的最早时间戳确定回复视频的播放节点。终端设备可以判断预设视频的当前播放进度是否早于该回复视频的播放节点，如果确定早于，终端设备可以不作处理。直至达到回复视频的播放节点时，将预设视频替换为回复视频进行播放。作为一种方式，可以是在达到回复视频的播放节点之前的一定时间内，将缓存区缓存的待播放的预设视频的图像数据替换为回复视频的图像数据，以保证达到回复视频的播放节点时，能及时替换为回复视频来播放。

本申请实施例提供的视频处理方法，通过优化了人机交互体验。

请参阅图15，图15示出了本申请又另一个实施例提供的视频处理方法的流程示意图。下面将针对图15所示的流程进行详细的阐述，所示视频处理方法具体可以包括以下步骤：

步骤S710：当获取到用户输入的交互信息时，获取所述用户的用户画像。

步骤S720：获取待播放的预设视频中与所述交互信息以及所述用户画像匹配的视频图像序列，其中，所述视频图像序列包括多帧视频图像。

步骤S730：根据所述视频图像序列以及所述用户画像，确定播报虚拟人物的表现参数。

步骤S740：将执行所述表现参数的播报虚拟人物与所述视频图像序列进行整合，并获取整合后的包含所述播报虚拟人物的回复图像序列。

在本申请实施例中，步骤S710至步骤S740可参考前述实施例中的相关描述，此处不再赘述。

在一些实施例中，终端设备也可以是将整个预设视频重新生成。具体地，请参阅图16，上述获取整合后的包含所述播报虚拟人物的回复图像序列，可以包括：

步骤S741：获取整合所述播报虚拟人物后的整合视频图像序列。

步骤S742：获取所述预设视频中除所述视频图像序列外的其他视频图像。

步骤S743：根据所述整合视频图像序列以及所述其他视频图像的时间戳的时间先后顺序，生成回复图像序列。

在一些实施例中，终端设备在将播报虚拟人物与视频图像序列进行整合后，可以获取整合播报虚拟人物后的整合视频图像序列。然后再获取预设视频中除视频图像序列外的其他视频图像，也即预设视频中除视频图像序列外的其他原始视频图像。然后根据整合视频图像序列以及其他视频图像的时间戳的时间先后顺序，生成回复图像序列。以实现对整个预设视频重新生成。

步骤S750：根据所述回复图像序列，生成并输出回复视频，所述回复视频用于替换所述预设视频进行播放。

在本申请实施例中，步骤S750可参考前述实施例中的相关描述，此处不再赘述。

在一些实施例中，在步骤S750之后，该视频处理方法还可包括：

步骤S760：在重复指定次数播放所述回复视频之后，恢复播放所述预设视频。

在一些实施例中，为保证用户可清楚浏览到想要关注的内容，可以将回复视频进行重复播放。但为保证下一位用户可查询，终端设备可在播放指定次数后，恢复播放原始的预设视频。其中，指定次数可预存于终端设备，可由服务商进行设定，也可以是出厂默认值，在此并不作限定。

本申请实施例提供的视频处理方法，可以在播放回复视频后，恢复播放预设视频，以实现多用户的查询，优化了人机交互体验。

可以理解的是，上述实施例中上述的各个步骤，可以均由终端设备在本地进行，也可以均在服务器中进行，还可以由终端设备与服务器分工进行，根据实际应用场景的不同，可以按照需求进行任务的分配，以实现最优化的拟真机器人客服体验，在此并不作限定。

应该理解的是，虽然图2、图4、图5～图16的流程示意图中的各个步骤执行并没有严格的顺序限制，这些步骤也可以以其它的顺序执行。而且，图2、图4、图5～图16中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，也可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，也可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

请参阅图17，图17示出了本申请一个实施例提供的一种视频处理装置的模块框图。下面将针对图17所示的模块框图进行阐述，视频处理装置900包括：信息获取模块910、图像获取模块920、参数获取模块930、图像整合模块940以及视频生成模块950，其中：

信息获取模块910，用于当获取到用户输入的交互信息时，获取所述用户的用户画像；

图像获取模块920，用于获取待播放的预设视频中与所述交互信息以及所述用户画像匹配的视频图像序列，其中，所述视频图像序列包括多帧视频图像；

参数获取模块930，用于根据所述视频图像序列以及所述用户画像，确定播报虚拟人物的表现参数；

图像整合模块940，用于将执行所述表现参数的播报虚拟人物与所述视频图像序列进行整合，并获取整合后的包含所述播报虚拟人物的回复图像序列；

视频生成模块950，用于根据所述回复图像序列，生成并输出回复视频，所述回复视频用于替换所述预设视频进行播放。

在一些实施方式中，图像获取模块920可包括：内容获取单元，用于获取待播放的预设视频中与所述交互信息以及所述用户画像匹配的目标内容；序列获取单元，用于获取包含有所述目标内容的视频图像序列；

在该实施例下，参数获取模块930可包括：坐标获取单元，用于获取所述目标内容在所述视频图像序列的每帧视频图像中的像素坐标；参数确定单元，用于根据所述像素坐标以及所述用户画像，确定播报虚拟人物的表现参数，所述表现参数用于驱动所述播报虚拟人物朝向所述目标内容。

进一步地，在一些实施方式中，参数获取模块930也可包括：人物获取单元，用于获取预先设置的多个虚拟人物；目标获取单元，用于从所述多个虚拟人物中获取与所述用户画像匹配的目标虚拟人物，作为播报虚拟人物；表现确定单元，用于根据所述像素坐标以及所述用户画像，确定所述播报虚拟人物的表现参数。

在一些实施方式中，用户画像可包括着装信息，表现参数可包括肢体动作参数，参数获取模块930还可包括：风格确定单元，用于根据所述着装信息，确定所述用户的着装风格；动作确定单元，用于根据所述着装风格，确定播报虚拟人物的动作风格；肢体确定单元，用于根据所述像素坐标以及所述动作风格，确定所述播报虚拟人物的肢体动作参数，所述肢体动作参数用于驱动所述播报虚拟人物的肢体指向所述目标内容。

在一些实施方式中，预设视频中可包括播报虚拟人物，表现参数可包括辅助工具参数，该视频处理装置900还可包括：人物坐标获取模块，用于获取所述播报虚拟人物在所述视频图像序列的每帧视频图像中的人物坐标；辅助参数获取模块，用于根据所述像素坐标、人物坐标以及所述动作风格，确定所述播报虚拟人物的辅助工具参数，所述辅助工具参数用于驱动所述辅助工具指向所述目标内容。

在一些实施方式中，上述内容获取单元可具体用于：识别并获取所述交互信息中的关键信息；根据所述用户画像以及所述关键信息，确定内容特征，所述内容特征用于表征所述用户所关注的内容的特征信息；从待播放的预设视频中获取与所述内容特征匹配的目标内容。

在一些实施方式中，该视频处理装置900还可包括：文本确定模块，用于获取与所述目标内容对应的回复文本；音频确定模块，用于获取与所述回复文本对应的回复音频；播放模块，用于在播放所述回复视频的过程中，对应播放所述回复音频。

在一些实施方式中，预设视频可包括预设音频，序列获取单元可具体用于：获取所述预设音频中与所述交互信息以及所述用户画像匹配的目标音频；获取所述预设视频中包含有所述目标内容的所有视频图像；根据所述所有视频图像以及所述目标音频的时间戳，确定所述所有视频图像中与所述时间戳匹配的一张或多张目标视频图像，作为包含有所述目标内容的视频图像序列。

在一些实施方式中，回复视频的时长与所述视频图像序列的时间戳对应，该视频处理装置900还可包括：时间获取模块，用于根据所述视频图像在所述预设视频中的播放时间先后顺序，获取所述视频图像序列的最早时间戳；进度调整模块，用于调整所述预设视频的当前的播放进度至所述最早时间戳，并将所述预设视频替换为所述回复视频进行播放。

在一些实施方式中，该视频处理装置900还可包括：播放控制模块，用于当所述预设视频的当前的播放进度在所述最早时间戳之前时，继续播放所述预设视频；视频替换模块，用于当所述播放进度更新至所述最早时间戳时，将所述预设视频替换为所述回复视频进行播放。

在一些实施方式中，该视频处理装置900还可包括：恢复播放模块，用于在重复指定次数播放所述回复视频之后，恢复播放所述预设视频。

在一些实施方式中，图像整合模块940可具体用于：获取整合所述播报虚拟人物后的整合视频图像序列；获取所述预设视频中除所述视频图像序列外的其他视频图像；根据所述整合视频图像序列以及所述其他视频图像的时间戳的时间先后顺序，生成回复图像序列。

本申请实施例提供的视频处理装置用于实现前述方法实施例中相应的视频处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的视频处理装置能够实现上述方法实施例中的各个过程，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参阅前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图18，其示出了本申请实施例提供的一种电子设备600的结构框图。该电子设备600可以是智能手机、平板电脑、电子书等能够运行应用程序的终端设备，也可以是上述服务器。本申请中的电子设备600可以包括一个或多个如下部件：处理器610、存储器620以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器620 中并被配置为由一个或多个处理器610执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器610可以包括一个或者多个处理核。处理器610利用各种接口和线路连接整个电子设备600内的各个部分，通过运行或执行存储在存储器620内的指令、程序、代码集或指令集，以及调用存储在存储器620内的数据，执行电子设备600的各种功能和处理数据。可选地，处理器610可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列 (ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器610可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit， GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器610中，单独通过一块通信芯片进行实现。

存储器620可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器620可用于存储指令、程序、代码、代码集或指令集。存储器620可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备600在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

进一步地，电子设备600还可以包括显示屏，所述显示屏可以为液晶显示屏(Liquid Crystal Display，LCD)，可以为有机发光二极管(Organic Light-EmittingDiode，OLED) 等。所述显示屏用于显示由用户输入的信息、提供给用户的信息以及各种图形用户接口，这些图形用户接口可以由图形、文本、图标、数字、视频和其任意组合来构成。

本领域技术人员可以理解，图18中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图18中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

请参阅图19，其示出了本申请实施例提供的一种计算机可读存储介质的模块框图。该计算机可读存储介质1100中存储有程序代码1110，所述程序代码1110可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1100可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1100 包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1100具有执行上述方法中的任何方法步骤的程序代码1110的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1110可以例如以适当形式进行压缩。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

当获取到用户输入的交互信息时，获取所述用户的用户画像；

获取待播放的预设视频中与所述交互信息以及所述用户画像匹配的目标内容；

获取包含有所述目标内容的视频图像序列，其中，所述视频图像序列包括多帧视频图像；

获取所述目标内容在所述视频图像序列的每帧视频图像中的像素坐标；

根据所述像素坐标以及所述用户画像，确定播报虚拟人物的表现参数，所述表现参数用于驱动所述播报虚拟人物朝向所述目标内容；

将执行所述表现参数的播报虚拟人物与所述视频图像序列进行整合，并获取整合后的包含所述播报虚拟人物的回复图像序列；

根据所述回复图像序列，生成并输出回复视频，所述回复视频用于替换所述预设视频进行播放。

2.根据权利要求1所述的方法，其特征在于，所述根据所述像素坐标以及所述用户画像，确定播报虚拟人物的表现参数，包括：

获取预先设置的多个虚拟人物；

从所述多个虚拟人物中获取与所述用户画像匹配的目标虚拟人物，作为播报虚拟人物；

根据所述像素坐标以及所述用户画像，确定所述播报虚拟人物的表现参数。

3.根据权利要求1所述的方法，其特征在于，所述用户画像包括着装信息，所述表现参数包括肢体动作参数，所述根据所述像素坐标以及所述用户画像，确定播报虚拟人物的表现参数，包括：

根据所述着装信息，确定所述用户的着装风格；

根据所述着装风格，确定播报虚拟人物的动作风格；

根据所述像素坐标以及所述动作风格，确定所述播报虚拟人物的肢体动作参数，所述肢体动作参数用于驱动所述播报虚拟人物的肢体指向所述目标内容。

4.根据权利要求3所述的方法，其特征在于，所述预设视频中包括所述播报虚拟人物，所述表现参数包括辅助工具参数，在所述根据所述像素坐标以及所述动作风格，确定所述播报虚拟人物的肢体动作参数之后，所述方法还包括：

获取所述播报虚拟人物在所述视频图像序列的每帧视频图像中的人物坐标；

根据所述像素坐标、人物坐标以及所述动作风格，确定所述播报虚拟人物的辅助工具参数，所述辅助工具参数用于驱动所述辅助工具指向所述目标内容。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述获取待播放的预设视频中与所述交互信息以及所述用户画像匹配的目标内容，包括：

识别并获取所述交互信息中的关键信息；

根据所述用户画像以及所述关键信息，确定内容特征，所述内容特征用于表征所述用户所关注的内容的特征信息；

从待播放的预设视频中获取与所述内容特征匹配的目标内容。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

获取与所述目标内容对应的回复文本；

获取与所述回复文本对应的回复音频；

在所述根据所述回复图像序列，生成并输出回复视频之后，所述方法还包括：

在播放所述回复视频的过程中，对应播放所述回复音频。

7.根据权利要求1-4任一项所述的方法，其特征在于，所述预设视频包括预设音频，所述获取包含有所述目标内容的视频图像序列，包括：

获取所述预设音频中与所述交互信息以及所述用户画像匹配的目标音频；

获取所述预设视频中包含有所述目标内容的所有视频图像；

根据所述所有视频图像以及所述目标音频的时间戳，确定所述所有视频图像中与所述时间戳匹配的一张或多张目标视频图像，作为包含有所述目标内容的视频图像序列。

8.根据权利要求1-4任一项所述的方法，其特征在于，所述回复视频的时长与所述视频图像序列的时间戳对应，在所述根据所述回复图像序列，生成并输出回复视频之后，所述方法还包括：

根据所述视频图像在所述预设视频中的播放时间先后顺序，获取所述视频图像序列的最早时间戳；

调整所述预设视频的当前的播放进度至所述最早时间戳，并将所述预设视频替换为所述回复视频进行播放。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

当所述预设视频的当前的播放进度在所述最早时间戳之前时，继续播放所述预设视频；

当所述播放进度更新至所述最早时间戳时，将所述预设视频替换为所述回复视频进行播放。

10.根据权利要求8所述的方法，其特征在于，在所述根据所述回复图像序列，生成并输出回复视频之后，所述方法还包括：

在重复指定次数播放所述回复视频之后，恢复播放所述预设视频。

11.根据权利要求1-4任一项所述的方法，其特征在于，所述获取整合后的包含所述播报虚拟人物的回复图像序列，包括：

获取整合所述播报虚拟人物后的整合视频图像序列；

获取所述预设视频中除所述视频图像序列外的其他视频图像；

根据所述整合视频图像序列以及所述其他视频图像的时间戳的时间先后顺序，生成回复图像序列。

12.一种视频处理装置，其特征在于，所述装置包括：

信息获取模块，用于当获取到用户输入的交互信息时，获取所述用户的用户画像；

图像获取模块，用于获取待播放的预设视频中与所述交互信息以及所述用户画像匹配的目标内容；获取包含有所述目标内容的视频图像序列，其中，所述视频图像序列包括多帧视频图像；

参数获取模块，用于获取所述目标内容在所述视频图像序列的每帧视频图像中的像素坐标；根据所述像素坐标以及所述用户画像，确定播报虚拟人物的表现参数，所述表现参数用于驱动所述播报虚拟人物朝向所述目标内容；

图像整合模块，用于将执行所述表现参数的播报虚拟人物与所述视频图像序列进行整合，并获取整合后的包含所述播报虚拟人物的回复图像序列；

视频生成模块，用于根据所述回复图像序列，生成并输出回复视频，所述回复视频用于替换所述预设视频进行播放。

13.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行如权利要求1-11任一项所述的方法。

14.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-11任一项所述的方法。