CN112633236A

CN112633236A - 图像处理方法、装置、电子设备及存储介质

Info

Publication number: CN112633236A
Application number: CN202011632542.2A
Authority: CN
Inventors: 杨国基; 刘致远; 陈泷翔; 刘炫鹏; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-09

Abstract

本申请实施例提供一种图像处理方法、装置、电子设备及存储介质，涉及图像处理技术领域。该方法应用于服务器，包括：获取终端设备的性能状态；根据所述性能状态，通过数字人模型生成待处理信息，所述待处理信息包括待处理的至少一帧视频图像以及待处理的光流信息；将所述至少一帧视频图像以及所述光流信息发送给所述终端设备，以使所述终端设备根据所述光流信息对所述至少一帧视频图像进行插帧处理。由于光流信息的数据量较小，故生成光流信息需要的计算量较小，传输光流信息需要的计算量也较小，进而该方法可以节省服务器的计算资源，提高服务器的计算速度，进而减小系统负担。

Description

图像处理方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及图像处理技术领域，更具体地，涉及一种图像处理方法、装置、电子设备及存储介质。

背景技术

随着图像处理技术以及计算机技术等领域的发展，人工智能成为人们广泛研究的主题。其中，人工智能包括的数字人可以用于银行、新闻播报等领域。目前，在数字人与用户进行实时交互的过程中，需要实时合成数字人形象。众所周知，合成数字人形象需要通过一帧一帧的视频图像合成数字人视频，因此合成数字人形象生成效率低，成本较高，还需要占用非常多的系统内存，增加了系统负担。

发明内容

本申请实施例提供一种图像处理方法、装置、电子设备及存储介质，以解决上述问题。

第一方面，本申请实施例提供一种图像处理方法，应用于服务器，该方法包括：获取终端设备的性能状态；根据性能状态，通过数字人模型生成待处理信息，待处理信息包括待处理的至少一帧视频图像以及待处理的光流信息；将至少一帧视频图像以及光流信息发送给终端设备，以使终端设备根据光流信息对至少一帧视频图像进行插帧处理。

可选地，根据性能状态，通过数字人模型生成待处理信息，包括：当性能状态满足第一预设状态时，确定与第一预设状态对应的第一图像处理策略以及第一数字人模型；根据第一图像处理策略，控制第一数字人模型生成待处理的首帧视频图像以及待处理的目标视频图像序列中的每帧视频图像对应的光流信息，目标视频图像序列包括首帧视频图像。

可选地，当性能状态满足第一预设状态时，确定与第一预设状态对应的第一图像处理策略以及第一数字人模型之前，该图像处理方法还包括：获取样本训练集，样本训练集包括样本交互信息、样本交互信息对应的多帧样本视频图像以及多帧样本视频图像分别对应的光流信息；将样本交互信息作为输入，将首帧样本视频图像以及多帧样本视频图像分别对应的光流信息作为输出，基于机器学习算法训练得到第一数字人模型。

可选地，根据性能状态，通过数字人模型生成待处理信息，包括：当性能状态满足第二预设状态时，确定与第二预设状态对应的第二图像处理策略以及第二数字人模型；根据第二图像处理策略，控制第二数字人模型生成待处理的多帧视频图像以及待处理的多帧视频图像分别对应的光流信息。

可选地，在当性能状态满足第二预设状态时，确定与第二预设状态对应的第二图像处理策略以及第二数字人模型之前，该图像处理方法还包括：获取样本训练集，样本训练集包括样本交互信息、样本交互信息对应的多帧样本视频图像以及多帧样本视频图像分别对应的光流信息；将样本交互信息作为输入，将多帧样本视频图像以及光流信息作为输出，基于机器学习算法训练得到第二数字人模型。

可选地，获取终端设备的性能状态之后，该图像处理方法还包括：当性能状态不满足目标状态时，通过默认数字人模型生成默认视频图像，默认视频图像为服务器根据用户输入的交互信息确定的默认答复视频图像，目标状态用于表征终端设备执行插帧处理操作时所需的最低性能状态；根据默认视频图像，生成默认答复视频，将默认答复视频发送至终端设备。

第二方面，本申请实施例提供一种图像处理方法，应用于终端设备，该方法包括：接收服务端发送的待处理的至少一帧视频图像以及待处理的光流信息；根据至少一帧视频图像以及光流信息对至少一帧视频图像进行插帧处理；获取插帧处理后的目标视频图像序列。

可选地，待处理的至少一帧视频图像为首帧视频图像，待处理的光流信息为待处理的目标视频图像序列中的每帧视频图像对应的光流信息，根据至少一帧视频图像以及光流信息对至少一帧视频图像进行插帧处理，包括：根据首帧视频图像以及光流信息生成中间帧视频图像；根据中间帧视频图像以及中间帧视频图像对应的光流信息生成最终帧视频图像；根据首帧视频图像、中间帧视频图像以及最终帧视频图像合成目标视频图像序列。

可选地，待处理的至少一帧视频图像为多帧视频图像，多帧视频图像包括多组相邻的视频帧图像，多组相邻的视频帧图像中的每一组相邻的视频帧图像包括前向帧视频图像和后向帧视频图像，待处理的光流信息为多帧视频图像对应的光流信息，根据至少一帧视频图像以及光流信息对至少一帧视频图像进行插帧处理，包括：根据前向帧视频图像以及前向帧视频图像对应的光流信息确定第一过渡帧视频图像；根据后向帧视频图像以及后向帧视频图像对应的光流信息确定第二过渡帧视频图像；根据第一过渡帧视频图像以及第二过渡帧视频图像生成目标过渡帧视频图像；将目标过渡帧视频图像插入至前向帧视频图像和后向帧视频图像之间，以生成目标视频图像序列。

可选地，待处理的至少一帧视频图像为服务器根据用户输入的交互信息生成的默认答复视频，接收服务器发送的待处理的至少一帧视频图像之后，该图像处理方法还包括：接收服务器发送的默认答复视频，并将默认答复视频作为目标视频图像序列；输出目标视频图像序列。

第三方面，本申请实施例提供一种图像处理方法，应用于图像处理系统，该图像处理系统包括服务器和终端设备，该服务器和终端设备电性连接，该方法包括：服务器获取终端设备的性能状态；服务器根据所述性能状态，通过数字人模型生成的待处理信息，待处理信息包括待处理的至少一帧视频图像以及待处理的光流信息；服务器将至少一帧视频图像以及光流信息发送给终端设备；终端设备根据所述至少一帧视频图像以及光流信息对至少一帧视频图像进行插帧处理；终端设备获取插帧处理后的目标视频图像序列。

第四方面，本申请实施例提供一种图像处理装置，应用于服务器，该装置包括：获取模块，用于获取终端设备的性能状态；生成模块，用于根据性能状态，通过数字人模型生成的待处理信息，待处理信息包括待处理的至少一帧视频图像以及待处理的光流信息；发送模块，用于将至少一帧视频图像以及光流信息发送给终端设备，以使终端设备根据光流信息对至少一帧视频图像进行插帧处理。

可选地，生成模块包括：第一确定子模块，用于当性能状态满足第一预设状态时，确定与第一预设状态对应的第一图像处理策略以及第一数字人模型；第一生成子模块，用于根据第一图像处理策略，控制第一数字人模型生成待处理的首帧视频图像以及待处理的目标视频图像序列中的每帧视频图像对应的光流信息，目标视频图像序列包括首帧视频图像。

可选地，该图像处理装置还包括：第一样本获取模块，用于获取样本训练集，样本训练集包括样本交互信息、样本交互信息对应的多帧样本视频图像以及所多帧样本视频图像分别对应的光流信息；第一模型训练模块，用于将样本交互信息作为输入，将首帧样本视频图像以及多帧样本视频图像分别对应的光流信息作为输出，基于机器学习算法训练得到第一数字人模型。

可选地，生成模块还包括：第二确定子模块，用于当性能状态满足第二预设状态时，确定与第二预设状态对应的第二图像处理策略以及第二数字人模型；第二生成子模块，用于根据第二图像处理策略，控制第二数字人模型生成待处理的多帧视频图像以及待处理的多帧视频图像分别对应的光流信息。

可选地，图像处理装置还包括：第二样本获取模块，用于获取样本训练集，样本训练集包括样本交互信息、样本交互信息对应的多帧样本视频图像以及多帧样本视频图像分别对应的光流信息；第二模型训练模块，用于将样本交互信息作为输入，将多帧样本视频图像以及光流信息作为输出，基于机器学习算法训练得到第二数字人模型。

可选地，生成模块还包括：第三确定子模块，用于当性能状态不满足目标状态时，通过默认数字人模型生成默认视频图像，默认视频图像为服务器根据用户输入的交互信息确定的默认答复视频图像，目标状态用于表征终端设备执行插帧处理操作时所需的最低性能状态；第三生成子模块，用于根据默认视频图像，生成默认答复视频，将默认答复视频发送至客户端。

第五方面，本申请实施例提供一种图像处理装置，应用于终端设备，该装置包括：接收模块，用于接收服务端发送的待处理的至少一帧视频图像以及待处理的光流信息；处理模块，用于根据至少一帧视频图像以及光流信息对至少一帧视频图像进行插帧处理；合成模块，用于获取插帧处理后的目标视频图像帧序列。

可选地，待处理的至少一帧视频图像为首帧视频图像，待处理的光流信息为待处理的目标视频图像虚了中的每帧视频图像对应的光流信息。处理模块包括：第一生成子模块，用于根据首帧视频图像以及首帧视频图像对应的光流信息生成中间帧视频图像；第二生成子模块，用于根据中间帧视频图像以及中间帧视频图像对应的光流信息生成最终帧视频图像；合成子模块，用于根据首帧视频图像、中间帧视频图像以及最终帧视频图像合成目标视频图像序列。

可选地，待处理的至少一帧视频图像为多帧视频图像，多帧视频图像包括多组相邻的视频帧图像，多组相邻的视频帧图像中的每一组相邻的视频帧图像包括前向帧视频图像和后向帧视频图像，待处理的光流信息为多帧视频图像对应的光流信息。处理模块还包括：第一过渡帧确定子模块，用于根据前向帧视频图像以及前向帧视频图像对应的光流信息确定第一过渡帧视频图像；第二过渡帧确定子模块，用于根据后向帧视频图像以及后向帧视频图像对应的光流信息确定第二过渡帧视频图像；目标过渡帧生成子模块，用于根据第一过渡帧视频图像以及第二过渡帧视频图像生成目标过渡帧视频图像；序列生成子模块，用于将目标过渡帧视频图像插入至前向帧视频图像和后向帧视频图像之间，以生成目标视频图像序列。

可选地，待处理的至少一帧视频图像为服务器根据用户输入的交互信息生成的默认答复视频，该图像处理装置还包括：确定模块，用于将默认答复视频作为目标视频图像序列；输出模块，用于输出目标视频图像序列。

第六方面，本申请实施例提供一种电子设备，该电子设备包括存储器；一个或多个处理器，该一个或多个处理器与存储器耦接；一个或多个应用程序，其中，一个或多个应用程序被存储在存储器中，并被配置为由一个或多个处理器执行，该一个或多个应用程序配置用于执行本申请实施例提供的图像处理方法。

第七方面，本申请实施例提供一种计算机可读取存储介质，该计算机可读取存储介质中存储有程序代码，该程序代码可被处理器调用执行本申请实施例提供的图像处理方法。

本申请实施例提供一种图像处理方法、装置、电子设备及存储介质。该方法应用于服务器，该方法通过获取终端设备的性能状态；根据性能状态，通过数字人模型生成待处理信息，待处理信息包括待处理的至少一帧视频图像以及待处理的光流信息；将至少一帧视频图像以及光流信息发送给所述终端设备，以使终端设备根据光流信息对至少一帧视频图像进行插帧处理。由于光流信息的数据量较小，故生成光流信息需要的计算量较小，传输光流信息需要的计算量也较小，进而该方法可以节省服务器的计算资源，提高服务器的计算速度，并减小系统负担。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。需要说明的是，以下描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的一种图像处理方法的应用环境示意图；

图2示出了本申请另一实施例提供的一种图像处理方法的流程示意图；

图3示出了本申请又一实施例提供的一种图像处理方法的流程示意图；

图4示出了本申请再一实施例提供的一种图像处理方法的流程示意图；

图5示出了本申请还一实施例提供的一种图像处理方法的流程示意图；

图6示出了本申请又另一实施例提供的一种图像处理方法的流程示意图；

图7示出了本申请又再一实施例提供的一种图像处理方法的流程示意图；

图8示出了本申请又还一实施例提供的一种图像处理方法的流程示意图；

图9示出了本申请再另一实施例提供的一种图像处理方法的流程示意图；

图10示出了本申请再又一实施例提供的一种图像处理方法的流程示意图；

图11示出了本申请一示例性实施例提供的一种执行图像处理方法的过程示意图；

图12示出了本申请一实施例提供的一种图像处理装置的结构框图；

图13示出了本申请另一实施例提供的一种图像处理装置的结构框图；

图14示出了本申请一实施例提供的一种电子设备的结构框图；

图15示出了本申请一实施例提供的一种计算机可读取存储介质的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序和先后次序。

请参阅图1，图1示出了本申请一实施例提供的一种图像处理的应用环境示意图。其中，图像处理系统100可以包括服务器110以及终端设备120。服务器110与终端设备120电性连接。服务器110可以是云服务器，也可以是传统服务器。终端设备120可以包括但不限于智能机器人、平板电脑、智能手机等，本申请实施例对终端设备120的具体类型不作限制。服务器110与终端设备120可以通过无线保真(Wireless-Fidelity，WI-FI)以及蜂窝等技术进行通信并进行数据交互。

请参阅图2，图2示出了本申请另一实施例提供的一种图像处理方法的流程示意图。其中，图像处理方法应用于服务器110，该方法具体可以包括如下步骤：

步骤S110：获取终端设备的性能状态。

其中，终端设备120的性能状态可以根据终端设备120的计算资源确定，更具体地可以根据终端设备120的计算能力(即算力，也称哈希率)确定。一般具有较好配置的终端设备120的算力较高，而算力较高的终端设备的性能状态较好，其中，终端设备120的配置可以包括中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics ProcessingUnit，GPU)以及内存等至少一种配置；一般拥有较差配置的终端设备120的算力较低，而算力较低的终端设备的性能状态较差。此外，一般终端设备120的CPU或/和GPU当前处理的内容越少，内存越大，可以确定此时终端设备120的系统空闲，终端设备120的算力高，则此时终端设备的性能状态好；而一般终端设备的CPU/和GPU当前处理的内容越多，内存越小，可以确定此时终端设备的系统繁忙，终端设备120的算力低，则此时终端设备的性能状态差。其中，判断终端设备120的系统繁忙程度可以由终端设备120(或者服务器110)获取终端设备120的正在运行的应用(或者负载)数量，当应用(或者负载)数量超过系统阈值时，则可以确定系统繁忙，当应用(或者负载)数量不超过系统阈值时，则可以确定系统空闲。其中，系统阈值可以根据实际需求进行设置，比如，系统阈值可以是5。上述确定终端设备的性能状态的方式仅为示例，在此不作限定。

在一些实施方式中，服务器110可以接收终端设备120发送的状态信息。其中，状态信息可以包括终端设备120的配置信息以及当前终端设备120的系统繁忙状态。其中，配置信息可以包括终端设备120的CPU的可以被调配的部分占总量的百分比、GPU的可以被调配的部分占总量的百分比以及终端设备120的剩余的内存占总内存的百分比中至少一种。系统繁忙状态可以包括系统空闲、系统繁忙等状态。服务器可以根据终端设备发送的状态信息确定终端设备120的性能状态。

接下来以配置信息为终端设备120的CPU的可以被调配的部分占总量的百分比、GPU的可以被调配的部分占总量的百分比以及终端设备120的剩余的内存占总内存的百分比为例，说明服务器110如何获取终端设备120的性能状态。

需要说明的是，在接下来的实施方式中，第一CPU阈值、第一GPU阈值、第一内存阈值、第二CPU阈值、第二GPU阈值以及第二内存阈值都可以根据实际需求进行设置，本申请实施例对这些阈值的取值不作具体限制。比如，第一CPU阈值可以为75％；第一GPU阈值可以为80％；第一内存阈值可以为60％；第二CPU阈值可以为50％；第二GPU阈值可以为50％以及第二内存阈值可以为40％。

在一些实施方式中，服务器110可以获取终端设备120的CPU的可以被调配的部分占总量的百分比、GPU的可以被调配的部分占总量的百分比以及终端设备120的剩余的内存占总内存的百分比。当CPU的可以被调配的部分占总量的百分比大于第一CPU阈值、GPU的可以被调配的部分占总量的百分比大于第一GPU阈值以及剩余的内存占总内存的百分比大于第一内存阈值时，可以说明此时终端设备120的算力非常高，进而可以确定终端设备120的性能状态非常好；当CPU的可以被调配的部分占总量的百分比小于第一CPU阈值大于第二CPU阈值、GPU的可以被调配的部分占总量的百分比小于第一GPU阈值大于第二GPU阈值以及剩余的内存占总内存的百分比小于第一内存阈值大于第二内存阈值时，可以说明此时终端设备120的算力较高，进而可以确定终端设备120的性能状态较好；当CPU的可以被调配的部分占总量的百分比小于第二CPU阈值、GPU的可以被调配的部分占总量的百分比小于第二GPU阈值以及剩余的内存占总内存的百分比小于第二内存阈值时，可以说明此时终端设备120的算力较低，进而可以确定终端设备120的性能状态较差。

步骤S120：根据性能状态，通过数字人模型生成待处理信息，其中，待处理信息包括待处理的至少一帧视频图像以及待处理的光流信息。

在本实施例中，服务器110可以根据用户输入的交互信息预先训练数字人模型，该数字人模型用来生成视频图像、光流信息、视频序列等至少一种。其中，用户输入的交互信息可以包括一段语音，一段文字等内容，还可以包括用户点击终端设备120的按键时，终端设备120生成的内容等，本申请对用户输入交互信息的形式以及交互信息的内容不做具体限制。

其中，待处理信息可以是数字人模型根据用户输入的交互信息生成的信息。

其中，至少一帧视频图像可以是一帧视频图像，也可以是多帧视频图像，还可以是视频图像序列等，本申请对至少一帧视频图像的内容不作具体限制。

其中，待处理的光流信息可以是视频图像序列中的每相邻两帧图像之间的图像变化信息，该图像变化信息可以包括图像亮度的变化信息以及图像色度的变化信息等至少一种。比如，首帧视频图像对应的第一光流信息可以是首帧视频图像运动至第二帧视频图像之间的图像变化信息；第二帧视频图像对应的第二光流信息可以是第二帧视频图像运动至第三帧视频图像之间的图像变化信息；以此类推，倒数第二帧视频图像对应的光流信息(即最后的光流信息)可以是倒数第二帧视频图像运动至倒数第一帧视频图像之间的图像变化信息。

在一些实施方式中，承接上述对S110的描述，当终端设备120的性能状态非常好时，服务器110可以控制数字人模型生成首帧视频图像以及光流信息。

在另一些实施方式中，承接上述对S110的描述，当终端设备120的性能状态较好时，服务器110可以控制数字人模型生成多帧视频图像以及光流信息，其中，多帧视频图像可以包括默认答复视频图像序列中的关键帧图像。

在又一些实施方式中，承接上述对S110的描述，当终端设备120的性能状态较差时，服务器110可以控制数字人模型生成默认答复视频图像序列。

步骤S130：将至少一帧视频图像以及光流信息发送给终端设备，以使终端设备根据光流信息对至少一帧视频图像进行插帧。

在一些实施方式中，当至少一帧视频图像为首帧视频图像时，待处理的光流信息为待处理的目标视频图像序列中的每帧视频图像对应的光流信息，服务器110可以将首帧视频图像以及待处理的目标视频图像序列中的每帧视频图像对应的光流信息发送至终端设备120。

在另一些实施方式中，当至少一帧视频图像为多帧视频图像时，待处理的光流信息为该多帧视频图像分别对应的光流信息，服务器110可以将多帧视频图像以及该多帧视频图像分别对应的光流信息发送至终端设备120。

在又一些实施方式中，当至少一帧视频图像为默认答复视频图像序列是，服务器110可以将默认答复视频图像序列发送至终端设备120。

本申请实施例提供的图像处理方法通过获取终端设备的性能状态；根据性能状态，通过数字人模型生成待处理信息，其中，待处理信息包括待处理的至少一帧视频图像以及待处理的光流信息；将至少一帧视频图像以及光流信息发送给终端设备，以使终端设备根据光流信息对至少一帧视频图像进行插帧。从而在图像处理过程中加入光流信息。由于光流信息的数据量较小，故生成光流信息需要的计算量较小，传输光流信息需要的计算量也较小，进而该方法可以节省服务器的计算资源，提高服务器的计算速度，进而减小系统负担。

请参阅图3，图3示出了本申请又一实施例提供的一种图像处理方法的流程示意图。该图像处理方法应用于服务器。该图像处理方法具体可以包括如下步骤：

步骤S210：获取终端设备的性能状态。

其中，步骤S210的具体描述请参阅步骤S110，在此不再赘述。

步骤S220：获取样本训练集，样本训练集包括样本交互信息、样本交互信息对应的多帧样本视频图像以及多帧样本视频图像分别对应的光流信息。

在本实施例中，样本训练集可以为多个样本的集合，可以用于训练数字人模型，样本训练集可以包括多段视频，多张图像以及多段语音等至少一种内容，本申请实施例对样本训练集的具体内容不作限制。样本训练集可以在多个场景进行采集，比如，可以在银行的工作人员为客户办理业务的场景中，采集客户与银行工作人员的交谈信息；还可以在录制新闻联播的场景中，采集新闻播报者播报时的神态、动作等信息。本申请对样本训练集的采集方式以及具体内容不作限制。

其中，样本交互信息可以包括用户的交谈信息，用户的语音以及用户交谈时的神态、动作等至少一种信息。本申请实施例对样本交互信息的具体内容不作限制。

其中，样本交互信息对应的多帧样本视频图像可以包括对样本交互信息进行答复的样本视频图像序列。

其中，多帧样本视频图像分别对应的光流信息可以是多帧样本视频图像中的每相邻两帧视频图像之间的图像变化信息，该图像变化信息可以包括图像亮度的变化信息以及图像色度的变化信息等至少一种。比如，第一帧样本视频图像对应的光流信息可以是第一帧样本视频图像运动至第二帧样本视频图像之间的图像变化信息；第二帧样本视频图像对应的光流信息可以是第二帧样本视频图像运动至第三帧样本视频图像之间的图像变化信息；以此类推，倒数第二帧视频图像对应的光流信息可以是倒数第二帧视频图像运动至倒数第一帧视频图像之间的图像变化信息。

在一些实施方式中，服务器110可以与摄像机(或录像机等)、电脑连接。摄像机(或者录像机)可以录制或者拍摄样本训练集，并将采集到的样本训练集通过视频采集卡存储到电脑中。其中，视频采集卡也称视频卡，用于将摄像机输出的视频信号输入到电脑，并转换成电脑可辨别的数字数据，存储在电脑中，成为可编辑处理的视频数据文件。服务器110可以接收电脑发送的样本训练集。

步骤S230：将样本交互信息作为输入，将首帧样本视频图像以及多帧样本视频图像分别对应的光流信息作为输出，基于机器学习算法训练得到第一数字人模型。

其中，首帧样本视频图像是指样本视频图像序列的第一帧样本视频图像。其中，样本视频图像序列为多个，可以根据实际需求从样本训练集中筛选，比如，样本视频图像序列的清晰度要求较高时，样本训练集可以包括在同一应用场景下(比如：新闻工作者播报新闻的场景)采集的多个视频，分别有第一视频，第二视频，第三视频，第四视频，其中，第一视频、第二视频、第三视频的视频图像清晰，第四视频模糊，则服务器110可以将第一视频、第二视频以及第三视频作为样本视频图像序列。

其中，机器学习涉及概率论、统计学、逼近论、凸分析以及算法等多领域交叉学习，专门研究计算机怎么模拟或者实现人类的学习行为，以获取新的知识点或技能，重新组织已有的知识结构。目前，机器学习算法可以包括线性回归算法、支持向量机算法、最近邻居/k-近邻算法、逻辑回归算法、决策树算法、k-平均算法、随机森林算法、朴素贝叶斯算法、降维算法以及梯度增强算法等。

在一些实施方式中，服务器110可以将样本交互信息作为输入，将首帧样本视频图像以及多帧样本视频图像分别对应的光流信息作为输出，从以上机器学习算法中选择至少一种，对第一数字人模型进行训练。第一数字人模型训练完成之后，服务器110只需要将用户输入的交互信息输入至第一数字人模型中，第一数字人模型则可以输出首帧样本图像以及多帧视频图像分别对应的光流信息。

步骤S240：当性能状态满足第一预设状态时，确定与第一预设状态对应的第一图像处理策略以及第一数字人模型。

其中，第一预设状态可以根据实际需求进行设置，在本实施例中，当终端设备120的性能状态非常好时，服务器110可以确定终端设备120的性能状态满足第一预设状态。

其中，第一图像处理策略可以为：根据用户输入的交互信息生成待处理的首帧视频图像以及待处理的目标视频图像序列中的每帧视频图像对应的光流信息。

在一些实施方式中，当终端设备120的性能状态非常好时，服务器110可以确定终端设备120的性能状态满足第一预设状态。当确定终端设备120的性能状态满足第一预设状态时，服务器110可以确定与第一预设状态对应的第一图像处理策略以及第一数字人模型。

步骤S250：根据第一图像处理策略，控制第一数字人模型生成待处理的首帧视频图像以及待处理的目标视频图像序列中的每帧视频图像对应的光流信息，其中，目标视频图像序列包括首帧视频图像。

其中，目标视频图像序列可以是默认答复视频图像序列，也可以是内容和默认答复视频图像序列一样但是图像质量比默认答复视频图像更高的视频图像序列。

在一些实施方式中，服务器110可以接收用户输入的交互信息，并将用户输入的交互信息输入到第一数字人模型中，第一数字人模型可以输出待处理的首帧视频图像以及待处理的目标视频图像序列中的每帧视频图像对应的光流信息。

步骤S260：将至少一帧视频图像以及光流信息发送给终端设备，以使终端设备根据光流信息对至少一帧视频图像进行插帧处理。

其中，步骤S260的具体描述请参阅步骤S130，在此不再赘述。

本申请实施例提供的图像处理方法通过获取终端设备的性能状态；获取样本训练集，其中，样本训练集包括样本交互信息、样本交互信息对应的多帧样本视频图像以及多帧样本视频图像分别对应的光流信息；将样本交互信息作为输入，将首帧样本视频图像以及多帧样本视频图像分别对应的光流信息作为输出，基于机器学习算法训练得到第一数字人模型；当性能状态满足第一预设状态时，确定与第一预设状态对应的第一图像处理策略以及第一数字人模型；根据第一图像处理策略，控制第一数字人模型生成待处理的首帧图像以及待处理的目标视频图像序列中的每帧视频图像对应的光流信息，其中，目标视频图像序列包括首帧视频图像；将至少一帧视频图像以及光流信息发送给终端设备，以使终端设备根据光流信息对至少一帧视频图像进行插帧处理。该方法可以根据样本训练集训练第一数字人模型，并通过第一数字人模型生成待处理的首帧视频图像以及待处理的目标视频图像序列中的每帧视频图像对应的光流信息。由于第一数字人模型训练完成之后，只需要将用户输入的交互信息输入第一数字人模型，即可得到对应的首帧视频图像以及待处理的目标视频图像序列中的每帧视频图像对应的光流信息，极大地节省了计算资源，进而提高了计算速度，减小了系统负担。此外，由于输出视频图像耗时较多，而该方法只生成并输出待处理的首帧视频图像和待处理的目标视频图像序列中的每帧视频图像对应的光流信息，极大地节省了计算时间和输出时间。

请参阅图4，图4示出了本申请再一实施例提供的一种图像处理方法的流程示意图。该图像处理方法应用于服务器。该图像处理方法具体可以包括如下步骤：

步骤S310：获取终端设备的性能状态。

其中，步骤S310的具体描述请参阅步骤S110，在此不再赘述。

步骤S320：获取样本训练集，样本训练集包括样本交互信息、样本交互信息对应的多帧样本视频图像以及多帧样本视频图像分别对应的光流信息。

其中，步骤S320的具体描述请参阅步骤S220，在此不再赘述。

S330：将样本交互信息作为输入，将多帧样本视频图像以及光流信息作为输出，基于机器学习算法训练得到第二数字人模型。

其中，多帧样本视频图像可以是样本视频图像序列中的多帧样本视频图像。其中，样本视频图像序列为多个，可以从样本训练集中筛选。

在一些实施方式中，服务器110可以将样本交互信息作为输入，将多帧样本视频图像以及多帧样本视频图像分别对应的光流信息作为输出，从以上机器学习算法中选择至少一种，对第二数字人模型进行训练。第二数字人模型训练完成之后，服务器110只需要将用户输入的交互信息输入至第一二数字人模型中，第二数字人模型则可以输出多帧样本图像以及多帧视频图像分别对应的光流信息。

步骤S340：当性能状态满足第二预设状态时，确定第二预设状态对应的第二图像处理策略以及第二数字人模型。

在本实施例中，第二预设状态可以根据实际需求进行设置，在本实施例中，当终端设备120的性能状态较好时，服务器110可以确定终端设备120的性能状态满足第二预设状态。

其中，第二图像处理策略可以为：根据用户输入的交互信息生成待处理的多帧视频图像以及待处理的多帧视频图像分别对应的光流信息。

在一些实施方式中，当终端设备120的性能状态较好时，服务器110可以确定终端设备120的性能状态满足第二预设状态。当确定终端设备120的性能状态满足第二预设状态时，服务器110可以确定与第二预设状态对应的第二图像处理策略以及第二数字人模型。

步骤S350：根据第二图像处理策略，控制第二数字人模型生成待处理的多帧视频图像以及待处理的多帧视频图像分别对应的光流信息。

在一些实施方式中，服务器110可以接收用户输入的交互信息，并将用户输入的交互信息输入到第二数字人模型中，第二数字人模型可以输出待处理的多帧视频图像以及待处理的多帧视频图像分别对应的光流信息。

步骤S360：将至少一帧视频图像以及光流信息发送至终端设备，以使终端设备根据光流信息对至少一帧视频图像进行插帧处理。

其中，步骤S360的具体描述请参阅步骤S130，在此不再赘述。

本申请实施例提供的图像处理方法通过获取终端设备的性能状态；获取样本训练集，样本训练集包括样本交互信息、样本交互信息对应的多帧样本视频图像以及多帧样本视频图像分别对应的光流信息；将样本交互信息作为输入，将多帧样本视频图像以及光流信息作为输出，基于机器学习算法训练得到第二数字人模型；当性能状态满足第二预设状态时，确定第二预设状态对应的第二图像处理策略以及第二数字人模型；根据第二图像处理策略，控制第二数字人模型生成待处理的多帧视频图像以及待处理的多帧视频图像分别对应的光流信息；将至少一帧视频图像以及光流信息发送至终端设备，以使终端设备根据光流信息对至少一帧视频图像进行插帧处理。该方法可以根据样本训练集训练第二数字人模型，并通过第二数字人模型生成待处理的多帧视频图像以及待处理的多帧视频图像分别对应的光流信息。由于第二数字人模型训练完成之后，只需要将用户输入的交互信息输入第二数字人模型，即可得到对应的多帧视频图像以及多帧视频图像分别对应的光流信息，在一定程度上节省了计算资源，进而提高了计算速度，减小了系统负担。此外，由于输出视频图像耗时较多，而本方法生成并输出多帧视频图像以及光流信息，相对于生成并输出所有帧视频图像，该方法可以在一定程度上节省计算时间和输出时间。

请参阅图5，图5示出了本申请还一实施例提供的一种图像处理方法的流程示意图。该图像处理方法应用于服务器。该图像处理方法具体可以包括如下步骤：

步骤S410：获取终端设备的性能状态。

其中，步骤S410的具体描述请参阅步骤S110，在此不再赘述。

步骤S420：获取样本训练集，样本训练集包括样本交互信息以及样本交互信息对应的默认答复视频图像。

其中，样本训练集可以为多个样本的集合，可以用于训练数字人模型，样本训练集可以包括多段视频，多张图像以及多段语音等至少一种内容，本申请实施例对样本训练集的具体内容不作限制。样本训练集可以在多个场景进行采集，比如，可以在银行的工作人员为客户办理业务的场景中，采集客户与银行工作人员的交谈信息；还可以在录制新闻联播的场景中，采集新闻播报者播报时的神态、动作等信息。本申请对样本训练集的采集方式以及具体内容不作限制。

其中，样本交互信息对应的默认答复视频图像可以根据用户输入的交互信息从样本视频图像序列中筛选。

步骤S430：将样本交互信息作为输入，将默认答复视频图像作为输出，基于机器学习算法训练得到默认数字人模型。

其中，默认答复视频图像可以包括样本视频图像序列中的每帧视频图像。其中，样本视频图像序列为多个，可以从样本训练集中筛选。

在一些实施方式中，服务器110可以将样本交互信息作为输入，将默认答复视频图像作为输出，从以上机器学习算法中选择至少一种，对默认数字人模型进行训练。默认数字人模型训练完成之后，服务器110只需要将用户输入的交互信息输入至默认数字人模型中，默认数字人模型则可以输出默认答复视频图像。

步骤S440：当性能状态不满足目标状态时，通过默认数字人模型生成默认视频图像，其中，默认视频图像为服务器根据用户输入的交互信息确定的默认答复视频图像，目标状态用于表征终端设备执行插帧处理操作时所需的最低性能状态。

其中，最低性能状态可以根据实际需求进行设置，在本实施例中，当终端设备120的性能状态较差时，可以确定终端设备120的性能状态不满足最低性能状态。

在一些实施方式中，当终端设备120的性能状态较差时，服务器110可以确定终端设备120的性能状态不满足目标状态。当终端设备120的性能状态不满足目标状态时，服务器110可以将用户输入的交互信息输入至默认数字人模型中，默认数字人模型则可以输出默认答复视频图像。

步骤S450：根据默认视频图像，生成默认答复视频，将默认答复视频发送至终端设备。

其中，默认答复视频中可以包括数字人，其中，数字人可以通过3D建模软件建模得到，也可以通过服务器110调用第一程序代码(第一程序代码可以预先写入服务器110，用于生成数字人)合成得到，还可以通过服务器110预先训练的建模模型生成得到等，本申请实施例对获取数字人的具体方式不作限制。

在一些实施方式中，服务器110可以将默认视频图像组合起来，合成默认答复视频，并将默认答复视频发送至终端设备。

在另一些实施方式中，服务器110可以将默认答复视频图像输入服务器110预先训练的插帧模型中，插帧模型则可以输出插帧后得到默认答复视频，其中，插帧后得到的默认答复视频比插帧前的默认答复视频的视频质量更好，即默认答复视频中的每帧视频图像的质量更好。

本申请实施例提供的图像处理方法通过获取终端设备的性能状态；获取样本训练集，样本训练集包括样本交互信息以及样本交互信息对应的默认答复视频图像；将样本交互信息作为输入，将默认答复视频图像作为输出，基于机器学习算法训练得到默认数字人模型；当性能状态不满足目标状态时，通过默认数字人模型生成默认视频图像，其中，默认视频图像为服务器根据用户输入的交互信息确定的默认答复视频图像，目标状态用于表征终端设备执行插帧处理操作时所需的最低性能状态；根据默认视频图像，生成默认答复视频，将默认答复视频发送至客户端。该方法可以根据样本训练集训练默认数字人模型，并通过默认数字人模型生成默认答复视频图像。由于默认数字人模型训练完成之后，只需要将用户输入的交互信息输入默认数字人模型，即可得到对应的默认答复视频图像，在一定程度上节省了计算资源，进而提高了计算速度，减小了系统负担。

需要说明的是，在接下来提到的所有实施例以及实施方式中，插帧算法可以包括但不限于深度感知视频帧插值(Depth-Aware Video Frame Interpolation，DAIN)算法以及实时视频插帧(Real-Time Intermediate Flow Estimation for Video FrameInterpolation，RIFE)算法等中至少一种。本申请实施例对插帧算法不作具体限制。插帧模型可以预先由终端设备120或者服务器110训练得到，然后存储在终端设备120中。

请参阅图6，图6示出了本申请又另一实施例提供的一种图像处理方法的流程示意图。该图像处理方法应用于终端设备。该图像处理方法具体可以包括如下步骤：

步骤S510：接收服务器发送的待处理的至少一帧视频图像以及待处理的光流信息。

其中，至少一帧视频图像可以是一帧视频图像，也可以是多帧视频图像等，本申请对至少一帧视频图像的内容不作具体限制。

在一些实施方式中，终端设备120可以接收服务器110发送的至少一帧视频图像以及光流信息。

步骤S520：根据至少一帧视频图像以及光流信息对至少一帧视频图像进行插帧处理。

在一些实施方式中，至少一帧视频图像为首帧视频图像。终端设备120可以基于首帧视频图像以及首帧视频图像对应的光流信息调用插帧算法(或者插帧模型)生成第二帧视频图像；然后可以基于生成的第二帧视频图像以及第二帧视频图像对应的光流信息调用插帧算法(或者插帧模型)生成第三帧视频图像；以此类推，最后一帧视频图像可以基于生成的倒数第二帧视频图像以及倒数第二帧视频图像调用掉帧算法生成得到。

在另一些实施方式中，至少一帧视频图像为多帧视频图像时。终端设备120可以在多帧视频图像中的每相邻的两帧视频图像之间进行插帧，得到目标视频图像序列。具体地，比如，某一相邻的两帧视频图像为第一视频图像和第二视频图像。终端设备120可以基于第一视频图像以及第一视频图像对应的光流信息调用插帧算法(或者插帧模型)生成第一过渡帧视频图像；终端设备120可以基于第二视频图像以及第二视频图像对应的光流信息调用插帧算法(或者插帧模型)生成第二过渡帧视频图像；然后终端设备120可以比较第一过渡帧视频图像与第二过渡帧视频图像的图像质量，将图像质量更高的过渡帧视频图像插入第一视频图像与第二视频图像之间。其中，终端设备120可以基于峰值信噪比(Peak-Signalto Noise Ratio，PSNR)、均方误差(Mean Square Error，MSE)，还有MAE(Mean AbsoluteError，MSE)和信噪比(Signal to Noise Ratio，SNR)等至少一种参数比较图像质量。具体地，这些参数可以通过计算待评测图像和参考图像对应像素点灰度值之间的差异，从统计角度来衡量待评图像的质量优劣。

在又一些实施方式中，至少一帧视频图像为多帧视频图像。终端设备120可以根据多帧视频图像中的每帧视频图像以及每帧视频图像对应的光流信息调用插帧算法(或者插帧模型)生成每帧视频图像对应的过渡帧视频图像，并将过渡帧视频图像插入每帧视频图像之后，得到目标视频图像序列。

步骤S530：获取插帧处理后的目标视频图像序列。

在一些实施方式中，终端设备120可以获取处理后的目标视频图像序列，并将目标视频图像序列传输至终端设备120的显示器，以使显示器显示目标视频图像序列。

在另一些实施方式中，终端设备120也可以获取处理后的目标视频图像序列，并将目标视频图像序列传输至其他与终端设备120连接的设备的显示器，以使显示器显示目标视频图像序列。

本申请实施例提供的图像处理方法通过接收服务器发送的待处理的至少一帧视频图像以及待处理的光流信息；根据至少一帧视频图像以及光流信息对至少一帧视频图像进行插帧处理；获取插帧处理后的目标视频图像序列。该方法根据光流信息对视频图像进行插帧，从而得到目标视频图像序列。由于光流信息包含当前帧视频图像至下一帧视频图像之间的图像变化信息，更具体地，光流信息可以包括图像亮度的变化信息以及图像色度的变化信息等至少一种。因此，根据光流信息对视频图像进行插帧，可以提升得到的目标视频图像序列中的图像质量。此外，通过终端设备对视频图像进行插帧，从而得到目标视频图像序列，可以充分运用终端设备的计算资源。

请参阅图7，图7示出了本申请又再一实施例提供的一种图像处理方法的流程示意图。该图像处理方法应用于终端设备。其中，待处理的至少一帧视频图像为首帧视频图像，待处理的光流信息为待处理的目标视频图像序列中的每帧视频图像对应的光流信息。该图像处理方法具体可以包括如下步骤：

步骤S610：接收服务器发送的待处理的至少一帧视频图像以及待处理的光流信息。

其中，步骤S610的具体描述请参阅步骤S510，在此不再赘述。

步骤S620：根据首帧视频图像以及光流信息生成中间帧视频图像。

在本实施例中，待处理的至少一帧视频图像为首帧视频图像，待处理的光流信息为待处理的目标视频图像序列中的每帧视频图像对应的光流信息。其中，首帧视频图像对应的光流信息可以为首帧视频图像运动至第二帧视频图像之间的图像变化信息，该图像变化信息可以包括图像亮度变化信息、灰度变化信息等至少一种。

其中，中间帧视频图像可以包括至少一帧视频图像，中间帧视频图像可以是多帧视频图像。

在一些实施方式中，中间帧视频图像为一帧视频图像。终端设备120可以基于首帧视频图像以及首帧视频图像对应的光流信息调用插帧算法(或者插帧模型)生成中间帧视频图像。

在另一些实施方式中，中间帧视频图像为多帧视频图像。终端设备120可以基于首帧视频图像以及首帧视频图像对应的光流信息调用插帧算法(或者插帧模型)生成第二帧视频图像。终端设备120可以基于生成的第二帧视频图像以及第二帧视频图像对应的光流信息调用插帧算法(或者插帧模型)生成第三帧视频图像；以此类推，终端设备120可以基于生成倒数第三帧视频图像以及倒数第三帧视频图像对应的光流信息调用插帧算法(或者插帧模型)生成倒数第二帧视频图像。其中，第二帧视频图像、第三帧视频图像……倒数第三帧视频图像以及倒数第二帧视频图像皆为中间帧视频图像。

步骤S630：根据中间帧视频图像以及中间帧视频图像对应的光流信息生成最终帧视频图像。

其中，中间帧视频图像对应的光流信息可以为中间帧视频图像运动至中间帧的下一帧视频图像之间的图像变化信息，该图像变化信息可以包括图像亮度的变化信息以及图像色度的变化信息等至少一种。

其中，最终帧视频图像可以是最后一帧视频图像。

在一些实施方式中，承接上述对步骤S620的描述，当中间帧视频图像为一帧视频图像时，终端设备120可以根据该中间帧视频图像以及中间帧视频图像对应的光流信息调用插帧算法(或者插帧模型)生成最终帧视频图像。终端设备120可以将首帧视频图像、中间帧视频图像以及最终帧视频图像以视频播放顺序组合排列，得到目标视频图像序列。

在另一些实施方式中，承接上述对步骤S620的描述，当中间帧视频图像为第二帧视频图像、第三帧视频图像……倒数第三帧视频图像以及倒数第二帧视频图像时，终端设备120可以基于倒数第二帧视频图像和倒数第二帧视频图像的光流信息调用插帧算法(或者插帧模型)生成最终帧视频图像。终端设备120可以将首帧视频图像、中间帧视频图像以及最终帧视频图像以视频播放顺序组合排列，得到目标视频图像序列。

步骤S640：获取插帧处理后的目标视频图像序列。

其中，步骤S640的具体描述请参阅步骤S530，在此不再赘述。

本申请实施例提供的图像处理方法通过接收服务器发送的待处理的至少一帧视频图像以及待处理的光流信息；根据首帧视频图像以及首帧视频图像对应的光流信息生成中间帧视频图像；根据中间帧视频图像以及中间帧视频图像对应的光流信息生成最终帧视频图像；获取插帧处理后的目标视频图像序列。该方法可以根据首帧视频图像以及光流信息生成中间帧视频图像，并可以根据中间帧图像以及光流信息生成最终帧视频图像，从而得到目标视频图像序列。根据光流信息对视频图像进行插帧，可以提升得到的目标视频图像序列中的图像质量。此外，通过终端设备对视频图像进行插帧，从而得到目标视频图像序列，可以充分运用终端设备的计算资源，节省服务器的计算资源。

请参阅图8，图8示出了本申请又还一实施例提供的一种图像处理方法的流程示意图。该图像处理方法应用于终端设备。其中，待处理的至少一帧图像为多帧视频图像，多帧视频图像包括多组相邻的视频帧图像，该多组相邻的视频帧图像中的每一组相邻的视频帧图像包括前向帧视频图像和后向帧视频图像。待处理的光流信息为多帧视频图像对应的光流信息。该图像处理方法具体可以包括如下步骤：

步骤S710：接收服务器发送的待处理的至少一帧视频图像以及待处理的光流信息。

其中，步骤S710的具体描述请参阅步骤S510，在此不再赘述。

步骤S720：根据前向帧视频图像以及前向帧视频图像对应的光流信息确定第一过渡帧视频图像。

在本实施例中，待处理的至少一帧图像为多帧视频图像，多帧视频图像包括多组相邻的视频帧图像，该多组相邻的视频帧图像中的每一组相邻的视频帧图像包括前向帧视频图像和后向帧视频图像。待处理的光流信息为多帧视频图像对应的光流信息。其中，前向帧视频图像可以是相邻两帧视频图像中先播放的那一帧视频图像。第一过渡帧视频图像可以作为备选帧，用于插入相邻两帧视频图像之间。

在一些实施方式中，终端设备120可以基于前向帧视频图像以及前向帧视频图像对应的光流信息调用插帧算法(或者插帧模型)生成第一过渡帧视频图像。

步骤S730：根据后向帧视频图像以及后向帧视频图像对应的光流信息确定第二过渡帧视频图像。

其中，后向帧视频图像可以是相邻两帧视频图像中后播放的那一帧视频图像。第二过渡帧视频图像可以作为备选帧，用于插入相邻两帧视频图像之间。

在一些实施方式中，终端设备120可以基于后向帧视频图像以及后向帧视频图像对应的光流信息调用插帧算法(或者插帧模型)生成第二过渡帧视频图像。

步骤S740：根据第一过渡帧视频图像以及第二过渡帧视频图像生成目标过渡帧视频图像。

其中，目标过渡帧视频图像可以用于插入相邻两帧视频图像之间的视频图像。

在一些实施方式中，终端设备120可以基于第一过渡帧视频图像以及第二过渡帧视频图像调用插帧算法(或者插帧模型)生成目标帧视频图像。

作为一种示例，终端设备120可以基于第一过渡帧视频图像以及第二过渡帧视频图像调用插帧模型生成目标帧视频图像。具体地，插帧模型可以将第一过渡帧视频图像以及第二过渡帧视频图像中图像质量更高的视频图像作为目标帧视频图像。其中，比较图像质量可以根据PSNR、MSE、MAE、SNR等至少一种参数进行比较，具体地，插帧模型可以通过计算待评测图像和参考图像对应像素点灰度值之间的差异，从统计角度来衡量待评图像的质量优劣。步骤S750：将目标过渡帧视频图像插入至前向帧视频图像和后向帧视频图像之间，以生成目标视频图像序列。

需要说明的是，多组相邻的视频帧图像中的每一组相邻的视频帧图像包括的前向帧视频图像和后向帧视频图像都可以按照S720至S740的插帧方法生成对应的目标帧视频图像。

在一些实施方式中，终端设备120可以将生成的多帧目标帧视频图像插入至对应的前向帧视频图像以及后向帧视频图像之间，以生成目标视频图像视频序列。更具体地，终端设备120可以将第一帧目标帧视频图像插入第一前向帧视频图像以及第一帧后向帧视频图像之间；终端设备120可以将第二帧目标帧视频图像插入第二前向帧视频图像以及第二帧后向帧视频图像之间；以此类推，终端设备120可以将最后一帧目标帧视频图像插入最后一帧前向帧视频图像以及最后一帧后向帧视频图像之间，从而可以得到目标视频图像序列。

步骤S760：获取插帧处理后的目标视频图像序列。

其中，步骤S760的具体描述请参阅步骤S530，在此不再赘述。

本申请实施例提供的图像处理方法通过：接收服务器发送的待处理的至少一帧视频图像以及待处理的光流信息；根据前向帧视频图像以及前向帧视频图像对应的光流信息确定第一过渡帧视频图像；根据后向帧视频图像以及后向帧视频图像对应的光流信息确定第二过渡帧视频图像；根据第一过渡帧视频图像以及第二过渡帧视频图像生成目标过渡帧视频图像；将目标过渡帧视频图像插入至前向帧视频图像和后向帧视频图像之间，以生成目标视频图像序列；获取插帧处理后的目标视频图像序列。该方法可以根据任意相邻两帧视频图像以及该两帧视频图像对应的光流信息生成对应的两帧过渡帧视频图像，进一步，该方法可以在生成的两帧过渡帧视频图像中选择图像质量更好的过渡帧视频图像，并将图像质量更好的过渡帧视频图像作为目标过渡帧视频图像，从而该方法可以提升过渡帧视频图像的图像质量，进而可以提升目标视频图像序列的图像质量。

请参阅图9，图9示出了本申请再另一实施例提供的一种图像处理方法的流程示意图。该图像处理方法应用于终端设备。其中，待处理的至少一帧视频图像为服务器根据用户输入的交互信息生成的默认答复视频。该图像处理方法具体可以包括如下步骤：

步骤S810：接收服务器发送的默认答复视频，并将默认答复视频作为目标视频图像序列。

在一些实施方式中，终端设备120可以接收服务器110发送的默认答复视频，并将默认答复视频作为目标视频图像序列。

步骤S820：输出目标视频图像序列。

在一些实施方式中，终端设备120可以将目标视频图像序列传输至终端设备120的显示器，以使显示器显示目标视频图像序列。

在另一些实施方式中，终端设备120也可以将目标视频图像序列传输至其他与终端设备120连接的设备的显示器，以使显示器显示目标视频图像序列。

在本实施例提供的图像处理方法中，终端设备只需要接收并输出服务器发送的默认答复视频，方便快捷，不会对终端设备的系统增加负担，还可以节省终端设备输出视频的时间。

请参阅图10，图10示出了本申请再又一实施例提供的一种图像处理方法的流程示意图。该图像图像处理方法应用于图像处理系统。该图像处理系统包括服务器和终端设备，且服务器与终端设备电性连接。该图像处理方法具体可以包括如下步骤：

步骤S910：服务器获取终端设备的性能状态。

步骤S920：服务器根据性能状态，通过数字人模型生成待处理信息，该待处理信息包括待处理的至少一帧视频图像以及待处理的光流信息。

步骤S930：服务器将至少一帧视频图像以及光流信息对至少一帧视频图像进行插帧处理。

其中，步骤S910至步骤S930的具体描述请参阅步骤S110至步骤S130，在此不再赘述。

步骤S940：终端设备根据至少一帧视频图像以及光流信息对至少一帧视频图像进行插帧处理。

步骤S950：终端设备获取插帧处理后的目标视频图像序列。

其中，步骤S940至步骤S950的具体描述请参阅步骤S520至步骤S530，在此不再赘述。

本申请实施例提供的图像处理方法通过服务器获取终端设备的性能状态；服务器根据性能状态，通过数字人模型生成待处理信息，该待处理信息包括待处理的至少一帧视频图像以及待处理的光流信息；服务器将至少一帧视频图像以及光流信息对至少一帧视频图像进行插帧处理；终端设备根据至少一帧视频图像以及光流信息对至少一帧视频图像进行插帧处理；终端设备获取插帧处理后的目标视频图像序列。从而服务器可以根据终端设备的不同性能状态，通过不同的数字人模型，生成不同数量的视频图像以及光流信息发送给终端设备，终端设备根据视频图像以及光流信息得到对应的目标视频图像序列使得可以节省服务器的计算资源，从而减小服务器的系统的负担。

作为一种示例，请参阅图11，图11示出了本申请一示例性实施例提供的一种执行图像处理方法的过程示意图。其中，默认答复视频图像序列一共可以为九帧。服务器110将用户输入的交互信息输入至数字人模型中，然后可以得到第一帧视频图像(帧1，对应默认答复视频图像序列的第一帧视频图像)、第二帧视频图像(帧3，对应默认答复视频图像序列的第三帧视频图像)、第三帧视频图像(帧5，对应默认答复视频图像序列的第五帧视频图像)、第四帧视频图像(帧7，对应默认答复视频图像序列的第七帧视频图像)、第五帧视频图像(帧9，对应默认答复视频图像序列的第九帧视频图像)以及默认答复视频图像序列中每两帧图像之间的光流信息，分别是光流1(默认答复视频图像序列的第一帧视频图像与第二帧视频图像之间的光流信息)、光流2(默认答复视频图像序列的第二帧视频图像与第三帧视频图像之间的光流信息)、光流3(默认答复视频图像序列的第三帧视频图像与第四帧视频图像之间的光流信息)、光流4(默认答复视频图像序列的第四帧视频图像与第五帧视频图像之间的光流信息)、光流5(默认答复视频图像序列的第五帧视频图像与第六帧视频图像之间的光流信息)、光流6(默认答复视频图像序列的第六帧视频图像与第七帧视频图像之间的光流信息)、光流7(默认答复视频图像序列的第七帧视频图像与第八帧视频图像之间的光流信息)以及光流8(默认答复视频图像序列的第八帧视频图像与第九帧视频图像之间的光流信息)。然后服务器110将以上8个光流以及5个视频图像传输给终端设备120。终端设备120可以接受服务器110发送的8个光流以及5个视频图像，然后可以根据8个光流信息调用插帧模型对5个视频图像进行插帧。其中，帧1和光流1结合，可以生成帧2(默认答复视频图像对应的第二帧视频图像)；帧3与光流3结合，可以生成第一过渡帧4，帧5和光流3结合也可以生成第二过渡帧4，然后插帧模型可以从第一过渡帧4以及第二过渡帧4中选择质量更高(比如，可以以分辨率为标准评判图像的质量高低，分辨率越高，则图像质量越高)的过渡帧作为最终的帧4(对应默认答复视频图像序列中的第四帧视频图像)；帧5和光流5结合可以生成第一过渡帧6，帧7和光流5结合也可以生成第二过渡帧6，然后插帧模型可以从第一过渡帧6和第二过渡帧6之间选择图像质量更高的过渡帧作为最终的帧6(对应默认答复视频图像序列的第六帧)；帧7和光流7可以生成第一过渡帧8，帧9和光流7也可以生成第二过渡帧8，然后插帧模型可以从第一过渡帧8和第二过渡帧8中选择质量更好的过渡帧作为最终的帧8(对应默认答复视频图像序列的第八帧)。最后，终端设备120可以将帧2插入至帧1和帧3之间；将帧4插入至帧3和帧5之间；将帧6插入至帧5和帧7之间；将帧8插入至帧7和帧9之间，从而合成最终的视频，并将该视频传输至终端设备120的显示器，或者将该视频传输至与终端设备120连接的其他设备的显示器，以便用户可以观看该视频。

请参阅图12，图12示出了本申请一实施例提供的一种图像处理装置的结构框图。该图像处理装置1000应用于服务器。该图像处理装置1000可以包括获取模块1010、生成模块1020以及发送模块1030。其中：

获取模块1010，用于获取终端设备的性能状态。

生成模块1020，用于根据性能状态，通过数字人模型生成的待处理信息，待处理信息包括待处理的至少一帧视频图像以及待处理的光流信息。

发送模块1030，用于将至少一帧视频图像以及光流信息发送给终端设备，以使终端设备根据光流信息对至少一帧视频图像进行插帧处理。

可选地，生成模块1020可以包括第一确定子模块和第一生成子模块，其中：

第一确定子模块，用于当性能状态满足第一预设状态时，确定与第一预设状态对应的第一图像处理策略以及第一数字人模型。

第一确定子模块，用于根据第一图像处理策略，控制第一数字人模型生成待处理的首帧视频图像以及待处理的目标视频图像序列中的每帧视频图像对应的光流信息，目标视频图像序列包括首帧视频图像。

进一步，图像处理装置1000还可以包括第一样本获取模块和第一模型训练模块，其中：

第一样本获取模块，用于获取样本训练集，样本训练集包括样本交互信息、样本交互信息对应的多帧样本视频图像以及所多帧样本视频图像分别对应的光流信息。

第一模型训练模块，用于将样本交互信息作为输入，将首帧样本视频图像以及多帧样本视频图像分别对应的光流信息作为输出，基于机器学习算法训练得到第一数字人模型。

可选地，生成模块1020还可以包括第二确定子模块和第二生成子模块，其中：

第二确定子模块，用于当性能状态满足第二预设状态时，确定与第二预设状态对应的第二图像处理策略以及第二数字人模型。

第二生成子模块，用于根据第二图像处理策略，控制第二数字人模型生成待处理的多帧视频图像以及待处理的多帧视频图像分别对应的光流信息。

进一步，图像处理装置1000也可以包括第二样本获取模块和第二模型训练模块，其中：

第二样本获取模块，用于获取样本训练集，样本训练集包括样本交互信息、样本交互信息对应的多帧样本视频图像以及多帧样本视频图像分别对应的光流信息。

第二模型训练模块，用于将样本交互信息作为输入，将多帧样本视频图像以及光流信息作为输出，基于机器学习算法训练得到第二数字人模型。

进一步，生成模块1020还可以包括第三确定子模块和第三生成子模块，其中：

第三确定子模块，用于当性能状态不满足目标状态时，通过默认数字人模型生成默认视频图像，默认视频图像为服务器根据用户输入的交互信息确定的默认答复视频图像，目标状态用于表征终端设备执行插帧处理操作时所需的最低性能状态。

第三生成子模块，用于根据默认视频图像，生成默认答复视频，将默认答复视频发送至客户端。

请参阅图13，图13示出了本申请还另一实施例提供的一种图像处理装置的结构框图。该图像处理装置1100应用于终端设备。该图像处理装置1100可以包括接收模块1110、处理模块1120以及合成模块1130。其中：

接收模块1110，用于接收服务端发送的待处理的至少一帧视频图像以及待处理的光流信息；

处理模块1120，用于根据至少一帧视频图像以及光流信息对至少一帧视频图像进行插帧处理；

合成模块1130，用于获取插帧处理后的目标视频图像帧序列。

可选地，待处理的至少一帧视频图像为首帧视频图像，待处理的光流信息为待处理的目标视频图像序列中的每帧视频图像对应的光流信息。处理模块1120可以包括第一生成子模块、第二生成子模块以及合成子模块，其中：

第一生成子模块，用于根据首帧视频图像以及首帧视频图像对应的光流信息生成中间帧视频图像；

第二生成子模块，用于根据中间帧视频图像以及中间帧视频图像对应的光流信息生成最终帧视频图像；

合成子模块，用于根据首帧视频图像、中间帧视频图像以及最终帧视频图像合成目标视频图像序列。

可选地，待处理的至少一帧视频图像为多帧视频图像，多帧视频图像包括多组相邻的视频帧图像，多组相邻的视频帧图像中的每一组相邻的视频帧图像包括前向帧视频图像和后向帧视频图像，待处理的光流信息为多帧视频图像对应的光流信息。处理模块1120还可以包括第一过渡帧确定子模块、第二过渡帧确定子模块、目标过渡帧生成子模块以及序列生成子模块，其中：

第一过渡帧确定子模块，用于根据前向帧视频图像以及前向帧视频图像对应的光流信息确定第一过渡帧视频图像；

第二过渡帧确定子模块，用于根据后向帧视频图像以及后向帧视频图像对应的光流信息确定第二过渡帧视频图像；

目标过渡帧生成子模块，用于根据第一过渡帧视频图像以及第二过渡帧视频图像生成目标过渡帧视频图像；

序列生成子模块，用于将目标过渡帧视频图像插入至前向帧视频图像和后向帧视频图像之间，以生成目标视频图像序列。

可选地，待处理的至少一帧视频图像为服务器根据用户输入的交互信息生成的默认答复视频，该图像处理装置1100还可以包括确定模块和输出模块。其中：

确定模块，用于将默认答复视频作为目标视频图像序列。

输出模块，用于输出目标视频图像序列。

对于本申请实施例提供的以上所有装置，所属领域的技术人员可以清楚地了解到，本申请实施例提供的所有装置中的每个装置能够实现对应的前述方法实施例中的各个过程，上述描述装置和模块的具体工作过程，可以参阅前述方法实施例中的对应过程，在此不再过多赘述。

本申请提供的实施例中，所显示或讨论的模块相互之间的耦合、直接耦合或通信连接，可以是通过一些接口、装置或模块的间接耦合或通信耦合，可以是电性、机械或其他形式，本申请实施例对此不作具体限制。

另外，在本申请实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件的功能模块的形式实现。

本申请实施例还提供了一种图像处理系统，该图像处理系统包括服务器和终端设备，服务器与终端设备电性连接，其中：

服务器，用于获取终端设备的性能状态；

服务器，还用于根据性能状态，通过数字人模型生成待处理信息，待处理信息包括待处理的至少一帧视频图像以及待处理的光流信息；

服务器，还用于将至少一帧视频图像以及光流信息发送给终端设备；

终端设备，用于根据至少一帧视频图像以及光流信息对至少一帧视频图像进行插帧处理；

终端设备，还用于获取插帧处理后的目标视频图像序列。

请参阅图14，图14示出了本申请还又一实施例提供的一种电子设备的结构框图。该电子设备1200可以是终端设备以及服务器等电子设备。本申请中的电子设备1200可以包括一个或多个如下部件：处理器1210、存储器1220以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器1220中并被配置为由一个或多个处理器1210执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器可以包括一个或多个处理核。处理器1210利用各种接口和线路连接整个电子设备1200内的各个部分，用过运行或执行存储在存储器1220内的指令、程序、代码集或指令集，以及调用运行或执行存储在存储器1220内的数据，执行电子设备1200的各种功能和处理数据。可选地，处理器1210可以采用数字信号处理(digital signal processing，DSP)、现场可编程门阵列(field-programmable gate array，FPGA)、可编辑逻辑阵列(programmable logic array，PLA)中的至少一种硬件形式来实现。处理器1210可集成中央处理器(central processing unit，CPU)、图像处理器(graphics processing unit，GPU)和调制解调器中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1210中，单独通过一块通信芯片进行实现。

存储器1220可以包括随机存储器(random access memory，RAM)，也可以包括只读存储器(read-only memory，ROM)。存储器1220可用于存储指令、程序、代码、代码集或指令集，存储器1220可包括存储程序区和存储数据区，其中，存储程序器可存储用于实现操作系统的指令、用于实现至少一个功能的指令、用于实现上述各个方法实施例的指令等。存储数据区可以存储电子设备1200在使用中所创建的数据等。

请参阅图15，图15示出了本申请还再一实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读取存储介质1300中存储有程序代码，该程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读取存储介质1300可以是诸如闪存、电可擦除可编程只读存储器(electrically-erasable programmable read-only memory，EEPROM)、可擦除可编辑只读存储器(erasable programmable read-only memory，EPROM)、硬盘或者ROM之类的电子存储器。可选地，计算机可读取存储介质1300包括非易失性计算机可读介质(non-transitorycomputer-readable storage medium)。计算机可读取存储介质1300具有执行上述方法中的任何方法步骤的程序代码1310的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1310可以例如以适当形式进行压缩。

综上所述，本申请实施例提供一种图像处理方法、装置、电子设备及存储介质。该方法应用于服务器，该方法通过获取终端设备的性能状态；根据性能状态，通过数字人模型生成待处理信息，待处理信息包括待处理的至少一帧视频图像以及待处理的光流信息；将至少一帧视频图像以及光流信息发送给所述终端设备，以使终端设备根据光流信息对至少一帧视频图像进行插帧处理。由于光流信息的数据量较小，故生成光流信息需要的计算量较小，传输光流信息需要的计算量也较小，进而该方法可以节省服务器的计算资源，提高服务器的计算速度，并减小系统负担。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像处理方法，其特征在于，应用于服务器，包括：

获取终端设备的性能状态；

根据所述性能状态，通过数字人模型生成待处理信息，所述待处理信息包括待处理的至少一帧视频图像以及待处理的光流信息；

将所述至少一帧视频图像以及所述光流信息发送给所述终端设备，以使所述终端设备根据所述光流信息对所述至少一帧视频图像进行插帧处理。

2.根据权利要求1所述的方法，其特征在于，所述根据所述性能状态，通过数字人模型生成待处理信息，包括：

当所述性能状态满足第一预设状态时，确定与所述第一预设状态对应的第一图像处理策略以及第一数字人模型；

根据所述第一图像处理策略，控制所述第一数字人模型生成待处理的首帧视频图像以及待处理的目标视频图像序列中的每帧视频图像对应的光流信息，所述目标视频图像序列包括所述首帧视频图像。

3.根据权利要求2所述的方法，其特征在于，所述当所述性能状态满足第一预设状态时，确定与所述第一预设状态对应的第一图像处理策略以及第一数字人模型之前，所述方法还包括：

获取样本训练集，所述样本训练集包括样本交互信息、所述样本交互信息对应的多帧样本视频图像以及所述多帧样本视频图像分别对应的光流信息；

将所述样本交互信息作为输入，将首帧样本视频图像以及所述多帧样本视频图像分别对应的光流信息作为输出，基于机器学习算法训练得到所述第一数字人模型。

4.根据权利要求1所述的方法，其特征在于，所述根据所述性能状态，通过数字人模型生成待处理信息，包括：

当所述性能状态满足第二预设状态时，确定与所述第二预设状态对应的第二图像处理策略以及第二数字人模型；

根据所述第二图像处理策略，控制所述第二数字人模型生成待处理的多帧视频图像以及所述待处理的多帧视频图像分别对应的光流信息。

5.根据权利要求4所述的方法，其特征在于，在所述当所述性能状态满足第二预设状态时，确定与所述第二预设状态对应的第二图像处理策略以及第二数字人模型之前，所述方法还包括：

将所述样本交互信息作为输入，将所述多帧样本视频图像以及所述光流信息作为输出，基于机器学习算法训练得到所述第二数字人模型。

6.根据权利要求1所述的方法，其特征在于，所述获取终端设备的性能状态之后，所述方法还包括：

当所述性能状态不满足目标状态时，通过默认数字人模型生成默认视频图像，所述默认视频图像为所述服务器根据用户输入的交互信息确定的默认答复视频图像，所述目标状态用于表征所述终端设备执行插帧处理操作时所需的最低性能状态；

根据所述默认视频图像，生成默认答复视频，将所述默认答复视频发送至终端设备。

7.一种图像处理方法，其特征在于，应用于终端设备，包括：

接收服务器发送的待处理的至少一帧视频图像以及待处理的光流信息；

根据所述至少一帧视频图像以及所述光流信息对所述至少一帧视频图像进行插帧处理；

获取插帧处理后的目标视频图像序列。

8.根据权利要求7所述的方法，其特征在于，所述待处理的至少一帧视频图像为首帧视频图像，所述待处理的光流信息为待处理的目标视频图像序列中的每帧视频图像对应的光流信息，所述根据所述至少一帧视频图像以及所述光流信息对所述至少一帧视频图像进行插帧处理，包括：

根据所述首帧视频图像以及所述光流信息生成所述中间帧视频图像；

根据所述中间帧视频图像以及所述中间帧视频图像对应的光流信息生成最终帧视频图像；

根据所述首帧视频图像、所述中间帧视频图像以及所述最终帧视频图像合成目标视频图像序列。

9.根据权利要求7所述的方法，其特征在于，所述待处理的至少一帧视频图像为多帧视频图像，所述多帧视频图像包括多组相邻的视频帧图像，所述多组相邻的视频帧图像中的每一组相邻的视频帧图像包括前向帧视频图像和后向帧视频图像，所述待处理的光流信息为所述多帧视频图像对应的光流信息，所述根据所述至少一帧视频图像以及所述光流信息对所述至少一帧视频图像进行插帧处理，包括：

根据所述前向帧视频图像以及所述前向帧视频图像对应的光流信息确定第一过渡帧视频图像；

根据所述后向帧视频图像以及所述后向帧视频图像对应的光流信息确定第二过渡帧视频图像；

根据所述第一过渡帧视频图像以及所述第二过渡帧视频图像生成目标过渡帧视频图像；

将所述目标过渡帧视频图像插入至所述前向帧视频图像和所述后向帧视频图像之间，以生成目标视频图像序列。

10.根据权利要求7所述的方法，其特征在于，所述待处理的至少一帧视频图像为服务器根据用户输入的交互信息生成的默认答复视频，所述接收服务器发送的待处理的至少一帧视频图像之后，所述方法还包括：

将所述默认答复视频作为目标视频图像序列；

输出所述目标视频图像序列。

11.一种图像处理方法，其特征在于，应用于图像处理系统，所述图像处理系统包括服务器和终端设备，所述服务器与所述终端设备电性连接，所述方法包括：

所述服务器获取所述终端设备的性能状态；

所述服务器根据所述性能状态，通过数字人模型生成待处理信息，所述待处理信息包括待处理的至少一帧视频图像以及待处理的光流信息；

所述服务器将所述至少一帧视频图像以及所述光流信息发送给所述终端设备；

所述终端设备根据所述至少一帧视频图像以及所述光流信息对所述至少一帧视频图像进行插帧处理；

所述终端设备获取插帧处理后的目标视频图像序列。

12.一种图像处理装置，其特征在于，应用于服务器，包括：

获取模块，用于获取终端设备的性能状态；

生成模块，用于根据所述性能状态，通过数字人模型生成的待处理信息，所述待处理信息包括待处理的至少一帧视频图像以及待处理的光流信息；

发送模块，用于将所述至少一帧视频图像以及所述光流信息发送给所述终端设备，以使所述终端设备根据所述光流信息对所述至少一帧视频图像进行插帧处理。

13.一种图像处理装置，其特征在于，应用于终端设备，包括：

接收模块，用于接收服务端发送的待处理的至少一帧视频图像以及待处理的光流信息；

处理模块，用于根据所述至少一帧视频图像以及所述光流信息对所述至少一帧视频图像进行插帧处理；

合成模块，用于获取插帧处理后的目标视频图像帧序列。

14.一种电子设备，其特征在于，包括：

存储器；

一个或多个处理器，与所述存储器耦接；

一个或多个应用程序，其中，所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行如权利要求1-11任一项所述的方法。

15.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-11任一项所述的方法。