CN114299105A

CN114299105A - 图像处理方法、装置、计算机设备及存储介质

Info

Publication number: CN114299105A
Application number: CN202110894043.9A
Authority: CN
Inventors: 谢植淮; 李松南
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2022-04-08

Abstract

本申请实施例公开了一种图像处理方法、装置、计算机设备及存储介质，涉及人工智能的计算机视觉技术领域，该图像处理方法包括：从待处理视频中获取目标图像帧和目标图像帧的参考图像帧，参考图像帧是待处理视频中与目标图像帧相邻的前一图像帧；对目标图像帧和参考图像帧进行图像拼接处理，得到拼接图像；按照多尺度的特征学习要求，对拼接图像进行时域和空域上的特征融合学习，得到目标融合特征；基于目标融合特征对目标图像帧进行光流估计，得到目标图像帧的目标光流信息。采用本申请实施例，可以提升光流估计的准确性。

Description

图像处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及互联网技术领域，具体涉及人工智能的计算机视觉技术领域，尤其涉及一种图像处理方法、装置、计算机设备及存储介质。

背景技术

随着互联网技术的快速进步，作为互联网技术中一个重要分支的人工智能技术得到了蓬勃地发展，而人工智能技术中的计算机视觉技术是图像处理任务和视频处理任务的基础。光流估计是计算机视觉技术中研究的经典问题，是解决视频处理任务中诸多问题基础，其通常用于研究视频中播放时间相邻的两个连续图像帧之间运动问题；不难看出，准确地进行光流估计可以大大提升视频处理任务的准确性。因此，如何提升光流估计的准确性成为当前的研究热点。

发明内容

本申请实施例提供了一种图像处理方法、装置、计算机设备及存储介质，可以提升光流估计的准确性。

一方面，本申请实施例提供一种图像处理方法，该方法包括：

从待处理视频中获取目标图像帧和目标图像帧的参考图像帧，参考图像帧是待处理视频中与目标图像帧相邻的前一图像帧；

对目标图像帧和参考图像帧进行图像拼接处理，得到拼接图像；

按照多尺度的特征学习要求，对拼接图像进行时域和空域上的特征融合学习，得到目标融合特征；

基于目标融合特征对目标图像帧进行光流估计，得到目标图像帧的目标光流信息。

另一方面，本申请实施例提供一种图像处理装置，该装置包括：

获取单元，用于从待处理视频中获取目标图像帧和目标图像帧的参考图像帧，参考图像帧是待处理视频中与目标图像帧相邻的前一图像帧；

处理单元，用于对目标图像帧和参考图像帧进行图像拼接处理，得到拼接图像；

处理单元，还用于按照多尺度的特征学习要求，对拼接图像进行时域和空域上的特征融合学习，得到目标融合特征；

处理单元，还用于基于目标融合特征对目标图像帧进行光流估计，得到目标图像帧的目标光流信息。

在一种实现方式中，处理单元，用于按照多尺度的特征学习要求，对拼接图像进行时域和空域上的特征融合学习，得到目标融合特征时，具体执行如下步骤：

获取特征融合网络，特征融合网络包括N个特征学习分支，一个特征学习分支对应一个特征学习尺度，N为大于1的整数；

调用特征融合网络中的各个特征学习分支，按照对应的特征学习尺度对拼接图像进行时域和空域上的特征融合学习；

对各个特征学习分支所学习到的融合特征进行特征融合处理，得到目标融合特征。

在一种实现方式中，N个特征学习分支包括第一特征学习分支，第一特征学习分支按照对应的特征学习尺度对拼接图像进行时域和空域上的特征融合学习时，具体执行如下步骤：

按照第一感受野对拼接图像在时域和空域上进行融合卷积处理，得到第一卷积特征，第一感受野用于描述第一特征学习分支对应的特征学习尺度；

基于第一卷积特征进行下采样处理，得到第一特征学习分支所学习到的融合特征。

在一种实现方式中，N个特征学习分支包括第二特征学习分支，第二特征学习分支按照对应的特征学习尺度对拼接图像进行时域和空域上的特征融合学习时，具体执行如下步骤：

调用第一浅层残差学习模块对拼接图像在时域和空域上进行融合残差学习，得到第一残差特征；

按照第二感受野对第一残差特征在时域和空域上进行融合卷积处理，得到第二卷积特征；第二感受野和第一浅层残差学习模块所涉及的感受野，共同描述第二特征学习分支对应的特征学习尺度；

基于第二卷积特征进行下采样处理，得到第二特征学习分支所学习到的融合特征。

在一种实现方式中，N个特征学习分支包括第三特征学习分支，第三特征学习分支按照对应的特征学习尺度对拼接图像进行时域和空域上的特征融合学习时，具体执行如下步骤：

调用第二浅层残差学习模块对第一残差特征在时域和空域上进行融合残差学习，得到第二残差特征；第一浅层残差学习模块所涉及的感受野，和第二浅层残差学习模块所涉及的感受野，共同描述第三特征学习分支对应的特征学习尺度；

基于第二残差特征进行下采样处理，得到第三特征学习分支所学习到的融合特征。

在一种实现方式中，N个特征学习分支中的各个特征学习分支在进行下采样处理时，所采用的下采样方式互不相同。

在一种实现方式中，目标融合特征包括多个通道的特征图，目标光流信息采用向量进行表示；处理单元，用于基于目标融合特征对目标图像帧进行光流估计，得到目标图像帧的目标光流信息时，具体用于执行如下步骤：

按照目标图像帧的图像尺寸，对目标融合特征进行上采样处理，得到上采样处理后的融合特征；

对上采样处理后的融合特征进行通道数的降维处理，得到降维处理后的融合特征，降维处理后的融合特征的通道数与目标光流信息的向量维数相匹配；

对降维处理后的融合特征进行激活处理，得到目标图像帧的目标光流信息。

在一种实现方式中，处理单元，用于对上采样处理后的融合特征进行通道数的降维处理，得到降维处理后的融合特征时，具体用于执行如下步骤：

对上采样处理后的融合特征进行特征校准处理，得到特征校准后的融合特征；

对特征校准后的融合特征进行通道数的降维处理，得到降维处理后的融合特征。

在一种实现方式中，处理单元，还用于执行如下步骤：

基于目标光流信息和目标图像帧，生成目标图像帧的光流可视化图像；

根据光流可视化图像对目标图像帧进行图像超分处理，得到目标图像帧的超分图像，超分图像的分辨率高于目标图像帧的分辨率。

在一种实现方式中，目标融合特征是通过特征融合网络得到的，待处理视频是用于对特征融合网络进行训练的样本视频；获取单元，用于从待处理视频中获取目标图像帧和目标图像帧的参考图像帧时，具体用于执行如下步骤：

对待处理视频中的各个图像帧进行场景检测，以确定各个图像帧所属的场景；

在同一场景下的多个图像帧中，获取目标图像帧和目标图像帧的参考图像帧；其中，目标图像帧是多个图像帧中除第一个图像帧以外的任一图像帧。

在一种实现方式中，处理单元，还用于执行如下步骤：

获取目标图像帧对应的标记光流信息；

基于目标图像帧的目标光流信息和标记光流信息之间的差异，确定特征融合网络的损失值；

按照减小损失值的方向，优化特征融合网络的网络参数。

再一方面，本申请实施例提供一种计算机设备，该计算机设备包括：

处理器，适于实现计算机程序；以及，计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序适于由处理器加载并执行上述的图像处理方法。

再一方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被计算机设备的处理器读取并执行时，使得计算机设备执行上述的图像处理方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的图像处理方法。

本申请实施例中，可以按照多尺度的特征学习要求，对视频中播放时间相邻的两个连续图像帧的拼接图像进行时域和空域上的特征融合学习，然后可以基于特征融合学习得到的目标融合特征，对两个连续图像帧中播放时间较晚的图像帧进行光流估计，得到该图像帧的光流信息。由上述内容可知，特征融合学习所学习到的目标融合特征中，一方面融合了拼接图像在多个尺度下的特征，另一方面融合了拼接图像在时域和空域上的特征，采用进行了多维度(即多尺度、以及时域维度和空域维度)特征融合的目标融合特征进行光流估计，可以大大提升光流估计的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像处理方案的流程示意图；

图2是本申请实施例提供的一种图像处理方法的流程示意图；

图3a是本申请实施例提供的一种上采样过程的示意图；

图3b是本申请实施例提供的一种光流估计模型的架构示意图；

图4是本申请实施例提供的另一种图像处理方法的流程示意图；

图5a是本申请实施例提供的一种特征融合网络的结构示意图；

图5b是本申请实施例提供的一种浅层残差学习模块的结构示意图；

图5c是本申请实施例提供的一种光流可视化图像的示意图；

图5d是本申请实施例提供的一种图像超分场景的示意图；

图6是本申请实施例提供的另一种图像处理方法的流程示意图；

图7是本申请实施例提供的一种图像处理装置的结构示意图；

图8是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能软件技术主要包括计算机视觉(Computer Vision，CV)技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

其中，计算机视觉技术是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(三维)技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

基于上述所提及的计算机视觉技术中的图像处理技术，本申请实施例提出了一种图像处理方案，以实现对视频中播放时间相邻的两个连续图像帧进行光流估计，提升光流估计的准确性。在具体实现中，该图像处理方案可由一个计算机设备执行，该计算机设备可以是终端或服务器；此处所提及的终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等，但并不局限于此；此处所提及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

为便于理解本申请实施例所提出的图像处理方案，下面先对该图像处理方案所涉及的光流估计和光流信息等术语进行解释：

光流估计是指用于研究视频中播放时间相邻的两个连续图像帧的关联像素点之间的运动信息技术，光流估计得到光流信息，光流信息可以用于反映视频中播放时间相邻的两个连续图像帧的关联像素点之间的运动信息。其中，关联像素点是指两个连续图像帧中像素值相匹配(例如可以是像素值相同)的两个像素点；举例来说，两个连续图像帧可以包括目标图像帧和参考图像帧，参考图像帧是目标图像帧的前一图像帧，若参考图像帧中参考像素点的像素值与目标图像帧中目标像素点的像素值相匹配，则参考像素点与目标像素点互为关联像素点。更具体地说，光流信息中可以包括目标图像帧中的各目标像素点相对于参考图像帧中与各目标像素点互为关联像素点的参考像素点的运动信息，运动信息可以包括位移方向和位移大小。

光流信息的表示方式可以包括向量表示方式和彩色图像表示方式。在向量表示方式中，光流信息可以采用二维的向量进行表示，向量的第一维度表示目标图像帧中的各目标像素点相对于参考图像帧中与各目标像素点互为关联像素点的参考像素点，在水平方向(即X轴方向)上的位移大小；向量的第二维度表示目标图像帧中的各目标像素点相对于参考图像帧中与各目标像素点互为关联像素点的参考像素点，在垂直方向(即Y轴方向)上的位移大小。在彩色图像表示方式中，光流信息可以采用彩色光流图像进行表示，彩色光流图像中不同的颜色表示位移方向不同，颜色的深浅表示不同的位移大小；举例来说，目标图像帧中第一目标像素点在彩色光流图像中显示为深红色，目标图像帧中的第二目标像素点在彩色光流图像中显示为浅红色，这可以表明目标图像帧中的第一目标像素点相对于参考图像帧中关联的第一参考像素点的位移方向，与目标图像帧中的第二目标像素点相对于参考图像帧中关联的第二参考像素点的位移方向相同，且目标图像帧中的第一目标像素点相对于参考图像帧中关联的第一参考像素点的位移大小，与目标图像帧中的第二目标像素点相对于参考图像帧中关联的第二参考像素点的位移大小不相同。

基于上述描述，下面结合图1对本申请实施例所提出的图像处理方案的大致原理进行阐述：

针对视频中任意播放时间相邻的两个连续图像帧(以上述目标图像帧和参考图像帧为例)，可以将两个连续图像帧经图像拼接处理得到拼接图像；然后可以调用特征融合网络的多个(例如两个或两个以上)特征学习分支(例如图1所示的第1个特征学习分支、第2个特征学习分支、第N个特征学习分支(N为大于1的正整数)等)，按照各个特征学习分支各自对应的特征学习尺度，对拼接图像进行时域和空域上的特征融合学习，得到各个特征学习分支各自所学习到的融合特征(例如图1所示的第1个融合特征、第2个融合特征、第N个融合特征等)，接着可以对各个特征学习分支各自所学习到的融合特征进行特征融合处理，得到目标融合特征，这样便可基于目标融合特征进行光流估计，得到目标光流信息。

由此可见，该图像处理方案的特征融合学习过程中，不仅在各个特征学习尺度下融合了拼接图像在时域和空域上的特征，还融合了拼接图像在各个特征学习尺度下的特征，多维度的特征融合网络使得学习得到的目标融合特征可以准确地反映出拼接图像的特征，这样大大提升了基于目标融合特征的光流估计过程的准确性。

基于上述描述，下面结合图2、图4和图6对本申请实施例提供的图像处理方案进行更为详细地介绍。

本申请实施例提出一种图像处理方法，该图像处理方法可以由前述所提及的计算机设备执行。在本申请实施例中，该图像处理方法主要对图像拼接过程以及基于目标融合特征的光流估计过程进行介绍。如图2所示，该图像处理方法可以包括以下步骤S201-S204：

S201，从待处理视频中获取目标图像帧和目标图像帧的参考图像帧。

其中，待处理视频可以是任一类型的视频，如影视视频、综艺视频、自媒体视频、游戏视频，等等。所谓的影视视频是指：在指定拍摄场景中，按照事先制作好的剧本对人物和/或动物的表演过程以及周围的环境进行录制，并后期加上音频、特效等制作而成的视频；综艺视频是指：一种综合多种艺术形式并带有娱乐性的视频；自媒体视频是指：普通大众采用摄像设备对某个场景进行拍摄，且通过网络等途径向外发布的视频，如vlog(video blog，视频记录/视频博客/视频网络日志)；游戏视频是指：在一个或多个玩家用户玩耍目标游戏的过程中，对任一玩家用户的终端屏幕中所显示的游戏画面，或者对观看该任一玩家用户的游戏过程的观看用户的终端屏幕中所显示的游戏画面进行屏幕录制而成的视频。

具体的，待处理视频中可以包括播放时间相邻的多个连续的图像帧，当需要对待处理视频中的图像帧进行光流估计时，可以从待处理视频中获取播放时间相邻的任意两个连续的图像帧。其中，播放时间相邻的任意两个连续的图像帧可以包括目标图像帧和目标图像帧的参考图像帧，目标图像帧是待处理视频包括的多个图像帧中除第一个图像帧之外的任一图像帧，参考图像帧是待处理视频中与目标图像帧相邻的前一图像帧。

S202，对目标图像帧和参考图像帧进行图像拼接处理，得到拼接图像。

从待处理视频中获取目标图像帧和目标图像帧的参考图像帧之后，可以对目标图像帧和参考图像帧进行图像拼接处理，得到拼接图像；图像拼接处理可以包括直接图像拼接处理或间接图像拼接处理中的任意一种图像拼接处理方式，下面分别对这两种图像拼接处理方式进行介绍：

(1)对于直接图像拼接处理的图像拼接处理方式而言，目标图像帧中可以包括多个通道的图像，参考图像帧中可以包括多个通道的图像，目标图像帧中包括的图像通道数与参考图像帧中包含的图像通道数相同，可以直接按照图像通道维度将目标图像帧中包含的多个通道的图像与参考图像帧中包含的多个通道的图像进行拼接处理，得到拼接图像，拼接图像中包括的图像通道数等于目标图像帧中包括的图像通道数与参考图像帧中包含的图像通道数之和。具体来说，可以获取图像拼接网络(简称为Concat)，调用图像拼接网络按照图像通道维度将目标图像帧中包含的多个通道的图像与参考图像帧中包含的多个通道的图像进行拼接处理，得到拼接图像；其中，图像拼接网络可采用concatenate函数实现图像拼接处理。

举例来说，当目标图像帧和参考图像帧的色彩模式为RGB(Red，Green，Blue)模式时，目标图像帧中包括3个通道的图像，分别是R通道的图像(即红色通道的图像)、G通道的图像(即绿色通道的图像)和B通道的图像(即蓝色通道的图像)；参考图像帧中包括3个通道的图像，分别是R通道的图像、G通道的图像和B通道的图像。可以将目标图像帧中的R通道的图像与参考图像帧中的R通道的图像进行拼接处理，得到拼接图像中包含的两个R通道的图像；类似地，可以将目标图像帧中的G通道的图像与参考图像帧中的G通道的图像进行拼接处理，得到拼接图像中包含的两个G通道的图像，以及可以将目标图像帧中的B通道的图像与参考图像帧中的B通道的图像进行拼接处理，得到拼接图像中包含的两个B通道的图像；也就是说，拼接图像中可以包括6个通道的图像，分别是两个R通道的图像、两个G通道的图像以及两个B通道的图像。

相较于直接图像拼接处理的图像拼接处理方式而言，间接图像拼接处理的图像拼接处理方式与直接图像拼接处理的图像拼接处理方式的区别在于：在按照图像通道维度将目标图像帧中包含的多个通道的图像与参考图像帧中包含的多个通道的图像进行拼接处理，得到拼接图像之前，需要对目标图像帧中包含的各个通道的图像进行图像归一化处理，得到目标图像帧中各个通道的归一化图像，以及需要对参考图像帧中包含的各个通道的图像进行图像归一化处理，得到参考图像帧中各个通道的归一化图像，然后可以获取图像拼接网络，调用图像拼接网络按照图像通道维度将目标图像帧中多个通道的归一化图像与参考图像帧中多个通道的归一化图像进行拼接处理，得到拼接图像。其中，对任一通道的图像进行图像归一化处理是指：对该通道的图像中的各个像素点的像素值进行归一化处理，即将各个像素点的像素值映射至预设区间(例如预设区间[0，1]、预设区间[-1，1]等)内，从而各个像素点归一化后的像素值共同组成该通道归一化后的图像。例如，该通道的图像中各个像素点的像素值的取值范围为[0，255]，通过归一化处理将各个像素点的像素值归一化至预设区间[0，1]内。

S203，按照多尺度的特征学习要求，对拼接图像进行时域和空域上的特征融合学习，得到目标融合特征。

在对目标图像帧和参考图像帧进行图像拼接处理，得到拼接图像之后，可以按照多尺度的特征学习要求，对拼接图像进行时域和空域上的特征融合学习，得到目标融合特征。具体来说，可以获取特征融合网络(简称为FFB)，特征融合网络可以包括N个特征学习分支，一个特征学习分支对应一个特征学习尺度，N为大于1的整数；然后，可以调用特征融合网络中的各个特征学习分支，按照对应的特征学习尺度对拼接图像进行时域和空域上的特征融合学习；在这之后，可以调用特征融合网络对各个特征学习分支所学习到的融合特征进行特征融合处理，得到目标融合特征。

需要说明的是，在按照多尺度的特征学习要求，对拼接图像进行时域和空域上的特征融合学习，得到目标融合特征之前，可以先对拼接图像进行特征提取处理，得到拼接图像的初步特征，然后再按照多尺度的特征学习要求，对拼接图像的初步特征进行时域和空域上的特征融合学习，得到目标融合特征。具体地，可以获取特征提取网络(简称为InputBlock)，调用特征提取网络对拼接图像进行特征学习，得到拼接图像的初步特征；然后，可以获取特征融合网络，并调用特征融合网络中的各个特征学习分支，按照对应的特征学习尺度对拼接图像的初步特征进行时域和空域上的特征融合学习，以及可以对各个特征学习分支所学习到的融合特征进行特征融合处理，得到目标融合特征。

其中，特征提取网络可以是由一个或多个卷积层与激活层循环堆叠而成的；换句话说，特征提取网络可以包括一组或多组卷积子网络；一组或多组卷积子网络之间串行连接，一组或多组卷积子网络中：第一组卷积子网络的输出端与第二组卷积子网络的输入端连接，第二组卷积子网络的输出端与第三组卷积子网络的输入端连接，以此类推，倒数第一组卷积子网络的输出端与最后一组卷积子网络的输入端连接。每组卷积子网络中可以包括激活层与一个或多个卷积层，激活层与一个或多个卷积层之间串行连接；任一组卷积子网络中：第一个卷积层的输出端与第二个卷积层的输入端连接，第二个卷积层的输出端与第三个卷积层的输入端连接，以此类推，倒数第一个卷积层的输出端与最后一个卷积层的输入端连接，最后一个卷积层的输出端与激活层的输入端连接。其中，卷积层(ConvolutionalLayer)由若干卷积单元组成，可以用于提取输入的不同特征。激活层可以用于增强判定函数和整个网络的非线性特性，其采用激励函数(Activation Function)将特征图中各个单元的特征值归一化至指定区间(例如指定区间(0，1)、指定区间(-1，1)等)内，激励函数可以包括ReLU(Rectified Linear Unit，线性整流)函数、LReLU(Leaky ReLU，泄露线性整流)函数、Tanh(双曲正切)函数、Sigmoid函数等等，本申请实施例以特征提取网络的激活层所采用的激活函数是ReLU函数为例进行说明，但这并不构成对本申请实施例的限定，在实际的特征提取场景中，特征提取网络中激活层所采用的激活函数还可以是Tanh函数、Sigmoid函数等。

基于上述关于特征提取网络结构的描述，以特征提取网络包括一组卷积子网络，该卷积子网络中包括一个卷积层和一个激活层为例，利用特征提取网络对拼接图像进行特征提取处理的过程可以包括：采用特征提取网络的卷积层对拼接图像进行时域和空域上的融合卷积处理，得到拼接图像的融合卷积特征，以及采用特征提取网络的激活层对融合卷积特征进行激活处理，得到拼接图像的初步特征。

S204，基于目标融合特征对目标图像帧进行光流估计，得到目标图像帧的目标光流信息。

在按照多尺度的特征学习要求，对拼接图像进行时域和空域上的特征融合学习，得到目标融合特征之后，可以基于目标融合特征对目标图像帧进行光流估计，得到目标图像帧的目标光流信息。具体来说，基于目标融合特征对目标图像帧进行光流估计，得到目标图像帧的目标光流信息的过程可以包括以下步骤：

(1)按照目标图像帧的图像尺寸，对目标融合特征进行上采样处理，得到上采样处理后的融合特征。具体地，可以获取上采样网络，调用上采样网络按照目标图像帧的图像尺寸，对目标融合特征进行上采样处理，得到上采样处理后的融合特征。

在一种实现方式中，上采样网络中可以包括上采样层，可以采用上采样层按照目标图像帧的图像尺寸，对目标融合特征进行上采样处理，得到上采样处理后的融合特征；上采样处理后的融合特征可以包括多个通道的特征图，上采样处理后的融合特征中包括的各个通道的特征图的特征图尺寸与目标图像帧的图像尺寸相匹配(例如相同)。具体地，采用上采样层按照目标图像帧的图像尺寸，对目标融合特征进行上采样处理，得到上采样处理后的融合特征的过程可以包括：①目标融合特征可以包括多个通道的特征图，获取目标融合特征中特征图的通道数，以及获取目标融合特征中特征图的特征图尺寸(包括上采样前的宽度参数和上采样前的高度参数)。②根据目标融合特征中特征图的通道数、目标融合特征中特征图的特征图尺寸、以及目标图像帧的图像尺寸(包括目标图像帧的宽度参数和目标图像帧的高度参数)，确定上采样处理后的融合特征中特征图的通道数。③按照目标融合特征中特征图的通道数、目标融合特征中特征图的特征图尺寸、目标图像帧的图像尺寸、以及上采样处理后的融合特征中特征图的通道数，将目标融合特征中通道维度的特征变换至上采样处理后的融合特征的空间维度中，空间维度可以是由目标图像帧的宽度参数和目标图像帧的高度参数确定的，例如空间维度可以等于目标图像帧的宽度参数与目标图像帧的高度参数的乘积。

其中，根据目标融合特征中特征图的通道数、目标融合特征中特征图的特征图尺寸、以及目标图像帧的图像尺寸，确定上采样处理后的融合特征中特征图的通道数的过程可以包括：根据目标融合特征中特征图的特征图尺寸以及目标图像帧的图像尺寸确定上采样倍数，基于确定的上采样倍数和目标融合特征中特征图的通道数，确定上采样处理后的融合特征中特征图的通道数。具体地，上采样倍数等于目标图像帧的图像尺寸与目标融合特征中特征图的特征图尺寸之间的比值，目标融合特征中特征图的特征图尺寸等于目标融合特征中特征图的宽度参数与目标融合特征中特征图的高度参数之间的乘积，目标图像帧的图像尺寸等于目标图像帧的宽度参数与目标图像帧的高度参数之间的乘积，上采样处理后的融合特征中特征图的通道数等于目标融合特征中特征图的通道数与上采样倍数之间的比值。

举例来说，上采样层可以采用DepthToSpace算法实现上采样处理，采用DepthToSpace算法实现上采样处理的过程如图3a所示，目标融合特征中包括4个通道的特征图，每个通道的特征图的特征图尺寸为2×2(即上采样前的宽度参数为2，上采样前的高度参数为2)；在此需要将该目标融合特征上采样得到特征图尺寸为4×4的上采样处理后的融合特征，可以计算得到上采样倍数为(4×4)/(2×2)＝4倍，上采样处理后的融合特征中特征图的通道数为4/4＝1，即上采样处理后的融合特征包括1个通道的特征图，且该1个通道的特征图的特征图尺寸为4×4；从而，可以将目标融合特征中通道维度的特征变换至上采样处理后的融合特征的空间维度中，变换前的目标融合特征的特征图可参见图3a左侧示意图，变换结果可参见图3a右侧示意图。

在另一种实现方式中，上采样网络中可以包括卷积层和上采样层，目标融合特征可以包括多个通道的特征图。按照目标图像帧的图像尺寸，对目标融合特征进行上采样处理，得到上采样处理后的融合特征的过程可以包括：可以采用上采样网络的卷积层对目标融合特征进行通道数的降维处理，得到参考融合特征，参考融合特征中包含的特征图的通道数小于目标融合特征中包含的特征图的通道数；然后，可以采用上采样网络的上采样层按照目标图像帧的图像尺寸，对参考融合特征进行上采样处理，得到上采样处理后的融合特征，上采样处理后的融合特征中包括的各个通道的特征图的特征图尺寸与目标图像帧的图像尺寸相匹配(例如相同)，该过程与上述采用上采样网络的上采样层按照目标图像帧的图像尺寸，对目标融合特征进行上采样处理，得到上采样处理后的融合特征的过程类似，可参见上述关于目标融合特征的上采样过程，在此不再赘述。

(2)对上采样处理后的融合特征进行通道数的降维处理，得到降维处理后的融合特征。具体地，可以获取通道降维网络，调用通道降维网络对上采样处理后的融合特征进行通道数的降维处理，得到降维处理后的融合特征；其中，通道降维网络中包括卷积层，即通道降维网络通过卷积层实现通道数的降维处理；目标光流信息可以采用向量进行表示，降维处理后的融合特征的通道数与目标光流向量的向量维数相匹配(例如相同)。举例来说，目标光流信息采用二维向量进行表示，降维处理后的融合特征中包含2个通道的特征图，即降维处理后的融合特征的通道数为2。

需要注意的是，在对上采样处理后的融合特征进行通道数的降维处理，得到降维处理后的融合特征之前，还可以对上采样处理后的融合特征进行特征校准处理，得到特征校准后的融合特征。具体地，可以获取特征校准网络，调用特征校准网络对上采样处理后的融合特征进行特征校准处理，得到特征校准后的融合特征，也就是说，可以先采用特征校准网络对上采样处理后的融合特征进行特征校准处理，得到特征校准后的融合特征，再采用通道降维网络对特征校准后的融合特征进行通道数的降维处理，得到降维处理后的融合特征。

具体地，特征校准网络可以包括卷积层和激活层，采用特征校准网络对上采样处理后的融合特征进行特征校准处理，得到特征校准后的融合特征的过程可以包括：采用特征校准网络的卷积层对上采样处理后的融合特征进行融合卷积处理，得到中间融合特征；采用特征校准网络的激活层对中间融合特征进行激活处理，得到特征校准后的融合特征。本申请实施例以特征校准网络的激活层所采用的激活函数是LReLU函数为例进行说明，特征校准网络中涉及的激活层还可以采用其他激活函数，例如ReLU函数、Tanh函数等等。由于上述上采样过程是目标融合特征中通道维度的特征到空间维度的变换，这样会导致上采样处理后的融合特征不能准确地描述拼接图像的特征，通过特征校准网络可以对上采样处理后的融合特征进行特征校准，这样可以使得特征校准后的融合特征能够较为准确地描述拼接图像的特征，提升了特征校准后的融合特征的准确性，进而可以提升光流估计的准确性。

(3)对降维处理后的融合特征进行激活处理，得到目标图像帧的目标光流信息。

在对上采样处理后的融合特征进行通道数的降维处理，得到降维处理后的融合特征之后，可以对降维处理后的融合特征进行激活处理，得到目标图像帧的目标光流信息，具体地，可以获取特征激活网络，特征激活网络中包括激活层，调用特征激活网络的激活层对降维处理后的融合特征进行激活处理，得到目标图像帧的目标光流信息。本申请实施例以特征激活网络的激活层所采用的激活函数是Tanh函数为例进行说明，特征激活网络中涉及的激活层还可以采用其他激活函数，例如ReLU函数、LReLU函数等等。

需要说明的是，上述步骤S201至步骤S204中提及的图像拼接网络、特征提取网络、特征融合网络、上采样网络、特征校准网络、通道降维网络、特征激活网络可以分别集成于不同的模型中，例如图像拼接网络集成与图像拼接模型中，特征融合网络集成于特征融合模型中等等。或者，上述步骤S201至步骤S204中提及的图像拼接网络、特征提取网络、特征融合网络、上采样网络、特征校准网络、通道降维网络、特征激活网络可以集成于同一个模型中，例如集成于光流估计模型中。图3b以上述网络均集成于光流估计网络为例进行介绍，如图3b所示，光流估计模型30中包括图像拼接网络301、特征提取网络302、特征融合网络303、上采样网络304、特征校准网络305、通道降维网络306以及特征激活网络307；图像拼接网络301的输出端与特征提取网络302的输入端连接，特征提取网络302的输出端与特征融合网络303的输入端连接，特征融合网络303的输出端与上采样网络304的输入端连接，上采样网络304的输出端与特征校准网络305的输入端连接，特征校准网络305的输出端与通道降维网络306的输入端连接，通道降维网络306的输出端与特征激活网络307的输入端连接；光流估计模型30的输入为待处理视频中播放时间相邻的两个连续的图像帧(即图3b所示的目标图像帧和参考图像帧)，光流估计模型30的输出为目标图像帧的目标光流信息。

需要说明的是，本申请实施例所提及的步骤S201-S204可以是在特征融合网络的网络训练优化过程中执行的，也可以是在特征融合网络的实际应用过程中执行的。对于特征融合网络的实际应用过程，步骤S201的执行过程可参见前述内容；对于特征融合网络的训练优化过程，步骤S201的执行过程可参见前述内容，计算机设备也可结合场景检测来从待处理视频中获取目标图像帧和参考图像帧。

本申请实施例中，在对目标图像帧和参考图像帧进行拼接处理的过程中，可以对目标图像帧和参考图像帧中各通道的图像进行图像归一化处理，然后对各通道归一化后的图像进行拼接处理；图像归一化处理使得图像中较大的像素值(例如属于区间[0，255]的像素值)映射为预设区间(例如预设区间可以为[0，1])内较小的值，这样可大大减小图像拼接过程以及后续特征融合过程和光流估计过程所涉及的数据量，从而可以提升光流估计的效率。另外，在对光流估计模型的特征融合网络输出的目标融合特征进行上采样之后，可以对上采样处理后的融合特征进行特征校准处理，这样可以使得特征校准后的融合特征可以较为准确描述拼接图像的特征，从而可以提供光流估计的准确性。

本申请实施例还提出一种图像处理方法，该图像处理方法可以由前述所提及的计算机设备执行。在本申请实施例中，该图像处理方法主要对特征融合网络的结构以及特征融合过程进行介绍。如图4所示，该图像处理方法可以包括以下步骤S401-S406：

S401，从待处理视频中获取目标图像帧和目标图像帧的参考图像帧。

在本申请实施例中，涉及特征融合网络；本申请实施例所提及的步骤S401-S406可以是在特征融合网络的网络训练优化过程中执行的，也可以是在特征融合网络的实际应用过程中执行的。当步骤S401-S406在特征融合网络的网络优化过程中被执行时，该待处理视频可以理解成是用于对特征融合网络进行训练的样本视频；当步骤S401-S406在特征融合网络的实际应用过程中被执行时，该待处理视频可以理解成是需通过光流估计进行业务处理的业务视频，对此不作限定。

在一种具体实现中，无论待处理视频是样本视频还是业务视频，计算机设备在执行步骤S401时，均可从待处理视频中除第一个图像帧以外的剩余图像帧中，选取任一图像帧作为目标图像帧，并将被选取的任一图像帧的前一图像帧作为参考图像帧。另一种具体实现中，当待处理视频为样本视频时，则计算机设备也可结合场景检测来从待处理视频中获取目标图像帧和参考图像帧，使得获取到的目标图像帧和参考图像帧属于同一个场景，以避免因场景切换而导致目标图像帧和参考图像帧的差异较大，影响后续所得到的目标光流信息的准确性，进而避免影响网络的训练优化效果。

本申请实施例中步骤S401的执行过程与上述图2所示实施例中步骤S201的执行过程相同，具体执行过程可参见上述图2所示实施例中步骤S201的具体描述，在此不再赘述。

S402，对目标图像帧和参考图像帧进行图像拼接处理，得到拼接图像。

本申请实施例中步骤S402的执行过程与上述图2所示实施例中步骤S202的执行过程相同，具体执行过程可参见上述图2所示实施例中步骤S202的具体描述，在此不再赘述。

S403，获取特征融合网络。

特征融合网络可以包括N个特征学习分支和特征融合层，一个特征学习分支对应一个特征学习尺度，N为大于1的整数；各个特征学习分支可以用于按照各自对应的特征学习尺度对拼接图像进行时域和空域上的特征融合学习，特征融合层可以用于对各个特征学习分支所学习到的融合特征进行特征融合处理，得到目标融合特征。图5a是本申请实施例提供的一种特征融合网络的结构示意图，该特征融合网络50中包括3个特征学习分支和特征融合层504，3个特征学习分支分别是第一特征学习分支501、第二特征学习分支502和第三特征学习分支503。

S404，调用特征融合网络中的各个特征学习分支，按照对应的特征学习尺度对拼接图像进行时域和空域上的特征融合学习。

特征融合网络的N个特征学习分支中可以包括第一特征学习分支，第一特征学习分支按照对应的特征学习尺度对拼接图像进行时域和空域上的特征融合学习，可以包括：按照第一感受野对拼接图像在时域和空域上进行融合卷积处理，得到第一卷积特征，第一感受野用于描述第一特征学习分支对应的特征学习尺度；基于第一卷积特征进行下采样处理，得到第一特征学习分支所学习到的融合特征。

具体地，参见图5a所示的第一特征学习分支501，第一特征学习分支501中可以包括卷积层、激活层和池化层；卷积层的输出端与激活层的输入端连接，激活层的输出端与池化层的输入端连接。其中：

①按照第一感受野对拼接图像在时域和空域上进行融合卷积处理，得到第一卷积特征的过程可以是由第一特征学习分支501的卷积层实现的，即可以调用第一特征学习分支501的卷积层按照第一感受野对拼接图像在时域和空域上进行融合卷积处理，得到第一卷积特征；第一感受野是指拼接图像的特征图中用于计算第一卷积特征的特征图中每个单元的特征值的特征值区域的大小，第一感受野是根据第一特征学习分支501的卷积层的卷积核尺寸确定的；举例来说，第一特征学习分支501的卷积层的卷积核尺寸为3×3，则第一感受野为3×3，拼接图像的特征图中用于计算第一卷积特征的特征图中每个单元的特征值的特征值区域的大小为3×3。

②基于第一卷积特征进行下采样处理，得到第一特征学习分支所学习到的融合特征的过程可以是由第一特征学习分支501的激活层和池化层实现的，可以调用第一特征学习分支501的激活层对第一卷积特征进行激活处理，得到第一激活特征，以及可以调用第一特征学习分支501的池化层对第一激活特征进行下采样处理，得到第一特征学习分支所学习到的融合特征。

特征融合网络的N个特征学习分支中可以包括第二特征学习分支，第二特征学习分支按照对应的特征学习尺度对拼接图像进行时域和空域上的特征融合学习，可以包括：调用第一浅层残差学习(简称为SRB1)模块对拼接图像在时域和空域上进行融合残差学习，得到第一残差特征；按照第二感受野对第一残差特征在时域和空域上进行融合卷积处理，得到第二卷积特征；第二感受野和第一浅层残差学习模块所涉及的感受野，共同描述第二特征学习分支对应的特征学习尺度；基于第二卷积特征进行下采样处理，得到第二特征学习分支所学习到的融合特征。

具体地，参见图5a所示的第二特征学习分支502，第二特征学习分支502中可以包括第一浅层残差学习模块、卷积层、激活层和池化层；第一浅层残差学习模块的输出端与卷积层的输入端连接，卷积层的输出端与激活层的输入端连接，激活层的输出端与池化层的输入端连接。其中：

①第一浅层残差学习模块的结构可参见图5b，图5b是本申请实施例提供的一种浅层残差学习模块的结构示意图，第一浅层残差学习模块中可以包括卷积层和激活层；需要说明的是，所谓浅层残差学习模块可以理解为是包含的卷积层的数量小于或等于数量阈值的残差学习模块，相应地，所谓深层残差学习模块可以理解为是包含的卷积层的数量大于数量阈值的残差学习模块；对于图5b所示的第一浅层残差学习模块，调用第一浅层残差学习模块对拼接图像在时域和空域上进行融合残差学习，得到第一残差特征的过程可以包括：调用第一浅层残差学习模块的卷积层对拼接图像进行时域和空域上的融合卷积处理，得到第一浅层残差模块的残差卷积特征；对拼接图像和第一浅层残差模块的残差卷积特征进行融合处理，得到第一浅层残差学习模块的残差融合特征；调用第一浅层残差模块的激活层对第一浅层残差模块的残差融合特征进行激活处理，得到第一残差特征。

②按照第二感受野对第一残差特征在时域和空域上进行融合卷积处理，得到第二卷积特征的过程可以由第二特征学习分支502的卷积层实现，即可以调用第二特征学习分支502的卷积层按照第二感受野对第一残差特征在时域和空域上进行融合卷积处理，得到第二卷积特征；第二感受野是指第一残差特征的特征图中用于计算第二卷积特征的特征图中每个单元的特征值的特征值区域的大小，第二感受野是根据第二特征学习分支501的卷积层的卷积核尺寸确定的；需要说明的是，第二感受野和第一浅层残差学习模块所涉及的感受野，共同描述第二特征学习分支对应的特征学习尺度，其中，第一浅层残差学习模块所涉及的感受野是根据第一浅层残差学习模块中卷积层的卷积核尺寸确定的。

③基于第二卷积特征进行下采样处理，得到第二特征学习分支所学习到的融合特征的过程可以是由第二特征学习分支502的激活层和池化层实现的，可以调用第二特征学习分支502的激活层对第二卷积特征进行激活处理，得到第二激活特征，以及可以调用第二特征学习分支502的池化层对第二激活特征进行下采样处理，得到第二特征学习分支所学习到的融合特征。

特征融合网络的N个特征学习分支中可以包括第三特征学习分支，第三特征学习分支按照对应的特征学习尺度对拼接图像进行时域和空域上的特征融合学习，可以包括：调用第一浅层残差学习模块对拼接图像在时域和空域上进行融合残差学习，得到第一残差特征；调用第二浅层残差学习(简称SRB2)模块对第一残差特征在时域和空域上进行融合残差学习，得到第二残差特征；第一浅层残差学习模块所涉及的感受野，和第二浅层残差学习模块所涉及的感受野，共同描述第三特征学习分支对应的特征学习尺度；基于第二残差特征进行下采样处理，得到第三特征学习分支所学习到的融合特征。

具体地，参见图5a所示的第三特征学习分支503，第三特征学习分支503中可以包括第一浅层残差学习模块、第二浅层残差学习模块、卷积层和激活层；第一浅层残差学习模块的输出端与第二浅层残差学习模块的输入端连接，第二浅层残差学习模块的输出端与卷积层的输入端连接，卷积层的输出端与激活层的输入端连接。其中：

①第一浅层残差学习模块的结构可参见图5b，调用第一浅层残差学习模块对拼接图像在时域和空域上进行融合残差学习，得到第一残差特征的过程可以包括：调用第一浅层残差学习模块的卷积层对拼接图像进行时域和空域上的融合卷积处理，得到第一浅层残差模块的残差卷积特征；对拼接图像和第一浅层残差模块的残差卷积特征进行融合处理，得到第一浅层残差学习模块的残差融合特征；调用第一浅层残差模块的激活层对第一浅层残差模块的残差融合特征进行激活处理，得到第一残差特征。

②第二浅层残差学习模块的结构与第一浅层残差学习模块的结构类似，可参见图5b中第一浅层残差学习模块的结构；调用第二浅层残差学习模块对第一残差特征在时域和空域上进行融合残差学习，得到第二残差特征的过程可以包括：调用第二浅层残差学习模块的卷积层对第一残差特征进行时域和空域上的融合卷积处理，得到第二浅层残差模块的残差卷积特征；对第一残差特征和第二浅层残差模块的残差卷积特征进行融合处理，得到第二浅层残差学习模块的残差融合特征；调用第二浅层残差模块的激活层对第二浅层残差模块的残差融合特征进行激活处理，得到第二残差特征。需要说明的是，第一浅层残差学习模块所涉及的感受野和第二浅层残差学习模块所涉及的感受野，共同描述第三特征学习分支对应的特征学习尺度，其中，第二浅层残差学习模块所涉及的感受野是根据第二浅层残差学习模块中卷积层的卷积核尺寸确定的。

③基于第二残差特征进行下采样处理，得到第三特征学习分支所学习到的融合特征的过程可以是由第三特征学习分支503的激活层和卷积层实现的，可以调用第三特征学习分支503的卷积层对第二残差特征进行下采样处理，得到下采样处理后的残差特征，以及调用第三特征学习分支503的激活层对下采样处理后的残差特征进行激活处理，得到第三特征学习分支所学习到的融合特征。

S405，对各个特征学习分支所学习到的融合特征进行特征融合处理，得到目标融合特征。

对各个特征学习分支所学习到的融合特征进行特征融合处理，得到目标融合特征的过程可以是由特征融合网络中的特征融合层(例如图5a所示的特征融合网络50中的特征融合层504)实现的，也就是说，可以调用特征融合网络中的特征融合层对各个特征学习分支所学习到的融合特征进行特征融合处理，得到目标融合特征。具体地，各个特征学习分支所学习到的融合特征均包括多个通道的特征图，并且各个特征学习分支所学习到的融合特征中所包含的特征图通道数是相同的，调用特征融合网络中的特征融合层对各个特征学习分支所学习到的融合特征进行特征融合处理是指：按照通道维度对各个特征学习分支所学习到的融合特征中的特征图进行拼接处理，得到目标融合特征；其中，目标融合特征中包含的特征图通道数等于各个特征学习分支所学习到的融合特征中所包含的特征图通道数之和。举例来说，第一特征学习分支所学习到的融合特征中包含50个通道的特征图，第二特征学习分支所学习到的融合特征中包含50个通道的特征图，第三特征学习分支所学习到的融合特征中包含50个通道的特征图，那么由三个特征学习分支所学习到的融合特征进一步融合得到的目标融合特征中包含150个通道的特征图。

需要说明的是，图5a所示的特征融合网络的结构仅用于举例，在实际应用场景中，特征融合网络的结构还可以是其他形式的，例如特征融合网络中可以包括4个特征学习分支、7个特征学习分支等等。另外，图5a所示的第二特征学习分支502和第三特征学习分支503共用第一浅层残差学习模块仅用于举例，在实际应用场景中，第二特征学习分支502和第三特征学习分支503可以分别使用一个浅层残差学习模块。第一浅层残差学习模块与第二浅层残差学习模块可以是同一个模块，也可以是不同的模块；第一浅层残差学习模块与第二浅层残差学习模块是同一个模块是指：第一浅层残差学习模块与第二浅层残差学习模块所采用的卷积层的数量相同、卷积层的卷积核相同、且所采用的激活层的激活函数相同；第一浅层残差学习模块与第二浅层残差学习模块是不同模块是指：第一浅层残差学习模块与第二浅层残差学习模块所采用的卷积层的数量不同、或者卷积层的卷积核不同、或者所采用的激活层的激活函数不同等等。本申请实施例以特征融合网络中涉及的激活层所采用的激活函数是LReLU函数为例进行说明，特征融合网络中涉及的激活层还可以采用其他激活函数，例如ReLU函数、Tanh函数等等。

还需说明的是，N个特征学习分支中的各个特征学习分支在进行下采样处理时，所采用的下采样方式互不相同。例如图5a所示的特征融合网络中，第一特征学习分支501所采用的下采样方式为采用最大池化层进行下采样处理，第二特征学习分支所采用的下采样方式为采用均值池化层进行下采样处理，第三特征学习分支所采用的下采样方式为采用卷积层进行下采样处理，通过下采样处理，可以消除目标图像帧与参考图像帧之间由于像素点运动导致的位置偏移，便于各个特征学习分支所学习到的融合特征进行拼接时各个融合特征之间能够对齐，另外通过设置不同的下采样方式，可以兼顾目标图像帧与参考图像帧之间像素点的大位移和小位移，进一步提升特征融合过程的准确性，从而可以提升光流估计的准确性。

S406，基于目标融合特征对目标图像帧进行光流估计，得到目标图像帧的目标光流信息。

本申请实施例中步骤S406的执行过程与上述图2所示实施例中步骤S204的执行过程相同，具体执行过程可参见上述图2所示实施例中步骤S204的描述，在此不再赘述。

需要说明的是，若前述所提及的待处理视频为业务视频，则在基于目标融合特征对目标图像帧进行光流估计，得到目标图像帧的目标光流信息之后，计算机设备还可以基于目标光流信息和目标图像帧，生成目标图像帧的光流可视化图像。其中，光流可视化图像与彩色光流图像类似，光流可视化图像中光流信息中不同的颜色表示位移方向不同，颜色的深浅表示不同的位移大小。图5c是本申请实施例提供的一种光流可视化图像是示意图，如图5c所示，目标图像帧505和参考图像帧506经过光流估计得到目标光流信息，基于目标光流信息与目标图像帧505可以生成光流可视化图像507，通过光流可视化图像507可以看出，目标图像帧505中的人相对于参考图像帧506中的人产生了运动，目标图像帧505中的建筑物相对于参考图像帧506中的建筑物是静止的。

其中，目标光流信息中可以包括目标图像帧中的各目标像素点相对于参考图像帧中关联的参考像素点的运动信息，运动信息可以包括位移方向和位移大小；基于目标光流信息和目标图像帧，生成目标图像帧的光流可视化图像的过程可以包括：对目标图像帧中各个像素点的像素值进行归一化处理，得到归一化处理后的图像，按照目标光流信息所指示的位移方向和位移大小，对归一化处理后的图像中的各像素点进行偏移变换处理，得到目标图像帧的变换图像，以及对目标图像帧的变换图像进行色彩渲染，得到光流可视化图像。需要说明的是，上述基于目标光流信息和目标图像帧，生成目标图像帧的光流可视化图像的过程具体可以采用TensorFlow中的dense_image_warp算法实现，TensorFlo w是一个基于数据流变成的符号数学系统，被广泛应用与各类机器学习算法的编程实现，dense_image_warp是一个图像仿射变换算法。

光流可视化图像可以应用于图像超分、运动分割、运动估计等场景中。在图像超分场景中，可以基于光流可视化图像对目标图像帧进行图像超分处理，得到目标图像帧的超分图像，超分图像的分辨率高于目标图像帧的分辨率；如图5d所示，图5d是本申请实施例提供的一种图像超分场景的示意图，图5d中超分图像509的分辨率高于目标图像帧的分辨率508，图像分辨率与图像的清晰度相关，图像的分辨率越高，图像越清晰，图像的分辨率越低，图像越模糊。在运动分割场景中，可以基于光流可视化图像确定目标图像帧中存在运动的运动对象(例如图5c所示的光流可视化图像中的人，例如可以是其他产生运动的动物、汽车等对象)，从而可以从目标图像帧中分割出包含运动对象的图像块。在运动估计场景中，可以基于光流可视化图像确定目标图像帧和参考图像帧中存在运动的运动对象，从而可以从目标图像帧中分割出包含该运动对象的第一图像块，以及可以从参考图像帧中分割出包含该运动对象的第二图像块，通过对第一图像块和第二图像块进行匹配分析，可以确定第一图像块中的运动对象与第二图像块中的运动对象的相对位移。

本申请实施例中，可以采用特征融合网络对拼接图像进行多尺度特征融合学习，对于特征融合网络中的任一个特征学习分支，该特征学习分支所学习到的融合特征融合了拼接图像在时域上和空域上的特征，对于特征融合网络中的各个特征学习分支，特征融合网络输出的目标融合特征融合了各个特征学习分支在各自对应的特征学习尺度下所学习到的融合特征，采用多个维度(即上述时域和空域维度、以及特征学习尺度维度)的特征融合网络对拼接图像的特征进行学习，可以提高学习到的目标融合特征的准确性，从而可以提高光流估计的准确性。另外，特征融合网络的各个特征学习分支可以采用不同的下采样方式进行下采样处理，这样可以兼顾目标图像帧与参考图像帧中像素点之间的大位移和小位移，能够有效消除目标图像帧与参考图像帧之间由于像素点运动导致的位置偏移，使得各个特征学习分支所学习到的融合特征之间进行对齐，这样有助于对各个特征学习分支所学习到的融合特征之间的进一步融合，进一步提升光流估计的准确性。

基于上述描述，本申请实施例还提出了一种图像处理方法，该图像处理方法可以由前述所提及的计算机设备执行。在本申请实施例中，该图像处理方法主要以待处理视频是用于对特征融合网络进行训练的样本视频为例进行阐述。

如图6所示，该图像处理方法可以包括以下步骤S601-S607：

S601，从待处理视频中获取目标图像帧和目标图像帧的参考图像帧。

其中，目标图像帧和参考图像帧是待处理视频中播放时间相邻且场景相匹配的两个连续的图像帧。从待处理视频中获取目标图像帧和目标图像帧的参考图像帧的过程可以包括：对待处理视频中的各个图像帧进行场景检测，以确定各个图像帧所属的场景；在同一场景下的多个图像帧中，获取目标图像帧和目标图像帧的参考图像帧；其中，目标图像帧是多个图像帧中除第一个图像帧以外的任一图像帧，参考图像帧是多个图像帧中与目标图像帧相邻的前一图像帧。

举例来说，第一图像帧、第二图像帧和第三图像帧所属的场景相同，第一图像帧是上个三个图像帧中的第一个图像帧，第二图像帧是与第一图像帧相邻的后一图像帧，第三图像帧是与第二图像帧相邻的后一图像帧；可以从上述三个图像帧中选择第二图像帧作为目标图像帧，第一图像帧作为参考图像帧；或者可以从上述三个图像帧中选择第三图像帧作为目标图像帧，第二图像帧作为参考图像帧。

需要说明的是，若训练得到的特征融合网络应用于图像超分场景中，还可以对目标图像帧和参考图像帧进行图像增强处理，得到增强处理后的目标图像帧和增强处理后的参考图像帧，从而可以采用增强处理后的目标图像帧和增强处理后的参考图像帧进行图像拼接处理，得到拼接图像。其中，图像增强处理可以包括以下至少一种：在目标图像帧和参考图像帧中增加高斯噪声、对目标图像帧和参考图像帧进行高斯模糊处理、在目标图像帧和参考图像帧中添加去压缩噪声等等；通过对目标图像帧和参考图像帧进行图像增强处理，可以特征融合网络的泛化能力。

S602，对目标图像帧和参考图像帧进行图像拼接处理，得到拼接图像。

S603，按照多尺度的特征学习要求，对拼接图像进行时域和空域上的特征融合学习，得到目标融合特征。

S604，基于目标融合特征对目标图像帧进行光流估计，得到目标图像帧的目标光流信息。

特征融合网络的训练过程中步骤S602至步骤S604的执行过程，与上述图2或图4所示实施例中光流估计模型的应用过程中的相关步骤是类似的，具体可参见上述图2或图4实施例中相关步骤的描述，例如步骤S602的执行过程可参见上述图2所示实施例中步骤S202的描述，步骤S603的执行过程可参见上述图4所示实施例中步骤S403至步骤S405的描述，步骤S604的执行过程可参见上述图2所示实施例中步骤S204的描述，在此不再赘述。

S605，获取目标图像帧对应的标记光流信息。

在光流估计模型的训练过程中，可以获取目标图像帧对应的标记光流信息，标记光流信息是目标图像帧的标注数据。

S606，基于目标图像帧的目标光流信息和标记光流信息之间的差异，确定特征融合网络的损失值。

S607，按照减小损失值的方向，优化特征融合网络的网络参数。

步骤S606至步骤S607中，在获取到目标图像帧对应的标记光流信息之后，可以基于目标图像帧的目标光流信息和标记光流信息之间的差异，确定特征融合网络的损失值，然后可以按照减小损失值的方向，优化特征融合网络的网络参数。具体来说，在获取到目标图像帧对应的标记光流信息之后，可以获取特征融合网络的损失函数，然后可以基于目标图像帧的目标光流信息和标记光流信息之间的差异，确定特征融合网络在损失函数下的损失值，以便于可以按照减小损失值的方向，优化特征融合网络的网络参数。

其中，本申请实施例所提及的“按照减小损失值的方向”是指：以最小化损失值为目标的网络优化方向；通过此方向进行网络优化，使得特征融合网络在每次优化后所再次产生的损失值，需小于特征融合网络在优化前所产生的损失值。例如，本次计算得到的特征融合网络的损失值为0.85，那么通过按照减小损失值的方向优化特征融合网络后，通过优化特征融合网络所产生的损失值应小于0.85。另外，本申请实施例涉及的损失函数可以是L1范数损失函数或L2范数损失函数，但这并不构成对本申请实施例的限定，本申请实施例采用的损失函数还可以是其他损失函数，例如交叉熵损失函数等等。

需要说明的是，由前述内容可知，特征融合网络可以集成于一个单独的模型中，或者特征融合网路可以与图像拼接网络、特征提取网络、上采样网络、特征校准网络、通道降维网络以及特征激活网络等集成于同一个光流估计模型中。当特征融合网络集成于一个单独的模型中时，例如特征融合网络集成于特征融合模型中，可以采用特征融合网络的损失值按照减小损失值的方向，优化特征融合模型的模型参数(即特征融合网络的网络参数)，实现对特征融合网络的训练。当特征融合网络与图像拼接网络、特征提取网络、上采样网络、特征校准网络、通道降维网络以及特征激活网络等集成于光流估计模型时，可以采用特征融合网络的损失值按照减小损失值的方向，优化光流估计模型的模型参数，实现对光流估计模型的训练。

本申请实施例中，获取训练数据时需要进行场景检测，获取到的用于对特征融合网络进行训练的训练数据，是视频中播放时间相邻且场景相匹配的两个连续的图像帧，通过场景检测，使得训练数据中的两个图像帧属于同一个场景，这样避免因目标图像帧和参考图像帧属于不同的场景导致目标图像帧与参考图像帧的差异较大，影响后续所得到的目标光流信息的准确性，进而避免影响网络的训练优化效果。另外，若训练得到的特征融合网络应用于图像超分场景中，还可以在特征融合网络的训练过程中对目标图像帧和参考图像帧进行图像增强处理，通过图像增强处理可以提升特征融合网络的泛化性能，使得特征融合网络对于不同类型的图像均能达到很好地特征学习融合效果，例如对于一些包含噪声的图像，特征融合网络不仅可以进行特征融合处理，还可以消除待处理图像中的噪声，这样可以强化训练好的特征融合网络的图像超分能力。

基于上述图像处理方法的相关实施例的描述，本申请实施例还提出了一种图像处理装置，该图像处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)。具体地，该图像处理装置可以执行图2、图4或图6所示的图像处理方法中的方法步骤；请参见图7，该图像处理装置可以运行如下单元：

获取单元701，用于从待处理视频中获取目标图像帧和目标图像帧的参考图像帧，参考图像帧是待处理视频中与目标图像帧相邻的前一图像帧；

处理单元702，用于对目标图像帧和参考图像帧进行图像拼接处理，得到拼接图像；

处理单元702，还用于按照多尺度的特征学习要求，对拼接图像进行时域和空域上的特征融合学习，得到目标融合特征；

处理单元702，还用于基于目标融合特征对目标图像帧进行光流估计，得到目标图像帧的目标光流信息。

在一种实现方式中，处理单元702，用于按照多尺度的特征学习要求，对拼接图像进行时域和空域上的特征融合学习，得到目标融合特征时，具体执行如下步骤：

在一种实现方式中，目标融合特征包括多个通道的特征图，目标光流信息采用向量进行表示；处理单元702，用于基于目标融合特征对目标图像帧进行光流估计，得到目标图像帧的目标光流信息时，具体用于执行如下步骤：

在一种实现方式中，处理单元702，用于对上采样处理后的融合特征进行通道数的降维处理，得到降维处理后的融合特征时，具体用于执行如下步骤：

在一种实现方式中，处理单元702，还用于执行如下步骤：

在一种实现方式中，目标融合特征是通过特征融合网络得到的，待处理视频是用于对特征融合网络进行训练的样本视频；获取单元701，用于从待处理视频中获取目标图像帧和目标图像帧的参考图像帧时，具体用于执行如下步骤：

在一种实现方式中，处理单元702，还用于执行如下步骤：

获取目标图像帧对应的标记光流信息；

按照减小损失值的方向，优化特征融合网络的网络参数。

根据本申请的一个实施例，图2、图4或图6所示的方法所涉及的方法步骤可以是由图7所示的图像处理装置中的各个单元来执行的。例如，图2中所示的步骤S201可由图7中所示的获取单元701执行，图2中所示的步骤S202-S204可由图7中所示的处理单元702执行。又如，图4中所示的步骤S401可由图7中所示的获取单元701执行，图4中所示的步骤S402-S406可由图7中所示的处理单元702执行。再如，图6中所示的步骤S601和步骤S605可由图7中所示的获取单元701执行，图6中所示的步骤S602-S604，以及步骤S606-S607可由图7中所示的处理单元702执行。

根据本申请的另一个实施例，图7所示的图像处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，基于图像处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2、图4或图6中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图7中所示的图像处理装置，以及来实现本申请实施例的图像处理方法。所述计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于上述计算设备中，并在其中运行。

基于上述方法实施例以及装置实施例的描述，本申请实施例还提供一种计算机设备。请参见图8，该计算机设备至少包括处理器801、输入接口802、输出接口803以及计算机可读存储介质804。其中，处理器801、输入接口802、输出接口803以及计算机可读存储介质804可通过总线或其他方式连接。

计算机可读存储介质804可以存储在计算机设备的存储器中，所述计算机可读存储介质804用于存储计算机程序，所述计算机程序包括计算机指令，所述处理器801用于执行所述计算机可读存储介质804存储的程序指令。处理器801(或称CPU(CentralProcessing Unit，中央处理器))是计算机设备的计算核心以及控制核心，其适于实现一条或多条计算机指令，具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。

本申请实施例还提供了一种计算机可读存储介质(Memory)，所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了计算机设备的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或多条的计算机指令，这些计算机指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(Non-Volatile Memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机可读存储介质。

在一种实现方式中，可由处理器801加载并执行计算机可读存储介质804中存放的一条或多条计算机指令，以实现上述有关图2、图4或图6所示的图像处理方法的相应步骤。具体实现中，计算机可读存储介质804中的一条或多条计算机指令由处理器801加载并执行如下步骤：

在一种实现方式中，计算机可读存储介质804中的一条或多条计算机指令由处理器801加载并执行按照多尺度的特征学习要求，对拼接图像进行时域和空域上的特征融合学习，得到目标融合特征时，具体执行如下步骤：

在一种实现方式中，目标融合特征包括多个通道的特征图，目标光流信息采用向量进行表示；计算机可读存储介质804中的一条或多条计算机指令由处理器801加载并执行基于目标融合特征对目标图像帧进行光流估计，得到目标图像帧的目标光流信息时，具体用于执行如下步骤：

在一种实现方式中，计算机可读存储介质804中的一条或多条计算机指令由处理器801加载并执行对上采样处理后的融合特征进行通道数的降维处理，得到降维处理后的融合特征时，具体用于执行如下步骤：

在一种实现方式中，计算机可读存储介质804中的一条或多条计算机指令由处理器801加载，还用于执行如下步骤：

在一种实现方式中，目标融合特征是通过特征融合网络得到的，待处理视频是用于对特征融合网络进行训练的样本视频；计算机可读存储介质804中的一条或多条计算机指令由处理器801加载并执行从待处理视频中获取目标图像帧和目标图像帧的参考图像帧时，具体用于执行如下步骤：

获取目标图像帧对应的标记光流信息；

按照减小损失值的方向，优化特征融合网络的网络参数。

需要说明的是，根据本申请的一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图2、图4或图6所示的图像处理方法实施例方面的各种可选方式中提供的方法。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

从待处理视频中获取目标图像帧和所述目标图像帧的参考图像帧，所述参考图像帧是所述待处理视频中与所述目标图像帧相邻的前一图像帧；

对所述目标图像帧和所述参考图像帧进行图像拼接处理，得到拼接图像；

按照多尺度的特征学习要求，对所述拼接图像进行时域和空域上的特征融合学习，得到目标融合特征；

基于所述目标融合特征对所述目标图像帧进行光流估计，得到所述目标图像帧的目标光流信息。

2.如权利要求1所述的方法，其特征在于，所述按照多尺度的特征学习要求，对所述拼接图像进行时域和空域上的特征融合学习，得到目标融合特征，包括：

获取特征融合网络，所述特征融合网络包括N个特征学习分支，一个特征学习分支对应一个特征学习尺度，N为大于1的整数；

调用所述特征融合网络中的各个特征学习分支，按照对应的特征学习尺度对所述拼接图像进行时域和空域上的特征融合学习；

对所述各个特征学习分支所学习到的融合特征进行特征融合处理，得到目标融合特征。

3.如权利要求2所述的方法，其特征在于，所述N个特征学习分支包括第一特征学习分支，所述第一特征学习分支按照对应的特征学习尺度对所述拼接图像进行时域和空域上的特征融合学习，包括：

按照第一感受野对所述拼接图像在时域和空域上进行融合卷积处理，得到第一卷积特征，所述第一感受野用于描述所述第一特征学习分支对应的特征学习尺度；

基于所述第一卷积特征进行下采样处理，得到所述第一特征学习分支所学习到的融合特征。

4.如权利要求2所述的方法，其特征在于，所述N个特征学习分支包括第二特征学习分支，所述第二特征学习分支按照对应的特征学习尺度对所述拼接图像进行时域和空域上的特征融合学习，包括：

调用第一浅层残差学习模块对所述拼接图像在时域和空域上进行融合残差学习，得到第一残差特征；

按照第二感受野对所述第一残差特征在时域和空域上进行融合卷积处理，得到第二卷积特征；所述第二感受野和所述第一浅层残差学习模块所涉及的感受野，共同描述所述第二特征学习分支对应的特征学习尺度；

基于所述第二卷积特征进行下采样处理，得到所述第二特征学习分支所学习到的融合特征。

5.如权利要求2所述的方法，其特征在于，所述N个特征学习分支包括第三特征学习分支，所述第三特征学习分支按照对应的特征学习尺度对所述拼接图像进行时域和空域上的特征融合学习，包括：

调用第二浅层残差学习模块对所述第一残差特征在时域和空域上进行融合残差学习，得到第二残差特征；所述第一浅层残差学习模块所涉及的感受野，和所述第二浅层残差学习模块所涉及的感受野，共同描述所述第三特征学习分支对应的特征学习尺度；

基于所述第二残差特征进行下采样处理，得到所述第三特征学习分支所学习到的融合特征。

6.如权利要求2-5任一项所述的方法，其特征在于，所述N个特征学习分支中的各个特征学习分支在进行下采样处理时，所采用的下采样方式互不相同。

7.如权利要求1所述的方法，其特征在于，所述目标融合特征包括多个通道的特征图，所述目标光流信息采用向量进行表示；所述基于所述目标融合特征对所述目标图像帧进行光流估计，得到所述目标图像帧的目标光流信息，包括：

按照所述目标图像帧的图像尺寸，对所述目标融合特征进行上采样处理，得到上采样处理后的融合特征；

对所述上采样处理后的融合特征进行通道数的降维处理，得到降维处理后的融合特征，所述降维处理后的融合特征的通道数与所述目标光流信息的向量维数相匹配；

对所述降维处理后的融合特征进行激活处理，得到所述目标图像帧的目标光流信息。

8.如权利要求7所述的方法，其特征在于，所述对所述上采样处理后的融合特征进行通道数的降维处理，得到降维处理后的融合特征，包括：

对所述上采样处理后的融合特征进行特征校准处理，得到特征校准后的融合特征；

对所述特征校准后的融合特征进行通道数的降维处理，得到降维处理后的融合特征。

9.如权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述目标光流信息和所述目标图像帧，生成所述目标图像帧的光流可视化图像；

根据所述光流可视化图像对所述目标图像帧进行图像超分处理，得到所述目标图像帧的超分图像，所述超分图像的分辨率高于所述目标图像帧的分辨率。

10.如权利要求1所述的方法，其特征在于，所述目标融合特征是通过特征融合网络得到的，所述待处理视频是用于对所述特征融合网络进行训练的样本视频；所述从待处理视频中获取目标图像帧和所述目标图像帧的参考图像帧，包括：

对所述待处理视频中的各个图像帧进行场景检测，以确定所述各个图像帧所属的场景；

在同一场景下的多个图像帧中，获取目标图像帧和所述目标图像帧的参考图像帧；其中，所述目标图像帧是所述多个图像帧中除第一个图像帧以外的任一图像帧。

11.如权利要求10所述的方法，其特征在于，所述方法还包括：

获取所述目标图像帧对应的标记光流信息；

基于所述目标图像帧的目标光流信息和所述标记光流信息之间的差异，确定所述特征融合网络的损失值；

按照减小所述损失值的方向，优化所述特征融合网络的网络参数。

12.一种图像处理装置，其特征在于，所述图像处理装置包括：

获取单元，用于从待处理视频中获取目标图像帧和所述目标图像帧的参考图像帧，所述参考图像帧是所述待处理视频中与所述目标图像帧相邻的前一图像帧；

处理单元，用于对所述目标图像帧和所述参考图像帧进行图像拼接处理，得到拼接图像；

所述处理单元，还用于按照多尺度的特征学习要求，对所述拼接图像进行时域和空域上的特征融合学习，得到目标融合特征；

所述处理单元，还用于基于所述目标融合特征对所述目标图像帧进行光流估计，得到所述目标图像帧的目标光流信息。

13.一种计算机设备，其特征在于，所述计算机设备包括：

处理器，适于实现计算机程序；以及，

计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1至11任一项所述的图像处理方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机程序，所述计算机程序适于由处理器加载并执行如权利要求1至11任一项所述的图像处理方法。