CN113344794A - 一种图像处理方法、装置、计算机设备及存储介质 - Google Patents

一种图像处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113344794A
CN113344794A CN202110889941.5A CN202110889941A CN113344794A CN 113344794 A CN113344794 A CN 113344794A CN 202110889941 A CN202110889941 A CN 202110889941A CN 113344794 A CN113344794 A CN 113344794A
Authority
CN
China
Prior art keywords
image
feature map
network
feature
distillation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110889941.5A
Other languages
English (en)
Other versions
CN113344794B (zh
Inventor
谢植淮
李松南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110889941.5A priority Critical patent/CN113344794B/zh
Publication of CN113344794A publication Critical patent/CN113344794A/zh
Application granted granted Critical
Publication of CN113344794B publication Critical patent/CN113344794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • G06T3/4076Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请实施例提供了一种图像处理方法、装置、计算机设备及存储介质,该图像处理方法包括:从待处理视频中确定至少两帧待处理图像,并将至少两帧待处理图像进行图像拼接处理,得到拼接图像;利用第一特征提取模块对拼接图像进行特征提取,得到第一特征图;利用第二特征提取模块对第一特征图进行特征提取,得到第二特征图;根据第一特征图、第二特征图以及至少两帧待处理图像中的目标图像,确定目标图像的超分图像。采用本申请实施例,可以有效提高生成的超分图像的质量和效果。

Description

一种图像处理方法、装置、计算机设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及人工智能技术领域,具体涉及一种图像处理方法、一种图像处理装置、一种计算机设备以及一种计算机可读存储介质。
背景技术
目前,视频信息流产品(例如视频点播应用程序、直播应用程序等等)已成为一种炙手可热的互联网产品,广泛应用于人们的日常生活中。随着计算机技术的不断发展,视频信息流产品的用户对于高清视频(即高分辨率视频)的需求越来越大,视频信息流产品亟需一种提升视频分辨率的可行方案;众所周知,视频是由播放时间相邻的多帧连续的图像构成的,提升视频中各帧图像的分辨率(即生成视频中各帧图像的超分图像),可提升视频的分辨率;因此,如何生成图像的超分图像成为当前研究的热点话题。
发明内容
本申请实施例提供了一种图像处理方法、装置、计算机设备及存储介质,可以有效提高生成的超分图像的质量和效果。
一方面,本申请实施例提供了一种图像处理方法,该图像处理方法包括:
从待处理视频中确定至少两帧待处理图像,并将至少两帧待处理图像进行图像拼接处理,得到拼接图像;
利用第一特征提取模块对拼接图像进行特征提取,得到第一特征图;
利用第二特征提取模块对第一特征图进行特征提取,得到第二特征图;
根据第一特征图、第二特征图以及至少两帧待处理图像中的目标图像,确定目标图像的超分图像;
其中,第二特征提取模块包括M个残差特征蒸馏网络和特征图拼接网络,M个残差特征蒸馏网络中的各个残差特征蒸馏网络的输出端与特征图拼接网络的输入端连接,第二特征图是特征图拼接网络对各个残差特征蒸馏网络输出的特征图进行拼接得到的。
一方面,本申请实施例提供了一种图像处理装置,该图像处理装置包括:
处理单元,用于从待处理视频中确定至少两帧待处理图像,并将至少两帧待处理图像进行图像拼接处理,得到拼接图像;
处理单元,还用于利用第一特征提取模块对拼接图像进行特征提取,得到第一特征图;
处理单元,还用于利用第二特征提取模块对第一特征图进行特征提取,得到第二特征图;
处理单元,还用于根据第一特征图、第二特征图以及至少两帧待处理图像中的目标图像,确定目标图像的超分图像;
其中,第二特征提取模块包括M个残差特征蒸馏网络和特征图拼接网络,M个残差特征蒸馏网络中的各个残差特征蒸馏网络的输出端与特征图拼接网络的输入端连接,第二特征图是特征图拼接网络对各个残差特征蒸馏网络输出的特征图进行拼接得到的。
在一个实施例中,各个残差特征蒸馏网络串行连接;M个残差特征蒸馏网络中:第1个残差特征蒸馏网络的输入端与第一特征提取模块的输出端连接;第K个残差特征蒸馏网络的输入端与第K-1个残差特征蒸馏网络的输出端连接,第K个残差特征蒸馏网络的输出端与第K+1个残差特征蒸馏网络的输入端连接;第M个残差特征蒸馏网络的输出端与特征图拼接网络的输入端连接;K为大于1且小于M的任一正整数。
在一个实施例中,处理单元,用于利用第二特征提取模块对所述第一特征图进行特征提取,得到第二特征图时,具体用于执行如下步骤:
将第一特征图输入第1个残差特征蒸馏网络中进行特征提取,得到第一参考特征图;
针对任一第K个残差特征蒸馏网络,将第K-1个残差特征蒸馏网络输出的参考特征图输入第K个残差特征蒸馏网络中进行特征提取,得到第二参考特征图;
针对第M个残差特征蒸馏网络,将M个残差特征蒸馏网络中的第M-1个残差特征蒸馏网络输出的参考特征图输入第M个残差特征蒸馏网络中进行特征提取,得到第三参考特征图;
利用特征图拼接网络对第一参考特征图、各个第二参考特征图以及第三参考特征图进行特征图拼接处理,得到第二特征图。
在一个实施例中,每一个残差特征蒸馏网络包括N层信息蒸馏子网络和层外卷积层,每层信息蒸馏子网络包括层内卷积层和浅层残差网络;N层信息蒸馏子网络中:第Y层信息蒸馏子网络包括的浅层残差网络的输出端与第Y+1层信息蒸馏子网络的输入端连接,第N层信息蒸馏子网络包括的浅层残差网络的输出端与层外卷积层的输入端连接;Y为大于或等于1且小于N的任一正整数。
在一个实施例中,处理单元,还用于执行如下步骤:
分别利用第1层信息蒸馏子网络的层内卷积层和浅层残差网络,对待处理特征图进行特征提取,得到第1层信息蒸馏子网络的卷积特征图和残差特征图;
针对任一第Y层信息蒸馏子网络,分别利用第Y层信息蒸馏子网络的层内卷积层和浅层残差网络,对第Y-1层信息蒸馏子网络的残差特征图进行特征提取,得到第Y层信息蒸馏子网络的卷积特征图和残差特征图;
针对第N层信息蒸馏子网络,分别利用第N层信息蒸馏子网络的层内卷积层和浅层残差网络,对第N-1层信息蒸馏子网络的残差特征图进行特征提取,得到第N层信息蒸馏子网络的卷积特征图和残差特征图;
利用层外卷积层对第N层信息蒸馏子网络的残差特征图进行特征提取,得到层外卷积层的卷积特征图;
将各层信息蒸馏子网络的卷积特征图和层外卷积层的卷积特征图进行特征图拼接处理,得到特征图拼接处理后的参考特征图。
在一个实施例中,处理单元,用于从待处理视频中确定至少两帧待处理图像时,具体用于执行如下步骤:
从待处理视频中获取播放时间相邻的多帧相邻图像,并针对多帧相邻图像中的各帧相邻图像进行场景检测;
根据场景检测结果从多帧相邻图像中确定场景相匹配的至少两帧待处理图像。
在一个实施例中,处理单元,用于根据所述第一特征图、所述第二特征图以及所述至少两帧待处理图像中的目标图像,确定所述目标图像的超分图像时,具体用于执行如下步骤:
将第二特征图进行降维处理,得到降维处理后的第二特征图,降维处理后的第二特征图的特征通道数与第一特征图的特征通道数相匹配;
将第一特征图与降维处理后的第二特征图进行融合处理,得到融合处理后的特征图;
分别将融合处理后的特征图以及至少两帧待处理图像中的目标图像进行上采样处理;
根据上采样处理后的特征图和上采样处理后的目标图像,确定目标图像的超分图像。
在一个实施例中,第一特征提取模块和第二特征提取模块包含于目标图像处理模型中;图像处理装置还可以包括获取单元,获取单元,用于执行如下步骤:获取训练数据集合,训练数据集合包括多组训练数据对,每一组训练数据对包括训练视频中的至少两帧样本图像,至少两帧样本图像所对应的场景相匹配;
处理单元,还用于执行如下步骤:利用多组训练数据对,对初始图像处理模型进行训练,得到训练后的图像处理模型,并将训练后的图像处理模型作为目标图像处理模型;
其中,在模型训练过程中,初始图像处理模型对任一组训练数据对所包括的至少两帧样本图像进行特征提取得到图像帧间特征信息,并根据图像帧间特征信息确定至少两帧样本图像中的目标样本图像的超分图像;初始图像处理模型根据基于各个目标样本图像的超分图像所确定的损失信息对初始图像处理模型的模型参数进行调整,以使得满足模型训练停止条件;图像帧间特征信息用于指示至少两帧样本图像之间针对同一对象的融合特征。
在一个实施例中,获取单元,还用于执行如下步骤:
从训练视频中获取播放时间相邻的多帧相邻图像,并针对多帧相邻图像中的各帧相邻图像进行场景检测;
根据场景检测结果从多帧相邻图像中确定场景相匹配的至少两帧目标相邻图像;
针对至少两帧目标相邻图像进行下采样处理,将下采样处理后的至少两帧目标相邻图像作为训练数据对中的至少两帧样本图像。
在一个实施例中,损失信息是基于各个目标样本图像的超分图像以及各个目标样本图像下采样之前的原始图像所确定的。
一方面,本申请实施例提供一种计算机设备,该计算机设备包括:处理器和存储器,处理器和存储器相互连接,其中,存储器存储有可执行程序代码,处理器用于调用可执行程序代码,执行上述的图像处理方法。
相应的,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被计算机设备的处理器读取并执行时,使得计算机设备执行上述的图像处理方法。
相应的,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的图像处理方法。
本申请实施例中,从待处理视频中确定至少两帧待处理图像之后,可以对至少两帧待处理图像进行拼接处理,得到拼接图像;然后,可以利用第一特征提取模块对拼接图像进行初步特征提取处理,得到第一特征图之后,可以利用第二特征提取模块对第一特征图进行进一步地特征提取,得到第二特征图;以及,可以根据第一特征图、第二特征图和至少两帧待处理图像中的目标图像,确定目标图像的超分图像,超分图像的分辨率高于目标图像的分辨率。在上述生成视频中某图像帧(例如上述目标图像)的超分图像的过程中,不仅结合了视频中该某图像帧之外的其他图像帧的特征信息,还融合了不同特征提取模块针对该某图像帧和该其他图像帧所提取的不同特征信息,并且基于所采用的第二特征提取模块的结构,可以提取更好的图像特征信息,以上均有利于生成质量更好的超分图像,从而使得生成的超分图像效果更好。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种高低分辨率图像的对比示意图;
图2是本申请实施例提供的一种图像处理方案的图像处理架构示意图;
图3是本申请实施例提供的另一种图像处理方案的图像处理架构示意图;
图4是本申请实施例提供的一种图像处理方法的流程示意图;
图5a是本申请实施例提供的一种第二特征提取模块的结构示意图;
图5b是本申请实施例提供的另一种第二特征提取模块的结构示意图;
图5c是本申请实施例提供的一种残差特征蒸馏网络的结构示意图;
图5d是本申请实施例提供的一种浅层残差网络的结构示意图;
图6是本申请实施例提供的另一种图像处理方法的流程示意图;
图7是本申请实施例提供的一种图像处理装置的结构示意图;
图8是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例涉及图像分辨率和图像超分技术。其中,图像分辨率是指图像中存储的信息量,可采用每英寸图像内的像素点数量进行表示,每英寸图像内的像素点数量越多,图像分辨率越高,每英寸图像内的像素点数量越少,图像分辨率越低;图像分辨率与图像清晰度相关,图像分辨率越高,图像清晰度越高,图像分辨率越低,图像清晰度越低。
图像超分技术又可称为图像超分辨率技术,是一项底层图像处理任务,其将低分辨率的图像映射至高分辨率,以达到增强图像细节的作用;高分辨率图像一般是指垂直分辨率大于或等于720p的图像,低分辨率图像一般是指垂直分辨率小于720p的图像,高分辨率图像相比于低分辨率图像而言具有更多的图像细节。图1是本申请实施例提供的一种高低分辨率图像的对比示意图,图1所示的左侧图像为低分辨率图像,图1所示的右侧图像为对左侧图像进行图像超分处理生成的超分图像(即高分辨率图像);对图1所示的左右两侧图像进行对比后不难看出,高分辨率图像中的每一片花瓣都清晰可见,而低分辨率图像中的花瓣非常模糊。
图像超分技术可广泛应用于视频点播、视频直播等视频信息流场景中。举例来说,在视频点播的视频信息流场景中,当用户通过切换视频清晰度的操作将被点播视频由低清晰度切换至高清晰度时,可以使用图像超分技术对被点播视频中的各帧图像进行图像超分处理,将被点播视频中的各帧图像映射至高分辨率,生成被点播视频中各帧图像的超分图像,从而将被点播视频由低清晰度切换至高清晰度;又如,在视频直播的视频信息流场景中,当因主播用户的拍摄设备硬件性能差导致拍摄的直播视频清晰度低时,可以使用图像超分技术对直播视频中的各帧图像进行图像超分处理,将直播视频中的各帧图像映射至高分辨率,生成直播视频中的各帧图像的超分图像,从而提升直播视频的清晰度。可见,能够生成超分图像的图像超分技术在视频信息流场景中具有十分显著的作用。
为了能够生成视频中各帧图像的超分图像,本申请实施例提供了一种图像处理方案,该图像处理方案采用EDVR(Video Restoration Framework with EnhancedDeformable Convolutions,具有增强的可变形卷积的视频恢复框架)算法实现图像超分过程,其认为提升视频中各帧图像分辨率(即生成视频中各帧图像的超分图像)的关键阶段在于图像对齐和时空信息融合;针对图像对齐和时空信息融合这两个阶段,该图像处理方案提出了对应的对齐模块和融合模块,具体可参见图2,图2是本申请实施例提供的一种图像处理方案的图像处理架构示意图。
如图2所示,该图像处理的方案的具体过程可以如下:(1)当需要提升待处理视频的清晰度时,针对待处理视频中的某帧图像(例如图像t),可以从待处理视频中提取播放时间相邻的三帧图像,分别是图像t-1、图像t、以及图像t+1。(2)利用预模糊模块分别提取三帧图像的特征图。(3)由于播放时间相邻的各帧图像之间存在一定的抖动,需要对各帧图像进行对齐之后才能进一步进行特征融合处理;在此可利用对齐模块在三帧图像的特征图之间进行对齐,得到三帧图像的特征图之间对齐的特征;其中,对齐模块具体可以是PCD(Pyramid Cascading and Deformable,金字塔的级联和可变形)对齐模块,PCD对齐模块通过Deformable卷积层(可变形卷积层)实现特征图之间的对齐;Deformable卷积层为感受野的每一个点添加一个偏移量,偏移量的大小是通过学习得来的,偏移后感受野不再是正方形,而是与图像中对象(例如人物、物体、动物等)的实际形状相匹配的形状,采用Deformable卷积层好处是无论图像中对象怎么形变,Deformable卷积层的作用区域始终覆盖在对象形状的周围,这样可以提高特征图对齐过程的准确率。(4)利用融合模块对三帧图像的特征图之间对齐的特征进行融合;其中,融合模块具体可以是TSA(Temporal andSpatial Attention,时空注意)融合模块,TSA融合模块通过注意力机制区分特征的重要性,挖掘时域(前后帧图像)和空域(同一帧内部)的融合特征。(5)利用重建模块对融合特征进行图像重建,得到三帧图像中的图像t的超分图像,超分图像的分辨率高于图像t的分辨率。
可见,图2所示图像处理架构可以生成视频中各帧图像的超分图像。但是该图像处理架构生成的超分图像质量不高;原因分析如下:首先,PCD对齐模块使用Deformable卷积层进行特征图对齐,若实际视频场景中播放时间相邻的各帧图像之间存在较大的帧间运动,将导致PCD对齐模块的特征对齐结果不准确,这会影响生成的超分图像的质量。另外,TSA融合模块的具体执行过程是利用提取得到的各帧图像与参考图像(例如图像t)去优化注意力图(attention map),但这忽略了相邻各帧图像之间的信息,虽然PCD对齐模块已经对各帧图像的特征图进行特征对齐,但是各帧图像之间仍然具有一些时域特征,这会导致源数据(即图像t-1、图像t、以及图像t+1)的图像细节损失较大,难以生成图像细节信息,这样会进一步影响生成的超分图像的质量。
基于此,本申请实施例提出进一步的图像处理方案,该图像处理方案可参见图3,图3是本申请实施例提供的另一种图像处理方案的图像处理架构示意图;相比于图2所示的图像处理方案,图3所示的图像处理方案可以提高生成的超分图像的质量和效果。如图3所示,该图像处理方案提供一种目标图像处理模型30,目标图像处理模型30可以包括第一特征提取模块301、第二特征提取模块302、通道消减模块303和上采样模块304。基于目标图像处理模型30的图像处理方案的具体过程可以如下:(1)当需要提升待处理视频的分辨率时,可以通过提升该待处理视频中的各帧图像的分辨率来提升待处理视频的分辨率。针对待处理视频中的任意一张或多张图像,以目标图像为例,可以从待处理视频中确定播放时间相邻且场景相匹配的至少两帧待处理图像;例如至少两帧待处理图像为第一待处理图像LRt和第二待处理图像LRt-1,其中第一待处理图像LRt为目标图像;然后,可以将至少两帧待处理图像进行图像拼接处理,得到拼接图像。(2)可以利用第一特征提取模块301对拼接图像进行初步特征提取,得到第一特征图。(3)可以利用第二特征提取模块302对第一特征图进行进一步特征提取,得到第二特征图。(4)可以利用通道消减模块303和上采样模块304,根据第一特征图、第二特征图以及至少两帧待处理图像中的目标图像,确定目标图像的超分图像,即确定第一待处理图像LRt的超分图像;超分图像的分辨率高于目标图像的分辨率。
图3所示的图像处理架构在生成目标图像的超分图像的过程中,不仅综合考虑了至少两帧待处理图像中的目标图像以及至少两帧待处理图像中除目标图像之外的其他图像的特征信息,还融合了第一特征提取模块针对至少两帧待处理图像提取到的第一特征图和第二特征提取模块针对至少两帧待处理图像提取到的第二特征图,这样有助于在超分图像的构建过程中生成更多的图像细节,从而使得基于这些图像细节构建的超分图像具有较高的质量和较好的效果。另外,第一特征提取模块和第二特征提取模块由卷积层与激活层的连接堆叠形成,第一特征提取模块和第二特征提取模块中采用的卷积层的数量少、卷积核的尺寸小(例如卷积核的尺寸为1×1、3×3等),这样使得第一特征提取模块和第二特征提取模块的模型复杂度低,可以提高超分图像的生成效率。
可以理解的是,图2和图3所示的图像处理架构是为了更加清楚的说明本申请实施例提供的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
需要说明的是,本申请实施例提供的图像处理方案可以由计算机设备执行,计算机设备可以是终端或服务器。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等,但并不局限于此。
以视频直播场景为例,图像处理方案可以由终端执行,终端中运行的视频直播应用程序具备图像处理功能;当主播用户的终端通过终端的相机采集到直播视频之后,可以通过视频直播应用程序的图像处理功能,对直播视频中的各帧图像进行图像超分处理,得到直播视频中各帧图像的超分图像,直播视频中各帧图像的超分图像共同组成直播视频对应的高清视频,从而可以将直播视频对应的高清视频分发至观众用户的终端中进行播放。以视频点播场景为例,图像处理方案也可以由服务器执行,用户的终端中运行有视频点播应用程序,视频点播应用程序的服务器具备图像处理功能;当用户通过视频点播应用程序对被点播视频执行由低清晰度切换至高清晰度的清晰度切换操作时,服务器可以通过图像处理功能对被点播视频中的各帧图像进行图像超分处理,得到被点播视频中各帧图像的超分图像,被点播视频中各帧图像的超分图像共同组成被点播视频对应的高清视频,从而可以将被点播视频对应的高清视频返回至用户的终端中进行观看。
另外,本申请实施例提供的图像处理方案还可涉及人工智能技术、云技术、区块链技术等,其中:
(1)人工智能技术:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
其中,计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(三维)技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请提出的图像处理方案属于计算机视觉技术所涉及的范畴,图像处理方案中的特征提取过程、特征图拼接过程、特征图融合过程均涉及人工智能算法。
(2)云技术:
云技术(Cloud Technology)是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
目前,云技术主要分为云基础技术类和云应用类;云基础技术类可以进一步细分为:云计算、云储存、数据库以及大数据等;云应用类可以进一步细分为:医疗云、云物联、云安全、云呼叫、私有云、公有云、混合云、云游戏、云教育、云会议、云社交以及人工智能云服务等。
从基础技术角度来看,本申请实施例提供的图像处理方案涉及云基础技术类中的云计算、云存储等技术。其中,云计算(Cloud Computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。云计算是网格计算(Grid Computing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
云存储(Cloud Storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。云计算技术可为特征提取过程、特征图拼接过程、特征图融合过程提供强大的计算力,这样可提升图像处理效率,也即提升超分图像的生成效率;云存储技术可为特征提取过程、特征图拼接过程、特征图融合过程提供存储空间。
从应用角度来看,本申请实施例提供的图像处理方案涉及云应用类中的人工智能云服务。所谓人工智能云服务,一般也被称作是AIaaS(AI as a Service,AI即服务)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城,所有的开发者都可以通过API(Application Programming Interface,应用程序编程接口)的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。本申请实施例提供的图像处理方案可以封装为一个人工智能云服务,且对外提供该人工智能云服务的API;当在某一业务场景下需要使用本申请实施例提供的图像处理功能时,通过调用该人工智能云服务的API,即可实现图像处理功能,并且可高效且高质量地提升图像处理效率。
(3)区块链技术:
区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块(也可称为区块)中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。本申请提供的图像处理方案可与区块链技术相结合,例如在待处理视频是私密视频的场景下,图像处理方案可基于区块链技术执行,例如执行图像处理方案的计算机设备可以被部署为区块链网络中的节点设备,待处理视频以及对待处理视频中的各帧图像处理得到的超分图像可以上传至区块链网络中进行保存,这样可以保证区块链上的这些视频或图像不被篡改,提高安全性。
基于上述描述,下面结合图4对本申请实施例提供的图像处理方案进行更为详细地介绍,图4主要描述采用目标图像处理模型进行图像超分处理的过程。请参见图4,图4是本申请实施例提供的一种图像处理方法的流程示意图,该图像处理方法可以由计算机设备执行,计算机设备可以是终端或服务器,该图像处理方法可以包括以下步骤S401至步骤S404:
S401,从待处理视频中确定至少两帧待处理图像,并将至少两帧待处理图像进行图像拼接处理,得到拼接图像。
待处理视频中包括多帧连续的图像,多帧连续的图像按照播放时间的先后顺序依次排列。本申请实施例提及的多帧、多个、多组、多对等所指示的数量为两个或两个以上。当需要对待处理视频中的各帧图像进行图像超分处理时,可以从待处理视频中确定至少两帧待处理图像,并将至少两帧待处理图像进行图像拼接处理,得到拼接图像。
首先,至少两帧待处理图像是待处理视频中播放时间相邻的多帧相邻图像中场景相匹配的图像;从待处理视频中确定至少两帧待处理图像的过程可以包括:(1)可以从待处理视频中获取播放时间相邻的多帧相邻图像(在图4所示实施例中提及的相邻图像为第一相邻图像)。例如多帧相邻图像可以是待处理视频中的第t+1帧相邻图像、第t帧相邻图像、第t-1帧相邻图像、以及第t-2帧相邻图像;其中,第t帧相邻图像是待处理视频中排列于第t位置的图像,第t-1帧相邻图像是待处理视频中排列于第t位置之前的第一张图像,第t-2帧相邻图像是待处理视频中排列于第t位置之前的第二张图像,第t+1帧相邻图像是待处理视频中排列于第t位置之后的第一张图像;t为大于2的整数。(2)可以针对多帧相邻图像中的各帧相邻图像进行场景检测,得到各帧相邻图像中的每帧相邻图像的场景检测结果。其中,任一帧相邻图像的场景检测结果可以包括该任一帧相邻图像所属的场景标签。(3)可以根据场景检测结果从多帧相邻图像中确定场景相匹配的至少两帧待处理图像。具体地,若各帧相邻图像中的至少两帧相邻图像的场景标签相匹配,则可以将至少两帧相邻图像确定为至少两帧待处理图像;例如,第t+1帧相邻图像、第t帧相邻图像、第t-1帧相邻图像、以及第t-2帧相邻图像中的第t张相邻图像的场景标签和第t-1张相邻图像的场景标签相匹配,则可以将第t帧相邻图像和第t-1帧相邻图像确定为至少两帧待处理图像。又如,第t+1帧相邻图像、第t帧相邻图像、第t-1帧相邻图像、以及第t-2帧相邻图像中的第t帧相邻图像的场景标签、第t-1帧相邻图像的场景标签和第t-2帧相邻图像的场景标签相匹配,则可以将第t帧相邻图像、第t-1帧相邻图像和第t-2帧相邻图像确定为至少两帧待处理图像。其中,至少两帧相邻图像场景相匹配是指:至少两帧相邻图像的场景标签相同或至少两帧相邻图像的场景标签之间的标签相似度大于相似度阈值。在从待处理视频中确定至少两帧待处理图像的过程中进行场景检测,可以保证确定出的至少两帧待处理图像具有较高的场景相似度。
其次,从待处理视频中确定至少两帧待处理图像之后,可以将至少两帧待处理图像进行图像拼接处理,得到拼接图像;图像拼接处理可以包括图像直接拼接处理或图像特征拼接处理。其中,图像直接拼接处理可以是指:将至少两帧待处理图像中各帧待处理图像的相应像素点的像素信息进行拼接处理,得到拼接图像中相应像素点的像素信息;相应像素点是指在各帧待处理图像以及拼接图像中位于相同位置的像素点;像素信息可以包括但不限于以下至少一种:亮度信息、色调信息、饱和度信息、像素点位置信息等等。或者,图像特征拼接处理可以是指:对于至少两帧待处理图像中的任一帧待处理图像,可以根据该任一帧待处理图像中各个像素点的像素信息进行特征提取,得到该任一帧待处理图像的空域特征图,该任一帧待处理图像的空域特征图可以用于指示该任一帧待处理图像中包含的对象(例如人物、动物、物体、风景等等)的特征;然后可以将各帧待处理图像的空域特征图进行特征图拼接处理,得到拼接特征图,并将拼接特征图作为拼接图像。
S402,利用第一特征提取模块对拼接图像进行特征提取,得到第一特征图。
从待处理视频中确定至少两帧待处理图像,并将至少两帧待处理图像进行图像拼接处理,得到拼接图像之后,可以利用第一特征提取模块对拼接图像进行特征提取,得到第一特征图。其中,第一特征提取模块可以用于对拼接图像进行初步特征提取,提取到的第一特征图中可以包括拼接图像的浅层特征,浅层特征例如可以是边缘、线条和角等层级的特征。
在此先对第一特征提取模块的结构进行介绍。第一特征提取模块可以是由一个或多个卷积层与激活层循环堆叠而成的;换句话说,第一特征提取模块可以包括一组或多组卷积网络;一组或多组卷积网络之间串行连接,一组或多组卷积网络中:第一组卷积网络的输出端与第二组卷积网络的输入端连接,第二组卷积网络的输出端与第三组卷积网络的输入端连接,以此类推,倒数第一组卷积网络的输出端与最后一组卷积网络的输入端连接。每组卷积网络中可以包括激活层与一个或多个卷积层,激活层与一个或多个卷积层之间串行连接;针对任一组卷积网络的激活层与一个或多个卷积层中:第一个卷积层的输出端与第二个卷积层的输入端连接,第二个卷积层的输出端与第三个卷积层的输入端连接,以此类推,倒数第一个卷积层的输出端与最后一个卷积层的输入端连接,最后一个卷积层的输出端与激活层的输入端连接。其中,卷积层(Convolutional Layer)由若干卷积单元组成,可以用于提取输入的不同特征。激活层可以用于增强判定函数和整个网络的非线性特性,其采用激励函数(Activation Function)进行功能实现,激励函数可以包括ReLU(RectifiedLinear Unit,线性整流函数)函数、双曲正切函数、Sigmoid函数等等,本申请实施例以激励函数为ReLU函数为例进行说明,ReLU激活函数可以将模型的训练速度提升数倍,并且不会对模型的泛化准确度造成显著影响。
基于上述关于第一特征提取模块结构的描述,利用第一特征提取模块对拼接图像进行特征提取的过程可以包括:将拼接图像输入第一组卷积网络中进行特征提取,得到第一组卷积网络输出的中间特征图;将第一组卷积网络输出的中间特征图输入第二组卷积网络中进行特征提取,得到第二组卷积网络输出的中间特征图;以此类推,将倒数第一组组卷积网络输出的中间特征图输入最后一组卷积网络中进行特征提取,得到最后一组卷积网络输出的中间特征图,并将最后一组卷积网络输出的中间特征图作为第一特征图。
S403,利用第二特征提取模块对第一特征图进行特征提取,得到第二特征图。
利用第一特征提取模块对拼接图像进行特征提取,得到第一特征图之后,可以利用第二特征提取模块对第一特征图进行特征提取,得到第二特征图。其中,第二特征提取模块可以用于对第一特征图进行进一步地特征提取,提取到的第二特征图中可以包括拼接图像的深层特征,深层特征例如可以是至少两帧待处理图像之间针对同一个对象的融合特征;通过第二特征提取模块对深层特征的特征提取过程,有助于生成更多的图像细节信息;以至少两帧待处理图像中均包含的某个生物对象为例,至少两帧待处理图像中的一部分待处理图像针对该生物对象的边缘特征多、局部特征少,而另一部分待处理图像针对该生物对象的局部特征多、边缘特征少,通过将这两部分待处理图像针对该生物对象的特征进行融合,可以生成该生物对象更完整的细节信息,从而基于第二特征图构建的超分图像具有较高的质量和较好的效果。
在此先对第二特征提取模块的结构进行介绍。第二特征提取模块可以包括M个残差特征蒸馏网络(RFDB)和特征图拼接网络(Concat),M个残差特征蒸馏网络中的各个残差特征蒸馏网络的输出端与特征图拼接网络的输入端连接;特征图拼接网络可以用于按照通道维度将多个特征图进行特征图拼接处理,第二特征图是特征图拼接网络对各个残差特征蒸馏网络输出的特征图进行拼接得到的,M为大于1的整数。M个残差特征蒸馏网络的连接方式可以包括串联连接或并联连接,下面结合图5a和图5b对这两种连接方式以及各连接方式下对应的特征提取过程进行介绍:
(1)M个残差特征蒸馏网络串行连接。图5a是本申请实施例提供的一种第二特征提取模块的结构示意图,如图5a所示,第二特征提取模块302中的M个残差特征蒸馏网络串行连接,M个残差特征蒸馏网络中的各个残差特征蒸馏网络的输出端与特征图拼接网络的输入端连接。在M个残差特征蒸馏网络中:第1个残差特征蒸馏网络的输入端与第一特征提取模块301的输出端连接;第K个残差特征蒸馏网络的输入端与第K-1个残差特征蒸馏网络的输出端连接,第K个残差特征蒸馏网络的输出端与第K+1个残差特征蒸馏网络的输入端连接;第M个残差特征蒸馏网络的输出端与特征图拼接网络的输入端连接;K为大于1且小于M的任一正整数。也就是说,第1个残差特征蒸馏网络的输入端与第一特征提取模块的输出端连接;第1个残差特征蒸馏网络的输出端与第2个残差特征蒸馏网络的输入端连接;以此类推,第M-1个残差特征蒸馏网络的输出端与第M个残差特征蒸馏网络的输入端连接;M个残差特征蒸馏网络均与特征图拼接网络的输入端连接。
基于图5a所示的第二特征提取模块的结构,利用第二特征提取模块对第一特征图进行特征提取的过程可以包括:将第一特征图输入第1个残差特征蒸馏网络中进行特征提取,得到第一参考特征图;针对任一第K个残差特征蒸馏网络,将第K-1个残差特征蒸馏网络输出的参考特征图输入第K个残差特征蒸馏网络中进行特征提取,得到第二参考特征图;针对第M个残差特征蒸馏网络,将M个残差特征蒸馏网络中的第M-1个残差特征蒸馏网络输出的参考特征图输入第M个残差特征蒸馏网络中进行特征提取,得到第三参考特征图;以及利用特征图拼接网络对第一参考特征图、各个第二参考特征图以及第三参考特征图进行特征图拼接处理,得到第二特征图。
(2)M个残差特征蒸馏网络并行连接。图5b是本申请实施例提供的另一种第二特征提取模块的结构示意图,如图5b所示,第二特征提取模块302中的M个残差特征蒸馏网络并行连接,第一特征提取模块301的输出端分别与M个残差特征蒸馏网络中的各个残差特征蒸馏网络的输入端连接,各个残差特征蒸馏网络的输出端与特征图拼接网络的输入端连接。也就是说,第1个残差特征蒸馏网络的输入端与第一特征提取模块的输出端连接,第1个残差特征蒸馏网络的输出端与特征图拼接网络的输入端连接;第2个残差特征蒸馏网络的输入端与第一特征提取模块的输出端连接,第2个残差特征蒸馏网络的输出端与特征图拼接网络的输入端连接;以此类推,第M个残差特征蒸馏网络的输入端与第一特征提取模块的输出端连接,第M个残差特征蒸馏网络的输出端与特征图拼接网络的输入端连接。
基于图5b所示的第二特征提取模块的结构,利用第二特征提取模块对第一特征图进行特征提取的过程可以包括:将第一特征图输入第1个残差特征蒸馏网络中进行特征提取,得到第1个残差特征蒸馏网络输出的第1个参考特征图;将第一特征图输入第2个残差特征蒸馏网络中进行特征提取,得到第2个残差特征蒸馏网络输出的第2个参考特征图;以此类推,将第一特征图输入第M个残差特征蒸馏网络中进行特征提取,得到第M个残差特征蒸馏网络输出的第M个参考特征图;以及利用特征图拼接网络对M个残差特征蒸馏网络输出的M个参考特征图进行特征图拼接处理,得到第二特征图。
其次,下面结合图5c对M个残差特征蒸馏网络中的任一个残差特征蒸馏网络的结构以及任一个残差特征蒸馏网络的特征提取过程进行介绍。图5c是本申请实施例提供的一种残差特征蒸馏网络的结构示意图,如图5c所示,每一个残差特征蒸馏网络包括N层信息蒸馏子网络3021和层外卷积层3022,N为大于1的整数;每层信息蒸馏子网络包括层内卷积层和浅层残差网络(SRB);在N层信息蒸馏子网络中:第Y层信息蒸馏子网络包括的浅层残差网络的输出端与第Y+1层信息蒸馏子网络的输入端连接,第N层信息蒸馏子网络包括的浅层残差网络的输出端与层外卷积层的输入端连接;Y为大于或等于1且小于N的任一正整数。换句话说,第1层信息蒸馏子网络包括的浅层残差网络的输出端与第2层信息蒸馏子网络的输入端连接;第2层信息蒸馏子网络包括的浅层残差网络的输出端与第3层信息蒸馏子网络的输入端连接;以此类推,第N-1层信息蒸馏子网络包括的浅层残差网络的输出端与第N层信息蒸馏子网络的输入端连接;第N层信息蒸馏子网络包括的浅层残差网络的输出端与层外卷积层的输入端连接。每一个残差特征蒸馏网络还可以包括特征图拼接网络,N层信息蒸馏子网络中各层信息蒸馏子网络包括的层内卷积层的输出端,以及层外卷积层的输出端与特征图拼接网络的输入端连接。每一个残差特征蒸馏网络还可以包括降维卷积层,残差特征蒸馏网络中的特征图拼接网络的输出端与降维卷积层的输入端连接。
基于图5c所示的任一个残差特征蒸馏网络的结构,任一个残差特征蒸馏网络的特征提取过程可以包括:分别利用第1层信息蒸馏子网络的层内卷积层和浅层残差网络,对待处理特征图进行特征提取,得到第1层信息蒸馏子网络的卷积特征图和残差特征图;针对任一第Y层信息蒸馏子网络,分别利用第Y层信息蒸馏子网络的层内卷积层和浅层残差网络,对第Y-1层信息蒸馏子网络的残差特征图进行特征提取,得到第Y层信息蒸馏子网络的卷积特征图和残差特征图;针对第N层信息蒸馏子网络,分别利用第N层信息蒸馏子网络的层内卷积层和浅层残差网络,对第N-1层信息蒸馏子网络的残差特征图进行特征提取,得到第N层信息蒸馏子网络的卷积特征图和残差特征图;利用层外卷积层对第N层信息蒸馏子网络的残差特征图进行特征提取,得到层外卷积层的卷积特征图;利用特征图拼接网络将各层信息蒸馏子网络的卷积特征图和层外卷积层的卷积特征图进行特征图拼接处理,得到特征图拼接处理后的参考特征图;将特征图拼接处理后的参考特征图输入至降维卷积层(例如可以是卷积核尺寸为1×1的卷积层)中进行特征提取,得到降维后的参考特征图;以及将降维后的参考特征图与待处理特征图进行融合处理,得到待处理特征图对应的目标特征图;特征图的融合处理过程是指将参与融合处理的各特征图中相应像素点的特征相加的过程。
其中,由于特征图拼接网络是按照通道维度对各层信息蒸馏子网络的卷积特征图和层外卷积层的卷积特征图进行特征图拼接处理的,特征图拼接处理后的参考特征图的特征通道数相比于待处理特征图的特征通道数而言,特征通道数变多,因此可以采用降维卷积层的特征提取过程对特征图拼接处理后的参考特征图进行通道降维处理,减少特征图拼接处理后的参考特征图的特征通道数,保持特征图拼接处理后的参考特征图的特征通道数与待处理特征图的特征通道数一致,并且可以减少特征图拼接处理过程带来的混叠效应。另外,此处的待处理特征图可以是上述第一参考特征图、各个第二参考特征图以及第三参考特征图中的任一个参考特征图。
然后,下面结合图5d对N层信息蒸馏子网络中任一个浅层残差网络的结构以及浅层残差网络的特征提取过程进行介绍。图5d是本申请实施例提供的一种浅层残差网络的结构示意图,如图5d所示,浅层残差网络中包括空洞卷积层和激活层,空洞卷积层的输出端与激活层的输入端连接。其中,空洞卷积层可以在减少网络参数的前提下扩大感受野,可以从更广阔的像素范围获取信息,避免,并避免网格问题,有助于构建特征图中各像素点的特征与各像素点的周围像素点的特征之间的联系。任一个残差特征蒸馏网络的各层信息蒸馏子网络中的浅层残差网络的空洞卷积层的卷积核尺寸可以相同也可以不相同;例如,各个空洞卷积层的卷积核尺寸均为3×3;又如,残差特征蒸馏网络的第一层信息蒸馏子网络的浅层残差网络中的空洞卷积层的卷积核尺寸为3×3,第二层信息蒸馏子网络的浅层残差网络中的空洞卷积层的卷积核尺寸为5×5。任一个残差特征蒸馏网络的各层信息蒸馏子网络中的浅层残差网络的空洞卷积层的扩张参数(dilation)可以相同也可以不相同;扩张参数与空洞卷积层的感受野相关,扩张参数越大,空洞卷积层的感受野越大,扩展参数越小,空洞卷积层的感受野越小;例如,各个空洞卷积层的扩展参数均为3;又如,残差特征蒸馏网络的第一层信息蒸馏子网络的浅层残差网络中的空洞卷积层的扩张参数为2,第二层信息蒸馏子网络的浅层残差网络中的空洞卷积层的扩张参数为3。
基于图5d所示的任一个浅层残差网络的结构,任一个浅层残差网络的特征提取过程可以包括:利用空洞卷积层对待处理特征图进行特征提取,得到空洞卷积层的卷积特征图;将空洞卷积层的卷积特征图与待处理特征图进行融合处理得到的特征图输入激活层进行非线性特征处理,得到非线性特征图,非线性特征图即浅层残差网络的输出。当浅层残差网络属于残差特征蒸馏网络的第1层信息蒸馏子网络时,待处理特征图可以是上述第一特征图、第一参考特征图、各个第二参考特征图以及第三参考特征图中的任一个参考特征图;当浅层残差网络不属于残差特征蒸馏网络的第1层信息蒸馏子网络时,待处理特征图可以是各层信息蒸馏子网络的残差特征图中的任一个残差特征图。
结合上述图5a至图5d所描述的第二特征提取模块的结构可知,第二特征提取模块包括M个残差特征蒸馏网络,每个残差特征蒸馏网络中包括N层信息蒸馏子网络,每层信息蒸馏子网络包括层内卷积层和浅层残差网络;对于任一个残差特征蒸馏网络而言,利用N层信息蒸馏子网络提取至少两帧待处理图像的特征信息,最终得到该残差特征蒸馏网络针对至少两帧待处理图像的特征信息;对于第二特征提取模块而言,利用M个残差特征蒸馏网络提取至少两帧待处理图像的特征信息,最终得到第二特征提取模块针对至少两帧待处理图像的特征信息,多层次多网络的第二特征提取模块可以提取到至少两帧待处理图像的更好的特征信息(即第二特征图),这样有助于生成更多的图像细节信息,从而可以基于第二特征提取模块可以提取到至少两帧待处理图像的更好的特征信息,构建高质量的超分图像。
S404,根据第一特征图、第二特征图以及至少两帧待处理图像中的目标图像,确定目标图像的超分图像。
在利用第一特征提取模块对拼接图像进行特征提取得到第一特征图,以及用第二特征提取模块对第一特征图进行特征提取得到第二特征图之后,可以根据第一特征图、第二特征图以及至少两帧待处理图像中的目标图像,确定目标图像的超分图像;目标图像可以是至少两帧待处理图像中的一帧或多帧待处理图像。举例来说,至少两帧待处理图像可以包括第一待处理图像、第二待处理图像和第三待处理图像,目标图像为第一待处理图像,那么可以根据第一特征图、第二特征图以及第一待处理图像,确定第一待处理图像的超分图像。又如,目标图像为第一待处理图像和第二待处理图像,那么可以根据第一特征图、第二特征图以及第一待处理图像,确定第一待处理图像的超分图像;以及可以根据第一特征图、第二特征图以及第二待处理图像,确定第二待处理图像的超分图像。
由前述内容可知,第一特征提取模块和第二特征提取模块包含于目标图像处理模型中,目标图像处理模型还可以包括通道消减模块(Channel Reduce Block)和上采样模块(Upscale Block);如图3所示的目标图像处理模型30的是目标图像处理模型的一种示例,目标图像处理模型30除包括第一特征提取模块301和第二特征提取模块302之外,还可以包括通道消减模块303和上采样模块304;通道消减模块中可以包括上述降维卷积层,其可以用于对特征图进行降维处理,减少特征图的特征通道数;上采样模块可以用于对特征图进行上采样处理,增加特征图的尺寸,上采用模块可以采用上采样算法或反卷积层进行功能实现,上采样算法可以包括但不限于:双线性差值算法、双三次插值算法、Pixel Shuffle(像素重组)算法。
进一步地,根据第一特征图、第二特征图以及至少两帧待处理图像中的目标图像,确定目标图像的超分图像的过程可以包括:利用通道消减模块将第二特征图进行降维处理,得到降维处理后的第二特征图,降维处理后的第二特征图的特征通道数与第一特征图的特征通道数相匹配;降维处理后的第二特征图的特征通道数与第一特征图的特征通道数相匹配是指:降维处理后的第二特征图的特征通道数与第一特征图的特征通道数相同,例如图3中降维处理后的第二特征图的特征通道数与第一特征图的特征通道数均为c。然后,可以将第一特征图与降维处理后的第二特征图进行融合处理,得到融合处理后的特征图。在这之后,可以利用上采样模块分别将融合处理后的特征图以及至少两帧待处理图像中的目标图像进行上采样处理;需要说明的是,用于对融合处理后的特征进行上采样处理的上采样模块,与用于对至少两帧待处理图像中的目标图像进行上采样处理的上采样模块可以是同一个上采样模块,也可以是不同的上采样模块;同一个上采样模块可以是指采用相同的上采样算法,且上采样算法中涉及的上采样参数(例如上采样倍数)相同;不同的上采样模块可以是指采用不同的上采样算法,或者采用相同的上采样算法但是上采样算法中涉及的上采样参数(例如上采样倍数)不相同。然后,可以根据上采样处理后的特征图和上采样处理后的目标图像,确定目标图像的超分图像,需要注意的是,上采样处理后的特征图和上采样处理后的目标图像具有相同的尺寸;具体地,可以对上采样处理后的融合特征图和上采样处理后的目标图像进行融合处理,得到目标图像的超分图像,超分图像的分辨率高于目标图像的分辨率。值得注意的是,目标图像可以是至少两帧待处理图像中的一帧或多帧待处理图像;如图3所示的图像处理架构中,目标图像是至少两帧待处理图像(即第一待处理图像和第二待处理图像)中的第一待处理图像。
可选地,将第一特征图与降维处理后的第二特征图进行融合处理,得到融合处理后的特征图之后,还可以再次利用通道消减模块对融合处理后的特征图进行降维处理,得到降维处理后的特征图;然后,可以利用上采样模块分别将降维处理后的特征图以及至少两帧待处理图像中的目标图像进行上采样处理,根据上采样处理后的特征图和上采样处理后的目标图像,确定目标图像的超分图像。需要说明的是,用于对第二特征图进行降维处理的通道消减模块,与用于对融合处理后的特征图进行降维处理的通道消减模块可以是同一个通道消减模块,也可以是不同的通道消减模块;同一个通道消减模块可以是指通道消减模块中采用的降维卷积层的卷积核的尺寸相同,不同的通道消减模块可以是指通道消减模块中采用的降维卷积层的卷积核的尺寸不相同。
本申请实施例中,第一特征提取模块和第二特征提取模块的复杂度低可以体现在以下两个方面:第一方面是第一特征提取模块和第二特征提取模块中采用的普通卷积层(即上述的层内卷积层、层外卷积层等等)的数量少、卷积层的卷积核尺寸小;第二方面是第二特征提取模块中采用空洞卷积层,可减少第二特征提取模块的网络参数;从而通过降低第一特征提取模块和第二特征提取模块的网络复杂度,可以提高生成超分图像的效率。另外,在从待处理视频中确定至少两帧待处理图像的过程中进行场景检测,可以保证确定出的至少两帧待处理图像具有较高的场景相似度,这样使得提取得到的至少两帧待处理图像之间的特征信息(即第二特征图)更准确,从而基于至少两帧待处理图像之间的特征信息生成的超分图像质量、效果均比较好。第二特征提取模块利用可以扩大感受野范围的空洞卷积层,提取至少两帧待处理图像之间的融合特征,有助于生成更多的图像的细节信息,图像的细节信息是提升图像分辨率的关键,从而可以进一步提高生成的超分图像的质量。
基于上述描述,下面结合图6对本申请实施例提供的图像处理方案进行更为详细地介绍,图6主要描述目标图像处理模型的训练过程。请参见图6,图6是本申请实施例提供的另一种图像处理方法的流程示意图,该图像处理方法可以由计算机设备执行,计算机设备可以是终端或服务器,该图像处理方法可以包括以下步骤S601至步骤S606:
S601,获取训练数据集合。
训练数据集合包括多组训练数据对,每一组训练数据对包括训练视频中的至少两帧样本图像,至少两帧样本图像所对应的场景相匹配。获取训练数据集中的任一组训练数据对的过程可以包括:(1)可以从训练视频中获取播放时间相邻的多帧相邻图像(在图6所示实施例中提及的相邻图像为第二相邻图像,第一相邻图像与第二相邻图像不相同),训练视频为高清视频,即训练视频中的各帧图像的分辨率为高分辨率,在实际训练场景中,训练视频的数量为多个;例如多帧相邻图像可以是训练视频中的第t+1帧相邻图像、第t帧相邻图像、第t-1帧相邻图像、以及第t-2帧相邻图像;其中,第t帧相邻图像是待处理视频中排列于第t位置的图像,第t-1帧相邻图像是待处理视频中排列于第t位置之前的第一张图像,第t-2帧相邻图像是待处理视频中排列于第t位置之前的第二张图像,第t+1帧相邻图像是待处理视频中排列于第t位置之后的第一张图像;t为大于2的整数。(2)针对多帧相邻图像中的各帧相邻图像进行场景检测,得到各帧相邻图像的场景检测结果;其中,任一帧相邻图像的场景检测结果可以包括该任一帧相邻图像所属的场景标签。(3)可以根据场景检测结果从多帧相邻图像中确定场景相匹配的至少两帧目标相邻图像。具体地,若各帧相邻图像中的至少两帧相邻图像的场景标签相匹配,则可以将至少两帧相邻图像确定为至少两帧目标相邻图像;例如第t+1帧相邻图像、第t帧相邻图像、第t-1帧相邻图像、以及第t-2帧相邻图像中的第t张相邻图像的场景标签和第t-1张相邻图像的场景标签相匹配,则可以将第t帧相邻图像和第t-1帧相邻图像确定为至少两帧目标相邻图像。又如,第t+1帧相邻图像、第t帧相邻图像、第t-1帧相邻图像、以及第t-2帧相邻图像中的第t帧相邻图像的场景标签、第t-1帧相邻图像的场景标签和第t-2帧相邻图像的场景标签相匹配,则可以将第t帧相邻图像、第t-1帧相邻图像和第t-2帧相邻图像确定为至少两帧目标相邻图像。其中,至少两帧相邻图像场景相匹配是指:至少两帧相邻图像的场景标签相同或至少两帧相邻图像的场景标签之间的标签相似度大于相似度阈值。(4)针对至少两帧目标相邻图像进行下采样处理,将下采样处理后的至少两帧目标相邻图像作为训练数据对中的至少两帧样本图像,目标相邻图像的分辨率高于样本图像的分辨率;其中,下采样处理的下采样倍数为S倍,以目标相邻图像的形状是矩形为例,若目标相邻图像的尺寸为W像素×Z像素,则S为W和Z的公约数,W和Z均为正整数。
基于上述内容,在训练数据对的获取过程中对多帧相邻图像中的各帧相邻图像进行场景检测,从而确定出的训练数据对中的至少两帧样本图像的场景相匹配,通过这样的方式,至少两帧样本图像的场景相匹配可以保证至少两帧样本图像之间的帧间运动小,有利于模型训练时的稳定性。
S602,利用训练数据集合包括的多组训练数据对,对初始图像处理模型进行训练,得到训练后的图像处理模型,并将训练后的图像处理模型作为目标图像处理模型。
目标图像处理模型是对初始图像处理模型进行训练得到的,初始图像处理模型与目标图像处理模型具有相同的模型架构,即初始图像处理模型中包括第一特征提取模块、第二特征提取模块、通道消减模块和上采样模块;对初始图像处理模型的训练过程,即是对上述各个模块中的模型参数进行调整优化的过程;初始图像处理模型与目标图像处理模型之间相应模块的结构是相同的,相应模块的模型参数不相同,目标图像处理模型中各个模块的模型参数是对初始图像处理模型中相应模块的模型参数进行调整优化得到的;例如,目标图像处理模型中的第一特征提取模块与初始图像处理模型中的第一特征提取模块具有相同的结构,目标图像处理模型中的第一特征提取模块中的模型参数,是训练过程中对初始图像处理模型中的第一特征提取模块中的模型参数进行调整优化得到的;各个模块的结构可参见上述图4所示实施例的描述,在此不再赘述。
模型训练过程与模型应用过程类似,在模型训练过程中,(1)初始图像处理模型对任一组训练数据对所包括的至少两帧样本图像进行特征提取得到图像帧间特征信息,图像帧间特征信息可以用于指示至少两帧样本图像之间针对同一对象的融合特征。具体来说,可以先对至少两帧样本图像进行图像拼接处理,得到样本拼接图像;然后,初始图像处理模型中的第一特征提取模块可以对样本拼接图像进行初步特征提取,得到第三特征图;初始图像处理模型中的第二特征提取模块可以对样本第三特征图进行进一步地特征提取,得到第四特征图,并将第四特征图作为图像帧间特征信息。(2)初始图像处理模型可以根据图像帧间特征信息确定至少两帧样本图像中的目标样本图像的超分图像。详细地,初始图像处理模型的通道消减模块可以将第四特征图(即图像帧间特征信息)进行降维处理,得到降维处理后的第四特征图,降维处理后的第四特征图的特征通道数与第三特征图的特征通道数相匹配;降维处理后的第四特征图的特征通道数与第三特征图的特征通道数相匹配是指:降维处理后的第四特征图的特征通道数与第三特征图的特征通道数相同。然后,初始图像处理模型可以将第三特征图与降维处理后的第四特征图进行融合处理,得到融合处理后的特征图。在这之后,初始图像处理模型可以利用上采样模块分别将融合处理后的特征图以及至少两帧样本图像中的目标样本图像进行上采样处理,并根据上采样处理后的融合特征图和上采样处理后的目标样本图像,确定目标样本图像的超分图像,需要注意的是,上采样处理后的特征图和上采样处理后的目标样本图像具有相同的尺寸;具体地,可以对上采样处理后的融合特征图和上采样处理后的目标样本图像进行融合处理,得到目标样本图像的超分图像,超分图像的分辨率高于目标样本图像的分辨率。值得注意的是,目标样本图像可以是至少两帧样本图像中的一帧或多帧样本图像。(3)初始图像处理模型根据基于各个目标样本图像的超分图像所确定的损失信息对初始图像处理模型的模型参数进行调整,以使得满足模型训练停止条件;其中,损失信息是基于各个目标样本图像的超分图像以及各个目标样本图像下采样之前的原始图像确定的,损失信息可以包括损失函数的函数值,满足模型训练停止条件可以是指:损失函数的函数值小于损失阈值。
可选的,在利用训练数据集合中包括的多组训练数据对,对初始图像处理模型进行训练之前,针对训练数据集合中的任一组训练数据对,还可以对训练数据对中的至少两帧样本图像进行数据增强处理,得到数据增强处理后的训练数据对,数据增强处理后的训练数据对包括数据增强处理后的至少两帧样本图像;然后,可以利用各组数据增强处理后的训练数据对,对初始图像处理模型进行训练,得到训练后的图像处理模型,并将训练后的图像处理模型作为目标图像处理模型。其中,对样本图像进行数据增强处理可以包括以下至少一种:在样本图像中增加高斯噪声、对样本图像进行高斯模糊处理、在样本图像中添加去压缩噪声等等;通过对样本图像进行数据增强处理,可以提升目标图像处理模型的泛化能力。
S603,从待处理视频中确定至少两帧待处理图像,并将至少两帧待处理图像进行图像拼接处理,得到拼接图像。
S604,利用第一特征提取模块对拼接图像进行特征提取,得到第一特征图。
S605,利用第二特征提取模块对第一特征图进行特征提取,得到第二特征图。
S606,根据第一特征图、第二特征图以及至少两帧待处理图像中的目标图像,确定目标图像的超分图像。
本申请实施例中步骤S603的执行过程与上述图4所示实施例中步骤S401的执行过程相同,步骤S604的执行过程与上述图4所示实施例中步骤S402的执行过程相同,步骤S605的执行过程与上述图4所示实施例中步骤S403的执行过程相同,步骤S606的执行过程与上述图4所示实施例中步骤S404的执行过程相同,具体可参见上述图4所示实施例中步骤S401至步骤S404的描述,在此不再赘述。
本申请实施例中,利用从训练视频中获取到的训练数据集合对初始图像处理模型进行训练,得到可以生成高质量的超分图像的目标图像处理模型。并且,在训练数据集合的过程中,通过对训练视频中的各帧图像进行场景检测,可以保证获取到的训练数据对中的至少两帧样本图像的场景相匹配,进一步可以保证至少两帧样本图像之间的帧间运动小,这样有利于模型训练时的稳定性。另外,还可以对各个训练数据对中的样本图像进行图像增强处理,通过图像增强处理可以提升模型的泛化性能,使得目标图像处理模型对于不同类型的待处理图像均能达到很好地图像分辨率提升效果,例如对于一些包含噪声的待处理图像,目标图像处理模型不仅可以提升待处理图像的分辨率,还可以消除待处理图像中的噪声。
请参见图7,图7是本申请实施例提供的一种图像处理装置的结构示意图。本申请实施例中所描述的图像处理装置,对应于前文的计算机设备,该图像处理装置包括:
处理单元701,用于从待处理视频中确定至少两帧待处理图像,并将至少两帧待处理图像进行图像拼接处理,得到拼接图像;
处理单元701,还用于利用第一特征提取模块对拼接图像进行特征提取,得到第一特征图;
处理单元701,还用于利用第二特征提取模块对第一特征图进行特征提取,得到第二特征图;
处理单元701,还用于根据第一特征图、第二特征图以及至少两帧待处理图像中的目标图像,确定目标图像的超分图像;
其中,第二特征提取模块包括M个残差特征蒸馏网络和特征图拼接网络,M个残差特征蒸馏网络中的各个残差特征蒸馏网络的输出端与特征图拼接网络的输入端连接,第二特征图是特征图拼接网络对各个残差特征蒸馏网络输出的特征图进行拼接得到的。
在一个实施例中,各个残差特征蒸馏网络串行连接;M个残差特征蒸馏网络中:第1个残差特征蒸馏网络的输入端与第一特征提取模块的输出端连接;第K个残差特征蒸馏网络的输入端与第K-1个残差特征蒸馏网络的输出端连接,第K个残差特征蒸馏网络的输出端与第K+1个残差特征蒸馏网络的输入端连接;第M个残差特征蒸馏网络的输出端与特征图拼接网络的输入端连接;K为大于1且小于M的任一正整数。
在一个实施例中,处理单元701,用于利用第二特征提取模块对所述第一特征图进行特征提取,得到第二特征图时,具体用于执行如下步骤:
将第一特征图输入第1个残差特征蒸馏网络中进行特征提取,得到第一参考特征图;
针对任一第K个残差特征蒸馏网络,将第K-1个残差特征蒸馏网络输出的参考特征图输入第K个残差特征蒸馏网络中进行特征提取,得到第二参考特征图;
针对第M个残差特征蒸馏网络,将M个残差特征蒸馏网络中的第M-1个残差特征蒸馏网络输出的参考特征图输入第M个残差特征蒸馏网络中进行特征提取,得到第三参考特征图;
利用特征图拼接网络对第一参考特征图、各个第二参考特征图以及第三参考特征图进行特征图拼接处理,得到第二特征图。
在一个实施例中,每一个残差特征蒸馏网络包括N层信息蒸馏子网络和层外卷积层,每层信息蒸馏子网络包括层内卷积层和浅层残差网络;N层信息蒸馏子网络中:第Y层信息蒸馏子网络包括的浅层残差网络的输出端与第Y+1层信息蒸馏子网络的输入端连接,第N层信息蒸馏子网络包括的浅层残差网络的输出端与层外卷积层的输入端连接;Y为大于或等于1且小于N的任一正整数。
在一个实施例中,处理单元701,还用于执行如下步骤:
分别利用第1层信息蒸馏子网络的层内卷积层和浅层残差网络,对待处理特征图进行特征提取,得到第1层信息蒸馏子网络的卷积特征图和残差特征图;
针对任一第Y层信息蒸馏子网络,分别利用第Y层信息蒸馏子网络的层内卷积层和浅层残差网络,对第Y-1层信息蒸馏子网络的残差特征图进行特征提取,得到第Y层信息蒸馏子网络的卷积特征图和残差特征图;
针对第N层信息蒸馏子网络,分别利用第N层信息蒸馏子网络的层内卷积层和浅层残差网络,对第N-1层信息蒸馏子网络的残差特征图进行特征提取,得到第N层信息蒸馏子网络的卷积特征图和残差特征图;
利用层外卷积层对第N层信息蒸馏子网络的残差特征图进行特征提取,得到层外卷积层的卷积特征图;
将各层信息蒸馏子网络的卷积特征图和层外卷积层的卷积特征图进行特征图拼接处理,得到特征图拼接处理后的参考特征图。
在一个实施例中,处理单元701,用于从待处理视频中确定至少两帧待处理图像时,具体用于执行如下步骤:
从待处理视频中获取播放时间相邻的多帧相邻图像,并针对多帧相邻图像中的各帧相邻图像进行场景检测;
根据场景检测结果从多帧相邻图像中确定场景相匹配的至少两帧待处理图像。
在一个实施例中,处理单元701,用于根据所述第一特征图、所述第二特征图以及所述至少两帧待处理图像中的目标图像,确定所述目标图像的超分图像时,具体用于执行如下步骤:
将第二特征图进行降维处理,得到降维处理后的第二特征图,降维处理后的第二特征图的特征通道数与第一特征图的特征通道数相匹配;
将第一特征图与降维处理后的第二特征图进行融合处理,得到融合处理后的特征图;
分别将融合处理后的特征图以及至少两帧待处理图像中的目标图像进行上采样处理;
根据上采样处理后的特征图和上采样处理后的目标图像,确定目标图像的超分图像。
在一个实施例中,第一特征提取模块和第二特征提取模块包含于目标图像处理模型中;图像处理装置还可以包括获取单元702,获取单元702,用于执行如下步骤:获取训练数据集合,训练数据集合包括多组训练数据对,每一组训练数据对包括训练视频中的至少两帧样本图像,至少两帧样本图像所对应的场景相匹配;
处理单元701,还用于执行如下步骤:利用多组训练数据对,对初始图像处理模型进行训练,得到训练后的图像处理模型,并将训练后的图像处理模型作为目标图像处理模型;
其中,在模型训练过程中,初始图像处理模型对任一组训练数据对所包括的至少两帧样本图像进行特征提取得到图像帧间特征信息,并根据图像帧间特征信息确定至少两帧样本图像中的目标样本图像的超分图像;初始图像处理模型根据基于各个目标样本图像的超分图像所确定的损失信息对初始图像处理模型的模型参数进行调整,以使得满足模型训练停止条件;图像帧间特征信息用于指示至少两帧样本图像之间针对同一对象的融合特征。
在一个实施例中,获取单元702,还用于执行如下步骤:
从训练视频中获取播放时间相邻的多帧相邻图像,并针对多帧相邻图像中的各帧相邻图像进行场景检测;
根据场景检测结果从多帧相邻图像中确定场景相匹配的至少两帧目标相邻图像;
针对至少两帧目标相邻图像进行下采样处理,将下采样处理后的至少两帧目标相邻图像作为训练数据对中的至少两帧样本图像。
在一个实施例中,损失信息是基于各个目标样本图像的超分图像以及各个目标样本图像下采样之前的原始图像所确定的。
本申请实施例中,从待处理视频中确定至少两帧待处理图像之后,可以对至少两帧待处理图像进行拼接处理,得到拼接图像;然后,可以利用第一特征提取模块对拼接图像进行初步特征提取处理,得到第一特征图之后,可以利用第二特征提取模块对第一特征图进行进一步地特征提取,得到第二特征图;以及,可以根据第一特征图、第二特征图和至少两帧待处理图像中的目标图像,确定目标图像的超分图像,超分图像的分辨率高于目标图像的分辨率。在上述生成视频中某图像帧(例如上述目标图像)的超分图像的过程中,不仅结合了视频中该某图像帧之外的其他图像帧的特征信息,还融合了不同特征提取模块针对该某图像帧和该其他图像帧所提取的不同特征信息,并且基于所采用的第二特征提取模块的结构,可以提取更好的图像特征信息,以上均有利于生成质量更好的超分图像,从而使得生成的超分图像效果更好。
在可行的实施例中,本申请实施例提供的图像处理装置可以采用软件方式实现,图像处理装置可以存储在存储器中,其可以是程序和插件等形式的软件,并包括一系列的单元,包括获取单元和处理单元;其中,获取单元和处理单元用于实现本申请实施例提供的图像处理方法。
在其它可行的实施例中,本申请实施例提供的图像处理装置也可以采用软硬件结合的方式实现,作为示例,本申请实施例提供的图像处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的图像处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(Application SpecificIntegrated Circuit,ASIC)、DSP、可编程逻辑器件(Programmable Logic Device,PLD)、复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或其他电子元件。
请参见图8,图8是本申请实施例提供的一种计算机设备的结构示意图。本申请实施例中所描述的计算机设备包括:处理器801、通信接口802及存储器803。其中,处理器801、通信接口802及存储器803可通过总线或其他方式连接,本申请实施例以通过总线连接为例。
其中,处理器801(或称CPU(Central Processing Unit,中央处理器))是计算机设备的计算核心以及控制核心,其可以解析计算机设备内的各类指令以及处理计算机设备的各类数据,例如,CPU可以用于解析用户向计算机设备所发送的开关机指令,并控制计算机设备进行开关机操作;再如,CPU可以在计算机设备内部结构之间传输各类交互数据,等等。通信接口802可选的可以包括标准的有线接口、无线接口(如Wi-Fi、移动通信接口等),受处理器801的控制用于收发数据。存储器803(Memory)是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器803既可以包括计算机设备的内置存储器,当然也可以包括计算机设备所支持的扩展存储器。存储器803提供存储空间,该存储空间存储了计算机设备的操作系统,可包括但不限于:Android系统、iOS系统、Windows Phone系统等等,本申请对此并不作限定。
在本申请实施例中,处理器801通过运行存储器803中的可执行程序代码,执行如下操作:
从待处理视频中确定至少两帧待处理图像,并将至少两帧待处理图像进行图像拼接处理,得到拼接图像;
利用第一特征提取模块对拼接图像进行特征提取,得到第一特征图;
利用第二特征提取模块对第一特征图进行特征提取,得到第二特征图;
根据第一特征图、第二特征图以及至少两帧待处理图像中的目标图像,确定目标图像的超分图像;
其中,第二特征提取模块包括M个残差特征蒸馏网络和特征图拼接网络,M个残差特征蒸馏网络中的各个残差特征蒸馏网络的输出端与特征图拼接网络的输入端连接,第二特征图是特征图拼接网络对各个残差特征蒸馏网络输出的特征图进行拼接得到的。
在一个实施例中,各个残差特征蒸馏网络串行连接;M个残差特征蒸馏网络中:第1个残差特征蒸馏网络的输入端与第一特征提取模块的输出端连接;第K个残差特征蒸馏网络的输入端与第K-1个残差特征蒸馏网络的输出端连接,第K个残差特征蒸馏网络的输出端与第K+1个残差特征蒸馏网络的输入端连接;第M个残差特征蒸馏网络的输出端与特征图拼接网络的输入端连接;K为大于1且小于M的任一正整数。
在一个实施例中,处理器801通过运行存储器803中的可执行程序代码执行利用第二特征提取模块对所述第一特征图进行特征提取,得到第二特征图时,具体用于执行如下步骤:
将第一特征图输入第1个残差特征蒸馏网络中进行特征提取,得到第一参考特征图;
针对任一第K个残差特征蒸馏网络,将第K-1个残差特征蒸馏网络输出的参考特征图输入第K个残差特征蒸馏网络中进行特征提取,得到第二参考特征图;
针对第M个残差特征蒸馏网络,将M个残差特征蒸馏网络中的第M-1个残差特征蒸馏网络输出的参考特征图输入第M个残差特征蒸馏网络中进行特征提取,得到第三参考特征图;
利用特征图拼接网络对第一参考特征图、各个第二参考特征图以及第三参考特征图进行特征图拼接处理,得到第二特征图。
在一个实施例中,每一个残差特征蒸馏网络包括N层信息蒸馏子网络和层外卷积层,每层信息蒸馏子网络包括层内卷积层和浅层残差网络;N层信息蒸馏子网络中:第Y层信息蒸馏子网络包括的浅层残差网络的输出端与第Y+1层信息蒸馏子网络的输入端连接,第N层信息蒸馏子网络包括的浅层残差网络的输出端与层外卷积层的输入端连接;Y为大于或等于1且小于N的任一正整数。
在一个实施例中,处理器801通过运行存储器803中的可执行程序代码,还用于执行如下步骤:
分别利用第1层信息蒸馏子网络的层内卷积层和浅层残差网络,对待处理特征图进行特征提取,得到第1层信息蒸馏子网络的卷积特征图和残差特征图;
针对任一第Y层信息蒸馏子网络,分别利用第Y层信息蒸馏子网络的层内卷积层和浅层残差网络,对第Y-1层信息蒸馏子网络的残差特征图进行特征提取,得到第Y层信息蒸馏子网络的卷积特征图和残差特征图;
针对第N层信息蒸馏子网络,分别利用第N层信息蒸馏子网络的层内卷积层和浅层残差网络,对第N-1层信息蒸馏子网络的残差特征图进行特征提取,得到第N层信息蒸馏子网络的卷积特征图和残差特征图;
利用层外卷积层对第N层信息蒸馏子网络的残差特征图进行特征提取,得到层外卷积层的卷积特征图;
将各层信息蒸馏子网络的卷积特征图和层外卷积层的卷积特征图进行特征图拼接处理,得到特征图拼接处理后的参考特征图。
在一个实施例中,处理器801通过运行存储器803中的可执行程序代码执行从待处理视频中确定至少两帧待处理图像时,具体用于执行如下步骤:
从待处理视频中获取播放时间相邻的多帧相邻图像,并针对多帧相邻图像中的各帧相邻图像进行场景检测;
根据场景检测结果从多帧相邻图像中确定场景相匹配的至少两帧待处理图像。
在一个实施例中,处理器801通过运行存储器803中的可执行程序代码执行根据所述第一特征图、所述第二特征图以及所述至少两帧待处理图像中的目标图像,确定所述目标图像的超分图像时,具体用于执行如下步骤:
将第二特征图进行降维处理,得到降维处理后的第二特征图,降维处理后的第二特征图的特征通道数与第一特征图的特征通道数相匹配;
将第一特征图与降维处理后的第二特征图进行融合处理,得到融合处理后的特征图;
分别将融合处理后的特征图以及至少两帧待处理图像中的目标图像进行上采样处理;
根据上采样处理后的特征图和上采样处理后的目标图像,确定目标图像的超分图像。
在一个实施例中,第一特征提取模块和第二特征提取模块包含于目标图像处理模型中;处理器801通过运行存储器803中的可执行程序代码,还用于执行如下步骤:
获取训练数据集合,训练数据集合包括多组训练数据对,每一组训练数据对包括训练视频中的至少两帧样本图像,至少两帧样本图像所对应的场景相匹配;
利用多组训练数据对,对初始图像处理模型进行训练,得到训练后的图像处理模型,并将训练后的图像处理模型作为目标图像处理模型;
其中,在模型训练过程中,初始图像处理模型对任一组训练数据对所包括的至少两帧样本图像进行特征提取得到图像帧间特征信息,并根据图像帧间特征信息确定至少两帧样本图像中的目标样本图像的超分图像;初始图像处理模型根据基于各个目标样本图像的超分图像所确定的损失信息对初始图像处理模型的模型参数进行调整,以使得满足模型训练停止条件;图像帧间特征信息用于指示至少两帧样本图像之间针对同一对象的融合特征。
在一个实施例中,处理器801通过运行存储器803中的可执行程序代码,还用于执行如下步骤:
从训练视频中获取播放时间相邻的多帧相邻图像,并针对多帧相邻图像中的各帧相邻图像进行场景检测;
根据场景检测结果从多帧相邻图像中确定场景相匹配的至少两帧目标相邻图像;
针对至少两帧目标相邻图像进行下采样处理,将下采样处理后的至少两帧目标相邻图像作为训练数据对中的至少两帧样本图像。
在一个实施例中,损失信息是基于各个目标样本图像的超分图像以及各个目标样本图像下采样之前的原始图像所确定的。
本申请实施例中,从待处理视频中确定至少两帧待处理图像之后,可以对至少两帧待处理图像进行拼接处理,得到拼接图像;然后,可以利用第一特征提取模块对拼接图像进行初步特征提取处理,得到第一特征图之后,可以利用第二特征提取模块对第一特征图进行进一步地特征提取,得到第二特征图;以及,可以根据第一特征图、第二特征图和至少两帧待处理图像中的目标图像,确定目标图像的超分图像,超分图像的分辨率高于目标图像的分辨率。在上述生成视频中某图像帧(例如上述目标图像)的超分图像的过程中,不仅结合了视频中该某图像帧之外的其他图像帧的特征信息,还融合了不同特征提取模块针对该某图像帧和该其他图像帧所提取的不同特征信息,并且基于所采用的第二特征提取模块的结构,可以提取更好的图像特征信息,以上均有利于生成质量更好的超分图像,从而使得生成的超分图像效果更好。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行本申请实施例提供的图像处理方法。其具体实现方式可参考前文描述,此处不再赘述。
本申请实施例还提供了一种计算机程序产品或计算机程序,计算机程序产品或计算机程序包括计算机指令,计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取计算机指令,处理器执行计算机指令,使得计算机设备执行本申请实施例提供的图像处理方法。其具体实现方式可参考前文描述,此处不再赘述。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,计算机可读存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (13)

1.一种图像处理方法,其特征在于,所述方法包括:
从待处理视频中确定至少两帧待处理图像,并将所述至少两帧待处理图像进行图像拼接处理,得到拼接图像;
利用第一特征提取模块对所述拼接图像进行特征提取,得到第一特征图;
利用第二特征提取模块对所述第一特征图进行特征提取,得到第二特征图;
根据所述第一特征图、所述第二特征图以及所述至少两帧待处理图像中的目标图像,确定所述目标图像的超分图像;
其中,所述第二特征提取模块包括M个残差特征蒸馏网络和特征图拼接网络,所述M个残差特征蒸馏网络中的各个残差特征蒸馏网络的输出端与所述特征图拼接网络的输入端连接,所述第二特征图是所述特征图拼接网络对所述各个残差特征蒸馏网络输出的特征图进行拼接得到的。
2.如权利要求1所述的方法,其特征在于,所述各个残差特征蒸馏网络串行连接;所述M个残差特征蒸馏网络中:第1个残差特征蒸馏网络的输入端与所述第一特征提取模块的输出端连接;第K个残差特征蒸馏网络的输入端与第K-1个残差特征蒸馏网络的输出端连接,所述第K个残差特征蒸馏网络的输出端与第K+1个残差特征蒸馏网络的输入端连接;第M个残差特征蒸馏网络的输出端与所述特征图拼接网络的输入端连接;K为大于1且小于M的任一正整数。
3.如权利要求2所述的方法,其特征在于,所述利用第二特征提取模块对所述第一特征图进行特征提取,得到第二特征图,包括:
将所述第一特征图输入所述第1个残差特征蒸馏网络中进行特征提取,得到第一参考特征图;
针对任一所述第K个残差特征蒸馏网络,将所述第K-1个残差特征蒸馏网络输出的参考特征图输入所述第K个残差特征蒸馏网络中进行特征提取,得到第二参考特征图;
针对所述第M个残差特征蒸馏网络,将所述M个残差特征蒸馏网络中的第M-1个残差特征蒸馏网络输出的参考特征图输入所述第M个残差特征蒸馏网络中进行特征提取,得到第三参考特征图;
利用所述特征图拼接网络对所述第一参考特征图、各个第二参考特征图以及所述第三参考特征图进行特征图拼接处理,得到所述第二特征图。
4.如权利要求1所述的方法,其特征在于,每一个残差特征蒸馏网络包括N层信息蒸馏子网络和层外卷积层,每层信息蒸馏子网络包括层内卷积层和浅层残差网络;所述N层信息蒸馏子网络中:第Y层信息蒸馏子网络包括的浅层残差网络的输出端与第Y+1层信息蒸馏子网络的输入端连接,第N层信息蒸馏子网络包括的浅层残差网络的输出端与所述层外卷积层的输入端连接;Y为大于或等于1且小于N的任一正整数。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
分别利用第1层信息蒸馏子网络的层内卷积层和浅层残差网络,对待处理特征图进行特征提取,得到所述第1层信息蒸馏子网络的卷积特征图和残差特征图;
针对任一所述第Y层信息蒸馏子网络,分别利用所述第Y层信息蒸馏子网络的层内卷积层和浅层残差网络,对第Y-1层信息蒸馏子网络的残差特征图进行特征提取,得到所述第Y层信息蒸馏子网络的卷积特征图和残差特征图;
针对所述第N层信息蒸馏子网络,分别利用所述第N层信息蒸馏子网络的层内卷积层和浅层残差网络,对第N-1层信息蒸馏子网络的残差特征图进行特征提取,得到所述第N层信息蒸馏子网络的卷积特征图和残差特征图;
利用所述层外卷积层对所述第N层信息蒸馏子网络的残差特征图进行特征提取,得到所述层外卷积层的卷积特征图;
将各层信息蒸馏子网络的卷积特征图和所述层外卷积层的卷积特征图进行特征图拼接处理,得到特征图拼接处理后的参考特征图。
6.如权利要求1-5中任一项所述的方法,其特征在于,所述从待处理视频中确定至少两帧待处理图像,包括:
从所述待处理视频中获取播放时间相邻的多帧相邻图像,并针对所述多帧相邻图像中的各帧相邻图像进行场景检测;
根据场景检测结果从所述多帧相邻图像中确定场景相匹配的至少两帧待处理图像。
7.如权利要求1-5中任一项所述的方法,其特征在于,所述根据所述第一特征图、所述第二特征图以及所述至少两帧待处理图像中的目标图像,确定所述目标图像的超分图像,包括:
将所述第二特征图进行降维处理,得到降维处理后的第二特征图,所述降维处理后的第二特征图的特征通道数与所述第一特征图的特征通道数相匹配;
将所述第一特征图与所述降维处理后的第二特征图进行融合处理,得到融合处理后的特征图;
分别将所述融合处理后的特征图以及所述至少两帧待处理图像中的目标图像进行上采样处理;
根据上采样处理后的特征图和上采样处理后的目标图像,确定所述目标图像的超分图像。
8.如权利要求1所述的方法,其特征在于,所述第一特征提取模块和所述第二特征提取模块包含于目标图像处理模型中;所述方法还包括:
获取训练数据集合,所述训练数据集合包括多组训练数据对,每一组训练数据对包括训练视频中的至少两帧样本图像,所述至少两帧样本图像所对应的场景相匹配;
利用所述多组训练数据对,对初始图像处理模型进行训练,得到训练后的图像处理模型,并将所述训练后的图像处理模型作为所述目标图像处理模型;
其中,在模型训练过程中,所述初始图像处理模型对任一组训练数据对所包括的至少两帧样本图像进行特征提取得到图像帧间特征信息,并根据所述图像帧间特征信息确定所述至少两帧样本图像中的目标样本图像的超分图像;所述初始图像处理模型根据基于各个目标样本图像的超分图像所确定的损失信息对所述初始图像处理模型的模型参数进行调整,以使得满足模型训练停止条件;所述图像帧间特征信息用于指示所述至少两帧样本图像之间针对同一对象的融合特征。
9.如权利要求8所述的方法,其特征在于,所述方法还包括:
从训练视频中获取播放时间相邻的多帧相邻图像,并针对所述多帧相邻图像中的各帧相邻图像进行场景检测;
根据场景检测结果从所述多帧相邻图像中确定场景相匹配的至少两帧目标相邻图像;
针对所述至少两帧目标相邻图像进行下采样处理,将下采样处理后的所述至少两帧目标相邻图像作为训练数据对中的至少两帧样本图像。
10.如权利要求9所述的方法,其特征在于,所述损失信息是基于各个目标样本图像的超分图像以及各个目标样本图像下采样之前的原始图像所确定的。
11.一种图像处理装置,其特征在于,所述图像处理装置包括:
处理单元,用于从待处理视频中确定至少两帧待处理图像,并将所述至少两帧待处理图像进行图像拼接处理,得到拼接图像;
所述处理单元,还用于利用第一特征提取模块对所述拼接图像进行特征提取,得到第一特征图;
所述处理单元,还用于利用第二特征提取模块对所述第一特征图进行特征提取,得到第二特征图;
所述处理单元,还用于根据所述第一特征图、所述第二特征图以及所述至少两帧待处理图像中的目标图像,确定所述目标图像的超分图像;
其中,所述第二特征提取模块包括M个残差特征蒸馏网络和特征图拼接网络,所述M个残差特征蒸馏网络中的各个残差特征蒸馏网络的输出端与所述特征图拼接网络的输入端连接,所述第二特征图是所述特征图拼接网络对所述各个残差特征蒸馏网络输出的特征图进行拼接得到的。
12.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器存储有可执行程序代码,所述处理器用于调用所述可执行程序代码,执行如权利要求1-10中任一项所述的图像处理方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行如权利要求1-10中任一项所述的图像处理方法。
CN202110889941.5A 2021-08-04 2021-08-04 一种图像处理方法、装置、计算机设备及存储介质 Active CN113344794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110889941.5A CN113344794B (zh) 2021-08-04 2021-08-04 一种图像处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110889941.5A CN113344794B (zh) 2021-08-04 2021-08-04 一种图像处理方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113344794A true CN113344794A (zh) 2021-09-03
CN113344794B CN113344794B (zh) 2021-10-29

Family

ID=77480565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110889941.5A Active CN113344794B (zh) 2021-08-04 2021-08-04 一种图像处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113344794B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115965848A (zh) * 2023-03-13 2023-04-14 腾讯科技(深圳)有限公司 一种图像处理方法和相关装置
WO2023217270A1 (zh) * 2022-05-13 2023-11-16 北京字跳网络技术有限公司 图像超分方法、超分网络参数调整方法、相关装置及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070511A (zh) * 2019-04-30 2019-07-30 北京市商汤科技开发有限公司 图像处理方法和装置、电子设备及存储介质
CN112668619A (zh) * 2020-12-22 2021-04-16 万兴科技集团股份有限公司 图像处理方法、装置、终端及存储介质
CN112950471A (zh) * 2021-02-26 2021-06-11 杭州朗和科技有限公司 视频超分处理方法、装置、超分辨率重建模型、介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070511A (zh) * 2019-04-30 2019-07-30 北京市商汤科技开发有限公司 图像处理方法和装置、电子设备及存储介质
CN112668619A (zh) * 2020-12-22 2021-04-16 万兴科技集团股份有限公司 图像处理方法、装置、终端及存储介质
CN112950471A (zh) * 2021-02-26 2021-06-11 杭州朗和科技有限公司 视频超分处理方法、装置、超分辨率重建模型、介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIE LIU等: "Residual Feature Distillation Network for Light weight Image Super-Resolution", 《ARXIV》 *
柳聪 等: "基于深度可分离卷积的轻量级图像超分辨率重建", 《计算机工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023217270A1 (zh) * 2022-05-13 2023-11-16 北京字跳网络技术有限公司 图像超分方法、超分网络参数调整方法、相关装置及介质
CN115965848A (zh) * 2023-03-13 2023-04-14 腾讯科技(深圳)有限公司 一种图像处理方法和相关装置

Also Published As

Publication number Publication date
CN113344794B (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
Cheng et al. BIRNAT: Bidirectional recurrent neural networks with adversarial training for video snapshot compressive imaging
CN111553267B (zh) 图像处理方法、图像处理模型训练方法及设备
CN111681177B (zh) 视频处理方法及装置、计算机可读存储介质、电子设备
CN111275784B (zh) 生成图像的方法和装置
CN113344794B (zh) 一种图像处理方法、装置、计算机设备及存储介质
CN113704531A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN111985281B (zh) 图像生成模型的生成方法、装置及图像生成方法、装置
CN113763296A (zh) 图像处理方法、设备以及介质
CA3035482C (en) Real time overlay placement in videos for augmented reality applications
CN111833360B (zh) 一种图像处理方法、装置、设备以及计算机可读存储介质
CN113066034A (zh) 人脸图像的修复方法与装置、修复模型、介质和设备
CN112906721B (zh) 图像处理方法、装置、设备及计算机可读存储介质
CN116958534A (zh) 一种图像处理方法、图像处理模型的训练方法和相关装置
CN114972016A (zh) 图像处理方法、装置、计算机设备、存储介质及程序产品
Lu et al. Pyramid frequency network with spatial attention residual refinement module for monocular depth estimation
CN114913061A (zh) 一种图像处理方法、装置、存储介质及电子设备
CN116740261A (zh) 图像重建方法和装置、图像重建模型的训练方法和装置
CN111402118B (zh) 图像替换方法、装置、计算机设备和存储介质
CN113822114A (zh) 一种图像处理方法、相关设备及计算机可读存储介质
CN116977169A (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
Dong et al. Shoot high-quality color images using dual-lens system with monochrome and color cameras
WO2023273515A1 (zh) 目标检测方法、装置、电子设备和存储介质
Wang et al. Exposure fusion using a relative generative adversarial network
CN112990370B (zh) 图像数据的处理方法和装置、存储介质及电子设备
CN114299105A (zh) 图像处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40051851

Country of ref document: HK