CN113313776A - 图像处理方法、图像处理装置、存储介质与电子设备 - Google Patents

图像处理方法、图像处理装置、存储介质与电子设备 Download PDF

Info

Publication number
CN113313776A
CN113313776A CN202110584141.2A CN202110584141A CN113313776A CN 113313776 A CN113313776 A CN 113313776A CN 202110584141 A CN202110584141 A CN 202110584141A CN 113313776 A CN113313776 A CN 113313776A
Authority
CN
China
Prior art keywords
image
current
sub
network
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110584141.2A
Other languages
English (en)
Inventor
邓宣
叶志凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202110584141.2A priority Critical patent/CN113313776A/zh
Publication of CN113313776A publication Critical patent/CN113313776A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本公开提供了一种图像处理方法、图像处理装置、存储介质与电子设备,涉及图像与视频处理技术领域。该方法包括:获取对当前图像进行编码的当前编码信息,以及获取对所述当前图像进行编码与解码后所得到的解码图像;根据所述当前编码信息在预设的神经网络架构中确定目标子网络,所述神经网络架构包括多个子网络,所述目标子网络为其中的一个或多个子网络;利用所述目标子网络对所述解码图像进行优化处理,得到目标图像。本公开提升了图像优化处理的效果,并节约了资源。

Description

图像处理方法、图像处理装置、存储介质与电子设备
技术领域
本公开涉及图像与视频处理技术领域,尤其涉及一种图像处理方法、图像处理装置、计算机可读存储介质与电子设备。
背景技术
在对图像(或视频)进行编码时,为了降低码流数据的大小,常常采用有损编码,或者对图像进行下采样后进行编码,导致解码后的图像与原图像相比,存在信息损失与质量下降的问题,在一定程度上影响视觉观感。
发明内容
本公开提供了一种图像处理方法、图像处理装置、计算机可读存储介质与电子设备,进而至少在一定程度上解决图像、视频编码时存在信息损失的问题。
根据本公开的第一方面,提供一种图像处理方法,包括:获取对当前图像进行编码的当前编码信息,以及获取对所述当前图像进行编码与解码后所得到的解码图像;根据所述当前编码信息在预设的神经网络架构中确定目标子网络,所述神经网络架构包括多个子网络,所述目标子网络为其中的一个或多个子网络;利用所述目标子网络对所述解码图像进行优化处理,得到目标图像。
根据本公开的第二方面,提供一种图像处理装置,包括:数据获取模块,被配置为获取对当前图像进行编码的当前编码信息,以及获取对所述当前图像进行编码与解码后所得到的解码图像;子网络确定模块,被配置为根据所述当前编码信息在预设的神经网络架构中确定目标子网络,所述神经网络架构包括多个子网络,所述目标子网络为其中的一个或多个子网络;图像优化模块,被配置为利用所述目标子网络对所述解码图像进行优化处理,得到目标图像。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的图像处理方法及其可能的实现方式。
根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面的图像处理方法及其可能的实现方式。
本公开的技术方案具有以下有益效果:
根据对当前图像进行编码的当前编码信息,在预设的神经网络架构中确定对应的目标子网络,进而利用目标子网络对当前图像经过编码、传输与解码后的解码图像进行优化处理,以输出目标图像。一方面,本方案能够恢复图像编码过程中所损失的信息,并且适应于不同的编码信息,采用具有针对性的目标子网络,能够提升图像优化处理的效果,输出高质量的目标图像。另一方面,将不同编码信息所对应的子网络集成在一个神经网络架构中,通过部署一个神经网络架构,实现对不同编码信息的图像进行优化处理,这样无需分别部署多个子网络,能够提高方案实施的便捷性,并节约资源,有利于在移动终端等轻量化场景中的应用。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
图1示出本示例性实施方式中一种系统架构的示意图;
图2示出本示例性实施方式中一种电子设备的结构示意图;
图3示出本示例性实施方式中一种图像处理方法的流程图;
图4示出本示例性实施方式中一种神经网络架构与子网络的示意图;
图5示出本示例性实施方式中一种训练神经网络架构的流程图;
图6示出本示例性实施方式中另一种图像处理方法的流程图;
图7示出本示例性实施方式中一种图像处理方法的示意图;
图8示出本示例性实施方式中一种图像处理装置的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
相关技术的一种方案中,针对视频编码时进行下采样的情况,在对视频的码流进行解码后,采用神经网络对解码的视频进行超分辨率重建,以恢复原始分辨率。然而,该方案采用同一神经网络对不同视频进行处理,未考虑不同视频进行编码时的量化参数差异,针对性较差,所能实现的处理效果较为有限。
鉴于上述问题,本公开的示例性实施方式提供一种图像处理方法。下面先对该图像处理方法运行环境的系统架构进行介绍,同时结合系统架构对图像处理方法的应用场景进行示例性说明。
图1示出了系统架构的示意图,该系统架构100可以包括编码端110、解码端120与优化端130。其中,编码端110位于云端,如可以是视频平台,将视频中的每一帧图像编码后,传输码流数据至解码端120。解码端120与优化端130位于终端,两者可以部署在同一终端,也可以部署在不同终端。例如,解码端120与优化端130部署在一台智能手机中,用户使用该手机在视频平台观看视频时,从视频平台的云端接收经过编码端110所编码的码流数据。解码端120从码流数据中解码出每一帧图像,优化端130通过执行本示例性实施方式中的图像处理方法,对解码出的每一帧图像进行优化处理,以恢复图像的分辨率、细节信息等,最终在终端上播放高质量的视频。或者,编码端110位于一个终端,解码端120与优化端130位于另外一个或两个终端;或者,编码端110、解码端120与优化端130均部署在一个终端。
本公开的示例性实施方式还提供一种电子设备,用于执行上述图像处理方法。该电子设备可以是上述优化端130所在的终端。下面以图2中的移动终端200为例,对上述电子设备的构造进行示例性说明。本领域技术人员应当理解,除了特别用于移动目的的部件之外,图2中的构造也能够应用于固定类型的设备。
如图2所示,移动终端200具体可以包括:处理器210、内部存储器221、外部存储器接口222、USB(Universal Serial Bus,通用串行总线)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及SIM(Subscriber Identification Module,用户标识模块)卡接口295等。
处理器210可以包括一个或多个处理单元,例如:处理器210可以包括AP(Application Processor,应用处理器)、调制解调处理器、GPU(Graphics ProcessingUnit,图形处理器)、ISP(Image Signal Processor,图像信号处理器)、控制器、编码器、解码器、DSP(Digital Signal Processor,数字信号处理器)、基带处理器和/或NPU(Neural-Network Processing Unit,神经网络处理器)等。
编码器可以对图像或视频进行编码(即压缩),例如对当前图像进行编码,得到码流数据;解码器可以对图像或视频的码流数据进行解码(即解压缩),以还原出图像或视频数据。移动终端200可以支持一种或多种编码器和解码器。这样,移动终端200可以处理多种编码格式的图像或视频,例如:JPEG(Joint Photographic Experts Group,联合图像专家组)、PNG(Portable Network Graphics,便携式网络图形)、BMP(Bitmap,位图)等图像格式,MPEG(Moving Picture Experts Group,动态图像专家组)1、MPEG2、H.263、H.264、HEVC(High Efficiency Video Coding,高效率视频编码)等视频格式。
在一种实施方式中,处理器210可以包括一个或多个接口,通过不同的接口和移动终端200的其他部件形成连接。
内部存储器221可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器221可以包括易失性存储器与非易失性存储器。处理器210通过运行存储在内部存储器221的指令,执行移动终端200的各种功能应用以及数据处理。
外部存储器接口222可以用于连接外部存储器,例如Micro SD卡,实现扩展移动终端200的存储能力。外部存储器通过外部存储器接口222与处理器210通信,实现数据存储功能,例如存储图像,视频等文件。
USB接口230是符合USB标准规范的接口,可以用于连接充电器为移动终端200充电,也可以连接耳机或其他电子设备。
充电管理模块240用于从充电器接收充电输入。充电管理模块240为电池242充电的同时,还可以通过电源管理模块241为设备供电;电源管理模块241还可以监测电池的状态。
移动终端200的无线通信功能可以通过天线1、天线2、移动通信模块250、无线通信模块260、调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。移动通信模块250可以提供应用在移动终端200上2G、3G、4G、5G等移动通信解决方案。无线通信模块260可以提供应用在移动终端200上的WLAN(Wireless Local Area Networks,无线局域网)(如Wi-Fi(Wireless Fidelity,无线保真)网络)、BT(Bluetooth,蓝牙)、GNSS(Global Navigation Satellite System,全球导航卫星系统)、FM(FrequencyModulation,调频)、NFC(Near Field Communication,近距离无线通信技术)、IR(Infrared,红外技术)等无线通信解决方案。
移动终端200可以通过GPU、显示屏290及AP等实现显示功能,显示用户界面。例如,当用户进行摄像头检测时,移动终端200可以在显示屏290中显示摄像头检测App(Application,应用程序)的界面。
移动终端200可以通过ISP、摄像模组291、编码器、解码器、GPU、显示屏290及AP等实现拍摄功能。例如,用户可以在隐藏摄像头检测App中开启图像或视频拍摄功能,此时可以通过摄像模组291采集待检测空间的图像。
移动终端200可以通过音频模块270、扬声器271、受话器272、麦克风273、耳机接口274及AP等实现音频功能。
传感器模块280可以包括深度传感器2801、压力传感器2802、陀螺仪传感器2803、气压传感器2804等,以实现相应的感应检测功能。
指示器292可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。马达293可以产生振动提示,也可以用于触摸振动反馈等。按键294包括开机键,音量键等。
移动终端200可以支持一个或多个SIM卡接口295,用于连接SIM卡,以实现通话与移动通信等功能。
图3示出了上述图像处理方法的示例性流程,可以包括:
步骤S310,获取对当前图像进行编码的当前编码信息,以及获取对当前图像进行编码与解码后所得到的解码图像;
步骤S320,根据当前编码信息在预设的神经网络架构中确定目标子网络,该神经网络架构包括多个子网络,目标子网络为其中的一个或多个子网络;
步骤S330,利用目标子网络对解码图像进行优化处理,得到目标图像。
在上述方法中,根据对当前图像进行编码的当前编码信息,在预设的神经网络架构中确定对应的目标子网络,进而利用目标子网络对当前图像经过编码、传输与解码后的解码图像进行优化处理,以输出目标图像。一方面,本方案能够恢复图像编码过程中所损失的信息,并且适应于不同的编码信息,采用具有针对性的目标子网络,能够提升图像优化处理的效果,输出高质量的目标图像。另一方面,将不同编码信息所对应的子网络集成在一个神经网络架构中,通过部署一个神经网络架构,实现对不同编码信息的图像进行优化处理,这样无需分别部署多个子网络,能够提高方案实施的便捷性,并节约资源,有利于在移动终端等轻量化场景中的应用。
下面对图3中的每个步骤进行具体说明。
参考图3,在步骤S310中,获取对当前图像进行编码的当前编码信息,以及获取对当前图像的码流数据进行解码所得到的解码图像。
其中,当前图像可以是单独的一张图像,也可以是视频中的当前帧图像。例如,编码端110对视频逐帧编码并发送码流数据,解码端120当前接收到某一帧图像的码流数据,该图像可以是当前图像。
编码信息是指对图像进行编码时所采用的编码配置与相关参数,包括但不限于:编码方式,是否对图像进行上采样或下采样(一般的,在编码前进行上采样与下采样,以适应解码的状况,上采样与下采样属于图像编码前的预处理,本文中将上采样与下采样划分在编码的范畴内),上采样或下采样的倍率,量化参数,每一帧图像的帧预测类型。
在一种实施方式中,当前编码信息可以包括对当前图像进行编码的当前量化参数。量化是指将图像的像素值划分至不同的数值区间,以映射为不同的离散数值的过程,实现了像素值多对一的映射,可以减小像素值的取值范围,使得编码后的码流数据小于图像的原始数据大小,从而实现压缩数据的效果。然而,由于量化是将像素值进行多对一的映射,损失了每个数值区间内的像素值变化信息,进而导致解码出的图像质量的下降。量化参数(Quantization Parameter,简称QP)是指示编码所用的量化步长(相当于上述数值区间的大小)的参数。量化参数越小,量化步长越小,表示量化越精细,编码时保留的图像信息越多,码流数据越大,解码出的图像质量越好;量化参数越大,量化步长越大,表示量化越粗糙,编码时保留的图像信息越少,码流数据越小,解码出的图像质量越差。例如,QP较小时,能够保留图像中的大部分细节;QP较大时,图像中的一些细节损失。
在一种实施方式中,当前编码信息可以包括对当前图像进行编码时的上采样或下采样信息,包括是否图像进行上采样或下采样,上采样或下采样的倍率。以下采样为例,在编码时对当前图像进行下采样,使得当前图像分辨率降低,解码后得到的解码图像为下采样后的分辨率,相比于原始的当前图像,损失了细节、高频信息。
由上可知,当前编码信息可以反映当前图像经过编码后的图像信息损失状况与程度,便于后续进行针对性的图像优化处理。
当前图像的码流数据可以包含当前编码信息,因此,通过对当前图像的码流数据进行解析,可以得到当前编码信息。
当解码端120与优化端130分开部署时,由解码端120执行对码流数据的解码,确定当前编码信息,并得到对应的解码图像,解码端120可以将当前编码信息与解码图像传输至优化端130。由于编码时损失了图像信息,导致解码所得到的解码图像并不等同于当前图像,解码图像的质量低于当前图像。优化端130需要执行对解码图像的进一步优化处理,如执行后续步骤S320与S330的处理。
当解码端120与优化端130集成部署时,例如两者均部署在上述移动终端200中,则由移动终端200先调用解码端120的相关程序执行对码流数据的解码,确定当前编码信息,并得到对应的解码图像,再调用优化端130的相关程序执行对解码图像的进一步优化处理。
在一种实施方式中,在进行解码时,可以对当前图像的码流数据进行解析,以确定当前编码信息。例如,从当前图像的码流数据中读取特定标志位的数值,对其进行解析,以确定量化参数、帧预测类型等信息。
在一种实施方式中,可以根据当前编码信息对当前图像的码流数据进行解码,得到解码图像。例如,根据当前编码信息中的量化参数可以确定编码时采用的每个数值区间,将码流数据中的编码值映射为不同数值区间对应的像素值,得到解码图像。
继续参考图3,在步骤S320中,根据当前编码信息在预设的神经网络架构中确定目标子网络,该神经网络架构包括多个子网络,目标子网络为其中的一个或多个子网络。
神经网络架构是用于对图像进行优化处理的相对大型的网络,如可以是超网络,其包括多个子网络,每个子网络也可以单独对图像进行优化处理,是相对小型的网络。上述预设的神经网络架构可以是神经网络架构搜索(Neural Architecture Search,简称NAS)的搜索空间,通过在该搜索空间内根据当前编码信息进行搜索,得到目标子网络。
本示例性实施方式的优化处理主要是恢复图像在编码过程中损失的信息,优化处理具体包括但不限于:超分辨率重建,图像增强,图像去模糊等。
图4示出了神经网络架构与子网络的示意性结构,神经网络架构包括3个子网络,每个子网络由神经网络架构中的一部分层或一部分神经元所组成,不同子网络之间可以复用一部分层或一部分神经元。神经网络架构与子网络的结构关系是在神经网络架构的训练阶段确定的,例如,图4中子网络1、子网络2、子网络3分别由神经网络架构中的哪些层、哪些神经元所组成,是在神经网络架构的训练阶段确定并配置的信息。
本示例性实施方式中,每种编码信息对应神经网络架构中的一个子网络。例如,量化参数QP=22对应图4中的子网络1,是指子网络1对QP=22的图像具有较佳的优化处理效果。又例如,下采样1/2倍率对应图4中的子网络2,是指子网络2对下采样1/2倍率的图像具有较佳的优化处理效果。当对图像以不同的量化参数、下采样倍率等编码信息进行编码时,其图像信息损失程度不同,因此在优化端130采用不同的子网络进行优化处理,这样更具有针对性。
编码信息与子网络的对应关系是在神经网络架构的训练阶段确定并配置的信息。
下面对神经网络架构的训练过程进行示例性说明。参考图5所示,图像处理方法还可以包括以下步骤S510至S530:
步骤S510,获取多种编码信息下的多个数据集。
其中,每个数据集包括多个样本图像组,每个样本图像组包括样本输入图像与对应的标签图像。在图像或视频编解码的场景中,获取原始图像或原始视频中的图像帧,作为标签图像;对标签图像进行编码,记录编码信息,得到标签图像的码流数据;对标签图像的码流数据进行解码,得到样本输入图像,该样本输入图像与标签图像形成一个样本图像组。将编码信息相同的样本图像组划分至相同的数据集中,得到不同编码信息下的数据集。
需要说明的是,在每种编码信息下可以获取一个数据集,也可以获取多个数据集。在一个数据集中,所有样本图像组的编码信息均相同。
对步骤S510举例说明:
以每种量化参数作为一种编码信息。如可以分别在QP=22、27、32、37、42这5种量化参数下,采用HEVC编码器对高清视频中的图像帧进行编码,再采用HEVC解码器进行解码,得到5种量化参数下的样本输入图像,分别与对应的图像帧(即标签图像)形成样本图像组,并划分至每种量化参数下的数据集中,得到5个数据集。
或者,以每种量化参数与帧预测类型的组合信息作为一种编码信息。如以“QP=22+I帧”(I帧全称为Intra-coded picture,帧内编码图像,表示帧预测类型为帧内预测)、“QP=22+P帧”、“QP=22+B帧”(P帧全称为Predictive-coded picture,前向预测编码图像,B帧全称为Bidirectionally predicted picture,双向预测编码图像,P帧与B帧均表示帧预测类型为帧间预测)、“QP=27+I帧”、“QP=27+P帧”等多种组合信息作为多种编码信息,获取每种组合信息下的数据集。具体地,可以分别在QP=22、27、32、37、42这5种量化参数下,采用HEVC编码器对高清视频中的图像帧进行编码;在编码时会将部分图像帧作为I帧,采用帧内预测进行编码,将部分图像帧作为P帧,采用帧间预测进行编码;再采用HEVC解码器进行解码,得到5种量化参数下I帧与P帧的样本输入图像,分别与对应的图像帧(即标签图像)形成样本图像组,并划分至每种“量化参数+帧预测类型”下的数据集中,得到10个数据集。
或者,以其他种类的组合信息,如“量化参数+上采样或下采样倍率”、“编码方式+上采样或下采样倍率”等,作为一种编码信息,通过与上述类似的方式获取每种编码信息下的数据集。
在一种实施方式中,在对标签图像进行编码与解码时,还可以根据实际需求增加一些其他方面的图像处理,例如模糊化、增加噪点等,使得训练后的神经网络架构具备去模糊、去噪点等优化功能。
步骤S520,利用上述多个数据集训练神经网络架构。
在训练神经网络架构时,利用上述多个数据集共同进行训练,以更新神经网络架构中的参数,使神经网络架构学习到不同数据集中的信息。
在一种实施方式中,将每个数据集进一步划分为训练集与验证集,如可以按照6:4的比例进行划分。在步骤S520中,利用多个训练集训练神经网络架构;并利用多个验证集验证训练结果,以判断是否完成训练。
在一种实施方式中,可以将上述多个数据集中的数据混合形成多个batch(一个batch指一批数据),每个batch均包括不同数据集中的数据。分别利用每个batch对神经网络架构中的参数进行一轮更新。由此,在每一轮更新中,神经网络架构可以学习到不同数据集中的信息,有利于实现快速收敛,缩短训练时间。
步骤S530,分别利用每种编码信息下的数据集对神经网络架构中的各个子网络进行评估,以确定编码信息与子网络的对应关系。
神经网络架构与其中各个子网络的任务是一致的,为输入的图像(如样本输入图像)恢复出编码过程中损失的信息,同时还可以实现如去模糊、去噪点等其他方面的图像优化,以尽可能还原出编码前的图像(如标签图像),实现图像优化处理。
在不同数据集中,标签图像经过不同的编码信息进行编码,再经过解码得到样本输入图像。样本输入图像与标签图像相比,在编码过程中损失了图像信息,不同数据集中的图像信息损失特征通常是有差别的。例如,量化参数较大,损失的图像信息较多。本示例性实施方式中,不同子网络擅长于针对不同的图像信息损失特征进行图像优化处理,在不同数据集上具有不同的表现。利用数据集对子网络进行评估,是指评估子网络对数据集单独进行优化处理时所表现出的性能,从而确定每个子网络最适合哪种编码信息下的数据集。子网络的性能指标包括但不限于:准确率(Accuracy),精确率(Precision),召回率(Recall),F1值(是综合精确率与召回率所得到的分值),AUC值(Area Under Curve,是指受试者工作特征曲线下的面积),平均耗时等。也可以结合上述多种指标进行综合性能的评估。
在一种实施方式中,可以在建立神经网络架构时确定其中每个子网络的结构,例如可以人为进行配置。在步骤S530中,可以依次利用每个数据集对各个子网络上进行评估,选取每个数据集对应的性能最优的子网络,作为该数据集的量化参数对应的子网络。例如,获取量化参数QP=22、27、32、37、42这5中编码信息下的5个数据集;确定神经网络架构中子网络1、子网络2、子网络3的结构,如可以参考图4的结构;先利用QP=22的数据集分别对子网络1、子网络2、子网络3进行评估,如子网络1的性能最优,则确定QP=22对应于子网络1;然后更换为QP=27的数据集,分别对子网络1、子网络2、子网络3进行评估,如子网络3的性能最优,则确定QP=27对应于子网络3。由此,可以得到编码信息与子网络的对应关系,是指每种编码信息对应于图像优化处理效果最佳的子网络。
在一种实施方式中,如果在建立神经网络架构时未确定其中每个子网络的结构,在步骤S530中,对于任一种编码信息下的数据集,可以通过神经网络架构搜索从神经网络架构中获取在该数据集上评估结果最优的子网络,以作为该编码信息对应的子网络。神经网络架构搜索是指从包含多种类型的层或神经元的神经网络(即神经网络架构)中搜索出针对特定问题的有效架构(即得到子网络)。本示例性实施方式中的特定问题即对不同编码信息下的图像进行优化处理。利用神经网络架构搜索,对神经网络架构中的不同层、神经元进行组合,得到很多子网络;采用一种编码信息下的数据集,对这些子网络分别进行评估,选取其中评估结果最优的一个或多个子网络,建立该编码信息与该子网络的对应关系。
需要说明的是,每种编码信息可以对应一个子网络,也可以对应多个子网络。例如,从一种编码信息下的数据集中提取多个不同的评估子集,分别利用每个评估子集对各个子网络进行一轮评估,综合多轮评估的结果,选取结果最优的多个子网络,建立该编码信息与该多个子网络的对应关系。
在一种实施方式中,在上述训练过程中,还可以利用不同的数据集更新神经网络架构中不同子网络的参数。具体地,可以将训练过程分为全局调参与局部调参两个部分:先结合多个数据集对神经网络架构进行全局调参,即更新神经网络架构的所有参数;再通过神经网络架构搜索确定每个数据集对应的子网络,分别利用每个数据集进行局部调参,即更新其对应的子网络部分的参数;判断神经网络架构在多个数据集上的全局损失函数与每个子网络在对应单个数据集上的局部损失函数是否均收敛;如果均收敛,则完成训练;如果未达到均收敛,则确定未收敛的损失函数,当未收敛的损失函数为全局损失函数时,重复上述全局调参与局部调参,当未收敛的损失函数为某一个或多个局部损失函数时,在该局部损失函数对应的子网络与数据集上重复上述局部调参;再次判断全局损失函数与各个局部损失函数是否均收敛。通过迭代,最终达到全局损失函数与各个局部损失函数同时收敛,从而保证神经网络架构与各个子网络均得到充分训练。
由上可知,在神经网络架构的训练阶段,可以确定各个子网络的结构,以及编码信息与子网络的对应关系。由此,在步骤S320中,可以基于编码信息与子网络的对应关系,在神经网络架构中确定当前编码信息对应的目标子网络。
继续参考图3,在步骤S330中,利用目标子网络对解码图像进行优化处理,得到目标图像。
目标子网络是擅长于针对当前编码信息对应的图像信息损失特征进行图像优化处理的子网络。因此,将解码图像输入目标子网络进行优化处理,可以实现最佳的处理效果。
应当理解,目标图像与当前图像可能仍然存在差别,但是目标图像相比于解码图像,能够在一定程度上恢复出编码过程中损失的图像信息,提高图像质量。
图6示出了以量化参数与帧预测类型的组合信息作为编码信息的情况下,图像处理方法的示例性流程,包括:
步骤S610,获取对当前帧图像进行编码的当前量化参数与当前帧图像的帧预测类型,以及获取对当前帧图像进行编码与解码后所得到的解码图像;
步骤S620,在预设的神经网络架构中确定当前量化参数与当前帧图像的帧预测类型的组合信息对应的目标子网络;
步骤S630,如果当前帧图像的帧预测类型为帧内预测,则将解码图像输入目标子网络进行处理,以输出目标图像;
步骤S640,如果当前帧图像的帧预测类型为帧间预测,则将解码图像与至少一张参考图像输入目标子网络进行处理,以输出目标图像。
其中,量化参数相同但帧预测类型不同时,对应得到的子网络也不同,例如,“QP=27+I帧”的信息组合与“QP=27+P帧”的信息组合所对应的子网络不同。
如果当前帧图像的帧预测类型为帧内预测,对应的目标子网络为单通道输入,相应的,将解码图像单独输入目标子网络,经过优化处理输出目标图像。
如果当前帧图像的帧预测类型为帧间预测,对应的目标子网络为多通道输入,相应的,将解码图像与至少一张参考图像共同输入目标子网络,经过优化处理输出目标图像。参考图像可以是上一帧图像所对应的解码图像或目标图像,或者最近的I帧图像所对应的解码图像或目标图像。例如,在对视频进行解码与优化处理时,对每一帧图像的码流数据进行解码,并利用子网络对每一帧解码图像进行优化处理,得到目标图像,如果当前处理的为I帧,则将该目标图像存储为参考图像,用于后续帧的解码与优化处理。由此,对于帧间预测的情况,目标子网络在优化处理解码图像时,可以学习参考图像的信息,相比于单独处理解码图像,能够进一步提升图像处理效果。
图7示出了图像处理方法的示意性流程。首先将视频中的原始图像帧T1、T2、T3、T4输入编码器,如可以是HEVC编码器,通过不同的量化参数以及不同的帧预测类型进行编码,得到对应的码流数据。然后将码流数据传输至解码器中,如可以是HEVC解码器,得到对应的解码图像帧T1'、T2'、T3'、T4'。再根据编码原始图像帧时的量化参数与原始图像帧的帧预测类型,确定对应的子网络,并进行优化处理。如原始图像帧T1的量化参数QP=37,为I帧,确定对应子网络1,将解码图像帧T1'输入子网络1,输出目标图像帧T1”;原始图像帧T2的量化参数QP=37,为P帧,确定对应子网络2,将解码图像帧T1'作为参考图像,与解码图像帧T2'输入子网络2,输出目标图像帧T2”;原始图像帧T3的量化参数QP=39,为P帧,确定对应子网络3,将解码图像帧T1'作为参考图像,与解码图像帧T3'输入子网络3,输出目标图像帧T3”;原始图像帧T4的量化参数QP=41,为I帧,确定对应子网络4,将解码图像帧T4'输入子网络4,输出目标图像帧T4”。目标图像帧T1”、T2”、T3”、T4”可以输入播放器中,以播放经编码、传输、解码与优化处理的高质量视频。
本公开的示例性实施方式还提供一种图像处理装置。参考图8所示,该图像处理装置800可以包括:
数据获取模块810,被配置为获取对当前图像进行编码的当前编码信息,以及获取对当前图像进行编码与解码后所得到的解码图像;
子网络确定模块820,被配置为根据当前编码信息在预设的神经网络架构中确定目标子网络,神经网络架构包括多个子网络,目标子网络为其中的一个或多个子网络;
图像优化模块830,被配置为利用目标子网络对解码图像进行优化处理,得到目标图像。
在一种实施方式中,当前编码信息包括对当前图像进行编码的当前量化参数。
子网络确定模块820,被配置为在神经网络架构中确定量化参数对应的目标子网络。
在一种实施方式中,当前图像为视频中的当前帧图像。
编码信息还包括当前帧图像的帧预测类型。
子网络确定模块820,被配置为在神经网络架构中确定当前量化参数与当前帧图像的帧预测类型的组合信息对应的目标子网络。
在一种实施方式中,图像优化模块830,被配置为:
如果当前帧图像的帧预测类型为帧内预测,则将解码图像输入目标子网络进行处理,以输出目标图像;
如果当前帧图像的帧预测类型为帧间预测,则将解码图像与至少一张参考图像输入目标子网络进行处理,以输出目标图像。
在一种实施方式中,图像处理装置800还可以包括神经网络架构训练模块,被配置为:
获取多种编码信息下的多个数据集;
利用上述多个数据集训练神经网络架构;
分别利用每种编码信息下的数据集对神经网络架构中的各个子网络进行评估,以确定编码信息与子网络的对应关系。
子网络确定模块820,被配置为基于上述编码信息与子网络的对应关系,在神经网络架构中确定当前编码信息对应的目标子网络。
在一种实施方式中,数据获取模块810,被配置为对当前图像的码流数据进行解析,以确定当前编码信息。
在一种实施方式中,数据获取模块810,被配置为根据当前编码信息对当前图像的码流数据进行解码,得到解码图像。
上述装置中各部分的细节在方法部分实施方式中已经详细说明,因而不再赘述。
本公开的示例性实施方式还提供了一种计算机可读存储介质,可以实现为一种程序产品的形式,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使电子设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。在一种实施方式中,该程序产品可以实现为便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在电子设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的示例性实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施方式。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。

Claims (10)

1.一种图像处理方法,其特征在于,包括:
获取对当前图像进行编码的当前编码信息,以及获取对所述当前图像进行编码与解码后所得到的解码图像;
根据所述当前编码信息在预设的神经网络架构中确定目标子网络,所述神经网络架构包括多个子网络,所述目标子网络为其中的一个或多个子网络;
利用所述目标子网络对所述解码图像进行优化处理,得到目标图像。
2.根据权利要求1所述的方法,其特征在于,所述当前编码信息包括对所述当前图像进行编码的当前量化参数;所述根据所述编码信息在预设的神经网络架构中确定目标子网络,包括:
在所述神经网络架构中确定所述量化参数对应的所述目标子网络。
3.根据权利要求2所述的方法,其特征在于,所述当前图像为视频中的当前帧图像;所述编码信息还包括所述当前帧图像的帧预测类型;所述在所述神经网络架构中确定所述量化参数对应的所述目标子网络,包括:
在所述神经网络架构中确定所述当前量化参数与所述当前帧图像的帧预测类型的组合信息对应的所述目标子网络。
4.根据权利要求3所述的方法,其特征在于,所述利用所述目标子网络对所述解码图像进行优化处理,得到目标图像,包括:
如果所述当前帧图像的帧预测类型为帧内预测,则将所述解码图像输入所述目标子网络进行处理,以输出所述目标图像;
如果所述当前帧图像的帧预测类型为帧间预测,则将所述解码图像与至少一张参考图像输入所述目标子网络进行处理,以输出所述目标图像。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多种编码信息下的多个数据集;
利用所述多个数据集训练所述神经网络架构;
分别利用每种编码信息下的所述数据集对所述神经网络架构中的各个所述子网络进行评估,以确定所述编码信息与所述子网络的对应关系;
所述根据所述当前编码信息在预设的神经网络架构中确定目标子网络,包括:
基于所述编码信息与所述子网络的对应关系,在所述神经网络架构中确定所述当前编码信息对应的所述目标子网络。
6.根据权利要求1所述的方法,其特征在于,所述获取对当前图像进行编码的当前编码信息,包括:
对所述当前图像的码流数据进行解析,以确定所述当前编码信息。
7.根据权利要求6所述的方法,其特征在于,所述获取对所述当前图像进行编码与解码后所得到的解码图像,包括:
根据所述当前编码信息对所述当前图像的码流数据进行解码,得到所述解码图像。
8.一种图像处理装置,其特征在于,包括:
数据获取模块,被配置为获取对当前图像进行编码的当前编码信息,以及获取对所述当前图像进行编码与解码后所得到的解码图像;
子网络确定模块,被配置为根据所述当前编码信息在预设的神经网络架构中确定目标子网络,所述神经网络架构包括多个子网络,所述目标子网络为其中的一个或多个子网络;
图像优化模块,被配置为利用所述目标子网络对所述解码图像进行优化处理,得到目标图像。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述的方法。
CN202110584141.2A 2021-05-27 2021-05-27 图像处理方法、图像处理装置、存储介质与电子设备 Pending CN113313776A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110584141.2A CN113313776A (zh) 2021-05-27 2021-05-27 图像处理方法、图像处理装置、存储介质与电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110584141.2A CN113313776A (zh) 2021-05-27 2021-05-27 图像处理方法、图像处理装置、存储介质与电子设备

Publications (1)

Publication Number Publication Date
CN113313776A true CN113313776A (zh) 2021-08-27

Family

ID=77375537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110584141.2A Pending CN113313776A (zh) 2021-05-27 2021-05-27 图像处理方法、图像处理装置、存储介质与电子设备

Country Status (1)

Country Link
CN (1) CN113313776A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115396672A (zh) * 2022-08-25 2022-11-25 广东中星电子有限公司 比特流存储方法、装置、电子设备和计算机可读介质
CN116228897A (zh) * 2023-03-10 2023-06-06 北京百度网讯科技有限公司 图像处理方法、图像处理模型和训练方法
WO2023165082A1 (zh) * 2022-03-04 2023-09-07 上海商汤智能科技有限公司 图像预览方法、装置、电子设备、存储介质及计算机程序及其产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751597A (zh) * 2019-10-12 2020-02-04 西安电子科技大学 基于编码损伤修复的视频超分辨方法
CN111462000A (zh) * 2020-03-17 2020-07-28 北京邮电大学 一种基于预训练自编码器的图像恢复方法及装置
CN112188202A (zh) * 2019-07-01 2021-01-05 西安电子科技大学 基于神经网络的自学习视频编解码技术
CN112784897A (zh) * 2021-01-20 2021-05-11 北京百度网讯科技有限公司 图像处理方法、装置、设备和存储介质
CN112801901A (zh) * 2021-01-21 2021-05-14 北京交通大学 基于分块多尺度卷积神经网络的图像去模糊算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112188202A (zh) * 2019-07-01 2021-01-05 西安电子科技大学 基于神经网络的自学习视频编解码技术
CN110751597A (zh) * 2019-10-12 2020-02-04 西安电子科技大学 基于编码损伤修复的视频超分辨方法
CN111462000A (zh) * 2020-03-17 2020-07-28 北京邮电大学 一种基于预训练自编码器的图像恢复方法及装置
CN112784897A (zh) * 2021-01-20 2021-05-11 北京百度网讯科技有限公司 图像处理方法、装置、设备和存储介质
CN112801901A (zh) * 2021-01-21 2021-05-14 北京交通大学 基于分块多尺度卷积神经网络的图像去模糊算法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023165082A1 (zh) * 2022-03-04 2023-09-07 上海商汤智能科技有限公司 图像预览方法、装置、电子设备、存储介质及计算机程序及其产品
CN115396672A (zh) * 2022-08-25 2022-11-25 广东中星电子有限公司 比特流存储方法、装置、电子设备和计算机可读介质
CN115396672B (zh) * 2022-08-25 2024-04-26 广东中星电子有限公司 比特流存储方法、装置、电子设备和计算机可读介质
CN116228897A (zh) * 2023-03-10 2023-06-06 北京百度网讯科技有限公司 图像处理方法、图像处理模型和训练方法
CN116228897B (zh) * 2023-03-10 2024-04-23 北京百度网讯科技有限公司 图像处理方法、图像处理模型和训练方法

Similar Documents

Publication Publication Date Title
CN111580765B (zh) 投屏方法、投屏装置、存储介质、被投屏设备与投屏设备
CN113313776A (zh) 图像处理方法、图像处理装置、存储介质与电子设备
JP6473125B2 (ja) ビデオ復号化方法、ビデオ復号化装置、ビデオ符号化方法、ビデオ符号化装置
CN108696761B (zh) 一种图片文件处理方法及其设备、系统
US20070160147A1 (en) Image encoding method and image decoding method
CN110677649B (zh) 基于机器学习的去伪影方法、去伪影模型训练方法及装置
US11109060B2 (en) Image prediction method and apparatus
CN109151503B (zh) 一种图片文件处理方法及其设备
WO2019091372A1 (zh) 图像预测方法和装置
CN113343895B (zh) 目标检测方法、目标检测装置、存储介质与电子设备
WO2024078066A1 (zh) 视频解码方法、视频编码方法、装置、存储介质及设备
WO2019109955A1 (zh) 帧间预测方法、装置及终端设备
US11902517B2 (en) Method and system for adaptive cross-component filtering
CN113542739B (zh) 图像编码方法及装置、图像解码方法及装置、介质、设备
CN111770332B (zh) 插帧处理方法、插帧处理装置、存储介质与电子设备
CN111783962A (zh) 数据处理方法、数据处理装置、存储介质与电子设备
CN112786070A (zh) 音频数据处理方法、装置、存储介质与电子设备
CN113055713B (zh) 视频图像超分方法及装置、存储介质和电子设备
CN113781336B (zh) 图像处理的方法、装置、电子设备与存储介质
CN113658070A (zh) 图像处理方法、图像处理装置、存储介质与电子设备
CN111859001B (zh) 图像相似度检测方法、装置、存储介质与电子设备
CN111951168B (zh) 图像处理方法、图像处理装置、存储介质与电子设备
CN110662060B (zh) 视频编码方法和装置、视频解码方法和装置及存储介质
CN116033155A (zh) 双目图像的压缩方法、设备及可读存储介质
WO2024002559A1 (en) Reference area for intra prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination