CN110870310A - 图像编码方法和装置 - Google Patents

图像编码方法和装置 Download PDF

Info

Publication number
CN110870310A
CN110870310A CN201880037859.6A CN201880037859A CN110870310A CN 110870310 A CN110870310 A CN 110870310A CN 201880037859 A CN201880037859 A CN 201880037859A CN 110870310 A CN110870310 A CN 110870310A
Authority
CN
China
Prior art keywords
image
coded
neural network
network model
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880037859.6A
Other languages
English (en)
Inventor
赵文军
牛兵兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SZ DJI Technology Co Ltd
Shenzhen Dajiang Innovations Technology Co Ltd
Original Assignee
SZ DJI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SZ DJI Technology Co Ltd filed Critical SZ DJI Technology Co Ltd
Publication of CN110870310A publication Critical patent/CN110870310A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/625Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using discrete cosine transform [DCT]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

提供一种图像编码方法和装置。该方法包括获取待编码图像;根据待编码图像,通过训练出的神经网络模型,得到待编码图像对应的最优编码参数;根据待编码图像对应的最优编码参数,对待编码图像进行编码。利用训练出的神经网络模型自动选取待编码图像对应的最优编码参数,然后利用该待编码图像对应的最优编码参数对该待编码图像进行编码,这种处理方式充分考虑了各待编码图像之间的差异性,可以为各待编码图像选取与其最为匹配的编码参数,提高了待编码图像的编码质量。

Description

图像编码方法和装置
版权申明
本专利文件披露的内容包含受版权保护的材料。该版权为版权所有人所有。版权所有人不反对任何人复制专利与商标局的官方记录和档案中所存在的该专利文件或者该专利披露。
技术领域
本申请涉及图像编解码领域,并且更为具体地,涉及一种图像编码方法和装置。
背景技术
随着图像或视频技术的快速发展,如何提高图像的编解码质量成为人们关心的热点问题。
对于图像编解码质量而言,编码参数的选取尤为关键。传统编解码技术通常采用固定的编码参数对待编码图像进行编码,或者采用人工方式选择待编码图像的编码参数,导致待编码图像的编码质量较差。
发明内容
本申请提供一种图像编码方法和装置,能够提高待编码图像的编码质量。
第一方面,提供一种图像编码方法,包括:获取待编码图像;根据所述待编码图像,通过训练出的神经网络模型,得到所述待编码图像对应的最优编码参数;根据所述待编码图像对应的最优编码参数,对所述待编码图像进行编码。
第二方面,提供一种图像编码装置,包括:存储器,用于存储程序;处理器,用于执行所述存储器中存储的程序,以执行如下操作:获取待编码图像;根据所述待编码图像,通过训练出的神经网络模型,得到所述待编码图像对应的最优编码参数;根据所述待编码图像对应的最优编码参数,对所述待编码图像进行编码。
第三方面,提供一种图像编码装置包括用于执行第一方面的方法的模块。
第四方面,提供一种计算机可读存储介质,其上存储有用于执行第一方面中的方法的指令。
第五方面,提供一种计算机程序产品,包括用于执行第一方面中的方法的指令。
本申请首先利用训练出的神经网络模型自动选取待编码图像对应的最优编码参数,然后利用该待编码图像对应的最优编码参数对该待编码图像进行编码。上述图像编码方式充分考虑了各待编码图像之间的差异性,为各待编码图像选取与其最为匹配的编码参数,从而可以提高待编码图像的编码质量。
附图说明
图1是传统图像编码过程示意图。
图2是本申请实施例提供的图像编码方法的示意性流程图。
图3是本申请实施例提供的图像编码过程示意图。
图4是本申请实施例提供的神经网络模型对待编码图像的处理方式的示例图。
图5是本申请实施例提供的神经网络模型的示意性结构图。
图6是本申请实施例提供的空间金字塔池化的实现过程的示意图。
图7是本申请实施例提供的输入图像格式与通道数量的配置方式的示例图。
图8是本申请实施例提供的神经网络模型的训练过程的示意图。
图9是本申请实施例提供的神经网络模型的训练步骤的示意性流程图。
图10是本申请实施例提供的图像编码装置的示意性结构图。
具体实施方式
本申请实施例可适用于标准或非标准的图像或视频编码器。例如,可适用于JPEG(joint photograthic experts group),JPEG2000,H.264,H.265等标准的编码器。
为了便于理解,先结合图1,对传统图像编码过程(或视频编码过程)进行简单介绍。
如图1所示,在接收到待编码图像之后,传统图像编码过程通常包括变换12、量化14和熵编码16等过程,最终输出待编码图像的码流。解码端通常是按照上述过程的逆过程对接收到的码流进行解码,以恢复出编码前的图像信息。
本申请实施例提及的编码参数可以指编码过程中需要使用的任意参数,例如可以包括以下参数中的一种或多种:用于指示待编码图像的变换方式的参数(或称变换过程的相关参数),用于指示待编码图像的量化方式的参数(或称量化过程的相关参数),以及用于指示待编码图像的熵编码方式的参数(或称熵编码过程的相关参数)。
变换过程的相关参数例如可以包括指示变换方式和/或变换精度的参数。变化方式可包括离散余弦变换(discrete cosine transform,DCT)、离散小波变换(discretewavelet transform,DWT)等。
量化过程的相关参数例如可以包括指示量化参数的选取方式的参数,以及指示量化表的设计方式的参数。
熵编码过程的相关参数例如可以包括指示熵编码方式的参数,指示熵编码的概率分布的估计的参数等。熵编码方式例如可以是香浓编码,霍夫曼编码或算数编码等。
传统的图像编码过程中,编码参数的取值一般为固定值,即无论待编码图像是否相同,均采用统一的编码参数进行编码,没有针对各图像的差异为其选取合适的编码参数,导致编码参数的普适性较差。有些厂商提出了编码参数的优化方案,但此类优化方案大多需要采用人工的方式对编码参数进行优化,人工的编码参数优化方式对编码人员的专业素质要求较高,存在耗时耗力、实现复杂等问题。
考虑到图像之间的差异性,本申请实施例从深度学习的角度出发,提出一种根据图像自身的特征,采用神经网络模型自适应地为待编码图像选取最优编码参数的图像编码方案,以期提高图像的编码质量。为了便于理解,在详细介绍本申请实施例提供的图像编码方式之前,先对深度学习和神经网络模型的概念进行简单介绍。
深度学习起源于对神经网络的研究。20世纪60年代,受神经科学对人脑结构研究的启发,为了让机器也具有类似人一样的智能,人工神经网络被提出,用于模拟人脑处理数据的流程。
20世纪80年代中期,反向传播(back propogation,BP)算法的提出,提供了一条如何学习含有多隐层结构的神经网络模型的途径,让神经网络研究得高速发展。但是,由于传统的神经网络基本都是全连接网络,导致在输入维度较大的情况下网络参数太多,难以训练。为此,针对高维数据的神经网络的研究一直处于停滞状态。但是,随着卷积神经网络(convolutional neural network,CNN)等神经网络模型的提出,解决了神经网络模型参数太多、难以训练的问题,也使得神经网络模型在各个领域的应用越来越多。
目前,基于深度学习的神经网络模型被广泛应用于图像领域,如广泛应用于图像中的目标检测、人脸识别,并取得了极大的成功。相对于传统图像检测算法,基于深度学习的神经网络模型不需要人为选择特征,而是通过学习的方式训练神经网络模型提取图像的特征,然后将提取出的图像特征用于后续的决策,从而实现图像的分类、识别等功能。
本申请实施例利用神经网络模型对图像的编码参数进行优化,以期提高图像的编码质量。
下面结合图2,对本申请实施例提供的图像编码方法进行详细介绍。
在步骤22,获取待编码图像。
本申请实施例对待编码图像的图像格式不做具体限定,可以是YUV格式的图像,也可以是RGB格式的图像。
在步骤24,根据待编码图像,通过训练出的神经网络模型,得到待编码图像对应的最优编码参数。
上述神经网络模型可用于指示待编码图像与其对应的最优编码参数之间的映射关系。例如,神经网络模型可以直接输出待编码图像对应的最优编码参数;又如,神经网络模型可以输出预设的各个候选编码参数为最优编码参数的概率,然后可以再利用一个参数选取模块(或参数选取步骤)从中选取概率最大的候选编码参数作为待编码图像对应的最优编码参数。
本申请实施例对神经网络模型的结构不做具体限定,例如可以是CNN,也可以是循环神经网络(recurrent neural network,RNN),全卷积网络(fully convolutionalnetwork,FCN)。本申请实施例对本申请实施例提供的神经网络模型的训练方式不做具体限定,下文会结合具体的实施例进行详细的举例说明,此处暂不详述。
在步骤26,根据待编码图像对应的最优编码参数,对待编码图像进行编码。
在上述步骤中,待编码图像的编码可以采用标准编码器(如支持JPEG或H264标准的编码器)实现,也可以采用非标准编码器实现,本申请实施例对此并不限定。
本申请实施例首先利用训练出的神经网络模型自动选取待编码图像对应的最优编码参数,然后利用该待编码图像对应的最优编码参数对该待编码图像进行编码。上述图像编码方式充分考虑了各待编码图像之间的差异性,为各待编码图像选取与其最为匹配的编码参数,从而可以提高待编码图像的编码质量。
对于编码器,通常很难通过理论推导建立待编码图像和最优编码参数之间的映射关系,本申请实施例采用基于深度学习的方式,采用训练出的神经网络模型对各待编码图像的编码参数进行优化,从而建立了待编码图像与最优编码参数之间的映射关系,解决了传统编码参数普适性差的问题,优化了编码框架。
本申请实施例对执行步骤22至步骤26的时机不做具体限定。
可选地,作为一种实现方式,可以在线执行步骤22至步骤26(即每输入一帧待编码图像,则执行一次步骤22至步骤26)。下面结合图3,对这种实现方式进行详细的举例说明。
参见图3,当接收到待编码图像时,可以将该待编码图像分别输入至神经网络模型和编码器中。神经网络模型可以根据待编码图像的特征,计算预设的各候选编码参数为最优编码参数的概率(或称概率估计),并将计算得到的概率输出至选择模块,该选择模块可以从中选取概率最大的候选编码参数作为待编码图像对应的最优编码参数,并将待编码图像对应的最优编码参数发送至编码器。该编码器可以是标准编码器,也可以是非标准编码器。该编码器可以根据待编码图像对应的最优编码参数对待编码图像进行编码,得到待编码图像的码流。然后,编码器可以将该码流发送至解码端,由解码端的解码器对图像进行解码,从而获得解码后的图像。
可选地,作为另一种实现方式,可以离线执行步骤22至步骤24,然后在线执行步骤26。例如,假设待编码图像包含一组图像,可以从这组图像中选取一张目标图像(如待编码图像的第一帧),利用步骤22至步骤24离线确定该目标图像对应的最优编码参数。然后,可以将编码器的编码参数设置为该目标图像对应的最优编码参数,并在线对待编码图像中的各帧图像进行编码。这种实现方式的优点在于无需对编码器的结构或编码流程进行调整,与传统编码方式具有很好的兼容性。
神经网络模型的结构或其需要实现的操作可以根据需要灵活布置,本申请实施例对此并不限定。下面结合具体的实施例,对神经网络模型的结构或其需要实现的操作进行详细地举例说明。
可选地,神经网络模型可用于执行如图4所示的操作:
步骤42、对待编码图像进行特征提取,得到特征向量。
待编码图像的特征提取方式可以有多种。如图5所示,神经网络模型可以包括多个卷积及下采样层(或卷积层),用于提取待编码图像的特征向量。或者,也可以采用其他方式提取待编码图像的特征。例如,可以采用如金字塔分解或主成分分析(principalcomponent analysis,PCA)等传统特征提取方式提取待编码图像的特征。或者,在某些实施例中,还可以将传统的特征提取方式与基于卷积操作的特征提取方式相结合。经过特征提取和下采样操作,可以得到待编码图像的特征向量,该特征向量可以看成是待编码图像的高维特征表示。
步骤44、根据特征向量,确定待编码图像对应的最优编码参数。
步骤44的实现方式可以有多种。
可选地,作为一个实施例,如果待编码图像的尺寸(或分辨率)固定,可以将特征向量直接输入至神经网络模型的全连接层,然后利用全连接层计算各候选编码参数为最优编码参数的概率,从而确定待编码图像对应的最优编码参数。
可选地,作为另一个实施例,假设神经网络模型为如图5所示的卷积及下采样层和全连接层形成的神经网络模型,由于卷积及下采样层可以接收任意尺寸(或分辨率)的待编码图像,如果待编码图像的尺寸不固定,则卷积及下采样层输出的特征图的尺寸也是不固定的。在这种情况下,如图5所示,可以在卷积层和全连接层之间设置空间金字塔池化层,对卷积及下采样层输出的特征图进行处理,得到具有固定维数的特征向量,然后将固定维数的特征向量输入至全连接层,以得到各候选编码参数为最优编码参数的概率,从而确定待编码图像对应的最优编码参数。空间金字塔池化层的引入使得本申请实施例提供的神经网络模型能够处理任意尺寸(或分辨率)的待编码图像。当然,还可以采用其他方式将卷积层输出的特征图转换成具有固定维数的特征向量,本申请实施例对此并不限定,空间金字塔池化层的运用能够更好地避免待编码图像中的关键信息的丢失。
本申请实施例对空间金字塔池化层的具体实现方式不做限定。下面结合图6,给出一种可能的实现方式。
如图6所示,对于通过卷积及下采样层输出的特征图(或称高维隐含特征图),空间金字塔池化层可以将其在如图6所示的三个尺度进行分块,然后在每个分块提取一个特征,从而使得任意大小的特征图,其输出的特征维数都是相同的,从而有效解决了后面全连接层需要输入固定维数的特征向量的要求。
全连接层可以利用输入的特征向量生成各候选编码参数为最优编码参数的概率,从而可以确定待编码图像的最优编码参数。全连接层相当于将待编码图像的隐含特征映射到编码器的最优编码参数(或最优编码参数模式)的空间中,从而产生了待编码图像的最优编码参数。
上文主要描述了神经网络模型的使用过程,在使用神经网络模型之前,通常需要对其进行训练,以获得神经网络模型的参数。下面结合具体的实施例对神经网络模型的训练过程进行介绍。
神经网络模型的训练过程可以基于训练样本进行。训练样本可以是最优编码参数已知的输入图像。输入图像的格式可以是RGB格式,也可以是YUV格式,本申请实施例对此并不限定。
输入图像的数据可以是原始的图像数据,也可以经过预处理之后的图像数据。例如,输入图像的数据可以为经过归一化的数据。输入图像数据的归一化处理可以提高神经网络模型的收敛性能和特征表达能力。
以原始图像的格式为YUV(例如可以是YUV444,YUV422,YUV420)为例,对于原始图像f(x,y),可以采用如下方式对原始图像的各个分量进行归一化处理,得到输入图像:
Figure BDA0002306368650000071
Figure BDA0002306368650000072
Figure BDA0002306368650000073
神经网络模型一般使用一个或多个通道(channel)对图像进行处理。以RGB格式的图像为例,神经网络模型通常采用三个通道分别对颜色分量R、G、B进行处理;以YUV格式的图像为例,神经网络模型通常采用三个通道分别对颜色分量Y、U、V进行处理。
为了降低神经网络模型的训练复杂度,提高神经网络模型的收敛性能,可以将用于训练的输入图像的某些颜色分量的数据合并在一起,从而使得输入图像的数据从三通道数据降为双通道数据或单通道数据。例如,输入图像的数据可以为双通道数据,双通道数据之一包括输入图像的两个颜色分量对应的数据。又如,输入图像的数据可以为单通道数据,单通道数据包括输入图像的各个颜色分量对应的数据。
输入图像的通道数量可以基于输入图像的格式或输入图像的颜色分量的下采样方式确定。以图7为例,对于YUV444格式的输入图像,由于其每个颜色分量的数据量相同,则此类输入图像的数据仍可以保持三个通道数据。对于YUV422格式的输入图像,由于其颜色分量U和颜色分量V在水平方向进行了下采样,因此,如图7所示,可以将颜色分量U和颜色分量V在水平方向进行拼接,使得输入图像的数据为双通道数据。对于YUV420格式的输入图像,由于其颜色分量U和颜色分量V在水平方向和垂直方向均进行了下采样,使得颜色分量U和颜色分量V在水平和垂直方向均下降为颜色分量Y的数据量的1/2,因此,为了方便训练,如图7所示,可以将颜色分量U和颜色分量V的数据拼接之后,与颜色分量Y合并(如置于颜色分量Y的下方),使得输入图像的数据为单通道数据。
下面结合图8,对神经网络模型的训练过程进行介绍。
首先,可以预先设置一定数量的候选编码参数。本申请实施例对候选编码参数的数量和选取方式不做具体限定,可以根据经验或者实验选取。例如,首先可以根据经验获得多组编码参数;然后,可选地,可以对该多组候选编码参数进行随机修正,生成修正后的编码参数;接着,可以利用峰值信噪比(peak signal to noise ratio,PSNR)或其他评价方式评价这些编码参数的编码性能,并从中选取编码性能最优的编码参数作为候选编码参数。候选编码参数的数量可以根据实际需要设定,也可以直接设定为固定值,例如,可以将候选编码参数的数量设定为27。
如图8所示,对于一张输入图像而言,可以将其输入神经网络模型,得到各候选编码参数为最优编码参数的概率。以候选编码参数的数量为27为例,则图8中的概率可以为27×1的向量,与27组候选编码参数一一对应。该向量的每个元素的取值可以为介于0到1之间的数,用于指示该元素对应的一组候选编码参数为最优编码参数的概率。神经网络模型输出的各候选编码参数为最优编码参数的概率可以称为神经网络模型输出的真实值。
由于预先知道该输入图像的最优编码参数,可以将该输入图像对应的最优编码参数的取值设置为1,其余编码参数的取值设置为0,得到神经网络输出的理论值。
然后,可以根据神经网络模型输出的真实值与理论值之间的偏差调整神经网络模型的参数,使得神经网络模型输出的真实值尽量接近理论值,从而实现神经网络模型的训练。
神经网络模型的训练过程可以看成是不断迭代的过程,使得神经网络模型输出的真实值与理论值不断逼近。迭代过程的终止可以由损失函数(或代价函数)决定。
本申请实施例对神经网络模型的训练过程所采用的损失函数的类型不做具体限定,可以是最小平方误差(minimum squared-error,MSE)函数,也可以是交叉熵函数。
交叉熵函数可以定义如下:
Figure BDA0002306368650000091
其中,y'为实际输出,而y为理想输出,n为候选编码参数的数量。
相比于MSE函数,交叉熵函数更容易收敛。
用于训练的输入图像的分辨率可以根据实际需要选取,可以选取具有固定分辨率的图像,也可以选取具有不同分辨率的图像。
为了使得训练出的神经网络模型能够支持多种分辨率的图像的编码参数的优化,输入图像可以选取为具有多种分辨率的图像。这些输入图像可以随机输入到神经网络模型中对其进行训练,也可以按照某种顺序输入到神经网络模型中对其进行训练。
例如,输入图像可以包括第一图像集合和第二图像集合。第一图像集合中的各图像具有相同的分辨率,第二图像集合中的图像的分辨率不同于第一图像集合中的图像的分辨率。第二图像集合中的图像可以具有相同或不同的分辨率,本申请实施例对此并不限定。
训练神经网络模型时,参见图9,可以分两步进行。
在步骤92,采用第一图像集合中的图像对神经网络模型进行训练,得到神经网络模型的参数。
该步骤对应的训练阶段可以称为单一分辨率图像训练阶段,目的是能够基于一种分辨率的图像快速训练出神经网络的模型。
在步骤94,采用第二图像集合中的图像对神经网络模型的参数进行修正。
该步骤对应的训练阶段可以称为多分辨率图像训练阶段,目的是对步骤92生成的神经网络模型参数进行微调,使得神经网络模型可以用于对其他分辨率的图像进行处理。
采用如图9所示的两步训练法,可以使得神经网络模型的参数快速收敛,从而可以提升神经网络模型的训练效率。
上文结合图1-图9,详细描述了本申请的方法实施例,下文结合图10,详细描述本申请的装置实施例。应理解,装置实施例与方法实施例对应,因此,未详细描述的部分可以参见前面各方法实施例。
图10是本申请实施例提供的图像编码装置的示意性结构图。该图像编码装置1000包括存储器1010和处理器1020。
存储器1010可用于存储程序。处理器1020可用于执行所述存储器中存储的程序,以执行如下操作:获取待编码图像;根据所述待编码图像,通过训练出的神经网络模型,得到所述待编码图像对应的最优编码参数;根据所述待编码图像对应的最优编码参数,对所述待编码图像进行编码。
可选地,所述神经网络模型用于对所述待编码图像进行特征提取,得到特征向量;并根据所述特征向量,确定所述待编码图像对应的最优编码参数。
可选地,所述根据所述特征向量,确定所述待编码图像对应的最优编码参数可以包括:根据所述特征向量,生成输出向量,所述输出向量用于表示预先设定的多个候选编码参数各自为最优编码参数的概率;根据多个所述候选编码参数各自为最优编码参数的概率,从多个所述候选编码参数中选取概率最大的作为所述待编码图像对应的最优编码参数。
可选地,在所述获取待编码图像之前,所述处理器1020还可用于执行以下操作:根据最优编码参数已知的输入图像对所述神经网络模型进行训练。
可选地,所述神经网络模型的训练过程可以采用交叉熵函数为损失函数。
可选地,所述输入图像的数据可以为经过归一化的数据。
可选地,所述输入图像的数据可以为双通道数据,所述双通道数据之一可以包括所述输入图像的两个颜色分量对应的数据。
可选地,所述输入图像的数据可以为单通道数据,所述单通道数据可以包括所述输入图像的各个颜色分量对应的数据。
可选地,所述输入图像的数据可以为YUV或RGB格式的数据。
可选地,所述输入图像可以包括第一图像集合和第二图像集合,所述第一图像集合中的各图像具有相同的分辨率,所述第二图像集合中的图像的分辨率不同于所述第一图像集合中的图像的分辨率,所述根据最优编码参数已知的输入图像对所述神经网络模型进行训练可以包括:采用所述第一图像集合中的图像对所述神经网络模型进行训练,得到所述神经网络模型的参数;采用所述第二图像集合中的图像对所述神经网络模型的参数进行修正。
可选地,所述根据所述待编码图像对应的最优编码参数,对所述待编码图像进行编码可以包括:根据所述待编码图像对应的最优编码参数,采用标准或非标准编码器对所述待编码图像进行编码。
可选地,所述待编码图像对应的最优编码参数可以包括以下中的至少一种:用于指示所述待编码图像的变换方式的参数,用于指示所述待编码图像的量化方式的参数,以及用于指示所述待编码图像的熵编码方式的参数。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (26)

1.一种图像编码方法,其特征在于,包括:
获取待编码图像;
根据所述待编码图像,通过训练出的神经网络模型,得到所述待编码图像对应的最优编码参数;
根据所述待编码图像对应的最优编码参数,对所述待编码图像进行编码。
2.根据权利要求1所述的方法,其特征在于,所述神经网络模型用于对所述待编码图像进行特征提取,得到特征向量;并根据所述特征向量,确定所述待编码图像对应的最优编码参数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述特征向量,确定所述待编码图像对应的最优编码参数,包括:
根据所述特征向量,生成输出向量,所述输出向量用于表示预先设定的多个候选编码参数各自为最优编码参数的概率;
根据多个所述候选编码参数各自为最优编码参数的概率,从多个所述候选编码参数中选取概率最大的作为所述待编码图像对应的最优编码参数。
4.根据权利要求1-3中任一项所述的方法,其特征在于,在所述获取待编码图像之前,所述方法还包括:
根据最优编码参数已知的输入图像对所述神经网络模型进行训练。
5.根据权利要求4所述的方法,其特征在于,所述神经网络模型的训练过程采用交叉熵函数为损失函数。
6.根据权利要求4或5所述的方法,其特征在于,所述输入图像的数据为经过归一化的数据。
7.根据权利要求4-6中任一项所述的方法,其特征在于,所述输入图像的数据为双通道数据,所述双通道数据之一包括所述输入图像的两个颜色分量对应的数据。
8.根据权利要求4-6中任一项所述的方法,其特征在于,所述输入图像的数据为单通道数据,所述单通道数据包括所述输入图像的各个颜色分量对应的数据。
9.根据权利要求7或8所述的方法,其特征在于,所述输入图像的数据为YUV或RGB格式的数据。
10.根据权利要求4-9中任一项所述的方法,其特征在于,所述输入图像包括第一图像集合和第二图像集合,所述第一图像集合中的各图像具有相同的分辨率,所述第二图像集合中的图像的分辨率不同于所述第一图像集合中的图像的分辨率,
所述根据最优编码参数已知的输入图像对所述神经网络模型进行训练,包括:
采用所述第一图像集合中的图像对所述神经网络模型进行训练,得到所述神经网络模型的参数;
采用所述第二图像集合中的图像对所述神经网络模型的参数进行修正。
11.根据权利要求1-10中任一项所述的方法,其特征在于,所述根据所述待编码图像对应的最优编码参数,对所述待编码图像进行编码,包括:
根据所述待编码图像对应的最优编码参数,采用标准或非标准编码器对所述待编码图像进行编码。
12.根据权利要求1-11中任一项所述的方法,其特征在于,所述待编码图像对应的最优编码参数包括以下中的至少一种:用于指示所述待编码图像的变换方式的参数,用于指示所述待编码图像的量化方式的参数,以及用于指示所述待编码图像的熵编码方式的参数。
13.一种图像编码装置,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述存储器中存储的程序,以执行如下操作:
获取待编码图像;
根据所述待编码图像,通过训练出的神经网络模型,得到所述待编码图像对应的最优编码参数;
根据所述待编码图像对应的最优编码参数,对所述待编码图像进行编码。
14.根据权利要求13所述的图像编码装置,其特征在于,所述神经网络模型用于对所述待编码图像进行特征提取,得到特征向量;并根据所述特征向量,确定所述待编码图像对应的最优编码参数。
15.根据权利要求14所述的图像编码装置,其特征在于,所述根据所述特征向量,确定所述待编码图像对应的最优编码参数,包括:
根据所述特征向量,生成输出向量,所述输出向量用于表示预先设定的多个候选编码参数各自为最优编码参数的概率;
根据多个所述候选编码参数各自为最优编码参数的概率,从多个所述候选编码参数中选取概率最大的作为所述待编码图像对应的最优编码参数。
16.根据权利要求13-15中任一项所述的图像编码装置,其特征在于,在所述获取待编码图像之前,所述处理器还用于执行以下操作:
根据最优编码参数已知的输入图像对所述神经网络模型进行训练。
17.根据权利要求16所述的图像编码装置,其特征在于,所述神经网络模型的训练过程采用交叉熵函数为损失函数。
18.根据权利要求16或17所述的图像编码装置,其特征在于,所述输入图像的数据为经过归一化的数据。
19.根据权利要求16-18中任一项所述的图像编码装置,其特征在于,所述输入图像的数据为双通道数据,所述双通道数据之一包括所述输入图像的两个颜色分量对应的数据。
20.根据权利要求16-18中任一项所述的图像编码装置,其特征在于,所述输入图像的数据为单通道数据,所述单通道数据包括所述输入图像的各个颜色分量对应的数据。
21.根据权利要求19或20所述的图像编码装置,其特征在于,所述输入图像的数据为YUV或RGB格式的数据。
22.根据权利要求16-21中任一项所述的图像编码装置,其特征在于,所述输入图像包括第一图像集合和第二图像集合,所述第一图像集合中的各图像具有相同的分辨率,所述第二图像集合中的图像的分辨率不同于所述第一图像集合中的图像的分辨率,
所述根据最优编码参数已知的输入图像对所述神经网络模型进行训练,包括:
采用所述第一图像集合中的图像对所述神经网络模型进行训练,得到所述神经网络模型的参数;
采用所述第二图像集合中的图像对所述神经网络模型的参数进行修正。
23.根据权利要求13-22中任一项所述的图像编码装置,其特征在于,所述根据所述待编码图像对应的最优编码参数,对所述待编码图像进行编码,包括:
根据所述待编码图像对应的最优编码参数,采用标准或非标准编码器对所述待编码图像进行编码。
24.根据权利要求13-23中任一项所述的图像编码装置,其特征在于,所述待编码图像对应的最优编码参数包括以下中的至少一种:用于指示所述待编码图像的变换方式的参数,用于指示所述待编码图像的量化方式的参数,以及用于指示所述待编码图像的熵编码方式的参数。
25.一种计算机可读存储介质,其特征在于,其上存储有用于执行如权利要求1-12中任一项所述的方法的指令。
26.一种计算机程序产品,其特征在于,包括用于执行如权利要求1-12中任一项所述的方法的指令。
CN201880037859.6A 2018-09-04 2018-09-04 图像编码方法和装置 Pending CN110870310A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/104022 WO2020047756A1 (zh) 2018-09-04 2018-09-04 图像编码方法和装置

Publications (1)

Publication Number Publication Date
CN110870310A true CN110870310A (zh) 2020-03-06

Family

ID=69651651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880037859.6A Pending CN110870310A (zh) 2018-09-04 2018-09-04 图像编码方法和装置

Country Status (2)

Country Link
CN (1) CN110870310A (zh)
WO (1) WO2020047756A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111405285A (zh) * 2020-03-27 2020-07-10 北京百度网讯科技有限公司 用于压缩图像的方法及装置
CN114302425A (zh) * 2021-12-21 2022-04-08 深圳Tcl新技术有限公司 设备配网方法、装置、存储介质及电子设备
WO2022116207A1 (zh) * 2020-12-04 2022-06-09 深圳市大疆创新科技有限公司 编码方法、解码方法和编码装置、解码装置
CN114745556A (zh) * 2022-02-07 2022-07-12 浙江智慧视频安防创新中心有限公司 编码方法、装置、数字视网膜系统、电子设备及存储介质
CN115050093A (zh) * 2022-05-23 2022-09-13 山东大学 一种基于分阶段多级金字塔的跨视角步态识别方法
WO2022237427A1 (zh) * 2021-05-11 2022-11-17 北京字跳网络技术有限公司 视频处理方法、装置、设备及存储介质
WO2023011420A1 (zh) * 2021-08-05 2023-02-09 华为技术有限公司 编解码方法和装置
CN116506622A (zh) * 2023-06-26 2023-07-28 瀚博半导体(上海)有限公司 模型训练方法及视频编码参数优化方法和装置
CN115050093B (zh) * 2022-05-23 2024-05-31 山东大学 一种基于分阶段多级金字塔的跨视角步态识别方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114501026B (zh) * 2022-02-17 2023-04-14 北京百度网讯科技有限公司 视频编码方法、装置、设备及存储介质
CN116781897A (zh) * 2022-03-07 2023-09-19 华为技术有限公司 编解码方法及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101924943A (zh) * 2010-08-27 2010-12-22 郭敏 一种实时的基于h.264的低比特率视频转码方法
KR20170059040A (ko) * 2015-11-19 2017-05-30 전자부품연구원 비디오 부호화기의 최적 모드 결정 장치 및 최적 모드 결정을 이용한 비디오 부호화 방법
US20170264902A1 (en) * 2016-03-09 2017-09-14 Sony Corporation System and method for video processing based on quantization parameter
CN107609549A (zh) * 2017-09-20 2018-01-19 北京工业大学 一种自然场景下证件图像的文本检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101924943A (zh) * 2010-08-27 2010-12-22 郭敏 一种实时的基于h.264的低比特率视频转码方法
KR20170059040A (ko) * 2015-11-19 2017-05-30 전자부품연구원 비디오 부호화기의 최적 모드 결정 장치 및 최적 모드 결정을 이용한 비디오 부호화 방법
US20170264902A1 (en) * 2016-03-09 2017-09-14 Sony Corporation System and method for video processing based on quantization parameter
CN107609549A (zh) * 2017-09-20 2018-01-19 北京工业大学 一种自然场景下证件图像的文本检测方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111405285A (zh) * 2020-03-27 2020-07-10 北京百度网讯科技有限公司 用于压缩图像的方法及装置
CN114731406A (zh) * 2020-12-04 2022-07-08 深圳市大疆创新科技有限公司 编码方法、解码方法和编码装置、解码装置
WO2022116207A1 (zh) * 2020-12-04 2022-06-09 深圳市大疆创新科技有限公司 编码方法、解码方法和编码装置、解码装置
WO2022237427A1 (zh) * 2021-05-11 2022-11-17 北京字跳网络技术有限公司 视频处理方法、装置、设备及存储介质
CN115412731A (zh) * 2021-05-11 2022-11-29 北京字跳网络技术有限公司 视频处理方法、装置、设备及存储介质
WO2023011420A1 (zh) * 2021-08-05 2023-02-09 华为技术有限公司 编解码方法和装置
CN114302425A (zh) * 2021-12-21 2022-04-08 深圳Tcl新技术有限公司 设备配网方法、装置、存储介质及电子设备
CN114302425B (zh) * 2021-12-21 2024-06-04 深圳Tcl新技术有限公司 设备配网方法、装置、存储介质及电子设备
CN114745556A (zh) * 2022-02-07 2022-07-12 浙江智慧视频安防创新中心有限公司 编码方法、装置、数字视网膜系统、电子设备及存储介质
CN114745556B (zh) * 2022-02-07 2024-04-02 浙江智慧视频安防创新中心有限公司 编码方法、装置、数字视网膜系统、电子设备及存储介质
CN115050093A (zh) * 2022-05-23 2022-09-13 山东大学 一种基于分阶段多级金字塔的跨视角步态识别方法
CN115050093B (zh) * 2022-05-23 2024-05-31 山东大学 一种基于分阶段多级金字塔的跨视角步态识别方法
CN116506622A (zh) * 2023-06-26 2023-07-28 瀚博半导体(上海)有限公司 模型训练方法及视频编码参数优化方法和装置
CN116506622B (zh) * 2023-06-26 2023-09-08 瀚博半导体(上海)有限公司 模型训练方法及视频编码参数优化方法和装置

Also Published As

Publication number Publication date
WO2020047756A1 (zh) 2020-03-12

Similar Documents

Publication Publication Date Title
CN110870310A (zh) 图像编码方法和装置
CN110798690B (zh) 视频解码方法、环路滤波模型的训练方法、装置和设备
Kim et al. Hierarchical prediction and context adaptive coding for lossless color image compression
CN104641643A (zh) 在分层层级中信号编码、解码和重构期间残差数据的分解
CN113766249B (zh) 视频编解码中的环路滤波方法、装置、设备及存储介质
Abou-Elailah et al. Fusion of global and local motion estimation for distributed video coding
CN111247797A (zh) 用于图像编解码的方法和装置
WO2021134706A1 (zh) 环路滤波的方法与装置
CN110636312A (zh) 视频编解码方法和装置及存储介质
Hu et al. An adaptive two-layer light field compression scheme using GNN-based reconstruction
WO2023050720A1 (zh) 图像处理方法、图像处理装置、模型训练方法
WO2023279961A1 (zh) 视频图像的编解码方法及装置
CN116547969A (zh) 基于机器学习的图像译码中色度子采样格式的处理方法
CN110545433A (zh) 视频编解码方法和装置及存储介质
CN110677676B (zh) 视频编码方法和装置、视频解码方法和装置及存储介质
CN110677653A (zh) 视频编解码方法和装置及存储介质
CN114222127A (zh) 一种视频编码方法、视频解码方法及装置
Ma et al. Improving compression artifact reduction via end-to-end learning of side information
CN110677721B (zh) 视频编解码方法和装置及存储介质
CN116918329A (zh) 一种视频帧的压缩和视频帧的解压缩方法及装置
CN110796151A (zh) 一种神经系统影像交互信息处理系统及方法
CN110582022A (zh) 视频编解码方法和装置及存储介质
WO2024093627A1 (zh) 一种视频压缩方法、视频解码方法和相关装置
CN115103188B (zh) Svc的错误隐藏方法、模型训练方法、系统及设备
CN117459737B (zh) 一种图像预处理网络的训练方法和图像预处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200306

WD01 Invention patent application deemed withdrawn after publication