CN115700771A - 编解码方法及装置 - Google Patents

编解码方法及装置 Download PDF

Info

Publication number
CN115700771A
CN115700771A CN202110877277.2A CN202110877277A CN115700771A CN 115700771 A CN115700771 A CN 115700771A CN 202110877277 A CN202110877277 A CN 202110877277A CN 115700771 A CN115700771 A CN 115700771A
Authority
CN
China
Prior art keywords
feature map
neural network
resolution
output
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110877277.2A
Other languages
English (en)
Inventor
杨海涛
赵寅
张恋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202110877277.2A priority Critical patent/CN115700771A/zh
Priority to EP22851697.7A priority patent/EP4369300A1/en
Priority to CA3227676A priority patent/CA3227676A1/en
Priority to PCT/CN2022/096354 priority patent/WO2023010981A1/zh
Priority to AU2022321528A priority patent/AU2022321528A1/en
Priority to KR1020247006406A priority patent/KR20240038779A/ko
Publication of CN115700771A publication Critical patent/CN115700771A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

本申请提供一种解码方法及装置。本申请的解码方法包括:对码流进行解码得到第一特征图,所述第一特征图的分辨率小于原始图像的分辨率;根据第一神经网络对第二特征图进行重建,得到重建图像,所述第二特征图和所述重建图像的分辨率均为目标分辨率,所述目标分辨率小于所述原始图像的分辨率,其中所述第二特征图为所述第一特征图、或所述第二特征图为通过第二神经网络对所述第一特征图进行处理得到的特征图。本申请可以提高获取重建图像的效率,从而提高数字视频应用显示原始图像的缩略图的速度。

Description

编解码方法及装置
技术领域
本申请实施例涉及数据压缩技术领域,尤其涉及一种编解码方法及装置。
背景技术
视频编解码(视频编码和解码)广泛用于数字视频应用,例如广播数字电视、互联网、 相册以及移动网络上的视频传输、视频聊天和视频会议等实时会话应用、数字多功能影音 光盘(Digital Versatile Disc,DVD)和蓝光光盘、视频内容采集和编辑系统以及可携式摄 像机的安全应用。
视频的数据量通常较多,当视频数据要在带宽容量受限的网络中发送或以其它方式传 输时,这样可能会造成困难。因此,视频数据通常要先压缩然后在现代电信网络中传输。 由于内存资源可能有限,当在存储设备上存储视频时,视频的大小也可能成为问题。视频 压缩设备通常在信源侧使用软件和/或硬件,以在传输或存储之前对视频数据进行编码,从 而减少用来表示数字视所需的数据量。然后,压缩的视频数据在目的地侧由视频解压缩设 备接收。在有限的网络资源以及对更高视频质量的需求不断增长的情况下,需要改进压缩 和解压缩技术,这些改进的技术能够提高压缩率而几乎不影响图像质量。
数字视频应用的部分操作中需要显示原始图像的缩略图,以在显示界面中显示数量较 多的图像。相关技术中先对接收到的原始图像的码流进行解码和重建,得到原始图像。之 后对原始图像的分辨率进行缩小,得到原始图像的缩略图。但是上述获取原始图像的缩略 图的方式复杂度较高且耗时较长,从而影响数字视频应用显示原始图像的缩略图的速度。
发明内容
本申请提供一种编解码方法及装置,以提高获取重建图像的效率,从而提高数字视频 应用显示原始图像的缩略图的速度。
第一方面,本申请提供一种解码方法,所述方法包括:对码流进行解码得到第一特征 图,所述第一特征图的分辨率小于原始图像的分辨率;根据第一神经网络对第二特征图进 行重建,得到重建图像,所述第二特征图和所述重建图像的分辨率均为目标分辨率,所述 目标分辨率小于所述原始图像的分辨率,其中所述第二特征图为所述第一特征图、或所述 第二特征图为通过第二神经网络对所述第一特征图进行处理得到的特征图。
其中,特征图是卷积神经网络中卷积层、激活层、池化层、批量归一化层等层输出的 三维数据,其三个维度分别称为宽(Width)、高(Height)、通道(Channel)。特征图可 以为M×W×H,表示该特征图包括M个通道的分辨率为W×H的二维特征图,W表示 宽,H表示高。
第一神经网络输出的重建图像的分辨率与输入的第二特征图的分辨率相同,均为目标 分辨率。当第二特征图为第一特征图时,目标分辨率等于第一特征图的分辨率。当第二特 征图为对通过第二神经网络对第一特征图进行处理得到的特征图时,目标分辨率大于第一 特征图的分辨率。
第二神经网络用于对第一特征图进行处理得到第二特征图,该处理可以包括卷积操作 和/或反卷积操作,进一步地,处理还可以包括归一化操作。
该解码方法中,解码器对码流进行解码得到第一特征图,之后根据第一神经网络对第 二特征图进行重建,得到重建图像,第二特征图和重建图像的分辨率均为目标分辨率,目 标分辨率小于原始图像的分辨率,第二特征图包括第一特征图,或第二特征图为通过第二 神经网络对原始图像的特征图进行处理得到的特征图。经过解码和重建得到的重建图像的 分辨率小于原始图像的分辨率,在获取重建图像的过程中无需先重建得到原始图像,而是 直接得到重建图像,提高了获取重建图像的效率,从而提高了数字视频应用显示原始图像 的缩略图的速度
当第一神经网络的数量为一个时,在一种示例中,无需应用第二神经网络,第一神经 网络可以独立存在,此时第二特征图为第一特征图,第一神经网络仅能输出一种分辨率的 重建图像,该一种分辨率即为第一特征图的分辨率。
在另一种示例中,该一个第一神经网络可以与第二神经网络的输入端连接和/或与一 个或多个输出节点连接。此时第二特征图为第一特征图或通过第二神经网络对第一特征图 进行处理得到的特征图,第一神经网络能输出一种或多种分辨率的重建图像。
当第一神经网络的数量为多个时,第二神经网络的输入端和/或每个输出节点连接有 第一神经网络。此时第二特征图为第一特征图或通过第二神经网络对第一特征图进行处理 得到的特征图,第一神经网络能输出多种分辨率的重建图像。
在一种可能的实现方式中,当第二特征图为通过第二神经网络对第一特征图进行处理 得到的特征图,所述第二神经网络包括一个或多个输出节点和多个卷积层,所述输出节点 位于第一层卷积层的输出端与最后一层卷积层的输入端之间,所述输出节点与所述第一神 经网络的输入端连接,所述方法还包括:将所述第一特征图输入所述第二神经网络,得到 所述第二神经网络的目标输出节点输出的所述第二特征图,所述目标输出节点属于所述一 个或多个输出节点;所述根据第一神经网络对第二特征图进行重建,得到重建图像,包括: 将所述目标输出节点输出的第二特征图输入所述第一神经网络,得到所述第一神经网络输 出的所述重建图像。
其中,第二神经网络是相关技术中用于编解码的网络中已有的神经网络,其用于生成 原始分辨率的重建图像。在第二神经网络的不同位置设置输出节点,利用输出节点以及现 有的第二神经网络即可实现多种目标分辨率的重建图像的生成。该过程中第二神经网络用 于对第一特征图进行处理,在生成不同目标分辨率的重建图像的过程中,各个输出节点共 享第二神经网络中的层。这样能够减小用于生成重建图像的神经网络(包括第一神经网络 和第二神经网络)的大小,减小了用于生成重建图像的神经网络占用解码器的存储空间, 从而降低了用于生成重建图像的神经网络在解码器中的运行开销和运行复杂度。
在一种可能的实现方式中,当第一神经网络的数量为一个时,直接将目标输出节点输 出的第二特征图输入该一个网络,得到该一个神经网络输出的重建图像。当所述第一神经 网络的数量为多个,所述将所述目标输出节点输出的第二特征图输入所述第一神经网络, 得到所述第一神经网络输出的所述重建图像,包括:将所述第二特征图输入所述目标输出 节点连接的第一神经网络,得到所述目标输出节点连接的第一神经网络输出的所述重建图 像。
在一种可能的实现方式中,当所述目标分辨率的个数为多个,所述目标输出节点的个 数为多个,所述将所述第一特征图输入所述第二神经网络,得到所述第二神经网络的目标 输出节点输出的所述第二特征图,包括:将所述第一特征图输入所述第二神经网络,得到 所述第二神经网络的多个目标输出节点输出的多个分辨率的第二特征图;所述将所述第二 特征图输入所述目标输出节点连接的第一神经网络,得到所述目标输出节点连接的第一神 经网络输出的所述重建图像,包括:将每个所述目标输出节点输出的第二特征图输入所述 目标输出节点连接的第一神经网络,得到所述多个目标输出节点分别连接的第一神经网络 输出的多个分辨率的重建图像。
各个输出节点可以并行或串行输出第二特征图,当并行输出第二特征图时,可以提高 获取重建图像的效率。当串行输出第二特征图时,各个输出节点输出的第二特征图可以共 享。这样可以减小第二神经网络的计算次数,进而减小第二神经网络的运算开销。
在一种可能的实现方式中,当所述第二神经网络包括多个输出节点,每个所述输出节 点对应一个输出分辨率,所述方法还包括:确定所述目标分辨率;将输出分辨率为所述目 标分辨率的输出节点确定为所述目标输出节点。
目标分辨率可以由解码器确定,也可以由解码器外部确定,例如由解码器的外部应用 层或者编码器确定。外部应用层可以参考前述数字视频应用,例如视频播放器、相册以及 网页等。
示例地,可以根据缩略图分辨率确定目标分辨率。例如将第一神经网络能够输出的候 选分辨率中与缩略图分辨率最接近的分辨率确定为目标分辨率。又一示例地,可以根据各 个候选分辨率的重建图像获取过程的复杂度和/或功耗约束确定目标分辨率。
在一种可能的实现方式中,所述第一神经网络包括至少一个卷积层,所述至少一个卷 积层的卷积步长为1。
在一种可能的实现方式中,所述码流对应M1个通道的二维特征图,所述对码流进行 解码得到第一特征图,包括:对所述M1个通道中M2个通道的二维特征图对应的码流进行解码,得到所述第一特征图,M2<M1,所述第一特征图包括所述M2个通道的二维特征 图。
解码器可以对M1个通道中前M2个通道的二维特征图对应的码流进行解码。这样在M2个通道的二维特征图对应的码流被解码后即可执行后续的重建流程,无需在整个码流解码完成后再执行后续的重建流程,提高了得到第三特征图的效率,从而提高了获取重建图像的效率。
在一种可能的实现方式中,所述方法还包括:对所述重建图像进行上采样处理,得到 第一图像,所述第一图像的分辨率与所述原始图像的分辨率相同。
示例地,上采样处理可以包括双线性插值上采样,或者直接填充临近位置的像素值进 行上采样或者通过步长大于1的卷积层的反卷积操作实现上采样。
需要说明的是,若对整个码流进行解码得到的特征图进行重建,生成重建的原始分辨 率的图像,则该原始分辨率的图像的分辨率较大,生成过程耗时较长,影响数字视频应用 显示原始分辨率的图像的速度,导致用户在浏览原始分辨率的图像是会出现卡顿的情况。 本申请实施例中,在得到重建图像的过程中仅对码流中的部分码流进行了解码,使得重建 图像的数据量较小,得到重建图像的效率较高。进而在基于重建图像得到第一图像时,提 高了得到第一图像的效率,从而减小了得到第一图像的过程的耗时,提高了数字视频应用 显示原始分辨率的图像的速度。
结合上述实现方式,当所述码流为初始特征图的码流,所述初始特征图是对所述原始 图像进行特征提取得到的,所述方法还包括:对所述M1个通道中除所述M2个通道之外的通道的二维特征图对应的码流进行解码,得到第三特征图,所述第三特征图包括所述M1-M2个通道的二维特征图;根据所述第二神经网络对所述第一特征图和所述第三特征 图进行处理,得到第二图像,所述第二图像的分辨率与所述原始图像的分辨率相同。
第二图像是对第一特征图和第三特征图进行重建后生成的,第二图像的数据量大于前 述第一图像的数据量,且图像质量高于第一图像。由于第二图像的重建过程耗时较长,因 此先快速生成低质量的第一图像进行显示,同时重建得到高质量的第二图像,使得数字视 频应用在显示原始分辨率的图像时不会出现卡顿的情况,提高了对原始分辨率的图像的显 示效果。
在一种可能的实现方式中,所述第二特征图包括多个通道的二维特征图,在根据第一 神经网络对第二特征图进行重建,得到重建图像之前,所述方法还包括:对所述第二特征 图进行通道缩减处理;所述根据第一神经网络对第二特征图进行重建,得到重建图像,包 括:根据所述第一神经网络对所述通道缩减处理后的第二特征图进行重建,得到所述重建 图像。
在一种可能的实现方式中,所述第一特征图包括多个通道的二维特征图,所述方法还 包括:对所述第一特征图进行通道缩减处理;所述第二特征图为所述通道缩减处理后的第 一特征图,或所述第二特征图为通过所述第二神经网络对所述通道缩减处理后的第一特征 图进行处理得到的特征图。
对第二特征图和/或第一特征图进行通道缩减处理,能够减少后续的重建过程的复杂 度,提高重建过程的效率。
第二方面,本申请提供一种解码方法,包括:对码流进行解码得到第一特征图;根据 第一神经网络对第一分辨率的第二特征图进行重建,得到第二分辨率的重建图像,第二分 辨率与第一分辨率不同,第二分辨率小于原始图像的分辨率,第二特征图包括第一特征图、 或第二特征图为通过第二神经网络对第一特征图进行处理得到的特征图。
第一神经网络输出的重建图像的分辨率与输入的第二特征图的分辨率不同。由于第二 神经网络能够输出的多种分辨率的值是固定的,导致与第二神经网络的一个或多个输出节 点连接的第一神经网络输出的分辨率的值是固定的。该方法中,第一神经网络也具备改变 输入的特征图的分辨率的功能,这样能够通过不同结构的第一神经网络,实现各种数值的 分辨率的输出,在降低了用于生成重建图像的神经网络在解码器中的运行开销和运行复杂 度的同时,提高了生成重建图像的灵活性。
第三方面,本申请提供一种编码方法,所述方法包括:对原始图像进行特征提取得到 初始特征图,所述初始特征图包括多个通道的二维特征图,所述初始特征图的分辨率小于 所述原始图像的分辨率;对待编码特征图进行编码得到码流,所述待编码特征图为所述初 始特征图,或包括所述初始特征图中部分通道的二维特征图。
当待编码特征图包括初始特征图中部分通道的二维特征图时,可以减少后续编码后的 码流的数据量,从而减小码流传输至解码器侧的通信开销。
第四方面,本申请提供一种解码装置,所述解码装置包括:处理模块,用于对码流进 行解码得到第一特征图,所述第一特征图的分辨率小于原始图像的分辨率;重建模块,用 于根据第一神经网络对第二特征图进行重建,得到重建图像,所述第二特征图和所述重建 图像的分辨率均为目标分辨率,所述目标分辨率小于所述原始图像的分辨率,其中所述第 二特征图为所述第一特征图、或所述第二特征图为通过第二神经网络对所述第一特征图进 行处理得到的特征图。
在一种可能的实现方式中,当所述第二特征图为通过所述第二神经网络对所述第一特 征图进行处理得到的特征图,所述第二神经网络包括一个或多个输出节点和多个卷积层, 所述输出节点位于第一层卷积层的输出端与最后一层卷积层的输入端之间,所述输出节点 与所述第一神经网络的输入端连接,所述重建模块,还用于将所述第一特征图输入所述第 二神经网络,得到所述第二神经网络的目标输出节点输出的所述第二特征图,所述目标输 出节点属于所述一个或多个输出节点;所述重建模块,具体用于将所述目标输出节点输出 的第二特征图输入所述第一神经网络,得到所述第一神经网络输出的所述重建图像。
在一种可能的实现方式中,当所述第一神经网络的数量为多个,所述重建模块,具体 用于将所述第二特征图输入所述目标输出节点连接的第一神经网络,得到所述目标输出节 点连接的第一神经网络输出的所述重建图像。
在一种可能的实现方式中,当所述目标分辨率的个数为多个,所述目标输出节点的个 数为多个,所述重建模块,具体用于将所述第一特征图输入所述第二神经网络,得到所述 第二神经网络的多个目标输出节点输出的多个分辨率的第二特征图;将每个所述目标输出 节点输出的第二特征图输入所述目标输出节点连接的第一神经网络,得到所述多个目标输 出节点分别连接的第一神经网络输出的多个分辨率的重建图像。
在一种可能的实现方式中,当所述第二神经网络包括多个输出节点,每个所述输出节 点对应一个输出分辨率,所述重建模块,还用于确定所述目标分辨率;将输出分辨率为所 述目标分辨率的输出节点确定为所述目标输出节点。
在一种可能的实现方式中,所述第一神经网络包括至少一个卷积层,所述至少一个卷 积层的卷积步长为1。
在一种可能的实现方式中,所述码流对应M1个通道的二维特征图,所述处理模块,具体用于对所述M1个通道中M2个通道的二维特征图对应的码流进行解码,得到所述第 一特征图,M2<M1,所述第一特征图包括所述M2个通道的二维特征图。
在一种可能的实现方式中,所述重建模块,还用于对所述重建图像进行上采样处理, 得到第一图像,所述第一图像的分辨率与所述原始图像的分辨率相同。
在一种可能的实现方式中,所述码流为初始特征图的码流,所述初始特征图是对所述 原始图像进行特征提取得到的,所述处理模块,还用于对所述M1个通道中除所述M2个通道之外的通道的二维特征图对应的码流进行解码,得到第三特征图,所述第三特征图包括所述M1-M2个通道的二维特征图;所述重建模块,还用于根据所述第二神经网络对所 述第一特征图和所述第三特征图进行处理,得到第二图像,所述第二图像的分辨率与所述 原始图像的分辨率相同。
在一种可能的实现方式中,所述第二特征图包括多个通道的二维特征图,所述重建模 块,还用于对所述第二特征图进行通道缩减处理;所述重建模块,具体用于根据所述第一 神经网络对所述通道缩减处理后的第二特征图进行重建,得到所述重建图像。
在一种可能的实现方式中,所述第一特征图包括多个通道的二维特征图,所述重建模 块,还用于对所述第一特征图进行通道缩减处理;所述第二特征图为所述通道缩减处理后 的第一特征图,或所述第二特征图为通过所述第二神经网络对所述通道缩减处理后的第一 特征图进行处理得到的特征图。
第五方面,本申请提供一种编码装置,所述编码装置包括:处理模块,用于对原始图 像进行特征提取得到初始特征图,所述初始特征图包括多个通道的二维特征图,所述初始 特征图的分辨率小于所述原始图像的分辨率;编码模块,用于对待编码特征图进行编码得 到码流,所述待编码特征图为所述初始特征图,或包括所述初始特征图中部分通道的二维 特征图。
第六方面,本申请提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个计算机程序或指令;当所述一个或多个计算机程序或指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面至第三方面中任一项所述的方法。
第七方面,本申请提供一种电子设备,包括:处理器,用于执行如第一方面至第三方 面中任一项所述的方法。
第八方面,本申请提供一种计算机可读存储介质,其特征在于,包括计算机程序或指 令,所述计算机程序或指令在计算机上被执行时,使得所述计算机执行第一方面至第三方 面中任一项所述的方法。
附图说明
图1为本申请实施例提供的一种译码系统10的示例性框图;
图2为本申请实施例提供的一种基于深度学习的视频编解码的网络示意图;
图3为本申请实施例提供的一种基于深度学习的端到端的视频编解码的网络结构示 意图;
图4为本申请实施例提供的一种编解码方法的过程400的流程示意图;
图5为本申请实施例提供的一种第一神经网络和第二神经网络的结构示意图;
图6为本申请实施例提供的另一种第一神经网络和第二神经网络的结构示意图;
图7为本申请实施例提供的一种通道缩减的流程示意图;
图8为本申请实施例提供的另一种编解码方法的过程500的流程示意图;
图9为本申请实施例提供的再一种编解码方法的过程600的流程示意图;
图10为本申请实施例提供的另一种编解码方法的过程700的流程示意图;
图11为本申请实施例提供的一种神经网络的结构示意图;
图12为本申请实施例提供的另一种神经网络的结构示意图;
图13为本申请实施例提供的另一种通道缩减的流程示意图;
图14为本申请实施例提供的一种编解码流程示意图;
图15为本申请实施例提供的一种特征提取模块的网络结构示意图;
图16为本申请实施例提供的一种重建模块的网络结构示意图;
图17为本申请实施例提供的一种解码端的流程示意图;
图18为本申请实施例提供的一种重建网络的结构示意图;
图19为本申请实施例提供的另一种重建网络的结构示意图;
图20为本申请实施例提供的一种通道缩减的流程示意图;
图21为本申请实施例提供的另一种通道缩减的流程示意图;
图22为本申请实施例提供的再一种通道缩减的流程示意图;
图23为本申请实施例提供的一种解码装置的框图;
图24为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地 描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请 中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例, 都属于本申请保护的范围。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系, 例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
本申请实施例的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同 的对象,而不是用于描述对象的特定顺序。例如,第一范围和第二范围等是用于区别不同 的范围,而不是用于描述范围的特定顺序。
在本申请实施例中,“在一种示例中”、“示例地”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“在一种示例中”、“示例地”或者“例如” 的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切 而言,使用“在一种示例中”、“示例地”或者“例如”等词旨在以具体方式呈现相关概 念。
在本申请实施例的描述中,除非另有说明,“至少一个”的含义是指一个或多个,“多 个”的含义是指两个或两个以上。例如,多个处理单元是指两个或两个以上的处理单元; 多个系统是指两个或两个以上的系统。
本申请实施例提供一种基于人工智能(artificial intelligence,AI)的视频压缩/解压缩 技术,尤其是提供一种基于神经网络的视频压缩/解压缩技术,具体提供一种编解码技术, 该编解码技术可以包括熵编解码技术。
视频编解码包括视频编码和视频解码两部分。视频编码在源侧(或通常称为编码器侧) 执行,通常包括处理(例如,压缩)原始图像以减少表示该原始图像所需的数据量(从而 更高效存储和/或传输)。视频解码在目的地侧(或通常称为解码器侧)执行,通常包括相对于编码器侧作逆处理,以重建原始图像。实施例涉及的视频的“编解码”应理解为视频 的“编码”或“解码”。
视频编解码通常是指处理形成视频或视频序列的图像序列。在视频编解码领域,术语 “图像(picture)”、“帧(frame)”或“图片(image)”可以用作同义词。
图1为本申请实施例提供的一种译码系统的示例性框图,例如可以利用本申请技术的 视频译码系统10(或简称为译码系统10)。视频译码系统10中的视频编码器20(或简称为编码器20)和视频解码器30(或简称为解码器30)代表可用于根据本申请中描述的各 种示例执行各技术的设备等。
如图1所示,译码系统10包括源设备12,源设备12用于将编码图像等编码图像数据21提供给用于对编码图像数据21进行解码的目的设备14。
源设备12包括编码器20,另外即可选地,可包括图像源16、图像预处理器等预处理器(或预处理单元)18、通信接口(或通信单元)22。
图像源16可包括或可以为任意类型的用于捕获现实世界图像等的图像捕获设备,和/ 或任意类型的图像生成设备,例如用于生成计算机动画图像的计算机图形处理器或任意类 型的用于获取和/或提供现实世界图像、计算机生成图像(例如,屏幕内容、虚拟现实(virtual reality,VR)图像和/或其任意组合(例如增强现实(augmented reality,AR)图像)的设 备。所述图像源可以为存储上述图像中的任意图像的任意类型的内存或存储器。
为了区分预处理器(或预处理单元)18执行的处理,图像(或图像数据)17也可称为原始图像(或原始图像数据)17。
预处理器18用于接收原始图像数据17,并对原始图像数据17进行预处理,得到预处理图像(或预处理图像数据)19。例如,预处理器18执行的预处理可包括修剪、颜色 格式转换(例如从RGB转换为YCbCr)、调色或去噪。可以理解的是,预处理单元18可 以为可选组件。
视频编码器(或编码器)20用于接收预处理图像数据19并提供编码图像数据21。
源设备12中的通信接口22可用于:接收编码图像数据21并通过通信信道13向目的设备14等另一设备或任何其它设备发送编码图像数据21(或其它任意处理后的版本), 以便存储或直接重建。
源设备12还可以包括存储器(图1未示出),存储器可以用于存储以下至少一种数据:原始图像数据17、预处理图像(或预处理图像数据)19和编码图像数据21。
目的设备14包括解码器30,另外即可选地,可包括通信接口(或通信单元)28、后处理器(或后处理单元)32和显示设备34。
目的设备14中的通信接口28用于直接从源设备12或从存储设备等任意其它源设备 接收编码图像数据21(或其它任意处理后的版本),例如,存储设备为编码图像数据存储设备,并将编码图像数据21提供给解码器30。
通信接口22和通信接口28可用于通过源设备12与目的设备14之间的直连通信链路,例如直接有线或无线连接等,或者通过任意类型的网络,例如有线网络、无线网络或 其任意组合、任意类型的私网和公网或其任意类型的组合,发送或接收编码图像数据(或 编码数据)21。
例如,通信接口22可用于将编码图像数据21封装为报文等合适的格式,和/或使用任意类型的传输编码或处理来处理所述编码后的图像数据,以便在通信链路或通信网络上进行传输。
通信接口28与通信接口22对应,例如,可用于接收传输数据,并使用任意类型的对应传输解码或处理和/或解封装对传输数据进行处理,得到编码图像数据21。
通信接口22和通信接口28均可配置为如图1中从源设备12指向目的设备14的对应通信信道13的箭头所指示的单向通信接口,或双向通信接口,并且可用于发送和接收消 息等,以建立连接,确认并交换与通信链路和/或例如编码后的图像数据传输等数据传输相关的任何其它信息,等等。
视频解码器(或解码器)30用于接收编码图像数据21并提供解码图像数据(或解码图像数据)31(下面将根据图3等进一步描述)。
后处理器32用于对解码后的图像等解码图像数据31(也称为重建后的图像数据)进 行后处理,得到后处理后的图像等后处理图像数据33。后处理单元32执行的后处理可以包括例如颜色格式转换(例如从YCbCr转换为RGB)、调色、修剪或重采样,或者用于 产生供显示设备34等显示的解码图像数据31等任何其它处理。
显示设备34用于接收后处理图像数据33,以向用户或观看者等显示图像。显示设备 34可以为或包括任意类型的用于表示重建后图像的显示器,例如,集成或外部显示屏或显 示器。例如,显示屏可包括液晶显示器(liquid crystal display,LCD)、有机发光二极管 (organic light emitting diode,OLED)显示器、等离子显示器、投影仪、微型LED显示器、 硅基液晶显示器(liquid crystal on silicon,LCoS)、数字光处理器(digital lightprocessor, DLP)或任意类型的其它显示屏。
目的设备14还可以包括存储器(图1未示出),存储器可以用于存储以下至少一种数据:编码图像数据21、解码图像数据31和后处理图像数据33。
译码系统10还包括训练引擎25,训练引擎25用于训练编码器20,以处理输入图像或图像区域或图像块,得到输入图像或图像区域或图像块的特征图,以及获取特征图的估计概率分布,并根据估计概率分布对特征图进行编码。
训练引擎25还用于训练解码器30,以获取码流的估计概率分布,根据估计概率分布 对码流进行解码得到特征图,并对特征图进行重建得到重建图像。
尽管图1示出了源设备12和目的设备14作为独立的设备,但设备实施例也可以同时 包括源设备12和目的设备14或同时包括源设备12和目的设备14的功能,即同时包括源设备12或对应功能和目的设备14或对应功能。在这些实施例中,源设备12或对应功能 和目的设备14或对应功能可以使用相同硬件和/或软件或通过单独的硬件和/或软件或其 任意组合来实现。
根据描述,图1所示的源设备12和/或目的设备14中的不同单元或功能的存在和(准 确)划分可能根据实际设备和应用而有所不同,这对技术人员来说是显而易见的。
近年来,将深度学习(deep learning)应用于视频编解码领域逐渐成为一种趋势。深度 学习是指通过机器学习的算法,在不同的抽象层级上进行多个层次的学习。于深度学习的 视频编解码也可称为AI视频编解码或基于神经网络的视频编解码。由于本申请实施例涉 及神经网络的应用,为了便于理解,下面先对本申请实施例所使用到的一些名词或术语进 行解释说明,该名词或术语也作为发明内容的一部分。
(1)神经网络(neural network,NN)
神经网络是机器学习模型,神经网络可以是由神经单元组成的,神经单元可以是指以 xs和截距1为输入的运算单元,该运算单元的输出可以为:
Figure BDA0003190805990000091
其中,s=1、2、……n,n为大于1的自然数,Ws为xs的权重,b为神经单元的偏置。 f为神经单元的激活函数(activation functions),用于将非线性特性引入神经网络中,来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连,来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。
(2)深度神经网络
深度神经网络(deep neural network,DNN),也称多层神经网络,可以理解为具有很 多层隐含层的神经网络,这里的“很多”并没有特别的度量标准。从DNN按不同层的位 置划分,DNN内部的神经网络可以分为三类:输入层,隐含层,输出层。一般来说第一层 是输入层,最后一层是输出层,中间的层数都是隐含层。层与层之间是全连接的,也就是 说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来 很复杂,但是就每一层的工作来说,其实并不复杂,简单来说就是如下线性关系表达式:
Figure BDA0003190805990000101
其中,
Figure BDA0003190805990000102
是输入向量,
Figure BDA0003190805990000103
是输出向量,
Figure BDA0003190805990000104
是偏移向量,W是权重矩阵(也称 系数),α()是激活函数。每一层仅仅是对输入向量
Figure BDA0003190805990000105
经过如此简单的操作得到输出向量
Figure BDA0003190805990000106
由于DNN层数多,则系数W和偏移向量
Figure BDA0003190805990000107
的数量也就很多了。这些参数在DNN中的定义 如下所述:以系数W为例:假设在一个三层的DNN中,第二层的第4个神经元到第三层 的第2个神经元的线性系数定义为
Figure BDA0003190805990000108
上标3代表系数W所在的层数,而下标对应的是 输出的第三层索引2和输入的第二层索引4。总结就是:第L-1层的第k个神经元到第L 层的第j个神经元的系数定义为
Figure BDA0003190805990000109
需要注意的是,输入层是没有W参数的。在深度神经 网络中,更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言,参数越多 的模型复杂度越高,“容量”也就越大,也就意味着它能完成更复杂的学习任务。训练深 度神经网络的也就是学习权重矩阵的过程,其最终目的是得到训练好的深度神经网络的所 有层的权重矩阵(由很多层的向量W形成的权重矩阵)。
(3)卷积神经网络(convolutional neuron network,CNN)
卷积神经网络是一种深度学习架构,是图像处理、分析领域中的典型方法。卷积神经 网络至少包含卷积层,还可能包含激活层、池化层(Pooling Layer)、批量归一化层(Batch Normalization Layer,BN)、全连接层(Fully Connected Layer,FC)等其它功能模块。其 中,激活层可以为线性整流单元(Rectified Linear Unit,ReLU)、参数化线性整流单元 (Parametric Rectified Linear Unit,PReLU)等。典型的卷积神经网络如LeNet、AlexNet、 超分辨率测试序列网络(visual geometry group network,VGGNet)、深度残差网络(Deep residual network,ResNet)、Yolo(You Only Look Once)、Faster RCNN(Region with CNN feature)、遮掩RCNN(Mask RCNN)以及ASLFeat等。
基本的卷积神经网络可由主干网络(Backbone Network)和头部网络(HeadNetwork) 构成,如物体识别(Object Recognition)中的AlexNet;而一些复杂的CNN,如目标检测 领域的带有特征金字塔结构的Faster RCNN网络由主干网络、脖子网络(NeckNetwork) 和头部网络几个部分网络构成。
主干网络是卷积神经网络的第一部分,其功能为对输入图像提取多个尺度的特征图, 通常由卷积层、池化层、激活层等构成,不含有全连接层。通常,主干网络中较靠近输入图像的层输出的特征图分辨率(宽、高)较大,但通道数较少。典型的主干网络有VGG- 16、ResNet-50以及ResNet-101等。主干网络可以细分成主干网络前部和主干网络核心部 分两个部分。主干网络前部,即主干网络靠近输入的若干层,也被称为茎(stem),它通 常包括少量的卷积层,也可能包括池化层等其它形态的层;它将输入信号初步处理,完成 空间分辨率的减少和通道数的提升,例如ResNet-50中输入侧是由7×7卷积核的卷积层 和最大化池化层(Max Pool)构成的结构。除了主干网络前部之外的其它部分是主干网络 核心部分,主干网络核心部分通常包含较多数量的卷积层和一些串联在一起的具有相同或 相似结构的网络子模块,例如ResNet中的残差块结构(Resblock)。
脖子网络是卷积神经网络的中间部分,其功能为对主干网络产生的特征图进一步整合 处理,得到新的特征图。常见的脖子网络如特征金字塔网络(Feature PyramidNetworks, FPN)。
头部网络是卷积神经网络的最后部分,其功能为处理特征图得到神经网络输出的预测 结果。常见的头部网络包含全连接层、归一化指数函数(Softmax)模块等。
瓶颈结构(Bottleneck Structure)是一种多层网络结构,网络的输入数据先经过1层或 多层神经网络层,得到中间数据,中间数据再经过1层或多层神经网络层得到输出数据, 其中中间数据的数据量(即宽、高和通道数的乘积)低于输入数据量和输出数据量。
特征图是卷积神经网络中卷积层、激活层、池化层、批量归一化层等层输出的三维数 据,其三个维度分别称为宽(Width)、高(Height)、通道(Channel)。特征图可以为M ×W×H,表示该特征图包括M个通道的分辨率为W×H的二维特征图,W表示宽,H表 示高。示例地,当原始图像为RGB格式时,R表示红色(Red),G表示绿色(Green), B表示蓝色(Blue),特征图可以包括R、G和B三个通道。当原始图像为YUV格式(例 如YUV444格式)时,Y表示明亮度(Luminance),U表示色度(Chrominance),V表 示色相(hue),V表示色饱和度(saturation),特征图可以包括Y、U和V三个通道。
其中,卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。卷积层可以 包括很多个卷积算子,卷积算子也称为核,其在图像处理中的作用相当于一个从输入图像 矩阵中提取特定信息的过滤器,卷积算子本质上可以是一个权重矩阵,这个权重矩阵通常 被预先定义,在对图像进行卷积操作的过程中,权重矩阵通常在输入图像上沿着水平方向 一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进 行处理,从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相 关,需要注意的是,权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相 同的,在进行卷积运算的过程中,权重矩阵会延伸到输入图像的整个深度。因此,和一个 单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出,但是大多数情况下不使 用单一权重矩阵,而是应用多个尺寸(行×列)相同的权重矩阵,即多个同型矩阵。每个 权重矩阵的输出被堆叠起来形成卷积图像的纵深维度,这里的维度可以理解为由上面所述 的“多个”来决定。不同的权重矩阵可以用来提取图像中不同的特征,例如一个权重矩阵 用来提取图像边缘信息,另一个权重矩阵用来提取图像的特定颜色,又一个权重矩阵用来 对图像中不需要的噪点进行模糊化等。该多个权重矩阵尺寸(行×列)相同,经过该多个尺寸相同的权重矩阵提取后的特征图的尺寸也相同,再将提取到的多个尺寸相同的特征图合并形成卷积运算的输出。这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到,通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取信息,从而使得卷积神经网络进行正确的预测。当卷积神经网络有多个卷积层的时候,初始的卷积层往往提取较多的一般特征,该一般特征也可以称之为低级别的特征;随着卷积神经网络深度的加深,越往后的卷积层提取到的特征越来越复杂,比如高级别的语义之类的特征,语义越高的特征越适用于待解决的问题。
由于常常需要减少训练参数的数量,因此卷积层之后常常需要周期性的引入池化层, 可以是一层卷积层后面跟一层池化层,也可以是多层卷积层后面接一层或多层池化层。在 图像处理过程中,池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化 算子和/或最大池化算子,以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子 可以在特定范围内对图像中的像素值进行计算产生平均值作为平均池化的结果。最大池化 算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外,就像卷积层 中用权重矩阵的大小应该与图像尺寸相关一样,池化层中的运算符也应该与图像的大小相 关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸,池化层输出的 图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。
在经过卷积层/池化层的处理后,卷积神经网络还不足以输出所需要的输出信息。因为 如前所述,卷积层/池化层只会提取特征,并减少输入图像带来的参数。然而为了生成最终 的输出信息(所需要的类信息或其他相关信息),卷积神经网络需要利用神经网络层来生 成一个或者一组所需要的类的数量的输出。因此,在神经网络层中可以包括多层隐含层(例 如激活层、BN层和/或FC层),该多层隐含层中所包含的参数可以根据具体的任务类型 的相关训练数据进行预先训练得到,例如该任务类型可以包括图像识别,图像分类,图像 超分辨率重建等等。
可选的,在神经网络层中的多层隐含层之后,还包括整个卷积神经网络的输出层,该 输出层具有类似分类交叉熵的损失函数,具体用于计算预测误差,一旦整个卷积神经网络 的前向传播完成,反向传播就会开始更新前面提到的各层的权重值以及偏差,以减少卷积 神经网络的损失,及卷积神经网络通过输出层输出的结果和理想结果之间的误差。
神经网络需要通过训练确定神经网络各层的参数。训练的过程中,使用前向损失计算 加反向梯度传播的方式,更新神经网络中的可训练参数。通过多次参数更新,最终使得神 经网络各层的参数收敛到较优的分析精度。当训练完毕后,通常固定网络各层的参数,将 输入信号通过神经网络得到结果,这个实际使用神经网络的过程称为“推理”。
(4)循环神经网络
循环神经网络(recurrent neural networks,RNN)是用来处理序列数据的。在传统的神 经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,而对于每一层 层内之间的各个节点是无连接的。这种普通的神经网络虽然解决了很多难题,但是却仍然 对很多问题却无能无力。例如,你要预测句子的下一个单词是什么,一般需要用到前面的 单词,因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路,即一个序 列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应 用于当前输出的计算中,即隐含层本层之间的节点不再无连接而是有连接的,并且隐含层 的输入不仅包括输入层的输出还包括上一时刻隐含层的输出。理论上,RNN能够对任何 长度的序列数据进行处理。对于RNN的训练和对传统的CNN或DNN的训练一样。同样 使用误差反向传播算法,不过有一点区别:即,如果将RNN进行网络展开,那么其中的 参数,如W,是共享的;而如上举例上述的传统神经网络却不是这样。并且在使用梯度下 降算法中,每一步的输出不仅依赖当前步的网络,还依赖前面若干步网络的状态。该学习 算法称为基于时间的反向传播算法(Back propagation Through Time,BPTT)。
(5)损失函数
在训练深度神经网络的过程中,因为希望深度神经网络的输出尽可能的接近真正想要 预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的 差异情况来更新每一层神经网络的权重向量(当然,在第一次更新之前通常会有初始化的 过程,即为深度神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调 整权重向量让它预测低一些,不断的调整,直到深度神经网络能够预测出真正想要的目标 值或与真正想要的目标值非常接近的值。因此,就需要预先定义“如何比较预测值和目标 值之间的差异”,这便是损失函数(loss function)或目标函数(objective function),它们 是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出 值(loss)越高表示差异越大,那么深度神经网络的训练就变成了尽可能缩小这个loss的 过程。
(6)反向传播算法
卷积神经网络可以采用误差反向传播(back propagation,BP)算法在训练过程中修正 初始的超分辨率模型中参数的大小,使得超分辨率模型的重建误差损失越来越小。具体地, 前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新初始的超 分辨率模型中参数,从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播 运动,旨在得到最优的超分辨率模型的参数,例如权重矩阵。
(7)生成式对抗网络
生成式对抗网络(generative adversarial networks,GAN)是一种深度学习模型。该模 型中至少包括两个模块:一个模块是生成模型(Generative Model),另一个模块是判别模 型(Discriminative Model),通过这两个模块互相博弈学习,从而产生更好的输出。生成 模型和判别模型都可以是神经网络,具体可以是深度神经网络,或者卷积神经网络。GAN 的基本原理如下:以生成图片的GAN为例,假设有两个网络,G(Generator)和D(Discriminator),其中G是一个生成图片的网络,它接收一个随机的噪声z,通过这个 噪声生成图片,记做G(z);D是一个判别网络,用于判别一张图片是不是“真实的”。它 的输入参数是x,x代表一张图片,输出D(x)代表x为真实图片的概率,如果为1,就 代表100%是真实的图片,如果为0,就代表不可能是真实的图片。在对该生成式对抗网络 进行训练的过程中,生成网络G的目标就是尽可能生成真实的图片去欺骗判别网络D,而 判别网络D的目标就是尽量把G生成的图片和真实的图片区分开来。这样,G和D就构 成了一个动态的“博弈”过程,也即“生成式对抗网络”中的“对抗”。最后博弈的结果, 在理想的状态下,G可以生成足以“以假乱真”的图片G(z),而D难以判定G生成的 图片究竟是不是真实的,即D(G(z))=0.5。这样就得到了一个优异的生成模型G,它 可以用来生成图片。
图2为本申请实施例提供的一种基于深度学习的视频编解码的网络示意图,图2以熵 编解码为例进行说明。该网络包括特征提取模块、特征量化模块、熵编码模块,熵解码模块,特征反量化模块以及特征解码(或图像重建)模块。
在编码端,将原始图像输入特征提取模块,特征提取模块通过堆叠多层卷积以及结合 非线性映射激活函数,输出提取后的原始图像的特征图。特征量化模块将特征图中浮点数 的特征值进行量化,得到量化后的特征图。量化后的特征图经过熵编码,得到码流。
在解码端,熵解码模块解析码流,得到量化的特征图。特征反量化模块将量化的特征 图中整数的特征值进行反量化,得到反量化后的特征图。反量化后的特征图经过特征解码 模块的重建后,得到重建图像。
其中,该网络也可以不包括特征量化模块和特征反量化模块。此时网络可以直接对特 征图为浮点数的特征图进行一系列处理。或者可以对网络进行整型化处理,以使特征提取 模块输出的特征图中的特征值均为整数。
图3为本申请实施例提供的一种基于深度学习的端到端的视频编解码的网络结构示 意图,图3以熵编解码为例进行说明。该神经网络包括特征提取模块ga,量化模块Q、边信息提取模块ha、熵编码模块、熵解码模块、概率估计模块hs以及重建模块gs。熵编码可 以为自动编码器(Auto-Encoders,AE),熵解码可以为自动解码器(Auto-Dncoders,AD)。
其中,ga包括穿插级联的四个卷积层和三个归一化层,该归一化层可以包括GDN(generalized divisive normalization)层。ga中四个卷积层的卷积核均为5×5,步长均为2, 第一层至第三层卷积层的输出通道数为N,最后一层卷积层的输出通道数为M。在本申请 实施例中,步长用于控制输入到卷积层的图像或特征图的分辨率。当步长为1时,卷积层控制输入的图像或特征图的分辨率保持不变;当步长大于1时,卷积层将步长作为采样倍率对输入的图像或特征图进行上采样或下采样。ga中各个卷积层用于对输入的图像或特征图的分辨率进行2倍的下采样。此外,输出通道数用于控制卷积层输出的图像或特征图的通道数,ga输出的原始图像的特征图的通道数为M。
ha包括穿插级联的三个卷积层、两个激活层和一个abs层。ha中第一层卷积层的卷积 核为3×3,步长为1,输出通道数为N。ha中第二层卷积层和第三层卷积层的卷积核均为5×5,步长均为2,输出通道数均为N。hs包括穿插级联的三个卷积层和三个激活层。hs中第一层卷积层和第二层卷积层的卷积核均为5×5,步长均为2,输出通道数均为N。hs中第三层卷积层的卷积核为3×3,步长为1,输出通道数为M。gs包括穿插级联的四个卷 积层和三个逆归一化层,逆归一化层可以包括IGDN层,ga中四个卷积层的卷积核均为5 ×5,步长均为2,第一层至第三层卷积层的输出通道数为N,最后一层卷积层的输出通道 数为3。
在编码端,将原始图像x输入ga,ga输出原始图像的特征图y。一方面,将该特征图 y输入Q,Q输出量化后的特征图,将量化后的特征图输入熵编码模块。另一方面,将特 征图y输入ha,ha输出边信息z。将边信息z输入Q,Q输出量化后的边信息。量化后的 边信息经过熵编码模块得到边信息的码流,再经过熵解码模块得到解码后的边信息。将解 码后的边信息输入hs,hs输出量化后的特征图中每个特征元素[x][y][i]的概率分布,将每个 特征元素的概率分布输入熵编码模块。熵编码模块根据每个特征元素的概率分布对输入的 每个特征元素进行熵编码得到超先验码流。
其中,边信息z是一种特征信息,表示为一个三维特征图,其包含的特征元素数量比 特征图y少。特征图y和量化后的特征图的通道数均为M,分辨率均为W×H,M与ga中最后一层卷积层的输出通道数相同,W和H与原始图像的宽和高以及ga中每个卷积层 的步长有关。如图3所示,ga对原始图像进行了4次倍率为2的下采样,假设特征图y或 量化后的特征图的分辨率为W×H,则原始图像的分辨率为24W×24H。
在解码端,熵解码模块解析边信息的码流得到边信息,将边信息输入hs,hs输出待解 码符号中每个特征元素[x][y][i]的概率分布。将每个特征元素[x][y][i]的概率分布输入熵解 码模块。熵解码模块根据每个特征元素的概率分布对每个特征元素进行熵解码得到解码后 的特征图。将解码后的特征图输入gs,gs输出重建图像。
此外,有些变分自动编码器(Variational Auto Encoder,VAE)的概率估计模块中还利 用到当前特征元素周围已编码或已解码的特征元素,以更准确地估计当前特征元素的概率 分布。
需要说明的是,图2和图3所示的网络结构仅为示例性说明,本申请实施例对网络中 包括的模块以及模块的结构均不做限定。
数字视频应用的部分操作中需要显示原始图像的缩略图,以在显示界面中显示数量较 多的图像。相关技术中先对接收到的原始图像的码流进行解码和重建,得到原始图像。之 后对原始图像的分辨率进行缩小,得到原始图像的缩略图。即获取缩略图的过程中均需要 先重建得到原始分辨率的图像,重建得到原始分辨率的图像的复杂度较高,导致获取原始 图像的缩略图的方式耗时较长,从而影响数字视频应用显示原始图像的缩略图的速度。例 如对于相册应用,需要同时显示多个图像的缩略图,导致显示界面无法及时刷新,从而影 响相册应用的显示效果。
本申请实施例提供了一种编解码方法,请参考图4,图4为本申请实施例提供的一种 编解码方法的过程400的流程示意图。过程400可由电子设备(包括编码器和解码器)执行,具体地,过程400可由电子设备通过调用神经网络模型实现执行。过程400描述为一 系列的操作,应当理解的是,过程400可以以各种顺序执行和/或同时发生,不限于图4所 示的执行顺序。过程400可以包括以下过程:
401、编码器对原始图像进行特征提取得到初始特征图,初始特征图的分辨率小于原 始图像的分辨率。
编码器可以将原始图像输入基于深度学习的网络中的特征提取模块,特征提取模块通 过堆叠多层卷积以及结合非线性映射激活函数,输出提取后的初始特征图。
可选地,特征提取模块可以参考前述图2和图3。以图3为例,该特征提取模块可以包括穿插级联的四个卷积层和三个归一化层。每层卷积层的卷积核大小均为5x5,步长均为2,即每层卷积层对输入的原始图像或特征图的分辨率进行2倍下采样(对宽和高分别 进行2倍下采样)。前三层卷积层的输出通道数为N,最后一层卷积层的输出通道数为M。
假设原始图像的分辨率为W×H,将原始图像输入特征提取模块后,第一层卷积层对 原始图像的分辨率进行2倍的下采样,输出特征图通道数为N,分辨率为W/2×H/2的特征图。第二层卷积层对第一层卷积层输出的特征图的分辨率进行2倍的下采样,输出通道数为N,分辨率为W/4×H/4的特征图。第三层卷积层对第二层卷积层输出的特征图的分 辨率进行2倍的下采样,输出通道数为N,分辨率为W/8×H/8的特征图。最后一层卷积 层对第三层卷积层输出的特征图的分辨率进行2倍的下采样,输出通道数为M,分辨率为 W/16×H/16的初始特征图。也即是初始特征图包括M个通道的分辨率为W/16×H/16的 二维特征图。
需要说明的是,前述图3所示的特征提取模块仅为示例性说明,本申请实施例对特征 提取模块的结构、各个层的连接关系、卷积层的数量以及任一卷积层的步长、卷积核和输 出通道数等均不做具体限定。此外,任意两层卷积层的以下至少一种参数可以相同:步长、 卷积核以及输出通道数。示例地,任一卷积层的卷积核还可以为3×3、7×7或9×9等,步长还可以为1、1.5、3、3.2、4或5等,输出通道数可以为1、2、5或8等。特征提取 模块可以不包括归一化层,或者特征提取模块还可以包括至少一个激活层和/或池化层等
402、编码器对第一特征图进行编码得到码流,第一特征图为初始特征图,或第一特 征图包括初始特征图中部分通道的二维特征图。
初始通道图包括多个通道的二维特征图,当第一特征图包括初始特征图中部分通道的 二维特征图时,编码器无需对初始特征图中所有通道的二维特征图进行编码。这样可以减 少后续编码后的码流的数据量,从而减小码流传输至解码器侧的通信开销。
示例地,假设初始特征图包括M个通道的二维特征图,第一特征图可以包括M1个通道的二维特征图,M1≤M。当M1<M时,第一特征图可以包括M个通道中任意M1个 通道的二维特征图,也可以包括M个通道中前M1个通道或者后M1个通道的二维特征 图,本申请实施例对此不做限定。
第一特征图包括多个特征元素,编码器对每个特征元素进行编码得到码流。可选地, 可以基于概率分布模型对第一特征图进行编码,或采用超先验(hyper prior)熵编码方式 对第一特征图进行编码。
在一种实现方式中,基于概率分布模型对第一特征图进行编码。先根据概率分布模型 建模,再获取待编码特征元素的上下文信息。根据上下文信息获取待编码特征元素的概率 分布,之后根据待编码特征元素的概率分布对待编码特征元素进行编码。对第一特征图中 每个特征元素均执行前述过程后,得到码流。其中,上下文信息可以包括第一特征图中与 待编码特征元素相邻的已编码的特征元素。
其中,概率分布模型包括以下至少一种:单高斯模型(Gaussian single model,GSM)、 非对称高斯模型、混合高斯模型(Gaussian mixture model,GMM)和拉普拉斯分布模型 (Laplace distribution)。
编码器可以调用神经网络模型基于概率分布模型对第一特征图进行编码。示例地,可 以将上下文信息输入概率估计网络,概率估计网络输出待编码特征元素的模型参数。将模 型参数输入概率分布模型,概率分布模型输出待编码特征元素的概率分布。概率估计网络 可以包括基于深度学习的神经网络,例如RNN和CNN等。
在第二种实现方式中,采用超先验熵编码方式对第一特征图进行编码。先从第一特征 图中提取边信息,对提取到的边信息进行量化处理,再依次对量化后的边信息进行熵编码 和熵解码,得到解码后的边信息。根据解码后的边信息获取待编码特征元素的概率分布, 之后根据待编码特征元素的概率分布对待编码特征元素进行熵编码。对第一特征图中每个 特征元素均执行前述过程后,得到码流。
编码器可以调用神经网络模型采用超先验熵编码方式对第一特征图进行编码。可选地, 可以将第一特征图输入边信息提取模块,边信息提取模块输出边信息。将边信息输入概率 估计网络,概率估计网络输出待编码特征元素的模型参数。边信息提取模块和概率估计网 络可以参考前述图3对应的描述,本申请实施例在此不做赘述。
在对第一特征图进行编码之前,可以先对第一特征图进行量化处理,得到量化后的第 一特征图。再对量化后的第一特征图进行编码得到码流。如前述图2或图3所示,可以通 过量化模块对第一特征图进行量化处理。
示例地,量化处理过程包括:对第一特征图中的每个特征元素(或者称为特征值)进 行量化,将浮点数的特征元素整数化得到整数的特征元素。可选地,可以将浮点数的特征 元素进行四舍五入得到整数的特征元素,或者将浮点数的特征元素进行截断得到整数的特 征元素,或者根据预设的量化步长得到整数的特征元素,本申请实施例对量化处理过程不 做限定。
403、编码器向解码器发送码流。
如前述实施例所述,编码器和解码器具有建立有通信连接的通信接口,编码器可以通 过通信接口向解码器的通信接口发送码流。
404、解码器对码流进行解码得到第一特征图。
该码流对应第一特征图,即码流对应第一特征图包括的多个通道的二维特征图。解码 器可以对码流中包括的每个特征元素对应的码流进行解码得到第一特征图。
解码过程与编码过程对应。对应前述基于概率分布模型的编码方式,解码器获取待解 码特征元素对应的码流的上下文信息,根据上下文信息获取待解码特征元素对应的码流的 概率分布,之后根据该概率分布对待解码特征元素对应的码流进行解码。对多个通道中每 个特征元素对应的码流均执行前述过程后,得到第一特征图。
当编码器调用神经网络模型基于概率分布模型对第一特征图进行编码时,解码器也可 以调用神经网络模型对码流进行解码。示例地,可以将待解码特征元素对应的码流的上下 文信息输入与编码器侧相同的概率估计网络,概率估计网络输出待解码特征元素对应的码 流的模型参数。将模型参数输入与编码器侧相同的概率分布模型,概率分布模型输出待解 码特征元素对应的码流的概率分布。概率分布模型和概率估计网络均可以参考过程402, 本申请实施例在此不做赘述。
对应前述超先验熵编码方式,解码器先对边信息的码流进行熵解码得到边信息,根据 熵解码后的边信息获取待解码特征元素对应的码流的概率分布,之后根据该概率分布对待 解码特征元素对应的码流进行熵解码。对多个通道中每个特征元素对应的码流均执行前述 过程后,得到第一特征图。
当编码器调用神经网络模型采用超先验熵编码方式对第一特征图进行熵编码时,解码 器也可以调用神经网络模型对码流进行熵解码。示例地,可以将熵解码后的边信息输入与 编码器侧相同的概率估计网络,概率估计网络输出待解码特征元素对应的码流的概率分布。 概率估计网络可以参考过程402,本申请实施例在此不做赘述。
405、解码器根据第一神经网络对第二特征图进行重建,得到重建图像,第二特征图 和重建图像的分辨率均为目标分辨率,目标分辨率小于原始图像的分辨率,第二特征图为 第一特征图、或第二特征图为通过第二神经网络对第一特征图进行处理得到的特征图。
第一神经网络输出的重建图像的分辨率与输入的第二特征图的分辨率相同,均为目标 分辨率。当第二特征图为第一特征图时,目标分辨率等于第一特征图的分辨率。当第二特 征图为对通过第二神经网络对第一特征图进行处理得到的特征图时,目标分辨率大于第一 特征图的分辨率。
可选地,第一神经网络可以包括至少一个卷积层,至少一个卷积层的卷积步长为1。 第一神经网络用于转换输入的特征图的通道数,其数量可以为一个或多个。当第一神经网 络的数量为多个时,任意两个第一神经网络的结构可以相同或不同,本申请实施例对此不 做限定。
第二神经网络用于对第一特征图进行处理得到第二特征图,该处理可以包括卷积操作 和/或反卷积操作,进一步地,处理还可以包括归一化操作。可选地,第二神经网络可以包 括一个或多个输出节点和多个卷积层,输出节点位于第一层卷积层的输出端与最后一层卷 积层的输入端之间,输出节点与第一神经网络的输入端连接。卷积层用于对输入的特征图 进行卷积操作和/或反卷积操作。第一神经网络还可以包括至少一个归一化层,归一化层用 于对输入的特征图进行归一化操作。
如前述过程401所述,编码器侧的特征提取模块用于对原始图像进行特征提取得到初 始特征图,当第一特征图为初始特征图时,第二神经网络能够对第一特征图进行重建得到 原始分辨率的重建图像。因此第二神经网络的结构与编码器侧的特征提取模块的结构相对 应。第二神经网络包括的卷积层对第一特征图的总上采样倍率与图3所示的特征提取模块 包括的卷积层对原始图像的总下采样倍率相同。也即是第二神经网络包括的卷积层对第一 特征图的分辨率的放大总倍数,与图3所示的特征提取模块包括的卷积层对原始图像的分 辨率的缩小总倍数相同。且第二神经网络的最后一层卷积层的输出通道数与原始图像的实 际通道数相同,这样第二神经网络能够实现重建得到原始分辨率的重建图像。
当第一神经网络的数量为一个时,在一种示例中,无需应用第二神经网络,第一神经 网络可以独立存在,此时第二特征图为第一特征图,第一神经网络仅能输出一种分辨率的 重建图像,该一种分辨率即为第一特征图的分辨率。
在另一种示例中,该一个第一神经网络可以与第二神经网络的输入端连接和/或与一 个或多个输出节点连接。此时第二特征图为第一特征图或通过第二神经网络对第一特征图 进行处理得到的特征图,第一神经网络能输出一种或多种分辨率的重建图像。
当第一神经网络的数量为多个时,第二神经网络的输入端和/或每个输出节点连接有 第一神经网络。此时第二特征图为第一特征图或通过第二神经网络对第一特征图进行处理 得到的特征图,第一神经网络能输出多种分辨率的重建图像。
其中,第二神经网络用于对第一特征图进行处理得到第二特征图,第二特征图由输出 节点输出并输入至该输出节点连接的第一神经网络。
以下以第一神经网络的数量为一个或多个,输出节点的数量为多个,且第二神经网络 的输入端以及每个输出节点均与一个第一神经网络的输入端连接例进行说明。
每个输出节点对应一个输出分辨率,第一神经网络输出的重建图像的分辨率可以包括 各个输出节点对应的输出分辨率以及第一特征图的分辨率。为了便于说明,以下将第一神 经网络能够输出的重建图像的所有分辨率称为候选分辨率。解码器可以先确定目标分辨率, 当目标分辨率等于第一特征图的分辨率时,解码器可以直接将第一特征图输入与第二神经 网络的输入端连接的第一神经网络,得到该第一神经网络输出的重建图像。当目标分辨率 不等于第一特征图的分辨率时,解码器可以将输出分辨率为目标分辨率的输出节点确定为 目标输入节点。之后将第一特征图输入第二神经网络,得到第二神经网络的目标输出节点 输出的第二特征图,将从目标输出节点输出的第二特征图输入第一神经网络,得到第一神 经网络输出的重建图像。
当第一神经网络的数量为一个时,直接将目标输出节点输出的第二特征图输入该一个 网络,得到该一个神经网络输出的重建图像。当第一神经网络的数量为多个时,将第二特 征图输入目标输出节点连接的第一神经网络,得到目标输出节点连接的第一神经网络输出 的重建图像。
目标分辨率可以由解码器确定,也可以由解码器外部确定,例如由解码器的外部应用 层或者编码器确定。外部应用层可以参考前述数字视频应用,例如视频播放器、相册以及 网页等。
当目标分辨率由解码器确定时,在一种示例中,解码器可以根据缩略图分辨率确定目 标分辨率。例如,结合本申请实施例,解码器可以将候选分辨率中与缩略图分辨率最接近 的分辨率确定为目标分辨率。缩略图分辨率为最终在解码器的外部应用层显示的缩略图的 分辨率,其可以与目标分辨率相同或不同。
可选地,缩略图分辨率可以由外部应用层或者编码器指示。外部应用层或编码器可以 向解码器发送用于指示缩略图分辨率的标识。当编码器向解码器发送用于指示缩略图分辨 率的标识时,缩略图分辨率的标识可以单独发送或者携带在码流中。本申请实施例对解码 器确定缩略图分辨率的方式不做限定。
在另一种示例中,解码器可以根据各个候选分辨率的重建图像获取过程的复杂度和/ 或功耗约束确定目标分辨率。例如,解码器可以将复杂度最小的重建图像获取过程所对应 的候选分辨率确定为目标分辨率;或者将与外部应用层能够承担的最大复杂度最接近的重 建图像获取过程所对应的候选分辨率确定为目标分辨率。
当目标分辨率由解码器外部确定时,在一种示例中,目标分辨率由外部应用层确定并 向解码器发送。外部应用层可以向解码器发送用于指示目标分辨率的标识,解码器基于目 标分辨率的标识确定目标分辨率。外部应用层可以根据候选分辨率以及缩略图分辨率确定 目标分辨率,也可以根据各个候选分辨率的重建图像获取过程的复杂度和/或功耗约束确 定目标分辨率。候选分辨率可以以补充增强信息(Supplemental EnhancementInformation, SEI)方式位于解码器发送的码流中,或者以文件格式位于应用层中,以使外部应用层获 取到候选分辨率。该确定目标分辨率的过程可以参考前述解码器确定目标分辨率的过程, 本申请实施例在此不做赘述。
在另一种示例中,目标分辨率由编码器确定并向解码器发送。编码器可以向解码器发 送用于指示目标分辨率的标识,解码器基于目标分辨率的标识确定目标分辨率。目标分辨 率的标识可以单独发送或者携带在码流中。该确定目标分辨率的过程可以参考前述解码器 确定目标分辨率的过程,本申请实施例在此不做赘述。
示例地,请参考图5,图5为本申请实施例提供的一种第一神经网络和第二神经网络 的结构示意图,图5以第一神经网络的数量为多个为例进行说明。图5中的第二神经网络的结构可以与图3所示的特征提取模块的结构对应。如图5所示,第二神经网络包括穿插 级联的四个卷积层和三个归一化层。每层卷积层的卷积核大小与图3所示的特征提取模块 中的卷积层的卷积核相同,均为5×5,步长均为2,即每层卷积层对输入的特征图的分辨 率进行2倍上采样(对宽和高分别进行2倍上采样)。前三层卷积层的输出通道数为N, 最后一层卷积层的输出通道数为3。第二神经网络包括三个输出节点a1至a3,a1位于第 一层卷积层的输出端,a2位于第二层卷积层的输出端,a3位于第三层卷积层的输出端。
图5示出了四个第一神经网络b1至b4。b1的输入端与第二神经网络的输入端连接,b2的输入端与a1连接,b3的输入端与a2连接,b4的输入端与a3连接。
图5以b1和b2结构相同,b1、b3和b4结构均不同为例进行说明。b1和b2均包括 两个卷积层,该两个卷积层的卷积核均为5×5,步长均为1。该两个卷积层中第一层卷积 层的输出通道数为N1,最后一层卷积层的输出通道数为P。示例地,P可以为1或3等, 当P为1时,输出的重建图像为灰度图像;当P为3时,输出的重建图像为三通道的彩色 图像。N1>P,N1越大,输入到最后一层卷积层的特征元素越多,能够为最后一层卷积层 提供更多的信息,使得最后一层卷积层输出能够输出质量较好的重建图像。b3包括三个卷 积层,三个卷积层的卷积核均为5×5,步长均为1。b3中第一层卷积层的输出通道数为 N2,第二层卷积层的输出通道数为N3,第三层卷积层的输出通道数为P。b4包括两个卷 积层,两个卷积层的卷积核均为5×5,步长均为1。b4中第一层卷积层的输出通道数为 N4,第二层卷积层的输出通道数为P。由图5所示的第一神经网络和第二神经网络的结构 可知,任意两个神经网络的输入端输入的特征图的分辨率不同。
图5中b1输出的分辨率为第一特征图的分辨率。b2输出的分辨率为:在将第一特征图输入第二神经网络后第一层卷积层输出的特征图的分辨率。b3输出的分辨率为:在将第一特征图输入第二神经网络后第二层卷积层输出的特征图的分辨率。b4输出的分辨率为:在将第一特征图输入第二神经网络后第三层卷积层输出的特征图的分辨率。假设第一特征图的分辨率为W/16×H/16,则b1至b4的输出分辨率分别为W/16×H/16、W/8×H/8、 W/4×H/4和W/2×H/2。
假设第一特征图的通道数为M1,分辨率为W/16×H/16,当确定的目标分辨率为第一 特征图的分辨率时,将第一特征图直接输入b1,b1的第一层卷积层保持第一特征图的分辨率不变,对第一特征图进行通道数转换,输出通道数为N1,分辨率为W/16×H/16的特 征图。b1的第二层卷积层保持输入的特征图的分辨率不变,对输入的特征图进行通道数转换,输出通道数为P,分辨率为W/16×H/16的重建图像。
当根据目标分辨率确定的目标输出节点为a1时,将第一特征图输入第二神经网络, 第二神经网络的第一层卷积层对第一特征图的分辨率进行2倍的上采样,从a1输出通道 数为N,分辨率为W/8×H/8的第二特征图。将第二特征图输入与a1连接的b2,b2的第 一层卷积层和第二层卷积层保持输入的特征图的分辨率不变,依次对输入的特征图进行通道转换,最终输出通道数为P,分辨率为W/8×H/8的重建图像。b2中各个卷积层的输出 可以参考b1,本申请实施例在此不做赘述。
当根据目标分辨率确定的目标输出节点为a2时,将第一特征图输入第二神经网络, 第二神经网络的第一层卷积层和第二层卷积层依次对第一特征图的分辨率进行2倍的上 采样,从a2输出通道数为N,分辨率为W/4×H/4的第二特征图。将第二特征图输入与a2连接的b3,b3的第一层卷积层至第三层卷积层保持输入的特征图的分辨率不变,依次对 输入的特征图进行通道转换,最终输出通道数为P,分辨率为W/4×H/4的重建图像。b3 中各个卷积层的输出可以参考b1,本申请实施例在此不做赘述。
当根据目标分辨率确定的目标输出节点为a3时,将第一特征图输入第二神经网络, 第二神经网络的第一层至第三层卷积层依次对第一特征图的分辨率进行2倍的上采样,输 出通道数为N,分辨率为W/2×H/2的第二特征图。将第二特征图输入与a3连接的b4,b4的第一层卷积层和第二层卷积层保持输入的特征图的分辨率不变,依次对输入的特征图进行通道转换,最终输出通道数为P,分辨率为W/2×H/2的重建图像。
需要说明的是,目标分辨率的数量可以为一个或多个。当目标分辨率的数量为多个时, 且根据多个目标分辨率确定多个输出节点时,可以将第一特征图输入第二神经网络,得到 第二神经网络的多个目标输出节点输出的多个分辨率的第二特征图。之后将每个目标输出 节点输出的第二特征图输入目标输出节点连接的第一神经网络,得到多个目标输出节点分 别连接的第一神经网络输出的多个分辨率的重建图像。
各个输出节点可以并行或串行输出第二特征图,当串行输出第二特征图时,各个输出 节点输出的第二特征图可以共享。如图5所示,假设确定的目标输出节点包括a1、a2和a3,可以将第一特征图依次向第一神经网络输入三次,以使a1、a2和a3基于从第一神经 网络的输入端输入的第一特征图并行输出对应的第二特征图,这样可以提高获取重建图像的效率。
或者可以将第一特征图向第一神经网络输入一次,a1基于从第一神经网络的输入端 输入的第一特征图输出第二特征图之后,a2基于a1输出的第二特征图输出第二特征图,a3可以在a1输出第二特征图后基于a1输出的第二特征图输出第二特征图,也可以在a2 输出第二特征图后基于a2输出的第二特征图输出第二特征图。这样可以减小第二神经网 络的计算次数,进而减小第二神经网络的运算开销。
图5中第一神经网络的结构、第二神经网络的结构以及第一神经网络和第二神经网络 的连接关系均为示例性说明,本申请实施例对此不做限定。示例地,在图5的基础上,任 一神经网络分支还可以包括一个或多个卷积层,多个卷积层可以相同或不同。
示例地,请参考图6,图6为本申请实施例提供的另一种第一神经网络和第二神经网 络的结构示意图,图6以第一神经网络的数量为一个为例进行说明。第二神经网络包括两 个卷积层,该两个卷积层的卷积核均为5×5,步长均为1。第二神经网络的结构可以参考图5以及前述神经网络分支的描述,本申请实施例在此不做赘述。该两个卷积层中第一层卷积层的输出通道数为N1,最后一层卷积层的输出通道数为P。第一神经网络的相关描述可以参考图5对应的描述,本申请实施例在此不做赘述。
如图6所示,第二神经网络包括三个输出节点c1至c3,c1位于第一层归一化层的输出端,c2位于第二层卷积层的输出端,c3位于第三层归一化层的输出端。c1至c3均与第 一神经网络的输入端连接,第二神经网络的输入端还与第一神经网络的输入端连接。
图6中第一神经网络输出的分辨率包括:第一特征图的分辨率,在将第一特征图输入 第二神经网络后第一层归一化层输出的特征图的分辨率,在将第一特征图输入第二神经网 络后第二层卷积层输出的特征图的分辨率。以及在将第一特征图输入第二神经网络后第三 层归一化层输出的特征图的分辨率。假设第一特征图的分辨率为W/16×H/16,则第一神 经网络输出的分辨率包括W/16×H/16、W/8×H/8、W/4×H/4和W/2×H/2。
假设第一特征图的通道数为M1,分辨率为W/16×H/16,当确定的目标分辨率为第一 特征图的分辨率时,将第一特征图直接输入第一神经网络,第一神经网络的第一层卷积层 和第二层卷积层保持输入的特征图的分辨率不变,依次对输入的特征图进行通道转换,最 终输出通道数为P,分辨率为W/16×H/16的重建图像。
当根据目标分辨率确定的目标输出节点为c1时,将第一特征图输入第二神经网络, 第二神经网络的第一层卷积层对第一特征图的分辨率进行2倍的上采样,从c1输出通道 数为N,分辨率为W/8×H/8的第二特征图。将第二特征图输入第一神经网络,第一神经网络最终输出通道数为P,分辨率为W/8×H/8的重建图像,第一神经网络对输入的特征 图的处理过程可以参考前述描述,本申请实施例在此不做赘述。
当根据目标分辨率确定的目标输出点为c2时,将第一特征图输入第二神经网络,第 二神经网络的第一层卷积层和第二层卷积层依次对第一特征图的分辨率进行2倍的上采 样,从c2输出通道数为N,分辨率为W/4×H/4的第二特征图。将第二特征图输入第一神经网络,第一神经网络输出通道数为P,分辨率为W/4×H/4的重建图像,第一神经网络 对输入的特征图的处理过程可以参考前述描述,本申请实施例在此不做赘述。
当根据目标分辨率确定的目标输出点为c3时,将第一特征图输入第二神经网络,第 二神经网络的第一层卷积层至第三层卷积层依次对第一特征图的分辨率进行2倍的上采 样,从c3输出通道数为N,分辨率为W/2×H/2的第二特征图。将第二特征图输入第一神经网络,第一神经网络输出通道数为P,分辨率为W/2×H/2的重建图像,第一神经网络 对输入的特征图的处理过程可以参考前述描述,本申请实施例在此不做赘述。
需要说明的是,第二神经网络是相关技术中用于编解码的网络中已有的神经网络,其 用于生成原始分辨率的重建图像。在第二神经网络的不同位置设置输出节点,利用输出节 点以及现有的第二神经网络即可实现多种目标分辨率的重建图像的生成。该过程中第二神 经网络用于对第一特征图进行处理,在生成不同目标分辨率的重建图像的过程中,各个输 出节点共享第二神经网络中的层。这样能够减小用于生成重建图像的神经网络(包括第一 神经网络和第二神经网络)的大小,减小了用于生成重建图像的神经网络占用解码器的存 储空间,从而降低了用于生成重建图像的神经网络在解码器中的运行开销和运行复杂度。
可选地,在本申请实施例中,在对目标分辨率的特征图进行重建之前,还可以对第一 特征图和/或第二特征图的通道进行缩减,以减少后续的重建过程的复杂度,提高重建过程 的效率。
示例地,第二特征图包括多个通道的二维特征图,可以对第二特征图进行通道缩减处 理。之后对进行通道缩减处理后的第二特征图进行重建,得到重建图像。可以从第二特征 图包括的多个通道的二维特征图中随机提取部分通道的二维特征图,或者提取多个通道中 前几个通道的二维特征图,或者提取多个通道中后几个通道的二维特征图。本申请实施例 对通道缩减处理的方式不做限定。
例如,请参考图7,图7为本申请实施例提供的一种通道缩减的流程示意图,图7以在图5所示的第一神经网络和第二神经网络的基础上进行通道缩减处理为例进行说明,在每个第一神经网络中对第二特征图进行通道缩减处理。如图7所示,在b1中将第二特征 图的通道数由M1缩减为S1,在b2中将第二特征图的通道数由N缩减为S2,在b3中将 第二特征图的通道数由N缩减为S3,在b4中将第二特征图的通道数由N缩减为S4。S1 小于M1,S2、S3和S4均小于N。以a1为例,可以从M1个通道的二维特征图中随机提 取S1个通道的二维特征图,或者可以提取M1个通道中的前S1个通道的二维特征图。其 中,b1中的第二特征图即为第一特征图,M1表示第一特征图的通道数。
又一示例地,第一特征图包括多个通道的二维特征图,可以对第一特征图进行通道缩 减处理。第二特征图为进行通道缩减处理后的第一特征图,或第二特征图为通过第二神经 网络对进行通道缩减处理后的第一特征图进行处理得到的特征图。如前述图7所示,可以 在将第一特征图输入第二神经网络或b1之前对第一特征图进行通道缩减处理,该过程可 以参考前述示例,本申请实施例在此不做赘述。
进一步地,在本申请实施例中,在得到重建图像后,可以直接将目标分辨率的重建图 像输出并显示在外部应用层。或者可以将目标分辨率与缩略图分辨率进行对比,根据对比 结果进行进一步处理。
可选地,当目标分辨率与缩略图分辨率相等时,直接将目标分辨率的重建图像输出并 显示。当目标分辨率与缩略图分辨率不等时,对重建图像进行缩放操作,以使目标分辨率 等于缩略图分辨率,之后将缩放操作后的重建图像输出并显示。缩放操作包括下采样操作 和上采样操作,当目标分辨率小于缩略图分辨率时,可以对重建图像进行上采样操作;当 目标分辨率大于缩略图分辨率时,可以对重建图像进行下采样操作。示例地,上采样操作 可以包括双线性插值上采样,或者直接填充临近位置的像素值进行上采样或者通过步长大 于1的卷积层的反卷积操作实现上采样。下采样操作可以包括双线性插值下采样,直接去 除部分像素值进行下采样或者通过步长小于1的卷积层的卷积操作实现下采样。本申请实 施例上采样和下采样方式不做限定,只要能够将重建图像的分辨率由目标分辨率增大或缩 小为缩略图分辨率即可。
又一可选地,当目标分辨率与缩略图分辨率的差值小于差值阈值时,直接将目标分辨 率的重建图像输出并显示。当目标分辨率与缩略图分辨率的差值大于差值阈值时,对重建 图像进行缩放操作,以使目标分辨率与缩略图分辨率的差值小于差值阈值,之后将缩放操 作后的重建图像输出并显示。缩放操作可以参考前述描述,本申请实施例在此不做赘述。
需要说明的是,将目标分辨率与缩略图分辨率进行对比,根据对比结果进行进一步处 理的过程可以由解码器执行,也可以由解码器的外部模块执行,本申请实施例对此不做限 定。
综上所述,本申请实施例提供的编解码方法,编码器对原始图像进行特征提取得到初 始特征图,对第一特征图进行编码得到码流并向解码器发送码流,解码器对码流进行解码 得到第一特征图,之后根据第一神经网络对第二特征图进行重建,得到重建图像,第二特 征图和重建图像的分辨率均为目标分辨率,目标分辨率小于原始图像的分辨率,第二特征 图包括第一特征图,或第二特征图为通过第二神经网络对原始图像的特征图进行处理得到 的特征图。经过解码和重建得到的重建图像的分辨率小于原始图像的分辨率,在获取重建 图像的过程中无需先重建得到原始图像,而是直接得到重建图像,提高了获取重建图像的 效率,从而提高了数字视频应用显示原始图像的缩略图的速度。
此外,第二神经网络包括一个或多个输出节点,每个输出节点对应一个输出分辨率, 利用输出节点以及第二神经网络即可实现多种目标分辨率的重建图像的生成。该过程中第 二神经网络用于对第一特征图进行处理,在生成不同目标分辨率的重建图像的过程中,各 个输出节点共享第二神经网络中的层。这样能够减小用于生成重建图像的神经网络(包括 第一神经网络和第二神经网络)的大小,减小了用于生成重建图像的神经网络占用解码器 的存储空间,从而降低了用于生成重建图像的神经网络在解码器中的运行开销和运行复杂 度。
本申请实施例提供的方法的先后顺序可以进行适当调整,过程也可以根据情况进行相 应增减。任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化的 方法,都应涵盖在本申请的保护范围之内,本申请实施例对此不做限定。
本申请实施例提供了另一种编解码方法,请参考图8,图8为本申请实施例提供的另 一种编解码方法的过程500的流程示意图。过程500可由电子设备(包括编码器和解码器)执行,具体地,过程500可由电子设备通过调用神经网络模型实现执行。过程500描 述为一系列的操作,应当理解的是,过程500可以以各种顺序执行和/或同时发生,不限于 图8所示的执行顺序。过程500可以包括以下过程:
501、编码器对原始图像进行特征提取得到初始特征图,初始特征图的分辨率小于原 始图像的分辨率。
该过程可以参考前述过程401,本申请实施例在此不做赘述。
502、编码器对第一特征图进行编码得到码流,第一特征图为初始特征图,或第一特 征图包括初始特征图中部分通道的二维特征图。
该过程可以参考前述过程402,本申请实施例在此不做赘述。
503、编码器向解码器发送码流。
该过程可以参考前述过程403,本申请实施例在此不做赘述。
504、解码器对码流进行解码得到第一特征图。
该过程可以参考前述过程404,本申请实施例在此不做赘述。
505、解码器根据第一神经网络对第一分辨率的第二特征图进行重建,得到第二分辨 率的重建图像,第二分辨率与第一分辨率不同,第二分辨率小于原始图像的分辨率,第二 特征图包括第一特征图、或第二特征图为通过第二神经网络对第一特征图进行处理得到的 特征图。
该过程与前述过程405的区别在于前述过程405中第一神经网络保持第二特征图的 分辨率不变,生成重建图像,而过程505中第一神经网络能够改变第二特征图的分辨率。
第一神经网络输出的重建图像的分辨率与输入的第二特征图的分辨率不同。可选地, 第一神经网络可以包括至少一个卷积层,至少一个卷积层中存在步长非1的卷积层,第一 神经网络可以通过步长非1的卷积层对输入的第二特征图的分辨率进行上采样或下采样, 以改变输入的第二特征图的分辨率。
示例地,如前述图5所示,b1中的第二层卷积层的步长可以为1.3,并用于对第二特征图的分辨率进行1.3倍的下采样。如前述图6所示,第一神经网络的第一层卷积层的步 长可以为1.6,并用于对第二特征图的分辨率进行1.6倍的上采样。
由于第二神经网络能够输出的多种分辨率的值是固定的,导致与第二神经网络的一个 或多个输出节点连接的第一神经网络输出的分辨率的值是固定的。该过程505中,第一神 经网络也具备改变输入的特征图的分辨率的功能,这样能够通过不同结构的第一神经网络, 实现各种数值的分辨率的输出,在降低了用于生成重建图像的神经网络在解码器中的运行 开销和运行复杂度的同时,提高了生成重建图像的灵活性。
该过程505中第一神经网络和第二神经网络的相关描述可以参考前述过程405,本申 请实施例在此不做赘述。
综上所述,本申请实施例提供的编解码方法,编码器对原始图像进行特征提取得到初 始特征图,再对第一特征图进行编码得到码流并向解码器发送码流,解码器对码流进行解 码得到第一特征图,之后根据第一神经网络对第一分辨率的第二特征图进行重建,得到第 二分辨率的重建图像,第二分辨率与第一分辨率不同,第二分辨率小于原始图像的分辨率, 第二特征图包括第一特征图,或第二特征图为通过第二神经网络对第一特征图进行处理得 到的特征图。经过解码和重建得到的重建图像的分辨率小于原始图像的分辨率,在获取重 建图像的过程中无需先重建得到原始图像,而是直接得到重建图像,提高了获取重建图像 的效率,从而提高了数字视频应用显示原始图像的缩略图的速度。
此外,第一神经网络也具备改变输入的特征图的分辨率的功能,这样能够通过不同结 构的第一神经网络,实现各种数值的分辨率的输出,在降低了用于生成重建图像的神经网 络在解码器中的运行开销和运行复杂度的同时,提高了生成重建图像的灵活性。
本申请实施例提供的方法的先后顺序可以进行适当调整,过程也可以根据情况进行相 应增减。任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化的 方法,都应涵盖在本申请的保护范围之内,本申请实施例对此不做限定。
本申请实施例提供了再一种编解码方法,请参考图9,图9为本申请实施例提供的再 一种编解码方法的过程600的流程示意图。过程600可由电子设备(包括编码器和解码器)执行,具体地,过程600可由电子设备通过调用神经网络模型实现执行。过程600描 述为一系列的操作,应当理解的是,过程600可以以各种顺序执行和/或同时发生,不限于 图8所示的执行顺序。过程600可以包括以下过程:
601、编码器对原始图像进行特征提取得到初始特征图,初始特征图的分辨率小于原 始图像的分辨率,初始特征图的通道数为M。
该过程可以参考前述过程401,本申请实施例在此不做赘述。
602、编码器对待编码特征图进行编码得到码流,码流对应初始特征图中M1个通道的二维特征图,M1≤M。
该过程可以参考前述过程402,待编码特征图相当于过程602中的第一特征图,本申 请实施例在此不做赘述。
603、编码器向解码器发送码流。
该过程可以参考前述过程403,本申请实施例在此不做赘述。
604、解码器对M1个通道中M2个通道的二维特征图对应的码流进行解码,得到第一特征图,M2<M1,第一特征图包括M2个通道的二维特征图。
码流对应M1个通道的二维特征图,M1个通道的二维特征图对应的码流按照顺序排列。解码器可以对M1个通道中前M2个通道的二维特征图对应的码流进行解码。这样在 M2个通道的二维特征图对应的码流被解码后即可执行后续的重建流程,无需在整个码流 解码完成后再执行后续的重建流程,提高了得到第三特征图的效率,从而提高了获取重建 图像的效率。
对M1个通道中M2个通道的二维特征图对应的码流进行解码的过程可以参考前述过 程404,本申请实施例在此不做赘述。
605、解码器根据第一神经网络对第二特征图进行重建,得到重建图像,第二特征图 和重建图像的分辨率均为目标分辨率,目标分辨率小于原始图像的分辨率,第二特征图为 第一特征图、或第二特征图为通过第二神经网络对第一特征图进行处理得到的特征图。
该过程可以参考前述过程405,本申请实施例在此不做赘述。
606、解码器对重建图像进行上采样处理,得到第一图像,第一图像的分辨率与原始 图像的分辨率相同。
示例地,上采样处理可以包括双线性插值上采样,或者直接填充临近位置的像素值进 行上采样或者通过步长大于1的卷积层的反卷积操作实现上采样。
需要说明的是,若对整个码流进行解码得到的特征图进行重建,生成重建的原始分辨 率的图像,则该原始分辨率的图像的分辨率较大,生成过程耗时较长,影响数字视频应用 显示原始分辨率的图像的速度,导致用户在浏览原始分辨率的图像是会出现卡顿的情况。 本申请实施例中,在得到重建图像的过程中仅对码流中的部分码流进行了解码,使得重建 图像的数据量较小,得到重建图像的效率较高。进而在基于重建图像得到第一图像时,提 高了得到第一图像的效率,从而减小了得到第一图像的过程的耗时,提高了数字视频应用 显示原始分辨率的图像的速度。
由过程602可知,码流可以为初始特征图的码流(即M1=M),或者码流对应初始特征图中部分通道的二维特征图(即M1<M)。当M1=M时,可以重建得到高质量的原始 分辨率的图像,即可以执行后续过程607和608。当M1<M时,无需执行后续过程607 和608。
607、解码器对M1个通道中除M2个通道之外的通道的二维特征图对应的码流进行解码,得到第三特征图,第三特征图包括M1-M2个通道的二维特征图。
该解码过程可以参考过程404,本申请实施例在此不做赘述。
608、解码器根据第二神经网络对第一特征图和第三特征图进行处理,得到第二图像, 第二图像的分辨率与原始图像的分辨率相同。
第一特征图和第三特征图组成M1个通道的二维特征图(即组成初始特征图)。该第二图像为第二神经网络的最终输出。第二神经网络的结构及处理过程可以参考前述过程405,本申请实施例在此不做赘述。
第二图像是对第一特征图和第三特征图进行重建后生成的,第二图像的数据量大于前 述第一图像的数据量,且图像质量高于第一图像。前述过程607和过程608可以与过程606同时执行,即通过过程606快速生成低质量的第一图像以由数字视频应用先进行显示,同时通过过程607和过程608重建得到高质量的第二图像。由于第二图像的重建过程耗时较长,因此先快速生成低质量的第一图像进行显示,同时重建得到高质量的第二图像,使得数字视频应用在显示原始分辨率的图像时不会出现卡顿的情况,提高了对原始分辨率的图像的显示效果。
综上所述,本申请实施例提供的编解码方法,编码器对原始图像进行特征提取得到初 始特征图,初始特征图的通道数为M,再对第一特征图进行编码得到码流并向解码器发送 码流,码流对应初始特征图中M1个通道的二维特征数据,M1≤M,解码器对M1个通道中M2个通道的二维特征图对应的码流进行解码,得到第一特征图,之后根据第一神经网 络对第二特征图进行重建,得到重建图像,第二特征图和重建图像的分辨率均为目标分辨率,目标分辨率小于原始图像的分辨率,第二特征图为第二特征图、或第二特征图为通过第二神经网络对第二特征图进行处理得到的特征图。经过解码和重建得到的重建图像的分辨率小于原始图像的分辨率,在获取重建图像的过程中无需先重建得到原始图像,而是直接得到重建图像,提高了获取重建图像的效率,从而提高了数字视频应用显示原始图像的缩略图的速度。
此外,在得到重建图像后,还可以对重建图像进行上采样处理,得到第一图像,第一 图像的分辨率与原始图像的分辨率相同,同时对M1个通道中除M2个通道之外的通道的二维特征图对应的码流进行解码,得到第三特征图,第三特征图包括M1-M2个通道的二 维特征图,并根据第二神经网络对第一特征图和第三特征图进行处理,得到第二图像,第 二图像的分辨率与原始图像的分辨率相同。第二图像的数据量大于前述第一图像的数据量,且图像质量高于第一图像。由于第二图像的重建过程耗时较长,因此先快速生成低质量的第一图像进行显示,同时重建得到高质量的第二图像,使得数字视频应用在显示原始分辨率的图像时不会出现卡顿的情况,提高了对原始分辨率的图像的显示效果。
本申请实施例提供的方法的先后顺序可以进行适当调整,过程也可以根据情况进行相 应增减,例如当码流对应初始特征图中部分通道的二维特征图时,可以不执行过程607和 608。任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化的方 法,都应涵盖在本申请的保护范围之内,本申请实施例对此不做限定。
本申请实施例提供了又一种编解码方法,请参考图10,图10为本申请实施例提供的 另一种编解码方法的过程700的流程示意图。过程700可由电子设备(包括编码器和解码器)执行,具体地,过程700可由电子设备通过调用神经网络模型实现执行。过程700描 述为一系列的操作,应当理解的是,过程700可以以各种顺序执行和/或同时发生,不限于 图10所示的执行顺序。过程700可以包括以下过程:
701、编码器对原始图像进行特征提取得到初始特征图,初始特征图的分辨率小于原 始图像的分辨率。
该过程可以参考前述过程401,本申请实施例在此不做赘述。
702、编码器对原始图像的特征图进行编码得到码流,原始图像的特征图为初始特征 图,或原始图像的特征图包括初始特征图中部分通道的二维特征图。
该过程可以参考前述过程402,本申请实施例在此不做赘述。
703、编码器向解码器发送码流。
该过程可以参考前述过程403,本申请实施例在此不做赘述。
704、解码器对码流进行解码得到原始图像的特征图。
该过程可以参考前述过程404,本申请实施例在此不做赘述。
705、解码器根据神经网络对原始图像的特征图进行重建,得到目标分辨率的重建图 像,目标分辨率小于或等于原始图像的特征图的分辨率。
神经网络输出的重建图像的分辨率与输入的特征图的分辨率相同或不同。
该神经网络的数量可以为一个或多个。当神经网络的数量为一个时,解码器可以直接 将原始图像的特征图输入该一个神经网络,得到该一个神经网络输出的重建图像。此时该 神经网络仅能输出一种分辨率的重建图像。
当神经网络的数量为多个时,任意两个神经网络的结构可以相同或不同,本申请实施 例对此不做限定。解码器可以确定多个神经网络中的目标神经网络。之后将原始图像的特 征图输入目标神经网络,得到目标神经网络输出的重建图像。
每个神经网络包括至少一个卷积层,卷积层用于对输入的原始图像的特征图进行处理。 每个神经网络对应一个输出分辨率,任一神经网络的输出分辨率为将原始图像的特征图输 入该任一神经网络后,该任一神经网络中的最后一层卷积层输出的特征图的分辨率。解码 器可以先确定目标分辨率,之后将输入分辨率为目标分辨率的神经网络确定为目标神经网 络。目标分辨率的确定方法可以参考前述过程405,本申请实施例在此不做赘述。
示例地,请参考图11,图11为本申请实施例提供的一种神经网络的结构示意图。图11示出了四个神经网络d1至d4。d1包括两个卷积层,d1中的两个卷积层的卷积核大小 均为5x5,步长均为1。d1中第一层卷积层的输出通道数为N1,最后一层卷积层的输出通 道数为P。d2包括三个卷积层,d2中的三个卷积层的卷积核大小均为5x5。d2中第一层 卷积层的步长为2,输出通道数为N;d2中第二层卷积层和最后一层卷积层的步长均为1, d2中第二层卷积层的输出通道数为N1,最后一层卷积层的输出通道数为P。d3包括四个 卷积层,d3中第一层卷积层和第二层卷积层的步长均为2,输出通道数均为N;d3中第三 层卷积层和最后一层卷积层的步长均为1,d3中第三层卷积层的输出通道数为N1,最后 一层卷积层的输出通道数为P。d4包括五个卷积层,d4中第一层卷积层、第二层卷积层和 第三层卷积层的步长均为2,输出通道数均为N;d4中第四层卷积层和最后一层卷积层的 步长均为1,d4中第四层卷积层的输出通道数为N1,最后一层卷积层的输出通道数为P。
假设原始图像的特征图的通道数为M,分辨率为W/16×H/16,四个神经网络d1至d4的输出分辨率分别为W/16×H/16、W/8×H/8、W/4×H/4和W/2×H/2。
当目标神经网络为d1时,将原始图像的特征图输入d1,d1的第一层卷积层和第二层 卷积层保持输入的特征图的分辨率不变,依次对输入的特征图进行通道转换,最终输出通 道数为P,分辨率为W/16×H/16的重建图像。
当目标神经网络为d2时,将原始图像的特征图输入d2,d2的第一层卷积层对特征图 的分辨率进行2倍的上采样,输出通道数为N,分辨率为W/8×H/8的特征图。d2的第二 层卷积层和第三层卷积层保持输入的特征图的分辨率不变,依次对输入的特征图进行通道转换,最终输出通道数为P,分辨率为W/8×H/8的重建图像。
当目标神经网络为d3时,将原始图像的特征图输入d3,d3的第一层卷积层和第二层 卷积层依次对原始图像的特征图的分辨率进行2倍的上采样,输出通道数为N,分辨率为W/4×H/4的特征图。d3的第三层卷积层和第四层卷积层保持输入的特征图的分辨率不变,依次对输入的特征图进行通道转换,最终输出通道数为P,分辨率为W/4×H/4的重建图 像。
当目标神经网络为d4时,将原始图像的特征图输入d4,d4的第一层卷积层、第二层卷积层和第三层卷积层依次对原始图像的特征图的分辨率进行2倍的上采样,输出通道数为N,分辨率为W/2×H/2的特征图。d4的第四层卷积层和第五层卷积层保持输入的特征 图的分辨率不变,依次对输入的特征图进行通道转换,最终输出通道数为P,分辨率为W/2 ×H/2的重建图像。
示例地,请参考图12,图12为本申请实施例提供的另一种神经网络的结构示意图。图12示出了四个神经网络e1至e4。e1包括两个卷积层,e1中的两个卷积层的卷积核大 小均为5x5,步长均为1。e1中第一层卷积层的输出通道数为N1,最后一层卷积层的输出 通道数为P。e2包括一个卷积层,e2中的一个卷积层的卷积核大小为5x5,步长为2,输 出通道数为P。e3包括两个卷积层,e3中第一层卷积层和第二层卷积层的步长均为2,e3 中第一层卷积层的输出通道数为N,d3中第二层卷积层的输出通道数为P。e4包括三个卷 积层,e4中第一层卷积层、第二层卷积层和第三层卷积层的步长均为2,e4中第一层卷积 层和第二层卷积层的输出通道数均为N,e4中第三层卷积层的输出通道数为P。
假设原始图像的特征图为M×W/16×H/16,四个神经网络e1至e4的输出分辨率分别为W/16×H/16、W/8×H/8、W/4×H/4和W/2×H/2。即目标神经网络分别为e1至e4 时,输出的重建图像分别为P×W/16×H/16、P×W/8×H/8、P×W/4×H/4和P×W/2× H/2。
需要说明的是,目标分辨率的数量可以为一个或多个,相应地,目标神经网络的数量 也可以为一个或多个。当目标神经网络的数量为多个时,该多个目标神经网络可以同时输 出相应的目标分辨率的重建图像。每个目标神经网络的重建过程可以参考前述描述,本申 请实施例在此不做赘述。
图11和图12中神经网络的结构为示例性说明,本申请实施例对此不做限定。示例地, 在图11或图12的基础上,任一神经网络还可以包括一个或多个卷积层,多个卷积层可以 相同或不同。
可选地,在本申请实施例中,在对原始图像的特征图进行重建或者在神经网络的最后 一层卷积层输出重建图像之前,还可以对原始图像的特征图和/或某一卷积层输出的中间 特征图进行通道缩减,以减少后续的重建过程的复杂度,提高重建过程的效率。该过程可 以参考前述过程405,本申请实施例在此不做赘述。
请参考图13,图13为本申请实施例提供的另一种通道缩减的流程示意图,图13以在图11所示的神经网络的基础上进行通道缩减,且以对中间特征图进行通道缩减为例进行说明,即在每个神经网络中对卷积层的输出通道数进行缩减。如图13所示,在d1中将 原始图像的特征图的通道由M1缩减为T1,在d2中将第一层卷积层输出的中间特征图的 通道由N缩减为T2,在d3中将第二层卷积层输出的中间特征图的通道由N缩减为T3, 在d4中将第三层卷积层输出的中间特征图的通道由N缩减为T4。T1小于M1,T2、T3 和T4均小于N。
该过程505可以参考前述过程405,本申请实施例在此不做赘述。
综上所述,本申请实施例提供的编解码方法,编码器对原始图像进行特征提取得到原 始图像的特征图,再对原始图像的特征图进行编码得到码流并向解码器发送码流,解码器 对码流进行解码得到原始图像的特征图,之后对原始图像的特征图进行重建,得到目标分 辨率的重建图像,目标分辨率小于或等于原始图像的特征图的分辨率。经过解码和重建得 到的重建图像的分辨率小于原始图像的分辨率,在获取重建图像的过程中无需先重建得到 原始图像,而是直接得到重建图像,提高了获取重建图像的效率,从而提高了数字视频应 用显示原始图像的缩略图的速度。
此外,可以根据神经网络对原始图像的特征图进行重建,得到重建图像,神经网络包 括多个神经子网络,每个神经子网络对应一个输出分辨率,可以根据需要的缩略图分辨率 确定目标分辨率,将输出分辨率为目标分辨率的神经子网络确定为目标神经子网络,并根 据目标神经子网络得到重建图像。该获取重建图像的过程中能够根据确定的目标分辨率选 择匹配的神经子网络,且能够获取到多种目标分辨率的重建图像,提高了获取重建图像的 灵活性。
本申请实施例提供的方法的先后顺序可以进行适当调整,过程也可以根据情况进行相 应增减。任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化的 方法,都应涵盖在本申请的保护范围之内,本申请实施例对此不做限定。
可选地,本申请实施例还可以包括以下五种实施例:
实施例一
本实施例的主要流程图如图14所示。
图14为本申请实施例提供的一种编解码流程示意图。在编码端,原始图x输入特征提 取模块输出特征图y,该特征图y输入量化模块,得到量化后的特征图y0。熵编码模块对特 征图y0进行熵编码得到压缩码流。在编码端技术方案具体描述如下:
步骤1:获取三维特征图y。
原始图x输入特征提取模块输出三维特征图y。其中,特征提取模块使用基于神经网络 的方法来实现。如图15所示,图15为本申请实施例提供的一种特征提取模块的网络结构 示意图,主要包括四个卷积层与三个GDN层穿插级联构成,每层卷积层的卷积核大小均为5x5,最后一层卷积输出特征图通道数为M,且每层卷积层的步长(stride)为2,表示 对输入的图像或者特征图的宽高均进行2倍下采样。因此,对于大小为W×H的原始图输 入此特征提取网络后,输出大小为M×W/16×H/16的三维特征图y,可以理解为,特征 图y包括M个通道的分辨率为W/16×H/16的二维特征图。
以第一层卷积层(conv Nx5x5/2↓)为例,表示卷积核为5x5,N表示第一层卷积核的输出特征图的通道数为N,数字2表示步长为2,理解为对输入图像的宽和高均进行2倍 的下采样操作,因此第一层卷积层会输出特征图的大小为N×W/2×H/2。
同样的,第二层卷积的通道为N,步长为2,则输出特征图的大小为N×W/4×H/4,则执行完图15所示的四层卷积操作后,输出的特征图y的大小为M×W/16×H/16。
需要说明的是,本步骤中对特征提取网络的结构不做具体限定,卷积的层数不做限定, 是否包括GDN不做限定;是否有其它激活函数也不做限定;卷积核的大小不做限定,可 以为3×3或5×5或7×7或其它尺寸,由具体编解码端网络设计确定,本申请不作限定,本申请中,以5×5为例进行描述。
步骤2:该特征图y输入量化模块,得到量化后的特征图y0。
特征量化模块对特征图y中的每个特征值(或者称为特征元素)进行量化,将浮点数 的特征值进行四舍五入得到整数特征值,得到量化后的特征图y0。特征图y0为M×W/16×H/16的三维整数特征图。
需要说明的是,本申请对具体的量化方法不做限定,还可以是,将浮点数的特征值进 行截断得到整数特征值。或者还可以是根据预设的量化步长对量化操作得到量化后的特征 值
步骤3:熵编码模块对特征图y0进行熵编码得到压缩码流。
对特征图y0中的每个特征元素进行熵编码时,可以使用以下方法之一进行处理,在 此不做限定。
方法一:基于概率模型的熵编码方法:对特征图y0中的每个特征元素进行熵编码时, 首先使用概率分布模型进行建模,然后将当前特征元素上下文信息输入概率估计网络得到 模型参数,将模型参数代入概率分布模型中,得到当前特征元素的概率分布,根据概率分 布进行熵编码。其中,概率分布模型可以是:单高斯模型(Gaussian single model,GSM)、 非对称高斯模型、混合高斯模型(Gaussian mixture model,GMM)或者拉普拉斯分布模型 (Laplace distribution)。其中,概率估计网络可以使用基于深度学习网络,例如循环神经 网络(Recurrent Neural Network,RNN)和卷积神经网络(Convolutional NeuralNetwork, PixelCNN)等,在此不做限定。
方法二:超先验(hyper prior)熵编码方法:
特征图y经边信息提取模块模块,输出边信息z,对边信息z进行量化得到
Figure BDA0003190805990000311
Figure BDA0003190805990000312
进行 熵编码并写入码流,编码端执行熵解码操作得到解码后的
Figure BDA0003190805990000313
输入概率估计模块输出特征 图y0每个特征元素的概率分布(将
Figure BDA0003190805990000314
进行熵编码后再解码是为了保证编解码同步)。熵编码模块根据y0的每个特征元素的概率分布对特征图y0中的每个特征元素进行熵编码,得到压缩码流。其中,边信息
Figure BDA0003190805990000315
也是一种特征信息,表示为一个三维特征图,其包含的特征元素个数比特征图y的特征元素个数少。
如图14所示的流程图,在解码端,从压缩码流中解析得到特征图y0,将y0输入重建模块,得到重建图像,所述重建图像包括低分辨率的重建图像,还可以包括原分辨率的重建图像。在端到端图像编解码方案中,一般情况下,解码重建模块结构与编码特征提取模块对应,具体的,对应于编码端特征提取模块的图15所示的网络结构,如图16所示,图 16为本申请实施例提供的一种重建模块的网络结构示意图,其中,原分辨率重建网络可以 输出原分辨率的重建图像,低分辨率重建网络分支可以有一个或者多个不同的分支,对应 输出不同分辨率的低分辨率的重建图像。
本申请的主要创新点在重建模块,对解码端的技术方案描述如下:
步骤1:对压缩码流进行熵解码得到三维特征图y0,y0包括M个通道的分辨率为W/k×H/k的二维特征图。
其中k的值由编码端的特征提取网络的网络结构决定。具体的,k值与特征提取网络 中卷积层的数量以及每一个卷积层的步长有关。对应与编码端,本实施例中k=16,本实施 例以k=16进行描述。
熵解码方法与编码端对应,对特征图y0中的每个特征元素进行熵编码时,可以使用 以下方法之一进行处理,简单描述如下:
方法一:将当前特征元素上下文信息输入与编码端相同的概率估计网络得到模型参数, 将模型参数代入概率分布模型中,得到当前特征元素的概率分布,根据概率分布进行熵解 码得到特征元素的值。
方法二:首先解码得到边信息
Figure BDA0003190805990000316
然后将边信息
Figure BDA0003190805990000317
输入与编码端相同的概率估计模块, 输出当前特征元素的概率分布。根据当前特征元素的概率分布对当前特征元素进行算术解 码,得到当前特征元素的值。
步骤2:获取第一分辨率,第一分辨率小于原始图像的分辨率WxH。
获取第一分辨率的方法可以使用以下方法之一,如果第一分辨率由解码器外部指定, 解码器根据指定的第一分辨率选择对应的重建支路执行图像重建操作,此时解码器可以不 包括获取第一分辨率这个步骤,可直接执行步骤3。
需要说明的是,第一分辨率可以是多种分辨率,如果解码器外部指定多种分辨率,则 解码器可以同时输出对应的多种分辨率的重建图像。
方法一:解码器外部指定第一分辨率:这要求解码器外部应用层了解解码器的能力, 即解码器能够输出哪些分辨率的图像。一个码流中能够输出哪些分辨率的图像(候选分辨 率),这一信息可以SEI方式携带在码流中,也可以直接携带在应用层(文件格式)中。播放器读取到所有候选分辨率,根据目标分辨率确定第一分辨率,再将第一分辨率信息告知解码器。在本实施例中,候选分辨率包括W/16×H/16,W/8×H/8,W/4×H/4,W/2× H/2。应用层包括视频播放器、相册、网页等。
方法二:解码器内部确定:应用层告知解码器目标分辨率,解码器匹配与目标分辨率 最接近的候选分辨率作为第一分辨率。候选分辨率由解码器结构内在决定。在本实施例中, 候选分辨率包括W/16×H/16,W/8×H/8,W/4×H/4,W/2×H/2。
方法三:由解码器复杂度/功耗约束确定第一分辨率。具体的,可以为解码器每个重建 支路计算得到对应的复杂度指标,这个复杂度指标在上层(应用层)是可知的。应用层根 据复杂度指标选择对应的分辨率。
方法四:目标分辨率由编码端指定,传输到解码端,解码端直接解码码流得到。例如, 编码端直接传输一个第一标识用来指示目标分辨率,解码端解析第一标识的值获取目标分 辨率。解码端根据目标分辨率从候选分辨率中匹配出最接近的候选分辨率作为第一分辨率。
步骤3:根据第一分辨率选择对应的重建网络支路,将特征图y0输入重建模块,得到 第一分辨率的重建图像。
在本实施例中,重建模块可以同时输出多个低分辨率的重建图像,也可以只输出一种 低分辨率重建图像,具体的输出结果视应用层的需要来确定,如果应用层指定的第一分辨 率包括多种分辨率,则本步骤可以输出多种低分辨率的重建图像。本实施例以输出一种低 分辨率的重建图像为例进行描述。
具体的,如图16所示,对应于编码端,特征图y0输入重建模块的原分辨率重建网络中,输出原分辨率的重建图像。另外,可以在原分辨率重建网络的结构中拉出不同分支, 在不改变原分辨率重建网络结构的基础上增加不同的卷积层,输出不同的低分辨率重建图像。结合图16具体描述如下:其中,第一层卷积、第二层卷积和第三层卷积的通道数均 为N,步长为2。
如果第一分辨率为W/16×H/16,将特征图y0直接输入分支一的重建网络中,得到大 小为P×W/16×H/16的重建图像A1。其中,分支一的重建网络包括第一反卷积层,第一反卷积层的输出通道数为P,步长为1。分支一的重建网络还可以包括第二反卷积网络,第二反卷积网络包括一个或者多个反卷积层,反卷积层的步长为1,输出通道为N1,多个反 卷积层的N1可以相同也可以不同。P用于指示最终输出重建图像A1的通道数,取值通 常为3或者1,如果需要输出三通道的彩色图像,则P取值为3,如果需要输出灰度图像, P取值为1。N1的取值不做限定。
如果第一分辨率为W/8×H/8,将特征图y0输入原分辨率重建网络中,执行第一层反 卷积操作得到大小为N×W/8×H/8的特征图Q2,特征图Q2再输入分支二的重建网络中,得到大小为P×W/8×H/8的重建图像A2。其中,分支二对应的网络结构可以与分支一相 同,也可以不同。
如果第一分辨率为W/4×H/4,将特征图y0输入原分辨率重建网络中,执行第一层反 卷积操作和第二层反卷积操作得到大小为N×W/4×H/4的特征图Q3,特征图Q3再输入分支三的重建网络中,得到大小为P×W/4×H/4的重建图像A3。其中,分支三对应的网 络结构可以与分支一或者分支二相同,也可以不同。
如果第一分辨率为W/2×H/2,将特征图y0输入原分辨率重建网络中,执行第一层反 卷积操作、第二层反卷积操作和第三层反卷积操作得到大小为N×W/2×H/2的特征图Q4, 特征图Q4再输入分支四的重建网络中,得到大小为P×W/2×H/2的重建图像A4。其中,分支四对应的网络结构可以与分支一或者分支二或者分支三相同,也可以不同。
步骤4:对第一分辨率的重建图像进行处理,得到目标分辨率重建图像。
将第一分辨率与目标分辨率进行比较,如果相同,也无需处理,直接将第一分辨率的 重建图像作为目标分辨率重建图像输出显示。
如果不同,还应该进行相应的缩放操作或者上采样或者下采样操作,得到与目标分辨 率相同的目标分辨率重建图像后输出。
需要说明的是,本步骤可以在解码器的外部由播放器的图像缩放模块完成,因此解码 端的方案可以不包括本步骤。
实施例二
在编码端方案与实施例一相同,在此不做赘述。如图17所示,图17为本申请实施例提供的一种解码端的流程示意图。具体步骤如下:仅步骤3与实施例一不同,在此仅对步 骤3展开详细描述。
步骤3:根据第一分辨率选择对应的重建网络支路,将特征图y0输入重建模块,得到 第一分辨率的重建图像。
如图18所示,图18为本申请实施例提供的一种重建网络的结构示意图。如果第一分 辨率为W/16×H/16,将特征图y0输入第一重建网络(如图18A),得到第一分辨率的目 标图像A1。其中,第一重建网络包括第一反卷积网络,第一反卷积网络的输出通道数为 P,步长为1。第一重建网络还可以包括一个或者多个步长为1的第二反卷积网络,多个第 二反卷积网络输出通道N1可以相同也可以不同。
如果第一分辨率为W/8×H/8,将特征图y0输入第二重建网络(如图18B所示),得到第一分辨率的目标图像A2。其中,第二重建网络包括第三反卷积网络,第三反卷积网 络的通道数为N,步长为2。第二重建网络还包括第一反卷积网络和第二反卷积网络。
如果第一分辨率为W/4×H/4,将特征图y0输入第三重建网络(如图18C所示),得到第一分辨率的目标图像A3。其中,则第三重建网络包括第三反卷积网络,第三反卷积 网络的通道数为N,步长为2。第三重建网络还包括第二重建网络的结构。
如果第一分辨率为W/2×H/2,将特征图y0输入第四重建网络(如图18D所示),得到第一分辨率的目标图像A4。其中,则第四重建网络包括第四反卷积网络,第四反卷积 网络的通道数为N,步长为2。第四重建网络还包括第三重建网络的结构。
作为另外一种实现方式,如图19所示,图19为本申请实施例提供的另一种重建网络 的结构示意图,第一重建网络,第二重建网络,第三重建网络和第四重建网络还可以使用 图19所示的网络结构来实现,在此不做限定。
步骤2.3:对第一分辨率的重建图像进行处理,得到目标分辨率图像。
实施例三
本实施例与实施例一的不同之处在于,对输入特征图进行重建之前对特征图的通道数 进行缩减,或者在重建过程中执行一层或者多层反卷积操作后得到的特征图的通道数进行 缩减,以减少解码复杂度。
解码端方法如下:
基于实施例一,本实施例仅步骤3与实施例一不同,在此仅对步骤3展开详细描述。
一种可实现的方式中,如图20所示,图20为本申请实施例提供的一种通道缩减的流 程示意图。将特征图y0输入重建网络之前,对特征图y0的M个通道数进行缩减至S,只 输入特征图y0的S个通道数,其中S小于特征图y0的通道数M。在这种实现方式中, 不能同时输出多个不同的低分辨率重建图像。其中,重建网络的可以使用实施例一和实施 例二中的方式实现。
一种可实现的方式中,结合实施例二进行描述。如图21所示,图21为本申请实施例提供的另一种通道缩减的流程示意图。S1,S2,S3,S4均小于特征图y0的通道数M。以 第一分辨率为W/8×H/8时,将特征图y0输入第二重建网络得到目标图像A2为例进行描 述。在这种实现方式中,可以同时输出多个不同的低分辨率重建图像。当第一分辨率为W/8 ×H/8时,将特征图y0输入第二重建网络,经过通道数为N,步长为2的反卷积层,输出 通道数为N的特征图y1,将y1的通道数进行缩减,得到通道数为S2的特征图并输入下 一层级的反卷积网络中直到输出目标图像A2。具体的缩减方法为,随机提取S2个通道的 特征图数据,或者提取N个通道中的前S2个通道的特征图数据,在此不做限定。
在另外一种可实现的方式中,结合实施例一进行描述:如图22所示,图22为本申请实施例提供的再一种通道缩减的流程示意图。图22为在重建网络中对卷积层输出的特征图通道数进行缩减,S1,S2,S3,S4均小于特征图y0的通道数M。以第一分辨率为W/8 ×H/8时,进行描述。在这种实现方式中,可以同时输出多个不同的低分辨率重建图像。 当第一分辨率为W/8×H/8时,将特征图y0输入原分辨率重建网络中,执行第一层卷积操 作得到大小为N×W/8×H/8的特征图Q2,特征图Q2的通道数进行缩减,得到通道数为 S2的特征图并输入分支二的重建网络中,得到大小为P×W/8×H/8的重建图像A2。具体 的缩减方法为,随机提取S2个通道的特征图数据,或者提取N个通道中的前S2个通道 的特征图数据,在此不做限定。
实施例四
步骤1:解码主码流特征图得到所有N个通道中的前M个通道(M<N)特征图(分 辨率W/K×H/K,K=16)。
步骤2:将M个通道的特征图输入重建网络1,得到低分辨率图像A1(A1的分辨率 小于原始图像的分辨率W×H)。
方法一:对低分辨率重建图像A1,执行图像上采样操作,得到目标分辨率图像B1。
其中,将M个通道的特征图输入重建网络1得到低分辨率的图像A1方法与实施例一相同,低分辨率对应实施例一的第一分辨率。目标分辨率的设置方法在此不做限定,例如可以由应用侧指定。
其中,图像上采样操作例如是双线性插值上采样,或者直接填充临近位置的像素值进 行上采样。
方法二:对低分辨率重建图像A1,执行图像上采样操作,得到原始分辨率图像B3。
上采样操作包括:图像上采样操作例如是双线性插值上采样,或者直接填充临近位置 的像素值进行上采样。或者,通过步长大于1的反卷积层来实现。
B3的分辨率为WxH。
步骤3:解码主码流特征图得到剩余的N-M个通道的特征图,将所有N个通道的特征图输入重建网络2,得到原始分辨率图像B2。
有益效果:通过步骤1和2,占用较少的熵解码延时和图像重建延时,快速产生一个低质量的图像;步骤3可以和步骤2并行执行,以较大的延时获得高质量的(符合标准的) 图像。
相比前两个实施例,
1)部分道通特征图解码后即可开始低质量图像重建。
2)重建网络可以含有步长大于1的反卷积层,达到上采样的效果。
3)只包含2个重建分支。
实施例五:
在另外一种可实现方式中,实施例一到实施例四解码整个方案可以简化为以下两个步 骤:
步骤1:对压缩码流进行熵解码得到三维特征图y0,y0包括M个通道的分辨率为W/k×H/k的二维特征图。
步骤2:将三维特征图y0输入重建网络,得到第一分辨率的重建图像。其中,第一分辨率小于原始图像的分辨率W×H。
需要说明的是,前述实施例的各个过程可以任意组合,例如过程605可以为:解码器 根据第二神经网络对第一分辨率的第三特征图进行重建,得到第二分辨率的重建图像,第 一第二分辨率与第一分辨率不同,第二分辨率小于原始图像的分辨率,第三特征图包括第 二特征图,和/或通过第二神经网络对第二特征图进行处理得到的特征图。本申请实施例对 此不做限定。
上述主要从设备之间交互的角度对本申请实施例提供的编解码方法进行了介绍。可以 理解的是,各个设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件 模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的算 法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件 还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专 业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不 应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对各个设备进行功能模块的划分,例如,可以对 应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。 上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要 说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实 现时可以有另外的划分方式。
图23为本申请实施例提供的一种解码装置的框图,解码装置800可以应用于电子设 备(例如解码器),其可以为电子设备中的芯片或者功能模块。在采用对应各个功能划分各个功能模块的情况下,该解码装置800包括处理模块801和重建模块802,还包括收发 模块803(图中未示出)。收发模块803可以包括发送模块和/或接收模块,分别用于执行 图4、8、9或图10所示的实施例中由解码器所执行的发送和接收的操作。示例地,解码 装置包括:
处理模块801,用于对码流进行解码得到第一特征图,所述第一特征图的分辨率小于 原始图像的分辨率;
重建模块802,用于根据第一神经网络对第二特征图进行重建,得到重建图像,所述 第二特征图和所述重建图像的分辨率均为目标分辨率,所述目标分辨率小于所述原始图像 的分辨率,其中所述第二特征图为所述第一特征图、或所述第二特征图为通过第二神经网 络对所述第一特征图进行处理得到的特征图。
结合上述方案,当所述第二特征图为通过所述第二神经网络对所述第一特征图进行处 理得到的特征图,所述第二神经网络包括一个或多个输出节点和多个卷积层,所述输出节 点位于第一层卷积层的输出端与最后一层卷积层的输入端之间,所述输出节点与所述第一 神经网络的输入端连接,所述重建模块802,还用于将所述第一特征图输入所述第二神经 网络,得到所述第二神经网络的目标输出节点输出的所述第二特征图,所述目标输出节点 属于所述一个或多个输出节点;所述重建模块802,具体用于将所述目标输出节点输出的 第二特征图输入所述第一神经网络,得到所述第一神经网络输出的所述重建图像。
结合上述方案,当所述第一神经网络的数量为多个,所述重建模块802,具体用于将 所述第二特征图输入所述目标输出节点连接的第一神经网络,得到所述目标输出节点连接 的第一神经网络输出的所述重建图像。
结合上述方案,当所述目标分辨率的个数为多个,所述目标输出节点的个数为多个, 所述重建模块802,具体用于将所述第一特征图输入所述第二神经网络,得到所述第二神 经网络的多个目标输出节点输出的多个分辨率的第二特征图;将每个所述目标输出节点输 出的第二特征图输入所述目标输出节点连接的第一神经网络,得到所述多个目标输出节点 分别连接的第一神经网络输出的多个分辨率的重建图像。
结合上述方案,当所述第二神经网络包括多个输出节点,每个所述输出节点对应一个 输出分辨率,所述重建模块802,还用于确定所述目标分辨率;将输出分辨率为所述目标 分辨率的输出节点确定为所述目标输出节点。
结合上述方案,所述第一神经网络包括至少一个卷积层,所述至少一个卷积层的卷积 步长为1。
结合上述方案,所述码流对应M1个通道的二维特征图,所述处理模块801,具体用于对所述M1个通道中M2个通道的二维特征图对应的码流进行解码,得到所述第一特征 图,M2<M1,所述第一特征图包括所述M2个通道的二维特征图。
结合上述方案,所述重建模块802,还用于对所述重建图像进行上采样处理,得到第 一图像,所述第一图像的分辨率与所述原始图像的分辨率相同。
结合上述方案,所述码流为初始特征图的码流,所述初始特征图是对所述原始图像进 行特征提取得到的,所述处理模块801,还用于对所述M1个通道中除所述M2个通道之外的通道的二维特征图对应的码流进行解码,得到第三特征图,所述第三特征图包括所述M1-M2个通道的二维特征图;所述重建模块802,还用于根据所述第二神经网络对所述第 一特征图和所述第三特征图进行处理,得到第二图像,所述第二图像的分辨率与所述原始 图像的分辨率相同。
结合上述方案,所述第二特征图包括多个通道的二维特征图,在根据第一神经网络对 第二特征图进行重建,得到重建图像之前,所述处理模块801,还用于对所述第二特征图 进行通道缩减处理;所述处理模块801,具体用于根据所述第一神经网络对所述通道缩减 处理后的第二特征图进行重建,得到所述重建图像。
结合上述方案,所述第一特征图包括多个通道的二维特征图,所述重建模块802,还 用于对所述第一特征图进行通道缩减处理;所述第二特征图为所述通道缩减处理后的第一 特征图,或所述第二特征图为通过所述第二神经网络对所述通道缩减处理后的第一特征图 进行处理得到的特征图。
编码装置的结构可以参考图23所示的解码装置的结构,编码装置可以应用于电子设 备(例如编码器),其可以为电子设备中的芯片或者功能模块。在采用对应各个功能划分各个功能模块的情况下,该编码装置包括处理模块和编码模块,进一步地还可以包括收发模块,收发模块包括发送模块和/或接收模块,分别用于执行图4、8、9或图10所示的实 施例中由编码器所执行的发送和接收的操作。示例地,编码装置包括:
处理模块,用于对原始图像进行特征提取得到初始特征图,所述初始特征图包括多个 通道的二维特征图,所述初始特征图的分辨率小于所述原始图像的分辨率;
编码模块,用于对待编码特征图进行编码得到码流,所述待编码特征图为所述初始特 征图,或包括所述初始特征图中部分通道的二维特征图;
收发模块,用于向解码装置发送码流。
图24为本申请实施例提供的一种电子设备的结构示意图,该电子设备900可以为编 码器中的芯片或者功能模块;也可以为解码器中的芯片或者功能模块。如图24所示,该电子设备900包括处理器901,收发器902以及通信线路903。
处理器901,收发器902以及通信线路903。其中,处理器901用于执行如图4、8、 9和10所示的方法实施例中由编码器或解码器执行的任一步骤,且在执行诸如获取等数 据传输时,可选择调用收发器902以及通信线路903来完成相应操作。
进一步的,该电子设备900还可以包括存储器904。其中,处理器901,存储器904以及收发器902之间可以通过通信线路903连接。
其中,处理器901是中央处理器(central processing unit,CPU)、通用处理器网络处 理器(network processor,NP)、数字信号处理器(digital signal processing,DSP)、微处 理器、微控制器、可编程逻辑器件(programmable logic device,PLD)或它们的任意组合。 处理器901还可以是其它具有处理功能的装置,例如电路、器件或软件模块,不予限制。
收发器902,用于与其他设备进行通信。收发器902可以是模块、电路、收发器或者任何能够实现通信的装置。
收发器902主要用于图像或码流等数据的收发,可以包括发射器和接收器,分别进行 数据的发送和接收;除数据收发之外的操作由处理器实现,如数据处理,计算等。
通信线路903,用于在电子设备900所包括的各部件之间传送信息。
在一种设计中,可以将处理器看做逻辑电路,收发器看做接口电路。
存储器904,用于存储指令。其中,指令可以是计算机程序。
其中,存储器904可以是易失性存储器或非易失性存储器,或可包括易失性和非易失 性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、 可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。 易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速 缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器 (static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机 存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器 (double data rateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和 直接内存总线随机存取存储器(directrambus RAM,DR RAM)。存储器904还可以是只 读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压 缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或其他磁存储设备 等。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型 的存储器。
需要指出的是,存储器904可以独立于处理器901存在,也可以和处理器901集成在一起。存储器904可以用于存储指令或者程序代码或者一些数据等。存储器904可以位于 电子设备900内,也可以位于电子设备900外,不予限制。处理器901,用于执行存储器 904中存储的指令,以实现本申请上述实施例提供的方法。
在一种示例中,处理器901可以包括一个或多个CPU,例如图24中的CPU0和CPU1。
作为一种可选的实现方式,编码装置900包括多个处理器,例如,除图24中的处理器901之外,还可以包括处理器907。
作为一种可选的实现方式,电子设备900还包括输出设备905和输入设备906。示例性地,输入设备906是键盘、鼠标、麦克风或操作杆等设备,输出设备905是显示屏、扬 声器(speaker)等设备。
本申请中描述的处理器和收发器可实现在集成电路(integrated circuit,IC)、模拟IC、 射频集成电路、混合信号IC、专用集成电路(application specific integratedcircuit,ASIC)、 印刷电路板(printed circuit board,PCB)、电子设备等上。该处理器和收发器也可以用各种 IC工艺技术来制造,例如互补金属氧化物半导体(complementarymetal oxide semiconductor, CMOS)、N型金属氧化物半导体(nMetal-oxide-semiconductor,NMOS)、P型金属氧化 物半导体(positive channel metal oxidesemiconductor,PMOS)、双极结型晶体管(Bipolar Junction Transistor,BJT)、双极CMOS(BiCMOS)、硅锗(SiGe)、砷化镓(GaAs)等。
需要指出的是,电子设备900可以是任意类型的手持设备或固定设备,例如,笔记本 电脑或膝上型电脑、手机、智能手机、平板或平板电脑、相机、台式计算机、机顶盒、电 视机、显示设备、数字媒体播放器、视频游戏控制台、视频流设备(例如,内容业务服务 器或内容分发服务器)、广播接收设备、广播发射设备以及监控设备等等,并可以不使用 或使用任意类型的操作系统。电子设备900也可以是云计算场景中的设备,例如云计算场 景中的虚拟机等。在一些情况下,电子设备900可配备用于无线通信的组件。因此,电子 设备900可以是无线通信设备。或有图15中类似结构的设备。此外,图24中示出的组成 结构并不构成对该电子设备900的限定,除图24所示部件之外,该电子设备900可以包 括比图24所示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
电子设备900还可以是芯片系统,芯片系统可以由芯片构成,也可以包括芯片和其他 分立器件。
此外,本申请的各实施例之间涉及的动作、术语等均可以相互参考,不予限制。本申 请的实施例中各个设备之间交互的消息名称或消息中的参数名称等只是一个示例,具体实 现中也可以采用其他的名称,不予限制。
作为又一种可实现方式,图23中的收发模块801可以由图24中的收发器902代替,该收发器902可以集成收发模块801的功能;处理模块802可以由处理器907代替,该处 理器907可以集成处理模块802的功能。进一步的,图23所示解码装置800还可以包括 存储器(图中未示出)。当收发模块801由收发器代替,处理模块802由处理器代替时, 本申请实施例所涉及的解码装置800或编码装置可以为图24所示的电子设备900。
根据本申请实施例提供的方法,本申请还提供一种计算机程序产品,该计算机程序产 品包括计算机程序代码,当计算机程序代码在计算机上运行时,使得计算机执行本申请实 施例任一所述的方法。
本申请实施例还提供一种芯片,上述芯片包括至少一个处理器,存储器和接口电路, 上述存储器、上述收发器和上述至少一个处理器通过线路互联,上述至少一个存储器中存 储有计算机程序;上述计算机程序被上述处理器执行时,本申请实施例任一所述的方法得 以实现。
本申请实施例还提供了一种计算机可读存储介质。上述方法实施例中的全部或者部分 流程可以由计算机或者具有信息处理能力的装置执行计算机程序或指令,以控制相关的硬 件完成,该计算机程序或该组指令可存储于上述计算机可读存储介质中,该计算机程序或 该组指令在执行时,可包括如上述各方法实施例的流程。计算机可读存储介质可以是前述 任一实施例的电子设备(包括编码器和/或解码器)的内部存储单元,例如电子设备的硬盘 或内存。上述计算机可读存储介质也可以是上述电子设备的外部存储设备,例如上述电子 设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital, SD)卡,闪存卡(flash card)等。进一步地,上述计算机可读存储介质还可以既包括上述 电子设备的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计 算机程序或指令以及上述电子设备所需的其他程序和数据。上述计算机可读存储介质还可 以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及 算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以 硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可 以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本 申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装 置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通 过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显 示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的 部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络 单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各 个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储 在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现 有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机 软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(个人计算机, 服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的 存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码 的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟 悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖 在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (17)

1.一种解码方法,其特征在于,所述方法包括:
对码流进行解码得到第一特征图,所述第一特征图的分辨率小于原始图像的分辨率;
根据第一神经网络对第二特征图进行重建,得到重建图像,所述第二特征图和所述重建图像的分辨率均为目标分辨率,所述目标分辨率小于所述原始图像的分辨率,其中所述第二特征图为所述第一特征图、或所述第二特征图为通过第二神经网络对所述第一特征图进行处理得到的特征图。
2.根据权利要求1所述的方法,其特征在于,当所述第二特征图为通过所述第二神经网络对所述第一特征图进行处理得到的特征图,所述第二神经网络包括一个或多个输出节点和多个卷积层,所述输出节点位于第一层卷积层的输出端与最后一层卷积层的输入端之间,所述输出节点与所述第一神经网络的输入端连接,所述方法还包括:
将所述第一特征图输入所述第二神经网络,得到所述第二神经网络的目标输出节点输出的所述第二特征图,所述目标输出节点属于所述一个或多个输出节点;
所述根据第一神经网络对第二特征图进行重建,得到重建图像,包括:
将所述目标输出节点输出的第二特征图输入所述第一神经网络,得到所述第一神经网络输出的所述重建图像。
3.根据权利要求2所述的方法,其特征在于,当所述第一神经网络的数量为多个,所述将所述目标输出节点输出的第二特征图输入所述第一神经网络,得到所述第一神经网络输出的所述重建图像,包括:
将所述第二特征图输入所述目标输出节点连接的第一神经网络,得到所述目标输出节点连接的第一神经网络输出的所述重建图像。
4.根据权利要求2所述的方法,其特征在于,当所述目标分辨率的个数为多个,所述目标输出节点的个数为多个,所述将所述第一特征图输入所述第二神经网络,得到所述第二神经网络的目标输出节点输出的所述第二特征图,包括:
将所述第一特征图输入所述第二神经网络,得到所述第二神经网络的多个目标输出节点输出的多个分辨率的第二特征图;
所述将所述第二特征图输入所述目标输出节点连接的第一神经网络,得到所述目标输出节点连接的第一神经网络输出的所述重建图像,包括:
将每个所述目标输出节点输出的第二特征图输入所述目标输出节点连接的第一神经网络,得到所述多个目标输出节点分别连接的第一神经网络输出的多个分辨率的重建图像。
5.根据权利要求2至4任一项所述的方法,其特征在于,当所述第二神经网络包括多个输出节点,每个所述输出节点对应一个输出分辨率,所述方法还包括:
确定所述目标分辨率;
将输出分辨率为所述目标分辨率的输出节点确定为所述目标输出节点。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述第一神经网络包括至少一个卷积层,所述至少一个卷积层的卷积步长为1。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述码流对应M1个通道的二维特征图,所述对码流进行解码得到第一特征图,包括:
对所述M1个通道中M2个通道的二维特征图对应的码流进行解码,得到所述第一特征图,M2<M1,所述第一特征图包括所述M2个通道的二维特征图。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
对所述重建图像进行上采样处理,得到第一图像,所述第一图像的分辨率与所述原始图像的分辨率相同。
9.根据权利要求8所述的方法,其特征在于,所述码流为初始特征图的码流,所述初始特征图是对所述原始图像进行特征提取得到的,所述方法还包括:
对所述M1个通道中除所述M2个通道之外的通道的二维特征图对应的码流进行解码,得到第三特征图,所述第三特征图包括所述M1-M2个通道的二维特征图;
根据所述第二神经网络对所述第一特征图和所述第三特征图进行处理,得到第二图像,所述第二图像的分辨率与所述原始图像的分辨率相同。
10.根据权利要求1至8任一项所述的方法,其特征在于,所述第二特征图包括多个通道的二维特征图,在根据第一神经网络对第二特征图进行重建,得到重建图像之前,所述方法还包括:
对所述第二特征图进行通道缩减处理;
所述根据第一神经网络对第二特征图进行重建,得到重建图像,包括:
根据所述第一神经网络对所述通道缩减处理后的第二特征图进行重建,得到所述重建图像。
11.根据权利要求1至10任一项所述的方法,其特征在于,所述第一特征图包括多个通道的二维特征图,所述方法还包括:
对所述第一特征图进行通道缩减处理;
所述第二特征图为所述通道缩减处理后的第一特征图,或所述第二特征图为通过所述第二神经网络对所述通道缩减处理后的第一特征图进行处理得到的特征图。
12.一种编码方法,其特征在于,所述方法包括:
对原始图像进行特征提取得到初始特征图,所述初始特征图包括多个通道的二维特征图,所述初始特征图的分辨率小于所述原始图像的分辨率;
对待编码特征图进行编码得到码流,所述待编码特征图为所述初始特征图,或包括所述初始特征图中部分通道的二维特征图。
13.一种解码装置,其特征在于,所述解码装置包括:
处理模块,用于对码流进行解码得到第一特征图,所述第一特征图的分辨率小于原始图像的分辨率;
重建模块,用于根据第一神经网络对第二特征图进行重建,得到重建图像,所述第二特征图和所述重建图像的分辨率均为目标分辨率,所述目标分辨率小于所述原始图像的分辨率,其中所述第二特征图为所述第一特征图、或所述第二特征图为通过第二神经网络对所述第一特征图进行处理得到的特征图。
14.一种编码装置,其特征在于,所述编码装置包括:
处理模块,用于对原始图像进行特征提取得到初始特征图,所述初始特征图包括多个通道的二维特征图,所述初始特征图的分辨率小于所述原始图像的分辨率;
编码模块,用于对待编码特征图进行编码得到码流,所述待编码特征图为所述初始特征图,或包括所述初始特征图中部分通道的二维特征图。
15.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个计算机程序或指令;
当所述一个或多个计算机程序或指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-12中任一项所述的方法。
16.一种电子设备,其特征在于,包括:处理器,用于执行如权利要求1-12任一项所述的方法。
17.一种计算机可读存储介质,其特征在于,包括计算机程序或指令,所述计算机程序或指令在计算机上被执行时,使得所述计算机执行权利要求1-12中任一项所述的方法。
CN202110877277.2A 2021-07-31 2021-07-31 编解码方法及装置 Pending CN115700771A (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN202110877277.2A CN115700771A (zh) 2021-07-31 2021-07-31 编解码方法及装置
EP22851697.7A EP4369300A1 (en) 2021-07-31 2022-05-31 Encoding and decoding methods and apparatus
CA3227676A CA3227676A1 (en) 2021-07-31 2022-05-31 Encoding and decoding method, and apparatus
PCT/CN2022/096354 WO2023010981A1 (zh) 2021-07-31 2022-05-31 编解码方法及装置
AU2022321528A AU2022321528A1 (en) 2021-07-31 2022-05-31 Encoding and decoding method, and apparatus
KR1020247006406A KR20240038779A (ko) 2021-07-31 2022-05-31 인코딩 및 디코딩 방법, 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110877277.2A CN115700771A (zh) 2021-07-31 2021-07-31 编解码方法及装置

Publications (1)

Publication Number Publication Date
CN115700771A true CN115700771A (zh) 2023-02-07

Family

ID=85120771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110877277.2A Pending CN115700771A (zh) 2021-07-31 2021-07-31 编解码方法及装置

Country Status (6)

Country Link
EP (1) EP4369300A1 (zh)
KR (1) KR20240038779A (zh)
CN (1) CN115700771A (zh)
AU (1) AU2022321528A1 (zh)
CA (1) CA3227676A1 (zh)
WO (1) WO2023010981A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110300301B (zh) * 2018-03-22 2023-01-13 华为技术有限公司 图像编解码方法和装置
CA3095109A1 (en) * 2018-03-23 2019-09-26 Memorial Sloan Kettering Cancer Center Deep encoder-decoder models for reconstructing biomedical images
CN110033003B (zh) * 2019-03-01 2023-12-15 华为技术有限公司 图像分割方法和图像处理装置
CN112215332B (zh) * 2019-07-12 2024-05-14 华为技术有限公司 神经网络结构的搜索方法、图像处理方法和装置
CN111311704A (zh) * 2020-01-21 2020-06-19 上海联影智能医疗科技有限公司 图像重建方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CA3227676A1 (en) 2023-02-09
AU2022321528A1 (en) 2024-02-15
WO2023010981A1 (zh) 2023-02-09
KR20240038779A (ko) 2024-03-25
EP4369300A1 (en) 2024-05-15

Similar Documents

Publication Publication Date Title
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
WO2022128105A1 (en) Decoding and encoding of neural-network-based bitstreams
CN113344794B (zh) 一种图像处理方法、装置、计算机设备及存储介质
US20230336776A1 (en) Method for chroma subsampled formats handling in machine-learning-based picture coding
US20230336736A1 (en) Method for chroma subsampled formats handling in machine-learning-based picture coding
US20240037802A1 (en) Configurable positions for auxiliary information input into a picture data processing neural network
US20240161488A1 (en) Independent positioning of auxiliary information in neural network based picture processing
CN115442609A (zh) 特征数据编解码方法和装置
WO2023193629A1 (zh) 区域增强层的编解码方法和装置
TWI826160B (zh) 圖像編解碼方法和裝置
CN111861877A (zh) 视频超分变率的方法和装置
TW202318265A (zh) 基於注意力的圖像和視訊壓縮上下文建模
CN115700771A (zh) 编解码方法及装置
CN114299105A (zh) 图像处理方法、装置、计算机设备及存储介质
US20240078414A1 (en) Parallelized context modelling using information shared between patches
WO2024012227A1 (zh) 应用于电子设备的图像显示方法、编码方法及相关装置
TWI834087B (zh) 用於從位元流重建圖像及用於將圖像編碼到位元流中的方法及裝置、電腦程式產品
KR20240064698A (ko) 특징 맵 인코딩 및 디코딩 방법 및 장치
JP2024500744A (ja) ニューラルネットワークによりピクチャを符号化又は復号する方法及び装置
WO2024002496A1 (en) Parallel processing of image regions with neural networks – decoding, post filtering, and rdoq
WO2024002497A1 (en) Parallel processing of image regions with neural networks – decoding, post filtering, and rdoq
CN118120233A (zh) 基于注意力的图像和视频压缩上下文建模
CN118160305A (zh) 基于注意力的图像和视频压缩上下文建模

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination