CN111669587A - 一种视频图像的拟态压缩方法、装置、存储介质及终端 - Google Patents

一种视频图像的拟态压缩方法、装置、存储介质及终端 Download PDF

Info

Publication number
CN111669587A
CN111669587A CN202010306805.4A CN202010306805A CN111669587A CN 111669587 A CN111669587 A CN 111669587A CN 202010306805 A CN202010306805 A CN 202010306805A CN 111669587 A CN111669587 A CN 111669587A
Authority
CN
China
Prior art keywords
image
texture
hidden variable
edge structure
original video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010306805.4A
Other languages
English (en)
Other versions
CN111669587B (zh
Inventor
马思伟
贾川民
赵政辉
常建慧
王苫社
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202010306805.4A priority Critical patent/CN111669587B/zh
Priority to PCT/CN2020/099464 priority patent/WO2021208247A1/zh
Priority to EP20931164.6A priority patent/EP4138391A4/en
Publication of CN111669587A publication Critical patent/CN111669587A/zh
Application granted granted Critical
Publication of CN111669587B publication Critical patent/CN111669587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

本发明公开了一种视频图像的拟态压缩方法、装置、存储介质及终端,所述方法包括:获取原始视频图像;基于所述原始视频图像提取出边缘结构图像及其纹理模拟图像,基于所述纹理模拟图像提取纹理特征隐变量;对所述边缘结构图像和纹理特征隐变量进行解码,生成解码后的边缘结构图像与纹理特征隐变量;将所述解码后的边缘结构图像与纹理特征隐变量输入预先训练的条件卷积生成网络中进行融合,生成压缩重建图像。因此,采用本申请实施例,可以实现图像的拟态压缩与重建,从而提高图像分辨率。

Description

一种视频图像的拟态压缩方法、装置、存储介质及终端
技术领域
本发明涉及数字信号处理领域,特别涉及一种视频图像的拟态压缩方法、 装置、存储介质及终端。
背景技术
拟态这一概念来自于生物学,主要指某些动物在进化过程中形成的,外表 形状或色泽斑纹同其他生物或非生物异常相似的现象,主要是借以自我防卫, 在昆虫和软体动物中最为常见,如木叶蝶形状像枯叶,竹节虫形状像竹节或树 枝。数据压缩是按照特定的编码机制用比未经编码少的数据元表示信息的过程, 旨在寻找一种源数据的紧凑数据表示形式。从拟态的角度出发,建立一种图像 视频压缩框架,能够从原理上和方法上突破传统构建拟态压缩框架。
在现有的图像压缩技术中,编解码的基本过程为,对于静止图像,以JPEG 标准为例,输入一副图像进行JPEG编码,生成JPEG编码码流,而后对码流进 行解码,生成解码重建图像;对于视频,以H.264为例,输入视频进行H.264 编码,生成H.264编码码流,而后对码流进行H.264解码,生成解码重建视频。 由于目前单幅图像超分辨率重建缺少足够的额外先验知识等不足,都较大程度 限制了超分辨率重建图像的质量,从而降低了重建图像的分辨率。
发明内容
本申请实施例提供了一种视频图像的拟态压缩方法、装置、存储介质及终 端。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概 括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些 实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面 的详细说明的序言。
第一方面,本申请实施例提供了一种视频图像的拟态压缩方法,所述方法 包括:
获取原始视频图像;
基于所述原始视频图像提取出边缘结构图像及其纹理模拟图像,基于所述 纹理模拟图像提取纹理特征隐变量;
对所述边缘结构图像和纹理特征隐变量进行解码,生成解码后的边缘结构 图像与纹理特征隐变量;
将所述解码后的边缘结构图像与纹理特征隐变量输入预先训练的条件卷积 生成网络中进行融合,生成压缩重建图像。
可选的,所述获取原始视频图像之前,还包括:
创建条件卷积生成网络;
获取选定的训练数据集;
利用所述选定的训练数据集对所述条件卷积生成网络进行自编码-生成对 抗网络的端到端训练,生成训练后的条件卷积生成网络。
可选的,所述基于所述原始视频图像提取出边缘结构图像及其纹理模拟图 像,基于所述纹理模拟图像提取纹理特征隐变量,包括:
基于深度学习与图像处理技术对所述原始视频图像进行结构提取生成边缘 结构图像;
通过深度卷积网络对所述原始图像进行特征降维与提取,生成纹理特征隐 变量。
可选的,所述对所述边缘结构图像和纹理特征隐变量进行解码,生成解码 后的边缘结构图像与纹理特征隐变量,包括:
利用下采样和编码器结合的方式对所述原始视频图像对应的边缘结构图像 进行处理,生成边缘结构图像的极致压缩码流,作为解码后的边缘结构图像;
通过对所述原始视频图像对应的纹理特征隐变量进行量化熵编码实现压缩, 生成解码后的纹理特征隐变量。
可选的,所述基于所述原始视频图像提取出所述原始视频图像对应的边缘 结构图像和纹理特征隐变量,包括:
将所述原始视频图像分解成若干信息层,所述信息层至少包括纹理信息层 和结构信息层;其中,
所述纹理信息层为纹理特征隐变量,所述结构信息层为边缘结构图像。
可选的,所述将所述解码后的边缘结构图像与纹理特征隐变量输入条件卷 积生成网络中进行融合,生成压缩重建图像,包括:
将所述纹理信息层和结构信息层进行压缩编码生成第一结构化码流和第二 结构化码流,所述第一结构化码流为所述结构信息层的信号,所述第二结构化 码流为所述纹理信息层的信号;
基于所述第一结构化码流和第二结构化码流对所述原始视频图像和语义迁 移图像联合重建,生成压缩重建图像。
可选的,所述结构化码流的信息中还包括视频图像的元数据(meta data), 所述元数据中至少包括原始视频图像的分辨率、帧率、位深、纹理信息层和结 构信息层信号分别所含有的比特数。
第二方面,本申请实施例提供了一种视频图像的拟态压缩装置,所述装置 包括:
图像获取模块,用于获取原始视频图像;
信息提取模块,用于基于所述原始视频图像提取出边缘结构图像及其纹理 模拟图像,基于所述纹理模拟图像提取纹理特征隐变量;
信息解码模块,用于对所述边缘结构图像和纹理特征隐变量进行解码,生 成解码后的边缘结构图像与纹理特征隐变量;
信息融合模块,用于将所述解码后的边缘结构图像与纹理特征隐变量输入 预先训练的条件卷积生成网络中进行融合,生成压缩重建图像。
第三方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质 存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供一种终端,可包括:处理器和存储器;其中, 所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行 上述的方法步骤。
本申请实施例提供的技术方案可以包括以下有益效果:
在本申请实施例中,终端首先获取原始视频图像,再基于所述原始视频图 像提取出边缘结构图像及其纹理模拟图像,基于所述纹理模拟图像提取纹理特 征隐变量,然后对所述边缘结构图像和纹理特征隐变量进行解码,生成解码后 的边缘结构图像与纹理特征隐变量,最后将所述解码后的边缘结构图像与纹理 特征隐变量输入预先训练的条件卷积生成网络中进行融合,生成压缩重建图像。 由于本申请中利用条件深度卷积网络结合生成对抗模型的优点建立条件卷积生 成网络,利用卷积神经网络强大的特征提取能力与降维抽象能力,在此基础上 加以适当的条件辅助生成样本,从而借助条件深度卷积网络实现图像拟态压缩 与重建。通过端到端的训练纹理信息压缩编码与图像重建网络,将图像结构层与纹理层信息的相互独立处理,实现通过改变纹理特征隐编量来转换重建图像 的语义信息的变化,从而提高了重建图像的分辨率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的, 并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明 的实施例,并与说明书一起用于解释本发明的原理。
图1是本申请实施例提供的一种视频图像的拟态压缩方法的流程示意图;
图2是本申请实施例提供的一种视频图像的拟态压缩的过程示意图;
图3是本申请实施例提供的一种拟态压缩纹理变换的示意图;
图4是本申请实施例提供的另一种视频图像的拟态压缩方法的流程示意图;
图5是本申请实施例提供的一种图像的拟态压缩后的效果示意图;
图6是本申请实施例提供的一种视频图像的拟态压缩装置的装置示意图;
图7是本申请实施例提供的一种终端的结构示意图。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人 员能够实践它们。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实 施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前 提下所获得的所有其它实施例,都属于本发明保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同 或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一 致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的 一些方面相一致的装置和方法的例子。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述 目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言, 可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中, 除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联 关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同 时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一 种“或”的关系。
到目前为止,在现有的图像压缩技术中,编解码的基本过程为,对于静止 图像,以JPEG标准为例,输入一副图像进行JPEG编码,生成JPEG编码码流, 而后对码流进行解码,生成解码重建图像;对于视频,以H.264为例,输入视 频进行H.264编码,生成H.264编码码流,而后对码流进行H.264解码,生成 解码重建视频。由于目前单幅图像超分辨率重建缺少足够的额外先验知识等不 足,都较大程度限制了超分辨率重建图像的质量,从而降低了重建图像的分辨 率。为此,本申请提供了一种视频图像的拟态压缩方法、装置、存储介质及终端,以解决上述相关技术问题中存在的问题。本申请提供的技术方案中,由于 本申请中利用条件深度卷积网络结合生成对抗模型的优点建立条件卷积生成网 络,利用卷积神经网络强大的特征提取能力与降维抽象能力,在此基础上加以 适当的条件辅助生成样本,从而借助条件深度卷积网络实现图像拟态压缩与重 建。通过端到端的训练纹理信息压缩编码与图像重建网络,将图像结构层与纹 理层信息的相互独立处理,实现通过改变纹理特征隐编量来转换重建图像的语 义信息的变化,从而提高了重建图像的分辨率,下面采用示例性的实施例进行 详细说明。
下面将结合附图1-附图5,对本申请实施例提供的视频图像的拟态压缩方 法进行详细介绍。该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体 系的视频图像的拟态压缩装置上。该计算机程序可集成在应用中,也可作为独 立的工具类应用运行。其中,本申请实施例中的视频图像的拟态压缩装置可以 为用户终端,包括但不限于:个人电脑、平板电脑、手持设备、车载设备、可 穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网 络中用户终端可以叫做不同的名称,例如:用户设备、接入终端、用户单元、 用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、 无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理 (personal digitalassistant,PDA)、5G网络或未来演进网络中的终端设备 等。
请参见图1,为本申请实施例提供了一种视频图像的拟态压缩方法的流程 示意图。如图1所示,本申请实施例的所述方法可以包括以下步骤:
S101,获取原始视频图像;
其中,原始视频图像是视频中连续的图像帧。
在本申请实施例中,当对原始视频中的图像帧进行拟态压缩处理时,首先 需要获取原始视频中连续的图像帧。
S102,基于所述原始视频图像提取出边缘结构图像及其纹理模拟图像,基 于所述纹理模拟图像提取纹理特征隐变量;
在一种可能的实现方式中,当获取到原始视频中连续的图像帧时,首先通 过结构提取网络提取原始图像的结构信息得到图像帧的边缘结构图像,再将边 缘结构图像经过下采样加编码压缩的方式对边缘结构图像进行处理得到边缘结 构图像的极致压缩码流,然后从原始视频中连续的图像帧中获取图像帧的纹理 模拟图像,再采用纹理压缩网络对纹理模拟图像进行处理得到纹理模拟图像对 应的纹理特征隐变量。
例如图2所示,首先基于原始图像进行结构提取和纹理提取,分别得到原 始图像对应的边缘结构图像和纹理模拟图像,再将边缘结构图像进行下采样和 编码压缩得到结构图像码流,再将纹理模拟图像经过卷积网络编码器处理生成 纹理特征隐变量,再将纹理特征隐变量量化熵编码生成模拟图像码流,最后将 结构图像码流和模拟图像码流输入条件卷积生成网络中进行拟态压缩,最后生 成压缩重建图像。
S103,对所述边缘结构图像和纹理特征隐变量进行解码,生成解码后的边 缘结构图像与纹理特征隐变量;
在本申请实施例中,利用下采样和编码器结合的方式对原始视频图像对应 的边缘结构图像进行处理,生成边缘结构图像的极致压缩码流,通过对原始视 频图像对应的纹理特征隐变量进行量化熵编码实现压缩,生成解码后的纹理特 征隐变量。
具体的,本申请针对边缘结构图像素稀疏性与二值化特征设计了对边缘图 像高倍下采样作为传统编码器压缩的预处理环节,在解码端再使用超分辨率模 型重建边缘图。纹理隐变量根据数据集的语义纹理复杂程度选择不同最佳特征 维度,实验中选择8~32作为纹理隐变量的固定维度。为了进一步节省码率,本 实例使用HEVC量化公式对纹理隐变量进行量化并在uint16范围截断,再使用 算术编码器进行压缩。
在本申请实施例中,首先将原始图像帧分解为多通道视觉信息层,包括纹 理、结构、语义信息层等,然后对于纹理信息层,将待其嵌入到一个固定维度 的特征隐变量空间并量化压缩,再利用深度网络特征提取算子得到结构信息层, 并进行下采样与传统编码器结合实现边缘图像的语义压缩。在解码端,将解码 后的隐变量通过条件卷积的方式输入对抗网络实现重建。在本申请中,多通道 信息层之间相互独立,可以实现结构信息、纹理信息和语义信息的自由组合与 图像重建,达到了图像纹理拟态化转换的目的,另外通过下采样与传统压缩方 式结合将图像结构层信息进行压缩,同时纹理信息层的编码表示高效紧凑,从 而达到了极低码率拟态压缩的目的。
S104,将所述解码后的边缘结构图像与纹理特征隐变量输入预先训练的条 件卷积生成网络中进行融合,生成压缩重建图像。
在本申请实施例中,将原始视频图像分解成若干信息层,信息层至少包括 纹理信息层和结构信息层,将纹理信息层和结构信息层进行压缩编码生成第一 结构化码流和第二结构化码流,基于第一结构化码流和第二结构化码流对原始 视频图像和语义迁移图像联合重建,生成压缩重建图像。
进一步地,在图像的拟态压缩中,提取的边缘图像与纹理隐变量对应的结 构化码流在生成器相互融合来重建目标图像。本实例设计了如图3所示的纹理 隐变量的自适应融合方式。对于生成器网络的每一层,增加一个全连接层FCi, 由该层将纹理隐变量z映射为这一层的两个融合系数ys,i,yb,i,映射函数为fi,即: ys,i,yb,i=fi(z)。
对生成器的每一层输入xi(第一层的输入即为边缘图,其它下采样层的输 入则为上一层的输出,上采样层的输入为上一层的输出与跳层连接的串联),隐 变量使用公式
Figure BDA0002456082590000081
进行融合。
通过上述的自适应融合方式,隐变量在重映射与归一化计算过程中将纹理 信息在生成器的每一层与边缘结构实现了有效融合,有效地提升了生成器对复 杂纹理的重建效果。
进一步地,将原始图像I压缩成比特率极低的比特流,并重建出与原始图 像保持主观感知一致且质量较高的图像I^。图3中展示了本文所提压缩算法 的框架与流程,它由两个独立的层组成:通过对图像I提取其边缘图像I^E来 获得边缘层,从而保留图像I的结构信息,与此同时,变分自编码器将高维的 纹理信息编码成低维向量来获得纹理层,从而保留了图像I的语义与纹理信息。 边缘图像与低维隐变量都可以被高效的压缩为二进制流,从而形成最终传输的 比特流。最终在解码端,条件生成网络以重建的边缘图像为条件输入,使用隐 变量在生成器中与边缘图像分层自适应融合以生成图像I^,从而实现高视觉感知质量的重建。
在本申请实施例中,终端首先获取原始视频图像,再基于所述原始视频图 像提取出边缘结构图像及其纹理模拟图像,基于所述纹理模拟图像提取纹理特 征隐变量,然后对所述边缘结构图像和纹理特征隐变量进行解码,生成解码后 的边缘结构图像与纹理特征隐变量,最后将所述解码后的边缘结构图像与纹理 特征隐变量输入预先训练的条件卷积生成网络中进行融合,生成压缩重建图像。 由于本申请中利用条件深度卷积网络结合生成对抗模型的优点建立条件卷积生 成网络,利用卷积神经网络强大的特征提取能力与降维抽象能力,在此基础上 加以适当的条件辅助生成样本,从而借助条件深度卷积网络实现图像拟态压缩 与重建。通过端到端的训练纹理信息压缩编码与图像重建网络,将图像结构层与纹理层信息的相互独立处理,实现通过改变纹理特征隐编量来转换重建图像 的语义信息的变化,从而提高了重建图像的分辨率。
请参见图4,为本申请实施例提供的一种视频图像的拟态压缩方法的流程 示意图。本实施例以视频图像的拟态压缩方法应用于用户终端中来举例说明。 该视频图像的拟态压缩方法可以包括以下步骤:
S201,创建条件卷积生成网络;
S202,获取选定的训练数据集;
S203,利用所述选定的训练数据集对所述条件卷积生成网络进行自编码生 成对抗网络的端到端训练,生成训练后的条件卷积生成网络;
在本申请实施例中,为了压缩图像的纹理信息,本实例中训练了一个端到 端的VAE-GAN网络来从原始图像中提取纹理信息的隐变量。编码器采用具有残 差块结构的变分自编码器模型,生成器采用包含编码网络、解码网络与瓶颈层、 并具有对称跳跃直联结构的Unet网络结构。在训练过程中采用最小二乘生成式 对抗网络变体损失项;同时加入KL散度度量隐变量后验分布与标准高斯分布的 距离;并增加生成图像与原始图像之间的最小绝对值误差损失与视觉感知损失 (VGG损失)来分别保留像素级与视觉感知级的纹理信息;另外,为了增强纹 理隐变量与对应图像之间的内部关联、提高隐变量对纹理信息的概念表征能力, 损失函数还增加了由生成图像与原始图像分别编码压缩得到的纹理隐变量的最小绝对值误差损失项。
进一步地,在训练过程中,编码器与生成器同步优化,生成器与判别器交 替优化。训练完成后,本方案即可将纹理压缩编码器与图像重建生成器应用于 拟态压缩。如图x流程所示,在应用时,一方面对原始提取边缘结构图像,另 一方面选取要模拟其纹理的条件图像,由卷积网络编码器提取其纹理特征隐变 量,最后将边缘结构图像与纹理特征隐变量一同输入生成网络中获得拟态重建 图像。
S204,获取原始视频图像;
S205,基于深度学习与图像处理技术对所述原始视频图像进行结构提取生 成边缘结构图像;
S206,通过对所述原始视频图像对应的纹理特征隐变量进行量化熵编码实 现压缩,生成解码后的纹理特征隐变量;
S207,利用下采样和编码器结合的方式对所述原始视频图像对应的边缘结 构图像进行处理,生成边缘结构图像的极致压缩码流,作为解码后的边缘结构 图像;
S208,通过对所述原始视频图像对应的纹理特征隐变量进行量化熵编码实 现压缩,生成解码后的纹理特征隐变量;
S209,将所述解码后的边缘结构图像与纹理特征隐变量输入预先训练的条 件卷积生成网络中进行融合,生成压缩重建图像。
在本申请实施例中,本方案应用需要两个阶段,预训练与应用阶段。在预 训练阶段,对选定的数据集采用上述条件自编码-生成对抗网络进行端到端的训 练,即对原始图像分别提取边缘图像与纹理隐变量,再将其输入至生成网络获 得重建图像,通过梯度下降法不断降低重建图像与原始图像的差异并提升重建 图像的主观与客观质量,实现对编码器与生成器的优化。
在应用阶段,解耦训练好的模型,在解码端分别提取边缘图与纹理隐变量, 再分别压缩为两个分离的比特流,在解码端首先分别解码重建边缘图像与隐变 量,再将其输入生成器网络中重建出目标图像;在进行拟态变换时,选择要模 拟的条件图像输入纹理压缩编码器中获得相应的纹理隐变量,或通过对标准高 斯分布随机采样获得随机纹理隐变量,与原始图像提取的边缘图像共同输入条 件卷积生成网络中获得目标拟态重建图像。
本发明在压缩方面,压缩性能在节省码率与主观质量两个方面与传统编码 器如JPEG,JPEG2000,HEVC相比具有明显的优越性,对比效果如图5所示。在拟 态变换方面,本发明能够实现图像边缘结构层与纹理感知层的自由组合与自然 融合,从而能够对给定图像结构切换不同纹理形态并生成具有高主观视觉质量 的图像,即拟态压缩重建。拟态压缩重建在人脸、鞋包、自然图像数据集上的 效果如图所示。
可见,本发明提出的方法将图像分为相互独立不同视觉感知层次,特征流 高效紧凑的表征了图像的纹理信息与结构信息,使图像在压缩时具有视觉特征 可分析性与纹理特征可编辑性,还极大的节省了码率,提升了极低码率压缩时 主观质量。
在本申请实施例中,终端首先获取原始视频图像,再基于所述原始视频图 像提取出边缘结构图像及其纹理模拟图像,基于所述纹理模拟图像提取纹理特 征隐变量,然后对所述边缘结构图像和纹理特征隐变量进行解码,生成解码后 的边缘结构图像与纹理特征隐变量,最后将所述解码后的边缘结构图像与纹理 特征隐变量输入预先训练的条件卷积生成网络中进行融合,生成压缩重建图像。 由于本申请中利用条件深度卷积网络结合生成对抗模型的优点建立条件卷积生 成网络,利用卷积神经网络强大的特征提取能力与降维抽象能力,在此基础上 加以适当的条件辅助生成样本,从而借助条件深度卷积网络实现图像拟态压缩 与重建。通过端到端的训练纹理信息压缩编码与图像重建网络,将图像结构层与纹理层信息的相互独立处理,实现通过改变纹理特征隐编量来转换重建图像 的语义信息的变化,从而提高了重建图像的分辨率。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明 装置实施例中未披露的细节,请参照本发明方法实施例。
请参见图6,其示出了本发明一个示例性实施例提供的视频图像的拟态压 缩装置的结构示意图。该视频图像的拟态压缩装置可以通过软件、硬件或者两 者的结合实现成为终端的全部或一部分。该装置1包括图像获取模块10、信息 提取模块20、信息解码模块30和信息融合模块40。
图像获取模块10,用于获取原始视频图像;
信息提取模块20,用于基于所述原始视频图像提取出边缘结构图像及其纹 理模拟图像,基于所述纹理模拟图像提取纹理特征隐变量;
信息解码模块30,用于对所述边缘结构图像和纹理特征隐变量进行解码, 生成解码后的边缘结构图像与纹理特征隐变量;
信息融合模块40,用于将所述解码后的边缘结构图像与纹理特征隐变量输 入预先训练的条件卷积生成网络中进行融合,生成压缩重建图像。
需要说明的是,上述实施例提供的视频图像的拟态压缩装置在执行视频图 像的拟态压缩方法时,仅以上述各功能模块的划分进行举例说明,实际应用中, 可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构 划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实 施例提供的视频图像的拟态压缩装置与视频图像的拟态压缩方法实施例属于同 一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请实施例中,终端首先获取原始视频图像,再基于所述原始视频图 像提取出边缘结构图像及其纹理模拟图像,基于所述纹理模拟图像提取纹理特 征隐变量,然后对所述边缘结构图像和纹理特征隐变量进行解码,生成解码后 的边缘结构图像与纹理特征隐变量,最后将所述解码后的边缘结构图像与纹理 特征隐变量输入预先训练的条件卷积生成网络中进行融合,生成压缩重建图像。 由于本申请中利用条件深度卷积网络结合生成对抗模型的优点建立条件卷积生 成网络,利用卷积神经网络强大的特征提取能力与降维抽象能力,在此基础上 加以适当的条件辅助生成样本,从而借助条件深度卷积网络实现图像拟态压缩 与重建。通过端到端的训练纹理信息压缩编码与图像重建网络,将图像结构层与纹理层信息的相互独立处理,实现通过改变纹理特征隐编量来转换重建图像 的语义信息的变化,从而提高了重建图像的分辨率。
本发明还提供一种计算机可读介质,其上存储有程序指令,该程序指令被 处理器执行时实现上述各个方法实施例提供的视频图像的拟态压缩方法。
本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使 得计算机执行上述各个方法实施例所述的视频图像的拟态压缩方法。
请参见图7,为本申请实施例提供了一种终端的结构示意图。如图7所示, 所述终端1000可以包括:至少一个处理器1001,至少一个网络接口1004,用 户接口1003,存储器1005,至少一个通信总线1002。
其中,通信总线1002用于实现这些组件之间的连接通信。
其中,用户接口1003可以包括显示屏(Display)、摄像头(Camera),可 选用户接口1003还可以包括标准的有线接口、无线接口。
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI 接口)。
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各 种借口和线路连接整个电子设备1000内的各个部分,通过运行或执行存储在存 储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内 的数据,执行电子设备1000的各种功能和处理数据。可选的,处理器1001可 以采用数字信号处理(Digital SignalProcessing,DSP)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处 理器(Central Processing Unit,CPU)、图像处理器(Graphics ProcessingUnit, GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、 用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制; 调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成 到处理器1001中,单独通过一块芯片进行实现。
其中,存储器1005可以包括随机存储器(Random Access Memory,RAM), 也可以包括只读存储器(Read-Only Memory)。可选的,该存储器1005包括非 瞬时性计算机可读介质(non-transitory computer-readable storage medium)。 存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可 包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的 指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功 能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方 法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图7所示,作为一种计算机存储介质的存储器 1005中可以包括操作系统、网络通信模块、用户接口模块以及视频图像的拟态 压缩应用程序。
在图7所示的终端1000中,用户接口1003主要用于为用户提供输入的接 口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的 视频图像的拟态压缩应用程序,并具体执行以下操作:
获取原始视频图像;
基于所述原始视频图像提取出边缘结构图像及其纹理模拟图像,基于所述 纹理模拟图像提取纹理特征隐变量;
对所述边缘结构图像和纹理特征隐变量进行解码,生成解码后的边缘结构 图像与纹理特征隐变量;
将所述解码后的边缘结构图像与纹理特征隐变量输入预先训练的条件卷积 生成网络中进行融合,生成压缩重建图像。
在一个实施例中,所述处理器1001在执行所述获取原始视频图像之前时, 还执行以下操作:
创建条件卷积生成网络;
获取选定的训练数据集;
利用所述选定的训练数据集对所述条件卷积生成网络进行自编码生成对抗 网络的端到端训练,生成训练后的条件卷积生成网络。
在本申请实施例中,终端首先获取原始视频图像,再基于所述原始视频图 像提取出边缘结构图像及其纹理模拟图像,基于所述纹理模拟图像提取纹理特 征隐变量,然后对所述边缘结构图像和纹理特征隐变量进行解码,生成解码后 的边缘结构图像与纹理特征隐变量,最后将所述解码后的边缘结构图像与纹理 特征隐变量输入预先训练的条件卷积生成网络中进行融合,生成压缩重建图像。 由于本申请中利用条件深度卷积网络结合生成对抗模型的优点建立条件卷积生 成网络,利用卷积神经网络强大的特征提取能力与降维抽象能力,在此基础上 加以适当的条件辅助生成样本,从而借助条件深度卷积网络实现图像拟态压缩 与重建。通过端到端的训练纹理信息压缩编码与图像重建网络,将图像结构层与纹理层信息的相互独立处理,实现通过改变纹理特征隐编量来转换重建图像 的语义信息的变化,从而提高了重建图像的分辨率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机 可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。 其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之 权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (10)

1.一种视频图像的拟态压缩方法,其特征在于,所述方法包括:
获取原始视频图像;
基于所述原始视频图像提取出边缘结构图像及其纹理模拟图像,基于所述纹理模拟图像提取纹理特征隐变量;
对所述边缘结构图像和纹理特征隐变量进行解码,生成解码后的边缘结构图像与纹理特征隐变量;
将所述解码后的边缘结构图像与纹理特征隐变量输入预先训练的条件卷积生成网络中进行融合,生成压缩重建图像。
2.根据权利要求1所述的方法,其特征在于,所述获取原始视频图像之前,还包括:
创建条件卷积生成网络;
获取选定的训练数据集;
利用所述选定的训练数据集对所述条件卷积生成网络进行自编码生成对抗网络的端到端训练,生成训练后的条件卷积生成网络。
3.根据权利要求1所述的方法,其特征在于,所述基于所述原始视频图像提取出边缘结构图像及其纹理模拟图像,基于所述纹理模拟图像提取纹理特征隐变量,包括:
基于深度学习与图像处理技术对所述原始视频图像进行结构提取生成边缘结构图像;
通过对所述原始视频图像对应的纹理特征隐变量进行量化熵编码实现压缩,生成解码后的纹理特征隐变量。
4.根据权利要求1所述的方法,其特征在于,所述对所述边缘结构图像和纹理特征隐变量进行解码,生成解码后的边缘结构图像与纹理特征隐变量,包括:
利用下采样和编码器结合的方式对所述原始视频图像对应的边缘结构图像进行处理,生成边缘结构图像的极致压缩码流,作为解码后的边缘结构图像;
通过对所述原始视频图像对应的纹理特征隐变量进行量化熵编码实现压缩,生成解码后的纹理特征隐变量。
5.根据权利要求1所述的方法,其特征在于,所述基于所述原始视频图像提取出所述原始视频图像对应的边缘结构图像和纹理特征隐变量,包括:
将所述原始视频图像分解成若干信息层,所述信息层至少包括纹理信息层和结构信息层;其中,
所述纹理信息层为纹理特征隐变量,所述结构信息层为边缘结构图像。
6.根据权利要求1或5所述的方法,其特征在于,所述将所述解码后的边缘结构图像与纹理特征隐变量输入条件卷积生成网络中进行融合,生成压缩重建图像,包括:
将所述纹理信息层和结构信息层进行压缩编码生成第一结构化码流和第二结构化码流,所述第一结构化码流为所述结构信息层的信号,所述第二结构化码流为所述纹理信息层的信号;
基于所述第一结构化码流和第二结构化码流对所述原始视频图像和语义迁移图像联合重建,生成压缩重建图像。
7.根据权利要求6所述的方法,其特征在于,所述结构化码流的信息中还包括视频图像的元数据(meta data),所述元数据中至少包括原始视频图像的分辨率、帧率、位深、纹理信息层和结构信息层信号分别所含有的比特数。
8.一种视频图像的拟态压缩装置,其特征在于,所述装置包括:
图像获取模块,用于获取原始视频图像;
信息提取模块,用于基于所述原始视频图像提取出边缘结构图像及其纹理模拟图像,基于所述纹理模拟图像提取纹理特征隐变量;
信息解码模块,用于对所述边缘结构图像和纹理特征隐变量进行解码,生成解码后的边缘结构图像与纹理特征隐变量;
信息融合模块,用于将所述解码后的边缘结构图像与纹理特征隐变量输入预先训练的条件卷积生成网络中进行融合,生成压缩重建图像。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~7任意一项的方法步骤。
10.一种终端,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~7任意一项的方法步骤。
CN202010306805.4A 2020-04-17 2020-04-17 一种视频图像的拟态压缩方法、装置、存储介质及终端 Active CN111669587B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010306805.4A CN111669587B (zh) 2020-04-17 2020-04-17 一种视频图像的拟态压缩方法、装置、存储介质及终端
PCT/CN2020/099464 WO2021208247A1 (zh) 2020-04-17 2020-06-30 一种视频图像的拟态压缩方法、装置、存储介质及终端
EP20931164.6A EP4138391A4 (en) 2020-04-17 2020-06-30 MIMETIC COMPRESSION METHOD AND DEVICE FOR VIDEO IMAGE AS WELL AS STORAGE MEDIUM AND TERMINAL DEVICE

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010306805.4A CN111669587B (zh) 2020-04-17 2020-04-17 一种视频图像的拟态压缩方法、装置、存储介质及终端

Publications (2)

Publication Number Publication Date
CN111669587A true CN111669587A (zh) 2020-09-15
CN111669587B CN111669587B (zh) 2021-07-20

Family

ID=72382761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010306805.4A Active CN111669587B (zh) 2020-04-17 2020-04-17 一种视频图像的拟态压缩方法、装置、存储介质及终端

Country Status (3)

Country Link
EP (1) EP4138391A4 (zh)
CN (1) CN111669587B (zh)
WO (1) WO2021208247A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580481A (zh) * 2020-12-14 2021-03-30 康佳集团股份有限公司 基于边缘节点和云端协同视频处理方法、装置、服务器
CN114418919A (zh) * 2022-03-25 2022-04-29 北京大甜绵白糖科技有限公司 图像融合方法及装置、电子设备和存储介质
WO2022089522A1 (zh) * 2020-10-28 2022-05-05 华为技术有限公司 一种数据传输的方法和装置
CN115278246A (zh) * 2022-08-01 2022-11-01 天津大学 一种深度图端到端智能压缩编码方法及装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114040140B (zh) * 2021-11-15 2024-04-12 北京医百科技有限公司 一种视频抠图方法、装置、系统及存储介质
CN114245126B (zh) * 2021-11-26 2022-10-14 电子科技大学 一种纹理协同的深度特征图压缩方法
CN114255161B (zh) * 2022-02-28 2022-06-14 武汉大学 一种双尺度解耦的逼真图像颜色迁移方法及设备
CN115527216B (zh) * 2022-11-09 2023-05-23 中国矿业大学(北京) 基于调制融合和生成对抗网络的文本生成图像方法
CN117196981B (zh) * 2023-09-08 2024-04-26 兰州交通大学 一种基于纹理和结构调和的双向信息流方法
CN117291962B (zh) * 2023-11-27 2024-02-02 电子科技大学 一种基于通道分解的轻量神经网络的去块效应方法
CN117422855B (zh) * 2023-12-19 2024-05-03 浙江省北大信息技术高等研究院 面向机器视觉的图像预处理方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460746A (zh) * 2018-04-10 2018-08-28 武汉大学 一种基于结构和纹理分层预测的图像修复方法
CN109002852A (zh) * 2018-07-11 2018-12-14 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN109120937A (zh) * 2017-06-26 2019-01-01 杭州海康威视数字技术股份有限公司 一种视频编码方法、解码方法、装置及电子设备
US20190108396A1 (en) * 2017-10-11 2019-04-11 Aquifi, Inc. Systems and methods for object identification
CN110111289A (zh) * 2019-04-28 2019-08-09 深圳市商汤科技有限公司 一种图像处理方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014052602A1 (en) * 2012-09-28 2014-04-03 Vid Scale, Inc. Method and apparatus of edge guided processing for video coding
US11580361B2 (en) * 2017-04-24 2023-02-14 Intel Corporation Neural network training mechanism
CN110166779B (zh) * 2019-05-23 2021-06-08 西安电子科技大学 基于超分辨率重构的视频压缩方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109120937A (zh) * 2017-06-26 2019-01-01 杭州海康威视数字技术股份有限公司 一种视频编码方法、解码方法、装置及电子设备
US20190108396A1 (en) * 2017-10-11 2019-04-11 Aquifi, Inc. Systems and methods for object identification
CN108460746A (zh) * 2018-04-10 2018-08-28 武汉大学 一种基于结构和纹理分层预测的图像修复方法
CN109002852A (zh) * 2018-07-11 2018-12-14 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN110111289A (zh) * 2019-04-28 2019-08-09 深圳市商汤科技有限公司 一种图像处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马思伟 等: "智能视频编码", 《人工智能》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022089522A1 (zh) * 2020-10-28 2022-05-05 华为技术有限公司 一种数据传输的方法和装置
CN112580481A (zh) * 2020-12-14 2021-03-30 康佳集团股份有限公司 基于边缘节点和云端协同视频处理方法、装置、服务器
CN112580481B (zh) * 2020-12-14 2024-05-28 康佳集团股份有限公司 基于边缘节点和云端协同视频处理方法、装置、服务器
CN114418919A (zh) * 2022-03-25 2022-04-29 北京大甜绵白糖科技有限公司 图像融合方法及装置、电子设备和存储介质
CN114418919B (zh) * 2022-03-25 2022-07-26 北京大甜绵白糖科技有限公司 图像融合方法及装置、电子设备和存储介质
CN115278246A (zh) * 2022-08-01 2022-11-01 天津大学 一种深度图端到端智能压缩编码方法及装置
CN115278246B (zh) * 2022-08-01 2024-04-16 天津大学 一种深度图端到端智能压缩编码方法及装置

Also Published As

Publication number Publication date
WO2021208247A1 (zh) 2021-10-21
EP4138391A1 (en) 2023-02-22
CN111669587B (zh) 2021-07-20
EP4138391A4 (en) 2024-05-22

Similar Documents

Publication Publication Date Title
CN111669587B (zh) 一种视频图像的拟态压缩方法、装置、存储介质及终端
CN108696761B (zh) 一种图片文件处理方法及其设备、系统
Chen et al. Exploiting intra-slice and inter-slice redundancy for learning-based lossless volumetric image compression
CN111970513A (zh) 一种图像处理方法、装置、电子设备及存储介质
WO2020237646A1 (zh) 图像处理方法、设备及计算机可读存储介质
US11983906B2 (en) Systems and methods for image compression at multiple, different bitrates
KR101687865B1 (ko) 인코더, 디코더 및 방법
CN114581544A (zh) 图像压缩方法、计算机设备及计算机存储介质
CN113259665A (zh) 一种图像处理方法以及相关设备
CN116233445B (zh) 视频的编解码处理方法、装置、计算机设备和存储介质
CN109151503B (zh) 一种图片文件处理方法及其设备
CN105556850B (zh) 编码器、解码器及其运行方法
CN111050170A (zh) 基于gan的图片压缩系统构建方法、压缩系统及方法
CN108182712B (zh) 图像处理方法、装置及系统
CN111479286B (zh) 一种边缘计算系统减少通信流量的数据处理方法
CN115409697A (zh) 一种图像处理方法及相关装置
CN111080729A (zh) 基于Attention机制的训练图片压缩网络的构建方法及系统
CN113554719B (zh) 一种图像编码方法、解码方法、存储介质及终端设备
CN112887722B (zh) 一种图像无损压缩方法
CN115294222A (zh) 图像编码方法及图像处理方法、终端及介质
Yin et al. A co-prediction-based compression scheme for correlated images
CN116918329A (zh) 一种视频帧的压缩和视频帧的解压缩方法及装置
Deshmukh Image compression using neural networks
CN114998457B (zh) 图像压缩方法、图像解压方法及相关设备、可读存储介质
Dar et al. Compression for multiple reconstructions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant