CN112203093B - 一种基于深度神经网络的信号处理方法 - Google Patents

一种基于深度神经网络的信号处理方法 Download PDF

Info

Publication number
CN112203093B
CN112203093B CN202011082797.6A CN202011082797A CN112203093B CN 112203093 B CN112203093 B CN 112203093B CN 202011082797 A CN202011082797 A CN 202011082797A CN 112203093 B CN112203093 B CN 112203093B
Authority
CN
China
Prior art keywords
frame
network
neural network
information
optical flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011082797.6A
Other languages
English (en)
Other versions
CN112203093A (zh
Inventor
侯兴松
李瑞敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Tianbiyou Technology Co ltd
Original Assignee
Suzhou Tianbiyou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Tianbiyou Technology Co ltd filed Critical Suzhou Tianbiyou Technology Co ltd
Priority to CN202011082797.6A priority Critical patent/CN112203093B/zh
Publication of CN112203093A publication Critical patent/CN112203093A/zh
Application granted granted Critical
Publication of CN112203093B publication Critical patent/CN112203093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于深度神经网络的信号处理方法,首先根据当前帧与前一帧均方差的阈值将视频帧分为关键帧和非关键帧,再分别对应为其训练网络模型进行压缩;对于非关键帧,采用了基于上下文与超先验的熵模型自编码器进行帧内预测;对于非关键帧,提取光流信息和深度信息结合生成运动信息,从而进行帧重构,再对重构帧与真实帧之间的残差进行提取编码,最终在解码端根据传输的运动信息和残差信息结合前一帧来生成当前帧。本发明充分利用了深度神经网络强大的非线性表达能力和联合训练的优势,是一个压缩效果超越h.264的端到端视频压缩方法。

Description

一种基于深度神经网络的信号处理方法
技术领域
本发明涉及涉及视频压缩领域,具体涉及一种结合光流信息与深度信息进行帧预测的视频压缩方法。
背景技术
图像/视频编码通常是指将图像/视频压缩成二进制代码以便于存储和传输的计算技术。压缩根据能否保证图像/视频从比特完美地重建分为无损编码和有损编码。对于自然图像/视频,无损编码的压缩效率通常低于要求,因此大部分工作都集中在有损编码上。有损图像/视频编码解决方案主要从两个方面进行评估:一是压缩效率,通常用比特数(编码速率)来衡量,越低越好;其次是产生的损失,通常用重构图像/视频的质量来衡量,与原始图像/视频相比,质量越高越好。
图像/视频编码是计算机图像处理、计算机视觉和视觉通信的基础和实现技术。在过去的三十年中,已经制定了一系列关于图像/视频编码的标准。如JPEG、JPEG 2000、H.264,H.265,等等。目前,H.265/HEVC于2013年正式出版,代表了最先进的图像/视频编码技术。
目前,视频已经占据了互联网接近80%的流量,而这数字预计仍会继续上升。另一方面,随着视频技术的进步,特别是超高清视频的普及,也迫切需要进一步提高压缩效率,在有限的存储和有限的传输带宽下适应超高清视频。因此,HEVC、MPEG和VCEG组成联合视频专家团队(Joint Video Experts Team, JVET),探索先进的视频编码技术,并开发联合探索模型(Joint Exploration Model, JEM)进行研究。此外,自2018年以来,JVET团队一直致力于开发一种新的视频编码标准,非正式地称为通用视频编码(VVC),作为HEVC的继承者。预计VVC在保持相同质量的同时,相比HEVC可节省约50%的比特,从而提高压缩效率,尤其是对于高清视频而言。尽管如此,值得注意的是,VVC的改进可能是以乘性编码/解码复杂度为代价实现的。
近年来,深度神经网络在图像处理领域取得了很大的进展,在视频处理如视频检测、视频超分辨、视频去噪等方面也有了一定的发展。深度神经网络因其强大的线性表达能力和联合训练的优势,在图像/视频领域表现出了强大的潜力。但深度神经网络在视频压缩方面的发展还处于起步阶段,也因此,拥有广泛的前景和可能。
目前,深度学习在视频压缩领域的应用主要分为两大类,其一是作为深度学习工具应用于传统视频编码器,至今已有很多工作证明将传统编码模块与深度学习结合是非常有效的,这些模块包括且不限于运动补偿和插帧网络,帧内预测编码模块,比特率控制模块和后处理模块;其二是以深度神经网络为视频编码核心的端到端深度视频压缩框架。由于目前深度视频压缩是一个新兴的研究题目,因此至今为止所提出的端到端深度视频压缩内容并不多。
发明内容
本发明的目的在于提供一种基于深度神经网络的信号处理方法(视频压缩方法),利用神经网络强大的非线性表达能力和联合训练的优势,构建一个端到端的视频压缩框架,包括如下步骤:
S1,收集和整理公开的高清视频数据集,构建神经网络训练集和测试集;
S2,对于待压缩视频,计算前后两帧间的均方差,并根据阈值将帧分为关键帧和非关键帧;
对于关键帧,采用帧内预测,即图像压缩的方式;
对于非关键帧,则采用帧间预测;
S3,构建和训练两个网络模型分别用于关键帧和非关键帧的压缩;
对于关键帧:构建用于图像压缩的自编码器和基于上下文的熵模型和超先验网络对其进行压缩传输;构建自编码器输入端对帧进行特征提取编码传输到输出端,在输出端根据提取的信息解码恢复图像;构建上下文和超先验网络分别利用帧内的上下文与超先验信息来估计编码的比特率;
对于非关键帧:构建光流网络和深度网络进行帧间预测,估计前一帧与当前帧之间的运动信息,并通过将前一帧像素搬移得到当前帧,并计算其与真实的当前帧之间的残差;本步骤中的光流与深度信息及残差信息都用结合超先验的熵模型卷积神经网络自编码器进行传输和码率估计;
S4,对于步骤S3中的网络,分别采用率失真优化的训练策略进行端到端的联合训练,采用率即编码特征图所需的比特率,失真即重建帧与真实的当前帧之间的均方差。
优选的,步骤S1中,训练集采用viemo90K。
优选的,步骤S1中,测试集采用HEVC标准测试序列:Class A、Class B、Class C、Class D和Class E。
优选的,步骤S3中,光流网络采用SpyNet;SpyNet将经典光流估计中的空间分层手段与深度神经网络相结合,以一种从粗糙到精细的方式实现光流估计。
优选的,步骤S3中,深度网络采用MegaDepth;采用Internet SFM+MVS数据来解决单点深度估计问题;首先,采用在深度估计上更稳定的基于COLMAP的改善的MVS算法,然后,采用语意分割的方法强化和过滤(实体感知过滤器)深度映射,并且产生额外的相对深度数据。
优选的,步骤S3中,编码光流和残差的自编码器都分别应用与S3中自编码器相同的网络结构来构建,包含自编码器网络、上下文与超先验网络、熵估计网络。
优选的,步骤S3中,对于关键帧:首先,待压缩帧,例如
Figure 100002_DEST_PATH_IMAGE002
Figure 100002_DEST_PATH_IMAGE003
的RGB图像,输入到自编码器编码端,经过卷积神经网络四层下采样,变成
Figure DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE006
的192通道特征图,量化后分别输入到上下文和超先验网络,输出记为c1、c2,c1、c2 在通道数上连接之后输入到熵估计网络;熵估计网络的输出分为两部分,分别作为自编码器输出的192个通道的特征图的μ和σ,即192个μ和192个σ,通过高斯误差函数erf进行概率估计,在训练和测试时估计编码特征图所需的码流;在输出端,解码器将来自编码端的数据进行解码,重建当前帧。
优选的,步骤S3中,对于非关键帧:将前一帧和当前帧输入到光流网络获取光流信息,将当前帧输入到深度网络中获取深度信息,将光流信息与深度信息结合,融合前一帧得到当前帧,并计算其与真实的当前帧之间的残差;残差输入到自编码器网络中进行传输;在解码端,根据传输的残差信息、光流与深度信息,将重建的前一帧与光流与深度信息融合,并与残差信息相加,得到重建的当前帧。
优选的,步骤S4中,通过
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
用优化器Adam对网络模型进行训练;在训练中,可以通过改变λ的值来训练出具有不同压缩比的网络模型;λ越大,则训练出的网络失真越小,但比特率会相应增加;对于帧内预测:D为帧重建前后的失真,R为编码特征图和超先验特征的比特率;对于帧间预测:D为重建帧与真实的当前帧之间的失真,R包括两部分,一部分是编码光流和深度信息所用的比特率,一部分是编码残差所需的比特率。
本发明构建一个基于深度神经网络的端到端视频压缩框架,并利用光流信息和深度信息进行帧预测,以解决运动信息较复杂时压缩性能大幅下降的问题,同时实现视频压缩各模块的联合训练,达到整体的最优效果。
与现有技术相比,本发明具有以下有益的技术效果:
本发明将视频压缩分为关键帧和非关键帧的压缩,并由计算前后两帧的均方差,与设定阈值相比较来确定时关键帧和非关键帧;对于关键帧采用帧内预测方式,执行图像压缩的方案,对于非关键帧则采用帧间预测。
进一步地,对于帧间预测,本发明提出了光流信息与深度信息结合进行运动估计和帧重建的方案;此方案将光流信息与深度信息结合,通过与前一阵进行反向warp,可以解决重建帧时遮挡区域出现空洞或前后景信息错乱的问题。
在整体网络结构上,本发明对应于传统的视频压缩方法HEVC,将其每个模块都用对应的神经网络结构来代替,最后通过整体的率失真优化来实现压缩框架联合训练的目的,从而达到整体的最优效果。
附图说明
图1是本发明的总流程图;
图2是帧内预测网络框架图;
图3是帧间预测网络框架图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1至图3所示,本发明具体实施的技术方案如下:
1.搭建开发环境python3.6+Pytorch1.4+cuda9.0+cudnn7.0。
2.下载并预处理训练数据集;训练集采用viemo90K,该数据集数据量达80G,由从vimeo.com下载的89800个视频剪辑组成,涵盖了大量的场景和动作;主要用于以下四个视频处理任务:时间帧插值、视频去噪、视频去块和视频超分辨。
3.建立视频压缩项目,分别搭建帧内预测(图像压缩)网络和帧间预测网络。
4.帧内预测网络包括:自编码器网络,包含上下文与超先验熵估计网络。
编码端的最后一层是基础自编码器的瓶颈,它的输出通道数决定了需要被压缩和存储的元素个数,通道数过少会影响压缩表现。
解码端的最后一层必须是三通道(来生成RGB图像)。
熵参数网络的最后一层必须是瓶颈的两倍,因为熵参数网络对每个潜在表征预测两个值:μ和σ。
上下文模型和超网络的输出通道数没有严格的限制,在本网络中统一设置为瓶颈层的2倍。
4.1)自编码器在输入端由四层下采样卷积层构成,每层192个卷积核,卷积核尺寸为5×5,步长为2,前三层采用GDN替代传统激活函数;相应的,输出端为四层上采样网络层,利用步长为2的反卷积实现,采用IGDN作为非线性表达。
4.2)上下文利用掩膜卷积实现;卷积核384个,尺寸5×5,步长为1。
4.3)超先验的编码器由三层卷积层构建,每层卷积核192个,尺寸为3×3,第一层步长为1,激活函数为LeakyRelu,第二层步长为2,激活函数为LeakyRelu,第三层步长为2,无激活函数;解码器由三层反卷积层构成,卷积核尺寸为3×3,第一层卷积核192个,步长为2,激活函数为LeakyRelu,第二层卷积核为288个,步长为2,激活函数为LeakyRelu,第三层卷积核384个,步长为1,无激活函数。
4.4)熵估计网络:熵估计网络由三层卷积层构成;每层卷积核大小为1X1,步长为1;通道数(卷积核数)分别为640、512、384;前两层应用LeakyRelu作为激活函数。
5.帧内预测网络的训练:
如图1所示,原始图像记为
Figure DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE012
,经在特征空间映射为Y,量化为
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
Figure 240856DEST_PATH_IMAGE014
Figure 954734DEST_PATH_IMAGE015
经解码器恢复成重建的图像
Figure DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE018
;另一方面,
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
输入到基于上下文与超先验的熵估计网络,输出为μ和σ;由μ和σ求出
Figure DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE024
,再由
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE027
计算损失;
Figure DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE030
+
Figure DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE033
Figure DEST_PATH_IMAGE035
Figure DEST_PATH_IMAGE036
优化器使用Adam,batchsize为8,初始学习率为0.0001,迭代至180K次后降为0.00001,最终迭代300K次训练结束。
6.帧间预测网络结构如图3,包括:
6.1)光流网络采用SpyNet;SpyNet将经典光流估计中的空间分层手段与深度神经网络相结合,以一种从粗糙到精细的方式实现光流估计;
6.2) 深度网络采用MegaDepth;采用Internet SFM+MVS数据来解决单点深度估计问题;首先,采用在深度估计上更稳定的基于COLMAP的改善的MVS算法;然后,采用语意分割的方法强化和过滤(实体感知过滤器)深度映射,并且产生额外的相对深度数据;
6.3)编码光流和残差的自编码器都分别应用与步骤S3中自编码器相同的网络结构来构建,即包含自编码器网络、上下文与超先验网络、熵估计网络。
7.帧间预测网络的训练:
如图3所示,将重建的前一帧
Figure DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
和当前帧
Figure DEST_PATH_IMAGE041
Figure DEST_PATH_IMAGE042
输入到光流网络获取光流信息,将当前帧
Figure 19292DEST_PATH_IMAGE041
Figure 211239DEST_PATH_IMAGE042
输入到深度网络中获取深度信息,将光流信息与深度信息输入到运动信息编码器,经编码量化解码的运动信息
Figure DEST_PATH_IMAGE044
Figure DEST_PATH_IMAGE045
与前一帧得到粗重建帧
Figure DEST_PATH_IMAGE047
Figure DEST_PATH_IMAGE048
,计算
Figure 9300DEST_PATH_IMAGE047
Figure 362921DEST_PATH_IMAGE048
与真实的当前帧
Figure 426692DEST_PATH_IMAGE041
Figure 422329DEST_PATH_IMAGE042
之间的残差
Figure DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE051
。残差输入到自编码器网络中进行传输。在解码端,根据传输的残差信息、光流与深度信息,将重建的前一帧与光流与深度信息融合,并与残差信息相加,得到重建的当前帧
Figure DEST_PATH_IMAGE053
Figure DEST_PATH_IMAGE054
。损失函数为:
Figure DEST_PATH_IMAGE055
其中
Figure DEST_PATH_IMAGE057
Figure DEST_PATH_IMAGE058
=
Figure DEST_PATH_IMAGE060
Figure DEST_PATH_IMAGE061
优化器使用Adam,batchsize为8,初始学习率为0.0001,迭代至180K次后降为0.00001,最终迭代300K次训练结束。
8.在测试集HEVC测试序列上对模型进行评估。
8.1)对比传统视频压缩算法h.264和HEVC。
8.2)评估指标为MS-SSIM和PSNR。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种基于深度神经网络的信号处理方法,其特征在于,利用神经网络的非线性表达能力和联合训练,构建一个端到端的视频压缩框架,包括如下步骤:
S1,收集和整理公开的高清视频数据集,构建神经网络训练集和测试集;
S2,对于待压缩视频,计算前后两帧间的均方差,并根据阈值将帧分为关键帧和非关键帧;
对于关键帧,采用帧内预测;
对于非关键帧,则采用帧间预测;
S3,构建和训练两个网络模型分别用于关键帧和非关键帧的压缩;
对于关键帧:构建用于图像压缩的自编码器和基于上下文的熵模型和超先验网络对其进行压缩传输;构建自编码器输入端对帧进行特征提取编码传输到输出端,在输出端根据提取的信息解码恢复图像;构建上下文和超先验网络分别利用帧内的上下文与超先验信息来估计编码的比特率;
对于非关键帧:构建光流网络和深度网络进行帧间预测,估计前一帧与当前帧之间的运动信息,并通过将前一帧像素搬移得到当前帧,并计算其与真实的当前帧之间的残差;光流与深度信息及残差信息都用结合超先验的熵模型卷积神经网络自编码器进行传输和码率估计;
S4,对于步骤S3中的网络,分别采用率失真优化的训练策略进行端到端的联合训练,采用率即编码特征图所需的比特率,失真即重建帧与真实的当前帧之间的均方差。
2.根据权利要求1所述的基于深度神经网络的信号处理方法,其特征在于,步骤S1中,训练集采用viemo90K。
3.根据权利要求1所述的基于深度神经网络的信号处理方法,其特征在于,步骤S1中,测试集采用HEVC标准测试序列:Class A、Class B、Class C、Class D和Class E。
4.根据权利要求1所述的基于深度神经网络的信号处理方法,其特征在于,步骤S3中,光流网络采用SpyNet。
5.根据权利要求1所述的基于深度神经网络的信号处理方法,其特征在于,步骤S3中,深度网络采用MegaDepth;采用Internet SFM+MVS数据来解决单点深度估计问题;首先,采用基于COLMAP的改善的MVS算法,然后,采用语意分割的方法强化和过滤深度映射,并且产生额外的相对深度数据。
6.根据权利要求1所述的基于深度神经网络的信号处理方法,其特征在于,步骤S3中,编码光流和残差的自编码器都分别应用与S3中自编码器相同的网络结构来构建,包含自编码器网络、上下文与超先验网络、熵估计网络。
7.根据权利要求1所述的基于深度神经网络的信号处理方法,其特征在于,步骤S3中,对于关键帧:首先,待压缩帧输入到自编码器编码端,经过卷积神经网络四层下采样,变成192通道特征图,量化后分别输入到上下文和超先验网络,输出记为c1、c2,c1、c2 在通道数上连接之后输入到熵估计网络;熵估计网络的输出分为两部分,分别作为自编码器输出的192个通道的特征图的μ和σ,即192个μ和192个σ,通过高斯误差函数erf进行概率估计,在训练和测试时估计编码特征图所需的码流;在输出端,解码器将来自编码端的数据进行解码,重建当前帧。
8.根据权利要求1所述的基于深度神经网络的信号处理方法,其特征在于,步骤S3中,对于非关键帧:将前一帧和当前帧输入到光流网络获取光流信息,将当前帧输入到深度网络中获取深度信息,将光流信息与深度信息结合,融合前一帧得到当前帧,并计算其与真实的当前帧之间的残差;残差输入到自编码器网络中进行传输;在解码端,根据传输的残差信息、光流与深度信息,将重建的前一帧与光流与深度信息融合,并与残差信息相加,得到重建的当前帧。
9.根据权利要求1所述的基于深度神经网络的信号处理方法,其特征在于,步骤S4中,通过
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
用优化器Adam对网络模型进行训练;在训练中,通过改变λ的值来训练出具有不同压缩比的网络模型;λ越大,则训练出的网络失真越小,但比特率会相应增加;对于帧内预测:D为帧重建前后的失真,R为编码特征图和超先验特征的比特率;对于帧间预测:D为重建帧与真实的当前帧之间的失真,R包括两部分,一部分是编码光流和深度信息所用的比特率,一部分是编码残差所需的比特率。
CN202011082797.6A 2020-10-12 2020-10-12 一种基于深度神经网络的信号处理方法 Active CN112203093B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011082797.6A CN112203093B (zh) 2020-10-12 2020-10-12 一种基于深度神经网络的信号处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011082797.6A CN112203093B (zh) 2020-10-12 2020-10-12 一种基于深度神经网络的信号处理方法

Publications (2)

Publication Number Publication Date
CN112203093A CN112203093A (zh) 2021-01-08
CN112203093B true CN112203093B (zh) 2022-07-01

Family

ID=74012882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011082797.6A Active CN112203093B (zh) 2020-10-12 2020-10-12 一种基于深度神经网络的信号处理方法

Country Status (1)

Country Link
CN (1) CN112203093B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11895330B2 (en) * 2021-01-25 2024-02-06 Lemon Inc. Neural network-based video compression with bit allocation
CN113473185B (zh) * 2021-04-28 2022-08-26 清华大学 基于视频流关键帧突发特性的可用带宽探测方法及装置
CN113537456B (zh) * 2021-06-15 2023-10-17 北京大学 一种深度特征压缩方法
WO2023050431A1 (zh) * 2021-09-30 2023-04-06 浙江大学 编解码方法、解码器、编码器及计算机可读存储介质
CN114222124B (zh) * 2021-11-29 2022-09-23 广州波视信息科技股份有限公司 一种编解码方法及设备
CN114501034B (zh) * 2021-12-11 2023-08-04 同济大学 基于离散高斯混合超先验和Mask的图像压缩方法及介质
CN114386595B (zh) * 2021-12-24 2023-07-28 西南交通大学 一种基于超先验架构的sar图像压缩方法
CN114786007B (zh) * 2022-03-21 2024-04-19 鹏城实验室 一种结合编码与图像超分辨率的智能视频传输方法及系统
CN114422607B (zh) * 2022-03-30 2022-06-10 三峡智控科技有限公司 一种实时数据的压缩传输方法
CN115941966B (zh) * 2022-12-30 2023-08-22 深圳大学 一种视频压缩方法及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110602494A (zh) * 2019-08-01 2019-12-20 杭州皮克皮克科技有限公司 基于深度学习的图像编码、解码系统及编码、解码方法
CN111294604A (zh) * 2020-02-13 2020-06-16 济南浪潮高新科技投资发展有限公司 一种基于深度学习的视频压缩方法
CN111405283A (zh) * 2020-02-20 2020-07-10 北京大学 基于深度学习的端到端视频压缩方法、系统及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11019364B2 (en) * 2019-03-23 2021-05-25 Uatc, Llc Compression of images having overlapping fields of view using machine-learned models

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110602494A (zh) * 2019-08-01 2019-12-20 杭州皮克皮克科技有限公司 基于深度学习的图像编码、解码系统及编码、解码方法
CN111294604A (zh) * 2020-02-13 2020-06-16 济南浪潮高新科技投资发展有限公司 一种基于深度学习的视频压缩方法
CN111405283A (zh) * 2020-02-20 2020-07-10 北京大学 基于深度学习的端到端视频压缩方法、系统及存储介质

Also Published As

Publication number Publication date
CN112203093A (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
CN112203093B (zh) 一种基于深度神经网络的信号处理方法
CN106973293B (zh) 基于视差预测的光场图像编码方法
KR100763194B1 (ko) 단일 루프 디코딩 조건을 만족하는 인트라 베이스 예측방법, 상기 방법을 이용한 비디오 코딩 방법 및 장치
CN112866694B (zh) 联合非对称卷积块和条件上下文的智能图像压缩优化方法
CN110602494A (zh) 基于深度学习的图像编码、解码系统及编码、解码方法
WO2020238439A1 (zh) 无线自组织网络带宽受限下的视频业务质量增强方法
CN113822147B (zh) 一种协同机器语义任务的深度压缩方法
CN110199521A (zh) 用于有损视频编码的低复杂度混合域协同环内滤波器
CN109903351B (zh) 基于卷积神经网络和传统编码相结合的图像压缩方法
CN117730338A (zh) 视频超分辨网络及视频超分辨、编解码处理方法、装置
CN111726614A (zh) 一种基于空域下采样与深度学习重建的hevc编码优化方法
CN113068041B (zh) 一种智能仿射运动补偿编码方法
Wang et al. Visual perception enhancement for HEVC compressed video using a generative adversarial network
CN112601095B (zh) 一种视频亮度和色度分数插值模型的创建方法及系统
CN113592746A (zh) 一种由粗到细地融合时空信息的压缩视频质量增强方法
Liu et al. Learned video compression with residual prediction and feature-aided loop filter
Tan et al. Image compression algorithms based on super-resolution reconstruction technology
CN111050170A (zh) 基于gan的图片压缩系统构建方法、压缩系统及方法
CN111080729A (zh) 基于Attention机制的训练图片压缩网络的构建方法及系统
Yang et al. Imrnet: an iterative motion compensation and residual reconstruction network for video compressed sensing
CN112954350B (zh) 一种基于帧分类的视频后处理优化方法及装置
CN115914654A (zh) 一种用于视频编码的神经网络环路滤波方法及装置
CN116958759A (zh) 图像处理方法、装置、设备、存储介质和程序产品
Yang et al. Graph-convolution network for image compression
Liu et al. Learned video compression with residual prediction and loop filter

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant