CN113573078B - 一种基于卷积神经网络增强avs帧内解码的方法 - Google Patents

一种基于卷积神经网络增强avs帧内解码的方法 Download PDF

Info

Publication number
CN113573078B
CN113573078B CN202110907617.1A CN202110907617A CN113573078B CN 113573078 B CN113573078 B CN 113573078B CN 202110907617 A CN202110907617 A CN 202110907617A CN 113573078 B CN113573078 B CN 113573078B
Authority
CN
China
Prior art keywords
dct
neural network
convolutional neural
blocks
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110907617.1A
Other languages
English (en)
Other versions
CN113573078A (zh
Inventor
张伟民
姜文波
潘晓菲
蔺飞
龙仕强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Bohua Ultra Hd Innovation Center Co ltd
China Media Group
Original Assignee
Guangdong Bohua Ultra Hd Innovation Center Co ltd
China Media Group
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Bohua Ultra Hd Innovation Center Co ltd, China Media Group filed Critical Guangdong Bohua Ultra Hd Innovation Center Co ltd
Priority to CN202110907617.1A priority Critical patent/CN113573078B/zh
Publication of CN113573078A publication Critical patent/CN113573078A/zh
Application granted granted Critical
Publication of CN113573078B publication Critical patent/CN113573078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/625Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using discrete cosine transform [DCT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/129Scanning of coding units, e.g. zig-zag scan of transform coefficients or flexible macroblock ordering [FMO]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种基于卷积神经网络增强AVS帧内解码的方法,包括以下步骤:S1.算法模型设计;S2.算法模型训练;以及S3.DCT信号合并。本发明方法在视频解码阶段,对视频图像进行增强;使用基于深度卷积神经网络的增强算法,针对AVS编解码标准中解码阶段的DCT变换,进行高频信号预测,最终实现增强图像细节的功能,从而解决旧有方法,因解码变换和滤波导致数据结构损坏、数据信息衰减的问题,解决了视频画面细节不平滑的问题。

Description

一种基于卷积神经网络增强AVS帧内解码的方法
技术领域
本发明属于计算机视觉领域,特别涉及一种基于卷积神经网络增强AVS帧内解码的方法。
背景技术
随着技术的发展,4K/8K甚至更高分辨率的视频,在终端设备上逐渐被普及应用。高分辨率的视频,使得网络传输带宽和磁盘存储容量面临巨大挑战,使用合理的熵编码技术对视频进行编码,是解决这些挑战的重要途径之一。由中国主导的数字音视频编解码标准(Audio Video coding Standard,简称AVS),正在逐步推广使用,目前已推出第三代AVS3标准。在 AVS标准中,使用了离散余弦变换(Discrete Cosine Transform,简称DCT)作为变换核,对视频进行有损数据压缩编码。离散余弦变换具有很强的能量集中性,大多数的大自然信号集中在低频部分,即有用的图像信息,都大部分保留在DCT变换后的低频区。所以,在AVS 编码标准中,DCT变换过程使用量化操作,是去除高频信号,保留低频信号,以此实现视频编码中的帧内压缩。但高频信号可能存在聚集不均匀分布残差的能量,即在有损压缩时,图像局部丢失了重要的细节信息,使图像某个部位表现得不够自然。特别是使用高压缩率时,甚至出现图像过渡不平滑、马赛克等现象。虽然在AVS3中,使用离散余弦变换变体DCT-VIII 和离散正弦变换DST-VII,一定程度上缓解了这一问题,但并未彻底解决。
发明内容
本发明的目的是提供一种基于卷积神经网络增强AVS帧内解码的方法,以解决视频画面细节不平滑。在视频解码阶段,对视频图像进行增强。特别的,使用基于深度卷积神经网络的增强算法,针对AVS编解码标准中解码阶段的DCT变换,进行高频信号预测,最终实现增强图像细节的功能,从而解决旧有方法,因解码变换和滤波导致数据结构损坏、数据信息衰减的问题。
本发明的技术方案如下:
本发明的基于卷积神经网络增强AVS帧内解码的方法,包括以下步骤:S1.算法模型设计;S2.算法模型训练;以及S3.DCT信号合并。
优选的,在上述基于卷积神经网络增强AVS帧内解码的方法中,在步骤S1中,使用标准卷积神经网络算子,构建输入输出大小一致的深度卷积神经网络模型,输入为多个区块的DCT低频信号,输出为多个区块的DCT高频信号。
优选的,在上述基于卷积神经网络增强AVS帧内解码的方法中,在步骤S2中,模型训练时,只需读取海量的视频,视频按照AVS标准进行编码,将DCT量化后的编码输入到神经网络模型中,同时用DCT正变换未量化的编码作为标签。
优选的,在上述基于卷积神经网络增强AVS帧内解码的方法中,在步骤S2中,制作训练数据集,训练数据集中的输入数据是海量视频编码阶段DCT量化后的低频信号,而标签则是DCT量化前的完整信号,使用训练数据集中的数据对深度卷积神经网络模型进行常规训练。
优选的,在上述基于卷积神经网络增强AVS帧内解码的方法中,在步骤S3中,使用多块量化后的DCT低频信号作为神经网络输入,将对应区块的DCT高频信号预测出来,最终合并信号,得到DCT完整信号。
优选的,在上述基于卷积神经网络增强AVS帧内解码的方法中,其中,步骤S1和S3中使用了DCT变换。
优选的,在上述基于卷积神经网络增强AVS帧内解码的方法中,其中,DCT变换的编码阶段包括:D1.区块划分:将一张图像划分为多个区块,以像素点为单位,区块划分为8*8大小;D2.DCT正变换:通过DCT正变换,得到相同数据和大小的DCT编码;以及D3:离散余弦变换量化:对DCT编码进行量化,将相应数量的高频信号置为0,并进行之字形编码压缩编码,不将这些0包含进去,从而到达压缩编码的目的,高频信号去除越多,视频压缩率越高,到达某个阀值后,图像细节将出现模糊现象。
优选的,在上述基于卷积神经网络增强AVS帧内解码的方法中,DCT变换的解码阶段包括:D4.预测高频合并高低频:使用训练好的CNN模型,对DCT高频信号进行预测,然后,进行DCT信号合并;D5.DCT逆变换:在D5中将这个完整的DCT信号,作为DCT逆变换的输入即可;以及D6.区块合并,完成DCT信号合并。
根据本发明的技术方案,产生的有益效果是:
本发明的基于深度卷积神经网络增强图像细节的方法,针对DCT量化导致图像细节缺失的问题,在解码阶段,对DCT高频信号进行预测,进而增强了视频图像细节,有效解决了视频图像增强时数据结构损坏和数据信息衰减的问题。在现有技术中,使用卷积神经网络(CNN) 进行图像增强,一般是在滤波、帧内解码、帧间预测等所有解码操作之后,才对一整张图像进行图像增强,解码变换操作会改变数据结构,滤波会使数据信息衰减。数据结构的损坏将需要更深的卷积神经网络去学习,而信息衰减则直接导致信号的进一步缺失。本发明方法根据在AVS标准下视频编码阶段,因对DCT量化而导致高频信号缺失的这一特性,在解码阶段有针对性的对DCT高频信号进行预测,拟合这些缺失的高频,从而避免了数据结构损坏和数据信息衰减的问题,最终实现增强视频图像细节的功能。
为了更好地理解和说明本发明的构思、工作原理和发明效果,下面结合附图,通过具体实施例,对本发明进行详细说明如下:
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
图1是本发明的基于卷积神经网络增强AVS帧内解码的方法的流程示意图;
图2是本发明的DCT变换的大致流程图;
图3是本发明的离散余弦变换编码示意图;
图4是本发明的CNN网络模型的示意图;以及
图5是本发明的DCT信号合并的示意图。
具体实施方式
为使本发明的目的、技术方法及优点更加清晰,下面结合附图及具体实例,对本发明做进一步的详细说明。这些实例仅仅是说明性的,而并非对本发明的限制。
本发明的基于卷积神经网络增强AVS帧内解码的方法,用视频编码时DCT量化导致信息缺失的已知性,实现一个针对DCT高频信号进行预测,进而增强视频图像细节的方法,以此解决旧有方法中,因无针对性而导致数据结构损坏和数据信息衰减的问题。具体地,在AVS 标准下的解码阶段的DCT变换中,将DCT低频信号作为CNN网络的输入,CNN网络输出预测的DCT高频信号,最后合并高低频信号,从而实现增强视频图像细节的效果。
本发明的方法的原理是:使用基于深度卷积神经网络(CNN)的预测算法,对解码阶段 DCT变换进行高频信号预测,进而实现增强图像细节的功能。
如图1所示,本发明的基于卷积神经网络增强AVS帧内解码的方法,从开始到结束,具体包含以下步骤:
S1.算法模型设计。使用标准卷积神经网络算子,构建输入输出大小一致的深度卷积神经网络模型,输入为多个区块的DCT低频信号,输出为多个区块的DCT高频信号。
如图2所示,是本发明的DCT变换的大致流程图,包括编码阶段和解码阶段,其中,编码阶段包括步骤D1-D3,解码阶段包括步骤D4-D6。其中:
D1.区块划分:将一张图像划分为多个区块,以像素点为单位,区块划分为8*8大小(也可以是其他值,如16*16,这个由编码标准规定);
D2.DCT正变换(模型标签):通过DCT正变换,得到相同数据和大小的DCT编码, DCT正变换,公式如下:
Figure BDA0003202386780000041
其中,n为区块像素数量,如8*8区块,n=8*8;k为像素序号,第k个像素;x为像素值;m为自定义数值;π为圆周率。这个公式,是通用的数学定理。如图3所示,是DCT正变换的编码结果示意图,有4个8*8的区块,每个8*8区块中,左上角为低频信号,右下角为高频信号。
D3:DCT量化(模型输入):对DCT编码进行量化,将相应数量的高频信号置为0,并进行Zigzag(之字形编码)压缩编码,不将这些0包含进去,从而到达压缩编码的目的,高频信号去除越多,视频压缩率越高,到达某个阀值后,图像细节将出现模糊现象。以上这些算法和步骤,是AVS编码标准公开、通用的操作。如图3所示,是本发明的CNN网络模型示意图,本发明设计深度卷积神经网络(CNN)模型,输入大小为16*8*8,即16个8*8大小的区域块,经过一定数量的通用标准卷积层后,输出大小也为16*8*8。这样,在解码的时候,以编码时DCT量化后的结果,作为神经网络的输入,神经网络则预测出因量化而缺失的高频信号。神经网络输入输出的大小不限于16*8*8,也可以是其它值,视具体情况而定。至此,神经网络就设计完毕。
S2.算法模型训练。制作训练数据集,数据集中的输入数据是海量视频编码阶段DCT量化后的低频信号,而标签则是DCT量化前的完整信号。使用训练数据集中的数据对深度卷积神经网络模型(CNN网络)进行常规训练。
深度卷积神经网络模型使用前,需要对模型进行针对性训练。在模型设计时,本发明方法中的模型,输入是视频编码时DCT量化后的编码,模型输出是将要拟合的DCT正变换未量化的编码。因此,模型训练时,只需读取海量的视频,视频按照AVS标准进行编码,将DCT量化后的编码输入到神经网络模型中,同时用DCT正变换未量化的编码作为标签。有了输入数据和输出标签,就可以按照常规方式,对CNN模型进行训练,当模型输出结果,可以很好的拟合标签时,模型训练结束。
S3.DCT信号合并。使用多块量化后的DCT低频信号作为神经网络输入,将对应区块的 DCT高频信号预测出来,最终合并信号,得到DCT完整信号。
如图2所示,是本发明的DCT变换的大致流程图,步骤D1、D2、D3发生在AVS标准的编码阶段,步骤D5和D6发生在AVS标准的解码阶段。其中:
D4.预测高频合并高低频:使用训练好的CNN模型,对DCT高频信号进行预测,然后,进行DCT信号合并,该步骤是是本发明添加在解码阶段的特有的步骤。如图5所示,是本发明方法中的DCT信号合并的示意图。将量化后的低频信号和预测到的高频信号,进行合并,得到合并后的完整信号,即完整的DCT信号的编码。
D5.DCT逆变换:在D5中将这个完整的DCT信号,作为DCT逆变换的输入即可。DCT 逆变换也是通用的、公开的数学定理,公式如下:
Figure BDA0003202386780000051
其中,n为区块像素数量,如8*8区块,n=8*8;k为像素序号,第k个像素;x为像素值;m为自定义数值;π为圆周率。
D6.区块合并,完成DCT信号合并,最终达到了在解码时增强视频图像细节的目的,其中,区块合并,是常规操作,是现有AVS标准中已有的步骤。其实这里是简单的合并就可以了。如图3所示,转换后,得到的也是一个一个8*8的区块。
本发明的基于深度卷积神经网络(Deep Convolutional Neural Network,简称CNN)增强 AVS标准中的帧内解码的方法,在视频解码阶段对DCT高频信号进行预测,使用预测结果拟合因DCT量化去除的高频信号,进而实现增强视频图像细节的功能,以此解决已有方法中,因无针对性而导致数据结构损坏和数据信息衰减的问题。具体地,在解码阶段DCT变换中,利用CNN的预测能力,预测有损压缩过程中丢失的部分细节信息,并将其还原合并,从而实现图像平滑处理、丰富图像细节的效果。本发明的增强图像细节的算法,可以有效缓解因DCT 变换后量化,导致图像细节过渡不平滑的问题,以此解决,在高压缩率视频编码中,因DCT 变换后量化导致的画面细节不平滑的问题。
以上说明是依据发明的构思和工作原理的最佳实施例。上述实施例不应理解为对本权利要求保护范围的限制,依照本发明构思的其他实施方式和实现方式的组合均属于本发明的保护范围。

Claims (3)

1.一种基于卷积神经网络增强AVS帧内解码的方法,其特征在于,包括以下步骤:
S1.算法模型设计,使用标准卷积神经网络算子,构建输入输出大小一致的深度卷积神经网络模型,输入为多个区块的DCT低频信号,输出为多个区块的DCT高频信号;
S2.算法模型训练,模型训练时,只需读取海量的视频,视频按照AVS标准进行编码,将DCT量化后的编码输入到神经网络模型中,同时用DCT正变换未量化的编码作为标签,制作训练数据集,所述训练数据集中的输入数据是海量视频编码阶段DCT量化后的低频信号,而标签则是DCT量化前的完整信号,使用所述训练数据集中的数据对深度卷积神经网络模型进行常规训练;以及
S3.DCT信号合并,使用多块量化后的DCT低频信号作为神经网络输入,将对应区块的DCT高频信号预测出来,最终合并信号,得到DCT完整信号;
步骤S1和S3中使用了DCT变换。
2.根据权利要求1所述的基于卷积神经网络增强AVS帧内解码的方法,其特征在于,其中,所述DCT变换的编码阶段包括:
D1.区块划分:将一张图像划分为多个区块,以像素点为单位,区块划分为8*8大小;
D2.DCT正变换:通过DCT正变换,得到相同数据和大小的DCT编码;以及
D3:离散余弦变换量化:对DCT编码进行量化,将相应数量的高频信号置为0,并进行之字形编码压缩编码,不将这些0包含进去,从而到达压缩编码的目的,高频信号去除越多,视频压缩率越高,到达某个阀值后,图像细节将出现模糊现象。
3.根据权利要求1所述的基于卷积神经网络增强AVS帧内解码的方法,其特征在于,其中,所述DCT变换的解码阶段包括:
D4.预测高频合并高低频:使用训练好的CNN模型,对DCT高频信号进行预测,然后,进行DCT信号合并;
D5.DCT逆变换:在D5中将这个完整的DCT信号,作为DCT逆变换的输入即可;以及
D6.区块合并,完成DCT信号合并。
CN202110907617.1A 2021-08-09 2021-08-09 一种基于卷积神经网络增强avs帧内解码的方法 Active CN113573078B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110907617.1A CN113573078B (zh) 2021-08-09 2021-08-09 一种基于卷积神经网络增强avs帧内解码的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110907617.1A CN113573078B (zh) 2021-08-09 2021-08-09 一种基于卷积神经网络增强avs帧内解码的方法

Publications (2)

Publication Number Publication Date
CN113573078A CN113573078A (zh) 2021-10-29
CN113573078B true CN113573078B (zh) 2022-11-08

Family

ID=78170889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110907617.1A Active CN113573078B (zh) 2021-08-09 2021-08-09 一种基于卷积神经网络增强avs帧内解码的方法

Country Status (1)

Country Link
CN (1) CN113573078B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102281443A (zh) * 2011-08-22 2011-12-14 天津师范大学 基于优化的层式离散余弦变换的压缩感知图像处理方法
CN105070293B (zh) * 2015-08-31 2018-08-21 武汉大学 基于深度神经网络的音频带宽扩展编码解码方法及装置
EP3298786A1 (en) * 2016-04-15 2018-03-28 Magic Pony Technology Limited In-loop post filtering for video encoding and decoding
CN112509071B (zh) * 2021-01-29 2021-04-30 电子科技大学 一种亮度信息辅助的色度信息压缩重建方法

Also Published As

Publication number Publication date
CN113573078A (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
Li et al. Learning content-weighted deep image compression
CN106231214A (zh) 基于可调宏块的高速cmos传感器图像近似无损压缩方法
CN101272489B (zh) 视频图像质量增强的编解码装置与编解码方法
CN111246206B (zh) 一种基于自编码器的光流信息压缩方法及装置
CN104683811A (zh) 一种基于整数dct系数调制的信息隐藏及提取方法
CN111669588B (zh) 一种超低时延的超高清视频压缩编解码方法
Anantha Babu et al. Lossless compression algorithm using improved RLC for grayscale image
WO2022135218A1 (zh) 图像编码方法及装置
Kabir et al. Edge-based transformation and entropy coding for lossless image compression
Yadav et al. Flow-MotionNet: A neural network based video compression architecture
CN113573078B (zh) 一种基于卷积神经网络增强avs帧内解码的方法
CN109672891B (zh) Jpeg图像的无损二次压缩方法
CN105472395B (zh) 一种基于离散Krawtchouk正交多项式的图像无损压缩方法
Hu et al. HDVC: Deep Video Compression with Hyperprior-Based Entropy Coding
CN112911298A (zh) 一种基于边界效应的hevc视频双压缩检测方法及系统
CN105635731A (zh) 高效视频编码的帧内预测参考点预处理方法
CN113691818B (zh) 视频目标检测方法、系统、存储介质、计算机视觉终端
CN109803147B (zh) 基于视频纹理特征的变换处理方法及装置
WO2023051222A1 (zh) 滤波及编解码方法、装置、计算机可读介质及电子设备
Wang et al. Enhanced Residual SwinV2 Transformer for Learned Image Compression
US20240015336A1 (en) Filtering method and apparatus, computer-readable medium, and electronic device
CN114882133B (zh) 一种图像编解码方法、系统、设备及介质
CN113179403B (zh) 一种基于深度学习重建的水下视频对象编码方法
Li et al. An information hiding approach based on integer transform coefficient and virtual space encoding for H. 264/AVC
CN113810724A (zh) 一种基于avs帧内压缩编码的视频目标分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant