CN108200442B - 一种基于神经网络的hevc帧内编码单元划分方法 - Google Patents
一种基于神经网络的hevc帧内编码单元划分方法 Download PDFInfo
- Publication number
- CN108200442B CN108200442B CN201810063101.1A CN201810063101A CN108200442B CN 108200442 B CN108200442 B CN 108200442B CN 201810063101 A CN201810063101 A CN 201810063101A CN 108200442 B CN108200442 B CN 108200442B
- Authority
- CN
- China
- Prior art keywords
- neural network
- coding unit
- coding
- coding units
- division
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000003062 neural network model Methods 0.000 claims abstract description 6
- 238000010586 diagram Methods 0.000 claims description 8
- 238000005192 partition Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/96—Tree coding, e.g. quad-tree coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/593—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于神经网络的HEVC帧内编码单元划分方法,其特征在于,包括以下步骤:将编码单元输入预处理模块进行去噪处理;将去噪处理后的编码单元进行下采样处理;将下采样处理后的编码单元输入神经网络模型进行结构划分;将结构划分处理后的编码单元进行编码处理。本方案通过采用神经网络模型对分类问题进行高效解决,减少传统四叉树划分编码的复杂性,同时确保编码的失真小,所述神经网络设计分别设计三个通道,并分别对不同大小的编码单元在不同通道中进行分割决策,提高了编码效率。
Description
技术领域
本发明涉及视频编码领域,尤其涉及一种基于神经网络的HEVC帧内编码单元划分方法。
背景技术
视频编码也指视频压缩,通常采用预测、变换、量化和熵编码等方式,尽可能地减少视频数据中的冗余,尽可能使用最少的数据来表征视频,在现有网络的带宽限制下,尽可能地使视频的失真度最小,得到更好的视频观看效果。
视频编码中编码单元(Coding Unit,CU)的四叉树划分选择通常是由编码器计算每种分割方式的RD-costs,选取RD-costs最小的划分方式。这种方法确保了编码的失真最小,但其遍历每种决策的方式大大增加了编码的复杂性。
发明内容
本发明的目的在于:提供一种基于神经网络的HEVC帧内编码单元划分方法,引入神经网络进行分类,在确保编码性能的同时减少编码的复杂性。
本发明采用的技术方案如下:
一种基于神经网络的HEVC帧内编码单元划分方法,包括以下步骤:
S1:将64 x 64编码单元输入预处理模块进行预处理;
S2:将预处理后的编码单元输入到神经网络模型进行结构划分;
S3:将结构划分处理后的编码单元进行编码处理。
进一步的,所述S1具体步骤如下:
S101:将64 x 64编码单元通过四叉树划分方法依次划分为4个32 x 32和16个16x 16编码单元;
S102:将1个64 x 64编码单元通过去噪和下采样处理后得到1个16 x 16的编码单元,然后输入到神经网络结构;
S103:将4个32 x 32编码单元通过去噪和下采样处理后得到4个16 x 16的编码单元,然后输入到神经网络结构;
S104:将16个16 x 16编码单元通过去噪和下采样处理后得到16个16 x 16的编码单元,然后输入到神经网络结构。
进一步的,所述去噪处理采用非局部平均法对编码单元进行去噪处理。
进一步的,所述S2网络模型处理步骤如下:
S201:设计三个通道的神经网络输入层,分别用于接收预处理后的编码单元;
S202:每个通道分别设置卷积核对编码单元进行卷积得到相应特征图;
S203:将特征图经过全连接层处理后通过输出层输出划分预测结果。
进一步的,所述神经网络具有提前截止功能,依次对神经网络的通道进行预测结果判断,并控制下一个通道是否继续进行编码单元划分决策。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明中,通过采用神经网络模型对分类问题进行高效解决,减少传统四叉树划分编码的复杂性,同时确保编码的失真小。
2、本方案通过将神经网络设计三个通道,并分别对不同编码单元进行特征图的分割,提高了编码速度与效率。
3、通过对神经网络设置提前截止功能,在保证神经网络准确度的同时,防止空间资源的消耗和浪费,加快编码速度与效率。
附图说明
图1为本发明步骤流程图;
图2为本发明预处理步骤流程图;
图3为本发明神经网络结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
如图1所示,一种基于神经网络的HEVC帧内编码单元划分方法,包括以下步骤:
S1:将64 x 64编码单元输入预处理模块进行预处理;
S2:将预处理后的编码单元输入到神经网络模型进行结构划分;
S3:将结构划分处理后的编码单元进行编码处理。
实施例2
如图2所示,在实施例1的基础上,所述S1具体步骤如下:
S101:将64 x 64编码单元通过四叉树划分方法依次划分为4个32 x 32和16个16x 16编码单元;
S102:将1个64 x 64编码单元通过去噪和下采样处理后得到1个16 x 16的编码单元,然后输入到神经网络结构;
S103:将4个32 x 32编码单元通过去噪和下采样处理后得到4个16 x 16的编码单元,然后输入到神经网络结构;
S104:将16个16 x 16编码单元通过去噪和下采样处理后得到16个16 x 16的编码单元,然后输入到神经网络结构。
其中,1个16 x 16编码单元、4个16 x 16的编码单元、16个16 x 16的编码单元、分别输入神经网络的B1、B2、B3通道。
实施例3
在实施例1的基础上,所述去噪处理采用非局部平均法对编码单元进行去噪处理。
通过去噪处理使得其能更好地训练神经网络,所述去噪处理采用非局部平均法对树形编码单元进行去噪处理,它利用了整幅图像来进行去噪,以图像块为单位图像中寻找相似区域,再对这些区域求平均,能够较好地去掉图像中存在的高斯噪声。
NL-Means的去噪过程可以用下面公式来表示:
w(x,y)是一个权重,表示在原始图像中,像素x和y的相似度。Ωx是像素x的领域,对于图像中的每一个像素x,去噪之后的结果等于它邻域中像素y的加权和,加权的权重等于x和y的相似度。
衡量像素相似度的方法采用根据两个像素的亮度值的差的平方来估计,但因为有噪声的存在,单独的一个像素并不可靠。对此解决方法是,考虑它们的邻域,只有邻域相似度高才能说这两个像素的相似度高。衡量两个图像块的相似度最常用的方法是计算他们之间的欧氏距离:
其中:n(x)是一个归一化的因子,是所有权重的和,对每个权重除以该因子后,使得权重满足和为1的条件。h>0,是滤波系数,控制指数函数的衰减从而改变欧氏距离的权重。V(x)和v(y)代表了像素x和y的领域,这个邻域常称为块(patch)邻域。是两个相邻域的高斯加权欧式距离。a>0,为高斯核的标准差。
所述下采样处理是对编码单元尺寸为MxN的图像进行S倍下采样,即得到(M/S)x(N/S)尺寸的图像,把原始图像SxS窗口内的像素求平均值,变成一个像素,其下采方式为:
实施例4
如图3所示,在实施例1的基础上,所述S2网络模型处理步骤如下:
S201:设计三个通道的神经网络输入层,分别用于接收预处理后的编码单元;
S202:每个通道分别设置卷积核对编码单元进行卷积得到相应特征图;
S203:将特征图经过全连接层处理后通过输出层输出划分预测结果。
设计一个三通道的神经网络,分别输入经过预处理后的64x64、32x32、16x16大小的编码单元的值。
第一通道B1输入64x64大小的编码预处理后的数据,经过卷积核大小为4x4,步长设为4的卷积层后得到16张4x4大小的特征图。然后依次经过卷积核大小为2x2,步长为2的卷积层,得到24张2x2大小的特征图和卷积核大小为1x1,步长为1的卷积层,得到32张1x1大小的特征图。最后经过两次全连接层后得到两个输出。
第二通道B2和第三通道B3输入分别输入32x32和16x16的编码单元经过预处理后的数据,所述通道B2、通道B3和通道B1的相同,但是第二通道B2要依次输入4个16x16的编码单元数据,第三通道B3要依次输入16个16x16的编码单元数据,然后经过与第一通道B1相同的处理。
特别的,所述神经网络具有提前截止功能,依次对神经网络的通道进行预测结果判断,并控制下一个通道是否继续进行编码单元划分决策。即当第一通道B1预测结果为0时,即当前深度为0的编码单元不再往下划分,则第二通道B2和第三通道B3提前停止处理。(其中当前划分的编码单元深度即为0,下一个四叉树划分单元深度为1,并依次类推)。
当第二个通道B2的某个预测结果为0,则第三通道B3对应的上个深度的4个编码单元将不进入通道进行处理。这样,当一个64x64的编码单元的数据经过此神经网络后将得到每个深度的编码单元是否往下划分的结果,即得到当前64x64的编码单元的划分结构,大大减小了传统RD-cost划分方式的计算难度和计算时间。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于神经网络的HEVC帧内编码单元划分方法,其特征在于,包括以下步骤:
S1:将64x64编码单元输入预处理模块进行预处理;
S2:将预处理后的编码单元输入到神经网络模型进行结构划分;
S3:将结构划分处理后的编码单元进行编码处理;
所述S1具体步骤如下:
S101:将64x64编码单元通过四叉树划分方法依次划分为4个32x32和16个16x16编码单元;
S102:将1个64x64编码单元通过去噪和下采样处理后得到1个16x16的编码单元,然后输入到神经网络结构;
S103:将4个32x32编码单元通过去噪和下采样处理后得到4个16x16的编码单元,然后输入到神经网络结构;
S104:将16个16x16编码单元通过去噪和下采样处理后得到16个16x16的编码单元,然后输入到神经网络结构。
2.根据权利要求1所述一种基于神经网络的HEVC帧内编码单元划分方法,其特征在于:所述去噪处理采用非局部平均法对编码单元进行去噪处理。
3.根据权利要求1所述一种基于神经网络的HEVC帧内编码单元划分方法,其特征在于:所述S2网络模型处理步骤如下:
S201:设计三个通道的神经网络输入层,分别用于接收预处理后的编码单元;
S202:每个通道分别设置卷积核对编码单元进行卷积得到相应特征图;
S203:将特征图经过全连接层处理后通过输出层输出划分预测结果。
4.根据权利要求1或3所述一种基于神经网络的HEVC帧内编码单元划分方法,其特征在于:所述神经网络具有提前截止功能,依次对神经网络的通道进行预测结果判断,并控制下一个通道是否继续进行编码单元划分决策。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810063101.1A CN108200442B (zh) | 2018-01-23 | 2018-01-23 | 一种基于神经网络的hevc帧内编码单元划分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810063101.1A CN108200442B (zh) | 2018-01-23 | 2018-01-23 | 一种基于神经网络的hevc帧内编码单元划分方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108200442A CN108200442A (zh) | 2018-06-22 |
CN108200442B true CN108200442B (zh) | 2021-11-12 |
Family
ID=62590712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810063101.1A Active CN108200442B (zh) | 2018-01-23 | 2018-01-23 | 一种基于神经网络的hevc帧内编码单元划分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108200442B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113781588A (zh) * | 2021-07-01 | 2021-12-10 | 杭州未名信科科技有限公司 | 一种基于神经网络的帧内编码单元尺寸划分方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103533354A (zh) * | 2013-10-10 | 2014-01-22 | 宁波大学 | 一种高清视频快速编码方法 |
CN104320658A (zh) * | 2014-10-20 | 2015-01-28 | 南京邮电大学 | 一种hevc快速编码方法 |
WO2016033209A1 (en) * | 2014-08-26 | 2016-03-03 | Lyrical Labs Video Compression Technology, LLC | Learning-based partitioning for video encoding |
CN106162167A (zh) * | 2015-03-26 | 2016-11-23 | 中国科学院深圳先进技术研究院 | 基于学习的高效视频编码方法 |
-
2018
- 2018-01-23 CN CN201810063101.1A patent/CN108200442B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103533354A (zh) * | 2013-10-10 | 2014-01-22 | 宁波大学 | 一种高清视频快速编码方法 |
WO2016033209A1 (en) * | 2014-08-26 | 2016-03-03 | Lyrical Labs Video Compression Technology, LLC | Learning-based partitioning for video encoding |
CN104320658A (zh) * | 2014-10-20 | 2015-01-28 | 南京邮电大学 | 一种hevc快速编码方法 |
CN106162167A (zh) * | 2015-03-26 | 2016-11-23 | 中国科学院深圳先进技术研究院 | 基于学习的高效视频编码方法 |
Non-Patent Citations (2)
Title |
---|
Fast CU Size Decisions for HEVC Intra Frame Coding;Deyuan Liu等;《2016 IEEE 14th Intl Conf on Dependable, Autonomic and Secure Computing》;20160812;全文 * |
高效率视频编码快速帧内预测算法;张峻等;《计算机应用》;20150810;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108200442A (zh) | 2018-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Parallel fractal compression method for big video data | |
CN108886621B (zh) | 非本地自适应环路滤波方法 | |
EP3746944A1 (en) | Use of non-linear function applied to quantization parameters in machine-learning models for video coding | |
JP6664819B2 (ja) | デジタル画像のブロックのマスクベースの処理のためのシステムおよび方法 | |
US12058348B2 (en) | Parallelized rate-distortion optimized quantization using deep learning | |
JP7500873B2 (ja) | エントロピー符号化/復号方法および装置 | |
CN106331723B (zh) | 一种基于运动区域分割的视频帧率上变换方法及系统 | |
EP2624565A1 (en) | Method and device for encoding images, method and device for decoding images, and programs therefor | |
CN108924558B (zh) | 一种基于神经网络的视频预测编码方法 | |
EP3743855A1 (en) | Receptive-field-conforming convolution models for video coding | |
TW202032497A (zh) | 圖像復原方法及裝置、電子設備、儲存介質 | |
WO2012043330A1 (ja) | 画像符号化方法および装置、画像復号方法及び装置、およびそれらのプログラム | |
US12062150B2 (en) | Method and apparatus for block-wise neural image compression with post filtering | |
CN116648716A (zh) | 通过指示特征图数据进行解码 | |
CN108833925B (zh) | 一种基于深度神经网络的帧间预测方法 | |
CN115442609A (zh) | 特征数据编解码方法和装置 | |
Canh et al. | Rate-distortion optimized quantization: A deep learning approach | |
CN108200442B (zh) | 一种基于神经网络的hevc帧内编码单元划分方法 | |
WO2022111233A1 (zh) | 帧内预测模式的译码方法和装置 | |
JP2020025290A (ja) | 画像差異検出装置、画像差異検出方法及びコンピュータプログラム | |
Chen et al. | CNN-optimized image compression with uncertainty based resource allocation | |
CN116363018B (zh) | 一种自适应的nlm降噪方法 | |
Petrov et al. | Intra frame compression and video restoration based on conditional markov processes theory | |
KR20230115043A (ko) | 영상의 화질에 따라 초해상도 딥러닝 네트워크를 적용하는 비디오 처리 방법 및 비디오 처리 장치 | |
Chai et al. | Fpga-based ROI encoding for HEVC video bitrate reduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: No. 101, 3rd Floor 3FA106, Floors 2-6, Building 120, Wangjing Dongyuan 1st District, Chaoyang District, Beijing 100020 Patentee after: Beijing Jingxin Technology Co.,Ltd. Country or region after: China Address before: Room 121807, Room 121, Room 2, 15th Floor, Building 3, No. 1 Courtyard, Futong East Street, Chaoyang District, Beijing Patentee before: BEIJING YIZHINENG TECHNOLOGY CO.,LTD. Country or region before: China |