CN108200442B - 一种基于神经网络的hevc帧内编码单元划分方法 - Google Patents

一种基于神经网络的hevc帧内编码单元划分方法 Download PDF

Info

Publication number
CN108200442B
CN108200442B CN201810063101.1A CN201810063101A CN108200442B CN 108200442 B CN108200442 B CN 108200442B CN 201810063101 A CN201810063101 A CN 201810063101A CN 108200442 B CN108200442 B CN 108200442B
Authority
CN
China
Prior art keywords
neural network
coding unit
coding
coding units
division
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810063101.1A
Other languages
English (en)
Other versions
CN108200442A (zh
Inventor
徐枫
陈建武
肖谋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingxin Technology Co ltd
Original Assignee
Beijing Yizhineng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yizhineng Technology Co ltd filed Critical Beijing Yizhineng Technology Co ltd
Priority to CN201810063101.1A priority Critical patent/CN108200442B/zh
Publication of CN108200442A publication Critical patent/CN108200442A/zh
Application granted granted Critical
Publication of CN108200442B publication Critical patent/CN108200442B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于神经网络的HEVC帧内编码单元划分方法,其特征在于,包括以下步骤:将编码单元输入预处理模块进行去噪处理;将去噪处理后的编码单元进行下采样处理;将下采样处理后的编码单元输入神经网络模型进行结构划分;将结构划分处理后的编码单元进行编码处理。本方案通过采用神经网络模型对分类问题进行高效解决,减少传统四叉树划分编码的复杂性,同时确保编码的失真小,所述神经网络设计分别设计三个通道,并分别对不同大小的编码单元在不同通道中进行分割决策,提高了编码效率。

Description

一种基于神经网络的HEVC帧内编码单元划分方法
技术领域
本发明涉及视频编码领域,尤其涉及一种基于神经网络的HEVC帧内编码单元划分方法。
背景技术
视频编码也指视频压缩,通常采用预测、变换、量化和熵编码等方式,尽可能地减少视频数据中的冗余,尽可能使用最少的数据来表征视频,在现有网络的带宽限制下,尽可能地使视频的失真度最小,得到更好的视频观看效果。
视频编码中编码单元(Coding Unit,CU)的四叉树划分选择通常是由编码器计算每种分割方式的RD-costs,选取RD-costs最小的划分方式。这种方法确保了编码的失真最小,但其遍历每种决策的方式大大增加了编码的复杂性。
发明内容
本发明的目的在于:提供一种基于神经网络的HEVC帧内编码单元划分方法,引入神经网络进行分类,在确保编码性能的同时减少编码的复杂性。
本发明采用的技术方案如下:
一种基于神经网络的HEVC帧内编码单元划分方法,包括以下步骤:
S1:将64 x 64编码单元输入预处理模块进行预处理;
S2:将预处理后的编码单元输入到神经网络模型进行结构划分;
S3:将结构划分处理后的编码单元进行编码处理。
进一步的,所述S1具体步骤如下:
S101:将64 x 64编码单元通过四叉树划分方法依次划分为4个32 x 32和16个16x 16编码单元;
S102:将1个64 x 64编码单元通过去噪和下采样处理后得到1个16 x 16的编码单元,然后输入到神经网络结构;
S103:将4个32 x 32编码单元通过去噪和下采样处理后得到4个16 x 16的编码单元,然后输入到神经网络结构;
S104:将16个16 x 16编码单元通过去噪和下采样处理后得到16个16 x 16的编码单元,然后输入到神经网络结构。
进一步的,所述去噪处理采用非局部平均法对编码单元进行去噪处理。
进一步的,所述S2网络模型处理步骤如下:
S201:设计三个通道的神经网络输入层,分别用于接收预处理后的编码单元;
S202:每个通道分别设置卷积核对编码单元进行卷积得到相应特征图;
S203:将特征图经过全连接层处理后通过输出层输出划分预测结果。
进一步的,所述神经网络具有提前截止功能,依次对神经网络的通道进行预测结果判断,并控制下一个通道是否继续进行编码单元划分决策。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明中,通过采用神经网络模型对分类问题进行高效解决,减少传统四叉树划分编码的复杂性,同时确保编码的失真小。
2、本方案通过将神经网络设计三个通道,并分别对不同编码单元进行特征图的分割,提高了编码速度与效率。
3、通过对神经网络设置提前截止功能,在保证神经网络准确度的同时,防止空间资源的消耗和浪费,加快编码速度与效率。
附图说明
图1为本发明步骤流程图;
图2为本发明预处理步骤流程图;
图3为本发明神经网络结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
如图1所示,一种基于神经网络的HEVC帧内编码单元划分方法,包括以下步骤:
S1:将64 x 64编码单元输入预处理模块进行预处理;
S2:将预处理后的编码单元输入到神经网络模型进行结构划分;
S3:将结构划分处理后的编码单元进行编码处理。
实施例2
如图2所示,在实施例1的基础上,所述S1具体步骤如下:
S101:将64 x 64编码单元通过四叉树划分方法依次划分为4个32 x 32和16个16x 16编码单元;
S102:将1个64 x 64编码单元通过去噪和下采样处理后得到1个16 x 16的编码单元,然后输入到神经网络结构;
S103:将4个32 x 32编码单元通过去噪和下采样处理后得到4个16 x 16的编码单元,然后输入到神经网络结构;
S104:将16个16 x 16编码单元通过去噪和下采样处理后得到16个16 x 16的编码单元,然后输入到神经网络结构。
其中,1个16 x 16编码单元、4个16 x 16的编码单元、16个16 x 16的编码单元、分别输入神经网络的B1、B2、B3通道。
实施例3
在实施例1的基础上,所述去噪处理采用非局部平均法对编码单元进行去噪处理。
通过去噪处理使得其能更好地训练神经网络,所述去噪处理采用非局部平均法对树形编码单元进行去噪处理,它利用了整幅图像来进行去噪,以图像块为单位图像中寻找相似区域,再对这些区域求平均,能够较好地去掉图像中存在的高斯噪声。
NL-Means的去噪过程可以用下面公式来表示:
假设给定了一个带有噪声的图像v={v(i)|i∈I},对于像素点i,需要评估计算的值为
Figure BDA0001555908410000031
Figure BDA0001555908410000032
w(x,y)是一个权重,表示在原始图像中,像素x和y的相似度。Ωx是像素x的领域,对于图像中的每一个像素x,去噪之后的结果等于它邻域中像素y的加权和,加权的权重等于x和y的相似度。
衡量像素相似度的方法采用根据两个像素的亮度值的差的平方来估计,但因为有噪声的存在,单独的一个像素并不可靠。对此解决方法是,考虑它们的邻域,只有邻域相似度高才能说这两个像素的相似度高。衡量两个图像块的相似度最常用的方法是计算他们之间的欧氏距离:
Figure BDA0001555908410000033
其中:n(x)是一个归一化的因子,是所有权重的和,对每个权重除以该因子后,使得权重满足和为1的条件。h>0,是滤波系数,控制指数函数的衰减从而改变欧氏距离的权重。V(x)和v(y)代表了像素x和y的领域,这个邻域常称为块(patch)邻域。
Figure BDA0001555908410000034
是两个相邻域的高斯加权欧式距离。a>0,为高斯核的标准差。
所述下采样处理是对编码单元尺寸为MxN的图像进行S倍下采样,即得到(M/S)x(N/S)尺寸的图像,把原始图像SxS窗口内的像素求平均值,变成一个像素,其下采方式为:
Figure BDA0001555908410000041
实施例4
如图3所示,在实施例1的基础上,所述S2网络模型处理步骤如下:
S201:设计三个通道的神经网络输入层,分别用于接收预处理后的编码单元;
S202:每个通道分别设置卷积核对编码单元进行卷积得到相应特征图;
S203:将特征图经过全连接层处理后通过输出层输出划分预测结果。
设计一个三通道的神经网络,分别输入经过预处理后的64x64、32x32、16x16大小的编码单元的值。
第一通道B1输入64x64大小的编码预处理后的数据,经过卷积核大小为4x4,步长设为4的卷积层后得到16张4x4大小的特征图。然后依次经过卷积核大小为2x2,步长为2的卷积层,得到24张2x2大小的特征图和卷积核大小为1x1,步长为1的卷积层,得到32张1x1大小的特征图。最后经过两次全连接层后得到两个输出。
第二通道B2和第三通道B3输入分别输入32x32和16x16的编码单元经过预处理后的数据,所述通道B2、通道B3和通道B1的相同,但是第二通道B2要依次输入4个16x16的编码单元数据,第三通道B3要依次输入16个16x16的编码单元数据,然后经过与第一通道B1相同的处理。
特别的,所述神经网络具有提前截止功能,依次对神经网络的通道进行预测结果判断,并控制下一个通道是否继续进行编码单元划分决策。即当第一通道B1预测结果为0时,即当前深度为0的编码单元不再往下划分,则第二通道B2和第三通道B3提前停止处理。(其中当前划分的编码单元深度即为0,下一个四叉树划分单元深度为1,并依次类推)。
当第二个通道B2的某个预测结果为0,则第三通道B3对应的上个深度的4个编码单元将不进入通道进行处理。这样,当一个64x64的编码单元的数据经过此神经网络后将得到每个深度的编码单元是否往下划分的结果,即得到当前64x64的编码单元的划分结构,大大减小了传统RD-cost划分方式的计算难度和计算时间。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于神经网络的HEVC帧内编码单元划分方法,其特征在于,包括以下步骤:
S1:将64x64编码单元输入预处理模块进行预处理;
S2:将预处理后的编码单元输入到神经网络模型进行结构划分;
S3:将结构划分处理后的编码单元进行编码处理;
所述S1具体步骤如下:
S101:将64x64编码单元通过四叉树划分方法依次划分为4个32x32和16个16x16编码单元;
S102:将1个64x64编码单元通过去噪和下采样处理后得到1个16x16的编码单元,然后输入到神经网络结构;
S103:将4个32x32编码单元通过去噪和下采样处理后得到4个16x16的编码单元,然后输入到神经网络结构;
S104:将16个16x16编码单元通过去噪和下采样处理后得到16个16x16的编码单元,然后输入到神经网络结构。
2.根据权利要求1所述一种基于神经网络的HEVC帧内编码单元划分方法,其特征在于:所述去噪处理采用非局部平均法对编码单元进行去噪处理。
3.根据权利要求1所述一种基于神经网络的HEVC帧内编码单元划分方法,其特征在于:所述S2网络模型处理步骤如下:
S201:设计三个通道的神经网络输入层,分别用于接收预处理后的编码单元;
S202:每个通道分别设置卷积核对编码单元进行卷积得到相应特征图;
S203:将特征图经过全连接层处理后通过输出层输出划分预测结果。
4.根据权利要求1或3所述一种基于神经网络的HEVC帧内编码单元划分方法,其特征在于:所述神经网络具有提前截止功能,依次对神经网络的通道进行预测结果判断,并控制下一个通道是否继续进行编码单元划分决策。
CN201810063101.1A 2018-01-23 2018-01-23 一种基于神经网络的hevc帧内编码单元划分方法 Active CN108200442B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810063101.1A CN108200442B (zh) 2018-01-23 2018-01-23 一种基于神经网络的hevc帧内编码单元划分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810063101.1A CN108200442B (zh) 2018-01-23 2018-01-23 一种基于神经网络的hevc帧内编码单元划分方法

Publications (2)

Publication Number Publication Date
CN108200442A CN108200442A (zh) 2018-06-22
CN108200442B true CN108200442B (zh) 2021-11-12

Family

ID=62590712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810063101.1A Active CN108200442B (zh) 2018-01-23 2018-01-23 一种基于神经网络的hevc帧内编码单元划分方法

Country Status (1)

Country Link
CN (1) CN108200442B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113781588A (zh) * 2021-07-01 2021-12-10 杭州未名信科科技有限公司 一种基于神经网络的帧内编码单元尺寸划分方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103533354A (zh) * 2013-10-10 2014-01-22 宁波大学 一种高清视频快速编码方法
CN104320658A (zh) * 2014-10-20 2015-01-28 南京邮电大学 一种hevc快速编码方法
WO2016033209A1 (en) * 2014-08-26 2016-03-03 Lyrical Labs Video Compression Technology, LLC Learning-based partitioning for video encoding
CN106162167A (zh) * 2015-03-26 2016-11-23 中国科学院深圳先进技术研究院 基于学习的高效视频编码方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103533354A (zh) * 2013-10-10 2014-01-22 宁波大学 一种高清视频快速编码方法
WO2016033209A1 (en) * 2014-08-26 2016-03-03 Lyrical Labs Video Compression Technology, LLC Learning-based partitioning for video encoding
CN104320658A (zh) * 2014-10-20 2015-01-28 南京邮电大学 一种hevc快速编码方法
CN106162167A (zh) * 2015-03-26 2016-11-23 中国科学院深圳先进技术研究院 基于学习的高效视频编码方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Fast CU Size Decisions for HEVC Intra Frame Coding;Deyuan Liu等;《2016 IEEE 14th Intl Conf on Dependable, Autonomic and Secure Computing》;20160812;全文 *
高效率视频编码快速帧内预测算法;张峻等;《计算机应用》;20150810;全文 *

Also Published As

Publication number Publication date
CN108200442A (zh) 2018-06-22

Similar Documents

Publication Publication Date Title
Liu et al. Parallel fractal compression method for big video data
CN108886621B (zh) 非本地自适应环路滤波方法
EP3746944A1 (en) Use of non-linear function applied to quantization parameters in machine-learning models for video coding
JP6664819B2 (ja) デジタル画像のブロックのマスクベースの処理のためのシステムおよび方法
US12058348B2 (en) Parallelized rate-distortion optimized quantization using deep learning
JP7500873B2 (ja) エントロピー符号化/復号方法および装置
CN106331723B (zh) 一种基于运动区域分割的视频帧率上变换方法及系统
EP2624565A1 (en) Method and device for encoding images, method and device for decoding images, and programs therefor
CN108924558B (zh) 一种基于神经网络的视频预测编码方法
EP3743855A1 (en) Receptive-field-conforming convolution models for video coding
TW202032497A (zh) 圖像復原方法及裝置、電子設備、儲存介質
WO2012043330A1 (ja) 画像符号化方法および装置、画像復号方法及び装置、およびそれらのプログラム
US12062150B2 (en) Method and apparatus for block-wise neural image compression with post filtering
CN116648716A (zh) 通过指示特征图数据进行解码
CN108833925B (zh) 一种基于深度神经网络的帧间预测方法
CN115442609A (zh) 特征数据编解码方法和装置
Canh et al. Rate-distortion optimized quantization: A deep learning approach
CN108200442B (zh) 一种基于神经网络的hevc帧内编码单元划分方法
WO2022111233A1 (zh) 帧内预测模式的译码方法和装置
JP2020025290A (ja) 画像差異検出装置、画像差異検出方法及びコンピュータプログラム
Chen et al. CNN-optimized image compression with uncertainty based resource allocation
CN116363018B (zh) 一种自适应的nlm降噪方法
Petrov et al. Intra frame compression and video restoration based on conditional markov processes theory
KR20230115043A (ko) 영상의 화질에 따라 초해상도 딥러닝 네트워크를 적용하는 비디오 처리 방법 및 비디오 처리 장치
Chai et al. Fpga-based ROI encoding for HEVC video bitrate reduction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: No. 101, 3rd Floor 3FA106, Floors 2-6, Building 120, Wangjing Dongyuan 1st District, Chaoyang District, Beijing 100020

Patentee after: Beijing Jingxin Technology Co.,Ltd.

Country or region after: China

Address before: Room 121807, Room 121, Room 2, 15th Floor, Building 3, No. 1 Courtyard, Futong East Street, Chaoyang District, Beijing

Patentee before: BEIJING YIZHINENG TECHNOLOGY CO.,LTD.

Country or region before: China