CN111263145A - 基于深度神经网络的多功能视频快速编码方法 - Google Patents
基于深度神经网络的多功能视频快速编码方法 Download PDFInfo
- Publication number
- CN111263145A CN111263145A CN202010051264.5A CN202010051264A CN111263145A CN 111263145 A CN111263145 A CN 111263145A CN 202010051264 A CN202010051264 A CN 202010051264A CN 111263145 A CN111263145 A CN 111263145A
- Authority
- CN
- China
- Prior art keywords
- neural network
- value
- follows
- depth map
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/567—Motion estimation based on rate distortion criteria
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明涉及一种基于深度神经网络的多功能视频快速编码方法。首先,通过研究视频内容的时空域相关性,使用反向传播(BP)神经网络对CU的划分深度进行预测;然后,使用统计概率对CU的划分模式进行选择;最后,在编码时跳过不必要的划分模式以节省编码时间,从而达到保证编码器编码性能不变的情况下降低时间复杂度的目的。
Description
技术领域
本发明属于视频编码技术领域,具体涉及一种基于深度神经网络的多功能视频快速编码方法,以达到在不影响编码器编码性能的前提下,实现大幅度节省编码时间的目的。
背景技术
新一代多功能视频编码标准(VVC)采用了更多的技术来提升压缩率,以解决急剧增长的视频数据与有限带宽的网络传输环境的冲突问题。但是在提升编码效率的同时也增加了编码的计算复杂度。在VVC编码过程中,视频图像编码时会根据内容特征划分为不同大小的块(编码单元(CU))以提升压缩效率,而确定视频图像最佳分块方式会耗费大量的编码时间。因此,如果能优化编码单元的划分过程将极大提高编码器的编码效率。但目前适用于VVC的帧内快速编码算法还不够完善。
针对这种现象,本发明提出了基于深度神经网络的多功能视频编码快速算法,并通过实验结果表明,在不影响编码器编码性能的情况下,与原始编码器相比,该算法可以节省平均59.82%的编码时间。
发明内容
本发明的目的在于提供一种基于深度神经网络的多功能视频快速编码方法,该方法较传统编码方法节省了编码时间。
为实现上述目的,本发明的技术方案是:一种基于深度神经网络的多功能视频快速编码方法,包括如下步骤:
步骤S1、判断参考深度单元个数是否达到预设值,若是执行步骤S2;
步骤S2、基于BP神经网络对当前编码单元CU进行深度图预测,再根据深度图信息确定CU的划分深度;
步骤S3、基于概率模型,统计已编码CU最佳划分模式次数占比,依照概率从大到小确定当前CU划分模式预测顺序;
步骤S4、计算率失真RD代价值并根据相应代价判断规律,基于前提决策条件跳过不必要预测模式,提前终止划分过程,并确定当前CU的最佳预测模式。
在本发明一实施例中,所述步骤S1具体实现为:预设值个数为25,若参考深度单元个数小于25则采用原始编码流程对当前编码单元CU进行编码,否则执行步骤S2。
在本发明一实施例中,所述步骤S2具体实现为:
步骤S21、用C(x,y,t)表示视频第t帧中左上角像素值坐标为(x,y)的参考深度图单元,C(x,y,t)可表示如下:
其中,Δx和Δy表示-2到2的整数;上式表示,如果当前帧的参考深度图单元存在,就使用其为参考深度图单元;否则使用前一帧的相邻深度图单元作为参考深度图单元;
步骤S22、利用BP神经网络预测,BP神经网络模型的定义如下:
Zl=Act(WlXl+Bl)
其中,Zl、Wl、Xl、Bl分别表示BP神经网络第l层的输出、权重、输入及偏置项;Act表示激活函数;
步骤S23、在网络训练时采用交叉熵为损失函数,公式如下:
其中,p(d)和q(d)分别表示训练标签向量和BP神经网络的输出结果向量,d表示深度值;q(d)中概率最高的值被选为参考深度图单元的预测值U,定义如下:
步骤S24、CU的预测深度值PD可用如下公式表示如下:
其中,Round(*)表示四舍五入函数,N和Un分别表示该CU所包含的参考深度单元数目及该CU所包含的第n个深度单元的预测值。
在本发明一实施例中,所述激活函数Act采用ReLU作为激活函数。
在本发明一实施例中,所述步骤S4具体实现为:
步骤S41、计算当前编码模式RD代价值;
步骤S42、基于前提决策条件判断跳过不必要划分模式:
前提决策条件判断表示如下:
Cmin<Ck
其中,Ps表示第s个测试的划分模式成为最佳模式的次数占比;k表示第k个测试的划分模式;Ck表示第k个划分模式的RD代价值;Cmin表示在测试第k个划分模式前的CU的最小RD代价值;α为阈值,范围为0到1。
在本发明一实施例中,所述α取0.5。
相较于现有技术,本发明具有以下有益效果:本发明在不影响编码器编码性能的前提下,实现了大幅度降低编码时间的效果,具有非常广泛的应用场景。
附图说明
图1为本发明的方法流程图。
图2为CTU划分。
图3为划分深度信息。
图4为深度图信息。
图5为BP神经网络模型。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提供了一种基于深度神经网络的多功能视频快速编码方法,包括如下步骤:
步骤S1、判断参考深度单元个数是否达到预设值,若是执行步骤S2;
步骤S2、基于BP神经网络(反向传播神经网络)对当前编码单元CU进行深度图预测,再根据深度图信息确定CU的划分深度;
步骤S3、基于概率模型,统计已编码CU最佳划分模式次数占比,依照概率从大到小确定当前CU划分模式预测顺序;
步骤S4、计算率失真RD代价值并根据相应代价判断规律,基于前提决策条件跳过不必要预测模式,提前终止划分过程,并确定当前CU的最佳预测模式。
以下为本发明一具体实施例,。
本实施提供基于深度神经网络的多功能视频快速编码方法,整体工作流程如图1所示,包括以下步骤:步骤S1、判断参考深度单元个数是否充足决定是否采用快速算法;步骤S2、基于BP神经网络对当前CU进行深度图预测,再根据深度图信息确定CU的划分深度;步骤S3、基于概率模型,统计已编码CU最佳划分模式次数占比,依照概率从大到小确定当前CU划分模式预测顺序;步骤S4、计算RD代价值并根据相应代价判断规律,基于前提决策条件跳过不必要预测模式,提前终止划分过程,并确定当前CU的最佳预测模式。
在本实施例中,所述基于参考的深度单元个数充分性对本发明方法的影响考虑,如果参考深度单元个数充足,本发明方法效果明显;反之,样本个数不足时,本发明方法预测效果将不够明显,具体包括以下步骤:
步骤S1、本发明通过实验验证确定参考深度单元个数以25为指标,当参考单元不足25个时,按照原始编码流程对当前CU块进行编码;反之采用本发明方法。
在本实施例中,VVC采用了基于块的混合编码框架。所有输入编码器的图像帧都会先划分为相同大小的单元,称为CTU(树形编码单元)。CTU进一步划分为多个CU,以适应编码单元的局部图像特征。在编码过程中,CU会遍历所有可能的划分模式,并计算不同划分模式的RD代价值,最终选定RD代价值最小的划分模式作为最佳划分模式。划分后的CU还可以继续划分为更小的CU块,直到不能划分为止。与HEVC中采用的四叉树划分不同,VVC为了提升压缩效率,在对CU进行划分时采用了更为复杂的二叉、三叉、四叉树划分结构,如图2,CTU划分示例所示;VVC的CTU的大小为128×128,CU的深度范围为0到6,划分深度信息如图3所示。每个CU最多要遍历5种不同的划分模式,包括二叉树水平划分、二叉树垂直划分、三叉树水平划分、三叉树垂直划分、四叉树划分。本发明使用BP神经网络如图5所示对CU进行深度图预测,再通过深度图信息确定CU的划分深度。其中CU的深度图指CU实际划分深度信息的矩阵表示,深度图信息如图4所示。
步骤S21、用C(x,y,t)表示视频第t帧中左上角像素值坐标为(x,y)的参考深度图单元,C(x,y,t)可表示如下:
其中,Δx和Δy表示-2到2的整数;上式表示,如果当前帧的参考深度图单元存在,就使用其为参考深度图单元;否则使用前一帧的相邻深度图单元作为参考深度图单元;
步骤S22、利用BP神经网络预测,BP神经网络模型的定义如下:
Zl=Act(WlXl+Bl)
其中,Zl、Wl、Xl、Bl分别表示BP神经网络第l层的输出、权重、输入及偏置项;Act表示激活函数,本发明采用ReLU作为激活函数;
步骤S23、在网络训练时采用交叉熵为损失函数,公式如下:
其中,p(d)和q(d)分别表示训练标签向量和BP神经网络的输出结果向量,d表示深度值;q(d)中概率最高的值被选为参考深度图单元的预测值U,定义如下:
步骤S24、CU的预测深度值PD可用如下公式表示如下:
其中,Round(*)表示四舍五入函数,N和Un分别表示该CU所包含的参考深度单元数目及该CU所包含的第n个深度单元的预测值。
进一步地,在上述步骤中获取当前CU块参考深度单元的信息后,进行概率排序,具体包括以下步骤:
基于概率统计模型统计已编码CU中最佳划分模式次数占比,并按照占比从大到小排序进行测试。
最后,在进行最佳模式预测过程时,通过一些简单处理跳过不必要步骤,进一步节省时间,具体步骤如下:
步骤S41、计算当前编码模式RD代价值;
步骤S42、基于前提决策条件判断跳过不必要划分模式:
前提决策条件判断表示如下:
Cmin<Ck
其中,Ps表示第s个测试的划分模式成为最佳模式的次数占比;k表示第k个测试的划分模式;Ck表示第k个划分模式的RD代价值;Cmin表示在测试第k个划分模式前的CU的最小RD代价值;α为阈值,范围为0到1,本发明中α取经验值0.5。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (6)
1.一种基于深度神经网络的多功能视频快速编码方法,其特征在于,包括如下步骤:
步骤S1、判断参考深度单元个数是否达到预设值,若是执行步骤S2;
步骤S2、基于BP神经网络对当前编码单元CU进行深度图预测,再根据深度图信息确定CU的划分深度;
步骤S3、基于概率模型,统计已编码CU最佳划分模式次数占比,依照概率从大到小确定当前CU划分模式预测顺序;
步骤S4、计算率失真RD代价值并根据相应代价判断规律,基于前提决策条件跳过不必要预测模式,提前终止划分过程,并确定当前CU的最佳预测模式。
2.根据权利要求1所述的基于深度神经网络的多功能视频快速编码方法,其特征在于,所述步骤S1具体实现为:预设值个数为25,若参考深度单元个数小于25则采用原始编码流程对当前编码单元CU进行编码,否则执行步骤S2。
3.根据权利要求1所述的基于深度神经网络的多功能视频快速编码方法,其特征在于,所述步骤S2具体实现为:
步骤S21、用C(x,y,t)表示视频第t帧中左上角像素值坐标为(x,y)的参考深度图单元,C(x,y,t)可表示如下:
其中,Δx和Δy表示-2到2的整数;上式表示,如果当前帧的参考深度图单元存在,就使用其为参考深度图单元;否则使用前一帧的相邻深度图单元作为参考深度图单元;
步骤S22、利用BP神经网络预测,BP神经网络模型的定义如下:
Zl=Act(WlXl+Bl)
其中,Zl、Wl、Xl、Bl分别表示BP神经网络第l层的输出、权重、输入及偏置项;Act表示激活函数;
步骤S23、在网络训练时采用交叉熵为损失函数,公式如下:
其中,p(d)和q(d)分别表示训练标签向量和BP神经网络的输出结果向量,d表示深度值;q(d)中概率最高的值被选为参考深度图单元的预测值U,定义如下:
步骤S24、CU的预测深度值PD可用如下公式表示如下:
其中,Round(*)表示四舍五入函数,N和Un分别表示该CU所包含的参考深度单元数目及该CU所包含的第n个深度单元的预测值。
4.根据权利要求3所述的基于深度神经网络的多功能视频快速编码方法,其特征在于,所述激活函数Act采用ReLU作为激活函数。
6.根据权利要求5所述的基于深度神经网络的多功能视频快速编码方法,其特征在于,所述α取0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010051264.5A CN111263145B (zh) | 2020-01-17 | 2020-01-17 | 基于深度神经网络的多功能视频快速编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010051264.5A CN111263145B (zh) | 2020-01-17 | 2020-01-17 | 基于深度神经网络的多功能视频快速编码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111263145A true CN111263145A (zh) | 2020-06-09 |
CN111263145B CN111263145B (zh) | 2022-03-22 |
Family
ID=70950595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010051264.5A Active CN111263145B (zh) | 2020-01-17 | 2020-01-17 | 基于深度神经网络的多功能视频快速编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111263145B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111711815A (zh) * | 2020-06-30 | 2020-09-25 | 福州大学 | 基于集成学习和概率模型的快速vvc帧内预测方法 |
CN113315967A (zh) * | 2021-07-28 | 2021-08-27 | 腾讯科技(深圳)有限公司 | 视频编码方法、装置、介质及电子设备 |
CN113691808A (zh) * | 2021-07-01 | 2021-11-23 | 杭州未名信科科技有限公司 | 一种基于神经网络的帧间编码单元尺寸划分方法 |
CN113781588A (zh) * | 2021-07-01 | 2021-12-10 | 杭州未名信科科技有限公司 | 一种基于神经网络的帧内编码单元尺寸划分方法 |
CN115955574A (zh) * | 2023-03-10 | 2023-04-11 | 宁波康达凯能医疗科技有限公司 | 一种基于权重网络的帧内图像编码方法、装置及存储介质 |
WO2023071008A1 (zh) * | 2021-11-01 | 2023-05-04 | 深圳市中兴微电子技术有限公司 | 视频编码方法、网络设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108495129A (zh) * | 2018-03-22 | 2018-09-04 | 北京航空航天大学 | 基于深度学习方法的块分割编码复杂度优化方法及装置 |
CN108881905A (zh) * | 2018-08-04 | 2018-11-23 | 福州大学 | 基于概率的帧内编码器优化方法 |
CN109714584A (zh) * | 2019-01-11 | 2019-05-03 | 杭州电子科技大学 | 基于深度学习的3d-hevc深度图编码单元快速决策方法 |
CN109788296A (zh) * | 2018-12-25 | 2019-05-21 | 中山大学 | 用于hevc的帧间编码单元划分方法、装置和存储介质 |
CN110087087A (zh) * | 2019-04-09 | 2019-08-02 | 同济大学 | Vvc帧间编码单元预测模式提前决策及块划分提前终止方法 |
-
2020
- 2020-01-17 CN CN202010051264.5A patent/CN111263145B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108495129A (zh) * | 2018-03-22 | 2018-09-04 | 北京航空航天大学 | 基于深度学习方法的块分割编码复杂度优化方法及装置 |
CN108881905A (zh) * | 2018-08-04 | 2018-11-23 | 福州大学 | 基于概率的帧内编码器优化方法 |
CN109788296A (zh) * | 2018-12-25 | 2019-05-21 | 中山大学 | 用于hevc的帧间编码单元划分方法、装置和存储介质 |
CN109714584A (zh) * | 2019-01-11 | 2019-05-03 | 杭州电子科技大学 | 基于深度学习的3d-hevc深度图编码单元快速决策方法 |
CN110087087A (zh) * | 2019-04-09 | 2019-08-02 | 同济大学 | Vvc帧间编码单元预测模式提前决策及块划分提前终止方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111711815A (zh) * | 2020-06-30 | 2020-09-25 | 福州大学 | 基于集成学习和概率模型的快速vvc帧内预测方法 |
CN111711815B (zh) * | 2020-06-30 | 2021-09-28 | 福州大学 | 基于集成学习和概率模型的快速vvc帧内预测方法 |
CN113691808A (zh) * | 2021-07-01 | 2021-11-23 | 杭州未名信科科技有限公司 | 一种基于神经网络的帧间编码单元尺寸划分方法 |
CN113781588A (zh) * | 2021-07-01 | 2021-12-10 | 杭州未名信科科技有限公司 | 一种基于神经网络的帧内编码单元尺寸划分方法 |
CN113315967A (zh) * | 2021-07-28 | 2021-08-27 | 腾讯科技(深圳)有限公司 | 视频编码方法、装置、介质及电子设备 |
CN113315967B (zh) * | 2021-07-28 | 2021-11-09 | 腾讯科技(深圳)有限公司 | 视频编码方法、装置、介质及电子设备 |
WO2023071008A1 (zh) * | 2021-11-01 | 2023-05-04 | 深圳市中兴微电子技术有限公司 | 视频编码方法、网络设备及存储介质 |
CN115955574A (zh) * | 2023-03-10 | 2023-04-11 | 宁波康达凯能医疗科技有限公司 | 一种基于权重网络的帧内图像编码方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111263145B (zh) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111263145B (zh) | 基于深度神经网络的多功能视频快速编码方法 | |
CN111147867B (zh) | 一种多功能视频编码cu划分快速决策方法及存储介质 | |
CN106713935A (zh) | 一种基于贝叶斯决策的hevc块划分快速方法 | |
CN110087087A (zh) | Vvc帧间编码单元预测模式提前决策及块划分提前终止方法 | |
CN108322747B (zh) | 一种面向超高清视频的编码单元划分优化方法 | |
CN103517069A (zh) | 一种基于纹理分析的hevc帧内预测快速模式选择方法 | |
WO2020207162A1 (zh) | 帧内预测编码方法、装置、电子设备及计算机存储介质 | |
CN111988628B (zh) | 基于强化学习的vvc的快速帧内编码方法 | |
CN105141954A (zh) | 一种hevc帧间编码快速模式选择方法 | |
CN109769119B (zh) | 一种低复杂度视频信号编码处理方法 | |
CN111711815B (zh) | 基于集成学习和概率模型的快速vvc帧内预测方法 | |
CN114286093A (zh) | 一种基于深度神经网络的快速视频编码方法 | |
CN106937116A (zh) | 基于随机训练集自适应学习的低复杂度视频编码方法 | |
CN108924558A (zh) | 一种基于神经网络的视频预测编码方法 | |
CN107690069B (zh) | 一种数据驱动的级联视频编码方法 | |
CN108012149A (zh) | 一种视频编码中码率控制的方法 | |
CN103327327A (zh) | 用于高性能视频编码hevc的帧间预测编码单元选择方法 | |
CN116489386A (zh) | 一种基于参考块的vvc帧间快速编码方法 | |
CN111614960A (zh) | 按图像内容特征进行帧级划分的快速编解码方法 | |
CN104601992A (zh) | 基于贝叶斯最小风险决策的skip模式快速选择方法 | |
CN110351561B (zh) | 一种用于视频编码优化的高效强化学习训练方法 | |
CN111372079B (zh) | 一种vvc帧间cu深度快速划分方法 | |
CN108989801B (zh) | 一种基于时空特性的自适应模式选择快速方法 | |
CN106658024A (zh) | 一种快速的视频编码方法 | |
CN115941960A (zh) | 基于轻量级神经网络的vvc帧间cu划分提前跳过方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |