CN113225552B - 一种智能快速帧间编码方法 - Google Patents
一种智能快速帧间编码方法 Download PDFInfo
- Publication number
- CN113225552B CN113225552B CN202110518364.9A CN202110518364A CN113225552B CN 113225552 B CN113225552 B CN 113225552B CN 202110518364 A CN202110518364 A CN 202110518364A CN 113225552 B CN113225552 B CN 113225552B
- Authority
- CN
- China
- Prior art keywords
- coding
- coding unit
- information
- features
- division
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/109—Selection of coding mode or of prediction mode among a plurality of temporal predictive coding modes
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种智能快速帧间编码方法,所述方法包括:将编码单元的划分视作二分类问题,设计了一种多信息融合卷积神经网络模型作为分类器,实现编码单元划分提前终止;以编码单元的纹理信息和运动信息作为分类器的输入,分别经过非对称卷积核特征提取模块获取输入的特征;再使用基于注意力的特征融合模块得到融合的特征,最终使用分类模块根据融合特征获取分类结果;通过考虑编码单元的运动信息以及多信息融合网络输出的置信度作为条件,实现Merge模式早期决策。本发明尽可能在压缩视频质量不变的条件下缩短帧间编码时间,借助深度学习的特征提取与分析能力,通过充分利用空域、时域及运动场信息,有效降低帧间编码复杂度。
Description
技术领域
本发明涉及深度学习、视频编码领域,尤其涉及一种智能快速帧间编码方法。
背景技术
视频是信息传播的重要载体。近年来,随着互联网和多媒体技术飞速发展,硬件设备性能的不断提升,高清、超高清以及全景视频的应用场景愈发广泛。然而,这些数据量更大的视频为存储和传输带来极大的挑战。
视频压缩编码技术有助于解决庞大的视频数据量与有限的传输带宽之间的矛盾。通过高效的视频压缩编码技术,可以去除视频中存在的冗余信息,降低视频对高传输带宽的需求。然而,视频编码过程计算复杂度高,成为制约视频压缩编码技术在实时场景应用中的瓶颈。
为了尽可能降低编码视频需要的时间,新一代视频编码标准已经集成了一些低复杂度编码工具。随着人工智能的发展,深度学习技术在计算机视觉等领域取得了显著成就,这为视频低复杂度编码提供了新的研究思路。Tang等人提出了一种基于深度学习的形状自适应快速帧内编码单元划分决策方法,利用可变大小的池化层处理不同尺寸的编码单元。Tissier等人提出了一种基于深度学习的帧内编码块边界决策算法,通过神经网络预测64*64编码单元内所有4*4块的边界存在划分边缘的概率值,从而根据概率值跳过不太可能的划分模式。
现有方法主要关注于利用编码单元的纹理信息降低帧内编码复杂度,并没有考虑帧间的时域相关性,因此这些方法并不适合用于降低帧间编码复杂度。目前未见工作研究基于深度学习的低复杂度帧间编码方法。
发明内容
本发明提供了一种智能快速帧间编码方法,本发明尽可能在压缩视频质量不变的条件下缩短帧间编码时间,借助深度学习的特征提取与分析能力,通过充分利用空域、时域及运动场信息,有效降低帧间编码复杂度,详见下文描述:
一种智能快速帧间编码方法,所述方法包括:
将编码单元的划分视作二分类问题,设计了一种多信息融合卷积神经网络模型作为分类器,实现编码单元划分提前终止;
以编码单元的纹理信息和运动信息作为分类器的输入,分别经过非对称卷积核特征提取模块获取输入的特征;
再使用基于注意力的特征融合模块得到融合的特征,最终使用分类模块根据融合特征获取分类结果;
通过考虑编码单元的运动信息以及多信息融合网络输出的置信度作为条件,实现Merge模式早期决策。
其中,所述非对称卷积核特征提取模块对于不同尺寸的编码单元具有不同的结构。
进一步地,所述基于注意力的特征融合模块具体为:使用卷积融合三种特征,得到FFusion=Conv(concat(FF_Luma,FF_Residual,FF_MotionField));
使用残差注意力单元选出更有效的特征,即FEffect=Φ(FFusion),Φ表示残差注意力单元;
最终再通过卷积降低特征图通道数,得到F′Effect,便于后续分类模块得到预测结果。
进一步地,所述Merge模式早期决策具体为:
在以编码单元的运动信息为条件实现Merge模式早期决策方法的基础上,以多信息融合网络模型输出的置信度作为额外条件,即,若当前编码单元在经过网络预测之后决定提前终止当前编码单元的划分,且此时网络输出的置信度超过阈值THMerge,才跳过Merge模式之外的其他预测模式。
本发明提供的技术方案的有益效果是:
1、本发明利用纹理和运动信息,通过卷积神经网络准确高效的预测出当前编码单元的划分过程是否可以提前终止,从而避免不必要的划分,降低编码复杂度,提升编码速度;
2、本发明利用运动信息,并且结合神经网络的预测结果准确高效的预测出当前编码单元的最优帧间预测模式是否为Merge模式,从而跳过其他帧间预测模式,降低编码复杂度,提升编码速度。
附图说明
图1为一种智能快速帧间编码方法的流程图;
图2为本发明所提方法的应用流程图;
图3为多信息融合卷积神经网络模型结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种智能快速帧间编码方法,参见图1,该方法包括以下步骤:
一、智能快速帧间编码的方法设计
为了降低编码复杂度,减少帧间编码时间,本发明实施例提出了一种智能快速帧间编码方法,包括:基于深度学习的编码单元划分提前终止方法和Merge模式早期决策方法。
每一个编码单元都具有帧间划分模式和帧间预测模式。帧间划分模式负责把大尺寸的编码单元划分成小尺寸的编码单元,例如:将一个64*64的编码单元划分成四个32*32的编码单元。帧间预测模式负责对编码单元进行预测编码。
首先,对于基于深度学习的编码单元划分提前终止方法,将编码单元的划分视作二分类问题,设计了一种多信息融合卷积神经网络模型作为分类器,参见图3。以编码单元的纹理信息和运动信息作为分类器的输入,分别经过非对称卷积核特征提取模块获取输入的特征,再使用基于注意力的特征融合模块得到融合的特征,最终使用分类模块根据融合特征获取分类结果。本方法利用分类器提前判断编码单元的划分过程是否可以提前终止,如果可以终止,那么跳过所有帧间划分模式,当前编码单元不再进一步划分,否则,跳过所有帧间预测模式,进一步划分当前编码单元。
然后,对于Merge模式早期决策方法,通过考虑编码单元的预测残差值以及多信息融合网络输出的置信度,判断是否可以跳过Merge模式之外的帧间预测模式,如果是,那么跳过那些帧间预测模式,只保留Merge模式,否则不做处理。
二、基于深度学习的编码单元划分提前终止的方法设计
四叉树加多类型树划分技术为编码单元的划分提供了较大的灵活性,显著增加了视频编码的计算复杂度。通过设计多信息融合网络模型并以其作为分类器,提前终止复杂的编码单元划分过程,从而有效降低编码的计算复杂度。多信息融合网络模式的结构示意图如图3所示。
多信息融合卷积神经网络模型的输入是编码单元的亮度分量、预测残差以及双向运动场信息(其中预测残差和运动场信息是在编码当前帧之前对这一帧进行运动估计获取的),其中亮度分量包含纹理信息,预测残差和运动场包含运动信息。
首先使用非对称卷积核特征提取模块分别提取三个输入相应的纹理特征和运动特征,然后再通过基于注意力的特征聚合模块将提取得到的三种特征进行融合并进一步提取融合特征中的有效信息。最后使用分类模块获取当前编码单元提前终止划分的置信度,取值范围是0到1。
非对称卷积核特征提取模块用于提取输入的特征。首先,使用三个并联的卷积分别提取此模块的输入的特征,记为F1,F2,F3,接着使用串联的卷积与注意力层融合这三个特征并强调特征图中有助于最终分类的信息,记融合得到的特征为FF=CBAM(Conv(concat(F1,F2,F3))),其中,CBAM表示注意力操作,Conv表示卷积操作,concat表示级联操作,FF即为非对称卷积核特征提取模块的输出。
不同尺寸编码单元的性质差异较大,因此为了尽可能提升卷积神经网络作为“分类器”的准确率,以尺寸为条件把编码单元归为三类,具体而言,三个并联的卷积有不同的卷积核尺寸,分别是一个方形卷积核(N*N)和两个矩形卷积核(N-2*N+2和N+2*N-2)。为了满足准确预测不同尺寸编码单元的需求,这部分的并联卷积的配置有三类,分别是类1:{5*9,7*7,9*5},类2:{3*7,5*5,7*3}和类3:{1*5,3*3,5*1}。类1适用于尺寸为128*128(宽*高),128*64,64*128的编码单元;类2适用于尺寸为64*64,64*32,32*64,64*16,16*64的编码单元;类3适用于尺寸为32*32,32*16,16*32,16*16的编码单元(为了防止网络在小尺寸编码单元上花费过多的预测时间,网络仅用于宽和高大于等于16的编码单元)。
通过上述设计使用大尺寸的卷积核去提取大尺寸的编码单元的特征,使用小尺寸的卷积核去提取小尺寸的编码单元的特征。因此“多信息融合网络模型”一共有三种结构,这三种结构仅仅在“三个并联的卷积”这里存在差异。
编码单元的亮度分量、预测残差以及运动场信息分别经过非对称卷积核特征提取模块提取得到三种不同的特征,记为FF_Luma,FF_Residual,FF_MotionField,以这三种特征作为特征聚合模块的输入。
基于注意力的特征聚合模块用于充分融合这三种不同的特征。具体的,首先使用卷积融合三种特征,得到FFusion=Conv(concat(FF_Luma,FF_Residual,FF_MotionField))。为了获取融合特征中的有助于最终分类的信息,使用残差注意力单元RES-CBAM选出更有效的特征(RES代表残差单元,CBAM代表空间-通道注意力单元),即FEffect=Φ(FFusion),Φ表示残差注意力单元RES-CBAM。最终再通过卷积降低特征图通道数,得到F′Effect,便于后续分类模块得到预测结果。
以F′Effect作为分类模块的输入,经过模块内的全局平均池化层与softmax层获取最终的预测置信度Confid作为结果,Confid的取值范围是[0,1]。注意,这里Confid是多信息融合卷积神经网络认为当前编码单元可以提前终止划分过程的置信度,与之相对的,1-Confid是多信息融合卷积神经网络认为当前编码单元需要进一步划分的置信度。
为了优化多信息融合网络,设计了一个损失函数L:
其中,L由两部分相加得到,第一部分是基本的交叉熵损失,第二部分是根据VVC中率失真优化的目标,对网络的错误预测和较大率失真代价施加更多的惩罚。在L中,N表示训练的批次大小,训练真值和网络预测结果由yi和表示,ri表示编码单元的率失真代价,其中r1表示非划分模式得到的最小率失真代价,r2表示划分模式得到的最小率失真代价,rmin表示r1和r2中的较小值。
多信息融合网络被用于解决二分类问题,但网络不能保证获得的预测结果永远是正确的,而错误的预测结果会导致编码性能下降。因此,通过给网络输出的置信度添加阈值限制以改善此问题。具体的,当网络输出的置信度Confid超过阈值(将此阈值记作阈值TH)时,编码平台才会采用网络的预测结果,提前终止编码单元的划分过程。
三、Merge模式早期决策的方法设计
为了能够降低帧间模式预测计算复杂度,设计了Merge模式早期决策,用于提前跳过Merge模式之外的预测模式。Merge模式决策简述如下:在编码过程中,编码单元会依次经过Merge模式预测和其他模式预测。如果在编码单元经过平移Merge模式和仿射Merge模式预测之后,预测残差值始终为零,则认为Merge模式是最优帧间预测模式,跳过其他模式(即non-Merge模式),从而节省时间。公式表达如下:
其中,φ1为编码单元经过平移Merge模式预测之后的预测残差值;φ2为编码单元经过仿射Merge模式预测之后的预测残差值。
为了进一步提高预测的准确率,如果当前编码单元在经过网络预测之后得到的置信度Confid超过了阈值TH,决定提前终止划分,那么此时要把网络的预测置信度作为Merge模式决策的另一条件:当预测残差为零且提前终止的置信度高于阈值THMerge时,才跳过Merge模式之外的帧间预测模式。
公式表达如下:
其中,Confid为网络预测的置信度。
四、集成至编码平台
所提出的帧间编码模式快速决策方法包含两部分,第一部分是使用“编码单元划分提前终止决策”判断当前的编码单元是否可以提前终止划分,第二部分是使用“Merge模式早期决策”判断是否可以跳过不必要的帧间预测模式,在实际编码过程中的应用流程参见图2。对于编码单元划分提前终止,首先使用网络预测当前帧内所有宽高大于等于16的编码单元是否提前终止划分,然后在编码的过程中,如果网络输出的终止划分置信度高于阈值TH,那么会提前终止编码单元的划分,从而节省编码时间。对于Merge模式的早期决策,如果编码单元已经被判断是提前终止划分,那么编码单元会依据预测残差值是否为零,以及网络的预测置信度是否高于阈值THMerge决定是否跳过Merge模式之外的预测模式。如果编码单元不会采用网络预测的结果,那么只会依据预测残差值是否始终为零决定是否跳过Merge模式之外的预测模式。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,
只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种智能快速帧间编码方法,其特征在于,所述方法包括:
将编码单元的划分视作二分类问题,设计了一种多信息融合卷积神经网络模型作为分类器,实现编码单元划分提前终止;其中,所述多信息融合卷积神经网络模型包括:非对称卷积核特征提取模块、基于注意力的特征融合模块、分类模块;
以编码单元的纹理信息和运动信息作为分类器的输入,分别经过非对称卷积核特征提取模块获取输入的特征;
再使用基于注意力的特征融合模块得到融合的特征,最终使用分类模块根据融合特征获取当前编码单元提前终止划分的置信度;
2.根据权利要求1所述的一种智能快速帧间编码方法,其特征在于,所述非对称卷积核特征提取模块对于不同尺寸的编码单元具有不同的结构。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202110518364.9A CN113225552B (zh) | 2021-05-12 | 2021-05-12 | 一种智能快速帧间编码方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202110518364.9A CN113225552B (zh) | 2021-05-12 | 2021-05-12 | 一种智能快速帧间编码方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN113225552A CN113225552A (zh) | 2021-08-06 |
| CN113225552B true CN113225552B (zh) | 2022-04-29 |
Family
ID=77095277
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202110518364.9A Active CN113225552B (zh) | 2021-05-12 | 2021-05-12 | 一种智能快速帧间编码方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN113225552B (zh) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118018740B (zh) * | 2024-02-26 | 2024-10-11 | 重庆邮电大学 | 一种基于深度学习的360度视频帧间模式决策方法 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110087087A (zh) * | 2019-04-09 | 2019-08-02 | 同济大学 | Vvc帧间编码单元预测模式提前决策及块划分提前终止方法 |
| WO2019194653A1 (ko) * | 2018-04-06 | 2019-10-10 | 가온미디어 주식회사 | 움직임 정보의 복합적 머지 모드 처리를 제공하는 영상 처리 방법, 그를 이용한 영상 복호화, 부호화 방법 및 그 장치 |
| CN110730343A (zh) * | 2019-09-20 | 2020-01-24 | 中山大学 | 一种多功能视频编码帧间划分方法、系统及存储介质 |
| CN111479110A (zh) * | 2020-04-15 | 2020-07-31 | 郑州轻工业大学 | 针对h.266/vvc的快速仿射运动估计方法 |
| CN111556316A (zh) * | 2020-04-08 | 2020-08-18 | 北京航空航天大学杭州创新研究院 | 一种基于深度神经网络加速的快速块分割编码方法和装置 |
| CN111954894A (zh) * | 2018-04-10 | 2020-11-17 | 交互数字Vc控股公司 | 用于视频压缩的基于深度学习的图像分区 |
-
2021
- 2021-05-12 CN CN202110518364.9A patent/CN113225552B/zh active Active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2019194653A1 (ko) * | 2018-04-06 | 2019-10-10 | 가온미디어 주식회사 | 움직임 정보의 복합적 머지 모드 처리를 제공하는 영상 처리 방법, 그를 이용한 영상 복호화, 부호화 방법 및 그 장치 |
| CN111954894A (zh) * | 2018-04-10 | 2020-11-17 | 交互数字Vc控股公司 | 用于视频压缩的基于深度学习的图像分区 |
| CN110087087A (zh) * | 2019-04-09 | 2019-08-02 | 同济大学 | Vvc帧间编码单元预测模式提前决策及块划分提前终止方法 |
| CN110730343A (zh) * | 2019-09-20 | 2020-01-24 | 中山大学 | 一种多功能视频编码帧间划分方法、系统及存储介质 |
| CN111556316A (zh) * | 2020-04-08 | 2020-08-18 | 北京航空航天大学杭州创新研究院 | 一种基于深度神经网络加速的快速块分割编码方法和装置 |
| CN111479110A (zh) * | 2020-04-15 | 2020-07-31 | 郑州轻工业大学 | 针对h.266/vvc的快速仿射运动估计方法 |
Non-Patent Citations (1)
| Title |
|---|
| "基于神经网络的图像视频编码";贾川民;《电信科学》;20190531;第32-42页 * |
Also Published As
| Publication number | Publication date |
|---|---|
| CN113225552A (zh) | 2021-08-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN114286093B (zh) | 一种基于深度神经网络的快速视频编码方法 | |
| CN111263145B (zh) | 基于深度神经网络的多功能视频快速编码方法 | |
| CN108495129A (zh) | 基于深度学习方法的块分割编码复杂度优化方法及装置 | |
| CN106162167A (zh) | 基于学习的高效视频编码方法 | |
| CN110062239B (zh) | 一种用于视频编码的参考帧选择方法及装置 | |
| CN112887712B (zh) | 一种基于卷积神经网络的hevc帧内ctu划分方法 | |
| CN114511485B (zh) | 一种循环可变形融合的压缩视频质量增强方法 | |
| CN111462261A (zh) | 针对h.266/vvc的快速cu分区和帧内决策方法 | |
| CN111510728A (zh) | 一种基于深度特征表达与学习的hevc帧内快速编码方法 | |
| CN108924558A (zh) | 一种基于神经网络的视频预测编码方法 | |
| CN107071496B (zh) | 一种h.265/hevc帧间编码单元深度快速选择方法 | |
| CN105306947A (zh) | 基于机器学习的视频转码方法 | |
| CN111711815A (zh) | 基于集成学习和概率模型的快速vvc帧内预测方法 | |
| CN111429497A (zh) | 基于深度学习和多特征融合的自适应cu拆分决策方法 | |
| CN113225552B (zh) | 一种智能快速帧间编码方法 | |
| Amna et al. | Fast multi-type tree partitioning for versatile video coding using machine learning | |
| Liu et al. | BIRD-PCC: Bi-directional range image-based deep LiDAR point cloud compression | |
| CN118784835A (zh) | 一种多模型融合的vvc帧内编码快速cu划分方法及存储介质 | |
| CN107690069B (zh) | 一种数据驱动的级联视频编码方法 | |
| CN110351561B (zh) | 一种用于视频编码优化的高效强化学习训练方法 | |
| CN117915104A (zh) | 一种基于神经网络的vvc多层次快速帧间编码系统及方法 | |
| CN102592130B (zh) | 一种针对水下显微视频的目标识别系统及其视频编码方法 | |
| CN115209147B (zh) | 摄像头视频传输带宽优化方法、装置、设备及存储介质 | |
| CN110351558A (zh) | 一种基于强化学习的视频图像编码压缩效率提升方法 | |
| CN113784147B (zh) | 一种基于卷积神经网络的高效视频编码方法及系统 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |










