CN113691808A - 一种基于神经网络的帧间编码单元尺寸划分方法 - Google Patents
一种基于神经网络的帧间编码单元尺寸划分方法 Download PDFInfo
- Publication number
- CN113691808A CN113691808A CN202110749294.8A CN202110749294A CN113691808A CN 113691808 A CN113691808 A CN 113691808A CN 202110749294 A CN202110749294 A CN 202110749294A CN 113691808 A CN113691808 A CN 113691808A
- Authority
- CN
- China
- Prior art keywords
- coding unit
- size
- neural network
- preset
- dividing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 25
- 238000003062 neural network model Methods 0.000 claims abstract description 19
- 238000012163 sequencing technique Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 30
- 238000000638 solvent extraction Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 5
- 238000013461 design Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000005192 partition Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 101100115215 Caenorhabditis elegans cul-2 gene Proteins 0.000 description 1
- 101100171060 Caenorhabditis elegans div-1 gene Proteins 0.000 description 1
- 241000023320 Luma <angiosperm> Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/115—Selection of the code volume for a coding unit prior to coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/96—Tree coding, e.g. quad-tree coding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请涉及硬件编码器技术领域,具体来说,本申请涉及一种基于神经网络的帧间编码单元尺寸划分方法。所述方法包括:获取第一预设尺寸的编码单元;将编码单元输入到训练好的神经网络模型中,获得第二预设尺寸的编码单元;在模型预测结果中找到其相应位置并进行加和平均操作,获得对该编码单元不划分的概率;计算对该编码单元划分为子块的概率,然后进行加和平均操作回溯到该编码单元的尺寸以获取第二预设尺寸的编码单元在当前划分模式下的概率;获取预设数目的概率进行大小比较并排序,选取前N个最大概率对应的划分模式进行划分。本方法降低了统计信息和手工设计特征过程的复杂度,降低了数据依赖度,灵活限制了划分模式。
Description
技术领域
本申请涉及帧间编码技术领域,更为具体来说,本申请涉及一种基于神经网络的帧间编码单元尺寸划分方法。
背景技术
AVS代表中国数字音视频编解码技术标准,AVS3代表新一代的编解码技术标准,AVS3使用帧间预测技术,利用相邻图像间存在很大相似性这一特征,以达到有效去除视频时域冗余的目的。现有技术中的基于编码块标志(CBF)的提前终止划分方法,如果对于所有色度和亮度分量存在零CBF,则可以完全跳过当前编码单元(CU)的其余划分模式。还有一种方法为根据中间编码信息有条件地评估特定的一组帧间划分模式,但二者的缺点都是高度依赖于统计信息和手工设计的特征,无法全面显示自然视频的统计信息和编解码器的行为。总之,AVS3标准下的传统编码器通过迭代划分方式对一系列编码单元进行处理,而划分方式朝着多样、灵活的划分方式结构发展,使得划分复杂度显著提升,计算资源消耗严重。
因此,本申请提出了基于神经网络的帧间编码单元尺寸划分方法,以解决此问题。
发明内容
为实现上述技术目的,本申请提供了一种基于神经网络的帧间编码单元尺寸划分方法,包括以下步骤:
获取第一预设尺寸的编码单元;
将所述编码单元输入到训练好的神经网络模型中,获得第二预设尺寸的编码单元;
记录所述第二预设尺寸的编码单元的尺寸,在模型预测结果中找到其相应位置并进行加和平均操作,获得对该编码单元不划分的概率;
计算对该编码单元划分为子块的概率,然后进行加和平均操作回溯到该编码单元的尺寸以获取所述第二预设尺寸的编码单元在当前划分模式下的概率;
获取预设数目的概率进行大小比较并排序,选取前N个最大概率对应的划分模式进行划分。
具体地,所述计算对该编码单元划分为子块的方法包括:四叉树划分、横向二叉树划分、纵向二叉树划分、横向扩展的四叉树划分和纵向扩展的四叉树划分。
再具体地,所述神经网络模型包括1个输入层、7个卷积层、1个添加层和3个反卷积层。
优选地,所述神经网络模型的训练步骤如下:
获取样本;
将所述样本按预设比例分为训练样本和验证样本;
设计损失函数与优化算法;
输入所述训练样本进行训练,每训练一次就用所述验证样本进行验证;
在达不到预设的验证效果时重新设计损失函数与优化算法;
当迭代次数达到预设次数时,终止训练。
优选地,所述损失函数为:
进一步地,所述卷积层还包括预设尺寸的滤波器。
再进一地,所述神经网络模型还包括输出层,所述输出层的激活函数为softmax函数。
本发明第二方面提供了一种AVS3硬件编码器,所述AVS3硬件编码器应用任一实施方式中的所述基于神经网络的帧间编码单元尺寸划分方法。
本发明第三方面提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如下步骤:
获取第一预设尺寸的编码单元;
将所述编码单元输入到训练好的神经网络模型中,获得第二预设尺寸的编码单元;
记录所述第二预设尺寸的编码单元的尺寸,在模型预测结果中找到其相应位置并进行加和平均操作,获得对该编码单元不划分的概率;
计算对该编码单元划分为子块的概率,然后进行加和平均操作回溯到该编码单元的尺寸以获取所述第二预设尺寸的编码单元在当前划分模式下的概率;
获取预设数目的概率进行大小比较并排序,选取前N个最大概率对应的划分模式进行划分。
本发明第四方面提供了一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行执行如下步骤:
获取第一预设尺寸的编码单元;
将所述编码单元输入到训练好的神经网络模型中,获得第二预设尺寸的编码单元;
记录所述第二预设尺寸的编码单元的尺寸,在模型预测结果中找到其相应位置并进行加和平均操作,获得对该编码单元不划分的概率;
计算对该编码单元划分为子块的概率,然后进行加和平均操作回溯到该编码单元的尺寸以获取所述第二预设尺寸的编码单元在当前划分模式下的概率;
获取预设数目的概率进行大小比较并排序,选取前N个最大概率对应的划分模式进行划分。
本申请的有益效果为:本发明的所述方法采用端到端模型设计,考虑帧间特征数据,降低了统计信息和手工设计特征过程的复杂度,降低了数据依赖度,划分数量可配置,灵活限制了划分模式。
附图说明
图1示出了本申请实施例1的方法流程示意图;
图2示出了本申请实施例1的划分方法示意图;
图3示出了本申请实施例1、2中的神经网络训练流程示意图;
图4示出了本申请实施例2中的神经网络结构示意图;
图5示出了本申请实施例2中的划分操作过程示意图;
图6示出了本申请一实施例所提供的一种电子设备的结构示意图;
图7示出了本申请一实施例所提供的一种存储介质的示意图。
具体实施方式
以下,将参照附图来描述本申请的实施例。但是应该理解的是,这些描述只是示例性的,而并非要限制本申请的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本申请的概念。对于本领域技术人员来说显而易见的是,本申请可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本申请发生混淆,对于本领域公知的一些技术特征未进行描述。
应予以注意的是,这里所使用的术语仅是为了描述具体实施例,而非意图限制根据本申请的示例性实施例。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式。此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或附加一个或多个其他特征、整体、步骤、操作、元件、组件和/或它们的组合。
现在,将参照附图更详细地描述根据本申请的示例性实施例。然而,这些示例性实施例可以多种不同的形式来实施,并且不应当被解释为只限于这里所阐述的实施例。附图并非是按比例绘制的,其中为了清楚表达的目的,可能放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
实施例1:
本实施例实施了一种基于神经网络的帧间编码单元尺寸划分方法,如图1所示,包括以下步骤:
S1、获取第一预设尺寸的编码单元;
S2、将所述编码单元输入到训练好的神经网络模型中,获得第二预设尺寸的编码单元;
S3、记录所述第二预设尺寸的编码单元的尺寸,在模型预测结果中找到其相应位置并进行加和平均操作,获得对该编码单元不划分的概率;
S4、计算对该编码单元划分为子块的概率,然后进行加和平均操作回溯到该编码单元的尺寸以获取所述第二预设尺寸的编码单元在当前划分模式下的概率;
S5、获取预设数目的概率进行大小比较并排序,选取前N个最大概率对应的划分模式进行划分。
具体地,如图2所示,计算对该编码单元划分为子块的方法包括:四叉树划分DIV1、横向二叉树划分DIV2、纵向二叉树划分DIV3、横向扩展的四叉树划分DIV4和纵向扩展的四叉树划分DIV5。本实施例中,加上不划分的情况一共为6种,因此预设数目的概率进行大小比较并排序,选取前N个最大概率对应的划分模式进行划分时,预设数目优选为6,N为介于1至6之间的整数。
再具体地,所述神经网络模型包括1个输入层、7个卷积层、1个添加层和3个反卷积层。
如图3所示,神经网络模型的训练大体上包括训练样本选择,模型建立,训练模型及运行流程,在训练模型的过程中不断优化模型。优选地,本申请的神经网络模型的具体训练步骤如下:
获取样本;
将所述样本按预设比例分为训练样本和验证样本;
设计损失函数与优化算法;
输入所述训练样本进行训练,每训练一次就用所述验证样本进行验证;
在达不到预设的验证效果时重新设计损失函数与优化算法;
当迭代次数达到预设次数时,终止训练。
在获取样本时,每一个分辨率下至少选择一个序列,对测试序列进行时间感知信息测量(TI)计算,保证所选序列可以涵盖TI整个范围,消除2N×2N和N×N编码单元之间的率失真代价(RD)差异太小的样本,以防止模型学习此类样本,对其他样本产生错误分类,消除阈值为|RD|≤0.02。在模型建立时,编码单元CU类别设置64x64的CU中每个尺寸为4x4,类别数量为22种{0∶4x8,1∶8x4,…,21∶64x64},批(Batch)大小选为64。
优选地,所述损失函数为:
进一步地,卷积层还包括预设尺寸的滤波器。
再进一地,神经网络模型还包括输出层,所述输出层的激活函数为softmax函数。
实施例2:
本实施实施了一种基于神经网络的帧间编码单元尺寸划分方法,包括以下步骤:
步骤1、获取第一预设尺寸的编码单元。
本实施例选第一预设尺寸的编码单元(CU)尺寸为64x64。
步骤2、将所述编码单元输入到训练好的神经网络模型中,获得第二预设尺寸的编码单元。
本实施例选第二预设尺寸的编码单元(CU)尺寸为16x16x22的输出。
步骤3、记录所述第二预设尺寸的编码单元的尺寸,在模型预测结果中找到其相应位置并进行加和平均操作,获得对该编码单元不划分的概率。
训练神经网络模型的大体流程仍如图3所示,具体的训练步骤如下:
获取样本;
将所述样本按预设比例分为训练样本和验证样本;
设计损失函数与优化算法;
输入所述训练样本进行训练,每训练一次就用所述验证样本进行验证;
在达不到预设的验证效果时重新设计损失函数与优化算法;
当迭代次数达到预设次数时,终止训练。
优选地,所述损失函数为:
其中,为类平衡因子,(1-pj)γ为调制因子,p为预测概率,C为类别数,β和γ表示固定系数。类平衡因子对于样本量较小的类别,损失值将赋予较高的权重,调制因子将进一步增加分类难度更大的样本的损失权重,使模型更加关注错误的样本。
优选地,优化算法采用Adam算法,Adam算法全称为Adaptive moment estimation算法。
如图4所示,提出的深度学习模型结构由1个输入层,7个卷积层,1个添加层,3个反卷积层和3个连接层组成,其中conv代表卷积层,deconv代表反卷积层,级联表示链接层,QP标识量化参数。未标注箭头中实线箭头代表卷积操作,虚线箭头代表反卷积操作,输出层激活函数为softmax函数,其他层激活函数为relu函数。
步骤4、计算对该编码单元划分为子块的概率,然后进行加和平均操作回溯到该编码单元的尺寸以获取所述第二预设尺寸的编码单元在当前划分模式下的概率。
本实施例中,再参考图4所示,输入层的尺寸为64x64x3,第三维度分别为原CU像素值,整数运动估计模式(IME)残差值和跳过(SKIP)模式残差值。第一卷积层包含3个尺寸为4x4的滤波器,步长为4。第二卷积层、第三卷积层和第四卷积层包含尺寸为2x2、步长为2的滤波器,输出尺寸分别为16x16x64,8x8x128,4x4x256。第五卷积层包含1024个尺寸为4x4、步长为1的滤波器。分辨率和QP作为会影响划分模式选择的特征同样被添加到模型中进行卷积操作。第六卷积层包含1024个尺寸为1x1的滤波器、步长为1,输出为1x1x1024。将第五卷积层和第六卷积层的输出进行元素级别加和操作。再经过尺寸为4x4,步长为4的第一反卷积层得到4x4x256的输出。第四卷积层与第一反卷积层通过特征融合得到4x4x512的输出作为第二反卷积层的输入。第二反卷积层和第三反卷积层包含尺寸为2x2的步长为2的滤波器,输出尺寸分别为8x8x128和16x16x64。再经过尺寸为2x2的第七卷积层得到16x16x22输出。
步骤5、获取预设数目的概率进行大小比较并排序,选取前N个最大概率对应的划分模式进行划分。
参考图5所示,CU标识编码单元,QP标识量化参数,SUB标识子块,QT代表四叉树划分,HBT代表横向二叉树划分,P代表概率,P(N)表示对该编码单元不划分的概率,P(QT)表示对该编码单元进行四叉树划分的概率,P(HBT)表示对该编码单元进行横向二叉树划分的概率,省略号表示还对该编码单元进行纵向二叉树划分、横向扩展的四叉树划分和纵向扩展的四叉树划分。对当前编码单元基础上进行不同划分操作,记录子块坐标及尺寸大小,在模型预测结果中找到对应位置,即可以计算出划分后子块的概率,然后对划分后的子块们的概率通过加和平均操作回溯到当前编码单元尺寸以获取在当前编码单元特定划分情况下的预测概率。本实施方式中预设数目设为6,N为介于1至6之间的整数。
实施例3:
本实施例实施了一种AVS3硬件编码器,所述AVS3硬件编码器应用上述任一实施方式中的所述基于神经网络的帧间编码单元尺寸划分方法。该基于神经网络的帧间编码单元尺寸划分方法包括如下步骤:
获取第一预设尺寸的编码单元;
将所述编码单元输入到训练好的神经网络模型中,获得第二预设尺寸的编码单元;
记录所述第二预设尺寸的编码单元的尺寸,在模型预测结果中找到其相应位置并进行加和平均操作,获得对该编码单元不划分的概率;
计算对该编码单元划分为子块的概率,然后进行加和平均操作回溯到该编码单元的尺寸以获取所述第二预设尺寸的编码单元在当前划分模式下的概率;
获取预设数目的概率进行大小比较并排序,选取前N个最大概率对应的划分模式进行划分。
接下来请参考图6,其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图6所示,所述电子设备2包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的基于神经网络的帧间编码单元尺寸划分方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述基于神经网络的帧间编码单元尺寸划分方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的基于神经网络的帧间编码单元尺寸划分方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的基于神经网络的帧间编码单元尺寸划分方法对应的计算机可读存储介质,请参考图7,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的基于神经网络的帧间编码单元尺寸划分方法。
所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
需要说明的是:在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种基于神经网络的帧间编码单元尺寸划分方法,其特征在于,包括以下步骤:
获取第一预设尺寸的编码单元;
将所述编码单元输入到训练好的神经网络模型中,获得第二预设尺寸的编码单元;
记录所述第二预设尺寸的编码单元的尺寸,在模型预测结果中找到其相应位置并进行加和平均操作,获得对该编码单元不划分的概率;
计算对该编码单元划分为子块的概率,然后进行加和平均操作回溯到该编码单元的尺寸以获取所述第二预设尺寸的编码单元在当前划分模式下的概率;
获取预设数目的概率进行大小比较并排序,选取前N个最大概率对应的划分模式进行划分。
2.根据权利要求1所述的基于神经网络的帧间编码单元尺寸划分方法,其特征在于,所述计算对该编码单元划分为子块的方法包括:四叉树划分、横向二叉树划分、纵向二叉树划分、横向扩展的四叉树划分和纵向扩展的四叉树划分。
3.根据权利要求1所述的基于神经网络的帧间编码单元尺寸划分方法,其特征在于,所述神经网络模型包括1个输入层、7个卷积层、1个添加层和3个反卷积层。
4.根据权利要求1所述的基于神经网络的帧间编码单元尺寸划分方法,其特征在于,所述神经网络模型的训练步骤如下:
获取样本;
将所述样本按预设比例分为训练样本和验证样本;
设计损失函数与优化算法;
输入所述训练样本进行训练,每训练一次就用所述验证样本进行验证;
在达不到预设的验证效果时重新设计损失函数与优化算法;
当迭代次数达到预设次数时,终止训练。
6.根据权利要求3所述的基于神经网络的帧间编码单元尺寸划分方法,其特征在于,所述卷积层还包括预设尺寸的滤波器。
7.根据权利要求3所述的基于神经网络的帧间编码单元尺寸划分方法,其特征在于,所述神经网络模型还包括输出层,所述输出层的激活函数为softmax函数。
8.一种AVS3硬件编码器,其特征在于,所述AVS3硬件编码器应用如权利要求1至7任一项所述的基于神经网络的帧间编码单元尺寸划分方法。
9.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1至7中任一项方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110749294.8A CN113691808A (zh) | 2021-07-01 | 2021-07-01 | 一种基于神经网络的帧间编码单元尺寸划分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110749294.8A CN113691808A (zh) | 2021-07-01 | 2021-07-01 | 一种基于神经网络的帧间编码单元尺寸划分方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113691808A true CN113691808A (zh) | 2021-11-23 |
Family
ID=78576591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110749294.8A Pending CN113691808A (zh) | 2021-07-01 | 2021-07-01 | 一种基于神经网络的帧间编码单元尺寸划分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113691808A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190222842A1 (en) * | 2017-04-21 | 2019-07-18 | Tencent Technology (Shenzhen) Company Limited | Coding unit depth determining method and apparatus |
CN111263145A (zh) * | 2020-01-17 | 2020-06-09 | 福州大学 | 基于深度神经网络的多功能视频快速编码方法 |
WO2020134817A1 (zh) * | 2018-12-27 | 2020-07-02 | 华为技术有限公司 | 预测模式确定方法、装置及编码设备和解码设备 |
CN111654698A (zh) * | 2020-06-12 | 2020-09-11 | 郑州轻工业大学 | 一种针对h.266/vvc的快速cu分区决策方法 |
CN111757110A (zh) * | 2020-07-02 | 2020-10-09 | 中实燃气发展(西安)有限公司 | 视频编码方法及编码树单元划分方法、系统、设备及可读存储介质 |
CN112584154A (zh) * | 2020-12-25 | 2021-03-30 | 咪咕文化科技有限公司 | 视频编码块划分方法、装置、电子设备及存储介质 |
US20210136371A1 (en) * | 2018-04-10 | 2021-05-06 | InterDigitai VC Holdings, Inc. | Deep learning based imaged partitioning for video compression |
CN112887712A (zh) * | 2021-02-03 | 2021-06-01 | 重庆邮电大学 | 一种基于卷积神经网络的hevc帧内ctu划分方法 |
-
2021
- 2021-07-01 CN CN202110749294.8A patent/CN113691808A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190222842A1 (en) * | 2017-04-21 | 2019-07-18 | Tencent Technology (Shenzhen) Company Limited | Coding unit depth determining method and apparatus |
US20210136371A1 (en) * | 2018-04-10 | 2021-05-06 | InterDigitai VC Holdings, Inc. | Deep learning based imaged partitioning for video compression |
WO2020134817A1 (zh) * | 2018-12-27 | 2020-07-02 | 华为技术有限公司 | 预测模式确定方法、装置及编码设备和解码设备 |
CN111263145A (zh) * | 2020-01-17 | 2020-06-09 | 福州大学 | 基于深度神经网络的多功能视频快速编码方法 |
CN111654698A (zh) * | 2020-06-12 | 2020-09-11 | 郑州轻工业大学 | 一种针对h.266/vvc的快速cu分区决策方法 |
CN111757110A (zh) * | 2020-07-02 | 2020-10-09 | 中实燃气发展(西安)有限公司 | 视频编码方法及编码树单元划分方法、系统、设备及可读存储介质 |
CN112584154A (zh) * | 2020-12-25 | 2021-03-30 | 咪咕文化科技有限公司 | 视频编码块划分方法、装置、电子设备及存储介质 |
CN112887712A (zh) * | 2021-02-03 | 2021-06-01 | 重庆邮电大学 | 一种基于卷积神经网络的hevc帧内ctu划分方法 |
Non-Patent Citations (2)
Title |
---|
吴海燕;金智鹏;: "基于CNN的QTBT划分模式快速预测研究", 科技视界, no. 12 * |
吴良堤;冯桂;: "HEVC帧间编码的快速CU尺寸和PU模式决策算法", 华侨大学学报(自然科学版), no. 01 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108734269B (zh) | 产生输入图像的分类的卷积神经网络及计算机实现方法 | |
CN113781588A (zh) | 一种基于神经网络的帧内编码单元尺寸划分方法 | |
CN108989804B (zh) | 图像的编码方法及装置 | |
CN105426883B (zh) | 视频分类快速识别的方法及装置 | |
CN107204956B (zh) | 网站识别方法及装置 | |
CN111914654B (zh) | 一种文本版面分析方法、装置、设备和介质 | |
CN113556442B (zh) | 视频去噪方法、装置、电子设备及计算机可读存储介质 | |
CN116132668A (zh) | 视频图像分量的预测方法和装置、及计算机存储介质 | |
CN110830808A (zh) | 一种视频帧重构方法、装置及终端设备 | |
CN113239818A (zh) | 基于分割和图卷积神经网络的表格图像跨模态信息提取方法 | |
JP2020068027A (ja) | アンサンブル学習ベースの画像分類システム | |
CN111028182A (zh) | 图像锐化方法、装置、电子设备及计算机可读存储介质 | |
CN111144375A (zh) | 基于特征编码的异常行为检测方法、装置及电子设备 | |
CN113971732A (zh) | 小目标检测方法、装置、可读存储介质及电子设备 | |
CN112966754A (zh) | 样本筛选方法、样本筛选装置及终端设备 | |
CN111429388B (zh) | 一种图像处理方法、装置和终端设备 | |
CN113691808A (zh) | 一种基于神经网络的帧间编码单元尺寸划分方法 | |
CN116258782A (zh) | 图像压缩方法、图像编码方法、图像解码方法及装置 | |
CN111083482A (zh) | 一种视频压缩网络训练方法、装置及终端设备 | |
CN108322741A (zh) | 一种确定编码模式的方法及装置 | |
CN114938455A (zh) | 基于单元特性的编码方法、装置、电子设备及存储介质 | |
CN109583512B (zh) | 图像处理方法、装置及系统 | |
CN108702505B (zh) | 一种编码单元划分决策方法、装置、编码器及存储介质 | |
CN107766863B (zh) | 图像表征方法和服务器 | |
CN116452600B (zh) | 实例分割方法、系统、模型训练方法、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |