CN113810715A - 一种基于空洞卷积神经网络的视频压缩参考图像生成方法 - Google Patents
一种基于空洞卷积神经网络的视频压缩参考图像生成方法 Download PDFInfo
- Publication number
- CN113810715A CN113810715A CN202110947298.7A CN202110947298A CN113810715A CN 113810715 A CN113810715 A CN 113810715A CN 202110947298 A CN202110947298 A CN 202110947298A CN 113810715 A CN113810715 A CN 113810715A
- Authority
- CN
- China
- Prior art keywords
- reference image
- encoder
- block
- network
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000006835 compression Effects 0.000 title claims abstract description 15
- 238000007906 compression Methods 0.000 title claims abstract description 15
- 239000011800 void material Substances 0.000 title claims description 7
- 238000013527 convolutional neural network Methods 0.000 title claims description 6
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- 238000000638 solvent extraction Methods 0.000 claims abstract description 7
- 238000003062 neural network model Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 230000000903 blocking effect Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000003287 optical effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000005192 partition Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 10
- 230000002123 temporal effect Effects 0.000 description 3
- 230000010339 dilation Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/149—Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/154—Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/157—Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
- H04N19/159—Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于空洞卷积神经网络的视频压缩参考图像生成方法,包括如下步骤:(1)选取视频序列的连续两帧,对其进行分块,得到当前块与相对应的参考块的数据对,将整个视频序列按此方法进行分块后得到的数据作为神经网络模型的训练数据;(2)利用空洞卷积设计网络结构,将步骤(1)中的训练数据放入网络模型进行训练,模型训练好后,将其作为参考图像生成器;(3)在VVC编码器进行编码时,将步骤(2)生成的图像替换掉原本编码器参考列表中的参考图像,让编码器在帧间预测时使用步骤(2)生成的图像做预测。本发明能够对编码器参考图像的生成做改进,得到与当前编码帧更具相关性的参考图像,从而提高编码的效率。
Description
技术领域
本发明涉及数字视频压缩技术领域,尤其是一种基于空洞卷积神经网络的视频压缩参考图像生成方法。
背景技术
在经典的基于分块的混合视频编码框架中,帧间预测是消除时域冗余的核心技术。帧间预测技术的基本思想是,根据组成视频的连续图像之间的时域相关性,通过将已经编码的图像作为当前编码图像的参考图像,使用运动矢量表示当前编码块在参考图像中运动的相对位置,并记录参考图像的索引。在预测编码中,仅对残差图像和运动向量进行编码,消除连续图像的时域相关性,进而提高视频编码的效率。
对于正在编码的视频序列,当任何一帧编完后,都需要将其重建图像保存在编码端一段时间,一直到不需要其作为参考图像再将它释放。这是因为在low-delay P的配置下,除了I帧,其余的所有P帧在编码时都需要前面已编码的帧作为参考图像来构造参考图像列表。编码器通过计算参考图像列表中所有参考图像进行预测编码时产生的失真,挑选失真最小的作为当前帧的参考图像。
由于物体的运动具有一定的连续性,因此同一目标在两幅图像之间的运动可能不以整数像素为单位进行。也就是说,匹配块可以位于参考图像的分数像素点位置。但是分数像素值实际上是不存在的,需要用整数像素值进行插值得到。通常使用邻行或邻列整数像素值,通过固定的滤波器线性计算得到分数像素值。
在H.264/AVC中,半像素样本位置的预测值是通过水平或垂直方向上使用一维6抽头滤波器获得的,四分之一像素样本位置的预测值是通过对整像素和半像素位置的样本进行平均而产生的。在高效视频编码(H.265/HEVC)和多功能视频编码(H.266/VVC)中,包含了用于半像素样本插值的对称8抽头滤波器,和用于四分之一像素样本插值的非对称7抽头滤波器。但是由于自然视频的非平稳性,这种固定插值滤波器可能没法很好的作用在不同种类的视频上。
发明内容
本发明所要解决的技术问题在于,提供一种基于空洞卷积神经网络的视频压缩参考图像生成方法,能够对编码器参考图像的生成做改进,得到与当前编码帧更具相关性的参考图像,从而提高编码的效率。
为解决上述技术问题,本发明提供一种基于空洞卷积神经网络的视频压缩参考图像生成方法,包括如下步骤:
(1)选取视频序列的连续两帧,对其进行分块,得到当前块与相对应的参考块的数据对,将整个视频序列按此方法进行分块后得到的数据作为神经网络模型的训练数据;
(2)利用空洞卷积设计网络结构,将步骤(1)中的训练数据放入网络模型进行训练,模型训练好后,将其作为参考图像生成器;
(3)在VVC编码器进行编码时,将步骤(2)生成的图像替换掉原本编码器参考列表中的参考图像,让编码器在帧间预测时使用步骤(2)生成的图像做预测。
优选的,步骤(1)中,选取视频序列的连续两帧,对其进行分块,得到当前块与相对应的参考块的数据对,将整个视频序列按此方法进行分块后得到的数据作为神经网络模型的训练数据具体为:在进行分块时,根据当前块找到前一帧的对应块位置,计算当前块的运动矢量MV;同一目标在连续两帧中的亮度变化很小,而且其运动的变化也很小,局部区域内的像素点运动信息是相同的,借助LK光流法通过反向计算得到当前块到前一帧对应块的分数运动矢量信息。
优选的,步骤(2)中,利用空洞卷积设计网络结构,将步骤(1)中的训练数据放入网络模型进行训练,模型训练好后,将其作为参考图像生成器具体为:输入图像首先经过两个卷积层,线性整流函数ReLU作为激活函数添加到每个卷积层的后面;在此之后,添加三个空洞Inception模块;最终,在网络的最后使用一个卷积层生成最终输出图像。
优选的,对于网络中的每一个“空洞Inception”模块,使用Inception模块作为其基本结构,加入空洞卷积,并设置卷积核的扩张率,以调整空洞的大小,从而达到在不失去特征图分辨率的情况下扩大感受野的范围;
将整个网络视为一个映射函数F,并通过最小化网络预测块F(X;θ)和相对应的真实标签Y之间的损失L(θ)来学习网络参数θ,使用均方误差MSE作为损失函数:
其中M为训练样本的个数,m和n分别表示训练数据块的宽度和高度。
优选的,步骤(3)中,在VVC编码器进行编码时,将步骤(2)生成的图像替换掉原本编码器参考列表中的参考图像,让编码器在帧间预测时使用步骤(2)生成的图像做预测具体为:在VTM编码器编码过程中,对当前编码单元CU进行模式决策,VTM将检查帧内预测和帧间预测的各种模式,并检查是否有必要继续进行CU划分;之后分别计算它们的失真,编码器选择失真最小的模式作为当前CU的预测模式;在帧间预测模式中,在对当前帧进行编码之前,先构造一个参考图像列表,该列表会存储已编码帧的重构图像,之后编码器对这些候选图像进行迭代搜索,最终选择图像中具有预测失真最小的块作为当前图像中编码块的参考图像。
本发明的有益效果为:本发明从生成更具相关性的参考图像出发,提出了一种基于空洞卷积神经网络的视频压缩参考图像生成方法,为了提高传统编码效率,提出使用深度学习的方法和卷积神经网络的结构来构造参考图像生成器;为了使参考图像能更准确的为当前图像插值计算,本发明将Inception模块和空洞卷积添加到网络模型中,以此来获取多尺度的特征图信息,从而使模型生成的参考图像与当前编码图像更相似;本发明还提出将网络生成的参考图像替换掉编码器参考图像列表中原本的参考图像,进而使帧间预测更加精确,使编码器在不损失视频质量的前提下节省码率。
附图说明
图1为本发明生成用于训练网络的训练数据示意图。
图2为本发明的网络总体框架示意图。
图3为本发明网络框架中的“空洞Inception”模块结构示意图。
图4为本发明的方法流程示意图。
图5(a)为原始VVC的编码器VTM不做任何改动下的编码结果示意图。
图5(b)为编码器根据SRCNN网络生成的参考图像的编码结果示意图。
图5(c)为编码器根据VRCNN网络生成的参考图像的编码结果示意图。
图5(d)为编码器根据本发明所提出的网络模型和方法所生成的参考图像的编码结果示意图。
具体实施方式
一种基于空洞卷积神经网络的视频压缩参考图像生成方法,包括如下步骤:
(1)网络模型训练数据的生成;
由于VVC是基于块进行编码的,所以在网络训练时也会将图像分成小块。首先,选择连续两帧作为参考图像和当前图像,由于在连续两帧中,同一目标的亮度变化很小,并且同一目标的移动也很小。我们假设一个块的像素有相同的运动轨迹,进而决定使用LK光流法来得到分数运动矢量。在基于块进行训练的方法中,需要以块的形式创建训练数据集。
如图1所示,对当前图像的当前块标记为网络的真实标签(Y),之后分像素块在其参考图像的位置可以通过分数运动矢量得到,因为分数像素没有实际像素值,所以需要找到相应的整数像素块的位置。通过向左上方移动分像素块,直到找到最近的整数像素,则将这个整像素块标记为网络的输入(X),所以将(X,Y)作为网络模型的一个训练样本,通过此方法将视频序列创建为训练数据集。
(2)网络结构的设计过程;
网络结构的总体方案如图2所示,输入图像首先经过两个卷积层,线性整流函数(ReLU)作为激活函数添加到每个卷积层的后面。在此之后,添加三个空洞Inception模块。最终,在网络的最后使用一个卷积层生成最终输出图像。
对于网络中的每一个“空洞Inception”模块,如图3所示,我们使用Inception模块作为其基本结构,希望模块能够从上一层获取多尺度特征图信息。为了能获得更多的上下文信息,还加入了空洞卷积。我们将其添加到模块中,并设置卷积核的扩张率,以调整空洞的大小,从而达到在不失去特征图分辨率的情况下扩大感受野的范围。
我们将整个网络视为一个映射函数F,并通过最小化网络预测块F(X;θ)和相对应的真实标签Y之间的损失L(θ)来学习网络参数θ。我们使用均方误差MSE作为损失函数:
其中M为训练样本的个数,m和n分别表示训练数据块的宽度和高度。
(3)将网络模型生成的图像与编码器相结合;
如图4所示,在VTM编码器编码过程中,对当前编码单元(CU)进行模式决策。VTM将检查帧内预测和帧间预测的各种模式,并检查是否有必要继续进行CU划分。之后分别计算它们的失真,编码器选择失真最小的模式作为当前CU的预测模式。在帧间预测模式中,首先,在对当前帧进行编码之前,先构造一个参考图像列表,该列表会存储已编码帧的重构图像,之后编码器对这些候选图像进行迭代搜索,最终选择图像中具有预测失真最小的块作为当前图像中编码块的参考图像。
本发明提出的方法是使用当前编码图像的前一张图像作为网络模型的输入,目的是通过训练好的网络模型输出更接近当前编码图像的参考图像。然后,我们将VVC编码器中原始参考列表中的参考图像替换为模型预测的图像,如图4参考图像列表中POC为t-1的图像。
实施例:
下面结合一个具体的实施方案对本发明作进一步的详细说明。
本发明所提出的方法用HEVC测试序列中的BlowingBubbles视频作为训练数据,通过将此视频序列中所有的帧按本发明训练数据生成的方法,划分为大小为16×16的块,从而创建了一个数据集,其总数超过160,000个块。对于网络模型的参数设置,我们最初将网络学习率设置为10-4,并以相同的间隔调整学习率。此外,网络使用的是Adadelta优化器,批大小(mini-batch)设置为32。经过近80个时期(epoch)的训练,训练损失逐渐收敛。编码器使用VVC参考软件VTM(10.0版本),在实验中遵循VVC常见的测试条件,并使用VTM提供的默认编码配置。我们使用低延迟P配置在4个量化参数(QP)22,27,32和37下进行压缩性能测试。
在本发明提出的网络模型中,存在非常重要的空洞Inception模块,如图3所示,对每一个模块,我们使用Inception模块作为基本架构,对于其中每一个分支,我们首先添加1×1卷积层,其主要目的是在保持空间分辨率不变的情况下降维,减少卷积参数。然后在前三个分支中加入标准卷积和空洞卷积。在第一个分支中,模块使用标准的3×3卷积。对于第二个分支,模块同时使用了标准卷积和扩张率为3的空洞卷积。在第三个分支中,我们使用两个标准的3×3卷积和一个扩张率为5的空洞卷积。为了减少模型参数,两个堆叠的3×3卷积在捕获感受野方面等同于一个5×5卷积。在这个模块的设计中,三个分支的输出的感受野大小分别是3,9,15。之后,我们将这三个分支的输出连接起来,目的是将来自不同感受野的信息结合起来,并且增加图像特征的通道数。在最右侧的分支上,我们只使用了一个简单的1×1卷积层。因此,该分支获得的输出在很大程度上仍然携带着原始输入特征图的信息。最终,使用加权运算将左边的特征映射和右边的特征映射拼接起来:
本发明将所提出的方法集成到VVC编码器中,并将我们的发明与编码器未经修改的原始算法的压缩性能进行比较。对于每个视频序列,我们通过使用网络的输出来替换参考列表中的原始参考图像,进而对其进行帧间预测编码。
为了验证本发明的有效性,我们分别就原始VVC编码器的方法与使用其他三个网络模型生成的参考图像的方法进行对比实验。在这三个网络模型中,除了本发明提出的网络模型之外,还用了两种比较流行的网络模型SRCNN(Super-Resolution ConvolutionalNeural Network)和VRCNN(Variable-Filter-Size Residue Learning ConvolutionalNeural Network)。所有模型都通过相同的方法进行训练,并用其生成的参考图像替换掉原本VVC缓冲区里面的参考图像。如图5(a)-(d)所示为BQMall视频序列的第六帧。我们使用原本的VVC编码器、SRCNN网络模型、VRCNN网络模型和本发明提出的方法在QP为32时进行编码的结果。之后,计算不同方法的BD-Rate,从而比较各个方案相对于原始VVC编码器节省的比特率。通过实验观察发现,本发明的空洞卷积神经网络模型拥有最高的编码效率。
Claims (5)
1.一种基于空洞卷积神经网络的视频压缩参考图像生成方法,其特征在于,包括如下步骤:
(1)选取视频序列的连续两帧,对其进行分块,得到当前块与相对应的参考块的数据对,将整个视频序列按此方法进行分块后得到的数据作为神经网络模型的训练数据;
(2)利用空洞卷积设计网络结构,将步骤(1)中的训练数据放入网络模型进行训练,模型训练好后,将其作为参考图像生成器;
(3)在VVC编码器进行编码时,将步骤(2)生成的图像替换掉原本编码器参考列表中的参考图像,让编码器在帧间预测时使用步骤(2)生成的图像做预测。
2.如权利要求1所述的基于空洞卷积神经网络的视频压缩参考图像生成方法,其特征在于,步骤(1)中,选取视频序列的连续两帧,对其进行分块,得到当前块与相对应的参考块的数据对,将整个视频序列按此方法进行分块后得到的数据作为神经网络模型的训练数据具体为:在进行分块时,根据当前块找到前一帧的对应块位置,计算当前块的运动矢量MV;同一目标在连续两帧中的亮度变化很小,而且其运动的变化也很小,局部区域内的像素点运动信息是相同的,借助LK光流法通过反向计算得到当前块到前一帧对应块的分数运动矢量信息。
3.如权利要求1所述的基于空洞卷积神经网络的视频压缩参考图像生成方法,其特征在于,步骤(2)中,利用空洞卷积设计网络结构,将步骤(1)中的训练数据放入网络模型进行训练,模型训练好后,将其作为参考图像生成器具体为:输入图像首先经过两个卷积层,线性整流函数ReLU作为激活函数添加到每个卷积层的后面;在此之后,添加三个空洞Inception模块;最终,在网络的最后使用一个卷积层生成最终输出图像。
5.如权利要求1所述的基于空洞卷积神经网络的视频压缩参考图像生成方法,其特征在于,步骤(3)中,在VVC编码器进行编码时,将步骤(2)生成的图像替换掉原本编码器参考列表中的参考图像,让编码器在帧间预测时使用步骤(2)生成的图像做预测具体为:在VTM编码器编码过程中,对当前编码单元CU进行模式决策,VTM将检查帧内预测和帧间预测的各种模式,并检查是否有必要继续进行CU划分;之后分别计算它们的失真,编码器选择失真最小的模式作为当前CU的预测模式;在帧间预测模式中,在对当前帧进行编码之前,先构造一个参考图像列表,该列表会存储已编码帧的重构图像,之后编码器对这些候选图像进行迭代搜索,最终选择图像中具有预测失真最小的块作为当前图像中编码块的参考图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110947298.7A CN113810715B (zh) | 2021-08-18 | 2021-08-18 | 一种基于空洞卷积神经网络的视频压缩参考图像生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110947298.7A CN113810715B (zh) | 2021-08-18 | 2021-08-18 | 一种基于空洞卷积神经网络的视频压缩参考图像生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113810715A true CN113810715A (zh) | 2021-12-17 |
CN113810715B CN113810715B (zh) | 2024-04-05 |
Family
ID=78893745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110947298.7A Active CN113810715B (zh) | 2021-08-18 | 2021-08-18 | 一种基于空洞卷积神经网络的视频压缩参考图像生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113810715B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114466199A (zh) * | 2022-04-12 | 2022-05-10 | 宁波康达凯能医疗科技有限公司 | 一种可适用于vvc编码标准的参考帧生成方法与系统 |
CN115965848A (zh) * | 2023-03-13 | 2023-04-14 | 腾讯科技(深圳)有限公司 | 一种图像处理方法和相关装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111489372A (zh) * | 2020-03-11 | 2020-08-04 | 天津大学 | 基于级联卷积神经网络的视频前背景分离方法 |
CN111507215A (zh) * | 2020-04-08 | 2020-08-07 | 常熟理工学院 | 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法 |
-
2021
- 2021-08-18 CN CN202110947298.7A patent/CN113810715B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111489372A (zh) * | 2020-03-11 | 2020-08-04 | 天津大学 | 基于级联卷积神经网络的视频前背景分离方法 |
CN111507215A (zh) * | 2020-04-08 | 2020-08-07 | 常熟理工学院 | 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法 |
Non-Patent Citations (2)
Title |
---|
廖健: ""基于多策略融合及多尺度级联卷积神经网络的背景减除方法研究"", 《硕士学位论文》 * |
张旭: ""结合卷积神经网络的视频组播研究"", 《硕士学位论文》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114466199A (zh) * | 2022-04-12 | 2022-05-10 | 宁波康达凯能医疗科技有限公司 | 一种可适用于vvc编码标准的参考帧生成方法与系统 |
CN115965848A (zh) * | 2023-03-13 | 2023-04-14 | 腾讯科技(深圳)有限公司 | 一种图像处理方法和相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113810715B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11902563B2 (en) | Encoding and decoding method and device, encoder side apparatus and decoder side apparatus | |
CN108900848B (zh) | 一种基于自适应可分离卷积的视频质量增强方法 | |
CN108781284A (zh) | 具有仿射运动补偿的视频编解码的方法及装置 | |
CN110996104B (zh) | 一种光场焦点堆栈图像序列编、解码方法、装置及系统 | |
CN113810715B (zh) | 一种基于空洞卷积神经网络的视频压缩参考图像生成方法 | |
CN111479110B (zh) | 针对h.266/vvc的快速仿射运动估计方法 | |
CN108289224B (zh) | 一种视频帧预测方法、装置及自动补偿神经网络 | |
CN111064958A (zh) | 一种针对b帧和p帧的低复杂度神经网络滤波算法 | |
CN113489987B (zh) | 一种hevc子像素运动估计方法及装置 | |
CN105306957A (zh) | 自适应环路滤波方法和设备 | |
CN113055674B (zh) | 一种基于两阶段多帧协同的压缩视频质量增强方法 | |
CN116472707A (zh) | 图像预测方法、编码器、解码器以及计算机存储介质 | |
CN101765011A (zh) | 缩放运动估计的方法和装置 | |
Zhang et al. | Advanced CNN based motion compensation fractional interpolation | |
CN110677644B (zh) | 一种视频编码、解码方法及视频编码帧内预测器 | |
CN112601095B (zh) | 一种视频亮度和色度分数插值模型的创建方法及系统 | |
CN113068041A (zh) | 一种智能仿射运动补偿编码方法 | |
CN110581993A (zh) | 一种基于多用途编码中帧内编码的编码单元快速划分方法 | |
CN110392264B (zh) | 一种基于神经网络的对齐外插帧方法 | |
CN109168000B (zh) | 一种基于rc预测的hevc帧内预测快速算法 | |
KR20230115043A (ko) | 영상의 화질에 따라 초해상도 딥러닝 네트워크를 적용하는 비디오 처리 방법 및 비디오 처리 장치 | |
CN116980596A (zh) | 一种帧内预测方法、编码器、解码器及存储介质 | |
CN112954350A (zh) | 一种基于帧分类的视频后处理优化方法及装置 | |
Tian et al. | Dilated convolutional neural network-based deep reference picture generation for video compression | |
CN115037933B (zh) | 一种帧间预测的方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |