CN108111860B - 基于深度残差网络的视频序列丢失帧预测恢复方法 - Google Patents
基于深度残差网络的视频序列丢失帧预测恢复方法 Download PDFInfo
- Publication number
- CN108111860B CN108111860B CN201810027472.4A CN201810027472A CN108111860B CN 108111860 B CN108111860 B CN 108111860B CN 201810027472 A CN201810027472 A CN 201810027472A CN 108111860 B CN108111860 B CN 108111860B
- Authority
- CN
- China
- Prior art keywords
- data set
- depth residual
- residual error
- network
- convolutional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/587—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/65—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using error resilience
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明提供的基于深度残差网络的视频序列丢失帧预测恢复方法,运用深度学习相关理论,利用深度残差网络来避免因网络层数过多而造成的训练效率大幅降低甚至不易收敛的现象,同时考虑LSTM长短时记忆网络对时间序列的记忆学习能力,用固定数量的视频帧图像数据作为训练样本训练该网络,进而进行视频序列中丢失帧的恢复预测,本发明极大程度上利用了视频帧图像的内在特征以及帧间图像的相似性与连贯性,提高了预测精度与效率,同时具有较强的泛化能力,具有一定的社会价值和现实意义。
Description
技术领域
本发明属于视频处理技术领域,涉及一种视频序列丢失帧预测恢复方法,具体是一种基于深度残差网络的视频序列丢失帧预测恢复方法。
背景技术
视频往往需要传输,比如浏览在线视频以及监控图像的传输。实际情况中,由于受传输条件,视频的传输有时候会伴随着帧的丢失,为了提高得到视频的质量,往往会寻求一些办法来利用未丢失的帧来对这些丢失帧进行恢复重建。
现有的丢失帧恢复方法,大多利用高斯函数、光流、运动矢量等传统方法,以像素块为单位进行丢失帧的恢复预测,计算量大且像素块的选择需要人为选取,影响丢失帧的恢复准确度。
发明内容
本发明针对现有技术的不足,提供了一种基于深度残差网络的视频序列丢失帧预测恢复方法,利用深度学习方法强大的数据非线性逼近能力和自学习能力,准确预测视频传输过程中丢失帧的图像。
本发明的目的可以通过以下技术方案实现:
基于深度残差网络的视频序列丢失帧预测恢复方法,具体包括以下步骤:
步骤S1,收集视频序列中预定数量的连续视频帧图像,选取视频中的某帧图像作为丢失帧,然后按照距离丢失帧的远近,将视频帧序列划分为当前组、近期组和远期组,构造数据集;
步骤S2,构造基于LSTM的深度残差网络结构;
步骤S3,根据步骤S1构造的数据集,构造基于LSTM的深度残差网络结构的训练数据集、验证数据集和测试数据集;
步骤S4,将步骤S3中的训练数据集送入步骤S2中构造的基于LSTM的深度残差网络结构中,进行网络训练,然后采用步骤S3中的验证数据集和测试数据集对训练所得的参数进行调整,逐步提高预测精度;
步骤S5,将经过步骤S4中网络训练、验证、测试后的基于LSTM的深度残差网络结构作为视频序列丢失帧的预测恢复模型,将位于丢失帧之前的视频帧图像,输入基于LSTM的深度残差网络中,经过模型对输入数据的自主学习,最终可得到该丢失帧的预测恢复图像。
进一步地,所述步骤S1中构造的数据集,从丢失帧的前一帧图像开始计算,当前组、近期组和远期组分别包含m帧、n帧、p帧图像,每三组视频帧作为一个样本,构造样本数为M的数据集。
进一步地,所述步骤S2中基于LSTM的深度残差网络结构包括三个结构相同的深度残差子网络和一个输出融合模块,三个深度残差子网络分别用来处理数据集的当前组、近期组和远期组的视频帧图像。
进一步地,所述深度残差子网络具有L+6层,前三层为卷积层,用来对视频帧图像进行特征提取;中间L层为残差单元,前三层卷积层将提取的特征送入L个残差单元;最后三层为卷积层,用于进行反卷积处理,得到深度残差子网络的输出。
进一步地,所述深度残差子网络的前三个卷积层分别为卷积层L1、卷积层L2、卷积层L3,三个卷积层后各跟有一个最大池化层,卷积层L1和卷积层L2均采用线性修正单元ReLU作为激活函数,其表达为f(x)=max(0,x);
所述深度残差子网络的最后三个卷积层分别为卷积层L4、卷积层L5、卷积层L6,卷积层L4与卷积层L3的卷积核完全一致,卷积层L5与卷积层L2的卷积核完全一致,卷积层L6与卷积层L1的卷积核完全一致。
进一步地,所述输出融合模块采用一种基于参数的矩阵融合方法,公式如下:
其中是三个深度残差子网络融合后的输出,分别为当前组、近期组和远期组子网络的输出,Wc、Wr、Wd是分别受到当前、近期、远期视频帧影响的可学习参数,ο表示Hadamard乘积运算,即两个矩阵中对应的元素相乘。
进一步地,所述步骤S3中,将数据集中的视频帧图像分为训练数据集、验证数据集和测试数据集三个数据集,分别用于基于LSTM的深度残差网络的训练、验证和测试。
本发明的有益效果:本发明提供的基于深度残差网络的视频序列丢失帧预测恢复方法,运用深度学习相关理论,利用深度残差网络来避免因网络层数过多而造成的训练效率大幅降低甚至不易收敛的现象,同时考虑LSTM长短时记忆网络对时间序列的记忆学习能力,用固定数量的视频帧图像数据作为训练样本训练该网络,进而进行视频序列中丢失帧的恢复预测,本发明极大程度上利用了视频帧图像的内在特征以及帧间图像的相似性与连贯性,提高了预测精度与效率,同时具有较强的泛化能力,具有一定的社会价值和现实意义。
附图说明
图1是本发明的方法流程图。
图2是本发明深度残差网络的示意图。
图3是本发明残差单元的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种基于深度残差网络的视频序列丢失帧预测恢复方法,具体包括以下步骤:
步骤S1,收集视频序列中预定数量的连续视频帧图像,构造数据集。
其中,由于丢失帧的图像与其之前的视频帧图像具有相关性,且距离远近不同,相关性也不同,所以本发明首先选取视频中的某帧图像作为丢失帧,然后按照距离丢失帧的远近,将视频帧序列划分为当前组、近期组、远期组。从丢失帧的前一帧图像开始计算,各组分别包含m帧、n帧、p帧图像,每三组视频帧作为一个样本,构造样本数为M的数据集,优选m=5,n=15,p=25,M=20000。
步骤S2,构造基于LSTM的深度残差网络结构。
其中,如图2所示,基于LSTM的深度残差网络结构包括三个结构相同的深度残差子网络和一个输出融合模块,三个深度残差子网络分别用来处理数据集的当前组、近期组和远期组的视频帧图像。
其中,深度残差子网络具有L+6层,其前三层为卷积层,用来对视频帧图像进行特征提取。卷积层L1含有16个大小为5×5的卷积核,卷积层L2含有40个3×3的卷积核,卷积层L3含有20个3×3的卷积核,三个卷积层后各跟有一个感受野为2×2大小的最大池化层,卷积层L1和卷积层L2均采用线性修正单元ReLU作为激活函数,其表达为f(x)=max(0,x)。
深度残差子网络的中间L层为残差单元,如图3所示,前三层卷积层将提取的特征送入L个残差单元,残差网络可以避免因网络层数过多而造成的训练时效率大幅降低甚至不易收敛的现象。
深度残差子网络的最后三层为卷积层,用于进行反卷积处理,得到深度残差子网络的输出。卷积层L4含有20个与卷积层L3相同的3×3卷积核,卷积层L5含有40个与卷积层L2相同的3×3卷积核,卷积层L6含有16个与卷积层L1相同的5×5卷积核。
其中,输出融合模块采用一种基于参数的矩阵融合方法,公式如下:
步骤S3,根据步骤S1构造的数据集,构造基于LSTM的深度残差网络结构的训练数据集、验证数据集和测试数据集。
根据步骤S1中构造的数据集,将所采集的数据分为训练数据集、验证数据集和测试数据集三个数据集,三部分数据所占比例依次为70%、10%、20%,分别用于基于LSTM的深度残差网络的训练、验证和测试。
步骤S4,将步骤S3中的训练数据集送入步骤S2中构造的基于LSTM的深度残差网络结构中,进行网络训练,然后采用步骤S3中的验证数据集和测试数据集对训练所得的参数进行调整,逐步提高预测精度。
步骤S4中,训练基于LSTM的深度残差网络时,使用反向传播法和Adam算法,其中Adam算法存储了先前平方梯度的指数衰减平均值,而且保持了先前梯度的指数衰减平均值,设置初始学习速率为0.01,权重衰减取0.0005,mini-batches大小为32,反向传播的时间步长为20时间步,即每20K次迭代后学习速率除以10。
步骤S4中,训练数据集中的视频帧序列作为训练输入,验证数据集在网络训练的过程中每迭代1000次进行一次验证,最终比较test loss和train loss。当test loss不再降低时,终止网络训练,标志着用于视频序列丢失帧预测恢复的基于LSTM的深度残差网络训练完成。
步骤S4中,测试数据集中的视频帧图像在基于LSTM的深度残差网络训练完成后进行输入,输出得预测的下一帧的图像,查看该结果与实际下一视频帧的差距,进而对神经网络中的参数进行调整,逐步提高预测精度。
步骤S5,将经过步骤S4中网络训练、验证、测试后的基于LSTM的深度残差网络结构作为视频序列丢失帧的预测恢复模型,将位于丢失帧之前的视频帧图像,输入基于LSTM的深度残差网络中,经过模型对输入数据的自主学习,最终可得到该丢失帧的预测恢复图像。
本发明提供的基于深度残差网络的视频序列丢失帧预测恢复方法,运用深度学习相关理论,利用深度残差网络来避免因网络层数过多而造成的训练效率大幅降低甚至不易收敛的现象,同时考虑LSTM长短时记忆网络对时间序列的记忆学习能力,用固定数量的视频帧图像数据作为训练样本训练该网络,进而进行视频序列中丢失帧的恢复预测,本发明极大程度上利用了视频帧图像的内在特征以及帧间图像的相似性与连贯性,提高了预测精度与效率,同时具有较强的泛化能力,具有一定的社会价值和现实意义。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (5)
1.基于深度残差网络的视频序列丢失帧预测恢复方法,其特征在于,具体包括以下步骤:
步骤S1,收集视频序列中预定数量的连续视频帧图像,选取视频中的某帧图像作为丢失帧,然后按照距离丢失帧的远近,将视频帧序列划分为当前组、近期组和远期组,构造数据集;
步骤S2,构造基于LSTM的深度残差网络结构;
步骤S3,根据步骤S1构造的数据集,构造基于LSTM的深度残差网络结构的训练数据集、验证数据集和测试数据集;
步骤S4,将步骤S3中的训练数据集送入步骤S2中构造的基于LSTM的深度残差网络结构中,进行网络训练,然后采用步骤S3中的验证数据集和测试数据集对训练所得的参数进行调整,逐步提高预测精度;
步骤S5,将经过步骤S4中网络训练、验证、测试后的基于LSTM的深度残差网络结构作为视频序列丢失帧的预测恢复模型,将位于丢失帧之前的视频帧图像,输入基于LSTM的深度残差网络中,经过模型对输入数据的自主学习,最终可得到该丢失帧的预测恢复图像;
所述步骤S2中基于LSTM的深度残差网络结构包括三个结构相同的深度残差子网络和一个输出融合模块,三个深度残差子网络分别用来处理数据集的当前组、近期组和远期组的视频帧图像;
所述输出融合模块采用一种基于参数的矩阵融合方法,公式如下:
2.根据权利要求1所述的基于深度残差网络的视频序列丢失帧预测恢复方法,其特征在于,所述步骤S1中构造的数据集,从丢失帧的前一帧图像开始计算,当前组、近期组和远期组分别包含m帧、n帧、p帧图像,每三组视频帧作为一个样本,构造样本数为M的数据集。
3.根据权利要求1所述的基于深度残差网络的视频序列丢失帧预测恢复方法,其特征在于,所述深度残差子网络具有L+6层,前三层为卷积层,用来对视频帧图像进行特征提取;中间L层为残差单元,前三层卷积层将提取的特征送入L个残差单元;最后三层为卷积层,用于进行反卷积处理,得到深度残差子网络的输出。
4.根据权利要求3所述的基于深度残差网络的视频序列丢失帧预测恢复方法,其特征在于,所述深度残差子网络的前三个卷积层分别为卷积层L1、卷积层L2、卷积层L3,三个卷积层后各跟有一个最大池化层,卷积层L1和卷积层L2均采用线性修正单元ReLU作为激活函数,其表达为f(x)=max(0,x);
所述深度残差子网络的最后三个卷积层分别为卷积层L4、卷积层L5、卷积层L6,卷积层L4与卷积层L3的卷积核完全一致,卷积层L5与卷积层L2的卷积核完全一致,卷积层L6与卷积层L1的卷积核完全一致。
5.根据权利要求1所述的基于深度残差网络的视频序列丢失帧预测恢复方法,其特征在于,所述步骤S3中,将数据集中的视频帧图像分为训练数据集、验证数据集和测试数据集三个数据集,分别用于基于LSTM的深度残差网络的训练、验证和测试。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810027472.4A CN108111860B (zh) | 2018-01-11 | 2018-01-11 | 基于深度残差网络的视频序列丢失帧预测恢复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810027472.4A CN108111860B (zh) | 2018-01-11 | 2018-01-11 | 基于深度残差网络的视频序列丢失帧预测恢复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108111860A CN108111860A (zh) | 2018-06-01 |
CN108111860B true CN108111860B (zh) | 2020-04-14 |
Family
ID=62218601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810027472.4A Active CN108111860B (zh) | 2018-01-11 | 2018-01-11 | 基于深度残差网络的视频序列丢失帧预测恢复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108111860B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108769674B (zh) * | 2018-06-27 | 2019-11-12 | 北京大学深圳研究生院 | 一种基于自适应层次化运动建模的视频预测方法 |
CN108877809B (zh) * | 2018-06-29 | 2020-09-22 | 北京中科智加科技有限公司 | 一种说话人语音识别方法及装置 |
CN110110796B (zh) * | 2019-05-13 | 2020-12-18 | 哈尔滨工程大学 | 一种基于深度学习的海上船舶时序数据的分析方法 |
CN110366029B (zh) * | 2019-07-04 | 2021-08-24 | 中国科学院深圳先进技术研究院 | 一种视频间插入图像帧的方法、系统及电子设备 |
CN111083482A (zh) * | 2019-12-31 | 2020-04-28 | 合肥图鸭信息科技有限公司 | 一种视频压缩网络训练方法、装置及终端设备 |
CN113569356B (zh) * | 2021-07-27 | 2023-12-12 | 重庆大学 | 深度残差lstm网络及热误差预测模型的建模方法和迁移学习方法 |
CN115396710A (zh) * | 2022-08-09 | 2022-11-25 | 深圳乐播科技有限公司 | H5或小程序投短视频的方法以及相关装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650813A (zh) * | 2016-12-27 | 2017-05-10 | 华南理工大学 | 一种基于深度残差网络和lstm的图像理解方法 |
CN106686472A (zh) * | 2016-12-29 | 2017-05-17 | 华中科技大学 | 一种基于深度学习的高帧率视频生成方法及系统 |
CN107133919A (zh) * | 2017-05-16 | 2017-09-05 | 西安电子科技大学 | 基于深度学习的时间维视频超分辨率方法 |
-
2018
- 2018-01-11 CN CN201810027472.4A patent/CN108111860B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650813A (zh) * | 2016-12-27 | 2017-05-10 | 华南理工大学 | 一种基于深度残差网络和lstm的图像理解方法 |
CN106686472A (zh) * | 2016-12-29 | 2017-05-17 | 华中科技大学 | 一种基于深度学习的高帧率视频生成方法及系统 |
CN107133919A (zh) * | 2017-05-16 | 2017-09-05 | 西安电子科技大学 | 基于深度学习的时间维视频超分辨率方法 |
Non-Patent Citations (4)
Title |
---|
Gucan Long等.Learning image matching by simply watching video.《European conference on computer vision》.2016, * |
Learning image matching by simply watching video;Gucan Long等;《European conference on computer vision》;20161008;全文 * |
深度卷积神经网络的发展及其在计算机视觉领域的应用;张顺等;《计算机学报》;20170918;第455-462页 * |
深度学习:多层神经网络的复兴与变革;山世光;《科技导报》;20160728;第63-64页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108111860A (zh) | 2018-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108111860B (zh) | 基于深度残差网络的视频序列丢失帧预测恢复方法 | |
CN108495110B (zh) | 一种基于生成式对抗网络的虚拟视点图像生成方法 | |
CN109886358B (zh) | 基于多时空信息融合卷积神经网络的人体行为识别方法 | |
CN109905696B (zh) | 一种基于加密流量数据的视频服务体验质量的识别方法 | |
CN108184128A (zh) | 基于深度神经网络的视频序列丢失帧预测恢复方法 | |
CN107862376A (zh) | 一种基于双流神经网络的人体图像动作识别方法 | |
CN111444878A (zh) | 一种视频分类方法、装置及计算机可读存储介质 | |
CN110135386B (zh) | 一种基于深度学习的人体动作识别方法和系统 | |
CN113034380A (zh) | 一种基于改进可变形卷积校正的视频时空超分辨率方法和装置 | |
WO2021093393A1 (zh) | 基于深度神经网络的视频压缩感知与重构方法和装置 | |
CN109584170B (zh) | 基于卷积神经网络的水下图像复原方法 | |
CN113688723A (zh) | 一种基于改进YOLOv5的红外图像行人目标检测方法 | |
CN107689034A (zh) | 一种神经网络的训练方法、去噪方法及装置 | |
CN106204499A (zh) | 基于卷积神经网络的单幅图像去雨方法 | |
CN104281858A (zh) | 三维卷积神经网络训练方法、视频异常事件检测方法及装置 | |
CN106664467A (zh) | 实时视频摘要 | |
CN105072373A (zh) | 基于双向循环卷积网络的视频超分辨率方法和系统 | |
CN111460196A (zh) | 一种基于深度学习的云层变化趋势预测方法 | |
CN111178520A (zh) | 一种低计算能力处理设备的数据处理方法及装置 | |
CN110288535A (zh) | 一种图像去雨方法和装置 | |
WO2022242448A1 (zh) | 图像处理方法、装置、计算机设备、程序及存储介质 | |
CN112906046A (zh) | 一种利用单比特压缩感知技术的模型训练方法和装置 | |
CN115271101A (zh) | 基于图卷积超网络的个性化联邦学习方法 | |
CN111832479B (zh) | 基于改进的自适应锚点r-cnn的视频目标检测方法 | |
CN110956598B (zh) | 一种适用于图像中值滤波的排序系统及排序方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |