CN114299411A - 一种数据处理方法以及计算机设备 - Google Patents

一种数据处理方法以及计算机设备 Download PDF

Info

Publication number
CN114299411A
CN114299411A CN202110898058.2A CN202110898058A CN114299411A CN 114299411 A CN114299411 A CN 114299411A CN 202110898058 A CN202110898058 A CN 202110898058A CN 114299411 A CN114299411 A CN 114299411A
Authority
CN
China
Prior art keywords
feature
video
convolution
video frame
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110898058.2A
Other languages
English (en)
Inventor
谢植淮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110898058.2A priority Critical patent/CN114299411A/zh
Publication of CN114299411A publication Critical patent/CN114299411A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请实施例公开了基于人工智能的一种数据处理方法以及计算机设备,其中,方法包括:获取视频中的第一视频帧以及第二视频帧;第一视频帧对应的视频场景与第二视频帧对应的视频场景相同;对第一视频帧对应的第一初始视频特征进行特征卷积处理,生成第一视频帧对应的第一待融合视频特征;对第一视频帧对应的第一初始视频特征,以及第二视频帧对应的第二初始视频特征进行特征拼接处理,生成第一待处理视频特征;对第一待处理视频特征进行特征下采样处理,生成第二待处理视频特征;根据第二待处理视频特征以及第一待融合视频特征,生成针对第二视频帧的对齐视频帧。采用本申请,可以对齐光流数据的识别准确率,进而可以生成高准确率的对齐视频帧。

Description

一种数据处理方法以及计算机设备
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据处理方法以及计算机设备。
背景技术
光流估计是计算机视觉研究中的一个重要方向,其在视频任务中是解决很多其他问题的基础,例如运动估计、运动分割和行为识别,光流估计作为一个基础技术,配合其他技术发挥着重要的功能,故备受关注。
实现光流估计可以通过视频帧对齐(帧间对齐)方法,具体可以为通过一张图像(视频帧)中的光流数据,估计另外一张图像(视频帧)中的光流数据的对齐光流数据。现有的帧间对齐方法,大都是基于图像指标的先验信息,即人工分析先验信息,确定该指标的规律,根据规律估计图像中的光流差异,例如基于两张图像中的同一物体的亮度不变性,估计图像的对齐光流数据。但人工只能观察表面的规律,难以发现深层次中的隐藏因素,故采用现有方法可能识别低准确率的对齐光流数据,从而生成低准确率的对齐视频帧。
发明内容
本申请实施例提供一种数据处理方法以及计算机设备,可以提高对齐光流数据的识别准确率,进而可以生成高准确率的对齐视频帧。
本申请实施例一方面提供了一种数据处理方法,包括:
获取视频中的第一视频帧以及第二视频帧;第一视频帧对应的视频场景与第二视频帧对应的视频场景相同;
对第一视频帧对应的第一初始视频特征进行特征卷积处理,生成第一视频帧对应的第一待融合视频特征;
对第一视频帧对应的第一初始视频特征,以及第二视频帧对应的第二初始视频特征进行特征拼接处理,生成第一待处理视频特征;
对第一待处理视频特征进行特征下采样处理,生成第二待处理视频特征;
根据第二待处理视频特征以及第一待融合视频特征,生成针对第二视频帧的对齐视频帧。
本申请实施例一方面提供了一种数据处理方法,包括:
获取样本视频中的第一样本视频帧以及第二样本视频帧;第一样本视频帧对应的样本视频场景与第二样本视频帧对应的样本视频场景相同;
将第一样本视频帧以及第二样本视频帧分别输入至视频帧对齐初始模型,在视频帧对齐初始模型中,对第一样本视频帧对应的第一初始样本视频特征进行特征卷积处理,生成第一样本视频帧对应的第一待融合样本视频特征;
对第一样本视频帧对应的第一初始样本视频特征,以及第二样本视频帧对应的第二初始样本视频特征进行特征拼接处理,生成第一待处理样本视频特征;
对第一待处理样本视频特征进行特征下采样处理,生成第二待处理样本视频特征;
根据第二待处理样本视频特征以及第一待融合样本视频特征,生成针对第二样本视频帧的对齐估计视频帧;
获取第二样本视频帧以及对齐估计视频帧之间的均方差值,将均方差值确定为视频帧对齐初始模型的损失值;
根据损失值对视频帧对齐初始模型中的模型参数进行调整,生成视频帧对齐模型;视频帧对齐模型用于对视频中的视频帧进行帧间对齐处理。
本申请实施例一方面提供了一种数据处理装置,包括:
第一获取模块,用于获取视频中的第一视频帧以及第二视频帧;第一视频帧对应的视频场景与第二视频帧对应的视频场景相同;
第一生成模块,用于对第一视频帧对应的第一初始视频特征进行特征卷积处理,生成第一视频帧对应的第一待融合视频特征;
第二生成模块,用于对第一视频帧对应的第一初始视频特征,以及第二视频帧对应的第二初始视频特征进行特征拼接处理,生成第一待处理视频特征;
第三生成模块,用于对第一待处理视频特征进行特征下采样处理,生成第二待处理视频特征;
第四生成模块,用于根据第二待处理视频特征以及第一待融合视频特征,生成针对第二视频帧的对齐视频帧。
其中,第三生成模块,包括:
获取模型单元,用于获取视频帧对齐模型;视频帧对齐模型包括A个特征下采样层,A个特征下采样层包括特征下采样层Bc以及特征下采样层Bc+1,A为正整数,c为正整数且c小于A;
第一处理单元,用于在特征下采样层Bc中,对第一输入特征进行特征下采样处理,生成第一过渡视频特征Dc;若特征下采样层Bc为A个特征下采样层中的首个特征下采样层,则第一输入特征为第一待处理视频特征;若特征下采样层Bc不为A个特征下采样层中的首个特征下采样层,则第一输入特征为,特征下采样层Bc的上一个特征下采样层所输出的第一过渡视频特征;
第二处理单元,用于将第一过渡视频特征Dc作为特征下采样层Bc+1的第一输入特征,在特征下采样层Bc+1中,对第一过渡视频特征Dc进行特征下采样处理,生成第一过渡视频特征Dc+1
第一确定单元,用于若特征下采样层Bc+1不为A个特征下采样层中的最后一个特征下采样层,则将第一过渡视频特征Dc+1确定为,特征下采样层Bc+1的下一个特征下采样层的第一输入特征;
第二确定单元,用于若特征下采样层Bc+1为A个特征下采样层中的最后一个特征下采样层,则将第一过渡视频特征Dc+1确定为第二待处理视频特征。
其中,特征下采样层Bc包括第一卷积组件以及特征池化组件;
第一处理单元,包括:
第一处理子单元,用于将第一输入特征输入至第一卷积组件,在第一卷积组件中,对第一输入特征进行特征卷积处理,生成待池化视频特征;
第一处理子单元,还用于将待池化视频特征输入至特征池化组件;特征池化组件携带池化尺寸;
第二处理子单元,用于根据池化尺寸,在特征池化组件中对待池化视频特征进行特征下采样处理,生成第一过渡视频特征Dc;第一输入特征对应的特征分辨率等于,池化尺寸以及第一过渡视频特征Dc对应的特征分辨率的乘积。
其中,第一卷积组件包括第一卷积组件Gh、与第一卷积组件Gh相关联的激活组件、第一卷积组件Gh+1、与第一卷积组件Gh+1相关联的融合组件以及与第一卷积组件Gh+1相关联的激活组件;h为正整数,且h小于第一卷积组件的总数量;
第一处理子单元,包括:
第一输入子单元,用于将第一输入特征输入至第一卷积组件Gh;第一卷积组件Gh包括E个卷积通道,E为正整数;
第一输入子单元,还用于通过第一卷积组件Gh中的E个卷积通道,对第一输入特征进行特征卷积处理,生成第一待激活视频特征Ih;第一待激活视频特征Ih对应的特征通道数等于E;
第二输入子单元,用于将第一待激活视频特征Ih输入至与第一卷积组件Gh相关联的激活组件,通过与第一卷积组件Gh相关联的激活组件,对第一待激活视频特征Ih进行特征非线性处理,生成第一卷积视频特征Jh
第三输入子单元,用于将第一卷积视频特征Jh输入至第一卷积组件Gh+1;第一卷积组件Gh+1包括E个卷积通道;
第三输入子单元,还用于通过第一卷积组件Gh+1中的E个卷积通道,对第一卷积视频特征Jh进行特征卷积处理,生成第一待激活视频特征Ih+1;第一待激活视频特征Ih+1对应的特征通道数等于E;
第四输入子单元,用于将第一待激活视频特征Ih+1以及第一卷积视频特征Jh输入至与第一卷积组件Gh+1相关联的融合组件,在与第一卷积组件Gh+1相关联的融合组件中,对第一待激活视频特征Ih+1以及第一卷积视频特征Jh进行特征融合处理,生成第一待激活视频特征Ih+2
第五输入子单元,用于将第一待激活视频特征Ih+2输入至与第一卷积组件Gh+1相关联的激活组件,通过与第一卷积组件Gh+1相关联的激活组件,对第一待激活视频特征Ih+2进行特征非线性处理,生成待池化视频特征。
其中,视频帧对齐模型还包括A个特征上采样层、第一特征卷积层以及特征融合层;
第四生成模块,包括:
第三处理单元,用于通过A个特征上采样层,对第二待处理视频特征进行特征上采样处理,生成第三待处理视频特征,将第三待处理视频特征输入至第一特征卷积层;第三待处理视频特征对应的特征分辨率等于第一待处理视频特征对应的特征分辨率;
第四处理单元,用于通过第一特征卷积层,对第三待处理视频特征进行特征卷积处理,生成第二待融合视频特征;第二待融合视频特征对应的特征通道数等于第一待融合视频特征对应的特征通道数;
第五处理单元,用于将第一待融合视频特征以及第二待融合视频特征输入至特征融合层,在特征融合层中,对第一待融合视频特征以及第二待融合视频特征进行特征融合处理,生成针对第二视频帧的归一化视频特征;
第六处理单元,用于对归一化视频特征进行特征反归一化处理,生成对齐视频帧。
其中,A个特征上采样层包括特征上采样层Km以及特征上采样层Km+1,m为正整数且m小于A;
第三处理单元,包括:
第三处理子单元,用于在特征上采样层Km中,对第二输入特征进行特征上采样处理,生成第二过渡视频特征Lm;若特征上采样层Km为A个特征上采样层中的首个特征上采样层,则第二输入特征为第二待处理视频特征;若特征上采样层Km不为A个特征上采样层中的首个特征上采样层,则第二输入特征为,特征上采样层Km的上一个特征上采样层所输出的第二过渡视频特征;
第四处理子单元,用于将第二过渡视频特征Lm作为特征上采样层Km+1的第二输入特征,在特征上采样层Km+1中,对第二过渡视频特征Lm进行特征上采样处理,生成第二过渡视频特征Lm+1
第一确定子单元,用于若特征上采样层Km+1不为A个特征上采样层中的最后一个特征上采样层,则将第二过渡视频特征Lm+1确定为,特征上采样层Km+1的下一个特征上采样层的第二输入特征;
第二确定子单元,用于若特征上采样层Km+1为A个特征上采样层中的最后一个特征上采样层,则将第二过渡视频特征Lm+1确定为第三待处理视频特征。
其中,特征上采样层Km包括第二卷积组件以及特征上采样组件;
第三处理子单元,包括:
第六输入子单元,用于将第二输入特征输入至第二卷积组件,在第二卷积组件中,对第二输入特征进行特征卷积处理,生成待上采样视频特征;
第七输入子单元,用于将待上采样视频特征输入至特征上采样组件;特征上采样组件携带上采样尺寸;
第七输入子单元,还用于根据上采样尺寸,在特征上采样组件中对待上采样视频特征进行特征上采样处理,生成第二过渡视频特征Lm;第二过渡视频特征Lm对应的特征分辨率等于,第二输入特征对应的特征分辨率以及上采样尺寸的乘积。
其中,第二卷积组件包括第二卷积组件No、与第二卷积组件No相关联的激活组件、第二卷积组件No+1、与第二卷积组件No+1相关联的融合组件以及与第二卷积组件No+1相关联的激活组件;o为正整数,且o小于第二卷积组件的总数量;
第六输入子单元,具体用于将第二输入特征输入至第二卷积组件No;第二卷积组件No包括P个卷积通道,P为正整数;
第六输入子单元,还具体用于通过第二卷积组件No中的P个卷积通道,对第二输入特征进行特征卷积处理,生成第二待激活视频特征Qo;第二待激活视频特征Qo对应的特征通道数等于P;
第六输入子单元,还具体用于将第二待激活视频特征Qo输入至与第二卷积组件No相关联的激活组件,通过与第二卷积组件No相关联的激活组件,对第二待激活视频特征Qo进行特征非线性处理,生成第二卷积视频特征Ro
第六输入子单元,还具体用于将第二卷积视频特征Ro输入至第二卷积组件No+1;第二卷积组件No+1包括P个卷积通道;
第六输入子单元,还具体用于通过第二卷积组件No+1中的P个卷积通道,对第二卷积视频特征Ro进行特征卷积处理,生成第二待激活视频特征Qo+1;第二待激活视频特征Qo+1对应的特征通道数等于P;
第六输入子单元,还具体用于将第二待激活视频特征Qo+1以及第二卷积视频特征Ro输入至与第二卷积组件No+1相关联的融合组件,在与第二卷积组件No+1相关联的融合组件中,对第二待激活视频特征Qo+1以及第二卷积视频特征Ro进行特征融合处理,生成第二待激活视频特征Qo+2
第六输入子单元,还具体用于将第二待激活视频特征Qo+2输入至与第二卷积组件No+1相关联的激活组件,通过与第二卷积组件No+1相关联的激活组件,对第二待激活视频特征Qo+2进行特征非线性处理,生成待上采样视频特征。
其中,第一特征卷积层包括特征卷积组件、特征激活组件以及特征归一化组件;
第四处理单元,包括:
第一生成子单元,用于将第三待处理视频特征输入至特征卷积组件,在特征卷积组件中,对第三待处理视频特征进行特征卷积处理,生成第四待处理视频特征;第四待处理视频特征对应的特征通道数等于第一待融合视频特征对应的特征通道数;
第二生成子单元,用于将第四待处理视频特征输入至特征激活组件,在特征激活组件中,对第四待处理视频特征进行特征非线性处理,生成第五待处理视频特征;
第三生成子单元,用于将第五待处理视频特征输入至特征归一化组件,在特征归一化组件中,对第五待处理视频特征进行特征归一化操作,生成第二待融合视频特征。
其中,视频帧对齐模型还包括特征拼接层;
第二生成模块,包括:
第一生成单元,用于对第一视频帧进行归一化处理,生成第一归一化视频帧,对第二视频帧进行归一化处理,生成第二归一化视频帧;第一归一化视频帧对应的视频帧通道数等于第二归一化视频帧对应的视频帧通道数;
第一生成单元,还用于将第一归一化视频帧对应的第一初始视频特征,以及第二归一化视频帧对应的第二初始视频特征均输入至特征拼接层;
第二生成单元,用于在特征拼接层中,对第一归一化视频帧对应的第一初始视频特征,以及第二归一化视频帧对应的第二初始视频特征进行特征拼接处理,生成第一待处理视频特征;第一待处理视频特征对应的特征通道数,等于第一归一化视频帧对应的视频帧通道数的两倍。
其中,视频帧对齐模型还包括第二特征卷积层以及第三特征卷积层;
第一生成模块,包括:
第三生成单元,用于对第一视频帧进行归一化处理,生成第一归一化视频帧;
第四生成单元,用于将第一归一化视频帧对应的第一初始视频特征输入至第二特征卷积层,在第二特征卷积层中,对第一归一化视频帧对应的第一初始视频特征进行特征增维处理,生成增维视频特征;增维视频特征对应的特征通道数,大于第一归一化视频帧对应的视频帧通道数;
第五生成单元,用于将增维视频特征输入至第三特征卷积层,在第三特征卷积层中,对增维视频特征进行特征降维处理,生成第一待融合视频特征;第一待融合视频特征对应的特征通道数,等于第一归一化视频帧对应的视频帧通道数。
其中,数据处理装置,还包括:
第二获取模块,用于获取用于增强视频帧清晰度的图像超分模型;
第五生成模块,用于将第二视频帧以及对齐视频帧输入至图像超分模型,在图像超分模型中,基于对齐视频帧,对第二视频帧进行分辨率增强处理,生成第二视频帧对应的增强分辨率视频帧。
其中,在数据处理装置中,对齐视频帧与第一视频帧之间的帧间差异,小于第二视频帧与第一视频帧之间的帧间差异。
本申请实施例一方面提供了一种数据处理装置,包括:
第一获取模块,用于获取样本视频中的第一样本视频帧以及第二样本视频帧;第一样本视频帧对应的样本视频场景与第二样本视频帧对应的样本视频场景相同;
第一生成模块,用于将第一样本视频帧以及第二样本视频帧分别输入至视频帧对齐初始模型,在视频帧对齐初始模型中,对第一样本视频帧对应的第一初始样本视频特征进行特征卷积处理,生成第一样本视频帧对应的第一待融合样本视频特征;
第二生成模块,用于对第一样本视频帧对应的第一初始样本视频特征,以及第二样本视频帧对应的第二初始样本视频特征进行特征拼接处理,生成第一待处理样本视频特征;
第三生成模块,用于对第一待处理样本视频特征进行特征下采样处理,生成第二待处理样本视频特征;
第四生成模块,用于根据第二待处理样本视频特征以及第一待融合样本视频特征,生成针对第二样本视频帧的对齐估计视频帧;
第二获取模块,用于获取第二样本视频帧以及对齐估计视频帧之间的均方差值,将均方差值确定为视频帧对齐初始模型的损失值;
第五生成模块,用于根据损失值对视频帧对齐初始模型中的模型参数进行调整,生成视频帧对齐模型;视频帧对齐模型用于对视频中的视频帧进行帧间对齐处理。
本申请一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;
上述处理器与上述存储器、上述网络接口相连,其中,上述网络接口用于提供数据通信功能,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以使得计算机设备执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机程序,上述计算机程序适于由处理器加载并执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中的方法。
在本申请实施例中,获取处于相同视频场景的第一视频帧以及第二视频帧,可以确定两帧视频帧中的运动对象保持一致;对第一视频帧对应的第一初始视频特征进行特征卷积处理,可以提取第一视频帧的隐藏特征,生成第一待融合视频特征;进一步地,对第一视频帧对应的第一初始视频特征,以及第二视频帧对应的第二初始视频特征进行特征拼接处理,生成包括上述第一初始视频特征以及第二初始视频特征的第一待处理视频特征;对第一待处理视频特征进行特征下采样处理,可以减弱上述第一初始视频特征以及第二初始视频特征之间的运动差异,生成第二待处理视频特征;进一步地,根据第二待处理视频特征以及第一待融合视频特征,生成针对第二视频帧的对齐视频帧。上述可知,本申请通过对包括第一初始视频特征以及第二初始视频特征的第一待处理视频特征,进行特征下采样处理,可以减小第一视频帧以及第二视频帧之间的帧间运动差异,实现高准确率识别对齐光流数据,故采用本申请可以提高对齐光流数据的识别准确率,进而可以生成高准确率的对齐视频帧。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种系统架构示意图;
图2是本申请实施例提供的一种数据处理的场景示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例提供的一种视频帧对齐模型的结构示意图;
图5是本申请实施例提供的一种特征下采样层的结构示意图;
图6是本申请实施例提供的一种特征上采样层的结构示意图;
图7是本申请实施例提供的一种第一特征卷积层的结构示意图;
图8是本申请实施例提供的一种数据处理方法的流程示意图;
图9是本申请实施例提供的一种数据处理方法的流程示意图;
图10是本申请实施例提供的一种数据处理装置的结构示意图;
图11是本申请实施例提供的一种数据处理装置的结构示意图;
图12是本申请实施例提供的一种计算机设备的结构示意图;
图13是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,首先对部分名词进行以下简单解释:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
构成电视片(即视频片段)的最小单位是镜头,一个个镜头连接在一起形成的镜头序列,可以称作段落,每个段落都具有某个单一的、相对完整的意思,如表现一个动作过程,表现一种相关关系,表现一种含义等等。它是电视片中一个完整的叙事层次,就像戏剧中的幕,小说中的章节一样,一个个段落连接在一起,就形成了完整的电视片。因此,段落是电视片最基本的结构形式,电视片在内容上的结构层次是通过段落表现出来的。可以理解的是,一个段落对应于一个视频场景,在本申请中,视频场景相同主要是段落相同,在相同视频场景中,各帧分别包含的目标对象相同,该目标对象可以是人或物体,目标对象可以发生运动变化,即帧间存在对象运动差异。
本申请实施例提供的方案涉及人工智能的计算机视觉技术以及深度学习等技术,具体通过如下实施例进行说明。
请参见图1,图1是本申请实施例提供的一种系统架构示意图。如图1所示,该系统可以包括服务器10a以及用户终端集群,用户终端集群可以包括:用户终端10b、用户终端10c、...、用户终端10d,可以理解的是,上述系统可以包括一个或者多个用户终端,这里将不对用户终端的数量进行限制。
其中,用户终端集群之间可以存在通信连接,例如用户终端10b与用户终端10c之间存在通信连接,用户终端10b与用户终端10d之间存在通信连接。同时,用户终端集群中的任一用户终端可以与服务器10a存在通信连接,例如用户终端10b与服务器10a之间存在通信连接,用户终端10c与服务器10a之间存在通信连接。其中,上述的通信连接不限定连接方式,可以通过有线通信方式进行直接或间接地连接,也可以通过无线通信方式进行直接或间接地连接,还可以通过其他方式,本申请在此不做限制。
应当理解,如图1所示的用户终端集群中的每个用户终端均可以安装有应用客户端,当该应用客户端运行于各用户终端中时,可以分别与上述图1所示的服务器10a之间进行数据交互,即上述的通信连接。其中,该应用客户端可以为社交客户端、多媒体客户端(例如视频客户端)、娱乐客户端(例如游戏客户端)、教育客户端、直播客户端等具有加载图像功能的应用客户端。其中,该应用客户端可以为独立的客户端,也可以为集成在某客户端(例如,社交客户端、教育客户端以及多媒体客户端等)中的嵌入式子客户端,在此不做限定。
服务器10a通过通信连接功能为用户终端集群提供服务,当用户终端(可以是用户终端10b、用户终端10c或用户终端10d)获取到视频,并需要对视频进行处理时,例如对视频中的视频帧进行帧间对齐处理,用户终端可以将视频或视频包含的视频帧发送至服务器10a。服务器10a接收到用户终端所发送的视频或视频对应的视频帧后,基于提前训练好的视频帧对齐模型,对视频中处于相同视频场景的第一视频帧以及第二视频帧进行帧间对齐处理,得到第二视频帧对应的对齐视频帧。后续,服务器10a可以将待对齐视频帧(包括第二视频帧)以及待对齐视频帧对应的对齐视频帧关联发送至用户终端。
用户终端接收到服务器10a发送的待对齐视频帧以及对齐视频帧后,可以在其对应的屏幕上显示待对齐视频帧以及对齐视频帧。若用户终端的本地存储了训练好的视频帧对齐模型,可以在用户终端本地,对视频中的视频帧进行帧间对齐处理,其对齐处理过程与服务器10a进行帧间对齐处理的过程一致。其中,由于训练视频帧对齐模型涉及到大量的离线计算,因此用户终端本地的视频帧对齐模型可以是由服务器10a训练完成后发送至用户终端。
其中,图1中的服务器10a、用户终端10b、用户终端10c、...、用户终端10d均可以包括手机、平板电脑、笔记本电脑、掌上电脑、智能音响、移动互联网设备(MID,mobileinternet device)、POS(Point Of Sales,销售点)机、可穿戴设备(例如智能手表、智能手环等)等。
需要说明的是,上述服务器10a、用户终端10b、用户终端10c、...、用户终端10d均可以为区块链网络中的区块链节点,全文叙述的数据(例如上述的第二视频帧以及对齐视频帧),可以进行存储,存储方式可以是区块链节点根据数据生成区块,并将区块添加至区块链中进行存储的方式。
区块链是一种分布式数据存储、点对点传输、共识机制以及加密算法等计算机技术的新型应用模式,主要用于对数据按时间顺序进行整理,并加密成账本,使其不可被篡改和伪造,同时可进行数据的验证、存储和更新。区块链本质上是一个去中心化的数据库,该数据库中的每个节点均存储一条相同的区块链,区块链网络可以将节点区分为核心节点、数据节点以及轻节点。核心节点、数据节点以及轻节点共同组成区块链节点。其中核心节点负责区块链全网的共识,也就是说核心节点为区块链网络中的共识节点。对于区块链网络中的交易数据被写入账本的流程可以为,区块链网络中的数据节点或轻节点获取到交易数据,将交易数据在区块链网络中传递(也就是节点以接力棒的方式进行传递),直到共识节点收到该交易数据,共识节点再将该交易数据打包进区块,对该区块执行共识,待共识完成后将该交易数据写入账本。此处以第二视频帧以及对齐视频帧示例交易数据,服务器10a(区块链节点)在通过对交易数据的共识后,根据交易数据生成区块,将区块存储至区块链网络中;而对于交易数据(即第二视频帧以及对齐视频帧)的读取,则可以由区块链节点在区块链网络中,获取到包含该交易数据的区块,进一步,在区块中获取交易数据。
可以理解的是,本申请实施例所提供的数据处理方法可以由计算机设备执行,计算机设备包括但不限于用户终端或服务器。上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。上述用户终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等,但并不局限于此。用户终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
进一步地,请参见图2,图2是本申请实施例提供的一种数据处理的场景示意图。如图2所示,视频20a包括至少两帧视频帧,至少两帧视频帧可以包括第一视频帧201a、…、第二视频帧202a,其中,第一视频帧201a以及第二视频帧202a可以为相邻帧,例如在视频20a中,第一视频帧201a的下一帧就是第二视频帧202a,可选的,第一视频帧201a以及第二视频帧202a可以不为相邻帧,例如在视频20a中,第一视频帧201a的下一帧不是第二视频帧202a,此处不对第一视频帧201a以及第二视频帧202a的相邻关系进行限定,但两帧分别所属的视频场景为同一视频场景,如图2所示,第一视频帧201a以及第二视频帧202a均包括小卖部、扶梯以及人像(即图2中的小女孩)。
计算机设备从视频20a中获取第一视频帧201a以及第二视频帧202a,获取预先训练好的视频帧对齐模型20c,请再参见图2,本申请实施例提供的视频帧对齐模型20c可以包括两个分支网络,即图2所示例的分支网络201b以及分支网络202b。计算机设备将第一视频帧201a输入至分支网络201b,将第一视频帧201a以及第二视频帧202a分别输入至分支网络202b。
在分支网络201b中,计算机设备对第一视频帧201a进行特征提取,生成第一视频帧201a对应的第一待融合视频特征201c;在分支网络202b中,对第一视频帧201a以及第二视频帧202a分别对应的初始视频特征进行特征提取,生成针对第二视频帧202a的第二待融合视频特征202c;在视频帧对齐模型20c中,计算机设备对第一待融合视频特征201c以及第二待融合视频特征202c进行特征融合处理,得到针对第二视频帧202a的归一化视频特征201d。计算机设备对归一化视频特征201d进行反归一化处理,可以得到针对第二视频帧202a的对齐视频帧201e。其中,对齐视频帧201e、第一视频帧201a以及第二视频帧202a分别对应的静态对象(如图2中示例的小卖部以及扶梯)之间无差异,但对齐视频帧201e与第一视频帧201a之间的帧间差异(如图2示例的小姑娘),小于第二视频帧202a与第一视频帧201a之间的帧间差异。
此处暂不对视频帧对齐模型20c的内部结构展开描述,可以参见下文图3所对应的实施例中关于该模型的详细描述。
进一步地,请参见图3,图3是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法可以由计算机设备执行,该计算机设备可以包括图1中的用户终端以及服务器。如图3所示,该数据处理过程可以包括如下步骤。
步骤S101,获取视频中的第一视频帧以及第二视频帧;第一视频帧对应的视频场景与第二视频帧对应的视频场景相同。
具体的,本申请实施例中的视频可以为任意格式、任意尺寸的视频,如视频格式可以为Moving Picture Experts Group 4(简称MP4,是一套用于音频、视频信息的压缩编码标准格式),可以为音频视频交错格式(Audio Video Interleaved,AVI);视频尺寸可以为512*384、1024*534等。
计算机设备从视频中获取第一视频帧以及第二视频帧,需要注意的是,本申请实施例不对第一视频帧以及第二视频帧的相邻关系进行限定,可以根据实际应用场景进行设定,在第一视频帧对应的视频场景与第二视频帧对应的视频场景相同的情况下,该两帧视频帧可以为不相邻的视频帧,也可以为相邻的视频帧。
本申请实施例不对获取视频中的视频帧的技术进行限定,该技术可以为计算机编程语言(例如Python-OpenCv)等。本申请实施例不对视频进行场景检测的技术进行限定,该技术可以为基于直方图的技术、基于像素的技术,以及基于深度学习的技术等。
可以理解的是,视频帧为一张图像,本申请实施例不对视频帧的图像格式进行限定,视频帧可以为任意一种格式图像,例如便携式网络图形(Portable Network Graphics,PNG)、位图图像(Bitmap,BMP)、Joint Photographic Experts Group(一种最常用的图像文件格式,JPEG)等。
此外,视频帧可以为彩色图像(RGB),具有红(Red)、绿(Green)、蓝(Blue)三个颜色通道;视频帧可以为灰度图像,具有亮度通道(Y分量),本申请实施例不对视频帧所属的的图像类型进行限定,可以根据实际应用场景进行设定。
步骤S102,对第一视频帧对应的第一初始视频特征进行特征卷积处理,生成第一视频帧对应的第一待融合视频特征。
具体的,视频帧对齐模型包括第二特征卷积层以及第三特征卷积层;对第一视频帧进行归一化处理,生成第一归一化视频帧;将第一归一化视频帧对应的第一初始视频特征输入至第二特征卷积层,在第二特征卷积层中,对第一归一化视频帧对应的第一初始视频特征进行特征增维处理,生成增维视频特征;增维视频特征对应的特征通道数,大于第一归一化视频帧对应的视频帧通道数;将增维视频特征输入至第三特征卷积层,在第三特征卷积层中,对增维视频特征进行特征降维处理,生成第一待融合视频特征;第一待融合视频特征对应的特征通道数,等于第一归一化视频帧对应的视频帧通道数。
计算机设备先对第一视频帧进行归一化处理,即将第一视频帧中的每个像素点分别对应的像素值均处理为[0,1]之间,生成第一视频帧对应的第一归一化视频帧;对于八位像素,则每个像素值都除以255,对于10位像素,则每个像素值都除以1023,其他位像素可以类推,故不再一一进行赘述。同理,计算机设备对第二视频帧进行归一化处理,生成第二视频帧对应的第二归一化视频帧。
请一并参见图4,图4是本申请实施例提供的一种视频帧对齐模型的结构示意图。如图4所示,视频帧对齐模型可以包括第二特征卷积层40b以及第三特征卷积层40c,计算机设备将第一归一化视频帧对应的第一初始视频特征401a输入至第二特征卷积层40b,如图4所示,第一初始视频特征401a对应的特征通道数为C,可以理解的是,当第一视频帧为RGB图像时,其通道数为3,则C等于3,当第一视频帧为y分量时,其通道数为1,则C等于1。
在第二特征卷积层40b中,计算机设备不仅对第一初始视频特征401a进行特征卷积处理,还对第一初始视频特征401a进行特征增维处理,如图4所示,第二特征卷积层40b包括D个卷积核,D可以远远大于C(等于第一归一化视频帧对应的视频帧通道数),故通过第二特征卷积层40b,可以生成增维视频特征402b;计算机设备将增维视频特征402b输入至第三特征卷积层40c,如图4所示,第三特征卷积层40c的卷积核个数等于C,故在第三特征卷积层40c中,不仅对增维视频特征402b进行特征卷积处理,还可以对增维视频特征402b进行特征降维处理,生成第一待融合视频特征401c,明显地,第一待融合视频特征401c对应的特征通道数,等于第一归一化视频帧对应的视频帧通道数,两者均为C。
第二特征卷积层40b以及第三特征卷积层40c均包括激活函数,本申请实施例不对激活函数的类型进行限定,可以为Sigmod函数、Tanh函数、修正线性单元(RectifiedLinear Unit,Relu)函数等。
可以理解的是,本申请实施例通过第二特征卷积层40b以及第三特征卷积层40c,可以对第一初始视频特征401a进行特征提取,且通过第二特征卷积层40b对第一初始视频特征401a进行升维操作,故可以学习到第一视频帧中的细节内容;通过第三特征卷积层40c,对增维视频特征402b进行降维操作,以方便后续的特征融合处理。
可以理解的是,图4中只描述了一对特征卷积层(用于进行升维操作的第二特征卷积层40b,以及用于进行降维操作的第三特征卷积层40c),但在实际应用中,可以根据场景添加特征卷积层对,只需要保证用于进行升维操作的第二特征卷积层的层数,等于用于进行降维操作的第三特征卷积层的层数;可选的,用于进行升维操作的第二特征卷积层的层数,可以不等于用于进行降维操作的第三特征卷积层的层数,只需要保证最后输出的第一待融合视频特征对应的特征通道数等于第一归一化视频帧对应的视频帧通道数。
步骤S103,对第一视频帧对应的第一初始视频特征,以及第二视频帧对应的第二初始视频特征进行特征拼接处理,生成第一待处理视频特征。
具体的,视频帧对齐模型包括特征拼接层;对第一视频帧进行归一化处理,生成第一归一化视频帧,对第二视频帧进行归一化处理,生成第二归一化视频帧;第一归一化视频帧对应的视频帧通道数等于第二归一化视频帧对应的视频帧通道数;将第一归一化视频帧对应的第一初始视频特征,以及第二归一化视频帧对应的第二初始视频特征均输入至特征拼接层;在特征拼接层中,对第一归一化视频帧对应的第一初始视频特征,以及第二归一化视频帧对应的第二初始视频特征进行特征拼接处理,生成第一待处理视频特征;第一待处理视频特征对应的特征通道数,等于第一归一化视频帧对应的视频帧通道数的两倍。
计算机设备对第一视频帧以及第二视频帧分别进行归一化处理的过程,可以参见步骤S102中的描述,此处不再进行赘述。
请再参见图4,视频帧对齐模型可以包括特征拼接层40d,计算机设备将第一初始视频特征401a,以及第二初始视频特征402a均输入至特征拼接层40d;在特征拼接层40d中,对第一初始视频特征401a以及第二初始视频特征402a进行特征拼接处理,生成第一待处理视频特征40e;显然,第一待处理视频特征40e对应的特征通道数,等于第一归一化视频帧对应的视频帧通道数的两倍。例如第一视频帧以及第二视频帧均为RGB图像,则该两帧分别对应的视频帧通道数均为3,第一待处理视频特征对应的特征通道数等于6。
可以理解的是,计算机设备可以将第一初始视频特征401a拼接至第二初始视频特征402a后面,也可以将第二初始视频特征402a拼接至第一初始视频特征401a后面。
步骤S104,对第一待处理视频特征进行特征下采样处理,生成第二待处理视频特征。
具体的,获取视频帧对齐模型;视频帧对齐模型包括A个特征下采样层,A个特征下采样层包括特征下采样层Bc以及特征下采样层Bc+1,A为正整数,c为正整数且c小于A;在特征下采样层Bc中,对第一输入特征进行特征下采样处理,生成第一过渡视频特征Dc;若特征下采样层Bc为A个特征下采样层中的首个特征下采样层,则第一输入特征为第一待处理视频特征;若特征下采样层Bc不为A个特征下采样层中的首个特征下采样层,则第一输入特征为,特征下采样层Bc的上一个特征下采样层所输出的第一过渡视频特征;将第一过渡视频特征Dc作为特征下采样层Bc+1的第一输入特征,在特征下采样层Bc+1中,对第一过渡视频特征Dc进行特征下采样处理,生成第一过渡视频特征Dc+1;若特征下采样层Bc+1不为A个特征下采样层中的最后一个特征下采样层,则将第一过渡视频特征Dc+1确定为,特征下采样层Bc+1的下一个特征下采样层的第一输入特征;若特征下采样层Bc+1为A个特征下采样层中的最后一个特征下采样层,则将第一过渡视频特征Dc+1确定为第二待处理视频特征。
其中,特征下采样层Bc包括第一卷积组件以及特征池化组件;生成第一过渡视频特征Dc的具体过程可以包括:将第一输入特征输入至第一卷积组件,在第一卷积组件中,对第一输入特征进行特征卷积处理,生成待池化视频特征;将待池化视频特征输入至特征池化组件;特征池化组件携带池化尺寸;根据池化尺寸,在特征池化组件中对待池化视频特征进行特征下采样处理,生成第一过渡视频特征Dc;第一输入特征对应的特征分辨率等于,池化尺寸以及第一过渡视频特征Dc对应的特征分辨率的乘积。
其中,第一卷积组件包括第一卷积组件Gh、与第一卷积组件Gh相关联的激活组件、第一卷积组件Gh+1、与第一卷积组件Gh+1相关联的融合组件以及与第一卷积组件Gh+1相关联的激活组件;h为正整数,且h小于第一卷积组件的总数量;生成待池化视频特征的具体过程可以包括:将第一输入特征输入至第一卷积组件Gh;第一卷积组件Gh包括E个卷积通道,E为正整数;通过第一卷积组件Gh中的E个卷积通道,对第一输入特征进行特征卷积处理,生成第一待激活视频特征Ih;第一待激活视频特征Ih对应的特征通道数等于E;将第一待激活视频特征Ih输入至与第一卷积组件Gh相关联的激活组件,通过与第一卷积组件Gh相关联的激活组件,对第一待激活视频特征Ih进行特征非线性处理,生成第一卷积视频特征Jh;将第一卷积视频特征Jh输入至第一卷积组件Gh+1;第一卷积组件Gh+1包括E个卷积通道;通过第一卷积组件Gh+1中的E个卷积通道,对第一卷积视频特征Jh进行特征卷积处理,生成第一待激活视频特征Ih+1;第一待激活视频特征Ih+1对应的特征通道数等于E;将第一待激活视频特征Ih+1以及第一卷积视频特征Jh输入至与第一卷积组件Gh+1相关联的融合组件,在与第一卷积组件Gh+1相关联的融合组件中,对第一待激活视频特征Ih+1以及第一卷积视频特征Jh进行特征融合处理,生成第一待激活视频特征Ih+2;将第一待激活视频特征Ih+2输入至与第一卷积组件Gh+1相关联的激活组件,通过与第一卷积组件Gh+1相关联的激活组件,对第一待激活视频特征Ih+2进行特征非线性处理,生成待池化视频特征。
请再参见图4,计算机设备在生成第一待处理视频特征40e后,将第一待处理视频特征40e输入到A个特征下采样层40f,其中,特征下采样层也可以称为残差特征下采样模块(Residual Feature Down-sample Block,RFDB)。请一并参见图5,图5是本申请实施例提供的一种特征下采样层的结构示意图。如图5所示,计算机设备将第一待处理视频特征40e输入至第一个特征下采样层(等于上文叙述的特征下采样层Bc=1),第一个特征下采样层可以包括第一卷积组件4011f以及特征池化组件4013f。其中,第一卷积组件4011f的结构如图5中的右侧所示,可以包括第一卷积组件G1、与第一卷积组件G1相关联的激活组件(等同于图5中的激活函数1)、第一卷积组件G2、与第一卷积组件G2相关联的融合组件以及与第一卷积组件G2相关联的激活组件(等同于图5中的激活函数2)。
计算机设备将第一待处理视频特征40e(其对应的特征通道数为2C)先输入至第一卷积组件G1,本申请实施例不对第一卷积组件G1的卷积核的大小进行限定,应根据实际应用确定卷积核的大小,同理,第一卷积组件G1的卷积核的数量E(即卷积通道数)应根据实际应用进行设定,可以理解的是,为了捕捉特征,E可以远远大于C,例如第一卷积组件G1包括一个通道数E为64的3x3的卷积核。由于线性模型的表达能力不够,因此计算机设备需要使用激活函数以加入非线性因素,故将第一卷积组件G1输出的待激活视频特征输入至激活函数1,在本申请实施例中,若没有明确标注激活函数的类型,则不限定激活函数的类型,可以为Sigmod函数、Tanh函数、修正线性单元(Rectified Linear Unit,Relu)函数、LeakRelu激活函数等。
进一步地,计算机设备将激活函数1输出的卷积视频特征输入至第一卷积组件G2中,其中,第一卷积组件G2对应的卷积通道总数量等于第一卷积组件G1对应的卷积通道总数量;通过第一卷积组件G2中的E个卷积通道,对激活函数1输出的卷积视频特征进行特征卷积处理,生成第一待激活视频特征I2。如图5所示,本申请实施例使用一个残差连接(即融合组件),对第一卷积组件G2的输入(包括上述的激活函数1所输出的卷积视频特征),以及输出(第一待激活视频特征I2)进行特征融合处理,生成第一待激活视频特征I3,浅层残差设计既得益于残差学习,又足够轻量,可以提升网络结构的特征学习能力。
计算机设备采用激活函数2提升非线性,即将第一待激活视频特征I3输入至与激活组件2,生成待池化视频特征4012f。最后,计算机设备使用一个特征池化组件4013f对待池化视频特征4012f进行特征下采样处理,不仅可以提取特征,还可以降低第一视频帧以及第二视频帧之间由于物体运动导致的位置偏移,得到第二待处理视频特征401f。在本申请实施例中不对特征池化组件4013f的池化尺寸以及池化类型进行限定,可以根据实际应用场景进行设定,一般情况下,可以将池化尺寸设置为2,即将到处视频特征4012f的分辨率减小一般,可以将池化类型设置为最大值池化。
可以理解的是,为了控制复杂度,计算机设备可以将视频帧对齐模型中的A个特征下采样层设置为1个特征下采样层,在这种情况下,则不存在上文描述的第一过渡视频特征,第一输入特征固定为第一待处理视频特征;可以理解的是,A可以为大于1的正整数,例如A等于2,则可以对第一待处理视频特征40e进行两次特征下采样处理,在这种情况下,第二待处理视频特征401f对应的特征分辨率(特征尺寸)应缩小两个池化尺寸。
可选的,在图5所示例的结构中,特征池化组件4013f对应的卷积通道数等于第一卷积组件4011f对应的卷积通道数,实际应用时,两者分别对应的卷积通道可以不相等。
步骤S105,根据第二待处理视频特征以及第一待融合视频特征,生成针对第二视频帧的对齐视频帧。
具体的,视频帧对齐模型还包括A个特征上采样层、第一特征卷积层以及特征融合层;通过A个特征上采样层,对第二待处理视频特征进行特征上采样处理,生成第三待处理视频特征,将第三待处理视频特征输入至第一特征卷积层;第三待处理视频特征对应的特征分辨率等于第一待处理视频特征对应的特征分辨率;通过第一特征卷积层,对第三待处理视频特征进行特征卷积处理,生成第二待融合视频特征;第二待融合视频特征对应的特征通道数等于第一待融合视频特征对应的特征通道数;将第一待融合视频特征以及第二待融合视频特征输入至特征融合层,在特征融合层中,对第一待融合视频特征以及第二待融合视频特征进行特征融合处理,生成针对第二视频帧的归一化视频特征;对归一化视频特征进行特征反归一化处理,生成对齐视频帧。对齐视频帧与第一视频帧之间的帧间差异,小于第二视频帧与第一视频帧之间的帧间差异。
其中,A个特征上采样层包括特征上采样层Km以及特征上采样层Km+1,m为正整数且m小于A;生成第三待处理视频特征的具体过程可以包括:在特征上采样层Km中,对第二输入特征进行特征上采样处理,生成第二过渡视频特征Lm;若特征上采样层Km为A个特征上采样层中的首个特征上采样层,则第二输入特征为第二待处理视频特征;若特征上采样层Km不为A个特征上采样层中的首个特征上采样层,则第二输入特征为,特征上采样层Km的上一个特征上采样层所输出的第二过渡视频特征;将第二过渡视频特征Lm作为特征上采样层Km+1的第二输入特征,在特征上采样层Km+1中,对第二过渡视频特征Lm进行特征上采样处理,生成第二过渡视频特征Lm+1;若特征上采样层Km+1不为A个特征上采样层中的最后一个特征上采样层,则将第二过渡视频特征Lm+1确定为,特征上采样层Km+1的下一个特征上采样层的第二输入特征;若特征上采样层Km+1为A个特征上采样层中的最后一个特征上采样层,则将第二过渡视频特征Lm+1确定为第三待处理视频特征。
其中,特征上采样层Km包括第二卷积组件以及特征上采样组件;生成第二过渡视频特征Lm的具体过程可以包括:将第二输入特征输入至第二卷积组件,在第二卷积组件中,对第二输入特征进行特征卷积处理,生成待上采样视频特征;将待上采样视频特征输入至特征上采样组件;特征上采样组件携带上采样尺寸;根据上采样尺寸,在特征上采样组件中对待上采样视频特征进行特征上采样处理,生成第二过渡视频特征Lm;第二过渡视频特征Lm对应的特征分辨率等于,第二输入特征对应的特征分辨率以及上采样尺寸的乘积。
其中,第二卷积组件包括第二卷积组件No、与第二卷积组件No相关联的激活组件、第二卷积组件No+1、与第二卷积组件No+1相关联的融合组件以及与第二卷积组件No+1相关联的激活组件;o为正整数,且o小于第二卷积组件的总数量;生成待上采样视频特征的具体过程可以包括:将第二输入特征输入至第二卷积组件No;第二卷积组件No包括P个卷积通道,P为正整数;通过第二卷积组件No中的P个卷积通道,对第二输入特征进行特征卷积处理,生成第二待激活视频特征Qo;第二待激活视频特征Qo对应的特征通道数等于P;将第二待激活视频特征Qo输入至与第二卷积组件No相关联的激活组件,通过与第二卷积组件No相关联的激活组件,对第二待激活视频特征Qo进行特征非线性处理,生成第二卷积视频特征Ro;将第二卷积视频特征Ro输入至第二卷积组件No+1;第二卷积组件No+1包括P个卷积通道;通过第二卷积组件No+1中的P个卷积通道,对第二卷积视频特征Ro进行特征卷积处理,生成第二待激活视频特征Qo+1;第二待激活视频特征Qo+1对应的特征通道数等于P;将第二待激活视频特征Qo+1以及第二卷积视频特征Ro输入至与第二卷积组件No+1相关联的融合组件,在与第二卷积组件No+1相关联的融合组件中,对第二待激活视频特征Qo+1以及第二卷积视频特征Ro进行特征融合处理,生成第二待激活视频特征Qo+2;将第二待激活视频特征Qo+2输入至与第二卷积组件No+1相关联的激活组件,通过与第二卷积组件No+1相关联的激活组件,对第二待激活视频特征Qo+2进行特征非线性处理,生成待上采样视频特征。
其中,第一特征卷积层包括特征卷积组件、特征激活组件以及特征归一化组件;生成第二待融合视频特征的具体过程可以包括:将第三待处理视频特征输入至特征卷积组件,在特征卷积组件中,对第三待处理视频特征进行特征卷积处理,生成第四待处理视频特征;第四待处理视频特征对应的特征通道数等于第一待融合视频特征对应的特征通道数;将第四待处理视频特征输入至特征激活组件,在特征激活组件中,对第四待处理视频特征进行特征非线性处理,生成第五待处理视频特征;将第五待处理视频特征输入至特征归一化组件,在特征归一化组件中,对第五待处理视频特征进行特征归一化操作,生成第二待融合视频特征。
请再参见图4,计算机设备在生成第二待处理视频特征401f后,将第二待处理视频特征40e输入到A个特征上采样层40g,其中,特征下采样层也可以称为残差特征上采样模块(Residual Feature Up-sample Block,RFDB)。请一并参见图6,图6是本申请实施例提供的一种特征上采样层的结构示意图。如图6所示,计算机设备将第二待处理视频特征401f输入至第一个特征上采样层(等于上文叙述的特征上采样层Km=1),第一个特征上采样层可以包括第二卷积组件4011g以及特征上采样组件4013g。其中,第二卷积组件4011g的结构如图6中的右侧所示,可以包括第二卷积组件N1、与第二卷积组件N1相关联的激活组件(等同于图6中的激活函数1)、第二卷积组件N2、与第二卷积组件N2相关联的融合组件以及与第二卷积组件N2相关联的激活组件(等同于图6中的激活函数2)。
计算机设备将第二待处理视频特征401f先输入至第二卷积组件N1,本申请实施例不对第二卷积组件N1的卷积核的大小进行限定,应根据实际应用确定卷积核的大小,同理,第二卷积组件N1的卷积核的数量P(即卷积通道数)应根据实际应用进行设定,可以理解的是,为了捕捉特征,P可以远远大于C,例如第二卷积组件N1包括一个通道数P为32的3x3的卷积核。由于线性模型的表达能力不够,因此计算机设备需要使用激活函数以加入非线性因素,故将第二卷积组件N1输出的待激活视频特征输入至激活函数1。
进一步地,计算机设备将激活函数1输出的卷积视频特征输入至第二卷积组件N2中,其中,第二卷积组件N2对应的卷积通道总数量等于第二卷积组件N1对应的卷积通道总数量;通过第二卷积组件N2中的P个卷积通道,对激活函数1输出的卷积视频特征进行特征卷积处理,生成第二待激活视频特征O2。如图6所示,本申请实施例使用一个残差连接(即融合组件),对第二卷积组件N2的输入(包括上述的激活函数1所输出的卷积视频特征),以及输出(第二待激活视频特征O2)进行特征融合处理,生成第二待激活视频特征O3
同理,计算机设备采用激活函数2提升非线性,即将第二待激活视频特征O3输入至与激活组件2,生成待上采样视频特征4012g。最后,计算机设备使用一个特征上采样组件4013g对待上采样视频特征4012g进行特征上采样处理,不仅可以融合特征,还可以消除特征偏移,实现帧间信息对齐融合,得到第三待处理视频特征401g,其中,第三待处理视频特征401g对应的特征分辨率等于第一待处理视频特征对应的特征分辨率。可以理解的是,假设图5中的池化尺寸为2*2,则图6中的上采样尺寸也为2*2。
可以理解的是,图4中的特征下采样层40f以及特征下采样层40g分别对应的层数必须保持一致,即计算机设备对第一待处理视频特征40e进行特征下采样处理的次数,等于对第二待处理视频特征401f进行特征上采样处理的次数,以恢复第一待处理视频特征40e对应的原始尺寸(分辨率)。其中,在特征上采样组件中,可以把通道方向的像素(深度信息)补到宽高方向的像素(空间信息),实现上采样。
结合图5以及图6,可知本申请实施例中的特征下采样层40f与特征上采样层40g类似于编解码的结构,恢复了原始的宽高尺寸,即先对第一待处理视频特征40e进行特征下采样处理,可以降低第一视频帧以及第二视频帧之间由于物体运动导致的位置偏移,再对第二待处理视频特征401f进行特征上采样处理,有助于融合特征,消除特征偏移,实现帧间信息对齐融合,显然,本申请实施例通过简单的操作,实现了高性能。
可选的,在图6所示例的结构中,特征上采样组件4013g对应的卷积通道数等于第二卷积组件4011g对应的卷积通道数,实际应用时,两者分别对应的卷积通道可以不相等。
由上述可知,第三待处理视频特征401g对应的特征通道数(等于P)不等于第一待融合视频特征401c对应的特征通道数(等于C),故如图4所示,计算机设备将第三待处理视频特征401g输入至第一特征卷积层40h,请一并参见图7,图7是本申请实施例提供的一种第一特征卷积层的结构示意图。如图7所示,第一特征卷积层40h包括特征卷积组件(其卷积通道数等于C)、特征激活组件(等同于图7中的激活函数)以及特征归一化组件。计算机设备将第三待处理视频特征401g输入至特征卷积组件,该特征卷积组件不仅可以提取第三待处理视频特征401g中的内容,还可以起到升维或降维的功能,具体可以为若第三待处理视频特征401g对应的特征通道数大于C,则该特征卷积组件起到降维的功能,若第三待处理视频特征401g对应的特征通道数小于C(例如C等于3,第三待处理视频特征401g对应的特征通道数小于3),则该特征卷积组件起到升维的功能。
计算机设备将第四待处理视频特征输入至特征激活组件,为了网络收敛速度比较快,以及减少训练时迭代更新的次数,此处的激活函数优先采用Tanh激活函数。由于Tanh激活函数的输出值范围是[-1,1],故在特征激活组件中,对第四待处理视频特征进行特征非线性处理后,所生成的第五待处理视频特征的特征值范围为[-1,1],而第三特征卷积层40c的输出特征值范围是[0,1],为了统一,计算机设备对第五待处理视频特征进行归一化处理(De-process)操作,生成第二待融合视频特征402c。具体归一化操作如公式1所示。
De-process(x)=(x+1)/2 (1)
公式(1)中右边的x代表第五待处理视频特征中的每个位置上的特征值,左边的x代表每个位置上的特征值进行归一化后的特征值。
请再参见图4,计算机设备通过特征融合层40k,对第一待融合视频特征401c以及第二待融合视频特征402c进行特征融合处理,得到针对第二视频帧的归一化视频特征401k,后续,对归一化视频特征401k进行反归一化处理,例如,前期的归一化操作是像素值除以255,则此处乘以255,即可得到对齐视频帧。
在本申请实施例中,获取处于相同视频场景的第一视频帧以及第二视频帧,可以确定两帧视频帧中的运动对象保持一致;对第一视频帧对应的第一初始视频特征进行特征卷积处理,可以提取第一视频帧的隐藏特征,生成第一待融合视频特征;进一步地,对第一视频帧对应的第一初始视频特征,以及第二视频帧对应的第二初始视频特征进行特征拼接处理,生成包括上述第一初始视频特征以及第二初始视频特征的第一待处理视频特征;对第一待处理视频特征进行特征下采样处理,可以减弱上述第一初始视频特征以及第二初始视频特征之间的运动差异,生成第二待处理视频特征;进一步地,根据第二待处理视频特征以及第一待融合视频特征,生成针对第二视频帧的对齐视频帧。上述可知,本申请通过对包括第一初始视频特征以及第二初始视频特征的第一待处理视频特征,进行特征下采样处理,可以减小第一视频帧以及第二视频帧之间的帧间运动差异,实现高准确率识别对齐光流数据,故采用本申请可以提高对齐光流数据的识别准确率,进而可以生成高准确率的对齐视频帧。
进一步地,请参见图8,图8是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法可以由计算机设备执行,该计算机设备可以包括图1中的用户终端以及服务器。如图8所示,该数据处理过程可以包括如下步骤。
步骤S201,获取视频中的第一视频帧以及第二视频帧;第一视频帧对应的视频场景与第二视频帧对应的视频场景相同。
步骤S202,对第一视频帧对应的第一初始视频特征进行特征卷积处理,生成第一视频帧对应的第一待融合视频特征。
步骤S203,对第一视频帧对应的第一初始视频特征,以及第二视频帧对应的第二初始视频特征进行特征拼接处理,生成第一待处理视频特征。
步骤S204,对第一待处理视频特征进行特征下采样处理,生成第二待处理视频特征。
步骤S205,根据第二待处理视频特征以及第一待融合视频特征,生成针对第二视频帧的对齐视频帧;对齐视频帧与第一视频帧之间的帧间差异,小于第二视频帧与第一视频帧之间的帧间差异。
其中,步骤S201-步骤S205的具体过程,可以参见上文图3所对应的实施例中的描述,此处不再进行赘述。
视频信息流产品是目前最炙手可热的互联网产品,随着互联网的发展,移动端或者终端对于视频的需求越来越大。光流估计在视频任务中是解决很多其他问题的基础,例如,运动估计、运动分割、视频超分等。本申请所生成的对齐视频帧作为一个基础,配合其他算法发挥着重要的功能。例如在视频超分中,需要解决帧间对齐,并利用相邻帧信息来提升超分网络的细节生成能力,其具体过程请参见下文步骤S206-步骤S207。
步骤S206,获取用于增强视频帧清晰度的图像超分模型。
步骤S207,将第二视频帧以及对齐视频帧输入至图像超分模型,在图像超分模型中,基于对齐视频帧,对第二视频帧进行分辨率增强处理,生成第二视频帧对应的增强分辨率视频帧。
具体的,基于提前训练好的视频帧对齐模型,计算机设备对视频中处于相同视频场景的第一视频帧以及第二视频帧进行帧间对齐处理,得到第二视频帧对应的对齐视频帧;计算机设备将第二视频帧以及视频帧对齐模型输出的对齐视频帧,输入至训练好的图像超分模型,在图像超分模型中,对第二视频帧进行噪声去除处理,基于对齐视频帧对去除噪声之后的第二视频帧进行分辨率增强处理,生成第二视频帧对应的增强分辨率视频帧。
可以理解的是,上述是以第一视频帧以及第二视频帧为例,叙述增强第二视频帧的分辨率的过程,计算机设备可以通过上述描述对视频中的其他视频帧进行分辨率增强处理,即先进行帧间对齐处理,再进行分辨率增强处理。
可以理解的是,对视频帧进行对齐处理之后,再对视频帧进行超分处理,可以挖掘视频帧中的细节纹理,并且整体画面清晰度可以得到很大的提升。此外,第二视频帧对应的对齐视频帧不仅包括第二视频帧中的隐藏特征,还包括第一视频帧中的隐藏特征,故利用对齐视频帧对第二视频帧进行超分处理的效果,优于利用第一视频帧对第二视频帧进行超分处理的效果。
在本申请实施例中,获取处于相同视频场景的第一视频帧以及第二视频帧,可以确定两帧视频帧中的运动对象保持一致;对第一视频帧对应的第一初始视频特征进行特征卷积处理,可以提取第一视频帧的隐藏特征,生成第一待融合视频特征;进一步地,对第一视频帧对应的第一初始视频特征,以及第二视频帧对应的第二初始视频特征进行特征拼接处理,生成包括上述第一初始视频特征以及第二初始视频特征的第一待处理视频特征;对第一待处理视频特征进行特征下采样处理,可以减弱上述第一初始视频特征以及第二初始视频特征之间的运动差异,生成第二待处理视频特征;进一步地,根据第二待处理视频特征以及第一待融合视频特征,生成针对第二视频帧的对齐视频帧。上述可知,本申请通过对包括第一初始视频特征以及第二初始视频特征的第一待处理视频特征,进行特征下采样处理,可以减小第一视频帧以及第二视频帧之间的帧间运动差异,实现高准确率识别对齐光流数据,故采用本申请可以提高对齐光流数据的识别准确率,进而可以生成高准确率的对齐视频帧。
进一步地,请参见图9,图9是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法可以由计算机设备执行,该计算机设备可以包括图1中的用户终端以及服务器。如图9所示,该数据处理过程可以包括如下步骤。
步骤S301,获取样本视频中的第一样本视频帧以及第二样本视频帧;第一样本视频帧对应的样本视频场景与第二样本视频帧对应的样本视频场景相同。
具体的,计算机设备获取视频帧对齐初始模型,以及获取样本视频,将样本视频分解为连续的样本视频帧,对多个连续的样本视频帧进行视频场景检测,聚集属于同一种样本视频场景的样本视频帧,在每种样本视频场景中提取第一样本视频帧以及第二样本视频帧。
其中,样本视频的信息以及获取样本视频帧的具体过程,可以参见上文图3所对应的实施例中步骤S101的描述,此处不再进行赘述。
步骤S302,将第一样本视频帧以及第二样本视频帧分别输入至视频帧对齐初始模型,在视频帧对齐初始模型中,对第一样本视频帧对应的第一初始样本视频特征进行特征卷积处理,生成第一样本视频帧对应的第一待融合样本视频特征。
步骤S303,对第一样本视频帧对应的第一初始样本视频特征,以及第二样本视频帧对应的第二初始样本视频特征进行特征拼接处理,生成第一待处理样本视频特征。
步骤S304,对第一待处理样本视频特征进行特征下采样处理,生成第二待处理样本视频特征。
步骤S305,根据第二待处理样本视频特征以及第一待融合样本视频特征,生成针对第二样本视频帧的对齐估计视频帧。
其中,计算机设备对样本视频帧(包括第一样本视频帧以及第二样本视频帧)的处理过程,与计算机设备处理视频帧的过程基本一致,故步骤S302-步骤S305的具体过程,可以参见上文图3所对应的实施例中的描述,此处不再进行赘述。
步骤S306,获取第二样本视频帧以及对齐估计视频帧之间的均方差值,将均方差值确定为视频帧对齐初始模型的损失值。
步骤S307,根据损失值对视频帧对齐初始模型中的模型参数进行调整,生成视频帧对齐模型;视频帧对齐模型用于对视频中的视频帧进行帧间对齐处理。
在本申请实施例中,计算机设备采用均方误差损失(Mean Squared Error,MSE)函数,计算第二样本视频帧以及对齐估计视频帧之间的误差,并根据上述误差对视频帧对齐初始模型中的模型参数进行调整,可以理解的是,当所述误差小于预设的模型误差时,则可以确定视频帧对齐模型。可选的,计算机设备设置视频帧对齐初始模型的预设迭代次数,并记录该初始模型的训练迭代次数,当训练迭代次数等于预设迭代次数时,停止训练该初始模型,将训练迭代次数等于预设迭代次数的模型确定为视频帧对齐模型。
可选的,除了上述提及的均方误差损失(Mean Squared Error,MSE)函数,计算机设备还可以采用其他误差函数,例如平方损失函数和交叉熵损失函数。
综上所述,本申请实施例提出一种快速视频帧对齐算法,以较低的模型复杂性达到可观的性能。具体实现如下:对包括第一初始样本视频特征以及第二初始样本视频特征的第一待处理样本视频特征,进行特征下采样处理,可以减小第一样本视频帧以及第二样本视频帧之间的帧间运动差异,实现高准确率识别对齐估计光流数据,故采用本申请可以提高对齐估计光流数据的识别准确率,进而可以生成高准确率的对齐估计视频帧,通过高准确率的对齐估计视频帧以及第二样本视频帧之间的误差,可以准确地调整视频帧对齐初始模型,高效生成视频帧对齐模型。
进一步地,请参见图10,图10是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图10所示,该数据处理装置1可以包括:第一获取模块11、第一生成模块12、第二生成模块13、第三生成模块14以及第四生成模块15。
第一获取模块11,用于获取视频中的第一视频帧以及第二视频帧;第一视频帧对应的视频场景与第二视频帧对应的视频场景相同;
第一生成模块12,用于对第一视频帧对应的第一初始视频特征进行特征卷积处理,生成第一视频帧对应的第一待融合视频特征;
第二生成模块13,用于对第一视频帧对应的第一初始视频特征,以及第二视频帧对应的第二初始视频特征进行特征拼接处理,生成第一待处理视频特征;
第三生成模块14,用于对第一待处理视频特征进行特征下采样处理,生成第二待处理视频特征;
第四生成模块15,用于根据第二待处理视频特征以及第一待融合视频特征,生成针对第二视频帧的对齐视频帧。
其中,第一获取模块11、第一生成模块12、第二生成模块13、第三生成模块14以及第四生成模块15的具体功能实现方式可以参见上述图3对应实施例中的步骤S101-步骤S105,这里不再进行赘述。
再请参见图10,第三生成模块14可以包括:获取模型单元141、第一处理单元142、第二处理单元143、第一确定单元144以及第二确定单元145。
获取模型单元141,用于获取视频帧对齐模型;视频帧对齐模型包括A个特征下采样层,A个特征下采样层包括特征下采样层Bc以及特征下采样层Bc+1,A为正整数,c为正整数且c小于A;
第一处理单元142,用于在特征下采样层Bc中,对第一输入特征进行特征下采样处理,生成第一过渡视频特征Dc;若特征下采样层Bc为A个特征下采样层中的首个特征下采样层,则第一输入特征为第一待处理视频特征;若特征下采样层Bc不为A个特征下采样层中的首个特征下采样层,则第一输入特征为,特征下采样层Bc的上一个特征下采样层所输出的第一过渡视频特征;
第二处理单元143,用于将第一过渡视频特征Dc作为特征下采样层Bc+1的第一输入特征,在特征下采样层Bc+1中,对第一过渡视频特征Dc进行特征下采样处理,生成第一过渡视频特征Dc+1
第一确定单元144,用于若特征下采样层Bc+1不为A个特征下采样层中的最后一个特征下采样层,则将第一过渡视频特征Dc+1确定为,特征下采样层Bc+1的下一个特征下采样层的第一输入特征;
第二确定单元145,用于若特征下采样层Bc+1为A个特征下采样层中的最后一个特征下采样层,则将第一过渡视频特征Dc+1确定为第二待处理视频特征。
其中,获取模型单元141、第一处理单元142、第二处理单元143、第一确定单元144以及第二确定单元145的具体功能实现方式可以参见上述图3对应实施例中的步骤S104,这里不再进行赘述。
再请参见图10,特征下采样层Bc包括第一卷积组件以及特征池化组件;
第一处理单元142可以包括:第一处理子单元1421以及第二处理子单元1422。
第一处理子单元1421,用于将第一输入特征输入至第一卷积组件,在第一卷积组件中,对第一输入特征进行特征卷积处理,生成待池化视频特征;
第一处理子单元1421,还用于将待池化视频特征输入至特征池化组件;特征池化组件携带池化尺寸;
第二处理子单元1422,用于根据池化尺寸,在特征池化组件中对待池化视频特征进行特征下采样处理,生成第一过渡视频特征Dc;第一输入特征对应的特征分辨率等于,池化尺寸以及第一过渡视频特征Dc对应的特征分辨率的乘积。
其中,第一处理子单元1421以及第二处理子单元1422的具体功能实现方式可以参见上述图3对应实施例中的步骤S104,这里不再进行赘述。
再请参见图10,第一卷积组件包括第一卷积组件Gh、与第一卷积组件Gh相关联的激活组件、第一卷积组件Gh+1、与第一卷积组件Gh+1相关联的融合组件以及与第一卷积组件Gh+1相关联的激活组件;h为正整数,且h小于第一卷积组件的总数量;
第一处理子单元1421可以包括:第一输入子单元14211、第二输入子单元14212、第三输入子单元14213、第四输入子单元14214以及第五输入子单元14215。
第一输入子单元14211,用于将第一输入特征输入至第一卷积组件Gh;第一卷积组件Gh包括E个卷积通道,E为正整数;
第一输入子单元14211,还用于通过第一卷积组件Gh中的E个卷积通道,对第一输入特征进行特征卷积处理,生成第一待激活视频特征Ih;第一待激活视频特征Ih对应的特征通道数等于E;
第二输入子单元14212,用于将第一待激活视频特征Ih输入至与第一卷积组件Gh相关联的激活组件,通过与第一卷积组件Gh相关联的激活组件,对第一待激活视频特征Ih进行特征非线性处理,生成第一卷积视频特征Jh
第三输入子单元14213,用于将第一卷积视频特征Jh输入至第一卷积组件Gh+1;第一卷积组件Gh+1包括E个卷积通道;
第三输入子单元14213,还用于通过第一卷积组件Gh+1中的E个卷积通道,对第一卷积视频特征Jh进行特征卷积处理,生成第一待激活视频特征Ih+1;第一待激活视频特征Ih+1对应的特征通道数等于E;
第四输入子单元14214,用于将第一待激活视频特征Ih+1以及第一卷积视频特征Jh输入至与第一卷积组件Gh+1相关联的融合组件,在与第一卷积组件Gh+1相关联的融合组件中,对第一待激活视频特征Ih+1以及第一卷积视频特征Jh进行特征融合处理,生成第一待激活视频特征Ih+2
第五输入子单元14215,用于将第一待激活视频特征Ih+2输入至与第一卷积组件Gh+1相关联的激活组件,通过与第一卷积组件Gh+1相关联的激活组件,对第一待激活视频特征Ih+2进行特征非线性处理,生成待池化视频特征。
其中,第一输入子单元14211、第二输入子单元14212、第三输入子单元14213、第四输入子单元14214以及第五输入子单元14215的具体功能实现方式可以参见上述图3对应实施例中的步骤S104,这里不再进行赘述。
再请参见图10,视频帧对齐模型还包括A个特征上采样层、第一特征卷积层以及特征融合层;
第四生成模块15可以包括:第三处理单元151、第四处理单元152、第五处理单元153以及第六处理单元154。
第三处理单元151,用于通过A个特征上采样层,对第二待处理视频特征进行特征上采样处理,生成第三待处理视频特征,将第三待处理视频特征输入至第一特征卷积层;第三待处理视频特征对应的特征分辨率等于第一待处理视频特征对应的特征分辨率;
第四处理单元152,用于通过第一特征卷积层,对第三待处理视频特征进行特征卷积处理,生成第二待融合视频特征;第二待融合视频特征对应的特征通道数等于第一待融合视频特征对应的特征通道数;
第五处理单元153,用于将第一待融合视频特征以及第二待融合视频特征输入至特征融合层,在特征融合层中,对第一待融合视频特征以及第二待融合视频特征进行特征融合处理,生成针对第二视频帧的归一化视频特征;
第六处理单元154,用于对归一化视频特征进行特征反归一化处理,生成对齐视频帧。
其中,第三处理单元151、第四处理单元152、第五处理单元153以及第六处理单元154的具体功能实现方式可以参见上述图3对应实施例中的步骤S105,这里不再进行赘述。
再请参见图10,A个特征上采样层包括特征上采样层Km以及特征上采样层Km+1,m为正整数且m小于A;
第三处理单元151可以包括:第三处理子单元1511、第四处理子单元1512、第一确定子单元1513以及第二确定子单元1514。
第三处理子单元1511,用于在特征上采样层Km中,对第二输入特征进行特征上采样处理,生成第二过渡视频特征Lm;若特征上采样层Km为A个特征上采样层中的首个特征上采样层,则第二输入特征为第二待处理视频特征;若特征上采样层Km不为A个特征上采样层中的首个特征上采样层,则第二输入特征为,特征上采样层Km的上一个特征上采样层所输出的第二过渡视频特征;
第四处理子单元1512,用于将第二过渡视频特征Lm作为特征上采样层Km+1的第二输入特征,在特征上采样层Km+1中,对第二过渡视频特征Lm进行特征上采样处理,生成第二过渡视频特征Lm+1
第一确定子单元1513,用于若特征上采样层Km+1不为A个特征上采样层中的最后一个特征上采样层,则将第二过渡视频特征Lm+1确定为,特征上采样层Km+1的下一个特征上采样层的第二输入特征;
第二确定子单元1514,用于若特征上采样层Km+1为A个特征上采样层中的最后一个特征上采样层,则将第二过渡视频特征Lm+1确定为第三待处理视频特征。
其中,第三处理子单元1511、第四处理子单元1512、第一确定子单元1513以及第二确定子单元1514的具体功能实现方式可以参见上述图3对应实施例中的步骤S105,这里不再进行赘述。
再请参见图10,特征上采样层Km包括第二卷积组件以及特征上采样组件;
第三处理子单元1511可以包括:第六输入子单元15111以及第七输入子单元15112。
第六输入子单元15111,用于将第二输入特征输入至第二卷积组件,在第二卷积组件中,对第二输入特征进行特征卷积处理,生成待上采样视频特征;
第七输入子单元15112,用于将待上采样视频特征输入至特征上采样组件;特征上采样组件携带上采样尺寸;
第七输入子单元15112,还用于根据上采样尺寸,在特征上采样组件中对待上采样视频特征进行特征上采样处理,生成第二过渡视频特征Lm;第二过渡视频特征Lm对应的特征分辨率等于,第二输入特征对应的特征分辨率以及上采样尺寸的乘积。
其中,第六输入子单元15111以及第七输入子单元15112的具体功能实现方式可以参见上述图3对应实施例中的步骤S105,这里不再进行赘述。
再请参见图10,第二卷积组件包括第二卷积组件No、与第二卷积组件No相关联的激活组件、第二卷积组件No+1、与第二卷积组件No+1相关联的融合组件以及与第二卷积组件No+1相关联的激活组件;o为正整数,且o小于第二卷积组件的总数量;
第六输入子单元15111,具体用于将第二输入特征输入至第二卷积组件No;第二卷积组件No包括P个卷积通道,P为正整数;
第六输入子单元15111,还具体用于通过第二卷积组件No中的P个卷积通道,对第二输入特征进行特征卷积处理,生成第二待激活视频特征Qo;第二待激活视频特征Qo对应的特征通道数等于P;
第六输入子单元15111,还具体用于将第二待激活视频特征Qo输入至与第二卷积组件No相关联的激活组件,通过与第二卷积组件No相关联的激活组件,对第二待激活视频特征Qo进行特征非线性处理,生成第二卷积视频特征Ro
第六输入子单元15111,还具体用于将第二卷积视频特征Ro输入至第二卷积组件No+1;第二卷积组件No+1包括P个卷积通道;
第六输入子单元15111,还具体用于通过第二卷积组件No+1中的P个卷积通道,对第二卷积视频特征Ro进行特征卷积处理,生成第二待激活视频特征Qo+1;第二待激活视频特征Qo+1对应的特征通道数等于P;
第六输入子单元15111,还具体用于将第二待激活视频特征Qo+1以及第二卷积视频特征Ro输入至与第二卷积组件No+1相关联的融合组件,在与第二卷积组件No+1相关联的融合组件中,对第二待激活视频特征Qo+1以及第二卷积视频特征Ro进行特征融合处理,生成第二待激活视频特征Qo+2
第六输入子单元15111,还具体用于将第二待激活视频特征Qo+2输入至与第二卷积组件No+1相关联的激活组件,通过与第二卷积组件No+1相关联的激活组件,对第二待激活视频特征Qo+2进行特征非线性处理,生成待上采样视频特征。
其中,第六输入子单元15111的具体功能实现方式可以参见上述图3对应实施例中的步骤S105,这里不再进行赘述。
再请参见图10,第一特征卷积层包括特征卷积组件、特征激活组件以及特征归一化组件;
第四处理单元152可以包括:第一生成子单元1521、第二生成子单元1522以及第三生成子单元1523。
第一生成子单元1521,用于将第三待处理视频特征输入至特征卷积组件,在特征卷积组件中,对第三待处理视频特征进行特征卷积处理,生成第四待处理视频特征;第四待处理视频特征对应的特征通道数等于第一待融合视频特征对应的特征通道数;
第二生成子单元1522,用于将第四待处理视频特征输入至特征激活组件,在特征激活组件中,对第四待处理视频特征进行特征非线性处理,生成第五待处理视频特征;
第三生成子单元1523,用于将第五待处理视频特征输入至特征归一化组件,在特征归一化组件中,对第五待处理视频特征进行特征归一化操作,生成第二待融合视频特征。
其中,第一生成子单元1521、第二生成子单元1522以及第三生成子单元1523的具体功能实现方式可以参见上述图3对应实施例中的步骤S105,这里不再进行赘述。
再请参见图10,视频帧对齐模型还包括特征拼接层;
第二生成模块13可以包括:第一生成单元131以及第二生成单元132。
第一生成单元131,用于对第一视频帧进行归一化处理,生成第一归一化视频帧,对第二视频帧进行归一化处理,生成第二归一化视频帧;第一归一化视频帧对应的视频帧通道数等于第二归一化视频帧对应的视频帧通道数;
第一生成单元131,还用于将第一归一化视频帧对应的第一初始视频特征,以及第二归一化视频帧对应的第二初始视频特征均输入至特征拼接层;
第二生成单元132,用于在特征拼接层中,对第一归一化视频帧对应的第一初始视频特征,以及第二归一化视频帧对应的第二初始视频特征进行特征拼接处理,生成第一待处理视频特征;第一待处理视频特征对应的特征通道数,等于第一归一化视频帧对应的视频帧通道数的两倍。
其中,第一生成单元131以及第二生成单元132的具体功能实现方式可以参见上述图3对应实施例中的步骤S103,这里不再进行赘述。
再请参见图10,视频帧对齐模型还包括第二特征卷积层以及第三特征卷积层;
第一生成模块12可以包括:第三生成单元121、第四生成单元122以及第五生成单元123。
第三生成单元121,用于对第一视频帧进行归一化处理,生成第一归一化视频帧;
第四生成单元122,用于将第一归一化视频帧对应的第一初始视频特征输入至第二特征卷积层,在第二特征卷积层中,对第一归一化视频帧对应的第一初始视频特征进行特征增维处理,生成增维视频特征;增维视频特征对应的特征通道数,大于第一归一化视频帧对应的视频帧通道数;
第五生成单元123,用于将增维视频特征输入至第三特征卷积层,在第三特征卷积层中,对增维视频特征进行特征降维处理,生成第一待融合视频特征;第一待融合视频特征对应的特征通道数,等于第一归一化视频帧对应的视频帧通道数。
其中,第三生成单元121、第四生成单元122以及第五生成单元123的具体功能实现方式可以参见上述图3对应实施例中的步骤S102,这里不再进行赘述。
再请参见图10,数据处理装置1还可以包括:第二获取模块16以及第五生成模块17。
第二获取模块16,用于获取用于增强视频帧清晰度的图像超分模型;
第五生成模块17,用于将第二视频帧以及对齐视频帧输入至图像超分模型,在图像超分模型中,基于对齐视频帧,对第二视频帧进行分辨率增强处理,生成第二视频帧对应的增强分辨率视频帧。
其中,第二获取模块16以及第五生成模块17的具体功能实现方式可以参见上述图8对应实施例中的步骤S206-步骤S207,这里不再进行赘述。
请再参见图10,在数据处理装置1中,对齐视频帧与第一视频帧之间的帧间差异,小于第二视频帧与第一视频帧之间的帧间差异。
在本申请实施例中,获取处于相同视频场景的第一视频帧以及第二视频帧,可以确定两帧视频帧中的运动对象保持一致;对第一视频帧对应的第一初始视频特征进行特征卷积处理,可以提取第一视频帧的隐藏特征,生成第一待融合视频特征;进一步地,对第一视频帧对应的第一初始视频特征,以及第二视频帧对应的第二初始视频特征进行特征拼接处理,生成包括上述第一初始视频特征以及第二初始视频特征的第一待处理视频特征;对第一待处理视频特征进行特征下采样处理,可以减弱上述第一初始视频特征以及第二初始视频特征之间的运动差异,生成第二待处理视频特征;进一步地,根据第二待处理视频特征以及第一待融合视频特征,生成针对第二视频帧的对齐视频帧。上述可知,本申请通过对包括第一初始视频特征以及第二初始视频特征的第一待处理视频特征,进行特征下采样处理,可以减小第一视频帧以及第二视频帧之间的帧间运动差异,实现高准确率识别对齐光流数据,故采用本申请可以提高对齐光流数据的识别准确率,进而可以生成高准确率的对齐视频帧。
进一步地,请参见图11,图11是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图11所示,该数据处理装置2可以包括:第一获取模块21、第一生成模块22、第二生成模块23、第三生成模块24、第四生成模块25、第二获取模块26以及第五生成模块27。
第一获取模块21,用于获取样本视频中的第一样本视频帧以及第二样本视频帧;第一样本视频帧对应的样本视频场景与第二样本视频帧对应的样本视频场景相同;
第一生成模块22,用于将第一样本视频帧以及第二样本视频帧分别输入至视频帧对齐初始模型,在视频帧对齐初始模型中,对第一样本视频帧对应的第一初始样本视频特征进行特征卷积处理,生成第一样本视频帧对应的第一待融合样本视频特征;
第二生成模块23,用于对第一样本视频帧对应的第一初始样本视频特征,以及第二样本视频帧对应的第二初始样本视频特征进行特征拼接处理,生成第一待处理样本视频特征;
第三生成模块24,用于对第一待处理样本视频特征进行特征下采样处理,生成第二待处理样本视频特征;
第四生成模块25,用于根据第二待处理样本视频特征以及第一待融合样本视频特征,生成针对第二样本视频帧的对齐估计视频帧;
第二获取模块26,用于获取第二样本视频帧以及对齐估计视频帧之间的均方差值,将均方差值确定为视频帧对齐初始模型的损失值;
第五生成模块27,用于根据损失值对视频帧对齐初始模型中的模型参数进行调整,生成视频帧对齐模型;视频帧对齐模型用于对视频中的视频帧进行帧间对齐处理。
其中,第一获取模块21、第一生成模块22、第二生成模块23、第三生成模块24、第四生成模块25、第二获取模块26以及第五生成模块27的具体功能实现方式可以参见上述图9对应实施例中的步骤S301-步骤S307,这里不再进行赘述。
综上所述,本申请实施例提出一种快速视频帧对齐算法,以较低的模型复杂性达到可观的性能。具体实现如下:对包括第一初始样本视频特征以及第二初始样本视频特征的第一待处理样本视频特征,进行特征下采样处理,可以减小第一样本视频帧以及第二样本视频帧之间的帧间运动差异,实现高准确率识别对齐估计光流数据,故采用本申请可以提高对齐估计光流数据的识别准确率,进而可以生成高准确率的对齐估计视频帧,通过高准确率的对齐估计视频帧以及第二样本视频帧之间的误差,可以准确地调整视频帧对齐初始模型,高效生成视频帧对齐模型。
进一步地,请参见图12,图12是本申请实施例提供的一种计算机设备的结构示意图。如图12所示,该计算机设备1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图12所示,作为一种计算机存储介质的存储器1005可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图12所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取视频中的第一视频帧以及第二视频帧;第一视频帧对应的视频场景与第二视频帧对应的视频场景相同;
对第一视频帧对应的第一初始视频特征进行特征卷积处理,生成第一视频帧对应的第一待融合视频特征;
对第一视频帧对应的第一初始视频特征,以及第二视频帧对应的第二初始视频特征进行特征拼接处理,生成第一待处理视频特征;
对第一待处理视频特征进行特征下采样处理,生成第二待处理视频特征;
根据第二待处理视频特征以及第一待融合视频特征,生成针对第二视频帧的对齐视频帧。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3、图8以及图9所对应实施例中对数据处理方法的描述,也可执行前文图10所对应实施例中对数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图13,图13是本申请实施例提供的一种计算机设备的结构示意图。如图13所示,上述计算机设备2000可以包括:处理器2001,网络接口2004和存储器2005,此外,上述计算机设备2000还可以包括:用户接口2003,和至少一个通信总线2002。其中,通信总线2002用于实现这些组件之间的连接通信。其中,用户接口2003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口2003还可以包括标准的有线接口、无线接口。网络接口2004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器2005可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器2005可选的还可以是至少一个位于远离前述处理器2001的存储装置。如图13所示,作为一种计算机可读存储介质的存储器2005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图13所示的计算机设备2000中,网络接口2004可提供网络通讯功能;而用户接口2003主要用于为用户提供输入的接口;而处理器2001可以用于调用存储器2005中存储的设备控制应用程序,以实现:
获取样本视频中的第一样本视频帧以及第二样本视频帧;第一样本视频帧对应的样本视频场景与第二样本视频帧对应的样本视频场景相同;
将第一样本视频帧以及第二样本视频帧分别输入至视频帧对齐初始模型,在视频帧对齐初始模型中,对第一样本视频帧对应的第一初始样本视频特征进行特征卷积处理,生成第一样本视频帧对应的第一待融合样本视频特征;
对第一样本视频帧对应的第一初始样本视频特征,以及第二样本视频帧对应的第二初始样本视频特征进行特征拼接处理,生成第一待处理样本视频特征;
对第一待处理样本视频特征进行特征下采样处理,生成第二待处理样本视频特征;
根据第二待处理样本视频特征以及第一待融合样本视频特征,生成针对第二样本视频帧的对齐估计视频帧;
获取第二样本视频帧以及对齐估计视频帧之间的均方差值,将均方差值确定为视频帧对齐初始模型的损失值;
根据损失值对视频帧对齐初始模型中的模型参数进行调整,生成视频帧对齐模型;视频帧对齐模型用于对视频中的视频帧进行帧间对齐处理。
应当理解,本申请实施例中所描述的计算机设备2000可执行前文图3、图8以及图9所对应实施例中对数据处理方法的描述,也可执行前文图11所对应实施例中对数据处理装置2的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图3、图8以及图9中各个步骤所提供的数据处理方法,具体可参见上述图3、图8以及图9各个步骤所提供的实现方式,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可执行前文图3、图8以及图9所对应实施例中对数据处理方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

1.一种数据处理方法,其特征在于,包括:
获取视频中的第一视频帧以及第二视频帧;所述第一视频帧对应的视频场景与所述第二视频帧对应的视频场景相同;
对所述第一视频帧对应的第一初始视频特征进行特征卷积处理,生成所述第一视频帧对应的第一待融合视频特征;
对所述第一视频帧对应的第一初始视频特征,以及所述第二视频帧对应的第二初始视频特征进行特征拼接处理,生成第一待处理视频特征;
对所述第一待处理视频特征进行特征下采样处理,生成第二待处理视频特征;
根据所述第二待处理视频特征以及所述第一待融合视频特征,生成针对所述第二视频帧的对齐视频帧。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一待处理视频特征进行特征下采样处理,生成第二待处理视频特征,包括:
获取视频帧对齐模型;所述视频帧对齐模型包括A个特征下采样层,所述A个特征下采样层包括特征下采样层Bc以及特征下采样层Bc+1,A为正整数,c为正整数且c小于A;
在所述特征下采样层Bc中,对第一输入特征进行特征下采样处理,生成第一过渡视频特征Dc;若所述特征下采样层Bc为所述A个特征下采样层中的首个特征下采样层,则所述第一输入特征为所述第一待处理视频特征;若所述特征下采样层Bc不为所述A个特征下采样层中的首个特征下采样层,则所述第一输入特征为,所述特征下采样层Bc的上一个特征下采样层所输出的第一过渡视频特征;
将所述第一过渡视频特征Dc作为所述特征下采样层Bc+1的第一输入特征,在所述特征下采样层Bc+1中,对所述第一过渡视频特征Dc进行特征下采样处理,生成第一过渡视频特征Dc+1
若所述特征下采样层Bc+1不为所述A个特征下采样层中的最后一个特征下采样层,则将所述第一过渡视频特征Dc+1确定为,所述特征下采样层Bc+1的下一个特征下采样层的第一输入特征;
若所述特征下采样层Bc+1为所述A个特征下采样层中的最后一个特征下采样层,则将所述第一过渡视频特征Dc+1确定为所述第二待处理视频特征。
3.根据权利要求2所述的方法,其特征在于,所述特征下采样层Bc包括第一卷积组件以及特征池化组件;
所述在所述特征下采样层Bc中,对第一输入特征进行特征下采样处理,生成第一过渡视频特征Dc,包括:
将所述第一输入特征输入至所述第一卷积组件,在所述第一卷积组件中,对所述第一输入特征进行特征卷积处理,生成待池化视频特征;
将所述待池化视频特征输入至所述特征池化组件;所述特征池化组件携带池化尺寸;
根据所述池化尺寸,在所述特征池化组件中对所述待池化视频特征进行特征下采样处理,生成所述第一过渡视频特征Dc;所述第一输入特征对应的特征分辨率等于,所述池化尺寸以及所述第一过渡视频特征Dc对应的特征分辨率的乘积。
4.根据权利要求3所述的方法,其特征在于,所述第一卷积组件包括第一卷积组件Gh、与所述第一卷积组件Gh相关联的激活组件、第一卷积组件Gh+1、与所述第一卷积组件Gh+1相关联的融合组件以及与所述第一卷积组件Gh+1相关联的激活组件;h为正整数,且h小于所述第一卷积组件的总数量;
所述将所述第一输入特征输入至所述第一卷积组件,在所述第一卷积组件中,对所述第一输入特征进行特征卷积处理,生成待池化视频特征,包括:
将所述第一输入特征输入至所述第一卷积组件Gh;所述第一卷积组件Gh包括E个卷积通道,E为正整数;
通过所述第一卷积组件Gh中的E个卷积通道,对所述第一输入特征进行特征卷积处理,生成第一待激活视频特征Ih;所述第一待激活视频特征Ih对应的特征通道数等于E;
将所述第一待激活视频特征Ih输入至与所述第一卷积组件Gh相关联的激活组件,通过与所述第一卷积组件Gh相关联的激活组件,对所述第一待激活视频特征Ih进行特征非线性处理,生成第一卷积视频特征Jh
将所述第一卷积视频特征Jh输入至所述第一卷积组件Gh+1;所述第一卷积组件Gh+1包括E个卷积通道;
通过所述第一卷积组件Gh+1中的E个卷积通道,对所述第一卷积视频特征Jh进行特征卷积处理,生成第一待激活视频特征Ih+1;所述第一待激活视频特征Ih+1对应的特征通道数等于E;
将所述第一待激活视频特征Ih+1以及第一卷积视频特征Jh输入至与所述第一卷积组件Gh+1相关联的融合组件,在与所述第一卷积组件Gh+1相关联的融合组件中,对所述第一待激活视频特征Ih+1以及第一卷积视频特征Jh进行特征融合处理,生成第一待激活视频特征Ih+2
将所述第一待激活视频特征Ih+2输入至与所述第一卷积组件Gh+1相关联的激活组件,通过与所述第一卷积组件Gh+1相关联的激活组件,对所述第一待激活视频特征Ih+2进行特征非线性处理,生成所述待池化视频特征。
5.根据权利要求2所述的方法,其特征在于,所述视频帧对齐模型还包括A个特征上采样层、第一特征卷积层以及特征融合层;
所述根据所述第二待处理视频特征以及所述第一待融合视频特征,生成针对所述第二视频帧的对齐视频帧,包括:
通过所述A个特征上采样层,对所述第二待处理视频特征进行特征上采样处理,生成第三待处理视频特征,将所述第三待处理视频特征输入至所述第一特征卷积层;所述第三待处理视频特征对应的特征分辨率等于所述第一待处理视频特征对应的特征分辨率;
通过所述第一特征卷积层,对所述第三待处理视频特征进行特征卷积处理,生成第二待融合视频特征;所述第二待融合视频特征对应的特征通道数等于所述第一待融合视频特征对应的特征通道数;
将所述第一待融合视频特征以及所述第二待融合视频特征输入至所述特征融合层,在所述特征融合层中,对所述第一待融合视频特征以及所述第二待融合视频特征进行特征融合处理,生成针对所述第二视频帧的归一化视频特征;
对所述归一化视频特征进行特征反归一化处理,生成所述对齐视频帧。
6.根据权利要求5所述的方法,其特征在于,所述A个特征上采样层包括特征上采样层Km以及特征上采样层Km+1,m为正整数且m小于A;
所述通过所述A个特征上采样层,对所述第二待处理视频特征进行特征上采样处理,生成第三待处理视频特征,包括:
在所述特征上采样层Km中,对第二输入特征进行特征上采样处理,生成第二过渡视频特征Lm;若所述特征上采样层Km为所述A个特征上采样层中的首个特征上采样层,则所述第二输入特征为所述第二待处理视频特征;若所述特征上采样层Km不为所述A个特征上采样层中的首个特征上采样层,则所述第二输入特征为,所述特征上采样层Km的上一个特征上采样层所输出的第二过渡视频特征;
将所述第二过渡视频特征Lm作为所述特征上采样层Km+1的第二输入特征,在所述特征上采样层Km+1中,对所述第二过渡视频特征Lm进行特征上采样处理,生成第二过渡视频特征Lm+1
若所述特征上采样层Km+1不为所述A个特征上采样层中的最后一个特征上采样层,则将所述第二过渡视频特征Lm+1确定为,所述特征上采样层Km+1的下一个特征上采样层的第二输入特征;
若所述特征上采样层Km+1为所述A个特征上采样层中的最后一个特征上采样层,则将所述第二过渡视频特征Lm+1确定为所述第三待处理视频特征。
7.根据权利要求6所述的方法,其特征在于,所述特征上采样层Km包括第二卷积组件以及特征上采样组件;
所述在所述特征上采样层Km中,对第二输入特征进行特征上采样处理,生成第二过渡视频特征Lm,包括:
将所述第二输入特征输入至所述第二卷积组件,在所述第二卷积组件中,对所述第二输入特征进行特征卷积处理,生成待上采样视频特征;
将所述待上采样视频特征输入至所述特征上采样组件;所述特征上采样组件携带上采样尺寸;
根据所述上采样尺寸,在所述特征上采样组件中对所述待上采样视频特征进行特征上采样处理,生成所述第二过渡视频特征Lm;所述第二过渡视频特征Lm对应的特征分辨率等于,所述第二输入特征对应的特征分辨率以及所述上采样尺寸的乘积。
8.根据权利要求7所述的方法,其特征在于,所述第二卷积组件包括第二卷积组件No、与所述第二卷积组件No相关联的激活组件、第二卷积组件No+1、与所述第二卷积组件No+1相关联的融合组件以及与所述第二卷积组件No+1相关联的激活组件;o为正整数,且o小于所述第二卷积组件的总数量;
所述将所述第二输入特征输入至所述第二卷积组件,在所述第二卷积组件中,对所述第二输入特征进行特征卷积处理,生成待上采样视频特征,包括:
将所述第二输入特征输入至所述第二卷积组件No;所述第二卷积组件No包括P个卷积通道,P为正整数;
通过所述第二卷积组件No中的P个卷积通道,对所述第二输入特征进行特征卷积处理,生成第二待激活视频特征Qo;所述第二待激活视频特征Qo对应的特征通道数等于P;
将所述第二待激活视频特征Qo输入至与所述第二卷积组件No相关联的激活组件,通过与所述第二卷积组件No相关联的激活组件,对所述第二待激活视频特征Qo进行特征非线性处理,生成第二卷积视频特征Ro
将所述第二卷积视频特征Ro输入至所述第二卷积组件No+1;所述第二卷积组件No+1包括P个卷积通道;
通过所述第二卷积组件No+1中的P个卷积通道,对所述第二卷积视频特征Ro进行特征卷积处理,生成第二待激活视频特征Qo+1;所述第二待激活视频特征Qo+1对应的特征通道数等于P;
将所述第二待激活视频特征Qo+1以及第二卷积视频特征Ro输入至与所述第二卷积组件No+1相关联的融合组件,在与所述第二卷积组件No+1相关联的融合组件中,对所述第二待激活视频特征Qo+1以及第二卷积视频特征Ro进行特征融合处理,生成第二待激活视频特征Qo+2
将所述第二待激活视频特征Qo+2输入至与所述第二卷积组件No+1相关联的激活组件,通过与所述第二卷积组件No+1相关联的激活组件,对所述第二待激活视频特征Qo+2进行特征非线性处理,生成所述待上采样视频特征。
9.根据权利要求5所述的方法,其特征在于,所述第一特征卷积层包括特征卷积组件、特征激活组件以及特征归一化组件;
所述通过所述第一特征卷积层,对所述第三待处理视频特征进行特征卷积处理,生成第二待融合视频特征,包括:
将所述第三待处理视频特征输入至所述特征卷积组件,在所述特征卷积组件中,对所述第三待处理视频特征进行特征卷积处理,生成第四待处理视频特征;所述第四待处理视频特征对应的特征通道数等于所述第一待融合视频特征对应的特征通道数;
将所述第四待处理视频特征输入至所述特征激活组件,在所述特征激活组件中,对所述第四待处理视频特征进行特征非线性处理,生成第五待处理视频特征;
将所述第五待处理视频特征输入至所述特征归一化组件,在所述特征归一化组件中,对所述第五待处理视频特征进行特征归一化操作,生成所述第二待融合视频特征。
10.根据权利要求2所述的方法,其特征在于,所述视频帧对齐模型还包括特征拼接层;
所述对所述第一视频帧对应的第一初始视频特征,以及所述第二视频帧对应的第二初始视频特征进行特征拼接处理,生成第一待处理视频特征,包括:
对所述第一视频帧进行归一化处理,生成第一归一化视频帧,对所述第二视频帧进行归一化处理,生成第二归一化视频帧;所述第一归一化视频帧对应的视频帧通道数等于所述第二归一化视频帧对应的视频帧通道数;
将所述第一归一化视频帧对应的第一初始视频特征,以及所述第二归一化视频帧对应的第二初始视频特征均输入至所述特征拼接层;
在所述特征拼接层中,对所述第一归一化视频帧对应的第一初始视频特征,以及所述第二归一化视频帧对应的第二初始视频特征进行特征拼接处理,生成所述第一待处理视频特征;所述第一待处理视频特征对应的特征通道数,等于所述第一归一化视频帧对应的视频帧通道数的两倍。
11.根据权利要求2所述的方法,其特征在于,所述视频帧对齐模型还包括第二特征卷积层以及第三特征卷积层;
所述对所述第一视频帧对应的第一初始视频特征进行特征卷积处理,生成所述第一视频帧对应的第一待融合视频特征,包括:
对所述第一视频帧进行归一化处理,生成第一归一化视频帧;
将所述第一归一化视频帧对应的第一初始视频特征输入至所述第二特征卷积层,在所述第二特征卷积层中,对所述第一归一化视频帧对应的第一初始视频特征进行特征增维处理,生成增维视频特征;所述增维视频特征对应的特征通道数,大于所述第一归一化视频帧对应的视频帧通道数;
将所述增维视频特征输入至所述第三特征卷积层,在所述第三特征卷积层中,对所述增维视频特征进行特征降维处理,生成所述第一待融合视频特征;所述第一待融合视频特征对应的特征通道数,等于所述第一归一化视频帧对应的视频帧通道数。
12.根据权利要求1~11任一项所述的方法,其特征在于,所述方法还包括:
获取用于增强视频帧清晰度的图像超分模型;
将所述第二视频帧以及所述对齐视频帧输入至所述图像超分模型,在所述图像超分模型中,基于所述对齐视频帧,对所述第二视频帧进行分辨率增强处理,生成所述第二视频帧对应的增强分辨率视频帧。
13.根据权利要求1~11任一项所述的方法,其特征在于,所述对齐视频帧与所述第一视频帧之间的帧间差异,小于所述第二视频帧与所述第一视频帧之间的帧间差异。
14.一种数据处理方法,其特征在于,包括:
获取样本视频中的第一样本视频帧以及第二样本视频帧;所述第一样本视频帧对应的样本视频场景与所述第二样本视频帧对应的样本视频场景相同;
将所述第一样本视频帧以及所述第二样本视频帧分别输入至视频帧对齐初始模型,在所述视频帧对齐初始模型中,对所述第一样本视频帧对应的第一初始样本视频特征进行特征卷积处理,生成所述第一样本视频帧对应的第一待融合样本视频特征;
对所述第一样本视频帧对应的第一初始样本视频特征,以及所述第二样本视频帧对应的第二初始样本视频特征进行特征拼接处理,生成第一待处理样本视频特征;
对所述第一待处理样本视频特征进行特征下采样处理,生成第二待处理样本视频特征;
根据所述第二待处理样本视频特征以及所述第一待融合样本视频特征,生成针对所述第二样本视频帧的对齐估计视频帧;
获取所述第二样本视频帧以及所述对齐估计视频帧之间的均方差值,将所述均方差值确定为所述视频帧对齐初始模型的损失值;
根据所述损失值对所述视频帧对齐初始模型中的模型参数进行调整,生成视频帧对齐模型;所述视频帧对齐模型用于对视频中的视频帧进行帧间对齐处理。
15.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供数据通信功能,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1至14任一项所述的方法。
CN202110898058.2A 2021-08-05 2021-08-05 一种数据处理方法以及计算机设备 Pending CN114299411A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110898058.2A CN114299411A (zh) 2021-08-05 2021-08-05 一种数据处理方法以及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110898058.2A CN114299411A (zh) 2021-08-05 2021-08-05 一种数据处理方法以及计算机设备

Publications (1)

Publication Number Publication Date
CN114299411A true CN114299411A (zh) 2022-04-08

Family

ID=80964118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110898058.2A Pending CN114299411A (zh) 2021-08-05 2021-08-05 一种数据处理方法以及计算机设备

Country Status (1)

Country Link
CN (1) CN114299411A (zh)

Similar Documents

Publication Publication Date Title
CN112543347B (zh) 基于机器视觉编解码的视频超分辨率方法、装置、系统和介质
CN111401216B (zh) 图像处理、模型训练方法、装置、计算机设备和存储介质
CN111553267B (zh) 图像处理方法、图像处理模型训练方法及设备
CN111681177B (zh) 视频处理方法及装置、计算机可读存储介质、电子设备
CN116803079A (zh) 视频和相关特征的可分级译码
CN112906721B (zh) 图像处理方法、装置、设备及计算机可读存储介质
CN111833360B (zh) 一种图像处理方法、装置、设备以及计算机可读存储介质
CN111460876A (zh) 用于识别视频的方法和装置
CN111985281A (zh) 图像生成模型的生成方法、装置及图像生成方法、装置
CN114187165A (zh) 图像处理方法和装置
CN113628116B (zh) 图像处理网络的训练方法、装置、计算机设备和存储介质
CN113344794B (zh) 一种图像处理方法、装置、计算机设备及存储介质
CN113569824B (zh) 模型处理方法、相关设备、存储介质及计算机程序产品
CN114299411A (zh) 一种数据处理方法以及计算机设备
CN114299105A (zh) 图像处理方法、装置、计算机设备及存储介质
CN114586056A (zh) 图像处理方法及装置、设备、视频处理方法及存储介质
CN115082873A (zh) 基于通路融合的图像识别方法、装置及存储介质
CN116740540B (zh) 一种数据处理方法、装置、设备以及计算机可读存储介质
CN113822117B (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN116758390B (zh) 一种图像数据处理方法、装置、计算机设备以及介质
WO2024099004A1 (zh) 一种图像处理模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品
Zhang et al. Low Light Video Enhancement Based on Temporal-Spatial Complementary Feature
CN114693551A (zh) 一种图像处理方法、装置、设备以及可读存储介质
CN116957929A (zh) 图像超分模型的训练、图像超分处理方法、装置及设备
CN116797466A (zh) 一种图像处理方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination