CN113610713A - 视频超分辨模型的训练方法、视频超分辨方法及装置 - Google Patents
视频超分辨模型的训练方法、视频超分辨方法及装置 Download PDFInfo
- Publication number
- CN113610713A CN113610713A CN202110933990.4A CN202110933990A CN113610713A CN 113610713 A CN113610713 A CN 113610713A CN 202110933990 A CN202110933990 A CN 202110933990A CN 113610713 A CN113610713 A CN 113610713A
- Authority
- CN
- China
- Prior art keywords
- super
- image frame
- resolution
- information
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 238000006243 chemical reaction Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims description 49
- 230000006870 function Effects 0.000 claims description 27
- 230000009466 transformation Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 16
- 238000013500 data storage Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 4
- 125000004122 cyclic group Chemical group 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Television Systems (AREA)
- Image Analysis (AREA)
Abstract
本公开关于视频超分辨模型的训练方法、视频超分辨方法及装置。训练方法包括:将视频中所有图像帧输入特征提取网络得到每个图像帧的状态信息;针对所有图像帧中任一图像帧:将当前图像帧前预定个数和后预定个数的图像帧的状态信息输入到时序变换网络得到对应图像帧变换到当前图像帧所处时刻的变换信息;将变换信息和当前图像帧的状态信息输入到超分辨网络得到当前图像帧和前后预定个数的图像帧的第一超分辨信息;将当前图像帧和前后预定个数的图像帧的第一超分辨信息拼接得到当前图像帧的增强超分辨信息;将增强超分辨信息输入到显示网络得到预估图像;基于预估图像和清晰图像调整各网络的参数,训练视频超分辨模型。
Description
技术领域
本公开涉及视频处理领域,尤其涉及一种视频超分辨模型的训练方法、视频超分辨方法及装置。
背景技术
目前,基于循环卷积网络的视频超分辨算法是一维马尔可夫的状态转移过程,即仅将上一个时刻的结果作为下一个时刻的输入,也就是当前图像帧只能从上一个时刻的图像帧获取信息,来得到当前图像帧的超分辨信息。可见,目前的基于循环卷积网络的视频超分辨算法仍然存在信息利用不充分的问题,很难得到准确的超分辨信息,因此,在真实场景下的表现依然受限。
发明内容
本公开提供一种视频超分辨模型的训练方法、视频超分辨方法及装置,以至少解决相关技术中无法得到准确的超分辨信息的问题。
根据本公开实施例的第一方面,提供一种视频超分辨模型的训练方法,视频超分辨模型包括特征提取网络、时序变换网络、超分辨网络和显示网络,训练方法包括:获取训练样本集,其中,训练样本集包括多个训练视频和多个训练视频中每个训练视频的预定区域对应的清晰图像,其中,预定区域是训练视频中清晰度低于第一预设阈值的区域,清晰图像是与预定区域的显示内容相同且清晰度高于第二预设阈值的图像;将训练视频中所有图像帧输入到特征提取网络,得到所有图像帧中每个图像帧的状态信息;针对所有图像帧中任一图像帧,做如下预定处理:将当前图像帧在训练视频中前预定个数的图像帧和在训练视频中后预定个数的图像帧中每个图像帧的状态信息输入到时序变换网络,得到前预定个数的图像帧和后预定个数的图像帧中每个图像帧变换到当前图像帧所处时刻的变换信息;将每个图像帧的变换信息和当前图像帧的状态信息输入到超分辨网络,得到当前图像帧的第一超分辨信息和每个图像帧的第一超分辨信息;将当前图像帧的第一超分辨信息、每个图像帧的第一超分辨信息进行拼接,得到当前图像帧的增强超分辨信息;将增强超分辨信息输入到显示网络,得到当前图像帧的预定区域的预估图像;基于所有图像帧中每个图像帧对应的预估图像和对应的清晰图像,确定目标损失函数;通过目标损失函数调整特征提取网络、时序变换网络、超分辨网络和显示网络的参数,对视频超分辨模型进行训练。
可选地,在将训练视频中所有图像帧输入到特征提取网络,得到所有图像帧中每个图像帧的状态信息之后,还包括:存储所有图像帧的状态信息。
可选地,所有图像帧中第一个进行预定处理的图像帧作为当前图像帧,得到每个图像帧的第一超分辨信息后,当前图像帧的下一个图像帧的前预定个数的图像帧的超分辨信息通过如下方式获得:获取当前图像帧的状态信息和下一个图像帧的状态信息的差异信息,并将差异信息输入到超分辨网络,得到差异信息的超分辨信息;基于前预定个数的图像帧的第一超分辨信息和差异信息的超分辨信息,得到前预定个数的图像帧变换到下一个图像帧所处时刻的第二超分辨信息;基于差异信息的超分辨信息与中间超分辨信息,得到当前图像帧变换到下一个图像帧所处时刻的第二超分辨信息,其中,中间超分辨信息是当前图像帧的第一超分辨信息和前预定个数的图像帧的第一超分辨信息拼接得到的;基于前预定个数的图像帧的第二超分辨信息和当前图像帧的第二超分辨信息,得到下一个图像帧的前预定个数的图像帧的超分辨信息。
可选地,所有图像帧中第一个进行预定处理的图像帧作为当前图像帧,得到每个图像帧的第一超分辨信息后,当前图像帧的上一个图像帧的后预定个数的图像帧的超分辨信息通过如下方式获得:获取当前图像帧的状态信息和上一个图像帧的状态信息的差异信息,并将差异信息输入到超分辨网络,得到差异信息的超分辨信息;基于后预定个数的图像帧的第一超分辨信息和差异信息的超分辨信息,得到后预定个数的图像帧变换到上一个图像帧所处时刻的第三超分辨信息;基于差异信息的超分辨信息与中间超分辨信息,得到当前图像帧变换到上一个图像帧所处时刻的第三超分辨信息,其中,中间超分辨信息是当前图像帧的第一超分辨信息和前预定个数的图像帧的第一超分辨信息拼接得到的;基于后预定个数的图像帧的第三超分辨信息和当前图像帧的第三超分辨信息,得到上一个图像帧的后预定个数的图像帧的超分辨信息。
可选地,前预定个数的图像帧包括以下之一:时间上连续的前预定个数的图像帧、时间上跳跃的前预定个数的图像帧;后预定个数的图像帧包括以下之一:时间上连续的后预定个数的图像帧、时间上跳跃的后预定个数的图像帧。
根据本公开实施例的第二方面,提供一种视频超分辨方法,包括:获取待处理视频;将待处理视频中所有图像帧输入到视频超分辨模型的特征提取网络,得到所有图像帧中每个图像帧的状态信息;针对所有图像帧中任一图像帧,做如下预定处理:将当前图像帧在待处理视频中前预定个数的图像帧和在待处理视频中后预定个数的图像帧中每个图像帧的状态信息输入到视频超分辨模型的时序变换网络,得到前预定个数的图像帧和后预定个数的图像帧中每个图像帧变换到当前图像帧所处时刻的变换信息;将每个图像帧的变换信息和当前图像帧的状态信息输入到视频超分辨模型的超分辨网络,得到当前图像帧的第一超分辨信息和每个图像帧的第一超分辨信息;将当前图像帧的第一超分辨信息、每个图像帧的第一超分辨信息进行拼接,得到当前图像帧的增强超分辨信息;将增强超分辨信息输入到显示网络,得到当前图像帧的预定区域的清晰图像。
可选地,在将待处理视频中所有图像帧输入到视频超分辨模型的特征提取网络,得到所有图像帧中每个图像帧的状态信息之后,还包括:存储所有图像帧的状态信息。
可选地,所有图像帧中第一个进行预定处理的图像帧作为当前图像帧,得到每个图像帧的第一超分辨信息后,当前图像帧的下一个图像帧的前预定个数的图像帧的超分辨信息通过如下方式获得:获取当前图像帧的状态信息和下一个图像帧的状态信息的差异信息,并将差异信息输入到超分辨网络,得到差异信息的超分辨信息;基于前预定个数的图像帧的第一超分辨信息和差异信息的超分辨信息,得到前预定个数的图像帧变换到下一个图像帧所处时刻的第二超分辨信息;基于差异信息的超分辨信息与中间超分辨信息,得到当前图像帧变换到下一个图像帧所处时刻的第二超分辨信息,其中,中间超分辨信息是当前图像帧的第一超分辨信息和前预定个数的图像帧的第一超分辨信息拼接得到的;基于前预定个数的图像帧的第二超分辨信息和当前图像帧的第二超分辨信息,得到下一个图像帧的前预定个数的图像帧的超分辨信息。
可选地,所有图像帧中第一个进行预定处理的图像帧作为当前图像帧,得到每个图像帧的第一超分辨信息后,当前图像帧的上一个图像帧的后预定个数的图像帧的超分辨信息通过如下方式获得:获取当前图像帧的状态信息和上一个图像帧的状态信息的差异信息,并将差异信息输入到超分辨网络,得到差异信息的超分辨信息;基于后预定个数的图像帧的第一超分辨信息和差异信息的超分辨信息,得到后预定个数的图像帧变换到上一个图像帧所处时刻的第三超分辨信息;基于差异信息的超分辨信息与中间超分辨信息,得到当前图像帧变换到上一个图像帧所处时刻的第三超分辨信息,其中,中间超分辨信息是当前图像帧的第一超分辨信息和前预定个数的图像帧的第一超分辨信息拼接得到的;基于后预定个数的图像帧的第三超分辨信息和当前图像帧的第三超分辨信息,得到上一个图像帧的后预定个数的图像帧的超分辨信息。
可选地,前预定个数的图像帧包括以下之一:时间上连续的前预定个数的图像帧、时间上跳跃的前预定个数的图像帧;后预定个数的图像帧包括以下之一:时间上连续的后预定个数的图像帧、时间上跳跃的后预定个数的图像帧。
可选地,视频超分辨模型是根据如上的训练方法训练得到的。
根据本公开实施例的第三方面,提供一种视频超分辨模型的训练装置,视频超分辨模型包括特征提取网络、超分辨网络、时序变换网络和显示网络,训练装置包括:样本集获取单元,被配置为获取训练样本集,其中,训练样本集包括多个训练视频和多个训练视频中每个训练视频的预定区域对应的清晰图像,其中,预定区域是训练视频中清晰度低于第一预设阈值的区域,清晰图像是与预定区域的显示内容相同且清晰度高于第二预设阈值的图像;状态信息获取单元,被配置为将训练视频中所有图像帧输入到特征提取网络,得到所有图像帧中每个图像帧的状态信息;显示单元,被配置为针对所有图像帧中的任一图像帧,做如下预定处理:将当前图像帧在训练视频中前预定个数的图像帧和在训练视频中后预定个数的图像帧中每个图像帧的状态信息输入到时序变换网络,得到前预定个数的图像帧和后预定个数的图像帧中每个图像帧变换到当前图像帧所处时刻的变换信息;将每个图像帧的变换信息和当前图像帧的状态信息输入到超分辨网络,得到当前图像帧的第一超分辨信息和每个图像帧的第一超分辨信息;将当前图像帧的第一超分辨信息、每个图像帧的第一超分辨信息进行拼接,得到当前图像帧的增强超分辨信息;将增强超分辨信息输入到显示网络,得到当前图像帧的预定区域的预估图像;目标损失函数确定单元,被配置为基于所有图像帧中每个图像帧对应的预估图像和对应的清晰图像,确定目标损失函数;训练单元,被配置为通过目标损失函数调整特征提取网络、超分辨网络、时序变换网络和显示网络的参数,对视频超分辨模型进行训练。
可选地,状态信息获取单元,还被配置为在将训练视频中所有图像帧输入到特征提取网络,得到所有图像帧中每个图像帧的状态信息之后,存储所有图像帧的状态信息。
可选地,显示单元,还被配置为所有图像帧中第一个进行预定处理的图像帧作为当前图像帧,得到每个图像帧的第一超分辨信息后,当前图像帧的下一个图像帧的前预定个数的图像帧的超分辨信息通过如下方式获得:获取当前图像帧的状态信息和下一个图像帧的状态信息的差异信息,并将差异信息输入到超分辨网络,得到差异信息的超分辨信息;基于前预定个数的图像帧的第一超分辨信息和差异信息的超分辨信息,得到前预定个数的图像帧变换到下一个图像帧所处时刻的第二超分辨信息;基于差异信息的超分辨信息与中间超分辨信息,得到当前图像帧变换到下一个图像帧所处时刻的第二超分辨信息,其中,中间超分辨信息是当前图像帧的第一超分辨信息和前预定个数的图像帧的第一超分辨信息拼接得到的;基于前预定个数的图像帧的第二超分辨信息和当前图像帧的第二超分辨信息,得到下一个图像帧的前预定个数的图像帧的超分辨信息。
可选地,显示单元,还被配置为所有图像帧中第一个进行预定处理的图像帧作为当前图像帧,得到每个图像帧的第一超分辨信息后,当前图像帧的上一个图像帧的后预定个数的图像帧的超分辨信息通过如下方式获得:获取当前图像帧的状态信息和上一个图像帧的状态信息的差异信息,并将差异信息输入到超分辨网络,得到差异信息的超分辨信息;基于后预定个数的图像帧的第一超分辨信息和差异信息的超分辨信息,得到后预定个数的图像帧变换到上一个图像帧所处时刻的第三超分辨信息;基于差异信息的超分辨信息与中间超分辨信息,得到当前图像帧变换到上一个图像帧所处时刻的第三超分辨信息,其中,中间超分辨信息是当前图像帧的第一超分辨信息和前预定个数的图像帧的第一超分辨信息拼接得到的;基于后预定个数的图像帧的第三超分辨信息和当前图像帧的第三超分辨信息,得到上一个图像帧的后预定个数的图像帧的超分辨信息。
可选地,前预定个数的图像帧包括以下之一:时间上连续的前预定个数的图像帧、时间上跳跃的前预定个数的图像帧;后预定个数的图像帧包括以下之一:时间上连续的后预定个数的图像帧、时间上跳跃的后预定个数的图像帧。
根据本公开实施例的第四方面,提供一种视频超分辨装置,包括:视频获取单元,被配置为获取待处理视频;状态信息获取单元,被配置为将待处理视频中所有图像帧输入到视频超分辨模型的特征提取网络,得到所有图像帧的状态信息;超分辨处理单元,被配置为针对所有图像帧中的任一图像帧,做如下预定处理:将当前图像帧在待处理视频中前预定个数的图像帧和在待处理视频中后预定个数的图像帧中每个图像帧的状态信息输入到视频超分辨模型的时序变换网络,得到前预定个数的图像帧和后预定个数的图像帧中每个图像帧变换到当前图像帧所处时刻的变换信息;将每个图像帧的变换信息和当前图像帧的状态信息输入到视频超分辨模型的超分辨网络,得到当前图像帧的第一超分辨信息和每个图像帧的第一超分辨信息;将当前图像帧的第一超分辨信息、每个图像帧的第一超分辨信息进行拼接,得到当前图像帧的增强超分辨信息;将增强超分辨信息输入到显示网络,得到当前图像帧的预定区域的清晰图像。
可选地,状态信息获取单元,还被配置为在将待处理视频中所有图像帧输入到视频超分辨模型的特征提取网络,得到所有图像帧中每个图像帧的状态信息之后,存储所有图像帧的状态信息。
可选地,超分辨处理单元,还被配置为所有图像帧中第一个进行预定处理的图像帧作为当前图像帧,得到每个图像帧的第一超分辨信息后,当前图像帧的下一个图像帧的前预定个数的图像帧的超分辨信息通过如下方式获得:获取当前图像帧的状态信息和下一个图像帧的状态信息的差异信息,并将差异信息输入到超分辨网络,得到差异信息的超分辨信息;基于前预定个数的图像帧的第一超分辨信息和差异信息的超分辨信息,得到前预定个数的图像帧变换到下一个图像帧所处时刻的第二超分辨信息;基于差异信息的超分辨信息与中间超分辨信息,得到当前图像帧变换到下一个图像帧所处时刻的第二超分辨信息,其中,中间超分辨信息是当前图像帧的第一超分辨信息和前预定个数的图像帧的第一超分辨信息拼接得到的;基于前预定个数的图像帧的第二超分辨信息和当前图像帧的第二超分辨信息,得到下一个图像帧的前预定个数的图像帧的超分辨信息。
可选地,超分辨处理单元,还被配置为所有图像帧中第一个进行预定处理的图像帧作为当前图像帧,得到每个图像帧的第一超分辨信息后,当前图像帧的上一个图像帧的后预定个数的图像帧的超分辨信息通过如下方式获得:获取当前图像帧的状态信息和上一个图像帧的状态信息的差异信息,并将差异信息输入到超分辨网络,得到差异信息的超分辨信息;基于后预定个数的图像帧的第一超分辨信息和差异信息的超分辨信息,得到后预定个数的图像帧变换到上一个图像帧所处时刻的第三超分辨信息;基于差异信息的超分辨信息与中间超分辨信息,得到当前图像帧变换到上一个图像帧所处时刻的第三超分辨信息,其中,中间超分辨信息是当前图像帧的第一超分辨信息和前预定个数的图像帧的第一超分辨信息拼接得到的;基于后预定个数的图像帧的第三超分辨信息和当前图像帧的第三超分辨信息,得到上一个图像帧的后预定个数的图像帧的超分辨信息。
可选地,前预定个数的图像帧包括以下之一:时间上连续的前预定个数的图像帧、时间上跳跃的前预定个数的图像帧;后预定个数的图像帧包括以下之一:时间上连续的后预定个数的图像帧、时间上跳跃的后预定个数的图像帧。
可选地,视频超分辨模型是根据如上的训练方法训练得到的。
根据本公开实施例的第五方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现根据本公开的视频超分辨模型的训练方法和/或视频超分辨方法。
根据本公开实施例的第六方面,提供了一种计算机可读存储介质,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行如上根据本公开的视频超分辨模型的训练方法和/或视频超分辨方法。
根据本公开实施例的第七方面,提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现根据本公开的视频超分辨模型的训练方法和/或视频超分辨方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
根据本公开的视频超分辨模型的训练方法、视频超分辨方法及装置,获取的当前图像帧的增强超分辨信息时,不仅从当前图像帧的前预定个数的图像帧中获取信息,还从当前图像帧的后预定个数的图像帧中获取信息,不再仅基于上一时刻获取的消息得到当前图像帧的增强超分辨信息,即,本公开可以从多个时刻的图像帧中获取信息来得到当前图像帧的增强超分辨信息,从而可以得到准确的超分辨信息,进而可以更好的显示视频中预定区域。因此,本公开解决了相关技术中无法得到准确的超分辨信息的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是示出根据本公开的示例性实施例的视频超分辨模型的训练方法的实施场景示意图;
图2是根据一示例性实施例示出的一种视频超分辨模型的训练方法的流程图;
图3是根据一示例性实施例示出的获取增强超分辨结果的示意图;
图4是根据一示例性实施例示出的一种视频超分辨方法的流程图;
图5是根据一示例性实施例示出的训练好的视频超分辨模型的性能示意图;
图6是根据一示例性实施例示出的训练好的视频超分辨模型的定量结果示意图;
图7是根据一示例性实施例示出的一种视频超分辨模型的训练装置的框图;
图8是根据一示例性实施例示出的一种视频超分辨装置的框图;
图9是根据本公开实施例的一种电子设备900的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
针对上述问题,本公开提供了一种视频超分辨模型的训练方法和视频超分辨方法,能够得到准确的超分辨信息,进而可以更好的显示视频中预定区域,下面以待处理视频中人脸区域为预定区域为例进行说明。
图1是示出根据本公开的示例性实施例的视频超分辨模型的训练方法的实施场景示意图,如图1所述,该实施场景包括服务器100、用户终端110和用户终端120,其中,用户终端不限于2个,包括并不限于手机、个人计算机等设备,用户终端可以安装获取视频的摄像头,服务器可以是一个服务器,也可以是若干个服务器组成服务器集群,还可以是云计算平台或虚拟化中心。
服务器100接收用户终端110、120发送的对视频超分辨模型进行训练的请求之后,统计从用户终端110、120历史上接收到的带有模糊区域的视频并对统计的视频中模糊区域分别进行标注并获取各模糊区域对应的清晰图像,将标注后的视频合并在一起作为训练样本集,其中,训练样本集包括多个训练视频和多个训练视频中每个训练视频的模糊区域(即预定区域)的清晰图像,服务器100在获取到训练样本集后,将训练视频中所有图像帧输入到特征提取网络,得到所有图像帧中每个图像帧的状态信息;针对所有图像帧中任一图像帧,做如下预定处理:将当前图像帧在训练视频中前预定个数的图像帧和在训练视频中后预定个数的图像帧中每个图像帧的状态信息输入到时序变换网络,得到前预定个数的图像帧和后预定个数的图像帧中每个图像帧变换到当前图像帧所处时刻的变换信息,再将每个图像帧的变换信息和当前图像帧的状态信息输入到超分辨网络,得到当前图像帧的第一超分辨信息和每个图像帧的第一超分辨信息,进而将当前图像帧的第一超分辨信息、每个图像帧的第一超分辨信息进行拼接,得到当前图像帧的增强超分辨信息,再将增强超分辨信息输入到显示网络,得到训练视频的模糊区域的预估图像;再然后,基于所有图像帧中每个图像帧对应的预估图像和对应的清晰图像,确定目标损失函数,以通过目标损失函数调整特征提取网络、时序变换网络、超分辨网络和显示网络的参数,对视频超分辨模型进行训练。
在得到训练好的视频超分辨模型后,获取人脸区域为预定区域的待处理视频,将该待处理视频输入到训练好的视频超分辨模型中,即可得到人脸区域的清晰图像。
下面,将参照图2至图8详细描述根据本公开的示例性实施例的视频超分辨模型的训练方法、视频超分辨方法及装置。
图2是根据一示例性实施例示出的一种视频超分辨模型的训练方法的流程图,如图2所示,视频超分辨模型包括特征提取网络、时序变换网络、超分辨网络和显示网络,该视频超分辨模型的训练方法包括以下步骤:
在步骤S201中,获取训练样本集,其中,训练样本集包括多个训练视频和多个训练视频中每个训练视频的预定区域对应的清晰图像,其中,预定区域是训练视频中清晰度低于第一预设阈值的区域,清晰图像是与预定区域的显示内容相同且清晰度高于第二预设阈值的图像。上述低清晰度可以根据实际需要设定,如无法人眼看清的区域即预定区域。
在步骤S202中,将训练视频中所有图像帧输入到特征提取网络,得到所有图像帧中每个图像帧的状态信息。
根据本公开的示例性实施例,在将训练视频中所有图像帧输入到特征提取网络,得到所述所有图像帧中每个图像帧的状态信息之后,还包括:存储所有图像帧的状态信息。通过本公开实施例,存储每个图像帧的状态信息,从而在后续可以直接时序变换以获取想要的信息。
在步骤S203中,针对所有图像帧任一图像帧,做如下预定处理:将当前图像帧在训练视频中前预定个数的图像帧和在训练视频中后预定个数的图像帧中每个图像帧的状态信息输入到时序变换网络,得到前预定个数的图像帧和后预定个数的图像帧中每个图像帧变换到当前图像帧所处时刻的变换信息;将每个图像帧的变换信息和当前图像帧的状态信息输入到超分辨网络,得到当前图像帧的第一超分辨信息和每个图像帧的第一超分辨信息;将当前图像帧的第一超分辨信息、每个图像帧的第一超分辨信息进行拼接,得到当前图像帧的增强超分辨信息;将增强超分辨信息输入到显示网络,得到当前图像帧的预定区域的预估图像。
根据本公开的示例性实施例,所有图像帧中第一个进行预定处理的图像帧作为当前图像帧,得到每个图像帧的第一超分辨信息后,当前图像帧的下一个图像帧的前预定个数的图像帧的超分辨信息通过如下方式获得:获取当前图像帧的状态信息和下一个图像帧的状态信息的差异信息,并将差异信息输入到超分辨网络,得到差异信息的超分辨信息;基于前预定个数的图像帧的第一超分辨信息和差异信息的超分辨信息,得到前预定个数的图像帧变换到下一个图像帧所处时刻的第二超分辨信息;基于差异信息的超分辨信息与中间超分辨信息,得到当前图像帧变换到下一个图像帧所处时刻的第二超分辨信息,其中,中间超分辨信息是当前图像帧的第一超分辨信息和前预定个数的图像帧的第一超分辨信息拼接得到的;基于前预定个数的图像帧的第二超分辨信息和当前图像帧的第二超分辨信息,得到下一个图像帧的前预定个数的图像帧的超分辨信息。通过本实施例,在有一个图像帧进行预定处理后,该处理后的图像帧的下一图像帧所需的过去的信息,可以在处理后图像帧获取到的相关信息的基础上获取,避免了同样的信息每个图像帧重复获取,减少计算工作量,也降低了所占用的资源。
根据本公开的示例性实施例,所有图像帧中第一个进行预定处理的图像帧作为当前图像帧,得到每个图像帧的第一超分辨信息后,当前图像帧的上一个图像帧的后预定个数的图像帧的超分辨信息通过如下方式获得:获取当前图像帧的状态信息和上一个图像帧的状态信息的差异信息,并将差异信息输入到超分辨网络,得到差异信息的超分辨信息;基于后预定个数的图像帧的第一超分辨信息和差异信息的超分辨信息,得到后预定个数的图像帧变换到上一个图像帧所处时刻的第三超分辨信息;基于差异信息的超分辨信息与中间超分辨信息,得到当前图像帧变换到上一个图像帧所处时刻的第三超分辨信息,其中,中间超分辨信息是当前图像帧的第一超分辨信息和前预定个数的图像帧的第一超分辨信息拼接得到的;基于后预定个数的图像帧的第三超分辨信息和当前图像帧的第三超分辨信息,得到上一个图像帧的后预定个数的图像帧的超分辨信息。通过本实施例,在有一个图像帧进行预定处理后,该处理后的图像帧的上一图像帧所需的未来的信息,可以在处理后图像帧获取到的相关信息的基础上获取,避免了同样的信息每个图像帧重复获取,减少计算工作量,也降低了所占用的资源。
根据本公开的示例性实施例,前预定个数的图像帧包括以下之一:时间上连续的前预定个数的图像帧、时间上跳跃的前预定个数的图像帧;后预定个数的图像帧包括以下之一:时间上连续的后预定个数的图像帧、时间上跳跃的后预定个数的图像帧。通过本实施例,可以根据需要选择连续的过去或未来的图像帧,也可以跳跃式的选择过去或者未来的图像帧。例如,当前图像帧为视频的第9帧,时间上连续的前预定个数的图像帧为第5、6、7、8帧,时间上跳跃的前预定个数的图像帧可以是第1、3、5、7帧,也可以是第1、2、5、7帧,对此,本公开并不进行限定。
在步骤S204中,基于所有图像帧中每个图像帧对应的预估图像和对应的清晰图像,确定目标损失函数。目标损失函数可以选择任意可应用的函数,对此本公开并不限定。对于确定目标损失函数的过程,可以是基于每个图像帧的预估图像和对应的清晰图像,得到每个图像帧对应的目标损失函数,也可以是基于每个图像帧的预估图像和对应的清晰图像,得到一个目标损失函数。对于后者具体地,可以为每个图像帧对应的目标损失函数设置权重后相加得到一个目标损失函数,或者,可以将同一预定区域的对应的预估图像设置权重后相加得到总的预估图像,再与对应的清晰图像确定同一预定区域对应的总的目标损失函数,以得到不同预定区域的总的目标损失函数。
在步骤S205中,通过目标损失函数调整特征提取网络、时序变换网络、超分辨网络和显示网络的参数,对视频超分辨模型进行训练。
为了方便理解上述实施例中视频超参数模型中获取增强超分辨信息的过程,下面结合图3进行详细说明,图3是根据一示例性实施例示出的获取增强超分辨结果的示意图,如图3所示,表示视频中第t帧图像帧和第t+1帧图像帧的差异信息的超分辨信息,表示视频中第t-1帧图像帧变换到第t帧图像帧所处时刻的超分辨信息,St表示视频中第t帧图像帧的超分辨信息,S′t表示第t帧图像帧的超分辨信息和过去n帧图像帧变换后的超分辨信息的拼接结果,也即,第t帧图像帧的中间增强超分辨信息,S″t表示第t帧图像帧的超分辨信息、过去n帧图像帧去n帧图像帧变换后的超分辨信息和未来n帧图像帧变换后的超分辨信息的的拼接结果,也即,第t帧图像帧的增强超分辨信息,表示视频中第t帧图像帧和第t-1帧图像帧的差异信息的超分辨信息,W是第t+1帧图像帧的过去n帧图像帧变换后的超分辨信息,N是第t-1帧图像帧的未来n帧图像帧变换后的超分辨信息。
图4是根据一示例性实施例示出的一种视频超分辨方法的流程图,如图4所示,视频超分辨模型包括特征提取网络、时序变换网络、超分辨网络和显示网络,该视频超分辨方法包括以下步骤:
在步骤S401中,获取待处理视频。
在步骤S402中,将待处理视频中所有图像帧输入到视频超分辨模型的特征提取网络,得到所有图像帧中每个图像帧的状态信息。上述视频超分辨模型是根据如上的训练方法训练得到的。
根据本公开的示例性实施例,在将待处理视频中所有图像帧输入到视频超分辨模型的特征提取网络,得到所有图像帧中每个图像帧的状态信息之后,还包括:存储所有图像帧的状态信息。通过本公开实施例,存储每个图像帧的状态信息,从而在后续可以直接时序变换以获取想要的信息。
在步骤S403中,针对所有图像帧中任一图像帧,做如下预定处理:将当前图像帧在待处理视频中前预定个数的图像帧和在待处理视频中后预定个数的图像帧中每个图像帧的状态信息输入到视频超分辨模型的时序变换网络,得到前预定个数的图像帧和后预定个数的图像帧中每个图像帧变换到当前图像帧所处时刻的变换信息;将每个图像帧的变换信息和当前图像帧的状态信息输入到视频超分辨模型的超分辨网络,得到当前图像帧的第一超分辨信息和每个图像帧的第一超分辨信息;将当前图像帧的第一超分辨信息、每个图像帧的第一超分辨信息进行拼接,得到当前图像帧的增强超分辨信息;将增强超分辨信息输入到显示网络,得到当前图像帧的预定区域的清晰图像。
根据本公开的示例性实施例,所有图像帧中第一个进行预定处理的图像帧作为当前图像帧,得到每个图像帧的第一超分辨信息后,当前图像帧的下一个图像帧的前预定个数的图像帧的超分辨信息通过如下方式获得:获取当前图像帧的状态信息和下一个图像帧的状态信息的差异信息,并将差异信息输入到超分辨网络,得到差异信息的超分辨信息;基于前预定个数的图像帧的第一超分辨信息和差异信息的超分辨信息,得到前预定个数的图像帧变换到下一个图像帧所处时刻的第二超分辨信息;基于差异信息的超分辨信息与中间超分辨信息,得到当前图像帧变换到下一个图像帧所处时刻的第二超分辨信息,其中,中间超分辨信息是当前图像帧的第一超分辨信息和前预定个数的图像帧的第一超分辨信息拼接得到的;基于前预定个数的图像帧的第二超分辨信息和当前图像帧的第二超分辨信息,得到下一个图像帧的前预定个数的图像帧的超分辨信息。通过本实施例,在有一个图像帧进行预定处理后,该处理后的图像帧的下一图像帧所需的过去的信息,可以在处理后图像帧获取到的相关信息的基础上获取,避免了同样的信息每个图像帧重复获取,减少计算工作量,也降低了所占用的资源。
根据本公开的示例性实施例,所有图像帧中第一个进行预定处理的图像帧作为当前图像帧,得到每个图像帧的第一超分辨信息后,当前图像帧的上一个图像帧的后预定个数的图像帧的超分辨信息通过如下方式获得:获取当前图像帧的状态信息和上一个图像帧的状态信息的差异信息,并将差异信息输入到超分辨网络,得到差异信息的超分辨信息;基于后预定个数的图像帧的第一超分辨信息和差异信息的超分辨信息,得到后预定个数的图像帧变换到上一个图像帧所处时刻的第三超分辨信息;基于差异信息的超分辨信息与中间超分辨信息,得到当前图像帧变换到上一个图像帧所处时刻的第三超分辨信息,其中,中间超分辨信息是当前图像帧的第一超分辨信息和前预定个数的图像帧的第一超分辨信息拼接得到的;基于后预定个数的图像帧的第三超分辨信息和当前图像帧的第三超分辨信息,得到上一个图像帧的后预定个数的图像帧的超分辨信息。通过本实施例,在有一个图像帧进行预定处理后,该处理后的图像帧的上一图像帧所需的未来的信息,可以在处理后图像帧获取到的相关信息的基础上获取,避免了同样的信息每个图像帧重复获取,减少计算工作量,也降低了所占用的资源。
根据本公开的示例性实施例,上述前预定个数的图像帧包括以下之一:时间上连续的前预定个数的图像帧、时间上跳跃的前预定个数的图像帧;后预定个数的图像帧包括以下之一:时间上连续的后预定个数的图像帧、时间上跳跃的后预定个数的图像帧。通过本实施例,可以根据需要选择连续的过去或未来的图像帧,也可以跳跃式的选择过去或者未来的图像帧。例如,当前图像帧为视频的第9帧,时间上连续的前预定个数的图像帧为第5、6、7、8帧,时间上跳跃的前预定个数的图像帧可以是第1、3、5、7帧,也可以是第1、2、5、7帧,对此,本公开并不进行限定。
下面对本公开的方法进行了验证,以放宽一维马尔可夫的限制后,预定个数取n为例进行说明,图5是根据一示例性实施例示出的训练好的视频超分辨模型的性能示意图,如图5所示,横坐标为时间,纵坐标为信噪比,可以看出,n=5时,收益是最为明显的,即本公开的视频超分辨模型训练效果最好。
下表是n=2时,在Vid4和UDM10数据集上,分别采用光流法(Optical Flow)和差分法(Temporal Residual)获取差异信息的比较结果,其中,/符号左边表示信噪比PSNR,右边表示SSIN。
图6是根据一示例性实施例示出的训练好的视频超分辨模型的定量结果示意图,如图6所示,本公开的方法为TRN-R,相比于其他7个视频超分辨方法,本公开超分辨后的图像具备丰富的细节和纹理。
综上,本公开提出了多记忆单元模式下的时序往返优化策略,将循环卷积网络的每个输出结果看作一个状态,而常规的循环卷积网络仅会依赖上个时刻的结果,因此是一个一维马尔可夫的过程。本公开放宽了一维马尔可夫的限制,用记忆单元存储了未来和过去的不同时刻下的状态,并通过时许变换的方法将这些状态转移到当前时刻,进行当前图像帧的增强。相比于单状态的时序往返优化策略,本公开了可以得到更准确的超分辨信息。
图7是根据一示例性实施例示出的一种视频超分辨模型的训练装置的框图。参照图7,视频超分辨模型包括特征提取网络、超分辨网络、时序变换网络和显示网络,该装置包括样本集获取单元70、状态信息获取单元72、显示单元74、目标损失函数确定单元76和训练单元78。
样本集获取单元70,被配置为获取训练样本集,其中,训练样本集包括多个训练视频和多个训练视频中每个训练视频的预定区域对应的清晰图像,其中,预定区域是训练视频中清晰度低于第一预设阈值的区域,清晰图像是与预定区域的显示内容相同且清晰度高于第二预设阈值的图像;状态信息获取单元72,被配置为将训练视频中所有图像帧输入到特征提取网络,得到所有图像帧中每个图像帧的状态信息;显示单元74,被配置为针对所有图像帧中的任一图像帧,做如下预定处理:将当前图像帧在训练视频中前预定个数的图像帧和在训练视频中后预定个数的图像帧中每个图像帧的状态信息输入到时序变换网络,得到前预定个数的图像帧和后预定个数的图像帧中每个图像帧变换到当前图像帧所处时刻的变换信息;将每个图像帧的变换信息和当前图像帧的状态信息输入到超分辨网络,得到当前图像帧的第一超分辨信息和每个图像帧的第一超分辨信息;将当前图像帧的第一超分辨信息、每个图像帧的第一超分辨信息进行拼接,得到当前图像帧的增强超分辨信息;将增强超分辨信息输入到显示网络,得到当前图像帧的预定区域的预估图像;目标损失函数确定单元76,被配置为基于所有图像帧中每个图像帧对应的预估图像和对应的清晰图像,确定目标损失函数;训练单元78,被配置为通过目标损失函数调整特征提取网络、超分辨网络、时序变换网络和显示网络的参数,对视频超分辨模型进行训练。
根据本公开的示例性实施例,状态信息获取单元72,还被配置为在将训练视频中所有图像帧输入到特征提取网络,得到所有图像帧中每个图像帧的状态信息之后,存储所有图像帧的状态信息。
根据本公开的示例性实施例,显示单元74,还被配置为所有图像帧中第一个进行预定处理的图像帧作为当前图像帧,得到每个图像帧的第一超分辨信息后,当前图像帧的下一个图像帧的前预定个数的图像帧的超分辨信息通过如下方式获得:获取当前图像帧的状态信息和下一个图像帧的状态信息的差异信息,并将差异信息输入到超分辨网络,得到差异信息的超分辨信息;基于前预定个数的图像帧的第一超分辨信息和差异信息的超分辨信息,得到前预定个数的图像帧变换到下一个图像帧所处时刻的第二超分辨信息;基于差异信息的超分辨信息与中间超分辨信息,得到当前图像帧变换到下一个图像帧所处时刻的第二超分辨信息,其中,中间超分辨信息是当前图像帧的第一超分辨信息和前预定个数的图像帧的第一超分辨信息拼接得到的;基于前预定个数的图像帧的第二超分辨信息和当前图像帧的第二超分辨信息,得到下一个图像帧的前预定个数的图像帧的超分辨信息。
根据本公开的示例性实施例,显示单元74,还被配置为所有图像帧中第一个进行预定处理的图像帧作为当前图像帧,得到每个图像帧的第一超分辨信息后,当前图像帧的上一个图像帧的后预定个数的图像帧的超分辨信息通过如下方式获得:获取当前图像帧的状态信息和上一个图像帧的状态信息的差异信息,并将差异信息输入到超分辨网络,得到差异信息的超分辨信息;基于后预定个数的图像帧的第一超分辨信息和差异信息的超分辨信息,得到后预定个数的图像帧变换到上一个图像帧所处时刻的第三超分辨信息;基于差异信息的超分辨信息与中间超分辨信息,得到当前图像帧变换到上一个图像帧所处时刻的第三超分辨信息,其中,中间超分辨信息是当前图像帧的第一超分辨信息和前预定个数的图像帧的第一超分辨信息拼接得到的;基于后预定个数的图像帧的第三超分辨信息和当前图像帧的第三超分辨信息,得到上一个图像帧的后预定个数的图像帧的超分辨信息。
根据本公开的示例性实施例,前预定个数的图像帧包括以下之一:时间上连续的前预定个数的图像帧、时间上跳跃的前预定个数的图像帧;后预定个数的图像帧包括以下之一:时间上连续的后预定个数的图像帧、时间上跳跃的后预定个数的图像帧。
图8是根据一示例性实施例示出的一种视频超分辨装置的框图。参照图8,该装置包括视频获取单元80、状态信息获取单元82和超分辨处理单元84。
视频获取单元80,被配置为获取待处理视频;状态信息获取单元82,被配置为将待处理视频中所有图像帧输入到视频超分辨模型的特征提取网络,得到所有图像帧的状态信息;超分辨处理单元84,被配置为针对所有图像帧中的任一图像帧,做如下预定处理:将当前图像帧在待处理视频中前预定个数的图像帧和在待处理视频中后预定个数的图像帧中每个图像帧的状态信息输入到视频超分辨模型的时序变换网络,得到前预定个数的图像帧和后预定个数的图像帧中每个图像帧变换到当前图像帧所处时刻的变换信息;将每个图像帧的变换信息和当前图像帧的状态信息输入到视频超分辨模型的超分辨网络,得到当前图像帧的第一超分辨信息和每个图像帧的第一超分辨信息;将当前图像帧的第一超分辨信息、每个图像帧的第一超分辨信息进行拼接,得到当前图像帧的增强超分辨信息;将增强超分辨信息输入到显示网络,得到当前图像帧的预定区域的清晰图像。
根据本公开的示例性实施例,状态信息获取单元82,还被配置为在将待处理视频中所有图像帧输入到视频超分辨模型的特征提取网络,得到所有图像帧中每个图像帧的状态信息之后,存储所有图像帧的状态信息。
根据本公开的示例性实施例,超分辨处理单元84,还被配置为所有图像帧中第一个进行预定处理的图像帧作为当前图像帧,得到每个图像帧的第一超分辨信息后,当前图像帧的下一个图像帧的前预定个数的图像帧的超分辨信息通过如下方式获得:获取当前图像帧的状态信息和下一个图像帧的状态信息的差异信息,并将差异信息输入到超分辨网络,得到差异信息的超分辨信息;基于前预定个数的图像帧的第一超分辨信息和差异信息的超分辨信息,得到前预定个数的图像帧变换到下一个图像帧所处时刻的第二超分辨信息;基于差异信息的超分辨信息与中间超分辨信息,得到当前图像帧变换到下一个图像帧所处时刻的第二超分辨信息,其中,中间超分辨信息是当前图像帧的第一超分辨信息和前预定个数的图像帧的第一超分辨信息拼接得到的;基于前预定个数的图像帧的第二超分辨信息和当前图像帧的第二超分辨信息,得到下一个图像帧的前预定个数的图像帧的超分辨信息。
根据本公开的示例性实施例,超分辨处理单元84,还被配置为所有图像帧中第一个进行预定处理的图像帧作为当前图像帧,得到每个图像帧的第一超分辨信息后,当前图像帧的上一个图像帧的后预定个数的图像帧的超分辨信息通过如下方式获得:获取当前图像帧的状态信息和上一个图像帧的状态信息的差异信息,并将差异信息输入到超分辨网络,得到差异信息的超分辨信息;基于后预定个数的图像帧的第一超分辨信息和差异信息的超分辨信息,得到后预定个数的图像帧变换到上一个图像帧所处时刻的第三超分辨信息;基于差异信息的超分辨信息与中间超分辨信息,得到当前图像帧变换到上一个图像帧所处时刻的第三超分辨信息,其中,中间超分辨信息是当前图像帧的第一超分辨信息和前预定个数的图像帧的第一超分辨信息拼接得到的;基于后预定个数的图像帧的第三超分辨信息和当前图像帧的第三超分辨信息,得到上一个图像帧的后预定个数的图像帧的超分辨信息。
根据本公开的示例性实施例,前预定个数的图像帧包括以下之一:时间上连续的前预定个数的图像帧、时间上跳跃的前预定个数的图像帧;后预定个数的图像帧包括以下之一:时间上连续的后预定个数的图像帧、时间上跳跃的后预定个数的图像帧。
根据本公开的示例性实施例,视频超分辨模型是根据如上的训练方法训练得到的。
根据本公开的实施例,可提供一种电子设备。图9是根据本公开实施例的一种电子设备900的框图,该电子设备包括至少一个存储器901和至少一个处理器902,所述至少一个存储器中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器执行时,执行根据本公开实施例的视频超分辨模型的训练方法及视频超分辨方法。
作为示例,电子设备900可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备1000并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备900还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
在电子设备900中,处理器902可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器902还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
处理器902可运行存储在存储器中的指令或代码,其中,存储器901还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
存储器901可与处理器902集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器902可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器901和处理器902可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器902能够读取存储在存储器901中的文件。
此外,电子设备900还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。
根据本公开的实施例,还可提供一种计算机可读存储介质,其中,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行本公开实施例的视频超分辨模型的训练方法及视频超分辨方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
根据本公开实施例,提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现本公开实施例的视频超分辨模型的训练方法及视频超分辨方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种视频超分辨模型的训练方法,其特征在于,所述视频超分辨模型包括特征提取网络、时序变换网络、超分辨网络和显示网络,所述训练方法包括:
获取训练样本集,其中,所述训练样本集包括多个训练视频和所述多个训练视频中每个训练视频的预定区域对应的清晰图像,其中,所述预定区域是训练视频中清晰度低于第一预设阈值的区域,所述清晰图像是与所述预定区域的显示内容相同且清晰度高于第二预设阈值的图像;
将训练视频中所有图像帧输入到特征提取网络,得到所述所有图像帧中每个图像帧的状态信息;
针对所述所有图像帧中任一图像帧,做如下预定处理:将当前图像帧在所述训练视频中前预定个数的图像帧和在所述训练视频中后预定个数的图像帧中每个图像帧的状态信息输入到时序变换网络,得到所述前预定个数的图像帧和所述后预定个数的图像帧中每个图像帧变换到所述当前图像帧所处时刻的变换信息;将所述每个图像帧的变换信息和所述当前图像帧的状态信息输入到超分辨网络,得到所述当前图像帧的第一超分辨信息和所述每个图像帧的第一超分辨信息;将所述当前图像帧的第一超分辨信息、所述每个图像帧的第一超分辨信息进行拼接,得到所述当前图像帧的增强超分辨信息;将所述增强超分辨信息输入到显示网络,得到所述当前图像帧的预定区域的预估图像;
基于所述所有图像帧中每个图像帧对应的预估图像和对应的清晰图像,确定目标损失函数;
通过所述目标损失函数调整所述特征提取网络、所述时序变换网络、所述超分辨网络和所述显示网络的参数,对所述视频超分辨模型进行训练。
2.如权利要求1所述的训练方法,其特征在于,在将训练视频中所有图像帧输入到特征提取网络,得到所述所有图像帧中每个图像帧的状态信息之后,还包括:
存储所述所有图像帧的状态信息。
3.如权利要求1所述的训练方法,其特征在于,所有图像帧中第一个进行所述预定处理的图像帧作为当前图像帧,得到所述每个图像帧的第一超分辨信息后,所述当前图像帧的下一个图像帧的前预定个数的图像帧的超分辨信息通过如下方式获得:
获取所述当前图像帧的状态信息和所述下一个图像帧的状态信息的差异信息,并将所述差异信息输入到所述超分辨网络,得到所述差异信息的超分辨信息;
基于所述前预定个数的图像帧的第一超分辨信息和所述差异信息的超分辨信息,得到所述前预定个数的图像帧变换到所述下一个图像帧所处时刻的第二超分辨信息;
基于所述差异信息的超分辨信息与中间超分辨信息,得到所述当前图像帧变换到所述下一个图像帧所处时刻的第二超分辨信息,其中,所述中间超分辨信息是所述当前图像帧的第一超分辨信息和所述前预定个数的图像帧的第一超分辨信息拼接得到的;
基于所述前预定个数的图像帧的第二超分辨信息和所述当前图像帧的第二超分辨信息,得到所述下一个图像帧的前预定个数的图像帧的超分辨信息。
4.如权利要求1所述的训练方法,其特征在于,所有图像帧中第一个进行所述预定处理的图像帧作为当前图像帧,得到所述每个图像帧的第一超分辨信息后,所述当前图像帧的上一个图像帧的后预定个数的图像帧的超分辨信息通过如下方式获得:
获取所述当前图像帧的状态信息和所述上一个图像帧的状态信息的差异信息,并将所述差异信息输入到所述超分辨网络,得到所述差异信息的超分辨信息;
基于所述后预定个数的图像帧的第一超分辨信息和所述差异信息的超分辨信息,得到所述后预定个数的图像帧变换到所述上一个图像帧所处时刻的第三超分辨信息;
基于所述差异信息的超分辨信息与中间超分辨信息,得到所述当前图像帧变换到所述上一个图像帧所处时刻的第三超分辨信息,其中,所述中间超分辨信息是所述当前图像帧的第一超分辨信息和所述前预定个数的图像帧的第一超分辨信息拼接得到的;
基于所述后预定个数的图像帧的第三超分辨信息和所述当前图像帧的第三超分辨信息,得到所述上一个图像帧的后预定个数的图像帧的超分辨信息。
5.一种视频超分辨方法,其特征在于,包括:
获取待处理视频;
将待处理视频中所有图像帧输入到视频超分辨模型的特征提取网络,得到所述所有图像帧中每个图像帧的状态信息;
针对所述所有图像帧中任一图像帧,做如下预定处理:
将当前图像帧在所述待处理视频中前预定个数的图像帧和在所述待处理视频中后预定个数的图像帧中每个图像帧的状态信息输入到视频超分辨模型的时序变换网络,得到所述前预定个数的图像帧和所述后预定个数的图像帧中每个图像帧变换到所述当前图像帧所处时刻的变换信息;
将所述每个图像帧的变换信息和所述当前图像帧的状态信息输入到视频超分辨模型的超分辨网络,得到所述当前图像帧的第一超分辨信息和所述每个图像帧的第一超分辨信息;
将所述当前图像帧的第一超分辨信息、所述每个图像帧的第一超分辨信息进行拼接,得到所述当前图像帧的增强超分辨信息;
将所述增强超分辨信息输入到显示网络,得到所述当前图像帧的预定区域的清晰图像。
6.一种视频超分辨模型的训练装置,其特征在于,所述视频超分辨模型包括特征提取网络、超分辨网络、时序变换网络和显示网络,所述训练装置包括:
样本集获取单元,被配置为获取训练样本集,其中,所述训练样本集包括多个训练视频和所述多个训练视频中每个训练视频的预定区域对应的清晰图像,其中,所述预定区域是训练视频中清晰度低于第一预设阈值的区域,所述清晰图像是与所述预定区域的显示内容相同且清晰度高于第二预设阈值的图像;
状态信息获取单元,被配置为将训练视频中所有图像帧输入到特征提取网络,得到所述所有图像帧中每个图像帧的状态信息;
显示单元,被配置为针对所述所有图像帧中的任一图像帧,做如下预定处理:将当前图像帧在所述训练视频中前预定个数的图像帧和在所述训练视频中后预定个数的图像帧中每个图像帧的状态信息输入到时序变换网络,得到所述前预定个数的图像帧和所述后预定个数的图像帧中每个图像帧变换到所述当前图像帧所处时刻的变换信息;将所述每个图像帧的变换信息和所述当前图像帧的状态信息输入到超分辨网络,得到所述当前图像帧的第一超分辨信息和所述每个图像帧的第一超分辨信息;将所述当前图像帧的第一超分辨信息、所述每个图像帧的第一超分辨信息进行拼接,得到所述当前图像帧的增强超分辨信息;将所述增强超分辨信息输入到显示网络,得到所述当前图像帧的预定区域的预估图像;
目标损失函数确定单元,被配置为基于所述所有图像帧中每个图像帧对应的预估图像和对应的清晰图像,确定目标损失函数;
训练单元,被配置为通过所述目标损失函数调整所述特征提取网络、所述超分辨网络、所述时序变换网络和所述显示网络的参数,对所述视频超分辨模型进行训练。
7.一种视频超分辨装置,其特征在于,包括:
视频获取单元,被配置为获取待处理视频;
状态信息获取单元,被配置为将待处理视频中所有图像帧输入到视频超分辨模型的特征提取网络,得到所述所有图像帧的状态信息;
超分辨处理单元,被配置为针对所述所有图像帧中的任一图像帧,做如下预定处理:
将当前图像帧在所述待处理视频中前预定个数的图像帧和在所述待处理视频中后预定个数的图像帧中每个图像帧的状态信息输入到视频超分辨模型的时序变换网络,得到所述前预定个数的图像帧和所述后预定个数的图像帧中每个图像帧变换到所述当前图像帧所处时刻的变换信息;
将所述每个图像帧的变换信息和所述当前图像帧的状态信息输入到视频超分辨模型的超分辨网络,得到所述当前图像帧的第一超分辨信息和所述每个图像帧的第一超分辨信息;
将所述当前图像帧的第一超分辨信息、所述每个图像帧的第一超分辨信息进行拼接,得到所述当前图像帧的增强超分辨信息;
将所述增强超分辨信息输入到显示网络,得到所述当前图像帧的预定区域的清晰图像。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至4中任一项所述的视频超分辨模型的训练方法和/或权利要求5所述的视频超分辨方法。
9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1至4中任一项所述的视频超分辨模型的训练方法和/或权利要求5所述的视频超分辨方法。
10.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现如权利要求1至4中任一项所述的视频超分辨模型的训练方法和/或权利要求5所述的视频超分辨方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110933990.4A CN113610713B (zh) | 2021-08-13 | 2021-08-13 | 视频超分辨模型的训练方法、视频超分辨方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110933990.4A CN113610713B (zh) | 2021-08-13 | 2021-08-13 | 视频超分辨模型的训练方法、视频超分辨方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113610713A true CN113610713A (zh) | 2021-11-05 |
CN113610713B CN113610713B (zh) | 2023-11-28 |
Family
ID=78308587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110933990.4A Active CN113610713B (zh) | 2021-08-13 | 2021-08-13 | 视频超分辨模型的训练方法、视频超分辨方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113610713B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103226822A (zh) * | 2013-05-15 | 2013-07-31 | 清华大学 | 医疗影像拼接方法 |
CN109191554A (zh) * | 2018-09-04 | 2019-01-11 | 清华-伯克利深圳学院筹备办公室 | 一种超分辨图像重建方法、装置、终端和存储介质 |
CN110366034A (zh) * | 2019-07-18 | 2019-10-22 | 浙江宇视科技有限公司 | 一种超分辨率图像处理方法及装置 |
CN110473147A (zh) * | 2018-05-09 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 一种视频去模糊方法和装置 |
CN110572710A (zh) * | 2019-09-25 | 2019-12-13 | 北京达佳互联信息技术有限公司 | 视频生成方法、装置、设备及存储介质 |
CN110599421A (zh) * | 2019-09-12 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 模型训练方法、视频模糊帧转换方法、设备及存储介质 |
CN110852944A (zh) * | 2019-10-12 | 2020-02-28 | 天津大学 | 基于深度学习的多帧自适应融合的视频超分辨方法 |
CN111260560A (zh) * | 2020-02-18 | 2020-06-09 | 中山大学 | 一种融合注意力机制的多帧视频超分辨率方法 |
CN111314733A (zh) * | 2020-01-20 | 2020-06-19 | 北京百度网讯科技有限公司 | 用于评估视频清晰度的方法和装置 |
CN111553840A (zh) * | 2020-04-10 | 2020-08-18 | 北京百度网讯科技有限公司 | 图像超分辨的模型训练和处理方法、装置、设备和介质 |
CN111932459A (zh) * | 2020-08-10 | 2020-11-13 | Oppo广东移动通信有限公司 | 视频图像的处理方法及装置、电子设备、存储介质 |
CN112365403A (zh) * | 2020-11-20 | 2021-02-12 | 山东大学 | 一种基于深度学习和相邻帧的视频超分辨率恢复方法 |
CN112927144A (zh) * | 2019-12-05 | 2021-06-08 | 北京迈格威科技有限公司 | 图像增强方法、图像增强装置、介质和电子设备 |
CN112991183A (zh) * | 2021-04-09 | 2021-06-18 | 华南理工大学 | 一种基于多帧注意力机制渐进式融合的视频超分辨率方法 |
-
2021
- 2021-08-13 CN CN202110933990.4A patent/CN113610713B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103226822A (zh) * | 2013-05-15 | 2013-07-31 | 清华大学 | 医疗影像拼接方法 |
CN110473147A (zh) * | 2018-05-09 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 一种视频去模糊方法和装置 |
CN109191554A (zh) * | 2018-09-04 | 2019-01-11 | 清华-伯克利深圳学院筹备办公室 | 一种超分辨图像重建方法、装置、终端和存储介质 |
CN110366034A (zh) * | 2019-07-18 | 2019-10-22 | 浙江宇视科技有限公司 | 一种超分辨率图像处理方法及装置 |
CN110599421A (zh) * | 2019-09-12 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 模型训练方法、视频模糊帧转换方法、设备及存储介质 |
CN110572710A (zh) * | 2019-09-25 | 2019-12-13 | 北京达佳互联信息技术有限公司 | 视频生成方法、装置、设备及存储介质 |
CN110852944A (zh) * | 2019-10-12 | 2020-02-28 | 天津大学 | 基于深度学习的多帧自适应融合的视频超分辨方法 |
CN112927144A (zh) * | 2019-12-05 | 2021-06-08 | 北京迈格威科技有限公司 | 图像增强方法、图像增强装置、介质和电子设备 |
CN111314733A (zh) * | 2020-01-20 | 2020-06-19 | 北京百度网讯科技有限公司 | 用于评估视频清晰度的方法和装置 |
CN111260560A (zh) * | 2020-02-18 | 2020-06-09 | 中山大学 | 一种融合注意力机制的多帧视频超分辨率方法 |
CN111553840A (zh) * | 2020-04-10 | 2020-08-18 | 北京百度网讯科技有限公司 | 图像超分辨的模型训练和处理方法、装置、设备和介质 |
CN111932459A (zh) * | 2020-08-10 | 2020-11-13 | Oppo广东移动通信有限公司 | 视频图像的处理方法及装置、电子设备、存储介质 |
CN112365403A (zh) * | 2020-11-20 | 2021-02-12 | 山东大学 | 一种基于深度学习和相邻帧的视频超分辨率恢复方法 |
CN112991183A (zh) * | 2021-04-09 | 2021-06-18 | 华南理工大学 | 一种基于多帧注意力机制渐进式融合的视频超分辨率方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113610713B (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107871166B (zh) | 针对机器学习的特征处理方法及特征处理系统 | |
WO2019047655A1 (zh) | 用于确定无人车的驾驶行为的方法和装置 | |
CN113221983B (zh) | 迁移学习模型的训练方法及装置、图像处理方法及装置 | |
CN112380392A (zh) | 用于分类视频的方法、装置、电子设备及可读存储介质 | |
CN114565768A (zh) | 图像分割方法及装置 | |
CN114268792A (zh) | 视频转码方案的确定方法及装置和视频转码方法及装置 | |
CN112910890B (zh) | 基于时间卷积网络的匿名网络流量指纹识别方法及设备 | |
CN113537151A (zh) | 图像处理模型的训练方法及装置、图像处理方法及装置 | |
CN113657411A (zh) | 神经网络模型的训练方法、图像特征提取方法及相关装置 | |
CN113610713B (zh) | 视频超分辨模型的训练方法、视频超分辨方法及装置 | |
CN113194270B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN113468365B (zh) | 图像类别识别模型的训练方法、图像检索方法及装置 | |
CN115080856A (zh) | 推荐方法及装置、推荐模型的训练方法及装置 | |
CN114140488A (zh) | 视频目标分割方法及装置、视频目标分割模型的训练方法 | |
CN114743150A (zh) | 目标跟踪方法、装置、电子设备及存储介质 | |
CN113470124A (zh) | 特效模型的训练方法及装置、特效生成方法及装置 | |
CN114118411A (zh) | 图像识别网络的训练方法、图像识别方法及装置 | |
CN113223017A (zh) | 目标分割模型的训练方法、目标分割方法及设备 | |
CN113066024A (zh) | 图像模糊检测模型的训练方法、图像模糊检测方法及装置 | |
CN113411521B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN114143612B (zh) | 视频展示方法、装置、电子设备、存储介质及程序产品 | |
CN116912631B (zh) | 目标识别方法、装置、电子设备及存储介质 | |
CN114565879A (zh) | 特征融合方法及装置、视频抖动消除方法及装置 | |
CN114332478A (zh) | 图像信息提取方法、模型训练方法、装置、设备及介质 | |
CN114359809A (zh) | 分类及分类模型的训练方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |