CN115118974A - 视频生成方法、装置、系统、电子设备以及可读存储介质 - Google Patents
视频生成方法、装置、系统、电子设备以及可读存储介质 Download PDFInfo
- Publication number
- CN115118974A CN115118974A CN202210712026.3A CN202210712026A CN115118974A CN 115118974 A CN115118974 A CN 115118974A CN 202210712026 A CN202210712026 A CN 202210712026A CN 115118974 A CN115118974 A CN 115118974A
- Authority
- CN
- China
- Prior art keywords
- image frame
- short
- frame
- exposure image
- reconstructed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/132—Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/265—Mixing
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Studio Devices (AREA)
Abstract
本公开提供了视频生成方法、装置、系统、电子设备以及可读存储介质。该方法包括:获取由图像捕获设备依次捕获的第一短曝光图像帧、长曝光图像帧以及第二短曝光图像帧,其中第一短曝光图像帧和第二短曝光图像帧是以第一编码曝光方式获得的短曝光图像帧,以及长曝光图像帧是由以与第一编码曝光方式不同的第二编码曝光方式连续曝光获得的多个图像帧叠加获得的单帧编码长曝光图像帧;对长曝光图像帧进行重建以获得多个预重建帧;针对多个预重建帧中的每一个预重建帧,将第一短曝光图像帧、第二短曝光图像帧和每一个预重建帧进行融合以生成重建帧;以及基于与多个预重建帧对应的多个重建帧生成重建视频。
Description
技术领域
本公开涉及图像处理领域,更具体地,涉及一种视频生成方法、装置、系统、电子设备以及可读存储介质。
背景技术
视频压缩感知技术可以实现从单帧编码图像中生成视频。这种技术可以使得用户在使用低速相机的情况下实现高速视频拍摄的效果。
然而,通过单帧编码图像生成的视频质量通常不能令用户满意,例如,所生成的视频中的图像通常较为模糊,无法清晰地显示细节。这是由于单帧编码图像生成视频的过程需要解决欠定逆问题。在欠定逆问题中,已知条件的数量通常远小于未知量的数量,因而无法有效地求解未知量。为了解决该问题,通常采用的方法包括加入人为规定的正则项,例如全变分,或者通过神经网络引入数据集中的统计先验信息,以对结果施加约束,从而提高所生成的视频的质量。
然而,由于上述方法均没有实际改变问题的欠定程度,因此受到该问题的限制,基于单帧编码图像生成的视频中的图像仍然不够清晰,使得用户难以获得良好的视觉体验。
因此,需要一种新的视频生成方法来解决上述问题。
发明内容
针对上述问题,本公开提供了一种视频生成方法、装置、系统、电子设备以及可读存储介质,该方法可以提高基于单帧编码图像生成的视频中图像的清晰度,进而改善视频的质量,使得用户获得良好的视觉体验。
根据本公开的一方面提供了一种视频生成方法,包括:获取由图像捕获设备依次捕获的第一短曝光图像帧、长曝光图像帧以及第二短曝光图像帧,其中所述第一短曝光图像帧和所述第二短曝光图像帧是以第一编码曝光方式获得的短曝光图像帧,以及所述长曝光图像帧是由以与所述第一编码曝光方式不同的第二编码曝光方式连续曝光获得的多个图像帧叠加获得的单帧编码长曝光图像帧;对所述长曝光图像帧进行重建以获得多个预重建帧;针对所述多个预重建帧中的每一个预重建帧,将所述第一短曝光图像帧、所述第二短曝光图像帧和所述每一个预重建帧进行融合以生成重建帧;以及基于与所述多个预重建帧对应的多个重建帧生成重建视频。
根据本公开的一些实施例,其中,所述第一编码曝光方式是以空间均匀的调制图案对捕获的场景信息进行编码,以及所述第二编码曝光方式是以N个互不相同的空间不均匀的调制图案对在连续N个时刻处捕获的场景信息进行编码以获得N个图像帧,并将所N个图像帧叠加以生成所述长曝光图像帧,其中N为大于等于2的整数。
根据本公开的一些实施例,其中,针对所述多个预重建帧中的每一个预重建帧,将所述第一短曝光图像帧、所述第二短曝光图像帧和所述每一个预重建帧进行融合以生成重建帧包括:针对所述多个预重建帧中的每一个预重建帧,确定所述每一个预重建帧与所述第一短曝光图像帧之间的第一插值图像帧以及所述每一个预重建帧与所述第二短曝光图像帧之间的第二插值图像帧;将所述第一插值图像帧、所述第二插值图像帧和所述每一个预重建帧进行融合以生成重建帧。
根据本公开的一些实施例,其中,针对所述多个预重建帧中的每一个预重建帧,确定所述每一个预重建帧与所述第一短曝光图像帧之间的第一插值图像帧以及所述每一个预重建帧与所述第二短曝光图像帧之间的第二插值图像帧包括:针对所述多个预重建帧中的每一个预重建帧,确定所述每一个预重建帧中的对象与所述第一短曝光图像帧中的相应对象的第一相对位置关系信息集合以及所述每一个预重建帧中的对象与所述第二短曝光图像帧中的相应对象的第二相对位置关系信息集合;基于所述第一相对位置关系信息集合,对所述第一短曝光图像帧进行空间位置的映射插值,以将所述每一预重建帧中的对象和所述第一短曝光图像帧中的相应对象的空间位置对齐,以获得所述第一插值图像帧;基于所述第二相对位置关系信息集合,对所述第二短曝光图像帧进行空间位置的映射插值,以将所述每一预重建帧中的对象和所述第二短曝光图像帧中的相应对象的空间位置对齐,以获得所述第二插值图像帧。
根据本公开的一些实施例,其中,所述第一相对位置关系信息集合和/或所述第二相对位置关系信息集合包括描述对象的运动方向与偏移量的光流信息。
根据本公开的一些实施例,所述方法还包括:将所述第一短曝光图像帧、所述第一相对位置关系信息集合和所述第一插值图像帧以及所述第二短曝光图像帧、所述第二相对位置关系信息集合和所述第二插值图像帧输入预先训练好的第一神经网络模型进行融合,以获得细化后的第一相对位置关系信息集合和第一信息权重集合以及细化后的第二相对位置关系信息集合和第二信息权重集合,其中,所述第一信息权重集合指示所述第一短曝光图像帧中的对象的信息在所述每一个预重建帧中的权重,所述第二信息权重集合指示所述第二短曝光图像帧中的对象的信息在所述每一个预重建帧中的权重;基于所述细化后的第一相对位置关系信息集合,对所述第一短曝光图像帧进行空间位置的映射插值,以将所述每一个预重建中的对象帧和所述第一短曝光图像帧中的相应对象的空间位置对齐,并且将插值后的结果乘以所述第一信息权重集合中的对应第一信息权重以获得第一精细插值图像帧;基于所述细化后的第二相对位置关系信息集合,对所述第二短曝光图像帧进行空间位置的映射插值,以将所述每一个预重建帧中的对象和所述第二短曝光图像帧中的相应对象的空间位置对齐,并且将插值后的结果乘以所述第二信息权重集合中的对应第二信息权重以获得第二精细插值图像帧。
根据本公开的一些实施例,其中,将所述第一插值图像帧、所述第二插值图像帧和所述每一个预重建帧进行融合以生成重建帧包括:将所述第一精细插值图像帧和所述第二精细插值图像帧以及所述每一个预重建帧进行融合以获得重建帧。
根据本公开的一些实施例,其中,针对所述多个预重建帧中的每一个预重建帧,确定所述每一个预重建帧与所述第一短曝光图像帧之间的第一插值图像帧以及所述每一个预重建帧与所述第二短曝光图像帧之间的第二插值图像帧包括:针对所述多个预重建帧中的每一个预重建帧,将所述每一个预重建帧与所述第一短曝光图像帧以及所述每一个预重建帧与所述第二短曝光图像帧分别输入第二神经网络;通过所述第二神经网络将所述每一预重建帧中的对象和所述第一短曝光图像帧中的相应对象的空间位置对齐,以获得所述第一插值图像帧;通过所述第二神经网络将所述每一预重建帧中的对象和所述第二短曝光图像帧中的相应对象的空间位置对齐,以获得所述第二插值图像帧;其中,所述第二神经网络是预先训练好的并且所述第二神经网络采用形变卷积。
根据本公开的一些实施例,其中,所述对象包括图像帧的像素、编码单元或可识别的特征中的一者。
根据本公开的一些实施例,其中,将所述第一插值图像帧、所述第二插值图像帧和所述每一个预重建帧进行融合以生成重建帧包括:将所述第一插值图像帧、所述第二插值图像帧和所述每一个预重建帧输入预先训练好的第三神经网络进行融合以生成重建帧,其中所述第三神经网络基于具有UNet结构的神经网络结构。
根据本公开的一些实施例,其中,所述图像捕获设备捕获图像帧的帧速率低于所述重建视频的帧速率。
根据本公开的一些实施例,其中,所述图像捕获设备包括用于使用不同的编码曝光方式对捕获的场景进行编码的光学编码器件,所述光学编码器件包括数字微镜装置DMD或硅上液晶调制器LCoS。
根据本公开的一些实施例,其中,所述第一短曝光图像帧、所述长曝光图像帧以及所述第二短曝光图像帧是由所述图像捕获设备连续捕获的。
根据本公开的一些实施例,所述方法还包括:获取由所述图像捕获设备在所述第二短曝光图像帧之后依次捕获的第二长曝光图像帧和第三短曝光图像帧,其中所述第三短曝光图像帧是以所述第一编码曝光方式获得的短曝光图像帧,以及所述第二长曝光图像帧是由以所述第二编码曝光方式连续曝光获得的多个图像帧叠加获得的单帧编码长曝光图像帧;对所述第二长曝光图像帧进行重建以获得多个第二预重建帧;针对所述多个第二预重建帧中的每一个第二预重建帧,将所述第二短曝光图像帧、所述第三短曝光图像帧和所述每一个第二预重建帧进行融合以生成第二重建帧;基于与所述多个第二预重建帧对应的多个第二重建帧生成第二重建视频;以及将所述重建视频与所述第二重建视频组合以生成第三重建视频。
根据本公开的一些实施例,其中,所述第一短曝光图像帧和所述第二短曝光图像帧相较于所述长曝光图像帧具有更高质量的空间信息;以及所述长曝光图像帧相较于所述第一短曝光图像帧和所述第二短曝光图像帧具有更多的时间信息。
根据本公开的另一方面,还提供了一种视频生成装置,包括:图像帧获取模块,被配置为获取由图像捕获设备依次捕获的第一短曝光图像帧、长曝光图像帧以及第二短曝光图像帧,其中所述第一短曝光图像帧和所述第二短曝光图像帧是以第一编码曝光方式获得的短曝光图像帧,以及所述长曝光图像帧是由以与所述第一编码曝光方式不同的第二编码曝光方式连续曝光获得的多个图像帧叠加获得的单帧编码长曝光图像帧;预重建模块,被配置为对所述长曝光图像帧进行重建以获得多个预重建帧;融合模块,被配置为针对所述多个预重建帧中的每一个预重建帧,将所述第一短曝光图像帧、所述第二短曝光图像帧和所述每一个预重建帧进行融合以生成重建帧;重建模块,被配置为基于与所述多个预重建帧对应的多个重建帧生成重建视频。
根据本公开的一些实施例,其中,所述第一编码曝光方式是以空间均匀的调制图案对捕获的场景信息进行编码,以及所述第二编码曝光方式是以N个互不相同的空间不均匀的调制图案对在连续N个时刻处捕获的场景信息进行编码以获得N个图像帧,并将所N个图像帧叠加以生成所述长曝光图像帧,其中N为大于等于2的整数。
根据本公开的一些实施例,其中,所述融合模块包括插值单元和融合重建单元,其中所述插值单元被配置为针对所述多个预重建帧中的每一个预重建帧,确定所述每一个预重建帧与所述第一短曝光图像帧之间的第一插值图像帧以及所述每一个预重建帧与所述第二短曝光图像帧之间的第二插值图像帧;所述融合重建单元被配置为将所述第一插值图像帧、所述第二插值图像帧和所述每一个预重建帧进行融合以生成重建帧。
根据本公开的一些实施例,其中,所述插值单元被配置为:针对所述多个预重建帧中的每一个预重建帧,确定所述每一个预重建帧中的对象与所述第一短曝光图像帧中的相应对象的第一相对位置关系信息集合以及所述每一个预重建帧中的对象与所述第二短曝光图像帧中的相应对象的第二相对位置关系信息集合;基于所述第一相对位置关系信息集合,对所述第一短曝光图像帧进行空间位置的映射插值,以将所述每一预重建帧中的对象和所述第一短曝光图像帧中的相应对象的空间位置对齐,以获得所述第一插值图像帧;基于所述第二相对位置关系信息集合,对所述第二短曝光图像帧进行空间位置的映射插值,以将所述每一预重建帧中的对象和所述第二短曝光图像帧中的相应对象的空间位置对齐,以获得所述第二插值图像帧。
根据本公开的一些实施例,其中,所述第一相对位置关系信息集合和/或所述第二相对位置关系信息集合包括描述对象的运动方向与偏移量的光流信息。
根据本公开的一些实施例,其中,所述融合模块还包括细化单元,所述细化单元被配置为:将所述第一短曝光图像帧、所述第一相对位置关系信息集合和所述第一插值图像帧以及所述第二短曝光图像帧、所述第二相对位置关系信息集合和所述第二插值图像帧输入预先训练好的第一神经网络模型进行融合,以获得细化后的第一相对位置关系信息集合和第一信息权重集合以及细化后的第二相对位置关系信息集合和第二信息权重集合,其中,所述第一信息权重集合指示所述第一短曝光图像帧中的对象的信息在所述每一个预重建帧中的权重,所述第二信息权重集合指示所述第二短曝光图像帧中的对象的信息在所述每一个预重建帧中的权重;基于所述细化后的第一相对位置关系信息集合,对所述第一短曝光图像帧进行空间位置的映射插值,以将所述每一个预重建帧中的对象和所述第一短曝光图像帧中的相应对象的空间位置对齐,并且将插值后的结果乘以所述第一信息权重集合中的对应第一信息权重以获得第一精细插值图像帧;基于所述细化后的第二相对位置关系信息集合,对所述第二短曝光图像帧进行空间位置的映射插值,以将所述每一个预重建帧中的对象和所述第二短曝光图像帧中的相应对象的空间位置对齐,并且将插值后的结果乘以所述第二信息权重集合中的对应第二信息权重以获得第二精细插值图像帧。
根据本公开的一些实施例,其中,所述融合重建单元被配置为:将所述第一精细插值图像帧和所述第二精细插值图像帧以及所述每一个预重建帧进行融合以获得重建帧。
根据本公开的一些实施例,其中,所述插值单元被配置为:针对所述多个预重建帧中的每一个预重建帧,将所述每一个预重建帧与所述第一短曝光图像帧以及所述每一个预重建帧与所述第二短曝光图像帧分别输入第二神经网络;通过所述第二神经网络将所述每一预重建帧中的对象和所述第一短曝光图像帧中的相应对象的空间位置对齐,以获得所述第一插值图像帧;通过所述第二神经网络将所述每一预重建帧中的对象和所述第二短曝光图像帧中的相应对象的空间位置对齐,以获得所述第二插值图像帧;其中,所述第二神经网络是预先训练好的并且所述第二神经网络采用形变卷积。
根据本公开的一些实施例,其中,所述对象包括图像帧的像素、编码单元或可识别的特征中的一者。
根据本公开的一些实施例,其中,所述融合重建单元被配置为:将所述第一插值图像帧、所述第二插值图像帧和所述每一个预重建帧输入预先训练好的第三神经网络进行融合以生成重建帧,其中所述第三神经网络基于具有UNet结构的神经网络结构。
根据本公开的一些实施例,其中,所述图像捕获设备捕获图像帧的帧速率低于所述重建视频的帧速率。
根据本公开的一些实施例,其中,所述图像捕获设备包括用于使用不同的编码曝光方式对捕获的场景进行编码的光学编码器件,所述光学编码器件包括数字微镜装置DMD或硅上液晶调制器LCoS。
根据本公开的一些实施例,其中,所述第一短曝光图像帧、所述长曝光图像帧以及所述第二短曝光图像帧是由所述图像捕获设备连续捕获的。
根据本公开的一些实施例,其中,所述图像帧获取模块还被配置为获取由所述图像捕获设备在所述第二短曝光图像帧之后依次捕获的第二长曝光图像帧和第三短曝光图像帧,其中所述第三短曝光图像帧是以所述第一编码曝光方式获得的短曝光图像帧,以及所述第二长曝光图像帧是由以所述第二编码曝光方式连续曝光获得的多个图像帧叠加获得的单帧编码长曝光图像帧;所述预重建模块还被配置为对所述第二长曝光图像帧进行重建以获得多个第二预重建帧;所述融合模块还被配置为针对所述多个第二预重建帧中的每一个第二预重建帧,将所述第二短曝光图像帧、所述第三短曝光图像帧和所述每一个第二预重建帧进行融合以生成第二重建帧;所述重建模块还被配置为基于与所述多个第二预重建帧对应的多个第二重建帧生成第二重建视频;以及所述视频生成装置还包括组合模块,被配置为将所述重建视频与所述第二重建视频组合以生成第三重建视频。
根据本公开的一些实施例,其中,所述第一短曝光图像帧和所述第二短曝光图像帧相较于所述长曝光图像帧具有更高质量的空间信息;以及所述长曝光图像帧相较于所述第一短曝光图像帧和所述第二短曝光图像帧具有更多的时间信息。
根据本公开的另一方面,还提供了一种视频生成系统,包括:光学编码器件,被配置为响应于驱动信号设置针对待拍摄场景的多个编码曝光方式;图像捕获传感器,被配置为响应于所述驱动信号,依次进行曝光以捕获第一短曝光图像帧、长曝光图像帧以及第二短曝光图像帧,其中所述第一短曝光图像帧和所述第二短曝光图像帧是以第一编码曝光方式获得的短曝光图像帧,以及所述长曝光图像帧是由以与所述第一编码曝光方式不同的第二编码曝光方式连续曝光获得的多个图像帧叠加获得的单帧编码长曝光图像帧;以及图像处理器,被配置为对所述长曝光图像帧进行重建以获得多个预重建帧;针对所述多个预重建帧中的每一个预重建帧,将所述第一短曝光图像帧、所述第二短曝光图像帧和所述每一个预重建帧进行融合以生成重建帧;以及基于与所述多个预重建帧对应的多个重建帧生成重建视频。
根据本公开的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,其中,所述存储器中存储有计算机可读代码,所述计算机可读代码在由所述处理器执行时,实现上述视频生成方法。
根据本公开的另一方面,还提供了一种非暂时性计算机可读存储介质,存储有计算机可读指令,其中,当所述计算机可读指令在由处理器执行时,实现上述视频生成方法。
本公开实施例提供了一种视频生成方法、装置、系统、电子设备以及可读存储介质。
因此,根据本公开实施例的方法,在获取以第二编码曝光方式捕获的单帧编码长曝光图像帧之外,还获取该长曝光图像帧前后的以与第二编码曝光方式不同的第一编码曝光方式捕获的两个短曝光图像帧,通过利用短曝光图像帧中具有较高的空间信息和长曝光图像帧中具有的较多的时间信息,将两个短曝光图像帧与由该长曝光图像帧生成的多个预重建帧中的每一个预重建进行融合来生成多个经过优化的具有更高的清晰度的重建帧,基于这样的重建帧生成的视频的质量可以得到改善,进而使得用户获得良好的视觉体验。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例的描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本公开的一些示例性实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1A是示出了根据本公开的第一实施例的视频生成方法的流程图;
图1B是示出了根据本公开的第一实施例的视频生成方法的示意图;
图2是示出了根据本公开的实施例的图像捕获设备的一部分的示例;
图3是示出了使用调制图案对待捕获的场景信息进行编码以生成长曝光图像帧的示意图;
图4是参考图3对长曝光图像帧进行重建以获得多个预重建帧的示意图;
图5是示出了基于常规的长曝光图像帧重建视频方法和基于本公开所述方法生成的重建帧的对比效果图;
图6是示出了根据本公开的第二实施例的视频生成方法的流程图;
图7是示出了根据本公开的第二实施例的视频生成方法的示意图;
图8是示出了根据本公开的第三实施例的视频生成方法的示意图;
图9是示出了根据本公开的第四实施例的视频生成装置的框图;
图10是示出了根据本公开的第五实施例的视频生成装置的框图;
图11是示出了根据本公开的第六实施例的视频生成装置的框图;
图12是示出了根据本公开的第七实施例的视频生成系统的框图;
图13是示出了根据本公开的一些实施例的电子设备的结构图。
具体实施方式
为了使得本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。为了保持本公开实施例的以下说明清楚且简明,本公开省略了部分已知功能和已知部件的详细说明。
本公开中使用了流程图用来说明根据本公开的实施例的方法的步骤。应当理解的是,前面或后面的步骤不一定按照顺序来精确的进行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步。
在本公开的说明书和附图中,根据实施例,元素以单数或复数的形式来描述。然而,单数和复数形式被适当地选择用于所提出的情况仅仅是为了方便解释而无意将本公开限制于此。因此,单数形式可以包括复数形式,并且复数形式也可以包括单数形式,除非上下文另有明确说明。
<第一实施例>
图1A示出了根据本公开的第一实施例的视频生成方法的流程图。图1B示出了根据本公开的第一实施例的视频生成方法的示意图。该方法在获取以第二编码曝光方式捕获的单帧编码长曝光图像帧之外,还获取该长曝光图像帧前后的以与第二编码曝光方式不同的第一编码曝光方式捕获的两个短曝光图像帧,通过利用短曝光图像帧中具有较高的空间信息和长曝光图像帧中具有的较多的时间信息,将两个短曝光图像帧与由该长曝光图像帧生成的多个预重建帧中的每一个预重建进行融合来生成多个经过优化的具有更高的清晰度的重建帧,基于这样的重建帧生成的视频的质量可以得到改善,突破了基于单帧编码长曝光图像帧的视频质量的约束,使得用户获得良好的视觉体验。下面将结合图1A和图1B来具体描述本公开所述的视频生成方法,该方法包括以下步骤:
在步骤S110处,获取由图像捕获设备依次捕获的第一短曝光图像帧、长曝光图像帧以及第二短曝光图像帧,其中第一短曝光图像帧和第二短曝光图像帧是以第一编码曝光方式获得的短曝光图像帧,以及长曝光图像帧是由以与第一编码曝光方式不同的第二编码曝光方式连续曝光获得的多个图像帧叠加获得的单帧编码长曝光图像帧。例如,在图1B中,在时刻1获得了使用第一编码曝光方式编码的较为清晰的第一短曝光图像帧。也就是说,第一短曝光图像帧具有较多的空间信息。另一方面,由于短曝光图像帧的曝光时间较短,其包含的时间信息相对较少。在时刻2至N-1获得了用于生成长曝光图像帧的多个图像帧,这些图像帧是以与第一编码曝光方式不同的第二编码曝光方式连续曝光获得的,其中该第二编码曝光方式针对每一个时刻使用不同的调制图案,这些图像帧在一个长曝光过程中被叠加到一起生成了一帧长曝光图像帧。然在被编码的情况下,这些图像帧的空间信息受到了重建质量的限制。然后在时刻N获得了使用第一编码曝光方式编码的较为清晰的第二短曝光图像帧。第二短曝光图像帧的特性可以参考第一短曝光图像帧。从图1B可以看出,在时刻1到时刻N中,图中的对象是随着时间移动的,由于曝光时间较长,这些图像帧具有相对较多的时间信息。
在步骤S120处,对长曝光图像帧进行重建以获得多个预重建帧。
在步骤S130处,针对多个预重建帧中的每一个预重建帧,将第一短曝光图像帧、第二短曝光图像帧和该每一个预重建帧进行融合以生成重建帧。如图1B所示,该融合利用短曝光图像帧中具有较高的空间信息和长曝光图像帧中具有的较多的时间信息,使得生成的多个重建帧较为清晰。
在步骤S140处,基于与多个预重建帧对应的多个重建帧生成重建视频。
具体地,首先,在步骤S110处,可以获取由图像捕获设备依次捕获的第一短曝光图像帧、长曝光图像帧以及第二短曝光图像帧,其中第一短曝光图像帧和第二短曝光图像帧可以是以第一编码曝光方式获得的短曝光图像帧,以及长曝光图像帧可以是由以与第一编码曝光方式不同的第二编码曝光方式连续曝光获得的多个图像帧叠加获得的单帧编码长曝光图像帧。
在一个示例中,图像捕获设备可以用于捕获图像帧。图像捕获设备可以是能够捕获图像的任何类型的设备,例如照相机、摄影机、智能手机、平板计算机、膝上型计算机或具有图像捕获功能的固定或便携式设备等。在本文中,图像帧、图像、帧等可以互换地使用。
在基于视频压缩感知的技术中,可以通过在使用图像捕获设备捕获图像时以特定的编码曝光方式来编码待捕获的场景信息以生成图像帧,从而可以实现将多个被编码的帧叠加以生成单帧编码长曝光图像帧。通常,编码曝光方式是指使用由光学编码器件设置的调制图案或掩膜对待捕获的场景信息进行编码。根据本公开的示例,图像捕获设备可以包括用于使用不同的编码曝光方式对捕获的场景进行编码的光学编码器件。光学编码器件可以包括数字微镜装置(DMD)、硅上液晶调制器(LCoS)或其它能够设置调制图案或掩膜的光学器件。在一个示例中,光学编码器件也可以被称为空间光调制器。在本公开中,调制图案和掩膜均用于对信息待捕获的场景信息进行编码,因此调制图案和掩膜在本文可以互换地使用。
图2是示出根据本公开的实施例的图像捕获设备的一部分的示例。如图2所示,图像捕获设备的一个示例可以包括物镜、DMD、中继透镜和图像传感器,其中图像传感器可以包括诸如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)等的图像传感器。此外,DMD也可以替换为其他光学编码期间。物镜和中继透镜是用于传输光学信息的常规部件,在此不再赘述。在一个示例中,图像捕获设备可以控制其所包含的光学编码器件对待捕获的场景进行编码,并控制相应的图像传感器进行曝光成像以生成被编码的图像帧。例如,可以使用驱动信号来控制光学编码器件和图像传感器。该驱动信号可以是图像捕获设备生成的也可以是由与图像捕获设备耦合的其他外部设备生成的。
在一个示例中,图像捕获设备可以在单个时刻以第一编码曝光方式来获得短曝光图像帧,也可以以第二编码曝光方式连续曝光来获得多个图像帧并将其叠加以获得单帧编码长曝光图像帧。第一和第二仅是为了表示短曝光图像帧和长曝光图像帧之间具有不同的编码曝光方式。对于多个短曝光图像帧和/或长曝光图像帧而言,每一个短曝光图像帧和/或长曝光图像帧彼此之间的编码曝光方式可以是不同的。例如,对于两个长曝光图像帧,其采用编码曝光方式可以是不同的。
在长曝光图像帧中,连续曝光来获得多个图像帧是指在一次曝光内的连续多个时刻处对场景信息进行编码以获得多个图像帧。例如,在编码长曝光图像帧时,在图像传感器的一次曝光内,光学编码器器件可以响应于驱动信号动态地多次刷新调制图案,每一个调制图案对应于当前时刻的场景信息;同时,图像传感器可以根据该驱动信号捕获相应的每一个调制图案所编码的场景信息,然后多个被编码的图像帧沿时间维度在一个长曝光的过程内进行叠加,以获得单帧编码长曝光图像帧。在一个示例中,针对长曝光图像帧的编码曝光方式对于每一个时刻的场景互不相同,因此该编码方式也可以被称为具有空间结构的时变编码。
图3示出了使用调制图案对待捕获的场景信息进行编码以生成长曝光图像帧的示意图。如图3所示,根据本公开的实施例,用于生成长曝光图像帧的编码曝光方式是以N个互不相同的空间不均匀的调制图案对在连续N个时刻处捕获的场景信息进行编码以获得N个图像帧,并将所N个图像帧叠加以生成一个长曝光图像帧,其中N为大于等于2的整数。本领域技术人员应当知道,基于视频压缩感知技术,可以通过编码曝光方式生成长曝光图像帧,并且可以基于该编码曝光方式将这样的长曝光图像帧重建为具有多个图像帧的视频,这里将不再赘述使用调制图案对图像帧进行编码和解码的具体内容。
在一个示例中,由于图像捕获设备具有光学编码调制器件,因此捕获的短曝光图像帧通常也将被调制图案编码。根据本公开的实施例,对于短曝光图像帧,可以以空间均匀的调制图案对捕获的场景信息进行编码。这样的调制图案通常是一种全局常数图案,使得短曝光图像帧中的场景空间信息可以被完整地保留。
在一个示例中,短曝光图像帧的曝光时长小于长曝光图像帧的总曝光时长。例如,短曝光图像帧可以具有图像捕获设备可以支持的最小单位曝光时长,而长曝光图像帧具有8个或16个最小单位曝光时长。然而,本领域技术人员应当知道的是,曝光时长可以根据实际需求来进行设置,并不局限于固定的曝光时长。例如,短曝光图像帧可以具有2个最小单位曝光时长。此外,多个短曝光图像帧和/或长曝光图像帧也可以各自具有不同的曝光时长。例如,第一长曝光图像帧可以具有8个最小单位曝光时长,而第二长曝光图像帧则可以具有16个最小单位曝光时长。
在一个示例中,本公开所述的方法需要获取至少三个曝光图像帧,即第一短曝光图像帧、长曝光图像帧以及第二短曝光图像帧。其中,第一短曝光图像帧、长曝光图像帧以及第二短曝光图像帧是按照时间顺序依次捕获的。例如,第一短曝光图像帧是在时刻1捕获的,长曝光图像帧是在时刻2到N-1捕获的,在第二短曝光图像帧是在时刻N捕获的。应当注意的是,获取的以上图像帧可以是不连续的,例如,第二短曝光图像帧不是在时刻N而是在时刻N+1捕获的。由于用于视频的图像帧之间具有时域相关性,紧密相邻的两个图像帧之间通常具有更多的信息可供参考,因此使用连续捕获的图像将是更有效的。优选地,根据本公开的实施例,第一短曝光图像帧、长曝光图像帧以及第二短曝光图像帧是由图像捕获设备连续捕获的。
在一个示例中,在由图像捕获设备捕获图像帧之后,由于捕获的图像帧通常还可以具有例如指示捕获时间的标记,因此获取图像帧的顺序可以以任意顺序获取而不基于捕获顺序。
在获取第一短曝光图像帧、长曝光图像帧以及第二短曝光图像帧之后,在步骤S120处,可以对长曝光图像帧进行重建以获得多个预重建帧。
基于视频压缩感知技术,利用捕获长曝光图像帧时所采用的编码曝光方式,可以对该长曝光图像帧进行重建以获得多个用于后续处理的预重建帧。这里,通常可以采用神经网络(例如,基于残差块的卷积神经网络)来实现对长曝光图像帧的重建,采用的重建算法还可以基于例如GAP-TV、E2E-CNN、DUN以及任何其他适用的算法。
图4是参考图3对长曝光图像帧进行重建以获得多个预重建帧的示意图。如图4所示,使用图3中所采用的N个互不相同的空间不均匀的调制图案对视频进行相应的处理可以获得N个预重建帧。
在获得多个预重建帧之后,在步骤S130处,针对多个预重建帧中的每一个预重建帧,可以将第一短曝光图像帧、第二短曝光图像帧和该每一个预重建帧进行融合以生成重建帧。
根据本公开的实施例,可以将第一插值图像帧、第二插值图像帧和每一个预重建帧输入预先训练好的神经网络进行融合以生成重建帧,其中该神经网络可以例如基于具有UNet结构的神经网络结构,诸如常规U-Net、RA-UNet、Swin-Conv-UNet,或者该神经网络可以基于其他适用神经网络结构。UNet结构的神经网络通常具有跨层连接与空间上下采样,这样的网络结构可以更有效的将图像帧进行融合。
根据本公开的实施例,短曝光图像帧相较于长曝光图像帧通常具有较高质量的空间信息,而长曝光图像帧相较于短曝光图像帧则具有较多的时间信息。本公开所述方法中的融合利用了预重建帧附近的两个短曝光图像帧的较高质量的空间信息对该预重建帧进行优化,从而使得生成的重建帧具有较高的清晰度。
图5是示出了基于常规的长曝光图像帧重建视频方法和基于本公开所述方法生成的重建帧的对比效果图。在图5中,第一行图像示出了所获取的由图像设备依次捕获的第一短曝光图像帧、长曝光图像帧和第二长曝光图像帧。第二行图像示出了基于现有技术生成的视频中的部分重建帧(重建帧3、9、15)。其中,第二行中的第四图像示出了基于现有技术的重建帧15中的黑框所包围的区域的放大效果。此外,第三行图像示出了基于本公开的方法生成的视频中的部分重建帧。其中,第三行中的第四图像示出了基于本公开的方法的重建帧15中的黑框所包围的区域的放大效果。可以看出,相较于基于现有技术生成的重建帧,基于本公开所述的方法生成的重建帧的清晰度具有显著的提高。
最后,在步骤S140处,基于与多个预重建帧对应的多个重建帧可以生成重建视频。根据本公开的实施例,图像捕获设备捕获图像帧的帧速率可以低于重建视频的帧速率,由此可以使得用户在使用低速相机的情况下实现高速视频拍摄的效果。
此外,在基于第一实施例的视频生成方法的基础上,还可以依次交替捕获短曝光图像帧和长曝光图像帧的序列,从而可以生成连续的较长的重建视频,可以为用户提供更好的视觉体验。根据本公开的实施例,可以获取由图像捕获设备在第二短曝光图像帧之后依次捕获的第二长曝光图像帧和第三短曝光图像帧,其中第三短曝光图像帧是以第一编码曝光方式获得的短曝光图像帧,以及第二长曝光图像帧是由以第二编码曝光方式连续曝光获得的多个图像帧叠加获得的单帧编码长曝光图像帧;对第二长曝光图像帧进行重建以获得多个第二预重建帧;针对多个第二预重建帧中的每一个第二预重建帧,将第二短曝光图像帧、第三短曝光图像帧和每一个第二预重建帧进行融合以生成第二重建帧;基于与多个第二预重建帧对应的多个第二重建帧生成第二重建视频;以及将重建视频与第二重建视频组合以生成第三重建视频。
此外,在一个示例中,图像捕获设备中诸如所捕获的图像帧或其他数据可以存储在存储设备中,存储设备可以包括各种分布式或本地访问的数据存储介质中的任何一种,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、闪存、易失性或非易失性存储器,或者用于存储数据的任何其他合适的数字存储介质。
在一个示例中,图像捕获设备中的数据也可以经由有线网络或无线网络传输至服务器以供其他设备获取或者直接传输至其他设备,进而由其他设备对捕获的图像进行进一步的处理。在一个示例中,网络可以是有线网络和/或无线网络。例如,有线网络可以采用双绞线、同轴电缆或光纤传输等方式进行数据传输,无线网络可以采用3G/4G/5G等移动通信网络、蓝牙、Zigbee或者WiFi等方式进行数据传输。
在一个示例中,用于处理图像帧的图像处理器还可以直接或间接地耦合到图像捕获设备,以获取由图像处理捕获设备捕获的图像帧。在一个示例中,图像处理器可以是中央处理单元(CPU)、图形处理单元(GPU)、通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等可以执行图像处理功能的器件。在一个示例中,图像处理器也可以与图像捕获设备集成在一起,例如包括图像捕获设备和图像处理器的相机等。
以上结合图1-图5详细描述了本公开所述的视频生成方法。由上述详细描述的内容可知,根据本公开第一实施例的可以在获取以第二编码曝光方式捕获的单帧编码长曝光图像帧之外,还获取该长曝光图像帧前后的以与第二编码曝光方式不同的第一编码曝光方式捕获的两个短曝光图像帧,通过利用短曝光图像帧中具有较高的空间信息和长曝光图像帧中具有的较多的时间信息,将两个短曝光图像帧与由该长曝光图像帧生成的多个预重建帧中的每一个预重建进行融合来生成多个经过优化的具有更高的清晰度的重建帧,基于这样的重建帧生成的视频的质量可以得到改善,进而使得用户获得良好的视觉体验。
<第二实施例>
图6是示出了根据本公开的第二实施例的视频生成方法的流程图。在图6所示的方法中,通过对第一实施例中的步骤进行进一步优化以实现具有更高清晰度的重建帧,从而提高生成的视频的质量。图6中所示的部分步骤与图1所示的步骤类似,因此使用相同的附图标记进行标记,并不在此赘述。
如图6所示,在本公开第二实施例中,在基于步骤S110和S120生成多个预重建帧之后,步骤S130可以包括步骤S610:针对多个预重建帧中的每一个预重建帧,确定每一个预重建帧与第一短曝光图像帧之间的第一插值图像帧以及每一个预重建帧与第二短曝光图像帧之间的第二插值图像帧;以及步骤S620:将第一插值图像帧、第二插值图像帧和每一个预重建帧进行融合以生成重建帧。
插值图像帧可以是基于图像中的对象的运动信息和偏移量,通过对图像帧进行空间位置的映射插值的得到的;也可以利用例如具有形变卷积的神经网络对图像帧处理而获得的;也可以是基于两个图像帧中的对象的信息以其他方式获得的。在一个示例中,图像处理器可以以图像中的对象为处理单位执行相应的操作。根据本公开的一个实施例,图像中的对象包括以下中的至少一者:图像帧的像素、编码单元、可识别的特征或者能够以其他方式表示图像帧中的运动信息和偏移量的可处理单元。可识别的特征可以是基于图像识别技术识别到的图像中的特定特征。例如,可识别特征可以是如图1B中所示中的飞机图形。
在进行空间位置的映射插值的方案中,根据本公开的一个实施例,针对多个预重建帧中的每一个预重建帧,可以确定每一个预重建帧中的对象与第一短曝光图像帧中的相应对象的第一相对位置关系信息集合以及每一个预重建帧中的对象与第二短曝光图像帧中的相应对象的第二相对位置关系信息集合;基于第一相对位置关系信息集合,对第一短曝光图像帧进行空间位置的映射插值,以将每一预重建帧中的对象和第一短曝光图像帧中的相应对象的空间位置对齐,以获得第一插值图像帧;基于第二相对位置关系信息集合,对第二短曝光图像帧进行空间位置的映射插值,以将每一预重建帧中的对象和第二短曝光图像帧中的相应对象的空间位置对齐,以获得第二插值图像帧。
根据本公开的一个实施例,第一相对位置关系信息集合和/或第二相对位置关系信息集合包括描述对象的运动方向与偏移量的光流信息。在本文中使用光流信息时,根据上下文可以将光流信息视为针对图像帧中单个对象的光流信息,或者针对图像中的多个或所有对象的光流信息的集合。在一个示例中,计算光流信息的方法可以基于PWCNet、RAFT、AMP等现有技术来实现,因此在本文中不再赘述。在一个示例中相对位置关系信息集合也可以是根据现有技术获得的其他描述对象的运动方向与偏移量的信息。
在一个示例中,可以以与第一实施例类似的方式,将第一插值图像帧、第二插值图像帧和每一个预重建帧输入预先训练好的神经网络进行融合以生成重建帧,其中该经网络基于具有UNet结构的神经网络结构,诸如常规U-Net、RA-UNet、Swin-Conv-UNet,或者该神经网络可以基于其他适用神经网络结构。
以光流信息为例,图7是示出了根据本公开的第二实施例的视频生成方法的示意图。如图7所示,在步骤S710,执行如同S110的步骤以获取第一短曝光图像帧、长曝光图像帧和第二短曝光图像帧。在步骤S720,执行如同S120的步骤以获得N个预重建帧。
进一步地,在步骤S730,对于N个预重建帧中的第k个预重建帧,计算第k个预重建帧到第一短曝光图像帧的第一光流信息以及第k个预重建帧到第二短曝光图像帧的第二光流信息;然后基于第一光流信息对第一短曝光图像帧进行空间位置的映射插值以将第k个预重建帧中的对象和第一短曝光图像帧中的相应对象的空间位置对齐,以获得用于第k个预重建帧的第一插值图像帧,并且基于第二光流信息对第二短曝光图像帧进行空间位置的映射插值以将第k个预重建帧中的对象和第二短曝光图像帧中的相应对象的空间位置对齐,以获得用于第k个预重建帧的第二插值图像帧;然后基于神经网络将第一插值图像帧、第二插值图像帧以及第k个预重建帧融合以生成对应于第k个预重建帧的重建帧。
最后,在步骤740,基于针对N个预重建帧的N个重建帧来生成重建图像。
以上是基于重建帧到短曝光图像帧的单向光流信息实现的插值方法。根据本公开的一些示例,还可以基于双向光流信息,即重建帧到短曝光图像帧的光流信息以及短曝光图像帧到重建帧的光流信息两者,来生成重建帧。基于双向光流信息的方法类似于关于图7所描述的方法,双向光流信息可以使得插值图像帧中的对象的空间位置与预重建帧中的相应对象的位置更为靠近,因此相较于使用单向光流信息可以使得生成的重建帧的清晰度得到进一步的提高。此外,相较于单向光流信息,双向光流信息通常将耗费较多的计算资源。
根据本公开的第二实施例还可以不基于图像帧之间的空间相对位置关系信息集合来获得插值图像帧。根据本公开的实施例,针对多个预重建帧中的每一个预重建帧,将每一个预重建帧与第一短曝光图像帧以及每一个预重建帧与第二短曝光图像帧分别输入神经网络;通过神经网络将第一预重建帧中的对象和第一短曝光图像帧中的相应对象的空间位置对齐,以获得第一插值图像;通过神经网络将第一预重建帧和第二短曝光图像帧中的对象的空间位置对齐,以获得第二插值图像;其中,该神经网络是预先训练好的并且该神经网络采用形变卷积。
采用形变卷积的神经网络利用图像帧中的信息可以直接实现对图像帧中的对象进行空间位移处理以生成插值图像帧,而不需要实际的计算出图像帧中的对象的相对位置关系、运动方向及偏移量等信息。
根据本公开的第二实施例,相较于短曝光中的对象的空间位置而言,由于插值帧中的对象的空间位置与预重建帧中的相应对象的空间位置更加趋于一致,因此使用插值帧与预重建帧进行融合使得获得的重建帧的清晰度得到了进一步的提高,从而进一步改善了图像的质量。
<第三实施例>
在本公开的第二实施例的基础上,本公开第三实施例的方法还可以包括对插值图像帧的进一步优化,以进一步提高重建帧的清晰度。
根据本公开的实施例,在获得针对每一预重建帧的第一插值图像帧和第二插值图像帧之后,还可以将第一短曝光图像帧、第一相对位置关系信息集合和第一插值图像帧以及第二短曝光图像帧、第二相对位置关系信息集合和第二插值图像帧输入预先训练好的神经网络模型进行融合,以获得细化后的第一相对位置关系信息集合和第一信息权重集合以及细化后的第二相对位置关系信息集合和第二信息权重集合,其中,第一信息权重集合指示第一短曝光图像帧中的对象的信息在每一个预重建帧中的权重,第二信息权重集合指示第二短曝光图像帧中的对象的信息在每一个预重建帧中的权重;基于细化后的第一相对位置关系信息集合,可以对第一短曝光图像帧进行空间位置的映射插值,以将每一个预重建帧中的对象和第一短曝光图像帧中的相应对象的空间位置对齐,并且将插值后的结果乘以第一信息权重集合中的对应第一信息权重以获得第一精细插值图像;基于细化后的第二相对位置关系信息集合,可以对第二短曝光图像帧进行空间位置的映射插值,以将每一个预重建帧中的对象和第二短曝光图像帧中的相应对象的空间位置对齐,并且将插值后的结果乘以第二信息权重集合中的对应第二信息权重以获得第二精细插值图像。
根据本公开的实施例,在获得第一精细插值图像帧和第二精细插值图像帧之后,可以将第一精细插值图像帧和第二精细插值图像帧以及每一个预重建帧进行融合以获得重建帧。
具体地,图8是示出了根据本公开的第三实施例的视频生成方法的示意图。在图8中,在步骤S810,执行如同S110、S710的步骤以获取第一短曝光图像帧、长曝光图像帧和第二短曝光图像帧。在步骤S820,执行如同S120、S720的步骤以获得N个预重建帧。
进一步地,在步骤S830,首先基于与步骤S730类似的方法获得第一插值图像帧和第二插值图像帧。
应当注意的是,获取第一插值图像帧和第二插值图像帧的方法可以是基于相对位置关系信息集合的也可以是基于具有形变卷积的神经网络。然而,由于在对插值图形帧进一步优化时通常需要使用相对位置关系信息集合,优选地将基于相对位置关系信息集合来获得第一插值图像帧和第二插值图像帧。
在一个示例中,相对位置关系信息集合以图7中所示的第一光流信息和第二光流信息为例,但是相对位置关系信息集合并不限于第一光流信息和第二光流信息。
然后,针对第k个预重建帧,将第一短曝光图像帧、第一光流信息和第一插值图像帧以及第二短曝光图像帧、第二光流信息和第二插值图像帧输入预先训练好的神经网络模型进行融合,以获得细化后的第一光流信息和第一信息权重集合以及细化后的第二相对光流信息和第二信息权重集合,其中,第一信息权重集合指示第一短曝光图像帧中的对象的信息在针对第k个预重建帧中的权重,第二信息权重集合指示第二短曝光图像帧中的对象的信息在针对第k个预重建帧中的权重,其中权重信息集合可以包括加权图;基于细化后的第一光流信息,对第一短曝光图像帧进行空间位置的映射插值,以将第k个预重建帧中的对象和第一短曝光图像帧中的相应对象的空间位置对齐,并且将插值后的结果乘以第一信息权重集合中的对应第一信息权重以获得第一精细插值图像;基于细化后的第二光流信息,对第二短曝光图像帧进行空间位置的映射插值,以将第k个预重建帧中的对象和第二短曝光图像帧中的相应对象的空间位置对齐,并且将插值后的结果乘以第二信息权重集合中的对应第二信息权重以获得第二精细插值图像;然后基于神经网络将第一精细插值图像、第二精细插值图像以及第k个预重建帧融合以生成对应于第k个预重建帧的重建帧。
最后,在步骤S840,已与步骤S140,S740类似的方式,基于针对N个预重建帧的N个重建帧来生成重建图像。
根据本公开的第三实施例,相较于插值图像帧,通过对插值图像帧进一步细化,使得精细化的插值图像帧中的对象的空间位置与预重建帧中的对象的空间位置更加趋于一致,因此使得使用精细插值帧与预重建帧融合获得的图像帧的清晰度得到了进一步的提高。
<第四实施例>
本公开除了提供上述视频生成方法,还提供了视频生成装置900,接下来将结合图9对此进行详细描述。
图9是示出了根据本公开的第四实施例的视频生成装置900的框图。如图9所示,本公开所述的视频生成装置900可以包括图像帧获取模块910、预重建模块920、融合模块930以及重建模块940。
根据本公开的实施例,图像帧获取模块910可以被配置为获取由图像捕获设备依次捕获的第一短曝光图像帧、长曝光图像帧以及第二短曝光图像帧,其中第一短曝光图像帧和第二短曝光图像帧是以第一编码曝光方式获得的短曝光图像帧,以及长曝光图像帧是由以与第一编码曝光方式不同的第二编码曝光方式连续曝光获得的多个图像帧叠加获得的单帧编码长曝光图像帧。
根据本公开的实施例,用于生成短曝光图像帧的第一编码曝光方式可以是以空间均匀的调制图案对捕获的场景信息进行编码。
根据本公开的实施例,用于生成长曝光图像帧的第二编码曝光方式可以是以N个互不相同的空间不均匀的调制图案对在连续N个时刻处捕获的场景信息进行编码以获得N个图像帧,并将所N个图像帧叠加以生成长曝光图像帧,其中N为大于等于2的整数。
根据本公开的实施例,短曝光图像帧相较于长曝光图像帧通常具有较高质量的空间信息,而长曝光图像帧相较于短曝光图像帧则具有较多的时间信息。
根据本公开的实施例,第一短曝光图像帧、长曝光图像帧以及第二短曝光图像帧可以是由图像捕获设备连续捕获的。
根据本公开的示例,图像捕获设备可以包括用于使用不同的编码曝光方式对捕获的场景进行编码的光学编码器件。光学编码器件可以包括数字微镜装置(DMD)、硅上液晶调制器(LCoS)或其它能够设置调制图案或掩膜的光学器件。
根据本公开的实施例,预重建模块920可以被配置为对长曝光图像帧进行重建以获得多个预重建帧。
根据本公开的实施例,融合模块930可以被配置为针对多个预重建帧中的每一个预重建帧,将第一短曝光图像帧、第二短曝光图像帧和该每一个预重建帧进行融合以生成重建帧。
根据本公开的实施例,可以将第一插值图像帧、第二插值图像帧和每一个预重建帧输入预先训练好的神经网络进行融合以生成重建帧,其中该神经网络可以基于具有UNet结构的神经网络结构,诸如常规U-Net、RA-UNet、Swin-Conv-UNet,或者该神经网络可以基于其他适用神经网络结构。
根据本公开的实施例,重建模块940可以被配置为基于与多个预重建帧对应的多个重建帧生成重建视频。
根据本公开的实施例,图像捕获设备捕获图像帧的帧速率可以低于重建视频的帧速率。
根据本公开的实施例,图像帧获取模块910还可以被配置为获取由图像捕获设备在第二短曝光图像帧之后依次捕获的第二长曝光图像帧和第三短曝光图像帧,其中第三短曝光图像帧是以第一编码曝光方式获得的短曝光图像帧,以及第二长曝光图像帧是由以第二编码曝光方式连续曝光获得的多个图像帧叠加获得的单帧编码长曝光图像帧;预重建模块920还可以可以被配合为对第二长曝光图像帧进行重建以获得多个第二预重建帧;融合模块930还可以被配置为针对多个第二预重建帧中的每一个第二预重建帧,将第二短曝光图像帧、第三短曝光图像帧和每一个第二预重建帧进行融合以生成第二重建帧;重建模块940还可以被配置为基于与多个第二预重建帧对应的多个第二重建帧生成第二重建视频;以及视频生成装置900还可以包括组合模块,其被配置为将重建视频与第二重建视频组合以生成第三重建视频。
<第五实施例>
图10是示出了根据本公开的第五实施例的视频生成装置1000的框图,其中图10的部分部件与图9所示的部分部件相同,因此以相同的附图标记示出,并不在进行赘述。
如图10所示,融合模块930可以包括插值单元1010和融合重建单元1020。
根据本公开的实施例,插值单元1010可以被配置为针对多个预重建帧中的每一个预重建帧,确定每一个预重建帧与第一短曝光图像帧之间的第一插值图像帧以及每一个预重建帧与第二短曝光图像帧之间的第二插值图像帧;融合重建单元可以被配置1020为将第一插值图像帧、第二插值图像帧和每一个预重建帧进行融合以生成重建帧。
根据本公开的实施例,插值单元1010还可以被配置为:针对多个预重建帧中的每一个预重建帧,确定每一个预重建帧中的对象与第一短曝光图像帧中的相应对象的第一相对位置关系信息集合以及每一个预重建帧中的对象与第二短曝光图像帧中的相应对象的第二相对位置关系信息集合;基于第一相对位置关系信息集合,对第一短曝光图像帧进行空间位置的映射插值,以将第一预重建帧中的对象和第一短曝光图像帧中的相应对象的空间位置对齐,以获得第一插值图像;基于第二相对位置关系信息集合,对第二短曝光图像帧进行空间位置的映射插值,以将第一预重建帧中的对象和第二短曝光图像帧中的相应对象的空间位置对齐,以获得第二插值图像。
根据本公开的实施例,第一相对位置关系信息集合和/或第二相对位置关系信息集合可以包括描述对象的运动方向与偏移量的光流信息。
根据本公开的是实施例,插值单元1010还可以被配置为:针对多个预重建帧中的每一个预重建帧,将每一个预重建帧与第一短曝光图像帧以及每一个预重建帧与第二短曝光图像帧分别输入神经网络;通过神经网络将第一预重建帧中的对象和第一短曝光图像帧中的相应对象的空间位置对齐,以获得第一插值图像;通过神经网络将第一预重建帧中的对象和第二短曝光图像帧中的相应对象的空间位置对齐,以获得第二插值图像;其中,该神经网络是预先训练好的并且该神经网络采用形变卷积。
根据本公开的实施例,对象可以包括图像帧的像素、编码单元或可识别的特征中的一者。
<第六实施例>
图11是示出了根据本公开的第六实施例的视频生成装置1100的框图,其中图11的部分部件与图9、图10所示的部分部件相同,因此以相同的附图标记示出,并不在进行赘述。
如图11所示,融合模块930还可以包括细化单元1110。
根据本公开的实施例,细化单元1110可以被配置为将第一短曝光图像帧、第一相对位置关系信息集合和第一插值图像帧输入预先训练好的神经网络模型进行融合,以获得细化后的第一相对位置关系信息集合和第一信息权重集合,其中,第一信息权重集合指示第一短曝光图像帧中的对象的信息在每一个预重建帧中的权重;将第二短曝光图像帧、第二相对位置关系信息集合和第二插值图像帧输入神经网络模型进行融合,以获得细化后的第二相对位置关系信息集合和第二信息权重集合,其中,第二信息权重集合指示第二短曝光图像帧中的对象的信息在每一个预重建帧中的权重;基于细化后的第一相对位置关系信息集合,对第一短曝光图像帧进行空间位置的映射插值,以将每一个预重建帧中的对象和第一短曝光图像帧中的相应对象的空间位置对齐,并且将插值后的结果乘以第一信息权重集合中的对应第一信息权重以获得第一精细插值图像;基于细化后的第二相对位置关系信息集合,对第二短曝光图像帧进行空间位置的映射插值,以将每一个预重建帧中的对象和第二短曝光图像帧中的相应对象的空间位置对齐,并且将插值后的结果乘以第二信息权重集合中的对应第二信息权重以获得第二精细插值图像。
根据本公开的实施例,融合重建单元1020可以被配置为:将第一精细插值图像帧和第二精细插值图像帧以及每一个预重建帧进行融合以获得重建帧。
<第七实施例>
本公开除了提供上述视频生成方法和装置外,还提供了视频生成系统,接下来将结合图12对此进行详细描述。
图12是示出了根据本公开的第七实施例的视频生成系统1200的框图。如图9所示,本公开所述的视频生成系统1200可以包括光学编码器件1210、图像捕获传感器1220、图像处理器1230。
根据本公开的实施例,光学编码器件1210可以被配置为响应于驱动信号设置针对待拍摄场景的多个编码曝光方式。
根据本公开的实施例,图像捕获传感器1220可以被配置为响应于该驱动信号,依次进行曝光以捕获第一短曝光图像帧、长曝光图像帧以及第二短曝光图像帧,其中第一短曝光图像帧和第二短曝光图像帧可以是以第一编码曝光方式获得的短曝光图像帧,以及长曝光图像帧可以是由以与第一编码曝光方式不同的第二编码曝光方式连续曝光获得的多个图像帧叠加获得的单帧编码长曝光图像帧。
根据本公开的实施例,图像处理器1230可以被配置为被配置为对长曝光图像帧进行重建以获得多个预重建帧;针对多个预重建帧中的每一个预重建帧,可以将第一短曝光图像帧、第二短曝光图像帧和每一个预重建帧进行融合以生成重建帧;以及可以基于与多个预重建帧对应的多个重建帧生成重建视频。
在一个示例中,视频生成系统1200可以是诸如相机等具有捕获、编码曝光以及图像处理功能的任何设备。在一个示例中,视频生成系统1200还可以包括透镜等光学器件用以捕获场景信息。在一个示例中,视频生成系统1200还可以包括驱动电路,该驱动电路可以生成驱动信号来驱动光学编码器件1210和图像捕获传感器1220。在一个示例中,视频生成系统1200还可以包括输入/输出(I/O)组件。I/O组件也可以直接或间接地耦接到视频生成系统1200。I/O组件可表示调制解调器、键盘、鼠标、触摸屏或类似设备,或者与之交互。在一些情况下,I/O组件可以实施为处理器的一部分。在一些情况下,用户可经由I/O组件或经由I/O组件控制的硬件组件与系统1200交互。在一个示例中,经过图像处理器生成的视频可以经由I/O组件向用户成像。在一个示例中,用户可以经由I/O组件调整图像捕获传感器1220的编码曝光方式或调整图像捕获传感器1220的参数等。
关于图9至图12所示的视频生成装置及系统的一些具体细节还可以参考图1至图8中所示的视频生成方法的内容。
图13是示出了根据本公开的一些实施例的电子设备1300的结构图。
参见图13,电子设备1300可以包括处理器1301和存储器1302。处理器1301和存储器1302都可以通过总线1303相连。电子设备1300可以是任何类型的便携式设备(如智能相机、智能手机、平板电脑等)也可以是任何类型的固定设备(如台式计算机、服务器等)。
处理器1301可以根据存储在存储器1302中的程序执行各种动作和处理。具体地,处理器1301可以是一种集成电路芯片,具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,可以是X86架构或ARM架构的。
存储器1302存储有计算机可执行指令,在计算机可执行指令被处理器801执行时实现上述视频生成的方法。存储器1302可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意,本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
此外,根据本公开的视频生成方法可被记录在计算机可读记录介质中。具体地,根据本公开,可提供一种存储有计算机可执行指令的计算机可读记录介质,当所述计算机可执行指令被处理器执行时,可促使处理器执行如上所述的视频生成方法。
需要说明的是,附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
一般而言,本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其它方面可以在可以由控制器、微处理器或其它计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其它图像表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备,或其某些组合中实施。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
以上是对本公开的说明,而不应被认为是对其的限制。尽管描述了本公开的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解,上面是对本公开的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。
Claims (33)
1.一种视频生成方法,所述方法包括:
获取由图像捕获设备依次捕获的第一短曝光图像帧、长曝光图像帧以及第二短曝光图像帧,其中所述第一短曝光图像帧和所述第二短曝光图像帧是以第一编码曝光方式获得的短曝光图像帧,以及所述长曝光图像帧是由以与所述第一编码曝光方式不同的第二编码曝光方式连续曝光获得的多个图像帧叠加获得的单帧编码长曝光图像帧;
对所述长曝光图像帧进行重建以获得多个预重建帧;
针对所述多个预重建帧中的每一个预重建帧,将所述第一短曝光图像帧、所述第二短曝光图像帧和所述每一个预重建帧进行融合以生成重建帧;以及
基于与所述多个预重建帧对应的多个重建帧生成重建视频。
2.根据权利要求1所述的视频生成方法,其中,所述第一编码曝光方式是以空间均匀的调制图案对捕获的场景信息进行编码,以及
所述第二编码曝光方式是以N个互不相同的空间不均匀的调制图案对在连续N个时刻处捕获的场景信息进行编码以获得N个图像帧,并将所N个图像帧叠加以生成所述长曝光图像帧,其中N为大于等于2的整数。
3.根据权利要求1所述的视频生成方法,其中,针对所述多个预重建帧中的每一个预重建帧,将所述第一短曝光图像帧、所述第二短曝光图像帧和所述每一个预重建帧进行融合以生成重建帧包括:
针对所述多个预重建帧中的每一个预重建帧,确定所述每一个预重建帧与所述第一短曝光图像帧之间的第一插值图像帧以及所述每一个预重建帧与所述第二短曝光图像帧之间的第二插值图像帧;
将所述第一插值图像帧、所述第二插值图像帧和所述每一个预重建帧进行融合以生成重建帧。
4.根据权利要求3所述的视频生成方法,其中,针对所述多个预重建帧中的每一个预重建帧,确定所述每一个预重建帧与所述第一短曝光图像帧之间的第一插值图像帧以及所述每一个预重建帧与所述第二短曝光图像帧之间的第二插值图像帧包括:
针对所述多个预重建帧中的每一个预重建帧,确定所述每一个预重建帧中的对象与所述第一短曝光图像帧中的相应对象的第一相对位置关系信息集合以及所述每一个预重建帧中的对象与所述第二短曝光图像帧中的相应对象的第二相对位置关系信息集合;
基于所述第一相对位置关系信息集合,对所述第一短曝光图像帧进行空间位置的映射插值,以将所述每一预重建帧中的对象和所述第一短曝光图像帧中的相应对象的空间位置对齐,以获得所述第一插值图像帧;
基于所述第二相对位置关系信息集合,对所述第二短曝光图像帧进行空间位置的映射插值,以将所述每一预重建帧中的对象和所述第二短曝光图像帧中的相应对象的空间位置对齐,以获得所述第二插值图像帧。
5.根据权利要求4所述的视频生成方法,其中,所述第一相对位置关系信息集合和/或所述第二相对位置关系信息集合包括描述对象的运动方向与偏移量的光流信息。
6.根据权利要求4所述的视频生成方法,还包括:
将所述第一短曝光图像帧、所述第一相对位置关系信息集合和所述第一插值图像帧以及所述第二短曝光图像帧、所述第二相对位置关系信息集合和所述第二插值图像帧输入预先训练好的第一神经网络模型进行融合,以获得细化后的第一相对位置关系信息集合和第一信息权重集合以及细化后的第二相对位置关系信息集合和第二信息权重集合,其中,所述第一信息权重集合指示所述第一短曝光图像帧中的对象的信息在所述每一个预重建帧中的权重,所述第二信息权重集合指示所述第二短曝光图像帧中的对象的信息在所述每一个预重建帧中的权重;
基于所述细化后的第一相对位置关系信息集合,对所述第一短曝光图像帧进行空间位置的映射插值,以将所述每一个预重建帧中的对象和所述第一短曝光图像帧中的相应对象的空间位置对齐,并且将插值后的结果乘以所述第一信息权重集合中的对应第一信息权重以获得第一精细插值图像帧;
基于所述细化后的第二相对位置关系信息集合,对所述第二短曝光图像帧进行空间位置的映射插值,以将所述每一个预重建帧中的对象和所述第二短曝光图像帧中的相应对象的空间位置对齐,并且将插值后的结果乘以所述第二信息权重集合中的对应第二信息权重以获得第二精细插值图像帧。
7.根据权利要求6所述的视频生成方法,其中,将所述第一插值图像帧、所述第二插值图像帧和所述每一个预重建帧进行融合以生成重建帧包括:
将所述第一精细插值图像帧和所述第二精细插值图像帧以及所述每一个预重建帧进行融合以获得重建帧。
8.根据权利要求3所述的视频生成方法,其中,针对所述多个预重建帧中的每一个预重建帧,确定所述每一个预重建帧与所述第一短曝光图像帧之间的第一插值图像帧以及所述每一个预重建帧与所述第二短曝光图像帧之间的第二插值图像帧包括:
针对所述多个预重建帧中的每一个预重建帧,将所述每一个预重建帧与所述第一短曝光图像帧以及所述每一个预重建帧与所述第二短曝光图像帧分别输入第二神经网络;
通过所述第二神经网络将所述每一预重建帧中的对象和所述第一短曝光图像帧中的相应对象的空间位置对齐,以获得所述第一插值图像帧;
通过所述第二神经网络将所述每一预重建帧中的对象和所述第二短曝光图像帧中的相应对象的空间位置对齐,以获得所述第二插值图像帧;
其中,所述第二神经网络是预先训练好的并且所述第二神经网络采用形变卷积。
9.根据权利要求4-8中任一项所述的视频生成方法,其中,所述对象包括图像帧的像素、编码单元或可识别的特征中的一者。
10.根据权利要求3-8中任一项所述的视频生成方法,其中,将所述第一插值图像帧、所述第二插值图像帧和所述每一个预重建帧进行融合以生成重建帧包括:
将所述第一插值图像帧、所述第二插值图像帧和所述每一个预重建帧输入预先训练好的第三神经网络进行融合以生成重建帧,其中所述第三神经网络基于具有UNet结构的神经网络结构。
11.根据权利要求1-8中任一项所述的视频生成方法,其中,所述图像捕获设备捕获图像帧的帧速率低于所述重建视频的帧速率。
12.根据权利要求1-8中任一项所述的视频生成方法,其中,所述图像捕获设备包括用于使用不同的编码曝光方式对捕获的场景进行编码的光学编码器件,所述光学编码器件包括数字微镜装置DMD或硅上液晶调制器LCoS。
13.根据权利要求1-8中任一项所述的视频生成方法,其中,所述第一短曝光图像帧、所述长曝光图像帧以及所述第二短曝光图像帧是由所述图像捕获设备连续捕获的。
14.根据权利要求1-8中任一项所述的视频生成方法,还包括:
获取由所述图像捕获设备在所述第二短曝光图像帧之后依次捕获的第二长曝光图像帧和第三短曝光图像帧,其中所述第三短曝光图像帧是以所述第一编码曝光方式获得的短曝光图像帧,以及所述第二长曝光图像帧是由以所述第二编码曝光方式连续曝光获得的多个图像帧叠加获得的单帧编码长曝光图像帧;
对所述第二长曝光图像帧进行重建以获得多个第二预重建帧;
针对所述多个第二预重建帧中的每一个第二预重建帧,将所述第二短曝光图像帧、所述第三短曝光图像帧和所述每一个第二预重建帧进行融合以生成第二重建帧;
基于与所述多个第二预重建帧对应的多个第二重建帧生成第二重建视频;以及
将所述重建视频与所述第二重建视频组合以生成第三重建视频。
15.根据权利要求1-8中任一项所述的视频生成方法,其中,所述第一短曝光图像帧和所述第二短曝光图像帧相较于所述长曝光图像帧具有更高质量的空间信息;以及
所述长曝光图像帧相较于所述第一短曝光图像帧和所述第二短曝光图像帧具有更多的时间信息。
16.一种视频生成装置,包括:
图像帧获取模块,被配置为获取由图像捕获设备依次捕获的第一短曝光图像帧、长曝光图像帧以及第二短曝光图像帧,其中所述第一短曝光图像帧和所述第二短曝光图像帧是以第一编码曝光方式获得的短曝光图像帧,以及所述长曝光图像帧是由以与所述第一编码曝光方式不同的第二编码曝光方式连续曝光获得的多个图像帧叠加获得的单帧编码长曝光图像帧;
预重建模块,被配置为对所述长曝光图像帧进行重建以获得多个预重建帧;
融合模块,被配置为针对所述多个预重建帧中的每一个预重建帧,将所述第一短曝光图像帧、所述第二短曝光图像帧和所述每一个预重建帧进行融合以生成重建帧;
重建模块,被配置为基于与所述多个预重建帧对应的多个重建帧生成重建视频。
17.根据权利要求16所述的视频生成装置,其中,所述第一编码曝光方式是以空间均匀的调制图案对捕获的场景信息进行编码,以及
所述第二编码曝光方式是以N个互不相同的空间不均匀的调制图案对在连续N个时刻处捕获的场景信息进行编码以获得N个图像帧,并将所N个图像帧叠加以生成所述长曝光图像帧,其中N为大于等于2的整数。
18.根据权利要求16所述的视频生成装置,其中,所述融合模块包括插值单元和融合重建单元,其中
所述插值单元被配置为针对所述多个预重建帧中的每一个预重建帧,确定所述每一个预重建帧与所述第一短曝光图像帧之间的第一插值图像帧以及所述每一个预重建帧与所述第二短曝光图像帧之间的第二插值图像帧;
所述融合重建单元被配置为将所述第一插值图像帧、所述第二插值图像帧和所述每一个预重建帧进行融合以生成重建帧。
19.根据权利要求18所述的视频生成装置,其中,所述插值单元被配置为:
针对所述多个预重建帧中的每一个预重建帧,确定所述每一个预重建帧中的对象与所述第一短曝光图像帧中的相应对象的第一相对位置关系信息集合以及所述每一个预重建帧中的对象与所述第二短曝光图像帧中的相应对象的第二相对位置关系信息集合;
基于所述第一相对位置关系信息集合,对所述第一短曝光图像帧进行空间位置的映射插值,以将所述每一预重建帧中的对象和所述第一短曝光图像帧中的相应对象的空间位置对齐,以获得所述第一插值图像帧;
基于所述第二相对位置关系信息集合,对所述第二短曝光图像帧进行空间位置的映射插值,以将所述每一预重建帧中的对象和所述第二短曝光图像帧中的相应对象的空间位置对齐,以获得所述第二插值图像帧。
20.根据权利要求19所述的视频生成装置,其中,所述第一相对位置关系信息集合和/或所述第二相对位置关系信息集合包括描述对象的运动方向与偏移量的光流信息。
21.根据权利要求19所述的视频生成装置,其中,所述融合模块还包括细化单元,所述细化单元被配置为:
将所述第一短曝光图像帧、所述第一相对位置关系信息集合和所述第一插值图像帧以及所述第二短曝光图像帧、所述第二相对位置关系信息集合和所述第二插值图像帧输入预先训练好的第一神经网络模型进行融合,以获得细化后的第一相对位置关系信息集合和第一信息权重集合以及细化后的第二相对位置关系信息集合和第二信息权重集合,其中,所述第一信息权重集合指示所述第一短曝光图像帧中的对象的信息在所述每一个预重建帧中的权重,所述第二信息权重集合指示所述第二短曝光图像帧中的对象的信息在所述每一个预重建帧中的权重;
基于所述细化后的第一相对位置关系信息集合,对所述第一短曝光图像帧进行空间位置的映射插值,以将所述每一个预重建帧中的对象和所述第一短曝光图像帧中的相应对象的空间位置对齐,并且将插值后的结果乘以所述第一信息权重集合中的对应第一信息权重以获得第一精细插值图像帧;
基于所述细化后的第二相对位置关系信息集合,对所述第二短曝光图像帧进行空间位置的映射插值,以将所述每一个预重建帧中的对象和所述第二短曝光图像帧中的相应对象的空间位置对齐,并且将插值后的结果乘以所述第二信息权重集合中的对应第二信息权重以获得第二精细插值图像帧。
22.根据权利要求21所述的视频生成装置,其中,所述融合重建单元被配置为:
将所述第一精细插值图像帧和所述第二精细插值图像帧以及所述每一个预重建帧进行融合以获得重建帧。
23.根据权利要求18所述的视频生成装置,其中,所述插值单元被配置为:
针对所述多个预重建帧中的每一个预重建帧,将所述每一个预重建帧与所述第一短曝光图像帧以及所述每一个预重建帧与所述第二短曝光图像帧分别输入第二神经网络;
通过所述第二神经网络将所述每一预重建帧中的对象和所述第一短曝光图像帧中的相应对象的空间位置对齐,以获得所述第一插值图像帧;
通过所述第二神经网络将所述每一预重建帧中的对象和所述第二短曝光图像帧中的相应对象的空间位置对齐,以获得所述第二插值图像帧;
其中,所述第二神经网络是预先训练好的并且所述第二神经网络采用形变卷积。
24.根据权利要求19-23中任一项所述的视频生成装置,其中,所述对象包括图像帧的像素、编码单元或可识别的特征中的一者。
25.根据权利要求18-23中任一项所述的视频生成装置,其中,所述融合重建单元被配置为:
将所述第一插值图像帧、所述第二插值图像帧和所述每一个预重建帧输入预先训练好的第三神经网络进行融合以生成重建帧,其中所述第三神经网络基于具有UNet结构的神经网络结构。
26.根据权利要求16-23中任一项所述的视频生成装置,其中,所述图像捕获设备捕获图像帧的帧速率低于所述重建视频的帧速率。
27.根据权利要求16-23中任一项所述的视频生成装置,其中,所述图像捕获设备包括用于使用不同的编码曝光方式对捕获的场景进行编码的光学编码器件,所述光学编码器件包括数字微镜装置DMD或硅上液晶调制器LCoS。
28.根据权利要求16-23中任一项所述的视频生成装置,其中,所述第一短曝光图像帧、所述长曝光图像帧以及所述第二短曝光图像帧是由所述图像捕获设备连续捕获的。
29.根据权利要求16-23中任一项所述的视频生成装置,其中,所述图像帧获取模块还被配置为获取由所述图像捕获设备在所述第二短曝光图像帧之后依次捕获的第二长曝光图像帧和第三短曝光图像帧,其中所述第三短曝光图像帧是以所述第一编码曝光方式获得的短曝光图像帧,以及所述第二长曝光图像帧是由以所述第二编码曝光方式连续曝光获得的多个图像帧叠加获得的单帧编码长曝光图像帧;
所述预重建模块还被配置为对所述第二长曝光图像帧进行重建以获得多个第二预重建帧;
所述融合模块还被配置为针对所述多个第二预重建帧中的每一个第二预重建帧,将所述第二短曝光图像帧、所述第三短曝光图像帧和所述每一个第二预重建帧进行融合以生成第二重建帧;
所述重建模块还被配置为基于与所述多个第二预重建帧对应的多个第二重建帧生成第二重建视频;以及
所述视频生成装置还包括组合模块,被配置为将所述重建视频与所述第二重建视频组合以生成第三重建视频。
30.根据权利要求16-23中任一项所述的视频生成装置,其中,所述第一短曝光图像帧和所述第二短曝光图像帧相较于所述长曝光图像帧具有更高质量的空间信息;以及
所述长曝光图像帧相较于所述第一短曝光图像帧和所述第二短曝光图像帧具有更多的时间信息。
31.一种视频生成系统,包括:
光学编码器件,被配置为响应于驱动信号设置针对待拍摄场景的多个编码曝光方式;
图像捕获传感器,被配置为响应于所述驱动信号,依次进行曝光以捕获第一短曝光图像帧、长曝光图像帧以及第二短曝光图像帧,其中所述第一短曝光图像帧和所述第二短曝光图像帧是以第一编码曝光方式获得的短曝光图像帧,以及所述长曝光图像帧是由以与所述第一编码曝光方式不同的第二编码曝光方式连续曝光获得的多个图像帧叠加获得的单帧编码长曝光图像帧;以及
图像处理器,被配置为对所述长曝光图像帧进行重建以获得多个预重建帧;针对所述多个预重建帧中的每一个预重建帧,将所述第一短曝光图像帧、所述第二短曝光图像帧和所述每一个预重建帧进行融合以生成重建帧;以及基于与所述多个预重建帧对应的多个重建帧生成重建视频。
32.一种电子设备,包括:
处理器;以及
存储器,其中,所述存储器中存储有计算机可读代码,所述计算机可读代码在由所述处理器执行时,实现权利要求1-15中任一项所述的视频生成方法。
33.一种非暂时性计算机可读存储介质,存储有计算机可读指令,其中,当所述计算机可读指令在由处理器执行时,实现权利要求1-15中任一项所述的视频生成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210712026.3A CN115118974A (zh) | 2022-06-22 | 2022-06-22 | 视频生成方法、装置、系统、电子设备以及可读存储介质 |
PCT/CN2022/141033 WO2023246041A1 (zh) | 2022-06-22 | 2022-12-22 | 视频生成方法、装置、系统、电子设备以及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210712026.3A CN115118974A (zh) | 2022-06-22 | 2022-06-22 | 视频生成方法、装置、系统、电子设备以及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115118974A true CN115118974A (zh) | 2022-09-27 |
Family
ID=83329353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210712026.3A Pending CN115118974A (zh) | 2022-06-22 | 2022-06-22 | 视频生成方法、装置、系统、电子设备以及可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115118974A (zh) |
WO (1) | WO2023246041A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023246041A1 (zh) * | 2022-06-22 | 2023-12-28 | 清华大学 | 视频生成方法、装置、系统、电子设备以及可读存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8913153B2 (en) * | 2011-10-06 | 2014-12-16 | Aptina Imaging Corporation | Imaging systems and methods for generating motion-compensated high-dynamic-range images |
TWI501639B (zh) * | 2013-07-29 | 2015-09-21 | Quanta Comp Inc | 拍攝高動態範圍影片之方法 |
WO2017146972A1 (en) * | 2016-02-22 | 2017-08-31 | Dolby Laboratories Licensing Corporation | Apparatus and method for encoding high frame rate content in standard frame rate video using temporal interlacing |
CN110191299B (zh) * | 2019-04-15 | 2020-08-04 | 浙江大学 | 一种基于卷积神经网络的多重帧插值方法 |
US11503221B2 (en) * | 2020-04-01 | 2022-11-15 | Samsung Electronics Co., Ltd. | System and method for motion warping using multi-exposure frames |
CN111462021B (zh) * | 2020-04-27 | 2023-08-29 | Oppo广东移动通信有限公司 | 图像处理方法、装置、电子设备和计算机可读存储介质 |
CN115118974A (zh) * | 2022-06-22 | 2022-09-27 | 清华大学 | 视频生成方法、装置、系统、电子设备以及可读存储介质 |
-
2022
- 2022-06-22 CN CN202210712026.3A patent/CN115118974A/zh active Pending
- 2022-12-22 WO PCT/CN2022/141033 patent/WO2023246041A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023246041A1 (zh) * | 2022-06-22 | 2023-12-28 | 清华大学 | 视频生成方法、装置、系统、电子设备以及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023246041A1 (zh) | 2023-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bao et al. | Memc-net: Motion estimation and motion compensation driven neural network for video interpolation and enhancement | |
US20200349680A1 (en) | Image processing method and device, storage medium and electronic device | |
JP5295045B2 (ja) | 組み込み機器において高解像度画像を提供するための方法及び装置 | |
US10003768B2 (en) | Apparatus and methods for frame interpolation based on spatial considerations | |
KR20170116388A (ko) | 이미징 장치 및 그 동작 방법 | |
US11356604B2 (en) | Methods and systems for image processing with multiple image sources | |
KR20120118477A (ko) | 샘플링 기반 초 해상도 비디오 인코딩 및 디코딩을 위한 방법 및 장치 | |
Xiao et al. | Space-time video super-resolution using temporal profiles | |
KR20120074925A (ko) | 빈공간 채움 방법 및 이를 수행하는 3차원 비디오 시스템 | |
CN111028137A (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 | |
CN110599400A (zh) | 一种基于epi的光场图像超分辨的方法 | |
CN113096021A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
US20210256670A1 (en) | Methods and systems for image processing with multiple image sources | |
Liu et al. | End-to-end neural video coding using a compound spatiotemporal representation | |
Nguyen et al. | Learning spatially varying pixel exposures for motion deblurring | |
CN115118974A (zh) | 视频生成方法、装置、系统、电子设备以及可读存储介质 | |
CN116210219A (zh) | 光场图像的处理方法、编码器、解码器及存储介质 | |
CN112750092A (zh) | 训练数据获取方法、像质增强模型与方法及电子设备 | |
Zhong et al. | Bringing rolling shutter images alive with dual reversed distortion | |
CN110351508B (zh) | 基于录像模式的防抖处理方法和装置、电子设备 | |
CN113747242B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
EP3979185A1 (en) | Image processing method, program, image processing apparatus, trained model producing method, learning method, learning apparatus, and image processing system | |
Lee et al. | Cross-resolution flow propagation for foveated video super-resolution | |
CN117768774A (zh) | 图像处理器、图像处理方法、拍摄装置和电子设备 | |
JP6000670B2 (ja) | 画像処理装置、画像処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |