CN117596495A - 从超低帧速率视频的视频重构 - Google Patents
从超低帧速率视频的视频重构 Download PDFInfo
- Publication number
- CN117596495A CN117596495A CN202311014698.8A CN202311014698A CN117596495A CN 117596495 A CN117596495 A CN 117596495A CN 202311014698 A CN202311014698 A CN 202311014698A CN 117596495 A CN117596495 A CN 117596495A
- Authority
- CN
- China
- Prior art keywords
- frame
- video
- adjacent frames
- frames
- alignment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 48
- 230000003287 optical effect Effects 0.000 claims abstract description 45
- 230000015654 memory Effects 0.000 claims description 48
- 230000033001 locomotion Effects 0.000 claims description 41
- 238000003860 storage Methods 0.000 claims description 15
- 230000002441 reversible effect Effects 0.000 claims description 9
- 235000019013 Viburnum opulus Nutrition 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000009021 linear effect Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000009877 rendering Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 239000011521 glass Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000004927 fusion Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 244000071378 Viburnum opulus Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000013401 experimental design Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012432 intermediate storage Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/95—Computational photography systems, e.g. light-field imaging systems
- H04N23/951—Computational photography systems, e.g. light-field imaging systems by using two or more images to influence resolution, frame rate or aspect ratio
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/38—Registration of image sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/01—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
- H04N7/0127—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Studio Devices (AREA)
Abstract
在一个实施例中,一种方法包括:访问由摄像头采集的视频,该视频与第一帧率相关联,该第一帧率低于阈值帧率,对于所访问的视频的任意两个相邻帧:基于与该两个相邻帧相关联的光流,从该两个相邻帧生成扭曲帧;分别确定该两个相邻帧的对齐;将所确定的、该两个相邻帧的对齐进行融合;以及基于融合的对齐来生成重构帧;以及基于该任意两个相邻帧及其各自的重构帧,对所访问的视频进行重构,其中,重构的视频与第二帧率相关联,该第二帧率高于阈值帧率。
Description
相关申请的交叉引用
本申请要求于2022年8月12日提交的第17/887,034号美国非临时专利申请的优先权,该美国非临时专利申请的内容通过引用整体并入本文。
技术领域
本公开总体上涉及网络环境内的视频流,尤其涉及用于视频重构的硬件和软件。
背景技术
流媒体是以连续的方式从源传输和消费的多媒体,在网络单元中几乎没有或没有中间存储。互联网上的流媒体内容面临着挑战。例如,用户的互联网连接带宽不足可能会遇到内容的停顿、滞后或不良缓冲,并且用户缺乏兼容硬件或软件系统可能无法流式传输某些内容。实时流媒体(livestreaming)是在制作过程中实时交付内容。实时流媒体需要一种形式的源媒体(例如,摄像机、音频接口、屏幕捕获软件)、将内容数字化的编码器、媒体发布者、以及分发和交付内容的内容交付网络。流媒体在视频点播和流媒体电视服务中最为普遍。其他服务提供流媒体音乐。视频游戏实时流媒体使用流媒体进行在线游戏。
视频重构是从给定的低分辨率视频帧生成高分辨率视频帧的过程。视频重构的主要目标不仅是在保留粗略细节的同时恢复更多精细细节,而且还要保持运动一致性。运动插值或运动补偿帧插值是一种视频处理方式,在这种视频处理方式中,通过插值在现有动画帧之间生成中间动画帧,以试图使动画更流畅,以对显示运动模糊和虚假的慢动作效果进行补偿。
发明内容
在特定实施例中,计算系统可以通过以下方式来降低摄像头的功耗:利用摄像头以较低的帧率采集视频并将所采集的视频传输到接收计算机,然后在该接收计算机处利用高效的视频插值算法将所采集的视频重构为所需的较高帧率。视频帧插值算法可以将帧序列作为输入,并且在每两个相邻帧的中间合成一个帧或几个帧。视频帧插值算法还可以将所合成的帧与原始相邻帧按照这些帧的时间顺序进行组合,从而以较高的帧率完成对视频的重构。基于本文所公开的实施例,可以将摄像头的成像、压缩和传输的负担重新分配为接收计算机上的计算负担,这不仅可以延长摄像头的电池寿命,而且可以节省传输所采集的视频的带宽。尽管本公开描述了由特定系统以特定方式重构特定视频,但是本公开考虑了由任何合适的系统以任何合适的方式重构任何合适的视频。
在特定实施例中,接收计算机可以访问由一个或多个摄像头采集的视频。该视频可以与第一帧率相关联,该第一帧率低于阈值帧率。对于所访问的视频的任意两个相邻帧,接收计算机可以执行以下步骤。在特定实施例中,接收计算机可以基于与该两个相邻帧相关联的光流,从该两个相邻帧生成扭曲帧。接收计算机然后可以分别确定该两个相邻帧的对齐。接收计算机然后可以将所确定的、该两个相邻帧的对齐进行融合。接收计算机可以进一步基于融合的对齐来生成重构帧。在特定实施例中,接收计算机还可以基于该任意两个相邻帧及它们各自的重构帧来对所访问的视频进行重构。重构的视频可以与第二帧率相关联,该第二帧率高于阈值帧率。
本文所公开的实施例只是示例,并且本公开的范围不限于这些实施例。特定实施例可以包括本文所公开的实施例中的部件、元件、特征、功能、操作或步骤中的全部、一些,或者可以不包括本文所公开的实施例中的部件、元件、特征、功能、操作或步骤。根据本发明的实施例,所附权利要求针对方法、存储介质、系统和计算机程序产品,其中,在一个权利要求类别(例如,方法)中提到的任何特征也可以在另一个权利要求类别(例如,系统)中得到保护。所附权利要求书中的从属关系或回引是仅出于形式原因而选择的。然而,也可以对从对任何先前的权利要求(特别是多个从属权利要求)的有意引用中产生的任何主题要求保护,使得多个权利要求及其多个特征的任何组合无论在所附权利要求书中所选择的从属关系如何、都被公开且可以被要求保护。可以要求保护的主题不仅包括所附权利要求书中所阐述的多个特征的多种组合,还包括权利要求书中的多个特征的任何其他组合,其中,在权利要求书中所提到的每个特征可以与权利要求书中的任何其他特征或其他特征的组合进行组合。此外,本文所描述或所描绘的任何实施例和特征可以在单独的权利要求中被要求保护,和/或在与本文所描述或所描绘的任何实施例或特征的任何组合中、或在与所附权利要求书中的任何特征的任何组合中被要求保护。
附图说明
图1示出了视频帧插值的示例流水线。
图2示出了用于视频帧插值的示例架构。
图3示出了示例运动线性。
图4A示出了以低帧率采集的示例视频。
图4B示出了具有高帧率的示例重构视频。
图5示出了视频重构的示例方法。
图6示出了示例计算机系统。
具体实施方式
在特定实施例中,计算系统可以通过以下方式来降低摄像头的功耗:利用摄像头以较低的帧率采集视频并将所采集的视频传输到接收计算机;然后在该接收计算机处利用高效的视频插值算法将所采集的视频重构为所需的较高帧率。视频帧插值算法可以将帧序列作为输入,并且在每两个相邻帧的中间合成一个帧或几个帧。视频帧插值算法还可以将所合成的帧与原始相邻帧按照这些帧的时间顺序进行组合,从而以较高的帧率完成对视频的重构。基于本文所公开的实施例,可以将摄像头的成像、压缩和传输的负担重新分配为接收计算机上的计算负担,这不仅可以延长摄像头的电池寿命,而且可以节省传输所采集的视频的带宽。尽管本公开描述了由特定系统以特定方式重构特定视频,但是本公开考虑了由任何合适的系统以任何合适的方式重构任何合适的视频。
在特定实施例中,接收计算机可以访问由一个或多个摄像头采集的视频。该视频可以与第一帧率相关联,该第一帧率低于阈值帧率。对于所访问的视频的任意两个相邻帧,接收计算机可以执行以下步骤。在特定实施例中,接收计算机可以基于与该两个相邻帧相关联的光流,从该两个相邻帧生成扭曲帧。接收计算机然后可以分别确定该两个相邻帧的对齐。接收计算机然后可以将所确定的、该两个相邻帧的对齐进行融合。接收计算机可以进一步基于融合的对齐来生成重构帧。在特定实施例中,接收计算机还可以基于该任意两个相邻帧及它们各自的重构帧来对所访问的视频进行重构。重构视频可以与第二帧率相关联,该第二帧率高于阈值帧率。
采集和流式传输高质量视频(例如,以60每秒帧数(fps))可能会消耗相当大的功率,这可能不是诸如智能手表和增强现实(AR)眼镜等紧凑型设备所期望的。另一方面,流式传输高质量视频还可能需要大量的带宽,这对无线传输来说可能是一个挑战。为了减少紧凑型设备的摄像头的功耗、以及传输带宽,我们可以以显著较低的帧率(例如,8fps至10fps而不是60fps)采集视频。摄像头在采集视频后,可以通过无线传输将所采集的视频数据发送到视频接收计算机。该接收计算机在接收到该视频数据后,可以使用视频帧插值算法将该低帧率的视频重构为所需的高帧率。本文所公开的实施例可以用于低功耗拍摄,以从运动可能非常不连续的超低每秒帧率重构正常速度的视频。本文所公开的实施例还可以用于慢动作模式,以将普通视频转换为超高每秒帧率。
传统的增加帧率的方法可能假设运动是连续的,并且所有信息都可以从这样的运动中获得。这些方法可能只是根据相对应的像素在之间插值信息。相比之下,本文所公开的实施例关注于不同的问题,其中在发送侧(例如,采集视频的摄像头)存在明显的帧丢弃(以实现超低帧率),并且在接收计算机侧(例如,远程服务器)进行视频重构。作为示例而非限制,一个特别的挑战可能是,当只有几个帧时,可能存在更大的运动不连续性。一些传统的方法对于从超低帧率的视频重构视频可能是有用的,但这些方法存在几个限制,这些限制包括:长且复杂的处理流水线,大型的模型,以及不适合超长帧率插值。相比之下,本文所公开的实施例可以构成用于视频插值的、高效且轻量的方法,并同时以超长帧率分辨率处理运动。
基于本文所公开的实施例,摄像头可能够以非常低的帧率记录视频,以节省图像信号处理器、数据压缩和传输的功率。在特定实施例中,访问由一个或多个摄像头采集的视频可以包括:经由无线网络接收从该一个或多个摄像头传输的视频。传输所采集的视频所需的带宽也可以低于正常的带宽。也就是说,该无线网络可以与低于阈值带宽的带宽相关联。作为示例而非限制,摄像头可以以15fps进行记录。在两帧之间的间隔期间,曝光窗口可以很短或长达约1/15秒。长时间曝光的帧可能看起来模糊,但摄像头也可以在间隔期间记录更多的运动信息。接收计算机可以使用视频插值算法将低帧率的视频恢复到目标帧率。对于短时间曝光输入,视频插值算法可以只估计各输入帧之间的运动。对于长时间曝光输入,视频插值算法可以将运动模糊帧解码成帧序列。利用这样的帧序列,接收计算机可以从中恢复清晰的帧。由于接收计算机不需要从长时间曝光输入中产生运动幻觉(hallucinate),因此重构结果可能比短时间曝光效果更好。
图1示出了视频帧插值的示例流水线100。以由图像0 105和图像2 110表示的两个相邻帧为例,流水线100的目标可以是在这两个帧之间生成帧(由图像1 115表示)。在特定实施例中,接收计算机可以提取任意两个相邻帧的特征。可以基于所提取的特征确定该任意两个相邻帧的对齐。接收计算机还可以基于所提取的、该任意两个相邻帧的特征,通过扭曲算法生成该任意两个相邻帧的重构帧的特征。如图1所示,接收计算机可以首先提取图像0的特征和图像2的特征,这些特征由特征0 120和特征2 125表示。接收计算机可以另外基于图像0 105和图像2 110通过来自这些图像的光流生成扭曲图像。该扭曲图像可以被认为是这两个相邻帧之间的帧的近似图像。然而,该扭曲图像可能会有孔洞/不准确。
在特定实施例中,接收计算机然后可以使用图像0的特征和图像2的特征在特征空间中对齐这些图像。该对齐的目标可以是确定图像0 105和图像2 110中的像素的新位置或运动动作。作为示例而非限制,该对齐可以有助于确定如何将图像0 105和图像2 110中描绘的运动对象放置到图像1 115中的正确位置。在特定实施例中,该任意两个相邻帧可以各自描绘一个或多个运动对象。因此,确定该任意两个相邻帧的对齐可以包括:确定该一个或多个运动对象在该任意两个相邻帧的重构帧中的一个或多个相应放置。为了对齐,接收计算机可以估计前向流动和后向流动、反向传播运动,并找到反向投影,以拟合从图像0 105到图像1 115的流动与从图像1 115到图像2 110的流动。接收计算机可以对该流动进行进一步细化以产生更好的对齐。利用这些技术,对齐不仅可以处理视频中对象的运动,还可以处理环境的变化。在特定实施例中,该任意两个相邻帧可以与第一运动相关联,该第一运动与该一个或多个摄像头相关联。确定该任意两个相邻帧的对齐可以包括:确定与该一个或多个摄像头相关联的第二运动。因此,对齐可以基于该第二运动。作为示例而非限制,如果视频是由头戴式设备(例如,AR眼镜)采集的,则可能存在与该视频相关联的头部运动,并且对齐可以有助于确定在头部运动的影响下像素的新位置或运动动作。
在对齐之后,我们可以得到图像0的经对齐特征(由经对齐0 130表示)和图像1的经对齐特征(由经对齐2 135表示)。接收计算机可以进一步将图像0 105的经对齐特征和图像1 115的经对齐特征进行融合,以获得融合特征(由融合1 140表示)。在特定实施例中,接收计算机可以基于上下文信息将所确定的、该任意两个相邻帧的对齐进行融合,从而确保特征0 120、融合1 140和特征2 125在时间上被平滑。
在特定实施例中,融合1 140之后可以用于生成中间图像。该中间图像可以具有残差信息(residual information)。也就是说,该中间图像的每个像素可以指示残差。接收计算机可以进一步将具有(例如,基于RGB通道的)像素信息的扭曲图像添加到该中间图像,以生成重构图像1 115。在特定实施例中,接收计算机可以将与该任意两个相邻帧相关联的扭曲帧添加到该任意两个相邻帧的重构帧中。在替代实施例中,接收计算机可以只将与该任意两个相邻帧相关联的覆盖层添加到该任意两个相邻帧的重构帧中,例如,添加图像0 105和图像1 110的覆盖层。在替代实施例中,接收计算机可以将该任意两个相邻帧中的一个帧添加到该任意两个相邻帧的重构帧中,例如,将图像0 105和图像1110中仅一个图像添加到中间图像,以生成重构图像1 115。
图2示出了用于视频帧插值的示例架构200。在特定实施例中,任意两个相邻帧可以包括第一帧和第二帧。相应地,生成扭曲帧可以包括以下步骤。接收计算机可以首先确定从第一帧到第二帧的前向光流和从第二帧到第一帧的后向光流。然后,接收计算机可以以预定时间间隔确定中间光流。然后,接收计算机可以基于抛雪球法(splatting)来确定从重构帧到第一帧的第一反向光流以及从第二帧到重构帧的第二反向光流。然后,接收计算机可以基于第一反向光流将第一帧扭曲到预定时间间隔,并基于第二反向光流将第二帧扭曲到预定时间间隔。接收计算机还可以通过将扭曲后的第一帧和扭曲后的第二帧进行融合来生成扭曲帧。
如图2所示,I02 205表示两个相邻帧I0 210和I2 215之间的中间帧。在特定实施例中,可以从对I0和I2的简单处理中获得I02 205。作为示例而非限制,接收计算机可以计算I0210和I2 215之间的前向光流F02和后向光流F20。然后,接收计算机可以在时间间隔1处获得中间光流F01和F21。然后,接收计算机可以使用抛雪球法来获得相应的反向流F10和F12,并且使用它们来将I0 210和I2 215分别扭曲到时间间隔1。在特定实施例中,接收计算机可以将获得的两个结果进行融合以得到I02 205。除了上述的扭曲方法外,也可以通过一些简单的方法获得I02 205,例如简单地取I0 210和I2 215的平均值,或者仅仅是采用I0 210或I2215。对于视频帧插值的整个过程,可能只计算一次光流。
在特定实施例中,特征提取器220可以提取I0 210的特征和I2 215的特征,这些特征分别由F0 225和F2 230表示。然后,接收计算机可以基于F0 225和F2 230执行特征对齐235。在特定实施例中,确定任意两个相邻帧的对齐可以包括以下步骤。接收计算机可以通过将光流连接到所提取的特征来计算偏移场。然后,接收计算机可以通过将计算出的偏移场添加到与所提取的特征相关联的流场,来生成精细化的偏移场。然后,接收计算机可以确定该任意两个相邻帧在前向方向和后向方向上的对应关系。接收计算机可以进一步基于该精细化的偏移场来对与对应关系相对应的位置进行卷积。
关于图2,特征对齐235的详细过程240可以如下所示。可在先前的阶段已经计算出了用流场表示的光流。接收计算机可以通过使用可变形卷积来执行流引导的可变形对齐,以找到I0 210和I2 215在前向方向上的对应关系和在后向方向上的对应关系。在特定实施例中,该可变形卷积可以计算偏移场(表示为偏移量),然后对相应的位置进行卷积。可以将光流(即,流场)连接到两个特征F0 225和F2 230,以计算该偏移场(即,偏移量)。在特定实施例中,可以将计算出的偏移场添加到流场,以获得精细化的偏移量估计。经过可变形卷积后,我们可以得到分别来自I0 210和I2 215的两个经对齐特征F0 1和F2 1。然后,我们可以使用1x1卷积将它们融合到间隔特征F1 1中。
在特定实施例中,估计的间隔特征F1 1和所提取的特征F0 225和F2 230可以形成序列F1 245。接收计算机可以将序列F1 245传递到序列到序列(sequence-to-sequence,seq2seq)转换模块250。作为示例而非限制,序列到序列(seq2seq)转换模块250可以是可变形卷积-LSTM(convolution-LSTM,convLSTM)模块255。以这种方式,这些特征在这种循环传播之后,可以变得更加一致/和谐。尽管本公开将序列到序列(seq2seq)转换模块描述为可变形卷积-LSTM模块,但是本公开考虑了用于序列到序列(seq2seq)转换模块的任何合适的模块,这些模块例如为,简单的循环神经网络、通用编码器-解码器结构或其他传播方法。
在特定实施例中,序列到序列转换模块250的输出可以用于重构260。重构260可以基于卷积层序列。在特定实施例中,重构260可以基于任何合适的神经网络结构,该神经网络结构例如为U-net、序列残差块(sequential residual block)等。该结构可以包括堆叠的卷积层。
在特定实施例中,可以将I02 205添加到重构输出R02以获得最终输出I1 265,即,I1=I02+R02。这样做的原因可以如下。当只依赖于光流时,可能存在一些缺点。例如,由于光流的遮挡或发散,我们可能无法找到对应点。又例如,可能存在大孔洞,并且可能是不连续的。因此,重构的视频在视觉上可能令人不愉快。在特定实施例中,I02 205可以用作初始值或基线,并从架构200返回以修补孔洞或细化细节,从而我们可以生成更好的重构。此外,这可以使对整个架构200的优化更容易。
在特定实施例中,视频插值算法可以基于运动线性的假设来运行。线性或非线性运动可以影响位置估计的精度。为了实现非线性运动估计,输入窗口大小应大于2帧。除了运动线性外,输入窗口的大小还可能影响递归模块的上下文传播。在特定实施例中,接收计算机可以使用多于两个的不同帧来重构帧,因为这些不同帧可以提供关于运动的更多信息和上下文。使用更多的帧,接收计算机可以在更准确的位置重构运动。图3示出了示例运动线性。如图3所示,当将输入从两帧变为三帧或四帧时,由于运动非线性,重构质量大大提高。在特定实施例中,这种改进可以针对特征对齐235。本文所公开的实施例进行了实验以揭示运动线性的影响。选择ZSM来比较运动线性的影响。ZSM是一种基线时空超分辨率方法。ZSM具有双向可变形卷积-LSTM,该双向可变形卷积-LSTM利用插值帧和地面真实帧(ground-truth frame)来传播整个序列。表1列出了通过峰值信噪比(peak signal-to-noise ratio,PSNR)和结构相似性(structural similarity,SSIM)指数测量的运动线性影响的结果。
输入帧的数量 | 输出帧的数量 | PSNR | SSIM |
2 | 1 | 35.57 | 0.9594 |
3 | 2 | 36.19 | 0.9634 |
4 | 3 | 36.33 | 0.9647 |
表1.运动线性影响的实验结果。
从表1可以看出,当输入帧的数量从2变为3时,PSNR增加了0.62,SSIM增加了0.0040。当输入帧的数量从3变为4时,PSNR增加0.14,SSIM增加0.013。观测结果可以表明运动线性确实影响重构精度。然而,随着帧数量的增加,这样的改善可能会变得越来越小。
本文公开的实施例另外进行了实验以揭示对齐的影响。我们换用了基线模块的对齐模块,并比较了结果:无对齐,基于光流的、具有SpyNet的特征扭曲,级联可变形采样、和流引导变形对齐(flow-guided deformation alignment,FDA)。表2列出了通过PSNR和SSIM测量的对齐影响的结果。
对齐 | 参数 | 可训练的参数 | PSNR | SSIM |
无 | 170万 | 170.0万 | 31.94 | 0.9180 |
SpyNet | 310万 | 170.0万 | 32.02 | 0.9308 |
可变形 | 250万 | 250.0万 | 32.45 | 0.9259 |
FDA | 420万 | 280.0万 | 33.02 | 0.9381 |
表2.对齐影响的实验结果。
从表2可以看出,对齐模块大大地提高了性能,无论是隐式的还是显式的。基于光流的方法保留了更多的细节,而可变形的对齐在PSNR方面更好。结合光流和可变形采样,流引导可变形对齐模块显示了对对齐结果的可靠改进。尽管如此,其还是大大增加了模型的大小。
本文所公开的实施例还通过换用光流估计器另外进行了实验。在一个实验中,我们通过使用光流进行特征扭曲或在流引导变形对齐(FDA)中切换光流,来冻结参数。表3列出了使用光流进行特征扭曲时的结果。表4列出了在FDA中切换光流时的结果。
对齐 | 参数 | 可训练的参数 | PSNR | SSIM |
PWCNet | 950万 | 1.3万 | 29.60 | 0.8896 |
SpyNet | 150万 | 1.3万 | 29.60 | 0.8897 |
表3.使用光流进行特征扭曲时的实验结果。
对齐 | 参数 | 可训练的参数 | PSNR | SSIM |
FDA-PWCNet | 980万 | 39.7万 | 33.31 | 0.9436 |
FDA-SpyNet | 180万 | 39.7万 | 33.61 | 0.9471 |
表4.在FDA中切换光流时的实验结果。
在另一个实验中,我们使所有参数都是可训练的。表5列出了使所有参数可训练时的结果。
对齐 | 参数 | 可训练的参数 | PSNR | SSIM |
SpyNet | 150万 | 150万 | 32.46 | 0.9257 |
FDA-SpyNet | 180万 | 180万 | 34.85 | 0.9553 |
表5.使所有参数都可训练时的实验结果。
从表3至表5看出,SpyNet在相同数量的可训练参数下表现得更好(PSNR中+0.30),并且具有更小的整体模型大小。当使所有参数可训练时,仅使用光流进行特征扭曲,PSNR增加了2.86,SSIM增加了0.063。当使所有参数可训练时,使用流引导扭曲,PNSR增加了1.24,SSIM增加了0.0082。
本文所公开的实施例另外进行了实验以揭示传播的影响。实验设计如下。对于双向可变形卷积-LSTM,其用插值帧和地面真实帧来传播整个序列。对于对齐传播,我们使对齐模块接受前向和后向时间信息。实验结果表明,时间传播可能是重要的。结果还表明,我们可能不需要重复的传播模块,而是应该考虑如何设计传播与对齐,以获得更好的协同作用。
本文所公开的实施例还进行了实验以与现有技术进行比较。表6列出了与现有技术的比较。这些实验是基于用于低级别视频处理的实验数据集。可以看出,我们的模型(无论大还是小)只需10%到50%的参数就可以达到与现有技术相当甚至更好的性能。
表6.与现有技术的比较。
图4A示出了以低帧率采集的示例视频。图4B示出了具有高帧率的示例重构视频。可以看出,由于低帧率,图4A中的视频是模糊的。通过本文所公开的实施例进行重构后,视频具有高帧率,并且看起来更清晰。
本文所公开的实施例可以应用于各种用例。在一个用例中,这些实施例可以应用于配套设备(例如,可穿戴设备)与渲染设备之间的视频流。配套设备可以与渲染设备配对。在特定实施例中,一个或多个摄像头可以与配套/可穿戴设备相关联。作为示例而非限制,配套/可穿戴设备可以是智能手表、虚拟现实(VR)头戴式设备、AR眼镜或智能眼镜,渲染设备可以是计算机、智能手机或平板电脑。配套设备可以采集超低帧率视频并将其发送到渲染设备,其中,渲染设备可以基于本文所公开的实施例来重构高帧率视频。可能很重要的是,因为配套设备可能是具有有限电池的紧凑型设备,而对于该紧凑型设备来说,采集超低帧率视频可以节省电池。在另一用例中,这些实施例可以应用于全息图呼叫,其中,例如VR眼镜上的摄像头可以采集超低帧率视频并通过网络传输该视频。然后,服务器可以重构高帧率视频,并将该高帧率视频渲染给呼叫中的参与者。在又一个用例中,这些实施例可以应用于移动呼叫,其中,智能手机可以采集超低帧率的视频并通过网络传输该视频。然后,服务器可以重构高帧率视频,并将其渲染给呼叫中的参与者。
图5示出了用于视频重构的示例方法500。该方法可以在步骤510开始,在该步骤中,接收计算机可以访问由一个或多个摄像头采集的视频,其中,该视频与第一帧率相关联,该第一帧率低于阈值帧率。在步骤520,接收计算机可以对所访问的视频的任意两个相邻帧执行以下子步骤。在子步骤520a,接收计算机可以基于与该两个相邻帧相关联的光流,从该两个相邻帧生成扭曲帧。在子步骤520b,接收计算机可以分别确定该两个相邻帧的对齐。在子步骤520c,接收计算机可以将所确定的、该两个相邻帧的对齐进行融合。在子步骤520d,接收计算机可以基于融合的对齐来生成重构帧。在子步骤520e,接收计算机可以通过将扭曲帧添加到重构帧,来生成细化的重构帧。在步骤530,接收计算机可以基于该任意两个相邻帧和它们各自的细化重构帧,来对所访问的视频进行重构,其中,重构的视频与第二帧率相关联,该第二帧率高于阈值帧率。在适当的情况下,特定实施例可以重复图5的方法中的一个或多个步骤。尽管本公开将图5的方法中的各特定步骤描述和示出为以特定顺序发生,但是本公开考虑了以任何合适的顺序发生的、图5的方法的任何合适的步骤。此外,尽管本公开描述和示出了包括图5的方法的这些特定步骤的用于视频重构的示例方法,但是本公开考虑了包括任何合适步骤的用于视频重构的任何合适的方法,在适当的情况下,这些合适的步骤可以包括图5的方法中的所有步骤、一些步骤或者不包括图5的方法的任何步骤。此外,尽管本公开描述和示出了执行图5的方法的特定步骤的特定部件、设备或系统,但是本公开考虑了执行图5的方法的任何合适的步骤的任何合适的部件、设备或系统的任何合适的组合。
图6示出了示例计算机系统600。在特定实施例中,一个或多个计算机系统600执行本文所描述或示出的一种或多种方法的一个或多个步骤。在特定实施例中,一个或多个计算机系统600提供本文所描述或示出的功能。在特定实施例中,在一个或多个计算机系统600上运行的软件执行本文所描述或示出的一种或多种方法的一个或多个步骤,或者提供本文所描述或示出的功能。特定实施例包括一个或多个计算机系统600的一个或多个部分。在本文中,在适当的情况下,对计算机系统的引述可以包括计算设备,反之亦然。此外,在适当的情况下,对计算机系统的引述可以包括一个或多个计算机系统。
本公开考虑了任何合适数量的计算机系统600。本公开考虑了采用任何合适的物理形式的计算机系统600。作为示例而非限制,计算机系统600可以为嵌入式计算机系统、片上系统(System-On-Chip,SOC)、单板计算机系统(Single-Board Computer System,SBC)(例如,计算机模块(Computer-On-Module,COM)或系统模块(system-on-module,SOM))、台式计算机系统、膝上型或笔记本式计算机系统、交互式自助服务机、大型机、计算机系统组网、移动电话、个人数字助理(Personal Digital Assistant,PDA)、服务器、平板计算机系统、或这些系统中的两者或更多者的组合。在适当的情况下,计算机系统600可以包括一个或多个计算机系统600;可以是单一的或分布式的;跨多个位置的;跨多台机器的;跨越多个数据中心的;或驻留在云中(该云可以包括一个或多个网络中的一个或多个云组件)。在适当的情况下,一个或多个计算机系统600可以在无实质性的空间限制或时间限制的情况下,执行本文所描述或示出的一种或多种方法的一个或多个步骤。作为示例而非限制,一个或多个计算机系统600可以实时地或以分批处理模式执行本文所描述或示出的一种或多种方法的一个或多个步骤。在适当的情况下,一个或多个计算机系统600可以在不同的时间或在不同的位置执行本文所描述或示出的一种或多种方法的一个或多个步骤。
在特定实施例中,计算机系统600包括处理器602、内存604、存储器606、输入/输出(Input/Output,I/O)接口608、通信接口610和总线612。尽管本公开描述并示出了具有处于特定布置的特定数量的特定部件的特定计算机系统,但本公开考虑了具有处于任何合适的布置的任何合适数量的任何合适部件的任何合适的计算机系统。
在特定实施例中,处理器602包括用于执行多个指令的硬件,这些指令例如为,构成计算机程序的那些指令。作为示例而非限制,为了执行多个指令,处理器602可从内部寄存器、内部高速缓冲存储器、内存604、或存储器606检索(或读取)这些指令;解码并执行这些指令;然后将一个或多个结果写入内部寄存器、内部高速缓冲存储器、内存604或存储器606。在特定实施例中,处理器602可以包括用于数据、指令或地址的一个或多个内部高速缓冲存储器。在适当的情况下,本公开考虑了包括任何合适数量的任何合适的内部高速缓冲存储器的处理器602。作为示例而非限制,处理器602可以包括一个或多个指令高速缓冲存储器、一个或多个数据高速缓冲存储器、和一个或多个转译后备缓冲器(TranslationLookaside Buffer,TLB)。指令高速缓冲存储器中的多个指令可以是内存604或存储器606中的多个指令的副本,并且该指令高速缓冲存储器可以加速处理器602对这些指令的检索。数据高速缓冲存储器中的数据可以是内存604或存储器606中的数据的副本,以供在处理器602处执行指令对该数据进行操作;可以是在处理器602处执行的先前指令的结果,用于供处理器602处执行后续指令时访问、或用于写入内存604或存储器606;或者可以是其他合适的数据。数据高速缓冲存储器可以加速处理器602的读操作或写操作。TLB可以加速处理器602的虚拟地址转换。在特定实施例中,处理器602可以包括用于数据、指令或地址的一个或多个内部寄存器。在适当的情况下,本公开考虑了处理器602包括任何适当数量的任何合适的内部寄存器。在适当的情况下,处理器602可以包括一个或多个算术逻辑单元(Arithmetic Logic Unit,ALU);可以是多核处理器;或可以包括一个或多个处理器602。尽管本公开描述并示出了特定的处理器,但是本公开考虑了任何合适的处理器。
在特定实施例中,内存604包括主内存,该主内存用于存储供处理器602执行的指令或供处理器602操作的数据。作为示例而非限制,计算机系统600可以将多个指令从存储器606或另一源(例如,另一计算机系统600)加载到内存604。然后,处理器602可以将这些指令从内存604加载到内部寄存器或内部高速缓冲存储器。为了执行这些指令,处理器602可以从内部寄存器或内部高速缓冲存储器中检索这些指令并对它们进行解码。在执行这些指令期间或之后,处理器602可以将一个或多个结果(该一个或多个结果可以是中间结果或最终结果)写入内部寄存器或内部高速缓冲存储器。然后,处理器602可以将这些结果中的一个或多个结果写入内存604。在特定实施例中,处理器602仅执行一个或多个内部寄存器中或一个或多个内部高速缓冲存储器中的、或内存604(与存储器606不同或其他位置)中的指令,且仅对一个或多个内部寄存器或内部高速缓冲存储器中的、或内存604(与存储器606不同或其他位置)中的数据进行操作。一条或多条内存总线(每条内存总线可以包括地址总线和数据总线)可以将处理器602耦接到内存604。如下所述,总线612可以包括一条或多条内存总线。在特定实施例中,一个或多个内存管理单元(Memory Management Unit,MMU)位于处理器602与内存604之间,并且促进由处理器602所请求的对内存604的访问。在特定实施例中,内存604包括随机存取存储器(Random Access Memory,RAM)。在适当的情况下,该RAM是易失性存储器。在适当的情况下,该RAM可以为动态RAM(Dynamic RAM,DRAM)或静态RAM(Static RAM,SRAM)。此外,在适当的情况下,该RAM可以是单端口RAM或多端口RAM。本公开考虑了任何合适的RAM。在适当的情况下,内存604可以包括一个或多个内存604。尽管本公开描述和示出了特定的内存,但本公开考虑了任何合适的内存。
在特定实施例中,存储器606包括用于数据或指令的大容量存储器。作为示例而非限制,存储器606可以包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器(Floppy DiskDrive,FDD)、闪存、光盘、磁光盘、磁带、或通用串行总线(Universal Serial Bus,USB)驱动器、或这些存储器中的两者或更多者的组合。在适当的情况下,存储器606可以包括可移除介质或不可移除(或固定)介质。在适当的情况下,存储器606可以处于计算机系统600的内部或外部。在特定实施例中,存储器606是非易失性固态存储器。在特定实施例中,存储器606包括只读存储器(Read-Only Memory,ROM)。在适当的情况下,该ROM可以是掩码编程ROM、可编程ROM(Programmable ROM,PROM)、可擦除PROM(Erasable PROM,EPROM)、电可擦除PROM(Electrically Erasable PROM,EEPROM)、电可改写ROM(Electrically AlterableROM,EAROM)或闪存、或这些ROM中的两者或更多者的组合。本公开考虑了采用任何合适物理形式的大容量存储器606。在适当的情况下,存储器606可以包括促进处理器602和存储器606之间的通信的一个或多个存储器控制单元。在适当的情况下,存储器606可以包括一个或多个存储器606。尽管本公开描述和示出了特定的存储器,但是本公开考虑了任何合适的存储器。
在特定实施例中,I/O接口608包括这样的硬件、软件或这两者:该硬件、软件或这两者提供用于计算机系统600与一个或多个I/O设备之间的通信的一个或多个接口。在适当的情况下,计算机系统600可以包括这些I/O设备中的一个或多个I/O设备。这些I/O设备中的一个或多个I/O设备可以实现个人与计算机系统600之间的通信。作为示例而非限制,I/O设备可以包括键盘、小键盘、传声器、监视器、鼠标、打印机、扫描仪、扬声器、静物摄像头、手写笔、平板电脑、触摸屏、跟踪球、摄像机、另一合适的I/O设备、或这些I/O设备中的两者或更多者的组合。I/O设备可以包括一个或多个传感器。本公开考虑了任何合适的I/O设备和用于该I/O设备的任何合适的I/O接口608。在适当的情况下,I/O接口608可以包括使处理器602能够驱动这些I/O设备中的一个或多个I/O设备的一个或多个设备或软件驱动器。在适当的情况下,I/O接口608可以包括一个或多个I/O接口608。尽管本公开描述和示出了特定的I/O接口,但本公开考虑了任何合适的I/O接口。
在特定实施例中,通信接口610包括这样的硬件、软件或这两者:该硬件、软件或这两者提供一个或多个接口,该一个或多个接口用于计算机系统600与一个或多个其他计算机系统600或一个或多个网络之间的通信(例如,基于数据包的通信)。作为示例而非限制,通信接口610可以包括用于与以太网或其他基于线路的网络进行通信的网络接口控制器(network interface controller,NIC)或网络适配器,或用于与诸如WI-FI网络等无线网络进行通信的无线NIC(wireless NIC,WNIC)或无线适配器。本公开考虑了任何合适的网络和用于该网络的任何合适的通信接口610。作为示例而非限制,计算机系统600可以与如下的网络进行通信:自组网、个域网(personal area network,PAN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、或互联网的一个或多个部分、或这些网络中的两者或更多者的组合。这些网络中的一种或多种网络的一个或多个部分可以是有线的或无线的。作为示例,计算机系统600可以与如下的网络进行通信:无线PAN(wireless PAN,WPAN)(例如,蓝牙WPAN)、WI-FI网络、WI-MAX网络、蜂窝电话网络(例如,全球移动通信系统(Global System forMobile Communications,GSM)网络)、或其他合适的无线网络、或这些网络中的两者或更多者的组合。在适当的情况下,计算机系统600可以包括用于这些网络中的任何网络的任何合适的通信接口610。在适当情况下,通信接口610可以包括一个或多个通信接口610。尽管本公开描述并示出了特定的通信接口,但是本公开考虑了任何合适的通信接口。
在特定实施例中,总线612包括将计算机系统600的多个部件彼此耦接的硬件、软件或这两者。作为示例而非限制,总线612可以包括:加速图形端口(Accelerated GraphicsPort,AGP)或其他图形总线、增强型工业标准体系结构(Enhanced Industry StandardArchitecture,EISA)总线、前端总线(front-side bus,FSB)、超传输(HYPERTRANSPORT,HT)互连、工业标准体系结构(Industry Standard Architecture,ISA)总线、无限带宽(INFINIBAND)互连、低引脚计数(low-pin-count,LPC)总线、内存总线、微通道结构(MicroChannel Architecture,MCA)总线、外围部件互连(Peripheral Component Interconnect,PCI)总线、高速外围部件互联(PCI-Express,PCIe)总线、串行高级技术附件(serialadvanced technology attachment,SATA)总线、视频电子标准协会局域(VideoElectronics Standards Association local,VLB)总线、或另一合适的总线、或这些总线中的两者或更多者的组合。在适当的情况下,总线612可以包括一条或多条总线612。尽管本公开描述和示出了特定的总线,但本公开考虑了任何合适的总线或互连件。
在本文中,在适当的情况下,一种或多种计算机可读非暂态存储介质可以包括:一个或多个基于半导体的集成电路(integrated circuit,IC)或其他IC(例如,现场可编程门阵列(field-programmable gate array,FPGA)或专用IC(application-specific IC,ASIC))、硬盘驱动器(HDD)、混合硬盘驱动器(hybrid hard drive,HHD)、光盘、光盘驱动器(optical disc drive,ODD)、磁光盘、磁光盘驱动器、软盘、软盘驱动器、磁带、固态驱动器(solid-state drive,SSD)、RAM驱动器、安全数字卡(SECURE DIGITAL card)或安全数字驱动器、任何其他合适的计算机可读非暂态存储介质、或这些存储介质中的两者或更多者的任何合适的组合。在适当的情况下,计算机可读非暂态存储介质可以是易失性的、非易失性的、或易失性与非易失性的组合。
在本文中,除非另有明确指示或上下文另有指示,否则“或”是包括性的而非排他性的。因此,在本文中,除非另有明确指示或上下文另有指示,否则“A或B”指的是“A、B、或A和B这两者”。此外,除非另有明确指示或上下文另有指示,否则“和”既是共同的,也是各自的。因此,在本文中,除非另有明确指示或上下文另有指示,否则“A和B”指的是“A和B,共同地或单独地”。
本公开的范围涵盖:本领域普通技术人员将理解的、对本文所描述或所示出的示例实施例的所有改变、替换、变化、变更和修改。本公开的范围不限于本文所描述或示出的示例实施例。此外,尽管本公开将本文的各个实施例描述和示出为包括特定的部件、元件、特征、功能、操作、或步骤,但本领域普通技术人员将理解的是,这些实施例中的任何实施例都可以包括本文中任何地方所描述或示出的部件、元件、特征、功能、操作、或步骤的任何组合或排列。此外,在所附权利要求中对装置或系统、或装置或系统的部件(这些装置、系统、部件适于、被布置为、能够、被配置为、被实现为、可操作地或可使用以执行特定功能)的引用涵盖了该装置、系统、部件(无论该装置、系统、部件或该特定功能是否被激活、开启或解锁),只要该装置、系统或部件是如此适于、被布置为、能够、被配置为、被实现为、可操作地或可使用。另外,尽管本公开将特定实施例描述或示出为提供特定优点,但特定实施例可以不提供这些优点,或者可以提供这些优点中的一些或全部优点。
Claims (20)
1.一种方法,包括:由一个或多个计算系统:
访问由一个或多个摄像头采集的视频,其中,所述视频与第一帧率相关联,所述第一帧率低于阈值帧率;
对于所访问的所述视频的任意两个相邻帧:
基于与所述两个相邻帧相关联的光流,从所述两个相邻帧生成扭曲帧;
分别确定所述两个相邻帧的对齐;
将所确定的、所述两个相邻帧的所述对齐进行融合;以及
基于融合的对齐生成重构帧;以及
基于所述任意两个相邻帧及所述任意两个相邻帧各自的重构帧,对所访问的所述视频进行重构,其中,重构的视频与第二帧率相关联,所述第二帧率高于所述阈值帧率。
2.根据权利要求1所述的方法,其中,访问由所述一个或多个摄像头采集的所述视频包括:
经由无线网络接收从所述一个或多个摄像头传输的所述视频。
3.根据权利要求2所述的方法,其中,所述无线网络与低于阈值带宽的带宽相关联。
4.根据权利要求1所述的方法,其中,所述一个或多个摄像头与可穿戴设备相关联。
5.根据权利要求1所述的方法,还包括:
提取所述任意两个相邻帧的特征,其中,所述任意两个相邻帧的所述对齐是基于所提取的所述特征来确定的。
6.根据权利要求5所述的方法,其中,确定所述任意两个相邻帧的所述对齐包括:
通过将所述光流连接到所提取的所述特征来计算偏移场;
通过将计算出的所述偏移场添加到与所提取的所述特征相关联的流场,来生成精细化偏移场;
确定所述任意两个相邻帧在前向方向和后向方向上的对应关系;
基于所述精细化偏移场,对与所述对应关系相对应的位置进行卷积。
7.根据权利要求5所述的方法,还包括:
基于所提取的、所述任意两个相邻帧的所述特征,通过扭曲算法为所述任意两个相邻帧的所述重构帧生成特征。
8.根据权利要求1所述的方法,其中,所述任意两个相邻帧各自描绘一个或多个运动对象,并且其中,确定所述任意两个相邻帧的所述对齐包括:
确定所述一个或多个运动对象在所述任意两个相邻帧的所述重构帧中的一个或多个相应放置。
9.根据权利要求1所述的方法,其中,所述任意两个相邻帧与第一运动相关联,所述第一运动与所述一个或多个摄像头相关联,并且其中,确定所述任意两个相邻帧的所述对齐包括:
确定与所述一个或多个摄像头相关联的第二运动,其中,所述对齐基于所述第二运动。
10.根据权利要求1所述的方法,其中,将所确定的、所述任意两个相邻帧的所述对齐进行融合是基于上下文信息的。
11.根据权利要求1所述的方法,还包括:
将与所述任意两个相邻帧相关联的所述扭曲帧添加到所述任意两个相邻帧的所述重构帧中。
12.根据权利要求1所述的方法,还包括:
将与所述任意两个相邻帧相关联的覆盖层添加到所述任意两个相邻帧的所述重构帧中。
13.根据权利要求1所述的方法,还包括:
将所述任意两个相邻帧中的一个帧添加到所述任意两个相邻帧的所述重构帧中。
14.根据权利要求1所述的方法,其中,所述任意两个相邻帧包括第一帧和第二帧,其中,生成所述扭曲帧包括:
确定从所述第一帧到所述第二帧的前向光流和从所述第二帧到所述第一帧的后向光流;
以预定时间间隔确定中间光流;
基于抛雪球法,确定从所述重构帧到所述第一帧的第一反向光流和从所述第二帧到所述重构帧的第二反向光流;
基于所述第一反向光流将所述第一帧扭曲到所述预定时间间隔,并基于所述第二反向光流将所述第二帧扭曲到所述预定时间间隔;
通过将扭曲后的第一帧和扭曲后的第二帧进行融合来生成所述扭曲帧。
15.一种或多种计算机可读非暂态存储介质,所述一种或多种计算机可读非暂态存储介质包含软件,所述软件在被执行时能够操作以:
访问由一个或多个摄像头采集的视频,其中,所述视频与第一帧率相关联,所述第一帧率低于阈值帧率;
对于所访问的所述视频的任意两个相邻帧:
基于与所述两个相邻帧相关联的光流,从所述两个相邻帧生成扭曲帧;
分别确定所述两个相邻帧的对齐;
将所确定的、所述两个相邻帧的所述对齐进行融合;以及
基于融合的对齐生成重构帧;以及
基于所述任意两个相邻帧及所述任意两个相邻帧各自的重构帧,对所访问的所述视频进行重构,其中,重构的视频与第二帧率相关联,所述第二帧率高于所述阈值帧率。
16.根据权利要求15所述的介质,其中,访问由所述一个或多个摄像头采集的所述视频包括:
经由无线网络接收从所述一个或多个摄像头传输的所述视频。
17.根据权利要求16所述的介质,其中,所述无线网络与低于阈值带宽的带宽相关联。
18.根据权利要求15所述的介质,其中,所述一个或多个摄像头与可穿戴设备相关联。
19.根据权利要求15所述的介质,其中,所述软件在被执行时还能够操作以:
提取所述任意两个相邻帧的特征,其中,所述任意两个相邻帧的所述对齐是基于所提取的所述特征来确定的。
20.一种系统,包括:一个或多个处理器;以及非暂态存储器,所述非暂态存储器耦接到所述处理器,并且包括能够由所述处理器执行的指令,所述处理器在执行所述指令时能够操作以:
访问由一个或多个摄像头采集的视频,其中,所述视频与第一帧率相关联,所述第一帧率低于阈值帧率;
对于所访问的所述视频的任意两个相邻帧:
基于与所述两个相邻帧相关联的光流,从所述两个相邻帧生成扭曲帧;
分别确定所述两个相邻帧的对齐;
将所确定的、所述两个相邻帧的所述对齐进行融合;以及
基于融合的对齐生成重构帧;以及
基于所述任意两个相邻帧及所述任意两个相邻帧各自的重构帧,对所访问的所述视频进行重构,其中,重构的视频与第二帧率相关联,所述第二帧率高于所述阈值帧率。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/887,034 US20240054664A1 (en) | 2022-08-12 | 2022-08-12 | Video Reconstruction from Videos with Ultra-low Frame-per-second |
US17/887,034 | 2022-08-12 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117596495A true CN117596495A (zh) | 2024-02-23 |
Family
ID=87555007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311014698.8A Pending CN117596495A (zh) | 2022-08-12 | 2023-08-11 | 从超低帧速率视频的视频重构 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240054664A1 (zh) |
EP (1) | EP4322101A3 (zh) |
CN (1) | CN117596495A (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7817180B2 (en) * | 2005-04-28 | 2010-10-19 | Apple Inc. | Video processing in a multi-participant video conference |
US20190045213A1 (en) * | 2017-08-03 | 2019-02-07 | Intel Corporation | Reference frame reprojection for improved video coding |
US20210329306A1 (en) * | 2020-04-15 | 2021-10-21 | Nvidia Corporation | Video compression using neural networks |
US11582470B2 (en) * | 2020-09-03 | 2023-02-14 | Tencent America LLC | Method and apparatus for multi-scale neural image compression with intra-prediction residuals |
US11490078B2 (en) * | 2020-12-29 | 2022-11-01 | Tencent America LLC | Method and apparatus for deep neural network based inter-frame prediction in video coding |
US12003885B2 (en) * | 2021-06-14 | 2024-06-04 | Microsoft Technology Licensing, Llc | Video frame interpolation via feature pyramid flows |
-
2022
- 2022-08-12 US US17/887,034 patent/US20240054664A1/en active Pending
-
2023
- 2023-08-02 EP EP23189323.1A patent/EP4322101A3/en active Pending
- 2023-08-11 CN CN202311014698.8A patent/CN117596495A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20240054664A1 (en) | 2024-02-15 |
EP4322101A2 (en) | 2024-02-14 |
EP4322101A3 (en) | 2024-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7231708B2 (ja) | サンプリングされた色情報に基づいて画像シーケンスを生成および伝送するシステムおよび方法 | |
US11037531B2 (en) | Neural reconstruction of sequential frames | |
CN107529098B (zh) | 用于视频摘要的方法和系统 | |
CN113870104A (zh) | 超分辨率图像重建 | |
CN106664407A (zh) | 用于无线显示器的并行编码 | |
CN110708609A (zh) | 一种视频播放方法及装置 | |
CN109451214A (zh) | 一种高速运动目标成像设备及方法 | |
KR20200011000A (ko) | 증강 현실 프리뷰 및 위치 추적을 위한 장치 및 방법 | |
CN110889809A (zh) | 图像处理方法及装置、电子设备、存储介质 | |
WO2024140568A1 (zh) | 图像处理方法、装置、电子设备及可读存储介质 | |
US20040175055A1 (en) | Method and apparatus for re-construcing high-resolution images | |
US11128843B2 (en) | Image-sensor data compression | |
US11734952B1 (en) | Facial image data generation using partial frame data and landmark data | |
CN117596495A (zh) | 从超低帧速率视频的视频重构 | |
WO2023142715A1 (zh) | 视频编码方法、实时通信方法、装置、设备及存储介质 | |
FR2780184A1 (fr) | Procede et dispositif de decodage d'images, permettant un nombre reduit d'ouvertures de pages-memoire dans le traitement de prediction | |
KR20230092739A (ko) | 인공 지능 비디오 프레임 세그먼트화를 사용하여 비디오 프레임 픽셀 데이터를 처리하는 방법 및 장치 | |
CN115834889A (zh) | 视频编解码方法、装置、电子设备及介质 | |
US20130278775A1 (en) | Multiple Stream Processing for Video Analytics and Encoding | |
CN114900717A (zh) | 视频数据传输方法、装置、介质和计算设备 | |
CN113689407A (zh) | 图像校正方法及相关设备 | |
WO2018176392A1 (en) | Optimization of multi-sink wi-fi display with intelligent multi-session encoding | |
US11838513B2 (en) | Progressive transmission of detailed image data via video compression of successive subsampled frames | |
US20240119609A1 (en) | Distributed Sensing for Augmented Reality Headsets | |
US20240251171A1 (en) | Hallucinating details for over-exposed pixels in videos using learned reference frame selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |