CN114972809A

CN114972809A - 用于视频处理的方法、设备及计算机可读存储介质

Info

Publication number: CN114972809A
Application number: CN202110195256.2A
Authority: CN
Inventors: 王艺伟; 张宇鹏; 王炜
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2021-02-19
Filing date: 2021-02-19
Publication date: 2022-08-30
Anticipated expiration: 2041-02-19
Also published as: CN114972809B

Abstract

本公开提供用于视频处理的方法、设备及计算机可读存储介质。该方法包括：获得第一设备和第二设备分别对相同内容拍摄的第一视频和第二视频；基于第一视频的相邻帧之间的相似度，在第一视频中确定分别与第一设备的运动的开始和结束对应的第一起始帧和第一终止帧；将第一视频的第一起始帧和第一终止帧分别与第二视频的各个帧比较，以在第二视频中确定分别与第一起始帧和第一终止帧匹配的第二起始帧和第二终止帧；以及基于第一起始帧、第一终止帧、第二起始帧和第二终止帧的帧号，从第一视频和第二视频中确定多个匹配的视频帧对。根据本公开所提供的视频处理方法，可以提高对于具有不同拍摄质量的两个视频进行匹配的效率和准确度。

Description

用于视频处理的方法、设备及计算机可读存储介质

技术领域

本公开涉及计算机视觉领域，更具体地，涉及用于视频处理的方法、设备及计算机可读存储介质。

背景技术

近年来，视频匹配技术在图像处理领域中得到了广泛的应用，尤其是对同一环境分别拍摄的两个视频之间的匹配。通过在两个视频之间匹配以便找到其视频帧之间的对应关系，可以对经匹配的视频帧进行各种评价分析和后续处理等。然而，现有的视频匹配技术仅依赖于参与匹配的视频帧之间画面上的相似性，其评价因素过于单一且匹配过程效率不高。

另一方面，视频增强任务近年来也取得了显著进展。例如，视频超分辨率任务可以借助于机器学习，从低分辨率视频中重建出相应的高分辨率视频，在医学影像、卫星图像和视频监控等领域中存在重要的应用价值。然而，现有的视频超分辨率技术在构造用于机器学习的训练数据集时，仅是将高分辨率视频帧的尺寸调整为低分辨率视频帧，来构造成对的匹配视频帧，导致其学习效果并不理想。虽然可以通过以不同的分辨率拍摄两个视频的方式来构造真实世界训练数据集，但这两个视频在拍摄时序上并不对齐，因而无法直接用于进行机器学习。因此，如何对所拍摄的两个视频进行匹配以便将其用于机器学习也是本领域技术人员切实面临的问题。

因此，需要一种能够有效地对两个视频进行匹配，尤其是有效地对拍摄质量不同的两个视频进行匹配的技术。

发明内容

根据本公开的一个方面，提供了一种用于视频处理的方法，包括：获得第一设备和第二设备分别对相同内容拍摄的第一视频和第二视频；基于所述第一视频的相邻帧之间的相似度，在所述第一视频中确定分别与所述第一设备的运动的开始和结束对应的第一起始帧和第一终止帧；将所述第一视频的第一起始帧和第一终止帧分别与所述第二视频的各个帧比较，以在所述第二视频中确定分别与所述第一起始帧和所述第一终止帧匹配的第二起始帧和第二终止帧；以及基于所述第一起始帧、第一终止帧、第二起始帧和第二终止帧的帧号，从所述第一视频和所述第二视频中确定多个匹配的视频帧对。

根据本公开的另一方面，提供了一种用于视频处理的设备，包括：处理器；以及存储器，存储有计算机程序指令，其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行以下步骤：获得第一设备和第二设备分别对相同内容拍摄的第一视频和第二视频；基于所述第一视频的相邻帧之间的相似度，在所述第一视频中确定分别与所述第一设备的运动的开始和结束对应的第一起始帧和第一终止帧；将所述第一视频的第一起始帧和第一终止帧分别与所述第二视频的各个帧比较，以在所述第二视频中确定分别与所述第一起始帧和所述第一终止帧匹配的第二起始帧和第二终止帧；以及基于所述第一起始帧、第一终止帧、第二起始帧和第二终止帧的帧号，从所述第一视频和所述第二视频中确定多个匹配的视频帧对。

根据本公开的又一方面，提供了一种用于视频处理的设备，包括：视频接收单元，被配置为获得第一设备和第二设备分别对相同内容拍摄的第一视频和第二视频；视频内运动确定单元，被配置为基于所述第一视频的相邻帧之间的相似度，在所述第一视频中确定分别与所述第一设备的运动的开始和结束对应的第一起始帧和第一终止帧；视频间匹配单元，被配置为将所述第一视频的第一起始帧和第一终止帧分别与所述第二视频的各个帧比较，以在所述第二视频中确定分别与所述第一起始帧和所述第一终止帧匹配的第二起始帧和第二终止帧；以及匹配帧对确定单元，被配置为基于所述第一起始帧、第一终止帧、第二起始帧和第二终止帧的帧号，从所述第一视频和所述第二视频中确定多个匹配的视频帧对。

根据本公开的再一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令在被执行时实现以下步骤：获得第一设备和第二设备分别对相同内容拍摄的第一视频和第二视频；基于所述第一视频的相邻帧之间的相似度，在所述第一视频中确定分别与所述第一设备的运动的开始和结束对应的第一起始帧和第一终止帧；将所述第一视频的第一起始帧和第一终止帧分别与所述第二视频的各个帧比较，以在所述第二视频中确定分别与所述第一起始帧和所述第一终止帧匹配的第二起始帧和第二终止帧；以及基于所述第一起始帧、第一终止帧、第二起始帧和第二终止帧的帧号，从所述第一视频和所述第二视频中确定多个匹配的视频帧对。

附图说明

从下面结合附图对本公开实施例的详细描述中，本公开的这些和/或其它方面和优点将变得更加清楚并更容易理解，其中：

图1示出了根据本公开实施例的用于视频处理的方法的流程图。

图2a示出了根据本公开实施例的用于视频处理的方法中，当第一视频是低分辨率视频的情况下，基于互信息值来计算其起始帧和终止帧的示意图。

图2b示出了根据本公开实施例的用于视频处理的方法中，当第一视频是高分辨率视频的情况下，基于互信息值来计算其起始帧和终止帧的示意图。

图3a示出了根据本公开实施例的用于视频处理的方法中，第一视频的第一起始帧与第二视频的各个视频帧之间的匹配特征点数量的结果的示意图。

图3b示出了根据本公开实施例的用于视频处理的方法中，第一视频的第一终止帧与第二视频的各个视频帧之间的匹配特征点数量的结果的示意图。

图4示出了根据本公开实施例的用于视频处理的方法中，每个匹配的视频帧对中所包含的两个视频帧之间的公共区域的示意图。

图5示出了根据本公开实施例的用于视频处理的方法中，将所匹配的视频帧和/或所确定的公共区域分割成图像块的示意图。

图6示出了根据本公开实施例的用于视频处理的方法中，使用训练好的神经网络进行视频增强处理的示意图。

图7示出了根据本公开实施例的用于视频处理的设备的示意性硬件框图。

图8示出了根据本公开实施例的用于视频处理的设备的示意性结构框图。

具体实施方式

为了使本领域技术人员更好地理解本公开，下面结合附图和具体实施方式对本公开作进一步详细说明。

首先对本公开的图像处理技术的基本思想进行简要的概述。对于待匹配的两个视频，且通常是具有不同拍摄质量的两个视频，本公开的图像处理技术考虑了单个视频内的相邻视频帧之间的相似度，来确定该视频的拍摄设备的运动状态，进而借助于对该拍摄设备所确定的运动状态，在该视频内定位到与该拍摄设备的运动开始和运动结束所对应的起始帧与终止帧，接着基于该视频中的起始帧与终止帧与另一视频的各个视频帧进行匹配，来确定两个视频之间匹配的起点和终点，从而根据匹配结果从这两个视频中选择彼此匹配的视频帧以构成匹配视频帧对。换言之，本公开中可以基于单个视频的帧间相似度来确定拍摄设备的运动状态，并且借助于所确定的运动状态进行不同视频的视频帧之间的匹配，可以有效地提高视频匹配过程的效率和准确度。

如上所讨论的，现有的视频超分辨率技术在构造用于机器学习的训练数据集时，仅是将高分辨率视频帧的尺寸调整为低分辨率视频帧以便形成匹配的视频帧对，导致其学习效果并不理想。有鉴于此，为了提升机器学习的效果，本公开中拍摄两个具有不同分辨率的视频，并对所拍摄的两个视频进行匹配以解决其拍摄时序不对齐的问题，以此方式来构造真实世界训练数据集，从而使得训练得到的机器学习模型具有预期的性能。作为示例，可以采用上文所描述的图像处理技术来对所拍摄的两个视频进行匹配，从而将所得到成对的匹配视频帧作为真实世界训练数据集，以供机器进行学习。

此处以及下文中为了便于说明，以对相同内容拍摄的第一视频和第二视频分别是高分辨率视频和低分辨率视频作为示例描述了图像处理方法，然而，这仅仅是一种示例而并非是对本公开的限制，本公开的图像处理技术具有广泛的应用场景，其可以用于任何具有不同质量的视频之间的匹配。例如，本公开的图像处理方法可以应用于具有不同的色彩饱和度的视频之间的匹配、具有不同的细腻程度的视频之间的匹配、以及在其他任何维度上存在差异的不同视频之间的匹配。以下结合附图和示例，详细介绍本公开的用于视频处理的方法和设备。

首先，参照图1来描述根据本公开实施例的用于图像处理的方法的流程图。本公开的图像处理方法可以用于对拍摄了相同内容的第一视频和第二视频进行匹配，以从第一视频和第二视频中确定彼此匹配的成对视频帧(或称之为视频帧对)。本公开的图像处理方法可以应用于对室内和户外的任何环境所拍摄的视频进行匹配，包括对建筑物等街景、对办公室等室内环境所拍摄的视频进行匹配。在本公开的实施例中，视频帧可以指代由拍摄设备所拍摄的视频在各个时刻的画面，并且在整个权利要求和/或说明书中可以与图像、图像帧和画面等术语互换使用。可以理解，本公开中所提及的拍摄设备可以是具有视频拍摄功能的任何设备，包括手机、单反、运动相机等等，并且不同的拍摄设备通常具有不同的拍摄参数，诸如视场范围、曝光度、帧速率、分辨率、色彩饱和度等等。

如图1所示，在步骤S101，获得第一设备和第二设备分别对相同内容拍摄的第一视频和第二视频。可以理解，在该步骤S101中，第一视频和第二视频可以是由相同的拍摄设备或者不同的拍摄设备对相同的环境内容进行拍摄得到的，以便其具有共同的拍摄内容从而能够进行二者之间的匹配。

在本公开实施例中，第一视频和第二视频可以是具有不同拍摄质量的两个待匹配的视频，且上述不同拍摄质量可以从多个维度进行评价。例如，第一视频可以是高分辨率视频且第二视频可以是低分辨率视频；或者第一视频是低分辨率视频且第二视频是高分辨率视频。可以理解，上述高分辨和低分辨是相对的概念，本领域技术人员可以根据实际需要进行选择。作为示意性的举例，高分辨率视频可以是4k分辨率视频，而低分辨率视频可以是2k分辨率视频。又例如，第一视频可以是高色彩饱和度视频且第二视频可以是低色彩饱和度视频；或者第一视频可以是低色彩饱和度视频且第二视频可以是高色彩饱和度视频。作为示意性的举例，高色彩饱和度视频可以是彩色视频，而低色彩饱和度视频可以是灰度视频。可以理解，如上所描述的不同拍摄质量的维度的示例仅为示意性举例，本公开不以此为限。

另外，可以理解，第一视频和第二视频可以以多种方式进行拍摄而得到。例如，第一视频可以是在用户手持第一设备从左到右扫略被拍摄环境而得到的，第二视频可以是在相同或不同用户手持第二设备在相同时间段或不同时间段内以类似的方式从左到右扫略同一被拍摄环境而得到的，两次拍摄的拍摄角度、扫略范围和扫略速度等应尽量保持相似，以便于后续能够进行匹配。需说明的是，上述的手持拍摄方式以及扫掠式相机运动方式仅为示意性举例，还可以通过将拍摄设备架设在诸如车辆等移动物体上并且以任何合适的拍摄参数、拍摄方式和拍摄设备运动方式来进行拍摄。本领域技术人员还可以理解的是，本公开中并不要求被摄环境在拍摄过程中完全保持一致，而是可以允许被拍摄环境在同一拍摄期间和/或在不同拍摄期间发生一定程度的变化，比如在街景拍摄的情况下，可以允许同一拍摄过程和/或不同拍摄过程期间不同的行人出现在画面中，而不影响后续对所拍摄的街景中的共有画面(例如，建筑物)等进行匹配。

本领域技术人员也可以理解，如上所描述的第一设备和第二设备也可以是同一拍摄设备，只是该拍摄设备以不同的拍摄参数在前后两次拍摄中分别拍摄了第一视频和第二视频。可以理解，由于第一视频和第二视频可能是被相同或不同设备在相同或不同时间进行拍摄得到的，因此两次拍摄的拍摄设备运动开始时所瞄准的场景可能并不相同，而且从按下开始快门到拍摄设备实际开始运动拍摄之间的静止时间(类似地，从相机实际停止运动与按下停止快门之间的静止时间)可能也并不一致。在此情况下，存在两次拍摄所得的视频出现拍摄时序上不对齐的问题。有鉴于此，需要对两次拍摄所得到的第一视频和第二视频进行匹配以便找到其视频帧之间的对应关系的需求。

在步骤S102，基于第一视频的相邻帧之间的相似度，在第一视频中确定分别与第一设备的运动的开始和结束对应的第一起始帧和第一终止帧。本公开的发明人注意到，在实际进行视频拍摄时，从用户按下开始快门到拍摄设备开始运动之间存在一定的延迟，而且从拍摄设备停止运动到用户按下停止快门之间也存在一定的延迟，而这些延迟时间段内的视频帧属于运动静止帧而并非有效拍摄时间段，其可能并不含有对于匹配过程有用的信息。有鉴于此，相较于现有技术中仅依赖于不同视频的视频帧间画面相似度进行匹配，本公开在匹配过程中额外引入了拍摄设备的运动状态的评价因素，基于第一视频和第二视频之中任一视频的相邻视频帧之间的相似度，来确定对应的拍摄设备的运动状态，即，确定该拍摄设备的运动开始与运动结束，并基于所确定的运动状态来确定分别与该拍摄设备的运动的开始和结束对应的起始帧和终止帧，从而剔除处在按下快门与有效拍摄时段之间的运动静止帧。

可以采用各种方法来基于某个视频的相邻帧之间的相似度确定该视频的起始帧和终止帧。作为示意性的举例，可以采用基于互信息值的方法、基于直方图信息的方法以及基于SSIM(结构相似度)的方法等，本公开对此不做限制。仅为了说明完整性，以下以互信息值作为评价某个视频的帧间相似度的度量的示例。在该示例中，可以计算第一视频的各个相邻帧之间的各个互信息值，并且将各个互信息值依序与预定互信息阈值的比较，以在第一视频中确定第一起始帧和第一终止帧。以下结合图2a和图2b来具体描述如何确定第一视频的起始帧和终止帧。

图2a示出了根据本公开实施例的用于视频处理的方法中，当第一视频是低分辨率视频的情况下，基于互信息值来计算其起始帧和终止帧的示意图。互信息是信息论中用以评价两个随机变量之间的依赖程度的度量，当两个变量越相似，则其之间互信息就越大，反之越小。在该示例中，将互信息作为度量标准来评价两个视频帧之间的差异性。可以理解，按下快门与开始进行运动拍摄之间的这段时间内的视频帧是几乎静止不动的，因此在这段时间内，例如图2a所示的大约帧号0～帧号14之间，相邻帧之间的互信息值是相对较大的。随后，由于相机开始运动导致所拍摄场景的变化，互信息值开始降低，并且在有效拍摄过程中保持相对较低的值，如图2a中的大约帧号14～帧号88所示。之后，当用户打算结束拍摄并且因此停止运动时，互信息值又开始增加，直到用户按下了停止快门为止，如图2a中的大约帧号88～帧号110所示。换句话说，当按下快门(对应帧号0)后的接下来几帧内，互信息值较大，因此表明此刻相机并未运动，而当互信息值急剧变化时(对应大约帧号14)，才表明相机发生了运动，此后一段时间内，相机持续进行运动拍摄并且互信息保持为较低的数值，而直到大约帧号88时，互信息值又显著上升，此刻表明相机已停止运动但尚未来得及按下快门，直到大约110帧后用户才按下快门以便停止拍摄。在此情况下，可以关注互信息值超过预定互信息阈值以及跌落预定互信息阈值的时刻，并且将这种发生显著变化时刻所对应的视频帧作为其第一起始帧和第一终止帧。

换个角度来看，通过观察各个互信息值在整个拍摄过程中随时间变化的趋势中可以看出，在有效拍摄期间(即，开始运动与结束运动之间的时段)，互信息值维持为较低的数值，因此例如可以将预定互信息阈值设置为最大互信息值一半(或其任何合适的比例)，并且将互信息值首次下降到该阈值的时刻确定为第一视频的起始帧，并且将该互信息最后一次在保持该阈值以下的时刻确定为第一视频的终止帧。在实践中，可以计算第一视频的各个相邻帧之间的互信息值，并且将各个互信息值依序与预定互信息阈值进行比较，其中可以将第一视频中互信息值小于预定互信息阈值的第一个视频帧确定为第一起始帧，并且将第一视频中互信息值小于预定互信息阈值的最后一个视频帧确定为第一终止帧。例如，结合图2a可以确定，拍摄第一视频的第一设备实际开始运动和实际结束运动分别对应大约帧号14和88，因此将第一起始帧和第一终止帧确定为帧号14和88。

需说明的是，对于预定互信息阈值的设定，本领域技术人员可以根据实际需要进行设定。例如，可以将该预定互信息阈值设定为最大互信息值的一半或任何合适比例。相应的，可以将互信息值跌落/超过该预定互信息阈值的时刻作为该第一视频的起始帧和终止帧，和/或可以将互信息值小于预定互信息阈值的第一个/最后一个视频帧作为该第一视频的起始帧和终止帧。又例如，可以计算各相邻视频帧的互信息值在预定时间范围内的变化量，并且当该变化量的绝对值超过预定互信息阈值的时刻作为该第一视频的起始帧和终止帧。

图2b示出了根据本公开实施例的用于视频处理的方法中，当第一视频是高分辨率视频的情况下，基于互信息值来计算起始帧和终止帧的示意图。与第一视频是低分辨率视频的情况类似，在第一视频是高分辨率视频的情况下，各个相邻帧之间的互信息在整个拍摄过程中会发生类似的变化。从图2b可以看出，对于第一视频，其按下开始快门、相机开始运动时刻、相机停止运动时刻以及按下停止快门的时间所对应的帧号大致为0、110、620和700。在此情况下，可以基于各个互信息值与预定互信息阈值的比较，将第一设备开始运动的时刻与结束运动的时刻确定为帧号110和620。

换句话说，本公开中将互信息值急剧变化的两个位置和/或越过预定互信息阈值的两个位置作为与拍摄设备的运动开始和运动结束相对应的视频帧，将其作为进行匹配的起点和终点，以便将该第一视频中落在第一起始帧与第一终止帧之间的视频帧用于后续的匹配过程，而并非采用直接拍摄的结果(例如，其包括一定数量的运动静止帧)的起点和终点作为匹配的起点和终点，由此可以避免匹配过程中因运动静止帧的存在所导致的计算资源浪费和匹配效率不佳。因此，通过在视频匹配过程中引入拍摄设备的运动状态的确定，可以实现更佳的匹配过程。

另外，尽管以上描述了用户连贯地拍摄第一视频和第二视频的情况，但实践中，用户可能会在拍摄设备最初开始运动与最终停止运动之间有所停顿，拍摄设备也随之停止运动，但其拍摄并未停止。在此情况下，与以上图2a和图2b所示出的不同之处在于，在互信息保持平稳且相对较低数值的帧范围内(例如，图2a所示的帧号14与88之间、图2a所示的帧号110与620之间)，可能会再次出现互信息值急剧升高、之后保持较高的数值、随后又急剧下降的变化趋势，上述变化趋势即对应于拍摄设备的中间停顿。类似的，本申请的实施例也可以基于互信息值的上述变化趋势，在所拍摄的视频中识别出与拍摄设备的停顿所对应的视频帧，并且类似地剔除这些视频帧，以避免对后续的匹配过程造成影响。

需说明的是，在上述步骤S102中，第一视频中进行帧间相似度比较的相邻视频帧可以是指第一视频中直接相邻的视频帧，也可以是按照预定采样间隔每隔几帧取的相邻帧(例如，每隔10帧进行采样，以便进行帧间相似度比较)。可以理解，第一视频中的上述相邻帧的采样粒度可以由本领域技术人员根据计算速度和精确度等方面的要求而进行灵活选择。

返回图1，在步骤S103，将第一视频的第一起始帧和第一终止帧分别与第二视频的各个帧比较，以在第二视频中确定分别与第一起始帧和第一终止帧匹配的第二起始帧和第二终止帧。如上所讨论的，尽管第一视频和第二视频是对相同的环境内容进行拍摄而得到的，但是其开始拍摄时所瞄准的场景可能并不完全相同、按下快门后停顿的时间并不完全相同、两个拍摄设备拍摄时的帧速率并不相同等，因此在该步骤中，需要对两个视频的视频帧之间进行特征匹配，以便在第二视频中找到与第一视频的起始帧和终止帧相对应的起始帧和终止帧，从而能够确定两个视频在时序上的对应关系。即，通过该步骤S103来确定第一视频的哪段时间内的视频帧与第二视频的哪段时间内的视频帧是在时间上是对应的。在该示例中，在确定了拍摄第一视频的第一设备的运动状态后，可以确定其实际拍摄的起点和终点，从而可以在匹配的过程中将上述起点和终点作为参照，在第二视频中找到与之对应的起点和终点，进而可以确定该第一视频的起点和终点之间时间段内的视频帧是与第二视频的起点和终点之间时间段内的视频帧相对应的，其可以有助于对落在起点和终点的其余各个视频帧之间的匹配。

需说明的是，在该步骤中，考虑到两个拍摄设备虽然拍摄了相同的环境内容，但是其拍摄参数不同导致其成像效果可能存在一定程度的差异，因此需要借助于跨不同条件能够保持相同的图像特征，来进行具有不同拍摄参数的视频之间的匹配。例如，可以采用本领域中的各种匹配算法，来为第一视频的起始帧在第二视频帧中找到对应的起始帧，作为二者匹配的起点；并且为第一视频的终止帧在第二视频帧中找到对应的终止帧，作为二者匹配的终点。作为示意性的举例，可以采用SIFT、SURF、ORB等特征匹配算法，来确定第一视频的第一起始帧与第二视频的各个帧之间的匹配特征点、以及第一视频的第一终止帧与第二视频的各个帧之间的匹配特征点，并依据匹配特征点的结果来确定两个视频之间匹配的起点和终点。

具体地，根据本公开实施例的匹配过程可以包括如下步骤：将第一视频的第一起始帧与第二视频的各个帧进行匹配，以确定第一视频的第一起始帧与第二视频的各个帧之间的匹配特征点的数量；并且将第一视频的第一终止帧与第二视频的各个帧进行匹配，以确定第一视频的第一终止帧与第二视频的各个帧之间的匹配特征点的数量；并且基于上述匹配特征点的数量，在第二视频中确定分别与第一起始帧和第一终止帧匹配的第二起始帧和第二终止帧。例如，第二起始帧对应于第二视频中与第一起始帧之间的匹配特征点最多的视频帧，并且第二终止帧对应于第二视频中与第一终止帧之间的匹配特征点最多的视频帧。

图3a示出了根据本公开实施例的用于视频处理的方法中，第一视频的第一起始帧与第二视频的各个视频帧之间的匹配特征点数量的结果的示意图。如图3a所示，可以确定第二视频帧中与第一起始帧之间匹配特征点数量最多的帧号大约为160，因此可以将第二视频中的帧号160所对应的视频帧确定为第二视频的第二起始帧，以作为与两个视频之间匹配的起点。图3b示出了根据本公开实施例的用于视频处理的方法中，第一视频的第一终止帧与第二视频的各个视频帧之间的匹配特征点数量的结果的示意图。如图3b所示，可以确定第二视频帧中与第一终止帧之间匹配特征点数量最多的帧号大约为535，因此可以将第二视频中的帧号535所对应的视频帧确定为第二视频的第二终止帧，以作为与两个视频之间匹配的终点。

需说明的是，为了能够在第二视频中搜寻到两个视频之间匹配的起点和终点，优选的，第二视频的拍摄设备的拍摄范围可以大于第一视频的拍摄范围。例如，第一设备可以具有-60°～60°的扫略拍摄范围，而第二设备可以具有-90°～90°的扫略拍摄范围，即，第二设备的拍摄跨度大于第一设备的拍摄跨度。可以理解，至少部分由于二者拍摄跨度的不同，第二设备开始运动/结束运动时所瞄准的场景可能不同于第一设备开始运动/结束运动时所瞄准的场景，因此从第二视频中确定的第二起始帧和第二终止帧可能不同于第二设备的实际运动开始和实际运动结束所对应的视频帧。

可选的，可以采用多种措施来减少在步骤S103中进行匹配的计算量。例如，在步骤S102中基于帧间相似度而确定了第一视频的第一起始帧和第一终止帧的同时，还可以同时确定第二视频中与第二设备的运动开始和运动结束对应的视频帧，藉此，在将第一视频帧的起始帧和终止帧与第二视频的各个视频帧进行比较时，可以将第一视频帧的起始帧与第二视频中与第二设备的开始运动对应的时刻附近的视频帧进行匹配，并且将第一视频帧的终止帧与第二视频中与第二设备的结束运动对应的时刻附近的视频帧进行匹配，而无需将其与第二设备所拍摄的整个范围内的视频帧进行匹配。又例如，在该步骤S103中，将第一视频的起始帧与终止帧与第二视频的各个帧进行比较，可以是与第二视频的每个视频帧进行比较；还可以是与第二视频中按预定采样间隔选择的视频帧以进行比较。除此之外，在如上所述确定了第二设备的开始运动状态/结束运动状态的情况下，可以在第二视频中与所确定的开始运动状态/结束运动状态附近，按照预定采样间隔选择视频帧来进行匹配。可以理解，上述匹配过程中从第二视频中选择要参与匹配的视频帧的粒度可以由本领域技术人员根据计算速度和精确度的要求而进行灵活选择。

返回图1，在步骤S104，基于第一起始帧、第一终止帧、第二起始帧和第二终止帧的帧号，从第一视频和第二视频中确定多个匹配的视频帧对。在该步骤中，每个匹配的视频帧对即为成对的视频帧，其包括来自第一视频的一个视频帧、以及与之对应的来自第二视频的一个视频帧。

在该步骤104中，在确定了第一起始帧、第一终止帧、第二起始帧和第二终止帧的帧号后，便可以确定第一视频的第一起始帧与第一终止帧之间的视频帧与第二视频的第二起始帧与第二终止帧之间的视频帧在时序上是对应的，接着便可以利用上述起始帧和终止帧的帧号，按照预定规则从第一视频和第二视频中分别选择视频帧以构成匹配的视频帧对。例如，对于第一视频中的任一视频帧，可以基于第一起始帧和第一终止帧的帧号与第二起始帧和第二终止帧的帧号之间对应关系，从第二视频中选择与第一视频中的任一视频帧对应的匹配视频帧。例如，可以将第一起始帧与第二起始帧视为一个匹配的视频帧对，将第一终止帧与第二终止帧视为一个匹配的视频帧对，另外，对于第一视频中介于第一起始帧与第一终止帧之间的那些视频帧以及第二视频中介于第二起始帧与第二终止帧之间的那些视频帧，可以依据帧号之间的对应关系，按照其各自的帧号分别在另外的视频中找到其对应的视频帧。例如，当第一起始帧与第一终止帧之间的视频帧的第一数量和第二起始帧与第二终止帧之间的视频帧的第二数量相同的情况下，可以按照帧号之间的对应关系，将第一视频的各个视频帧依次对应到第二视频的各个视频帧。

然而，发明人注意到，在实际情况下，由于两个拍摄设备的帧速率、拍摄时的移动速度等不同，第一起始帧与第一终止帧之间的视频帧的第一数量和第二起始帧与第二终止帧之间的视频帧的第二数量可能并不相同，因此可能无法通过依次对应的方式来找到各个视频帧之间的对应关系。另外，在此情况下，某个视频内相对较多数量的视频帧可能在一定程度上构成冗余信息，相应的，可以通过剔除部分数量的视频帧的方式来减少冗余信息，与此同时，以便于找到第一视频与第二视频的各个视频帧之间的对应关系。例如，在此情况下，可以微调上述第一数量和第二数量，以确保他们之间是1：n的整数比例关系。在此情况下，对于第一视频中的任一视频帧，依据帧号之间的对应关系并且按照该比例关系从第二视频中隔n帧取一个视频帧，以将该两个视频帧构成匹配的视频帧对，以此类推，由此确定多个匹配的视频帧对。

除此之外，本公开的发明人还注意到，两个拍摄设备的视野范围也存在不同，因此即便在两个视频中找到了视频帧的一一对应关系，该匹配的视频帧对中的两个视频帧的拍摄内容可能也存在差异，可能存在两个视频帧的空间不对齐问题。例如，在第一视频和第二视频都是在用户手持拍摄设备对街景进行拍摄的情况下，从第一视频和第二视频确定的匹配的视频帧对中的两个视频帧可能均包括该街景中的某个建筑物，但是该建筑物的在画面中的位置可能不同，并且其背景也可能具有较大的差异。有鉴于此，从所确定的匹配视频帧对中的两个视频帧中进一步裁剪出包括感兴趣区域的公共画面部分，对于其各种分析评估和后续处理是极为有益的。

在实践中，可以对于第一视频中的任一视频帧，从第二视频中选择其对应的匹配视频帧，以将这两个视频帧构成匹配的视频帧对。然后，对于这两个视频帧，可以确定两者之间的匹配特征点，并且基于匹配特征点来确定两者之间的公共区域，所谓公共区域是指两个视频帧所共有的感兴趣区域。接下来，可以从这两个视频帧中分别分割出与感兴趣区域对应的部分，并且将两个视频帧中分割出的部分作为匹配的视频帧对。类似地，该实施例中可以对于剩余的匹配的视频帧对中的每一个采用类似的处理，从而各个匹配的视频帧对中的两个视频帧中仅包括基于特征点匹配而确定的公共区域，从而减少因背景差异和空间不对齐等因素而影响各种后续的分析评估和处理的效率和准确度。

图4示出了根据本公开实施例的用于视频处理的方法中，每个匹配的视频帧对中包含的两个视频帧之间的公共区域的示意图。在该示例中，第一视频和第二视频所拍摄的是办公室内的环境，但本公开对公共区域的分割不限于此，还可以对任何被摄环境中的感兴趣区域进行分割。如图4所示，虚线的左侧和右侧分别是一个匹配的视频帧对中分别来自于第一视频和第二视频的视频帧，通过进行特征点匹配过程，可以在两个视频帧之间确定其匹配特征点，如图4中以两个视频帧的匹配特征点为端点的线段所示。在该示例中，可以基于两个视频帧之间的匹配点的一一对应关系，确定所关注的感兴趣区域，例如该感兴趣区域为电脑及其周围的摆设。在此情况下，可以分别从两个视频帧中裁剪出与感兴趣区域对应的画面部分，以将两个视频帧中裁剪后的部分作为更新后的匹配的视频帧对。可替代地，在匹配的视频帧对中的两个视频帧的视野范围不同的情况下，可以将视野范围较小的视频帧所对应的区域直接作为感兴趣区域，并且基于两个视频帧之间的特征点匹配结果，从视野范围较大的视频帧中裁剪出与视野范围较小的视频帧所共有的部分，并将视野范围较小的视频帧本身与视野范围较大的视频帧的裁剪后的部分作为更新后的匹配的视频帧对。如图4所示，可以将两个视频帧中方框内的部分作为更新后的匹配的视频帧对，可以看出方框内所包含的场景范围大致是相同的。根据本公开实施例的上述方法，可以在解决两个视频的时序不对齐的问题的基础上，进一步解决其空间不对齐的问题，由此有助于其后续的各种评价分析和后续处理。

如上所讨论的，根据本公开实施例的视频处理技术所得到的匹配的视频对可以用于各种分析评估和后续处理中。例如，可以将所得到的多个匹配的视频帧对，应用于诸如视频增强任务等的机器学习模型中。作为示例，以下以将多个匹配的视频帧对用于超分辨率任务的机器学习模型的角度，分别描述将根据本公开实施例所得到的真实世界训练数据集用于机器学习的训练阶段的处理、以及将训练好的机器学习模型用于超分辨率任务的使用阶段的处理，从而解决现有的超分辨率技术无法得到具有期望性能的训练模型的问题。

例如，对于视频超分辨率任务的训练数据集，现有的SOTA数据集(例如Vimeo、REDS等)仅仅是将高分辨率视频进行降采样得到相应的低分辨率视频，来生成高/低分辨率的匹配帧，其显然无法实现基于真实世界训练数据集所得到的学习效果。而且对于一些特殊的相机(例如RICOH-THETA)，其本身的分辨率不是很高且并没有相应的高分辨率视频与之匹配，因此对于这样的相机，为了进行视频超分辨率任务，需要将其拍摄的鱼眼视频与普通相机拍摄的透视视频进行匹配，以生成成对的匹配视频帧以便用于超分辨率任务的模型训练。可以理解，可以采用上文结合图1-图4所描述的用于视频处理的方法来获得用于训练该机器学习模型的训练数据集。

下面将简要介绍基于所获得的多个匹配的视频帧对来进行学习的示例。作为示意性举例，待训练的机器学习模型可以例如是各种类型的神经网络，诸如全连接神经网络、卷积神经网络、循环神经网络等等。在本公开的实施例中，可以构建初始的神经网络，该神经网络的参数可以是初始设定的，或者是经过了一定程度学习得到的。为了使得该神经网络在视频超分辨率任务方面具有更强性能，可以通过所获得的多个匹配的视频帧对来构造训练数据集，并将其输入到该神经网络，以便不断基于所输入的训练数据集对神经网络进行训练和学习。在该方法中，可以获得如图1的步骤S104中所获得的多个匹配的视频帧对，并从中构造训练数据集，例如该训练数据集中可以包括由所获得的多个匹配的视频帧对中的各个低分辨率视频帧所构成的低分辨率视频、以及由所获得的多个匹配的视频帧对中的各个高分辨率视频帧构成的高分辨率视频，以便作为训练数据集中的低分辨率视频和高分辨率视频。然后，通过神经网络计算基于训练数据集中的低分辨率视频对高分辨率视频的预测值，并且计算预测值与训练数据集中的高分辨率视频的真实值之间的损失，从而基于该损失来更新神经网络的参数。例如，该神经网络可以一方面经过其内部的各个神经网络层对该低分辨率视频进行处理和分析，而得到高分辨视频的预测值；另一方面，可以从训练数据集中获知有关高分辨视频的真实值，进而可以将预测值与真实值进行比较，据此可以计算预测值与真实值之间的损失，并基于该损失来更新神经网络的各个参数。可以理解的是，本公开中可以针对大量的训练数据来持续迭代地更新该神经网络，并且直到满足预定条件才结束该训练过程，以获得训练好的神经网络，从而满足超分辨率任务所需的期望性能。可以采用各种条件作为机器学习模型的训练终止条件，例如，可以确定当该损失小于预定阈值时该神经网络的各参数的值，作为训练好的神经网络的各参数的值；或者确定当该神经网络的训练次数达到预定阈值时各参数的值，作为训练好的神经网络的各参数的值。

可以理解，在用于超分辨率任务的机器学习模型的训练过程中，可以采用各种损失函数来评价神经网络的学习和性能情况，例如用来度量像素级差异的损失函数、用来度量特征级差异的损失函数、用来度量纹理级差异的损失函数等任何已知的损失函数和未来设计的损失函数，本公开对损失函数的类型不做限制。在神经网络的学习过程中，所更新的参数包括其各个神经网络层的权重等参数。此外，可以利用包括各种类型场景的被摄环境的大量数据，对该神经网络进行训练，从而该训练好的模型可以对涉及任何场景的待处理的视频进行视频增强。对神经网络进行训练的方法是本领域中公知的，在此不予赘述。另外，需说明的是，以上所描述的神经网络仅是本公开可以采用的各种机器学习模型中的一种示意性举例，本领域技术人员还可以采用其他的机器学习模型进行训练。

需要说明的是，在如上所描述的机器学习模型的训练过程中，考虑到从图1的步骤S104中直接获得的匹配视频帧对和/或裁剪后的公共区域的尺寸可能较大，如果直接从其构造低分辨率视频和高分辨率视频并将构造好的两种分辨率视频用于机器学习，可能会对硬件设备造成较大的计算负担和内存消耗。优选的，在获得了匹配的视频帧对或者获得了裁剪后的公共区域之后，可以对其进行分割以获得更小的成对视频帧块，并且将分割后的成对视频帧块作为用于进行超分辨率任务所需的训练数据集。

图5示出了根据本公开实施例的用于视频处理的方法中，将所匹配的视频帧和/或所确定的公共区域分割成图像块的示意图。需说明的是，与图4中所示的对办公室内的环境拍摄不同质量的视频的示例不同，图5中示出了对天空街景分别拍摄高分辨率视频和低分辨率视频并且确定了两个视频之间的匹配的视频帧对和/或裁剪后的公共区域之后进行图像块分割的示意性图示。在该示例中，可以将成对的匹配视频帧中的高分辨率视频帧或低分辨率视频帧分割成例如32*32、64*64等合适尺寸的视频帧块，或者将高分辨率视频帧或低分辨率视频帧中进一步确定的公共区域分割成合适尺寸的图像块。例如，图5中示出了将低分辨率视频帧中具有天空内容的公共区域分割为30个图像块的示意性结果。可以理解，通过分割处理获得尺寸适合于进行机器学习的图像块，而并非直接将匹配的视频帧对输入到机器学习模型，可以降低对硬件设备造成的计算负担和内存消耗。另外，可以理解，为了将分割后的图像块用于超分辨率任务的机器模型训练，对高分辨视频帧/公共区域和对低分辨视频帧/公共区域进行图像块分割的粒度可以不同，例如，可以将高分辨视频帧/公共区域分割为64*64的图像块，而将对应的低分辨视频帧/公共区域分割为32*32的图像块。可以理解，如上所述的32*32、64*64等图像块尺寸和30个图像块数量仅为示意性的举例，本领域技术人员可以取决于各种需要和计算上的考虑，将视频帧或公共区域分割成任何合适尺寸和任何合适数量的图像块。

如上所述，可以在训练过程中满足预定条件时结束该训练，并且获得训练好的神经网络模型，然后可以将其用于各种视频增强任务，例如超分辨率任务。作为该训练好的模型在使用时的示意性举例，在本公开的实施例中，可以获得第三设备拍摄的第三视频，并将第三视频输入到训练好的神经网络中，以输出与第三视频对应的第四视频。可以理解，在超分辨率任务的情况下，第三视频是低分辨率视频，并且第四视频是高分辨率视频。需说明的是，第三设备可以是与第一设备和第二设备相同或不同的任何设备，并且从其获得的第三视频需要进行分辨率增强处理。通过利用经过机器学习得到的训练好的机器学习模型，可以从低分辨率视频中重建出高分辨率视频。图6示出了根据本公开实施例的用于视频处理的方法中，使用训练好的神经网络进行视频增强处理的示意图。从图6中可以看出，该神经网络可以接收待处理的视频作为输入，并且通过该神经网络内的各个神经网络层进行处理，将处理后的视频作为输出，例如将低分辨率视频重建为高分辨率视频。

需说明的是，以上以超分辨率任务作为示例描述了神经网络的训练和使用过程，但是本公开不限于此，而是可以将其用于任何需要进行视频增强的领域中。例如，神经网络可以对具有不同的色彩饱和度的视频的数据集进行学习，以便从低色彩饱和度的视频中重建出高色彩饱和度的视频。又例如，神经网络可以对具有不同细腻程度的视频的数据集进行学习，以便从低细腻程度的视频中重建出高细腻程度视频。

以上已经结合附图对根据本公开实施例的用于视频处理的方法进行了描述。在该方法中，考虑了单个视频内的相邻视频帧之间的相似度，来确定该视频的拍摄设备的运动状态，进而借助于对该拍摄设备所确定的运动状态，在该视频内定位到与该拍摄设备的运动开始和运动结束所对应的起始帧与终止帧，接着基于该视频中的起始帧与终止帧与另一视频的各个视频帧进行匹配，来确定两个视频之间匹配的起点和终点，从而根据匹配结果来从这两个视频中选择彼此匹配的视频帧以构成匹配视频帧对。换言之，本公开中可以基于单个视频的帧间相似度来确定拍摄设备的运动状态，并且借助于所确定的运动状态进行不同视频的视频帧之间的匹配，可以有效地提高视频匹配过程的效率和准确度。

除此之外，可以将通过本公开的视频处理方法所得到的匹配的视频帧对用于各种分析评价和后续处理中，例如可以将其用于视频增强任务的机器学习模型中。与现有技术中通过仅从一种拍摄质量的视频中人为构造出两种不同拍摄质量的视频不同，本公开中可以通过对两次拍摄得到的不同拍摄质量的视频进行匹配，以将所得到匹配的视频帧对作为真实世界训练数据集用于机器学习模型的训练，从而实现期望的机器学习模型性能。然后，可以将训练好的机器学习模型用于各种视频增强任务中，以便从待处理的视频中重建出增强后的视频，在医学影像、卫星图像和视频监控等领域中发挥重要作用。

图像处理设备

根据本公开的另一方面，提供一种用于视频处理的设备，以下结合图7详细描述用于视频处理的设备700。

图7示出了根据本公开实施例的用于视频处理的设备的硬件框图。如图7所示，该设备700包括处理器U701和存储器U702。

处理器U701可以是能够实现本公开各实施例的功能的任何具有处理能力的装置，例如其可以是设计用于进行在此所述的功能的通用处理器、数字信号处理器(DSP)、ASIC、场可编程门阵列信号(FPGA)或其他可编程逻辑器件(PLD)、离散门或晶体管逻辑、离散的硬件组件或者其任意组合。

存储器U702可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)和/或高速缓存存储器，也可以包括其它可移动/不可移动的、易失性/非易失性计算机系统存储器，例如硬盘驱动器、软盘、CD-ROM、DVD-ROM或者其它光存储介质。

在本实施例中，存储器U702中存储有计算机程序指令，并且处理器U701可以运行存储器U702中存储的指令。在所述计算机程序指令被所述处理器运行时，使得所述处理器执行本公开实施例的用于视频处理的方法。关于用于视频处理的方法与上文中针对图1-6描述的基本相同，因此为了避免重复，不再赘述。

根据本公开的又一方面，提供一种用于视频处理的设备，以下结合图8详细描述用于视频处理的设备800。

图8示出了根据本公开实施例的用于视频处理的设备的结构框图。如图8所示，该设备800包括视频接收单元U801、视频内运动确定单元U802、视频间匹配单元U803和匹配帧对确定单元U804。所述各个部件可分别执行上文中结合图1-6描述的视频处理方法的各个步骤/功能，因此为了避免重复，在下文中仅对所述设备进行简要的描述，而省略对相同细节的详细描述。

视频接收单元U801可以获得第一设备和第二设备分别对相同内容拍摄的第一视频和第二视频。视频接收单元U801所获得第一视频和第二视频可以是由相同的拍摄设备或者不同的拍摄设备对相同的环境内容进行拍摄得到的，以便其具有共同的拍摄内容从而能够进行二者之间的匹配。

可以理解，第一视频和第二视频可以是具有不同拍摄质量的两个待匹配的视频，且上述不同拍摄质量可以从多个维度进行评价。例如，第一视频可以是高分辨率视频且第二视频可以是低分辨率视频；或者第一视频是低分辨率视频且第二视频是高分辨率视频等等。另外，第一视频和第二视频可以以多种方式进行拍摄而得到，但两次拍摄的拍摄角度、扫略范围和扫略速度等应尽量保持相似，以便于后续能够进行匹配。另外第一设备和第二设备也可以是同一拍摄设备，只是拍摄参数有所不同。

视频内运动确定单元U802基于第一视频的相邻帧之间的相似度，在第一视频中确定分别与第一设备的运动的开始和结束对应的第一起始帧和第一终止帧。相较于现有技术中仅依赖于不同视频的视频帧间画面相似度进行匹配，本公开实施例通过在视频处理设备800中设置视频内运动确定单元U802，在匹配过程中额外引入了拍摄设备的运动状态的评价因素，从而基于第一视频和第二视频之中任一视频的相邻视频帧之间的相似度，来确定对应的拍摄设备的运动状态，即，确定该拍摄设备的运动开始与运动结束，并基于所确定的运动状态来确定分别与该拍摄设备的运动的开始和结束对应的起始帧和终止帧，从而剔除处在按下快门与有效拍摄时段之间的运动静止帧。

视频内运动确定单元U802可以采用各种方法来基于第一视频的相邻帧之间的相似度确定该视频的起始帧和终止帧。例如，在以互信息值作为评价某个视频的帧间相似度的度量的情况下，视频内运动确定单元U802可以计算第一视频的各个相邻帧之间的各个互信息值，并且将各个互信息值依序与预定互信息阈值的比较，以在第一视频中确定第一起始帧和第一终止帧。例如，视频内运动确定单元U802可以确定第一视频中互信息值超过/跌落预定互信息阈值的时刻，并且将这种发生显著变化时刻所对应的视频帧作为其第一起始帧和第一终止帧。另外，视频内运动确定单元U802还可以计算第一视频的各个相邻帧之间的互信息值，并且将各个互信息值依序与预定互信息阈值进行比较，从而可以将第一视频中互信息值小于预定互信息阈值的第一个视频帧确定为第一起始帧，并将第一视频中互信息值小于预定互信息阈值的最后一个视频帧确定为第一终止帧。视频内运动确定单元U802通过确定与拍摄设备的运动开始和运动结束相对应的视频帧，并将其作为进行匹配的起点和终点，可以避免匹配过程中因运动静止帧的存在所导致的计算资源浪费和匹配效率不佳。

视频间匹配单元U803将第一视频的第一起始帧和第一终止帧分别与第二视频的各个帧比较，以在第二视频中确定分别与第一起始帧和第一终止帧匹配的第二起始帧和第二终止帧。例如，视频间匹配单元U803可以对两个视频的视频帧之间进行特征匹配，以便在第二视频中找到与第一视频的起始帧和终止帧相对应的起始帧和终止帧，从而能够确定两个视频在时序上的对应关系，即确定第一视频的哪段时间内的视频帧与第二视频的哪段时间内的视频帧是在时间上是对应的。视频间匹配单元U803可以采用本领域中的各种匹配算法进行不同视频的视频帧间的匹配，例如可以采用SIFT、SURF、ORB等特征匹配算法，来确定两个视频之间匹配的起点和终点。

具体地，视频间匹配单元U803可以计算第一视频的第一起始帧与第二视频的各个帧之间的匹配特征点的数量，并且计算第一视频的第一终止帧与第二视频的各个帧之间的匹配特征点的数量，并且基于上述匹配特征点的数量，在第二视频中确定分别与第一起始帧和第一终止帧匹配的第二起始帧和第二终止帧。例如，第二起始帧对应于第二视频中与第一起始帧之间的匹配特征点最多的视频帧，并且第二终止帧对应于第二视频中与第一终止帧之间的匹配特征点最多的视频帧。

匹配帧对确定单元U804基于第一起始帧、第一终止帧、第二起始帧和第二终止帧的帧号，从第一视频和第二视频中确定多个匹配的视频帧对，其中每个匹配的视频帧对即为成对的视频帧，包括来自第一视频的一个视频帧、以及与之对应的来自第二视频的一个视频帧。

具体的，匹配帧对确定单元U804可以利用上述起始帧和终止帧的帧号，按照预定规则从第一视频和第二视频中分别选择视频帧以构成匹配的视频帧对。例如，对于第一视频中的任一视频帧，可以基于第一起始帧和第一终止帧的帧号与第二起始帧和第二终止帧的帧号之间对应关系，从第二视频中选择与第一视频中的任一视频帧对应的匹配视频帧。例如，当第一起始帧与第一终止帧之间的视频帧的第一数量和第二起始帧与第二终止帧之间的视频帧的第二数量相同的情况下，匹配帧对确定单元U804可以按照帧号之间的对应关系，将第一视频的各个视频帧依次对应到第二视频的各个视频帧；当第一数量与第二数量不同的情况下，匹配帧对确定单元U804可以微调上述第一数量和第二数量以确保1：n的整数比例关系，并且对于第一视频中的任一视频帧，依据帧号之间的对应关系并且按照该比例关系从第二视频中隔n帧取一个视频帧，以将该两个视频帧构成匹配的视频帧对。可选的，匹配帧对确定单元U804还可以对于匹配的视频帧对中的两个视频帧，确定两者之间的匹配特征点，并且基于匹配特征点来确定两者之间的公共区域，接下来从这两个视频帧中分别分割出与感兴趣区域对应的部分，并且将分割出的部分作为匹配的视频帧对，从而减少因背景差异等因素而影响各种后续的分析评估和处理的效率和准确度。

此外，在匹配帧对确定单元U804确定了匹配的视频对后，可以将其用于各种分析评估和后续处理中。例如，可以将所得到的多个匹配的视频帧对，应用于诸如视频增强任务等的机器学习模型中。例如，可以从匹配的视频对中构造出真实世界训练数据集，以便由该视频处理设备800对其进行学习；或者由该视频处理设备800将匹配的视频对和/或从中构造的真实世界训练数据集发送给另一计算设备，以供该另一计算设备进行学习。机器学习的过程与以上结合视频处理方法所描述的是类似的，在此不予赘述。

通过对真实世界训练数据集进行学习，可以获得训练好的神经网络模型，然后可以将其用于各种视频增强任务，例如超分辨率任务。例如，该视频处理设备800和/或该另一计算设备可以获得第三设备拍摄的第三视频，并将第三视频作为输入进行处理，以输出与第三视频对应的第四视频，其中第三视频是低分辨率视频而第四视频是高分辨率视频。通过利用经过机器学习得到的训练好的机器学习模型，可以从低分辨率视频中重建出高分辨率视频。

以上已经结合附图对根据本公开实施例的用于视频处理的设备进行了描述。所述用于视频处理的设备考虑了单个视频内的相邻视频帧之间的相似度，来确定该视频的拍摄设备的运动状态，进而借助于对该拍摄设备所确定的运动状态，在该视频内定位到与该拍摄设备的运动开始和运动结束所对应的起始帧与终止帧，接着基于该视频中的起始帧与终止帧与另一视频的各个视频帧进行匹配，来确定两个视频之间匹配的起点和终点，从而根据匹配结果来从这两个视频中选择彼此匹配的视频帧以构成匹配视频帧对，可以有效地提高视频匹配过程的效率和准确度。

除此之外，可以将该视频处理设备所得到的匹配的视频帧对用于各种分析评价和后续处理中，例如可以将其用于视频增强任务的机器学习模型中。本公开中可以将所得到匹配的视频帧对作为真实世界训练数据集用于机器学习模型的训练，可以将训练好的机器学习模型用于各种视频增强任务中，以便从待处理的视频中重建出增强后的视频，在医学影像、卫星图像和视频监控等领域中发挥重要作用。

计算机可读存储介质

根据本公开的用于视频处理的方法/设备还可以通过提供包含实现所述方法或者设备的程序代码的计算机程序产品来实现，或者通过存储有这样的计算机程序产品的任意存储介质来实现。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

另外，如在此使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC(即A和B和C)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

还需要指出的是，在本公开的装置和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

对本领域的普通技术人员而言，能够理解本公开的方法和装置的全部或者任何部分，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现。所述硬件可以是利用被设计用于进行在此所述的功能的通用处理器、数字信号处理器(DSP)、ASIC、场可编程门阵列信号(FPGA)或其他可编程逻辑器件(PLD)、离散门或晶体管逻辑、离散的硬件组件或者其任意组合。通用处理器可以是微处理器，但是作为替换，该处理器可以是任何商业上可获得的处理器、控制器、微控制器或状态机。处理器还可以实现为计算设备的组合，例如DSP和微处理器的组合，多个微处理器、与DSP核协作的一个或多个微处理器或任何其他这样的配置。所述软件可以存在于任何形式的计算机可读的有形存储介质中。通过例子而不是限制，这样的计算机可读的有形存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储器件或者可以用于携带或存储指令或数据结构形式的期望的程序代码并且可以由计算机访问的任何其他有形介质。如在此使用的，盘包括紧凑盘(CD)、激光盘、光盘、数字通用盘(DVD)、软盘和蓝光盘。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种用于视频处理的方法，包括：

获得第一设备和第二设备分别对相同内容拍摄的第一视频和第二视频；

基于所述第一视频的相邻帧之间的相似度，在所述第一视频中确定分别与所述第一设备的运动的开始和结束对应的第一起始帧和第一终止帧；

将所述第一视频的第一起始帧和第一终止帧分别与所述第二视频的各个帧比较，以在所述第二视频中确定分别与所述第一起始帧和所述第一终止帧匹配的第二起始帧和第二终止帧；以及

基于所述第一起始帧、第一终止帧、第二起始帧和第二终止帧的帧号，从所述第一视频和所述第二视频中确定多个匹配的视频帧对。

2.根据权利要求1所述的方法，其中：

所述第一视频是高分辨率视频，所述第二视频是低分辨率视频；或者

所述第一视频是低分辨率视频，所述第二视频是高分辨率视频。

3.根据权利要求1所述的方法，其中，所述基于所述第一视频的相邻帧之间的相似度，在所述第一视频中确定分别与所述第一设备的运动的开始和结束对应的第一起始帧和第一终止帧包括：

计算所述第一视频的各个相邻帧之间的互信息值；

将各个互信息值依序与预定互信息阈值进行比较；

将所述第一视频中互信息值小于所述预定互信息阈值的第一个视频帧确定为所述第一起始帧；以及

将所述第一视频中互信息值小于所述预定互信息阈值的最后一个视频帧确定为所述第一终止帧。

4.根据权利要求1所述的方法，其中，所述将所述第一视频的第一起始帧和第一终止帧分别与所述第二视频的各个帧比较，以在所述第二视频中确定分别与所述第一起始帧和所述第一终止帧匹配的第二起始帧和第二终止帧包括：

计算所述第一视频的第一起始帧与所述第二视频的各个帧之间的匹配特征点的数量；

计算所述第一视频的第一终止帧与所述第二视频的各个帧之间的匹配特征点的数量；以及

基于所述匹配特征点的数量，在所述第二视频中确定分别与所述第一起始帧和所述第一终止帧匹配的所述第二起始帧和所述第二终止帧。

5.根据权利要求4所述的方法，其中，所述基于所述第一起始帧、第一终止帧、第二起始帧和第二终止帧的帧号，从所述第一视频和所述第二视频中确定多个匹配的视频帧对包括：

对于所述第一视频中的任一视频帧，基于所述第一起始帧和第一终止帧的帧号与所述第二起始帧和第二终止帧的帧号之间对应关系，从所述第二视频中选择与所述第一视频中的所述任一视频帧对应的匹配视频帧；

确定所述任一视频帧与所述匹配视频帧之间的匹配特征点；

基于所述匹配特征点，确定所述任一视频帧与所述匹配视频帧之间的公共区域，所述公共区域是所述任一视频帧与所述匹配视频帧共有的感兴趣区域；

从所述任一视频帧和所述匹配视频帧中分割出与所述感兴趣区域对应的部分；以及

将所述任一视频帧和所述匹配视频帧中分割出的部分作为匹配的视频帧对。

6.根据权利要求2所述的方法，还包括：

构建神经网络；

构造训练数据集，所述训练数据集包括由所述多个匹配的视频帧对中的低分辨率视频帧构成的低分辨率视频和由所述多个匹配的视频帧对中的高分辨率视频帧构成的高分辨率视频；

计算基于所述训练数据集中的低分辨率视频对高分辨率视频的预测值；

计算所述预测值与所述训练数据集中的高分辨率视频的真实值之间的损失；以及

基于所述损失，更新所述神经网络的参数。

7.根据权利要求6所述的方法，还包括：

获得第三设备拍摄的第三视频；以及

将所述第三视频输入到更新后的神经网络中，以输出与所述第三视频对应的第四视频，其中：

所述第三视频是低分辨率视频，所述第四视频是高分辨率视频。

8.一种用于视频处理的设备，包括：

处理器；以及

存储器，存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行以下步骤：

9.一种用于视频处理的设备，包括：

视频接收单元，被配置为获得第一设备和第二设备分别对相同内容拍摄的第一视频和第二视频；

视频内运动确定单元，被配置为基于所述第一视频的相邻帧之间的相似度，在所述第一视频中确定分别与所述第一设备的运动的开始和结束对应的第一起始帧和第一终止帧；

视频间匹配单元，被配置为将所述第一视频的第一起始帧和第一终止帧分别与所述第二视频的各个帧比较，以在所述第二视频中确定分别与所述第一起始帧和所述第一终止帧匹配的第二起始帧和第二终止帧；以及

匹配帧对确定单元，被配置为基于所述第一起始帧、第一终止帧、第二起始帧和第二终止帧的帧号，从所述第一视频和所述第二视频中确定多个匹配的视频帧对。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令在被执行时实现以下步骤：