CN113438409B

CN113438409B - 延迟校准方法、装置、计算机设备和存储介质

Info

Publication number: CN113438409B
Application number: CN202110541140.XA
Authority: CN
Inventors: 门泽华
Original assignee: Insta360 Innovation Technology Co Ltd
Current assignee: Insta360 Innovation Technology Co Ltd
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2022-12-20
Anticipated expiration: 2041-05-18
Also published as: WO2022242569A1; CN113438409A

Abstract

本申请涉及一种延迟校准方法、装置、计算机设备和存储介质。所述方法包括：获取视频组，视频组中至少包括一个视频；对惯性传感器与视觉系统之间的延时值进行更新，并基于更新后的延时值，获取视频组对应的防抖性能得分，重复上述延时值的更新过程及获取防抖性能得分的过程，直至获取到的防抖性能得分满足预设条件，则获取满足预设条件的防抖性能得分所对应的延时值。由于不需要由IMU与视觉系统分别估计两组运动，再以两组运动之间的误差作为代价值，使误差最小化来估计两者之间的延迟，从而能够避免两组运动估计本身所带来的误差，进而能够提高校准延迟时的精准度。

Description

延迟校准方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种延迟校准方法、装置、计算机设备和存储介质。

背景技术

目前通常从IMU(Inertial Measurement Unit，惯性传感器)侦测到的抖动信号计算相机的姿态，再根据计算得到的相机姿态，对通过视觉系统拍摄得到的图像进行补偿处理，以实现电子防抖。由于视觉系统在拍摄图像时与IMU侦测到抖动信号之间存在延迟，比如视觉系统拍摄了某一帧的图像，IMU检测到的抖动却是上一帧对应时刻的，而系统却可能认为这两者是同一时刻相匹配的，也即视觉系统很难在IMU检测到抖动的那一刻恰好拍摄了图像，从而针对上述延迟，实际应用中就需要对IMU与视觉系统之间的延迟进行校准，也即对于IMU对应的时钟及视觉系统的时钟，需要确定其中一个时钟以另一个时钟为标准下的时间偏差。

在相关技术中，一般是分别通过IMU与视觉系统估计两组运动，再通过非线性优化算法以两组运动之间的误差作为代价值，使误差最小化来估计二者之间的延迟。由于两组运动估计本身存在误差，从而导致通过该方法估计的延迟精度较低，不能满足高精度延迟的需求。另外，若上述两组运动中存在周期性重复的运动，则该方法还存在估计错误的情况。

发明内容

基于此，有必要针对上述技术问题，提供一种能够精准校准IMU与视觉系统之间延迟的延迟校准方法、装置、计算机设备和存储介质。

一种延迟校准方法，该方法包括：

获取视频组，视频组中至少包括一个视频；

对惯性传感器与视觉系统之间的延时值进行更新，并基于更新后的延时值，获取视频组对应的防抖性能得分，重复上述延时值的更新过程及获取防抖性能得分的过程，直至获取到的防抖性能得分满足预设条件，则获取满足预设条件的防抖性能得分所对应的延时值；

其中，惯性传感器与视觉系统耦合在同一拍摄设备上，视频组中每一视频均是基于视觉系统所获取的，防抖处理是通过视觉系统及惯性传感器，并基于两者之间的延时值所完成的，防抖性能得分用于评估对视频作防抖处理后的防抖效果。

在其中一个实施例中，获取视频组包括：

获取多个视频，视频是在拍摄设备存在抖动的前提下所拍摄的；

根据多个视频中每个视频对应的拍摄时间段内所获取到的拍摄设备的姿态数据，对多个视频进行筛选，并由筛选后得到的视频构成视频组；其中，拍摄设备的姿态数据是基于惯性传感器所获取的。

在其中一个实施例中，根据多个视频中每个视频对应的拍摄时间段内所获取到的拍摄设备的姿态数据，对多个视频进行筛选，包括：

将在每个视频对应的拍摄时间段内所获取到的拍摄设备的姿态数据转换至频域空间，以得到每个视频对应的幅频特性曲线集合；

根据每个视频对应的幅频特性曲线集合，获取每个视频对应的频域分值；

根据每个视频对应的频域分值，对多个视频进行筛选。

在其中一个实施例中，根据每个视频对应的幅频特性曲线集合，获取每个视频对应的频域分值，包括：

对于任一视频对应的幅频特性曲线集合，根据幅频特性曲线集合中每一幅频特性曲线对应的频率及幅值，获取每一幅频特性曲线对应的频域分值；

根据每一幅频特性曲线对应的频域分值，获取该视频对应的频域分值。

在其中一个实施例中，根据幅频特性曲线集合中每一幅频特性曲线对应的频率及幅值，获取每一幅频特性曲线对应的频域分值，包括：

获取每一幅频特性曲线对应的频率与幅值的乘积，并将乘积作为每一幅频特性曲线对应的频域分值；或者，

获取每一幅频特性曲线对应频率的得分，获取每一幅频特性曲线对应的得分与幅值的乘积，并将乘积作为每一幅频特性曲线对应的频域分值。

在其中一个实施例中，根据每一幅频特性曲线对应的频域分值，获取任一视频对应的频域分值，包括：

对幅频特性曲线集合中所有幅频特性曲线对应的频域分值进行加权求和，将得到的和值作为该视频对应的频域分值。

在其中一个实施例中，根据每个视频对应的频域分值，对多个视频进行筛选，包括：

对多个视频中每个视频对应的频域分值按照从大到小排序，选取前预设数量个视频，并作为筛选后得到的视频。视频为单通道视频或多通道视频。

一种延迟校准装置，该装置包括：

获取模块，用于获取视频组，视频组中至少包括一个视频；

更新模块，用于对惯性传感器与视觉系统之间的延时值进行更新，并基于更新后的延时值，获取视频组对应的防抖性能得分，重复上述延时值的更新过程及获取防抖性能得分的过程，直至获取到的防抖性能得分满足预设条件，则获取满足预设条件的防抖性能得分所对应的延时值；

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

获取视频组，视频组中至少包括一个视频；

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取视频组，视频组中至少包括一个视频；

上述延迟校准方法、装置、计算机设备和存储介质，通过获取视频组，对惯性传感器与视觉系统之间的延时值进行更新，并基于更新后的延时值，获取视频组对应的防抖性能得分，重复上述延时值的更新过程及获取防抖性能得分的过程，直至获取到的防抖性能得分满足预设条件，则获取满足预设条件的防抖性能得分所对应的延时值。由于不需要由IMU与视觉系统分别估计两组运动，再以两组运动之间的误差作为代价值，使误差最小化来估计两者之间的延迟，从而能够避免两组运动估计本身所带来的误差，进而能够提高校准延迟时的精准度。

附图说明

图1为一个实施例中延迟校准方法的流程示意图；

图2为另一个实施例中延迟校准方法的流程示意图；

图3为一个实施例中延迟校准装置的结构框图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种专业名词，但除非特别说明，这些专业名词不受这些术语限制。这些术语仅用于将一个专业名词与另一个专业名词区分。举例来说，在不脱离本申请的范围的情况下，第三预设阈值与第四预设阈值可以相同可以不同。

目前移动终端拍照以及摄像的表现越来越好，已经逐渐取代了传统的卡片机，并且越来越多的移动终端，通过多摄像头组合，对超广角、长焦以及人像场景进行覆盖，以带来更好的影像体验。其中，有一个环节却也是绕不开的话题，即防抖。防抖不光是应用在视频中，拍照中出色的防抖效果可以带来更大的安全快门，提高成片率，从而防抖效果也是很多移动终端制造厂商所追求的目标。

基于上述需求，电子防抖应运而生。EIS(Electronic Image Stablization，电子防抖)，主要是在图像拍下来后，通过拍摄设备内的传感器在图像拍摄过程中所侦测到的微小抖动，从而根据微小抖动对应的信号，利用边缘的图象来进行补偿，从而克服因拍摄设备的抖动产生的影像模糊。在相关技术中，主要利用的传感器为IMU。相应地，在实现电子防抖时，主要是先利用从IMU侦测到的抖动信号计算相机的姿态，再根据计算得到的相机姿态，对通过视觉系统拍摄得到的图像进行补偿处理。

由于视觉系统在拍摄图像时与IMU侦测到抖动信号之间存在延迟，比如视觉系统拍摄了某一帧的图像，IMU检测到的抖动却是上一帧对应时刻的，而系统却可能认为这两者是同一时刻相匹配的，也即视觉系统很难在IMU检测到抖动的那一刻恰好拍摄了图像，从而针对上述延迟，实际应用中就需要对IMU与视觉系统之间的延迟进行校准，也即对于IMU对应的时钟及视觉系统的时钟，需要确定其中一个时钟以另一个时钟为标准下的时间偏差。在相关技术中，一般是分别通过IMU与视觉系统估计两组运动，再通过非线性优化算法以两组运动之间的误差作为代价值，使误差最小化来估计二者之间的延迟。由于两组运动估计本身存在误差，从而导致通过该方法估计的延迟精度较低，不能满足高精度延迟的需求。另外，若上述两组运动中存在周期性重复的运动，则该方法还存在估计错误的情况。

针对上述相关技术中存在的问题，本发明实施例提供了一种延时校准方法，该方法可以应用于终端中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等。可以理解的是，该延时校准方法也可以应用于服务器中且相应执行主体为服务器，再或者根据实际需求及可行性，该延时校准方法可以同时应用于终端与服务器中，也即该延时校准方法中一部分步骤的执行主体可以为终端，而另一部分步骤的执行主体可以为服务器，本发明实施例对此不作具体限定。例如，图1对应方法流程中步骤101可以由终端执行，再由终端将视频组发送至服务器，从而步骤102由服务器执行，服务器在获取到IMU与视觉系统之间的延时值后可以再发送给终端。需要说明的是，本申请各实施例中提及的“多个”等的数量均指代“至少两个”的数量，比如，“多个”指“至少两个”。

在对本申请的具体实施方式进行说明之前，先对本申请的主要应用场景进行说明。本申请中的延迟校准方法主要应用于校准IMU与视觉系统之间的延时值，从而以便于后续IMU与视觉系统基于两者之间的延时值实现电子防抖。结合上述实施例的内容，在一个实施例中，参见图1，提供了一种延时校准方法。以该方法应用于终端，且执行主体为终端为例进行说明，该方法包括如下步骤：

101、获取视频组，视频组中至少包括一个视频；

102、对惯性传感器与视觉系统之间的延时值进行更新，并基于更新后的延时值，获取视频组对应的防抖性能得分，重复上述延时值的更新过程及获取防抖性能得分的过程，直至获取到的防抖性能得分满足预设条件，则获取满足预设条件的防抖性能得分所对应的延时值。

其中，惯性传感器与视觉系统耦合在同一拍摄设备上，视频组中每一视频均是基于视觉系统所获取的，防抖处理是通过视觉系统及惯性传感器，并基于两者之间的延时值所完成的，防抖性能得分用于评估对视频作防抖处理后的防抖效果。惯性传感器与视觉系统之所以需要耦合在同一拍摄设备上，是因为本发明实施例主要是根据视觉系统的成像质量，来校准惯性传感器与视觉系统之间的延时值。其中，惯性传感器需要捕获摄影设备的抖动，而视觉系统需要在拍摄设备存在抖动的前提下拍摄成像并后续以此确定成像质量。为达到上述前提，惯性传感器与视觉系统需要耦合在同一拍摄设备上。

在上述步骤101中，视频组可以仅包括一个视频，也可以包括多个视频，本发明实施例对此不作具体限定。在上述步骤102中，视频组对应的防抖性能得分是基于视频组中每一视频的防抖性能得分所得到的。本发明实施例不对获取视频组对应的防抖性能得分的方式作具体限定，包括但不限于：将视频组中每一视频的防抖性能得分进行相加，将相加得到的和值作为视频组对应的防抖性能得分；或者，将视频组中每一视频的防抖性能得分进行相加，再对相加得到的和值取平均值，将平均值作为视频组对应的防抖性能得分。

另外，在步骤102中，延时值可具有初始值，如初始值为0。第一次对延时值进行更新，可以指的是对延时值的初始值进行更新。当然，实际实施过程中，第一次获取视频组对应的防抖性能得分，可以不对延时值进行更新，也即不是基于更新后的延时值获取视频组对应的防抖性能得分，而是直接基于延时值的初始值，本发明实施例不对此作具体限定。

对于延时值的更新方式，可以朝延时值增加的方向去更新，也可以朝延时值降低的方向去更新，本发明实施例对此不作具体限定。例如，朝延时值增加的方向去更新，可以之前延时值为0.2秒，更新后增加为0.3秒。朝延时值降低的方向去更新，可以之前延时值为0.3秒，更新后降低为0.2秒。

在上述步骤102中，预设条件可以根据需求进行设置，例如，对于步骤102中获取到的满足预设条件的防抖性能得分，实际上就是最后一次更新延时值后，所获取到的防抖性能得分，同时也是最后一次获取到的防抖性能得分。基于此，预设条件可以为最后一次获取到的防抖性能得分与上一次获取到的防抖性能得分之间的差值小于第一预设阈值，此时，满足预设条件的防抖性能得分所对应的延时值，可以为最后一次获取到的防抖性能得分所对应的延时值。或者，预设条件可以为最后一次获取到的防抖性能得分大于第二预设阈值，此时，满足预设条件的防抖性能得分所对应的延时值，也可以为最后一次获取到的防抖性能得分所对应的延时值。

再或者，考虑到当更新的延时值在逐渐逼近延时值的真实值时，防抖性能得分虽然可能在逐渐提高但提升幅度会随着前者逼近过程而逐渐减少，基于该原理，预设条件还可以为连续n次获取到的防抖性能得分均大于第三预设阈值且该连续n次获取到的防抖性能得分中每两个相邻的防抖性能得分之间的差值均小于第四预设阈值。其中，n为不小于2的正整数。此时，满足预设条件的防抖性能得分所对应的延时值，可以为最后一次获取到的防抖性能得分所对应的延时值。当然，实际实施过程中预设条件还可以为其它内容，本发明实施例对此不作具体限定。需要说明的是，第一预设阈值至第四预设阈值均可以根据实测或者经验获取，本发明实施例对此不作具体限定。另外，IMU可以包括加速度计和陀螺仪，本发明实施例对此也不作具体限定。

本发明实施例提供的方法，通过获取视频组，对惯性传感器与视觉系统之间的延时值进行更新，并基于更新后的延时值，获取视频组对应的防抖性能得分，重复上述延时值的更新过程及获取防抖性能得分的过程，直至获取到的防抖性能得分满足预设条件，则获取满足预设条件的防抖性能得分所对应的延时值。由于不需要由IMU与视觉系统分别估计两组运动，再以两组运动之间的误差作为代价值，使误差最小化来估计两者之间的延迟，从而能够避免两组运动估计本身所带来的误差，进而能够提高校准延迟时的精准度。

结合上述实施例的内容，在一个实施例中，对于视频组中任一视频，本发明实施例不对获取该视频的防抖性能得分的方式作具体限定，包括但不限于：根据视频对应的图像帧参数，获取视频的防抖性能得分。

图像帧参数可以包括图像帧之间的差异度和/或相似度，图像帧参数可以基于视频中图像帧之间的图像参数计算得到。其中，图像参数可以包括亮度和/或对比度等，本发明实施例对此不作具体限定。以图像参数为亮度为例，图像帧参数可以包括图像帧之间亮度的相似度和/或差异度。以图像参数为对比度为例，图像帧参数可以包括图像帧之间对比度的相似度和/或差异度。以图像参数包括亮度及对比度为例，图像帧参数可以包括亮度的相似度和/或差异度，以及，对比度的相似度和/或差异度。其中，差异度可以通过计算差值得到，相似度可以通过相似度算法计算得到。例如，两个图像帧之间亮度的差异度，可以通过计算两个图像帧之间亮度的差值得到。两个图像帧之间亮度的相似度，可以通过相似度算法计算得到，如对于两个图像帧各自对应的亮度特征向量，可以计算该两个亮度特征向量之间的相似度，以作为两个图像帧之间亮度的相似度。

由上述过程可知，图像帧参数主要可以用于表示视频中图像帧之间的差异度和/或相似度。至于是视频中哪些图像帧之间的差异度和/或相似度，可以根据需求设置，本发明实施例对此不作具体限定。例如，可以仅是由视频中起始帧与中间帧之间的差异度和/或相似度构成图像帧参数，也可以仅是中间帧与结束帧之间的差异度和/或相似度构成图像帧参数，还可以是起始帧与中间帧之间的差异度和/或相似度，以及中间帧与结束帧之间的差异度和/或相似度共同构成图像帧参数。

需要说明的是，视频是由一帧帧图像所构成的，当视频是由处于运动状态下的拍摄设备所拍摄得到时，视频中图像帧之间会因为抖动而产生些许图像参数的变形。而这些图像参数的变形会组合在一起，体现在视觉效果上，可能会呈现不好的拍摄效果，如会造成视频呈现拍摄抖动模糊等不好的拍摄效果，而防抖处理能够尽量消除这些参数变形以提高拍摄效果。在数据处理的角度，这些图像参数的变形会体现在图像帧之间的图像参数所对应的计算结果上，也即可以体现在图像帧参数上。因此，图像帧参数作为视频经过防抖处理后其所呈现的视觉效果的一种外在量化，是可以代表视频经过防抖处理后其防抖性能好坏的，从而可以利用图像帧参数来评估视频防抖性能。

另外，结合上述示例中的内容，关于终端101根据视频对应的图像帧参数，获取视频的防抖性能得分的方式，本发明实施例对此不作具体限定。基于图像帧参数中包含的内容，获取防抖性能得分的方式可以分为如下几种方式：

(1)图像帧参数包括图像帧之间的差异度。

由上述示例中的内容可知，在根据视频对应的图像帧参数，获取视频的防抖性能得分时，至于是视频中哪些图像帧之间的差异度，可以根据需求设置。无论是哪些图像帧之间的差异度，其实际均是视频中某两帧图像构成一组，并为该组内两帧图像之间的差异度。因此，图像帧参数实际上可以包括若干个差异度，每一差异度均是由视频中某组两帧图像所确定的。其中，“若干个”可以指的是一个或多个。相应地，在根据视频对应的图像帧参数，获取视频的防抖性能得分时，若图像帧参数中包含一个差异度，则可以直接将该差异度作为视频的防抖性能得分。若图像帧参数中包含多个差异度，则可以对该多个差异度取平均值，将平均值作为视频的防抖性能得分。

(2)图像帧参数包括图像帧之间的相似度。

与上述第(1)种情形类似，由上述示例中的内容可知，在根据视频对应的图像帧参数，获取视频的防抖性能得分时，至于是视频中哪些图像帧之间的差异度，可以根据需求设置。无论是哪些图像帧之间的相似度，其实际均是视频中某两帧图像构成一组，并为该组内两帧图像之间的相似度。因此，图像帧参数实际上可以包括若干个相似度，每一相似度均是由视频中某组两帧图像所确定的。其中，“若干个”可以指的是一个或多个。相应地，在根据视频对应的图像帧参数，获取视频的防抖性能得分时，若图像帧参数中包含一个相似度，则可以直接将该相似度作为视频的防抖性能得分。若图像帧参数中包含多个相似度，则可以对该多个相似度取平均值，将平均值作为视频的防抖性能得分。

(3)图像帧参数包括图像帧之间的相似度及差异度。

与上述第(1)种及第(2)种情形类似，无论是哪些图像帧之间的相似度或差异度，其实际均是视频中某两帧图像构成一组，并为该组内两帧图像之间的相似度或差异度。因此，图像帧参数实际上可以包括若干个相似度及若干个差异度，每一相似度或差异度均是由视频中某组两帧图像所确定的。其中，“若干个”可以指的是一个或多个。相应地，在根据视频对应的图像帧参数，获取视频的防抖性能得分时，可以先对图像帧参数中若干个差异度取平均值，得到差异度平均值，并对图像帧参数中若干个相似度取平均值，得到相似度平均值。通过对差异度平均值与相似度平均值进行加权求和，将加权求和结果作为视频的防抖性能得分。其中，如果上述“若干个”实质为一个，则可以不作平均值，直接使用该一个相似度或平均度进行加权求和。

例如，结合上述示例内容，以图像帧参数包括视频中起始帧与结束帧之间的差异度为例，可以将该差异度直接作为防抖性能得分。以图像帧参数包括视频中起始帧与中间帧之间的差异度，以及中间帧与结束帧之间的差异度为例，可以将两个差异度取平均值，并将平均值作为防抖性能得分。以图像帧参数包括视频中起始帧与中间帧之间的差异度，以及视频中起始帧与中间帧之间的相似度为例，可先按照差异度与相似度在让视频呈现更好拍摄效果所占据的重要程度上，设置差异度与相似度各自的权重，从而对差异度与相似度进行加权求和，从而将加权求和结果作为防抖性能得分。

本发明实施例提供的方法，通过获取经由防抖处理所形成的视频，根据视频对应的图像帧参数，获取视频的防抖性能得分。由于防抖性能得分是基于视频对应的图像帧参数所获取的相对客观的评估依据，从而相较于人类视觉系统，防抖性能得分作为评估结果更加精准。另外，由于是根据视频对应的图像帧参数，直接获取防抖性能得分以评估防抖效果，而不需要花费较长时间通过视觉直观感受来评估防抖效果，从而耗费时间较短，评估效率更高。

结合上述实施例的内容，在一个实施例中，图像帧参数包括图像相似度；相应地，本发明实施例不对根据视频对应的图像帧参数，获取视频的防抖性能得分的方式作具体限定，包括但不限于：对于视频中每一组相邻预设间隔的两帧图像，获取每一组相邻预设间隔的两帧图像中前一帧图像与后一帧图像之间的图像相似度，并作为每一组相邻预设间隔的两帧图像对应的图像相似度；根据视频中每一组相邻预设间隔的两帧图像对应的图像相似度，获取视频的防抖性能得分。

在上述过程中，预设间隔可以用m表示，m表示间隔m帧。具体地，m可以为1，也可以为2，但不能大于总帧数减1所得到的数值。其中，m也不宜过大，过大则图像相似度的总量太少，会导致后续防抖性能得分不够准确。基于上述理由以及为了便于说明，本发明实施例以预设间隔为1为例，对后续过程进行解释说明。

以视频中一共包含m帧图像，分别为第1帧、第2帧、…、第m帧为例。上述过程中所提及的视频中每一组相邻预设间隔的两帧图像，在预设间隔为1时，指的是第1帧与第2帧作为一组相邻的两帧图像、第2帧与第3帧作为一组相邻的两帧图像、第3帧与第4帧作为一组相邻的两帧图像、……、直至第m-1帧与第m帧作为一组相邻的两帧图像，这样一共可以形成m-1组。其中，每一组相邻预设间隔的两帧图像对应的图像相似度的计算方式，可以参考上述示例种图像相似度的相关定义。

在获取到视频中每一组相邻预设间隔的两帧图像对应的图像相似度后，可以根据每一组相邻预设间隔的两帧图像对应的图像相似度，进一步获取视频的防抖性能得分。本发明实施例不对根据视频中每一组相邻预设间隔的两帧图像对应的图像相似度，获取视频的防抖性能得分的方式作具体限定，包括但不限于：获取视频中每一组相邻预设间隔的两帧图像对应的图像相似度的求和结果，并将求和结果作为视频的防抖性能得分。或者，进一步地，基于视频中每一组相邻预设间隔的两帧图像所形成的总组数，对求和结果取平均值，将平均值作为视频的防抖性能得分。

再或者，若上述求得的图像相似度不止一种，则可进一步基于多种图像相似度来获取视频的防抖性能得分。比如结合上述示例中的说明，图像相似度是基于视频中相邻两帧图像之间的图像参数计算得到的，图像参数可以包括亮度和/或对比度。以图像参数包括亮度和对比度为例，相应地，图像相似度可以包括两项，一项是基于图像参数为亮度所求得的，记为亮度相似度，另一项是基于图像参数为对比度所求得的，记为对比度相似度。

基于上述说明，根据视频中每一组相邻预设间隔的两帧图像对应的图像相似度，获取视频的防抖性能得分，可以进一步为：获取视频中每一组相邻预设间隔的两帧图像对应的每项图像相似度的求和结果，对每项图像相似度对应的求和结果再进行求和，将最终的求和结果作为视频的防抖性能得分。当然，除了该方式之外，对于多项图像相似度的情形，还可以采取对多项图像相似度进行加权求和的方式，来获取视频的防抖性能得分。例如，以图像相似度包括基于图像参数为亮度所求得的亮度相似度结果，以及基于图像参数为对比度所求得的对比度相似度结果为例，可以基于视频中每一组相邻预设间隔的两帧图像对应的每项图像相似度，及每项图像相似度对应的权重进行加权求和，将得到的加权求和结果作为视频的防抖性能得分。

本发明实施例提供的方法，由于拍摄抖动是连续的，在经过防抖处理的前提下，防抖处理后的提升效果会在视频中每一组相邻预设间隔的两帧图像之间的对比中有所体现，而每一组相邻预设间隔的两帧图像对应的图像相似度能够反映实际提升效果，从而基于每一组相邻预设间隔的两帧图像对应的图像相似度所获取的防抖性能得分，能够作为相对客观的评估依据，以此作为评估结果更加精准。

结合上述实施例的内容，在一个实施例中，预设间隔为1，对于视频中任意一组相邻预设间隔的两帧图像，将该两帧图像分别记为第q帧图像及第q-1帧图像；相应地，本发明实施例不对获取每一组相邻预设间隔的两帧图像中前一帧图像与后一帧图像之间的图像相似度的方式作具体限定，包括但不限于如下两种方式：

第一种获取图像相似度的方式：获取第q帧图像中的第一子区域与第q-1帧图像中的第二子区域之间的图像相似度，并作为第q帧图像与第q-1帧图像之间的图像相似度，第一子区域与第二子区域是按照相同划分方式划分的且在各自图像中位于相同位置；或者，

第二种获取图像相似度的方式：获取每一子区域组中第三子区域与第四子区域之间的图像相似度，并根据多个子区域组对应的图像相似度，获取第q帧图像与第q-1帧图像之间的图像相似度；其中，每一子区域组是由第q帧图像中的第三子区域及第q-1帧图像中的第四子区域所组成的，第q帧图像中的第三子区域与第q-1帧图像中的第四子区域是按照相同的划分方式所得到的，每一子区域组中第三子区域与第四子区域在各自图像中位于相同位置。

在上述第一种方式中，以第q帧图像及第q-1帧图像均按照相同划分方式划分为2*2的4个部分，第一子区域为第q帧图像所划分的4个部分中左上角的那部分，第二子区域为第q-1帧图像所划分的4个部分中左上角的那部分为例，可以按照上述示例中计算图像相似度的方式来分别获取第一子区域与第二子区域之间的图像相似度。例如，可以先获取第一子区域中所有像素的平均亮度值，再获取第二子区域中所有像素的平均亮度值，将第一子区域对应的平均亮度值与第二子区域对应的平均亮度值之间的差值，作为第一子区域与第二子区域之间的图像相似度。

当然，在按照上述划分方式所形成的4个部分中，也可以将第q-1帧图像中右上角的那部分作为第一子区域，将第q帧图像中右上角的那部分作为第二子区域，同样地，还可以将第q-1帧图像中左下角的那部分作为第一子区域，将第q帧图像中左下角的那部分作为第二子区域，以此来获取第一子区域与第二子区域之间的图像相似度，本发明实施例对此不作具体限定。

在上述第二种方式中，以第q帧图像及第q-1帧图像均按照相同划分方式划分为2*2的4个部分为例。相应地，第q帧图像中包括4个第三子区域，第q-1帧图像包括4个第四子区域，并由此可形成4个子区域组。

具体地，第q帧图像位于左上角的第三子区域与第q-1帧图像位于左上角的第四子区域可形成第一个子区域组，第q帧图像位于右上角的第三子区域与第q-1帧图像位于右上角的第四子区域可形成第二个子区域组，第q帧图像位于左下角的第三子区域与第q-1帧图像位于左下角的第四子区域可形成第三个子区域组，第q帧图像位于右下角的第三子区域与第q-1帧图像位于右下角的第四子区域可形成第四个子区域组。

结合上述示例的内容，基于相同的图像相似度计算方式，可以分别获取这四个子区域组中每一子区域组对应的图像相似度。由此，根据多个子区域组对应的图像相似度，可获取第q帧图像与第q-1帧图像之间的图像相似度。本发明实施例不对根据多个子区域组对应的图像相似度，获取第q帧图像与第q-1帧图像之间的图像相似度的方式作具体限定，包括担不限于：将求和结果作为第q帧图像与第q-1帧图像之间的图像相似度；或者，基于子区域组的数量，获取求和结果的平均值，将平均值作为第q帧图像与第q-1帧图像之间的图像相似度。其中，求和结果是对每一子区域组对应的图像相似度进行相加后得到的。需要说明的是，上述示例给出的预设间隔为1时的实现过程，预设间隔为除1之外的其它值时，也可以参考上述示例中的过程，此处不再赘述。

本发明实施例提供的方法，由于拍摄抖动是连续的，在经过防抖处理的前提下，防抖处理后的提升效果会在视频中每一组相邻预设间隔的两帧图像之间的对比中有所体现，而每一组相邻预设间隔的两帧图像对应的图像相似度能够反映实际提升效果，从而对于一组相邻预设间隔的两帧图像，在将该两帧图像采用相同的划分方式进行划分后，基于该两帧图像位于相同位置所划分得到的某一块区域或者将所划分得到的所有区域作为全局考虑，以此来获取该两帧图像对应的图像相似度，能够作为相对客观的评估依据，基于此所获取的评估结果更加精准。

结合上述实施例的内容，在一个实施例中，本发明实施例不对根据视频中每一组相邻预设间隔的两帧图像对应的图像相似度，获取视频的防抖性能得分的方式作具体限定，包括但不限于：根据视频中每一组相邻预设间隔的两帧图像对应的每项图像相似度，及每项图像相似度对应的权重，获取视频中每一组相邻预设间隔的两帧图像对应的相似度得分；根据视频中每一组相邻预设间隔的两帧图像对应的相似度得分，获取视频的防抖性能得分。

其中，关于根据视频中每一组相邻预设间隔的两帧图像对应的每项图像相似度，及每项图像相似度对应的权重，获取视频中每一组相邻预设间隔的两帧图像对应的相似度得分的方式，本发明实施例对此也不作具体限定，包括但不限于如下两种方式：

第一种获取相似度得分的方式：基于视频中每一组相邻预设间隔的两帧图像对应的每项图像相似度及每项图像相似度对应的权重，获取加权求和结果，并将加权求和结果作为视频中每一组相邻预设间隔的两帧图像对应的相似度得分。

第二种获取相似度得分的方式：将视频中每一组相邻预设间隔的两帧图像对应的每项图像相似度作为幂底数，将每项图像相似度对应的权重作为幂指数，获取视频中每一组相邻预设间隔的两帧图像对应的每项图像相似度的乘方结果，根据视频中每一组相邻预设间隔的两帧图像对应的每项图像相似度的乘方结果，获取视频中每一组相邻预设间隔的两帧图像对应的相似度得分。

其中，本发明实施例不对根据视频中每一组相邻预设间隔的两帧图像对应的每项图像相似度的乘方结果，获取视频中每一组相邻预设间隔的两帧图像对应的相似度得分的方式作具体限定，包括但不限于：对视频中每一组相邻预设间隔的两帧图像对应的每项图像相似度的乘方结果进行求和，将求和结果作为每一组相邻预设间隔的两帧图像对应的相似度得分；或者，对视频中每一组相邻预设间隔的两帧图像对应的每项图像相似度的乘方结果进行相乘，将乘积结果作为每一组相邻预设间隔的两帧图像对应的相似度得分。

例如，以图像相似度为3项为例，视频中第t-1组相邻预设间隔的两帧图像对应的第一项图像相似度记为L_t，视频中第t-1组相邻预设间隔的两帧图像对应的第二项图像相似度记为C_t，视频中第t-1组相邻预设间隔的两帧图像对应的第三项图像相似度记为S_t。而第一项图像相似度对应的权重记为a，第二项图像相似度对应的权重记为b，第三项图像相似度对应的权重记为c。

对于上述第一种获取相似度得分的方式，可以参考如下公式(1)来计算：

P_t＝a*L_t+b*C_t+c*S_t； (1)

对于上述第二种获取相似度得分的方式，若获取视频中每一组相邻预设间隔的两帧图像对应的相似度得分，是采用将乘方结果进行相乘的方式，则第二种获取相似度得分的方式，可以参考如下公式(2)来计算：

在上述公式(1)及公式(2)中，P_t表示第t组相邻预设间隔的两帧图像对应的相似度得分。在上述公式(2)，

表示第t-1组相邻预设间隔的两帧图像对应的第一项图像相似度的乘方结果，

表示第t-1组相邻预设间隔的两帧图像对应的第二项图像相似度的乘方结果，

表示第t-1组相邻预设间隔的两帧图像对应的第三项图像相似度的乘方结果。

需要说明的是，在上述两种获取相似度得分的方式中，每项图像相似度对应的权重可以根据实际需求进行设置。例如，若存在两项图像相似度，其中一项是基于亮度所计算得到的图像相似度，另一项是基于对比度计算得到的图像相似度，而视频中环境亮度较暗，则对于这两项图像相似度，应当尽量减少环境亮度较暗所带来的误差。由此，可适当减小基于亮度所计算得到的图像相似度对应的权重，而适当提升基于对比度所计算得到的图像相似度对应的权重。

在获取视频中每一组相邻预设间隔的两帧图像对应的相似度得分之后，可以根据视频中每一组相邻预设间隔的两帧图像对应的相似度得分，获取视频的防抖性能得分。本发明实施例不对根据视频中每一组相邻预设间隔的两帧图像对应的相似度得分，获取视频的防抖性能得分的方式作具体限定，包括但不限于：获取相似度得分的累加结果，累加结果是对视频中每一组相邻预设间隔的两帧图像对应的相似度得分进行累加后所得到的。

本发明实施例提供的方法，由于可以基于相邻预设间隔的两帧图像对应的每项图像相似度，来获取相邻预设间隔的两帧图像之间的相似度得分，从而相较于基于单一一项图像相似度来获取相似度得分，获取到的结果更加精准。另外，由于可以按照实际需求设置每项图像相似度的权重，从而可以使得获取相似度得分时能够有所侧重，减少权重低对应的图像相似度所带来的误差，而防抖性能得分是由相似度得分及权重所确定的，进而使得后续获取到的防抖性能得分更加精准。

结合上述实施例的内容，在一个实施例中，图像相似度包括以下三项相似度中的至少一项，以下三项相似度分别为亮度相似度、对比度相似度及结构相似度。

结合上述实施例、具体示例中的内容以及相似度的定义，以预设间隔为1为例，现对上述三项相似度的计算过程进行说明，以视频中第t-1组相邻预设间隔的两帧图像对应的亮度相似度记为L_t，视频中第t-1组相邻预设间隔的两帧图像对应的对比度相似度记为C_t，视频中第t-1组相邻预设间隔的两帧图像对应的结构相似度记为S_t。

其中，计算第t-1组相邻预设间隔的两帧图像对应的亮度相似度，也即第t-1组相邻预设间隔的两帧图像中第t帧图像与第t-1帧图像之间的亮度相似度，可参考如下公式(3)：

在上述公式(3)中，μ_t表示第t帧图像的亮度均值，μ_t-1表示第t-1帧图像的亮度均值。其中，μ_t可采用如下公式(4)计算：

在上述公式(4)中，N表示第t帧图像中的像素总数，i表示第t帧图像中的第i个像素，t_i表示第i个像素的亮度值。

计算第t-1组相邻预设间隔的两帧图像对应的对比度相似度，也即第t-1组相邻预设间隔的两帧图像中第t帧图像与第t-1帧图像之间的对比度相似度，可参考如下公式(5)：

在上述公式(5)中，δ_t表示第t帧图像的亮度标准偏差，也即第t帧图像的对比度，δ_t-1表示第t-1帧图像的对比度。其中，δ_t可采用如下公式(6)计算：

在上述公式(6)中，各个参数的定义可参考上述公式中的相关说明。

计算第t-1组相邻预设间隔的两帧图像对应的结构相似度，也即第t-1组相邻预设间隔的两帧图像中第t帧图像与第t-1帧图像之间的结构相似度，可参考如下公式(7)：

在上述公式(7)中，δ_t,t-1表示第t帧图像与第t-1帧图像之间的亮度协方差。其中，δ_t,t-1可采用如下公式(8)计算：

在上述公式(8)中，(t-1)_i表示第t-1帧图像中的第i个像素的亮度值，μ_t-1表示第t-1帧图像的亮度均值。

本发明实施例提供的方法，由于可以基于相邻预设间隔的两帧图像对应的亮度相似度、对比度相似度及结构相似度，来获取相邻预设间隔的两帧图像之间的相似度得分，从而相较于基于单一一项图像相似度来获取相似度得分，获取到的结果更加精准，而防抖性能得分是由相似度得分所确定的，进而使得后续获取到的防抖性能得分更加精准。

结合上述实施例的内容，在一个实施例中，视频为单通道视频或多通道视频。其中，单通道视频为灰度视频，多通道视频为彩色视频。需要说明的是，若该视频为灰度视频，则可以直接按照上述实施例提供的方式，获取该灰度视频的防抖性能得分。若该视频为彩色视频，则可以按照上述实施例提供的方式，先获取每一通道下视频中每一组相邻预设间隔的两帧图像对应的每项图像相似度，对于某一同类型的图像相似度，再将每一通道下视频中每一组相邻预设间隔的两帧图像对应的该同类型图像相似度进行加和，将加和结果作为视频中每一组相邻预设间隔的两帧图像对应的该同类型图像相似度。通过上述过程，即可得到视频中每一组相邻预设间隔的两帧图像对应的每项图像相似度，再采用上述实施例提供的方式，即可获取该视频的防抖性能得分。

本发明实施例提供的方法，由于可以同时适用于单通道视频或多通道视频，从而适用场景更加广泛。

结合上述实施例的内容，在一个实施例中，参见图2，提供一种延迟校准方法，包括以下步骤：

201、获取多个视频，视频是在拍摄设备存在抖动的前提下所拍摄的；

202、根据多个视频中每个视频对应的拍摄时间段内所获取到的拍摄设备的姿态数据，对多个视频进行筛选，并由筛选后得到的视频构成视频组；其中，拍摄设备的姿态数据是基于惯性传感器所获取的；

203、对惯性传感器与视觉系统之间的延时值进行更新，并基于更新后的延时值，获取视频组对应的防抖性能得分，重复上述延时值的更新过程及获取防抖性能得分的过程，直至获取到的防抖性能得分满足预设条件，则获取满足预设条件的防抖性能得分所对应的延时值。

其中，关于步骤203中内容的相关解释可参考上述实施例的内容，此处不再赘述。在上述步骤201中，“视频是在拍摄设备存在抖动的前提下所拍摄的”，指的是拍摄设备的拍摄环境可以是抖动的，如可以在运动过程中拍摄视频，比如用户跑步手持拍摄，山地车骑行拍摄等高频运动。由于上述运动中，拍摄设备会随着用户运动而不断发生抖动，从而在这些运动过程中拍摄得到的视频，可以认为是在在拍摄设备存在抖动的前提下所拍摄的。需要说明的是，实际在获取多个视频时，如n个，可以不是分别拍摄n次以获取n个视频，而是先拍摄一个视频，再基于滑窗从该视频中截取多个视频段，从而获取多个视频。

本发明实施例正是需要利用存在“抖动”的视频，并将这些视频作为防抖性能得分的评测对象。其中，“抖动”越严重的视频，用于作为评测对象则越佳。基于该原理，上述步骤201中才说明“视频是在拍摄设备存在抖动的前提下所拍摄的”。当然，实际实施过程中，只要是人手持拍摄设备，通常都会存在抖动，不一定需要让拍摄设备特意在存在抖动的环境下拍摄，也即可以在一般环境下拍摄也可以，只是相对于前者，比较难获得“抖动”严重的视频以作为评测对象。

其中，滑窗自身的长度可以根据需求进行设置，本发明实施例对此不作具体限定。另外，滑窗每次滑动时的滑动步长也可以根据需求进行设置，每次滑动的滑动步长可以相同，也可以不同，本发明实施例对此也不作具体限定。例如，以一个视频一共有4800帧，滑窗自身的长度可以固定为100帧，滑动步长固定为10帧为例，通过滑窗滑动的方式可以先截取第1帧至第100帧为第1个视频，滑动1次后，可以跳过10帧，接着可以截取第111帧至211帧为第2个视频，依次类推，直到截取出所需数量的多个视频。

在上述步骤202中，拍摄设备的姿态数据是用于描述拍摄设备的姿态，其可以用姿态角或四元数等不同方式进行表示，本实施例对此不作具体限定。另外，对于某个视频，在获取该视频对应的拍摄时间段内的拍摄设备的姿态数据时，获取频率可以与拍摄视频时的帧数频率一致，也可以不一致，本发明实施例对此不作具体限定。例如，对于2021年4月7日17点10分至2021年4月7日17点11分这个拍摄时间段所获取到的1分钟长度的视频，若1秒为24帧，则在这个时间段内每次获取图像帧的时刻，可同时获取拍摄设备的姿态数据，也即每秒可获取24次拍摄设备的姿态数据，从而该1分钟可以获取到24*60＝1440个拍摄设备的姿态数据。

以拍摄设备的姿态数据由姿态角的方式表示为例，相应地，本发明实施例不对获取拍摄设备的姿态数据的方式作具体限定，包括但不限于：通过基于IMU的预设算法估计拍摄设备的姿态，以得到拍摄设备的姿态数据。其中，预设算法可以为AKF(Adaptive KalmanFilter，自适应的卡尔曼滤波器)算法、UKF(Unscented Kalman Filter，无迹卡尔曼滤波器)、互补滤波算法或者其它滤波算法，本发明实施例对此不作具体限定。

需要说明的是，延时值之所以会影响防抖性能得分是因为防抖性能得分是由根据图像帧参数来获取的，图像帧参数是基于防抖处理后的图像帧所获取的，而防抖处理是通过视觉系统及惯性传感器，并基于两者之间的延时值所完成的。因此，对于IMU对应的时钟及视觉系统对应的时钟，延时值越精准，以其中一个时钟为标准加上延时值，在另一个时钟下去索引相应的数据，索引结果也越精准。还需要说明的是，以其中一个时钟为标准，另一个时钟与该时钟之间的延时值可以为正可以为负，例如，以视觉系统对应的时钟为标准，IMU对应的时钟可能是慢了，也可能是快了，从而基于此，延时值可能是正值，也有可能是负值。

例如，以IMU与视觉系统之间的真实延时值是0.01秒，在IMU对应的时钟下，以基于IMU获取到的拍摄设备的姿态数据分别为：第0.01秒、第0.02秒、第0.03秒、第0.04秒、第0.05秒、第0.06秒、第0.07秒、第0.08秒、第0.09秒及第0.10秒这10个时刻下的拍摄设备的姿态数据，而在视觉系统对应的时钟下，以基于视觉系统拍摄到的图像帧分别为：第0.01秒、第0.02秒、第0.03秒、第0.04秒、第0.05秒、第0.06秒、第0.07秒、第0.08秒、第0.09秒及第0.10秒这10个时刻下的图像帧为例。

假定IMU与视觉系统之间估计的延时值为0.03秒，且是以视觉系统对应的时钟为标准，IMU对应的时钟慢了0.03秒，也即IMU对应的时钟与视觉系统对应的时钟之间的延时值为-0.03。按照该延时值，视觉系统在第0.04秒这个时刻拍摄到的图像帧，与IMU在第0.01秒这个时刻获取到的拍摄设备的姿态数据是对应的，后续在对第0.04秒这个时刻拍摄到的图像帧进行电子防抖处理时，所使用的便会是IMU在第0.01秒这个时刻获取到的拍摄设备的姿态数据。而真实延时值是0.01秒，也即视觉系统在第0.04秒这个时刻拍摄到的图像帧，应与IMU在第0.03秒这个时刻获取到的拍摄设备的姿态数据是对应的，后续在对第0.04秒这个时刻拍摄到的图像帧进行电子防抖处理时，应当需要使用IMU在第0.03秒这个时刻获取到的拍摄设备的姿态数据。其中，估计的延时值与真实延时值差距越大，就越不能够索引到正确的拍摄设备的姿态数据，从而后续进行电子防抖处理时误差也就越大。

通过上述过程，在获取到每个视频对应的拍摄时间段内所获取到的拍摄设备的姿态数据，可以对多个视频进行筛选。其中，筛选过程可以是计算每个视频对应的拍摄时间段内所获取到的拍摄设备的姿态数据所对应的方差，再按照方差从大到小进行排序，从而以此选取前预设数量个视频。由于方差越大能够代表数据越不稳定，从而依此可以选择抖动比较激烈的视频作为筛选后得到的视频。

本发明实施例提供的方法，通过获取多个视频，根据多个视频中每个视频对应的拍摄时间段内所获取到的拍摄设备的姿态数据，对多个视频进行筛选。由于在计算视频对应的防抖性能得分之前，可以对视频进行筛选，以选择抖动比较激烈的视频作为筛选后得到的视频，而抖动越激烈对防抖处理的要求也就越高，防抖性能得分也越能体现防抖处理的真实效果，对延时值其取值的准确性也就有越高要求，从而以上述筛选后的视频作为测试防抖处理效果的基础，通过不断执行延时值的更新过程及获取防抖性能得分的过程，最终获取到的延时值会更加精准。

应该理解的是，虽然图1及图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1及图2中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

结合上述实施例的内容，在一个实施例中，本发明实施例不对根据多个视频中每个视频对应的拍摄时间段内所获取到的拍摄设备的姿态数据，对多个视频进行筛选的方式作具体限定，包括但不限于：将在每个视频对应的拍摄时间段内所获取到的拍摄设备的姿态数据转换至频域空间，以得到每个视频对应的幅频特性曲线集合；根据每个视频对应的幅频特性曲线集合，获取每个视频对应的频域分值；根据每个视频对应的频域分值，对多个视频进行筛选。

其中，每个视频对应的拍摄时间段内所获取到的拍摄设备的姿态数据可以为连续轴角，即为连续的离散数值，这些离散数值可以在以横坐标为时间，纵坐标为轴角大小所形成的坐标系中形成一条线性变化的时域曲线。通过快速傅里叶变换，可以将这条曲线变为多个正弦波曲线，也即多个幅频特性曲线，并由此组成幅频特性曲线集合。而这些幅频特性曲线集合中每一幅频特性曲线可以作为以频率为横坐标，幅值为纵坐标所形成的坐标系中的一个点。

每个视频对应的频域分值，可以用于表示每个视频拍摄时抖动的剧烈程度。对于某一视频对应的幅频特性曲线集合，在获取该视频对应的频域分值时，可从该幅频特性曲线集合中每一幅频特性曲线对应的频率及幅值中确定频率最大值及幅值最大值，从而将两者乘积作为该视频对应的频域分值。当然，也可以根据该幅频特性曲线集合中每一幅频特性曲线对应的频率及幅值，确定频率平均值及幅值平均值，从而将两个平均值的乘积作为该视频对应的频域分值。结合上述计算视频的频域分值的过程，之所以视频对应的频域分值，可以用来表示视频拍摄时抖动的剧烈程度，是因为幅值是可以表示视频拍摄时抖动的剧烈程度的，而将幅值相关联的数值作为一项乘积因子，将频率相关联的数值作为另一项乘积因子，两个乘积因子相乘所得到的频率分值，相应地，是也可以用来表示视频拍摄时抖动的剧烈程度。在获取到每个视频对应的频域分值后，可根据每个视频对应的频域分值，对多个视频进行筛选，具体地，可以筛选出频域分值大于预设阈值的视频。

本发明实施例提供的方法，通过基于快速傅里叶变换，将在每个视频对应的拍摄时间段内所获取到的拍摄设备的姿态数据转换至频域空间，以得到每个视频对应的幅频特性曲线集合，根据每个视频对应的幅频特性曲线集合，获取每个视频对应的频域分值，根据每个视频对应的频域分值，对多个视频进行筛选。由于在计算视频对应的防抖性能得分之前，可以对视频进行筛选，以选择抖动比较激烈的视频作为筛选后得到的视频，而抖动越激烈对防抖处理的要求也就越高，防抖性能得分也越能体现防抖处理的真实效果，对延时值其取值的准确性也就有越高要求，从而基于视频的频域分值对视频进行筛选，并基于以上述筛选后的视频作为测试防抖处理效果的基础，通过不断执行延时值的更新过程及获取防抖性能得分的过程，最终获取到的延时值会更加精准。

结合上述实施例的内容，在一个实施例中，本发明实施例不对根据每个视频对应的幅频特性曲线集合，获取每个视频对应的频域分值的方式作具体限定，包括但不限于：对于任一视频对应的幅频特性曲线集合，根据幅频特性曲线集合中每一幅频特性曲线对应的频率及幅值，获取每一幅频特性曲线对应的频域分值；根据每一幅频特性曲线对应的频域分值，获取该视频对应的频域分值。

其中，对于某一幅频特性曲线，可将该幅频特性曲线对应的频率及幅值进行加权求和，从而将加权求和结果，作为该幅频特性曲线对应的频域分值。对于某一视频，在得到该视频对应的幅频特性曲线集合中每一幅频特性曲线对应的频域分值后，可从所有幅频特性曲线对应的频域分值中选取最大值及最小值，将两者的平均值作为该幅频特性曲线集合对应的频域分值，即作为该视频对应的频域分值。

本发明实施例提供的方法，对于某一视频，根据该视频对应的幅频特性曲线集合中每一幅频特性曲线对应的频率及幅值，获取每一幅频特性曲线对应的频域分值；根据每一幅频特性曲线对应的频域分值，获取该视频对应的频域分值。由于在计算视频对应的防抖性能得分之前，可以对视频进行筛选，以选择抖动比较激烈的视频作为筛选后得到的视频，而抖动越激烈对防抖处理的要求也就越高，防抖性能得分也越能体现防抖处理的真实效果，对延时值其取值的准确性也就有越高要求，从而基于视频对应的幅频特性曲线集合中每一幅频特性视频对应的频域分值，获取视频对应的频域分值，再基于视频的频域分值对视频进行筛选，并基于以上述筛选后的视频作为测试防抖处理效果的基础，通过不断执行延时值的更新过程及获取防抖性能得分的过程，最终获取到的延时值会更加精准。

结合上述实施例的内容，在一个实施例中，本发明实施例不对根据幅频特性曲线集合中每一幅频特性曲线对应的频率及幅值，获取每一幅频特性曲线对应的频域分值的方式作具体限定，包括但不限于：获取每一幅频特性曲线对应的频率与幅值的乘积，并将乘积作为每一幅频特性曲线对应的频域分值；或者，获取每一幅频特性曲线对应频率的得分，获取每一幅频特性曲线对应的得分与幅值的乘积，并将乘积作为每一幅频特性曲线对应的频域分值。

在上述过程中，本发明实施例不对获取每一幅频特性曲线对应频率的得分的方式作具体限定，包括但不限于：根据每一幅频特性曲线对应的频率，确定每一幅频特性曲线在预设时间段内的频次，并将频次作为每一幅频特性曲线对应的得分。其中，预设时间段可以为1秒钟，本发明实施例对此不作具体限定。

另外，在第二种方式中之所以将每一幅频特性曲线对应的频率转化为得分，是由于每一幅频特性曲线对应的频率都不相同，将其转化为相同标准下的得分，可以保证数据的同一性，从而保证后续计算得到的频域分值均是基于相同的计算标准。

本发明实施例提供的方法，由于在计算视频对应的防抖性能得分之前，可以对视频进行筛选，以选择抖动比较激烈的视频作为筛选后得到的视频，而抖动越激烈对防抖处理的要求也就越高，防抖性能得分也越能体现防抖处理的真实效果，对延时值其取值的准确性也就有越高要求，从而基于视频的频域分值对视频进行筛选，并基于以上述筛选后的视频作为测试防抖处理效果的基础，通过不断执行延时值的更新过程及获取防抖性能得分的过程，最终获取到的延时值会更加精准。

结合上述实施例的内容，在一个实施例中，本发明实施例不对根据每一幅频特性曲线对应的频域分值，获取任一视频对应的频域分值的方式作具体限定，包括但不限于：对幅频特性曲线集合中所有幅频特性曲线对应的频域分值进行加权求和，将得到的和值作为该视频对应的频域分值。

本发明实施例提供的方法，对于某一视频，通过将该视频对应的幅频特性曲线集合中所有幅频特性曲线对应的频域分值进行加权求和，将得到的和值作为该视频对应的频域分值。由于在计算视频对应的防抖性能得分之前，可以对视频进行筛选，以选择抖动比较激烈的视频作为筛选后得到的视频，而抖动越激烈对防抖处理的要求也就越高，防抖性能得分也越能体现防抖处理的真实效果，对延时值其取值的准确性也就有越高要求，从而基于视频的频域分值对视频进行筛选，并基于以上述筛选后的视频作为测试防抖处理效果的基础，通过不断执行延时值的更新过程及获取防抖性能得分的过程，最终获取到的延时值会更加精准。

结合上述实施例的内容，在一个实施例中，本发明实施例不对根据每个视频对应的频域分值，对多个视频进行筛选的方式作具体限定，包括但不限于：对多个视频中每个视频对应的频域分值按照从大到小排序，选取前预设数量个视频，并作为筛选后得到的视频。

由上述实施例的内容可知，视频的频域分值越大则表明视频拍摄时抖动程度越激烈，从而为了选取拍摄时抖动程度更激烈的视频，可以通过对频域分值进行从大到小排序，并筛选出排序结果中预设数量个视频。

本发明实施例提供的方法，通过对多个视频中每个视频对应的频域分值按照从大到小排序，选取前预设数量个视频，并作为筛选后得到的视频。由于在计算视频对应的防抖性能得分之前，可以对视频进行筛选，以选择抖动比较激烈的视频作为筛选后得到的视频，而抖动越激烈对防抖处理的要求也就越高，防抖性能得分也越能体现防抖处理的真实效果，对延时值其取值的准确性也就有越高要求，从而基于视频的频域分值对视频进行筛选，并基于以上述筛选后的视频作为测试防抖处理效果的基础，通过不断执行延时值的更新过程及获取防抖性能得分的过程，最终获取到的延时值会更加精准。

需要说明的是，上述阐述的技术方案在实际实施过程中可以作为独立实施例来实施，也可以彼此之间进行组合并作为组合实施例实施。另外，在对上述本发明实施例内容进行阐述时，仅基于方便阐述的思路，按照相应顺序对不同实施例进行阐述，如按照数据流流向的顺序，而并非是对不同实施例之间的执行顺序进行限定。相应地，在实际实施过程中，若需要实施本发明提供的多个实施例，则不一定需要按照本发明阐述实施例时所提供的执行顺序，而是可以根据需求安排不同实施例之间的执行顺序。

结合上述实施例的内容，在一个实施例中，如图3所示，提供了一种延迟校准装置，包括：获取模块301及更新模块302，其中：

获取模块301，用于获取视频组，视频组中至少包括一个视频；

更新模块302，用于对惯性传感器与视觉系统之间的延时值进行更新，并基于更新后的延时值，获取视频组对应的防抖性能得分，重复上述延时值的更新过程及获取防抖性能得分的过程，直至获取到的防抖性能得分满足预设条件，则获取满足预设条件的防抖性能得分所对应的延时值；

在一个实施例中，获取模块301，包括：

获取子模块，用于获取多个视频，视频是在拍摄设备存在抖动的前提下所拍摄的；

筛选子模块，用于根据多个视频中每个视频对应的拍摄时间段内所获取到的拍摄设备的姿态数据，对多个视频进行筛选，并由筛选后得到的视频构成视频组；其中，拍摄设备的姿态数据是基于惯性传感器所获取的。

在一个实施例中，筛选子模块，包括：

转换单元，用于将在每个视频对应的拍摄时间段内所获取到的拍摄设备的姿态数据转换至频域空间，以得到每个视频对应的幅频特性曲线集合；

获取单元，用于根据每个视频对应的幅频特性曲线集合，获取每个视频对应的频域分值；

筛选单元，用于根据每个视频对应的频域分值，对多个视频进行筛选。

在一个实施例中，获取单元，包括：

第一获取子单元，用于对于任一视频对应的幅频特性曲线集合，根据幅频特性曲线集合中每一幅频特性曲线对应的频率及幅值，获取每一幅频特性曲线对应的频域分值；

第二获取子单元，用于根据每一幅频特性曲线对应的频域分值，获取该视频对应的频域分值。

在一个实施例中，第一获取子单元，用于获取每一幅频特性曲线对应的频率与幅值的乘积，并将乘积作为每一幅频特性曲线对应的频域分值；或者，获取每一幅频特性曲线对应频率的得分，获取每一幅频特性曲线对应的得分与幅值的乘积，并将乘积作为每一幅频特性曲线对应的频域分值。

在一个实施例中，第二获取子单元，用于对幅频特性曲线集合中所有幅频特性曲线对应的频域分值进行加权求和，将得到的和值作为该视频对应的频域分值。

在一个实施例中，筛选单元，用于对多个视频中每个视频对应的频域分值按照从大到小排序，选取前预设数量个视频，并作为筛选后得到的视频。

关于延迟校准装置的具体限定可以参见上文中对于延迟校准方法的限定，在此不再赘述。上述延迟校准装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种图像处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取视频组，视频组中至少包括一个视频；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

根据每个视频对应的频域分值，对多个视频进行筛选。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对于任一视频对应的幅频特性曲线集合，根据幅频特性曲线集合中每一幅频特性曲线对应的频率及幅值，获取每一幅频特性曲线对应的频域分值；根据每一幅频特性曲线对应的频域分值，获取该视频对应的频域分值。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取每一幅频特性曲线对应的频率与幅值的乘积，并将乘积作为每一幅频特性曲线对应的频域分值；或者，获取每一幅频特性曲线对应频率的得分，获取每一幅频特性曲线对应的得分与幅值的乘积，并将乘积作为每一幅频特性曲线对应的频域分值。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对幅频特性曲线集合中所有幅频特性曲线对应的频域分值进行加权求和，将得到的和值作为该视频对应的频域分值。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对多个视频中每个视频对应的频域分值按照从大到小排序，选取前预设数量个视频，并作为筛选后得到的视频。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取视频组，视频组中至少包括一个视频；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

根据每个视频对应的频域分值，对多个视频进行筛选。

对多个视频中每个视频对应的频域分值按照从大到小排序，选取前预设数量个视频，并作为筛选后得到的视频。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种延迟校准方法，其特征在于，所述方法包括：

获取视频组，所述视频组中至少包括一个视频，所述视频是在拍摄设备存在抖动的前提下所拍摄的；

对惯性传感器与视觉系统之间的延时值进行更新，并基于更新后的延时值，获取防抖处理后的视频组对应的防抖性能得分，重复上述延时值的更新过程及获取防抖性能得分的过程，直至获取到的防抖性能得分满足预设条件，则获取满足预设条件的防抖性能得分所对应的延时值；

其中，所述惯性传感器与所述视觉系统耦合在同一拍摄设备上，所述视频组中每一视频均是基于所述视觉系统所获取的，防抖处理是通过所述视觉系统及所述惯性传感器，并基于两者之间的延时值所完成的，所述防抖性能得分用于评估对视频作防抖处理后的防抖效果。

2.根据权利要求1所述的方法，其特征在于，所述获取视频组包括：

获取多个视频，所述视频是在拍摄设备存在抖动的前提下所拍摄的；

根据所述多个视频中每个视频对应的拍摄时间段内所获取到的拍摄设备的姿态数据，对所述多个视频进行筛选，并由筛选后得到的视频构成所述视频组；其中，所述拍摄设备的姿态数据是基于所述惯性传感器所获取的。

3.根据权利要求2所述的方法，其特征在于，所述根据所述多个视频中每个视频对应的拍摄时间段内所获取到的拍摄设备的姿态数据，对所述多个视频进行筛选，包括：

根据每个视频对应的频域分值，对所述多个视频进行筛选。

4.根据权利要求3所述的方法，其特征在于，所述根据每个视频对应的幅频特性曲线集合，获取每个视频对应的频域分值，包括：

对于任一视频对应的幅频特性曲线集合，根据所述幅频特性曲线集合中每一幅频特性曲线对应的频率及幅值，获取每一幅频特性曲线对应的频域分值；

根据每一幅频特性曲线对应的频域分值，获取所述任一视频对应的频域分值。

5.根据权利要求4所述的方法，其特征在于，所述根据所述幅频特性曲线集合中每一幅频特性曲线对应的频率及幅值，获取每一幅频特性曲线对应的频域分值，包括：

获取每一幅频特性曲线对应的频率与幅值的乘积，并将所述乘积作为每一幅频特性曲线对应的频域分值；或者，

获取每一幅频特性曲线对应频率的得分，获取每一幅频特性曲线对应的得分与幅值的乘积，并将所述乘积作为每一幅频特性曲线对应的频域分值。

6.根据权利要求4所述的方法，其特征在于，所述根据每一幅频特性曲线对应的频域分值，获取所述任一视频对应的频域分值，包括：

对所述幅频特性曲线集合中所有幅频特性曲线对应的频域分值进行加权求和，将得到的和值作为所述任一视频对应的频域分值。

7.根据权利要求3所述的方法，其特征在于，所述根据每个视频对应的频域分值，对所述多个视频进行筛选，包括：

对所述多个视频中每个视频对应的频域分值按照从大到小排序，选取前预设数量个视频，并作为筛选后得到的视频。

8.一种延迟校准装置，其特征在于，所述装置包括：

获取模块，用于获取视频组，所述视频组中至少包括一个视频，所述视频是在拍摄设备存在抖动的前提下所拍摄的；

更新模块，用于对惯性传感器与视觉系统之间的延时值进行更新，并基于更新后的延时值，获取防抖处理后的视频组对应的防抖性能得分，重复上述延时值的更新过程及获取防抖性能得分的过程，直至获取到的防抖性能得分满足预设条件，则获取满足预设条件的防抖性能得分所对应的延时值；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。