CN114501061B

CN114501061B - 一种基于物体检测的视频帧对齐方法及系统

Info

Publication number: CN114501061B
Application number: CN202210088079.2A
Authority: CN
Inventors: 朱州; 孙建飞
Original assignee: Shanghai Yingpu Technology Co ltd
Current assignee: Shanghai Yingpu Technology Co ltd
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2024-03-15
Anticipated expiration: 2042-01-25
Also published as: CN114501061A

Abstract

本发明实施例公开了一种基于物体检测的视频帧对齐方法及系统，将同一商品按照相同的拍摄运动轨迹拍摄多组视频，每组视频分别按照时序拆分为多帧，检测视频帧图像中物体的精确画面位置，并根据相邻两帧之间的物体位置偏移量判断出每组视频的起始拍摄运动时间，通过对视频拍摄开始运动的时刻进行对齐，实现对同一商品的不同拍摄视频进行时间上的对齐，解放人工重复性操作、减少时间成本，达到视频全自动合成的目的，促进商品数字化信息采集的自动化进程。

Description

一种基于物体检测的视频帧对齐方法及系统

技术领域

本发明实施例涉及计算机视觉技术领域，具体涉及一种基于物体检测的视频帧对齐方法及系统。

背景技术

近年来，我国在经济和科技上得到了飞速发展，两者的结合进步也已成为不可避免的趋势，对于数字孪生的重视与看好成为社会各界的共识，在这个环境下，对线上线下的商品进行多维度视频采集是数字化建设的基础。

在已有的视频对齐研究中多为对同一类内容的视频进行对齐，也就是包含同种动作的视频，例如倒水、攀岩等原子性动作。一些公开数据集，比如The Climbing andMadonna datasets、VCDA等，但是都是针对人物的某些特定动作进行的标注，与商品视频拍摄中的视频对齐在使用场景和技术选择上都有着较大的不同，而对于商品拍摄的视频帧对齐，由于其新生性和特殊性，当前还没有公开可用的视觉算法解决方案。为了建立商品自动拍摄及视频广告生成生产线，需要将机械臂拍摄的多组商品视频进行拼接，由于相机和机械臂在每次启动时有微小的误差，所以需要一种算法来对同一商品的不同拍摄视频进行时间上的对齐，以解放人工重复性操作、减少时间成本，达到视频全自动合成的目的。

发明内容

为此，本发明实施例提供一种基于物体检测的视频帧对齐方法及系统，以解决在将机械臂拍摄的多组商品视频进行拼接剪辑时，由于相机和机械臂在每次启动时有微小的误差，无法对同一商品的不同拍摄视频进行时间上的对齐的问题。

为了实现上述目的，本发明实施例提供如下技术方案：

根据本发明实施例的第一方面，提出了一种基于物体检测的视频帧对齐方法，所述方法包括：

获取同一商品不同姿态下的按照相同的拍摄运动轨迹拍摄的多组视频；

将每组视频分别按照时序拆分为多帧，并从第一帧开始逐帧进行显著性物体检测获取帧图像中的目标物体位置，并判断相邻帧间物体位置的偏移量是否超过预设阈值，若超过，则判定所述相邻帧中的前一帧所在的时间为该组视频的起始拍摄运动时间，由此获取不同组视频的起始拍摄运动时间；

选择其中一组视频的起始拍摄运动时间作为时间基准，计算每组视频的起始拍摄运动时间相对于所述时间基准的时间偏移量，根据所述时间偏移量将每组视频的起始拍摄运动时间进行时序对齐。

进一步地，所述方法还包括：

将所述商品的某一组视频按照时序拆分为多帧，通过物体检测和位置偏移量计算得的该视频的起始拍摄运动时间后，继续逐帧进行物体检测，并将当前帧与前一帧进行物体位置偏移量计算，判断相邻两帧的物体位置偏移量是否超过预设阈值，若超过，则将当前帧的序列号以及计算得到的相邻两帧的物体位置偏移量作为拍摄运动轨迹特征进行存储，逐帧计算获取所述视频的所有拍摄运动轨迹特征；

将所述视频的所有拍摄运动轨迹特征与数据库中预先存储的视频的拍摄运动轨迹特征进行对比，若一致，则判定两段视频具有相同的拍摄运动轨迹。

进一步地，所述方法还包括：

基于深度学习网络模型进行显著性物体检测获取帧图像中的目标物体位置。

进一步地，所述方法还包括：

通过计算相邻两帧的矩形物体检测框的中心点之间的距离得到相邻帧间物体位置的偏移量。

进一步地，所述方法还包括：

使用机械臂带动相机沿预设拍摄运动轨迹拍摄商品不同姿态的视频。

进一步地，所述方法还包括：

将所述时间偏移量进行非负处理。

根据本发明实施例的第二方面，提出了一种基于物体检测的视频帧对齐系统，所述系统包括：

视频获取模块，用于获取同一商品不同姿态下的按照相同的拍摄运动轨迹拍摄的多组视频；

物体检测模块，用于将每组视频分别按照时序拆分为多帧，并从第一帧开始逐帧进行显著性物体检测获取帧图像中的目标物体位置，并判断相邻帧间物体位置的偏移量是否超过预设阈值，若超过，则判定所述相邻帧中的前一帧所在的时间为该组视频的起始拍摄运动时间，由此获取不同组视频的起始拍摄运动时间；

视频对齐模块，用于选择其中一组视频的起始拍摄运动时间作为时间基准，计算每组视频的起始拍摄运动时间相对于所述时间基准的时间偏移量，根据所述时间偏移量将每组视频的起始拍摄运动时间进行时序对齐。

根据本发明实施例的第三方面，提出了一种计算机存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种基于物体检测的视频帧对齐系统执行如上任一项所述的方法。

本发明实施例具有如下优点：

本发明实施例提出的一种基于物体检测的视频帧对齐方法及系统，将同一商品按照相同的拍摄运动轨迹拍摄多组视频，每组视频分别按照时序拆分为多帧，检测视频帧图像中物体的精确画面位置，并根据相邻两帧之间的物体位置偏移量判断出每组视频的起始拍摄运动时间，通过对视频拍摄开始运动的时刻进行对齐，实现对同一商品的不同拍摄视频进行时间上的对齐，解放人工重复性操作、减少时间成本，达到视频全自动合成的目的，促进商品数字化信息采集的自动化进程。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例1提供的一种基于物体检测的视频帧对齐方法的流程示意图；

图2为本发明实施例1提供的一种基于物体检测的视频帧对齐方法中视频对齐原理示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本实施例提出了一种基于物体检测的视频帧对齐方法，所述方法包括：

S100、获取同一商品不同姿态下的按照相同的拍摄运动轨迹拍摄的多组视频。

具体的，使用机械臂带动相机沿预设拍摄运动轨迹拍摄商品不同姿态的视频。商品不同姿态用相同的机械臂拍摄轨迹分别进行拍摄，由于相机与机械臂的起始存在时间差且这个差值由于机械初始化的不确定性存在细微不同，所以拍摄得到的视频中轨迹的相同走位点在时间上存在着偏差。如图2所示，同一个商品的不同姿态用机械臂的同一个轨迹进行拍摄，这样每个姿态就得到一个对应的拍摄结果，其中每个视频结果都有起始时间(t_{1_s}、t_{2_s}和t_{n_s})、机械臂运动到某个特定位置的时间(t_{1_m}、t_{2_m}和t_{n_m})、结束时间(t_{1_e}、t_{2_e}和t_{n_e})，每个时间都是针对于特定视频而言的，但是每个起始时间都是0s。

比如，商品视频1中，t_{1_s}＝0s、t_{1_m}＝5.1s、t_{1_e}＝10.1s，商品视频2中，t_{2_s}＝0s、t_{2_m}＝5s、t_{2_e}＝10s，商品视频3中，t_{3_s}＝0s、t_{3_m}＝5.2s、t_{3_e}＝10.2s，可以看到在这个例子中，由于每次机械臂相对于相机启动时间的不同，每次机械臂运动到空间位置m的时候，视频中的时间偏差依次为△1＝-0.1s、△2＝0s、△3＝-0.2s，这样一来就有：

t1_m+△1＝t2_m+△2＝t3_m+△3＝5s

计算出偏差以后就可以根据偏差来对视频进行对齐。比如两个用机械臂拍摄的视频A和B，它们的开始时间存在偏差，假设是A比B快一些，这里的“快”意思是机械臂开始走轨迹的时间要早一些，表现出来的现象就可能是视频A在第3秒的时候已经拍摄到商品正面了，视频B第5秒的时候才拍摄到商品正面，那么以拍到商品正面时间为4秒为参照点(4秒是一个参照时间，使用其他值也可以，使用A和B的时间也可以，下文中的“t_{1_m}为基准进行偏移计算”就是以A的时间作为参照)，视频A的偏差是1s，视频B的偏差是-1s，得到A和B分别的偏差后，就可以进行对齐，即将视频A慢放1s，视频B快放1s，那么两个视频就对齐了，“对齐”的结果就是两个视频在4s的时候都播放的是商品正面。

本实施例提出的视频对齐方法是基于物体检测和机械臂运动轨迹的，具体来说就是，对于每一段视频，计算每一帧中的物体位置，因为拍摄过程中商品是静止的、机械臂是起始静止然后运动，所以在生成的视频里必定由于机械臂的开始运动时间相对拍摄起始时间的不同而不同，本方案要解决的问题就是找到不同视频录制时的相对时间差，那么视频对齐问题就可以转换为机械臂在视频中开始运动的时刻对齐问题，即机械臂可以做到每次运动轨迹完全一致，只要开始时间一致，剩下的时间都是一致的，而通过检测物体的精确画面位置就可以知道机械臂是否开始运动。

S200、将每组视频分别按照时序拆分为多帧，并从第一帧开始逐帧进行显著性物体检测获取帧图像中的目标物体位置，并判断相邻帧间物体位置的偏移量是否超过预设阈值，若超过，则判定所述相邻帧中的前一帧所在的时间为该组视频的起始拍摄运动时间，由此获取不同组视频的起始拍摄运动时间。

本实施例中，基于深度学习网络模型进行显著性物体检测获取帧图像中的目标物体位置。对图片运用物体检测算法，可以用传统opencv中的算法也可以用深度学习模型进行，输入一张图片，输出图片中物体的位置，比如显著性物体检测模型U2Net。

S300、选择其中一组视频的起始拍摄运动时间作为时间基准，计算每组视频的起始拍摄运动时间相对于所述时间基准的时间偏移量，根据所述时间偏移量将每组视频的起始拍摄运动时间进行时序对齐。

具体的过程可以描述为，将视频1按照时序拆分为帧，从第一帧开始做物体检测得到物体在画面中的位置d₁，然后对第二帧进行物体检测得到位置d₂，此时计算帧间偏移距离△d＝|d₂-d₁|，以此类推，如果偏移距离大于既定阈值就认为前一帧所在的时间是机械臂开始运动时间t_{1_m}，计算结束；然后对第二个视频进行相同计算得到t_{2_m}，以此类推得到所有视频的开始运动时间。本实施例以t_{1_m}为基准进行偏移计算。假如第一段视频的开始时间设为t_{1_m}，以这个时间进行偏移计算即就是之后的第二段视频、第三段视频都以t_{1_m}为参考计算偏差，比如第二段视频的开始运动时间是t_{2_m}，那么偏移计算就是(t_{2_m}-t_{1_m})。然后对所有数据进行非负处理，即所有数加上最小负数的绝对值，因为偏移量是相减得到的，比如现在得到3个偏移量是[2,-1,3]，里面有一个-1是负数，那么就可以所有值加1，消除这个负值，也就是[2,-1,3]+1->[3,0,4]。然后进行时序对齐，假设视频A起始时间t_{1_m}＝3s，视频B起始时间t_{2_m}＝5s，视频A是基准，所以视频A无需调整，而t_{2_m-}t_{1_m}＝2s，所以B裁掉前2s，就跟A对齐了。

除此之外，由于机械臂有不同的运动轨迹，每种轨迹由于不同时刻的加速度和方向不同，在连续视频帧中记录的物体位置也会不一样，这表现为检测框的偏移量有区别，根据这个差异，可以判断一个视频对应的机械臂运动轨迹，从而对不同轨迹下拍摄的视频进行分类。

具体包括：

即在上述方法中确定机械臂开始运动之后，持续检测图像中的物体位置，并与相邻的前一帧进行位移计算，如果该位移大于某个既定阈值T，则记录下该帧的序列号和位移距离。例如，在一段视频中，如果机械臂起始运动的帧为第10帧，检测框位置为b₁₀，第11帧检测框位置为b₁₁，计算||b₁₁-b₁₀||₂＝d_10->11是否大于等于T，如果是，则记录d_10->11，并继续用12帧与11帧进行偏移对比，否则继续用第12帧与10帧进行偏移对比。循环记录机械臂运动过程中每个大动作的位置。将获取的所有序列号和位移距离保存到变量中。

通过计算相邻两帧的矩形物体检测框的中心点之间的距离得到相邻帧间物体位置的偏移量。具体的，物体检测框的位置使用左上角坐标和矩形框的长和高来表示，在一个直角坐标系中，用(x,y,w,h)表示一个矩形框，分别表示矩形框的左上角顶点坐标(x,y)，和矩形框的长w和高h，现在有两帧图片，分别用物体检测模型得到两个矩形框(x₁,y₁,w₁,h₁)和(x₂,y₂,w₂,h₂)，那么计算物体的位移可以转换为计算这两个矩形框的位移，而两个矩形框的位移又可以转换为计算两个矩形框中心点的距离，问题就变成了计算直角坐标系中两个点的距离。两个矩形中心点分别是(x₁+w₁/2,y₁+h₁/2)、(x₂+w₂/2,y₂+h₂/2)，根据笛卡尔坐标系下的两点距离公式有：

在对比一段新视频的运动轨迹时，可以通过上述方法获得该视频的轨迹特征保存变量，将其中的信息与现有信息库里的视频的轨迹特征进行对比，对比一致说明两段视频具有相同的机械臂运动轨迹，可以将两段视频进行拼接剪辑。比如一个拍摄轨迹就是绕着一个中心点旋转，商品是个日历，将日历摆放在这个中心点的位置，那么视频A记录这个日历翻到1月时照着轨迹拍摄的影像，视频B记录这个日历翻到2月时在相同轨迹下拍摄的影像，当视频A和B对齐了之后，可以先播放A视频3秒后切到B视频，也就是0-3s播放A的0-3s，之后播放B的4s之后内容，因为视频是对齐的，所以这么拼接剪辑后得到的视频观感就是日历在视角变换中从1月变成了2月，如果以此类推多拼接几个月份，就能达到一个比较炫酷的广告效果。

实施例2

与上述实施例1相对应的，本实施例提出了一种基于物体检测的视频帧对齐系统，所述系统包括：

本发明实施例提供的一种基于物体检测的视频帧对齐系统中各部件所执行的功能均已在上述实施例1中做了详细介绍，因此这里不做过多赘述。

实施例3

与上述实施例相对应的，本实施例提出了一种计算机存储介质，计算机存储介质中包含一个或多个程序指令，一个或多个程序指令用于被一种基于物体检测的视频帧对齐系统执行如实施例1的方法。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于物体检测的视频帧对齐方法，其特征在于，所述方法包括：

将每组视频分别按照时序拆分为多帧，并从第一帧开始逐帧进行显著性物体检测获取帧图像中的目标物体位置，并判断相邻帧间物体位置的偏移量是否超过预设阈值，若超过，则判定所述相邻帧中的前一帧所在的时间为该组视频的起始拍摄运动时间，由此获取不同组视频的起始拍摄运动时间，并将当前帧的序列号以及计算得到的相邻两帧的物体位置偏移量作为拍摄运动轨迹特征进行存储，逐帧计算获取所述视频的所有拍摄运动轨迹特征；

选择其中一组视频的起始拍摄运动时间作为时间基准，计算每组视频的起始拍摄运动时间相对于所述时间基准的时间偏移量，根据所述时间偏移量将每组视频的起始拍摄运动时间进行时序对齐；并将所述视频的所有拍摄运动轨迹特征与数据库中预先存储的视频的拍摄运动轨迹特征进行对比，若一致，则判定两段视频具有相同的拍摄运动轨迹。

2.根据权利要求1所述的一种基于物体检测的视频帧对齐方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的一种基于物体检测的视频帧对齐方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的一种基于物体检测的视频帧对齐方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的一种基于物体检测的视频帧对齐方法，其特征在于，所述方法还包括：

将所述时间偏移量进行非负处理。

6.一种基于物体检测的视频帧对齐系统，其特征在于，所述系统包括：

物体检测模块，用于将每组视频分别按照时序拆分为多帧，并从第一帧开始逐帧进行显著性物体检测获取帧图像中的目标物体位置，并判断相邻帧间物体位置的偏移量是否超过预设阈值，若超过，则判定所述相邻帧中的前一帧所在的时间为该组视频的起始拍摄运动时间，由此获取不同组视频的起始拍摄运动时间，并将当前帧的序列号以及计算得到的相邻两帧的物体位置偏移量作为拍摄运动轨迹特征进行存储，逐帧计算获取所述视频的所有拍摄运动轨迹特征；

视频对齐模块，用于选择其中一组视频的起始拍摄运动时间作为时间基准，计算每组视频的起始拍摄运动时间相对于所述时间基准的时间偏移量，根据所述时间偏移量将每组视频的起始拍摄运动时间进行时序对齐；并将所述视频的所有拍摄运动轨迹特征与数据库中预先存储的视频的拍摄运动轨迹特征进行对比，若一致，则判定两段视频具有相同的拍摄运动轨迹。

7.一种计算机存储介质，其特征在于，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种基于物体检测的视频帧对齐系统执行如权利要求1-5任一项所述的方法。