CN114501061B - 一种基于物体检测的视频帧对齐方法及系统 - Google Patents

一种基于物体检测的视频帧对齐方法及系统 Download PDF

Info

Publication number
CN114501061B
CN114501061B CN202210088079.2A CN202210088079A CN114501061B CN 114501061 B CN114501061 B CN 114501061B CN 202210088079 A CN202210088079 A CN 202210088079A CN 114501061 B CN114501061 B CN 114501061B
Authority
CN
China
Prior art keywords
videos
time
shooting motion
frame
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210088079.2A
Other languages
English (en)
Other versions
CN114501061A (zh
Inventor
朱州
孙建飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yingpu Technology Co ltd
Original Assignee
Shanghai Yingpu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yingpu Technology Co ltd filed Critical Shanghai Yingpu Technology Co ltd
Priority to CN202210088079.2A priority Critical patent/CN114501061B/zh
Publication of CN114501061A publication Critical patent/CN114501061A/zh
Application granted granted Critical
Publication of CN114501061B publication Critical patent/CN114501061B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234381Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the temporal resolution, e.g. decreasing the frame rate by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440281Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种基于物体检测的视频帧对齐方法及系统,将同一商品按照相同的拍摄运动轨迹拍摄多组视频,每组视频分别按照时序拆分为多帧,检测视频帧图像中物体的精确画面位置,并根据相邻两帧之间的物体位置偏移量判断出每组视频的起始拍摄运动时间,通过对视频拍摄开始运动的时刻进行对齐,实现对同一商品的不同拍摄视频进行时间上的对齐,解放人工重复性操作、减少时间成本,达到视频全自动合成的目的,促进商品数字化信息采集的自动化进程。

Description

一种基于物体检测的视频帧对齐方法及系统
技术领域
本发明实施例涉及计算机视觉技术领域,具体涉及一种基于物体检测的视频帧对齐方法及系统。
背景技术
近年来,我国在经济和科技上得到了飞速发展,两者的结合进步也已成为不可避免的趋势,对于数字孪生的重视与看好成为社会各界的共识,在这个环境下,对线上线下的商品进行多维度视频采集是数字化建设的基础。
在已有的视频对齐研究中多为对同一类内容的视频进行对齐,也就是包含同种动作的视频,例如倒水、攀岩等原子性动作。一些公开数据集,比如The Climbing andMadonna datasets、VCDA等,但是都是针对人物的某些特定动作进行的标注,与商品视频拍摄中的视频对齐在使用场景和技术选择上都有着较大的不同,而对于商品拍摄的视频帧对齐,由于其新生性和特殊性,当前还没有公开可用的视觉算法解决方案。为了建立商品自动拍摄及视频广告生成生产线,需要将机械臂拍摄的多组商品视频进行拼接,由于相机和机械臂在每次启动时有微小的误差,所以需要一种算法来对同一商品的不同拍摄视频进行时间上的对齐,以解放人工重复性操作、减少时间成本,达到视频全自动合成的目的。
发明内容
为此,本发明实施例提供一种基于物体检测的视频帧对齐方法及系统,以解决在将机械臂拍摄的多组商品视频进行拼接剪辑时,由于相机和机械臂在每次启动时有微小的误差,无法对同一商品的不同拍摄视频进行时间上的对齐的问题。
为了实现上述目的,本发明实施例提供如下技术方案:
根据本发明实施例的第一方面,提出了一种基于物体检测的视频帧对齐方法,所述方法包括:
获取同一商品不同姿态下的按照相同的拍摄运动轨迹拍摄的多组视频;
将每组视频分别按照时序拆分为多帧,并从第一帧开始逐帧进行显著性物体检测获取帧图像中的目标物体位置,并判断相邻帧间物体位置的偏移量是否超过预设阈值,若超过,则判定所述相邻帧中的前一帧所在的时间为该组视频的起始拍摄运动时间,由此获取不同组视频的起始拍摄运动时间;
选择其中一组视频的起始拍摄运动时间作为时间基准,计算每组视频的起始拍摄运动时间相对于所述时间基准的时间偏移量,根据所述时间偏移量将每组视频的起始拍摄运动时间进行时序对齐。
进一步地,所述方法还包括:
将所述商品的某一组视频按照时序拆分为多帧,通过物体检测和位置偏移量计算得的该视频的起始拍摄运动时间后,继续逐帧进行物体检测,并将当前帧与前一帧进行物体位置偏移量计算,判断相邻两帧的物体位置偏移量是否超过预设阈值,若超过,则将当前帧的序列号以及计算得到的相邻两帧的物体位置偏移量作为拍摄运动轨迹特征进行存储,逐帧计算获取所述视频的所有拍摄运动轨迹特征;
将所述视频的所有拍摄运动轨迹特征与数据库中预先存储的视频的拍摄运动轨迹特征进行对比,若一致,则判定两段视频具有相同的拍摄运动轨迹。
进一步地,所述方法还包括:
基于深度学习网络模型进行显著性物体检测获取帧图像中的目标物体位置。
进一步地,所述方法还包括:
通过计算相邻两帧的矩形物体检测框的中心点之间的距离得到相邻帧间物体位置的偏移量。
进一步地,所述方法还包括:
使用机械臂带动相机沿预设拍摄运动轨迹拍摄商品不同姿态的视频。
进一步地,所述方法还包括:
将所述时间偏移量进行非负处理。
根据本发明实施例的第二方面,提出了一种基于物体检测的视频帧对齐系统,所述系统包括:
视频获取模块,用于获取同一商品不同姿态下的按照相同的拍摄运动轨迹拍摄的多组视频;
物体检测模块,用于将每组视频分别按照时序拆分为多帧,并从第一帧开始逐帧进行显著性物体检测获取帧图像中的目标物体位置,并判断相邻帧间物体位置的偏移量是否超过预设阈值,若超过,则判定所述相邻帧中的前一帧所在的时间为该组视频的起始拍摄运动时间,由此获取不同组视频的起始拍摄运动时间;
视频对齐模块,用于选择其中一组视频的起始拍摄运动时间作为时间基准,计算每组视频的起始拍摄运动时间相对于所述时间基准的时间偏移量,根据所述时间偏移量将每组视频的起始拍摄运动时间进行时序对齐。
根据本发明实施例的第三方面,提出了一种计算机存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于被一种基于物体检测的视频帧对齐系统执行如上任一项所述的方法。
本发明实施例具有如下优点:
本发明实施例提出的一种基于物体检测的视频帧对齐方法及系统,将同一商品按照相同的拍摄运动轨迹拍摄多组视频,每组视频分别按照时序拆分为多帧,检测视频帧图像中物体的精确画面位置,并根据相邻两帧之间的物体位置偏移量判断出每组视频的起始拍摄运动时间,通过对视频拍摄开始运动的时刻进行对齐,实现对同一商品的不同拍摄视频进行时间上的对齐,解放人工重复性操作、减少时间成本,达到视频全自动合成的目的,促进商品数字化信息采集的自动化进程。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例1提供的一种基于物体检测的视频帧对齐方法的流程示意图;
图2为本发明实施例1提供的一种基于物体检测的视频帧对齐方法中视频对齐原理示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本实施例提出了一种基于物体检测的视频帧对齐方法,所述方法包括:
S100、获取同一商品不同姿态下的按照相同的拍摄运动轨迹拍摄的多组视频。
具体的,使用机械臂带动相机沿预设拍摄运动轨迹拍摄商品不同姿态的视频。商品不同姿态用相同的机械臂拍摄轨迹分别进行拍摄,由于相机与机械臂的起始存在时间差且这个差值由于机械初始化的不确定性存在细微不同,所以拍摄得到的视频中轨迹的相同走位点在时间上存在着偏差。如图2所示,同一个商品的不同姿态用机械臂的同一个轨迹进行拍摄,这样每个姿态就得到一个对应的拍摄结果,其中每个视频结果都有起始时间(t1_s、t2_s和tn_s)、机械臂运动到某个特定位置的时间(t1_m、t2_m和tn_m)、结束时间(t1_e、t2_e和tn_e),每个时间都是针对于特定视频而言的,但是每个起始时间都是0s。
比如,商品视频1中,t1_s=0s、t1_m=5.1s、t1_e=10.1s,商品视频2中,t2_s=0s、t2_m=5s、t2_e=10s,商品视频3中,t3_s=0s、t3_m=5.2s、t3_e=10.2s,可以看到在这个例子中,由于每次机械臂相对于相机启动时间的不同,每次机械臂运动到空间位置m的时候,视频中的时间偏差依次为△1=-0.1s、△2=0s、△3=-0.2s,这样一来就有:
t1_m+△1=t2_m+△2=t3_m+△3=5s
计算出偏差以后就可以根据偏差来对视频进行对齐。比如两个用机械臂拍摄的视频A和B,它们的开始时间存在偏差,假设是A比B快一些,这里的“快”意思是机械臂开始走轨迹的时间要早一些,表现出来的现象就可能是视频A在第3秒的时候已经拍摄到商品正面了,视频B第5秒的时候才拍摄到商品正面,那么以拍到商品正面时间为4秒为参照点(4秒是一个参照时间,使用其他值也可以,使用A和B的时间也可以,下文中的“t1_m为基准进行偏移计算”就是以A的时间作为参照),视频A的偏差是1s,视频B的偏差是-1s,得到A和B分别的偏差后,就可以进行对齐,即将视频A慢放1s,视频B快放1s,那么两个视频就对齐了,“对齐”的结果就是两个视频在4s的时候都播放的是商品正面。
本实施例提出的视频对齐方法是基于物体检测和机械臂运动轨迹的,具体来说就是,对于每一段视频,计算每一帧中的物体位置,因为拍摄过程中商品是静止的、机械臂是起始静止然后运动,所以在生成的视频里必定由于机械臂的开始运动时间相对拍摄起始时间的不同而不同,本方案要解决的问题就是找到不同视频录制时的相对时间差,那么视频对齐问题就可以转换为机械臂在视频中开始运动的时刻对齐问题,即机械臂可以做到每次运动轨迹完全一致,只要开始时间一致,剩下的时间都是一致的,而通过检测物体的精确画面位置就可以知道机械臂是否开始运动。
S200、将每组视频分别按照时序拆分为多帧,并从第一帧开始逐帧进行显著性物体检测获取帧图像中的目标物体位置,并判断相邻帧间物体位置的偏移量是否超过预设阈值,若超过,则判定所述相邻帧中的前一帧所在的时间为该组视频的起始拍摄运动时间,由此获取不同组视频的起始拍摄运动时间。
本实施例中,基于深度学习网络模型进行显著性物体检测获取帧图像中的目标物体位置。对图片运用物体检测算法,可以用传统opencv中的算法也可以用深度学习模型进行,输入一张图片,输出图片中物体的位置,比如显著性物体检测模型U2Net。
S300、选择其中一组视频的起始拍摄运动时间作为时间基准,计算每组视频的起始拍摄运动时间相对于所述时间基准的时间偏移量,根据所述时间偏移量将每组视频的起始拍摄运动时间进行时序对齐。
具体的过程可以描述为,将视频1按照时序拆分为帧,从第一帧开始做物体检测得到物体在画面中的位置d1,然后对第二帧进行物体检测得到位置d2,此时计算帧间偏移距离△d=|d2-d1|,以此类推,如果偏移距离大于既定阈值就认为前一帧所在的时间是机械臂开始运动时间t1_m,计算结束;然后对第二个视频进行相同计算得到t2_m,以此类推得到所有视频的开始运动时间。本实施例以t1_m为基准进行偏移计算。假如第一段视频的开始时间设为t1_m,以这个时间进行偏移计算即就是之后的第二段视频、第三段视频都以t1_m为参考计算偏差,比如第二段视频的开始运动时间是t2_m,那么偏移计算就是(t2_m-t1_m)。然后对所有数据进行非负处理,即所有数加上最小负数的绝对值,因为偏移量是相减得到的,比如现在得到3个偏移量是[2,-1,3],里面有一个-1是负数,那么就可以所有值加1,消除这个负值,也就是[2,-1,3]+1->[3,0,4]。然后进行时序对齐,假设视频A起始时间t1_m=3s,视频B起始时间t2_m=5s,视频A是基准,所以视频A无需调整,而t2_m-t1_m=2s,所以B裁掉前2s,就跟A对齐了。
除此之外,由于机械臂有不同的运动轨迹,每种轨迹由于不同时刻的加速度和方向不同,在连续视频帧中记录的物体位置也会不一样,这表现为检测框的偏移量有区别,根据这个差异,可以判断一个视频对应的机械臂运动轨迹,从而对不同轨迹下拍摄的视频进行分类。
具体包括:
将所述商品的某一组视频按照时序拆分为多帧,通过物体检测和位置偏移量计算得的该视频的起始拍摄运动时间后,继续逐帧进行物体检测,并将当前帧与前一帧进行物体位置偏移量计算,判断相邻两帧的物体位置偏移量是否超过预设阈值,若超过,则将当前帧的序列号以及计算得到的相邻两帧的物体位置偏移量作为拍摄运动轨迹特征进行存储,逐帧计算获取所述视频的所有拍摄运动轨迹特征;
将所述视频的所有拍摄运动轨迹特征与数据库中预先存储的视频的拍摄运动轨迹特征进行对比,若一致,则判定两段视频具有相同的拍摄运动轨迹。
即在上述方法中确定机械臂开始运动之后,持续检测图像中的物体位置,并与相邻的前一帧进行位移计算,如果该位移大于某个既定阈值T,则记录下该帧的序列号和位移距离。例如,在一段视频中,如果机械臂起始运动的帧为第10帧,检测框位置为b10,第11帧检测框位置为b11,计算||b11-b10||2=d10->11是否大于等于T,如果是,则记录d10->11,并继续用12帧与11帧进行偏移对比,否则继续用第12帧与10帧进行偏移对比。循环记录机械臂运动过程中每个大动作的位置。将获取的所有序列号和位移距离保存到变量中。
通过计算相邻两帧的矩形物体检测框的中心点之间的距离得到相邻帧间物体位置的偏移量。具体的,物体检测框的位置使用左上角坐标和矩形框的长和高来表示,在一个直角坐标系中,用(x,y,w,h)表示一个矩形框,分别表示矩形框的左上角顶点坐标(x,y),和矩形框的长w和高h,现在有两帧图片,分别用物体检测模型得到两个矩形框(x1,y1,w1,h1)和(x2,y2,w2,h2),那么计算物体的位移可以转换为计算这两个矩形框的位移,而两个矩形框的位移又可以转换为计算两个矩形框中心点的距离,问题就变成了计算直角坐标系中两个点的距离。两个矩形中心点分别是(x1+w1/2,y1+h1/2)、(x2+w2/2,y2+h2/2),根据笛卡尔坐标系下的两点距离公式有:
在对比一段新视频的运动轨迹时,可以通过上述方法获得该视频的轨迹特征保存变量,将其中的信息与现有信息库里的视频的轨迹特征进行对比,对比一致说明两段视频具有相同的机械臂运动轨迹,可以将两段视频进行拼接剪辑。比如一个拍摄轨迹就是绕着一个中心点旋转,商品是个日历,将日历摆放在这个中心点的位置,那么视频A记录这个日历翻到1月时照着轨迹拍摄的影像,视频B记录这个日历翻到2月时在相同轨迹下拍摄的影像,当视频A和B对齐了之后,可以先播放A视频3秒后切到B视频,也就是0-3s播放A的0-3s,之后播放B的4s之后内容,因为视频是对齐的,所以这么拼接剪辑后得到的视频观感就是日历在视角变换中从1月变成了2月,如果以此类推多拼接几个月份,就能达到一个比较炫酷的广告效果。
实施例2
与上述实施例1相对应的,本实施例提出了一种基于物体检测的视频帧对齐系统,所述系统包括:
视频获取模块,用于获取同一商品不同姿态下的按照相同的拍摄运动轨迹拍摄的多组视频;
物体检测模块,用于将每组视频分别按照时序拆分为多帧,并从第一帧开始逐帧进行显著性物体检测获取帧图像中的目标物体位置,并判断相邻帧间物体位置的偏移量是否超过预设阈值,若超过,则判定所述相邻帧中的前一帧所在的时间为该组视频的起始拍摄运动时间,由此获取不同组视频的起始拍摄运动时间;
视频对齐模块,用于选择其中一组视频的起始拍摄运动时间作为时间基准,计算每组视频的起始拍摄运动时间相对于所述时间基准的时间偏移量,根据所述时间偏移量将每组视频的起始拍摄运动时间进行时序对齐。
本发明实施例提供的一种基于物体检测的视频帧对齐系统中各部件所执行的功能均已在上述实施例1中做了详细介绍,因此这里不做过多赘述。
实施例3
与上述实施例相对应的,本实施例提出了一种计算机存储介质,计算机存储介质中包含一个或多个程序指令,一个或多个程序指令用于被一种基于物体检测的视频帧对齐系统执行如实施例1的方法。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (7)

1.一种基于物体检测的视频帧对齐方法,其特征在于,所述方法包括:
获取同一商品不同姿态下的按照相同的拍摄运动轨迹拍摄的多组视频;
将每组视频分别按照时序拆分为多帧,并从第一帧开始逐帧进行显著性物体检测获取帧图像中的目标物体位置,并判断相邻帧间物体位置的偏移量是否超过预设阈值,若超过,则判定所述相邻帧中的前一帧所在的时间为该组视频的起始拍摄运动时间,由此获取不同组视频的起始拍摄运动时间,并将当前帧的序列号以及计算得到的相邻两帧的物体位置偏移量作为拍摄运动轨迹特征进行存储,逐帧计算获取所述视频的所有拍摄运动轨迹特征;
选择其中一组视频的起始拍摄运动时间作为时间基准,计算每组视频的起始拍摄运动时间相对于所述时间基准的时间偏移量,根据所述时间偏移量将每组视频的起始拍摄运动时间进行时序对齐;并将所述视频的所有拍摄运动轨迹特征与数据库中预先存储的视频的拍摄运动轨迹特征进行对比,若一致,则判定两段视频具有相同的拍摄运动轨迹。
2.根据权利要求1所述的一种基于物体检测的视频帧对齐方法,其特征在于,所述方法还包括:
基于深度学习网络模型进行显著性物体检测获取帧图像中的目标物体位置。
3.根据权利要求1所述的一种基于物体检测的视频帧对齐方法,其特征在于,所述方法还包括:
通过计算相邻两帧的矩形物体检测框的中心点之间的距离得到相邻帧间物体位置的偏移量。
4.根据权利要求1所述的一种基于物体检测的视频帧对齐方法,其特征在于,所述方法还包括:
使用机械臂带动相机沿预设拍摄运动轨迹拍摄商品不同姿态的视频。
5.根据权利要求1所述的一种基于物体检测的视频帧对齐方法,其特征在于,所述方法还包括:
将所述时间偏移量进行非负处理。
6.一种基于物体检测的视频帧对齐系统,其特征在于,所述系统包括:
视频获取模块,用于获取同一商品不同姿态下的按照相同的拍摄运动轨迹拍摄的多组视频;
物体检测模块,用于将每组视频分别按照时序拆分为多帧,并从第一帧开始逐帧进行显著性物体检测获取帧图像中的目标物体位置,并判断相邻帧间物体位置的偏移量是否超过预设阈值,若超过,则判定所述相邻帧中的前一帧所在的时间为该组视频的起始拍摄运动时间,由此获取不同组视频的起始拍摄运动时间,并将当前帧的序列号以及计算得到的相邻两帧的物体位置偏移量作为拍摄运动轨迹特征进行存储,逐帧计算获取所述视频的所有拍摄运动轨迹特征;
视频对齐模块,用于选择其中一组视频的起始拍摄运动时间作为时间基准,计算每组视频的起始拍摄运动时间相对于所述时间基准的时间偏移量,根据所述时间偏移量将每组视频的起始拍摄运动时间进行时序对齐;并将所述视频的所有拍摄运动轨迹特征与数据库中预先存储的视频的拍摄运动轨迹特征进行对比,若一致,则判定两段视频具有相同的拍摄运动轨迹。
7.一种计算机存储介质,其特征在于,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于被一种基于物体检测的视频帧对齐系统执行如权利要求1-5任一项所述的方法。
CN202210088079.2A 2022-01-25 2022-01-25 一种基于物体检测的视频帧对齐方法及系统 Active CN114501061B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210088079.2A CN114501061B (zh) 2022-01-25 2022-01-25 一种基于物体检测的视频帧对齐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210088079.2A CN114501061B (zh) 2022-01-25 2022-01-25 一种基于物体检测的视频帧对齐方法及系统

Publications (2)

Publication Number Publication Date
CN114501061A CN114501061A (zh) 2022-05-13
CN114501061B true CN114501061B (zh) 2024-03-15

Family

ID=81473780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210088079.2A Active CN114501061B (zh) 2022-01-25 2022-01-25 一种基于物体检测的视频帧对齐方法及系统

Country Status (1)

Country Link
CN (1) CN114501061B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006244074A (ja) * 2005-03-02 2006-09-14 Nippon Telegr & Teleph Corp <Ntt> 動物体アップフレーム検出方法及びプログラム及びプログラムを格納した記憶媒体及び動物体アップショット検出方法及び動物体アップフレームあるいはショット検出方法及びプログラム及びプログラムを格納した記憶媒体
CN104717426A (zh) * 2015-02-28 2015-06-17 深圳市德赛微电子技术有限公司 一种基于外部传感器的多摄像机视频同步装置及方法
JP2017017511A (ja) * 2015-06-30 2017-01-19 ブラザー工業株式会社 情報処理方法及び動画データ送信システム
CN108234859A (zh) * 2017-08-30 2018-06-29 珠海市魅族科技有限公司 视频防抖控制方法、装置、计算机装置及可读存储介质
CN110855851A (zh) * 2019-11-25 2020-02-28 广州市奥威亚电子科技有限公司 一种视频同步装置及方法
CN111629269A (zh) * 2020-05-25 2020-09-04 厦门大学 一种基于机械臂的移动端短视频广告自动拍摄与生成的方法
CN111832538A (zh) * 2020-07-28 2020-10-27 北京小米松果电子有限公司 视频处理方法及装置、存储介质
CN112733690A (zh) * 2020-12-31 2021-04-30 北京易华录信息技术股份有限公司 一种高空抛物检测方法、装置及电子设备
CN113642498A (zh) * 2021-08-20 2021-11-12 浙江大学 一种基于多层次时空特征融合的视频目标检测系统及方法
CN113658222A (zh) * 2021-08-02 2021-11-16 上海影谱科技有限公司 一种车辆检测跟踪方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3563580B1 (en) * 2016-12-29 2021-04-14 Telefonaktiebolaget LM Ericsson (PUBL) Handling of video segments in a video stream
CN108734739A (zh) * 2017-04-25 2018-11-02 北京三星通信技术研究有限公司 用于时间对齐标定、事件标注、数据库生成的方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006244074A (ja) * 2005-03-02 2006-09-14 Nippon Telegr & Teleph Corp <Ntt> 動物体アップフレーム検出方法及びプログラム及びプログラムを格納した記憶媒体及び動物体アップショット検出方法及び動物体アップフレームあるいはショット検出方法及びプログラム及びプログラムを格納した記憶媒体
CN104717426A (zh) * 2015-02-28 2015-06-17 深圳市德赛微电子技术有限公司 一种基于外部传感器的多摄像机视频同步装置及方法
JP2017017511A (ja) * 2015-06-30 2017-01-19 ブラザー工業株式会社 情報処理方法及び動画データ送信システム
CN108234859A (zh) * 2017-08-30 2018-06-29 珠海市魅族科技有限公司 视频防抖控制方法、装置、计算机装置及可读存储介质
CN110855851A (zh) * 2019-11-25 2020-02-28 广州市奥威亚电子科技有限公司 一种视频同步装置及方法
CN111629269A (zh) * 2020-05-25 2020-09-04 厦门大学 一种基于机械臂的移动端短视频广告自动拍摄与生成的方法
CN111832538A (zh) * 2020-07-28 2020-10-27 北京小米松果电子有限公司 视频处理方法及装置、存储介质
CN112733690A (zh) * 2020-12-31 2021-04-30 北京易华录信息技术股份有限公司 一种高空抛物检测方法、装置及电子设备
CN113658222A (zh) * 2021-08-02 2021-11-16 上海影谱科技有限公司 一种车辆检测跟踪方法及装置
CN113642498A (zh) * 2021-08-20 2021-11-12 浙江大学 一种基于多层次时空特征融合的视频目标检测系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于事件序列匹配的多摄像机视频同步;黄飞跃;徐光;;清华大学学报(自然科学版)(第01期);全文 *
基于圆序列的多帧对齐和径向畸变校正算法;盛琳阳;解凯;杨红孺;;计算机工程与应用(第15期);全文 *

Also Published As

Publication number Publication date
CN114501061A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
US10580453B1 (en) Cataloging video and creating video summaries
Benzine et al. Pandanet: Anchor-based single-shot multi-person 3d pose estimation
US7064776B2 (en) Object tracking apparatus, object tracking method and recording medium
JP4692773B2 (ja) 物体の姿勢推定及び照合システム、物体の姿勢推定及び照合方法、並びにそのためのプログラム
CN106875431B (zh) 具有移动预测的图像追踪方法及扩增实境实现方法
US9147113B2 (en) Deformable surface tracking in augmented reality applications
Rafi et al. Self-supervised keypoint correspondences for multi-person pose estimation and tracking in videos
CN107329962B (zh) 图像检索数据库生成方法、增强现实的方法及装置
CN110533694B (zh) 图像处理方法、装置、终端及存储介质
WO2015017539A1 (en) Rolling sequential bundle adjustment
Zhu et al. Multi-drone-based single object tracking with agent sharing network
CN101231703A (zh) 基于相关向量机和提升学习的多人脸跟踪方法
Li et al. When correlation filters meet siamese networks for real-time complementary tracking
CN109977824B (zh) 物品取放识别方法、装置及设备
Halperin et al. Egosampling: Wide view hyperlapse from egocentric videos
Zhang et al. Cloudar: A cloud-based framework for mobile augmented reality
CN110766025A (zh) 绘本识别方法、装置、系统及存储介质
Jiang et al. A 500-fps pan-tilt tracking system with deep-learning-based object detection
CN113709389A (zh) 一种视频渲染方法、装置、电子设备及存储介质
CN114501061B (zh) 一种基于物体检测的视频帧对齐方法及系统
Li et al. Collaborative convolution operators for real-time coarse-to-fine tracking
CN112422773B (zh) 基于块匹配的电子稳像方法及系统
Koçberber et al. Video retargeting: video saliency and optical flow based hybrid approach
US11606512B2 (en) System and method for robust model-based camera tracking and image occlusion removal
CN114241586B (zh) 一种人脸检测方法及装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant