CN114419520A - 视频级目标检测模型的训练方法及装置、设备、存储介质 - Google Patents

视频级目标检测模型的训练方法及装置、设备、存储介质 Download PDF

Info

Publication number
CN114419520A
CN114419520A CN202210308421.5A CN202210308421A CN114419520A CN 114419520 A CN114419520 A CN 114419520A CN 202210308421 A CN202210308421 A CN 202210308421A CN 114419520 A CN114419520 A CN 114419520A
Authority
CN
China
Prior art keywords
frame
video
loss
loss function
center point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210308421.5A
Other languages
English (en)
Other versions
CN114419520B (zh
Inventor
周凯来
王乙卜
吕涛
陈林森
字崇德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Zhipu Technology Co ltd
Original Assignee
Nanjing Zhipu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Zhipu Technology Co ltd filed Critical Nanjing Zhipu Technology Co ltd
Priority to CN202210308421.5A priority Critical patent/CN114419520B/zh
Publication of CN114419520A publication Critical patent/CN114419520A/zh
Application granted granted Critical
Publication of CN114419520B publication Critical patent/CN114419520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种视频级目标检测模型的训练方法及装置、设备、存储介质。本申请一实施例中,视频级目标检测模型的训练方法包括:利用视频级目标检测模型提取训练视频的T帧预测框,所述训练视频包括T帧图像;为所述T帧预测框生成偏移量,获得T帧偏移后预测框;通过最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角,确定时空聚合损失函数;根据时空聚合损失函数、总体损失函数对所述视频级目标检测模型的参数进行优化。本申请可获得能够实现“三维时空”层面视频目标检测的视频级目标检测模型,并且,几乎不会给原先的模型添加计算量,可以做到即插即用。

Description

视频级目标检测模型的训练方法及装置、设备、存储介质
技术领域
本申请涉及图像检测技术领域,特别是指一种视频级目标检测模型的训练方法及装置、设备、存储介质。
背景技术
目前,基于深度学习的目标检测算法取得了长足发展,在位置回归的损失函数方面,例如Smooth L1 Loss、GIOU Loss、CIOU Loss、balance L1 Loss等等。Smooth L1 Loss与balance L1 Loss等直接从位置误差出发,对预测的目标预选框进行位置回归。GIOULoss、CIOU Loss等计算预测框与实际框之间的交并比(Intersection over Union,IOU),通过最小化IOU使得预测框位置逼近真实框,具有尺度不变性,强调了大小、位置、宽高之间的联系,并且与目标检测效果评价指标关联性更强。但是上述目标检测损失函数都只在“二维空间”层面施加约束,如果应用在视频级目标检测任务上,缺乏对时间维度的考虑。
当前,视频目标检测的主要挑战在于一些遮挡与模糊,而像静态目标检测一样去处理每一帧计算量大,并且需要后处理取得较高的精度。由于视频目标检测单帧目标即非常显著&信息量充足,因此研究重点在于利用关键帧信息去弥补非关键帧信息。而对于某些静态单帧特征不明显的目标,例如,红外光谱画面下的挥发性有机化合物(VOC)气体泄漏目标检测,需要通过时域上的时空形态变化特征来弥补静态单帧特征的缺失。
因此,如何训练视频级目标检测模型以使得视频级目标检测模型能够实现“三维时空”层面的视频目标检测,是亟待解决的问题。
发明内容
为解决上述技术问题,本申请提供一种视频级目标检测模型的训练方法及装置、设备、存储介质,可使得视频级目标检测模型实现“三维时空”层面的视频目标检测。
本申请第一方面提供了一种视频级目标检测模型的训练方法,包括:
利用视频级目标检测模型提取训练视频的T帧预测框,所述训练视频包括T帧图像;
为所述T帧预测框生成偏移量,获得T帧偏移后预测框;
通过最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角,确定时空聚合损失函数;
根据时空聚合损失函数、总体损失函数对所述视频级目标检测模型的参数进行优化。
由此,通过最小化预测框与实际框之间的向量夹角,获得时空聚合损失
Figure 6726DEST_PATH_IMAGE001
,由于考虑了时域的关联性,
Figure 428611DEST_PATH_IMAGE001
可在三维时空维度施加约束,因此可以更好地训练挖掘视频级目标检测模型的时空域联系,加强其时空表征能力,从而获得能够实现“三维时空”层面视频目标检测的视频级目标检测模型。
一些可能的实现方式中,所述通过最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角,确定时空聚合损失函数,包括:
基于预先构建的cosine损失项和sine损失项计算所述T帧偏移后预测框与所述T帧图像的真实框之间的时空聚合损失函数;其中,所述cosine损失项和所述sine损失项是基于最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角的目标构建的。
由此,可通过构建时空聚合损失函数(Spatial-temporal Aggregation loss,STAloss)来获得时空聚合损失
Figure 336524DEST_PATH_IMAGE002
,使得
Figure 409522DEST_PATH_IMAGE001
能够更好地在三维时空维度施加约束,以更好地训练挖掘视频级目标检测模型的时空域联系。
一些可能的实现方式中,所述时空聚合损失函数由cosine损失项和sine损失项构成,表示为:
Figure 377478DEST_PATH_IMAGE003
其中,cosine损失项由cross损失项和self损失项构成;
Figure 286660DEST_PATH_IMAGE004
表示cosine损失项,
Figure 998264DEST_PATH_IMAGE005
表示cross损失项,
Figure 925768DEST_PATH_IMAGE006
表示self损失项;sine损失项是由pre损失项和next损失项构成;
Figure 64626DEST_PATH_IMAGE007
表示sine损失项,
Figure 458173DEST_PATH_IMAGE008
表示pre损失项,
Figure 973468DEST_PATH_IMAGE009
表示next损失项;
Figure 755480DEST_PATH_IMAGE001
表示所述时空聚合损失函数,
Figure 65238DEST_PATH_IMAGE010
代表调节
Figure 949012DEST_PATH_IMAGE011
Figure 64735DEST_PATH_IMAGE012
之间权重的超参数
Figure 904515DEST_PATH_IMAGE013
由此,可通过
Figure 198224DEST_PATH_IMAGE007
Figure 756245DEST_PATH_IMAGE004
的协同作用,共同促进预测框的回归。并且,sine损失项与cosine损失项均在三维时空维度施加约束,可使最终获得的时空聚合损失
Figure 410080DEST_PATH_IMAGE002
能够更好地在三维时空维度施加约束。
一些可能的实现方式中,所述cosine损失项
Figure 104366DEST_PATH_IMAGE004
通过下式计算得到:
Figure 834556DEST_PATH_IMAGE014
其中,
Figure 614293DEST_PATH_IMAGE015
表示第t帧偏移后预测框的中心点
Figure 71820DEST_PATH_IMAGE016
到第t+1帧真实框的中心点
Figure 886192DEST_PATH_IMAGE017
的向量,
Figure 518774DEST_PATH_IMAGE018
表示第t帧真实框中心点
Figure 785807DEST_PATH_IMAGE019
到第t+1帧偏移后预测框的中心点
Figure 47024DEST_PATH_IMAGE020
的向量;
Figure 715903DEST_PATH_IMAGE021
表示第t帧偏移后预测框的中心点
Figure 522316DEST_PATH_IMAGE016
到第t+1帧偏移后预测框的中心点
Figure 276645DEST_PATH_IMAGE020
的向量,
Figure 75974DEST_PATH_IMAGE022
表示第t帧真实框的中心点
Figure 599359DEST_PATH_IMAGE019
到第t+1帧真实框的中心点
Figure 842253DEST_PATH_IMAGE017
的向量, T为训练视频的长度。
由此,通过cross损失项
Figure 421319DEST_PATH_IMAGE005
与self损失项
Figure 64790DEST_PATH_IMAGE024
协同来实现视频级目标检测模型的参数优化,可以互相弥补各自的不足。
一些可能的实现方式中,所述sine损失项
Figure 213006DEST_PATH_IMAGE007
通过下式计算得到:
Figure 941927DEST_PATH_IMAGE025
其中,
Figure 83059DEST_PATH_IMAGE026
表示第t帧偏移后预测框的中心点
Figure 581036DEST_PATH_IMAGE016
到第t帧真实框的中心点
Figure 162803DEST_PATH_IMAGE019
的向量,
Figure 175758DEST_PATH_IMAGE027
表示第t帧偏移后预测框的中心点
Figure 58263DEST_PATH_IMAGE016
到第t+1帧真实框的中心点
Figure 410747DEST_PATH_IMAGE017
的向量;
Figure 166345DEST_PATH_IMAGE028
表示第t+1帧偏移后预测框的中心点
Figure 604279DEST_PATH_IMAGE020
到第t+1帧真实框的中心点
Figure 87213DEST_PATH_IMAGE029
的向量,
Figure 559783DEST_PATH_IMAGE018
表示第t帧真实框中心点
Figure 486282DEST_PATH_IMAGE019
到第t+1帧偏移后预测框的中心点
Figure 473829DEST_PATH_IMAGE020
的向量。
由此,可通过
Figure 698137DEST_PATH_IMAGE008
Figure 572684DEST_PATH_IMAGE009
来使得sine损失项
Figure 857034DEST_PATH_IMAGE007
更好地近似
Figure 331878DEST_PATH_IMAGE030
一些可能的实现方式中,所述根据时空聚合损失函数、总体损失函数对所述视频级目标检测模型的参数进行优化,包括:根据时空聚合损失函数、分类损失函数与回归损失函数计算总体损失函数,利用总体损失函数通过神经网络梯度下降反向传播对视频级目标检测模型的参数进行优化;所述总体损失函数通过下式计算得到:
Figure 359877DEST_PATH_IMAGE031
其中
Figure 351579DEST_PATH_IMAGE032
表示总体损失函数,
Figure 541252DEST_PATH_IMAGE033
表示分类损失函数,
Figure 503392DEST_PATH_IMAGE034
表示回归损失函数,
Figure 69502DEST_PATH_IMAGE002
表示所述时空聚合损失,
Figure 371171DEST_PATH_IMAGE035
表示
Figure 544794DEST_PATH_IMAGE034
权重的超参数。
由此,时空聚合损失函数可作为额外约束项,几乎不会给原先的模型添加计算量。
本申请第二方面提供了一种视频级目标检测模型的训练装置,包括:
提取模块,用于利用视频级目标检测模型提取训练视频的T帧预测框,所述训练视频包括T帧图像;
偏移调整模块,用于为所述T帧预测框生成偏移量,获得T帧偏移后预测框;
时空聚合损失函数确定模块,用于通过最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角,确定时空聚合损失函数;
参数优化模块,用于根据时空聚合损失函数、总体损失函数对所述视频级目标检测模型的参数进行优化。
一些可能的实现方式中,所述时空聚合损失函数确定模块,具体用于:基于预先构建的cosine损失项和sine损失项计算所述T帧偏移后预测框与所述T帧图像的真实框之间的时空聚合损失函数;其中,所述cosine损失项和所述sine损失项是基于最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角的目标构建的。
本申请第三方面提供了一种计算设备,包括处理器和存储器,存储器存储有程序指令,程序指令当被处理器执行时使得处理器执行第一方面的视频级目标检测模型的训练方法。
本申请第四方面提供了一种计算机可读存储介质,其上存储有程序指令,其特征在于,程序指令当被计算机执行时使得计算机执行第一方面的视频级目标检测模型的训练方法。
本申请第五方面提供了一种计算机程序产品,其包括计算机程序,计算机程序在被处理器运行时使得该处理器执行第一方面的视频级目标检测模型的训练方法。
本申请实施例还具有如下技术效果:
1)本申请实施例不仅可获得能够实现“三维时空”层面视频目标检测的视频级目标检测模型,而且,因时空聚合损失函数可作为额外约束项,几乎不会给原先的模型添加计算量,因此,可以做到即插即用,兼容性强,可适用于各类目标检测模型。
2)经实验验证,相较于不考虑时空聚合损失的情况,本申请实施例提供的基于时空聚合损失函数的视频级目标检测模型的训练方法,在mAP@0.5指标(mAP@0.5指标是目标检测中的一种指标)上取得了2.15%的准确率提升。
附图说明
图1为本申请实施例提供的视频级目标检测模型的训练方法的流程示意图;
图2为本申请一实施例中将时空聚合损失作为视频级目标检测模型的额外约束项时的训练过程示意图;
图3为本申请一实施例中时空聚合损失函数的原理示意图;
图4为引入时空聚合损失
Figure 931913DEST_PATH_IMAGE001
前后视频级目标检测器在气体泄漏检测数据集IOD-Video上的检测结果示意图;
图5为本申请实施例提供的视频级目标检测模型的训练装置的结构示意图;
图6为本申请实施例提供的计算设备的结构示意图。
具体实施方式
说明书和权利要求书中的词语“第一”、 “第二”、“第三”等类似用语,仅用于区别类似的对象,不代表针对对象的特定排序,可以理解地,在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
图1示出了本申请实施例提供的视频级目标检测模型的训练方法的流程示意图。一些实施方式中,视频级目标检测模型的训练方法可包括:利用视频级目标检测模型提取T帧预测框、为每个预测框生成偏移量、通过多帧偏移后预测框计算时空聚合损失函数
Figure 364032DEST_PATH_IMAGE001
、基于时空聚合损失函数
Figure 254627DEST_PATH_IMAGE001
优化视频级目标检测模型的参数等步骤。
具体地,视频级目标检测模型的训练方法可以包括如下步骤:
步骤S110,利用视频级目标检测模型提取训练视频的T帧预测框,训练视频包括T帧图像;
一些实施例中,训练视频包括T帧图像,即,每个训练视频的长度为T帧。可以利用视频级目标检测模型对训练视频执行目标检测,以获得训练视频的T帧预测框。
具体地,如图2所示,获取训练视频,并将训练视频中的T帧图像输入至视频级目标检测模型,经视频级目标检测模型处理,输出T帧检测框初步预测结果(本文将“检测框初步预测结果”称为预测框)。这里,T帧图像中第t帧图像的预测框可记为
Figure 864731DEST_PATH_IMAGE036
,其中,
Figure 473567DEST_PATH_IMAGE037
代表预测框的右下角像素点的横坐标与纵坐标,
Figure 522426DEST_PATH_IMAGE038
Figure 533107DEST_PATH_IMAGE039
代表预测框的左上角像素点的横坐标与纵坐标,t代表预测框所对应图像在T帧图像中的帧数或帧号,预测框
Figure 563380DEST_PATH_IMAGE040
的中心点记为
Figure 659512DEST_PATH_IMAGE041
,其中,
Figure 181236DEST_PATH_IMAGE042
Figure 46423DEST_PATH_IMAGE043
Figure 247598DEST_PATH_IMAGE044
Figure 831026DEST_PATH_IMAGE045
分别为第t帧图像的预测框的中心点横坐标与纵坐标。
步骤S120,为T帧预测框生成偏移量,获得T帧偏移后预测框;
具体地,基于视频级目标检测模型最后一层的特征图
Figure 893791DEST_PATH_IMAGE046
,为每个预测框
Figure 879064DEST_PATH_IMAGE041
生成偏移量,该偏移量记作
Figure 251140DEST_PATH_IMAGE047
,再根据该偏移量调整预测框
Figure 134913DEST_PATH_IMAGE041
的位置,获得偏移后预测框
Figure 188320DEST_PATH_IMAGE048
Figure 90417DEST_PATH_IMAGE049
表示偏移调整后的第t帧图像的预测框的中心点坐标。这样,通过预测偏移量并基于偏移量进行位置调整,可以在原先预测框
Figure 571077DEST_PATH_IMAGE040
的基础上通过时空聚合损失函数
Figure 676567DEST_PATH_IMAGE001
微调偏移量
Figure 533665DEST_PATH_IMAGE047
至位置
Figure 290268DEST_PATH_IMAGE049
,以便获得更精确的位置回归。
同时,可以将第t帧图像的真实框的中心点坐标记为
Figure 941829DEST_PATH_IMAGE050
。具体应用中,训练视频的真实框是已知的。
步骤S130,通过最小化T帧偏移后预测框与T帧图像的真实框之间的向量夹角,确定时空聚合损失函数;
具体地,对于视频级目标检测任务,其输入数据为多帧图像,应该考虑利用其中的时间信息,而现有的检测器的损失函数往往只考虑其中的空间信息,为此,本申请实施例预先构建了一种时空聚合损失函数,以处理多帧图像预测框的回归问题。
一些实施例中,可以基于预先构建的时空聚合损失函数计算所述T帧偏移后预测框与所述T帧图像的真实框之间的时空聚合损失函数;其中,所述时空聚合损失函数是基于最小化所述T帧偏移后预测框
Figure 797265DEST_PATH_IMAGE051
与T帧图像的真实框
Figure 192475DEST_PATH_IMAGE052
之间的向量夹角的目标构建的。通过该时空聚合损失函数获得的时空聚合损失函数能够更好地在三维时空施加约束。
一些实施例中,
Figure 803585DEST_PATH_IMAGE001
包括cosine损失项
Figure 891626DEST_PATH_IMAGE004
与sine损失项
Figure 971709DEST_PATH_IMAGE007
,cosine损失项
Figure 232926DEST_PATH_IMAGE004
与sine损失项
Figure 636225DEST_PATH_IMAGE053
相辅相成,共同作用。其中,cosine损失项主要在训练初期作用使得预测框初步回归实际框,但是在训练后期,cosine损失项收敛比较困难,sine损失项可促使预测框获得更精确地逼近实际框。并且,sine损失项与cosine损失项均在三维时空维度施加约束。
这里,整个损失
Figure 708218DEST_PATH_IMAGE054
仅具有一个超参数
Figure 462547DEST_PATH_IMAGE055
,如图3所示,超参数
Figure 261876DEST_PATH_IMAGE055
代表相邻帧之间时间轴上的距离。经过实验分析,超参数
Figure 598310DEST_PATH_IMAGE055
在合适范围内的变化,对最后准确率几乎没有影响,因此
Figure 28155DEST_PATH_IMAGE001
可以认为对超参数设置具有鲁棒性。例如,可以设置
Figure 66518DEST_PATH_IMAGE056
一些实施例中,
Figure 440778DEST_PATH_IMAGE057
损失包括cross损失项
Figure 84249DEST_PATH_IMAGE058
与self损失项
Figure 481732DEST_PATH_IMAGE006
,其中,
Figure 210654DEST_PATH_IMAGE059
代表向量
Figure 102517DEST_PATH_IMAGE060
的夹角以及向量
Figure 600495DEST_PATH_IMAGE061
的夹角。
一些实施例中,对于cross损失项
Figure 168879DEST_PATH_IMAGE005
,目标是使得 t帧偏移后预测框的中心点
Figure 385097DEST_PATH_IMAGE016
到t+1帧真实框的中心点
Figure 80652DEST_PATH_IMAGE029
的向量
Figure 495453DEST_PATH_IMAGE027
、与t帧真实框中心点
Figure 251050DEST_PATH_IMAGE019
到t+1帧偏移后预测框的中心点
Figure 688985DEST_PATH_IMAGE020
的向量
Figure 171919DEST_PATH_IMAGE018
方向趋于一致,这样可以使t帧与t+1帧偏移后预测框的中心点
Figure 644488DEST_PATH_IMAGE062
Figure 302478DEST_PATH_IMAGE020
逼近真实框中心点
Figure 290026DEST_PATH_IMAGE063
Figure 514334DEST_PATH_IMAGE029
所在位置。
然而,仅仅单一的cross损失项
Figure 654459DEST_PATH_IMAGE005
约束存在一定局限性,也即当偏移后预测框的中心点
Figure 1127DEST_PATH_IMAGE062
Figure 413654DEST_PATH_IMAGE020
在空间上错位,当
Figure 989123DEST_PATH_IMAGE064
Figure 233022DEST_PATH_IMAGE065
处于平行位置,也有可能满足向量
Figure 501324DEST_PATH_IMAGE027
Figure 401146DEST_PATH_IMAGE018
方向一致的条件。考虑到上述情况,引入self损失项
Figure 29574DEST_PATH_IMAGE024
来使得损失函数优化,以避免进入这种局部次优的状态。
一些实施例中,self损失项
Figure 875783DEST_PATH_IMAGE024
的目标是使得t帧偏移后预测框的中心点
Figure 501936DEST_PATH_IMAGE016
到t+1帧偏移后预测框的中心点
Figure 951372DEST_PATH_IMAGE020
的向量
Figure 868644DEST_PATH_IMAGE021
与t帧真实框的中心点
Figure 24818DEST_PATH_IMAGE019
到t+1帧真实框的中心点
Figure 884190DEST_PATH_IMAGE029
的向量
Figure 306075DEST_PATH_IMAGE022
方向趋于一致,通过该条件约束可以避免单一cross损失项
Figure 479568DEST_PATH_IMAGE005
造成的
Figure 552566DEST_PATH_IMAGE066
Figure 333571DEST_PATH_IMAGE067
处于平行位置的次优状态,而如果单单的self损失项
Figure 492020DEST_PATH_IMAGE024
无法在空间上拉拢预测框与真实框中心点的距离,因此 cross损失项
Figure 938045DEST_PATH_IMAGE005
与self损失项
Figure 878931DEST_PATH_IMAGE024
协同进行优化,可以互相弥补各自的不足。
一些实施例中,向量夹角
Figure 80106DEST_PATH_IMAGE059
可以通过归一化点积计算来得到。
cosine损失项
Figure 476583DEST_PATH_IMAGE068
的目的是使向量
Figure 726299DEST_PATH_IMAGE069
Figure 773889DEST_PATH_IMAGE070
的夹角与向量
Figure 83648DEST_PATH_IMAGE071
Figure 967421DEST_PATH_IMAGE072
的夹角趋于0,基于上述原理,可以对T帧偏移后预测框中的两两帧逐一计算
Figure 20828DEST_PATH_IMAGE068
一些实施例中,
Figure 922925DEST_PATH_IMAGE068
可通过下式(1)计算得到:
Figure 403585DEST_PATH_IMAGE073
(1)
其中,
Figure 509075DEST_PATH_IMAGE015
表示第t帧偏移后预测框的中心点
Figure 366173DEST_PATH_IMAGE016
到第t+1帧真实框的中心点
Figure 60459DEST_PATH_IMAGE017
的向量,
Figure 774337DEST_PATH_IMAGE018
表示第t帧真实框中心点
Figure 819654DEST_PATH_IMAGE019
到第t+1帧偏移后预测框的中心点
Figure 24983DEST_PATH_IMAGE020
的向量;
Figure 573776DEST_PATH_IMAGE021
表示第t帧偏移后预测框的中心点
Figure 724134DEST_PATH_IMAGE016
到第t+1帧偏移后预测框的中心点
Figure 991168DEST_PATH_IMAGE020
的向量,
Figure 924489DEST_PATH_IMAGE022
表示第t帧真实框的中心点
Figure 406417DEST_PATH_IMAGE019
到第t+1帧真实框的中心点
Figure 665360DEST_PATH_IMAGE074
的向量, T为训练视频的长度。
Figure 216427DEST_PATH_IMAGE005
表示cross损失项,
Figure 219018DEST_PATH_IMAGE006
表示self损失项。
当向量
Figure 555452DEST_PATH_IMAGE027
Figure 719717DEST_PATH_IMAGE018
夹角与向量
Figure 23660DEST_PATH_IMAGE075
夹角趋于0时,考虑到cosine函数在变量趋于0是曲线趋向于平缓,这意味着在训练后期误差较小时cosine损失项
Figure 564363DEST_PATH_IMAGE004
的导数较小,难以进一步收敛。为了解决这个问题,引入sine损失项
Figure 755304DEST_PATH_IMAGE007
,以便训练后期进一步促进预测框更好地逼近真实框。
考虑到当变量x趋近于0时,sine函数曲线最为陡峭,其导数趋近于1,因此训练初始阶段
Figure 356049DEST_PATH_IMAGE004
起到主要作用,而训练后期
Figure 819392DEST_PATH_IMAGE007
则取而代之占据重要作用,也即
Figure 226102DEST_PATH_IMAGE004
使得预测框“粗略”地回归,而
Figure 724080DEST_PATH_IMAGE053
使得预测框“精细”地回归。
一些实施例中,
Figure 40267DEST_PATH_IMAGE007
可以包括
Figure 256485DEST_PATH_IMAGE008
Figure 201307DEST_PATH_IMAGE009
Figure 553791DEST_PATH_IMAGE008
代表第t帧的向量模
Figure 43809DEST_PATH_IMAGE076
/
Figure 481744DEST_PATH_IMAGE077
相除的结果,
Figure 167940DEST_PATH_IMAGE009
代表第t+1帧的向量模
Figure 437247DEST_PATH_IMAGE078
/
Figure 550697DEST_PATH_IMAGE079
相除的结果,从而来近似
Figure 288977DEST_PATH_IMAGE030
。由于相邻帧之间真实框中心点变化很小,因此向量
Figure 513285DEST_PATH_IMAGE022
可以近似认为垂直于X-Y空间平面,在此条件之下可以认为
Figure 902678DEST_PATH_IMAGE080
角为向量
Figure 187029DEST_PATH_IMAGE081
的夹角与
Figure 333976DEST_PATH_IMAGE082
的夹角。与
Figure 175024DEST_PATH_IMAGE004
类似,可以对T帧偏移后预测框中的两两帧逐一计算
Figure 356607DEST_PATH_IMAGE007
一些实施例中,
Figure 874176DEST_PATH_IMAGE083
可以通过下式(2)计算得到:
Figure 773999DEST_PATH_IMAGE025
(2)
其中,
Figure 150229DEST_PATH_IMAGE026
表示第t帧偏移后预测框的中心点
Figure 186318DEST_PATH_IMAGE016
到第t帧真实框的中心点
Figure 874788DEST_PATH_IMAGE019
的向量,
Figure 996328DEST_PATH_IMAGE027
表示第t帧偏移后预测框的中心点
Figure 179179DEST_PATH_IMAGE016
到第t+1帧真实框的中心点
Figure 335354DEST_PATH_IMAGE017
的向量;
Figure 194725DEST_PATH_IMAGE028
表示第t+1帧偏移后预测框的中心点
Figure 616611DEST_PATH_IMAGE020
到第t+1帧真实框的中心点
Figure 524524DEST_PATH_IMAGE029
的向量,
Figure 597522DEST_PATH_IMAGE018
表示第t帧真实框中心点
Figure 565478DEST_PATH_IMAGE019
到第t+1帧偏移后预测框的中心点
Figure 474659DEST_PATH_IMAGE020
的向量。
Figure 186263DEST_PATH_IMAGE008
代表第t帧的向量模
Figure 379347DEST_PATH_IMAGE076
/
Figure 518205DEST_PATH_IMAGE077
相除的结果,
Figure 646173DEST_PATH_IMAGE009
代表第t+1帧的向量模
Figure 161468DEST_PATH_IMAGE078
/
Figure 146742DEST_PATH_IMAGE079
相除的结果。
一些实施例中,
Figure 518817DEST_PATH_IMAGE084
可通过下式(3)计算得到,也即时空聚合损失函数表示为下式(3):
Figure 323962DEST_PATH_IMAGE085
(3)
其中,
Figure 190418DEST_PATH_IMAGE010
代表调节
Figure 30198DEST_PATH_IMAGE086
Figure 573175DEST_PATH_IMAGE087
之间权重的超参数,通常经验上可以设置为0.5。由此,可通过
Figure 131195DEST_PATH_IMAGE007
Figure 722713DEST_PATH_IMAGE004
的协同作用,共同促进预测框的回归。cosine损失项由cross损失项和self损失项构成;
Figure 495629DEST_PATH_IMAGE004
表示cosine损失项,
Figure 147190DEST_PATH_IMAGE005
表示cross损失项,
Figure 989244DEST_PATH_IMAGE006
表示self损失项;sine损失项是由pre损失项和next损失项构成;
Figure 384453DEST_PATH_IMAGE007
表示sine损失项,
Figure 11875DEST_PATH_IMAGE008
表示pre损失项,
Figure 834337DEST_PATH_IMAGE009
表示next损失项;
Figure 163687DEST_PATH_IMAGE001
表示时空聚合损失函数,
Figure 362587DEST_PATH_IMAGE010
代表调节
Figure 31466DEST_PATH_IMAGE086
Figure 858387DEST_PATH_IMAGE087
之间权重的超参数
Figure 612716DEST_PATH_IMAGE088
步骤S140,根据时空聚合损失函数、总体损失函数对视频级目标检测模型的参数进行优化。
一些实施例中,可以根据时空聚合损失函数、分类损失函数与回归损失函数计算总体损失函数,利用总体损失函数通过神经网络梯度下降反向传播对视频级目标检测模型的参数进行优化。
这里,总体损失函数可以通过下式(4)计算得到:
Figure 677624DEST_PATH_IMAGE031
(4)
其中,
Figure 201010DEST_PATH_IMAGE032
表示总体损失函数,
Figure 178324DEST_PATH_IMAGE033
表示分类损失函数,
Figure 419950DEST_PATH_IMAGE034
表示回归损失函数,
Figure 960652DEST_PATH_IMAGE001
表示步骤S130得到的时空聚合损失函数,
Figure 400861DEST_PATH_IMAGE035
表示
Figure 1607DEST_PATH_IMAGE034
权重的超参数。
由此可见,
Figure 277998DEST_PATH_IMAGE002
可以起到额外约束的作用,作为一个辅助优化目标,因此可以嵌入到其它任何视频级目标检测框架中。
此外,本申请实施例还提供了一种视频目标检测方法,该视频目标检测方法包括:利用视频级目标检测模型对待测视频进行目标检测,以获得所述待测视频的检测结果,所述视频级目标检测模型的参数至少根据通时空聚合损失函数优化得到,该时空聚合损失函数通过最小化训练视频的T帧偏移后预测框与所述训练视频中T帧图像的真实框之间的向量夹角获得。也即,该视频级目标检测模型是通过前文图1所示的训练方法训练得到的。
假设待测视频中包括T帧图像,待测视频的检测结果包括待测视频的T帧检测框。该T帧检测框的表示方式与前文预测框
Figure 622392DEST_PATH_IMAGE036
的表示方式相同,不再赘述。
在气体泄漏检测数据集IOD-Video上进行实验来验证时空聚合损失
Figure 917107DEST_PATH_IMAGE001
的有效性。图4示出了引入时空聚合损失
Figure 688754DEST_PATH_IMAGE002
前后视频级目标检测器在气体泄漏检测数据集IOD-Video上的检测结果。IOD-Video数据集样本分为清晰子集和模糊子集。我们参考了COCO评估方案并报告所有AP0.5、AP0.75、AP(0.5:0.05:0.95)、清晰子集(APclear)和模糊子集(APvague)的平均精度。此外,IOD-Video数据集是随机分配的,并采用K折交叉验证来报告三次分割的平均结果。Frame-based Detector代表经典静态图片目标检测器,例如Faster RCNN、SSD、CenterNet等。Video-based Detector为视频级目标检测器,在表现最好的时空特征提取骨干网络TEA上,
Figure 452442DEST_PATH_IMAGE002
的引入在AP0.5获得了2.15%准确率的提升,总的AP(0.5:0.05:0.95)获得了1.57%准确率的提升,特别是对于清晰的样本获得的准确率提升更加明显。这说明如果原先预测框预测得越准,引入
Figure 334947DEST_PATH_IMAGE002
之后,视频级目标检测模型的准确率提升效果更明显。
图5示出了本申请实施例提供的视频级目标检测模型的训练装置的结构示意图。参见图5,视频级目标检测模型的训练装置500可以包括:
提取模块51,用于利用视频级目标检测模型提取训练视频的T帧预测框,所述训练视频包括T帧图像;
偏移调整模块52,用于为所述T帧预测框生成偏移量,获得T帧偏移后预测框;
时空聚合损失函数确定模块53,用于通过最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角,确定时空聚合损失函数;
参数优化模块54,用于根据时空聚合损失函数、总体损失函数对所述视频级目标检测模型的参数进行优化。
一些实施例中,时空聚合损失函数确定模块53,具体用于:基于预先构建的时空聚合损失函数计算所述T帧偏移后预测框与所述T帧图像的真实框之间的时空聚合损失函数;其中,所述时空聚合损失函数是基于最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角的目标构建的。
一些实施例中,时空聚合损失函数可表示为前文的式(3)。
一些实施例中,cosine损失项
Figure 687431DEST_PATH_IMAGE004
通过前文式(1)计算得到。
一些实施例中,sine损失项
Figure 692296DEST_PATH_IMAGE007
通过前文式(2)计算得到。
一些实施例中,参数优化模块54,具体用于:根据时空聚合损失函数、分类损失函数与回归损失函数,对所述视频级目标检测模型的参数进行优化。
一些实施例中,参数优化模块54,具体用于:根据时空聚合损失函数、分类损失函数与回归损失函数计算总体损失函数,利用总体损失函数通过神经网络梯度下降反向传播对视频级目标检测模型的参数进行优化;总体损失函数通过前文式(4)计算得到。
实际应用中,视频级目标检测模型的训练装置500可通过软件、硬件或两者的结合实现。
图6是本申请实施例提供的一种计算设备600的结构性示意性图。该计算设备600包括:一个或多个处理器610、一个或多个存储器620。
其中,该处理器610可以与存储器620连接。该存储器620可以用于存储该程序代码和数据。因此,该存储器620可以是处理器610内部的存储单元,也可以是与处理器610独立的外部存储单元,还可以是包括处理器610内部的存储单元和与处理器610独立的外部存储单元的部件。
可选地,计算设备600还可包括通信接口630。应理解,图6所示的计算设备600中的通信接口630可以用于与其他设备之间进行通信。
可选的,计算设备600还可以包括总线。其中,存储器620、通信接口630可以通过总线与处理器610连接。
应理解,在本申请实施例中,该处理器610可以采用中央处理单元(centralprocessing unit,CPU)。该处理器还可以是其它通用处理器、数字信号处理器(digitalsignal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。或者该处理器610采用一个或多个集成电路,用于执行相关程序,以实现本申请实施例所提供的技术方案。
该存储器620可以包括只读存储器和随机存取存储器,并向处理器610提供指令和数据。处理器610的一部分还可以包括非易失性随机存取存储器。例如,处理器610还可以存储设备类型的信息。
在计算设备600运行时,处理器610执行存储器620中的计算机执行指令执行上述视频级目标检测模型的训练方法的操作步骤。
应理解,根据本申请实施例的计算设备600可以对应于执行根据本申请各实施例的方法中的相应主体,并且计算设备600中的各个模块的上述和其它操作和/或功能分别为了实现本实施例各方法的相应流程,为了简洁,在此不再赘述。
实际应用中,计算设备600可实现为芯片中的一个功能单元、独立的芯片、设备的一个功能单元或独立的设备。本申请实施例对计算设备600的形态和部署方式不做限定。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器运行时使得处理器执行上述视频级目标检测模型的训练方法。这里,计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是,但不限于电、磁、光、电磁、红外线、半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器、只读存储器、可擦式可编程只读存储器、光纤、便携式紧凑磁盘只读存储器、光存储器件、磁存储器件或者上述的任意合适的组合。
本申请实施例还提供了一种计算机程序产品,其包括计算机程序,所述计算机程序在被处理器运行时使得该处理器执行上述视频级目标检测模型的训练方法。这里,计算机程序产品的程序设计语言可以是一种或多种,该程序设计语言可以包括但不限于诸如Java、C++等面向对象的程序设计语言、诸如“C”语言等的常规过程式程序设计语言。
注意,上述仅为本申请部分实施例及所运用的技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请的构思的情况下,还可以包括更多其他等效实施例,均属于本申请的保护范畴。

Claims (10)

1.一种视频级目标检测模型的训练方法,其特征在于,包括:
利用视频级目标检测模型提取训练视频的T帧预测框,所述训练视频包括T帧图像;
为所述T帧预测框生成偏移量,获得T帧偏移后预测框;
通过最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角,确定时空聚合损失函数;
根据时空聚合损失函数、总体损失函数对所述视频级目标检测模型的参数进行优化。
2.根据权利要求1所述视频级目标检测模型的训练方法,其特征在于,所述通过最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角,确定时空聚合损失函数,包括:
基于预先构建的cosine损失项和sine损失项计算所述T帧偏移后预测框与所述T帧图像的真实框之间的时空聚合损失函数;
其中,所述cosine损失项和所述sine损失项是基于最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角的目标构建的。
3.根据权利要求2所述视频级目标检测模型的训练方法,其特征在于,所述时空聚合损失函数由cosine损失项和sine损失项构成,表示为:
Figure 492388DEST_PATH_IMAGE001
其中,cosine损失项由cross损失项和self损失项构成;
Figure 92259DEST_PATH_IMAGE002
表示cosine损失项,
Figure 718413DEST_PATH_IMAGE003
表示cross损失项,
Figure 167848DEST_PATH_IMAGE004
表示self损失项;
sine损失项是由pre损失项和next损失项构成;
Figure 272071DEST_PATH_IMAGE005
表示sine损失项,
Figure 490562DEST_PATH_IMAGE006
表示pre损失项,
Figure 287617DEST_PATH_IMAGE007
表示next损失项;
Figure 958770DEST_PATH_IMAGE008
表示所述时空聚合损失函数,
Figure 696044DEST_PATH_IMAGE009
代表调节
Figure 706725DEST_PATH_IMAGE010
Figure 736998DEST_PATH_IMAGE011
之间权重的超参数
Figure 833130DEST_PATH_IMAGE012
4.根据权利要求3所述视频级目标检测模型的训练方法,其特征在于,所述cosine损失项
Figure 341472DEST_PATH_IMAGE002
通过下式计算得到:
Figure 534556DEST_PATH_IMAGE013
其中,
Figure 673413DEST_PATH_IMAGE014
表示第t帧偏移后预测框的中心点
Figure 820623DEST_PATH_IMAGE015
到第t+1帧真实框的中心点
Figure 70339DEST_PATH_IMAGE016
的向量,
Figure 117929DEST_PATH_IMAGE017
表示第t帧真实框中心点
Figure 427688DEST_PATH_IMAGE018
到第t+1帧偏移后预测框的中心点
Figure 560729DEST_PATH_IMAGE019
的向量;
Figure 614136DEST_PATH_IMAGE020
表示第t帧偏移后预测框的中心点
Figure 516232DEST_PATH_IMAGE021
到第t+1帧偏移后预测框的中心点
Figure 996892DEST_PATH_IMAGE022
的向量,
Figure 870693DEST_PATH_IMAGE023
表示第t帧真实框的中心点
Figure 727791DEST_PATH_IMAGE024
到第t+1帧真实框的中心点
Figure 484394DEST_PATH_IMAGE025
的向量,T为训练视频的长度。
5.根据权利要求3所述视频级目标检测模型的训练方法,其特征在于,所述sine损失项
Figure 135955DEST_PATH_IMAGE026
通过下式计算得到:
Figure 243589DEST_PATH_IMAGE027
其中,
Figure 638798DEST_PATH_IMAGE028
表示第t帧偏移后预测框的中心点
Figure 249908DEST_PATH_IMAGE015
到第t帧真实框的中心点
Figure 337950DEST_PATH_IMAGE029
的向量,
Figure 168765DEST_PATH_IMAGE030
表示第t帧偏移后预测框的中心点
Figure 102086DEST_PATH_IMAGE015
到第t+1帧真实框的中心点
Figure 833281DEST_PATH_IMAGE031
的向量;
Figure 154541DEST_PATH_IMAGE032
表示第t+1帧偏移后预测框的中心点
Figure 643291DEST_PATH_IMAGE033
到第t+1帧真实框的中心点
Figure 708199DEST_PATH_IMAGE034
的向量,
Figure 231584DEST_PATH_IMAGE035
表示第t帧真实框中心点
Figure 395850DEST_PATH_IMAGE036
到第t+1帧偏移后预测框的中心点
Figure 201257DEST_PATH_IMAGE033
的向量。
6.根据权利要求1所述视频级目标检测模型的训练方法,其特征在于,所述根据时空聚合损失函数、总体损失函数对所述视频级目标检测模型的参数进行优化,包括:根据时空聚合损失函数、分类损失函数与回归损失函数计算总体损失函数,利用总体损失函数通过神经网络梯度下降反向传播对视频级目标检测模型的参数进行优化;所述总体损失函数通过下式计算得到:
Figure 741960DEST_PATH_IMAGE037
其中
Figure 182168DEST_PATH_IMAGE038
表示总体损失函数,
Figure 782914DEST_PATH_IMAGE039
表示分类损失函数,
Figure 308573DEST_PATH_IMAGE040
表示回归损失函数,
Figure 652967DEST_PATH_IMAGE041
表示所述时空聚合损失,
Figure 213261DEST_PATH_IMAGE042
表示
Figure 719329DEST_PATH_IMAGE040
权重的超参数。
7.一种视频级目标检测模型的训练装置,其特征在于,包括:
提取模块,用于利用视频级目标检测模型提取训练视频的T帧预测框,所述训练视频包括T帧图像;
偏移调整模块,用于为所述T帧预测框生成偏移量,获得T帧偏移后预测框;
时空聚合损失函数确定模块,用于通过最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角,确定时空聚合损失函数;
参数优化模块,用于根据时空聚合损失函数、总体损失函数对所述视频级目标检测模型的参数进行优化。
8.根据权利要求7所述视频级目标检测模型的训练装置,其特征在于,所述时空聚合损失函数确定模块,具体用于:基于预先构建的cosine损失项和sine损失项计算所述T帧偏移后预测框与所述T帧图像的真实框之间的时空聚合损失函数;其中,所述cosine损失项和所述sine损失项是基于最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角的目标构建的。
9.一种计算设备,其特征在于,包括处理器和存储器,所述存储器存储有程序指令,所述程序指令当被所述处理器执行时使得所述处理器执行如权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令当被计算机执行时使得所述计算机执行如权利要求1-6任一项所述的方法。
CN202210308421.5A 2022-03-28 2022-03-28 视频级目标检测模型的训练方法及装置、设备、存储介质 Active CN114419520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210308421.5A CN114419520B (zh) 2022-03-28 2022-03-28 视频级目标检测模型的训练方法及装置、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210308421.5A CN114419520B (zh) 2022-03-28 2022-03-28 视频级目标检测模型的训练方法及装置、设备、存储介质

Publications (2)

Publication Number Publication Date
CN114419520A true CN114419520A (zh) 2022-04-29
CN114419520B CN114419520B (zh) 2022-07-05

Family

ID=81264322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210308421.5A Active CN114419520B (zh) 2022-03-28 2022-03-28 视频级目标检测模型的训练方法及装置、设备、存储介质

Country Status (1)

Country Link
CN (1) CN114419520B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147738A (zh) * 2022-06-24 2022-10-04 中国人民公安大学 一种定位方法、装置、设备及存储介质
CN116912290A (zh) * 2023-09-11 2023-10-20 四川都睿感控科技有限公司 一种记忆增强的难易视频运动小目标检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329873A (zh) * 2020-11-12 2021-02-05 苏州挚途科技有限公司 目标检测模型的训练方法、目标检测方法及装置
CN113326763A (zh) * 2021-05-25 2021-08-31 河南大学 一种基于边界框一致性的遥感目标检测方法
CN113468993A (zh) * 2021-06-21 2021-10-01 天津大学 一种基于深度学习的遥感图像目标检测方法
CN113850761A (zh) * 2021-08-30 2021-12-28 北京工业大学 一种基于多角度检测框的遥感图像目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329873A (zh) * 2020-11-12 2021-02-05 苏州挚途科技有限公司 目标检测模型的训练方法、目标检测方法及装置
CN113326763A (zh) * 2021-05-25 2021-08-31 河南大学 一种基于边界框一致性的遥感目标检测方法
CN113468993A (zh) * 2021-06-21 2021-10-01 天津大学 一种基于深度学习的遥感图像目标检测方法
CN113850761A (zh) * 2021-08-30 2021-12-28 北京工业大学 一种基于多角度检测框的遥感图像目标检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147738A (zh) * 2022-06-24 2022-10-04 中国人民公安大学 一种定位方法、装置、设备及存储介质
CN116912290A (zh) * 2023-09-11 2023-10-20 四川都睿感控科技有限公司 一种记忆增强的难易视频运动小目标检测方法
CN116912290B (zh) * 2023-09-11 2023-12-15 四川都睿感控科技有限公司 一种记忆增强的难易视频运动小目标检测方法

Also Published As

Publication number Publication date
CN114419520B (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
US11170210B2 (en) Gesture identification, control, and neural network training methods and apparatuses, and electronic devices
US11055535B2 (en) Method and device for video classification
US11551476B2 (en) Facial verification method and apparatus
CN114419520B (zh) 视频级目标检测模型的训练方法及装置、设备、存储介质
JP2023018021A (ja) 制御されていない照明条件の画像中の肌色を識別する技術
US20200005432A1 (en) Efficient acquisition of a target image from an original image
WO2018103608A1 (zh) 一种文字检测方法、装置及存储介质
US20210124928A1 (en) Object tracking methods and apparatuses, electronic devices and storage media
CN106887021B (zh) 立体视频的立体匹配方法、控制器和系统
CN111640089A (zh) 一种基于特征图中心点的缺陷检测方法及装置
US20150286853A1 (en) Eye gaze driven spatio-temporal action localization
US20170124712A1 (en) Method of multiple camera positioning utilizing camera ordering
EP3054421A1 (en) Method of fast and robust camera location ordering
CN115731505B (zh) 视频显著性区域检测方法、装置、电子设备及存储介质
Mashtalir et al. Spatio-temporal video segmentation
CN110060278A (zh) 基于背景减法的运动目标的检测方法及装置
CN104185012B (zh) 三维视频格式自动检测方法及装置
CN113723352A (zh) 一种文本检测方法、系统、存储介质及电子设备
JP2014110020A (ja) 画像処理装置、画像処理方法および画像処理プログラム
CN114998814B (zh) 目标视频生成方法、装置、计算机设备和存储介质
US20220148284A1 (en) Segmentation method and segmentation apparatus
CN114707604A (zh) 一种基于时空注意力机制的孪生网络跟踪系统及方法
Luo et al. Occinpflow: Occlusion-inpainting optical flow estimation by unsupervised learning
CN112052863A (zh) 一种图像检测方法及装置、计算机存储介质、电子设备
CN110610185B (zh) 图像的显著目标的检测方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant