CN111797664B - 视频中的目标检测方法、装置和计算机可读存储介质 - Google Patents

视频中的目标检测方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN111797664B
CN111797664B CN201910764816.4A CN201910764816A CN111797664B CN 111797664 B CN111797664 B CN 111797664B CN 201910764816 A CN201910764816 A CN 201910764816A CN 111797664 B CN111797664 B CN 111797664B
Authority
CN
China
Prior art keywords
target area
feature vector
determining
vector
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910764816.4A
Other languages
English (en)
Other versions
CN111797664A (zh
Inventor
潘滢炜
姚霆
梅涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201910764816.4A priority Critical patent/CN111797664B/zh
Publication of CN111797664A publication Critical patent/CN111797664A/zh
Application granted granted Critical
Publication of CN111797664B publication Critical patent/CN111797664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种视频中的目标检测方法、装置和计算机可读存储介质,涉及人工智能技术领域。该方法包括:提取待处理帧图像中的各目标区域;根据待处理帧图像中的各目标区域,确定参考目标区域;提取待处理帧图像的相邻帧图像中的各目标区域;根据相邻帧图像中的各目标区域,确定第一支持目标区域;确定各第一支持目标区域与参考目标区域的综合关联信息;根据综合关联信息,确定参考目标区域的参考特征向量;根据参考特征向量,对视频进行目标检测。本公开的技术方案能够提高目标检测的准确性。

Description

视频中的目标检测方法、装置和计算机可读存储介质
技术领域
本公开涉及人工智能技术领域,特别涉及一种视频中的目标检测方法、目标检测装置和计算机可读存储介质。
背景技术
机器学习技术的发展成功推动了计算机视觉的进步。对静止图像和视频进行目标检测从而实现计算机图像理解,是计算机视觉中的重要任务。
在相关技术中,在视频中某帧图像的特定目标区域上进行目标检测。
发明内容
本公开的发明人发现上述相关技术中存在如下问题:基于单一目标区域进行目标检测,忽略了目标区域之间的本质关系,导致目标检测的准确性低。
鉴于此,本公开提出了一种视频中的目标检测技术方案,能够提高目标检测的准确性。
根据本公开的一些实施例,提供了一种视频中的目标检测方法,包括:提取待处理帧图像中的各目标区域;根据所述待处理帧图像中的各目标区域,确定参考目标区域;提取所述待处理帧图像的相邻帧图像中的各目标区域;根据所述相邻帧图像中的各目标区域,确定第一支持目标区域;确定各第一支持目标区域与所述参考目标区域的综合关联信息;根据所述综合关联信息,确定所述参考目标区域的参考特征向量;根据所述参考特征向量,对所述视频进行目标检测。
在一些实施例中,所述确定各第一支持目标区域与所述参考目标区域的综合关联信息包括:计算所述各第一支持目标区域的特征向量与所述参考目标区域的特征向量之间的第一综合关联向量。
在一些实施例中,所述确定所述参考目标区域的参考特征向量包括:根据所述第一综合关联向量对所述参考目标区域的特征向量进行处理,确定所述参考目标区域的参考特征向量。
在一些实施例中,所述计算所述各第一支持目标区域的特征向量与所述参考目标区域的特征向量之间的第一综合关联向量包括:根据所述参考目标区域的特征向量和位置信息以及所述各第一支持目标区域的特征向量和位置信息,计算所述各第一支持目标区域的特征向量与所述参考目标区域的特征向量之间的第一综合关联向量。
在一些实施例中,所述计算所述各第一支持目标区域的特征向量与所述参考目标区域的特征向量之间的第一综合关联向量包括:根据所述参考目标区域与第一支持目标区域的位置信息差异和特征向量差异,确定该第一支持目标区域的特征向量对于所述参考目标区域的特征向量的权值;根据所述各第一支持目标区域的特征向量的加权和,确定所述第一综合关联向量。
在一些实施例中,所述确定所述参考目标区域的参考特征向量包括:根据所述第一综合关联向量对所述参考目标区域的特征向量进行处理,确定所述参考目标区域的第一增强特征向量;将各第一支持目标区域中目标置信概率最高的多个目标区域,确定为第二支持目标区域;根据第二支持目标区域与所述各第一支持目标区域的综合关联信息,确定该第二支持目标区域的第二增强特征向量;计算各第二增强特征向量与所述参考目标区域的第一增强特征向量之间的第二综合关联向量;根据所述第二综合关联向量对所述参考目标区域的第一增强特征向量进行处理,确定所述参考目标区域的参考特征向量。
在一些实施例中,所述确定所述参考目标区域的第一增强特征向量包括:根据所述第一综合关联向量对所述参考目标区域的特征向量进行处理,确定所述参考目标区域的第一候选增强特征向量;根据所述各第一支持目标区域的特征向量与所述第一候选增强特征向量的综合关联信息,确定第二候选增强特征向量;将所述第二候选增强特征向量作为新的第一候选增强特征向量,迭代计算第二候选增强特征向量直到满足迭代停止条件;将满足所述迭代停止条件的第二候选增强特征向量,确定为所述第一增强特征向量。
在一些实施例中,所述确定该第二支持目标区域的第二增强特征向量包括:计算所述各第一支持目标区域的特征向量与该第二支持目标区域的特征向量之间的第三综合关联向量;根据所述第三综合关联向量对该第二支持目标区域的特征向量进行处理,确定该第二支持目标区域的第二增强特征向量。
在一些实施例中,所述根据所述第一综合关联向量对所述参考目标区域的特征向量进行处理,确定所述参考目标区域的参考特征向量包括:根据所述第一综合关联向量与所述参考目标区域的特征向量的和,确定所述参考目标区域的参考特征向量。
在一些实施例中,所述确定参考目标区域包括:将所述待处理帧图像中目标置信概率最高的多个目标区域,确定为所述参考目标区域。
在一些实施例中,所述确定第一支持目标区域包括:将所述相邻帧图像中目标置信概率最高的多个目标区域,确定为所述第一支持目标区域。
根据本公开的另一些实施例,提供一种视频中的目标检测装置,包括:区域提取单元,用于提取待处理帧图像中的各目标区域,提取所述待处理帧图像的相邻帧图像中的各目标区域;区域确定单元,用于根据所述待处理帧图像中的各目标区域,确定参考目标区域,根据所述相邻帧图像中的各目标区域,确定第一支持目标区域;关联单元,用于确定各第一支持目标区域与所述参考目标区域的综合关联信息;特征确定单元,用于根据所述综合关联信息,确定所述参考目标区域的参考特征向量;检测单元,用于根据所述参考特征向量,对所述视频进行目标检测。
根据本公开的又一些实施例,提供一种视频中的目标检测装置,包括:存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行上述任一个实施例中的视频中的目标检测方法。
根据本公开的再一些实施例,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的视频中的目标检测方法。
在上述实施例中,获取了各相邻帧图像中各目标区域对于待处理帧图像中目标区域的综合关联信息,利用该综合关联信息对待处理帧图像中各目标区域进行处理,并根据处理后的特征向量进行目标检测。这样,充分挖掘了不同帧图像中不同目标区域之间的关联信息,基于该关联信息能够提高目标检测的准确性。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1示出本公开的视频中的目标检测方法的一些实施例的流程图;
图2示出图1中步骤S15的一些实施例的流程图;
图3示出图1中步骤S16的一些实施例的流程图;
图4示出图3中步骤S161的一些实施例的流程图;
图5出本公开的视频中的目标检测方法的一些实施例的示意图;
图6出本公开的视频中的目标检测方法的另一些实施例的示意图;
图7示出本公开的视频中的目标检测装置的一些实施例的框图;
图8示出本公开的视频中的目标检测装置的另一些实施例的框图;
图9示出本公开的视频中的目标检测装置的又一些实施例的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1示出本公开的视频中的目标检测方法的一些实施例的流程图。
如图1所示,该方法包括:步骤S11,提取待处理帧图像中的各目标区域;步骤S12,确定参考目标区域;步骤S13,提取相邻帧图像中的各目标区域;步骤S14,确定第一支持目标区域;步骤S15,确定综合关联信息;步骤S16,确定参考特征向量;和步骤S17,进行目标检测。
在步骤S11中,提取待处理帧图像中的各目标区域。例如,可以利用残差网络ResNet-101或者ResNet-101-64×4d(包含64个4×4的卷积算子)作为RPN(RegionProposal Networks,区域提议网络)确定待处理帧图像中各区域的置信概率(即区域中包含目标的概率),并提取目标置信概率最高的若干区域作为目标区域(目标提议区域)。
在一些实施例中,可以将RPN中的处理步长(即卷积核中相邻两个点之间采样位置的间隔)设置为1。这样,相比于相关技术采用较大步长,可以在特征图空间分辨率不变的情况下增大感受野。
在步骤S12中,根据待处理帧图像中的各目标区域,确定参考目标区域。
在一些实施例中,将待处理帧图像中目标置信概率最高的多个目标区域,确定为参考目标区域。例如,以待处理帧图像为参考帧图像,将参考帧图像中置信概率最高的前K个目标区域作为参考目标区域,已形成参考目标区域集合Rr,K为正整数。
在步骤S13中,提取待处理帧图像的相邻帧图像中的各目标区域。例如,视频中t时刻的帧图像为待处理帧图像,可以将[t-T,t+T]时间段的帧图像作为相邻帧图像。类似于步骤S11可以利用残差网络ResNet-101或者ResNet-101-64×4d确定各相邻帧图像中各区域的置信概率,并提取目标置信概率最高的若干区域作为目标区域。
步骤S11和S13没有执行顺序,可以并行执行。
在步骤S14中,根据相邻帧图像中的各目标区域,确定第一支持目标区域。
在一些实施例中,将相邻帧图像中目标置信概率最高的多个目标区域,确定为第一支持目标区域。例如,以相邻帧图像为支持帧图像,分别提取各支持帧图像中置信概率最高的前K′个目标区域作为第一支持目标区域,以形成第一支持目标区域集合Rs,K′为正整数。
在步骤S15中,确定各第一支持目标区域与参考目标区域的综合关联信息。
在一些实施例中,可以计算各第一支持目标区域的特征向量与参考目标区域的特征向量之间的第一综合关联向量作为综合关联信息。
在一些实施例中,根据参考目标区域的特征向量和位置信息以及各第一支持目标区域的特征向量和位置信息,计算各第一支持目标区域的特征向量与参考目标区域的特征向量之间的第一综合关联向量。例如,可以通过图2中的实施例实现步骤S15。
图2示出图1中步骤S15的一些实施例的流程图。
如图2所示,步骤S15包括:步骤S151,确定第一支持区域的权值;和步骤S152,确定第一综合关联向量。
在步骤S151中,根据参考目标区域与第一支持目标区域的位置信息差异和特征向量差异,确定该第一支持目标区域的特征向量对于参考目标区域的特征向量的权值。
在一些实施例中,参考目标区域集合Rr包含K个参考目标区域k为小于等于K的正整数。/>的特征向量为fk,/>的位置信息为gk。例如,gk是一个s维向量,包括/>的中心点二维坐标、/>的高度和宽度;第一支持目标区域集合Rs也包含K个第一支持目标区域j为小于等于K的正整数。/>的特征向量为fj,/>的位置信息为gj
在一些实施例中,可以根据各fj与fk的差异以及各gj与gk的差异确定各fj对于fk的权值ωkj。例如,可以利用机器学习方法确定各ωkj,也可以根据上述两个差异与ωkj的负相关关系,计算ωkj
在步骤S152中,根据各第一支持目标区域的特征向量的加权和,确定第一综合关联向量。
在一些实施例中,根据fj与fk的差异以及各gj与gk的差异,可以确定fj对于fk的M个权值M为正整数,m为小于等于M的正整数。也就是说,每个/>可以为一个/>贡献多个增强权值。
在一些实施例中,可以确定第一支持目标区域集合Rs中K个第一支持目标区域对于/>的第一综合关联向量为:
Wm为将fj变换到用于增强fk的特征空间的转换矩阵。一共可以确定M个
在上述实施例中,可以确定多个第一支持目标区域对于一个参考目标区域的综合关联信息,实现了跨帧图像的目标区域关联。这样,可以将多个支持目标区域对于参考目标区域的关联融合为统一的关联信息,从而提高目标检测的准确度。例如,可以基于综合关联信息,利用图1中的其余步骤进行目标检测。
在步骤S16中,根据综合关联信息,确定参考目标区域的参考特征向量。
在一些实施例中,可以根据第一综合关联向量对参考目标区域的特征向量进行处理,确定参考目标区域的参考特征向量。例如,根据第一综合关联向量与参考目标区域的特征向量的和,确定参考目标区域的参考特征向量。
在一些实施例中,Rs对于fk能够确定M个第一综合关联向量可以通过将M个第一综合关联向量拼接后与fk加和实现对fk的增强处理(M=1的情况下,仅进行加和处理):
为基于Rs对/>进行增强处理的结果。例如,可以将/>作为参考特征向量。
上述基于和Rs计算/>的两个公式,为基于Rs对/>进行增强处理的过程。根据上述两个公式可以确定基于一个目标区域R1对另一个目标区域集合R2进行增强处理,得到增强结果R2′的公式:
R2′=F(R2,R1)
函数F(R2,R1)包含和/>两个函数,/>为R2中第k个目标区域。例如,上述计算各/>的过程可以表示为F(Rr,Rs)。
在步骤S17中,根据参考特征向量,对视频进行目标检测。例如,可以基于参考特征向量进行分类处理或者回归处理中的至少一项。
在一些实施例中,可以对第一支持目标区域进行增强处理,利用第一支持目标区域的增强处理结果对参考目标区域的增强处理结果再次进行增强处理。例如,可以通过图3中的实施例实现。
图3示出图1中步骤S16的一些实施例的流程图。
如图3所示,步骤S16包括:步骤S161,确定第一增强特征向量;步骤S162,确定第二支持目标区域;步骤S163,确定第二增强特征向量;步骤S164,计算第二综合关联向量;和步骤S165,确定参考特征向量。
在步骤S161中,根据第一综合关联向量对参考目标区域的特征向量进行处理,确定参考目标区域的第一增强特征向量。例如,可以将基于Rs进行增强处理的结果作为第一增强特征向量,即增强后的参考目标区域集合为Rr′=F(Rr,Rs)。
在步骤S162中,将各第一支持目标区域中目标置信概率最高的多个目标区域,确定为第二支持目标区域。例如,可以提取第一支持目标区域集合Rs中目标置信概率最高的前r%的目标区域作为第二支持目标区域以形成第二支持目标区域集合Rsa,r为小于100的正数。例如,Rsa包含N个第一支持目标区域q为小于等于正整数Q的正整数。
在步骤S163中,根据第二支持目标区域与各第一支持目标区域的综合关联信息,确定该第二支持目标区域的第二增强特征向量。
在一些实施例中,可以类似计算第一增强特征向量的方式,计算第二增强特征向量。例如,计算各第一支持目标区域的特征向量与该第二支持目标区域的特征向量之间的第三综合关联向量;根据第三综合关联向量对该第二支持目标区域的特征向量进行处理,确定该第二支持目标区域的第二增强特征向量。
步骤S163即为基于Rs对Rsa进行增强处理得到增强后的第二支持目标区域Rsa′,可以利用函数Rsa′=F(Rsa,Rs)确定第二增强特征向量。
在步骤S164中,计算各第二增强特征向量与参考目标区域的第一增强特征向量之间的第二综合关联向量。
在一些实施例中,可以类似计算第一综合关联向量的方式,计算第二综合关联向量。例如,可以利用函数计算Rsa′中各目标区域与/>的第二综合关联向量。
在步骤S165中,根据第二综合关联向量对参考目标区域的第一增强特征向量进行处理,确定参考目标区域的参考特征向量。例如,可以利函数用计算参考特征向量。
步骤S164和步骤S165即为基于Rsa′对Rr′进行增强处理,可以利用函数F(Rr′,Rsa′)确定参考特征向量。
步骤S162-步骤S165可以理解为基于Rs和Rsa对Rr进行二次增强的过程:
G(Rr,Rs,Rsa)=F(Rr′,Rsa′)=F[F(Rr,Rs),F(Rsa,Rs)]
在一些实施例中,上述实施例中的任一个阶段涉及的增强处理都可以通过迭代进行多次增强。例如,可以通过图4中的实施例实现步骤S16的迭代增强(可以通过类似处理实现其他步骤的迭代增强)。
图4示出图3中步骤S161的一些实施例的流程图。
如图4所示,步骤S161包括:步骤S1611,确定第一候选增强特征向量;步骤S1612,确定第二候选增强特征向量;步骤S1613,判断是否满足迭代停止条件;和步骤S1614,确定第一候选增强特征向量。
在步骤S1611中,根据第一综合关联向量对参考目标区域的特征向量进行处理,确定参考目标区域的第一候选增强特征向量。
在步骤S1612中,根据各第一支持目标区域的特征向量与第一候选增强特征向量的综合关联信息,确定第二候选增强特征向量。
在步骤S1613中,判断是否满足迭代停止条件,例如迭代停止条件可以使设置的迭代次数,也可以根据代价函数设置。如果满足,则执行步骤S1614;如果不满足,则将第二候选增强特征向量作为新的第一候选增强特征向量,迭代执行步骤S1611。
在步骤S1614中,将满足迭代停止条件的第二候选增强特征向量,确定为第一增强特征向量。
在一些实施例中,迭代条件为迭代Nb次,第p次迭代得到的对的增强结果/>为:
h(·)可以由一个全连接层串联一个激活函数组成。将第Nb次的增强结果确定为第一增强结果Rr′。
在一些实施例中,根据参考特征向量,对视频进行目标检测,可以获取各帧图像中目标区域的综合置信概率。基于综合置信概率可以对各帧图像中的目标区域进行区域连接处理(box-linking),以确定各目标区域之间的最优路径。
图5出本公开的视频中的目标检测方法的一些实施例的示意图。
如图5示,分别对参考帧(Reference frame)图像和支持帧(Support frame)图像进行目标区域提取,以确定参考目标区域集合与第一支持目标区域集合。
将提取结果分别经过两个FC(Full Connection,全连接)层后,根据第一支持目标区域集合,利用关联模型(Relations module)通过上述任一个实施例中的方法对参考目标区域集合中的特征向量进行第一次增强处理。
可以对第一支持目标区域集合中的目标区域进行采样(Sampling)处理,以确定第二支持目标区域集合。根据第一支持目标区域集合,利用关联模型通过上述任一个实施例中的方法对第二支持目标区域集合中的特征向量进行增强处理。
根据增强后的第二支持目标区域集合,利用关联模型对第一次增强后的参考目标区域集合中的特征向量再次进行增强处理,以确定第二次增强后的参考目标区域集合。
图6出本公开的视频中的目标检测方法的另一些实施例的示意图。
如图6示,可以设置关系蒸馏网络进行视频中的目标检测。给定输入参考帧It和所有相邻支持帧t为参考帧所处时间点,τ为支持帧所处时间点,取相邻帧的时间窗口长度为2T。
首先,在区域特征抽取阶段,利用RPN(如ResNet)生成各帧图像中可能的各目标提议区域,即来自参考帧和所有相邻支持帧的可能RoI(Region of Interests,目标区域)。
在一些实施例中,每一帧可以只挑选确为目标的可能性最高的前N个RoI。例如,参考帧的RoI集合为 具有位置信息/>和特征向量(appearancefeature,表观特征)/>对于支持帧的RoI集合为/>具有位置信息/>和特征向量/>
然后,从参考帧中选择前K个RoI作为参考对象集合Rr。通过池化(RoI Pooling)将相邻支持帧中的所有的前K个目标提议区域打包整合为支持集合Rs。例如,RsRr为/>
在一些实施例中,Rr和Rs都是所设计的关系蒸馏网络的输入。关系蒸馏网络可以通过在支持集合Rs中的支持目标提议区域上探索并聚合目标区域间的关系,扩充参考对象集合Rr中每个参考目标提议区域的特征,从而实现在时空背景下对目标区域间关系的建模。
在一些实施例中,关系蒸馏网络是一个多阶段模块,它包含基础阶段(basicstage)和高层阶段(advanced stage),从而支持多阶段的区域间关系的推理和蒸馏。
在基础阶段,通过上述任一个实施例中的关联模型,Rs中的所有支持目标提议区域都被用来与Rr中的每个参考目标提议区域计算区域相关性,从而输出一套精炼过的参考目标提议区域特征集合Rr1
在高层阶段,在Rs中挑选前r%的高概率支持目标提议区域,从而形成高级支持集合Rsa(advanced supportive pool)。通过上述任一实施例中的关联模型,Rsa中每个支持目标提议区域都和原本支持集合Rs进行区域相关性计算,从而通过这一相关性增强了Rsa中每个支持目标提议区域特征。
在高层阶段,Rsa中所有增强的支持目标提议区域特征会进一步被用来增强来自基本阶段精炼过的Rr1中每一个参考目标提议区域特征。方法和前面类似,对于每一个Rr1中的参考目标提议区域特征,都会和Rsa中所有增强的支持目标提议区域特征进行相似度计算,从而通过特征聚合来进一步增强Rr1中的参考目标提议区域特征,这也是最终高层阶段的特征输出。
最后,利用高层阶段输出的进一步提炼过的所有目标提议区域特征Rr2来进行最终的目标提议区域分类(Classification)和回归(Regression)计算,实现关系蒸馏网络的训练。
在上述实施例中,获取了各相邻帧图像中各目标区域对于待处理帧图像中目标区域的综合关联信息,利用该综合关联信息对待处理帧图像中各目标区域进行处理,并根据处理后的特征向量进行目标检测。这样,充分挖掘了不同帧图像中不同目标区域之间的关联信息,基于该关联信息能够提高目标检测的准确性。
图7示出本公开的视频中的目标检测装置的一些实施例的框图。
如图7所示,视频中的目标检测装置7包括区域提取单元71、区域确定单元72、关联单元73、特征确定单元74和检测单元75。
区域提取单元71提取待处理帧图像中的各目标区域,提取所述待处理帧图像的相邻帧图像中的各目标区域。
区域确定单元72根据待处理帧图像中的各目标区域,确定参考目标区域,根据相邻帧图像中的各目标区域,确定第一支持目标区域。
关联单元73确定各第一支持目标区域与参考目标区域的综合关联信息。例如,计算各第一支持目标区域的特征向量与参考目标区域的特征向量之间的第一综合关联向量。
在一些实施例中,关联单元73根据参考目标区域的特征向量和位置信息以及各第一支持目标区域的特征向量和位置信息,计算各第一支持目标区域的特征向量与参考目标区域的特征向量之间的第一综合关联向量。
在一些实施例中,关联单元73根据参考目标区域与第一支持目标区域的位置信息差异和特征向量差异,确定该第一支持目标区域的特征向量对于参考目标区域的特征向量的权值;根据各第一支持目标区域的特征向量的加权和,确定第一综合关联向量。
特征确定单元74根据综合关联信息,确定参考目标域的参考特征向量。例如,根据第一综合关联向量对参考目标区域的特征向量进行处理,确定参考目标区域的参考特征向量。
在一些实施例中,特征确定单元74根据第一综合关联向量对参考目标区域的特征向量进行处理,确定参考目标区域的第一增强特征向量。
区域确定单元72将各第一支持目标区域中目标置信概率最高的多个目标区域,确定为第二支持目标区域;特征确定单元74根据第二支持目标区域与各第一支持目标区域的综合关联信息,确定该第二支持目标区域的第二增强特征向量。
关联单元73计算各第二增强特征向量与所述参考目标区域的第一增强特征向量之间的第二综合关联向量。特征确定单元74根据所述第二综合关联向量对所述参考目标区域的第一增强特征向量进行处理,确定所述参考目标区域的参考特征向量。
在一些实施例中,特征确定单元74根据第一综合关联向量对参考目标区域的特征向量进行处理,确定参考目标区域的第一候选增强特征向量;根据各第一支持目标区域的特征向量与第一候选增强特征向量的综合关联信息,确定第二候选增强特征向量;将第二候选增强特征向量作为新的第一候选增强特征向量,迭代计算第二候选增强特征向量直到满足迭代停止条件;将满足迭代停止条件的第二候选增强特征向量,确定为第一增强特征向量。
在一些实施例中,特征确定单元74计算各第一支持目标区域的特征向量与该第二支持目标区域的特征向量之间的第三综合关联向量;根据第三综合关联向量对该第二支持目标区域的特征向量进行处理,确定该第二支持目标区域的第二增强特征向量。
在一些实施例中,特征确定单元74根据第一综合关联向量与参考目标区域的特征向量的和,确定参考目标区域的参考特征向量。
在一些实施例中,区域确定单元72将待处理帧图像中目标置信概率最高的多个目标区域,确定为参考目标区域。
在一些实施例中,区域确定单元72将相邻帧图像中目标置信概率最高的多个目标区域,确定为第一支持目标区域。
检测单元75根据参考特征向量,对视频进行目标检测。
在上述实施例中,获取了各相邻帧图像中各目标区域对于待处理帧图像中目标区域的综合关联信息,利用该综合关联信息对待处理帧图像中各目标区域进行处理,并根据处理后的特征向量进行目标检测。这样,充分挖掘了不同帧图像中不同目标区域之间的关联信息,基于该关联信息能够提高目标检测的准确性。
图8示出本公开的视频中的目标检测装置的另一些实施例的框图。
如图8所示,该实施例的视频中的目标检测装置8包括:存储器81以及耦接至该存储器81的处理器82,处理器82被配置为基于存储在存储器81中的指令,执行本公开中任意一个实施例中的视频中的目标检测方法。
其中,存储器81例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图9示出本公开的视频中的目标检测装置的又一些实施例的框图。
如图9所示,该实施例的视频中的目标检测装置9包括:存储器910以及耦接至该存储器910的处理器920,处理器920被配置为基于存储在存储器910中的指令,执行前述任意一个实施例中的视频中的目标检测方法。
存储器910例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
视频中的目标检测装置9还可以包括输入输出接口930、网络接口940、存储接口950等。这些接口930、940、950以及存储器910和处理器920之间例如可以通过总线960连接。其中,输入输出接口930为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口940为各种联网设备提供连接接口。存储接口950为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
至此,已经详细描述了根据本公开的视频中的目标检测方法、目标检测装置和计算机可读存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims (10)

1.一种视频中的目标检测方法,包括:
提取待处理帧图像中的各目标区域;
根据所述待处理帧图像中的各目标区域,确定参考目标区域;
提取所述待处理帧图像的相邻帧图像中的各目标区域;
根据所述相邻帧图像中的各目标区域,确定第一支持目标区域;
确定各第一支持目标区域与所述参考目标区域的综合关联信息;
根据所述综合关联信息,确定所述参考目标区域的参考特征向量;
根据所述参考特征向量,对所述视频进行目标检测;
其中,所述确定各第一支持目标区域与所述参考目标区域的综合关联信息包括:
计算所述各第一支持目标区域的特征向量与所述参考目标区域的特征向量之间的第一综合关联向量;
所述确定所述参考目标区域的参考特征向量包括:
根据所述第一综合关联向量对所述参考目标区域的特征向量进行处理,确定所述参考目标区域的参考特征向量;
所述确定参考目标区域包括:
将所述待处理帧图像中目标置信概率最高的多个目标区域,确定为所述参考目标区域;
所述确定第一支持目标区域包括:
将所述相邻帧图像中目标置信概率最高的多个目标区域,确定为所述第一支持目标区域。
2.根据权利要求1所述的目标检测方法,其中,所述计算所述各第一支持目标区域的特征向量与所述参考目标区域的特征向量之间的第一综合关联向量包括:
根据所述参考目标区域的特征向量和位置信息以及所述各第一支持目标区域的特征向量和位置信息,计算所述各第一支持目标区域的特征向量与所述参考目标区域的特征向量之间的第一综合关联向量。
3.根据权利要求2所述的目标检测方法,其中,所述计算所述各第一支持目标区域的特征向量与所述参考目标区域的特征向量之间的第一综合关联向量包括:
根据所述参考目标区域与第一支持目标区域的位置信息差异和特征向量差异,确定该第一支持目标区域的特征向量对于所述参考目标区域的特征向量的权值;
根据所述各第一支持目标区域的特征向量的加权和,确定所述第一综合关联向量。
4.根据权利要求1所述的目标检测方法,其中,所述确定所述参考目标区域的参考特征向量包括:
根据所述第一综合关联向量对所述参考目标区域的特征向量进行处理,确定所述参考目标区域的第一增强特征向量;
将各第一支持目标区域中目标置信概率最高的多个目标区域,确定为第二支持目标区域;
根据第二支持目标区域与所述各第一支持目标区域的综合关联信息,确定该第二支持目标区域的第二增强特征向量;
计算各第二增强特征向量与所述参考目标区域的第一增强特征向量之间的第二综合关联向量;
根据所述第二综合关联向量对所述参考目标区域的第一增强特征向量进行处理,确定所述参考目标区域的参考特征向量。
5.根据权利要求4所述的目标检测方法,其中,所述确定所述参考目标区域的第一增强特征向量包括:
根据所述第一综合关联向量对所述参考目标区域的特征向量进行处理,确定所述参考目标区域的第一候选增强特征向量;
根据所述各第一支持目标区域的特征向量与所述第一候选增强特征向量的综合关联信息,确定第二候选增强特征向量;
将所述第二候选增强特征向量作为新的第一候选增强特征向量,迭代计算第二候选增强特征向量直到满足迭代停止条件;
将满足所述迭代停止条件的第二候选增强特征向量,确定为所述第一增强特征向量。
6.根据权利要求4所述的目标检测方法,其中,所述确定该第二支持目标区域的第二增强特征向量包括:
计算所述各第一支持目标区域的特征向量与该第二支持目标区域的特征向量之间的第三综合关联向量;
根据所述第三综合关联向量对该第二支持目标区域的特征向量进行处理,确定该第二支持目标区域的第二增强特征向量。
7.根据权利要求1所述的目标检测方法,其中,所述根据所述第一综合关联向量对所述参考目标区域的特征向量进行处理,确定所述参考目标区域的参考特征向量包括:
根据所述第一综合关联向量与所述参考目标区域的特征向量的和,确定所述参考目标区域的参考特征向量。
8.一种视频中的目标检测装置,包括:
区域提取单元,用于提取待处理帧图像中的各目标区域,提取所述待处理帧图像的相邻帧图像中的各目标区域;
区域确定单元,用于根据所述待处理帧图像中的各目标区域,确定参考目标区域,根据所述相邻帧图像中的各目标区域,确定第一支持目标区域;
关联单元,用于确定各第一支持目标区域与所述参考目标区域的综合关联信息;
特征确定单元,用于根据所述综合关联信息,确定所述参考目标区域的参考特征向量;
检测单元,用于根据所述参考特征向量,对所述视频进行目标检测;
其中,所述关联单元计算所述各第一支持目标区域的特征向量与所述参考目标区域的特征向量之间的第一综合关联向量,所述特征确定单元根据所述第一综合关联向量对所述参考目标区域的特征向量进行处理,确定所述参考目标区域的参考特征向量,所述区域确定单元将所述待处理帧图像中目标置信概率最高的多个目标区域,确定为所述参考目标区域,将所述相邻帧图像中目标置信概率最高的多个目标区域,确定为所述第一支持目标区域。
9.一种视频中的目标检测装置,包括:
存储器;和
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行权利要求1-7任一项所述的视频中的目标检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-7任一项所述的视频中的目标检测方法。
CN201910764816.4A 2019-08-19 2019-08-19 视频中的目标检测方法、装置和计算机可读存储介质 Active CN111797664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910764816.4A CN111797664B (zh) 2019-08-19 2019-08-19 视频中的目标检测方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910764816.4A CN111797664B (zh) 2019-08-19 2019-08-19 视频中的目标检测方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111797664A CN111797664A (zh) 2020-10-20
CN111797664B true CN111797664B (zh) 2024-04-19

Family

ID=72805401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910764816.4A Active CN111797664B (zh) 2019-08-19 2019-08-19 视频中的目标检测方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111797664B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2015201652A1 (en) * 2007-12-26 2015-04-16 Rex Bionics Limited Mobility aid
CN205983574U (zh) * 2016-06-21 2017-02-22 杭州医学院 一种神经导航自动配准装置
WO2018149237A1 (zh) * 2017-02-20 2018-08-23 北京京东尚科信息技术有限公司 物品数据处理方法、装置和计算机可读存储介质
CN109977895A (zh) * 2019-04-02 2019-07-05 重庆理工大学 一种基于多特征图融合的野生动物视频目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2015201652A1 (en) * 2007-12-26 2015-04-16 Rex Bionics Limited Mobility aid
CN205983574U (zh) * 2016-06-21 2017-02-22 杭州医学院 一种神经导航自动配准装置
WO2018149237A1 (zh) * 2017-02-20 2018-08-23 北京京东尚科信息技术有限公司 物品数据处理方法、装置和计算机可读存储介质
CN109977895A (zh) * 2019-04-02 2019-07-05 重庆理工大学 一种基于多特征图融合的野生动物视频目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Co-located Reference Frame Interpolation Using Optical Flow Estimation for Video Compression;Bohan Li;《2018 Data Compression Conference》;全文 *
基于踪片Tracklet关联的视觉目标跟踪:现状与展望;刘雅婷;王坤峰;王飞跃;;自动化学报(11);全文 *

Also Published As

Publication number Publication date
CN111797664A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
US11361546B2 (en) Action recognition in videos using 3D spatio-temporal convolutional neural networks
US10943145B2 (en) Image processing methods and apparatus, and electronic devices
Xie et al. Unseen object instance segmentation for robotic environments
CN111274977B (zh) 多任务卷积神经网络模型及使用方法、装置和存储介质
US20180114071A1 (en) Method for analysing media content
US20190385054A1 (en) Text field detection using neural networks
CN112597941B (zh) 一种人脸识别方法、装置及电子设备
US11274922B2 (en) Method and apparatus for binocular ranging
Roy et al. Deep learning based hand detection in cluttered environment using skin segmentation
Chen et al. Boundary-guided network for camouflaged object detection
EP3493105A1 (en) Optimizations for dynamic object instance detection, segmentation, and structure mapping
EP3493106B1 (en) Optimizations for dynamic object instance detection, segmentation, and structure mapping
WO2016054779A1 (en) Spatial pyramid pooling networks for image processing
CN111860398B (zh) 遥感图像目标检测方法、系统及终端设备
US11030750B2 (en) Multi-level convolutional LSTM model for the segmentation of MR images
WO2021238548A1 (zh) 区域识别方法、装置、设备及可读存储介质
WO2021012493A1 (zh) 短视频关键词提取方法、装置及存储介质
EP3493104A1 (en) Optimizations for dynamic object instance detection, segmentation, and structure mapping
CN114202743A (zh) 自动驾驶场景下基于改进faster-RCNN的小目标检测方法
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
Wang et al. Context-aware spatio-recurrent curvilinear structure segmentation
CN112488999A (zh) 一种图像中小目标检测方法、系统、存储介质及终端
Li et al. Multi-task structure-aware context modeling for robust keypoint-based object tracking
Urala Kota et al. Generalized framework for summarization of fixed-camera lecture videos by detecting and binarizing handwritten content
Naosekpam et al. UTextNet: a UNet based arbitrary shaped scene text detector

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant