CN112561961A - 一种实例追踪的方法及装置 - Google Patents

一种实例追踪的方法及装置 Download PDF

Info

Publication number
CN112561961A
CN112561961A CN202011454203.XA CN202011454203A CN112561961A CN 112561961 A CN112561961 A CN 112561961A CN 202011454203 A CN202011454203 A CN 202011454203A CN 112561961 A CN112561961 A CN 112561961A
Authority
CN
China
Prior art keywords
tracking
network layer
image
convolution network
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011454203.XA
Other languages
English (en)
Inventor
王钰晴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202011454203.XA priority Critical patent/CN112561961A/zh
Publication of CN112561961A publication Critical patent/CN112561961A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本说明书公开了一种实例追踪的方法及装置,通过分类模型的卷积神经网络层,确定当前时刻采集的图像对应的图像特征金字塔,将该图像特征金字塔分别输入该分类模型的第一全卷积网络层和第二全卷积网络层,分别得到各特征维度对应的掩膜和各追踪实例对应的掩膜组合系数,以确定当前时刻各追踪实例对应的掩膜,进一步确定当前时刻各追踪实例的特征向量,根据与历史时刻的待匹配追踪实例的特征向量的匹配结果,确定追踪实例的追踪结果。不同于现有技术,本方法不需要确定感兴趣区域,因此在对图像进行检测、分割和追踪时耗时低,进一步提高了实例追踪的效率。

Description

一种实例追踪的方法及装置
技术领域
本说明书涉及无人驾驶技术领域,尤其涉及一种实例追踪的方法及装置。
背景技术
目前,随着无人驾驶技术的发展,由于实例追踪技术在高精地图的绘制与无人车控制策略的确定方面的帮助,实例追踪技术已经成为无人驾驶领域重点研究的技术。
以应用在无人车控制场景中为例,无人车上可设置有采集图像的传感器,在需要确定运动策略时,首先可将最近一段时间各时刻采集到的图像进行实例分割,并将实例分割后的各图像中的相同实例进行关联,以实现对各图像中的实例的检测、分割和追踪。基于该实例分割后的各图像和各图像中相同实例的关联关系,后续可确定该无人车的运动策略。
现有技术中,常用的对各图像中的实例进行检测、分割和追踪的方法是基于掩膜追踪-区域卷积神经网络(MaskTrack-Region Convolutional Neural Networks,MaskTrack-RCNN)的网络结构的模型来实现的。
具体的,首先通过输入含有相同实例的多帧图像,各图像经卷积神经网络(Convolutional Neural Networks,CNN)进行特征提取,选取感兴趣区(Region ofInteret,ROI),之后通过ROI Align操作对各个ROI区域进行校准,使得不同大小的实例提取的特征尺寸一致,该特征将分别输入BBox层、Mask层以及tracking层。其中,BBox层用于确定追踪实例的包围框(bounding box)大小和类别的预测,Mask层用于进行追踪实例的分割mask的预测,tracking层通过计算不同图像间各追踪实例特征之间的关系来实现对于不同图像中追踪实例的追踪和分割。后续则可基于追踪结果确定无人车的运动策略。
但是,现有技术实现对各图像中的实例进行检测、分割和追踪这一目的时,需要经过将图像输入卷积神经网络进行特征提取和选择感兴趣区这一阶段,以及ROI Align将校对后的特征分别输入BBox层、Mask层和tracking层这一阶段,使得在实际应用中,现有技术在实现对不同时刻采集到的图像中的实例进行检测、分割和追踪时耗时较高,导致效率较低。
发明内容
本说明书提供一种实例追踪的方法及装置,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种实例追踪的方法,包括:
从采集设备连续采集的各帧图像中,确定当前时刻用于输入分类模型的图像;
将所述图像输入所述预先训练好的分类模型的卷积神经网络层,以得到当前时刻的图像特征金字塔;
将所述当前时刻的图像特征金字塔作为输入,分别输入所述分类模型的第一全卷积网络层和第二全卷积网络层,得到所述第一全卷积网络层输出的各特征维度对应的掩膜,以及所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数;
根据所述第一全卷积网络层输出的各特征维度对应的掩膜与所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数,确定当前时刻各追踪实例对应的掩膜;
根据所述当前时刻各追踪实例对应的掩膜,确定当前时刻各追踪实例的特征向量;
根据所述当前时刻各追踪实例的特征向量与指定历史时刻确定出的待匹配追踪实例的特征向量确定追踪实例的追踪结果。
可选地,将所述图像输入预先训练好的分类模型的卷积神经网络层,以得到当前时刻的图像特征金字塔,具体包括:
将所述图像输入预先训练好的分类模型的卷积神经网络层,得到当前时刻的图像特征向量;
根据所述当前时刻的图像特征向量,确定所述当前时刻的图像特征金字塔。
可选地,所述图像特征金字塔由若干层特征图组成;
将所述当前时刻的图像特征金字塔作为输入,分别输入所述分类模型的第一全卷积网络层和第二全卷积网络层,得到所述第一全卷积网络层输出的各特征维度对应的掩膜,以及所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数,具体包括:
将所述当前时刻的图像特征金字塔的至少一层特征图作为输入,输入所述分类模型的第一全卷积网络层,得到所述第一全卷积网络层输出的各特征维度对应的掩膜;
将所述当前时刻的图像特征金字塔作为输入,输入所述分类模型的第二全卷积网络层,得到所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数。
可选地,所述掩膜组合系数的个数和所述各特征维度对应的掩膜数相等;
根据所述第一全卷积网络层输出的各特征维度对应的掩膜与所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数,确定当前时刻各追踪实例对应的掩膜,具体包括:
针对每个追踪实例,将得到的各特征维度对应的掩膜和该追踪实例对应的掩膜组合系数进行线性组合,确定该追踪实例对应的掩膜。
可选地,根据所述当前时刻各追踪实例的特征向量与指定历史时刻确定出的追针对每个追踪实例,将当前时刻该追踪实例的特征向量与所述指定历史时刻确定出的各待匹配追踪实例的特征向量进行匹配,确定当前时刻所述追踪实例的特征向量与所述指定历史时刻确定出的各待匹配追踪实例的特征向量的相似度;
根据确定出的相似度以及预设阈值,从所述指定历史时刻的各待匹配追踪实例中,确定与该追踪实例关联的待匹配追踪实例;
根据当前时刻各追踪实例与确定出的与各追踪实例关联的待匹配追踪实例,确定各追踪实例的追踪结果。
可选地,所述分类模型包括:卷积神经网络层、第一全卷积网络层、第二全卷积网络层、装配层和全连接层,采用以下方法训练所述分类模型:
获取历史上采集设备采集到的若干图像,作为训练样本,并确定各图像中每个实例的分类标签,作为样本标签;
将确定出的训练样本输入待训练的分类模型的卷积神经网络层,以得到所述训练样本的图像特征金字塔;
将所述训练样本的图像特征金字塔作为输入,分别输入所述待训练的分类模型的第一全卷积网络层和第二全卷积网络层,得到所述第一全卷积网络层输出的各特征维度对应的掩膜,以及所述第二全卷积网络层输出的训练样本中的各追踪实例对应的掩膜组合系数;
将所述第一全卷积网络层输出的各特征维度对应的掩膜与所述第二全卷积网络层输出的训练样本中的各追踪实例对应的掩膜组合系数输入所述待训练的分类模型的装配层,得到所述训练样本中各追踪实例对应的掩膜;
针对所述训练样本中的每个追踪实例对应的掩膜,将该追踪实例对应的掩膜输入所述待训练的分类模型的全连接层,得到所述训练样本中该追踪实例的分类结果;
以最小化所述分类结果与所述样本标签之间的偏差为优化目标,对分类模型进行训练。
可选地,根据所述当前时刻各追踪实例对应的掩膜,确定当前时刻各追踪实例的特征向量,具体包括:
所述第二全卷积网络层还用于针对各追踪实例,分别输出各追踪实例的包围框;
针对每个追踪实例,根据该追踪实例的包围框和当前时刻该追踪实例对应的掩膜,确定当前时刻该追踪实例的特征向量。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述实例分割的方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实例分割的方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
在本说明书提供的实例分割的方法中,可从采集设备采集的若干图像中,确定当前时刻输入分类模型的图像,之后将该图像输入到预先训练的分类模型的卷积神经网络层,以得到当前时刻的图像特征金字塔,将该当前时刻的图像特征金字塔分别输入该分类模型的第一全卷积网络层和第二全卷积网络层,得到各特征维度对应的掩膜和各追踪实例对应的掩膜组合系数,将该各特征维度对应的掩膜和各追踪实例对应的掩膜组合系数进行组合得到当前时刻各追踪实例对应的掩膜,根据当前时刻各追踪实例对应的掩膜,确定当前时刻各追踪实例的特征向量,根据确定出的当前时刻各追踪实例的特征向量与指定历史时刻确定出的待匹配追踪实例的特征向量确定追踪实例的追踪结果。
从上述方法中可以看出,不同于现有技术先选取感兴趣区域,再对感兴趣区域进行处理的方法,本方法不需要确定感兴趣区域,因此在对图像进行检测、分割和追踪时耗时低,进一步提高了实例追踪的效率。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书提供的实例追踪的方法流程示意图;
图2为本说明书提供的分类模型的卷积神经网络层示意图;
图3为本说明书提供的分类模型的第一全卷积网络层和第二全卷积网络层;
图4为本说明书提供的确定掩膜的示意图;
图5为本说明书提供的确定追踪实例对应的特征向量的示意图;
图6为本说明书提供的确定与追踪实例关联的待匹配追踪实例的示意图;
图7为本说明书提供的实例追踪的装置的示意图;
图8为本说明书提供的对应于图1的电子设备示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书中提供的实例分割的方法流程示意图,具体包括以下步骤:
S100:从采集设备连续采集的各帧图像中,确定当前时刻用于输入分类模型的图像。
目前,实例追踪技术可以应用在多个领域中,尤其是在无人驾驶技术领域,实例追踪方法既可以用于协助确定无人车周围障碍物的运动轨迹,以根据确定出的运动轨迹确定无人车的运动策略,也可以用于在创建高精地图场景中,确定图像中实例的对应关系,并结合语义模型,确定图像中可用于构建地图的物体(例如,建筑物、交通标识等固定物体)。并且,由于实例追踪技术通常应用在无人驾驶技术领域,因此一般可由无人车或者无人车通信的后台服务器执行该实例追踪的方法。为了方便描述,本说明书以服务器执行该实例追踪的方法,以及应用该实例追踪的方法来确定无人车运动策略的场景为例,进行后续说明。
在本说明书提供的一个或多个实施例中,服务器在需要进行实例追踪时,首先可获取采集设备采集的图像。其中,采集设备可为设置在无人车上的图像传感器,用于采集无人车周围的图像。并且,通常采集设备采集图像的帧率可根据需要设置,例如24帧每秒(Frame Per Second,FPS)、60FPS,本说明书对此不做限制。
具体的,该服务器可从采集设备连续采集的各帧图像中,确定当前时刻用于输入分类模型的图像。当然,该服务器具体如何获取图像本说明书不做限制,可根据需要设置。例如,无人车可以在采集设备采集图像后,实时将图像传输至服务器,则该服务器在需要进行实例追踪时,可从已存储的图像中,确定当前时刻用于输入分类模型的图像。或者,该服务器也可向无人车发送获取请求,是无人车从采集设备采集的图像中,确定该当前时刻用于输入分类模型的图像,并将该确定出的图像返回至服务器。
另外,在确定无人车控制策略的场景中,通常是基于无人车当前时刻采集的图像中的实例的追踪结果确定下一时刻无人车策略的,因此,可将采集设备当前时刻采集到的图像作为当前时刻输入分类模型的图像。
需要说明的是,本说明书中提到的无人车可以是指无人车、机器人、自动配送设备等能够实现自动驾驶的设备。基于此,应用本说明书提供的实例分割的方法的无人车可以用于执行配送领域的配送任务,如,使用无人驾驶设备进行快递、物流、外卖等配送的业务场景。
S102:将所述图像输入预先训练好的分类模型的卷积神经网络层,以得到当前时刻的图像特征金字塔。
在本说明书提供的一个或多个实施例中,服务器可在接收到当前时刻用于输入分类模型的图像后,将该图像输入到预先训练好的分类模型的卷积神经网络层,以得到当前时刻的图像特征金字塔。
具体的,在本说明书中,该分类模型的卷积神经网络层可如图2所示,图2为本说明书提供的分类模型的卷积神经网络层示意图,该服务器可先将接收到的当前时刻用于输入分类模型的图像输入该分类模型的卷积神经网络层(Convolutional Neural Networks,CNN),通过该CNN中的多个卷积层,可分别得到图像维度(W×H)以及深度(C)不同的特征图,根据其中指定卷积层输出的特征图,确定当前时刻的图像特征向量,根据当前时刻的图像特征向量中包含的至少部分特征图,分别确定当前时刻的图像特征金字塔对应的各特征图。其中,需要说明的是构成图像特征向量的特征图与构成图像特征金字塔的特征图不同。
更进一步地,由当前时刻的图像特征向量确定当前时刻的图像特征金字塔的各特征图时,可以采用卷积、双线性内插等方法。
例如,在图2中,当前时刻输入分类模型的图像通过CNN的五个卷积层,得到图像维度(W×H)以及深度(C)不同的五个特征图,分别记作C1、C2、C3、C4、C5。确定出这五个特征图后,服务器还可根据该五张特征图确定出当前时刻的图像特征向量,该图像特征向量包含了确定出的五张特征图中的至少部分特征图。在图2中,该当前时刻的图像特征向量包含了C3、C4、C5三张特征图,可将C5输入卷积层得到P5。将P5进行双线性内插的结果和将C4输入卷积层的结果进行加和,可得到P4。将P4进行双线性内插的结果和将C3输入卷积层的结果进行加和,可得到P3。将P5输入卷积层可得到P6。将P6输入卷积层可得到P7。于是,确定出的P3、P4、P5、P6、P7这五张特征图可组成当前时刻的图像特征金字塔,该图像特征金字塔层数为5。
需要说明的是,本说明书中所说的由图像特征向量确定图像特征金字塔采用的方法,卷积核大小等,可按照需要进行设定,且C5、C4、P5、P6输入的卷积层可以相同也可以不同,具体按照需要设置,本说明书对此不做限制。
S104:将所述当前时刻的图像特征金字塔作为输入,分别输入所述分类模型的第一全卷积网络层和第二全卷积网络层,得到所述第一全卷积网络层输出的各特征维度对应的掩膜,以及所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数。
在本说明书提供的一个或多个实施例中,在确定了当前时刻的图像特征金字塔后,还可将该当前时刻的图像特征金字塔作为输入,分别输入该分类模型的第一全卷积网络层和第二全卷积网络层,得到第一全卷积网络层输出的各特征维度对应的掩膜,以及第二全卷积网络层输出的各追踪实例对应的掩膜组合系数。
具体的,在本说明书中,该分类模型的第一全卷积网络层和第二全卷积网络层可如图3所示。
图3为本说明书提供的分类模型的第一全卷积网络层和第二全卷积网络层,服务器可将确定出的当前时刻的图像特征金字塔(P3~P7)作为输入,分别输入该分类模型的第一全卷积网络层以及第二全卷积网络层。第一全卷积网络层在接收到该图像特征金字塔的特征图后,可通过上采样的方式,根据该当前时刻的图像特征金字塔包含的特征图得到k个特征维度的掩膜X1~Xk。而第二全卷积网络层可针对每个追踪实例,确定该追踪实例的分类(例如:人,车辆等)并生成该追踪实例对应的掩膜组合系数,如只关注系数算法(You OnlyLook At Coefficien Ts,YOLACT)中的prediction head这一分支。该掩膜组合系数可用于与第一全卷积网络层生成的k个特征维度的掩膜进行组合,生成该追踪实例对应的掩膜。该追踪实例是存在于输入该分类模型的采集设备采集的图像中的实例,该追踪实例可为采集设备采集的图像中的指定实例(如,人,车辆等),也可以为图像中出现的每个实例,具体的追踪实例包含的范围可按照需要设置,本说明书对此不作限制。图3中所示的不同特征维度对应的掩膜中不同颜色区域表示不同的特征值。
进一步地,为了提高处理效率,服务器可将该当前时刻的图像特征金字塔的至少一层输入第一全卷积网络层进行处理。通常情况下,规格越大的图像的分辨率较大,得到不同特征维度的掩膜越容易,且得到的掩膜的清晰度越高,因此,可只选择规格最大的特征图,即该当前时刻的图像特征金字塔的P3输入该分类模型的第一全卷积网络层,以得到不同特征维度的掩膜。
S106:根据所述第一全卷积网络层输出的各特征维度对应的掩膜与所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数,确定当前时刻各追踪实例对应的掩膜。
在本说明书提供的一个或多个实施例中,在确定出各特征维度对应的掩膜与各追踪实例对应的掩膜组合系数后,该服务器可将该分类模型的第一全卷积网络层输出的各特征维度对应的掩膜与该第二全卷积网络层输出的各追踪实例对应的掩膜组合系数,确定当前时刻各追踪实例对应的掩膜。
在本说明书中,同一张图像中的不同的追踪实例的各特征维度对应的掩膜是相同的,则可通过不同的掩膜组合系数确定出不同追踪实例对应的掩膜。具体的组合方式可如图4所示。
图4为本说明书提供的确定掩膜的示意图,确定出各特征维度对应的掩膜和各追踪实例对应的掩膜组合系数后,该服务器可将确定出的各特征维度对应的掩膜和各追踪实例对应的掩膜组合系数输入预先确定出的掩膜生成函数
Figure BDA0002827823870000101
其中,k指该分类模型的第一全卷积网络层输出有k个维度的掩膜,则X1~Xk是第一全卷积网络层输出的k个特征维度对应的掩膜,a1~ak是第二全卷积网络层输出的各追踪实例对应的掩膜组合系数,β的数值可以按照需要设置,则可得到各追踪实例对应的掩膜。与图3类似,图4中掩膜中的不同颜色表示不同的特征值。
进一步的,线性组合往往比非线性组合处理时间更短,因此,为了提高处理效率,针对每个追踪实例,可将得到的各特征维度对应的掩膜和该追踪实例对应的掩膜组合系数进行线性组合,即令掩膜生成函数中的β为1,确定出该追踪实例对应的掩膜。
S108:根据所述当前时刻各追踪实例对应的掩膜,确定当前时刻各追踪实例的特征向量。
在本说明书提供的一个或多个实施例中,在确定了当前时刻各追踪实例对应的掩膜后,还可根据该确定出的当前时刻各追踪实例对应的掩膜,确定当前时刻各追踪实例的特征向量。
具体的,在本说明书中,该服务器可根据步骤S106中确定出的当前时刻各追踪实例对应的掩膜,将该追踪实例对应的掩膜矩阵转换为行向量或列向量,将该向量作为该追踪实例的特征向量。
进一步地,S106步骤中确定出来的掩膜可能不仅包含了追踪实例,可能还包含了追踪实例周围部分的噪声等,为了提升确定出的追踪实例的纯净度,该分类模型的第二全卷积网络层还可用于生成针对各追踪实例的包围框。则在步骤S106中,服务器将S104步骤中确定出的当前时刻的图像特征金字塔输入该分类模型的第二全卷积网络层,还可确定各追踪实例的包围框。在确定出针对各追踪实例的包围框和各追踪实例对应的掩膜后,服务器可针对每个追踪实例,根据该追踪实例的包围框和当前时刻该追踪实例对应的掩膜,确定当前时刻该追踪实例的特征向量。如图5所示,图5为本说明书提供的确定追踪实例对应的特征向量的示意图,图像中不同颜色表示不同的特征值,左侧图像为确定出的该追踪实例对应的掩膜,包含了追踪实例(车)与背景噪声,为了方便描述,假设图中追踪实例区域的像素点对应的特征值为1.2,背景噪声区域的像素点对应的特征值为0.7,在根据左侧图像表征掩膜确定该追踪实例对应的特征向量时,会有较多的背景噪声的特征值,被作为该追踪实例对应的特征向量,导致该追踪实例对应的特征向量中包含较多的背景噪声的特征值。为了减少背景噪声对该追踪实例对应的特征向量的影响,在本说明书中,该服务器可根据该追踪实例对应的包围框(即,图5中的中间图像),将该包围框外的噪声进行滤除,得到图5中的右侧图像。其中,中间图像包含有该追踪实例对应的掩膜以及该追踪实例对应的包围框,虚线为针对追踪实例(车)的包围框。该包围框之外的像素点可视为不是该追踪实例区域的像素点,因此可将该包围框外的像素点的特征值滤除,则可得到比左图更加纯净的右侧图像。在右侧图像中,该包围框外的背景部分的像素点对应的特征值为0,仅剩包围框内的追踪实例区域的像素点对应的特征值(即,1.2)以及少部分背景噪声区域的像素点对应的特征值(即,0.7),可见根据右侧图像确定该追踪实例对应的特征向量,会大幅减少该特征向量中包含的背景噪声的特征值,使得该特征向量更准确。
另外,在本说明书中,还可在分类模型中预设有第三全卷积网络,该第三全卷积网络用于输出针对各追踪实例的包围框。则服务器可将S104步骤中确定出的当前时刻的图像特征金字塔输入该分类模型的第三全卷积网络层,以确定各追踪实例的包围框,并在后续需要针对每个追踪实例,确定该追踪实例的特征向量时,将该追踪实例对应的包围框与掩膜作为输入。
S110:根据所述当前时刻各追踪实例的特征向量与指定历史时刻确定出的待匹配追踪实例的特征向量确定追踪实例的追踪结果。
在本说明书提供的一个或多个实施例中,在确定出当前时刻各追踪实例的特征向量后,该服务器可根据当前时刻各追踪实例的特征向量与指定历史时刻确定出的待匹配追踪实例的特征向量确定出各追踪实例的追踪结果。
具体的,在本说明书中,该服务器可针对每个追踪实例,根据当前时刻该追踪实例的特征向量与指定历史时刻确定出的各待匹配追踪实例的特征向量进行匹配,该指定历史时刻可以仅包含一个历史时刻,如上一时刻,也可以包含多个历史时刻,具体的指定历史时刻包含的内容按照需要设置,本说明书对此不作限制。
将当前时刻该追踪实例的特征向量与指定历史时刻确定出的各待匹配追踪实例的特征向量进行匹配,可分别得到当前时刻该追踪实例的特征向量与指定历史时刻确定出的各待匹配追踪实例的特征向量的相似度,待匹配追踪实例是指定历史时刻输入该分类模型的图像中包含的追踪实例。
需要说明的是,本说明书中的分类模型输出的是针对于各追踪实例的分类结果,该分类结果可以是名称,例如,车1,车2等。且该名称只是用来区分当前图像中的不同追踪实例,并不表征两个不同时刻的图像中的追踪实例相互关联,即当前时刻该追踪实例的名称可为车1,指定历史时刻与该追踪实例关联的待匹配追踪实例的名称为车3,而历史时刻名称为车1的待匹配追踪实例与当前时刻别的追踪实例相关联。本说明书中当前时刻各追踪实例与指定历史时刻的各待匹配追踪实例根据特征向量之间的相似度来确定是否有关联关系。
在确定出当前时刻该追踪实例的特征向量与指定历史时刻确定出的各待匹配追踪实例的特征向量的相似度后,可根据确定出的相似度以及预设阈值,从指定历史时刻的各待匹配追踪实例中,确定与该追踪实例关联的待匹配追踪实例,若确定出的相似度不小于预设阈值,可确定该待匹配追踪实例与该追踪实例关联,则若确定出的相似度小于预设阈值,可确定该待匹配追踪实例与该追踪实例不关联。该预设阈值具体的数值可根据需要设置,本说明书对此不作限制。
在确定出与各追踪实例关联的待匹配追踪实例后,服务器可根据当前时刻各追踪实例与确定出的与各追踪实例关联的待匹配追踪实例,确定各追踪实例的追踪结果。
进一步地,当确定出的待匹配追踪实例不止一个,即,有多个待匹配追踪实例与该追踪实例的相似度皆不小于预设阈值时,还可根据各待匹配追踪实例的位置来确定与该追踪实例关联的待匹配追踪实例,如图6所示。
图6为本说明书提供的确定与追踪实例关联的待匹配追踪实例的示意图,根据指定历史时刻待匹配追踪实例车1的位置、指定历史时刻待匹配追踪实例车2的位置和当前时刻追踪实例车1的位置,可确定当前时刻追踪实例车1与指定历史时刻待匹配追踪实例车2相关联,且该追踪实例由指定历史时刻待匹配追踪实例车2的位置运动到当前时刻追踪实例车1的位置。
基于图1的实例分割的方法,可从采集设备采集的若干图像中,确定当前时刻输入分类模型的图像,之后将该图像输入到预先训练的分类模型的卷积神经网络层,以得到当前时刻的图像特征金字塔,将该当前时刻的图像特征金字塔分别输入该分类模型的第一全卷积网络层和第二全卷积网络层,得到各特征维度对应的掩膜和各追踪实例对应的掩膜组合系数,将该各特征维度对应的掩膜和各追踪实例对应的掩膜组合系数进行组合得到当前时刻各追踪实例对应的掩膜,根据当前时刻各追踪实例对应的掩膜,确定当前时刻各追踪实例的特征向量,根据确定出的当前时刻各追踪实例的特征向量与指定历史时刻确定出的待匹配追踪实例的特征向量确定追踪实例的追踪结果。不同于现有技术先选取感兴趣区域,再对感兴趣区域进行处理的方法,本方法不需要确定感兴趣区域,因此在对图像进行检测、分割和追踪时耗时低,进一步提高了实例追踪的效率。
进一步地,无人车行驶过程中,存在某个实例首次出现在图像传感器采集的图像中的情况,例如,在路口等红灯时,有车辆从视野外进入图像中。于是,在步骤S110中,当采集设备采集到的图像中有新的追踪实例,即历史时刻采集到的图像不包含的追踪实例出现时,会出现该追踪实例与各待匹配追踪实例之间的相似度皆小于预设阈值的情况,则可确定该追踪实例无相关联的待匹配追踪实例。
另外,本说明书使用的分类模型包括:卷积神经网络层、第一全卷积网络层、第二全卷积网络层、装配层和全连接层。在训练模型时,可获取历史上采集设备采集到的若干图像,作为训练样本,并确定各图像中每个实例的分类标签,作为样本标签。将确定出的训练样本输入待训练的分类模型的卷积神经网络层,以得到该训练样本的图像特征金字塔。将该训练样本的图像特征金字塔作为输入,分别输入该待训练的分类模型的第一全卷积网络层和第二全卷积网络层,得到该第一全卷积网络层输出的各特征维度对应的掩膜,以及该第二全卷积网络层输出的训练样本中的各追踪实例对应的掩膜组合系数。将该第一全卷积网络层输出的各特征维度对应的掩膜与该第二全卷积网络层输出的训练样本中的各追踪实例对应的掩膜组合系数输入该待训练的分类模型的装配层,得到该训练样本中各追踪实例对应的掩膜。针对该训练样本中的每个追踪实例对应的掩膜,将该追踪实例对应的掩膜输入该待训练的分类模型的全连接层,得到该训练样本中该追踪实例的分类结果。以最小化该分类结果与该样本标签之间的偏差为优化目标,对分类模型进行训练。
另外,在现有技术中,基于掩膜追踪-区域卷积神经网络(MaskTrack-RegionConvolutional Neural Networks,MaskTrack-RCNN)的网络结构的模型来实现实例追踪的方法,在对模型进行训练时,往往需要同时将含有相同实例的多张图像作为训练样本,将多张图像中各追踪实例之间的追踪结果作为样本标签,将确定出的训练样本输入待训练的模型中,得到训练样本中追踪实例的追踪结果,以最小化该追踪结果与样本标签之间的偏差为优化目标,对模型进行训练。而本方法在训练分类模型时,只需要输入单张图像,并确定该单张图像中各追踪实例的分类结果,使得创建训练样本的成本较低,训练过程的复杂程度降低,训练过程的资源消耗较低,提高了训练效率。
在本说明书提供的一个或多个实施例中,以上为实例追踪方法应用在无人车运动策略的确定场景中为例进行说明,一般的,该实例追踪方法还可应用在地图构建场景中,则可根据采集设备采集到的图像,确定图像中各实例的追踪结果,并基于各实例的追踪结果构建更精准的地图。其中采集设备还可以是架设在车辆上的、架设在无人车上的、或者是手持的图像传感器。
以上为本说明书的一个或多个实施例提供的实例分割的方法,基于同样的思路,本说明书还提供了相应的实例分割的装置,如图7所示。
采集模块200,用于从采集设备连续采集的各帧图像中,确定当前时刻用于输入分类模型的图像。
第一确定模块202,用于将所述图像输入所述预先训练好的分类模型的卷积神经网络层,以得到当前时刻的图像特征金字塔。
全卷积模块204,用于将所述图像特征金字塔作为输入,分别输入所述分类模型的第一全卷积网络层和第二全卷积网络层,得到所述第一全卷积网络层输出的各特征维度对应的掩膜,以及所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数。
组合模块206,用于根据所述第一全卷积网络层输出的各特征维度对应的掩膜与所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数,确定当前时刻各追踪实例对应的掩膜。
第二确定模块208,根据所述当前时刻各追踪实例对应的掩膜,确定当前时刻各追踪实例的特征向量,根据所述当前时刻各追踪实例的特征向量与指定历史时刻确定出的待匹配追踪实例的特征向量确定追踪实例的追踪结果。
所述装置还包括:
训练模块210,用于获取历史上采集设备采集到的若干图像,作为训练样本,并确定各图像中每个实例的分类标签,作为样本标签,将确定出的训练样本输入待训练的分类模型的卷积神经网络层,以得到所述训练样本的图像特征金字塔,将所述训练样本的图像特征金字塔作为输入,分别输入所述待训练的分类模型的第一全卷积网络层和第二全卷积网络层,得到所述第一全卷积网络层输出的各特征维度对应的掩膜,以及所述第二全卷积网络层输出的训练样本中的各追踪实例对应的掩膜组合系数,将所述第一全卷积网络层输出的各特征维度对应的掩膜与所述第二全卷积网络层输出的训练样本中的各追踪实例对应的掩膜组合系数输入所述待训练的分类模型的装配层,得到所述训练样本中各追踪实例对应的掩膜,针对所述训练样本中的每个追踪实例对应的掩膜,将该追踪实例对应的掩膜输入所述待训练的分类模型的全连接层,得到所述训练样本中该追踪实例的分类结果,以最小化所述分类结果与所述样本标签之间的偏差为优化目标,对分类模型进行训练,所述分类模型包括:卷积神经网络层、第一全卷积网络层、第二全卷积网络层、装配层和全连接层。
可选地,所述第一确定模块202,具体用于将所述图像输入预先训练好的分类模型的卷积神经网络,得到当前时刻的图像特征向量,根据所述当前时刻的图像特征向量,确定所述当前时刻的图像特征金字塔。
可选地,所述图像特征金字塔由若干层特征图组成,所述全卷积模块204,用于将所述当前时刻的图像特征金字塔的至少一层特征图作为输入,输入所述分类模型的第一全卷积网络层,得到所述第一全卷积网络层输出的各特征维度对应的掩膜,将所述当前时刻的图像特征金字塔作为输入,输入所述分类模型的第二全卷积网络层,得到所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数。
可选地,所述掩膜组合系数的个数和所述各特征维度对应的掩膜数相等,所述组合模块206,具体用于针对每个追踪实例,将得到的各特征维度对应的掩膜和该追踪实例对应的掩膜组合系数进行线性组合,确定该追踪实例对应的掩膜。
可选地,所述第二确定模块208,用于针对每个追踪实例,将当前时刻该追踪实例的特征向量与所述指定历史时刻确定出的各待匹配追踪实例的特征向量进行匹配,确定当前时刻所述追踪实例的特征向量与所述指定历史时刻确定出的各待匹配追踪实例的特征向量的相似度,根据确定出的相似度以及预设阈值,从所述指定历史时刻的各待匹配追踪实例中,确定与该追踪实例关联的待匹配追踪实例,根据当前时刻各追踪实例与确定出的与各追踪实例关联的待匹配追踪实例,确定各追踪实例的追踪结果。
可选地,所述第二确定模块208,具体用于所述第二全卷积网络层还用于针对各追踪实例,分别输出各追踪实例的包围框,针对每个追踪实例,根据该追踪实例的包围框和当前时刻该追踪实例对应的掩膜,确定当前时刻该追踪实例的特征向量。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1提供的实例追踪的方法。
本说明书还提供了图8所示的电子设备的示意结构图。如图8所述,在硬件层面,该无人驾驶设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的实例追踪的方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (10)

1.一种实例追踪的方法,其特征在于,所述方法包括:
从采集设备连续采集的各帧图像中,确定当前时刻用于输入分类模型的图像;
将所述图像输入所述预先训练好的分类模型的卷积神经网络层,以得到当前时刻的图像特征金字塔;
将所述当前时刻的图像特征金字塔作为输入,分别输入所述分类模型的第一全卷积网络层和第二全卷积网络层,得到所述第一全卷积网络层输出的各特征维度对应的掩膜,以及所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数;
根据所述第一全卷积网络层输出的各特征维度对应的掩膜与所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数,确定当前时刻各追踪实例对应的掩膜;
根据所述当前时刻各追踪实例对应的掩膜,确定当前时刻各追踪实例的特征向量;
根据所述当前时刻各追踪实例的特征向量与指定历史时刻确定出的待匹配追踪实例的特征向量确定追踪实例的追踪结果。
2.如权利要求1所述的方法,其特征在于,将所述图像输入预先训练好的分类模型的卷积神经网络层,以得到当前时刻的图像特征金字塔,具体包括:
将所述图像输入预先训练好的分类模型的卷积神经网络层,得到当前时刻的图像特征向量;
根据所述当前时刻的图像特征向量,确定所述当前时刻的图像特征金字塔。
3.如权利要求1所述的方法,其特征在于,所述图像特征金字塔由若干层特征图组成;
将所述当前时刻的图像特征金字塔作为输入,分别输入所述分类模型的第一全卷积网络层和第二全卷积网络层,得到所述第一全卷积网络层输出的各特征维度对应的掩膜,以及所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数,具体包括:
将所述当前时刻的图像特征金字塔的至少一层特征图作为输入,输入所述分类模型的第一全卷积网络层,得到所述第一全卷积网络层输出的各特征维度对应的掩膜;
将所述当前时刻的图像特征金字塔作为输入,输入所述分类模型的第二全卷积网络层,得到所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数。
4.如权利要求1所述的方法,其特征在于,所述掩膜组合系数的个数和所述各特征维度对应的掩膜数相等;
根据所述第一全卷积网络层输出的各特征维度对应的掩膜与所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数,确定当前时刻各追踪实例对应的掩膜,具体包括:
针对每个追踪实例,将得到的各特征维度对应的掩膜和该追踪实例对应的掩膜组合系数进行线性组合,确定该追踪实例对应的掩膜。
5.如权利要求1所述的方法,其特征在于,根据所述当前时刻各追踪实例的特征向量与指定历史时刻确定出的追踪实例的特征向量确定追踪实例的追踪结果,具体包括:
针对每个追踪实例,将当前时刻该追踪实例的特征向量与所述指定历史时刻确定出的各待匹配追踪实例的特征向量进行匹配,确定当前时刻所述追踪实例的特征向量与所述指定历史时刻确定出的各待匹配追踪实例的特征向量的相似度;
根据确定出的相似度以及预设阈值,从所述指定历史时刻的各待匹配追踪实例中,确定与该追踪实例关联的待匹配追踪实例;
根据当前时刻各追踪实例与确定出的与各追踪实例关联的待匹配追踪实例,确定各追踪实例的追踪结果。
6.如权利要求1所述的方法,其特征在于,所述分类模型包括:卷积神经网络层、第一全卷积网络层、第二全卷积网络层、装配层和全连接层,采用以下方法训练所述分类模型:
获取历史上采集设备采集到的若干图像,作为训练样本,并确定各图像中每个实例的分类标签,作为样本标签;
将确定出的训练样本输入待训练的分类模型的卷积神经网络层,以得到所述训练样本的图像特征金字塔;
将所述训练样本的图像特征金字塔作为输入,分别输入所述待训练的分类模型的第一全卷积网络层和第二全卷积网络层,得到所述第一全卷积网络层输出的各特征维度对应的掩膜,以及所述第二全卷积网络层输出的训练样本中的各追踪实例对应的掩膜组合系数;
将所述第一全卷积网络层输出的各特征维度对应的掩膜与所述第二全卷积网络层输出的训练样本中的各追踪实例对应的掩膜组合系数输入所述待训练的分类模型的装配层,得到所述训练样本中各追踪实例对应的掩膜;
针对所述训练样本中的每个追踪实例对应的掩膜,将该追踪实例对应的掩膜输入所述待训练的分类模型的全连接层,得到所述训练样本中该追踪实例的分类结果;
以最小化所述分类结果与所述样本标签之间的偏差为优化目标,对分类模型进行训练。
7.如权利要求1所述的方法,其特征在于,根据所述当前时刻各追踪实例对应的掩膜,确定当前时刻各追踪实例的特征向量,具体包括:
所述第二全卷积网络层还用于针对各追踪实例,分别输出各追踪实例的包围框;
针对每个追踪实例,根据该追踪实例的包围框和当前时刻该追踪实例对应的掩膜,确定当前时刻该追踪实例的特征向量。
8.一种实例追踪的装置,其特征在于,所述装置包括:
采集模块,用于从采集设备连续采集的各帧图像中,确定当前时刻用于输入分类模型的图像;
第一确定模块,用于将所述图像输入所述预先训练好的分类模型的卷积神经网络层,以得到当前时刻的图像特征金字塔;
全卷积模块,用于将所述图像特征金字塔作为输入,分别输入所述分类模型的第一全卷积网络层和第二全卷积网络层,得到所述第一全卷积网络层输出的各特征维度对应的掩膜,以及所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数;
组合模块,用于根据所述第一全卷积网络层输出的各特征维度对应的掩膜与所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数,确定当前时刻各追踪实例对应的掩膜;
第二确定模块,根据所述当前时刻各追踪实例对应的掩膜,确定当前时刻各追踪实例的特征向量,根据所述当前时刻各追踪实例的特征向量与指定历史时刻确定出的待匹配追踪实例的特征向量确定追踪实例的追踪结果。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。
CN202011454203.XA 2020-12-10 2020-12-10 一种实例追踪的方法及装置 Pending CN112561961A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011454203.XA CN112561961A (zh) 2020-12-10 2020-12-10 一种实例追踪的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011454203.XA CN112561961A (zh) 2020-12-10 2020-12-10 一种实例追踪的方法及装置

Publications (1)

Publication Number Publication Date
CN112561961A true CN112561961A (zh) 2021-03-26

Family

ID=75061733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011454203.XA Pending CN112561961A (zh) 2020-12-10 2020-12-10 一种实例追踪的方法及装置

Country Status (1)

Country Link
CN (1) CN112561961A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744281A (zh) * 2021-07-20 2021-12-03 北京旷视科技有限公司 实例分割网络训练和实例分割方法、装置、电子设备
CN113793371A (zh) * 2021-08-23 2021-12-14 北京航空航天大学杭州创新研究院 目标分割追踪方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190005657A1 (en) * 2017-06-30 2019-01-03 Baidu Online Network Technology (Beijing) Co., Ltd . Multiple targets-tracking method and apparatus, device and storage medium
CN110363799A (zh) * 2019-05-27 2019-10-22 浙江工业大学 人机共存环境下基于视觉的多运动人体目标跟踪方法
US20200065976A1 (en) * 2018-08-23 2020-02-27 Seoul National University R&Db Foundation Method and system for real-time target tracking based on deep learning
US10713794B1 (en) * 2017-03-16 2020-07-14 Facebook, Inc. Method and system for using machine-learning for object instance segmentation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10713794B1 (en) * 2017-03-16 2020-07-14 Facebook, Inc. Method and system for using machine-learning for object instance segmentation
US20190005657A1 (en) * 2017-06-30 2019-01-03 Baidu Online Network Technology (Beijing) Co., Ltd . Multiple targets-tracking method and apparatus, device and storage medium
US20200065976A1 (en) * 2018-08-23 2020-02-27 Seoul National University R&Db Foundation Method and system for real-time target tracking based on deep learning
CN110363799A (zh) * 2019-05-27 2019-10-22 浙江工业大学 人机共存环境下基于视觉的多运动人体目标跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUQING WANG 等: "CenterMask: single shot instance segmentation with point representation", 2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 5 August 2020 (2020-08-05), pages 9310 - 9318 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744281A (zh) * 2021-07-20 2021-12-03 北京旷视科技有限公司 实例分割网络训练和实例分割方法、装置、电子设备
CN113793371A (zh) * 2021-08-23 2021-12-14 北京航空航天大学杭州创新研究院 目标分割追踪方法、装置、电子设备和存储介质
CN113793371B (zh) * 2021-08-23 2023-10-24 北京航空航天大学杭州创新研究院 目标分割追踪方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
Xu et al. Segment as points for efficient online multi-object tracking and segmentation
CN111010590B (zh) 一种视频裁剪方法及装置
CN111311709B (zh) 一种生成高精地图的方法及装置
CN112015847B (zh) 一种障碍物的轨迹预测方法、装置、存储介质及电子设备
CN112465029B (zh) 一种实例追踪的方法及装置
CN111508258B (zh) 一种定位方法及装置
CN111882611A (zh) 一种地图构建方法及装置
CN113160283B (zh) 一种基于sift的多摄像头场景下的目标跟踪方法
CN111382647B (zh) 一种图片处理方法、装置、设备及存储介质
CN112561961A (zh) 一种实例追踪的方法及装置
CN112365513A (zh) 一种模型训练的方法及装置
CN112884780A (zh) 一种用于人体姿态的估计方法和系统
CN112990099B (zh) 一种车道线检测的方法以及装置
CN112818968A (zh) 一种目标物分类方法及装置
CN116563553B (zh) 一种基于深度学习的无人机图像分割方法和系统
CN113744280A (zh) 图像处理方法、装置、设备及介质
CN111292331B (zh) 图像处理的方法与装置
CN116342888B (zh) 一种基于稀疏标注训练分割模型的方法及装置
CN114359258B (zh) 红外移动对象目标部位的检测方法、装置及系统
CN113344198B (zh) 一种模型训练的方法及装置
CN112163478A (zh) 一种目标检测的方法及装置
CN114332189A (zh) 一种高精地图构建方法、装置、存储介质及电子设备
CN114187355A (zh) 一种图像标定方法及装置
CN114119678A (zh) 光流估计方法、计算机程序产品、存储介质及电子设备
CN113673436A (zh) 一种行为识别、模型训练的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination