CN113538516B

CN113538516B - 基于记忆信息的目标对象跟踪方法、装置及电子设备

Info

Publication number: CN113538516B
Application number: CN202110814969.2A
Authority: CN
Inventors: 赵小川; 刘华鹏; 李陈; 史津竹; 燕琦; 马燕琳; 陈路豪; 王子彻
Original assignee: China North Computer Application Technology Research Institute
Current assignee: China North Computer Application Technology Research Institute
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2024-04-16
Anticipated expiration: 2041-07-19
Also published as: CN113538516A

Abstract

本申请实施例提供了一种基于记忆信息的目标对象跟踪方法、装置及电子设备，包括：获取目标对象在第一时刻的位置信息；根据所述位置信息，获得所述目标对象在第二时刻的初始跟踪信息作为记忆信息，其中，所述第二时刻早于所述第一时刻；根据所述记忆信息和所述位置信息，获得所述目标对象在所述第一时刻的目标跟踪信息。该方法可以稳定、精确的获得目标对象的目标跟踪信息。

Description

基于记忆信息的目标对象跟踪方法、装置及电子设备

技术领域

本公开实施例涉及计算机技术领域，更具体地，涉及一种基于记忆信息的目标对象跟踪方法、装置及电子设备。

背景技术

近年来，随着计算机技术的不断发展，通过采集图像，并基于采集的图像对其包含的对象进行检测以获取对象的位置信息，以实现对对象的位置跟踪，被广泛应用于各种领域。

以无人驾驶领域为例，目前为了实现车辆的自动驾驶，一般是在车辆行驶过程中，根据车辆持续采集的多帧环境图像，持续获取其他交通参与者的多个位置信息，以根据该多个位置信息，预估其他交通参与者的跟踪信息，进而为车辆提供驾驶信息。

然而，现有方法通常是根据既有的机器学习模型来对目标对象进行检测并获取其跟踪信息，存在不能稳定、精确的获得目标对象的跟踪信息的问题。

发明内容

本公开的一个目的是提供一种用于目标对象跟踪的新的技术方案。

根据本公开的第一方面，提供了基于记忆信息的目标对象跟踪方法的一个实施例，包括：

获取目标对象在第一时刻的位置信息；

根据所述位置信息，获得所述目标对象在第二时刻的初始跟踪信息作为记忆信息，其中，所述第二时刻早于所述第一时刻；

根据所述记忆信息和所述位置信息，获得所述目标对象在所述第一时刻的目标跟踪信息。

可选地，所述获取所述目标对象在第一时刻的位置信息，包括：

获取所述目标对象在所述第一时刻对应的待检测图像；

将所述待检测图像输入到目标检测模型中，获得所述位置信息，其中，所述目标检测模型为类脑视觉感知结构的卷积神经网络模型。

可选地，所述目标检测模型包括视觉感知预处理网络层、骨干网络层和头部网络层；

所述将所述待检测图像输入到目标检测模型中，获得所述位置信息，包括：

将所述待检测图像输入到所述视觉感知预处理网络层中，获得第一特征信息，其中，所述视觉感知预处理网络层包括Gabor滤波层、至少一个非线性层和高斯随机噪声层；

将所述第一特征信息输入到所述骨干网络层中，获得所述待检测图像的多个不同尺度的第二特征信息；

将所述多个不同尺度的第二特征信息输入到所述头部网络层中，获得所述位置信息，其中，所述位置信息包括所述目标对象的对象类别和位置数据。

可选地，所述骨干网络层包括多个网络层单元和空间金字塔池化层，其中，，所述网络层单元包括CBL层、多个残差网络层和特征拼接层；

所述将所述第一特征信息输入到所述骨干网络层中，获得所述待检测图像的多个不同尺度的第二特征信息，包括：

根据所述多个网络层单元和所述空间金字塔池化层，对所述第一特征信息进行多个不同尺度的深度特征提取处理，获得所述第二特征信息。

可选地，所述头部网络层包括多个上采样层、多个网络层单元和检测层，其中，所述网络层单元包括CBL层、多个残差网络层和特征拼接层；

所述将所述多个不同尺度的第二特征信息输入到所述头部网络层中，获得所述位置信息，包括：

使用所述多个上采样层对输入的所述多个不同尺度的第二特征信息进行维度调整处理，获得多个维度一致的第三特征信息；

使用所述多个网络层单元对所述多个维度一致的特征信息进行特征融合处理，获得融合特征信息；

将所述融合特征信息输入检测层，获得所述位置信息。

可选地，所述根据所述位置信息，获得所述目标对象在第二时刻的初始跟踪信息作为记忆信息，包括：

获取所述第二时刻的、与多个不同对象一一对应的多个初始跟踪信息，其中，所述对象中包括所述目标对象；

从所述多个初始跟踪信息中，获取与所述目标对象的所述位置信息匹配的初始跟踪信息作为所述记忆信息。

可选地，所述根据所述记忆信息和所述位置信息，获得所述目标对象在所述第二时刻的目标跟踪信息，包括：

根据所述记忆信息和所述位置信息，使用预设预测算法获得所述目标跟踪信息。

可选地，所述方法应用于车辆，所述目标对象包括处于所述车辆周边环境中的其他交通参与者；在获得所述目标跟踪信息之后，所述方法还包括：

根据所述目标跟踪信息，为所述车辆提供驾驶参考信息。

根据本公开的第二方面，提供了基于记忆信息的目标对象跟踪装置的一个实施例，包括：

位置信息获取模块，用于获取目标对象在第一时刻的位置信息；

记忆信息获得模块，用于根据所述位置信息，获得所述目标对象在第二时刻的初始跟踪信息作为记忆信息，其中，所述第二时刻早于所述第一时刻；

目标跟踪信息获得模块，用于根据所述记忆信息和所述位置信息，获得所述目标对象在所述第一时刻的目标跟踪信息。

根据本公开的第三方面，提供了电子设备的一个实施例，如本说明书的第二方面所述的装置；或者，

所述电子设备包括：

存储器，用于存储可执行的指令；

处理器，用于根据所述可执行的计算机程序的控制，执行如本说明书的第一方面所述的控制方法。

本公开实施例的一个有益效果在于，在对目标对象进行跟踪时，通过获取目标对象在第一时刻的位置信息；根据所述位置信息，获得所述目标对象在早于所述第一时刻的第二时刻的初始跟踪信息作为记忆信息；并根据所述记忆信息和所述位置信息，获得所述目标对象在所述第一时刻的目标跟踪信息。区别于现有方法中根据从多帧图像中获取到的目标对象的多个位置信息，以预估目标对象的跟踪信息的方法，本实施例提供的方法在检测到目标对象在第一时刻的位置信息之后，通过模拟人脑对帧间信息记忆和推理的处理，将目标对象在第二时刻的初始跟踪信息作为目标对象对应的记忆信息，从而可以根据当前第一时刻该目标对象的位置信息，稳定、精确的获得该目标对象在第二时刻的目标跟踪信息。

通过以下参照附图对本说明书的示例性实施例的详细描述，本说明书的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本说明书的实施例，并且连同其说明一起用于解释本说明书的原理。

图1是本公开实施例提供的基于记忆信息的目标跟踪方法的场景示意图。

图2是可用于实现本公开实施例的电子设备的结构示意图。

图3是根据一个实施例的基于记忆信息的目标跟踪方法的流程示意图。

图4是根据一个实施例的目标检测模型的结构示意图。

图5是根据一个实施例的视觉感知预处理层的结构示意图。

图6是根据一个实施例的网络层单元的结构示意图。

图7是根据一个实施例的基于记忆信息的目标跟踪装置的方框原理图。

图8是根据一个实施例的电子设备的硬件结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例涉及无人自动驾驶的应用场景。

近年来，为了安全可靠的实现车辆的无人驾驶，通常可以在无人驾驶车辆上设置图像传感器，并将该图像传感器持续采集的车辆周边环境图像作为待检测图像，以通过检测待检测图像中的目标对象，即，其他交通参与者的位置信息，来获得反映目标对象的位置变化以及速度变化的跟踪信息，从而根据该跟踪信息为无人驾驶车辆提供驾驶参考信息。

实际中，针对无人驾驶车辆采集到的连续多帧环境图像，通常是使用既有的机器学习模型来检测目标对象在时序上相连的多个位置信息，以对目标对象进行跟踪，其中，该机器学习模型例如可以为SSD模型、Mask-RCNN模型及Faster-RCNN模型等。然而，在无人驾驶领域，为了实现更高级别的自动驾驶，通常需要稳定、精确的获取目标对象的跟踪信息，而现有的基于既有机器学习模型来获取目标对象的多个位置信息，进而获得其跟踪信息的方法，往往存在不够稳定、精确的问题。

为解决以上问题，本公开提供了一种基于记忆信息的目标对象跟踪方法。请参看图1，其是本公开实施例提供的目标跟踪方法的场景示意图。如图1所示，以无人驾驶车辆为车辆100，以目标对象200为道路中的其他交通参与者为例，在具体实施时，该方法可以由无人驾驶车辆上携带的电子设备实施，该电子设备例如可以为行车电脑。具体地，为了稳定、精确的获得目标对象200的跟踪信息，在车辆100获取到t1时刻包含目标对象200的环境图像之后，可以将该环境图像视为待检测图像，并通过从该待检测图像中获得目标对象200在t1时刻的位置信息；之后，本公开实施例提供的方法参考人脑帧间信息记忆和推理处理，根据该位置信息，获取目标对象200在早于t1时刻的t2时刻的初始跟踪信息作为记忆信息，从而根据t1时刻的位置信息和t2时刻的记忆信息，获得目标对象200在t1时刻的目标跟踪信息。在获得该目标跟踪信息之后，车辆100即可根据目标跟踪信息，控制车辆行驶。

以上是以无人驾驶领域为例，对本公开提供的基于记忆信息的目标跟踪方法进行说明。需要说明的是，在具体实施时，也可以将该方法应用在其他领域，例如，应用在军事、游戏等领域，此处不做特殊限定。

<硬件配置>

图2是可用于实现本公开实施例的电子设备的结构示意图。

该电子设备1000可以是智能手机、便携式电脑、台式计算机、平板电脑、服务器等，在此不做限定。

该电子设备1000可以包括但不限于处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中，处理器1100可以是中央处理器CPU、图形处理器GPU、微处理器MCU等，用于执行计算机程序，该计算机程序可以采用比如x86、Arm、RISC、MIPS、SSE等架构的指令集编写。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、串行接口、并行接口等。通信装置1400例如能够利用光纤或电缆进行有线通信，或者进行无线通信，具体地可以包括WiFi通信、蓝牙通信、2G/3G/4G/5G通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。扬声器1700用于输出音频信号。麦克风1800用于采集音频信号。

应用于本公开实施例中，电子设备1000的存储器1200用于存储计算机程序，该计算机程序用于控制所述处理器1100进行操作以实现根据本公开实施例的方法。技术人员可以根据本公开所公开方案设计该计算机程序。该计算机程序如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。该电子设备1000可以安装有智能操作系统(例如Windows、Linux、安卓、IOS等系统)和应用软件。

本领域技术人员应当理解，尽管在图2中示出了电子设备1000的多个装置，但是，本公开实施例的电子设备1000可以仅涉及其中的部分装置，例如，只涉及处理器1100和存储器1200等。

下面，参照附图描述根据本发明的各个实施例和例子。

<方法实施例>

图3是根据一个实施例的基于记忆信息的目标跟踪方法的流程示意图，该实施例可以由电子设备实施，例如可以由图2所示的电子设备1000实施。

如图3所示，本实施例的电子设备的控制方法可以包括如下步骤S3100-S3300，以下予以详细说明。

步骤S3100，获取目标对象在第一时刻的位置信息。

在本实施例中，目标对象可以是处于真实世界或虚拟世界中的至少一个对象。例如，在无人驾驶领域，目标对象可以为处于无人驾驶车辆周边的其他交通参与者，例如，其他车辆、行人等。

目标对象的位置信息，是描述目标对象在其对应的待检测图像中的位置的信息。具体地，在待检测图像中检测到目标对象之后，一般可以使用一个矩形框(boundingbox)来标识该目标对象，因此，目标对象的位置信息可以是用于描述该矩形框的相关数据。

例如，目标对象的位置信息可以为一五维向量，其中第一维描述目标对象的类别，其他维度为该矩形框的位置数据，具体可以为该目标对象对应的矩形框的中心坐标、矩形框的长度和宽度。

在一个实施例中，所述获取所述目标对象在第一时刻的位置信息，包括：获取所述目标对象在所述第一时刻对应的待检测图像；将所述待检测图像输入到目标检测模型中，获得所述位置信息，其中，所述目标检测模型为类脑视觉感知结构的卷积神经网络模型。

在具体实施时，所述目标检测模型可以包括视觉感知预处理网络层、骨干网络层和头部网络层；所述将所述待检测图像输入到目标检测模型中，获得所述位置信息，包括：将所述待检测图像输入到所述视觉感知预处理网络层中，获得第一特征信息，其中，所述视觉感知预处理网络层包括Gabor滤波层、至少一个非线性层和高斯随机噪声层；将所述第一特征信息输入到所述骨干网络层中，获得所述待检测图像的多个不同尺度的第二特征信息；将所述多个不同尺度的第二特征信息输入到所述头部网络层中，获得所述位置信息，其中，所述位置信息包括所述目标对象的对象类别和位置数据。

本实施例所述的目标检测模型是为模仿人脑视觉皮层的感知结构的卷积神经网络模型，请参看图4，其是根据一个实施例的目标检测模型的结构示意图。如图4所示，该目标检测模型由两个模块构成，模块1包括模仿人脑视觉感知结构的视觉感知预处理层，模块2包括骨干网络层和头部网络层。

视觉感知预处理层，用于模拟灵长类动物脑部视觉皮层处理图像信息的模式，从待检测图像中提取出抗感染、低噪声的第一特征信息。

请参看图5，其是根据一个实施例的视觉感知预处理层的结构示意图。如图5所示，视觉感知预处理层包括Gabor滤波层、至少一个非线性层和高斯随机噪声层，在本实施例中，非线性层的数量可以为6个。

Gabor滤波层的公式可以表示为：

其中，x_rot、y_rot为输入x和y经过旋转后的向量，x_rot＝xcos(θ)+ysin(θ)，y_rot＝-xsin(θ)+ycos(θ)，θ为滤波器旋转角，f和n_x为空间频率与倍率参数，σ_x,σ_y分别为高斯包络标准差，φ是高斯包络的相位；在具体实施时，σ_x，σ_y，φ以及f和n_x的参数数值可以对猕猴视皮层V1层模型参数进行拟合获得，其中，有关猕猴视皮层V1层模型因为现有技术中有详细说明，此处不再赘述。

视觉感知预处理层中的非线性层的公式可以表示为以下公式：

其中，有关各参数的说明请参考上述Gabor滤波层中的描述，在具体实施时，非线性层可以有两种模式，一种是负向数值取0，另一种为求解普功率，其中，S表示模拟简单细胞输出，C表示模拟复杂细胞输出。

视觉感知预处理层中的高斯随机噪声层，用于模拟生物激活过程的泊松分布，其公式可以表示为：其中，R^s代表随机输出，输出服从高斯分布，均值和方差为R^ns，代表不含随机性的输出数值。

在本实施例中，在将待检测图像输入到目标检测模型之后，可以先由视觉感知预处理层中的Gabor滤波层使用Gabor滤波器对图像特征进行初步处理，再分别经过6个非线性层，并通过高斯随机噪声层引入高斯噪声之后得到待检测图像对应的第一特征信息，其中，Gabor滤波器变换是一种短时加窗Fourier变换，是短时傅里叶变换中窗函数取为高斯函数时的一种特殊情况，因此，Gabor滤波器能够较好的模拟灵长类动物脑部视觉皮层处理图像信息系的模式，进而从图像中提取出更具抗干扰、低噪声的特征信息。

请继续参看图4，所述骨干网络层包括多个网络层单元，所述网络层单元包括CBL层、多个残差网络层和特征拼接层；所述将所述第一特征信息输入到所述骨干网络层中，获得所述待检测图像的多个不同尺度的第二特征信息，包括：根据所述多个网络层单元，对所述第一特征信息进行多个不同尺度的深度特征提取处理，获得所述第二特征信息。

在本实施例中，骨干网络层，是对脑部多层级信息处理模式进行模拟，通过多个网络层单元和空间金字塔池化层的引入，根据第一特征信息，通过所述多个网络层单元和空间金字塔池化层对待检测图像进行多个不同尺度的深度特征提取处理，以获得多个不同尺度的第二特征信息。

网络层单元，具体为图4所示的一个C3层。请参看图6，其是根据一个实施例的网络层单元的结构示意图。如图6所示，本实施例的网络层单元包括CBL层、多个残差网络层和特征拼接层，其中，C3层中的数字“3”用于示意该C3层包括3个残差(Resnet)层，CBL层通常可以由卷积层(Conv,Convolutionallayer)+批量归一化层(BN，BatchNormalizationlayer)+激活函数层(LeakyRelulayer)组成。

如图4所示，在本实施例中，骨干网络层可以包括多个网络层单元和空间金字塔池化层，其中，网络层单元为如图4所示的C3层，针对输入的第一特征信息，可以先经1*C3层对其进行特征提取处理；之后，将提取得到的特征信息再经由一卷积层输入至3*C3层中进行特征提取处理，以得到第一尺度特征信息；再之后，可以再将该第一尺度特征信息输入一卷积层，并再次输入到一3*C3层中进行特征提取处理，以得到第二尺度特征信息；再之后，将该第二尺度特征信息依次输入一卷积层和一空间金字塔池化层(SPP，Spatialpyramidpooling)，并将池化处理后的特征信息再次输入一1*C3层中进行特征提取处理，以得到第三尺度特征信息。

在经由骨干网络层得到待检测图像的多个不同尺度的第二特征信息之后，即可根据如图4所示的头部网络层对该多个不同尺度的第二特征信息进行特征融合处理，以根据融合得到的融合特征信息，获得目标对象的位置信息。

具体地，请继续参看图4，所述头部网络层包括多个上采样层、多个网络层单元和检测层，其中，所述网络层单元包括CBL层、多个残差网络层和特征拼接层；所述将所述多个不同尺度的第二特征信息输入到所述头部网络层中，获得所述位置信息，包括：使用所述多个上采样层对输入的所述多个不同尺度的第二特征信息进行维度调整处理，获得多个维度一致的第三特征信息；使用所述多个网络层单元对所述多个维度一致的特征信息进行特征融合处理，获得融合特征信息；将所述融合特征信息输入检测层，获得所述位置信息。

头部网络层中的卷积单元可以是与骨干网络层中的网络层单元结构相同的网络单元，例如，该网络层单元同样可以为一C3层。

如图4所示，针对骨干网络层中获得的三个不同尺度的第二特征信息，由于其所处的维度不同，因此，可以在骨干网络层中，将第二特征信息中的第三尺度特征信息经由一卷积层并进行上采样处理后，通过一拼接层，即Concat层将其与第二尺度特征信息进行拼接，再之后，将拼接得到的特征信息依次经由一1*C3层和一卷积层后，再进行一次上采样处理，以将其维度调整为与第一尺度特征信息一致，并将调整一致后的特征信息再经由一Concat层与第一尺度特征信息进行拼接；在完成上述处理之后，将每次拼接完成的特征信息与原有不同尺度的第二特征信息分别进行拼接，以得到一可以在不同尺度上同时反映待检测图像的深度特征信息的融合特征信息；之后，再通过检测层对该融合特征信息进行检测分析，即可获得待检测图像中目标对象的位置信息。

在步骤S3100之后，执行步骤S3200，根据所述位置信息，获得所述目标对象在第二时刻的初始跟踪信息作为记忆信息，其中，所述第二时刻早于所述第一时刻。

初始跟踪信息，为目标对象在早于当前第一时刻的第二时刻的跟踪信息。在本实施例中，第一时刻可以为当前时刻，第二时刻可以为当前时刻的上一时刻，或者是上上时刻，此处不做特殊限定。

目标对象的跟踪信息，是反映目标对象的运动状态，即，位置变化以及速度变化的信息，该跟踪信息可以使用以下向量表示：

其中，x表示目标对象的跟踪信息，u表示目标对象对应的矩形框的水平运动方向，v表示目标对象对应的矩形框的垂直运动方向，s表示目标对象对应的矩形框的面积，r表示目标对象对应的矩形框的长宽比，表示目标对象的水平运动速度，/>表示目标对象的垂直运动速度，/>表示目标对象对应的矩形框的面积变化速度。

在一个实施例中，所述根据所述位置信息，获得所述目标对象在第二时刻的初始跟踪信息作为记忆信息，包括：获取所述第二时刻的、与多个不同对象一一对应的多个初始跟踪信息，其中，所述对象中包括所述目标对象；从所述多个初始跟踪信息中，获取与所述目标对象的所述位置信息匹配的初始跟踪信息作为所述记忆信息。

具体地，在第二时刻，根据第二时刻的待检测图像，可以获得该图像中包含的多个对象的初始跟踪信息，其中，该对象中包括目标对象在第二时刻的初始跟踪信息。而在第一时刻，为了从该多个初始跟踪信息中，查找获得目标对象对应的初始跟踪信息以作为目标对象的记忆信息，可以通过第一时刻获得的目标对象的位置信息，即，该目标对象的类别和该目标对象在第一时刻的待检测图像中的矩形框的位置数据，使用预设匹配算法与第一时刻的多个对象的初始跟踪信息进行匹配，以从该多个初始跟踪信息中获得目标对象的记忆信息。

在一个实施例中，该预设匹配算法可以为匈牙利算法(HungarianAlgorithm)、KM算法(Kuhn-MunkresAlgorithm)等匹配算法。

需要说明的是，在实施该方法的初始时刻，即，T0时刻，可以根据从T0时刻的待检测图像中检测得到的目标对象的位置信息，直接构建其初始跟踪信息作为记忆信息，其详细处理过程此处不再赘述。

步骤S3300，根据所述记忆信息和所述位置信息，获得所述目标对象在所述第一时刻的目标跟踪信息。

在经过上述处理获得目标对象在第一时刻的位置信息之后，在本实施例中，可以获取目标对象在上一时刻的初始跟踪信息作为记忆信息，以模拟人脑对帧间信息记忆和推理的处理，稳定、精确的获得目标对象在当前第一时刻的目标跟踪信息。

在一个实施例中，所述根据所述记忆信息和所述位置信息，获得所述目标对象在所述第二时刻的目标跟踪信息，包括：根据所述记忆信息和所述位置信息，使用预设预测算法获得所述目标跟踪信息。

在一个实施例中，所述预设预测算法可以为卡尔曼滤波算法(KalmanFilterAlgorithm)、粒子滤波算法(ParticleFilterAlgorithm)、mean-shift算法等算法，此处不做特殊限定。

另外，为了进一步提升目标跟踪信息的精准度，在一个实施例中，在获得第一时刻的位置信息之后，还可以根据该位置信息，获得目标对象在早于第一时刻的多个时刻的多个历史跟踪信息，并根据该多个历史跟踪信息，拟合获得目标对象在第一时刻的参考跟踪信息；之后，在预测目标跟踪信息时，可以根据所述目标对象在第一时刻的位置信息，所述目标对象在第二时刻的记忆信息，和所述目标对象在第一时刻的参考跟踪信息，预测获得目标跟踪信息。

在一个实施例中，该方法可以应用于车辆，所述目标对象包括处于所述车辆周边环境中的其他交通参与者；在获得所述目标跟踪信息之后，所述方法还包括：根据所述目标跟踪信息，为所述车辆提供驾驶参考信息。

具体地，如图1所示，在该方法应用于车辆的情况下，在根据该方法获得车辆周围的其他交通参与者的目标跟踪信息之后，即可根据该目标跟踪信息，为车辆提供驾驶参考信息，以控制车辆行驶，从而提升车辆行驶安全性。

综上所述，本公开实施例提供的目标跟踪方法，在检测到目标对象在第一时刻的位置信息之后，通过模拟人脑对帧间信息记忆和推理的处理，将目标对象在第二时刻的初始跟踪信息视为目标对象对应的记忆信息，从而可以根据当前第一时刻该目标对象的位置信息，稳定、精确的获得该目标对象在第二时刻的目标跟踪信息。

<装置实施例>

图7是根据一个实施例的基于记忆信息的目标跟踪装置的方框原理图。如图7所示，该基于记忆信息的目标跟踪装置7000可以包括：位置信息获取模块7100、初始跟踪信息获得模块7200和目标跟踪信息获得模块7300。

该位置信息获取模块7100，用于获取目标对象在第一时刻的位置信息。

在一个实施例中，该位置信息获取模块7100在获取所述目标对象在第一时刻的位置信息时，可以用于：获取所述目标对象在所述第一时刻对应的待检测图像；将所述待检测图像输入到目标检测模型中，获得所述位置信息，其中，所述目标检测模型为类脑视觉感知结构的卷积神经网络模型。

在一个实施例中，所述目标检测模型包括视觉感知预处理网络层、骨干网络层和头部网络层；该位置信息获取模块7100在将所述待检测图像输入到目标检测模型中，获得所述位置信息时，可以用于：将所述待检测图像输入到所述视觉感知预处理网络层中，获得第一特征信息，其中，所述视觉感知预处理网络层包括Gabor滤波层、至少一个非线性层和高斯随机噪声层；将所述第一特征信息输入到所述骨干网络层中，获得所述待检测图像的多个不同尺度的第二特征信息；将所述多个不同尺度的第二特征信息输入到所述头部网络层中，获得所述位置信息，其中，所述位置信息包括所述目标对象的对象类别和位置数据。

在一个实施例中，该所述骨干网络层包括多个网络层单元和空间金字塔池化层，其中，所述网络层单元包括CBL层、多个残差网络层和特征拼接层；该位置信息获取模块7100在将所述第一特征信息输入到所述骨干网络层中，获得所述待检测图像的多个不同尺度的第二特征信息时，可以用于：根据所述多个网络层单元和所述空间金字塔池化层，对所述第一特征信息进行多个不同尺度的深度特征提取处理，获得所述第二特征信息。

在一个实施例中，所述头部网络层包括多个上采样层、多个网络层单元和检测层，其中，所述网络层单元包括CBL层、多个残差网络层和特征拼接层；该位置信息获取模块7100在将所述多个不同尺度的第二特征信息输入到所述头部网络层中，获得所述位置信息时，可以用于：使用所述多个上采样层对输入的所述多个不同尺度的第二特征信息进行维度调整处理，获得多个维度一致的第三特征信息；使用所述多个网络层单元对所述多个维度一致的特征信息进行特征融合处理，获得融合特征信息；将所述融合特征信息输入检测层，获得所述位置信息。

该初始跟踪信息获得模块7200，用于根据所述位置信息，获得所述目标对象在第二时刻的初始跟踪信息作为记忆信息，其中，所述第二时刻早于所述第一时刻。

在一个实施例中，该初始跟踪信息获得模块7200在根据所述位置信息，获得所述目标对象在第二时刻的初始跟踪信息作为记忆信息时，可以用于：获取所述第二时刻的、与多个不同对象一一对应的多个初始跟踪信息，其中，所述对象中包括所述目标对象；从所述多个初始跟踪信息中，获取与所述目标对象的所述位置信息匹配的初始跟踪信息作为所述记忆信息。

该目标跟踪信息获得模块7300，用于根据所述记忆信息和所述位置信息，获得所述目标对象在所述第一时刻的目标跟踪信息。

在一个实施例中，该目标跟踪信息获得模块7300在根据所述记忆信息和所述位置信息，获得所述目标对象在所述第二时刻的目标跟踪信息时，可以用于：根据所述记忆信息和所述位置信息，使用预设预测算法获得所述目标跟踪信息。

<设备实施例>

图8是根据一个实施例的电子设备的硬件结构示意图。

如图8所示，该电子设备800包括处理器810和存储器820，该存储器820用于存储可执行的计算机程序，该处理器810用于根据该计算机程序的控制，执行如以上任意方法实施例的方法。

该电子设备可以包括上述装置实施例中的基于记忆信息的目标跟踪装置7000，以上目标跟踪装置7000的各模块可以由本实施例中的处理器810执行存储器820存储的计算机程序实现，也可以通过其他电路结构实现，在此不做限定。

本说明书的一个实施例或者多个实施例可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本说明书的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本说明书实施例操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本说明书的各个方面。

这里参照根据本说明书实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本说明书的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本说明书的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人物来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本说明书的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人物来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人物能理解本文披露的各实施例。本申请的范围由所附权利要求来限定。

Claims

1.一种基于记忆信息的目标对象跟踪方法，其特征在于，包括：

获取目标对象在第一时刻的位置信息；

根据所述记忆信息和所述位置信息，获得所述目标对象在所述第一时刻的目标跟踪信息；

其中，所述获取所述目标对象在第一时刻的位置信息，包括：

获取所述目标对象在所述第一时刻对应的待检测图像；

将所述待检测图像输入到目标检测模型中，获得所述位置信息，其中，所述目标检测模型为类脑视觉感知结构的卷积神经网络模型；所述目标检测模型包括视觉感知预处理网络层、骨干网络层和头部网络层，其中，所述视觉感知预处理网络层用于模拟灵长类动物脑部视觉皮层处理图像信息的模式，以从所述待检测图像中提取出第一特征信息，所述骨干网络层用于对脑部多层级信息处理模式进行模拟，以根据所述第一特征信息获得多个不同尺度的第二特征信息，所述头部网络层用于对所述多个不同尺度的第二特征信息进行特征融合处理，以获得所述目标对象的位置信息。

2.根据权利要求1所述的方法，其特征在于，所述将所述待检测图像输入到目标检测模型中，获得所述位置信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述骨干网络层包括多个网络层单元和空间金字塔池化层，其中，所述网络层单元包括CBL层、多个残差网络层和特征拼接层；

4.根据权利要求2所述的方法，其特征在于，所述头部网络层包括多个上采样层、多个网络层单元和检测层，其中，所述网络层单元包括CBL层、多个残差网络层和特征拼接层；

将所述融合特征信息输入检测层，获得所述位置信息。

5.根据权利要求1所述的方法，其特征在于，所述根据所述位置信息，获得所述目标对象在第二时刻的初始跟踪信息作为记忆信息，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述记忆信息和所述位置信息，获得所述目标对象在所述第二时刻的目标跟踪信息，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法应用于车辆，所述目标对象包括处于所述车辆周边环境中的其他交通参与者；在获得所述目标跟踪信息之后，所述方法还包括：

根据所述目标跟踪信息，为所述车辆提供驾驶参考信息。

8.一种基于记忆信息的目标对象跟踪装置，其特征在于，包括：

目标跟踪信息获得模块，用于根据所述记忆信息和所述位置信息，获得所述目标对象在所述第一时刻的目标跟踪信息；

其中，所述位置信息获取模块，具体用于：

获取所述目标对象在所述第一时刻对应的待检测图像；

9.一种电子设备，其特征在于，包括权利要求8所述的装置；或者，

所述电子设备包括：

存储器，用于存储可执行的指令；

处理器，用于根据所述可执行的计算机程序的控制，执行根据权利要求1-7中任意一项所述的方法。