CN113689465A

CN113689465A - 对目标对象进行预测的方法及装置、存储介质及电子设备

Info

Publication number: CN113689465A
Application number: CN202110807642.2A
Authority: CN
Inventors: 彭强
Original assignee: Horizon Shanghai Artificial Intelligence Technology Co Ltd
Current assignee: Horizon Shanghai Artificial Intelligence Technology Co Ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-11-23
Anticipated expiration: 2041-07-16
Also published as: CN113689465B

Abstract

公开了一种对目标对象进行预测的方法及装置、存储介质及电子设备。该对目标对象进行预测的方法包括：基于当前图像帧确定当前图像帧对应的目标对象信息，其中，目标对象信息用于表征当前图像帧中包含的目标对象的实际情况；基于当前图像帧对应的目标对象信息确定当前图像帧中的目标区域；识别目标区域中的第一特征；确定当前图像帧之前的至少一幅历史图像帧各自对应的第二特征；基于第一特征和至少一幅历史图像帧各自对应的第二特征，预测目标对象在当前图像帧中的位置。与现有技术相比，本公开实施例无需人为设定复杂的计算方程，能够简化计算步骤，并提高预测的精准度，进而提高目标跟踪的精准度。

Description

对目标对象进行预测的方法及装置、存储介质及电子设备

技术领域

本公开涉及计算机视觉技术领域，具体涉及一种对目标对象进行预测的方法及装置、存储介质及电子设备。

背景技术

近年来，随着图像处理技术及计算机视觉技术的迅速发展，基于图像采集设备所采集的图像序列便能够实现目标预测(又称目标跟踪)的目的。然而，现有基于图像序列的目标跟踪方法需要人为设定计算方程，计算步骤繁琐且准确率极低。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种对目标对象进行预测的方法及装置、存储介质及电子设备。

在一方面，本公开实施例提供了一种对目标对象进行预测的方法，该对目标对象进行预测的方法包括：基于当前图像帧确定当前图像帧对应的目标对象信息，其中，目标对象信息用于表征当前图像帧中包含的目标对象的实际情况；基于当前图像帧对应的目标对象信息确定当前图像帧中的目标区域；识别目标区域中的第一特征；确定当前图像帧之前的至少一幅历史图像帧各自对应的第二特征；基于第一特征和至少一幅历史图像帧各自对应的第二特征，预测目标对象在当前图像帧中的位置。

在另一方面，本公开实施例提供了一种对目标对象进行预测的装置，该对目标对象进行预测的装置包括：第一确定模块，用于基于当前图像帧确定当前图像帧对应的目标对象信息，其中，目标对象信息用于表征当前图像帧中包含的目标对象的实际情况；第二确定模块，用于基于当前图像帧对应的目标对象信息确定当前图像帧中的目标区域；识别模块，用于识别目标区域中的第一特征；第三确定模块，用于确定当前图像帧之前的至少一幅历史图像帧各自对应的第二特征；第四确定模块，用于基于第一特征和至少一幅历史图像帧各自对应的第二特征，预测目标对象在当前图像帧中的位置。

在另一方面，本公开实施例提供了一种计算机可读存储介质，该存储介质存储有计算机程序，该计算机程序用于执行上述实施例所提及的对目标对象进行预测的方法。

在另一方面，本公开实施例提供了一种电子设备，该电子设备包括：处理器和用于存储处理器可执行指令的存储器，其中，处理器用于执行上述实施例所提及的对目标对象进行预测的方法。

本公开实施例提供的对目标对象进行预测的方法，通过确定当前图像帧中的目标区域对应的第一特征，以及确定当前图像帧之前的至少一幅历史图像帧各自对应的第二特征，进而基于第一特征和至少一幅历史图像帧各自对应的第二特征预测目标对象在当前图像帧中的位置的方式，实现了对目标对象进行预测的目的(即实现了对目标对象进行跟踪的目的)。由于第一特征为当前图像帧中的目标对象所处的目标区域对应的特征，第二特征为至少一幅历史图像帧中的目标对象所处的目标区域对应的特征，且历史图像帧的拍摄时间早于当前图像帧的拍摄时间，因此，基于第一特征和第二特征的匹配关系便能够对目标对象进行预测。与现有技术相比，本公开实施例无需人为设定复杂的计算方程，能够简化计算步骤，并提高预测精准度，进而提高目标跟踪的精准度。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1所示为本公开所适用的场景图。

图2所示为本公开一示例性实施例提供的对目标对象进行预测的方法的流程示意图。

图3所示为本公开另一示例性实施例提供的对目标对象进行预测的方法的流程示意图。

图4所示为本公开一示例性实施例提供的确定当前图像帧对应的第二特征的流程示意图。

图5所示为本公开一示例性实施例提供的基于当前图像帧中的目标区域生成当前图像帧对应的图像特征向量的流程示意图。

图6所示为本公开另一示例性实施例提供的基于当前图像帧中的目标区域生成当前图像帧对应的图像特征向量的流程示意图。

图7所示为本公开一示例性实施例提供的图像特征向量的生成示意图。

图8所示为本公开一示例性实施例提供的基于当前图像帧包括的目标区域生成当前图像帧对应的交互特征的流程示意图。

图9a所示为本公开一示例性实施例提供的当前图像帧的示意图。

图9b所示为本公开一示例性实施例提供的当前图像帧对应的交互特征示意图。

图10所示为本公开一示例性实施例提供的根据第一数值对应的图像块和第二数值对应的图像块，生成当前图像帧对应的交互特征的流程示意图。

图11所示为本公开一示例性实施例提供的基于第一特征和至少一幅历史图像帧各自对应的第二特征，预测目标对象在当前图像帧中的位置的流程示意图。

图12所示为本公开一示例性实施例提供的对目标对象进行预测的装置的结构示意图。

图13所示为本公开另一示例性实施例提供的对目标对象进行预测的装置的结构示意图。

图14所示为本公开一示例性实施例提供的第四确定模块的结构示意图。

图15所示为本公开一示例性实施例提供的图像特征向量生成单元的结构示意图。

图16所示为本公开另一示例性实施例提供的图像特征向量生成单元的结构示意图。

图17所示为本公开一示例性实施例提供的交互特征确定子单元的结构示意图。

图18所示为本公开一示例性实施例提供的生成子单元的结构示意图。

图19所示为本公开一示例性实施例提供的预测模块的结构示意图。

图20所示为本公开一示例性实施例提供的电子设备的结构示意图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

申请概述

众所周知，与单一静止图像相比，图像采集设备所采集的图像序列中包括更丰富的动态信息。因此，基于图像序列能够获取图像序列中所包含的目标的动态信息。应当理解，所获取的目标的动态信息能够为实现目标的动态分析(比如目标跟踪)提供数据基础。具体而言，目标跟踪技术指的是对图像序列或视频序列中包含的目标的状态进行持续推断的过程。其任务在于定位目标，并生成目标的运动轨迹。

然而，在现有技术中，通常基于卡尔曼滤波(Kalman Filter,KF)和扩展卡尔曼滤波(Extended Kalman Filter,EKF)等方式实现基于图像序列的目标跟踪方法。基于KF和EKF的特性可知，现有基于图像序列的目标跟踪方法计算步骤极其繁琐，且准确率极低。

针对上述技术问题，本公开的基本构思是提出一种对目标对象进行预测的方法及装置、存储介质及电子设备。该对目标对象进行预测的方法包括：基于当前图像帧确定当前图像帧对应的目标对象信息，其中，目标对象信息用于表征当前图像帧中包含的目标对象的实际情况；基于当前图像帧对应的目标对象信息确定当前图像帧中的目标区域；识别目标区域中的第一特征；确定当前图像帧之前的至少一幅历史图像帧各自对应的第二特征；基于第一特征和至少一幅历史图像帧各自对应的第二特征，预测目标对象在当前图像帧中的位置。本公开实施例提供的对目标对象进行预测的方法，通过确定当前图像帧中的目标区域对应的第一特征，以及确定当前图像帧之前的至少一幅历史图像帧各自对应的第二特征，进而基于第一特征和至少一幅历史图像帧各自对应的第二特征预测目标对象在当前图像帧中的位置的方式，实现了对目标对象进行预测的目的(即实现了对目标对象进行跟踪的目的)。由于第一特征为当前图像帧中的目标对象所处的目标区域对应的特征，第二特征为至少一幅历史图像帧中的目标对象所处的目标区域对应的特征，且历史图像帧的拍摄时间早于当前图像帧的拍摄时间，因此，基于第一特征和第二特征的匹配关系便能够对目标对象进行预测。与现有技术相比，本公开实施例无需人为设定复杂的计算方程，能够简化计算步骤，并提高预测精准度，进而提高目标跟踪的精准度。

在介绍了本公开的基本原理之后，下面将参考附图来具体介绍本公开的各种非限制性实施例。

示例性系统

图1所示为本公开所适用的场景图。如图1所示，本公开所适用的场景为对目标对象进行预测的场景。其中，该对目标对象进行预测的场景中包括服务器1和可移动设备2，可移动设备2上装载有图像采集设备21。服务器1与可移动设备2上装载的图像采集设备21之间存在通信连接关系。

具体而言，图像采集设备21用于获取可移动设备2的行驶范围内的至少一幅历史图像帧，其中，历史图像帧中包括目标对象，目标对象对应的图像区域为目标区域。并且，图像采集设备21用于获取可移动设备2的行驶范围内的当前图像帧，其中，当前图像帧中可能包括目标对象，也可能不包括目标对象，并且，当前图像帧中包括的目标对象和历史图像帧中包括的目标对象可能为同一目标对象，也可能为不同的目标对象。服务器1用于基于当前图像帧确定当前图像帧对应的目标对象信息，其中，目标对象信息用于表征当前图像帧中包含的目标对象的实际情况；基于当前图像帧对应的目标对象信息确定当前图像帧中的目标区域；识别目标区域中的第一特征；确定当前图像帧之前的至少一幅历史图像帧各自对应的第二特征；基于第一特征和至少一幅历史图像帧各自对应的第二特征，预测目标对象在当前图像帧中的位置。由于图1所示的对目标对象进行预测的场景利用服务器1实现了对目标对象进行预测的方法，因此，能够有效降低可移动设备2和/或图像采集设备21的计算量。

需要说明的是，本公开还适用于另一对目标对象进行预测的场景。具体地，该对目标对象进行预测的场景中包括可移动设备2，并且，可移动设备2上装载有图像采集设备21。具体而言，图像采集设备21用于获取可移动设备2的行驶范围内的至少一幅历史图像帧。并且，图像采集设备21用于获取可移动设备2的行驶范围内的当前图像帧。此外，可移动设备2或图像采集设备21用于基于当前图像帧确定当前图像帧对应的目标对象信息，其中，目标对象信息用于表征当前图像帧中包含的目标对象的实际情况；基于当前图像帧对应的目标对象信息确定当前图像帧中的目标区域；识别目标区域中的第一特征；确定当前图像帧之前的至少一幅历史图像帧各自对应的第二特征；基于第一特征和至少一幅历史图像帧各自对应的第二特征，预测目标对象在当前图像帧中的位置。由于本公开实施例提及的对目标对象进行预测的场景利用可移动设备2或图像采集设备21实现了对目标对象进行预测的方法，无需与服务器1等装置进行数据传输操作，因此，能够充分保证预测实时性。

上述应用场景中提及的可移动设备2，包括但不限于为车辆、无人机、物流小车、扫地机器人等具备移动能力的设备。此外，应当理解，本公开下述实施例提供的对目标对象进行预测的方法，不局限于上述提及的对目标对象进行预测的场景，且应用场景中并非必须包含可移动设备2，只要涉及到基于多幅图像帧对图像帧中所包含的目标对象进行预测的应用场景，均属于本公开实施例的适用范围。

示例性方法

图2所示为本公开一示例性实施例提供的对目标对象进行预测的方法的流程示意图。如图2所示，本公开实施例提供的对目标对象进行预测的方法包括如下步骤。

步骤10，基于当前图像帧确定当前图像帧对应的目标对象信息。

示例性地，目标对象信息用于表征所述当前图像帧中包含的目标对象的实际情况。比如，当前图像帧是否包括目标对象，以及所包括的目标对象的数量等。

步骤20，基于当前图像帧对应的目标对象信息确定当前图像帧中的目标区域。

在一些实施例中，目标区域指的是目标对象对应的图像区域。

步骤30，识别目标区域中的第一特征。

示例性地，对当前图像帧中的目标区域进行特征识别，以得到第一特征。可以理解为，第一特征指的是能够表征当前图像帧中包括的目标对象的特征。

步骤40，确定当前图像帧之前的至少一幅历史图像帧各自对应的第二特征。

步骤40中提及的历史图像帧与步骤10中提及的当前图像帧之间存在时间维度的对应关系。具体地，在时间维度上，历史图像帧的拍摄时间早于当前图像帧的拍摄时间。

示例性地，对历史图像帧中的目标区域进行特征识别，以得到历史图像帧对应的第二特征。可以理解为，第二特征指的是能够表征历史图像帧中包括的目标对象的特征。比如，如果每一历史图像帧中均包括目标区域，且目标区域对应有目标对象，那么，基于历史图像帧能够确定历史图像帧中包括的目标对象所对应的第二特征。

示例性地，目标对象为可移动目标，比如行人、车辆等。

需要说明的是，第二特征的类型应当与第一特征的类型对应。比如，第一特征包括光流特征，那么第二特征亦包括光流特征。具体地，如果历史图像帧的数量为一幅，那么，第一特征和第二特征可以相同。如果历史图像帧的数量为多幅，那么，第二特征可以包括多幅图像帧对应的时序特征，而当前图像帧对应的第一特征是不包括时序特征的。比如，第一特征包括光流特征，第二特征包括光流特征和时序特征。

步骤50，基于第一特征和至少一幅历史图像帧各自对应的第二特征，预测目标对象在当前图像帧中的位置。

在实际应用过程中，首先基于当前图像帧确定当前图像帧对应的目标对象信息，基于当前图像帧对应的目标对象信息确定当前图像帧中的目标区域，并识别目标区域中的第一特征，然后确定当前图像帧之前的至少一幅历史图像帧各自对应的第二特征，并基于第一特征和至少一幅历史图像帧各自对应的第二特征，预测目标对象在当前图像帧中的位置。

图3所示为本公开另一示例性实施例提供的对目标对象进行预测的方法的流程示意图。在本公开图2所示实施例的基础上延伸出本公开图3所示实施例，下面着重叙述图3所示实施例与图2所示实施例的不同之处，相同之处不再赘述。

如图3所示，本公开实施例提供的对目标对象进行预测的方法还包括如下步骤。

步骤60，确定当前图像帧对应的第二特征，以便基于当前图像帧对应的第二特征确定目标对象跟踪在当前图像帧之后的未来图像帧中的位置。

如前所述，当前图像帧对应的第二特征，可以包括当前图像帧和当前图像帧之前的历史图像帧对应的时序特征。即，结合图2所示实施例提及的当前图像帧对应的第一特征、当前图像帧和当前图像帧之前的历史图像帧对应的时序特征，得到当前图像帧对应的第二特征。

本公开实施例能够为后续确定目标对象跟踪在当前图像帧之后的未来图像帧中的位置，提供前提条件。

图4所示为本公开一示例性实施例提供的确定当前图像帧对应的第二特征的流程示意图。在本公开图3所示实施例的基础上延伸出本公开图4所示实施例，下面着重叙述图4所示实施例与图3所示实施例的不同之处，相同之处不再赘述。

如图4所示，在本公开实施例提供的对目标对象进行预测的方法中，确定当前图像帧对应的第二特征步骤，包括如下步骤。

步骤61，基于当前图像帧中的目标区域生成当前图像帧对应的图像特征向量。

示例性地，利用图像特征提取模型，基于当前图像帧中包括的目标区域生成目标区域对应的图像特征向量。

需要说明的是，目标区域的尺寸和范围可根据目标对象的实际情况确定，只需目标区域包括目标对象即可。与利用图像特征提取模型，基于当前图像帧生成目标区域对应的图像特征向量相比，本公开实施例不但能够降低图像特征提取模型的计算量，而且能够提高所确定的图像特征向量的精准度。

示例性地，步骤61中提及的图像特征提取模型为深度神经网络(Deep NeuralNetwork,DNN)模型。由于DNN模型能够对上述提及的当前图像帧进行多领域特征(比如像素特征、光流特征等)的提取和融合操作，因此，本公开实施例能够提高目标区域对应的图像特征向量的多样性，进而进一步提高后续预测的精准度。

步骤62，基于当前图像帧对应的图像特征向量生成当前图像帧对应的第二特征。

示例性地，利用时序特征提取模型，基于当前图像帧对应的图像特征向量、当前图像帧之前的至少一幅历史图像帧对应的图像特征向量，生成第二特征。

示例性地，步骤62中提及的时序特征提取模型为长短期记忆(Long Short TermMemory,LSTM)模型。由于LSTM模型能够拟合序列数据，通过遗忘门和输出门忘记部分信息以解决梯度消失的问题，因此，利用LSTM模型能够拟合上述提及的当前图像帧对应的图像特征向量、当前图像帧之前的至少一幅历史图像帧对应的图像特征向量中的时序特征，进而使生成的第二特征中包括时序特征。

本公开实施例提供的对目标对象进行预测的方法，通过基于当前图像帧中的目标区域生成当前图像帧对应的图像特征向量，并基于当前图像帧对应的图像特征向量生成当前图像帧对应的第二特征的方式，实现了确定当前图像帧对应的第二特征的目的。由于本公开实施例基于图像特征提取模型生成当前图像帧中包括的目标区域对应的图像特征向量，并利用时序特征提取模型，基于当前图像帧对应的图像特征向量、当前图像帧之前的至少一幅历史图像帧对应的图像特征向量，生成第二特征，因此，所生成的第二特征中不但包括图像特征向量，而且还包括时序特征，进而为提高后续预测的精准度以及目标跟踪的精准度提供了前提条件。

图5所示为本公开一示例性实施例提供的基于当前图像帧中的目标区域生成当前图像帧对应的图像特征向量的流程示意图。在本公开图4所示实施例的基础上延伸出本公开图5所示实施例，下面着重叙述图5所示实施例与图4所示实施例的不同之处，相同之处不再赘述。

如图5所示，在本公开实施例提供的对目标对象进行预测的方法中，图像特征提取模型包括像素特征提取模型和移动特征提取模型。基于当前图像帧中的目标区域生成当前图像帧对应的图像特征向量步骤，包括如下步骤。

步骤611，基于当前图像帧包括的目标区域确定当前图像帧对应的像素特征。

示例性地，利用像素特征提取模型，基于当前图像帧包括的目标区域确定当前图像帧对应的像素特征。像素特征指的是基于图像像素的自身特性(比如亮度等)所确定的特征。

步骤612，基于当前图像帧包括的目标区域确定当前图像帧对应的移动特征。

示例性地，利用移动特征提取模型，基于当前图像帧包括的目标区域确定当前图像帧对应的移动特征。移动特征指的是基于图像像素的移动信息所确定的特征。

示例性地，移动特征为光流特征。由于光流特征中不仅携带了目标对象的动态信息，而且还携带了目标区域中的场景信息，因此，无需对目标区域中的场景信息进行识别即可确定目标对象的动态信息。因此，本公开实施例能够进一步缩短确定移动特征的时间，进而进一步提高预测实时性。

步骤613，根据像素特征和移动特征，确定当前图像帧对应的图像特征向量。

示例性地，根据像素特征和移动特征，确定当前图像帧中的目标区域对应的图像特征向量。可选地，利用相应的全连接层，基于像素特征和移动特征生成目标区域对应的图像特征向量。

本公开实施例提供的对目标对象进行预测的方法，通过基于当前图像帧包括的目标区域确定当前图像帧对应的像素特征，并基于当前图像帧包括的目标区域确定当前图像帧对应的移动特征，然后根据像素特征和移动特征，确定当前图像帧对应的图像特征向量的方式，实现了基于当前图像帧中的目标区域生成当前图像帧对应的图像特征向量的目的。由于所确定的图像特征向量中不仅包括目标区域对应的像素特征，而且还包括目标区域对应的移动特征，因此，本公开实施例能够进一步提高图像特征向量的特征信息量，进而进一步提高后续预测的精准度。

需要说明的是，上述实施例中提及的图像特征向量中所包括的具体特征信息可依据实际情况确定，不局限于上述实施例中提及的像素特征和移动特征。

图6所示为本公开另一示例性实施例提供的基于当前图像帧中的目标区域生成当前图像帧对应的图像特征向量的流程示意图。在本公开图5所示实施例的基础上延伸出本公开图6所示实施例，下面着重叙述图6所示实施例与图5所示实施例的不同之处，相同之处不再赘述。

如图6所示，在本公开实施例提供的对目标对象进行预测的方法中，当前图像帧中包括的目标区域的数量为至少两个，并且图像特征提取模型还包括交互特征提取模型。基于当前图像帧中的目标区域生成当前图像帧对应的图像特征向量步骤，还包括如下步骤。

步骤614，基于当前图像帧包括的目标区域生成当前图像帧对应的交互特征。

示例性地，交互特征指的是当前图像帧中包括的多个目标区域之间的关联特征。

并且，在本公开实施例提供的对目标对象进行预测的方法中，根据像素特征和移动特征，确定当前图像帧对应的图像特征向量步骤，包括如下步骤。

步骤6131，根据像素特征、移动特征和交互特征，确定当前图像帧对应的图像特征向量。

本公开实施例提供的对目标对象进行预测的方法，通过基于当前图像帧包括的目标区域确定当前图像帧对应的像素特征，基于当前图像帧包括的目标区域确定当前图像帧对应的移动特征，并基于当前图像帧包括的目标区域生成当前图像帧对应的交互特征，继而根据像素特征、移动特征和交互特征，确定当前图像帧对应的图像特征向量的方式，实现了基于当前图像帧中的目标区域生成当前图像帧对应的图像特征向量的目的。与图5所示实施例相比，由于本公开实施例在图像特征向量中加入了交互特征，因此，本公开实施例能够顾及当前图像帧中包括的多个目标区域之间的关联特征，进而进一步提高图像特征向量的特征信息量，并进一步提高后续预测的精准度。

下面结合具体实施例描述根据像素特征、移动特征和交互特征，确定当前图像帧对应的图像特征向量步骤的实现方式。

图7所示为本公开一示例性实施例提供的图像特征向量的生成示意图。如图7所示，在本公开实施例中，像素特征41表征上述提及的像素特征，光流特征42表征上述提及的移动特征，交互特征43表征上述提及的交互特征，并且图像特征向量45表征上述提及的图像特征向量。

在实际应用过程中，将像素特征41、光流特征42和交互特征43输入至全连接层44进行拼接融合操作，以生成图像特征向量45。至此，本公开实施例实现根据像素特征、移动特征和交互特征，确定当前图像帧对应的图像特征向量的目的。

图8所示为本公开一示例性实施例提供的基于当前图像帧包括的目标区域生成当前图像帧对应的交互特征的流程示意图。在本公开图6所示实施例的基础上延伸出本公开图8所示实施例，下面着重叙述图8所示实施例与图6所示实施例的不同之处，相同之处不再赘述。

如图8所示，在本公开实施例提供的对目标对象进行预测的方法中，基于当前图像帧包括的目标区域生成当前图像帧对应的交互特征步骤，包括如下步骤。

步骤6141，对当前图像帧进行图像分割操作，以生成多个图像块。

示例性地，利用交互特征提取模型，对当前图像帧进行图像分割操作，以生成多个图像块。

在步骤6141中，所生成的图像块的尺寸和数量可根据当前图像帧和当前图像帧中所包括的目标对象的实际情况确定。

步骤6142，将当前图像帧包括的目标区域的中心区域对应的图像块的图像值设置为第一数值，中心区域之外的其他图像块的图像值设置为第二数值。

示例性地，利用交互特征提取模型，将历史图像帧中的目标区域的中心区域对应的图像块设置为第一数值，中心区域之外的其他图像块设置为第二数值。示例性地，第一数值为0，第二数值为1。

可选地，目标区域的中心区域的具体范围可根据目标区域和目标区域所包括的目标对象的实际情况确定。

步骤6143，根据第一数值对应的图像块和第二数值对应的图像块，生成当前图像帧对应的交互特征。

本公开实施例提供的对目标对象进行预测的方法，通过对当前图像帧进行图像分割操作，以生成多个图像块，将当前图像帧包括的目标区域的中心区域对应的图像块的图像值设置为第一数值，中心区域之外的其他图像块的图像值设置为第二数值，并根据第一数值对应的图像块和第二数值对应的图像块，生成当前图像帧对应的交互特征的方式，实现了基于当前图像帧包括的目标区域生成当前图像帧对应的交互特征的目的。与现有技术相比，由于本公开实施例提及的生成交互特征的方式无需对图像帧进行复杂的图像分析操作，因此，不但保证了图像特征向量的特征信息量，而且进一步提高了预测实时性。

下面结合具体实施例描述图8所示实施例提及的交互特征的生成方式。

图9a所示为本公开一示例性实施例提供的当前图像帧的示意图。图9b所示为本公开一示例性实施例提供的当前图像帧对应的交互特征示意图。具体地，图9b所示为图9a所示的当前图像帧对应的交互特征示意图。

如图9a所示，在本公开实施例中，当前图像帧中包括两个目标区域(即黑色框线框定的区域)，并且每个目标区域中均包括一个目标对象(即行人)。

在实际应用过程中，将每一目标区域的中心区域对应的图像块设置为1，中心区域之外的其他图像块设置为0，即生成如图9b所示的交互特征示意图。

图10所示为本公开一示例性实施例提供的根据第一数值对应的图像块和第二数值对应的图像块，生成当前图像帧对应的交互特征的流程示意图。在本公开图8所示实施例的基础上延伸出本公开图10所示实施例，下面着重叙述图10所示实施例与图8所示实施例的不同之处，相同之处不再赘述。

如图10所示，在本公开实施例提供的对目标对象进行预测的方法中，根据第一数值对应的图像块和第二数值对应的图像块，生成当前图像帧对应的交互特征步骤，包括如下步骤。

步骤61431，基于当前图像帧包括的目标区域生成包围第一数值对应的图像块的图像框。

示例性地，基于目标区域与当前图像帧的交界线生成包围第一数值对应的图像块的图像框。即，交界线与图像框的框线重合。

步骤61432，将与图像框存在交叠关系的图像块的图像值设置为第三数值。

第三数值的具体取值可根据实际情况确定，只要第三数值不与第二数值相同即可。

步骤61433，基于第三数值对应的图像块裁剪当前图像帧，以生成当前图像帧对应的交互特征。

示例性地，以第三数值对应的图像块的远离目标对象的边界线作为裁剪线裁剪历史图像帧，以生成当前图像帧对应的交互特征。

由于本公开实施例裁掉了与目标区域无关的部分，因此，能够强化目标区域之间的影响力，进而提高所生成的交互特征的精准度。

图11所示为本公开一示例性实施例提供的基于第一特征和至少一幅历史图像帧各自对应的第二特征，预测目标对象在当前图像帧中的位置的流程示意图。在本公开图2所示实施例的基础上延伸出本公开图11所示实施例，下面着重叙述图11所示实施例与图2所示实施例的不同之处，相同之处不再赘述。

如图11所示，在本公开实施例提供的对目标对象进行预测的方法中，基于第一特征和至少一幅历史图像帧各自对应的第二特征，预测目标对象在当前图像帧中的位置步骤，包括如下步骤。

步骤51，基于第一特征和第二特征，确定当前图像帧包括的目标对象与至少一幅历史图像帧包括的目标对象之间的相似度值。

步骤52，基于相似度值预测至少一幅历史图像帧包括的目标对象在当前图像帧中的位置。

示例性地，当当前图像帧包括的目标对象和至少一幅历史图像帧包括的目标对象之间的相似度值超过预设相似度阈值时，则确定至少一幅历史图像帧包括的目标对象与当前图像帧包括的目标对象之间存在匹配关系(可以理解为是同一目标对象)，进而基于相似度值预测至少一幅历史图像帧包括的目标对象在当前图像帧中的位置。

本公开实施例提供的对目标对象进行预测的方法，通过基于第一特征和第二特征，确定当前图像帧包括的目标对象与至少一幅历史图像帧包括的目标对象之间的相似度值，并基于相似度值预测至少一幅历史图像帧包括的目标对象在当前图像帧中的位置的方式，实现了基于第一特征和至少一幅历史图像帧各自对应的第二特征，预测目标对象在当前图像帧中的位置的目的。由于本公开实施例将目标对象的预测问题转换为计算相似度值的问题，因此，本公开实施例无需对当前图像帧包括的目标对象与至少一幅历史图像帧包括的目标对象进行复杂的图像处理与像素匹配操作，进一步提高了预测实时性，并且进一步提高了预测精准度，进而为进一步提高目标跟踪的精准度提供了前提条件。

在图11所示实施例基础上延伸出本公开另一实施例。具体地，在本公开实施例中，基于相似度值预测至少一幅历史图像帧包括的目标对象在当前图像帧中的位置，包括：如果相似度值落入预设相似度范围，则确定当前图像帧中的目标对象和至少一幅历史图像帧中的目标对象为同一目标对象，当前图像帧中的目标对象的位置为至少一幅历史图像帧中的目标对象在当前图像帧中的位置；如果相似度值未落入预设相似度范围，则确定至少一幅历史图像帧中的目标对象已离开跟踪范围。基于此，本公开实施例能够进一步提高预测的精准度，降低误匹配的几率。

示例性装置

图12所示为本公开一示例性实施例提供的对目标对象进行预测的装置的结构示意图。如图12所示，本公开实施例提供的对目标对象进行预测的装置包括：

第一确定模块100，用于基于当前图像帧确定当前图像帧对应的目标对象信息；

第二确定模块200，用于基于当前图像帧对应的目标对象信息确定当前图像帧中的目标区域；

识别模块300，用于识别目标区域中的第一特征；

第二确定模块400，用于确定当前图像帧之前的至少一幅历史图像帧各自对应的第二特征；

预测模块500，用于基于第一特征和至少一幅历史图像帧各自对应的第二特征，预测目标对象在当前图像帧中的位置。

图13所示为本公开另一示例性实施例提供的对目标对象进行预测的装置的结构示意图。在本公开图12所示实施例的基础上延伸出本公开图13所示实施例，下面着重叙述图13所示实施例与图12所示实施例的不同之处，相同之处不再赘述。

如图13所示，本公开实施例提供的对目标对象进行预测的装置还包括：

第四确定模块600，用于确定当前图像帧对应的第二特征，以便基于当前图像帧对应的第二特征确定目标对象跟踪在当前图像帧之后的未来图像帧中的位置。

图14所示为本公开一示例性实施例提供的第四确定模块的结构示意图。在本公开图13所示实施例的基础上延伸出本公开图14所示实施例，下面着重叙述图14所示实施例与图13所示实施例的不同之处，相同之处不再赘述。

如图14所示，在本公开实施例提供的对目标对象进行预测的装置中，第四确定模块600包括：

图像特征向量生成单元610，用于基于当前图像帧中的目标区域生成当前图像帧对应的图像特征向量；

第二特征生成单元620，用于基于当前图像帧对应的图像特征向量生成当前图像帧对应的第二特征。

图15所示为本公开一示例性实施例提供的图像特征向量生成单元的结构示意图。在本公开图14所示实施例的基础上延伸出本公开图15所示实施例，下面着重叙述图15所示实施例与图14所示实施例的不同之处，相同之处不再赘述。

如图15所示，在本公开实施例提供的对目标对象进行预测的装置中，图像特征向量生成单元610包括：

像素特征确定子单元6110，用于基于当前图像帧包括的目标区域确定当前图像帧对应的像素特征；

移动特征确定子单元6120，用于基于当前图像帧包括的目标区域确定当前图像帧对应的移动特征；

图像特征向量确定子单元6130，用于根据像素特征和移动特征，确定当前图像帧对应的图像特征向量。

图16所示为本公开另一示例性实施例提供的图像特征向量生成单元的结构示意图。在本公开图15所示实施例的基础上延伸出本公开图16所示实施例，下面着重叙述图16所示实施例与图15所示实施例的不同之处，相同之处不再赘述。

如图16所示，在本公开实施例提供的对目标对象进行预测的装置中，图像特征向量生成单元610还包括：

交互特征确定子单元6140，用于基于当前图像帧包括的目标区域生成当前图像帧对应的交互特征。

并且，在本公开实施例提供的对目标对象进行预测的装置中，图像特征向量确定子单元6130包括：

确定子单元61310，用于根据像素特征、移动特征和交互特征，确定当前图像帧对应的图像特征向量。

图17所示为本公开一示例性实施例提供的交互特征确定子单元的结构示意图。在本公开图16所示实施例的基础上延伸出本公开图17所示实施例，下面着重叙述图17所示实施例与图16所示实施例的不同之处，相同之处不再赘述。

如图17所示，在本公开实施例提供的对目标对象进行预测的装置中，交互特征确定子单元6140包括：

图像块生成子单元61410，用于对当前图像帧进行图像分割操作，以生成多个图像块；

第一数值和第二数值确定子单元61420，用于将当前图像帧包括的目标区域的中心区域对应的图像块的图像值设置为第一数值，中心区域之外的其他图像块的图像值设置为第二数值；

生成子单元61430，用于根据第一数值对应的图像块和第二数值对应的图像块，生成当前图像帧对应的交互特征。

图18所示为本公开一示例性实施例提供的生成子单元的结构示意图。在本公开图17所示实施例的基础上延伸出本公开图18所示实施例，下面着重叙述图18所示实施例与图17所示实施例的不同之处，相同之处不再赘述。

如图18所示，在本公开实施例提供的对目标对象进行预测的装置中，生成子单元61430包括：

图像框生成子单元614310，用于基于当前图像帧包括的目标区域生成包围第一数值对应的图像块的图像框；

第三数值确定子单元614320，用于将与图像框存在交叠关系的图像块的图像值设置为第三数值；

交互特征生成子单元614330，用于基于第三数值对应的图像块裁剪当前图像帧，以生成当前图像帧对应的交互特征。

图19所示为本公开一示例性实施例提供的预测模块的结构示意图。在本公开图13所示实施例的基础上延伸出本公开图19所示实施例，下面着重叙述图19所示实施例与图13所示实施例的不同之处，相同之处不再赘述。

如图19所示，在本公开实施例提供的对目标对象进行预测的装置中，预测模块500包括：

相似度确定单元510，用于基于第一特征和第二特征，确定当前图像帧包括的目标对象与至少一幅历史图像帧包括的目标对象之间的相似度值；

预测单元520，用于基于相似度值预测至少一幅历史图像帧包括的目标对象在当前图像帧中的位置。

应当理解，图12至图19提供的对目标对象进行预测的装置中的第一确定模块100、第二确定模块200、识别模块300、第二确定模块400、预测模块500和第四确定模块600，以及预测模块500中包括的相似度确定单元510和预测单元520，以及第四确定模块600中包括的图像特征向量生成单元610和第二特征生成单元620，以及图像特征向量生成单元610中包括的像素特征确定子单元6110、移动特征确定子单元6120、图像特征向量确定子单元6130和交互特征确定子单元6140，以及图像特征向量确定子单元6130中包括的确定子单元61310，以及交互特征确定子单元6140中包括的图像块生成子单元61410、第一数值和第二数值确定子单元61420和生成子单元61430，以及生成子单元61430中包括的图像框生成子单元614310、第三数值确定子单元614320和交互特征生成子单元614330的操作和功能可以参考上述图2至图11提供的对目标对象进行预测的方法，为了避免重复，在此不再赘述。

示例性电子设备

下面，参考图20来描述根据本公开实施例的电子设备。图20所示为本公开一示例性实施例提供的电子设备的结构示意图。

如图20所示，电子设备70包括一个或多个处理器701和存储器702。

处理器701可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备70中的其他组件以执行期望的功能。

存储器702可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器701可以运行所述程序指令，以实现上文所述的本公开的各个实施例的对目标对象进行预测的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如目标区域对应的图像特征向量等各种内容。

在一个示例中，电子设备70还可以包括：输入装置703和输出装置704，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入装置703可以包括例如键盘、鼠标等等。

该输出装置704可以向外部输出各种信息，包括预测信息等。该输出装置704可以包括例如显示器、通信网络及其所连接的远程输出设备等等。

当然，为了简化，图20中仅示出了该电子设备70中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备70还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的对目标对象进行预测的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的对目标对象进行预测的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种对目标对象进行预测的方法，包括：

基于当前图像帧确定所述当前图像帧对应的目标对象信息，其中，所述目标对象信息用于表征所述当前图像帧中包含的目标对象的实际情况；

基于所述当前图像帧对应的目标对象信息确定所述当前图像帧中的目标区域；

识别所述目标区域中的第一特征；

确定所述当前图像帧之前的至少一幅历史图像帧各自对应的第二特征；

基于所述第一特征和所述至少一幅历史图像帧各自对应的第二特征，预测目标对象在所述当前图像帧中的位置。

2.根据权利要求1所述的方法，其中，还包括：

确定所述当前图像帧对应的第二特征，以便基于所述当前图像帧对应的第二特征确定所述目标对象跟踪在所述当前图像帧之后的未来图像帧中的位置。

3.根据权利要求1所述的方法，其中，所述确定所述当前图像帧对应的第二特征，包括：

基于所述当前图像帧中的目标区域生成所述当前图像帧对应的图像特征向量；

基于所述当前图像帧对应的图像特征向量生成所述当前图像帧对应的第二特征。

4.根据权利要求3所述的方法，其中，所述基于所述当前图像帧中的目标区域生成所述当前图像帧对应的图像特征向量，包括：

基于所述当前图像帧包括的目标区域确定所述当前图像帧对应的像素特征；

基于所述当前图像帧包括的目标区域确定所述当前图像帧对应的移动特征；

根据所述像素特征和所述移动特征，确定所述当前图像帧对应的图像特征向量。

5.根据权利要求4所述的方法，其中，所述当前图像帧包括的目标区域的数量为至少两个，在所述根据所述像素特征和所述移动特征，确定所述当前图像帧对应的图像特征向量之前，还包括：

基于所述当前图像帧包括的目标区域生成所述当前图像帧对应的交互特征；

其中，所述根据所述像素特征和所述移动特征，确定所述当前图像帧对应的图像特征向量，包括：

根据所述像素特征、所述移动特征和所述交互特征，确定所述当前图像帧对应的图像特征向量。

6.根据权利要求5所述的方法，其中，所述基于所述当前图像帧包括的目标区域生成所述当前图像帧对应的交互特征，包括：

对所述当前图像帧进行图像分割操作，以生成多个图像块；

将所述当前图像帧包括的目标区域的中心区域对应的图像块的图像值设置为第一数值，中心区域之外的其他图像块的图像值设置为第二数值；

根据所述第一数值对应的图像块和所述第二数值对应的图像块，生成所述当前图像帧对应的交互特征。

7.根据权利要求1至6任一所述的方法，其中，所述基于所述第一特征和所述至少一幅历史图像帧各自对应的第二特征，预测目标对象在所述当前图像帧中的位置，包括：

基于所述第一特征和所述第二特征，确定所述当前图像帧包括的目标对象与所述至少一幅历史图像帧包括的目标对象之间的相似度值；

基于所述相似度值预测所述至少一幅历史图像帧包括的目标对象在所述当前图像帧中的位置。

8.一种对目标对象进行预测的装置，包括：

第一确定模块，用于基于当前图像帧确定所述当前图像帧对应的目标对象信息，其中，所述目标对象信息用于表征所述当前图像帧中包含的目标对象的实际情况；

第二确定模块，用于基于所述当前图像帧对应的目标对象信息确定所述当前图像帧中的目标区域；

识别模块，用于识别所述目标区域中的第一特征；

第三确定模块，用于确定所述当前图像帧之前的至少一幅历史图像帧各自对应的第二特征；

预测模块，用于基于所述第一特征和所述至少一幅历史图像帧各自对应的第二特征，预测目标对象在所述当前图像帧中的位置。

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的对目标对象进行预测的方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行上述权利要求1-7任一所述的对目标对象进行预测的方法。