CN112422772A

CN112422772A - 图像获取方法、图像获取装置、终端设备及可读存储介质

Info

Publication number: CN112422772A
Application number: CN202011147470.2A
Authority: CN
Inventors: 刘业鹏; 程骏; 曾钰胜; 顾景; 庞建新
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-02-26
Anticipated expiration: 2040-10-23
Also published as: CN112422772B

Abstract

本申请提供了一种图像获取方法、图像获取装置、终端设备及可读存储介质。该方法包括：对视频中的基准视频帧进行目标检测，基准视频帧为视频中指定的视频帧；若检测到基准视频帧中包含有目标对象，则：基于检测到的目标对象在基准视频帧中的位置信息，对目标对象进行目标追踪，以确定目标对象的轨迹信息，轨迹信息用于指示视频中包含目标对象的各个视频帧，其中，轨迹信息所指示的包含目标对象的各个视频帧个数为N；从轨迹信息所指示的包含目标对象的各个视频帧中，选取M个视频帧，根据M个视频帧获取包含目标对象的图像。本申请能够在一定程度上解决传统的图像获取方式导致存储空间存储大量冗余图像的技术问题。

Description

图像获取方法、图像获取装置、终端设备及可读存储介质

技术领域

本申请属于目标检测技术领域，尤其涉及一种图像获取方法、图像获取装置、终端设备及计算机可读存储介质。

背景技术

目前，在很多应用领域中，都需要从视频中获取包含感兴趣目标对象的图像，其中，感兴趣目标对象可以是人脸、动物和/或植物等。比如在视频监控领域，需要从监控摄像头所采集的视频流中，获取各张人脸图像，以便于云端安保系统对各个人脸图像进行人脸识别和/或人脸属性分析，从而找到可疑人员，保证社会安全。

目前常用的获取包含目标对象的图像的方法为：对视频中的每个视频帧进行目标检测，以判断每一个视频帧是否包含目标对象，一旦检测到某个视频帧包含有目标对象，就获取包含该目标对象的图像。

显然，当大量的视频帧都包含有同一目标对象时，采用这种传统的方式会获取大量的包含同一目标对象的图像，这无疑会使得存储空间存储大量的冗余图像。

发明内容

由此可见，本申请实施例提供了一种图像获取方法、图像获取装置、终端设备及计算机可读存储介质，能够在一定程度上解决传统的图像获取方式导致存储空间存储大量冗余图像的技术问题。

本申请实施例的第一方面提供了一种图像获取方法，包括：

对视频中的基准视频帧进行目标检测，所述基准视频帧为视频中指定的视频帧；

若检测到所述基准视频帧中包含有目标对象，则：

基于检测到的所述目标对象在所述基准视频帧中的位置信息，对所述目标对象进行目标追踪，以确定所述目标对象的轨迹信息，所述轨迹信息用于指示所述视频中包含所述目标对象的各个视频帧，其中，所述轨迹信息所指示的包含所述目标对象的各个视频帧个数为N；

从所述轨迹信息所指示的包含所述目标对象的各个视频帧中，选取M个视频帧，根据所述M个视频帧获取包含目标对象的图像，其中，所述包含目标对象的图像为视频帧对应的图像，或者，为视频帧中包含所述目标对象的区域所对应的图像，所述包含目标对象的图像的个数小于或等于M，1<M<N。

本申请实施例的第二方面提供了一种终端设备，包括存储器、处理器以及存储在该存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上述第一方面所述方法的步骤。

本申请实施例的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如上述第一方面所述方法的步骤。

本申请实施例的第四方面提供了一种图像获取装置，包括：

目标检测模块，用于对视频中的基准视频帧进行目标检测,所述基准视频帧为视频中指定的视频帧；

目标追踪模块，用于若检测到该基准视频帧中包含有目标对象，则基于检测到的上述目标对象在该基准视频帧中的位置信息，对该目标对象进行目标追踪，以确定该目标对象的轨迹信息，该轨迹信息用于指示上述视频中包含该目标对象的各个视频帧，其中，该轨迹信息所指示的包含该目标对象的各个视频帧个数为N；

图像获取模块，用于从所述轨迹信息所指示的包含所述目标对象的各个视频帧中，选取M个视频帧，根据所述M个视频帧获取包含目标对象的图像，其中，所述包含目标对象的图像为视频帧对应的图像，或者，为视频帧中包含所述目标对象的区域所对应的图像，所述包含目标对象的图像的个数小于或等于 M，1<M<N。

本申请实施例的第五方面提供了一种计算机程序产品，上述计算机程序产品包括计算机程序，上述计算机程序被一个或多个处理器执行时实现如上述第一方面上述方法的步骤。

由上可见，本申请提供了一种图像获取方法。该图像获取方法包括如下步骤：对视频中的基准视频帧进行目标检测(其中，该基准视频帧可以是该视频中的任意一个视频帧)；若在该基准视频帧中检测到目标对象，则对该目标对象进行目标追踪(在执行目标追踪算法时，可以基于所述视频中各个视频帧的播放顺序进行，比如，从前往后进行目标追踪，或者从后往前进行目标追踪)，从而确定该目标对象的轨迹信息，其中，该轨迹信息用于指示包含该目标对象的各个视频帧；在确定出轨迹信息之后，基于该轨迹信息所指示的各个视频帧，从该各个视频帧中选取M个视频帧，然后根据所述M个视频帧获取包含目标对象的图像，其中，所述包含目标对象的图像为视频帧对应的图像，或者，为视频帧中包含所述目标对象的区域所对应的图像，所述包含目标对象的图像的个数小于或等于M，1<M<N。

由此可见，本申请所提供的技术方案中，会对目标对象进行追踪，确定该目标对象所存在的各个视频帧，当有多个视频帧均包含同一目标对象时，最终获取的包含该目标对象的图像的数量，要少于包含该目标对象的视频帧的个数。显然，本申请所提供的方法中，当大量的视频帧包含同一目标对象时，不会像传统的方法一样，从每个视频帧中均获取包含目标对象的图像，所以，本申请所提供的技术方案相比于传统的方案，能够节约存储空间，解决了传统的图像获取方式导致存储空间存储大量冗余图像的技术问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例。

图1是本申请实施例一提供的一种图像获取方法的流程示意图；

图2是本申请实施例一提供的用于进行目标检测的神经网络模型的结构示意图；

图3是本申请实施例一提供的一种目标追踪算法的流程示意图；

图4是本申请实施例一提供的一种对基准视频帧中各个目标对象进行追踪的应用场景示意图；

图5是本申请实施例二提供的另一种图像获取方法的流程示意图；

图6是本申请实施例三提供的再一种图像获取方法的流程示意图；

图7是本申请实施例四提供的一种应用场景示意图；

图8是本申请实施例五提供的一种图像获取装置的结构示意图；

图9是本申请实施例六提供的一种终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

本申请实施例提供的图像获取方法可以适用于终端设备，比如，轮式巡检机器人、智能手机或者台式机等。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

另外，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

为了说明本申请上述的技术方案，下面通过具体实施例来进行说明。

实施例一

下面对本申请实施例一提供的一种图像获取方法进行描述，请参阅附图1，该图像获取方法包括：

在步骤S101中，对视频中的基准视频帧进行目标检测，该基准视频帧为视频中指定的视频帧。

在本申请实施例所提供的技术方案中，需要获取上述视频所包含的各个视频帧，基于各个视频帧进行目标检测以及目标追踪。其中，上述基准视频帧可以是上述视频中指定的任意一帧视频帧，比如，基准视频帧可以为视频中的第一帧图像。当然，当检测的目标对象不同，其对应的基准视频帧也会不同。

在本申请实施例中，上述视频所包含的视频帧的获取方法可以为：对该视频中所包含的初始视频帧进行预处理，从而得到该视频所包含的视频帧。但是本领域技术人员应该理解，也可以不执行预处理操作，直接将初始视频帧确定为视频帧。其中，上述预处理算法可以包括以下三种算法的至少一个(并不排除也可以包括除以下三种算法之外的其他算法)：

算法1、将初始视频帧中的各个像素点减去像素均值(该像素均值即为初始视频帧中所有像素点的像素值平均值，在减去像素均值之后，由于视频帧的像素值的大小较小，所以，可以在一定程度上提高后续目标检测以及目标追踪的运算效率)。

算法2、将初始视频帧的图像尺寸转换为预设尺寸大小。

算法3、当初始视频帧为亮度色度(Luma and Chroma)格式时，将亮度色度格式的初始视频帧转换为RGB(Red Green Blue，红绿蓝)格式。

在本申请实施例中，若后续所采用的目标检测以及目标追踪算法只能对某一特定尺寸的视频帧做处理时，上述预处理算法中需包括上述算法2。若后续所采用的目标检测以及目标追踪算法只能对RGB格式的视频帧做处理时，上述预处理算法需包括上述算法3。

此外，在本申请实施例中，若上述视频为采用预设协议(比如，实时流传输协议)传输的已编码视频时，上述初始视频帧需要基于该预设协议，以及与所采纳的编码算法对应的解码算法来得到。

另外，本领域技术人员应该注意，若本申请实施例一该的图像获取方法应用于终端设备，则在上述步骤S101在该终端设备运行时，上述视频不一定已经完全存储至该终端设备中，也即是，该视频可以是该终端设备实时接收的视频流，该终端设备可以边接收该视频流，边执行本申请实施例一的图像获取方法。也即是本申请并不限定上述视频是否已经完全存储至该终端设备中。

在本申请实施例中，上述步骤S101可以包括：

基于训练后的神经网络模型，对上述视频中的上述基准视频帧进行目标检测，其中，该神经网络模型由可分离卷积模块以及上下文模块构成，该上下文模块由多个包含用于卷积的卷积核的分支并联构成，其中，任意两个分支的卷积核的大小不同。

上述神经网络模型包括可分离卷积模块，可以使得该神经网络模型在进行目标检测时速度更快。上述神经网络模型还包括多个分支并联的上下文模块，且任意两个分支的卷积核大小不同，在这种情况下，由于任意两个分支卷积核的作用范围大小不同，因此，可以提升该神经网络模型目标检测的准确度。此外，上述神经网络模型可以为轻量级神经网络，从而占据更小的存储空间，且可以进一步提高目标检测速度。

如图2所示，给出了上述神经网络模型的具体结构，在附图2中，该神经网络模型由3个可分离卷积模块和上下文模块依次级联构成，该上下文模块包括相互并联的三个分支，分别包括卷积核A、卷积核B以及卷积核C，第一个分支的卷积核A大小为7*7，第二个分支的卷积核B大小为5*5，第三个分支的卷积核C大小为3*3，该三个分支起到特征融合的作用。

虽然本申请提供了一种具体的目标检测算法，但该步骤S101可以采用现有技术中已知的其他目标检测算法，本申请并不对该目标检测算法进行具体限定。

在步骤S102中，若检测到上述基准视频帧中包含有目标对象，则基于检测到的上述目标对象在上述基准视频帧中的位置信息，对上述目标对象进行目标追踪，以确定该目标对象的轨迹信息，该轨迹信息用于指示上述视频中包含该目标对象的各个视频帧，其中，该轨迹信息所指示的包含该目标对象的各个视频帧的个数为N。

在本申请实施例中，需要采用目标追踪算法对上述基准视频帧中的目标对象进行追踪，从而确定上述视频中有哪些视频帧包含有该目标对象。具体的目标追踪算法可以采用现有技术中已知的算法，本申请对此不作具体限定。

此外，若步骤S101检测到多个目标对象，则在该步骤S102中，可以分别对各个目标对象进行追踪，从而分别确定各个目标对象的轨迹信息。

下面基于附图3来描述该步骤S102的一种具体实施方式，该附图3所提供的目标追踪算法，在进行目标追踪时，同时结合了目标检测算法，从而能够更加准确地判断某一视频帧是否真的包含有待追踪的目标对象。

如图3所示，该步骤S102可以包括如下步骤：

在步骤S1021中，基于目标检测算法所检测到的位于上述基准视频帧中的目标对象的位置信息，预测该目标对象在追踪视频帧的位置信息L_pre，其中该追踪视频帧为位于该基准视频帧之后，且与该基准视频帧间隔预设帧数的视频帧。

该附图3所阐述的目标追踪算法中，是以首帧图像作为基准视频帧，然后对该基准视频帧之后的图像进行追踪，然而，本领域技术人员应该能够理解，也可以以上述基准视频帧为尾帧图像，然后对该基准视频帧之前的图像进行追踪(本领域技术人员容易理解，在这种情况下，视频需完全下载至终端设备，此外，从后往前追踪的方案属于附图3中方案的等同技术方案，也在本申请的保护范围之内)。

此外，位置信息的预测方法可以采用卡尔曼Kalman滤波算法，但并不局限于Kalman滤波算法。

以下基于附图4来详细阐述附图3给出的目标追踪算法。

如图4所示，假设该基准视频帧为上述视频的第一帧图像，上述预设帧数为2，且在步骤S101中，检测到该基准视频帧包括两个目标对象，分别为目标对象A以及目标对象B。则在该步骤S1021中，需要预测目标对象A以及目标对象B分别在第三帧的位置信息。

此外，本领域技术人员容易理解，在附图4所示的例子中，在预测目标对象A以及目标对象B分别在第三帧的位置信息时，可以先预测目标对象A以及目标对象B分别在第二帧的位置信息，对于目标对象A来说，基于预测的该目标对象A在第二帧的位置信息，进一步预测该目标对象A在第三帧的位置信息，同理得到该目标对象B在第三帧的位置信息。但是本领域技术人员应该理解，也可以不以第二帧为过渡，直接预测目标对象A以及目标对象B分别在第三帧的位置信息。如图4所示，所预测的目标对象A以及目标对象B分别在第三帧的位置信息如虚线方框所示。

在步骤S1022中，对上述追踪视频帧进行目标检测，若检测到该追踪视频帧中包括目标对象，则得到检测到的该追踪视频帧包含的每个目标对象的位置信息L_det。

在该步骤中，需要再次进行目标检测，本申请对此处所采用的目标检测算法不作具体限定，可以采用与步骤S101相同的目标检测算法，也可以不同。

在附图4所示的例子中，需要对该第三帧进行目标检测，如图4所示，检测到第三帧包含3个目标对象，分别对应的位置信息如图4中的圆框1、圆框2 以及圆框3所示。

在步骤S1023中，基于上述L_pre，以及每个L_det，确定匹配结果，其中，该匹配结果用于指示L_pre与每个L_det是否匹配。

在该步骤S1023中，对于基准视频帧所检测到的每一个目标对象来说，均需执行如下步骤：基于该目标对象所对应的L_pre，确定匹配结果，该匹配结果用于指示该L_pre与每个L_det是否匹配。

在附图4所示的例子中，对于目标对象A来说，需要确定目标对象A的匹配结果，该匹配结果用于指示该目标对象A所对应的虚线方框与各个圆框是否匹配。对于目标对象B来说，需要确定目标对象B的匹配结果，该匹配结果用于指示该目标对象B所对应的虚线方框与各个圆框是否匹配。

该步骤S1023可以包括如下步骤：

基于L_pre，计算该L_pre所指示的位于该追踪视频帧的图像区域的特征向量，并基于每个L_det，计算该L_det所指示的位于该追踪视频帧的图像区域的特征向量。

计算该L_pre所对应的特征向量，分别与每个L_det所对应的特征向量的余弦距离。

基于每个L_det，确定用于衡量该L_det与该L_pre的位置远近的远近信息，其中，该远近信息可以为马氏距离(Mahalanobis distance)或者IOU(Intersection over Union，交并比)等。

基于每个余弦距离以及每个远近信息，确定用于指示L_pre与每个L_det是否匹配的匹配结果，具体可以基于每个余弦距离以及每个远近信息，计算匈牙利算法(Hungarianalgorithm)所需的代价矩阵，然后基于匈牙利算法，确定匹配结果。

也即是，对于目标对象A来说，需要计算第三帧中虚线方框A的特征向量，并且计算该虚线方框A的特征向量与圆框1的特征向量的余弦距离、该虚线方框A的特征向量与圆框2的特征向量的余弦距离以及该虚线方框A的特征向量与圆框3的特征向量的余弦距离。此外，还需要计算各个远近信息，以IOU为例来说明的话，则需要计算虚线方框A与圆框1的IOU、该虚线方框A与圆框 2的IOU以及该虚线方框A与圆框3的IOU。然后可以基于各个余弦距离以及各个IOU，计算代价矩阵，基于匈牙利算法确定与各个圆框与虚线方框A是否匹配。

同理，对于目标对象B来说，确定各个圆框与虚线方框B是否匹配，具体算法此处不再赘述。

此外，匹配结果的具体计算方式并不局限于必须基于余弦距离以及远近信息来确定。也可以仅仅依据余弦距离或者远近信息来确定，当然也可以依据其他算法(比如，对于目标对象A来说，确定虚线方框A中像素值的分布，并确定各个圆框的像素值分别，基于分布的相似度来确定匹配结果)，本申请对此不作限定。

在步骤S1024中，若上述匹配结果指示存在与上述L_pre匹配的L_det，则确定该追踪视频帧中包含上述基准视频帧的上述目标对象，且该目标对象在上述追踪视频帧中的位置信息为：与该L_pre所匹配的L_det。若上述匹配结果指示不存在与上述L_pre匹配的L_det时，则确定该追踪视频帧中不包括该基准视频帧的该目标对象。

假设在附图4所示的例子中，基于上述步骤S1023得出：虚线方框A与圆框1匹配，虚线方框B与圆框3匹配。则在该步骤S1024中，可以确定：第三帧图像中包含目标对象A，且位置为圆框1所在位置，第三帧图像中包括目标对象B，且位置为圆框3所在位置。

在步骤S1025中，基于确定出的上述追踪视频帧是否包含上述基准视频帧中的该目标对象，确定该目标对象在该基准视频帧的轨迹信息。

在附图4所示的例子中，由于上述基准视频帧为第一帧图像，则在该步骤 S1025中，需确定第一帧图像中目标对象A以及目标对象B的轨迹信息。

假设基于上述步骤S1023得出：虚线方框A与圆框1匹配，虚线方框B与圆框3匹配。则在该步骤S1025中，目标对象A的轨迹信息可以为：{F₁，F₃}，用以指示第一帧与第三帧包含该目标对象A，目标对象B的轨迹信息也为： {F₁，F₃}，用以指示第一帧与第三帧包含该目标对象B。

此外，在附图4所示的例子中，由于未对第二帧进行目标检测，所以，可以默然第二帧包括目标对象A以及目标对象B，在这种情况下，目标对象A与目标对象B的轨迹信息可以均为：{F₁，F₂，F₃}。

在步骤S1026中，对该基准视频帧进行更新，将该基准视频帧更新为当前的追踪视频帧，然后，返回执行步骤S1021，直至遍历完该视频的所有视频帧，得到该目标对象在该视频中的轨迹信息。

在附图4所示的例子中，将第三帧确定为基准视频帧，重复上述步骤S1021 之后的各个步骤，确定该第三帧检测到的各个目标对象的轨迹信息，假设圆框 2对应目标对象C，则在重复执行上述步骤S1021-S1025之后，可以确定出当前的基准视频帧中各个目标对象(即：目标对象A、目标对象B以及目标对象 C)的轨迹信息。比如，可以确定出目标对象A的轨迹信息为 {F₁，F₂，F₃，F₄，F₅}，目标对象B的轨迹信息为{F₁，F₂，F₃，F₄}，目标对象 C的轨迹信息为目标对象A的轨迹信息为{F₃，F₄，F₅}。

此外，请本领域技术人员注意，附图3所提供的技术方案中，在每次循环时，若某个目标对象的轨迹信息之前已经得到，在检测到该目标对象还存在于其他视频帧时，需要对该目标对象之前已经得到的轨迹信息进行更新。比如，在附图4所示的例子中，若在第二次循环时，还确定出目标对象A存在于第四帧以及第五帧时，需要将该目标对象A的轨迹信息进行更新，从{F₁，F₂，F₃}更新为{F₁，F₂，F₃，F₄，F₅}。

本领域技术人员容易理解，基于附图3所提供的目标追踪算法，可以实现：在遍历完上述视频的所有视频帧时，得到各个轨迹信息。在得到各个轨迹信息时，可以执行后续步骤S103。

在步骤S103中，从上述轨迹信息所指示的包含该目标对象的各个视频帧中，选取M个视频帧，根据该M个视频帧获取包含目标对象的图像，其中，该包含目标对象的图像为视频帧对应的图像，或者，为视频帧中包含该目标对象的区域所对应的图像，该包含目标对象的图像的个数小于或等于M，1＜M＜N。

假设基于上述步骤S101-S102得到三个目标对象的轨迹信息，分别为：

目标对象A的轨迹信息为{F₁，F₂，F₃，F₄，F₅}。

目标对象B的轨迹信息为{F₁，F₂，F₃，F₄}。

目标对象C的轨迹信息为目标对象A的轨迹信息为{F₃，F₄，F₅}。

则在该步骤S103中，对于目标对象A来说，需要从包含该目标对象A的 5个视频帧中，挑选出少于5个的视频帧，比如选出F₁，F₂，然后从F₁中获取包含目标对象A的一个图像(可以直接将F₁确定为包含目标对象A的图像，也可以从F₁中截取包含目标对象A的区域)，从F₂中获取包含目标对象A的一个图像，从而得到包含目标对象A的两个图像。此外，为了更好地节约存储空间， M值可以为1，以目标对象A为例，可以在该目标对象A的轨迹信息所指示的各个视频帧中，挑选出一个视频帧(可以挑选出包含目标对象A的质量较高的一个视频帧，比如，若目标对象A为人脸时，挑选出包含该目标对象A较为清晰，且人脸姿态为正脸的一视频帧)，然后从该视频帧中获取包含目标对象A 的图像，从而仅仅得到一个包含该目标对象A的图像。

对于获取包含目标对象B的图像，以及获取包含目标对象C的图像的具体方法，与获取包含目标对象A的图像相同，此处不再赘述。

此外，在本申请实施例中，对于每个目标对象来说，该目标对象的轨迹信息还用于指示该目标对象在所位于的各个视频帧中的位置信息，相应地，该步骤S103该的“根据该M个视频帧获取包含该目标对象的图像”，包括：基于该轨迹信息所指示的位置信息，截取该目标对象分别在M个视频帧中的图像区域，从而得到包含该目标对象的M个图像。也即是，仅仅从视频帧中截取目标对象所在的图像区域，从而能够进一步避免保存无用冗余的图像信息。

本领域技术人员应该能够理解，通常情况下，当视频中某一视频帧包含有一目标对象时，该目标对象会持续地在多帧视频帧存在，因此，当采用本申请所提供的技术方案时，对于某个目标对象来说，该目标对象的轨迹信息所指示的视频帧个数N一般都是大于1的。

由此可见，本申请实施例一所提供的技术方案中，会对目标对象进行追踪，确定该目标对象所存在的各个视频帧，当有多个视频帧均包含同一目标对象时，最终获取的包含该目标对象的图像的数量，要少于包含该目标对象的视频帧的个数。显然，当大量的视频帧包含同一目标对象时，不会像传统的方法一样，从每个视频帧中均获取包含目标对象的图像，所以，本申请实施例一所提供的技术方案相比于传统的方案，能够节约存储空间，解决了传统的图像获取方式导致存储空间存储大量冗余图像的技术问题。

实施例二

下面对本申请实施例二提供的另一种图像获取方法进行描述，请参阅附图 5，该图像获取方法包括：

在步骤S201中，对视频中的基准视频帧进行目标检测。

该步骤S201的具体实施方式与实施例一中的步骤S101相同，具体可参见实施例一的描述，此处不再赘述。

在步骤S202中，若检测到上述基准视频帧中包含有目标对象，则基于目标检测算法所检测到的位于上述基准视频帧中的目标对象的位置信息，预测该目标对象在追踪视频帧的位置信息L_pre，其中该追踪视频帧为位于该基准视频帧之后，且与该基准视频帧间隔预设帧数的视频帧。

在步骤S203中，对上述追踪视频帧进行目标检测，若检测到该追踪视频帧中包括目标对象，则得到检测到的该追踪视频帧包含的每个目标对象的位置信息L_det。

在步骤S204中，基于上述L_pre，以及每个L_det，确定匹配结果，其中，该匹配结果用于指示L_pre与每个L_det是否匹配。

上述步骤S202-S204的具体实施方式与实施例一中的步骤S1021-S1023相同，具体可参见实施例一的描述，此处不再赘述。

在步骤S205中，若上述匹配结果指示存在与上述L_pre匹配的L_det，则确定该追踪视频帧中包含上述基准视频帧的上述目标对象，且该目标对象在上述追踪视频帧中的位置信息为：与该L_pre所匹配的L_det。若上述匹配结果指示不存在与上述L_pre匹配的L_det时，则确定该追踪视频帧中不包括该基准视频帧的该目标对象，并将该目标对象添加至未追踪集合中，其中，该未追踪集合包括各个暂未追踪上的目标对象。

若上述匹配结果指示该追踪视频帧中存在不与任意一个L_pre匹配的L_det时，则：确定是否存在历史暂未追踪上的目标对象的特征与该L_det所对应的图像区域的特征相匹配，若存在一历史暂未追踪上的目标对象，其特征与该L_det所指示的位于该追踪视频帧的图像区域的特征相匹配，则确定重新追踪上该目标对象，且该目标对象在该追踪视频帧中的位置信息为该L_det，并对该目标对象的轨迹信息进行更新，将重新追踪上的该目标对象从该未追踪集合中剔除。

该步骤S205该的各个步骤有部分与实施例一中的步骤S1024相同，具体可参见步骤S1024的描述，此处不再赘述。

此外，在该步骤S205中，若检测到基准视频帧中的一目标对象未存储至追踪视频帧中时，则将该目标对象添加至未追踪集合中，其中，该未追踪集合中包括各个暂未追踪上的目标对象。

另外，在该步骤S205中，若检测到追踪视频帧中包括不与任意一个L_pre匹配的L_det时，则对于每一个不与任意L_pre匹配的L_det来说，将该L_det所对应的追踪视频帧的图像区域的特征与历史暂未追踪上的目标对象的特征进行特征匹配，以确定是否重新追踪上之前暂未追踪上的目标对象。之所以这么做，是因为在某种情况下，正在追踪的目标对象可能由于遮挡，或者临时跑出摄像头的监控范围而暂时未追踪上，但是该目标对象可能又会重新出现，在这种情况下，基于该步骤S205，能够重新追踪上之前暂未追踪上的目标对象，从而对于视频中的同一个目标对象来说，更全面的检测该目标对象所存在的各个视频帧，避免对于同一个目标对象，同时确定多个轨迹信息。

此外，该步骤S205中，历史暂未追踪上的目标对象为：位于该基准视频帧之前，且未位于该基准视频帧上的未追踪上的目标对象。

在该步骤S205中，若检测到追踪视频帧中包括不与任意一个L_pre匹配的 L_det时，仅仅将L_det所对应图像区域的特征与历史暂未追踪上的目标对象的特征进行匹配即可，不需要再将L_det所对应图像区域的特征与当前基准视频帧中的暂未追踪上的目标对象进行匹配，原因是与历史暂未追踪上的目标对象的特征进行匹配的前提就是：该L_det不与当前基准视频帧中的任意一L_pre相匹配，因此，没有必要再将该L_det所对应图像区域的特征与当前基准视频帧中的暂未追踪上的目标对象进行匹配。

在本申请实施例二中，若一旦确定出重新追踪上历史暂未追踪上的目标对象，则确定重新追踪上该历史暂未追踪上的目标对象，且该目标对象在该追踪视频帧中的位置信息为该L_det，并对该目标对象的轨迹信息进行更新，将重新追踪上的该目标对象从该未追踪集合中剔除。

此外，本领域技术人员容易理解，若未追踪集合中不存在历史暂未追踪上的目标对象时，则对于步骤S205中该的“若上述匹配结果指示该追踪视频帧中存在不与任意一个L_pre匹配的L_det时，则：确定是否存在历史暂未追踪上的目标对象的特征与该L_det所对应的图像区域的特征相匹配……将重新追踪上的该目标对象从该未追踪集合中剔除”的步骤不予执行。

在步骤S206中，基于确定出的上述追踪视频帧是否包含上述基准视频帧中的该目标对象，确定该目标对象在该基准视频帧的轨迹信息。

在步骤S207中，对该基准视频帧进行更新，将该基准视频帧更新为当前的追踪视频帧，然后，返回执行步骤S202，直至遍历完该视频的所有视频帧，得到该目标对象在该视频中的轨迹信息。

上述步骤S206-S207与实施例一中的步骤S1025-S1026执行方式完全相同，具体参见实施例一的描述，此处不再赘述。

在步骤S208中，从上述轨迹信息所指示的包含该目标对象的各个视频帧中，选取M个视频帧，根据该M个视频帧获取包含目标对象的图像，其中，该包含目标对象的图像为视频帧对应的图像，或者，为视频帧中包含该目标对象的区域所对应的图像，该包含目标对象的图像的个数小于或等于M，1＜M＜N。

该步骤S208与实施例一中的步骤S103执行方式完全相同，具体参见实施例一的描述，此处不再赘述。

本申请实施例二所提供的图像获取方法中，对于由于遮挡或暂时跑出摄像头监控范围的目标对象来说，能够重新追踪上，从而对于视频中的同一个目标对象来说，更全面地检测该目标对象所存在的各个视频帧，避免对于同一个目标对象，同时确定多个轨迹信息。本领域技术人员容易理解，当对于同一目标对象确定出多个轨迹信息时，必然会使得最终获取的包含该目标对象的图像个数大于1，显然，必然会造成冗余图像的存储，所以，本申请实施例二所提供的技术方案，对于避免冗余图像的存储具有积极作用。

实施例三

下面对本申请实施例三提供的再一种图像获取方法进行描述，请参阅附图 6，该图像获取方法包括：

在步骤S301中，对视频中的基准视频帧进行目标检测。

在步骤S302中，若检测到上述基准视频帧中包含有目标对象，则基于目标检测算法所检测到的位于上述基准视频帧中的目标对象的位置信息，预测该目标对象在追踪视频帧的位置信息L_pre，其中该追踪视频帧为位于该基准视频帧之后，且与该基准视频帧间隔预设帧数的视频帧。

在步骤S303中，对上述追踪视频帧进行目标检测，若检测到该追踪视频帧中包括目标对象，则得到检测到的该追踪视频帧包含的每个目标对象的位置信息L_det。

在步骤S304中，基于上述L_pre，以及每个L_det，确定匹配结果，其中，该匹配结果用于指示L_pre与每个L_det是否匹配。

上述步骤S301-S304与实施例二中的步骤S201-S204执行方式完全相同，具体参见实施例二的描述，此处不再赘述。

在步骤S305中，若上述匹配结果指示存在与上述L_pre匹配的L_det，则确定该追踪视频帧中包含上述基准视频帧的上述目标对象，且该目标对象在上述追踪视频帧中的位置信息为：与该L_pre所匹配的L_det。若上述匹配结果指示不存在与上述L_pre匹配的L_det时，则确定该追踪视频帧中不包括该基准视频帧的该目标对象，并将该目标对象添加至未追踪集合中，确定该目标对象的未追踪帧的帧数为预设初始值，其中，该未追踪集合包括各个暂未追踪上的目标对象。

在本申请实施例三中，该步骤S305与实施例二中的步骤S205相比，多出了步骤，即：对于检测到的暂未追踪上的目标对象，确定该目标对象的未追踪帧的帧数。除此之外，该步骤S305的具体实施方式与实施例二中步骤S205相同，具体可参见实施例二的描述，此处不再赘述。

在本申请实施例三中，若确定出暂未追踪上某个目标对象，则将该目标对象添加至未追踪集合中，并确定该目标对象的未追踪帧的帧数为预设初始值(该未追踪帧的帧数用于衡量没有追踪上该目标对象的视频帧的个数)，在该步骤 S305中，对于首次添加至未追踪集合中的目标对象来说，其未追踪帧的帧数为预设初始值，该预设初始值具体数值大小可根据所采用的具体目标追踪算法来确定，比如，当追踪视频帧与基准视频帧之间间隔的预设帧数为1时，则若检测到追踪视频帧中不存在某一目标对象时，则可以确定当前检测到追踪视频帧不包括该目标对象，则确定该目标对象的未追踪帧的帧数为1(即预设初始值＝1)。当追踪视频帧与基准视频帧之间间隔的预设帧数为2时，则若检测到追踪视频帧中不存在某一目标对象时，确定该目标对象的未追踪帧的帧数为1或者为2(即预设初始值＝1或2，具体为1还是为2，需根据具体的目标追踪算法进行确定，比如，若默认基准视频帧与追踪视频帧中间的一个视频帧包含有基准视频帧中各个目标对象，则预设初始值为1。若默认基准视频帧与追踪视频帧中间的一个视频帧不包含有基准视频帧中各个目标对象，则预设初始值为2)。

在步骤S306中，基于确定出的上述追踪视频帧是否包含上述基准视频帧中的该目标对象，确定该基准视频帧中的该目标对象的轨迹信息。

该步骤S306与实施例二中的步骤S206执行方式完全相同，具体参见实施例二的描述，此处不再赘述。

在步骤S307中，将上述未追踪集合中的未追踪帧的帧数均增加该预设帧数，该未追踪帧为各个历史暂未追踪上的目标对象分别所对应的视频帧，判断该未追踪集合中是否存在未追踪帧的帧数大于第一预设阈值的目标对象，若存在，则确定对该目标对象的追踪完毕，以确定追踪完毕的目标对象在视频中的轨迹信息。进一步地，将该目标对象从该未追踪集合中剔除。

该步骤S307该的“历史暂未追踪上的目标对象”的含义与实施例二完全相同，具体参见实施例二的描述，此处不再赘述。

本领域技术人员容易理解，为了确定各个目标对象的轨迹信息，需要循环执行步骤S302-S308，在本申请实施例三所提供的技术方案中，每次循环时，都需要增加未追踪集合中各个历史暂未追踪上的目标对象分别对应的未追踪帧的帧数。

此外，在本申请实施例三中，仅仅需要增加历史暂未追踪上的目标对象所对应的未追踪帧的帧数即可，并不需要对本次循环新添加至未追踪集合的目标对象所对应的未追踪帧的帧数进行增加处理，原因是在上述步骤S305中，已经对新添加至未追踪集合的目标对象所对应的未追踪帧的帧数进行了设置(即设置为预设初始值)，所以无需再执行增加操作。

在本申请实施例三中，在确定了未追踪集合中各个目标对象的未追踪帧的帧数之后，判断是否存在未追踪帧的帧数大于第一预设阈值的目标对象，若存在，则确定对该目标对象追踪完毕，同时将该目标对象从未追踪集合中剔除。也即是，若长时间都追踪不上某一个目标对象时，则可以大概率地预估该目标对象不会再出现，因此，为了避免终端设备的数据处理量过大，认为对该目标对象的追踪完毕，并将该目标对象从未追踪集合中剔除。

在步骤S308中，对该基准视频帧进行更新，将该基准视频帧更新为当前的追踪视频帧，然后，返回执行步骤S302，直至遍历完该视频的所有视频帧，得到该目标对象在该视频中的轨迹信息。

该步骤S308与实施例二中的步骤S207执行方式完全相同，具体参见实施例二的描述，此处不再赘述。

在步骤S309中，从该轨迹信息所指示的包含该目标对象的各个视频帧中，选取M个视频帧，根据该M个视频帧获取包含目标对象的图像，其中，该包含目标对象的图像为视频帧对应的图像，或者，为视频帧中包含该目标对象的区域所对应的图像，该包含目标对象的图像的个数小于或等于M，1＜M＜N。

在本申请实施例三中，该步骤S309的具体实施方式与实施例二中的步骤 S208完全相同，具体参见实施例二的描述，此处不再赘述。

此外，在本申请实施例三中，该步骤S309可以包括如下步骤：

步骤X、从该轨迹信息所指示的包含该追踪完毕的目标对象的各个视频帧中，选取M个视频帧，并从该M个视频帧中选择一个视频帧作为包含该目标对象的一个图像，并删除该追踪完毕的目标对象在视频中的轨迹信息。

其中，该步骤X运行于对基准视频帧进行更新的步骤之前，即运行于步骤 S308之前。

在这种情况下，对于追踪完毕的目标对象，可以直接获取若干包含该目标对象的图像，并删除该目标对象的轨迹信息，从而能够避免过多的轨迹信息占据存储空间。

此外，在本申请实施例三中，该步骤S309也可以包括如下步骤：

步骤Y、对于追踪完毕的目标对象，确定追踪完毕的各个目标对象在视频中的轨迹信息分别所包含的视频帧的个数。

对于个数大于第二预设阈值的轨迹信息，从该轨迹信息所指示的各个视频帧中，选取M个视频帧，分别从该M个视频帧中的每个视频帧中，获取包含相应目标对象的一个图像，并删除该轨迹信息。

对于个数小于或等于上述第二预设阈值的轨迹信息，直接删除即可。

其中，该步骤Y运行于对基准视频帧进行更新的步骤之前，即运行于步骤 S308之前。

在这种情况下，可以使得对于追踪完毕的目标对象，仅仅获取长时间存在的目标对象的图像，并不像上述步骤X一样，对于追踪完毕的每一个目标对象来说，均会获取相应的图像，同时，在上述步骤Y中，还会删除追踪完毕的目标对象的轨迹信息。因此，上述步骤Y相比于上述步骤X能更进一步地避免占据过大的存储空间。

其中，在技术方案实际落地时，上述步骤S309可以同时包括上述步骤X 以及上述步骤Y，用户可以通过手动的模式选择，来确定落地方案执行时，该步骤S309是运行该步骤X还是运行该步骤Y。

本申请实施例三所提供的图像获取方法中，对于长时间未追踪上的目标对象来说，不再确定该目标对象是否会重新出现在后续的视频帧中。由于长时间未追踪上的目标对象，大概率也不会重新出现在后续的视频帧中，因此，本申请实施例三所提供的技术方案相比于实施例二，不仅能够保证同一目标对象对应一个轨迹信息，还能够会减少终端设备的数据处理量。

在上述各个方法实施例中，每个方法实施例的描述都各有侧重，某个方法实施例中没有详述或记载的部分，可以参见其它方法实施例的相关描述。

实施例四

在本申请实施例四中，阐述了上述方法实施例的一种具体应用场景。如图 7所示，上述方法实施例应用于轮式巡检机器人401，该轮式巡检机器人401 通过运行上述方法实施例，来获取包含人脸的图像(即上述方法实施例该的目标对象具体为“人脸”)。在本申请实施例四中，该轮式巡检机器人401还将得到的各个包含人脸的图像发送至云端安保系统402，以便于该云端安保系统 402基于各个人脸图像，执行人脸识别和/或人脸属性分析操作，从而对犯罪分子进行监控，保障社会稳定安全。

本领域技术人员容易理解，在轮式巡检机器人401执行上述方法实施例时，不仅能够避免轮式巡检机器人401获取大量冗余的包含人脸的图像，节约该轮式巡检机器人401的存储空间，还能够减轻云端安保系统402的图像处理负担以及减少网络资源的占据量(本领域技术人员容易理解，当轮式巡检机器人401 获取的包含人脸的图像减少时，传输的图像数量必然减少，因此，可以减少网络资源的占据量，同时，云端安保系统402接收的图像数量减少，因此待处理的图像数量也会减少，从而减轻了云端安保系统的图像处理负担)。

在本申请实施例四中，该轮式巡检机器人401所运行的图像获取方法即为上述方法实施例该的方法，具体可参见上述方法实施例，此处不再赘述。

实施例五

本申请实施例五提供了一种图像获取装置。为了便于说明，仅示出与本申请相关的部分，如图8所示，该图像获取装置500包括：

目标检测模块501，用于对视频中的基准视频帧进行目标检测，该基准视频帧为视频中指定的视频帧。

目标追踪模块502，用于若检测到该基准视频帧中包含有目标对象，则基于检测到的上述目标对象在该基准视频帧中的位置信息，对该目标对象进行目标追踪，以确定该目标对象的轨迹信息，该轨迹信息用于指示上述视频中包含该目标对象的各个视频帧，其中，该轨迹信息所指示的包含该目标对象的各个视频帧个数为N。

图像获取模块503，用于从上述轨迹信息所指示的包含该目标对象的各个视频帧中，选取M个视频帧，根据该M个视频帧获取包含目标对象的图像，其中，该包含目标对象的图像为视频帧对应的图像，或者，为视频帧中包含该目标对象的区域所对应的图像，该包含目标对象的图像的个数小于或等于M， 1＜M＜N。

可选地，上述目标检测模块501具体用于：

基于训练后的神经网络模型，对该视频中的该基准视频帧进行目标检测，其中，该神经网络模型由可分离卷积模块以及上下文模块构成，该上下文模块由多个包含用于卷积的卷积核的分支并联构成，其中，任意两个分支的卷积核的大小不同。

可选地，上述目标追踪模块502，包括：

预测单元，用于基于目标检测算法所检测到的位于该基准视频帧中的目标对象的位置信息，预测该目标对象在追踪视频帧的位置信息L_pre，其中该追踪视频帧为位于该基准视频帧之后，且与该基准视频帧间隔预设帧数的视频帧。

检测单元，用于对该追踪视频帧进行目标检测，若检测到该追踪视频帧中包括目标对象，则得到检测到的该追踪视频帧包含的每个目标对象的位置信息 L_det。

匹配单元，用于基于该L_pre，以及每个L_det，确定匹配结果，其中，该匹配结果用于指示L_pre与每个L_det是否匹配。

第一确定单元，用于若该匹配结果指示存在与该L_pre匹配的L_det，则确定该追踪视频帧中包含该基准视频帧的该目标对象，且该目标对象在该追踪视频帧中的位置信息为：与该L_pre所匹配的L_det。

第二确定单元，用于若该匹配结果指示不存在与该L_pre匹配的L_det，则确定该追踪视频帧中不包括该基准视频帧的该目标对象。

轨迹确定单元，用于基于确定出的该追踪视频帧是否包含该基准视频帧中的该目标对象，确定该目标对象在该基准视频帧该的轨迹信息。

更新单元，用于对该基准视频帧进行更新，将该基准视频帧更新为当前的追踪视频帧，然后，返回触发该预测单元执行基于目标检测算法所检测到的位于该基准视频帧中的目标对象的位置信息，预测该目标对象在追踪视频帧的位置信息L_pre的步骤，直至遍历完该视频的所有视频帧，得到该目标对象在该视频中的轨迹信息。

可选地，上述第二确定单元还用于：

将该目标对象添加至未追踪集合中，其中，该未追踪集合中包括各个暂未追踪上的目标对象。

可选地，上述目标追踪模块502，还包括

第三确定单元，用于若该匹配结果指示该追踪视频帧中存在不与任意一个 L_pre匹配的L_det时，则确定该未追踪集合中是否存在一历史暂未追踪上的目标对象，其特征与该L_det所指示的位于该追踪视频帧的图像区域的特征相匹配，其中，该历史暂未追踪上的目标对象为：位于该基准视频帧之前，且未位于该基准视频帧上的未追踪上的目标对象。

上述第三确定单元还用于：若确定出存在一历史暂未追踪上的目标对象，其特征与该L_det所指示的位于该追踪视频帧的图像区域的特征相匹配，则确定重新追踪上该目标对象，且该目标对象在该追踪视频帧中的位置信息为该L_det，并对该目标对象的轨迹信息进行更新，将重新追踪上的该目标对象从该未追踪集合中剔除。

可选地，上述第二确定单元还用于：确定暂未追踪上的该目标对象的未追踪帧的帧数为预设初始值。

可选地，上述目标追踪模块502还包括：

追踪完毕单元，用于将未追踪集合中的未追踪帧的帧数均增加该预设帧数，该未追踪帧为各个历史暂未追踪上的目标对象分别所对应的视频帧，判断该未追踪集合中是否存在未追踪帧的帧数大于第一预设阈值的目标对象，若存在，则确定对该目标对象的追踪完毕，以确定追踪完毕的目标对象在视频中的轨迹信息该该该该。

可选地，上述图像获取模块503具体用于：

对于追踪完毕的目标对象，从该轨迹信息所指示的包含该追踪完毕的目标对象的各个视频帧中，选取M个视频帧，根据该M个视频帧获取包含该追踪完毕的目标对象的图像该该该，并删除该目标对象的轨迹信息。

其中，该对于追踪完毕的目标对象，从该目标对象的轨迹信息所指示的包含该目标对象的各个视频帧中，选取M个视频帧，根据该M个视频帧获取包含该追踪完毕的目标对象的图像该该，并删除该目标对象的轨迹信息的步骤，运行于对该基准视频帧进行更新的步骤之前。

可选地，上述图像获取模块503具体用于：

对于追踪完毕的目标对象，确定追踪完毕的各个目标对象的轨迹信息分别所包含的视频帧的个数。

对于个数大于第二预设阈值的轨迹信息，从该轨迹信息所指示的包含该目标对象的各个视频帧中，选取M个视频帧，分别从该M个视频帧中的每个视频帧中，获取包含该目标对象的一个图像，并删除该轨迹信息。

对于个数小于或等于该第二预设阈值的轨迹信息，删除该轨迹信息。

其中，该对于追踪完毕的目标对象，确定追踪完毕的各个目标对象的轨迹信息分别所包含的视频帧的个数。对于个数大于第二预设阈值的轨迹信息，从该轨迹信息所指示的包含该目标对象的各个视频帧中，选取M个视频帧，分别从该M个视频帧中的每个视频帧中，获取包含该目标对象的一个图像，并删除该轨迹信息。对于个数小于或等于该第二预设阈值的轨迹信息，删除该轨迹信息的步骤，运行于对该基准视频帧进行更新的步骤之前。

可选地，该轨迹信息还用于指示该目标对象在所位于的各个视频帧中的位置信息。

相应地，上述图像获取模块503具体通过如下步骤根据该M个视频帧获取包含目标对象的图像该该：

基于该轨迹信息所指示的位置信息，截取该目标对象分别在M个视频帧中的图像区域，从而得到包含该目标对象的M个图像。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例一基于同一构思，其具体功能及带来的技术效果，具体可参见实施例一部分，此处不再赘述。

实施例六

图9是本申请实施例六提供的终端设备的示意图，该终端设备可以为轮式巡检车。如图9所示，该实施例的终端设备600包括：处理器601、存储器602 以及存储在上述存储器602中并可在上述处理器601上运行的计算机程序603。上述处理器601执行上述计算机程序603时实现上述方法实施例中的步骤。或者，上述处理器601执行上述计算机程序603时实现上述装置实施例中各模块/ 单元的功能。

示例性的，上述计算机程序603可以被分割成一个或多个模块/单元，上述一个或者多个模块/单元被存储在上述存储器602中，并由上述处理器601执行，以完成本申请。上述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述上述计算机程序603在上述终端设备600 中的执行过程。例如，上述计算机程序603可以被分割成目标检测模块、目标追踪模块以及图像获取模块，各模块具体功能如下：

对视频中的基准视频帧进行目标检测，该基准视频帧为视频中指定的视频帧。

若检测到该基准视频帧中包含有目标对象，则：

基于检测到的上述目标对象在该基准视频帧中的位置信息，对该目标对象进行目标追踪，以确定该目标对象的轨迹信息，该轨迹信息用于指示上述视频中包含该目标对象的各个视频帧，其中，该轨迹信息所指示的包含该目标对象的各个视频帧个数为N。

从上述轨迹信息所指示的包含该目标对象的各个视频帧中，选取M个视频帧，根据该M个视频帧获取包含目标对象的图像，其中，该包含目标对象的图像为视频帧对应的图像，或者，为视频帧中包含该目标对象的区域所对应的图像，该包含目标对象的图像的个数小于或等于M，1＜M＜N。

上述终端设备可包括，但不仅限于，处理器601、存储器602。本领域技术人员可以理解，图9仅仅是终端设备600的示例，并不构成对终端设备600的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如上述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器601可以是中央处理单元(Central Processing Unit，CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

上述存储器602可以是上述终端设备600的内部存储单元，例如终端设备 600的硬盘或内存。上述存储器602也可以是上述终端设备600的外部存储设备，例如上述终端设备600上配备的插接式硬盘，智能存储卡(Smart Media Card， SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。进一步地，上述存储器602还可以既包括上述终端设备600的内部存储单元也包括外部存储设备。上述存储器602用于存储上述计算机程序以及上述终端设备所需的其它程序和数据。上述存储器602还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的。

上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述各个方法实施例中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上上述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种图像获取方法，其特征在于，包括：

若检测到所述基准视频帧中包含有目标对象，则：

从所述轨迹信息所指示的包含所述目标对象的各个视频帧中，选取M个视频帧，根据所述M个视频帧获取包含目标对象的图像，其中，所述包含目标对象的图像为视频帧对应的图像，或者，为视频帧中包含所述目标对象的区域所对应的图像，所述包含目标对象的图像的个数小于或等于M，1＜M＜N。

2.如权利要求1所述的图像获取方法，其特征在于，所述对视频中的基准视频帧进行目标检测，包括：

基于训练后的神经网络模型，对所述视频中的所述基准视频帧进行目标检测，其中，所述神经网络模型由可分离卷积模块以及上下文模块构成，所述上下文模块由多个包含用于卷积的卷积核的分支并联构成，其中，任意两个分支的卷积核的大小不同。

3.如权利要求1所述的图像获取方法，其特征在于，所述基于检测到的所述目标对象在所述基准视频帧中的位置信息，对所述目标对象进行目标追踪，以确定所述目标对象的轨迹信息，包括：

基于目标检测算法所检测到的位于所述基准视频帧中的目标对象的位置信息，预测所述目标对象在追踪视频帧的位置信息L_pre，其中所述追踪视频帧为位于所述基准视频帧之后，且与所述基准视频帧间隔预设帧数的视频帧；

对所述追踪视频帧进行目标检测，若检测到所述追踪视频帧中包括目标对象，则得到检测到的所述追踪视频帧包含的每个目标对象的位置信息L_det；

基于所述L_pre，以及每个L_det，确定匹配结果，其中，所述匹配结果用于指示L_pre与每个L_det是否匹配；

若所述匹配结果指示存在与所述L_pre匹配的L_det，则确定所述追踪视频帧中包含所述基准视频帧的所述目标对象，且所述目标对象在所述追踪视频帧中的位置信息为：与所述L_pre所匹配的L_det；

若所述匹配结果指示不存在与所述L_pre匹配的L_det，则确定所述追踪视频帧中不包括所述基准视频帧的所述目标对象；

基于确定出的所述追踪视频帧是否包含所述基准视频帧中的所述目标对象，确定所述目标对象在所述基准视频帧的轨迹信息；

对所述基准视频帧进行更新，将所述基准视频帧更新为当前的追踪视频帧，然后，返回执行基于目标检测算法所检测到的位于所述基准视频帧中的目标对象的位置信息，预测所述目标对象在追踪视频帧的位置信息L_pre的步骤以及后续步骤，直至遍历完所述视频的所有视频帧，得到所述目标对象在所述视频中的轨迹信息。

4.如权利要求3所述的图像获取方法，其特征在于，在对所述基准视频帧进行更新之前，所述图像获取方法还包括：

将未追踪集合中的未追踪帧的帧数均增加所述预设帧数，所述未追踪帧为各个历史暂未追踪上的目标对象分别所对应的视频帧，判断所述未追踪集合中是否存在未追踪帧的帧数大于第一预设阈值的目标对象，若存在，则确定对该目标对象的追踪完毕，以确定追踪完毕的目标对象在视频中的轨迹信息；

从所述轨迹信息所指示的包含所述追踪完毕的目标对象的各个视频帧中，选取M个视频帧，根据所述M个视频帧获取包含所述追踪完毕的目标对象的图像。

5.如权利要求4所述的图像获取方法，其特征在于，所述从所述轨迹信息所指示的包含所述追踪完毕的目标对象的各个视频帧中，选取M个视频帧，根据所述M个视频帧获取包含所述追踪完毕的目标对象的图像，包括：

从所述轨迹信息所指示的包含所述追踪完毕的目标对象的各个视频帧中，选取M个视频帧，并从所述M个视频帧中选择一个视频帧作为包含所述目标对象的一个图像，并删除所述追踪完毕的目标对象在视频中的轨迹信息。

6.如权利要求4所述的图像获取方法，其特征在于，所述从所述轨迹信息所指示的包含所述追踪完毕的目标对象的各个视频帧中，选取M个视频帧，根据所述M个视频帧获取包含所述追踪完毕的目标对象的图像，包括：

对于追踪完毕的目标对象，确定追踪完毕的各个目标对象在视频中的轨迹信息分别所包含的视频帧的个数；

对于个数大于第二预设阈值的轨迹信息，从该轨迹信息所指示的包含所述目标对象的各个视频帧中，选取M个视频帧，分别从所述M个视频帧中的每个视频帧中，获取包含所述目标对象的一个图像，并删除该轨迹信息；

对于个数小于或等于所述第二预设阈值的轨迹信息，删除该轨迹信息；

其中，所述对于追踪完毕的目标对象，确定追踪完毕的各个目标对象的轨迹信息分别所包含的视频帧的个数；对于个数大于第二预设阈值的轨迹信息，从该轨迹信息所指示的包含所述目标对象的各个视频帧中，选取M个视频帧，分别从所述M个视频帧中的每个视频帧中，获取包含所述目标对象的一个图像，并删除该轨迹信息；对于个数小于或等于所述第二预设阈值的轨迹信息，删除该轨迹信息的步骤，运行于对所述基准视频帧进行更新的步骤之前。

7.如权利要求1至6中任一项所述的图像获取方法，其特征在于，所述轨迹信息还用于指示所述目标对象在所位于的各个视频帧中的位置信息；

相应地，分别从所述M个视频帧中的每个视频帧中，获取包含所述目标对象的一个图像，包括：

基于所述轨迹信息所指示的位置信息，截取所述目标对象分别在M个视频帧中的图像区域，从而得到包含所述目标对象的M个图像。

8.如权利要求3所述的图像获取方法，其特征在于，若所述匹配结果指示不存在与所述L_pre匹配的L_det时，所述图像获取方法还包括：

将所述目标对象添加至未追踪集合中，其中，所述未追踪集合中包括各个暂未追踪上的目标对象；

在所述基于L_pre，以及每个L_det，确定匹配结果的步骤之后，还包括：

若所述匹配结果指示所述追踪视频帧中存在一历史暂未追踪上的目标对象，其特征与该L_det所指示的位于所述追踪视频帧的图像区域的特征相匹配，则确定重新追踪上该目标对象，且该目标对象在所述追踪视频帧中的位置信息为该L_det，并对该目标对象在所述视频中的轨迹信息进行更新，将重新追踪上的该目标对象从所述未追踪集合中剔除。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述图像获取方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述图像获取方法的步骤。