CN114820765A

CN114820765A - 图像识别方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN114820765A
Application number: CN202210226256.9A
Authority: CN
Inventors: 陈健; 蒋乐; 黄雨安; 唐迪锋; 宋勇; 欧阳晔
Original assignee: Asiainfo Technologies China Inc
Current assignee: Asiainfo Technologies China Inc
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-07-29

Abstract

本申请实施例提供了一种图像识别方法、装置、电子设备及计算机可读存储介质，涉及计算机技术领域。该方法包括：确定目标视频序列中当前处理的目标帧图像，将目标帧图像输入至第一识别模型，获得第一识别模型对目标帧图像进行滑窗切图处理后，输出的目标滑窗子图在目标帧图像中的第一位置信息，然后将目标帧图像以及第一位置信息输入至第二识别模型，获得第二识别模型基于第一位置信息对目标帧图像进行锚框切图处理后，输出的各目标对象在目标帧图像中的坐标位置。本申请实施例先基于滑窗切图确定可能存在目标对象的区域位置，再基于锚框切图对区域位置进行精准识别，能够提升图像识别的准确率，减少图像识别过程中的计算量。

Description

图像识别方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种图像识别方法、装置、电子设备及计算机可读存储介质。

背景技术

多目标跟踪(Multi Object Tracking，MOT)的主要任务是根据给定的图像序列，找到图像序列中的运动目标，并根据目标外观特征、位置、运动状态等信息，将不同图像帧中检测出的不同运动目标，与不同的identity(ID)进行一一关联，最终得到不同目标的运动轨迹。

大场景图像序列包含了更丰富的目标信息，可以对大规模时空范围内的目标及目标活动进行长时间、长距离的分析。但由于其图像覆盖范围广、光照等原因造成同一目标在不同时刻的外观存在较大差异；而且部分场景目标密集，尺度跨度大，存在严重遮挡、模糊现象，匹配难度大；视频帧率较高、像素极高，使得传统算法的识别准确率较低、计算量较大。

发明内容

本申请实施例的目的旨在能解决对高帧率图像中的目标轨迹识别准确率低、计算量大的问题。

根据本申请实施例的一个方面，提供了一种图像识别方法，该方法包括：

确定目标视频序列中当前处理的目标帧图像，目标帧图像中包括至少一个目标对象；

将目标帧图像输入至第一识别模型，获得第一识别模型对目标帧图像进行滑窗切图处理后，输出的目标滑窗子图在目标帧图像中的第一位置信息，目标滑窗子图为包括至少一个目标对象的滑窗子图；

将目标帧图像以及第一位置信息输入至第二识别模型，获得第二识别模型基于第一位置信息对目标帧图像进行锚框切图处理后，输出的各目标对象在目标帧图像中的坐标位置。

可选地，方法还包括：

根据各目标对象在目标帧图像中的坐标位置，确定目标帧图像中各目标对象的特征信息；

确定参考图像中已识别对象的特征信息以及移动轨迹信息；

根据各目标对象的特征信息、各目标对象在目标帧图像中的坐标位置、已识别对象的特征信息以及移动轨迹信息，确定各目标对象的移动轨迹信息；

其中，参考图像为目标视频序列中位于目标帧图像之前的帧图像；已识别对象的移动轨迹信息包括已识别对象在相应的参考图像中的坐标位置，以及基于已识别对象在参考图像中的坐标位置，预测得到的已识别对象在目标帧图像中的预测坐标位置。

可选地，根据各目标对象的特征信息、各目标对象在目标帧图像中的坐标位置、已识别对象的特征信息以及移动轨迹信息，确定各目标对象的移动轨迹信息，包括：

对于任意一个目标对象，若根据目标对象的特征信息以及各已识别对象的特征信息，确定存在与目标对象匹配的已识别对象，则根据目标对象在目标帧图像中的坐标位置，以及匹配的已识别对象的移动轨迹信息，获得目标对象的移动轨迹信息。

可选地，目标对象的移动轨迹信息包括目标对象在预测图像中的预测坐标位置；预测图像为目标视频序列中位于目标帧图像之后的帧图像。

可选地，根据各目标对象的特征信息、各目标对象在目标帧图像中的坐标位置、已识别对象的特征信息以及移动轨迹信息，确定各目标对象的移动轨迹信息，还包括：

若根据目标对象的特征信息以及各已识别对象的特征信息，确定不存在与目标对象匹配的已识别对象，则将目标对象在目标帧图像中的坐标位置，与各已识别对象在目标帧图像中的预测坐标位置进行匹配；

若根据目标对象在目标帧图像中的坐标位置，以及各已识别对象在目标帧图像中的预测坐标位置，确定存在与目标对象匹配的已识别对象，则根据目标对象在目标帧图像中的坐标位置，以及匹配的已识别对象的移动轨迹信息，获得目标对象的移动轨迹信息。

可选地，第二识别模型的训练步骤如下：

获取样本视频序列中的多张样本帧图像，样本帧图像中包括至少一个样本对象和样本对象对应的样本标签，样本标签包括样本对象在样本帧图像中的坐标位置；

将样本帧图像输入至初始识别模型，获得初始识别模型对样本帧图像进行锚框切图处理后，输出的各样本对象在样本帧图像中的初始坐标位置；初始坐标位置为初始识别模型中的热图检测模块、中心偏移检测模块以及盒尺寸检测模块，基于General FocalLoss V2损失计算方法确定的；

根据初始识别模型输出的初始坐标位置，和样本对象在样本帧图像中的坐标位置，确定General Focal Loss V2损失计算方法的损失值，基于损失值对初始识别模型进行迭代训练，直至损失值满足训练结束条件时，停止训练并将训练结束时的初始识别模型确定为第二识别模型。

可选地，将目标帧图像以及第一位置信息输入至第二识别模型，获得第二识别模型基于第一位置信息对目标帧图像进行锚框切图处理后，输出的各目标对象在目标帧图像中的坐标位置，包括：

确定目标帧图像经锚框切图处理后，得到的各目标对象对应的锚框；

确定各目标对象对应的锚框的特征图，将特征图分别输入至第二识别模型的热图检测模块、中心偏移检测模块以及盒尺寸检测模块，得到各目标对象在对应的特征图中的中心坐标位置、中心偏移数据，以及各目标对象对应的锚框的高度和宽度；

根据各目标对象在对应的特征图中的中心偏移数据，更新各目标对象在对应的特征图中的中心坐标位置，并根据更新后的各目标对象在对应的特征图中的中心坐标位置，以及各目标对象对应的锚框的高度和宽度，确定各目标对象在目标帧图像中的坐标位置。

可选地，General Focal Loss V2损失计算方法，包括质量协调损失计算方法；

将特征图分别输入至第二识别模型的热图检测模块、中心偏移检测模块以及盒尺寸检测模块，得到各目标对象在对应的特征图中的中心坐标位置、中心偏移数据，以及各目标对象对应的锚框的高度和宽度，包括：

将特征图输入至热图检测模块，基于质量协调损失计算方法，确定特征图的热图检测损失；

根据热图检测损失，对特征图进行热图检测，确定各目标对象在对应的特征图中的中心坐标位置。

可选地，General Focal Loss V2损失计算方法，包括分布协调损失计算方法；

将特征图分别输入至第二识别模型的热图检测模块、中心偏移检测模块以及盒尺寸检测模块，得到各目标对象在对应的特征图中的中心坐标位置、中心偏移数据，以及各目标对象对应的锚框的高度和宽度，还包括：

将特征图输入至中心偏移检测模块，基于分布协调损失计算方法，确定特征图的中心偏移检测损失；

根据中心偏移检测损失，对特征图进行中心偏移检测，确定各目标对象在对应的特征图中的中心偏移数据。

可选地，将特征图分别输入至第二识别模型的热图检测模块、中心偏移检测模块以及盒尺寸检测模块，得到各目标对象在对应的特征图中的中心坐标位置、中心偏移数据，以及各目标对象对应的锚框的高度和宽度，还包括：

将特征图输入至盒尺寸检测模块，基于分布协调损失计算方法，确定特征图的盒尺寸检测损失；

根据盒尺寸检测损失，对特征图进行及盒尺寸检测，确定各目标对象对应的锚框的高度和宽度。

根据本申请实施例的另一个方面，提供了一种图像识别装置，该装置包括：

确定模块，用于确定目标视频序列中当前处理的目标帧图像，目标帧图像中包括至少一个目标对象；

第一识别模块，用于将目标帧图像输入至第一识别模型，获得第一识别模型对目标帧图像进行滑窗切图处理后，输出的目标滑窗子图在目标帧图像中的第一位置信息，目标滑窗子图为包括至少一个目标对象的滑窗子图；

第二识别模块，用于将目标帧图像以及第一位置信息输入至第二识别模型，获得第二识别模型基于第一位置信息对目标帧图像进行锚框切图处理后，输出的各目标对象在目标帧图像中的坐标位置。

可选地，装置还包括：

特征确定模块，用于根据各目标对象在目标帧图像中的坐标位置，确定目标帧图像中各目标对象的特征信息；

参考确定模块，用于确定参考图像中已识别对象的特征信息以及移动轨迹信息；

轨迹确定模块，用于根据各目标对象的特征信息、各目标对象在目标帧图像中的坐标位置、已识别对象的特征信息以及移动轨迹信息，确定各目标对象的移动轨迹信息；

可选地，轨迹确定模块具体用于：

可选地，轨迹确定模块还用于：

可选地，第二识别模型的训练步骤如下：

可选地，第二确定模块，包括：

切图模块，用于确定目标帧图像经锚框切图处理后，得到的各目标对象对应的锚框；

检测模块，用于确定各目标对象对应的锚框的特征图，将特征图分别输入至第二识别模型的热图检测模块、中心偏移检测模块以及盒尺寸检测模块，得到各目标对象在对应的特征图中的中心坐标位置、中心偏移数据，以及各目标对象对应的锚框的高度和宽度；

第二确定子模块，用于根据各目标对象在对应的特征图中的中心偏移数据，更新各目标对象在对应的特征图中的中心坐标位置，并根据更新后的各目标对象在对应的特征图中的中心坐标位置，以及各目标对象对应的锚框的高度和宽度，确定各目标对象在目标帧图像中的坐标位置。

检测模块具体用于：

检测模块还用于：

可选地，检测模块还用于：

根据本申请实施例的另一个方面，提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上的计算机程序，处理器执行计算机程序以实现上述任一个方面的图像识别方法的步骤。

根据本申请实施例的再一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一个方面的图像识别方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

先基于滑窗切图确定可能存在目标对象的区域位置，再基于锚框切图对区域位置进行精准识别，提升了图像识别的准确率，减少了图像识别过程中的计算量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种图像识别方法的流程示意图之一；

图2为本申请实施例提供的一种图像识别方法的流程示意图之二；

图3为本申请实施例提供的一种图像识别方法的流程示意图之三；

图4为本申请实施例提供的一种图像识别方法的流程示意图之四；

图5为本申请实施例提供的一种训练第二识别模型的流程示意图；

图6为本申请实施例提供的一种图像识别装置的结构示意图；

图7为本申请实施例提供的一种图像识别的电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面通过对几个示例性实施方式的描述，对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

本申请实施例中提供了一种图像识别方法，如图1所示，包括：

步骤S101，确定目标视频序列中当前处理的目标帧图像，目标帧图像中包括至少一个目标对象。

目标视频序列为一系列按照时间顺序排列的视频帧图像，所组成的视频序列，视频帧图像为组成视频序列的最小单位。

例如，网络摄像头实时拍摄某一区域的场景视频，并将该场景视频或者场景视频对应的目标视频序列，上传至网络服务器。当网络摄像头直接将场景视频上传至网络服务器时，网络服务器对场景视频进行抽帧处理，以一定的帧间隔从场景视频中抽取出视频帧图像，若干视频帧图像组成目标视频序列。当网络摄像头将场景视频对应的目标视频序列，上传至网络服务器时，网络摄像头或者与网络摄像头相连接的其他设备，对场景视频进行抽帧处理，得到目标视频序列。

网络摄像机拍摄的场景视频可以为高帧率视频。例如，PANDA大场景视频数据集的场景视频，就是使用十亿像素摄像机采集得到的，这种场景视频的全局视图覆盖了约1平方千米的自然场景，自然场景中可容纳约4000人，针对每个目标对象可达100倍以上的尺度变化，每个目标对象的外观特征在最大倍数的放大视图中依然清晰可见。

从场景视频中抽取出一系列视频帧图像，组成低帧率的目标视频序列。其中，每一帧视频帧图像中包括至少一个目标对象。例如，对一个商业区的人流量进行检测，那么目标对象就是出现在这个商业区中的行人；对一条道路的车流量进行检测，那么目标对象就是行驶在这条道路上的各种车辆，本实施例中不再一一赘述。

针对目标视频序列中的若干视频帧图像，按照时间顺序一一进行图像识别处理，将当前处理的视频帧图像确定为目标帧图像。

步骤S102，将目标帧图像输入至第一识别模型，获得第一识别模型对目标帧图像进行滑窗切图处理后，输出的目标滑窗子图在目标帧图像中的第一位置信息，目标滑窗子图为包括至少一个目标对象的滑窗子图。

第一识别模型为对图像中的多目标对象进行识别的一体化模型。第一识别模型对目标帧图像进行滑窗切图处理，得到若干目标滑窗子图。具体而言，本申请实施例中应用的滑窗切图处理与常规技术存在细微差别，本申请实施例中并没有采用不同大小的滑窗窗口进行处理，而是采用固定大小的滑窗窗口，以固定的重叠率进行处理，然后根据卷积运算后的结果与已经训练好的分类器，判别各滑窗子图中存在目标对象的概率，进而确定其中存在至少一个目标对象的各目标滑窗子图，以及各目标滑窗子图在目标帧图像中的第一位置信息。

例如，将目标帧图像缩小至原尺寸大小的1/4，然后使用2000*2000尺寸的滑窗窗口，按照从左到右、从上到下的顺序，以0.5的重叠率对缩小后的目标帧图像依次进行切分，得到若干滑窗子图。进一步的，确定若干滑窗子图中存在至少一个目标对象的各目标滑窗子图，基于各目标滑窗子图的顶点坐标，确定各目标滑窗子图在目标帧图像中的第一位置信息。

需要说明的是，本实施例中预先缩小目标帧图像的尺寸，可以在步骤S101之前处理，也可以由第一识别模型进行处理，使得处理后的目标帧图像为尺寸较小的低帧率图像。本实施例中预先缩小目标帧图像的尺寸，是因为滑窗窗口的尺寸大小存在一定限制，而针对于原始的高帧率图像，容易切分出不完整的目标对象，影响滑窗切图处理的结果。

步骤S103，将目标帧图像以及第一位置信息输入至第二识别模型，获得第二识别模型基于第一位置信息对目标帧图像进行锚框切图处理后，输出的各目标对象在目标帧图像中的坐标位置。

第二识别模型为对图像中的多目标对象进行识别的一体化模型，第一识别模型和第二识别模型可以通过聚合相同的神经网络模型实现，或者表现为同一模型中的两个子模型，第一识别模型和第二识别模型可以进行同步训练。第二识别模型基于第一位置信息，对目标帧图像进行锚框切图处理，得到若干目标锚框子图。

例如，基于第一位置信息确定各目标对象在目标帧图像中的区域位置，在目标帧图像中的区域位置确定各目标对象的锚框，针对一个目标对象的锚框，向锚框的四周拓展至预设大小后切分，得到一个包含该锚框的较大的目标锚框子图。进一步的，第二识别模型对各目标锚框子图进行识别，确定各目标对象在目标帧图像中的坐标位置。

需要说明的是，本实施例中确定一个略大于锚框的目标锚框子图，是为了计算锚框和对应的目标锚框子图的重叠率，并基于重叠率对目标锚框子图进行掩码处理，保证目标锚框子图中的目标对象的完整性和有效性。

应用本申请实施例提供的图像识别方法，确定目标视频序列中当前处理的目标帧图像，将目标帧图像输入至第一识别模型，获得第一识别模型对目标帧图像进行滑窗切图处理后，输出的目标滑窗子图在目标帧图像中的第一位置信息，然后将目标帧图像以及第一位置信息输入至第二识别模型，获得第二识别模型基于第一位置信息对目标帧图像进行锚框切图处理后，输出的各目标对象在目标帧图像中的坐标位置。

本申请实施例先基于滑窗切图确定可能存在目标对象的区域位置，再基于锚框切图对区域位置进行精准识别，提升了图像识别的准确率，减少了图像识别过程中的计算量。

本申请实施例中提供了一种图像识别方法，如图2所示，包括：

步骤S201，确定目标视频序列中当前处理的目标帧图像，目标帧图像中包括至少一个目标对象。

针对目标视频序列中的若干视频帧图像，需要按照时间顺序一一进行图像识别处理，将当前处理的视频帧图像确定为目标帧图像。进一步的，确定出多张视频帧图像中，各目标对象的坐标位置之后，就可以确定各目标对象在目标视频序列中的移动轨迹信息。

步骤S202，将目标帧图像输入至第一识别模型，获得第一识别模型对目标帧图像进行滑窗切图处理后，输出的目标滑窗子图在目标帧图像中的第一位置信息，目标滑窗子图为包括至少一个目标对象的滑窗子图。

第一识别模型对目标帧图像进行滑窗切图处理，得到若干滑窗子图，然后判别各滑窗子图中存在目标对象的概率，进而确定其中存在至少一个目标对象的各目标滑窗子图，以及各目标滑窗子图在目标帧图像中的第一位置信息。

具体而言，第一识别模型确定各目标滑窗子图，在目标帧图像中的第一位置信息时，需要对各目标滑窗子图进行边界融合处理，这是因为各目滑窗子图中的目标对象可能不完整。一种可能的情况，对目标帧图像进行滑窗切图处理时，将一个目标对象切分至多个相邻的滑窗子图，使得一个滑窗子图中的目标对象不完整；另一种可能的情况，某一区域的目标对象较为集中，或者存在建筑物等遮挡物，使得目标对象不完整；再一种可能的情况，某一区域的光线较强或较弱，使得目标对象不完整。

一般而言，如果一个滑窗子图中某一目标对象的完整度不低于50％，那么就确定这个滑窗子图中存在该目标对象，这个滑窗子图是目标滑窗子图；相应的，如果一个滑窗子图中某一目标对象的完整度低于50％，那么就确定这个滑窗子图中不存在该目标对象。针对所有目标滑窗子图中出现的目标对象，对目标滑窗子图进行边界融合处理，使得同一个目标对象仅在一个目标滑窗子图中出现，避免将同一个目标对象的位置进行多次统计。

步骤S203，将目标帧图像以及第一位置信息输入至第二识别模型，获得第二识别模型基于第一位置信息对目标帧图像进行锚框切图处理后，输出的各目标对象在目标帧图像中的坐标位置。

第二识别模型基于第一位置信息，对目标帧图像进行锚框切图处理，得到若干目标锚框子图。

本申请一种优选实施例中，如图3所示，步骤S203包括：

步骤S2031，确定目标帧图像经锚框切图处理后，得到的各目标对象对应的锚框。

步骤S2032，确定各目标对象对应的锚框的特征图，将特征图分别输入至第二识别模型的热图检测模块、中心偏移检测模块以及盒尺寸检测模块，得到各目标对象在对应的特征图中的中心坐标位置、中心偏移数据，以及各目标对象对应的锚框的高度和宽度。

目标对象对应的锚框为包括该目标对象的最小矩形框。第二识别模型对目标帧图像进行锚框切图处理，得到各目标对象对应的锚框，以及各锚框对应的目标锚框子图。每一个目标锚框子图中包括至少一个目标对象，目标锚框子图具备对应的锚框的全部特征，因此，各目标对象对应的锚框的特征图，也可以理解为各目标对象对应的目标锚框子图的特征图。

第二识别模型中的Encoder-Decoder框架采用DLA-34网络，在网络中输入目标锚框子图的C*H*W的图像，经过多次下采样、上采样、特征求和以及跳跃连接，最终输出形状为C*H/4*W/4的特征映射，从而确定各目标锚框子图对应的特征图，即各目标对象对应的锚框的特征图。

其中，DLA-34网络是DLA网络(Deep Layer Aggregation，深层聚合网络)的变体，与DLA网络相比，DLA-34网络在低级特征和高级特征之间有更多的跳跃连接，而且上采样模块中的所有卷积都优化为可变形卷积，能够更好的适应目标对象尺度、形状的变化，这在一定程度上缓解了第二识别模型中，Anchor-Based目标检测器存在的目标中心点对齐的问题。

将特征图分别输入至第二识别模型的Heatmap热图检测模块、Center offset中心偏移检测模块以及Box size盒尺寸检测模块，得到各目标对象在对应的特征图中的中心坐标位置、中心偏移数据，以及各目标对象对应的锚框的高度和宽度。

本申请一种优选实施例中，General Focal Loss V2损失计算方法，包括QFL(Quality Focal Loss，质量协调损失)计算方法和DFL(Distribution Focal Loss，分布协调损失)计算方法。

其中，QFL方法可以解决第二识别模型在训练时和应用时，存在的分类和质量估计不一致的问题，DFL方法可以解决各目标对象对应的锚框回归时，存在的边界模糊和不确定性的问题。

步骤S2032包括；

基于QFL计算方法确定热图检测模块中的热图检测损失Heatmaploss，其中，计算公式如下：

式中，N表示检测框的数量，

表示0～1的质量标签，

表示heatmap在(x,y)处存在目标的概率，当

时取得L_heatmap的全局最小解，这里取调节因子β＝2时最优。

根据热图检测损失，采用基于热图的表示法，确定各目标对象在对应的特征图中的中心坐标位置。

基于DFL计算方法确定中心偏移检测模块中的中心偏移检测损失Center offsetloss，进一步的，确定各目标对象在对应的特征图中的中心偏移数据。具体而言，中心偏移检测损失是对特征图进行下采样时产生的，中心偏移检测损失是客观存在的轻微位置偏移。

基于DFL计算方法确定盒尺寸检测模块中的盒尺寸检测损失Box size loss，其中，计算公式如下：

式中，y_i和y_i+1分别为真实标签点y左右两边相近的标签点，S_i和S_i+1为softmax处理后的结果。

根据盒尺寸检测损失，确定各目标对象对应的锚框的锚点位置，进一步的，确定锚框的高度和宽度。

步骤S2033，根据各目标对象在对应的特征图中的中心偏移数据，更新各目标对象在对应的特征图中的中心坐标位置，并根据更新后的各目标对象在对应的特征图中的中心坐标位置，以及各目标对象对应的锚框的高度和宽度，确定各目标对象在目标帧图像中的坐标位置。

根据中心偏移数据，更新各目标对象在对应的特征图中的中心坐标位置，实现更精准地定位各中心坐标位置，然后根据及各目标对象对应的锚框的高度和宽度，就可以将更新后的中心坐标位置映射至目标帧图像，从而确定各目标对象在目标帧图像中的坐标位置。

具体而言，第二识别模型确定各目标对象在目标帧图像中的坐标位置时，需要对各目标锚框子图进行结果融合处理，避免出现目标锚框子图的检测结果融合到目标帧图像上时，出现的检测结果重复或不完整的情况。本申请实施例中采用WBF(Weighted BoxesFusion，加权框融合)方法来实现结果融合，WBF方法计算每张目标锚框子图与对应的锚框之间的IOU(Intersection over Union，重叠度)，当重叠度大于预设的重叠度阈值时，将各目标对象的锚框的置信度和坐标进行加权融合，得到各目标对象在目标帧图像中的坐标位置。

步骤S204，根据各目标对象在目标帧图像中的坐标位置，确定目标帧图像中各目标对象的特征信息。

第二识别模型中的Embedding嵌入模块，采用具有128个内核的卷积层，提取每个坐标位置的目标对象的身份嵌入特征，生成可以区分不同的目标对象的特征信息。

嵌入模块中的嵌入损失Embedding loss采用CrossEntropy Loss来实现，其中，计算公式如下：

式中，p(k)是第k个物体的预测类别(ID编号)可能性分布，L(k)是第k个物体真实的one-hot编码。

步骤S205，确定参考图像中已识别对象的特征信息以及移动轨迹信息；

一般而言，目标视频序列中包括多张视频帧图像，按照多张视频帧图像的排列顺序依次进行图像识别处理，并将处理后的视频帧图像作为参考图像，当前处理的视频帧图像作为目标帧图像，待处理的视频帧图像作为预测图像。也就是说，参考图像为目标视频序列中位于目标帧图像之前的帧图像，预测图像为目标视频序列中位于目标帧图像之后的帧图像。

参考图像中的目标对象为已识别对象，已识别对象的移动轨迹信息包括，已识别对象的标识信息和已识别对象在参考图像中的坐标位置，本申请实施例中可以将已识别对象的特征信息和移动轨迹信息进行同步存储。

目标视频序列中的每一个对象都存在唯一的标识信息，出现在不同的视频帧图像中的同一个对象的标识信息是相同的，本申请实施例中基于Embedding嵌入模块，确定每一个对象的特征信息，进一步的，确定对象的标识信息。

已识别对象的移动轨迹信息，还包括预测的已识别对象在下一帧视频帧图像中的坐标位置。获取预先存储的参考图像中已识别对象的特征信息以及移动轨迹信息。

步骤S206，根据各目标对象的特征信息、各目标对象在目标帧图像中的坐标位置、已识别对象的特征信息以及移动轨迹信息，确定各目标对象的移动轨迹信息。

根据目标帧图像中各目标对象的特征信息，以及参考图像中各已识别对象的特征信息，进行相似度计算，即可确定目标帧图像与参考图像中的相同对象，那么根据相同对象在参考图像中存储的移动轨迹信息，即可获取相同对象的标识信息。进一步的，根据相同对象在参考图像中的坐标位置和在目标帧图像中的坐标位置，即可预测得到该目标对象在下一帧帧图像中的预测坐标位置。

根据目标对象的标识信息、特征信息、在参考图像中的坐标位置、在目标帧图像中的坐标位置，以及在预测图像中的预测坐标位置，确定各目标对象的移动轨迹信息。

本申请一种优选实施例中，如图4所示，步骤S206包括：

步骤S2061，对于任意一个目标对象，若根据目标对象的特征信息以及各已识别对象的特征信息，确定存在与目标对象匹配的已识别对象，则根据目标对象在目标帧图像中的坐标位置，以及匹配的已识别对象的移动轨迹信息，获得目标对象的移动轨迹信息。

目标对象的移动轨迹信息包括目标对象在预测图像中的预测坐标位置；预测图像为目标视频序列中位于目标帧图像之后的帧图像。

具体而言，本申请实施例中将参考图像的已识别对象和目标帧图像中的目标对象进行匹配的方法，包括至少两个步骤，其中，第一步为基于特征信息进行匹配。

对于任意一个目标对象，确定该目标对象的特征信息，与参考图像中所有已识别对象的特征信息的相似度矩阵，通过相似度矩阵确定参考图像中是否存在与该目标对象匹配的已识别对象。

若存在，则获取已识别对象的移动轨迹信息，其中，已识别对象的移动轨迹信息包括已识别对象的标识信息、特征信息、在参考图像中的坐标位置，以及在目标帧图像中的预测坐标位置。

根据目标对象的特征信息更新已识别对象的特征信息，根据目标对象在目标帧图像中的坐标位置，更新已识别对象的移动轨迹信息中的预测坐标位置，根据目标对象在参考图像和目标帧图像中的坐标位置，预测得到目标对象在预测图像中的预测坐标位置，得到目标对象更新后的移动轨迹信息。

步骤S2062，若根据目标对象的特征信息以及各已识别对象的特征信息，确定不存在与目标对象匹配的已识别对象，则将目标对象在目标帧图像中的坐标位置，与各已识别对象在目标帧图像中的预测坐标位置进行匹配。

由于目标帧图像中可能存在特征信息不明显的目标对象，为了避免影响对象匹配的结果，本申请实施例中将基于坐标位置进行匹配作为补充的第二步。

若根据特征信息进行相似度计算时，确定不存在与目标对象匹配的已识别对象，则将目标对象在目标帧图像中的坐标位置，与各已识别对象在目标帧图像中的预测坐标位置进行匹配。

具体而言，基于坐标位置进行匹配的步骤中，并未将所有的目标对象的坐标位置，与所有的已识别对象的预测坐标位置进行匹配，而是在基于特征信息进行匹配的基础上，筛选得到匹配不成功的目标对象和已识别对象，然后进行第二次匹配。

例如，参考图像中存在两个已识别对象A和B，目标帧图像中存在三个目标对象C、D和E，如果在基于特征信息进行匹配时，A和C匹配成功，那么在基于坐标位置进行匹配时，只需要将B的预测坐标位置和D、E的坐标位置进行匹配，降低计算量。

步骤S2063，若根据目标对象在目标帧图像中的坐标位置，以及各已识别对象在目标帧图像中的预测坐标位置，确定存在与目标对象匹配的已识别对象，则根据目标对象在目标帧图像中的坐标位置，以及匹配的已识别对象的移动轨迹信息，获得目标对象的移动轨迹信息。

若匹配成功，则根据目标对象的特征信息更新已识别对象的特征信息，根据目标对象在目标帧图像中的坐标位置，更新已识别对象的移动轨迹信息中的预测坐标位置，根据目标对象在参考图像和目标帧图像中的坐标位置，预测得到目标对象在预测图像中的预测坐标位置，得到目标对象更新后的移动轨迹信息。

本申请实施例先基于滑窗切图确定可能存在目标对象的区域位置，再基于锚框切图对区域位置进行精准识别，提升了图像识别的准确率，减少了图像识别过程中的计算量。在模型中引入了GFLv2损失函数，解决了heatmap、box size和center offset估计在模型训练和模型应用时，处理方法不一致的问题，以及传统方法边界框表示具有的不确定性问题。另外，通过用边界框的不确定性统计量，来高效地指导定位质量估计，能够更好地提升模型的检测性能。在模型中引入WBF方法，对目标锚框子图检测结果合并到目标帧图像时，出现的重复或不完整的检测框进行融合，相比于传统的NMS处理方法，WBF方法能够获得更好的目标框置信度和坐标信息。基于目标对象的特征信息和坐标位置进行二次匹配，有效提升多目标匹配的成功率，适用于大场景下的多目标轨迹匹配。

本申请实施例中提供了一种生成移动轨迹信息的步骤，包括：

一、计算目标帧图像中各目标对象的ID Embeddings，与参考图像的移动轨迹信息Tracklets中，各已识别对象的外观特征的cost矩阵；

二、利用卡尔曼滤波基于参考图像的移动轨迹信息，预测目标帧图像中移动轨迹信息的mean(均值)和covariance(方差)；

三、计算预测的移动轨迹信息，与目标帧图像的实际检测结果Detections的马氏距离，并将大于预先设定的距离阈值的外观cost矩阵赋值为无穷大；

四、利用匈牙利算法对目标与轨迹进行匹配：

把匹配上的轨迹设置为目标帧图像的轨迹，更新其外观特征以及卡尔曼滤波器的均值、方差参数；

对于未匹配上的轨迹进行下一步的继续匹配；

五、计算上一步未匹配的detection和轨迹的CIOU，并再次利用匈牙利算法进行匹配：

把匹配上的轨迹设置为目标帧图像的轨迹，同样更新其外观特征以及卡尔曼滤波器的均值、方差参数；

把未匹配上的轨迹计入UnactivatedTracklets；

六、对连续15帧都未匹配上的UnactivatedTracklets进行删除。

轨迹的外观特征采用特征平滑的更新方式：

feat＝feat/l₂(feat)

smooth_feat＝smooth_feat/l₂(smooth_feat)

式中，feat为当前目标的Embedding，l₂(·)为L2范数，smooth_feat为特征平滑后的外观特征，α为特征平滑系数。

考虑到高帧率的目标视频序列在抽帧之后，相邻两帧中的同一个目标对象在送入到网络中进行检测与跟踪时，存在更大的位移差、CIOU更小，所以这里将卡尔曼滤波器的参数调大，将CIOU Matching时匈牙利算法阈值调小；

其次，大场景图像的覆盖范围广，存在光照等差异导致同一目标在不同时刻的外观存在较大的差异，所以这里将轨迹模板更新权重值调小，将Cosine Metric的匈牙利算法阈值调大；

最后，在经过上述优化处理后，目标帧图像的正确检测框可能依然存在和轨迹无法匹配的问题，所以这里将第一次检测到但与前一帧轨迹匹配不上的检测框都设置为激活状态。

本申请实施例基于图像抽取后的低帧率图像中行人目标跟踪存在的问题，通过优化卡尔曼滤波参数、CIOU matching的匹配算法阈值、轨迹模板更新权重以及CosineMetric的匹配算法阈值，合理调整检测框和轨迹的中间状态，并对轨迹特征进行平滑处理，更适合于低帧率大场景图像中的行人多目标跟踪。

本申请实施例中提供了一种第二识别模型的训练步骤，如图5所示，包括：

步骤S501，获取样本视频序列中的多张样本帧图像，样本帧图像中包括至少一个样本对象和样本对象对应的样本标签，样本标签包括样本对象在样本帧图像中的坐标位置；

步骤S502，将样本帧图像输入至初始识别模型，获得初始识别模型对样本帧图像进行锚框切图处理后，输出的各样本对象在样本帧图像中的初始坐标位置；初始坐标位置为初始识别模型中的热图检测模块、中心偏移检测模块以及盒尺寸检测模块，基于GeneralFocal Loss V2损失计算方法确定的；

步骤S503，根据初始识别模型输出的初始坐标位置，和样本对象在样本帧图像中的坐标位置，确定General Focal Loss V2损失计算方法的损失值，基于损失值对初始识别模型进行迭代训练，直至损失值满足训练结束条件时，停止训练并将训练结束时的初始识别模型确定为第二识别模型。

对样本帧图像进行标注处理，然后根据标注信息对样本帧图像进行锚框切图处理，利用Encoder-Decoder网络进行特征提取和多层特征融合。其中，Encoder-Decoder网络提取的高分辨率特征图用于四个检测模块，分别是用于目标对象检测的heatmap模块、boxsize模块、center offset模块，和用于目标对象Re-ID的Embeddings模块，模型训练主要是通过多次迭代来使上述四个检测模块的损失函数最小化，即得到最优的多目标对象轨迹检测模型，其中目标对象检测和目标对象Re-ID的损失计算分别通过General Focal Loss V2和CrossEntropy Loss来实现。

第一识别模型和第二识别模型可以聚合相同的神经网络模型，或者表现为同一模型中的两个子模型，第一识别模型和第二识别模型可以进行同步训练。换言之，第一识别模型也可以基于上述训练步骤来实现。

本申请实施例中提供了一种图像识别装置，如图6所示，包括：

确定模块601，用于确定目标视频序列中当前处理的目标帧图像，目标帧图像中包括至少一个目标对象；

第一识别模块602，用于将目标帧图像输入至第一识别模型，获得第一识别模型对目标帧图像进行滑窗切图处理后，输出的目标滑窗子图在目标帧图像中的第一位置信息，目标滑窗子图为包括至少一个目标对象的滑窗子图；

第二识别模块603，用于将目标帧图像以及第一位置信息输入至第二识别模型，获得第二识别模型基于第一位置信息对目标帧图像进行锚框切图处理后，输出的各目标对象在目标帧图像中的坐标位置。

本申请一种优选实施例中，装置还包括：

本申请一种优选实施例中，轨迹确定模块具体用于：

本申请一种优选实施例中，目标对象的移动轨迹信息包括目标对象在预测图像中的预测坐标位置；预测图像为目标视频序列中位于目标帧图像之后的帧图像。

本申请一种优选实施例中，轨迹确定模块还用于：

本申请一种优选实施例中，第二识别模型603的训练步骤如下：

本申请一种优选实施例中，第二确定模块，包括：

本申请一种优选实施例中，General Focal Loss V2损失计算方法，包括质量协调损失计算方法；

检测模块具体用于：

本申请一种优选实施例中，General Focal Loss V2损失计算方法，包括分布协调损失计算方法；

检测模块还用于：

本申请一种优选实施例中，检测模块还用于：

应用本申请实施例提供的图像识别装置，确定目标视频序列中当前处理的目标帧图像，将目标帧图像输入至第一识别模型，获得第一识别模型对目标帧图像进行滑窗切图处理后，输出的目标滑窗子图在目标帧图像中的第一位置信息，然后将目标帧图像以及第一位置信息输入至第二识别模型，获得第二识别模型基于第一位置信息对目标帧图像进行锚框切图处理后，输出的各目标对象在目标帧图像中的坐标位置。

本申请实施例中提供了一种电子设备(计算机装置/设备/系统)，包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现图像识别方法的步骤，与相关技术相比可实现：先基于滑窗切图确定可能存在目标对象的区域位置，再基于锚框切图对区域位置进行精准识别，提升了图像识别的准确率，减少了图像识别过程中的计算量。

在一个可选实施例中提供了一种电子设备，如图7所示，图7所示的电子设备7000包括：处理器7001和存储器7003。其中，处理器7001和存储器7003相连，如通过总线7002相连。可选地，电子设备7000还可以包括收发器7004，收发器7004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器7004不限于一个，该电子设备7000的结构并不构成对本申请实施例的限定。

处理器7001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器7001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线7002可包括一通路，在上述组件之间传送信息。总线7002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线7002可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器7003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器7003用于存储执行本申请实施例的计算机程序，并由处理器7001来控制执行。处理器7001用于执行存储器7003中存储的计算机程序，以实现前述方法实施例所示的步骤。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种图像识别方法，其特征在于，包括：

确定目标视频序列中当前处理的目标帧图像，所述目标帧图像中包括至少一个目标对象；

将所述目标帧图像输入至第一识别模型，获得所述第一识别模型对所述目标帧图像进行滑窗切图处理后，输出的目标滑窗子图在所述目标帧图像中的第一位置信息，所述目标滑窗子图为包括至少一个目标对象的滑窗子图；

将所述目标帧图像以及所述第一位置信息输入至第二识别模型，获得所述第二识别模型基于所述第一位置信息对所述目标帧图像进行锚框切图处理后，输出的各目标对象在所述目标帧图像中的坐标位置。

2.根据权利要求1所述的图像识别方法，其特征在于，所述方法还包括：

根据各目标对象在所述目标帧图像中的坐标位置，确定所述目标帧图像中各目标对象的特征信息；

确定参考图像中已识别对象的特征信息以及移动轨迹信息；

根据所述各目标对象的特征信息、所述各目标对象在所述目标帧图像中的坐标位置、所述已识别对象的特征信息以及移动轨迹信息，确定所述各目标对象的移动轨迹信息；

其中，所述参考图像为所述目标视频序列中位于所述目标帧图像之前的帧图像；所述已识别对象的移动轨迹信息包括所述已识别对象在相应的参考图像中的坐标位置，以及基于所述已识别对象在所述参考图像中的坐标位置，预测得到的所述已识别对象在所述目标帧图像中的预测坐标位置。

3.根据权利要求2所述的图像识别方法，其特征在于，所述根据所述各目标对象的特征信息、所述各目标对象在所述目标帧图像中的坐标位置、所述已识别对象的特征信息以及移动轨迹信息，确定所述各目标对象的移动轨迹信息，包括：

对于任意一个目标对象，若根据所述目标对象的特征信息以及各已识别对象的特征信息，确定存在与所述目标对象匹配的已识别对象，则根据所述目标对象在所述目标帧图像中的坐标位置，以及匹配的已识别对象的移动轨迹信息，获得所述目标对象的移动轨迹信息。

4.根据权利要求3所述的图像识别方法，其特征在于，所述目标对象的移动轨迹信息包括所述目标对象在预测图像中的预测坐标位置；所述预测图像为所述目标视频序列中位于所述目标帧图像之后的帧图像。

5.根据权利要求2所述的图像识别方法，其特征在于，所述根据所述各目标对象的特征信息、所述各目标对象在所述目标帧图像中的坐标位置、所述已识别对象的特征信息以及移动轨迹信息，确定所述各目标对象的移动轨迹信息，还包括：

若根据所述目标对象的特征信息以及各已识别对象的特征信息，确定不存在与所述目标对象匹配的已识别对象，则将所述目标对象在所述目标帧图像中的坐标位置，与各所述已识别对象在所述目标帧图像中的预测坐标位置进行匹配；

若根据所述目标对象在所述目标帧图像中的坐标位置，以及各所述已识别对象在所述目标帧图像中的预测坐标位置，确定存在与所述目标对象匹配的已识别对象，则根据所述目标对象在所述目标帧图像中的坐标位置，以及匹配的已识别对象的移动轨迹信息，获得所述目标对象的移动轨迹信息。

6.根据权利要求1所述的图像识别方法，其特征在于，所述第二识别模型的训练步骤如下：

获取样本视频序列中的多张样本帧图像，所述样本帧图像中包括至少一个样本对象和所述样本对象对应的样本标签，所述样本标签包括所述样本对象在所述样本帧图像中的坐标位置；

将所述样本帧图像输入至初始识别模型，获得所述初始识别模型对所述样本帧图像进行锚框切图处理后，输出的各样本对象在所述样本帧图像中的初始坐标位置；所述初始坐标位置为所述初始识别模型中的热图检测模块、中心偏移检测模块以及盒尺寸检测模块，基于GeneralFocalLoss V2损失计算方法确定的；

根据所述初始识别模型输出的初始坐标位置，和所述样本对象在所述样本帧图像中的坐标位置，确定所述GeneralFocalLoss V2损失计算方法的损失值，基于所述损失值对所述初始识别模型进行迭代训练，直至所述损失值满足训练结束条件时，停止训练并将训练结束时的初始识别模型确定为所述第二识别模型。

7.根据权利要求6所述的图像识别方法，其特征在于，所述将所述目标帧图像以及所述第一位置信息输入至第二识别模型，获得所述第二识别模型基于所述第一位置信息对所述目标帧图像进行锚框切图处理后，输出的各目标对象在所述目标帧图像中的坐标位置，包括：

确定所述目标帧图像经所述锚框切图处理后，得到的各目标对象对应的锚框；

确定所述各目标对象对应的锚框的特征图，将所述特征图分别输入至所述第二识别模型的热图检测模块、中心偏移检测模块以及盒尺寸检测模块，得到各目标对象在对应的特征图中的中心坐标位置、中心偏移数据，以及各目标对象对应的锚框的高度和宽度；

根据各目标对象在对应的特征图中的中心偏移数据，更新各目标对象在对应的特征图中的中心坐标位置，并根据更新后的各目标对象在对应的特征图中的中心坐标位置，以及各目标对象对应的锚框的高度和宽度，确定各目标对象在所述目标帧图像中的坐标位置。

8.根据权利要求7所述的图像识别方法，其特征在于，所述General FocalLoss V2损失计算方法，包括质量协调损失计算方法；

所述将所述特征图分别输入至所述第二识别模型的热图检测模块、中心偏移检测模块以及盒尺寸检测模块，得到各目标对象在对应的特征图中的中心坐标位置、中心偏移数据，以及各目标对象对应的锚框的高度和宽度，包括：

将所述特征图输入至所述热图检测模块，基于所述质量协调损失计算方法，确定所述特征图的热图检测损失；

根据所述热图检测损失，对所述特征图进行热图检测，确定各目标对象在对应的特征图中的中心坐标位置。

9.根据权利要求8所述的图像识别方法，其特征在于，所述General Focal Loss V2损失计算方法，包括分布协调损失计算方法；

所述将所述特征图分别输入至所述第二识别模型的热图检测模块、中心偏移检测模块以及盒尺寸检测模块，得到各目标对象在对应的特征图中的中心坐标位置、中心偏移数据，以及各目标对象对应的锚框的高度和宽度，还包括：

将所述特征图输入至所述中心偏移检测模块，基于所述分布协调损失计算方法，确定所述特征图的中心偏移检测损失；

根据所述中心偏移检测损失，对所述特征图进行中心偏移检测，确定各目标对象在对应的特征图中的中心偏移数据。

10.根据权利要求9所述的图像识别方法，其特征在于，所述将所述特征图分别输入至所述第二识别模型的热图检测模块、中心偏移检测模块以及盒尺寸检测模块，得到各目标对象在对应的特征图中的中心坐标位置、中心偏移数据，以及各目标对象对应的锚框的高度和宽度，还包括：

将所述特征图输入至所述盒尺寸检测模块，基于所述分布协调损失计算方法，确定所述特征图的盒尺寸检测损失；

根据所述盒尺寸检测损失，对所述特征图进行及盒尺寸检测，确定各目标对象对应的锚框的高度和宽度。

11.一种图像识别装置，其特征在于，包括：

确定模块，用于确定目标视频序列中当前处理的目标帧图像，所述目标帧图像中包括至少一个目标对象；

第一识别模块，用于将所述目标帧图像输入至第一识别模型，获得所述第一识别模型对所述目标帧图像进行滑窗切图处理后，输出的目标滑窗子图在所述目标帧图像中的第一位置信息，所述目标滑窗子图为包括至少一个目标对象的滑窗子图；

第二识别模块，用于将所述目标帧图像以及所述第一位置信息输入至第二识别模型，获得所述第二识别模型基于所述第一位置信息对所述目标帧图像进行锚框切图处理后，输出的各目标对象在所述目标帧图像中的坐标位置。

12.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1至10任一项所述的图像识别方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10任一项所述的图像识别方法。