CN114267021A

CN114267021A - 对象识别方法和装置、存储介质及电子设备

Info

Publication number: CN114267021A
Application number: CN202111583692.3A
Authority: CN
Inventors: 李松; 王亚运; 余言勋; 刘智辉
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-04-01

Abstract

本发明公开了一种对象识别方法和装置、存储介质及电子设备。其中，该方法包括：利用训练后的对象识别网络，对包含待处理对象的道路图像进行多次识别处理，得到多个对象识别信息；其中，对象识别信息中至少包含针对待处理对象进行预测后得到的预测关键点信息和类别信息；对象识别网络是基于样本道路图像中历史对象的预测关键点信息和对应的标注关键点信息之间的差异信息进行训练得到的；基于多个对象识别信息，确定对待处理对象进行识别后得到的对象类别、位置信息和关键点。本发明解决了由于相关技术中由于采用多阶段识别技术手段造成的车辆识别效率较低的技术问题。

Description

对象识别方法和装置、存储介质及电子设备

技术领域

本发明涉及图像识别技术领域，具体而言，涉及一种对象识别方法和装置、存储介质及电子设备。

背景技术

随着经济发展与基础设施的完善，道路车辆逐渐增多，相应的给交通监管带来了沉重的负担，而一些高速等场景紧急事故，如车辆违章压线、停车的延迟处理也给二次事故的发生埋下了隐患；其中违章压线等问题若仅仅依靠车辆边框很难进行准确的定位，因此对车辆关键点定位的利用至关重要。目前对交通道路场景目标的关键点定位主要采用了两阶段的方法，首先通过检测算法，对道路目标进行检测，获取对应的检测框与类别，最后依据检测框的结果对车辆的关键点进行定位来获得最终结果；这种多阶段的方法不仅增加了实际工程部署的复杂度，而且降低了整体的性能，并且当检测得到的车辆目标不完整或者框内包含其它车辆目标时，会出现车辆关键点定位错乱的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种对象识别方法和装置、存储介质及电子设备，以至少解决由于相关技术中由于采用多阶段识别技术手段造成的车辆识别效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种对象识别方法，包括：利用训练后的对象识别网络，对包含待处理对象的道路图像进行多次识别处理，得到多个对象识别信息；其中，对象识别信息中至少包含针对待处理对象进行预测后得到的预测关键点信息和类别信息；对象识别网络是基于样本道路图像中历史对象的预测关键点信息和对应的标注关键点信息之间的差异信息进行训练得到的；基于多个对象识别信息，确定对待处理对象进行识别后得到的对象类别、位置信息和关键点。

根据本发明实施例的另一方面，还提供了一种对象识别装置，包括：识别单元，用于利用训练后的对象识别网络，对包含待处理对象的道路图像进行多次识别处理，得到多个对象识别信息；其中，对象识别信息中至少包含针对待处理对象进行预测后得到的预测关键点信息和类别信息；确定单元，用于对象识别网络是基于样本道路图像中历史对象的预测关键点信息和对应的标注关键点信息之间的差异信息进行训练得到的；基于多个对象识别信息，确定对待处理对象进行识别后得到的对象类别、位置信息和关键点。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述的对象识别方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过计算机程序执行上述的对象识别方法。

在本发明实施例中，利用训练后的对象识别网络，对包含待处理对象的道路图像进行多次识别处理，得到多个对象识别信息；其中，对象识别信息中至少包含针对待处理对象进行预测后得到的预测关键点信息和类别信息；对象识别网络是基于样本道路图像中历史对象的预测关键点信息和对应的标注关键点信息之间的差异信息进行训练得到的；基于多个对象识别信息，确定对待处理对象进行识别后得到的对象类别、位置信息和关键点的方式，达到了在对道路图像检测过程中，能够准确及时的对车辆及车辆关键点识别的目的，从而实现了提高车辆及行人及车辆关键点检测效率技术效果，进而解决了由于相关技术中由于采用多阶段识别技术手段造成的车辆识别效率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的对象识别方法的应用环境的示意图；

图2是根据本发明实施例的另一种可选的对象识别方法的应用环境的示意图；

图3是根据本发明实施例的一种可选的对象识别方法的流程示意图；

图4是根据本发明实施例的一种可选的对象识别方法的界面显示示意图；

图5是根据本发明实施例的一种可选的对象识别方法的流程示意图

图6是根据本发明实施例的另一种可选的对象识别方法的流程示意图；

图7是根据本发明实施例的又一种可选的对象识别方法的流程示意图；

图8是根据本发明实施例的另一种可选的对象识别方法的流程示意图；

图9是根据本发明实施例的一种可选的对象识别装置的结构示意图；

图10是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，对本申请实施例涉及的关键名词进行说明：NMS算法：非极大值抑制算法NMS广泛应用于目标检测算法，其目的是为了消除多余的候选框，找到最佳的物体检测位置。

根据本发明实施例的一个方面，提供了一种对象识别方法，可选地，作为一种可选的实施方式，上述对象识别方法可以但不限于应用于如图1所示的环境中。

图1中，终端设备104负责与用户102进行人机交互，终端设备104包括了存储器106、处理器108与显示器110；终端设备104可以通过网络112与管理平台114之间进行交互。服务器114包括数据库116与处理引擎118；第一图像采集电设备120通过网络112与终端设备104进行交互，图像采集设备120可以通过有线模块或无线模块连接到网络112。终端设备104可以通过显示110显示第一图像采集设备120获取到的视频或图像，管理平台114获取第一图像采集设备120和第二图像采集设备122采集到的图像或视频后将上述图像或视频存储到数据库116中，处理引擎可以将第一图像采集设备120采集到的图像或视频进行比对。

作为另一种可选的实施方式，本申请上述对象识别方法可以应用于图2中。如图2所示，用户202与用户设备204之间可以进行人机交互。用户设备204中包含有存储器206和处理器208。本实施例中用户设备204可以但不限于参考执行上述终端设备104所执行的操作，以实现对道路图的识别和预警。

可选地，在本实施例中，上述终端设备104和用户设备204可以是配置有目标客户端的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述第一图像采集设备120可以为配置有有线或无线模块的摄像头，上述网络112可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器114可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

可选地，作为一种可选的实施方式，如图3所示，上述对象识别方法包括：

S302，利用训练后的对象识别网络，对包含待处理对象的道路图像进行多次识别处理，得到多个对象识别信息；其中，对象识别信息中至少包含针对待处理对象进行预测后得到的预测关键点信息和类别信息；对象识别网络是基于样本道路图像中历史对象的预测关键点信息和对应的标注关键点信息之间的差异信息进行训练得到的；

S304，基于多个对象识别信息，确定对待处理对象进行识别后得到的对象类别、位置信息和关键点。

可选地，在本实施例中，上述对象识别方法可以但不限于应用于对道路图中行人或机动车和非机动车的检查过程。

在本实施例中，如图4所示，图像采集设备采集到道路图像中的每帧视频帧图像，并对图像中的各个对象进行识别，以得到输出的图像。在得到输出图像中，行人通过行人锚框402进行标注显示，非机动车通过锚框404进行标注显示，机动车通过锚框406进行标注显示，车辆的前车灯通过锚框406a进行标注显示，车辆的后视镜通过锚框406b标注显示，车辆的车牌通过锚框406c标注显示。

可以理解的是，在本实施例中，将上述待处理对象输入训练后的模型后，得到多个输出量out信息，进而基于多个输出量out信息确定目标的最终类别、检测框和关键点。

作为一种可选的方式，在位置信息包括待处理对象的检测框所在的位置的情况下，基于多个对象识别信息，确定针对待处理对象进行识别后得到的对象类别、位置信息和关键点，包括：

S1，利用非极大值抑制算法，分别对每个对象识别信息中的预测关键点信息和类别信息进行处理，得到待处理对象的对象类别和待处理对象的检测框所在的位置，以及待处理对象的目标关键点信息，其中，目标关键点信息是基于多个对象识别信息中包含的预测关键点信息确定的；

S2，基于关键点偏移信息，对目标关键点信息进行处理，得到待处理对象的关键点。

可选地，上述目标关键点信息包括关键点坐标；关键点偏移信息包括针对关键点坐标的坐标偏移量；其中，基于关键点偏移信息，对目标关键点信息进行处理，得到待处理对象的关键点，包括：将关键点坐标和坐标偏移量进行叠加，将叠加得到的坐标对应的位置点确定为待处理对象的关键点。

需要说明的是，在本实施例中，采用NMS算法对上述out信息进行处理，得到最终识别的识别结果，其中，目标关键点信息为利用如下公式进行处理得到的坐标信息：

其中，c_x和c_y对应于上述关键点偏移信息，t_x和t_y对应于上述目标关键点信息。land_x和land_y是关键点的真实横坐标；预测过程中图像中存在多个关键点，即对应多个land_x和land_y；c_x和c_y是唯一的值，其中c_x是网格；各个网格的左上角坐标t_x是0-1之间的归一化的值，用于确定网络具体位置。

通过本申请的上述实施例，通过将所述关键点坐标和所述坐标偏移量进行叠加，将所述叠加得到的坐标对应的位置点确定为所述待处理对象的关键点，达到了在对道路图像检测过程中，能够准确及时的对车辆及车辆关键点识别的目的，从而实现了提高车辆及行人及车辆关键点检测效率技术效果，进而解决了由于相关技术中由于采用多阶段识别技术手段造成的车辆识别效率较低的技术问题。

作为一种可选的方式，上述对象识别网络包括N个子识别网络。其中，每个子识别网络中包含串联连接的特征提取层和识别层，且第i个子识别网络的特征提取层和第i+1个子识别网络的识别层连接，N为大于1的整数，i为大于0且小于N的整数。

可选地，利用训练后的对象识别网络，对包含待处理对象的道路图像进行多次识别处理，得到多个对象识别信息，包括：分别利用N个子识别网络对道路图像进行识别，得到N个对象识别信息，每个子识别网络对应一个对象识别信息。

如图7所示，上述子识别网络中包含的特征提取层可以是图7中的(a)图所示的Block1的形式出现在上述子识别网络中，上述识别层可以是图7中的(b)图所示的DetectHead的形式出现在上述子识别网络中。

通过本身的上述实施例，以利用训练后的对象识别网络，对包含待处理对象的道路图像进行多次识别处理，得到多个对象识别信息，包括：分别利用所述N个子识别网络对所述道路图像进行识别，得到N个对象识别信息，每个子识别网络对应一个对象识别信息的方式，实现对待识别的对象的准确识别，从而提升了对象识别的准确率。

作为一种可选的方式，上述分别利用N个子识别网络对道路图像进行识别，得到N个对象识别信息，包括：

S1，利用第j个子识别网络对道路图像进行识别过程包括：

S2，利用第j个子识别网络中的特征提取层，对第j-1个子识别网络的特征提取层输出的特征进行处理，得到第j个子识别网络中的特征提取层输出的特征；

S3，利用第j个子识别网络中的识别层，对第j个子识别网络中的特征提取层输出的特征进行识别，得到第j个子识别网络对应的对象识别信息；其中：j为大于0且不大于N的整数；j为1时，第j-1个子识别网络的特征提取层输出的特征为对道路图像的预处理特征。

如图8所示，在本实施例中，图中共示出了4个用于对图像进行串联处理的Block1，并对应示出3个Detect Head。其中，从第二个到第四个Block1分别对应的Detect Head为Detect Head_1，Detect Head_2，Detect Head_3。需要说明的是，通过上述处理方法得到的预处理特征即进行初步特征提取得到的特征。

通过本申请上述实施例，以利用第j个子识别网络对所述道路图像进行识别过程包括：利用所述第j个子识别网络中的特征提取层，对第j-1个子识别网络的特征提取层输出的特征进行处理，得到所述第j个子识别网络中的特征提取层输出的特征；利用所述第j个子识别网络中的识别层，对所述第j个子识别网络中的特征提取层输出的特征进行识别，得到所述第j个子识别网络对应的对象识别信息；其中：所述j为大于0且不大于N的整数；所述j为1时，所述第j-1个子识别网络的特征提取层输出的特征为对所述道路图像的预处理特征的方式，实现了提高对象识别的效率的技术效果。

作为一种可选的方式，上述对象识别网络还包括下采样层和特征预处理层，特征预处理层与子识别网络包含的特征提取层的网络结构相同；

可选地，分别利用N个子识别网络对道路图像进行识别，得到N个对象识别信息，每个子识别网络对应一个对象识别信息之前，还包括：利用下采样层对道路图像进行下采样处理；利用特征预处理层对下采样处理得到的结构进行特征提取，得到对道路图像的预处理特征。

需要说明的是，如图8所示，图中示出的第一个Block1即对应于上述特征预处理层。上述下采样层对应于整个模型中的两倍下的采样结构，具体地，网络中起始两层结构分别为一个步长为2，卷积核尺寸为7的卷积层和一个核大小为3，步长为2的最大池化层，进行2倍下采样，其中卷积层的输出通道数为64。

通过本申请的上述实施例，通过利用所述下采样层对所述道路图像进行下采样处理；利用所述特征预处理层对所述下采样处理得到的结构进行特征提取，得到对所述道路图像的所述预处理特征，从而实现了提高车辆及行人及车辆关键点检测效率技术效果，进而解决了由于相关技术中由于采用多阶段识别技术手段造成的车辆识别效率较低的技术问题。

作为一种可选的方式，上述特征提取层包括串联连接的密集层和过渡层，密集层包括K个密集区块，密集区块中包括由第一卷积核尺寸的卷积层和由第二卷积核尺寸的卷积层；过渡层包括：由第三卷积核尺寸构成的第一最大池化层。

可选地，上述识别层包括：检测头结构和检测输出结构，检测头结构包括第二最大池化层、检测卷积层及全局处理层，其中，检测卷积层中第一检测卷积层与第二检测卷积层具有相同卷积核尺寸，但步长不同且输出通道数不同；全局处理层中包括：全局最大池化层以及第一处理卷积层和第二处理卷积层，第一处理卷积层与第二处理卷积层具有相同卷积核尺寸和步长，但输出通道数不同；其中，检测卷积层的输出结果与全局处理层的输出结果将进行乘法运算，得到第一运算结果；第二最大池化层与第一运算结果将进行加法运算，得到第二运算结果；检测输出结构包括：第一输出卷积层和第二输出卷积层，其中，第一输出卷积层与第二输出卷积层具有相同卷积核尺寸和步长，但输出通道数不同；第二运算结果将输入检测输出结构。

通过本申请上述实施例，通过检测卷积层的输出结果与全局处理层的输出结果将进行乘法运算，得到第一运算结果；第二最大池化层与第一运算结果将进行加法运算，得到第二运算结果；检测输出结构包括：第一输出卷积层和第二输出卷积层，其中，第一输出卷积层与第二输出卷积层具有相同卷积核尺寸和步长，但输出通道数不同；第二运算结果将输入检测输出结构，从而实现了提高车辆及行人及车辆关键点检测效率技术效果，进而解决了由于相关技术中由于采用多阶段识别技术手段造成的车辆识别效率较低的技术问题。

作为一种可选的方式，上述每一轮得到的对象识别信息中携带有当前轮迭代训练出的当前输出多维向量，当前输出多维向量为：

out＝a(x1+c+x2+n(y1+y2))

其中，out为当前输出多维向量，a是待处理对象的检测框个数，x1是置信度；c是目标类别指示系数，x2是关键点的坐标信息，n是关键点的个数，y1是坐标轴数，y2是用于指示目标车辆的个数。

作为一种可选的方式，上述对象识别网络是通过如下方式进行训练得到的：对训练中的对象识别网络进行多轮迭代训练至满足训练结束条件，得到训练后的对象识别网络；其中，一轮迭代训练包括：

S1，利用训练中的对象识别网络，对道路图像样本进行多次识别处理，得到样本道路图像的多个对象识别信息；

S2，基于样本道路图像的多个对象识别信息中，历史对象的预测关键点信息和对应的标注关键点信息之间的差异信息，调整训练中的对象识别网络中的模型参数。

通过本申请的上述实施方式，以对训练中的对象识别网络进行多轮迭代训练至满足训练结束条件，得到训练后的对象识别网络；其中，一轮迭代训练包括：利用训练中的对象识别网络，对道路图像样本进行多次识别处理，得到样本道路图像的多个对象识别信息；基于样本道路图像的多个对象识别信息中，历史对象的预测关键点信息和对应的标注关键点信息之间的差异信息，调整训练中的对象识别网络中的模型参数，从而实现了训练得到用于对象识别的网络，进而实现了提高车辆及行人及车辆关键点检测效率技术效果，进而解决了由于相关技术中由于采用多阶段识别技术手段造成的车辆识别效率较低的技术问题

作为一种可选的方式，上述基于样本道路图像的多个对象识别信息中，历史对象的预测关键点信息和对应的标注关键点信息之间的差异信息，调整训练中的对象识别网络中的模型参数，包括：

S1，确定各历史对象各自对应的第一预测差异值；其中，预测差异值是基于对应的历史对象的预测关键点信息和对应的标注关键点信息之间的差异值；

S2，基于确定出的各个第一预测差异值，确定综合预测差异值；

S3，利用综合预测差异值调整训练中的对象识别网络中的模型参数。

作为一种可选的方式，上述确定各历史对象各自对应的第一预测差异值之前，还包括：

S1，响应于历史对象的对象尺寸小于第一预设尺寸阈值，对历史对象的第一预测差异值进行放大处理；和/或

S2，响应于历史对象的对象尺寸大于第二预设尺寸阈值，对历史对象的第一预测差异值进行缩小处理。

作为一种可选的方式，上述对历史对象的第一预测差异值进行放大处理，包括：

利用基于目标相对特征图比例构建的损失函数对第一预测差异值进行放大处理；或

基于第一参考值，对历史对象的第一预测差异值进行加权处理，第一参考值为大于1的值；或

用历史对象的第一预测差异值除以第二参考值，第二参考值为小于1的正数。

作为一种可选的方式，上述对历史对象的第一预测差异值进行缩小处理，包括：

从第一预测差异值中扣除目标常量，以进行缩小处理；或

基于第三参考值，对历史对象的第一预测差异值进行加权处理，第三参考值为小于1的值；或

用历史对象的第一预测差异值除以第四参考值，第四参考值为大于1的正数。

作为一种可选的方式，上述输出目标对象图像的目标对象的类别标识和位置标识具体可以是采用以下方法：

S1，收集交通场景素材，并根据行人、非机动车、机动车类别进行标注，其中标注包含目标的边框与对应类别；

S2，根据收集素材的标注边框，通过k-means++聚类算法计算出K个聚类中心点，各个中心点由高和宽组成；

S3，将图片通过设计的轻量型网络获得三个特征输出，每个特征输出包含out个通道数；注意：输出的宽与高值是相对于锚框的缩放值；

S4，将S3中获得的宽高缩放值与锚框大小乘积运算，后通过非极大值运算，根据设置的iou门限值与类别执行度门限值进行过滤得到最终输出的类别标识和位置标识。

在本发明实施例中，采用利用训练后的对象识别网络，对包含待处理对象的道路图像进行多次识别处理，得到多个对象识别信息；其中，对象识别信息中至少包含针对待处理对象进行预测后得到的预测关键点信息和类别信息；对象识别网络是基于样本道路图像中历史对象的预测关键点信息和对应的标注关键点信息之间的差异信息进行训练得到的；基于多个对象识别信息，确定对待处理对象进行识别后得到的对象类别、位置信息和关键点的方式，达到了在对道路图像检测过程中，能够准确及时的对车辆及车辆关键点识别的目的，从而实现了提高车辆及行人及车辆关键点检测效率技术效果，进而解决了由于相关技术中由于采用多阶段识别技术手段造成的车辆识别效率较低的技术问题。

基于上述实施例，在一应用实施例中，上述对象识别方法包括：步骤S502，对采集到的图像进边框与关键点的标注并进行预处理，得到包含多个目标的图像；步骤S504，将图像输入轻量型特征提取器，获取第一特征图，第二特征图和第三特征图；步骤S506，根据图像标注框和锚框大小，将图像中的各个目标分别分配至提取的第一特征图，第二特征图和第三特征图；步骤S508，以特征图上包括目标特征点为中心回归该目标对应关键点位置和类别信息，反向更新梯度。步骤S510，使用非极大值抑制(Non-Maximum Suppression，NMS)算法滤除冗余框，获得各特征图上目标回归点，并根据该点计算出目标边框和类别，即目标各关键点信息和类别。

本提案以YOLO目标检测算法结构为基础，对多目标边框、关键点检测与识别方法进行端到端设计。

S602，对收集的交通场景素材进行标注，标注类别为行人、机动车、非机动车，并对机动车(如，客车、卡车、轿车等)目标的n个关键点进行标注，提案中使用了8个关键点，即左前灯、右前灯、前车牌、左后灯、右后灯、后车牌、左后灯、右后灯，通过k-means++聚类算法对标注的数据进行聚类得到a个锚框,本提案中设置的锚框个数为3,并将标注好的目标位置及宽高信息进行归一化处理；

S604，如图5，图6，图7和图8所示，将处理好的图像输入至设计的轻量型神经网络中，鉴于DenseNet网络的良好性能，本方案在对网络进行设计时以其为基础结构并结合CSP(Cross Stage Partial)结构的特性；由于交通场景中小目标较多，故网络输入尺寸为480ⅹ800；本提案设计的轻量网络结构图如图2所示，具体参数为：首先设计网络中起始两层结构分别为一个步长为2，卷积核尺寸为7的卷积层和一个核大小为3，步长为2的最大池化层，进行2倍下采样，其中卷积层的输出通道数为64；然后级联3个Dense Block，Dense Block由卷积核尺寸为1，输出通道数为48和卷积核尺寸为3，输出通道数为24的卷积层组成，同时后面保存了一个Transition block,其由一个卷积核大小为1和核尺寸为2、步长为2的最大池化层构成，设计时采用的压缩率为0.45，故Transition Layer的输出通道数为上一层输出通道数的0.45倍，然后通过核大小分别为13x13、9x9、5x5最大池化层和全局最大池化层，并进行通道级别连接得到Block1模块；之后网络又级联了3组由Block1构成模块，每组对应的Dense Block个数分别为4、6和4，其中第一组Dense Block卷积核尺寸为1的输出通道为64，卷积核尺寸为3输出通道为32。

第二组Dense Block卷积核尺寸为1的输出通道为96，卷积核尺寸为3输出通道为48，第三组Dense Block卷积核尺寸为1的输出通道为128，卷积核尺寸为3输出通道为64，最后一组Dense Block后去除了Transition Block模块；将上述第一组、第二组、第三组Transition Block的输出分别作为各Detect head的输入，目标检测的head结构为，将得到的特征图分别通过一个步长为2的最大池化层，一个卷积核大小为3、通道数为128、步长为2的卷积层和一个全局最大池化层得到三个输出，并将步长为2的卷积层输出通过一卷积核大小为1、步长为1、通道数为64的卷积层，将最大池化层输出依次通过两个步长为1、卷积核大小为3、通道分别为128和64的卷积层，之后通过Sigmoid层，将该部分输出和步长为2的卷积层输出进行乘法运算，并与步长为2的最大池化层进行通道级别连接；最后通过一个卷积核大小为1、步长为3、通道数为128的卷积层，和一个卷积核大小为1、步长为3、通道数为out的分类回归卷积层得到最终输出，其中out＝aⅹ(1+c+4+nⅹ(2+1)),a为设置锚框数，c为目标类别，鉴于目标关键点回归方向不确定特性，故相对于目标中心点便宜使用线性函数代替了取性能，对网络的宽度方面进行了设计，即，在每个Transition Block模块后加入了核大小为13x13、9x9、5x5最大池化层和全局池化层；在检测头中引入了CSP结构，并结合通道注意力方法，设计了Detect Head模块，用于提取高层不同特征中有用的信息；同时本提案对网络的参数进行了详细的设计以达到移动端实时性的推理。

S606，将步骤2中上述第一、第二、第三组类别回归层输出通过NMS算法和方案中预设门限值进行过滤得到各组类别回归层的回归目标中心点，以此计算出目标的类别、边框中心点、边框宽高、回归关键点位置及其类别信息，其中目标关键点位置计算公式如下所示:

land_x＝c_x+t_x

land_y＝c_y+t_y

在对目标关键点损失进行计算，即样本挖掘时，会在每一个被分配到目标的特征点计算其各个关键点偏移损失，目标分配主要是先为图像中每一个正样本在特征图上分配一个回归点，同时针对一些较小的目标，会为其在不同的特征图上定义多个回归点，当目标边框与锚框IoU值小于设定门限值时特征图上该点会被定义为负样本；由于目标的关键点位较小、语义信息稀少，故本方案对现有位置回归损失函数进行了改进，得到一个有效的关键点位置回归损失函数，如以下公式所示：

其中，loss为损失函数的输出值，ω为大于1的发散量，w、h表示目标相对特征图比例，β∈[1,∞)的常数，x为上述位置标识所指示的位置。

其中w、h表示目标相对特征图比例，为常数，当被检测目标较小时，采用对其位置误差进行一定程度放大，以提升小目标关键点的定位准确性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述对象识别方法的对象识别装置。如图9所示，该装置包括：

识别单元902，用于利用训练后的对象识别网络，对包含待处理对象的道路图像进行多次识别处理，得到多个对象识别信息；其中，对象识别信息中至少包含针对待处理对象进行预测后得到的预测关键点信息和类别信息；对象识别网络是基于样本道路图像中历史对象的预测关键点信息和对应的标注关键点信息之间的差异信息进行训练得到的；

确定单元904，用于基于多个对象识别信息，确定对待处理对象进行识别后得到的对象类别、位置信息和关键点。

根据本发明实施例的又一个方面，还提供了一种用于实施上述对象识别方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。如图10所示，该电子设备包括存储器1002和处理器1004，该存储器1002中存储有计算机程序，该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，利用训练后的对象识别网络，对包含待处理对象的道路图像进行多次识别处理，得到多个对象识别信息；其中，对象识别信息中至少包含针对待处理对象进行预测后得到的预测关键点信息和类别信息；对象识别网络是基于样本道路图像中历史对象的预测关键点信息和对应的标注关键点信息之间的差异信息进行训练得到的；

S2，基于多个对象识别信息，确定对待处理对象进行识别后得到的对象类别、位置信息和关键点。

可选地，本领域普通技术人员可以理解，图10所示的结构仅为示意，电子装置或电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等电子设备。图10其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图10中所示更多或者更少的组件(如网络接口等)，或者具有与图10所示不同的配置。

其中，存储器1002可用于存储软件程序以及模块，如本发明实施例中的对象识别方法和装置对应的程序指令/模块，处理器1004通过运行存储在存储器1002内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的对象识别方法。存储器1002可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1002可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1002具体可以但不限于用于存储虚安检对象的视频或图像等信息。作为一种示例，如图10所示，上述存储器1002中可以但不限于包括上述对象识别装置中的识别单元902、确定单元904。此外，还可以包括但不限于上述对象识别装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1010用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1010包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1010为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1008，用于显示上述安检对象的视频或图像信息；和连接总线1010，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种对象识别方法，其特征在于，包括：

利用训练后的对象识别网络，对包含待处理对象的道路图像进行多次识别处理，得到多个对象识别信息；其中，所述对象识别信息中至少包含针对所述待处理对象进行预测后得到的预测关键点信息和类别信息；所述对象识别网络是基于样本道路图像中历史对象的预测关键点信息和对应的标注关键点信息之间的差异信息进行训练得到的；

基于所述多个对象识别信息，确定对所述待处理对象进行识别后得到的对象类别、位置信息和关键点。

2.根据权利要求1所述的方法，其特征在于，在所述位置信息包括所述待处理对象的检测框所在的位置的情况下，所述基于所述多个对象识别信息，确定针对所述待处理对象进行识别后得到的对象类别、位置信息和关键点，包括：

利用非极大值抑制算法，分别对每个所述对象识别信息中的预测关键点信息和类别信息进行处理，得到所述待处理对象的对象类别和所述待处理对象的检测框所在的位置，以及所述待处理对象的目标关键点信息，其中，所述目标关键点信息是基于所述多个对象识别信息中包含的预测关键点信息确定的；

基于关键点偏移信息，对所述目标关键点信息进行处理，得到所述待处理对象的关键点。

3.根据权利要求2所述的方法，其特征在于，所述目标关键点信息包括关键点坐标；所述关键点偏移信息包括针对所述关键点坐标的坐标偏移量；其中，所述基于关键点偏移信息，对所述目标关键点信息进行处理，得到所述待处理对象的关键点，包括：

将所述关键点坐标和所述坐标偏移量进行叠加，将叠加得到的坐标对应的位置点确定为所述待处理对象的关键点。

4.根据权利要求1所述的方法，其特征在于，所述对象识别网络包括N个子识别网络；其中，每个所述子识别网络中包含串联连接的特征提取层和识别层，且第i个子识别网络的特征提取层和第i+1个子识别网络的识别层连接，所述N为大于1的整数，所述i为大于0且小于N的整数；

利用训练后的对象识别网络，对包含待处理对象的道路图像进行多次识别处理，得到多个对象识别信息，包括：

分别利用所述N个子识别网络对所述道路图像进行识别，得到N个对象识别信息，每个子识别网络对应一个对象识别信息。

5.根据权利要求4所述的方法，其特征在于，所述分别利用所述N个子识别网络对所述道路图像进行识别，得到N个对象识别信息，包括：

利用第j个子识别网络对所述道路图像进行识别过程包括：

利用所述第j个子识别网络中的特征提取层，对第j-1个子识别网络的特征提取层输出的特征进行处理，得到所述第j个子识别网络中的特征提取层输出的特征；

利用所述第j个子识别网络中的识别层，对所述第j个子识别网络中的特征提取层输出的特征进行识别，得到所述第j个子识别网络对应的对象识别信息；其中：

所述j为大于0且不大于N的整数；所述j为1时，所述第j-1个子识别网络的特征提取层输出的特征为对所述道路图像的预处理特征。

6.根据权利要求5所述的方法，其特征在于，所述对象识别网络还包括下采样层和特征预处理层，所述特征预处理层与所述子识别网络包含的特征提取层的网络结构相同；

所述分别利用所述N个子识别网络对所述道路图像进行识别，得到N个对象识别信息，每个子识别网络对应一个对象识别信息之前，还包括：

利用所述下采样层对所述道路图像进行下采样处理；

利用所述特征预处理层对所述下采样处理得到的结构进行特征提取，得到对所述道路图像的所述预处理特征。

7.根据权利要求4所述的方法，其特征在于，所述特征提取层包括串联连接的密集层和过渡层，所述密集层包括K个密集区块，所述密集区块中包括由第一卷积核尺寸的卷积层和由第二卷积核尺寸的卷积层；所述过渡层包括：由第三卷积核尺寸构成的第一最大池化层。

8.根据权利要求4所述的方法，其特征在于，所述识别层包括：检测头结构和检测输出结构，所述检测头结构包括第二最大池化层、检测卷积层及全局处理层，其中，所述检测卷积层中第一检测卷积层与第二检测卷积层具有相同卷积核尺寸，但步长不同且输出通道数不同；所述全局处理层中包括：全局最大池化层以及第一处理卷积层和第二处理卷积层，所述第一处理卷积层与所述第二处理卷积层具有相同卷积核尺寸和步长，但输出通道数不同；其中，

所述检测卷积层的输出结果与所述全局处理层的输出结果将进行乘法运算，得到第一运算结果；

所述第二最大池化层与所述第一运算结果将进行加法运算，得到第二运算结果；

所述检测输出结构包括：第一输出卷积层和第二输出卷积层，其中，所述第一输出卷积层与所述第二输出卷积层具有相同卷积核尺寸和步长，但输出通道数不同；所述第二运算结果将输入所述检测输出结构。

9.根据权利要求1至8中任一项所述的方法，其特征在于，每一轮得到的所述对象识别信息中携带有当前轮迭代训练出的当前输出多维向量，所述当前输出多维向量为：

out＝a(x1+c+x2+n(y1+y2))

其中，out为所述当前输出多维向量，a是所述待处理对象的检测框个数，x1是置信度；c是目标类别指示系数，x2是关键点的坐标信息，n是关键点的个数，y1是坐标轴数，y2是用于指示目标车辆的。

10.根据权利要求1至8中任一项所述的方法，其特征在于，所述对象识别网络是通过如下方式进行训练得到的：

对训练中的对象识别网络进行多轮迭代训练至满足训练结束条件，得到训练后的对象识别网络；其中，一轮迭代训练包括：

利用训练中的对象识别网络，对道路图像样本进行多次识别处理，得到所述样本道路图像的多个对象识别信息；

基于所述样本道路图像的多个对象识别信息中，历史对象的预测关键点信息和对应的标注关键点信息之间的差异信息，调整所述训练中的对象识别网络中的模型参数。

11.根据权利要求10所述的方法，其特征在于，所述基于所述样本道路图像的多个对象识别信息中，历史对象的预测关键点信息和对应的标注关键点信息之间的差异信息，调整所述训练中的对象识别网络中的模型参数，包括：

确定各历史对象各自对应的第一预测差异值；其中，所述预测差异值是基于对应的历史对象的预测关键点信息和对应的标注关键点信息之间的差异值；

基于确定出的各个第一预测差异值，确定综合预测差异值；

利用所述综合预测差异值调整所述训练中的对象识别网络中的模型参数。

12.根据权利要求11所述的方法，其特征在于，所述确定各历史对象各自对应的第一预测差异值之前，还包括：

响应于所述历史对象的对象尺寸小于第一预设尺寸阈值，对所述历史对象的第一预测差异值进行放大处理；和/或

响应于所述历史对象的对象尺寸大于第二预设尺寸阈值，对所述历史对象的第一预测差异值进行缩小处理。

13.根据权利要求12所述的方法，其特征在于，所述对所述历史对象的第一预测差异值进行放大处理，包括：

利用基于目标相对特征图比例构建的损失函数对所述第一预测差异值进行放大处理；或

基于第一参考值，对所述历史对象的第一预测差异值进行加权处理，所述第一参考值为大于1的值；或

用所述历史对象的第一预测差异值除以第二参考值，所述第二参考值为小于1的正数。

14.根据权利要求12所述的方法，其特征在于，所述对所述历史对象的第一预测差异值进行缩小处理，包括：

从所述第一预测差异值中扣除目标常量，以进行缩小处理；或

基于第三参考值，对所述历史对象的第一预测差异值进行加权处理，所述第三参考值为小于1的值；或

用所述历史对象的第一预测差异值除以第四参考值，所述第四参考值为大于1的正数。

15.一种对象识别装置，其特征在于，包括：

识别单元，利用训练后的对象识别网络，对包含待处理对象的道路图像进行多次识别处理，得到多个对象识别信息；其中，所述对象识别信息中至少包含针对所述待处理对象进行预测后得到的预测关键点信息和类别信息；所述对象识别网络是基于样本道路图像中历史对象的预测关键点信息和对应的标注关键点信息之间的差异信息进行训练得到的；

确定单元，用于基于所述多个对象识别信息，确定对所述待处理对象进行识别后得到的对象类别、位置信息和关键点。

16.一种计算机可读的存储介质，其特征在于，计算机可读的存储介质包括存储的程序，其中，程序运行时执行权利要求1至14任一项中所述的方法。

17.一种电子设备，包括存储器和处理器，其特征在于，存储器中存储有计算机程序，处理器被设置为通过计算机程序执行权利要求1至14任一项中所述的方法。