CN111160312A

CN111160312A - 目标识别方法、装置和电子设备

Info

Publication number: CN111160312A
Application number: CN202010000489.8A
Authority: CN
Inventors: 姜恒
Original assignee: Chongqing Unisinsight Technology Co Ltd
Current assignee: Chongqing Unisinsight Technology Co Ltd
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2020-05-15

Abstract

本申请的实施例提供了一种目标识别方法、装置和电子设备，涉及图像处理领域。该方法包括：获取待识别图像；将待识别图像输入至预先训练好的目标识别模型；目标识别模型包括第一细节信息提取模块、第二细节信息提取模块以及第一YOLO识别模块；利用第一细节信息提取模块提取待识别图像的第一层次细节信息；将第一层次细节信息输入至第二细节信息提取模块进行特征提取，得到第二层次细节信息；将第二层次细节信息输入至第一YOLO识别模块进行目标识别，得到第一识别结果。由于经过上述三个模块对待识别图像进行目标识别后，即可得到该待识别图像的第一识别结果，模型结构简单，运算量小，能够减少目标识别的识别时长并保证识别的准确率。

Description

目标识别方法、装置和电子设备

技术领域

本申请涉及图像处理领域，具体而言，涉及一种目标识别方法、装置和电子设备。

背景技术

随着计算机技术、神经网络技术的发展，越来越多的人用神经网络模型进行目标识别。目前通常是基于训练好的神经网络结构从一段视频或一张图片中识别出符合预设特征的目标物体。

由于不同的图片，其记录的信息几乎不会相同，以识别图片中记录的人为例，不同的图片，其记录的人的大小、被遮挡情况、环境中的光照强度以及天气状况通常都不相同，为了达到准确地从图片或视频中识别目标的目的，人们不得不使用结构复杂的神经网络结构对图片或视频进行目标识别。也即是说，为了对图片或视频中的目标进行准确识别，现有的神经网络结构通常非常复杂，且需要进行大量的运算，这会导致目标识别的过程耗时长，不能满足目标检测的需求。

发明内容

本申请的目的包括，例如，提供了一种目标识别方法、装置和电子设备，其能够减少目标识别的识别时长并保证识别的准确率。

本申请的实施例可以这样实现：

第一方面，实施例提供一种目标识别方法，包括：获取待识别图像；将所述待识别图像输入至预先训练好的目标识别模型；其中，所述目标识别模型包括第一细节信息提取模块、第二细节信息提取模块以及第一YOLO识别模块；利用所述第一细节信息提取模块提取所述待识别图像的第一层次细节信息；将所述第一层次细节信息输入至所述第二细节信息提取模块进行特征提取，得到所述待识别图像的第二层次细节信息；将所述第二层次细节信息输入至所述第一YOLO识别模块进行目标识别，得到所述待识别图像的第一识别结果。

在可选的实施方式中，所述第一YOLO识别模块包括第一语义信息提取层和第一YOLO识别层；所述将所述第二层次细节信息输入至所述第一YOLO识别模块进行目标识别，得到所述待识别图像的第一识别结果的步骤包括：将所述第二层次细节信息输入至所述第一语义信息提取层进行特征提取，输出所述待识别图像的第一层次语义信息；将所述第一层次语义信息输入至所述第一YOLO识别层进行目标识别，输出所述待识别图像的第一识别结果。

在可选的实施方式中，所述目标识别模型还包括第二YOLO识别模块；所述将所述第二层次细节信息输入至所述第一语义信息提取层进行特征提取，输出所述待识别图像的第一层次语义信息的步骤之后，所述方法还包括：将所述第一层次语义信息以及所述第二层次细节信息输入至所述第二YOLO识别模块进行目标识别，得到所述待识别图像的第二识别结果。

在可选的实施方式中，所述第二YOLO识别模块包括第一融合层、第二语义信息提取层、第二YOLO识别层；所述将所述第一层次语义信息以及所述第二层次细节信息输入至所述第二YOLO识别模块进行目标识别，得到所述待识别图像的第二识别结果的步骤包括：将所述第一层次语义信息以及所述第二层次细节信息输入至所述第一融合层进行特征融合，输出所述待识别图像的第一融合语义信息；将所述第一融合语义信息输入至所述第二语义信息提取层进行特征提取，输出所述待识别图像的第二层次语义信息；将所述第二层次语义信息输入至所述第二YOLO识别层进行目标识别，输出所述待识别图像的第二识别结果。

在可选的实施方式中，所述目标识别模型还包括第三YOLO识别模块；所述将所述第一融合语义信息输入至所述第二语义信息提取层进行特征提取，输出所述待识别图像的第二层次语义信息的步骤之后，所述方法还包括：将所述第二层次语义信息以及所述第一层次细节信息输入至所述第三YOLO识别模块进行目标识别，得到所述待识别图像的第三识别结果。

在可选的实施方式中，所述第三YOLO识别模块包括第二融合层、第三YOLO识别层；所述将所述第二层次语义信息以及所述第一层次细节信息输入至所述第三YOLO识别模块进行目标识别，得到所述待识别图像的第三识别结果的步骤包括：将所述第二层次语义信息以及所述第一层次细节信息输入至所述第二融合层进行特征融合，输出所述待识别图像的第二融合语义信息；将所述第二融合语义信息输入至所述第三YOLO识别层进行目标识别，输出所述待识别图像的第三识别结果。

在可选的实施方式中，所述第一细节信息提取模块依次包括一个卷积网络层、一个池化层、三个残差网络层、一个inception层以及三个残差网络层，所述第二细节信息提取模块依次包括一个inception层和五个残差网络层。

在可选的实施方式中，所述待识别图像的尺寸为960×544像素。

第二方面，实施例提供一种目标识别装置，包括：获取模块，用于获取待识别图像；识别模块，用于将所述待识别图像输入至预先训练好的目标识别模型；其中，所述目标识别模型包括第一细节信息提取模块、第二细节信息提取模块以及第一YOLO识别模块；所述识别模块，还用于利用所述第一细节信息提取模块提取所述待识别图像的第一层次细节信息；所述识别模块，还用于将所述第一层次细节信息输入至所述第二细节信息提取模块进行特征提取，得到所述待识别图像的第二层次细节信息；所述识别模块，还用于将所述第二层次细节信息输入至所述第一YOLO识别模块进行目标识别，得到所述待识别图像的第一识别结果。

在可选的实施方式中，所述第一YOLO识别模块包括第一语义信息提取层和第一YOLO识别层；所述识别模块用于将所述第二层次细节信息输入至所述第一语义信息提取层进行特征提取，输出所述待识别图像的第一层次语义信息；所述识别模块还用于将所述第一层次语义信息输入至所述第一YOLO识别层进行目标识别，输出所述待识别图像的第一识别结果。

在可选的实施方式中，所述目标识别模型还包括第二YOLO识别模块；所述识别模块用于将所述第一层次语义信息以及所述第二层次细节信息输入至所述第二YOLO识别模块进行目标识别，得到所述待识别图像的第二识别结果。

在可选的实施方式中，所述第二YOLO识别模块包括第一融合层、第二语义信息提取层、第二YOLO识别层；所述识别模块用于将所述第一层次语义信息以及所述第二层次细节信息输入至所述第一融合层进行特征融合，输出所述待识别图像的第一融合语义信息；所述识别模块还用于将所述第一融合语义信息输入至所述第二语义信息提取层进行特征提取，输出所述待识别图像的第二层次语义信息；所述识别模块还用于将所述第二层次语义信息输入至所述第二YOLO识别层进行目标识别，输出所述待识别图像的第二识别结果。

在可选的实施方式中，所述目标识别模型还包括第三YOLO识别模块；所述识别模块用于将所述第二层次语义信息以及所述第一层次细节信息输入至所述第三YOLO识别模块进行目标识别，得到所述待识别图像的第三识别结果。

在可选的实施方式中，所述第三YOLO识别模块包括第二融合层、第三YOLO识别层；所述识别模块用于将所述第二层次语义信息以及所述第一层次细节信息输入至所述第二融合层进行特征融合，输出所述待识别图像的第二融合语义信息；所述识别模块还用于将所述第二融合语义信息输入至所述第三YOLO识别层进行目标识别，输出所述待识别图像的第三识别结果。

第三方面，实施例提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如前述实施方式中任一项所述的目标识别方法。

本申请实施例的有益效果包括，例如：由于目标识别模型包括第一细节信息提取模块、第二细节信息提取模块以及第一YOLO识别模块，在经过上述三个模块对待识别图像进行目标识别后，即可得到该待识别图像的第一识别结果，模型结构简单，运算量小，故本申请够减少目标识别的识别时长并保证识别的准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的电子设备的一种结构框图；

图2为本申请实施例所提供的目标识别方法的一种流程图；

图3为本申请实施例所提供的目标识别模型的一种结构示意图；

图4为本申请实施例所提供的目标识别方法的另一种流程图；

图5为本申请实施例所提供的目标识别模型的另一种结构示意图；

图6为本申请实施例所提供的目标识别模型的另一种结构示意图；

图7为本申请实施例所提供的目标识别方法的另一种流程图；

图8为本申请实施例所提供的目标识别方法的另一种流程图；

图9为本申请实施例所提供的目标识别模型的另一种结构示意图；

图10为本申请实施例所提供的目标识别模型的另一种结构示意图；

图11为本申请实施例所提供的目标识别方法的另一种流程图；

图12为本申请实施例所提供的目标识别方法的另一种流程图；

图13为本申请实施例所提供的目标识别模型的另一种结构示意图；

图14为本申请实施例所提供的卷积网络层的结构示意图；

图15为本申请实施例所提供的残差网络层的结构示意图；

图16为现有的残差网络层的结构示意图；

图17为本申请实施例所提供的inception层的结构示意图；

图18为本申请实施例所提供的上采样层的结构示意图；

图19为本申请实施例所提供的特征融合层的结构示意图；

图20为本申请实施例所提供的目标识别装置的一种功能模块图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

请参照图1，为本申请实施例所提供的电子设备100的一种结构框图。该电子设备100可以包括存储器110、处理器120、总线130和通信接口140，该存储器110、处理器120和通信接口140相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条总线130或信号线实现电性连接。处理器120可以处理与目标识别有关的信息和/或数据，以执行本申请中描述的一个或多个功能。例如，处理器120可以获取待识别图像，并根据上述数据进行目标识别，进而实现本申请提供的目标识别方法。

存储器110可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器120可以是一种集成电路芯片，具有信号处理能力。该处理器120可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解，图1所示的结构仅为示意，该电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。在实际应用中，该电子设备100可以是服务器、云平台、手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、手持计算机、上网本、个人数字助理(personal digital assistant，PDA)、可穿戴电子设备、虚拟现实设备等设备，因此本申请实施例对电子设备100的种类不做限制。

为了便于理解，本申请以下实施例将以图1所示的电子设备100为例，结合附图，对本申请实施例提供的目标识别方法进行具体阐述。

请参照图2，图2示出了本申请实施例提供的目标识别方法的一种流程图。该目标识别方法可以应用于上述的电子设备100，该目标识别方法可以包括以下步骤：

S100，获取待识别图像。

本申请提供的方法可以应用的场景包括：“道路卡口摄像头的人体、车辆、非机动车的检测识别”，当本申请提供的方法应用在上述场景时，上述获取的待识别图像的方式可以是：接收道路卡口摄像头实时生成的监控图像作为待识别图像。

由于道路卡口摄像头实时生成的监控图像的尺寸大小通常为1920×1080像素，为了确保输入预先训练好的目标识别模块的图片不产生普遍性的形变，并保留更多的原始信息。在接收到道路卡口摄像头实时生成的监控图像时，还可以对该监控图像进行预处理，即：将该监控图像的尺寸归一化为960×544像素的待识别图像，进而实现上述的S100。也即是说，上述的待识别图像的尺寸可以为960×544像素。

S110，将待识别图像输入至预先训练好的目标识别模型。

其中，目标识别模型可以包括第一细节信息提取模块、第二细节信息提取模块以及第一YOLO(You Only Look Once，一次性预测)识别模块。

可以理解的是，在应用本申请提供的方法之前，还需要对目标识别模型进行训练，以使得目标训练模型能够对输入的待识别图像进行识别，并得到该待识别图像中的符合预设特征的物体(即目标物体)的位置信息以及轮廓信息等。

S120，利用第一细节信息提取模块提取待识别图像的第一层次细节信息。

可以理解的是，上述的第一细节信息提取模块可以包括卷积网络层、池化层、inception层以及残差网络层等神经网络结构，通过这些网络结构可以初步从待识别图像中提取出第一细节信息。例如，请参照图3，该第一细节信息提取模块(即图3中的A)可以依次包括一个卷积网络层、一个池化层、三个残差网络层、一个inception层以及三个残差网络层。在获取到待识别图像时，可以先将待识别图像输入至该卷积网络层中，由该卷积网络层对该待识别图像进行特征提取并进行第一次下采样，然后池化层可以对卷积网络层输出的数据进行第二次下采样，然后由三个残差网络层对池化层输出的数据进行特征提取，再由一个inception层对前述的三个残差网络层输出的数据进行特征提取以及第三次下采样，最后由三个残差网络层对inception层输出的数据进行特征提取并最终得到该待识别图像的第一层次细节信息。

其中，上述的第一细节信息可以表示待识别图像中被识别出来的物体的浅层次的位置信息，例如，假设本申请提供的方法应用在“道路卡口摄像头的人体检测识别”场景(用于识别出图像中的人体)时，并假设待识别图像中包括有人体信息，则该第一细节信息表示人体位于待识别图像中的浅层次的位置信息。

S130，将第一层次细节信息输入至第二细节信息提取模块进行特征提取，得到待识别图像的第二层次细节信息。

可以理解的是，上述的第二细节信息提取模块可以包括inception层以及残差网络层等神经网络结构，通过这些网络结构可以进一步从待识别图像中提取出第二细节信息。例如，请参照图3，该第二细节信息提取模块(即图3中的B)可以依次包括一个inception层和三个残差网络层。在第一细节信息模块输出的第一层次细节信息时，inception层可以对该第一层次细节信息进行特征提取，并进行第四次下采样，然后由五个残差网络层对inception层输出的数据进行特征提取并最终得到该待识别图像的第二层次细节信息。

同样的，第二细节信息可以表示待识别图像中识别出来的物体的深层次的位置信息，例如，假设本申请提供的方法应用在“道路卡口摄像头的人体检测识别”场景(用于识别出图像中的人体)时，并假设待识别图像中包括有人体信息，则该第二细节信息表示人位于待识别图像中的深层次的位置信息。

需要说明的是，上述的浅层次的位置信息可以理解为精度较低的位置信息，深层次的位置信息可以理解为精度较高的位置信息。此外，还需要说明的是，图3中的输入是指将待识别图像输入至第一细节信息提取模块的卷积网络层中，“①”是指将第一层次细节信息输入至第二细节信息提取模块的inception层中，“③”是指将第二层次细节信息输入至第一YOLO识别模块中。

S140，将第二层次细节信息输入至第一YOLO识别模块进行目标识别，得到待识别图像的第一识别结果。

在获取到第二层次细节信息后，可以将该信息输入至第一YOLO识别模块进行目标识别，得到待识别图像的第一识别结果。可以理解的是，如图3，上述的第一YOLO识别模块可以包括inception层、残差网络层、卷积网络层、全连接层以及yolo(You Only Look Once，一次性预测)层等神经网络结构，通过这些网络结构可以进一步从第二层次细节信息中提取出待识别图像的第一识别结果。进而实现识别出待识别图像中所包括的符合预设特征的目标物体，其中，上述的第一识别结果可以理解为所识别出来的目标物体在待识别图像中的位置、大小以及轮廓等信息。

应理解，由于目标识别模型包括第一细节信息提取模块、第二细节信息提取模块以及第一YOLO识别模块，在经过上述三个模块对待识别图像进行目标识别后，即可得到该待识别图像的第一识别结果，模型结构简单，运算量小，故本申请够减少目标识别的识别时长并保证识别的准确率。

进一步的，上述的第一YOLO识别模块可以包括第一语义信息提取层和第一YOLO识别层，请参照图4，上述的S140可以包括：

S140A，将第二层次细节信息输入至第一语义信息提取层进行特征提取，输出待识别图像的第一层次语义信息。

可以理解的是，第一语义信息提取层可以包括inception层、残差网络层等神经网络结构，通过这些网络结构可以进一步从第二层次细节信息中提取出待识别图像的第一层次语义信息。其中，上述的第一层次语义信息可以理解为待识别图像中的被识别出来的物体的类别信息。

S140B，将第一层次语义信息输入至第一YOLO识别层进行目标识别，输出待识别图像的第一识别结果。

可以理解的是，第一YOLO识别层可以包括卷积网络层、全连接层、yolo层等神经网络结构，通过这些网络结构可以进一步从第一层次语义信息中提取出待识别图像的第一识别结果。

下面再结合图5对上述的S140A-S140B做进一步解释。

例如，请参照图5，该第一YOLO识别模块可以依次包括一个第一语义信息提取层和一个第一YOLO识别层，第一语义信息提取层(即图5中的C1)可以依次包括一个inception层和两个残差网络层，第一YOLO识别层(即图5中的C2)可以依次包括一个卷积网络层、一个全连接层和一个yolo层。

在第二细节信息模块输出第二层次细节信息时，第一语义信息提取层可以对该第二层次细节信息进行特征提取，输出待识别图像的第一层次语义信息。即：inception层可以对第二层次细节信息进行特征提取，并进行第五次下采样，然后由两个残差网络层对inception层输出的数据进行特征提取，最终得到并输出该待识别图像的第一层次语义信息。

在第一语义信息提取层输出第一层次语义信息时，第一YOLO识别层可以对该第一层次语义信息进行特征提取，输出待识别图像的第一识别结果。即：卷积网络层可以对该第一层次语义信息进行特征提取，然后经过全连接层和yolo层对卷积网络层输出的数据进行目标识别，并最终得到并输出该待识别图像的第一识别结果。

需要说明的是，图5中的“③”是指将第二层次细节信息输入至第一YOLO识别模块的inception层中。

进一步的，为了增加本申请提供的方法中目标识别模型的目标识别能力，如图6所示，上述的目标识别模型还可以包括第二YOLO识别模块，请参照图7，在S140B之后，方法还包括：

S150，将第一层次语义信息以及第二层次细节信息输入至第二YOLO识别模块进行目标识别，得到待识别图像的第二识别结果。

在获取到第一层次语义信息后，可以将该第一层次语义信息以及第二层次细节信息输入至第二YOLO识别模块进行目标识别，得到待识别图像的第二识别结果。可以理解的是，上述的第二YOLO识别模块可以包括上采样层、特征融合层、卷积网络层、全连接层以及yolo层等神经网络结构，通过这些网络结构可以进一步从第一层次语义信息以及第二层次细节信息中提取出待识别图像的第二识别结果。其中，由于基于第二YOLO识别模块并结合第一层次语义信息以及第二层次细节信息对目标进行识别，进而可以识别出在预设维度上符合预设特征的目标物体，例如，假设该预设维度为尺寸维度，则S150可以识别出在第一预设尺寸维度上的目标物体。因此，本申请提供的方法能够识别出待识别图像中所包括的在第一预设维度上符合预设特征的目标物体。其中，同样的，上述的第二识别结果可以理解为所识别出来的目标物体在待识别图像中的位置、大小以及轮廓等信息。

应理解，第二YOLO识别模块还可以识别出待识别图像中所包括的在预设维度上符合预设特征的目标物体，进而使得本申请提供的方法能够识别更多维度上的目标物体，增加了本申请提供的方法中目标识别模型的目标识别能力。

需要说明的是，图6中的，“④”是指将第二层次细节信息输入至第二YOLO识别模块中，“⑤”是指将第一层次语义信息输入至第二YOLO识别模块中。

进一步的，上述的第二YOLO识别模块可以包括第一融合层、第二语义信息提取层、第二YOLO识别层，请参照图8，S150可以包括：

S150A，将第一层次语义信息以及第二层次细节信息输入至第一融合层进行特征融合，输出待识别图像的第一融合语义信息。

可以理解的是，第一融合层可以包括上采样层、特征融合层等神经网络结构，通过这些网络结构可以进一步从第一层次语义信息和第二层次细节信息中提取出待识别图像的第一融合语义信息。其中，上述的第一融合语义信息可以理解为将第一层次语义信息和第二层次细节信息进行特征拼接后的信息。

S150B，将第一融合语义信息输入至第二语义信息提取层进行特征提取，输出待识别图像的第二层次语义信息。

可以理解的是，第二语义信息提取层可以包括卷积网络层等神经网络结构，通过这些网络结构可以进一步从第一融合语义信息中提取出待识别图像的第二层次语义信息。其中，上述的第二层次语义信息可以理解为待识别图像中的被识别出来的物体的类别信息。

S150C，将第二层次语义信息输入至第二YOLO识别层进行目标识别，输出待识别图像的第二识别结果。

可以理解的是，第二YOLO识别层可以包括卷积网络层、全连接层、yolo层等神经网络结构，通过这些网络结构可以进一步从第二层次语义信息中提取出待识别图像的第二识别结果。

下面再结合图9对上述的S150A-S150C做进一步解释。

例如，请参照图9，该第二YOLO识别模块可以依次包括一个第一融合层、一个第二语义信息提取层以及一个第二YOLO识别层，第一融合层(即图9中的D1)可以依次包括一个上采样层和一个特征融合层，第二语义信息提取层(即图9中的D2)可以依次包括三个卷积网络层，第二YOLO识别层可以依次包括一个卷积网络层、一个全连接层和一个yolo层。

在第二细节信息模块输出第二层次细节信息以及第一语义信息提取层输出第一层次语义信息时，第一融合层可以对该第二层次细节信息以及第一层次语义信息进行特征融合，输出待识别图像的第一融合语义信息。即：上采样层可以对该第一层次语义信息进行上采样，使得其输出的数据(可以理解为，特征图或特征矩阵)的尺寸符合特征融合的要求(例如，对其输出的数据进行上采样使得其尺寸与第二层次细节信息的尺寸一致)，然后由特征融合层对上采样层输出的数据(即特征图或特征矩阵)以及第二层次细节信息进行特征融合(例如，将上采样层输出的特征矩阵与第二层次细节信息进行特征拼接)，最终得到并输出待识别图像的第一融合语义信息。

在第一融合层输出第一融合语义信息时，第二语义信息提取层可以对该第一融合语义信息进行特征提取，输出待识别图像的第二层次语义信息。即：三个卷积网络层可以对该第一融合语义信息进行特征提取，最终得到并输出该待识别图像的第二层次语义信息。

在第二语义信息提取层输出第二层次语义信息时，第二YOLO识别层可以对该第二层次语义信息进行特征提取，输出待识别图像的第二识别结果。即：卷积网络层可以对该第二层次语义信息进行特征提取，然后经过全连接层和yolo层对卷积网络层输出的数据进行目标识别，最终得到并输出该待识别图像的第二识别结果。

需要说明的是，图9中的，“④”是指将第二层次细节信息输入至第二YOLO识别模块的特征融合层中，“⑤”是指将第一层次语义信息输入至第二YOLO识别模块的上采样层中。

进一步的，为了增加本申请提供的方法中目标识别模型的目标识别能力，如图10所示，上述的目标识别模型可以包括第三YOLO识别模块，请参照图11，在S150B之后，上述方法还包括：

S160，将第二层次语义信息以及第一层次细节信息输入至第三YOLO识别模块进行目标识别，得到待识别图像的第三识别结果。

在获取到第二层次语义信息后，可以将该第二层次语义信息以及第一层次细节信息输入至第三YOLO识别模块进行目标识别，得到待识别图像的第三识别结果。可以理解的是，上述的第三YOLO识别模块可以包括上采样层、特征融合层、卷积网络层、全连接层以及yolo层等神经网络结构，通过这些网络结构可以进一步从第二层次语义信息以及第一层次细节信息中提取出待识别图像的第三识别结果。其中，由于基于第三YOLO识别模块并结合第二层次语义信息以及第一层次细节信息对目标进行识别，进而可以识别出在第二预设维度上符合预设特征的目标物体，例如，假设该第二预设维度为预设尺寸维度，则S160可以识别出在预设尺寸维度上的目标物体。因此，本申请提供的方法能够识别出待识别图像中所包括的在预设维度上符合预设特征的目标物体。其中，同样的，上述的第三识别结果可以理解为所识别出来的目标物体在待识别图像中的位置、大小以及轮廓等信息。

应理解，第三YOLO识别模块还可以识别出待识别图像中所包括的在预设维度上符合预设特征的目标物体，进而使得本申请提供的方法能够识别更多维度上的目标物体，增加了本申请提供的方法中目标识别模型的目标识别能力。

还应理解，上述的“第二YOLO识别模块可以识别出待识别图像中所包括的在预设维度上符合预设特征的目标物体，第三YOLO识别模块可以识别出待识别图像中所包括的在预设维度上符合预设特征的目标物体以及第一YOLO识别模块可以识别出待识别图像中所包括的在预设维度上符合预设特征的目标物体”，在实际应用中，通过对目标识别模型的参数调整，可以实现第一YOLO识别模块可以识别出小尺寸(例如，小于30×30像素的尺寸)的目标物体，第二YOLO识别模块可以识别出中尺寸(例如，30×30像素至90×90像素的尺寸)的目标物体，第三YOLO识别模块可以识别出大尺寸(例如，大于90×90像素的尺寸)的目标物体。

需要说明的是，图10中的，“②”是指将第一层次细节信息输入至第三YOLO识别模块中，“⑥”是指将第二层次语义信息输入至第三YOLO识别模块中。

进一步的，上述的第三YOLO识别模块可以包括第二融合层、第三YOLO识别层，请参照图12，S160可以包括：

S160A，将第二层次语义信息以及第一层次细节信息输入至第二融合层进行特征融合，输出待识别图像的第二融合语义信息。

可以理解的是，第二融合层可以包括上采样层、特征融合层等神经网络结构，通过这些网络结构可以进一步从第二层次语义信息和第一层次细节信息中提取出待识别图像的第二融合语义信息。其中，上述的第二融合语义信息可以理解为将第二层次语义信息和第一层次细节信息进行特征拼接后的信息。

S160B，将第二融合语义信息输入至第三YOLO识别层进行目标识别，输出待识别图像的第三识别结果。

可以理解的是，第三YOLO识别层可以包括卷积网络层、全连接层、yolo层等神经网络结构，通过这些网络结构可以进一步从第二层次语义信息中提取出待识别图像的第二识别结果。

下面再结合图13对上述的S150A-S150C做进一步解释。

例如，请参照图13，该第一YOLO识别模块可以依次包括一个第二融合层以及一个第三YOLO识别层，第二融合层(即图13中的E1)可以依次包括一个上采样层和一个特征融合层，第三YOLO识别层(即图13中的E2)可以依次包括四个卷积网络层、一个全连接层和一个yolo层。

在第一细节信息模块输出第一层次细节信息以及第二语义信息提取层输出第二层次语义信息时，第二融合层可以对该第一层次细节信息以及第二层次语义信息进行特征融合，输出待识别图像的第二融合语义信息。即：上采样层可以对该第二层次语义信息进行上采样，使得其输出的数据(可以理解为，特征图或特征矩阵)的尺寸符合特征融合的要求(例如，对其输出的数据进行上采样使得其尺寸与第一层次细节信息的尺寸一致)，然后由特征融合层对上采样层输出的数据(即特征图或特征矩阵)以及第一层次细节信息进行特征融合(例如，将上采样层输出的特征矩阵与第一层次细节信息进行特征拼接)，最终得到并输出待识别图像的第二融合语义信息。

在第二融合层输出第二融合语义信息时，第三YOLO识别层可以对该第二融合语义信息进行特征提取，输出待识别图像的第三识别结果。即：卷积网络层可以对该第二融合语义信息进行特征提取，然后经过全连接层和yolo层对卷积网络层输出的数据进行目标识别，最终得到并输出该待识别图像的第三识别结果。

需要说明的是，图13中的，“②”是指将第一层次细节信息输入至第三YOLO识别模块的特征融合层中，“⑥”是指将第二层次语义信息输入至第三YOLO识别模块的上采样层中。

在本实施例中，请参照图14，本申请所述的卷积网络层可以依次包括一个卷积层、一个Batch_normalize层(BN层)和一个leaky(激活)层。

请参照图15，本申请所述的残差网络层可以从输入开始包括两个分支结构，其中一个分支结构可以依次包括一个卷积层、一个Batch_normalize层(BN层)和一个leaky层，另一个分支结构直接与Shortcut层(短路层)连接。上述的残差网络层能够避免网络层数过深而引起梯度消失的情况。目前，现有的残差网络层通常为图16所示的结构，该结构虽然能够实现通道数的升维和降维，以及通道间的信息融合，但是对识别模型的精度没有帮助，反而在频繁使用该结构时会影响浅层特征融合以及提取，因此，与现有的残差网络层的结构相比，本申请提供的残差网络层有助于减小计算量，简化模型结构。

请参照图17，本申请所述的inception层可以包括两个分支结构(这两个分支结构与一个Shortcut层连接，该Shortcut层与输出连接)，其中一个分支结构可以依次包括一个卷积层、一个Batch_normalize层和一个leaky层，另一个分支结构可以依次包括一个route层、一个卷积层、一个Batch_normalize层和一个leaky层。目前，现有的目标识别模型通常采用卷积网络层进行下采样，这样会损失部分信息，而与现有的下采样过程相比，本申请提供的inception层能更多维度地保留信息，不仅能实现不同特征图之间的特征融合，还能实现下采样。

请参照图18，本申请所述的上采样层可以依次包括一个route层(路由层)、一个解卷积层、一个Batch_normalize层和一个leaky层。

请参照图19，本申请所述的特征融合层可以包括两个输入分支(这两个输入分支与一个Shortcut层连接，该Shortcut层与输出连接)，其中一个输入分支可以依次包括一个解卷积层和一个linear层(线性激活层)，另一个输入分支直接与Shortcut层连接。

为了进一步验证本申请所提供方法的有益效果，本申请发明人还对本申请所提供方法做了实验验证，与现有的目标识别方法(例如，现有的yolov3-608模型)相比，本申请所提供方法中的目标识别模型在浮点数运算量上降低到现有目标识别模型的1/8，速度提升到现有目标识别模型的3倍。其中，yolov3-608模型的运算量为65.86Bn，在telsa-k80单显卡上运行1000次，测试每次的平均耗时是0.177059sec；本申请所提供方法中的目标识别模型的运算量为7.74Bn，在telsa-k80单显卡上运行1000次，测试每次的平均耗时是0.059481sec。

进一步的，下面结合实际应用场景“道路卡口摄像头的人体、车辆、非机动车的检测识别”对如何训练本申请所述方法中的目标识别模型做进一步解释。

①、从多个道路卡口摄像头记录的视频中抽帧，获取原始图片集，尽量选取多场景多时段、多天气条件、多视角下的视频图片信息。

②、用标注工具将原始图片集中的行人、机动车、非机动按照0、1、2类别画框标注，并确保各类别的总数量比例均衡。最终获取到10万张图片，并基于这10万张图片构建训练集和测试集，以及确保测试集和训练集的场景独立，即测试集的场景未在训练集中出现过。

③、如果训练数据场景不够丰富，可以采用人工数据增强的方式扩充数据，扩充数据的方式包括但不限于以下几种：随机裁剪、随机翻转、调整图片色调曝光度、增加噪声、dropblock、通过GAN网络生成等等。

④、将训练集的图片送入本申请所述方法中的目标识别模型训练，迭代250epoch之后，在测试集上验证指标。测试的指标采用pascal voc通用的目标检测评价指标mAP@0.5，以及置信度0.3阈值下的准确率P和召回率R。

其中，本申请所述方法中的目标识别模型的训练效果可参加下表1。

表1

为了执行上述实施例及各个可能的方式中的相应步骤，下面给出一种目标识别装置的实现方式，请参阅图20，图20示出了本申请实施例提供的目标识别装置的一种功能模块图。需要说明的是，本实施例所提供的目标识别装置300，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该目标识别装置300包括：获取模块310、识别模块320。

可选地，上述模块可以软件或固件(Firmware)的形式存储于存储器中或固化于本申请提供的电子设备100的操作系统(Operating System，OS)中，并可由电子设备100中的处理器执行。同时，执行上述模块所需的数据、程序的代码等可以存储在存储器中。

获取模块310可以用于获取待识别图像。

可以理解的是，获取模块310可以用于支持电子设备100执行上述S100等，和/或用于本文所描述的技术的其他过程。

识别模块320可以用于将所述待识别图像输入至预先训练好的目标识别模型；其中，所述目标识别模型包括第一细节信息提取模块、第二细节信息提取模块以及第一YOLO识别模块。

可以理解的是，识别模块320可以用于支持电子设备100执行上述S110等，和/或用于本文所描述的技术的其他过程。

识别模块320可以用于利用所述第一细节信息提取模块提取所述待识别图像的第一层次细节信息。

可以理解的是，识别模块320可以用于支持电子设备100执行上述S120等，和/或用于本文所描述的技术的其他过程。

识别模块320可以用于将所述第一层次细节信息输入至所述第二细节信息提取模块进行特征提取，得到所述待识别图像的第二层次细节信息。

可以理解的是，识别模块320可以用于支持电子设备100执行上述S130等，和/或用于本文所描述的技术的其他过程。

识别模块320可以用于将所述第二层次细节信息输入至所述第一YOLO识别模块进行目标识别，得到所述待识别图像的第一识别结果。

可以理解的是，识别模块320可以用于支持电子设备100执行上述S140等，和/或用于本文所描述的技术的其他过程，例如，S140A、S140B、S150、S150A、S150B、S150C、S160、S160A、S160B。

基于上述方法实施例，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述目标识别方法的步骤。

具体地，该存储介质可以为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述目标识别方法，从而解决现有的神经网络结构通常非常复杂，且需要进行大量的运算，这会导致目标识别的过程耗时长，不能满足目标检测的需求的问题，实现减少目标识别的识别时长并保证识别的准确率的目的。

综上所述，本申请实施例提供了一种目标识别方法、装置和电子设备，该方法包括：获取待识别图像；将待识别图像输入至预先训练好的目标识别模型；其中，目标识别模型包括第一细节信息提取模块、第二细节信息提取模块以及第一YOLO识别模块；利用第一细节信息提取模块提取待识别图像的第一层次细节信息；将第一层次细节信息输入至第二细节信息提取模块进行特征提取，得到待识别图像的第二层次细节信息；将第二层次细节信息输入至第一YOLO识别模块进行目标识别，得到待识别图像的第一识别结果。由于目标识别模型包括第一细节信息提取模块、第二细节信息提取模块以及第一YOLO识别模块，在经过上述三个模块对待识别图像进行目标识别后，即可得到该待识别图像的第一识别结果，模型结构简单，运算量小，故本申请够减少目标识别的识别时长并保证识别的准确率。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种目标识别方法，其特征在于，包括：

获取待识别图像；

将所述待识别图像输入至预先训练好的目标识别模型；其中，所述目标识别模型包括第一细节信息提取模块、第二细节信息提取模块以及第一YOLO识别模块；

利用所述第一细节信息提取模块提取所述待识别图像的第一层次细节信息；

将所述第一层次细节信息输入至所述第二细节信息提取模块进行特征提取，得到所述待识别图像的第二层次细节信息；

将所述第二层次细节信息输入至所述第一YOLO识别模块进行目标识别，得到所述待识别图像的第一识别结果。

2.根据权利要求1所述的方法，其特征在于，所述第一YOLO识别模块包括第一语义信息提取层和第一YOLO识别层；

所述将所述第二层次细节信息输入至所述第一YOLO识别模块进行目标识别，得到所述待识别图像的第一识别结果的步骤包括：

将所述第二层次细节信息输入至所述第一语义信息提取层进行特征提取，输出所述待识别图像的第一层次语义信息；

将所述第一层次语义信息输入至所述第一YOLO识别层进行目标识别，输出所述待识别图像的第一识别结果。

3.根据权利要求2所述的方法，其特征在于，所述目标识别模型还包括第二YOLO识别模块；

所述将所述第二层次细节信息输入至所述第一语义信息提取层进行特征提取，输出所述待识别图像的第一层次语义信息的步骤之后，所述方法还包括：

将所述第一层次语义信息以及所述第二层次细节信息输入至所述第二YOLO识别模块进行目标识别，得到所述待识别图像的第二识别结果。

4.根据权利要求3所述的方法，其特征在于，所述第二YOLO识别模块包括第一融合层、第二语义信息提取层、第二YOLO识别层；

所述将所述第一层次语义信息以及所述第二层次细节信息输入至所述第二YOLO识别模块进行目标识别，得到所述待识别图像的第二识别结果的步骤包括：

将所述第一层次语义信息以及所述第二层次细节信息输入至所述第一融合层进行特征融合，输出所述待识别图像的第一融合语义信息；

将所述第一融合语义信息输入至所述第二语义信息提取层进行特征提取，输出所述待识别图像的第二层次语义信息；

将所述第二层次语义信息输入至所述第二YOLO识别层进行目标识别，输出所述待识别图像的第二识别结果。

5.根据权利要求4所述的方法，其特征在于，所述目标识别模型还包括第三YOLO识别模块；

所述将所述第一融合语义信息输入至所述第二语义信息提取层进行特征提取，输出所述待识别图像的第二层次语义信息的步骤之后，所述方法还包括：

将所述第二层次语义信息以及所述第一层次细节信息输入至所述第三YOLO识别模块进行目标识别，得到所述待识别图像的第三识别结果。

6.根据权利要求5所述的方法，其特征在于，所述第三YOLO识别模块包括第二融合层、第三YOLO识别层；

所述将所述第二层次语义信息以及所述第一层次细节信息输入至所述第三YOLO识别模块进行目标识别，得到所述待识别图像的第三识别结果的步骤包括：

将所述第二层次语义信息以及所述第一层次细节信息输入至所述第二融合层进行特征融合，输出所述待识别图像的第二融合语义信息；

将所述第二融合语义信息输入至所述第三YOLO识别层进行目标识别，输出所述待识别图像的第三识别结果。

7.根据权利要求1所述的方法，其特征在于，所述第一细节信息提取模块依次包括一个卷积网络层、一个池化层、三个残差网络层、一个inception层以及三个残差网络层，所述第二细节信息提取模块依次包括一个inception层和五个残差网络层。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述待识别图像的尺寸为960×544像素。

9.一种目标识别装置，其特征在于，包括：

获取模块，用于获取待识别图像；

识别模块，用于将所述待识别图像输入至预先训练好的目标识别模型；其中，所述目标识别模型包括第一细节信息提取模块、第二细节信息提取模块以及第一YOLO识别模块；

所述识别模块，还用于利用所述第一细节信息提取模块提取所述待识别图像的第一层次细节信息；

所述识别模块，还用于将所述第一层次细节信息输入至所述第二细节信息提取模块进行特征提取，得到所述待识别图像的第二层次细节信息；

所述识别模块，还用于将所述第二层次细节信息输入至所述第一YOLO识别模块进行目标识别，得到所述待识别图像的第一识别结果。

10.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1-8中任一项所述的目标识别方法。