CN112036455B

CN112036455B - 一种图像识别方法、智能终端和存储介质

Info

Publication number: CN112036455B
Application number: CN202010839529.8A
Authority: CN
Inventors: 鲁逸峰; 郑春煌; 邬国栋; 金达; 吴剑峰; 程德强; 周祥明
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2023-09-01
Anticipated expiration: 2040-08-19
Also published as: CN112036455A

Abstract

本申请公开了一种图像识别方法、智能终端和存储介质，方法包括：获取到待识别图像；通过第一网络模型对待识别图像进行特征提取，得到待识别图像的特征图；通过第一网络模型对特征图进行第一次目标识别以及目标定位，得到第一类别结果以及第一目标位置；通过第二网络模型基于第一目标位置对特征图进行第二次目标识别，得到第二类别结果；其中，第二网络模型是通过设定样本集训练得到的；将第一类别结果和第二类别结果进行加权融合计算，得到待识别图像的类别结果。通过对待识别图像中目标对象的类别进行两次识别，提高了对待识别图像类别识别的准确率，增强了网络模型整体的泛化性能；实现了共享特征图，简化了计算过程，缩减了模型耗时。

Description

一种图像识别方法、智能终端和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种图像识别方法、智能终端和存储介质。

背景技术

随着计算机技术的迅速发展，对图像中物体的类别进行识别的技术已在越来越多的领域得到了应用。现有技术中，对图像进行处理的过程中，往往采用单一的检测分类网络模型对整体图像进行处理，并要求图像中的物体是检测分类网络模型所支持的类别，从而得到图像中目标对象的类别识别结果。但是单一的检测分类网络模型并未对图像中的目标对象的特征信息进行有效利用，导致对检测分类网络模型对图像中目标对象的类别识别率较低，从而影响识别的准确性。

发明内容

本申请主要解决的技术问题是提供一种图像识别方法、智能终端和存储介质，解决现有技术中对图像中目标对象进行类别识别准确率低的问题。

为解决上述技术问题，本申请采用的第一个技术方案是：提供一种图像识别方法，图像识别方法包括：获取到待识别图像；通过第一网络模型对待识别图像进行特征提取，得到待识别图像的特征图；通过第一网络模型对特征图进行第一次目标识别以及目标定位，得到第一类别结果以及第一目标位置；通过第二网络模型基于第一目标位置对特征图进行第二次目标识别，得到第二类别结果；其中，第二网络模型是通过设定样本集训练得到的；将第一类别结果和第二类别结果进行加权融合计算，得到待识别图像的类别结果。

其中，设定样本集至少包括设定比例的常规样本中的困难样本、易错样本以及特定场景样本。

其中，对待识别图像进行特征提取，得到待识别图像的特征图的步骤包括：对待识别图像进行第一次特征提取，得到第一次提取特征图；对第一次提取特征图进行第二次特征提取，得到第二次提取特征图；通过第一网络模型对特征图进行第一次目标识别以及目标定位，得到第一类别结果以及第一目标位置的步骤包括：通过第一网络模型对第二次提取特征图进行第一次目标识别以及目标定位，得到第一类别结果以及第一目标位置；通过第二网络模型基于第一目标位置对特征图进行第二次目标识别，得到第二类别结果的步骤包括：将第一目标位置以及第一次提取特征图进行映射，得到映射后的特征图；对映射后的特征图进行第二次目标识别，得到第二类别结果。

其中，对映射后的特征图进行第二次目标识别，得到第二类别结果的步骤包括：对映射后的特征图进行池化处理，得到池化后的特征图；对池化后的特征图进行目标特征提取，得到池化后的特征图的目标特征向量；利用目标特征向量进行第二次目标识别，得到第二类别结果。

其中，通过第一网络模型对待识别图像进行特征提取，得到待识别图像的特征图的步骤包括：利用特征提取网络对待识别图像进行卷积和降采样处理，得到待识别图像的特征图。

其中，将所述第一类别结果和所述第二类别结果进行加权融合计算的步骤还包括：当判断场景为日模式时，所述第一类别结果的权重大于所述第二类别结果的权重；当判断场景为夜模式时，所述第一类别结果的权重小于所述第二类别结果的权重。

其中，通过第一网络模型对待识别图像进行特征提取，得到待识别图像的特征图的步骤还包括：对待识别图像进行归一化处理，并将处理后的图像调整到设定尺寸。

其中，获取到待识别图像的步骤之前还包括：对第一网络模型和第二网络模型进行训练。

其中，对第一网络模型和第二网络模型进行训练的步骤中具体包括：对第一网络模型进行训练的方法包括：采集第一训练样本集，第一训练样本集包括多个第一图像样本，第一图像样本为标记有目标对象真实位置和真实类别的图像；将第一图像样本输入到第一初始网络模型中得到第一特征图；对第一特征图识别得到目标对象的第一检测位置和第一检测类别；通过第一检测位置与真实位置、第一检测类别和真实类别构建第一损失函数；利用第一损失函数对第一初始网络模型进行迭代训练得到第一网络模型。

其中，对第一网络模型和第二网络模型进行训练的步骤中具体包括：对第二网络模型进行训练的方法包括：采集第二训练样本集，第二训练样本集包括多个第二图像样本，第二图像样本为标记有目标对象真实位置和真实类别的图像；通过第一网络模型对第二图像样本进行识别得到特征图以及特征图对应的检测位置；将特征图和特征图对应的检测位置输入到第二初始网络模型得到第二特征图；对第二特征图识别得到目标对象的第二检测类别；通过第二检测类别和真实类别构建第二损失函数；利用第二损失函数对第二初始网络模型进行迭代训练得到第二网络模型。

其中，第一分类网络模型包括输入层、特征提取层和检测层；特征提取层为轻量级卷积神经网络；将第一图像样本输入到第一初始网络模型中得到第一特征图的步骤具体包括：将第一图像样本输入到输入层中，并对第一图像样本进行预处理；其中，预处理包括归一化处理和压缩处理；通过特征提取层对预处理的第一图像样本进行特征提取得到第一特征图；对第一特征图识别得到目标对象的第一检测位置和第一检测类别的步骤具体包括：通过检测层对第一特征图进行识别得到目标对象的第一检测位置和第一检测类别。

其中，将第一类别结果和第二类别结果进行加权融合计算，得到待识别图像的类别结果的步骤具体包括：对第一类别结果分配第一加权系数，对第二类别结果分配第二加权系数，第一加权系数和第一类别结果的乘积与第二加权系数和第二类别结果的乘积之和为待识别图像的最终类别结果；其中，第一加权系数与第二加权系数之和为1。

为解决上述技术问题，本申请采用的第二个技术方案是：提供一种智能终端，智能终端包括存储器、处理器以及存储于存储器中并在处理器上运行的计算机程序，处理器用于实现如上述图像识别方法中的步骤。

为解决上述技术问题，本申请采用的第三个技术方案是：提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述图像识别方法中的步骤。

本申请的有益效果是：区别于现有技术的情况，本申请提供的一种图像识别方法、智能终端和存储介质，图像识别方法中通过第一网络模型对获取的待识别图像进行特征提取得到待识别图像的特征图；第一网络模型对待识别图像的特征图进行第一次识别得到第一类别结果以及第一目标位置；第二网络模型基于第一网络模型中得到的第一目标位置对待识别图像的特征图进行第二次识别，得到第二类别结果，将的到的第二类别结果与第一类别结果进行加权融合计算得到待识别图像中目标对象的类别结果。本申请通过第一网络模型和第二网络模型对待识别图像的类别进行两次识别，第二网络模型针对于第一网络模型识别困难的图像进行识别，增强了网络模型整体的泛化性能；且第二网络模型对第一网络模型识别得到的待识别图像的特征图进行第二次识别，实现了共享待识别图像的特征图，极大的减小了网络模型整体的计算量，简化了计算过程，缩减了模型耗时；通过将识别的第一类别结果和第二类别结果进行加权融合得到待识别图像的类别，提高了对待识别图像类别识别的准确率。

附图说明

图1是本申请提供的图像识别方法第一实施例的流程示意图；

图2是图1中第一网络模型和第二网络模型的结构示意图；

图3是本申请提供的图像识别方法第二实施例的流程示意图；

图4是图3中第一网络模型和第二网络模型训练的结构示意图；

图5是本申请智能终端一实施方式的示意图；

图6本申请存储介质一实施例的结构示意图。

具体实施方式

为使本领域的技术人员更好地理解本申请的技术方案，下面结合附图和具体实施方式对本申请所提供的一种图像识别方法、智能终端和存储介质做进一步详细描述。

请参阅图1和图2，图1是本申请提供的图像识别方法第一实施例的流程示意图；图2是图1中第一网络模型和第二网络模型的结构示意图。在本实施例中，当需要对道路上的目标对象进行类别识别时，可以采用第一网络模型和第二网络模型实现对图像中目标对象类别的识别。具体图像识别方法具体包括如下步骤。

S11：获取到待识别图像。

具体地，通过摄像头采集图像得到待识别图像。其中，待识别图像包括包含有行人、车辆、非机动车、动物等目标对象的交通场景图像。待识别图像的背景可以是白昼也可以是暗夜。在一可选实施例中，待识别图像中的待识别对象可以是一个，也可以是多个；待识别图像中的待识别对象可以是同一类别的，也可以是不同类型的。

S12：通过第一网络模型对待识别图像进行特征提取，得到待识别图像的特征图。

具体地，第一网络模型至少包括输入层41、第一特征提取层42和检测层44。将待识别图像输入到第一网络模型中的输入层41，输入层41对待识别图像进行归一化处理以去除像素受光照或阴影的影响而产生颜色变化，并将归一化处理的待识别图像的像素调节至设定值。在一具体实施例中，将待识别图像的像素缩放至704*448。输入层41将归一化处理的待识别图像输出给第一特征提取层42，第一特征提取层42对像素调节后的待识别图像进行第一次特征提取，得到第一次提取特征图。在一具体实施例中，对归一化处理的待识别图像进行多次卷积和降采样处理以得到第一次提取特征图。其中，第一次提取特征图的尺寸可以为88*56*192。在一可选实施例中，第一特征提取层42将第一提取特征图输出给第二特征提取层43，第二特征提取层43对第一次提取特征图进行第二次特征提取，得到第二次提取特征图。具体地，第二特征提取层43对第一次提取特征图继续进行多次卷积和降采样处理得到第二次提取特征图。其中，第二次提取特征图的尺寸可以为88*56*192。

S13：通过第一网络模型对特征图进行第一次目标识别以及目标定位，得到第一类别结果以及第一目标位置。

具体地，第一网络模型中的第一特征提取层42将第一次提取特征图输出给检测层44，检测层44中回归层442对上述第一次提取特征图中目标对象的位置进行定位，分类层441对该位置的目标对象的类别进行检测，得到第一次提取特征图中目标对象的第一目标位置以及目标对象的第一类别结果45。在另一可选实施例中，第一网络模型中的第二特征提取层43将第二次提取特征图输出给检测层44，检测层44中回归层442对上述第二次提取特征图中目标对象的位置进行定位，并通过分类层441对该位置的目标对象的类别进行检测，得到第二次提取特征图中目标对象的第一目标位置以及目标对象的第一类别结果45。

S14：通过第二网络模型基于第一目标位置对特征图进行第二次目标识别，得到第二类别结果；其中，第二网络模型是通过设定样本集训练得到的。

具体地，第一网络模型中的检测层44将检测得到的第一目标位置输出给第二网络模型。第二网络模型包括映射层51、特征层52、池化层53、第三特征提取层54和类别检测层55。第一网络模型中的检测层44将检测得到的第一目标位置输出给第二网络模型中的映射层51，第一特征提取层42将第一次提取特征图输出给特征层52，映射层51的的第一目标位置映射到特征层52的第一次提取特征图得到映射后的特征图；映射层51和特征层52将映射后的特征图输出给池化层53，池化层53对映射后的特征图进行池化操作得到池化后的特征图，池化层53将池化后的特征图输出给第三特征提取层54，第三特征提取层54对池化后的特征图进行目标特征提取，得到池化后的特征图的目标特征向量，利用目标特征向量进行第二次目标识别，得到待识别图像中目标对象的的第二类别结果56。其中，第二网络模型通过设定样本集训练得到。设定样本集至少包括设定比例的常规样本中的困难样本、易错样本以及特定场景样本。其中，困难样本和易错样本均为第一网络模型检测准确率低的样本图像。在一具体实施例中，困难样本和易错样本为第一网络模型检测目标对象类别准确率低于50％的样本图像。困难样本为样本图像模糊的远景样本图像，第一网络模型只能识别样本图像中目标对象的位置和目标图像的轮廓。易错样本为样本图像中目标对象不易分辨类别的样本图像，第一网络模型将样本图像中目标对象的类别识别为与其相似的类别。特殊场景样本为相对于普通场景来说，比如雨夜拍摄的交通场景图像、下雪时拍摄的交通场景图像等。

S15：将第一类别结果和第二类别结果进行加权融合计算，得到待识别图像的类别结果。

具体地，当判断场景为日模式时，第一类别结果45的权重大于第二类别结果56的权重；当判断场景为夜模式时，第一类别结果45的权重小于第二类别结果56的权重。对第一类别结果45分配第一加权系数，对第二类别结果56分配第二加权系数，第一加权系数和第一类别结果45的乘积与第二加权系数和第二类别结果56的乘积之和为待识别图像的最终类别结果60；其中，第一加权系数与第二加权系数之和为1。具体地，当判断场景为日模式时，第一加权系数大于第二加权系数；当判断场景为夜模式时，第一加权系数小于第二加权系数。

在一具体实施例中，通过如下公式对第一网络模型检测的第一类别结果45与第二网络模型检测的第二类别结果56进行加权融合计算得到待识别图像中目标对象的最终类别结果60。

通过如下公式(2)算最终类别结果60：

其中，R为待识别图像的最终类别结果60；k₁为第一类别结果45；k₂为第二类别结果56；β为加权参数，取值范围为1～5。

在一优选实施例中，第一类别结果45和第二类别结果56的权重相同。在另一可选实施例中，加权参数β为外部控制系数，取值范围为1～5，β越大，则第二类别结果56所占的权重越大。加权参数β为经验值，由使用人员根据需要自行调配。具体地，由于第一网络模型通用场景下目标对象的识别具有较稳定且良好的识别效果，第二网络模型对于暗夜和/或模糊场景下目标对象的识别具有较稳定且良好的识别效果。因此，当摄像头采集的待处理图像处于白天场景，β可取较小值；当摄像头采集的待处理图像处于夜晚模糊场景，β取较大值。

在一具体实施例中，通过摄像头采集白天某交通要道上的图像，采集的图像中包含有一个行人和一辆小轿车。将该采集的图像作为待识别图像，将该待识别图像输入到第一网络模型的输入层41，输入层41对待识别图像进行归一化处理以去除像素受光照或阴影的影响而产生颜色变化，并将归一化处理的待识别图像的像素调节至704*448后得到第一预处理图像，输入层41将第一预处理图像输入到第一特征提取层42，第一特征提取层42对第一预处理图像进行卷积和降采样处理以得到第一特征图，第一特征图中包含行人和小轿车，第一特征图的尺寸为88*56*192。第一特征提取层42分别将第一特征图输出给第二特征提取层43和第二网络模型的特征层52，第二特征提取层43对接收的第一特征图进行卷积和降采样处理得到第二特征图，第二特征图中更具体的包含行人的基本特征和小轿车的基本型号。第二特征图的尺寸与第一特征图的尺寸相同。第二特征提取层43将第二特征图输出给检测层44，检测层44对第一特征图中行人和小轿车的位置和类别进行检测，得到行人的位置结果为(4，4)，行人位置结果对应的行人的第一类别结果45为人类，小轿车的位置结果为(10，15)，小轿车的位置结果对应的小轿车的第一类别结果45为车辆。检测层44将第一网络模型检测的行人和小轿车的位置结果输出给第二网络模型的映射层51，映射层51将获取的位置结果与特征层52的第一特征图的位置进行映射得到第二预处理特征图。使第二网络模型和第一网络模型中同一位置目标对象的类别相对应。映射层51和特征层52将第二预处理特征图输出给池化层53，池化层53对第二预处理特征图进行ROI池化操作，将第二预处理特征图调整至7*7大小后将其输出给第三特征提取层54，第三特征提取层54对池化后的第二预处理特征图进行卷积和零次降采样处理，并将其尺寸调解至7*7*256得到第三特征图。在另一可选实施例中，可以对卷积后的特征图进行一次降采样处理，将其尺寸调节至3*3*256得到第三特征图，在此对特征图的降采样的处理次数不限于零次和一次。第三特征提取层54将第三特征图输出给类别检测层55，类别检测层55对第三特征图中的目标对象进行识别，确定第三特征图中目标对象的第二类别结果56，行人的第二类别结果56是女人，小轿车的第二类别结果56是机动车辆。由于采集的待处理图像背景是白天，β取值为2，通过得到的第一类别结果45和第二类别结果56进行加权融合计算得到待识别图像中目标对象类别的最终识别结果。

本实施例提供的一种图像识别方法，通过第一网络模型对获取的待识别图像进行特征提取得到待识别图像的特征图；第一网络模型对待识别图像的特征图进行第一次识别得到第一类别结果以及第一目标位置；第二网络模型基于第一网络模型中得到的第一目标位置对待识别图像的特征图进行第二次识别，得到第二类别结果，将得到的第二类别结果与第一类别结果进行加权融合计算得到待识别图像中目标对象的类别结果。本实施例通过第一网络模型和第二网络模型对待识别图像中目标对象的类别进行两次识别，第二网络模型针对于第一网络模型识别困难的目标对象进行识别，增强了网络模型整体的泛化性能；且第二网络模型对第一网络模型识别得到的待识别图像的特征图进行第二次识别，实现了共享待识别图像的特征图，极大的减小了网络模型整体的计算量，简化了计算过程，缩减了模型耗时；通过将识别的第一类别结果和第二类别结果进行加权融合得到待识别图像的类别，提高了对待识别图像类别识别的准确率。

请参阅图3和图4，图3是本申请提供的图像识别方法第二实施例的流程示意图；图4是图3中第一网络模型和第二网络模型训练的结构示意图。本实施例中，提供对上述实施例一种图像识别方法中的第一网络模型和第二网络模型的训练方法。

S201：采集第一训练样本集，第一训练样本集包括多个第一图像样本，第一图像样本为标记有目标对象真实位置和真实类别的图像。

具体地，收集第一训练样本集。其中，第一训练样本集包括多个第一图像样本。第一图像样本为包含有行人、车辆、非机动车辆、机动车辆、动物等目标对象中至少一种的普通交通场景图像，待识别图像的背景可以是白天也可以是夜晚。对第一图像样本中的目标对象进行标注，具体将目标对象的真实位置和真实类别标注出来。

S202：将第一图像样本输入到第一初始网络模型中得到第一特征图。

具体地，第一初始网络模型包括输入层11、特征提取层和检测层14；特征提取层为轻量级卷积神经网络。特征提取层至少包括第一特征提取层12。将上述得到的第一图像样本输入到第一初始网络模型的输入层11，输入层11对得到的第一图像样本进行预处理，得到第一预处理图像样本。在一可选实施例中，输入层11对得到的第一图像样本的图像R、G、B三通道进行归一化处理，去除像素受光照或阴影的影响而产生颜色变化，避免影响对第一图像样本中目标对象的特征图的提取。并对于第一图像样本进行随机亮度变换和随机对比度变换，便于第一初始网络模型对第一图像样本中特征图的准确提取。对第一图像样本的像素调整至设定值。在一具体实施例中，将第一图像样本的像素缩放至704*448。其中，第一网络模型可以为YOLO网络模型。

第一初始网络模型的输入层11将预处理后的第一预处理图像样本输出给第一特征提取层12，第一特征提取层12对接收到的第一预处理图像样本进行多次卷积，进而对第一预处理图像样本的特征进行提取，第一特征提取层12对提取的第一预处理图像样本的特征图进行降采样处理得到第一特征图，即调整提取特征图的尺寸至预设尺寸后得到第一特征图。在一具体实施例中，第一特征图的尺寸为88*56*192。

在一可选实施例中，第一特征提取层12将上述第一特征图输出给第二特征提取层13，第二特征提取层13对第一特征图继续进行多次卷积，进而对第一特征图上的特征进行提取，第二特征提取层13对提取的第一特征图的特征进行降采样处理得到再次提取的第一特征图。其中，第二特征提取层13的卷积次数与第一特征提取层12的卷积次数相同。在另一可选实施例中，第二特征提取层13的卷积次数与第一特征提取层12的卷积次数也可以不相同。其中，再次提取的第一特征图的尺寸为88*56*192。

S203：对第一特征图识别得到目标对象的第一检测位置和第一检测类别。

具体地，第一特征提取层12将得到的第一特征图输出给检测层14，检测层14对第一特征图中的目标对象的位置和类别进行检测。在一可选实施例中，检测层14为两层全连接层，其中一个全连接层为分类层141，两一个全连接层为回归层142，检测层14中的回归层142对第一特征图中目标对象的位置进行识别得到目标对象的第一检测位置；检测层14的分类层141对第一特征图中第一检测位置对应的目标对象的类别进行检测，得到目标对象的第一检测类别结果。

在一可选实施例中，第二特征提取层13将得到的再次提取的第一特征图输出给检测层14，检测层14对再次提取的第一特征图中的目标对象的位置和类别进行检测。在一可选实施例中，检测层14为两层全连接层，其中一个全连接层为分类层141，另一个全连接层为回归层142，检测层14中的回归层142对再次提取的第一特征图中目标对象的位置进行识别得到目标对象的第一检测位置；检测层14的分类层141对再次提取的第一特征图中第一检测位置对应的目标对象的类别进行检测，得到目标对象的第一检测类别结果。

S204：通过第一检测位置与真实位置、第一检测类别和真实类别构建第一损失函数。

具体地，回归层142采用Smooth L1损失函数对目标对象第一检测位置与标注的真实位置之间的误差值进行计算；分类层141采用交叉熵损失函数对目标对象的第一检测类别与标注的真实类别之间的误差值进行计算。在另一可选实施例中，通过第一检测位置与真实位置、第一检测类别和真实类别构建第一损失函数。第一损失函数至少由位置损失函数和类别损失函数之和构成。

S205：利用第一损失函数对第一初始网络模型进行迭代训练得到第一网络模型。

具体地，通过获得的目标对象第一检测位置与标注的真实位置之间的误差值和目标对象的第一检测类别与标注的真实类别之间的误差值对第一初始网络模型进行迭代训练得到第一网络模型。在一可选实施例中，第一初始网络模型根据第一损失函数的结果反向传导，根据第一损失函数反馈的损失值对第一初始网络模型的权重进行修正。在一可选实施例中，也可以对第一初始网络模型中的第一特征提取层12和检测层14的参数进行修正，实现对第一初始网络模型的训练。

将第一图像样本输入到第一初始网络模型中，第一初始网络模型对第一图像样本中的目标对象进行识别检测到目标对象的第一检测位置和第一检测类别，通过第一损失函数计算目标对象的第一检测位置与标注的真实位置、目标对象的第一检测类别与标注的真实类别之间的误差值。当第一初始网络模型的检测结果的准确率达到预设的准确率阈值，准确率阈值可以自行设置，例如99％、95％等，则停止对第一初始网络模型的训练并获得第一网络模型。其中，第一网络模型可以为YOLO网络模型。

S206：采集第二训练样本集，第二训练样本集包括多个第二图像样本，第二图像样本为标记有目标对象真实位置和真实类别的图像。

具体地，收集第二训练样本集。其中，第二训练样本集包括多个第二图像样本。第二图像样本可以是困难样本、易错样本和特殊场景样本和通用样本。困难样本、易错样本和特殊场景样本统称为特殊样本。增加通用样本是为了防止特殊样本对第二初始网络模型训练过拟合，使得第二网络模型的泛化性能降低。其中，困难样本和易错样本均为第一网络模型检测准确率低的样本图像。在一具体实施例中，困难样本和易错样本为第一网络模型检测目标对象类别准确率低于50％的样本图像。困难样本为样本图像模糊的远景样本图像，第一网络模型只能识别样本图像中目标对象的位置和目标图像的轮廓。易错样本为样本图像中目标对象不易分辨类别的样本图像，第一网络模型将样本图像中目标对象的类别识别为与其相似的类别。特殊场景样本为相对于普通场景来说，比如雨夜拍摄的交通场景图像、下雪时拍摄的交通场景图像等。通用样本图像可以为第一训练样本集中包含行人、车辆、非机动车辆、动物等目标对象的第一样本图像，也可以为重新搜集的其它包含行人、车辆、非机动车辆、动物等目标对象的样本图像。在一优选实施例中，第二训练样本集中第二图像样本的特殊样本和通用样本的数量相等。在一可选实施例中，第二训练样本集中第二图像样本的特殊样本和通用样本的数量可以不相等。对第二样本图像中的目标对象进行标注，将目标对象的真实位置和真实类别标注出来。

S207：通过第一网络模型对第二图像样本进行识别得到特征图以及特征图对应的检测位置。

具体地，将第二图像样本输入到第一网络模型的输入层11，输入层11对第二样本图像进行预处理。在一具体实施例中，对第二样本图像进行的图像进行R、G、B三通道进行归一化处理，去除像素受光照或阴影的影响而产生颜色变化，影响对第二图像样本中目标对象的特征图的提取。并对于第二图像样本进行随机亮度变换和随机对比度变换，便于第一网络模型对第二图像样本中特征的准确提取。对第二图像样本的像素调整至设定值得到第二预处理图像样本。在一具体实施例中，将第二图像样本的像素缩放至704*448。

第一网络模型的输入层11将预处理后的第二预处理图像样本输出给第一特征提取层12，第一特征提取层12对接收到的第二预处理图像样本进行多次卷积，进而对第二预处理图像样本的特征图进行提取，第一特征提取层12对提取的第二预处理图像样本的特征图进行降采样处理得到第二图像样本的第一特征图，即调整提取特征图的尺寸至预设尺寸后得到第二图像样本的第一特征图。在一具体实施例中，第二图像样本的第一特征图的尺寸为88*56*192。

第一网络模型的第一特征提取层12将得到的第二图像样本的第一特征图输出给检测层14，检测层14对第二图像样本的第一特征图中的目标对象进行检测得到第二图像样本中目标对象的第一检测位置。

S208：将特征图和特征图对应的检测位置输入到第二初始网络模型得到第二特征图。

具体地，第一网络模型的检测层14将第二图像样本中目标对象的第一检测位置输出给第二初始网络模型。第二初始网络模型包括映射层21、特征层22、池化层23、第三特征提取层24和类别检测层25。第三特征提取层24为轻量级卷积神经网络。第一网络模型将第二图像样本中目标对象的第一检测位置输出给第二初始网络模型的映射层21，将第二样本图像中目标对象的第一特征图输出给第二初始网络模型的特征层22，将映射层21得到的第二图像样本中目标对象的第一检测位置映射到特征层22得到的第二图像样本的第一特征图上得到映射结合后的第一特征图。通过将第一网络模型检测的第二图像中目标对象的第一检测位置映射到特征层22的第二图像样本的第一特征图上，使第一网络模型和第二网络模型检测的同一位置的目标对象的类别能够对应，避免错位。

第二初始网络模型中的映射层21和特征层22将映射结合后的第一特征图输出给池化层23，池化层23对接收的第二图像样本的第一特征图进行ROI池化操作，使第二特征图的尺寸调整为s*s大小得到第二预处理图像样本。在一具体实施例中，池化层23将第二图像样本的第二特征图调整为7*7。

第二初始网络模型中的池化层23将尺寸调节后的第一特征图输入给第三特征提取层24，第三特征提取层24对接收到的第二预处理图像样本进行多次卷积，进而对第二预处理图像样本的特征进行提取，第三特征提取层24对提取的第二预处理图像样本的特征图进行降采样处理得到第二特征图，即调整提取特征图的尺寸至预设尺寸后得到第二特征图。在一具体实施例中，第二特征图的尺寸为7*7*256。

S209：对第二特征图识别得到目标对象的第二检测类别。

具体地，第二初始网络模型中的第三特征提取层24将第二特征图输出给类别检测层25，类别检测层25对第二特征图中目标对象的类别进行检测得到第二检测类别。其中，类别检测层25为单层的全连接层。

S210：通过第二检测类别和真实类别构建第二损失函数。

具体地，将通过第二初始网络对第二图像样本中目标对象的类别进行检测得到的第二检测类别与标注的第二图像样本中目标对象的真实类别进行比对，计算检测损失值。在一可选实施例中，采用Focal loss函数。在一可选实施例中，通过第二检测类别和真实类别构建第二损失函数。具体通过公式(1)计算得到构建第二损失函数的分类损失值l_cia：

其中，l_cia每个目标对象检测类别和真实类别的分类损失值；α为平衡因子；γ为样本因子；y为样本标签，y＝1为目标对象样本；y＝0为除目标对象的背景样本；通过平衡因子α和样本因子γ来协调控制特殊样本及目标对象样本和除目标对象样本对象的背景样本的比例。

S211：利用第二损失函数对第二初始网络模型进行迭代训练得到第二网络模型。

具体地，通过获得的第二图像样本中目标对象的第二检测类别与标注的真实类别之间的误差值对第二初始网络模型进行迭代训练得到第二网络模型。在一可选实施例中，第二初始网络模型根据第二损失函数的结果反向传导，根据第二损失函数反馈的损失值对第二初始网络模型的权重进行修正和优化。在一可选实施例中，也可以对第二初始网络模型中的第三特征提取层24和类别检测层25的参数进行修正，实现对第二初始网络模型的训练。

采用第二图像样本对第二初始网络模型进行训练，第二初始网络模型对第二图像样本中的目标对象进行识别检测到目标对象的第二检测类别，通过第二损失函数计算目标对象的第二检测类别与标注的真实类别之间的误差值。当第二网络模型的检测结果的准确率达到预设的准确率阈值，准确率阈值可以自行设置，例如99％、95％等，则停止对第二初始网络模型的训练并获得第二网络模型。

本实施例中公开了一种图像类别识别模型的训练方法，该训练方法通过采用通用样本对第一初始网络模型进行训练得到第一网络模型，使第一网络模型能够对普通场景中的目标对象进行粗分类类别识别；待第一网络模型训练完成，采用第一网络模型识别准确率低的图像样本对第二初始网络模型进行训练得到第二网络模型，使第二网络模型能够对第一网络模型识别率低的图像样本进行识别，使整个网络模型的泛化性能提高。

参阅图5，图5是本申请智能终端一实施方式的示意图。如图5所示，该实施方式的智能终端70包括：处理器71、存储器72以及存储在存储器72中并可在处理器71上运行的计算机程序该计算机程序被处理器71执行时实现上述第一网络模型和第二网络模型训练方法、图像识别方法，为避免重复，此处不一一赘述。

参阅图6，图6是本申请存储介质一实施例的结构示意图。

本申请的实施方式中还提供一种计算机可读存储介质80，计算机可读存储介质80存储有计算机程序801，计算机程序中包括程序指令，处理器执行程序指令，实现本申请实施例提供的任一项图像识别方法以及上述第一网络模型和第二网络模型训练方法中的步骤。

具体地，集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质80中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质80中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质80包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

其中，计算机可读存储介质可以是前述实施方式的计算机设备的内部存储单元，例如计算机设备的硬盘或内存。计算机可读存储介质也可以是计算机设备的外部存储设备，例如计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上仅为本申请的实施方式，并非因此限制本申请的专利保护范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种图像识别方法，其特征在于，所述图像识别方法包括：

获取到待识别图像；

通过第一网络模型对所述待识别图像进行第一次特征提取，得到第一次提取特征图；

对所述第一次提取特征图进行第二次特征提取，得到第二次提取特征图；

通过所述第一网络模型对所述第二次提取特征图进行第一次目标识别以及目标定位，得到第一类别结果以及第一目标位置；

通过第二网络模型将所述第一目标位置以及所述第一次提取特征图进行映射，得到映射后的特征图；

对所述映射后的特征图进行第二次目标识别，得到第二类别结果；其中，所述第二网络模型是通过设定样本集训练得到的；

将所述第一类别结果和所述第二类别结果进行加权融合计算，得到所述待识别图像的类别结果。

2.根据权利要求1所述的图像识别方法，其特征在于，所述设定样本集至少包括设定比例的常规样本中的困难样本、易错样本以及特定场景样本。

3.根据权利要求1所述的图像识别方法，其特征在于，所述对所述映射后的特征图进行第二次目标识别，得到第二类别结果的步骤包括：

对所述映射后的特征图进行池化处理，得到池化后的特征图；

对所述池化后的特征图进行目标特征提取，得到所述池化后的特征图的目标特征向量；

利用所述目标特征向量进行第二次目标识别，得到所述第二类别结果。

4.根据权利要求1所述的图像识别方法，其特征在于，所述通过第一网络模型对所述待识别图像进行特征提取，得到所述待识别图像的特征图的步骤包括：

利用特征提取网络对所述待识别图像进行卷积和降采样处理，得到所述待识别图像的特征图。

5.根据权利要求1所述的图像识别方法，其特征在于，所述将所述第一类别结果和所述第二类别结果进行加权融合计算的步骤还包括：当判断场景为日模式时，所述第一类别结果的权重大于所述第二类别结果的权重；当判断场景为夜模式时，所述第一类别结果的权重小于所述第二类别结果的权重。

6.根据权利要求1所述的图像识别方法，其特征在于，所述通过第一网络模型对所述待识别图像进行特征提取，得到所述待识别图像的特征图的步骤还包括：

对所述待识别图像进行归一化处理，并将处理后的图像调整到设定尺寸。

7.根据权利要求1所述的图像识别方法，其特征在于，所述获取到待识别图像的步骤之前还包括：

对所述第一网络模型和所述第二网络模型进行训练。

8.根据权利要求7所述的图像识别方法，其特征在于，所述对所述第一网络模型和所述第二网络模型进行训练的步骤中具体包括：所述对所述第一网络模型进行训练的方法包括：

采集第一训练样本集，所述第一训练样本集包括多个第一图像样本，所述第一图像样本为标记有目标对象真实位置和真实类别的图像；

将所述第一图像样本输入到第一初始网络模型中得到第一特征图；

对所述第一特征图识别得到所述目标对象的第一检测位置和第一检测类别；

通过所述第一检测位置与所述真实位置、所述第一检测类别和所述真实类别构建第一损失函数；

利用所述第一损失函数对所述第一初始网络模型进行迭代训练得到第一网络模型。

9.根据权利要求8所述的图像识别方法，其特征在于，所述对所述第一网络模型和所述第二网络模型进行训练的步骤中具体包括：所述对所述第二网络模型进行训练的方法包括：

采集第二训练样本集，所述第二训练样本集包括多个第二图像样本，所述第二图像样本为标记有目标对象真实位置和真实类别的图像；

通过所述第一网络模型对所述第二图像样本进行识别得到特征图以及所述特征图对应的检测位置；

将所述特征图和所述特征图对应的检测位置输入到第二初始网络模型得到第二特征图；

对所述第二特征图识别得到所述目标对象的第二检测类别；

通过所述第二检测类别和所述真实类别构建第二损失函数；

利用所述第二损失函数对所述第二初始网络模型进行迭代训练得到第二网络模型。

10.根据权利要求8所述的图像识别方法，其特征在于，所述第一初始网络模型包括输入层、特征提取层和检测层；所述特征提取层为轻量级卷积神经网络；

所述将所述第一图像样本输入到第一初始网络模型中得到第一特征图的步骤具体包括：

将所述第一图像样本输入到所述输入层中，并对所述第一图像样本进行预处理；其中，预处理包括归一化处理和压缩处理；

通过所述特征提取层对所述预处理的第一图像样本进行特征提取得到第一特征图；

所述对所述第一特征图识别得到所述目标对象的第一检测位置和第一检测类别的步骤具体包括：

通过所述检测层对所述第一特征图进行识别得到所述目标对象的第一检测位置和第一检测类别。

11.根据权利要求1所述的图像识别方法，其特征在于，所述将所述第一类别结果和所述第二类别结果进行加权融合计算，得到所述待识别图像的类别结果的步骤具体包括：

对所述第一类别结果分配第一加权系数，对所述第二类别结果分配第二加权系数，所述第一加权系数和所述第一类别结果的乘积与所述第二加权系数和所述第二类别结果的乘积之和为所述待识别图像的最终类别结果；其中，所述第一加权系数与所述第二加权系数之和为1。

12.一种智能终端，所述智能终端包括存储器、处理器以及存储于所述存储器中并在所述处理器上运行的计算机程序，其特征在于，所述处理器用于实现如权利要求1~11任一项所述图像识别方法中的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1~11任一项所述图像识别方法中的步骤。