CN109492697A

CN109492697A - 图片检测网络训练方法及图片检测网络训练装置

Info

Publication number: CN109492697A
Application number: CN201811362706.7A
Authority: CN
Inventors: 王辰龙
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2019-03-19
Anticipated expiration: 2038-11-15
Also published as: CN109492697B

Abstract

本发明提供一种图片检测网络训练方法及图片检测网络训练装置，涉及图片检测领域。该图片检测网络训练方法包括：采用深度神经网络提取待预测图片的特征，生成多个融合尺度的特征图；根据所述多个融合尺度的特征图，识别所述待预测图片中的物体参数；根据识别出的所述物体参数、所述待预测图片的预设物体参数以及损失函数，确定损失值；根据所述损失值，采用预设方法优化所述深度神经网络，得到优化后的深度神经网络，所述优化后的深度神经网络用于识别图片中的物体参数。实现了识别图片时兼顾图片中的整体和细节，检测快速、准确，检测效果好、效率高。

Description

图片检测网络训练方法及图片检测网络训练装置

技术领域

本发明涉及图片检测技术领域，具体而言，涉及图片检测网络训练方法及图片检测网络训练装置。

背景技术

随着互联网技术的不断发展，网络中的大量多媒体信息，如视频、图片和音频等，广泛地存在于各个网络平台。互联网公司的核心优势，也由技术逐步转换为数据，数据只有在加工后才能体现其价值，其中，图片作为最广泛存在的网络流媒体中的数据，对图片进行标注是数据加工的重点。

现有技术中，自动化图片标注依赖于物体检测算法，例如区域卷积神经网络特征(Regions with CNN features，RCNN)等，这些算法中，一般采取两个检测阶段，先检测图片中可能存在物体的框，再检测该物体框中物体的类别。

但是现有算法只使用一张特征图，因此无法兼顾图片的整体和细节，只能检测较大和完整的物体，对于一些较小或者被遮挡的物体检测效果较差，而且检测效率很低。

发明内容

本发明的目的在于，针对上述现有技术中的不足，提供一种基于图片的特征网络训练方法及图片检测网络训练装置，以解决图片检测过程中无法兼顾图片的整体和细节，检测效果差、检测效率低的问题。

为实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了图片检测网络训练方法，包括：采用深度神经网络提取待预测图片的特征，生成多个融合尺度的特征图。根据多个融合尺度的特征图，识别待预测图片中的物体参数。根据识别出的物体参数、待预测图片的预设物体参数以及损失函数，确定损失值。根据损失值，采用预设方法优化深度神经网络，得到优化后的深度神经网络，优化后的深度神经网络用于识别图片中的物体参数。

进一步地，采用深度神经网络提取待预测图片的特征，生成多个融合尺度的特征图包括：采用深度神经网络对待预测图片进行多次卷积操作，获取多个不同尺度的特征图。采用深度神经网络将多个不同尺度的特征图进行处理后拼接，生成多个融合尺度的特征图。

进一步地，深度神经网络将多个不同尺度的特征图进行处理后拼接，生成多个融合尺度的特征图，包括：将多个不同尺度的特征图中的第一特征图插值扩大至与第二特征图尺度相同，生成第三特征图，将第二特征图和第三特征图拼接，生成第四特征图，其中，第一特征图为最小尺度特征图，第二特征图与第一特征图尺度不同。将第一特征图插值扩大至与第五特征图尺度相同，生成第六特征图，将第五特征图和第六特征图拼接，生成第七特征图，其中，第五特征图与第一特征图和第二特征图尺度不同。将第一特征图、第四特征图和第七特征图输出至深度神经网络。

可选的，在采用深度神经网络提取待预测图片的特征，生成多个融合尺度的特征图之前，还包括：将原始图片调整为预设尺寸，生成调整后的图片。标记调整后的图片中的物体参数。将调整后的图片、调整后图片中的物体参数关联后存入图片数据库，其中，调整后的图片为待预测图片，调整后图片中的物体参数为待预测图片的预设物体参数。

进一步地，根据多个融合尺度的特征图，识别待预测图片中的物体参数，包括：根据第一特征图、第四特征图和第七特征图的尺度，分别划分多个网格。在每个网格中预设多个不同尺寸的锚框，并根据每个不同尺寸的锚框生成与第一特征图、第四特征图和第七特征图尺度对应的预测点，其中，每个预测点包括识别出的物体参数。

进一步地，根据识别出的物体参数、待预测图片的预设物体参数以及损失函数，确定损失值，包括：从图片数据库中提取待预测图片的预设物体参数，其中，待预测图片的预设物体参数包括待预测图片中预设物体框的参数和预设物体框的类型。计算待预测图片中预设物体框的参数与多个锚框的尺寸重叠度，选择尺寸重叠度最大的一个锚框，将尺寸重叠度最大的一个锚框定位到对应特征图中的网格后，提取该锚框的参数作为待预测图片中物体框的真值。根据识别出的物体参数、待预测图片中物体框的真值、待预测图片中预设物体框的类型，通过损失函数，计算损失值。

可选的，根据损失值，采用预设方法优化深度神经网络，得到优化后的深度神经网络之后，还包括：采用优化后的深度神经网络预测待检测图片中的物体参数。在待检测的图片中标注识别出的待检测图片的物体参数。

第二方面，本发明实施例还提供了一种使用第一方面图片检测网络训练方法的图片检测装置，该图片检测装置包括：生成模块，用于采用深度神经网络提取待预测图片的特征，生成多个融合尺度的特征图。识别模块，用于根据所述多个融合尺度的特征图，识别所述待预测图片中的物体参数。确定模块，用于根据识别出的所述物体参数、所述待预测图片的预设物体参数以及损失函数，确定损失值。所述训练模块，用于根据所述损失值，采用预设方法优化所述深度神经网络，得到优化后的深度神经网络，所述优化后的深度神经网络用于识别图片中的物体参数。

进一步地，所述生成模块，具体用于采用所述深度神经网络对所述待预测图片进行多次卷积操作，获取多个不同尺度的特征图；采用所述深度神经网络将多个所述不同尺度的特征图进行处理后拼接，生成多个所述融合尺度的特征图。

进一步地，所述生成模块，具体用于将多个所述不同尺度的特征图中的第一特征图插值扩大至与第二特征图尺度相同，生成第三特征图，将所述第二特征图和所述第三特征图拼接，生成第四特征图，其中，所述第一特征图为最小尺度特征图，所述第二特征图与所述第一特征图尺度不同。将所述第一特征图插值扩大至与第五特征图尺度相同，生成第六特征图，将所述第五特征图和所述第六特征图拼接，生成第七特征图，其中，所述第五特征图与所述第一特征图和所述第二特征图尺度不同。将所述第一特征图、所述第四特征图和所述第七特征图输出至所述深度神经网络。

可选的，还包括：整理模块。所述整理模块，用于将原始图片调整为预设尺寸，生成调整后的图片；标记所述调整后的图片中的物体参数；将所述调整后的图片、调整后图片中的物体参数关联后存入图片数据库，其中，所述调整后的图片为所述待预测图片，调整后图片中的物体参数为待预测图片的预设物体参数。

进一步地，所述识别模块，具体用于根据所述第一特征图、所述第四特征图和所述第七特征图的尺度，分别划分多个网格。在每个所述网格中预设多个不同尺寸的锚框，并根据每个不同尺寸的所述锚框生成与所述第一特征图、所述第四特征图和所述第七特征图尺度对应的预测点，其中，所述每个预测点包括识别出的物体参数。

进一步地，所述确定模块，具体用于从图片数据库中提取所述待预测图片的预设物体参数，其中，所述待预测图片的预设物体参数包括所述待预测图片中预设物体框的参数和预设物体框的类型。计算所述待预测图片中预设物体框的参数与多个所述锚框的尺寸重叠度，选择尺寸重叠度最大的一个锚框，将所述尺寸重叠度最大的一个锚框定位到对应特征图中的网格后，提取该锚框的参数作为待预测图片中物体框的真值。根据识别出的物体参数、待预测图片中物体框的真值、待预测图片中预设物体框的类型，通过损失函数，计算损失值。

可选的，还包括：检测模块。所述检测模块，用于采用所述优化后的深度神经网络预测待检测图片中的物体参数。在所述待检测的图片中标注识别出的所述待检测图片的物体参数。

本发明的有益效果是：提取待预测图片的特征，生成多个融合尺度的特征图，并根据多个融合尺度的特征图，识别待预测图片中的物体参数，进而根据识别出的物体参数、待预测图片的预设物体参数以及损失函数，确定损失值根据损失值，采用预设方法优化深度神经网络，得到优化后的深度神经网络。实现了通过多个融合尺度的特征图，更准确的识别待预测图片中的物体参数，再结合损失函数进行优化，使得优化后的深度神经网络，在检测图片时，检测快速、准确，且效果好、效率高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例提供的图片检测网络训练方法流程示意图；

图2为本发明另一实施例提供的图片检测网络训练方法流程示意图；

图3为本发明另一实施例提供的图片检测网络训练方法流程示意图；

图4为本申请一实施例提供的图片检测网络训练装置结构示意图；

图5为本申请另一实施例提供的图片检测网络训练装置结构示意图；

图6为本申请另一实施例提供的图片检测网络训练装置结构示意图；

图7为本申请再一实施例提供的图片检测网络训练装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

图1为本申请一实施例提供的图片检测网络训练方法流程示意图。

如图1所示，该方法包括：

S101、采用深度神经网络提取待预测图片的特征，生成多个融合尺度的特征图。

在本实施例中，深度神经网络包括多个卷积层，卷积层用于对待预测图片执行卷积操作，卷积层包括步长为1的卷积层和步长为2的卷积层，其中，步长为1的卷积层用于抽象图片中的像素信息，将待预测图片转换为高层特征图。步长为2的卷积层在将待预测图片转换为更高一层的特征图时，还用于降低特征图的尺寸，每执行一次步长为2的卷积层，特征图的宽高减小为原来的1/2。

其中，高层特征图是更高维度、更抽象的视觉信息，是图像的更高维度的表示，可以用于图像的分类和回归，在本实施例中，高层特征图用于检测待预测图片中的物体参数。

需要说明的是，多个融合尺度的特征图指的是执行了不同次数步长为2的卷积层，对待预测图片进行卷积后，生成的多个不同尺寸、不同层次的高层特征图。将多个不同尺寸、不同层次的高层特征图进行调整、拼接后，生成融合尺度特征图。

S102、根据多个融合尺度的特征图，识别待预测图片中的物体参数。

可选的，在本实施例中，物体参数包括物体框的位置、物体框的类别，其中，物体框表示在待预测图片中，有物体存在的范围，以一个矩形框进行标识，物体框的位置包括物体框的一个顶点在待预测图片中的坐标，以及物体框的长度和宽度，根据该坐标、物体框的长度和宽度即可确定物体框在待预测图片中的具体位置。物体框的类别标识物体框中存在的物体的类型，例如框中存在一只猫，则将物体框的类别标识为猫。

一种实现方式中，物体框也可以为沿待预测图片中检测出的物体轮廓延伸的封闭曲线，例如，检测出待预测图片中检测出存在一个椅子，则物体框沿着椅子的轮廓延伸成为一个封闭曲线，将每个点位置的集合作为物体框的位置。

S103、根据识别出的物体参数、待预测图片的预设物体参数以及损失函数，确定损失值。

其中，识别出的物体参数与待预测图片的预设物体参数之间可能存在着偏差，使用损失函数计算偏差，得到损失值，在本实施例中，使用的损失函数为：

其中，Loss为损失值，Error_coord是坐标误差，表示识别出物体框的起始坐标和宽高与预设物体框的起始坐标和宽高之间的误差。Error_conf是物体框存在物体置信度误差，表示识别出物体框中是否存在物体的置信度与预设值之间的误差。Error_clz是物体框类型的误差，即识别出物体框的中物体的类型与预设物体框中物体类型的误差，S为特征图的维度值。

需要说明的是，将物体框中存在物体的概率与物体框中物体的类型组合在同一个损失函数中，可以在一个检测过程中，既判断物体框中是否含有物体，又可以判断物体所属的类别，实现单阶段检测两个参数。

S104、根据损失值，采用预设方法优化深度神经网络，得到优化后的深度神经网络，优化后的深度神经网络用于识别图片中的物体参数。

在本实施例中，损失值用于对网络进行训练，可选地，使用反向传播(BackPropagation，BP)优化，不断地调整深度神经网络中的参数，将损失值降低，当损失值降低到预设值以下，即可认为网络训练完成。训练完成后得到优化后的深度神经网络，此时，该优化后的深度神经网络可以用于检测图片中物体的框和物体的类型。

在本实施例中，提取待预测图片的特征，生成多个融合尺度的特征图，并根据多个融合尺度的特征图，识别待预测图片中的物体参数，进而根据识别出的物体参数、待预测图片的预设物体参数以及损失函数，确定损失值根据损失值，采用预设方法优化深度神经网络，得到优化后的深度神经网络。实现了通过多个融合尺度的特征图，更准确的识别待预测图片中的物体参数，再结合损失函数进行优化，使得优化后的深度神经网络，在检测图片时，检测快速、准确，且效果好、效率高。

图2为本发明另一实施例提供的图片检测网络训练方法流程示意图。

如图2所示，上述采用深度神经网络提取待预测图片的特征，生成多个融合尺度的特征图可以包括：

S201、深度神经网络对待预测图片进行多次卷积操作，获取多个不同尺度的特征图。

在本实施例中，一共使用53个卷积层，其中包括48个步长为1的卷积层和5个步长为2的卷积层，执行5个步长为2的卷积层后，待预测图片的尺寸等比例缩小2⁵倍，即32倍。

可选的，卷积层的数量不做限制，例如，可以包括30个步长为1的卷积层，4个步长为2的卷积层，也可以包括60个步长为1的卷积层，6个步长为2的卷积层。卷积层的数量如何设置，以深度神经网络建立时的具体情况为准。

S202、深度神经网络将多个不同尺度的特征图进行处理后拼接，生成多个融合尺度的特征图。

在本实施例中，深度神经网络将多个不同尺度的特征图进行处理后拼接，生成多个融合尺度的特征图包括：将多个不同尺度的特征图中的第一特征图插值扩大至与第二特征图尺度相同，生成第三特征图，将第二特征图和第三特征图拼接，生成第四特征图，其中，第一特征图为最小尺度特征图，第二特征图与第一特征图尺度不同。将第一特征图插值扩大至与第五特征图尺度相同，生成第六特征图，将第五特征图和第六特征图拼接，生成第七特征图，其中，第五特征图与第一特征图和第二特征图尺度不同。将第一特征图、第四特征图和第七特征图输出至深度神经网络。

在此，举例对上述过程进行解释，例子中的参数仅为说明使用，不代表该参数必须如此设置。

例如，待预测图片的尺寸为416×416，经过3次步长为2的卷积后，生成尺寸为52×52的第五特征图，经过4次步长为2的卷积后，生成尺寸为26×26的第二特征图，经过5次步长为2的卷积后，生成尺寸为13×13的第一特征图，其中，第一特征图为底层特征图，底层特征图表示该图片具有最高层次的抽象，即对图像的理解最为深刻，包含了图像的整体信息，第二特征图和第五特征图为中层特征图，相对于底层特征图，中层特征图包含更多的细节信息，包含的抽象信息较少。使用插值的方式，将第一特征图的尺寸扩大两倍，生成尺寸为26×26的第三特征图，此时第三特征图也为底层特征图，包含最高层次的抽象，将第三特征图与第二特征图拼接，生成第四特征图。这样，第四特征图中，既包括了图像的整体信息，又包括了图像的细节信息，在26×26这一尺寸中，融合了整体信息和细节信息，可以使用整体信息检测较大的物体，使用细节信息检测较小的物体，其中，插值使用了2倍上采样的方式进行。使用插值的方式将第一特征图的尺寸扩大4倍，生成尺寸为52×52的第六特征图，此时第六特征图也为底层特征图，包含最高层次的抽象，将第六特征图与第五特征图拼接，生成第七特征图，这样，第四特征图中，既包括了图像的整体信息，又包括了图像的细节信息。

其中，多个融合尺度的特征图包括第一特征图、第四特征图和第七特征图，第一特征图的尺寸最小，抽象层次高，适合用来检测待预测图片中，较大的物体，第四特征图和第七特征图即包括高层次抽象，又包括细节信息，而且尺寸大，适合用来检测待预测图片中，较小的物体。同时使用这三个融合尺度的特征图来检测待预测图片中的物体，可以兼顾图片中较大的物体、较小的物体、以及被遮挡的物体等，检测准确且效率高。

在本实施例中，原始图片具有不同的尺寸，为了便于预测，将原始图片的尺寸进行调整，例如，将图片统一调整为416×416，当出现图片比例与预设尺寸不同时，将图片中较长的边调整为416，此时较短边的不足416，图片的尺寸不足416×416，可以使用灰色将不足的地方进行填充，形成416×416的图片。

其中，标记调整后的图片中的物体参数包括标记调整后图片中物体框的位置参数以及物体框的类别。例如，调整后的图片中存在一只猫，一个椅子，一个窗户，则使用框将猫、椅子和窗户分别框住，并将对应的框标记为猫、椅子和窗户，该框的长宽和框相对于调整后的图片的坐标作为物体框的位置参数，标记的猫、椅子和窗户则作为物体框的类别。将物体框的位置参数和物体框的类别与对应的调整后的图片关联，然后存入图片数据库。

在本实施例中，根据特征图的尺寸划分网格，例如第一特征图为13×13，则在第一特征图上划分13×13的网格。可选的，在每个网格上预设三个不同尺寸的锚框，例如，在第一特征图上设置尺寸为116×90、156×198、373×326的锚框，在第四特征图上设置尺寸为30×61、62×45、59×119的锚框，在第七特征图上设置尺寸为10×13、16×30、33×23的锚框，锚框的尺寸是相对于待预测图片原图尺寸设置的，这样才能在预测后，在待预测图片上准确标注。每个锚框用于预测图片中物体框的起始坐标X和Y、宽高W和H、物体框的置信度C和物体框的类别概率{P₁,P₂,…,P_n}其中P₁表示第i类别概率，类别总数为n个。每个特征图需要预测S×S×3(2+2+1+n)个点，其中S表示特征图的边长，3表示三个不同尺寸的锚框，2+2+1+n表示物体框的起始坐标X和Y的两个点，宽高W和H的两个点，物体框的置信度C的一个点，以及类别概率的n个点。例如，第一特征图为13×13，有100种不同的预测类别，则需要预测13×13×3(2+2+1+100)，即53235个点。对三个特征图每个特征图进行预测，生成三组预测点，在预测点中，包含物体框的起始坐标、宽高、物体框的置信度和物体框的类别。

在此，举例对真值的设置过程进行解释，例子中的参数仅为说明使用，不代表该参数必须如此设置。

例如，待预测图片中预设了尺寸为115×89的物体框，框中物体为猫，将该物体框与上述例子中第一特征图、第四特征图和第七特征图中设置的锚框，比较计算重叠度(Intersection over Union，IoU)，选择IoU最大的一个锚框，在本例中，即选择第一特征图中116×90的锚框，然后将116×90的锚框定位到第一特征图中，对应待预测图片预设物体框所在的网格中，将预测物体框入锚框，并设置该锚框的起始坐标、宽高为真实值，物体框的置信度和物体框的类别设为1，即标识为真，将其余的点设置为起始坐标为0、宽高为0、框的置信度为0和框的类别值为0，不参于计算，以避免干扰，提高检测的准确度。

在本实施例中，使用上述的损失函数计算损失值，在算法中，通过使用特征图中网格点的锚框，预测待预测图片中的物体框，将物体框中存在物体的概率与物体框的类别概率组合在同一个损失函数中，实现在一个检测阶段中，既判断物体框中是否包含物体，又可以判断物体框中包含物体所属的类别。

图3为本发明另一实施例提供的图片检测网络训练方法流程示意图。

如图3所示，在本实施例中，采用优化后的深度神经网络预测待检测图片中的物体参数可以包括：

S301、采用所述优化后的深度神经网络预测待检测图片中的物体参数。

可选的，在待检测图片输入优化后的深度神经网络之前，可以将待检测图片的尺寸调整为预设尺寸，例如调整为416×416，以便于识别。

S302、在所述待检测的图片中标注识别出的所述待检测图片的物体参数。

可选的，优化后的深度神经网络根据多个融合尺度的特征图，识别待检测图片中的多个预测框，每个预测框都包含物体框的起始位置、宽高、置信度和类别概率，通过非极大值抑制(Non-Maximum Suppression，NMS)，淘汰置信度较小的物体框，同时，通过预设概率阈值，淘汰类别概率低于阈值的框，最终保留的一个物体框，该物体框的位置以及物体框的类别就是待检测图片中物体的识别结果。

检测完成后，在待检测图片中标注识别出物体的框、以及框的类别，例如识别出在图片中存在人，则在使用预设尺寸的框框住人，并标记框的类别为人。

图4为本申请一实施例提供的图片检测网络训练装置结构示意图。

该示意图仅为图片检测装置中与本发明实施相关的部分结构示意，图片检测装置还可以包括其他模块。

如图4所示，该图片检测装置包括：生成模块401、识别模块403、确定模块402以及训练模块404。

其中：

生成模块401，用于采用深度神经网络提取待预测图片的特征，生成多个融合尺度的特征图。

识别模块403，用于根据多个融合尺度的特征图，识别待预测图片中的物体参数。

确定模块402，用于根据识别出的物体参数、待预测图片的预设物体参数以及损失函数，确定损失值。

训练模块404，用于根据损失值，采用预设方法优化深度神经网络，得到优化后的深度神经网络，优化后的深度神经网络用于识别图片中的物体参数。

进一步地，生成模块401具体用于采用深度神经网络对待预测图片进行多次卷积操作，获取多个不同尺度的特征图；采用深度神经网络将多个不同尺度的特征图进行处理后拼接，生成多个融合尺度的特征图。

进一步地，生成模块401用于将多个所述不同尺度的特征图中的第一特征图插值扩大至与第二特征图尺度相同，生成第三特征图，将所述第二特征图和所述第三特征图拼接，生成第四特征图，其中，所述第一特征图为最小尺度特征图，所述第二特征图与所述第一特征图尺度不同；将所述第一特征图插值扩大至与第五特征图尺度相同，生成第六特征图，将所述第五特征图和所述第六特征图拼接，生成第七特征图，其中，所述第五特征图与所述第一特征图和所述第二特征图尺度不同；将所述第一特征图、所述第四特征图和所述第七特征图输出至所述深度神经网络。

图5为本申请另一实施例图片检测装置组成示意图。

如图5所示，该装置还包括：整理模块405。

整理模块405用于将原始图片调整为预设尺寸，生成调整后的图片。标记所述调整后的图片中的物体参数；将所述调整后的图片、调整后图片中的物体参数关联后存入图片数据库，其中，所述调整后的图片为所述待预测图片，调整后图片中的物体参数为待预测图片的预设物体参数。

进一步地，识别模块403根据所述第一特征图、所述第四特征图和所述第七特征图的尺度，分别划分多个网格；在每个所述网格中预设多个不同尺寸的锚框，并根据每个不同尺寸的所述锚框生成与所述第一特征图、所述第四特征图和所述第七特征图尺度对应的预测点，其中，所述每个预测点包括识别出的物体参数。

确定模块402具体用于从图片数据库中提取所述待预测图片的预设物体参数，其中，所述待预测图片的预设物体参数包括所述待预测图片中预设物体框的参数和预设物体框的类型；计算所述待预测图片中预设物体框的参数与多个所述锚框的尺寸重叠度，选择尺寸重叠度最大的一个锚框，将所述尺寸重叠度最大的一个锚框定位到对应特征图中的网格后，提取该锚框的参数作为待预测图片中物体框的真值；根据识别出的物体参数、待预测图片中物体框的真值、待预测图片中预设物体框的类型，通过损失函数，计算损失值。

图6为本申请另一实施例图片检测装置组成示意图。

如图6所示，该装置还包括：检测模块406。

检测模块406，用于采用优化后的深度神经网络预测待检测图片中的物体参数；在待检测的图片中标注识别出的待检测图片的物体参数。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图7为本申请图片检测装置的结构示意图。

如图7所示，该装置可以集成于终端设备或者终端设备的芯片，该终端可以是具备图像处理功能的计算设备。

该装置包括：处理器701、存储器702。

存储器702用于存储程序，处理器701调用存储器702存储的程序，以执行上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本发明还提供一种程序产品，例如计算机可读存储介质，包括程序，该程序在被处理器执行时用于执行上述方法实施例。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种图片检测网络训练方法，其特征在于，包括：

采用深度神经网络提取待预测图片的特征，生成多个融合尺度的特征图；

根据所述多个融合尺度的特征图，识别所述待预测图片中的物体参数；

根据识别出的所述物体参数、所述待预测图片的预设物体参数以及损失函数，确定损失值；

根据所述损失值，采用预设方法优化所述深度神经网络，得到优化后的深度神经网络，所述优化后的深度神经网络用于识别图片中的物体参数。

2.如权利要求1所述的方法，其特征在于，所述采用深度神经网络提取待预测图片的特征，生成多个融合尺度的特征图包括：

采用所述深度神经网络对所述待预测图片进行多次卷积操作，获取多个不同尺度的特征图；

采用所述深度神经网络将多个所述不同尺度的特征图进行处理后拼接，生成多个所述融合尺度的特征图。

3.如权利要求2所述的方法，其特征在于，所述深度神经网络将多个所述不同尺度的特征图进行处理后拼接，生成多个所述融合尺度的特征图，包括：

将多个所述不同尺度的特征图中的第一特征图插值扩大至与第二特征图尺度相同，生成第三特征图，将所述第二特征图和所述第三特征图拼接，生成第四特征图，其中，所述第一特征图为最小尺度特征图，所述第二特征图与所述第一特征图尺度不同；

将所述第一特征图插值扩大至与第五特征图尺度相同，生成第六特征图，将所述第五特征图和所述第六特征图拼接，生成第七特征图，其中，所述第五特征图与所述第一特征图和所述第二特征图尺度不同；

将所述第一特征图、所述第四特征图和所述第七特征图输出至所述深度神经网络。

4.如权利要求3所述的方法，其特征在于，在所述采用深度神经网络提取待预测图片的特征，生成多个融合尺度的特征图之前，还包括：

将原始图片调整为预设尺寸，生成调整后的图片；

标记所述调整后的图片中的物体参数；将所述调整后的图片、调整后的图片中的物体参数关联后存入图片数据库，其中，所述调整后的图片为所述待预测图片，调整后的图片中的物体参数为待预测图片的预设物体参数。

5.如权利要求4所述的方法，其特征在于，根据所述多个融合尺度的特征图，识别所述待预测图片中的物体参数，包括：

根据所述第一特征图、所述第四特征图和所述第七特征图的尺度，分别划分多个网格；

在每个所述网格中预设多个不同尺寸的锚框，并根据每个不同尺寸的所述锚框生成与所述第一特征图、所述第四特征图和所述第七特征图尺度对应的预测点，其中，所述每个预测点包括识别出的物体参数。

6.如权利要求5所述的方法，其特征在于，所述根据识别出的所述物体参数、所述待预测图片的预设物体参数以及损失函数，确定损失值，包括：

从图片数据库中提取所述待预测图片的预设物体参数，其中，所述待预测图片的预设物体参数包括所述待预测图片中预设物体框的参数和预设物体框的类型；

计算所述待预测图片中预设物体框的参数与多个所述锚框的尺寸重叠度，选择尺寸重叠度最大的一个锚框，将所述尺寸重叠度最大的一个锚框定位到对应特征图中的网格后，提取该锚框的参数作为待预测图片中物体框的真值；

根据识别出的物体参数、待预测图片中物体框的真值、待预测图片中预设物体框的类型，通过损失函数，计算损失值。

7.如权利要求1所述的方法，其特征在于，所述根据所述损失值，采用预设方法优化所述深度神经网络，得到优化后的深度神经网络之后，还包括：

采用所述优化后的深度神经网络预测待检测图片中的物体参数；

在所述待检测图片中标注识别出的所述待检测图片的物体参数。

8.一种图片检测网络训练装置，其特征在于，包括：

生成模块，用于采用深度神经网络提取待预测图片的特征，生成多个融合尺度的特征图；

识别模块，用于根据所述多个融合尺度的特征图，识别所述待预测图片中的物体参数；

确定模块，用于根据识别出的所述物体参数、所述待预测图片的预设物体参数以及损失函数，确定损失值；

所述训练模块，用于根据所述损失值，采用预设方法优化所述深度神经网络，得到优化后的深度神经网络，所述优化后的深度神经网络用于识别图片中的物体参数。

9.如权利要求8所述的装置，其特征在于，所述生成模块，具体用于采用所述深度神经网络对所述待预测图片进行多次卷积操作，获取多个不同尺度的特征图；采用所述深度神经网络将多个所述不同尺度的特征图进行处理后拼接，生成多个所述融合尺度的特征图。

10.如权利要求9所述的装置，其特征在于，所述生成模块具体用于将多个所述不同尺度的特征图中的第一特征图插值扩大至与第二特征图尺度相同，生成第三特征图，将所述第二特征图和所述第三特征图拼接，生成第四特征图，其中，所述第一特征图为最小尺度特征图，所述第二特征图与所述第一特征图尺度不同；将所述第一特征图插值扩大至与第五特征图尺度相同，生成第六特征图，将所述第五特征图和所述第六特征图拼接，生成第七特征图，其中，所述第五特征图与所述第一特征图和所述第二特征图尺度不同；将所述第一特征图、所述第四特征图和所述第七特征图输出至所述深度神经网络。

11.如权利要求10所述的装置，其特征在于，还包括：整理模块；

所述整理模块，用于将原始图片调整为预设尺寸，生成调整后的图片；标记所述调整后的图片中的物体参数；将所述调整后的图片、调整后的图片中的物体参数关联后存入图片数据库，其中，所述调整后的图片为所述待预测图片，调整后的图片中的物体参数为待预测图片的预设物体参数。

12.如权利要求11所述的装置，其特征在于，所述识别模块，具体用于根据所述第一特征图、所述第四特征图和所述第七特征图的尺度，分别划分多个网格；在每个所述网格中预设多个不同尺寸的锚框，并根据每个不同尺寸的所述锚框生成与所述第一特征图、所述第四特征图和所述第七特征图尺度对应的预测点，其中，所述每个预测点包括识别出的物体参数。

13.如权利要求12所述的装置，其特征在于，所述确定模块，具体用于从图片数据库中提取所述待预测图片的预设物体参数，其中，所述待预测图片的预设物体参数包括所述待预测图片中预设物体框的参数和预设物体框的类型；计算所述待预测图片中预设物体框的参数与多个所述锚框的尺寸重叠度，选择尺寸重叠度最大的一个锚框，将所述尺寸重叠度最大的一个锚框定位到对应特征图中的网格后，提取该锚框的参数作为待预测图片中物体框的真值；根据识别出的物体参数、待预测图片中物体框的真值、待预测图片中预设物体框的类型，通过损失函数，计算损失值。

14.如权利要求8所述的装置，其特征在于，还包括：检测模块；

所述检测模块，用于采用所述优化后的深度神经网络预测待检测图片中的物体参数；在所述待检测图片中标注识别出的所述待检测图片的物体参数。