CN111160527A

CN111160527A - 一种基于mask rcnn网络模型的目标识别方法、装置

Info

Publication number: CN111160527A
Application number: CN201911378116.8A
Authority: CN
Inventors: 宋秀峰
Original assignee: Goertek Inc
Current assignee: Goertek Inc
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-15
Also published as: US20220157053A1; US11688163B2; WO2021129105A1

Abstract

本发明公开一种基于MASK RCNN网络模型的目标识别方法、装置。该方法包括：确定一多阶段网络作为基础网络；在基础网络中选取至少一个能提取出特征图的中间层，将中间层输出的特征图和基础网络的末端层输出的特征图分别输入对应的MASK RCNN识别网络，从而构建出基于MASK RCNN网络模型；利用数据集对各MASK RCNN识别网络进行训练；利用训练好的各MASK RCNN识别网络对目标进行识别。该方案可很好地用于飞行无人机的小目标识别，避免了因人为框选目标导致的背景信息的干扰，为下一步的目标跟踪提供了更精确的跟踪区域，大大提高了小目标识别的准确率。

Description

一种基于MASK RCNN网络模型的目标识别方法、装置

技术领域

本发明涉及无人机目标识别领域，具体涉及一种基于MASK RCNN网络模型的目标识别方法、装置、电子设备和可读存储介质。

背景技术

无人机(UAV，Unmanned Aerial Vehicle)识别与跟踪地面运动目标具有重要理论研究意义和应用价值，是无人机系统自主控制领域的一个重要研究方向。

现阶段无人机跟踪飞行的目标选取大多采用框选目标的方法，其具体操作方式为：操作者在手机界面上通过手指拖动的方式进行目标的框选，当无人机处于飞行过程中时，目标相对于相机会发生相对运动，在手机界面进行目标框选时容易出现标记误差，特别是小目标，更易混有背景信息，容易发生目标标记识别不准确和标记偏移的情况。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于MASK RCNN网络模型的目标识别方法、装置、电子设备和可读存储介质。

依据本发明实施例的一个方面，提供了一种基于MASK RCNN网络模型的目标识别方法，该方法包括：

确定一多阶段网络作为基础网络；

在基础网络中选取至少一个能提取出特征图的中间层，将中间层输出的特征图和基础网络的末端层输出的特征图分别输入对应的MASK RCNN识别网络，从而构建出基于MASK RCNN网络模型，其中中间层输出的特征图和末端层输出的特征图具有不同的尺寸；

利用数据集对各MASK RCNN识别网络进行训练，直至满足预设的训练结束条件停止训练；

利用训练好的各MASK RCNN识别网络对目标进行识别。

可选的，在基础网络中选取至少一个能提取出特征图的中间层包括：

选取两个中间层，两个中间层能够提取出不同尺寸的低层特征图和高层特征图；

利用低层特征图构建的第一目标识别网络识别第一目标；

利用高层特征图构建的第二目标识别网络识别第二目标；

利用基础网络的末端层输出的特征图构建的识别第三识别网络识别第三目标；

其中第一目标的尺寸小于第二目标的尺寸，第二目标的尺寸小于第三目标的尺寸。

可选的，中间层包括第一类型和第二类型，第一类型包括卷积层和激活函数，第二类型包括卷积层、激活函数和池化层。

可选的，利用低层特征图构建的第一目标识别网络识别第一目标包括：

在第一目标识别网络的RPN网络中，设置ratios参数值和scales参数值使得低层特征图中每个像素对应于第一识别网络训练中输入的样本图像中大于预设阈值个数的锚框区域，从而能够涵盖样本图像中的第一目标。

可选的，利用低层特征图构建的第一目标识别网络识别第一目标还包括：

判断锚框区域是否为第一目标，若是第一目标则根据该锚框区域的交并比值自适应调整第一目标识别网络中的交并比参数值。

可选的，判断第一目标识别网络的RPN网络中的锚框区域是否为第一目标，若是第一目标则根据该锚框区域的交并比值自适应调整第一目标识别网络中的交并比参数值包括：

预设标准区域的面积和标准区域交并比值，标准区域是第二目标和第一目标的临界区域；

确定锚框区域的面积，根据锚框区域与标准区域的面积比值和标准区域交并比值的乘积确定锚框区域交并比值；

判断锚框区域交并比值与标准区域交并比值的大小，若锚框区域交并比值小于标准区域交并比值，且锚框区域对应的目标确定为第一目标，则将锚框区域交并比值设置为识别第一目标识别网络的交并比参数值，从而实现识别第一目标网络模型的交并比参数值自适应调整。

可选的，利用经过预处理的数据集对目标识别模型进行训练包括：

选取或拍摄不同角度、不同距离、不同大小的目标图像，对目标图像进行归一化处置，生成数据集；或者，

选取或拍摄不同角度、不同距离但大小相同的目标图像生成数据集。

依据本发明实施例的另一方面，提供了一种基于MASK RCNN网络模型的目标识别装置，该装置包括：

网络确定单元，适于确定一多阶段网络作为基础网络；

模型构建单元，适于在基础网络中选取至少一个能提取出特征图的中间层，将中间层输出的特征图和基础网络的末端层输出的特征图分别输入对应的MASK RCNN识别网络，从而构建出基于MASK RCNN网络模型，其中中间层输出的特征图和末端层输出的特征图具有不同的尺寸；

模型训练单元，适于利用数据集对各MASK RCNN识别网络进行训练，直至满足预设的训练结束条件停止训练；

目标识别单元，适于利用训练好的各MASK RCNN识别网络对目标进行识别。

可选的，模型构建单元适于：

利用低层特征图构建的第一目标识别网络识别第一目标；

利用高层特征图构建的第二目标识别网络识别第二目标；

可选的，模型构建单元还适于：

在第一目标识别网络的RPN网络中，设置ratios参数值和scales参数值使得低层特征图中每个像素对应于第一识别网络输入的图像中大于预设阈值个数的区域，从而能够涵盖样本图像中的第一目标；

判断第一目标识别网络的RPN网络中的锚框区域是否为第一目标，若是第一目标则根据该锚框区域的交并比值自适应调整第一目标识别网络中的交并比参数值。

依据本发明实施例的又一方面，提供了一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，可执行指令在被执行时使处理器执行如上述任一的方法。

依据本发明的再一方面，提供了一种计算机可读存储介质，其中，计算机可读存储介质存储一个或多个程序，一个或多个程序当被处理器执行时，实现如上述任一的方法。

由上述可知，本发明实施例的技术方案可以获得如下的技术效果：

本发明实施例提供的基于MASK RCNN网络模型的目标识别方法，包括：首先选取并确定一多阶段网络作为基础网络；在该基础网络中选取至少一个能提取出特征图的中间层，将中间层输出的特征图和基础网络的末端层输出的特征图分别输入对应的MASK RCNN识别网络，从而构建出基于MASK RCNN网络模型，其中中间层输出的特征图和末端层输出的特征图具有不同的尺寸；然后，利用数据集对各MASK RCNN识别网络进行训练，直至满足预设的训练结束条件停止训练；最后，利用训练好的各MASK RCNN识别网络对目标进行识别。上述技术方案通过采用训练好的网络模型来自动识别目标，摒弃了需要操作者人为框选目标的传统方案，显著降低了人为误差对识别精度的影响；并且，为了对包括小目标在内的多种目标都达到较佳的识别效果，本实施例对MASK RCNN网络模型进行改进，采用多分支获取特征图(feature map)，利用不同维度的特征图来识别目标，避免了对跟踪目标的遗漏。

经实验验证，上述方案可以很好的应用到飞行无人机的小目标识别，并且避免了因人为框选目标导致的背景信息的干扰，大大提高了小目标识别的准确率，并为下一步的目标的跟踪提供了更精确的跟踪区域。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的基于MASK RCNN网络模型的目标识别方法的流程示意图；

图2示出了根据本发明一个实施例的基于MASK RCNN网络模型的目标识别装置的结构示意图；

图3示出了根据本发明一个实施例的电子设备的结构示意图；

图4示出了根据本发明一个实施例的计算机可读存储介质的结构示意图；

图5示出了根据本发明一个实施例的无人机目标识别跟踪的流程示意图；

图6示出了根据本发明一个实施例的基于MASK RCNN网络模型的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明的技术领域是无人机目标识别与跟踪，其总体流程参见图5所示，包括小目标的图像数据采集、图像样本训练、模型收敛训练、经训练后获得MASK RCNN(即MaskRegion-CNN，基于卷积网的候选区域提取掩膜的网络模型)、利用该网络模型识别目标、跟踪目标等步骤。其中，在目标识别阶段，若没有识别到目标，则对图像进行搜索重新识别；若目标丢失后，也需要重新对图像进行搜索从而获取识别的目标。

本发明的实施例主要涉及通过改进目标识别的网络模型提高目标识别的准备率，其技术构思包括：摒弃了人为框选目标区域的方式，构建神经网络模型识别需跟踪的目标，为了提高小目标的识别准确性，对MASK RCNN网络模型进行了改进，增加了MASK RCNN获取特征图的分支数量，并且通过高维和低维层分别获取特征图，避免了小目标的遗漏，并且针对小目标检测不准确的情况，重新优化了识别网络中交并比参数值的获取方式。

图1示出了根据本发明一个实施例的基于MASK RCNN网络模型的目标识别方法的流程示意图；该方法包括：

步骤S110，确定一多阶段网络作为基础网络。

作为网络模型构建的第一步，首先需要选择一个基础网络，一般基础网络包括Vgg网络、Inception网络等，在该实施例中，为了识别不同大小的目标，从不同网络阶段中提取特征图用于构建识别网络分支，优选带有多个池化层的基础网络，例如可以低层的特征图用于识别小目标。

在本实施例中，基础网络可确定为Vgg16,它包括13个卷积(conv)层、13个激活函数(relu)层、4个池化(pooling)层，其中激活函数层不改变图像大小，而池化层为特征提取层，能够改变图像尺寸，4个池化层的参数设置如下：卷积核尺寸kernel_size＝2，步长stride＝2。每经过一个池化层，输出图像是输入图像的1/2，经过上述Vgg16网络之后，原输入图像的大小变成(M/16)*(N/16)假设样本图像的长宽大小为1000*600，则特征图(feature map)的大小分别为500*300*512，250*150*512，125*75*512，60*40*512，其中512是各卷积层中的卷积核的个数，也称为通道数。

步骤S120，在基础网络中选取至少一个能提取出特征图的中间层，将中间层输出的特征图和基础网络的末端层输出的特征图分别输入对应的MASK RCNN识别网络，从而构建出基于MASK RCNN网络模型，且中间层输出的特征图和末端层输出的特征图具有不同的尺寸。

该步骤为神经网络模型构建的核心，为了达到利用不同尺寸的特征图识别不同大小目标的目的，本实施例设置了至少两个识别网络来构建基于MASK RCNN的网络模型，其中一个识别网络获取的是基础网络末端层输出的特征图，而其他识别网络则选择基础网络中的至少一个中间层输出的特征图来形成。其中，该实施例中的识别网络是基于MASK RCNN模型改进而来。

需要指出的是，参见图6所示，以MASK RCNN+Vgg16网络模型为例，原有的网络模型模型仅在后端conv13处输出一个特征图，这种处理对小目标(比如图像中处于边缘部分的占据区域较小的目标)的识别效果较差，而改进后的模型在前端(比如conv2，conv9处)提取特征图，即图6中为一种较佳的提取方式。

优选的，由于一次池化会对特征图的尺寸进行更改，比如图6中conv2，conv3处的图像尺寸是相同的，为了获得较好的识别效果，可以提取不同尺寸的多个特征图。

步骤S130，利用数据集对各MASK RCNN识别网络进行训练，直至满足预设的训练结束条件停止训练。

分别针对生成的多个MASK RCNN识别网络进行训练，获得不同大小目标的识别效果。在训练中，可以预设训练结束的条件，比如目标识别的准确率达到95％则停止训练。

步骤S140，利用训练好的各MASK RCNN识别网络对目标进行识别。

可以将训练好的即收敛训练完成的模型用于对无人机获得地面运动目标的图像的识别上，经试验验证，利用该模型对地面运动目标比如车辆识别后，准确率获得了极大的提升。

综上，该实施例通过对现有MASK RCNN模型进行改进，获得了多个MASK RCNN识别网络，极大提升了目标特别是小目标的识别效果，避免了背景信息的干扰，并且为下一步的目标跟踪提供了更精确的区域。

在一个实施例中，步骤S120中的在基础网络中选取至少一个能提取出特征图的中间层包括：

利用低层特征图构建的第一目标识别网络识别第一目标；

利用高层特征图构建的第二目标识别网络识别第二目标；

参见图6，该实施例记载了一种能够识别出大中小三种目标的模型。在图6中的低层选择为conv2层获得的特征图，高层特征层选择为conv9层获得的特征图，再加上基础网络的末端层输出的特征图，分别构建第一、第二、第三目标识别网络，分别识别小中大三种目标。实验结果表明，选取conv2层、conv9层结合末端的conv13层输出的特征图来进行目标识别，具有较佳的识别效果。

在一个实施例中，中间层包括第一类型和第二类型，第一类型包括卷积层和激活函数，第二类型包括卷积层、激活函数和池化层。

参见图6，可以将基础网络中的中间层网络分为以下两种类型，第一种类型的中间层仅包括卷积层和激活函数，第二种类型的中间层可以包括卷积层、激活函数和池化层。

另外，MASK RCNN网络模型中还包括RPN网络、FC层、分类、回归以及分割部分。图6中的RPN(Region Proposal Network，提取候选框网络)是用来提取候选框区域的网络；图6中的FC(Fully Connected layer，全连接层)在整个卷积神经网络中起到“分类”的作用，如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话，全连接层则将学到的“分布式特征表示”映射到样本标记空间；图6中的分类即分类器，其作用是利用softmax等函数将数据样本进行分类，比如如果将图像分成5类，则分类器可将决定图像应分到哪一类，输出的是离散化结果；回归则是输出连续性结果，一般输出的是一个最优的结果，包括获得一个最优的边框；分割是指MASK RCNN网络模型的MASK掩膜分支，一般通过从图像中分割出一个三维感兴趣区域对小的目标进行识别。

在一个实施例中，利用低层特征图构建的第一目标识别网络识别第一目标包括：在第一目标识别网络的RPN网络中，设置ratios参数值和scales参数值使得低层特征图中每个像素对应于第一识别网络输入的图像中大于预设阈值个数的锚框区域，从而能够涵盖样本图像中的第一目标。

经过卷积层后，最低层特征图像大小变成了原来图像的1/16，在生成锚框(anchorbox)时，可先定义一个基础锚框(base_anchor)，该基础锚框大小为16*16的边框，由于是特征图(60*40)上的一个点，可以对应到原图(1000*600)上一个16*16大小的区域。

假如参数ratios＝[0.5,1,2]，scales＝[0.5,1,2]，通过参数运算后获取对应原图上的区域大小，其中ratio是指生成的锚框的长宽比例，一个ratio值表示生成一个具有该长宽比锚框，scale是指生成锚框的面积的比例，即生成具有不同面积大小锚框，同时ratio和scale决定了原图上要匹配的区域大小，基于特征图的每个像素点进行锚框的获取，每个像素会获取原图像中9个anchor box的坐标信息，该方式可以避免因下采样造成的最深层的特征图(feature map)对应原图的位置发生偏移，同时也可以很好的对应到原图的区域。

根据识别模型中ratios参数值和scales参数值可以生成不同形状和大小的锚框anchor box区域，其中ratios以及scales参数值越多，对应于原输入图像中的锚框区域越多，从而获取更细粒度的目标区域，从而能够涵盖图像中的目标，特别是能够更好地识别出小目标。

优选的，该实施例为scales参数增加两个元素a和b，a和b具体数值根据需求设置，则scales参数为[a,0.5,b,1.0,2.0]，ratios参数可以保持不变，或者在ratios参数也可以增加一个或多个元素，此时能很好地涵盖场景中的目标，获取多样性的锚框。

在一个实施例中，利用低层特征图构建的第一目标识别网络识别第一目标还包括：判断锚框区域是否为第一目标，若是第一目标则根据该锚框区域的交并比值自适应调整第一目标识别网络中的交并比参数值。

由于采用ROIpooling两次量化操作，浮点数取整，会导致特征图对应的原图像的区域产生偏差，特别是第一目标，会导致锚框anchor box的与标注在原图像中的真实框区域(ground truth)的交并比(Intersection-over-Union，IoU)发生偏差。针对第一目标，其在原图像中的区域较小，确定的锚框偏差虽然不大，但是由于目标区域较小，交并比的值很可能不能满足某一阈值大小，故无法对其进行训练，导致模型鲁棒性不好。

其中，交并比(IoU)是目标检测中使用的一个概念，是产生的候选框区域(candidate bound)与原标记真实框区域(ground truth bound)的交叠率，即它们的交集与并集的比值。最理想情况是完全重叠，即比值为1。

为了解决这一问题，该实施例中在RPN网络创建了一个IoUnet模块，利用该IoUnet模块可自动识别锚框是否是发生偏差的区域以及其是否是小目标区域，并进一步为自适应调整识别网络中的交并比参数值创造了条件。

在一个实施例中，判断第一目标识别网络的RPN网络中的锚框区域是否为第一目标，若是第一目标则根据该锚框区域的交并比值自适应调整第一目标识别网络中的交并比参数值包括：

该实施例公开了一种能够自适应调节第一目标识别网络中交并比参数值的方法，通过上述步骤，根据第二目标和第一目标的临界区域，设置一个标准区域的面积和标准区域交并比值，根据该标准区域与疑似第一目标的锚框区域的大小关系，计算出该锚框区域对应的交并比值，在训练中，若该锚框区域小于标准区域，且该锚框区域所框定的确实是小目标，则手动调整将该锚框区域对应的交并比值设置为第一目标识别网络中的交并比参数值。

根据测试集的测试结果表明，第一目标识别网络中的交并比参数值可以随着锚框区域的大小自行调整，可见已经获得自适应调整的能力。

该实施例有监督的对anchorbox进行分类和回归，判定目标类别和区域，通过groundtruthbox与预测的anchorbox之间的差异来进行学习，从而不断更新RPN网络和RCNN网络的网络权重，从而获取训练好的模型。

在一个实施例中，利用经过预处理的数据集对目标识别模型进行训练包括：选取或拍摄不同角度、不同距离、不同大小的目标图像，对目标图像进行归一化处置，生成数据集。

或者，选取或拍摄不同角度、不同距离但大小相同的目标图像生成数据集。

该实施例提供了一种待训练的数据集中的样本获取或生成的方式，其一是选取或拍摄不同角度、不同距离、不同大小的目标图像，对目标图像进行归一化处置，生成数据集；其二是选取或拍摄不同角度、不同距离但大小相同的目标图像直接生成数据集。

图2示出了根据本发明一个实施例的基于MASK RCNN网络模型的目标识别装置的结构示意图；该装置包括：

网络确定单元210，适于确定一多阶段网络作为基础网络。

模型构建单元220，适于在基础网络中选取至少一个能提取出特征图的中间层，将中间层输出的特征图和基础网络的末端层输出的特征图分别输入对应的MASK RCNN识别网络，从而构建出基于MASK RCNN网络模型，其中中间层输出的特征图和末端层输出的特征图具有不同的尺寸。

为了达到利用不同尺寸的特征图识别不同大小目标的目的，本实施例设置了至少两个识别网络来构建基于MASK RCNN的网络模型，其中一个识别网络获取的是基础网络末端层输出的特征图，而其他识别网络则选择基础网络中的至少一个中间层输出的特征图来形成。其中，该实施例中的识别网络是基于MASK RCNN模型改进而来，可以包括如下部分：RPN网络、若干个全连接层、分类器、回归器以及分割掩膜分支。

模型训练单元230，适于利用数据集对各MASK RCNN识别网络进行训练，直至满足预设的训练结束条件停止训练。

目标识别单元240，适于利用训练好的各MASK RCNN识别网络对目标进行识别。

在一个实施例中，模型构建单元220适于：选取两个中间层，两个中间层能够提取出不同尺寸的低层特征图和高层特征图；

利用低层特征图构建的第一目标识别网络识别第一目标；

利用高层特征图构建的第二目标识别网络识别第二目标；

在一个实施例中，模型构建单元220还适于：在第一目标识别网络的RPN网络中，设置ratios参数值和scales参数值使得低层特征图中每个像素对应于第一识别网络输入的图像中大于预设阈值个数的区域，从而能够涵盖样本图像中的第一目标；

在一个实施例中，模型构建单元220还适于：

在一个实施例中，模型训练单元230适于：

综上，本发明的技术方案公开的基于MASK RCNN网络模型的目标识别方法包括：确定一多阶段网络作为基础网络；在所述基础网络中选取至少一个能提取出特征图的中间层，将所述中间层输出的特征图和所述基础网络的末端层输出的特征图分别输入对应的MASK RCNN识别网络，从而构建出基于MASK RCNN网络模型；利用数据集对各所述MASK RCNN识别网络进行训练；利用训练好的各所述MASK RCNN识别网络对所述目标进行识别。该方案可很好地用于飞行无人机的小目标识别，避免了因框选目标导致的背景信息的干扰，为下一步的目标跟踪提供了更精确的跟踪区域，大大提高了小目标识别的准确率。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于MASK RCNN网络模型的目标识别装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图3示出了根据本发明一个实施例的电子设备的结构示意图。该电子设备300包括处理器310和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器320。存储器320可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器320具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码331的存储空间330。例如，用于存储计算机可读程序代码的存储空间330可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码331。计算机可读程序代码331可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图4的计算机可读存储介质。图4示出了根据本发明一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质400存储有用于执行根据本发明的方法步骤的计算机可读程序代码331，可以被电子设备300的处理器310读取，当计算机可读程序代码331由电子设备300运行时，导致该电子设备300执行上面所描述的方法中的各个步骤，具体来说，该计算机可读存储介质存储的计算机可读程序代码331可以执行上述任一实施例中示出的方法。计算机可读程序代码331可以以适当形式进行压缩。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种基于MASK RCNN网络模型的目标识别方法，其特征在于，所述方法包括：

确定一多阶段网络作为基础网络；

在所述基础网络中选取至少一个能提取出特征图的中间层，将所述中间层输出的特征图和所述基础网络的末端层输出的特征图分别输入对应的MASK RCNN识别网络，从而构建出基于MASK RCNN网络模型，其中所述中间层输出的特征图和末端层输出的特征图具有不同的尺寸；

利用数据集对各所述MASKRCNN识别网络进行训练，直至满足预设的训练结束条件停止训练；

利用训练好的各所述MASKRCNN识别网络对所述目标进行识别。

2.如权利要求1所述的方法，其特征在于，所述在所述基础网络中选取至少一个能提取出特征图的中间层包括：

选取两个中间层，所述两个中间层能够提取出不同尺寸的低层特征图和高层特征图；

利用所述低层特征图构建的第一目标识别网络识别第一目标；

利用所述高层特征图构建的第二目标识别网络识别第二目标；

利用所述基础网络的末端层输出的特征图构建的识别第三识别网络识别第三目标；

3.如权利要求1或2所述的方法，其特征在于，所述中间层包括第一类型和第二类型，所述第一类型包括卷积层和激活函数，所述第二类型包括卷积层、激活函数和池化层。

4.如权利要求2所述的方法，其特征在于，所述利用所述低层特征图构建的第一目标识别网络识别第一目标包括：

在所述第一目标识别网络的RPN网络中，设置ratios参数值和scales参数值使得所述低层特征图中每个像素对应于所述第一识别网络输入的图像中大于预设阈值个数的锚框区域，从而能够涵盖样本图像中的第一目标。

5.如权利要求4所述的方法，其特征在于，所述利用所述低层特征图构建的第一目标识别网络识别第一目标还包括：

判断所述锚框区域是否为第一目标，若是第一目标则根据该锚框区域的交并比值自适应调整所述第一目标识别网络中的交并比参数值。

6.如权利要求4或5所述的方法，其特征在于，所述判断所述第一目标识别网络的RPN网络中的锚框区域是否为第一目标，若是第一目标则根据该锚框区域的交并比值自适应调整所述第一目标识别网络中的交并比参数值包括：

预设标准区域的面积和标准区域交并比值，所述标准区域是第二目标和第一目标的临界区域；

确定所述锚框区域的面积，根据所述锚框区域与所述标准区域的面积比值和标准区域交并比值的乘积确定所述锚框区域交并比值；

判断所述锚框区域交并比值与所述标准区域交并比值的大小，若所述锚框区域交并比值小于所述标准区域交并比值，且所述锚框区域对应的目标确定为第一目标，则将所述锚框区域交并比值设置为所述识别第一目标识别网络的交并比参数值，从而实现所述识别第一目标网络模型的交并比参数值自适应调整。

7.如权利要求1所述的方法，其特征在于，所述利用经过预处理的数据集对所述目标识别模型进行训练包括：

选取或拍摄不同角度、不同距离、不同大小的目标图像，对所述目标图像进行归一化处置，生成所述数据集；或者，

选取或拍摄不同角度、不同距离但大小相同的目标图像生成所述数据集。

8.一种基于MASK RCNN网络模型的目标识别装置，其特征在于，所述装置包括：

网络确定单元，适于确定一多阶段网络作为基础网络；

模型构建单元，适于在所述基础网络中选取至少一个能提取出特征图的中间层，将所述中间层输出的特征图和所述基础网络的末端层输出的特征图分别输入对应的MASK RCNN识别网络，从而构建出基于MASK RCNN网络模型，其中所述中间层输出的特征图和末端层输出的特征图具有不同的尺寸；

模型训练单元，适于利用数据集对各所述MASKRCNN识别网络进行训练，直至满足预设的训练结束条件停止训练；

目标识别单元，适于利用训练好的各所述MASKRCNN识别网络对所述目标进行识别。

9.如权利要求8所述的装置，其特征在于，所述模型构建单元适于：

10.如权利要求9所述的装置，其特征在于，所述模型构建单元还适于：

在所述第一目标识别网络的RPN网络中，设置ratios参数值和scales参数值使得所述低层特征图中每个像素对应于所述第一识别网络训练中输入的样本图像中大于预设阈值个数的区域，从而能够涵盖所述样本图像中的第一目标；

判断所述第一目标识别网络的RPN网络中的锚框区域是否为第一目标，若是第一目标则根据该锚框区域的交并比值自适应调整所述第一目标识别网络中的交并比参数值。