CN109784294B

CN109784294B - 一种基于粗糙集理论候选框选择技术的枸杞图像识别定位方法

Info

Publication number: CN109784294B
Application number: CN201910071932.8A
Authority: CN
Inventors: 贾秀芳; 李伟; 王儒敬; 王红艳; 谢成军; 黄河; 张洁; 陈天娇; 胡海瀛; 陈洪波; 李娇娥; 王敏
Original assignee: Hefei Institutes of Physical Science of CAS
Current assignee: Hefei Institutes of Physical Science of CAS
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2020-07-28
Anticipated expiration: 2039-01-25
Also published as: CN109784294A

Abstract

本发明涉及一种基于粗糙集理论候选框选择技术的枸杞图像识别定位方法，与现有技术相比解决了复杂环境下枸杞图像识别定位精准度低的缺陷。本发明包括以下步骤：训练样本的获取；设定卷积神经网络；卷积神经网络的训练；待识别图像的获取；枸杞的识别定位。本发明改进了传统Faster‑RCNN中候选框选择的方法，降低候选框被误删或者漏删的情况，增强了数据的可靠性，从而保证了对枸杞图像识别和定位的精准度。

Description

一种基于粗糙集理论候选框选择技术的枸杞图像识别定位方法

技术领域

本发明涉及图像处理技术领域，具体来说是一种基于粗糙集理论候选框选择技术的枸杞图像识别定位方法。

背景技术

枸杞等季节性水果收割周期较短，目前主要依赖于人工完成该项工作。为了进一步降低劳动成本，提出了诸多机械化采摘方案。在方案实施过程中，针对机器人采摘成熟后的枸杞容易破损的特殊性，精准定位显得尤为重要，以此来提高采摘的效率和品质。

现有技术中，虽有部分技术提出了枸杞的识别定位方法，但枸杞作为小颗粒作物而且存在遮挡和重叠的情况，在目标识别算法中候选框容易被误删或漏删，从而导致其定位精度较差。波兰科学家Z.Pawlak提出的基于粗糙集的性质，其广泛应用在数据挖掘领域，可以处理不精确、不确定和不完全数据的数学方法，依据该性质大多处理的是点到集合的不确定性问题。针对图像识别而言，对候选框的选择尤为重要，目前只是简单应用IoU和阈值的控制来筛选候选框，这样的方法简单粗暴，以致于无法更好地满足实际应用。

因此，如何利用改进粗糙集理论的技术优点来提高枸杞识别定位的准确率已经成为亟需解决的技术问题。

发明内容

本发明的目的是为了解决现有技术中复杂环境下枸杞图像识别定位精准度低的缺陷，提供一种基于粗糙集理论候选框选择技术的枸杞图像识别定位方法来解决上述问题。

为了实现上述目的，本发明的技术方案如下：

一种基于粗糙集理论候选框选择技术的枸杞图像识别定位方法，包括以下步骤：

训练样本的获取：获取训练样本数据，训练样本数据为400张双目视觉获取的图像；

设定卷积神经网络：设定卷积神经网络的层次、层数和各层属性；

卷积神经网络的训练：将训练样本输入卷积神经网络进行训练；

待识别图像的获取：获取待识别图像，待识别图像为双目视觉获取的图像；

枸杞的识别定位：将待识别图像输入卷积神经网络，通过卷积神经网络识别定位枸杞。

所述的设定卷积神经网络包括以下步骤：

设定卷积神经网络包括N个卷积层、N₁个ROI池化层和N₂个全连接层；

设定N个卷积层依次对训练样本进行特征提取，生成N层特征映射图；

设定第N层特征映射图导入RPN网络并利用粗糙集理论候选框选择方法，对第N层特征映射图进行枸杞目标和背景的初步分类，并通过回归生成候选框，确定枸杞目标位置；

设定ROI池化层操作：通过ROI池化层对每个候选框提取固定尺寸的特征图，将候选框在输入图像中的坐标映射到第N层特征图中，对特征图中对应区域进行池化操作，得到固定大小输出的池化结果；

设定全连接层操作：将固定大小的池化结果与全连接层相连，全连接层包括两个子连接层，两个子连接层分别为分类层和回归层，分类层用于判断候选框的类别，回归层用于预测候选框的准确位置。

所述卷积神经网络的训练包括以下步骤：

利用迁移学习方法，将数据集ImageNet上训练的参数对卷积神经网络的基础网络VGG16进行初始化；

将训练样本输入已经初始化后的卷积神经网络中对权重微调；

通过N个网络层依次对训练样本进行特征提取，生成N层特征映射图；

将第N层特征映射图导入RPN网络并利用粗糙集理论候选框选择方法对第N层特征映射图进行枸杞目标和背景的初步分类，并通过回归生成候选框，确定枸杞目标位置；

通过ROI池化层对每个候选框提取固定尺寸的特征图，将候选框在输入图像中的坐标映射到第N层特征图中，对特征图中对应区域进行池化操作，得到固定大小输出的池化结果；

将固定大小的池化结果与全连接层相连，分类层判断出候选框的类别，回归层预测出候选框的准确位置。

所述的粗糙集理论候选框选择方法包括以下步骤：

利用3×3卷积核在第N层特征图上滑动，将3×3卷积核中心对应位置映射到原图的感受野的中心点作为基准点，每个基准点对应三种不同尺度{128²、256²、512²}和三种长宽比{1:1、1:2、2:1}的所有尺寸和比例组合，即每个基准点对应9个Anchors，若特征图的大小为L×W，则共有L×W×9个Anchors；

通过RPN网络前向计算得到Anchors的前景得分和回归参数；

将Anchors坐标中超出图像边界的，以及小于给定阈值的删除，对余下的Anchors按照得分高低排序，提取前S个Anchors；

从前S个AnchorsM＝{M₁,M₂,…,M_s}中任选一个作为被研究对象M_d，计算被研究对象M_d和M中其余元素M_k之间的

选出IoU中最大的Anchor M_i＝argmax{IoU_di|1≤i≤s且i≠d}和次大的Anchor M_j＝argmax{IoU_dj|1≤j≤s,j≠d且j≠i}，记N为选取的候选框集合，D为被删除的Anchor集合；

若被研究对象M_d和次大Anchor M_j的IoU_dj>N_t且|IoU_di-IoU_dj|＜ε

则被研究对象M_d包含于M_i、M_j的上近似集合，即

N＝{M_i,M_j,M_d}，M＝{M₁,M₂,...,M_s}\{M_i,M_j,M_d}；

否则包含于最大Anchor M_i的下近似，即

被删除，因此D＝{M_d}，N＝{M_i,M_j}，M＝{M₁,M₂,...,M_s}\{M_i,M_j,M_d}；

若IoU_di>N_t且IoU_dj<N_t,

则D＝{M_d}，N＝{M_i,M_j}，M＝{M₁,M₂,...,M_s}\{M_i,M_j,M_d}；

若IoU_di<N_t,则N＝{M_i,M_j,M_d}，M＝{M₁,M₂,...,M_s}\{M_i,M_j,M_d}；

遍历计算M＝{M₁,M₂,…,M_s}中剩余的Anchors，直到

输出集合N为选取的候选框。

有益效果

本发明的一种基于粗糙集理论候选框选择技术的枸杞图像识别定位方法，与现有技术相比改进了传统Faster-RCNN中候选框选择的方法，降低候选框被误删或者漏删的情况，增强了数据的可靠性，从而保证了对枸杞图像识别和定位的精准度。

本发明利用粗糙集理论对Faster-RCNN中的NMS(non maximum suppression)算法进行改进，将Anchors之间的关系通过模糊集理论的包含度度量。在度量基础上，对目标Anchor进行判断，若包含于某个Anchor的下近似，则被删掉，否则，属于至少两个Anchors的上近似，属于不确定区域，则目标Anchor被保留作为下一步的模型训练。该方法有效解决了在自然复杂场景中存在遮挡而部分枸杞检测不到，从而达不到精准定位的问题。

附图说明

图1为本发明的方法顺序图；

图2为本发明中粗糙集理论候选框选择方法的顺序流程图；

图3为现有技术中利用传统NMS算法的识别效果图。

具体实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识，用以较佳的实施例及附图配合详细的说明，说明如下：

如图1所示，本发明所述的一种基于粗糙集理论候选框选择技术的枸杞图像识别定位方法，包括以下步骤：

第一步，训练样本的获取。获取训练样本数据，训练样本数据为400张双目视觉获取的图像。训练样本数据为{x₁,x₂,…x₄₀₀}，其中，每个样本中的目标进行了人工标定，即记录了坐标位置(左下角和右上角的坐标)和类别。

第二步，设定卷积神经网络。设定卷积神经网络的层次、层数和各层属性。在此，针对枸杞作为小颗粒作物，存在遮挡、重叠等难以准确识别的特性，利用基于粗糙集理论的方法进行候选框的筛选避免候选框漏选和误选的不足。

其具体步骤如下：

(1)设定卷积神经网络包括N个卷积层、N₁个ROI池化层和N₂个全连接层。

(2)设定N个卷积层依次对训练样本进行特征提取，生成N层特征映射图。

(3)设定第N层特征映射图导入RPN网络并利用粗糙集理论候选框选择方法，对第N层特征映射图进行枸杞目标和背景的初步分类，并通过回归生成候选框，确定枸杞目标位置。

传统的粗糙集性质描述的是一个点对集合的不确定关系，而在此是度量候选框与候选框之间的不确定性问题，即集合与集合之间的关系，由此将其性质点属于一个类的上近似集合，则必属于至少两个类的上近似集合，拓展为目标候选框若包含在一个候选框的上近似集合中，则必定包含在至少两个目标候选框的上近似集合中，这种不确定性可以处理目标候选框同时处于两个或者更多候选框的边界上，避免对目标候选框进行误删，从而改进候选框选择的精准度，提高算法的可靠性。

如图2所示，粗糙集理论候选框选择方法包括以下步骤：

A1)利用3×3卷积核在第N层特征图上滑动，将3×3卷积核中心对应位置映射到原图的感受野的中心点作为基准点，每个基准点对应三种不同尺度{128²、256²、512²}和三种长宽比{1:1、1:2、2:1}的所有尺寸和比例组合，即每个基准点对应9个Anchors，若特征图的大小为L×W，则共有L×W×9个Anchors。

A2)通过RPN网络按传统方法前向计算得到候选框的得分和回归参数。

A3)将Anchors坐标中超出图像边界的，以及小于给定阈值的Anchors删除，对余下的Anchors按照得分高低排序，提取前S个Anchors，S的数量在实际应用中根据情况设定即可。

A4)从Anchors集合M＝{M₁,M₂,…,M_s}中任选一个Anchor作为被研究对象M_d，计算被研究对象M_d和M其余元素M_k之间的

A5)选出IoU中最大的Anchor M_i＝argmax{IoU_di|1≤i≤s且i≠d}和次大的AnchorM_j＝argmax{IoU_dj|1≤j≤s,j≠d且j≠i}，记N为选取的候选框集合，D为被删除的Anchor集合。

A6)若被研究对象M_d和次大Anchor M_j的IoU_dj>N_t且|IoU_di-IoU_dj|＜ε

则被研究对象M_d包含于M_i、M_j的上近似集合，即

N＝{M_i,M_j,M_d}，M＝{M₁,M₂,...,M_s}\{M_i,M_j,M_d}；

否则包含于最大AnchorM_i的下近似，即

若IoU_di>N_t且IoU_dj<N_t,

则D＝{M_d}，N＝{M_i,M_j}，M＝{M₁,M₂,...,M_s}\{M_i,M_j,M_d}；

若IoU_di<N_t,则N＝{M_i,M_j,M_d}，M＝{M₁,M₂,...,M_s}\{M_i,M_j,M_d}。

粗糙集理论候选框选择方法主要针对当两个或者多个目标比较接近时，依据粗糙集理论的不确定性解决误删的情况。其主要思想是若研究对象与最大Anchor和次大Anchor的包含度很接近时，那么研究对象必定存在于最大和次大Anchor的边界，此时，该研究对象需要保留为候选框；若研究对象与最大Anchor和次大Anchor的包含度大于某阈值，则研究对象必定包含于最大Anchor的下近似，该研究对象作为冗余被删除。

A7)遍历计算M＝{M₁,M₂,…,M_s}中剩余的Anchors，直到

输出集合N为选取的候选框。

如图3所示，若使用传统的NMS算法，那么由于IoU阈值的设定一般都会将后面那匹马删除，而实际上两匹马是两个不同的目标应该同时存在，究其原因，主要是两个目标太近，包含度太高以致于将后面那匹马误认为是前面那匹马的一部分误删了。本发明经过基于粗糙集理论的候选框选择方法计算，可以将后面那匹马中的候选框作为前面那匹马候选框的上近似，从而保留，避免误删。

(4)设定ROI池化层操作。通过ROI池化层对每个候选框提取固定尺寸的特征图，将候选框在输入图像中的坐标映射到第N层特征图中，对特征图中对应区域进行池化操作，得到固定大小(7×7)输出的池化结果。

(5)设定全连接层操作：将固定大小的池化结果与全连接层相连，全连接层包括两个子连接层，两个子连接层分别为分类层和回归层，分类层用于判断候选框的类别，回归层用于预测候选框的准确位置。

第三步，卷积神经网络的训练。将训练样本输入卷积神经网络进行训练。

其具体步骤如下：

(1)利用迁移学习方法，将数据集ImageNet上训练的参数对卷积神经网络的基础网络VGG16进行初始化。

(2)将训练样本输入已经初始化后的卷积神经网络中对权重微调。

(3)通过N个网络层依次对训练样本进行特征提取，生成N层特征映射图。

(4)将第N层特征映射图导入RPN网络并利用粗糙集理论候选框选择方法对第N层特征映射图进行枸杞目标和背景的初步分类，并通过回归生成候选框，确定枸杞目标位置。

(5)通过ROI池化层对每个候选框提取固定尺寸的特征图，将候选框在输入图像中的坐标映射到第N层特征图中，对特征图中对应区域进行池化操作，得到固定大小输出的池化结果。

(6)将固定大小的池化结果与全连接层相连，分类层判断出候选框的类别，回归层预测出候选框的准确位置。

第四步，待识别图像的获取。获取待识别图像，待识别图像为双目视觉采集的图像。

第五步，枸杞的识别定位。将待识别枸杞图像输入卷积神经网络，通过卷积神经网络识别定位枸杞。实际应用中，为了方便使用，还可以使用传统方法将枸杞目标计算机像素坐标转换为相应的世界坐标系中的坐标。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于粗糙集理论候选框选择技术的枸杞图像识别定位方法，其特征在于，包括以下步骤：

11)训练样本的获取：获取训练样本数据，训练样本数据为400张双目视觉获取的图像；

12)设定卷积神经网络：设定卷积神经网络的层次、层数和各层属性；所述的设定卷积神经网络包括以下步骤：

121)设定卷积神经网络包括N个卷积层、N₁个ROI池化层和N₂个全连接层；

122)设定N个卷积层依次对训练样本进行特征提取，生成N层特征映射图；

123)设定第N层特征映射图导入RPN网络并利用粗糙集理论候选框选择方法，对第N层特征映射图进行枸杞目标和背景的初步分类，并通过回归生成候选框，确定枸杞目标位置；所述的粗糙集理论候选框选择方法包括以下步骤：

1231)利用3×3卷积核在第N层特征图上滑动，将3×3卷积核中心对应位置映射到原图的感受野的中心点作为基准点，每个基准点对应三种不同尺度{128²、256²、512²}和三种长宽比{1:1、1:2、2:1}的所有尺寸和比例组合，即每个基准点对应9个Anchors，若特征图的大小为L×W，则共有L×W×9个Anchors；

1232)通过RPN网络前向计算得到Anchors的前景得分和回归参数；

1233)将Anchors坐标中超出图像边界的，以及小于给定阈值的删除，对余下的Anchors按照得分高低排序，提取前S个Anchors；

1234)从前S个Anchors M＝{M₁,M₂,…,M_s}中任选一个作为被研究对象M_d，计算被研究对象M_d和M中其余元素M_k之间的

1235)选出IoU中最大的Anchor M_i＝arg max{IoU_di|1≤i≤s且i≠d}和次大的AnchorM_j＝arg max{IoU_dj|1≤j≤s,j≠d且j≠i}，记N为选取的候选框集合，D为被删除的Anchor集合；

1236)若被研究对象M_d和次大Anchor M_j的IoU_dj>N_t且|IoU_di-IoU_dj|＜ε，

则被研究对象M_d包含于M_i、M_j的上近似集合，即

N＝{M_i,M_j,M_d}，M＝{M₁,M₂,...,M_s}\{M_i,M_j,M_d}；

若IoU_dj>N_t且|IoU_di-IoU_dj|≥ε，研究对象M_d属于最大AnchorM_i的下近似，即

若IoU_di>N_t且IoU_dj<N_t,

则D＝{M_d}，N＝{M_i,M_j}，M＝{M₁,M₂,...,M_s}\{M_i,M_j,M_d}；

若IoU_di<N_t,则N＝{M_i,M_j,M_d}，M＝{M₁,M₂,...,M_s}\{M_i,M_j,M_d}；

1237)遍历计算M＝{M₁,M₂,…,M_s}中剩余的Anchors，直到

输出集合N为选取的候选框；

124)设定ROI池化层操作：通过ROI池化层对每个候选框提取固定尺寸的特征图，将候选框在输入图像中的坐标映射到第N层特征图中，对特征图中对应区域进行池化操作，得到固定大小输出的池化结果；

125)设定全连接层操作：将固定大小的池化结果与全连接层相连，全连接层包括两个子连接层，两个子连接层分别为分类层和回归层，分类层用于判断候选框的类别，回归层用于预测候选框的准确位置；

13)卷积神经网络的训练：将训练样本输入卷积神经网络进行训练；

14)待识别图像的获取：获取待识别图像，待识别图像为双目视觉获取的图像；

15)枸杞的识别定位：将待识别图像输入卷积神经网络，通过卷积神经网络识别定位枸杞。

2.根据权利要求1所述的一种基于粗糙集理论候选框选择技术的枸杞图像识别定位方法，其特征在于，所述卷积神经网络的训练包括以下步骤：

21)利用迁移学习方法，将数据集ImageNet上训练的参数对卷积神经网络的基础网络VGG16进行初始化；

22)将训练样本输入已经初始化后的卷积神经网络中对权重微调；

23)通过N个网络层依次对训练样本进行特征提取，生成N层特征映射图；

24)将第N层特征映射图导入RPN网络并利用粗糙集理论候选框选择方法对第N层特征映射图进行枸杞目标和背景的初步分类，并通过回归生成候选框，确定枸杞目标位置；

25)通过ROI池化层对每个候选框提取固定尺寸的特征图，将候选框在输入图像中的坐标映射到第N层特征图中，对特征图中对应区域进行池化操作，得到固定大小输出的池化结果；

26)将固定大小的池化结果与全连接层相连，分类层判断出候选框的类别，回归层预测出候选框的准确位置。