CN111476317A

CN111476317A - 一种基于强化学习技术的植保图像非密集害虫检测方法

Info

Publication number: CN111476317A
Application number: CN202010352773.1A
Authority: CN
Inventors: 谢成军; 周满; 张洁; 李�瑞; 陈天娇; 陈红波; 胡海瀛; 刘海云
Original assignee: Hefei Institutes of Physical Science of CAS
Current assignee: Hefei Institutes of Physical Science of CAS
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-07-31
Anticipated expiration: 2040-04-29
Also published as: CN111476317B

Abstract

本发明涉及一种基于强化学习技术的植保图像非密集害虫检测方法，与现有技术相比解决了植保图像非密集害虫检测计算量大、资源消耗高的缺陷。本发明包括以下步骤：获取植保图像数据库；植保图像特征图的提取；构建害虫目标检测网络；害虫目标检测网络的训练；待检测植保图像的获取和特征图提取；害虫检测结果的获得。本发明利用强化学习的动作空间和深度学习的特征空间去由粗到细的进行目标检测，结合改进的强化学习算法和区域选择网络去搜索最优候选区域，而后利用深度学习去进一步精修目标候选区域坐标，进一步提高检测精度。

Description

一种基于强化学习技术的植保图像非密集害虫检测方法

技术领域

本发明涉及植保图像处理技术领域，具体来说是一种基于强化学习技术的植保图像非密集害虫检测方法。

背景技术

目标检测是指在待检测图像中用矩形框将图像中的目标物体标注出来并分类识别，主要分为深度学习和强化学习两大技术流派。其中比较流行基于锚点(深度学习)的目标检测算法有Faster RCNN、FPN等，其需要预先计算出许多冗余的目标候选区域，导致计算机资源消耗过高。

由于深度学习大运算量和当前无人机无法荷载大功率芯片重量的问题，致使在农业植保实际应用中，多采用无人机或植保采集杆获取植保图像后，再利用数据库进行后台分析，无法实现植保图像数据的实时处理。也就是说，深度学习算法虽然能够较好地实现植保图像中害虫的识别，特别是针对于蚜虫、水稻二化螟等高密度虫害虫体能达到较高的识别率，但其无法实现植保图像的实时采集分析。

强化学习作为目标检测的另一技术派系，其被引入目标检测去消除候选区域冗余的弊端。然而由于强化学习是基于人为自定义的动作空间去搜索待检测目标，使得目标结果矩形框坐标不能任意转换，从而导致精度不高。

现有的基于强化学习的目标检测方法，要么去充实自定义的动作空间，使得坐标转换空间尽可能覆盖目标物体的坐标以提高检测精度；要么在强化学习做检测之前增加额外的候选区域产生模块如(selective search算法，edge boxes算法等)去对输入图像进行预处理，以产生大量的候选框区域。然而上述解决方法仍然都使得资源消耗过高并且提升的精度也不大。

而在实际应用中发现，根据各地气候不同、作物不同，所面对的虫害也不相同，例如红蜘蛛、草地贪夜蛾、稻螟蛉等虫体，其并不呈现高密度聚集，在植保图像中呈现低密集度、大范围分布的特点。针对于此类低密集(非密集)虫体，则需要无人机进行大范围植保图像采集，并能够进行实时分析实现传输虫害情况。

因此，如何基于强化学习技术实现低计算量、低资源消耗的植保图像非密集害虫检测方法已经成为急需解决的技术问题。

发明内容

本发明的目的是为了解决现有技术中植保图像非密集害虫检测计算量大、资源消耗高的缺陷，提供一种基于强化学习技术的植保图像非密集害虫检测方法来解决上述问题。

为了实现上述目的，本发明的技术方案如下：

一种基于强化学习技术的植保图像非密集害虫检测方法，包括以下步骤：

11)获取植保图像数据库：获取植保图像数据库，并对植保图像数据库进行预处理；

12)植保图像特征图的提取：将植保图像数据库输入预训练后的卷积神经网络进行处理，得到植保图像数据库中植保图像的特征图；

13)构建害虫目标检测网络：构建用于植保图像非密集害虫检测的害虫目标检测网络，害虫目标检测网络包括多强化智能体、区域选择网络和区域精修网络；

14)害虫目标检测网络的训练：分阶段训练害虫目标检测网络，其中利用重新设计的奖励函数引导害虫目标检测网络的多强化智能体进行高效的训练，所述的训练方式为借助贝尔曼方程去获得期望的累积奖励与强化智能体的输出进行误差计算并进行梯度反传；通过精心采样和数据扩充获得满足高斯分布的训练数据对害虫目标检测网络的区域选择网络和区域精修网络进行训练，以增强检测的鲁棒性；

15)待检测植保图像的获取和特征图提取：获取待检测植保图像并进行预处理后，输入预训练后的卷积神经网络得到待检测植保图像的特征图；

16)害虫检测结果的获得：将待检测植保图像的特征图输入训练后的害虫目标检测网络，得到植保图像非密集害虫检测结果。

所述的构建害虫目标检测网络包括以下步骤：

21)构建多强化智能体产生候选框区域集合：设定将待检测图像的特征图输入多强化智能体，执行马尔可夫过程直到智能体满足终止条件，然后依次记录每个时刻马尔可夫链的输出，得到目标候选框区域集合；

22)构建区域选择网络筛选出最优候选框：设定区域选择网络包含完整度预测网络和交并比预测网络两个子网络，将目标候选框区域集合均输入到完整度预测网络和交并比预测网络两个子网络，均对收集的候选框区域集合逐一进行评估，得到评估分值最高的候选框区域作为最优候选框区域；

23)构建区域精修网络回归候选框坐标：将最优候选框区域输入到区域精修网络去进一步回归候选框坐标，得到期望的目标区域位置。

所述的害虫目标检测网络的训练包括以下步骤：

31)多强化智能体训练步骤如下：

311)设置强化学习训练数据记忆库容量、训练迭代次数、奖励函数和终止条件；

312)按照设定的引导规则引导强化学习智能体执行马尔可夫过程直到达到终止条件，收集每个时间步的执行记录，填充记忆库达到设定的容量，执行记录包括转移前状态、执行的动作、转移后状态、奖励，

所述的引导规则为每一个时刻选择奖励值最大的动作执行；所述的终止条件为达到设定的马尔可夫链长或产生的候选框区域与真实标注框的交并比超过0.5；所述的奖励函数如下：

其中，r为即时奖励；β为超参数，用于平衡奖励函数的第一项与第二项；IoU∈[0,1]为候选框区域与真实标注框之间的交并比；CPL∈[0,1]为候选框区域与真实标注框之间的重合度；IoU(s_t,s_t+1)＝IoU(s_t+1)-IoU(s_t)为马尔可夫链中相邻两时间步的交并比变化，CPL(s_t,s_t+1)＝CPL(s_t+1)-CPL(s_t)为马尔可夫链中相邻两时间步的完整度变化；λ为超参数，用于加速智能体执行过程，其中，CPL(s_t)＝(s_t∩g)/g，IoU(s_t)＝(s_t∩g)/(s_t∪g)，s_t为当前时间步状态，g为真实标注框；

313)从训练数据记忆库中随机采集一个批次马尔可夫链数据，借助贝尔曼方程去计算期望的累积奖励，然后与强化智能体的输出计算误差并进行梯度反传；所述贝尔曼方程获得期望累积奖励的表达式如下：

其中，a和a_-为动作空间的特定动作，r₀为奖励值，s为转换前状态，s_-为转换后状态，A为动作空间，Q为期望累积奖励函数；

314)更新强化学习训练数据记忆库：将植保图像数据库输入训练后的强化学习智能体，执行马尔可夫过程，用新产生的马尔可夫链数据去依照时间顺序循环覆盖之前的数据；循环执行步骤313)-步骤314)直到达到设置的训练迭代次数；

32)训练区域选择网络，其训练步骤如下：

321)训练完整度预测网络，步骤如下：

3211)将植保图像数据库输入训练后的多强化智能体生成候选框区域集合，并统计候选框区域集合的完整度分布；

3212)随机裁剪植保图像数据库，获得裁剪区域集合并计算每个裁剪区域的完整度；

3213)从裁剪区域集合中采集数据去填充候选框区域集合，使得候选框区域集合的完整度分布服从高斯分布；

3214)将填充后的候选框区域集合划分为0到1的10个等分区间，从每个区间中选择等量数据利用smoothL1损失函数去训练完整度预测网络；

322)训练交并比预测网络，步骤如下：

3221)将植保图像数据库输入训练后的多强化智能体生成候选区域集合，并统计候选框区域集合的交并比分布；

3222)选择交并比大于0.3的候选框区域组成训练数据；

3223)随机选择一个批次的数据利用交叉熵损失函数进行训练；

33)区域精修网络训练步骤如下：

331)从收集的训练框数据集合中选择交并比大于0.4的数据做为训练数据；

332)利用RCNN的坐标转换方法对数据进行变换，然后采用smoothL1损失函数进行训练。

所述的对收集的候选框区域集合逐一进行评估包括以下步骤：

41)将获得的候选框区域集合{Re⁽⁰⁾,...,Re^(T)}进行预处理，缩放到统一尺寸输入到卷积神经网络中进行特征提取；

42)将提取的特征输入到区域选择网络的交并比预测网络和完整度预测网络分别进行交并比和完整度预测，获得预测值集合{IoU⁽⁰⁾,...,IoU^(T)}和{CPL⁽⁰⁾,...,CPL^(T)}，其中T为候选框区域集合的元素数；

43)将候选框区域集合中的元素按照预测的交并比集合{IoU⁽⁰⁾,...,IoU^(T)}和完整度集合{CPL⁽⁰⁾,...,CPL^(T)}的乘积值进行降序排列,如下：

ICPL^(k)＝IoU^(k)×CPL^(k)

{...,Re^(k)，Re^(k+1),Re^(k+2)...}|{...ICPL^(k)>ICPL^(k+1)>ICPL^(k+2)...}

44)筛选出最大乘积值对应的目标候选框区域。

所述的多强化智能体为多个DQN与double DQN智能体的集合，其记录训练过程中的每次迭代的累积奖励，并选择奖励值较大的几代强化学习智能体组成多强化智能体。

有益效果

本发明的一种基于强化学习技术的植保图像非密集害虫检测方法，与现有技术相比利用强化学习的动作空间和深度学习的特征空间去由粗到细的进行目标检测，结合改进的强化学习算法和区域选择网络去搜索最优候选区域，而后利用深度学习去进一步精修目标候选区域坐标，进一步提高检测精度。

相比于传统的深度学习算法，本发明仅需要分析小于10个的候选框区域(深度学习需要大于1000个左右候选框区域)就能达到精确的害虫检测，极大的减少了计算机资源的消耗，为低内存的害虫检测算法提供了可能；相比于传统的强化学习算法，本发明率先引入了深度学习的特征空间去增强强化学习的动作空间，使得目标定位的坐标转换空间充分覆盖害虫的真实标注框空间，有效的提高了害虫目标检测的精度。

本发明利用多强化智能体去提供精准的候选框区域，利用区域选择网络去筛选最优的候选区域，利用区域精修网络去回归候选框以得到目标的精确定位。

附图说明

图1为本发明的方法顺序图；

图2a为现有技术中基于锚点的Faster RCNN产生的候选框区域分布图；

图2b为利用本发明所述方法中多智能体所产生的候选框区域分布图。

具体实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识，用以较佳的实施例及附图配合详细的说明，说明如下：

如图1所示，本发明所述的一种基于强化学习技术的植保图像非密集害虫检测方法，包括以下步骤：

第一步，获取植保图像数据库：获取植保图像数据库，并根据需要对植保图像数据库进行传统的预处理，如缩放到统一尺寸、数据增强(旋转，平移)等。

第二步，植保图像特征图的提取：将植保图像数据库输入经过传统方法预训练后的卷积神经网络进行处理，或直接利用传统方法得到植保图像数据库中植保图像的特征图。

第三步，构建害虫目标检测网络：构建用于植保图像非密集害虫检测标记的害虫目标检测网络，害虫目标检测网络包括多强化智能体、区域选择网络和区域精修网络。

在此通过强化学习将目标检测建模为一个马尔可夫过程；传统的强化学习目标检测算法总是选择智能体执行的马尔可夫过程的最终时刻的输出直接作为检测结果，然而经过实验结果发现马尔可夫链的最终时刻的输出在整体马尔可夫链的输出结果中不总是最优的，为此本发明提出了区域选择网络通过评估马尔可夫链的所有输出以提高检测精度。

并且由于传统的强化学习算法通过运用人为自定义的动作空间去转换图像坐标以覆盖待检测目标，具有一定的局限性，为此本发明借助深度学习的特征空间的强大拟合能力去增强强化学习的动作空间，设计了目标精修网络，使得目标定位的坐标转换空间充分覆盖害虫的真实标注框空间，有效的提高了害虫目标检测的精度。

另外单一的智能体产生的候选框区域并不能充分覆盖真实目标空间，本发明通过运用多智能体去增大目标搜索的解空间来增强检测结果。强化学习通过奖励函数来引导训练，而传统的强化学习目标检测算法仅考虑相邻两步的交并比变化趋势，使得训练后的强化学习智能体对目标的微小变化不敏感，为此本发明引入相邻两步的交并比变化大小来改进目标函数，并且引入了新设计的完整度指标来保证最终的检测结果中目标的完整性，进一步提升了精度。

构建害虫目标检测网络的具体步骤如下：

(1)构建多强化智能体产生候选框集合：将待检测图像的特征图输入多强化智能体，执行马尔可夫过程直到智能体满足终止条件，然后依次记录每个时刻马尔可夫链的输出，得到目标候选框区域集合。在此，多强化智能体为多个DQN与double DQN智能体的集合，其记录训练过程中的每次迭代的累积奖励，并选择奖励值较大的几代强化学习智能体组成多强化智能体。

(2)构建区域选择网络筛选出最优候选框：设定区域选择网络包含完整度预测网络和交并比预测网络两个子网络，将目标候选框区域集合均输入到完整度预测网络和交并比预测网络两个子网络，均对收集的候选框集合逐一进行评估，得到评估分值最高的候选框作为最优候选框区域。

其中，对收集的候选框集合逐一进行评估包括以下步骤：

A1)将获得的候选框区域集合{Re⁽⁰⁾,...,Re^(T)}进行预处理，缩放到统一尺寸输入到卷积神经网络中进行特征提取；

A2)将提取的特征输入到区域选择网络的交并比预测网络和完整度预测网络分别进行交并比和完整度预测，获得预测值集合{IoU⁽⁰⁾,...,IoU^(T)}和{CPL⁽⁰⁾,...,CPL^(T)}，其中T为候选框区域集合的元素数；

A3)将候选框区域集合中的元素按照预测的交并比集合{IoU⁽⁰⁾,...,IoU^(T)}和完整度集合{CPL⁽⁰⁾,...,CPL^(T)}的乘积值进行降序排列,如下：

ICPL^(k)＝IoU^(k)×CPL^(k)

{...,Re^(k)，Re^(k+1),Re^(k+2)...}|{...ICPL^(k)>ICPL^(k+1)>ICPL^(k+2)...}

A4)筛选出最大乘积值对应的目标候选框区域。

(3)构建区域精修网络回归候选框坐标：将最优候选框区域输入到区域精修网络去进一步回归候选框坐标，得到期望的目标区域位置。

第四步，害虫目标检测网络的训练：分阶段训练害虫目标检测网络，其中利用重新设计的奖励函数引导目标检测网络的多强化智能体进行高效的训练，所述的训练方式为借助贝尔曼方程去获得期望的累积奖励与强化智能体的输出进行误差计算并进行梯度反传；通过精心采样和数据扩充获得满足高斯分布的训练数据对害虫目标检测网络的区域选择网络和区域精修网络进行训练，以增强检测的鲁棒性。其具体步骤如下：

(1)多强化智能体在保证效率的同时有效地扩充了最优候选框的搜索空间；所述的奖励函数不只考虑了马尔可夫链中前后两步IoU变化的方向，还考虑了变化的幅度，同时引入了CPL完整度概念，能够使智能体对微小变化敏感，在一定程度上保证了最优候选框和真实标注框更加贴合，也保证了最优候选框中的目标的完整性，有助于下一步的精修回归。多强化智能体训练步骤如下：

B1)设置强化学习训练数据记忆库容量、训练迭代次数、奖励函数和终止条件；

B2)按照设定的引导规则引导强化学习智能体执行马尔可夫链过程直到达到终止条件，收集每个时间步的执行记录，填充记忆库达到设定的容量，执行记录包括转移前状态、执行的动作、转移后状态、奖励，

所述的引导规则为每一个时刻选择奖励值最大的动作执行；所述的终止条件为达到设定的马尔可夫链长或产生的候选框与真实标注框的交并比超过0.5；所述的奖励函数如下：

B3)从强化学习训练数据记忆库中随机采集一个批次马尔可夫链数据，借助贝尔曼方程去计算期望的累积奖励，然后与强化智能体的输出计算误差进行梯度反传；所述贝尔曼方程获得期望累积奖励的表达式如下：

其中，a和a_-为动作空间的特定动作，r为奖励值，s为转换前状态，s_-为转换后状态，A为动作空间，Q为期望累积奖励函数；

B4)更新强化学习训练数据记忆库：将植保图像数据库输入训练后的强化学习智能体，执行马尔可夫过程，用新产生的马尔可夫链数据去依照时间顺序循环覆盖之前的数据；循环执行步骤B3)-步骤B4)直到达到设置的训练迭代次数。

(2)在此，所提出的区域选择网络可以嵌入到任何基于强化的的计算机视觉任务中，去寻找马尔可夫链中最优的中间结果以提高精度。训练过程中，由于收集的候选框区域的IoU值和CPL值分布不均，直接训练网络将导致网络泛化性较差。为此，我们随机裁剪训练集的样本，获得大量的候选区域，同时利用标注的候选框来计算相应的IoU值和CPL值，挑选相应区间的样本来扩充候选区域集合。

其中，训练区域选择网络的训练步骤如下：

C1)训练完整度预测网络，步骤如下：

C11)将植保图像数据库输入训练后的多强化智能体生成候选框区域集合，并统计候选框区域集合的完整度分布；

C12)随机裁剪植保图像数据库，获得裁剪区域集合并计算每个裁剪区域的完整度；

C13)从裁剪区域集合中采集数据去填充候选区域集合，使得候选框区域集合的完整度分布服从高斯分布；

C14)将填充后的候选框区域集合划分为0到1的10个等分区间，从每个区间中选择等量数据利用smoothL1损失函数去训练完整度预测网络。

C2)训练交并比预测网络，步骤如下：

C21)将植保图像数据库输入训练后的多强化智能体生成候选框区域集合，并统计候选框区域集合的交并比分布；

C22)选择交并比大于0.3的候选框区域组成训练数据；

C23)随机选择一个批次的数据利用交叉熵损失函数进行训练。

(3)之前的强化学习做目标检测的网络都只利用强化学习的动作空间去转换目标的坐标值，而我们的框架结合了深度学习的特征学习去进一步精修强化学习输出的候选框区域来进一步提高精度。区域精修网络训练步骤如下：

D1)从收集的训练框数据集合中选择交并比大于0.4的数据做为训练数据；

D2)利用RCNN的坐标转换方法对数据进行变换，然后采用smoothL1损失函数进行训练。

第五步，待检测植保图像的获取和特征图提取：获取待检测植保图像并进行预处理后，输入卷积神经网络，得到待检测植保图像的特征图。

第六步，害虫检测结果的获得：将待检测植保图像的特征图输入训练后的害虫目标检测网络，得到植保图像非密集害虫检测结果。

如图2a所示,图2a为基于锚点的Faster RCNN产生的候选框区域分布，其数量在1000个左右；如图2b所示，其为本发明提出的基于强化学习的多智能体所产生的候选框区域分布，针对当前的稻螟蛉(非密集害虫)目标检测而言只需要5个，而一般情况下候选框不超过10个；相比于图2a的深度学习算法，我们可以清楚的发现：在非密集害虫检测上，本发明所提出的强化学习目标检测算法可以在分析减少100倍量级的候选框区域的情况下，达到同样的检测结果，极大的减少了计算机资源的消耗，促进了低内存检测算法的实施。这正是得益于我们综合利用了深度学习的特征空间和强化学习的动作空间，提升了当前的植保图像非密集害虫检测的效率。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于强化学习技术的植保图像非密集害虫检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于强化学习技术的植保图像非密集害虫检测方法，其特征在于，所述的构建害虫目标检测网络包括以下步骤：

3.根据权利要求1所述的一种基于强化学习技术的植保图像非密集害虫检测方法，其特征在于，所述的害虫目标检测网络的训练包括以下步骤：

31)多强化智能体训练步骤如下：

32)训练区域选择网络，其训练步骤如下：

321)训练完整度预测网络，步骤如下：

322)训练交并比预测网络，步骤如下：

3222)选择交并比大于0.3的候选框区域组成训练数据；

33)区域精修网络训练步骤如下：

4.根据权利要求2所述的一种基于强化学习技术的植保图像非密集害虫检测方法，其特征在于，所述的对收集的候选框区域集合逐一进行评估包括以下步骤：

ICPL^(k)＝IoU^(k)×CPL^(k)

{...,Re^(k)，Re^(k+1),Re^(k+2)...}|{...ICPL^(k)>ICPL^(k+1)>ICPL^(k+2)...}

44)筛选出最大乘积值对应的目标候选框区域。

5.根据权利要求2所述的一种基于强化学习技术的植保图像非密集害虫检测方法，其特征在于：所述的多强化智能体为多个DQN与double DQN智能体的集合，其记录训练过程中的每次迭代的累积奖励，并选择奖励值较大的几代强化学习智能体组成多强化智能体。