CN107730393B

CN107730393B - 一种基于改进强化免疫算法的农业物联网资源调配方法

Info

Publication number: CN107730393B
Application number: CN201711082820.XA
Authority: CN
Inventors: 郝矿荣; 蒋益敏; 丁永生
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2017-11-07
Filing date: 2017-11-07
Publication date: 2020-11-10
Anticipated expiration: 2037-11-07
Also published as: CN107730393A

Abstract

本发明涉及一种基于改进强化免疫算法的农业物联网资源调配方法，采用物联网技术获取农业中各资源需求点和供应点的相关信息，利用改进强化免疫算法实现各供应点通过调配车辆对各需求点进行资源高效调配；改进强化免疫算法为利用强化学习思想对免疫算法进行改进后得到的算法，改进是指根据车辆所在的资源供应点与需求点之间的距离初始化Q表，在每一次迭代中根据当前适应度值最小的抗体更新Q表，并在变异阶段用当前Q表指导其变异，同时，当Q表出现连续在相同位置更新时，调整Q表跳出局部最优。本发明的方法具有学习能力强、自适应性好、调配对象多及反应速度快的特点。

Description

一种基于改进强化免疫算法的农业物联网资源调配方法

技术领域

本发明属于智能农业领域，涉及一种智能优化调配方法，具体涉及一种基于改进强化免疫算法的农业物联网资源调配方法。

背景技术

近年来，在政府、科研机构及农业生产企业等共同推动下，我国农业农村经济保持着良好发展势头，部分地区在农业物联网技术应用方面进行了积极的探索，并取得初步成效。用现代信息技术改造传统农业，是实现农业数字化设计、智能化控制、精准化运行和科学化管理的重要途径。物联网技术作为现代信息技术的新生力量，是推动信息化与农业现代化融合的重要切入点，也是推动我国农业向“高产、优质、高效、生态、安全”发展的重要驱动力。

农业生产和农业经济活动中会涉及到许多资源，包括水资源、生物资源、肥料、劳动力资源、农业技术装备、农业基础设施等，各供应点资源储备量有限和不平衡往往会造成某个供应点的资源量不足以满足需求量，需要通过统一调配互相调剂。农业物联网资源调配即通过结合物联网技术获取资源需求点位置、资源供应点位置、资源供求量、路况信息等实时信息，对各种资源的统筹协调、优化调整与合理安排，以满足资源需求，提升资源调配效率，节约调配成本，达到最好的经济效益。现有的关于农业物联网资源调配的研究主要是针对单一资源的调配、农资配送、对农业监控系统信息平台的搭建，在资源调配方面多是基于评估专家系统和人工决策，很少采取自动调配系统。农业区域广阔、各需求点比较分散使农业中信息管理的难度大大增加，因此在农业大范围区域中，通过优化算法取代人工决策，实现一种科学智能的、能够根据实时情况进行协调管理的资源调配方法具有很大的价值与意义。

农业物联网资源调配问题本质是资源定位配置问题和车辆路线安排问题的集成问题，目前农业物联网资源调配方法主要为一些涉及水土资源的优化配置方法、农机调度如基于改进免疫禁忌算法的农机调度方法等，虽然也能对资源配置进行优化，但其主要针对单一资源进行调配。虽然也有基于大数据的农资调配方法及装置，但其均是根据以往的供给数据计算未来农资供给，其适配灵活性较差。此外，还有部分关于物流配送的方法和涉及医疗、交通等领域结合物联网技术针对应急资源的资源调配方法，其主要为利用物联网技术采集实时信息监测，采用粒子群算法、遗传算法、禁忌搜索算法或免疫算法等启发式递推算法以及它们的衍生算法求解调配方案，虽然其搜索较为全面，但这些调配方法自适应性较差且反应速度较慢，难以进行快速适配。

因此，开发一种学习能力强、自适应性好且能对多种资源综合调配的农业物联网资源调配方法是亟待解决的问题。

发明内容

本发明的目的是针对现有技术学习能力较差、自适应性不佳及调配对象单一等的缺陷，提供一种学习能力强、自适应性好且能对多种资源综合调配的基于改进强化免疫算法的农业物联网资源调配方法。本发明是在免疫算法的基础上结合强化学习思想，提出一种全新的改进强化免疫算法并基于该算法进行农业物联网资源调配。该算法相对于传统免疫算法能够加速寻优过程，进一步提高求解质量，将此方法应用到农业物联网资源调配中，可以适应各种农业生产实际，解决农业多种资源的协同调配，提升资源调配效率。本发明既保留了免疫优化算法很强的全局搜索能力，又结合强化学习很强的自适应性和目标驱动性，使得算法能快速收敛、有效找到最优解，实现在农业生产中对多种资源高效智能调配。

本发明的思路是结合强化学习思想改进免疫算法，引入Q表作为行动策略准则表，根据每一次迭代后的最优抗体来自主更新Q表，以此来学习优势基因信息，并在变异阶段通过Q表指导抗体变异方向，使其具有自适应性和目标驱动性，加快算法的收敛速度，提升算法爬山性能；同时，当Q表出现连续在相同位置更新时，调整Q表跳出局部最优，提升算法全局搜索能力，有效找到最优解。

现代农业中有多个分散的资源需求点、多个资源储备量有限的资源供应点，结合物联网技术获取相关信息，根据各需求点对各种资源的需求量和各供应点各种资源的储备量，在多个供应点与需求点间通过多辆有车载容量限制的车辆进行多种资源调配。

根据上述描述，进行假定：

(1)有多个供应点和需求点，供应点的位置和需求点的位置己确定，各种资源供应量和需求量均己知，并且总的供应量可以满足总体需求。需求点与供应点之间无指派关系，各供应点可以向所有需求点调配资源；

(2)每个供应点有多辆运输车辆，每辆车都有唯一编号且有车载容量限制，所有车辆除编号和车载容量外其余基本属性都相同，每辆车均可以调配所有种类资源，所有车的车载能力之和满足总需求；

(3)每辆车总是从供应点出发，最后回到该供应点。当所有需求点均得到需求资源且车辆都回到其供应点时，调配过程结束；

(4)各需求点所需要的每种资源都是一次送达；

(5)不考虑因环境等因素导致道路损坏不可行的情况。

因此本发明将农业物联网资源调配问题描述为：在一定范围内，一共分布H个资源需求点，每个资源需求点对N种资源均有需求量，有T个资源供应点，分别有N种资源的一定储备量，每个资源供应点都有相应的车辆，要求在满足车载容量限制的情况下，在多个供应点与需求点间进行N种资源优化组合配置，并选取最优路径通过车辆为各需求点进行资源高效调配。目的最小化资源调配过程的总距离，以保证调配成本最少，达到最好的经济效益。

为实现上述目的，本发明采取的技术方案如下：

一种基于改进强化免疫算法的农业物联网资源调配方法，采用物联网技术获取农业中各资源需求点和供应点的相关信息，利用改进强化免疫算法实现各供应点通过调配车辆对各需求点进行资源高效调配；

所述改进强化免疫算法是指利用强化学习思想对免疫算法进行改进后得到的算法，所述改进的方法为：首先根据车辆所在的资源供应点与需求点之间的距离初始化Q表，然后在每一次迭代中根据当前适应度值最小的抗体更新Q表，并在变异阶段用当前Q表指导其变异，同时，当Q表出现连续在相同位置更新时，调整Q表跳出局部最优，提升算法全局搜索能力，有效找到最优解；

利用改进强化免疫算法实现资源高效调配的过程是以调配方案为抗体并以最大迭代次数MAXGEN为终止条件的改进强化免疫算法的优化过程。

作为优选的技术方案：

如上所述的一种基于改进强化免疫算法的农业物联网资源调配方法，利用改进强化免疫算法实现资源高效调配的具体步骤如下：

(1)初始化资源调配所需要的数据和改进强化免疫算法所需要的必要参数；

所述资源调配所需要的数据包括：资源需求点总数H及各个资源需求点对N种资源的需求量、资源供应点总数T及各个资源供应点的N种资源的储备量、运输车辆总数C、车辆最大承载量P、各资源需求点和供应点的位置信息；

所述改进强化免疫算法所需要的必要参数包括：抗体群规模W、记忆库容量w、优势抗体保留个数s、最大迭代次数MAXGEN、多样性评价参数ps、交叉概率pc、变异概率pm、强化学习行动探索概率ε和基因选择概率μ；

(2)初始化Q表；

先生成一个(H×N)×C的矩阵代表强化学习的行动策略准则Q表，Q表中的每一个元素Q_in,k(in＝11,21,…,H1,12,22,…,H2,…,1N,2N,…,HN；k＝1,2,…,C)表示资源需求点i中的资源n选用车辆k调配所对应的行为分数，考虑到一个好的资源调配方案中，各资源供应点在条件允许的情况下必然会负责调配与自身距离近的需求点，再按照优先原则初始化Q表，即根据车辆所在的资源供应点与需求点之间的距离来初始分配行为分数；

(3)初始化抗体群；

随机生成一个大小为(W+w)×(H×N)的矩阵作为抗体群，矩阵的行向量

表示抗体群中的一个抗体，即一个调配方案，

中的每个元素

的值表示负责为资源需求点i调配资源n的车辆序号，

b表示抗体序号，b∈{1,…,W+w}，G表示当前迭代序数，G∈{1,…,MAXGEN}；

(4)抗体群多样性评价，即分别计算抗体群中的抗体适应度值、抗体间的相似度、抗体浓度和抗体期望繁殖概率；

(4.1)适应度函数为：

两个约束条件为：

根据抗体

中每一位

的取值提取出每一辆车为需求点调配资源的服务序列

，其中i_u(u＝1,…,q),i_u∈{1,…,H}表示该车辆经过的第u个需求点序号，n_uv(u＝1,…,q；v＝1,…,Z_u)，n_uv∈{1,…,N}表示该车辆经过的第u个需求点需要的第v种资源序号，q表示该车辆经过需求点总数，Z_u表示第u个需求点所需资源种类总数；

提取规则为：对抗体

进行逐位判断，若

的抗体位取值为k，则将服务序号in(对需求点i调配资源n)加入到对应的车辆k的服务序列U_k,b,G中；在U_k,b,G的基础上，提取每一辆车的服务需求点序列S_k,b,G＝{i₁,i₂,…,i_q}，提取规则为：将U_k,b,G中的每一个i_un_uv，根据u值把u相同的i_un_uv合并为i_u；

抗体

适应度值为：

其中：d_ij是指需求点i到j的距离，下标为0代表对应的供应点；R_in是指需求点i对资源n的需求量；p_k是指车辆k的实际承载资源量；m_tn是指资源供应点t中资源n的实际调配量；M_tn是指资源供应点t中资源n的资源储备量；

两个决策变量如下：

当x_ijk＝1时，i,j∈S_k,b,G；

当y_iktn＝1时，in∈U_k,b,G；

(4.2)抗体间的相似度的计算公式为：

其中：b,l代表每次迭代初始时抗体群中两个不同的抗体

same_b,l为抗体

含有相同数值的位数，H×N为抗体长度；

(4.3)抗体浓度(每一次迭代初始时抗体群中相似抗体所占的比例)的计算公式为：

其中，

(4.4)抗体期望繁殖概率的计算公式为：

(5)记录当前最优适应度值、计算平均适应度值并更新Q表；

记录当前最优适应度值并计算平均适应度值，当前最优适应度值即为当前适应度值的最小值；以当前适应度值最小的抗体作为最优抗体

如最优抗体

是可行解，则根据它更新Q表中的行为分数：根据最优抗体

中的每一个元素

特别地，若Q表出现连续在相同位置更新时，需要随机更换同一供应点中任意两辆车所对应Q表的分数，以此来更新Q表跳出局部最优；若Q表在某次更新后，优先原则遭到破坏，则将破坏优先原则的元素位置重置为优先位，更新优先原则并重置Q表；

(6)更新记忆库，形成父代群；

先根据优势抗体保留个数s的值，将按抗体适应度值升序排列的前s个抗体取出进行精英保留，避免其因浓度高而被淘汰，再将剩余抗体按照抗体期望繁殖概率进行降序排列，取前(w-s)个抗体与精英保留的s个抗体一同存入并更新抗体记忆库，取前(W-s)个抗体与精英保留的s个抗体形成W个抗体，判断最优抗体

中每个基因位的值是否等于Q表中对应行为分数最大的值，若符合，则将这W个抗体形成父代群，若不符合，则将次优抗体替换成最优抗体，次优抗体为当前适应度值次小的抗体，同时将次优抗体根据Q表更新，再将W个抗体形成父代群；

(7)抗体进化，即对父代群中每一个抗体进行免疫操作进化，具体包括选择、交叉和强化变异操作；

(7.1)选择；根据抗体繁殖概率，通过轮盘赌的方式选择父代群中的抗体，每次轮盘操作选择出一个抗体，W次轮盘操作选择W个抗体，抗体繁殖概率越大则被选择的几率就越大；

(7.2)交叉；随机选择两个父代抗体，判断是否超过预先设定的交叉概率pc，若超过，则不进行交叉操作；若没超过则进行交叉操作：在抗体长度(H×N)范围内随机选择任意两个位置的两段等长基因片段，在两个位置上交叉互换基因片段，形成新的两个抗体；W次交叉操作后，得到新的抗体群；

(7.3)强化变异；在变异算子中引入强化学习技术使抗体进行强化变异，从上述交叉操作产生的新抗体群中随机选择一个抗体，判断是否超过预先设定的变异概率pm，若超过，则不进行强化变异操作；若没超过则进行强化变异操作：该抗体以1-ε的概率根据Q表变异，即抗体中每个基因片段以基因选择概率μ随机根据Q表选择到目前为止最好的行动策略，同时以ε的概率选择行动策略空间中的任一行动策略，即将抗体中的某个基因随机突变；对产生变异动作的抗体进行再检验操作，即将这些抗体的每个基因位按序搜索其他可选值，在上述步骤的基础上执行最优变异动作；W次强化变异操作后，得到新的抗体群；

(8)判断终止条件；

判断是否达到最大迭代次数MAXGEN，若否，则将存储在记忆库中的w个抗体添加至经过免疫操作产生的W个抗体组成的抗体群中，形成下一次迭代的(W+w)个抗体，继续进行新一轮迭代，跳转至步骤(4)进行抗体群多样性评价；若是，则输出最优抗体

即最优调配方案。

如上所述的一种基于改进强化免疫算法的农业物联网资源调配方法，步骤(2)中，所述根据车辆所在的资源供应点与需求点之间的距离来初始分配行为分数是指针对Q表的每行，即对于每一个需求点i中的资源n选用每辆车的行为分数按如下分配：

最小值Q_min＝Q_{far_k}＝1，最大值Q_max＝Q_{near_k}由需求点与离它最远和最近的两辆车之间的距离之差d＝d_{far_k}-d_{near_k}决定，其余按照距离比例计算行为分数

其中：d_i,k是指表示车辆k到需求点i的距离；far_k是指对于

距离需求点i最远的车辆；near_k是指对于

距离需求点i最近的车辆；Q_{far_k}是指对于

选择距离需求点i最远的车辆far_k的行为分数；Q_{near_k}是指对于

选择距离需求点i最近的车辆near_k的行为分数；d_{far_k}是指需求点i与距它最远的车辆far_k所在供应点的距离；d_{near_k}是指需求点i与距它最近的车辆near_k所在供应点的距离。

如上所述的一种基于改进强化免疫算法的农业物联网资源调配方法，步骤(5)中，如最优抗体

是可行解，则根据它更新Q表中的行为分数，具体为：

对于当前迭代后的最优抗体

若适应度值

则根据

中的每个元素

的取值k，Q表中的相应元素

其中，k∈{1,…,C}；

将每次迭代后Q表中有更新的元素记录，若连续四次迭代后Q表均是相同元素在更新，则随机对换同一供应点中任意两辆车所对应Q表的分数，跳出局部最优：

；其中：k_t,s_t是指资源供应点t中任意两辆车；C_t是指资源供应点t拥有的车辆数；

若Q表在某次更新成为Q'后，针对

若其Q'_max所在位置与初始Q表的Q_{near_k}所在位置不同，则将Q表重置为初始化的Q表，再将Q表中该in所在行值为Q_in,k'的元素变成Q_{near_k}，值为Q_{near_k}的元素变成Q_in,k'，然后将当前Q表作为初始Q表继续进行迭代。

如上所述的一种基于改进强化免疫算法的农业物联网资源调配方法，步骤(6)中，根据Q表更新是指：对于最优抗体

中每一个

的值，将其根据当前Q表中该in所在行的Q_max，变成该Q_max对应的车辆k值。

如上所述的一种基于改进强化免疫算法的农业物联网资源调配方法，步骤(7)中，所述强化变异操作具体如下：

随机取某个抗体

中的每个元素用xⁱⁿ(i＝1,…,H；n＝1,…,N)表示，判断是否超过预先设定的强化学习行动探索概率ε，若否，则随机取抗体的某个基因位，并将其突变为其他可行值；若是，则将该抗体中每个抗体位xⁱⁿ，以基因选择概率μ选择是否需要变异，若需要，则将该基因位xⁱⁿ，根据当前Q表中该in所在行的Q_max，变成该Q_max对应的车辆k值；之后，将该变异后的抗体进行再检验操作，即对其每个基因位按序搜索其他可行值，如当某基因位变成其他某个值后的抗体优于原先抗体，则将该抗体变异成为此更优抗体，直到检验至最后一个基因位的所有可行值为止。

有益效果：

(1)本发明的一种基于改进强化免疫算法的农业物联网资源调配方法，可以满足农业生产中对多种资源进行调配的需求，调配对象多；

(2)本发明的一种基于改进强化免疫算法的农业物联网资源调配方法，通过引入Q表作为行动策略准则表，根据每一次迭代后的最优抗体来自主更新Q表，以此来学习优势基因信息，并在变异阶段通过Q表指导抗体变异方向，增强了其的学习能力、自适应性和目标驱动性，加快算法的收敛速度，提升算法爬山性能，加快了调配的反应速度；同时，当Q表出现连续在相同位置更新时，调整Q表跳出局部最优，提升算法全局搜索能力，提高了解的质量，有效提升资源调配问题中找到最优解的效率。

附图说明

图1是本发明的一种基于改进强化免疫算法的农业物联网资源调配方法的流程图；

图2是本发明中实施例1的改进强化免疫算法和基础免疫算法的收敛对比图；

图3是本发明中实施例2的改进强化免疫算法和基础免疫算法的收敛对比图。

具体实施方式

下面结合具体实施方式，进一步阐述本发明。应理解，这些实施仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，或应用于其他领域的资源调配问题中，这些等价形式同样落于本申请所附权利要求书所限定的范围。

一种基于改进强化免疫算法的农业物联网资源调配方法，流程图如图1所示，具体步骤如下：

资源调配所需要采集的数据包括：资源需求点总数H及各个资源需求点对N种资源的需求量、资源供应点总数T及各个资源供应点的N种资源的储备量、运输车辆总数C、车辆最大承载量P、各资源需求点和供应点的位置信息；

改进强化免疫算法所需要的必要参数包括：抗体群规模W、记忆库容量w、优势抗体保留个数s、最大迭代次数MAXGEN、多样性评价参数ps、交叉概率pc、变异概率pm、强化学习行动探索概率ε和基因选择概率μ；

(2)初始化Q表；

先生成一个(H×N)×C的矩阵代表强化学习的行动策略准则Q表，Q表中的每一个元素表示Q_in,k(in＝11,21,…,H1,12,22,…,H2,…,1N,2N,…,HN；k＝1,2,…,C)资源需求点i中的资源n选用车辆k调配所对应的行为分数，再按照优先原则初始化Q表，即根据车辆所在的资源供应点与需求点之间的距离来初始分配行为分数。具体为：针对Q表的每行，即对于每一个需求点i中的资源n选用每辆车的行为分数按如下分配：

其中：d_i,k是指表示车辆k到需求点i的距离；far_k是指对于

距离需求点i最远的车辆；near_k是指对于

距离需求点i最近的车辆；Q_{far_k}是指对于

(3)初始化抗体群；

表示抗体群中的一个抗体，即一个调配方案，

中的每个元素

的值表示负责为资源需求点i调配资源n的车辆序号，

(4.1)适应度函数为：

两个约束条件为：

根据抗体

中每一位

的取值提取出每一辆车为需求点调配资源的服务序列

提取规则为：对抗体

进行逐位判断，若

的抗体位取值为k，则将服务序号in加入到对应的车辆k的服务序列U_k,b,G中；在U_k,b,G的基础上，提取每一辆车的服务需求点序列S_k,b,G＝{i₁,i₂,…,i_q}，提取规则为：将U_k,b,G中的每一个i_un_uv，根据u值把u相同的i_un_uv合并为i_u；

抗体

适应度值为：

两个决策变量如下：

当x_ijk＝1时，i,j∈S_k,b,G；

当y_iktn＝1时，in∈U_k,b,G；

(4.2)抗体间的相似度的计算公式为：

其中：b,l代表每次迭代初始时抗体群中两个不同的抗体

same_b,l为抗体

含有相同数值的位数，H×N为抗体长度；

(4.3)抗体浓度的计算公式为：

其中，

(4.4)抗体期望繁殖概率的计算公式为：

(5)记录当前最优适应度值、计算平均适应度值并更新Q表；

如最优抗体

是可行解，则根据它更新Q表中的行为分数：根据最优抗体

中的每一个元素

具体为：对于当前迭代后的最优抗体

若适应度值

则根据

中的每个元素

的取值k，Q表中的相应元素

其中，k∈{1,…,C}；

若Q表在某次更新成为Q'后，针对

(6)更新记忆库，形成父代群；

先根据优势抗体保留个数s的值，将按抗体适应度值升序排列的前s个抗体取出进行精英保留，再将剩余抗体按照抗体期望繁殖概率进行降序排列，取前(w-s)个抗体与精英保留的s个抗体一同存入并更新抗体记忆库，取前(W-s)个抗体与精英保留的s个抗体形成W个抗体，判断最优抗体

中每个基因位的值是否等于Q表中对应行为分数最大的值，若符合，则将这W个抗体形成父代群，若不符合，则将次优抗体替换成最优抗体，次优抗体为当前适应度值次小的抗体，同时将次优抗体根据Q表更新，再将W个抗体形成父代群。其中根据Q表更新是指：对于最优抗体

中每一个

的值，将其根据当前Q表中该in所在行的Q_max，变成该Q_max对应的车辆k值；

(7.3)强化变异；从上述交叉操作产生的新抗体群中随机选择一个抗体，判断是否超过预先设定的变异概率pm，若超过，则不进行强化变异操作；若没超过则进行强化变异操作：该抗体以1-ε的概率根据Q表变异，即抗体中每个基因片段以基因选择概率μ随机根据Q表选择到目前为止最好的行动策略，同时以ε的概率选择行动策略空间中的任一行动策略，即将抗体中的某个基因随机突变；对产生变异动作的抗体进行再检验操作，即将这些抗体的每个基因位按序搜索其他可选值，在上述步骤的基础上执行最优变异动作；W次强化变异操作后，得到新的抗体群。强化变异操作具体如下：

随机取某个抗体

中的每个元素用xⁱⁿ(i＝1,…,H；n＝1,…,N)表示，判断是否超过预先设定的强化学习行动探索概率ε，若否，则随机取抗体的某个基因位，并将其突变为其他可行值；若是，则将该抗体中每个抗体位xⁱⁿ，以基因选择概率μ选择是否需要变异，若需要，则将该基因位xⁱⁿ，根据当前Q表中该in所在行的Q_max，变成该Q_max对应的车辆k值；之后，将该变异后的抗体进行再检验操作，即对其每个基因位按序搜索其他可行值，如当某基因位变成其他某个值后的抗体优于原先抗体，则将该抗体变异成为此更优抗体，直到检验至最后一个基因位的所有可行值为止；

(8)判断终止条件；

即最优调配方案。

实施例1

本实例中资源种类总数N＝1，资源需求点个数H＝10，资源供应点个数T＝2，各资源供应点相关信息及所拥有车辆信息如表1和各资源需求点相关信息如表2所示，所有点分布在100×100m²的区域中。

表1

供应点	坐标X	坐标Y	N1资源供应量	车辆	车载量
						T<sub>1</sub>	50	30	8	C<sub>1</sub>、C<sub>2</sub>	4.5
T<sub>2</sub>	50	70	7	C<sub>3</sub>、C<sub>4</sub>	4.5

表2

利用本发明改进强化免疫算法，本实施例1运行结果如表3所示：

表3

适应度值	590.9272
		次数	10
总计	10
		平均适应度值	590.9272
平均运行时间	90.64s

最终得出的最优调配方案，如表4所示：

表4

车辆(携带资源量)	依次经过的需求点(调配资源量)
		C<sub>1</sub>(N<sub>1</sub>:3.66)	T<sub>1</sub>-H<sub>7</sub>(N<sub>1</sub>:0.93)-H<sub>1</sub>(N<sub>1</sub>:0.54)-H<sub>6</sub>(N<sub>1</sub>:0.31)-H<sub>8</sub>(N<sub>1</sub>:1.88)-T<sub>1</sub>
C<sub>2</sub>(N<sub>1</sub>:4.23)	T<sub>1</sub>-H<sub>2</sub>(N<sub>1</sub>:2.13)-H<sub>3</sub>(N<sub>1</sub>:2.1)-T<sub>1</sub>
		C<sub>3</sub>(N<sub>1</sub>:3.26)	T<sub>2</sub>-H<sub>9</sub>(N<sub>1</sub>:1.74)-H<sub>10</sub>(N<sub>1</sub>:1.52)-T<sub>2</sub>
C<sub>4</sub>(N<sub>1</sub>:3.21)	T<sub>2</sub>-H<sub>4</sub>(N<sub>1</sub>:1.46)-H<sub>5</sub>(N<sub>1</sub>:1.75)-T<sub>2</sub>

实施例2

本实例中资源种类总数N＝2，资源需求点个数H＝10，资源供应点个数T＝3，各资源供应点相关信息及所拥有车辆信息如表5和各资源需求点相关信息表6所示，所有点分布在100×100m²的区域中。

表5

表6

需求点	坐标X	坐标Y	N1资源供应量	N2资源供应量
					H<sub>1</sub>	21.6848	39.8254	1.32	0.69
H<sub>2</sub>	48.9923	4.081	1.13	1.31
					H<sub>3</sub>	34.9283	33.753	2.1	0.52
H<sub>4</sub>	43.5551	70.0772	1.42	2.26
					H<sub>5</sub>	65.9102	18.5486	0.75	0.92
H<sub>6</sub>	7.2851	8.6185	1.28	0.55
					H<sub>7</sub>	1.0981	67.1339	1.66	1.3
H<sub>8</sub>	98.2158	19.9237	1.2	0.78
					H<sub>9</sub>	25.7646	55.9766	0.54	1.69
H<sub>10</sub>	63.8684	89.6558	1.86	1.47

利用本发明改进强化免疫算法，本实施例2运行结果如下：

表7

适应度值	次数
		628.1304	7
645.8258	2
		649.5550	1
总计	10
		平均适应度值	641.1704
平均运行时间	469.13s

最终得出的最优调配方案，如表8所示：

表8

实施例1和实施例2中共同需要的相关参数说明如下：

种群规模W＝150，记忆库容量w＝15，优势抗体保留个数s＝5,最大迭代次数MAXGEN＝150，多样性评价参数ps＝0.95，交叉概率pc＝0.9和变异概率pm＝0.55；强化变异过程中，强化学习行动探索概率ε＝0.75,基因选择概率μ＝0.7；初始化Q表过程中，若d＝d_{far_k}-d_{near_k}<15，Q_{near_k}＝8，否则Q_{near_k}＝40。

对比例1

为了说明本发明的算法求得解的能力，现采用基本免疫算法作为比较算法进行仿真实验，将基本免疫算法运行结果与本发明运行结果进行对比。基本免疫算法与上述两个实施例中需要的资源种类总数、资源需求点、供应点信息应相同，相关参数与上述的免疫部分参数相同，即种群规模W＝150，记忆库容量w＝15，优势抗体保留个数s＝5,最大迭代次数MAXGEN＝150，多样性评价参数ps＝0.95，交叉概率pc＝0.9和变异概率pm＝0.55。基本免疫算法的步骤为：(1)初始化所有单元；(2)初始化抗体群；(3)抗体群多样性评价；(4)记录当前最优适应度值，计算平均适应度并记录；(5)更新记忆库和形成父代群；(6)抗体进化(选择、交叉、变异)；(7)判断终止条件。算法对比时应使两种算法产生的初始抗体群保持一致。

使用本发明的改进强化免疫算法(RLIMMUNE)和基本免疫算法(IMMUNE)的仿真结果如图2和图3所示。图2和图3为实施例1和实施例2运用两个算法分别运行一次的收敛情况对比。可以看出，在同等参数和同等随机初始解条件下，IMMUNE算法很难找到最优解，而改进后的RLIMMUNE算法具有明显的收敛优势以及快速收敛到最优解的能力。

另外从表3和表7可以看出，本发明的改进强化免疫算法(RLIMMUNE)在实施例1和实施例2中运行10次，分别有10次、7次找到最优解，说明其求解精度高，在寻找最优解和缩短迭代次数方面都具有明显优势，在全局和局部搜索中，都具有较强的搜索能力，能够较好地用于资源优化调配问题。

Claims

1.一种基于改进强化免疫算法的农业物联网资源调配方法，其特征是：采用物联网技术获取农业中各资源需求点和供应点的相关信息，利用改进强化免疫算法实现各供应点通过调配车辆对各需求点进行资源高效调配；

所述改进强化免疫算法是指利用强化学习思想对免疫算法进行改进后得到的算法，所述改进的算法为：首先根据车辆所在的资源供应点与需求点之间的距离初始化Q表，然后在每一次迭代中根据当前适应度值最小的抗体更新Q表，并在变异阶段用当前Q表指导其变异，同时，当Q表出现连续在相同位置更新时，调整Q表跳出局部最优；

利用改进强化免疫算法实现资源高效调配的过程是以调配方案为抗体并以最大迭代次数MAXGEN为终止条件的改进强化免疫算法的优化过程；

利用改进强化免疫算法实现资源高效调配的具体步骤如下：

(2)初始化Q表；

先生成一个(H×N)×C的矩阵代表强化学习的行动策略准则Q表，Q表中的每一个元素Q_in,k表示资源需求点i中的资源n选用车辆k调配所对应的行为分数，in＝11,21,...,H1,12,22,...,H2,...,1N,2N,...,HN，k＝1,2,...,C，再按照优先原则初始化Q表，即根据车辆所在的资源供应点与需求点之间的距离来初始分配行为分数；

(3)初始化抗体群；

表示抗体群中的一个抗体，即一个调配方案，

中的每个元素

的值表示负责为资源需求点i调配资源n的车辆序号，i＝1,...,H，n＝1,...,N，

(4.1)适应度函数为：

两个约束条件为：

根据抗体：

中每一位

的取值提取出每一辆车为需求点调配资源的服务序列

其中，i＝1,...,H，n＝1,...,N，i_u∈{1,…,H}，i_u表示该车辆经过的第u个需求点序号，u＝1,...,q，n_uv∈{1,…,N}，n_uv表示该车辆经过的第u个需求点需要的第v种资源序号，v＝1,...,Z_u，q表示该车辆经过需求点总数，Z_u表示第u个需求点所需资源种类总数；

提取规则为：对抗体

进行逐位判断，若

抗体

适应度值为：

两个决策变量如下：

当x_ijk＝1时，i,j∈S_k,b,G；

当y_iktn＝1时，in∈U_k,b,G；

(4.2)抗体间的相似度的计算公式为：

其中：b,l代表每次迭代初始时抗体群中两个不同的抗体

same_b,l为抗体

含有相同数值的位数，H×N为抗体长度；

(4.3)抗体浓度的计算公式为：

其中，

(4.4)抗体期望繁殖概率的计算公式为：

(5)记录当前最优适应度值、计算平均适应度值并更新Q表；

如最优抗体

是可行解，则根据它更新Q表中的行为分数：根据最优抗体

中的每一个元素

若Q表出现连续在相同位置更新时，需要随机更换同一供应点中任意两辆车所对应Q表的分数，以此来更新Q表跳出局部最优；若Q表在某次更新后，优先原则遭到破坏，则将破坏优先原则的元素位置重置为优先位，更新优先原则并重置Q表；

(6)更新记忆库，形成父代群；

先根据优势抗体保留个数s的值，将按抗体适应度值升序排列的前s个抗体取出进行精英保留，再将剩余抗体按照抗体期望繁殖概率进行降序排列，取前w-s个抗体与精英保留的s个抗体一同存入并更新抗体记忆库，取前W-s个抗体与精英保留的s个抗体形成W个抗体，判断最优抗体

(7.2)交叉；随机选择两个父代抗体，判断是否超过预先设定的交叉概率pc，若超过，则不进行交叉操作；若没超过则进行交叉操作：在抗体长度H×N范围内随机选择任意两个位置的两段等长基因片段，在两个位置上交叉互换基因片段，形成新的两个抗体；W次交叉操作后，得到新的抗体群；

(7.3)强化变异；从上述交叉操作产生的新抗体群中随机选择一个抗体，判断是否超过预先设定的变异概率pm，若超过，则不进行强化变异操作；若没超过则进行强化变异操作：该抗体以1-ε的概率根据Q表变异，即抗体中每个基因片段以基因选择概率μ随机根据Q表选择到目前为止最好的行动策略，同时以ε的概率选择行动策略空间中的任一行动策略，即将抗体中的某个基因随机突变；对产生变异动作的抗体进行再检验操作，即将这些抗体的每个基因位按序搜索其他可选值，在上述步骤的基础上执行最优变异动作；W次强化变异操作后，得到新的抗体群；

(8)判断终止条件；

判断是否达到最大迭代次数MAXGEN，若否，则将存储在记忆库中的w个抗体添加至经过免疫操作产生的W个抗体组成的抗体群中，形成下一次迭代的W+w个抗体，继续进行新一轮迭代，跳转至步骤(4)进行抗体群多样性评价；若是，则输出最优抗体

即最优调配方案。

2.根据权利要求1所述的一种基于改进强化免疫算法的农业物联网资源调配方法，其特征在于，步骤(2)中，所述根据车辆所在的资源供应点与需求点之间的距离来初始分配行为分数是指针对Q表的每行，即对于每一个需求点i中的资源n选用每辆车的行为分数按如下分配：

其中：d_i,k是指表示车辆k到需求点i的距离；far_k是指对于

距离需求点i最远的车辆；near_k是指对于

距离需求点i最近的车辆；Q_{far_k}是指对于

3.根据权利要求1所述的一种基于改进强化免疫算法的农业物联网资源调配方法，其特征在于，步骤(5)中，如最优抗体

是可行解，则根据它更新Q表中的行为分数，具体为：

对于当前迭代后的最优抗体：

若适应度值

则根据

中的每个元素

的取值k，Q表中的相应元素

其中，i＝1,...,H，n＝1,...,N，k∈{1,…,C}；

其中：k_t,s_t是指资源供应点t中任意两辆车；C_t是指资源供应点t拥有的车辆数；

若Q表在某次更新成为Q'后，针对

4.根据权利要求1所述的一种基于改进强化免疫算法的农业物联网资源调配方法，其特征在于，步骤(6)中，根据Q表更新是指：对于最优抗体

中每一个

5.根据权利要求1所述的一种基于改进强化免疫算法的农业物联网资源调配方法，其特征在于，步骤(7)中，所述强化变异操作具体如下：

随机取某个抗体

中的每个元素用xⁱⁿ表示，判断是否超过预先设定的强化学习行动探索概率ε，i＝1,...,H，n＝1,...,N，若否，则随机取抗体的某个基因位，并将其突变为其他可行值；若是，则将该抗体中每个抗体位xⁱⁿ，以基因选择概率μ选择是否需要变异，若需要，则将该基因位xⁱⁿ，根据当前Q表中该in所在行的Q_max，变成该Q_max对应的车辆k值；之后，将该变异后的抗体进行再检验操作，即对其每个基因位按序搜索其他可行值，如当某基因位变成其他某个值后的抗体优于原先抗体，则将该抗体变异成为此更优抗体，直到检验至最后一个基因位的所有可行值为止。