CN110097185B

CN110097185B - 一种基于生成对抗网络的优化模型方法及应用

Info

Publication number: CN110097185B
Application number: CN201910250457.0A
Authority: CN
Inventors: 谭营; 史博
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2021-03-23
Anticipated expiration: 2039-03-29
Also published as: US20200311558A1; CN110097185A; US11551098B2

Abstract

本发明公布了一种基于生成对抗网络的优化模型方法及应用，称为GAN‑O，包括步骤：将应用(如物流分配优化)表示为函数优化问题；根据函数优化问题的测试函数和测试维度，基于生成对抗网络建立函数优化模型，包括基于生成对抗网络构建生成器和判别器；训练函数优化模型；利用训练好的函数优化模型进行迭代计算，得到最优解；由此实现基于生成对抗网络的优化求解。本发明能够在更短的时间内获得更优的局部最优解，使得深度神经网络的训练稳定，具有更优秀的局部搜索能力。本发明可用于现实中可转化为函数优化问题的很多应用场景的问题比如物流分配问题等，应用领域广阔，能够解决大量的实际问题，极具推广应用价值。

Description

一种基于生成对抗网络的优化模型方法及应用

技术领域

本发明涉及计算模型优化技术领域，尤其涉及一种基于生成对抗网络的新型优化模型方法及应用。

背景技术

函数优化问题一直以来都是数学和计算机科学领域里最重要的问题之一，现实中很多应用场景的问题都可以转化为函数优化问题，比如物流分配问题、深度网络优化问题等。函数优化问题的应用领域非常广阔，能够解决大量的实际问题。

对于函数优化问题，现有的算法主要都是基于梯度的算法，这类算法的缺点是非常容易陷入局部极值。对于一些问题，例如神经网络优化，局部极值通常已经具有足够优秀的效果，但在一些场景下，则需要更加精确的全局最优解，这时则需要算法能够更好地处理"开采"和"探索"之间的关系，来获取更优的全局最优解。为了更好的平衡“开采”与“探索”，大量的元启发式算法被提了出来。元启发式算法通常是受到生物行为或人类行为的启发，通过模拟该行为而设计复杂精巧的机制来指导算法去搜索解空间，从而避免局部最优解，尽可能地找到全局最优解。

对于元启发式算法来说，最关键的两个部分是如何生成解和如何保留解。对于生成解的部分，需要尽可能生成更优的解，但又希望生成的解不会聚到一起，而是有一定的多样性，从而不至于在之后的搜索中陷入局部极值；对于保留解的部分，需要尽可能保留当前更优的解，但又希望那些目前不那么优但是在之后的搜索中有潜力的解也能够被保留下来，因为在之后的探索中，可能会在它们附近搜索到优于当前最优解的解。早期的元启发式算法主要集中在优化生成解的方式上，比如粒子群优化算法、蚁群算法、遗传算法和烟花算法等。在最近的研究中，基于引导向量的方法被大量地提了出来，比如GFWA和COFWA等，通过引入引导向量对生成解加以限制，从而优化了解的生成质量，从而获得了更好的效果。

近年来，生成对抗网络作为一种新型的生成模型，被提出来用于图像和文本的生成，甚至可以对恶意软件做封装，它以出色的性能证明了其在生成能力上的强大。和以往的生成模型不同，生成对抗网络通过设定一个损失函数来指导生成模型去自动地学习如何去生成。在生成对抗网络中，可交替地训练一个判别器和一个生成器，其中判别器用于判别输入样本是来自生成样本还是真实样本，生成器则用于生成尽可能真实的样本，去欺骗判别器将其判别为来自真实样本，整个生成对抗网络的训练过程就像是一对警察和小偷的博弈和对抗，因此得名对抗生成网络。生成对抗网络已经在图像生成、视频合成、文本生成和信息安全等领域有了很多的研究进展。

综上，现有函数优化算法在局部搜索时缺乏多样性；而目前尚未出现将生成对抗网络方法用来解决函数优化问题，现有的生成方式效果不佳。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于生成对抗网络的新型优化模型方法及应用，可用于搜索连续函数的全局最优解，解决现有函数优化算法在局部搜索时缺乏多样性的问题。

本发明的原理是：本发明首先将应用问题(如物流分配问题、深度网络优化问题)表示为函数优化问题，基于生成对抗网络，将对抗生成的方法用于函数优化问题。首先训练了一个判别器去判别函数优化问题的两个解的优劣，然后训练一个生成器从已知解生成引导方向，再乘以一定的步长并加到当前解上，从而得到一个新的解，以这种方式去生成下一代解。本发明通过判别器和生成器之间的对抗训练，使得判别器可以判定输入的两个解中哪个解更优，同时生成器得到判别器的信号反馈，逐步学会了生成更优的解。实验表明，生成器在多次迭代后所学到的生成方式，比其他现有的生成方式(如高斯爆炸、交叉变异等)具有更好的效果。

本发明提供的技术方案是：

一种基于生成对抗网络的新型优化模型方法(称为GAN-O)及应用，包括如下步骤：

1)首先将应用问题表示为函数优化问题；

例如，具体实施中，对于物流分配问题，即在一些现有设施条件的限制下，使得总物流速度达到最快。可将物流分配问题建模为一个离散型的函数优化问题，优化目标是物流速度或效率，条件是利用现有的基础设施(比如有限的配送车辆，有限的仓库等)。此外，机器学习和深度学习问题可表示为在连续的有限搜索空间中最小化一个损失函数，从而达到对训练集的拟合，因此，机器学习和深度学习问题可建模为一个函数优化问题，优化目标是模型对于训练集的损失函数，限制就是有限的连续搜索空间。

2)基于生成对抗网络建立函数优化模型，包括如下步骤：

21)对于函数优化问题中给定的测试函数和测试维度，基于生成对抗网络构建一个生成器(记作G)和一个判别器(记作D)：判别器的输入为两个测试维度大小的向量，输出为后一个向量是否会优于前一个向量的标量(若是则为1，否则为0)；生成器的输入为一个大小为测试维度加噪声维度的向量，输出为一个测试维度大小的向量，表示引导方向。当前解在开始迭代前先随机初始化，之后随着迭代每一代更新当前解。

22)训练函数优化模型，包括训练判别器和训练生成器，更新判别器和生成器的网络参数，得到训练好的函数优化模型；

3)利用训练好的函数优化模型进行迭代计算；

在模型每一次迭代中，先训练判别器(即更新判别器的网络参数)，再训练生成器(即更新生成器的网络参数)。而更新生成器或判别器的网络参数，均先计算损失函数，然后根据损失函数对网络参数求梯度，用梯度下降的方式更新网络参数。

具体首先使用生成器以步骤5)中描述的方式生成训练数据，再根据步骤6)中描述的方法计算判别器的损失函数并更新其网络参数。之后使用步骤7)中描述的方法计算生成器的损失函数，并以此更新生成器的网络参数。接着利用生成器生成新的解，并与当前解合并得到所有候选解，并计算所有候选解的适应度值，按照适应度值的大小分配留存概率，根据留存概率从所有候选解中选取与上一代当前解数量相同的解作为下一代的当前解。

具体实施时，假设算法最开始随机初始化K个当前解，在每一代会用生成器生成一些解，并和上一代的当前解合并作为候选解，然后根据概率从候选解里面保留K个解作为下一代的当前解，保证每一代的当前解都是K个。

当迭代达到最大次数时停止迭代，此时保留的解即为最优解，为算法的输出解。

上述基于生成对抗网络的新型优化模型方法及应用方法具体包括如下步骤：

1)将应用问题表示为函数优化问题，确定函数优化问题的函数(本发明称为测试函数)和测试维度，设定噪声维度；具体执行如下操作：

1a)确定待优化的测试函数，包括函数表达式、定义域(记作D)、函数输入维度(记作||x||)等，测试函数在输入符合要求的一个自变量x后，会输出该自变量的适应度值F(x)；

1b)设定一个测试维度||x||(即函数输入维度)，需根据实际情况而定，对于用编码方式转化的实际问题，一般设定为编码的维度，对于数据集函数(例如CEC2013函数集)，一般设定为30,50或100；

1c)设定一个噪声维度(记作||z||)，噪声维度控制噪声向量的大小，将会在生成网络生成解的时候和输入解连接起来作为输入，本发明具体实施中设置噪声维度为测试维度的三分之一。

构建生成对抗网络，包括步骤2)～3)：建立判别器的网络结构和损失函数、建立生成器的网络结构和损失函数。

2)建立判别器的网络结构和损失函数。

(2a)判别器(记作D)接收两个输入的解(记作x₁和x₂)，输出记作D(x₁，x₂)，输出越接近1表示x₂的适应度值越优于x₁的适应度值(即F(x₂)≤F(x₁))，反之则说明x₁的适应度值越优于x₂的适应度值。

(2b)对于输入的两个解x₁和x₂，首先使用同一个4层的全连接网络(记作D_f)来提取特征。该全连接网络的输入层维度为解的维度(也就是测试维度)，第二层的维度为64维，第三层的维度为64维，第四层的维度为10维；每一层的激活函数均为线性整流函数(Relu)。该全连接网络接收输入的两个解x₁和x₂，对其提取特征，得到两个10维的向量作为其对应的特征；

(2c)对两个解提取到的特征向量做减法，具体是第二个解的特征向量减第一个解的特征向量；

(2d)对相减后的向量过一个3层的全连接网络。该全连接网络(记作D_c)的输入层维度为10，第二层的维度为10，第三层的维度为1；其中第二层的激活函数为线性整流函数(Relu)，输出层的激活函数为Sigmoid激活函数。该全连接网络接受(2c)得到的相减后的10维向量，最终输出一个0到1之间的标量；

(2e)综上，判别器的输出可以表示为：

D(x₁，x₂)＝D_c(D_f(x₂)-D_f(x₁))；

(2f)判别器的损失函数使用交叉熵损失函数，优化算法使用批量的Adam算法。

3)建立生成器的网络结构和损失函数。

(3a)生成器(记作G)接受的输入有：当前解(记作x_cur)、噪声(记作z)和步长(记作L)，输出记作G(x_cur，z，L)，可以称之为移动向量，作用是引导当前解如何移动以获得更优的适应度值，后续该向量将会与输入的当前解相加去生成一个新的解；

(3b)对于输入的当前解x_cur和噪声z，首先把它们连接起来得到一个新的向量，该向量的维度等于测试维度和噪声维度之和；

(3c)对于(3b)得到的连接向量，过一个3层的全连接网络。该全连接网络(记作G_d)的输入层维度为解向量维度和噪声向量维度之和，第二层的维度为64，输出层的维度为解向量维度；第二层的激活函数为线性整流函数(Relu)，输出层的激活函数为双曲正切函数(Tanh)。该全连接网络接收(3b)得到的连接向量，输出一个和解向量相同维度的方向向量，指导后续的移动方向；

(3d)将(3c)得到的方向向量与输入的步长点乘，得到移动向量，表示具体移动的方向和距离，作为整个生成器的最终输出；

(3e)综上，生成器的输出可以表示为：

G(x_cur，z，L)＝L·G_d([x_cur ^T，z^T]^T)；

(3f)生成器的损失函数使用交叉熵损失函数，优化算法使用批量的Adam算法。

4)以全局随机搜索的方式随机初始化当前解(记作集合S_cur)，并初始化步长(记作L)，，步长可以被输入生成器用于生成移动向量：

4a)全局随机搜索(记作GS)的具体做法是：先用标准高斯分布随机采样，然后用下述公式移动到解空间，采样公式如式1：

GS(x_gs)＝B_l+(B_u-B_l)*x_gs，x_gs～P_{gaussian(0，1)} 式1

其中x_gs～P_{gaussian(0，1)}表示x_gs为从标准高斯分布随机采样得到；B_l和B_u分别为测试函数定义域D的上界和下界；

4b)对集合S_cur里的每个当前解x_cur，利用测试函数计算对应的适应度值F(x_cur)，并以适应度值升序排序，得到当前最优解x_best(适应度值最高即为最优)和其对应的适应度值F(x_best)；

4c)初始化步长(记为L)为50，将步长控制器中记录的当前最优适应度值(记为

)设置为F(x_best)，步长控制器中的计数器(记为L_cnt)置为0。

5)生成训练判别器的数据集(记作T_D)，具体执行如下操作：

5a)用生成器生成(记作GE)、局部随机搜索(记作LS)和全局随机搜索(记作GS)三种方式根据从当前解集合S_cur选取的当前解x_cur生成新的解x_gen，并计算x_gen的适应度值。把生成的新解x_gen和生成它的当前解x_cur相配对，并根据其适应度值的大小关系打上标签(当x_gen的适应度值大于x_cur的适应度值时打上标签1，否则打上标签0)，作为后续训练判别器的数据；

5a1)用生成器(记号为G)生成解(记作GE)：用生成器从当前解x_cur生成移动向量，并与当前解相加，得到生成解。具体步骤如下：

步骤1：以标准高斯分布随机采样得到噪声向量；

步骤2：将当前解、步骤1得到的噪声向量和步长输入生成器，运行生成器生成移动向量；

步骤3：将步骤2得到的移动向量与当前解相加，得到生成解。

用公式可以表达为式2：

GE(x_cur)＝x_cur+G(x_cur，z，L)，z～P_{gaussian(0，1)} 式2

其中，z为噪声向量；L为步长；

5a2)通过局部随机搜索得到生成解(记作LS)：在当前解x_cur周围随机高斯采样，得到生成解。具体步骤如下：

步骤1：以标准高斯分布随机采样得到方向向量；

步骤2：将步骤1得到的方向向量与步长相乘，得到移动向量；

用公式可以表达为式3：

LS(x_cur)＝x_cur+L*d，d～P_{gaussian(0，1)} 式3

5a3)全局随机搜索的具体做法如(4a)所述；

5b)合并三种方法生成的解，得到新生成解，并计算其适应度值；

5c)将5b)得到的新生成解与生成它的当前解相配对组成数据对，比较两者的适应度值：若新生成解的适应度值小于对应当前解的适应度值，则将该数据对标记为1，否则标记为0；

5d)综上，生成训练数据T_D，可以表示为：

T_D＝{(x_cur，x_gen，1if F(x_gen)≤F(x_cur)else 0)} 式4

其中，x_gen～GS(x_gs)，GE(x_cur)，LS(x_cur)，x_cur∈S_cur。

6)用训练集T_D训练判别器：

6a)依次批量从训练集T_D里拿出m条训练数据

计算损失函数，表示为式5：

其中，D表示判别器，

表示输入为

和

时判别器的输出。

6b)根据损失函数计算梯度g_D，表示为式6：

其中，θ_D表示判别器的网络参数；

6c)使用批量的Adam算法更新判别器的网络参数：

其中：μ为学习步长，本发明中设置为0.001；δ为用于数值稳定的小常数，本发明中设置为

为修正一阶矩的偏差，

为修正二阶矩的偏差，计算方式如下：

s＝ρ₁s+(1-ρ₁)g_D，

r＝ρ₂r+(1-ρ₂)g_D⊙g_D，

其中，ρ₁和ρ₂分别为矩估计的指数衰减速率，本发明中分别设置为0.9和0.999；t为批数，在训练前初始化为0，每更新一个批次自增1；s和t分别为一阶和二阶矩变量，在训练前初始化为0，每次用上述公式更新。

7)训练生成器，执行如下操作：

7a)将判别器的网络参数设置为不可训练，并将其与生成器相连接，得到一个整体的网络，记作C：其输入为生成器的输入，输出为判别器的输出，具体的连接方法如下：

步骤1：向生成器输入当前解、噪声和步长，并运行生成器；

步骤2：将生成器生成的移动向量与当前解相加得到生成解；

步骤3：将当前解与步骤2得到的生成解作为判别器的输入，将判别器的输出作为整个网络C的输出。

综上，C的输出可以表示为：

C(c_cur，z，L)＝D(x_cur，x_cur+G(x_cur，z，L)) 式8

7b)从S_cur批量采样当前解、随机高斯采样噪声，和步长一起作为C的输入，运行C，得到输出C(c_cur，z，L)。

7c)计算整个网络C的损失函数：

其中，m为每次采样的数量；

7d)根据损失函数计算梯度g_G(由于判别器的网络参数被设置为不可训练，所以C的网络参数即为生成器的网络参数)：

其中，θ_G表示生成器的网络参数；

7e)更新生成器G的网络参数：

其中，

和

的设置和计算方式如(6c)所述。

8)选取并保留当前解，执行如下步骤：

8a)合并当前解集合和生成解集合，形成候选解集合，记作S_candidate；

8b)为候选解集合中的每个解，根据其适应度值在所有候选解中的排序计算其留存概率，表示为式11：

其中，P_retain(x)为解x的留存概率；r_F(x)表示解x的适应度值在所有候选解中的从小到大的顺序；||S_candidate||表示候选解集合的大小；α是控制概率分布的一个参数，α越大，适应度较小的解会分走更多的留存概率，适应度较大的解只能得到较少的留存概率，本发明中α被设置为3；

8c)根据每个解的留存概率，选取并保留被选解，更新S_cur。

9)缩减步长L，具体执行如下步骤：

9a)比较当前S_cur里的最优解x^*的适应度值与L_{best_F}之间相差是否小于一个足够小的常数：

其中，ε为一个足够小的常数，本发明中设定为1e-8。若是，则进入(9b)；否则，将L_cnt置为0，并跳过9b)开始执行9c)；

9b)将L_cnt自增1，并检测L_cnt是否大于一个设定的阈值T，若是，则给步长L乘以一个衰减系数γ：

L＝L*γ，if L_cnt＞T，

其中，本发明中阈值T设置为50，衰减系数γ设置为0.6；否则，继续执行9c)；

9c)将L_bestF更新为当前S_cur里的最优解x^*的适应度值F(x^*)。

10)判定当前迭代次数是否达到最大迭代次数，若是，则输出当前最优解；否则，返回步骤5)。

与现有技术相比，本发明的有益效果是：

本发明首次把生成对抗网络用于函数优化问题，并提出了一套行之有效的基于生成对抗网络的新型优化算法。通过多轮交替式地训练一对生成器和判别器，使得生成器能够对任何当前解生成合理且有效的移动向量，去引导当前解向解空间内更优的区域移动。实验表明：本发明训练得到的生成器和其他现有局部搜索算法相比具有更加优秀的局部搜索能力。因此在大量函数优化问题上，本发明都可以提供更加优秀的局部搜索能力。尤其在深度学习领域，随着网络结构越来越深、越来越复杂，损失函数的非线性程度也随之提升，网络参数的优化变得难以进行，容易陷入局部极值。本发明提供的方法可以提升深度神经网络的参数训练过程，在更短的时间内获得更优的局部最优解，使得深度神经网络的训练更加容易达到稳定。

本发明技术方案可用于现实中可转化为函数优化问题的很多应用场景的问题比如物流分配问题等，应用领域非常广阔，能够解决大量的实际问题，极具推广应用价值。

附图说明

图1为本发明的总体流程框图。

图2为本发明具体实施时在生成器和判别器中的数据流示意图。

图3为本发明中判别器的结构图。

图4为本发明中生成器的结构图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提出了一种基于生成对抗性网络来求解函数优化问题的新型算法框架，主要用于解决函数优化问题中局部搜索缺乏多样性的问题。图1所示为本发明方法的总体流程，具体步骤如下：

1)对于给定的测试函数集，涉及生成器网络和判别器网络；

2)随机初始化当前解和方向向量；

3)根据当前解和方向向量计算判别器网络的损失函数，并依次更新判别器网络的参数；

4)固定判别器网络，并将其和生成器网络相连接，根据当前解和随机生成的噪声计算该网络的损失函数，并依次更新生成器网络的参数；

5)判定是否达到最大评估次数：若是，则停止迭代，输出当前解；否则，返回步骤3)。本发明通过交替训练一个判别器网路和一个生成器，前者用于判断一个解是否优于另一个解，后者用于从给定的解生成引导向量(GV)，通过将生成的引导向量加到当前解上得到下一代的解。

以下以物流分配问题为例详细描述本发明提供的基于生成对抗网络进行函数优化求解方法的具体实施：

步骤1：确定输入的测试函数和测试维度，设定噪声维度

(1a)确定待优化的函数，包括函数表达式、定义域D、函数输入维度‖x||等，测试函数在输入符合要求的一个自变量x后，会输出该自变量的适应度值F(x)。通常来讲，函数最优化问题是要找出一个自变量解x^*，使得其对该函数的适应度值最小，即：

(1b)设定一个测试维度‖x||(即函数输入维度)，需根据实际情况而定；

(1c)设定一个噪声维度||z||，噪声维度控制噪声向量的大小，将会在生成网络生成解的时候和输入解连接起来作为输入，本发明中设置为测试维度的三分之一。

本发明具体实施时，将物流分配问题表示为函数优化问题包括如下操作：

物流分配问题是一个离散的函数最优化问题，目标是尽可能减少配送的时间。可以形式化定义一个最基本的物流配送问题：现有一个配送站共有M个配送员负责配送货物，每个配送员的配送速度一样，该配送站需要配送的地址有N处，假设配送站到所有地址的距离一样，所以可以忽略从配送站到第一个配送点的距离，配送的地址两两之间的距离为矩阵T(其中T(i，j)表示配送员从地址i去到地址j所需花费的时间)，物流分配问题即希望尽可能的合理安排配送员，使得总的配送时间最少。该物流分配问题转化为函数优化问题的步骤如下：

1：设计解的编码方式，形成解的编码，记作x_i∈||N||，i＝1，2，...，M：

(1a)由于每个配送员只能根据顺序依次进行配送，所以可以把每个配送员的分配到的地址依次排列形成一串数字的编码，记作x_i∈||N||，i＝1，2，...，M。x_i即表示第i个配送员分配到的地址的编码；M为配送员的总个数。由于有可能会把所有地址全部派送给一个配送员，所以x_i的维度最大为||N||，若某个配送员的配送地址不足N个，则在不足的位置补0，表示不需配送；

(1b)把M个配送员的编码连接起来形成完整的解，x＝[x₁，x₂，…，x_M]。

2：确定解空间(即定义域)：

(1a)解的维度等于每个配送员的送货编码之和，即||x||＝N*M；

(1b)由于该问题是离散的，对于x的每一维x_i，其取值只有可能是0到N之间的一个数字(其中0表示不用配送，1到N的数字表示配送到该数字表示的地址)，同时该数字在这个解的所有维上只能出现一次。用公式可以表示为：

x_i∈Z⁺，0≤x_i≤N，for i＝1，2，…，N*M，

其中，Z⁺表示正整数集合，N为地址的个数，M为配送员的个数。

3：确定目标函数：

(1a)由于M个配送员是同时进行配货的，所以总的配送时间为最后配送完毕的配送员所花费的时间，用公式表达为：

其中：

综上所述，目标函数为：

其中：

解的维度为‖x||＝N*M，定义域为：

x_i∈Z⁺，0≤x_i≤N，for i＝1，2，…，N*M，

步骤2：建立判别器的网络结构：

(2a)参照图3，判别器接收输入解x₁和x₂，输出记作D(x₁，x₂)，输出越接近1表示x₂的适应度值越有可能优于x₁的适应度值即F(x₂)≤F(x₁)，反之则说明第一个解越有可能优于第二个解；

(2e)综上，判别器的输出可以表示为：

D(x₁，x₂)＝D_c(D_f(x₂)-D_f(x₁))；

(2f)判别器的损失函数使用交叉熵损失函数，优化算法使用批量的Adam算法，学习率设置为0.001。

步骤3：建立生成器的网络结构：

(3a)参照图4，生成器接受输入：当前解(记作x_cur)、噪声(记作z)和步长(记作L)，输出记作G(x_cur，z，L)，可以称之为移动向量，作用是引导当前解如何移动以获得更优的适应度值，后续该向量将会与输入的当前解相加去生成一个新的解；

(3b)对于输入的当前解x_cur和噪声z，首先把它们连接起来得到一个新的向量，该向量的维度等于解向量维度和噪声向量维度之和；

(3e)综上，生成器的输出可以表示为：

G(x_cur，z，L)＝L·G_d([x_cur ^T，z^T]^T)；

(3f)生成器的损失函数使用交叉熵损失函数，优化算法使用批量的Adam算法，学习率设置为0.001。

步骤4：参照图1，以全局随机搜索的方式随机初始化当前解，记作集合S_cur，并初始化步长：

(4a)全局随机搜索(记作GS)的具体做法是：先用标准高斯分布随机采样，然后平移缩放至解空间，采样公式如下：

GS(x_gs)＝B_l+(B_u-B_l)*x_gs，x_gs～P_{gaussian(0，1)}，

其中：B_l和B_u分别为测试函数定义域D的上下界，P_{gaussian(0，1)}表示标准高斯分布；

(4b)对集合S_cur里的每个当前解x_cur，计算对应的适应度值F(x_cur)，并以升序排序，得到当前最优的解x_best和其对应的适应度值F(x_best)；

(4c)初始化步长L＝50，记录当前的最优解的适应度值L_bestF＝F(x_best)，并将关于缩减步长的内部计数器L_cnt置为0。

步骤5：参照图1，生成训练判别器的数据集T_D：

(5a)用生成器生成、局部随机搜索和全局随机搜索三种方式从当前解x_cur∈S_cur生成新的解x_gen，并计算适应度值。把生成的解和当前解逐个配对，并根据适应度值的大小关系打上标签(0或1)，作为后续训练判别器的数据；

(5b)生成器生成(记作GE)：用生成器从当前解生成移动向量并与当前解相加，得到生成解。用公式可以表达为：

GE(x_cur)＝x_cur+G(x_cur，z，L)，z～P_{gaussian(0，1)}；

(5c)局部随机搜索(记作LS)：在当前解周围随机高斯采样，得到生成解。用公式可以表达为：

LS(x_cur)＝x_cur+L*d，d～P_{gaussian(0，1)}；

(5d)全局随机搜索的具体做法如(4a)所述；

(5e)合并三种方法生成的解，并计算其适应度值；

(5f)将生成解与生成它的当前解相配对，比较两者的适应度值：若新生成解的适应度值小于对应当前解的适应度值，则将该数据对标记为1，否则标记为0；

(5g)综上，生成的训练数据可以表示为：

T_D＝{(x_cur，x_gen，1ifF(x_gen)≤F(x_cur)else 0)}，

其中x_gen～GS(x_gs)，GE(x_cur)，LS(x_cur)，x_cur∈S_cur。

步骤6：参照图1，用训练集T_D训练判别器：

(6a)依次批量从训练集T_D里拿出m条训练数据

计算损失函数：

(6b)根据损失函数计算梯度：

其中，θ_D表示判别器的网络参数；

(6c)使用批量的Adam算法更新判别器的网络参数：

其中：μ为学习步长，本发明中设置为0.001；δ为用于数值稳定的小常数，本发明中设置为1e-7；

为修正一阶矩的偏差，

为修正二阶矩的偏差，计算方式如下：

s＝ρ₁s+(1-ρ₁)g_D，

r＝ρ₂r+(1-ρ₂)g_D⊙g_D，

步骤7：参照图1，训练生成器：

(7a)将判别器的网络参数设置为不可训练，并将其与生成器相连接，得到一个整体的网络，记作C：其输入为生成器的输入，输出为判别器的输出，具体的连接方法如下：

步骤1：向生成器输入当前解、噪声和步长，并运行生成器；

步骤2：将生成器生成的移动向量与当前解相加得到生成解；

综上，C的输出可以表示为：

C(c_cur，z，L)＝D(x_cur，x_cur+G(x_cur，z，L))；

(7b)从S_cur批量采样当前解、随机高斯采样噪声，和步长一起作为C的输入，运行C，得到输出C(c_cur，z，L)。

(7c)计算整个网络C的损失函数：

其中，m为每次采样的数量；

(7d)根据损失函数计算梯度(由于判别器的网络参数被设置为不可训练，所以C的网络参数即为生成器的网络参数)：

其中，θ_G表示生成器的网络参数；

(7d)更新G的网络参数：

其中，

和

的设置和计算方式如(6c)所述。

步骤8：参照图1，选取并保留当前解：

(8a)合并当前解集合和生成解集合，形成候选解集合，记作S_candidate；

(8b)为候选解集合中的每个解，根据其适应度值在所有候选解中的排序计算其留存的概率：

其中，r_F(x)表示解x的适应度值在所有候选解中的从小到大的顺序；||S_candidate||表示候选解集合的大小；α是控制概率分布的一个参数，α越大，适应度较小的解会分走更多的留存概率，适应度较大的解只能得到较少的留存概率，本发明中α被设置为3；

(8c)根据每个解的留存概率，选取并保留被选解，更新S_cur。

步骤9：参照图1，缩减步长L：

(9a)比较当前S_cur里的最优解x^*的适应度值与L_{best_F}之间相差是否是否小于一个足够小的常数：

其中，ε为一个足够小的常数，本发明中设定为1e-8。若是，则进入(9b)；否则，将L_cnt置为0，并跳过(9b)开始执行(9c)；

(9b)将L_cnt自增1，并检测L_cnt是否大于一个设定的阈值T，若是，则给步长L乘以一个衰减系数γ：

L＝L*γ，if L_cnt＞T，

其中，本发明中阈值T设置为50，衰减系数γ设置为0.6；否则，继续执行(9c)；

(9c)将L_{best_F}更新为当前S_cur里的最优解x^*的适应度值F(x^*)。

步骤10：参照图1，判定当前迭代次数是否达到最大迭代次数，若是，则输出当前最优解；否则，返回步骤(5)。

本发明设计了一个简单的物流分配模拟实验，问题参数设定如下：

N＝3，M＝2，

通过上述步骤，求解得到最优解为x＝[1，2，0，3，0，0]，对应的物流分配优化方案为：1号配送员配送1号和2号地址，2号配送员配送3号地址，此为本物流分配实例的最优分配方案。

具体实施时，为进一步验证本发明方法的有效性，选取CEC2013实数函数测试集作为实验的测试函数集，该测试函数集包含28个实数函数(其中前5个函数为单模函数，后23个函数为多模函数)，定义域被定义为在任何一维上的取值都在-100到100之间；选取测试维度为30维，噪声维度设置为10维。采用算法最优解与实际最优解的绝对差作为评价标准。本发明的实验平台GPU为NVIDIA GeForce GTX TITAN X，系统为Ubuntu 14.04.5LTS，软件环境为Python 3.5，Tensorflow 1.3.0。

具体实验参数设置如上所述，选取其他四种算法作比较，所选四种算法分别为蚁群算法(ABC)、粒子群优化算法(SPSO)、差分进化算法(DE)和基于引导向量的烟花算法变种(GFWA)。在CEC2013实数函数测试集上验证51次的平均值结果如表1所示。

表1本发明与所选四种方法的平均优化结果和平均排行

实验结果显示本发明比其他四种算法都达到了更好的效果，从而说明了本发明所提出方法的有效性。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于生成对抗网络的物流分配优化模型方法，称为GAN-O，其特征是，包括如下步骤：

A1)将物流分配应用表示为函数优化问题；

优化目标是物流速度或效率最优，使得总物流速度达到最快或总配送时间最少；条件是利用现有的基础设施；具体地：

现有一个配送站共有M个配送员负责配送货物，每个配送员的配送速度一样，该配送站需要配送的地址有N处，配送的地址两两之间的距离为矩阵T，其中T(i，j)表示配送员从地址i去到地址j所需花费的时间；将物流分配问题表示为一个离散的函数优化问题具体包括如下操作：

S1：设计解的编码方式，形成解的编码，记作x_i∈||N||，i＝1，2，...，M；具体包括：

S1a)将每个配送员分配到的地址依次排列，形成一串数字的编码，记作x_i∈||N||，i＝1，2，...，M；x_i即表示第i个配送员分配到的地址的编码；M为配送员的总个数；x_i的维度最大为||N||；若某个配送员的配送地址不足N个，则在不足的位置补0，表示不需配送；

S1b)连接M个配送员的编码，形成完整的解：x＝[x₁，x₂，...，x_M]；

S2：确定解空间即定义域，包括：

S2a)解的维度等于每个配送员的送货编码之和，即||x||＝N*M；

S2b)x_i的取值是0到N之间的一个数字，其中0表示不用配送，1到N的数字表示配送到该数字表示的地址；同时该数字在这个解的所有维上只能出现一次；用公式表示解的维度为：

x_i∈Z⁺，0≤x_i≤N，for i＝1，2，…，N*M，

其中，Z⁺表示正整数集合，N为地址的个数，M为配送员的个数；

S3：确定目标函数即测试函数：

M个配送员同时进行配货，总的配送时间为最后配送完毕的配送员所花费的时间，即目标函数表示为：

其中：

式中，k，l分别为x_i*N+j，x_i*N+j+1；

A2)根据函数优化问题的测试函数和测试维度，基于生成对抗网络建立函数优化模型，包括基于生成对抗网络构建生成器G和判别器D；

建立判别器的网络结构和损失函数，判别器D的输入为两个向量，向量大小与测试维度相同；输出为标量，表示后一个向量是否会优于前一个向量，取值为1或0；判别器D接收两个输入的解，记作x₁和x₂，输出记作D(x₁，x₂)，所述输出表示了x₂的适应度值与x₁的适应度值之间的比较；具体包括如下操作：

2a)对于输入的两个解x₁和x₂，使用一个四层的全连接网络D_f提取特征；D_f的输入层维度为解的维度，即测试维度；第二层的维度为64维，第三层的维度为64维，第四层的维度为10维；每一层的激活函数均为线性整流函数Relu；即通过D_f接收x₁和x₂，提取特征得到两个10维的向量，分别作为x₁和x₂对应的特征；

2b)对两个解提取到的特征向量做减法；

2c)对相减后的向量再通过一个3层的全连接网络D_c；D_c的输入层维度为10，第二层的维度为10，第三层的维度为1；其中第二层的激活函数为线性整流函数Relu，输出层的激活函数为Sigmoid激活函数；即通过D_c最终输出一个0到1之间的标量；

2d)判别器的输出表示为：

D(x₁，x₂)＝D_c(D_f(x₂)-D_f(x₁))；

建立生成器的网络结构和损失函数，生成器的输入为一个向量，向量大小为测试维度加噪声维度；输出为一个表示引导方向的向量，向量大小与测试维度相同；生成器G接受的输入包括：当前解x_cur、噪声z和步长L；输出记作G(x_cur，z，L)，称为移动向量；具体包括如下操作：

3a)将输入的当前解x_cur和噪声z连接起来得到一个连接向量，该向量的维度等于测试维度和噪声向量维度之和；

3b)将连接向量经过一个三层的全连接网络G_d，输出一个和解向量相同维度的方向向量，用于指导后续的移动方向；

G_d的输入层维度为解向量维度和噪声向量维度之和，第二层的维度为64，输出层的维度为解向量维度；第二层的激活函数为线性整流函数Relu，输出层的激活函数为双曲正切函数Tanh；

3c)将3b)得到的方向向量与输入的步长点乘，得到移动向量，作为整个生成器的最终输出；移动向量表示具体移动的方向和距离，用于引导当前解如何移动以获得更优的适应度值；

3d)生成器的输出表示为：

G(x_cur，z，L)＝L·G_d([x_cur ^T，z^T]^T)；

训练函数优化模型，包括训练判别器和训练生成器，得到训练好的函数优化模型；

训练函数优化模型和利用训练好的模型进行迭代计算，具体执行如下操作：

5)生成训练判别器的数据集T_D：

5a)分别采用生成器生成方法GE、局部随机搜索方法LS和全局随机搜索方法GS，从当前解集合S_cur选取的当前解x_cur，生成新的解x_gen，并计算x_gen的适应度值；

把生成的新解x_gen和生成它的当前解x_cur相配对，并根据适应度值的大小打上标签，当x_gen的适应度值大于x_cur的适应度值时打上标签1，否则打上标签0，作为后续训练判别器的数据；

5d)生成训练数据T_D表示为：

T_D＝{(x_cur，x_gen，1if F(x_gen)≤F(x_cur)else 0)} 式4

其中，x_gen～GS(x_gs)，GE(x_cur)，LS(x_cur)，x_cur∈S_cur；

6)用训练数据集T_D训练判别器：

6a)依次批量从训练集T_D里拿出m条训练数据

计算损失函数，表示为式5：

其中，D表示判别器，

表示输入为

和

时判别器的输出；

6b)根据损失函数计算梯度g_D，表示为式6：

其中，θ_D表示判别器的网络参数；

6c)使用批量的Adam算法更新判别器的网络参数：

其中：μ为学习步长；δ为用于数值稳定的小常数；

为修正一阶矩的偏差；

为修正二阶矩的偏差；

7)训练生成器，执行如下操作：

7a)将判别器的网络参数设置为不可训练，并将其与生成器相连接，得到一个整体的网络C，C的输入为生成器的输入，输出为判别器的输出，具体的连接方法如下：

步骤1：向生成器输入当前解、噪声和步长，并运行生成器；

步骤2：将生成器生成的移动向量与当前解相加得到生成解；

步骤3：将当前解与步骤2得到的生成解作为判别器的输入，将判别器的输出作为整个网络C的输出，表示为式8：

C(x_cur，z，L)＝D(x_cur，x_cur+G(x_cur，z，L)) 式8

7b)从S_cur批量采样当前解、随机高斯采样噪声，和步长一起作为C的输入，运行C，得到输出C(x_cur，z，L)；

7c)计算网络C的损失函数，表示为式9：

其中，m为每次采样的数量；

7d)C的网络参数即为生成器的网络参数；根据损失函数计算梯度g_G，表示为式10：

其中，θ_G表示生成器的网络参数；

7e)更新生成器G的网络参数，表示为式11：

8)选取并保留当前解，执行如下步骤：

8b)为候选解集合中的每个解，根据适应度值在所有候选解中的排序计算其留存概率，表示为式12：

其中，P_retain(x)为解x的留存概率；r_F(x)表示解x的适应度值在所有候选解中的从小到大的顺序；||S_candidate||表示候选解集合的大小；α是控制概率分布的参数；

8c)根据每个解的留存概率，选取并保留被选解，更新S_cur；

9)缩减步长L，具体执行如下步骤：

9a)比较当前S_cur里的最优解x^*的适应度值与L_{best_F}之间相差是否小于一个足够小的常数，即：

其中，ε为一个足够小的常数；

若是，则进入9b)；否则，将步长控制器中的计数器L_cnt置为0，转入执行9c)；

9b)将L_cnt自增1，并检测L_cnt是否大于一个设定的阈值T；若是，则给步长L乘以一个衰减系数γ；

9c)将L_{best_F}更新为当前S_cur里的最优解x^*的适应度值F(x^*)；

10)判定当前迭代次数是否达到最大迭代次数，若是，则输出当前最优解；否则，返回步骤5)；

通过上述步骤，针对物流分配应用问题实现基于生成对抗网络的优化求解。

2.如权利要求1所述基于生成对抗网络的物流分配优化模型方法，其特征是，步骤A1)将应用表示为函数优化问题，具体包括：确定表示该应用的函数优化问题的函数，称为测试函数；确定测试维度；设定噪声维度；具体执行如下操作：

1a)确定待优化的测试函数，包括：函数表达式；定义域，记作D；函数输入维度，记作||x||；

测试函数在输入符合要求的一个自变量x后，输出该自变量的适应度值F(x)；

1b)设定一个测试维度||x||，即函数输入维度；

1c)设定一个控制噪声向量大小的噪声维度||z||，用于在生成网络生成解时与输入解连接起来作为输入。

3.如权利要求1所述基于生成对抗网络的物流分配优化模型方法，其特征是，步骤A2)中，判别器的损失函数使用交叉熵损失函数，优化算法使用批量的Adam算法。

4.如权利要求1所述基于生成对抗网络的物流分配优化模型方法，其特征是，步骤A2)中，生成器的损失函数使用交叉熵损失函数，优化算法使用批量的Adam算法。

5.如权利要求1所述基于生成对抗网络的物流分配优化模型方法，其特征是，步骤A31)具体采用全局随机搜索的方式随机初始化当前解S_cur并初始化步长L；具体执行如下操作：

4a)全局随机搜索GS的具体方法是：先用标准高斯分布随机采样，然后平移缩放到解空间：

GS(x_gs)＝B_l+(B_u-B_l)*x_gs，x_gs～P_{gaussian(0，1)} 式1

4b)对集合S_cur里的每个当前解x_cur，利用测试函数计算对应的适应度值F(x_cur)，并以适应度值升序排序，得到当前最优解x_best和当前最优解的适应度值F(x_best)；

4c)初始化步长L为50，将步长控制器中记录的当前最优适应度值

设置为F(x_best)，步长控制器中的计数器L_cnt置为0。

6.如权利要求1所述基于生成对抗网络的物流分配优化模型方法，其特征是，步骤5a)中，用生成器G生成解的方法是：用生成器从当前解x_cur生成移动向量，并与当前解相加，得到生成解；具体步骤如下：

步骤1：以标准高斯分布随机采样得到噪声向量；

步骤3：将步骤2得到的移动向量与当前解相加，得到生成解；表示为式2：

GE(x_cur)＝x_cur+G(x_cur，z，L)，z～P_{gaussian(0,1)} 式2

其中，z为噪声向量；L为步长。

7.如权利要求6所述基于生成对抗网络的物流分配优化模型方法，其特征是，步骤5a)中，通过局部随机搜索得到生成解是：在当前解x_cur周围随机高斯采样，得到生成解；具体步骤如下：

步骤1：以标准高斯分布随机采样得到方向向量；

步骤3：将步骤2得到的移动向量与当前解相加，得到生成解；表示为式3：

LS(x_cur)＝x_cur+L*d，d～P_{gaussian(0，1)} 式3

其中，d为方向向量；L为步长。