CN115130483B

CN115130483B - 一种基于多目标群体智能算法的神经架构搜索方法及用途

Info

Publication number: CN115130483B
Application number: CN202210828231.6A
Authority: CN
Inventors: 唐欢容; 王上; 欧阳建权
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2023-07-18
Anticipated expiration: 2042-07-13
Also published as: CN115130483A

Abstract

本发明属于自然语言处理领域，涉及一种基于多目标群体智能算法的神经架构搜索方法及用途，包括以下步骤：1)获得评估神经网络架构翻译质量的数据集；2)在搜索空间内，初始化一个种群；3)将若干不同尺寸，并改善计算交叉多头注意力方式的Transformer模型个体，加入步骤2)得到的初始化种群；4)在若干评估机器翻译质量的指标下，使用多目标群体智能算法，对神经网络架构进行搜索。实现了较少的时间确定最适用于特定数据特性的神经网络架构，用更少的参数数量获得了更优的翻译质量，可部署在移动设备等内存资源相对紧缺的应用场景上。本发明提供的方法可用于司法、旅游、电商、电游、社交、金融等技术领域。

Description

一种基于多目标群体智能算法的神经架构搜索方法及用途

技术领域

本发明属于自然语言处理领域，具体涉及一种基于多目标群体智能算法的神经架构搜索方法及用途。

背景技术

Transformer模型由Googel在2017年提出，使用Attention替换了原先Seq2Seq模型中的循环结构，从而给自然语言处理(NPL)打开了新的大门，在一系列NLP任务上取得了极大性能提升，成为当前自然语言处理领域的主流模型。与此同时，人们对Transformer模型性能的改进也没有停止，如一种方式是通过增加Transformer模型中的编码器堆栈encoder block和解码器堆栈decoder block的数量，可以有效提高Transformer模型的表现效果，但同时边际效应明显递减，且更多的参数也会带来更大的内存开销，不利于部署在移动设备等内存资源相对紧缺的应用场景。

发明人在长期的实践工作中总结出通常可以通过组合两个不同的模型实现性能提升。神经架构搜索(Neural Architecture Search，NAS)是通过算法根据样本集自动设计出高性能网络结构，可以有效降低神经网络的使用和实现成本，其目标是在特定的问题中找到最佳的神经网络架构，将其表述为一个优化问题，然后尝试通过强化学习、微分法和群体智能算法等优化算法来解决。

本发明拟通过组合神经架构搜索与Transformer两个不同的模型，将神经架构搜索技术应用在搜索更好的Transformer模型上，实现机器翻译质量的提升。通过实践，微分法通常需要建立一个超级网络，这对Transformer模型不太适合。而与强化学习相比，群体智能算法在神经架构搜索工作中消耗的计算资源较少，而遗传算法是一种典型的群体智能算法，且在Transformer模型出现之前，基于遗传算法的神经结构搜索已成功应用在深度神经网络的设计。

当前绝大多数用遗传算法求解神经架构搜索的工作，都是用的单目标遗传算法，本发明拟将多目标遗传算法应用在搜索Transformer模型架构上，从而实现能在指数级庞大的搜索空间中，通过较少的时间确定最适用于特定数据特性的神经网络架构。通过搜索得到的神经网络架构，可以用更少的参数数量获得了更优的翻译质量，可部署在移动设备等内存资源相对紧缺的应用场景上。

发明内容

本发明所要解决的技术问题是在机器翻译的神经网络架构搜索中使用多目标群体智能算法，通过较少的时间确定最适用于特定数据特性的神经网络架构，并用更少的参数数量获得了更优的翻译质量，从而实现可部署在移动设备等内存资源相对紧缺的应用场景上。

为了实现上述内容，提供如下技术方案：

一种基于多目标群体智能算法的神经架构搜索方法(或者，基于群体智能背景下提高机器翻译质量的神经架构搜索方法)，包括以下步骤：

1)获得评估神经网络架构翻译质量的数据集；

2)在搜索空间内，初始化一个种群，所述的种群内包含若干个体，每个个体表示一个神经网络结构；

3)将若干不同尺寸，并改善计算交叉多头注意力方式的Transformer模型个体，加入步骤2)得到的初始化种群；

4)在若干评估机器翻译质量的指标下，使用多目标群体智能算法，对神经网络架构进行搜索。

进一步地，步骤2)中所述的神经网络架构，借鉴了Transformer模型思想，编码器由若干Encoder block构成，解码器由若干Decoder block构成，但Encoder block和Decoder block的数目可能不同；编码器中每个Encoder block、解码器中每个Decoderblock的构造可能不同；每个Decoder block不一定是与编码器中最后的Encoder block计算交叉多头注意力，而是有更大概率与在编码器中和它在解码器中位置相近的Encoderblock计算交叉多头注意力。

进一步地，步骤3)所述的“若干不同尺寸，并改善计算交叉多头注意力方式的Transformer模型个体”是指编码器与解码器相等的改进Transformer模型，且所述的改进Transformer模型中每个Decoder block不与编码器中最后的Encoder block计算交叉多头注意力，而是与编码器中和它位置一样的Encoder block计算交叉多头注意力。

进一步地，步骤4)实现如下：

4.1)置集合EP为空集；

4.2)初始化N个权重向量λ¹,...,λ^N，计算任意两个权重向量之间的距离，得出距离每个权重向量最近的T个权重向量，即对每个i＝1,...,N，令B_i＝{i₁,...,i_T}，其中是离λⁱ最近的T个权重向量；

4.3)训练步骤3)产生的种群中的N个个体x₁,...,x_N，获得m个评价指标，令FV_i＝F(x_i)；

4.4)初始化其中z_i表示所有个体中第i个评价指标的最优值；

4.5)令整数i从1循环至N，开始循环体；

4.6)随机在B_i中选择k,l两个索引，用遗传算子从x_k,x_l中产生新个体y；

4.7)训练个体y获得m个评价指标，对每个j＝1,...,m，如果令

4.8)对每个j∈B_i，如果g^te(y|λ^j,z)≤g^te(x_j|λ^j,z)，令x_j＝y且FV_j＝F(y)；g^te为切比雪夫函数，定义为

4.9)移除EP中所有被F(y)支配的向量，如果EP中任何向量都不支配F(y)则将F(y)加入EP；

4.10)结束循环体；

4.11)若终止条件未达成，回到步骤4.5)，否则返回EP。

进一步地，步骤4)所述的评价翻译质量的指标分别为：Bleu分数和困惑度。

进一步地，步骤4.3)与步骤4.7)中，所述的m＝2，且m个评价指标分别为Bleu分数和困惑度。

进一步地，步骤4.6)使用的遗传算子包括交叉算子和变异算子，且交叉算子和变异算子都是有概率进行的，交叉算子进行的概率大于变异算子进行的概率。

进一步地，为表示种群中的每个个体，需要对个体进行编码表示，编码方案为：{ne,[te,p1,p2]×ne,nd,[td,p1,p2,p3,ce]×nd}，其中ne和nd分别表示个体模型中encoder block和decoder block的数量，te和td分别表示encoder block和decoder block的候选类型编号，p1、p2、p3在多头注意力层表示头的个数，在全连接层中表示维度。

进一步地，步骤4.9)所述支配的关系为：设A,B是多目标问题中的两个可行解，X_A与X_B为对应的决策向量，当满足下列两个条件时，称A支配B，记作A＜B：1)对目标向量的每一维，A不比B差，即f_i(X_A)≤f_i(X_B)；2)在目标向量中至少存在一维，A优于B，即/>f_k(X_A)<f_k(X_B)。

根据本发明提供的第二种实施方案，提供一种基于多目标群体智能算法的神经架构搜索方法的的用途。

将上述实施方案所述的基于多目标群体智能算法的神经架构搜索方法用于司法、旅游、电商、电游、社交、金融技术领域。

与现有技术相比，本发明的有益技术效果在于：

1、将多目标遗传算法应用在搜索Transformer模型架构上，在遗传算法求解过程中，每一代会将交叉和变异等遗传算子应用在编码，从而实现群体智能算法应用于神经架构搜索。

2、为评估Transformer模型在机器翻译任务的表现，同时考虑了Bleu分数和困惑度两个指标，并作为多目标群体智能方法的两个搜索目标，得到了更优的翻译质量。

3、对Transformer模型的演化提出了独特的交叉和变异操作，以确定哪些细节，如连接方法和层的组合更适合应用在神经机器翻译任务。

4、本发明提供的基于多目标群体智能算法的神经架构搜索方法用途广泛，可以用于司法、旅游、电商、电游、社交、金融等技术领域。

附图说明

图1为本发明实施例编码器和解码器候选block示意图。

图2为本发明实施例搜索空间encoder block与decoder block计算交叉多头注意力的连接概率权重示意图。

图3为本发明实施例encoder block/decoder block数目的Transformer个体交叉、变异示意图。

具体实施方式

为了能够更清楚地说明本发明的目的、实施方案和优点，下面将结合附图对本发明的技术方案进行清楚、完整的描述。显然，所描述的实施例是本发明的一部分实施例，对于本领域普通技术人员来讲，不需要创造性的劳动就可以获得其他实施例，都属于本发明的保护范围。

一种基于多目标群体智能算法的神经架构搜索方法(基于群体智能背景下提高机器翻译质量的神经架构搜索方法)，该方法包括以下几个步骤：

1)获得评估神经网络架构翻译质量的数据集；

2)在搜索空间内，初始化一个种群，种群内包含若干个体，每个个体表示一个神经网络结构；

步骤2)中初始化的若干神经网络架构，借鉴了Transformer模型中编码器由若干Encoder block，解码器由若干Decoder block构成的思想，但与Transformer模型不同的是：Encoder block和Decoder block的数目可能不同；编码器中每个Encoder block，以及解码器中每个Decoder block的构造可能不同；每个Decoder block不一定是与编码器中最后的Encoder block计算交叉多头注意力，而是有更大概率与在编码器中和它在解码器中位置相近的Encoder block计算交叉多头注意力。

为提高搜索效率，步骤3)中将若干编码器与解码器相等的改进Transformer模型加入步骤2)得到的初始化种群，且改进点在于，每个Decoder block不与编码器中最后的Encoder block计算交叉多头注意力，而是与编码器中和它位置一样的Encoder block计算交叉多头注意力。

步骤4)在若干评估机器翻译质量的指标下，使用多目标群体智能算法，对神经网络架构进行搜索，具体为：

步骤4.1)置集合EP为空集；

步骤4.2)初始化N个权重向量λ¹,...,λ^N，计算任意两个权重向量之间的距离，得出距离每个权重向量最近的T个权重向量，即对每个i＝1,...,N，令B_i＝{i₁,...,i_T}，其中是离λⁱ最近的T个权重向量；

步骤4.3)训练步骤3)产生的种群中的N个个体x₁,...,x_N，获得m个评价指标，令FV_i＝F(x_i)；

步骤4.4)初始化其中z_i表示所有个体中第i个评价指标的最优值；

步骤4.5)令整数i从1循环至N，开始循环体；

步骤4.6)随机在B_i中选择k,l两个索引，用遗传算子从x_k,x_l中产生新个体y；

步骤4.7)训练个体y获得m个评价指标，对每个j＝1,...,m，如果令

步骤4.8)对每个j∈B_i，如果g^te(y|λ^j,z)≤g^te(x_j|λ^j,z)，令x_j＝y且FV_j＝F(y)；

步骤4.9)移除EP中所有被F(y)支配的向量，如果EP中任何向量都不支配F(y)则将F(y)加入EP；

步骤4.10)结束循环体；

步骤4.11)若终止条件未达成，回到步骤4.5)，否则返回EP。

步骤4)使用的评价翻译质量的指标分别为：Bleu分数和困惑度。也即，在步骤4.3)与步骤4.7)中，m＝2，且m个评价指标分别为Bleu分数和困惑度。

步骤4.6)使用的遗传算子包括交叉算子和变异算子，且交叉算子和变异算子都是有概率进行的，交叉算子进行的概率大于变异算子进行的概率。

为表示种群中的每个个体，需要对个体进行编码表示，编码方案为：{ne,[te,p1,p2]×ne,nd,[td,p1,p2,p3,ce]×nd}，其中ne和nd分别表示个体模型中encoder block和decoder block的数量，te和td分别表示encoder block和decoder block的候选类型编号，p1、p2、p3在多头注意力层表示头的个数，在全连接层中表示维度。

步骤4.8)所述的函数g^te为切比雪夫函数，定义为

步骤4.9)所定义的支配关系为，设A,B是多目标问题中的两个可行解，X_A与X_B为对应的决策向量，当满足下列两个条件时，称A支配B，记作1)对目标向量的每一维，A不比B差，即/>f_i(X_A)≤f_i(X_B)；2)在目标向量中至少存在一维，A优于B，即f_k(X_A)<f_k(X_B)。

具体实施例：

下面以本发明在英德翻译数据集Multi30k运行为例进行介绍。

1)获得数据集：Multi30k英德翻译数据集共包括31014个英德翻译句子对，其中29000对划分为训练集，1014对划分为验证集，1000对划分为测试集。

2)初始化：

①参数初始化：设预设世代数为15，步骤4)中的算法终止条件为：当前世代超过预设世代数；步骤4)中的参数为：N＝15，T＝4，交叉概率0.92，变异概率0.15，N个权重向量λ¹,...,λ^N的初始化方式为：步骤4)中每个个体神经网络训练的batch_size＝128；

②个体初始化：N个待初始化的个体分别编号为0到14，对于编号被3整除的个体，分别初始化为#encoder block＝#decoder block＝{3,4,5,6,7}，且每个decoder block与和它位置相同的encoder block计算交叉多头注意力；对于编号为其他数的个体，初始化方案如下：encoder block的数量ne和decoder block的数量nd均为区间[3,7]中随机选择的整数，对于每个encoder block，te为区间[1,4]中随机选择的一个整数，表示该encoderblock属于图1-1所示的哪个类型；对于每个decoder block，td为区间[1,3]中随机选择的一个整数，表示该decoder block属于图1-2所示的哪个类型；对于每个encoder block，p1、p2分别为候选block的两个layer层的属性，当该layer层属于全连接层时，该属性的取值范围是集合{0,1}中随机选一个数，取0表示该层的维度为512，取1表示该层的维度为1024，当该layer层属于多头注意力层时，该属性的取值范围是集合{0,1}中随机选一个数，表示该层的头数，取0表示该层的头数为4，取1表示该层的头数为8；对于每个decoder block，p1、p2、p3分别为候选block的三个layer层的属性，当该layer层属于全连接层时，该属性的取值范围是集合{0,1}中随机选一个数，取0表示该层的维度为512，取1表示该层的维度为1024，当该layer层属于多头注意力层(包括交叉多头注意力层、掩码多头注意力层)时，该属性的取值范围是集合{0,1}中随机选一个数，表示该层的头数，取0表示该层的头数为4，取1表示该层的头数为8；设encoder block/decoder block从下至上从1开始编号，如图2左所示，当ne>＝nd时，编号为nd的decoder block与编号为ne的encoder block计算交叉多头注意力，其他decoder block随机选择一个encoder block计算交叉多头注意力，随机方式为：每个encoder block设置一个随机选择到的概率权重，其中与从上往下数位置相同的encoder block权重最高，其他位置每距离远一个单位，权重减半；如图2右所示，当nd>＝ne时，所有编号大于或等于ne的decoder block均与编号为ne的encoder block计算交叉多头注意力，其他decoder block随机选择一个encoder block计算交叉多头注意力，随机方式为：每个encoder block设置一个随机选择到的概率权重，其中与从下往上数位置相同的encoder block权重最高，其他位置每距离远一个单位，权重减半。

3)遗传算子：

步骤4.6)中的遗传算子为：

①交叉算子：如图3-1和图3-2所示，交叉算子发生在两个个体的Encoder block与Encoder block和Decoder block与Decoder block之间，只有相同编号的Encoder block和相同编号的Decoder block之间会发生交叉，当ne与nd不相等时，编号大于max{ne,nd}的block将不发生交叉，经过交叉后，会产生如图3-3所示的两个后代个体。交叉方式为：互换两个Encoder block的te字段或互换两个Decoder block的td字段，p1、p2或p1、p2、p3字段保持不变，但可能因为block类型的改变而取得不同的含义。

②变异算子：以下变异操作均会有概率发生：当数量未达到7，增加一个encoder/decoder Block；当数量大于3，减少一个encoder/decoder block；改变encoder/decoderblock的所属类型；改变多头注意力层的头数或全连接层的维数；改变Decoder block与Encoder block计算交叉多头注意力的连接方式。如果增加或减少block的操作使得Decoder block与Encoder block计算交叉多头注意力的连接方式不满足初始化规则，则调整为满足初始化规则的连接方式。

4)用例运行结果：步骤4)的搜索算法结束时，EP集合中Bleu分数最高的个体的参数量为36.1M，Bleu分数为34.39，由4个Encoder block和5个Decoder block构成，编码为：{4,[2,0,0],[3,1,0],[2,0,0],[4,0,1],5,[3,0,0,0,1],[3,0,0,1,1],[2,0,1,1,1],[1,0,0,1,3],[3,1,1,1,3]}；EP集合中平均Bleu分数为33.66,平均参数量为39.5M；Transformer基础模型由6个Encoder block和6个Decoder block构成，参数量为39.7M，Bleu分数为33.37。本发明的方法在EP集合中搜索到的神经网络个体的Bleu分数，无论是最优值还是平均值均超过了基础的Transformer模型，且具有更少的参数，消耗更低内存，更容易部署在移动设备等内存资源相对紧缺的应用场景上。

最后应说明的是，以上实施例仅用以说明本发明的技术方案，而非对其限制。本领域的普通技术人员可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换不需要花费创造性劳动。在不脱离本发明的原理和精神的情况下对实施方式进行变化、修改、替换仍落入本发明的保护范围。

Claims

1.一种基于多目标群体智能算法的神经架构搜索方法，其特征在于，包括以下步骤：

1)获得评估神经网络架构翻译质量的数据集；

3)将若干不同尺寸，并改善计算交叉多头注意力方式的Transformer模型个体，加入步骤2)得到的初始化种群；所述的“若干不同尺寸，并改善计算交叉多头注意力方式的Transformer模型个体”是指编码器与解码器相等的改进Transformer模型，且所述的改进Transformer模型中每个Decoder block不与编码器中最后的Encoder block计算交叉多头注意力，而是与编码器中和它位置一样的Encoder block计算交叉多头注意力；具体为：

待初始化的个体分别编号为0到14，对于编号被3整除的个体，分别初始化为#encoderblock＝#decoder block＝{3,4,5,6,7}，且每个decoder block与和它位置相同的encoderblock计算交叉多头注意力；对于编号为其他数的个体，初始化方案如下：encoder block的数量ne和decoder block的数量nd均为区间[3,7]中随机选择的整数；对于每个encoderblock，te为区间[1,4]中随机选择的一个整数；对于每个decoder block，td为区间[1,3]中随机选择的一个整数；对于每个encoder block，p1、p2分别为候选block的两个layer层的属性，当该layer层属于全连接层时，该属性的取值范围是集合{0,1}中随机选一个数，取0表示该层的维度为512，取1表示该层的维度为1024；当该layer层属于多头注意力层时，该属性的取值范围是集合{0,1}中随机选一个数，表示该层的头数，取0表示该层的头数为4，取1表示该层的头数为8；对于每个decoder block，p1、p2、p3分别为候选block的三个layer层的属性，当该layer层属于全连接层时，该属性的取值范围是集合{0,1}中随机选一个数，取0表示该层的维度为512，取1表示该层的维度为1024；当该layer层属于多头注意力层时，该属性的取值范围是集合{0,1}中随机选一个数，表示该层的头数，取0表示该层的头数为4，取1表示该层的头数为8；设encoder block/decoder block从下至上从1开始编号，当ne≥nd时，编号为nd的decoder block与编号为ne的encoder block计算交叉多头注意力，其他decoder block随机选择一个encoder block计算交叉多头注意力；当nd≥ne时，所有编号大于或等于ne的decoder block均与编号为ne的encoder block计算交叉多头注意力，其他decoder block随机选择一个encoder block计算交叉多头注意力；

2.根据权利要求1所述的基于多目标群体智能算法的神经架构搜索方法，其特征在于，步骤2)中所述的神经网络架构，借鉴了Transformer模型思想，编码器由若干Encoderblock构成，解码器由若干Decoder block构成，但Encoder block和Decoder block的数目可能不同；编码器中每个Encoder block、解码器中每个Decoder block的构造可能不同；每个Decoder block不一定是与编码器中最后的Encoder block计算交叉多头注意力，而是有更大概率与在编码器中和它在解码器中位置相近的Encoder block计算交叉多头注意力。

3.根据权利要求1所述的基于多目标群体智能算法的神经架构搜索方法法，其特征在于，步骤3)中，当ne≥nd时，其他decoder block随机选择一个encoder block计算交叉多头注意力；随机方式为：每个encoder block设置一个随机选择到的概率权重，其中与从上往下数位置相同的encoder block权重最高，其他位置每距离远一个单位，权重减半；

当nd＞ne时，其他decoder block随机选择一个encoder block计算交叉多头注意力；随机方式为：每个encoder block设置一个随机选择到的概率权重，其中与从下往上数位置相同的encoder block权重最高，其他位置每距离远一个单位，权重减半。

4.根据权利要求1所述的基于多目标群体智能算法的神经架构搜索方法，其特征在于，步骤4)实现如下：

4.1)置集合EP为空集；

4.4)初始化其中z_i表示所有个体中第i个评价指标的最优值；

4.5)令整数i从1循环至N，开始循环体；

4.7)训练个体y获得m个评价指标，对每个j＝1,...,m，如果令/>

4.10)结束循环体；

4.11)若终止条件未达成，回到步骤4.5)，否则返回EP。

5.根据权利要求1所述的基于多目标群体智能算法的神经架构搜索方法，其特征在于，步骤4)所述的评价翻译质量的指标分别为：Bleu分数和困惑度。

6.根据权利要求4所述的基于多目标群体智能算法的神经架构搜索方法，其特征在于，步骤4.3)与步骤4.7)中，所述的m＝2，且m个评价指标分别为Bleu分数和困惑度。

7.根据权利要求4所述的基于多目标群体智能算法的神经架构搜索方法，其特征在于，步骤4.6)使用的遗传算子包括交叉算子和变异算子，且交叉算子和变异算子都是有概率进行的，交叉算子进行的概率大于变异算子进行的概率。

8.根据权利要求1所述的基于多目标群体智能算法的神经架构搜索方法，其特征在于，为表示种群中的每个个体，需要对个体进行编码表示，编码方案为：{ne,[te,p1,p2]×ne,nd,[td,p1,p2,p3,ce]×nd}，其中ne和nd分别表示个体模型中encoder block和decoderblock的数量，te和td分别表示encoder block和decoder block的候选类型编号，p1、p2、p3在多头注意力层表示头的个数，在全连接层中表示维度。

9.根据权利要求4所述的基于多目标群体智能算法的神经架构搜索方法，其特征在于，步骤4.9)所述支配的关系为：设A,B是多目标问题中的两个可行解，X_A与X_B为对应的决策向量，当满足下列两个条件时，称A支配B，记作A＜B：1)对目标向量的每一维，A不比B差，即2)在目标向量中至少存在一维，A优于B，即/>

10.根据权利要求1-9中任一项所述的基于多目标群体智能算法的神经架构搜索方法的用途，其特征在于：将所述方法用于司法、旅游、电商、电游、社交、金融技术领域。