CN115130483B - 一种基于多目标群体智能算法的神经架构搜索方法及用途 - Google Patents

一种基于多目标群体智能算法的神经架构搜索方法及用途 Download PDF

Info

Publication number
CN115130483B
CN115130483B CN202210828231.6A CN202210828231A CN115130483B CN 115130483 B CN115130483 B CN 115130483B CN 202210828231 A CN202210828231 A CN 202210828231A CN 115130483 B CN115130483 B CN 115130483B
Authority
CN
China
Prior art keywords
encoder
decoder
layer
blocks
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210828231.6A
Other languages
English (en)
Other versions
CN115130483A (zh
Inventor
唐欢容
王上
欧阳建权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN202210828231.6A priority Critical patent/CN115130483B/zh
Publication of CN115130483A publication Critical patent/CN115130483A/zh
Application granted granted Critical
Publication of CN115130483B publication Critical patent/CN115130483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Physiology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于自然语言处理领域,涉及一种基于多目标群体智能算法的神经架构搜索方法及用途,包括以下步骤:1)获得评估神经网络架构翻译质量的数据集;2)在搜索空间内,初始化一个种群;3)将若干不同尺寸,并改善计算交叉多头注意力方式的Transformer模型个体,加入步骤2)得到的初始化种群;4)在若干评估机器翻译质量的指标下,使用多目标群体智能算法,对神经网络架构进行搜索。实现了较少的时间确定最适用于特定数据特性的神经网络架构,用更少的参数数量获得了更优的翻译质量,可部署在移动设备等内存资源相对紧缺的应用场景上。本发明提供的方法可用于司法、旅游、电商、电游、社交、金融等技术领域。

Description

一种基于多目标群体智能算法的神经架构搜索方法及用途
技术领域
本发明属于自然语言处理领域,具体涉及一种基于多目标群体智能算法的神经架构搜索方法及用途。
背景技术
Transformer模型由Googel在2017年提出,使用Attention替换了原先Seq2Seq模型中的循环结构,从而给自然语言处理(NPL)打开了新的大门,在一系列NLP任务上取得了极大性能提升,成为当前自然语言处理领域的主流模型。与此同时,人们对Transformer模型性能的改进也没有停止,如一种方式是通过增加Transformer模型中的编码器堆栈encoder block和解码器堆栈decoder block的数量,可以有效提高Transformer模型的表现效果,但同时边际效应明显递减,且更多的参数也会带来更大的内存开销,不利于部署在移动设备等内存资源相对紧缺的应用场景。
发明人在长期的实践工作中总结出通常可以通过组合两个不同的模型实现性能提升。神经架构搜索(Neural Architecture Search,NAS)是通过算法根据样本集自动设计出高性能网络结构,可以有效降低神经网络的使用和实现成本,其目标是在特定的问题中找到最佳的神经网络架构,将其表述为一个优化问题,然后尝试通过强化学习、微分法和群体智能算法等优化算法来解决。
本发明拟通过组合神经架构搜索与Transformer两个不同的模型,将神经架构搜索技术应用在搜索更好的Transformer模型上,实现机器翻译质量的提升。通过实践,微分法通常需要建立一个超级网络,这对Transformer模型不太适合。而与强化学习相比,群体智能算法在神经架构搜索工作中消耗的计算资源较少,而遗传算法是一种典型的群体智能算法,且在Transformer模型出现之前,基于遗传算法的神经结构搜索已成功应用在深度神经网络的设计。
当前绝大多数用遗传算法求解神经架构搜索的工作,都是用的单目标遗传算法,本发明拟将多目标遗传算法应用在搜索Transformer模型架构上,从而实现能在指数级庞大的搜索空间中,通过较少的时间确定最适用于特定数据特性的神经网络架构。通过搜索得到的神经网络架构,可以用更少的参数数量获得了更优的翻译质量,可部署在移动设备等内存资源相对紧缺的应用场景上。
发明内容
本发明所要解决的技术问题是在机器翻译的神经网络架构搜索中使用多目标群体智能算法,通过较少的时间确定最适用于特定数据特性的神经网络架构,并用更少的参数数量获得了更优的翻译质量,从而实现可部署在移动设备等内存资源相对紧缺的应用场景上。
为了实现上述内容,提供如下技术方案:
一种基于多目标群体智能算法的神经架构搜索方法(或者,基于群体智能背景下提高机器翻译质量的神经架构搜索方法),包括以下步骤:
1)获得评估神经网络架构翻译质量的数据集;
2)在搜索空间内,初始化一个种群,所述的种群内包含若干个体,每个个体表示一个神经网络结构;
3)将若干不同尺寸,并改善计算交叉多头注意力方式的Transformer模型个体,加入步骤2)得到的初始化种群;
4)在若干评估机器翻译质量的指标下,使用多目标群体智能算法,对神经网络架构进行搜索。
进一步地,步骤2)中所述的神经网络架构,借鉴了Transformer模型思想,编码器由若干Encoder block构成,解码器由若干Decoder block构成,但Encoder block和Decoder block的数目可能不同;编码器中每个Encoder block、解码器中每个Decoderblock的构造可能不同;每个Decoder block不一定是与编码器中最后的Encoder block计算交叉多头注意力,而是有更大概率与在编码器中和它在解码器中位置相近的Encoderblock计算交叉多头注意力。
进一步地,步骤3)所述的“若干不同尺寸,并改善计算交叉多头注意力方式的Transformer模型个体”是指编码器与解码器相等的改进Transformer模型,且所述的改进Transformer模型中每个Decoder block不与编码器中最后的Encoder block计算交叉多头注意力,而是与编码器中和它位置一样的Encoder block计算交叉多头注意力。
进一步地,步骤4)实现如下:
4.1)置集合EP为空集;
4.2)初始化N个权重向量λ1,...,λN,计算任意两个权重向量之间的距离,得出距离每个权重向量最近的T个权重向量,即对每个i=1,...,N,令Bi={i1,...,iT},其中是离λi最近的T个权重向量;
4.3)训练步骤3)产生的种群中的N个个体x1,...,xN,获得m个评价指标,令FVi=F(xi);
4.4)初始化其中zi表示所有个体中第i个评价指标的最优值;
4.5)令整数i从1循环至N,开始循环体;
4.6)随机在Bi中选择k,l两个索引,用遗传算子从xk,xl中产生新个体y;
4.7)训练个体y获得m个评价指标,对每个j=1,...,m,如果
4.8)对每个j∈Bi,如果gte(y|λj,z)≤gte(xjj,z),令xj=y且FVj=F(y);gte为切比雪夫函数,定义为
4.9)移除EP中所有被F(y)支配的向量,如果EP中任何向量都不支配F(y)则将F(y)加入EP;
4.10)结束循环体;
4.11)若终止条件未达成,回到步骤4.5),否则返回EP。
进一步地,步骤4)所述的评价翻译质量的指标分别为:Bleu分数和困惑度。
进一步地,步骤4.3)与步骤4.7)中,所述的m=2,且m个评价指标分别为Bleu分数和困惑度。
进一步地,步骤4.6)使用的遗传算子包括交叉算子和变异算子,且交叉算子和变异算子都是有概率进行的,交叉算子进行的概率大于变异算子进行的概率。
进一步地,为表示种群中的每个个体,需要对个体进行编码表示,编码方案为:{ne,[te,p1,p2]×ne,nd,[td,p1,p2,p3,ce]×nd},其中ne和nd分别表示个体模型中encoder block和decoder block的数量,te和td分别表示encoder block和decoder block的候选类型编号,p1、p2、p3在多头注意力层表示头的个数,在全连接层中表示维度。
进一步地,步骤4.9)所述支配的关系为:设A,B是多目标问题中的两个可行解,XA与XB为对应的决策向量,当满足下列两个条件时,称A支配B,记作A<B:1)对目标向量的每一维,A不比B差,即fi(XA)≤fi(XB);2)在目标向量中至少存在一维,A优于B,即/>fk(XA)<fk(XB)。
根据本发明提供的第二种实施方案,提供一种基于多目标群体智能算法的神经架构搜索方法的的用途。
将上述实施方案所述的基于多目标群体智能算法的神经架构搜索方法用于司法、旅游、电商、电游、社交、金融技术领域。
与现有技术相比,本发明的有益技术效果在于:
1、将多目标遗传算法应用在搜索Transformer模型架构上,在遗传算法求解过程中,每一代会将交叉和变异等遗传算子应用在编码,从而实现群体智能算法应用于神经架构搜索。
2、为评估Transformer模型在机器翻译任务的表现,同时考虑了Bleu分数和困惑度两个指标,并作为多目标群体智能方法的两个搜索目标,得到了更优的翻译质量。
3、对Transformer模型的演化提出了独特的交叉和变异操作,以确定哪些细节,如连接方法和层的组合更适合应用在神经机器翻译任务。
4、本发明提供的基于多目标群体智能算法的神经架构搜索方法用途广泛,可以用于司法、旅游、电商、电游、社交、金融等技术领域。
附图说明
图1为本发明实施例编码器和解码器候选block示意图。
图2为本发明实施例搜索空间encoder block与decoder block计算交叉多头注意力的连接概率权重示意图。
图3为本发明实施例encoder block/decoder block数目的Transformer个体交叉、变异示意图。
具体实施方式
为了能够更清楚地说明本发明的目的、实施方案和优点,下面将结合附图对本发明的技术方案进行清楚、完整的描述。显然,所描述的实施例是本发明的一部分实施例,对于本领域普通技术人员来讲,不需要创造性的劳动就可以获得其他实施例,都属于本发明的保护范围。
一种基于多目标群体智能算法的神经架构搜索方法(基于群体智能背景下提高机器翻译质量的神经架构搜索方法),该方法包括以下几个步骤:
1)获得评估神经网络架构翻译质量的数据集;
2)在搜索空间内,初始化一个种群,种群内包含若干个体,每个个体表示一个神经网络结构;
3)将若干不同尺寸,并改善计算交叉多头注意力方式的Transformer模型个体,加入步骤2)得到的初始化种群;
4)在若干评估机器翻译质量的指标下,使用多目标群体智能算法,对神经网络架构进行搜索。
步骤2)中初始化的若干神经网络架构,借鉴了Transformer模型中编码器由若干Encoder block,解码器由若干Decoder block构成的思想,但与Transformer模型不同的是:Encoder block和Decoder block的数目可能不同;编码器中每个Encoder block,以及解码器中每个Decoder block的构造可能不同;每个Decoder block不一定是与编码器中最后的Encoder block计算交叉多头注意力,而是有更大概率与在编码器中和它在解码器中位置相近的Encoder block计算交叉多头注意力。
为提高搜索效率,步骤3)中将若干编码器与解码器相等的改进Transformer模型加入步骤2)得到的初始化种群,且改进点在于,每个Decoder block不与编码器中最后的Encoder block计算交叉多头注意力,而是与编码器中和它位置一样的Encoder block计算交叉多头注意力。
步骤4)在若干评估机器翻译质量的指标下,使用多目标群体智能算法,对神经网络架构进行搜索,具体为:
步骤4.1)置集合EP为空集;
步骤4.2)初始化N个权重向量λ1,...,λN,计算任意两个权重向量之间的距离,得出距离每个权重向量最近的T个权重向量,即对每个i=1,...,N,令Bi={i1,...,iT},其中是离λi最近的T个权重向量;
步骤4.3)训练步骤3)产生的种群中的N个个体x1,...,xN,获得m个评价指标,令FVi=F(xi);
步骤4.4)初始化其中zi表示所有个体中第i个评价指标的最优值;
步骤4.5)令整数i从1循环至N,开始循环体;
步骤4.6)随机在Bi中选择k,l两个索引,用遗传算子从xk,xl中产生新个体y;
步骤4.7)训练个体y获得m个评价指标,对每个j=1,...,m,如果
步骤4.8)对每个j∈Bi,如果gte(y|λj,z)≤gte(xjj,z),令xj=y且FVj=F(y);
步骤4.9)移除EP中所有被F(y)支配的向量,如果EP中任何向量都不支配F(y)则将F(y)加入EP;
步骤4.10)结束循环体;
步骤4.11)若终止条件未达成,回到步骤4.5),否则返回EP。
步骤4)使用的评价翻译质量的指标分别为:Bleu分数和困惑度。也即,在步骤4.3)与步骤4.7)中,m=2,且m个评价指标分别为Bleu分数和困惑度。
步骤4.6)使用的遗传算子包括交叉算子和变异算子,且交叉算子和变异算子都是有概率进行的,交叉算子进行的概率大于变异算子进行的概率。
为表示种群中的每个个体,需要对个体进行编码表示,编码方案为:{ne,[te,p1,p2]×ne,nd,[td,p1,p2,p3,ce]×nd},其中ne和nd分别表示个体模型中encoder block和decoder block的数量,te和td分别表示encoder block和decoder block的候选类型编号,p1、p2、p3在多头注意力层表示头的个数,在全连接层中表示维度。
步骤4.8)所述的函数gte为切比雪夫函数,定义为
步骤4.9)所定义的支配关系为,设A,B是多目标问题中的两个可行解,XA与XB为对应的决策向量,当满足下列两个条件时,称A支配B,记作1)对目标向量的每一维,A不比B差,即/>fi(XA)≤fi(XB);2)在目标向量中至少存在一维,A优于B,即fk(XA)<fk(XB)。
具体实施例:
下面以本发明在英德翻译数据集Multi30k运行为例进行介绍。
1)获得数据集:Multi30k英德翻译数据集共包括31014个英德翻译句子对,其中29000对划分为训练集,1014对划分为验证集,1000对划分为测试集。
2)初始化:
①参数初始化:设预设世代数为15,步骤4)中的算法终止条件为:当前世代超过预设世代数;步骤4)中的参数为:N=15,T=4,交叉概率0.92,变异概率0.15,N个权重向量λ1,...,λN的初始化方式为:步骤4)中每个个体神经网络训练的batch_size=128;
②个体初始化:N个待初始化的个体分别编号为0到14,对于编号被3整除的个体,分别初始化为#encoder block=#decoder block={3,4,5,6,7},且每个decoder block与和它位置相同的encoder block计算交叉多头注意力;对于编号为其他数的个体,初始化方案如下:encoder block的数量ne和decoder block的数量nd均为区间[3,7]中随机选择的整数,对于每个encoder block,te为区间[1,4]中随机选择的一个整数,表示该encoderblock属于图1-1所示的哪个类型;对于每个decoder block,td为区间[1,3]中随机选择的一个整数,表示该decoder block属于图1-2所示的哪个类型;对于每个encoder block,p1、p2分别为候选block的两个layer层的属性,当该layer层属于全连接层时,该属性的取值范围是集合{0,1}中随机选一个数,取0表示该层的维度为512,取1表示该层的维度为1024,当该layer层属于多头注意力层时,该属性的取值范围是集合{0,1}中随机选一个数,表示该层的头数,取0表示该层的头数为4,取1表示该层的头数为8;对于每个decoder block,p1、p2、p3分别为候选block的三个layer层的属性,当该layer层属于全连接层时,该属性的取值范围是集合{0,1}中随机选一个数,取0表示该层的维度为512,取1表示该层的维度为1024,当该layer层属于多头注意力层(包括交叉多头注意力层、掩码多头注意力层)时,该属性的取值范围是集合{0,1}中随机选一个数,表示该层的头数,取0表示该层的头数为4,取1表示该层的头数为8;设encoder block/decoder block从下至上从1开始编号,如图2左所示,当ne>=nd时,编号为nd的decoder block与编号为ne的encoder block计算交叉多头注意力,其他decoder block随机选择一个encoder block计算交叉多头注意力,随机方式为:每个encoder block设置一个随机选择到的概率权重,其中与从上往下数位置相同的encoder block权重最高,其他位置每距离远一个单位,权重减半;如图2右所示,当nd>=ne时,所有编号大于或等于ne的decoder block均与编号为ne的encoder block计算交叉多头注意力,其他decoder block随机选择一个encoder block计算交叉多头注意力,随机方式为:每个encoder block设置一个随机选择到的概率权重,其中与从下往上数位置相同的encoder block权重最高,其他位置每距离远一个单位,权重减半。
3)遗传算子:
步骤4.6)中的遗传算子为:
①交叉算子:如图3-1和图3-2所示,交叉算子发生在两个个体的Encoder block与Encoder block和Decoder block与Decoder block之间,只有相同编号的Encoder block和相同编号的Decoder block之间会发生交叉,当ne与nd不相等时,编号大于max{ne,nd}的block将不发生交叉,经过交叉后,会产生如图3-3所示的两个后代个体。交叉方式为:互换两个Encoder block的te字段或互换两个Decoder block的td字段,p1、p2或p1、p2、p3字段保持不变,但可能因为block类型的改变而取得不同的含义。
②变异算子:以下变异操作均会有概率发生:当数量未达到7,增加一个encoder/decoder Block;当数量大于3,减少一个encoder/decoder block;改变encoder/decoderblock的所属类型;改变多头注意力层的头数或全连接层的维数;改变Decoder block与Encoder block计算交叉多头注意力的连接方式。如果增加或减少block的操作使得Decoder block与Encoder block计算交叉多头注意力的连接方式不满足初始化规则,则调整为满足初始化规则的连接方式。
4)用例运行结果:步骤4)的搜索算法结束时,EP集合中Bleu分数最高的个体的参数量为36.1M,Bleu分数为34.39,由4个Encoder block和5个Decoder block构成,编码为:{4,[2,0,0],[3,1,0],[2,0,0],[4,0,1],5,[3,0,0,0,1],[3,0,0,1,1],[2,0,1,1,1],[1,0,0,1,3],[3,1,1,1,3]};EP集合中平均Bleu分数为33.66,平均参数量为39.5M;Transformer基础模型由6个Encoder block和6个Decoder block构成,参数量为39.7M,Bleu分数为33.37。本发明的方法在EP集合中搜索到的神经网络个体的Bleu分数,无论是最优值还是平均值均超过了基础的Transformer模型,且具有更少的参数,消耗更低内存,更容易部署在移动设备等内存资源相对紧缺的应用场景上。
最后应说明的是,以上实施例仅用以说明本发明的技术方案,而非对其限制。本领域的普通技术人员可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换不需要花费创造性劳动。在不脱离本发明的原理和精神的情况下对实施方式进行变化、修改、替换仍落入本发明的保护范围。

Claims (10)

1.一种基于多目标群体智能算法的神经架构搜索方法,其特征在于,包括以下步骤:
1)获得评估神经网络架构翻译质量的数据集;
2)在搜索空间内,初始化一个种群,所述的种群内包含若干个体,每个个体表示一个神经网络结构;
3)将若干不同尺寸,并改善计算交叉多头注意力方式的Transformer模型个体,加入步骤2)得到的初始化种群;所述的“若干不同尺寸,并改善计算交叉多头注意力方式的Transformer模型个体”是指编码器与解码器相等的改进Transformer模型,且所述的改进Transformer模型中每个Decoder block不与编码器中最后的Encoder block计算交叉多头注意力,而是与编码器中和它位置一样的Encoder block计算交叉多头注意力;具体为:
待初始化的个体分别编号为0到14,对于编号被3整除的个体,分别初始化为#encoderblock=#decoder block={3,4,5,6,7},且每个decoder block与和它位置相同的encoderblock计算交叉多头注意力;对于编号为其他数的个体,初始化方案如下:encoder block的数量ne和decoder block的数量nd均为区间[3,7]中随机选择的整数;对于每个encoderblock,te为区间[1,4]中随机选择的一个整数;对于每个decoder block,td为区间[1,3]中随机选择的一个整数;对于每个encoder block,p1、p2分别为候选block的两个layer层的属性,当该layer层属于全连接层时,该属性的取值范围是集合{0,1}中随机选一个数,取0表示该层的维度为512,取1表示该层的维度为1024;当该layer层属于多头注意力层时,该属性的取值范围是集合{0,1}中随机选一个数,表示该层的头数,取0表示该层的头数为4,取1表示该层的头数为8;对于每个decoder block,p1、p2、p3分别为候选block的三个layer层的属性,当该layer层属于全连接层时,该属性的取值范围是集合{0,1}中随机选一个数,取0表示该层的维度为512,取1表示该层的维度为1024;当该layer层属于多头注意力层时,该属性的取值范围是集合{0,1}中随机选一个数,表示该层的头数,取0表示该层的头数为4,取1表示该层的头数为8;设encoder block/decoder block从下至上从1开始编号,当ne≥nd时,编号为nd的decoder block与编号为ne的encoder block计算交叉多头注意力,其他decoder block随机选择一个encoder block计算交叉多头注意力;当nd≥ne时,所有编号大于或等于ne的decoder block均与编号为ne的encoder block计算交叉多头注意力,其他decoder block随机选择一个encoder block计算交叉多头注意力;
4)在若干评估机器翻译质量的指标下,使用多目标群体智能算法,对神经网络架构进行搜索。
2.根据权利要求1所述的基于多目标群体智能算法的神经架构搜索方法,其特征在于,步骤2)中所述的神经网络架构,借鉴了Transformer模型思想,编码器由若干Encoderblock构成,解码器由若干Decoder block构成,但Encoder block和Decoder block的数目可能不同;编码器中每个Encoder block、解码器中每个Decoder block的构造可能不同;每个Decoder block不一定是与编码器中最后的Encoder block计算交叉多头注意力,而是有更大概率与在编码器中和它在解码器中位置相近的Encoder block计算交叉多头注意力。
3.根据权利要求1所述的基于多目标群体智能算法的神经架构搜索方法法,其特征在于,步骤3)中,当ne≥nd时,其他decoder block随机选择一个encoder block计算交叉多头注意力;随机方式为:每个encoder block设置一个随机选择到的概率权重,其中与从上往下数位置相同的encoder block权重最高,其他位置每距离远一个单位,权重减半;
当nd>ne时,其他decoder block随机选择一个encoder block计算交叉多头注意力;随机方式为:每个encoder block设置一个随机选择到的概率权重,其中与从下往上数位置相同的encoder block权重最高,其他位置每距离远一个单位,权重减半。
4.根据权利要求1所述的基于多目标群体智能算法的神经架构搜索方法,其特征在于,步骤4)实现如下:
4.1)置集合EP为空集;
4.2)初始化N个权重向量λ1,...,λN,计算任意两个权重向量之间的距离,得出距离每个权重向量最近的T个权重向量,即对每个i=1,...,N,令Bi={i1,...,iT},其中是离λi最近的T个权重向量;
4.3)训练步骤3)产生的种群中的N个个体x1,...,xN,获得m个评价指标,令FVi=F(xi);
4.4)初始化其中zi表示所有个体中第i个评价指标的最优值;
4.5)令整数i从1循环至N,开始循环体;
4.6)随机在Bi中选择k,l两个索引,用遗传算子从xk,xl中产生新个体y;
4.7)训练个体y获得m个评价指标,对每个j=1,...,m,如果令/>
4.8)对每个j∈Bi,如果gte(y|λj,z)≤gte(xjj,z),令xj=y且FVj=F(y);gte为切比雪夫函数,定义为
4.9)移除EP中所有被F(y)支配的向量,如果EP中任何向量都不支配F(y)则将F(y)加入EP;
4.10)结束循环体;
4.11)若终止条件未达成,回到步骤4.5),否则返回EP。
5.根据权利要求1所述的基于多目标群体智能算法的神经架构搜索方法,其特征在于,步骤4)所述的评价翻译质量的指标分别为:Bleu分数和困惑度。
6.根据权利要求4所述的基于多目标群体智能算法的神经架构搜索方法,其特征在于,步骤4.3)与步骤4.7)中,所述的m=2,且m个评价指标分别为Bleu分数和困惑度。
7.根据权利要求4所述的基于多目标群体智能算法的神经架构搜索方法,其特征在于,步骤4.6)使用的遗传算子包括交叉算子和变异算子,且交叉算子和变异算子都是有概率进行的,交叉算子进行的概率大于变异算子进行的概率。
8.根据权利要求1所述的基于多目标群体智能算法的神经架构搜索方法,其特征在于,为表示种群中的每个个体,需要对个体进行编码表示,编码方案为:{ne,[te,p1,p2]×ne,nd,[td,p1,p2,p3,ce]×nd},其中ne和nd分别表示个体模型中encoder block和decoderblock的数量,te和td分别表示encoder block和decoder block的候选类型编号,p1、p2、p3在多头注意力层表示头的个数,在全连接层中表示维度。
9.根据权利要求4所述的基于多目标群体智能算法的神经架构搜索方法,其特征在于,步骤4.9)所述支配的关系为:设A,B是多目标问题中的两个可行解,XA与XB为对应的决策向量,当满足下列两个条件时,称A支配B,记作A<B:1)对目标向量的每一维,A不比B差,即2)在目标向量中至少存在一维,A优于B,即/>
10.根据权利要求1-9中任一项所述的基于多目标群体智能算法的神经架构搜索方法的用途,其特征在于:将所述方法用于司法、旅游、电商、电游、社交、金融技术领域。
CN202210828231.6A 2022-07-13 2022-07-13 一种基于多目标群体智能算法的神经架构搜索方法及用途 Active CN115130483B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210828231.6A CN115130483B (zh) 2022-07-13 2022-07-13 一种基于多目标群体智能算法的神经架构搜索方法及用途

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210828231.6A CN115130483B (zh) 2022-07-13 2022-07-13 一种基于多目标群体智能算法的神经架构搜索方法及用途

Publications (2)

Publication Number Publication Date
CN115130483A CN115130483A (zh) 2022-09-30
CN115130483B true CN115130483B (zh) 2023-07-18

Family

ID=83383591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210828231.6A Active CN115130483B (zh) 2022-07-13 2022-07-13 一种基于多目标群体智能算法的神经架构搜索方法及用途

Country Status (1)

Country Link
CN (1) CN115130483B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021089483A (ja) * 2019-12-02 2021-06-10 株式会社Preferred Networks データ処理装置、データ処理方法、プログラム、およびモデル

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6470261B1 (en) * 1998-07-31 2002-10-22 Cet Technologies Pte Ltd Automatic freeway incident detection system and method using artificial neural network and genetic algorithms
CN110689127B (zh) * 2019-10-15 2022-05-06 北京小米智能科技有限公司 神经网络结构模型搜索方法、装置及存储介质
CN111274827B (zh) * 2020-01-20 2021-05-28 南京新一代人工智能研究院有限公司 一种基于词袋多目标学习的后缀翻译方法
US11256989B2 (en) * 2020-07-08 2022-02-22 UMNAI Limited Method for detecting and mitigating bias and weakness in artificial intelligence training data and models
JP7357291B2 (ja) * 2020-07-16 2023-10-06 日本電信電話株式会社 翻訳装置、翻訳方法及びプログラム
CN116964594A (zh) * 2020-12-16 2023-10-27 华为技术有限公司 一种基于演化学习的神经网络结构搜索方法和系统
CN113392656A (zh) * 2021-06-18 2021-09-14 电子科技大学 一种融合推敲网络和字符编码的神经机器翻译方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021089483A (ja) * 2019-12-02 2021-06-10 株式会社Preferred Networks データ処理装置、データ処理方法、プログラム、およびモデル

Also Published As

Publication number Publication date
CN115130483A (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
CN111462261B (zh) 针对h.266/vvc的快速cu分区和帧内决策方法
CN113378913B (zh) 一种基于自监督学习的半监督节点分类方法
CN111654698B (zh) 一种针对h.266/vvc的快速cu分区决策方法
WO2020125363A1 (zh) 一种低复杂度视频信号编码处理方法
CN111462157B (zh) 一种基于遗传优化阈值法的红外图像分割方法
CN117290721A (zh) 数字孪生建模方法、装置、设备及介质
Ma et al. A survey of sparse-learning methods for deep neural networks
CN115481727A (zh) 一种基于进化计算的意图识别神经网络生成与优化方法
CN115130483B (zh) 一种基于多目标群体智能算法的神经架构搜索方法及用途
CN107240100A (zh) 一种基于遗传算法的图像分割方法和系统
CN112131089B (zh) 软件缺陷预测的方法、分类器、计算机设备及存储介质
Zhao et al. A Novel Modified Tree‐Seed Algorithm for High‐Dimensional Optimization Problems
CN110351558A (zh) 一种基于强化学习的视频图像编码压缩效率提升方法
CN110351561A (zh) 一种用于视频编码优化的高效强化学习训练方法
CN107480724A (zh) 一种聚类中心的确定方法、确定系统及一种聚类方法
CN111831955A (zh) 一种锂离子电池剩余寿命预测方法及系统
Zhao et al. Fast coding unit size decision based on deep reinforcement learning for versatile video coding
Yang et al. Relative entropy multilevel thresholding method based on genetic optimization
CN114596464A (zh) 多特征交互的无监督目标检测方法、系统、电子设备和可读存储介质
CN114997360A (zh) 神经架构搜索算法的演化参数优化方法、系统及存储介质
CN114037051A (zh) 一种基于决策边界的深度学习模型压缩方法
Fang et al. Network Traffic Prediction Model Based on Catfish-PSO-SVM.
CN113111308A (zh) 基于数据驱动遗传编程算法的符号回归方法及系统
CN113449869A (zh) 一种易推理贝叶斯网络的学习方法
CN118014010B (zh) 基于多种群机制及代理模型的多目标演化神经架构搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Tang Huanrong

Inventor after: Wang Shang

Inventor after: OuYang Jianquan

Inventor before: Tang Huanrong

Inventor before: OuYang Jianquan

Inventor before: Wang Shang

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant