CN111191785A - 一种基于拓展搜索空间的结构搜索方法 - Google Patents

一种基于拓展搜索空间的结构搜索方法 Download PDF

Info

Publication number
CN111191785A
CN111191785A CN201911324181.2A CN201911324181A CN111191785A CN 111191785 A CN111191785 A CN 111191785A CN 201911324181 A CN201911324181 A CN 201911324181A CN 111191785 A CN111191785 A CN 111191785A
Authority
CN
China
Prior art keywords
structures
model
meta
training
element structures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911324181.2A
Other languages
English (en)
Other versions
CN111191785B (zh
Inventor
杜权
朱靖波
肖桐
张春良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Yaze Network Technology Co ltd
Original Assignee
Shenyang Yaze Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Yaze Network Technology Co ltd filed Critical Shenyang Yaze Network Technology Co ltd
Priority to CN201911324181.2A priority Critical patent/CN111191785B/zh
Publication of CN111191785A publication Critical patent/CN111191785A/zh
Application granted granted Critical
Publication of CN111191785B publication Critical patent/CN111191785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明涉及一种基于拓展搜索空间的网络结构搜索方法,步骤为:处理训练数据并进行建模并训练;对训练过程中元结构内部以及元结构之间的结构参数数值进行归一化操作;对搜索的子空间结构参数以及模型参数进行优化和调优;得到根据调优后得到的不同操作的权重差异进一步得到离散化的最终结构,该搜索结果中包括元结构内部的操作以及元结构之间的操作;对搜索到的元结构使用元结构之间的连接方式循环展开得到整体的模型,再次进行参数调优,最终训练到收敛为止。本发明在原本仅面向元结构内部结构进行搜索的前提下,将元结构之间的连接也方式也纳入搜索空间中,提升了候选结构空间的大小,相较于普通的面向元结构内部的结构搜索而言取得更好的性能。

Description

一种基于拓展搜索空间的结构搜索方法
技术领域
本发明涉及一种神经结构搜索技术,具体为基于拓展搜索空间的结构搜索方法。
背景技术
与许多基于深度学习的系统一样,基于神经网络技术的自然语言处理任务的核心问题之一是就设计神经网络的结构。特别是对于翻译这种复杂的自然语言处理任务,神经机器翻译的网络结构往往非常复杂,网络结构的设计需要大量的技巧和工程经验。虽然科研人员不断提出新的网络结构来改善模型性能,但如何更加科学地对网络结构进行探索却仍没有一个十分完备的解决方案。在传统方法中,需要通过不断尝试新的网络以找到性能更加优异的网络结构,这种方式存在两个问题:其一是试错的时间周期过长。由于不同的网络结构的需要经过长时间的模型训练、解码等步骤才能评价其性能,不同网络结构的尝试并没有收到好的效果;另一个问题在于设计出模型结构中往往存在大量的参数冗余。人工设计出的模型很难在保证有效性的同时保证其结构上的低冗余,因此即使是许多性能优秀的模型本身仍存在着大量不必要的神经元连接,增大了模型在使用过程中计算和存储方面的开销。
针对上述问题,模型结构的学习就变得十分重要。对于目前的网络结构搜索方法而言主要包括三个子任务:搜索空间表示、结构搜索策略以及模型性能评价方法。
搜索空间定义了网络结构搜索任务上可以表示哪些结构。针对不同任务的特性,搜索空间可以通过先验知识进行一定程度的压缩,然而,过度依赖已知的经验对搜索空间进行限制同时也降低了网络结构搜索的候选丰富程度,可能会对网络结构搜索所得到的模型性能产生不良影响。目前对于面向自然语言处理任务的网络结构搜索往往针对循环神经网络结构进行搜索,具体来说,搜索空间集中在循环单元的有效构建,对于整个的模型结构将根据循环神经网络的特性按照时序对搜索到的循环单元进行展开。
目前面向自然语言处理任务的结构搜索任务往往采用循环神经网络模型结构进行探索,为保证搜索效率,搜索空间被限制在对循环单元内部结构(元结构)的学习,这大幅度限制了候选结构的表示空间。
发明内容
针对现有技术中面向自然语言处理任务的结构搜索任务采用循环神经网络模型结构进行探索大幅度限制了候选结构的表示空间等不足,本发明要解决的技术问题是提供一种基于拓展搜索空间的网络结构搜索方法,对搜索空间进行拓展。
为解决上述技术问题,本发明采用的技术方案是:
1)处理训练数据并对拓展的网络结构表示空间进行建模并训练,在训练过程中对元结构内部结构以及元结构之间的结构进行交替训练;
2)对训练过程中元结构内部以及元结构之间的结构参数数值进行归一化操作;
3)同时对搜索的子空间结构参数以及模型参数进行优化,以数据在训练集上的损失值作为优化过程中的目标,通过梯度下降法对网络结构以及目标参数进行调优;
4)得到根据不同操作的权重差异得到离散化的最终结构,该搜索结果中包括元结构内部的操作以及元结构之间的操作;
5)对搜索到的元结构使用元结构之间的连接方式循环展开,得到整体的模型,使用训练数据对该模型进行参数调优,最终训练到收敛为止。
步骤1)中,通过机器学习方法对元结构内部以及元结构之间神经元的连接方式进行搜索,将离散的网络结构通过赋予不同操作以权重来达到连续优化的目的,对于元结构内部和元结构之间的结构而言,其内部节点输出的计算公式如下:
Figure BDA0002327921900000021
其中Wj是线性变换的参数矩阵,
Figure BDA0002327921900000022
是根据当前位置操作重要性为每条边上操作
Figure BDA0002327921900000023
赋予的权重,下标k代表第k个操作,si和sj分别为第i和第i个中间节点的输出。
对于元结构内部和元结构间的结构学习,由于其输入元素数量上的差异,使用一种更为通用的建模方式,元结构内部或元结构之间的结构最终输出为:
F(α,β)=sα⊙sβ
其中α和β分别为两组输入向量,分别基于它们对网络结构进行构建,sα和sβ分别为两组网络内部最终的输出节点,将其通过点乘的方式组织起来。通过这种方式仅需对对应组别的输入进行建模即可,降低了对整个模型结构进行搜索的复杂性,同时门控机制的引入能够使用sβ作为一个门来控制允许多少sα的信息从当前结构中流出。
对于元结构内部的结构搜索,其中α为集合
Figure BDA0002327921900000031
融合后的结果e1,其中
Figure BDA0002327921900000032
为前一时刻的隐层状态,
Figure BDA0002327921900000033
为当前时刻的输入向量,此外β为1。e1的计算公式如下:
Figure BDA0002327921900000034
这里W(h)和W(x)分别为隐层状态和输入向量的线性变换参数。
而对于元结构之间的结构搜索,则可以分为针对隐层状态的元结构间连接f(·)和针对输入的元结构间连接g(·),其中针对隐层状态的元结构间连接学习而言,其中α为之前时刻的隐层状态h[0,t-1],β为之前时刻的输入向量x[1,t-1]。而对于针对输入向量的元结构间结构学习,α为x[1,t],β为h[0,t-1]
二者实际计算方式可分别简化为:
f(h[0,t-1];x[1,t-1])=f′(ht-1;x[t-m,t-1])
g(x[1,t];h[0,t-1])=g′(xt;h[t-m,t-1])
其中m为决定查看多少历史状态的超参数。
步骤2)中,对训练过程中元结构内部以及元结构之间的结构参数数值进行归一化操作,该操作将对元结构内部和元结构之间结构中任一边上的所有潜在操作进行归一化操作,最终得到每个操作在该位置上的重要性权重,其计算公式如下:
Figure BDA0002327921900000035
其中
Figure BDA0002327921900000036
为计算操作重要性时的权重矩阵。通过这种方式,原本的离散网络结构即可通过对
Figure BDA0002327921900000037
的学习得到。这将使得通过梯度下降的方式对模型结构进行搜索成为可能。
步骤3)中,同时对搜索的子空间结构参数以及模型参数进行优化,以数据在训练集上的损失值作为优化过程中的目标,通过梯度下降法对网络结构以及目标参数进行调优。
之后通过对元结构内部以及元结构之间的结构交替进行搜索,最终获得整体的模型结构。整个过程流程如下:
301)当元结构内部结构尚未收敛,在相邻更新时刻依旧发生变化时根据损失值对元结构内部的连接w(intra)和模型中参数W进行更新;
302)当元结构间结构尚未收敛,在相邻更新时刻依旧发生变化时根据损失值对元结构间的连接w(inter)和模型中参数W进行更新;
303)当训练轮数尚未达到设定轮次时重复迭代301)和302)步骤。
步骤4)中,得到根据不同操作的权重差异得到离散化的最终结构,该搜索结果中包括元结构内部的操作以及元结构之间的操作。具体来说该过程对结构参数w中的值进行排序,得到相应边上最优操作,从而得到最终搜索到的模型结构。
步骤5)中,对搜索到的元结构使用元结构之间的连接方式循环展开,得到整体的模型,使用训练数据对该模型进行参数调优,最终训练到收敛为止,步骤为:
501)在步骤4)中已对元结构内部结构以及元结构间的网络结构进行了搜索,本步将对其按照时序进行展开,得到整体的网络结构;
502)对模型搜索过程中的网络参数进行重置,同时重新初始化;
503)使用全量参数对搜索到的模型结构进行训练,直至模型达到收敛状态为止。
本发明具有以下有益效果及优点:
1.本发明能够有效学习元结构之间的连接方式,更进一步能够通过联合学习的方式学习包括元结构内部在内的整个网络结构,这种方式能够大大提升模型结构最优解落在搜索结构的表示空间的可能性,从而提升网络结构搜索方法的有效性。
2.与此同时,本发明通过大规模单语数据搜索到的元结构间连接能够有效应用到其他序列到序列任务中,这个预搜索到的模型结构将使得在低资源任务上进行进行结构所搜成为可能。
附图说明
图1A为本发明中元结构内部结构搜索空间图示;
图1B为本发明中元结构之间结构搜索空间图示;
图2为本发明中通用的基于梯度网络结构搜索模型图示;
图3为本发明中面向元结构内部以及元结构之间连接搜索图示;
图4为本发明在语言模型任务中搜索出的元结构图示。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
本发明对传统面向自然语言处理任务的循环神经网络结构搜索空间进行拓展,提出一种面向元结构内部以及元结构之间网络结构的搜索方法。该方法将原有仅对循环单元进行搜索的模式拓展到对整个模型结构进行学习,通过联合训练的方式在保证搜索效率前提下提升命中最优结构的可能性,在不增加参数量的情况下提升模型搜索到的结构性能。
为解决上述技术问题,本发明采用的技术方案是:
1)处理训练数据并对拓展的网络结构表示空间进行建模并训练,在训练过程中对元结构的内部结构以及元结构之间的结构进行交替训练;
2)对训练过程中元结构内部以及元结构之间的结构参数数值进行归一化操作;
3)同时对搜索的子空间结构参数以及模型参数进行优化,以数据在训练集上的损失值作为优化过程中的目标,通过梯度下降法对网络结构以及目标参数进行调优;
4)得到根据调优后得到的不同操作的权重差异进一步得到离散化的最终结构,该搜索结果中包括元结构内部的操作以及元结构之间的操作;
5)对搜索到的元结构使用元结构之间的连接方式循环展开,得到整体的模型,使用训练数据对该模型再次进行参数调优,最终训练到收敛为止。
步骤1)主要对网络结构搜索过程中的搜索空间进行建模,为后续结构搜索过程中的模型表示空间进行定义。为保证网络结构搜索过程能够快速高效进行,这里将基于循环神经网络的结构搜索定义为元结构内连接搜索和元结构间的连接搜索。元结构内的结构为网络中循环单元的结构,元结构间结构针对循环单元按照时序进行展开的模式。元结构间的结构定义了元结构的自身的输入,而元结构内的连接决定了元结构间连接的输入。二者的差异如图1A和图1B所示,图1A说明了在结构搜索过程中元结构内部的搜索空间,图1B说明了元结构之间结构搜索空间。
本发明使用通用的基于梯度的网络结构搜索方法对元结构内部以及元结构间连接进行学习。将离散的网络结构通过赋予不同操作以权重来达到连续优化的目的,对于元结构内部和元结构之间的结构而言,其内部节点输出的计算公式如下:
Figure BDA0002327921900000051
其中Wj是线性变换的参数矩阵,
Figure BDA0002327921900000052
是根据当前位置操作重要性为每条边上操作
Figure BDA0002327921900000053
赋予的权重,下标k代表第k个操作,si和sj分别为第i和第i个中间节点的输出。
对于元结构内部和元结构间的结构学习,由于其输入元素数量上的差异,使用一种更为通用的建模方式,元结构内部或元结构之间的结构最终输出为:
F(α,β)=sα⊙sβ
其中α和β分别为两组输入向量,分别基于α和β对网络结构进行构建,和sβ分别为两组网络内部最终的输出节点,将其通过点乘的方式组织起来。如图2所示。通过这种方式仅需对对应组别的输入进行建模即可,降低了对整个模型结构进行搜索的复杂性,同时门控机制的引入能够使用sβ作为一个门来控制允许多少sα的信息从当前结构中流出。这种方式通过分组的方式将输入信息进行区分,使得输入信息的增加仅仅带来线性的复杂度变化,而非原本的指数级别提升,该优势能够有效提升结构搜索过程中的表示空间,使得方法能够在有限的计算量情况下探索更多模型结构,提升最优结构命中概率。
对于元结构内部的结构搜索以及元结构间的搜索,这里均采用上述通用的基于梯度的结构搜索方式进行。对于元结构内部的结构搜索,其中α为集合
Figure BDA0002327921900000061
融合后的结果e1,其中
Figure BDA0002327921900000062
为前一时刻的隐层状态,
Figure BDA0002327921900000063
为当前时刻的输入向量,此外β为1。e1的计算公式如下:
Figure BDA0002327921900000064
其中W(h)和W(x)分别为隐层状态和输入向量的线性变换参数,搜索过程如图3中元结构内结构搜索所示。
而对于元结构之间的结构搜索,则可以分为针对隐层状态的元结构间连接f(·)和针对输入的元结构间连接g(·),二者分别对隐层表示和输入信息进行调整,学习其与前序时刻元结构的连接方式。其中针对隐层状态的元结构间连接学习而言,其输入信息包括前序时刻的输入信息以及前序时刻的隐层状态,按此将送入元结构间结构的信息分为两类,其中α为之前时刻的隐层状态h[0,t-1],β为之前时刻的输入向量x[1,t-1]。同理,而对于针对输入向量的元结构间结构学习输入信息同样为前序时刻的输入信息和隐层表示,α为x[1,t],β为h[0,t-1],搜索过程如图3中元结构间结构搜索所示。
为降低网络搜索过程的复杂度,将二者实际计算方式简化为:
f(h[0,t-1];x[1,t-1])=f′(ht-1;x[t-m,t-1])
g(x[1,t];h[0,t-1])=g′(xt;h[t-m,t-1])
其中m为决定查看多少历史状态的超参数,f′(·)和g′(·)分别为简化后的隐层状态连接计算方式和输入信息连接计算方式。
利用多时刻的输入表示作为门控信息对前一时刻的隐层信息进行调整。而对于针对输入信息的元结构间连接,则使用多时刻的隐藏层表示对输入信息进行调节。
步骤2)主要是对训练过程中元结构内部以及元结构之间的结构参数数值进行归一化操作,该操作将对元结构内部和元结构之间结构中任一边上的所有潜在操作进行归一化操作,最终得到每个操作在该位置上的重要性权重,其计算公式如下:
Figure BDA0002327921900000071
其中
Figure BDA0002327921900000072
为计算操作重要性时的权重矩阵。通过这种方式,原本的离散网络结构即可通过对
Figure BDA0002327921900000073
的学习得到。这将使得通过梯度下降的方式对模型结构进行搜索成为可能。
步骤3)主要针对搜索的子空间结构参数以及模型参数进行优化。由于拓展的搜索空间中包括元结构内部结构和元结构之间的连接,因此方法采用联合训练的方式同时对二者进行结构上的优化。具体来说优搜索过程以数据在训练集上的损失值作为优化中的目标,通过梯度下降法对网络结构以及目标参数进行调优。
之后通过对元结构内部以及元结构之间的结构交替进行搜索,通过二者在结构搜索过程中的交互来最终获得整体最优的模型结构,过程如下:
301)当元结构内部结构尚未收敛,在相邻更新时刻依旧发生变化时根据损失值对元结构内部的连接w(intra)和模型中参数W进行更新;
302)当元结构间结构尚未收敛,在相邻更新时刻依旧发生变化时根据损失值对元结构间的连接w(inter)和模型中参数W进行更新;
303)当训练轮数尚未达到设定轮次时重复迭代301)和302)步骤。
步骤4)中将根据搜索到的连续空间结构得到根据不同操作的权重差异得到离散化的最终结构,该搜索结果中包括元结构内部的操作以及元结构之间的操作。具体来说该过程对结构参数w中的值进行排序,得到相应边上最优操作,从而得到最终搜索到的模型结构。
步骤5)中,对搜索到的元结构使用元结构之间的连接方式循环展开,得到整体的模型,使用训练数据对该模型进行参数调优,最终训练到收敛为止,步骤为:
501)对步骤4)中搜索到的结构按照时序进行展开,得到整体的网络结构;
502)对模型搜索过程中的网络参数进行重置,同时对模型中的参数重新初始化;
503)使用全量参数对搜索到的模型结构进行训练,直至模型达到收敛状态为止。
为验证方法的有效性,将基于拓展空间的结构搜索方法在语言建模任务上进行实验。具体来说在WikiText-103单语语料库上对英文进行建模,使用5个激活函数(drop、identity、sigmoid、tanh以及relu)作为结构搜索过程中的候选操作,对于元结构内部结构采用12个中间节点进行搜索,而对于元结构之间的结构设置5个节点。搜索过程在NVIDIA1080Ti设备上进行实验。实验结果如下表所示。
Figure BDA0002327921900000081
实验表明基于拓展搜索空间的结构搜索方法能够在参数量变化不大的前提下大幅度提升模型性能(困惑度越低表示性能越好),方法相较人工设计的网络结构以及受限空间内的搜索均获得了更好模型结构。此外,由于搜索空间的加大,网络结构搜索的耗时相对受限的方法有一定的增加,但由于搜索过程整体收敛较快,因此时间消耗上的增长在可接受范围内。将实验中搜索到的元结构内部链接方式使用有向无环图的方式描绘出来,如图4所示。
将大规模单语数据搜索到的模型结构应用到其他自然语言处理任务上同样可以获得较好性能,这里将WikiText-103集合上搜索到的结构应用到CoNLL-2003命名实体识别任务上,效果如下表所示。
Figure BDA0002327921900000082
实验结构表明将语言模型任务上搜索到的结构应用到命名实体识别任务上同样可以获得更优的效果(F1值越高表示性能越好)。这证明了基于拓展空间的结构搜索方法搜索到的结构具有较强鲁棒性,能够有效在不同任务之间进行迁移,这使得结构预搜索成为可能,为结构搜索方法在低资源任务上的应用提供可能。
本发明提出一种基于拓展搜索空间的结构搜索方法,能够有效学习元结构之间的连接方式,更进一步能够通过联合学习的方式学习包括元结构内部在内的整个网络结构,这种方式能够大大提升模型结构最优解落在搜索结构的表示空间的可能性,从而提升网络结构搜索方法的有效性。与此同时,通过大规模单语数据搜索到的元结构间连接能够有效应用到其他序列到序列任务中,这个预搜索到的模型结构将使得在低资源任务上进行进行结构所搜成为可能。在语言模型任务上进行结构搜索,相较于现有的可微分结构搜索方法获得更好的性能。与此同时,当将搜索到的模型结构应用到命名实体识别任务时,模型也获得了更好的结果。

Claims (8)

1.一种基于拓展搜索空间的结构搜索方法,其特征在于包括以下步骤:
1)处理训练数据并对拓展的网络结构表示空间进行建模并训练,在训练过程中对元结构的内部结构以及元结构之间的结构进行交替训练;
2)对训练过程中元结构内部以及元结构之间的结构参数数值进行归一化操作;
3)同时对搜索的子空间结构参数以及模型参数进行优化,以数据在训练集上的损失值作为优化过程中的目标,通过梯度下降法对网络结构以及目标参数进行调优;
4)得到根据调优后得到的不同操作的权重差异进一步得到离散化的最终结构,该搜索结果中包括元结构内部的操作以及元结构之间的操作;
5)对搜索到的元结构使用元结构之间的连接方式循环展开,得到整体的模型,使用训练数据对该模型再次进行参数调优,最终训练到收敛为止。
2.按权利要求1所述的基于拓展空间的网络结构搜索方法,其特征在于:步骤1)中,通过机器学习方法对元结构内部以及元结构之间神经元的连接方式进行搜索,将离散的网络结构通过赋予不同操作以权重来达到连续优化的目的,对于元结构内部和元结构之间的结构而言,其内部节点输出的计算公式如下:
Figure RE-FDA0002398741200000011
其中Wj是线性变换的参数矩阵,
Figure RE-FDA0002398741200000012
是根据当前位置操作重要性为每条边上操作
Figure RE-FDA0002398741200000013
赋予的权重,下标k代表第k个操作,si和sj分别为第i和第i个中间节点的输出;
对于元结构内部和元结构间的结构学习,使用一种更为通用的建模方式,元结构内部或元结构之间的结构最终输出为:
F(αβ)=sα⊙sβ
其中α和β分别为两组输入向量,分别基于α和β对网络结构进行构建,和sβ分别为两组网络内部最终的输出节点,将其通过点乘的方式组织起来。
3.按权利要求2所述的基于拓展空间的网络结构搜索方法,其特征在于:对于元结构内部的结构搜索,其中α为集合
Figure RE-FDA0002398741200000014
融合后的结果e1,其中
Figure RE-FDA0002398741200000021
为前一时刻的隐层状态,
Figure RE-FDA0002398741200000022
为当前时刻的输入向量,此外β为1。e1的计算公式如下:
Figure RE-FDA0002398741200000023
这里W(h)和W(x)分别为隐层状态和输入向量的线性变换参数。
4.按权利要求2所述的基于拓展空间的网络结构搜索方法,其特征在于:对于元结构之间的结构搜索,分为针对隐层状态的元结构间连接f(·)和针对输入的元结构间连接g(·),其中针对隐层状态的元结构间连接学习而言,其中α为之前时刻的隐层状态h[0,t-1],β为之前时刻的输入向量x[1,t-1];而对于针对输入向量的元结构间结构学习,α为x[1,t],β为h[0,t-1]
二者实际计算方式分别简化为:
f(h[0,t-1];x[1,t-1])=f′(ht-1;x[t-m,t-1])
g(x[1,t];h[0,t-1])=g′(xt;h[t-m,t-1])
其中m为决定查看多少历史状态的超参数,f′(·)和g′(·)分别为简化后的隐层状态连接计算方式和输入信息连接计算方式。
5.按权利要求1所述的基于拓展空间的网络结构搜索方法,其特征在于:步骤2)中,对训练过程中元结构内部以及元结构之间的结构参数数值进行归一化操作,该操作将对元结构内部和元结构之间结构中任一边上的所有潜在操作进行归一化操作,最终得到每个操作在该位置上的重要性权重,其计算公式如下:
Figure RE-FDA0002398741200000024
其中
Figure RE-FDA0002398741200000025
为计算操作重要性时的权重矩阵。
6.按权利要求1所述的基于拓展空间的网络结构搜索方法,其特征在于步骤3)中,对搜索的子空间结构参数以及模型参数进行优化,以数据在训练集上的损失值作为优化过程中的目标,通过梯度下降法对网络结构以及目标参数进行调优;
之后通过对元结构内部以及元结构之间的结构交替进行搜索,最终获得整体的模型结构,过程如下:
301)当元结构内部结构尚未收敛,在相邻更新时刻依旧发生变化时根据损失值对元结构内部的连接w(intra)和模型中参数W进行更新;
302)当元结构间结构尚未收敛,在相邻更新时刻依旧发生变化时根据损失值对元结构间的连接w(inter)和模型中参数W进行更新;
303)当训练轮数尚未达到设定轮次时重复迭代301)和302)步骤。
7.按权利要求1所述的基于拓展空间的网络结构搜索方法,其特征在于:步骤4)中,得到根据不同操作的权重差异得到离散化的最终结构,该搜索结果中包括元结构内部的操作以及元结构之间的操作,该过程对结构参数w中的值进行排序,得到相应边上最优操作,从而得到最终搜索到的模型结构。
8.按权利要求1所述的基于拓展空间的网络结构搜索方法,其特征在于:步骤5)中,对搜索到的元结构使用元结构之间的连接方式循环展开,得到整体的模型,使用训练数据对该模型进行参数调优,最终训练到收敛为止,步骤为:
501)对步骤4)中搜索到的结构按照时序进行展开,得到整体的网络结构;
502)对模型搜索过程中的网络参数进行重置,同时对模型中的参数重新初始化;
503)使用全量参数对搜索到的模型结构进行训练,直至模型达到收敛状态为止。
CN201911324181.2A 2019-12-20 2019-12-20 用于命名实体识别的基于拓展搜索空间的结构搜索方法 Active CN111191785B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911324181.2A CN111191785B (zh) 2019-12-20 2019-12-20 用于命名实体识别的基于拓展搜索空间的结构搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911324181.2A CN111191785B (zh) 2019-12-20 2019-12-20 用于命名实体识别的基于拓展搜索空间的结构搜索方法

Publications (2)

Publication Number Publication Date
CN111191785A true CN111191785A (zh) 2020-05-22
CN111191785B CN111191785B (zh) 2023-06-23

Family

ID=70709249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911324181.2A Active CN111191785B (zh) 2019-12-20 2019-12-20 用于命名实体识别的基于拓展搜索空间的结构搜索方法

Country Status (1)

Country Link
CN (1) CN111191785B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667055A (zh) * 2020-06-05 2020-09-15 北京百度网讯科技有限公司 用于搜索模型结构的方法和装置
CN111882045A (zh) * 2020-08-12 2020-11-03 北京师范大学 基于可微神经结构搜索的大脑时-空网络分解方法及系统
CN113111668A (zh) * 2021-04-18 2021-07-13 沈阳雅译网络技术有限公司 一种用于翻译任务的语言建模系统结构搜索方法
CN113761108A (zh) * 2020-06-02 2021-12-07 深信服科技股份有限公司 数据搜索方法、装置、设备及计算机可读存储介质

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5140530A (en) * 1989-03-28 1992-08-18 Honeywell Inc. Genetic algorithm synthesis of neural networks
JPH08106445A (ja) * 1994-10-05 1996-04-23 Nippon Telegr & Teleph Corp <Ntt> リカレントネットワークの学習装置
DE102006021574A1 (de) * 2006-05-09 2007-11-15 Airbus Deutschland Gmbh Verfahren zur Performanceverbesserung bei der Bearbeitung eines prozessübergreifenden digitalen Versuchsmodells
US20090089275A1 (en) * 2007-10-02 2009-04-02 International Business Machines Corporation Using user provided structure feedback on search results to provide more relevant search results
US20170024642A1 (en) * 2015-03-13 2017-01-26 Deep Genomics Incorporated System and method for training neural networks
CN109063759A (zh) * 2018-07-20 2018-12-21 浙江大学 一种应用于图片多属性预测的神经网络结构搜索方法
CN109284820A (zh) * 2018-10-26 2019-01-29 北京图森未来科技有限公司 一种深度神经网络的结构搜索方法及装置
CN109615073A (zh) * 2018-12-03 2019-04-12 郑州云海信息技术有限公司 一种神经网络模型的构建方法、设备以及存储介质
CN109783827A (zh) * 2019-01-31 2019-05-21 沈阳雅译网络技术有限公司 一种基于动态线性聚合的深层神经机器翻译方法
CN109871537A (zh) * 2019-01-31 2019-06-11 沈阳雅译网络技术有限公司 一种高精度的泰语分句方法
CN109933808A (zh) * 2019-01-31 2019-06-25 沈阳雅译网络技术有限公司 一种基于动态配置解码的神经机器翻译方法
CN109948795A (zh) * 2019-03-11 2019-06-28 驭势科技(北京)有限公司 一种确定网络结构精度和延时优化点的方法和装置
CN109948029A (zh) * 2019-01-25 2019-06-28 南京邮电大学 基于神经网络自适应的深度哈希图像搜索方法
US20190204834A1 (en) * 2018-01-04 2019-07-04 Metawave Corporation Method and apparatus for object detection using convolutional neural network systems
CN110020667A (zh) * 2019-02-21 2019-07-16 广州视源电子科技股份有限公司 神经网络结构的搜索方法、系统、存储介质以及设备
DE202019102260U1 (de) * 2019-04-18 2019-07-31 Albert-Ludwigs-Universität Freiburg Vorrichtung zum Erstellen eines neuronalen Netzes
CN110543640A (zh) * 2019-08-09 2019-12-06 沈阳雅译网络技术有限公司 一种基于注意力机制神经机器翻译推断加速方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5140530A (en) * 1989-03-28 1992-08-18 Honeywell Inc. Genetic algorithm synthesis of neural networks
JPH08106445A (ja) * 1994-10-05 1996-04-23 Nippon Telegr & Teleph Corp <Ntt> リカレントネットワークの学習装置
DE102006021574A1 (de) * 2006-05-09 2007-11-15 Airbus Deutschland Gmbh Verfahren zur Performanceverbesserung bei der Bearbeitung eines prozessübergreifenden digitalen Versuchsmodells
US20090089275A1 (en) * 2007-10-02 2009-04-02 International Business Machines Corporation Using user provided structure feedback on search results to provide more relevant search results
US20170024642A1 (en) * 2015-03-13 2017-01-26 Deep Genomics Incorporated System and method for training neural networks
US20190204834A1 (en) * 2018-01-04 2019-07-04 Metawave Corporation Method and apparatus for object detection using convolutional neural network systems
CN109063759A (zh) * 2018-07-20 2018-12-21 浙江大学 一种应用于图片多属性预测的神经网络结构搜索方法
CN109284820A (zh) * 2018-10-26 2019-01-29 北京图森未来科技有限公司 一种深度神经网络的结构搜索方法及装置
CN109615073A (zh) * 2018-12-03 2019-04-12 郑州云海信息技术有限公司 一种神经网络模型的构建方法、设备以及存储介质
CN109948029A (zh) * 2019-01-25 2019-06-28 南京邮电大学 基于神经网络自适应的深度哈希图像搜索方法
CN109933808A (zh) * 2019-01-31 2019-06-25 沈阳雅译网络技术有限公司 一种基于动态配置解码的神经机器翻译方法
CN109871537A (zh) * 2019-01-31 2019-06-11 沈阳雅译网络技术有限公司 一种高精度的泰语分句方法
CN109783827A (zh) * 2019-01-31 2019-05-21 沈阳雅译网络技术有限公司 一种基于动态线性聚合的深层神经机器翻译方法
CN110020667A (zh) * 2019-02-21 2019-07-16 广州视源电子科技股份有限公司 神经网络结构的搜索方法、系统、存储介质以及设备
CN109948795A (zh) * 2019-03-11 2019-06-28 驭势科技(北京)有限公司 一种确定网络结构精度和延时优化点的方法和装置
DE202019102260U1 (de) * 2019-04-18 2019-07-31 Albert-Ludwigs-Universität Freiburg Vorrichtung zum Erstellen eines neuronalen Netzes
CN110543640A (zh) * 2019-08-09 2019-12-06 沈阳雅译网络技术有限公司 一种基于注意力机制神经机器翻译推断加速方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KANG XIA;HAO GAO;CONG LIU;JIANAN YUAN;JIAN SUN;HUI-TIAN WANG;DINGYU XING;: "A novel superhard tungsten nitride predicted by machine-learning accelerated crystal structure search", no. 13 *
李华;屈丹;范正光;张文林;: "基于LSTM RNNLM的N-best重打分算法", 信息工程大学学报, no. 04 *
汪冬冬;李岳楠;: "基于时空深度神经网络的视频指纹算法", no. 01 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761108A (zh) * 2020-06-02 2021-12-07 深信服科技股份有限公司 数据搜索方法、装置、设备及计算机可读存储介质
CN111667055A (zh) * 2020-06-05 2020-09-15 北京百度网讯科技有限公司 用于搜索模型结构的方法和装置
CN111882045A (zh) * 2020-08-12 2020-11-03 北京师范大学 基于可微神经结构搜索的大脑时-空网络分解方法及系统
CN111882045B (zh) * 2020-08-12 2023-10-17 北京师范大学 基于可微神经结构搜索的大脑时-空网络分解方法及系统
CN113111668A (zh) * 2021-04-18 2021-07-13 沈阳雅译网络技术有限公司 一种用于翻译任务的语言建模系统结构搜索方法

Also Published As

Publication number Publication date
CN111191785B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN111191785A (zh) 一种基于拓展搜索空间的结构搜索方法
Cai et al. Path-level network transformation for efficient architecture search
CN109948029B (zh) 基于神经网络自适应的深度哈希图像搜索方法
CN108900346B (zh) 基于lstm网络的无线网络流量预测方法
CN109241291A (zh) 基于深度强化学习的知识图谱最优路径查询系统及其方法
CN110794842A (zh) 基于势场的强化学习路径规划算法
CN112699247A (zh) 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN110851566A (zh) 一种改进的可微分网络结构搜索的方法
CN104504442A (zh) 神经网络优化方法
CN111950711A (zh) 复值前向神经网络的二阶混合构建方法及系统
CN110516724A (zh) 可视化作战场景的高性能多层字典学习特征图像处理方法
CN114373101A (zh) 基于进化策略的神经网络架构搜索的图像分类方法
CN113469891A (zh) 一种神经网络架构搜索方法、训练方法、图像补全方法
CN110991621A (zh) 一种基于通道数搜索卷积神经网络的方法
CN115906303A (zh) 一种基于机器学习的平面微波滤波器设计方法及装置
CN109886405A (zh) 一种抑制噪声的基于人工神经网络结构优化方法
CN114004152A (zh) 基于图卷积和循环神经网络的多风场风速时空预测方法
CN112257202A (zh) 多内孔零件的基于神经网络的二维结构网格自动分解方法
CN113807040B (zh) 一种面向微波电路的优化设计方法
CN114818128B (zh) 船体局部曲面优化神经网络建模方法及优化方法
CN113033218B (zh) 一种基于神经网络结构搜索的机器翻译译文质量评估方法
Hao et al. Architecture self-attention mechanism: Nonlinear optimization for neural architecture search
CN114996880A (zh) 一种基于ansys二次开发的复合装甲结构优化方法
CN115620046A (zh) 一种基于半监督性能预测器的多目标神经架构搜索方法
CN115453880A (zh) 基于对抗神经网络的用于状态预测的生成模型的训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Du Quan

Inventor before: Du Quan

Inventor before: Zhu Jingbo

Inventor before: Xiao Tong

Inventor before: Zhang Chunliang

GR01 Patent grant
GR01 Patent grant