CN111191785B - 用于命名实体识别的基于拓展搜索空间的结构搜索方法 - Google Patents

用于命名实体识别的基于拓展搜索空间的结构搜索方法 Download PDF

Info

Publication number
CN111191785B
CN111191785B CN201911324181.2A CN201911324181A CN111191785B CN 111191785 B CN111191785 B CN 111191785B CN 201911324181 A CN201911324181 A CN 201911324181A CN 111191785 B CN111191785 B CN 111191785B
Authority
CN
China
Prior art keywords
meta
structures
model
parameters
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911324181.2A
Other languages
English (en)
Other versions
CN111191785A (zh
Inventor
杜权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Yayi Network Technology Co ltd
Original Assignee
Shenyang Yayi Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Yayi Network Technology Co ltd filed Critical Shenyang Yayi Network Technology Co ltd
Priority to CN201911324181.2A priority Critical patent/CN111191785B/zh
Publication of CN111191785A publication Critical patent/CN111191785A/zh
Application granted granted Critical
Publication of CN111191785B publication Critical patent/CN111191785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种用于命名实体识别的基于拓展搜索空间的网络结构搜索方法,处理训练数据进行建模并训练;对训练过程中元结构内部及元结构之间的结构参数数值进行归一化操作;对搜索的子空间结构参数及模型参数进行优化和调优;根据调优后的不同操作的权重差异进一步得到离散化的最终结构,该搜索结果中包括元结构内部的操作以及元结构之间的操作;对搜索到的元结构使用元结构之间的连接方式循环展开得到整体的模型,再次进行参数调优,最终训练到收敛为止。本发明在原本仅面向元结构内部结构进行搜索的前提下,将元结构之间的连接也方式也纳入搜索空间中,提升了候选结构空间的大小,相较于普通的面向元结构内部的结构搜索而言取得更好的性能。

Description

用于命名实体识别的基于拓展搜索空间的结构搜索方法
技术领域
本发明涉及一种神经结构搜索技术,具体为用于命名实体识别的基于拓展搜索空间的结构搜索方法。
背景技术
与许多基于深度学习的系统一样,基于神经网络技术的自然语言处理任务的核心问题之一是就设计神经网络的结构。特别是对于翻译这种复杂的自然语言处理任务,神经机器翻译的网络结构往往非常复杂,网络结构的设计需要大量的技巧和工程经验。虽然科研人员不断提出新的网络结构来改善模型性能,但如何更加科学地对网络结构进行探索却仍没有一个十分完备的解决方案。在传统方法中,需要通过不断尝试新的网络以找到性能更加优异的网络结构,这种方式存在两个问题:其一是试错的时间周期过长。由于不同的网络结构的需要经过长时间的模型训练、解码等步骤才能评价其性能,不同网络结构的尝试并没有收到好的效果;另一个问题在于设计出模型结构中往往存在大量的参数冗余。人工设计出的模型很难在保证有效性的同时保证其结构上的低冗余,因此即使是许多性能优秀的模型本身仍存在着大量不必要的神经元连接,增大了模型在使用过程中计算和存储方面的开销。
针对上述问题,模型结构的学习就变得十分重要。对于目前的网络结构搜索方法而言主要包括三个子任务:搜索空间表示、结构搜索策略以及模型性能评价方法。
搜索空间定义了网络结构搜索任务上可以表示哪些结构。针对不同任务的特性,搜索空间可以通过先验知识进行一定程度的压缩,然而,过度依赖已知的经验对搜索空间进行限制同时也降低了网络结构搜索的候选丰富程度,可能会对网络结构搜索所得到的模型性能产生不良影响。目前对于面向自然语言处理任务的网络结构搜索往往针对循环神经网络结构进行搜索,具体来说,搜索空间集中在循环单元的有效构建,对于整个的模型结构将根据循环神经网络的特性按照时序对搜索到的循环单元进行展开。
目前面向自然语言处理任务的结构搜索任务往往采用循环神经网络模型结构进行探索,为保证搜索效率,搜索空间被限制在对循环单元内部结构(元结构)的学习,这大幅度限制了候选结构的表示空间。
发明内容
针对现有技术中面向自然语言处理任务的结构搜索任务采用循环神经网络模型结构进行探索大幅度限制了候选结构的表示空间等不足,本发明要解决的技术问题是提供一种基于拓展搜索空间的网络结构搜索方法,对搜索空间进行拓展。
为解决上述技术问题,本发明采用的技术方案是:
本发明公开一种用于命名实体识别的基于拓展搜索空间的结构搜索方法,包括以下步骤:
1)处理训练数据并对拓展的网络结构表示空间进行建模并训练,在训练过程中对元结构的内部结构以及元结构之间的结构进行交替训练;
2)对训练过程中元结构内部以及元结构之间的结构参数数值进行归一化操作;
3)同时对搜索的子空间结构参数以及模型参数进行优化,以数据在训练集上的损失值作为优化过程中的目标,通过梯度下降法对网络结构以及目标参数进行调优;
4)得到根据调优后得到的不同操作的权重差异进一步得到离散化的最终结构,包括元结构内部的操作以及元结构之间的操作;
5)对搜索到的元结构使用元结构之间的连接方式循环展开,得到整体的模型,使用训练数据对该模型再次进行参数调优,最终训练到收敛为止。
步骤1)中,通过机器学习方法对元结构内部以及元结构之间神经元的连接方式进行搜索,将离散的网络结构通过赋予不同操作以权重来达到连续优化的目的,对于元结构内部和元结构之间的结构而言,其内部节点输出的计算公式如下:
Figure GDA0004241334200000021
其中Wj是线性变换的参数矩阵,
Figure GDA0004241334200000022
是根据当前位置操作重要性为每条边上操作
Figure GDA0004241334200000023
赋予的权重,下标k代表第k个操作,si和sj分别为第i和第j个中间节点的输出;
对于元结构内部和元结构间的结构学习,使用一种更为通用的建模方式,元结构内部或元结构之间的结构最终输出为:
F(α,β)=sα⊙sβ
其中α和β分别为两组输入向量,分别基于α和β对网络结构进行构建,sα和sβ分别为两组网络内部最终的输出节点,将其通过点乘的方式组织起来,F(α,β)为元结构内部或元结构之间的结构最终输出。
对于元结构内部的结构搜索,其中α为集合
Figure GDA0004241334200000024
融合后的结果e1,其中/>
Figure GDA0004241334200000025
为前一时刻的隐层状态,/>
Figure GDA0004241334200000026
为当前时刻的输入向量,此外β为1;e1的计算公式如下:
Figure GDA0004241334200000031
这里W(h)和W(x)分别为隐层状态和输入向量的线性变换参数,h为隐层状态,x为输入向量。
对于元结构之间的结构搜索,分为针对隐层状态的元结构间连接f(·)和针对输入的元结构间连接g(·),其中针对隐层状态的元结构间连接学习而言,实际计算方式分别简化为:
f(h[0,t-1];x[1,t-1])=f′(ht-1;x[t-m,t-1])
g(x[1,t];h[0,t-1])=g′(xt;h[t-m,t-1])
其中m为决定查看多少历史状态的超参数,f′(·)和g′(·)分别为简化后的隐层状态连接计算方式和输入信息连接计算方式;h[0,t-1]为0到t-1时刻的隐层状态,x[1,t]为1到t时刻的输入向量,x[1,t-1]为1到t-1时刻的输入向量,ht-1为t-1时刻的隐层状态,x[t-m,t-1]
t-m到t-1时刻的输入向量,xt为t时刻的输入向量,
h[(t-m,t-1]为t-m到t-1时刻的隐层状态。
步骤2)中,对训练过程中元结构内部以及元结构之间的结构参数数值进行归一化操作,该操作将对元结构内部和元结构之间结构中任一边上的所有潜在操作进行归一化操作,最终得到每个操作在该位置上的重要性权重,其计算公式如下:
Figure GDA0004241334200000032
其中
Figure GDA0004241334200000033
为计算操作重要性时的权重矩阵,k′代表第k′个操作。
步骤3)中,对搜索的子空间结构参数以及模型参数进行优化,以数据在训练集上的损失值作为优化过程中的目标,通过梯度下降法对网络结构以及目标参数进行调优;
之后通过对元结构内部以及元结构之间的结构交替进行搜索,最终获得整体的模型结构,过程如下:
301)当元结构内部结构尚未收敛,在相邻更新时刻依旧发生变化时根据损失值对元结构内部的连接w(intra)和模型中参数W进行更新;
302)当元结构间结构尚未收敛,在相邻更新时刻依旧发生变化时根据损失值对元结构间的连接w(inter)和模型中参数W进行更新;
303)当训练轮数尚未达到设定轮次时重复迭代301)和302)步骤。
步骤4)中,得到根据不同操作的权重差异得到离散化的最终结构,该搜索结果中包括元结构内部的操作以及元结构之间的操作,该过程对结构参数w中的值进行排序,得到相应边上最优操作,从而得到最终搜索到的模型结构。
步骤5)中,对搜索到的元结构使用元结构之间的连接方式循环展开,得到整体的模型,使用训练数据对该模型进行参数调优,最终训练到收敛为止,步骤为:
501)对步骤4)中搜索到的结构按照时序进行展开,得到整体的网络结构;
502)对模型搜索过程中的网络参数进行重置,同时对模型中的参数重新初始化;
503)使用全量参数对搜索到的模型结构进行训练,直至模型达到收敛状态为止。
本发明具有以下有益效果及优点:
1.本发明能够有效学习元结构之间的连接方式,更进一步能够通过联合学习的方式学习包括元结构内部在内的整个网络结构,这种方式能够大大提升模型结构最优解落在搜索结构的表示空间的可能性,从而提升网络结构搜索方法的有效性。
2.与此同时,本发明通过大规模单语数据搜索到的元结构间连接能够有效应用到其他序列到序列任务中,这个预搜索到的模型结构将使得在低资源任务上进行进行结构所搜成为可能。
附图说明
图1A为本发明中元结构内部结构搜索空间图示;
图1B为本发明中元结构之间结构搜索空间图示;
图2为本发明中通用的基于梯度网络结构搜索模型图示;
图3为本发明中面向元结构内部以及元结构之间连接搜索图示;
图4为本发明在语言模型任务中搜索出的元结构图示。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
本发明对传统面向自然语言处理任务的循环神经网络结构搜索空间进行拓展,提出一种面向元结构内部以及元结构之间网络结构的搜索方法。该方法将原有仅对循环单元进行搜索的模式拓展到对整个模型结构进行学习,通过联合训练的方式在保证搜索效率前提下提升命中最优结构的可能性,在不增加参数量的情况下提升模型搜索到的结构性能。
为解决上述技术问题,本发明采用的技术方案是:
1)处理训练数据并对拓展的网络结构表示空间进行建模并训练,在训练过程中对元结构的内部结构以及元结构之间的结构进行交替训练;
2)对训练过程中元结构内部以及元结构之间的结构参数数值进行归一化操作;
3)同时对搜索的子空间结构参数以及模型参数进行优化,以数据在训练集上的损失值作为优化过程中的目标,通过梯度下降法对网络结构以及目标参数进行调优;
4)得到根据调优后得到的不同操作的权重差异进一步得到离散化的最终结构,该搜索结果中包括元结构内部的操作以及元结构之间的操作;
5)对搜索到的元结构使用元结构之间的连接方式循环展开,得到整体的模型,使用训练数据对该模型再次进行参数调优,最终训练到收敛为止。
步骤1)主要对网络结构搜索过程中的搜索空间进行建模,为后续结构搜索过程中的模型表示空间进行定义。为保证网络结构搜索过程能够快速高效进行,这里将基于循环神经网络的结构搜索定义为元结构内连接搜索和元结构间的连接搜索。元结构内的结构为网络中循环单元的结构,元结构间结构针对循环单元按照时序进行展开的模式。元结构间的结构定义了元结构的自身的输入,而元结构内的连接决定了元结构间连接的输入。二者的差异如图1A和图1B所示,图1A说明了在结构搜索过程中元结构内部的搜索空间,图1B说明了元结构之间结构搜索空间。
本发明使用通用的基于梯度的网络结构搜索方法对元结构内部以及元结构间连接进行学习。将离散的网络结构通过赋予不同操作以权重来达到连续优化的目的,对于元结构内部和元结构之间的结构而言,其内部节点输出的计算公式如下:
Figure GDA0004241334200000051
其中Wj是线性变换的参数矩阵,
Figure GDA0004241334200000052
是根据当前位置操作重要性为每条边上操作
Figure GDA0004241334200000053
赋予的权重,下标k代表第k个操作,si和sj分别为第i和第i个中间节点的输出。
对于元结构内部和元结构间的结构学习,由于其输入元素数量上的差异,使用一种更为通用的建模方式,元结构内部或元结构之间的结构最终输出为:
F(α,β)=sα⊙sβ
其中α和β分别为两组输入向量,分别基于α和β对网络结构进行构建,和sβ分别为两组网络内部最终的输出节点,将其通过点乘的方式组织起来。如图2所示。通过这种方式仅需对对应组别的输入进行建模即可,降低了对整个模型结构进行搜索的复杂性,同时门控机制的引入能够使用sβ作为一个门来控制允许多少sα的信息从当前结构中流出。这种方式通过分组的方式将输入信息进行区分,使得输入信息的增加仅仅带来线性的复杂度变化,而非原本的指数级别提升,该优势能够有效提升结构搜索过程中的表示空间,使得方法能够在有限的计算量情况下探索更多模型结构,提升最优结构命中概率。
对于元结构内部的结构搜索以及元结构间的搜索,这里均采用上述通用的基于梯度的结构搜索方式进行。对于元结构内部的结构搜索,其中α为集合
Figure GDA0004241334200000061
融合后的结果e1,其中/>
Figure GDA0004241334200000062
为前一时刻的隐层状态,/>
Figure GDA0004241334200000063
为当前时刻的输入向量,此外β为1。e1的计算公式如下:
Figure GDA0004241334200000064
其中W(h)和W(x)分别为隐层状态和输入向量的线性变换参数,搜索过程如图3中元结构内结构搜索所示。
而对于元结构之间的结构搜索,则可以分为针对隐层状态的元结构间连接f(·)和针对输入的元结构间连接g(·),二者分别对隐层表示和输入信息进行调整,学习其与前序时刻元结构的连接方式。其中针对隐层状态的元结构间连接学习而言,其输入信息包括前序时刻的输入信息以及前序时刻的隐层状态,按此将送入元结构间结构的信息分为两类,其中α为之前时刻的隐层状态h[0,t-1],β为之前时刻的输入向量x[1,t-1]。同理,而对于针对输入向量的元结构间结构学习输入信息同样为前序时刻的输入信息和隐层表示,α为x[1,t],β为h[0,t-1],搜索过程如图3中元结构间结构搜索所示。
为降低网络搜索过程的复杂度,将二者实际计算方式简化为:
f(h[0,t-1];x[1,t-1])=f′(ht-1;x[t-m,t-1])
g(x[1,t];h[0,t-1])=g′(xt;h[t-m,t-1])
其中m为决定查看多少历史状态的超参数,f′(·)和g′(·)分别为简化后的隐层状态连接计算方式和输入信息连接计算方式。
利用多时刻的输入表示作为门控信息对前一时刻的隐层信息进行调整。而对于针对输入信息的元结构间连接,则使用多时刻的隐藏层表示对输入信息进行调节。
步骤2)主要是对训练过程中元结构内部以及元结构之间的结构参数数值进行归一化操作,该操作将对元结构内部和元结构之间结构中任一边上的所有潜在操作进行归一化操作,最终得到每个操作在该位置上的重要性权重,其计算公式如下:
Figure GDA0004241334200000071
其中
Figure GDA0004241334200000072
为计算操作重要性时的权重矩阵。通过这种方式,原本的离散网络结构即可通过对/>
Figure GDA0004241334200000073
的学习得到。这将使得通过梯度下降的方式对模型结构进行搜索成为可能。
步骤3)主要针对搜索的子空间结构参数以及模型参数进行优化。由于拓展的搜索空间中包括元结构内部结构和元结构之间的连接,因此方法采用联合训练的方式同时对二者进行结构上的优化。具体来说优搜索过程以数据在训练集上的损失值作为优化中的目标,通过梯度下降法对网络结构以及目标参数进行调优。
之后通过对元结构内部以及元结构之间的结构交替进行搜索,通过二者在结构搜索过程中的交互来最终获得整体最优的模型结构,过程如下:
301)当元结构内部结构尚未收敛,在相邻更新时刻依旧发生变化时根据损失值对元结构内部的连接w(inter)和模型中参数W进行更新;
302)当元结构间结构尚未收敛,在相邻更新时刻依旧发生变化时根据损失值对元结构间的连接w(inter)和模型中参数W进行更新;
303)当训练轮数尚未达到设定轮次时重复迭代301)和302)步骤。
步骤4)中将根据搜索到的连续空间结构得到根据不同操作的权重差异得到离散化的最终结构,该搜索结果中包括元结构内部的操作以及元结构之间的操作。具体来说该过程对结构参数w中的值进行排序,得到相应边上最优操作,从而得到最终搜索到的模型结构。
步骤5)中,对搜索到的元结构使用元结构之间的连接方式循环展开,得到整体的模型,使用训练数据对该模型进行参数调优,最终训练到收敛为止,步骤为:
501)对步骤4)中搜索到的结构按照时序进行展开,得到整体的网络结构;
502)对模型搜索过程中的网络参数进行重置,同时对模型中的参数重新初始化;
503)使用全量参数对搜索到的模型结构进行训练,直至模型达到收敛状态为止。
为验证方法的有效性,将基于拓展空间的结构搜索方法在语言建模任务上进行实验。具体来说在WikiText-103单语语料库上对英文进行建模,使用5个激活函数(drop、identity、sigmoid、tanh以及relu)作为结构搜索过程中的候选操作,对于元结构内部结构采用12个中间节点进行搜索,而对于元结构之间的结构设置5个节点。搜索过程在NVIDIA1080Ti设备上进行实验。实验结果如下表所示。
Figure GDA0004241334200000081
实验表明用于命名实体识别的基于拓展搜索空间的结构搜索方法能够在参数量变化不大的前提下大幅度提升模型性能(困惑度越低表示性能越好),方法相较人工设计的网络结构以及受限空间内的搜索均获得了更好模型结构。此外,由于搜索空间的加大,网络结构搜索的耗时相对受限的方法有一定的增加,但由于搜索过程整体收敛较快,因此时间消耗上的增长在可接受范围内。将实验中搜索到的元结构内部链接方式使用有向无环图的方式描绘出来,如图4所示。
将大规模单语数据搜索到的模型结构应用到其他自然语言处理任务上同样可以获得较好性能,这里将WikiText-103集合上搜索到的结构应用到CoNLL-2003命名实体识别任务上,效果如下表所示。
Figure GDA0004241334200000082
实验结构表明将语言模型任务上搜索到的结构应用到命名实体识别任务上同样可以获得更优的效果(F1值越高表示性能越好)。这证明了基于拓展空间的结构搜索方法搜索到的结构具有较强鲁棒性,能够有效在不同任务之间进行迁移,这使得结构预搜索成为可能,为结构搜索方法在低资源任务上的应用提供可能。
本发明提出一种用于命名实体识别的基于拓展搜索空间的结构搜索方法,能够有效学习元结构之间的连接方式,更进一步能够通过联合学习的方式学习包括元结构内部在内的整个网络结构,这种方式能够大大提升模型结构最优解落在搜索结构的表示空间的可能性,从而提升网络结构搜索方法的有效性。与此同时,通过大规模单语数据搜索到的元结构间连接能够有效应用到其他序列到序列任务中,这个预搜索到的模型结构将使得在低资源任务上进行进行结构所搜成为可能。在语言模型任务上进行结构搜索,相较于现有的可微分结构搜索方法获得更好的性能。与此同时,当将搜索到的模型结构应用到命名实体识别任务时,模型也获得了更好的结果。

Claims (5)

1.一种用于命名实体识别的基于拓展搜索空间的结构搜索方法,其特征在于包括以下步骤:
1)处理训练数据并对拓展的网络结构表示空间进行建模并训练,在训练过程中对元结构的内部结构以及元结构之间的结构进行交替训练;
2)对训练过程中元结构内部以及元结构之间的结构参数数值进行归一化操作;
3)同时对搜索的子空间结构参数以及模型参数进行优化,以数据在训练集上的损失值作为优化过程中的目标,通过梯度下降法对网络结构以及目标参数进行调优;
4)得到根据调优后得到的不同操作的权重差异进一步得到离散化的最终结构,包括元结构内部的操作以及元结构之间的操作;
5)对搜索到的元结构使用元结构之间的连接方式循环展开,得到整体的模型,使用训练数据对该模型再次进行参数调优,最终训练到收敛为止;
步骤1)中,通过机器学习方法对元结构内部以及元结构之间神经元的连接方式进行搜索,将离散的网络结构通过赋予不同操作以权重来达到连续优化的目的,对于元结构内部和元结构之间的结构而言,其内部节点输出的计算公式如下:
Figure FDA0004241334190000011
其中Wj是线性变换的参数矩阵,
Figure FDA0004241334190000012
是根据当前位置操作重要性为每条边上操作/>
Figure FDA0004241334190000013
赋予的权重,下标k代表第k个操作,si和sj分别为第i和第j个中间节点的输出;
对于元结构内部和元结构间的结构学习,使用一种更为通用的建模方式,元结构内部或元结构之间的结构最终输出为:
F(α,β)=sα⊙sβ
其中α和β分别为两组输入向量,分别基于α和β对网络结构进行构建,sα和sβ分别为两组网络内部最终的输出节点,将其通过点乘的方式组织起来,F(α,β)为元结构内部或元结构之间的结构最终输出;
对于元结构内部的结构搜索,其中α为集合
Figure FDA0004241334190000014
融合后的结果e1,其中/>
Figure FDA0004241334190000021
为前一时刻的隐层状态,/>
Figure FDA0004241334190000022
为当前时刻的输入向量,此外β为1;e1的计算公式如下:
Figure FDA0004241334190000023
这里W(h)和W(x)分别为隐层状态和输入向量的线性变换参数,h为隐层状态,x为输入向量;
对于元结构之间的结构搜索,分为针对隐层状态的元结构间连接f(·)和针对输入的元结构间连接g(·),其中针对隐层状态的元结构间连接学习而言,实际计算方式分别简化为:
f(h[0,t-1];x[1,t-1])=f′(ht-1;x[t-m,t-1])
g(x[1,t];h[0,t-1])=g′(xt;h[t-m,t-1])
其中m为决定查看多少历史状态的超参数,f′(·)和g′(·)分别为简化后的隐层状态连接计算方式和输入信息连接计算方式;h[0,t-1]为0到t-1时刻的隐层状态,x[1,t]为1到t时刻的输入向量,x[1,t-1]为1到t-1时刻的输入向量,ht-1为t-1时刻的隐层状态,x[t-m,t-1]为t-m到t-1时刻的输入向量,xt为t时刻的输入向量,h[t-m,t-1]为t-m到t-1时刻的隐层状态。
2.按权利要求1所述的用于命名实体识别的基于拓展搜索空间的结构搜索方法,其特征在于:步骤2)中,对训练过程中元结构内部以及元结构之间的结构参数数值进行归一化操作,该操作将对元结构内部和元结构之间结构中任一边上的所有潜在操作进行归一化操作,最终得到每个操作在该位置上的重要性权重,其计算公式如下:
Figure FDA0004241334190000024
其中
Figure FDA0004241334190000025
为计算操作重要性时的权重矩阵,k′代表第k′个操作。
3.按权利要求1所述的用于命名实体识别的基于拓展搜索空间的结构搜索方法,其特征在于步骤3)中,对搜索的子空间结构参数以及模型参数进行优化,以数据在训练集上的损失值作为优化过程中的目标,通过梯度下降法对网络结构以及目标参数进行调优;
之后通过对元结构内部以及元结构之间的结构交替进行搜索,最终获得整体的模型结构,过程如下:
301)当元结构内部结构尚未收敛,在相邻更新时刻依旧发生变化时根据损失值对元结构内部的连接w(intra)和模型中参数W进行更新;
302)当元结构间结构尚未收敛,在相邻更新时刻依旧发生变化时根据损失值对元结构间的连接w(inter)和模型中参数W进行更新;
303)当训练轮数尚未达到设定轮次时重复迭代301)和302)步骤。
4.按权利要求1所述的用于命名实体识别的基于拓展搜索空间的结构搜索方法,其特征在于:步骤4)中,得到根据不同操作的权重差异得到离散化的最终结构,包括元结构内部的操作以及元结构之间的操作,该过程对结构参数w中的值进行排序,得到相应边上最优操作,从而得到最终搜索到的模型结构。
5.按权利要求1所述的用于命名实体识别的基于拓展搜索空间的结构搜索方法,其特征在于:步骤5)中,对搜索到的元结构使用元结构之间的连接方式循环展开,得到整体的模型,使用训练数据对该模型进行参数调优,最终训练到收敛为止,步骤为:
501)对步骤4)中搜索到的结构按照时序进行展开,得到整体的网络结构;
502)对模型搜索过程中的网络参数进行重置,同时对模型中的参数重新初始化;
503)使用全量参数对搜索到的模型结构进行训练,直至模型达到收敛状态为止。
CN201911324181.2A 2019-12-20 2019-12-20 用于命名实体识别的基于拓展搜索空间的结构搜索方法 Active CN111191785B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911324181.2A CN111191785B (zh) 2019-12-20 2019-12-20 用于命名实体识别的基于拓展搜索空间的结构搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911324181.2A CN111191785B (zh) 2019-12-20 2019-12-20 用于命名实体识别的基于拓展搜索空间的结构搜索方法

Publications (2)

Publication Number Publication Date
CN111191785A CN111191785A (zh) 2020-05-22
CN111191785B true CN111191785B (zh) 2023-06-23

Family

ID=70709249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911324181.2A Active CN111191785B (zh) 2019-12-20 2019-12-20 用于命名实体识别的基于拓展搜索空间的结构搜索方法

Country Status (1)

Country Link
CN (1) CN111191785B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761108A (zh) * 2020-06-02 2021-12-07 深信服科技股份有限公司 数据搜索方法、装置、设备及计算机可读存储介质
CN111667055A (zh) * 2020-06-05 2020-09-15 北京百度网讯科技有限公司 用于搜索模型结构的方法和装置
CN111882045B (zh) * 2020-08-12 2023-10-17 北京师范大学 基于可微神经结构搜索的大脑时-空网络分解方法及系统
CN113111668A (zh) * 2021-04-18 2021-07-13 沈阳雅译网络技术有限公司 一种用于翻译任务的语言建模系统结构搜索方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5140530A (en) * 1989-03-28 1992-08-18 Honeywell Inc. Genetic algorithm synthesis of neural networks
JPH08106445A (ja) * 1994-10-05 1996-04-23 Nippon Telegr & Teleph Corp <Ntt> リカレントネットワークの学習装置
CN109063759A (zh) * 2018-07-20 2018-12-21 浙江大学 一种应用于图片多属性预测的神经网络结构搜索方法
CN109783827A (zh) * 2019-01-31 2019-05-21 沈阳雅译网络技术有限公司 一种基于动态线性聚合的深层神经机器翻译方法
CN109933808A (zh) * 2019-01-31 2019-06-25 沈阳雅译网络技术有限公司 一种基于动态配置解码的神经机器翻译方法
CN109948029A (zh) * 2019-01-25 2019-06-28 南京邮电大学 基于神经网络自适应的深度哈希图像搜索方法
CN110543640A (zh) * 2019-08-09 2019-12-06 沈阳雅译网络技术有限公司 一种基于注意力机制神经机器翻译推断加速方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006021574A1 (de) * 2006-05-09 2007-11-15 Airbus Deutschland Gmbh Verfahren zur Performanceverbesserung bei der Bearbeitung eines prozessübergreifenden digitalen Versuchsmodells
US20090089275A1 (en) * 2007-10-02 2009-04-02 International Business Machines Corporation Using user provided structure feedback on search results to provide more relevant search results
US10410118B2 (en) * 2015-03-13 2019-09-10 Deep Genomics Incorporated System and method for training neural networks
US20190204834A1 (en) * 2018-01-04 2019-07-04 Metawave Corporation Method and apparatus for object detection using convolutional neural network systems
CN109284820A (zh) * 2018-10-26 2019-01-29 北京图森未来科技有限公司 一种深度神经网络的结构搜索方法及装置
CN109615073B (zh) * 2018-12-03 2021-06-04 郑州云海信息技术有限公司 一种神经网络模型的构建方法、设备以及存储介质
CN109871537B (zh) * 2019-01-31 2022-12-27 沈阳雅译网络技术有限公司 一种高精度的泰语分句方法
CN110020667A (zh) * 2019-02-21 2019-07-16 广州视源电子科技股份有限公司 神经网络结构的搜索方法、系统、存储介质以及设备
CN109948795B (zh) * 2019-03-11 2021-12-14 驭势科技(北京)有限公司 一种确定网络结构精度和延时优化点的方法和装置
DE202019102260U1 (de) * 2019-04-18 2019-07-31 Albert-Ludwigs-Universität Freiburg Vorrichtung zum Erstellen eines neuronalen Netzes

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5140530A (en) * 1989-03-28 1992-08-18 Honeywell Inc. Genetic algorithm synthesis of neural networks
JPH08106445A (ja) * 1994-10-05 1996-04-23 Nippon Telegr & Teleph Corp <Ntt> リカレントネットワークの学習装置
CN109063759A (zh) * 2018-07-20 2018-12-21 浙江大学 一种应用于图片多属性预测的神经网络结构搜索方法
CN109948029A (zh) * 2019-01-25 2019-06-28 南京邮电大学 基于神经网络自适应的深度哈希图像搜索方法
CN109783827A (zh) * 2019-01-31 2019-05-21 沈阳雅译网络技术有限公司 一种基于动态线性聚合的深层神经机器翻译方法
CN109933808A (zh) * 2019-01-31 2019-06-25 沈阳雅译网络技术有限公司 一种基于动态配置解码的神经机器翻译方法
CN110543640A (zh) * 2019-08-09 2019-12-06 沈阳雅译网络技术有限公司 一种基于注意力机制神经机器翻译推断加速方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于LSTM RNNLM的N-best重打分算法;李华;屈丹;范正光;张文林;;信息工程大学学报(第04期);全文 *

Also Published As

Publication number Publication date
CN111191785A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN111191785B (zh) 用于命名实体识别的基于拓展搜索空间的结构搜索方法
Cai et al. Path-level network transformation for efficient architecture search
Gholizadeh et al. Optimal design of structures subjected to time history loading by swarm intelligence and an advanced metamodel
CN110851566B (zh) 一种应用于命名实体识别的可微分网络结构搜索的方法
CN109241291A (zh) 基于深度强化学习的知识图谱最优路径查询系统及其方法
CN110297490B (zh) 基于强化学习算法的异构模块化机器人自重构规划方法
CN108573303A (zh) 一种基于改进强化学习的复杂网络局部破坏的自改进恢复策略
CN112699247A (zh) 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN110427965A (zh) 基于进化策略的卷积神经网络结构简约及图像分类方法
CN104504442A (zh) 神经网络优化方法
CN111553469A (zh) 一种无线传感器网络数据融合方法、装置和存储介质
CN113807040B (zh) 一种面向微波电路的优化设计方法
CN114692310A (zh) 一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法
CN112463987A (zh) 一种中国古典园林知识图谱补全与认知推理方法
CN113469891A (zh) 一种神经网络架构搜索方法、训练方法、图像补全方法
CN113033218B (zh) 一种基于神经网络结构搜索的机器翻译译文质量评估方法
Li et al. Morphing Strategy Design for UAV based on Prioritized Sweeping Reinforcement Learning
CN112836617B (zh) 一种基于ipso-bpnn的长时人体下肢运动预测方法
Ding et al. Simplified space based neural architecture search
Zhan et al. Dueling network architecture for multi-agent deep deterministic policy gradient
CN112183777A (zh) 一种基于深度强化学习的复杂网络局部破坏控制方法
Lu et al. Apso-based optimization algorithm of lstm neural network model
Tang et al. Deep sparse representation via deep dictionary learning for reinforcement learning
CN113807005A (zh) 基于改进fpa-dbn的轴承剩余寿命预测方法
Zhang et al. Aoam: Automatic optimization of adjacency matrix for graph convolutional network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Du Quan

Inventor before: Du Quan

Inventor before: Zhu Jingbo

Inventor before: Xiao Tong

Inventor before: Zhang Chunliang

GR01 Patent grant
GR01 Patent grant