CN110851566A - 一种改进的可微分网络结构搜索的方法 - Google Patents

一种改进的可微分网络结构搜索的方法 Download PDF

Info

Publication number
CN110851566A
CN110851566A CN201911067765.6A CN201911067765A CN110851566A CN 110851566 A CN110851566 A CN 110851566A CN 201911067765 A CN201911067765 A CN 201911067765A CN 110851566 A CN110851566 A CN 110851566A
Authority
CN
China
Prior art keywords
training
network
parameters
meta
differentiable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911067765.6A
Other languages
English (en)
Other versions
CN110851566B (zh
Inventor
杜权
许诺
朱靖波
肖桐
张春良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENYANG YAYI NETWORK TECHNOLOGY Co Ltd
Original Assignee
SHENYANG YAYI NETWORK TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENYANG YAYI NETWORK TECHNOLOGY Co Ltd filed Critical SHENYANG YAYI NETWORK TECHNOLOGY Co Ltd
Priority to CN201911067765.6A priority Critical patent/CN110851566B/zh
Publication of CN110851566A publication Critical patent/CN110851566A/zh
Application granted granted Critical
Publication of CN110851566B publication Critical patent/CN110851566B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种改进的可微分的网络结构搜索方法,步骤为:处理训练语料并对可微分网络结构搜索的方法进行建模并训练,在训练过程中对元结构进行选择;对训练过程中元结构的结构参数数值进行全局归一化操作;对元结构中的网络参数与结构参数进行双层优化,以训练集与校验集的损失值为优化过程的目标函数,通过反向传播梯度数值对网络参数与结构参数进行调整;对训练结束后的元结构的结构参数进行排序,保留权重最大的操作,该搜索结果作为搜索的元结构;对搜索得到的元结构进行循环展开进而生成模型,使用训练数据对模型进行训练直至收敛。本发明减少网络中局部偏置的影响,增大了搜索覆盖度,相较于现有的可微分结构搜索方法均取得了较好的结果。

Description

一种改进的可微分网络结构搜索的方法
技术领域
本发明涉及一种神经结构搜索技术,具体为一种改进的可微分网络结构搜索的方法。
背景技术
深度学习在自然语言处理、图像识别、语音识别等多个领域中都取得的巨大成功。这与深度神经网络结构的设计有着密不可分的关系,目前绝大多数网络结构的设计都是根据先验知识进行人工设计的。在这种情况下,自动生成神经网络结构的方法引起了大量研究人员的关注。人们通常把自动生成神经网络结构的方法叫做网络结构搜索,它也是自动机器学习领域中的一个研究课题,与超参数学习和元学习有一定的关联。结构搜索的研究大致可以分为搜索空间、搜索策略以及结构性能的质量评价三个方面。
搜索空间指的是网络结构搜索中结构的候选集合。通常来说,搜索空间越大,搜索过程越慢。人们可以通过外部先验知识指导搜索空间的设计,从而减小搜索空间,简化搜索过程。但是由于人类认知的限制,这样做也可能对发现新的网络结构造成限制。
搜索策略是指如何在庞大的搜索空间中进行有效快速的搜索。在搜索的过程中,人们需要考虑如何快速的搜索到最优的网络结构,同时需要避免在搜索过程中搜到局部最优的网络结构。
网络结构搜索的目的是要搜到一个性能优异的结构,评价一个结构的性能,最常用的方法就是使用这个结构,在标准的数据集上进行训练,收敛之后使用校验集来进行评价。但是对于搜索过程中的每一个结构都进行上述流程,需要耗费大量的计算资源。如何降低结构质量评价过程中的资源消耗,同时保证质量评价结果的可参考性也是人们正在研究的课题。
而进行结构搜索的方法也可以大致分为三种方法:基于强化学习的结构搜索方法、基于进化算法的结构搜索方法以及基于梯度的结构搜索方法。
基于强化学习的结构搜索算法将神经网络结构设计看作一个强化学习问题,学习得到一个产生网络结构的最优策略。其中智能体是设计神经网络结构的算法,用于输出神经网络结构描述,强化学习算法使得生成的神经网络的性能最优化。为了用强化学习求解,可以将神经网络的设计看做一个动作序列,每次执行动作确定网络的一部分结构如层。神经网络在验证集上的性能值是强化学习中的奖励值。
使用进化算法求解结构搜索的思路是将子网络结构编码成二进制串,运行进化算法得到适应度函数值(神经网络在验证集上的性能)最大的网络结构,即为最优解。首先随机初始化若干个子网络作为初始解。进化算法在每次迭代时首先训练所有子网络,然后计算适应度值。接下来随机选择一些子网络进行交叉操作或者突变操作,变异生成下一代子网络,然后训练这些子网络,重复这一过程,最后找到最优子网络。
基于梯度的结构搜索方法同样也被称为可微分的结构搜索方法,与上述的基于强化学习的结构搜索方法和基于进化算法的结构搜索方法不同,该方法针对上述两种方法的黑箱优化问题进行了调整。基于梯度的结构搜索方法将网络结构搜索转化为连续空间的优化问题,采用梯度下降法求解,可高效地搜索神经网络架构,同时得到网络的权重参数。对结构搜索问题进行松弛,转化为连续变量优化问题。目标函数是可导的,能够用梯度下降法求解,同时得到网络结构和权重等参数。算法寻找计算单元,作为最终网络结构的基本构建块。这些单元可以堆积形成卷积神经网络,递归连接形成循环神经网络。
尽管可微分的网络结构搜索在保证网络性能的前提下,大大提高了搜索效率,但该方法仍存在一定的问题。由于该方法搜索空间的定义,把搜索的单元看作是一个有向无环图,图中包含多个节点,每两个节点之间又包含多种线性变换、非线性变换,导致搜索中的网络结构异常复杂。因此,可微分的网络结构搜索方法表现不稳定,在联合训练过程中收敛速度较慢,甚至无法收敛,同时使用该方法搜索得到多个网络结构,性能差距较大。
发明内容
针对现有技术中网络结构异常复杂、可微分的网络结构搜索方法表现不稳定,在联合训练过程中收敛速度较慢,甚至无法收敛等不足,本发明要解决的技术问题是提供一种改进的可微分网络结构搜索的方法。
为解决上述技术问题,本发明采用的技术方案是:
本发明一种改进的可微分的网络结构搜索方法,包括以下步骤:
1)处理训练语料并对可微分网络结构搜索的方法进行建模,利用单语语料生成单语词表,使用处理后的语料对结构搜索模型进行训练,在训练过程中对元结构进行选择;
2)对训练过程中元结构的结构参数数值进行全局归一化操作;
3)对元结构中的网络参数与结构参数进行双层优化,以训练集与校验集的损失值作为优化过程的目标函数,通过反向传播梯度数值对网络参数与结构参数进行调整;
4)对训练结束后的元结构的结构参数进行排序,保留权重最大的操作,以此搜索结果作为搜索的元结构;
5)对搜索得到的元结构进行循环展开进而生成模型,使用训练数据对模型进行训练直至收敛。
步骤1)中,采用机器自主学习的方式对训练过程中的元结构进行选择,同时对元结构内部的离散操作赋予结构参数,使其性质由离散变为可微分,元结构内部节点输出结果计算公式为:
Figure BDA0002259939880000031
其中
Figure BDA0002259939880000032
为第i个节点与第j个节点间的第k个操作的结构权重,
Figure BDA0002259939880000033
为第i个节点与第j个节点间的第k个操作,sj为第j个节点的输出,Wj为第j个节点的节点参数,si为第i个节点的输出结果。
步骤2)中对训练过程中元结构的结构参数数值进行全局归一化操作为:对所有节点先前的节点输出与其对应的操作进行全局归一化操作,其归一化结果计算公式如下:
Figure BDA0002259939880000034
步骤3)中,对元结构中的网络参数与结构参数进行双层优化为:计算元结构在训练数据与校验数据上的损失值,并以此对网络参数与结构参数使用梯度下降的方式进行双层优化,具体为:
301)根据节点输出计算公式,使用交叉熵公式计算元结构在训练数据上的损失值,交叉熵公式为:
Figure BDA0002259939880000035
其中p(i)为当前元结构的输出分布,q(i)为真实分布;
302)根据元结构的在训练数据集上的损失值对网络参数与结构参数进行双层优化,其中对于网络参数的优化公式为:
其中w为元结构的网络参数,α为元结构的结构参数;在训练数据集中对w进行调整,使训练集损失值最小的w作为元结构的网络参数的最优值,在第一轮训练过程中,各个节点间的结构权重平均分配,即:
Figure BDA0002259939880000037
其中
Figure BDA0002259939880000041
为第t个节点与第j个节点间的第k个操作的结构权重,n为当前节点与之前所有节点间的操作总数;
303)根据元结构的在训练数据集上的损失值对网络参数与结构参数进行双层优化,其中对于结构参数的优化公式为:
Figure BDA0002259939880000042
Figure BDA0002259939880000043
其中w为元结构的网络参数,α为元结构的结构参数;在训练数据集中对w进行调整,使训练集损失值
Figure BDA0002259939880000044
最小的w作为元结构的网络参数的最优值;然后固定网络参数w,在校验数据集上计算元结构的损失值
Figure BDA0002259939880000045
以此调整结构参数α使元结构在校验数据集上的损失值最小。
步骤4)中,对训练结束后的元结构的结构参数进行排序,在任意两个连接的节点间选择权重最大的操作,最终确定该搜索结构为神经网络搜索出的元结构。
步骤5)中,对搜索得到的结构进行循环展开进而生成模型,使用训练数据集对模型进行训练直至收敛,步骤为:
501)根据步骤4)中神经网络结构搜索出的元结构模型进行循环展开或者堆叠,作为单位结构生成针对任务需求相应的网络结构模型;
502)重置元结构的网络参数,将其全部进行初始化;
503)使用训练数据集对得到的网络结构模型进行训练,直至其收敛。
本发明具有以下有益效果及优点:
1.本发明针对现有的可微分的结构搜索方法进行改进,在网络中加入全局归一化操作,以相同的方式对所有可传入信息操作进行比较,而不是仅对单一节点进行局部决策。此改进不仅减少网络中‘局部偏置’的影响,同时增大了搜索覆盖度。该方法在语言模型任务与命名实体识别任务中,相较于现有的可微分结构搜索方法均取得了较好的结果。
附图说明
图1为本发明中结构搜索方法图示;
图2为本发明中可微分的结构搜索方法示意图;
图3为本发明中对可微分结构搜索方法的改进图示;
图4为本发明在命名实体识别任务中搜索出的元结构图示;
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
本发明改进的可微分的网络结构搜索方法对现有的可微分的网络结构搜索方法进行改进。在网络中加入全局归一化操作,减少网络中‘局部偏置’的影响。本方法提出的针对可微分结构搜索方法的改进,旨在保证网络性能的前提下,进一步提高网络搜索的效率以及稳定性。本发明从减少网络中‘局部偏置’的影响角度对可微分的结构搜索方法进行优化,在同样计算资源消耗和同样数据量的情况下,提升结构搜索性能。
本发明一种改进的可微分的网络结构搜索方法,包括以下步骤:
1)处理训练语料并对可微分网络结构搜索的方法进行建模,利用单语语料生成单语词表,使用处理后的语料对结构搜索模型进行训练,在训练过程中对元结构进行选择;
2)对训练过程中元结构的结构参数数值进行全局归一化操作;
3)对元结构中的网络参数与结构参数进行双层优化,以训练集与校验集的损失值作为优化过程的目标函数,通过反向传播梯度数值对网络参数与结构参数进行调整;
4)对训练结束后的元结构的结构参数进行排序,保留权重最大的操作,以此搜索结果作为搜索的元结构;
5)对搜索得到的元结构进行循环展开进而生成模型,使用训练数据对模型进行训练直至收敛。
步骤1)中,采用机器自主学习的方式对训练过程中的元结构进行选择,同时对元结构内部的离散操作赋予结构参数,使其性质由离散变为可微分,元结构内部节点输出结果计算公式为:
Figure BDA0002259939880000051
其中为第i个节点与第j个节点间的第k个操作的结构权重,为第i个节点与第j个节点间的第k个操作,sj为第j个节点的输出,Wj为第j个节点的节点参数,si为第i个节点的输出结果。
本步骤中,需要得到处理好的单语数据,然后需要对基于梯度神经结构搜索方法进行建模,可微分结构搜索方法建模如图1所示。
针对本发明进行结构搜索的循环神经网络其中的元结构,对于输入序列{x1...xL},通过循环神经单元获得每个时刻的状态输出{h1...hL}。这样每个循环单元就可以表示成:ht=g(xt,ht-1),其中t为时刻,g(·,·)为循环神经单元内部的变换操作。结构搜索的目的就是通过自动的方法找到一个性能优秀的g(·,·)。
步骤2)中对训练过程中元结构的结构参数数值进行全局归一化操作为:对所有节点先前的节点输出与其对应的操作进行全局归一化操作,其归一化结果计算公式如下:
Figure BDA0002259939880000061
现有的可微分结构搜索的方法如图2所示,该方法仅针对先前的单一节点进行归一化计算,该方法存在较强的“局部偏置”性,本发明对可微分的结构搜索方法进行改进,如图3所示,本发明使用全局归一化操作代替局部归一化操作,减少局部偏置的同时提升搜索空间覆盖度,使得网络推断更具全面性与科学性。
步骤3)中,对元结构中的网络参数与结构参数进行双层优化为:计算元结构在训练数据与校验数据上的损失值,并以此对网络参数与结构参数使用梯度下降的方式进行双层优化,具体为:
301)根据节点输出计算公式,使用交叉熵公式计算元结构在训练数据上的损失值,交叉熵公式为:
Figure BDA0002259939880000062
其中p(i)为当前元结构的输出分布,q(i)为真实分布;
302)根据元结构的在训练数据集上的损失值对网络参数与结构参数进行双层优化,其中对于网络参数的优化公式为:
Figure BDA0002259939880000063
其中w为元结构的网络参数,α为元结构的结构参数;在训练数据集中对w进行调整,使训练集损失值最小的w作为元结构的网络参数的最优值,在第一轮训练过程中,各个节点间的结构权重平均分配,即:
Figure BDA0002259939880000064
其中
Figure BDA0002259939880000065
为第i个节点与第j个节点间的第k个操作的结构权重,n为当前节点与之前所有节点间的操作总数;
303)根据元结构的在训练数据集上的损失值对网络参数与结构参数进行双层优化,其中对于结构参数的优化公式为:
Figure BDA0002259939880000066
Figure BDA0002259939880000071
步骤303)的优化过程是在步骤302)的基础上进行,其中w为元结构的网络参数,α为元结构的结构参数;在训练数据集中对w进行调整,使训练集损失值
Figure BDA0002259939880000072
最小的w作为元结构的网络参数的最优值;然后固定网络参数w,在校验数据集上计算元结构的损失值
Figure BDA0002259939880000073
以此调整结构参数α使元结构在校验数据集上的损失值最小。
在实际操作中,为节省计算资源并提升效率,可微分的结构搜索方法对w采用局部最优解的方式,使用这种方式对w的全局最优解进行近似。
步骤4)中,对训练结束后的元结构的结构参数进行排序,在任意两个连接的节点间选择权重最大的操作,最终确定该搜索结构为神经网络搜索出的元结构。
步骤5)中,对搜索得到的结构进行循环展开进而生成模型,使用训练数据集对模型进行训练直至收敛,步骤为:
501)根据步骤4)中神经网络结构搜索出的元结构模型进行循环展开或者堆叠,作为单位结构生成针对任务需求相应的网络结构模型;
502)重置元结构的网络参数,将其全部进行初始化;
503)使用训练数据集对得到的网络结构模型进行训练,直至其收敛,并在校验数据集上对模型进行性能评估。
现有的可微分的神经结构搜索方法,放弃使用传统的基于强化学习的结构搜索方法与基于进化算法的结构搜索方法,此方法针对以往的黑箱优化问题,使用结构参数的方式予以解决,并将以往离散的搜索空间松弛化,使结构搜索工程实现可微分的效果,极大的节省了计算资源与搜索时间,然而现有的可微分的结构搜索方法存在较强局部偏置的影响,在搜索过程中仅对单一节点局部决策,影响最终搜索出的元结构性能。本发明针对现有的可微分的结构搜索方法进行改进,在网络中加入全局归一化操作,以相同的方式对所有可传入信息操作进行比较,而不是仅对单一节点进行局部决策。此改进不仅减少网络中‘局部偏置’的影响,同时增大了搜索覆盖度。该方法在语言模型任务与命名实体识别任务中,相较于现有的可微分结构搜索方法均取得了较好的结果。
在使用上述方法搜索出高性能的循环神经网络结构后,本实施例将其应用于命名实体识别任务。命名实体识别任务是对文本进行标注,识别出其中的专有词汇,如人名、地名和组织机构等。本发明在公开数据集CoNLL2003英语命名实体识别任务上进行了实验,该数据集中有四种实体,包括人名、地名、组织机构和未归类实体。下面对实验流程进行介绍,包括数据处理、模型训练和模型效果验证。
在命名实体识别任务中,最广泛的衡量指标包括:
(1)精确率(Precision),即“正确被预测的结果”占“实际被预测到的”的比例,其定义见下式:
(2)召回率(Recall),即“正确被检索的结果”占“应该检索到的结果”的比例,其定义见下式:
其中TP是被正确预测的结果数,TP与FN之和为应该被预测到的结果数。
(3)F1值(F-Measure),见下式:
Figure BDA0002259939880000083
F1值就是精确值和召回率的调和均值,最大值为1,最小值为0。
将搜索到的循环神经网络结构应用于命名实体识别任务,处理训练数据,对模型进行训练直至收敛,步骤为:
A.准备训练数据和测试数据,具体为:将数据处理为“词语|标记”的格式,如原始文本“The European Commission”处理后变成“The|O”,“European|ORG”,“Commission|ORG”,代表其中的“European Commission”被标记为ORG,即组织机构的简称;
B.根据步骤4)中神经网络结构搜索出的元结构模型进行循环展开,作为单位结构生成针对命名实体识别任务需求相应的网络结构模型,如图4所示,xt和ht-1都是当前模型的输入,其中xt为输入的文本,ht-1为上一时刻模型的输出,图中的0-8号节点代表信息在模型中的转换过程,箭头代表了信息传递的方向,线条上的字母代表了不同的操作,如identity为恒等映射,relu为线性整流,最终得到模型的输出ht。为了充分利用文本中的上下文以提升模型识别效果,本方法构造双向的循环神经网络作为最终的模型,包括从左到右的循环神经网络单元和从右到左的循环神经网络单元,其中从左到右指的是按照文本的原始顺序将其作为模型的输入,例如文本“The European Commission”就是按照原始顺序将每个单词进行输入:“The”-“European”-“Commission”;从右到左指的是将原始文本逆序作为模型的输入:“Commission”-“European”-“The”。
C.重置元结构的网络参数,将其全部进行初始化,本方法实验中使用均匀分布初始化方法,它是对称概率分布,在相同长度间隔的分布概率是等可能的。均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b);
D.使用训练数据集对得到的网络结构模型进行训练,直到在测试数据上的得分,即F1分数不再上升为止。本方法使用随机梯度下降法作为模型的优化方法,学习率设置为0.1,使用训练数据训练100轮,在训练过程中,每过5轮在测试数据上进行检验,得到其F1分数。
本方法搜索出的结构如图4所示,最终在命名实体识别任务上取得了0.9347的F1分数,而此前最好的结果为0.9318,本方法大幅度提高了现有的命名实体识别模型效果。

Claims (6)

1.一种改进的可微分的网络结构搜索方法,其特征在于包括以下步骤:
1)处理训练语料并对可微分网络结构搜索的方法进行建模,利用单语语料生成单语词表,使用处理后的语料对结构搜索模型进行训练,在训练过程中对元结构进行选择;
2)对训练过程中元结构的结构参数数值进行全局归一化操作;
3)对元结构中的网络参数与结构参数进行双层优化,以训练集与校验集的损失值作为优化过程的目标函数,通过反向传播梯度数值对网络参数与结构参数进行调整;
4)对训练结束后的元结构的结构参数进行排序,保留权重最大的操作,以此搜索结果作为搜索的元结构;
5)对搜索得到的元结构进行循环展开进而生成模型,使用训练数据对模型进行训练直至收敛。
2.按权利要求1所述的改进的可微分网络结构搜索的方法,其特征在于:步骤1)中,采用机器自主学习的方式对训练过程中的元结构进行选择,同时对元结构内部的离散操作赋予结构参数,使其性质由离散变为可微分,元结构内部节点输出结果计算公式为:
Figure FDA0002259939870000011
其中为第i个节点与第j个节点间的第k个操作的结构权重,
Figure FDA0002259939870000013
为第i个节点与第j个节点间的第k个操作,sj为第j个节点的输出,Wj为第j个节点的节点参数,si为第i个节点的输出结果。
3.按权利要求1所述的改进的可微分网络结构搜索的方法,其特征在于步骤2)中对训练过程中元结构的结构参数数值进行全局归一化操作为:对所有节点先前的节点输出与其对应的操作进行全局归一化操作,其归一化结果计算公式如下:
Figure FDA0002259939870000014
4.按权利要求1所述的改进的可微分网络结构搜索的方法,其特征在于步骤3)中,对元结构中的网络参数与结构参数进行双层优化为:计算元结构在训练数据与校验数据上的损失值,并以此对网络参数与结构参数使用梯度下降的方式进行双层优化,具体为:
301)根据节点输出计算公式,使用交叉熵公式计算元结构在训练数据上的损失值,交叉熵公式为:
Figure FDA0002259939870000021
其中p(i)为当前元结构的输出分布,q(i)为真实分布;
302)根据元结构的在训练数据集上的损失值对网络参数与结构参数进行双层优化,其中对于网络参数的优化公式为:
Figure FDA0002259939870000022
其中w为元结构的网络参数,α为元结构的结构参数;在训练数据集中对w进行调整,使训练集损失值最小的w作为元结构的网络参数的最优值,在第一轮训练过程中,各个节点间的结构权重平均分配,即:
其中
Figure FDA0002259939870000024
为第i个节点与第j个节点间的第k个操作的结构权重,n为当前节点与之前所有节点间的操作总数;
303)根据元结构的在训练数据集上的损失值对网络参数与结构参数进行双层优化,其中对于结构参数的优化公式为:
Figure FDA0002259939870000025
其中w为元结构的网络参数,α为元结构的结构参数;在训练数据集中对w进行调整,使训练集损失值
Figure FDA0002259939870000027
最小的w作为元结构的网络参数的最优值;然后固定网络参数w,在校验数据集上计算元结构的损失值
Figure FDA0002259939870000028
以此调整结构参数α使元结构在校验数据集上的损失值最小。
5.按权利要求1所述的改进的可微分网络结构搜索的方法,其特征在于:步骤4)中,对训练结束后的元结构的结构参数进行排序,在任意两个连接的节点间选择权重最大的操作,最终确定该搜索结构为神经网络搜索出的元结构。
6.按权利要求1所述的改进的可微分网络结构搜索的方法,其特征在于:步骤5)中,对搜索得到的结构进行循环展开进而生成模型,使用训练数据集对模型进行训练直至收敛,步骤为:
501)根据步骤4)中神经网络结构搜索出的元结构模型进行循环展开或者堆叠,作为单位结构生成针对任务需求相应的网络结构模型;
502)重置元结构的网络参数,将其全部进行初始化;
503)使用训练数据集对得到的网络结构模型进行训练,直至其收敛。
CN201911067765.6A 2019-11-04 2019-11-04 一种应用于命名实体识别的可微分网络结构搜索的方法 Active CN110851566B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911067765.6A CN110851566B (zh) 2019-11-04 2019-11-04 一种应用于命名实体识别的可微分网络结构搜索的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911067765.6A CN110851566B (zh) 2019-11-04 2019-11-04 一种应用于命名实体识别的可微分网络结构搜索的方法

Publications (2)

Publication Number Publication Date
CN110851566A true CN110851566A (zh) 2020-02-28
CN110851566B CN110851566B (zh) 2022-04-29

Family

ID=69599697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911067765.6A Active CN110851566B (zh) 2019-11-04 2019-11-04 一种应用于命名实体识别的可微分网络结构搜索的方法

Country Status (1)

Country Link
CN (1) CN110851566B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651989A (zh) * 2020-04-13 2020-09-11 上海明略人工智能(集团)有限公司 命名实体识别方法和装置、存储介质及电子装置
CN111860495A (zh) * 2020-06-19 2020-10-30 上海交通大学 一种层级化网络结构搜索方法、设备及可读存储介质
CN112270194A (zh) * 2020-11-03 2021-01-26 沈阳雅译网络技术有限公司 一种基于梯度神经网络结构搜索的命名实体识别方法
CN112801264A (zh) * 2020-11-13 2021-05-14 中国科学院计算技术研究所 一种动态可微分的空间架构搜索方法与系统
WO2021114625A1 (zh) * 2020-05-28 2021-06-17 平安科技(深圳)有限公司 用于多任务场景的网络结构构建方法和装置
CN113033784A (zh) * 2021-04-18 2021-06-25 沈阳雅译网络技术有限公司 一种针对cpu和gpu设备搜索神经网络结构的方法
CN113094504A (zh) * 2021-03-24 2021-07-09 北京邮电大学 基于自动机器学习的自适应文本分类方法及装置
CN113111668A (zh) * 2021-04-18 2021-07-13 沈阳雅译网络技术有限公司 一种用于翻译任务的语言建模系统结构搜索方法
CN113361575A (zh) * 2021-05-28 2021-09-07 北京百度网讯科技有限公司 模型训练方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919299A (zh) * 2019-02-19 2019-06-21 西安交通大学 一种基于元学习器逐步梯度校正的元学习算法
CN109978142A (zh) * 2019-03-29 2019-07-05 腾讯科技(深圳)有限公司 神经网络模型的压缩方法和装置
CN110020667A (zh) * 2019-02-21 2019-07-16 广州视源电子科技股份有限公司 神经网络结构的搜索方法、系统、存储介质以及设备
DE202019102260U1 (de) * 2019-04-18 2019-07-31 Albert-Ludwigs-Universität Freiburg Vorrichtung zum Erstellen eines neuronalen Netzes
CN110175671A (zh) * 2019-04-28 2019-08-27 华为技术有限公司 神经网络的构建方法、图像处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919299A (zh) * 2019-02-19 2019-06-21 西安交通大学 一种基于元学习器逐步梯度校正的元学习算法
CN110020667A (zh) * 2019-02-21 2019-07-16 广州视源电子科技股份有限公司 神经网络结构的搜索方法、系统、存储介质以及设备
CN109978142A (zh) * 2019-03-29 2019-07-05 腾讯科技(深圳)有限公司 神经网络模型的压缩方法和装置
DE202019102260U1 (de) * 2019-04-18 2019-07-31 Albert-Ludwigs-Universität Freiburg Vorrichtung zum Erstellen eines neuronalen Netzes
CN110175671A (zh) * 2019-04-28 2019-08-27 华为技术有限公司 神经网络的构建方法、图像处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HANXIAO LIU: "DARTS:Differentiable Architecture Search", 《CORNELL UNIVERSITY EXPORT.ARVIX.ORG>CS>MACHINE LEARNING》 *
WU, BICHEN,ETC: "FBNet: Hardware-Aware Efficient ConvNet Design via Differentiable Neural Architecture Search", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2019)》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651989A (zh) * 2020-04-13 2020-09-11 上海明略人工智能(集团)有限公司 命名实体识别方法和装置、存储介质及电子装置
CN111651989B (zh) * 2020-04-13 2024-04-02 上海明略人工智能(集团)有限公司 命名实体识别方法和装置、存储介质及电子装置
WO2021114625A1 (zh) * 2020-05-28 2021-06-17 平安科技(深圳)有限公司 用于多任务场景的网络结构构建方法和装置
CN111860495B (zh) * 2020-06-19 2022-05-17 上海交通大学 一种层级化网络结构搜索方法、设备及可读存储介质
CN111860495A (zh) * 2020-06-19 2020-10-30 上海交通大学 一种层级化网络结构搜索方法、设备及可读存储介质
CN112270194A (zh) * 2020-11-03 2021-01-26 沈阳雅译网络技术有限公司 一种基于梯度神经网络结构搜索的命名实体识别方法
CN112270194B (zh) * 2020-11-03 2023-07-18 沈阳雅译网络技术有限公司 一种基于梯度神经网络结构搜索的命名实体识别方法
CN112801264A (zh) * 2020-11-13 2021-05-14 中国科学院计算技术研究所 一种动态可微分的空间架构搜索方法与系统
CN112801264B (zh) * 2020-11-13 2023-06-13 中国科学院计算技术研究所 一种动态可微分的空间架构搜索方法与系统
CN113094504A (zh) * 2021-03-24 2021-07-09 北京邮电大学 基于自动机器学习的自适应文本分类方法及装置
CN113111668A (zh) * 2021-04-18 2021-07-13 沈阳雅译网络技术有限公司 一种用于翻译任务的语言建模系统结构搜索方法
CN113033784A (zh) * 2021-04-18 2021-06-25 沈阳雅译网络技术有限公司 一种针对cpu和gpu设备搜索神经网络结构的方法
CN113361575A (zh) * 2021-05-28 2021-09-07 北京百度网讯科技有限公司 模型训练方法、装置和电子设备
CN113361575B (zh) * 2021-05-28 2023-10-20 北京百度网讯科技有限公司 模型训练方法、装置和电子设备

Also Published As

Publication number Publication date
CN110851566B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN110851566B (zh) 一种应用于命名实体识别的可微分网络结构搜索的方法
CN111310438B (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN112633010B (zh) 基于多头注意力和图卷积网络的方面级情感分析方法及系统
CN112015868B (zh) 基于知识图谱补全的问答方法
CN103207856A (zh) 一种本体概念及层次关系生成方法
CN105740310B (zh) 一种用于问答系统中的自动答案摘要方法及系统
CN113780002A (zh) 基于图表示学习和深度强化学习的知识推理方法及装置
CN113204674B (zh) 基于局部-整体图推理网络的视频-段落检索方法及系统
CN110796233A (zh) 基于迁移学习的深度残差卷积神经网络的自适应压缩方法
CN110765582A (zh) 基于马尔可夫链的自组织中心K-means微电网场景划分方法
CN112464611A (zh) 一种基于云端协同智能处理的pcb自动布线系统
CN110489616A (zh) 一种基于Ranknet和Lambdamart算法的搜索排序方法
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
CN114579605B (zh) 表格问答数据处理方法、电子设备及计算机存储介质
Wu et al. Set pair fuzzy decision method based on cloud model
CN116226547A (zh) 基于流式数据的增量图推荐方法
CN113033218B (zh) 一种基于神经网络结构搜索的机器翻译译文质量评估方法
Zeng et al. Modeling complex relationship paths for knowledge graph completion
CN114969279A (zh) 一种基于层次图神经网络的表格文本问答方法
Chetoui et al. Course recommendation model based on Knowledge Graph Embedding
Deng et al. A progressive predictor-based quantum architecture search with active learning
CN113268962B (zh) 面向建筑行业信息化服务问答系统的文本生成方法和装置
CN117133116B (zh) 一种基于时空关联网络的交通流预测方法及系统
He et al. HDGCN: Dual-channel graph convolutional network with higher-order information for robust feature learning
CN116049449A (zh) 一种基于深度学习的技术溯源的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Du Quan

Inventor after: Xu Nuo

Inventor before: Du Quan

Inventor before: Xu Nuo

Inventor before: Zhu Jingbo

Inventor before: Xiao Tong

Inventor before: Zhang Chunliang

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Differentiable Network Structure Search Method Applied to Named Entity Recognition

Effective date of registration: 20230508

Granted publication date: 20220429

Pledgee: China Construction Bank Shenyang Hunnan sub branch

Pledgor: SHENYANG YAYI NETWORK TECHNOLOGY CO.,LTD.

Registration number: Y2023210000101

PE01 Entry into force of the registration of the contract for pledge of patent right