CN111667055A - 用于搜索模型结构的方法和装置 - Google Patents

用于搜索模型结构的方法和装置 Download PDF

Info

Publication number
CN111667055A
CN111667055A CN202010503074.2A CN202010503074A CN111667055A CN 111667055 A CN111667055 A CN 111667055A CN 202010503074 A CN202010503074 A CN 202010503074A CN 111667055 A CN111667055 A CN 111667055A
Authority
CN
China
Prior art keywords
model structure
model
performance
relation
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010503074.2A
Other languages
English (en)
Inventor
希滕
张刚
温圣召
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010503074.2A priority Critical patent/CN111667055A/zh
Publication of CN111667055A publication Critical patent/CN111667055A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了用于搜索模型结构的方法和装置,涉及人工智能、深度学习和图像处理技术领域。该方法包括:确定模型结构的搜索空间;构建表征模型结构与模型结构的性能之间的关系的关系模型,并通过多轮训练操作更新关系模型;训练操作包括:从模型结构的搜索空间采样出至少一个候选模型结构,基于样本数据对候选模型结构进行训练,测试训练后的候选模型结构的性能;基于训练后的候选模型结构以及训练后的候选模型结构的性能训练关系模型;响应于确定当前训练完成的关系模型满足预设的收敛条件,基于预设的性能约束条件,利用当前训练完成的关系模型确定出满足预设的性能约束条件的目标模型结构。采用本方法可以提高搜索模型结构的搜索效率。

Description

用于搜索模型结构的方法和装置
技术领域
本公开的实施例涉及计算机技术领域,具体涉及人工智能、深度学习和图像处理技术领域,尤其涉及用于搜索模型结构的方法和装置。
背景技术
深度学习技术在很多方向上都取得了巨大的成功。在深度学习技术中,模型结构(即,神经网络的结构)的好坏对最终模型的效果有非常重要的影响。然而,人工设计模型结构需要设计者具有非常丰富的经验并且需要搜索各种组合方式,由于众多网络参数会产生爆炸式的组合方式,常规的随机搜索几乎不可行。因此,最近几年神经网络架构搜索技术(Neural Architecture Search,简称NAS)成为研究热点,其利用算法代替繁琐的人工操作来自动搜索最佳的模型结构。
现有的基于NAS的模型结构自动搜索方法在搜索任务/任务约束发生变化时,需要重新进行模型结构搜索,会耗费大量的搜索资源成本以及搜索时间成本。
发明内容
本公开提供了一种用于搜索模型结构的方法、装置、电子设备以及计算机可读存储介质。
根据本公开的第一方面,提供了一种用于搜索模型结构的方法,该方法包括:
确定模型结构的搜索空间;构建表征模型结构与模型结构的性能之间的关系的关系模型,并通过多轮训练操作更新关系模型;训练操作包括:从模型结构的搜索空间采样出至少一个候选模型结构,基于样本数据对候选模型结构进行训练,测试训练后的候选模型结构的性能;基于训练后的候选模型结构以及训练后的候选模型结构的性能训练关系模型;响应于确定当前训练完成的关系模型不满足预设的收敛条件,基于当前训练完成的关系模型执行下一次训练操作;响应于确定当前训练完成的关系模型满足预设的收敛条件,基于预设的性能约束条件,利用当前训练完成的关系模型确定出满足预设的性能约束条件的目标模型结构。
根据本公开的第二方面,提供了一种用于搜索模型结构的装置,该装置包括:确定单元,被配置为确定模型结构的搜索空间;更新单元,被配置为构建表征模型结构与模型结构的性能之间的关系的关系模型,并通过多轮训练操作更新关系模型;更新单元包括:测试单元,被配置为执行训练操作中的如下操作:从模型结构的搜索空间采样出至少一个候选模型结构,基于样本数据对候选模型结构进行训练,测试训练后的候选模型结构的性能;训练单元,被配置为执行训练操作中的如下操作:基于训练后的候选模型结构以及训练后的候选模型结构的性能训练关系模型;迭代单元,被配置为执行训练操作中的如下操作:响应于确定当前训练完成的关系模型不满足预设的收敛条件,基于当前训练完成的关系模型执行下一次训练操作;搜索单元,被配置为执行训练操作中的如下操作:响应于确定当前训练完成的关系模型满足预设的收敛条件,基于预设的性能约束条件,利用当前训练完成的关系模型确定出满足预设的性能约束条件的目标模型结构。
根据本公开的第三方面,本公开的实施例提供了一种电子设备,包括:一个或多个处理器:存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面提供的用于搜索模型结构的方法。
根据本公开的第四方面,本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,程序被处理器执行时实现第一方面提供的用于搜索模型结构的方法。
本公开提供的用于搜索模型结构的方法、装置通过构建模型结构与模型结构的性能之间的关系,可以根据性能需求、不经过重复搜索即可确定出符合性能需求的模型结构,从而减少了搜索资源成本以及搜索时间成本的消耗。
根据本申请的技术解决了重复搜索模型结构导致搜索资源成本以及搜索时间成本浪费的问题。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请的实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的用于搜索模型结构的方法的一个实施例的流程图;
图3是根据本申请的用于搜索模型结构的方法的另一个实施例的流程图;
图4是根据本申请的用于搜索模型结构的装置的一个实施例的结构示意图;
图5是用来实现本申请实施例的用于搜索模型结构的方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1示出了可以应用本申请的用于搜索模型结构的方法或用于搜索模型结构的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用,例如图像分类应用、信息分类应用、搜索类应用、购物类应用、金融类应用等。
终端设备101、102、103可以是具有显示屏并且支持接收服务器消息的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是为终端设备101、102、103上运行的应用提供后台服务的服务器,或者可以是为终端设备101、102、103上运行的神经网络模型提供支持的服务器。服务器105可以从终端设备101、102、103获取待处理的数据,利用神经网络模型对待处理的数据进行处理,并将处理结果返回终端设备101、102、103。服务器105可以从终端设备101、102、103或数据库获取性能约束条件,并将基于性能约束条件搜索的神经网络模型发送至终端设备101、102、103。服务器105还可以利用从终端设备101、102、103或数据库获取的图像数据、语音数据、文本数据等媒体数据训练执行各种深度学习任务(如图像处理、语音识别、文本翻译等)的神经网络模型,并将训练完成的神经网络模型发送至终端设备101、102、103。或者,服务器105可以基于要执行的深度学习任务、自动搜索出性能良好的神经网络模型结构,并基于媒体数据训练搜索出的神经网络模型结构。
需要说明的是,本公开的实施例所提供用于搜索模型结构的方法一般由服务器105执行,相应地,用于搜索模型结构的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本公开的用于搜索模型结构的方法的一个实施例的流程200。用于搜索模型结构的方法,包括以下步骤:
步骤201,确定模型结构的搜索空间。
在本实施例中,用于搜索模型结构的方法的执行主体(例如图1所示的服务器)可以首先确定能够用于执行预设任务的模型结构的搜索空间。在这里,预设任务可以是基于媒体数据的分类任务或回归任务。模型结构的搜索空间可以由模型结构的基本构建单元组成,对这些基本构建单元进行采样、堆叠、连接可以形成完整的候选模型结构。
步骤202,构建表征模型结构与模型结构的性能之间的关系的关系模型,并通过多轮训练操作更新关系模型。
在本实施例中,关系模型用于表征模型结构与模型结构的性能之间的关系。模型结构与其性能之间的关系可以表征为模型结构的编码与根据该编码按照编码逻辑(或规则)进行解码得到的模型结构的性能之间的关系,可以是模型结构的底层编码序列与根据该编码序列生成的模型结构的性能之间的关系,等等可以对模型结构的特点/特征进行形式化表述的信息与模型结构的性能之间的关系。关系模型可以是神经网络模型,可以是概率模型等数学模型,也可以是模型结构与其性能之间的关系的映射集合。
在本实施例中,可以采用神经网络构建模型结构与其性能之间的关系模型,也可以采用数学算法等建模方法构建模型结构与其性能之间的关系模型,之后通过多轮训练操作更新关系模型,直到训练操作结束,根据更新后的关系模型确定目标模型结构。
训练操作包括步骤2021、步骤2022、步骤2023、步骤2024:
步骤2021,从模型结构的搜索空间采样出至少一个候选模型结构,基于样本数据对候选模型结构进行训练,测试训练后的候选模型结构的性能。
在本实施例中,可以对模型结构的搜索空间进行采样,得到候选模型结构,然后利用样本数据对候选模型结构进行训练,直到候选模型结构收敛,测试收敛后的候选模型结构的性能。
训练数据可以是服务器通过终端设备获取的样本数据,可以是服务器读取本地存储或知识库获取的训练数据,或者通过互联网等途径获取的训练数据。判断候选模型结构是否收敛的依据可以是:判断预设的性能收敛指标是否达到预设收敛阈值,例如,针对分类任务,预设分类准确率为收敛指标、90%为收敛阈值,则当候选模型结构的分类准确率达到90%时,判定候选模型结构收敛。判断候选模型结构是否收敛的方法还可以是判断对候选模型结构的训练次数或训练时间是否达到预设值。
步骤2022,基于训练后的候选模型结构以及训练后的候选模型结构的性能训练关系模型。
在本实施例中,可以通过神经网络等机器学习方法,基于训练后的候选模型结构以及候选模型结构的性能,训练二者之间的关系模型。可以通过数据覆盖等数据更新方法,基于训练后的候选模型结构以及其性能更新二者之间的关系映射集合。
步骤2023,响应于确定当前训练完成的关系模型不满足预设的收敛条件,基于当前训练完成的关系模型执行下一次训练操作。
在本实施例中,若当前训练完成的关系模型不满足预设的收敛条件,则基于当前训练完成的关系模型执行下一次训练操作。预设的收敛条件可以是训练关系模型的训练次数达到预设训练次数,可以是训练关系模型的训练时间达到预设迭代时间,可以是利用当前训练完成的关系模型预测样本模型结构的准确度性能达到预期,也可以是利用当前训练完成的关系模型以及样本性能能够确定出符合性能预期的模型结构。
步骤2024,响应于确定当前训练完成的关系模型满足预设的收敛条件,基于预设的性能约束条件,利用当前训练完成的关系模型确定出满足预设的性能约束条件的目标模型结构。
在本实施例中,若当前训练完成的关系模型满足预设的收敛条件,则结束训练操作,根据预设的性能约束条件,利用当前训练完成的关系模型确定出目标模型结构。其中,预设的性能约束条件可以是用户输入的对目标模型结构的性能要求,例如,对执行分类任务的模型结构的分类准确率的要求、或者对执行图像合成任务的模型结构的生成图像分辨率的要求。预设的性能约束条件也可以是目标模型结构的软/硬件运行环境的约束条件,例如,不同芯片对模型结构的延时要求。具体地,可以将预设的性能约束条件输入进训练完成的关系模型中,经过关系模型的搜索,输出目标模型结构。
本公开提供的用于搜索模型结构的方法,通过构建模型结构与模型结构的性能之间的关系,并执行多轮训练操作优化关系模型,可以根据性能需求、不经过重复搜索即可确定出符合性能需求的模型结构,从而减少了搜索资源成本以及搜索时间成本的消耗。另外,通过本公开的方法可以降低模型结构对硬件环境的依赖性,从而降低了硬件的置换/更新成本。
通过本实施例的方法确定出的目标模型结构可以用于构建执行图像处理等任务的神经网络模型,当图像处理的目标要求(例如图像分类的精确度、图像识别的分类阈值)或者执行图像处理任务的硬件的参数(例如执行图像处理任务的处理器型号、延时时间)发生变化时,不需要进行重复搜索即可确定出符合新需求的模型结构,从而减少了搜索资源成本以及搜索时间成本的消耗。进一步参考图3,其示出了用于搜索模型结构的方法的又一个实施例的流程300。该用于搜索模型结构的方法的流程300,包括以下步骤:
步骤301,确定模型结构的搜索空间。
步骤302,构建表征模型结构与模型结构的特征提取层提取出的特征之间的关系的第一关系模型。
在本实施例中,特征是指用于表征神经网络输入信息的属性的可机读表达式。第一关系模型用于表征模型结构与模型结构的特征提取层提取出的特征之间的关系或联系。模型结构与其特征提取层提取出的特征之间的关系可以是模型结构的编码与根据该编码按照编码逻辑(或规则)进行解码得到的模型结构的特征提取层提取出的特征之间的关系,可以是模型结构的底层编码序列与根据该编码序列生成的模型结构的特征提取层提取出的特征之间的关系,等等。第一关系模型可以是神经网络模型,也可以是概率模型等数学模型。
在本实施例中,可以采用神经网络构建模型结构与其特征提取层提取出的特征之间的关系的第一关系模型。由于模型结构提取的特征的质量对模型结构输出结果的准确性(例如数据分类结果、人脸识别结果)以及模型结构的泛化性等重要性能指标有直接的影响,根据模型结构与模型结构的特征提取层提取出的特征之间的关系构建第一关系模型,并进一步训练并应用第一关系模型确定出目标模型结构,可以提高目标模型结构的输出准确性以及目标模型结构的泛化性。
可选地,第一关系模型表征模型结构与模型结构中的用于将最后一个特征提取层提取出的特征进行连接的全连接层输出的特征之间的关系。
在本实施例中,可以根据模型结构与模型结构中的用于将最后一个特征提取层提取的特征进行连接的全连接层输出的特征之间的关系,构建第一关系模型。也可以根据模型结构与模型结构中的用于将位于神经网络中间层级的特征提取层提取出的特征进行连接的全连接层输出的特征之间的关系,构建第一关系模型。例如,模型结构的神经网络的架构依次为输入层、特征提取层A、全连接层M、特征提取层B、全连接层N、特征提取层C、全连接层P、输出层,那么可以根据模型结构与全连接层P输出的特征之间的关系构建第一关系模型;也可以根据模型结构与全连接层M/全连接层N输出的特征之间的关系构建第一关系模型;还可以根据模型结构与全连接层M、全连接层N、全连接层P输出特征的加权和之间的关系构建第一关系模型。
步骤303,构建表征模型结构的特征提取层提取出的特征与模型结构的性能之间的关系的第二关系模型。
在本实施例中,第二关系模型用于表征模型结构的特征提取层提取出的特征与模型结构性能之间的关系或联系。第二关系模型可以是神经网络模型,也可以是概率模型等数学模型。
在本实施例中,可以采用神经网络构建模型结构的特征提取层提取出的特征与模型结构性能之间的关系的第二关系模型。根据模型结构的特征提取层提取出的特征与模型结构性能之间的关系构建第二关系模型,并进一步训练并应用第二关系模型确定出目标模型结构,可以提高目标模型结构的输出准确性以及泛化性。
可选地,当第一关系模型表征模型结构与模型结构中的用于将最后一个特征提取层提取出的特征进行连接的全连接层输出的特征之间的关系,则第二关系模型表征模型结构中的用于将最后一个特征提取层提取出的特征进行连接的全连接层输出的特征与模型结构的性能之间的关系。
在本实施例中,可以根据模型结构中的用于将最后一个特征提取层提取的特征进行连接的全连接层输出的特征与模型结构性能之间的关系,构建第二关系模型。也可以根据模型结构中的用于将位于神经网络中间层级的特征提取层提取出的特征进行连接的全连接层输出的特征与模型结构性能之间的关系,构建第二关系模型。由于模型结构的将最后一个特征提取层提取出的特征进行连接的全连接层输出的特征包含了该模型结构提取的全部特征,并且这一特征提取层提取的特征相比于中间层级的特征提取层提取出的特征更加精准,根据该层级输出的特征与模型结构性能之间的关系构建第二关系模型,并进一步训练并应用第二关系模型确定出目标模型结构,可以提高目标模型结构的输出准确性的同时减少时间成本。
步骤304,根据第一关系模型与第二关系模型,确定表征模型结构与模型结构的性能之间的关系的关系模型,并通过多轮训练操作更新关系模型。
在本实施例中,可以根据第一关系模型与第二关系模型,构建表征模型结构与模型结构的性能之间的关系的关系模型,具体可以根据第一关系模型与第二关系模型,利用矩阵运算或映射等数学计算方法计算表征模型结构与模型结构的性能之间的关系的关系模型。或者,将第一关系模型与第二关系模型作为上述表征模型结构与模型结构的性能之间的关系的关系模型中的子模型。采用逐分步建立关系模型的方法可以提高关系模型的准确性。
训练操作包括:步骤3041、步骤3042、步骤3043、步骤3044.
步骤3041,从模型结构的搜索空间采样出至少一个候选模型结构,基于样本数据对候选模型结构进行训练,测试训练后的候选模型结构的性能。
步骤3042,基于训练后的所述候选模型结构以及训练后的所述候选模型结构的性能训练所述关系模型。
在本实施例中,可以将第一关系模型和第二关系模型转换为表征模型结构与模型结构的性能之间的关系的关系模型,对该表征模型结构与模型结构的性能之间的关系的关系模型进行训练。
或者,可以基于训练后的候选模型结构以及训练后的候选模型结构的性能,对第一关系模型和第二关系模型进行联合训练。
在本实施例中,可以通过神经网络等机器学习方法,基于训练后的候选模型结构以及候选模型结构的性能对第一关系模型和第二关系模型进行联合训练。
具体地,在联合训练过程中,可以利用训练后的候选模型结构与训练后的候选模型结构提取出的特征训练第一关系模型,并基于该训练后的候选模型结构提取出的特征与其性能对第二关系模型进行训练。在同一次训练操作中同时优化第一关系模型和第二关系模型。
步骤3043,响应于确定当前训练完成的关系模型不满足预设的收敛条件,基于当前训练完成的关系模型执行下一次训练操作。
步骤3044,响应于确定当前训练完成的关系模型满足预设的收敛条件,基于预设的性能约束条件,利用当前训练完成的关系模型确定出满足预设的性能约束条件的目标模型结构。
可选地,响应于确定当前训练完成的关系模型满足预设的收敛条件,基于预设的目标模型结构的硬件运行环境的约束条件,利用当前训练完成的关系模型确定出满足预设的性能约束条件的目标模型结构。
在本实施例中,若当前训练完成的关系模型满足预设的收敛条件,则结束训练操作,根据预设的目标模型结构的硬件运行环境的约束条件,利用当前训练完成的关系模型确定出目标模型结构。其中,目标模型结构的硬件运行环境的约束条件是指不同的硬件环境对在该硬件上运行的模型结构的性能的约束,例如,不同芯片对在该芯片上运行的模型结构的延时要求。
具体地,可以将预设的目标模型结构的硬件运行环境的约束条件输入进训练完成的关系模型中,关系模型经过运算,输出目标模型结构。当目标模型结构的硬件运行环境的约束条件发生变化时,只需要根据变化后的约束条件以及关系模型即可确定出适用于变化后的硬件运行环境的模型结构,避免了重复搜索造成的搜索资源消耗以及搜索时间消耗,提高了确定目标模型结构的效率。
本实施例的步骤301、步骤3041、步骤3043、步骤3044分别与前述实施例的步骤201、步骤2021、步骤2023、步骤2024一致,步骤301、步骤3041、步骤3043、步骤3044的具体实现方式可以参考前述实施例中对应步骤的描述,此处不再赘述。
本公开提供的用于搜索模型结构的方法,通过构建模型结构与模型结构的性能之间的关系,可以根据性能需求、不经过重复搜索即可确定出符合性能需求的模型结构,从而减少了搜索资源成本以及搜索时间成本的消耗。
在上述结合图2和图3描述的实施例的一些可选的实现方式中,用于搜索模型结构的方法还包括:根据表征模型结构与模型结构的性能之间的关系的关系模型,预测从搜索空间采样出的模型结构的性能。
在本实施例中,可以根据关系模型,预测从搜索空间采样出的任意模型结构的性能。具体地,可以首先对搜索空间进行采样,获取待预测的模型结构,然后将待预测的模型结构作为关系模型的输入,获得性能预测结果。根据关系模型分析模型结构的性能可以提高模型结构性能预测的准确性以及预测效率。
进一步参考图4,作为对上述各图所示方法的实现,本公开提供了一种用于搜索模型结构的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例的用于搜索模型结构的装置400包括:确定单元401、更新单元402、测试单元4021、训练单元4022、迭代单元4023、搜索单元4024。其中,确定单元401,被配置为确定模型结构的搜索空间;更新单元402,被配置为构建表征模型结构与模型结构的性能之间的关系的关系模型,并通过多轮训练操作更新关系模型;更新单元402包括:测试单元4021,被配置为执行训练操作中的如下操作:从模型结构的搜索空间采样出至少一个候选模型结构,基于样本数据对候选模型结构进行训练,测试训练后的候选模型结构的性能;训练单元4022,被配置为执行训练操作中的如下操作:基于训练后的候选模型结构以及训练后的候选模型结构的性能训练关系模型;迭代单元4023,被配置为执行训练操作中的如下操作:响应于确定当前训练完成的关系模型不满足预设的收敛条件,基于当前训练完成的关系模型执行下一次训练操作;搜索单元4024,被配置为执行训练操作中的如下操作:响应于确定当前训练完成的关系模型满足预设的收敛条件,基于预设的性能约束条件,利用当前训练完成的关系模型确定出满足预设的性能约束条件的目标模型结构。
本公开提供的用于搜索模型结构的装置通过构建模型结构与模型结构的性能之间的关系,可以根据性能的需求、不经过重复搜索即可确定出符合性能需求的模型结构,从而减少了搜索资源成本以及搜索时间成本的消耗。
在一些实施例中,更新单元402包括:第一模块,被配置为构建表征模型结构与模型结构的特征提取层提取出的特征之间的关系的第一关系模型;第二模块,被配置为构建表征模型结构的特征提取层提取出的特征与模型结构的性能之间的关系的第二关系模型;确定模块,被配置为根据第一关系模型与第二关系模型,确定表征模型结构与模型结构的性能之间的关系的关系模型。
在一些实施例中,第一关系模型表征模型结构与模型结构中的用于将最后一个特征提取层提取出的特征进行连接的全连接层输出的特征之间的关系。第二关系模型表征模型结构中的用于将最后一个特征提取层提取出的特征进行连接的全连接层输出的特征与模型结构的性能之间的关系;以及训练单元包括4022:训练模块,被配置为基于训练后的候选模型结构以及训练后的候选模型结构的性能,对第一关系模型和第二关系模型进行联合训练。
在一些实施例中,性能约束条件包括目标模型结构的硬件运行环境的约束条件。
在一些实施例中,装置400还包括:预测单元,被配置为根据表征模型结构与模型结构的性能之间的关系的关系模型,预测从搜索空间采样出的模型结构的性能。
上述装置400中的各单元与参考图2和图4描述的方法中的步骤相对应。由此上文针对用于搜索模型结构的方法描述的操作、特征及所能达到的技术效果同样适用于装置400及其中包含的单元,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本申请实施例的用于搜索模型结构的方法的电子设备500的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,该存储器存储有可由至少一个处理器执行的指令,以使该至少一个处理器执行本申请所提供的用于搜索模型结构的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的用于搜索模型结构的方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的用于搜索模型结构的方法对应的程序指令/模块(例如,附图4所示的确定单元401、更新单元402、测试单元4021、训练单元4022、迭代单元4023、搜索单元4024)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的用于搜索模型结构的方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据用于搜索模型结构的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至用于搜索模型结构的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
用于搜索模型结构的方法的电子设备还可以包括:输入装置503、输出装置504以及总线505。处理器501、存储器502、输入装置503和输出装置504可以通过总线505或者其他方式连接,图5中以通过总线505连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与用于搜索模型结构的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (12)

1.一种用于搜索模型结构的方法,包括:
确定模型结构的搜索空间;
构建表征模型结构与模型结构的性能之间的关系的关系模型,并通过多轮训练操作更新所述关系模型;
所述训练操作包括:
从所述模型结构的搜索空间采样出至少一个候选模型结构,基于样本数据对所述候选模型结构进行训练,测试训练后的所述候选模型结构的性能;
基于训练后的所述候选模型结构以及训练后的所述候选模型结构的性能训练所述关系模型;
响应于确定当前训练完成的所述关系模型不满足预设的收敛条件,基于当前训练完成的所述关系模型执行下一次训练操作;
响应于确定当前训练完成的所述关系模型满足预设的收敛条件,基于预设的性能约束条件,利用当前训练完成的所述关系模型确定出满足所述预设的性能约束条件的目标模型结构。
2.根据权利要求1所述的方法,其中,所述构建表征模型结构与模型结构的性能之间的关系的关系模型,包括:
构建表征所述模型结构与所述模型结构的特征提取层提取出的特征之间的关系的第一关系模型;
构建表征所述模型结构的特征提取层提取出的特征与所述模型结构的性能之间的关系的第二关系模型;
根据所述第一关系模型与所述第二关系模型,确定表征模型结构与模型结构的性能之间的关系的关系模型。
3.根据权利要求2所述的方法,其中,所述第一关系模型表征所述模型结构与所述模型结构中的用于将最后一个特征提取层提取出的特征进行连接的全连接层输出的特征之间的关系;
所述第二关系模型表征所述模型结构中的用于将最后一个特征提取层提取出的特征进行连接的全连接层输出的特征与所述模型结构的性能之间的关系;以及
所述基于训练后的所述候选模型结构以及训练后的所述候选模型结构的性能训练所述关系模型,包括:
基于训练后的所述候选模型结构以及训练后的所述候选模型结构的性能,对所述第一关系模型和所述第二关系模型进行联合训练。
4.根据权利要求1所述的方法,其中,所述性能约束条件包括目标模型结构的硬件运行环境的约束条件。
5.根据权利要求1-4之一所述的方法,其中,所述方法还包括:
根据所述表征模型结构与模型结构的性能之间的关系的关系模型,预测从所述搜索空间采样出的模型结构的性能。
6.一种用于搜索模型结构的装置,其中,包括:
确定单元,被配置为确定模型结构的搜索空间;
更新单元,被配置为构建表征模型结构与模型结构的性能之间的关系的关系模型,并通过多轮训练操作更新所述关系模型;
所述更新单元包括:
测试单元,被配置为执行所述训练操作中的如下操作:从所述模型结构的搜索空间采样出至少一个候选模型结构,基于样本数据对所述候选模型结构进行训练,测试训练后的所述候选模型结构的性能;
训练单元,被配置为执行所述训练操作中的如下操作:基于训练后的所述候选模型结构以及训练后的所述候选模型结构的性能训练所述关系模型;
迭代单元,被配置为执行所述训练操作中的如下操作:响应于确定当前训练完成的所述关系模型不满足预设的收敛条件,基于当前训练完成的所述关系模型执行下一次训练操作;
搜索单元,被配置为执行所述训练操作中的如下操作:响应于确定当前训练完成的所述关系模型满足预设的收敛条件,基于预设的性能约束条件,利用当前训练完成的所述关系模型确定出满足所述预设的性能约束条件的目标模型结构。
7.根据权利要求6所述的装置,其中,所述更新单元,包括:
第一模块,被配置为构建表征所述模型结构与所述模型结构的特征提取层提取出的特征之间的关系的第一关系模型;
第二模块,被配置为构建表征所述模型结构的特征提取层提取出的特征与所述模型结构的性能之间的关系的第二关系模型;
确定模块,被配置为根据所述第一关系模型与所述第二关系模型,确定表征模型结构与模型结构的性能之间的关系的关系模型。
8.根据权利要求7所述的装置,其中,所述第一关系模型表征所述模型结构与所述模型结构中的用于将最后一个特征提取层提取出的特征进行连接的全连接层输出的特征之间的关系。
所述第二关系模型表征所述模型结构中的用于将最后一个特征提取层提取出的特征进行连接的全连接层输出的特征与所述模型结构的性能之间的关系;以及
所述训练单元包括:
训练模块,被配置为基于训练后的所述候选模型结构以及训练后的所述候选模型结构的性能,对所述第一关系模型和所述第二关系模型进行联合训练。
9.根据权利要求6所述的装置,其中,所述性能约束条件包括目标模型结构的硬件运行环境的约束条件。
10.根据权利要求6-9之一所述的装置,其中,所述装置还包括:
预测单元,被配置为根据所述表征模型结构与模型结构的性能之间的关系的关系模型,预测从所述搜索空间采样出的模型结构的性能。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
CN202010503074.2A 2020-06-05 2020-06-05 用于搜索模型结构的方法和装置 Pending CN111667055A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010503074.2A CN111667055A (zh) 2020-06-05 2020-06-05 用于搜索模型结构的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010503074.2A CN111667055A (zh) 2020-06-05 2020-06-05 用于搜索模型结构的方法和装置

Publications (1)

Publication Number Publication Date
CN111667055A true CN111667055A (zh) 2020-09-15

Family

ID=72386431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010503074.2A Pending CN111667055A (zh) 2020-06-05 2020-06-05 用于搜索模型结构的方法和装置

Country Status (1)

Country Link
CN (1) CN111667055A (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107402954A (zh) * 2017-05-26 2017-11-28 百度在线网络技术(北京)有限公司 建立排序模型的方法、基于该模型的应用方法和装置
CN107545112A (zh) * 2017-09-07 2018-01-05 西安交通大学 多源无标签数据机器学习的复杂装备性能评估与预测方法
CN108764292A (zh) * 2018-04-27 2018-11-06 北京大学 基于弱监督信息的深度学习图像目标映射及定位方法
CN109685204A (zh) * 2018-12-24 2019-04-26 北京旷视科技有限公司 模型搜索方法及装置、图像处理方法及装置
CN109816001A (zh) * 2019-01-10 2019-05-28 高新兴科技集团股份有限公司 一种基于深度学习的车辆多属性识别方法、装置和设备
US20190286984A1 (en) * 2018-03-13 2019-09-19 Google Llc Neural architecture search by proxy
CN110490028A (zh) * 2018-05-15 2019-11-22 成都视观天下科技有限公司 基于深度学习的人脸识别网络训练方法、设备及存储介质
CN110543944A (zh) * 2019-09-11 2019-12-06 北京百度网讯科技有限公司 神经网络结构搜索方法、装置、电子设备和介质
CN110807515A (zh) * 2019-10-30 2020-02-18 北京百度网讯科技有限公司 模型生成方法和装置
CN110852421A (zh) * 2019-11-11 2020-02-28 北京百度网讯科技有限公司 模型生成方法和装置
CN110909877A (zh) * 2019-11-29 2020-03-24 百度在线网络技术(北京)有限公司 神经网络模型结构搜索方法、装置、电子设备及存储介质
US20200104715A1 (en) * 2018-09-28 2020-04-02 Xilinx, Inc. Training of neural networks by including implementation cost as an objective
CN111047563A (zh) * 2019-11-26 2020-04-21 深圳度影医疗科技有限公司 一种应用于医学超声图像的神经网络构建方法
CN111160119A (zh) * 2019-12-11 2020-05-15 常州工业职业技术学院 一种用于化妆人脸验证的多任务深度判别度量学习模型构建方法
CN111178546A (zh) * 2019-12-31 2020-05-19 华为技术有限公司 机器学习模型的搜索方法及相关装置、设备
CN111191785A (zh) * 2019-12-20 2020-05-22 沈阳雅译网络技术有限公司 一种基于拓展搜索空间的结构搜索方法
CN111221346A (zh) * 2020-02-28 2020-06-02 中国人民解放军陆军军事交通学院汽车士官学校 人群搜索算法优化pid控制四旋翼飞行器飞行的方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107402954A (zh) * 2017-05-26 2017-11-28 百度在线网络技术(北京)有限公司 建立排序模型的方法、基于该模型的应用方法和装置
CN107545112A (zh) * 2017-09-07 2018-01-05 西安交通大学 多源无标签数据机器学习的复杂装备性能评估与预测方法
US20190286984A1 (en) * 2018-03-13 2019-09-19 Google Llc Neural architecture search by proxy
CN108764292A (zh) * 2018-04-27 2018-11-06 北京大学 基于弱监督信息的深度学习图像目标映射及定位方法
CN110490028A (zh) * 2018-05-15 2019-11-22 成都视观天下科技有限公司 基于深度学习的人脸识别网络训练方法、设备及存储介质
US20200104715A1 (en) * 2018-09-28 2020-04-02 Xilinx, Inc. Training of neural networks by including implementation cost as an objective
CN109685204A (zh) * 2018-12-24 2019-04-26 北京旷视科技有限公司 模型搜索方法及装置、图像处理方法及装置
CN109816001A (zh) * 2019-01-10 2019-05-28 高新兴科技集团股份有限公司 一种基于深度学习的车辆多属性识别方法、装置和设备
CN110543944A (zh) * 2019-09-11 2019-12-06 北京百度网讯科技有限公司 神经网络结构搜索方法、装置、电子设备和介质
CN110807515A (zh) * 2019-10-30 2020-02-18 北京百度网讯科技有限公司 模型生成方法和装置
CN110852421A (zh) * 2019-11-11 2020-02-28 北京百度网讯科技有限公司 模型生成方法和装置
CN111047563A (zh) * 2019-11-26 2020-04-21 深圳度影医疗科技有限公司 一种应用于医学超声图像的神经网络构建方法
CN110909877A (zh) * 2019-11-29 2020-03-24 百度在线网络技术(北京)有限公司 神经网络模型结构搜索方法、装置、电子设备及存储介质
CN111160119A (zh) * 2019-12-11 2020-05-15 常州工业职业技术学院 一种用于化妆人脸验证的多任务深度判别度量学习模型构建方法
CN111191785A (zh) * 2019-12-20 2020-05-22 沈阳雅译网络技术有限公司 一种基于拓展搜索空间的结构搜索方法
CN111178546A (zh) * 2019-12-31 2020-05-19 华为技术有限公司 机器学习模型的搜索方法及相关装置、设备
CN111221346A (zh) * 2020-02-28 2020-06-02 中国人民解放军陆军军事交通学院汽车士官学校 人群搜索算法优化pid控制四旋翼飞行器飞行的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHAOYANG HE 等: "MiLeNAS: Efficient Neural Architecture Search via Mixed-Level Reformulation", 《ARXIV:2003.12238》, pages 1 - 12 *
周一鸣: "基于平台感知的高效卷积神经网络结构设计", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 138 - 1856 *
张政馗 等: "面向实时应用的深度学习研究综述", 《软件学报》, pages 2654 - 2677 *
葛道辉 等: "轻量级神经网络架构综述", 《软件学报》, pages 2627 - 2653 *

Similar Documents

Publication Publication Date Title
CN111667054B (zh) 生成神经网络模型的方法、装置、电子设备以及存储介质
JP7166322B2 (ja) モデルを訓練するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN111539514B (zh) 用于生成神经网络的结构的方法和装置
CN111582453B (zh) 生成神经网络模型的方法和装置
JP7098853B2 (ja) ラベルラベリングモデルを確立する方法、装置、電子機器、プログラム及び可読記憶媒体
CN111104514B (zh) 文档标签模型的训练方法及装置
CN111667056B (zh) 用于搜索模型结构的方法和装置
CN111582479B (zh) 神经网络模型的蒸馏方法和装置
US11914964B2 (en) Method and apparatus for training semantic representation model, device and computer storage medium
CN111737994A (zh) 基于语言模型获取词向量的方法、装置、设备及存储介质
CN111667057A (zh) 用于搜索模型结构的方法和装置
CN111859982B (zh) 语言模型的训练方法、装置、电子设备及可读存储介质
CN111539479A (zh) 生成样本数据的方法和装置
CN111753914A (zh) 模型优化方法和装置、电子设备及存储介质
CN112559870B (zh) 多模型融合方法、装置、电子设备和存储介质
KR20210132578A (ko) 지식 그래프를 구축하는 방법, 장치, 기기 및 저장 매체
CN111339759A (zh) 领域要素识别模型训练方法、装置及电子设备
CN111563593B (zh) 神经网络模型的训练方法和装置
CN111079945B (zh) 端到端模型的训练方法及装置
CN110717340B (zh) 推荐方法、装置、电子设备及存储介质
JP2021197188A (ja) 機械翻訳モデルの訓練方法、装置、電子デバイス及び記憶媒体
CN111680517A (zh) 用于训练模型的方法、装置、设备以及存储介质
JP7229291B2 (ja) データ拡張の方法及び装置、機器、記憶媒体
CN111738419A (zh) 神经网络模型的量化方法和装置
CN111639753A (zh) 用于训练超网络的方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination