CN112561031A - 基于人工智能的模型搜索方法、装置及电子设备 - Google Patents
基于人工智能的模型搜索方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112561031A CN112561031A CN202011287865.2A CN202011287865A CN112561031A CN 112561031 A CN112561031 A CN 112561031A CN 202011287865 A CN202011287865 A CN 202011287865A CN 112561031 A CN112561031 A CN 112561031A
- Authority
- CN
- China
- Prior art keywords
- neural network
- model
- network model
- processing
- difference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种基于人工智能的模型搜索方法、装置、电子设备及计算机可读存储介质;涉及人工智能技术领域以及云技术领域中的大数据技术;方法包括:生成结构不同的多个神经网络模型;确定基准神经网络模型与每个神经网络模型之间的差异程度;执行以下迭代处理:对至少部分神经网络模型的差异程度与性能指标之间的函数关系进行拟合处理,根据拟合处理得到的函数代理模型进行差异程度采样处理,并将与差异程度采样处理得到的差异程度对应的神经网络模型,作为用于进行下一轮的迭代处理的神经网络模型;当迭代处理停止时,根据迭代处理得到的性能指标最高的神经网络模型执行数据任务。通过本申请,能够提升执行数据任务的精度。
Description
技术领域
本申请涉及人工智能技术和云技术,尤其涉及一种基于人工智能的模型搜索方法、装置、电子设备及计算机可读存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。机器学习(Machine Learning,ML)是人工智能的一个重要分支,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
人工神经网络(Artificial Neural Networks,ANN)是机器学习领域中常用的技术,主要通过模仿动物神经网络行为特征,进行分布式并行信息处理,以执行特定的数据任务。在相关技术提供的方案中,通常是人为构造神经网络模型的结构,但是,人为构造的神经网络模型在面临数据任务时,其执行精度往往无法达到较好的效果。
发明内容
本申请实施例提供一种基于人工智能的模型搜索方法、装置、电子设备及计算机可读存储介质,能够实现神经网络模型的自动生成和自动搜索,并提升根据搜索出的神经网络模型执行数据任务的精度。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种基于人工智能的模型搜索方法,包括:
生成结构不同的多个神经网络模型;
将任意一个所述神经网络模型作为基准神经网络模型,并确定所述基准神经网络模型与每个所述神经网络模型之间的差异程度;
执行以下迭代处理:对至少部分所述神经网络模型的差异程度与性能指标之间的函数关系进行拟合处理,根据所述拟合处理得到的函数代理模型进行差异程度采样处理,并将与所述差异程度采样处理得到的差异程度对应的神经网络模型,作为用于进行下一轮的迭代处理的神经网络模型;
当所述迭代处理停止时,根据所述迭代处理得到的性能指标最高的神经网络模型执行数据任务。
本申请实施例提供一种基于人工智能的模型搜索装置,包括:
生成模块,用于生成结构不同的多个神经网络模型;
差异确定模块,用于将任意一个所述神经网络模型作为基准神经网络模型,并确定所述基准神经网络模型与每个所述神经网络模型之间的差异程度;
迭代模块,用于执行以下迭代处理:对至少部分所述神经网络模型的差异程度与性能指标之间的函数关系进行拟合处理,根据所述拟合处理得到的函数代理模型进行差异程度采样处理,并将与所述差异程度采样处理得到的差异程度对应的神经网络模型,作为用于进行下一轮的迭代处理的神经网络模型;
任务执行模块,用于当所述迭代处理停止时,根据所述迭代处理得到的性能指标最高的神经网络模型执行数据任务。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的基于人工智能的模型搜索方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的基于人工智能的模型搜索方法。
本申请实施例具有以下有益效果:
在生成结构不同的多个神经网络模型后,根据至少部分神经网络模型的差异程度与性能指标之间的函数关系进行拟合处理,从而采样下一个神经网络模型以进入下一轮迭代处理,如此,能够避免不必要的采样,提升神经网络模型搜索的效果。在完成搜索,即迭代处理停止时,根据性能指标最高的神经网络模型执行数据任务,能够提升执行精度。
附图说明
图1是本申请实施例提供的基于人工智能的模型搜索系统的一个结构示意图;
图2是本申请实施例提供的终端设备的一个结构示意图;
图3A是本申请实施例提供的基于人工智能的模型搜索方法的一个流程示意图;
图3B是本申请实施例提供的基于人工智能的模型搜索方法的一个流程示意图;
图3C是本申请实施例提供的基于人工智能的模型搜索方法的一个流程示意图;
图3D是本申请实施例提供的基于人工智能的模型搜索方法的一个流程示意图;
图4是本申请实施例提供的神经网络模型的搜索空间的一个示意图;
图5是本申请实施例提供的迭代处理的一个示意图;
图6是本申请实施例提供的基于人工智能的模型搜索方法的一个流程示意图;
图7是本申请实施例提供的图编辑距离模型及贝叶斯优化的一个示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。在以下的描述中,所涉及的术语“多个”是指至少两个。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)神经网络(Neural Networks,NN)模型:由大量的神经元广泛地互相连接而形成的复杂网络系统,也是一个高度复杂的非线性动力学习系统,具有大规模并行、分布式存储和处理、自组织、自适应和自学能力。
2)差异程度:用于描述不同神经网络模型之间的不相似性,在本申请实施例中,可以将神经网络模型映射为结构图,并将两个结构图之间的图编辑距离(Graph EditDistance,GED),作为这两个结构图对应的神经网络模型之间的差异程度。
3)性能指标:指神经网络模型执行数据任务时的性能指标,如准确率(Accuracy)、精确率(Precision)、召回率(Recall)或F1分数等,其中,F1分数是精确率和召回率的调和平均。
4)数据任务:泛指神经网络模型能够执行的任务,根据实际应用场景的不同,数据任务可以是不同类型的任务,例如可以是计算机视觉任务(如图像分类任务、目标检测任务或图像分割任务)或自然语言处理任务(如语义理解任务、机器翻译任务或机器人问答任务)等。
5)贝叶斯优化(Bayesian Optimization):指使用代理模型(函数代理模型)拟合真实的目标函数关系,并根据拟合结果主动选择最有“潜力”的神经网络模型进行迭代的过程,贝叶斯优化能够避免不必要的采样,有效地利用历史搜索来提高搜索效率,以在少数次评估下得到目标函数关系的最优解。其中,目标函数关系即为差异程度与性能指标之间的函数关系。
6)高斯过程(Gaussian Process,GP):随机过程(Stochastic Process)的一种,是一系列服从正态分布的随机变量在一指数集内的组合,可以看作是多维高斯分布在无限维随机过程上的扩展。在本申请实施例中,可以将高斯过程模型(用于描述高斯过程)作为贝叶斯优化过程中的函数代理模型,对于每一个合法的输入,通过高斯过程模型均可以确定一个对应的高斯分布(即均值和方差)。
7)采集函数(Acquisition Function):又称提取函数,用于在函数代理模型的基础上,有目的地选择下一个采样点,即选择效果最好的采样点以进行下一轮迭代。在本申请实施例中,采集函数用于执行差异程度采样处理,差异程度采样处理中的采样效果指标即为采集函数的函数值。
8)注意力(Attention)编码处理:本质上是加权求和处理,用于确定输入特征(如本申请实施例中的差异特征)的关键部分,并对关键部分进行特征提取,得到输出特征。
9)大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在本申请实施例中,可以利用大数据技术来实现模型搜索,例如生成神经网络模型、确定差异程度及进行迭代处理等。
本申请实施例提供一种基于人工智能的模型搜索方法、装置、电子设备和计算机可读存储介质,能够提升模型搜索的效果,并提升根据搜索出的神经网络模型执行数据任务的精度和效率。下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为各种类型的终端设备,也可以实施为服务器。
参见图1,图1是本申请实施例提供的基于人工智能的模型搜索系统100的一个架构示意图,终端设备400通过网络300连接服务器200,服务器200连接数据库500,其中,网络300可以是广域网或者局域网,又或者是二者的组合。
在一些实施例中,以电子设备是终端设备为例,本申请实施例提供的基于人工智能的模型搜索方法可以由终端设备实现,适用于终端设备的计算能力较强的场景。例如,终端设备400运行客户端410,客户端410生成结构不同的多个神经网络模型,并确定基准神经网络模型(任意一个神经网络模型)与每个神经网络模型之间的差异程度。同时,客户端410可以根据数据任务的训练集和测试集,确定至少部分神经网络模型的性能指标,其中,数据任务的训练集和测试集可以预先存储在客户端410本地,也可以是从服务器200或其他设备获取的。然后,客户端410对至少部分神经网络模型的差异程度与性能指标之间的函数关系进行拟合处理,根据拟合处理得到的函数代理模型进行差异程度采样处理,并将与差异程度采样处理得到的差异程度对应的神经网络模型,作为用于进行下一轮的迭代处理的神经网络模型。当迭代处理停止时,客户端410可以将迭代处理得到的性能指标最高的神经网络模型存储在本地,并调用该神经网络模型来执行数据任务。
在一些实施例中,以电子设备是服务器为例,本申请实施例提供的基于人工智能的模型搜索方法也可以由服务器实现。例如,服务器200可以生成结构不同的多个神经网络模型,并根据确定出的差异程度及性能指标进行迭代处理,其中,服务器200可以从数据库500获取数据任务的训练集及测试集,以确定神经网络模型的性能指标。当迭代处理停止时,服务器200可以将迭代处理得到的性能指标最高的神经网络模型存储在本地,如存储至分布式文件系统中,并在后续调用该神经网络模型来执行数据任务,或者,服务器200也可以将该神经网络模型发送至客户端410,以使客户端410根据接收到的该神经网络模型执行数据任务。
值得说明的是,相较于相关技术提供的方案,本申请实施例能够搜索出效果更好、复杂度更小的神经网络模型,从而能够提升搜索过程中所利用的训练集和测试集(如数据库500中存储的训练集和测试集)的实际利用效果。从另一角度,针对搜索出的性能指标最高的神经网络模型,电子设备(如图1所示的服务器200或终端设备400)在通过该神经网络模型执行数据任务时,能够提升数据任务的执行精度,从而提升电子设备执行数据任务时所耗费的计算资源的实际利用率,同时,由于搜索出的神经网络模型的复杂度较小,故能够节省电子设备在执行数据任务时所耗费的计算资源。
在图1中,以数据任务为图像分类任务为例进行说明。服务器200在通过迭代处理,得到性能指标最高的神经网络模型后,可以将该神经网络模型存储在本地。客户端410可以向服务器200发送待进行图像分类的图像A,服务器200在接收到图像A时,调用存储的神经网络模型,以执行针对图像A的数据任务。执行完成时,服务器200将得到的分类结果发送至客户端410,以在客户端410的图形界面中显示,即图1中为人类的分类结果。
在一些实施例中,终端设备400或服务器200可以通过运行计算机程序来实现本申请实施例提供的基于人工智能的模型搜索方法,例如,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序,如图像分类的应用程序(对应上文的客户端410);也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,其中,云服务可以是模型搜索服务或者用于执行数据任务的服务,供终端设备400进行调用。终端设备400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能电视、智能手表等,但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
以本申请实施例提供的电子设备是终端设备为例说明,可以理解的,对于电子设备是服务器的情况,图2中示出的结构中的部分(例如用户接口、呈现模块和输入处理模块)可以缺省。参见图2,图2是本申请实施例提供的终端设备400的结构示意图,图2所示的终端设备400包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端设备400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图2示出了存储在存储器450中的基于人工智能的模型搜索装置455,其可以是程序和插件等形式的软件,包括以下软件模块:生成模块4551、差异确定模块4552、迭代模块4553及任务执行模块4554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
将结合本申请实施例提供的电子设备的示例性应用和实施,说明本申请实施例提供的基于人工智能的模型搜索方法。
参见图3A,图3A是本申请实施例提供的基于人工智能的模型搜索方法的一个流程示意图,将结合图3A示出的步骤进行说明。
在步骤101中,生成结构不同的多个神经网络模型。
这里,针对需要执行的数据任务,首先生成结构不同的多个神经网络模型,以作为模型搜索的搜索空间。作为示例,本申请实施例提供了如图4所示的搜索空间,包括神经网络模型1至N,其中,N为大于1的整数,例如可以是1000。本申请实施例的目的即是从搜索空间包括的多个神经网络模型中,搜索出效果最好的一个神经网络模型,以执行数据任务。生成神经网络模型的方式可根据实际应用场景进行设定,例如,可以在已有的初始神经网络模型的基础上,增加或减少神经元的数量,建立或删除不同神经元之间的连接等。
在步骤102中,将任意一个神经网络模型作为基准神经网络模型,并确定基准神经网络模型与每个神经网络模型之间的差异程度。
这里,在搜索空间包括的多个神经网络模型随机选择一个,以作为基准神经网络模型,并计算基准神经网络模型与搜索空间包括的每个神经网络模型之间的差异程度。其中,差异程度即为不相似性的直接体现,即两个神经网络模型之间的差异程度越小,则这两个神经网络模型之间越相似。作为示例,在图4中,以基准神经网络模型为神经网络模型1为例,则需要确定神经网络模型1与神经网络模型2之间的差异程度、神经网络模型1与神经网络模型3之间的差异程度、……、神经网络模型1与神经网络模型N之间的差异程度。
本申请实施例对计算差异程度的方式不做限定,例如可通过与结构相关的参数来计算差异程度,其中,与结构相关的参数可以包括神经网络模型的神经元数量及神经元连接边数中的至少一种,当然也可包括其他参数。
举例来说,若基准神经网络模型为模型A,搜索空间包括的某个神经网络模型为模型B,则模型A与模型B之间的差异程度=w1×│模型A包括的神经元数量-模型B包括的神经元数量│+w2×│模型A包括的神经元连接边数-模型B包括的神经元连接边数│,其中,w1和w2均为大于零的数,││为绝对值运算。
值得说明的是,基准神经网络模型与自身之间的差异程度为零。
在步骤103中,执行以下迭代处理:对至少部分神经网络模型的差异程度与性能指标之间的函数关系进行拟合处理,根据拟合处理得到的函数代理模型进行差异程度采样处理,并将与差异程度采样处理得到的差异程度对应的神经网络模型,作为用于进行下一轮的迭代处理的神经网络模型。
例如,可以在搜索空间中进行随机选择,得到满足数量阈值的神经网络模型,并确定这些神经网络模型在执行数据任务时的性能指标,性能指标越高,表示对应的神经网络模型越适于执行数据任务。其中,数量阈值为大于1的整数,可根据实际应用场景进行设定,例如设定为100。作为示例,本申请实施例提供了如图5所示的迭代处理的示意图,以第i轮迭代处理的过程作为示例,参与第i轮迭代处理的可以是神经网络模型1至K,其中,K为整数,1<K<N(这里的N是指图4中的N),并且i为大于零的整数。
然后,针对具有性能指标(即已确定出性能指标)的所有神经网络模型,执行迭代处理。在迭代处理的过程中,对神经网络模型(这里指具有性能指标的所有神经网络模型)的差异程度与性能指标之间的实际的函数关系进行拟合处理,得到用于表示该函数关系的函数代理模型,然后根据函数代理模型进行差异程度采样处理(即采样出效果最好的下一个差异程度),将与差异程度采样处理得到的差异程度对应的神经网络模型,作为用于进行下一轮的迭代处理的神经网络模型。即每一轮的迭代处理都包括拟合处理及差异程度采样处理,其中,根据函数代理模型进行差异程度采样处理,可以尽量避免不必要的采样,从而提升模型搜索的效果。
在一些实施例中,可以通过这样的方式来实现上述的将与差异程度采样处理得到的差异程度对应的神经网络模型,作为用于进行下一轮的迭代处理的神经网络模型:确定采样神经网络模型的性能指标;其中,采样神经网络模型为与差异程度采样处理得到的差异程度对应的神经网络模型;将采样神经网络模型、以及其他的具有性能指标的多个神经网络模型,作为用于进行下一轮的迭代处理的神经网络模型。
为了便于区分,将差异程度采样处理得到的差异程度对应的神经网络模型,命名为采样神经网络模型。针对每轮迭代处理,在得到了采样神经网络模型之后,确定出采样神经网络模型的性能指标,并将当前具有性能指标的所有神经网络模型(包括采样神经网络模型在内),作为用于进行下一轮的迭代处理的神经网络模型。如图5所示,参与第i+1轮迭代处理的神经网络模型包括参与第i轮迭代处理的神经网络模型(即神经网络模型1至K)、以及第i轮迭代处理的过程中得到的采样神经网络模型。
在步骤104中,当迭代处理停止时,根据迭代处理得到的性能指标最高的神经网络模型执行数据任务。
在本申请实施例中,可以为迭代处理设定停止条件,当满足停止条件时,停止进行迭代处理。然后,确定出迭代处理得到的性能指标最高的神经网络模型,以执行数据任务,即完成对搜索空间的搜索。其中,迭代处理得到的神经网络模型是指具有性能指标的所有神经网络模型。
在一些实施例中,步骤103之前,还包括:通过数据任务的训练集对神经网络模型进行训练;通过数据任务的测试集,确定训练后的神经网络模型的性能指标;可以通过这样的方式实现上述的根据迭代处理得到的性能指标最高的神经网络模型执行数据任务:在迭代处理得到的多个训练后的神经网络模型中,确定性能指标最高的训练后的神经网络模型,以执行数据任务。
例如,在进行迭代处理之前,对于从搜索空间中随机选择得到的、满足数量阈值的神经网络模型,确定其中每个神经网络模型在执行数据任务的性能指标。本申请实施例提供了确定性能指标的一种示例,首先,获取数据任务的数据集,该数据集包括多个样本,每个样本包括样本输入和样本输出。以数据任务为图像分类任务为例,则样本输入可以是一张图像,样本输出可以是该图像的类别,如人类、猫或狗等。然后,将数据集划分为训练集和测试集,划分比例可根据实际应用场景进行调整,如训练集包括的样本的数量:测试集包括的样本的数量=7:3。对于待确定性能指标的每个神经网络模型,通过训练集对神经网络模型进行训练,即更新神经网络模型中神经元的权重参数,并通过测试集确定训练后的神经网络模型的性能指标。这里,所有神经网络模型适用相同的训练集以及相同的测试集。值得说明的是,在通过步骤101生成多个神经网络模型时,可以将每个神经网络模型中所有神经元的权重参数初始化为设定参数。
以训练集中的某个样本为例说明训练过程,首先通过神经网络模型对该样本中的样本输入进行前向传播处理得到预测输出,然后通过损失函数对预测输出、以及该样本中的样本输出进行计算得到损失值,再根据损失值在该神经网络模型中进行反向传播,从而更新该神经网络模型的权重参数,其中,对损失函数的类型不做限定,例如可以是交叉熵损失函数。
对于测试集中的每个样本,通过神经网络模型对样本中的样本输入进行前向传播处理得到预测输出,然后,根据测试集中每个样本的样本输出与对应的预测输出之间的差异,确定该神经网络模型的性能指标。性能指标越高,表示神经网络模型执行数据任务的效果越好,其中,性能指标可以是准确率、精确率、召回率或F1分数等,对此不做限定。
值得说明的是,针对每轮迭代处理,在得到采样神经网络模型后,同样可以通过训练集和测试集,来确定采样神经网络模型的性能指标。此外,当迭代处理停止时,在具有性能指标的所有训练后的神经网络模型中,确定性能指标最高的训练后的神经网络模型,以执行数据任务,如此,能够进一步提升数据任务的执行效果。
为了便于理解,这里以数据任务为图像分类任务举例,阐述通过某个训练后的神经网络模型执行图像分类任务,即进行前向传播处理的过程。对于待分类的图像,通过训练后的神经网络模型中神经元的权重参数,对图像(这里指图像的表示数据,如像素矩阵)进行加权处理,最终得到与多个设定类别一一对应的概率。然后,将概率最高的设定类别,作为训练后的神经网络模型的输出,即针对该图像的分类结果。举例来说,设定类别包括人类、猫和狗,得到的概率分别为0.7、0.2和0.1,由于人类的概率最高,故将人类作为图像的类别。
在一些实施例中,还包括:当满足以下条件之一时,停止迭代处理:已经执行的迭代处理的轮数达到轮数阈值;已经执行的迭代处理的时长达到时长阈值;连续两轮迭代处理的采样性能指标之间的指标差异小于差异阈值;其中,采样性能指标为采样神经网络模型的性能指标;采样神经网络模型为与差异程度采样处理得到的差异程度对应的神经网络模型。
本申请实施例提供了迭代处理的三种停止条件,以下进行分别说明。
1)对迭代处理的轮数进行约束,即当已经执行的迭代处理的轮数达到轮数阈值时,停止进行迭代处理。
2)对迭代处理的时长进行约束,即当已经执行的迭代处理的时长达到时长阈值时,停止进行迭代处理。
3)对连续两轮的指标差异进行约束,即当连续两轮(即当前轮与上一轮)迭代处理的采样性能指标之间的指标差异小于差异阈值时,证明搜索已经趋于稳定,则停止进行迭代处理。其中,采样性能指标是指迭代处理过程中得到的采样神经网络模型的性能指标。在实际应用场景中,若对模型搜索的要求较高,还可以对连续三轮、连续四轮甚至连续更多轮的指标差异进行约束。
值得说明的是,上述的轮数阈值和时长阈值可以根据实际应用场景进行设定,对此不做限定。通过上述方式,能够提升停止条件的灵活性。
如图3A所示,本申请实施例以差异程度和性能指标为基础,结合贝叶斯优化的原理对搜索空间中的神经网络模型进行搜索,能够在花费较小的代价(即确定搜索空间中少部分的神经网络模型的性能指标)的情况下,搜索出性能指标较高的神经网络模型,从而提升执行数据任务的精度和效率。
在一些实施例中,参见图3B,图3B是本申请实施例提供的基于人工智能的模型搜索方法的一个流程示意图,图3A示出的步骤103可以通过步骤201至步骤204实现,将结合各步骤进行说明。
在步骤201中,在第i轮的迭代处理中,对至少部分神经网络模型的差异程度与性能指标之间的函数关系进行拟合处理,得到高斯过程模型。
这里,为了便于理解,以第i轮的迭代处理过程进行说明。在第i轮的迭代处理中,首先对参与第i轮的迭代处理的所有神经网络模型的差异程度与性能指标之间的函数关系进行拟合处理,得到函数代理模型。其中,函数代理模型可以是高斯过程模型、随机森林模型或树形结构Parzen估计器(Tree-structured Parzen Estimator,TPE)模型等。为了便于理解,这里以函数代理模型为高斯过程模型的情况进行说明,高斯过程模型用于描述差异程度的高斯分布,即对于输入每一个合法的差异程度,高斯过程模型均会输出相应的性能指标的均值和方差,对方差进行算术平方根处理即可得到标准差。
在步骤202中,在第i轮的迭代处理中,通过高斯过程模型对任意一个差异程度进行预测处理,并对预测处理得到的性能指标的均值和标准差进行融合处理,得到任意一个差异程度的采样效果指标。
例如,对于任意一个差异程度来说,可以通过高斯过程模型对该差异程度进行预测处理,得到均值和标准差。然后,可以基于得到的均值和标准差进行差异程度采样处理,在本申请实施例中,差异程度采样处理有两个方向,其一是探索(Explore),即希望选择有更大方差(或标准差)的数据,以探索新的空间;其二是利用(Exploit),即希望选择接近最大均值的数据,强化(利用)已有的结果。这里,可以利用采集函数来权衡这两个方向,以取得更好的采样效果,例如,通过采集函数对均值和标准差进行融合处理,得到该差异程度的采样效果指标,本申请实施例对采集函数的具体形式不做限定,后面进行示例说明。
在一些实施例中,可以通过这样的方式来实现上述的对预测处理得到的性能指标的均值和标准差进行融合处理,得到任意一个差异程度的采样效果指标:将均值减去迭代处理得到的最高的性能指标,得到指标差异;将指标差异除以标准差,得到第一中间参数;通过高斯过程模型的累积分布函数对第一中间参数进行处理,得到第一函数值;通过高斯过程模型的概率密度函数对第一中间参数进行处理,得到第二函数值;将指标差异作为第一函数值的权重,将标准差作为第二函数值的权重,以对第一函数值和第二函数值进行加权处理,得到采样效果指标。
本申请实施例中,采集函数可以是增益期望(Expected Improvement,EI)函数,用于估计新测量值(即采样性能指标)相较于历史最优值(即已确定出的所有性能指标中最高的性能指标)的增益的期望值。为了便于理解,以公式进行说明:
其中,x表示任意一个差异程度,μ(x)表示均值,σ(x)表示标准差,Z表示第一中间参数,f(x+)表示在已确定出的所有性能指标中最高的性能指标,μ(x)-f(x+)表示指标差异。另外,Φ()表示高斯过程模型所描述的高斯分布的累积分布函数(CumulativeDistribution Function,CDF),Φ(Z)表示第一函数值;φ()表示高斯过程模型所描述的高斯分布的概率密度函数(Probability Density Function,PDF),φ(Z)表示第二函数值。最终,对第一函数值和第二函数值进行加权求和,即可得到采样效果指标EI(x)。值得说明的是,在标准差σ(x)为零的情况下,直接确定采样效果指标EI(x)为零。
在一些实施例中,可以通过这样的方式来实现上述的对预测处理得到的性能指标的均值和标准差进行融合处理,得到任意一个差异程度的采样效果指标:将均值减去迭代处理得到的最高的性能指标,得到指标差异;将指标差异减去设定的权衡参数,并将得到的结果除以标准差,得到第二中间参数;通过高斯过程模型的累积分布函数对第二中间参数进行处理,得到采样效果指标。
本申请实施例中,采集函数还可以是增益概率(Probability of Improvement,PI)函数,用于估计新测量值优于历史最优值的概率。为了便于理解,以公式进行说明:
在一些实施例中,可以通过这样的方式来实现上述的对预测处理得到的性能指标的均值和标准差进行融合处理,得到任意一个差异程度的采样效果指标:执行以下任意一种处理:将均值与加权后的标准差进行求和处理,得到采样效果指标;将均值减去加权后的标准差,得到采样效果指标。
本申请实施例中,采集函数还可以是上置信界(Upper Confidence Bound,UCB)函数,用于估计新测量值的置信区间的最大值。为了便于理解,以公式进行说明:
UCB(x)=μ(x)+kσ(x)
其中,k表示用于对标准差σ(x)进行加权的权重,得到的采样效果指标即为UCB(x)。
此外,采集函数还可以是下置信界(Lower Confidence Bound,LCB)函数,用于估计新测量值的置信区间的最小值。为了便于理解,以公式进行说明:
LCB(x)=μ(x)-kσ(x)
其中,得到的采样效果指标即为LCB(x)。
通过上述方式,提升了融合处理的灵活性,根据实际应用场景的不同,可以采用EI函数、PI函数、UCB函数或LCB函数中的任意一种,来得到差异程度对应的采样效果指标。
在步骤203中,在第i轮的迭代处理中,在多个差异程度中确定采样效果指标最高的差异程度,以作为差异程度采样处理得到的差异程度。
这里,在通过步骤102确定出的多个差异程度中,确定对应的采样效果指标最高的差异程度,以作为差异程度采样处理得到的差异程度,即第i轮的迭代处理得到的采样点。
在步骤204中,在第i轮的迭代处理中,将与差异程度采样处理得到的差异程度对应的神经网络模型,作为用于进行第i+1轮的迭代处理的神经网络模型。
如图3B所示,本申请实施例通过拟合处理得到高斯过程模型,并结合高斯过程模型和采集函数进行差异程度采样处理,能够提升采样效果,即提升搜索出优质神经网络模型的概率。
在一些实施例中,参见图3C,图3C是本申请实施例提供的基于人工智能的模型搜索方法的一个流程示意图,图3A示出的步骤102可以通过步骤301至步骤303实现,将结合各步骤进行说明。
在步骤301中,将任意一个神经网络模型作为基准神经网络模型。
这里,将搜索空间中的任意一个神经网络模型作为基准神经网络模型。
在步骤302中,将基准神经网络模型映射为基准结构图,将目标神经网络模型映射为目标结构图。
在本申请实施例中,可以通过计算不同结构图之间的图编辑距离,来表示不同神经网络模型之间的差异程度。首先,将基准神经网络模型映射为基准结构图,将目标神经网络模型映射为目标结构图,其中,目标神经网络模型是搜索空间中的任意一个神经网络模型(可能是基准神经网络模型)。由于在神经网络模型中,神经元之间的连接是有向的,故这里映射出的结构图可以是有向无环图。
在步骤303中,确定将基准结构图转换为目标结构图时的图编辑距离,以作为基准神经网络模型与目标神经网络模型之间的差异程度。
图编辑距离是指将源图转换成目标图所需的最小编辑操作代价值之和(即所需的编辑操作的最少次数),能够较好地表达图之间的不相似性。这里,编辑操作可以包括6种,即包括节点(神经元)的删除、插入和替换操作,还包括边(神经元之间的连接)的删除、插入和替换操作。在得到基准结构图和目标结构图后,可以确定将基准结构图转换为目标结构图时的图编辑距离,以作为基准神经网络模型与目标神经网络模型之间的差异程度,其中,可以通过图编辑距离模型来确定将基准结构图转换为目标结构图时的图编辑距离,如基于启发式算法的图编辑距离模型或基于深度优先搜索的图编辑距离模型等。
在一些实施例中,可以通过这样的方式来实现上述的确定将基准结构图转换为目标结构图时的图编辑距离:对基准结构图及目标结构图进行特征提取处理,并确定基准结构图的特征与目标结构图的特征之间的差异特征;对差异特征进行注意力编码处理;对注意力编码处理后的差异特征进行全连接处理,得到将基准结构图转换为目标结构图时的图编辑距离。
这里,提供了图编辑距离模型的一种示例,图编辑距离模型可以包括图卷积神经网络(Graph Convolutional Network,GCN)模型、注意力(Attention)层以及全连接层,接下来进行分别说明。GCN模型用于对基准结构图及目标结构图进行特征提取处理,并确定提取出的基准结构图的特征与提取出的目标结构图的特征之间的差异特征;注意力层用于对差异特征进行注意力编码处理,注意力编码处理本质上是加权处理,目的是提取差异特征中关键的部分特征,即实现对差异特征的强化;全连接层用于对注意力编码处理后的差异特征进行全连接处理,即是将注意力编码处理后的差异特征映射为一个图编辑距离。
在图编辑距离模型的训练阶段,可以将图编辑距离模型视为一个端到端的模型,并通过样本源图、样本目标图、以及将样本源图转换为样本目标图时的样本图编辑距离,对该图编辑距离模型进行训练,即更新该图编辑距离模型的权重参数。其中,样本源图和样本目标图同样可以是有向无环图,样本图编辑距离可以通过人为标注得到,或者通过处理复杂度更大(更高)的图编辑距离模型得到。通过上述方式,能够在保证得到的图编辑距离的精度的基础上,提升确定图编辑距离的效率。
在一些实施例中,步骤303之前,还包括:通过第一图编辑距离模型,对样本源图和样本目标图进行距离计算处理,得到样本图编辑距离;根据样本源图、样本目标图以及样本图编辑距离,对第二图编辑距离模型进行训练;其中,第一图编辑距离模型的处理复杂度大于第二图编辑距离模型;训练后的第二图编辑距离模型用于对基准结构图及目标结构图进行距离计算处理,以得到将基准结构图转换为目标结构图时的图编辑距离。
这里,可以通过第一图编辑距离模型,对样本源图和样本目标图进行距离计算处理,得到样本图编辑距离。其中,第一图编辑距离模型可以是基于启发式算法的图编辑距离模型或基于深度优先搜索的图编辑距离模型等,其处理复杂度大于第二图编辑距离模型,第二图编辑距离模型如上述的包括GCN模型、注意力层以及全连接层的图编辑距离模型。
在得到样本图编辑距离后,即可根据样本源图、样本目标图以及样本图编辑距离,对第二图编辑距离模型进行训练。如此,便可通过训练后的第二图编辑距离模型,对基准结构图及目标结构图进行距离计算处理,得到图编辑距离。上述方式通过处理复杂度较大的第一图编辑距离模型来得到样本图编辑距离,进而对处理复杂度较小的第二图编辑距离模型进行训练,如此,在通过训练后的第二图编辑距离模型进行距离计算处理时,能够提升处理效率,更快速地得到图编辑距离。
如图3C所示,本申请实施例将神经网络模型映射为结构图,并将结构图之间的图编辑距离作为神经网络模型之间的差异程度,能够提升得到的差异程度的准确性。
在一些实施例中,参见图3D,图3D是本申请实施例提供的基于人工智能的模型搜索方法的一个流程示意图,图3A示出的步骤101可以通过步骤401至步骤403中的任意一个步骤实现,将结合各步骤进行说明。
在步骤401中,根据设定神经元数量以及设定神经元连接边数,生成结构不同的多个神经网络模型。
本申请实施例提供了三种生成神经网络模型的方式,以下进行分别说明。第一种方式中的约束条件是设定神经元数量以及设定神经元连接边数,即对于生成的每一个神经网络模型来说,神经网络模型包括的神经元数量等于设定神经元数量,且神经网络模型包括的神经元连接边数等于设定神经元连接边数。
在步骤402中,根据设定神经元数量、以及每两个神经元之间产生连接的设定概率,生成结构不同的多个神经网络模型。
第二种方式中的约束条件是设定神经元数量、以及每两个神经元之间产生连接的设定概率,该设定概率可根据实际应用场景进行具体设定,如设定为10%。对于生成的每一个神经网络模型来说,神经网络模型包括的神经元数量等于设定神经元数量。
在步骤403中,对初始神经网络模型进行多轮遗传处理,得到结构不同的多个神经网络模型;其中,每一轮遗传处理包括选择处理、交叉处理及变异处理中的至少一种。
在第三种方式中,可以基于遗传原理,在设定的初始神经网络模型的基础上进行多轮遗传处理,得到多个神经网络模型。对于每轮遗传处理来说,包括选择处理、交叉处理及变异处理中的至少一种,以下进行分别说明。
选择处理可以是指从上一轮遗传处理得到的神经网络模型中,选择部分神经网络模型进入本轮的遗传处理,这里,可以随机选择或者按照特定的选择概率进行选择。对于第一轮遗传处理来说,可以直接选择初始神经网络模型进入第一轮的遗传处理;或者,在初始神经网络模型的数量包括多个的情况下,也可以选择多个初始神经网络模型中的部分进入第一轮的遗传处理。
交叉处理可以是指针对每两个神经网络模型,根据设定的交叉概率判断是否进行神经元的交换,例如,将神经网络模型A的局部(例如包括多个神经元、以及多个神经元之间的连接)与神经网络模型B的局部进行交换。
变异处理可以是指针对每个神经网络模型中的每个神经元,根据设定的变异概率判断是否进行变异,如再增加一个神经元、或者删除神经元本身等。
值得说明的是,上述的选择处理、交叉处理及变异处理仅为示例,并不构成对本申请实施例的限定。
遗传处理的停止条件可以是已执行的遗传处理的轮数达到设定的遗传轮数阈值、或者已执行的遗传处理的时长达到设定的遗传时长阈值等,对此不做限定。另外,可以将最后一轮遗传处理得到的神经网络模型,作为生成的神经网络模型,也可以将所有轮遗传处理中得到的神经网络模型,作为生成的神经网络模型。
如图3D所示,本申请实施例提供了生成神经网络模型的三种方式,提升了灵活性,可以根据实际应用场景进行选用。
本申请实施例可以应用于各种类型的数据任务,如计算机视觉任务或自然语言处理任务等。作为示例,本申请实施例提供了如图6所示的基于人工智能的模型搜索方法的一个流程示意图,将结合图6示出的各个步骤进行说明。
在步骤501中,采用随机图模型生成结构不同的多个神经网络模型。
例如,神经网络模型可以是深度神经网络(Deep Neural Networks,DNN)模型,神经网络模型结构的多样性是确保所生成的神经网络模型候选集(即搜索空间)具有强学习表达能力的关键。由于神经网络模型可表示为有向无环图,因此,在本申请实施例中,可以随机图模型为基础,随机、快速地生成具有多样性的多个神经网络模型。
举例来说,可以通过以下两种模式中的任意一个,来生成多个神经网络模型:1)根据设定节点数量以及设定边数,生成多个神经网络模型,其中,设定节点数量对应上文的设定神经元数量,设定边数对应上文的设定神经元连接边数;2)根据设定节点数量、以及每两个节点之间产生边的概率,生成多个神经网络模型,其中,每两个节点之间产生边的概率对应上文的设定概率。值得说明的是,在本申请实施例中,除了通过随机图模型之外,还可以利用其它方式,如通过进化方法(如遗传算法)来生成多个神经网络模型。
有向无环图g可以表示一个二元组,即g=(V,E)。其中,V表示节点的集合,表示边的集合。图g中的边是由其两端的节点来表示,例如起始节点(起点)为u、终止节点(终点)为v的有向边可以表示为<u,v>。生成的多个神经网络模型可以统一表示为集合G,集合G中的每个元素g为一个有向无环图,即每个元素g都是一个神经网络模型,集合G也是本申请实施例中神经网络模型的搜索空间。
在步骤502中,利用已标注好样本图编辑距离的距离数据集,训练图编辑距离模型。
图编辑距离的概念是从字符串编辑距离延伸拓展到图结构上,图编辑距离是指将源图转换成目标图所需的最小编辑操作代价值之和(即所需的编辑操作的最少次数),能够较好地表达图之间的不相似性。这里,编辑操作可以包括6种,即包括节点的删除、插入和替换操作,还包括边的删除、插入和替换操作。举例来说,源图g1=(V1,E1),目标图g2=(V2,E2),则图编辑距离是指从源图g1转化为目标图g2所需的变形强度或相异度,衡量的是两个图之间的不相似性。
在本申请实施例中,可以通过距离数据集D来训练图编辑距离模型,距离数据集D中的每个样本为一个三元组(gi,gj,xij),其中,xij是从样本源图gi到样本目标图gj的样本图编辑距离。本申请实施例提供了如图7所示的图编辑距离模型的一个示意图,本申请实施例中使用的图编辑距离模型可以是一个端到端的模型,包括用于提取图之间的差异特征的GCN模型、用于进行注意力编码处理的注意力层、以及用于进行全连接处理的全连接层,当然,图7示出的结构仅为示例,并不构成对本申请实施例中的图编辑距离模型的限定。图编辑距离模型的输入的两个有向无环图,如样本源图gi和样本目标图gj,输出是这两个有向无环图之间的图编辑距离。
值得说明的是,距离数据集D中的样本图编辑距离xij可以由人为标注得到,或者通过精确图编辑距离模型(对应上文的第一图编辑距离模型)对样本源图gi和样本目标图gj进行计算得到,其中,精确图编辑距离模型如基于启发式算法的图编辑距离模型或基于深度优先搜索的图编辑距离模型等,且精确图编辑距离模型的处理复杂度大于图7所示的图编辑距离模型(图7所示的图编辑距离模型可视为近似图编辑距离模型,即对应上文的第二图编辑距离模型)。
在步骤503中,选定基准神经网络模型,并计算基准神经网络模型与生成的各神经网络模型之间的图编辑距离。
这里,从步骤501中生成的集合G中随机选择一个gi,以作为基准神经网络模型,其中,0<i≤N,N为集合G中的元素数量。然后,遍历集合G,将遍历到的神经网络模型记为gj,并计算基准神经网络模型gi与gj之间的图编辑距离xij,得到(gj,xij)。其中,当j=i时,得到(gj,0)。最后,根据所有的(gj,xij)构建集合X。
在步骤504中,利用贝叶斯优化不断选择神经网络模型,训练并得到模型评价指标,拟合代理模型。
贝叶斯优化能够在少数次评估下得到复杂函数关系的最优解,本质上,贝叶斯优化使用代理模型(对应上文的函数代理模型)拟合真实的函数关系,并根据拟合结果主动选择最有“潜力”的神经网络模型进行下一轮迭代,从而避免了不必要的采样,能够有效地利用历史搜索情况来提升搜索效率。为了便于理解,以步骤形式进行说明贝叶斯优化的过程。
1)获取数据任务对应的数据集,并划分为训练集和测试集。这里,以数据任务为计算机视觉任务为例,将获取到的CIFAR-10数据集A划分为训练集A1和测试集A2。
2)初始化,从集合X中随机选择若干组数据(gj,xij),通过训练集A1训练神经网络模型gj,并以训练后的gj在测试集A2上的准确率yj作为模型评价指标(对应上文的性能指标)。
3)针对已确定出模型评价指标的所有gj,采用高斯过程模型做为代理模型,来拟合图编辑距离与模型评价指标之间的函数关系。这里,代理模型也可以采用随机森林模型或TPE模型等,并不限于高斯过程模型。作为示例,图7中示出了高斯过程模型的表现形式:f(x)~GP(m(x),k(x,x'))。其中,x表示图编辑距离,f(x)表示模型评价指标,m(x)表示f(x)的数学期望E(f(x)),k(x,x')为核函数,用于描述x的协方差。
4)通过采集函数在探索不确定性区域和利用已知具有较优模型评价指标的区域之间进行权衡,确定下一个采样点。这里以采集函数为EI函数为例,EI函数会选择具有最大期望提高的点作为下一个采样点,这里以x*表示,x*即对应上文的差异程度采样处理得到的差异程度。作为示例,图7中示出了公式xt+1=maxx∈Xat(x;D1:t),其中,xt+1即为下一个采样点x*,at(x;D1:t)表示采集函数,D1:t表示本轮迭代处理中用于拟合的t组观测数据,每一组观测数据包括一个图编辑距离以及一个模型评价指标。
5)选择x*(x*同样位于集合X中)对应的神经网络模型,通过训练集A1训练该神经网络模型,以训练后的该神经网络模型在测试集A2上的准确率y*作为模型评价指标,并进入步骤3),即进入下一轮迭代处理。
在步骤505中,满足设定的停止条件时,输出最优的神经网络模型。
例如,停止条件可以是迭代处理的轮数达到轮数阈值、迭代处理的时长达到时长阈值、或者连续两轮迭代处理得到的y*之间的差异小于差异阈值等。当满足停止条件时,停止进行迭代处理,并在已确定出模型评价指标的所有神经网络模型中,选择模型评价指标最高的神经网络模型(即最优的神经网络模型)进行输出,完成搜索。
本申请实施例从神经网络模型的生成、基于图编辑距离的不相似性度量、以及基于贝叶斯优化的神经网络模型自动搜索三个方面,系统地实现了模型搜索,至少具有以下技术效果:
1)由于神经网络模型可表示为有向无环图,因此以随机图模型为基础,随机、快速生成结构不同的多个神经网络模型,实现了搜索空间的快速构建。
2)本申请实施例中利用GCN模型和注意力机制,训练一个端到端的图编辑距离模型,相较于传统方式,能够更加快速、准确地计算图编辑距离。
3)以图编辑距离和模型评价指标为基础,结合贝叶斯优化方法,能够较为高效地找到最优的神经网络模型。相较于相关技术提供的方案,本申请实施例在搜索效率及搜索得到的神经网络模型的复杂度两个方面存在优势,即搜索效率更快,最终得到的神经网络模型的复杂度更低,适于执行数据任务,如计算机视觉任务或自然语言处理任务等。
4)通过自动搜索神经网络模型,能够有效减少人工设计模型结构,以及人工调整权重参数的时间成本。
下面继续说明本申请实施例提供的基于人工智能的模型搜索装置455实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器450的基于人工智能的模型搜索装置455中的软件模块可以包括:生成模块4551,用于生成结构不同的多个神经网络模型;差异确定模块4552,用于将任意一个神经网络模型作为基准神经网络模型,并确定基准神经网络模型与每个神经网络模型之间的差异程度;迭代模块4553,用于执行以下迭代处理:对至少部分神经网络模型的差异程度与性能指标之间的函数关系进行拟合处理,根据拟合处理得到的函数代理模型进行差异程度采样处理,并将与差异程度采样处理得到的差异程度对应的神经网络模型,作为用于进行下一轮的迭代处理的神经网络模型;任务执行模块4554,用于当迭代处理停止时,根据迭代处理得到的性能指标最高的神经网络模型执行数据任务。
在一些实施例中,函数代理模型为高斯过程模型;迭代模块4553,还用于:通过高斯过程模型对任意一个差异程度进行预测处理,并对预测处理得到的性能指标的均值和标准差进行融合处理,得到任意一个差异程度的采样效果指标;在多个差异程度中确定采样效果指标最高的差异程度,以作为差异程度采样处理得到的差异程度。
在一些实施例中,迭代模块4553,还用于:将均值减去迭代处理得到的最高的性能指标,得到指标差异;将指标差异除以标准差,得到第一中间参数;通过高斯过程模型的累积分布函数对第一中间参数进行处理,得到第一函数值;通过高斯过程模型的概率密度函数对第一中间参数进行处理,得到第二函数值;将指标差异作为第一函数值的权重,将标准差作为第二函数值的权重,以对第一函数值和第二函数值进行加权处理,得到采样效果指标。
在一些实施例中,迭代模块4553,还用于:将均值减去迭代处理得到的最高的性能指标,得到指标差异;将指标差异减去设定的权衡参数,并将得到的结果除以标准差,得到第二中间参数;通过高斯过程模型的累积分布函数对第二中间参数进行处理,得到采样效果指标。
在一些实施例中,迭代模块4553,还用于:执行以下任意一种处理:将均值与加权后的标准差进行求和处理,得到采样效果指标;将均值减去加权后的标准差,得到采样效果指标。
在一些实施例中,差异确定模块4552,还用于:将基准神经网络模型映射为基准结构图,将目标神经网络模型映射为目标结构图;确定将基准结构图转换为目标结构图时的图编辑距离,以作为基准神经网络模型与目标神经网络模型之间的差异程度;其中,目标神经网络模型为多个神经网络模型中的任意一个。
在一些实施例中,差异确定模块4552,还用于:对基准结构图及目标结构图进行特征提取处理,并确定基准结构图的特征与目标结构图的特征之间的差异特征;对差异特征进行注意力编码处理;对注意力编码处理后的差异特征进行全连接处理,得到将基准结构图转换为目标结构图时的图编辑距离。
在一些实施例中,基于人工智能的模型搜索装置455还包括:距离计算模块,用于通过第一图编辑距离模型,对样本源图和样本目标图进行距离计算处理,得到样本图编辑距离;距离模块训练模块,用于根据样本源图、样本目标图以及样本图编辑距离,对第二图编辑距离模型进行训练;其中,第一图编辑距离模型的处理复杂度大于第二图编辑距离模型;训练后的第二图编辑距离模型用于对基准结构图及目标结构图进行距离计算处理,以得到将基准结构图转换为目标结构图时的图编辑距离。
在一些实施例中,生成模块4551,还用于:执行以下任意一种处理:根据设定神经元数量以及设定神经元连接边数,生成结构不同的多个神经网络模型;根据设定神经元数量、以及每两个神经元之间产生连接的设定概率,生成结构不同的多个神经网络模型;对初始神经网络模型进行多轮遗传处理,得到结构不同的多个神经网络模型;其中,每一轮遗传处理包括选择处理、交叉处理及变异处理中的至少一种。
在一些实施例中,迭代模块4553,还用于:通过数据任务的训练集对神经网络模型进行训练;通过数据任务的测试集,确定训练后的神经网络模型的性能指标。
在一些实施例中,迭代模块4553,还用于:在迭代处理得到的多个训练后的神经网络模型中,确定性能指标最高的训练后的神经网络模型,以执行数据任务。
在一些实施例中,基于人工智能的模型搜索装置455还包括:停止模块,用于当满足以下条件之一时,停止迭代处理:已经执行的迭代处理的轮数达到轮数阈值;已经执行的迭代处理的时长达到时长阈值;连续两轮迭代处理的采样性能指标之间的指标差异小于差异阈值;其中,采样性能指标为采样神经网络模型的性能指标;采样神经网络模型为与差异程度采样处理得到的差异程度对应的神经网络模型。
在一些实施例中,迭代模块4553,还用于:确定采样神经网络模型的性能指标;其中,采样神经网络模型为与差异程度采样处理得到的差异程度对应的神经网络模型;将采样神经网络模型、以及其他的具有性能指标的多个神经网络模型,作为用于进行下一轮的迭代处理的神经网络模型。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的基于人工智能的模型搜索方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图3A、图3B、图3C、图3D及图6示出的基于人工智能的模型搜索方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (15)
1.一种基于人工智能的模型搜索方法,其特征在于,所述方法包括:
生成结构不同的多个神经网络模型;
将任意一个所述神经网络模型作为基准神经网络模型,并确定所述基准神经网络模型与每个所述神经网络模型之间的差异程度;
执行以下迭代处理:对至少部分所述神经网络模型的差异程度与性能指标之间的函数关系进行拟合处理,根据所述拟合处理得到的函数代理模型进行差异程度采样处理,并将与所述差异程度采样处理得到的差异程度对应的神经网络模型,作为用于进行下一轮的迭代处理的神经网络模型;
当所述迭代处理停止时,根据所述迭代处理得到的性能指标最高的神经网络模型执行数据任务。
2.根据权利要求1所述的方法,其特征在于,
所述函数代理模型为高斯过程模型;
所述根据所述拟合处理得到的函数代理模型进行差异程度采样处理,包括:
通过所述高斯过程模型对任意一个所述差异程度进行预测处理,并对预测处理得到的性能指标的均值和标准差进行融合处理,得到任意一个所述差异程度的采样效果指标;
在多个所述差异程度中确定采样效果指标最高的差异程度,以作为所述差异程度采样处理得到的差异程度。
3.根据权利要求2所述的方法,其特征在于,所述对预测处理得到的性能指标的均值和标准差进行融合处理,得到任意一个所述差异程度的采样效果指标,包括:
将所述均值减去所述迭代处理得到的最高的性能指标,得到指标差异;
将所述指标差异除以所述标准差,得到第一中间参数;
通过所述高斯过程模型的累积分布函数对所述第一中间参数进行处理,得到第一函数值;
通过所述高斯过程模型的概率密度函数对所述第一中间参数进行处理,得到第二函数值;
将所述指标差异作为所述第一函数值的权重,将所述标准差作为所述第二函数值的权重,以对所述第一函数值和所述第二函数值进行加权处理,得到采样效果指标。
4.根据权利要求2所述的方法,其特征在于,所述对预测处理得到的性能指标的均值和标准差进行融合处理,得到任意一个所述差异程度的采样效果指标,包括:
将所述均值减去所述迭代处理得到的最高的性能指标,得到指标差异;
将所述指标差异减去设定的权衡参数,并将得到的结果除以所述标准差,得到第二中间参数;
通过所述高斯过程模型的累积分布函数对所述第二中间参数进行处理,得到采样效果指标。
5.根据权利要求2所述的方法,其特征在于,所述对预测处理得到的性能指标的均值和标准差进行融合处理,得到任意一个所述差异程度的采样效果指标,包括:
执行以下任意一种处理:
将所述均值与加权后的所述标准差进行求和处理,得到采样效果指标;
将所述均值减去加权后的所述标准差,得到采样效果指标。
6.根据权利要求1所述的方法,其特征在于,所述确定所述基准神经网络模型与每个所述神经网络模型之间的差异程度,包括:
将所述基准神经网络模型映射为基准结构图,将目标神经网络模型映射为目标结构图;
确定将所述基准结构图转换为所述目标结构图时的图编辑距离,以作为所述基准神经网络模型与所述目标神经网络模型之间的差异程度;
其中,所述目标神经网络模型为所述多个神经网络模型中的任意一个。
7.根据权利要求6所述的方法,其特征在于,所述确定将所述基准结构图转换为所述目标结构图时的图编辑距离,包括:
对所述基准结构图及所述目标结构图进行特征提取处理,并确定所述基准结构图的特征与所述目标结构图的特征之间的差异特征;
对所述差异特征进行注意力编码处理;
对所述注意力编码处理后的所述差异特征进行全连接处理,得到将所述基准结构图转换为所述目标结构图时的图编辑距离。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
通过第一图编辑距离模型,对样本源图和样本目标图进行距离计算处理,得到样本图编辑距离;
根据所述样本源图、所述样本目标图以及所述样本图编辑距离,对第二图编辑距离模型进行训练;
其中,所述第一图编辑距离模型的处理复杂度大于所述第二图编辑距离模型;训练后的所述第二图编辑距离模型用于对所述基准结构图及所述目标结构图进行距离计算处理,以得到将所述基准结构图转换为所述目标结构图时的图编辑距离。
9.根据权利要求1至8任一项所述的方法,其特征在于,所述生成结构不同的多个神经网络模型,包括:
执行以下任意一种处理:
根据设定神经元数量以及设定神经元连接边数,生成结构不同的多个神经网络模型;
根据设定神经元数量、以及每两个神经元之间产生连接的设定概率,生成结构不同的多个神经网络模型;
对初始神经网络模型进行多轮遗传处理,得到结构不同的多个神经网络模型;其中,每一轮遗传处理包括选择处理、交叉处理及变异处理中的至少一种。
10.根据权利要求1至8任一项所述的方法,其特征在于,所述方法还包括:
通过所述数据任务的训练集对所述神经网络模型进行训练;
通过所述数据任务的测试集,确定训练后的所述神经网络模型的性能指标;
所述根据所述迭代处理得到的性能指标最高的神经网络模型执行数据任务,包括:
在所述迭代处理得到的多个训练后的神经网络模型中,确定性能指标最高的训练后的神经网络模型,以执行所述数据任务。
11.根据权利要求1至8任一项所述的方法,其特征在于,所述方法还包括:
当满足以下条件之一时,停止所述迭代处理:
已经执行的所述迭代处理的轮数达到轮数阈值;
已经执行的所述迭代处理的时长达到时长阈值;
连续两轮所述迭代处理的采样性能指标之间的指标差异小于差异阈值;
其中,所述采样性能指标为采样神经网络模型的性能指标;所述采样神经网络模型为与所述差异程度采样处理得到的差异程度对应的神经网络模型。
12.根据权利要求1至8任一项所述的方法,其特征在于,所述将与所述差异程度采样处理得到的差异程度对应的神经网络模型,作为用于进行下一轮的迭代处理的神经网络模型,包括:
确定采样神经网络模型的性能指标;其中,采样神经网络模型为与所述差异程度采样处理得到的差异程度对应的神经网络模型;
将所述采样神经网络模型、以及其他的具有性能指标的多个所述神经网络模型,作为用于进行下一轮的迭代处理的神经网络模型。
13.一种基于人工智能的模型搜索装置,其特征在于,所述装置包括:
生成模块,用于生成结构不同的多个神经网络模型;
差异确定模块,用于将任意一个所述神经网络模型作为基准神经网络模型,并确定所述基准神经网络模型与每个所述神经网络模型之间的差异程度;
迭代模块,用于执行以下迭代处理:对至少部分所述神经网络模型的差异程度与性能指标之间的函数关系进行拟合处理,根据所述拟合处理得到的函数代理模型进行差异程度采样处理,并将与所述差异程度采样处理得到的差异程度对应的神经网络模型,作为用于进行下一轮的迭代处理的神经网络模型;
任务执行模块,用于当所述迭代处理停止时,根据所述迭代处理得到的性能指标最高的神经网络模型执行数据任务。
14.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的基于人工智能的模型搜索方法。
15.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至12任一项所述的基于人工智能的模型搜索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011287865.2A CN112561031A (zh) | 2020-11-17 | 2020-11-17 | 基于人工智能的模型搜索方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011287865.2A CN112561031A (zh) | 2020-11-17 | 2020-11-17 | 基于人工智能的模型搜索方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112561031A true CN112561031A (zh) | 2021-03-26 |
Family
ID=75043181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011287865.2A Pending CN112561031A (zh) | 2020-11-17 | 2020-11-17 | 基于人工智能的模型搜索方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112561031A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113240109A (zh) * | 2021-05-17 | 2021-08-10 | 北京达佳互联信息技术有限公司 | 网络训练的数据处理方法、装置、电子设备、存储介质 |
CN113674235A (zh) * | 2021-08-15 | 2021-11-19 | 上海立芯软件科技有限公司 | 一种基于主动熵采样和模型校准的低代价光刻热点检测方法 |
CN115099393A (zh) * | 2022-08-22 | 2022-09-23 | 荣耀终端有限公司 | 神经网络结构搜索方法及相关装置 |
TWI779626B (zh) * | 2021-05-25 | 2022-10-01 | 宏碁股份有限公司 | 載入人工智慧模組的方法 |
CN117648673A (zh) * | 2024-01-29 | 2024-03-05 | 深圳海云安网络安全技术有限公司 | 一种基于大模型的安全编码规范多标融合方法及系统 |
-
2020
- 2020-11-17 CN CN202011287865.2A patent/CN112561031A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113240109A (zh) * | 2021-05-17 | 2021-08-10 | 北京达佳互联信息技术有限公司 | 网络训练的数据处理方法、装置、电子设备、存储介质 |
TWI779626B (zh) * | 2021-05-25 | 2022-10-01 | 宏碁股份有限公司 | 載入人工智慧模組的方法 |
CN113674235A (zh) * | 2021-08-15 | 2021-11-19 | 上海立芯软件科技有限公司 | 一种基于主动熵采样和模型校准的低代价光刻热点检测方法 |
CN113674235B (zh) * | 2021-08-15 | 2023-10-10 | 上海立芯软件科技有限公司 | 一种基于主动熵采样和模型校准的低代价光刻热点检测方法 |
CN115099393A (zh) * | 2022-08-22 | 2022-09-23 | 荣耀终端有限公司 | 神经网络结构搜索方法及相关装置 |
CN117648673A (zh) * | 2024-01-29 | 2024-03-05 | 深圳海云安网络安全技术有限公司 | 一种基于大模型的安全编码规范多标融合方法及系统 |
CN117648673B (zh) * | 2024-01-29 | 2024-05-03 | 深圳海云安网络安全技术有限公司 | 一种基于大模型的安全编码规范多标融合方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112561031A (zh) | 基于人工智能的模型搜索方法、装置及电子设备 | |
US11403554B2 (en) | Method and apparatus for providing efficient testing of systems by using artificial intelligence tools | |
CN111708876B (zh) | 生成信息的方法和装置 | |
CN111651671B (zh) | 用户对象推荐方法、装置、计算机设备和存储介质 | |
Muduli et al. | CPT-based probabilistic evaluation of seismic soil liquefaction potential using multi-gene genetic programming | |
Abdelbari et al. | A computational intelligence‐based method to ‘learn’causal loop diagram‐like structures from observed data | |
US20190228297A1 (en) | Artificial Intelligence Modelling Engine | |
CN112819024B (zh) | 模型处理方法、用户数据处理方法及装置、计算机设备 | |
CN113326900A (zh) | 联邦学习模型的数据处理方法、装置及存储介质 | |
CN112417267A (zh) | 一种用户行为分析方法、装置、计算机设备及存储介质 | |
CN110245310B (zh) | 一种对象的行为分析方法、装置及存储介质 | |
CN112817563A (zh) | 目标属性配置信息确定方法、计算机设备和存储介质 | |
Turgut et al. | A framework proposal for machine learning-driven agent-based models through a case study analysis | |
CN114880482A (zh) | 一种基于图嵌入的关系图谱关键人员分析方法及系统 | |
CN113610299A (zh) | 基于特征衰减强化神经网络的信息传播预测方法及装置 | |
CN110705279A (zh) | 一种词汇表的选择方法、装置及计算机可读存储介质 | |
CN112394982A (zh) | 生成语音识别系统的方法、装置、介质及电子设备 | |
CN116992151A (zh) | 一种基于双塔图卷积神经网络的在线课程推荐方法 | |
Kavikondala et al. | Automated retraining of machine learning models | |
Kozlova et al. | Development of the toolkit to process the internet memes meant for the modeling, analysis, monitoring and management of social processes | |
CN116307078A (zh) | 账户标签预测方法、装置、存储介质及电子设备 | |
CN115631008B (zh) | 商品推荐方法、装置、设备及介质 | |
CN114611990A (zh) | 一种网络信息体系要素体系贡献率评估方法和装置 | |
CN112818658B (zh) | 文本对分类模型的训练方法、分类方法、设备及存储介质 | |
CN114298327A (zh) | 联邦学习模型的数据处理方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |