CN109961142B

CN109961142B - 一种基于元学习的神经网络优化方法及装置

Info

Publication number: CN109961142B
Application number: CN201910173076.7A
Authority: CN
Inventors: 蔡富琳; 谭奔; 刘大鹏; 肖磊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2023-05-12
Anticipated expiration: 2039-03-07
Also published as: CN109961142A

Abstract

本发明公开了一种基于元学习的神经网络优化方法及装置，所述方法包括：部署多个机器学习任务，每个机器学习任务均运行于学习框架中，每个学习框架均包括神经网络本体和神经网络优化器，所述神经网络优化器用于对与其对应的神经网络本体的参数权重进行调整；设置元学习组合优化器；基于所述元学习组合优化器拟合机器学习任务运行过程中各个神经网络组合的状态特征与质量参数的映射关系；响应于优化指令，使用所述元学习组合优化器输出组合优化策略；使用所述组合优化策略对待优化的神经网络进行优化。本发明可以为各种学习任务自适应输出表现较佳的优化器及其组合，从而得到最佳优化效果。

Description

一种基于元学习的神经网络优化方法及装置

技术领域

本发明涉及神经网络领域，尤其涉及一种基于元学习的神经网络优化方法。

背景技术

随着神经网络学习技术的不断发展，其能够广泛应用于预测、推荐等多种场景，其中神经网络优化(神经网络的参数调整策略)对于神经网络模型的准确度有直接的影响。但是，神经网络优化仍然较大程度依赖人工设计的有关算法，并通过人工交叉验证，对网络结构和优化算法的可能超参数组合进行探索训练，根据各组合优化后的模型结果择优使用。然而，在不同数据、不同场景、神经网络被优化的不同阶段，参数的调节策略有显著地差异，这就使得现有技术中的神经网络优化至少存在下述问题：

(1)人工设计规则不能满足所有的场景，组合探索需要消耗大量的人力和物力；

(2)不能很好地适应神经网络模型的持续更新，无法达到自适应的效果。

发明内容

本发明提供了一种基于元学习的神经网络优化方法。

一方面，本发明提供了一种基于元学习的神经网络优化方法，所述方法包括：

部署多个机器学习任务，每个机器学习任务均运行于学习框架中，每个学习框架均包括神经网络本体和神经网络优化器，所述神经网络优化器用于对与其对应的神经网络本体的参数权重进行调整；

设置元学习组合优化器；

基于所述元学习组合优化器拟合机器学习任务运行过程中各个神经网络组合的状态特征与质量参数的映射关系，每个神经网络组合中包括至少一个神经网络，所述神经网络包括神经网络本体、所述神经网络本体对应的参数、所述神经网络本体对应的优化器；

响应于优化指令，使用所述元学习组合优化器输出组合优化策略，所述组合优化策略包括满足预设要求的神经网络组合所对应的优化器组合；

使用所述组合优化策略对待优化的神经网络进行优化。

另一方面，本发明提供了一种基于元学习的神经网络优化装置，所述装置包括：

学习任务部署模块，用于部署多个机器学习任务，每个机器学习任务均运行于学习框架中，每个学习框架均包括神经网络本体和神经网络优化器，所述神经网络优化器用于对与其对应的神经网络本体的参数权重进行调整；

元学习组合优化器设置模块，用于设置元学习组合优化器；

优化策略学习模块，用于基于所述元学习组合优化器拟合机器学习任务运行过程中各个神经网络组合的状态特征与质量参数的映射关系，每个神经网络组合中包括至少一个神经网络，所述神经网络包括神经网络本体、所述神经网络本体对应的参数、所述神经网络本体对应的优化器；

优化策略输出模块，用于响应于优化指令，使用所述元学习组合优化器输出组合优化策略，所述组合优化策略包括满足预设要求的神经网络组合所对应的优化器组合；

优化模块，用于使用所述组合优化策略对待优化的神经网络进行优化。

本发明提供的一种基于元学习的神经网络优化方法及装置，通过在进行探索性的优化求解，找出不同数据在不同网络状态下对应的最优参数的配置情况，同时设计元学习组合优化器学习这些网络状态表现和最优参数配置的关系，可以为各种学习任务自适应输出表现较佳的优化器及其组合，从而得到最佳优化效果。降低了网络模型优化门槛，节约模型优化过程中的时间和人力成本，并提供更快的优化速度和高准确度的优化结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明提供的神经网络从被训练到投入到使用场景中经过的环节示意图；

图2是本发明提供的一种基于元学习的神经网络优化方法流程图；

图3是本发明提供的元学习机制流程图；

图4是本发明提供的使用所述元学习组合优化器输出组合优化策略流程图；

图5是本发明提供的深度神经网络模型示意图；

图6是本发明提供的深度神经网络的学习方法流程图；

图7是本发明提供的神经网络优化的示意图；

图8是本发明提供的一种基于元学习的神经网络优化装置框图；

图9是本发明提供的优化策略学习模块框图；

图10是本发明提供的优化策略输出模块框图；

图11是本发明提供的一种用于实现本发明实施例所提供的方法的设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

神经网络从被训练到投入到使用场景中通常至少要经过多个环节，如图1所示，包括下述环节：

首先，获取用于训练神经网络的大量数据，通过采集和适配于使用场景的数据处理策略得到用于训练神经网络的样本数据集。

第二，训练神经网络。训练神经网络的目的在于寻找一个目标函数，并使得目标函数值与实际真实值之间的差异满足预设要求，然而这个目标函数的具体形式是未知的，而目标函数的质量与神经网络预设定的参数权重密切相关。

第三，神经网络质量评估。对训练好的神经网络的模型质量进行评估，所述模型质量包括但不限于所述神经网络运行性能、准确度和/或鲁棒性。

第四，神经网络部署。将神经网络部署于实际的使用场景，完成相应功能。

根据上述描述可知，神经网络预设定的参数对于神经网络的质量存在较大影响，进而影响到神经网络在实际使用场景的表现，而神经网络预设定的参数的权重调整规则复杂多变，人工设定难以满足实际需求，从而产生了神经网络优化问题。

有鉴于此，本发明实施例公开了一种基于元学习的神经网络优化方法。本发明实施例所述的神经网络优化包括神经网络参数的权重调整，将神经网络视为神经网络本体、对应的优化器和神经网络参数的当前参数权重的综合体，神经网络本体、对应的优化器和神经网络参数的当前参数权重任一发生变动，将产生一个新的神经网络，本发明实施例并不限定神经网络的具体结构，其可以为深度神经网络。

所述优化方法如图2所示，包括：

S101.部署多个机器学习任务，每个机器学习任务均运行于学习框架中，每个学习框架均包括神经网络本体和神经网络优化器，所述神经网络优化器用于对与其对应的神经网络本体的参数权重进行调整。

具体地，所述学习框架即为执行所述机器学习任务的“机器”，其包括神经网络本体和神经网络优化器，基于同一个神经网络本体，变更其参数权重，将产生一个新的神经网络，而每一个神经网络都可以独立作为执行某个机器学习任务的“机器”，而被单独或与其它神经网络组合应用于具体的使用场景之中。

S102.设置元学习组合优化器。

具体地，所述元学习组合优化器也可以使用本发明实施例中的机器学习框架来构建，也可以使用现有技术中的神经网络，本发明实施例并不限定其使用的具体的网络结构和参数调整策略。

所述元学习组合优化器通过元学习方法来学习各个学习框架中神经网络优化器的优化策略，并拟合所述优化策略与其优化效果的映射。

本发明实施例中使用的元学习是“为学习而学习”，基于事先学习机制，提高后续学习任务最终效果。元学习机制的一大应用是算法选择，如分类任务中分类算法的选择和优化任务中优化算法的选择。元学习可以是通过监督学习方式挖掘机器学习框架处于各个阶段中神经网络的状态特征和质量参数的映射关系，并根据新学习任务的特征预估神经网络的性能。

S103.基于所述元学习组合优化器拟合机器学习任务运行过程中各个神经网络组合的状态特征与质量参数的映射关系，每个神经网络组合中包括至少一个神经网络，所述神经网络包括神经网络本体、所述神经网络本体对应的参数、所述神经网络本体对应的优化器。

具体地，所述元学习组合优化器可以执行这样一种元学习机制，从而得到具有最佳表现的神经网络组合。所述元学习机制如图3所示，包括下述步骤：

S1.在每个机器学习任务运行的各个阶段，提取所述机器学习任务对应的学习框架的元特征，所述元特征包括状态特征和质量参数。

本发明实施例中随着机器学习任务的行进，神经网络优化器对神经网络本体进行不断优化，从而使得神经网络本体的参数被不断改变，而每一个具体时刻所述神经网络本体以及所述神经网络本体对应的参数为固定值，这一神经网络本体以及所述神经网络本体对应的参数构成了一个神经网络，这一神经网络的元特征即为本步骤中学习框架的元特征的实际含义，元特征不仅包括了神经网络的状态特征，也包括其质量参数。

S2.根据元特征生成元学习样本。

在具体提取元特征的过程中，可以随机隔代地对学习框架中的神经网络模型进行保存，并对保存结果进行特征抽取和性能评估，从而产生元学习样本。

所述元特征的状态特征部分，用于描述某个固定时刻学习框架中的神经网络的状态，状态特征的构建或选择可以根据实际需要进行变动，本发明实施例并不限定其具体内容。

在一个可行的实施方式中，所述状态特征可以包括神经网络的损失函数信息，或当前输入样本的损失函数值的统计指标。一般损失函数可以定义为平方损失函数、指数损失函数、负的似然函数等等

在另一个可行的实施方式中，所述状态特征可以包括各个神经网络的节点输出值相关的统计指标。

在另一个可行的实施方式中，所述状态特征可以包括当前梯度信息与上一阶段梯度信息差距。

具体地，本发明实施例中统计指标可以以百分比衡量，包括但不限于均值、方差、中位数、熵、斜度、峰度等特征量。

所述元特征的质量参数部分，用于描述某个固定时刻学习框架中的神经网络的质量。其中质量的评估方式在不同的使用场景中有不同的含义。比如，在一些涉及网络安全的应用场景中，较多考虑神经网络模型的稳定性；在一些涉及广告投放的应用场景中，较多考虑神经网络模型的精确性。所述质量参数可以基于实际需求进行构建，本发明实施例并不限定其具体的构建方式和表现形式，当然，其可以与损失函数值相关，即围绕损失函数值进行质量参数的构建，本发明实施例不做赘述。

S3.获取神经网络组合。

具体地，所述神经网络组合可以通过枚举方式得到。

S4.基于所述元学习样本训练元学习组合优化器，并基于训练结果得到各个神经网络组合的状态特征与质量参数的映射关系。

S104.响应于优化指令，使用所述元学习组合优化器输出组合优化策略，所述组合优化策略包括满足预设要求的神经网络组合所对应的优化器组合。

具体地，所述预设要求可以为根据各个神经网络组合的质量参数对其进行降序排列，质量参数高的神经网络组合排名靠前，相对的，质量参数低的神经网络组合排名靠后，并根据排名进行组合优化策略的输出。具体地，使用所述元学习组合优化器输出组合优化策略，如图4所示，包括：

S1041.根据各个神经网络组合的质量参数对各个神经网络进行排序。

排名靠前的神经网络组合被认定为表现较好，相对的，排名靠后的神经网络组合被认定为表现较差。

S1043.按照预设规则从排序结果中输出神经网络组合。

具体地，可以选择排在第一位的神经网络组合进行输出，也可以选择排名靠前的多个神经网络的加权结果进行输出。

S1045.输出神经网络组合对应的优化器组合。

S105.使用所述组合优化策略对待优化的神经网络进行优化。

具体地，对待优化的神经网络进行优化过程中待优化神经网络的状态特征和质量参数也可以被随机隔代获取下来，生成元特征，作为所述元学习组合优化器的训练数据，以达到基于每次优化结果对元学习组合优化器进行训练的目的，从而提升元学习组合优化器的准确度。

进一步地，还可以通过扩充各个优化器覆盖的算法提升元学习机制的性能，越丰富的算法可以使得元学习组合优化器得到越全面的求解性能。本发明实施例中各类学习框架中的优化器可以为学习任务提供“阶段性合适”的优化方法，并在实际的元学习组合优化器的训练过程中，将学习任务的每个优化阶段视为一个独立的优化情况，从而为各个状态提供更优更鲁棒的优化策略。这样，不仅能够在离线学习任务上取得更快速的收敛和更优的最终结果，在在线增量学习任务中，依然能够保持每次模型更新使用的优化器组合具备较佳表现。

本发明实施例中神经网络本体、神经网络本体对应的优化器以及元学习组合优化器可以使用相同或不同的神经网络模型。具体地，本发明实施例提供一种可作为神经网络本体、神经网络本体对应的优化器以及元学习组合优化器的深度神经网络模型。

具体地，如图5所示，所述深度神经网络模型包括输入层、中间隐藏层和输出层。输入层中的节点表示样本的特征，输入层节点和中间隐藏层节点之间的边表示节点之间的连接权重，中间隐藏层节点接受来自输入层节点的信号，经过激活函数作用后产生输出值，传给其下一层的节点，其输出层和输入层特征之间的计算关系f(X,W)使用来表示，其中X,W分别对应于输入和输出。深度神经网络学习过程即求解优化方程

其中L(y_i,f(X_i,W))为损失函数，R(W)为正则化项，避免模型过拟合，m标识节点。求解优化方程的目的在于寻找一组最优的W，使得f(X,W)在所述二元组X_i的损失最小。

本发明实施例进一步提供深度神经网络的学习方法，如图6所示，包括：

S10.设定深度神经网络的参数权重。

具体地，本发明实施例中的参数包括步长ε，指数衰减率ρ₁和指数衰减率ρ₂。这三个参数即可使用本发明实施例中的优化方法进行优化。

S20.初始化一阶矩信息、二阶矩信息、时间控制变量以及常数。

初始化一阶矩信息M＝0、二阶矩信息V＝0，时间控制变量t＝0以及常数δ＝1e-6。

S30.循环根据样本集更新目标信息直至目标信息满足预设要求或时间控制变量满足预设要求。

所述更新目标信息包括：

根据公式

计算梯度；

更新时间控制变量t自增1；

更新有偏一阶矩信息：M＝ρ₁M+(1-ρ₁)G；

更新有偏二阶矩信息：V＝ρ₂V+(1-ρ₂)G²；

修正一阶矩偏差：

修正二阶矩偏差：

计算目标信息更新值

应用目标信息更新值得到目标信息W＝W+ΔW。

本发明实施例公开的一种基于元学习的神经网络优化方法基于实现学习策略，通过在进行探索性的优化求解，找出不同数据在不同网络状态下对应的最优参数的配置情况，同时设计元学习组合优化器学习这些网络状态表现和最优参数配置的关系，可以为各种学习任务自适应输出表现较佳的优化器及其组合，从而得到最佳优化效果。降低了网络模型优化门槛，节约模型优化过程中的时间和人力成本，并提供更快的优化速度和高准确度的优化结果。

本发明实施例可以应用于各种预测、推荐的场合，本发明实施例以在线广告投放为例进行具体说明：

在线广告也称为互联网广告，是指在互联网平台的广告位(例如微信朋友圈、微信公众号、腾讯新闻网等)上投放的广告。在线广告已经成为一种主流的广告投放方式。它主要通过广告交易平台(ADX)进行大规模的广告投放。广告交易平台(ADX)：是指将媒体主和广告主连接起来的实体，它将广告主的广告投放到媒体主提供的广告位上。为了将广告主的广告精准的投放到目标人群，广告交易平台一般会收集用户的信息进行用户画像，从而针对用户的兴趣、地理位置或者其他数据进行精准的广告投放。

ADX通过深入挖掘用户的网络行为特征，找出用户的兴趣偏好，分析用户浏览、点击、转化广告的记录，向其展示最合适的广告。ADX在整个在线广告系统中起着至关重要的作用，其投放质量对媒体主、广告主和用户有直接影响。媒体主是指拥有互联网平台的实体(例如朋友圈、公众号、新闻平台)，一般已经有较大的用户访问量(也称为用户流量)，希望将用户流量转换成现金收益，因此他们在平台中插入广告位。广告主是指通过互联网平台的广告位来展示自己广告的实体。

非精准的广告投放不利于整个在线广告系统的发展。当用户在媒体主平台看到大量不感兴趣的广告，会使其对该媒体主产生反感，媒体主平台的受欢迎程度降低。同时，广告主也会因为在该媒体主平台点击率的降低而停止广告投放。相反，精准的广告投放可以改善用户的体验、提高广告主的广告点击率、提升媒体主平台的流量变现能力，形成良性循环。

为了获得精准的广告投放效果，需要对广告投放效果进行预测，并基于预测结果投放广告。这一环节涉及到四个主要概念：

点击通过率(ClickThrough Rate，ctr)：指投出广告的用户点击比率，即该广告的实际点击次数除以广告的展现量。它是衡量互联网广告效果的一项重要指标。

预估点击通过率(predict clickthroughrate,pctr)：是在线广告系统预估广告的被点击概率。

转化率(Conversion Rate，cvr)：也是衡量广告效果的指标，是指用户点击广告后成为一个有效激活、注册或者付费用户的转化比例，即该广告的实际转化次数除以广告的点击量。

预估转化率(predict conversionrate,pcvr)：是广告在某个情形下被点击后，在线广告系统预估其发生转化的概率。

点击率(ctr)和转化率(cvr)预估模块是广告精准投放的重要组件，它们基于机器学习算法，分析用户的基础属性数据、在互联网平台和在线广告上的行为数据，为每一个用户找到最合适的广告进行投放。目前业内常用的点击率、转化率预估算法是基于深度学习的算法。深度学习算法通过构建一个有多层神经元的神经网络来拟合输入与输出之间复杂的映射关系。在点击率、转化率预估模块中，系统首先收集用户和广告的数据，以及用户在广告上的点击、转化数据，深度学习算法接收用户和广告的特征作为输入，不断的优化神经网络的权重，使得网络能够输出用户在广告上的点击和转化概率并与收集的真实点击、转化记录精准匹配。目前的技术基于人工探索的方式，针对不同广告投放场景的数据尝试多种优化方法、多种优化方法的参数、以及多种优化方法的组合。这种方式不但需要花费大量的时间和人力成本，而且探索时间与操作人对优化算法理论知识掌握程度有关。

因此，部分已经启用的广告位往往能够得到较多的人力物力对训练参数进行调优，而对于新启用的广告位模型通常采取沿用已有广告位模型(次优)，从而弱化推荐业务总体推荐效果。另外，广告业务由于数据更新迅速且流量大，广告模型大部分时间都是出于在线增量更新的情况，在线广告模型需要在有限时间内对网络参数更新，所以在线广告推荐模型常沿用线下训练时采用的参数(次优)进行网络更新。从而导致目前广告推荐效果将受限于以下三点：1.次要广告位的推荐效果只能保持次优效果；2.模型上线后，增量更新的模型会长时间表现出次优的推荐效果；3.线下模型训练的超参数容易因不适应新的数据分布导致误差突升，影响新的模型推送。

本发明实施例提出的优化方法可以实现神经网络模型参数的自适应优化，如图7所示，其示出了使用本发明实施例中所述方法进行神经网络优化的示意图。从而摆脱人工探索的方式带来的限制，实现更优的推荐效果并得到稳定在线增量更新模型的推荐效果，从而实现广告推荐模型整体效果的进一步提升。

具体而言，本发明实施例中的各个学习任务即可以为点击率(ctr)和转化率(cvr)预估学习任务，通过收集用户的在各媒体主平台以及其他互联网平台上的行为信息、用户的个人属性信息、用户的智能设备信息、用户点击、广告的信息等等；对收集到的信息做去噪、缺失值填充等操作，最后将特征转化成机器学习算法可以处理的向量形式，从而获得学习任务的输入，进而触发步骤S101-S105的执行。

本发明实施例还公开了一种基于元学习的神经网络优化装置，如图8所示，所述装置包括：

学习任务部署模块201，用于部署多个机器学习任务，每个机器学习任务均运行于学习框架中，每个学习框架均包括神经网络本体和神经网络优化器，所述神经网络优化器用于对与其对应的神经网络本体的参数权重进行调整；

元学习组合优化器设置模块202，用于设置元学习组合优化器；

优化策略学习模块203，用于基于所述元学习组合优化器拟合机器学习任务运行过程中各个神经网络组合的状态特征与质量参数的映射关系，每个神经网络组合中包括至少一个神经网络，所述神经网络包括神经网络本体、所述神经网络本体对应的参数、所述神经网络本体对应的优化器；

优化策略输出模块204，用于响应于优化指令，使用所述元学习组合优化器输出组合优化策略，所述组合优化策略包括满足预设要求的神经网络组合所对应的优化器组合；

优化模块205，用于使用所述组合优化策略对待优化的神经网络进行优化。

进一步地，如图9所示，所述优化策略学习模块203包括：

元特征提取单元2031，用于在每个机器学习任务运行的各个阶段，提取所述机器学习任务对应的学习框架的元特征，所述元特征包括状态特征和质量参数；

样本生成单元2032，用于根据元特征生成元学习样本；

组合获取单元2033，用于获取神经网络组合；

学习单元2034，用于基于所述元学习样本训练元学习组合优化器，并基于训练结果得到各个神经网络组合的状态特征与质量参数的映射关系。

进一步对，如图10所示，所述优化策略输出模块204包括：

排序单元2041，用于根据各个神经网络组合的质量参数对各个神经网络进行排序。

组合输出单元2042，用于按照预设规则从排序结果中输出神经网络组合。

所述组合输出单元选择排在第一位的神经网络组合进行输出，或选择排名靠前的多个神经网络的加权结果进行输出。

优化器输出单元2043，用于输出神经网络组合对应的优化器组合。

本发明实施例公开的一种基于元学习的神经网络优化装置与方法实施例均基于相同发明构思。

本发明实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行本发明实施例所述的一种基于元学习的神经网络优化方法步骤，具体执行过程可以方法实施例的具体说明，在此不进行赘述。

进一步地，图11示出了一种用于实现本发明实施例所提供的方法的设备的硬件结构示意图，所述设备可以为计算机终端、移动终端或服务器，所述设备还可以参与构成本发明实施例所提供的装置或推荐系统。如图11所示，计算机终端10(或移动设备10或服务器10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图11所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图11中所示更多或者更少的组件，或者具有与图11所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中所述的方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种基于元学习的神经网络优化方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种广告推荐模型优化方法，其特征在于，所述方法包括：

部署多个机器学习任务，所述机器学习任务为点击率和转化率预估学习任务，每个机器学习任务均运行于学习框架中，每个学习框架均包括神经网络本体和神经网络优化器，所述神经网络优化器用于对与其对应的神经网络本体的参数权重进行调整，所述机器学习任务的输入信息包括下述至少之一：用户的在各媒体主平台以及其他互联网平台上的行为信息、用户的个人属性信息、用户的智能设备信息、用户点击、广告的信息；

设置元学习组合优化器，所述元学习组合优化器通过监督学习方式挖掘机器学习框架处于各个阶段中神经网络的状态特征和质量参数的映射关系，并根据新学习任务的特征预估神经网络的性能；

基于所述元学习组合优化器拟合机器学习任务运行过程中各个神经网络组合的状态特征与质量参数的映射关系，每个神经网络组合中包括至少一个神经网络，所述神经网络包括神经网络本体、所述神经网络本体对应的参数、所述神经网络本体对应的优化器，所述状态特征包括各个所述神经网络的节点输出值相关的统计指标，所述输出值包括用户在广告上的点击和转化概率，所述质量参数表征神经网络模型的精确性；

使用所述组合优化策略对待优化的神经网络进行优化，得到广告推荐模型。

2.根据权利要求1所述方法，其特征在于：

所述元学习组合优化器执行元学习机制，所述元学习机制的执行过程包括：

在每个机器学习任务运行的各个阶段，提取所述机器学习任务对应的学习框架的元特征，所述元特征包括状态特征和质量参数；

根据元特征生成元学习样本；

获取神经网络组合；

基于所述元学习样本训练元学习组合优化器，并基于训练结果得到各个神经网络组合的状态特征与质量参数的映射关系。

3.根据权利要求2所述的方法，其特征在于，所述根据元特征生成元学习样本，包括：

随机隔代地对学习框架中的神经网络模型进行保存，并对保存结果进行特征抽取和性能评估，从而产生元学习样本。

4.根据权利要求2所述的方法，其特征在于：

元特征包括神经网络的状态特征和质量参数；

所述状态特征包括神经网络的损失函数信息、当前输入样本的损失函数值的统计指标；

和/或，

当前梯度信息与上一阶段梯度信息差距。

5.根据权利要求1所述的方法，其特征在于，所述使用所述元学习组合优化器输出组合优化策略，包括：

根据各个神经网络组合的质量参数对各个神经网络进行排序；

按照预设规则从排序结果中输出神经网络组合；

输出神经网络组合对应的优化器组合。

6.根据权利要求5所述的方法，其特征在于，所述按照预设规则从排序结果中输出神经网络组合，包括：

选择排在第一位的神经网络组合进行输出，或选择排名靠前的多个神经网络的加权结果进行输出。

7.一种广告推荐模型优化装置，其特征在于，所述装置包括：

学习任务部署模块，用于部署多个机器学习任务，所述机器学习任务为点击率和转化率预估学习任务，每个机器学习任务均运行于学习框架中，每个学习框架均包括神经网络本体和神经网络优化器，所述神经网络优化器用于对与其对应的神经网络本体的参数权重进行调整，所述机器学习任务的输入信息包括下述至少之一：用户的在各媒体主平台以及其他互联网平台上的行为信息、用户的个人属性信息、用户的智能设备信息、用户点击、广告的信息；

元学习组合优化器设置模块，用于设置元学习组合优化器，所述元学习组合优化器通过监督学习方式挖掘机器学习框架处于各个阶段中神经网络的状态特征和质量参数的映射关系，并根据新学习任务的特征预估神经网络的性能；

优化策略学习模块，用于基于所述元学习组合优化器拟合机器学习任务运行过程中各个神经网络组合的状态特征与质量参数的映射关系，每个神经网络组合中包括至少一个神经网络，所述神经网络包括神经网络本体、所述神经网络本体对应的参数、所述神经网络本体对应的优化器，所述状态特征包括各个所述神经网络的节点输出值相关的统计指标，所述输出值包括用户在广告上的点击和转化概率，所述质量参数表征神经网络模型的精确性；

优化模块，用于使用所述组合优化策略对待优化的神经网络进行优化，得到广告推荐模型。

8.根据权利要求7所述装置，其特征在于，所述优化策略学习模块包括：

元特征提取单元，用于在每个机器学习任务运行的各个阶段，提取所述机器学习任务对应的学习框架的元特征，所述元特征包括状态特征和质量参数；

样本生成单元，用于根据元特征生成元学习样本；

组合获取单元，用于获取神经网络组合；

学习单元，用于基于所述元学习样本训练元学习组合优化器，并基于训练结果得到各个神经网络组合的状态特征与质量参数的映射关系。

9.根据权利要求7所述装置，其特征在于，所述优化策略输出模块包括：

排序单元，用于根据各个神经网络组合的质量参数对各个神经网络进行排序；

组合输出单元，用于按照预设规则从排序结果中输出神经网络组合；

优化器输出单元，用于输出神经网络组合对应的优化器组合。

10.根据权利要求9所述装置，其特征在于：

11.一种计算机存储介质，其特征在于：所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行权利要求1至6中任一项所述的广告推荐模型优化方法。

12.一种电子设备，其特征在于：所述电子设备用于执行权利要求1至6中任一项所述的广告推荐模型优化方法。