CN112446505A

CN112446505A - 一种元学习建模方法及装置、电子设备、存储介质

Info

Publication number: CN112446505A
Application number: CN202011342886.XA
Authority: CN
Inventors: 张发恩; 田贵成
Original assignee: Alnnovation Guangzhou Technology Co ltd
Current assignee: Alnnovation Guangzhou Technology Co ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-03-05
Anticipated expiration: 2040-11-25
Also published as: CN112446505B

Abstract

本申请提供一种元学习建模方法及装置、电子设备、计算机可读存储介质，该方法包括：针对每一历史数据，基于待处理数据的多维度场景信息与历史数据的多维度场景信息，确定待处理数据与历史数据之间的场景相似度评分；针对每一历史数据，基于待处理数据的数据统计特征与历史数据的数据统计特征，确定待处理数据与历史数据之间的数据相似度评分；针对每一历史数据，根据历史数据对应的场景相似度评分和数据相似度评分，计算待处理数据与历史数据之间的综合相似度评分；选择综合相似度评分最高的历史数据对应的机器学习建模流程，对待处理数据进行建模。本申请可显著提高元学习建模的效果，降低机器学习建模成本。

Description

一种元学习建模方法及装置、电子设备、存储介质

技术领域

本申请涉及机器学习技术领域，特别涉及一种元学习建模方法及装置、电子设备、计算机可读存储介质。

背景技术

机器学习的建模过程复杂，需耗费大量时间。在面对实际业务数据时，为训练得到实际应用效果好的机器学习模型，还需在数据预处理、特征工程、模型选择、模型参数优化等环节投入大量时间。随着机器学习在越来越多领域的应用，目前已经存在大量可应用的机器学习模型以及对应于已训练模型的建模流程。为减少工作量，元学习(Meta Learning)建模应运而生。开发者在为一种业务构建机器学习模型时，可以参考已训练的机器学习模型的建模流程，对业务数据进行建模。由于上述建模流程已包含建立前一机器学习模型的建模经验，通过迁移建模流程可以利用上述建模建议，从而极大地缩短为新业务建模的过程。

目前，大多数元学习建模方法是根据数据元特征来判断新业务的数据与已训练的机器学习模型的数据之间的相似性，从而选择相似性最高的数据的机器学习模型，以被选中的机器学习模型的超参数作为模型训练的超参数优化初始值，实现超参数优化的热启动。

发明内容

本申请实施例的目的在于提供一种元学习建模方法及装置、电子设备、计算机可读存储介质，用于提高元学习建模的效果，降低机器学习模型的训练成本。

一方面，本申请提供了一种元学习建模方法，包括：

针对每一历史数据，基于待处理数据的多维度场景信息与所述历史数据的多维度场景信息，确定所述待处理数据与所述历史数据之间的场景相似度评分；

针对每一历史数据，基于所述待处理数据的数据统计特征与所述历史数据的数据统计特征，确定所述待处理数据与所述历史数据之间的数据相似度评分；

针对每一历史数据，根据所述历史数据对应的场景相似度评分和数据相似度评分，计算所述待处理数据与所述历史数据之间的综合相似度评分；

选择所述综合相似度评分最高的历史数据对应的机器学习建模流程，对所述待处理数据进行建模。

在一实施例中，所述多维度场景信息包括行业信息、任务信息和业务信息；

所述基于待处理数据的多维度场景信息与所述历史数据的多维度场景信息，确定所述待处理数据与所述历史数据之间的场景相似度评分，包括：

基于待处理数据的行业信息与所述历史数据的行业信息，确定所述待处理数据与所述历史数据的行业相似度评分；

基于所述待处理数据的任务信息与所述历史数据的任务信息，确定所述待处理数据与所述历史数据的任务相似度评分；

基于所述待处理数据的业务信息与所述历史数据的业务信息，确定所述待处理数据与所述历史数据的业务相似度评分；

根据所述行业相似度评分、所述任务相似度评分和所述业务相似度评分，计算所述场景相似度评分。

在一实施例中，所述基于待处理数据的行业信息与所述历史数据的行业信息，确定所述待处理数据与所述历史数据的行业相似度评分，包括：

对所述待处理数据的多级行业信息与所述历史数据的多级行业信息逐级比对；

根据比对结果，逐级累加与每一级行业信息对应的分值，获得第一总分值；

对所述第一总分值进行归一化处理，获得所述行业相似度评分。

在一实施例中，所述任务信息包括任务类型信息和任务目标信息；

所述基于所述待处理数据的任务信息与所述历史数据的任务信息，确定所述待处理数据与所述历史数据的任务相似度评分，包括：

对所述待处理数据的多级任务类型信息与所述历史数据的多级任务类型信息逐级比对，以及，对所述待处理数据的多级任务目标信息与所述历史数据的多级任务目标信息逐级比对；

根据所述任务类型信息的比对结果，逐级累加与每一级任务类型信息对应的分值，获得第二总分值；

根据所述任务目标信息的比对结果，逐级累加与每一级任务目标信息对应的分值，获得第三总分值；

根据归一化后的所述第二总分值和归一化后的所述第三总分值，计算所述任务相似度评分。

在一实施例中，所述业务信息为业务关键词；

所述基于所述待处理数据的业务信息与所述历史数据的业务信息，确定所述待处理数据与所述历史数据的业务相似度评分，包括：

根据所述待处理数据的多个业务关键词，确定所述待处理数据的代表性词向量；

计算所述待处理数据的代表性词向量与所述历史数据的代表性词向量之间的余弦相似度；

对所述余弦相似度进行归一化处理，得到所述业务相似度评分。

在一实施例中，所述待处理数据为结构化数据，所述数据统计特征包括数据元特征、数据样本数和数据特征数；

所述基于所述待处理数据的数据统计特征与所述历史数据的数据统计特征，确定所述待处理数据与所述历史数据之间的数据相似度评分，包括：

基于所述待处理数据的数据元特征和所述历史数据的数据元特征，确定所述待处理数据与所述历史数据的元特征相似度评分；

基于所述待处理数据的数据样本数和所述历史数据的数据样本数，确定所述待处理数据与所述历史数据的样本数相似度评分；

基于所述待处理数据的数据特征数和所述历史数据的数据特征数，确定所述待处理数据与所述历史数据的特征数相似度评分；

根据所述元特征相似度评分、所述样本数相似度评分和所述特征数相似度评分，计算所述数据相似度评分。

在一实施例中，所述待处理数据为图像数据，所述数据统计特征包括数据元特征、包含小物体的图像数和包含大物体的图像数；

基于所述待处理数据中包含小物体的图像数和所述历史数据中包含小物体的图像数，确定所述待处理数据与所述历史数据的小物体相似度评分；

基于所述待处理数据中包含大物体的图像数和所述历史数据中包含大物体的图像数，确定所述待处理数据与所述历史数据的大物体相似度评分；

根据所述元特征相似度评分、所述小物体相似度评分和所述大物体相似度评分，计算所述数据相似度评分。

另一方面，本申请还提供了一种元学习建模装置，包括：

第一计算模块，用于针对每一历史数据，基于待处理数据的多维度场景信息与所述历史数据的多维度场景信息，确定所述待处理数据与所述历史数据之间的场景相似度评分；

第二计算模块，用于针对每一历史数据，基于所述待处理数据的数据统计特征与所述历史数据的数据统计特征，确定所述待处理数据与所述历史数据之间的数据相似度评分；

第三计算模块，用于针对每一历史数据，根据所述历史数据对应的场景相似度评分和数据相似度评分，计算所述待处理数据与所述历史数据之间的综合相似度评分；

选择模块，用于选择所述综合相似度评分最高的历史数据对应的机器学习建模流程，对所述待处理数据进行建模。

进一步的，本申请还提供了一种电子设备，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述元学习建模方法。

另外，本申请还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成上述元学习建模方法。

本申请方案可以从多个维度评估历史数据和待处理数据之间的相似度，选择出最合适的历史数据对应的机器学习建模流程，对待处理数据进行建模，可以显著降低建模过程的时间成本和建模难度，提高建模效果。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍。

图1为本申请一实施例提供的元学习建模方法的应用场景示意图；

图2为本申请一实施例提供的电子设备的结构示意图；

图3为本申请一实施例提供的元学习建模方法的流程示意图；

图4为本申请一实施例提供的计算场景相似度评分的流程示意图；

图5为本申请一实施例提供的行业信息的示意图；

图6为本申请一实施例提供的任务类型的示意图；

图7为本申请一实施例提供的任务目标的示意图；

图8为本申请一实施例提供的计算数据相似度评分的流程示意图；

图9为本申请另一实施例提供的计算数据相似度评分的流程示意图；

图10为本申请一实施例提供的元学习建模装置的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

图1为本申请实施例提供的元学习建模方法的应用场景示意图。如图1所示，该应用场景包括服务端30和客户端20，客户端20可以是主机、平板电脑、手机等用户终端，用于向服务端30提交需要接受建模的数据；服务端30可以是服务器、服务器集群或者云计算中心，服务端30可以对客户端20提交的数据进行处理，从而确定用于最适合数据的机器学习建模流程。

如图2所示，本实施例提供一种电子设备1，包括：至少一个处理器11和存储器12，图2中以一个处理器11为例。处理器11和存储器12通过总线10连接，存储器12存储有可被处理器11执行的指令，指令被处理器11执行，以使电子设备1可执行下述的实施例中方法的全部或部分流程。在一实施例中，电子设备1可以是上述服务端30。

存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请还提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序可由处理器11执行以完成本申请提供的元学习建模方法。

参见图3，为本申请一实施例提供的元学习建模方法的流程示意图，如图3所示，该方法可以包括以下步骤310-步骤340。

步骤310：针对每一历史数据，基于待处理数据的多维度场景信息与历史数据的多维度场景信息，确定待处理数据与历史数据之间的场景相似度评分。

其中，待处理数据是用于为新业务构建机器学习模型的数据。

历史数据是已被用于训练机器学习模型的数据。本申请中，将训练一个机器学习模型的所有数据作为一个整体，换而言之，在计算待处理数据与历史数据的相似度评分时，实际上是计算被用于训练一个机器学习模型的数据与待处理数据之间的相似度评分。

服务端可以配置已训练出机器学习模型的历史数据的数据库，该数据库中存储每一机器学习模型对应的历史数据。服务端可从该数据库中获取历史数据，并对获取到的历史数据与待处理数据计算相似度。此外，该数据库还可以存储已训练的机器学习模型的超参数和模型参数，使得后续可以将已训练的机器学习模型作为待处理数据的初始模型进行训练，以得到适用于新业务的机器学习模型。

多维度场景信息可从多个维度展示数据对应业务所属场景。在一实施例中，多维度场景信息可以包括行业信息、任务信息和业务信息，行业信息用于描述待处理数据所属行业，任务信息用于描述数据对应的任务类型和任务目标，业务信息用于描述业务。

场景相似度评分用于评估待处理数据与历史数据之间的场景相似度，换而言之，用于表征待处理数据对应业务所属场景与历史数据对应业务所属之间的相似度。

步骤320：针对每一历史数据，基于待处理数据的数据统计特征与历史数据的数据统计特征，确定待处理数据与历史数据之间的数据相似度评分。

数据统计特征从数据整体统计得到的数据特征。数据相似度评分用于评估待处理数据与历史数据之间的数据相似度。

步骤330：针对每一历史数据，根据历史数据对应的场景相似度评分和数据相似度评分，计算待处理数据与历史数据之间的综合相似度评分。

对于每一历史数据，在计算出待处理数据与该历史数据的场景相似度评分和数据相似度评分后，可以计算两者的综合相似度评分。在一实施例中，服务端可以依据预设的对应于场景相似度评分的权重和对应于数据相似度评分的权重，进行加权求和，从而得到综合相似度评分。

步骤340：选择综合相似度评分最高的历史数据对应的机器学习建模流程，对待处理数据进行建模。

服务端对本地所有机器学习模型对应的历史数据进行评估后，获得每一历史数据与待处理数据之间的综合相似度评分，并可以选择综合相似度评分最高的历史数据对应的机器学习建模流程，对待处理数据进行建模。该建模流程包括数据预处理、特征工程、模型选择和模型参数优化等环节的具体步骤。其中，在模型选择过程，服务端可以选择综合相似度评分最高的历史数据的已训练模型，作为待处理数据的初始模型，并以该初始模型为基础(以该初始模型当前的超参数为初始超参数，以该初始模型当前的模型参数为初始模型参数)，依据待处理数据进行训练，从而实现超参数优化的热启动。

通过上述措施，可从场景和数据两个维度对历史数据进行评估，从而选择最适合待处理数据的机器学习建模流程，降低了为新业务搭建机器学习模型的复杂度和时间成本。

在一实施例中，参见图4，为本申请一实施例提供的计算场景相似度评分的流程示意图，如图4所示，服务端在计算待处理数据与历史数据之间的场景相似度评分时，可以执行如下步骤311-步骤314。

步骤311：基于待处理数据的行业信息与历史数据的行业信息，确定待处理数据与历史数据的行业相似度评分。

行业信息可以包括从宽到细划分为多个级别的行业信息，高级别的行业信息可以包括若干个属于该行业的低级别行业信息。参见图5，为本申请一实施例提供的行业信息的示意图，如图5所示，虚线框510内包括第一级行业信息，虚线框520内包括第二级行业信息，虚线框530内包括第三级行业信息，虚线框540内包括第四级行业信息，行业信息逐级细分，从大行业到细分行业细分业务。图5中，第一级行业信息“金融”之后的第二级行业信息包括“保险”、“银行”和“证券”；第二级行业信息“银行”之后的第三级行业信息包括“营销领域”、“风险领域”和“运营领域”；第三级行业信息“营销领域”之后的第四级行业信息包括“理财产品推荐”、“交易分期预测”和“长尾客户激活”，第三级行业信息“风险领域”之后的第四级行业信息包括“申请信用评分”、“交易反欺诈”、“申请反欺诈”和“智能额度评估”，第三级行业信息“运营领域”之后的第四级行业信息包括“票据识别”、“证照识别”和“语音客服”。

图5中的行业信息是预先划分好的可能会涉及的大行业中的多级行业信息。对于任一历史数据而言，该历史数据对应的各级行业信息都是唯一的。比如：如果存在为“智能额度评估”业务开发的机器学习模型，该机器学习模型对应的第四级行业信息为“智能额度评估”、第三级行业信息为“风险领域”、第二级行业信息为“银行”、第一级行业信息为“金融”，相应的，训练出该机器学习模型的历史数据的各级行业信息为“金融”、“银行”、“风险领域”、“智能额度评估”。

服务端可以对待处理数据的多级行业信息与历史数据的多级行业信息逐级比对。

服务端上存储历史数据的数据库可以写入每一历史数据的多级行业信息，服务端可以从数据库中获取历史数据的多级行业信息。服务端在执行对待处理数据的元学习建模任务时，可以获得待处理数据的多级行业信息。因此，服务端可以依据历史数据的多级行业信息和待处理数据的多级行业信息，从高级别到低级别，逐级比对两者是否一致。在比对过程中，若任一级别的行业信息不同，则不再比对下一级别的行业信息。

服务端可以根据比对结果，逐级累加与每一级行业信息对应的分值，获得第一总分值。其中，各级行业信息对应的分值可以预先配置。在一实施例中，各级行业信息对应的分值可以依据级别的降低而升高。比如：第一级行业信息对应的分值为1，第二级行业信息对应的分值为2，第三级行业信息对应的分值为3，第四级行业信息对应的分值为4。

服务端可以对第一总分值进行归一化处理，获得行业相似度评分。服务端可以通过如下公式(1)进行归一化处理：

其中，F₁是行业相似度评分，x是第一总分值，x_min是最小第一总分值，x_max是最大第一总分值。

服务端在计算出所有历史数据与待处理数据之间的第一总分值之后，可以确定最小第一总分值和最大第一总分值。对于任一第一总分值，服务端可以将该第一总分值减去最小第一总分值，并除以最大第一总分值和最小第一总分值的差值，从而实现归一化处理。

步骤312：基于待处理数据的任务信息与历史数据的任务信息，确定待处理数据与历史数据的任务相似度评分。

任务信息可以包括任务类型信息和任务目标信息，任务类型信息可以包括从宽到细划分为多个级别的任务类型信息，高级别的任务类型信息后有若干低级别的任务类型信息；任务目标信息可以包括从宽到细划分为多个级别的任务目标信息，高级别的任务目标信息后有若干低级别的任务目标信息。

参见图6，为本申请一实施例提供的任务类型信息的示意图，如图6所示，虚线框610内包括第一级任务类型信息，虚线框620内包括第二级任务类型信息。如图6所示，第一级任务类型指示数据类型，可以包括“图片”、“视频”、“结构化数据”等，第一级任务类型信息“结构化数据”之后的第二级任务类型信息包括“二分类”、“多分类”和“众分类”。这里，多分类是类别数在3到10之间的分类任务；众分类是类别数大于10的分类任务。在实际应用中，可以包含更多级别的任务类型信息，每一级别的任务类型信息可以包括更多内容。

图6中的任务类型信息是预先划分好的可能会涉及的多级任务类型信息。对于任一历史数据而言，该历史数据对应的各级任务类型信息都是唯一的。比如：如果存在为“智能额度评估”业务开发的机器学习模型，该机器学习模型对应的第一级任务类型信息可以是“结构化数据”、第二级任务类型信息可以为“众分类”，相应的，训练出该机器学习模型的历史数据的各级任务类型信息为“结构化数据”、“众分类”。

参见图7，为本申请一实施例提供的任务目标信息的示意图，如图7所示，虚线框710内包括第一级任务目标信息，虚线框720内包括第二级任务类型信息。如图7所示，第一级任务目标信息指示任务对象，可以包括“公司”、“事件”、“人”等，第一级任务目标信息“人”之后的第二级任务目标信息包括“信用等级”、“是否健康”和“是否违约”。在实际应用中，可以包含更多级别的任务目标信息，每一级别的任务目标信息可以包括更多内容。

图7中的任务目标是预先划分好的可能会涉及的多级任务目标信息。对于任一历史数据而言，该历史数据对应的各级任务目标信息是唯一的。比如：如果存在为用户评估健康状况的机器学习模型，该机器学习模型对应的第一级任务目标信息可以是“人”、第二级任务目标信息可以是“是否健康”。

服务端可以对待处理数据的多级任务类型信息与历史数据的多级任务类型信息逐级比对，以及，对待处理数据的多级任务目标信息与历史数据的多级任务目标信息逐级比对。

服务端上存储历史数据的数据库可以写入每一历史数据的多级任务类型信息和多级任务目标信息，服务端可以从该数据库获取历史数据的多级任务类型信息和多级任务目标信息。服务端在执行对待处理数据的元学习建模任务时，可以获得待处理数据的多级任务类型信息和多级任务目标信息。因此，服务端可以从高级别到低级别，逐级比对两者的任务类型信息是否一致，以及，两者的任务目标信息是否一致。在比对过程中，若任一级别的任务类型信息不同，则不再比对下一级别的任务类型信息；若任一级别的任务目标信息不同，则不再比对下一级别的任务目标信息。

服务端可以根据任务类型信息的比对结果，逐级累加与每一级任务类型信息对应的分值，获得第二总分值。其中，各级任务类型信息对应的分值可以预先配置。在一实施例中，第一级任务类型信息对应的分值为1，第二级任务类型信息对应的分值为2。

服务端可以根据任务目标信息的比对结果，主机累加与每一级任务目标信息对应的分值，获得第三总分值。其中，各级任务目标信息对应的分值可以预先配置。在一实施例中，第一级任务目标信息对应的分值为1，第二级任务目标信息对应的分值为2。

服务端可以对归一化后的第二总分值和归一化后的第三总分值，计算任务相似度评分。服务端可以通过如下公式(2)获得任务相似度评分：

其中，F₂是任务相似度评分，y是第二总分值，y_min是最小第二总分值，y_max是最大第二总分值，z是第三总分值，z_min是最小第二总分值，z_max是最大第二总分值，a是对应于第二总分值的预设权重，b是对应于第三总分值的预设权重。

服务端在计算出所有历史数据与待处理数据之间的第二总分值之后，可以确定最小第二总分值和最大第二总分值。对于任一第二总分值，服务端可以将该第二总分值减去最小第二总分值，并除以最大第二总分值和最小第二总分值的差值，从而实现归一化处理。

服务端在计算出所有历史数据与待处理数据之间的第三总分值之后，可以确定最小第三总分值和最大第三总分值。对于任一第三总分值，服务端可以将该第三总分值减去最小第三总分值，并除以最大第三总分值和最小第三总分值的差值，从而实现归一化处理。

对于任一历史数据，服务端对归一化处理后的第二总分值和归一化处理后的第三总分值加权求和，从而获得任务相似度评分。

步骤313：基于待处理数据的业务信息与历史数据的业务信息，确定待处理数据与历史数据的业务相似度评分。

业务信息可以是描述业务涉及的关键字段或难点的业务关键词。示例性的，某个银行的信用卡交易欺诈检测业务所对应的业务关键词可以包括：历史交易信息、当前交易信息、用户信息、地址信息、设备信息等。

服务端上存储历史数据的数据库可以写入每一历史数据的业务关键词，服务端可以从数据库中获取历史数据的业务关键词。服务端在执行对待处理数据的元学习建模任务时，可以获得待处理数据的业务关键词。

服务端可以根据待处理数据的多个业务关键词，确定待处理数据的代表性词向量。其中，代表性词向量用于表征数据的代表性信息。服务端可以对每一业务关键词进行切词处理，获得若干业务子关键词，并通过已训练的词向量转换算法对每一业务子关键词进行换算，得到对应于业务子关键词的词向量。其中，词向量转换算法可以是Word2vec、fastText等算法中的任意一种，若词向量转换算法需要预训练，可以通过百度百科等范围较广的中文语料库来进行训练。

在为任一业务关键词的业务子关键词换算出词向量后，服务端可以对多个词向量进行均值化处理，从而得到该业务关键词对应的词向量。服务端可以对多个词向量上每一维度的元素求均值，从而获得业务关键词对应的词向量。服务端可以对业务关键词对应的词向量进行均值化处理，从而得到待处理数据的代表性词向量。

服务端可以计算待处理数据的代表性词向量与历史数据的代表性词向量之间的余弦相似度。其中，历史数据的代表性词向量通过历史数据的业务关键词计算得到，计算过程不再赘述。

服务端可以对上述余弦相似度进行归一化处理，得到业务相似度评分。服务端可以将上述余弦相似度乘以0.5，然后加上0.5，从而实现归一化处理，得到业务相似度评分。

步骤314：根据行业相似度评分、任务相似度评分和业务相似度评分，计算所述场景相似度评分。

对于任一历史数据，在获得行业相似度评分、任务相似度评分和业务相似度评分之后，服务端可以根据预设权重进行加权求和，从而获得场景相似度评分。

在一实施例中，待处理数据为结构化数据，参见图8，为本申请一实施例提供的计算数据相似度评分的流程示意图，服务端在计算数据相似度时，可以执行如下步骤321A-步骤324A。

步骤321A：基于待处理数据的数据元特征和历史数据的数据元特征，确定待处理数据与历史数据的元特征相似度评分。

对于结构化数据而言，数据元特征可以是样本数、属于第n个类别的样本数占总样本数的比值、样本数的log值、特征数、特征数的log值、类别型特征数、连续性特征数、缺失值特征个数、缺失值样本数、缺失值个数最大值、缺失值个数平均数、类别型特征的最大类别数、数值型特征的平均值的最大值等。

服务端可以依据待处理数据的数据元特征，构建元特征向量。假定对于所有历史数据和待处理数据，预先设定存在M个数据元特征，则可以根据每一历史数据和待处理数据的实际情况，构建M维的元特征向量。其中，元特征向量中每一维度对应于一个数据元特征，服务端依据对待处理数据的元特征统计情况，填入元特征向量中与各数据元特征对应维度的元素。

服务端可以计算待处理数据的元特征向量和历史数据的元特征向量之间的余弦相似度。服务端可以预先对历史数据进行统计分析，并为历史数据构建元特征向量，将该元特征向量写入存储历史数据的数据库。服务端在执行步骤321A时，可以从数据库中获取历史数据的元特征向量，并与待处理数据的元特征向量计算余弦相似度。

服务端可以对上述余弦相似度进行归一化处理，得到元特征相似度评分。服务端可以将上述余弦相似度乘以0.5，然后加上0.5，从而实现归一化处理，得到元特征相似度评分。

步骤322A：基于待处理数据的数据样本数和历史数据的数据样本数，确定待处理数据与历史数据的样本数相似度评分。

其中，数据样本数是样本总数量。

服务端可以计算待处理数据与历史数据之间的数据样本数的相对百分比，并对该相对百分比进行归一化处理，从而得到样本数相似度评分。服务端可以通过如下公式(3)计算得到数据样本数的相对百分比：

其中，ratio表示待处理数据与历史数据的数据样本数的相对百分比，w表示待处理数据的数据样本数，w_i表示第i种历史数据的数据样本数。

服务端可以通过如下公式(4)对相对百分比进行归一化处理：

其中，F₃是样本数相似度评分，ratio是计算出的相对百分比，ratio_min是最小相对百分比，ratio_max是最大相对百分比。

服务端在计算出所有历史数据与待处理数据之间数据样本数的相对百分比之后，可以确定最小相对百分比和最大相对百分比。对于任一相对百分比，服务端可以将该相对百分比减去最小相对百分比，并除以最大相对百分比与最小相对百分比的差值，从而实现归一化处理。

步骤323A：基于待处理数据的数据特征数和历史数据的数据特征数，确定待处理数据与历史数据的特征数相似度评分。

其中，数据特征数是指数据中包含的特征总数。示例性的，以结构化数据“用户姓名”+“用户住址”+“用户职业”+“用户年龄”这一形式的数据为例，每一实例数据均有4个特征，数据特征数为4。

服务端可以计算待处理数据与历史数据之间的数据特征数的相对百分比，并对该相对百分比进行归一化处理，从而得到特征数相似度评分。服务端可以通过如下公式(5)计算得到数据特征数的相对百分比：

其中，ratio表示待处理数据与历史数据的数据特征数的相对百分比，q表示待处理数据的数据特征数，q_i表示第i种历史数据的数据特征数。

服务端可以通过如下公式(6)对相对百分比进行归一化处理：

其中，F₄是特征数相似度评分，ratio是计算出的相对百分比，ratio_min是最小相对百分比，ratio_max是最大相对百分比。

服务端在计算出所有历史数据与待处理数据之间数据特征数的相对百分比之后，可以确定最小相对百分比和最大相对百分比。对于任一相对百分比，服务端可以将该相对百分比减去最小相对百分比，并除以最大相对百分比与最小相对百分比的差值，从而实现归一化处理。

步骤324A：根据元特征相似度评分、样本数相似度评分和特征数相似度评分，计算数据相似度评分。

服务端可以对元特征相似度评分、样本数相似度评分和特征数相似度评分进行加权求和，从而得到数据相似度评分。其中，与元特征相似度评分对应的权重、与样本数相似度评分对应的权重、与特征数相似度评分对应的权重均可预先配置。

在一实施例中，待处理数据为图像数据，参见图9，为本申请一实施例提供的计算数据相似度评分的流程示意图，服务端在计算数据相似度时，可以执行如下步骤321B-步骤324B。

步骤321B：基于待处理数据的数据元特征和历史数据的数据元特征，确定待处理数据与历史数据的元特征相似度评分。

对于图像数据而言，数据元特征可以从图像数据的图像特征中提取得到。数据元特征可以是最大元素数值、最小元素数值、元素最大差值等。

服务端可以通过预训练的神经网络模型从图像数据中提取图像特征，该图像特征可以是一个高维向量。这里，提取特征的神经网络模型可以是VGG(VisualGeometryGroup)、ResNet等。

在对待处理数据中每一图像提取图像特征后，服务端可以对多个图像特征进行统计分析，从而构建元特征向量。假定对于所有历史数据和待处理数据，预先设定存在M个数据元特征，则可以根据每一历史数据和待处理数据的实际情况，构建M维的元特征向量。

服务端可以计算待处理数据的元特征向量和历史数据的元特征向量之间的余弦相似度。服务端可以预先对历史数据提取图像特征，并依据图像特征进行统计分析，为历史数据构建元特征向量，并将该元特征向量写入存储历史数据的数据库。服务端在执行步骤321B时，可以从数据库中获取历史数据的元特征向量，并与待处理数据的元特征向量计算余弦相似度。

步骤322B：基于待处理数据中包含小物体的图像数和历史数据中包含小物体的图像数，确定待处理数据与历史数据的小物体相似度评分。

其中，小物体可以是指图像中目标物体的尺寸面积以宽度*高度形式表示时，小于32*32的物体。

服务端在执行元学习建模任务时，可以获得待处理数据中包含小物体的图像数。在存储历史数据的数据库中，可以写入历史数据中包含小物体的图像数。服务端可以计算待处理数据中包含小物体的图像数和历史数据中包含小物体的图像数的相对百分比，并对该相对百分比进行归一化处理，从而得到小物体相似度评分。

服务端可以通过如下公式(7)计算得到包含小物体的图像数的相对百分比：

其中，ratio表示待处理数据与历史数据中包含小物体的图像数的相对百分比，t表示待处理数据中包含小物体的图像数，t_i表示第i种历史数据中包含小物体的图像数。

服务端可以通过如下公式(8)对相对百分比进行归一化处理：

其中，F₅是小物体相似度评分，ratio是计算出的相对百分比，ratio_min是最小相对百分比，ratio_max是最大相对百分比。

服务端在计算出所有历史数据与待处理数据之间包含小物体的图像数的相对百分比之后，可以确定最小相对百分比和最大相对百分比。对于任一相对百分比，服务端可以将该相对百分比减去最小相对百分比，并除以最大相对百分比与最小相对百分比的差值，从而实现归一化处理。

步骤323B：基于待处理数据中包含大物体的图像数和历史数据中包含大物体的图像数，确定待处理数据与历史数据的大物体相似度评分。

其中，大物体可以是指图像中目标物体的尺寸面积以宽度*高度形式表示时，大于96*96的物体。

服务端在执行元学习建模任务时，可以获得待处理数据中包含大物体的图像数。在存储历史数据的数据库中，可以写入历史数据中包含大物体的图像数。服务端可以计算待处理数据中包含大物体的图像数和历史数据中包含大物体的图像数的相对百分比，并对该相对百分比进行归一化处理，从而得到大物体相似度评分。

服务端可以通过如下公式(9)计算得到包含小物体的图像数的相对百分比：

其中，ratio表示待处理数据与历史数据中包含大物体的图像数的相对百分比，p表示待处理数据中包含大物体的图像数，p_i表示第i种历史数据中包含大物体的图像数。

服务端可以通过如下公式(10)对相对百分比进行归一化处理：

其中，F₆是大物体相似度评分，ratio是计算出的相对百分比，ratio_min是最小相对百分比，ratio_max是最大相对百分比。

服务端在计算出所有历史数据与待处理数据之间包含大物体的图像数的相对百分比之后，可以确定最小相对百分比和最大相对百分比。对于任一相对百分比，服务端可以将该相对百分比减去最小相对百分比，并除以最大相对百分比与最小相对百分比的差值，从而实现归一化处理。

步骤324B：根据元特征相似度评分、小物体相似度评分和大物体相似度评分，计算数据相似度评分。

服务端可以对元特征相似度评分、小物体相似度评分和大物体相似度评分进行加权求和，从而得到数据相似度评分。其中，与元特征相似度评分对应的权重、与小物体相似度评分对应的权重、与小物体相似度评分对应的权重均可预先配置。

参见图10，为本申请一实施例提供的元学习建模装置的框图，如图10所示，该装置可以包括：

第一计算模块1010，用于针对每一历史数据，基于待处理数据的多维度场景信息与所述历史数据的多维度场景信息，确定所述待处理数据与所述历史数据之间的场景相似度评分；

第二计算模块1020，用于针对每一历史数据，基于所述待处理数据的数据统计特征与所述历史数据的数据统计特征，确定所述待处理数据与所述历史数据之间的数据相似度评分；

第三计算模块1030，用于针对每一历史数据，根据所述历史数据对应的场景相似度评分和数据相似度评分，计算所述待处理数据与所述历史数据之间的综合相似度评分；

选择模块1040，用于选择所述综合相似度评分最高的历史数据对应的机器学习建模流程，对所述待处理数据进行建模。

上述装置中各个模块的功能和作用的实现过程具体详见上述元学习建模方法中对应步骤的实现过程，在此不再赘述。

在本申请所提供的几个实施例中，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种元学习建模方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述多维度场景信息包括行业信息、任务信息和业务信息；

3.根据权利要求2所述的方法，其特征在于，所述基于待处理数据的行业信息与所述历史数据的行业信息，确定所述待处理数据与所述历史数据的行业相似度评分，包括：

4.根据权利要求2所述的方法，其特征在于，所述任务信息包括任务类型信息和任务目标信息；

5.根据权利要求2所述的方法，其特征在于，所述业务信息为业务关键词；

6.根据权利要求1所述的方法，其特征在于，所述待处理数据为结构化数据，所述数据统计特征包括数据元特征、数据样本数和数据特征数；

7.根据权利要求1所述的方法，其特征在于，所述待处理数据为图像数据，所述数据统计特征包括数据元特征、包含小物体的图像数和包含大物体的图像数；

8.一种元学习建模装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-7任意一项所述的元学习建模方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的元学习建模方法。