CN114692889A

CN114692889A - 用于机器学习算法的元特征训练模型

Info

Publication number: CN114692889A
Application number: CN202111105467.9A
Authority: CN
Inventors: H·F·阿玛德
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2020-09-22
Filing date: 2021-09-22
Publication date: 2022-07-01
Also published as: US20220092406A1; DE102021124445A1

Abstract

本公开提供“用于机器学习算法的元特征训练模型”。本文描述了用于以有效的方式训练和评估使用大型复杂数据集训练的机器学习模型的系统和方法。所述系统实现用于训练第一模型并使用所述第一训练后的模型生成预测的方法。所述预测和所述数据的一部分可以用于训练第二模型并生成预测作为所述第二模型的输出。第一模型可用于第三数据集以生成预测，所述预测被附加到第三数据集。然后将所附加的第三数据集输入到第二模型中，以生成与第三数据集进行比较以获得准确度的附加输出。

Description

用于机器学习算法的元特征训练模型

技术领域

本公开总体上涉及机器学习算法。

背景技术

使用机器学习的数据分析和建模问题正变得流行，并且通常依赖于数据科学专业知识来构建合理准确的机器学习(ML)模型。这种建模涉及挑选适当的模型并将模型训练到给定的数据集。当生成严重依赖于数据科学家的机器学习模型时，模型训练是最耗时且特别的步骤。通常，在训练数据集上，特别是在数据集的数据特征上训练模型。保留数据集的一部分以在训练之后验证和测试该模型。

发明内容

一个或多个计算机的系统可以被配置为通过将软件、固件、硬件或它们的组合安装在系统上来执行特定操作或动作，所述软件、固件、硬件或它们的组合在操作中使系统执行所述动作。一个或多个计算机程序可以被配置为通过包括指令来执行特定操作或动作，所述指令在由数据处理设备执行时致使所述设备执行所述动作。一个总体方面包括一种用于开发和训练神经网络的方法，所述方法包括使用第一数据集来训练第一模型。所述方法还包括使用所述第一模型生成针对多个第一数据中的每一个的第一预测。所述方法还包括将针对多个第一数据中的每一个的第一预测与所述第一数据存储在第二数据集中。所述方法还包括使用所述第二数据集来训练第二模型。所述方法还包括使用所述第一模型生成针对多个第二数据中的每一个的第二预测。所述方法还包括将针对多个第二数据中的每一个的第二预测与所述第二数据存储在第三数据集中。所述方法还包括生成针对所述第三数据集中的每个项的最终预测。该方面的其他实施例包括对应计算机系统、设备和记录在一个或多个计算机存储装置上的计算机程序，其各自被配置为执行所述方法的动作。

实现方式可包括以下特征中的一个或多个。所述方法还包括将完整数据集拆分为所述第一数据集、所述多个第一数据和所述多个第二数据。拆分完整数据集的所述方法包括将完整数据集随机划分为所述第一数据集、所述多个第一数据和所述多个第二数据的相等分组。所述方法中，所述第一模型和所述第二模型是不同类型的模型。所述方法中，所述第一模型和所述第二模型是具有不同参数的相同类型的模型。所述方法中，所述第一数据集、所述多个第一数据和所述多个第二数据各自具有相同的大小。所述方法中，所述第一数据集与所述多个第一数据或所述多个第二数据中的至少一者具有不同的大小。所描述技术的实现方式可以包括硬件、方法或过程、或计算机可访问介质上的计算机软件。

附图说明

通过参考以下附图，可以实现对各种实施例的性质和优点的进一步理解。在附图中，类似的部件或特征可以具有相同的参考标号。此外，相同类型的各种部件可以通过在参考标号之后加上破折号和在类似部件之间进行区分的第二标号来区分。如果在说明书中仅使用第一参考标号，则所述描述适用于具有相同第一参考标号的类似部件中的任一个，而与第二参考标号无关。

图1示出了根据一些实施例的示出基于来自第一模型的预测来训练模型的方法的框图。

图2示出了根据一些实施例的示出用于测试和评估图1的模型的方法的框图。

图3示出了根据一些实施例的具有用于执行模型的训练和评估的部件的计算装置的实施例。

图4示出了根据一些实施例的示出用于使用来自第一模型的元特征来训练模型的方法的流程图。

图5示出了根据一些实施例的计算系统的框图。

图6示出了根据一些实施例的云计算系统。

具体实施方式

用于机器学习算法的模型的训练可能是耗时的，并且必须在训练后检查准确度。可能难以有效且准确地训练模型。另外，大型数据集或包括若干或许多维度的数据集可能难以用于训练模型。

为了提供有效且准确的模型训练，本文提供的系统和方法可以使得能够将数据集划分为多个子集。可以使用第一组子集来训练初步模型。初步模型可以使用第二组子集来对初步模型根据第一子集所训练的相同特征进行预测。预测可以是分类，或者可以是最终模型所需的最终分类的一组概率。由初步模型输出的第一预测可以用于训练最终模型。最终模型可以使用所述预测和第二数据集的训练标签进行训练。然后，最终模型可以生成比来自第一模型的预测更准确的预测。在训练之后，如上所述，初步模型和最终模型可以用于生成更准确的预测以及最终模型的输出的准确度分数，如下所述。

在训练最终模型之后，使用初步模型来使用数据集的第三子集生成第一组预测。来自初步模型的预测被添加到数据的第三子集，并且与附加训练特征一起由最终模型用于生成最终预测。将最终预测与来自第三子集的实际值进行比较，以得出最终模型的输出的准确度分数。初步模型和最终模型各自在至少一个方面不同。初步模型与最终模型之间的差异可以是参数的差异，在一些示例中，两个模型可以完全不同。

本文描述的系统和方法提供了对机器学习算法的有效训练，并且提供了对训练后的机器学习模型的准确度评级。另外，本文的系统和方法对于处理数据，特别是可以与非文本特征组合或混合的文本数据是有效的。在常规系统中，必须将文本和非文本特征构建到可用于训练模型的单个矩阵中。由于训练模型所需的单个矩阵，将被训练的算法可能无法平衡数据集的文本和非文本特征。通过将数据分成子集，数据集的文本和非文本特征可以用于以平衡数据集的文本和非文本特征两者的方式来训练算法。

另外，本文描述的系统和方法通过经由两个单独训练的模型处理数据来为训练后的机器学习模型提供更高的准确度，其中第一模型的输出用作数据的“首关”以使得第二模型能够提供具有更高准确度的预测。使用多个机器学习模型确保模型的最终输出具有更高的准确度。另外，本文的系统和方法通过降低文本数据的维数而不减少数据的特征来处理大量文本和非文本数据以训练各种模型。更进一步地，本文所述的系统和方法通过如本文所述拆分数据来提供在与非文本特征混合的文本数据上训练模型的增加的能力。

根据需要，本文中公开了详细实施例；然而，应理解，所公开的实施例仅仅是代表性的，并且所要求保护的主题可以各种且替代的形式体现。附图不一定按比例；一些特征可能被放大或最小化以示出特定部件的细节。因此，本文所公开的特定结构细节和功能细节不应被解释为是限制性的，而是仅仅解释为教导本领域技术人员以不同方式应用所要求保护的主题的代表性基础。

现在转至图1，其示出了根据一些实施例的示出基于来自第一模型的预测来训练模型的方法的框图100。最初，第一数据集被划分为数据集A 102、数据集B 106和数据集C204(图2所示)。将第一数据集划分为子集可以是随机的，或者可以根据数据集的内容进行划分。例如，数据集A可以对应于文本数据，而数据集B 106是非文本数据。在一些示例中，数据集中的每一者可以包括类似的数据，诸如用于不同数据条目的类似类型的数据。第一数据集可以被划分为相等大小的数据集，或者可以被随机且不均等地划分。第一数据集可以任何数量的方式被拆分并且被拆分成可被设想的尽可能多的不同部分。在一些实施例中，第一数据集的划分数量可以是可由系统修改以产生更准确结果的变量，例如通过调整数据的划分数量以确保每个数据集具有足够的数据来产生有意义的结果而不需要外来数据来训练所述模型。

数据集A 102用于分类算法A 104的常规训练以生成模型A 108。因此，根据已知的训练方法，模型A是常规训练的机器学习模型。数据集A 102的训练特征和训练标签用于训练分类算法A。尽管附图示出了分类算法，但是可以实现其他类型的算法，诸如概率或其他此类已知算法类型。在一些示例中，模型A可以是给定结果的概率或置信度的预测，而模型B112是分类算法。本文的公开设想了其他此类布置和实施例。

一旦模型A 108被训练，数据集B 106就被输入到模型中以生成预测。数据集B的训练特征进入模型A 108，在训练之后，并且预测是模型A 108的输出。来自模型A 108的预测可以与来自数据集B 106的训练标签一起使用，以训练分类算法B 110，从而生成训练后的模型B 112。预测和数据集B 106的数据包括用于训练分类算法B 110的经更新特征。

在上述布置中，模型A 108是用于从数据集中提取特征的变换。将模型A 108部署为具有提供给模型B 112的输出的变换使得模型B 112能够将预测用作特征集的一部分(经更新特征)以利用模型B进行预测。由于这种布置，模型A 108和模型B 112在至少一个方面是不同的。模型可以在结构或参数方面不同，或者可以是完全不同的模型。因此，模型A 108可用于提供模型B 112能够用来产生最终意见(预测)的第一意见(预测)。以这种方式，模型B 112能够受益于模型A进行的预测，以在来自先前模型的输出的附加数据的帮助下产生更准确的预测。模型B 112的预测的准确度通过关于以下图2所示的方法来验证，其用于产生准确度分数。

图2示出了根据一些实施例的示出用于测试和评估图1的模型的方法200的框图。方法200用于基于上述第一数据集生成最终预测208以及通过使用准确度分数210来评估最终预测208，所述准确度分数可以提供对模型A 202和模型B 206的准确度的见解。

如图2所示，模型A 202，其可以是来自图1的模型A 108或可以是任何其他初步训练后的模型，与数据集C 202(第一数据集的第三子集)一起使用，以基于数据和训练后的模型A 202生成预测。将由模型A 202生成的预测添加到数据集C 204并输入到模型B 206中。模型B 206可以与图1的模型B 112相同或可以是任何其他合适的模型。在来自数据集C 204的数据(包括从模型A 202输出的预测)之后的模型B 206的输出是最终预测208。然后可以将最终预测208与来自数据集C 204的标签进行比较以生成准确度分数。

如上面关于图1所述，数据集C 204包括足够的数据以生成最终预测208以及生成准确度分数210。因此，当划分第一数据集时，重要的是数据集C 204包括足够的数据以用于测试和评估使用数据集A 102和数据集B 106训练的模型。准确度分数可以呈现为百分比，例如呈现为与来自数据集C 204的测试标签匹配的最终预测208的百分比，或者最终预测208相对于数据集C 204的准确度的任何其他标记。

图3示出了根据一些实施例的具有用于执行模型的训练和评估的部件的计算装置300的实施例。计算装置300可以是任何合适的计算装置，诸如图5的计算装置500或图6的云计算系统600。计算装置300包括处理器302和存储器304。存储器304可以是包括用于本文描述的不同方法和步骤的指令的非暂时性存储器。

具体地，存储器304可以包括数据集拆分模块306、训练模块308、测试模块310、准确度评分模块312、部署模块314、模型池316以及训练和测试数据的数据集318。在一些实施例中，存储器304可以包括多个不同的存储器装置或分区。在一些实施例中，关于存储器304描述的模块和元件可以不存储为独立的元件或模块，而是可以任何合适的配置存储。

数据集拆分模块306从训练和测试数据的数据集318接收数据，并将数据拆分成数据的子集。数据可以包括文本和非文本数据，包括数值数据和能够通过模型处理的其他形式的数据。将数据划分为子集可以是随机的，或者可以根据数据的内容进行划分。例如，第一数据集可以对应于文本数据，而第二数据集是非文本数据。第三数据集可以包括文本和非文本数据两者。在一些示例中，数据集中的每一者可以包括类似的数据，诸如用于不同数据条目的类似类型的数据。数据可以被划分为相等大小的数据集，或者可以被随机且不均等地划分。数据可以任何数量的方式被拆分并且被拆分成可被设想的尽可能多的不同部分。在一些实施例中，数据的划分数量可以是可由系统修改以产生更准确结果的变量，例如通过调整数据的划分数量以确保每个数据集具有足够的数据来产生有意义的结果而不需要外来数据来训练所述模型。

训练模块308可以接收来自训练和测试数据的数据集318的训练数据以及来自模型池316的用于基于训练数据进行训练的模型。训练模块可以将数据输入到从模型池316中选择的模型中以计算激活值、误差项和/或权重更新。训练模块308还可以从数据集拆分模块306接收已经被预处理以将数据划分为数据子集的数据。

测试模块310可以从训练和测试数据的数据集318接收测试数据，并且可以将测试数据输入到本文描述的模型中。测试模块310可以测试模型中的每一个以产生预测，例如，如关于上述图1至图2所描述。

准确度评分模块312接收来自训练和测试数据的数据集的数据以及由本文所述的模型输出的数据。例如，准确度评分模块312可以在输入来自数据集C 204的数据之后接收模型B 206的输出，并且可以与数据集C 204的标签进行比较以生成准确度分数。

部署模块314可以例如通过部署模型进行训练并且在使用来自训练和测试数据的数据集318的数据进行训练之后来部署模型池316中的一个或多个模型。

模型池316包括可以针对本文描述的系统的模型中的每一者选择的多个不同模型，诸如概率模型和分类模型。例如，模型A 108可以包括分类模型，而模型B 112是概率模型。在一些示例中，其他算法和模型可以包括在模型池316中以供在本文描述的系统中选择和使用。

图4示出了根据一些实施例的示出用于使用来自第一模型的元特征来训练模型的方法400的流程图。方法400可以由例如计算系统(诸如图3的计算装置300、图5的计算装置500或图6的云计算系统600)执行。尽管按顺序呈现方法400的步骤，但是在一些示例中，一些或所有步骤可以不同的顺序执行，包括同时执行。

在410处，方法400包括用第一数据集训练第一模型。第一数据集可以从较大的数据集拆分，将较大的数据集拆分为第一数据集、第二数据集和第三数据集。较大的数据集也可以拆分成附加的数据集，诸如第四数据集和第五数据集。可以如上所述划分或拆分较大的数据集。最初可以基于要执行的动作来选择第一模型。可以使用第一数据集来训练第一模型，例如以基于至模型的输入对数据对象进行分类或提供关于输出的概率分数或置信度分数。

在420处，方法400包括使用第一模型生成第一预测。通过将第一数据集输入到第一模型中来生成第一预测。第一模型可以针对第一数据中的每一个提供预测。

在430处，方法400包括将第一预测与第一数据存储在第二数据集中。第二数据集可以包括来自较大的数据集的数据以及来自第一模型的预测。因此，第二数据集包括特征以及元特征。第二数据集可以存储在计算装置的存储器中、远程存储装置中或任何合适的存储装置中。

在440处，方法400包括使用第二数据集来训练第二模型。最初可以基于要执行的动作来选择第二模型。可以使用第二数据集来训练第二模型，例如以基于至模型的输入对数据对象进行分类或提供关于输出的概率分数或置信度分数。第二模型在至少一个方面不同于第一模型。第一模型和第二模型可以是完全不同的模型。在一些实施例中，第一模型和第二模型可以具有类似的结构，但是模型的参数不同。

在450处，方法400包括使用第一模型生成第二预测。通过将第二数据集输入到第一模型中来生成第二预测。第一模型可以针对第二数据中的每一个提供预测。

在460处，方法400包括将第二预测与第二数据存储在第三数据集中。第三数据集可以包括来自较大的数据集的数据以及来自第二模型的预测。因此，第三数据集包括特征以及元特征。第三数据集可以存储在计算装置的存储器中、远程存储装置中或任何合适的存储装置中。

在470处，方法400包括生成针对所述第三数据集中的每个项的最终预测。可以使用先前训练的第二模型来生成针对第三数据集中的每个项的最终预测。如本文所述，可以通过将最终预测与第三数据集的标签进行比较来评估最终预测的准确度。

图5示出了计算装置500的示例的框图。计算装置500可以是本文描述的计算机中的任一者，包括(例如)计算装置300。计算装置500可以是或包括例如集成计算机、膝上型计算机、台式计算机、平板计算机、服务器或其他电子装置。

计算装置500可包括经由总线505与其他硬件介接的处理器540。可包括任何合适的有形(和非暂时性)计算机可读介质(诸如RAM、ROM、EEPROM等)的存储器510可体现配置计算装置500的操作的程序部件(例如，程序代码515)。存储器510可存储程序代码515、程序数据517或以上两者。在一些示例中，计算装置500可包括输入/输出(“I/O”)接口部件525(例如，用于与显示器545、键盘、鼠标等介接)和附加的存储装置530。

计算装置500执行程序代码515，所述程序代码配置处理器540以执行本文描述的操作中的一者或多者。在各种实施例中，程序代码515的示例包括以上关于图4描述的逻辑流程图。程序代码515可驻留在存储器510或任何合适的计算机可读介质中，并且可由处理器540或任何其他合适的处理器执行。

计算装置500可借助执行程序代码515而生成或接收程序数据517。例如，传感器数据、行程计数器、认证消息、行程标志和本文所述的其他数据都是可以由计算装置500在执行程序代码515期间使用的程序数据517的示例。

计算装置500可包括网络部件520。网络部件520可以表示促进网络连接的任何部件中的一个或多个。在一些示例中，网络部件520可以促进无线连接，并且包括无线接口，诸如IEEE 802.11、BLUETOOTH^TM或用于访问蜂窝电话网络的无线电接口(例如，用于访问CDMA、GSM、UMTS或其他移动通信网络的收发器/天线)。在其他示例中，网络部件520可以是有线的，并且可包括诸如以太网、USB或IEEE 1394的接口。

虽然图5描绘了具有处理器540的计算装置500，但所述系统可包括任何数目个计算装置500和任何数目个处理器540。例如，多个计算装置500或多个处理器540可分布在有线或无线网络(例如，广域网、局域网或互联网)上。所述多个计算装置500或多个处理器540可单独地或彼此协调地执行本公开的步骤中的任一者。

在一些实施例中，由计算装置500提供的功能可以由云服务提供商作为云服务提供。例如，图6描绘了供应智能服务的云计算系统600的示例，许多用户订阅者可使用用户装置625a、625b和625c跨数据网络620来使用所述智能服务。用户装置625a、625b和625c可以是上文描述的计算装置300的示例。在该示例中，可以在软件即服务(SaaS)模型下提供智能服务。一个或多个用户可以订阅智能服务，并且云计算系统执行处理以向订阅者提供智能服务。云计算系统可以包括一个或多个远程服务器计算机605。

远程服务器计算机605包括用于存储由云计算系统600使用来提供云服务的程序代码(例如，服务器630)和程序数据610或两者的任何合适的非暂时性计算机可读介质。计算机可读介质可以包括能够向处理器提供计算机可读指令或其他程序代码的任何电子、光学、磁性或其他存储装置。计算机可读介质的非限制性示例包括磁盘、存储器芯片、ROM、RAM、ASIC、光学存储装置、磁带或其他磁性存储装置、或者处理装置可以从中读取指令的任何其他介质。所述指令可包括由编译器或解译器从通过任何合适的计算机编程语言编写的代码生成的处理器专有指令，所述计算机编程语言包括(例如)C、C++、C#、Visual Basic、Java、Python、Perl、JavaScript和ActionScript。在各种示例中，服务器计算机605可以包括易失性存储器、非易失性存储器或它们的组合。

服务器计算机605中的一个或多个执行程序数据610，所述程序数据配置服务器计算机605的一个或多个处理器以执行确定交互元素的位置并操作基于自适应规则的系统的操作中的一个或多个。如图6中的实施例所描绘，一个或多个服务器计算机605提供服务以经由服务器630来执行基于自适应规则的系统。执行本文描述的一个或多个操作的任何其他合适的系统或子系统(例如，用于配置交互式用户界面的一个或多个开发系统)也可以由云计算系统600实现。

在某些实施例中，云计算系统600可通过执行程序代码和/或使用程序数据610来实施所述服务，所述程序代码和程序数据可驻留在服务器计算机605的存储器装置中或任何合适的计算机可读介质中，并且可由服务器计算机605的处理器或任何其他合适的处理器执行。

在一些实施例中，程序数据610包括本文描述的一个或多个数据集和模型。这些数据集的示例包括经销店数据、分类数据等。在一些实施例中，数据集、模型和函数中的一者或多者存储在同一存储器装置中。在附加或替代实施例中，本文描述的程序、数据集、模型和函数中的一者或多者存储在可经由数据网络620访问的不同存储器装置中。

云计算系统600还包括实现往返云计算系统600的通信的网络接口装置615。在某些实施例中，网络接口装置615包括适合于建立至数据网络620的有线或无线数据连接的任何装置或装置组。网络接口装置615的非限制性示例包括以太网网络适配器、调制解调器等。服务器630能够使用网络接口装置615经由数据网络620与用户装置625a、625b和625c通信。

虽然已经关于本主题的具体方面对本主题进行了详细描述，但是应理解，本领域技术人员在理解前述内容后，可以很容易产生这些方面的变更、变化和等效物。本文阐述了许多具体细节，以提供对所要求保护的主题的透彻理解。然而，本领域技术人员将理解，可以在没有这些具体细节的情况下实践所要求保护的主题。在其他情况下，未详细描述本领域普通技术人员已知的方法、设备或系统，以免模糊所要求保护的主题。因此，已出于示例而非限制的目的呈现了本公开，并且本公开不排除包括对本主题的此类修改、变化和/或添加，这对于本领域的普通技术人员来说是明显的。

除非另有特别说明，否则应理解，在整个本说明书中，利用诸如“处理”、“计算”、“确定”和“识别”等术语进行的论述指代计算装置的动作或过程，所述计算装置诸如一个或多个计算机或一个或多个类似的电子计算装置，其操纵或变换表示为计算平台的存储器、寄存器或其他信息存储装置、传输装置或显示装置内的物理电子或磁性量的数据。本文使用的“适于”或“被配置为”意指开放和包容性语言，其不排除适于或被配置为执行附加任务或步骤的装置。另外，“基于”的使用意味着是开放的和包容性的，因为“基于”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于超出所述的附加条件或值。本文所包括的标头、列表和编号仅是为了便于解释，并不意味着进行限制。

本文公开的方法的各方面可以在此类计算装置的操作中来执行。本文讨论的一个或多个系统不限于任何特定的硬件架构或配置。计算装置可以包括提供以一个或多个输入为条件的结果的任何合适的部件布置。合适的计算装置包括基于多用途微处理器的计算机系统，所述计算机系统访问存储的软件，所述软件将计算系统从通用计算设备编程或配置为实现本主题的一个或多个方面的专用计算设备。可以使用任何合适的编程、脚本或其他类型的语言或语言组合来实施本文所包含的在用于对计算装置进行编程或配置的软件中的教导。在以上示例中呈现的框的顺序可以有所变化——例如，各框可以被重新排序、组合和/或分成子框。某些框或过程可以并行地执行。

根据本发明，一种用于开发和训练神经网络的方法，该方法包括：使用第一数据集训练第一模型；使用所述第一模型生成针对多个第一数据中的每一个的第一预测；将针对所述多个第一数据中的每一个的所述第一预测与所述第一数据存储在第二数据集中；使用所述第二数据集训练第二模型；使用所述第一模型生成针对多个第二数据中的每一个的第二预测；将针对所述多个第二数据中的每一个的所述第二预测与所述第二数据存储在第三数据集中；以及使用所述第二模型生成针对所述第三数据集中的每个项的最终预测，其中所述最终预测的准确度高于所述第一预测和所述第二预测的准确度。

在本发明的一个方面，该方法包括将完整数据集拆分为所述第一数据集、所述多个第一数据和所述多个第二数据。

在本发明的一个方面，拆分所述完整数据集包括将所述完整数据集随机划分为所述第一数据集、所述多个第一数据和所述多个第二数据的相等分组。

在本发明的一个方面，所述第一模型和所述第二模型是不同类型的模型。

在本发明的一个方面，所述第一模型和所述第二模型是具有不同参数的相同类型的模型。

在本发明的一个方面，所述第一数据集、所述多个第一数据和所述多个第二数据各自具有相同的大小。

在本发明的一个方面，所述第一数据集与所述多个第一数据或所述多个第二数据中的至少一者具有不同的大小。

根据本发明，提供了一种非暂时性计算机可读介质，其上存储有指令，所述指令在由一个或多个处理器执行时致使所述一个或多个处理器：使用第一数据集训练第一模型；使用所述第一模型生成针对多个第一数据中的每一个的第一预测；将针对所述多个第一数据中的每一个的所述第一预测与所述第一数据存储在第二数据集中；使用所述第二数据集训练第二模型；使用所述第一模型生成针对多个第二数据中的每一个的第二预测；将针对所述多个第二数据中的每一个的所述第二预测与所述第二数据存储在第三数据集中；以及生成针对所述第三数据集中的每个项的最终预测。

根据实施例，本发明的特征还在于附加指令，所述附加指令在由所述一个或多个处理器执行时致使所述一个或多个处理器：将完整数据集拆分为所述第一数据集、所述多个第一数据以及所述多个第二数据。

根据实施例，拆分所述完整数据集包括将所述完整数据集随机划分为所述第一数据集、所述多个第一数据和所述多个第二数据的相等分组。

根据实施例，所述第一模型和所述第二模型是不同类型的模型。

根据实施例，所述第一模型和所述第二模型是具有不同参数的相同类型的模型。

根据实施例，所述第一数据集、所述多个第一数据和所述多个第二数据各自具有相同的大小。

根据实施例，所述第一数据集与所述多个第一数据或所述多个第二数据中的至少一者具有不同的大小。

根据本发明，提供了一种系统，其具有：处理器；和非暂时性计算机可读介质，其上存储有指令，所述指令在由所述处理器执行时致使所述处理器：使用第一数据集训练第一模型；使用所述第一模型生成针对多个第一数据中的每一个的第一预测；将针对所述多个第一数据中的每一个的所述第一预测与所述第一数据存储在第二数据集中；使用所述第二数据集训练第二模型；使用所述第一模型生成针对多个第二数据中的每一个的第二预测；将针对所述多个第二数据中的每一个的所述第二预测与所述第二数据存储在第三数据集中；以及生成针对所述第三数据集中的每个项的最终预测。

根据实施例，该计算机可读介质包括另外的指令，所述另外的指令在由所述一个或多个处理器执行时致使所述一个或多个处理器：将完整数据集拆分为所述第一数据集、所述多个第一数据以及所述多个第二数据。

Claims

1.一种用于开发和训练神经网络的方法，所述方法包括：

使用第一数据集训练第一模型；

使用所述第一模型生成针对多个第一数据中的每一个的第一预测；

将针对所述多个第一数据中的每一个的所述第一预测与所述第一数据存储在第二数据集中；

使用所述第二数据集训练第二模型；

使用所述第一模型生成针对多个第二数据中的每一个的第二预测；

将针对所述多个第二数据中的每一个的所述第二预测与所述第二数据存储在第三数据集中；以及

使用所述第二模型生成针对所述第三数据集中的每个项的最终预测，其中所述最终预测的准确度高于所述第一预测和所述第二预测的准确度。

2.如权利要求1所述的方法，其还包括将完整数据集拆分为所述第一数据集、所述多个第一数据和所述多个第二数据。

3.如权利要求2所述的方法，其中拆分所述完整数据集包括将所述完整数据集随机划分为所述第一数据集、所述多个第一数据和所述多个第二数据的相等分组。

4.如权利要求1、2或3所述的方法，其中所述第一模型和所述第二模型是具有不同参数的相同类型的模型。

5.如权利要求1、2或3所述的方法，其中所述第一数据集、所述多个第一数据和所述多个第二数据各自具有相同的大小。

6.如权利要求1、2或3所述的方法，其中所述第一数据集与所述多个第一数据或所述多个第二数据中的至少一者具有不同的大小。

7.一种非暂时性计算机可读介质，其上存储有指令，所述指令在由一个或多个处理器执行时致使所述一个或多个处理器：

使用第一数据集训练第一模型；

使用所述第二数据集训练第二模型；

生成针对所述第三数据集中的每个项的最终预测。

8.如权利要求7所述的非暂时性计算机可读介质，其还包括附加指令，所述附加指令在由所述一个或多个处理器执行时致使所述一个或多个处理器：

将完整数据集拆分为所述第一数据集、所述多个第一数据和所述多个第二数据。

9.如权利要求7或8所述的非暂时性计算机可读介质，其中拆分所述完整数据集包括将所述完整数据集随机划分为所述第一数据集、所述多个第一数据和所述多个第二数据的相等分组。

10.如权利要求7或8所述的非暂时性计算机可读介质，其中所述第一模型和所述第二模型是不同类型的模型。

11.如权利要求7或8所述的非暂时性计算机可读介质，其中所述第一数据集、所述多个第一数据和所述多个第二数据各自具有相同的大小。

12.如权利要求7或8所述的非暂时性计算机可读介质，其中所述第一数据集与所述多个第一数据或所述多个第二数据中的至少一者具有不同的大小。

13.一种系统，其包括：

处理器；和

非暂时性计算机可读介质，其上存储有指令，所述指令在由所述处理器执行时致使所述处理器：

使用第一数据集训练第一模型；

使用所述第二数据集训练第二模型；

生成针对所述第三数据集中的每个项的最终预测。

14.如权利要求13所述的系统，其中所述计算机可读介质包括另外的指令，所述另外的指令在由所述一个或多个处理器执行时致使所述一个或多个处理器：

15.如权利要求14所述的系统，其中拆分所述完整数据集包括将所述完整数据集随机划分为所述第一数据集、所述多个第一数据和所述多个第二数据的相等分组。