CN106537423A

CN106537423A - 作为服务的自适应特征化

Info

Publication number: CN106537423A
Application number: CN201580038042.7A
Authority: CN
Inventors: M·毕兰科; A·卡梅尼夫; V·纳拉亚南; P·塔拉巴
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-07-12
Filing date: 2015-07-10
Publication date: 2017-03-22
Also published as: RU2017100479A3; RU2017100479A; EP3167409A1; US20160012318A1; JP2017527013A; WO2016010832A1

Abstract

描述了针对所提供的数据集和机器学习应用执行特征化的自动选择和推荐的服务。该服务可以是云服务。选择/推荐可以覆盖可用于大多数常见原始数据格式(例如，图像和文本数据)的多个特征化。提供数据集和任务，服务可以评估不同的可能的特征化，以基于性能、数据集和任务与已知数据集的相似度来选择一个或多个特征化，这些已知数据集具有已知在类似任务上具有高预测准确性和低预测误差的特征化，通过学习算法训练以获取多个输入等。服务可以包括请求响应方面，其提供对针对给定数据集和任务选择的最佳特征化的访问。

Description

作为服务的自适应特征化

背景技术

将机器学习算法应用于数据需要从原始数据到可以由训练和预测算法消耗的特征的集合的变换。例如，原始图像数据可以是表示像素强度的矩阵。文本文档的原始数据可以是二进制向量，其中向量的元素表示文档中出现的词。

原始数据表示通常是机器学习算法的次优表示。通常，原始数据表示通过被称为特征化的过程而转换为相对于学习任务更具表现力的特征。特征化将原始数据表示转换为语义上有意义的表示，该语义上有意义的表示描述与手头的学习任务相关的数据的特性。原始数据可以用很多不同的方式来特征化。一些特征化可以比用于训练高精度的预测模型的其他特征化的效率高得多。特征化通常在数学上是复杂的并且在计算上是密集的。

发明内容

针对特定的数据域和应用选择有效的特征化通常需要大量的实验。描述了针对所提供的数据集和机器学习应用自动选择和推荐一个或多个特征化的服务。服务可以是云服务。选择和/或推荐可以覆盖可用于包括但不限于图像和文本数据的原始数据格式的多个特征化。给定数据集和任务，服务可以评估不同的可能的特征化，以选择被认为提供最高性能的一个或多个特征化。性能可以在最高精度和/或计算性能方面来测量。

特征化的自动选择和/或推荐可以是基于数据集和任务与具有已知在类似任务上具有高预测准确性的特征化的已知的数据集的相似度。自动选择和/或推荐可以是基于在特定任务上产生低预测误差的特征化。自动选择和/或推荐可以是基于使用得到表示不同相关因素(例如，数据集属性、特征化相关性等)的多个输入的机器学习算法的训练。服务可以包括请求响应方面，其提供对针对给定的数据集和任务选择的最佳特征化的访问。

提供本发明内容以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容不旨在标识要求保护的主题的关键特征化或必要特征化，也不旨在用于限制要求保护的主题的范围。

附图说明

在附图中：

图1示出了根据本文中描述的主题的各个方面的包括特征化模块或服务的示例的系统100的示例；

图2示出了根据本文中公开的主题的各个方面的用于自动选择特征化的方法200的示例；以及

图3是根据本文中公开的主题的各个方面的计算环境的示例的框图。

具体实施方式

概述

假设能够使用来自被放置在家庭周围的相机的图像数据来区分入侵者和家庭猫的系统是期望的。机器学习技术可以被用于训练软件以区分猫和入侵者。通常，这是通过收集大量原始数据(在此情况下，是大量猫的图像和大量人的图像)来进行的。图像可以表示宽种类的数据或更受限制的种类的数据。例如，猫图像可以是驯养的猫科动物的任何图像，而人类图像可以是表示入侵者的可能外观的图像(与穿芭蕾舞短裙的6岁女孩相比穿连帽衫的成年人更可能是入侵者)。针对图像接收的原始数据通常是像素数据的二维阵列。

在本示例中，收集图像以提供给机器学习系统的目的是训练正确地做出诸如“是，它是入侵者”或“不，它不是入侵者”等预测的模型。数据可以被用于训练被转换成做出预测的代码的算法。基于来自图像的原始数据进行预测不可能提供最高可能的准确度。为了获得更有效的结果，原始数据必须被翻译成与潜在种类(例如，种类在这种情况下为是入侵者或者不是入侵者)的数据的特性相关联的更高阶特征(诸如，边缘、轮廓和形状)的表示。基于这些高阶特征，可以训练更精确的入侵检测器。

类似地，假设电子邮件应用将文档分类为“垃圾邮件”或“非垃圾邮件”，或者将新闻来源分类为“运动”或“非运动”。原始数据可以作为文档进入，文档是信的集合。信可以分割成单词。单词可以被子选择为诸如“可能是垃圾邮件”或“不可能是垃圾邮件”等集合。例如，“可能是垃圾邮件”的词语可以是包括处方药品名称或成人内容术语的词语。可能表示“运动”分类的词语可能包括运动员或运动组织的名称等。因此，原始数据可以被处理为诸如词语等一般种类，并且一般种类可以被转换成语义上更有意义的特征化(表示存在“可能是垃圾邮件”词语或“可能不是垃圾邮件”词语的特征)。机器学习算法可以使用语义上有意义的特征化来运行以获得更高精度的结果。

根据本文中描述的主题的各个方面，提供了一种服务，其使得用户能够使用已经创建的特征化库来训练检测器、预测器或其他基于机器学习的软件。服务可以接收可以由服务的用户提供的原始数据。数据可以被标记。服务可以从用户接收要执行的任务的描述(例如，用户问题定义)。服务可以从用户接收可以测量“成功”的范例(度量)。作为响应，服务可以从特征化库中自动选择一个或多个特征化。服务可以确定特征化的什么组合提供与定义“成功”的方式一致的结果。

例如，假设特征化库包括狗特征化数据集。为了训练猫与入侵者系统，与有助于将邮递员与入侵者区分开的特征化相比，狗特征化可能远远更加有用，因为基本的特性是“毛茸茸”对“非毛茸茸”，狗和猫二者的特性。这样的特征化使得分类器能够以更高的准确度区分不同的类。因此，可以提供不同特征化的库。响应于用户问题定义和可以是原始数据的样本数据集，服务可以选择要应用的一个或多个特征化。测试可以被运行以确定由用户定义的哪种特征化或特征化的组合性能最好(例如，最低误差或快速预测时间)。该结果可以被返回给用户。

服务可以是“在云中”的服务。该服务可以基于可能的特征化的大型库。不同的特征化可以被提供用于不同类型的数据(诸如文本、图像、音频、事务事件数据、历史计数等)。用户可以提供用于机器学习任务的数据集。服务可以执行必要的计算和/或实验以确定针对给定任务在该数据集上性能最佳地的特征化。

存在几种方式可以执行这些计算和/或实验。特征化的选择和/或推荐可以基于相似度函数，该相似度函数测量输入数据集与已知最佳特征化的类似的过去数据集之间的相似度。这样的相似度函数可以基于数据集统计，其可以包括但不限于大小、维度、稀疏性、因子分析、边缘等。

特征化的选择和/或推荐可以基于直接优化预测任务的度量，诸如ROC(曲率半径)曲线(曲线下的AUC面积)下的精确度或面积。特征化的选择和/或推荐可以基于并入多个信号源以学习最有用、紧凑等的特征化。特征化的选择和/或推荐可以基于对多个可能的特征化及其组合的搜索。特征化的选择和/或推荐可以是基于以自动方式并入数据集和任务的领域知识。web服务(请求/响应服务或批处理服务)可以提供对针对给定的数据集和任务选择的最佳特征化的访问。

考虑确定良好的特征化以将图像分类到分类法中的一个非限制性示例。来自计算机视觉领域的典型特征包括例如HOG(定向梯度直方图)和SIFT(尺度不变特征变换)特征、边缘检测器、卷积神经网络特征等。给定数据集，计算机视觉方面的非专家难以构建和实验这些功能，以实现所有这些从而选择获取高精度所需要的最小集合。根据本文中描述的主题的各个方面，可以执行以下操作。

可以标识与数据集相似的其他数据集，其中对于预测任务的阵列已知良好的特征化，其中一些预测任务可以类似于手头的任务。这种知识可以来自服务中的历史实验，或者来自将其知识编码成特征化选择规则的领域专家。具有对于图像合理的各种特征化的实验(例如，HOG特征、SIFT特征、卷积神经网络等)可以自动进行。选择算法可以包括但不限于诸如神经网络或增强回归树等方法。它们也可以用于标识提供最佳分类精度的特征组。平台上的实验可以使用历史图像分类来执行，以使用自动推断的特征化来教导模型。

作为服务的自适应特征化

图1示出了根据本文中描述的主题的各个方面的包括特征化选择模块或服务的系统100的示例。系统100的全部或部分可以驻留在一个或多个计算机或计算设备(诸如下面参照图3描述的计算机)上。系统100或其部分可以被提供作为独立的系统或作为插入程序或插件。

系统100或其部分可以包括从服务(例如，在云中)获得的信息，或者可以在云计算环境中操作。云计算环境可以是其中计算服务不被拥有但是按需提供的环境。例如，信息可以驻留在联网的云中的多个设备上，以及/或者数据可以存储在云中的多个设备上。

系统100可以包括一个或多个计算设备，诸如例如计算设备102。计划的计算设备包括但不限于台式计算机、平板计算机、膝上型计算机、笔记本计算机、个人数字助理、智能电话、蜂窝电话、移动电话等。计算设备(诸如计算设备102)可以包括一个或多个处理器(诸如处理器142等)以及与一个或多个处理器通信的存储器(诸如存储器144等)。

系统100可以包括任何一个或多个程序模块，其包括：特征化选择模块或服务，诸如特征化选择模块或服务106。系统100还可以包括一个或多个数据集和任务定义数据库或数据集，诸如数据集和任务定义数据库108。系统100还可以包括来自过去的运行或过去的知识储存库的特征化结果的数据集或数据库，诸如来自过去的运行数据库的特征化结果110。系统100还可以包括比较模块或服务118，其比较测试结果并且做出一个或多个推荐，诸如推荐120。

特征化选择模块或服务106可以接收输入122。输入122可以包括原始数据、任务定义和/或如何测量成功的描述的任何组合。如何测量成功的一些示例包括但不限于期望的结果，诸如低错误率或高检测率。原始数据可以是图像数据、文本数据、音频数据、事务事件数据、历史计数或任何其他类型的数据。问题定义可以包括但不限于预测、检测、回归等。

基于接收的输入，特征化选择模块或服务106可以从数据集和任务定义的库108中选择数据集和任务定义。数据集和任务定义的库108可以包括数据集、任务定义、对应的特征化和目标的任意组合。从数据集和任务定义的库108中选择测试特征化可以基于测量输入数据集与已知最佳特征化的类似的过去的数据集之间的相似度的相似度函数。这样的相似度函数可以基于数据集统计，数据集统计可以包括但不限于大小、维度、稀疏性、因子分析、边缘等。来自过去运行的特征化结果可以在选择过程中进行访问。特征化和选择模块或服务106可以从数据集和任务定义数据储存库108中选择一个或多个特征化。特征化选择模块或服务106可以生成一个或多个特征化结果，诸如例如特征化结果1 112、特征化结果2114……特征化结果n116。诸如比较模块或服务118等比较模块或服务可以比较特征化结果，诸如例如特征化结果1 112、特征化结果2 114......特征化结果n116。可以提供一个或多个特征化推荐，诸如推荐120。本文中使用的术语“服务”指的是可以出于不同目的重用的一组相关软件功能、以及控制服务如何操作的策略。

图2示出了根据本文中描述的主题的各个方面的用于选择和/或推荐用于机器学习任务的一个或多个特征化的方法200的示例。图2中描述的方法可以由诸如但不限于参照图1描述的系统来实践。虽然方法200描述了按照序列执行的一系列操作，但是应当理解，方法200不受所描绘的序列的顺序的限制。例如，一些操作可以按照与所描述的顺序不同的顺序发生。另外，一个操作可以与另一操作同时发生。在一些情况下，不是执行所有所描述的操作。

在操作202，可以接收用户输入。用户输入可以包括数据集(例如，原始数据)、问题定义和/或如何测量成功的描述的任何组合。在操作204，特征化选择模块可以接收输入，以及通过以下各项的某种组合：将输入数据与存储在库中的数据集比较，将输入任务定义与存储在库中的任务定义进行比较，将输入目标与库中存储的、并且在操作206根据来自过去运行的数据储存库的特征化结果110访问来自过去运行的特征化化结果进行比较，测试特征化可以在操作208被选择来应用于从用户接收的原始数据。在操作210，使用测试特征化的测试运行可以被运行。在操作212，可以比较测试运行的结果。在操作214，可以进行一个或多个特征化推荐。

本文中描述了一种系统，该系统包括一个或多个处理器、连接到一个或多个处理器的存储器以及可以加载到存储器中以使处理器执行下面描述的某些功能的程序模块。一个或多个程序模块可以执行特征化自动选择功能，该特征化自动选择功能自动选择针对用于机器学习应用的接收到的数据集和接收到的任务定义的至少一个特征化。一个或多个程序模块可以包括比较模块，该比较模块将接收到的数据集与数据集的库进行比较，并且基于比较选择至少一个特征化。接收到的数据集可以包括原始数据。原始数据是指尚未处理为特征的数据。一个或多个程序模块可以包括比较模块，比较模块将接收到的任务定义与任务定义的库进行比较，并且基于比较选择至少一个特征化。一个或多个程序模块可以包括检查用于所选择的至少一个特征化的过去训练运行的结果的模块。一个或多个程序模块可以包括检查向接收到的数据集应用所选择的特征化的多个测试运行结果并且基于结果选择至少一个特征化的模块。一个或多个程序模块可以包括接收如何测量成功的定义的模块。

本文中描述了一种方法，该方法包括由计算设备的处理器接收包括原始数据的数据集的输入，将数据集与数据集的库进行比较，并且基于比较来选择与数据集的库中的数据集相关联的至少一个特征化；推荐所选择的至少一个特征化以应用于原始数据的数据集。该方法可以包括以下操作：将接收到的任务定义与任务定义的库中的任务定义相比较，以及选择与任务定义的库中的任务定义相关联的至少一个特征化以应用于原始数据的数据集。该方法可以包括在测试运行中向原始数据的数据集应用至少一个所选择的特征化的操作。该方法可以包括将其中向原始数据的数据集应用所选择的特征化的多个测试运行的结果相比较的操作。该方法可以包括基于比较结果推荐至少一个特征化以应用于原始数据的数据集的操作。该方法可以包括接收如何测量成功的定义的操作。

本文中描述了一种不包括数据信号的计算机可读存储介质，存储介质包括计算机可读指令，其在被执行时引起计算设备的至少一个处理器自动选择针对用于机器学习应用的接收到的数据集和接收到的任务定义的至少一个特征化。计算机可读存储介质可以包括另外的计算机可读指令，其在被执行时引起至少一个处理器将接收到的数据集与数据集的库进行比较；以及基于比较选择至少一个特征化。计算机可读存储介质可以包括另外的计算机可读指令，其在被执行时引起至少一个处理器将接收到的任务定义与任务定义的库进行比较；以及基于比较选择至少一个特征化。计算机可读存储介质可以包括另外的计算机可读指令，其在被执行时引起至少一个处理器检查用于所选择的至少一个特征化的过去训练运行的结果。计算机可读存储介质可以包括另外的计算机可读指令，其在被执行时引起至少一个处理器检查向接收到的数据集应用所选择的特征化的多个测试运行结果，并且基于多个测试运行的结果的比较来选择至少一个特征化。计算机可读存储介质可以包括另外的计算机可读指令，其在被执行时引起至少一个处理器基于比较推荐至少一个特征化以应用于原始数据的数据集。计算机可读存储介质可以包括另外的计算机可读指令，其在被执行时引起至少一个处理器接收如何测量成功的定义。合适的计算环境的示例

为了提供本文中公开的主题的各个方面的上下文，图3和以下讨论旨在提供其中可以实现本文中公开的主题的各种实施例的合适的计算环境510的简要一般描述。虽然本文中公开的主题在由一个或多个计算机或其他计算设备执行的计算机可执行指令(诸如程序模块)的一般上下文中描述，但是本领域技术人员将认识到，本文中公开的主题的部分可以也可以结合其他程序模块和/或硬件和软件的组合来实现。通常，程序模块包括执行特定任务或实现特定数据类型的例程、程序、对象、物理工件、数据结构等。通常，在各种实施例中，可以根据需要组合或分布程序模块的功能。计算环境510仅是合适的操作环境的一个示例，而不旨在限制本文中公开的主题的使用或功能的范围。

参考图3，描述了计算机512形式的计算设备。计算机512可以包括至少一个处理单元514、系统存储器516和系统总线518。至少一个处理单元514可以执行存储在诸如但不限于系统存储器516等存储器中的指令。处理单元514可以是各种可用处理器中的任何一种处理器。例如，处理单元514可以是图形处理单元(GPU)。指令可以是用于实现由上述一个或多个部件或模块执行的功能的指令或者用于实现上述方法中的一个或多个的指令。双微处理器和其它多处理器架构也可以用作处理单元514。计算机512可以用在支持在显示屏上渲染图形的系统中。在另一示例中，计算设备的至少一部分可以用在包括图形处理单元的系统中。系统存储器516可以包括易失性存储器520和非易失性存储器522。非易失性存储器522可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)或闪存。易失性存储器520可以包括可以用作外部高速缓存存储器的随机存取存储器(RAM)。系统总线518将包括系统存储器516的系统物理工件耦合到处理单元514。系统总线518可以是几种类型中的任何一种，包括存储器总线、存储器控制器、外围总线、外部总线或局部总线，并且可以使用任何各种可用的总线架构。计算机512可以包括由处理单元514通过系统总线518可访问的数据储存库。数据储存库可以包括用于图形渲染的可执行指令、3D模型、材料、纹理等。

计算机512通常包括各种计算机可读介质，诸如易失性和非易失性介质、可移除和不可移除介质。计算机可读介质可以以用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术来实现。计算机可读介质包括计算机可读存储介质(也称为计算机存储介质)和通信介质。计算机存储介质包括物理(有形)介质，诸如但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CDROM、数字通用盘(DVD)或其他光盘存储器、磁带盒、磁带、磁盘存储器或可以存储所需数据并且可以由计算机512访问的其它磁存储设备。通信介质包括各种介质，诸如但不限于通信信号、调制载波或者可以用于传送期望的信息并且可以由计算机512访问的任何其它无形介质。

应当理解，图3描述了可以用作用户与计算机资源之间的中介的软件。该软件可以包括操作系统528，操作系统528可以存储在磁盘存储装置524上并且可以分配计算机512的资源。磁盘存储装置524可以是通过不可移除存储器接口(诸如接口526)连接到系统总线518的硬盘驱动器。系统应用530通过存储在系统存储器516中或磁盘存储装置524上的程序模块532和程序数据534来利用通过操作系统528实现的对管理的资源。应当理解，计算机可以利用各种操作系统或操作系统的组合来实现。

用户可以通过输入设备536将命令或信息输入到计算机512中。输入设备536包括但不限于指向设备，诸如鼠标、轨迹球、触笔、触摸板、键盘、麦克风、语音识别和姿势识别系统等。这些和其他输入设备经由接口端口538通过系统总线518连接到处理单元514。接口端口538可以表示串行端口、并行端口、通用串行总线(USB)等。输出设备540可以使用与输入设备相同类型的端口。提供输出适配器542以说明存在需要特定适配器的一些输出设备540，诸如监视器，扬声器和打印机。输出适配器542包括但不限于在输出设备540与系统总线518之间提供连接的视频卡和声卡。其他设备和/或系统或设备(诸如远程计算机544)可以提供输入和输出能力。

计算机512可以使用到一个或多个远程计算机(诸如远程计算机544)的逻辑连接在联网环境中操作。远程计算机544可以是个人计算机、服务器、路由器、网络PC、对等设备或其他公共网络节点，并且通常包括在上面相对于计算机512描述的元件中的很多或所有元件，但是在图3中仅示出了存储器存储设备546。远程计算机544可以经由通信连接550在逻辑上连接。网络接口548包括通信网络，诸如局域网(LAN)和广域网(WAN)，但是也可以包括其他网络。通信连接550是指用于将网络接口548连接到总线518的硬件/软件。通信连接550可以在计算机512的内部或外部，并且包括内部和外部技术，诸如调制解调器(电话、电缆、DSL和无线)和ISDN适配器、以太网卡等。

应当理解，所示的网络连接仅是示例，并且可以使用在计算机之间建立通信链路的其他手段。本领域的普通技术人员可以理解，计算机512或其他客户端设备可以被部署为计算机网络的一部分。在这点上，本文中公开的主题可以涉及具有任何数量的存储器或存储单元以及在任何数量的存储单元或卷上发生的任何数量的应用和过程的任何计算机系统。本文中公开的主题的各个方面可以应用于具有部署在网络环境中的服务器计算机和客户端计算机的环境，以具有远程或本地存储。本文中公开的主题的各个方面还可以应用于独立计算设备，以具有编程语言功能、解释和执行能力。

本文中描述的各种技术可以结合硬件或软件或者在适当时结合这两者的组合来实现。因此，本文中描述的方法和装置或者其某些方面或部分可以采取在有形介质(诸如软盘、CD-ROM、硬盘驱动器或任何其它机器可读介质等)中实施的程序代码(即，指令)的形式，其中，当程序代码被加载到机器(诸如计算机)中并且由机器执行时，机器变成用于实践本文中公开的主题的各个方面的装置。如本文中使用的，术语“机器可读存储介质”将被理解为排除提供(即，存储和/或传输)任何形式的传播信号的任何机制。在可编程计算机上执行程序代码的情况下，计算设备通常将包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备、以及至少一个输出设备。可以例如通过使用数据处理API等来利用域特定的编程模型方面的创建和/或实现的一个或多个程序可以用高级过程或面向对象的编程语言来实现，以与计算机系统通信。然而，如果需要，程序可以用汇编或机器语言来实现。在任何情况下，语言可以是编译或解释语言，并且与硬件实现结合。

尽管已经用特定于结构特征和/或方法动作的语言描述了主题，但是应当理解，所附权利要求中定义的主题不一定限于上述具体特征或动作。相反，上述具体特征和动作被公开作为实现权利要求的示例形式。

Claims

1.一种自动选择并且推荐针对机器学习应用的至少一个特征化的系统，所述系统包括：

至少一个处理器；

连接至所述至少一个处理器的存储器；以及

被加载到所述存储器中的至少一个程序模块，所述至少一个程序模块包括特征化选择模块，所述特征化选择模块自动选择针对用于机器学习应用的接收到的数据集和接收到的任务定义的至少一个特征化。

2.根据权利要求1所述的系统，还包括：

包括比较模块的至少一个程序模块，所述比较模块将所述接收到的数据集与数据集的库相比较并且基于所述比较选择至少一个特征化。

3.根据权利要求2所述的系统，其中所述数据集包括原始数据。

4.根据权利要求1所述的系统，还包括：

包括比较模块的至少一个程序模块，所述比较模块将所述接收到的任务定义与任务定义的库相比较并且基于所述比较选择至少一个特征化。

5.根据权利要求1所述的系统，还包括：

包括模块的至少一个程序模块，所述模块检查所选择的所述至少一个特征化的过去训练运行的结果。

6.根据权利要求1所述的系统，还包括：

包括模块的至少一个程序模块，所述模块检查向所述接收到的数据集应用所选择的特征化而得到的多个测试运行结果并且基于所述结果选择至少一个特征化。

7.根据权利要求1所述的系统，还包括：

包括模块的至少一个程序模块，所述模块接收如何测量成功的定义。

8.一种用于自动选择针对机器学习应用的特征化的方法，所述方法包括：

由计算设备的处理器接收包括原始数据的数据集的输入；

将所述数据集与数据集的库相比较并且基于所述比较选择与所述数据集的库中的数据集相关联的至少一个特征化；以及

推荐所选择的所述至少一个特征化以应用于所述原始数据的数据集。

9.根据权利要求8所述的方法，还包括：

将接收到的任务定义与任务定义库中的任务定义相比较，并且选择与所述任务定义库中的所述任务定义相关联的至少一个特征化以应用于所述原始数据的数据集。

10.根据权利要求8所述的方法，还包括：

在测试运行中，向所述原始数据的数据集应用所选择的至少一个特征化。

11.根据权利要求8所述的方法，还包括：

将多个测试运行的结果相比较，在所述多个测试运行中，所选择的特征化被应用到所述原始数据的数据集。

12.根据权利要求11所述的方法，还包括：

基于经比较的所述结果来推荐至少一个特征化以应用于所述原始数据的数据集。

13.根据权利要求8所述的方法，还包括：

接收如何测量成功的定义。

14.一种计算机可读存储介质，包括在被执行时引起计算设备的至少一个处理器进行以下各项的计算机可读指令：

自动选择针对用于机器学习应用的接收到的数据集和接收到的任务定义的至少一个特征化。

15.根据权利要求14所述的计算机可读存储介质，还包括在被执行时引起所述至少一个处理器进行以下各项的计算机可读指令：

将所述接收到的数据集与数据集的库相比较；以及

基于所述比较选择至少一个特征化。