CN112889042A - 机器学习中超参数的识别与应用 - Google Patents
机器学习中超参数的识别与应用 Download PDFInfo
- Publication number
- CN112889042A CN112889042A CN201980051066.4A CN201980051066A CN112889042A CN 112889042 A CN112889042 A CN 112889042A CN 201980051066 A CN201980051066 A CN 201980051066A CN 112889042 A CN112889042 A CN 112889042A
- Authority
- CN
- China
- Prior art keywords
- hyper
- machine learning
- learning model
- parameters
- version
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/048—Fuzzy inferencing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Automation & Control Theory (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
提供了为机器学习模型和/或特征工程过程确定合适的超参数的方法和系统。通过分析数据集来确定合适的机器学习模型和相关联的超参数。识别具有一个或多个共同的超参数和兼容数据集架构的兼容机器学习模型的合适超参数值。超参数可以根据它们各自对模型性能指标的相应影响来排序,并且可以更积极地搜索被识别为具有更大影响的超参数值。
Description
背景技术
一些机器学习算法可能需要超参数,超参数会影响算法的执行方式。例如,超参数可以设置迭代次数、样本大小、复杂程度,并且可以反映关于机器学习模型和训练数据的假设。特征工程算法也可能存在超参数,并且可能同样影响特征工程的实现方式。数据科学家可以尝试基于启发法和他或她的经验来发现给定机器学习算法和/或特征工程算法的最优超参数,但是这种方法在不同的数据集、机器学习算法和数据科学家之间可能是不一致和不可靠的。
超参数也可以使用蛮力法通过算法来搜索。可以执行搜索算法来在所有可能组合的集合中找到最优超参数,但是随着超参数数量的增加,这种方法可能需要呈指数性增加的计算时间。使问题复杂化的是,搜索算法可能需要它自己的超参数,并且可能会花费大量时间来调整这些超参数以获得可用的搜索结果。
发明内容
根据所公开的主题的实施方案,计算机实现的系统、介质和方法可以包括:接收具有第一数据架构的第一数据集;基于所述数据集的属性生成元数据;由计算机处理器基于所述元数据选择适于应用于所述数据集的机器学习模型;对于与所选机器学习模型相关联的多个超参数中的每个超参数,识别每个超参数对所选机器学习模型的一个或多个性能指标的影响程度;识别所选机器学习模型的第一版本;基于以下步骤获得与所选机器学习模型的所述第一版本相关联的多个先前存储的超参数值:识别所选机器学习模型的第二版本,所述第二版本与所选机器学习模型的第一版本具有共同的一个或多个超参数,以及识别所述第一数据架构和所选机器学习模型的第二版本相关联的第二数据集的第二数据架构之间的相似性,以及基于阈值为先前存储的超参数值中的一个或多个确定值范围。对于所选机器学习模型的第一版本相关联的所述多个超参数中与所选机器学习模型的第二版本相关联的所述一个或多个超参数的超参数共同的每个超参数,所述方法可以包括:基于所识别的每个相关联的超参数的影响程度并从所确定的值范围中选择第一组超参数值;并且对于与所选机器学习模型的第一版本相关联的所述多个超参数中与所选机器学习模型的第二版本相关联的所述一个或多个超参数的超参数不同的每个超参数,所述方法可以包括基于所识别的每个相关联超参数的影响程度选择第二组超参数值。所述方法还可以包括使用所选的第一组超参数值、所选第二组超参数值和所述数据集来训练所选机器学习模型的第一版本。所述元数据可以包括选自以下各项的至少一项:训练集的大小、数据集的形状、数据集中特征的数量、数据集中数据字段类型的百分比、分类问题的类型、数据集中数据字段类型的差异、以及数据集是否遵循统计分布的指示。所述方法可以进一步包括基于所述元数据作为输入来执行辅助机器学习模型,所述辅助机器学习模型返回对所选机器学习模型的第一版本的选择,并返回合适的机器学习超参数值以供所选机器学习模型的第一版本使用。所述一个或多个性能指标可以包括选自以下各项的至少一项:准确率、错误率、精确率、召回率、接收机工作特性(ROC)曲线下面积、和精确率召回率曲线下面积。所述方法可以进一步包括使用所选机器学习模型的第一版本相关联的所述多个超参数作为输入来执行辅助机器学习模型,所述辅助机器学习模型根据对所选机器学习模型的第一版本的所述一个或多个性能指标的影响程度来返回所述多个超参数的排序。所述方法可以进一步包括基于搜索来为所述多个超参数中的每一个识别超参数值,所述搜索具有可变粒度,其中所述搜索的粒度对应于所述多个超参数中的每一个对所选机器学习模型的第一版本的所述一个或多个性能指标的影响程度。所述方法可以进一步包括基于搜索在所选机器学习模型的第一版本的所述超参数中的一个或多个超参数的所确定的值范围内识别超参数值,所述搜索具有可变粒度,其中所述搜索的粒度对应于所述多个超参数中的每一个对所选机器学习模型的第一版本的一个或多个性能指标的影响程度。所述方法可以进一步包括基于搜索在所选机器学习模型的第一版本的所述超参数中的一个或多个超参数的所确定的值范围内识别超参数值,所述搜索具有可变粒度,其中所述搜索的粒度对应于所述多个超参数中的每一个对所选机器学习模型的第一版本的一个或多个性能指标的影响程度。所述阈值的大小可以基于所述一个或多个先前存储的超参数对所选机器学习模型的第一版本的一个或多个性能指标的影响程度而变化。
通过考虑以下具体实施方式部分、附图和权利要求书,可以阐述或明白所公开主题的附加特征、优点和实施方案。此外,应当理解,前面的概述和下面的具体实施方式部分都是说明性的,并且旨在提供进一步的解释,而不限制权利要求的范围。
附图说明
附图被包括进来以提供对所公开主题的进一步理解,附图被并入并构成本说明书的一部分。附图还示出了所公开主题的实施方案,并且与具体实施方式部分一起用于解释所公开主题的实施方案的原理。除了对所公开主题的基本理解和可以实践它的各种方式所必需的之外,没有试图更详细地示出结构细节。
图1示出了根据所公开主题的实施方案的用于确定机器学习模型的最佳超参数的示例方法。
图2A示出了根据所公开主题的实施方案的用于确定机器学习模型的最佳超参数的示例方法。
图2B示出了根据所公开主题的实施方案的用于确定机器学习模型的最佳超参数的示例方法。
图3示出了根据所公开主题的实施方案的计算设备。
图4示出了根据所公开主题的实施方案的网络配置。
图5示出了根据所公开主题的实施方案的示例网络和系统配置。
具体实施方式
本文公开的实施方案提供了基于可由自动化、计算机化系统有效执行的可重复技术来识别机器学习模型中使用的参数的技术。用于机器学习模型的合适的超参数可以首先被识别,例如,通过检查机器学习模型将操作的数据,并将该数据与结合其他机器学习模型使用的先前数据进行比较。然后可以基于被检查的数据与已知合适的机器学习模型的其他数据集的相似性来选择合适的机器学习模型。替代地或附加地,当训练所选机器学习模型时要搜索的超参数可以基于超参数对模型性能的相对贡献来识别,如由与模型相关联的一个或多个性能指标所确定的。替代地或附加地,要搜索的值和/或搜索各个超参数值的粒度可以使用本文中公开的自动化和计算机化技术来识别。
如本文中所使用的,术语“合适的”指的是实现系统(例如机器学习系统)的正确操作的参数或参数值。合适的值可以是可能值范围内最不优选的值,但是仍然实现系统的正确操作。优选地,当与可能值范围内的另一个值相比时,可以说合适的值实现了改善的系统操作,但是可能不是最佳可能值。
本文中使用的术语“算法”指的是可以同时使用或者以“堆栈”方式连续使用的单个算法或多个算法。
本文中使用的术语“模型”是指机器学习算法以及相关联的一个或多个合适的参数和/或超参数。
机器学习系统可以允许数据科学家创建机器学习模型。数据科学家可以从各种来源(例如数据库)收集一个或多个数据集。特征工程算法可以从数据集中提取感兴趣的特征。特征工程算法然后可以修改提取的特征,创建新的特征,并移除特征以创建新的经特征工程处理的数据集。数据科学家然后可以选择机器学习算法来基于特征工程数据集创建模型。这也称为训练该模型。机器学习算法可以使用一个或多个参数化值来配置,这些参数化值指定了机器学习算法将如何被执行,这些参数化值被称为超参数。一般来说,数据科学家可以开发定制的指标,这些指标在解决手头的问题时可能具有优先的重要性。指标可包括,例如,准确率、错误率、开发时间、精确率、和召回率。重要的是选择超参数值,使机器学习算法尽可能按照数据科学家的需求执行。应当理解,如前所述,特征工程算法也可以使用超参数来配置,以类似地影响其执行方式。
本主题公开了一种用于识别超参数并将其应用于机器学习和/或特征工程算法的自动化和基于计算机的方法。公开了几个实施方案,这些实施方案可以单独地、联合地或者以它们之间的任意组合来使用。类似地,每个实施方案中采用的过程可以同时、异步或以不同于所示和所述的顺序来执行。
在一个实施方案中,公开的方法可以包括接收数据集并基于数据集的属性生成元数据。元数据然后可以用于识别合适的机器学习模型以及合适的超参数值。然后,所识别的机器学习模型可以被配置成使用所识别的合适的超参数和所接收的数据集进行训练。
在一个实施方案中,所公开的方法可以选择机器学习模型,并使用一个或多个数据集来训练一个或多个模型。从一个或多个随后训练的模型中,可以识别对一个或多个数据集上的模型行为具有较大影响的一个或多个超参数,并将其编译成列表。对于列表上的每个超参数,可以搜索一系列值来识别合适的值,这些值使得机器学习模型根据数据科学家指定的性能指标来执行。然后,所选机器学习模型可以被配置成使用所识别的合适的超参数值进行训练。
在一个实施方案中,公开的方法可以选择机器学习模型和数据集。数据集可以根据架构来排列。所述方法可以接收与所选机器学习模型相关联的版本数据。所述方法可以基于与先前使用的超参数值相关联的版本数据和数据集架构中的一者或两者来识别对应于所选机器学习模型的机器学习模型的先前使用的超参数值。基于先前使用的超参数值,可以在阈值范围内搜索值的范围,以识别使机器学习模型根据由数据科学家指定的性能指标来执行的合适值。然后,所选机器学习模型可以被配置成使用所识别的合适的超参数值进行训练。
图1示出了用于基于一个或多个数据集选择合适的机器学习模型和相关超参数的方法的示例流程图100。在105中,系统例如通过从系统接收数据集来获得一个或多个数据集,例如响应于数据科学家或其他用户对数据集的选择。数据集可以是例如包含客户数据并受隐私和安全协议约束的租户数据集。因此,基于许可级别,可以限制机器学习系统的用户(例如,数据科学家或计算机工程师)查看包含在105中接收的一个或多个数据集内的一些或全部数据。在阶段105中接收的数据集可以被组合和随机分割以创建训练集和留出集(hold-out set)。训练集可用于随后在阶段120训练所选机器学习模型,而留出集可用于评估所选机器学习模型的准确性。在110中,可以生成描述在105中接收的数据集的属性的元数据,并且可以基于数据集、系统可用的其他数据以及系统用户输入的数据。元数据可以基于所有数据集联合生成,也可以基于每个数据集生成。元数据可以由单独的数据集预处理阶段生成,或者与另一个机器学习过程结合生成,如本文中进一步详细描述的。元数据可以包括描述例如数据集的大小和形状、数据集中字段的数量、数据集中字段类型的百分比分解(例如,分类、数字、文本)、分类问题的类型、数据集差异、数据和标签之间是否存在相关性、数据集是否遵循统计分布等的数据。在阶段110中生成元数据之后,可以根据传统方法将元数据保存在数据库或其他数据结构中。
在阶段115,可以至少基于在110中生成的元数据从多个机器学习模型中选择合适的机器学习模型。机器学习模型可以部分地根据其已知的优点来选择,并且可以基于数据集的内容和描述它的元数据来选择一个机器学习模型而不是另一个。例如,如果元数据揭示数据集包含大比例的分类数据,则可以选择已知在分类数据上表现良好的机器学习模型。阶段115可以由辅助机器学习模型来执行。辅助机器学习模型可以接受一个或多个数据集和相关联的元数据,并且基于所述一个或多个数据集和元数据,返回所选机器学习模型和与所选机器学习模型相关联的超参数的合适的超参数值。应当理解,超参数值可以是数字或非数字的。辅助机器学习模型可以根据任何传统的机器学习算法操作,例如网格搜索、随机搜索、贝叶斯方法等。在120中,可以使用所选合适的超参数值和在105中接收的数据集来训练在115中选择的合适的机器学习模型。
图2A示出了用于为机器学习模型超参数选择一个或多个合适值的示例流程图200。在205,所述方法接收对机器学习模型和一个或多个数据集的选择。机器学习模型可以根据方法100经由阶段115中的辅助机器学习模型来选择、由用户选择、或者根据本领域已知的其他传统方法来选择。在205中选择的机器学习模型可能先前已经跨多个数据集进行了训练,并且可能已经生成了对于确定与所选机器学习模型相关联的每个超参数的性能指标的影响程度有用的数据。性能指标可以自动确定或者由数据科学家确定,并且可以包括例如准确度、错误率、精确率、召回率、精确率-召回率曲线下面积(AuPR)、接收机工作特性曲线下面积(AuROC)等。应当理解,一个或多个性能指标的选择可能与评估一个超参数值是否优于另一个相关,并且考虑到每个性能指标,没有一个超参数值可以比所有其他超参数值表现得更好。
在阶段210中,方法200可以根据与在阶段205中选择的机器学习模型相关联的超参数对一个或多个性能指标的各自影响来对超参数进行识别和排序。这可以使用辅助机器学习模型来实现,该辅助机器学习模型接收通过在多个数据集和一个或多个所选性能指标上训练所选机器学习模型而得到的先前讨论的数据,并根据相关超参数对一个或多个所选性能指标的各自影响来返回相关联超参数的排序。辅助机器学习模型可以利用随机森林算法或能够计算模型中超参数重要性的其他传统机器学习算法。
已经在阶段210中根据影响识别并排列了超参数,阶段215可以使用任何传统的机器学习算法来搜索合适的超参数值。优选地,可以使用网格搜索算法,该算法允许为每个超参数指定搜索的规格和/或粒度。可以以较大粒度为被确定为对性能指标具有较强影响的超参数搜索合适值。可以以较小粒度为被确定为对性能指标具有较弱影响的超参数搜索合适值。以这种方式,通过分配搜索时间,可以更有效地利用计算资源,此时搜索结果可能更有成效。例如,对于被确定为影响强烈的超参数,可以检查50个可能的超参数值,而对于影响微弱的超参数,可以检查5个超参数值。搜索过程215然后可以为与阶段205中选择的机器学习算法相关联的每个超参数返回一个或多个超参数值。
在阶段220中,在阶段215中确定的超参数值可以存储在超参数存储器中,该超参数存储器可以使用任何传统的存储设备来实现。超参数存储可以由模型来索引,并且包括描述例如模型被训练的时间和日期、模型所使用的算法的代码版本、模型被训练的数据集的架构、根据先前讨论的性能指标的模型的性能、模型的每个超参数的值等的数据。未来的超参数选择可以通过使用超参数存储来查找合适的超参数值来加速,其中可以找到匹配的数据,而不是执行步骤210-215中的每一个。在阶段225,在205中选择的机器学习模型可以使用在205中选择的数据集和在阶段215中确定的选择的合适的超参数值来训练。
图2B示出了用于为机器学习模型超参数选择一个或多个合适值的示例流程图250。在255,所述方法接收对机器学习模型和一个或多个数据集的选择。机器学习模型可以根据方法100经由阶段115中的辅助机器学习模型来选择、由用户选择、或者根据本领域已知的其他传统方法来选择。在阶段255中选择的机器学习模型可以具有可以在260中识别的关联版本。例如,该版本可以对应于模型采用的机器学习算法的版本。机器学习算法的较新版本可以利用先前版本缺少的新的超参数和/或已经消除了其他超参数。一般来说,在机器学习算法的多个版本中,所有或大多数超参数可以保持相同,从而通过在超参数存储中存储和调用以前使用的合适的超参数来保证优势。
在阶段265,方法250可以从先前描述的超参数存储中检索先前与所选机器学习模型一起使用的超参数及其关联值。检索到的超参数及其关联值可能已经在与所选机器学习模型相同或不同的版本中使用过。如前面关于阶段220所讨论的,机器学习算法的版本可以存储在超参数存储中。超参数存储还可以关联针对其训练模型的数据集的架构。因为数据集可能影响超参数的适用性,所以阶段265还可以将在255中选择的数据集的架构与存储在超参数存储中的数据集的架构进行比较,以评估相似性和差异。
在阶段270,可以基于阈值搜索被确定为与所选机器学习模型版本的超参数共有的每个先前使用的超参数的超参数值。例如,如果先前使用的超参数值是10,则阶段270可以选择阈值范围5,以便测试5和15之间的值的适用性。如前所述,可以使用任何传统的机器学习算法来搜索合适的超参数值。优选地,可以使用网格搜索或等效算法,其允许为每个超参数指定搜索的规格和/或粒度。
在阶段275,可以以较大粒度为被确定为对性能指标具有较强影响的超参数搜索合适值。可以以较小粒度为被确定为对性能指标具有较弱影响的超参数搜索合适值。以这种方式,通过分配搜索时间,可以更有效地利用计算资源,此时搜索结果可能更有成效。例如,对于被确定为影响强烈的超参数,可以检查5到15之间的50个可能的超参数值,而对于影响微弱的超参数,可以检查5到15之间的5个超参数值。如前所述,应该理解,超参数值可以是数字或非数字的。除了搜索的粒度之外,阈值的大小可以基于所选机器学习模型的版本和先前使用的超参数在超参数存储中对其可用的机器学习模型的版本之间的相似性而变化。相似性可以基于例如在255中接收的数据集架构的数据字段的数量来确定,所述数据字段匹配与先前使用的超参数值相关联的数据集架构的数据字段。可选地,或者另外,可以基于与先前使用的超参数值相关联的机器学习模型版本的超参数相同或不同的超参数的数量来确定相似性。在相似性为相同或基本相似的情况下,阈值可以被选择为规格较小,而在相似性缺乏的情况下,阈值可以被选择为规格较大。以这种方式,在可能不太确定那些先前使用的超参数值是否适合当前使用的情况下,可以测试更多的超参数值的适用性。在阶段280,在255中选择的机器学习模型可以使用在255中选择的数据集和在阶段275中确定的选择的合适的超参数值来训练。
如前所述,本文公开的各种实施方案可以单独、联合或以它们之间的任意组合使用。例如,给定一个或多个选择的数据集,方法100、200和250可以被联合使用以减少确定合适的机器学习模型和合适的超参数所需的整体计算工作。在该示例中,可以利用方法100来为给定数据集选择合适的机器学习模型和合适的超参数值。与方法100中确定的超参数值相关联的超参数可以应用于图2A和图2B中的一者或两者。在图2B的示例中,方法100中识别的超参数的关联值可以从存在先前使用的超参数值的超参数存储中检索。可以基于数据集架构和机器学习模型超参数之间的相似性来设置阈值大小。对于与先前使用的超参数共有的所选机器学习模型的超参数,可以在由先前使用的超参数值的阈值大小所定义的范围内搜索超参数值,并且以按照方法200中执行的根据它们的影响所定义的粒度来搜索超参数值。对于与先前使用的超参数不同的超参数,如在方法200中执行的,可以按照根据它们的影响定义的粒度来搜索超参数值。在方法100的阶段115中确定的合适的机器学习模型可以随后使用在阶段105中选择的数据集和超参数值来训练,所述超参数值是基于它们对方法200的阶段215中的性能指标的影响以及在方法250的阶段275中确定的存储在超参数存储中的数据集架构和机器学习模型版本的相似性来选择的。
本文中公开的实施方案可以允许比使用传统技术更有效地为机器学习模型和特征工程选择合适的超参数。例如,所公开的实施方案可以比可比的传统机器学习技术更有效地确定合适的机器学习模型和相关联的超参数,和/或使用比使用传统技术可能使用的更少的计算资源。这是由于使用了本文中公开的技术,其通过在为给定用途确定合适的机器超参数时减少搜索空间的大小来减少所涉及的计算时间,从而提供了效率的提高,而不损失一般性或准确性。另外,本文公开的实施方案可以克服传统多租户框架中出现的相关缺点。
当前公开的主题的实施方案可以在各种部件和网络架构中实现并与其一起使用。图3是适于实现当前公开的主题的实施方案的示例计算设备20。设备20可以是例如台式或膝上型计算机,或者诸如智能电话、平板电脑等移动计算设备。设备20可以包括总线21,该总线21互连计算机20的主要部件,例如中央处理器24、存储器27,例如随机存取存储器(RAM)、只读存储器(ROM)、闪存RAM等、用户显示器22,例如显示屏、用户输入接口26,其可以包括一个或多个控制器和相关联的用户输入设备,例如键盘、鼠标、触摸屏等,诸如硬盘驱动器、闪存等的固定存储器23、可操作来控制和接收光盘、闪存驱动器等的可移除媒体部件25、以及可操作来经由合适的网络连接与一个或多个远程设备通信的网络接口29。
总线21允许中央处理器24和一个或多个存储器部件之间的数据通信,如前所述,存储器部件可以包括RAM、ROM和其他存储器。通常,RAM是操作系统和应用程序加载到其中的主内存。ROM或闪存部件可以包含基本输入输出系统(BIOS),该系统控制基本硬件操作,例如与外围部件的交互。驻留在计算机20中的应用程序通常存储在计算机可读介质上并通过计算机可读介质访问,例如硬盘驱动器(例如,固定存储器23)、光驱、软盘或其他存储介质。
固定存储器23可以与计算机20集成在一起,或者可以是分离的,并且可以通过其他接口访问。网络接口29可以通过有线或无线连接提供到远程服务器的直接连接。网络接口29可以使用本领域技术人员容易理解的任何合适的技术和协议来提供这种连接,包括数字蜂窝电话、WiFi、蓝牙(R)、近场等等。例如,网络接口29可以允许计算机经由一个或多个本地、广域或其他通信网络与其他计算机通信,如下面进一步详细描述的。
许多其他设备或部件(未示出)可以以类似的方式连接(例如,文档扫描仪、数码相机等)。相反,不需要图3中所示的所有部件都存在来实践本公开。部件可以用不同于所示的方式互连。诸如图3所示的计算机的操作在本领域中是公知的,在本申请中不再详细讨论。实现本公开的代码可以存储在计算机可读存储介质中,例如存储器27、固定存储23、可移除媒体25中的一个或多个,或者存储在远程存储位置。
图4示出了根据所公开主题的实施方案的示例网络布置。诸如本地计算机、智能电话、平板计算设备等一个或多个设备10、11可以经由一个或多个网络7连接到其他设备。每个设备可以是如前所述的计算设备。该网络可以是局域网、广域网、因特网或任何其他合适的通信网络,并且可以在包括有线和/或无线网络的任何合适的平台上实现。这些设备可以与一个或多个远程设备通信,例如服务器13和/或数据库15。远程设备可以由设备10、11直接访问,或者一个或多个其他设备可以提供中间访问,例如服务器13提供对存储在数据库15中的资源的访问。设备10、11还可以访问远程平台17或由远程平台17提供的服务,例如云计算安排和服务。远程平台17可以包括一个或多个服务器13和/或数据库15。
图5示出了根据所公开主题的实施方案的示例布置。一个或多个设备或系统10、11,例如远程服务或服务提供商11,用户设备10,例如本地计算机、智能电话、平板计算设备等,可以经由一个或多个网络7连接到其他设备。该网络可以是局域网、广域网、因特网或任何其他合适的通信网络,并且可以在包括有线和/或无线网络的任何合适的平台上实现。设备10、11可以与一个或多个远程计算机系统通信,例如处理单元14、数据库15和用户接口系统13。在一些情况下,设备10、11可以与面向用户的接口系统13通信,接口系统13可以提供对一个或多个其他系统的访问,例如数据库15、处理单元14等。例如,用户接口13可以是用户可访问的网页,其提供来自一个或多个其他计算机系统的数据。用户接口13可以向不同的客户端提供不同的接口,例如在用户设备10上向网络浏览器客户端提供人类可读的网页,并且向远程服务客户端11提供计算机可读的应用编程接口或其他接口。
用户接口13、数据库15和/或处理单元14可以是集成系统的一部分,或者可以包括通过专用网络、互联网或任何其他合适的网络进行通信的多个计算机系统。一个或多个处理单元14可以是例如分布式系统的一部分,例如基于云的计算系统、搜索引擎、内容传递系统等,其也可以包括数据库15和/或用户接口13或与数据库15和/或用户接口13通信。在一些布置中,分析系统5可以提供后端处理,例如在将存储或获取的数据传送到处理单元14、数据库15和/或用户接口13之前,由分析系统5对其进行预处理。例如,机器学习系统5可以向一个或多个其他系统13、14、15提供各种预测模型、数据分析等。
更一般地,当前公开的主题的各种实施方案可以包括或体现为计算机实现的过程和用于实践这些过程的装置的形式。实施方案也可以以具有包含指令的计算机程序代码的计算机程序产品的形式来实现,所述指令包含在非暂时性和/或有形介质中,例如软盘、CD-ROM、硬盘驱动器、USB(通用串行总线)驱动器或任何其他机器可读存储介质,使得当计算机程序代码被加载到计算机中并由计算机执行时,计算机变成用于实践所公开主题的实施方案的装置。实施方案也可以以计算机程序代码的形式实现,例如,无论是存储在存储介质中、加载到计算机中和/或由计算机执行,还是通过某种传输介质传输,例如通过电线或电缆、通过光纤或通过电磁辐射,使得当计算机程序代码加载到计算机中并由计算机执行时,计算机变成用于实践所公开主题的实施方案的装置。当在通用微处理器上实施时,计算机程序代码段配置微处理器以创建特定逻辑电路。
在一些配置中,存储在计算机可读存储介质上的一组计算机可读指令可以由通用处理器实现,这可以将通用处理器或包含通用处理器的设备转换成被配置为实现或执行指令的专用设备。实施方案可以使用硬件来实现,硬件可以包括处理器,例如通用微处理器和/或专用集成电路(ASIC),其以硬件和/或固件来实现根据所公开主题的实施方案的全部或部分技术。处理器可以联接到存储器,例如RAM、ROM、闪存、硬盘或能够存储电子信息的任何其他设备。存储器可以存储适于由处理器执行的指令,以执行根据所公开主题的实施方案的技术。
出于解释的目的,已经参考具体实施方案描述了前述描述。然而,上述说明性讨论并不旨在穷举或将所公开主题的实施方案限制到所公开的精确形式。鉴于上述教导,许多修改和变化是可能的。选择和描述这些实施方案是为了解释所公开主题的实施方案的原理及其实际应用,从而使本领域的其他技术人员能够利用这些实施方案以及具有各种修改的各种实施方案,这些修改可以适用于预期的特定用途。
Claims (19)
1.一种在自动机器学习系统中执行的计算机实现的方法,所述方法包括:
接收具有第一数据架构的第一数据集;
基于所述数据集的属性生成元数据;
由计算机处理器基于所述元数据选择适于应用于所述数据集的机器学习模型;
对于与所选机器学习模型相关联的多个超参数中的每个超参数,识别每个超参数对所选机器学习模型的一个或多个性能指标的影响程度;
识别所选机器学习模型的第一版本;
基于以下步骤获得与所选机器学习模型的所述第一版本相关联的多个先前存储的超参数值:
识别所选机器学习模型的第二版本,所述第二版本与所选机器学习模型的第一版本具有共同的一个或多个超参数,以及
识别所述第一数据架构和所选机器学习模型的第二版本相关联的第二数据集的第二数据架构之间的相似性;
基于阈值为先前存储的超参数值中的一个或多个确定值范围;
对于所选机器学习模型的第一版本相关联的所述多个超参数中与所选机器学习模型的第二版本相关联的所述一个或多个超参数的超参数共同的每个超参数:
基于所识别的每个相关联的超参数的影响程度并从所确定的值范围中选择第一组超参数值;以及
对于与所选机器学习模型的第一版本相关联的所述多个超参数中与所选机器学习模型的第二版本相关联的所述一个或多个超参数的超参数不同的每个超参数:
基于所识别的每个相关联超参数的影响程度,选择第二组超参数值;以及
使用所选的第一组超参数值、所选第二组超参数值和所述数据集来训练所选机器学习模型的第一版本。
2.根据权利要求1所述的方法,其中所述元数据包括选自以下各项的至少一项:
训练集的大小、数据集中特征的数量、数据集中数据字段类型的百分比、分类问题的类型、数据集中数据字段类型的差异、以及数据集中的特征是否遵循统计分布的指示。
3.根据权利要求1所述的方法,其中所述选择机器学习模型包括:
基于所述元数据作为输入来执行辅助机器学习模型,所述辅助机器学习模型返回对所选机器学习模型的第一版本的选择,并返回合适的机器学习超参数值以供所选机器学习模型的第一版本使用。
4.根据权利要求1所述的方法,其中所述一个或多个性能指标包括选自以下各项的至少一项:准确率、错误率、精确率、召回率、接收机工作特性(ROC)曲线下面积、和精确率召回率曲线下面积。
5.根据权利要求1所述的方法,其中所述识别影响程度进一步包括:
使用所选机器学习模型的第一版本相关联的所述多个超参数作为输入来执行辅助机器学习模型,所述辅助机器学习模型根据对所选机器学习模型的第一版本的所述一个或多个性能指标的影响程度来返回所述多个超参数的排序。
6.根据权利要求1所述的方法,其中基于针对每个相关联超参数所识别的影响程度,所述选择进一步包括:
基于搜索来为所述多个超参数中的每一个识别超参数值,所述搜索具有可变粒度,其中所述搜索的粒度对应于所述多个超参数中的每一个对所选机器学习模型的第一版本的所述一个或多个性能指标的影响程度。
7.根据权利要求1所述的方法,其中所述基于所识别的每个相关联的超参数的影响程度并从所确定的值范围中选择第一组超参数值进一步包括:
基于搜索在所选机器学习模型的第一版本的所述超参数中的一个或多个超参数的所确定的值范围内识别超参数值,所述搜索具有可变粒度,其中所述搜索的粒度对应于所述多个超参数中的每一个对所选机器学习模型的第一版本的一个或多个性能指标的影响程度。
8.根据权利要求1所述的方法,其中所述基于所识别的每个相关联超参数的影响程度选择第二组超参数值进一步包括:
基于搜索在所选机器学习模型的第一版本的所述超参数中的一个或多个超参数的所确定的值范围内识别超参数值,所述搜索具有可变粒度,其中所述搜索的粒度对应于所述多个超参数中的每一个对所选机器学习模型的第一版本的一个或多个性能指标的影响程度。
9.根据权利要求1所述的方法,其中所述阈值的大小基于所述一个或多个先前存储的超参数对所选机器学习模型的第一版本的一个或多个性能指标的影响程度而变化。
10.一种为自动机器学习系统中的机器学习模型确定一个或多个合适的超参数的计算机实现的方法,所述方法包括:
接收具有数据架构的数据集;
基于所述数据集的属性生成元数据;
由计算机处理器基于所述元数据选择适于应用于所述数据集的机器学习模型;以及
使用所述数据集训练所选机器学习模型。
11.根据权利要求10所述的方法,其中所述选择机器学习模型进一步包括:
使用所述元数据作为所述辅助机器学习模型的输入来执行辅助机器学习模型,所述辅助机器学习模型返回对所述机器学习模型的选择和用于所述机器学习模型的合适的超参数值。
12.根据权利要求10所述的方法,其中所述元数据包括选自以下各项的至少一项:
训练集的大小、数据集中特征的数量、数据集中数据字段类型的百分比、分类问题的类型、数据集中数据字段类型的差异、以及数据集中的特征是否遵循统计分布的指示。
13.一种为自动机器学习系统中的机器学习模型确定一个或多个合适的超参数的方法,所述方法包括:
接收对机器学习模型的选择;
对于与所选机器学习模型相关联的多个超参数中的每个超参数,识别对所选机器学习模型的一个或多个性能指标的影响程度;
基于所识别的每个超参数的影响程度,为所述多个超参数中的每一个选择超参数值,以结合所选机器学习模型使用;以及
使用为所述多个超参数中的每一个所选择的超参数值来训练所选机器学习模型。
14.根据权利要求13所述的方法,其中所述一个或多个性能指标包括选自以下各项的至少一项:准确率、错误率、精确率、召回率、接收机工作特性(ROC)曲线下面积、和精确率召回率曲线下面积。
15.根据权利要求13所述的方法,其中所述识别进一步包括:
使用所选机器学习模型相关联的所述多个超参数作为输入来执行辅助机器学习模型,所述辅助机器学习模型根据对所选机器学习模型的所述一个或多个性能指标的影响程度来返回所述多个超参数的排序。
16.根据权利要求13所述的方法,其中所述选择进一步包括:
基于搜索来为所述多个超参数中的每一个识别超参数值,所述搜索具有可变粒度,其中所述搜索的粒度对应于所述多个超参数中的每一个对所选机器学习模型的所述一个或多个性能指标的影响程度。
17.一种为自动机器学习系统中的机器学习模型确定一个或多个合适的超参数的方法,所述方法包括:
接收对机器学习模型的选择;
接收具有第一数据架构的第一数据集;
识别所选机器学习模型的第一版本;
基于以下步骤接收与所选机器学习模型相关联的多个先前存储的超参数值:
识别所选机器学习模型的第二版本,所述第二版本与所选机器学习模型的第一版本具有共同的一个或多个超参数,以及
识别所述第一数据架构和所选机器学习模型的第二版本相关联的第二数据集的第二数据架构之间的相似性;
基于阈值为先前存储的超参数值中的一个或多个确定值范围;
从所确定的值范围中为所选机器学习模型的一个或多个超参数选择值;以及
使用所选值训练所选机器学习模型的第一版本。
18.根据权利要求17所述的方法,其中所述为所选机器学习模型的所述一个或多个超参数选择值进一步包括:
基于搜索在所选机器学习模型的所述超参数中的一个或多个超参数的所确定的值范围内识别超参数值,所述搜索具有可变粒度,其中所述搜索的粒度对应于所述多个超参数中的每一个对所选机器学习模型的一个或多个性能指标的影响程度。
19.根据权利要求17所述的方法,其中所述阈值的大小基于所述一个或多个先前存储的超参数对所选机器学习模型的一个或多个性能指标的影响程度而变化。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862764667P | 2018-08-15 | 2018-08-15 | |
US62/764,667 | 2018-08-15 | ||
US16/264,583 US11526799B2 (en) | 2018-08-15 | 2019-01-31 | Identification and application of hyperparameters for machine learning |
US16/264,583 | 2019-01-31 | ||
PCT/US2019/046622 WO2020037105A1 (en) | 2018-08-15 | 2019-08-15 | Identification and application of hyperparameters for machine learning |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112889042A true CN112889042A (zh) | 2021-06-01 |
Family
ID=69523954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980051066.4A Pending CN112889042A (zh) | 2018-08-15 | 2019-08-15 | 机器学习中超参数的识别与应用 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11526799B2 (zh) |
EP (1) | EP3814939A1 (zh) |
JP (1) | JP7343568B2 (zh) |
CN (1) | CN112889042A (zh) |
CA (1) | CA3109481A1 (zh) |
WO (1) | WO2020037105A1 (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019146358A1 (ja) * | 2018-01-24 | 2019-08-01 | 富士フイルム株式会社 | 学習システム、方法及びプログラム |
US11614733B2 (en) | 2018-04-30 | 2023-03-28 | Aspentech Corporation | Computer system and method for automated batch data alignment in batch process modeling, monitoring and control |
US10354205B1 (en) * | 2018-11-29 | 2019-07-16 | Capital One Services, Llc | Machine learning system and apparatus for sampling labelled data |
EP3921783A1 (en) * | 2019-03-26 | 2021-12-15 | Huawei Technologies Co., Ltd. | Apparatus and method for hyperparameter optimization of a machine learning model in a federated learning system |
US20200279180A1 (en) * | 2019-05-17 | 2020-09-03 | Mengjie Yu | Artificial intelligence customer support case management system |
US20210056220A1 (en) * | 2019-08-22 | 2021-02-25 | Mediatek Inc. | Method for improving confidentiality protection of neural network model |
TWI724515B (zh) * | 2019-08-27 | 2021-04-11 | 聯智科創有限公司 | 機器學習服務提供方法 |
JP7032366B2 (ja) * | 2019-10-09 | 2022-03-08 | 株式会社日立製作所 | 運用支援システム及び方法 |
US11809968B2 (en) * | 2020-02-24 | 2023-11-07 | Capital One Services, Llc | Control of hyperparameter tuning based on machine learning |
US11763196B2 (en) * | 2020-03-25 | 2023-09-19 | International Business Machines Corporation | Dynamically applying machine learning models from profiling received data |
CN111553482B (zh) * | 2020-04-09 | 2023-08-08 | 哈尔滨工业大学 | 机器学习模型超参数的调优方法 |
US11055639B1 (en) | 2020-04-28 | 2021-07-06 | Sas Institute Inc. | Optimizing manufacturing processes using one or more machine learning models |
US11151480B1 (en) | 2020-06-22 | 2021-10-19 | Sas Institute Inc. | Hyperparameter tuning system results viewer |
US20220019936A1 (en) * | 2020-07-17 | 2022-01-20 | Servicenow, Inc. | Machine learning feature recommendation |
US11526155B2 (en) | 2020-07-30 | 2022-12-13 | Aspentech Corporation | Computer system and method for batch data alignment with active learning in batch process modeling, monitoring, and control |
JP7453895B2 (ja) * | 2020-11-11 | 2024-03-21 | 株式会社日立製作所 | 探索条件提示装置、探索条件提示方法、及び探索条件提示プログラム |
US20220180246A1 (en) * | 2020-12-09 | 2022-06-09 | Walmart Apollo Llc | Methods and apparatus for automatic attribute extraction for training machine learning models |
WO2022146072A1 (ko) * | 2020-12-31 | 2022-07-07 | 주식회사 제이엘케이 | Api를 이용한 컨테이너 기반의 automl 방법, 장치 및 프로그램 |
US20230099635A1 (en) * | 2021-09-28 | 2023-03-30 | International Business Machines Corporation | Context aware automated artificial intelligence framework |
US11983184B2 (en) | 2021-10-07 | 2024-05-14 | Salesforce, Inc. | Multi-tenant, metadata-driven recommendation system |
WO2023144998A1 (ja) * | 2022-01-28 | 2023-08-03 | 日本電気株式会社 | 情報処理装置、情報処理方法及びプログラム |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008133509A1 (en) | 2007-04-25 | 2008-11-06 | Nederlandse Organisatie Voor Toegepast-Natuurwetenschappelijk Onderzoek Tno | Machine learning hyperparameter estimation |
US10366346B2 (en) * | 2014-05-23 | 2019-07-30 | DataRobot, Inc. | Systems and techniques for determining the predictive value of a feature |
US20160110657A1 (en) * | 2014-10-14 | 2016-04-21 | Skytree, Inc. | Configurable Machine Learning Method Selection and Parameter Optimization System and Method |
US10097574B2 (en) * | 2014-12-18 | 2018-10-09 | International Business Machines Corporation | Auto-tuning program analysis tools based on user feedback |
JP6620422B2 (ja) | 2015-05-22 | 2019-12-18 | 富士通株式会社 | 設定方法、設定プログラム、及び設定装置 |
JP6555015B2 (ja) * | 2015-08-31 | 2019-08-07 | 富士通株式会社 | 機械学習管理プログラム、機械学習管理装置および機械学習管理方法 |
US9699205B2 (en) * | 2015-08-31 | 2017-07-04 | Splunk Inc. | Network security system |
JP6470165B2 (ja) | 2015-12-15 | 2019-02-13 | 株式会社東芝 | サーバ、システム及び探索方法 |
US10360517B2 (en) * | 2017-02-22 | 2019-07-23 | Sas Institute Inc. | Distributed hyperparameter tuning system for machine learning |
US11915152B2 (en) * | 2017-03-24 | 2024-02-27 | D5Ai Llc | Learning coach for machine learning system |
US10474926B1 (en) * | 2017-11-16 | 2019-11-12 | Amazon Technologies, Inc. | Generating artificial intelligence image processing services |
US20190362222A1 (en) * | 2018-05-22 | 2019-11-28 | Adobe Inc. | Generating new machine learning models based on combinations of historical feature-extraction rules and historical machine-learning models |
US20190385052A1 (en) * | 2018-06-15 | 2019-12-19 | Deep Insight Solutions, Inc. | Methods for deep learning optimization |
-
2019
- 2019-01-31 US US16/264,583 patent/US11526799B2/en active Active
- 2019-08-15 CA CA3109481A patent/CA3109481A1/en active Pending
- 2019-08-15 CN CN201980051066.4A patent/CN112889042A/zh active Pending
- 2019-08-15 EP EP19762272.3A patent/EP3814939A1/en not_active Ceased
- 2019-08-15 JP JP2021504489A patent/JP7343568B2/ja active Active
- 2019-08-15 WO PCT/US2019/046622 patent/WO2020037105A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
JP7343568B2 (ja) | 2023-09-12 |
US11526799B2 (en) | 2022-12-13 |
WO2020037105A1 (en) | 2020-02-20 |
JP2021533450A (ja) | 2021-12-02 |
CA3109481A1 (en) | 2020-02-20 |
EP3814939A1 (en) | 2021-05-05 |
US20200057958A1 (en) | 2020-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11526799B2 (en) | Identification and application of hyperparameters for machine learning | |
US20190362222A1 (en) | Generating new machine learning models based on combinations of historical feature-extraction rules and historical machine-learning models | |
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
US10621493B2 (en) | Multiple record linkage algorithm selector | |
JP2019185716A (ja) | エンティティ推薦方法及び装置 | |
CN107704871A (zh) | 生成机器学习样本的组合特征的方法及系统 | |
US11250951B2 (en) | Feature engineering method, apparatus, and system | |
US11403303B2 (en) | Method and device for generating ranking model | |
CN113435602A (zh) | 确定机器学习样本的特征重要性的方法及系统 | |
US11109085B2 (en) | Utilizing one hash permutation and populated-value-slot-based densification for generating audience segment trait recommendations | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
CN114298323A (zh) | 生成机器学习样本的组合特征的方法及系统 | |
CN107729915A (zh) | 用于确定机器学习样本的重要特征的方法及系统 | |
CN110555451A (zh) | 信息识别方法和装置 | |
CN111159563A (zh) | 用户兴趣点信息的确定方法、装置、设备及存储介质 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN110717806A (zh) | 产品信息推送方法、装置、设备及存储介质 | |
CN110968802A (zh) | 一种用户特征的分析方法、分析装置及可读存储介质 | |
CN114692889A (zh) | 用于机器学习算法的元特征训练模型 | |
CN116340831B (zh) | 一种信息分类方法、装置、电子设备及存储介质 | |
CN106651408B (zh) | 一种数据分析方法及装置 | |
CN116304155A (zh) | 基于二维图片的三维构件检索方法、装置、设备及介质 | |
CN113780666B (zh) | 一种缺失值的预测方法及装置、可读存储介质 | |
CN109885504B (zh) | 推荐系统的测试方法、装置、介质及电子设备 | |
US10713585B2 (en) | Using template exploration for large-scale machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: California, USA Applicant after: Shuo Power Co. Address before: California, USA Applicant before: SALESFORCE.COM, Inc. |
|
CB02 | Change of applicant information |