CN106250986A - 用于机器学习的高级分析基础构架 - Google Patents

用于机器学习的高级分析基础构架 Download PDF

Info

Publication number
CN106250986A
CN106250986A CN201610391238.0A CN201610391238A CN106250986A CN 106250986 A CN106250986 A CN 106250986A CN 201610391238 A CN201610391238 A CN 201610391238A CN 106250986 A CN106250986 A CN 106250986A
Authority
CN
China
Prior art keywords
machine learning
data set
learning model
training
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610391238.0A
Other languages
English (en)
Inventor
L·E·斯图劳格森
J·M·埃辛顿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Boeing Co
Original Assignee
Boeing Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Boeing Co filed Critical Boeing Co
Publication of CN106250986A publication Critical patent/CN106250986A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/043Distributed expert systems; Blackboards

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Testing Of Devices, Machine Parts, Or Other Structures Thereof (AREA)

Abstract

用于机器学习的高级分析基础构架。具体地,公开了用于比较候选机器学习算法的机器学习系统和计算化方法。该机器学习系统包括:机器学习算法库;数据输入模块,该数据输入模块用于接收数据集和对从由机器学习算法库导出的机器学习模型的选择;试验模块;以及聚合模块。试验模块被配置成,训练和评估每一个机器学习模型,以生成针对每一个机器学习模型的性能结果。聚合模块被配置成,聚合针对全部机器学习模型的性能结果,以形成性能比较统计。计算化方法包括以下步骤:接收数据集;接收对机器学习模型的选择;训练和评估每一个机器学习模型,以生成针对每一个机器学习模型的性能结果;聚合性能结果,以形成性能比较统计;以及呈现性能比较统计。

Description

用于机器学习的高级分析基础构架
技术领域
本公开涉及用于机器学习的高级分析基础构架。
背景技术
机器学习是这样一种用于分析数据的过程,即,使用数据集来确定将输入数据(还称作解释变量或预测值)映射至输出数据(独立变量或响应变量)的模型(还称作规则或功能)。一种类型机器学习是监督学习,其中,利用包括针对足够数量的输入数据的已知输出数据的数据集来训练模型。模型一旦受到训练,其就可以加以部署,即,应用至新的输入数据来预测希望输出。
机器学习可以应用至回归问题(其中,输出数据是数字的,例如,电压、压力、多个周期)和分类问题(其中,输出数据是标签、类别和/或种类,例如通过-不通过、失效类型等)。针对两类问题,可获得广泛的机器学习算法,而且新算法是活跃的研究主题。例如,人工神经网络、学习决策树、以及支持矢量机是可以应用至分类问题的不同类别算法。而且,这些示例中的每一个可以通过选择诸如学习率(用于人工神经网络)、树的数目(用于全体学习决策树)、以及核心类型(用于支持矢量机)这样的特定参数来特制。
可用于寻求解决问题的大量机器学习选项使得难于选择最佳选项甚或满意执行的选项。数据的量、类型以及质量影响了训练和所得的训练模型的准确度和稳定性。而且,诸如出错(例如,假阳性、假阴性)的容限、可量测性、以及执行速度这样的专门问题考虑限制了可接受选择。
因此,存在用于针对各种专门问题来比较机器学习模型的可应用性的需要。
发明内容
一种机器学习系统,该机器学习系统可以被配置成针对特殊数据分析问题对候选机器学习算法进行。所述机器学习系统包括:机器学习算法库、数据输入模块、试验模块以及聚合模块。所述机器学习算法库包括被配置成利用公用接口来测试的多个机器学习算法。所述数据输入模块被配置成接收对机器学习模型的选择和数据集。每一个机器学习模型包括来自所述机器学习算法库的机器学习算法和一个或更多个关联参数值。所述试验模块被配置成,训练和评估每一个机器学习模型,以生成针对每一个机器学习模型的性能结果。所述聚合模块被配置成,聚合针对全部所述机器学习模型的所述性能结果,以形成性能比较统计。
一种计算机化方法,该计算机化方法用于测试机器学习算法,该方法包括以下步骤:接收数据集,接收对机器学习模型的选择,训练和评估每一个机器学习模型,聚合结果,以及呈现结果。机器学习模型的选择的每一个机器学习模型包括机器学习算法和一个或更多个关联参数值。训练和评估每一个机器学习模型的步骤包括生成针对每一个机器学习模型的性能结果。聚合步骤包括聚合针对全部所述机器学习模型的所述性能结果,以形成性能比较统计。呈现步骤包括呈现所述性能比较统计。
附图说明
图1是本公开的机器学习系统的表示图。
图2是机器学习系统内的模块的表示图。
图3是本公开的方法的表示图。
图4是训练和评估机器学习模块的表示图。
具体实施方式
图1-4例示了用于机器学习的系统和方法。一般来说,在图中,很可能被包括在指定实施方式中的部件按实线例示,而可选或另选的部件按虚线例示。然而,按实线例示的部件对于本公开的所有实施方式来说不是基本的,而且在不脱离本公开的范围的情况下,按实线示出的部件可以从特定实施方式中省略。服务类似,或至少大致类似目的的部件用在附图当中一致的数字来标注。每一个图中的相同数字,和对应部件在此可以不参照每一个图详细讨论。类似的是,所有部件不是在每一个图中都加以标注或示出,而为了一致性可以使用与其相关联的标号。在不脱离本公开的范围的情况下,参照一个或更多个图讨论的部件、组件和/或特征可以被包括在任何图中和/或与该图一起使用。
如图1所示,机器学习系统10是包括可操作地联接至存储单元14的处理单元12的计算机化系统。处理单元12是被配置成执行用于软件和/或固件的指令的一个或更多个装置。处理单元12可以包括一个或更多个计算机处理器,并且可以包括分布式计算机处理器组。存储单元14(还称作计算机可读存储单元)是被配置成存储计算机可读信息的一个或多个装置。存储单元14可以包括存储器16(还称作计算机可读存储器)和持久性存储部18(还称作计算机可读持久性存储部、存储介质、和/或计算机可读存储介质)。持久性存储部18是非暂时且不是仅仅暂时的电子和/或电磁信号的一个或更多个计算机可读存储装置。持久性存储部18可以包括一个或更多个(非暂时)存储介质和/或分布式(非暂时)存储介质组。机器学习系统10可以包括一个或更多个计算机、服务器、工作站等,其皆可以直接或间接地独立互连(包括通过网络连接互连)。由此,机器学习系统10可以包括彼此远程定位的处理器、存储器16和/或持久性存储部18。
机器学习系统10可以被编程成执行在此描述的方法,和/或可以存储用于执行该方法的指令。机器学习系统10的存储单元14包括这样的指令,即,该指令在通过处理单元12执行时,使机器学习系统10执行在此描述的一个或更多个方法。
在描述的流程图和框图例示了根据各个例示性实施方式的系统、方法以及计算机程序产品的可能实现的架构、功能以及操作。在这点上,该流程图或框图中的每一个框都可以表示模块、区段、或代码的一部分,其包括用于实现该指定逻辑功能或多个功能的一个或更多个可执行指令。还应注意到,在一些另选实现中,框中提到的功能可以出现在图中所提到的次序之外。例如,根据所涉及的功能,接连示出的两个框的功能可以大致同时执行,或者这些框的功能有时可以按逆序执行。
如图2中示意性地表示,机器学习系统10可以包括几个模块(例如,存储在存储单元14中并且被配置成通过处理单元12执行的指令和/或数据)。这些模块(其还可以被称为代理程序(agent)、程序、处理和/或过程)可以包括数据输入模块20、机器学习算法库22、数据预处理器24、试验模块30、聚合模块40以及呈现模块44。
机器学习系统10被配置用于机器学习模型选择,即,便于选择针对特殊数据分析问题的恰当机器学习模型32,例如,用于对候选机器学习模型进行比较。一般来说,机器学习系统10被配置成针对指定的一组数据,计算和/或估计利用一个或更多个特定参数(还称为超参数)设置的一个或更多个机器学习算法的性能。该机器学习算法连同其关联特定参数值至少部分地形成机器学习模型32(还称为特定机器学习模型和候选机器学习模型,并且在图2中,称为ML模型1至ML模型N)。
数据分析问题可以是分类问题或回归(regression)问题。数据分析问题可以涉及时间相关数据,其可以被称作序列数据、时间系列数据、时间数据、和/或时间标记数据。时间相关数据涉及可观察量(observable)(还称作量、属性、特性或特征)按一序列和/或通过时间(例如,按连续时段测量)的进展。例如,时间相关数据可以涉及诸如飞行器和它们的子系统(例如,推进系统、飞行控制系统、环境控制系统、电气系统等)的设备的运转健康。相关可观察量可以是测量电气、光学、机械、液压、流体、气动、和/或空气动力组件的状态、针对其的输入和/或其输出。
数据输入模块20被配置成接收(例如,从用户选择)对机器学习模型32和诸如时间相关数据集这样的数据集的选择。由此,机器学习系统10被配置成接收数据集。该数据集(还称作输入数据集)可以采用公用格式,以与机器学习模型32和/或试验模块30接口连接。如果输入数据集未采用可与针对机器学习模型32和/或试验模块30的接口兼容的格式,则该数据输入模块20和/或数据预处理器24可以被配置成,将输入数据集重新格式化成用于与机器学习模块32和/或试验模块30接口连接的公用格式,或者可以以其它方式将输入数据集的格式转换成可兼容格式。
该机器学习模型32包括:机器学习算法,和用于该机器学习算法的一个或更多个关联参数值。该数据集包括针对一个或更多个可观察量的数据(例如,电压测量和温度测量)。该数据集可以是标注数据集(还称作注释数据集、学习数据集或者分类数据集),意指该数据集包括:输入数据(例如,可观察量的值,还称作原始数据),和针对足够数量(可选为全部)输入数据的已知输出数据。由此,标注数据集被配置用于监督学习(还称作定向学习(guided learning))。
机器学习算法库22包括多个机器学习算法。这些机器学习系统皆被配置成符合还称作互换接口的公用接口,以便于应用机器学习算法(例如,便于测试、训练、评估和/或部署)。该公用接口可以限定公用输入和/或输出、用于输入和/或输出数据的公用方法、和/或针对每一个机器学习算法的公用过程调用。例如,机器学习系统可以被配置成操作具有公用格式(例如,按特定文件类型组织化、以特定行和/或列名称组织化)的数据集,以按相同方式暴露和/或接收参数值,和/或执行类似功能。因此,机器学习算法库22中的任一个机器学习算法可以按类似方式(可以将数据类似地传递至该算法,可以类似地调用函数)和/或可互换方式来使用。而且,机器学习算法库22可扩展,即,可以在可获时和开发时添加新算法。
机器学习算法库22的每一个机器学习算法都可以接受特定参数,来特制或者指定所应用算法的特殊变型。例如,人工神经网络可以包括指定节点数、成本函数、学习率、学习率衰退、以及最大迭代次数的参数。学习决策树可以包括指定树的数目(针对全体或随机森林型结构)和尝试的次数(即,用于按每一个分支尝试的特征/预测的数量)。支持矢量机可以包括指定核心类型的参数和核心参数。不是所有的机器学习算法都具有关联参数。如在此使用的,机器学习模型32是至少一个机器学习算法及其关联参数(若有的话)的组合。由此,选择用于数据输入模块20的机器学习模型32可以是(用户)选择机器学习算法及其关联参数。选择的机器学习模型中的机器学习算法可以从机器学习算法库22中选择。该机器学习算法可以是朴素贝叶斯(Bayes)分类器、树增强(tree-augmented)朴素贝叶斯分类器、动态贝叶斯网络、支持矢量机、学习决策树、全体学习决策树(例如,学习决策树的随机森林型结构)、人工神经网络,及其组合。
机器学习模型32可以是组合全体微过程(ensemble of micro-procedure)38的结果的宏过程36。每一个微过程38都包括机器学习算法及其关联参数值。可选的是,每一个微过程38都包括机器学习算法及其关联参数值的不同组合。如参照机器学习模型32所述,微过程38可以按相同方式设置和/或包括相同特征。例如,微过程38可以包括朴素贝叶斯分类器、树增强朴素贝叶斯分类器、动态贝叶斯网络、支持矢量机、学习决策树、全体学习决策树/和/或人工神经网络。
宏过程36被配置成,向全体微过程38中的所有微过程38提供相同基本输入数据(即,输入数据的至少一子集和/或导出物)。训练宏过程36包括:训练每一个微过程38(利用相同基本输入数据)。一个或更多个(可选为全部)微过程38可以利用相同输入特征数据来训练。另外或另选的是,两个或更多个(可选为全部)微过程38可以利用不同输入特征数据来训练(但所有输入特征数据是输入数据的子集和/或导出物)。
尽管单独的已训练的微过程38在预测输出数据(结果)方面可能可靠、鲁棒和/或稳定,但微过程结果的组合可能比任何单独结果更可靠、鲁棒和/或稳定。由此,宏过程36可以被配置成组合微过程38的结果来生成比单独微过程38结果更可靠、鲁棒和/或稳定的组合结果。
宏过程36可以包括与微过程38无关和/或不同的机器学习算法和关联参数值。另外或另选的是,宏过程36可以通过累积值、最大值、最小值、中值、平均值、众数值(modevalue)、最常见值、和/或多数票,来组合全体微过程38的结果。宏过程36的示例包括:全体学习决策树(例如,随机森林型)和全体相关分类器(例如,被训练成预测将来不同时间的结果的分类器)。在2015年2月3日提交的题名为“Predictive Aircraft MaintenanceSystems and Methods Incorporating Classifier Ensembles”的美国专利申请中公开了全体相关分类器的示例,其公开内容出于所有目的通过引用而并入于此。
机器学习系统10可以包括数据预处理器24,还称为初始数据预处理器和全局预处理器。数据预处理器24被配置成制备输入数据集以供试验模块30处理。针对数据预处理器24的输入包括:通过数据输入模块20提供的输入数据集。数据预处理器24可以向输入数据集应用一个或更多个预处理算法。例如,数据预处理器24可以被配置成离散化数据集、向数据集应用独立组件分析、向数据集应用主要组件分析、从数据集消除缺失数据(例如,去除记录和/或估计数据)、从数据集选择特征、和/或从数据集提取特征。如果预处理该数据集,则一些机器学习模型32可以更可靠和/或弹性地执行(例如,具有增强概括性和/或更少依赖于训练数据)。如果预处理数据集,则某些机器学习模型32的训练可以增强(例如,更快,更少过度拟合)。数据预处理器24向数据集应用相同预处理,并将所处理的数据集递送至要在测试下被所有机器学习模型32使用的试验模块30。在可选数据预处理器24之后的输入数据(例如,输入数据集,或者如可选地通过一个或更多个预处理算法预处理的数据集)可以被称为输入特征数据和/或输入特征数据集。输入特征数据被数据预处理器24提供给试验模块30。
数据预处理器24可以从包括多个预处理算法的预处理算法库26选择预处理算法。预处理库26中的预处理算法皆被配置成符合公用接口(还称作互换接口),以便于应用预处理算法。该公用接口可以限定公用输入和/或输出、用于输入和/或输出数据的公用方法、和/或针对每一个预处理算法的公用过程调用。例如,该预处理算法可以被配置成操作具有公用格式(例如,按特定文件类型组织化、以特定行和/或列名称组织化)的数据集,以按相同方式暴露和/或接收参数值,和/或执行类似功能。因此,预处理算法库26中的任一个预处理算法可以按类似方式(可以将数据类似地传递至该算法,可以类似地调用函数)和/或可互换方式来使用。而且,该预处理算法库26可扩展,即,可以在可获时和开发时添加新算法。
离散化是:数据预处理器24的常见任务,并且是可以呈现在预处理算法库26中的一类算法。离散化(还称作分箱(binning)是将数字可观察量(例如,连续输入值)转换和/或分区成离散化、分箱、和/或标称类别值。例如,连续值可以被离散化成一组区间(interval),并且每一个连续值都被分类为该组区间中的一个区间。离散化连续数据通常导致离散误差,并且不同算法被配置成减少离散误差的量。一般来说,离散化算法基于分箱(bins)的统计独立性(例如,诸如Ameva、Chi2、ChiMerge等的 2相关方法)和/或分箱(bins)的信息熵(举例来说,诸如MDLP(最小描述符长度原理)、CAIM(类别-属性相互依赖最大化)、以及CACC(类别-属性偶然性系数)的方法)来分离输入数据。
特征选择和特征提取是数据预处理器24的其它常见任务,并且是可以呈现在预处理算法库26中的一类算法。特征选择通常选择输入数据值的子集。特征提取(其还可以被称为维数缩减)通常将一个或更多个输入数据值变换成新的数据值。特征选择和特征提取可以组合成单一算法。特征选择和/或特征提取可以预处理输入数据,以简化训练、去除多余或不规则数据、标识重要特征(和/或输入数据)、和/或标识特征(和/或输入数据)关系。
特征提取可以包括确定输入特征数据的统计量。在数据集是时间相关数据集的情况下,该统计量可以涉及数据集的时间相关性,例如,该统计量可以是在一时间窗期间的统计量,即,在一时段期间和/或按一个或更多个指定时间。另外或另选的是,该统计量可以涉及一个或更多个输入特征数据值。例如,该统计量可以是传感器值的时间平均值,和/或两个传感器值之间的差异(例如,按不同时间和/或不同位置测量的)。更一般地说,统计量可以包括,和/或可以是:最小值、最大值、平均值、方差、偏差、累积值、变化率、平均变化率、和、差、比、积、和/或相关性。统计量可以包括,和/或可以是:数据点的总数、顺序数据点的最大数、顺序数据点的最小数、顺序数据点的平均数、聚合时间、最大时间、最小时间,和/或输入特征数据值大于、小于或者约等于一域值的平均时间。
另外或另选的是,特征选择和/或特征提取可以包括在某些约束内选择、提取和/或处理输入特征数据值。例如,只有当在预定范围内(例如,可以排除离群数据)和/或当其它可观察值处于一预定范围内(例如,一个传感器值可以限制接受另一传感器值)时,才可以选择、提取和/或处理可观察值。
机器学习系统10的试验模块30被配置成,测试(例如,训练和评估)由数据输入模块20提供的选择的机器学习模型32中的每一个机器学习模型32,以生成针对每一个机器学习模型32的性能结果。针对机器学习模型32中的每一个,试验模块30被配置成,利用同一数据集(从数据输入模块20和/或数据预处理器24接收的输入特征数据集,和/或根据输入特征数据集导出的数据)执行监督学习。由此,每一个机器学习模型32都可以利用相同信息来训练,以便于比较机器学习模型32。
试验模块30可以被配置成,自动地和/或自主地设计并执行该特定试验(还称作试机(trial)),来测试每一个机器学习模型32。自动和/或自主设计试验可以包括:确定用于测试的机器学习模型32和/或用于测试的那些机器学习模型32的次序。例如,通过数据输入模块20接收的选择的机器学习模型32可以包括:用于测试的特定机器学习算法和一范围和/或一组一个或更多个关联参数。试验模块30可以应用这些范围和/或组,以标识一组机器学习模型32。即,试验模块30可以针对由该选择指定的参数的每一个独特组合,来生成机器学习模型32。在该选择包括范围的情况下,试验模块30可以生成对该范围(例如,其横跨该范围)进行采样的一组值。作为示例,选择的机器学习模型32可以将人工神经网络标识为机器学习算法(之一),并且将关联参数标识为10-20个节点和0或0.01的学习率衰退。试验模块30可以将该选择解释为至少四个机器学习模型:具有10个节点和0学习率衰退的人工神经网络、具有10个节点和0.01学习率衰退的人工神经网络、具有20个节点和0学习率衰退的人工神经网络、以及具有20个节点和0.01学习率衰退的人工神经网络。
一般来说,在试验模块30中使用的每一个机器学习模型32都是独立的并且可以独立地加以测试。因此,试验模块30可以被配置成,并行(例如,至少部分同时地)测试一个或更多个机器学习模型32。
试验模块30可以被配置成(可选地,独立针对每一个机器学习模型32)将数据集划分成:训练数据集(数据集的子集),和评估数据集(数据集的另一子集)。可以将相同训练数据集和评估数据集用于一个或更多个(可选为全部)机器学习模型32。另外或另选的是,每一个机器学习模型32都可以(可选为排它地)利用独立划分的数据集(其可以是,或者不是针对每一个机器学习模型的独特划分)来测试。试验模块30可以被配置成,利用相应训练数据集来训练机器学习模型32(以生成训练模型),并且利用相应评估数据集来评估机器学习模型32。因此,为避免训练过程中的偏离,训练数据集和评估数据集可以是独立的,不共用输入数据和/或与同一输入数据有关的值。训练数据集和评估数据集可以是输入至试验模块30的数据集的互补子集(举例来说,如可选地通过数据预处理器24处理的),即,训练数据集和评估数据集的并集是整个数据集。一般来说,训练数据集和评估数据集被相同且独立地分布,即,训练数据集和评估数据集没有数据交叠,并且示出大致相同的统计分布。
试验模块30可以被配置成,在划分数据集之前和/或之后预处理数据集(例如,利用可选模型预处理器34),并且可以被配置成,独立地预处理训练数据集和评估数据集。试验模块30和/或机器学习系统10可以包括被配置成,预处理输入至每一个机器学习模型32的数据(输入特征数据)的模型预处理器34。该试验模块30和/或模型预处理器34可以被配置成,独立地预处理输入至每一个机器学习模型32的数据。如参照数据预处理器24所述的,模型预处理器34可以按相同方式设置,和/或包括相同特征。例如,模型预处理器34可以向输入特征数据应用一个或更多个预处理算法,并且该预处理算法可以从预处理算法库26中选择。
可能不适于在划分数据集之前应用一些预处理步骤,因为该预处理可能偏离训练数据集(即,训练数据集可能包括从评估数据集导出的信息)。例如,无监督的离散化(其不依赖于标注数据集)可以独立于特殊输入数据值和/或在没有获知任何输出数据的情况下,根据预定算法来分组数据,而受监督的离散化(其依赖于标注数据集)可以根据数据(输入数据和/或已知输出数据)中的模式来分组数据。独立于特殊输入数据值的无监督的离散化可以在划分数据集之前和/或之后执行。为避免训练数据集中的潜在偏离,受监督的离散化(具体为取决于特殊输入数据值的离散化)可以在划分数据集之后执行(例如,独立于训练数据集和评估数据集)。
在模型预处理器34被配置成在将数据集划分成训练数据集和评估数据集之后预处理数据的情况下,模型预处理器34可以被配置成,独立地预处理训练数据集和评估数据集,和/或按和训练数据集相同的方式预处理评估数据集(例如,利用由预处理训练数据集而导致的相同预处理方案)。例如,无监督的离散化可以基于训练数据集将数据排列成多个组。可以将相同的组应用至评估数据集。
试验模块30被配置成,利用受监督的学习训练每一个机器学习模型32,以生成针对每一个机器学习模型的训练模型。试验模块30被配置成,评估和/或验证每一个训练模型,以生成针对每一个机器学习模型的性能结果。可以通过将训练模型应用至相应评估数据集并且比较训练模型结果与已知输出值,来执行评估和/或验证。针对作为宏过程36的机器学习模型32,试验模块30可以被配置成,通过独立地训练宏过程36中的每一个微过程38以生成全体训练微过程来生成训练宏过程,并且如果宏过程36本身包括机器学习算法,则利用全体训练微过程38来训练宏过程36。针对宏过程36,试验模块被配置成,通过将训练宏过程应用至相应评估数据集并且比较训练宏过程结果与已知输出值,来评估和/或验证训练宏过程。
评估和/或验证可以通过交叉验证(多轮验证)(例如,留一交叉验证(leave-one-out cross validation),和/或k折交叉验证(k-fold cross validation))来执行。交叉验证是这样的过程,即,将原始数据集划分多次(形成多个训练数据集和对应评估数据集),利用每一个划分(每一个训练数据集和对应评估数据集)来训练和评估机器学习模型32,以生成针对每一个划分的评估结果,并且组合该评估结果,以生成性能结果。例如,在k折交叉验证中,可以将原始数据集划分成k个组块(chunk)。针对每一轮验证,该组块之一是评估数据集,而其余组块是训练数据集。针对每一轮验证,改变作为评估数据集的那个组块。在留一交叉验证中,要通过该模型评估的每一个实例都是其自身的组块。因此,留一交叉验证是其中k是数据点的数量(每一个数据集都是一特征元组(tuple))的k折交叉验证的情况。可以通过平均化评估结果、累积评估结果、和/或评估结果的其它统计组合,来进行评估结果的组合以生成性能结果。
针对每一个机器学习模型32的性能结果和/或针对每一轮验证的单独评估结果可以包括:与相关系数、均方误差、置信区间、准确度、若干真阳性、若干真阴性、若干假阳性、若干假阴性、灵敏度、阳性预测值、特异性、阴性预测值、假阳性率、假发现率、假阴性率和/或假遗漏率有关的指示符、值和/或结果。另外或另选的是,该指示符、值和/或结果可以涉及计算效率、所需存储器和/或执行速度。针对每一个机器学习模型32的性能结果可以包括同一类型的至少一个指示符、值和/或结果(例如,所有性能结果都包括准确度)。针对每一个机器学习模型32的性能结果可以包括不同类型的指示符、值和/或结果(例如,一个性能结果可以包括置信区间,而一个性能结果可以包括假阳性率)。
针对双类别分类方案(例如,双态值、阳性-阴性、真-假、是-否等),真阳性是在已知输出值同样为“阳性”(例如,结果“是”和值“是”)时从训练模型导出的“阳性”。真阳性率(还称作灵敏度和/或重新调用)是根据“阳性”输出值的总数划分的真阳性的总数。阳性预测值(还称作精度)是根据“阳性”结果的总数划分的真阳性的总数。真阴性是在已知输出值同样为“阴性”时从训练模型的“阴性”结果。真阴性率(还称作特异性)是根据“阴性”输出值的总数划分的真阴性的总数。阴性预测值是根据“阴性”结果的总数划分的真阴性的总数。假阳性(还称作类型I错误)是在已知输出值为“阴性”时根据训练模型的“阳性”结果。假阳性率(还称作掉落(fall-out))是根据“阴性”输出值的总数划分的假阳性的总数。假发现率是根据“阳性”结果的总数划分的假阳性的总数。假阴性(还称作类型II错误)是在已知输出值为“阳性”时根据训练模型的“阴性”结果。假阴性率是根据“阳性”输出值的总数划分的假阴性的总数。假遗漏率是根据“阴性”结果的总数划分的假阴性的总数。
针对双类别分类方案,准确度是根据全部对象总体划分的真阳性和真阴性的总数。针对回归问题,准确度可以是诸如均方误差这样的误差量度。
机器学习系统10的聚合模块40被配置成,聚合和/或累积针对全部机器学习模型的性能结果,以形成性能比较统计。可以对该性能比较统计加以选择、配置和/或布置,以便于比较所有机器学习模型32。聚合模块40可以被配置成,累积和/或聚合针对每一个机器学习模型的性能结果。该性能比较统计可以包括与机器学习模型32相对应的每一个性能结果的一个或更多个指示符、值和/或结果。该性能比较统计可以包括针对每一个机器学习模型32的同一类型的至少一个指示符、值和/或结果(例如,该性能比较统计包括针对每一个机器学习模型32的准确度)。该性能比较统计可以包括针对每一个机器学习模型32的不同类型的指示符、值和/或结果(例如,该性能比较统计包括针对一个机器学习模型32的置信区间和针对另一机器学习模型32的假阳性率)。
机器学习系统10可以包括可选呈现模块44,其被配置成向机器学习系统10的操作员和/或用户呈现性能比较统计。呈现模块44可以被配置成,按统一格式呈现针对全部机器学习模型的性能结果,以便于机器学习模型32的比较。呈现模块44可以被配置成,通过可视、音频和/或触觉显示来显示性能比较统计。这些显示可以包括:字母数字混编显示、视频监视、灯、LED、扬声器、蜂鸣器、弹簧、和/或重量。另外或另选的是,呈现模块44可以在持久性存储部18中存储包括性能比较统计的文件,和/或向存储单元14和/或用户发送包括性能比较统计的数据块。
图3示意性地例示了用于利用诸如时间系列数据这样的数据来测试机器学习算法的方法100。方法100包括以下步骤:接收102数据集(如时间相关数据集);接收104机器学习模型(如机器学习模型32);训练和评估106每一个机器学习模型,以生成针对每一个机器学习模型的性能结果;聚合108针对全部机器学习模型的性能结果,以形成性能比较统计;以及呈现110性能比较统计(例如,向用户)。
方法100可以包括操作和/或利用机器学习系统10的。接收102数据集的步骤可以包括操作和/或利用数据输入模块20。接收104机器学习模型的步骤可以包括操作和/或利用数据输入模块20和/或机器学习算法库22。训练和评估106的步骤可以包括操作和/或利用试验模块30。聚合108的步骤可以包括操作和/或利用聚合模块40。呈现110的步骤可以包括操作和/或利用呈现模块44。
方法100可以包括预处理112数据集(还称为全局预处理)的步骤,其可以包括操作和/或利用数据预处理器24和/或预处理算法库26。预处理112的步骤可以包括:离散化、独立组件分析、主要组件分析、消除缺失数据、特征选择和/或特征提取。
训练和评估16的步骤包括以下步骤:利用如通过接收102的步骤接收的和/或通过预处理112的步骤修改的同一输入数据集(即,输入特征数据集),来生成针对每一个机器学习模型的性能结果。训练和评估106的步骤可以包括:利用输入特征数据集的子集和/或导出物,并且每一个机器学习模型都可以利用输入特征数据集的相同或不同子集和/或导出物来加以训练和评估。训练和评估106的步骤通常包括以下步骤:针对每一个机器学习算法,利用输入特征数据集的至少一个子集和/或导出物来执行监督学习。针对每一个机器学习模型利用相同信息来训练和评估106的步骤可以便于对选择的机器学习模型进行比较。
训练和评估106的步骤可以包括设计和执行(执行(performing))试验(试机(trial),来测试选择的机器学习模型中的每一个机器学习模型。训练和评估106的步骤可以包括:确定用于测试的机器学习模型和/或用于测试的那些机器学习模型32的次序,如参照试验模块30讨论的(图2)。
训练和评估106的步骤可以包括:设计要独立和/或并行(例如,至少部分同时)执行的试验。训练和评估106的步骤可以包括并行(例如,至少部分同时)执行一个或更多个试验(训练和/或评估机器学习模型)。
如图4中详细说明,训练和评估106的步骤可以包括:将数据集划分120成针对每一个机器学习模型的训练数据集和对应评估数据集;利用该训练数据集训练122机器学习模型,并且利用该评估数据集评估124训练模型。而且,训练和评估106的步骤针对每一个机器学习模型可以包括:预处理130数据集(在划分120该数据集之前)和/或预处理132训练数据集、预处理134评估数据集。预处理130、预处理132以及预处理134中的每一个都可以独立地包括:针对相应数据集的离散化、独立组件分析、主要组件分析、消除缺失数据、特征选择、和/或特征提取。预处理134评估数据集可以独立于或者取决于预处理132训练数据集(例如,与其共用同一预处理方案)。例如,预处理134可以向作为根据预处理132训练数据集的所得结果的评估数据集应用同组种类。
划分120步骤可以针对至少一个(可选为每一个)机器学习模型独立地执行。另外或另选的是,可以执行划分120,以针对一个或更多个(可选为全部)机器学习模型来生相同训练数据集和相同对应评估数据集。如参照试验模块30讨论的,训练数据集和评估数据集可以是独立的,不共用输入数据和/或与同一输入数据有关的值(例如,以避免训练过程中的偏离)。训练数据集和评估数据集可以是输入特征数据集的互补子集,并且可以相同且独立地分布,即,训练数据集和评估数据集没有数据交叠,并且示出大致相同的统计分布。
训练122的步骤包括:利用训练数据集来训练每一个机器学习模型(如机器学习模型32),以生成针对每一个机器学习模型的训练模型。在机器学习模型是宏过程(如宏过程36)的情况下,训练122的步骤还包括训练140宏过程,并且训练142该宏过程的微过程(如微过程38)。训练140宏过程的步骤包括:独立训练142该宏过程中的每一个微过程以生成全体训练微过程,并且如果宏过程本身包括机器学习算法,则利用全体训练微过程来训练宏过程。在没有机器学习模型是宏过程的情况下,训练122不包括训练140或训练142。
评估124的步骤包括:利用对应评估数据集来评估每一个训练模型,例如,如参照试验模块30讨论的。该训练模型被应用至评估数据集,以生成针对评估数据集的每一个输入值的结果(预测),并且对该结果与评估数据集的已知输出值进行比较。该比较可以称为评估结果和/或性能结果。
训练和评估106的步骤可以包括验证和/或交叉验证(多轮验证),例如,留一交叉验证,和/或k折交叉验证,如参照试验模块30讨论的。训练和评估106的步骤可以包括:重复划分120数据集,以执行多轮训练122和评估124(即,多轮验证)并且组合126所述多轮训练122和评估124的(评估)结果,以生成针对每一个机器学习模型的性能结果。可以通过平均化评估结果、累积评估结果、和/或评估结果的其它统计组合,来组合126评估结果以生成性能结果。
单轮验证的评估结果和针对每一个机器学习模型的性能结果如参照试验模块30所述。
返回至图3,聚合108的步骤可以包括:累积针对每一个机器学习模型的性能结果,以形成性能比较统计。可以对该性能比较统计加以选择、配置和/或布置,以便于比较所有机器学习模型。聚合的步骤可以包括:累积和/或聚合针对每一个机器学习模型的性能结果。该性能比较统计如参照聚合模块40所述。
呈现110的步骤包括:呈现性能比较统计(例如,向操作员和/或用户)。呈现110的步骤可以包括:按统一格式呈现针对全部机器学习模型的性能结果,以便于比较机器学习模型。呈现110的步骤可以包括:通过可视、音频和/或触觉显示来显示性能比较统计。另外或另选的是,呈现110的步骤可以包括:存储包括性能比较统计的文件(例如,存储在持久性存储部18中),和/或发送包括性能比较统计的数据块(例如,向存储单元14和/或用户)。
方法100可以包括以下步骤:构建与一个或更多个机器学习模型相对应的可部署机器学习模型。构建114可部署机器学习模型的步骤包括:利用整个输入特征数据集(如可选地预处理的)来训练对应机器学习模型。由此,该可部署机器学习模型利用全部可用数据而非只有一个子集(训练数据集)来训练,可以在比较机器学习模型与性能比较统计并且选择该机器学习模型中的一个或更多个以部署之后,执行构建114的步骤。
根据本公开的发明主旨的示例在下面列举的段落中进行描述:
A1、一种计算机化方法,该计算机化方法用于利用输入数据来测试机器学习算法,该方法包括以下步骤:
接收输入数据集;
接收对机器学习模型的选择,其中,每一个机器学习模型包括机器学习算法和一个或更多个关联参数值;
训练和评估每一个机器学习模型,以生成针对每一个机器学习模型的性能结果;
聚合针对全部机器学习模型的性能结果,以形成性能比较统计;以及
呈现所述性能比较统计。
A2、根据段落A1所述的方法,其中,所述输入数据集是时间相关数据集、时间系列数据集、事件标记数据集、序列数据集、以及时间数据集中的至少一个。
A3、根据段落A1-A2中的任一段落所述的方法,其中,所述输入数据集包括按连续时段测量的可观察量的一系列值。
A4、根据段落A1-A3中的任一段落所述的方法,其中,所述输入数据集是标注数据集。
A5、根据段落A1-A4中的任一段落所述的方法,所述方法还包括以下步骤:在所述训练和评估步骤之前,全局预处理所述数据集,并且可选地,其中,所述全局预处理步骤包括以下各项中的至少一个:离散化、独立组件分析、主要组件分析、消除缺失数据、特征选择、以及特征提取。
A5.1、根据段落A5所述的方法,其中,所述全局预处理步骤包括以下步骤:通过至少确定在一时间窗期间的特征数据的统计来提取特征。
A5.1.1、根据段落A5.1所述的方法,其中,所述统计包括,可选为,以下各项中的至少一个:最小值、最大值、平均值、方差、偏差、累积值、变化率、以及平均变化率。
A5.1.2、根据段落A5.1-A5.1.1中的任一段落所述的方法,其中,所述统计包括,可选为以下各项中的至少一个:特征数据大于、小于或者约等于域值的数据点的总数、顺序数据点的最大数、顺序数据点的最小数、顺序数据点的平均数、聚合时间、最大时间、最小时间以及平均时间。
A6、根据段落A1-A5.1.2中的任一段落所述的方法,其中,至少一个,可选为每一个机器学习模型包括以下各项中的至少一个:朴素贝叶斯分类器、树增强朴素贝叶斯分类器、动态贝叶斯网络、支持矢量机、学习决策树、全体学习决策树以及人工神经网络。
A7、根据段落A1-A6中的任一段落所述的方法,其中,至少一个,可选为每一个机器学习模型是组合全体微过程的结果的宏过程,其中,每一个微过程包括机器学习算法和一个或更多个关联参数值。
A7.1、根据段落A7所述的方法,其中,至少一个,可选为每一个宏过程包括以下中的至少一个:朴素贝叶斯分类器、树增强朴素贝叶斯分类器、动态贝叶斯网络、支持矢量机、学习决策树、全体学习决策树,以及人工神经网络。
A7.2、根据段落A7-A7.1中的任一段落所述的方法,其中,所述宏过程被配置成,通过以下各项中的至少一个来组合所述全体微过程的结果:累积值、最大值、最小值、中值、平均值、众数值、最常见值以及多数票。
A8、根据段落A1-A7.2中的任一段落所述的方法,其中,所述机器学习算法从机器学习算法的可扩展库中选择。
A9、根据段落A1-A8中的任一段落所述的方法,其中,所述训练和评估步骤包括以下步骤:可选地独立针对每一个机器学习模型,将所述输入数据集划分成训练数据集和评估数据集,并且可选地,其中,所述训练数据集和所述评估数据集是所述输入数据集的互补子集,
A9.1、根据段落A9所述的方法,其中,所述训练和评估步骤包括以下步骤:在所述划分步骤之前预处理所述输入数据集,并且可选地,其中,所述预处理所述输入数据集的步骤包括以下中的至少一个:离散化、独立组件分析、主要组件分析、消除缺失数据、特征选择以及特征提取。
A9.2、根据段落A9-A9.1中的任一段落所述的方法,其中,所述训练和评估步骤包括以下步骤:预处理所述训练数据集,并且可选地其中,所述预处理所述训练数据集步骤包括以下各项中的至少一个:离散化、独立组件分析、主要组件分析、消除缺失数据、特征选择以及特征提取。
A9.2.1、根据段落A9.2所述的方法,其中,所述预处理所述训练数据集的步骤包括生成预处理方案的步骤,并且其中,所述训练和评估步骤包括利用所述预处理方案预处理所述评估数据集的步骤。
A9.3、根据段落A9-A9.2.1中的任一段落所述的方法,其中,所述训练和评估步骤包括以下步骤:预处理所述评估数据集,并且可选地其中,所述预处理所述评估数据集步骤包括以下各项中的至少一个:离散化、独立组件分析、主要组件分析、消除缺失数据、特征选择以及特征提取。
A10、根据段落A1-A9.3中的任一段落所述的方法,其中,所述训练和评估步骤包括以下步骤:利用作为所述输入数据集的子集的训练数据集来训练每一个机器学习模型,以生成针对每一个机器学习模型的训练模型。
A10.1、根据段落A10所述的方法,其中,所述训练和评估步骤包括以下步骤:利用作为所述输入数据集的子集的评估数据集来评估每一个训练模型,以生成针对每一个机器学习模型的性能结果,并且可选地其中,所述评估数据集和所述训练数据集是所述输入数据集的互补子集。
A11、根据段落A1-A10.1中的任一段落所述的方法,其中,所述训练和评估步骤包括以下步骤:可选地利用k折交叉验证来交叉验证每一个机器学习模型。
A12、根据段落A1-A11中的任一段落所述的方法,其中,所述训练和评估步骤包括以下步骤:针对每一个机器学习模型,可选地独立针对每一个机器学习模型,将所述输入数据集划分成训练数据集和评估数据集,利用所述训练数据集训练所述机器学习模型,以生成训练模型,利用所述评估数据集评估所述机器学习模型,以生成评估结果,以及通过将所述输入数据集划分成不同的训练数据集和不同的评估数据集来重复所述划分、训练以及评估步骤。
A12.1、根据段落A12所述的方法,其中,所述训练和评估步骤包括以下步骤:组合所述评估结果,以生成所述性能结果,并且可选地其中,所述组合步骤包括平均化所述评估结果和累积所述评估结果中的至少一个步骤。
A13、根据段落A1-A12.1中的任一段落所述的方法,其中,所述训练和评估步骤包括利用监督学习的步骤。
A14、根据段落A1-A13中的任一段落所述的方法,当还取决于段落A7(涉及宏过程)时,其中,针对每一个宏过程,所述训练和评估步骤包括以下步骤:通过独立训练每一个微过程以生成全体训练微过程来生成训练宏过程,并且包括评估所述训练宏过程的步骤,并且可选地,其中,所述生成所述训练宏过程的步骤包括以下步骤:利用所述全体训练微过程来训练所述宏过程。
A15、根据段落A1-A14中的任一段落所述的方法,其中,针对至少一个,可选为每一个机器学习模型的性能结果包括与以下各项中的至少一个有关的指示符:相关系数、均方误差、置信区间、若干真阳性、若干真阴性、若干假阳性、若干假阴性、准确度、灵敏度、阳性预测值、特异性、阴性预测值、假阳性率、假发现率、假阴性率以及、假遗漏率。
A16、根据段落A1-A15中的任一段落所述的方法,其中,所述聚合步骤包括以下步骤:累积针对每一个所述机器学习模型的性能结果。
A17、根据段落A1-A16中的任一段落所述的方法,其中,所述性能比较统计针对每一个机器学习模型包括与如下各项中的至少一个有关的指示符:相关系数、均方误差、置信区间、准确度、若干真阳性、若干真阴性、若干假阳性、若干假阴性、灵敏度、阳性预测值、特异性、阴性预测值、假阳性率、假发现率、假阴性率以及、假遗漏率。
A18、根据段落A1-A17中的任一段落所述的方法,其中,所述呈现步骤包括以下步骤:按统一格式呈现针对全部机器学习模型的性能结果,以便于比较机器学习模型。
A19、根据段落A1-A18中的任一段落所述的方法,其中,所述呈现步骤包括以下步骤:通过可视、音频、和/或触觉显示中的至少一个来显示所述性能比较统计。
A20、一种机器学习系统,该机器学习系统包括:
计算机可读存储单元;以及
处理单元,该处理单元可操作地联接至所述计算机可读存储单元;
其中,所述计算机可读存储单元包括指令,该指令在通过所述处理单元执行时,使所述机器学习系统执行根据段落A1-A19中的任一段落所述的方法。
B1、一种机器学习系统,该机器学习系统用于针对特定数据分析问题对候选机器学习算法进行比较,该机器学习系统包括:
机器学习算法库,该机器学习算法库包括被配置成利用公用接口来测试的多个机器学习算法;
数据输入模块,该数据输入模块被配置成接收输入数据集和选择的机器学习模型,其中,每一个机器学习模型包括来自所述机器学习算法库的机器学习算法和一个或更多个关联参数值;
试验模块,该试验模块被配置成,训练和评估每一个机器学习模型,以生成针对每一个机器学习模型的性能结果;以及
聚合模块,该聚合模块被配置成,聚合针对全部所述机器学习模型的所述性能结果,以形成性能比较统计。
B2、根据段落B1所述的机器学习系统,其中,所述多个机器学习算法包括从由以下构成的组中选择的至少一个算法:朴素贝叶斯分类器、树增强朴素贝叶斯分类器、动态贝叶斯网络、支持矢量机、学习决策树、全体学习决策树、以及人工神经网络。
B3、根据段落B1-B2中的任一段落所述的机器学习系统,其中,所述公用接口限定以下各项中的至少一个:公用输入、公用输出、用户输入数据的公用方法、用于输出数据的公用方法、以及针对所述机器学习算法库中的每一个机器学习算法的公用过程调用。
B4、根据段落B1-B3中的任一段落所述的机器学习系统,其中,所述机器学习算法库中的每一个所述机器学习算法被配置成利用公用格式来操作数据集。
B5、根据段落B1-B4中的任一段落所述的机器学习系统,其中,所述机器学习算法库是机器学习算法的可扩展库。
B6、根据段落B1-B5中的任一段落所述的机器学习系统,其中,所述输入数据集是以下各项中的至少一个:时间相关数据集、时间系列数据集、时间标记数据集、序列数据集、以及时间数据集。
B7、根据段落B1-B6中的任一段落所述的机器学习系统,其中,所述输入数据集包括按连续时段测量的可观察量的一系列值。
B8、根据段落B1-B7中的任一段落所述的机器学习系统,其中,所述输入数据集是标注数据集。
B9、根据段落B1-B8中的任一段落所述的机器学习系统,所述机器学习系统还包括数据预处理器,该数据预处理器被配置成制备所述输入数据集以供所述试验模块处理,其中,所述数据预处理器被配置成执行以下各项中的至少一个操作:离散化所述输入数据集、向所述输入数据集应用独立组件分析、向所述输入数据集应用主要组件分析、从所述输入数据集消除缺失数据、从所述输入数据集选择特征、以及从所述输入数据集提取特征。
B9.1、根据段落B9所述的机器学习系统,其中,所述数据预处理器被配置成,通过至少确定在一时间窗期间的特征数据的统计来提取特征。
B9.1.1、根据段落B9.1所述的机器学习系统,其中,所述统计包括,可选为以下各项中的至少一个:最小值、最大值、平均值、方差、偏差、累积值、变化率、以及平均变化率。
B9.1.2、根据段落B9.1-B9.1.1中的任一段落所述的机器学习系统,其中,所述统计包括,可选为以下各项中的至少一个:特征数据大于、小于或者约等于域值的数据点的总数、顺序数据点的最大数、顺序数据点的最小数、顺序数据点的平均数、聚合时间、最大时间、最小时间、以及平均时间。
B10、根据段落B1-B9.1.2中的任一段落所述的机器学习系统,所述机器学习系统还包括预处理算法库,该预处理算法库包括多个预处理算法,并且可选地其中,所述多个预处理算法符合公用预处理接口。
B10.1、根据段落B1-B10中的任一段落所述的机器学习系统,其中,所述公用预处理接口限定以下各项中的至少一个:公用输入、公用输出、用户输入数据的公用方法、用于输出数据的公用方法,以及针对所述机器学习算法库中的每一个预处理算法的公用过程调用。
B10.2、根据段落B1-B10.1中的任一段落所述的机器学习系统,其中,所述预处理算法库中的每一个所述预处理算法被配置成利用公用格式来操作数据集。
B10.3、根据段落B1-B10.2中的任一段落所述的机器学习系统,当还取决于段落B9(涉及数据预处理器)时,其中,所述数据预处理器被配置成从所述预处理算法库中选择预处理算法。
B11、根据段落B1-B10.3中的任一段落所述的机器学习系统,其中,至少一个,可选为每一个机器学习模型包括以下各项中的至少一个:朴素贝叶斯分类器、树增强朴素贝叶斯分类器、动态贝叶斯网络、支持矢量机、学习决策树、全体学习决策树、以及人工神经网络。
B12、根据段落B1-B11中的任一段落所述的机器学习系统,其中,至少一个,可选为每一个机器学习模型是组合全体微过程的结果的宏过程,其中,每一个微过程包括机器学习算法和一个或更多个关联参数值。
B12.1、根据段落B12所述的机器学习系统,其中,至少一个,可选为每一个宏过程包括以下各项中的至少一个:朴素贝叶斯分类器、树增强朴素贝叶斯分类器、动态贝叶斯网络、支持矢量机、学习决策树、全体学习决策树、以及人工神经网络。
B12.2、根据段落B12-B12.1中的任一段落所述的机器学习系统,其中,所述宏过程被配置成,通过以下各项中的至少一个来组合所述全体微过程的结果:累积值、最大值、最小值、中值、平均值、众数值、最常见值、以及多数票。
B13、根据段落B1-B12.2中的任一段落所述的机器学习系统,其中,所述试验模块被配置成,可选地独立针对每一个机器学习模型,将所述输入数据集划分成训练数据集和评估数据集,并且可选地其中,所述训练数据集和所述评估数据集是所述输入数据集的互补子集,
B13.1、根据段落B13所述的机器学习系统,其中,所述试验模块被配置成,在划分所述输入数据集之前预处理所述输入数据集,并且可选地其中,所述预处理所述输入数据集的步骤包括以下各项中的至少一个:离散化、独立组件分析、主要组件分析、消除缺失数据、特征选择、以及特征提取。
B13.2、根据段落B13-B13.1中的任一段落所述的机器学习系统,其中,所述试验模块被配置成,可选地通过以下各项中的至少一个来预处理所述训练数据集:离散化、独立组件分析、主要组件分析、消除缺失数据、特征选择、以及特征提取。
B13.2.1、根据段落B13.2所述的机器学习系统,其中,所述试验模块被配置成,预处理所述训练数据集,以获得预处理方案,并且其中,所述试验模块被配置成,利用所述预处理方案来预处理所述评估数据集。
B13.3、根据段落B13-B13.2.1中的任一段落所述的机器学习系统,其中,所述试验模块被配置成,可选地通过以下各项中的至少一个来预处理所述评估数据集:离散化、独立组件分析、主要组件分析、消除缺失数据、特征选择、以及特征提取。
B14、根据段落B1-B13.3中的任一段落所述的机器学习系统,其中,所述试验模块被配置成,利用作为所述输入数据集的子集的训练数据集来训练每一个机器学习模型,以生成针对每一个机器学习模型的训练模型,
B14.1、根据段落B14所述的机器学习系统,其中,所述试验模块被配置成,利用作为所述输入数据集的子集的评估数据集来评估每一个训练模型,以生成针对每一个机器学习模型的性能结果,并且可选地,其中,所述评估数据集和所述训练数据集是所述输入数据集的互补子集。
B15、根据段落B1-B14.1中的任一段落所述的机器学习系统,其中,所述试验模块被配置成,可选地利用k折交叉验证来交叉验证每一个机器学习模型。
B16、根据段落B1-B15中的任一段落所述的机器学习系统,其中,所述试验模块被配置成,针对每一个机器学习模型,可选地独立针对每一个机器学习模型,将所述输入数据集划分成训练数据集和评估数据集,利用所述训练数据集来训练所述机器学习模型,以生成训练模型,以及利用所述评估数据集来评估所述机器学习模型,以生成性能结果。
B17、根据段落B1-B15中的任一段落所述的机器学习系统,其中,所述试验模块被配置成,针对每一个机器学习模型,可选地独立针对每一个机器学习模型,针对不同划分的所述输入数据集,重复以下步骤:
将所述输入数据集划分成训练数据集和评估数据集,利用所述训练数据集来训练所述机器学习模型,以生成训练模型,利用所述评估数据集来评估所述机器学习模型,以生成评估结果,以及可选地根据平均化所述评估结果的步骤和累积所述评估结果的步骤中的至少一个步骤,来组合由所述不同划分的所述输入数据集而生成的所述评估结果,以生成所述性能结果。
B18、根据段落B1-B17中的任一段落所述的机器学习系统,其中,所述试验模块被配置成执行监督学习。
B19、根据段落B1-B18中的任一段落所述的机器学习系统,当还取决于段落B12(涉及宏过程)时,其中,针对每一个宏过程,所述试验模块被配置成,通过独立地训练每一个微过程以生成全体训练微过程来生成训练宏过程,并且被配置成评估所述训练宏过程,并且可选地,其中,所述试验模块被配置成,通过利用所述全体训练微过程训练所述宏过程,来生成所述训练宏过程。
B20、根据段落B1-B19中的任一段落所述的机器学习系统,其中,针对至少一个,可选为每一个机器学习模型的性能结果包括与以下各项中的至少一个有关的指示符:相关系数、均方误差、置信区间、若干真阳性、若干真阴性、若干假阳性、若干假阴性、准确度、灵敏度、阳性预测值、特异性、阴性预测值、假阳性率、假发现率、假阴性率、以及假遗漏率。
B21、根据段落B1-B20中的任一段落所述的机器学习系统,其中,所述聚合模块被配置成,累积针对每一个机器学习模型的性能结果。
B22、根据段落B1-B21中的任一段落所述的机器学习系统,其中,所述性能比较统计针对每一个机器学习模型包括与以下各项中的至少一个有关的指示符:相关系数、均方误差、置信区间、准确度、若干真阳性、若干真阴性、若干假阳性、若干假阴性、灵敏度、阳性预测值、特异性、阴性预测值、假阳性率、假发现率、假阴性率,以及假遗漏率。
B23、根据段落B1-B22中的任一段落所述的机器学习系统,所述机器学习系统还包括呈现模块,该呈现模块被配置成呈现所述性能比较统计。
B23.1、根据段落B23所述的机器学习系统,其中,所述呈现模块被配置成,按统一格式呈现针对全部机器学习模型的性能结果,以便于比较机器学习模型。
B23.2、根据段落B23-B23.1中的任一段落所述的机器学习系统,其中,所述呈现模块被配置成,通过可视、音频和/或触觉显示中的至少一个来显示所述性能比较统计。
B24、根据段落B1-B23.2中的任一段落所述的机器学习系统,所述机器学习系统还包括:
计算机可读存储单元;以及
处理单元,该处理单元可操作地联接至所述计算机可读存储单元;
其中,所述计算机可读存储单元包括:所述机器学习算法库、输送数据输入模块、所述试验模块以及所述聚合模块。
如在此使用的,用户可以是人(例如,操作员等)、客户端装置和/或客户端模块、代理程序、程序、处理、和/或过程。由此,该机器学习系统可以包括用户接口部件、脚本解析部件、和/或可以专用于服务器操作。
如在此使用的,术语“适于(adapted)”和“配置(configured)”意指该部件、组件或其它主旨被设计和/或旨在执行指定功能。由此,使用术语“适于”和“配置”不为被视为意指指定部件、组件或其它主旨简单地“能够”执行指定功能,而是该部件、组件和/或其它主旨出于执行该功能的目的而被具体选择、创建、实现、利用、编程和/或设计。还处于本公开的范围内的是,该部件、组件和/或被陈述为适于执行特定功能的其它陈述主旨可以另外或另选地被描述为被配置成执行该功能,反之亦然。类似的是,被陈述为配置成执行特定功能的主旨可以另外或另选地被描述为可操作以执行该功能。而且,如在此使用的,单数形式“一”、以及“该/所述”同样可以包括多数形式,除非上下文另外进行了明确指示。
对于根据本公开的所有系统、装置以及方法来说,在此所公开的系统和装置的各种公开部件和在此所公开方法的步骤不是必需的,并且本公开包括在此公开的各种部件和步骤的所有新颖的和不明显的组合和子组合。而且,在此公开的各种部件和步骤中的任一者,或者所述各种部件和/或步骤的任何组合都可以限定与整个所公开的系统、装置或者方法分离和分开的独立发明主旨。因此,这种发明主旨不需要与在此明确公开的具体系统、装置以及方法相关联,而且这种发明主旨可以在于此未明确公开的系统和/或方法中找到用途。
当参照根据本公开的一个或更多个组件、特征、细节、结构、实施方式和/或方法一起使用时,如在此使用的,短语“例如”、短语“作为示例(“as an example)”,和/或简单地讲,术语“示例(example)”旨在覆盖所述组件、特征、细节、结构、实施方式和/或方法是根据本公开的组件、细节、结构、实施方式和/或方法的例示性的非排它例。由此,所述组件、特征、细节、结构、实施方式和/或方法不是旨在进行限制、要求或者排它/穷举;而且其它组件、特征、细节、结构、实施方式和/或方法(包括结构上和/或功能上相似和/或等同的组件、特征、细节、结构、实施方式,和/或方法)也处于本公开的范围内。
如在此使用的,关于一系列一个以上实体的短语“…中的至少一个”和“…中的一个或更多个”意指该系列实体中的任一个或更多个实体,而非限制成在该系列实体内具体列出的每个实体中的至少一个。例如,“A和B中的至少一个”(或者,等同地,“A或B中的至少一个”,或者等同地,“A和/或B中的至少一个”)可以指单独A、单独B或者A和B和组合。
而且,本公开包括根据下列条款的实施方式:
条款1、一种机器学习系统,该机器学习系统用于针对特定数据分析问题对候选机器学习算法进行比较,该机器学习系统包括:
机器学习算法库,该机器学习算法库包括被配置成利用公用接口来测试的多个机器学习算法;
数据输入模块,该数据输入模块被配置成接收对机器学习模型的选择和数据集,其中,每一个机器学习模型包括来自所述机器学习算法库的机器学习算法和一个或更多个关联参数值;
试验模块,该试验模块被配置成,训练和评估每一个机器学习模型,以生成针对每一个机器学习模型的性能结果;以及
聚合模块,该聚合模块被配置成,聚合针对全部所述机器学习模型的所述性能结果,以形成性能比较统计。
条款2、根据条款1所述的机器学习系统,其中,所述公用接口限定以下各项中的至少一个:公用输入、公用输出、用于输入数据的公用方法、用于输出数据的公用方法、以及针对所述机器学习算法库中的每一个机器学习算法的公用过程调用。
条款3、根据条款1或2所述的机器学习系统,所述机器学习系统还包括数据预处理器,该数据预处理器被配置成制备所述数据集,以供所述试验模块处理,其中,所述数据预处理器被配置成执行以下各项中的至少一个操作:离散化所述数据集、向所述数据集应用独立组件分析、向所述数据集应用主要组件分析、从所述数据集消除缺失数据、从所述数据集选择特征、以及从所述数据集提取特征。
条款4、根据条款3所述的机器学习系统,其中,所述数据预处理器被配置成通过至少确定在一时间窗期间的特征数据的统计来提取特征,其中,所述统计包括以下各项中的至少一个:最小值、最大值、平均值、方差、偏差、累积值、变化率、以及平均变化率。
条款5、根据条款1、2、3或4所述的机器学习系统,所述机器学习系统还包括预处理算法库,该预处理算法库包括多个预处理算法,并且其中,所述多个预处理算法符合公用预处理接口。
条款6、根据条款1、2、3、4或5所述的机器学习系统,其中,至少一个机器学习模型是组合全体微过程的结果的宏过程,其中,每一个微过程都包括机器学习算法和一个或更多个关联参数值,其中,所述宏过程被配置成,通过以下各项中的至少一个来组合所述全体微过程的结果:累积值、最大值、最小值、中值、平均值、众数值、最常见值,以及多数票。
条款7、根据条款6所述的机器学习系统,其中,针对每一个宏过程,所述试验模块被配置成,通过独立地训练每一个微过程以生成全体训练微过程来生成训练宏过程,并且所述试验模块被配置成评估所述训练宏过程。
条款8、根据条款1、2、3、4、5、6或7所述的机器学习系统,其中,所述试验模块被配置成,将所述数据集划分成训练数据集和评估数据集,并且其中,所述训练数据集和所述评估数据集是所述数据集的互补子集。
条款9、根据条款8所述的机器学习系统,其中,所述试验模块被配置成,预处理所述训练数据集以获得预处理方案,并且其中,所述试验模块被配置成,利用所述预处理方案来预处理所述评估数据集。
条款10、根据条款1、2、3、4、5、6、7、8或9所述的机器学习系统,其中,所述试验模块被配置成,利用作为所述数据集的子集的训练数据集来训练每一个机器学习模型,以生成针对每一个机器学习模型的训练模型,并且其中,所述试验模块被配置成,利用作为所述数据集的子集的评估数据集来评估每一个训练模型,以生成针对每一个机器学习模型的性能结果。
条款11、根据条款1、2、3、4、5、6、7、8、9或10所述的机器学习系统,其中,所述试验模块被配置成,利用留一交叉验证或k折交叉验证中的至少一个来交叉验证每一个机器学习模型。
条款12、根据条款1、2、3、4、5、6、7、8、9、10或11所述的机器学习系统,所述机器学习系统还包括呈现模块,该呈现模块被配置成呈现所述性能比较统计,其中,所述呈现模块被配置成,按统一格式呈现针对全部机器学习模型的性能结果,以便于比较机器学习模型。
条款13、一种计算机化方法,该计算机化方法用于测试机器学习算法,该方法包括以下步骤:
接收数据集;
接收对机器学习模型的选择,其中,每一个机器学习模型包括机器学习算法和一个或更多个关联参数值;
训练和评估每一个机器学习模型,以生成针对每一个机器学习模型的性能结果;
聚合针对全部机器学习模型的性能结果,以形成性能比较统计;以及
呈现所述性能比较统计。
条款14、根据条款13所述的方法,其中,所述数据集是时间系列数据集,该时间系列数据集包括按连续时段测量的可观察量的一系列值。
条款15、根据条款13或14所述的方法,所述方法还包括以下步骤:在所述训练和评估步骤之前,全局预处理所述数据集,并且其中,所述全局预处理步骤包括以下各项中的至少一个:离散化、独立组件分析、主要组件分析、消除缺失数据、特征选择、以及特征提取。
条款16、根据条款15所述的方法,其中,所述全局预处理步骤包括以下步骤:通过至少确定在一时间窗期间的特征数据的统计来提取特征,并且其中,所述统计包括以下各项中的至少一个:最小值、最大值、平均值、方差、偏差、累积值、变化率、以及平均变化率。
条款17、根据条款13、14、15或16所述的方法,其中,至少一个机器学习模型是组合全体微过程的结果的宏过程,其中,每一个微过程包括机器学习算法和一个或更多个关联参数值,并且其中,所述宏过程被配置成,通过累积值、最大值、最小值、中值、平均值、众数值、最常见值,以及多数票中的至少一个来组合所述全体微过程的所述结果。
条款18、根据条款13、14、15、16或17所述的方法,其中,所述训练和评估步骤包括以下步骤:将所述数据集划分成训练数据集和评估数据集,并且其中,所述训练数据集和所述评估数据集是所述数据集的互补子集,
其中,所述训练和评估步骤包括以下步骤:预处理所述训练数据集以生成预处理方案,并且
其中,所述训练和评估步骤包括以下步骤:利用所述预处理方案预处理所述评估数据集。
条款19、根据条款13、14、15、16、17或18所述的方法,其中,所述训练和评估步骤包括以下步骤:利用作为所述数据集的子集的训练数据集来训练每一个机器学习模型,以生成针对每一个机器学习模型的训练模型,
其中,所述训练和评估步骤包括以下步骤:利用作为所述数据集的子集的评估数据集来评估每一个训练模型,以生成针对每一个机器学习模型的性能结果,并且
其中,所述评估数据集和所述训练数据集是所述数据集的互补子集。
条款20、根据条款13、14、15、16、17、18或19所述的方法,其中,所述训练和评估步骤包括以下步骤:针对每一个机器学习模型,将所述数据集划分成训练数据集和评估数据集,利用所述训练数据集训练所述机器学习模型,以生成训练模型,利用所述评估数据集评估所述机器学习模型,以生成评估结果,以及通过将所述数据集划分成不同的训练数据集和不同的评估数据集来重复所述划分、训练以及评估步骤,其中,所述训练和评估步骤包括以下步骤:组合所述评估结果,以生成所述性能结果,
在任何专利、专利申请或者其它参考在此通过引用并入并且(1)按与本公开的未并入部分或者任何其它并入参考不一致和/或(2)以其它方式与其不一致的方式限定一术语的情况下,本公开的未并入部分应当控制,并且在此的术语或所并入的公开应当仅参照其中限定该术语和/或所并入的公开最初呈现的引用来控制。

Claims (15)

1.一种机器学习系统(10),该机器学习系统(10)用于针对特定数据分析问题对候选机器学习算法进行比较,所述机器学习系统(10)包括:
机器学习算法库(22),该机器学习算法库(22)包括被配置成利用公用接口来测试的多个机器学习算法;
数据输入模块(20),该数据输入模块(20)被配置成接收数据集和对机器学习模型(32)的选择,其中,每一个机器学习模型(32)包括来自所述机器学习算法库(22)的机器学习算法和一个或更多个关联参数值;
试验模块(30),该试验模块(30)被配置成,训练和评估每一个机器学习模型(32),以生成针对每一个机器学习模型的性能结果;以及
聚合模块(40),该聚合模块被配置成,聚合针对全部所述机器学习模型(32)的所述性能结果,以形成性能比较统计。
2.根据权利要求1所述的机器学习系统(10),其中,所述公用接口限定以下各项中的至少一个:
公用输入、公用输出、用于输入数据的公用方法、用于输出数据的公用方法、以及针对所述机器学习算法库(22)中的每一个机器学习算法的公用过程调用。
3.根据权利要求1或2所述的机器学习系统(10),所述机器学习系统(10)还包括数据预处理器(24),该数据预处理器(24)被配置成制备所述数据集,以由所述试验模块(30)进行处理,
其中,所述数据预处理器(24)被配置成执行以下各项中的至少一个操作:离散化所述数据集、向所述数据集应用独立组件分析、向所述数据集应用主要组件分析、从所述数据集消除缺失数据、从所述数据集选择特征、以及从所述数据集提取特征。
4.根据权利要求1或2所述的机器学习系统(10),所述机器学习系统(10)还包括预处理算法库(26),该预处理算法库(26)包括多个预处理算法,并且其中,所述多个预处理算法符合公用预处理接口。
5.根据权利要求1或2所述的机器学习系统(10),
其中,至少一个机器学习模型(32)是宏过程(36),该宏过程(36)组合全体微过程(38)的结果,
其中,每一个微过程(38)包括机器学习算法和一个或更多个关联参数值,
其中,所述宏过程(36)被配置成通过以下各项中的至少一个来组合所述全体微过程(38)的结果:累积值、最大值、最小值、中值、平均值、众数值、最常见值、以及多数票。
6.根据权利要求1或2所述的机器学习系统(10),
其中,所述试验模块(30)被配置成,将所述数据集划分成训练数据集和评估数据集,并且
其中,所述训练数据集和所述评估数据集是所述数据集的互补子集。
7.根据权利要求1或2所述的机器学习系统(10),
其中,所述试验模块(30)被配置成,利用作为所述数据集的子集的训练数据集来训练每一个机器学习模型(32),以生成针对每一个机器学习模型的训练模型,并且
其中,所述试验模块(30)被配置成,利用作为所述数据集的子集的评估数据集来评估每一个训练模型,以生成针对每一个机器学习模型的性能结果。
8.根据权利要求1或2所述的机器学习系统(10),其中,所述试验模块(30)被配置成,利用留一交叉验证或k折交叉验证中的至少一个来对每一个机器学习模型(32)进行交叉验证。
9.根据权利要求1或2所述的机器学习系统(10),所述机器学习系统(10)还包括呈现模块(44),该呈现模块(44)被配置成呈现所述性能比较统计,
其中,所述呈现模块(44)被配置成,按统一格式呈现针对全部所述机器学习模型(32)的所述性能结果,以便于对所述机器学习模型(32)进行比较。
10.一种计算机化方法(100),该计算机化方法(100)用于测试机器学习算法,所述方法包括以下步骤:
接收(102)数据集;
接收(104)对机器学习模型(32)的选择,其中,每一个机器学习模型(32)包括机器学习算法和一个或更多个关联参数值;
训练和评估(106)每一个机器学习模型(32),以生成针对每一个机器学习模型(32)的性能结果;
聚合(108)针对全部所述机器学习模型(32)的所述性能结果,以形成性能比较统计;以及
呈现(110)所述性能比较统计。
11.根据权利要求10所述的方法(100),其中,所述数据集是时间系列数据集,该时间系列数据集包括按连续时段测量的可观察量的一系列值。
12.根据权利要求10或11所述的方法(100),所述方法(100)还包括以下步骤:
在所述训练和评估(106)步骤之前,全局预处理(112)所述数据集,并且
其中,该全局预处理(112)步骤包括以下各项中的至少一个:离散化、独立组件分析、主要组件分析、消除缺失数据、特征选择、以及特征提取。
13.根据权利要求10或11所述的方法(100),
其中,至少一个机器学习模型(32)是宏过程(36),该宏过程(36)组合全体微过程(38)的结果,
其中,每一个微过程(38)包括机器学习算法和一个或更多个关联参数值,并且
其中,所述宏过程(36)被配置成通过如下各项中的至少一个来组合所述全体微过程(38)的结果:累积值、最大值、最小值、中值、平均值、众数值、最常见值、以及多数票。
14.根据权利要求10或11所述的方法(100),
其中,所述训练和评估(106)步骤包括以下步骤:将所述数据集划分(120)成训练数据集和评估数据集,并且其中,所述训练数据集和所述评估数据集是所述数据集的互补子集,
其中,所述训练和评估(106)步骤包括以下步骤:预处理(132)所述训练数据集以生成预处理方案,并且
其中,所述训练和评估(106)步骤包括以下步骤:利用所述预处理方案来预处理(134)所述评估数据集。
15.根据权利要求10或11所述的方法(100),
其中,所述训练和评估(106)步骤包括以下步骤:利用作为所述数据集的子集的训练数据集来训练(122)每一个机器学习模型(32),以生成针对每一个机器学习模型(32)的训练模型,
其中,所述训练和评估(106)步骤包括以下步骤:利用作为所述数据集的子集的评估数据集来评估(124)每一个训练模型,以生成针对每一个机器学习模型(32)的性能结果,并且
其中,所述评估数据集和所述训练数据集是所述数据集的互补子集。
CN201610391238.0A 2015-06-04 2016-06-03 用于机器学习的高级分析基础构架 Pending CN106250986A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/730,655 US20160358099A1 (en) 2015-06-04 2015-06-04 Advanced analytical infrastructure for machine learning
US14/730,655 2015-06-04

Publications (1)

Publication Number Publication Date
CN106250986A true CN106250986A (zh) 2016-12-21

Family

ID=56097016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610391238.0A Pending CN106250986A (zh) 2015-06-04 2016-06-03 用于机器学习的高级分析基础构架

Country Status (5)

Country Link
US (1) US20160358099A1 (zh)
EP (1) EP3101599A3 (zh)
JP (1) JP2017004509A (zh)
KR (1) KR20160143512A (zh)
CN (1) CN106250986A (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766940A (zh) * 2017-11-20 2018-03-06 北京百度网讯科技有限公司 用于生成模型的方法和装置
CN108009643A (zh) * 2017-12-15 2018-05-08 清华大学 一种机器学习算法自动选择方法和系统
CN108280289A (zh) * 2018-01-22 2018-07-13 辽宁工程技术大学 基于局部加权c4.5算法的冲击地压危险等级预测方法
CN108537340A (zh) * 2017-03-02 2018-09-14 北京君正集成电路股份有限公司 模型数据的读取方法和装置
CN109063846A (zh) * 2018-07-31 2018-12-21 北京城市网邻信息技术有限公司 机器学习的运行方法、装置、设备及存储介质
CN109408583A (zh) * 2018-09-25 2019-03-01 平安科技(深圳)有限公司 数据处理方法及装置、计算机可读存储介质、电子设备
CN109583590A (zh) * 2018-11-29 2019-04-05 深圳和而泰数据资源与云技术有限公司 数据处理方法及数据处理装置
CN110008121A (zh) * 2019-03-19 2019-07-12 合肥中科类脑智能技术有限公司 一种个性化测试系统及其测试方法
CN110059743A (zh) * 2019-04-15 2019-07-26 北京致远慧图科技有限公司 确定预测的可靠性度量的方法、设备和存储介质
CN110168570A (zh) * 2016-12-29 2019-08-23 谷歌有限责任公司 用于多个传感器的机器学习虚拟传感器模型
CN110210624A (zh) * 2018-07-05 2019-09-06 第四范式(北京)技术有限公司 执行机器学习过程的方法、装置、设备以及存储介质
CN110298447A (zh) * 2018-03-23 2019-10-01 西门子医疗保健有限责任公司 用于处理机器学习方法的参数的方法以及重建方法
CN110471857A (zh) * 2019-08-22 2019-11-19 中国工商银行股份有限公司 人工智能模型性能容量的自动测试方法及装置
CN110520874A (zh) * 2017-03-31 2019-11-29 H2O人工智能公司 基于时间的全体机器学习模型
CN110728047A (zh) * 2019-10-08 2020-01-24 中国工程物理研究院化工材料研究所 一种基于机器学习性能预测含能分子计算机辅助设计系统
CN110895718A (zh) * 2018-09-07 2020-03-20 第四范式(北京)技术有限公司 用于训练机器学习模型的方法及系统
CN111095232A (zh) * 2017-07-18 2020-05-01 生命分析有限公司 发掘用于机器学习技术中的基因组
CN111105038A (zh) * 2018-10-25 2020-05-05 波音公司 交互式机器学习模型开发
CN111149117A (zh) * 2017-09-28 2020-05-12 甲骨文国际公司 机器学习和深度学习模型的基于梯度的自动调整
CN111177802A (zh) * 2018-11-09 2020-05-19 安碁资讯股份有限公司 行为标记模型训练系统及方法
CN111264033A (zh) * 2017-05-03 2020-06-09 弗吉尼亚科技知识产权有限公司 使用无线电信号变换器学习无线电信号
CN111328401A (zh) * 2017-11-08 2020-06-23 西门子股份公司 用于在计算单元中进行机器学习的方法和设备
WO2021051917A1 (zh) * 2019-09-16 2021-03-25 华为技术有限公司 人工智能ai模型的评估方法、系统及设备
CN112771554A (zh) * 2018-09-26 2021-05-07 谷歌有限责任公司 编程中的预测变量
CN112801287A (zh) * 2021-01-26 2021-05-14 商汤集团有限公司 神经网络性能评估方法及装置、电子设备及存储介质
CN112966438A (zh) * 2021-03-05 2021-06-15 北京金山云网络技术有限公司 机器学习算法选择方法、分布式计算系统
CN113610747A (zh) * 2020-05-04 2021-11-05 应用材料以色列公司 自动地选择算法模块来检验样本
US11386352B2 (en) 2018-10-29 2022-07-12 Acer Cyber Security Incorporated System and method of training behavior labeling model
WO2022228335A1 (en) * 2021-04-26 2022-11-03 International Business Machines Corporation Input-encoding with federated learning
US11914678B2 (en) 2020-09-23 2024-02-27 International Business Machines Corporation Input encoding for classifier generalization

Families Citing this family (206)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9773041B2 (en) 2013-03-06 2017-09-26 Oracle International Corporation Methods and apparatus of shared expression evaluation across RDBMS and storage layer
US10356461B2 (en) 2013-03-15 2019-07-16 adRise, Inc. Adaptive multi-device content generation based on associated internet protocol addressing
US10594763B2 (en) 2013-03-15 2020-03-17 adRise, Inc. Platform-independent content generation for thin client applications
US10887421B2 (en) 2013-03-15 2021-01-05 Tubi, Inc. Relevant secondary-device content generation based on associated internet protocol addressing
US9766818B2 (en) * 2014-12-31 2017-09-19 Samsung Electronics Co., Ltd. Electronic system with learning mechanism and method of operation thereof
US10891383B2 (en) 2015-02-11 2021-01-12 British Telecommunications Public Limited Company Validating computer resource usage
WO2017021153A1 (en) 2015-07-31 2017-02-09 British Telecommunications Public Limited Company Expendable access control
EP3329409A1 (en) 2015-07-31 2018-06-06 British Telecommunications public limited company Access control
US10853750B2 (en) 2015-07-31 2020-12-01 British Telecommunications Public Limited Company Controlled resource provisioning in distributed computing environments
US10176435B1 (en) * 2015-08-01 2019-01-08 Shyam Sundar Sarkar Method and apparatus for combining techniques of calculus, statistics and data normalization in machine learning for analyzing large volumes of data
US9699205B2 (en) * 2015-08-31 2017-07-04 Splunk Inc. Network security system
JP6558188B2 (ja) * 2015-09-30 2019-08-14 富士通株式会社 分散処理システム、学習モデル作成方法、データ処理方法、学習モデル作成プログラムおよびデータ処理プログラム
US20170154269A1 (en) * 2015-11-30 2017-06-01 Seematics Systems Ltd System and method for generating and using inference models
US10706361B1 (en) * 2015-12-11 2020-07-07 The Boeing Company Hybrid feature selection for performance prediction of fluid control valves
US10015185B1 (en) * 2016-03-24 2018-07-03 EMC IP Holding Company LLC Risk score aggregation for automated detection of access anomalies in a computer network
US10558933B2 (en) * 2016-03-30 2020-02-11 International Business Machines Corporation Merging feature subsets using graphical representation
EP3437007B1 (en) 2016-03-30 2021-04-28 British Telecommunications public limited company Cryptocurrencies malware based detection
EP3437290B1 (en) 2016-03-30 2020-08-26 British Telecommunications public limited company Detecting computer security threats
US11023248B2 (en) 2016-03-30 2021-06-01 British Telecommunications Public Limited Company Assured application services
US11153091B2 (en) 2016-03-30 2021-10-19 British Telecommunications Public Limited Company Untrusted code distribution
WO2017167545A1 (en) 2016-03-30 2017-10-05 British Telecommunications Public Limited Company Network traffic threat identification
GB201608101D0 (en) * 2016-05-09 2016-06-22 Magic Pony Technology Ltd Multiscale 3D texture synthesis
WO2017217957A1 (en) * 2016-06-13 2017-12-21 Schlumberger Technology Corporation Runtime parameter selection in simulations
US11816539B1 (en) * 2016-06-14 2023-11-14 SurgeonCheck LLC Selection system for machine learning module for determining target metrics for evaluation of health care procedures and providers
US10474789B2 (en) 2016-06-24 2019-11-12 The Boeing Company Prediction methods and systems for structural repair during heavy maintenance of aircraft
US10552002B1 (en) 2016-09-27 2020-02-04 Palantir Technologies Inc. User interface based variable machine modeling
US11064267B2 (en) * 2016-11-14 2021-07-13 Google Llc Systems and methods for providing interactive streaming media
US10769549B2 (en) * 2016-11-21 2020-09-08 Google Llc Management and evaluation of machine-learned models based on locally logged data
US10205735B2 (en) 2017-01-30 2019-02-12 Splunk Inc. Graph-based network security threat detection across time and entities
KR101964867B1 (ko) * 2017-02-08 2019-04-02 조선대학교산학협력단 인공신경망을 이용하여 광역해를 산출하는 방법
KR102701390B1 (ko) 2017-02-21 2024-09-02 삼성전자주식회사 보행 보조 장치의 제어 방법 및 장치
US11777963B2 (en) * 2017-02-24 2023-10-03 LogRhythm Inc. Analytics for processing information system data
US10902357B2 (en) 2017-02-28 2021-01-26 International Business Machines Corporation Dynamic cognitive issue archiving and resolution insight
US10984352B2 (en) 2017-02-28 2021-04-20 International Business Machines Corporation Dynamic cognitive issue archiving and resolution insight
US10585737B2 (en) 2017-02-28 2020-03-10 International Business Machines Corporation Dynamic cognitive issue archiving and resolution insight
JP6707483B2 (ja) * 2017-03-09 2020-06-10 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
JP6781956B2 (ja) * 2017-03-14 2020-11-11 オムロン株式会社 学習結果比較装置、学習結果比較方法、及びそのプログラム
US10740690B2 (en) * 2017-03-24 2020-08-11 Facebook, Inc. Automatically tagging topics in posts during composition thereof
SG11201908824PA (en) 2017-03-28 2019-10-30 Oracle Int Corp Systems and methods for intelligently providing supporting information using machine-learning
EP3382591B1 (en) 2017-03-30 2020-03-25 British Telecommunications public limited company Hierarchical temporal memory for expendable access control
US11586751B2 (en) 2017-03-30 2023-02-21 British Telecommunications Public Limited Company Hierarchical temporal memory for access control
WO2018178034A1 (en) 2017-03-30 2018-10-04 British Telecommunications Public Limited Company Anomaly detection for computer systems
US11151472B2 (en) 2017-03-31 2021-10-19 At&T Intellectual Property I, L.P. Dynamic updating of machine learning models
EP3622449A1 (en) * 2017-05-08 2020-03-18 British Telecommunications Public Limited Company Autonomous logic modules
US11823017B2 (en) 2017-05-08 2023-11-21 British Telecommunications Public Limited Company Interoperation of machine learning algorithms
US11562293B2 (en) 2017-05-08 2023-01-24 British Telecommunications Public Limited Company Adaptation of machine learning algorithms
EP3622446A1 (en) 2017-05-08 2020-03-18 British Telecommunications Public Limited Company Load balancing of machine learning algorithms
EP3622450A1 (en) * 2017-05-08 2020-03-18 British Telecommunications Public Limited Company Management of interoperating machine leaning algorithms
AU2018269941A1 (en) * 2017-05-14 2019-12-05 Digital Reasoning Systems, Inc. Systems and methods for rapidly building, managing, and sharing machine learning models
JP2021501384A (ja) * 2017-07-06 2021-01-14 リキッド バイオサイエンシズ,インコーポレイテッド 次元削減により計算時間を減少させるための方法
GB201710877D0 (en) 2017-07-06 2017-08-23 Nokia Technologies Oy A method and an apparatus for evaluating generative machine learning model
US10817757B2 (en) * 2017-07-31 2020-10-27 Splunk Inc. Automated data preprocessing for machine learning
US10353803B2 (en) * 2017-08-21 2019-07-16 Facebook, Inc. Dynamic device clustering
KR102008914B1 (ko) * 2017-08-25 2019-10-21 국방과학연구소 하이브리드 머신 캐릭터 기반의 기계학습 시스템 및 그 구현방법
US11120368B2 (en) 2017-09-27 2021-09-14 Oracle International Corporation Scalable and efficient distributed auto-tuning of machine learning and deep learning models
US11544494B2 (en) * 2017-09-28 2023-01-03 Oracle International Corporation Algorithm-specific neural network architectures for automatic machine learning model selection
US10984342B2 (en) * 2017-10-10 2021-04-20 Stitch Fix, Inc. Using artificial intelligence to determine a value for a variable size component
US11656917B2 (en) 2017-10-26 2023-05-23 Nec Corporation Distributed processing management apparatus, distributed processing method, and computer-readable recording medium
EP3688673A1 (en) * 2017-10-27 2020-08-05 Google LLC Neural architecture search
EP3480714A1 (en) * 2017-11-03 2019-05-08 Tata Consultancy Services Limited Signal analysis systems and methods for features extraction and interpretation thereof
US11164078B2 (en) * 2017-11-08 2021-11-02 International Business Machines Corporation Model matching and learning rate selection for fine tuning
US11681912B2 (en) 2017-11-16 2023-06-20 Samsung Electronics Co., Ltd. Neural network training method and device
US10776760B2 (en) 2017-11-17 2020-09-15 The Boeing Company Machine learning based repair forecasting
CN107798390B (zh) 2017-11-22 2023-03-21 创新先进技术有限公司 一种机器学习模型的训练方法、装置以及电子设备
CN107729994B (zh) 2017-11-28 2020-05-26 南京地平线机器人技术有限公司 执行卷积神经网络中的卷积层的运算的方法和装置
KR101966557B1 (ko) * 2017-12-08 2019-04-05 세종대학교산학협력단 빅데이터와 머신러닝을 이용한 수리부속수요 예측 시스템 및 방법
US11410074B2 (en) 2017-12-14 2022-08-09 Here Global B.V. Method, apparatus, and system for providing a location-aware evaluation of a machine learning model
KR101864380B1 (ko) * 2017-12-28 2018-06-04 (주)휴톰 수술영상데이터 학습시스템
US20230196069A1 (en) * 2017-12-29 2023-06-22 Cambricon Technologies Corporation Limited Neural network processing method, computer system and storage medium
US11288576B2 (en) * 2018-01-05 2022-03-29 Illumina, Inc. Predicting quality of sequencing results using deep neural networks
JP6895399B2 (ja) * 2018-02-06 2021-06-30 株式会社日立製作所 機械制御装置
JP6875058B2 (ja) * 2018-02-09 2021-05-19 Kddi株式会社 複数の認識エンジンを用いてコンテキストを推定するプログラム、装置及び方法
US10592145B2 (en) 2018-02-14 2020-03-17 Commvault Systems, Inc. Machine learning-based data object storage
US12099909B2 (en) 2018-03-06 2024-09-24 Tazi AI Systems, Inc. Human understandable online machine learning system
US11475372B2 (en) 2018-03-26 2022-10-18 H2O.Ai Inc. Evolved machine learning models
GB201805302D0 (en) * 2018-03-29 2018-05-16 Benevolentai Tech Limited Ensemble Model Creation And Selection
KR102124315B1 (ko) * 2018-03-30 2020-06-18 조선대학교 산학협력단 유가스 저류층에서 인공신경망을 이용한 복수의시추정 위치 최적화 방법
US10162850B1 (en) 2018-04-10 2018-12-25 Icertis, Inc. Clause discovery for validation of documents
WO2021158702A1 (en) * 2020-02-03 2021-08-12 Strong Force TX Portfolio 2018, LLC Artificial intelligence selection and configuration
US11669914B2 (en) 2018-05-06 2023-06-06 Strong Force TX Portfolio 2018, LLC Adaptive intelligence and shared infrastructure lending transaction enablement platform responsive to crowd sourced information
US11550299B2 (en) 2020-02-03 2023-01-10 Strong Force TX Portfolio 2018, LLC Automated robotic process selection and configuration
US11544782B2 (en) 2018-05-06 2023-01-03 Strong Force TX Portfolio 2018, LLC System and method of a smart contract and distributed ledger platform with blockchain custody service
EP3791347A4 (en) 2018-05-06 2022-05-25 Strong Force TX Portfolio 2018, LLC METHODS AND SYSTEMS FOR IMPROVING MACHINES AND SYSTEMS THAT AUTOMATE THE EXECUTION OF DISTRIBUTED LEADER AND OTHER TRANSACTIONS IN SPOT AND FUTURES MARKETS FOR ENERGY, COMPUTING, STORAGE AND OTHER RESOURCES
US20190370634A1 (en) * 2018-06-01 2019-12-05 International Business Machines Corporation Data platform to protect security of data used by machine learning models supported by blockchain
FR3082963A1 (fr) * 2018-06-22 2019-12-27 Amadeus S.A.S. Systeme et procede d'evaluation et de deploiement de modeles d'apprentissage automatique non supervises ou semi-supervises
US10928309B2 (en) * 2018-06-29 2021-02-23 Viavi Solutions Inc. Cross-validation based calibration of a spectroscopic model
US20200034665A1 (en) * 2018-07-30 2020-01-30 DataRobot, Inc. Determining validity of machine learning algorithms for datasets
US11561938B1 (en) * 2018-07-31 2023-01-24 Cerner Innovation, Inc. Closed-loop intelligence
US11082438B2 (en) 2018-09-05 2021-08-03 Oracle International Corporation Malicious activity detection by cross-trace analysis and deep learning
US11451565B2 (en) 2018-09-05 2022-09-20 Oracle International Corporation Malicious activity detection by cross-trace analysis and deep learning
US11218498B2 (en) 2018-09-05 2022-01-04 Oracle International Corporation Context-aware feature embedding and anomaly detection of sequential log data using deep recurrent neural networks
US20210350283A1 (en) * 2018-09-13 2021-11-11 Shimadzu Corporation Data analyzer
JP6944155B2 (ja) * 2018-09-21 2021-10-06 日本電信電話株式会社 オーケストレータ装置、プログラム、情報処理システム、及び制御方法
JP6944156B2 (ja) * 2018-09-21 2021-10-06 日本電信電話株式会社 オーケストレータ装置、プログラム、情報処理システム、及び制御方法
US11501191B2 (en) 2018-09-21 2022-11-15 International Business Machines Corporation Recommending machine learning models and source codes for input datasets
JP7172356B2 (ja) * 2018-09-25 2022-11-16 日本電気株式会社 AI(artificial intelligence)実行支援装置、方法、及びプログラム
KR102277172B1 (ko) * 2018-10-01 2021-07-14 주식회사 한글과컴퓨터 인공 신경망 선택 장치 및 방법
US11270227B2 (en) * 2018-10-01 2022-03-08 Nxp B.V. Method for managing a machine learning model
CN109359770B (zh) * 2018-10-11 2022-06-24 中国疾病预防控制中心环境与健康相关产品安全所 一种基于机器学习预测中暑发生的模型及方法
US11544630B2 (en) 2018-10-15 2023-01-03 Oracle International Corporation Automatic feature subset selection using feature ranking and scalable automatic search
US11061902B2 (en) 2018-10-18 2021-07-13 Oracle International Corporation Automated configuration parameter tuning for database performance
CN109460825A (zh) * 2018-10-24 2019-03-12 阿里巴巴集团控股有限公司 用于构建机器学习模型的特征选取方法、装置以及设备
US11544493B2 (en) 2018-10-25 2023-01-03 The Boeing Company Machine learning model development with interactive exploratory data analysis
US11263480B2 (en) 2018-10-25 2022-03-01 The Boeing Company Machine learning model development with interactive model evaluation
US11858651B2 (en) 2018-10-25 2024-01-02 The Boeing Company Machine learning model development with interactive feature construction and selection
US11367016B2 (en) * 2018-10-25 2022-06-21 The Boeing Company Machine learning model development with interactive model building
KR102439606B1 (ko) 2018-10-30 2022-09-01 삼성에스디에스 주식회사 전이 학습을 위한 기반 모델 결정 방법 및 그 방법을 지원하는 장치
KR102271449B1 (ko) * 2018-11-17 2021-07-01 한국과학기술정보연구원 인공지능 모델 플랫폼 및 인공지능 모델 플랫폼 운영 방법
JP6799047B2 (ja) * 2018-11-19 2020-12-09 ファナック株式会社 暖機運転評価装置、暖機運転評価方法及び暖機運転評価プログラム
JP7251955B2 (ja) * 2018-11-21 2023-04-04 ファナック株式会社 検出装置及び機械学習方法
KR102009284B1 (ko) * 2018-11-28 2019-08-09 주식회사 피엠아이지 비즈니스 프로세스의 마지막 액티비티의 수행 시점을 예측하기 위해 동적 순환신경망을 학습시키는 비즈니스 프로세스 학습 장치
KR101990326B1 (ko) 2018-11-28 2019-06-18 한국인터넷진흥원 감가율 자동 조정 방식의 강화 학습 방법
US11941513B2 (en) * 2018-12-06 2024-03-26 Electronics And Telecommunications Research Institute Device for ensembling data received from prediction devices and operating method thereof
KR102102418B1 (ko) * 2018-12-10 2020-04-20 주식회사 티포러스 인공지능 솔루션을 테스트하는 장치 및 방법
US10936974B2 (en) 2018-12-24 2021-03-02 Icertis, Inc. Automated training and selection of models for document analysis
KR102142205B1 (ko) * 2019-01-04 2020-08-06 에스케이 주식회사 설명 가능한 인공지능 모델링 및 시뮬레이션 시스템 및 방법
US11151246B2 (en) 2019-01-08 2021-10-19 EMC IP Holding Company LLC Risk score generation with dynamic aggregation of indicators of compromise across multiple categories
KR102037279B1 (ko) * 2019-02-11 2019-11-15 주식회사 딥노이드 딥러닝 시스템 및 그 최적 학습 모델 결정 방법
KR102005952B1 (ko) * 2019-02-13 2019-10-01 이승봉 기계학습 모델링에서 잡음 데이터 제거를 위한 데이터 정제 장치 및 방법
US10726374B1 (en) 2019-02-19 2020-07-28 Icertis, Inc. Risk prediction based on automated analysis of documents
US11809966B2 (en) * 2019-03-07 2023-11-07 International Business Machines Corporation Computer model machine learning based on correlations of training data with performance trends
KR102069084B1 (ko) * 2019-03-28 2020-02-11 (주)위세아이텍 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법
US20220198336A1 (en) * 2019-04-03 2022-06-23 Telefonaktiebolaget Lm Ericsson (Publ) Technique for Facilitating Use of Machine Learning Models
US11922301B2 (en) 2019-04-05 2024-03-05 Samsung Display Co., Ltd. System and method for data augmentation for trace dataset
CN110070117B (zh) 2019-04-08 2023-04-07 腾讯科技(深圳)有限公司 一种数据处理方法及装置
US11615265B2 (en) 2019-04-15 2023-03-28 Oracle International Corporation Automatic feature subset selection based on meta-learning
US11429895B2 (en) * 2019-04-15 2022-08-30 Oracle International Corporation Predicting machine learning or deep learning model training time
US11620568B2 (en) 2019-04-18 2023-04-04 Oracle International Corporation Using hyperparameter predictors to improve accuracy of automatic machine learning model selection
CN109992911B (zh) * 2019-05-06 2023-04-07 福州大学 基于极限学习机和iv特性的光伏组件快速建模方法
US11481671B2 (en) 2019-05-16 2022-10-25 Visa International Service Association System, method, and computer program product for verifying integrity of machine learning models
JP7297532B2 (ja) * 2019-05-28 2023-06-26 オークマ株式会社 機械学習用データ収集システム及びデータ収集方法
US11868854B2 (en) 2019-05-30 2024-01-09 Oracle International Corporation Using metamodeling for fast and accurate hyperparameter optimization of machine learning and deep learning models
JP7393882B2 (ja) 2019-06-18 2023-12-07 キヤノンメディカルシステムズ株式会社 医用情報処理装置及び医用情報処理システム
JP7361505B2 (ja) * 2019-06-18 2023-10-16 キヤノンメディカルシステムズ株式会社 医用情報処理装置及び医用情報処理方法
EP3754550A1 (en) 2019-06-21 2020-12-23 Siemens Healthcare GmbH Method for providing an aggregate algorithm for processing medical data and method for processing medical data
KR102103902B1 (ko) * 2019-07-03 2020-04-23 (주)위세아이텍 컴포넌트 기반의 머신러닝 자동화 예측 장치 및 방법
US20210012239A1 (en) * 2019-07-12 2021-01-14 Microsoft Technology Licensing, Llc Automated generation of machine learning models for network evaluation
KR102290132B1 (ko) * 2019-08-19 2021-08-13 건국대학교 산학협력단 부동산 가격 예측 장치 및 방법
NO20220089A1 (en) 2019-08-23 2022-01-21 Landmark Graphics Corp Probability Distribution Assessment for Classifying Subterranean Formations Using Machine Learning
US20210073041A1 (en) * 2019-09-11 2021-03-11 Baidu Usa Llc Data transmission with obfuscation using an obfuscation unit for a data processing (dp) accelerator
US11562267B2 (en) 2019-09-14 2023-01-24 Oracle International Corporation Chatbot for defining a machine learning (ML) solution
US11663523B2 (en) 2019-09-14 2023-05-30 Oracle International Corporation Machine learning (ML) infrastructure techniques
US12118474B2 (en) 2019-09-14 2024-10-15 Oracle International Corporation Techniques for adaptive pipelining composition for machine learning (ML)
US11475374B2 (en) 2019-09-14 2022-10-18 Oracle International Corporation Techniques for automated self-adjusting corporation-wide feature discovery and integration
US11681931B2 (en) 2019-09-24 2023-06-20 International Business Machines Corporation Methods for automatically configuring performance evaluation schemes for machine learning algorithms
US11593642B2 (en) 2019-09-30 2023-02-28 International Business Machines Corporation Combined data pre-process and architecture search for deep learning models
US11587094B2 (en) * 2019-09-30 2023-02-21 EMC IP Holding Company LLC Customer service ticket evaluation using multiple time-based machine learning models customer
US11710045B2 (en) 2019-10-01 2023-07-25 Samsung Display Co., Ltd. System and method for knowledge distillation
US11526899B2 (en) 2019-10-11 2022-12-13 Kinaxis Inc. Systems and methods for dynamic demand sensing
US11886514B2 (en) 2019-10-11 2024-01-30 Kinaxis Inc. Machine learning segmentation methods and systems
US11537825B2 (en) 2019-10-11 2022-12-27 Kinaxis Inc. Systems and methods for features engineering
CN110880014B (zh) * 2019-10-11 2023-09-05 中国平安财产保险股份有限公司 数据处理方法、装置、计算机设备及存储介质
US10963231B1 (en) * 2019-10-15 2021-03-30 UiPath, Inc. Using artificial intelligence to select and chain models for robotic process automation
US20210117800A1 (en) * 2019-10-22 2021-04-22 Mipsology SAS Multiple locally stored artificial neural network computations
WO2021087129A1 (en) * 2019-10-30 2021-05-06 Alectio, Inc. Automatic reduction of training sets for machine learning programs
US11636386B2 (en) 2019-11-21 2023-04-25 International Business Machines Corporation Determining data representative of bias within a model
US11302096B2 (en) 2019-11-21 2022-04-12 International Business Machines Corporation Determining model-related bias associated with training data
DE102019218127B4 (de) * 2019-11-25 2024-09-26 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum optimalen Bereitstellen von KI-Systemen
KR102409101B1 (ko) * 2019-11-27 2022-06-14 강릉원주대학교산학협력단 결측값 대체 시스템 및 결측값 대체 방법
JP7222344B2 (ja) * 2019-12-06 2023-02-15 横河電機株式会社 判定装置、判定方法、判定プログラム、学習装置、学習方法、および、学習プログラム
US11727284B2 (en) * 2019-12-12 2023-08-15 Business Objects Software Ltd Interpretation of machine learning results using feature analysis
CN111079283B (zh) * 2019-12-13 2023-06-09 四川新网银行股份有限公司 对信息饱和度不均衡数据的处理方法
KR102700495B1 (ko) * 2019-12-24 2024-08-30 한국전력공사 머신러닝을 이용한 밸브 스틱션 진단 장치 및 그 방법
CN111210023B (zh) * 2020-01-13 2023-04-11 哈尔滨工业大学 数据集分类学习算法自动选择系统及方法
CN111190945B (zh) * 2020-01-16 2023-05-23 西安交通大学 一种基于机器学习的高温高速润滑脂设计方法
US11640556B2 (en) 2020-01-28 2023-05-02 Microsoft Technology Licensing, Llc Rapid adjustment evaluation for slow-scoring machine learning models
US11982993B2 (en) 2020-02-03 2024-05-14 Strong Force TX Portfolio 2018, LLC AI solution selection for an automated robotic process
US11394774B2 (en) * 2020-02-10 2022-07-19 Subash Sundaresan System and method of certification for incremental training of machine learning models at edge devices in a peer to peer network
JP2021134408A (ja) * 2020-02-28 2021-09-13 Jfeスチール株式会社 モデル学習方法、合金化度制御方法、合金化溶融亜鉛めっき鋼板の製造方法、モデル学習装置、合金化度制御装置および合金化溶融亜鉛めっき鋼板の製造装置
US11301351B2 (en) * 2020-03-27 2022-04-12 International Business Machines Corporation Machine learning based data monitoring
JP2021177266A (ja) * 2020-04-17 2021-11-11 株式会社鈴康 プログラム、情報処理装置、情報処理方法及び学習モデルの生成方法
WO2021213688A1 (en) * 2020-04-21 2021-10-28 Telefonaktiebolaget Lm Ericsson (Publ) Methods, apparatus and machine-readable media relating to data analytics in a communications network
KR102245480B1 (ko) * 2020-05-26 2021-04-28 주식회사 일루니 레이어 블록을 이용한 딥러닝 모델 생성 방법
EP3916496A1 (en) * 2020-05-29 2021-12-01 ABB Schweiz AG An industrial process model generation system
JP6908250B1 (ja) * 2020-06-08 2021-07-21 株式会社Fronteo 情報処理装置、情報処理方法、及び情報処理プログラム
JP7463560B2 (ja) * 2020-06-25 2024-04-08 ヒタチ ヴァンタラ エルエルシー 自動機械学習:統合され、カスタマイズ可能、及び拡張可能なシステム
EP4172890A4 (en) * 2020-06-30 2024-07-24 Australia And New Zealand Banking Group Ltd METHOD AND SYSTEM FOR GENERATING AN AI MODEL USING SETS OF CONSTRAINED DECISION TREES
US11958632B2 (en) 2020-07-22 2024-04-16 The Boeing Company Predictive maintenance model design system
KR102504939B1 (ko) * 2020-09-01 2023-03-02 국민대학교산학협력단 클라우드 기반 딥러닝 작업의 수행시간 예측 시스템 및 방법
JP7563056B2 (ja) 2020-09-07 2024-10-08 富士通株式会社 データ提示プログラム、データ提示方法および情報処理装置
WO2022054782A1 (ja) 2020-09-10 2022-03-17 ファナック株式会社 状態判定装置及び状態判定方法
WO2022067247A1 (en) * 2020-09-28 2022-03-31 The Trustees Of Columbia University In The City Of New York Systems and methods for electromechanical wave imaging with machine learning for automated activation map generation
US11989657B2 (en) 2020-10-15 2024-05-21 Oracle International Corporation Automated machine learning pipeline for timeseries datasets utilizing point-based algorithms
KR102485303B1 (ko) * 2020-10-15 2023-01-05 한화시스템 주식회사 데이터 레이블링 장치 및 방법
US11699099B2 (en) * 2020-10-28 2023-07-11 Quantico Energy Solutions Llc Confidence volumes for earth modeling using machine learning
KR102254178B1 (ko) * 2020-10-30 2021-05-20 주식회사 애자일소다 인공지능 모델 서비스를 위한 사용자 인터페이스를 이용한 테스트 장치 및 방법
JP7517093B2 (ja) 2020-11-09 2024-07-17 富士通株式会社 データ生成プログラム、データ生成方法および情報処理装置
CN112270403B (zh) * 2020-11-10 2022-03-29 北京百度网讯科技有限公司 构建深度学习的网络模型的方法、装置、设备和存储介质
KR102493655B1 (ko) * 2020-12-01 2023-02-07 가천대학교 산학협력단 인공지능 모델 훈련 데이터셋의 관리방법
KR102245896B1 (ko) * 2020-12-07 2021-04-29 지티원 주식회사 인공 지능 모형 기반의 어노테이션 데이터 검증 방법 및 그 시스템
US11449517B2 (en) 2020-12-22 2022-09-20 Oracle International Corporation Kernel subsampling for an accelerated tree similarity computation
US20220215452A1 (en) * 2021-01-05 2022-07-07 Coupang Corp. Systems and method for generating machine searchable keywords
CN114819442A (zh) * 2021-01-28 2022-07-29 华为云计算技术有限公司 一种运筹优化方法、装置和计算设备
WO2022168245A1 (ja) 2021-02-04 2022-08-11 富士通株式会社 精度算出プログラム、精度算出方法および情報処理装置
JP2024507765A (ja) * 2021-02-12 2024-02-21 ワイズ ラブズ,インコーポレイテッド エッジデバイスに展開されたモデルによる機械学習への自己教師あり共同アプローチ
US20220262455A1 (en) * 2021-02-18 2022-08-18 Recursion Pharmaceuticals, Inc. Determining the goodness of a biological vector space
KR102310589B1 (ko) * 2021-03-19 2021-10-13 주식회사 인피닉 스크립트를 이용한 어노테이션 결과물의 검증 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
US12022138B2 (en) 2021-06-21 2024-06-25 Tubi, Inc. Model serving for advanced frequency management
US11561978B2 (en) 2021-06-29 2023-01-24 Commvault Systems, Inc. Intelligent cache management for mounted snapshots based on a behavior model
WO2023004033A2 (en) * 2021-07-21 2023-01-26 Genialis Inc. System of preprocessors to harmonize disparate 'omics datasets by addressing bias and/or batch effects
CN113792491A (zh) * 2021-09-17 2021-12-14 广东省科学院新材料研究所 晶粒尺寸预测模型的建立方法、装置及预测方法
KR20230061752A (ko) * 2021-10-29 2023-05-09 한국전자기술연구원 정보 인프라 모니터링 데이터 간 연관성 도출 방법
WO2023097022A1 (en) * 2021-11-23 2023-06-01 Strong Force Ee Portfolio 2022, Llc Ai-based energy edge platform, systems, and methods
US11361034B1 (en) 2021-11-30 2022-06-14 Icertis, Inc. Representing documents using document keys
WO2023140841A1 (en) * 2022-01-20 2023-07-27 Visa International Service Association System, method, and computer program product for time-based ensemble learning using supervised and unsupervised machine learning models
KR102631386B1 (ko) 2023-08-16 2024-01-31 메타빌드주식회사 인공지능 모델의 학습 방법, 학습 시스템 및 이를 위한컴퓨터 프로그램

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782976A (zh) * 2010-01-15 2010-07-21 南京邮电大学 一种云计算环境下机器学习自动选择方法
US8370280B1 (en) * 2011-07-14 2013-02-05 Google Inc. Combining predictive models in predictive analytical modeling
WO2014093949A1 (en) * 2012-12-14 2014-06-19 Microsoft Corporation Resource allocation for machine learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782976A (zh) * 2010-01-15 2010-07-21 南京邮电大学 一种云计算环境下机器学习自动选择方法
US8370280B1 (en) * 2011-07-14 2013-02-05 Google Inc. Combining predictive models in predictive analytical modeling
WO2014093949A1 (en) * 2012-12-14 2014-06-19 Microsoft Corporation Resource allocation for machine learning

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
C. MERKWIRTH ET AL: "A Short Introduction to ENTOOL", 《HTTP://WWW.J-WICHARD.DE/ENTOOL/DOCU.PDF》 *
MARK HALL ET AL: "The WEKA Data Mining Software: An Update", 《ACM SIGKDD EXPLORATIONS NEWSLETTER》 *
RICH CARUANA ET AL: "Ensemble Selection from Libraries of Models", 《INTERNATIONAL CONFERENCE ON MACHINE LEARNING 21》 *
董元方: "机器学习中的模型选择问题研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110168570B (zh) * 2016-12-29 2023-08-18 谷歌有限责任公司 用于完善和/或预测传感器输出的设备
CN110168570A (zh) * 2016-12-29 2019-08-23 谷歌有限责任公司 用于多个传感器的机器学习虚拟传感器模型
CN108537340B (zh) * 2017-03-02 2021-04-27 北京君正集成电路股份有限公司 模型数据的读取方法和装置
CN108537340A (zh) * 2017-03-02 2018-09-14 北京君正集成电路股份有限公司 模型数据的读取方法和装置
CN110520874B (zh) * 2017-03-31 2023-11-21 H2O人工智能公司 基于时间的全体机器学习模型
CN110520874A (zh) * 2017-03-31 2019-11-29 H2O人工智能公司 基于时间的全体机器学习模型
US12045733B2 (en) 2017-03-31 2024-07-23 H2O.Ai Inc. Time-based ensemble machine learning model
US12061982B2 (en) 2017-05-03 2024-08-13 Virginia Tech Intellectual Properties, Inc. Learning radio signals using radio signal transformers
US11468317B2 (en) 2017-05-03 2022-10-11 Virginia Tech Intellectual Properties, Inc. Learning radio signals using radio signal transformers
CN111264033A (zh) * 2017-05-03 2020-06-09 弗吉尼亚科技知识产权有限公司 使用无线电信号变换器学习无线电信号
CN111264033B (zh) * 2017-05-03 2021-07-20 弗吉尼亚科技知识产权有限公司 用无线电信号变换器学习无线电信号的方法、系统和装置
CN111095232B (zh) * 2017-07-18 2024-04-16 生命分析有限公司 发掘用于机器学习技术中的基因组
CN111095232A (zh) * 2017-07-18 2020-05-01 生命分析有限公司 发掘用于机器学习技术中的基因组
CN111149117B (zh) * 2017-09-28 2023-09-19 甲骨文国际公司 机器学习和深度学习模型的基于梯度的自动调整
CN111149117A (zh) * 2017-09-28 2020-05-12 甲骨文国际公司 机器学习和深度学习模型的基于梯度的自动调整
CN111328401A (zh) * 2017-11-08 2020-06-23 西门子股份公司 用于在计算单元中进行机器学习的方法和设备
CN111328401B (zh) * 2017-11-08 2023-10-10 西门子股份公司 用于在计算单元中进行机器学习的方法和设备
CN107766940B (zh) * 2017-11-20 2021-07-23 北京百度网讯科技有限公司 用于生成模型的方法和装置
CN107766940A (zh) * 2017-11-20 2018-03-06 北京百度网讯科技有限公司 用于生成模型的方法和装置
CN108009643B (zh) * 2017-12-15 2018-10-30 清华大学 一种机器学习算法自动选择方法和系统
CN108009643A (zh) * 2017-12-15 2018-05-08 清华大学 一种机器学习算法自动选择方法和系统
CN108280289A (zh) * 2018-01-22 2018-07-13 辽宁工程技术大学 基于局部加权c4.5算法的冲击地压危险等级预测方法
CN110298447A (zh) * 2018-03-23 2019-10-01 西门子医疗保健有限责任公司 用于处理机器学习方法的参数的方法以及重建方法
CN110298447B (zh) * 2018-03-23 2024-02-23 西门子医疗保健有限责任公司 用于处理机器学习方法的参数的方法以及重建方法
CN110210624A (zh) * 2018-07-05 2019-09-06 第四范式(北京)技术有限公司 执行机器学习过程的方法、装置、设备以及存储介质
CN109063846B (zh) * 2018-07-31 2022-05-10 北京城市网邻信息技术有限公司 机器学习的运行方法、装置、设备及存储介质
CN109063846A (zh) * 2018-07-31 2018-12-21 北京城市网邻信息技术有限公司 机器学习的运行方法、装置、设备及存储介质
CN110895718A (zh) * 2018-09-07 2020-03-20 第四范式(北京)技术有限公司 用于训练机器学习模型的方法及系统
CN109408583A (zh) * 2018-09-25 2019-03-01 平安科技(深圳)有限公司 数据处理方法及装置、计算机可读存储介质、电子设备
CN109408583B (zh) * 2018-09-25 2023-04-07 平安科技(深圳)有限公司 数据处理方法及装置、计算机可读存储介质、电子设备
CN112771554A (zh) * 2018-09-26 2021-05-07 谷歌有限责任公司 编程中的预测变量
CN111105038A (zh) * 2018-10-25 2020-05-05 波音公司 交互式机器学习模型开发
US11386352B2 (en) 2018-10-29 2022-07-12 Acer Cyber Security Incorporated System and method of training behavior labeling model
CN111177802B (zh) * 2018-11-09 2022-09-13 安碁资讯股份有限公司 行为标记模型训练系统及方法
CN111177802A (zh) * 2018-11-09 2020-05-19 安碁资讯股份有限公司 行为标记模型训练系统及方法
CN109583590B (zh) * 2018-11-29 2020-11-13 深圳和而泰数据资源与云技术有限公司 数据处理方法及数据处理装置
CN109583590A (zh) * 2018-11-29 2019-04-05 深圳和而泰数据资源与云技术有限公司 数据处理方法及数据处理装置
CN110008121A (zh) * 2019-03-19 2019-07-12 合肥中科类脑智能技术有限公司 一种个性化测试系统及其测试方法
CN110008121B (zh) * 2019-03-19 2022-07-12 合肥中科类脑智能技术有限公司 一种个性化测试系统及其测试方法
CN110059743A (zh) * 2019-04-15 2019-07-26 北京致远慧图科技有限公司 确定预测的可靠性度量的方法、设备和存储介质
CN110471857B (zh) * 2019-08-22 2023-07-25 中国工商银行股份有限公司 人工智能模型性能容量的自动测试方法及装置
CN110471857A (zh) * 2019-08-22 2019-11-19 中国工商银行股份有限公司 人工智能模型性能容量的自动测试方法及装置
WO2021051917A1 (zh) * 2019-09-16 2021-03-25 华为技术有限公司 人工智能ai模型的评估方法、系统及设备
CN110728047A (zh) * 2019-10-08 2020-01-24 中国工程物理研究院化工材料研究所 一种基于机器学习性能预测含能分子计算机辅助设计系统
CN113610747A (zh) * 2020-05-04 2021-11-05 应用材料以色列公司 自动地选择算法模块来检验样本
US11914678B2 (en) 2020-09-23 2024-02-27 International Business Machines Corporation Input encoding for classifier generalization
CN112801287A (zh) * 2021-01-26 2021-05-14 商汤集团有限公司 神经网络性能评估方法及装置、电子设备及存储介质
CN112966438A (zh) * 2021-03-05 2021-06-15 北京金山云网络技术有限公司 机器学习算法选择方法、分布式计算系统
WO2022228335A1 (en) * 2021-04-26 2022-11-03 International Business Machines Corporation Input-encoding with federated learning

Also Published As

Publication number Publication date
US20160358099A1 (en) 2016-12-08
EP3101599A3 (en) 2017-03-15
EP3101599A2 (en) 2016-12-07
KR20160143512A (ko) 2016-12-14
JP2017004509A (ja) 2017-01-05

Similar Documents

Publication Publication Date Title
CN106250986A (zh) 用于机器学习的高级分析基础构架
JP7167084B2 (ja) 異常検出システム、異常検出方法、異常検出プログラム及び学習済モデル生成方法
US11631014B2 (en) Computer-based systems configured for detecting, classifying, and visualizing events in large-scale, multivariate and multidimensional datasets and methods of use thereof
JP6817426B2 (ja) マシンラーニング基盤の半導体製造の収率予測システム及び方法
WO2022037068A1 (zh) 一种机床轴承故障诊断方法
US20190034497A1 (en) Data2Data: Deep Learning for Time Series Representation and Retrieval
CN115269357B (zh) 一种基于调用链的微服务异常检测方法
EP3201804A1 (en) Cloud process for rapid data investigation and data integrity analysis
Fan et al. An innovative machine learning based framework for water distribution network leakage detection and localization
Zhang et al. Triplet metric driven multi-head GNN augmented with decoupling adversarial learning for intelligent fault diagnosis of machines under varying working condition
JP2019028929A (ja) プリプロセッサおよび異常予兆診断システム
US11380422B2 (en) Identification and assignment of rotational spectra using artificial neural networks
Lim et al. Identifying recurrent and unknown performance issues
Shcherbakov et al. A hybrid deep learning framework for intelligent predictive maintenance of cyber-physical systems
Yang Monitoring and diagnosing of mean shifts in multivariate manufacturing processes using two-level selective ensemble of learning vector quantization neural networks
CN110175640A (zh) 一种基于机器学习的电液伺服阀故障诊断方法
CN114139589A (zh) 故障诊断方法、装置、设备与计算机可读存储介质
Kim et al. AnoGAN-based anomaly filtering for intelligent edge device in smart factory
CN109698026B (zh) 医学设备的故障处理时的组件识别
Radhamani et al. Diagnosis and Evaluation of ADHD using MLP and SVM Classifiers
Aremu et al. Kullback-leibler divergence constructed health indicator for data-driven predictive maintenance of multi-sensor systems
Liang et al. Deep Bayesian U-Nets for Efficient, Robust and Reliable Post-Disaster Damage Localization
US11741686B2 (en) System and method for processing facility image data
Chen et al. Degradation modeling and classification of mixed populations using segmental continuous hidden Markov models
Sharmila et al. A two-step unsupervised learning approach to diagnose machine fault using big data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161221