CN114287012A

CN114287012A - 自动化人工智能径向可视化

Info

Publication number: CN114287012A
Application number: CN202080060842.XA
Authority: CN
Inventors: T·萨洛尼迪斯; J·D·埃弗斯曼; 王大阔; A·斯维因; G·布兰布尔; 鞠琳; N·马齐泰利; V·苏帕杜利亚
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-08-30
Filing date: 2020-08-25
Publication date: 2022-04-05
Also published as: US20210065048A1; GB202203973D0; WO2021038432A1; GB2602422A; JP2022546057A; US11514361B2; JP7482992B2

Abstract

提供了用于提供自动化机器学习可视化的方法、系统以及计算机程序产品。机器学习任务、变换器以及估计器可以被接收到一个或多个机器学习组成模块中。机器学习组成模块生成一个或多个机器学习模型。机器学习模型流水线是变换器和估计器的序列，机器学习流水线的集合体是机器学习流水线的集合体。可以使用机器学习组成模块来生成机器学习模型流水线、多个机器学习模型流水线的集合体、或它们的组合以及对应的元数据。可以从机器学习模型流水线、多个机器学习模型流水线的集合体、或它们的组合中提取元数据。可以生成机器学习模型流水线、多个机器学习模型流水线的集合体或它们的组合、以及所提取的元数据的交互式可视化图形用户界面。

Description

自动化人工智能径向可视化

技术领域

本发明一般地涉及计算系统，并且更具体地，涉及用于由处理器进行的自动化机器学习可视化的各种实施例。

背景技术

在当今社会，消费者、商业人士、教育工作者等通过各种介质实时、跨越很长距离并且多次没有界限或边界地通信。随着诸如互联网等计算网络的使用的增加，人类当前被来自各种结构化和非结构化源的对他们可用的信息所淹没和覆盖。由于信息技术的最新进展和互联网的日益普及，在机器学习中已经使用了各种各样的计算机系统。机器学习是一种形式的人工智能，其被用于允许计算机基于经验数据来进化行为。

发明内容

提供了用于由处理器提供自动化机器学习可视化的各种实施例。在一个实施例中，仅作为示例，提供了一种用于再次由处理器生成和构造径向(radial)自动化机器学习可视化的方法。机器学习(“ML”)任务、变换器、以及估计器可以被接收到一个或多个机器学习组成模块中。所述一个或多个机器学习组成模块生成一个或多个机器学习模型。可以使用所述一个或多个机器学习组成模块来生成机器学习模型流水线、多个机器学习模型流水线的集合体或它们的组合以及对应的元数据。可以从所述机器学习模型流水线、所述多个机器学习模型流水线的集合体或它们的组合中提取元数据。可以根据元数据排名标准和流水线排名标准来对所提取的元数据和所述机器学习模型流水线、所述多个机器学习模型流水线的集合体或它们的组合进行排名。可以根据所述排名来生成所述机器学习模型流水线、所述多个机器学习模型流水线的集合体或它们的组合以及所提取的元数据的交互式可视化图形用户界面(“GUI”)。

附图说明

为了容易地理解本发明的优点，将通过参考在附图中示出的具体实施例来呈现对以上简要描述的本发明的更具体的描述。应当理解，这些附图仅描述了本发明的典型实施例，因此不应被认为是对其范围的限制，将通过使用附图来描述和解释本发明的附加特征和细节，其中：

图1是描绘根据本发明的实施例的示例性云计算节点的框图；

图2是描绘根据本发明的实施例的示例性云计算环境的附加框图；

图3是描绘根据本发明的实施例的抽象模型层的附加框图；

图4A是描绘根据本发明的各方面的机器学习模型的附加框图；

图4B-4C是描绘根据本发明的各方面的使用机器学习模型在图形用户界面中实现自动化机器学习径向可视化的附加框图；

图5A-5J是描绘根据本发明的各方面的使用机器学习模型的图形用户界面中的自动化机器学习径向可视化的各种视图的附加框图；以及

图6是描绘用于提供自动化机器学习可视化的示例性方法的流程图，同样在该方法中可以实现本发明的各方面。

具体实施方式

机器学习允许诸如计算机系统或专用处理电路之类的自动化处理系统(“机器”)开发关于特定数据集的概括，并使用该概括通过例如对新数据进行分类来解决相关联的问题。一旦机器从输入或训练数据的已知属性中学习到概括(或被用其训练)，机器就可将概括应用于未来数据以预测未知属性。

在一个方面，自动化人工智能(“AI”)/机器学习系统(“AutoAI系统”)可生成多个(例如，数百个)机器学习流水线。AutoAI工具可输出ML模型和ML模型在排行榜中的排名，例如在下拉列表中仅示出ML模型的估计器加上参数。然而，这种有限的信息细节和深度不能实际示出每个机器学习模型结构如何被创建或者这样的机器学习模型流水线如何被创建。当存在大量这样的机器学习模型流水线时，用户不能充分地评估这些结构的组成、构成以及总体架构设计/开发和性能(例如，用户不能以简明的方式跟踪它们的结构和性能)。

因此，本发明的各种实施例提供了图形用户界面(“GUI”)中的自动化机器学习径向可视化。机器学习(“ML”)任务、变换器、以及估计器可以被接收到一个或多个机器学习组成模块中。一个或多个机器学习组成模块生成一个或多个机器学习模型。可以使用一个或多个机器学习组成模块来生成机器学习模型流水线、多个机器学习模型流水线的集合体、或它们的组合以及对应的元数据。可以从机器学习模型流水线、多个机器学习模型流水线的集合体、或它们的组合中提取元数据。可以根据元数据排名标准和流水线排名标准来对所提取的元数据和机器学习模型流水线、多个机器学习模型流水线的集合体或它们的组合进行排名。可以根据这些排名来生成机器学习模型流水线、多个机器学习模型流水线的集合体或它们的组合、以及所提取的元数据的交互式可视化图形用户界面(“GUI”)。

在附加方面，机器学习模型、ML任务、所选的数据变换器、以及所选的数据估计器可以被输入到一个或多个ML组成模块中。可以从一个或多个ML组成模块来生成ML模型流水线、多个ML模型流水线的集合体或它们的组合、以及相应的元数据。元数据可以是从ML模型流水线、多个ML模型流水线的集合体或它们的组合中提取的。可以根据元数据和模型流水线以及元数据排名标准来对ML模型流水线、多个ML模型流水线的集合体或它们的组合以及它们的相关联的元数据组件(例如，数据、估计器、变换器、组成模块)进行排名。可以根据该排名来生成ML模型流水线、多个ML模型流水线的集合体或它们的组合的交互式可视化图形用户界面(“GUI”)。

在附加方面，ML任务、变换器、以及估计器可以被接收(作为输入数据)到一个或多个机器学习组成模块中。一个或多个机器学习组成模块生成一个或多个机器学习模型。机器学习模型流水线是变换器和估计器的序列，机器学习流水线的集合体(例如，作为后面跟随有估计器算法的数据变换器序列的机器学习模型流水线)是机器学习流水线的集合体。可以使用一个或多个机器学习组成模块来生成机器学习模型流水线、多个机器学习模型流水线的集合体、或它们的组合以及对应的元数据。可以从机器学习模型流水线、多个机器学习模型流水线的集合体、或它们的组合中提取元数据。可以生成机器学习模型流水线、多个机器学习模型流水线的集合体、或它们的组合、以及所提取的元数据的交互式可视化图形用户界面(“GUI”)。

在一个方面，本发明提供了机器学习模型的生成和可视化。每个机器学习模型可以被实现为流水线或多个流水线的集合体。在任何训练操作之后，机器学习模型流水线可以接收测试数据并将测试数据传递通过数据变换序列(例如，预处理、数据清理、特征工程、数学变换等)，以及可以使用估计器的估计器操作(例如，逻辑回归、梯度提升树等)来产生对测试数据的预测。

预先理解，尽管本公开包括关于云计算的详细描述，但是本文中记载的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。

云计算是一种服务交付模式，用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源，例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。

特征如下：

按需自助式服务：云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。

广泛的网络接入：计算能力可以通过标准机制在网络上获取，这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、PDA)对云的使用。

资源池：提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者，其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下，消费者不能控制或甚至并不知晓所提供的资源的确切位置，但可以在较高抽象程度上指定位置(例如国家、州或数据中心)，因此具有位置无关性。

迅速弹性：能够迅速、有弹性地(有时是自动地)部署计算能力，以实现快速扩展，并且能迅速释放来快速缩小。在消费者看来，用于部署的可用计算能力往往显得是无限的，并能在任意时候都能获取任意数量的计算能力。

可测量的服务：云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力，自动地控制和优化资源效用。可以监测、控制和报告资源使用情况，为服务提供者和消费者双方提供透明度。

业务模型如下：

软件即服务(SaaS)：向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外，消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。

平台即服务(PaaS)：向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用，这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构，但对其部署的应用具有控制权，对应用托管环境配置可能也具有控制权。

基础架构即服务(IaaS)：向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构，但是对操作系统、存储和其部署的应用具有控制权，对选择的网络组件(例如主机防火墙)可能具有有限的控制权。

部署模型如下：

私有云：云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。

共同体云：云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。

公共云：云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。

混合云：云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成，这些云依然是独特的实体，但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。

云计算环境是面向服务的，特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。

现在参考图1，示出了云计算节点的示例的示意图。云计算节点10仅是合适的云计算节点的一个示例，并且不旨在对本文描述的本发明的实施例的使用范围或功能提出任何限制。无论如何，云计算节点10能够被实现和/或执行上文阐述的任何功能。

在云计算节点10中，存在计算机系统/服务器12，其可与许多其他通用或专用计算系统环境或配置一起操作。适合与计算机系统/服务器12一起使用的公知的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户端、胖客户端、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统、以及包括任何上述系统或设备的分布式云计算环境等。

计算机系统/服务器12可以在计算机系统可执行指令的一般上下文中描述，诸如由计算机系统执行的程序模块。通常，程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机系统/服务器12可以在分布式云计算环境中实践，其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中，程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储介质中。

如图1所示，云计算节点10中的计算机系统/服务器12以通用计算设备的形式示出。计算机系统/服务器12的组件可以包括但不限于一个或多个处理器或处理单元16、系统存储器28以及将包括系统存储器28的各种系统组件耦接到处理器16的总线18。

总线18表示若干类型的总线结构中的任何一种的一个或多个，包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种总线体系结构中的任何一种的处理器或局部总线。作为示例而非限制，这些体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线、以及外围部件互连(PCI)总线。

计算机系统/服务器12通常包括各种计算机系统可读介质。这样的介质可以是计算机系统/服务器12可访问的任何可用介质，并且它包括易失性和非易失性介质、可移动和不可移动介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓冲存储器32。计算机系统/服务器12还可以包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。仅作为示例，存储系统34可被提供用于从不可移动、非易失性磁介质(未示出，并且通常被称为“硬盘驱动器”)读取和向其写入。尽管未示出，但是可以提供用于从可移动、非易失性磁盘(例如，“软盘”)读取和向其写入的磁盘驱动器，以及用于从诸如CD-ROM、DVD-ROM或其它光学介质等可移动、非易失性光盘读取或向其写入的光盘驱动器。在这种情况下，每一者都可以通过一个或多个数据介质接口连接到总线18。如下面将进一步描绘和描述的，系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如，至少一个)程序模块，该程序模块被配置成执行本发明的实施例的功能。

具有一组(至少一个)程序模块42的程序/实用程序40，以及操作系统、一个或多个应用程序、其它程序模块和程序数据，可作为示例而非限制存储在系统存储器28中。操作系统、一个或多个应用程序、其它程序模块和程序数据或它们的某种组合中的每一个可包括联网环境的实现。程序模块42通常执行本文描述的本发明实施例的功能和/或方法。

计算机系统/服务器12还可以与一个或多个外部设备14通信，诸如键盘、指点设备、显示器24等；一个或多个设备，其使得用户能够与计算机系统/服务器12交互；和/或任何使计算机系统/服务器12能够与一个或多个其它计算设备通信的设备(例如网卡、调制解调器等)。这种通信可以经由输入/输出(I/0)接口22发生，然而，计算机系统/服务器12可以经由网络适配器20与一个或多个网络通信，所述网络诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如，互联网)。如图所示，网络适配器20通过总线18与计算机系统/服务器12的其它组件通信，应当理解，尽管未示出，其它硬件和/或软件组件可以与计算机系统/服务器12结合使用，示例包括但不限于：微码、设备驱动程序、冗余处理单元、外部磁盘驱动器阵列、RAID系统、磁带驱动器、以及数据档案存储系统等。

现在参考图2，描绘了说明性云计算环境50。如图所示，云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10，本地计算设备例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N。节点10可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中，诸如如上文描述的私有云、共同体云、公共云、或混合云、或它们的组合。这允许云计算环境50提供基础设施、平台和/或软件作为服务，云消费者不需要为其维护本地计算设备上的资源。应当理解，图2中所示的计算设备54A-N的类型仅旨在说明，并且计算节点10和云计算环境50可以在任何类型的网络和/或网络可寻址连接上(例如，使用web浏览器)与任何类型的计算机化设备通信。

现在参考图3，示出了由云计算环境50(图2)提供的一组功能抽象层。应当预先理解，图3中所示的组件、层和功能仅旨在说明，并且本发明的实施例不限于此。如所描绘的，提供了以下层和相应的功能：

设备层55包括嵌入有和/或独立的电子器件、传感器、致动器和其他对象以在云计算环境50中执行各种任务的物理和/或虚拟设备。设备层55中的每个设备将联网能力结合到其他功能抽象层，使得从设备获得的信息可以被提供给该设备，和/或来自其他抽象层的信息可以被提供给设备。在一个实施例中，包括设备层55在内的各种设备可以并入统称为“物联网”(IoT)的实体的网络。如本领域普通技术人员将理解的，这样的实体网络允许数据的相互通信、收集和传播以实现各种目的。

如图所示，设备层55包括传感器52、致动器53、具有集成处理、传感器和联网电子设备的“学习”恒温器56、相机57、可控家用插座/插口58以及可控电开关59，如图所示。其它可能的设备可以包括但不限于各种附加传感器设备、联网设备、电子设备(诸如远程控制设备)、附加致动器设备、所谓的“智能”电器(诸如冰箱或洗衣机/干衣机)以及各种各样的其它可能的互连对象。

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：主机61；基于RISC(精简指令集计算机)架构的服务器62；服务器63；刀片服务器64；存储设备65；以及网络和网络组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储器72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作系统74；以及虚拟客户端75。

在一个示例中，管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其它资源的动态获取。计量和定价82提供了在云计算环境中利用资源时的成本跟踪，并为此提供帐单和发票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务级别管理84提供云计算资源分配和管理，使得满足所需的服务级别。服务水平协议(SLA)规划和履行85为根据SLA预测的对云计算资源的未来需求提供预先安排和供应。

工作负载层90提供了可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括：绘图和导航91；软件开发和生命周期管理92；虚拟教室的教学提供；数据分析处理94；交易处理95；以及在本发明的所示实施例的上下文中，用于提供径向自动化机器学习可视化的各种工作负载和功能96。另外，用于提供径向自动化机器学习可视化的工作负载和功能96可以包括诸如数据分析、数据解析以及如将进一步描述的通知功能之类的操作。本领域普通技术人员将理解，用于提供径向自动化机器学习可视化的工作负载和功能96还可以结合各种抽象层的其他部分(诸如硬件和软件60、虚拟化70、管理80和其他工作负载90(例如，诸如数据分析处理94)中的那些)来工作，以实现本发明的所示实施例的各种目的。

如前所述，本发明提供了GUI中的径向自动化机器学习可视化，其中GUI与自动化机器学习后端和前端系统相关联/通信。自动化机器学习后端系统可以接收一个或多个机器学习模型、一个或多个机器学习任务、一个或多个所选择的数据变换器、以及一个或多个所选择的数据估计器和/或将它们组装成一个或多个机器学习组成结构。

在另一方面，本发明提供了自动化机器学习径向可视化，以说明机器学习模型和流水线的组成、构成以及总体架构设计/开发和性能。在一个方面，一个或多个机器学习任务、候选数据变换器、以及估计器可以作为输入被接收到自动化机器学习系统中(例如，在诸如例如自动AI系统的计算系统的后端中)。机器学习任务可以各自包括训练数据集、优化度量、标签、以及其他定义的任务。

机器学习模型(以及它们的组成、构成、架构、性能、训练数据、数据变换器和/或数据估计器)可以被组合成一个或多个机器学习组成组件。由可以包括数据变换器和估计器的机器学习组成结构组件所组成的一个或多个机器学习模型流水线可以与它们的元数据一起被生成并且从计算系统的后端来提供。

计算系统(例如，自动机器学习系统的前端)可以从自动机器学习系统(例如，自动AI后端)接收一个或多个机器学习模型流水线(例如，一个或多个机器学习模型和元数据)。可以排除机器学习模型元数据，例如数据分区数据(例如，训练/留出(holdout)，如果适用的话)、机器学习模型结构(例如，数据变换器和数据估计器(例如，作为变换器和估计器流水线的序列))和参数、与训练/留出度量有关的数据分数、和/或起源数据(例如，组成算法模块或“机器学习组成结构”的序列)。机器学习流水线的排名可以基于元数据、排名标准和/或各种度量来确定。对于每个度量，可以确定最小/最大值。应当注意，度量作为被输入到自动机器学习系统(例如，AutoAI系统)的ML任务的一部分，并且基于这些度量来生成模型。示例度量可以包括例如准确度、精确度、ROC/AUC、均方根误差、f1分数等(对于分类问题)和/或其它回归问题。在一个方面，ML任务具有至少一个优化度量，其可以被用于基于这些度量和一个或多个评估度量(用于评估所得到的流水线)来创建优化的模型流水线。具有算术值(例如，准确度)的度量也可具有最小值和最大值。本发明确定/计算最小和最大度量值，以示出在流水线环上分类的流水线节点，以及还示出关于这些度量的注释。例如，如果选择准确度度量来进行排名，则流水线环将示出最小值和最大值，然后流水线节点将基于它们的准确度分数而被放置在该环上。

可以将提取的和/或分解的机器学习模型元数据提供(例如，放置)到可以包括多个同心环的交互式径向用户界面(“UI”)上。例如，同心环可以包括：1)表示用于模型训练的数据折叠的一个或多个数据环，2)包含所有可用估计器的一个或多个估计器环，包含所有可用变换器的变换器环，3)包含机器学习组成模块(例如，组成算法模块)的一个或多个起源环。在一个方面，机器学习组成模块可以执行/运行算法/操作，该算法/操作将ML任务(数据集、度量、目标等)、变换器和估计器作为输入，并且输出机器学习模型流水线。

在一个方面，机器学习组成模块的示例包括但不限于：1)预处理/数据清理，以将原始数据转换成数字格式；2)超参数优化(HPO)，用于识别/查找给定数据集的流水线的最优超参数；3)模型选择，用于选择给定数据集的一组给定机器学习流水线并对其进行排名；4)特征工程，用于执行数据变换并向数据集添加/删除新特征；5)进行综合以基于一组机器学习流水线和/或数据集来创建集合体；6)基于给定ML任务(例如，训练、留出/测试数据集、优化/评估度量、目标变量等)、输入到后端系统的变换器和估计器的自动模型生成模块(例如，使用现有AutoAI框架的黑盒自动模型生成模块)；和/或7)人工驱动的模型生成模块(例如，由基于给定训练数据集、输入到后端系统的变换器和估计器创建数据的人类用户驱动的)。

径向UI中的每个机器学习模型流水线节点(例如，在流水线环中)分别到它的在估计器环、变换器环以及组合环中的估计器、变换器、组合模块。每个数据变换器可以被用它们在机器学习模型流水线中的出现顺序来注释。

现在转向图4A-4C，示出了描绘根据所示实施例的各种机制的示例性功能组件400、415和425的框图。在一个方面，图1-3中描述的组件、模块、服务、应用和/或功能中的一个或多个可在图4中使用。

如图4A所示，描绘了机器学习流水线结构400。在一个方面，机器学习流水线结构400可以执行根据本发明的各个方面的各种计算、数据处理和其它功能。机器学习流水线结构400可以由图1的计算机系统/服务器12提供。

如本领域普通技术人员将理解的，机器学习流水线结构400中的各种功能单元的描绘是出于说明的目的，因为功能单元可以位于机器学习流水线结构400内或在分布式计算组件内和/或之间的其他位置。

例如，机器学习流水线结构400可以包括一个或多个机器学习模型410。机器学习模型410可以包括一个或多个数据变换420和一个或多个估计器430。在操作中，原始数据402可以被提供给机器学习模型410，在机器学习模型410中，可以使用数据变换420和/或估计器430来执行一个或多个机器学习操作以提供预测404。

现在转到图4B，本发明提供了后端自动机器学习系统440和前端自动机器学习系统450(例如，前端/UI子系统)。在一个方面，后端自动机器学习系统440和/或前端自动机器学习系统450可以在图1的计算机系统/服务器12的内部和/或外部。

前端自动机器学习系统450可以包括元数据提取模块452和/或排名模块454。前端自动机器学习系统450还可以与交互式可视化GUI 460(例如，交互式径向可视化GUI)通信。

在一个方面，后端自动机器学习系统440可以包括图4A的一个或多个机器学习模型410，其在下文中可以被称为机器学习组成结构412A-N.后端自动机器学习系统440可以接收训练数据集414、候选数据变换器420的集合和候选估计器430作为输入。

后端自动机器学习系统440可以将训练数据集420、数据变换器420(例如，候选数据变换器和/或所选的数据变换器)的集合和所选的/候选估计器430(和/或一个或多个机器学习模型410、一个或多个机器学习任务)组装成一个或多个机器学习组成结构，例如机器学习组成结构412A-N。在一个方面，机器学习组成结构412A-N可以包括一个或多个机器学习模型、一个或多个所选的数据变换器420、以及一个或多个候选估计器430。

在一个方面，机器学习组成结构或诸如机器学习组成结构412A-N之类的组合可以用于生成由后端自动机器学习系统440(例如，后端子系统)输出的每个模型流水线。在一个方面，机器学习组成结构412A-N的示例可以包括和/或执行一个或多个操作，例如：1)预处理/数据清理，其将原始数据转换为数字格式，2)超参数优化(“HPO”)，其定位、查找、识别给定数据集的流水线的一个或多个最优超参数，3)机器学习模型选择，其对给定ML任务的一组给定机器学习流水线模型(训练数据、保留/测试数据集、度量、目标变量等)进行排名，4)特征工程，其执行数据变换以及向数据集添加/删除新特征，5)综合，其基于一组流水线和/或数据集来创建集合体(例如，机器学习模型流水线集合体)，6)黑盒自动模型生成模块(例如，使用现有的AutoAI框架)，其基于输入到后端自动机器学习系统440的给定训练数据集414、变换器420和估计器430，和/或7)一个或多个人驱动模型生成模块(由用户基于输入到后端自动机器学习系统440的给定训练数据集414、变换器420和估计器430创建数据来驱动)。

因此，后端自动机器学习系统440可以从一个或多个机器学习组成结构来生成机器学习模型流水线、多个机器学习模型流水线的集合体、或它们的组合以及对应的元数据。因此，后端自动机器学习系统440可以输出可被包括在机器学习模型流水线中和/或多个机器学习模型流水线的集合体中的一组机器学习模型及它们相关联的元数据(包括但不限于与所选的数据变换器420、所选的数据估计器430有关的元数据和/或性能/度量元数据等)。应当注意，每个所生成的模型流水线的起源元数据可以是已被用于创建所生成的模型流水线和/或多个所生成的模型流水线的集合体的机器学习组成结构412A-N的列表或序列。应当注意，如本文所使用的，“起源元数据”可以指代描述机器学习模型流水线如何被生成的元数据。例如，如果机器学习模型流水线与被称为“ACME自动AI”的组成模块相关联，则“ACME自动AI算法”被用于查找该机器学习模型流水线。起源可以指什么数据或什么ML任务已被用于创建特定的机器学习模型流水线。

在一个方面，前端自动机器学习系统450可以从后端自动机器学习系统440接收机器学习模型流水线和/或多个机器学习模型流水线的集合体(例如，机器学习模型和/或机器学习组成结构412A-N)。前端自动机器学习系统450可以从机器学习模型流水线和/或多个机器学习模型流水线(例如，机器学习组合结构412A-N)的集合体中提取相关联的元数据。前端自动机器学习系统450可以基于各种排名标准来生成和/或产生被呈现给用户的机器学习模型流水线的和/或多个机器学习模型流水线(例如，机器学习模型和/或机器学习组合结构412A-N)的集合体以及相关联的元数据属性的一个或多个交互式可视化视图。在随着时间的推移输入新模型时，可视化视图被动态地更新。在训练期间或在训练之后，用户可以与该可视化交互以发现广泛的模型流水线属性和手头的训练任务。

在一个方面，元数据提取模块452可以从进入的机器学习模型流水线和/或多个机器学习模型流水线的集合体(其可以是单个流水线或流水线集合体)中提取元数据。

在一个方面，每个机器模型流水线的元数据可以包括但不限于：1)机器学习模型结构，其包括那些数据变换器420和估计器430以及它们的在机器学习模型中使用的相关联的参数，2)性能元数据，其可以包括针对多个度量(例如，如果在训练期间存在多个度量(例如，ROC_AUC、准确度、精确度、召回率、fl分数等))的训练集(例如，如果适用的话，保留集)的分数，每个所生成的机器学习模型流水线的预测可以基于以上度量被评估(评分)。此外，可以具有不被用于训练和生成流水线的训练集或测试/保留集。它仅用于评估，3)一个或多个图，其基于评分数据，评分数据例如混淆矩阵、接受者操作特性“ROC”/曲线下面积(“AUC”)曲线等，4)数据，例如用于生成特定机器学习模型流水线的训练数据420(或其子集)，5)起源数据，6)组成模块(例如，机器学习组成结构412A-N)，其包括被用于生成特定机器学习模型的自动后端机器学习系统440的组成模块(以及它们的参数，如果有的话)，和/或7)创建时间数据。

在一个替代方面，多个机器学习模型流水线的每个集合体的元数据可以包括但不限于：1)机器学习模型流水线结构，2)参数，例如，确定多个机器学习模型流水线被集成的方法/方式的参数，3)性能元数据，其可以包括针对多个度量(例如，准确度、接收者操作特性“ROC”/曲线下面积(“AUC”)曲线等)的训练集(例如，如果适用的话，留出集)的分数，4)一个或多个图，其基于评分数据，例如，对于混淆矩阵、ROC/AUC曲线等，5)数据，例如，被用于生成特定机器学习模型流水线集合体的训练数据420(或其子集)，5)来源数据，6)组成模块(例如，机器学习组成结构412A-N)，其包括被用于生成特定机器学习模型的后端自动机器学习系统440的组成模块(及其参数，如果有的话)，和/或7)创建时间数据。

在一个方面，排名模块454可以接收现有机器学习模型流水线和传入机器学习模型流水线的所提取的元数据作为输入，以及输出关于模型、变换器、估计器或组成模块的不同排名。对于具有数值的每个排名，还计算最小排名值和最大排名值。

排名模块454可以根据排名标准对机器学习模型流水线和/或多个机器学习模型流水线的集合体中的每一者进行排名。例如，在一个方面，排名标准可以包括例如：1)无排名(例如，任意的)，2)创建时间(其可以是默认的)，3)针对不同的机器学习度量(例如，准确度、精确度、ROC/AUC、均方根误差等)的训练(交叉验证)分数，4)针对不同的机器学习度量(例如，准确度、精确度、ROC/AUC、均方根误差等)的保留(或测试)分数。

在一个方面，排名模块454可以根据附加的排名标准来对变换器420、数据折叠(例如，在训练期间，数据可以被划分到数据折叠中，这些数据折叠是原始数据集的子集，并且数据折叠可以被显示在交互式GUI中)、估计器420以及组成模块(例如，机器学习组成结构412A-N)进行排名。例如，在一个方面，附加排名标准可以包括例如：1)无排名(例如，任意的)，2)字母名称顺序(其可以是默认的)，3)当前流水线中的使用频率，4)可视化优化标准，5)大小(对于数据折叠)，和/或5)(附加排名标准所用于的流水线的)平均分数。

自动化机器学习前端系统450还可以包括默认排名标准，其中例如用户480能够提交用户输入482，以及可以通过与自动化机器学习前端系统450交互来改变排名标准。排名标准选择462的每个组合可以产生被呈现给用户480的不同的排名标准视图456。

给定排名标准(诸如排名标准选择462)，机器学习模型的元数据、机器学习模型、数据估计器430、数据变换器420以及组成模块(例如，机器学习组成结构412A-N)可以各自根据它们的排名标准被放置在交互式可视化GUI 460(其可以包括一个或多个同心环，这也在图4C中描绘)的径向用户界面(“UI”)470(例如，径向UI可视化视图)上。

如图4C所示，径向UI可视化470被呈现给用户。径向UI可视化470中的环的顺序可以根据应用、可视化优化或用户偏好而变化。一旦提取/生成了模型元数据，就可以将元数据作为节点(例如，仅作为示例，每个环上的环状点)放置在包括多个同心环的径向UI可视化470上。径向UI可视化470的同心环可包括，例如：1)流水线环475，其包含所有可用模型流水线和流水线集合体，2)数据环472，其包含用于训练流水线的训练数据分区(以及留出数据分区，如果可用)，3)估计器环474，其包含所有可用估计器(它们被输入到后端训练子系统)，4)变换器环476，包含所有可用变换器(它们被输入到后端训练子系统)，5)起源环478，其包含(自动化机器学习后端系统440的)所有可用组成模块/机器学习组成结构412A-N。

径向UI可视化470可包括径向排行榜。也就是说，可以根据不同的排名标准(例如，训练分数、留出分数、创建时间等)来对流水线进行分类。可以针对可在环端上指示的每个排名标准而确定最小值和最大值。同样，流水线元数据(例如，机器学习流水线、机器学习模型、数据折叠、估计器、变换器、组成模块/机器学习组成结构412A-N)可以根据它们在径向UI可视化470的视图中被使用的排名标准被从最小值到最大值来分类。可以在每个环的末端示出当前排名标准的最小值和最大值。以此方式，用户(例如，用户480)能够以简明的方式可视化如何根据不同标准对机器学习模型流水线以及机器学习模型流水线的元数据进行排名。作为径向排行榜的替代，可以在线性排行榜上描绘经排名的流水线和元数据。

在附加方面，当一个或多个事件(例如，触发事件)发生时，径向UI可视化470可被自动更新。例如，触发事件可以包括以下中的一个或多个。

当新的机器学习模型流水线被输入到自动化机器学习前端系统450时，可以添加触发事件。在这种情况下，机器学习模型流水线可以被作为新节点放置在流水线环475中，并且由标识符(“ID”)以及可选地根据排名标准的值来标记。另外，一个或多个连接(例如，仅作为示例的连接线)可以被描绘/示出为去往它们的相应环上的元数据节点(例如变换器、估计器、数据折叠、组成模块)。

触发事件可以在训练过程的开始，此时训练数据进入自动化机器学习后端系统440并且被划分成训练/留出折叠并且数据环被用数据折叠来更新。数据折叠统计也可以被显示在径向视图上。

触发事件可以是当模型选择模块存在并且在自动化机器学习后端系统440中被执行时，并且可以通过将排名前K的机器学习模型流水线或估计器保留(或突出显示)在环上并且删除(或淡出)其余部分来更新估计器环和/或流水线环。

触发事件可以是当HPO组成模块存在并在自动化机器学习后端系统440中被执行时，并且对应的流水线和流水线环展现出围绕它的附加自旋转环以表示HPO优化的层。

还应当注意，径向UI可视化470可更新多个环中的一个或多个。例如，当新的训练数据被输入到自动化机器学习后端系统440时，数据环可以被更新。当新的变换器被输入到自动化机器学习后端系统440时，变换器环可以被更新。当新的估计器被输入到自动化机器学习后端系统440时，估计器环可以被更新。当新的组成模块被添加到(后端)系统时，起源环可以被更新。

在附加方面，当用户执行一个或多个事件时，径向UI可视化470可被自动更新。例如，用户事件(例如，用户发起的触发事件)可以包括以下中的一个或多个。

在一个方面，当用户选择排名标准时，径向UI可视化470可以被自动更新。通过在径向视图中对流水线及其元数据进行重新分类，整个径向UI可视化470被更新以反映这些标准。

当用户选择、点击或悬停在流水线环475上的模型流水线节点上时，径向UI可视化470可被自动更新。流水线节点可以被用它的与径向UI可视化470的当前视图的流水线排名标准相对应的值(例如，分数、创建时间等)来标记。流水线节点到它的元数据节点(例如，估计器、变换器、组成模块和数据折叠)的连接在连接的相应环中可以被特征化、描绘和/或突出显示。另外，元数据节点可以被用它们的实例的参数来标记以用于该特定流水线。关于此流水线的更多深入信息可以在单独的窗口或弹出窗口上示出，包括ROC/AUC曲线(例如二元分类问题)、预测值与测量值相比的散点图(例如回归问题)、关于问题类型的所有支持度量的分数等。

当用户选择、点击或悬停在诸如流水线环475中的模型流水线集合体477之类的模型流水线集合体节点477上时，径向UI可视化470可被自动更新。模型流水线集合体节点477(例如，可以具有到包括它的一个或多个流水线的连接的流水线集合体节点)可以被用它的与当前径向UI可视化470视图的流水线排名标准相对应的值(分数、创建、参数、时间等)来标记。在一个方面，元数据节点是元数据环中的节点，元数据环诸如例如数据环、变换器环、估计器环、组成模块环(例如，本质上，该环中不是流水线或集合体的任何节点)。也就是说，元数据节点是非流水线/集合体节点。例如，元数据节点可以包括数据折叠(划分)、变换器、估计器、组成模块等。

可以图示、描绘、突出显示流水线环475上的流水线节点和/或与模型流水线集合体节点477相关联的数据环472中的数据，以及它们的与它们的元数据的连接。可提供集合体参数，集合体参数可指定它们的流水线和数据的组合规则。

当用户选择、点击或悬停在元数据的对应环中的元数据(例如，估计器、变换器、组成模块或数据折叠)(或元数据组)上时，径向UI可视化470可被自动更新。该元数据(或元数据组)的所有实例在新的临时实例环上被示出，并且被用它们相对于元数据的出现统计(数量、频率或比率)来标记。可以说明该元数据节点(或组)到使用该元数据(或组)的流水线环中的所有模型的连接。

元数据节点可以被用其对流水线环中的模型的出现统计(例如，数量、频率或比率)来标记。例如，当在估计器环474中选择估计器时：1)可以描绘具有该估计器名称的所有实例的新环，每个实例都用它们出现的次数来标记。选择每个这样的实例可以示出它的详细参数，2)示出了到使用该估计器的流水线环中的模型的所有连接，和/或3)估计器环474中的估计器节点被用它在流水线环475中的模型上的出现次数来标记。相同类型的可视化更新适用于其他元数据(诸如变换器、组成模块、以及数据折叠)。

因此，当用户1)选择流水线以查看关于它的细节(例如，使得能够查看分数、变换器参数、估计器参数(例如，在悬停在径向UI的所选区域上时)、组成模块)，2)选择变换器以查看与它相关联的流水线，3)选择估计器以查看与它相关联的流水线，4)选择数据分区以查看与它相关联的流水线，和/或5)选择组成模块以查看与它相关联的流水线时，径向UI可视化470可以被自动更新/在不同的度量视图之间切换。

鉴于图4，图5A-5J进一步描绘了图形用户界面中的各种自动化机器学习径向可视化组件的各种径向可视化GUI视图500、515、525、535、545、555、565、575、585和595，该图形用户界面描绘了机器学习模型和流水线的结构。在一个方面，图1-4中描述的组件、模块、服务、应用和/或功能中的一个或多个可在图5A-5J中使用。为了简洁，省略了在此描述的其它实施例(例如图1-4)中采用的类似元件的重复描述。

预处理

如图5A所示，预处理操作可以发生在径向可视化GUI 500的核心节点(也参见图4C的470)利用不同的弧来表示具有附加段的数据分割，以表示用于训练和测试的数据的百分比的“分区”层，例如90％训练数据、10％留出数据等。换句话说，可视化(例如，径向UI可视化470)随着它的进行而逐渐地构建并添加弧、层和节点。径向可视化GUI 500的核心节点利用不同的环(例如，数据环474和估计器环474)来表示数据的不同子集，其中附加段表示用于训练、留出以及测试目的的数据的百分比的“分区”附加层。

模型选择

在图5B-5C中，可以执行模型选择操作。例如，可以执行机器学习模型选择，其中机器学习模型选择阶段由围绕数据源节点(例如，“File_Name_1.CSV”)的弧来表示。在一个方面，可以将节点添加到弧，每个节点表示单独的估计器或它的相关联的流水线。例如，点击节点可以使得机器学习流水线连接到内部估计器节点，以指示哪个估计器被用于生成该特定流水线(例如，具有0.843的ROC/AUC分数的流水线1)。即，核心节点(在图5A-5C中或“File_Name_1.CSV”)可以缩小并揭示它后面的下一级节点(在这种情况下，估计器)，如图5C所示。应当注意，环的顺序可以互换。例如，可以参考图5B-5C来使用“内部”，但是环通常可以具有不同的顺序。

应注意，“候选估计器”(例如，GUI 517上方的小空心圆)可表示多个估计器。GUI517说明在一个估计器上的用户交互(例如，点击或悬停在估计器节点上)并显示详细信息，例如估计器类型、估计器名称和/或具有分数0.701的ROC_AUC。在一个或多个估计器已被选择之后，GUI 519描绘所选的估计器是现在显示的唯一估计器。GUI519说明在所选的估计器之一上的用户交互(例如，点击或悬停在估计器节点上)并显示详细信息，例如，排名靠前的估计器、估计器名称(例如，决策树)和/或具有分数0.842的ROC_AUC。应注意，基于用户配置、应用或产品，GUI 519可选择性地显示(或不显示)估计器。例如，在一个方面中，GUI 519隐藏所有未被选择的估计器，同时显示所有所选的估计器。在附加方面中，GUI 519显示所有未被选择的估计器，但是可以更突出地显示所有所选的估计器(例如，突出显示、闪烁、提供旋转环等)。因此，交互式GUI(例如，径向UI可视化470)可根据用户偏好或计算/媒体显示设备的技术能力来选择性地显示、隐藏、突出显示或强调或不强调一个或多个组件、特征、环或节点。

当在该过程中使用这些节点时，可视化操作可以随时间的推移而细化执行最好的节点(例如，图5A-5C的流水线1和流水线2，诸如ROC/AUC 0.834和0.830)，直到确定了所选执行者的最高数量(例如，该数量由用户来定义)。一旦选择了最高数量的执行者，则可以在先前的弧之外添加另一个层/弧。新的节点类型可以被添加到新弧上，该新弧具有到它所属的类别(例如，估计器)的连接。

超参数优化

如图5D-5E所示，描绘了超参数优化操作，其中围绕单个流水线节点的环的数量表示正在该流水线上被执行的超参数优化的层。旋转环(例如，环上的旋转运动以示出一些基础活动/操作，例如优化操作)用于表示正在被主动优化的流水线(例如，具有0.830的ROC/AUC的流水线2)。可以从前一节点(例如流水线1)的属性来复制新节点(例如流水线#2)，其中具有添加的旋转环以指示参数正被修改/优化。

特征工程

如图5F所示，可以提供特征工程，例如其中变换器与流水线之间的连接线指示在该流水线上执行了特征工程。在流水线节点(例如，流水线节点546)上方悬停(例如，使用诸如鼠标的GUI激励)可以显示相关联的变换器，该相关联的变换器具有数字以指示特征被应用于该流水线的顺序。

仅作为示例，当过程正在运行时，变换器与流水线之间的连接线可以按照它们在机器学习模型生成过程中被尝试的顺序来被绘制、映射、描绘和/或草拟。在一个方面，新节点548是从前一个节点复制的，并且可围绕节点548添加第二旋转环以表示附加的修改/优化层。

另外，在如图5F中所说明的额外方面中，可从前一个节点复制新节点548，并且在内弧节点与外弧节点之间按照修改正在被应用的顺序来绘制连接。用于这些修改的信息还可提供数值以指定修改被应用的顺序。如图5G所示，根据执行者的初始最高数量来重复该相同的过程，直到该过程完成为止，并且用户(在任何时间)自由地与可视化元素交互。

另外，在图5G，描绘了一个或多个用户交互(在完成期间或之后)。数据集以及训练数据与留出数据集相比的百分比可以以半圆或全圆布局来表示。参与径向UI可视化565的一个或多个部分(诸如选择或悬停在任何可视化节点上等)显示了具有上下文信息的工具提示以供更多细节。悬停还显示与该节点的所有直接关联，这些直接关联用连接线表示。节点周围的环的数量表示不同的优化/修改层。应当注意，仅作为示例，在训练期间使用不同的估计器和变换器仅用于说明目的。

此外，如图5H-5J所示，可以悬停在核心之外的任何节点上，这示出了所有直接连接的节点以及相关联的标签。为了说明估计器与变换器之间的链接，可以实现流水线以将它们链接在一起。参与径向UI可视化视图575、585的一个或多个部分(诸如选择或悬停在可视化的核心上)提供了关于核心节点的附加细节。悬停在次级视图(例如，进度图594)上突出显示了可视化中的对应信息。悬停在图例592上方突出显示了在可视化中表示的对应节点/弧类型。此外，选择/点击可视化中的节点使得用户滚动到下面的对应的表项目。

图6是描绘用于自动化机器学习可视化的附加示例性方法的附加流程图600，同样在该方法中可以实现本发明的各方面。功能600可以被实现为作为机器上的指令被执行的方法，其中指令被包括在至少一个计算机可读介质或一个非暂时性机器可读存储介质上。功能600可以在框602中开始。

机器学习任务、变换器以及估计器可以被接收到一个或多个机器学习组成模块中，如在框604中。在一个方面，接收一个或多个机器学习任务进一步包括：将训练数据、留出数据、测试数据、优化度量、评估度量、目标变量、一个或多个变换器以及一个或多个估计器接收到一个或多个机器学习组成模块中。

一个或多个机器学习组成模块生成一个或多个机器学习模型，如在框606中。可以使用一个或多个机器学习组成模块来生成机器学习模型流水线、多个机器学习模型流水线的集合体或它们的组合以及对应的元数据，如在框608中。可以从机器学习模型流水线、多个机器学习模型流水线的集合体或它们的组合中提取元数据，如在框610中。可以根据元数据排名标准和流水线排名标准对所提取的元数据和机器学习模型流水线、多个机器学习模型流水线的集合体或它们的组合进行排名，如在块612中。可以根据排名来生成机器学习模型流水线、多个机器学习模型流水线的集合体或它们的组合以及所提取的元数据的交互式可视化图形用户界面(“GUI”)，如在框614中。功能600可以结束，如在块616中。

在一个方面，结合和/或作为图6的至少一个块的一部分，方法600的操作可以包括以下项中的每一个。方法600的操作可以定义用于机器学习模型流水线的元数据以包括与一个或多个所选的数据变换器和一个或多个所选的数据估计器中的哪些被包括在一个或多个机器学习组成结构中有关的数据、与一个或多个机器学习模型和训练数据有关的性能数据、参数和度量数据、以及与一个或多个机器学习组成结构的创建有关的数据。方法600的操作可以定义用于多个机器学习模型流水线的集合体的元数据，以包括与其中包括多个机器学习模型流水线的组合中的哪一个相关的结构数据、与一个或多个机器学习模型和训练数据相关的性能数据、以及参数和度量数据。

在一个方面，方法600的操作可定义用于机器学习模型流水线的元数据以包括结构元数据、性能元数据以及起源元数据。用于机器学习模型流水线的结构元数据包括机器学习模型流水线的数据变换器和估计器以及相关联的参数和超参数。性能元数据包括机器学习模型流水线的用于机器学习任务的优化和评估度量的分数、混淆矩阵、ROC/AUC曲线等。用于机器学习模型流水线的起源元数据包括机器学习任务，机器学习任务基于该起源元数据被创建。机器学习任务(用于机器学习模型流水线)还包括用于训练机器学习模型流水线的训练数据(或其子集)、用于评估机器学习模型流水线的测试或留出数据、优化和评估度量、目标变量和/或组成模块(例如，用于生成机器学习模型流水线的机器学习组成模块及其参数(如果有的话))、创建时间、和/或创建所花费的资源(计算时间、存储器等)。

在附加方面，方法600的操作可以定义用于多个机器学习模型流水线的集合体的元数据以包括结构元数据、性能元数据、以及起源元数据。用于多个机器学习模型流水线的集合体的结构元数据包括集合体的所有机器学习模型流水线。性能元数据包括确定流水线被集成的方式的参数。性能元数据包括集合体的用于机器学习任务的优化和评估度量的分数、混淆矩阵、ROC/AUC曲线等。

用于多个机器学习模型流水线的集合体的起源元数据包括机器学习任务，机器学习任务基于该起源元数据被创建。(一个或多个)机器学习任务(用于机器学习模型流水线和/或多个机器学习模型流水线的集合体)还包括用于训练机器学习模型流水线的集合体的训练数据(或其子集)、用于评估机器学习模型流水线的测试或留出数据、优化和评估度量、(一个或多个)目标变量和/或组成模块(例如，用于生成机器学习模型流水线的集合体的机器学习组成模块及其参数(如果有的话))、创建时间、和/或创建所花费的资源(计算时间、存储器等)。

方法600的操作可以将交互式可视化GUI显示为具有多个同心环的径向结构，在多个同心环中显示一个或多个节点，其中，多个同心环至少包括机器学习流水线环、数据环、估计器环、变换器环、以及组成模块环，其中，一个或多个节点表示机器学习模型流水线、多个机器学习模型流水线的集合体、或它们的组合、数据、一个或多个估计器、一个或多个变换器、以及被用于生成机器学习模型流水线、多个机器学习模型流水线的集合体或它们的组合的机器学习组成模块，其中，多个同心环中的一个或多个节点是基于不同的排名标准来顺序显示的。

方法600的操作可以基于以下操作而将一个或多个节点与多个同心环中的一个或多个同心环相关联：在用户与多个同心环中的一个或多个同心环交互时，关联并显示与机器学习模型流水线或多个机器学习模型流水线的集合体有关的细节；或者，在用户与多个同心环中的一个或多个同心环交互时，显示与一个或多个所选的数据变换器、一个或多个数据估计器、一个或多个机器学习组成模块、一个或多个数据分区或它们的组合相关联的机器学习模型流水线、多个机器学习模型流水线的集合体或它们的组合中的每一个。

方法600的操作可以在发生一个或多个触发事件时自动更新交互式可视化GUI，和/或在用户执行以下操作时，自动更新交互式可视化：1)选择机器学习模型流水线、多个机器学习模型流水线的集合体或它们的组合的排名标准、以及用于数据、变换器、估计器、组成模块的排名标准以用于在它们的对应环中的可视化，2)选择位于机器学习模型流水线、多个机器学习模型流水线的集合体或它们的组合的交互式可视化内的一个或多个节点，或与该一个或多个节点进行交互，和/或3)选择交互式GUI可视化内的元数据环(变换器、估计器、数据、组成模块环)的一个或多个节点或与该一个或多个节点进行交互。

方法600的操作可以基于以下操作而将一个或多个节点与多个同心环中的一个或多个同心环相关联：在用户与多个同心环中的一个或多个同心环交互时，关联并显示与机器学习模型流水线或多个机器学习模型流水线的集合体有关的细节；和/或在用户与多个同心环中的一个或多个同心环交互时，显示与一个或多个所选的数据变换器、一个或多个所选的数据估计器、一个或多个机器学习组成模块、一个或多个数据分区或它们的组合相关联的机器学习模型流水线、多个机器学习模型流水线的集合体或它们的组合中的每一个。

方法600的操作可以在发生一个或多个触发事件时自动更新交互式可视化6UI，或在用户执行以下操作时自动更新交互式可视化：选择机器学习模型流水线、多个机器学习模型流水线的集合体或它们的组合的排名标准；选择位于机器学习模型流水线、多个机器学习模型流水线的集合体或它们的组合的交互式可视化内的一个或多个节点，或与该一个或多个节点进行交互；和/或选择交互式可视化GUI内的元数据。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括存储有计算机可读程序指令的计算机可读存储介质(或多个介质)，计算机可读程序指令用于使处理器执行本发明的各方面。

计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下项：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码设备，以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)、或通过导线传输的电信号。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络(例如因特网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微码、固件指令、状态设置数据，或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言(例如Smalltalk、C++等)以及常规的过程式编程语言(例如“C”编程语言或类似的编程语言)。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包执行，部分在用户的计算机上并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或者可以连接到外部计算机(例如，使用因特网服务提供商通过因特网)。在一些实施例中，为了执行本发明的各方面，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。

在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中，框中所提及的功能可不按图中所提及的顺序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意，框图和/或流程图的每个框以及框图和/或流程图中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。

Claims

1.一种用于由一个或多个处理器提供自动化机器学习可视化的方法，包括：

将一个或多个机器学习任务、一个或多个变换器以及一个或多个估计器接收到一个或多个机器学习组成模块中；

使用所述一个或多个机器学习组成模块来生成机器学习模型流水线、多个机器学习模型流水线的集合体、或它们的组合以及对应的元数据，其中，机器学习模型流水线是变换器和估计器的序列，机器学习流水线的集合体是机器学习流水线的集合体；

从所述机器学习模型流水线、所述多个机器学习模型流水线的集合体、或它们的组合中提取元数据；以及

生成所述机器学习模型流水线、所述多个机器学习模型流水线的集合体或它们的组合、所提取的元数据、或它们的组合的交互式可视化图形用户界面GUI。

2.根据权利要求1所述的方法，其中，接收所述一个或多个机器学习任务进一步包括：将训练数据、留出数据、测试数据、优化度量、评估度量、目标变量、所述一个或多个变换器以及所述一个或多个估计器接收到所述一个或多个机器学习组成模块中。

3.根据权利要求1所述的方法，还包括：

定义用于所述机器学习流水线的元数据以包括与所述机器学习流水线有关的结构元数据、性能元数据、起源元数据或它们的组合；或

定义用于所述多个机器学习模型流水线的集合体的元数据以包括与所述多个机器学习模型流水线的集合体有关的结构元数据、性能元数据、起源元数据或它们的组合。

4.根据权利要求1所述的方法，还包括：

根据流水线排名标准和元数据排名标准，对所提取的元数据和所述机器学习模型流水线、所述多个机器学习模型流水线的集合体、或它们的组合进行排名；

根据所述元数据排名标准，对用于所述机器学习流水线的结构元数据、性能元数据、起源元数据、或它们的组合进行排名；或

根据所述元数据排名标准，对用于所述多个机器学习模型流水线的集合体的所述结构元数据、所述性能元数据、所述起源元数据、或它们的组合进行排名。

5.根据权利要求1所述的方法，还包括：将所述交互式可视化GUI显示为具有多个同心环的径向结构，在所述多个同心环中显示一个或多个节点，其中，所述多个同心环至少包括机器学习流水线环、数据环、估计器环、变换器环、以及组成模块环，其中，所述一个或多个节点表示所述机器学习模型流水线、所述多个机器学习模型流水线的集合体、或它们的组合、数据、所述一个或多个估计器、所述一个或多个变换器、以及被用于生成所述机器学习模型流水线、所述多个机器学习模型流水线的集合体或它们的组合的所述机器学习组成模块，其中，所述多个同心环中的所述一个或多个节点是基于不同的排名标准来顺序显示的。

6.根据权利要求5所述的方法，还包括：

基于以下操作，将一个或多个节点与所述多个同心环中的一个或多个同心环相关联：

在用户与所述多个同心环中的所述一个或多个同心环交互时，关联并显示与所述机器学习模型流水线或所述多个机器学习模型流水线的集合体有关的细节；或

在所述用户与所述多个同心环中的所述一个或多个同心环交互时，显示与一个或多个所选的数据变换器、所述一个或多个数据估计器、所述一个或多个机器学习组成模块、一个或多个数据分区或它们的组合相关联的所述机器学习模型流水线、所述多个机器学习模型流水线的集合体或它们的组合中的每一个。

7.根据权利要求5所述的方法，还包括：

在发生一个或多个触发事件时，自动更新所述交互式可视化GUI，或

在用户执行以下操作时，自动更新所述交互式可视化：

选择所述机器学习模型流水线、所述多个机器学习模型流水线的集合体或它们的组合的所述流水线排名标准和所述元数据排名标准、所述一个或多个变换器、所述一个或多个估计器、所述一个或多个机器学习组成模块或它们的组合，以用于在所述交互式可视化的一个或多个对应环中的可视化；

选择位于所述机器学习模型流水线、所述多个机器学习模型流水线的集合体或它们的组合的所述交互式可视化内的一个或多个节点，或与所述一个或多个节点进行交互；或

选择所述交互式可视化GUI内的多个元数据环中的一个或多个元数据环的一个或多个节点或与所述一个或多个节点进行交互，其中，所述多个元数据环包括变换器环、估计器环、数据环、以及组成模块环。

8.一种用于提供自动化机器学习可视化的系统，包括：

一个或多个计算机，其具有可执行指令，所述可执行指令在被执行时使得所述系统：

9.根据权利要求8所述的系统，其中，用于接收所述一个或多个机器学习任务的可执行指令还包括：将训练数据、留出数据、测试数据、优化度量、评估度量、目标变量、所述一个或多个变换器以及所述一个或多个估计器接收到所述一个或多个机器学习组成模块中。

10.根据权利要求8所述的系统，其中，所述可执行指令还：

11.根据权利要求8所述的系统，其中，所述可执行指令还：

12.根据权利要求8所述的系统，其中，所述可执行指令还将所述交互式可视化GUI显示为具有多个同心环的径向结构，在所述多个同心环中显示一个或多个节点，其中，所述多个同心环至少包括机器学习流水线环、数据环、估计器环、变换器环、以及组成模块环，其中，所述一个或多个节点表示所述机器学习模型流水线、所述多个机器学习模型流水线的集合体、或它们的组合、数据、所述一个或多个估计器、所述一个或多个变换器、以及被用于生成所述机器学习模型流水线、所述多个机器学习模型流水线的集合体或它们的组合的所述机器学习组成模块，其中，所述多个同心环中的所述一个或多个节点是基于不同的排名标准来顺序显示的。

13.根据权利要求8所述的系统，其中，所述可执行指令还：

在所述用户与所述多个同心环中的所述一个或多个同心环交互时，显示与一个或多个所选的数据变换器、所述一个或多个数据估计器、所述一个或多个机器学习组成模块、一个或多个数据分区或它们的组合相关联的所述机器学习模型流水线、所述多个机器学习模型流水线的集合体或组合中的每一个。

14.根据权利要求8所述的系统，其中，所述可执行指令还：

在用户执行以下操作时，自动更新所述交互式可视化：

选择用于所述交互式可视化GUI内的多个元数据环中的一个或多个元数据环的一个或多个节点或与所述一个或多个节点进行交互，其中，所述多个元数据环包括变换器环、估计器环、数据环、以及组成模块环。

15.一种用于由处理器提供自动化机器学习可视化的计算机程序产品，所述计算机程序产品包括在其中存储计算机可读程序代码部分的非暂时性计算机可读存储介质，所述计算机可读程序代码部分包括：

将一个或多个机器学习任务、一个或多个变换器以及一个或多个估计器接收到一个或多个机器学习组成模块中的可执行部分；

使用所述一个或多个机器学习组成模块来生成机器学习模型流水线、多个机器学习模型流水线的集合体、或它们的组合以及对应的元数据的可执行部分，其中，机器学习模型流水线是变换器和估计器的序列，机器学习流水线的集合体是机器学习流水线的集合体；

从所述机器学习模型流水线、所述多个机器学习模型流水线的集合体、或它们的组合中提取元数据的可执行部分；以及

生成所述机器学习模型流水线、所述多个机器学习模型流水线的集合体或它们的组合、所提取的元数据、或它们的组合的交互式可视化图形用户界面GUI的可执行部分。

16.根据权利要求15所述的计算机程序产品，其中，接收所述一个或多个机器学习任务的可执行部分还在所述一个或多个机器学习任务中将训练数据、留出数据、测试数据、优化度量、评估度量、目标变量、所述一个或多个变换器以及所述一个或多个估计器接收到所述一个或多个机器学习组成模块中。

17.根据权利要求15所述的计算机程序产品，还包括执行以下操作的可执行部分：

18.根据权利要求15所述的计算机程序产品，还包括执行以下操作的可执行部分：

19.根据权利要求15所述的计算机程序产品，还包括：将所述交互式可视化GUI显示为具有多个同心环的径向结构的可执行部分，在所述多个同心环中显示一个或多个节点，其中，所述多个同心环至少包括机器学习流水线环、数据环、估计器环、变换器环、以及组成模块环，其中，所述一个或多个节点表示所述机器学习模型流水线、所述多个机器学习模型流水线的集合体、或它们的组合、数据、所述一个或多个估计器、所述一个或多个变换器，以及被用于生成所述机器学习模型流水线、所述多个机器学习模型流水线的集合体或它们的组合的所述机器学习组成模块，其中，所述多个同心环中的所述一个或多个节点是基于不同的排名标准来顺序显示的。

20.根据权利要求15所述的计算机程序产品，还包括执行以下操作的可执行部分：

21.根据权利要求15所述的计算机程序产品，还包括执行以下操作的可执行部分：

在用户执行以下操作时，自动更新所述交互式可视化：