CN117223015A - 针对机器学习模型的数据多样性可视化和量化 - Google Patents

针对机器学习模型的数据多样性可视化和量化 Download PDF

Info

Publication number
CN117223015A
CN117223015A CN202280029257.2A CN202280029257A CN117223015A CN 117223015 A CN117223015 A CN 117223015A CN 202280029257 A CN202280029257 A CN 202280029257A CN 117223015 A CN117223015 A CN 117223015A
Authority
CN
China
Prior art keywords
data
data points
candidates
compressed
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280029257.2A
Other languages
English (en)
Inventor
D·阿南德
拉凯什·穆利克
达蒂什·达亚南·尚巴格
M·T·埃德加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GE Precision Healthcare LLC
Original Assignee
GE Precision Healthcare LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GE Precision Healthcare LLC filed Critical GE Precision Healthcare LLC
Publication of CN117223015A publication Critical patent/CN117223015A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

提供了促进针对机器学习模型的数据多样性可视化和/或量化的系统和技术。在各种实施方案中,处理器可访问第一数据集和第二数据集,其中在该第一数据集上训练机器学习(ML)模型。在各种情况下,该处理器可获得由该ML模型基于该第一数据集生成的第一组潜在激活,以及由该ML模型基于该第二数据集生成的第二组潜在激活。在各个方面中,经由维度降低,该处理器可基于该第一组潜在激活来生成第一组经压缩的数据点,并且基于该第二组潜在激活来生成第二组经压缩的数据点。在各种情况下,多样性部件可基于该第一组经压缩的数据点和该第二组经压缩的数据点来计算多样性分数。

Description

针对机器学习模型的数据多样性可视化和量化
相关申请的交叉引用
本申请要求2021年4月28日提交的名称为“DATA DIVERSITY VISUALIZATION ANDQUANTIFICATION FOR MACHINE LEARNING MODELS”的美国非临时申请序列号17/243,046的优先权,该申请的全部内容以引用方式并入本文。
技术领域
本主题公开整体涉及机器学习模型,并且更具体地涉及用于可视化和/或量化由机器学习模型分析的数据中的多样性的技术。
背景技术
机器学习模型的性能取决于在其上训练机器学习模型的数据、在其上测试/验证机器学习模型的数据和/或机器学习模型在现场部署时遇到的数据。例如,如果在与原始训练数据显著不同的数据上进一步训练机器学习模型,则经训练的机器学习模型的性能可受到正面影响。相比之下,如果在与原始训练数据不显著不同的数据上进一步训练机器学习模型,则机器学习模型的性能可能受到负面影响。又如,当在现场部署时,经训练的机器学习模型可准确地分析基本上类似于原始训练数据的数据。相比之下,当在现场部署时,机器学习模型可能不准确地分析基本上不类似于原始训练数据的数据。因此,能够快速和/或准确地确定两个不同机器学习数据集是否彼此类似和/或彼此不同可以是有利的。遗憾的是,不存在促进不同机器学习数据集的快速手动和/或自动比较的常规工具。
因此,可解决此技术问题的系统和/或技术可能是期望的。
发明内容
以下呈现了发明内容以提供对本发明的一个或多个实施方案的基本理解。本发明内容不旨在标识关键或重要元素,也不旨在描绘具体实施方案的任何范围或权利要求的任何范围。其唯一目的是以简化形式呈现概念,作为稍后呈现的更详细描述的序言。在本文所述的一个或多个实施方案中,描述了促进针对机器学习模型的数据多样性可视化和/或量化的设备、系统、计算机实现的方法、装置和/或计算机程序产品。
根据一个或多个实施方案,提供了一种系统。该系统可以包括可存储计算机可执行部件的计算机可读存储器。该系统还可以包括处理器,该处理器可以操作地耦接到计算机可读存储器并且可以执行存储在计算机可读存储器中的计算机可执行部件。在各种实施方案中,该计算机可执行部件可以包括接收器部件。在各种情况下,接收器部件可访问第一组数据候选和第二组数据候选,其中在该第一组数据候选上训练机器学习模型。在各个方面中,该计算机可执行部件还可包括激活部件。在各种情况下,该激活部件可获得由该机器学习模型基于该第一组数据候选生成的第一组潜在激活,并且可获得由该机器学习模型基于该第二组数据候选生成的第二组潜在激活。在各种情况下,该计算机可执行部件还可包括压缩部件。在各种情况下,该压缩部件可通过将维度降低技术应用于该第一组潜在激活来生成第一组经压缩的数据点,并且可通过将该维度降低技术应用于该第二组潜在激活来生成第二组经压缩的数据点。在各个方面中,该计算机可执行部件还可包括多样性部件。在各种情况下,该多样性部件可基于该第一组经压缩的数据点和该第二组经压缩的数据点来计算多样性分数。
根据一个或多个实施方案,上述系统可被实现为计算机实现的方法和/或计算机程序产品。
附图说明
本专利或专利申请文件包含至少一个彩色绘制的附图。带有彩色附图的本专利或专利申请公布的副本将在提出请求并支付必要费用后由专利局提供。
图1示出了根据本文所述的一个或多个实施方案的促进针对机器学习模型的数据多样性的可视化和/或量化的示例性、非限制性系统的框图。
图2示出了根据本文所述的一个或多个实施方案的促进针对机器学习模型的数据多样性的可视化和/或量化的包括激活图的示例性、非限制性系统的框图。
图3至图4示出了根据本文所述的一个或多个实施方案的示出可如何获得各种激活图的示例性、非限制性框图。
图5示出了根据本文所述的一个或多个实施方案的促进针对机器学习模型的数据多样性的可视化和/或量化的包括经压缩的数据点的示例性、非限制性系统的框图。
图6示出了根据本文所述的一个或多个实施方案的示出可如何获得各种经压缩的数据点的示例性、非限制性框图。
图7示出了根据本文所述的一个或多个实施方案的促进针对机器学习模型的数据多样性的可视化和/或量化的包括多样性分数的示例性、非限制性系统的框图。
图8示出了根据本文所述的一个或多个实施方案的促进针对机器学习模型的数据多样性的可视化和/或量化的包括图的示例性、非限制性系统的框图。
图9至图11示出了根据本文所述的一个或多个实施方案的经压缩的数据点的示例性、非限制性图。
图12至图15示出了根据本文所述的一个或多个实施方案的与针对机器学习模型的数据多样性的量化有关的示例性、非限制性计算机实现的方法的流程图。
图16示出了根据本文所述的一个或多个实施方案的促进针对机器学习模型的数据多样性的可视化和/或量化的示例性、非限制性计算机实现的方法的流程图。
图17示出了其中可促进本文所述的一个或多个实施方案的示例性、非限制性操作环境的框图。
图18示出了可操作以执行本文所述的各种具体实施的示例性联网环境。
具体实施方式
以下具体实施方式仅仅是示例性,并非旨在限制实施方案和/或实施方案的应用或使用。此外,并不意图受前述“背景技术”或“发明内容”部分或者“具体实施方式”部分中提出的任何明示或暗示信息的约束。
现在参考附图描述一个或多个实施方案,其中相同的附图标号始终用于表示相同的元件。在以下描述中,出于说明的目的,阐述了许多具体细节以便提供对一个或多个实施方案的更透彻理解。然而,很明显,在各种情况下,可以在没有这些具体细节的情况下实践一个或多个实施方案。
如上所述,机器学习模型(例如,人工神经网络)的性能(例如,输出准确度、输出精度)可取决于在其上训练机器学习模型的数据、在其上测试/验证机器学习模型的数据和/或机器学习模型在现场部署时遇到的数据。例如,如果在表现出与由原始训练数据表现出的模式/分布显著不同的模式/分布的数据上进一步训练机器学习模型,则可改进经训练的机器学习模型的性能。相比之下,如果在表现出与由原始训练数据表现出的模式/分布不显著不同的模式/分布的数据上进一步训练机器学习模型,则机器学习模型的性能可能受到负面影响。换句话说,在冗余和/或复制数据上的附加训练可导致过度拟合,这可降低机器学习模型的普遍性。又如,当在现场部署时,经训练的机器学习模型可准确地分析表现出基本上类似于由原始训练数据表现出的模式/分布的模式/分布的数据。相比之下,当在现场部署时,机器学习模型可不准确地分析表现出基本上不类似于由原始训练数据表现出的模式/分布的模式/分布的数据。换句话说,机器学习模型可能在与在其上训练机器学习模型的数据不同的数据上执行得很差。
因此,能够快速比较由两个不同机器学习数据集(例如,可由机器学习模型分析和/或以其他方式作为输入可接收的数据集)表现出的模式/分布可允许模型开发者采取适当动作和/或作出决定。遗憾的是,常规技术不促进由两个不同机器学习数据集表现出的模式/分布之间的快速和/或客观比较。
例如,假设开发者决定是否在特定数据集上进一步训练已经训练的机器学习模型。如上所述,如果由特定数据集表现出的模式/分布充分不同于由已经在其上训练机器学习模型的数据集表现出的那种模式/分布,则在特定数据集上的进一步训练可能是有益的(例如,由于两个数据集不是冗余的和/或重复的,因此可避免过度拟合)。然而,如果由特定数据集表现出的模式/分布反而不充分不同于由已经在其上训练机器学习模型的数据集表现出的那些模式/分布,则在特定数据集上的进一步训练可能是有害的(例如,由于两个数据集是冗余和/或重复的,因此可发生过度拟合)。常规技术不提供允许开发者快速和/或稳健地确定特定数据集的模式/分布是否充分不同于训练数据集的那些模式/分布的任何工具。因此,开发者没有确定是否应当在特定数据集上进一步训练机器学习模型的严格和/或客观方式。
又如,假设开发者正决定数据增强策略(例如,基于模态的增强、基于生物学的增强、基于数学变换的增强)相对于机器学习模型是否适当。在此类情况下,开发者可通过将增强策略应用于在其上训练了机器学习模型的原始数据集来创建增强的数据集。从模型开发角度来看,如果增强的数据集“填充机器学习模型的学习间隙”,则增强策略可适合于机器学习模型。换句话说,如果由增强的数据集表现出的模式/分布充分不同于由原始数据集表现出的那些模式/分布,使得机器学习模型倾向于在在增强的数据集上进行任何训练之前不准确地分析增强的数据集,则增强策略可适合于机器学习模型。另一方面,如果由增强的数据集表现出的模式/分布不充分不同于原始数据集,使得机器学习模型倾向于在在增强的数据集上进行任何训练之前准确地分析增强的数据集,则增强策略可不适合于机器学习模型。常规技术不提供允许开发者快速和/或稳健地将增强的数据集的模式/分布与原始数据集的那些模式/分布进行比较的任何工具。因此,开发者没有确定增强策略相对于机器学习模型是否适当的严格和/或客观的方式。
再如,假设开发者决定是否经由在原始数据集上训练的机器学习模型来自动地注释和/或策划特定数据集,或者替代地手动地注释和/或策划特定数据集。如果由特定数据集表现出的模式/分布充分类似于由原始数据集表现出的那些模式/分布,则由机器学习模型进行的自动注释/策划可以是适当的。另一方面,如果由特定数据集表现出的模式/分布不充分类似于由原始数据集表现出的那些模式/分布,则由机器学习模型进行自动注释/策划可以是不适当的,这意味着可能需要手动注释/策划。常规技术不提供允许开发者快速和/或稳健地确定特定数据集的模式/分布是否充分类似于原始数据集的那些模式/分布的任何工具。因此,开发者没有确定自动注释/策划是否适当的严格的和/或客观方式。
本主题创新的各种实施方案可以解决这些技术问题中的一个或多个技术问题。本文所述的一个或多个实施方案包括可促进针对机器学习模型的数据多样性可视化和/或量化的设备、系统、计算机实现的方法、装置和/或计算机程序产品。在各种情况下,本主题创新的实施方案可被认为是计算机化工具(例如,计算机可执行硬件和/或计算机可执行软件的组合),该计算机化工具可电子地访问第一数据集和第二数据集,其中已经在第一数据集上训练机器学习模型,并且可从机器学习模型角度电子地量化第二数据集与第一数据集相比有多不同和/或多样化。换句话说,计算机化工具可电子地计算多样性分数,该多样性分数可指示与机器学习模型如何倾向于解释由第一数据集表现出的模式/分布相比,机器学习模型如何不同地倾向于解释由第二数据集表现出的模式/分布。此外,在各个方面中,计算机化工具可电子地呈现可视化(例如,图、曲线图),该可视化视觉地示出了此类不同地解释的模式/分布。因此,模型开发者可基于此类量化和/或可视化来相对于机器学习模型采取任何合适的动作和/或作出任何合适的决定(例如,可基于量化和/或可视化来决定发起和/或放弃对机器学习模型在第二数据集上的附加训练;可基于量化和/或可视化来决定发起第二数据集的自动和/或手动注释/策划)。即,在各种实施方案中,本文所述的计算机化工具可被认为是可由模型开发者利用的计算机化用户界面,以便允许模型开发者相对于机器学习模型作出更知情和/或客观的设计选择。
在各种实施方案中,这种计算机化工具可包括接收器部件、激活部件、压缩部件、多样性部件、可视化部件和/或执行部件。
在各种实施方案中,机器学习模型可包括任何合适的人工神经网络架构。例如,机器学习模型可包括任何合适数量的层,可在各个层中包括任何合适数量的神经元(例如,不同层可具有不同数量的神经元),可实现任何合适的激活函数(例如,softmax、双曲正切、sigmoid)和/或可实现任何合适的神经元间连接模式(例如,正向连接、跳过连接、递归连接)。
在各个方面中,可训练机器学习模型(例如,经由监督训练、无监督训练和/或加强学习)以接收数据候选作为输入并且基于数据候选产生某个输出。在各种情况下,数据候选可表现出任何合适的维度和/或格式(例如,可以是一个或多个标量、一个或多个矢量、一个或多个矩阵、一个或多个张量、一个或多个字符串和/或它们的任何合适组合)。类似地,在各种情况下,输出可表现出任何合适的维度和/或格式(例如,可以是一个或多个标量、一个或多个矢量、一个或多个矩阵、一个或多个张量、一个或多个字符串和/或它们的任何合适组合)。作为非限制性示例,数据候选可以是患者的医学图像(例如,患者膝盖的X射线图像、患者大脑的MRI图像),并且输出可以是对医学图像进行分类的标签(例如,其指示医学图像中特定解剖结构的存在和/或不存在)。
在各种实施方案中,可存在第一组数据候选和第二组数据候选。在各种情况下,第一组数据候选可包括任何合适数量的数据候选。同样,第二组数据候选可包括任何合适数量的数据候选(例如,与第一组数据候选相同的数量和/或不同的数量)。在各种情况下,机器学习模型可已经在第一组数据候选上被训练(例如,经由监督训练、无监督训练和/或加强学习)。在一些方面中,第二组数据候选可表示从与第一组数据候选不同的源获得的数据候选,并且与机器学习模型相关联的开发者可希望确定是否可期望机器学习模型准确地分析来自该不同源的数据候选以及/或者是否应当在来自该不同源的数据候选上进一步训练(例如,经由反向传播)机器学习模型。在其他方面中,可已经通过将增强策略应用于第一组数据候选来创建第二组数据候选,并且开发者可希望确定此类增强策略是否适于改进机器学习模型的普遍性。在其他方面中,第二组数据候选可以是未注释的,并且开发者可希望确定自动注释技术是否可准确地应用于第二组数据候选。如本文所述,计算机化工具可分析第一组数据候选和第二组数据候选,并且此类分析可被开发者用来客观地和/或严格地作出此类确定。
在各种实施方案中,计算机化工具的接收器部件可电子地接收和/或以其他方式电子地访问机器学习模型、第一组数据候选和/或第二组数据候选。在各种情况下,接收器部件可从任何合适的集中和/或分散数据结构(例如,图形数据结构、关系数据结构、混合数据结构)(无论是远离接收器部件和/或在接收器部件本地)电子地检索机器学习模型、第一组数据候选和/或第二组数据候选。因此,本文所述的计算机化工具的其他部件可与机器学习模型、第一组数据候选和/或第二组数据候选电子地交互。
在各种实施方案中,计算机化工具的激活部件可电子地获得第一组潜在激活和第二组潜在激活。在各个方面中,第一组潜在激活可由机器学习模型基于第一组数据候选来生成。同样,在各种情况下,第二组潜在激活可由机器学习模型基于第二组数据候选来生成。例如,在各个方面中,激活部件可将来自第一组数据候选的特定数据候选作为输入电子地馈送到机器学习模型。在各种情况下,机器学习模型的隐藏层可基于特定数据候选来生成特定潜在激活图。因此,可针对第一组数据候选中的每个数据候选获得潜在激活图,从而导致第一组潜在激活。类似地,在各个方面中,激活部件可将来自第二组数据候选的某一数据候选作为输入电子地馈送到机器学习模型。在各种情况下,机器学习模型的隐藏层可基于特定数据候选来生成某一潜在激活图。因此,可针对第二组数据候选中的每个数据候选获得潜在激活图,从而导致第二组潜在激活。
在各种实施方案中,计算机化工具的压缩部件可基于第一组潜在激活来电子地生成第一组经压缩的数据点。同样,在各种情况下,压缩部件可基于第二组潜在激活来电子地生成第二组经压缩的数据点。在各种情况下,压缩部件可经由任何合适的维度降低技术(诸如t分布随机相邻嵌入(t-SNE)和/或均匀流形近似和投影(UMAP))的应用来生成此类组的经压缩的数据点。例如,在各个方面中,压缩部件可将维度降低技术电子地应用于第一组潜在激活,从而将第一组潜在激活转换和/或变换成第一组经压缩的数据点。第一组潜在激活中的给定潜在激活图可对应于第一组经压缩的数据点中的给定经压缩的数据点,使得表示给定潜在激活图但包括比给定潜在激活图更少的维度(例如,更少的数字元素)的给定经压缩的数据点。类似地,在各个方面中,压缩部件可将维度降低技术电子地应用于第二组潜在激活,从而将第二组潜在激活转换和/或变换成第二组经压缩的数据点。第二组潜在激活中的给定潜在激活图可对应于第二组经压缩的数据点中的给定经压缩的数据点,使得表示给定潜在激活图但包括比给定潜在激活图更少的维度(例如,更少的数字元素)的给定经压缩的数据点。
如上所述,在各种实施方案中,数据候选可具有任何合适的维度(例如,可以是一个或多个标量、一个或多个矢量、一个或多个矩阵、一个或多个张量、一个或多个字符串和/或它们的任何合适的组合)。类似地,在各种情况下,根据机器学习模型的配置和/或结构,潜在激活图可具有任何合适的维度。在各个方面中,经压缩的数据点可具有小于潜在激活图的维度的任何合适的维度。作为非限制性示例,潜在激活图可以是由机器学习模型的隐藏层输出的数百和/或数千激活值的矩阵,并且经压缩的数据点可以是表示对应潜在激活图的二元素元组(例如二元素矢量)。作为另一个非限制性示例,潜在激活图可以是由机器学习模型的隐藏层输出的数百和/或数千激活值的矩阵,并且经压缩的数据点可以是表示对应潜在激活图的五十元素元组(例如五十元素矢量)。更一般地,对于任何合适的正整数n,经压缩的数据点可以是n元素元组(例如,n元素矢量),其中n小于潜在激活图中的元素的数量。因为经压缩的数据点可具有比潜在激活图更低的维度,所以在经压缩的数据点上比在潜在激活图上更容易执行计算。
在各个方面中,因为可在第一组数据候选上训练机器学习模型,所以机器学习模型可准确地分析由第一组数据候选表现出的模式/分布。对由第一组数据候选表现出的模式/分布的此类准确分析可最终使得第一组经压缩的数据点根据机器学习模型被配置/训练为产生的输出而被集群。例如,假设机器学习模型被配置/训练为产生二进制标签作为输出,该二进制标签指示被输入的数据候选是两个类别中的一个类别的成员。在此类情况下,第一组经压缩的数据点可形成两个集群;经压缩的数据点的一个集群表示机器学习模型推断属于第一类别的数据候选,而经压缩的数据点的另一个集群表示机器学习模型推断属于第二类别的数据候选。更一般地,对于任何合适的正整数m,如果机器学习模型被配置/训练为将数据候选分类到m个类别中的一个类别中,则第一组经压缩的数据点可被布置到m个集群中。在各种情况下,经压缩的数据点的集群可被识别为具有类似元素(例如,由小和/或短欧几里得距离分开)的多个经压缩的数据点。
在各种实施方案中,计算机化工具的多样性部件可基于第一组经压缩的数据点和/或基于第二组经压缩的数据点来电子地计算多样性分数。换句话说,多样性部件可实现任何合适的统计技术和/或统计核算(例如,平均值、中值、众数、标准差、方差)以便数学地量化第一组经压缩的数据点与第二组经压缩的数据点之间的统计差异。在各种情况下,多样性分数可以是指示第一组经压缩的数据点与第二组经压缩的数据点之间的此类统计差异的标量(和/或,在其他情况下,矢量、矩阵和/或张量)。
在各种情况下,第一组潜在激活可以被认为是通过机器学习模型对第一组数据候选的模式/分布的解释,并且第一组经压缩的数据点可被认为是第一组潜在激活的维度降低的版本。因此,第一组经压缩的数据点可以简化的并且因此计算顺从的格式表示机器学习模型如何解释由第一组数据候选表现出的模式/分布。同样,在各种情况下,第二组潜在激活可被认为是通过机器学习模型对第二组数据候选的模式/分布的解释,并且第二组经压缩的数据点可被认为是第二组潜在激活的维度降低的版本。因此,第二组经压缩的数据点可以简化的并且因此计算顺从的格式表示机器学习模型如何解释由第二组数据候选表现出的模式/分布。因此,因为可分别从第一组数据候选和第二组数据候选导出第一组经压缩的数据点和第二组经压缩的数据点,所以从机器学习模型的角度来看,多样性分数可因此指示由第一组数据候选表现出的模式/分布与由第二组数据候选表现出的模式/分布之间的统计差异。
在各个方面中,多样性分数可指示第二组经压缩的数据点是否拟合于和/或以其他方式符合第一组经压缩的数据点的集群。如果第二组经压缩的数据点拟合于和/或符合第一组经压缩的数据点的集群,则多样性分数在量值上可以是小的(例如,可低于任何合适的预先确定的阈值)。这可指示机器学习模型未检测到由第一组数据候选表现出的模式/分布与由第二组数据候选表现出的那些模式/分布之间的显著差异(例如,机器学习模型对于第一组数据候选与第二组数据候选之间的差异可以是不可知的)。另一方面,如果第二组经压缩的数据点不拟合于和/或符合第一组经压缩的数据点的集群,则多样性分数在量值上可以是大的(例如,可高于任何合适的预先确定的阈值)。这可指示机器学习模型检测到由第一组数据候选表现出的模式/分布与由第二组数据候选表现出的那些模式/分布之间的显著差异(例如,机器学习模型对于第一组数据候选与第二组数据候选之间的差异可以不是不可知的)。
在各个方面中,多样性部件可以任何合适的方式(例如,经由任何合适的数学和/或统计运算和/或函数)来计算和/或核算多样性分数。例如,在各种情况下,多样性部件可计算针对第一组经压缩的数据点的每个集群的中心。即,如果每个经压缩的数据点是n元素元组,则多样性部件可计算针对第一组经压缩的数据点的每个集群的中心n元素元组。在各种情况下,给定集群的中心n元素元组可等于在第一组经压缩的数据点中并且属于该集群的所有n元素元组的平均值(例如,可知道第一组经压缩的数据点中的每一者属于哪个集群,因为第一组数据候选可以是具有已知基准真值分类的训练数据集,并且因为可在第一组数据候选上训练机器学习模型)。
在各种情况下,对于第一组经压缩的数据点中的每个集群,多样性部件可然后计算该集群的中心与在第一组经压缩的数据点中并且属于该集群的每个经压缩的数据点之间的欧几里得距离。在各种情况下,对于第一组经压缩的数据点中的每个集群,多样性部件可因此计算此类计算出的欧几里得距离的平均值和/或标准差。对于第一组经压缩的数据点中的每个集群,结果可以是平均欧几里得距离值,为了方便表示为μ,以及标准差欧几里得距离值,为了方便表示为σ。可将给定集群的μ和σ认为是统计地描述该给定集群的密度和/或分布(例如,μ1和σ1可描述第一组经压缩的数据点的集群1的密度和/或分布;μ2以及σ2可描述第一组经压缩的数据点的集群2的密度和/或分布)。
在各种情况下,多样性部件可将第二组经压缩的数据点中的每一者分配给第一组经压缩的数据点的对应集群。更具体地,在各种情况下,如果给定的经压缩的数据点在欧几里得距离方面更接近给定集群的中心而不是第一组经压缩的数据点的任何其他集群的中心,则多样性部件可将第二组经压缩的数据点中的给定经压缩的数据点分配给第一组经压缩的数据点的给定集群。换句话说,多样性部件可将第二组经压缩的数据点中的每一者分配给第一组经压缩的数据点的最近集群。因此,对于每个集群,多样性部件可计算该集群的中心与在第二组经压缩的数据点中并且已经分配给该集群的每个经压缩的数据点之间的欧几里得距离。
在各种情况下,对于每个集群,多样性部件可计算已经分配给该集群并且在距该集群的中心的任何合适阈值欧几里得距离内和/或外的第二组经压缩的数据点的百分比和/或比例。作为非限制性示例,针对给定集群的阈值欧几里得距离可等于μ+2σ(例如μ1+2σ1可以是针对集群1的阈值欧几里得距离;μ2+2σ2可以是针对集群2的阈值欧几里得距离)。在各种情况下,如果第二组经压缩的数据点的经压缩的数据点在其分配的集群的中心的此类阈值欧几里得距离内,则该经压缩的数据点可被认为是非异常值。另一方面,如果第二组经压缩的数据点中的经压缩的数据点比距其分配的集群的中心的此类阈值欧几里得距离更远,则该经压缩的数据点可被认为是异常值。
在各个方面中,多样性部件可确定被认为是异常值的第二组经压缩的数据点的总百分比和/或比例。在各种情况下,多样性分数可以是被认为是异常值的第二组经压缩的数据点的此类总百分比和/或比例的任何合适的数学函数。在一些情况下,多样性分数可等于被认为是异常值的第二组经压缩的数据点的此类总百分比和/或比例。在任何情况下,多样性分数可数值地表示第二组经压缩的数据点拟合于第一组经压缩的数据点的集群中的良好程度和/或不良程度。对应地,与机器学习模型如何解释由第一组数据候选表现出的模式/分布相比,多样性分数因此可表示机器学习模型如何不同地解释由第二组数据候选表现出的模式/分布。
因此,在各种情况下,数值高的多样性分数可指示第二组经压缩的数据点的大部分被认为是异常值(例如,第二组经压缩的数据点的大部分没有整齐地拟合于第一组经压缩的数据点的集群),这可意味着机器学习模型与第一组数据候选的那些模式/分布不同地解释第二组数据候选的模式/分布。另一方面,在各种情况下,数值低的多样性分数可指示第二组经压缩的数据点的小部分被认为是异常值(例如,仅第二组经压缩的数据点的小部分没有整齐地拟合于第一组经压缩的数据点的集群),这可意味着机器学习模型与第一组数据候选的那些模式/分布类似地解释第二组数据候选的模式/分布。
本领域普通技术人员将理解,可由多样性部件实现任何其他合适的数学和/或统计技术以计算多样性分数。此外,尽管本文的公开内容主要讨论了多样性分数,其中数值较高的值指示较多的多样性并且数值较低的值指示较少的多样性,但是本领域普通技术人员将理解,这仅仅是非限制性示例。在各种其他实施方案中,多样性部件可替代地计算相似性分数,其中较高数值指示较多相似性(例如,较少多样性)并且其中较低数值指示较少相似性(例如,较多多样性)。在任何情况下,多样性部件可量化和/或测量第二组经压缩的数据点拟合于和/或符合第一组经压缩的数据点的集群的良好程度和/或不良程度,这可对应地指示由第二组数据候选表现出的模式/分布与由第一组数据候选表现出的模式/分布相比有多相似和/或有多不同。
在各种实施方案中,如果压缩部件实现产生二维或三维经压缩的数据点(例如,n=2和/或n=3)的维度降低技术,则计算机化工具的可视化部件可在任何合适的计算机屏幕/监视器上电子地呈现和/或绘制描绘和/或示出第一组经压缩的数据点和/或第二组经压缩的数据点的图。在各种情况下,第一组经压缩的数据点的集群可在此类图中被视觉地感知。此外,第二组经压缩的数据点拟合于和/或符合第一组经压缩的数据点的集群的良好程度和/或不良程度同样可在此类图中被视觉地感知。在一些情况下,可视化部件还可在图上和/或附近呈现多样性分数。
在各种情况下,可视化部件的呈现可由与机器学习模型相关联的开发者查看和/或可查看(例如,图和/或多样性分数可被呈现在由开发者可查看的计算机屏幕/监视器上)。因此,开发者可被获悉/通知多样性分数以及/或者可视觉地看到图,使得开发者可了解第二组经压缩的数据点如何不同于第一组经压缩的数据点,并且因此可了解由第二组数据候选表现出的模式/分布如何不同于由第一组数据候选表现出的模式/分布。在各种情况下,当作出关于机器学习模型的设计选择/决定时(例如,当确定是否在第二组数据候选上进一步训练机器学习模型时,当确定是否自动地注释第二组数据候选时),开发者可参考多样性分数和/或图。
在一些情况下,图可以是可交互的和/或可点击的。即,开发者可经由任何合适的人机接口设备(例如,计算机鼠标、触摸屏、语音命令)与图交互。在各种情况下,开发者可在绘制在图上的经压缩的数据点上点击,并且可视化部件可响应于此类点击而呈现来自第一组数据候选和/或第二组数据候选的对应于被点击的经压缩的数据点的数据候选。因此,开发者可通过在数据候选的对应经压缩的数据点上进行点击来根据需要手动地检查任何合适的数据候选。
在各种实施方案中,计算机化工具的执行部件可电子地采取任何合适的计算机化动作和/或可基于多样性分数来电子地作出任何合适的推荐。例如,如果开发者希望确定是否在第二组数据候选上进一步训练机器学习模型,则执行部件可将多样性分数与任何合适的预先确定的阈值进行比较。如果多样性分数超过预先确定的阈值,则执行部件可确定第二组数据候选的模式/分布充分不同于第一组数据候选的那些模式/分布,使得可避免过度拟合。因此,执行部件可推荐在第二组数据候选上进一步训练机器学习模型。另一方面,如果多样性分数未超过预先确定的阈值,则执行部件可确定第二组数据候选的模式/分布不充分不同于第一组数据候选的模式/分布,使得可能发生过度拟合。因此,执行部件可推荐不在第二组数据候选上进一步训练机器学习模型。
又如,如果开发者希望确定是否在与第二组数据候选相关联的环境中部署机器学习模型,则执行部件可将多样性分数与任何合适的预先确定的阈值进行比较。如果多样性分数超过预先确定的阈值,则执行部件可确定第二组数据候选的模式/分布不充分类似于第一组数据候选的那些模式/分布,使得预期不准确的性能。因此,执行部件可推荐不在与第二组数据候选相关联的环境中部署机器学习模型。另一方面,如果多样性分数未超过预先确定的阈值,则执行部件可确定第二组数据候选的模式/分布充分类似于第一组数据候选的那些模式/分布,使得可预期准确的性能。因此,执行部件可推荐在与第二组数据候选相关联的环境中部署机器学习模型。
再如,如果经由增强策略创建第二组数据候选,并且如果开发者希望确定增强策略是否适合于机器学习模型,则执行部件可将多样性分数与任何合适的预先确定的阈值进行比较。如果多样性分数超过预先确定的阈值,则执行部件可确定机器学习模型认为第二组数据候选的模式/分布充分不同于第一组数据候选的模式/分布,使得增强策略是有效的。因此,执行部件可推荐增强策略适合于机器学习模型。另一方面,如果多样性分数不超过预先确定的阈值,则执行部件可确定机器学习模型认为由第二组数据候选表现出的模式/分布不充分不同于由第一组数据候选表现出的模式/分布,使得增强策略不是有效的。因此,执行部件可推荐增强策略不适合于机器学习模型。
再如,如果第二组数据候选是未注释的,并且如果开发者希望确定自动注释技术是否适合于第二组数据候选,则执行部件可将多样性分数与任何合适的预先确定的阈值进行比较。如果多样性分数超过预先确定的阈值,则执行部件可确定机器学习模型认为第二组数据候选的模式/分布不充分类似于第一组数据候选的那些模式/分布,使得自动注释将不产生准确标签。因此,执行部件可推荐将手动注释应用于第二组数据候选。另一方面,如果多样性分数不超过预先确定的阈值,则执行部件可确定机器学习模型认为第二组数据候选的模式/分布充分类似于第一组数据候选的那些模式/分布,使得自动注释将产生准确标签。因此,执行部件可推荐将自动注释应用于第二组数据候选。在一些实施方案中,执行部件可推荐仅与第二组经压缩的数据点的异常值对应的数据候选被手动地注释,以及/或者可推荐仅与第二组经压缩的数据点的非异常值对应的数据候选被自动地注释。
本主题创新的各种实施方案可用于使用硬件和/或软件来解决本质上是高度技术性的问题(例如,以促进针对机器学习模型的数据多样性可视化和/或量化),这些问题不是抽象的并且不能作为人类的一组心理行为来执行。此外,所执行的过程中的一些过程可由专用计算机(例如,经训练的机器学习模型)执行,该专用计算机用于执行与数据多样性可视化和/或量化相关的限定的任务。例如,此类限定的任务可包括;由可操作地耦接到处理器的设备访问第一组数据候选和第二组数据候选,其中在第一组数据候选上训练机器学习模型;由该设备获得由机器学习模型基于第一组数据候选生成的第一组潜在激活,并且由该设备获得由机器学习模型基于第二组数据候选生成的第二组潜在激活;由该设备通过将维度降低技术应用于第一组潜在激活来生成第一组经压缩的数据点,并且由该设备通过将该维度降低技术应用于第二组潜在激活来生成第二组经压缩的数据点;由该设备基于第一组经压缩的数据点和第二组经压缩的数据点来计算多样性分数;以及/或者由该设备呈现描绘第一组经压缩的数据点和第二组经压缩的数据点的图。此类限定的任务在常规上不由人类手动执行。此外,人的精神和带笔和纸的人类都不能电子地访问机器学习模型、在其上训练机器学习模型的第一组数据候选、以及第二组数据候选;可将第一组数据候选和第二组数据候选电子地馈送到机器学习模型以获得第一组潜在激活和第二组潜在激活;可电子地将维度降低应用于第一组潜在激活和第二组潜在激活,从而产生第一组经压缩的数据点和第二组经压缩的数据点;可电子地计算量化第一组经压缩的数据点与第二组经压缩的数据点之间的差异的多样性分数;以及/或者可电子地呈现描绘第一组经压缩的数据点和第二组经压缩的数据点的图。替代地,本主题创新的各种实施方案本质上且密不可分地与计算机技术相关,并且不能在计算环境之外实现(例如,本主题创新的实施方案构成了可自动地量化和/或可视化两个不同机器学习数据集之间的差异的计算机化用户界面;此类计算机化工具在没有计算机的情况下不能以任何合理的方式实施)。
此外,本主题创新的各种实施方案可将关于针对机器学习模型的数据多样性可视化和/或量化的所公开的教导内容集成到实际应用中。如上所述,模型开发者不具有允许他们在开发机器学习模型时快速和/或客观地作出各种设计决定的常规工具。例如,模型开发者可能想要提前确定在特定数据集上的进一步训练是否将提高特定机器学习模型的普遍性或者替代地将使得特定机器学习模型变得过度拟合。如果模型开发者提前不知道此类信息,则存在执行训练并导致过度拟合的风险,这构成浪费的时间和/或资源。又如,模型开发者可能想要提前确定增强策略是否适合于特定机器学习模型。如果模型开发者提前不知道此类信息,则存在尽管不适合于特定机器学习模型但应用增强策略的风险,这构成浪费的时间和/或资源。再如,模型开发者可能想要提前确定特定未注释的数据集是否可经由自动注释技术(例如,基于到已知样本的距离的转移学习)被准确地标记,或者该特定数据集反而是否应当被手动地注释。如果模型开发者提前不知道此类信息,则存在手动注释被不必要地执行或者自动注释被执行而不管高水平的不精确性的风险,这两者构成浪费的时间和/或资源。常规工具不辅助模型开发者作出这些确定,并且因此常规工具不能帮助模型开发者避免浪费时间和/或资源的此类风险。
形成鲜明对比的是,本文所述的计算机化工具可协助模型开发者作出此类确定,并且可因此有助于避免浪费时间和/或资源的此类风险。具体地,本文所述的计算机化工具可电子地访问第一数据集和第二数据,其中在第一数据集上训练机器学习模型。此外,计算机化工具可通过分别将第一数据集和第二数据集馈送到机器学习模型并且通过分别从机器学习模型的隐藏层提取第一组潜在激活值和第二组潜在激活值来电子地获得第一组潜在激活值和第二组潜在激活值。在各种情况下,计算机化工具可经由任何合适的维度降低技术(例如,t-SNE和/或UMAP)将第一组潜在激活值和第二组潜在激活值电子压缩成第一组经压缩的数据点和第二组经压缩的数据点。在各种情况下,计算机化工具可电子地计算多样性分数,该多样性分数量化和/或测量第二组经压缩的数据点符合由第一组经压缩的数据点表现出的集群的紧密程度。数值高的多样性分数可指示第二组经压缩的数据点不紧密地符合第一组经压缩的数据点的集群,这可意味着机器学习模型以与第一数据集不同的方式解释第二数据集。另一方面,数值低的多样性分数可指示第二组经压缩的数据点紧密符合第一组经压缩的数据点的集群,这可意味着机器学习模型与第一数据集类似地解释第二数据集。在各种情况下,计算机化工具可视觉地呈现多样性分数和/或可在模型开发者可见的图上视觉地呈现第一经压缩的数据点和第二经压缩的数据点。因此,模型开发者可被通知多样性分数和/或可手动查看图。因此,模型开发者可确定第一数据集和第二数据集是否充分类似和/或充分不同,并且模型开发者可相应地作出关于机器学习模型的设计选择/决定(例如,如果多样性分数足够高,则可在第二数据集上进一步训练机器学习模型而没有过度拟合的风险;如果多样性分数足够低,则可将自动注释技术应用于第二数据集)。这种计算机化工具显然构成计算机的有用而且实际的应用。
此外,本主题创新的各种实施方案可以基于所公开的教导内容来控制真实世界的有形设备。例如,本主题创新的各种实施方案可电子地访问机器学习模型,其可以是有形计算硬件和/或软件的任何合适的组合。在各种情况下,本主题创新的实施方案可电子地训练和/或推荐在给定数据集上训练机器学习模型。此外,在各个方面中,本主题创新的实施方案可在任何合适的计算机屏幕上电子地呈现各种可视化和/或图。
应当理解,本文的附图和描述提供了本主题创新的非限制性示例。
图1示出了根据本文所述的一个或多个实施方案的可促进针对机器学习模型的数据多样性的可视化和/或量化的示例性、非限制性系统100的框图。如图所示,数据多样性系统102可经由任何合适的有线和/或无线电子连接与机器学习模型104、一组训练数据候选106和/或一组测试数据候选108电子地集成。
在各种情况下,机器学习模型104可以是人工神经网络,该人工神经网络可表现出任何合适的人工神经网络架构。例如,机器学习模型104可包括任何合适数量的层。在各种情况下,机器学习模型104可在各种层中包括任何合适数量的神经元(例如,不同层可具有彼此不同数量的神经元,不同层可具有彼此相同数量的神经元)。在各个方面中,机器学习模型104的各种神经元可实现任何合适的激活函数(例如,sigmoid、softmax、双曲正切、修正线性单元)。在各种情况下,机器学习模型104可实现任何合适的连接模式(例如,神经元之间的正向连接、神经元之间的跳过连接、神经元之间的递归连接)。尽管本文公开内容主要讨论其中机器学习模型104是人工神经网络的实施方案,但这仅仅是非限制性示例。在各种实施方案中,机器学习模型104可实现任何其他合适的机器学习架构。
在各个方面中,机器学习模型104可以任何合适的方式配置,以便能够接收数据候选作为输入并且以便能够基于该数据候选产生某一输出。在各种情况下,数据候选可具有任何合适的维度(例如,可以是一个或多个标量、一个或多个矢量、一个或多个矩阵、一个或多个张量和/或一个或多个字符串)。在各种情况下,输入可具有任何合适的维度(例如,可以是一个或多个标量、一个或多个矢量、一个或多个矩阵、一个或多个张量和/或一个或多个字符串)。例如,机器学习模型104可被配置为接收医学图像(例如,X射线图像、MRI图像、CT图像)作为输入并且产生将医学图像分类为两个或更多个不同类别中的一个类别的标签(例如,指示在医学图像中描绘的解剖结构的标签)作为输出。
在各种情况下,该组训练数据候选106可包括任何合适数量的训练数据候选。在各种情况下,训练数据候选可以是在其上训练和/或已经训练机器学习模型104的数据候选。例如,机器学习模型104的内部参数(例如,权重矩阵、偏差值)可能已经基于该组训练数据候选106和/或基于对应于该组训练数据候选106的基准真值注释经由反向传播被迭代地更新。在一些情况下,该组训练数据候选106可被认为是从在其上训练和/或已经训练机器学习模型104的甚至更大的数据候选集合(未示出)取得的样本和/或子集。
在各个方面中,该组测试数据候选108可包括任何合适数量的测试数据候选。在各种情况下,测试数据候选可以是在其上没有和/或尚未训练机器学习模型104的数据候选。在各种情况下,与机器学习模型104相关联的操作者(未示出)可能希望作出关于该组测试数据候选108的设计选择和/或设计决定。例如,在一些情况下,该组测试数据候选108可源自和/或采样自特定领域和/或环境,并且操作者可希望确定机器学习模型104是否可被准确地部署在该特定领域和/或环境中。又如,该组测试数据候选108可被认为是潜在训练数据;即,操作者可希望确定是否可在该组测试数据候选108上训练机器学习模型104而不经历过度拟合。再如,可通过将数据增强策略应用于该组训练数据候选106来创建该组测试数据候选108,并且操作者可希望确定数据增强策略是否帮助推广机器学习模型104。又再如,该组测试数据候选108可以是未注释的,并且操作者可希望确定该组测试数据候选108是否可被准确地自动地注释。如本文所述,数据多样性系统102可基于该组训练数据候选106和/或该组测试数据候选108来电子地生成结果和/或可视化,并且此类结果和/或可视化可被操作者利用以快速地和/或客观地作出此类确定。
在各种实施方案中,数据多样性系统102可包括处理器110(例如,计算机处理单元、微处理器)和可操作地和/或操作地和/或可通信地连接/耦接到处理器110的计算机可读存储器112。计算机可读存储器112可存储计算机可执行指令,该计算机可执行指令在由处理器110执行时可使得数据多样性系统102的处理器110和/或其他部件(例如,接收器部件114、激活部件116、压缩部件118、多样性部件120、可视化部件122和/或执行部件124)执行一个或多个动作。在各种实施方案中,计算机可读存储器112可存储计算机可执行部件(例如,接收器部件114、激活部件116、压缩部件118、多样性部件120、可视化部件122和/或执行部件124),并且处理器110可执行计算机可执行部件。
在各种实施方案中,数据多样性系统102可包括接收器部件114。在各个方面中,接收器部件114可从任何合适的集中和/或分散数据结构(未示出)(无论是远离接收器部件114和/或在该接收器部件本地)电子地检索和/或以其他方式电子地访问机器学习模型104,该组训练数据候选106和/或该组测试数据候选108。因此,在各种情况下,数据多样性系统102的其他部件可操纵机器学习模型104、该组训练数据候选106和/或该组测试数据候选108和/或以其他方式与该机器学习模型、该组训练数据候选和/或该组测试数据候选交互。
在各种实施方案中,数据多样性系统102可包括激活部件116。在各个方面中,激活部件116可基于该组训练数据候选106来电子地获得一组训练激活图,以及/或者可基于该组测试数据候选108来电子地获得一组测试激活图。更具体地,在各种情况下,激活部件116可将训练数据候选(例如,该组训练数据候选106中的一者)电子地馈送到机器学习模型104,并且激活部件116可基于训练数据候选从机器学习模型104电子地提取由机器学习模型104的隐藏层生成的激活图(例如,因此称为“训练激活图”)。激活部件116可针对该组训练数据候选106中的每个(和/或少于每个)训练数据候选重复该操作,从而产生该组训练激活图。同样,在各种情况下,激活部件116可将测试数据候选(例如,该组测试数据候选108中的一者)电子地馈送到机器学习模型104,并且激活部件116可基于测试数据候选从机器学习模型104电子地提取由机器学习模型104的隐藏层生成的激活图(例如,因此称为“测试激活图”)。激活部件116可针对该组测试数据候选108中的每个(和/或少于每个)测试数据候选重复该操作,从而产生该组测试激活图。在各种情况下,该组训练激活图可被认为示出了机器学习模型104如何内部地解释该组训练数据候选106。类似地,该组测试激活图可被认为示出了机器学习模型104如何内部地解释该组测试数据候选108。
在各种实施方案中,数据多样性系统102可包括压缩部件118。在各个方面中,压缩部件118可电子地减小该组训练激活图和/或该组测试激活图的维度。更具体地,在各种情况下,压缩部件118可通过在该组训练激活图上执行任何合适的维度降低技术来电子地生成一组经压缩的训练数据点。即,压缩部件118可将训练激活图转换成经压缩的训练数据点,其中经压缩的训练数据点可以是具有比训练激活图更低维度(例如,更少元素)的矢量。压缩部件118可针对该组训练激活图中的每个(和/或少于每个)训练激活图重复该操作,从而产生该组经压缩的训练数据点。同样,在各种情况下,压缩部件118可通过在该组测试激活图上执行维度降低技术来电子地生成该组经压缩的测试数据点。即,压缩部件118可将测试激活图转换成经压缩的测试数据点,其中经压缩的测试数据点可以是具有比测试激活图更低维度(例如,更少元素)的矢量。压缩部件118可针对该组测试激活图中的每个(和/或少于每个)测试激活图重复该操作,从而产生该组经压缩的测试数据点。
在各种情况下,该组经压缩的训练数据点可被认为在减小的特征空间中表现出和/或概括机器学习模型104如何解释包含在该组训练数据候选106中的模式/分布。类似地,在各个方面中,该组经压缩的测试数据点可被认为在减小的特征空间中表现出和/或概括机器学习模型104如何解释包含在该组测试数据候选108中的模式/分布。
在各种实施方案中,数据多样性系统102可包括多样性部件120。在各个方面中,多样性部件120可基于该组经压缩的训练数据点和/或该组经压缩的测试数据点来电子地计算多样性分数。更具体地,多样性部件120可应用任何合适的数学和/或统计核算,以便统计地将该组经压缩的训练数据点与该组经压缩的测试数据点进行比较。
如上所述,因为可在该组训练数据候选106上训练机器学习模型104,并且因为可从该组训练数据候选106导出该组经压缩的训练数据点,所以该组经压缩的训练数据点可表现出集群布置,该集群布置可对应于机器学习模型104被配置为产生的输出。例如,对于任何合适的正整数m,如果机器学习模型104被配置为产生将被输入的数据候选分类到m个不同类别中的一个类别的标签,则该组经压缩的训练数据点可具有m个不同集群(例如,类似值的经压缩的训练数据点的m个不同子集)。
在各种情况下,多样性部件120可计算定义该组经压缩的训练数据点的集群布置的统计度量(例如,均值、中值、众数、标准差)。在各个方面中,多样性部件120然后可确定该组经压缩的测试数据点是否符合定义该组经压缩的训练数据点的集群布置的统计度量。如果该组经压缩的测试数据点确实符合此类统计度量,则多样性部件120可输出低多样性分数,该低多样性分数可指示该组经压缩的训练数据点与该组经压缩的测试数据点之间的低多样性水平。此类低多样性分数可对应地指示机器学习模型104如何解释由该组训练数据候选106表现出的模式/分布与机器学习模型104如何解释由该组测试数据候选108表现出的模式/分布之间的低水平差异。相比之下,如果该组经压缩的测试数据点确实不符合此类统计度量,则多样性部件120可输出高多样性分数,该高多样性分数可指示该组经压缩的训练数据点与该组经压缩的测试数据点之间的高多样性水平。此类高多样性分数可对应地指示机器学习模型104如何解释由该组训练数据候选106表现出的模式/分布与机器学习模型104如何解释由该组测试数据候选108表现出的模式/分布之间的高水平差异。
在各种实施方案中,数据多样性系统102可包括可视化部件122。在各个方面中,如果经压缩的数据点是二元素矢量和/或三元素矢量,则可视化部件122可在由操作者可查看的任何合适的计算机监视器/屏幕(未示出)上电子地呈现描绘该组经压缩的训练数据点和/或该组经压缩的测试数据点的图。在各种情况下,可视化部件122也可在计算机监视器/屏幕上电子地呈现多样性分数。因此,可视觉地通知操作者多样性分数和/或图。在一些情况下,该图可以是可交互的和/或可点击的(例如,经由计算机鼠标和/或任何其他合适的人机接口设备)。在各种情况下,当操作者在图中所绘制的给定经压缩的数据点上点击时,可视化部件可在计算机监视器/屏幕上电子地呈现对应于被点击的经压缩的数据点的数据候选,从而允许操作者根据需要快速且手动地检查数据候选。在任何情况下,当作出关于该组测试数据候选108和/或机器学习模型104的各种设计决定时,操作者可因此利用多样性分数和/或图。
在各种实施方案中,数据多样性系统102可包括执行部件124。在各个方面中,执行部件124可将多样性分数和/或图电子地传输到任何其他合适的计算设备(未示出)。在各种情况下,执行部件124可基于多样性分数来向操作者作出各种电子推荐。例如,如果操作者希望确定是否可在该组测试数据候选108上训练机器学习模型104而不经历过度拟合,则执行部件124可将多样性分数与任何合适的阈值进行比较并且可相应地作出推荐。又如,如果操作者希望确定机器学习模型104是否可被准确地部署在与该组测试数据候选108相关联的领域和/或环境中,则执行部件124可将多样性分数与任何合适的阈值进行比较并且可相应地作出推荐。再如,如果通过经由增强策略修改该组训练数据候选106来创建该组测试数据候选108,并且如果操作者希望确定此类增强策略是否有助于提高机器学习模型104的普遍性,则执行部件124可将多样性分数与任何合适的阈值进行比较并且可相应地作出推荐。又再如,如果该组测试数据候选108是未注释的,并且如果操作者希望确定自动注释是否可被准确地应用于该组测试数据候选108,则执行部件124可将多样性分数与任何合适的阈值进行比较并且可相应地作出推荐。
图2示出了根据本文所述的一个或多个实施方案的可促进针对机器学习模型的数据多样性的可视化和/或量化的包括激活图的示例性、非限制性系统200的框图。如图所示,在一些情况下,系统200可包括与系统100相同的部件,并且还可包括一组训练激活图202和/或一组测试激活图204。
在各种实施方案中,激活部件116可基于该组训练数据候选106来电子地获得该组训练激活图202,以及/或者可基于该组测试数据候选108来电子地获得该组测试激活图204。更具体地,在各种情况下,激活部件116可将该组训练数据候选106中的每一者电子地馈送到机器学习模型104,并且可电子地提取由机器学习模型104的隐藏层生成的激活值,从而产生该组训练激活图202。以类似方式,在各个方面中,激活部件116可将该组测试数据候选108中的每一者电子地馈送到机器学习模型104,并且可电子地提取由机器学习模型104的隐藏层生成的激活值,从而产生该组测试激活图204。相对于图3至图4更详细地解释了这一点。
图3至图4示出了根据本文所述的一个或多个实施方案的示出可如何获得各种激活图的示例性、非限制性框图。
如图3所示,在各种实施方案中,机器学习模型104可包括一组层302。在各种情况下,该组层302可包括p个层,对于任何合适的正整数p;即,层1到层p。在各个方面中,层1可被认为是输入层,而层p可被认为是输出层。在各种情况下,该组层302中的中间和/或隐藏层可被表示为中间和/或隐藏层j,其中j可以是大于1且小于p的任何合适的正整数。除了层1和层p之外的任何层可被认为是机器学习模型104的隐藏层。如上所述,该组层中302中的每个层可具有任何合适数量的神经元,可实现任何合适类型的激活函数,和/或可经由任何合适的连接模式连接到其他层。
在各种实施方案中,激活部件116可将训练数据候选304作为输入馈送到机器学习模型104,其中训练数据候选304可以是来自该组训练数据候选106的数据候选中的一个数据候选。因此,机器学习模型104可分析训练数据候选304并且可基于训练数据候选304来生成输出306。如上所述,输出306可以是对训练数据候选304进行分类的标签。
进一步详细地,层1可接收训练数据候选304并且可基于训练数据候选304来生成各种潜在激活(例如,可生成一个或多个潜在激活图)。在各种情况下,由层1生成的潜在激活可由下一层2(未示出)接收。基于由层1提供的潜在激活,层2可生成其自身的潜在激活,该潜在激活然后可由下一层3(未示出)接收。类似地,层j可接收由先前层j-1生成的潜在激活,并且可基于由先前层j-1提供的潜在激活来生成其自身的潜在激活。如图所示,由层j生成的潜在激活可被称为训练激活图308(例如,可使用术语“训练”,因为潜在激活是基于训练数据候选304的)。尽管图3将层j描绘为仅生成一个激活图,但这是非限制性示例。在各种情况下,层j可生成任何合适数量的激活图。在各种情况下,下一层j+1(未示出)然后可接收由层j生成的训练激活图308,并且可基于训练激活图308来生成其自身的潜在激活。同样,层p可接收由先前层p-1(未示出)产生的潜在激活,并且可基于先前层p-1的潜在激活来生成输出306。
在各个方面中,在激活部件116将训练数据候选304馈送到层1之后,激活部件116可电子地提取、捕获和/或以其他方式记录由层j产生的训练激活图308。在各种情况下,训练激活图308可被认为是由机器学习模型104的隐藏层(例如,层j)基于训练数据候选304生成的潜在激活图。在各种情况下,激活部件116可针对该组训练数据候选106中的每个(和/或少于每个)数据候选重复该过程。此类重复的最终结果可以是该组训练激活图202。
图4类似于图3。如图4所示,在各种实施方案中,激活部件116可将测试数据候选402作为输入馈送到机器学习模型104,其中测试数据候选402可以是来自该组测试数据候选108的数据候选中的一个数据候选。因此,机器学习模型104可分析测试数据候选402并且可基于测试数据候选402来生成输出404。如上所述,输出404可以是对测试数据候选402进行分类的标签。
进一步详细地,层1可接收测试数据候选402并且可基于测试数据候选402来生成各种潜在激活(例如,可生成一个或多个潜在激活图)。在各种情况下,由层1生成的潜在激活可由下一层2(未示出)接收。基于由层1提供的潜在激活,层2可生成其自身的潜在激活,该潜在激活然后可由下一层3(未示出)接收。类似地,层j可接收由先前层j-1生成的潜在激活,并且可基于由先前层j-1提供的潜在激活来生成其自身的潜在激活。如图所示,由层j生成的潜在激活可被称为测试激活图406(例如,可使用术语“测试”,因为潜在激活是基于测试数据候选402的)。尽管图4将层j描绘为仅生成一个激活图,但这是非限制性示例。在各种情况下,层j可生成任何合适数量的激活图。在各种情况下,下一层j+1(未示出)然后可接收由层j生成的测试激活图406,并且可基于测试激活图406来生成其自身的潜在激活。同样,层p可接收由先前层p-1(未示出)产生的潜在激活,并且可基于先前层p-1的潜在激活来生成输出404。
在各个方面中,在激活部件116将测试数据候选402馈送到层1之后,激活部件116可电子地提取、捕获和/或以其他方式记录由层j产生的测试激活图406。在各种情况下,测试激活图406可被认为是由机器学习模型104的隐藏层(例如,层j)基于测试数据候选402生成的潜在激活图。在各种情况下,激活部件116可针对该组测试数据候选108中的每个(和/或少于每个)数据候选重复该过程。此类重复的最终结果可以是该组测试激活图204。
如上所述,在各种实施方案中,训练数据候选304和/或测试数据候选402可表现出任何合适的维度(例如,每个维度可以是一个或多个标量、一个或多个矢量、一个或多个矩阵、一个或多个张量和/或它们的任何合适的组合)。类似地,在各种情况下,输出306和/或输出404可表现出任何合适的维度。此外,在各个方面中,由该组层302中的层生成的潜在激活可表现出任何合适的维度。实际上,本领域普通技术人员将理解,潜在激活图(例如,308和/或406)的维度可取决于生成潜在激活图的层中的神经元的数量和/或布置(例如,不同层可具有不同数量的神经元并且因此可生成具有不同维度的不同潜在激活)。
本领域普通技术人员将理解,该组训练激活图202可表示和/或以其他方式指示机器学习模型104如何内部地解释该组训练数据候选106。同样,该组测试激活图204可被认为表示和/或以其他方式指示机器学习模型104如何内部地解释该组测试数据候选108。因此,可能可希望将该组训练激活图202与该组测试激活图204进行比较。然而,因为该组训练激活图202和/或该组测试激活图204中的每个激活图可以是高维矩阵和/或张量(例如,每个激活图可包括数百和/或数千个元素),所以在该组训练激活图202上和/或在该组测试激活图204上执行计算可能是困难的和/或未达最佳的。
图5示出了根据本文所述的一个或多个实施方案的可促进针对机器学习模型的数据多样性的可视化和/或量化的包括经压缩的数据点的示例性、非限制性系统500的框图。如图所示,在一些情况下,系统500可包括与系统200相同的部件,并且还可包括一组经压缩的训练数据点502和/或一组经压缩的测试数据点504。
在各种实施方案中,压缩部件118可基于该组训练激活图202电子地生成该组经压缩的训练数据点502,以及/或者可基于该组测试激活图204电子地生成该组经压缩的测试数据点504。更具体地,在各种情况下,压缩部件118可经由任何合适的维度降低技术(例如,t-SNE和/或UMAP)电子地降低该组训练激活图202中的每一者的维度,从而产生该组经压缩的训练数据点502。类似地,在各种情况下,压缩部件118可经由维度降低技术电子地减少该组测试激活图204中的每一者的维度,从而产生该组经压缩的测试数据点504。相对于图6更详细地解释了这一点。
图6示出了根据本文所述的一个或多个实施方案的示出可如何获得各种经压缩的数据点的示例性、非限制性框图。
如图所示,在各种情况下,该组训练激活图202可包括任何适当数量的训练激活图。即,该组训练激活图202可针对任何合适的正整数x包括训练激活图1至训练激活图x。在各种情况下,压缩部件118可将任何合适的维度降低技术(例如,t-SNE、UMAP)电子地应用于该组训练激活图202,从而将该组训练激活图202转换和/或变换成该组经压缩的训练数据点502。如图所示,该组经压缩的训练数据点502可分别对应于该组训练激活图202。换句话说,因为该组训练激活图202可包括x个单独的训练激活图,所以该组经压缩的训练数据点502可包括x个单独的经压缩的训练数据点(例如,经压缩的训练数据点1至经压缩的训练数据点x)。更具体地,经压缩的训练数据点1可对应于训练激活图1,这意味着经压缩的训练数据点1可被认为是训练激活图1的经压缩和/或维度降低的版本。例如,对于任何合适的正整数n(例如,n=2,n=50),训练激活图1可以是具有数百和/或数千元素的矩阵,并且经压缩的训练数据点1可以是表示训练激活图1的n元素矢量。类似地,经压缩的训练数据点x可对应于训练激活图x,这意味着经压缩的训练数据点x可被认为是训练激活图x的经压缩和/或维度降低的版本。例如,训练激活图x可以是具有数百和/或数千元素的矩阵,并且经压缩的训练数据点x可以是表示训练激活图x的n元素矢量。因为该组经压缩的训练数据点502可从该组训练激活图202导出,所以该组经压缩的训练数据点502可表现出该组训练激活图202的模式/分布。然而,由于该组经压缩的训练数据点502可具有比该组训练激活图202更低的维度,所以在该组经压缩的训练数据点502上比在该组训练激活图202上可更容易地执行计算。
如图所示,在各种情况下,该组测试激活图204可包括任何适当数量的训练激活图。即,对于任何合适的正整数y,该组测试激活图204可包括训练激活图1至训练激活图y(例如,y可等于或不等于x)。在各种情况下,压缩部件118可将任何合适的维度降低技术(例如,t-SNE、UMAP)电子地应用于该组测试激活图204,从而将该组测试激活图204转换和/或变换成该组经压缩的测试数据点504。如图所示,该组经压缩的测试数据点504可分别对应于该组测试激活图204。换句话说,因为该组测试激活图204可包括是y个单独的测试激活图,所以该组经压缩的测试数据点504可包括y个单独的经压缩的测试数据点(例如,经压缩的测试数据点1至经压缩的测试数据点y)。更具体地,经压缩的测试数据点1可对应于测试激活图1,这意味着经压缩的测试数据点1可被认为是测试激活图1的经压缩和/或维度降低的版本。例如,对于任何合适的正整数n(例如,n=2,n=50),测试激活图1可以是具有数百和/或数千元素的矩阵,并且经压缩的测试数据点1可以是表示测试激活图1的n元素矢量。类似地,经压缩的测试数据点y可对应于测试激活图y,这意味着经压缩的测试数据点y可被认为是测试激活图y的经压缩和/或维度降低的版本。例如,测试激活图y可以是具有数百和/或数千元素的矩阵,并且经压缩的测试数据点y可以是表示测试激活图y的n元素矢量。因为该组经压缩的测试数据点504可从该组测试激活图204导出,所以该组经压缩的测试数据点504可表现出该组测试激活图204的模式/分布。然而,由于该组经压缩的测试数据点504可具有比该组测试激活图204更低的维度,所以在该组经压缩的测试数据点504上比在该组测试激活图204上可更容易地执行计算。
图7示出了根据本文所述的一个或多个实施方案的可促进针对机器学习模型的数据多样性的可视化和/或量化的包括多样性分数的示例性、非限制性系统700的框图。如图所示,在一些情况下,系统700可包括与系统500相同的部件,并且还可包括多样性分数702。
在各种实施方案中,多样性部件120可基于该组经压缩的训练数据点502和/或基于该组经压缩的测试数据点504来电子地计算多样性分数702。更具体地,多样性部件120可统计地分析由该组经压缩的训练数据点502表现出的模式/分布,并且可计算该组经压缩的测试数据点504符合那些模式/分布的良好程度和/或不良程度的度量。
在各种实施方案中,如上所述,因为该组经压缩的训练数据点502可从该组训练数据候选106导出,并且因为机器学习模型104可在该组训练数据候选106上训练,所以该组经压缩的训练数据点502可表现出对应于机器学习模型104被配置为生成的输出的集群。例如,对于任何合适的正整数m,如果机器学习模型104被配置为将被输入的数据候选分类到m个不同类别中的一个类别中,则经压缩的训练数据点502可被布置到m个集群中。在各个方面中,集群可以是具有彼此类似的元素的经压缩的训练数据点的集合和/或子集(例如,如果两个训练数据候选属于相同类别,则分别对应于这两个训练数据候选的两个经压缩的训练数据点可具有数值类似的元素和/或可以其他方式彼此分开相对小的欧几里得距离)。
在各种情况下,对于每个集群,多样性部件120可计算该集群的中心。在各个方面中,给定集群的中心可等于属于该给定集群的所有经压缩的训练数据点的平均值。例如,如果每个经压缩的训练数据点是n元素矢量,则给定集群的中心可以是在该组经压缩的训练数据点502中并且属于该给定集群的所有n元素矢量的平均值。因此,如果该组经压缩的训练数据点502包括m个集群,则多样性部件120可计算m个中心(例如,每集群一个中心,和/或每集群一个平均n元素矢量)。
在各个方面中,对于每个集群,多样性部件120可计算该集群的中心与属于该集群的每个(和/或少于每个)经压缩的训练数据点之间的欧几里得距离。在各种情况下,多样性部件120可然后针对每个集群计算此类欧几里得距离的平均值(为了方便起见表示为μ)和/或此类欧几里得距离的标准差(为了方便起见表示为σ)。因此,如果该组经压缩的训练数据点502包括m个集群,则多样性部件120可计算m个不同的μ值和/或m个不同的σ值(例如,针对每个集群一(μ,σ)对,其中针对给定集群的该(μ,σ)对描述给定集群中的经压缩的训练数据点的密度和/或空间分布)。
在各种情况下,多样性部件120可将该组经压缩的测试数据点504中的每一者分配给该组经压缩的训练数据点502的对应集群。更具体地,对于每个经压缩的测试数据点,多样性部件120可计算该经压缩的测试数据点与该组经压缩的训练数据点502的每个集群的中心之间的欧几里得距离,并且多样性部件120可将该经压缩的测试数据点分配给最接近的和/或最靠近的集群。因此,如果该组经压缩的训练数据点502包括m个集群,则多样性部件120可确定那些m个集群中的哪一者具有最接近和/或最靠近(就欧几里得距离而言)给定经压缩的测试数据点的中心,并且多样性部件120可相应地将给定经压缩的测试数据点分配给该最接近和/或最靠近的集群。
在各种情况下,对于该组经压缩的测试数据点504中的每一者,多样性部件120可确定该经压缩的测试数据点是异常值还是非异常值。在各种情况下,如果给定的经压缩的测试数据点与向其分配该给定的经压缩的测试数据点的集群的中心之间的欧几里得距离大于对应于该集群的阈值欧几里得距离,则该给定的经压缩的测试数据点可被认为是异常值。相反,在各个方面中,如果给定的经压缩的测试数据点与向其分配该给定的经压缩的测试数据点的集群的中心之间的欧几里得距离小于对应于该集群的阈值欧几里得距离,则该给定的经压缩的测试数据点可被认为是非异常值。在各种情况下,阈值欧几里得距离可随集群而变化。例如,针对给定集群的阈值欧几里得距离可等于μ+2σ(例如,因为μ和σ可随集群而变化,阈值欧几里得距离同样可随集群而变化)。因此,多样性部件120可将该组经压缩的测试数据点504中的每一者标记为异常值或非异常值。
在各个方面中,多样性部件120然后可计算被视为异常值的该组经压缩的测试数据点504的总比例和/或百分比。在各种情况下,此类总比例和/或百分比可被认为等于多样性分数702。在各种其他情况下,多样性分数702可以是此类总比例和/或百分比的任何合适的数学函数。在任何情况下,多样性分数702可被配置为使得多样性分数702的数值较高的量值指示该组经压缩的测试数据点504中的更多是异常值,这可指示该组经压缩的测试数据点504不整齐地符合该组经压缩的训练数据点502的集群。这可意味着机器学习模型104以与机器学习模型104如何解释由该组训练数据候选106表现出的模式/分布不同的方式解释由该组测试数据候选108表现出的模式/分布。此外,在任何情况下,多样性分数702可被配置为使得多样性分数702的数值较低的量值指示该组经压缩的测试数据点504中的更多是非异常值,这可指示该组经压缩的测试数据点504更整齐地符合该组经压缩的训练数据点502的集群。这可意味着机器学习模型104以与机器学习模型104如何解释由该组训练数据候选106表现出的模式/分布类似的方式解释由该组测试数据候选108表现出的模式/分布。
图8示出了根据本文所述的一个或多个实施方案的可促进针对机器学习模型的数据多样性的可视化和/或量化的包括图的示例性、非限制性系统800的框图。如图所示,在一些情况下,系统800可包括与系统700相同的部件,并且还可包括图802。
在各种实施方案中,可视化部件122可在任何合适的计算机屏幕和/或监视器(未示出)上电子地呈现图802,使得图802可由机器学习模型104的操作者查看。在各种情况下,如果该组经压缩的训练数据点502中的每一者和/或该组经压缩的测试数据点504中的每一者是二维和/或三维的(例如,如果n=2和/或如果n=3),则图802可描绘和/或示出该组经压缩的训练数据点502和/或该组经压缩的测试数据点504。在各个方面中,该组经压缩的测试数据点504符合该组经压缩的训练数据点502的集群的良好程度和/或不良程度可通过查看图802来容易地视觉地感知。在一些情况下,图802还可包括多样性分数702。因此,机器学习模型104的操作者可视觉地被获悉多样性分数702和/或可视觉地看到该组经压缩的测试数据点504符合该组经压缩的训练数据点502的集群的良好程度和/或不良程度。因此,当作出关于机器学习模型104和/或该组测试数据候选108的设计决定时,操作者可利用和/或依赖于多样性分数702和/或图802。
在各种情况下,图802可以是可交互的和/或可点击的。例如,在图上绘制的经压缩的数据点(例如,来自502和/或504)可以是可点击的,并且操作者可利用任何合适的人机接口设备(例如,计算机鼠标、触摸屏、语音命令)来点击经压缩的数据点。在各种情况下,响应于经压缩的数据点被点击,可视化部件122可电子地呈现对应于被点击的经压缩的数据点的数据候选(例如,来自106和/或108)。因此,通过选择性地点击绘制在图802上的不同经压缩的数据点,机器学习模型104的操作者可根据需要选择性地手动地检查任何数据候选。此类功能还可协助操作者作出关于机器学习模型104和/或该组测试数据候选108的设计决定。
在各种实施方案中,执行部件124可将多样性分数702和/或图802电子地传输到任何合适的计算设备(未示出)。在各种其他实施方案中,执行部件124可基于多样性分数702来向操作者作出推荐。例如,如果操作者希望确定是否可在该组测试数据候选108上训练机器学习模型104而不经历过度拟合,则执行部件124可将多样性分数702与任何合适的阈值进行比较并且可相应地作出推荐。如果多样性分数702高于阈值,则执行部件124可确定机器学习模型104正以充分不同于该组训练数据候选106的方式解释该组测试数据候选108,使得可在该组测试数据候选108上训练机器学习模型104而没有过度拟合的风险。另一方面,如果多样性分数702低于阈值,则执行部件124可确定机器学习模型104正以不充分不同于该组训练数据候选106的方式解释该组测试数据候选108,使得不可在该组测试数据候选108上训练机器学习模型104而没有过度拟合的风险。
又如,如果操作者希望确定机器学习模型104是否可被准确地部署在与该组测试数据候选108相关联的领域和/或环境中,则执行部件124可将多样性分数与任何合适的阈值进行比较并且可相应地作出推荐。如果多样性分数702低于阈值,则执行部件124可确定机器学习模型104正以充分类似于该组训练数据候选106的方式解释该组测试数据候选108,使得机器学习模型104可在领域和/或环境中部署而没有频繁不准确性能的风险。另一方面,如果多样性分数702高于阈值,则执行部件124可确定机器学习模型104正以不充分类似于该组训练数据候选106的方式解释该组测试数据候选108,使得机器学习模型104不能在领域和/或环境中部署而没有频繁不准确性能的风险。
再如,如果通过经由增强策略修改该组训练数据候选106来创建该组测试数据候选108,并且如果操作者希望确定此类增强策略是否有助于提高机器学习模型104的普遍性,则执行部件124可将多样性分数与任何合适的阈值进行比较并且可相应地作出推荐。如果多样性分数702高于阈值,则执行部件124可确定机器学习模型104正以充分不同于该组训练数据候选106的方式解释该组测试数据候选108,使得增强策略正在填充机器学习模型104的学习间隙。另一方面,如果多样性分数702低于阈值,则执行部件124可以确定机器学习模型104正以与该组训练数据候选106不充分不同的方式解释该组测试数据候选108,使得增强策略不填充机器学习模型104的学习间隙。
又再如,如果该组测试数据候选108是未注释的,并且如果操作者希望确定自动注释是否可被准确地应用于该组测试数据候选108,则执行部件124可将多样性分数与任何合适的阈值进行比较并且可相应地作出推荐。如果多样性分数702低于阈值,则执行部件124可确定机器学习模型104正以充分类似于该组训练数据候选106的方式解释该组测试数据候选108,使得可将自动注释技术准确地应用于该组测试数据候选108。另一方面,如果多样性分数702高于阈值,则执行部件124可确定机器学习模型104正以不充分类似于该组训练数据候选106的方式解释该组测试数据候选108,使得自动注释技术不能被准确地应用于该组测试数据候选108。又一方面,因为多样性部件120可能已经将该组经压缩的测试数据点504中的每一者标记为异常值或非异常值,所以执行部件124可推荐将自动注释技术应用于对应于非异常值的经压缩的测试数据候选,以及/或者可推荐将手动注释技术应用于对应于异常值的经压缩的测试数据候选。
图9至图11示出了根据本文所述的一个或多个实施方案的经压缩的数据点的示例性、非限制性图900至1100。换句话说,图9至图11示出了可由可视化部件122呈现的示例性可视化。
在图9至图11的非限制性示例中,机器学习模型104被配置为将患者膝盖的X射线图像分类为以下五个不同类别中的一个类别;胫骨、股骨、矢状相关、冠状相关或不相关。此外,该组训练数据候选总共包括500个X射线图像:具体地,每类别100个X射线图像,其中已经在此类图像上训练了机器学习模型104。此外,与该组训练数据候选106相比,该组测试数据候选108包括从新数据源(例如,从不同医院、从相同医院但从不同X射线扫描仪)随机选择的500个X射线图像。该组经压缩的训练数据点502和该组经压缩的测试数据点504然后如本文所述使用t-SNE作为维度降低技术来生成,并且其中每个经压缩的数据点是二元素矢量。然后绘制图900至1100。
该组训练数据候选106在图9至图11中是相同的。然而,该组测试数据候选108跨图9至图11变化,使得可看到不同水平的多样性。因为t-SNE是非参数的,所以每个经压缩的训练数据点的绝对位置在图9至图11中不是固定的,但是维持经压缩的训练数据点之间的相对距离。
在图9中,该组经压缩的训练数据点502在该附图的彩色版本中以红色示出,在该附图的黑白版本中以黑色示出,并且该组经压缩的测试数据点504在该附图的彩色版本中以绿色示出,在该附图的黑白版本中以白色示出。如图所示,该组经压缩的训练数据点502被分组为五个不同集群902至910,该五个不同集群对应于五个不同类别(例如,胫骨、股骨、矢状相关、冠状相关、不相关)。如可容易地看出的,图900示出了非限制性示例,其中该组经压缩的测试数据点504很好地拟合于和/或以其他方式符合该组经压缩的训练数据点502的集群。换句话说,图9中的白色(或绿色)点都非常靠近黑色(或红色)点集群定位。因此,对应于图900的多样性分数702在量值上可以是小的。基于图900,操作者可确定机器学习模型104可被准确地部署在该组测试数据候选108上,机器学习模型104不能在没有过度拟合的情况下在该组测试数据候选108上被训练,和/或自动注释可被准确地应用于该组测试数据候选108。
在图10中,该组经压缩的训练数据点502在该附图的彩色版本中以红色示出,在该附图的黑白版本中以黑色示出,并且该组经压缩的测试数据点504在该附图的彩色版本中以绿色示出,在该附图的黑白版本中以白色示出。如图所示,该组经压缩的训练数据点502再次被分组为五个不同集群1002至1010,该五个不同集群对应于五个不同类别(例如,胫骨、股骨、矢状相关、冠状相关、不相关)。如可看出的,图1000示出了非限制性示例,其中该组经压缩的测试数据点504在某种程度上拟合于和/或以其他方式在某种程度上符合该组经压缩的训练数据点502的集群。换句话说,图10中的一些白色(或绿色)点靠近黑色(或红色)点集群定位,而其他白色(或绿色)点不靠近黑色(或红色)点集群定位。因此,对应于图1000的多样性分数702在量值上可以是中间的。
在图11中,该组经压缩的训练数据点502在该附图的彩色版本中以红色示出,在该附图的黑白版本中以黑色示出,并且该组经压缩的测试数据点504在该附图的彩色版本中以绿色示出,在该附图的黑白版本中以白色示出。如图所示,该组经压缩的训练数据点502被分组为五个不同集群902至910,该五个不同集群对应于五个不同类别(例如,胫骨、股骨、矢状相关、冠状相关、不相关)。如可容易地看出的,图1100示出了非限制性示例,其中该组经压缩的测试数据点504没有很好地拟合于和/或以其他方式符合该组经压缩的训练数据点502的集群。换句话说,图11中的白色(或绿色)点大部分远离黑色(或红色)点集群定位。因此,对应于曲线图1100的多样性分数702在量值上可以是大的。基于图1100,操作者可确定机器学习模型104可能不可被准确地部署在该组测试数据候选108上,机器学习模型104可在没有过度拟合的情况下在该组测试数据候选108上被训练,和/或自动注释不可被准确地应用于该组测试数据候选108。
图12至图15示出了根据本文所述的一个或多个实施方案的与针对机器学习模型的数据多样性的量化有关的示例性、非限制性计算机实现的方法1200至1500的流程图。换句话说,图12至图15共同地示出了在各种实施方案中数据多样性系统102可促进的示例性和非限制性操作/动作。
首先,考虑计算机实现的方法1200,该方法示出了数据多样性系统102可如何基于该组训练数据候选106来生成该组经压缩的训练数据点502。
在各种实施方案中,动作1202可包括由操作地耦接到处理器的设备(例如,114)接收已经在其上训练神经网络(例如,104)的一组训练数据候选(例如,106)。
在各个方面中,动作1204可包括由设备(例如,116)初始化空的一组训练激活图(例如,202)。
在各种情况下,动作1206可包括由设备(例如,116)确定该组训练数据候选中的每个训练数据候选是否已经由该设备分析。如果否,则计算机实现的方法1200可行进到动作1208。如果是,则计算机实现的方法1200可行进到动作1216。
在各种情况下,动作1208可包括由设备(例如,116)从该组训练数据候选中选择尚未被分析的训练数据候选。
在各个方面中,动作1210可包括由设备(例如,116)将所选择的训练数据候选作为输入馈送到神经网络。
在各种情况下,动作1212可包括由设备(例如,116)从神经网络提取由神经网络的隐藏层基于和/或响应于所选择的训练数据候选而生成的隐藏激活图。
在各种情况下,动作1214可包括由设备(例如,116)将所提取的隐藏激活图插入到该组训练激活图中。在各个方面中,计算机实现的方法1200可行进到动作1206。
如图所示,计算机实现的方法1200可迭代通过动作1206至1214,直到每个训练数据候选已经被分析(例如,直到隐藏激活图已经被插入到针对每个训练数据候选的该组训练激活图中)。此时,则计算机实现的方法1200可行进到动作1216。
在各种情况下,动作1216可包括由设备(例如,118)对该组训练激活图执行维度降低技术(例如,t-SNE、UMAP),从而将该组训练激活图转换成一组经压缩的训练数据点(例如,502)。换句话说,每个训练激活图现在可由更容易可视化和/或数学操纵的低维数据点表示。
接下来,考虑计算机实现的方法1300,该方法示出了数据多样性系统102可如何基于该组测试数据候选108来生成该组经压缩的测试数据点504。
在各种具体实施中,动作1302可包括由设备(例如,114)接收一组测试数据候选(例如,108)。
在各个方面中,动作1304可包括由设备(例如,116)初始化空的一组测试激活图(例如,204)。
在各种情况下,动作1306可包括由设备(例如,116)确定该组测试数据候选中的每个测试数据候选是否已经由该设备分析。如果否,则计算机实现的方法1300可行进到动作1308。如果是,则计算机实现的方法1300可行进到动作1316。
在各种情况下,动作1308可包括由设备(例如,116)从该组测试数据候选中选择尚未被分析的测试数据候选。
在各个方面中,动作1310可包括由设备(例如,116)将所选择的测试数据候选作为输入馈送到神经网络。
在各种情况下,动作1312可包括由设备(例如,116)从神经网络提取由神经网络的隐藏层基于和/或响应于所选择的测试数据候选而生成的隐藏激活图。
在各种情况下,动作1314可包括由设备(例如,116)将所提取的隐藏激活图插入到该组测试激活图中。在各个方面中,计算机实现的方法1300可行进到动作1306。
如图所示,计算机实现的方法1300可迭代通过动作1306至1314,直到每个测试数据候选已经被分析(例如,直到隐藏激活图已经被插入到针对每个测试数据候选的该组测试激活图中)。此时,则计算机实现的方法1300可行进到动作1316。
在各种情况下,动作1316可包括由设备(例如,118)对该组测试激活图执行维度降低技术(例如,t-SNE、UMAP),从而将该组测试激活图转换成一组经压缩的测试数据点(例如,504)。换句话说,每个测试激活图现在可由更容易可视化和/或数学操纵的低维数据点表示。
现在,考虑计算机实现的方法1400,该方法示出了数据多样性系统102可如何分析该组经压缩的训练数据点502。
在各种实施方案中,动作1402可包括由设备(例如,120)识别由该组经压缩的训练数据点(例如,502)表现出的已知集群。在一些情况下,因为该组经压缩的训练数据点可从该组训练数据候选导出,并且因为神经网络可在该组训练数据候选上训练,所以该组经压缩的训练数据点可表现出对应于神经网络被配置为生成的输出的集群。例如,对于任何合适的正整数m,如果神经网络被配置为将被输入的数据候选分类和/或标记为属于m个类别中的一个类别,则该组经压缩的训练数据点可表现出m集群布置(例如,可具有m个集群)。
在各个方面中,动作1404可包括由设备(例如,120)确定该组经压缩的训练数据点的每个集群是否已经被分析。如果否,则计算机实现的方法1400可行进到动作1406。如果是,则计算机实现的方法1400可行进到计算机实现的方法1500的动作1502。
在各种情况下,动作1406可包括由设备(例如,120)选择该组经压缩的训练数据点的尚未被分析的集群。
在各个方面中,动作1408可包括由设备(例如,120)计算所选择的集群的中心。例如,经压缩的训练数据点的给定集群的中心可等于属于该给定集群的所有经压缩的训练数据点的平均值。
在各个方面中,对于属于所选择的集群的每个经压缩的训练数据点,动作1410可包括由设备(例如,120)计算经压缩的训练数据点与所选择的集群的中心之间的欧几里得距离。当针对属于所选择的集群的每个经压缩的训练数据点执行该操作时,这可产生与所选择的集群相关联的一组欧几里得距离。
在各种情况下,动作1412可包括由设备(例如,120)基于与所选择的集群相关联的该组欧几里得距离来计算针对所选择的集群的平均距离值,该平均距离值可被表示为μ。
在各种情况下,动作1414可包括由设备(例如,120)基于与所选择的集群相关联的该组欧几里得距离来计算针对所选择的集群的标准差距离值,该标准差距离值可被表示为σ。在各个方面中,计算机实现的方法1400可行进到动作1404。
如图所示,计算机实现的方法1400可迭代通过动作1404至1414,直到针对经压缩的训练数据点的每个集群计算了μ和σ。
最后,考虑计算机实现的方法1500,该方法示出了数据多样性系统102可如何分析该组经压缩的测试数据点504。
在各种实施方案中,动作1502可包括由设备(例如,120)确定该组经压缩的测试数据点(例如,504)中的每个经压缩的测试数据点是否已经被分析。如果否,则计算机实现的方法1500可行进到动作1504。如果是,则计算机实现的方法1500可行进到动作1514。
在各个方面中,动作1504可包括由设备(例如,120)从该组经压缩的测试数据点中选择尚未被分析的经压缩的测试数据点。
在各种情况下,动作1506可包括由设备(例如,120)计算所选择的经压缩的测试数据点与经压缩的训练数据点的最接近的集群(例如,其中心在欧几里得距离方面最靠近和/或最接近所选择的经压缩的测试数据点的集群)之间的欧几里得距离。
在各种情况下,动作1508可包括由设备(例如,120)确定计算出的欧几里得距离是否大于针对最接近的集群的阈值μ+2σ(例如,其中μ和σ对应于最接近的集群)。换句话说,设备可确定所选择的经压缩的测试数据点是否距离最接近的集群的中心超过两个标准差。如果是,则计算机实现的方法1500可行进到动作1510。如果否,则计算机实现的方法1500可行进到动作1512。
在各个方面中,动作1510可包括由设备(例如,120)将所选择的经压缩的测试数据点标记为异常值。在各种情况下,计算机实现的方法1500可行进回到动作1502。
在各个方面中,动作1512可包括由设备(例如,120)将所选择的经压缩的测试数据点标记为非异常值。在各种情况下,计算机实现的方法1500可行进回到动作1502。
如图所示,计算机实现的方法1500可迭代通过动作1502至1512,直到每个经压缩的测试数据点已经被标记为异常值或非异常值。在此类时间,计算机实现的方法1500可行进到动作1514。
在各种情况下,动作1514可包括由设备(例如,120)计算被标记为异常值的该组经压缩的测试数据点的百分比。在各种情况下,该百分比可被认为是多样性分数702。在其他情况下,多样性分数702可等于该百分比的任何合适的数学函数。虽然在图15中未明确示出,但是被认为是异常值的该组经压缩的测试数据点的百分比可指示该组测试数据候选与该组训练数据候选有多类似和/或有多不类似。因此,如上所述,执行部件124可基于该百分比的值来采取任何合适的计算动作。
图16示出了根据本文所述的一个或多个实施方案的可促进针对机器学习模型的数据多样性的可视化和/或量化的示例性、非限制性计算机实现的方法1600的流程图。在各种情况下,计算机实现的方法1600可由数据多样性系统102实现。
在各种实施方案中,动作1602可包括由可操作地耦接到处理器的设备(例如,114)访问第一组数据候选(例如,106)和第二组数据候选(例如,108),其中在第一组数据候选上训练机器学习模型(例如,104)。
在各种情况下,动作1604可包括由设备(例如,116)获得由机器学习模型基于第一组数据候选生成的第一组潜在激活(例如,202),以及由设备(例如,116)获得由机器学习模型基于第二组数据候选生成的第二组潜在激活(例如,204)。
在各个方面中,动作1606可包括由设备(例如,118)通过将维度降低技术应用于第一组潜在激活来生成第一组经压缩的数据点(例如,502),以及由设备(例如,118)通过将维度降低技术应用于第二组潜在激活来生成第二组经压缩的数据点(例如,504)。
在各种情况下,动作1608可包括由设备(例如,120)基于第一组经压缩的数据点和第二组经压缩的数据点来计算多样性分数(例如,702)。
在各个方面中,动作1610可包括由设备(例如,122)呈现描绘第一组经压缩的数据点和第二组经压缩的数据点的图(例如,802)。
尽管未在图16中明确示出,但在图中绘出的给定经压缩的数据点可对应于来自第一组数据候选或第二组数据候选的给定数据候选,该给定经压缩的数据点可以是如在图上绘制的可点击的,并且/或者计算机实现的方法1600还可包括:响应于给定经压缩的数据点被点击,由设备(例如,122)呈现给定数据候选。
虽然在图16中未明确示出,但第二组数据候选可表示第一组数据候选的增强版本和/或可以其他方式表示用于机器学习模型的潜在训练数据,并且计算机实现的方法1600还可包括:响应于多样性分数满足预先确定的阈值的确定,由设备(例如,124)推荐在第二组数据候选上训练机器学习模型;以及响应于多样性分数未能满足预先确定的阈值的确定,由设备(例如,124)推荐不在第二组数据候选上训练机器学习模型。
尽管在图16中未明确示出,但第二组数据候选可以是未注释的,并且计算机实现的方法1600还可包括:由设备(例如,120)通过将第二组经压缩的数据点与第一组经压缩的数据点进行比较来识别第二组经压缩的数据点中的一个或多个外围经压缩的数据点;以及由设备(例如,124)推荐手动地注释来自第二组数据候选的对应于一个或多个外围经压缩的数据点的一个或多个数据候选。
尽管在图16中未明确示出,但第二组数据候选可以是未注释的,并且计算机实现的方法1600还可包括:由设备(例如,120)通过将第二组经压缩的数据点与第一组经压缩的数据点进行比较来识别第二组经压缩的数据点中的一个或多个非外围经压缩的数据点;以及由设备(例如,124)推荐自动地注释来自第二组数据候选的对应于一个或多个非外围经压缩的数据点的一个或多个数据候选。
本主题创新的各种实施方案涉及一种计算机化工具,该计算机化工具可自动地可视化和/或量化针对人工智能应用的输入数据中的多样性。这种计算机化工具可用于从数据湖中选择新的数据候选、决定要实现的增强策略、以及/或者确定哪些未注释的数据候选可被自动地注释/策划。实际上,选择在其上训练机器学习模型的适当数据候选对于帮助避免过度拟合和/或帮助改进模型普遍性是重要的。此外,选择适当的数据增强策略对于帮助避免过度拟合和/或帮助改进模型普遍性同样是重要的。此外,因为手动注释非常麻烦且耗时,所以选择用于自动注释(例如,经由现有模型的半监督注释、转移学习)的适当数据候选对于帮助节省时间和/或资源而言可能是重要的。因为本文所述的计算机化工具可协助模型开发者作出关于模型设计的这些和/或其他决策,所以本文所述的计算机化工具肯定构成计算机的有用且实用的应用。
为了为本文所述的各种实施方案提供附加上下文,图17和以下讨论旨在提供可在其中实现本文所述的实施方案的各种实施方案的合适计算环境1700的简要一般描述。虽然上文已在可在一个或多个计算机上运行的计算机可执行指令的一般上下文中描述了实施方案,但本领域的技术人员将认识到,这些实施方案也可与其它程序模块结合和/或作为硬件和软件的组合来实现。
通常,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、部件、数据结构等。此外,本领域的技术人员将会理解,本发明的方法可以用其他计算机系统配置来实践,包括单处理器或多处理器计算机系统、小型计算机、大型计算机、物联网(IoT)设备、分布式计算系统,以及个人计算机、手持计算设备、基于微处理器的或可编程的消费电子产品等,它们中的每一个可操作地耦接到一个或多个相关联的设备。
本文实施方案的所例示的实施方案还可以在分布式计算环境中实践,在该环境中,由通过通信网络链接的远程处理设备履行特定任务。在分布式计算环境中,程序模块可以位于本地和远程存储器存储设备中。
计算设备通常包括各种介质,该各种介质可以包括计算机可读存储介质、机器可读存储介质和/或通信介质,其中在本文中这两个术语的使用彼此不同,如下所述。计算机可读存储介质或机器可读存储介质可以是可由计算机访问的任何可用存储介质,并且包括易失性和非易失性介质、可移动和不可移动介质。以举例的方式而非限制,计算机可读存储介质或机器可读存储介质可以结合用于存储信息诸如计算机可读或机器可读指令、程序模块、结构化数据或非结构化数据的任何方法或技术来实现。
计算机可读存储介质可包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存存储器或其他存储器技术、光盘只读存储器(CDROM)、数字通用盘(DVD)、蓝光盘(BD)或其他光盘存储装置、磁带盒、磁带、磁盘存储器或其他磁存储设备、固态驱动器或其他固态存储设备或可用于存储所需信息的其他有形和/或非暂态介质。就这一点而言,本文中应用于存储装置、存储器或计算机可读介质的术语“有形”或“非暂态”应理解为仅排除传播暂态信号本身作为修饰语,并且不放弃不仅是传播暂态信号本身的所有标准存储装置、存储器或计算机可读介质的权利。
计算机可读存储介质可以由一个或多个本地或远程计算设备访问,例如,经由访问请求、查询或其它数据检索协议,以实现关于由介质存储的信息的各种操作。
通信介质通常在数据信号中包含计算机可读指令、数据结构、程序模块或其它结构化或非结构化数据,该数据信号可以是诸如调制数据信号,例如载波或其它传输机制,并包括任何信息传递或传输介质。术语“调制数据信号”或“信号”是指设置或改变其一个或多个特征以在一个或多个信号中编码信息的信号。以举例的方式而非限制,通信介质包括有线介质,诸如有线网络或直接有线连接,以及无线介质,诸如声学、RF、红外和其它无线介质。
再次参考图17,用于实现本文所述方面的各种实施方案的示例性环境1700包括计算机1702,计算机1702包括处理单元1704、系统存储器1706和系统总线1708。系统总线1708将包括但不限于系统存储器1706的系统部件联接到处理单元1704。处理单元1704可以是各种可商购获得的处理器中的任何一种处理器。双微处理器和其他多处理器架构也可用作处理单元1704。
系统总线1708可以为可使用多种可商购获得的总线架构中的任一种总线架构进一步互连到存储器总线(具有或不具有存储器控制器)、外围总线和局部总线的若干类型总线结构中的任一种总线结构。系统存储器1706包括ROM 1710和RAM 1712。基本输入/输出系统(BIOS)可以被存储在非易失性存储器诸如ROM、可擦除可编程只读存储器(EPROM)、EEPROM中,其中BIOS包含基本例程,该基本例程有助于诸如在启动期间在计算机1702内的元件之间传送信息。RAM 1712还可包括高速RAM,诸如用于高速缓存数据的静态RAM。
计算机1702还包括内部硬盘驱动器(HDD)1714(例如,EIDE、SATA)、一个或多个外部存储设备1716(例如,磁软盘驱动器(FDD)1716、记忆棒或闪存驱动器阅读器、存储卡读卡器等)和驱动器1720,例如诸如固态驱动器、光盘驱动器,其可以从磁盘1722(诸如CD-ROM盘、DVD、BD等)读取或写入。另选地,在涉及固态驱动器的情况下,除非分开,否则将不包括磁盘1722。虽然内部HDD 1714被示出为位于计算机1702内,但内部HDD 1714也可以被配置为在合适的基础结构(未示出)中用于外部使用。另外,虽然在环境1700中未示出,但是固态驱动器(SSD)可作为HDD 1714的补充或替代使用。HDD 1714、外部存储设备1716和驱动器1720可分别通过HDD接口1724、外部存储接口1726和驱动器接口1728连接到系统总线1708。用于外部驱动具体实施的接口1724可包括通用串行总线(USB)和电气与电子工程师协会(IEEE)1394接口技术中的至少一者或两者。其它外部驱动连接技术在本文所述的实施方案的设想内。
驱动器及其相关联的计算机可读存储介质提供数据、数据结构、计算机可执行指令等的非易失性存储。对于计算机1702,驱动器和存储介质以合适的数字格式容纳任何数据的存储。尽管上文对计算机可读存储介质的描述涉及相应类型的存储设备,但本领域的技术人员应当理解,计算机可读的其它类型的存储介质(无论是目前存在的还是将来开发的)都也可用于示例性操作环境中,并且此外,任何此类存储介质可包含用于履行本文所述的方法的计算机可执行指令。
多个程序模块可以被存储在驱动器和RAM 1712中,包括操作系统1730、一个或多个应用程序1732、其他程序模块1734和程序数据1736。操作系统、应用程序、模块和/或数据的全部或部分也可被高速缓存在RAM 1712中。本文所述的系统和方法可利用各种可商购获得的操作系统或操作系统的组合来实现。
计算机1702可任选地包括仿真技术。例如,超级管理器(未示出)或其他中介可以仿真用于操作系统1730的硬件环境,并且仿真的硬件可以任选地不同于图17所示的硬件。在此类实施方案中,操作系统1730可包括在计算机1702处托管的多个虚拟机(VM)中的一个VM。此外,操作系统1730可以为应用程序1732提供运行时环境,诸如Java运行时环境或.NET框架。运行时环境是允许应用程序1732在包括运行时环境的任何操作系统上运行的相符执行环境。类似地,操作系统1730可以支持容器,并且应用程序1732可以采用容器的形式,其是轻质的、独立的、可执行的软件包,该软件包包括例如用于应用程序的代码、运行时、系统工具、系统库和设定。
另外,计算机1702可以利用安全模块诸如可信处理模块(TPM)来启用。例如,在TPM的情况下,引导部件在下一次引导部件中散列化,并且在加载下一个引导部件之前等待结果与安全值的匹配。该过程可以发生在计算机1702的代码执行栈中的任何层,例如应用于应用程序执行层级或操作系统(OS)内核层级,由此实现任何代码执行层级的安全性。
用户可以通过一个或多个有线/无线输入设备(例如,键盘1738、触摸屏1740和指向设备诸如鼠标1742)将命令和信息输入到计算机1702中。其它输入设备(未示出)可包括麦克风、红外(IR)遥控器、射频(RF)遥控器或其它遥控器、操纵杆、虚拟现实控制器和/或虚拟现实头戴式耳机、游戏板、触笔、图像输入设备(例如相机)、手势传感器输入设备、视觉移动传感器输入设备、情绪或面部检测设备、生物识别输入设备(例如指纹或虹膜扫描仪)等。这些和其他输入设备通常通过输入设备接口1744连接到处理单元1704,该输入设备接口可以耦接到系统总线1708,但这些和其他输入设备可以通过其他接口连接,诸如并行端口、IEEE 1394串行端口、游戏端口、USB端口、IR接口、接口等。
监视器1746或其他类型的显示设备也可以经由接口(诸如视频适配器1748)连接到系统总线1708。除监视器1746之外,计算机通常包括其他外围输出设备(未示出),诸如扬声器、打印机等。
计算机1702可以使用经由有线和/或无线通信到一个或多个远程计算机(诸如远程计算机1750)的逻辑连接而在联网环境中工作。远程计算机1750可以为工作站、服务器计算机、路由器、个人计算机、便携式计算机、基于微处理器的娱乐器具、对等设备或其他共同网络节点,并且通常包括相对于计算机1702所述的许多或所有元件,但为了简洁起见,仅示出了存储器/存储设备1752。示出的逻辑连接包括到局域网(LAN)1754和/或更大网络(例如,广域网(WAN)1756)的有线/无线连接。此类LAN和WAN联网环境常见于办公室和公司中,并且有利于企业范围内的计算机网络,诸如内联网,所有这些网络均可连接到全球通信网络,例如互联网。
当在LAN联网环境中使用时,计算机1702可以通过有线和/或无线通信网络接口或适配器1758连接到本地网络1754。适配器1758可以便于与LAN 1754的有线或无线通信,该LAN还可包括设置在其上的无线接入点(AP),用于在无线模式下与适配器1758通信。
当在WAN联网环境中使用时,计算机1702可包括调制解调器1760,或者可以经由用于通过WAN 1756建立通信的其他装置(诸如通过互联网)连接到WAN 1756上的通信服务器。调制解调器1760(其可以为内部或外部的以及有线或无线设备)可以经由输入设备接口1744连接到系统总线1708。在联网环境中,相对于计算机1702或其部分示出的程序模块可以被存储在远程存储器/存储设备1752中。应当理解,所示的网络连接是示例,并且可使用在计算机之间建立通信链路的其它装置。
当在LAN或WAN联网环境中使用时,除了如上所述的外部存储设备1716之外或作为其替代,计算机1702可访问云存储系统或其他基于网络的存储系统,诸如但不限于提供信息存储或处理的一个或多个方面的网络虚拟机。一般来讲,计算机1702与云存储系统之间的连接可以例如分别通过适配器1758或调制解调器1760通过LAN 1754或WAN 1756建立。在将计算机1702连接到相关联的云存储系统时,外部存储接口1726可以借助于适配器1758和/或调制解调器1760管理由云存储系统提供的存储,如同其他类型的外部存储装置那样。例如,外部存储接口1726可以被配置为提供对云存储源的访问,如同这些源物理地连接到计算机1702那样。
计算机1702可以可操作为与以无线通信方式操作地设置的任何无线设备或实体通信,例如打印机、扫描仪、台式计算机和/或便携式计算机、便携式数据助理、通信卫星、与无线可检测标签(例如,自助服务机、书报亭、商店货架等)相关联的任何设备件或位置、以及电话。这可包括无线保真(Wi-Fi)和无线技术。因此,通信可以是与常规网络一样的预定义结构,或者仅仅是至少两个设备之间的自组织通信。
图18是所公开的主题可与其交互的样本计算环境1800的示意性框图。样本计算环境1800包括一个或多个客户端1810。客户端1810可以为硬件和/或软件(例如,线程、进程、计算设备)。样本计算环境1800也包括一个或多个服务器1830。服务器1830还可以是硬件和/或软件(例如,线程、进程、计算设备)。例如,服务器1830可容纳线程以通过采用本文所述的一个或多个实施方案来履行变换。客户端1810与服务器1830之间的一种可能的通信可以是适合于在两个或更多个计算机进程之间传输的数据分组的形式。样本计算环境1800包括可用于促进客户端1810与服务器1830之间的通信的通信框架1850。客户端1810可操作地连接到一个或多个客户端数据存储库1820,该客户端数据存储库可用于存储客户端1810本地的信息。类似地,服务器1830可操作地连接到一个或多个服务器数据存储库1840,该服务器数据存储库可用于存储服务器1830本地的信息。
本发明可以是在集成的任何可能技术细节水平上的系统、方法、装置和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令以用于致使处理器执行本发明的方面的计算机可读存储介质(或多个介质)。计算机可读存储介质可以是有形设备,该有形设备可以保持和存储供指令执行设备使用的指令。计算机可读存储介质可以是例如但不限于电子存储设备、磁性存储设备、光学存储设备、电磁存储设备、半导体存储设备或前述的任何适当组合。计算机可读存储介质的更具体示例的不完全列表还可包括以下各项:便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存存储器)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能磁盘(DVD)、记忆棒、软盘、机械编码设备(诸如打孔卡或其上记录有指令的凹槽中的凸起结构),以及上述项的任何适当组合。如本文所用,计算机可读存储介质不应被理解为是暂态信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,穿过光纤电缆的光脉冲)或通过电线传输的电信号。
本文所述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络(例如,互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每一计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令,并且转发计算机可读程序指令以用于存储在相应计算/处理设备内的计算机可读存储介质中。用于执行本发明的操作的计算机可读程序指令可以是汇编器指令、指令集架构(ISA)指令、机器指令、机器相关指令、微码、固件指令、状态设置数据、集成电路的配置数据或以一种或多种编程语言(包括面向对象的编程语言,诸如Smalltalk、C++等)和过程编程语言(诸如“C”编程语言或类似编程语言)的任何组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户计算机上执行,部分在用户计算机上执行,作为独立软件包执行,部分在用户计算机上并且部分在远程计算机上执行,或完全在远程计算机或服务器上执行。在后一种场景中,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机,或者可以与外部计算机建立连接(例如,通过使用互联网服务提供商的互联网)。在一些实施方案中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)、或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以个性化电子电路,以便执行本发明的方面。
本文参考根据本发明实施方案的方法、装置(系统)和计算机程序产品的流程图图示和/或框图来描述本发明的各方面。应当理解,流程图图示和/或框图的每个框,以及流程图图示和/或框图中的框的组合可由计算机可读程序指令来实现。可以将这些计算机可读程序指令提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实施流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令也可以存储在计算机可读存储介质中,其可以引导计算机、可编程数据处理装置、和/或其他设备以特定方式起作用,使得具有存储在其中的指令的计算机可读存储介质包括制品,该制品包括实施在流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。也可将计算机可读程序指令加载到计算机、其它可编程数据处理装置或其它设备上,以使一系列操作动作在计算机、其它可编程装置或其它设备上执行以产生计算机实现的过程,使得在计算机、其它可编程装置或其它设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。
附图中的流程图和框图示出了根据本发明的各种实施方案的系统、方法和计算机程序产品的可能具体实施的架构、功能性和操作。就这一点而言,流程图或框图中的每一框可以表示指令的模块、片段或部分,其包括用于实施指定逻辑功能的一个或多个可执行指令。在一些替代实施中,框中所指出的功能可以不按图中所指出的次序发生。例如,实际上可基本上同时执行连续示出的两个框,或者有时可能以相反顺序执行这些框,具体取决于所涉及的功能性。还将指出,框图和/或流程图图示的每一框以及框图和/或流程图图示中的框的组合可由执行指定功能或动作或者实施专用硬件和计算机指令的组合的基于专用硬件的系统来实施。
尽管上面已在一个和/或多个计算机上运行的计算机程序产品的计算机可执行指令的一般上下文中描述了本主题,但本领域技术人员将认识到,本公开内容也可以或可以与其他程序模块结合来实现。一般来说,程序模块包括执行特定任务和/或实施特定抽象数据类型的例程、程序、部件、数据结构等。此外,本领域技术人员将了解,可以使用其他计算机系统配置来实践本发明的计算机实现的方法,该计算机系统配置包括单处理器或多处理器计算机系统、小型计算设备、大型计算机、以及计算机、手持式计算设备(例如PDA、电话)、基于微处理器或可编程的消费或工业电子器件等。所例示的方面还可在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实践。然而,本公开的一些(如果不是全部)方面可以在独立计算机上实践。在分布式计算环境中,程序模块可以位于本地和远程存储器存储设备中。
如本申请中所用,术语“部件”、“系统”、“平台”、“接口”等可以指代和/或可以包括计算机相关实体或与具有一个或多个特定功能性的操作机相关的实体。本文中公开的实体可以是硬件、硬件与软件的组合、软件或执行中的软件。例如,部件可以是但不限于是在处理器上运行的程序、处理器、对象、可执行文件、执行线程、程序和/或计算机。借助于说明,在服务器上运行的应用程序和服务器都可以是部件。一个或多个部件可以驻留在程序和/或执行线程内,并且部件可位于一台计算机上和/或分布在两台或更多台计算机之间。又如,相应部件可以根据其上存储有各种数据结构的各种计算机可读媒体来执行。部件可以经由本地和/或远程进程进行通信,诸如根据具有一个或多个数据分组的信号(例如来自一个部件的数据,所述部件经由信号与本地系统、分布式系统和/或网络(诸如与其他系统的互联网)中的另一部件交互)。又如,部件可以是具有由电气或电子电路系统所操作的机械零件提供的特定功能的装置,该电气或电子电路系统由处理器所执行的软件或固件应用程序操作。在此类情况下,处理器可以在装置的内部或外部,并且可以执行软件或固件应用程序的至少一部分。作为又另一示例,部件可以是通过电子部件而非机械零件来提供特定功能性的装置,其中电子部件可包括处理器或用以执行至少部分地赋予电子部件功能性的软件或固件的其他装置。在一方面,部件可以例如在云计算系统内经由虚拟机来仿真电子部件。
另外,术语“或”旨在意指包括性的“或”而不是排他性的“或”。也就是说,除非另有指定或从上下文中清楚,否则“X采用A或B”旨在意指任何自然的包括性置换。也就是说,如果X采用A;X采用B;或者X采用A和B两者,则在任何前述情况下都满足“X采用A或B”。此外,除非另有指定或从上下文中清楚是针对单数形式,否则本说明书和附图中使用的冠词“一(a)”和“一(an)”一般应理解为意指“一个或多个”。如本文所用,利用术语“示例”和/或“示例性”来表示用作示例、实例或说明。为了避免疑问,本文中所公开的主题不受这类示例的限制。另外,本文中描述为“示例”和/或“示例性”的任何方面或设计不必被理解为比其他方面或设计更优选或有利,也不意指排除本领域普通技术人员已知的等效示例性结构和技术。
如在本说明书中采用的,术语“处理器”可以基本上指任何计算处理单元或设备,包括但不限于单核处理器;具有软件多线程执行能力的单处理器;多核处理器;具有软件多线程执行能力的多核处理器;具有硬件多线程技术的多核处理器;并行平台;以及具有分布式共享存储器的并行平台。另外,处理器可以指集成电路、专用集成电路(ASIC)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑控制器(PLC)、复杂可编程逻辑设备(CPLD)、分立栅极或晶体管逻辑、分立硬件部件或其被设计成履行本文所述的功能的任何组合。另外,处理器可以利用纳米级架构(诸如但不限于基于分子和量子点的晶体管、开关和门)以便优化空间使用或增强用户装备的性能。处理器也可以被实施为计算处理单元的组合。在本公开中,术语诸如“存储库”、“存储装置”、“数据存储库”、“数据存储装置”、“数据库”以及与部件的操作和功能性相关的基本上任何其他信息存储部件用以指代“存储器部件”、具体体现在“存储器”中的实体或包括存储器的部件。应了解,本文所述的存储器和/或存储器部件可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。借助于说明而非限制,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除ROM(EEPROM)、闪存存储器或非易失性随机访问存储器(RAM)(例如铁电RAM(FeRAM))。举例来说,易失性存储器可以包括可以充当外部高速缓存存储器的RAM。借助于说明而非限制,RAM能以多种形式提供,诸如同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据速率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)、直接Rambus RAM(DRRAM)、直接Rambus动态RAM(DRDRAM)和Rambus动态RAM(RDRAM)。另外,本文中的系统或计算机实现的方法的所公开存储器部件旨在包括但不限于包括这些和任何其他合适类型的存储器。
上文已描述的内容仅包括系统和计算机实现的方法的示例。当然,无法为了描述本公开的目的而描述部件或计算机实现的方法的每种可想到的组合,但本领域的普通技术人员可以认识到,本公开的许多其他组合和置换是可能的。此外,关于在具体实施方式、权利要求书、附录和附图中使用术语“包括”、“具有”、“拥有”等的程度,此类术语旨在以类似于术语“包括”的方式为包括性的,如“包括”在权利要求中被用作过渡词时那样解释。
已出于说明的目的给出了各种实施方案的描述,但这些描述并不旨在是穷举的或限于所公开的实施方案。在不脱离所描述的实施方案的范围和精神的情况下,许多修改和变型对于本领域的普通技术人员而言将是显而易见的。选择本文使用的术语是以最好地说明实施方案的原理、优于市场上发现的技术的实际应用或技术改进,或者使得本领域的其他普通技术人员能够理解本文公开的实施方案。
在以下主题中提供了受权利要求书保护的主题创新的各种实施方案的另外方面:
1.一种系统,包括;处理器,所述处理器执行存储在计算机可读存储器中的计算机可执行部件,所述计算机可执行部件包括:接收器部件,所述接收器部件访问第一组数据候选和第二组数据候选,其中在所述第一组数据候选上训练机器学习模型;激活部件,所述激活部件获得由所述机器学习模型基于所述第一组数据候选生成的第一组潜在激活,并且获得由所述机器学习模型基于所述第二组数据候选生成的第二组潜在激活;压缩部件,所述压缩部件通过将维度降低技术应用于所述第一组潜在激活来生成第一组经压缩的数据点,并且通过将所述维度降低技术应用于所述第二组潜在激活来生成第二组经压缩的数据点;和多样性部件,所述多样性部件基于所述第一组经压缩的数据点和所述第二组经压缩的数据点来计算多样性分数。
2.根据任何前述条款所述的系统,其中所述计算机可执行部件还包括:可视化部件,所述可视化部件呈现描绘所述第一组经压缩的数据点和所述第二组经压缩的数据点的图。
3.根据任何前述条款所述的系统,其中被绘制在所述图上的给定经压缩的数据点对应于来自所述第一组数据候选或所述第二组数据候选的给定数据候选,其中所述给定经压缩的数据点如被绘制在所述图上那样是可点击的,并且其中所述可视化部件响应于所述给定经压缩的数据点被点击而呈现所述给定数据候选。
4.根据任何前述条款所述的系统,其中所述第二组数据候选表示所述第一组数据候选的增强版本或以其他方式表示针对所述机器学习模型的潜在训练数据,并且其中所述计算机可执行部件还包括:执行部件,所述执行部件响应于所述多样性分数满足预先确定的阈值的确定而推荐在所述第二组数据候选上训练所述机器学习模型,并且响应于所述多样性分数未能满足所述预先确定的阈值的确定而推荐不在所述第二组数据候选上训练所述机器学习模型。
5.根据任何前述条款所述的系统,其中所述第二组数据候选是未注释的,并且其中所述计算机可执行部件还包括:执行部件,所述执行部件通过将所述第二组经压缩的数据点与所述第一组经压缩的数据点进行比较来识别所述第二组经压缩的数据点中的一个或多个外围经压缩的数据点,并且推荐手动地注释来自所述第二组数据候选中的对应于所述一个或多个外围经压缩的数据点的一个或多个数据候选。
6.根据任何前述条款所述的系统,其中所述第二组数据候选是未注释的,并且其中所述计算机可执行部件还包括:执行部件,所述执行部件通过将所述第二组经压缩的数据点与所述第一组经压缩的数据点进行比较来识别所述第二组经压缩的数据点中的一个或多个非外围经压缩的数据点,并且推荐自动地注释来自所述第二组数据候选中的对应于所述一个或多个非外围经压缩的数据点的一个或多个数据候选。
7.根据任何前述条款所述的系统,其中所述维度降低技术是t分布随机相邻嵌入(tSNE)技术或均匀流形近似和投影(UMAP)技术。
8.一种计算机实现的方法,所述计算机实现的方法包括:由操作地耦接到处理器的设备访问第一组数据候选和第二组数据候选,其中在所述第一组数据候选上训练机器学习模型;由设备获得由所述机器学习模型基于所述第一组数据候选生成的第一组潜在激活,并且由所述设备获得由所述机器学习模型基于所述第二组数据候选生成的第二组潜在激活;由所述设备通过将维度降低技术应用于所述第一组潜在激活来生成第一组经压缩的数据点,并且由所述设备通过将所述维度降低技术应用于所述第二组潜在激活来生成第二组经压缩的数据点;以及由所述设备基于所述第一组经压缩的数据点和所述第二组经压缩的数据点来计算多样性分数。
9.根据任何前述条款所述的计算机实现的方法,还包括:由所述设备呈现描绘所述第一组经压缩的数据点和所述第二组经压缩的数据点的图。
10.根据任何前述条款所述的计算机实现的方法,其中被绘制在所述图上的给定经压缩的数据点对应于来自所述第一组数据候选或所述第二组数据候选的给定数据候选,其中所述给定经压缩的数据点如被绘制在所述图上那样是可点击的,并且还包括:响应于所述给定经压缩的数据点被点击而由所述设备呈现所述给定数据候选。
11.根据任何前述条款所述的计算机实现的方法,其中所述第二组数据候选表示所述第一组数据候选的增强版本或以其他方式表示针对所述机器学习模型的潜在训练数据,并且还包括:响应于所述多样性分数满足预先确定的阈值的确定,由所述设备推荐在所述第二组数据候选上训练所述机器学习模型;以及响应于所述多样性分数未能满足所述预先确定的阈值的确定而由所述设备推荐不在所述第二组数据候选上训练所述机器学习模型。
12.根据任何前述条款所述的计算机实现的方法,其中所述第二组数据候选是未注释的,并且还包括:由所述设备通过将所述第二组经压缩的数据点与所述第一组经压缩的数据点进行比较来识别所述第二组经压缩的数据点中的一个或多个外围经压缩的数据点;以及由所述设备推荐手动地注释来自所述第二组数据候选的对应于所述一个或多个外围经压缩的数据点的一个或多个数据候选。
13.根据任何前述条款所述的计算机实现的方法,其中所述第二组数据候选是未注释的,并且还包括:由所述设备通过将所述第二组经压缩的数据点与所述第一组经压缩的数据点进行比较来识别所述第二组经压缩的数据点中的一个或多个非外围经压缩的数据点;以及由所述设备推荐自动地注释来自所述第二组数据候选的对应于所述一个或多个非外围经压缩的数据点的一个或多个数据候选。
14.根据任何前述条款所述的计算机实现的方法,其中所述维度降低技术是t分布随机相邻嵌入(tSNE)技术或均匀流形近似和投影(UMAP)技术。
15.一种用于促进针对机器学习模型的数据多样性可视化和量化的计算机程序产品,所述计算机程序产品包括计算机可读存储器,所述计算机可读存储器具有利用其体现的程序指令,所述程序指令能够由处理器执行以使得所述处理器:访问第一组数据候选和第二组数据候选,其中在所述第一组数据候选上训练机器学习模型;获得由所述机器学习模型基于所述第一组数据候选生成的第一组潜在激活,并且获得由所述机器学习模型基于所述第二组数据候选生成的第二组潜在激活;通过将维度降低技术应用于所述第一组潜在激活来生成第一组经压缩的数据点,并且通过将所述维度降低技术应用于所述第二组潜在激活来生成第二组经压缩的数据点;以及基于所述第一组经压缩的数据点和所述第二组经压缩的数据点来计算多样性分数。
16.根据任何前述条款所述的计算机程序产品,其中所述程序指令还能够执行以使得所述处理器:呈现描绘所述第一组经压缩的数据点和所述第二组经压缩的数据点的图。
17.根据任何前述条款所述的计算机程序产品,其中被绘制在所述图上的给定经压缩的数据点对应于来自所述第一组数据候选或所述第二组数据候选的给定数据候选,其中所述给定经压缩的数据点如被绘制在所述图上那样是可点击的,并且其中所述处理器响应于所述给定经压缩的数据点被点击而呈现所述给定数据候选。
18.根据任何前述条款所述的计算机程序产品,其中所述第二组数据候选表示所述第一组数据候选的增强版本或以其他方式表示针对所述机器学习模型的潜在训练数据,并且其中所述程序指令还能够执行以使得所述处理器:响应于所述多样性分数满足预先确定的阈值的确定而推荐在所述第二组数据候选上训练所述机器学习模型;以及响应于所述多样性分数未能满足所述预先确定的阈值的确定而推荐不在所述第二组数据候选上训练所述机器学习模型。
19.根据任何前述条款所述的计算机程序产品,其中所述第二组数据候选是未注释的,并且其中所述程序指令还能够执行以使得所述处理器:通过将所述第二组经压缩的数据点与所述第一组经压缩的数据点进行比较来识别所述第二组经压缩的数据点中的一个或多个外围经压缩的数据点;以及推荐手动地注释来自所述第二组数据候选的对应于所述一个或多个外围经压缩的数据点的一个或多个数据候选。
20.根据任何前述条款所述的计算机程序产品,其中所述第二组数据候选是未注释的,并且其中所述程序指令还能够执行以使得所述处理器:通过将所述第二组经压缩的数据点与所述第一组经压缩的数据点进行比较来识别所述第二组经压缩的数据点中的一个或多个非外围经压缩的数据点;以及推荐自动地注释来自所述第二组数据候选的对应于所述一个或多个非外围经压缩的数据点的一个或多个数据候选。

Claims (20)

1.一种系统,所述系统包括:
处理器,所述处理器执行存储在计算机可读存储器中的计算机可执行部件,所述计算机可执行部件包括:
接收器部件,所述接收器部件访问第一组数据候选和第二组数据候选,其中在所述第一组数据候选上训练机器学习模型;
激活部件,所述激活部件获得由所述机器学习模型基于所述第一组数据候选生成的第一组潜在激活,并且获得由所述机器学习模型基于所述第二组数据候选生成的第二组潜在激活;
压缩部件,所述压缩部件通过将维度降低技术应用于所述第一组潜在激活来生成第一组经压缩的数据点,并且通过将所述维度降低技术应用于所述第二组潜在激活来生成第二组经压缩的数据点;以及
多样性部件,所述多样性部件基于所述第一组经压缩的数据点和所述第二组经压缩的数据点来计算多样性分数。
2.根据权利要求1所述的系统,其中所述计算机可执行部件还包括:
可视化部件,所述可视化部件呈现描绘所述第一组经压缩的数据点和所述第二组经压缩的数据点的图。
3.根据权利要求2所述的系统,其中被绘制在所述图上的给定经压缩的数据点对应于来自所述第一组数据候选或所述第二组数据候选的给定数据候选,其中所述给定经压缩的数据点如被绘制在所述图上那样是可点击的,并且其中所述可视化部件响应于所述给定经压缩的数据点被点击而呈现所述给定数据候选。
4.根据权利要求1所述的系统,其中所述第二组数据候选表示所述第一组数据候选的增强版本或者以其他方式表示用于所述机器学习模型的潜在训练数据,并且其中所述计算机可执行部件还包括:
执行部件,所述执行部件响应于所述多样性分数满足预先确定的阈值的确定而推荐在所述第二组数据候选上训练所述机器学习模型,并且响应于所述多样性分数未能满足所述预先确定的阈值的确定而推荐不在所述第二组数据候选上训练所述机器学习模型。
5.根据权利要求1所述的系统,其中所述第二组数据候选是未注释的,并且其中所述计算机可执行部件还包括:
执行部件,所述执行部件通过将所述第二组经压缩的数据点与所述第一组经压缩的数据点进行比较来识别所述第二组经压缩的数据点中的一个或多个外围经压缩的数据点,并且推荐手动地注释来自所述第二组数据候选中的对应于所述一个或多个外围经压缩的数据点的一个或多个数据候选。
6.根据权利要求1所述的系统,其中所述第二组数据候选是未注释的,并且其中所述计算机可执行部件还包括:
执行部件,所述执行部件通过将所述第二组经压缩的数据点与所述第一组经压缩的数据点进行比较来识别所述第二组经压缩的数据点中的一个或多个非外围经压缩的数据点,并且推荐自动地注释来自所述第二组数据候选中的对应于所述一个或多个非外围经压缩的数据点的一个或多个数据候选。
7.根据权利要求1所述的系统,其中所述维度降低技术是t分布随机相邻嵌入(tSNE)技术或均匀流形近似和投影(UMAP)技术。
8.一种计算机实现的方法,所述计算机实现的方法包括:
由操作地耦接到处理器的设备访问第一组数据候选和第二组数据候选,其中在所述第一组数据候选上训练机器学习模型;
由所述设备获得由所述机器学习模型基于所述第一组数据候选生成的第一组潜在激活,并且由所述设备获得由所述机器学习模型基于所述第二组数据候选生成的第二组潜在激活;
由所述设备通过将维度降低技术应用于所述第一组潜在激活来生成第一组经压缩的数据点,并且由所述设备通过将所述维度降低技术应用于所述第二组潜在激活来生成第二组经压缩的数据点;以及
由所述设备基于所述第一组经压缩的数据点和所述第二组经压缩的数据点来计算多样性分数。
9.根据权利要求8所述的计算机实现的方法,所述计算机实现的方法还包括:
由所述设备呈现描绘所述第一组经压缩的数据点和所述第二组经压缩的数据点的图。
10.根据权利要求9所述的计算机实现的方法,其中被绘制在所述图上的给定经压缩的数据点对应于来自所述第一组数据候选或所述第二组数据候选的给定数据候选,其中所述给定经压缩的数据点如被绘制在所述图上那样是可点击的,并且还包括:
响应于所述给定经压缩的数据点被点击而由所述设备呈现所述给定数据候选。
11.根据权利要求8所述的计算机实现的方法,其中所述第二组数据候选表示所述第一组数据候选的增强版本或者以其他方式表示用于所述机器学习模型的潜在训练数据,并且还包括:
响应于所述多样性分数满足预先确定的阈值的确定而由所述设备推荐在所述第二组数据候选上训练所述机器学习模型;以及
响应于所述多样性分数未能满足所述预先确定的阈值的确定而由所述设备推荐不在所述第二组数据候选上训练所述机器学习模型。
12.根据权利要求8所述的计算机实现的方法,其中所述第二组数据候选是未注释的,并且还包括:
由所述设备通过将所述第二组经压缩的数据点与所述第一组经压缩的数据点进行比较来识别所述第二组经压缩的数据点中的一个或多个外围经压缩的数据点;以及
由所述设备推荐手动地注释来自所述第二组数据候选的对应于所述一个或多个外围经压缩的数据点的一个或多个数据候选。
13.根据权利要求8所述的计算机实现的方法,其中所述第二组数据候选是未注释的,并且还包括:
由所述设备通过将所述第二组经压缩的数据点与所述第一组经压缩的数据点进行比较来识别所述第二组经压缩的数据点中的一个或多个非外围经压缩的数据点;以及
由所述设备推荐自动地注释来自所述第二组数据候选的对应于所述一个或多个非外围经压缩的数据点的一个或多个数据候选。
14.根据权利要求8所述的计算机实现的方法,其中所述维度降低技术是t分布随机相邻嵌入(tSNE)技术或均匀流形近似和投影(UMAP)技术。
15.一种用于促进针对机器学习模型的数据多样性可视化和量化的计算机程序产品,所述计算机程序产品包括计算机可读存储器,所述计算机可读存储器具有利用其体现的程序指令,所述程序指令能够由处理器执行以使得所述处理器:
访问第一组数据候选和第二组数据候选,其中在所述第一组数据候选上训练机器学习模型;
获得由所述机器学习模型基于所述第一组数据候选生成的第一组潜在激活,并且获得由所述机器学习模型基于所述第二组数据候选生成的第二组潜在激活;
通过将维度降低技术应用于所述第一组潜在激活来生成第一组经压缩的数据点,并且通过将所述维度降低技术应用于所述第二组潜在激活来生成第二组经压缩的数据点;以及
基于所述第一组经压缩的数据点和所述第二组经压缩的数据点来计算多样性分数。
16.根据权利要求15所述的计算机程序产品,其中所述程序指令还能够执行以使所述处理器:
呈现描绘所述第一组经压缩的数据点和所述第二组经压缩的数据点的图。
17.根据权利要求16所述的计算机程序产品,其中被绘制在所述图上的给定经压缩的数据点对应于来自所述第一组数据候选或所述第二组数据候选的给定数据候选,其中所述给定经压缩的数据点如被绘制在所述图上那样是可点击的,并且其中所述处理器响应于所述给定经压缩的数据点被点击而呈现所述给定数据候选。
18.根据权利要求15所述的计算机程序产品,其中所述第二组数据候选表示所述第一组数据候选的增强版本或者以其他方式表示用于所述机器学习模型的潜在训练数据,并且其中所述程序指令还能够执行以使得所述处理器:
响应于所述多样性分数满足预先确定的阈值的确定而推荐在所述第二组数据候选上训练所述机器学习模型;以及
响应于所述多样性分数未能满足所述预先确定的阈值的确定而推荐不在所述第二组数据候选上训练所述机器学习模型。
19.根据权利要求15所述的计算机程序产品,其中所述第二组数据候选是未注释的,并且其中所述程序指令还能够执行以使得所述处理器:
通过将所述第二组经压缩的数据点与所述第一组经压缩的数据点进行比较来识别所述第二组经压缩的数据点中的一个或多个外围经压缩的数据点;以及
推荐手动地注释来自所述第二组数据候选的对应于所述一个或多个外围经压缩的数据点的一个或多个数据候选。
20.根据权利要求15所述的计算机程序产品,其中所述第二组数据候选是未注释的,并且其中所述程序指令还能够执行以使得所述处理器:
通过将所述第二组经压缩的数据点与所述第一组经压缩的数据点进行比较来识别所述第二组经压缩的数据点中的一个或多个非外围经压缩的数据点;以及
推荐自动地注释来自所述第二组数据候选的对应于所述一个或多个非外围经压缩的数据点的一个或多个数据候选。
CN202280029257.2A 2021-04-28 2022-04-22 针对机器学习模型的数据多样性可视化和量化 Pending CN117223015A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/243,046 US20220351055A1 (en) 2021-04-28 2021-04-28 Data diversity visualization and quantification for machine learning models
US17/243,046 2021-04-28
PCT/US2022/025938 WO2022231970A1 (en) 2021-04-28 2022-04-22 Data diversity visualization and quantification for machine learning models

Publications (1)

Publication Number Publication Date
CN117223015A true CN117223015A (zh) 2023-12-12

Family

ID=83807657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280029257.2A Pending CN117223015A (zh) 2021-04-28 2022-04-22 针对机器学习模型的数据多样性可视化和量化

Country Status (4)

Country Link
US (1) US20220351055A1 (zh)
EP (1) EP4330870A1 (zh)
CN (1) CN117223015A (zh)
WO (1) WO2022231970A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11468353B2 (en) * 2019-11-11 2022-10-11 Rockwell Automation Technologies, Inc. System for detecting data drift in machine-learning process monitoring
CN116541252B (zh) * 2023-07-06 2023-10-20 广州豪特节能环保科技股份有限公司 一种机房故障日志数据处理方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018227277A1 (en) * 2017-06-12 2018-12-20 Royal Bank Of Canada System and method for adaptive data visualization
US20190102692A1 (en) * 2017-09-29 2019-04-04 Here Global B.V. Method, apparatus, and system for quantifying a diversity in a machine learning training data set
US10303978B1 (en) * 2018-03-26 2019-05-28 Clinc, Inc. Systems and methods for intelligently curating machine learning training data and improving machine learning model performance
US10834106B2 (en) * 2018-10-03 2020-11-10 At&T Intellectual Property I, L.P. Network security event detection via normalized distance based clustering
US11989216B2 (en) * 2019-04-09 2024-05-21 University Of Washington Systems and methods for providing similarity-based retrieval of information stored in DNA
US11533326B2 (en) * 2019-05-01 2022-12-20 Oracle International Corporation Systems and methods for multivariate anomaly detection in software monitoring
CA3157616A1 (en) * 2019-11-17 2021-05-20 Darshan THAKER Systems and methods for analyses of biological samples
CN111382807B (zh) * 2020-06-01 2020-09-01 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN112489628B (zh) * 2020-11-23 2024-02-06 平安科技(深圳)有限公司 语音数据选择方法、装置、电子设备及存储介质
CN112306494A (zh) * 2020-12-03 2021-02-02 南京航空航天大学 一种基于卷积和循环神经网络的代码分类及聚类方法
JP2022113523A (ja) * 2021-01-25 2022-08-04 株式会社日本製鋼所 コンピュータプログラム、異常検知方法、異常検知装置、成形機システム及び学習モデル生成方法
US20240071626A1 (en) * 2022-08-26 2024-02-29 Roche Diagnostics Operations, Inc. Automated validation of medical data

Also Published As

Publication number Publication date
US20220351055A1 (en) 2022-11-03
EP4330870A1 (en) 2024-03-06
WO2022231970A1 (en) 2022-11-03

Similar Documents

Publication Publication Date Title
US10719301B1 (en) Development environment for machine learning media models
US20230195845A1 (en) Fast annotation of samples for machine learning model development
Hubregtsen et al. Evaluation of parameterized quantum circuits: on the relation between classification accuracy, expressibility, and entangling capability
US11537506B1 (en) System for visually diagnosing machine learning models
CN117223015A (zh) 针对机器学习模型的数据多样性可视化和量化
US11373117B1 (en) Artificial intelligence service for scalable classification using features of unlabeled data and class descriptors
US20220198266A1 (en) Using disentangled learning to train an interpretable deep learning model
US11995573B2 (en) Artificial intelligence system providing interactive model interpretation and enhancement tools
Mostaeen et al. A machine learning based framework for code clone validation
Nadim et al. Leveraging structural properties of source code graphs for just-in-time bug prediction
Cummaudo et al. Threshy: Supporting safe usage of intelligent web services
US20230281470A1 (en) Machine learning classification of object store workloads
US20230237369A1 (en) Automated training of machine learning classification for patient missed care opportunities or late arrivals
US20230049418A1 (en) Information quality of machine learning model outputs
US11244198B2 (en) Input partitioning for deep learning of large image data
Motai et al. Cloud colonography: distributed medical testbed over cloud
KR20220075119A (ko) 의료 영상 기반의 뇌백질 병변 탐지 방법
CN115349129A (zh) 生成具有不确定性区间的性能预测
US20220237467A1 (en) Model suitability coefficients based on generative adversarial networks and activation maps
US20240087300A1 (en) Systematic testing of ai image recognition
US20230034782A1 (en) Learning-based clean data selection
Kavarakuntla Performance modelling for scalable deep learning
US20230409673A1 (en) Uncertainty scoring for neural networks via stochastic weight perturbations
US20230267349A1 (en) Smart training and smart deployment of machine learning models
US20220222546A1 (en) Evaluating Supervised Learning Models Through Comparison of Actual and Predicted Model Outputs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination