CN110287978A - 用于有监督的机器学习的计算机实现的方法和计算机系统 - Google Patents

用于有监督的机器学习的计算机实现的方法和计算机系统 Download PDF

Info

Publication number
CN110287978A
CN110287978A CN201910202051.5A CN201910202051A CN110287978A CN 110287978 A CN110287978 A CN 110287978A CN 201910202051 A CN201910202051 A CN 201910202051A CN 110287978 A CN110287978 A CN 110287978A
Authority
CN
China
Prior art keywords
user
data set
dimensionality reduction
data
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910202051.5A
Other languages
English (en)
Other versions
CN110287978B (zh
Inventor
M.M.瓦鲁格斯
F.P.S.刘斯
I.Y.阿克哈尔瓦雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN110287978A publication Critical patent/CN110287978A/zh
Application granted granted Critical
Publication of CN110287978B publication Critical patent/CN110287978B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用于有监督的机器学习和归类的计算机实现的方法和计算机系统,包括:通过结合全局目标函数的维度可视化模块,将无监督的降维算法应用于数据集,该数据集包括能够视觉表示的多个数据点,以产生降维的数据集;以及通过维度可视化模块,将降维的数据集解析到用户界面模块,用于降维的数据集的视觉显示。该方法包括:接收指示数据集内至少一个数据点的分类的用户输入;由维度可视化模块将根据指示分类加权的全局目标函数应用于降维的数据集,以产生用户增强的降维的数据集;以及由维度可视化模块将用户增强的降维的数据集解析到用户界面模块,用于降维的数据集的视觉显示。

Description

用于有监督的机器学习的计算机实现的方法和计算机系统
技术领域
本发明涉及数据归类和分类,并且具体涉及一种用于有监督的机器学习的计算机实现的方法和计算机系统。
背景技术
本发明涉及数据归类和分类,并且具体涉及一种用于有监督的机器学习的计算机实现的方法和计算机系统。
发明内容
本发明的一个示例实施例涉及一种用于有监督的机器学习的计算机实现的方法和计算机系统。随着计算能力的提高和学习算法变得更先进,用于分类非结构化或半结构化数据的机器学习或AI(人工智能,Artificial Intelligence)变得越来越强大和更有能力。
在该领域的一方面,非结构化数据只能通过机器学习来归类或结构化。有利的是,这可能很快,不需要人工干预。不利的是,如果非结构化数据的样本或数据点不适合由该特定算法进行归类,这可能不会导致最合适的(甚至远程可用的)结果。
在该领域的另一方面,非结构化数据只能由人类归类或结构化。有利的是,该结构化将是合适的。不利的是,这可能非常费力,甚至是不可能的,这取决于非结构化数据的性质。
本发明的示例实施例提供了一种用于有监督的机器学习和归类的计算机实现的方法和计算机系统。该方法包括由结合全局目标函数的维度可视化模块将无监督的降维算法应用于包括能够视觉表示的多个数据点的数据集,以产生降维的数据集,以及由维度可视化模块将降维的数据集解析到用户界面模块,以用于降维的数据集的视觉显示。该方法包括:由用户界面模块接收指示数据集内至少一个数据点的分类的用户输入;由维度可视化模块将根据指示的分类而加权的全局目标函数应用于降维的数据集,以产生用户增强的降维的数据集;以及由维度可视化模块将用户增强的降维的数据集解析到用户界面模块,用于降维的数据集的视觉显示。该方法包括由结合聚类功能的聚类模块对用户增强的降维的数据集进行聚类,以产生用户增强的聚类输出。
本发明的示例实施例还提供了相应的计算机系统和计算机程序产品。
附图说明
图1示出了根据本发明的实施例的用于有监督的机器学习的计算机系统的示意图;
图2示出了根据本发明的实施例的有监督的机器学习的方法的流程图;
图3示出了在更详密的实现中的图2的方法的流程图;
图4示出了在甚至更详密的实现中的图2的方法示意框图;
图5示出了根据图2的方法生成的第一用户界面;和
图6示出了根据图2的方法生成的第二用户界面。
具体的实施方式
图1示出了用于有监督的机器学习的计算机系统100。类似地,图2-图3示出了用于有监督的机器学习的计算机实现的方法200、300。示例实施例可以提供有监督的机器学习,其中机器通过以可视地便于分类或标记的方式呈现多个数据点的数据集来帮助用户,并且用户通过对数据点进行分类来帮助机器,这提供了数据点的更有意义的呈现或聚类。该过程可以是递归的或迭代的。
计算机系统100包括通信地耦合到计算机可读介质130的计算机处理器110。计算机处理器110可以是一个或多个微处理器、控制器或任何其它合适的计算资源、硬件、软件或嵌入式逻辑。程序指令132存储在计算机可读介质130上,并被配置为引导处理器110的操作。处理器110(在程序指令122的引导下)包括多个概念模块112、116、118,它们可以对应于处理器110执行的功能任务。计算机系统100具有用于与其它组件通信和/或经由电信网络(例如,互联网)通信的通信装置(communication arrangement)140。
计算机系统100可以包括耦合到其上的数据库150(或其它形式的数据存储)。数据库150在其上存储了数据集152。数据集152可以是包括多个数据点的非结构化或半结构化数据。数据集能够是视觉或图形表示,并且可以例如包括图像、声音、文本或符号、样本特征向量等。数据集152可以包含足够的数据点,用于至少两个分类的最小值中的每一个,这两个分类可以通过选定的给定降维特征提取以及随后的聚类操作来发现。
维度可视化模块112包括全局目标函数114,并且可以至少执行初始降维步骤,以呈现数据集152的初始无监督的分类或区分,其中,每个分类具有至少一个数据点。
用户界面模块116被配置为可视地显示缩减的数据集152。此外,用户界面模块116还可以被配置为向用户呈现图形用户界面(graphical user interface,GUI),用户可以经由该图形用户界面提供用户输入。
通信装置140可以被配置为与用户设备或终端(未示出)通信。通信装置140可以是用于跨电信网络(如互联网)与用户终端或其它设备通信的网络接口。整个计算机系统100可以是云托管的或者作为PaaS(Platform as a Service,平台即服务)提供。用户可以使用他的终端(例如,个人计算机或膝上型计算机)使用传统的数据通信技术连接到计算机系统100。
聚类模块118包括聚类功能120,一旦用户提供了至少一个分类或其它用户输入,该聚类功能120就可以应用于数据集152。模块112、116、118的功能将参照图2-图3所示的方法进行扩展。
图2示出了用于有监督的机器学习的计算机实现的方法200。由维度可视化模块112实现的全局目标函数114可以在接收到任何用户输入之前作为完全无监督的步骤或者在接收到用户输入之后作为用户指导的步骤被应用于数据集152。
数据集152可以是具有大量(例如超过10个)维度或类别或分类的描述符或特征的高维数据集。这可能会导致不佳或高度混乱的可视化,这可能会抑制用户提供有意义输入的能力。因此,维度可视化模块112应用无监督的降维步骤(在方框202处),以产生具有较少数量(例如10或更少)描述符或特征维度的降维的数据集。
如果需要,然后可以通过进一步的降维步骤来处理降维的数据集,以产生供用户交互的二维或三维可视化,也称为低维嵌入计算。维度可视化模块112可以包括要显示的阈值,并且全局目标函数114可以引导数据集152降维,直到它低于要显示的阈值。要显示的阈值可以是预定义的或者可以是用户可定义的。
低维嵌入计算产生显示图形元素、顶点和可见/不可见边缘的二维或三维可视化,这些图形元素、顶点和可见/不可见边缘可以根据用户动作进行如平移、缩放和旋转这样的逐个元素仿射操作(element-wise affine operation),这些操作的组成显示了观察集的分类或区分。基于图形的低维可视化可以包括全局、局部和逐个元素方面的附加属性,诸如着色、纹理、文本覆盖、图像覆盖,这些属性可以用于通过在每次可视化更新后计算快速聚类来显示通过顶点着色的组的自动聚类,并且允许用户查看特定图形元素的相应输入观察,诸如当图形顶点与输入观察双射(bijectively)相关联时。
维度可视化模块112将降维的数据集解析(在方框204处)到用户界面模块116,用于降维的数据集的视觉显示。在本地实现中,降维的数据集可以输出到连接的显示器设备,例如计算机屏幕。在远程或联网实现中,降维的数据集可以(例如,经由互联网协议(Internet Protocol,IP)消息)被传送到远程客户端,以在远程客户端上显示。降维的数据集可以显示为在2D平面中表示的3D正交数据集。
用户界面模块116配置向用户呈现各种输入选项的GUI。输入选项可以包括平移视图、缩放视图、悬停样本、选择样本、取消选择样本、注释样本、标记样本、选择聚类、取消选择聚类、注释聚类、标记聚类、暂停计算、恢复计算、停止计算、开始计算、重置计算、改变邻域大小、改变邻域标准、改变距离度量选择、数据集选择、预处理选项等。通常,用户输入指示降维的数据集中的一个或多个数据点的分类。分类可以包括标记、移动、选择、取消选择、标志、做记号等。用户界面模块116还可以向用户提供操纵数据点而不对其进行分类的选项,例如,旋转数据点以获得更好的视图,从而使用户能够决定是否对其进行标记。
用户界面模块116接收(在方框206处)用户输入。用户界面模块116可以被配置为对输入观察中的每一个进行分类,连同附加的相关统计和测量,诸如分类成员的概率以及与分类中用户提升的数据点相关的分类。
维度可视化模块112将接收到的用户输入应用(在方框208处)到降维的数据集,以产生用户增强的降维的数据集。这是通过使用相同的全局目标函数114通过根据接收到的用户输入增加权重来完成的。用户增强的降维的数据集被解析(在方框210)到用户界面模块116以显示给用户。
因此,示例实施例的核心思想可以是将分类的用户输入(例如,类别样例)集成为全局目标函数114中的修改的权重(现在用作加权优化算法),全局目标函数114执行可视化和初步相似性分组的降维,这样的相似数据点被聚类、分组、突出显示、标记或以其它方式指示为潜在相似,其中用户基于包含邻域信息的算法仅选择具有相关联的数据点(例如,扩展的样本选择)的几个单独数据点(例如,参考样本)。
一旦用户已经提供了输入,用户增强的降维的数据集可以经受(在方框212处)期望的机器学习或AI功能。在该示例中,聚类模块118将聚类功能120应用于原始数据集152或用户增强的降维的数据集,以产生用户增强的聚类输出形式的系统100的输出。例如,经由GUI选择导出选项可以触发聚类,然后输出逗号分隔值(Comma-Separated Value,CSV)文件,其中,每行表示不同的样本,其中,列是样本标识符和聚类的标记/编号。
通过用户界面按钮,诸如“聚类标记”(为聚类名称分配字符串)和“聚类取消选择”(将取消选择随后点击的样本及其相关联的聚类)以及“聚类细化”(将从较大的聚类中取消选择单个或组选择的聚类样本以细化聚类的小部分),可以进一步细化样例聚类。
图3示出了方法300的流程图,方法300仅仅是方法200的迭代或重复版本。方框206-方框210无限期重复(在方框302处)。每次用户提供用户输入时,根据接收到的用户输入来增强数据集的视觉显示,这可以更方便地对数据点进行分组,并使用户更容易提供下一用户输入,等等。因此,方法300可以被认为是交互式可视化过程,用于基于影响分类计算的用户反馈来标记数据集中的数据点,该分类计算可以被图形地跟踪,并且根据无监督的计算和用户动作更新加权优化算法。
图4更详细地示出了图3的方法300的方面或子步骤的功能框图400。
图5-图6示出了在方法300的顺序步骤中生成的顺序图形用户界面(GUI)500、600。GUI 500、600由用户界面模块116呈现,并且包括从维度可视化模块112计算和解析的数据。GUI 500、600可以允许用户通过交互式显示,通过选择或操纵一系列图形元素,通过改变顶点的位置,来操纵每个单独的图形元素或图形元素子集,顶点的位置被注册到全局目标函数114中,作为在低维嵌入计算中应该尝试满足的附加约束。
降维的数据集的初始视觉显示可以根据一系列无监督的/内部的或有监督的/外部的信息单独地或组合地提升顶点,通过边缘排斥/吸引调整顶点间距,或者通过在单独的信息显示组件中可视地向用户突出显示有用顶点的选择。例如,作为内部测量的有限邻域中的相邻者的分类或顶点程度或相似性的内聚力或清晰度测量,或者无监督的特征提取重建误差,诸如自动编码器重建误差,可以用于提升低重建误差的图形间距,降低高重建误差的间距。
通过与所提供的GUI交互,用户可以通过在低维嵌入计算的任何迭代期间选择/取消选择图形顶点来提升/降低边缘排斥。当选择顶点时,它的所有输出边缘都将根据相关公式被更新以排斥相邻的顶点。用户对顶点的选择可以等同于对规范示例或样例的选择,这些示例或样例可以形成从中聚类或组可以形成的种子。
用户的样例/参考示例选择可以启动进行扩展样本选择的算法,该算法使用来自原始数据集152和降维的数据集两者的信息,诸如成对距离,来确定可以在样例周围的低维嵌入中形成良好聚类的相似点的周围的组。这种扩展的样本选择算法可以将考虑的样本限制在低维邻域内,其大小可以用GUI中的图形元素(如滑动条)修改,并且该低维邻域可以与高维样例邻域相交以获得结果邻域。
此外,由于用户选择较差(inferior)样例的可能性,系统100的维度可视化模块112可以根据与其扩展的样本的平均相似性最大化来在数据集152中搜索更好的样例,其中样例候选是所选样例的即时(immediate)低维邻域。维度可视化模块112然后可以随着更好的样例的计算而更新扩展的样本选择的可视化。
用户可以通过计算迭代向后和向前迭代,并决定在哪里提供监督(即,用户输入),并且维度可视化模块112可以从给出有监督的迭代重新执行向前计算。
全局目标函数114可以包括降维算法404,该降维算法404被配置为1)允许特征空间的直接可视化,以及2)获得不遭受维度缺陷的有效度量空间。该算法404可能需要由直接改变其目标函数来结合用户决策,并且样本扩展算法可以用于进行有限的用户选择并产生更大的样本,以确保目标函数被改变到足以影响足够的整体改变。算法404最初使用未标记或半标记样本402形式的非结构化数据集152作为输入。
全局目标函数114可以基于数学图形粒子-弹性(particle-spring)系统406,对于该系统,原始(通常)高维空间中的每个原始输入样本402具有相关联的粒子,其中粒子-弹性系统表示由算法404迭代计算的低维嵌入。换句话说,样本402可以被视为粒子弹性系统,在粒子弹性系统中至少两个样本402形成数据点对,其中在所述数据点对之间具有吸引力或排斥力。用户输入然后可用于定义数据点对或修改数据点对之间的吸引力或排斥力(例如,通过提升或降低)。
粒子-弹性系统406分配随机的初始粒子放置,然后根据梯度修改粒子-弹性系统的弹性。最初,弹性权重可以被设置为任意值或单一值,例如1。此后,更新粒子放置。
例如,全局目标函数114可以根据Kullback-Leibler(KL)散度函数进行调整,以确保高维空间(原始数据集152的高维度空间,例如样本402的集)的每个粒子对(particle-pair)距离与低维距离成比例,使得如果绘制直方图形状的图形,其中每对的高维距离被单独绘制为条状,则低维距离的直方图形状的图将相应地重叠,其中,假设对标识(pairidentity)跨图在x轴上匹配。梯度可以通过Barnes-Hut KL-散度梯度下降函数来计算。
粒子-弹性系统的全局目标函数114的优化可以是梯度下降,其中,初始解是数据点在降维的数据集的这种低维嵌入中的随机定位。梯度下降可以通过将粒子位置移动到目标函数的梯度基本为零的状态来发生,从而指示局部极值。这实际上表现为每个粒子或数据点上的吸引力和排斥力的相互作用,其中每个粒子对或数据点对之间的每个弹性的张力迭代地变化,以产生更接近目标的新的整体定位。
通过使用扩展的样本选择(样例聚类),如所选样例的邻域,可以通过利用每次迭代存储和调用的权重分配来分别对粒子或数据点进行加权,从而将用户决策集成到全局目标函数114中。如果样本402是样例聚类的一部分,那么它将被分配相对较高的权重,并且它将影响更多的整体图形,而非样例样本将影响更少的图形。如果粒子的权重为零,那么它对该迭代的图形变化没有影响。
Yang等人[1]使用粒子加权法,其中弹性排斥力由附着的粒子权重的乘积加权。
在图4中,用户输入通常由数字408指示,并且在方框410中指示接收到用户输入所必需或触发的计算。通过使用扩展的样本选择(样例聚类),如所选样例的邻域,将接收到的用户输入以用户样本选择的形式集成到全局目标函数114中,也可以使用扩展的样本选择算法来完成,例如,通过根据附着的粒子的聚类成员单独加权排斥弹性力,并响应于接收到用户输入408来更新弹性权重。当附着的粒子属于不同的样例聚类时,或者如果只有一个属于样例聚类时,则应该会导致更高的排斥力。所得到的一组加权排斥力必须被归一化,以对吸引弹性力产生整体上相等的影响。
全局目标函数114的优化的加速可以通过考虑相对较远的数据点组或聚类(相对于给定参考点)的影响来完成,就好像它在参考点处具有单个弹性相互作用,而不是一组单独的弹性相互作用,这可以在从O·N2到O·N·log(N)的滑动尺度上具有计算复杂度的对数减少(参见Van Der Maaten[2]中的Barnes-Hut算法)。
本发明的示例实施例的有用的技术新颖性可以是将权重集成到加速优化算法中的过程。对于加权排斥力方法,排斥力只在局部邻域内加权,这些邻域不足以远到被单个弹性取代,因此Barnes-Hut加速不会因为必须集成整个图形的逐个弹性(spring-wise)的加权而丢失。在这种方法中,吸引力不通过加权来修改,因为考虑到排斥力和吸引力之间的成比例的相互作用只能通过改变排斥力的相对影响来实现,这不是严格必要的。
当系统目标已经满足最大计算迭代次数或最小目标变化的停止条件时,低维嵌入计算可以终止,直到进一步的用户动作。一旦低维嵌入计算终止,用户可以打开系统输出,系统输出输出分类成员、距分类质心的距离、距提升的顶点的距离等。
通过用户界面按钮,诸如“聚类标记”(为聚类名称分配一个字符串)和“聚类取消选择”(将取消选择随后点击的样本及其相关联的聚类)以及“聚类细化”(将从较大的聚类中取消选择单个或组选择的聚类样本以细化聚类的小部分),可以进一步细化样例聚类。这些是特定用户输入的示例。
一旦用户完成了用户输入阶段,他可以选择最终确定(finalize)或输出选项,然后由聚类模块118将机器学习聚类功能应用于数据集152,数据集152由接收到的用户输入加权或以其他方式考虑。可能有各种聚类功能或其它机器学习算法可以应用于数据集152,因此精确的AI算法与这个示例无关。然而,通过使用用于指导或监督聚类或其它AI功能的用户输入来增强聚类。
最后,用户可以导出(在方框412处)聚类标记或标记的样本452以供向前使用,例如作为机器学习或AI算法的输入。
图5示出了由用户界面模块116提供的GUI 500。GUI包括在GUI的每一侧下方的多个用户输入选项502。GUI 500的中央部分示出了数据集152的2D图形图示,该数据集152包括多个样本,其中一些样本已经被标记。如上所述,2D图形图示由维度可视化模块112提供。
数据集152的标记数据点或样本被分组或聚类。未标记的数据点可以在显示器周围分布或隔开。例如,用户可能希望将标记应用于一些(例如三个)未标记的数据点504。他可以使用各种输入选项502操纵显示器,并且还将期望的标记应用于未标记的数据点504。在该示例中,用户将“标记2”应用于未标记的数据点504。
当接收到用户输入时,数据点之间的相对弹性权重被调整(详细参见图4),并且维度可视化模块112重新计算并显示三个新标记的点602,这三个新标记的点602与具有相同“标记2”标识符的其它数据点聚集在一起,或者更接近这些数据点。对于具有各种标记或其它分类标准的多个样本,可以迭代地重复该过程。每次输入或一组输入后,图形显示会被更新。这可以使其更容易或至少更有视觉意义,并且使用户能够更快地提供进一步的输入,或者修改或取消选择先前的输入。
本发明的实施例可以是集成的任何可能的技术细节级别的系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、诸如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其它自由传播的电磁波、通过波导或其它传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如互联网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用互联网服务提供商来通过互联网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方方框以及流程图和/或框图中各方方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其它设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方方框中所标注的功能也可以以不同于附图中所标注的顺序发生。
例如,两个连续的方方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方方框、以及框图和/或流程图中的方方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本发明的各种实施例的描述是出于说明的目的而给出的,但并不旨在穷举或限制于所公开的实施例。在不脱离所述实施例的范围和精神的情况下,许多修改和变化对于本领域普通技术人员来说是显而易见的。选择这里使用的术语是为了最好地解释实施例的原理、实际应用或相对于市场上发现的技术的技术改进,或者使本领域普通技术人员能够理解这里公开的实施例。
参考文献
[1]Yang,Z.,Peltonen,J.and Kaski,S.,2014.Optimization Equivalence ofDivergences Improves Neighbor Embedding.In ICML(pp.460-468)
[2]Van Der Maaten,L.,2014.Accelerating t-SNE using tree-basedalgorithms.Journal of machine learning research,15(1),pp.3221-3245.

Claims (21)

1.一种用于有监督的机器学习的计算机实现的方法,该方法包括:
由结合全局目标函数的维度可视化模块,将无监督的降维算法应用于包括能够视觉表示的多个数据点的数据集,以产生降维的数据集;
由所述维度可视化模块将所述降维的数据集解析到用户界面模块,用于所述降维的数据集的视觉显示;
由所述用户界面模块接收指示所述数据集内的至少一个数据点的分类的用户输入;
由所述维度可视化模块将根据所指示的分类而加权的全局目标函数应用于所述降维的数据集,以产生用户增强的降维的数据集;
由所述维度可视化模块将所述用户增强的降维的数据集解析到所述用户界面模块,用于所述用户增强的降维的数据集的视觉显示;和
由结合聚类功能的聚类模块对所述用户增强的降维的数据集进行聚类,以产生用户增强的聚类输出。
2.根据权利要求1所述的方法,其中迭代地或重复地执行以下操作:
接收指示所述数据点的分类的用户输入;
应用根据所指示的分类而加权的全局目标函数,以产生用户增强的降维的数据集;和
将所述用户增强的降维的数据集解析到所述用户界面模块,以用于所述用户增强的降维的数据集的视觉显示。
3.根据权利要求2所述的方法,其中响应于接收到所述用户输入,实时更新所述用户增强的降维的数据集的视觉显示。
4.根据权利要求1所述的方法,其中,所述维度可视化模块将所述数据集处理为粒子弹性系统,在所述粒子弹性系统中,所述数据集内的至少两个数据点形成数据点对,其中在所述数据点对之间具有吸引力或排斥力。
5.根据权利要求4所述的方法,其中,所述全局目标函数被配置为基于接收到的用户输入来定义数据点对或者修改所述数据点对之间的吸引力或排斥力。
6.根据权利要求4所述的方法,其中,所述维度可视化模块被配置为相对于给定参考点定义相对较远的数据点组或聚类,就好像它具有与所述参考点的单个弹性相互作用,而不是一组单独的弹性相互作用。
7.根据权利要求1所述的方法,其中,所述维度可视化模块被配置为将所述数据集的维度数量减少到或低于用于向用户视觉显示的要查看阈值。
8.根据权利要求1所述的方法,其中:
所述用户界面模块被配置为允许所述用户通过先前的用户输入向前和向后循环;和
所述维度可视化模块被配置为根据所循环的用户输入产生所述用户增强的降维的数据集。
9.根据权利要求1所述的方法,其中,接收到的用户输入用作所述聚类模块对所述数据集执行聚类的指导或监督。
10.一种用于有监督的机器学习的计算机系统,该计算机系统包括:
计算机处理器;和
计算机可读存储介质,其上存储有可由所述计算机处理器执行以引导处理器操作的程序指令,其中当执行所述程序指令时,所述计算机处理器包括:
维度可视化模块,其结合了全局目标函数,所述维度可视化模块被配置为将无监督的降维算法应用于包括能够视觉表示的多个数据点的数据集,以产生降维的数据集;和
用户界面模块,其中,所述维度可视化模块被配置为将所述降维的数据集解析到所述用户界面模块,用于所述降维的数据集的视觉显示,其中:
所述用户界面模块被配置为接收指示所述数据集内的至少一个数据点的分类的用户输入;
所述维度可视化模块被配置为将根据所指示的分类而加权的全局目标函数应用于所述降维的数据集,以产生用户增强的降维的数据集;和
所述维度可视化模块被配置为将所述用户增强的降维的数据集解析到所述用户界面模块,用于所述用户增强的降维的数据集的视觉显示;和
聚类模块,其结合了聚类功能,并被配置为聚类所述用户增强的降维的数据集,以产生用户增强的聚类输出。
11.根据权利要求10所述的系统,其中,所述维度可视化模块和所述用户界面模块被配置为迭代地或重复地执行以下操作:
接收指示所述数据点的分类的用户输入;
应用根据所指示的分类而加权的全局目标函数,以产生用户增强的降维的数据集;和
将所述用户增强的降维的数据集解析到所述用户界面模块,以用于所述用户增强的降维的数据集的视觉显示。
12.根据权利要求11所述的系统,其中,所述维度可视化模块被配置为响应于接收到所述用户输入,实时更新所述用户增强的降维的数据集。
13.根据权利要求10所述的系统,其中,所述维度可视化模块将所述数据集处理为粒子弹性系统,在所述粒子弹性系统中,所述数据集内的至少两个数据点形成数据点对,其中在所述数据点对之间具有吸引力或排斥力。
14.根据权利要求13所述的系统,其中,所述全局目标函数被配置为基于接收到的用户输入来定义数据点对或者修改所述数据点对之间的吸引力或排斥力。
15.根据权利要求13所述的系统,其中,所述维度可视化模块被配置为相对于给定参考点定义相对较远的数据点组或聚类,就好像它具有与所述参考点的单个弹性相互作用,而不是一组单独的弹性相互作用。
16.根据权利要求10所述的系统,其中,所述维度可视化模块被配置为将数据集的维度数量减少到或低于用于向用户视觉显示的要查看阈值。
17.根据权利要求10所述的系统,其中:
所述用户界面模块被配置为允许所述用户通过先前的用户输入向前和向后循环;和
所述维度可视化模块被配置为根据所循环的用户输入产生所述用户增强的降维的数据集。
18.根据权利要求10所述的系统,其中,接收到的用户输入用作所述聚类模块对所述数据集执行聚类的指导或监督。
19.一种用于有监督的机器学习的计算机程序产品,该计算机程序产品包括:
计算机可读介质,其上存储有:
第一程序指令,其可由计算机处理器执行,以使得所述计算机处理器将无监督的降维算法应用于包括能够视觉表示的多个数据点的数据集,以产生降维的数据集;
第二程序指令,其可由所述计算机处理器执行,以使得所述计算机处理器将所述降维的数据集解析到用户界面,用于所述降维的数据集的视觉显示,并接收指示所述数据集内的至少一个数据点的分类的用户输入,其中所述第一程序指令被配置为根据所指示的分类对所述降维的数据集进行加权,以产生用户增强的降维的数据集,并且其中所述第二程序指令被配置为将所述用户增强的降维的数据集解析到所述用户界面,用于视觉显示;和
第三程序指令,其可由所述计算机处理器执行,以使得所述计算机处理器对所述用户增强的降维的数据集进行聚类,以产生用户增强的聚类输出。
20.根据权利要求19所述的计算机程序产品,其中:
所述第一程序指令和所述第二程序指令被配置为接收指示所述数据点的分类的用户输入,根据所指示的分类对所述降维的数据集进行加权以产生用户增强的降维的数据集,将所述用户增强的降维的数据集解析到所述用户界面以重复地或迭代地进行视觉显示。
21.一种用于有监督的机器学习的系统,该系统包括用于执行根据权利要求1至9中任一项所述的方法的步骤的装置。
CN201910202051.5A 2018-03-19 2019-03-18 用于有监督的机器学习的计算机实现的方法和计算机系统 Active CN110287978B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/924,292 US11164106B2 (en) 2018-03-19 2018-03-19 Computer-implemented method and computer system for supervised machine learning
US15/924,292 2018-03-19

Publications (2)

Publication Number Publication Date
CN110287978A true CN110287978A (zh) 2019-09-27
CN110287978B CN110287978B (zh) 2023-04-25

Family

ID=67905817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910202051.5A Active CN110287978B (zh) 2018-03-19 2019-03-18 用于有监督的机器学习的计算机实现的方法和计算机系统

Country Status (2)

Country Link
US (1) US11164106B2 (zh)
CN (1) CN110287978B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434748A (zh) * 2020-12-03 2021-03-02 大连理工大学 一种弱监督环境下的交互式数据标记方法
WO2021191703A1 (en) * 2020-03-26 2021-09-30 International Business Machines Corporation Method for selecting datasets for updating artificial intelligence module

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11100364B2 (en) * 2018-11-19 2021-08-24 Cisco Technology, Inc. Active learning for interactive labeling of new device types based on limited feedback
US10937417B2 (en) * 2019-05-31 2021-03-02 Clinc, Inc. Systems and methods for automatically categorizing unstructured data and improving a machine learning-based dialogue system
US11893456B2 (en) * 2019-06-07 2024-02-06 Cisco Technology, Inc. Device type classification using metric learning in weakly supervised settings
CN117216689B (zh) * 2023-11-08 2024-02-27 山东辰智电子科技有限公司 一种基于城市水利数据的地下管道排放预警系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000016250A1 (en) * 1998-09-17 2000-03-23 The Catholic University Of America Data decomposition/reduction method for visualizing data clusters/sub-clusters
US20150074130A1 (en) * 2013-09-09 2015-03-12 Technion Research & Development Foundation Limited Method and system for reducing data dimensionality
CA3065841A1 (en) * 2016-06-12 2018-12-20 Royal Bank Of Canada System and method for adaptive data visualization

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050135667A1 (en) 2003-12-22 2005-06-23 Abb Oy. Method and apparatus for labeling images and creating training material
US9002100B2 (en) 2008-04-02 2015-04-07 Xerox Corporation Model uncertainty visualization for active learning
WO2017210115A1 (en) * 2016-05-31 2017-12-07 North Carolina State University Methods of mast cell tumor prognosis and uses thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000016250A1 (en) * 1998-09-17 2000-03-23 The Catholic University Of America Data decomposition/reduction method for visualizing data clusters/sub-clusters
US20150074130A1 (en) * 2013-09-09 2015-03-12 Technion Research & Development Foundation Limited Method and system for reducing data dimensionality
CA3065841A1 (en) * 2016-06-12 2018-12-20 Royal Bank Of Canada System and method for adaptive data visualization

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021191703A1 (en) * 2020-03-26 2021-09-30 International Business Machines Corporation Method for selecting datasets for updating artificial intelligence module
GB2609143A (en) * 2020-03-26 2023-01-25 Ibm Method for selecting datasets for updating artificial intelligence module
CN112434748A (zh) * 2020-12-03 2021-03-02 大连理工大学 一种弱监督环境下的交互式数据标记方法
CN112434748B (zh) * 2020-12-03 2024-05-31 大连理工大学 一种弱监督环境下的交互式数据标记方法

Also Published As

Publication number Publication date
US20190287030A1 (en) 2019-09-19
US11164106B2 (en) 2021-11-02
CN110287978B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN110287978A (zh) 用于有监督的机器学习的计算机实现的方法和计算机系统
Khan et al. Multi-gcn: Graph convolutional networks for multi-view networks, with applications to global poverty
US20220351016A1 (en) Presentation module for webinterface production and deployment system
US10606885B2 (en) Data object creation and recommendation using machine learning based online evolution
CN107967575B (zh) 一种人工智能保险咨询服务人工智能平台系统
CN108171276B (zh) 用于生成信息的方法和装置
CN111639710A (zh) 图像识别模型训练方法、装置、设备以及存储介质
CN111598164B (zh) 识别目标对象的属性的方法、装置、电子设备和存储介质
US11080560B2 (en) Low-shot learning from imaginary 3D model
CN110069994A (zh) 基于人脸多区域的人脸属性识别系统、方法
Yu et al. Progressive glass segmentation
Gandhi et al. Classification rule construction using particle swarm optimization algorithm for breast cancer data sets
CN108776676A (zh) 信息推荐方法、装置、计算机可读介质及电子设备
CN105354593B (zh) 一种基于nmf的三维模型分类方法
CN113361344B (zh) 视频事件识别方法、装置、设备及存储介质
CN112836502B (zh) 一种金融领域事件隐式因果关系抽取方法
CN110084175A (zh) 一种目标检测方法、目标检测装置及电子设备
Piri et al. A binary multi-objective chimp optimizer with dual archive for feature selection in the healthcare domain
Liu et al. A stochastic attribute grammar for robust cross-view human tracking
CN112966010A (zh) 一种用户轨迹信息挖掘方法
CN114386503A (zh) 用于训练模型的方法和装置
Sharma et al. Prifit: Learning to fit primitives improves few shot point cloud segmentation
KR102549937B1 (ko) Sns 텍스트 기반의 사용자의 인테리어 스타일 분석 모델 제공 장치 및 방법
CN111709778B (zh) 出行流量预测方法、装置、电子设备和存储介质
Woodring et al. Semi‐automatic time‐series transfer functions via temporal clustering and sequencing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant