CN109416687B

CN109416687B - 使用切比雪夫迭代法加速svm集群技术

Info

Publication number: CN109416687B
Application number: CN201680085128.XA
Authority: CN
Inventors: 米哈伊尔·彼得罗维奇·莱文; 亚历山大·尼古拉耶维奇·菲利波夫; 张学仓
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-06-14
Filing date: 2016-06-14
Publication date: 2021-01-29
Anticipated expiration: 2036-06-14
Also published as: WO2017217881A1; CN109416687A

Abstract

一种训练用于对多个数据项进行集群的分类器的系统，包括处理器，用于：对多个训练样本的子集进行归档，以确定用于评估集群分类器的分离平面参数的迭代优化过程使用的训练层的层数和矢量算子的值；使用包含训练层层数的多层方案来训练所述集群分类器，每层训练层包括多个优化迭代过程；输出用于对新样本进行集群的集群分类器。每一优化迭代过程包括：针对所述分离平面参数计算多个最优解，其中，通过使用相应的一对拉格朗日乘数，来对所述多个训练样本应用所述迭代优化过程从而计算所述最优解中的每一个；通过与最优性条件相比较来评估多个最优解；在不满足最优性条件的情况下启动下一优化迭代过程。

Description

使用切比雪夫迭代法加速SVM集群技术

背景技术

本发明涉及训练用于对多个数据项进行集群的分类器，并且更具体地，但不仅仅涉及使用结合多层迭代法和迭代优化过程的混合方案来训练用于对多个数据项进行集群的分类器。

随着机器学习应用的发展，一般数据项的分类以及特别是集群变得越来越重要。根据学习机的应用，数据项可涉及例如视觉对象、音频对象、大数据项、研究收集的数据项和实验结果数据项等许多类型。对数据项进行集群旨在根据数据项的一个或多个特征将数据项分成集群(组)，使得大体上共有一个或多个特征的数据项集群在一起。

使用学习机算法实现集群分类器的主要实践之一是支持向量机(Support VectorMachine，简称SVM)，其可以使用不同的内核和/或不同的测量类型来为集群的数据提供最佳匹配。SVM训练可以用公式表达，表示对具有约束的二次编程问题(quadraticprogramming problem，简称QPP)的优化。公式化可显著加速SVM分类器的训练，从而减少处理资源和/或训练会话时间。SVM研究的最新进展引入了用迭代二维问题QPP优化来代替多维QPP优化的可能性，其中迭代二维问题QPP优化可以降低SVM训练过程的复杂度。

发明内容

根据本发明一些实施例的一个方面，提供了一种训练用于对多个数据项进行集群的分类器的系统，所述系统包括处理器，用于：

对从多个训练样本中选择的训练样本的子集进行归档，以确定用于评估集群分类器的一个或多个分离平面参数的迭代优化过程使用的训练层的层数和矢量算子的值；

使用包含训练层层数的多层法来训练所述集群分类器，每层训练层包括多个优化迭代过程，每一优化迭代过程包括：

针对所述一个或多个分离平面参数计算多个最优解，其中，通过使用多对拉格朗日乘数中相应的一对，来对所述多个训练样本应用所述迭代优化过程从而计算所述最优解中的每一个；

通过与一个或多个最优性条件相比较来评估多个最优解；

在不满足一个或多个最优性条件的情况下启动下一优化迭代过程；

输出用于对新样本进行集群的集群分类器。

所述处理器的多个处理流水线同时进行计算，每个处理流水线独立地执行所述迭代优化过程，从而使用相应的一对拉格朗日乘数来计算所述多个最优解中的一个相应最优解。

集群分类器是监督矢量机(supervised vector machine，简称SVM)集群分类器。

所述一个或多个分离平面参数定义将两个或多个集群分开的一个或多个分离平面，每个集群包括所述训练样本的相应部分。

所述迭代优化过程评估二次编程问题(quadratic programming problem，简称QPP)，所述QPP是用于评估所述一个或多个分离平面参数的二次优化问题(quadraticoptimization problem，简称QOP)的等价公式化，其中所述QPP等价公式化通过多个拉格朗日乘数来体现。

所述多层法使用切比雪夫多层法。

根据上述权利要求中的任一项所述的系统，迭代优化过程采用顺序最小化优化(sequential minimization optimization，简称SMO)过程。

矢量算子的值包括最小特征值和/或最大特征值。

所述训练样本的子集是从所述多个训练样本中随机选择的。

所述归档是迭代过程，在该迭代过程中的每次归档迭代期间将替代变量下降最小化过程应用于子集，直到识别出最小特征值和/或最大特征值。

所述一个或多个最优性条件是Karush-Kuhn-Tucker(Karush-Kuhn-Tucker，简称KKT)最优性条件。

对于所述多个训练层中的每一个，将改进的优化因子应用于所述迭代优化过程。

根据本发明一些实施例的一个方面，提供了一种计算机实现的方法，用于创建用于对多个数据项进行集群的分类器，包括：

通过与一个或多个最优性条件相比较来评估多个最优解；

输出用于对新样本进行分类的集群分类器。

根据本发明一些实施例的一个方面，提供了一种计算机实现的方法，用于使用训练的集群分类器对多个数据项进行集群，包括：

指定多个数据项；

通过分析针对在训练过程中学习的一个或多个分离平面参数的数据项的一个或多个特征，将用于对数据项进行集群的集群分类器应用到两个或更多集群；

输出排列在所述两个或更多集群中的所述多个数据项；

其中，训练过程采用结合多层法和迭代优化过程的混合方案。

所述多层法是切比雪夫多层法。

除非另有定义，否则本文所使用的所有技术和/或科学术语的含义与本发明所属领域的普通技术人员所公知的含义相同。与本文所描述的方法和材料类似或者相同的方法和材料可以用于本发明实施例的实践或测试，下文描述示例性的方法和/或材料。若存在冲突，则以包括定义在内的专利说明书为准。另外，材料、方法以及示例都只是用于说明，并非必要限定。

附图说明

此处仅作为示例，结合附图描述了本发明的一些实施例。现在具体结合附图，需要强调的是所示的项目作为示例，为了说明性地讨论本发明的实施例。这样，根据附图说明，如何实践本发明实施例对本领域技术人员而言是显而易见的。

在附图中：

图1是根据本发明的一些实施例的通过混合多层优化过程来训练集群分类器的示例性过程的流程图；

图2是根据本发明的一些实施例的通过混合多层优化过程来训练集群分类器的示例性系统的示意图；

图3是根据本发明的一些实施例的使用通过混合方案训练的集群分类器进行数据项集群的示例性过程的流程图。

具体实施方式

本发明在其一些实施例中涉及训练用于对多个数据项进行集群的分类器，并且更具体地，但不仅仅涉及使用结合多层迭代法和迭代优化过程的混合方案来训练用于对多个数据项进行集群的分类器。

本发明提出了创建和/或训练集群分类器(例如，使用混合方案的SVM集群分类器)的系统和方法。混合方案结合了多层迭代法，其中通过多个层(阶段)中的每一个层中的多次迭代执行迭代优化过程，以计算分离超平面的一个或多个分离平面参数的最优解，所述分离超平面用于分离训练样本的两个或更多集群。分离平面参数基于对训练样本的一个或多个特征的比较来定义两个或更多训练样本之间的距离。训练样本可以包括例如视觉对象、音频对象、文本对象、大数据项、研究收集的数据项和实验结果数据项等。采用多层迭代方案例如多层切比雪夫迭代法，从而使迭代优化过程例如顺序迭代最小化优化(sequential minimization optimization，简称SMO)过程在几个阶段即层中执行。对于每层，针对SMO过程，更新了(改进了)指定优化所要需准确性的优化因子，直到满足一个或多个最优性条件例如Karush-Kuhn-Tucker(Karush-Kuhn-Tucker，简称KKT)条件。这意味着，如果不满足最优性条件，则在具有改进的优化因子的附加层中重复迭代优化过程。采用迭代SMO过程来解决公式化为QPP的多维二次优化问题(quadratic optimization problem，简称QOP)，以便计算超平面的一个或多个最优分离平面参数。虽然QOP是关于训练样本的多个特征的多维优化问题，但是QPP公式化允许通过对训练样本使用拉格朗日乘数来将多维问题作为多个二维优化问题解决。然后可以合并二维问题的计算出的最优结果。迭代SMO用于计算二维优化问题，以使用在迭代优化过程中多对更新的拉格朗日乘数计算超平面分离参数的最优解。

在将混合法应用于训练样本之前，归档训练样本的至少一个子集，以估计优化过程中所需的层数和/或为SMO使用的矢量算子定义一个或多个值。因为训练过程直接取决于集群分类器需要集群的数据项的类型，所以进行了归档。

因此，必须基于训练样本，通过对训练样本进行归档，首先提取优化过程层数以及矢量算子的值，例如最小和/或最大特征值。用于归档的训练样本的子集可以从训练样本中随机选择。可以使用一种或多种方法来完成归档，例如，用于确定训练样本的类型和/或特征的替代变量下降最小化。

可选地，多个二维优化问题的计算由两个或更多处理核(例如处理器、核心、处理节点、矢量处理器和/或线程等)同时(并行)执行。每个处理核可以使用一对不同的拉格朗日乘数来执行迭代优化过程。由于每个优化过程独立于其他优化过程，所以优化可以由多个处理核同时执行。

在创建和/或训练集群分类器之后，可供用于集群与所述训练样本类型相同的多个新(未见过的)数据项，所述训练样本具有与用于创建和/或训练所述集群分类器的训练样本相同的特征。

与当前现有的训练方法相比，用于训练集群分类器的混合方案可能体现显著的优点。混合方案可以显著减少优化过程中执行迭代的次数，从而实现更快的汇聚。对优化目标的快速汇聚，即满足最优性条件的分离平面参数可以通过优化因子的逐渐细化(改进)来实现，使得仅在前一层不符合优化目标时针对每个附加层提升优化因子。减少迭代次数还可以减少用于识别最优解的计算资源，例如计算时间和/或计算负荷。这对于大数据集群分类器可能特别有利。

另外，将QPP减少到多个独立的二维优化问题的可能性可以允许使用多个处理核(例如，处理器、核心和/或线程等)来同时(并行和/或同时)执行多个优化过程。处理核可以进一步包括向量处理器、图形处理单元(graphics processing unit，简称GPU)和/或单指令多数据(single-instruction[stream]multiple-data stream，简称SIMD)引擎等。这样，SMO实际上由多个处理核并行地执行，使得实际上执行并行最小优化(parallel minimaloptimization，简称PMO)，其可以显著地改善用于训练集群分类器的优化过程涉及的汇聚时间和/或计算负荷。

此外，对集群分类器(例如SVM集群分类器)的改进可以容易地整合到混合方案中，因为混合方案可以在分层处理期间使用常用的优化算法。

本发明在其一些实施例中涉及使用混合方案训练过程训练的分类器，所述混合方案训练过程用于对分类器先前未“见过”的多个新数据项进行集群。通过如上所示的混合方案训练的集群分类器可以用于将与训练样本类型相同的多个新数据项集群到两个或更多集群。

在详细解释本发明的至少一个实施例之前，应当理解，本发明不必将其应用限于下面描述中阐述的和/或在附图和/或举例中说明的部件和/或方法的结构和布置的细节。本发明可以有其它实施例或可以采用各种方式实践或执行。

本发明可以是系统、方法和/或计算机程序产品。所述计算机程序产品可以包括具有计算机可读程序指令的一个(或多个)计算机可读存储介质，所述指令用于使处理器执行本发明的各个方面。

所述计算机可读存储介质可以是有形设备，该有形设备可以保存和存储指令执行设备使用的指令。例如，所述计算机可读存储介质可以是但不限于电子存储设备、磁性存储设备、光存储设备、电磁存储设备、半导体存储设备或这几者的任意合适组合。

可以从计算机可读存储介质中将此处描述的计算机可读程序指令下载到各个计算/处理设备上，或通过网络下载到外部计算机或外部存储设备上，所述网络如因特网、局域网、广域网和/或无线网。

所述计算机可读程序指令可以完全在用户电脑上执行，部分在用户电脑上执行，或作为独立的软件包，部分在用户电脑上执行，部分在远端电脑上执行，或完全在远端电脑或服务器上执行。在后面的场景中，远端电脑可以通过任何类型的网络与用户电脑连接，包括局域网(local area network，简称LAN)或广域网(wide area network，简称WAN)，或者，可以(例如，使用因特网服务提供商提供的因特网)在外部电脑上建立该连接。在一些实施例中，包括可编程逻辑电路、现场可编程门阵列(field programmable gate array，简称FPGA)或可编程逻辑阵列(programmable logic array，简称PLA)等的电子电路可以利用计算机可读程序指令的状态信息执行所述计算机可读程序指令以个性化所述电子电路，以便执行本发明的各方面。此处，结合本发明实施例的方法、装置(系统)以及计算机程序产品的流程图和/或框图描述本发明的各方面。应当理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。此时，流程图或框图中的每个框都可以代表一个模块、分段或多个指令的一部分，该多个指令包括一个或多个用于实现特定逻辑功能的可执行指令。在一些可选的实现方式中，框中指出的功能可以不按照图中的顺序实现。例如，事实上，连续展示的两个框可以大体上同时执行，或者有时候，框可以按照相反的顺序执行，这取决于所涉及的功能。还应注意的是，框图和/或流程图中每一个框以及框图和/或流程图中框的组合可以由基于专用硬件的系统执行，该系统执行指定的功能或动作，或者执行专用硬件和计算机指令的组合。

现参考图1，图1是根据本发明的一些实施例的通过混合多层优化过程来训练集群分类器的示例性过程的流程图。过程100用于通过应用混合优化过程来训练集群分类器(例如SVM集群分类器)，该混合优化过程将多层迭代与迭代优化过程组合以计算超平面的一个或多个分离平面参数的最优解，所述超平面分离两个或更多数据项集群。分离平面参数基于对数据项的一个或多个特征的比较来定义两个或更多数据项之间的优化距离。迭代优化过程以分级序列即多层迭代的层来执行，例如多层切比雪夫迭代法。在每一层中，为迭代优化过程更新(改进)指示优化所需准确度的优化因子，直到满足一个或多个最优性条件。这意味着如果最优性条件(例如，一个或多个KKT条件)不被满足，则利用改进的优化因子来重复迭代优化过程。迭代优化过程可以采用SMO过程来求解被公式化为QPP的多维QOP，以计算对训练样本的集群进行分离的超平面的分离平面参数的最优值。将QPP公式化为多个二维优化问题，每个问题都处理训练样本的特征之一。对于每个二维优化问题，迭代SMO用于使用在优化过程中更新的一对拉格朗日乘数来计算超平面分离参数的最优解。

进一步参考图2，图2是根据本发明的一些实施例的通过混合多层优化过程来训练集群分类器的示例性系统的示意图。系统200包括用于指定训练样本202和/或输出集群分类器204的输入/输出(input/output，简称I/O)接口210，用于训练集群分类器204的处理器212和存储器216。训练样本202可以包括例如视觉对象、音频对象、文本对象、大数据项、研究收集的数据项和/或实验结果数据项等。集群分类器204可以是例如SVM集群分类器。I/O接口210可以包括用于连接到相应资源的一个或多个接口，例如网络接口、内存接口和/或存储接口，所述相应资源即网络资源、内存资源和/或存储资源。I/O接口210可以用于从例如内存、网络和/或例如存储器216等的存储器中指定、接收和/或提取训练样本202。类似地，I/O接口210可以用于将集群分类器204存储和/或传输到例如内存、网络和/或存储器216等。均质或异构处理器212可用于并行处理，用作集群和/或一个或多个多核处理器，其中每个多核处理器都具有一个或多个处理核214。每个处理核214可以是例如处理器、处理核、线程和/或处理节点等。处理器204可以包括一个或多个分布式处理集群，每个分布式处理集群包括具有处理器的一个或多个处理节点，所述处理器具有一个或多个处理核，例如处理核214。分布式处理集群可以通过一个或多个接口例如网络接口，Fabric接口，直接互连接口和/或链路接口等相互通讯。处理器212还可以包括一个或多个矢量处理器，每个矢量处理器具有多个处理流水线，其可以被视为能够独立执行程序指令的处理核214。处理器212还可以包括能够对多个不同数据集合同时执行类似指令和/或处理的一个或多个SIMD引擎和/或GPU。对于与过程100的情况相同的过程被应用于不同的数据集合的实现，SIMD引擎可以被认为是具有多个处理核例如处理核214的处理器。存储器216可以包括一个或多个非瞬时性持久存储设备，例如硬盘驱动器和闪存阵列等。存储器216可以进一步包括一个或多个网络存储设备，例如，存储服务器、网络可访问存储器(network accessible storage，简称NAS)和/或网络驱动器等。

优化过程100可以由一个或多个软件模块例如管理模块220和/或优化程序222执行，每个软件模块包括由处理器104和/或处理核214执行的来自存储器216的多个程序指令。其中，软件模块可以是例如包括多个程序指令的过程、应用和/或公用程序等，其存储在非暂时性介质例如存储器216中，并由处理器例如处理器212和/或处理核214执行。处理器212可执行管理模块220以控制整个训练过程100和优化程序222以执行多个SMO过程。可选地，多个优化程序222过程由多个处理核214执行，其中每个处理核214执行优化程序222的实例，使得多个优化程序222过程由多个处理核214同时执行。同时执行优化过程实际上将SMO变成PMO。

在进一步描述本发明之前，提供一些背景。用于搜索超平面的优化问题(quadratic optimization problem，简称QOP)可以公式化为如下面的方程组1所示，其中，集群分类器204使用所述超平面将训练样本202集群成两个或更多集群。

方程组1：

其中u是分离超平面，其最终是由集群分类器204用来对训练样本202进行分类的超平面，

是一组分离参数，

是训练样本202x_i集合，并且b是阈值。

如方程(1a)中所表达的QOP满足如下面的等式(1b)中所表示的约束不等式，其中y_i∈{-1，+1}，并且n是QOP的维数，即，用于集群训练样本202的训练样本202的特征数。

满足方程(1b)约束的方程式(1a)的QOP可以简化为

的最小化问题。

满足方程(1b)约束。

根据Kuhn-Tucker定理，在方程(1b)约束下的方程组1的QOP等同于鞍点对拉格朗日函数的评估的双重问题，如以下等式2中所表示。

等式2：

其中，

是拉格朗日乘数，L是拉格朗日函数。

等式2的QOP可以针对拉格朗日乘数被重写为QPP，QPP如以下方程组3中所表达。

方程组3：

其中C是一个预定义的任意值，例如，一个常数值。

对集群分类器204进行训练包括通过计算针对方程组3的QPP的解来评估

和评估

和b。换句话说，SMO在两个方面执行，一个是评估针对每对拉格朗日乘数的所有训练样本202，第二个是评估所有对的拉格朗日乘数。这在下面的方程组4中表达出。

方程组4：

如前所述，用于计算QPP的解的SMO过程可以认为是由多个优化迭代组成的迭代过程，所述多个优化迭代用于对比

的训练样本202x_i来优化多对{a_l，a_m}中的多个拉格朗日乘数

中的每一对。每一个QPP子问题都可以通过解析求解，每个QPP子问题都与多对{a_l，a_m}中的拉格朗日乘数每一对有关。重复最优化迭代，直到满足一个或多个如以下方程组5所表达的最优性条件(例如，KKT条件)。

方程组5：

完成用于训练集群分类器204的迭代SMO过程是通过应用SMO过程来求解QPP，所述QPP如方程组4中所表达，用于搜索分离训练样本202的两个或更多集群的分离平面的最优分离平面参数。其中，最优分离平面参数根据如方程组5中所表示的最优性条件进行计算。当通过多个优化迭代执行时，SMO可以用如下面的方程组6来表示。

方程组6：

其中，k是优化迭代的数量。

方程组6的迭代SMO过程可以进一步公式化为如下面等式7。

方程组7：

其中，

是用于搜索最优分离参数的搜索矢量，

是SMO过程使用的矢量算子，τ是SMO子问题优化期间使用的优化因子。

搜索矢量直接取决于训练样本202的类型以及训练样本202的一个或多个特征。例如，假设训练样本是图像，则该特征可以是例如在图像中检测到对象、图像分辨率和/或图像大小等。另一个例子中，假设训练样本是实验数据结果，则该特征可以是例如实验的类型、结果范围、实验时间和/或实验的位置等。

再次参考图1，如102所示，过程100开始于管理模块220，其使用例如I/O接口212来指定多个训练数据项(样本)202。

如在104所示，管理模块220选择训练样本202的子集用于归档训练样本以允许根据训练样本202适当地设置用于训练集群分类器204的混合方案。定义训练样本子集为足够大以允许准确的归档，然而足够小以至于不需要过多的计算资源，例如计算时间和/或计算负荷。可以进行一次归档以识别优化过程100的一个或多个参数，并且可以用于针对多种类型的数据集例如训练样本202训练集群分类器204。

管理模块220对训练样本子集进行归档以确定层数(M)，该层数指示在此后描述的混合方案使用的层数。另外，在归档过程中，管理模块220计算在优化过程中矢量算子

使用的最小特征值(λ_min)和/或最大特征值(λ_max)。由管理模块220进行的归档涉及定义矢量算子

的参数以及优化过程100所需的层数，并且因此可以独立于数据集的类型，即由集群分类器204集群的训练样本202。

管理模块220使用一个或多个迭代方法来对训练样本子集进行归档，例如用于计算层数M和/或如下面函数1所表达的矢量算子特征值λ_min和/或λ_max的替代变量下降。

函数1：

查找Nither(λ_min，λ_max，M)→min

例如，假设M∈{4，6，8}。首先，管理模块220可以将层数设置为M＝4，λ_min＝1.0010且λ_max＝0.7955。在归档迭代替代变量下降过程的一个或多个后续步骤(迭代)中的每个步骤中，管理模块220可以以-0.001的步长值更新特征值。替代变量下降过程在下降顺序中减小临近局部最小点附近的步长值，并用计算出的特征值评估在过程100中将需要的迭代次数。管理模块220对M的其他候选值例如6和8应用相同的替代变量下降过程。最终，归档可以产生以下值：λ_min＝1.0010，λ_max＝0.7955，且M＝6。

如在106所示，管理模块220为用于求解拉格朗日函数的一组拉格朗日乘数设置初始值，其中拉格朗日函数在转换成方程组7的方程组3中进行表示。管理模块220可以任意选择拉格朗日乘数的初始值，例如1。

如在108所示，通过应用如方程组7中所表达的迭代优化过程来完成对集群分类器204的训练，所述方程组7用于搜索将训练样本202的两个或更多集群进行分离的分离平面的最优分离平面参数。

混合方案采用M个层110，每个层110包括多次优化迭代，所述优化迭代用于分析地计算相对

的训练样本202x_i的多对拉格朗日{a_v，a_m}的每一对的最优解。如前面所讨论的，每个层110可以被认为包括两个迭代环路，第一个迭代环路包括计算相对所有训练样本202的某一对拉格朗日乘数的最优解，第二个迭代环路评估选择的一组拉格朗日乘数的所有对。

如112所示，管理模块220设置优化因子τ。最初(对于第一层110)管理模块220可以选择优化因子以获得缺省值，例如1。在每个连续层110中，可以更新优化因子，即改进优化因子以在后续层110中实现更好的优化。可以根据如以下方程组8中所示的公式更新针对每个层110的优化因子。

方程组8：

如114所示，优化程序222以分析方式计算用于方程组7的优化问题的最优解。优化程序222使用由管理模块220提供的更新的优化因子来执行优化过程。优化程序222执行多个优化迭代，从而根据所有训练样本202评估多对拉格朗日乘数中的每一对。可以在每次迭代期间更新拉格朗日乘数，以识别产生针对该拉格朗日函数的最大或最小值的一组拉格朗日乘数。优化程序222可以更新一个或多个拉格朗日的值，以便与前一迭代期间计算的拉格朗日函数的最大或最小值相比，减少在当前迭代期间计算的拉格朗日函数的最大或最小值。如果当前迭代的拉格朗日函数极小值没有减小，则将前一步骤的解(该组拉格朗日乘数)选为最终的解。

可选地，由于用于评估各对拉格朗日乘数的优化路径彼此独立，所以优化过程可以通过多个优化程序222过程(实例)同时(并行)执行，每个优化程序222过程由多个处理核214中相应的一个执行。优化程序222过程中的每一个可以分配有多对拉格朗日乘数中相应的一对，并且通过对训练样本202的一次或多次迭代来评估优化问题的最优解。

如在116所示，管理模块220评估由优化程序222提供的计算出的最优解，所述最优解是针对所有训练样本202对应的所有对的拉格朗日乘数提供的。

如在118所示，作为判定点，管理模块220确定针对分离平面参数的计算出的最优解是否满足一个或多个最优性条件，例如KKT条件。如果最优解满足即达到和/或实现最优性条件，则过程100进行到120。在最优解不满足最优性条件的情况下，过程100进行到112以执行具有更新的(改进的)优化因子的优化过程的附加层。

如在120所示，管理模块220通过I/O接口210输出集群分类器204。集群分类器204然后可以用于将新样本即与训练样本202类型相同的数据项分类为一个或更多的集群。

以下实施例举例说明本发明。

下面表1示出了两个示例性数据文件。

表1：

汇聚准确度是当前优化迭代与先前的优化迭代相比分离平面参数的绝对值的最大差异。

与混合方案优化过程例如使用6层实现的过程100相比，使用标准SMO序列来训练集群分类器例如集群分类器204。结果如下表2所示。

表2：

	迭代次数	改善系数
			例1的标准SMO	162	基线
例1的混合方案	99	1.64
			例2的标准SMO	709	基线
例2的混合方案	54	13.13

其中，计算改善系数是将使用标准SMO优化过程执行的迭代次数除以使用混合方案优化过程100执行的迭代次数。

从表2可以明显看出，混合方案可以更快在示例2中将优化迭代次数显著减少多达13次以上。因此，混合方案可以实现快速汇聚和/或减少用于训练集群分类器204的计算资源。

根据本发明的一些实施例，提供了用于使用训练的集群分类器204等集群分类器(例如基于SVM的集群分类器)对数据项进行集群的方法和系统。

通过过程例如过程100训练的所述训练的集群分类器204可以用于集群与用于训练集群分类器的训练样本类型相同的数据项。

现参考图3，图3是根据本发明的一些实施例的使用通过混合方案训练的集群分类器进行数据项集群的示例性过程的流程图。过程300用于基于数据项的一个或多个特征将多个数据项分类为两个或更多单独的集群。用于过程300的集群分类器204通过混合方案训练过程例如过程100来训练。集群分类器204可以通过在系统如系统200中的存储器如存储器216中由处理器如处理器212执行的一个或多个软件模块来实现。

如在302所示，过程300开始于指定多个数据项，例如视觉对象、音频对象、文本对象、大数据项、研究收集的数据项和/或实验结果数据项等。指定的数据项是集群分类器204先前未“见过”的新数据项。指定的数据项与在过程100中用于训练集群分类器204的训练样本202的类型相同。

如304所示，将集群分类器204应用于多个数据项以将数据项集群到两个或更多分离的集群。集群分类器204分析数据项的一个或多个特征并应用一个或多个平面分离参数以将数据项集群到集群中。在训练集群分类器204的混合方案训练过程100中学习平面分离参数。

如306所示，将数据项排列到由集群分类器204所识别的集群中。

如308所示，输出排列在集群中的数据项。

对本发明各个实施例的描述只是为了说明的目的，而这些描述并不旨在穷举或限于所公开的实施例。在不脱离所描述的实施例的范围的情况下，本领域技术人员可以清楚理解许多修改和变化。相比于市场上可找到的技术，选择此处使用的术语可最好地解释本实施例的原理、实际应用或技术进步，或使本领域其他技术人员理解此处公开的实施例。

可预测，在从本申请发展成熟的专利的有效期期间，将开发出许多相关基于SVM的集群算法且术语“SVM集群分类器”的范围意图先验地包括所有此类新技术。

本文所使用的术语“约”是指±10％。

术语“包括”、“包含”、“具有”以及其变化形式表示“包含但不限于”。这个术语包括了术语“由……组成”以及“本质上由……组成”。

短语“主要由……组成”意指组成物或方法可以包含额外成分和/或步骤，但前提是所述额外成分和/或步骤不会实质上改变所要求的组成物或方法的基本和新颖特性。

除非上下文中另有明确说明，此处使用的单数形式“一个”和“所述”包括复数含义。例如，术语“化合物”或“至少一个化合物”可以包含多个化合物，包含其混合物。

此处使用的词“示例性的”表示“作为一个例子、示例或说明”。任何“示例性的”实施例并不一定理解为优先于或优越于其他实施例，和/或并不排除其他实施例特点的结合。

此处使用的词语“可选地”表示“在一些实施例中提供且在其他实施例中没有提供”。本发明的任意特定的实施例可以包含多个“可选的”特征，除非这些特征相互矛盾。

在整个本申请案中，本发明的各种实施例可以范围格式呈现。应理解，范围格式的描述仅为了方便和简洁起见，并且不应该被解释为对本发明范围的固定限制。因此，对范围的描述应被认为是已经具体地公开所有可能的子范围以及所述范围内的个别数值。例如，对例如从1到6的范围的描述应被认为是已经具体地公开子范围，例如从1到3、从1到4、从1到5、从2到4、从2到6、从3到6等，以及所述范围内的个别数字，例如1、2、3、4、5和6。不管范围的宽度如何，这都适用。

当此处指出一个数字范围时，表示包含了在指出的这个范围内的任意所列举的数字(分数或整数)。短语“在第一个所指示的数和第二个所指示的数范围内”以及“从第一个所指示的数到第二个所指示的数范围内”和在这里互换使用，表示包括第一个和第二个所指示的数以及二者之间所有的分数和整数。

应了解，为简洁起见在单独实施例的上下文中描述的本发明的某些特征还可以组合提供于单个实施例中。相反地，为简洁起见在单个实施例的上下文中描述的本发明的各个特征也可以单独地或以任何合适的子组合或作为本发明的任何合适的其它实施例提供。在各个实施例的上下文中描述的某些特征未视为那些实施例的基本特征，除非没有这些元素所述实施例无效。

此处，本说明书中提及的所有出版物、专利和专利说明书都通过引用本说明书结合在本说明书中，同样，每个单独的出版物、专利或专利说明书也具体且单独地结合在此。此外，对本申请的任何参考的引用或识别不可当做是允许这样的参考在现有技术中优先于本发明。就使用节标题而言，不应该将节标题理解成必要的限定。

Claims

1.一种训练用于对多个数据项进行集群的分类器的系统，其特征在于，包括：

处理器，用于：

对从多个训练样本中选择的训练样本的子集进行归档，以确定用于评估集群分类器的至少一个分离平面参数的迭代优化过程使用的训练层的层数和矢量算子的值；

针对所述至少一个分离平面参数计算多个最优解，其中，通过使用多对拉格朗日乘数中相应的一对，来对所述多个训练样本应用所述迭代优化过程从而计算所述最优解中的每一个；

通过与至少一个最优性条件相比较来评估多个最优解；

在不满足至少一个最优性条件的情况下启动下一优化迭代过程；

输出用于对新样本进行集群的集群分类器。

2.根据权利要求1所述的系统，其特征在于，所述处理器还用于通过所述处理器的多个处理流水线同时计算所述多个最优解，每个处理流水线独立地执行所述迭代优化过程，从而使用相应的一对拉格朗日乘数来计算所述多个最优解中的一个相应最优解。

3.如权利要求1或2中任一项所述的系统，其特征在于，所述集群分类器是监督矢量机SVM集群分类器。

4.一种训练用于对多个数据项进行集群的分类器的系统，其特征在于，所述系统包括权利要求1至3任意一项所述系统的全部特征，并且，所述至少一个分离平面参数定义将至少两个集群分开的至少一个分离平面，每个集群包括所述训练样本的相应部分。

5.一种训练用于对多个数据项进行集群的分类器的系统，其特征在于，所述系统包括权利要求1至4任意一项所述系统的全部特征，并且，所述迭代优化过程评估二次编程问题QPP，所述QPP是用于评估所述至少一个分离平面参数的二次优化问题QOP的等价公式化，其中所述QPP等价公式化通过多个拉格朗日乘数来体现。

6.一种训练用于对多个数据项进行集群的分类器的系统，其特征在于，所述系统包括权利要求1至5任意一项所述系统的全部特征，并且，所述多层法是切比雪夫多层法。

7.一种训练用于对多个数据项进行集群的分类器的系统，其特征在于，所述系统包括权利要求1至6任意一项所述系统的全部特征，并且，迭代优化过程采用顺序最小化优化SMO过程。

8.一种训练用于对多个数据项进行集群的分类器的系统，其特征在于，所述系统包括权利要求1至7任意一项所述系统的全部特征，并且，矢量算子的值包括最小特征值和/或最大特征值。

9.一种训练用于对多个数据项进行集群的分类器的系统，其特征在于，所述系统包括权利要求1至8任意一项所述系统的全部特征，并且，所述训练样本的子集是从所述多个训练样本中随机选择的。

10.一种训练用于对多个数据项进行集群的分类器的系统，其特征在于，所述系统包括权利要求1至9任意一项所述系统的全部特征，并且，所述归档是迭代过程，在该迭代过程中的每次归档迭代期间将替代变量下降最小化过程应用于子集，直到识别出最小特征值和/或最大特征值。

11.一种训练用于对多个数据项进行集群的分类器的系统，其特征在于，所述系统包括权利要求1至10任意一项所述系统的全部特征，并且，所述至少一个最优性条件是Karush-Kuhn-Tucker KKT最优性条件。

12.一种训练用于对多个数据项进行集群的分类器的系统，其特征在于，所述系统包括权利要求1至11任意一项所述系统的全部特征，并且，对于所述多个训练层中的每一个，将改进的优化因子应用于所述迭代优化过程。

13.一种计算机实现的方法，用于创建用于对多个数据项进行集群的分类器，其特征在于，包括：

通过与至少一个最优性条件相比较来评估多个最优解；

输出用于对新样本进行分类的集群分类器。

14.一种计算机实现的方法，用于使用训练的集群分类器对多个数据项进行集群，其特征在于，包括：

指定多个数据项；

通过分析针对在训练过程中学习的至少一个分离平面参数的数据项的至少一个特征，将用于对数据项进行集群的集群分类器应用到至少两个集群；

输出排列在所述至少两个集群中的所述多个数据项；

其中，训练过程采用结合多层法和迭代优化过程的混合方案；

其中，所述多层法是切比雪夫多层法。