CN1197025C - 使用多个支持向量机从多个数据组中提升知识发现的方法 - Google Patents

使用多个支持向量机从多个数据组中提升知识发现的方法 Download PDF

Info

Publication number
CN1197025C
CN1197025C CNB008080623A CN00808062A CN1197025C CN 1197025 C CN1197025 C CN 1197025C CN B008080623 A CNB008080623 A CN B008080623A CN 00808062 A CN00808062 A CN 00808062A CN 1197025 C CN1197025 C CN 1197025C
Authority
CN
China
Prior art keywords
data
support vector
test
training
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB008080623A
Other languages
English (en)
Other versions
CN1358288A (zh
Inventor
斯蒂芬·D·巴恩希尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Barnhill Science & Technology Corp
Original Assignee
Barnhill Science & Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Barnhill Science & Technology Corp filed Critical Barnhill Science & Technology Corp
Publication of CN1358288A publication Critical patent/CN1358288A/zh
Application granted granted Critical
Publication of CN1197025C publication Critical patent/CN1197025C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Complex Calculations (AREA)

Abstract

一种系统和方法,用于使用通常的多个学习机特别是多个支持向量机来提升来自数据中的知识发现。通过把含意加给数据,该学习机提供更强大的信息量用于处理。特别是支持向量机,被处理的信息量越大,则可以被导出的有关数据的归纳就越好。多个支持向量机用预先处理的训练数据来训练并以相同的方式用被预先处理的测试数据来测试。来自多个支持向量机的测试输出被比较以便决定哪一测试输出表示一个最佳解。一个或多个内核的选择可以被调整并且一个或多个支持向量机可以被重新训练和重新测试。基于不同输入数据组的最佳解可以被合并以便形成一个新的输入数据组从而输入到一个或多个附加的支持向量机中。

Description

使用多个支持向量机从多个数据组中提升知识发现的方法
技术领域
本发明涉及从数据中发现知识的学习机的使用。更特别地,本发明涉及学习机和相关的输入和输出数据的最优化,以便提升从多个数据组中发现的知识。
发明背景
知识发现是数据采集的最理想的最终产品。数据库技术方面的新近进步已经导致了用于产生、采集并存储巨大数据量的系统和方法的爆炸性发展。虽然数据库技术实现了大数据组的有效率采集和存储,但是促进人类理解这种数据中的信息的任务甚至发展得更难。在众多现有技术的条件下,该问题已经变得不易解决。因此,这里存在对一种新一代自动知识发现工具的需要。
作为一个具体的示例,人类基因组计划(Human Genome Project)正在增加描述人类遗传码的一个几千兆字节的数据库。在人类基因组的测绘完成(预期在2003年)之前,预期该数据库的大小将显著增长。这样一个数据库中的大数量的数据压倒了传统的数据分析工具,例如电子表格和特定(ad hoc)查询。传统的数据分析方法可用来从数据中创建丰富的报告,但是不具有聪明地以及自动地协助人类在大数量的数据中分析并寻找有用知识模型的能力。而且,使用通常的已接受的参考范围和解释标准,即使对于小数量的数据,人类也经常不可能识别有用知识的模型。
已经显示出在一些机器学习示例中有效的一个新近的改进,是反向传播神经网络。反向传播神经网络是一种学习机,其可以被训练以便发现一个数据组中对人来说是不容易明白的知识。可是,使用反向传播神经网络方法的各种问题阻止神经网络更好的控制学习机。例如,反向传播神经网络一个显著的缺点是:经验风险函数可以有许多局部最小值,通过此技术会容易模糊来自发现中的最佳解。由反向传播神经网络使用的标准最优化程序可以收敛到一个最小值,但是该神经网络方法不能保证获得比期望的全局最小值小许多的一个局部化最小值。从一个神经网络中获得的解的质量取决于许多因素。具体的说,实现神经网络的从业者的技能决定了最终的利益,但是甚至与初始加权的随机选择表面上一样良性的因素也可能导致差的结果。此外,用于神经网络学习中的基于梯度收敛的方法从来就很慢。另外一个缺点是:反曲函数具有一个比例因子,它影响近似法的质量。可能与知识发现相关的神经网络的最大限制因素是“维数的诅咒”(curse of dimensionality)其与训练数据中的每个附加特性或者维数在所需要计算的时间和功率的不成比例的增长相关联。
使用支持向量机可克服神经网络的这些缺点。在通常的术语中,一个支持向量机选择优先通过非线性映射函数把输入向量映射到一高维特征空间中。在这个高维特征空间中,构造了一个最佳分离的超平面。然后该最佳超平面被用于确定诸如类别分离、回归适合或者密度估计中的精确度。
在一个支持向量机内部,特征空间维数可以很巨大。例如,一个第四次方的多项式映射函数使一个200维输入空间被映射到一个1.6亿维的特征空间中。内核手段(kernel trick)和Vapnik-Chervonenkis维数允许支持向量机阻碍这个″维数诅咒″(curse of dimensionality),该″维数诅咒″约束了其他方法和从很高维特征空间中有效的得出的可归纳答案。
如果训练向量被最佳超平面(或者广义的最佳超平面)分离,那么在一个测试示例上提交一个差错的概率期望值由训练组中的示例所限制。这个界限既不取决于特征空间的维数,也不取决于系数向量的范数,也不取决于输入向量数量的界限。因此,如果最佳超平面可以从与训练组大小有关的少数支持向量中构造而来,甚至在无限维空间中,一般化的性能将很高。
同样地,支持向量机提供一个理想的解决方案,解决来自巨大数量的输入数据中的发现知识的问题。可是,支持向量机从一个数据组中发现知识的能力局限在包括训练数据组内部的信息的一部分。因此,这里存在对一种系统和方法的需要,该系统和方法用于增加训练数据以便使向量机的知识发现最大化。
此外,来自一个支持向量机的未加工的输出不能以最容易解释的形式完全公开知识。因此,这里依然还需要一种系统和方法,用于对从一个支持向量机中输出的数据进行后处理(post-processing)以便将人或另外的自动处理所传送的信息值最大化。
另外,支持向量机从数据中发现知识的能力被内核的选择所限制。因此,这里依然需要一种改良的系统和方法,用于为支持向量机选择和/或创建一个期望的内核。
发明内容
本发明符合如上所述的需要,其提供一种系统和方法,使用通常的多个学习机,特别是多个支持向量机用于提升从多个数据组中发现的知识。一个或多个训练数据组被预处理以便允许学习机的最有利的应用。每个训练数据点包括具有一个或多个坐标的一个向量。预处理训练数据组可以包括:识别丢失的或错误的数据点和采取适当的步骤来纠正有缺陷的数据或从问题范围中适当的消除观测值或整个字段。预处理训练数据组还可以包括:通过向向量增加一个或多个新的坐标来向每个训练数据点增加维数。加到向量上的新坐标可以通过把一个变换应用到一个或多个原始坐标上导出。该变换可以以专家知识为基础,或者可以被计算导出。在数据组包括一个连续变量的情形中,变换可以包括最佳分类训练数据组的连续变量。
在这种方式中,由预处理提供的训练数据的附加表述可以提升从那里发现知识的学习机的性能。在支持向量机的特定环境中,训练组的维数越大,则可以从那里导出的归纳质量就越高。当从数据中发现的知识涉及一个一个回归或者密度估计时或者在训练输出包括一个连续变量的地方,可以通过把训练输出进行最佳分类来对该训练输出进行后处理从而从连续变量中导出分类。
以与训练数据组相同的方式来预先处理一个测试数据组。然后,使用预处理的测试数据组来测试训练的学习机。被训练的学习机的一个测试输出可以被后处理以便确定该测试输出是否是一个最佳解。后处理测试输出可以包括:把测试输出解释为可以与测试数据组相比较的一种格式。选择性的后处理步骤可以提升人类对于输出数据的附加处理的解释性或适应性。
在支持向量机的环境中,本发明还在训练支持向量机之前提供内核的选择。内核的选择可以是以被处理的具体问题的现有的知识或者利用学习机可使用的任何可用数据的性质分析为基础的并且通常取决于从数据中发现的知识的性质。作为选择,把被后处理的训练输出或者测试输出进行比较的一个迭代处理可以被应用来进行关于哪一配置提供最佳解的一个判定。如果测试输出不是最佳解,则可以调整内核的选择并且支持向量机可以被重新训练及重新测试。当确定最佳解已经被识别时,可以按照与训练数据组相同的方式来采集并预处理一个真实的数据组。预处理的实用数据组被输入学习机用于处理。然后可以通过把实用输出解释为一种计算导出的文字数字的分类来对学习机的实用输出进行后处理。
在一个示例性的实施例中,提供一种系统,使用一个支持向量机来提升从数据中发现的知识。该示例性的系统包括用于一个存储训练数据组和一个测试数据组的一个存储设备和用于执行支持向量机的一台处理器。该处理器还可操作用于:从数据库采集训练数据组;对训练数据组进行预处理以便提升多个训练数据点的每一个;使用该预处理的训练数据组来训练该支持向量机;从数据库中采集测试数据;以与训练数据组相同的方式来对测试数据组进行预处理;使用该预处理的测试数据组来测试被训练的支持向量机;以及响应于接收被训练的支持向量机的测试输出,来对该测试输出进行后处理以便确定该测试输出是否是一个最佳解。该示例性的系统还可以包括一个通信设备,用于从一个远端源接收该测试数据组和该训练数据组。在这样一个情况中,处理器可以操作来在训练数据组的预处理之前把训练数据组储存在存储设备中以及在测试数据组的预处理之前把测试数据组储存在存储设备中。该示例性的系统还可以包括一个显示设备,用于显示被后处理的测试数据。该示例性系统的处理器还可以操作用于执行如上所述的每个附加功能。该通信设备还可以操作来把计算导出的数字字母分类发送给一个远端源。
在一个示例性的实施例中,提供一种系统和方法,用于使用通常的多个学习机和特别是多个支持向量机来提升来自数据中的知识发现。学习机的训练数据被预处理以便加上数据的含意。预处理数据可以包括转换数据点和/或扩展数据点。通过把含意加给数据,该学习机提供更强大的处理信息量。特别是涉及倒支持向量机,被处理的信息量越大,则可以被导出的有关数据的归纳就越好。多个支持向量机,每个都包括不同的内核,用预处理的训练数据来训练并以相同的方式用被预处理的测试数据来测试。来自多个支持向量机的测试输出被比较以便决定哪一测试输出(如果有的话)表示一个最佳解。一个或多个内核的选择可以被调整并且一个或多个支持向量机可以被重新训练和重新测试。当确定已经获得一个最佳解时,实用数据被预处理并被输入到包括了产生最佳解的内核的支持向量机中。来自学习机中的实用输出然后可以被后处理到一个计算导出的字母数字分类用于由人类或计算机自动程序来解释。
在另一个示例性的实施例中,提供一种系统和方法,用于对一个连续变量进行最佳分类。表示一个连续变量的一个数据组包括数据点(其每一个包括来自该连续变量中的一个抽样)和一个类别标识符。根据数据组内部的抽样范围和抽样的精度级来确定数据组内部的若干不同的类别标识符以及若干候选者库(candidate bins)。每个候选者库表示一个抽样子范围。对于每个候选者库,落在该候选者库内的数据点的熵被计算出。然后,对于具有被最小化的采集熵的候选者库的每个序列,把抽样范围中的一个截止点定义为候选者库序列中的最后一个候选者库的边界处。作为一个迭代处理,顺序候选者库的不同组合的采集熵可以被计算出。还可以调整被定义的截止点的数量以便确定截止点的最佳数量,这是以最小熵的计算为基础的。正如所提及的,用于对一个连续变量进行最佳分类的该示例性系统和方法可以被用于对要被输入学习机的数据进行预处理以及用于对学习机的输出进行后处理。
在另一示例性的实施例中,提供一种系统和方法,用于一个分布式的网络环境中使用通常的一个学习机和特别是一个支持向量机来提升来自数据中的知识发现。顾客可以通过一个分布式的网络从一个远端源发送训练数据、测试数据和实用数据到厂家的服务器。顾客也可以向服务器发送诸如用户名、密码和财务账目标识符之类的标识信息。训练数据、测试数据和实用数据可以被储存在一个存储设备中。训练数据然后可以被预处理以便向其加上含意。预处理数据可以包括转换数据点和/或扩展数据点。通过把含意加给数据,该学习机提供更强大的信息量用于处理。关于特别的支持向量机,被处理的信息量越大,则可以被导出的有关数据的归纳就越好。因此用预处理的训练数据来训练并以相同的方式用被预处理的测试数据来测试该学习机。来自学习机的测试输出被后处理以便确定从测试数据中发现的知识是否是理想的。后处理包括:把测试输出解释为可以与测试数据相比较的一种格式。实用数据被预处理输入训练的和测试的学习机中。来自学习机中的实用输出然后可以被后处理到一个计算导出的字母数字分类用于由人类或计算机自动程序来解释。在通过分布式的网络把字母数字分类传送给顾客以前,为了从由财务账目标识符识别的顾客的财务账目中收受资金,可以操作服务器来与财务机构通信。
在另一示例性的实施例中,使用第一预处理训练数据组来训练一个或多个支持向量机并且使用第二预处理训练数据组来训练一个或多个第二支持向量机。然后,来自类似支持向量机中的最佳输出可以被合并以便对于一个或多个附加支持向量机形成一个新的输入数据。
附图说明
图1是一个流程图,说明了利用一个学习机用于增加可以从数据中发现的知识之示例性的通用方法。
图2是一个流程图,说明了利用一个支持向量机用于增加可以从数据中发现的知识之示例性的通用方法。
图3是一个流程图,说明了按照本发明的一个示例性实施例的一个示例性的最佳分类方法,其可以以独立的配置形式或者会同用于预处理或后处理技术的一个学习机而被使用。
图4说明了可以被输入一个支持向量机的一个示例性的未被扩展的数据组。
图5说明了使用图4的数据组通过一个支持向量机所产生的一个示例性的后处理输出。
图6说明了可以被输入一个支持向量机的一个示例性的被扩展数据组。
图7说明了使用图6的数据组通过一个支持向量机所产生的一个示例性的后处理输出。
图8说明了图3最佳分类方法的一个独立应用的示例性输入和输出。
图9是来自包括一个线性内核的第一支持向量机和包括一个多项式内核的第二支持向量机中的示例性后处理输出的比较。
图10是一个功能方框图,说明了本发明的一个示例性实施例的一个示例性的操作环境。
图11是一个功能方框图,说明了本发明的一个替换实施例的一个替换的示例性操作环境。
图12是一个功能方框图,说明了用于实现本发明的另外一个替换实施例的示例性网络操作环境。
图13是一个功能方框图,说明了多个支持向量机的一个等级体系。
具体实施方式
本发明提供利用学习机用于从数据中发现知识的改良方法。虽然一些学习机的实例存在并且期待在这个领域中有进步,但是本发明的示例性实施例集中在支持向量机上。正如已知技术,学习机包括可以使用已知结果的数据来被训练以便归一化的算法。被训练的学习机算法然后可以应用到用于预测的未知结果的情况中。例如,一个学习机可以被训练来识别数据中的模型、估计数据中的回归或者估计数据内部的概率密度。学习机可以被训练来解决本领域普通技术人员已知的多种多样的问题。可以使用测试数据随意地测试任意的一个被训练的学习机以便确保它的输出被确认在一个可接受的误差界限内。一个学习机一旦被训练和测试,则可以把实用数据输入其中。学习机的实用输出包括从应用到实用数据上的所有训练数据中发现的知识。
本发明的第一方面想要通过在使用数据来训练一个学习机之前对数据进行随意地预处理和/或对来自学习机的输出进行随意地后处理从而提升知识发现。通常规定,对数据进行预处理包括重新格式化或增加数据以便允许最有利地应用该学习机。同样地,后处理包括:解释一个学习机的输出以便发现它有意义的特性。从输出中确定的有意义的特性可能是问题或数据特性。后处理包括:把输出解释为人类可理解的一种形式或者计算机可理解的形式。
在下文中将参考附图描述本发明的示例性实施例,附图中,相同数字表示各个图各处的相同的元件。图1是一个流程图,说明了利用学习机用于提升知识发现的一种通用方法100。方法100以开始模块101开始并前进到步骤102,在此,一个特定的问题被形式化用于通过机器学习来进行知识发现的应用。特别重要的是学习机的期望输出的一个正确的公式。例如,在预知单个资产净值工具、或者一个市场指标的未来的性能时,如果预知的是预期未来的改变而不是预知未来的价格水平时,则一个学习机可能获得更好的性能。未来的价格的期望值稍后可以在一个后处理步骤中导出,稍后在此说明书中讨论。
在问题形式化之后,步骤103为训练数据采集编址。训练数据包括已知特性的一组数据点。可以从一个或多个本地和/或远端源采集训练数据。训练数据的采集可以手动地或者通过诸如已知电子数据传送方法的自动处理来实现。因此,可以在一个网络计算机环境中执行本发明的一个示例性实施例。用于执行本发明各个实施例的示例性的操作环境将参照图10-12来详细描述。
接下来,在步骤104,随意地预处理被采集的训练数据以便允许把学习机最有利地应用到训练数据固有的知识提取中。在此预处理阶段期间,通过训练数据记录内单独的或者多个测量值的变换、组合或者操作可以随意地扩展训练数据。正如在此处所使用的,扩展的数据意指通过改变可用来确定每一输入点的观测值的数量来改变输入数据的维数(作为替换,也可以被描述为增加或删除数据库表格内的栏)。通过说明,一个数据点可以包括坐标(1,4,9)。这个数据点的一个扩展形式可以导致坐标(1,1,4,2,9,3)。在这个例子中,可以看出:加到被扩展的数据点上的坐标是以初始坐标的平方根变换为基础的。通过向该数据点增加维数,此被扩展的数据点提供一个不同的输入数据表示,其对于一个学习机的知识发现有潜在的更大意义。数据扩展在这种意义上讲为学习机提供机会去发现没有迅速显现在未扩展的训练数据中的知识。
对数据进行扩展可以包括:把任何有意义的变换类型应用到数据上并把那些变换加到原始数据上。用于确定一个变换是否有意义的标准可取决于输入数据本身和/或从数据中搜索到的知识类型。数据变换的说明类型包括:专家信息的加入;标记;二进制的转换;正弦,余弦,正切,余切,以及其它三角法的变换;群集;换算;概率和统计分析;有效性测试;强度测试;搜索二维图规则(2-D regularities);隐式马可夫模型(Hidden Markov Modeling);等价关系的识别;偶然性表格的应用;图论原理的应用;向量映射的创建;加法,减法,乘法,除法,多项式方程式及其它代数变换的应用;比例性的识别;有差别的幂的判定;等等。在医学的环境中,潜在有意义的变换包括:与已知标准医学的参考范围的关联;生理学的切断;生理学的组合;生物化学的组合;启发式规则的应用;诊断标准判定;临床的加权系统;诊断变换;临床的变换;专家知识的应用;标记技术;其他领域知识的应用;贝叶斯定理的网络知识;等等。对本领域的普通技术人员来说,这些和其它变换以及它们的组合都可出现。
本领域的技术人员也应该承认:不把维数加到数据点中也可以执行数据变换。例如一个数据点可以包括坐标(A,B,C)。这个数据点的转换形式结果为坐标(1,2,3),在此,坐标“1”具有与坐标“A”的某些已知关系,坐标“2”具有与坐标“B”的某些已知关系,而坐标“3”具有与坐标“C”的某些已知关系。从字母到数目的变换可能是需要的,例如,如果字母不能被一个学习机理解时。即使对于最初为数字形式的数据,不把维数加到数据点上的其它类型的变换也是可能的。此外,应该理解,为了对其加上含意而对数据进行预处理可以包括:分析未完成的、被破坏的或者另外“脏的”数据。一个学习机不能以有意义的方式处理“脏的”数据。因此,一个预处理步骤可以包括清除一个数据组以便移去、修复或替换脏的数据点。
返回图1,示例性的方法100继续到步骤106,在此,使用预处理的数据来训练学习机。正如本领域所熟知的,通过把学习机的操作参数调整直到获得一个理想的训练输出来训练一个学习机。可以通过把训练输出与训练数据的已知进行比较来手动地或自动地实现一个训练输出是否理想的判定。当一个学习机的训练输出在离训练数据的已知特性的一个预确定差错门限值之内时认为该学习机被训练了。在某些情形中,如果不需要,在步骤107中对学习机的训练输出进行后处理可能是理想的。正如所提及的,对学习机的输出进行后处理包括把该输出解释为一个有意义的形式。在一个回归问题的环境中,例如,可能需要确定学习机输出的范围分类以便确定输入数据点是否被正确分类。在模式识别问题的例子中,常常不需要对学习机的训练输出进行后处理。
在步骤108,在测试训练学习机的准备时随意地采集测试数据。可以从一个或多个本地和/或远端源采集测试数据。实际上,可以同时从同一源(组)中采集测试数据和训练数据。因此,在一个公用数据组之外可以分开测试数据和训练数据组并将其储存在一个本地存储媒体中作为学习机的不同输入数据组而使用。无论测试数据如何采集,所使用的任何测试数据必须在步骤110与训练数据组相同的方式被预处理。对本领域技术人员来说应该很明显,只可以通过使用与训练数据相同格式的测试数据才可实现一个适当的学习测试。然后,在步骤112,使用预处理的测试数据来测试学习机,如果需要的话。在步骤114中对学习机的测试输出进行随意地后处理以便确定结果是否是理想的。同样,后处理步骤包括:把测试输出解释为一种有意义的形式。该有意义的形式可以是人类可理解的一种形式或者计算机可理解的形式。不管怎样,测试输出必须被后处理为可以与测试数据进行比较的一种形式以便确定结果是否是理想的。后处理步骤的示例包括但是并不局限如下步骤:最佳分类判定,换算技术(线性和非线性),变换(线性和非线性),以及概率估计。方法100在步骤116处结束。
图2是一个流程图,说明了用于提升知识的一个示例性的方法200,可以使用特种类型的学习机(通常所说的支持向量机(SVM))从数据中发现该知识。一个SVM执行一个专门的算法,用于当从一个有限的数据采集中估计一个多维函数时提供归纳。SVM在解决相关性估计问题中可能特别有用。更明确地,一个SVM可以被精确地使用来估计指示函数(例如,模式识别问题)和实值函数(例如,函数近似法问题,回归估计问题,密度估计问题以及解决倒数问题)。SMV最初是被Vladimir N.Vapnik提出的。在他的标题为“统计上的倾斜理论”(StatisticalLeaning Theory)(John Wiley & Sons,Inc.1998)的书中详细地解释了SVM基础的概念,其在此处通过参考将其全部结合。因此,在此说明书各处假定了与SVM的相通以及与之一起使用的术语。
示例性的方法200从开始模块201开始并前进到步骤202,在此,一个问题被用公式表示,然后到步骤203,此时,一个训练数据组被采集。正如参考图1描述的一样,可以通过人工的或自动的处理从一个或多个本地和/或远端源采集训练数据。在步骤204,训练数据被随意地预处理。同样,对数据进行预处理包括:通过净化数据、转换数据和/或扩展数据来提升训练数据之内的含意。本领域技术人员应该理解,SVM能够处理具有很大维数的输入数据。实际上,输入数据的维数越大,则一个SVM能够计算的归纳越好。因此,虽然不扩展训练数据就对数据变换进行训练是可能的,但是在SVM的特性环境中最好通过把有意义的信息加到其上来扩展训练数据。
在步骤206,为SVM选择一个内核。正如本领域已知的,不同的内核将使SVM在输入数据的一个给定组的输出中产生不同的质量水平。因此,一个恰当的内核的选择对SVM输出的期望质量来说是很重要的。在本发明的一个实施例中,可以根据先前的性能知识来选择一个内核。正如本领域所熟知的,示例性的内核包括:多项式内核,径向准则分类内核,线性内核,等等。在一个替换实施例中,可以创建一个自定义内核,其对数据组的一个特定问题或类型来说是特定的。在另一实施例中,可以同时地训练并多个SVM,其每一个使用不同的内核。利用各种可选择的或加权的规格可以比较同时训练并测试的每个SVM的输出质量(参见步骤222)以便确定最理想的内核。
接下来,在步骤208,把预处理的训练数据输入SVM中。在步骤210,使用预处理的训练数据来训练SVM以便产生一个最佳超平面。作为选择,然后可以在步骤211处对SVM的训练输出进行后处理。同样,在这一点上训练输出的后处理可能是理想的,甚至是必需的,以便正常地计算输出的范围或类别。在步骤212,类似于前面的数据采集说明来采集测试数据。以与上述的训练数据相同的方式来在步骤214对测试数据进行预处理。然后,在步骤216,把预处理的测试数据输入SVM处理以便确定本SVM是否按照一种理想的方式被训练。测试输出在步骤218从SVM收到并在步骤220被随意地后处理。
根据后处理的测试输出,在步骤222确定通过SVM是否获得一个最佳最小值。本领域技术人员应该理解,一个SVM可以操作来确定具有一个全局最小差错的一个输出。可是,正如在上面所提及的,对于一个给定数据组的SVM输出结果相对于内核的选择通常将不同。因此,实际上对于一种给定的数据组,存在可以由一个SVM确定的多个全局最小值。正如在此处所使用的,术语“最佳最小值”或“最佳解”是指当与SVM确定的其它全局最小值相比时为最佳的那个选定的全局最小值(例如,问题特性、预定标准的一个给定组的最佳解)。因此,在步骤222确定最佳最小值是否已经被确定可以包括:把SVM的输出与一个历史的或预定的值进行比较。这样一个预定值可取决于测试数据组。例如,在一个模式识别问题的环境中,在此,一个数据点被一个SVM分类为或者具有某一个特性或者不具有该特性,则50%的全局最小差错将不是最佳的。在这个例子中,50%的全局最小值几乎等于通过抛硬币来确定该数据点是否具有某一个特性而获得的结果。作为另外一个例子,在同时训练并测试用不同内核的多个SVM的情况中,可以把每个SVM的输出与彼此SVM的输出相比较从而决定特定内核组的实际最佳解。可以手动地或者通过一个自动的比较处理来完成一个最佳解是否已经被确定的一个判定。
如果确定训练的SVM没有获得最佳最小值,则本方法前进到步骤224,在此调整内核选择。内核选择的调整可以包括:选择一个或多个新的内核或者调整内核参数。此外,在同时地训练并测试多个SVM的情况中,选定的内核可以被替换或修改同时其它内核可以被重新用于控制目的。在调整了内核选择之后,方法200从步骤208重复,在此,把预处理的训练数据输入SVM用于训练目的。当确定在步骤222处已经获得了最佳最小值时,该方法前进到步骤226,在此与上述类似地采集实用数据。相对于训练数据和测试数据为已知的期望的输出特性相对于实用数据不是已知的。
在步骤228处以与训练数据和测试数据相同的方式对实用数据进行预处理。在步骤230,把预处理的实用数据输入SVM中用于处理。在步骤232接收SVM的实用输出并在步骤234对其进行后处理。在本发明的一个实施例中,后处理包括:把SVM的输出转换为计算导出的字母数字分类,用于由人类或计算机解释。最好,字母数字分类包括人类或计算机可轻易理解的单个数值。方法200在步骤236处结束。
图3是一个流程图,说明了按照本发明的一个示例性实施例的一个示例性的最佳分类方法300,其可以被用于对数据进行预处理或对来自学习机的输出进行后处理。另外,如在下面将描述的,示例性的最佳分类方法可以被使用作为一个独立的分类技术,独立于学习机。示例性的最佳分类方法300从开始模块301开始并前进到步骤302,在此,一个输入数据组被接收。输入数据组包括来自一个连续变量的一个数据抽样序列。数据抽样落在两个或多个分类类别之内。接下来,在步骤304处,库和分类跟踪变量被初始化。正如本领域所熟知的,库变量涉及分辨率而类别跟踪变量涉及数据组内部的分类数量。可以手动地或者通过诸如来自分析输入数据组的一个计算机程序的一个自动处理来完成确定用于把库和分类跟踪变量初始化的数值。在步骤306,每个库的数据熵被计算出。熵是一个数学数值,其测量一个随机分布的不确定度。在示例性的方法300中,熵用于测量输入变量的等级以使获得最大分类性能。
方法300在连续变量上产生一系列的“切割”,以致连续变量可以被分成离散类别。由示例性的方法300选择的切割感觉上是最佳的,每个结果的离散类别的平均熵被最小化。在步骤308,判定是否所有的切割已经被放置在包括该连续变量的输入数据组内。如果没有把所有的切割放置好,则在步骤310为截止判定而测试顺序的库组合。从步骤310,示例性的方法300循环返回通过步骤306并返回到步骤308,在此再一次确定是否所有的切割已经被放置在包括该连续变量的输入数据组之内。当所有的切割已经被放置好时,则在步骤309估计整个系统的熵并将其与来自测试更多或更少的切割的早先结果进行比较。如果不能断定最小的熵状态已经被确定,那么必须估计其它可能的切割选择并且该方法继续到步骤311。从步骤311起,一个迄今未测试过的切割数量的选择被选择并从步骤304起重复上面的处理。当由库宽度确定的分辨率界限已经被测试或者向一个最小解的收敛已经被识别时,则在步骤312输出最佳的分类标准并且该示例性的最佳分类方法300在步骤314结束。
该最佳的分类方法300充分利用了动态规划技术。正如本领域所已知的,通过把一个算法认真地结构化,动态规划技术可用来显著改良解决某一复杂问题的效率从而减少冗余计算。在最佳分类问题中,通过在连续变量数据中所有可能的切割来彻底搜索的直接方法将导致具有指数复杂性的一个算法并且将使得问题难处理,即使是中等大小的输入。通过充分利用目标函数的相加性、在此问题中平均熵,则该问题可以被分为一系列子问题。通过适当地用公式表示解决每个子问题的子结构以及储存该子问题的解,则可以识别并避免了大量的冗余计算。使用动态规划方法其结果是:示例性的最佳分类方法300可以作为具有一个多项式复杂性的一种算法而被执行,它可被用来解决大尺寸的问题。
正如在上面所提及的,示例性的最佳分类方法300可以被使用于对数据进行预处理和/或对学习机的输出进行后处理。例如,作为一个预处理变换步骤,示例性的最佳分类方法300可被用来从原始数据中提取分类信息。作为一种后处理技术,示例性的最佳范围分类方法可被用来确定客观的基于数据的标识器的最佳截止数值。很明显,示例性的最佳分类方法300已经应用在模式识别、分类、回归问题等等之中。示例性的最佳分类方法300还可以被使用作为一种独立的分类技术,与SVM和其它学习机相独立。最佳分类方法300的一个示例性的独立应用将参考图8进行描述。
图4说明了一种示例性的未扩展数据组400,其可以作为支持向量机的输入而被使用。这个数据组400被称为“未扩展的”,因为没有附加信息被附加到其上。正图所示,未扩展的数据组包括一个训练数据组402和一个测试数据组404。未扩展的训练数据组402和未扩展的测试数据组404包括诸如示例性的数据点406,与来自抽样的内科病人的历史临床数据有关。数据组400可被用来训练一个SVM以便确定一个乳癌病人是否将经历复发。
每一数据点包括五个输入坐标或维数和输出分类,如图406a-f所示,输出分类表示为每个病人采集的医学数据。具体地,第一坐标406a表示“年龄”,第二坐标406b表示“雌激素受体水平”,第三坐标406c表示“荷尔蒙接收器水平”,第四坐标406d表示“提取的正(癌)淋巴结”,输出分类406f表示“复发分类”。数据400重要的已知特性是输出分类406f(复发分类),在这个例子中,它表示被抽样的内科病人顺利地响应医疗处理而没有癌复发(“-1”)或者消极地响应医疗处理而具有癌复发(“1”)。此已知的特性将被用于学习同时处理SVM中的训练数据,在把测试数据输入SVM中之后将以一种可估计的形式被使用从而产生一个“盲的”测试,并且在当前的内科病人的实用数据中将明显是未知的。
图5说明了一个示例性的测试输出502,其来自利用如图4所示的未扩展的训练数据402训练并且利用未扩展的数据组404测试的一个SVM中。测试输出502已经被后处理以便可被人类或计算机理解。正如所指出的,测试输出502说明总共24个抽样(数据点)被SVM检查并且该SVM错误地识别八个正抽样中的四个(50%)并且错误地识别十六个负抽样中的6个(37.5%)。
图6说明了一种示例性的扩展数据组600,其可以被使用作为支持向量机的输入。这个数据组600被称为“扩展的”,因为附加信息已经被附加到其上。注意,除附加信息以外,该扩展的数据组600与如图4所示的未扩展的数据组400相同。参考图3描述的示例性的最佳范围分类方法300已经提供了提供给该扩展数据组的该附加信息。如图所示,扩展的数据组包括一个训练数据组602和一个测试数据组604。扩展的训练数据组602和扩展的测试数据组604包括诸如示例性的数据点606,与来自抽样的内科病人的历史临床数据有关。同样,数据组600可被用来训练一个SVM以便学会一个乳癌病人是否将经历复发。
通过示例性的最佳分类方法300的应用,每个被扩展的数据点数据点包括二十个坐标(或维数)606a1-3一直到606e1-3,和一个输出分类606f,它们共同地表示每个病人的医学数据及其分类变换。具体地,第一坐标606a表示“年龄”,第二坐标一直到第四坐标606a1-606a3是组合来表示一个年龄类别的变量。例如,一个年龄范围可以被分类为“青年”、“中年”和“老年”类别,针对数据中出现的各种年龄范围。如图所示,一串变量“0”(606a1)、“0”(606a2)、“1”(606a3)可用来表示某一个年龄值被分类为“老年”。同样地,一串变量“0”(606a1)、“1”(606a2)、“0”(606a3)可用来表示某一个年龄值被分类为“中年”。同时,一串变量“1”(606a1)、“0”(606a2)、“0”(606a3)可用来表示某一个年龄值被分类为“青年”。从图6的一个检查中可以看出:使用示例性的方法300把“年龄”606a数值的范围的最佳分类确定为31-33=“青年”,34=“中年”,以及35-49=“老年”。其它坐标,即坐标606b“雌激素受体水平”、坐标606c“荷尔蒙受体水平”、坐标606d“提取的总的淋巴结”、以及坐标606e“提取的正(癌)淋巴结”,每个都已经以一种类似的方式被最佳分类。
图7说明了一个示例性的扩展的测试输出702,其来自利用如图6所示的扩展的训练数据602训练并且利用扩展的数据组604测试的一个SVM中。扩展的测试输出702已经被后处理以便可被人类或计算机理解。正如所指出的,扩展的测试输出702说明总共24个抽样(数据点)被SVM检查并且该SVM错误地识别八个正抽样中的四个(50%)并且错误地识别十六个负抽样中的四个(25%)。因此,通过把此扩展的测试输出702与图5未扩展的测试输出502进行比较可以看出:数据点的扩展得到改良的结果(即,一个较低的全局最小差错),特别是减少那些不必要地蒙受追踪癌处理的病人的实例。
图8说明了图3中描述的最佳分类方法300的一个独立应用的示例性输入和输出。在图8的例子中,输入数据组801包括一个“正淋巴结数量”802和一个相应的“复发分类”804。在这个例子中,最佳分类方法300已经被应用到输入数据组801中以便定位癌复发处理判定的最佳截止点,完全以后外科的一连串抽样中采集的阳淋巴结数量为基础。熟知的临床标准用来规定处理具有至少三个正节点的任何病人。可是,最佳分类方法300证明:以输入数据801为基础,最佳截止806应该在较高数值的5.5淋巴结处,它符合规定对具有至少六个正淋巴结的病人的追踪处理的一条临床规则。
如对比表808所示,现有技术接受的临床截止点(>3.0)导致47%正确分类的复发和71%正确分类的非复发。因此,53%的复发被错误地分类(进一步处理没有被错误地推荐)并且29%的非复发被错误地分类(进一步处理被错误地推荐)。相反,通过最佳分类方法300确定的截止点(>5.5)导致33%正确分类的复发和97%正确分类的非复发。因此,67%的复发被错误地分类(进一步处理没有被错误地推荐)并且3%的非复发被错误地分类(进一步处理被错误地推荐)。
本示例所示,使用示例性的最佳分类方法300,可以达到对可以避免后外科的癌处理方式的那些病人进行较高正确地识别的实例。即使由最佳分类方法300确定的截止点产生错误分类复发的一个适度较高的百分比,它也产生错误分类非复发的一个显著较低的百分比。因此,考虑到交换,并且实现最优化问题目的为避免不必要处理,由最佳分类方法300确定的截止点算术上优于现有技术的那些临床的截止点。这类信息非常可能利用在向病人提供另外的洞察力来在遭受诸如化学疗法或者冒乳癌复发的危险之间衡量选择。
图9是来自包括一个线性内核的第一支持向量机和包括一个多项式内核的第二支持向量机中的示例性后处理输出一个比较。图9证明了内核选择中的一个变化可以影响SVM输出质量的水平。如图所示,包括一个线性点乘内核的第一SVM902的后处理输出表示一个给定的二十四个抽样的测试组,八个正抽样的六个被错误地识别并且十六个负抽样的三个被错误地识别。通过对比,包括一个多项式内核的第二SVM904的后处理输出表示对于同一测试组,八个正抽样的只有两个被错误地识别和十六个负抽样的四个被识别。通过对比,多项式内核产生与正抽样识别有关的显著改良的结果而产生与负抽样识别有关的仅仅稍微更恶劣的结果。因此,对本领域的技术人员来说很明显,多项式内核的全局最小差错比这个数据组的线性内核的全局最小差错更低。
图10和下列讨论想要来提供用于执行本发明的一种适当的计算环境的一个简短而概括的说明。虽然如图10所示的系统是一个传统的个人计算机1000,但是本领域的技术人员将承认也可以使用其它类型的计算机系统配置来执行本发明。计算机1000包括一个中央处理器1022,一个系统存储器1020,以及一个输入输出(“I/O”)总线1026。系统总线1021把中央处理器1022耦合到系统存储器020。总线控制器1023控制I/O总线1026上和在中央处理器1022与各种内部和外部I/O设备之间的数据流。已连接到I/O总线1026上的I/O设备可以使用一种直接存储器存取(“DMA”)控制器1024来对系统存储器1020直接存取。
I/O设备通过一组设备接口连接到I/O总线1026。设备接口可以包括硬件组件和软件组件。例如,用于对可拆卸的媒体1050进行读写的一个硬盘驱动器1030和一个软盘驱动器1032可以通过磁盘驱动器控制器1040连接到I/O总线1026。可以使用一种小型的计算机系统接口(“SCSI”)1041来把用于对光媒体进行读写的一个光盘驱动器1034连接到I/O总线1026。可替代地,一个IDE(ATAPI)或EIDE接口可以与诸如可能为具有CD-ROM驱动器的外壳之类的一个光盘驱动器相关。驱动器和它们相关的计算机可读媒体为计算机1000提供非易失性储存。除了上述的计算机可读媒体之外,其它类型的计算机可读媒体也可以被使用,例如ZIP驱动器等等。
诸如监视器之类的一个显示设备1053通过诸如一个视频适配器1042之类的另外一个接口连接到I/O总线1026。一个并行接口1043把诸如激光打印机1056之类的同步外围设备连接到I/O总线1026。一个串行接口1044把通信设备连接到I/O总线1026。用户可以通过串行接口1044或者通过使用诸如键盘1038、鼠标1036或调制解调器1057之类的一个输入设备来把命令和信息输入计算机1000。其它外围设备(未示出)也可以连接到计算机1000,例如音频输入输出设备或图像捕获设备。
若干程序模块可以被储存在驱动上以及系统存储器1020中。系统存储器1020可以包括随机访问存储器(″RAM″)和只读存储器(″ROM″)。程序模块利用I/O设备或者利用其它计算机来控制计算机1000如何起作用以及如何与用户交互作用。程序模块包括分程序、操作系统1065、应用程序、数据结构、以及其它软件或固件组件。在一个说明实施例中,本发明可以包括一个或多个预处理程序模块1075A,一个或多个后处理程序模块1075B和/或一个或多个最佳分类程序模块1077和一个或多个SVM程序模块1070,储存在驱动上或计算机1000的系统存储器1020中。明确地,预处理程序模块1075A、后处理程序模块1075B和SVM程序模块1070可以包括计算机可执行指令,用于对数据进行预处理并对来自学习机的输出进行后处理并且执行按照参考图1和2描述的示例性方法的学习算法。此外,最佳分类程序模块1077可以包括计算机可执行指令,用于按照参考图3描述的示例性方法对一个数据组进行最佳分类。
使用对诸如远程计算机1060之类的一个或多个远程计算机的逻辑连接,计算机1000就可以操作在一个网络环境中。远程计算机1060可以是一个服务器,一个路由器,一个同等的设备或者其它公用网络节点,并且通常包括有关于计算机1000所描述的许多或者所有元件。在一个网络环境中,程序模块和数据可以被储存在远程计算机1060上。图10中描述的逻辑连接包括一个局域网(“LAN”)1054和一个广域网(“WAN”)1055。在一个局域网环境中,诸如以太网卡之类的一个网络接口1045可用于把计算机1000连接到远程计算机1060。在一个广域网环境中,计算机1000可以使用诸如调制解调器1057之类的一个电信设备来建立一个连接。应该理解,所示出的网络连接是说明性的并且可以使用在计算机之间建立通信链路的其它设备。
图11是一个功能方框图,说明了实现本发明的一个替换的示例性操作环境。本发明可以在多个计算机系统的专门配置中实现。多个计算机系统的专门配置的一个例子在此被称为BIOWulfTM Support VectorProcessor(BSVP)(支持向量处理器)。BSVP把并行计算硬件技术中的最新进步与模式识别、回归估计以及密度估计中的最新数学进步结合在一起。虽然这些技术的组合是唯一且新颖的实现,但是该硬件结构是以NASA Goddard Space Flight Center(太空总署Goddard太空航行中心)最早的Beowulf巨型计算机实现为基础的。
BSVP提供加快SVM训练所必需的大型并行计算能力和对大规模数据组的估计。BSVP包括一个双重并行硬件结构和自定义并行软件以便实现多线程和信息传递的有效应用从而有效地识别实际应用中的支持向量。硬件和软件的最优化使BSVP显著优于标准的SVM实现。此外,随着商品计算技术的发展,通过BSVP在开放源软件和标准化接口技术中的基础可保证BSVP的升级性。未来的计算平台和网络技术可以被同化到BSVP中,因为它们对软件实现成本无影响而变得有效。
如图11所示,BSVP包括具有二十个处理节点1104a-t的一个Beowulf型超级计算群集和一个主节点1112。处理节点1104a-j通过交换机1102a互连,而处理节点1104k-t通过交换机1102b互连。主节点1112通过一个适当的以太网电缆1114连接到网络交换机1102a或1102b(示出了1102a)的其中之一上。同时,交换机1102a和交换机1102b通过一个适当的以太网电缆1114彼此连接以使所有的二十个处理节点1104a-t和主节点1112互相有效地通信。交换机1102a和1102b最好包括快速以太网互相连接。通过Beowulf巨型计算机的信息传递多个机器并行结构的实现以及把一个高性能双重处理器SMP计算机利用为主节点1112来实现BSVP的双重并行结构。
在这个示例性的结构中,主节点1112包含无缝多元处理器SMP技术并且包括一个基于双倍的450Mhz奔腾II Xeon的机器,具有18GB的提升型SCSI存储器,256MB内存,两个100M比特/秒NIC,以及一个24GB DAT网络备份磁带设备。主节点1112在Linux下执行NIS、MPL和/或PMV来管理BSVP的动作。主节点1112还在BSVP和外部世界之间提供网关。同样地,BSVP的内部网络与外部交互作用相孤立,这允许整个群集作为单个机器出现来起作用。
二十个处理节点1104a-t是相同配置的计算机,包含:150MHz奔腾处理器,32MB RAM,850MB HDD,1.44MB FDD以及一个快速以太网mb100Mb/sNIC。处理节点1104a-t互相互连并且通过TCP/IP通过NFS连接与主节点互连。除了BSVP计算之外,处理节点被配置来通过一个附加组的监视器提供示范性能,每个节点的键盘和鼠标通过KVM交换机1108a和1108b被路由到单个键盘设备和单个鼠标设备。
软件自定义和改进允许BSVP上的动作的最优化。在部分SVM处理中的并行性以最有利的方式通过BSVP硬件提供的混合并行化而被利用。软件实现了从原始数据到执行解的完整周期支持。一个数据库引擎提供对原始数据进行预处理所需要的存储器和适应性。自定义开发分程序把SVM训练之前的数据预处理自动化。多个变换和数据处理在数据库环境内完成以便产生候选训练数据。
BSVP的峰值理论处理性能为3.90GFLOPS。基于太空总署Goddard太空航行中心在它们的Beowulf型机器上执行的基准点,预期的实际性能应该大约为1.56GFLOPS。因此,使用此Beowulf型群集机器中的商品组件计算能力所达到的性能符合诸如Cray J932/8之类的巨型计算机的性能。另外研究和学院体系中的Beowulf测试表示:在二十个节点Beowulf群集上,通常可以达到按18倍于单个处理器的一个顺序的一个性能。例如,在单个奔腾处理器计算机上需要17分45秒时钟时间的一个最优化问题在具有20个节点的Beowulf上以59秒解决。因此,BSVP的高性能性质能够实际分析当前认为非常麻烦而不能被传统计算机系统处理的数据组。
BSVP巨大的计算能力使得它特别适用于并行地执行多个SVM从而解决涉及大数量输入的现实问题。通常的SVM和特别的BSVP的有用性示例包括:遗传研究,特别是人类基因组计划;管理维护效率的估计;治疗学的判断和跟踪;适当的治疗学筛余;配药学的开发技术;分子结构的发现;预测估计;医学信息学;付款欺诈检测;库存控制;股票估计和预测;商品估计和预测;以及保险概率估计。
本领域技术人员应该理解,上述的BSVP结构实际上是说明性的而不是意欲限制本发明的范围。例如,二十个处理节点的选择是以熟知的Beowulf结构为基础的。可是,利用增减二十个处理节点可以交替地执行该BSVP。此外,上述具体的硬件和软件组件仅仅是作为例子。正如所提及的,本发明的BSVP实施例被配置来与替换的和/或未来的硬件和软件组件兼容。
图12是一个功能方框图,说明了用于实现本发明的另外一个替换实施例的示例性网络操作环境。在这个示例性的网络操作环境中,顾客1202或其它实体可以通过诸如互联网1204之类的一个分布式计算机网路发送数据给厂家1212。本领域技术人员应该理解,顾客1202可以从包括或与一个通信设备和一个数据存储设备通信的任何类型的计算机或实验室仪器来发送数据。从顾客1202发送的数据可以是由学习机处理的训练数据、测试数据和/或实用数据。由顾客发送的数据在厂家的Web服务器1206处被接收,Web服务器1206可以通过一个内部网络1214a-b把该数据发送给一个或多个学习机。正如先前描述的,学习机可以包括SVMs、BSVPs1100、神经网络、其它学习机或它们的组合。优选地,Web服务器1206通过一个防火墙1208或其它安全系统与学习机(组)相孤立。厂家1212也可以通过互联网1204或任何专用或所要求的通信链路来与一个或多个财务体系1210通信。Web服务器1206或其它通信设备可以处理与该一个或多个财务体系的通信。财务机构(组)可以包括银行、互联网银行、票据交换所、贷款或自动提款卡公司等等。
在操作时,厂家可以通过主机在web服务器1206或者与该web服务器1206通信的另外一个服务器处的一个web站点来提供学习机处理业务。顾客1202可以发送数据给Web服务器1206以便由学习机进行处理。顾客1202还可以发送诸如用户名、密码和/或财务账目标识符之类的识别信息给web服务器。响应于接收数据和识别信息,Web服务器1206可以在一个财务机构1210处从顾客1202保存或授权的一个财务账目中电子地取回一个预确定数量的资金。另外,Web服务器可以发送顾客的数据到BSVP1100或其它学习机。当BSVP1100已经完成数据的处理和输出的后处理时,后处理的输出被返回到web服务器1206。如前所述,来自学习机的输出可以被后处理以便产生单值或多值的、计算导出的字母数字分类,用于人类或自动的解释。Web服务器1206然后可以确保在通过互联网1204把后处理的输出发送回到顾客1202之前已经保证了来自顾客的付款。
SVMs可用来解决多种多样的现实问题。例如,SVMs可在分析账目和存货数据、股票和商品市场数据、保险数据、医学数据等等方面具有实用性。同样地,如上所述的网络环境在许多工业和市场部分中具有广泛的实用性。在存货数据分析环境中,例如,顾客可能是一个零售商。该零售商可以以预确定次数提供存货和核查数据给Web服务器1206。该存货和核查数据可以由BSVP和/或一个或多个其它学习机来处理以便估计零售商的存货需求。同样地,在医学数据分析的环境中,顾客可能是一个医学实验室并且可以把从病人身上采集实用数据发送给Web服务器1206同时该病人在该医学实验室中。通过用BSVP或其它学习机处理该医学数据所产生的输出可以被发送回到这家医学实验室并且呈递给该病人。
在另一实施例中,本发明想要配置多个支持向量机来并行或串行地层次处理多个数据组。具体地,一个或多个第一级支持向量机可以被训练并测试来处理第一类型的数据而一个或多个第一级支持向量机可以被训练并测试来处理第二类型的数据。另外类型的数据也同样可以由其它第一级支持向量机处理。来自一些或所有第一级支持向量机的输出可以按照一种逻辑方式被合并使得为一个或多个第二级支持向量机产生一个输入数据组。按照类似的形式,来自多个第二级支持向量机的输出可以按照一种逻辑方式被合并使得为一个或多个第三级支持向量机产生一个输入数据。支持向量机的分层结构可以被扩展为适当的许多级。按照这种方式,较低分级的支持向量机可用来把要被输入到较高分级的支持向量机中的数据进行预处理。同时,较高分级的支持向量机可用来把较低分级的支持向量机的输出数据进行后处理。
分层结构中的每个支持向量机或支持向量机的每一分级可以被配置不同的内核。例如,用于处理第一类型数据的支持向量机可能被配置第一类型的内核,而用于处理第二类型数据的支持向量机可以被配置第二类型的内核。另外,在同一或不同的分级中的多个支持向量机可以被配置来利用不同的内核处理同一类型的数据。
图13被提出来通过示例说明支持向量机的一种分级系统。如图所示,一个或多个第一级支持向量机1302A1和1302A2可以被训练并测试来处理第一类型的输入数据1304A,例如和内科病人的抽样有关的乳房透视数据。这些支持向量机的一个或多个可以包括不同的内核(示出为内核1和内核2)。同样,一个或多个另外的第一级支持向量机1302B1和1302B2可以被训练并测试来处理第二类型的输入数据1304B,例如相同或不同的内科病人抽样的基因数据。同样,该另外的支持向量机的一个或多个可以包括不同的内核(示出为内核1和内核3)。来自每一类似的第一级支持向量机的输出可以彼此相比较(即,输出A1 1306A与输出A2 1306B相比较;输出B1 1306C与输出B2 1306D相比较)以便确定最佳输出(1308A和1308B)。然后,来自两个类型的第一级支持向量机1308A和1308B的最佳输出可以被合并以便形成一个新的多维输入数据组1310,例如与乳房透视和基因数据有关。新的数据组然后可以由一个或多个适当训练并测试的第二级支持向量机1312A和1312B处理。来自第二级支持向量机1312A和1312B的结果输出1314A和1314B可以进行比较以便确定一个最佳输出1316。最佳输出1316可以识别乳房透视和基因数据点之间的因果关系。对本领域普通技术人员来说应该很明显,所期望的支持向量机的分层结构可以应用在任意领域或者期望通过学习机分析数据的工业中。
使用多个支持向量机的多个数据组的分级处理可以被使用为一种方法,用于对从其它支持向量机或学习机中输入或输出的数据进行预处理或后处理。另外,可以对输入数据和/或如上所述的支持向量机分级结构的输出执行数据的预处理或后处理。
对本发明所属领域的普通技术人员来说,本发明的替换实施例将变得显而易见。这样的替换实施例被认为是包含在本发明的精神和范围内。
因此,本发明的范围通过附加的权利要求来描述并且由前述的说明书支持。

Claims (12)

1.一种利用多个支持向量机来提升知识发现的方法,包括:
对第一训练数据组和第二训练数据组进行预处理以便向多个训练数据点的每一个增加维数;
利用第一预处理训练数据组训练一个或多个第一支持向量机,第一支持向量机的每一个都包括不同的内核;
利用第二预处理训练数据组训练一个或多个第二支持向量机,第二支持向量机的每一个都包括不同的内核;
以与第一训练数据组相同的方式对第一测试数据组进行预处理并且以与第二训练数据组相同的方式对第二测试数据组进行预处理;
利用第一预处理测试数据组测试每一个第一训练支持向量机并且利用第二预处理测试数据组测试每一个第二训练支持向量机;
响应于从每一个第一训练支持向量机接收第一测试输出,把每一个第一测试输出互相进行比较以便确定第一测试输出的哪一个是第一最佳解,如果有最佳解的话;
响应于从每一个第二训练支持向量机接收第二测试输出,把每一个第二测试输出互相进行比较以便确定第二测试输出的哪一个是第二最佳解,如果有最佳解的话;
把第一最佳解与第二最佳解合并以便创建一个新的输入数据组从而输入到一个或多个附加的支持向量机中。
2.如权利要求1所述的方法,其中,对第一训练数据组和第二训练数据组进行预处理还包括:
确定至少训练数据点中的一个是脏的训练数据点;以及
响应于确定训练数据点是脏的训练数据点,对脏的训练数据点进行净化,
其中,所述脏的训练数据点是指不完全的、被破坏的训练数据点。
3.如权利要求2所述的方法,其中对脏的训练数据点进行净化包括:删除、修复或更换该脏的训练数据点。
4.如权利要求1所述的方法,其中,每一训练数据点包括具有一个或多个初始坐标的一个向量;而且,对训练数据组进行预处理包括把一个或多个新的坐标加到该向量。
5.如权利要求4所述的方法,其中,通过把变换应用到一个或多个初始坐标上来导出加到向量上的一个或多个新的坐标。
6.如权利要求5所述的方法,其中,该变换是以专家知识为基础的。
7.如权利要求5所述的方法,其中,该变换是计算导出的。
8.如权利要求2或5所述的方法,其中,训练数据组包括一个连续变量;而且变换包括对训练数据组的连续变量进行最佳分类。
9.如权利要求1所述的方法,其中,把每一个第一测试输出互相进行比较以及把每一个第二测试输出互相进行比较包括:
通过把每一个测试输出解释为一种公共的格式来对每一个测试输出进行后处理;
把每一个第一后处理的测试输出互相进行比较以便确定哪一个第一测试输出表示一个第一最低的全局最小差错;和
把每一个第二后处理的测试输出互相进行比较以便确定哪一个第二测试输出表示一个第二最低的全局最小差错。
10.如权利要求1所述的方法,其中,从数据中发现的知识涉及一个回归或密度估计;
其中,每一个支持向量机产生包括一个连续变量的一个训练输出;以及
该方法还包括如下步骤:通过对训练输出进行最佳分类来对每一个训练输出进行后处理从而导出连续变量中的截止点。
11.如权利要求1所述的方法,其中,包括如下步骤:
响应于把每一个测试输出互相进行比较,确定没有测试输出是最佳解;
调整多个支持向量机中的一个或多个之不同的内核;和
响应于调整不同的内核的选择,重新训练并重新测试多个支持向量机的每一个。
12.如权利要求11所述的方法,其中,调整不同的内核是以先前的性能或历史数据为基础完成的,并且依赖于从数据中发现的知识的性质或者数据的性质。
CNB008080623A 1999-05-25 2000-05-24 使用多个支持向量机从多个数据组中提升知识发现的方法 Expired - Fee Related CN1197025C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13571599P 1999-05-25 1999-05-25
US60/135,715 1999-05-25

Publications (2)

Publication Number Publication Date
CN1358288A CN1358288A (zh) 2002-07-10
CN1197025C true CN1197025C (zh) 2005-04-13

Family

ID=22469322

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB008080623A Expired - Fee Related CN1197025C (zh) 1999-05-25 2000-05-24 使用多个支持向量机从多个数据组中提升知识发现的方法

Country Status (14)

Country Link
EP (1) EP1192595B8 (zh)
JP (1) JP2003500766A (zh)
KR (1) KR100724104B1 (zh)
CN (1) CN1197025C (zh)
AT (1) ATE311635T1 (zh)
AU (1) AU780050B2 (zh)
CA (1) CA2371240C (zh)
DE (1) DE60024452T2 (zh)
EA (1) EA200101238A1 (zh)
ES (1) ES2254182T3 (zh)
IL (2) IL146705A0 (zh)
NO (1) NO319838B1 (zh)
NZ (1) NZ515707A (zh)
WO (1) WO2000072257A2 (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002091211A1 (en) * 2001-05-07 2002-11-14 Biowulf Technologies, Llc Kernels and methods for selecting kernels for use in learning machines
JP3947109B2 (ja) * 2001-01-23 2007-07-18 バイオウルフ テクノロジーズ エルエルスィー コンピュータ利用画像分析
AUPR464601A0 (en) * 2001-04-30 2001-05-24 Commonwealth Of Australia, The Shapes vector
KR100483602B1 (ko) * 2001-10-12 2005-04-15 (주)이캐빈 이메일 모니터링 방법 및 시스템
ITBO20010763A1 (it) 2001-12-14 2003-06-16 Renato Campanini Metodo , e relativa apparecchiatura , per la ricerca automatica di zone di interesse in immagini digitali di tessuto biologico
JP4034602B2 (ja) * 2002-06-17 2008-01-16 富士通株式会社 データ分類装置、データ分類装置の能動学習方法及び能動学習プログラム
CN1327376C (zh) * 2004-04-08 2007-07-18 上海交通大学 基于支持向量机的软测量仪表建模方法
CN100353355C (zh) * 2004-08-12 2007-12-05 上海交通大学 减少支持向量与训练时间的交叉合并方法
WO2006066352A1 (en) * 2004-12-24 2006-06-29 The University Of Queensland Method for generating multiple orthogonal support vector machines
US7197487B2 (en) * 2005-03-16 2007-03-27 Lg Chem, Ltd. Apparatus and method for estimating battery state of charge
JP4662909B2 (ja) * 2006-11-16 2011-03-30 日本電信電話株式会社 特徴評価方法及び装置及びプログラム
JP4446035B2 (ja) * 2007-11-02 2010-04-07 国立大学法人山口大学 健全性劣化評価システム
JP5425814B2 (ja) * 2008-02-08 2014-02-26 ヘルス ディスカバリー コーポレイション サポートベクタマシンを用いてフローサイトメトリーデータを分析するための方法及びシステム
CN101252224B (zh) * 2008-04-08 2012-02-08 西安电子科技大学 平板裂缝天线缝制造精度对电性能影响的预测方法
US20130275349A1 (en) * 2010-12-28 2013-10-17 Santen Pharmaceutical Co., Ltd. Comprehensive Glaucoma Determination Method Utilizing Glaucoma Diagnosis Chip And Deformed Proteomics Cluster Analysis
CN102509116A (zh) * 2011-11-23 2012-06-20 西北工业大学 一种支持向量机和粗糙集的故障诊断知识获取方法
US20210391083A1 (en) * 2012-08-16 2021-12-16 Ginger.io, Inc. Method for providing health therapeutic interventions to a user
US20140358830A1 (en) 2013-05-30 2014-12-04 Synopsys, Inc. Lithographic hotspot detection using multiple machine learning kernels
JP6208552B2 (ja) * 2013-11-14 2017-10-04 株式会社デンソーアイティーラボラトリ 識別器、識別プログラム、及び識別方法
JP6908977B2 (ja) * 2016-07-22 2021-07-28 株式会社トプコン 医療情報処理システム、医療情報処理装置及び医療情報処理方法
US11010302B2 (en) 2016-10-05 2021-05-18 Intel Corporation General purpose input/output data capture and neural cache system for autonomous machines
CN113469213A (zh) * 2017-04-28 2021-10-01 成都天钥科技有限公司 对象识别方法及装置、终端、处理器、存储介质
CN107316054A (zh) * 2017-05-26 2017-11-03 昆山遥矽微电子科技有限公司 基于卷积神经网络和支持向量机的非标准字符识别方法
CN109936525B (zh) 2017-12-15 2020-07-31 阿里巴巴集团控股有限公司 一种基于图结构模型的异常账号防控方法、装置以及设备
CN108198268B (zh) * 2017-12-19 2020-10-16 江苏极熵物联科技有限公司 一种生产设备数据标定方法
CN110031793B (zh) * 2019-04-09 2023-06-02 中国电子科技集团公司第三十六研究所 一种干涉仪测向方法、装置和系统
US11720818B2 (en) 2019-09-11 2023-08-08 Samsung Display Co., Ltd. System and method to improve accuracy of regression models trained with imbalanced data
WO2021188354A1 (en) * 2020-03-14 2021-09-23 DataRobot, Inc. Automated and adaptive design and training of neural networks
KR20220020103A (ko) 2020-08-11 2022-02-18 주식회사 케이티 실감형 미디어 컨텐츠를 제공하는 서버, 방법 및 컴퓨터 프로그램

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5138694A (en) * 1991-06-28 1992-08-11 United Technologies Corporation Parallel processing qualitative reasoning system
JPH05101028A (ja) * 1991-10-04 1993-04-23 Nippon Telegr & Teleph Corp <Ntt> 複数特徴量の統合判定方法
US5649068A (en) * 1993-07-27 1997-07-15 Lucent Technologies Inc. Pattern recognition system using support vectors
JPH07253961A (ja) * 1994-01-26 1995-10-03 Meidensha Corp ニューラルネットワークにおける連続値処理方法
JPH10247243A (ja) * 1997-03-04 1998-09-14 Mitsubishi Heavy Ind Ltd 識別装置
US6134344A (en) * 1997-06-26 2000-10-17 Lucent Technologies Inc. Method and apparatus for improving the efficiency of support vector machines

Also Published As

Publication number Publication date
EP1192595B1 (en) 2005-11-30
CA2371240A1 (en) 2000-11-30
KR100724104B1 (ko) 2007-06-04
CN1358288A (zh) 2002-07-10
NO20015723L (no) 2002-01-23
WO2000072257A3 (en) 2002-01-03
CA2371240C (en) 2011-08-09
AU780050B2 (en) 2005-02-24
IL146705A0 (en) 2002-07-25
NO20015723D0 (no) 2001-11-23
KR20020030744A (ko) 2002-04-25
ATE311635T1 (de) 2005-12-15
ES2254182T3 (es) 2006-06-16
EP1192595A2 (en) 2002-04-03
EA200101238A1 (ru) 2002-10-31
JP2003500766A (ja) 2003-01-07
WO2000072257A2 (en) 2000-11-30
IL146705A (en) 2006-10-31
NO319838B1 (no) 2005-09-19
DE60024452D1 (de) 2006-01-05
NZ515707A (en) 2003-06-30
AU5161200A (en) 2000-12-12
DE60024452T2 (de) 2006-08-03
EP1192595B8 (en) 2006-02-01

Similar Documents

Publication Publication Date Title
CN1197025C (zh) 使用多个支持向量机从多个数据组中提升知识发现的方法
US6128608A (en) Enhancing knowledge discovery using multiple support vector machines
US7444308B2 (en) Data mining platform for bioinformatics and other knowledge discovery
US8126825B2 (en) Method for visualizing feature ranking of a subset of features for classifying data using a learning machine
Ghosh et al. The class imbalance problem in deep learning
CN115269854B (zh) 基于主题和结构感知神经网络的虚假新闻检测方法
CN107220663B (zh) 一种基于语义场景分类的图像自动标注方法
CN115165366A (zh) 一种旋转机械变工况故障诊断方法及系统
CN114298160A (zh) 一种基于孪生知识蒸馏与自监督学习的小样本分类方法
CN116720106A (zh) 基于迁移学习领域自适应的运动想象脑电信号分类方法
Salem et al. A new gene selection technique based on hybrid methods for cancer classification using microarrays
CN102496027A (zh) 基于约束自适应传递的半监督图像分类方法
Sanchez-Gendriz et al. Gene Sequence to 2D Vector Transformation for Virus Classification
WO2002103954A2 (en) Data mining platform for bioinformatics and other knowledge discovery
Fatima et al. A Novel Weighted Ensemble Method to Overcome the Impact of Under-fitting and Over-fitting on the Classification Accuracy of the Imbalanced Data Sets
Huang et al. Effects of SVM parameter optimization based on the parameter design of Taguchi method
Zhao Comprehensive Quality Evaluation Model of College Students Based on Deep Learning
AbdElminaam et al. ML_Recognition: A Robust Model for Handwritten Digit Recognition Using Machine Learning Classifiers
Jeelani et al. A Comprehensive Survey of Machine Learning Strategies for Tumor Classification using Gene Expression Profiling
Sharber Machine Learning on Single-Cell RNA-Seq to Advance our Understanding of Clonal Hematopoiesis
Al-Safarini USING A LOGICAL MODEL TO PREDICT THE FUNCTION OF GENE: A SYSTEMATIC REVIEW
Eraso MACHINE LEARNING TECHNIQUES FOR SUPERVISED CELL LABELING IN CYTOMETRY
Snegaa et al. Meta-Heuristic Approaches for the Classification of Medical Datasets
CN118155724A (zh) 一种基于域适应模型的RNA-seq和ATAC-seq数据整合分析方法
CN118070030A (zh) 多种混合共行的无监督的特征筛选方法及系统

Legal Events

Date Code Title Description
C06 Publication
C10 Entry into substantive examination
PB01 Publication
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20050413

Termination date: 20140524