CN1816303A

CN1816303A - 用于心磁图分类的机器学习的使用

Info

Publication number: CN1816303A
Application number: CNA2004800186838A
Authority: CN
Inventors: 卡斯滕·斯特尼克尔; 马克·J·恩布克斯; 伯勒斯洛·K·希曼斯基
Original assignee: CARDIOMAG IMAGING Inc CMI
Current assignee: CARDIOMAG IMAGING Inc CMI
Priority date: 2003-07-01
Filing date: 2004-07-01
Publication date: 2006-08-09
Anticipated expiration: 2024-07-01
Also published as: US8744557B2; WO2005002313A2; CN101926646A; US9173614B2; US20160066860A1; CN1816303B; WO2005002313A3; JP2007527266A; CA2542937A1; CN101926646B; HK1095503A1; US20070167846A1; US8391963B2; US20110047105A1; US20130178730A1; US20140343396A1; EP1638463A4; EP1638463A2; US7742806B2; JP5324743B2

Abstract

此处公开了在心磁图中使用机器学习进行图形识别，所述心磁图用于测量由心脏的电生理学活动发射的磁场。使用直接内核方法来把异常的MCG心脏图形与正常的图形分开。对于无监督学习来说，引入了基于直接内核的自组织映射。对于有监督的学习来说，使用了直接内核部分最小平方以及(直接)内核脊回归。然后把这些结果与标准的支持向量机以及内核部分最小平方相比较。在测试以前，对于训练数据的有效子集来调整用于这些方法的超参数。而且使用本地、垂直、水平以及二维(全局)马氏缩放、小波变换以及通过过滤进行变量选择来探查是最有效的预处理。对于所有三种方法来说类似的是，所述结果促进、超出了通过已训练专家实现的分类质量。由此，公开了一种用于分类心动描记数据的设备以及相关联的方法，包括把内核变换应用于从用来感测电磁心脏活动的传感器获取的感测数据，产生变换数据，之后使用机器学习分类已变换数据。

Description

用于心磁图分类的机器学习的使用

背景技术

虽然心磁图(MCG)早在二十世纪六十年代的时候就作为可能的诊断工具被引入，但是它花费了近三十年的时间才成功地表明其临床价值。现在，它代表全世界医院中由内科医师采用的心脏病学中浮现的新技术之一。MCG方法的临床应用明显受益于现代多通道传感器技术、成熟的软件以及硬件中的最新改善，所述硬件允许使用所述设备而无磁性屏蔽室。

MCG研究是快速的、安全的并且是完全非侵害的。因此，这些为患者提供了更大的便利。目前，许多组织从事建立参考数据和数据标准化库的工作。存在多种临床应用，为此，MCG已经提供了临床上有益的结果。例如，MCG可以诊断并且定位急性心肌梗塞、区分心肌梗塞患者有否恶性心室心律不齐的易感性，检测心室肥厚和心脏移植之后的排斥，定位心室预激发的位置和许多类型的心律不齐，以及揭示胎儿心律不齐和传导干扰[40]。另外，最近已经研究了MCG的许多其它的临床应用：心肌病的检测和风险层化(扩张、肥大、心律不齐、糖尿病性的)，自发心室纤维性颤动之后的风险层化，心肌耐久性的检测和定位以及胎儿生长和神经系统完整性的后续检查。某些研究已经明显地表明：MCG很灵敏，所以会在极化过程中、例如在心肌梗塞之后或者在遗传性长-QT综合症[42]中改变。可以在[41]中找到MCG应用以及目前使用的分析技术的最相关的概述。

然而，重点问题在于减少或者消除因MCG数据的人类翻译而引入的变化，并且明显改善基于机器的分类性能以及概括质量，同时维护与实时诊断兼容的计算机处理时间。

当把人工智能(机器学习)应用于测量数据时，始终执行的三个基本步骤是：1.数据测量，2.测量数据的预处理，3.自适应分类器的训练。将此基本方案并入EKG/ECG数据或者其它生物数据的专利包括美国专利5,092,343；5,280,792；5,465,308；5,680,866；5,819,007；6,128,608；6,248,063；6,443,889；6,572,560；6,714,925；以及6,728,691。

使用人工智能进行MCG场图分析十分局限于日期。把人工智能应用于分析生物磁性信号的一篇参考文献是第5,417,211号美国专利，其公开了一种用于对活体身体内部进行的电生理学活动生成的场图进行分类的方法，包括如下步骤：使用多通道测量设备来测量作为对象身体外部的电生理学活动结果而出现的场图，生成对应于已测量场图的特征向量，把所述特征向量提供给自适应分类器，并且利用训练场图来训练自适应分类器，其中所述训练场图是已经由电生理学活动的可定位代理模型生成的。所述方法还包括步骤：在自适应分类器的输出端生成每个场图的概率值，其表明可以由所选的可定位替代模型来生成每一场图的概率。类似于上面引用的EKG/ECG参考文献，此文献论述了对测量数据的机器学习的普遍适用性，但是没有提及如何改善分类性能以及概括质量的具体内容。

在所有情况中，用于确定成功的两个关键措施是分类性能以及概括质量。虽然对非最佳预处理的数据的训练会导致劣质的分类结果，但是所谓的过度训练可以防止自适应分类器归纳到实际世界数据的固有识别。

成功的关键在于数据的最佳预处理，这一点迄今为止还没有通过此处引用的任何参考文献来实现。对于识别所有特征来讲，最重要的是确定所探查的数据集所属的分类。对于识别那些特征而言，这一点既不明显也非不重要。此外，这些特征可以根据生物系统的不同以及测量数据的类型的不同而有所不同。因此，大部分基于人工智能的过程由于执行预处理的方式不同而存在差异。

正如此处将要详细公开的那样，使用内核变换以及小波变换对数据进行预处理用于机器学习，从而为成功进行机器学习方法提供了基础，就准确分类、概括质量以及处理速度而言，所述方法明显改进了现有技术。这些内容在此处引用的任何现有技术中均没有公开或者建议。

发明内容

此处公开了在心磁图中使用机器学习进行图形识别，所述心磁图用于测量由心脏的电生理学活动发射的磁场。使用直接内核方法来把异常的MCG心脏图形与正常的图形加以区分。对于无监督学习来说，引入了基于直接内核的自组织映射。对于有监督的学习来说，使用了直接内核部分最小平方以及(直接)内核脊回归。然后把这些结果与标准的支持向量机以及内核部分最小平方相比较。在测试以前，基于训练数据的有效子集来调整用于这些方法的超参数(hyper-parameters)。还研究的是使用本地、垂直、水平以及二维(全局)马氏(Mahanalobis)缩放、小波变换以及通过过滤进行变量选择来探查的预处理。对于所有三种方法来说类似的是，所述结果促进、超出了通过已训练专家实现的分类质量。

此处公开了一种用于分类心动描记数据的设备以及相关联的方法，包括把内核变换应用于从用来感测电磁心脏活动的传感器获取的感测数据，产生变换数据，之后使用机器学习分类已变换数据。

附图说明

在所述的权利要求书中阐明了被认为具有新颖性的本发明的特征。然而参照如下结合附图进行的描述可以理解本发明连同其进一步的目的和优势，所述附图概述如下。

图1举例说明了在包括6×6栅格的36个通道中经由一个心动周期收集的已过滤和平均的瞬态MCG轨迹。

图2是举例说明正确图形和错误图形数目(基于36个测试数据的负和正情况)以及心磁图数据的执行时间的图表。支持向量机库(Support vector machine library，SVMLib)和内核部分最小平方(kernel partial least square，K-PLS)使用时间域，而其余的方法使用D-4小波域。

图3是举例说明了用于为心磁图数据创建预测模型的不同方法的质量测量的图表。

图4是基于小波变换数据的K-PLS的35种测试情况的错误曲线图。

图5是示出了错误阳性和错误阴性之间可能的权衡的接收操作器特性(ROC)曲线。

图6是基于(左侧)直接内核主分量分析(Direct KernelPrincipal Component Analysis，DK-PCA)和(右侧)直接内核PLS(Direct Kernel PLS，DK-PLS)的73个训练数据的投影。患病的情况作为填充的圆圈示出。没有示出测试数据。

图7举例说明了在围包模式中、基于9×18直接内核自组织映射(DK-SOM)显示在自组织映射上的测试数据。

图8举例说明了对测试数据集使用不同技术进行局部缺血预测的结构。

图9是直接内核方法作为数据预处理步骤的操作示意图。

图10是举例说明用于直接内核方法的利用内核定中来进行数据预处理的流程图。

图11是自组织映射(SOM)的典型结构。

图12是此处公开的用于心动描记数据的自动分类的技术列表。

具体实施方式

此公开内容描述了在心磁图(MCG)中使用直接内核方法和支持向量机进行图形识别，所述心磁图用于测量因人类心脏的电生理学活动发射的磁场。用于MCG的基于SQUID的测量设备目前基于单独开发，其中所述设备可用于普通的医院房间(不特别地屏蔽电磁干扰)。所述系统的操作是计算机控制的，并且很大程度上是自动的。使用适当软件来进行精确的24位控制，并且用于通过过滤、求平均、电/磁活动定位、心脏电流重构和诊断分数推导之后获取数据。

MCG记录的翻译还遗留有问题。因此，此公开内容考虑了用于自动翻译MCG测量结果以便最小化用于分析的人类输入的方法。测试集中于检测局部缺血，在许多可能导致心脏病发作的普通心脏疾病中出现的条件，这在美国是死亡的主要原因，但是这仅是示例性的，而不是限制性的。

在科学上，此公开内容考虑了两类独立的问题(患病的心脏与健康的心脏)，其中描述符(数据点)的数目超出数据集的数目。因此，此公开内容现在集中于用于解决此问题的两个任务上。

第一个待答复的问题是所述问题是线性还是非线性的，这是因为这样做可确定可解决所述问题的可能候选功能的分类(通称为“假设”或者“机器学习技术”)。我们的目标在于保持独立的过程自身的线性，并且在预处理中如果有，则编码非线性的。后者可以通过在执行实际机器学习之前把(非线性)内核变换应用于所述数据来实现(我们把对内核变换数据进行操作的技术称为“非线性”技术)。因此，如果所述数据包含非线性，那么与非线性的技术相比，纯粹的线性方法将显示出低劣的性能。

第二个目的在于得到(或者开发)用于实际上解决独立问题的机器学习技术。此处的焦点不是在于得到最佳的解决方案，而是得到用于对所述数据同样执行良好的一类技术。这有助于构建在选择模型以及它们的归纳能力方面的信心(把正确地分类训练集中没有的数据的一假设的能力称为其“归纳”)。易于开发对所述训练数据最佳地执行，但是无法预测看不见的数据(所述现象经常称为过度训练)的模型。然而，只基于少数数据利用优良的预测来构造(并且调整)模型是非常困难的。

我们将从论述数据获取和预处理开始。特别的是，我们讨论对于不同的学习方法，哪种预处理适合。此后，我们呈现核心结果：不同机器学习技术对于我们的问题的性能比较，以及评估预测质量并且调整参数选择的方法。此后，我们讨论特征选择。

数据获取和预处理

通过在彼此相邻的位置中进行四次顺序测量来在躯干上面的36个位置处获取MCG数据。在每个位置中，九个传感器使用1000赫兹的采样速率在90秒内测量心脏磁场，其中所述1000赫兹的采样速率可产生36个单独时序。对于缺血诊断来说，需要0.5赫兹至20赫兹的带宽，应用了使用六次贝塞耳(Bessel)滤波器特性的处于100赫兹的硬件低通滤波器，继之以应用使用同一特性、只是更高次的处于20赫兹的附加数字低通滤波器。为了消除剩余随机噪声分量，使用心动周期的R峰最大值作为触发点来平均完整的时序。对于自动分类来说，我们通常使用来自心动周期J点和T峰[5]之间的时窗的数据，其中从测量数据内插了32个均匀间隔的点的值。所述训练数据包括73种情况，这些情况易于由已训练专家从视觉上进行分类。对一组36种情况进行测试，所述情况包括患者的心磁图误导或者执行可视分类的已训练专家收到干扰。

在该情况下，通过首先从每个信号中减掉偏离值来预处理数据。然后，我们探查对于我们的多变量时序信号而言最有效的预处理，包括本地、垂直、水平和二维(全局)马氏缩放以及小波变换。一个重要的考虑是保护数据局部性(locality)，这是通过对每个信号应用多布(Daubechies)-4小波变换[3]来实现的。由于在每个内插的时间信号中的相对小的数据集(32)，所以选择它。只有用于观察输入端中的数据局部性的SOM和K-PLS方法不要求这种变换。接下来，我们对数据进行马氏缩放，首先对所有36个信号进行，然后垂直地(对除基于SOM方法之外所有信号)进行。图1中示出了被内插至ST段[5]中32个等间隔点并且在对单个信号的每一个进行马氏缩放之后的36个信号的典型数据集。

MCG数据分类的预测建模

机器学习的目的在于授权一些对计算机做出智能决策的某些基础。在其当前形式中，机器学习的显著部分是基于稳固的分类、回归工具和特征选择方法的开发。

在心脏诊断环境中，机器学习的最终目的是将能够识别有意义的特征，所述特征可以解释所述模型并且允许公式化已经透明的专家规则。

机器学习的关键因素是防止过度训练。Tikhonov调整的概念在这样做的机器学习中是一种十分有效的概念。机器学习中的第二方面是需要构造可靠的非线性方法。支持向量机(SVM)以及其它基于内核的方法，诸如内核主分量分析、内核脊回归以及部分最小平方都是在机器学习方法中并合非线性及调整的有效方法。

机器学习中的当前问题是特征远多于数据的较大问题、在数据中存在许多不确定因素以及噪音的问题以及具有混合模式的无序多类分类问题。

对适当预处理的需要是高度随域而定的，只是探查不同的预处理方法，并且在此预处理阶段中并入域的专业知识是使机器学习方法工作的关键因素。

我们的目的在于不仅识别“最佳”的机器学习方法，而且识别用于对数据同样执行得很好的一类技术。因此，我们考虑SVM作为机器学习集体中的主要工具。我们还使用其它基于内核的方法，其可以比SVM更易于在硬件中调整或者易于实现，但是期望可以与SVM同等地执行。

成功进行机器学习的一个关键在于数据的预处理。许多不同的预处理情况是值得考虑的。我们在如下四个类型的预处理当中加以区别：

1.归一化：需要这样做以便使得数据可比较。这通常指的是数据被按比例缩放并且不偏离。然而，这里人们有许多选择。

2.信息定位：通过定位，我们指的是应用变换，所述变换用于重排数据如此使得系数被首先呈现，其中所述系数包含大多数信息。一个突出的例子是用于甚至保留信息的局部性的小波变换。

3.特征选择：这通常对已经变换的数据进行操作。这指的是不包含或者包含很少信息的系数被剪切，以便减少输入域的维数。这对于加速学习是尤其有益的。

4.内核变换：所述内核变换是做出使回归模型非线性的一种简明的方式。内核是包含数据集的相似性测量的矩阵：或者在数据集的自身数据之间，或者与其它的数据一起(例如，支持向量[2])。很明显，这样做提供了用于改善心动图分类的方法的各种组合。

首先转向归一化，这在机器学习中是普遍的过程，以便居中所有的描述符并且使它们具有均一方差。然后对响应应用相同的过程。定中以及方差归一化的此过程称为马氏缩放。虽然马氏缩放不是预处理所述数据的唯一方式，但是这大概是进行全面应用预处理最普遍的并且是最稳固的方式。如果我们把特征向量表示为那么马氏缩放将产生重新缩放的特征向量

并且可以被概括为：

{\overset{&RightArrow;}{z}}^{'} = \frac{\overset{&RightArrow;}{z} - \overset{&RightArrow;}{z}}{sld (\overset{&RightArrow;}{z})} - - - - (1)

其中表示平均值，而std 表示属性

的标准偏差。当36个时序分别单独地被缩放(沿时间轴)时，我们将参照“水平马氏缩放”，当处于一个时间的所有36个点都被缩放时，参照“垂直马氏缩放”，并且当处于所有32个时间的36个点都被缩放时，参照“全局马氏缩放”。

接下来我们转向定位。一方面，应用小波变换[10]有助于定位信息的“热点”，而另一方面，定位不有助于所述信号的“冷区”。使小波变换比傅里叶变换更加适当的属性在于单个小波函数被空间定位。傅里叶正弦和余弦函数不是。小波变换不具有基函数的单个集合，只具有可能的基函数的无穷集。

“母函数”或者“分析小波”φ(x)的扩张和翻译定义了正交基，亦称小波基：

Φ (s, l) = 2^{\frac{- s}{2}} Φ (2^{- s} x - l) - - - - (2)

变量s和1是整数，用于缩放和扩张母函数Φ(x)以便生成小波，诸如多布小波系列。缩放索引(index)s表明小波的宽度，而位置索引1给出其位置。应注意的是，所述母函数通过2的幂来重新缩放或者“扩张”，并且通过整数被平移(translate)。使小波基特别有兴趣的是由缩放和扩张引起的自相似性。一旦我们了解所述母函数，那么我们就可获知与所述基有关的每件事。

为了以不同的分辩率跨过(span)我们的数据域，把所述分析小波用于缩放公式：

W (x) = Σ_{k = - 1}^{N - 2} {(- 1)}^{k} c_{k + 1} Φ (2 x + k) - - - - (3)

其中W(x)是母函数Φ(x)的缩放函数，而c_k是小波系数。所述小波系数必须满足线性并且满足以下形式的二次约束：

Σ_{k = 0}^{N - 1} c_{k} = 2, Σ_{k = 0}^{N - 1} c_{k} c_{k + 21} = 2 δ_{1,0} - - - - (4)

其中δ是Δ函数而1是位置索引。

小波的最有用特征之一是科学家可以容易地用它来选择将适用于给定问题的给定小波系统的定义系数。在多布的论文[3]中，她开发了特定的小波系统族，所述族可很好地用于表示多项式行为。对于MCG时序来说，所谓的“多布4”小波示出了最佳性能。

我们现在转向内核变换。内核变换及其调整是改善心动图分类能力的重要成分。因此，我们将比较详细地解释此概念，并且强调当应用内核变换时通常忽略的某些主要问题。

内核变换是使回归模型非线性的一种简明方式。内核变换至少可以追溯到二十世纪初期，当时哈尔勃特(Hilbert)把内核引入数学文献中。内核是包含数据集的相似性测量的矩阵：或者在数据集自身的数据之间，或者与其它的数据一起。内核的典型用途是作为主分量分析中的相关矩阵，其中特征内核包含属性或者特征之间的线性相似性测量。在支持向量机中，所述内核条目是数据之间而不是特征之间的相似性测量，并且这些相似性测量通常是非线性的。存在许多可能的非线性相似性测量，但是为了便于进行数值处理，所述内核必须满足某些条件，所谓的美世(Mercer)条件[2、11、15]。

{\overset{&RightArrow;}{K}}_{nn} = [\begin{matrix} k_{11} & k_{12} & . . . & k_{1 n} \\ k_{21} & k_{22} & . . . & k_{2 n} \\ . . . \\ k_{n 1} & k_{n 2} & . . . & k_{nn} \end{matrix}] - - - - (5)

上面的表达式引入了对于n个数据而言的数据内核矩阵的通用结构所述内核矩阵是一对称矩阵，其中每个条目均包含两个数据向量之间的(线性或者非线性)相似性。存在许多不同的可能性来定义相似性尺度，诸如作为线性相似性测量的点积，以及作为非线性相似性测量的径向基函数(Radial Basis Function)内核或者RBF内核。所述RBF内核是最广泛使用的非线性内核，并且其条目是通过如下公式定义的，所述公式为：

k_{ij} &equiv; e^{\frac{| | {\overset{&OverBar;}{x}}_{j} - {\overset{&OverBar;}{x}}_{i} | |}{{2 σ}^{2}} - - - - (6)}

应注意的是，在上面的内核定义中，所述内核条目包含依照负指数的数据点之间的欧氏(Euclidean)距离，这是相异性(而不是相似性)测量。所述负指数还包含自由参数σ，其是RBF内核的帕尔逊(Parzen)窗口宽度。用于选择帕尔逊窗口的适当选择通常通过对外部有效集合进行附加调整、也称为超调整(hyper-tunning)来确定。对于σ的精确选择不是关键，对于模型质量的稳定性而言，对σ的选择通常存在相对较宽的范围。

这里把内核变换作为数据变换应用于独立的预处理阶段。我们实际上利用非线性数据内核来替代所述数据，并且应用传统的线性预测模型。对数据的非线性内核变换使用传统的线性算法的方法被引入，并且这里被定义为“直接内核方法”。这种直接内核方法的简洁和优势在于：在所述内核中获取了问题的非线性方面，并且对于所应用的算法而言是透明的。

人们还可以在神经网络类型的流程图中表示所述内核变换，并且第一隐蔽层现在会产生内核变换数据，并且第一层的权重往往仅仅是训练数据的描述符。第二层包含可以利用数值方法计算的权重，所述方法诸如是内核脊回归(参见图9)。当使用径向基函数的内核时，此类神经网络看上去往往与径向基函数神经网络[17、18]非常相似，除了第二层的权重被不同地计算。

通过定中所述内核来处理偏离值(bias)同样重要。参见通用的预测方程：

{\overset{\hat{&RightArrow;}}{y}}_{n} = X_{nm} {\overset{&RightArrow;}{w}}_{m} - - - - (7)

其中把权向量

应用于数据矩阵X_nm，以便达到(预测的)输出没有恒定的偏移项。对于被定中的数据而言，原来该偏移项(“偏离值”)始终是零，并且无须被明确地包括。不是应用公式7，可以把包括该偏离值的更加通用的预测模型写为如下形式：

{\overset{\hat{&OverBar;}}{y}}_{n} = X_{nm} {\overset{&RightArrow;}{w}}_{m} + b - - - - (8)

其中b是偏离项。因为我们使其首先通过马氏缩放来定中数据，所以此偏离项是零，并且可以忽略。

当处理内核时，由于需要某些类型的偏离值，所以情况更加复杂。这里我们将只给出一个技巧，在实际情况中很适用，并且参见文献，所述文献更加详细的说明了原因[11、12、16、19]。即使当应用内核变换之前把数据进行马氏缩放时，所述内核仍需要某些类型的居中以便能够忽略预测模型中的偏离项。用于居中内核的简单明了的方式是从训练数据内核的每一列减去平均值，并且当居中测试内核时，存储此平均值用于以后调用。用于居中所述内核的第二个步骤是再次审查最新获得的垂直居中的内核，此次是逐行进行的，并且从每一水平行减去行平均值。

测试数据的内核需要依照一致的方式来被定中，随后是类似的过程。在该情况下，来自训练数据内核的已存储列平均值将被用于测试数据内核的垂直居中。然后水平居中这种垂直居中的测试内核，即，为每一行计算垂直居中的测试内核的平均值，并且垂直居中的测验内核的每一水平条目由该条目减去行平均值的值来替代。

如上所述，用于居中内核的此算法的优势在于：其同样适用于矩形的数据内核。图10中示出了用于预处理所述数据、对此数据应用内核变换、然后定中所述训练数据、有效数据以及测试数据的内核的流程图。

无监督的以及有监督的学习方法两者都被探查。对于无监督学习来说，由于经常把SOM应用于新颖检测并且自动簇集，所以使用了直接内核(DK)-SOM。所使用的DK-SOM具有打开边缘的9×18六边形网络。对于有监督的学习来说，使用了四个基于内核的回归算法：在从复数数据空间中提取相关参数中有效的经典的支持向量机；由罗斯帕(Rosipal)[10]提议的内核部分最小平方K-PLS；直接内核部分最小平方(DK-PLS)；以及最小平方支持向量机(即，LS SVM，亦称内核脊回归)。

支持向量机或者SVM由于它们的效率、模型灵活性、预测功效以及理论的透明度已经被经证明是令人棘手的机器学习工具[2、11、15]。虽然SVM的非线性属性可以仅仅归因于内核变换，但是诸如自组织映射或者SOM[9]之类的其它方法因为它们并合各种基于邻域的操纵而原本就是非线性的。不同于SVM，SOM的主要用途是经常作为可视化工具[4]来揭示二维映射的高维数数据的底层类似/簇结构，而不是用于回归或者分类预测。

内部使用、开发所述Analyze/StripMiner软件包用于分析[14]，但是对于所述SVM模型来说，还使用了SVMLib[1]。使用所述训练集，DK-SOM、SVM、DK-PLS以及LS-SVM中的参数值在测试之前被优化。结果与通过已训练专家实现的分类质量相似，并且对于所有已测试方法均类似，即便这些方法使用了不同的数据预处理。因为这表明在任何测试方法中没有过度训练，所以这是非常重要的。DK-PLS、SVMLib以及LS-SVM之间的协议尤其好，并且对于这些数据而言，这些方法之间没有明显差异。图2和3中示出了所述结果。图2列出了对于阳性和阴性情况而言，正确分类的图形数目和错误的数目。图3提供了预测质量的附加测量。图8中示出了进一步的结果。在图8中，RMSE表示均方根误差(越小越好)，而CC[％]指的是正确分类情况的百分比。对于DK-PLS方法获得了最佳的结果，其还显示出了最佳的稳定性。这早已胜过三个组合的标准测试(ECG、ECHO以及Troponinl)的预测准确性，对于这些患者来讲，它是58％。

调整之后，SVM的帕尔逊窗口宽度σ被选择为10。在SVMLib中，调整参数C被设置为1/λ，如[10]中所建议的那样。基于依照其它应用[14]和缩放实验的经历，对于n个数据内核，根据如下公式来确定脊参数λ：

λ = \min {1; {(\frac{n}{1500})}^{\frac{3}{2}}} - - - - (9)

更普遍的是，凭经验，我们已经发现λ与数据n的数目到3/2次幂成比例。

直接内核方法(DK-PLS以及LS-SVM)、K-PLS和传统的基于内核的SVM(SVMLib)之间的协议表明对由此公式产生的脊参数接近最佳的选择。

现在转向用于评定模型质量、用于回归问题的尺度，获取错误的另一个方式是通过均方根误差索引或者RMSE，依照如下公式把它定义为均方差的平均值(对于训练集或者测试集)，所述公式为：

RMSE = \sqrt{\frac{1}{n} \underset{i}{Σ} {({\overset{&OverBar;}{y}}_{i} - y_{i})}^{2}} - - - - (10)

虽然均方根误差是用于比较不同预测方法对同一数据的性能的有效方法，但是从RMSE将取决于数据的响应被缩放的程度的意义上讲，它不是绝对的尺度。为了克服此障碍，还使用了附加的误差测量，其较少取决于响应值的缩放和幅值。用于评定已训练模型质量的第一尺度是r²，将其依照如下公式定义为响应的目标值和预测值之间的平方的相关系数，所述公式为：

r^{2} = \frac{Σ_{i = 1}^{n_{t \min}} ({\overset{&OverBar;}{y}}_{i} - \overset{&OverBar;}{y}) (y_{i} - \overset{&OverBar;}{y})}{\sqrt{Σ_{i = 1}^{n_{t \min}} {({\overset{&OverBar;}{y}}_{i} - \overset{&OverBar;}{y})}^{2}} \sqrt{Σ_{i = 1}^{n_{t \min}} {(y_{i} - \overset{&OverBar;}{y})}^{2}}} - - - - (11)

其中n_train表示训练集中数据点的数目。r²采用零和单数之间的值，并且r²的值越高，模型越佳。使用r²来评定模型质量的明显缺陷在于：它只表示线性相关，表明如果把作为y的函数来描绘，那么跟随一行的预测有多好。虽然当r²是单数时，人们往往期待接近完美的模型，但是情况不总是这样。第二种及用于评定已训练模型质量的更为有效的措施是所谓的“按压r平方”，或者R²，经常用于chemometric建模[6]，其中R²被定义为[7]：

R^{2} = 1 - \frac{Σ_{i = 1}^{n_{t \min}} {(y_{i} - {\hat{y}}_{i})}^{2}}{Σ_{i = 1}^{n_{t \min}} {(y_{i} - \overset{&OverBar;}{y})}^{2}} - - - - (12)

R²被认为是比r²更好的测量，因为它同样考虑到残差。正如r²一样，R²的范围在零和单数之间，并且R²的值越高，模型越佳。R²的尺度通常小于r²。对于较大数据集来说，R²势必收敛至r²，并且r²和R²之间对于这种数据的比较经常揭示隐藏的偏离值。

为了评定有效集和测试集的质量，我们引入了类似的尺度，q²和Q²，其中对于测试居中的数据而言，把q²和Q²分别定义为1-r²和1-R²。对于对测试数据理想预测的模型来说，我们往往期待q²和Q²将为零。引入在训练集和测试集之间对称的尺度的理由实际上是为了避免混乱。把Q²和q²的值应用于有效(validation)集或测试集，并且人们往往期待这些值非常低，以便具有良好的预测模型。把R²和r²的值应用于训练数据，并且易于通知：如果预测值接近实际值，那么它们两个都接近单数。因此，它们中的任何明显不同于1表明模型具有劣质的预测能力。

诸如局部最小二乘方的线性方法同所述内核方法比较起来产生了低劣的预测模型。对于K-PLS和DK-PLS来说，选择了5个隐伏变量，但是结果并非关键地取决于隐伏变量数目的正确选择。还尝试了直接内核主分量分析(DK-PCA)，这是K-PCA的直接内核方案[11-12，16]，但是结果对主分量数目的选择更加敏感，而不是与使用其它的直接内核方法获得的结果一样。

图4中示出了基于小波变换数据和DK-PLS的心磁图数据的典型预测结果。可以从该图看出的是，在预测值中，总共六个数据点被错误分类(一个健康的或者阴性情况，和五个缺血情况)。基于通过专用方法获得的随时间变化的磁场的二维可视显示，这些情况对于已训练专家来讲还难以正确识别。

对于医疗数据来说，能够在错误阴性和错误阳性情况之间或者在灵敏度和特殊性之间(它们是与错误阳性和错误阴性相关的不同尺度)做出权衡通常是非常重要的。在机器学习方法中，这种权衡可以容易地通过改变用于翻译所述分类的阈值来实现。例如，在图4中，人们可以朝向更加理想的水平来转变判别阈值，而不是使用零作为判别值，由此影响了错误阳性/错误阴性的比例。

对于上述情况，判别值方面的这种改变的所有可能结果的概要可以依照ROC曲线显示出来，如图5所示。ROC曲线(或者接收器操作者特性)的概念源自二十世纪四十年代用于识别飞行器的雷达设备的早期开发，并且在[13]中予以概述。

图6显示了基于(左侧)直接内核主分量分析(DK-PCA)和(右侧)直接内核PLS(DK-PLS)的73个训练数据的投影。患病的情况被示为填充的圆圈。图6的右侧示出基于与图6左侧示出的DK-PCA的结果相比较的DK-PLS的最初两个分量的不同分类之间的清楚的分离和较宽的边缘。最初依照明暗交叉显示在这些图(pharmaplot)上的测试数据示出了两种方法的健康和患病情况之间的优异差别。

图7中示出了基于直接内核SOM的在围包模式中六边形网络上的典型9×18自组织映射。所述围包模式指的是左右边界(以及顶部和底部边界)彼此汇合，并且所述映射是环状投影的展示。黑色六角形表明患病的情况，而明亮的六角形表明健康的情况。完全彩色的六边形表明训练数据的位置，而白色和黑色阴影编号是健康和患病测试情况的图形识别符。大部分错分类实际上出现在映射中的边界区上。映射中的单元通过半监督的学习而成为彩色的，即，包含36×32或者1152个特征的每一数据向量通过表明彩色的附加场来扩充。就权重向量而言，数据向量中的彩色条目依照类似方式被更新，但是不使用它们来计算用于确定成功单元的距离尺度。用于普通SOM实现方式的得到的映射与直接内核DK-SOM获得的那些非常映射相似。用于在128兆奔腾III计算机上生成DK-SOM的执行时间是28秒，而不是生成普通SOM所需的960秒，这是因为在对数据进行内核变换之后，数据大小有效地从原始的1152降至73(训练数据的数目)。采用学习向量量化[9]，在监控模式下执行对SOM和DK-SOM的精细调整。虽然基于SOM和DK-SOM的结果仍是优异的，但是它们没有利用基于其它内核方法(SVMLib、LS-SVM和K-PLS)获得的那些结果好。

特征选择

在先前部分中呈现的结果是使用所有1152(36×32)个描述符获得的。如果人们可以依照时间或者小波信号并且对于为每位患者在不同位置测量的36个心磁图信号的那些信号而言，精确识别用于进行优良二进制分类所需的最重要信息的位置，那么这往往可以给所属领域的专家提供最有价值的信息。这种信息可以通过特征选择来推导。

特征选择、即对于数据向量的最重要的输入参数的识别可以依照两种不同的方式来进行：过滤模式和围包模式。通常，这两个方法互相独立地被采用；然而，在此公开内容及其关联的权利要求书的范围内，它们也可以结合使用。

在过滤模式中，基于规定的并且通常是无监督的过程来删去特征。这种过程的例子可以是消除包含四个σ离群值的描述符列，就像对于化学计量学的PLS应用中经常发生的情况那样。还极为普遍的是，在过滤模式中略去“远亲(cousin)”描述符，即显示出与其它描述符95％以上相关性的特征。根据建模方法，略去远亲描述符并且只保留以下的描述符往往是惯例，所述描述符(i)示出了与响应变量最高的相关性，或者(ii)对领域专家具有最清楚的域透明度以便解释所述模型。

特征选择的第二模式基于所述围包模式。人们希望只保留拥有优良预测模型必需的最相关的特征。建模质量经常在适当选择最佳特征子集之后得以改善。确定特征的正确子集可以基于不同的概念来进行，并且由此生成的特征子集经常取决于建模方法。在绕回模式中的特征选择通常通过使用训练集和有效集来进行，并且使用有效集来确认：所述模型没有通过选择描述符的虚假集合而过度训练。对于特征选择的两个通常可应用的方法基于遗传算法和灵敏度分析的使用。

利用遗传算法方式的思想将能够自训练集获得最佳的特征子集，而且对于有效集也示出了良好的性能。

灵敏度分析的概念[8]采用了特征的凸显性，即，一旦已经构造了预测模型，所述模型就用于每一描述符的平均值，并且所述描述符在最小值和最大值之间一次一个地被调节。描述符的灵敏度是预测响应方面中的变化。前提在于当描述符的灵敏度很低时，它大概不是做出良好模型的主要描述符。在一个迭代步骤期间可以略去几个最小灵敏的特征，并且把灵敏度分析过程重复多次，直到剩余接近最佳的特征集。遗传算法方案和灵敏度分析方案都是正确的软计算方法，并且要求不多的启发和经验。两个方案的优势在于遗传算法和灵敏度方法是通用的方法，这些方法不依赖于特定的建模方法。

有关机器学习的进一步评述

我们首先致力于为什么我们不简单地使用支持向量机(SVM)作为解决线性和非线性问题的现有解决方案的问题，而不是在此回顾所有可利用的机器学习技术。科学上，如上所述，我们的目标是找到一类对于给定问题同样很好地执行以便确保稳定解决方案的技术。在此类技术中，最佳模型是最易于调整并且执行迅速的一个。把这些模型相对于作为标准的SVM进行比较可以有助于验证任何最新开发的技术的性能。

就有监督的学习而言，我们在此就有监督的学习中的所谓机器学习悖论给予一简短描述，这是开发大量的模型以便找到二难推论的出路的原因。

通常把数据矩阵表示为X_Nm，把响应向量表示为假定在数据集中存在N个数据点以及m个描述特征。我们想要通过归纳从X_Nm推断出

表示为

X_{Nm} &DoubleRightArrow; {\overset{&RightArrow;}{y}}_{N},

依照这种方式，我们推断由n个训练数据点导出的模型，而且对采样以外的数据(即，N-n个有效数据以及测试数据点)执行很好的工作。换言之，我们旨在构造所述类型的线性预测模型：

{\hat{\overset{&OverBar;}{y}}}_{n} = X_{nm} {\overset{&RightArrow;}{w}}_{m} - - - - (13)

此公式假定已知的权重向量

所述向量必须在先前步骤中确定，在最佳的情况下，实际学习满足公式：

X_{nm} {\overset{&RightArrow;}{w}}_{m} = \overset{&RightArrow;}{y_{n}} - - - - (14)

这里，X_nm是训练数据，并且表示已知的回答(“标签”)。

应注意的是，所述数据矩阵通常是不对称的。如果是这样的情况，那么通过使用数据矩阵的逆矩阵来找到答案将是简单明了的。因此，我们将应用伪逆的变换，这通常将不会产生对y的精确预测，但是将从最小平方的意义上依照最佳的方式来预测y。以下举例说明了对权重向量的伪逆的解：

(X_{mn}^{T} X_{mn}) {\overset{&RightArrow;}{w}}_{mn} = X_{mn}^{T} {\overset{&RightArrow;}{y}}_{n}

{(X_{mn}^{T} X_{mn})}^{- 1} (X_{mn}^{T} X_{mn}) {\overset{&RightArrow;}{w}}_{m} = {(X_{mn}^{T})}^{- 1} X_{mn}^{T} {\overset{&RightArrow;}{y}}_{n} - - - - (15)

{\overset{&RightArrow;}{w}}_{m} = {(X_{mn}^{T} X_{mn})}^{- 1} X_{mn}^{T} {\overset{&RightArrow;}{y}}_{n}

{\overset{&RightArrow;}{w}}_{m} = {(K_{F})}_{mm}^{- 1} X_{mn}^{T} {\overset{&RightArrow;}{y}}_{n}

K_F＝X^T _mnX_nm是所谓的“特征内核矩阵”，并且机器学习悖论的理由：学习只是因为特征中的冗余而进行——但是，K_F是病态的(等级不足)。正如先前表明的那样，存在多种方式来解决所述悖论：

1.通过利用主分量(计算特征内核的本征向量)来固定KF的等级不够[18]

2.通过调整：使用K_F+λI而非K_F(脊回归)[17，20 23]

3.通过本地学习

我们使用了四个基于内核的回归算法：在从复数数据空间中提取相关参数中有效的标准支持向量机[2、1215]；由罗斯帕(Rosipal)提议的内核部分最小平方K-PLS[10]；直接内核部分最小平方(DK-PLS)，以及最小平方支持向量机(即，LS-SVM，亦称内核脊回归[24-28])。另外，我们测试了直接内核主分量分析(DK-PCA)。

部分最小平方(PLS)是QSAR和化学度量中标准分析方法的其中之一[29]。内核PLS(K-PLS)是最近开发的PLS非线性方案，由罗斯帕和特乔(Trejo)介绍[10]。K-PLS与SVM功能等效，但是不同于SVM，结果变得更加稳定。K-PLS目前用于预测与人血清蛋白的绑定亲合性。

在基于此公开内容的工作中，我们改善了K-PLS到DK-PLS，并且利用了在Analyze/Stripminer程序中开发K-PLS、DK-PLS、DK-PCA和LS-SVM的代码的早期经验[14]。K-PLS和DK-PLS之间的差异在于特征(数据)内核矩阵在K方法中被使用，而在DK方法中，此矩阵由(非线性的)内核变换矩阵来替代。对于计算矩阵求逆来说，我们应用了穆勒(Mφller)的比例共轭梯度算法[30]，这是在Analyze/Stripminer程序中实现的。

转向无监督学习，我们注意到所述SOM[9、17、31-36]是由科荷南(Kohonen)开发的无监督学习神经网络。所述SOM是基于竞争学习的迭代方法。它提供从高维数输入数据空间到较低维输出映射的映射，通常是一维或者二维映射，参见图11。分量(或者数据点)被载入输入层，并且使用竞争学习算法来训练所述SOM[4]。所述权重依照如下公式被更新：

{\overset{&RightArrow;}{w}}_{m}^{new} = (1 - α) {\overset{&RightArrow;}{w}}_{m}^{old} + α {\overset{&RightArrow;}{x}}_{m},

其中α是学习率参数。作为学习的结果，所述输入数据将被映射到“获胜”神经元。作为此过程的结果，所述SOM经常用于维数减少和簇集。此外，SOM的区别特征在于：它依照这样的一种方式来保留输入数据从高维数输入空间到输出映射上的拓扑结构，所述方式为：输入数据之间的相对距离被更多或更少的保留[38]。在输入空间中彼此靠近定位的输入数据点被映射至输出映射上的附近的神经元。基于SOM的观察法是数据探测的通用工具。它们用于数据的簇集、相关检测和投影[4、39]。

传统的SOM是一种基于高维数输入数据到低维数输出映射上的投影的方法。这里公开的是一种新的的基于内核的SOM。所述内核SOM现在基于数据的内核表示被训练，而不是基于原始数据训练。这里使用内核变换数据不足以“揭示”数据中的非线性，这是因为SOM原本是非线性的，但是因为所述内核具有更少的有效特征而增加(学习)速度。

概括地说，我们已经使用并且开发了一组图12中呈现的机器学习工具。

结束语

MCG数据的二进制分类表示急待解决的问题，但是如果MCG在临床实践中成功的话，其方案是非常重要的。把现有的诸如SOM和SVM的机器学习技术应用于MCG日期将产生74％的预测准确性。非常显著的改善是通过首先把数据变换为小波域，并且另外对小波系数应用内核变换并且甚至通过单独应用内核变换而不是小波变换来实现。这样做使预测的准确性增加至83％。

如罗斯帕[10]提议的那样，内核PLS(K-PLS)、直接内核PLS(DK-PLS)、支持向量机(SVMLib)和最小平方SVM(LS-SVM)之间的结果的协议通常是优异的。在该情况下，DK-PLS给出优越性能，但是基于内核方法之间的差异不是很显著。这种卓越的协议显示出了直接内核方法的稳固性。只有当通过公式(1)选择脊参数接近最佳时，才可以实现它。在支持向量机中，这种选择还定义了调整参数C，并且C被取为1/λ。

获得的结果对于医疗团体来说是十分有意义的。对于检测由冠状动脉血管学定义的缺血而言，DK-PLS被使用达到92％的灵敏度和75％的特异性(specificity)。应注意的是，MCG是一种纯功能性的工具，对于心脏生理电学中的异常十分灵敏，因此，可只诊断疾病的影响。然而，金标(冠状动脉血管学)是一种纯解剖工具，并且诊断缺血性心脏病的原因。由于MCG检测金标无法看见的异常，所以它将始终生成“假阳性”，这解释了这种应用中相对低的特异性。

应注意的是，这里把内核变换作为数据变换应用于以单独的预处理阶段。数据实际上由非线性数据内核替代，并且然后应用传统的线性预测模型。对定义的数据的非线性内核变换使用传统线性算法的方法被引入，并且这里被称为“直接内核方法”。这种直接内核方法的简洁和优势在于：在所述内核中获取了问题的非线性方面，并且对于所应用的算法而言是透明的。

虽然此处论述的内核性质上是高斯型曲线，但是这只是示例性的，而不是限制性的。例如，还可以使用所谓的样条内核，但是是非限制性的，并且将其视作包括在这公开内容内。

虽然已经举例说明并且描述了本发明的某些优选的特征，但是本领域技术人员将会想出多种修改、改变和替换。因此，将理解的是，所附的权利要求书意在覆盖落入本发明真正精神内的所有这种修改和变化。

参考文献

[1]C.-C.Chang and C.-J.Lin，LibSVM，OSU，see http://www.csie.ntu.edu.tw/～cjlin/libsvmSVMLib.

[2]N.Cristianini and J.Shawe-Taylor[2000]Support Vector Machines and Other Kernel-Based LearningMethods，Cambridge University Press.

[3]I.Daubechies[1992]，Ten Lectures on Wavelets，Siam，Philadelphia，PA.

[4]G.Deboeck and T.Kohonen(Eds.)[1998]Visual Explorations in Finance with Self-Organiztng Maps，Springer.

[5]V.Froelicher，K.Shetler，and E.Ashley[2002]“Better Decisions through Science：Exercise TestingScores.”Progress in Cardiovascular Diseases，Vol.44(5)，pp.385-414.

[6]A.Golbraikh and A.Tropsha[2002]“Beware of q²！”Journal of Molecular Graphics and Modelling，Vol 20，pp.269-276.

[7]R.A.Johnson and D.W.wichem[2000]Applied Multivariate Statistical Analysis，2 ed.，Prentice Hall.

[8]R.H.Kewley，and M.J.Embrechts[2000]“Data Strip Mining for the Virtual Design of Pharmaceuticals withNeural Networks，”IEEE Transactions on Neural Networks，Vol.11(3)，pp.668-679.

[9]T.Kohonen[1997]Self-Orgaizing Maps，2^nd Edition，Springer.

[10]R.Rosipal and L.J.Trejo[2001]“Kernel Partial Least Squares Regression in Reproducing Kernel HilbertSpaces，”Journal of Machine Learning Research，Vol.2，pp.97-128.

[11]B.Schlkopf and A.J.Smola[2002]Learning with Kernels，MIT Press.

[12]B.Schlkopf，A.Smola，and K-R Müller[1998]“Nonlinear Component Analysis as a Kernel EigenvalueProblem，”Neural Computation，Vol.10，1299-1319，1998.

[13]J.A.Swets，R.M.Dawes，and J.Monahan[2000]“Better Decisions through Science，”Scientific American，pp.82-87.

[14]The Analyze/StripMiner，the description and the code are available at http://www.drugmining.com.

[15]V.Vapnik[1998]Statistical Learning Theory，John Wiley & Sons.

[16]W.Wu，D.L.Massarat and S.de Jong[1997]“The Kernel PCA Algorithm for Wide Data.Part II：Fast Cross-Validation and Application in Classification of NIR Data，”Chemometrics and Intelligent Laboratory Systems，Vol.37，pp.271-280.

[17]A.E.Hoerl，and R.W.Kennard[1970]“Ridge Regression：Biased Estimation for Non-Orthogonal Problems，”Technometrics，Vol.12，pp.69-82.

[18]J.Principe，N.R.Euliano，and W.C.Lefebre[2000]Neural and Adaptive Systems：Fundamentals throughSimulations，John Wiley & Sons，Inc.

[19]W.Wu，D.L.Massarat and S.de Jong [1997]“The Kernel PCA Algorithm for Wide Data.Part I：Theory andAlgorithms，”Chemometrics and Intelligent Laboratory Systems，Vol.36，pp.165-172.

[20]Vladimir Cherkassky and Filip Mulier[1998]Learning from Data：Concepts，Theory，and Methods，JohnWiley & Sons，Inc.

[21]S.Haykin[1999]Neural Networks：A Comprehensive Foundation(2^nd Ed.)，Prentice Hall.

[22]A.N.Tikhonov[1963]“On Solving Incorrectly Posed Problems and Method of Regularization，”DokladyAkademii Nauk USSR，Vol.151，pp.501-504.

[23]A.N.Tikhonov and V.Y.Arsenin[1977]Solutions of ill-Posed Problems，W.H.Winston，Washington D.C.

[24]Evgeniou，T.，Pontil，and M.Poggio，T.[2000]“Statistical Learning Theory：A Primer，”International Journalof Computer Vision，Vol.38(1)，pp.9-13.

[25]T.Evgeniou，M.Pontil，and T.Poggio[2000]“Regularization Networks and Support Vector Machines，”inAdvances in Large Margin Classifiers，MIT Press.

[26]Poggio，T.，and Smale S.，[2003]“The Mathematics of Learning：Dealing with Data，”To appear in Notices ofthe AMS，May 2003.

[27]Suykens，J.A.K.and Vandewalle，J.[1999]“Least-Squares Support Vector Machine Classifiers，”NeuralProcessing lrtters，Vol.9(3)，pp.293-300，Vol.14，pp.71-84.

[28]Suykens，J.A.K.，van Gestel，T.de Brabanter，J.De Moor，M.，and Vandewalle，J.[2003]Least SquaresSupport Vector Machines，World Scientific Pub Co，Singapore.

[29]Svante Wold，Michael Sjstrm，and Lennart Eriksson[2001]“PLS-Regression：a Basic Tool ofChemometrics，”Chemometrics and Intelligent Laboratory Systems，58：109-130.

[30]Mller，M.F.，[1993]“A Scaled Conjugate Gradient Algorithm for Fast Supervised Learning，”NeuralNetworks，Vol.6，pp.525-534.

[31]H.Ritter，T.Kohonen，“Self-Organizing Semantic Maps，”Biological Cybernetics，vol.61，pp.241-254，1989.

[32]T.Kohonen，Self Organization and Associative Memory，2nd ed.，Springer-Verlag，1988.

[33]T.Kohonen，“The Self-Organizing Map，”Neurocomputing，21(1)：1-6，November 1998.

[34]T.Kohonen，“Thing You Haven’t Heard about the Self-Organizing Map，”IEEE International Conference onNeural Network，vol.3，pp.1147-1156，1993.

[35]T.Kohonen，“Generalization ofthe Self-Organizing Map，”International Joint Conference on NeuralNetworks，vol.1，pp.21-26，1993.

[36]G.Deboeck and T.Kohonen，Visual Explorations in Finance with Self-Organizing Maps，Springer，2000.

[37]H.C.Card，G.K.Rosendakl，D.K.Mcneill，and R.D.Mcleod，“Competitive Learning Algorithms andNeurocomputer Architecture，”IEEE Transactions on Computers，vol.47，no.8，pp.847-858，August 1998.

[38]J.S.Kirk，and J.M.Zurada，“Motivation for Genetically-Trained Topography-Preserving Map，”InternationalJoint Conference on Neural Networks 2002，vol.1，pp.394-399，2002.

[39]J.Vesanto，J.Himberg，M.Siponen，and A.Ollisimula，“Enhancing SOM Based Data Visualization，”Proceedings of the Intemational Conference on Soft Computing and Information/Intelligent Systems，pp.64-67，1998.

[40]G.Stroink，W.Moshage，S.Achenbach：“Cardiomagnetism”.In：Magnetism in Medicine，W.Andr，H.Nowak，eds.Berlin：Wiley VCH；1998；136-189.

[41]M.Mkijrvi，J.Montonen，J.Nenonen：“Clinical application of magnetocardiographic mapping”in：Cardiacmapping，M.Shenasa，M.Borgreffe，G.Breithardt，Eds.Mount Kisco，NY：Futura Publishing Co，2003.

[42]M.Mkijrvi，K.Brockmeier，U.Leder，et al.：“New trends in clinical magnetocardiography”.In Biomag96：Proc.of the 10th Internat.Conf.on Biomagnetism，Aine C.，et al.，eds.，New York：Springer，2000；410-417.

Claims

1.一种用于分类心动描记数据的方法，所述方法包括如下步骤：

在使用机器学习来分类所述变换数据之前，把内核变换应用于从感测电磁心脏活动的传感器获取的感测数据，产生变换数据。

2.如权利要求1所述的方法，还包括如下步骤：

在应用所述内核变换之前，使用小波变换把所述感测数据转换为小波域。

3.如权利要求1所述的方法，为分类心磁图数据，还包括如下步骤：

从贴近患者心脏的磁传感器处获取所述感测数据。

4.如权利要求2所述的方法，为分类心磁图数据，还包括如下步骤：

从贴近患者心脏的磁传感器处获取所述感测数据。

5.如权利要求1所述的方法，还包括如下步骤：

使用机器学习来分类所述变换数据。

6.如权利要求2所述的方法，还包括如下步骤：

使用机器学习来分类所述变换数据。

7.如权利要求3所述的方法，还包括如下步骤：

使用机器学习来分类所述变换数据。

8.如权利要求4所述的方法，还包括如下步骤：

使用机器学习来分类所述变换数据。

9.如权利要求1所述的方法，所述内核变换满足美世条件。

10.如权利要求1所述的方法，所述内核变换包括径向基函数。

11.如权利要求1所述的方法，所述应用内核变换的步骤包括如下步骤：

把所述变换数据分配至神经网络的第一隐蔽层；

应用训练数据描述符作为所述神经网络的所述第一隐蔽层的权重；并且

数值计算所述神经网络的第二隐蔽层的权重。

12.如权利要求11所述的方法，所述数值计算所述第二隐蔽层的所述权重的步骤还包括如下步骤：

使用内核脊回归来计算所述第二隐蔽层的所述权重。

13.如权利要求1所述的方法，所述应用内核变换的步骤包括如下步骤：

应用直接内核变换。

14.如权利要求1所述的方法，还包括如下步骤：

使用自组织映射(SOM)来分类所述变换数据。

15.如权利要求1所述的方法，还包括如下步骤：

使用直接内核自组织映射(DK-SOM)来分类所述变换数据。

16.如权利要求1所述的方法，还包括如下步骤：

使用内核部分最小平方(K-PLS)机器学习来分类所述变换数据。

17.如权利要求1所述的方法，还包括如下步骤：

使用直接内核部分最小平方(DK-PLS)机器学习来分类所述变换数据。

18.如权利要求1所述的方法，还包括如下步骤：

使用最小平方支持向量机(LS-SVM)来分类所述变换数据。

19.如权利要求1所述的方法，还包括如下步骤：

使用直接内核主分量分析(DK-PCA)来分类所述变换数据。

20.如权利要求1所述的方法，还包括如下步骤：

使用支持向量机(SVM/SVMLib)来分类所述变换数据。

21.如权利要求20所述的方法，所述使用支持向量机(SVM/SVMLib)来分类所述变换数据的步骤还包括如下步骤：

对于一n数据内核，把SVMLib调整参数C设置为C＝1/λ，其中：

所述λ与n的3/2次幂成比例。

22.如权利要求20所述的方法，所述使用支持向量机(SVM/SVMLib)来分类所述变换数据的步骤还包括如下步骤：

对于一n数据内核，把SVMLib调整参数C设置为C＝1/λ，其中：

λ = \min {1; {(\frac{n}{1500})}^{\frac{3}{2}}} .

23.如权利要求2所述的方法，所述把所述感测数据转换为小波域的步骤包括如下步骤：

把多布小波变换应用于所述感测数据。

24.如权利要求2所述的方法，还包括如下步骤：

从所述小波数据中选择用于改善心动描记数据的所述分类的特征。

25.如权利要求24所述的方法，所述选择所述特性的步骤还包括如下步骤：

删去从所述小波数据中所选的不期望特征。

26.如权利要求25所述的方法，所述删去所选的不期望特征的步骤还包括如下步骤：

从所述小波数据中删去外围的数据。

27.如权利要求25所述的方法，所述删去所选的不期望特征的步骤还包括如下步骤：

从所述小波数据中删去远亲描述符。

28.如权利要求24所述的方法，所述选择所述特征的步骤还包括如下步骤：

只保留从所述小波数据选择的期望特征。

29.如权利要求28所述的方法，所述只保留所选的期望特征的步骤还包括如下步骤：

使用训练数据集；并且

使用有效数据集来确认不存在所述训练集的过度训练。

30.如权利要求29所述的方法，所述只保留所选的期望特征的步骤还包括如下步骤：

使用遗传算法以从所述训练数据集中获得特征的最佳子集；并且

使用所述遗传算法来评估所述有效数据集的性能。

31.如权利要求29所述的方法，所述只保留所选的期望特征的步骤还包括如下步骤：

测量来自所述小波数据的所述特征的与所述特征的预测响应相关的灵敏度；并且

从所述特征中删去低灵敏度特征，所述低灵敏度特征比来自所述特征的其它高灵敏度特征具有相对更低的灵敏度。

32.如权利要求24所述的方法，所述选择所述特征的步骤还包括如下步骤：

从所述小波数据中删去所选的不期望特征；并且

只保留从所述小波数据选择的期望特征。

33.如权利要求1所述的方法，还包括如下步骤：

归一化所述感测数据。

34.如权利要求33所述的方法，所述归一化所述感测数据的步骤还包括如下步骤：

马氏缩放所述感测数据。

35.如权利要求1所述的方法，还包括如下步骤：

定中所述内核变换的内核。

36.如权利要求35所述的方法，所述定中所述内核的步骤包括如下步骤：

从训练数据内核的每一列中减去列平均值；

当定中测试数据内核时，存储所述列平均值用于稍后重新调用；

从所述训练数据内核的每行中减去行平均值。

37.如权利要求36所述的方法，所述定中所述内核的步骤还包括如下步骤：

把所述已存储的列平均值添加至所述测试数据内核的每一列；

对于每一行，计算所述测试数据内核的平均值；并且

从所述测试数据内核的每一水平条目减去所述行平均值。

38.一种用于分类心动描记数据的设备，包括计算机化的存储，处理以及编程用于：

在使用机器学习来分类所述变换数据之前，把内核变换应用于从用来感测电磁心脏活动的传感器获取的感测数据，产生变换数据。

39.如权利要求38所述的设备，还包括计算机化的存储，处理以及编程用于：

40.如权利要求38所述的设备，为分类心磁图数据，还包括输入用于：

从贴近患者心脏的磁传感器处获取所述感测数据。

41.如权利要求39所述的设备，为分类心磁图数据，还包括输入用于：

从贴近患者心脏的磁传感器处获取所述感测数据。

42.如权利要求38所述的设备，还包括计算机化的存储，处理以及编程用于：

使用机器学习来分类所述变换数据。

43.如权利要求39所述的设备，还包括计算机化的存储，处理以及编程用于：

使用机器学习来分类所述变换数据。

44.如权利要求40所述的设备，还包括计算机化的存储，处理以及编程用于：

使用机器学习来分类所述变换数据。

45.如权利要求41所述的设备，还包括计算机化的存储，处理以及编程用于：

使用机器学习来分类所述变换数据。

46.如权利要求38所述的设备，其中内核变换满足Mercer条件。

47.如权利要求38所述的设备，所述内核变换包括径向基函数。

48.如权利要求38所述的设备，所述用于应用内核变换的计算机化的存储、处理以及编程还包括计算机化存储、处理以及编程用于：

把所述变换数据分配至神经网络的第一隐蔽层；

数值计算所述神经网络的第二隐蔽层的权重。

49.如权利要求48所述的设备，所述用于数值计算所述第二隐蔽层的所述权重的计算机化的存储、处理以及编程还包括计算机化存储、处理以及编程用于：

使用内核脊回归来计算所述第二隐蔽层的所述权重。

50.如权利要求38所述的设备，所述用于应用内核变换的计算机化的存储、处理以及编程还包括计算机化存储、处理以及编程用于：

应用直接内核变换。

51.如权利要求38所述的设备，还包括计算机化的存储，处理以及编程用于：

使用自组织映射(SOM)来分类所述变换数据。

52.如权利要求38所述的设备，还包括计算机化的存储，处理以及编程用于：

使用直接内核自组织映射(DK-SOM)来分类所述变换数据。

53.如权利要求38所述的设备，还包括计算机化的存储，处理以及编程用于：

使用内核部分最小平方(K-PLS)机器学习来分类所述变换数据。

54.如权利要求38所述的设备，还包括计算机化的存储，处理以及编程用于：

55.如权利要求38所述的设备，还包括计算机化的存储，处理以及编程用于：

使用最小平方支持向量机(LS-SVM)来分类所述变换数据。

56.如权利要求38所述的设备，还包括计算机化的存储，处理以及编程用于：

使用直接内核主分量分析(DK-PCA)来分类所述变换数据。

57.如权利要求38所述的设备，还包括计算机化的存储，处理以及编程用于：

使用支持向量机(SVM/SVMLib)来分类所述变换数据。

58.如权利要求57所述的设备，所述用于使用支持向量机(SVM/SVMLib)变换来分类所述变换数据的计算机化的存储、处理以及编程还包括计算机化的存储、处理以及编程用于：

对于一n数据内核，把SVMLib调整参数C设置为C＝1/λ，其中：

所述λ与所述n的3/2次幂成比例。

59.如权利要求57所述的设备，所述计算机化的存储、处理以及编程用于使用支持向量机(SVM/SVMLib)变换来分类所述变换数据还包括计算机化存储、处理以及编程用于：

对于一n数据内核，把SVMLib调整参数C设置为C＝1/λ，其中：

λ = \min {1; {(\frac{n}{1500})}^{\frac{3}{2}}} .

60.如权利要求39所述的设备，所述用于把所述感测数据转换为小波域的计算机化的存储、处理以及编程包括计算机化的存储、处理以及编程用于：

把多布小波变换应用于所述感测数据。

61.如权利要求39所述的设备，还包括计算机化的存储，处理以及编程用于：

62.如权利要求61所述的设备，所述用于选择所述特征的计算机化的存储、处理以及编程还包括计算机化的存储、处理以及编程用于：

从所述小波数据中删去所选的不期望特征。

63.如权利要求62所述的设备，所述用于删去所选择的不期望特征的计算机化的存储、处理以及编程包括计算机化的存储、处理以及编程用于：

从所述小波数据中删去外围的数据。

64.如权利要求62所述的设备，所述用于删去所选择的不期望特征的计算机化的存储、处理以及编程包括计算机化的存储、处理以及编程用于：

从所述小波数据中删去远亲描述符。

65.如权利要求61所述的设备，所述用于选择所述特征的计算机化的存储、处理以及编程还包括计算机化的存储、处理以及编程用于：

只保留从所述小波数据选择的期望特征。

66.如权利要求65所述的设备，所述用于只保留所选择的期望特征的计算机化的存储、处理以及编程还包括计算机化的存储、处理以及编程用于：

使用训练数据集；并且

使用有效数据集来确认不存在所述训练集的过度训练。

67.如权利要求66所述的设备，所述计算机化的存储、处理以及编程用于只保留所选择的期望特征还包括计算机化的存储、处理以及编程用于：

使用所述遗传算法来评估所述有效数据集的性能。

68.如权利要求66所述的设备，所述用于只保留所选择的期望特征的计算机化的存储、处理以及编程还包括计算机化的存储、处理以及编程用于：

从所述特性中删去低灵敏度的特征，所述低灵敏度的特征比来自所述特征的其它高灵敏度特征具有相对更低的灵敏度。

69.如权利要求61所述的设备，所述用于选择所述特征的计算机化的存储、处理以及编程还包括计算机化的存储、处理以及编程用于：

从所述小波数据中删去所选的不期望特征；并且

只保留从所述小波数据选择的期望特征。

70.如权利要求38所述的设备，还包括计算机化的存储，处理以及编程用于：

归一化所述感测数据。

71.如权利要求70所述的设备，所述用于归一化所述感测数据的计算机化的存储、处理以及编程包括计算机化的存储、处理以及编程用于：

马氏缩放所述感测数据。

72.如权利要求38所述的设备，还包括计算机化的存储，处理以及编程用于：

定中所述内核变换的内核。

73.如权利要求72所述的设备，所述用于定中所述内核的计算机化的存储、处理以及编程包括计算机化的存储、处理以及编程用于：

从训练数据内核的每一列中减去列平均值；

从所述训练数据内核的每行中减去行平均值。

74.如权利要求73所述的设备，所述用于定中所述内核的计算机化的存储、处理以及编程还包括计算机化的存储、处理以及编程用于：

对于每一行，计算所述测试数据内核的平均值；并且

从所述测试数据内核的每一水平条目减去所述行平均值。