CN111247600A

CN111247600A - 对象聚类方法和装置

Info

Publication number: CN111247600A
Application number: CN201880068355.0A
Authority: CN
Inventors: S·孔索利; M·亨德里克斯; P·C·沃斯; J·L·库斯特拉; R·D·霍夫曼; D·马夫里厄杜斯
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2017-09-20
Filing date: 2018-09-18
Publication date: 2020-06-05
Also published as: WO2019057727A1; EP3460807A1; JP2020534622A; EP3685405A1; JP7258862B2; US20200219627A1; US11636954B2

Abstract

一种对类似于彼此的对象进行聚类或分组的方法。数据集包含针对每个对象的定量值集合，每个定量值表示该对象的相应临床或病理特征。对所述数据集执行主成分分析PCA。通过所述PCA识别的头两个主成分中的一个主成分的载荷用来生成加权值的相应数据集。这些加权值用来对所述数据集中的每个定量值集合进行加权或修改。对加权对象数据集执行聚类算法。所述过程可以被迭代直到满足用户定义的停止条件。

Description

对象聚类方法和装置

技术领域

本发明涉及对对象进行聚类的领域，并且更具体涉及使用对象的数据进行聚类的领域。

背景技术

对象的分组在临床实践中是常规活动，其目的是为了定义针对给定对象的最佳处置选项。具体地，如果对象能够被准确地一起分组到类似的组中，这将允许临床医生容易地比较给定对象或案例与类似的对象或案例来识别潜在诊断、合适的处置选项和所述处置选项的可能结果。这往往导致改善的对象结果和更准确的诊断，因为(即类似案例的)相关历史医学数据能够被临床医生准确地识别和利用。

因此存在对改善分组过程的准确性的增加期望。然而，由于对象的通常大量的变量或可能有影响的特性，甚至对于有经验的临床医生来说确定两个对象是否类似也是困难的。临床医生因此已经求助于自动化或监督式‘机器学习’(ML)方法用于对对象进行分组。

常规分组方法假设所有特征(即变量或特性)都是在统计上类似的，例如，具有类似的范围或具有类似的变化范围和统计分布。然而，对象数据(例如生物医学信息)通常是各种各样的，并且不同的数据因此往往属于具有高度统计差异的不同范畴。当执行常规聚类方法时，这导致显著降低的准确性。

发明内容

本发明通过权利要求来进行限定。

提出了一种对多个对象中的类似对象进行聚类的方法，所述方法包括：获得对象数据的数据集，所述数据集包含针对每个对象的相应定量值集合，每个定量值是所述对象的临床或病理特征的测量结果，并且每个定量值集合具有相同数量的定量值；以及执行聚类过程，包括：对对象数据的所述数据集执行主成分分析以识别至少两个主成分，每个主成分与成分得分和载荷的数据集相关联，载荷的每个数据集中的载荷的数量等于对象数据的所述数据集中的定量值的数量；生成加权值的第一数据集，每个加权值基于载荷的所述数据集中的与头两个主成分中的一个主成分相关联的相应载荷，所述第一数据集中的加权值的数量等于载荷的所述数据集中的载荷的数量；使用加权值的所述第一数据集对对象数据的所述数据集的所述定量值进行加权，以获得对象数据的加权数据集；以及对对象数据的所述加权数据集执行聚类算法以便将类似对象聚类成具有类似临床特性的对象组，其中，每个对象组中的对象具有类似的诊断、预测的对象结果和/或合适的处置选项。

因此提出了根据对象数据的统计信息来修改对象数据并且基于修改的对象数据来执行聚类过程的方法。特别地，主成分分析PCA被执行以生成用于修改对象数据的加权值的数据集。对对象数据的修改允许对象以更高程度的准确性并且以改善程度的组之间的分离被分组到(类似对象的)组中。

进而，这允许改善的诊断能力、对合适的处置选项的选择和针对所选择的处置选项的可能对象结果的预测。因此，总体对象结果能够被显著地改善。

本发明意识到，基于主成分分析来生成合适的加权值允许对象的不同可测量特征(即对象特性或变量)之间的统计变化被减小，使得特征在统计上变得更相似。当对类似对象进行分组时，这允许改善的准确性，因为可能统计上未平衡的特征(例如具有极大标准偏差或范围的特征)对聚类方法的影响被降低。

主成分分析已经在本文中被认为是导致对象数据能够被聚类成更大相似性和改善的分离的组的适当加权值的更准确且精确的识别的方法。与最有影响的主成分中的一个(为至少头两个主成分中的一个)主成分相关联的载荷用作用于生成加权值的基础，并且因此用作用于修改对象数据的数据集的基础。

所述方法可以还包括获得加权值的第二数据集的步骤，所述第二数据集中的加权值的数量等于对象数据的所述数据集中的定量值的数量，并且其中，生成加权值的所述第一数据集的步骤包括基于载荷的所述数据集中的与所述头两个主成分中的一个主成分相关联的相应载荷来修改加权值的所述第二数据集中的每个加权值，以由此获得加权值的所述第一数据集。

因此，加权值的第一数据集可以通过修改加权值的现有数据集来计算、生成或获得，加权值的现有数据集可以是加权值的初始数据集或加权值生成步骤的先前迭代的结果。该初始数据集或先前数据集被标记为加权值的第二数据集。

因此提出了允许加权值被调整和改变的实施例。这允许历史加权值(例先前使用或在先前加权值生成步骤中生成的加权值)在随后的聚类方法中使用。这可以降低生成加权值的合适数据集的工作负荷，并且使得迭代程序能够迭代地生成合适加权值的收敛集。

在一些实施例中，所述的修改加权值的所述第二数据集中的每个加权值包括：选择与第一主成分或第二主成分中的一个主成分相关联的载荷的数据集；以及将加权值的所述第二数据集中的每个加权值乘以载荷的所述数据集中的与所选择的主成分相关联的相应载荷，以获得加权值的修改的第一数据集。

在另外的实施例中，所述的修改加权值的所述第二数据集中的每个值还包括将加权值的所述第二数据集中的每个加权值除以0与1之间的随机或伪随机选择的数。

以此方式，加权值的第二数据集的每个加权值被修改为载荷值的数据集中的相应载荷的随机比例。这允许一定程度的随机性被引入到对象数据集的修改内，这允许相当多样化策略被实施。

这在(针对适当的加权值的)迭代搜索中可以是特别重要的，以便改善合适的加权值被识别的可能性。特别地，这允许启发式搜索被执行以更准确地且高效地生成加权值的收敛的数据集。

所述的修改加权值的所述第二数据中的每个值可以包括基于载荷的所述数据集中的与所述头两个主成分中的随机或伪随机选择的一个相关联的相应载荷来修改加权值的所述第二数据中的每个值。

因此，实施例通过在最有影响的主成分之间的非确定性选择而在加权值的第一数据集的生成中提供了进一步的随机性。这可以进一步改善加权值的合适的数据集被计算或识别(尤其在迭代程序期间)的可能性和效率。

对所述聚类过程的所述执行可选地包括迭代地执行所述聚类过程，其中，所述聚类过程(可选地)还包括：计算指示通过所述聚类算法执行的所述聚类的质量的质量值；响应于所述质量值大于第一预定阈值，利用加权值的所述第一数据集中的所述加权值来替换加权值的所述第二数据集中的所述加权值；以及响应于所述质量值在所述第一预定阈值以下，拒绝加权值的所述第一数据集，并且保留加权值的所述第二数据集的所述加权值。

本发明的实施例因此提供了计算加权值以便生成加权值的令人满意或优化的数据集的迭代过程，加权值的令人满意或优化的数据集允许对象数据被修改到高度的准确性，使得改善对象组之间的分离并且改善组内的对象的相似性。这显著改善总体聚类方法的性能。在每次迭代之后，加权值的优化的数据集通过加权值的第二数据集来表示。特别地，在每次迭代之后，加权值的第二数据集表示将聚类过程的质量改善到最好的已知能力的加权值的数据集。

用于加权值的生成的数据集的评估方法因此可以被执行，以确定加权值的新生成的数据集(第一数据集)是否已经改善对象数据的质量，诸如对象组之间的分离。评估方法计算指示聚类的质量的质量值。任何已知的质量值生成方法可以被使用，如本领域技术人员将意识到的。

提出的方法拒绝不会改善聚类的质量或否则不能确保聚类的质量在预定值以上的对加权值的调整、修改或改变。预定值可以例如基于在聚类过程的先前迭代期间计算的质量值来确定，或可以是标准化值(例如0.5)。

在至少一个另外的实施例中，所述方法还包括：响应于以下中的任何一个或多个而中断执行迭代聚类过程：所述质量值大于第二预定阈值；迭代次数大于预定迭代次数；在所述迭代聚类过程期间逝去的时间长度大于预定时间长度；以及加权值的所述第一数据集的相继拒绝次数大于预定拒绝次数。

该方法因此可以适于仅迭代地执行聚类过程特定次数。迭代过程被执行的次数可以基于例如预定迭代次数(例如25或50次迭代)、执行迭代聚类过程花费的预定时间(例如30分钟或1小时)来进行限制。优选地，当已经达到对象组之间的适当或预定义水平的相似性和/或迭代过程收敛时，迭代过程被停止。这可以相应地通过例如质量值升至预定值以上(例如平均轮廓宽度升至0.5以上)或加权值的新数据集被拒绝了预定迭代次数(例如5次迭代)来指示。

以上实施例可以防止迭代过程被执行过多的时间段(由此降低处理功率)，而不显著影响加权值的合适的或优化的数据集被计算的可能性。该方法的效率因此被改善，并且冗余计算被避免。

所述第一预定值可以是基于使用加权值的所述第二数据集加权的对象数据的所述数据集通过所述聚类算法执行的聚类的质量值。加权值的所述第二数据集可以表示加权值的初始数据集和/或在先前迭代中生成的加权值的数据集。

因此，如果用于聚类过程的质量值在随后的迭代中未被改善，则加权值的修改的第一数据集可以被拒绝。这允许通过仅仅在该值集改善对象的聚类的情况下才准许加权值的新生成的数据集前进到随后的迭代来达到对加权值的适当数据集的收敛。

在一些实施例中，所述方法包括，在所述迭代聚类过程期间并且响应于所述质量值大于第一预定阈值，利用所述质量值来替换所述第一预定阈值。因此，所述质量值可以被设置为用于随后迭代的阈值。

可选地，所述方法还包括：使用加权值的所述第二数据集对所述定量值进行加权，以获得对象数据的初始加权数据集；对对象数据的所述初始加权数据集执行聚类算法，以便对类似对象进行聚类；以及计算指示通过所述聚类算法执行的所述聚类的质量的质量值，以由此获得所述第一预定阈值。

所述计算质量值可以包括计算以下中的一个或多个：Dunn指数；轮廓宽度和Davies-Bouldin指数。其他质量值对技术人员来说将是显而易见的。

优选地，所述质量值指示不同的对象聚类或组之间的分离的程度。然而，针对聚类算法的结果的任何已知质量值可以被采用。例如，质量值可以指示任何给定组内的对象之间的相似性，其也指示对总体对象数据的改善。

一种包括计算机可读存储介质的计算机程序产品，所述计算机可读存储介质具有随其体现的计算机可读程序指令，当在处理器装置上运行时，所述计算机可读程序指令使所述处理器装置实施任何先前描述的方法。

根据本发明的另一方面，提供了一种适于对多个对象中的类似对象进行聚类的处理器装置，所述处理器装置包括：获得单元，其适于获得对象数据的数据集，所述数据集包含针对每个对象的相应定量值集合，每个定量值是所述对象的临床或病理特征的测量结果，并且每个定量值集合具有相同数量的定量值；以及聚类单元，其适于通过以下操作来执行聚类过程：对对象数据的所述数据集执行主成分分析以识别至少两个主成分，每个主成分与成分得分和载荷的数据集相关联，载荷的每个数据集中的载荷的数量等于定量值集合中的定量值的数量；生成加权值的第一数据集，所述第一集中的加权值的数量等于载荷的数据集中的载荷的数量，其中，加权值的所述第一数据集中的每个加权值基于载荷的所述数据集中的与头两个主成分中的一个主成分相关联的相应载荷；使用加权值的所述第二数据集对所述定量值进行加权，以获得对象数据的加权数据集；以及对对象数据的所述加权数据集执行聚类算法以便将类似对象聚类成具有类似临床特性的对象组，其中，每个对象组中的对象具有类似的诊断、预测的对象结果和/或合适的处置选项。

所述处理器装置可以被适应，其中：所述获得单元适于获得加权值的第二数据集，所述第二集中的加权值的数量等于定量值集合中的定量值的数量，并且所述聚类单元适于通过以下操作来生成加权值的所述第一数据集：基于载荷的所述数据集中的与所述头两个主成分中的一个主成分相关联的相应载荷来修改加权值的所述第二数据集中的每个加权值，以由此获得加权值的所述第一数据集。

所述聚类单元可以适于迭代地执行所述聚类过程，并且其中，所述聚类过程还包括：计算指示通过所述聚类算法执行的所述聚类的质量的质量值；响应于所述质量值大于第一预定阈值，利用加权值的所述第一数据集中的所述加权值来替换加权值的所述第二数据集中的所述加权值；以及响应于所述质量值在所述第一预定阈值以下，拒绝加权值的所述第一数据集，并且保留加权值的所述第二数据集的所述加权值。

本发明的这些和其他方面将参考下文描述的(一个或多个)实施例变得显而易见并将参考下文描述的(一个或多个)实施例得以阐述。

附图说明

本发明的范例现在将参考附图详细地进行描述，在附图中：

图1图示了根据第一实施例的对对象进行聚类的方法；

图2示出了对对象数据的数据集执行主成分分析的构思；

图3图示了根据第二实施例的对对象进行聚类的方法；

图4图示了根据第三实施例的对对象进行聚类的方法；

图5示出了生成加权值的数据集的构思；

图6示出了基于加权值来修改对象值的数据集的构思；

图7和图8图示了对对象值的未加权数据集执行聚类算法的结果；

图9和图10图示了根据实施例的对对象值的加权数据集执行聚类算法的结果；以及

图11图示了根据实施例的处理器装置。

具体实施方式

根据本发明的构思，提出了一种对类似于彼此的对象进行聚类或分组的方法。数据集包含针对每个对象的定量值集合，每个定量值表示该对象的相应临床或病理特征。对数据集执行主成分分析PCA。通过PCA识别的头两个主成分中的一个主成分的载荷用来生成加权值的相应数据集。这些加权值用来对数据集中的每个定量值集合进行加权或修改。对加权对象数据集执行聚类算法。该过程可以被迭代直到满足用户定义的停止条件。

实施例至少部分地基于以下认识：对象数据的合适的加权可以减少该对象数据中的不同参数或变量之间的统计变化，并且由此改善聚类质量。特别地，已经意识到主成分分析允许贡献对象数据的数据集中的最显著统计偏差的那些变量被减轻。

说明性实施例可以例如被用于临床环境中以允许临床医生使用改善的自主过程来更准确地且高效地将类似对象分组成组。特别地，对象基于类似的临床特性被分组，即特定组中的对象可以具有类似的诊断、类似的预测的对象结果和/或类似的合适的处置选项(包括例如这样的处置选项的类似的预测的结果)。这将显著地改善准确地诊断对象的可能性(例如因为类似的历史情况可以被分组在一起)、改善对对象结果的预测并且改善对合适处置的选择，由此导致对总体对象结果的改善。

图1图示了根据实施例的对对象进行聚类的方法1。

该方法包括获得对象数据的数据集的步骤2和聚类过程3或例程。

在步骤2中获得的数据集包含针对每个对象的相应定量值集合。每个定量值表示对象的不同(临床或病理)特征或特性，使得对象可以与任何多个变量(即特征或特性)相关联。

从概念上讲，数据集表示多个记录，每个记录与不同的对象相关联。每个记录包含字段或变量的集合，每个字段与相应的定量值相关联。因此，记录的每个字段可以表示与记录相关联的对象的不同病理或临床相关参数、变量或特性。

定量值可以指示例如对象的临床阶段、阳性活检得分的百分比、对象的脉搏率、对象的年龄、对象的住院的次数、对象的初级和/或次级活检Gleason得分、前列腺特异性抗原密度等等。每个定量值集合(即每个对象)具有被包含在其中的相同数量的定量值。缺失的定量值可以被设置为零、缺省值或平均值，如稍后解释的。在本发明的背景下，定量值由此可以是对象的特定体征或症状的数值表示(例如温度或疼痛得分)。

聚类过程3包括对对象数据的数据集执行主成分分析PCA的步骤4。主成分分析根据已知方案来识别对象数据的至少两个主成分。每个主成分一般与成分得分和针对每个成分得分的载荷的数据集相关联。

聚类过程3还包括生成加权值的第一数据集的步骤5。每个加权值基于载荷的所选择的数据集的相应载荷。加权值的数量等于(载荷的数据集中的)载荷的数量以及定量值集合中的定量值的数量。载荷的所选择的数据集与在主成分分析步骤4期间获得的头两个主成分中的一个主成分相关联。头两个主成分是解释数据集中的大部分方差的那两个成分，如技术人员将容易认识到的。

聚类过程3还包括使用加权值的第一数据集对对象数据的数据集中的每个定量值进行加权的步骤6。特别地，每个定量值基于载荷的第一数据集中的相应载荷来进行加权。因此，以范例的方式，第一定量值集合中的第一定量值基于载荷的第一数据集中的第一载荷来进行加权。以此方式对每个定量值进行加权产生对象数据的加权数据集。

聚类过程3还包括对对象数据的加权数据集执行聚类算法的步骤7。换言之，数据集通过加权值来修改，并且随后被聚类成类似对象的组。该聚类算法可以是任何已知的聚类算法，诸如k-均值聚类(是形心模型)、层次聚类分析、双聚类过程等等。

对已经基于PCA过程的结果修改的对象数据执行聚类过程导致改善的对象的聚类和改善的对象组之间的分离。如先前解释的，这导致改善的诊断能力、改善的对合适的处置选项的选择和改善的针对选择的处置选项的可能对象结果的预测。特别地，历史数据可以被更准确地分类并且(例如与新的对象案例)进行比较。

例如，新对象的特性、特征或定量值可以被添加到根据实施例的聚类过程被应用于的对象数据的数据库。这将导致以高度准确性和组之间的良好分离将新对象与类似的现有或历史案例分组在一起。这将允许临床医生更准确地诊断新对象，因为对象更可能具有与随其分组的对象相同的诊断。类似地，改善的分组也将允许临床医生观察(即对类似对象执行的)历史处置选项和那些选项的结果。这允许临床医生基于(类似组中的)类似对象的已知结果来选择最合适的选项。总的来说，所提出的方法导致显著改善的对象结果，因为类似(历史)对象的结果、处置和诊断可以被用来改善对象结果。

尽管PCA方法对技术人员来说将是众所周知的，但是在本发明的背景下为了改善的理解起见，图2图示了对对象数据的(简化)初始数据集20执行主成分分析PCA的步骤4。

对象数据的数据集20包括定量值v₁、v₂的第一集合A和定量值v₃、v₄的第二集合B。每个集合A、B与不同的对象相关联，并且能够被认为表示该对象的记录。集合A中的每个定量值v₁、v₂表示针对该特定对象的不同(临床或病理)特征或特性X、Y，并且由此能够表示对象的记录的字段。例如，定量值v₁表示针对对象A的特性X(例如对象的年龄)的值，并且定量值v₃表示针对不同对象B的相同特性X的值。

执行PCA步骤4生成成分得分(有时被称为因素得分)的数据集21，其识别至少两个主成分PC1、PC2。每个主成分PC1与成分得分cs₁、cs₂的集合相关联。主成分PC1的每个成分得分cs₁、cs₂与相应定量值集合A、B(即相应对象)相关联。例如，第一成分得分cs₁与定量值的第一集合A相关联，而第二成分得分cs₂与定量值的第二集合B相关联。成分得分被理解为变换的变量值，其表示对象数据的相关联的定量值集合的相对方差。

执行PCA步骤4还生成载荷(有时被称为载荷值)的多个22(载荷)数据集22A、22B。每个载荷数据集22A与不同的主成分PC1相关联。例如，第一数据集22A与第一主成分PC1相关联，并且第二数据集22B与第二主成分PC2相关联。每个数据集22A包括载荷L₁、L₂、L₃和L₄。载荷L₁表示标准化定量值v₁应当与其相乘以获得与包含定量值v₁的定量值集合相关联的成分得分cs₁的权重或值。以范例的方式，第二载荷L₂等于成分得分cs₁除以标准化定量值v₂。因此，数据集22A中的每个载荷L₁能够被映射到相应定量值v₁。

标准化定量值是已经关于相同定量值集合中的其他定量值被(统计地)标准化或规范化的定量值。因此，执行PCA的步骤4可以包括生成对象数据的标准化数据集的子步骤(未示出)。

通过进一步解释，应注意，PCA在数学上被定义为将数据变换到新坐标系使得通过数据的一定投影的最大方差位于第一坐标上(被称为第一主成分)、第二最大方差位于第二坐标上(第二主成分)、以此类推的正交线性变换。这在Jolliffe I.T.的PrincipalComponent Analysis(Series:Springer Series in Statistics,2nd ed.,Springer,NY,2002,XXIX,487p.28 illus.ISBN978-0-387-95442-4)中相当详细地进行解释。

图3图示了作为第一实施例的修改版本的方法1的第二实施例。

修改的方法1还包括获得加权值的第二数据集的步骤31。所获得的第二数据集可以例如是加权值的过去或历史数据集。以范例的方式，所获得的第二数据集可以已经在先前的迭代中被生成，如下面解释的，或可以已经基于不同对象数据集被生成。在其他实施例中，所获得的第二数据集是任意值的初始数据集，例如，其中，加权值全部被初始化为1或0与1之间的随机(或伪随机)选择的数。

生成加权值的第一数据集的步骤5包括修改第二数据集的加权值。特别地，修改第二数据集的加权值基于头两个主成分中的一个主成分的载荷数据集。

步骤5可以包括选择头两个主成分中的一个主成分的步骤32。优选地，步骤32包括随机地或伪随机地选择头两个主成分中的一个主成分，而且可以替代地包括仅选择第一主成分或第二主成分。如本领域技术人员将意识到的，头两个主成分是由PCA生成的解释对象数据的数据集中的大部分方差的两个成分。

步骤5可以还包括将加权值的第二数据集中的每个加权值乘以载荷值的数据集中的与所选择的主成分相关联的相应载荷的步骤33。加权值的第二数据集中的加权值的数量等于载荷值的数据集中的载荷值的数量。以此方式，每个加权值基于载荷数据集中的相应载荷来进行修改。

步骤5可以还包括将加权值的第二数据集中的每个加权值除以0与1之间的随机或伪随机选择的数的步骤34。因此，步骤33和34一起包括将加权值的第二数据集中的每个加权值乘以载荷值的数据集中的相应载荷的比例。

当在用于计算加权值的适当数据集的迭代程序(诸如稍后描述的那些)中使用时，步骤5如参考图3描述的通过修改加权值的第二数据集来生成加权值的第一数据集的步骤是特别有利的。

特别地，随机性可以通过步骤5被引入到迭代程序内，从而允许启发式搜索和/或启发式优化方法。特别地，该随机性导致搜索程序的相当多样化能力，其优选地通过最有影响的两个主成分之间的非确定性(即随机)选择并且还通过所选择的主成分的载荷的随机比例来提供。

执行主成分分析的步骤4可以对由加权值的第二数据集加权的对象数据的数据集执行。

图4图示了根据第三修改实施例的方法1。

在第三实施例中，聚类过程3被迭代地执行以优化加权值的数据集(例如通过确定加权值的数据集是否已经在相继的迭代中收敛)。

特别地，可以对加权值的数据集进行迭代修改，其中(在每个迭代期间)关于改善是否由所做出的任何修改引起进行确定。无改善的修改可以被拒绝，并且改善的修改可以被接受。这有利地允许逐渐收敛到加权值的最适当或否则优化的数据集。

方法1包括计算(在步骤7中)通过聚类算法执行的聚类的质量值的步骤41。技术人员将容易预料到计算质量值的各种方法，包括计算例如平均轮廓宽度、Dunn指数和Davies-Bouldin指数。轮廓宽度能够使用任何已知的距离度量(诸如欧式距离)来计算。

该方法还包括确定质量值是否大于第一预定阈值的步骤42。

方法1包括响应于质量值大于预定阈值而利用加权值的第一数据集的加权值来替换加权值的第二数据集的加权值的步骤43。

类似地，方法1包括响应于质量值小于预定阈值而拒绝加权值的第一数据集的加权值并且保留加权值的第二数据集的加权值的步骤44。

第一预定阈值优选是通过聚类算法在使用加权值的第二数据集加权的对象数据的数据集上执行的聚类的质量值。特别地，质量值可以是在聚类过程3的先前迭代中计算的质量值。以此方式，改善加权值的数据集的修改被保留，并且不利地影响加权值的数据集的修改被拒绝、摒弃或要不然弃用。

在一些其他实施例中，第一预定阈值是先前迭代的质量值的比例或分数。使用先前质量值的分数(例如先前质量值的0.95)通过利用稍微更差的解来改善算法的多样化。这可以导致解搜索空间的更有希望的区域被识别。

类似地，在其他实施例中，先前迭代的质量值的倍数(例如>1x，诸如1.1x)也可以用作第一预定阈值。这可以确保仅显著好于先前解的解被识别，并且可以导致更有希望的路径。

加权值的第一数据集是(即当前迭代的)当前数据集，并且例如对于第二随后的迭代，等待值的第二数据集是(即先前迭代的)先前数据集，或例如对于第一迭代，如在步骤31中获得的加权值的初始化或缺省数据集。

聚类过程3由此修改或否则生成加权值的新数据集(例如基于先前集)，并且确定加权值的新数据集是有利地还是不利地影响对由加权值加权的对象数据的数据集执行的聚类的质量。在范例中，在先前聚类过程中生成的质量值与在当前聚类过程中生成的质量值进行比较。先前聚类过程是当使用加权值的先前数据集(即加权值的第二数据集)进行加权时对对象数据的数据集执行的聚类过程。当前聚类过程是当使用加权值的新生成的数据集(即加权值的第一数据集)进行加权时对对象数据的数据集执行的聚类过程。

聚类过程3可以还包括确定是否中断迭代聚类过程3以由此确定是否阻止聚类过程3的进一步迭代被执行的步骤45。

步骤45可以包括确定迭代次数是否大于预定迭代次数(例如大约25或大约50)，或确定在迭代聚类过程期间逝去的时间长度(是聚类过程3被重复的时间)是否大于预定时间长度(例如大约1分钟、大约10分钟或大约30分钟)。在任一情况下，当测量值在相应的预定值以上时(例如当迭代次数大于预定迭代次数时)，步骤45确定要中断迭代聚类过程3。

预定时间长度可以取决于数据集的大小，例如数据集中的定量值的数量、集的数量和/或集中的定量值的数量。当然，计算时间也可以取决于执行计算的设备的类型和/或所述设备的可用性。

对于较小的集合(例如<10,000个定量值)，已经识别到大致可接受的计算运行时间在1-30分钟的区域中。在更复杂的情况下(例如>10,000个定量值)，大致可接受的运行时间在1-2小时的区域中。

预定迭代次数可以取决于数据集的大小(例如定量值集合的数量和/或集合中的定量值的数量)。在一个实施例中，预定迭代次数不少于数据集中的定量值的总数量除以500，例如，不少于数据集中的定量值的总数量除以1000。这些值已经被识别为适当地提供准确的加权值同时最小化计算时间，并且由此改善效率。

在一些范例中，预定迭代次数不少于50，例如，不少于100。已经表明这些值提供合适权重的适当且准确的识别而无需过多的计算时间或迭代。

优选地，步骤45替代地包括确定(在步骤41中计算的)质量值是否大于第二预定阈值。第二预定阈值可以取决于所计算的质量值的类型，仅以范例的方式，当质量值是平均轮廓宽度时，第二预定阈值可以为大约0.5或0.7。

备选地，步骤45可以包括加权值的第一数据集的相继拒绝次数是否大于预定拒绝次数。这种方法将识别加权值的数据集是否已经以高度的置信度收敛。所做出的预定拒绝次数例如在10或15的区域中。

可以做出其他适当的确定，例如，确定(在步骤41中计算的)质量值是否已经在预定迭代次数内保持基本不变(例如±1％)。这也可以指示加权值的数据集已经朝向加权值的优化的数据集收敛。

当然，步骤45可以组合前述确定中的任一个作为用于确定是否停止执行迭代过程(例如如果质量值在第二预定阈值以上或所逝去的时间大于预定时间长度，则过程3被停止)的备选方案。

如果确定要中断执行迭代聚类过程3，则该方法可以在步骤46处结束。特别地，当测量值(质量值、迭代次数、执行迭代的时间量、加权值的第一数据集的拒绝次数)在预定义阈值以上，则迭代聚类过程可以被停止。预定阈值可以由用户或根据上面描述的已知原理来定义。

在步骤46处，(即如使用加权值的第二数据集加权的)对象数据的加权数据集或如在步骤7中执行的聚类过程的输出可以被输出、存储、显示或否则提供给该方法的用户。

在每次迭代中，执行主成分分析的步骤4对已经由加权值的第二数据集加权的对象数据的数据库执行。因此，(具有成分得分和载荷集合)的主成分针对对象数据的每个迭代加权数据集来识别。这确保该方法可以考虑在对象数据的加权之后保留的最显著方差，并且由此允许加权值的数据集的进一步优化。

在实施例中，执行PCA的步骤4由此可以包括使用加权值的第二数据集对对象数据的数据集进行加权或修改，或可以替代地包括使用在先前迭代的步骤6中生成的对象数据的加权数据集。在一些实施例中，如果在步骤42中确定(与加权值的新计算的数据集相关联的)质量值小于第一预定阈值，则执行PCA的步骤4在随后的迭代中不被重复，而是在先前迭代中执行的存储的PCA可以被替代地使用。

图5图示了根据实施例的生成加权值的第一数据集51的步骤5。

步骤5包括修改加权值w₁、w₂、w₃和w₄的第二数据集52。加权值的第二数据集52可以例如是在先前聚类过程3迭代中生成的加权值的数据集，或可以是加权值的初始化数据集(例如所有加权值都被设置为1或被设置为0与1之间的随机数)。

步骤5包括将每个加权值w₁乘以相应的载荷L₁。载荷选自与由(先前加权的)对象数据的PCA产生的头两个主成分中的一个主成分相关联的载荷集51，如先前描述的。

主成分被随机地或伪随机地选择，以由此将一些随机性引入到加权过程。步骤5可以还包括将每个加权值w₁除以0与1之间的随机或伪随机数。

在迭代过程中，将随机性引入到生成新的加权值内改善了迭代聚类过程的多样化能力。这使得更有可能的是，加权值的改善的数据集能够在迭代过程期间被识别(即质量值能够被改善)。

修改每个加权值由此可以通过将每个加权值乘以以下项来执行：

其中，i是1或2并且指示(头两个最有影响的成分之中)选择的主成分，x表示定量值或对象的相关集合，j指示相关的特性或定量值，并且r(∈[0,1])是在0与1之间选择的随机(例如双精度或浮点)数。

图6图示了使用加权值的数据集51、52对对象数据的数据集20的定量值进行加权的步骤6。该步骤可以在步骤6处(在对对象进行聚类以确定质量值之前)或在主成分分析步骤5期间被执行。

数据集20的每个定量值能够与特定加权映射、相关联或否则相链接。为了对数据集进行加权，每个定量值乘以相应的加权。以范例的方式，第一定量值v₁可以乘以第一加权值w₁。这导致对象数据的加权数据集60。

图7、图8、图9和图10图示了在真实情景中在不使用迭代聚类过程3的情况下(图7和图8)和使用迭代聚类过程3的情况下(图9和图10)对对象数据的示范性数据集执行的聚类过程的结果。

对象数据的示范性数据集包含处于前列腺癌肿瘤风险的2992个对象的细节，所有对象都经历了根治性前列腺切除术。数据集包含针对每个对象的六个定量值的集合，其分别指示该对象的以下临床和病理特征：外科手术时的年龄、前列腺特异性抗原(PSA)密度、阳性活检得分的百分比、初级和次级活检Gleason得分、以及临床阶段。

当没有(迭代)聚类过程3被执行(即对象数据的数据集未被加权)时，被应用于对象数据的数据集的k-均值聚类导致图7中示出的第一二元聚类标绘图70，也被称为Clusplot。Clusplot70将对象图形地显示为二元标绘图中的点，并且将这些对象的聚类图形地显示为各种大小和形状的椭圆。当然，指示对象的聚类的信息也可以被存储在存储器中。当没有迭代聚类过程3被执行时，对象被聚类成三个不同且分离的组71、72、73。

还生成了图8中示出的第一聚类轮廓标绘图80。聚类轮廓标绘图图形地表示组71、72和73的分离。平均轮廓宽度81或得分可以被计算。一般地，如果轮廓宽度在0.5以上，则聚类被认为令人满意。如图8中示出的，平均轮廓宽度81远低于该阈值，为大约0.2，对于所产生的三个聚类来说，这表明不良的数据分离。

当迭代聚类过程3根据先前描述的实施例被执行时，合适地加权的对象数据的k-均值聚类得到图9中示出的第二二元聚类标绘图90。特别地，加权数据集已经被聚类成十二个对象组。

图10中示出的第二聚类轮廓标绘图100图示了数据集的聚类的质量如何也已经由于对象数据的数据集的优化的加权而被改善。特别地，平均轮廓宽度101等于0.51(即在令人满意值0.5以上)。

通过对真实数据集执行所描述的迭代方法产生的结果证明了系统的可行性和其产生有意义的类似对象组的能力。得到的对象组与彼此很好地分离，而非以大聚集方式被分组和/或可能被错误分类。每个组中的对象在成对相似性边界内也是分散的，由此确保将根本不同的对象放置在不同的很好分离的组中。

在一些实施例中，对(加权的)对象数据的PCA分析的结果执行聚类算法。特别地，聚类可以被执行以使用如通过PCA分析确定的(对象数据的)头两个主成分对对象进行聚类。图7至图10中示出的聚类已经根据这种方法被聚类。这可以进一步改善聚类的过程，并且进一步改善同一组中的对象之间的相似性。

在上述和其他实施例中，对象数据包括属于不同范畴并且具有不同变化范围和统计分布的临床和病理特征。每个这种特征j可以被称为F_j。一般性对象i可以被称为：P_i＝[F_i1；F_i2；…；F_ij；…F_in]，其中，n是临床或病理特征的总数。对象数据的整个数据集因此可以是：P＝[F₁；F₂；…；F_j；…F_n]。迭代聚类过程的目标是找到在最大程度上改善对象聚类的权重w的数据集，由此导致对象数据的优化的数据集：P＝[w₁.F₁；w₂.F₂；…；w_j.F_j；…w_n.F_n]＝w.F。该优化的数据集更好地表示总体对象数据，改善了统计相似性并且减小了数据集内的统计变化和分布。

最初，加权值可以被设置为等于一，即w’＝[1；1；…1]，由此形成先前描述的在步骤31中获得的加权值的第二数据集。这些加权值的干扰被执行，获得加权值的新数据集w”，并且由此形成加权值的第一数据集。如果加权值w”的新数据集导致与改善的质量值或‘目标函数值’相关联的改善的加权数据集，那么对加权值的数据集的干扰被接受，并且对象值的新加权数据集和加权值的新数据集替换先前的相应数据集。

在每次迭代时，对加权的对象数据执行的聚类的质量被评价以获得质量值。评价可以例如将平均轮廓宽度和/或Dunn指数确定为质量值。

优化例程的迭代继续直到满足预定义停止条件。这些可以包括例如满足以下中的任何一个或多个：最大允许的计算或CPU时间、最大迭代次数、两个改善之间的最大迭代次数、或最小平均轮廓宽度(例如至少0.5)。以此方式，获得多个特征空间(即不同统计特性的特征)到聚类算法内的集成。

在一些实施例中，数据集中的定量值中的一个或多个可以包括NULL或缺失值。如果数据集缺失一些数据(或针对特定对象的数据未被记录)，则这会发生。为了克服这种问题，任何缺失值可以通过缺省值(例如零)或通过提供估算或平均值来代替。合适的估算方法对技术人员来说将是众所周知的。在其他实施例中，包括缺失或NULL值的定量值集合被摒弃。

图11图示了适于对多个对象中的类似对象进行聚类的处理器装置110，所述处理器装置包括：获得单元111和聚类单元112。

获得单元111适于获得对象数据的数据集，所述数据集包含针对每个对象的相应定量值集合，每个定量值是所述对象的临床或病理特征的测量结果，并且每个定量值集合具有相同数量的定量值。

聚类单元112适于通过以下操作来执行聚类过程：对对象数据的数据集执行主成分分析以识别至少两个主成分，每个主成分与成分得分和载荷的数据集相关联，载荷的每个数据集中的载荷的数量等于定量值集合中的定量值的数量；生成加权值的第一数据集，第一数据集中的加权值的数量等于载荷的数据集中的载荷的数量，其中，加权值的第一数据集中的每个加权值基于载荷的数据集中的与头两个主成分中的一个主成分相关联的相应载荷；使用加权值的第一数据集对定量值进行加权以获得对象数据的加权数据集；以及对对象数据的加权数据集执行聚类算法以便对类似对象进行聚类。

获得单元111可以例如从外部源或从存储器装置113获得对象数据的数据集。聚类单元可以适于将加权值的第一数据集和对象数据的加权数据集存储在存储器装置113中。

优选地，获得单元111适于获得加权值的第二数据集，第二数据集中的加权值的数量等于对象数据的数据集中的定量值的数量。加权数据的第二数据集可以从存储器装置113获得，并且可以例如是(如先前描述的)在先前迭代期间生成的加权值的数据集。

聚类单元111可以适于通过以下操作来生成加权值的第一数据集：基于载荷的数据集中的与头两个主成分中的一个主成分相关联的相应载荷来修改加权值的第二数据集中的每个加权值，以由此获得加权值的第一数据集。聚类单元111可以将加权值的第一数据集存储在存储器装置113中，加权值的第一数据集稍后可以通过获得单元获得作为用于随后迭代的加权值的第二数据集。

聚类单元111可以适于迭代地执行聚类过程，其中，所述聚类过程还包括：计算指示通过聚类算法执行的聚类的质量的质量值；响应于质量值大于第一预定阈值，利用加权值的第一数据集中的加权值来替换加权值的第二数据集中的加权值；以及响应于质量值在第一预定阈值以下，拒绝加权值的第一数据集，并且保留加权值的第二数据集的加权值。

因此，如果聚类算法的质量已经由于对加权值的数据集的修改而改善，则聚类单元112可以仅更新(存储器装置113中的)存储的加权值的数据集。

处理装置110可以与显示设备114通信。特别地，处理装置可以显示聚类过程、主成分分析等等的结果。这可以允许处理装置110的用户(诸如临床医生)容易地访问存储的信息。

实施例可以利用处理器装置(诸如控制器)执行任何所描述的方法。控制器能够利用软件和/或硬件以多种方式实施，以执行所需的各种功能。处理器是采用一个或多个微处理器的控制器的一个范例，所述一个或多个微处理器可以使用软件(例如，微代码)来编程以执行所需的功能。然而，控制器可以在采用或不采用处理器的情况下实施，并且还可以被实施为执行一些功能的专用硬件和执行其他功能的处理器(例如，一个或多个编程的微处理器和相关联的电路)的组合。

可以在本公开的各种实施例中采用的控制器部件的范例包括但不限于常规微处理器、专用集成电路(ASIC)和现场可编程门阵列(FPGA)。

在各种实施方式中，处理器或控制器可以与一个或多个存储介质相关联，一个或多个存储介质诸如易失性和非易失性计算机存储器，诸如RAM、PROM、EPROM和EEPROM。存储介质可以利用一个或多个程序来编码，所述一个或多个程序当在一个或多个处理器和/或控制器上运行时执行所需的功能。各种存储介质可以被固定在处理器或控制器内，或者可以是可运输的，使得存储在其上的一个或多个程序可以被加载到处理器或控制器中。

因此可以存在包括计算机可读存储介质的计算机程序产品，所述计算机可读存储介质具有随其体现的计算机可读程序指令，当在处理器装置上运行时，所述计算机可读程序指令使所述处理器装置实施任一前述方法中的方法。

通过研究附图、说明书和随附权利要求书，本领域技术人员在实践所要求保护的本发明时可以理解和实现对所公开实施例的其他变型。在权利要求中，“包括”一词不排除其他元件或步骤，并且词语“一”或“一个”不排除多个。尽管在相互不同的从属权利要求中记载了特定措施，但是这并不指示不能有利地使用这些措施的组合。权利要求中的任何附图标记不应被解释为对范围的限制。

Claims

1.一种对多个对象中的类似对象进行聚类的方法(1)，所述方法包括：

获得对象数据的数据集(20)，所述数据集包含针对每个对象的相应定量值集合，每个定量值是所述对象的临床或病理特征的测量结果，并且每个定量值集合具有相同数量的定量值；以及

执行聚类过程(3)，包括：

对对象数据的所述数据集执行(4)主成分分析以识别至少两个主成分(PC1、PC2)，每个主成分与成分得分(cs₁、cs₂)和载荷的数据集(22A)相关联，载荷的每个数据集中的载荷的数量等于对象数据的所述数据集中的定量值的数量；

生成(5)加权值的第一数据集(51)，每个加权值基于载荷的所述数据集中的与头两个主成分中的一个主成分相关联的相应载荷，所述第一数据集中的加权值的数量等于载荷的所述数据集中的载荷的数量；

使用加权值的所述第一数据集对对象数据的所述数据集的所述定量值进行加权(6)，以获得对象数据的加权数据集(60)；以及

对对象数据的所述加权数据集执行(7)聚类算法以便将类似对象聚类成具有类似临床特性的对象组，其中，每个对象组中的对象具有类似的诊断、预测的对象结果和/或合适的处置选项。

2.根据权利要求1所述的方法，还包括获得加权值的第二数据集(52)的步骤(31)，所述第二数据集中的加权值的数量等于对象数据的所述数据集中的定量值的数量，并且

其中，生成加权值的所述第一数据集的步骤包括基于载荷的所述数据集中的与所述头两个主成分中的一个主成分相关联的相应载荷来修改加权值的所述第二数据集中的每个加权值，以由此获得加权值的所述第一数据集。

3.根据权利要求2所述的方法，其中，所述的修改加权值的所述第二数据集中的每个加权值包括：

选择(32)与第一主成分或第二主成分中的一个主成分相关联的载荷的数据集；以及

将加权值的所述第二数据集中的每个加权值乘以(33)载荷的所述数据集中的与所选择的主成分相关联的相应载荷，以获得加权值的修改的第一数据集。

4.根据权利要求3所述的方法，其中，所述的修改加权值的所述第二数据集中的每个值还包括将加权值的所述第二数据集中的每个加权值除以(34)0与1之间的随机或伪随机选择的数。

5.根据权利要求2至4中的任一项所述的方法，其中，所述的修改加权值的所述第二数据中的每个值包括基于载荷的所述数据集中的与所述头两个主成分中的随机或伪随机选择的一个相关联的相应载荷来修改加权值的所述第二数据中的每个值。

6.根据权利要求2至5中的任一项所述的方法，其中，所述的执行所述聚类过程包括迭代地执行所述聚类过程，并且其中，所述聚类过程还包括：

计算(41)指示通过所述聚类算法执行的所述聚类的质量的质量值；

响应于所述质量值大于第一预定阈值，利用加权值的所述第一数据集中的所述加权值来替换(43)加权值的所述第二数据集中的所述加权值；以及

响应于所述质量值在所述第一预定阈值以下，拒绝(44)加权值的所述第一数据集，并且保留加权值的所述第二数据集的所述加权值。

7.根据权利要求6所述的方法，其中，所述方法包括响应于以下中的任何一个或多个而中断(45)执行迭代聚类过程：

所述质量值大于第二预定阈值；

迭代次数大于预定迭代次数；

在所述迭代聚类过程期间逝去的时间长度大于预定时间长度；以及

加权值的所述第一数据集的相继拒绝次数大于预定拒绝次数。

8.根据权利要求6或7所述的方法，其中，所述第一预定值是基于使用加权值的所述第二数据集加权的对象数据的所述数据集通过所述聚类算法执行的聚类的质量值。

9.根据权利要求8所述的方法，还包括，在所述迭代聚类过程期间并且响应于所述质量值大于第一预定阈值，利用所述质量值来替换所述第一预定阈值。

10.根据权利要求8至9中的任一项所述的方法，还包括：

使用加权值的所述第二数据集对所述定量值进行加权，以获得对象数据的初始加权数据集；

对对象数据的所述初始加权数据集执行聚类算法，以便对类似对象进行聚类；以及

计算指示通过所述聚类算法执行的所述聚类的质量的质量值，以由此获得所述第一预定阈值。

11.根据权利要求6至10中的任一项所述的方法，其中，所述的计算质量值包括计算以下中的一个或多个：Dunn指数；轮廓宽度和Davies-Bouldin指数。

12.一种包括计算机可读存储介质的计算机程序产品，所述计算机可读存储介质具有随其体现的计算机可读程序指令，当在处理器装置上运行时，所述计算机可读程序指令使所述处理器装置实施根据任何前述权利要求所述的方法。

13.一种适于对多个对象中的类似对象进行聚类的处理器装置(110)，所述处理器装置包括：

获得单元(111)，其适于获得对象数据的数据集，所述数据集包含针对每个对象的相应定量值集合，每个定量值是所述对象的临床或病理特征的测量结果，并且每个定量值集合具有相同数量的定量值；以及

聚类单元(112)，其适于通过以下操作来执行聚类过程：

对对象数据的所述数据集执行主成分分析以识别至少两个主成分，每个主成分与成分得分和载荷的数据集相关联，载荷的每个数据集中的载荷的数量等于定量值集合中的定量值的数量；

生成加权值的第一数据集，所述第一数据集中的加权值的数量等于载荷的数据集中的载荷的数量，其中，加权值的所述第一数据集中的每个加权值基于载荷的所述数据集中的与头两个主成分中的一个主成分相关联的相应载荷；

使用加权值的所述第一数据集对所述定量值进行加权，以获得对象数据的加权数据集；以及

对对象数据的所述加权数据集执行聚类算法以便将类似对象聚类成具有类似临床特性的对象组，其中，每个对象组中的对象具有类似的诊断、预测的对象结果和/或合适的处置选项。

14.根据权利要求13所述的处理器装置，其中：

所述获得单元适于获得加权值的第二数据集，所述第二数据集中的加权值的数量等于对象数据的所述数据集中的定量值的数量，并且

所述聚类单元适于通过以下操作来生成加权值的所述第一数据集：基于载荷的所述数据集中的与头两个主成分中的一个主成分相关联的相应载荷来修改加权值的所述第二数据集中的每个加权值，以由此获得加权值的所述第一数据集。

15.根据权利要求14所述的处理器装置，其中，所述聚类单元适于迭代地执行所述聚类过程，并且其中，所述聚类过程还包括：

计算指示通过所述聚类算法执行的所述聚类的质量的质量值；

响应于所述质量值大于第一预定阈值，利用加权值的所述第一数据集中的所述加权值来替换加权值的所述第二数据集中的所述加权值；以及

响应于所述质量值在所述第一预定阈值以下，拒绝加权值的所述第一数据集，并且保留加权值的所述第二数据集的所述加权值。