CN111512381A

CN111512381A - 用于癌症概率的库筛选

Info

Publication number: CN111512381A
Application number: CN201880083387.8A
Authority: CN
Inventors: A·查特吉; W·王
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2018-01-08
Filing date: 2018-12-21
Publication date: 2020-08-07
Anticipated expiration: 2038-12-21
Also published as: JP7195514B2; DE112018005891T5; US20200350078A1; US20190362854A1; GB202011046D0; WO2019135143A1; US20190214141A1; US10692605B2; US11521747B2; US11521749B2; CN111512381B; GB2583310A; JP2021509502A

Abstract

提供了用于生成预测模型的方法、系统和计算机程序产品。处理器获得被指定为被诊断/预诊断患有病症或未被诊断患有病症的患者的原始数据集(肽库)。处理器将原始数据集分割成预定义数量的组并且分离出保持组。处理器对剩余组执行主成分分析以基于剩余组中的特征的频率来识别剩余组中的共同特征(主成分)并且基于出现频率对共同特征进行加权。处理器确定产生预定义级别的验证精度的最小数量的主成分。处理器通过利用逻辑回归模型中的最佳拟合的最小数目来生成预测模型。预测模型提供二进制结果。

Description

用于癌症概率的库筛选

背景技术

在美国，大约每八(8)名女性中的一(1)人(即12％)将在一生中发展为侵入性乳腺癌。在2017年之前，公共卫生组织已经估计在美国的女性中将诊断出252，710个新的侵入性乳腺癌病例，以及63，410个新的非侵入性(原位)乳腺癌病例。癌症的原位病例是其中恶性细胞作为肿瘤存在，但是既没有转移也没有侵入到肿瘤被发现的基底膜之外的那些。尽管治疗有所改善，在2017年在美国来自乳腺癌的女性的死亡数被估计为约40，610，这表示减少，因为数量从1989年来每年减少，尤其是在50岁以下的女性中。然而，在美国女性中，乳腺癌仍然是来自任何类型的癌症的主要死亡原因。据估计，女性中约百分之三十(30)的新诊断的癌症将是乳腺癌。尽管存在乳腺癌风险增加的某些遗传指标，但约85％的乳腺癌发生在没有乳腺癌家族史的女性中。目前，乳腺癌的最显著的风险因素是性别(是女性)和年龄(年长)。

发明内容

通过提供一种用于预测病症的可能性的计算机程序产品，克服了现有技术的缺点并且提供了额外的优点。所述计算机程序产品包括存储介质，所述存储介质可由处理电路读取且存储用于由所述处理电路执行以执行一种方法的指令。该方法包括，例如：由一个或多个处理器获得原始数据集，该原始数据集包括被指定为被诊断或预先诊断患有病症或未被诊断患有病症的患者的肽库；由所述一个或多个处理器将所述原始数据集分割成预定义数量的组，其中所述分割包括从剩余组中分离出数据的保持组；由所述一个或多个处理器对所述剩余组执行主成分分析以基于所述剩余组中的特征的频率由所述一个或多个处理器标识所述剩余组的数据中的共同特征并且基于所述剩余组中的出现频率对所述共同特征进行加权，其中所述共同特征包括由系数表示的主成分；由所述一个或多个程序确定产生预定义水平的验证准确度的所述主成分的最小数量；以及由所述一个或多个处理器通过利用所述最小数量的主成分作为用于逻辑回归模型中的最佳拟合的参数来生成预测模型，其中所述预测模型提供从由以下各项组成的组中选择的二进制结果：预定义阈值内存在所述病症的可能性或者所述预定义阈值内不存在所述病症的可能性。

通过提供一种预测病症的可能性的方法，克服了现有技术的缺点并且提供了额外的优点。该方法例如包括：由一个或多个处理器获得原始数据集，该原始数据集包括被指定为被诊断或预先诊断患有病症或未被诊断患有病症的患者的肽库；由所述一个或多个处理器将所述原始数据集分割成预定义数量的组，其中所述分割包括从剩余组中分离出数据的保持组；由所述一个或多个处理器对所述剩余组执行主成分分析以基于所述剩余组中的特征的频率由所述一个或多个处理器标识所述剩余组的数据中的共同特征并且基于所述剩余组中的出现频率对所述共同特征进行加权，其中所述共同特征包括由系数表示的主成分；由所述一个或多个程序确定产生预定义水平的验证准确度的所述主成分的最小数量；以及由所述一个或多个处理器通过利用所述最小数量的主成分作为用于逻辑回归模型中的最佳拟合的参数来生成预测模型，其中所述预测模型提供从由以下各项组成的组中选择的二进制结果：预定义阈值内存在所述病症的可能性或者所述预定义阈值内不存在所述病症的可能性。

通过提供一种用于预测病症的可能性的系统，克服了现有技术的缺点并且提供了额外的优点。该系统包括存储器、与该存储器通信的一个或多个处理器、以及可由该一个或多个处理器经由该存储器执行以执行一种方法的程序指令。该方法包括，例如：由一个或多个处理器获得原始数据集，该原始数据集包括被指定为被诊断或预先诊断患有病症或未被诊断患有病症的患者的肽库；由所述一个或多个处理器将所述原始数据集分割成预定义数量的组，其中所述分割包括从所述剩余组中分离出数据的保持组；由所述一个或多个处理器对所述剩余组执行主成分分析以基于所述剩余组中的特征的频率由所述一个或多个处理器标识所述剩余组的数据中的共同特征并且基于所述剩余组中的出现频率对所述共同特征进行加权，其中所述共同特征包括由系数表示的主成分；由所述一个或多个程序确定产生预定义水平的验证准确度的所述主成分的最小数量；以及由所述一个或多个处理器通过利用所述最小数量的主成分作为用于逻辑回归模型中的最佳拟合的参数来生成预测模型，其中所述预测模型提供从由以下各项组成的组中选择的二进制结果：预定义阈值内存在所述病症的可能性或者所述预定义阈值内不存在所述病症的可能性。

在此还描述并要求保护涉及一个或多个方面的方法和系统。进一步，在此还描述并且可以要求保护与一个或多个方面相关的服务。

通过在此描述的技术来实现附加特征和优点。在本发明的一些实施例中，该方法包括：由一个或多个处理器通过应用系数来计算用于保持组的特征来测试预测模型；以及由所述一个或多个处理器通过将所述保持组的所述特征与所述主成分进行比较来调谐所述预测模型。在本发明的一些实施例中，肽库包括12聚体(12-mer)肽库和/或病况包括I期乳腺癌。在本发明的一些实施例中，分割包括生成随机数以选择原始数据集的哪个记录分配给哪个组。

在本发明的一些实施例中，该方法包括在进行主成分分析之前，通过一个或多个处理器，通过将这些肽的肽值跨所有肽相加并且将每个表达值除以所得总和来计算比率，来归一化包括原始数据集的肽。

在本发明的一些实施例中，对剩余组执行主成分分析包括：由一个或多个处理器生成训练数据集，其中训练数据集的每个训练数据集包括除了剩余组中的一个组之外的所有组中的数据；由所述一个或多个处理器对每个训练数据集单独地执行主成分分析以标识每个训练数据集中的共同特征；由所述一个或多个程序利用所述剩余组作为单个训练集来执行主成分分析，以识别所述单个训练集中的共同特征；以及执行训练数据的每个集合的所述共同特征和所述单个训练集合中的所述共同特征的交叉验证，其中所述交叉验证具有等于所述剩余群组的数目的折叠数，以识别所述主成分并确定所述系数。在本发明的一些实施例中，预定义级别的验证准确度是基于折叠数的最高验证准确度。

在本发明的一些实施例中，该方法包括：通过一个或多个处理器获得包括给定个体的12聚体肽库的新原始数据；以及由所述一个或多个处理器将所述预测模型应用于所述新原始数据以确定所述给定个体的二进制结果。在本发明的一些实施例中，应用该预测模型包括利用这些系数对该新的原始数据执行主成分分析并且执行逻辑回归以生成该二进制结果。

附图说明

在本说明书的结论处，在权利要求书中具体指出并清楚地要求保护一个或多个方面作为实例。从以下结合附图的详细描述中，前述和其他目的、特征和优点是显而易见的，其中：

图1描绘了示出本发明的一些实施例的某些方面的工作流程；

图2描绘了示出本发明的一些实施例的某些方面的工作流程；

图3描绘了本发明的实施例的某些方面；

图4描绘了示出本发明的一些实施例的某些方面的工作流程；

图5描绘了可以在云计算环境中利用的计算节点的一个实施例；

图6描绘了根据本发明的实施例的云计算环境；并且

图7描绘了根据本发明的实施例的抽象模型层。

具体实施方式

附图进一步说明本发明，并且与本发明的详细描述一起用于解释本发明的原理，其中，贯穿单独的视图，相同的参考标号指代相同或功能相似的元件，并且附图被结合在本说明书中并且形成说明书的一部分。如本领域技术人员所理解的，提供附图是为了便于理解并且示出本发明的某些实施例的方面。本发明不限于附图中所描绘的实施例。

如本领域技术人员所理解的，贯穿本申请所提及的程序代码包括软件和硬件两者。例如，本发明的某些实施例中的程序代码包括固定功能硬件，而其他实施例利用所描述的功能的基于软件的实现方式。某些实施例组合两种类型的程序代码。程序代码的一个实例，也称为一个或多个程序，描绘于图5中，作为程序/实用程序40，具有一组(至少一个)程序模块42，可以存储在存储器28中。

本发明的实施例包括计算机实施的方法、计算机程序产品、和计算机系统，该计算机实施的方法、计算机程序产品和计算机系统识别最终存在乳癌增加的概率，其中一个或多个程序应用十二(12)个氨基酸(12聚体)肽库、免疫球蛋白G(IgG)抗体、以及各种计算机化的数据建模和计算机化的管理来在可接受的准确度水平内做出这种确定。肽库由编码各种肽的随机脱氧核糖核酸(DNA)序列组成，所述肽可以识别融合在噬菌体上的靶标。同时，IgG是在所有体液中发现的最丰富类型的抗体，并且针对细菌和病毒感染进行保护。

本发明的实施例的多个方面表示对现有计算技术的改进，并且与计算无关联。具体地，本发明的实施例表示处理大量数据和从数据构建逻辑模型的改进方法。例如，本发明的实施例降低了在最终结果中观察到的数据率，因为程序代码对用于构建模式的数据进行预处理，而不是使用较低效的二进制合并过程。

本发明的实施例的各方面不可避免地绑定到计算，至少因为通过本发明的实施例生成的电子模型(包括从训练数据生成的自动生成的自学习预测模型)不能在计算之外生成和在计算之外不存在。在本发明的实施例中最初利用的记录是机器可读的、包含在一个或多个数据库中的一个或多个数据集中的电子记录。所得到的模型也是电子的，并且应用于利用计算资源的附加电子数据集。由于数据的体积和性质两者，个体不能够实现本发明的实施例的特定方面，这些特定方面导致机器可读数据模型，该机器可读数据模型可由程序代码应用于附加数据集以便标识具有该模型被生成以预测将来某一(例如，预定义的)时间乳癌的可能存在的事件或病症的概率的记录。

本发明的实施例提供了以下个体和现有系统下不能提供的效用，由于它们的速度不能提供结果。为了有用，本发明的实施例中的程序代码在有限的临时时间段内生成和更新模型并且提供结果(与模型一致的记录的标识)。例如，在个体访问医疗保健提供者的场景中，个体和提供者将受益于获取关于个体是否在记录中具有与预测模型所寻求的数据匹配的项目的信息，该个体用数据(肽)库中的分离值电子表示。如果在访问中不能提供该信息，则可争论其对于个体或医疗保健提供者是无用的。由此，在本发明的实施例中，程序代码分析个体的给定样本，并且实时地或接近实时地应用预测模型。因此，本发明的实施例使得能够基于库中记录的大量肽是否与本发明的实施例中的程序代码生成的预测模型相一致来对电子数据库进行实时分析。

本发明的实施例提供了与计算机技术不可见地关联的优点和改进，同样因为本发明的实施例提供了提高计算效率和功效的某些优点。例如，如稍后更详细描述的，本发明的实施例利用基于预期查询结果的分布式处理，以便减少关键分析可递送物的时间线。该分布式处理使得程序代码能够同时执行多个分析过程。本发明的某些实施例的部分可以迁移到云架构中并且作为软件即服务(SaaS)供应对用户可用。云架构中的资源的无限计算能力适于支持程序代码的同时查询和过程的分发，以便满足系统在数据丰富环境中的效率需求。

本发明的实施例还提供了由于它们利用机器学习而不明显地依赖于计算机技术的优点和改进。本发明的一些实施例相对于在数据密集环境中进行事件(例如，病症)标识的现有方法的一个有利方面是一些其他方法将事件标识和识别的问题作为统计问题而不是机器学习问题解决，机器学习是限制可用工具中的选项的方法。通过利用机器学习，本发明的实施例可以识别包括事件的记录，其中直接识别事件的信息不存在。例如，通过使用机器学习，程序代码可以使用未诊断的患者的12聚体肽库鉴定具有发展乳腺癌的可能性的个体患者，即，其中数据尚未指示疾病存在于患者中。在一些情况下，程序代码可以利用机器学习来指示当在与个体相关的数据中指示出相反的情况时该个体具有发展乳腺癌的阈值概率。由此，程序代码不仅仅是识别和检索存储在一个或多个存储器设备中的现有建立的数据。相反，程序代码建立模式，连续地训练机器学习算法以应用该模式，并且利用所得到的预测模型来标识尚未由数据明确指示的事件的实例。

在本发明的实施例中，一个或多个程序利用主成分分析(PCA)(其是统计过程)来确定与匹配数据的训练集中的个体的数量的一个或多个特征相关的概念或成分的集合。PCA包括正交变换，以便将可能相关变量的观察值集合转换成被称为主成分的线性不相关变量的值集合。主成分的数量小于或等于原始变量的数量。由此，在本发明的实施例中，程序代码利用父概念来生成多个子成分。这种变换被限定的方式为使得第一主成分具有最大可能的方差(即，尽可能多地考虑数据中的可变性)，并且每个后续成分进而在其与前述成分正交的约束下具有可能的最高方差。得到的矢量是不相关的正交基集。PCA对原始变量的相对缩放敏感。

本发明的各个实施例的方面提供了优于现有系统的优点：利用计算机实施的方法、计算系统、和/或计算机程序产品基于生成和应用预测模型来预测个体中的乳癌的概率。现有方法依赖于乳腺癌标记多态性、DNA遗传密码的变化、采集组织、尿和/或乳样品以检测过度表达生物标志物、利用质谱分析术前样品、分析基因表达谱、分析来自核糖核酸(RNA)的基因表达数据以及引入免疫治疗剂或疫苗以触发应答。与这些现有方法相反，在本发明的实施例中，一个或多个程序部分基于分析12聚体肽的免疫特征样品并且训练程序代码来产生和应用预测模型，以便产生和识别指示乳腺癌患者中的可量化风险的模式。

图1提供了本发明的某些实施例的一些方面的通用工作流100。图2是工作流200，该工作流进一步详述了图1的工作流100中所包括的方面。

首先参考图1，在本发明的一些实施例中，一个或多个程序获取原始电子数据集(110)。在本发明的一个实施例中，原始电子数据包括来自使用抗人IgG抗体的12聚体肽库筛选的原始数据。该数据集可以包括高达12万(120K)个值，其中每个值代表通过一种方法分离的十二(12)个氨基酸长肽，该方法包括但不限于荧光标记，包括使用绿色染料。该数据集包括与先前诊断患有I期前或I期乳腺癌的个体和没有该诊断的个体有关的数据。数据集中的记录被标记以指示该表征。

利用该数据集，该一个或多个程序生成预测模型，该预测模型将与具有I期前或I期乳癌的个体相关的数据与在没有此诊断的情况下由该数据代表的个体区分开(120)。本发明实施例中一个或多个程序生成的预测模型可以理解为分类器或分类算法。在图2中更详细地讨论用于生成预测模型的过程。然而，在生成预测模型时，一个或多个程序利用数据集作为训练数据，并且基于由该数据集提供的训练来生成预测模型。

一个或多个程序获得与一个人有关的数据，不知道该人先前是否被诊断出患有I期前或I期乳腺癌，并且该人是否不具有此诊断也未知(130)。在本发明的一个实施例中，数据包括该个体的12聚体库中各肽的值。该数据可以包括120K个值。

在本发明的实施例中，一个或多个程序将预测模型应用于与个体相关的数据，以确定与个体相关的数据是否指示病症的概率(140)。该病症可以是以下各项中的一种或多种：个体将被诊断患有乳癌(例如，对于患有肿瘤的个体)的可能性(在给定范围内)和/或个体将从应用预测模型在给定时间段内被诊断患有乳癌的可能性。例如，本发明的一些实施例生成模型，该模型返回在未来时间(包括但不限于在一个或多个程序应用模型之后的两(2)年)标识病症的概率。

图2是与图1相比的更多细节工作流200，其展示了本发明的一些实施例的各个方面。如图1所示，在本发明的一些实施例中，所述一个或多个程序获取原始电子数据(110)，并利用该数据生成预测模型(120)。图2提供了关于该模型的生成的附加细节。

现在参考图2，在本发明的一个实施例中，所述一个或多个程序获得数据集，其中每个个体记录根据属于以下两类之一进行标记：1)与之前诊断为患有I期乳癌或接受该癌症预诊断的个体相关；或2)与明确未诊断患有这种癌症的个体相关(即，利用传统的诊断手段，没有该个体患有或具有这种癌症的开始阶段的迹象)(210)。如稍后将讨论的，数据包括12聚体肽的鉴定并且可以被理解为肽库。在本发明的实施例中，一个或多个程序处理数据以提高模型生成的效率。在本发明的一些实施例中，一个或多个程序将数据分成氨基酸序列部分(例如，dim：1100+乘120k+)和特征部分(例如，dim：1100+乘5，包括样品id、状态(status)、来源(source)、preDx和晶圆(wafer))。

该一个或多个程序通过将记录随机地分配给组来将记录分成预定义数量的组(220)。在本发明的一些实施例中，一个或多个程序生成多个随机种子，并且对于每个种子，将记录分成预定义数量的组。例如，如果随机数是25(25)，那么所述一个或一个以上程序将每第25个记录指派给所述组中的一者。一个或多个程序将持续地生成各种种子并且利用这些种子来对组进行记录的随机分配。这些组由一个或多个程序生成，诸如每个组包含与每个其他组相同(或相似)量的数据。在本发明的一个实施例中，基于所述随机化，所述一个或多个程序将所述记录分成六(6)组。

在本发明的实施例中，当一个或多个程序将数据分配到六个(6)组数据集(例如，2K聚体乘3个通道)时，两个部分、氨基酸序列部分和特征部分可作为列表对象存储在R中，其中子列表的数量等于组的数量(例如，6)，其名称在文件名称之后。样品-id-和-标记(sample-id-and-label)对可由所有子数据集共享以形成表。将样品id和状态(或标记)组合为键(key)以索引氨基酸序列数据。为了过滤类别或样本id等，一个或多个程序可以在该小表中执行过滤，然后使用行索引来提取相应的氨基酸序列数据。当一个或多个程序过滤氨基酸序列数据(以保持所有数据集共享的样品)时，一个或多个程序将行顺序改变为与表中相同的顺序。在本发明的实施例中，为了处理不平衡的类，一个或多个程序利用下采样和上采样来创建用于训练的类的平衡分布。

所述一个或多个程序选择所述组中所述一个或多个程序生成为保持的一个(1)组，并且指定剩余组用于执行与组(减去所述保持)一样多的交叉验证，其中在验证的每次迭代中，每次验证包括使用每个剩余组作为测试/验证集，同时使用剩余组(即，减去所述保持和所述测试集)作为训练集(230)。作为将在本文中讨论的PCA分析(例如，250)的一部分，一个或多个程序与存在多个组(少于分离的组)一样多次(即，折叠)执行该验证。由此，如果一个或多个程序生成六(6)组，则一个或多个程序执行五(5)次交叉验证。在执行该验证时，在交叉验证中涉及的组(即，除最初扣除的组之外的组的总数量)中，另一个(1)组被拉出作为测试组。一个或多个程序利用剩余的组(即，除初始减去的组和测试组之外的所有组)进行训练，而测试组用于执行验证。一个或多个程序以循环方式重复该操作若干次，该次数等于组数(减去第一个减去的组)的次数，使得这些组中的每个组被一个或多个程序用作验证集。由此，交叉验证中的折叠数等于训练数据集的数量。

返回至六个(6)组的示例。对于六个(6)组，一个或多个程序分离出第一组。该一个或多个程序利用五个(5)剩余组来执行5倍交叉验证。在执行该验证时，一个或多个程序选择五(5)个组中的一组作为测试组并执行与该组的验证，同时使用剩余的组作为训练数据。一个或多个程序重复该验证步骤，改变五个(5)组中的哪一个被指定为测试组。一个或多个程序以循环的方式重复该操作，直到五(5)组中的所有组用作测试组。

返回至图2，在本发明的一些实施例中，对于每个样品(或个体，如由电子记录表示的)，该一个或多个程序通过将跨120K肽的值相加并且然后将每个表达值除以该和来计算比率来使文库中由绿色染料识别的大约10万(120K)肽归一化(240)。归一化这些值使得该一个或多个程序能够比较跨个体和120K肽库的表达值。在本发明的一个实施例中，为了归一化，该一个或多个程序跨每个个体”s样品的120K肽添加表达，并且然后将相应的表达除以总和。

120K被用作图2中所展示的实施例中的实例。但如本领域技术人员所理解的，可以在各种样品中鉴定更多或更少的肽并用于本发明的实施例中。

在本发明的一些实施例中，对于每个训练集(如以上指定的，当测试组被组排除时，减去第一保持组)，一个或多个程序利用PCA来确定训练集中的一些个体(由电子记录表示)所共有的特征的数量(250)。PCA分析为所使用的每个随机数种子提供跨交叉验证步骤的稳定值。如本领域技术人员所理解的，PCA包括正交变换，以将可能相关变量的观察值集合转换成称为主成分的线性不相关变量的值集合。主成分的数量小于或等于原始变量的数量。由此，在本发明的实施例中，程序代码利用所识别的表达式值(通过归一化)，以基于测试数据来生成多个共同特征。这种变换被限定的方式为使得第一主成分具有最大可能的方差(即，尽可能多地考虑数据中的可变性)，并且每个后续成分进而在其与前述成分正交的约束下具有可能的最高方差。得到的矢量是不相关的正交基集。PCA对原始变量的相对缩放敏感。

返回至图2，在本发明的一个实施例中，一个或多个程序执行PCA以确定与测试数据(例如，250)中表示的个体相关的特征。在PCA中，一个或多个程序确定哪些特征在测试数据中最具代表性。部分地作为PCA的结果，由一个或多个程序生成的最终模型可以包括对个体所共有的特征的累积理解。所述一个或多个程序利用此数据来推断哪些特征具有最高方差，并且所述一个或多个程序可确定所述词语的次序。

一个或多个程序在交叉验证内部运行PCA(例如，250)。对于每个交叉验证的步骤，一个或多个程序在训练集上运行PCA，并在将它们馈送到用于预测的模型中之前使用来自该PCA结果的加载来变换验证，以计算验证准确度。在本发明的实施例中，一个或多个程序按照交叉验证步骤以及最终评估步骤(例如，稍后讨论的260)对每个训练集执行PCA，并且将结果列表写入每个子数据集的文件。当在交叉验证和建模中利用PCA结果文件的内容时，读取该PCA结果文件的一个或多个程序将被读到存储器中。

在完成单独的测试数据组的PCA之后，一个或多个程序将这些组(例如，在5折叠(5-fold)示例中的五个(5)组，所有组减去保持)组合成合并的训练数据集并执行PCA(260)。图3是由一个或多个程序在训练集上获得的PCA结果的示例，其中折叠1-5是个体训练集上的结果，并且折叠6是整个交叉验证上的结果。

该一个或多个程序通过利用通过PCA识别的多个特征(例如，基于优势性选择的)作为用于逻辑回归(LR)模型中的最佳拟合的参数来产生预测模型，以便获得(预测的)二元结果(例如，一定程度的误差内的I期乳腺癌或对照数据，像原始标记数据)(270)。此方面的结果是产生PCA系数(例如，270)。如图2所示，在本发明的一些实施例中，该一个或多个程序将PCA应用于该数据集并且利用所得主成分来构建逻辑回归模型，其目的是预测(二进制)类别标签，在此情况下是阶段I或控制。如在图2-3所示，该一个或多个程序利用交叉验证来调谐有待包括在该模型中的主分量的最佳数量(例如，10意指前10个组件，100意指前100个组件)。一个或多个程序选择产生折叠数的最高验证的最小(最佳)数。例如，在利用总共六个组和5倍验证的本发明的实施例中，一个或多个程序选择产生最高5倍验证准确度的最小(最佳)数。该一个或多个程序基于使用该参数的模型来评估测试的准确度。在本发明的这些6组实施例中，一个或多个程序执行交叉验证并且确定具有来自12聚体(绿色)的若干主成分的LR模型产生高达95％的平均验证准确度，并且高精确度适用于对测试集的评估。

在本发明的一些实施例中，一个或多个程序利用单个PCA导出特征来生成模型(例如，利用解释数据中的变化的最主要特征)。例如，一些模型可以仅包括来自12聚体数据的前三个衍生的主成分，因为它们可以产生95.08％0.005％的平均验证准确度和96.02％0.006％的ROC曲线下的平均验证面积(AUC)，以及96.72％的测试准确度和95.55％的测试AUC。在本发明的一些实施例中，一个或多个程序选择产生最高验证准确度和验证AUC的参数。

一个或多个程序通过利用PCA系数来计算用于保持数据(最初保持的组)的特征来测试和调谐预测模型(最佳拟合模型)(280)。这种调谐以及所描述的重复的PCA程序可以被理解为机器学习——通过利用具有已知信息的数据集重复各个步骤，一个或多个程序可以调整和提高所识别的特征(模式)的准确度，模型将利用该所识别的特征来确定病症是否存在。

该一个或多个程序获得包括给定个体的12聚体肽库的新的数据样品(290)。一个或多个程序通过应用调谐的预测模型对用于预测潜在I期乳腺癌的存在或不存在的结果的个体进行评分(295)。一个或多个程序通过使用所生成的PCA系数执行PCA计算并执行LR以生成(二进制)预测(例如，基于模型的阶段I的概率或没有阶段I的可获得的概率)来应用经调谐的预测模型。由此，一个或多个程序利用主成分作为预测模型的调整参数。

图4是示出了本发明的一些实施例的某些方面的工作流程400。具体地，一个或多个程序示出了一个或多个程序将获得的数据分成六(6)组的实施例。在本发明的一些实施例中，一个或多个程序获得代表个体的12聚体肽库表达并且被分为以下一类或两类的数据：1)I期或预测的I期，以指示参考癌症的存在或可能性；以及(2)控制，指示在第一类别不存在指示(410)。一个或多个程序使用随机的不同随机数种子来将数据分成六(6)个相等大小的组，以将记录(表示个体)分配到不同的组(420)。

一个或多个程序指定六个(6)组中的一个(1)作为保持并且剩余的组用于交叉验证(430)。如上所述，验证是5倍交叉验证，因为一个或多个程序以循环方式重复验证五次，直到每个组被用作验证集合。该一个或多个程序通过将跨120K肽的值相加并且然后将每个表达值除以该和来归一化库中大约120K肽的表达值以计算比率(440)。在本发明的一个实施例中，为了标准化，该一个或多个程序跨每个个体的样品的120K肽添加表达，并且然后将相应的表达除以总和。所述一个或多个程序执行PCA以确定表示在所述数据的给定训练集中的一些个体的一些共有特征，以生成一些特征(小于或等于表示在所述训练集中的个体的数量)(450)。存在数据的四(4)个训练集，并且每个训练集由不是保持组的五(5)个组中的四(4)个组成。所述一个或多个程序对每个训练集执行PCA。

一个或多个程序将五(5)个折叠组合成组合的训练数据集，并且一个或多个程序将PCA应用于组合的集合以确定特征的数量(460)。当一个或多个程序在交叉验证内运行PCA时，总之，一个或多个程序执行6个子数据集*(5倍+1cv集合作为测试整体)＝三十六(36)次的PCA。一个或多个程序选择产生将最高5-折叠验证准确性的最小数量的特征以拟合模型，通过将该数量的特征作为参数传递，以为预测二进制结果(阶段1或者控制)的逻辑回归(LR)模型最佳拟合(470)。通过利用从训练数据计算的PCA系数来计算用于保持数据的特征，一个或多个程序针对保持数据来测试/调谐所得到的最佳拟合模型(480)。

一旦创建该模型，可以使用用于预测潜在I期乳癌的不存在或存在的结果的该模型以一定概率对个体的12聚体肽库表达的任何新样本进行评分。为了计算对新样本的评分，一个或多个程序使用来自训练数据的系数(再次)执行PCA计算，然后应用于LR模型用于预测。

本发明的实施例包括计算机实施的方法、计算机程序产品和计算机系统，其包括由一个或多个处理器执行的一个或多个程序，该一个或多个程序获得原始数据集，该原始数据集包括被指定为被诊断或预先诊断患有病症或未被诊断患有病症的患者的肽库；所述一个或多个程序将所述原始数据集分割成预定义数量的组，其中所述分割包括从所述剩余组中分离出数据的保持组；由所述一个或多个程序对所述剩余组执行主成分分析以基于所述剩余组中的特征的频率由所述一个或多个处理器标识所述剩余组的数据中的共同特征并且基于所述剩余组中的出现频率对所述共同特征进行加权，其中所述共同特征包括由系数表示的主成分；由所述一个或多个程序确定产生预定义水平的验证准确度的所述主成分的最小数量；以及由所述一个或多个处理器通过利用所述最小数量的主成分作为用于逻辑回归模型中的最佳拟合的参数来生成预测模型，其中所述预测模型提供从由以下各项组成的组中选择的二进制结果：预定义阈值内存在所述病症的可能性或者所述预定义阈值内不存在所述病症的可能性。

在本发明的一些实施例中，一个或多个程序还通过应用系数来计算用于保持组的特征来测试预测模型；以及通过将所述保持组的特征与所述主成分进行比较来调谐所述预测模型。肽库可以包括12聚体肽库。该病症可以包括I期乳腺癌。

在本发明的一些实施例中，当所述一个或多个程序分割时，所述一个或多个程序生成随机数以选择所述原始数据集的哪条记录被分配给所述组中的哪一组。

在本发明的一些实施例中，在进行主成分分析之前，该一个或多个程序通过在所有肽上添加这些肽的肽值并且将每个表达值除以所得总和以计算比率来使包括原始数据集的肽归一化。

在本发明的一些实施例中，当所述一个或多个程序对所述剩余组进行主成分分析时，所述一个或多个程序生成训练数据集，所述训练数据集中的每个训练数据集包括所述剩余组中的除一个组之外的所有组中的数据。所述一个或多个程序单独地对训练数据的每个集合执行主成分分析以标识训练数据的每个集合中的共同特征。所述一个或多个程序利用剩余的组作为单个训练集来执行主成分分析以标识所述单个训练集中的共同特征；以及所述一个或多个程序执行每组训练数据的所述共同特征和所述单个训练集中的所述共同特征的交叉验证，其中交叉验证的折叠倍数等于其余组的数目，以识别主要成分并确定系数。

在本发明的一些实施例中，预定义级别的验证准确度是基于折叠倍数的最高验证准确度。

在本发明的一些实施例中，该一个或多个程序获得包括给定个体的12聚体肽库的新原始数据。一个或多个程序将预测模型应用于新的原始数据以确定给定个体的二进制结果。在本发明的一些实施例中，当该一个或多个程序应用该预测模型时，该一个或多个程序利用这些系数对该新的原始数据执行主成分分析并且执行逻辑回归以生成该二进制结果。

现在参考图5，其中显示了云计算节点的一个例子，其可以是云计算节点10。图5显示的云计算节点10仅仅是适合的云计算节点的一个示例，不应对本发明实施例的功能和使用范围带来任何限制。总之，云计算节点10能够被用来实现和/或执行以上所述的任何功能。在本发明的实施例中，例如，包括执行PCA的处理设备的计算资源可以被理解为一个或多个云计算节点10(图5)的一部分，如果不是云计算节点10的一部分的示例，那么可以是包括云计算节点10的各个方面的一个或多个通用计算节点的一部分。

云计算节点10具有计算机系统/服务器12，其可与众多其它通用或专用计算系统环境或配置一起操作。众所周知，适于与计算机系统/服务器12一起操作的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任意系统的分布式云计算技术环境，等等。

计算机系统/服务器12可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括执行特定的任务或者实现特定的抽象数据类型的例程、程序、目标程序、组件、逻辑、数据结构等。计算机系统/服务器12可以在通过通信网络链接的远程处理设备执行任务的分布式云计算环境中实施。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

如图5所示，可以用作云计算节点10的计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是能够被计算机系统/服务器12访问的任意可获得的介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示，通常称为“硬盘驱动器”)。尽管图1中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白，尽管图中未示出，其它硬件和/或软件模块可以与计算机系统/服务器12一起操作，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当理解，尽管本公开包括关于云计算的详细描述，但是本文所引用的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知或以后开发的任何其他类型的计算环境来实现。

云计算是一种服务递送模型，用于实现对可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便、按需的网络访问，所述可配置计算资源可以用最小的管理努力或与服务提供者的交互来快速配置和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特征如下：

按需自助服务：云消费者可按需自动地单方面供应计算能力，诸如服务器时间和网络存储，而无需与服务的提供者的人类交互。

广义网络接入：能力通过网络是可用的并且通过标准机制来访问，这些标准机制促进由异构瘦或厚客户端平台(例如，移动电话、膝上计算机、和PDA)使用。资源池化：提供者的计算资源被池化以使用多租户模型服务于多个消费者，其中不同的物理和虚拟资源根据需要被动态地指派和重新指派。存在位置独立性的意义，因为消费者通常对所提供资源的确切位置不具有控制或知识，但可能能够在较高抽象层级(例如，国家、州或数据中心)处指定位置。快速弹性：可以快速且弹性地提供能力(在一些情况下，自动地)以快速缩小并且快速释放以快速放大。对于消费者，可用于供应的能力通常显得不受限制，并且可以在任何时间以任何数量购买。

测量的服务：云系统通过利用适于服务类型(例如，存储、处理、带宽和活动用户账户)的某一抽象级别的计量能力来自动控制和优化资源使用。可监视、控制和报告资源使用，从而为所利用的服务的提供者和消费者两者提供透明度。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。应用可通过诸如web浏览器(例如，基于web的电子邮件)的瘦客户端接口从不同客户端设备访问。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至个体应用能力的底层云基础结构，可能的例外是有限的用户特定的应用配置设置。

平台即服务(PaaS)：提供给消费者的能力是将使用提供商支持的编程语言和工具创建的消费者创建或获取的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础结构，但是具有对所部署的应用以及可能的应用托管环境配置的控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够在其中部署和运行任意软件的其他基本计算资源，所述任意软件可包括操作系统和应用。消费者不管理或控制底层云基础结构，而是具有对操作系统、存储、所部署的应用的控制，以及对所选联网组件(例如，主机防火墙)的可能有限的控制。

部署模型如下：

私有云：云基础架构仅为组织操作。它可由组织或第三方管理，并且可存在于场所内或场所外。

社区云：云基础结构由若干组织共享并且支持具有共享的关注(例如，任务、安全要求、策略和合规性考虑)的特定社区。它可由组织或第三方管理，并且可存在于场所内或场所外。

公共云：使云基础架构对公众或大型产业组可用并且由销售云服务的组织拥有。

混合云：云基础架构是两个或更多个云(私有、社区或公共的)的组成，这些云保持唯一实体但通过实现数据和应用便携性的标准化或专有技术(例如，用于云之间的负载平衡的云突发)绑定在一起。

云计算环境是面向服务的，关注于状态、低耦合、模块性和语义互操作性。云计算的核心是包括互连节点网络的基础设施。

现在参考图6，其中显示了示例性的云计算环境50。如图所示，云计算环境50包括云计算消费者使用的本地计算设备可以与其相通信的一个或者多个云计算节点10，本地计算设备例如可以是个人数字助理(PDA)或移动电话54A，台式电脑54B、笔记本电脑54C和/或汽车计算机系统54N。云计算节点10之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点10进行物理或虚拟分组(图中未显示)。这样，云的消费者无需在本地计算设备上维护资源就能请求云计算环境50提供的基础架构即服务(IaaS)、平台即服务(PaaS)和/或软件即服务(SaaS)。应当理解，图6显示的各类计算设备54A-N仅仅是示意性的，云计算节点10以及云计算环境50可以与任意类型网络上和/或网络可寻址连接的任意类型的计算设备(例如使用网络浏览器)通信。

现在参考图7，其中显示了云计算环境50(图6)提供的一组功能抽象层。首先应当理解，图7所示的组件、层以及功能都仅仅是示意性的，本发明的实施例不限于此。如图7所示，提供下列层和对应功能：

硬件和软件层60包括硬件和软件组件。硬件组件的例子包括：主机61；基于RISC(精简指令集计算机)体系结构的服务器62；服务器63；刀片服务器64；存储设备65；网络和网络组件66。软件组件的例子包括：网络应用服务器软件67以及数据库软件68。

虚拟层70提供一个抽象层，该层可以提供下列虚拟实体的例子：虚拟服务器71、虚拟存储72、虚拟网络73(包括虚拟私有网络)、虚拟应用和操作系统74，以及虚拟客户端75。

在一个示例中，管理层80可以提供下述功能：资源供应功能81：提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取；计量和定价功能82：在云计算环境内对资源的使用进行成本跟踪，并为此提供帐单和发票。在一个例子中，该资源可以包括应用软件许可。安全功能：为云的消费者和任务提供身份认证，为数据和其它资源提供保护。用户门户功能83：为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能84：提供云计算资源的分配和管理，以满足必需的服务水平。服务水平协议(SLA)计划和履行功能85：为根据SLA预测的对云计算资源未来需求提供预先安排和供应。

工作负载层90提供云计算环境可能实现的功能的示例。在该层中，可提供的工作负载或功能的示例包括：地图绘制与导航91；软件开发及生命周期管理92；虚拟教室的教学提供93；数据分析处理94；交易处理95；以及生成预测模型96。

在任何可能的技术细节结合层面，本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在此所使用的术语仅用于描述具体实施例的目的并且不旨在是限制性的。如在此使用的，单数形式“一个”、“一种”和“该”旨在也包括复数形式，除非上下文另外清楚地指示。将进一步理解的是，当在本说明书中使用术语“包括”和/或“包括”时，其指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在，但不排除一个或多个其他特征、整数、步骤、操作、元件、组件和/或其组的存在或添加。

以下权利要求书中的所有装置或步骤加上功能元件(如果有的话)的相应结构、材料、动作和等效物旨在包括用于结合如具体要求保护的其他要求保护的元件来执行功能的任何结构、材料或动作。出于说明和描述的目的已经呈现了对一个或多个实施例的描述，但是并不旨在是详尽的或限于所公开的形式。许多修改和变化对本领域的普通技术人员将是明显的。选择和描述实施例以便最好地解释各个方面和实际应用，并且使得本领域普通技术人员能够理解具有适合于所预期的特定用途的不同修改的不同实施例。

Claims

1.一种计算机实现的方法，包括：

通过一个或多个处理器获得原始数据集，所述原始数据集包括被指定为被诊断或预先诊断患有病症或未被诊断患有病症的患者的肽库；

由所述一个或多个处理器将所述原始数据集分割成预定义数量的组，其中所述分割包括从所述剩余组中分离出数据的保持组；

由所述一个或多个处理器对所述剩余组执行主成分分析以基于所述剩余组中的特征的频率由所述一个或多个处理器标识所述剩余组的数据中的共同特征并且基于所述剩余组中的出现频率对所述共同特征进行加权，其中所述共同特征包括由系数表示的主成分；

由所述一个或多个程序确定产生预定义水平的验证准确度的所述主成分的最小数目；并且

由所述一个或多个处理器通过利用所述最小数量的主成分作为用于逻辑回归模型中的最佳拟合的参数来生成预测模型，其中，所述预测模型提供从由以下各项组成的组中选择的二进制结果：预定义阈值内存在所述病症的可能性或者所述预定义阈值内不存在所述病症的可能性。

2.如权利要求1所述的计算机实现的方法，进一步包括：

由所述一个或多个处理器通过应用所述系数来计算用于所述保持组的特征来测试所述预测模型；并且

由所述一个或多个处理器通过将所述保持组的所述特征与所述主成分进行比较来调谐所述预测模型。

3.如权利要求1所述的计算机实现的方法，其中所述肽库包括12聚体肽库。

4.如权利要求1所述的计算机实现的方法，其中该病症包括I期乳癌。

5.如权利要求1所述的计算机实现的方法，其中所述分割包括生成随机数以选择所述原始数据集合的哪条记录被分配给所述组中的哪一组。

6.如权利要求1所述的计算机实现的方法，包括：

在进行所述主成分分析之前，由该一个或多个处理器通过将所述肽的肽值跨所有肽相加并且将每个表达值除以一个所得总和来计算一个比率来归一化包括所述原始数据集的所述肽。

7.如权利要求1所述的计算机实现的方法，其中对所述剩余组执行主成分分析包括：

由所述一个或多个处理器生成训练数据集，其中，所述训练数据集中的每个训练数据集包括所述剩余组中的除了一个组之外的所有组中的数据；

由所述一个或多个处理器对每个训练数据集单独地执行主成分分析以标识每个训练数据集中的共同特征；

由所述一个或多个程序利用所述剩余组作为单个训练集来执行主成分分析，以识别所述单个训练集中的共同特征；并且

执行训练数据的每个集合的所述共同特征和所述单个训练集合中的所述共同特征的交叉验证，其中所述交叉验证具有等于所述剩余群组的数目的折叠数目，以识别所述主要成分并确定所述系数。

8.如权利要求7所述的计算机实现的方法，其中所述预定义级别的验证准确度是基于所述折叠数目的最高验证准确度。

9.如权利要求1所述的计算机实现的方法，进一步包括：

通过一个或多个处理器获得包括给定个体的12聚体肽库的新原始数据；并且

由所述一个或多个处理器将所述预测模型应用于所述新原始数据以确定所述给定个体的二进制结果。

10.如权利要求9所述的计算机实现的方法，其特征在于，应用所述预测模型包括利用所述系数对所述新原始数据执行主成分分析并执行逻辑回归以生成所述二进制结果。

11.一种计算机程序产品，包括：

计算机可读存储介质，所述计算机可读存储介质由处理器可读并且存储用于由所述一个或多个处理器执行的指令，所述指令用于执行一种方法，所述方法包括：

12.如权利要求11所述的计算机程序产品，进一步包括：

13.如权利要求11所述的计算机程序产品，其中所述肽库包括12聚体肽库。

14.如权利要求11所述的计算机程序产品，其中该病症包括I期乳癌。

15.如权利要求11所述的计算机程序产品，其中所述分割包括生成随机数以选择所述原始数据集合的哪条记录被分配给所述组中的哪一组。

16.如权利要求11所述的计算机程序产品，包括：

17.如权利要求11所述的计算机程序产品，其中对所述剩余组执行主成分分析包括：

18.如权利要求17所述的计算机程序产品，其中所述预定义级别的验证准确度是基于所述折叠数目的最高验证准确度。

19.如权利要求11所述的计算机程序产品，进一步包括：

20.一种系统，包括：

存储器；

与所述存储器通信的处理器；并且

可由所述处理器经由所述存储器执行以执行一种方法的程序指令，所述方法包括：