CN102762743A

CN102762743A - 用于心血管疾病的诊断和分类的生物标记物检验

Info

Publication number: CN102762743A
Application number: CN2010800635211A
Authority: CN
Inventors: 道格·哈林顿; 艾万格罗斯·海托普洛斯; 布鲁斯·菲尔普斯
Original assignee: Aviir Inc
Current assignee: Aviir Inc
Priority date: 2009-12-09
Filing date: 2010-12-09
Publication date: 2012-10-31
Also published as: AU2010328019A1; JP2013513387A; WO2011072177A3; US20150376704A1; US20110144914A1; CA2783536A1; WO2011072177A2; EP2510116A2; AU2010328019A2

Abstract

本文公开的方法、检验和试剂盒可以鉴定用于评价人的心血管健康的生物标记物，特别是miRNA和/或蛋白生物标记物人的心血管健康。在某些实施方式、方法、检验和试剂盒中，鉴定了循环miRNA和/或蛋白生物标记物，用于评价人的心血管健康。

Description

用于心血管疾病的诊断和分类的生物标记物检验

相关申请的交叉引用

本申请要求于2009年12月9日提交的美国临时专利申请No.61/285,121的权益，以其整体通过引用并入。

发明背景

动脉粥样硬化心血管疾病(ASCVD)是全球范围的发病率和死亡率的主因。几乎60％的心肌梗塞(MI)在具有0或1风险因子的人们中发生。即，经历心脏事件的大多数人们处于通过目前方法评价的低-中级或中级危险类。

遗传和环境因素的组合是造成疾病开始和发展(develop)的主要原因。动脉粥样硬化通常是无症状的并通过目前的诊断方法检测不出。事实上，对于许多人来讲，动脉粥样硬化心血管疾病的第一个症状是心脏病发作和心脏性猝死。

可正确预测并诊断心血管疾病及发展的检验和方法是非常令人期望的。

发明内容

本公开提供了用于评价人的心血管健康的方法、检验和试剂盒。在一种实施方式中，提供了用于评价人的心血管健康的方法，其包括：a)从人获得生物样品；b)测定生物样品中的选自于表20中列出的miRNA的至少2种miRNA标记物的水平；c)获得包括每种miRNA标记物水平的数据集；d)将所述数据输进分析分类程序，所述程序使用所述数据对生物样品分类，其中分类选自由动脉粥样硬化心血管疾病分类、健康分类、药物暴露分类、非药物暴露分类组成的组；以及e)基于步骤d)的分类确定针对所述人的治疗方案；其中评价了所述人的心血管健康。

一种用于评价人的心血管健康的方法，其包括：a)从人获得生物样品；b)测定生物样品中的选自下述组的至少3种蛋白标记物水平：IL-16、sFas、Fas配体、MCP-3、HGF、CTACK、嗜酸性粒细胞活化趋化因子(EOTAXIN)、脂联素、IL-18、TIMP.4、TIMP.1、CRP、VEGF和EGF；c)获得包括每种蛋白标记物水平的数据集；d)将所述数据输进分析分类程序，所述程序使用所述数据对生物样品分类，其中分类选自由动脉粥样硬化心血管疾病分类、健康分类、药物暴露分类、非药物暴露分类组成的组；以及e)基于步骤d)的分类确定针对所述人的治疗方案；其中评价了所述人的心血管健康。

一种用于评价人的心血管健康从而确定是否需要治疗方案或治疗方案的有效性的方法，其包括：从人获得生物样品；测定生物样品中的选自于表20中列出的miRNA的至少2种miRNA标记物水平；测定生物样品中的选自下述组的至少3种蛋白标记物水平：IL-16、sFas、Fas配体、MCP-3、HGF、CTACK、嗜酸性粒细胞活化趋化因子、脂联素、IL-18、TIMP.4、TIMP.1、CRP、VEGF和EGF；获得包括各个miRNA标记物和蛋白标记物的水平的数据集；将所述数据输进分析分类程序，所述程序使用所述数据对生物样品分类，其中分类选自由动脉粥样硬化心血管疾病分类、健康分类、药物暴露分类、非药物暴露分类组成的组；并按照分类程序的输出对生物样品分类；并基于分类确定针对所述人的治疗方案。

还在另一实施方式中，提供了用于评价人的心血管健康以确定是否需要治疗方案或治疗方案的有效性的试剂盒，所述试剂盒包括：检验装置，用于测定生物样品中的选自于表20中列出的miRNA的至少2种miRNA标记物水平和/或用于测定生物样品中的选自下述组的至少3种蛋白标记物水平：IL-16、sFas、Fas配体、MCP-3、HGF、CTACK、嗜酸性粒细胞活化趋化因子、脂联素、IL-18、TIMP.4、TIMP.1、CRP、VEGF和EGF；说明书，用于(1)获得包括每一种miRNA和/或蛋白标记物水平的数据集，(2)将所述数据输进分析分类程序，所述程序使用所述数据对生物样品分类，其中分类选自由动脉粥样硬化心血管疾病分类、健康分类、药物暴露分类、非药物暴露分类组成的组；以及(3)基于分类确定针对人的治疗方案。

还在另一实施方式中，用于评价人的心血管事件的风险，其包括：a)从人获得生物样品；b)测定样品中的选自IL-16、sFas、Fas配体、MCP-3、HGF、CTACK、嗜酸性粒细胞活化趋化因子、脂联素、IL-18、TIMP.4、TIMP.1、CRP、VEGF和EGF组成的组的三种或更多种蛋白标记物水平和/或表20中的2种或更多种miRNA水平；c)获得包括每种蛋白和/或miRNA生物标记物水平的数据集；d)将所述数据输进风险预测分析程序，以基于所述数据集测定心血管事件的风险；以及e)基于步骤d)中预测的心血管事件风险，确定针对所述人的治疗方案；其中评价了人的心血管事件风险。

附图简述

图1是描绘了基于逻辑回归方法的52个样品(26个病例和26个对照)集的期望的分类性能的图。期望的AUC和对应的95％置信区间从52个独立或合并样品的分类集的500个模拟中获得。误差棒上的开环表示使用合并的样品(每一合并中5个样品)的期望值和置信区间，所述样品具有假设服从对数-正态分布的生物标记物浓度或评分值。实线误差棒上的开环表示使用来自相同分布的独立样品的期望值和置信区间。实心黑圆点表示理论结果。x-轴表示病例和对照生物标记物或评分分布的均值差异。

图2是描绘了基于逻辑回归方法的52个样品(26个病例和26个对照)集的期望分类性能的图。期望AUC和对应的95％置信区间从52个独立或合并样品的分类集的500个模拟中获得。虚线误差棒上的开环表示使用合并的样品(每一合并中5样品)的期望值和置信区间，所述样品具有假设服从正态分布的生物标记物浓度或评分值。实线误差棒上的开环表示使用来自相同分布的独立样品的期望值和置信区间。实心黑圆点表示理论结果。x-轴表示病例和对照生物标记物或评分分布的均值差异。

图3是基于从44个miR物质的集中选择协变量的模型，对合并的样品分类的AUC值分布的图。AUC值的计算基于通过惩罚逻辑回归模型(具有L1惩罚)与数据拟合获得的100个预验证的分类评分向量。x-轴表示AUC和y-轴表示频率。如所显示的，平均AUC值是0.68。

图4是基于从44个miR物种的集中选择的协变量的模型对独立样品分类的AUC值分布的图。AUC值的计算基于通过使惩罚逻辑回归模型(具有L1惩罚)与数据拟合获得的100个预验证的分类评分向量。如所显示的，平均AUC值是0.78。

图5是基于44个miR物质和47个蛋白生物标记物的集中选择的协变量的模型对独立样品分类的AUC值分布的图。AUC值的计算基于通过使惩罚逻辑回归模型(具有L1惩罚)与拟合数据获得的100个预验证的分类评分向量。如所显示的，平均AUC值是0.75。

图6是显示miR和蛋白之间相关性的分布的图，所述相关性包括通过垂直线指示的最高负相关性和最高正相关性。

图7是显示仅单独的miR之间的相关性分布的图。

图8是显示了以基于单独的蛋白生物标记物数据计算的预验证评分(500次重复)为基础的AUC分布的图。

图9是显示了相对于对照的均值和标准偏差标准化的蛋白生物标记物的单变量危险比。

图10是显示了蛋白生物标记物的调整危险比(HR)的图。调整基于传统风险因子(TRF)：年龄、性别、心收缩血压(BP)、心舒张BP、胆固醇、高密度脂蛋白(HDL)、高血压、使用高血压药品、高脂血症、糖尿病和吸烟状况。

图11A和B是显示了最多5年随访的具有最高时间依赖性AUC和对应的值的标记物图。sFas、NT.proBNP、MIG、IL.16、MIG和ANG2的AUC在图11A中显示，Fas配体、SCD40L、脂联素、MCP.3、瘦素和调节活化蛋白(rantes)在图11B中显示。

图12是偏差下降的绝对值和标准误差作为Cox成比例危险回归模型中项的数目的函数的图。使用1-标准误差规则选择将包括在模型中的标记物的最佳数目。

图13A和B是分别显示了对照和病例的在Marshfield样品集上的从4个Cox PH模型中获得的线性预测值的核密度估计图。

图14A和B是分别显示了对照和病例的在MES样品集上的从4个Cox PH模型中获得的线性预测值的核密度估计图。

发明详述

本公开提供了用于评价人的心血管健康，和特别是预测、诊断和监测人类中的动脉粥样硬化心血管疾病(ASCVD)的方法、检验和试剂盒。公开的方法、检验和试剂盒鉴定循环微核糖核酸(miRNA)生物标记物和/或蛋白生物标记物，用于评价人的心血管健康。在方法、检验和试剂盒的某些实施方式中，循环miRNA和/或蛋白生物标记物被鉴定用于评价人的心血管健康。

在一种实施方式中，本公开提供了用于评价人的心血管健康以测定是否需要治疗方案或治疗方案的有效性的方法，所述方法包括：从人获得生物样品；测定生物样品中的选自表20水平列表的组的至少2种miRNA标记物；获得包括每一种miRNA标记物水平的数据集；将所述数据输进分析分类程序，所述程序使用所述数据对生物样品分类，其中分类选自由动脉粥样硬化心血管疾病分类、健康分类、药物暴露分类、非药物暴露分类组成的组；和按照分类程序的输出对生物样品分类并基于分类确定针对所述人的治疗方案。

在某些实施方式中，公开了用于评价人的心血管健康以测定是否需要治疗方案或治疗方案的有效性的方法，所述方法包括：从人获得生物样品；测定生物样品中的选自下述组的至少3种蛋白生物标记物水平：IL-16、sFas、Fas配体、MCP-3、HGF、CTACK、嗜酸性粒细胞活化趋化因子、脂联素、IL-18、TIMP.4、TIMP.1、CRP、VEGF和EGF；获得包括每种蛋白标记物水平的数据集；将所述数据输进分析分类程序，所述程序使用所述数据对生物样品分类，其中分类选自由动脉粥样硬化心血管疾病分类、健康分类、药物暴露分类、非药物暴露分类组成的组；和按照分类程序的输出对生物样品分类并基于分类确定针对所述人的治疗方案。

在另一实施方式中，提供了用于评价人的心血管健康的方法。在某些实施方式中，评价可用来测定是否需要治疗方案或治疗方案的有效性。方法包括：从人获得生物样品；测定生物样品中的选自表20中列出的miRNA的至少两种miRNA标记物水平；测定生物样品中的选自下述组的至少三种蛋白生物标记物水平：IL-16、sFas、Fas配体、MCP-3、HGF、CTACK、嗜酸性粒细胞活化趋化因子、脂联素、IL-18、TIMP.4、TIMP.1、CRP、VEGF和EGF；获得包括各个miRNA标记物和蛋白生物标记物水平的数据集；将所述数据输进分析分类程序，所述程序使用所述数据对生物样品分类，其中分类选自由动脉粥样硬化心血管疾病分类、健康分类、药物暴露分类、非药物暴露分类组成的组；和按照分类程序的输出对生物样品分类并基于分类确定针对所述人的治疗方案。

还在另一实施方式中，公开了用于评价人的心血管事件风险的方法。方法包括：从人获得生物样品；和测定样品中的(1)选自下述组的三种或更多种蛋白生物标记物：IL-16、sFas、Fas配体、MCP-3、HGF、CTACK、嗜酸性粒细胞活化趋化因子、脂联素、IL-18、TIMP.4、TIMP.1、CRP、VEGF和EGF和/或(2)表20中的两种或更多种miRNA的水平。在所述方法中，获得了包括每一种蛋白和/或miRNA生物标记物水平的数据集。数据被输入风险预测分析程序以基于数据集来预测心血管事件风险；和基于心血管事件预测风险确定针对所述人的治疗方案。可预测从获得和/或分析样品的日期起约1年、约2年、约3年、约4年、约5年或更多年的心血管事件风险。如下文描述的，预测的心血管事件可以是动脉粥样硬化疾病、MI等等的发展。

本公开通篇中术语“标记物”和“生物标记物”互换使用。

在公开的方法中，被检测的且其水平被测定的miRNA标记物的数目可以是1或多于1，比如2、3、4、5、6、7、8、9、10或更多。在某些实施方式中，检测的miRNA标记物的数目是3或5或更多。被检测的且其水平被测定的蛋白生物标记物的数目可以是1或多于1，比如2、3、4、5、6、7、8、9、10或更多。在某些实施方式中，1、2、3或5或更多种miRNA标记物被检测并且其水平被测定和1、2、3或5或更多种蛋白生物标记物被检测并且其水平被测定。

该公开的方法用于诊断和监测动脉粥样硬化疾病。动脉粥样硬化疾病也称为动脉粥样硬化、动脉硬化、动脉粥样化血管疾病、动脉闭塞疾病或心血管疾病，其特征是在血管壁上的斑块累积和血管炎症。血管炎症是活动的动脉粥样硬化疾病、不稳定的斑块或易损斑块的标志。斑块由累积的胞内和胞外脂类、平滑肌细胞、结缔组织、炎症细胞和糖胺聚糖组成。某些斑块还含有钙。不稳定的或活动的或易损斑块富集有炎症细胞。

通过例子的方式，本公开包括通过下述步骤产生在诊断和监测动脉粥样硬化疾病中有用的结果的方法：获得与样品关联的数据集，其中所述数据集至少包括关于单独的已被鉴定能预示动脉粥样硬化疾病的miRNA标记物或与蛋白生物标记物组合的miRNA标记物的定量数据；并将数据集输进分析程序，所述分析程序使用数据集来产生在诊断和监测动脉粥样硬化疾病中有用的结果。该定量数据可包括DNA、RNA、蛋白表达水平及其组合。

所公开的方法、检验和试剂盒还用于诊断和监测心血管疾病并发症，所述并发症包括心肌梗塞(MI)、急性冠脉综合征、中风、心力衰竭和心绞痛。常见并发症的例子是MI，其是指通常由流至心肌部分的冠状动脉血流量突然减少而导致的缺血性心肌坏死。在患有急性MI的大多数患者中，通常与斑块破裂关联的急性血栓，使供应损坏区域的动脉堵塞。斑块破裂通常在先前被炎症细胞富集的动脉粥样硬化斑块部分阻塞的动脉中发生。常见动脉粥样硬化并发症的另一例子是心绞痛——由流至心脏的血流量不足而导致的具有胸痛或不舒服的症状的病(condition)。

本公开鉴定了炎症的生物标记物谱，所述生物标记物谱可用于对动脉粥样硬化心血管疾病诊断和分类以及在从给定个体抽取血液起的具体时期内对心血管事件(例如，MI)风险预测。本公开中检验的miRNA和蛋白生物标记物是使用学习算法鉴定的那些，所述学习算法能在不同的动脉粥样硬化分类(例如诊断、分期、预后、监测、治疗反应)之间区分和预测假性-冠状动脉钙化评分。用于动脉粥样硬化分类的其他数据，比如临床指标(例如，传统风险因子)也可以是用来产生用于动脉粥样硬化分类的结果的数据集的一部分。

含有单独的或组合的本文公开的各种miRNA和蛋白生物标记物的定量数据和其他数据集组件(例如，DNA、RNA、临床指标的测量)的定量数据的数据集可被输入分析程序并用来产生结果。分析程序可以是具有确定参数的任何类型的学习算法，或换句话说，预测模型。通过将学习算法应用至适当类型的参照或对照数据，可开发针对多种动脉粥样硬化分类或风险预测的预测模型。通过适当个体采取适当行动方针，分析程序/预测模型的结果可被使用。例如，如果分类是“健康的”或“动脉粥样硬化心血管疾病”，那么结果可用来确定个体的适当临床疗程。

微RNA(本文中也称为miRNA、μRNA、mi-R)是长度约17-27个核苷酸的单链RNA分子形式，其调节基因表达。miRNA由来自转录它们但miRNA未被翻译成蛋白的DNA的基因编码(即它们是非编码RNA)；代替地，每个初级转录物(初级-miRNA)被加工为称为前-miRNA的短的茎-环结构并最终加工成功能miRNA。

与炎症关联并用于评价人的心血管健康的miRNA标记物包括但不限于，miR-26a、miR-16、miR-222、miR-10b、miR-93、miR-192、miR-15a、miR-125-a.5p、miR-130a、miR-92a、miR-378、miR-20a、miR-20b、miR-107、miR-186、hsa.let.7f、miR-19a、miR-150、miR-106b、miR-30c和let 7b的一种或多种。在某些实施方式中，miRNA标记物包括miR-26a、miR-16、miR-222、miR-10b、miR-93、miR-192、miR-15a、miR-125-a.5p、miR-130a、miR-92a、miR-378和let 7b的一种或多种。特别地，表20中列出的miRNA用于评价人的心血管健康。

与炎症关联并用于评价人的心血管健康的蛋白生物标记物包括但不限于，调节活化蛋白(RANTES)、TIMP1、MCP-1、MCP-2、MCP-3、MCP-4、嗜酸性粒细胞活化趋化因子(eotaxin)、IP-10、M-CSF、IL-3、TNFa、Ang-2、IL-5、IL-7、IGF-1、sVCAM、sICAM-1、E-选择素、P-选择素、白细胞介素-6、白细胞介素-18、肌酸激酶、LDL、oxLDL、LDL颗粒尺寸、脂蛋白(a)、肌钙蛋白I、肌钙蛋白T、LPPLA2、CRP、HDL、甘油三酯、胰岛素、BNP、趋化因子(fractalkine)、骨桥蛋白、骨保护素、制瘤素-M、髓过氧化物酶、ADMA、PAI-1(纤溶酶原激活物抑制剂)、SAA(循环的淀粉样蛋白A)、t-PA(组织型纤溶酶原激活物抑制剂)、sCD40配体、纤维蛋白原、高半胱氨酸、D-二聚物、白细胞计数、心脏型脂肪酸结合蛋白、MMP1、纤维蛋白溶酶原、叶酸、维生素B6、瘦素(leptin)、可溶性血栓调节蛋白、PAPPA、MMP9、MMP2、VEGF、PIGF、HGF、vWF和胱抑素C的一种或多种。在某些实施方式中，蛋白生物标记物包括IL-16、sFas、Fas配体、MCP-3、HGF、CTACK、嗜酸性粒细胞活化趋化因子、脂联素(adiponectin)、IL-18、TIMP.4、TIMP.1、CRP、VEGF和EGF的一种或多种。除了特殊的生物标记物之外，本公开还包括与示例的序列约90％、约95％或约97％同一的生物标记物变体。本文中使用的变体，包括多态性、剪接变体、突变等等。

蛋白生物标记物可以多种方式检测。例如，可利用体内成像来检测心脏组织中动脉粥样硬化-关联的蛋白的存在。此类方法可使用，例如，对此类蛋白特异性的标记的抗体或配体。在这些实施方式中，对多肽特异性的可检测-标记的成分，例如，抗体、配体等等被施用给个体(例如，通过注射)并使用标准成像技术对标记的细胞定位，所述标准成像技术包括但不限于，磁共振成像、计算机断层扫描等等。检测可使用一种显像剂或显像剂的混合物(cocktail)。

其他标记物可选自一种或多种临床指标，包括但不限于，年龄、性别、LDL浓度、HDL浓度、甘油三酯浓度、血压、体重指数、CRP浓度、冠状动脉钙化评分、腰围、吸烟状况、心血管疾病的过去病史、心血管疾病的家族史、心率、空腹胰岛素浓度、空腹葡萄糖浓度、糖尿病状况和使用的高血压药物。可使用本领域中已知的学习算法，比如线性判别分析、支持向量机器分类、递归特征去除、微阵列的预测分析、逻辑回归、CART、FlexTree、LART、随机森林、MART和/或存活分析回归(这些对本领域技术人员而言是已知的并在本文中进一步描述)鉴定用于使得动脉粥样硬化分类的其他临床指标。

本文公开的分析分类可包括使用预测模型。预测模型还包括用于分类的至少约0.68或更高的质量度量(quality metric)。在某些实施方式中，用于分类的质量度量是至少约0.70或更高。在某些实施方式中，质量度量选自曲线下面积(AUC)、危险比(HR)、相对风险度(RR)、再分类、阳性预测值(PPV)、阴性预测值(NPV)、准确度、敏感性和特异性、净重新分类指数、临床净重新分类指数。如本文中描述的可使用这些和其他度量。另外，可选择各种项目来提供质量度量。

获得数据集的每个组件(component)的定量数据并输入具有预先确定参数的分析程序(预测模型)并接着用来产生结果。

通过导致个体接收与样品关联的数据的任何技术，可获得数据。例如，通过由对本领域技术人员而言已知的方法产生个体自身的数据集，个体可获得数据集。可选择地，通过接收来自另一个体或实体的数据集或一种或多种数据值，可获得数据集。例如，实验室专业人员可产生某些数据值而其他个体，比如医学专业人员可将所有或部分数据集输入分析程序以产生结果。

技术人员应当理解尽管本公开通篇中提到“样品”但定量数据可从许多特征(比如取得方法、取得时间、组织来源等等)变化的多个样品中获得。

在产生用于动脉粥样硬化分类的结果的方法中，获得了本文中提供的蛋白标记物的血液、血清等等中的表达模式。与感兴趣的蛋白标记物关联的定量数据可以是允许用于动脉粥样硬化分类的结果产生的任何数据，所述数据包括与标记物关联的DNA或RNA水平的测量，但典型地是蛋白表达模式。可通过本领域技术人员而言已知的任何方法测量作为表达谱部分的蛋白水平，所述方法单独或经高通量方法产生定量测量。例如，得自血液的患者样品，例如血液、血浆、血清等等可被应用至特异性结合试剂或特异性结合试剂的组以测定感兴趣的蛋白标记物的存在与否和量。

针对存在感兴趣的单独的miRNA标记物或与蛋白标记物组合的miRNA标记物的表达水平，检验血液样品或源自血液的样品例如血浆、血清等等。典型地，抽取血液样品并测试衍生产物比如血浆或血清。另外，样品可源自其他体液，比如唾液、尿、精液、奶或汗液。样品还可源自组织，比如来自血管，比如动脉、静脉、毛细血管等等。另外，当miRNA和蛋白生物标记物二者都被检验时，它们可源自相同或不同的样品。即，例如，miRNA生物标记物可在源自血液的样品中检验，而蛋白生物标记物可在组织样品中检验。

典型地，与感兴趣的miRNA和蛋白标记物关联的定量数据得到表达谱形式。表达谱组成了对应于评估的许多标记物的许多miRNA或蛋白产物的相对或绝对表达值的集。在多种实施方式中，产生了至少约2、3、4、5、6、7或更多种标记物的含有表达模式的表达谱。表达谱的每个差异表达组件成员的表达模式可提供关于用于例如诊断、预后、监测治疗等等的预测值的特别的特异性和敏感性。

获得表达数据的许多方法是已知的并且这些技术的任何一种或多种单独地或组合地适于测定本公开的上下文中的表达模式和表达谱。

例如，可通过northern分析、PCR、RT-PCR、Taq Man分析、FRET检测、监测一种或多种分子信标、与寡核苷酸阵列杂交、与cDNA阵列杂交、与多核苷酸阵列杂交、与液体微阵列杂交、与微电子阵列杂交、cDNA测序、克隆杂交、cDN片段指纹、基因表达系列分析(SAGE)、差减杂交、差异显示和/或差异筛选来评估DNA和RNA(mRNA、初级-miRNA、前-miRNA、miRNA、前体发夹结构RNA、微RNP等等)的表达模式。这些和其他技术对本领域技术人员而言是熟知的。

本公开包括核酸分子，优选地以分离的形式存在的核酸分子。当在本文中使用时，当核酸分子实质上与编码其他多肽的污染核酸分子分开时，核酸分子是将被“分离的”。术语“核酸”被定义为编码和非编码RNA或DNA。在适当严格条件下与分子互补(即杂交)的并与分子保持稳定结合的核酸包括在本公开的范围内。此类序列展示了与本文公开的RNA至少50％、60％、70％或75％、优选地至少约80-90％、更优选地至少约92-94％和甚至更优选地至少约95％、98％、99％或更多核苷酸序列同一性并包括插入、缺失、摆动碱基、置换等等。其他考虑的序列是与本文公开的蛋白生物标记物序列共有至少约50％、60％、70％或75％、优选地至少约80-90％、更优选地至少约92-94％和最优选地至少约95％、98％、99％或更多同一性的序列。

不管源自天然来源或是合成的，本公开的范围内特别考虑的是基因组DNA、cDNA、RNA(mRNA、初级-miRNA、前-miRNA、miRNA、发夹结构前体RNA、RNP，等等)分子以及基于可选主链或包括可选碱基的核酸。

使用适于序列相似性搜索的程序blastp、blastn、blastx、tblastn和tblastx利用的算法、通过BLAST(Basic Local比对Search Tool)分析，测定核苷酸或氨基酸序列水平的同源性或同一性。通过BLAST程序使用的方法首先考虑在查询序列和数据库序列之间有和没有缺口的相似段，然后评估被鉴定的所有匹配的统计学显著性并最后仅总结满足预选的显著性阈值的那些匹配。直方图、摹状、比对、期望值(即，报告的对数据库序列匹配的统计学显著性阈值)、截止值、矩阵和滤器(低复杂度)的搜索参数在缺省设置下。柱状图、描述、比对、期望(即，数据库序列报告匹配的统计学显著性阈值)、截断值、矩阵和过滤值(低复杂度)的搜索参数为默认设置。通过blastp、blastx、tblastn和tblastx使用的缺省评分矩阵是BLOSUM62矩阵，推荐用于长度超过85个核苷酸或氨基酸的查询序列。

对于blastn，评分矩阵是通过M(即，一对匹配残基的奖励分)与N(即，错配残基的罚分)的比率设置的，其中M和N的缺省值分别是5和-4。四个blastn参数被如下调整：Q＝10(缺口产生惩罚)；R＝10(缺口延伸惩罚)；wink(字长增加量)＝1(沿着查询在每个字长增加量的位置产生字击中)；和缺口w＝16(设置产生缺口比对的窗口宽度)。等同的Blastp参数设置是Q＝9；R＝2；wink＝1；和缺口w＝32。GCG包版本10.0中可得到的序列之间的最佳拟合比较使用DNA参数缺口＝50(缺口产生惩罚)和字长＝3(缺口延伸惩罚)和蛋白比较中的等同设置是缺口＝8和字长＝2。

“严格条件”是下述那些(1)利用低离子强度和高洗涤温度，例如，在50℃下0.015M NaCl/0.0015M柠檬酸钠/0.1％SDS或(2)杂交期间利用变性试剂，比如甲酰胺，例如，42℃下，50％(vol/vol)甲酰胺，具有0.1％牛血清白蛋白/0.1％Ficoll/0.1％聚维酮/50mM磷酸钠缓冲液(pH6.5)，具有750mM NaCl、75mM柠檬酸钠。另一个例子是42℃下在50％甲酰胺、5×SSC(0.75M NaCl、0.075M柠檬酸钠)、50mM磷酸钠(pH 6.8)、0.1％焦磷酸钠、5×Denhardt′s溶液、超声处理的鲑精DNA(50pg/ml)、0.1％SDS和10％硫酸葡聚糖中杂交，42℃在0.2×SSC和0.1％SDS中洗涤多次。技术人员可容易地测定并适当改变严格条件以获得清楚的可检测的杂交信号。

本公开还提供了公开的核酸分子的片段。如本文中使用的，核酸分子的片段是指编码或非编码序列的一小部分。通过期望的用途测定片段大小。例如，如果为了编码蛋白的活性部分而选择片段，片段需要足够大以编码蛋白的功能区(多个)。例如，编码对应于预测的抗原区的肽的片段可被制备。如果片段将被用作核酸探针或PCR引物，那么为了在探查/引发期间获得相对小数目的假阳性而选择片段长度。

可通过提供定量测量并适于评估从样品中提取的多种标记物的对本领域技术人员而言已知的任何方法，评估蛋白表达模式，所述方法比如下述方法的一种或多种：ELISA三明治(sandwich)检验、流式细胞计数、质谱检测、量热检验、结合蛋白阵列(例如，抗体阵列)或荧光活化细胞分选(FACS)。

在一种实施方式中，方法包括在ELISA、抗体-标记的荧光珠阵列、抗体阵列或FACS筛选中使用标记的亲和试剂(例如，抗体、小分子等等)，所述亲和试剂识别一种或多种蛋白产物的表位。用于产生和评估抗体的方法是本领域中熟知的。

存在用于评估公开的生物标记物的表达模式和谱的许多合适的高通量格式(format)。典型地，术语“高通量”是指每天进行至少约100次检验或至少约500次检验或至少约1000次检验或至少约5000次检验或至少约10,000次检验或更多次检验的格式。当对检验计数时，检验的样品数目或标记物数目可被考虑。

进行高通量表达分析的许多技术平台是已知的。通常，此类方法包括受试者样品或蛋白标记物或二者的逻辑或物理阵列。通常的阵列格式包括液相和固相阵列二者。例如，利用液相阵列，例如用于核酸杂交、抗体或其他受体与配体结合等等的检验，可在多孔或微量滴定板中进行。具有96、384或1536个孔的微量滴定板是广泛可得到的，具有甚至更多数目的孔，例如3456和9600个孔的微量滴定板可被使用。通常，通过用于样品制备和分析的方法和装置例如机器人操作和加载系统，确定微量滴定板的选择。示例性的系统包括，例如，来自Luminex(Austin，TX)的xMAP

技术、来自Meso Scale Discovery(Gaithersburg，MD)的具有MULTI-ARRAY

和MULTI-SPOT

技术的SECTOR图像仪、来自Beckman-Coulter，Inc.(Fullerton，Calif.)的ORCA^TM系统和来自Zymark Corporation(Hopkinton，MA)的ZYMATE^TM系统、miRCURY LNA^TM微RNA阵列(Exiq on，Woburn，MA)。

或者，可有利地利用多种固相阵列，来测定在公开的方法、检验和试剂盒上下文中的表达模式。示例性格式包括膜或滤器阵列(例如，硝酸纤维素，尼龙)、插针阵列和珠阵列(例如，在液体“浆体”中)。典型地，对应于核酸或蛋白试剂的探针可被固定化，所述核酸或蛋白试剂与对应于候选库成员的表达产物特异性相互作用(例如与之杂交或与之结合)，所述固定化例如通过与固体载体直接或间接交联来实现。可耐受进行具体的表达检验必要的试剂和条件的基本上任何固体载体都可以使用。例如，功能化玻璃、硅、二氧化硅、改良的硅、多种聚合物比如(聚)四氟乙烯、(聚)偏氟乙烯、聚苯乙烯、聚碳酸酯的任何一种或其组合都可用作固相阵列的底物。

在一种实施方式中，阵列是“芯片”，芯片由例如上述提到的材料之一组成。与侯选库的各个组件的表达产物特异性相互作用的多核苷酸探针(例如RNA或DNA比如cDNA)、合成的寡核苷酸等等或结合蛋白比如抗体或抗原-结合片段或其衍生物以逻辑顺序方式附着到芯片上，即在阵列中。另外，具有对标记物核苷酸序列(取决于标记的样品的设计)的有义或反义序列特异性亲和性的任何分子可被固定在阵列表面上而不会丧失对标记物的特异性亲和性，并且所述分子可被获得并产生，用于以阵列方式生产，例如，特异性识别标记物的特异性核酸序列的蛋白、核酶、肽核酸(PNA)或具有特异性亲和性的其他化学品或分子。

可通过用多种基于激光或CCD的扫描仪扫描微阵列并用很多软件包例如IMAGENE^TM(Biodiscovery)、特征提取软件(Agilent)、扫描LYZE^TM(Stanford Univ.，Stanford，CA.)、GENEPIX^TM(Axon Instruments)提取特征来检测微阵列表达。

高通量蛋白系统包括从Ciphergen Biosystem，Inc.(Fremont，Calif.)商购的系统，比如PROTEIN CHIP^TM阵列和FASTQUANT^TM人类趋化因子蛋白微点阵列(S&S Bioscences Inc.，Keene，N.H.，US)。

可通过对本领域技术人员而言已知的方法，测定关于其他数据集组件比如临床指标、代谢测量和遗传检验的定量数据。

由此获得的关于miRNA、蛋白标记物和其他数据集组件(即，临床指标等等)的定量数据经受具有先前使用学习算法测定的参数的分析程序，即，输入预测模型。分析程序的参数可以是本文公开的那些或使用本文中描述的指导得到的那些。学习算法比如线性判别分析、递归特征去除、微阵列的预测分析、逻辑回归、CART、FlexTree、LART、随机森林、MART或另一机器学习算法被应用至适当参照或训练数据以测定适于多种动脉粥样硬化分类的分析程序的参数。

用来产生结果(分类、存活/事件发生时间等等)的分析程序可以是能提供用于对样品分类的结果的任何类型的程序，例如，获得的数据集与参照数据集的比较、线性算法、二次算法、决策树算法或表决算法。

本文中描述了获得用于制造动脉粥样硬化分类结果的各种分析程序，但是，本领域技术人员容易理解任何合适类型的分析程序在本公开范围内。

输入分析程序之前，通过通常一式两份或一式三份或多次重复测量每一标记物的值，收集每一数据集中的数据。数据可被处理，例如，使用标准曲线，原始数据可被变换，且重复测量的平均值用来计算每一患者的平均值和标准偏差。这些值在用在模型中之前可被变换，例如对数-变换、Box-Cox变换等等。这些数据可接着被输入具有确定参数的分析程序。

分析程序可设置阈值，用于测定样品属于给定种类的概率。概率优选地是至少50％或至少60％或至少70％或至少80％、至少90％或更高。

在其他实施方式中，分析程序测定获得的数据集和参照数据集之间的比较是否产生统计学上显著差异。假如这样的话，那么从中获得数据集的样品被归类为不属于参照数据集种类。相反地，如果该比较不是统计学上显著不同于参照数据集，那么从中获得数据集的样品被归类为属于参照数据集种类。

通常，分析程序是通过统计学分析方法(比如下文描述的那些)产生的模型形式。此类分析程序的例子可包括线性算法、二次算法、多项式算法、决策树算法、表决算法。线性算法可具有形式：

R = C_{0} + Σ_{i = 1}^{N} C_{i} x_{i}

其中R是获得的有用的结果。C₀是可以是零的常数。C_i和x_i分别是常数和可应用的生物标记物或临床指标的值并且N是标记物总数。

二次算法可具有形式：

R = C_{0} + Σ_{i = 1}^{N} C_{i} x_{i}^{2}

其中R是获得的有用的结果。C₀是可以是零的常数。C_i和x_i分别是常数和可应用的生物标记物或临床指标d值并且N是标记物总数。

多项式算法是线性或二次算法的更为一般的形式，其可具有形式：

R = C_{0} + Σ_{i = 0}^{N} C_{i} x_{i}^{N}

其中R是获得的有用的结果。C₀是可以是零的常数。C_i和x_i分别是常数和可应用的生物标记物或临床指标的值；y_i是X_i的幂且N是标记物总数。

使用任何合适的学习算法，适当的参照或训练数据集可用来测定将被用于分类的分析程序的参数，即，开发预测模型。将被使用的参照或训练数据集会取决于将被测定的期望的动脉粥样硬化分类。数据集可包括来自两个、三个、四个或更多种类的数据。例如，为了使用监督学习算法来测定用来诊断动脉粥样硬化的分析程序的参数，包含对照和疾病样品的数据集用作训练集。可选择地，如果监督学习算法将被用来开发用于动脉粥样硬化分期的预测模型，那么训练集可包括心血管疾病的各个阶段的每一阶段的数据。

下述是本领域技术人员已知的统计学分析方法类型的例子，用以帮助所公开的方法、检验和试剂盒的实施。可针对两个任务中的一个或二者应用统计学分析。首先，这些和其他统计学方法可用来鉴定会形成优选数据集的标记物和其他指标的优选子集。另外，这些和其他统计学方法可用来产生分析程序，所述分析程序将使用数据集来产生结果。本文中列出的若干种统计学方法或本领域中以其他方式可得到的统计学方法将进行这两个任务并产生适于用作本文公开的方法实施的分析程序的模型。

本文中鉴定了生物标记物，其对应的特征值(例如，浓度、表达水平)例如能区分健康和动脉粥样硬化。这些标记物和其对应的特征(例如，浓度、表达水平)可用来开发分析程序或多个分析程序，所述程序区分患者的种类。下文的例子阐明了数据分析算法可怎样用来构建许多此类分析程序。在例子中描述的数据分析算法中的每一个使用贯穿包括健康和动脉粥样硬化患者的训练群的本文中鉴定的标记物子集的特征(例如，表达值)。用于建立在本文公开的受试者之间区别的分析程序或多个分析程序的具体的数据分析算法将在下文分部中描述。一旦使用这些示例性数据分析算法或本领域中已知的其他技术建立了分析程序，分析程序可用来将测试受试者归类为两种或多种表型种类(例如，健康或动脉粥样硬化患者)之一和/或预测存活/事件发生时间。这是通过将一种或多种分析程序应用至从测试受试者获得的一种或多种标记物谱实现的。此类分析程序因此具有作为诊断指标的巨大价值。

在一个方面中，公开的方法、检验和试剂盒提供了针对从训练群获得的标记物谱对来自测试受试者的一种或多种标记物谱的评估。在一些实施方式中，从训练群的受试者以及测试受试者获得的每一标记物谱包含多种不同标记物的每一种的特征。在一些实施方式中，该比较是通过下述实现的：(i)使用来自训练群的标记物谱开发分析程序，和(ii)将分析程序应用至来自测试受试者的标记物谱。像这样，在本文公开的方法的一些实施方式中应用的分析程序用来测定测试受试者是否患有动脉粥样硬化。在可选择的实施方式中，本文公开的方法测定受试者是否经历MI和/或可预测事件发生时间(例如MI和/或存活)。

在本文公开的方法的一些实施方式中，当分析程序应用的结果表示受试者将有可能经历MI，受试者被诊断/归类为“MI”受试者。或者，如果，例如，分析程序的结果表示受试者将可能发展动脉粥样硬化，受试者被诊断为“动脉粥样硬化”受试者。如果分析程序应用的结果表示受试者将不会发展开发动脉粥样硬化，受试者被诊断为健康的受试者。因此，在一些实施方式中，上述的二元决策情形的结果具有四个可能的后果：(i)真正的动脉粥样硬化，其中分析程序表示受试者将发展动脉粥样硬化并且受试者事实上在确定时间段期间的确发展了动脉粥样硬化(真阳性，TP)；(ii)假性动脉粥样硬化，其中分析程序表示受试者将发展动脉粥样硬化并且受试者事实上在确定时间段期间没有发展动脉粥样硬化(假阳性，FP)；(iii)真正健康的，其中分析程序表示受试者将不会发展动脉粥样硬化并且受试者事实在确定时间段期间没有发展动脉粥样硬化(真阴性，TN)；或(iv)假性健康的，其中分析程序表示受试者将不发展动脉粥样硬化并且受试者事实上在确定时间段期间的确发展了动脉粥样硬化(假阴性，FN)。

应该意识到，可对TP、FP、TN、FN做其他定义。同时所有这些可选择的定义在公开的方法、检验和试剂盒的范围内，为了易于理解，除非另外指出，通过上文定义(i)至(iv)给出的TP、FP、TN和FN的定义将在本文中使用。

如将被本领域技术人员意识到的，许多定量标准可用来传达测试标记物谱和参照标记物谱之间做出的比较(例如，分析程序应用至来自测试受试者的标记物谱)。这些包括阳性预测值(PPV)、阴性预测值(NPV)、特异性、敏感性、准确度和确定性。另外，诸如接受者操作曲线(ROC)的其他构建可用来评估分析程序性能。本文中使用：PPV＝TP/(TP+FP)、NPV＝TN/(TN+FN)、特异性＝TN/(TN+FP)、敏感性＝TP/(TP+FN)和准确度＝确定性＝(TP+TN)/N。

这里，N是被比较的样品的数目(例如，寻求测定动脉粥样硬化或健康的测试样品的数目)。例如，考虑其中有十个寻求分类的受试者。针对十个测试受试者的每一个，构建标记物谱。然后，通过应用分析程序，评估标记物谱的每一个，其中基于获得自训练群的标记物谱开发分析程序。在该例子中，来自上述方程的N等于10。典型地，N是许多样品，其中每一样品收集自群的不同的成员。该群事实上是两个不同的类型。在一个类型中，群体包括其样品和表型数据(例如，受试者是否发展动脉粥样硬化的标记物和指示的特征值)用来构建或改进分析程序的受试者。该群体在本文中被称作训练群。在另一类型中，群体包括不是用来构建分析程序的受试者。该群体在本文中被称作验证群。除非另外指出，由N表示的群或者是排他的训练群或者是排他的验证群，这与两个群体类型的混合群相反。应当意识到，当它们基于相对验证群的训练群时，分数比如准确度会更高(接近于统一)。然而，除非在本文中另外明确指出，用来评价分析程序(或评估来自测试受试者的生物标记物谱的其他形式)的性能(包括确定性(准确度))的所有标准是指下述标准，所述标准是通过将对应于标准的分析程序或者应用至训练群或者验证群测量的。

在一些实施方式中，N多于1、多于5、多于10、多于20、在10和100之间、多于100或少于1000个受试者。在一些实施方式中，针对训练群或验证群，分析程序(其他比较形式)可具有至少约99％的确定性或甚至更高的确定性。在其他实施方式中，针对训练群或验证群，确定性至少约97％、至少约95％、至少约90％、至少约85％、至少约80％、至少约75％、至少约70％、至少约65％或至少约60％。取决于具体的方法，可改变有用的确定性程度。本文中使用的，“确定性”表示“准确度”。在一种实施方式中，针对训练群或验证群，敏感性和/或特异性是至少约97％、至少约95％、至少约90％、至少约85％、至少约80％、至少约75％或至少约70％。在一些实施方式中，这种分析程序是用来预测动脉粥样硬化的发展，具有所述的准确度。在一些实施方式中，这种分析程序用来诊断动脉粥样硬化，具有所述的准确度。在一些实施方式中，这种分析程序是用来测定动脉粥样硬化的阶段，具有所述的准确度。

可被分析程序使用从而以足够的确定性对测试受试者分类的特征的数量是2个或更多个。在一些实施方式中，其是3个或更多个、4个或更多个、10个或更多个或在10个和200个之间。但是，取决于寻求的确定性程度，分析程序使用的特征数量可更多或更少，但在所有的情况下至少是2个。在一种实施方式中，可被分析程序使用来对测试受试者分类的特征数量被优化以允许具有高的确定性的测试受试者分类。

在某些实施方式中，分析程序用于预测存活。存活分析包括模拟事件发生时间数据。成比例危险模型是统计学中的一类存活模型。存活模型使一些事件发生之前经过的时间与可与数量关联的一个或多个协变量相关。在成比例风险模型中，协变量中单位增加的独特作用是关于危险比倍增的。存活模型可视为由两部分组成：潜在的危险函数，通常表示为∧0(t)，其描述在协变量的基线水平下危险(风险)如何随着时间变化；和效应参数，其描述危险如何响应解释协变量而变化。典型的医学例子可包括协变量比如治疗任务，以及患者特征(比如年龄、性别和存在其他疾病)，以降低可变性和/或控制混淆。

成比例危险假设是协变量乘危险的假设。在固定系数的最简单情况下，例如，用药物治疗可比方说，在任何给定的时间t下等分受试者的危险，同时基线危险可变化。但是，注意协变量不限于二元预测值；在连续协变量x的情况下，危险成对数响应；x的每个单位的增加导致危险成比例增加。典型地在全常规Cox模型下，基线危险从考虑中“整体排除”或试探性地去除，并且剩余的偏似然(partial likelihood)被最大化。通过任何成比例的危险模型评估的协变量的作用可因而报告为危险比。Cox模型假设，如果成比例危险假设成立，估计效应参数而不考虑危险函数是可能的。

开发分析程序的相关数据分析算法包括但不限于，判别分析包括线性、逻辑性和更多灵活的区别技术；基于树的算法比如分类和回归树(CART)和变体；广义可加模型；神经网络、惩罚回归方法等等。

在一种实施方式中，将测试受试者的标记物谱与获得自训练群的(一个或多个)标记物谱进行比较，并包括应用分析程序。使用数据分析算法，比如计算机模式识别算法构建分析程序。构建分析程序的其他合适的数据分析算法包括但不限于，逻辑回归或非参数算法，其检测特征值分布的差异(例如，Wilcoxon符号等级测试(未调整的和调整的))。对应于来自1、2、3、4、5、10、20或更多个标记物的测量的可观察量，分析程序可基于2、3、4、5、10、20或更多个特征。在一种实施方式中，分析程序是基于数百个特征或更多。分析程序也可使用分类树算法建立。例如，来自训练群的每个标记物谱可包含至少3个特征，其中特征是分类树算法中的预测值。分析程序预测群(或类)中的从属关系，准确度为至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约95％、至少约97％、至少约98％、至少约99％或约100％。

本领域中已知合适的数据分析算法。在一种实施方式中，本公开的数据分析算法包括分类和回归树(CART)、多重累计回归树(MART)、微阵列的预测分析(PAM)或随机森林分析。这种算法将来自生物材料，比如血液样品的复杂谱分类，以区分受试者为正常的或具有特定疾病状态的生物标记物水平特征。在其他实施方式中，本公开的数据分析算法包括ANOVA和非参数化等价、线性判别分析、逻辑回归分析、最近邻分类分析、神经网络、主成分分析、二次判别分析、回归分类和支持向量机器。虽然这种算法可用于构建分析程序和/或提高分析程序应用的速度和效率并避免调查人员的偏见，但本领域普通技术人员可认识到基于计算机的算法对于执行本公开的方法不是必须的。

不管用于产生标记物谱的方法如何，分析程序可用来评估生物标记物谱。例如，合适的分析程序可用来评估使用气相色谱产生的标记物谱、通过静态飞行时间二次离子质谱(TOF-SIMS)获得的谱，使用MALDI-TOF-MS和液相色谱-电喷雾离子化质谱(LC/ESI-MS)，通过MALDI-TOF-MS谱分析以高确定性(79-89％正确分类比率)区分菌株，以便在复杂生物样品中对生物标记物谱分类。

开发使用本文公开的标记物表达水平的分析程序的一种方法是最近中值距离分类器(nearest centroid classifier)。这种技术针对每类(例如，健康的和动脉粥样硬化的)计算该类中标记物平均表达水平给出的重心，并接着将新的样品分配到最接近重心的类。除了聚类(cluster)被已知的类替换，该方法与k-平均聚类相似。当使用许多标记物时，该算法可对噪声灵敏。对该技术的增强使用收缩：对于每一标记物，如果种类质心之间的差异被认为可能是由于偶然，种类质心之间的差异设为零。该方法在微阵列预测分析或PAM中实施。收缩被阈值控制，低于所述阈值的差异被认为是噪声。在噪声水平之上未显示差异的标记物被去除。可通过交叉验证选择阈值。随着阈值降低，更多标记物包括在内并且估计的分类错误降低，直到它们达到底部并由于噪声标记物开始再次攀升——这种现象称为“过拟合”。

多重累计回归树(MART)代表构建分析程序的另一种方式，其可用于本文中公开方法中。MART的常规算法是：

1.初始化

F_{0} (x) = \arg \min y Σ_{l = 1}^{N} L (y_{i}, y)

2.对于m＝l至M：

(a)对于l＝1、2、..、N计算

(b)使回归树与产生终端区域Rjm，j＝1、2、...、Jm的目标边缘拟合(c)对于j＝1、2、...、Jm计算

3.输出f(x)＝f_M(x)。

通过插入不同的损失标准L(y，f(x))获得具体的算法。算法的第一行初始化来优化常数模型，其仅仅是单终端结点树。2(a)行中计算的负梯度的分量称为广义的伪残量，r。本领域已知通常使用的损失函数的梯度。与MART程序关联的协调参数是迭代M的数量和成分树J.sub.m，m＝1、2、...、M的每个的容量。

在一些实施方式中，使用回归建立用来对受试者分类的分析程序。在这种实施方式中，分析程序可表征为回归分类器，优选地逻辑回归分类器。这种回归分类器包括用来构建分类器的标记物的每种(例如，每种此类标记物的表达水平)的系数。在这种实施方式中，使用例如最大似然法计算回归分类器的系数。在这种计算中，使用生物标记物的特征(例如，RT-PCR、微阵列数据)。在某些实施方式中，使用来自仅两个特征亚组(例如，健康的患者和动脉粥样硬化患者)的分子标记物数据，并且因变量是在获得标记物数据的受试者中特殊特征的缺乏或存在。

在另一实施方式中，训练群包括多个特征亚群(例如，三个或多个特征亚群，四个或更多个具体的特征亚群，等等)。这些多重特征亚群可对应训练群中的从健康的、到轻微动脉粥样硬化至中度动脉粥样硬化等等的表型发展的不连续阶段。在这种实施方式中，处理多种类响应的逻辑回归模型的产生可用来开发下述决策，所述决策在训练群中出现的各种特征亚群之间区别。例如，选择的分子标记物的测量数据可应用至任何多种类logit模型，以便开发分类器，所述分类器能够在训练群中出现的任何多个特征亚群之间区别。

在一些实施方式中，分析程序基于回归模型，优选地基于逻辑回归模型。这种回归模型包括在本文公开的选择的标记物组中的每一标记物的系数。在这种实施方式中，使用例如，最大似然法计算回归模型的系数。在特别的实施方式中，使用来自两个组(例如，健康的和患病的)的分子标记物数据并且因变量是对应于标记物特征数据的患者状况。

公开的方法、检验和试剂盒的一些实施方式提供了处理多种类(多叉分枝)响应的逻辑回归模型的一般化。这种实施方式可用来将生物体区别成一个或三个或多个分类。这种回归模型使用多种类logit模型，其同时提及所有种类对并描述在一个种类而非另一种类中的响应的几率(odds)。一旦模型指定某些(J-1)种类对的分对数(logits)，剩下的则是冗余的。

线性判别分析(LDA)试图基于某些目标性质将受试者分类成两个种类。换句话说，LDA测试了在实验中测量的目标属性是否预测目标分类。LDA典型地需要连续的自变量和二分类因变量。为使用公开的方法，贯穿训练群子集的所选择标记物组的表达值用作必要的连续自变量。训练群的每个成员的组分类用作二分类因变量。

LDA寻求变量的线性组合，其通过使用分组信息使组之间的变量与组内的变量最大化。隐含地，LDA使用的线性加权取决于贯穿训练集的标记物的表达如何在两个组(例如，具有动脉粥样硬化的组和没有动脉粥样硬化的组)中分开和该表达如何与其他标记物的表达相关。在一些实施方式中，通过本公开描述的基因组合中的K基因，LDA被应用至训练样品中的N个成员数据矩阵。接着，绘制训练群每个成员的线性判别。理想地，代表第一亚组的训练群的那些成员(例如没有动脉粥样硬化的那些受试者)将聚类成线性判别值的一个范围(例如，负的)并且代表第二亚组的训练群的那些成员(例如具有动脉粥样硬化的那些受试者)将聚类成线性判别值的第二范围(例如，正的)。当判别值聚类之间分开更大时，认为LDA更成功。

二次判别分析(QDA)采用相同的输入参数并返回如LDA的相同的结果。QDA使用二次方程，而非线性方程来产生结果。LDA和QDA大体上可互换(尽管有与需要的受试者数目相关的差异)，并且使用哪一个是支持分析的软件的偏好和/或可靠性问题。逻辑回归采用相同的输入参数并返回如LDA和QDA的相同结果。

使用本文鉴定的标记物表达水平可构建的一类分析程序是决策树。这里，“数据分析算法”是可建立分析程序的任何技术，而最终“决策树”是分析程序。使用训练群和具体的数据分析算法构建分析程序。基于树的方法将特征空间分成矩形组并接着在每个矩形中拟合模型(如常数)。

训练群数据包括贯穿训练集群的标记物的特征(例如，表达值或一些其他可观察量)。可用来构建分析程序的一种具体的算法是分类和回归树(CART)。其他具体的决策树算法包括但不限于ID3、C4.5、MART和随机森林。所有这些算法是本领域中已知的。

在公开的方法、检验和试剂盒的一些实施方式中，使用选择的标记物组的表达数据，决策树用来对患者分类。决策树算法属于监督学习算法类。决策树的目的是从真实世界的例子数据归纳分析程序(树)。该树可用来对未用来推导决策树的未见过的例子分类。

决策树是源自训练数据。其例子包含不同的属性的值以及例子属于什么类。在一种实施方式中，训练数据是贯穿训练群的本文中描述的标记物组合的表达数据。

下列算法描述决策树推导：

树(例子、类、属性)(Tree(Examples，Class，Attributes))

创建根结点

如果所有的例子具有相同的种类值，则对根标注该标记

否则如果属性是空的，根据最常见的值标注根

否则开始

计算每一属性的信息增益

选择具有最高信息增益的属性A并使其为根属性

对于该属性每一可能的值，v

在根下面添加新的分枝，对应于A＝v，使例子(v)成为A＝v的那些例子如果例子(v)为空，制造在例子中标记有最常见值的新的分枝的叶节点否则使新的分枝成为通过树(例子(v)、种类、属性-{A})产生的树结束。

信息增益计算的更详细描述显示在下面。如果例子的可能的种类vi具有概率P(vi)，那么如下给出真实答案的信息量I：

I (P (V_{1}), . . ., P (V_{n})) = Σ_{i = 1}^{n} - P (v_{i}) \log_{2} P (v_{i})

I-值显示需要多少信息，以便能够描述所使用的具体数据集的分类的结果。假设数据集包含p个阳性(例如具有动脉粥样硬化)和n个阴性(例如健康的)例子(例如个体)，在正确的答案中含的信息为：

I (\frac{p}{p + n}, \frac{n}{p + n}) = - \frac{p}{p + n} \log_{2} \frac{p}{p + n} - \frac{n}{p + n} \log_{2} \frac{n}{p + n}

其中log₂是使用2为底的对数。通过测试单个属性，可减少做出正确分类所需要的信息量。具体属性A(例如标记物)的剩余(remainder)显示多少信息可被减少。

Remainder (A) = Σ_{i = 1}^{v} \frac{p_{i} + n_{i}}{p + n} I (\frac{p_{i}}{p_{i} + n_{i}}, \frac{n_{i}}{p_{i} + n_{i}})

其中“v”是在某些数据集中属性A的唯一属性值的数目，“i”是某些属性值，“p_i”是在分类是阳性(例如动脉粥样硬化)的情况下属性A的例子的数目，“n_i”是在分类是阴性(例如健康的)的情况下属性A的例子的数目。

具体属性A的信息增益计算为种类的信息量和属性A剩余之间的差异：

Gain (A) = I (\frac{p}{p + n}, \frac{n}{p + n}) - Remainder (A)

信息增益用来评估不同的属性对于分类如何重要(它们如何良好地分开例子)以及具有最高信息的属性。

通常有许多不同的决策树算法，包括但不限于，分类和回归树(CART)、多变量决策树、ID3和C4.5。

在一种实施方式中，当使用决策树时，贯穿训练群的选择的标记物组的表达数据被标准化为具有均值零和单位方差。训练群成员被随机分成训练集和测试集。例如，在一种实施方式中，三分之二的训练群成员被放在训练集中而三分之一的训练群成员被放在测试集中。针对本文中描述的标记物的选定组合的表达值用来构建分析程序。然后，测定了对测试集中的成员正确分类的分析程序的能力。在一些实施方式中，针对给定的标记物组合，进行若干次计算。在每一次重复计算中，训练群成员被随机分配至训练集和测试集。然后，把分子标记物组合的质量作为每一次这种分析程序计算重复的平均值。

除其中每一次分离是基于本文公开的标记物组中的对应标记物的表达水平或两个此类标记物的表达水平的单变量决策树之外，多变量决策树可作为分析程序实施。在这种多变量决策树中，一些或所有决策实际上包含多个标记物的表达水平的线性组合。可使用已知的技术比如分类上的梯度下降或通过使用误差平方和准则，这种线性组合可被训练(train)。

为阐明此类分析程序，考虑表达：0.04x₁+0.16x₂＜500。这里，x₁和x₂是指本文公开的标记物中的两种不同的标记物的两个不同的特征。为了轮询(poll)分析程序，特征值xi和x₂获得自从未分类的受试者获得的测量。这些值接着被插入方程。如果计算的值小于500，那么采用决策树中的第一分枝。否则，采用决策树中的第二个分枝。

可用在本公开中的其他方法是多元适应性样条回归(MARS)。MARS是回归的适应性程序并很好地适于通过本文公开的方法处理的高维问题。MARS可看做逐步线性回归的一般化或CART方法的修改以改进中回归设置CART的性能。

在一些实施方式中，选择的标记物组的表达值用来对训练集聚类(cluster)。例如，考虑其中使用十个标记物的情况。训练群的每一成员m将具有十个标记物的每一的表达值。来自训练群中的成员m的该值定义向量：

x_1mx_2mx_3mx_4mx_5mx_6mx_7mx_8mx_9mx_10m

其中X_im是受试者m的第i个标记物的表达水平。如果在训练集中有m个生物体，i标记物的选择将定义m向量。注意本文公开的方法不需要在向量中使用的每一单个标记物的每一表达值在每一单个向量m中表示。换句话说，来自其中第i个标记物之一未出现的受试者的数据仍可用于聚类。在这种情况下，遗漏的表达值被赋为“零”或一些其他标准化值。在一些实施方式中，聚类之前，表达值被是标准化为具有平均值零和单位方差。

贯穿训练组展示相似表达模式的那些训练群成员将趋向于聚类在一起。当向量聚类为在训练群中出现的特征组时，标记物的特别组合被认为是本文公开的方法的该方面中良好的分类器。例如，如果训练群包括健康的患者和动脉粥样硬化患者，聚类分类器将群聚类为两个组，每一组唯一代表健康的患者和动脉粥样硬化患者。

聚类问题被描述为数据集中发现的自然分组之一。为鉴定自然分组，处理了两个问题。首先，确定了测量两个样品之间相似性(或相异性)的方式。该度量(相似性测量)用来确保一个聚类中的样品比它们为在其他聚类中的样品彼此更相似。第二，使用相似性测量，测定将数据划分到聚类中的机制。

开始聚类研究的一种方式是定义距离函数并计算数据集中的所有样品对之间的距离的矩阵。如果距离是良好的相似性测量，那么相同聚类中的样品之间距离会显著小于不同聚类中的样品之间的距离。但是，聚类不需要使用距离度量。例如，非度量相似性函数s(x，x′)可用来比较两个向量x和x′。按照惯例，当x和x′某种程度上“相似”时，s(x，x′)是其值大的对称函数。

一旦已选择了测量数据集中的点之间的“相似性”或“相异性”的方法，聚类需要准则函数，所述函数测量数据任何划分的聚类质量。使准则函数极值化的数据集的划分用来对数据聚类。可与本文公开的方法使用的具体的示例性聚类技术包括但不限于，层次聚类(使用最近邻算法、最远邻算法、平均值连接算法、重心算法或平方和算法的凝聚聚类)、k-均值聚类、模糊k-均值聚类算法和Jarvis-Patrick聚类。

主成分分析(PCA)已被提议来分析生物标记物数据。一般地说，PCA可用来分析本文公开的标记物的特征值数据，以构建将一种类患者与另一类(例如，具有动脉粥样硬化的那些和不具有的那些)区别的分析程序。主成分分析是这样的分类技术，其通过变换数据为总结数据特征的新的变量(主成分)集，来减少数据集的维数。

如下是PCA少数的非限制性例子。主成分(PC)不相关并被排序使得第k个PC具有PC之中的第k个最大方差。第k个PC可解释为使数据点的投影的变量最大化的方向，使得其与第一个k-1PC垂直。开始的几个PC俘获了数据集中的大多数变量。相比之下，最后的几个PC通常被假设仅俘获数据中的残留的“噪声”。

PCA还可用来产生本文公开的分析程序。在这种方法中，选择的标记物组的向量可以用于聚类的描述的相同方式构建。事实上，向量集——其中每一向量表示来自训练群具体成员的选择标记物的表达值，可被考虑做为矩阵。在一些实施方式中，该矩阵以单体的定性二元摹状的Free-Wilson方法表示并使用PCA在最大压缩空间中分布使得第一主成分(PC)俘获最大量的可能的方差信息，第二主成分(PC)俘获第二最大量的所有方差信息等等直到矩阵中的所有方差信息已被说明。

然后，每一向量(其中每一向量表示训练群成员)被标绘。许多不同的类型的标绘图是可能的。在一些实施方式中，做一维标绘。在这种一维标绘中，来自每一训练群成员的第一主成分的值被标绘。在这种标绘形式中，期望第一组成员(例如健康的患者)将在第一个主成分值的一个范围中聚类和第二组成员(例如，患有动脉粥样硬化的患者)将在第一主成分值的第二个范围中聚类(本领域技术人员会意识到，为了有效，标记物值的分布需要在任何变量中没有拉伸)。

在一个例子中，训练群包括两个组：健康的患者和患有动脉粥样硬化的患者。使用贯穿全部训练群数据集的选择的标记物的标记物表达值，计算第一主成分。然后，训练集的每一成员被标绘为第一主成分值的函数。在该例子中，其中第一主成分是正的那些训练群成员是健康的患者和其中第一主成分是负的那些训练群成员是动脉粥样硬化患者。

在一些实施方式中，训练群成员针对多于一个主成分标绘(plot)。例如，在一些实施方式中，训练群成员在二维标绘图上标绘其中第一维是第一主成分和第二维是第二主成分。在这种二维标绘图中，期望训练群中代表的每一亚组成员会聚类为不连续组。例如，二维标绘图中的第一聚类成员将代表患有轻微动脉粥样硬化的受试者，二维标绘图中的第二聚类成员将代表患有中度动脉粥样硬化的受试者等等。

在一些实施方式中，针对多于两个主成分标绘训练群成员，并就训练群成员是否聚类为每一个唯一代表训练群中出现的亚组的组做测定。在一些实施方式中，通过使用R mva包(统计学分析语言)进行主成分分析，其对本领域技术人员而言是已知的。

最近邻分类器是基于记忆的并且不需要将被拟合的模型。给定查询点x₀，与x₀距离最近的k个训练点x_(r)，r，…，k被鉴定并接着使用k最近邻对点x₀分类。结可被随机打破。在一些实施方式中，特征空间中的欧几里得距离用来测定距离为：

d_(r)＝||x_(r)-x₀||

典型地，当使用最近邻算法时，用来计算线性判别的表达数据被标准化为具有均值零和方差1。对于公开的方法，训练群成员被随机分成训练集和测试集。例如，在一种实施方式中，三分之二的训练群成员被放在训练集中和三分之一的训练群成员被放在测试集中。本文公开的选择的标记物组的谱表示测试集成员被标绘的特征空间。然后，计算训练集正确表征测试集成员的能力。在一些实施方式中，针对给定的标记物组合进行若干次最近邻计算。每一重复计算中，训练群成员是随机分配为训练集和测试集。然后，采用标记物组合质量作为最近邻计算的每一次这种重复的平均值。

最近邻规则可被改进以处理不等种类先验(unequal class priors)、差异性错误分类成本和特征选择的问题。许多这些改进包括用于近邻的加权投票的一些形式。

通过生物进化过程得到灵感，进化的分类设计方法利用分析程序的随机搜索。在广泛概述中，此类方法产生若干分析程序——群——来自测量比如本文公开的数据集产生的生物标记物。每一分析程序一定程度上不同于其他的。接着，分析程序在贯穿训练数据集的数据上评分。保持与生物进化类似，产生的(标量)评分有时称为拟合度。根据它们的评分，分析程序被分等级并保留最好的分析程序(分析程序的整个群的一些部分)。再者，保持生物术语，这被称为拟合检验的生存。分析程序在下一代-孩子或后代中随机改变。一些后代分析程序会比先前一代中的它们的亲代具有更高的分数，一些会具有更低的分数。针对随后的一代，接着重复全部程序：分析程序被评分并且保留最好程序，随机改变来还产生另一代，等等。部分地，由于分级，平均起来每一代比先前一代具有些微更高的分数。当一代中的单个最好的分析程序具有超过期望的准则值的分数时，程序被停止。

Bagging、boosting、随机子空间方法和加性树是被称为组合技术的数据分析算法，其可用来改进弱的分析程序。这些技术被设计用于并通常应用至决策树，比如上述的决策树。另外，这种技术还可用在使用其他类型的数据分析算法比如线性判别分析开发的分析程序中。

在bagging中，人们取训练数据集的样品，产生随机独立的自助(bootstrap)重复，在这些的每一个上构建分析程序并通过在最终分析程序中的简单的多数投票将它们聚集。在boosting中，分析程序是在训练集的加权版本上构建，其取决于先前分析程序结果。最初，所有对象具有相等的权重并在这些数据集上构建第一分析程序。接着，根据分析程序的性能改变权重。错误分类的对象得到较大的权重并且下一分析程序在再加权训练集上推进。以这种方式，获得了训练集的序列和分类器，其接着通过简单的多数投票或通过最终决策中的加权多数投票组合。

为阐明boosting，考虑其中有通过研究下的群展示的两个表型组，表型1(例如，差预后患者)和表型2(例如，良好预后患者)。给定分子标记物X的向量，采用两个值集合中的类型值之一：{表型1，表型2}，分类器G(X)产生预测。训练样品上的差错率是

err = 1 / N Σ_{i = 1}^{N} I (y_{i} = G (x_{i}))

其中N是训练集中的受试者的数目(具有表型1或表型2的受试者的总和)。例如，如果有35个健康的患者和46个硬化患者，N是81。

弱的分析程序是其差错率是些微好于随机猜测的程序。在boosting算法中，弱的分析程序被重复应用至改良的数据版本，因而产生弱分类器G_m(x)，m＝1，2，…，M序列。来自该序列中的所有分类的预测接着通过加权多数投票组合，以产生最终预测：

G (x) = sign (Σ_{m = 1}^{M} α_{m} G_{m} (x))

1.初始化观测权重w_i＝1/N，i＝1，2，…，N

2.对于m＝1至M：

(a)使用权重w_i使分析程序G_m(x)与训练集拟合。

(b)计算

err = \frac{Σ_{i = 1}^{N} w_{i} I (y_{i} &NotEqual; G_{m} (x_{i}))}{Σ_{i = 1}^{N} w_{i}}

(c)计算a_m＝log((1-err_m/err_m)。

(d)设置

w_{i} &DoubleLeftRightArrow; w_{i} \exp [α_{m} I (y_{i} &NotEqual; G_{m} (X_{i}))], i = 1,2, \cdot \cdot \cdot, N .

3.输出

这里a₁，a₂，…，a_m是通过boosting算法计算的并且其目的是权衡每一各自G_m(x)的贡献。其作用是以序列形式对更准确的分类器给出更高的影响。

每一boosting步骤下的数据改良包括将权重w₁，w₂，…，w_n应用至每一训练观测(x_i，y_i)，i＝1，2，…，N。开始所有权重被设为w_i＝1/N，使得第一步骤以通常方式在数据上简单训练分析程序。对于每一连续重复m＝2，3，…，M，观测权重被单独改良并且分析程序被在应用至加权观测。在茎干(stem)m下，被在先前步骤下推导的分析程序G_m-1(x)错误分类的那些观测具有其增加的权重，而对于正确分类的那些，权重减小。因而当重复进行时，难于正确分类的观测接受不断增加的影响。每一连续分析程序因而被迫集中于被序列中先前程序遗漏的那些训练的观测。

示例性boosting算法被总结如下：

1.初始化观测权重w_i＝1/N，i＝1，2，…，N。

2.对于m＝1至M：

(a)使用权重w_i，使分析程序G_m(x)与训练集拟合，

(b)计算

err = \frac{Σ_{i = 1}^{N} w_{i} I (y_{i} &NotEqual; G_{m} (x_{i}))}{Σ_{i = 1}^{N} w_{i}}

(C)计算a_m＝log((1-err_m)/err_m)。

(d)设置w_i←→w_i exp[a_mI(y_i≠G_m(Xi))]，i＝1，2，…，N。

3.输出

G (x) = sign | Σ_{m = 1}^{M} α_{m} G_{m} (x) |

在算法m中，当前分类G_m(x)在2a行下的加权估测上推导。产生的加权差错率在2b行下计算。行2c计算针对在产生最终分类器G_m(3行)中的G_m(x)给出的a_m。每一观测的个体权重被更新用于2d行下的下一重复。通过G_m(x)错误分类的观测具有通过因子exp(α_m)缩放的的权重，增加它们用于推导序列中的下一分类器G_m+l(x)的相对影响。在一些实施方式中，使用了boosting或加性boosting方法。

在一些实施方式中，使用比如非参数评分方法的技术，进行特征预选择。特征预选择是其中在分类之间区别的标记物中维数减少形式，选择最好的用在分类器中。接着，使用LogitBoost程序而不是boosting程序。在一些实施方式中，boosting和其他分类方法在公开的方法中使用。

在随机子空间方法中，在数据特征空间的随机子空间中构建分类器。这些分类器通常通过在最终决策规则(即，分析程序)中的简单多数投票而被组合。

如所示的，本文中描述的统计学技术仅仅是可用来鉴定优选的标记物组的算法和模型的多种类型中的例子，以包括在数据集中并产生可使用数据集用来产生结果的分析程序。另外，上述和别处的技术的组合可用于相同的任务或每一技术用于不同的任务。已描述了一些组合比如决策树和boosting组合使用。但是，许多其他组合是可能的。通过例子的方式，本领域中的其他统计学技术比如投影寻踪和加权投票可用来鉴定优选的标记物组以包括在数据集中并产生使用数据集用来产生结果的分析程序。

可测定将在分析程序中将被评估的数据集组件的最佳数目。当时使用上述学习算法来开发预测模型时，本领域技术人员可选择标记物的子集，即标记物的至少个3、至少4个、至少5个、至少6个、最多全部的组，来定义分析程序。通常选择下述标记物子集，其提供了定量样品分析，例如试剂可利用性、定量便利性等等需要，同时保持高准确预测模型。

用于建立分类模型的许多提供信息的标记物的选择需要定义性能度量和使用者定义的阈值，用于产生基于该度量具有有用的预测能力的模型。例如，性能度量可以是AUC、预测的敏感性和/或特异性以及预测模型的总体上的准确度。

模型的预测能力可根据其提供的质量度量(例如AUC或准确度)的具体值或值的范围的能力来评估。在一些实施方式中，期望的质量阈值是下述预测模型，所述预测模型有至少约0.7、至少约0.75、至少约0.8、至少约0.85、至少约0.9、至少约0.95或更高的准确度对样品分类。作为可选择的测量，期望的质量阈值可以指下述预测模型，所述预测模型有至少约0.7、至少约0.75、至少约0.8、至少约0.85、至少约0.9或更高的AUC对样品分类。

如本领域中已知的，预测模型的相对敏感性和特异性可以被“调谐”以利于选择性度量或敏感性度量，其中两个度量具有反向关系。如上所述的，取决于正在进行的测试的特殊需要，可调整模型中的限制来提供选择的敏感性或特异性水平。敏感性和特异性之一或二者可以是至少约0.7、至少约0.75、至少约0.8、至少约0.85、至少约0.9或更高。

在训练模型中使用了各种方法。通过向前选择或向后选择标记物子集，选择标记物子集。将被选择的标记物的数目是会优化模型性能的那些而不使用所有标记物。确定项目的最佳数目的一种方式是选择产生具有期望的预测能力(例如AUC＞0.75或等同的敏感性/特异性的测量值)的模型的项目数目，其相对于使用针对给定的算法的任何数目的项目和项目组合所获得的针对该度量的最大值具有不多于一个标准误差的差异。

如上所述的，数据集组件的定量数据被输入分析程序并用来产生结果。结果可以是用于制造动脉粥样硬化分类的任何类型的信息，例如分类、连续变量或向量。例如，连续变量或向量的值可被用来测定样品与特别的分类关联的可能性。

动脉粥样硬化分类是指与动脉粥样硬化病关联的任何类型的信息或任何类型的信息的产生，例如，诊断、分期、评价动脉粥样硬化发展程度、预后、监测、对治疗的治疗响应，对鉴定通过与已知的动脉粥样硬化治疗类似机制起作用的化合物的筛选、假性-冠状动脉钙化评分预测、稳定的(即，心绞痛)对不稳定的(即，心肌梗塞)、鉴定动脉粥样硬化疾病的并发症等等。

在优选的实施方式中，结果用于诊断或检测动脉粥样硬化(特别其中此类动脉粥样硬化指示心肌梗塞、心力衰竭等等的倾向)出现。在这种实施方式中，含有“健康的”和“动脉粥样硬化”样品的参照集或训练集用来开发预测模型。数据集，优选地含有指示动脉粥样硬化的标记物的蛋白表达水平的数据集接着被输入预测模型，以产生结果。结果可将样品分类为“健康的”或“动脉粥样硬化”。在其他实施方式中，结果是提供用于对样品分类的信息的连续变量，例如，其中高的值表示为“动脉粥样硬化”样品的高概率和低的值表示为“健康的”样品的低概率。

在其他实施方式中，结果用于动脉粥样硬化分期。在这种实施方式中，含有来自不同阶段下患有疾病的个体样品的参照或训练数据集用来开发预测模型。模型可以是个体数据集与获得自已知阶段的疾病样品的一个或多个数据集的简单比较或更复杂的多元分类模型。在某些实施方式中，将数据集输入模型会产生分类结果，将从其产生数据集的样品分类为正处于指定的心血管疾病阶段。类似方法可用来提供动脉粥样硬化预后，但是参照或训练集将包括获得自发展疾病个体和在稍后时间未能发展疾病的那些个体的数据。

在其他实施方式中，结果是用来测定对动脉粥样硬化疾病治疗的响应。在这种实施方式中，参照或训练数据集和预测模型与用来诊断动脉粥样硬化的那些相同(样品来自患有疾病的个体和不患有疾病的那些个体)。但是，代替输入由来自有未知诊断个体的样品组成的数据集，数据集由已被施予特别治疗的患有已知的疾病个体组成，并且其测定样品是否趋于或属于正常、健康的分类，而不是进行动脉粥样硬化疾病分类。

本文中使用的治疗可包括但不限于，在3、6或12个月中的随访检查；药理学干预比如β-阻滞剂、钙通道阻滞剂、阿司匹林、降胆固醇剂等等；和/或进一步测试以测定心血管病/疾病存在或程度。在某些情况中，不需要立即治疗。

在另一实施方式中，结果用于药品筛选，即，鉴定通过与已知的动脉粥样硬化药品治疗类似机制起作用的化合物。在这种实施方式中，含有用已知的动脉粥样硬化药品治治疗疗的个体和未被特别治疗的那些个体的参照或训练集可用来开发预测模型。来自用具有未知机制的化合物治疗的个体的数据集被输入模型。如果结果表示样品可被归类为来自服用已知的动脉粥样硬化药品治疗的受试者，那么新化合物可能通过相同机制起作用。

在优选的实施方式中，结果用来测定“假性-冠状动脉钙化评分”，其是与冠状动脉钙化评分(CCS)相互关联的定量测量。CCS是临床心血管疾病筛选技术，其测量全部的动脉粥样硬化斑块负荷。各种不同的类型的成像技术可用来对动脉粥样硬化斑块钙化面积和密度定量。当使用电子束CT和多元检测器CT时，CCS是x-线衰减系数和钙沉积面积的函数。典型地，分数0被认为表示没有动脉粥样硬化斑块负荷，＞0至10被认为表示极微的斑块负荷征兆，11至100被认为表示至少轻微斑块负荷征兆，101至400被认为表示至少中等斑块负荷征兆，超过400被认为是大的斑块负荷征兆。与传统风险因子共同使用的CCS改进了心血管疾病并发症的预测能力。另外，CCS还能作为心血管疾病并发症的独立的预测值。

含有具有高和低冠状动脉钙化评分个体的参照或训练集可用来开发用于预测个体的假性-冠状动脉钙化评分的模型。预测的假性-冠状动脉钙化评分用于诊断和监测动脉粥样硬化。在一些实施方式中，假性-冠状动脉钙化评分与其他已知的心血管诊断和监测方法，比如源自成像技术的实际冠状动脉钙化评分共同使用以诊断和监测心血管疾病。

技术人员还会意识到使用这些方法产生结果可与对本领域技术人员而言已知的任何数目的各种其他方法共同使用用于诊断和监测心血管疾病。

还提供了用于实施一种或多种上述方法的试剂及其试剂盒。本发明的试剂及其试剂盒可以大不相同。感兴趣的试剂包括下述试剂，所述试剂特别设计用于产生与动脉粥样硬化病关联的循环miRNA标记物、蛋白生物标记物或miRNA和蛋白标记物的组合的上述表达谱。

在一种实施方式中，提供了用于评价人的心血管健康以测定是否需要治疗方案或治疗方案的有效性的试剂盒，其包括：检验装置，用于测定生物样品中的选自表20中的miRNA的至少两种miRNA标记物水平；说明书，用于获得包括每一种miRNA标记物水平的数据集、将所述数据输进分析分类程序，所述程序使用所述数据对生物样品分类，其中分类选自由动脉粥样硬化心血管疾病分类、健康分类、药物暴露分类、非药物暴露分类组成的组；和按照分类程序的输出对生物样品分类并基于分类确定针对人的治疗方案。

在某些实施方式中，试剂盒还包括：检验装置，用于测定生物样品中的选自下述组的至少三种蛋白生物标记物水平：IL-16、sFas、Fas配体、MCP-3、HGF、CTACK、嗜酸性粒细胞活化趋化因子、脂联素、IL-18、TIMP.4、TIMP.1、CRP、VEGF和EGF；和说明书，用于获得包括各个蛋白标记物水平的数据集，将miRNA和蛋白标记物的数据输入分析分类程序中，所述程序使用数据以对生物样品分类，其中分类是选自下述组：动脉粥样硬化心血管疾病分类、健康的分类、药物暴露分类、非药物暴露分类；和按照分类程序的输出对生物样品分类并基于分类确定针对人的治疗方案。

此类试剂的一个类型是与感兴趣的标记物集结合的抗体的阵列或试剂盒。多种不同的阵列格式是本领域中已知的，其具有多种多样不同的探针结构、底物组成和附加技术。感兴趣的代表性阵列或试剂盒组成包括用于对或者单独的或者与蛋白标记物组合的至少2种、至少3种、至少4种、至少5或更多种的miRNA标记物进行定量的试剂，或由此类试剂组成。在这一点上，试剂可对选自表1中列出的miRNA和优选地表20中列出的miRNA的至少1种、至少2种、至少3种、至少4种、至少5种miRNA标记物进行定量。

表1

替代地或另外，试剂可对选自表2的至少1种、至少2种、至少3种、至少4种、至少5种、至少6种、至少7种、至少8种，至少9种或至少10种蛋白生物标记物定量。

表2

在某些实施方式中，蛋白生物标记物选自IL-16、sFas、Fas配体、MCP-3、HGF、CTACK、嗜酸性粒细胞活化趋化因子、脂联素、IL-18、TIMP.4、TIMP.1、CRP、VEGF和EGF。

试剂盒还可包括用于对一种或多种表型进行统计学分析的软件包，且可包括用于计算分类概率的参照数据库。试剂盒可包括在各种方法中利用的反应物，比如用于抽取并处理血液样品的器件、第二阶段抗体、ELISA试剂、管、离心柱(spin columns)等等。

除了上述组件外，本发明的试剂盒还包括用于实施本发明的方法的说明书。这些说明书可以各种形式存在于本发明的试剂盒中，一个或多个说明书可存在于试剂盒中。这些说明书可存在的一种形式是在试剂盒的包装中、在包装插入物中等等作为在合适的介质或底物上的打印的信息，所述介质或底物例如其上信息被打印的一片或多片纸。别的手段还会是在其上信息被记录的计算机可读介质，例如，磁盘、CD等等。还可存在的别的手段是网站地址，其可用于通过因特网访问位于远方地点的信息。任何便利的手段可存在于试剂盒中。

在另外的实施方式中，本文中公开的方法检验和试剂盒可用来检测合并样品中的生物标记物。当仅少量多个样品可得到时(例如，存档的临床样品组)，该方法是特别地有用的和/或产生与疾病或对照群有关的有用的数据集。在这一点上，等量(例如，约10μL、约15μL、约20μL、约30μL、约40μL、约50μL或更多)的样品可获得自多个(约2、5、10、15、20、30、50、100或更多)个体。个体可通过各种指标匹配。指标可包括年龄、性别、疾病史、事件发生时间等等。获得自每个个体的等量样品可被合并针对一种或多种生物标记物的存在进行分析。结果可用来产生参照集、制造预测、测定与给定病关联的生物标记物等等，其通过使用本文中描述的预测和分类模型来实现。本领域技术人员将容易地意识到该方法的许多用途并且其绝不限制本文中公开的miRNA、蛋白和疾病状态。事实上，该方法可用来检测与多种疾病和病关联的DNA、RNA(mRNA、miRNA、发卡结构前体RNA、RNP)、蛋白等等。

定义

除非另外指出，本文中使用的术语如下文阐明的定义。

本文中使用的术语“监测”是指使用从数据集产生的结果来提供关于个体或个体健康或疾病状况的有用的信息。“监测”可包括，例如预后测定、危险分层、药物疗法选择、正在进行的药物疗法评价、有效性或治疗的测定、结果预测、对疗法的响应测定、疾病或疾病并发症诊断、疾病发展追踪或提供随着时间发展与患者健康状况相关的任何信息、从具有已知的分子作用机制的实验疗法中选择最可能获益的患者、从具有已知分子机制的批准药物中选择最可能获益的患者(其中所述药物机制可在药物可能不具有标记的小的疾病亚组中是重要的)、筛选患者群以帮助在更为侵入性/昂贵的测试上做决定(例如从非侵入性血液测试到诸如活组织检查的更为侵入性的选择的级联测试)或评价用来治疗另一适应症的药物的副作用的测试。特别地，术语“监测”可指动脉粥样硬化分期、动脉粥样硬化预后、动脉炎症水平、评价动脉粥样硬化发展的程度、监测治疗响应、预测冠状动脉钙化评分或将动脉粥样硬化疾病的稳定表现与不稳定表现区分开。

本文中使用的术语“定量数据”是指与可被赋予数值的任何数据集组件(例如miRNA标记物、蛋白标记物、临床标记(指标)、代谢测量或遗传检验)相关联的数据。定量数据可以是标记物的DNA、RNA或蛋白水平的测量，并以测量单位比如摩尔浓度、以重量计的浓度等等表示。例如，如果标记物是蛋白，标记物的定量数据可以是使用对本领域技术人员而言已知的方法测量的蛋白表达水平并以mM或mg/dL浓度单位表示。

本文中使用的术语“哺乳动物”包括人类和非人类二者并包括但不限于人类、非人类灵长类、犬科、猫科、鼠科、牛科、马科和猪。

本文中使用的术语“假性冠状动脉钙化评分”是指使用本文公开的方法而不是通过成像手段产生的冠状动脉钙化评分。本领域技术人将意识到假性冠状动脉钙化评分可与通过成像手段测量产生的冠状动脉钙化评分互换使用。

在上下文中两个或多个核酸或多肽序列的百分比“同一性”是指如使用下文描述的序列比较算法(例如BLASTP和BLASTN或对技术人员而言可得到的其他算法)之一或通过目视检查测量的，当为了最大相似性而比较或比对时，两个或多个序列或亚序列具有规定百分比的相同的核苷酸或氨基酸残基。取决于应用，百分比“同一性”可在比较的序列的一个区域上(例如功能区域上)存在，或替代地在将被比较的两个序列的全长上存在。

在某些实施方式中，测定了治疗方案的“有效性”。基于改进、改善、风险降低或病或疾病的发展变慢，治疗方案可被认为是有效的。此类测定容易由本领域技术人员进行。

实施例1

合并样品中miRNA分析

在该研究中使用的合并方法实现了两个目标：a)调查Exiqon锁核酸(LNA^TM)技术鉴定血清中miRNA的能力，和b)利用来自珍贵的存档临床样品的最小体积来用于测试。

为了评估LNA^TM技术鉴定血清中miRNA的能力，使用来自有希望的研究的存档血清样品创建了52个库(Marshfield Clinical PersonalizedMedicine Research Project(PMRP)，Personalized Medicine，2(1)：49-79(2005))。26个库代表病例(下文有时也称作“案例”)，26个库代表对照。每个库含有来自针对年龄(选自40和80岁大之间个体的八个5-年范围)、性别和病例事件的时间(即，0-6mos内的MI，6-12mos内的MI等等)匹配的5个体的每一个的相等体积(50μL)的血清样品。后一个的匹配是近似的。病例是来自抽血的五年内患有MI或住院的不稳定型心绞痛的受试者。对照是来自抽血的五年内不具有这些事件的任一种的受试者。样品被评估为分类问题并且使用曲线下面积(AUC)判断测试性能。

以AUC方式的测试性能取决于在实验设计时未知的测量值的分布(针对各标记物)或评分分布。为了用实际的实验设计(26个病例和26个对照)估计相似样本量的组的期望的测试性能，使用变量的不同的假设的分布和库中的样品数目，进行多次模拟。使用的假设分布是：a)正态、b)卡方(chisq)和c)对数正态。针对每一分布和库中的样品数目，随机选择“对照”的适当数目并从具有平均值中已知偏移的分布中选择相应的病例数目，以表示群之间的差异。因此，对于容量M的库，选择26*M个对照并选择26*M个病例，并通过将M个样品的值平均化产生每一合并的样品。过程重复500次并针对给定合并的样品数目和群距离，估计期望的AUC的分布。

图1显示了使用独立样品(开环和实线误差棒)和合并样品(每个库5个独立样品)(开环和虚线误差棒)，假设对数正态分布的生物标记物浓度或评分的结果。实心黑圆点表示独立测量的理论答案。人们观察到期望的AUC一贯低估独立样品的真实的和期望的AUC，但是合并的样品的不确定性范围较小。图2显示了假设的正态分布的测量结果。在这种情况下，合并的样品结果与理论和独立样品结果极好地一致。再一次，合并的样品不确定性小于对应的人类样品的不确定性。假设的卡方-分布提供了模拟的结果，所述结果与获得自对数正态分布的那些更为一致。这些模拟表明，如果人类样品分布服从正态分布，合并的样品的结果将提供期望的AUC的非常好的估计，否则计算的AUC将被低估。

使用EXIQON UniRT

LNA技术分析52个合并的样品上的三十八个miRNA。使用具有些微改良的方案的QIAGEN RNEASY

迷你试剂盒方案(QIAGEN，Valenica，CA)，从(上述)供应的血清样品提取总RNA。

使用QIAGEN RNEASY迷你试剂盒从血清提取总RNA。血清在冰上解冻并在4℃微量离心机中1000x g下离心5分钟。每个样品的200μL等分部分的血清被转移至新的微量离心管和含有0.94μg/μL MS2抗菌素的750uL Qiazol混合物被添加至血清。管被混合并孵育5分钟随后添加200μL氯仿。管被混合，孵育2分钟并在4℃微量离心机中在12,000x g下离心15分钟。上部水相被收集至新的微量离心管并添加1.5体积的100％乙醇。管被充分混合，750μL的样品被转移至在收集管中的QIAGENRNEASY迷你离心柱中，随后在室温下在15,000x g下离心30秒。重复过程直到剩余的样品被进样。用700μL QIAGEN RWT缓冲液清洗QIAGEN RNEASY

迷你离心柱并在室温下在15,000x g下离心1分钟，随后用500μL QIAGEN RPE缓冲液进行另一次清洗并在室温下在15,000x g下离心1分钟。用500μL QIAGEN RPE缓冲液重复清洗2次。QIAGENRNEASY

迷你离心柱被转移至新的收集管并在室温下在15,000x g下离心2分钟。QIAGEN RNEASY

迷你离心柱被转移至新的微量离心管，盖子被打开1分钟至干燥。通过添加50μL的无RNase的水至QIAGENRNEASY迷你离心柱的膜上，洗脱RNA并孵育1分钟之后在室温下在15,000x g离心1分钟。RNA被存储在-70℃冷冻器中直到在干冰上装运。选择三十八种miRNA用于分析(表3)。

表3

每一RNA样品在三个独立的反转录(RT)反应中被反转录为cDNA并作为单次实时PCR或qPCR反应运行。

每个384孔平板含有2个miRNA检验的所有样品的反应。阴性对照包括在实验中：在RT步骤中没有模板对照(用水替换RNA)并且在RT步骤中没有酶对照(合并的RNA作为模板)。所有检验通过了质量控制步骤，其中无模板的对照和无酶的对照是阴性的。

通过产生每一反应的熔融曲线，进行实时PCR分析中的其他步骤以评估检验的特异性。熔融曲线分析期间单峰的出现表明qPCR过程期间扩增了单种具体的产物。多熔融曲线峰的出现相应表明多qPCR扩增产物，并表明缺乏特异性。显示多峰的任何检验已从数据集中排除。使用LIGHTCYCLER

(Roche，Indianapolis，IN)软件分析扩增曲线，既用于测定Cp(交叉点，即，其中测量的信号在预设的阈值上交叉的点，其表示靶序列的可测量的浓度)(通过第2种衍生的方法)又用于熔融曲线分析。

用LIN REG

软件(Open Source Software)，通过PCR扩增曲线分析，还评价了PCR效率。五个管家miRNA(miR-16、miR-93、miR-103、miR-192 & miR-451)的性能被用来评估从供应的血清样品提取的RNA的质量。

38个miRNA靶序列的二十四个在样品中检测。五十个样品(26个病例和24个对照)用来在这些样品上评估期望的分类分析的性能并选择能预测状况的miRNA。使用(L1惩罚-lasso)，利用下述方法建立模型：a)逻辑回归方法和b)罚逻辑回归方法。在模型中提供了最好分类的项目的选择通过下述完成：a)使用不惩罚逻辑回归方法的Bayesian信息准则进行正向选择和b)基于惩罚方法的最佳惩罚选择的交叉验证。后者中，鉴于惩罚参数推动可得到的参数系数向零变化，产生的模型仅含有减少的预测miRNA数目。为了评估性能的客观测量，使用预验证评分计算AUC。预验证与交叉验证方法非常相似，其中“评分”与给定的结果的关联基于已从拟合的模型预测的给定受试者的值，而不使用训练集中的具体受试者。对于该分析，预验证分数基于两种方法计算：a)k-倍交叉验证和b)留一法交叉验证。预验证重复已重复N次(其中N通常等于100-1000)。分析的全部顺序如下：

1)在训练集中使用用于模型选择的BIC的逻辑回归或通过嵌套交叉验证估计惩罚函数的惩罚逻辑回归，使模型在数据的子集上拟合；

2)对于k-倍交叉验证，模型在样品的k-1组上是拟合的；

3)对于留一法交叉验证，模型在M-1样品中拟合，其中这里M＝50；

4)使用拟合的模型，预测留下的样品的分数(交叉验证的组k和留一法交叉验证的单一留下的样品)；

5)一旦已预测所有样品的所有分数，计算分类问题的AUC；

6)重复步骤1-3N次以评估AUC的变化性。

图3表示用预验证评分计算的100次重复，使用惩罚逻辑回归模型(L1惩罚-lasso)获得的AUC值的分布。表4列出模型选择过程期间选择的并使用惩罚逻辑回归(L1惩罚-lasso)预验证的评分计算的10-倍交叉验证拟合的最高miRNA。在该运行中可被选择的标记物的最大数目的次数是1000次(评分预验证的100次重复×每一次重复期间的10-倍交叉验证)。

表4

miR	计数
		miR.16	999
miR.26a	998
		miR.130a	981
miR.150	917
		miR.222	856
miR.106b	836
		miR.93	801
miR.10b	771
		miR.30c	722
miR.192	717
		let.7b	579
miR.20a	436
		miR.107	313
miR.20b	239
		hsa.let.7f	225
miR.186	208
		miR.92a	157

表5列出了使用留一法(LOOV)交叉验证与L1惩罚逻辑回归方法组合选择的生物标记物的计数。两种方法提供了在近似相同顺序下选择的高度重叠的生物标记物集。计数中的差异是由于在集中的样品数目。对应的AUC是0.66。

表5

miR	计数
		miR.26a	51
miR.16	51
		miR.130a	51
miR.150	51
		miR.106b	50
miR.93	50
		miR.222	48
miR.192	47
		miR.30c	47
miR.10b	40
		let.7b	32
miR.20a	26
		miR.20b	16
miR.107	16
		hsa.let.7f	15
miR.186	14
		miR.92a	12
miR.19a	3

实施例2

独立样品中miRNA的评估

随访实验集中于使用实施例1中描述的EXIQON LNA^TM技术评估独立血清样品(26个病例和26个对照)中miRNA的检测和性能。总共筛选90个miRNA(见表6)，其包括在合并的样品中筛选的miRNA。在独立血清样品中检测到90个miRNA靶序列中的44个。在合并的样品检测到的24个miR也在独立样品中检测到，并且在独立样品中检测到20个其他miRNA。5个miRNA用于数据标准化并从分析中去除。

表6

^*如实施例1部分评定的，^**如实施例2部分评定的

利用实施例1中描述的相同方法分析这些数据集。使用具有留一交叉验证的惩罚逻辑性回归，产生AUC等于0.778。表7显示了在验证前评分计算中使用的模型中选择的各miRNA的次数(因为有50个样品，总共50个模型)。平均模型容量为～8个项目(顶端8个miRNA用“*”表示)。期望的值高于合并的数据获得的对应值。

表7

MiR	计数
		miR.378^*	50
miR.92a^*	50
		miR.26a^*	50
miR.130a^*	48
		miR.222^*	41
miR.15a^*	38
		miR.125a.5p^*	33
let.7b^*	28
		miR.331.3p	25
miR.221	18
		miR.30e	9
miR.199a.3p	1
		miR.22	1
miR.199a.5p	1
		miR.20a	1
let.7a	1

表8提供了当有4倍交叉验证的L1惩罚逻辑性回归方法应用至50个样品时所选择的miRNA。再一次，在两个方法之间观察到标记物和顺序中相当大的重叠。图4显示从该分析中获得的AUC的分布。

表8

miR	计数
		miR.378	400
miR.92a	396
		miR.26a	366
miR.130a	233
		miR.125a.5p	172
miR.222	152
		miR.15a	146

实施例3

蛋白生物标记物的分析

开发仅仅包括蛋白数据(来自实施例1和2中使用的Marshfield群)的模型。总共分析47个独立的蛋白生物标记物(表9)。收集血清样品并在-80℃下保持冷冻，接着在使用前立即解冻。使用两个不同的检测技术：来自Luminex(Austin，TX)的xMAP

技术和来自Meso Scale Discovery(MSD，Gaithersburg，MD)具有MULTI-SPOT

技术的SECTOR

成像仪，一式两份分析每个样品。

表9

Luminex xMAP技术利用预先包被到编码颜色的微粒上的分析物特异性抗体。微粒、标准物和样品被移液管吸至孔中并且固化的抗体结合感兴趣的分析物。适当的孵育时间后，粒子被多次再悬浮在冲洗缓冲液中以去除任何未结合的物质。对感兴趣的分析物特异性的生物素酰化抗体混合物被添加至每一个孔。第二孵育时间和冲洗去除任何未结合的生物素酰化抗体后，结合生物素酰化检测抗体的链霉亲和素-藻红蛋白共轭物(链霉亲和素-PE)添加至每一个孔。最后冲洗去除链霉亲和素-PE并且微粒再悬浮在缓冲液中并使用Luminex分析仪读取。分析仪使用流式细胞以引导微粒经过多-激光检测系统。一个激光是微粒特异性的并测定哪个分析物被检测。其他激光测定源自藻红蛋白的信号的数量级，其与结合的分析物的数量直接成正比。使用通过标准品产生的信号构建曲线并且从每条曲线读取样品的蛋白生物标记物的浓度。表10显示了47个Luminex蛋白生物标记物检验的敏感性(检出限，LOD)和精确度(检验内和检验间％CV)。

表10

在MSD平台上用10-plex检验分析45个独特蛋白生物标记物中的10个(表11)。

表11

MSD技术利用了在每个板底部上用碳表面构建的专用96孔微量滴定板。在微量滴定板的每个孔的底部上在空间阵列中认出对每个蛋白生物标记物特异性的抗体。标准品和样品被吸至预先包被的板孔中并且固化的抗体结合感兴趣的分析物。适当的孵育时间后，多次冲洗板以去除任何未结合的物质。标记有SULFO-TAG^TM的分析物特异性二级抗体的混合物添加至每个孔。第二孵育时间后，再次多次冲洗板以去除任何未结合的材料并且添加专用读取缓冲液至每个孔。板接着放入SECTOR

成像器，其中电流施加至微量滴定板底部的碳电极上。当该电化学刺激时，结合至特异性第二抗体的SULFO-TAG^TM标签在每个点发光，这使用灵敏CCD相机检测。使用通过标准物产生的信号构建曲线并且从每条曲线读取样品的蛋白生物标记物浓度。表12显示了10个MSD蛋白生物标记物检验的敏感性(检出限，LOD)和精确度(检验内和检验间％CV)。

表12

构建模型并使用如上述的用于计算预先验证评分的有LOOV或k-倍交叉验证的逻辑性回归方法评估性能。图8提供了仅使用预测预先验证的评分的k-倍交叉验证方法基于蛋白从模型获得的AUC值的分布。表13提供了在任何交叉验证模型中的蛋白标记物的选择频率。更高的计数表示标记物具有从对照中对病例分类的一致性能力。使用计算预先验证评分的LOOV方法的AUC被计算为0.698，并且表14提供了使用LOOV方法在构建的任何模型中的标记物的选择频率。后一AUC在k-倍交叉验证方法计算的不确定性限度内。两个方法选择相同的最高标记物。

表13

表14

实施例4

miRNA和蛋白生物标记物的联合分析

开发了包括蛋白和miRNA数据二者的模型(来自实施例1和2)。使用两个不同的检测技术：Luminex(Luminex Corp，Austin，TX)和MesoscaleDiscovery系统获得贯穿47个生物标记物(来自实施例3)的蛋白数据。因为蛋白和miRNA数据是组合的，候选解释变量的数目超过样品的数目。在该情形下，使用不惩罚方法是不适当的，因而使用如上述的LOOV惩罚逻辑性回归或计算预先验证评分的k-倍交叉验证构建模型并评估性能。图5基于miRNA和蛋白二者提供了模型的AUC分布。AUC与仅针对miRNA获得的那些是统计学等同的，但在模型中两种miRNA被一贯选择(见表15)。图6显示了miRNA和蛋白相关性的的分布，而图7仅显示miRNA的分布。图6中两条垂直线代表蛋白和miRNA之间的最高和最低相关性。不期望被任何具体的理论束缚，这些相关性可能与目前未研究的调节影响对应。这两个图的比较表明蛋白在这些数据集中产生更高数目的正相关。

表15

实施例5

使用miRNA生物标记物的存活分析

在该研究中，miRNA的水平描述了随着时间过去发生事件(这里MI)的风险。进行了112个候选miRNA标记物的单变量和多变量分类和存活分析。基于实施例2和3中描述的方法获得分类结果。使用Cox成比例危险回归方法进行存活分析。用于稍后分析的响应变量包括事件发生的时间或研究结束的时间和表示时间是否与事件或研究结束(截尾)相关的指数。对于在实施例中描述的52个样品，事件时间或随访结束时间是已知的。对于在研究结束前已发生事件的26名受试者，事件的指示变量被设为1和对于在研究期间没有发生事件的26名受试者，指示变量被设为0。分析中包括的解释变量有：a)单独的蛋白水平、b)单独的miRNA水平和c)miRNA和/或蛋白水平。使用Cox成比例危险模型的惩罚和不惩罚版本二者，实现模型拟合。每当应用模型的惩罚版本时，使用L1-惩罚(Lasso)。使用实施例1中描述的相同方法，即，使用a)具有模型的不惩罚版本正向选择的Bayesian信息准则和b)基于惩罚方法的选择最佳惩罚的交叉验证，进行每一模型的变量选择。为了以客观的方式评估这些模型的性能，利用了以与实施例1中描述的方式类似的方式获得的预验证评分的计算。

在第一次分析(分类)中，不管事件发生时间，存活时间被忽略且所有病例被相同处理。表16显示单变量分类分析的结果。该表中的标记物已通过预测的AUC排序。表18显示了多变量分类模型中的miRNA的选择频率。多逻辑回归模型在通过提供留下样品的评分的LOOV方法获得的训练集上在预验证过程期间建立。通过使用Bayesian信息准则测定模型大小。平均分类性能基于预验证分类分数的向量并等于0.7。

表16

	估计值	标准误差	Z值	Pr(＞\|z\|)	AUC
						hsa.miR.378	-1.40	0.42	-3.33	0.00	0.84
hsa.miR.1974	0.68	0.30	2.29	0.02	0.76
						hsa.miR.26a	0.74	0.28	2.61	0.01	0.76
hsa.miR.30b	0.95	0.35	2.75	0.01	0.74
						hsa.miR.29c	-0.71	0.30	-2.34	0.02	0.74
hsa.miR.34a	-0.62	0.29	-2.11	0.03	0.73
						hsa.miR.30c	0.71	0.31	2.28	0.02	0.72
hsa.miR.221	0.86	0.33	2.63	0.01	0.72
						hsa.miR.192	-0.87	0.33	-2.60	0.01	0.72
hsa.miR.122	-0.76	0.30	-2.51	0.01	0.71
						hsa.miR.19a	-0.54	0.29	-1.86	0.06	0.71
hsa.let.7a	0.67	0.31	2.15	0.03	0.71
						hsa.miR.21	-0.77	0.33	-2.34	0.02	0.7
hsa.miR.497	-0.78	0.32	-2.45	0.01	0.7
						hsa.miR.19b	-0.52	0.29	-1.79	0.07	0.7
hsa.miR.148a	-0.69	0.30	-2.29	0.02	0.7
						hsa.miR.15b.	-0.53	0.27	-1.94	0.05	0.69
hsa.miR.331.3p	0.65	0.30	2.19	0.03	0.69
						hsa.miR.24	0.68	0.30	2.30	0.02	0.69
hsa.miR.142.5p	0.68	0.35	1.95	0.05	0.69
						hsa.miR.99a	-0.76	0.31	-2.42	0.02	0.69
hsa.miR.25	-0.47	0.29	-1.62	0.11	0.69
						hsa.miR.29a	-0.86	0.36	-2.41	0.02	0.69
hsa.miR.22	-0.54	0.30	-1.77	0.08	0.68
						hsa.miR.652	0.67	0.34	1.94	0.05	0.68
hsa.miR.92a	-0.40	0.28	-1.41	0.16	0.68
						hsa.miR.140.3p	-0.48	0.29	-1.63	0.10	0.68

表17

生物标记物	计数
		hsa.miR.378	47
hsa.miR.497	47
		hsa.miR.24	45
hsa.miR.126	45
		hsa.miR.21	42
hsa.miR.15b	38
		hsa.miR.652	33
hsa.miR.29a	26
		hsa.miR.99a	17
hsa.miR.30b	10
		hsa.miR.29c	6
hsa.miR.331.3p	4
		hsa.miR.19a	4

表18显示来自单变量存活分析的结果。再一次，该表中标记物已通过预测的AUC排序。最高选择的标记物与获得自分类分析的那些几乎是等同的，并且如通过时间依赖性AUC测量的总性能与从分类途径获得的性能相当。表19显示了使用Cox成比例危险回归方法在多变量存活分析中的miRNA标记物的选择频率。使用预验证(AUC＝0.78)估计仅基于模型的miRNA的期望性能。通过留一法方法构建训练集，每一倍内的模型大小是基于Bayesian信息准则测定的。平均模型大小为8。

表18

	coef	exp(coef)	se(coef)	z	Pr(＞\|z\|)	AUC
							hsa.miR.378	-0.5	0.61	0.13	-3.68	0	0.82
hsa.m iR.1974	0.24	1.27	0.15	1.62	0.11	0.74
							hsa.miR.29c	-0.45	0.64	0.19	-2.4	0.02	0.74
hsa.miR.26a	0.36	1.44	0.17	2.09	0.04	0.74
							hsa.miR.30b	0.42	1.52	0.19	2.2	0.03	0.72
hsa.miR.30c	0.33	1.39	0.19	1.76	0.08	0.72
							hsa.m iR.34a	-0.3	0.74	0.16	-1.85	0.06	0.71
hsa.m iR.192	-0.4	0.67	0.19	-2.13	0.03	0.7
							hsa.miR.122	-0.4	0.67	0.18	-2.23	0.03	0.7
hsa.miR.221	0.27	1.31	0.12	2.24	0.03	0.7
							hsa.miR.331.3p	0.41	1.51	0.18	2.33	0.02	0.7
hsa.miR.497	-0.44	0.65	0.18	-2.44	0.01	0.7
							hsa.miR.652	0.41	1.51	0.19	2.12	0.03	0.7
hsa.miR.21	-0.48	0.62	0.21	-2.3	0.02	0.7
							hsa.let.7a	0.32	1.38	0.2	1.64	0.1	0.69
hsa.miR.148a	-0.29	0.75	0.15	-1.91	0.06	0.69
							hsa.miR.29a	-0.58	0.56	0.21	-2.75	0.01	0.69
hsa.miR.19a	-0.26	0.77	0.18	-1.47	0.14	0.68
							hsa.miR.19b	-0.19	0.83	0.17	-1.09	0.28	0.68
hsa.miR.15b.	-0.34	0.71	0.17	-2.01	0.04	0.68

表19

生物标记物	计数
		hsa.miR.21	47
hsa.miR.378	47
		hsa.miR.652	47
hsa.miR.497	47
		hsa.miR.15b	47
hsa.miR.99a	41
		hsa.miR.22	24
hsa.miR.126	13
		hsa.miR.29a	7
hsa.let.7b	5
		hsa.miR.502.3p	5

实施例6

扩展的miRNA筛选

为了进一步研究miRNA生物标记物区分病例与对照的能力，使用当前更新至miRBASE 13的Exiqon′s mercury LIMA^TM Universal RT微RNAPCR阵列技术平台，针对表1中所示的存在的720个miRNA靶序列，筛选从实施例2的五十二个血清样品中先前获得的RNA提取物。

组合许多分析以提供每一miRNA生物标记物的总显著性。单变量分类和存活分析提供了每一个体miRNA靶序列的AUC值，其用来以显著性的顺序对每一靶序列分级。进行多变量分析以产生47个多变量模型。miRNA靶序列是通过其被选择的模型数目分级的。还进行了将病例和对照群中的针对每一miRNA靶序列测量的Cp值比较的t-测试分析(1-尾的)。最后，针对数据集进行四分位分析。对于每一miRNA靶序列，所有的样品(病例和对照群组合的)按照Cp值(低至高)被分级。分级的群接着被分成四个四分位，每一个含有总群的25％。接着记录每一四分位中的病例和对照受试者的数目。如果26个病例总数目的大于65％或小于35％被分级在“低”四分位中，那么其miRNA靶序列被认为是显著的。

基于扩展的720个miRNA生物标记物集的分析，最终全部等级评分被分配，其描述了全部显著性评分的产生，通过所述评分全部的miRNA靶序列集被分级。表20显示最高的50个评分的miRNA。

表20

实施例7

基于蛋白生物标记物的心血管风险评分开发

心血管风险评分的开发基于来自PMRP的1123个个体的样品Personalized Medicine，2(1)：49-79(2005))。基于病例-群组设计选择集。如果受试者来自基线抽血时间下的40-80岁受试者并且如果他们具有伴随的MI或在随访的5年期间已由于不稳定型心绞痛(UA)住院，则来自PMRP群组的受试者被认为是“病例”。有385个总病例(164个患有初期MI的受试者和221个患有UA的受试者)和838个对照。可得到的数据包括针对每一个体测量的59种(47种独特的)蛋白生物标记物和107个临床特征，所述特征包括人口统计的(年龄、性别，种族、糖尿病状况、MI家族史、吸烟等等)和实验室的测量(总胆固醇、HDL、LDL等等))和药物使用(抑制素、抗高血压药物、降血糖药物等等)。

单变量分析：使用Heagerty等人的Kaplan-Meier方法，使用Cox成比例危险回归和时间依赖曲线下面积(AUC)，评估每一生物标记物与患者后果的关联(Survival Model Predictive Accuracy和ROC Curves Biometrics，61：92-105(2005))。为了在通常的标度上列出贯穿所有具有不同的浓度范围的蛋白生物标记物的危险比(HR)，通过减去对照对数-变换数据后被对照的标准偏差除的对照浓度的平均值，使所有受试者的值标准化。危险比因而被表示为每一标准偏差单位。图9显示了用作开发多变量风险模型候选的35个生物标记物的未调整的危险比和标准误差。二十二个生物标记物具有统计学上显著的HR。

重复相同分析同时针对下述传统风险因子(TRFs)调整每一生物标记物：年龄、性别、心脏收缩BP、心脏舒张BP、胆固醇、HDL、高血压、高血压药品使用、高脂血症、糖尿病、吸烟(图10)。调整之后，仅11个生物标记物保持统计学显著性，这不是令人吃惊的，因为这些选择的TRF已知与心血管疾病关联。图11A和B显示了最多5年随访中具有最高时间依赖性AUC和对应的值的标记物。除了显示随时间减小的两个NT-proBNP检验版本外，所有标记物的AUC随着时间保持稳定。

多变量分析：开发MI和/或UA的预后评分。预后评分开发基于包括TRF以及蛋白生物标记物。假设已知的年龄、性别、糖尿病和家族史与心血管事件关联，这些四个参数包括在模型中。通过运行多种向前标记物选择算法，确认包括这些4个参数。所有算法选择在最终多变量算法中的四个变量。最佳模型大小的测定基于下述标准的使用：(a)Akaike信息准则、(b)Bayesian信息准则、(c)偏差下降准则。最初2个是已知的样品中误差估计值和第三个利用交叉验证环以估计拟合优度。在所有三个病例中，针对最佳拟合数据的模型选择模型大小，避免过拟合。模型选择的典型的偏差下降曲线(数量绝对值的标绘)显示在图12中。基于使用1标准误差规则，选择模型大小，即，曲线的极大值被鉴定出，并接着从极大值下的1个标准误差点画一条线。选择蛋白生物标记物的最佳数目作为超过上述线的其对应的平均绝对偏差值的最小数目。数目对应于7种蛋白生物标记物，即，最佳风险评分因此由4种TRF和7种蛋白生物标记物组成(图12)。所有三个方法选择5种和7种之间的生物标记物作为模型中的生物标记物的最佳数目。较小的生物标记物组总是较大的组的子集。表21显示了年龄、性别、糖尿病和MI家族史已被插入模型后的选择的生物标记物的频率和分级。这些计数和等级获得自不同的模型，所述模型在交叉验证过程期间建立；建立每个训练的一个模型，所述模型大小是通过上述提到的模型选择方法之一选择的。重复交叉验证过程以便使被每一受试者的成员分配关系引入的变化性被平均。

表21

表21显示了5-倍预验证(交叉验证一种形式)过程的4次重复上每一生物标记物的频率选择、平均、最小和最大等级。4个TRF包括在每一模型中。

使用通过偏差下降方法预测的最佳模型大小，Cox成比例危险模型与所有可得到的数据拟合，以获得可用于在不同的群上验证的模型。该最终基于蛋白的模型含有下述按选择的顺序的蛋白生物标记物：IL-16、嗜酸性粒细胞活化趋化因子(eotaxin)、fas配体、CTACK、MCP-3、HGF和sFas。

实施例8

蛋白模型与其他标准预测模型的比较

在从年龄45-84岁的美国群体中选择的第二个多民族群组中评价用于预测心血管事件(即，MI或UA)风险公开的模型的可移植性(动脉粥样硬化群组的多民族研究)[Bild DE，Bluemke DA，Burke GL，Detrano R，DiezRoux AV，Folsom AR，Greenland P，Jacob DR，Jr.，Kronmal R，Liu K，NelsonJC，O′Leary D，Saad MF，Shea S，Szklo M，Tracy RP.Multi-ethnic study ofatherosclerosis：objectives and design.Am J Epidemiol.2002；156(9)：871-881]。

为了在与开发使用的样品相似的不同样品上建立期望的模型性能，再次使用预验证方法，之后应用模型至第二个群。使用了两个性能度量：净重新分类指数(NRI)和临床净重新分类指数(CNRI)。净重新分类指数的定义通过下述方程给出：

方程以百分比的方式分别测量病例和对照的改进并将结果组合成为单个数值。病例的正百分比和对照的负百分比表示通过公开的模型引入性能的改进。通过建立由现有的和公开的模型预测的风险分数的适当阈值，来定义风险分类。以相同方式定义CNRI但其应用至可从鉴定组内真实风险的改进方法中增益的群的子集中。对于心血管疾病，如通过例如Franimgham评分定义的，在中级风险群中NRI度量的应用满足该准则。计算的值表示中间风险类的CNRI性能。

传统上，如通过Framingham评分计算的10年风险的中级风险类，已被定义为具有在10％和20％之间的风险评分的那些个体。这里列出的结果基于定义中级风险类的下述截止值：＜3.5％、＞7.5％。这些较低截止值的使用是合理的，因为：a)公开的模型集中于5年的时间范围和b)当开发Framingham评分时，当前群体中的事件比率比观察到的更低。

再分类比较需要计算针对给定的受试者的来自每一模型的绝对风险。使用Cox成比例危险(Cox PH)模型计算每一个体的绝对风险需要计算基于他们的特征的这些个体的相对危险度和估计基线危险。设计Cox PH模型来预测相对危险度但不需要危险函数的规范描述(specification)。为了从Cox PH模型产生绝对风险估计值，我们需要任何个体或“平均”个体的绝对风险；然后使用相对于该个体或平均个体的风险估计值，计算任何个体的绝对风险。平均个体是具有每一预测值的群体平均值的假定个体。考虑到群体的真实基线危险和对应的“平均”人是未知的(因为计算心血管事件风险的正确的模型未知的)，需要提供估计值。R语言[R：A Language andEnvironment for Statistical Computing，R Development Core Team，RFoundation for Statistical Computing，Vienna，Austria，2010]survfit函数用来计算平均个体的基线危险。survfit函数使用权重用于计算：群体的每一成员接受取决于相对于平均值的他们的估计的风险评分的权重，然后加权的危险估计值被用于基线危险。基线危险的估计取决于使用的模型并因而还取决于预测的相对危险度。为了对公开的模型与基于FRS和TRF的模型的再分类性能做出公正的比较。需要适当的基线危险估计，所述估计不会过分偏好任何一个模型。下文描述了计算基线危险的优选的方法，其使用了是来自正比较的两个模型的平均评分的风险评分。另外，survfit函数应用了两个可选择的估计：Kaplan-Meier和Aalen。测试了这两个估计值并且观察到的差异是可忽略的。为了延伸我们对群体的结论，使用研究的病例-群组权重，在协变量的群体均值下评估基线生存函数。

用于比较两个模型的绝对风险评分的基线危险估计的选择是一个困难的问题并且在文献中没有处理所述问题。因为群体的真实基线危险是未知的，使用通过每一模型的不同的估计可对比较结果具有显著作用。为了研究基线危险估计的作用，使用两个不同的方法进行所有计算：1.)使用通过每一模型计算的线性预测分数，每一模型的绝对风险评分基于个体基线生存估计；和2.)绝对风险评分基于共同的基线生存估计，所述估计通过以群的平均值为中心的两个分数来计算平均值线性预测值获得。

表22、23和24列出了对照下述三个可选择的模型的含有生物标记物的预验证模型的NRI和CNRI的期望性能：1.)Framingham风险评分(“FRS”)；2.)使用4个TRF(“4-TRF”：年龄、性别、糖尿病和MI家族史)作为协变量在Marshfield数据上拟合的模型；和3.)使用9个TRF(“9-TRF”：年龄、性别、糖尿病、MI家族史、吸烟、总胆固醇、HDL、高血压药物和心脏收缩压)作为协变量在Marshfield数据上拟合的可选模型。

总的来说，包括蛋白生物标记物的模型在心血管事件的5年风险的3.5-7.5％和3.5-10％两个范围内都提供了比基于FRS或TRF的模型更好的再分类。表22显示了基于预验证(Marshfield数据集)的针对校准FRS评分的所公开的模型评分的期望再分类性能。表23和24显示了基于预验证(Marshfield数据集)的分别对照4-TRF和9-TRF模型评分的期望的再分类评分。

使用计算基线生存函数的两种方法的任一种，总的再分类就NRI和CNRI二者而言是相当的。但是，有在两种方法之间补足总NRI或CNRI的病例和对照的再分类平衡的差异。通常的基线生存函数方法的确提供了更平衡的再分类。该结果与模型的相对风险预测获得的结果一致。图13A-B列出了按照FRS、公开的模型(从预验证方法的多次重复中获得)、4-TRF和9-TRF模型的线性分数的核密度估计的这种比较。公开的模型评分提供了比任何模型更高的病例相对危险度。就较之其他分数的表示上升和下降的风险对照的平衡的公开的分数，对照分布也较宽。这些结果提供了强烈暗示，公开的模型评分相对于其他评分对病例正确地向上分类。

通常的基线生存函数方法(使用平均评分)也与使用投票方案(即加权平均)用于改进预测准确度许多统计学方法一致。

表22

基于预验证(Marshfield数据集)针对校准Framingham评分的Aviir评分的期望的再分类性能。

表23

基于预验证(Marshfield数据集)的针对4-TRF模型评分的Aviir评分的期望再分类性能

表24

基于预验证(Marshfield数据集)的针对9-TRF模型评分的期望的Aviir评分的再分类性能

实施例9

公开的模型对第二群的可移植性

贯穿多个群的预后模型的可移植性问题提供了对预测模型的最终有效性测试。模型的统计学和临床有效性是模型可移植性同样重要的方面。为新的测试提出了三-步验证方法：1)内部验证，2)时间验证和3)外部验证。上文描述了通过使用预验证方法(交叉验证形式)完成第一步骤以验证模拟方法。第二步骤需要在来自相同群或临床中心的不同患者组上测试算法。假设在Marshfield研究中上次事件发生的时间和本次之间仅有短的时间周期(约2年)，随后事件的数目对于相同群中的验证太小。因此，通过在MES样品组上测试公开的蛋白模型进行外部验证步骤，作为表明公开的蛋白模型的可移植性。

为在MESA群组上评估模型的性能，使用实施例7中描述的蛋白生物标记物组(IL-16、嗜酸性粒细胞活化趋化因子、fas配体、CTACK、MCP-3、HGF和sFas)检验824个样品(222个病例和602个对照)。

Marshfield训练的模型用来预测具有标记物选择的MES样品的每一受试者，和在Marshfield群上进行的模型拟合，而没有来自MES结果的任何知识或输入。

所有模型的绝对风险分数的计算是基于上述方法。由于一些风险因子和生物标记物的一些遗漏的值，修改对于每个比较中状况和性别的组合的群组权重。再分类的计算也考虑相同修改的权重，因为男性和女性病例的再分类或对照不具有相同的权重。假设丢失的值是随机丢失，这样做试图将结果适当地延伸至整个群。

表25和26显示公开的模型与先前按照NRI和CNRI列出的3个其他模型的比较，以及针对Reynolds评分的比较[Ridker PM，Buring JE，Rifai N，et al.Development and validation of improved algorithms for the assessment ofglobal cardiovascular risk in women：the Reynolds Risk Score JAMA2007；297：611-619]。该比较与来自Marshfield组的预测的性能一致。公开的模型提供了比这里列出的任何其他转运模型更好的纯的临床再分类。当与使用个体估计的方法比较时，使用分数平均值的评估基线生存函数的方法也提供了病例和对照之间再分类的更好的平衡。这再次与MESA样品上的这些模型的相对风险预测一致(图14A和B)。这些结果清楚地支持针对MESA组中低中级/中级风险群的公开的模型的临床有效性和可移植性。按照NRI和CNRI在非糖尿病群中的模型预测能力显示在表27中。基于参照模型，后者的中级风险区域设为3.5至7.5％区间。在基线处的患有诊断的糖尿病的受试者已被从比较中排除。结果再次显示该模型对于非糖尿病受试者中级风险分类的临床效用。

表25

比较对FRS、4-TRF、9-TRF和Reynolds评分模型的Aviir评分的MESA数据集的NRI和CNRI结果。CNRI基于参照模型3.5-10％的风险的基线范围。具有遗漏的生物标记物数据的受试者已经被从比较中排除。

表26

比较对FRS、4-TRF、9-TRF和Reynolds评分模型的Aviir评分的MESA数据集的NRI和CNRI结果。CNRI是基于参照模型3.5-7.5％的风险的基线范围。具有遗漏的生物标记物数据的受试者已经被从比较中排除。

表27

比较MESA集中非糖尿病个体的FRS、4-TRF、9-TRF模型的Aviir评分的MESA数据集的NRI和CNRI结果。CNRI是基于参照模型3.5-7.5％的风险的基线范围。具有遗漏的生物标记物数据的受试者已经被从比较中排除。

实施例10

杂种生物标记物预后/诊断模型

除了蛋白生物标记物/TRF，miRNA可在人的体液比如血液中测量，并用来预测受试者的未来心血管事件。

通过使用病例-群组研究设计，建立具有选自表28中列出的miRNA集的协变量的杂种预后模型和所公开的作为单个评分的蛋白生物标记物模型(见实施例7-9)，测定杂种miRNA/蛋白生物标记物集的预后能力。群组含有感兴趣的时间帧内发展MI的所有病例(n＝200)和200个对照。为了有效利用较小的群组，除非miRNA生物标记物的单变量关联比蛋白生物标记物或TRF观察到的更强，TRF和蛋白预测值按照单个计算的评分(单变量)。在后者情况中，基于使用从所有可得到的生物标记物(TRF、蛋白生物标记物、miRNA)选择变量的惩罚回归方法，建立多元模型。在前者的情况中，使用上文描述的在较大群组上先前估计的系数，进行评分计算。交叉验证和惩罚回归方法是用来选择下述三个模型类型的模型大小和miRNA标记物：a)仅miRNA的模型；b)基于TRF+miRNA的模型；和c)基于TRF+蛋白+miRNA生物标记物的模型。基于对比FRS以及先前公开的基于TRF+蛋白的模型的混合模型的时间依赖性AUC、NRI和CNRI特征，评估拟合的模型的期望性能(见实施例8-9)。

表28

除非另有说明，用于说明书和权利要求书中的表达成分数量、如分子量的性质、反应条件的所有数字等应理解为在所有情况下由术语“约”修饰。因此，除非指出反例，以下说明书和附加的权利要求书中公开的数量参数是近似值，其可根据本发明想要获得的所需性质而变化。至少，并不企图限制将等同原则应用于权利要求书的范围，每个数量参数至少应按照经报导的有效数字的位数并通过应用常规约数技术解释。尽管定义本发明广大范围的数量范围和参数为约数，但特定实施例中公开的数量值则是尽可能精确地报导的。然而，任何数量值固有地包含误差，这是从它们各自检测测量中发现的标准差必然地产生的。

除非在本文另有说明或同上下文明显抵触，描述本发明的上下文中(特别是在以下的权利要求书上下文中)使用的术语“一个”(″a″，″an″)和“所述”(″the″)和类似的指代被解释为包括单数和复数。对本文数值范围的叙述仅意图用作为引用落入该范围的每个单独的值的速记方法(shorthand method)。除非本文另有说明，每个单独的值都被并入说明书，就像其被单独地并入本文一样。除非在本文另有说明或与上下文明显抵触，本文所述的所有方法可以以任何合适的顺序进行。本文所提供的任何和所有实例或举例文字(例如“诸如”)的使用仅意欲用来更好地阐述本发明，而非对本发明所要求保护的范围设定限制。说明书中任何语言不应被解释为表示对于实施本发明必需的而不要求保护的元素。

本文公开的备选元素或实施方式的分组不应解释为限制。各组成员可被单独提到或要求保护或与本文发现的组的其它成员或其它元素任意组合。应当理解，由于便利和/或专利的原因，一组的一种或多种成员可以被包括进一组中或从该组删除。当任何这类包括或删除发生时，本申请文件被认为含有经改写的组，以满足对附加的权利要求书中所用的所有马库什组的书面描述。

本文描述了根据本发明的某些实施方式，包括本发明的发明人已知的实现本发明的最佳模式。当然，本领域常规技术人员阅读上述描述后会明白这些实施方式的变更。本发明人预期熟练的技术人员能适当地采用这类变更，且本发明人意欲使得本发明以与本文特定描述不同的方式应用。因此，至少可适用的法律允许，本发明包括附加的权利要求书中所述的本发明的内容的所有修饰和等价物。另外，除非本文另有说明或与上下文明显抵触，在其所有可能变化中，上述元件的任何组合由本发明所包括。

本文公开的详细实施方式可使用语言“由…组成”或“基本由…组成”在权利要求中进一步限制。当在权利要求中使用时，无论作为提交的或每次修改添加的，转换术语“由…组成”排除未在权利要求中指定的任何元素、步骤或成分。转换术语“基本由…组成”将权利要求的范围限制在指定的材料或步骤和实质上不影响基础的和新颖的特征的那些。如此要求保护的发明的实施方式在本文中被隐含地或清楚地描述，并使得技术人员能够实施。

另外，在本申请文件中，引用了大量专利和印刷出版物作为参考文献。上述各参考文献和印刷出版物通过引用其整体单独并入本文。

最后，应理解本文公开的本发明的实施方式仅用于阐述本发明的原则。其它可使用的修饰也在本发明的范围内。因此，通过示例而非限制的方式，可根据本文的教导利用本发明的备选形式。因此，本发明并非被限制为如说明书精确地所示和所述的。

Claims

1.用于评价人的心血管健康的方法，其包括：

a)从人获得生物样品；

b)测定生物样品中的选自表20中列出的miRNA的至少2种miRNA标记物水平；

c)获得包括每种miRNA标记物水平的数据集；

d)将所述数据输进分析分类程序，所述程序使用所述数据对生物样品分类，其中分类选自由动脉粥样硬化心血管疾病分类、健康分类、药物暴露分类、非药物暴露分类组成的组；和

e)基于步骤(d)中的分类确定针对所述人的治疗方案；

其中所述人的心血管健康被评价。

2.根据权利要求1方法，其中所述至少2种miRNA标记物选自下述组：miR-378、miR-497、miR-21、miR-15b、miR-99a、miR-29a、miR-24、miR-30b、miR-29c、miR-331.3p、miR-19a、miR-22、miR-126、let-7b、miR-502.3和miR-652。

3.根据权利要求2的方法，其中所述至少2种miRNA标记物选自下述组：miR-378、miR-497、miR-21、miR-15b、miR-99a和miR-652。

4.根据权利要求1的方法，其中所述动脉粥样硬化心血管疾病分类选自下述组：冠状动脉疾病、心肌梗塞和不稳定型心绞痛。

5.根据权利要求1的方法，还包括使用所述分类用于测定动脉粥样硬化诊断、动脉粥样硬化分期、动脉粥样硬化预后、血管炎症水平、动脉粥样硬化发展程度、监测治疗响应、预测冠状动脉钙化评分、将动脉粥样硬化疾病的稳定与不稳定表现区分开、和它们的组合。

6.根据权利要求1的方法，其中所述数据集还包括一个或多个临床指标的数据。

7.根据权利要求6的方法，其中所述一个或多个临床指标选自下述组：年龄、性别、LDL浓度、HDL浓度、甘油三酯浓度、血压、体重指数、CRP浓度、冠状动脉钙化评分、腰围、吸烟状况、心血管疾病的过去病史、心血管疾病的家族史、心率、空腹胰岛素浓度、空腹葡萄糖浓度、糖尿病状况、使用的高血压药物及其组合。

8.根据权利要求7的方法，其中选择的所述临床指标是年龄、性别、糖尿病和MI家族史。

9.根据权利要求1的方法，其中所述生物样品包含血液、血清、血浆、唾液、尿、汗液、母乳及其组合。

10.根据权利要求1的方法，还包括测定所述生物样品中的至少一种蛋白生物标记物水平。

11.根据权利要求10的方法，其中所述至少一种蛋白生物标记物选自下述组：IL-16、sfas、Fas配体、MCP-3、HGF、CTACK、嗜酸性粒细胞活化趋化因子、脂联素、IL-18、TIMP.4、TIMP.1、CRP、VEGF和EGF。

12.根据权利要求11的方法，其中所述至少一种蛋白生物标记物选自下述组：IL-16、嗜酸性粒细胞活化趋化因子、Fas配体、CTACK、MCP-3、HGF和sFAS。

13.根据权利要求11的方法，其中测定了三种或更多种蛋白生物标记物水平。

14.根据权利要求1的方法，其中所述分析分类程序包括使用预测模型。

15.根据权利要求1的方法，其中所述分析分类程序包括将获得的数据集与参照数据集比较。

16.根据权利要求13的方法，其中所述预测模型包括用于分类的至少0.68的至少一个质量度量。

17.根据权利要求15的方法，其中所述质量度量是选自AUC和准确度。

18.根据权利要求1的方法，其中所述分析分类程序包括使用选自下述组的一种或多种：线性判别分析模型、支持向量机器分类算法、递归特征去除模型、微阵列模型的预测分析、逻辑回归模型、CART算法、flextree算法、LART算法、随机森林算法、MART算法、机器学习算法、惩罚回归方法及其组合。

19.根据权利要求18的方法，其中所述分析分类程序包括选择的项目以提供至少0.68的质量度量。

20.根据权利要求18的方法，其中所述分析分类程序包括选择的项目以提供0.70的质量度量。

21.根据权利要求18的方法，其中所述分析分类程序包括用于分类的至少0.70的至少一个质量度量。

22.根据权利要求1的方法，其中所述治疗方案包括选自下述组的一种或多种：进一步测试、药理学干预、不治疗及其组合。

23.用于评价人的心血管健康的方法，其包括：

a)从人获得生物样品；

b)测定生物样品中的选自下述组的至少3种蛋白标记物水平：IL-16、sFas、Fas配体、MCP-3、HGF、CTACK、嗜酸性粒细胞活化趋化因子、脂联素、IL-18、TIMP.4、TIMP.1、CRP、VEGF和EGF；

c)获得包括每种蛋白标记物水平的数据集；

e)基于步骤(d)中的分类确定针对所述人的治疗方案；

其中所述人的心血管健康被评价。

24.根据权利要求23的方法，其中所述至少3种蛋白标记物选自下述组：IL-16、嗜酸性粒细胞活化趋化因子、Fas配体、CTACK、MCP-3、HGF和sFAS。

25.根据权利要求23的方法，其中所述数据集还包括选自下述组的一个或多个临床指标的数据：年龄、性别、LDL浓度、HDL浓度、甘油三酯浓度、血压、体重指数、CRP浓度、冠状动脉钙化评分、腰围、吸烟状况、心血管疾病的过去病史、心血管疾病的家族史、心率、空腹胰岛素浓度、空腹葡萄糖浓度、糖尿病状况、使用的高血压药物及其组合。

26.用于评价人的心血管健康以测定是否需要治疗方案或治疗方案的有效性的方法，其包括：

从人获得生物样品；

测定生物样品中的选自表20中列出的miRNA的至少2种miRNA标记物水平；

测定生物样品中的选自下述组的至少3种蛋白生物标记物水平：IL-16、sFas、Fas配体、MCP-3、HGF、CTACK、嗜酸性粒细胞活化趋化因子、脂联素、IL-18、TIMP.4、TIMP.1、CRP、VEGF和EGF；

获得包括各个miRNA标记物和蛋白生物标记物水平的数据集；

将所述数据输进分析分类程序，所述程序使用所述数据对生物样品分类，其中分类选自由动脉粥样硬化心血管疾病分类、健康分类、药物暴露分类、非药物暴露分类组成的组；和

根据分类程序的输出对生物样品分类并基于所述分类确定针对所述人的治疗方案。

27.根据权利要求26的方法，其中所述miRNA标记物选自下述组：miR-378、miR-497、miR-21、miR-15b、miR-99a、miR-29a、miR-24、miR-30b、miR-29c、miR-331.3p、miR-19a、miR-22、miR-126、let-7b、miR-502.3和miR-652。

28.根据权利要求26的方法，其中所述蛋白生物标记物选自下述组：IL-16、嗜酸性粒细胞活化趋化因子、Fas配体、CTACK、MCP-3、HGF和sFAS。

29.用于评价人的心血管健康以测定是否需要治疗方案或治疗方案的有效性的试剂盒，其包含：

检验装置，用于测定生物样品中的选自表20中列出的miRNA的至少2种miRNA标记物水平；

说明书，用于获得包括各个miRNA标记物水平的数据集，将所述数据输进分析分类程序，所述程序使用所述数据对生物样品分类，其中分类选自由动脉粥样硬化心血管疾病分类、健康分类、药物暴露分类、非药物暴露分类组成的组；和按照分类程序的输出对生物样品分类并基于分类确定针对人的治疗方案。

30.根据权利要求29的试剂盒，还包括：检验装置，用于测定生物样品中的选自下述组的至少3种蛋白生物标记物水平：IL-16、sFas、Fas配体、MCP-3、HGF、CTACK、嗜酸性粒细胞活化趋化因子、脂联素、IL-18、TIMP.4、TIMP.1、CRP、VEGF和EGF；和说明书，用于获得包括各个蛋白标记物水平的数据集，将miRNA和蛋白标记物的数据输入分析分类程序，所述程序使用所述数据对生物样品分类，其中分类是选自下述组：动脉粥样硬化心血管疾病分类、健康分类、药物暴露分类、非药物暴露分类；和按照分类程序的输出对生物样品分类并基于所述分类确定针对人的治疗方案。

31.用于评价人的心血管事件风险的方法，其包括：

a)从人获得生物样品；

c)获得包括每种miRNA标记物水平的数据集；

d)将所述数据输入风险预测分析程序以基于所述数据集测定心血管事件风险；和

e)基于步骤(d)中预测的心血管事件风险确定针对所述人的治疗方案；

其中评价了人的心血管事件风险。

32.根据权利要求31的方法，其中针对选自下述组的时期测定所述心血管事件风险：从获得样品的日期起约1年、约2年、约3年、约4年和约5年。

33.根据权利要求31的方法，还包括测定所述生物样品中的3种或更多种蛋白生物标记物水平。

34.根据权利要求33的方法，其中所述3种或更多种蛋白生物标记物选自下述组：IL-16、sFas、Fas配体、MCP-3、HGF、CTACK、嗜酸性粒细胞活化趋化因子、脂联素、IL-18、TIMP.4、TIMP.1、CRP、VEGF和EGF。

35.根据权利要求34的方法，其中所述三种或更多种蛋白生物标记物选自下述组：IL-16、嗜酸性粒细胞活化趋化因子、Fas配体、CTACK、MCP-3、HGF和sFAS。

36.评价人的心血管事件风险的方法，其包括：

a)从人获得生物样品；

b)测定样品中的选自下述组的多种蛋白生物标记物水平：IL-16、sFas、Fas配体、MCP-3、HGF、CTACK、嗜酸性粒细胞活化趋化因子、脂联素、IL-18、TIMP.4、TIMP.1、CRP、VEGF和EGF；

c)获得包括每一蛋白生物标记物水平的数据集；

e)基于步骤(d)中的心血管事件预测风险确定针对所述人的治疗方案；

其中评价了人的心血管事件风险。

37.根据权利要求36的方法，其中针对选自下述组的时期测定心血管事件风险：从获得样品的日期起约1年、约2年、约3年、约4年和约5年。