CN109036571A

CN109036571A - 用于预测患有癌症的可能性或风险的方法和机器学习系统

Info

Publication number: CN109036571A
Application number: CN201810588702.4A
Authority: CN
Inventors: J·科恩; J·雷迪克; V·多塞耶娃; P·施; J·M·弗洛雷斯-费尔南德兹
Original assignee: 20 20 GeneSystems Inc
Current assignee: 20 20 GeneSystems Inc
Priority date: 2014-12-08
Filing date: 2018-06-08
Publication date: 2018-12-18
Anticipated expiration: 2038-06-08
Also published as: CN117672539A; CN109036571B; US20240112811A1; WO2016094330A2; WO2016094330A3; US20180068083A1; US11621080B2

Abstract

本发明的实施方案一般涉及测量生物标志物(例如肿瘤抗原)并收集来自患者的临床参数的非侵入性方法和测试，以及计算机执行的机器学习方法、装置、系统和计算机可读介质，用于评估相对于患者群体或组群患病的可能性。在一个实施方案中，基于来自回顾性数据和输入子集(例如至少两个生物标志物和至少一个临床参数)的训练数据，使用机器学习系统来生成分类器，其中每个输入值具有相关联的权重并且分类器满足预定的接收器操作者特征(ROC)统计值，指定灵敏度和特异性，用于患者的正确分类。分类器然后可以用于通过将患者分为指示患有癌症的可能性的类别或指示不患有癌症的可能性的另一类别来评估患者相对于人群患有癌症的可能性。

Description

用于预测患有癌症的可能性或风险的方法和机器学习系统

相关申请的交叉引用

本申请是2015年12月7日提交的PCT/US15/64344的部分继续申请，其要求于2014年12月8日提交的美国临时专利申请号62/089,061的权益，其内容各自通过引用以完整的形式并入本文。

技术领域

本发明的实施方案一般涉及使用人工智能/机器学习系统来分析数据并基于该数据进行预测，并且更具体地涉及预测患有例如癌症这样的疾病、尤其是在另外无症状或不明显症状的患者中的可能性或风险。

背景

癌症的早期检测

对于许多类型的癌症，如果手术和其它治疗性干预在肿瘤已经转移之前开始，则患者结果显著改善。因此，已经将成像和诊断试验引入医疗实践中，试图帮助临床医生早期发现癌症。这些包括各种成像模式，例如乳房X线照相术以及诊断试验，以鉴定血液和其它体液中的癌症特异性“生物标志物”，例如前列腺特异性抗原(PSA)测试。许多这些测试的价值经常受到质疑，尤其是关于与假阳性、假阴性等相关的成本和风险是否超过了挽救实际寿命的潜在收益。此外，为了证明这一价值，必须在现实世界(前瞻性)研究而不是实验室存储的(回顾性)研究中产生大量-数以千计乃至数以万计-的患者数据。不幸的是，开展大规模的筛查工具的前瞻性研究的成本超过了合理预期的财务回报，因此这些大型的前瞻性研究几乎从未由私营部门完成，而仅是偶尔由政府提供赞助。因此，用于早期检测大多数癌症的血液测试的使用范例在几十年内进展甚微。例如，在美国，PSA仍然是唯一广泛使用的用于癌症筛查的血液试验，且甚至其使用已成为有争议的。在世界上其它地区，尤其是远东地区，检测各种癌症的血液检测更为普遍，但几乎没有标准化或经验性方法来确定或改善世界这类地区这类测试的准确性。

因此，期望在其常见的那些区域中改善癌症筛查的准确性和标准化，并且因此生成可改善和/或鼓励在其较不常见的那些区域中的癌症筛查的工具和技术。

与检测病毒或细菌感染相比，癌症检测带来显著的技术挑战，因为与病毒和细菌不同，癌细胞与正常健康细胞在生物学上相似并且难以区分。出于这个原因，用于癌症早期检测的试验通常比用于病毒或细菌感染的可比试验或用于测量遗传、酶或激素异常的试验的假阳性和假阴性数量更高。这经常在医疗保健从业人员和他们的患者中导致混淆，导致在某些情况下进行不必要的、昂贵的和侵入性的后续测试，而在其它情况下完全忽视后续测试，导致癌症被检测过晚而无法进行有效干预。临床医生和患者欢迎产生二元判定或结果的试验，例如，患者的病症是阳性还是阴性，例如在非处方妊娠试验试剂盒中观察到的，其例如呈现形式为正号或负号的免疫测定结果，指示是否妊娠。但是，除非诊断的灵敏度和特异性接近99％，即对于大部分癌症试验无法达到的水平，否则这类二元输出可能具有高度误导性或不准确性。

因此，尽管二元输出不切实际，但是仍期望为医疗保健从业人员及其患者提供关于患有特定癌症的可能性的更多定量信息。

由于与现代医学实践相关的因素，检测早期癌症也是具有挑战性的。特别是初级保健提供者典型地每天看到大量患者，并且医疗费用控制的需求显著缩短了他们与每个患者一起度过的时间。因此，医生通常缺乏足够的时间去深入探索家庭和生活方式的历史，为患者提供健康生活方式的咨询，或者对那些被推荐进行超出门诊实践所提供的测试的患者进行随访。

因此，希望向尤其是大量初级保健提供者提供有用的工具以帮助他们对患有癌症的患者进行分类或比较相对风险，以便他们可以对处于最高风险中的那些患者预定额外的测试。

肺癌和早期检测

迄今为止，肺癌是造成北美和世界大部分地区癌症死亡的主要原因，比接下来三种最致命的癌症(即乳腺癌、前列腺癌和结肠直肠癌)共同造成的死亡人数更多。仅在美国，肺癌每年导致超过156,000人死亡(American Cancer Society.Cancer Facts&Figures2011.Atlanta:American Cancer Society；2011)。烟草使用已被确定为肺癌的主要致病因素，并被认为占约90％的病例。因此，年龄超过50岁且超过20的吸烟史的个体一生中有七分之一发生该疾病的风险。肺癌是一种相对沉默的疾病，如果有任何特殊症状，直到达到更晚期阶段之前几乎不显示。因此，大多数患者直到其癌症转移出肺部之后才会被诊断出来，并且该癌症不再可以单独通过手术治疗。因此，尽管预防肺癌的最佳方法可能是戒烟或停止吸烟，但对于许多目前和过去的吸烟者来说，已经发生了转变性致癌事件，并且尽管癌症尚未显现，但损害已经完成。因此，或许降低肺癌死亡率的最有效手段是当肿瘤仍然局部化并且顺从治愈目的的手术时的早期检测。

早期检测的重要性最近在大型7-年临床研究-国家肺癌筛查试验(National LungCancer Screening Trial)(NLST)中得到证实，该试验比较了胸部X射线和胸部电子计算机断层(CT)扫描作为肺癌早期检测的潜在形式(National Lung Screening Trial ResearchTeam,Aberle D.R.,Adams A.M.,Berg C.D.,Black W.C.,Clapp J.D.,Fagerstrom R.M.,Gareen I.F.,Gatsonis C.,Marcus P.M.,Sicks J.D.Reduced lung-cancer mortalitywith low-dose computed tomographic screening.N.Engl.J.Med.2011 Aug.4；365(5):395-409)。该试验得出的结论是，使用胸部CT扫描来筛查高危人群比胸部X射线显著地鉴定更早期的肺癌并导致疾病死亡率总体降低20％。这项研究清楚地表明，早期鉴定肺癌可挽救生命。不幸的是，CT扫描作为肺癌筛查方法的广泛应用是有问题的。NLST设计采用了系列CT筛查范例，其中患者每年接受CT扫描，仅需三年。接受年度CT扫描超过3年的参与者中，近40％至少有一次筛查结果为阳性，且这些阳性筛查结果的96.4％为假阳性。这种非常高的假阳性率会导致患者焦虑并给医疗保健系统带来负担，因为使用低剂量CT扫描的阳性发现后的随访通常包括高级成像和活检。虽然CT扫描是肺癌早期检测的重要工具，但在NLST结果公布后两年以上，极少数因吸烟史而处于肺癌高风险中的患者启动了年度CT扫描计划。这种不情愿每年进行CT扫描的原因可能是由于许多因素，包括成本、感知的辐射暴露风险(尤其是通过系列CT扫描)、给放射中心安排单独诊断程序的无症状患者造成的不便或负担以及医生对CT扫描作为独立试验的假阳性率极高的担忧，这将导致大量不必要的随访诊断试验和侵入性操作。

虽然吸烟者中肺癌的总体终生风险很高，但任何个体吸烟者在特定时间点患有癌症的几率为1.5-2.7％[Bach,P.B.等人,Screening for Lung Cancer*ACCP Evidence-Based Clinical Practice Guidelines(第2版).CHEST Journal,2007.132(3_增刊):p.69S-77S.]。由于这种疾病流行率低，所以鉴定哪些患者处于最高风险中是具有挑战性和复杂性的。

期望进行血液试验来补充使用射线照相筛查来早期检测肺癌。

人工智能/机器学习系统

人工智能/机器学习系统对于分析信息是有用的，并且可以帮助人类专家进行决策。例如，包括诊断决策支持系统的机器学习系统可以使用临床决策公式，规则，树或其它过程来帮助医师进行诊断。

尽管已经开发了决策系统，但是这样的系统在医疗实践中并未广泛使用，因为这些系统遭受了限制，从而无法将其融入到卫生组织的日常操作中。例如，决策系统可能会提供难以管理的数据量，依赖于具有极小的显著性的分析，并且不与复杂的多发病良好相关(Greenhalgh,T.Evidence based medicine:a movement in crisis？BMJ(2014)348:g3725)

许多不同的医护人员可以看到患者，并且患者数据可能以结构化和非结构化形式分散在不同计算机系统中。此外，这些系统很难与之互动(Berner,2006；Shortliffe,2006)。患者数据的录入困难，诊断建议的列表可能太长，且诊断建议背后的推理并不总是透明的。此外，这些系统对下一步行动的重视程度不够，并且不能帮助临床医生弄清楚如何帮助患者(Shortliffe,2006)。

因此，期望提供允许人工智能/机器学习系统用于帮助癌症的早期检测、尤其是使用血液测试的方法和技术。

概述

本发明的实施方案一般涉及测量生物标志物(例如肿瘤抗原)的非侵入性方法、诊断试验、特别是血液(包括血清或血浆)试验，以及计算机执行的机器学习方法、装置、系统和计算机可读介质，其用于相对于患者群体或组群评估患者患有疾病例如癌症的可能性，以确定是否应当对患者追踪进行额外的更有侵入性的测试。

在实施方案中提供了一种计算机执行的方法，用于在计算机系统中预测患者中患有癌症的可能性，所述计算机系统具有耦合到存储器的一个或多个处理器，所述存储器存储一个或多个计算机可读指令以供一个或多个处理器执行，所述一个或多个计算机可读指令包含用于以下操作的指令：存储包含多个患者记录的一个数据集，每个患者记录包括患者的多个参数和相应值，并且其中所述数据集还包括诊断指示符，其指示该患者是否已被诊断出患有癌症。在实施方案中，患者记录是回顾性数据，其包括诊断和患者数据，例如测量的生物标志物和临床参数。计算机执行的方法包括选择用于输入到机器学习系统中的多个参数的子集，其中该子集包括由至少两种不同生物标志物和至少一种临床参数组成的组；将该数据集随机分成训练数据和验证数据；基于训练数据和输入子集使用机器学习系统生成分类器，其中每个输入值具有相关联的权重；并确定分类器是否符合预定的接收器操作者特征(Receiver Operator Characteristic)(ROC)统计值，指定灵敏度和特异性，用于患者的正确分类。

在实施方案中，预定的ROC统计值具有至少70％的灵敏度与至少80％的特异性。在某些实施方案中，具有80％特异性的灵敏度为至少75％、80％、82％、85％、87％、90％、91％、92％、93％、94％、95％、96％、97％或98％。在其它实施方案中，具有85％特异性的灵敏度为至少70％、75％、80％、82％、85％、87％、90％、91％、92％、93％、94％、95％、96％、97％或98％。在实施方案中，具有90％特异性的灵敏度为至少70％、75％、80％、82％、85％、87％、90％、91％、92％、93％、94％、95％、96％、97％或98％。

在实施方案中，计算机执行的方法还包括：当分类器不满足预定的ROC统计值时，通过使用输入的不同子集和/或通过调整输入的相关联的权重反复地再生分类器直到再生的分类器满足预定的ROC统计值。在某些实施方案中，计算机执行的方法还包括当机器学习系统满足预定的ROC统计值时生成分类器的静态配置。当分类器是静态的、半静态的(例如分类器可以以指定的时间间隔更新)或动态的(例如当患者的附加数据被输入到作为诊断包括的系统中时，分类器被更新，分类器可以例如由医生使用)时，例如，可以由临床医师使用该分类器。典型地，用射线照相筛查和/或活组织检查样品的组织学来证实对癌症存在的诊断。

在实施方案中，该方法包括使用分类器分类验证数据；确定分类器是否满足预定的ROC统计值；并且当分类器不满足预定的ROC统计值时，通过使用不同的输入子集和/或通过调整输入的相关联的权重反复地再生分类器，直到再生的分类器满足预定的ROC统计值。在实施方案中，该方法进一步包括：用静态分类器配置用户可访问的计算装置；将对应于患者的所述多个参数的子集值输入到所述计算装置中；以及使用静态分类器将患者分类为指示患有癌症的可能性的类别或指示不患有癌症的可能性的另一类别。

在实施方案中，指示患有癌症的可能性的类别被进一步分类为定性组，例如低，中，高或其一些组合或子组合。在替代实施方案中，指示患有癌症的可能性的类别被进一步分类为定量组。这些定量组可以作为百分比，乘数值，综合分数或用于患有癌症的可能性或患有癌症的风险增加的风险分数提供给使用者。在某些实施方案中，所述方法还包括当患者被分类为指示患有癌症的可能性的类别时向用户提供推荐诊断测试的通知。在实施方案中，诊断测试是射线照相筛查或活检样本的分析。

在其中分类器被更新的实施方案中，该方法进一步包括从诊断测试获得确认或否定癌症存在的测试结果，将测试结果并入训练数据以用于机器学习系统的进一步训练；并通过机器学习系统生成改进的分类器。

在实施方案中，生物标志物可以是与癌症存在相关的任何两种，任何三种，任何四种，任何五种或任何六种或更多种生物标志物。在实施方案中，生物标志物组选自：AFP，CA125，CA 15-3，CA 19-19，CEA，CYFRA 21-1，HE-4，NSE，Pro-GRP，PSA，SCC，抗-细胞周期蛋白E2，抗-MAPKAPK3，抗-NY-ESO-1和抗p53。在实施方案中，从患者获得样品用于测量生物标志物，其中样品是血液，血清，血浆或其成分。在实施方案中，临床参数可以是如下的一个或多个：年龄；性别；吸烟状况(如肺癌)；吸烟指数(pack years)；症状；癌症家族史；伴随疾病；结节数量(如肺结节)；结节大小；和成像数据。参见实施例4的肺癌生物标志物和临床因素的排名。在实施方案中，肺癌的临床参数包括吸烟状况，吸烟指数和年龄。在某些实施方案中，肺癌的临床参数包括至少50岁；和至少20吸烟指数的吸烟史。

在实施方案中，分类器是支持向量机，决策树，随机森林，神经网络或深度学习神经网络。在某些实施方案中，分类器是具有以下特征中的任何一个或多个的神经网络：至少两个隐藏层；至少两个输出，其中第一输出指示肺癌可能并且第二输出指示肺癌不可能；和20-30个节点。参见实施例3肺癌回顾性患者数据的神经网络的训练。

在实施方案中，癌症选自：乳腺癌、胆管癌、骨癌、宫颈癌、结肠癌、结直肠癌、胆囊癌、肾癌、肝或肝细胞癌、小叶癌、肺癌、黑素瘤、卵巢癌、胰腺癌、前列腺癌、皮肤癌和睾丸癌。在说明性实施方案中，癌症是肺癌。

在实施方案中，使用计算机系统来提供用于预测受试者中的癌症的可能性的计算机执行的方法，所述计算机系统具有耦合到存储器的一个或多个处理器，所述存储器存储供所述一个或多个处理器执行的一个或多个计算机可读指令，所述一个或多个计算机可读指令包含用于以下操作的指令：存储包含多个患者记录的一组数据，每个患者记录包括用于患者的多个参数，并且其中所述数据集还包括诊断指示符，所述诊断指示符指示是否该患者已被诊断患有癌症；选择用于输入到机器学习系统的多个参数，其中所述参数包括具有至少两种不同生物标志物值和至少一种类型的临床数据的组；以及使用机器学习系统生成分类器，其中分类器包含至少70％的灵敏度和至少80％的特异性，并且其中分类器基于输入的子集。

在其它实施方案中，提供了分类器在评估患者相对于人群患肺癌的可能性的方法中的用途，包括测量来自患者的样品中的一组生物标志物的值并从该患者获得临床参数；利用由机器学习系统生成的分类器将患者分类为指示患有癌症的可能性的类别或指示不患有癌症的可能性的另一类别，其中分类器包含至少70％的灵敏度和至少80％的特异性，并且其中使用包含至少两种不同生物标志物和至少一种临床参数的一组生物标志物产生分类器；并且当患者被分类为指示患有癌症的可能性的类别时，向用户提供用于诊断测试的通知。

在其它实施方案中，提供了使用人工智能/机器学习系统的技术，该系统可以并入和分析结构化的数据并且优选地还有非结构化的数据以进行风险分析，从而确定患有癌症的可能性，最初是肺癌、而且还有其它类型的癌症，包括泛癌症检测(即从单个患者样本测试多种肿瘤)。通过利用来自大量纵向或前瞻采集的血样(例如来自基于血液的肿瘤生物标志物癌症筛查常见的一个或多个区域的真实世界数据)的生物标志物水平(例如肿瘤抗原)产生的算法以及一个或多个临床参数(例如年龄，吸烟史，疾病迹象或症状)，提供了患有癌症类型的患者的风险水平或百分比。机器学习系统根据群体的增加(例如组群)来确定患者中存在癌症的可量化风险，优选在他们患有症状或晚期疾病之前。通过确定个体患者相对于组群的风险，临床医师可能会建议相对于组群具有更高风险的那些患者进一步的后续测试(例如射线照相术)，并且还希望改变可能增加癌症风险的患者行为。

在另一个实施方案中，除了上述生物标志物水平和一个或多个临床参数，生物标志物在系列测试之后随时间变化-“速度”-也被包括在算法中。

在又一个实施方案中，除了上述生物标志物水平和一个或多个临床参数，算法中还包括环境和/或职业(工作场所)暴露于致癌物的情况。

在又一个实施方案中，除了上述生物标志物水平和一个或多个临床参数，患者的癌症个人家族史也被包括在算法中。

在又一个实施方案中，除了上述生物标志物水平和一个或多个临床参数，来自医学和科学文献的公开信息作为非结构化数据也被包括在算法中。

根据本发明的实施方案，机器学习系统利用多个数据源，确定来自数据源的哪些类型的数据对于确定患有癌症的风险具有最大的预测性，并且输出相对于人群或组群发生癌症的可能性(例如，以百分比风险得分或乘数的形式等)。不是简单地基于单一标志物或多个生物标志物的癌症风险做出决定，其中相对于固定的阈值浓度评估生物标志物的浓度，机器学习系统而是可以任选地考量多个不同类型的数据，包括电子医疗记录(EMR)、公众可利用的数据、生物标志物、生物标志物速度和与发生癌症相关的其它因素，以生成患有癌症的可能性。指定个体中存在癌症的风险可以定量为相对相同风险群体(例如组群)中的其它个体增加的风险。相对于组群的风险提供了提供发生癌症风险的明确和量化的方式，而避免与假阳性或假阴性相关的二元或绝对的“是”或“否”的结果。通过在系统中使用一个以上神经网络确定何种风险因素是最重要的(例如最具预测性的)，可以得到改进的确定患者处于患有癌症的风险增加的方式。

本发明的另外的多个具体实施方案可以包括血液检验以评估患者相对于个体人群或组群患有肺癌的可能性，所述个体例如相似年龄范围和吸烟史的个体。在该实例中，分析来自患者流体样品例如血样的一种或多种生物标志物，其至少部分用于确定与已知患有肺癌的组群以及非癌和另外的对照组相比的生物标志物综合分数和风险分数。这允许患者处于具有使用为低、中、高、极高等的识别符分类的肺癌的风险中。当生成足够的数据时，系统将计算风险百分比以及误差界限。基于该信息，临床医师和其它医疗保健从业者、患者和健康保险公司可以更好地确定哪些患者最可能得益于随访测试，包括CT筛查。这类方法减少了成本、焦虑和与较低风险患者进行CT扫描相关的射线照射，同时有助于处于患有肺癌的较高风险中的患者进行CT扫描，以便当治愈性手术作为选择时希望在早期阶段检测到肿瘤。

根据本发明的另一特定实施方案，上述人工智能/机器学习系统可用于增强或改善血液测试，以同时检测来自单个血液或血清样品的多个肿瘤类型。这类“泛癌症”测试在远东很常见，例如Y.-H.Wen等人“Cancer screening through a multi-analyte serumbiomarker panel during health check-up examinations；Results from a 12-yearexperience,”Clinica Chimica Acta 450(2015)273-276所公开的测试。作为另一个实例，鉴定了与肺癌的存在相关的六种生物标志物CEA，CYFRA，SCC，CA15.3，NSE和ProGRP[Molina,R.等人“Assessment of a Combined Panel of Six Serum Tumor Markers forLung Cancer”,Am.J.Respir.Crit.Care Med.(2015)]。例如，可以使用在中国台湾生成的用于创建发表的报告的真实世界的预期性原始患者数据来生成根据本发明的算法，该算法可以改善在测试运行的区域或临床中心以及其中这类筛查范例较不常见的区域(如美国)中的测试。

通过参考以下描述、附图和权利要求，可以更好地理解本文呈现的技术的这些和其它优点。以下陈述的实施方案使得人们能够实施本发明的实施方式，这些实施方案旨在是非限制性的。本领域技术人员应当易于理解，本文公开的理念和具体实施方案可以用作修改或设计用于实现本发明的相同目的的其它方法和系统的基础。本领域技术人员还应当认识到，这类等同的组合不会偏离最广泛形式的本发明的精神和范围。

附图简述

本领域技术人员通过参考附图可以更好地理解本发明的众多优点，其中：

图1A-1B是根据实施例实施方案的实例计算环境的示意图。

图2A-2B是根据实施例实施方案的实例神经网络系统的示例图示。

图3是示例根据实施例实施方案的用于识别和纠正有问题的数据的操作的流程图。

图4A-4B是示例根据实施例实施方案的用于确定患有癌症的风险的操作的流程图。

图5是示例根据实施例实施方案的用于提取数据的操作的流程图。

图6是示例根据实施例实施方案的用于与可公开访问的数据源接口的操作的流程图。

图7是示例根据实施例实施方案的人工智能系统的客户和计算节点的示意图。

图8是示例根据实施例实施方案的用于人工智能系统的云计算环境的示意图。

图9是示例根据实施例实施方案的计算模型层的抽象化的示意图。

图10显示了对于例如肺癌这样的疾病的风险分类表的例子。在该风险分类表中，具有大于观察到的2％吸烟者风险的风险之间的拐点出现，总MoM分数高于9。总分为9或更小时，该患者患有肺癌风险不高于任何尚未诊断出的其它重度吸烟者。与吸烟人群相比，大于9的MoM分数表明癌症的风险更高或癌症的可能性更高。

图11是根据实施例实施方案的用于利用机器学习系统来构建群组群体的实例操作的流程图。

图12是根据实施例实施方案的用于利用机器学习系统来分类个体患者的实例操作的流程图。

图13是根据实施例实施方案的具有至少两个生物标志物输入和至少一个临床数据输入的神经网络的实例说明，其中具有两个水平的隐藏层和两个输出。

图14是根据实施例实施方案的生成人工神经网络以预测患有癌症的可能性的实例操作的流程图。

图15A-D显示根据实施例实施方案使用各种统计和机器学习方法的各种接收器操作者特性(ROC)曲线。

图16A和16B显示了根据实施例实施方案的使用随机森林分析一组标志物(年龄，吸烟状况，吸烟指数(pack year)，COPD，CA-125，CEA，CYFRA和抗NYESO)的测试分数在符合特定测试选择标准(年龄大于50岁，当前和以前的吸烟者，大于20的吸烟指数)的患者组群中的分布。

图17显示根据示例实施方案的基于MLR模型(3种生物标志物和3种临床因素)的肺癌和良性模块的区分的ROC曲线分析。

图18显示肺癌病例和对照(良性结节)中结节大小的直方图。

图19显示根据实施例实施方案的基于MLR模型的三个结节亚组中的每一个的ROC曲线。

图20显示根据实施例实施方案的肺癌概率。

详细描述

本发明的实施方案一般涉及测量生物标志物(例如肿瘤抗原)与临床参数的组合的非侵入性方法、诊断试验、特别是血液(包括血清或血浆)试验，以及计算机执行的机器学习方法、装置、系统和计算机可读介质，其用于相对于患者群体或群组评估患者患有疾病例如癌症的可能性，以确定是否应当对该患者追踪进行额外的更有侵入性的测试。

A.前言

本发明的实施方案提供了用于评估患者相对于人群或组群患有疾病(例如癌症)的可能性的非侵入性方法、诊断试验和计算机执行的机器学习方法、装置、系统和计算机可读介质，通过产生例如分层风险类别来更准确地预测在另外无症状或隐匿症状的患者中癌症的存在。

如本文所用，“机器学习”是指给予计算机在没有明确编程的情况下学习的能力的算法，包括从数据中学习并做出关于数据的预测的算法。机器学习算法包括但不限于决策树学习，人工神经网络(ANN)(在本文中也称为“神经网络”)，深度学习神经网络，支持向量机，规则库机器学习，随机森林等。为了清楚起见，例如线性回归或逻辑回归的算法可以用作机器学习过程的一部分。然而，应当理解，使用线性回归或其它算法作为机器学习过程的一部分不同于进行统计分析，例如使用电子数据表格程序例如Excel的回归。机器学习方法具有持续学习和调整分类器的能力，因为新的数据成为可利用的，并且不依赖于外在的或基于规则的编程。统计模型依赖于发现变量之间的关系(例如数理方程)以预测结果。

在本发明中，通过从输入值构建模型来“训练”机器学习算法。那些输入值可以是具有已知的癌症诊断(包括匹配的对照)的回顾性数据以及来自那些患者的测量的生物标志物和临床因素的数据。使用回顾性肺癌患者数据参见实施例3的ANN训练。在那种情况下，分类器，即训练的机器学习算法可以将新的患者数据分类为指示患有癌症的可能性的类别或指示不患有癌症的可能性的另一类别。指示患有癌症的可能性的类别可以进一步分为定性或定量亚组。那些定性组可以包括识别符，例如低，适中，中等，高或或其组合，以表示患有癌症的可能性。定量组可以包括识别符，例如百分比，乘数值，风险分数，综合分数或可以提供给用户以指示患有癌症的可能性的任何数值。那些定量和定性组也可以在表格中呈现，例如本文所公开的“风险分类表”。

例如，根据本发明的一个方面，使用群体或个体组群的风险分类来确定无症状人类受试者中癌症存在的量化风险水平。在一些方面，用于确定风险水平的数据可以包括但不限于测量血液中的多种生物标志物的血液测试(仅一次或优选系列地测量随时间的变化)，患者的医疗记录和人员历史如吸烟，以及与癌症风险有关的公开可用信息来源。在某些实施方案中，风险分类在本文中被称为风险分类表。如本文所用，术语“表”以其最广泛的含义使用，以指将数据分组为提供易于解释或呈现的格式，这包括但不限于从计算机程序指令的执行或软件应用程序提供的数据，表格，电子表格等。因此，在一个实施方案中，风险分类表是分层人群或组群(例如，人类受试者群体)的分组。人类受试者的这种分层是基于对诊断为患有癌症的受试者的回顾性临床样品(并且可能包括其它数据)的分析，其中对于每个分层分组确定癌症的实际发生率，在本文中称为阳性预测分数(PPS)。理想地，来自人群或组群的数据是以纵向或前瞻为基础采集的，因此在采集血样并且已经测量生物标志物之后确定癌症的存在或不存在。以这种方式采集的数据通常可以克服已经归类为来自癌症患者(“病例”)与未患有明显癌症的患者(“对照”)的存储或存档样品中的生物标志物的回顾性研究中固有的各种限制和偏差。用于创建量化风险水平的数据优选来自非常大量的患者，超过一千个，超过一万个，乃至超过十万个患者。(以下部分描述了使用机器学习系统对风险算法和表格进行持续改进的方式。)然后，通过在受分层的人群或人群受试者组群(例如50岁或以上的人类受试者)中将PPS除以所报告的癌症发病率，将PPS转换为表明患有癌症的可能性增加的乘数。给予每个分组或组群分组一个风险分类识别符，包括但不限于低风险，中-低风险，中等风险，中-高风险和最高风险。因此，在一个实施方案中，风险分类表的每个类别包括1)患有癌症的增加的可能性，2)风险识别符和3)综合分数的范围。

应当理解，对人群或人类受试者群体组进行分层的基础至少部分基于1)某种癌症的鉴定，2)与癌症相关的生物标志物：(3)临床参数数据，以及在某些情况下，(4)包括患有癌症的风险因素的公开可用数据。组群与无症状个体具有相同的癌症风险因素。可以通过分析回顾性癌症样品以及年龄匹配的正常(非癌症)样品和/或其它对照来提供本方法中使用的生物标志物的验证。但是，如上所述，预期验证效果更好。

本发明进一步提供用于分析来自一组癌症的生物标志物的结果以及来自患者的医疗记录的数据以及其它公开可用的信息源并且量化相对于人群在无症状人类受试者存在癌症的人类受试者中风险增加(或在某些情况下风险降低)的机器学习系统、方法和计算机可读介质。如本文所用，术语“增加的风险”是指与群组中该特定癌症的已知患病率相比癌症存在的增加。本方法基于为某种癌症生成风险分类表；其中对何时生成该表格没有意图的限制。因此，本发明的方法和风险分类表至少部分基于1)鉴定和集合可用作癌症存在标志物的一组蛋白质和/或针对那些蛋白质产生的自身抗体，2)归一化和聚集所测量的标志物以产生生物标志物综合分数；和3)患者的医疗数据和其它公开可获得的癌症危险因素数据来源；和(4)确定用于将患者分成具有不同癌症存在风险程度的组的阈值，其中确定无症状人类受试者具有定量增加癌症存在风险的可能性。可以利用机器学习系统来确定最佳群组分组以及确定如何组合生物标志物组合数据、医疗数据和其它数据以便以最佳或近乎最佳的方式(例如，正确地)生成风险分类，其可以预测哪些个体具有低假阳性率的癌症。机器学习系统为每个测试患者产生一个数值风险分数，临床医师可以使用它来做出有关癌症患者疗法的治疗决策，或者重要的是，进一步通知筛查程序以更好地预测和诊断无症状患者中的早期癌症。而且，如本文中更详细描述的，机器学习系统适于在系统用于真实世界临床设置时接收附加数据，并且重新计算和改进风险类别和算法，使得该系统越用越“智能”。

B.定义

如本文所用，术语“一”或“一个”在专利对比文件中通常被用来包括一个或多于一个，独立于“至少一个”或“一个或多个”的任何其它实例或用法。

如本文所用，术语“或”用于指非排他性的或者，使得“A或B”包括“A但不是B”，“B但不是A”和“A和B”，另有指示的除外。

如本文所用，术语“约”用于指大致，近似，几乎或接近于等于或等于所述量的量，例如所述量加/减去约5％、约4％、约3％、约2％或约1％。

如本文所用，术语“无症状的”是指先前未被诊断患有相同癌症的患者或人类受试者，其患有的风险正在被量化和分类。例如，人类受试者可能会出现咳嗽，疲劳，疼痛等症状，但以前没有被诊断出患有肺癌、但现在正在接受筛查以将他们存在癌症的风险增加归类，而且对于本方法仍然被视为“无症状”。

如本文所用，术语“AUC”是指例如曲线ROC曲线下面积的。该值可以评估对给定的样本群体进行测试的量度，其中值为1代表良好测试，低至0.5意味着测试在对测试受试者进行分类时提供了随机响应。由于AUC的范围仅为0.5-1.0，所以AUC的小变化比0-1或0-100％范围的度量中的类似变化具有更大的显著性。当给出AUC的％变化时，将基于度量的整个范围为0.5-1.0的事实来计算。各种统计软件包可以计算ROC曲线的AUC，如JMP^TM或Analyse-It^TM。AUC可用于比较整个数据范围内分类算法的准确性。根据定义，具有更大AUC的分类算法具有更大的能力来在两个感兴趣的组(疾病和无疾病)之间正确分类未知物。分类算法可以是单个分子的度量或者像多个分子的度量和整合一样复杂。

如本文所用，术语“生物样品”和“测试样品”是指从任何给定受试者分离的所有生物流体和排泄物。在本发明实施方案的背景下，这样的样品包括但不限于血液，血清，血浆，尿液，眼泪，唾液，汗液，活组织检查，腹水，脑脊髓液，乳汁，淋巴液，支气管和其它灌洗液样品或组织提取物样品。在某些实施方案中，血液，血清，血浆和支气管灌洗液或其它液体样品是便利的测试样品，其用于本方法的上下文中。

如本文所用，术语“癌症”和“癌性的”是指或描述哺乳动物的生理状况，其典型特征在于不受调节的细胞生长。癌症的例子包括但不限于肺癌、乳腺癌、结肠癌、前列腺癌、肝细胞癌、胃癌、胰腺癌、宫颈癌、卵巢癌、肝癌、膀胱癌、尿道癌、甲状腺癌、肾癌、癌、黑素瘤和脑癌。

如本文所用，术语“癌症风险因素”是指与特定癌症相关的已知风险的生物或环境影响。这些癌症风险因素包括但不限于癌症家族史(例如乳腺癌)，年龄，体重，性别，吸烟史，环境因素(例如暴露于石棉，暴露于辐射等))，职业危险因素(如煤矿工人，危险材料工作者等)，遗传因素和突变等。应当理解，这些癌症风险因素(单独或其组合)有助于选择用于开发风险分类表的一组人群，并且然后使用本方法和机器学习系统测试该同一组群以确定他们的与整个群组中已知的癌症患病率相比癌症存在的风险增加。在某些实施方案中，肺癌的癌症危险因素是具有吸烟史的50岁或以上的人类受试者。

如本文所用，术语“群组”或“组群”是指具有共同因素或影响(例如年龄，家族史，癌症风险因素，环境影响，医疗史等)的人类受试者的组或一部分。在一个实例中，如本文所用，“组群”是指具有共同癌症风险因素的一组人类受试者；这在本文中也被称为“疾病群组”。在另一个实例中，如本文所用，“群组”是指例如按年龄根据年龄与癌症风险组群匹配的正常人群组；在本文中也称作“正常组群”。“相同组群”是指具有与进行具有疾病例如癌症的风险评估的个体相同的共有癌症风险因素的一组人类受试者。

如本文所用，术语“归一化的”是指已通过本领域已知的任何归一化技术归一化的数据，包括但不限于MoM，标准偏差归一化，S形归一化等。

如本文所用，术语“环境数据库”是指包含癌症的环境风险因素的数据库，包括但不限于位置，邮政编码。对于在特定地点生活或工作了多年的患者，环境数据库可能能够指出这些位置是否与癌症的存在相关。来自数据库中的信息可能基于期刊文章，科学研究等。

如本文所用，术语术语“就业数据库”或“职业数据库”是指包含癌症的职业风险因素的数据库。这类数据包括但不限于已知与癌症发展相关的职业、从事特定职业的人可能遇到的化学物质或致癌物，职业年数与风险之间的相关性(例如，从事职业5年的职业癌症风险增加5％，同一职业10年的职业与其它职业相比癌症风险增加55％等。)

如本文所用，术语“人群数据库”是指包含个体人群的人口统计学数据(例如，性别，年龄，吸烟史，家族史，血液测试，生物标志物测试等)的数据库。该数据被提供给神经网络用于组群分析，并且神经网络识别出最能预测癌症存在的因素。

如本文所用，术语“遗传数据库”是指包含将各种类型的遗传信息与癌症的存在相关联的信息(例如，BRAF，V600E突变，EGFP，基因SNPS等)的数据库。

如本文所用，术语“原始图像”是指在处理之前的成像研究，例如XRAY，CT扫描，MRI，EEG，ECG，超声等。

如本文所用，术语“医疗史”是指与患者相关的任何类型的医学信息。在一些实施方案中，医疗史被存储在电子医学记录数据库中。医疗史可能包括临床数据(如影像模式，血液检查，生物标志物，癌症样本和对照样本，实验室等)，临床笔录，症状，症状严重程度，吸烟年数，疾病家族史，病史，治疗和结果，指明特定诊断的ICD代码，其它疾病史，放射学报告，影像研究，报告，医疗史，从遗传测试中鉴定的遗传风险因素，基因突变等。

如本文所用，术语“转换的数字字段”是指已通过自然语言处理从非结构化数据(例如吸烟年数，频率等)提取的数值数据。

如本文所用，术语“非结构化数据”是指文本，自由形式文本等。例如，非结构化数据可以包括由临床医师输入的患者笔录，伴随成像研究的注释等。

如本文所用，术语“综合分数”是指来自人类受试者的样品中测量的预定标志物的归一化值与临床参数值的集合。当在风险分类表的环境中使用并且与基于风险分类表中的综合分数范围的分层人群分组或组群分组相关时，至少部分由机器学习系统使用“综合分数”以确定每个测试的人类受试者的“风险分数”，其中指示分层分组患有癌症的可能性增加的数值(例如，乘数，百分比等)变成“风险分数”。参见图10。

如本文所用，术语“主综合分数”是指由主神经网络系统产生的综合分数，其包括生物标志物综合分数、医疗史、与癌症风险相关的公开可用数据源等中的一个或多个，并用于确定风险类别(例如，低，中，高等)以及量化个体的风险。

在某些方面，“组群分数”在本文中也被称为“测试分数”。

如本文所用，术语“差异表达的基因”，“差异基因表达”和它们的可互换使用的同义词以最广泛的含义使用，并且指基因和/或所得到的蛋白质，其在患有疾病、尤其是癌症例如肺癌的受试者中的表达被活化为相对于其在正常或对照受试者中的表达更高或更低的水平。这些术语还包括在相同疾病的不同阶段表达被活化至更高或更低水平的基因。还应当理解，差异表达的基因可以在核酸水平或蛋白质水平上被激活或抑制，或者可以经受选择性剪接以产生不同的多肽产物。例如，这种差异可以通过mRNA水平，表面表达，分泌或其它多肽分配的变化来证明。差异基因表达可以包括比较两个或多个基因或其基因产物(例如蛋白质)之间的表达，或比较两个或多个基因或其基因产物之间的表达比率，乃至比较相同基因的两个不同的加工产物，所述基因的加工产物在正常受试者和患有疾病、特别是癌症的受试者之间或在同一疾病的不同阶段之间存在差异。差异表达包括在例如正常细胞和患病细胞，或已经历不同疾病事件或疾病阶段的细胞中基因或其表达产物中的暂时性或细胞表达模式的定量差异和定性差异。

如本文所用，术语“基因表达谱”以最广泛的含义使用，并且包括定量生物样品中的mRNA和/或蛋白质水平的方法。

如本文所用，术语“大量患者”以最广义使用，并且包括许多患者，包括例如几百名患者，一千名患者，几千名患者，一万名患者，几万名患者等，其间有任意的数量。在一些实施方案中，患者的数量是足以训练该系统的数量。

如本文所用，术语“增加的风险”是指通过机器学习系统进行的生物标志物测试和/或数据分析之后针对癌症存在的人类受试者的风险水平相对于在测试之前人群已知的特定癌症的患病率增加。换句话说，在生物标志物测试和/或数据分析之前，人类受试者患癌症的风险可以是2％(基于人群中癌症的可理解的患病率)，但是在生物标志物测试和/或数据分析之后(基于生物标志物浓度、患者的医疗数据、公共数据源等的一种或多种的测量值)，患者存在癌症的风险可以是30％，或者与组群相比报告为增加15倍。机器学习系统计算患癌症的30％风险，并且相对于人群或组群增加15倍的风险在本文中更详细地提供。还可以设想，从本发明的风险分类表和附带的机器学习系统中显而易见的是，可能的情况是，对存在癌症的患者风险的再分类导致低于人群或组群中特定癌症的已知患病率的风险。例如，在生物标志物测试和/或数据分析之前，人类受试者患癌症的风险可以是2％(基于人群中癌症的可理解的患病率)，但是在生物标志物测试和/或数据分析之后(基于生物标志物的测量以及患者的医疗数据和其它数据)，他们存在癌症的风险可能为1％，或者与组群相比0.5倍的增加。在这种情况下，“增加的风险”是指在测试之前相对于人群的风险水平的变化。

如本文所用，术语“降低的风险”是指在生物标志物测试和/或数据分析之后，对于癌症存在的人类受试者的风险水平相对于在测试之前人群已知的特定患病率的降低。在这种情况下，“降低的风险”是指在测试之前相对于人群的风险水平的变化。

如本文所用，术语“肺癌”是指与任意指定受试者的肺系相关的癌症状态。在本发明的另一个实施方案的上下文中，肺癌包括但不限于腺癌、表皮样癌、鳞状细胞癌、大细胞癌、小细胞癌、非小细胞癌和支气管肺泡癌。在本发明另一个实施方案的上下文中，肺癌可以处于不同阶段以及不同分级程度。用于确定肺癌阶段或其排序程度的方法是本领域技术人员众所周知的。

如本文所用，可互换使用的术语“标志物”、“生物标志物”(或其片段)及其同义词是指可以在样品中评估并与身体状况相关联的分子。例如，标志物包括表达的基因或其产物(例如蛋白质)或针对与可从人体样品(例如血液，血清，固体组织等)检测到的与身体或疾病状况有关的那些蛋白质的自身抗体。这样的生物标志物包括但不限于包含核苷酸，氨基酸，糖，脂肪酸，类固醇，代谢物，多肽，蛋白质(例如但不限于抗原和抗体)，碳水化合物，脂质，激素，抗体的生物分子，用作生物分子替代物的感兴趣的区域，其组合(例如糖蛋白，核糖核蛋白，脂蛋白)以及涉及任何此类生物分子的任何复合物，例如但不限于在抗原和结合到所述抗原上可用的表位的自身抗体之间形成的复合物。术语“生物标志物”还可以指包含至少5个连续氨基酸残基，优选至少10个连续氨基酸残基，更优选至少15个连续氨基酸残基并且保留亲本多肽的生物活性和/或一些功能特征例如抗原性或结构域特征的多肽(亲本)序列的一部分。本发明的标志物是指存在于癌细胞上或癌细胞中的肿瘤抗原或已经从癌细胞脱落入体液如血液或血清中的肿瘤抗原。如本文所使用的，本发明的标志物也指对于那些肿瘤抗原的由身体产生的自身抗体。在一个方面，如本文所用的“标志物”是指能够在人类受试者的血清中检测到的肿瘤抗原和自身抗体。也可以理解，在本发明的方法中一组中的标志物的应用可以各自对综合分数具有等同的贡献，或者某些生物标志物可以被加权，其中一组中的标志物对最终综合分数贡献不同的权重或量。生物标志物可以包括指示癌症存在的任何生物物质，包括但不限于遗传，表观遗传，蛋白质组学，糖组学或成像生物标志物。生物标志物包括由肿瘤或癌症分泌的分子，包括基因，基因表达和基于蛋白质的产物(肿瘤标志物或抗原，无细胞DNA，mRNA等)。

如本文所用，术语“表示患有癌症的可能性增加的乘数”是指风险分类表的数值，并且在量化患者相对于群组人群增加的癌症存在风险之后赋予患者样品。当用于测试人类受试者并与一系列综合得分相关的风险分类表背景下时，“指示患有癌症的可能性增加的乘数”成为每个测试的人类受试者的“风险得分”。参见图10。

如本文所用，术语“归一化”及其派生词与生物标志物跨样本和时间的测量值结合使用时，指的是数学方法，其中意图在于这些归一化值允许以消除或最小化数据集之间的差异和总体影响的方式比较来自不同数据集的相应归一化值。在一个实施方案中，多个中位值用作本方法的归一化方法。

如本文所用，可交换使用的术语“标志物组”，“生物标志物组”和它们的同义词是指可从人体样品中检测到的一种以上的一起与存在特定的癌症相关的标志物。在本申请的一个实施方案中，生物标志物的存在不是单独定量为指示癌症存在的绝对值，而是测量值被归一化并且归一化值被汇总(例如，相加或加权和总计等)以包含在生物标志物综合分数中。如上面所公开的，可以给出一组中的每个标志物的权重为1，或者是1的分数或1的倍数的一些其它值，这取决于该标志物对筛查的癌症的贡献和该组的总体组成。

如本文所用，术语(肿瘤)癌症的术语“病理学”包括危及患者健康的所有现象。这包括但不限于异常或不可控制的细胞生长，转移，干扰邻近细胞的正常功能，以异常水平释放细胞因子或其它分泌产物，抑制或加重炎性或免疫应答，初癌，恶性肿瘤，侵入周围或远端组织或器官，例如淋巴结等。

如本文所用，术语“已知的癌症患病率”是指在测试人类受试者并使用本方法进行数据分析之前人群中癌症的患病率。这种已知的癌症患病率可以是基于回顾性数据在文献中报道的患病率，或者由考虑例如年龄和更直接和相关的历史或其组合这样的因素的机器学习系统来确定。在这种情况下，在通过本方法和系统进行测试和分析之前，组群中癌症的已知患病率是指患有癌症的风险。

如本文所用，术语“阳性预测分数”、“阳性预测值”或“PPV”是指生物标志物测试中某一范围内的分数为真阳性结果的可能性。它被定义为真阳性结果的数量除以总阳性结果的数量。真阳性结果可以通过将测试灵敏度乘以测试群体中疾病的患病率来计算。假阳性可以通过(1减去特异性)乘以(1-测试群体中疾病的患病率)来计算。总阳性结果等于真阳性加假阳性。

如本文所用，术语“风险分数”是指单一数值，其指示与疾病组群中癌症的已知患病率相比，无症状人类受试者存在癌症的风险增加(或降低)。在本发明方法的某些实施方案中，计算人类受试者的综合分数并与指示患有癌症的可能性增加的乘数关联，其中基于在风险分类表中每个分层分组或组群分组关联综合分数。通过这种方式，基于乘数将综合分数转换为风险分数，这表明对于综合分数的最佳匹配的分组患有癌症的可能性增加。参见图10。

如本文所用，术语“接收器操作特征曲线”或“ROC曲线”是用于区分两个群体，患有肺癌的患者和对照的特定特征的表现的示意图，所述对照是例如没有肺癌的那些。整个人群(即患者和对照)的数据基于单个特征值的升序排序。然后，对于该特征的每个值，确定数据的真阳性和假阳性比例。通过计数高于所考虑特征的值的病例数然后除以病人总数来确定真阳性率。通过计数高于所考虑特征的值的对照数量且然后除以对照组总数来确定假阳性率。

ROC曲线可以针对单个特征以及针对其它单个输出来生成，例如，合并两个或更多个特征的组合(例如，增加，减少，相乘，加权等)以提供一个可以在ROC曲线中绘制的组合值。

ROC曲线是测试的真阳性率(灵敏度)与测试的假阳性率(1-特异性)关系的图。ROC曲线提供了快速筛选数据集的另一种方式。

如本文所用，术语“筛选”是指用于鉴定群体中无症状受试者中未识别的癌症的策略，例如没有癌症体征或症状的那些。如本文所用，针对特定的癌症(例如肺癌)筛选一组人群(例如，50岁或更老的吸烟者)，其中应用本发明的方法和系统以确定对于那些无症状的受试者癌症存在的量化增加的风险。

如本文所用，术语“受试者”是指动物，优选哺乳动物，包括人或非人。术语“患者”和“人类受试者”在本文中可以互换使用。

如本文所用，临床数据包括症状、区分诊断、活动性疾病、当前的药物、过敏反应、既往疾病史、家族疾病史。

如本文所用，术语“肿瘤”是指所有的赘生细胞生长和增殖，无论是恶性的还是良性的，以及所有的癌前期和癌细胞和组织。

如本文所用，短语“加权评分方法”是指涉及将测试样品中所识别和量化的一种生物标志物的测量值转换为许多潜在分数之一的方法。ROC曲线可用于通过能够基于从ROC曲线定义的假阳性％的倒数使用加权分数来标准化不同标志物之间的分数。可以通过将AUC乘以标志物因数然后除以基于ROC曲线的假阳性％来计算加权分数。加权分数可以使用以下公式计算：

加权分数＝(AUC_x×因数)/(1-％特异性_x)

其中x为标志物；“因数”是整个组中的实数或整数(例如0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25等)；且“特异性”是选择的不超过95％的值。对于组乘以因数能够使得使用者排序加权分数。因此，如果期望，则可以将一个标志物的测量值转化成同样多或同样少的分数。

加权为关注人群为具有低假阳性率(因此具有更高的特异性)的生物标志物提供更高的分数。加权范例可以包含选择假阳性水平(1-特异性)，低于该水平，测试将导致分数增加。因此，与特异性较低的标志物相比，特异性高的标志物可以得到更高的分数或更高的分数范围。

用于评估加权参数的基础可以通过确定患有肺癌的患者人群和正常个体中存在标志物来获得。从所有样品获得的信息(数据)用于产生ROC曲线并且为每个生物标志物产生AUC。基于％特异性将多个预定截止值和加权分数分配给每个生物标志物。该演算提供了聚集标志物分数的分层，并且这些标志物分数可以用于定义与任意风险类别是否具有更高或更低肺癌风险相关的范围。类别的数量可以是设计选择，也可以由数据驱动。例如，机器学习系统可以确定用于加权标志物、阈值以及用于创建组群的参数。

C.使用机器学习分类器确定无症状(或症状不明显)的人中存在癌症的可能性的方法

在某些实施方案中，本文提供了用于评估患者相对于人群患有癌症的可能性的计算机执行的方法。无症状患者在测试后可能存在与人群相关的癌症，这些患者是临床医师可以选择进行后续诊断测试的那些患者，例如CT筛查或活检样本分析。因此，在某些实施方案中，用于评估患者相对于人群患有癌症的可能性的方法包括1)测量来自患者的样品中的生物标志物的组的值；2)从患者获得临床参数；3)利用由机器学习系统生成的分类器将患者分类为指示患有癌症的可能性的类别或指示不患有癌症的可能性的另一类别，其中分类器包含至少70％的灵敏度，以及至少80％的特异性，并且其中使用包含至少两种不同生物标志物的生物标志物的组和至少一种临床参数产生分类器；以及4)当患者被分类为指示患有癌症的可能性的类别时，向用户提供用于诊断测试的通知。下面详细公开用于本文方法中的分类器的生成。实施例3提供了经训练的ANN的示例性实施方案，其用于将患者分类为指示患有肺癌的可能性的类别或指示不患有肺癌的可能性的另一类别。

在某些实施方案中，提供了确定无症状人类受试者中存在疾病例如癌症的量化增加风险的方法，可以包括：1)测量来自人类受试者的样品中的一组标志物的每种标志物的浓度或量；2)确定来自人类受试者的样品中每种标志物的归一化值；3)对每个归一化值进行汇总(例如求和，加权等)以获得人类受试者的生物标志物综合分数；4)确定一种或多种生物标志物的生物标志物速度；5)获得与确定患有癌症的风险有关的患者的医疗记录的数据；6)获得与癌症风险增加有关的公开可用信息(例如，环境数据，职业数据，基因数据等)；7)使用机器学习系统基于来自项目1-6的数据为人类受试者生成主综合分数；8)通过将主综合分数与分层群组或群体的风险类别相匹配来将人类受试者癌症存在的风险增加定量为风险分数，其中每个风险类别包含指示患有与主综合分数相关的疾病例如癌症的可能性增加的数值，并且其中风险类别、组群人群和风险因素的加权由机器学习系统确定；和9)为人类受试者提供风险分数，由此确定无症状患者相对于群体或组群人群存在癌症的量化增加的相对风险。

如本文所述，本文呈现的技术的一个或多个步骤可以通过机器学习系统以自动或部分自动化的方式进行。如果该方法通过机器学习系统进行，则该方法的性能将进一步需要使用适当的硬件，例如输入设备，存储器，处理器，显示器和输出设备等以及软件。

i)测量样品中的标志物

作为本方法的一部分，可以测量来自无症状人类受试者的一组标志物。存在许多本领域已知的方法，它们用于测量可以用于本方法中的基因表达(例如mRNA)或得到的基因产物(例如多肽或蛋白质)。然而，至少20-30年来，肿瘤抗原(例如CEA、CA-125、PSA等)在全世界范围内已经成为最广泛使用的癌症检测用生物标志物，并且是用于本发明的优选肿瘤标志物类型。

对于肿瘤抗原检测，优选使用来自安装基数较大的公司的自动免疫分析分析仪进行测试。代表性的分析仪包括来自Roche Diagnostics的系统或来自AbbottDiagnostics的分析仪。使用这样的标准化平台使得来自一个实验室或医院的结果可以转移到世界各地的其它实验室。然而，本文提供的方法不限于任何一种测定形式或包含组的任何特定组的标志物。例如，PCT国际专利公开号WO2009/006323；美国专利公开号2012/0071334；美国专利公开号2008/0160546；美国专利公开号2008/0133141；美国专利公开号2007/0178504(各自通过引用并入本文)教导了使用珠作为固相并且以免疫测定形式作为报道分子的荧光或颜色的多重肺癌测定法。因此，与报道分子存在和量的实际定量值相比，可以以定性分数的形式提供荧光或颜色的程度。

例如，测试样品中一种或多种抗原或抗体的存在和定量可以使用本领域已知的一种或多种免疫测定法来确定。免疫测定法典型地包括：(a)提供特异性结合生物标志物(即抗原或抗体)的抗体(或抗原)；(b)使测试样品与抗体或抗原接触；和(c)检测测试样品中与抗原结合的抗体的复合物或测试样品中与抗体结合的抗原的复合物的存在。

众所周知的免疫学结合测定法包括例如酶联免疫吸附测定法(ELISA)，其也被称为“夹心测定法”，酶联免疫测定法(EIA)，放射性免疫测定法(RIA)，荧光免疫测定法(FIA)，化学发光免疫测定法(CLIA)，计数免疫测定法(CIA)，过滤介质酶免疫测定法(META)，荧光连接免疫吸附测定法(FLISA)，凝集作用免疫测定法和多重荧光免疫测定法(例如LuminexLab MAP),免疫组织化学等。关于一般免疫测定的综述，还参见Methods in Cell Biology:Antibodies in Cell Biology,第37卷(Asai,ed.1993)；Basic和Clinical Immunology(Daniel P.Stites；1991)。

免疫测定可用于确定来自受试者的样品中抗原的测试量。首先，可以使用上述免疫测定方法检测样品中抗原的测试量。如果样品中存在抗原，则其将在如本文所述的适合的温育条件下与抗原特异性结合的抗体形成抗体-抗原复合物。抗体-抗原复合物的量、活性或浓度等可以通过将测量值与标准值或对照值进行比较来确定。然后可以使用已知的技术来计算抗原的AUC，所述技术例如但不限于ROC分析。

在另一个实施方案中，在来自人类受试者的样品中测量标志物(例如，mRNA)的基因表达。例如，与石蜡包埋组织一起使用的基因表达谱分析方法包括定量逆转录酶聚合酶链反应(qRT-PCR)，然而，也可以使用其它技术平台，包括质谱和DNA微阵列。这些方法包括但不限于PCR，微阵列，基因表达系列分析(SAGE)和通过大规模平行特征测序(MPSS)的基因表达分析。

关注用于本发明的方法的用于测量来自人类受试者的标志物或一组标志物的任何方法。在某些实施方案中，来自人类受试者的样品是组织切片，例如来自活检组织的切片。在另一个实施方案中，来自人类受试者的样品是体液如血液，血清，血浆或其组成部分或级分。在其它实施方案中，样品是血液或血清，且标志物是从其中测量的蛋白质。在又一个实施方案中，样品是组织切片并且标志物是在其中表达的mRNA。关注来自人类受试者的样品形式和标志物的形式的许多其它组合。

ii)生物标志物

然而，在可以进行测量之前，需要为待筛选的特定癌症选择一组标志物。已知疾病(包括癌症)的许多标志物，并且可以选择已知的组，或者由本申请人进行，可以基于在回顾性临床样本中测量个体标志物来选择组，其中基于经验数据生成用于期望的疾病的组，所述疾病例如癌症，并且优选肺癌。例如，美国公开号2013/0196868，其内容通过引用并入本文。

可以使用的生物标志物的实例包括例如在体液样品中可检测的分子，例如抗体，抗原，小分子，蛋白质，激素，酶，基因等。然而，肿瘤抗原的使用具有许多优点，这是因为它们在很多年中的广泛使用和如下事实：经验证的和标准化的检测试剂盒可用于其中许多与上述自动化免疫测定平台一起使用。

在一个具体的实施方案中，基于它们与肺癌的关联来选择一组标志物。该研究中使用的肿瘤抗原由Molina等人报道，Am J Respir Crit Care Med，在线发表于2015年10月14日，“Assessment of a Combined Panel of Six Serum Tumor Markers for LungCancer”，即CEA、CA15.3、SCC、CYFRA 21-1、NSE和ProGRP，它们为可能与本发明一起使用的那些的代表。

在实施方案中，生物标志物的组与临床参数组合选自：1)CA-125，CEA，CYFRA，NYESO年龄，吸烟状态，吸烟指数，COPD；和2)CEA，CYFRA，NSE，吸烟状况，年龄，结节大小。在其它实施方案中，生物标志物的组选自CA 19-9、CEA、CYFRA、NSE、Pro-GRP、SCC、CA 125、CA15-3.CA 72。

或者，所述标志物组选自抗-p53，抗-NY-ESO-1，抗-ras，抗-Neu，抗-MAPKAPK3，细胞角蛋白8，细胞角蛋白19，细胞角蛋白18，CEA，CA125，CA15-3，CA19-9，Cyfra 21-1，血清淀粉样蛋白A，proGRP和α₁-抗胰蛋白酶(US20120071334；US20080160546；US20080133141；US20070178504(各自通过引用并入本文))。许多循环蛋白质最近已被鉴定为肺癌发生的可能生物标志物，例如蛋白质CEA，RBP4，hAAT，SCCA[Patz，E.F.等，Panel of SerumBiomarkers for the Diagnosis of Lung Cancer.Journal of Clinical Oncology，2007.25(35)：p.5578-5583]；蛋白质IL6，IL-8和CRP[Pine,S.R.,等,Increased Levels ofCirculating Interleukin 6,Interleukin 8,C-Reactive Protein,and Risk of LungCancer.Journal of the National Cancer Institute,2011.103(14):p.1112-1122.]；蛋白质TNF-α，CYFRA 21-1，IL-1ra，MMP-2，单核细胞趋化蛋白-1-sE-选择蛋白[Farlow,E.C.,等,Development of a Multiplexed Tumor-Associated Autoantibody-Based BloodTest for the Detection of Non-Small Cell Lung Cancer.Clinical CancerResearch,2010.16(13):p.3452-3462.]；蛋白质催乳素，转甲状腺素蛋白，凝血酶敏感蛋白-1，E-选择蛋白，C-C基序趋化因子5，巨噬细胞迁移抑制因子，纤溶酶原激活物抑制剂，受体酪氨酸蛋白激酶，erbb-2，细胞角蛋白片段21.1-血清淀粉样蛋白A[Bigbee,W.L.P.等人—A Multiplexed Serum Biomarker Immunoassay Panel Discriminates ClinicalLung Cancer Patients from High-Risk Individuals Found to be Cancer-Free by CTScreening[Journal of Thoracic Oncology April,2012.7(4):p.698-708.]；蛋白质EGF，sCD40配体，IL-8，MMP-8[Izbicka,E.等人,Plasma Biomarkers Distinguish Non-SmallCell Lung Cancer from Asthma and Differ in Men and Women.Cancer Genomics—Proteomics,2012.9(1):p.27-35.]。

另外的肿瘤标志物包括人附睾蛋白4[Roche Diagnostics(2015)]；降钙素，PAP，BR 27.29，Her-2[Siemens(2015)]；和HE-4[Abbott(2015)和Fujirebio(2015)]。

结合作为可能生物标志物的循环肺癌相关蛋白的新配体包括结合钙黏着糖蛋白-1，CD30配体，内皮抑素，HSP90α，LRIG3，MIP-4，多效蛋白，PRKCI，RGM-C，SCF-sR，sL-选择蛋白和YES的核酸适体[Ostroff,R.M.等人,Unlocking Biomarker Discovery:Large ScaleApplication of Aptamer Proteomic Technology for Early Detection of LungCancer.PLoS ONE,2010.5(12):p.e15003.]；结合富含亮氨酸的alpho-2糖蛋白1(LRG1)的单克隆抗体，α-1抗胰凝乳蛋白酶(ACT)，补体C9，触珠蛋白β链[Guergova-Kuras,M.等人,Discovery of Lung Cancer Biomarkers by Profiling the Plasma Proteome wi thMonoclonal Antibody Libraries.Molecular&Cellular Proteomics,2011.10(12).]；和蛋白质Cizl[Higgins,G.等人,Variant Cizl is a circulating biomarker for early-stage lung cancer.Proceedings of the National Academy of Sciences,2012.]。

被提出为肺癌的循环标志物的自身抗体包括p53，NY-ESO-1，CAGE，GBU4-5，膜联蛋白1和SOX2[Lam,S.等人,EarlyCDT-Lung:An Immunobiomarker Test as an Aid to EarlyDetection of Lung Cancer.Cancer Prevention Research,2011.4(7):p.1126-1134.]和IMPDH，磷酸甘油酸变位酶，遍在蛋白(ubiquillin)，膜联蛋白I，膜联蛋白II和热休克蛋白70-9B(HSP70-9B)[Farlow,E.C.等人.,Development of a Multiplexed Tumor-Associated Autoantibody-Based Blood Test for the Detection of Non-Small CellLung Cancer.Clinical Cancer Research,2010.16(13):p.3452-3462.]。

被提出作为肺癌的循环标志物的微RNA包括miR-21、miR-126、miR-210、miR-486-5p[Shen,J.等人,Plasma microRNAs as potential biomarkers for non-small-celllung cancer.Lab Invest,2011.91(4):p.579-587.]；miR-15a、miR-15b、miR-27b、miR-142-3p、miR-301[Hennessey,P.T.等人,Serum microRNA Biomarkers for Detection ofNon-Small Cell Lung Cancer.PLoS ONE,2012.7(2):p.e32307.]；let-7b、let-7c、let-7d、let-7e、miR-10a、miR-10b、miR-130b、miR-132、miR-133b、miR-139、miR-143、miR-152、miR-155、miR-15b、miR-17-5p、miR-193、miR-194、miR-195、miR-196b、miR-199a*、miR-19b、miR-202、miR-204、miR-205、miR-206、miR-20b、miR-21、miR-210、miR-214、miR-221、miR-27a、miR-27b、miR-296、miR-29a、miR-301、miR-324-3p、miR-324-5p、miR-339、miR-346、miR-365、miR-378、miR-422a、miR-432、miR-485-3p、miR-496、miR-497、miR-505、miR-518b、miR-525、miR-566、miR-605、miR-638、miR-660和miR-93[美国专利申请20110053158]；hsa-miR-361-5p、hsa-miR-23b、hsa-miR-126、hsa-miR-527、hsa-miR-29a、hsa-let-7i、hsa-miR-19a、hsa-miR-28-5p、hsa-miR-185*、hsa-miR-23a、hsa-miR-1914*、hsa-miR-29c、hsa-miR-505*、hsa-let-7d、hsa-miR-378、hsa-miR-29b、hsa-miR-604、hsa-miR-29b、hsa-let-7b、hsa-miR-299-3p、hsa-miR-423-3p、hsa-miR-18a*、hsa-miR-1909、hsa-let-7c、hsa-miR-15a、hsa-miR-425、hsa-miR-93*、hsa-miR-665、hsa-miR-30e、hsa-miR-339-3p、hsa-miR-1307、hsa-miR-625*、hsa-miR-193a-5p、hsa-miR-130b、hsa-miR-17*、hsa-miR-574-5p和hsa-miR-324-3p.[美国专利申请20120108462]；miR-20a、miR-24、miR-25、miR-145、miR-152、miR-199a-5p、miR-221、miR-222、miR-223、miR-320[Chen,X.等人,Identification often serum microRNAs from a genome-wide serum microRNA expression profile asnovel noninvasive biomarkers for non small cell lung cancerdiagnosis.International Journal of Cancer,2012.130(7):p.1620-1628.]；hsa-let-7a、hsa-let-7b、hsa-let-7d、hsa-miR-103、hsa-miR-126、hsa-miR-133b、hsa-miR-139-5p、hsa-miR-140-5p、hsa-miR-142-3p、hsa-miR-142-5p、hsa-miR-148a、hsa-miR-148b、hsa-miR-17、hsa-miR-191、hsa-miR-22、hsa-miR-223、hsa-miR-26a、hsa-miR-26b、hsa-miR-28-5p、hsa-miR-29a、hsa-miR-30b、hsa-miR-30c、hsa-miR-32、hsa-miR-328、hsa-miR-331-3p、hsa-miR-342-3p、hsa-miR-374a、hsa-miR-376a、hsa-miR-432-staR、hsa-miR-484、hsa-miR-486-5p、hsa-miR-566、hsa-miR-92a、hsa-miR-98[Bianchi,F.等人,A serumcirculating miRNA diagnostic test to identify asymptomatic high-riskindividuals with early stage lung cancer.EMBO Molecular Medicine,2011.3(8):p.495-503.]miR-190b、miR-630、miR-942和miR-1284[Patnaik,S.K.等人,MicroRNAExpression Profiles of Whole Blood in Lung Adenocarcinoma.PLoS ONE,2012.7(9):p.e46045.1。

在一个实施方案中，用于肺癌的一组标志物选自CEA(GenBank登记号CAE75559)、CA125(UniProtKB/Swiss-Prot:Q8WXI7.2)、Cyfra21-1(NCBI参比序列:NP_—008850.1)、抗-NY-ESO-1(抗原NCBI参比序列:NP_—001318.1)、抗-p53(抗原GenBank:BAC16799.1)和抗-MAPKAPK3(抗原NCBI参比序列:NP_—001230855.1)，前三种是肿瘤标志物蛋白，而后三种为自身抗体。

在某些实施方案中，一组标志物包含与结肠直肠癌(CRC)相关的循环标志物；那些包括microRNA miR-92[Ng,E.K.O.等人,Differential expression of microRNAs inplasma of patients with colorectal cancer:a potential marker for colorectalcancer screening.Gut,2009.58(10):p.1375-1381.]；异常甲基化SEPT9DNA[deVos,T.等人,Circulating Methylated SEPT9 DNA in Plasma Is a Biomarker for ColorectalCancer.Clinical Chemistry,2009.55(7):p.1337-1346.]

在某些实施方案中，一组标志物包含与癌症相关的标志物，所述癌症选自胆管癌、骨癌、胰腺癌、宫颈癌、结肠癌、结直肠癌、胆囊癌、肝或肝细胞癌、卵巢癌、睾丸癌、小叶癌、前列腺癌和皮肤癌或黑素瘤。在其它实施方案中，一组标志物包含与乳腺癌相关的标志物。

为了例如寻求最大化测定的特异性或灵敏度，一组可以包含任何数量的标志物作为设计选择。因此，感兴趣的测定可以要求存在两种或更多种生物标志物，三种或更多种生物标志物，四种或更多种生物标志物，五种或更多种生物标志物，六种或更多种生物相关的标志物，七种或更多种生物相关的标志物，八种生物相关的标志物或更多种中的至少一种作为一个设计选择。

因此，在一个实施方案中，生物标志物的组可以包含至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种或更多种不同标志物。在一个实施方案中，生物标志物的组可以包含约至少两种至十种不同标志物。在另一个实施方案中，生物标志物的组可以包含约至少四种至八种不同标志物。在另一个实施方案中，生物标志物的组可以包含约六种不同标志物。

通常，对样品进行测定并且结果可以在一定数值范围内，其反映出可以在样品中存在一组生物标志物的每一种的存在或水平(例如浓度、量、活性等)。

标志物的选择可以基于如下理解：当测量和归一化时，每种标志物等同地促进确定癌症存在的可能性。因此，在某些实施方案中，测量和归一化组中的每种标志物，其中不对任何标志物给出任何特定权重。在这种情况下，每种标志物具有的权重为1。

在另外的实施方案中，标志物的选择可以基于如下理解：当测量和归一化时，每种标志物非等同地促进确定癌症存在的可能性。在这种情况下，组中的特定标志物可以被加权为1的分数(例如，如果相对贡献低)、1的倍数(例如如果相对贡献高)或为1(例如当相对贡献与组中其它标志物细胞为中性时)。因此，在某些实施方案中，本方法还包含在归一化值汇集前加权归一化值(例如求和、加权和合计等)，得到综合分数。

在另外的实施方案中，神经网络系统可以分析来自生物标志物组的值，但不会对该值归一化。因此，可以直接分析得自进行测量的仪器的原始值。

多路测定中标志物的采集可以包含诊断疾病中的值或预测性的不同水平。因此，任意一种标志物对最终测定的影响可以基于在筛查人群中得到的汇集数据加权并且与实际病理学相关，得到更具有识别性或有效性的诊断测定。

与仅二元分类方案相比，一种方法在于将定量数据的定性转化扩展成多个类别来发现介于中间的值。

a)肺癌生物标志物

一个实施方案涉及用于评估肺癌可能性的方法。研究尝试鉴定生物标志物组，其包括探查已知的肿瘤蛋白生物标志物并且结合对于新的肺癌特异性生物标志物的发现计划，这种尝试以前进行(PCT公开号2009/006323，通过引用本文本文)。这项工作表明标志物的组合可以用于增加癌症测试的灵敏度，但不显著影响测试的特异性。为了完成这项工作，测试标志物并且以与标准方法极为不同的方式分析。这种尝试结束于一组六个生物标志物的建立，在这种汇集中使用本方法产生了针对肺癌早期检测的显著的灵敏度和特异性。如本文所公开的，申请人基于人群或组群提供了可以用于鉴定处于最高风险水平的吸烟者的新方法和机器学习系统，以便通过CT扫描进行随访检查。

在某些实施方案中，肺癌生物标志物组包含一系列三种肿瘤标志物蛋白和三种自身抗体。在这类实施方案中，肿瘤标志物是由癌症自身释放入患者血清的蛋白质。由于这些蛋白质存在或其表达增加与癌细胞直接相关，所以这些标志物倾向于对癌症具有特异性，然而，它们通常可以在一种以上类型的癌症中被发现。此外，因为这些标志物直接来源于肿瘤，所以其水平取决于(例如直接、非直接地等)肿瘤大小。这可以使得标志物对于检测早期癌症的灵敏度降低。自身抗体是患者对异常癌细胞的免疫应答的功能。因为免疫系统甚至放大了对少量抗原的响应，所以与由癌症自身释放的蛋白质相比，自身抗体在早期患者中更易于被检测到。令人遗憾地，由于被分类为肺癌的癌症的异质性和患者免疫应答中的个体差异，需要大的组的自身抗体以便以灵敏的方式检测到所有的肺癌。我们的组合并了肿瘤标志物和自身抗体以实现对早期肺癌的最大的灵敏度。

在某些实施方案中，并入用于肺癌的本方法的肿瘤标志物包含CEA、CA-125和Cyfra 21-1。这些标志物的所有三种已经被其他人深入研究并且目前应用于临床监测其它癌症。尽管这些标志物作为独立的标志物在肺癌早期检测中无一进展良好，但是必须要重复两个重要的点：1)这些标志物并未在本方法中以与它们以往用于测试其它指征相同的方式测定；和2)这些标志物并非用作独立的标志物，而是并入作为对患者风险再分层的标志物的整合的组。特别地，用于肺癌的本方法中的结果不是基于绝对血清水平，而是基于与匹配的对照患者中的中位值水平相比的水平增加。照此，没有测量作为总血清浓度的各个标志物值；而是将这三种标志物并入集合的生物标志物综合分数，其仅在重新分类肺癌存在的患者风险方面具有价值。用于本研究的肿瘤抗原由Molina等人报告在Am J Respir CritCare Med.中，2015年10月14日在线公布，“Assessment of a Combined Panel of SixSerum Tumor Markers for Lung Cancer”，即CEA、CA15.3、SCC、CYFRA 21-1、NSE和ProGRP，这些抗原为可以与本发明结合使用的那些的代表。

在某些实施方案中，三种自身抗体用于本肺癌测试中，其中所述自身抗体包含抗-p53、抗-NY-ESO-1-抗-MAPKAPK3。如上所述，大部分自身抗体仅在有限数量的患者中发现。其中这三种自身抗体是肺癌中最常见的，不过，它们各自自身具有相当有限的价值，因为它们确实不会对测试的总体灵敏度做出贡献。p53是众所周知的肿瘤抑制蛋白，其通常在癌症中突变。这类突变可能足以破坏对该蛋白质和由此抗-p53抗体来源的天然免疫耐受性。已经将NY-ESO-1表征为肿瘤特异性标志物，且由此针对这种蛋白质的自身抗体可以代表通过免疫扩增测定早期疾病中的肿瘤标志物水平的方式。MAPKAPK3是可以通过几种致癌途径激活的激酶代表，且由此可以更常见地在肺癌中得到增量调节，导致靶向于它的自身抗体出现。

在某些实施方案中，用于确定无症状人类受试者中存在肺癌的量化风险增加的方法包括：1)测量来自人类受试者(例如至少50岁或以上年龄且具有吸烟史)的样品中的生物标志物的组；2)确定每种标志物的归一化分数；3)对于归一化分数求和，得到针对该人类受试者的综合分数；4)量化对于该人类受试者存在肺癌的风险增加作为风险分数，其中综合分数与分层的人类受试者人群的分组的风险类别相匹配，其中每个风险类别包含乘数，其指示具有与综合分数范围相关的肺癌的可能性增加；和5)提供所述人类受试者的风险分数，由此确定无症状人类受试者中存在肺癌的量化风险增加。

在某些实施方案中，确定无症状人类受试者中存在疾病例如癌症的量化风险增加的方法可以包括：1)测量来自人类受试者的样品中生物标志物的组的每种标志物的浓度或量；2)确定来自人类受试者的样品中每种标志物的归一化值；3)使用机器学习系统汇集(例如求和、加权等)归一化值，得到针对该人类受试者的生物标志物综合分数；4)测定一种或多种生物标志物的生物标志物速度；5)得到涉及患者医疗记录的数据；6)得到涉及癌症风险增加的公开可利用的信息(例如环境数据、职业数据、遗传数据等)；7)基于来自项目1-6的数据生成人类受试者的主综合分数；8)通过使主综合分数与分层组群或人群的风险类别相匹配，量化人类受试者存在癌症的风险增加，其中每个风险类别包含指示患有与主综合分数范围相关的疾病例如癌症的可能性增加的数值，其中风险类别、组群和风险因素权重由机器学习系统确定；和9)提供人类受试者的风险分数，由此确定无症状人类受试者相对于人群或组群存在癌症的量化风险增加。

应当理解，独立地确定疾病组群(例如至少50岁或以上并且具有吸烟史的人类受试者)，并且在这种情况下，应当将其充分理解为发生肺癌的“处于风险中”的组。这种本发明的方法和机器学习系统对于那些处于风险中的患者通过量化相对于其疾病组的肺癌存在的真实风险增加重新分类为风险类别。

在另外的实施方案中，本文提供了患者相对于人群或组群患有肺癌的可能性的方法，包括下列步骤：从患者得到样品；测量样品中多个生物标志物的水平；根据生物标志物测量值计算生物标志物综合分数；将患者的生物标志物综合分数与已知处于肺癌高和低分析中的人的综合分数比较；和确定相对于人群患有肺癌的患者的风险水平。

在这种情况下，确定相对于人群或组群，无症状患者的癌症风险水平。在某些实施方案中，这种确定可以包括量化相对于人群或组群的风险水平。在另外的方面，多个生物标志物包含两种或多种、三种或多种、四种或多种、五种或多种或六种或多种生物标志物。在一个实施方案中，多个生物标志物包含六种标志物，其选自CEA、CA125、Cyfra 21-1、Pro-GRP、抗-NY-ESO-1、抗-p53、抗-细胞周期蛋白E2和抗-MAPKAPK3。

在另外的实施方案中，得到生物标志物综合分数还可以包括归一化测定的生物标志物值并且汇集归一化值，形成生物标志物综合分数。

b)泛-癌生物标志物

在世界的某些区域中，最值得注意的是在远东地区，许多医院和“健康检查中心”为患者提供肿瘤标志物组作为其年度体检或体格检查的组成部分。这些组提供给没有显著征兆或症状或易感任何特定癌症的患者，并且对于任意一种肿瘤类型没有特异性(即“泛-癌”)。这类测试方法的示例是Y.-H.Wen等人Clinica Chimica Acta 450(2015)273-276,“Cancer Screening Through a Multi-Analyte Serum Biomarker panel During HealthCheck-Up Examinations:Results from a 12-year Experience.”报道的方法。作者报告了在2001年至2012年在中国台湾的医院中有关来自超过40,000名测试患者的结果。使用得自Roche Diagnostics,Abbott Diagnostics和Siemens Healthcare Diagnostics的试剂盒用如下生物标志物测试患者：AFP、CA 15-3、CA125、PSA、SCC、CEA、CA 19-9和CYFRA、21-1。用于鉴定该地区中四种最常见诊断的恶性肿瘤(即肝癌、肺癌、前列腺癌和结直肠癌)的组的灵敏度分别为90.9％、75.0％、100％和76％。具有显示高于截止值的值的标志物的至少一种的受试者在测定中被视为阳性。未报告算法。此外，既无与该试验匹配的临床参数因素，也无与该试验匹配的生物标志物速度因素。

认为本发明的方法和机器学习系统可以改善和强化中国台湾组的泛-癌生物标志物组，并且易于将其应用于世界的其它地区。例如，可以使用合并生物标志物值与临床参数的算法，其自动地使用机器学习软件改善。

iii)数据的归一化

在某些实施方案中，使得自测量样品中的标志物的值归一化。对于用于归一化确定的生物标志物的值的方法没有预期的限制，只要与用于生成风险分类表的方法同样的方法用于测试人类受试者样品。在可替代选择的实施方案中，测量的生物标志物的浓度用作输入值，其用于训练机器学习算法或将患者分类为患有癌症可能性的类别。

存在用于数据归一化的许多方法且是本领域技术人员熟知的。它们包括这样的方法，例如背景扣除、按比例缩放、中值倍增(MoM)分析、线性转化、最小二乘法拟合等。归一化的目的在于使单独标志物的不同测量尺度等同，使得得到的值可以根据如确定的加权尺度合并并且由用户或所述机器学习系统设计，且不受自然界中发现的标志物的绝对值或相对值影响。

美国公开号2008/0133141(通过引用并入本文)教导了用于处理和解释来自多路测定的数据的统计学方法。由此可以将任意一种标志物的量与预定的截止值比较，从而区分所述标志物的阳性与阴性，如根据对患有癌症的患者的对照人群研究和适合匹配的正常对照组所确定的，基于所述比较得到每种标志物的生物标志物的综合分数；且然后合并每种标志物的生物标志物综合分数，得到样品中该标志物的生物标志物的综合分数。在一些实施方案中，对于一种或多种生物标志物，也可以包括生物标志物速度。

预定的截止值可以基于ROC曲线，且每种标志物的生物标志物综合分数可以基于该标志物的特异性计算。然后可以将生物标志物综合分数与预定的生物标志物综合分数比较，将该生物标志物综合分数转化成患有肺癌可能性或风险的定量测量值。

在某些实施方案中，患有肺癌可能性或风险的定量测量值基于生物标志物的综合分数、涉及患者的医疗数据分析、生物标志物速度数据以及涉及癌症风险因素的其它公布的信息来源。

例如，用于分数转化或归一化的另一种方法为应用数据整合的中值倍增(MoM)法。在MoM法中，每种生物标志物的中位值用于使该特异性生物标志物的所有测量值归一化，例如，如Kutteh等人所提供的(Obstet.Gynecol.84:811-815,1994)和Palomaki等人(Clin.Chem.Lab.Med.)39:1137-1145,2001)。因此，任意测量的生物标志物水平除以癌症组的中位值，得到MoM值。对于组中的每种生物标志物，可以汇集或合并MoM值(例如求和、加权和加和等)，得到每种样品的组MoM值或汇集的MoM分数。

在另外的实施方案中，由于测试了额外的样品并且验证了存在癌症，所以可以增加癌症人群和用于测定中位值的正常人群的样本大小，以得到更精确的人群数据。在另外的实施方案中，由于测试了额外的样品并且验证了存在癌症，所以将该数据反馈回所述机器学习系统，生成患有癌症的患者风险的更精确的预测值。

在本方法的下一步中，汇集每种生物标志物的归一化值，生成每一受试者的生物标志物综合分数。在某些实施方案中，该方法包括对于每种标志物的MoM分数求和，得到生物标志物综合分数。

换句话说，生物标志物综合分数通过以任意单位测量用于特定癌症组中的标志物的每一种的水平并且将这些水平与以前验证研究中发现的中位值水平比较而衍生。在一个实施方案中，所述癌症是肺癌，且组包含上述公开的六种标志物，其中该方法生成6个初始分数，其代表指定患者的每种标志物的倍增的中位值(MoM)。汇集这些初始分数(例如求和等)，得到生物标志物综合分数。

在某些实施方案中，测量标志物并且使那些得到的值归一化，然后汇集以得到生物标志物综合分数。在某些方面，归一化测量的生物标志物值包含倍增中位值(MoM)分数。在另外的方面，本方法还包括加权归一化值，然后求和，得到生物标志物综合分数。在再另外的实施方案中，机器学习系统可以用于测定归一化值的加权以及如何基于本文呈现的实施方案汇集值(例如确定哪种标志物最具有预测性并且给这些标志物指定更大的权重)。

D.风险分类表

本实施方案还包括量化人类受试者存在癌症的风险增加作为风险分数，其中使综合分数与分层人类受试者人群的分组的风险类别匹配，其中每种风险类别包含乘数(或百分比)，其指示患有涉及生物标志物综合分数范围的癌症的可能性增加。这种量化基于人类受试者分层组群的预定分组。在一个实施方案中，人类受试者的分层人群的分组或疾病组的分层是风险分类表的形式。共有癌症风险因素的疾病组、人类受试者组的选择也为癌症研究领域普通技术人员所理解。在某些实施方案中，所述组可以共有年龄类别和吸烟史。然而，应当理解，所述组和得到的分层可以是更多维的，且考量了进一步的环境、职业、遗传或生物因素(例如流行病学因素)。

在某些实施方案中，用于确定无症状人类受试者中存在癌症的量化风险增加的分层人类受试者人群的分组包括：至少三种分析风险类别，其中每种风险类别包含：1)指示患有癌症的可能性增加的乘数(或百分比)；2)风险类别；和3)综合分数范围。在某些方面，其中个体风险分数通过汇集从癌症的一组标志物测定的归一化值生成，得到与风险分类表的风险分类相关的生物标志物分数。在另一个方面，将归一化值测定为倍增的中位值(MoM)分数。

风险分类的分险识别符是指定给特定组的标签，得到生物标志物综合分数的范围的背景(且包括其它数据，例如医疗史)和风险分数、指示每个组中患有癌症的可能性增加的乘数(或百分比)。在某些实施方案中，风险识别符选自低风险、中等偏低风险、中等风险、中等偏高风险和最高风险。这些风险识别符并非旨在进行限制，而是可以包括其他标签，如用于生成表格和/或进一步改进数据的上下文的数据所指示的标签。

指示患有癌症的可能性增加的风险分数是数值，例如13.4；5.0；2.1；0.7；和0.4。该值是通过经验衍生的，并且将根据数据、受试者人群的组、癌症类型、医疗记录数据、职业和环境因素、生物标志物生物标志物速度等的不同而改变。因此，指示患有癌症的可能性增加的乘数可以是选自2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29和30等或其一些分数的数值。可以将风险分数表示为数字乘数，例如2x、5x等，其中数字乘数表示对于测试时的人类受试者超过基于分层形成的组群中癌症正常患病率的可能性增加，或作为指示相对于癌症正常患病率风险增加百分比的百分比。换句话说，人类受试者来自与用于生成风险分类表系统的疾病组相同的疾病组。在肺癌的实例中，疾病组可以是年龄为50岁或以上具有吸烟史的人类受试者。因此，例如，如果患者收到13.4x的风险分数，则该人类受试者具有相对于人群13.4倍的癌症存在风险增加。

如上所述，乘数值是根据经验确定的，并且在本实例中，是由回顾性临床样品测定的。照此，将人类受试者分层为组群是基于对来自患有癌症的受试者的回顾性临床样品的分析，其中对于每个分层分组确定癌症实际发病率或阳性预测分数。这些技术的具体内容在本申请通篇和实施例部分中详细描述。

通常，对于每一分层分组，当使用具有已知医疗史的回顾性样品时，一旦分层人类受试者人群，则确定阳性预测分数。然后用这些组各自中的癌症实际发病率除以整个人类受试者人群中报告的癌症发病率。例如，如果来自人类受试者的分层人群的分组之一的阳性预测分数为27％，则然后用该值除以分层的人群组中癌症实际发病率(例如2％)，得到13.5的乘数。在这种情况下，指示患有癌症可能性增加的乘数为13.5，且具有与该类别匹配的生物标志物综合分数的测试的受试者可以具有13.5x的风险系数。换句话说，在测试时，该人类受试者具有的癌症存在可能为一般人群在特定组中的癌症存在13.5倍高。

通过基于这些技术分层数据，提供了转化成更为定量的风险分类的数据，其提供了鉴于肺癌证实成本例如CAT扫描或PET扫描以及患者依从性筛选用于随访测试的患者的改进的指导原则。因此，因为处于重度吸烟者的风险人群中的肺癌发病率约为2％，所以该百分比用作患有癌症的可能性与不患有癌症的可能性(意味着个体同样患有癌症或不患有癌症的水平)之间的截止点，即为1。使用2％的疾病患病率确定阳性预测值，且然后用阳性预测值除以2得到解释为患肺癌可能性的另一个风险值，其为正常人群风险值的倍数，所述正常人群风险值可以视为1或等同或者视为基于人群研究的2％风险。

风险分类表的实例如图10中所示。分险分类表的第一栏是主综合分数的范围。在本文提供的实施例中，根据使来自测量的生物标志物组的数据归一化生成生物标志物综合分数。机器学习系统可以用于汇集归一化生物标志物分数与其他信息(例如医疗信息、公布的可利用信息等)，以生成主综合分数。可以将这些主综合分数分组，得到范围并且启动组群的分层。这种方法的详情在本说明书上下文中详细描述，包括实施例部分。

通过将生物标志物综合分数和其它信息(例如医疗信息、公布的可利用的信息等)转化成基于组群数据的风险类别，临床医师和患者随后可以评估是否需要、必要或建议随访，以是否存在恰好略高于任何吸烟者的风险为基础，即2％，或更高，这归因于更大的主综合分数，这表明患者和临床医师的更大考量。

根据PPV的进一步数据转化，临床医师和患者将得益于指示吸烟者中癌症的患病率的定量数值，其鉴于生物标志物测定提供了癌症风险的改善的解决方案。因此，具有20或以上的主综合分数的患者患有肺癌的可能性为任何另外的吸烟者13.4-倍大，参见图10。13.4x的乘数转化成患有肺癌的约27％的总体风险。即尽管全部重度吸烟者在测试前患有肺癌的机率为1/50，其中测试后主综合分数为20或以上，则该个体患有肺癌的机率为1/4。因此，该人应当考量随访测试以显示是否存在任何的癌症(例如肺癌)并且做出任何行为改变以降低癌症风险。

因此，在某些实施方案中，用于确定无症状人类受试者中肺癌的量化风险增加的方法包括：1)测量来自人类受试者的血清样品中的CEA、CA125、Cyfra 21-1、抗-NY-ESO-1、抗-p53和抗-MAPKAPK3的水平，其中所述人类受试者为至少50岁或以上年龄，并且具有吸烟史；2)确定每个标志物的归一化分数；3)求和或汇集归一化分数以得到人类受试者的生物标志物综合分数；4)量化人类受试者的存在肺癌的风险增加为风险分数，其中生物标志物综合分数匹配分层组人类受试者人群的分组的至少三种风险类别，其中每个风险疗法包含乘数或另外的数值，其指示患有与生物标志物综合分数范围相关的肺癌的可能性增加；和5)提供人类受试者的风险分数，由此确定无症状人类受试者中存在肺癌的量化风险增加。

在某些实施方案中，归一化步骤包括确定每种标志物的倍增中位值(MoM)分数。在这种情况下，然后随即将MoM分数求和或汇集以得到生物标志物综合分数。

在量化风险分数形式的癌症存在风险增加后，可以以临床医师理解的可修改形式提供该分数。在某些实施方案中，将风险分数提供在报告中。在某些方面，报告可以包含如下的一种或多种：患者信息、风险分类表、相对于组群的风险分数、一种或多种生物标志物测试分数、生物标志物综合分数、主综合分数、患者风险类别的鉴定、测试的生物标志物列表、疾病组的描述、环境和/或职业因素、组大小、生物标志物速度、遗传突变、家族史、误差界限等。

E.有助于肺癌早期检测的方法的应用

本文呈现的实施方案的临床环境中的用途目前描述在肺癌筛查的上下文中。然而，应当理解，肺癌仅是可以得益于本发明的实施方案许的多癌症类型之一。

在本文公开的技术的使用者中有主要医疗保健从业人员，他们可以包括从事于内科或家庭实践的临床医师以及医师助理和护士从业者。这些主要医疗保健提供者典型地每天遇到大量患者，且这些患者的许多处于肺癌风险中，这归因于吸烟史、年龄和其它生活方式。在2012年，美国人群中有约18％是目前的吸烟者并且有更多是曾经的吸烟者，其具有的癌症风险谱高于从未吸烟的人群。

上述举出的NLST研究(参见背景部分)得出结论：每年进行使用CT扫描筛查的超过某些年龄的重度吸烟者与未进行类似筛查的那些相比肺癌的死亡率显著下降。尽管如此，但是由于上述讨论的原因，处于风险中的患者几乎没有进行年度CT筛查。对于这些患者，本文提供的测试范例提供了可替代选择。

将来自具有重度吸烟史(例如每天吸至少一包香烟，持续20年或以上)的患者的血样送至有资格的实验室，以使用对早期肺癌具有足够灵敏度和特异性的生物标志物的组测试该样品。本说明书上下文(包括实施例)中包括本文的这类生物标志物的非限制性清单。还可以使用除外血液的其它适合的体液，例如痰或唾液。

然后使用本文所述的技术生成用于该患者的主综合分数。使用主综合分数，然后可以使用例如风险分类表、软件应用程序等计算与具有可比的吸烟史和年龄范围的其它人相比患有肺癌的患者风险，例如如图10中所示。如果在护理地点进行风险计算，而不是在实验室，则可以使用与移动装置(例如平板(tablet)或智能电话)相兼容的软件应用程序。

一旦临床医师或医疗保健从业者给予患者风险分数(即患者相对于具有可比的流行病学因素的另外的人群患有肺癌的可能性)，可以对处于更高风险中的那些人推荐随访测试，例如CT扫描。应当理解，高于推荐进一步测试的精确数字截止值可以根据许多因素的不同而改变，包括但不限于：(i)患者的期望及其总体健康和家族史；(ii)医学委员会建立或科学组织结构推荐的医疗准则；(iii)临床医师自身的实际偏好；和(iv)生物标志物测试的性质，包括其总体准确性和验证数据的力度。

认为本文呈现的实施方案的应用具有双重有益性，即确保处于风险中的患者的大多数进行CT扫描，以检测可以用手术治愈的早期肿瘤，同时降低与独立的CT扫描相关的假阳性的费用负担。

F.试剂盒

一种或多种生物标志物、一种或多种测试生物标志物的试剂、癌症风险因素参数、风险分类表和/或能够与用于确定风险分数的机器学习系统通信的系统或软件应用程序及其任意的组合易于形成用于实施本发明的试剂盒(例如组)。

在某些实施方案中，所述试剂盒可以包含：(a)包含至少一种用于对测试样品中的一种或多种抗原定量的至少一种抗体的试剂，其中所述抗原包含如下的一种或多种：(i)细胞角蛋白8、细胞角蛋白19、细胞角蛋白18、CEA、CA125、CA15-3、SCC、CA19-9、proGRP、Cyfra21-1、血清淀粉样蛋白A、α-1-抗-胰蛋白酶和载脂蛋白CIII；或(ii)CEA、CA125、Cyfra 21-1、NSE、SCC、ProGRP、AFP、CA-19-9、CA 15-3和PSA；(b)包含用于对测试样品中的至少一种抗体定量的一种或多种抗原的试剂；其中所述抗体包含如下的一种或多种：抗-p53、抗-TMP21、抗-NPC1L1C-结构域、抗-TMOD1、抗-CAMK1、抗-RGS1、抗-PACSIN1、抗-RCV1、抗-MAPKAPK3、抗-NY-ESO-1和抗-细胞周期蛋白E2；和(c)系统、设备或一种或多种计算机程序/软件应用程序，其用于进行如下步骤：归一化在测试样品中测量的每种抗原和/或抗体的量；求和或汇集那些归一化值，以得到生物标志物综合分数，合并生物标志物综合分数与涉及组群中癌症风险增加的另外的因素以生成主综合分数，并且使用软件应用程序通过使主综合分数与风险分类表建立相关性来确定和指定每位患者的风险分数，和使用量化的癌症存在风险增加作为辅助用于进一步的确定性的癌症筛查。

在肿瘤抗原作为生物标志物的情况中，这些试剂盒的来源优选自研发、优化和制造它们的供应商，这些试剂盒与上述举出的自动化免疫测定分析仪相容。这类供应商的实例包括Roche Diagnostics(Basel,Switzerland)和Abbott Diagnostics(Abbott Park,Illinois)。使用由此制造的试剂盒的优点在于它们被归一化以得到与实验室之间相一致的结果，条件是谨慎地遵循用于样品采集、储存、制备等的制造商的方案。从医疗机构或癌症筛查为常见的世界上的地区生成数据的方式可以用于构建或改善本发明的算法，其可以用于医疗机构或这种类型的测试存在较少历史的地区。

用于定量所关注的一种或多种区域的试剂盒中包括的试剂可以包括吸附剂，其结合和保留组中包含的所关注的至少一个区域、用于结合所述吸附剂的固体支持物(例如珠粒)、一种或多种可检测的标记等。所述吸附剂可以是用于分析化学和免疫化学的大量吸附剂的任意种，包括金属螯合物、阳离子基团、阴离子基团、疏水性基团、抗原和抗体。

在某些实施方案中，所述试剂盒包含定量如下抗原之一的必需的试剂：细胞角蛋白19、细胞角蛋白18、CA 19-9、CEA、CA-15-3、CA125、SCC、Cyfra 21-1、血清淀粉样蛋白A和ProGRP。在另一个实施方案中，所述试剂盒包含定量如下抗体的至少一种的必需的试剂：抗-p53、抗-TMP21、抗-NPC1L1C-结构域、抗-TMOD1、抗-CAMK1、抗-RGS1、抗-PACSIN1、抗-RCV1、抗-MAPKAPK3、抗-NY-ESO-1和抗-细胞周期E2。

在一些实施方案中，所述试剂盒还包含用于进行本文所述的一些或全部操作的计算机可读介质。该试剂盒还可以包含仪器或系统，其包含可操作地接收来自样品中的标志物的测量值的浓度值的一个或多个处理器，并且被配置为执行计算机可读介质指令，以确定生物标志物综合分数，合并生物标志物分数与另外的风险因素，以生成主综合分数，并且比较主综合分数与包含多个风险类别的分层的组群(例如主要风险分类表)，得到风险分数。

G.设备

本发明的实施方案还提供了用于评估癌症存在的受试者风险水平，并且使该风险水平与测试后相对于人群或组群患有癌症存在增加或减少的风险水平建立相关性。该设备可以包含被配置为执行计算机可读介质指令的处理器(例如计算机程序或软件应用程序，例如机器学习系统，以接收来自样品中生物标志物评估的浓度值，且与另外的风险因素的组合(例如患者医疗史、公布的可利用的涉及发生癌症的风险的信息源等)可以确定主综合分数，并且将其与包含多个风险类别(例如风险分类表)的分层组群分组比较，并且提供风险分数。用于确定主综合分数和风险分数的方法和技术在本文中描述。

所述设备可以采取任意不同的形式，例如，手提式装置、平板或任意其它类型的计算机或电子装置。该设备还可以包含被配置为执行指令的处理器(例如计算机软件产品、用于手提式装置的应用程序、被配置为执行所述方法的手提式装置、环球网(WWW)页或其它云或网络可进入站点或任意计算装置。在另外的实施方案中，所述设备可以包括手提式装置、平板或任意其它类型的计算机或电子装，其用于进入作为服务器(SaaS)展开的软件提供的机器学习系统。因此，相关性可以展示为图解表示，在一些实施方案中，将这种图解表示储存在数据库或存储器中，例如随机存储器、只读储存器、磁盘、虚拟存储器等。还可以使用其它本领域公知的适合的代表或示例。

所述设备还可以包含用于储存相关性的存储装置、输入装置和用于展示受试者在特定医学病症方面的状态的显示装置。所述存储装置可以为，例如，随机存储器、只读储存器、高速缓存、缓冲器、磁盘、虚拟存储器或数据库。输入装置可以为，例如，小键盘、键盘、存储数据、触摸屏、声音激活系统、可下载程序、可下载数据、数据接口、手提式装置或红外信号装置。显示装置可以为，例如，计算机显示器、阴极射线管(CRT)、数字屏幕、发光二极管(LED)、液晶显示器(LCD)、X-射线、压缩数字化图像、视频图像或手提式装置。所述设备还可以包含与数据库的沟通方式，其中所述数据库储存因素相关性并且用户可进入。

在本发明的另一个实施方案中，所述设备是计算装置，例如，计算机或手提式装置的形式，其包括处理单元、存储器和记忆储存器。所述计算装置可以包括或具有进入计算环境的入口，所述计算环境包含各种计算机可读介质，例如易失性存储器和非易失性存储器、可移动存储器和/或不可移动的存储器。计算机存储器包括，例如，RAM、ROM、EPROM&EEPROM、闪速存储器或其它存储器技术、CD ROM、数字通用磁盘(DVD)或其它光学磁盘存储器、盒式磁带、磁带、磁盘存储器或其它磁存储器装置或本领域已知能够储存计算机可读指令的其它介质。所述计算装置还可以包括或具有进入包含输入、输出和/或通讯联络的计算环境的入口。输入可以为一个或几个装置，例如键盘、触摸屏或记录笔。输出也可以为一个或几个装置，例如视频显示器、打印机、声音输出装置、触摸刺激输出装置或屏幕读取输出装置。如果期望，则计算装置可以被配置为在网络环境中使用连接一个或多个远程计算机的通讯联络操作。所述通讯联络可以为，例如，局域网(LAN)、宽域网(WAN)或其它网络，并且可以在云、有线网络、无线射频网络和/或红外网络中操作。

H.生物标志物速度

本发明的实施方案还可以使用生物标志物速度来评估患有癌症例如肺癌的风险。与评估生物标志物的单一浓度例如生物标志物在单一时间点处是否高于指定阈值相反，生物标志物速度反映出随时间变化的生物标志物浓度。通过评估个体患者随时间推移的一系列生物标志物水平(例如，时间t＝0，t＝3个月，t＝6个月，t＝1年等)，可以测定生物标志物的速度(或增加速率)。基于这种类型的方法，可以基于速度将发生癌症的患者的风险分层为高风险与低风险(或之间任意的类别数量)。

证明测量卵巢、胰腺和前列腺的癌症中肿瘤抗原水平随时间推移的变化优于单一读取的医学文献中的独立报告包括Menon等人J Clin Oncol May 11,2015；Lockshin等人PLOS One,2014年4月；和Mikropoulos等人,J Clin Oncol 33,2015(增刊7；abstr16)。在至少一种研究中，系列筛查与基于单一以前的阈值筛查相比癌症检出率倍增。

Menon还公开了一种算法，与患者以前的测试分数相比，该算法鉴定一种或多种生物标志物水平的峰值，并且自动地更频繁地(例如一年四次)通知待测试的患者和提供者或采取另外的行为。

I.用于早期检测肺癌的预测性分析的人工智能系统

人工智能系统包括计算机系统，其被配置为执行通常由人完成的任务，例如语言识别、决策制定、语言翻译、图像处理和识别等。通常，人工智能系统具有以下能力：学习、维持和进入大信息储存库，进行推理和分析，从而做出决策；以及自我校正的能力。

人工智能系统可以包括知识表达系统和机器学习系统。知识表达系统通常提供结构以俘获和编码用于支持决策制定的信息。机器学习系统能够分析数据以鉴定数据中的新趋势和模式。例如，机器学习系统可以包括神经网络、诱导算法、遗传算法等，并且可以通过分析数据中的模式驱动解决方案。作为本领域通常可理解的，线性统计学模型例如逻辑回归并不视为机器学习算法。

在一些实施方案中，一种或多种神经网络可以用于将个体患者分类为多个类别，例如指示癌症可能性的类别或指示肺癌不可能存在的类别。向神经网络的输入可以包括与癌症存在相关的生物标志物的组和临床参数(参见，例如图13)。在实施方案中，临床参数包括如下的一个或多个：(1)年龄；(2)性别；(3)以年计的吸烟史；(4)吸烟指数或每年的包数；(5)症状；(6)癌症家族史；(7)伴随疾病；(8)结节数量；(9)结节大小；和(10)成像数据等。在另外的实施方案中，临床参数包括以年计的吸烟史、吸烟指数或每年的包数和年龄。在另外的实施方案中，生物标志物组包含任意两种、任意三种、任意四种、任意五种、任意六种、任意七种、任意八种、任意九种或任意十种的生物标志物。在优选的实施方案中，生物标志物的组包含两种或多种生物标志物，其选自：AFP、CA125、CA 15-3、CA 19-19、CEA、CYFRA 21-1、HE-4、NSE、Pro-GRP、PSA、SCC、抗-细胞周期蛋白E2、抗-MAPKAPK3、抗-NY-ESO-1和抗-p53。在另外的实施方案中，生物标志物组包含CA 19-9、CEA、CYFRA 21-1、NSE、Pro-GRP和SCC。在另外的实施方案中，生物标志物组包含AFP、CA125、CA 15-3、CA-19-9、CEA、HE-4和PSA。在另外的实施方案中，生物标志物组包含AFP、CA125、CA 15-3、CA-19-9、降钙素、CEA、PAP和PSA。在另外的实施方案中，生物标志物组包含AFP、BR 27.29、CA12511、CA 15-3、CA-19-9、降钙素、CEA、Her-2和PSA。

有多种机器学习模型可供使用，包括支持向量机，决策树，随机森林，神经网络或深度学习神经网络。通常，支持向量机(SVM)是监督学习模型，其分析用于分类和回归分析的数据。SVM可以在n维空间中绘制数据点的集合(例如，其中n是生物标志物和临床参数的数量)，并且通过找到能够将数据点集合分类的超平面来进行分类。在一些实施方案中，超平面是线性的，而在另外的实施方案中，超平面是非线性的。SVM在高维空间是有效的，在其中维度数高于数据点数的情况下是有效的，并且通常对具有明显分离边界的数据集工作良好。

决策树是也用于分类问题的一类监督式学习算法。决策树可以用来识别提供最佳同质数据集的最重要变量。决策树将数据点组分成一个或多个子集，然后可以将每个子集分成一个或多个附加类别等，直到形成终端节点(例如不分裂的节点)。可以使用各种算法来确定分裂发生的位置，包括Gini指数(一类二元分裂)，卡方，信息增益或方差减少。决策树能够快速识别大量变量中最重要的变量，并识别两个或更多变量之间的关系。另外，决策树可以处理数字和非数字数据。这种技术通常被视为一种非参数方法，例如数据不必拟合正态分布。

随机森林(或随机决策森林)是用于分类和回归的适合方法。在一些实施方案中，随机森林方法构造了一组具有受控方差的决策树。一般而言，对于M个输入变量，使用少于M个的若干变量(nvar)来分割数据点组。选择最佳分割，并且重复该过程直到到达终端节点。随机森林特别适合处理大量的输入变量(例如数千个)，以识别最重要的变量。随机森林对估计缺失数据也很有效。

贯穿本申请描述了神经网络(也称为人工神经网络(ANN))。神经网络是一种非确定性机器学习技术，其利用一层或多层隐藏节点来计算输出。选择输入，并且分配权重给每个输入值。训练数据用于训练神经网络，并且调整输入和权重，直到达到指定的度量，例如适合的特异性和灵敏度。图14提供了一个训练神经网络的实例过程。

可以使用ANN来对病例中的数据进行分类，其中从属变量和独立变量之间的相关性不是线性的，或者其中使用方程不能容易地进行分类。存在超过25种不同类型的ANN，其中每个ANN基于不同的训练算法、激活/传递函数、隐藏层数等产生不同的结果。在一些实施方案中，超过15种类型的传递函数可用于神经网络。患有癌症的可能性的预测基于ANN的一种或多种类型、激活/传递函数、隐藏层的数量、神经元/节点的数量和其它可定制参数。

深度学习神经网络(另一种机器学习技术)与常规神经网络类似，但是更复杂(例如典型地具有多个隐藏层)，并且能够以自动方式自动执行操作(例如特征提取)，与传统神经网络相比通常需要与较少的用户的交互。

根据本发明的实施方案，机器学习方法能够分类患有癌症可能性的个体的灵敏度为至少70％、75％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％，此时将特异性设置在80％。该结果明显优于线性统计学模型，例如使用单变量的阈值分类或使用多变量的逻辑回归。在一些实施方案中，使用人工神经网络比传统统计学方法例如传统逻辑回归或多变量线性回归实现至少5％改善、至少10％改善、至少15％改善、至少20％改善、至少25％改善、或至少30％改善。参见图15A-D和实施例4。

在另外的实施方案中，本发明的机器学习方法能够分类患有癌症可能性的个体的灵敏度为至少为70％、75％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％，此时将特异性设置在85％。在某些实施方案中，本发明的机器学习方法能够分类患有癌症可能性的个体的灵敏度为至少为70％、75％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％，此时将特异性设置在90％。

在一些实施方案中，神经网络包含一个隐藏层，两个隐藏层，三个隐藏层，四个隐藏层或五个隐藏层。神经网络可以包含任意数量的节点，例如1-1000个节点，1-500个节点，1-400个节点，1-300个节点，1-200个节点，1-100个节点，1-50个节点，5-50之间，10和40个节点，20和30个节点，5-50个节点，5-45个节点，10-40个节点，15-35个节点，20-30个节点之间或其任何组合。在一些实施方案中，节点可以均匀分布，每个隐藏层接收相同或大致相同数量的节点。在另外的实施方案中，节点可能是不均匀分布的，例如，第一隐藏层比第二隐藏层接收更少的节点，或者第一隐藏层接收比第二隐藏层更多的节点。

在示例性实施方案中，神经网络包含两个隐藏层。参见图13。第一隐藏层可以包含2-20个节点，并且第二层可以包含15-35个节点。第一隐藏层可以包含2-10个节点，并且第二层可以包含15-25个节点。在示例性实施方案中，第一隐藏层具有5个节点，并且第二隐藏层具有20个节点。参见图15D和实施例4。在另外的实施方案中，第一隐藏层可以包括15-35个节点，并且第二层可以包括2-20个节点。在另外的实施方案中，第一隐藏层可以包括15-25个节点，并且第二层可以包括2-10个节点。在其他的实施方案中，神经网络共具有20-30个节点。

神经网络具有检测变量之间的复杂非线性关系的能力，以确定哪些变量在一组变量中最具预测性，并且能够发现先前未知的变量之间的关系。例如，本领域技术人员可以确定哪些生物标志物组与特定的临床特征的组合对患有肺癌的可能性具有最大的预测性。例如，可以使用ANN来确定6个生物标志物的子集和5个临床特征的子集是高度预测性的，例如在80％特异性下90％或更高的灵敏度，以鉴定患有癌症可能性增加的个体。

在示例性实施方案中，使用神经网络与如下临床特征评估如下生物标志物CEA、NSE、CYFRA 21-1、CA19-9、Pro-GRP和SCC：吸烟状态、吸烟指数、患者年龄、肺癌家族史症状。

在一些实施方案中，神经网络可用于确定多个输入值中的哪些输入值对于准确识别可能患有肺癌的患者最重要。例如，从大量输入值开始，神经网络可以识别哪个子集，例如，大组输入值中的哪5-15个输入值是最具预测性的。这种方法可以帮助降低筛查成本并简化计算，因为不是与肺癌相关的每个生物标志物或临床因素都需要进行测试，而只是最有预测性的输入值。参见实施例6和表B有关肺癌生物标志物和临床因素的等级。

因此，本发明的实施方案包括神经网络方法，以确定哪个生物标志物子集与哪个临床因素子集合以及任选的其它因素组合是最有预测性的。在一些实施方案中，神经网络可用于确定高度可预测性肺癌可能性的三个因素(例如至少两个生物标志物和至少一个临床因素)的总和。在另外的实施方案中，神经网络可用于确定高度可预测性肺癌可能性的四个因素(例如至少两个生物标志物和至少一个临床因素)的总和。在另外的实施方案中，神经网络可以用于确定高度可预测性肺癌可能性的五个因素(例如至少两个生物标志物和至少一个临床因素)的总和。在另外的实施方案中，神经网络可以用于确定对高度可预测性肺癌可能性的六个因素(例如至少两个生物标志物和至少一个临床因素)的总和。在另外的实施方案中，神经网络可以用于确定高度可预测性肺癌可能性的七个因素(例如至少两个生物标志物和至少一个临床因素)的总和。在另外的实施方案中，神经网络可以用于确定高度可预测性肺癌可能性的八个因素(例如至少两个生物标志物和至少一个临床因素)的总和。在另外的实施方案中，神经网络可以用于确定高度可预测性肺癌可能性的九个因素(例如至少两个生物标志物和至少一个临床因素)的总和。在另外的实施方案中，神经网络可用于确定对高度可预测性肺癌可能性的十个因素(例如至少两个生物标志物和至少一个临床因素)的总和。在另外的实施方案中，神经网络可以用于确定对高度可预测性肺癌可能性的十一个因素(例如至少两个生物标志物和至少一个临床因素)的总和。在另外的实施方案中，神经网络可以用于确定高度可预测性肺癌可能性的十二个因素(例如至少两个生物标志物和至少一个临床因素)的总和。一般而言，高度预测性表明神经网络能够识别可能患有肺癌的患者，具有至少75％的灵敏度，至少85％的灵敏度和至少90％的灵敏度(在80％特异性下)或更高。因此，神经网络可以用于从可能输入的总数中优化输入子集，以确定哪个子集-哪些生物标志物，临床因素或本文公开的神经网络的任何其它输入值-是对患有肺癌可能性最具预测性。

在一些实施方案中，神经网络可用于识别疾病的新预测因子。例如，可以选择本申请中公开的新型生物标志物或临床因素或其它类型的输入值(例如来自文献，来自环境等)作为神经网络的输入值，并且可以确定该输入值是否对于肺癌是可预测性的。在某些情况下，输入值可能没有已知的以前的与肺癌的相关性。见实施例7。

在一些实施方案中，神经网络可以用于给疾病的输入值排序，以鉴定在较大人群/输入组中哪些输入值对于疾病最具有预测性。

在一些实施方案中，可以选择输入以提高神经网络的性能。例如，不是选择能达到最高可能灵敏度和临床相关的特异性(如80％或更高)的一组输入，而是选择输入以达到灵敏度阈值(例如80％或更高)，并且一旦达到该阈值，则选择输入以优化神经网络的性能，从而改善神经网络的性能。

因此，本文提供了关于使用机器学习系统(例如神经网络)来识别患者患有癌症的风险的系统、方法和计算机可读介质。一组数据被存储在可通过神经网络或机器学习系统访问的存储器中，其包括多个患者记录，每个患者记录包括患者的多个参数和对应值，并且其中该数据集还包括指示患者是否已经被诊断患有癌症的诊断指示符。多个参数包括各种生物标志物、临床因素和可以选择为神经网络系统输入值的其它因素。诊断指示符为患者患有癌症的肯定指示符，例如证实癌症的诊断的肺部X光和/或活检。选择多个参数的子集以输入到所述机器学习系统中，其中该子集包括至少两个不同生物标志物和至少一个临床参数的组。

为了训练所述机器学习系统，将该数据集(例如回顾性)随机划分为训练数据和验证数据。使用所述机器学习系统基于训练数据、输入子集以及与本文所述的所述机器学习系统相关的其它参数来生成分类器。确定该分类器是否满足预定的接收器操作者特征(ROC)统计值，从而指定灵敏度和特异性，以对患者进行正确分类。在实施方案中，特异性为至少80％，且灵敏度为至少75％。

当分类器不满足预定的ROC统计值时，分类器可以基于训练数据和输入的不同子集反复地再生，直到分类器满足预定的ROC统计值。当所述机器学习系统满足预定的ROC统计值时，可以生成分类器的静态配置。该静态配置可以被部署到医生办公室以用于识别处于患有肺癌风险中的患者或存储在可以由医师办公室访问的远程服务器上。

一旦已经在训练数据上训练了神经网络，则可以使用验证数据来验证神经网络。验证数据还包括患者的多个参数和相应值，并且包括指示患者是否已经被诊断患有癌症的诊断指示符。可以使用分类器对验证数据进行分类，并且可以基于该数据确定分类器是否满足预定的ROC统计值。当分类器不满足预定ROC统计值时，可基于训练数据和多个参数的不同子集反复地再生分类器，直到再生的分类器满足预定ROC统计值。然后可以重复验证过程。

具有静态分类器、可访问计算装置的用户可以将对应于患者的值输入到计算装置中。然后可以使用静态分类器将患者分类为表示患有癌症的可能性的类别或表示不患有癌症的可能性的另一类别。当患者被分类为指示患有癌症的可能性的类别时，系统可以向用户(例如临床医师)发送通知，以推荐另外的诊断测试(例如CT扫描，胸部x-线或活组织检查)。

在一些实施方案中，可以随时间推移连续训练所述机器学习系统，例如神经网络。可以将得自证实或否定癌症存在的诊断测试的测试结果并入训练数据，以进一步训练所述机器学习系统，并且由所述机器学习系统生成改进的分类器。

通常，分类器可以包括但不限于支持向量机、决策树、随机森林、神经网络或深度学习神经网络。

因此，在一些实施方案中，测量来自患者的样品中的生物标志物的组的值。分类器由机器学习系统产生以将患者分类为指示患有癌症的可能性的类别或分类为指示不患有癌症的可能性的另一类别，其中分类器包含至少70％的灵敏度和至少80％的特异性，并且其中使用包含至少两种不同生物标志物的生物标志物和至少一种临床参数的组产生分类器。当患者被分类为指示患有癌症的可能性的类别时，提供给用户进行诊断测试的通知。在实施方案中，指示患有癌症的可能性的类别可以进一步分类为患有癌症可能性的定性组(例如高、低、中等)或者患有癌症可能性的定量组(例如百分比，乘数，风险分数，综合分数)。

在另外的实施方案中，一种计算机执行的方法，其用于使用计算机系统预测受试者中癌症的可能性，所述计算机系统具有耦合到存储器的一个或多个处理器，所述存储器存储由所述一个或多个处理器执行的一个或多个计算机可读指令，所述一个或多个计算机可读指令包含用于以下操作的指令：存储包含多个患者记录的一组数据，每个患者记录包括针对患者的多个参数，并且其中该组数据还包括指示患者是否已经被诊断患有癌症的诊断指示符；为机器学习系统中的输入选择多个参数，其中所述参数包括至少两个不同生物标志物值和至少一个临床数据的组；以及使用所述机器学习系统生成分类器，其中所述分类器包含至少70％的灵敏度和至少80％的特异性，并且其中分类器基于输入的子集。

鉴于与癌症发生相关的多种因素，本发明实施方案利用人工智能/机器学习系统，例如神经网络，以提供改善的、更精确的个体患有癌症的可能性(风险)的确定。通过为神经网络系统提供与癌症存在相关的大量风险因素(其中一些比其它的一些具有更大的影响)以及足够大的训练数据集，神经网络可以更准确地预测个体患有癌症的可能性(风险)，为患者和临床医师提供强有力的、基于证据的个性化风险评估，并为被确定为高风险患者提供具体的后续建议。机器学习系统能够确定无数的风险因素中哪一个最重要，以及如何对这些因素进行加权。此外，随着更多数据的可利用，机器学习系统会随着时间的推移而演变，以做出甚至更准确的预测。

在一些实施方案中，尽管所述机器学习系统可随着时间推移而作出更准确的预测，但所述机器学习系统可能具有按预定的时间部署改进的预测的能力。换句话说，所述机器学习系统用于确定风险的技术可以在一段时间内保持静态，从而在确定风险分数方面保持一致。在指定时间，所述机器学习系统可以部署并入新数据分析的更新技术以产生改进的风险分数。因此，本文描述的机器学习系统可以操作：(1)以静态方式；(2)以半静态方式，其中分类器根据规定的时间表(例如，在特定时间)被更新；或(3)以新的数据在可用时更新的连续方式。

尽管本文提出的实施例实施方案涉及神经网络，但是本发明实施方案并不意图局限于神经网络，并且可以应用于任何类型的机器学习系统。因此，明确理解的是，本文呈现的实施方案并非旨在严格限于神经网络，而是可以包括具有本文所述功能的任何类型或任何组合的任何形式的人工智能系统。

图1A-1B是根据本发明实施方案的实施例计算环境的示意图。显示了实施例人工智能计算系统，也称为癌症系统神经分析(NACS)100，用于确定患有癌症的风险。总之，将来自患者医疗记录的数据和其它公开可用数据提供给主神经网络，其中主神经网络分析数据以预测患者相对于组群的患有癌症的个体风险。

在一些实施方案中，利用多个其它神经网络以便以有助于分析的形式向主神经网络提供数据。然而，明确理解的是，尽管NACS 100可以包含用于以适合的表格形式提供数据的多个其它神经网络(例如用于数据清理，用于数据提取等)，但是本发明的实施方案还包括以适合于分析的预定义的形式向主神经网络提供数据，而不需要其它神经网络的额外处理。因此，本发明实施方案包括主神经网络，以及主神经网络与用于数据处理的任何一个或多个其它神经网络的组合。

图1A包含一个或多个神经网络NN 1-7、一个或多个数据库db10-60、公共总线65和缩放总线70、HIPPA修正器和匿名器75以及一个或多个知识库(KS)80、110和120。通常，每个数据库10-60包括与患有癌症风险相关的一种或多种类型的信息。在一些实施方案中，该信息可以分布在多个数据库中，而在另外的实施方案中，信息可以被包括在单个数据库中。每个数据库可以是本地的或远离每个其它数据库，并且每个神经网络可以是本地的或远离每个数据库。以下更详细地描述图1A的每个组件。

主EMR db 10可以是电子病历(EMR)数据库，例如在医院，医生办公室等，包含一个或多个患者的一个或多个医疗记录。重要的是，EMR db 10将提供生物标志物水平或至少是患者最新血液测试的值。在其它实施方案中，如果进行连续测试并且信息可用，则EMR还可以提供来自患者的历史生物标志物数据，以允许将生物标志物速度考虑在算法中。在一些实施方案中，该数据库是一个特定患者的医疗信息的主要来源(例如患者的初级保健护理医师，医院，专科医生或任何其他的初级保健来源等)。辅助EMR数据库20可以是EMR数据库(例如，在另一医院，在另一医师办公室)，其包含与患者有关的家庭成员的医疗记录或包含在主EMR db 10中未发现的患者的额外医疗记录。在一些方面，辅助EMR数据库20可以包含多于一个数据库。一般地，EMR数据库可以包含患者医疗记录，其包括以下类型的信息的一种或多种(例如年龄，性别，地址，病史，医生记录，症状，处方药物，已知过敏史，影像数据和相应的注释，治疗和治疗结果，血液工作，遗传测试，表达谱，家族史等)。

在一些实施方案中，可以使用第一神经网络(也被称为NN1“加法器”)来确定附加家庭成员信息或患者信息是否在辅助EMR db 20中可用。在附加信息可用的情况下，可以向辅助EMR db 20查询此信息。

使用第二神经网络(也称为NN2a“清洁器”或NN2b“清洁器”)来识别与患者有关的缺失、不明确或不正确的医疗数据(统称为“有问题的数据”)。例如，可以使用神经网络NN2a来识别来自主EMR数据库db10的有问题的数据，并且神经网络NN2b可以用于识别来自辅助EMR数据库db20有问题的数据。在一些实施方案中，通过获得信息来纠正有问题的数据作为利用其他信息来源补救有问题的数据的外展进程的组成部分。例如，可以通过电话、电子邮件或其它任何通信方式联系医疗提供者、患者或家庭成员，以解决有问题的数据问题。或者，可以访问其它EMR数据库、电子信息的其它来源等以补救有问题的数据。

在一些实施方案中，所识别的问题数据可以根据对风险分数的确定的潜在影响进行排序，使得对风险分数具有较大影响的所识别的问题数据被排列为更重要，以有效地分配资源。例如，缺少的邮政编码可能对风险分数具有较小的潜在影响，因此可以容忍，而吸烟史或实验室检查中的错误具有更大的潜在影响。

清洁数据被发送到HIPPA修正器和匿名器模块75，其将数据匿名化以符合监管和其它法定要求。除非个人另有授权，否则为了遵守隐私和其它规定，个人健康护理记录通常是匿名的。在一些实施方案中，通过用独特的识别符替换患者的特定识别信息(例如姓名，社会保障号等)，使个人记录匿名，从而提供了在确定风险分数后识别个体的方式。

一旦数据被清洁，并且由HIPPA修正器和匿名器75匿名，则可以将其储存在清洁数据知识库(KS)80中，即由NACS 100生成的储存库。在一些实施方案中，一旦补救了有问题的数据，则可以将校正的数据储存在主EMR db 10或辅助EMR db 20自身中，且由此可以无需单独的知识库。

第三神经网络(也称为神经网络NN3“EMR提取器”)可用于从清洁数据KS80中提取特定相关信息，其包括来自患者医疗记录的清洁数据。神经网络NN3被训练以识别用于确定风险分数相关的电子病历。例如，通过提供足够大量的训练数据集合，其中将已知的特定类型的医学数据呈现给神经网络，并且通过经反复过程行进，其中由神经网络识别的潜在医疗数据在已知类型中被标记为正确或不正确，神经网络可以被训练以识别特定医疗数据(例如影像，非结构化，结构化等)。神经网络NN3可以将数据分类为不同的数据类型，例如原始图像，数字/结构化数据，BM速度，非结构化数据等。并且，可以将数据存储在提取的数据知识库(KS)130中(参见图1B)。

NN3可以将识别的患者数据分成不同的信息类别，例如原始影像，非结构化数据(例如临床医师笔录，诊断，治疗，放射学笔录等)，数值数据(例如血液测试结果，生物标志物)，人口数据(年龄，体重等)和生物标志物速度。将一些类型的数据进行进一步加工处理，例如通过另一种神经网络，同时将另外类型的数据传送至NN12(称作“主”NN)用于加工处理。

在另外的实施方案中，第四神经网络(也称作NN4“拆卸器”，可以用于识别数据库db 30-60中相关或要求的数据，其与患者的医疗史相关。公众可利用的数据库的实例包括环境数据库30，就业数据库40，人口数据库50和遗传数据库60。通常，这种神经网络可以用于鉴定公众可利用的数据(例如储存在数据库中的数据，期刊论文、出版物中的数据等)，它们具有有关患有癌症和涉及患者医疗史的风险因素的信息。

本文提供了可以从EMR db 10和20提取的待提供给神经网络NN4以用于进一步分析的信息类型的实例。对于环境数据库db 30，可以标识以下字段：患者位置，工作邮编，地址年份。对于职业/就业数据库db 40，可以识别特定工作的年数。对于人口数据库db 50，可以确定患者的人口统计资料，如性别，年龄，作为吸烟者的年数和家族史。对于遗传数据库db 60，可以鉴定突变，例如BRAF V600E突变，EGFP Pos。该信息可以被提供给神经网络NN4，并且可以生成相应的问题以确定相关的风险因素。

例如，NACS 100可以识别个体的职业，并且产生将要求数据库db40关于该个体的职业是否与癌症有已知关联的问题。患者可能住在特定的邮政编码持续确定的年数(例如10年)。因此，可以产生和存储在公共知识库(KS)110中的相应问题“过去10年居住在该特定邮政编码中的患者的癌症风险是什么？”，以待在随后的时间点被询问。作为另一个例子，NACS 100可以产生要向环境db 30询问关于个体的职业是否与增加的癌症风险相关的问题。患者可能已经在某个专业工作过若干年(例如20年)(例如煤矿工人)。因此，可以生成相应的“作为煤矿工人20年工作的癌症风险是什么？”的问题，并在公共KS110中存储，以待在随后的时间点询问。类似地，NACS 100也可以产生遗传问题，例如患者医疗史中的突变或其它遗传异常是否与癌症的发生有关。一般而言，可以生成各种类型的基于环境、就业、人口和遗传的问题并将其作为询问的问题存储在公共KS110中，例如在本领域已知的问答生成模块的帮助下。

也在图1A中显示出的公共总线65提供通信网络，通过该通信网络向公众可用的数据库提供与患者的医疗史相关的问题，其中问题的答案可以被纳入风险分数的确定中。例如，信息可以在公共知识存储库(KS)110和数据库30-60本身之间传输，所述公共知识存储(KS)110可以包含由NACS 100产生的问题，这些问题将被询问到数据库。

如上所述，公众可利用的数据库db 30-60可以包含与患有癌症风险相关的各种类型的信息。因此，除来自电子医学记录db 10和20及其它信息的信息外，本发明的实施方案还可以利用这些数据库的一个或多个，以确定个体存在癌症的可能性。

例如，环境数据库db 30可以包含与癌症存在相关的环境或地理因素。例如，某些地理邮政编码可以指示与患有癌症的风险增加相关的环境因素，例如在指定区域内存在致癌物，放射性元素，毒素，化学物质泄漏或污染等。数据库db 30还可以包含有关与疾病例如癌症发生相关的环境因素的信息，例如烟雾水平、污染物水平、暴露于二手烟污染等。

职业数据库db 40可以包含使就业的一些类型与患有癌症风险增加相关联的信息。例如，某些工业和职业类型，例如煤矿工人、建筑工人、油漆工、工业产品制造者等，他们可以具有暴露于射线或致癌化学物质包括石棉、铅等的可能性增加，这增加了患有癌症的风险。

人口数据库db 50包含通常匿名化的信息，用于癌症诊断的个体人群。在一些实施方案中，数据库db 50可以包括个体患者谱，每个患者谱包括各种类型的信息，例如年龄、性别、以年计的吸烟史和每天的包数、成像数据、职业、居留地、生物标志物分数、生物标志物综合分数或生物标志物速度等，它们可以影响患有癌症的个体风险。通过采集和分析这种类型的数据，可以由神经网络确定组群。

遗传db 60可以包括被鉴定为与患有癌症风险增加相关的基因。例如，遗传db 60可以包括任何公众可利用的数据库或存储器以及期刊论文、调查研究或任意其它信息来源，它们使得特定遗传序列、突变或表达水平与患有癌症的风险增加相关联。

任意的数据库30-60可以包含多个数据库。例如，环境db 30可以包含多个数据库，每个数据库包括不同类型的环境信息，就业db 40 可以包含多个数据库，每个数据库包括不同类型的就业信息，人口db 50可以包含多个数据库，每个数据库包含人口信息，且遗传db 60可以包含多个数据库，每个数据库包含不同类型的遗传信息。

信息可以在数据库db 30-60之间传输，并且通过缩放总线70存储在缩放知识库(KS)120中。例如，缩放KS 120可以包含针对NACS 100生成的问询数据库db 30-60的问题的答案。公众KS 110和缩放KS 120是由NACS生成的储存库。

为了便于向db 30-60提问，第五组神经网络(也被称为NN5a，NN5b，NN5c或NN5d)用于识别特定主题知识源或数据库(例如db 30-60)中的特定数据。例如，神经网络NN5a可用于识别环境db 30中的特定环境数据，神经网络NN5b可用于识别就业db 40中的具体就业数据，神经网络NN5c可用于识别人口db 50中的特定人口数据，且神经网络NN5d可以用于鉴定遗传db 60中的特定遗传数据。可以选择被认为是特定领域中的信息的主要来源的知识来源或数据库以用于包括db30-60。知识源的例子包括期刊文章，数据库，演示文稿，基因序列或基因表达库等。在某些方面，每类信息或每个信息源自身可以具有用于识别相关数据的对应神经网络，并且在一些实施方案中，神经网络可以被训练成以供应商特定的方式识别信息。每个数据库也可以包含结构化和非结构化数据。

在一些实施方案中，如果新的研究报告与癌症有关的新的遗传关联或新的癌症发生的地理“热点”，NACS系统100可以在数据库30-60中搜索信息-重新评估其确定的风险并向患者或医生提供更新的风险。例如，可以生成问题并存储在公共KS110中，该问题将以预定的时间间隔(例如每月，每季度，每年等)向db 30-60询问，并且可以定期更新风险确定。

在医学领域中，不断发布新的临床文献和指南，其描述新的筛选程序、疗法和治疗并发症。当新的信息变得可用时，查询可以由问题答案生成模块自动运行，而无需主动参与(以自动方式)。结果可以被主动地发送给临床医师或患者，或者存储在缩放KS 120中以供随后使用。

在一些实施方案中，NACS 100可以使用例如问题-答案模块自动从语义概念、关系和从数据库10和20提取的数据中生成查询。使用语义概念和关系，问-答系统的查询可以自动制定。或者，临床医师或患者也可以通过适合的用户界面以自然语言或其它方式输入查询。

在另外的实施方案中，使用第六组神经网络(也被称为NN6a，NN6b，NN6c或NN6d)来缩放每个数据库输出，或者回答来自db 30-60的问题，例如0-9的权重范围。例如，LoveCanal,NY的输出邮编14304可能被缩放为'9'以表示高风险，而Sedona,AZ的输出邮政编码86336可能为'0'以表示低风险。本发明的实施方案涵盖了许多不同类型的缩放。在一些实施方案中，不管数据库如何，数据库输出都根据通用参考进行缩放，而在另外的实施方案中，数据库输出按相对基准进行缩放，使得例如对于给定的数据库，“9”的权重可能与另一数据库的“9”权重没有相同的影响。根据数据的差异的不同，每个数据库可以具有其自己对应的神经网络来对相关信息进行缩放。

在一些实施方案中，生成每个答案与信息的置信度和来源。每个答案的置信度可以为，例如，0-1、0-10或任意期望的范围的数值。

在另外的实施方案中，第七神经网络(也称为NN7“基因修剪”)用于鉴别涉及与患者医疗史相关的基因的相似和/或相关基因。相似或相关基因可以基于遗传信息的文献、遗传信息的公共数据库等鉴定。神经网络NN7还可以输出与进一步分析相关的基因类型，以及与已鉴定基因相关的风险。

根据图1A中所示的实施例计算环境，从神经网络NN3提取的数据被发送到其它神经网络以通过提取的数据总线138进行分析。可以存储在缩放的KS 120中的来自外部数据库db 30-60的输出数据被加载到缩放的总线70上，并且被提供给另一个神经网络用于作为缩放人口统计数据170进行分析。当遗传数据165和人口数据160作为向其它神经网络的输入值提供时，来自神经网络NN7的数据被提供给另一个神经网络用于分析。这些输出中的每一个都参照图1B显示。

如图1B中所示，来自提取的数据总线138的数据可以被分类为不同类型的数据。数据可以被分类为原始影像155(例如X-射线、CT扫描、MRI、超声、EEG、EKG等)，且原始影像可以被提供给NN10用于如本文所述的进一步分析。数据还可以被分类为生物标志物(BM)速度数据145，且这种数据可以被提供给神经网络NN9用于如本文所述进一步分析。数据还可以被分类为数值数据150，例如年龄、ICD、血液/生物标志物测试、吸烟史(年数和每天的包数)、诊断(Dx)、性别等，或非结构化数据140。非结构化数据140可以包括基于文本或数字的信息，例如临床医师笔录、注释等。NN8可以使用自然语言处理和其它充分建立的技术分析如本文所述的非结构化数据140。

利用第八神经网络(也称为神经网络NN8自然语言处理(“NLP”))来分析非结构化数据140，例如临床医师笔录，其它EMT文本(例如放射学，当前疾病史(HPI))。经过神经网络NN8处理后，数据可以被分为多个类别，包括基于文本的类别，包括实验报告，进度记录，印象，患者历史等，以及派生数据，其包括来源于基于文本的数据的数据，例如吸烟年数和吸烟频率(例如，一天有多少包)。

在另外的实施方案中，利用第九神经网络(也称为NN9)来分析生物标志物(BM)速度。该神经网络可以以监督或无监督的方式进行训练，其分析生物标志物组的生物标志物的速度，并确定该速度是否指示癌症的存在。标志物可以包括CYFRA，CEA，ProGrp等，且神经网络可以分析随时间变化的绝对值和随时间变化的相对值。在一些方面，具有高于阈值的速度可以指示癌症的存在。可以生成个体以及生物标志物组合的组速度分数。在一些实施方案中，该神经网络可能未经过训练，并且可以识别以前未知的相关性。对于组可以确定个别和组的速度。

在另外的实施方案中，第十神经网络(也称作NN10“筛”)用于分析原始影像，例如XRAY、CT扫描、MRI等，并且提取临床成像数据。在一些实施方案中，这种神经网络NN10可以提取与确定癌症风险增加相关的影像部分。

在另外的实施方案中，利用第十一神经网络(也称为神经网络NN11“未训练的组群分析”)来识别组群分组中的模式。基于神经网络NN11做出的决定，特定的组群分组可以作为时间的函数而变化。例如，年龄与发生癌症的风险相关，但最佳分组(例如年龄42-47、53-60等)未知。神经网络NN11可以初步确定具有10年吸烟史的年龄53-60岁的组群人群携带增加50％的风险。随着附加数据变得可用，最佳分组(组群)可能会发生变化。通过利用未经训练的神经网络(例如神经网络NN11)来发现自然发生的分组模式(例如，在给定年龄和基于相似的吸烟历史发生癌症的个体群)，可以识别和分析分组模式以确定给定患者的最佳组群。在一些实施方案中，NN11未经培训，并且将自学。例如，年龄是一个重要因素。最好的年龄范围或分组可能并不知晓，例如年龄范围是否应当为42-47、53-60岁等。此外，分组可能会随着其他风险因素整合到分析中而发生变化。通过使用未经训练的NN分析数据，NN可以利用群集来查找相关分组。该算法可以反复地尝试不同的分组和不同的风险因素，直到找到给定患者的最佳组群。在许多情况下，未经训练的NN会发现传统技术发现的相关性。

第十二神经网络(也称为神经网络NN12“主NN”)接收多个输入值，每个与疾病的发生相关，例如癌症。在该实例中，NN12接收患者EMR数据总线142的输入值(其中一些使用神经网络NN8-10进一步处理)以及使用NN11处理之后的缩放的人口统计数据170、遗传数据165和人口数据160以生成群组数据。

输入到神经网络NN12的数据可以根据本文给出的技术进行归一化。神经网络NN12将权重分配给每个输入值，并基于这些风险因素进行分析患有癌症的预测(％可能性)。最初，可以使用包括具有癌症诊断的患者、他们的医疗史和其它相关风险因素的数据集训练神经网络来确定分配的权重。由于对于有关癌症的风险因素(例如新的风险因素等)的额外的数据可利用，因此可将该数据集成到神经网络NN12中，并且相应的权重作为时间的函数进展。神经网络NN12的输出数据可以作为反馈回路的一部分存储在db 10和/或db 20中。

如方框图180中所示，训练NN12以产生以下输出，包括患者风险分数(例如，给定组群中个体患者的％风险，误差界限，组群大小，组群标签等)，确定的主要危险因素(可能因组群不同)，推荐诊断(DX)和治疗成功因素。如本文所述，神经网络NN 12还可以生成其它类型的数据。

神经网络NN12可以利用反馈将输出写回至所述机器学习系统的数据库db10和db20以连续改善，从而使所述机器学习系统通过不断地将新数据并入训练组中来做出更准确的预测。当新的患者数据变得可用时，例如确认或否认患者患有癌症，NACS系统100可以将该信息用于额外的内在训练，从而允许确定的％风险分数以改善准确度。例如，如果患者被诊断患有癌症，则可以将治疗类型、结果(长寿)和成功率编辑并反馈到系统中，使系统接受成功治疗和最佳(正面)临床指标的训练而具有最佳灵敏度、选择性和最低不明确性。如果患者未被诊断出患有癌症，则将这些信息反馈给系统以最佳阴性临床指标进行训练。也可以将临床医师的诊断结果与NACS风险分数进行比较。

本发明的实施方案可以包括至少一种EMR，例如db 10、用于进行风险确定的主神经网络NN12和上述举出的公布数据库db 30-60的任意一种或多种以及上述举出的知识储存库80、110、120、130和135的任意一种或多种和神经网络NN1-11的任意一种或多种。

在一些实施方案中，神经网络可以被训练以鉴定以向量-特异性格式提供的信息。

在另外的实施方案中，神经网络NN12可以确定：存在的信息不足以做出有关患者风险分数的确定。

图2A显示了一个神经网络的实例。如前所述，神经网络系统通常指人工神经网络系统，其包含多个人工神经元或节点，使得系统架构和神经网络系统设计背后的理念基于生物系统和/或神经元模型。

例如，神经网络的组件可以包括包含多个输入处理元件或节点210的输入层，包含处理元件或节点的一个或多个“隐藏”层220以及包含多个输出处理元件或节点的输出层230。每个节点可以连接到一个或多个其它节点作为隐藏计算层的一部分。隐藏层220可以包含单层或多层，其中每层包含多个互连的计算节点，其中一层的节点连接到另一层。

神经网络还可以包含加权和汇集操作作为隐藏层的一部分。例如，每个输入值可以被分配一个相应的权重，例如0-1、0-10等范围内的数字。加权输入可以被提供给隐藏层并且被汇总(例如，通过对加权的输入信号求和)。在一些实施方案中，将限制功能应用于汇集的信号。来自隐藏层的汇集的信号(其可能受到限制)可以由输出层接收并且可以经历第二汇集操作以产生一个或多个输出信号。输出限制功能也可以应用于汇集的输出信号，从而通过神经网络产生预测量。许多不同的配置是可能的，并且这些实例意图是非限制性的。

神经网络系统可以被配置以通过如本文所述称作训练的学习方法用于特殊应用，例如模式识别或数据分类。因此，可以训练神经网络以提取模式、检测趋势并且对复杂或不精确数据进行分类，所述复杂或不精确数据对于人过于复杂，且在许多病例中对于另外的计算机技术过于复杂而不能分析。

如图2B中所示的神经网络内的信息也可以是双向流动的。例如，从输入层至输出层的数据流如向前活动所示，且从输出层流至输入层的误差信号表示为反馈或“反向传播”。误差信号可以反馈回系统中，且作为结果，神经网络可以调整一个或多个输入值的权重。

训练神经网络

用于操作神经网络的许多不同技术是本领域公知的。神经网络典型地经历反复学习或训练过程，其中实例被一次一个提供给神经网络，然后神经网络被置于产生模式以对(非训练)数据操作。在一些情况中，相同的训练数据集可以被提供给神经网络多次，直到神经网络收敛于正确的解决方案，达到特定的标准，例如指定的置信区间、指定的误差等。典型地，一组验证数据(例如数据集)足够大至允许神经网络收敛，从而允许神经网络能够在特定的误差界限内预测，即非训练数据的正确分类(例如癌症风险增加或无癌症风险增加)。参见实施例3。

训练可以在监督或无监督方式下进行。在监督学习过程中，可以给神经网络配备大训练数据集，其中答案显然是已知的。例如，可以给神经网络以连续方式提供来自数据集的测试病例与该数据集的答案。通过给神经网络提供包含肯定和否定答案(例如相关数据和无关数据)的大数据集并且告知神经网络哪种数据对应于肯定答案和哪种数据对应于否定答案，神经网络可以学习识别肯定答案(例如相关数据)，只要提供足够大的数据集。在监督的学习过程中，个体或管理人员可以与所述机器学习系统发生互动，以提供有关所述机器学习系统确定的结果是否准确的信息。

在无监督学习过程中，也可以给神经网络配备大训练数据集。然而，在这种情况下，作为针对哪些数据的答案是肯定的和针对哪些数据的答案是否定不会提供给神经网络，且可以是未知的。而神经网络可以利用统计学方式，例如K-方式集合等，以确定肯定数据。通过提供给神经网络提供包含肯定和否定答案(例如相关数据和无关数据)的大数据集，神经网络可以学习识别数据中的模式。

每个对神经网络的输入值典型地被加权。在一些实施方案中，初始加权(例如随机加权等)由所述机器学习系统确定，而在另外的情况中，初始加权可以由用户确定。所述机器学习系统处理带有初始权重的输入信息以确定输出。然后输出值可以比得上例如以实验方式得到的训练数据集和验证数据。所述机器学习系统可以确定计算得到的预测值与训练数据集之间的误差信号，并且通过该系统使这种信号进入或传播回到输入层，导致调整输入权重。在另外的实施方案中，误差信号可以用于调整隐藏层中的权重，以改善神经网络的精确度。因此，在训练过程中，神经网络可以在通过训练数据集的每个反复过程中调整输入值和/或隐藏层的权重。当相同组训练数据可以被处理多次时，神经网络可以精制输入值的权重，直到达到收敛。典型地，最终权重可以由所述机器学习系统确定。

作为神经网络NN1的训练过程的实例，神经网络NN1可以被训练以寻找第二EMR db20具有相关数据的指示。例如，可以给神经网络NN1配备来自EMR系统db 20的具有与患者相同名称和社会保障号的数据集并确认来自第二EMR的患者与主EMR匹配。类似地，可以给加法器提供来自另一个EMR系统的与患者具有相同名称和不同社会保障号数据集与来自第二EMR与来自主EMR的患者不匹配的数据。基于这种类型的训练，神经网络可以学习区分来自数据库的哪条记录匹配特定的患者。

作为另一个实例并且参照神经网络NN2a和NN2b，这些神经网络可以被训练以识别缺失的数据。例如，可以给这些神经网络配备具有数据集是完整的指示的患者的完整数据集。然后可以给这些神经网络配备具有特定缺失数据的另一个数据集。在足够大的训练期限后，神经网络将学习缺失数据的概念，并且将能够识别非训练数据集中的缺失数据(产生模式)。类似地，神经网络NN2a和NN2b可以针对构成有问题数据进行训练。例如，如果邮政编码不与人口位置字段紧密匹配，则可能是错误的，因为更可能的情况是患者能正确识别其城市和国家。

作为另一个实例，每个神经网络NN5a-NN5d首先被训练，以发现特定数据(例如来自环境db、就业db、人口db、遗传db等)。在满足特定标准(例如在特定误差比例范围内正确预测在个体人群中的个体患有癌症)时，可以将神经网络置于产生模式中。

因此，对于本文提供的实施方案的目的，通常推定可以用足够大小的数据集训练不同的神经网络以达到收敛。

在训练神经网络后，可以使神经网络暴露于新的数据集，并且测试其性能，例如使用另一个数据集，其中可以用临床数据验证来自神经网络的预测。一旦建立神经网络以在建立的指导原则内行为，则该神经网络可以暴露于真正未知的数据。

当神经网络是高度适合性时，用于做出确定风险分数的决策的特定标准可以作为时间函数进展，且作为新数据可以利用。尽管能够及时表征作为特定时刻的函数的神经网络，但是神经网络及其相应的决策过程作为时间函数进展。因此，网络节点内的数据流可以随时间进展，因为得到新的数据且验证了新的结论。

图3是显示本发明实施方案清洁信息的实例操作的流程图。该方法可以用于识别EMR db 10和EMR db 20中的患者信息以及校正有问题的信息，并且将正确的信息储存在知识库中，例如清洁数据KS 80(参见图1A)。在操作300时，识别了储存在主要电子医学记录(EMR)系统的一个或多个医疗记录中的患者信息。在操作310时，确定(例如使用加法器神经网络NN1)是否需要储存在一个或多个第二EMR中的额外数据(例如来自患者或来自与患者相关的家庭成员的额外医疗信息)来计算风险分数。如果所述机器学习系统可以计算风险分数，而无需额外数据，则该方法可以持续操作至操作320。如果在操作315时需要额外信息，则得到额外信息。在操作320时，所述机器学习系统识别(例如使用神经网络NN2a和NN2b)来自EMR db 10和EMR db 20的有问题的且待校正的患者数据(例如缺失数据、错误数据、不明确数据等)的一个或多个字段。在一些实施方案中，待校正的有问题的数据基于对确定风险分数的每个鉴定字段的潜在影响排序。在一些实施方案中，最高排序的(最高潜在影响)字段被校正，并且系统可以确定可以在不校正具有较低潜在影响的字段的情况下进行计算。在操作330时，通过一个或多个延伸(outreach)过程(例如手动、自动或它们两者)校正一个或多个识别的字段。延伸过程可以包括接触另一个信息源，例如临床医师、患者、另一个计算系统等，以校正有问题的数据。在操作340时，所述机器学习系统确定是否需要使信息匿名，且如果需要，则使信息匿名化。否则，该过程可以持续至操作350。在操作350时，匿名化的(或校正的)信息被储存在清洁数据知识库(KS)80中，其中它易于提取，例如通过NN3“EMR提取器”。

图4显示表现出根据本发明实施方案牵涉主神经网络NN12的实例操作的流程图。在该实例中，给主神经网络NN 12提供多个输入值。这些输入值包括来自EMR Pt数据总线142以及来自db 30-60的数据。主神经网络NN12分析接收的输入值，以确定人群例如组群中患有癌症的个体风险。

在本实例中，给主神经网络NN12直接或通过一个或多个另外的神经网络提供来自提取的数据KS 130的数据。特别地，在操作400时，将数值数据提供给NN12用于分析。在一些实施方案中，将该数据直接提供给NN12，其中每个类型的数据可以被加权为单独的输入值。经历其它神经网络加工处理的其它类型的数据也可以被提供给神经网络NN12。已经在操作405被神经网络NN9加工处理的生物标志物(BM)速度数据可以被提供给在操作410的神经网络NN12用于分析。NN9可以基于生物标志物浓度的速度(例如作为时间函数的一个或多个生物标志物的增加速率)确定患者处于患有癌症的风险增加中。在操作415时，非结构化的数据被提供给NN8用于分析。在操作420和425时，来源于非结构化数据的数值数据以及非结构化数据自身(神经网络NN8的输出值)可以被提供给神经网络NN12用于加工处理。在操作430时，原始影像数据被提供给NN10用于分析。在操作435时，分析影像数据的神经网络NN10的输出值被提供给神经网络NN12用于分析。

除来自总线138的数据外，主神经网络NN12还可以接收来自公众可利用数据库的输入值，如操作440-460中所示。在操作440时，来自可以被储存在缩放KS 120中的数据库db30-60的缩放风险因素作为输入值被提供给主神经网络NN12。在操作445时，遗传标志物被提供给NN7用于分析，且在操作450输出值被提供给NN12用于分析。在操作455时，可以生成来自神经网络NN11的组群形式的人口数据并且在操作460时提供给神经网络NN12用于分析。

并不预期上述实例在可以提供给NN12的输入值类型方面有限制。本发明的实施方案可以包括来源于患者医疗信息的任意输入值或涉及患者医学病症的公众可利用信息的任何来源。

一旦接收输入值，则主神经网络NN12可以用于分析信息，以确定个体患有癌症的风险是否增加，如在操作465中所示。

在一些实施方案中，主神经网络NN12可接收来自神经网络NN11的组群。在分析不同类型的数据时，主NN12可以修改组群以包括额外的因素。例如，如果组群最初由神经网络NN11提供为男性、50岁年龄和10-15的吸烟指数，则在考量其它风险因素时，神经网络NN12可以修改组群以包括额外的信息，例如男性，50岁年龄，10-15的吸烟指数，综合生物标志物分数大于阈值(或患有或不患有癌症的可能性的类别指示)和具有某些速度的特定生物标志物。因此，组群可以作为时间函数演化。

主神经网络NN12还可以生成不同类型的信息作为分析已经提供不同类型输入值的结果。在操作470时，神经网络NN12个体患者确定相对于人群例如组群，患有癌症的风险增加(例如百分比、乘数或任意其它数值等)。包括确定的风险，且用于确定风险的信息例如组群、组群的大小等以及相关统计学(例如误差界限)的报告被提供在该报告中。该报告还可以包括高风险患者经历更频繁的筛查的建议。在一些方面，推荐的随访之间的时间为临床指示和组群的函数。还可以提供有关行为改变的建议。

其它类型的信息也可以被提供给患者或临床医师。例如，在操作474时，可以报告基于神经网络NN12分析患有癌症的主要风险因素。在操作472时，可以报告已经被优化的癌症特异性生物标志物(例如在风险确定中最强加权的)。在操作476时，可以报告用于生成癌症预测风险的数据摘要。在操作478时，可以根据其诊断早期癌症的能力对临床医师排序。可以评估这些临床医师使用的技术以研发用于在早期癌症诊断中训练另外的临床医师的最佳实施方式。在操作480时，可以报告最佳BM速度，其为与患有癌症风险增加无关的速度与患有癌症的风险增加的速度之间的截止值。

在操作482时，可以将有关是否在随访期间诊断癌症的患者信息回复给EMR，以给系统提供连续的反馈。

当神经网络NN12接收验证或未验证是否鉴定为高危(如神经网络所预测的)的个体患有癌症的数据时，神经网络NN12可以以产生模式持续内在地训练作为时间的函数，从而调整输入和/或隐藏层权重，因为额外的患者数据可以被利用。因此，通过使用反馈回路，其中例如通过侵入测试证实的预测结果与实际结果之间的差异被反馈给作为时间函数的系统，预测的准确度在额外数据反馈给系统时得到改善。

本文的实施方案可以基于进展的数据(例如患者医疗数据)自动和连续地更新风险分数，相应的置信度值/误差界限，以提供最高置信度答案和建议。本文的实施方案在接收新数据时连续更新，而不是提供在给予相同输入时始终提供相同答案的静态计算，由此给临床医师和患者提供最佳最新近的信息。

因此，本文的实施方案提供了基本上超过生成静态结果的系统的优点，所述固定结果基于预先设置的、固定的较少修正的标准(或仅在定期更新时修正(例如软件更新))。通过动态地行为，风险分数和建议可以基于进展的人口统计学、进展的医疗发现等以及EMR公众可利用的数据库内的新数据而改变。因此，本文的实施方案可以连续地改善癌症早期检测，且新数据可以利用，从而给临床医师及其患者提供自动化系统，其用于访问最佳医疗实践和作为随时间的医疗发展和人口统计数据改变度患者的治疗。

图5显示根据本发明实施方案的EMR提取器神经网络NN3的实例操作的流程图。清洁数据KS 80包含来自EMR db 10和(如果适用)来自EMR db 20的清洁信息的储存库。在操作505时，神经网络NN3用于从清洁数据KS 80中提取数据。这种提取的数据可以被储存在提取的数据KS 130中。在操作510时，提取的数据根据类型(例如原始影像155、生物标志物(BM)速度数据145、基于文本的非结构化数据140和数值/结构化数据150)而分开。在操作515时，确定是否需要额外的加工处理(由另外的神经网络)，然后将信息提供给主神经网络NN12用于分析。数值数据150可以被储存在患者数据KS 135中，无需额外的加工处理。在本实例中，用另外的神经网络加工处理其余的数据类型。原始影像数据155被提供给神经网络NN10，其在操作520时分析影像数据。生物标志物速度数据145被提供给生物标志物速度神经网络NN9，其在操作530时识别生物标志物数据中的模式。在一些实施方案中，NN9可以未经训练。

非结构化数据140在操作540时被提供给自然语言处理神经网络NN8，其利用自然语言处理和语义学分析非结构化数据。NLP可以应用于分析不同类型的文本的语境(例如临床医师笔录、实验室报告、医疗史、处方药治疗和任意其它类型的注释)，以确定相关风险因素，且这种信息可以被提供为进入主NN12的输入值。在操作540时NN8也可以驱动来自非结构化语言的数值输入值，例如吸烟的年数、家庭成员吸烟的年数和任意其它数值数据。例如，神经网络NN8可以用于自然语言处理附带原始影像的书面放射学报告。使用足够大数量的训练实例，NLP/深度学习程序将学习如何解释与癌症发现相关的书面报告。在本实例中，神经网络NN8生成至少两个输出值，例如基于文本的数据175，其包含患者史、影像报告印象等；以及更新数值字段185，例如吸烟年数、吸烟频率等。Pt数据KS 135可以储存数据，其被传送至总线142，用于随后输入主神经网络NN12。

图6显示根据本发明实施方案的与公众可利用数据相关的神经网络的实例操作的流程图。在操作610时，神经网络NN4用于识别EMR中的信息，其可以得益于得自公众可利用信息资源的额外知识。例如，相应的问题可以由问题-答案模块生成，其为本领域公知的，并且被储存在公众KS 110中用于将来的随意提取。在操作620时，识别和维持了结构域特异性知识源中的最佳类别。在本实例中，域是指公众可利用的信息类型，例如地理/环境，就业，人口或遗传数据库。在操作630时，神经网络NN5a-d用于询问每个相应的结果域源，只要神经网络NN4识别对于特异性结构域信息的需求。在操作640时，确定是否从所有结构域源中提取数据并且完整地评估。如果不是，则该过程返回至操作620，并且重复识别结构域特异性知识源中的最佳类别。在一些实施方案中，只要询问有关遗传结构域方面的问题，则在操作645时，神经网络NN7用于提取相关遗传缺陷的详细细节。遗传数据可以通过遗传数据165被提供给主神经网络NN12。在操作650时，神经网络NN11用于提取人口数据以便组群分析，且提取的数据、人口/组数据被提供给神经网络NN 12用于分析。在操作655时，神经网络NN6a-d用于缩放(或加权)每个相应结构域中提供的答案。应当理解，一个结构域中的加权不一定与在另一个结构域中的加权等同，例如环境结构域中的‘9’不一定等同于遗传结构域中的‘9’。在操作660时，从db 30-60将缩放数据加载到缩放总线70上。可以将缩放数据储存在缩放KS 120中以便将来应用。

在一些实施方案中，当新的数据变成患者可利用时，系统重新计算风险分数并且将结果提供给临床医师。

在许多结构域中，具有最高置信度的答案不一定是适合的答案，因为对于一个问题可能存在几种可能的解释。

正如本领域技术人员可理解的，本文的实施方案的方面可以具体化为系统、方法或计算机程序产品。因此，本文的实施方案的方面可以采取完整硬件实施方案、完整软件实施方案(包括固件、固有软件、微码等)或和合并软件与硬件方面的实施方案的形式，所述合并软件与硬件的方面的实施方案在本文中通常可以称作“回路”、“模块”或“系统”。此外，本文的实施方案的方面可以采取计算机程序产品的形式，该产品嵌入一个或多个计算机可读介质，其具有在其上具体化的计算机可读程序代码。

可以使用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读储存介质。计算机可读储存介质可以是，例如但不限于电子、磁、光、电磁、红外或半导体系统、设备或装置或上述任意适合的组合。计算机可读储存介质的更具体的实例(非穷尽性的列表)可以包括如下：具有一条或多条导线的电子连接物，便携式计算机软磁盘，硬盘，随机存储器(RAM)，固定存储器(ROM)，可擦除可编程只读存储器(EPROM或闪速存储器)，光导纤维，便携式光盘固定存储器(CD-ROM)，光储存设备，磁储存器或上述任意适合的组合。在本文件的上下文中，计算机可读储存介质可以是任意有形介质，其可以包含或储存由指令执行系统、设备或装置使用或与之连接的程序。

计算机可读信号介质可以包括使用其中嵌入的计算机可读程序代码的传播数据信号，例如，在基带中或作为载波的组成部分。这类传播信号可以采取任意不同形式，包括但不限于电-磁、光或其任意适合的组合。计算机可读信号介质可以是任意计算机可读介质，其不是计算机可读储存介质，并且可以通过指令执行系统、设备或装置通讯、传播或传输应用程序或与之连接。

在计算机可读介质上嵌入的程序可以使用任意适合的介质传输，包括但不限于无线、有线、纤维光缆、RF等或上述任意适合的组合。

图11-12是使用机器学习系统例如基于风险分数将个体患者分类为风险类别的实例过程流程图。图11涉及构建组群，而图12涉及分类个体患者。

涉及图11，在操作2005时，对个体患者接收生物标志物值和医疗史(例如在神经网络NN12)。在操作2010时，机器学习系统(例如神经网络NN11)用于基于来自大量患者(例如来自人口db 50)的信息(例如生物标志物值、医疗史、阳性或阴性诊断等)识别相对于个体患者的组群。通过将个体患者的生物标志物值和医疗史提供给神经网络NN11，该神经网络可以确定组群。

在操作2020时，机器学习系统可以用于识别参数(例如风险因素、相应的权重等)以将组群分成多个类别，每个类别代表具有疾病的风险水平。

所述机器学习系统以前可能并不知晓哪些参数(例如风险因素)是患有肺癌最具有预测性的。因此，神经网络可以使用反复过程确定这些参数，直到满足特定标准(例如具有被诊断为患有癌症的个体人群的特定百分比，分类在最高危类别中)。神经网络可以精制参数(例如风险因素，权重等)，直到满足特定标准。

在一些方面，神经网络NN11可以完成对组群的汇集(例如使用统计学汇集技术等)，以识别风险因素，例如基于来自大量患者的医疗信息。例如，通过完成对年龄的汇集，神经网络NN11可以确定45-50岁的个体最可能患有癌症(例如首次诊断)。可以按照类似方式选择其它参数。因此，所述机器学习系统可以选择最初的参数组，例如年龄/年龄范围，吸烟史(在年数和/或吸烟指数方面)，用于分析并且对每个参数分配初始权重。因此，通过使用汇集或其它分组/分析技术，可以识别预测参数。

在操作2025时，患者(例如在一些方面，大量患者中的每个患者)基于风险分数被分类为组群类别。在操作2040时，通过比较已知患者分类，确定患者分类是否满足特定标准。当来自大量患者的信息包括患有或未患有癌症的诊断时，可以评估神经网络对分类/风险分数的准确度。例如，不患有癌症的大部分患者应当基于高危分数并且被分类为高危，而确实患有癌症的大部分患者应当具有低危分数并且被分类为低危。

在操作2050时，如果分类(通过风险分数)满足特定标准(例如在特定误差率，误差界限，置信区间内等)，则该过程可以进行至图12中的方框图“A”。否则，在操作2070时，所述机器学习系统将选择修正的一组参数(例如修正的参数可以包括医疗信息的新字段，每个字段的改变的权重等)，以构建用于分类的风险分数。例如，如果最初使用年龄和吸烟史，则可以使用年龄、吸烟史和生物标志物值构建修正的参数组。作为另一个实例，如果年龄和吸烟史最初用于确定风险分数，则可以使用针对年龄减少的权重和针对吸烟史增加的权重构建修正的参数组。

在操作2080时，使用修正的参数组构建组群类别，并且该过程持续至操作2025。操作2025-2080可以重复至达到特定标准。

涉及图12，在操作2110时，所述机器学习系统用于分类(通过风险分数)个体患者为组群类别(高危、中危、低危)。在操作2120时，对于个体患者接收额外的医疗信息，其指示个体患者是否患有疾病(例如癌症)。在操作2130时，对于个体患者分类是否与额外医疗信息(例如患者是否被诊断为患有癌症)一致做出确定。如果在操作2140时分类与额外医疗信息一致，则该过程结束。否则，如果结果不一致，则在操作2150时所述机器学习系统选择针对组群修正的参数组(例如参数可以包括医疗信息的新字段，每个字段改变的权重等)。例如，新字段可以被添加以选择新组群(例如新生物标志物)或可以调整输入神经网络NN11的权重。在操作2160时，基于修正的参数组构建组群的类别(通过分配相应的风险分数)，可以将个体患者分类为组群类别，且该过程反复通过操作2130-2160，直到达到一致。

因此，神经网络是适配的系统。通过作为实例的信息过程，而非不同情况下的常规程序设计，神经网络能够对新数据做出响应而演化。还注意到，训练人工神经网络的算法(例如梯度下降，成本函数等)是本领域公知的且在本文中将不会详细涵盖。

用于执行本文实施方案的各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任意组合来编写，所述程序设计语言包括面向对象的程序设计语言，例如Java，Smalltalk，C++等，以及常规程序化程序设计语言，例如“C”编程语言或类似的编程语言。程序代码可以完全在用户的计算机上、部分在用户的计算机上、作为独立的软件包、部分在用户的计算机上且部分在远程计算机上或者全部在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或者可以连接到外部计算机(例如，通过互联网使用互联网服务提供商)。

下面参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图示例和/或方框图描述本文实施例的各方面。将要理解的是，流程图示例和/或方框图中的每个块和流程图示例和/或方框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供给计算机、专用计算机或其它可编程数据处理设备的处理器以产生机器，使得经由计算机或其它可编程数据处理设备的处理器执行的指令创建用于实现在流程图和/或方框图块或块中指定的功能/行为的装置。

这些计算机程序指令还可以被存储在计算机可读介质中，该计算机可读介质可以指导计算机、其它可编程数据处理设备或其它装置以特定方式运行，使得存储在计算机可读介质中的指令产生包括实现流程图和/或方框图块中指定的功能/行为的指令的制品。计算机程序指令还可以被加载到计算机、其它可编程数据处理设备或其它设装置上以使得在计算机、其它可编程设备或其它装置上执行一系列操作步骤以产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供用于实现流程图和/或框图块中指定的功能/行为的过程。

附图中的流程图和方框图示例根据本文的各种实施方案的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这方面，流程图或方框图中的每个块可以表示包含用于实现指定的逻辑功能的一个或多个可执行指令的模块、区段或代码部分。还应当注意，在一些替代实施方式中，方框中提到的功能可以不按照附图中指出的顺序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于涉及的功能。还将注意到，框图和/或流程图示例中的每个块以及块的组合可由执行指定功能或行为的基于专用硬件的系统或专用硬件和计算机指令的组合来实现。

可以预先理解，虽然本公开包括关于云计算的详细描述，但是本文所记载的各个教导不限于云计算环境。相反，本文的实施方案能够结合现在已知或以后开发的任何其它类型的计算环境来实现。云计算是一种服务交付模型，其能够实现对可共享的可配置计算资源池(例如网络，网络带宽，服务器，处理器，内存，存储器，应用程序，虚拟机和服务)的便捷、按需网络访问，该模型可以快速配置和发布，只需最少的管理工作或与服务提供商的交互。这种云模型可能包含至少五个特征，至少三个服务模型和至少四个部署模型。特征如下：

按需自助服务：云用户可以根据需要自动单方面地提供计算能力，例如服务器时间和网络存储，而不需要人与服务的提供者交互。

广泛的网络访问：功能可通过网络获得，并通过标准机制访问，促进不同瘦或厚客户机平台(例如移动电话，膝上型计算机和PDA)的使用。

资源池：将提供商的计算资源集中起来以使用多租户模型为多个消费者提供服务，其中根据需求动态分配和重新分配不同的物理和虚拟资源。存在位置独立感，因为消费者通常对所提供的资源的确切位置没有控制或知识，但可能能够在较高抽象水平(例如国家，州或数据中心)指定位置。

快速弹性：在一些情况中，能够快速和弹性地提供能力以自动地快速扩展并快速发布以快速回缩。对于消费者来说，可用于提供的能力通常看起来是无限的，并且可以在任何时间以任何数量购买。

测量的服务：云系统通过利用适合于服务类型(例如存储，处理，带宽和活动用户账户)的某些抽象水平的计量能力来自动对照并优化资源使用。可以监控、控制和报告资源使用情况，为所用服务的提供者和使用者提供透明度。服务模型如下：软件即服务(SaaS)：提供给消费者的功能是使用在云基础架构上运行的提供商的应用程序。这些应用程序可以通过瘦客户端界面(如Web浏览器)从各种客户端装置访问(例如基于Web的电子邮件)。消费者不管理或控制底层云基础架构，包括网络，服务器，操作系统，存储器乃至单个应用程序功能，但有限的用户特定应用程序配置设置可能例外。

平台即服务(PaaS)：提供给消费者的能力是部署到使用由提供者支持的编程语言和工具创建的消费者创建或获取的应用程序的云基础架构上。消费者不管理或控制底层云基础架构，包括网络，服务器，操作系统或存储器，但对已部署的应用程序和可能的应用程序托管环境配置进行控制。

基础构架即服务(IaaS)：提供给消费者的能力是提供处理，存储，网络和其它基本计算资源，其中消费者能够部署和运行任意软件，其可以包括操作系统和应用程序。消费者不管理或控制底层的云基础架构，但对操作系统，存储器，部署的应用程序以及选定网络组件(例如主机防火墙)进行可能有限的控制。

部署模型如下：

个人云：云基础架构仅为组织而操作。它可以由组织机构或第三方管理，并且可以存在于本地或非本地。社区云：云基础架构由多个组织共享，并支持具有共同关注点(例如任务，安全要求，政策和合规性考虑因素)的特定社区。它可以由组织机构或第三方管理，并且可以存在于本地或非本地。

公共云：云基础架构可供普通公众或大型工业集团使用，并且由销售云服务的组织机构拥有。

混合云：云基础架构是两个或更多个云(私有，社区或公共)的组合，它们仍然是独特的实体，但是通过归一化或专有技术绑定在一起，这使得数据和应用程序可移植性成为可能(例如用于云之间的负载-平衡的云突发)。

云计算环境是面向侧重于无状态、低耦合、模块化和语义互操作性的服务。云计算的核心是一个包含互连节点网络的基础架构。

现在参考图7，显示了包括用于人工智能系统的计算节点的计算环境的实例。在一些实施方案中，节点可以是独立(单个)计算节点。在一些实施方案中，节点可以在基于云的计算环境中实现。在另外的实施方案中，节点可以是分布式计算环境中的多个节点之一。因此，计算节点740仅为人工智能计算节点的一个实例，并不预期表明对本文所述的本发明的实施方案的使用范围或功能提出任何限制。

无论如何，计算节点740能够被实现和/或执行上文所述的任何功能。在云计算节点740中存在计算机服务器/节点740，该计算机服务器/节点740可与许多其它计算系统环境或配置一起操作。可能适用于服务器/节点740的众所周知的计算系统、环境和/或配置的实例包括但不限于个人计算机系统，服务器计算机系统，瘦客户机，厚客户机，手提式或膝上型装置，多处理器系统，基于微处理器的系统，机顶盒，可编程消费电子产品，网络PC，小型计算机系统，大型计算机系统和包括任何上述系统或装置的分布式云计算环境等。

计算机服务器/节点740可以在由计算机系统执行的计算机系统可执行指令(例如程序模块)的一般上下文中描述。通常，程序模块可以包括执行特定任务或实现特定抽象数据类型的例程，程序，对象，组件，逻辑，数据结构等。服务器/节点740可以在分布式云计算环境中实施，其中任务由通过通信网络链接的远程处理装置执行。在分布式云计算环境中，程序模块可以位于包括存储器存储装置的本地和远程计算机系统存储介质中。

图7显示了根据本发明实施方案的实例计算环境。服务器/节点740的组件可以包括但不限于一个或多个处理器或处理单元744，系统存储器748，网络接口卡742和总线746，其将包括系统存储器748的各种系统组件耦合到处理器744。总线746表示任意几种类型的总线结构中的一种或多种，包括存储器总线或存储器控制器，外围总线，加速图形端口以及使用各种总线体系结构中的任一种的处理器或本地总线。作为实例而非限制，这样的架构包括工业标准架构(ISA)总线，微通道架构(MCA)总线，增强ISA(EISA)总线，视频电子标准协会(VESA)本地总线和外围组件互连(PCI)总线。计算机服务器/节点740典型地包括各种计算机系统可读介质。这类介质可以是计算机服务器/节点740可访问的任何可用介质，并且它包括易失性和非易失性介质，可移动和不可移动介质。

系统存储器748可以包括易失性存储器形式的计算机系统可读介质，例如随机存储器(RAM)750和/或超高速缓冲存储器755。计算机系统/服务器740可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为实例，可以提供存储系统760用于从不可移动、非易失性磁介质(未示出，典型地称为“硬盘驱动器”或固态驱动器)读取和写入。尽管未示出，但是可以提供用于读取和写入可移动、非易失性磁盘(例如“软盘”)的磁盘驱动器以及用于读取或写入可移动、非易失性光盘的光盘驱动器，例如CD-ROM，DVD-ROM或其它光学介质。在这种情况下，它们各自可以通过一个或多个数据介质接口连接到总线746。如将在下面进一步描绘和描述的，存储器748可以包括至少一个程序产品，该程序产品具有被配置为执行本发明的实施例的功能的一组程序模块(例如至少一个)。具有对应于NACS 100的一个或多个元件的一组(至少一个)程序模块的程序/实用程序770可以作为实例而非限制性地存储在存储器748中，且操作系统780、一个或多个应用程序、其它程序模块和程序数据或其一些组合可以包括网络环境的实现。NACS 100的程序模块通常执行如本文所述的本发明的实施方案的功能和/或方法。

计算机服务器节点740还可以与客户端装置710通信。客户端装置710可以具有一个或多个用户界面718，例如键盘，点击装置，显示器等，一个或多个处理器714，和/或允许客户端装置710-与计算机服务器/节点740通信-与客户端装置710通讯的任何装置(例如网卡712，调制解调器等)。但是，计算机服务器/节点740可以通过网卡742经一个或多个例如局域网(LAN)、广域网(WAN)和/或公共网络(例如互联网)的网络725与客户710进行通信。如所示的，网卡742经总线746与计算机服务器/节点740的其它组件通讯。应当理解，尽管未示出，但是其它硬件和/或软件组件可以与计算机服务器/节点740结合使用。实例包括但不限于：微码，装置驱动器，冗余处理单元，外部磁盘驱动器阵列，RAID系统，磁带驱动器和数据档案库存储系统等。一个或多个数据库730可以存储NACS 100可访问的数据。

在一些实施方案中，NACS 100可以在单一服务器节点740上运行。在另外的实施方案中，NACS 100可以分布于多个并联节点上，其中主计算节点将工作负荷量提供给多个从属节点(未显示)。

现在参考图8，描绘了示例性的云计算环境800。如所示的，云计算环境800包含一个或多个云计算节点805与云消费者使用的本地计算装置，例如，个人数字助理(PDA)或便携式电话810、台式计算机815、膝上计算机820可以通讯。节点805可以彼此通讯。它们可以在一个或多个网络中物理或虚拟地分组(未示出)，例如，如上文所述的个人，社区，公共或混合云，或其组合。这允许云计算环境800提供基础架构，平台和/或软件作为云服务消费者不需要在本地计算装置上维护资源的服务。可以理解的是，图8中所示的计算装置810-820的类型仅旨在是示例性的，并且计算节点805和云计算环境800可以与任何类型的网络和/或网络寻址连接中的任何类型的计算装置进行通信(例如使用网络浏览器)。

现在参考图9，显示了由云计算环境800(图8)提供的一组功能抽象层。应当预先理解，图9中所示的组件、层和功能仅旨在示例，并且本发明的实施方案不限于此。如所描绘的，提供以下层和相应的功能：硬件和软件层910包括硬件和软件组件。硬件组件的实例包括大型机，基于RISC(精简指令集计算机)体系结构的服务器；存储设备；网络和网络组件。软件组件的实例包括网络应用服务器软件，应用服务器软件和数据库软件。虚拟化层920提供抽象层，可以从其提供虚拟实体的以下示例：虚拟服务器；虚拟存储年龄；虚拟网络，包括虚拟专用网络；虚拟应用程序和操作系统；以及虚拟客户端。在一个实例中，管理层930可以提供下面描述的功能。资源供应提供了用于在云计算环境内执行任务的计算资源和其它资源的动态获取。其它功能在云计算环境中利用资源时提供成本跟踪。在一个实例中，这些资源可以包含应用软件许可证。安全性为云消费者和任务提供身份验证，并保护数据和其它资源。用户门户为消费者和系统管理员提供对云计算环境的访问。

工作负载层940提供可以利用云计算环境的功能的实例。可从该层提供的工作负载和功能的实例包括：数据分析处理；神经网络分析等。

涉及图14，提供了描述生成人工神经网络(ANN)以预测患有癌症的可能性的流程图。在操作2310时，可能发生数据预处理(例如数据归一化)。在一些实施方案中，每个生物标志物的浓度值和临床数据可以作为输入提供给ANN之前进行数字预处理。例如，这些值可以被归一化为具有等于0的均值和等于1的标准偏差。归一化数据可以在被提供为ANN的输入之前被随机化。在操作2320时，测试数据集分为测试/训练数据和验证数据，例如70％为训练阶段，30％为验证阶段。在操作2330时，选择参数(例如隐藏层数，节点数量，输入值，输出值，传输/激活函数等)，并为系统创建相应的体系结构。

在操作2340时，训练/测试数据用于训练系统并生成分类器。每个连接之间的初始权重和ANN的偏差设置在开始处，例如以随机方式进行，并且在训练期间通过学习功能来调整权重。选择标准以停止ANN中的训练阶段，例如当均方根误差小于阈值或当正确的分类率满足阈值时。生物标志物的值和临床数据直接参与训练期间ANN模型中连接权重的修改。避免交叉拟合的方法也适用。

一旦训练过程完成，则执行两个操作：(1)在操作2345时，确定输出误差和速率分类；和(2)在操作2350时，确定灵敏度和特异性。如果灵敏度和特异性满足所需的性能标准(例如阈值，例如至少70％的敏感度和80％的特异性)，则在操作2360时训练将停止。另一方面，如果不满足性能标准，则在操作2330时调整参数，并且在操作2340时使用调整后的参数对分类器进行再训练。

如果满足灵敏度和特异性性能标准(例如阈值)，则在操作2370时神经网络被保存。在一些实施方案中，多个神经网络可以满足规定的标准并且可以被保存，随后选择性能最好的神经网络及其相关参数，例如用于临床环境。

在一些实施方案中，基于均方误差训练和最佳分类百分比来选择最优ANN结构。为了确定哪种ANN结构最适合于生物标志物浓度和临床参数的数据集，可以测试具有不同配置的各种ANN，包括一个隐藏层(具有1、2、3等个节点)，两个隐藏层(具有不同的组合，即3-2、5-3、2-6等个节点)或三个隐藏层。仅选择提供正确分类最大可能数量数据的最佳能力的ANN并且被保存。然后使用神经网络对来自验证阶段的数据进行分类，并确定预测能力和灵敏度和特异性(参见操作2380-2390)。

一旦灵敏度和特异性在操作2390时达到期望的性能，则在操作2395时选择神经网络来预测癌症。这种形式可能是静态的，半静态的或不断更新的。

在一些实施方案中，这种配置可以是静态的，这意味着神经网络不是基于收集额外的数据而精制的，并且被部署，例如对于医生的办公室，用于确定患者中癌症的可能性。在其它实施方案中，神经网络基于收集附加数据而不断完善，并且当部署时，例如到医生办公室或用于估计患者中癌症可能性的远程服务器，该模型随着更多数据而不断更新而变得可用。在其它实施方案中，可以定期更新该配置，例如根据规定的时间表。

本文使用的术语仅用于描述特定实施方案的目的，而不旨在对本发明的特定实施方案方面做出限制。如本文所使用的，除非上下文另有明确指示，否则单数形式“一”，“一个”和“该”也旨在包括复数形式。将进一步理解的是，当在本说明书中使用时，术语“包括”和/或“包含”指定所述特征，整体，步骤，操作，要素和/或组件的存在，但不排除存在或添加一个或多个另外的特征，整体，步骤，操作，要素，组件和/或其组合。

下面的权利要求中的相应的结构，材料，行为以及所有装置或步骤加上的功能要素的等效物旨在包括用于结合具体要求保护的其它要求保护的要素执行功能的任何结构，材料或行为动作。提供本文中的实施方案的描述的目的在于示例和描述，但并非旨在穷举或限于本文中公开的实施方案。在不脱离本发明的范围和精神的情况下，许多变型和修改对于本领域的普通技术人员将是显而易见的。选择和描述实施方案是为了最好地解释本发明的原理和实际应用，并且使本领域的其他普通技术人员能够理解具有各种变型的各种实施方案的本发明，以适合于预期的特定用途。

在进一步的示例性实施方案中，本文描述的决策-支持应用程序适用于癌症的早期检测。一方面，决策-支持应用程序利用来自血液生物标志物的数据，专利医疗记录，从医学文献收集的与肺癌风险增加或降低相关的流行病学因素，与从医学文献收集的与肺癌风险增加或降低相关的临床因素以及通过本领域众所周知的各种扫描技术产生的患者x射线和其它图像与从问题问-答系统收集的信息一致的分析，以确定患者相对于适当匹配组的癌症风险。在进一步的方面中，利用机器学习随时间改进该确定，以基于先前的结果改进算法。

另一方面，医学图像包括但不限于基于X射线的技术(常规X射线，计算机体层摄影术(CT)，乳房射线照相术和造影剂的使用)，使用各种放射性药物来使生物学过程可视化的分子成像，磁性成像(MRI)和超声。

另一方面，本文描述的NACS 100提供患者的肺癌风险以及其它非癌症肺疾病可能性的评估。例如，该应用程序可以评估COPD，哮喘或其它疾病的可能性。另一方面，本文所述的应用程序可以同时提供患者多种癌症风险的评估。在另一方面，本申请还可以提供潜在测试的列表，其可以增加每个潜在评估风险的置信度值，并且由于新数据而增加或降低评估的风险。

另一方面，可被分析以评估患者肺癌相对风险的临床和流行病学因素包括但不限于疾病症状，如持续性咳嗽，血性咳嗽或意想不到的体重减轻，放射性结果如来自胸部X射线或CT扫描的可疑结果以及如暴露于空气污染，氡，石棉或二手烟的环境因素，在时间和使用强度方面的吸烟史以及肺癌家族史。

在另一个示例性实施方案中，本文所述的机器学习系统在安全、基于云的临床医师网络出入口中提供结果。

本领域技术人员认识到本文公开的实施方案可以使用能够机器学习和自然语言处理的任意高级应用程序实施。

本文引述的全部参考文献作为引用以其完整的形式并入。

实施例

给出下面的实施例是为了示例本发明的一个或多个实施方案的实施，并且预期对于本文中呈现的实施方案是非限制性的。

实施例1

使用大数据集训练癌症系统的神经分析(NACS)

在来自中国台湾的研究中采集来自数万名患者(约41,000位参与者)的生物标志物数据(Wen,Y.H.,“Cancer screening through a multi-analyte serum biomarkerpanel during health check-up examinations:Results from a 12-year experience”Clinica Chimica Acta 450(2015)273-276)。使用来自Abbott Diagnostics的试剂盒测定肿瘤标志物AFP、CA 15-3、CA125、PSA SC、CEA。使用来自Roche Diagnostics的试剂盒测定肿瘤标志物CYFRA 21-1和CA 19-9。使用来自Siemens Healthcare的试剂盒测定肿瘤标志物CEA。该数据集可以用作NACS 100的训练数据集。将该患者数据结合来自一个或多个另外的地理和遗传多样性管辖区的可比数据与临床结果一起储存在一个或多个电子医学记录数据库(例如EMR db 10)中，所述临床结果即在生物标志物测试的约1年内是否检测到癌症，且如果检测到，则癌症是何种类型。来自Wen等人的训练数据特别地用于泛-癌筛查(即测试无症状患者的一系列肿瘤类型，包括胰腺、肝和前列腺肿瘤)。

还在来自Barcelona Spain的研究中采集了数以千计的患者(约3,000名患者)的生物标志物数据(Molina,R.,“Assessment of a Combined Panel of Six Serum TumorMarkers for Lung Cancer”Am.J.Respir.Crit.Care Med.(2015)]。在本研究中，使用来自Roche的试剂盒测定肿瘤标志物CEA、CA 15.3、CYFRA 21.1和NSE，并且使用来自AbbottDiagnostics的试剂盒测定SCC和ProGRP。该数据集还可以用作NACS 100的训练数据。

该患者数据连同来自一个或多个其它辖区的用于地理和遗传多样性的可比数据以及临床结果一起被存储在一个或多个电子医疗记录数据库(例如EMR db 10)中，所述临床结果即在生物标志物测试的约一年内是否检测到肺癌。当患者有模糊或模棱两可的征兆或肺癌症状时(例如咳嗽，胸痛等)，来自Molina等人的训练数据对于帮助诊断肺癌特别有用。

相应的患者医疗信息/历史也可以存储在EMR db 10中，使得对于参与该研究的每个患者，还存在一个或多个以下类型的数据或参数：年龄，吸烟史，性别，家族史(例如一级亲属在50岁以前被诊断为癌症等)和症状(如无法解释的体重减轻，疲劳，持续性咳嗽，腹痛，胸痛等)。典型地，需要大量患者的数据来进行NACS 100的充分训练。

癌症系统的神经分析(NACS)100可以使用例如神经网络NN2a和NN2b来访问该数据，以确定数据是否清洁，例如是否存在任何缺失，有问题或自相矛盾的数据。缺失的数据可以根据对风险分数的潜在影响进行排序，并且纠正高影响的数据。NACS 100确定是否有足够的信息来确定风险分数，如果是，则系统继续分析数据。根据需要，数据是匿名的。

一旦数据足够清洁，则神经网络NN3就提取数据并根据数据类型分离数据。在一些实施方案中，数据可以分成非结构化数据140(例如基于文本的数据，包括医生笔录等)，临床和数值数据150(例如症状，年龄，性别，吸烟史，家族史等)。在存在成像数据155和生物标志物速度145信息的情况下，这两种类型的数据也可以分开。临床和数值数据150被提供给主神经网络NN12；生物标志物速度145被提供给神经网络NN9用于分析，非结构化数据140被提供给神经网络NN8用于分析，且成像数据被提供给NN10用于成像分析。神经网络NN8、NN9和NN10的输出提供给NN12进行分析。

神经网络NN11分析数据集以确定构建组群的参数。各种统计技术，例如聚类(clustering)等，都可以用作该分析的组成部分。在一些实施方案中，NACS 100可基于提供的一个或多个输入值来确定组群，所述输入值是例如年龄或年龄范围，吸烟史，性别等。NACS 100，例如主神经网络NN12分析各种输入值，包括如可利用的临床和数值数据(包括生物标志物数据)，非结构化数据，成像和生物标志物速度数据，并生成与对应于发生癌症的风险水平的风险类别(基于风险分数)。这些风险类别可用于确定个体患者的风险水平，如下文实施例所述。

实施例2

使用NACS确定肺癌存在风险

可以收集来自个体患者的数据，例如通过网络申请表格，例如表A中提供的实例形式。可以通过网络应用程序收集包括临床/数字人口统计数据，成像诊断和相应的文本注释以及生物标志物数据的患者信息并存储在电子记录db中。

表A

基于从该表格收集的信息，NACS 100可以分析该数据，确定组群(来自训练数据集)，构建风险类别并为患者生成相应的风险分数。基于患者被归入的类别，根据风险分数，可以计算患有癌症的可能性。

因此，作为输出，NACS 100可生成报告，指示个体患者相对于患者组的风险。风险可以作为百分比、乘数或任何等效物报告。报告还可能列出一个误差界限，例如72％的概率加上或减去10％。

通常，报告将列出用于构建组群的参数。例如，如果NACS 100确定组的参数是性别，年龄范围，家族史和吸烟史，则报告列出组参数，例如男性，年龄50-60岁，10年吸烟史，每天2包，亲属(父亲)60岁时死于肺癌。应当理解，这些群组参数是一个例子，并且可以由NACS 100选择许多其它群组参数，例如基于输入到系统中的任何组合。

在一些实施方案中，提供群组大小，例如群组可以是525个个体。此外，可以提供遗传风险因素列表，例如来自遗传检测的突变，例如[EGFR，KRAS]，家族史和生物标志物分数[生物标志物和相应浓度(如果适用))，例如CYFRA 8ng/ml、CA 15-3 45U/ML]。

因此，可以将来自个体患者的生物标志物数据提供给NACS 100，并且NACS 100可以分析该数据(例如临床和数值数据，症状等)以输出患者患有癌症的预测可能性的报告。

实施例3

人工神经网络(ANN)的训练

存在许多不同类型的ANN，其可用于模拟或预测数据，其中依赖变量与独立变量之间的相关性是非线性的或难以拟合至方程。例如，有至少25种不同类型的ANN，其中每种类型可以基于不同的选定参数提供不同的结果，包括但不限于：训练算法，激活/传递函数，体系结构(例如，一、二、三个或更多隐藏层；一个、两个、三个或更多输入作为输入层的一部分；一个、两个、三个或多个输出作为输出层的一部分)。

在本实施例中，图14的流程图被用来训练人工神经网络。前馈网络、模式识别网络被选定为用于分类癌症患者和对照受试者的特定类型的神经网络。本实施例中用于设计ANN的软件是MATLAB^TM。但是，可以使用任何适合的软件。

为了训练ANN，来自具有新诊断的肺癌的344位患者和处于发生肺癌的高危中、但无肺病史的105位受试者的生物标志物CA 19-9、CEA、Cyfra 21-1、NSE、Pro-GRP、SCC和临床参数：吸烟状态、吸烟指数、患者年龄、肺癌家族史和重新编码的has症状(recoded hassymptom)用作输入至网络。对于症状，变量(重新编码的has症状)频繁具有高比例的缺失信息，在一些病例中，90％以上的患者数据缺失。在一些实施方案中，用Roche装置测试CEA、NSE、CYFRA 21-1、CA19-9，并且用Abbott Architect i2000装置测试Pro-GRP和SCC。使用6个生物标志物的制造商的截止值，例如CEA>＝5ug/L；CYFRA 21-1>＝3.3ug/L；NSE>＝25ug/L；SCC>＝2ug/L；CA19-9>＝37u/mL和Pro-GRP>＝50ng/L。

下表1中提供了至神经网络的输入数据的实例。

表1.

选择两个输出：1)患有肺癌高概率的那些；和2)患有肺癌低概率的那些(对照受试者)。

在一些实施方案中，每个生物标志物的浓度值和临床数据在被用作ANN的训练的输入之前被数字化地预处理。将这些值归一化为具有等于0的平均值和等于1的标准偏差，例如使用函数“mapstd”。随后，归一化的数据在被用作ANN的输入之前被随机化。将数据集使用“divideind”功能进行划分如下：训练期为70％，验证期为30％。

对于输入层，使用上述生物标志物和临床数据。对于隐藏层，使用切向激活函数，例如非线性切向S形激活函数。对于输出层，使用线性激活函数，范围从0-1，例如线性“purelin”激活函数。使用缩放共轭梯度算法来训练ANN。

可以使用其它算法，包括但不限于：Levenberg-Marquardt(LM)，BFGS Quasi-Newton(BFG)，反弹反向传播(Resilient Backpropagation)(RP)，具有Powell/Beale再启动的共轭梯度(Conjugate Gradient with Powell/Beale Restarts)(CGB)，Fletcher-Powell共轭梯度(Fletcher-Powell Conjugate Gradient)(CGF)，Polak-Ribiére共轭梯度(Polak-Ribiére Conjugate Gradient)(CGP)，一步正割(One Step Secant)(OSS)和变量学习率反向传播(Variable Learning Rate Backpropagation)(GDX)。

基于均方误差训练和最佳分类百分比来选择最优ANN体系结构。确定哪种ANN结构最适合生物标志物浓度和临床参数的数据集。为了确定最佳ANN，测试了大约800个具有不同配置的ANN：具有一个隐藏层(例如1、2、3个神经元等)，两个隐藏层(例如不同组合，即3-2、5-3、2-6等个节点)和三个隐藏层。选择并保存了提供正确分类数据的最大可能数字的最佳能力的ANN。选择最佳架构作为具有最低训练误差和较高分类百分比的架构。下表2显示了神经网络系统测试的不同配置(隐藏层的数字和每层节点的数字)的例子。

表2.

ANN的每个连接和偏差之间的初始权重被设置在开始处(随机化)，并且在训练期间权重通过学习函数被调整：具有动量权重/偏差学习的梯度下降。用于停止每个ANN训练期的标准是当均方根误差小于0.09或正确分类率等于或大于80％时。生物标志物和临床数据的值直接参与训练期间ANN模型中连接权重的修改。为了避免过度拟合，使用了10倍交叉验证。

使用600名受试者评估验证期中的ANN的表现：具有肺癌诊断459名和无肺癌141名。绘制ROC曲线并计算AUC、灵敏度和特异性。将使用生物标志物的最佳组合的ANN的灵敏度与任意生物标志物高(any Biomarker High)进行比较。另外，绘制仅使用生物标志物的多变量逻辑回归(MLR)和使用生物标志物和临床参数的组合的另一种MLR。在相关临床值的特异性(80％)下，以接收器操作者特征(ROC)曲线为基础进行比较。

来自具有不同架构的800个ANN的13个ANN显示出最佳结果。从这13个ANN中，使用600个受试者的整个数据集来测试具有不同隐藏层和神经元/节点的数字的ANN(即，称作网络，网络4，网络5，网络6，网络9和网络11的ANN)：具有肺癌诊断的459个，无肺癌的141个。下表3中提供了表现最好的神经网络的概述：

表3.

在测试期以最佳分类性能训练的最佳ANN为网络4并且分别具有带有5和20个神经元的2-隐藏层的配置。该ANN正确分类89.3％(600个受试者中的536个)。曲线下面积为0.91。在ANN的ROC曲线中特异性为80％的灵敏度为90.2％(参见例如图15D)。参见表1使用的临床因素和所测试的六种生物标志物。

当特异性增加至92.0％时，灵敏度未受损，并保持在88.0％的值(数据未显示)。以下表4显示了对于数据集(600个受试者)选择的ANN的正确和不正确分类，AUC，灵敏度和特异性的数字。

表4.

将该模型与其它模型比较，参见，例如图15A-15C和实施例4。

实施例4

统计学模型与ANN的比较

根据本发明的实施方案，利用各种统计和机器学习方法来将个体分类为患有肺癌或不患有肺癌症的个体(图15A-15D)。在80％特异性下，确定基于单一生物标志物评估患者患有癌症的可能性的灵敏度，例如称为任意生物标志物高。例如，使用这种方法的灵敏度相对较低，例如对于给定的生物标志物，发现灵敏度为51％(图15A)。在该模型中，当超过文献公认的指示癌症存在的阈值时，任何测量的生物标志物(例如表6的那些)被认为是“任意标志物高”(“Any Marker High”)，并且患者被归类为患有癌症。例如，表1的生物标志物的截止值是：CEA>＝5ug/L；CYFRA 21-1>＝3.3ug/L；NSE>＝25ug/L；SCC>＝2ug/L；CA19-9>＝37u/mL和Pro-GRP>＝50ng/L。

在另一个实施方案中，在80％特异性下，基于六种生物标志物和使用多变量逻辑回归来确定评估患者患有癌症的可能性的灵敏度。参见图15B。在这种方法中，基于以下等式y＝β₀+β₁x₁+β₂x_2…+β_nx_n，使用一条线将数据点群体分为两类。典型地，使用这种方法的灵敏度相对较低，例如对于六种给定的生物标志物，发现灵敏度为70.4％。在这种情况下，生物标志物是CA 19-9、CEA、Cyfra 21-1、NSE、Pro-GRP、SCC。

在另一个实施方案中，在80％特异性下，基于六种生物标志物结合临床因素和使用多变量逻辑回归来确定评估患者患有癌症的可能性的灵敏度。参见图15C和表1列出的临床因素和生物标志物。在这种方法中，根据以下等式y＝β₀+β₁x₁+β₂x₂…+β_nx_n，使用一条线将数据点群体分为两类。与六种生物标志物模型类似，使用该方法的灵敏度相对较低(但是比仅测量六种生物标志物的组更好)，例如对于六种给定的生物标志物和临床因素，发现灵敏度为75.6％。在这种情况下，生物标志物是CA 19-9、CEA、Cyfra 21-1、NSE、Pro-GRP、SCC，且临床因素是吸烟状态，吸烟指数，患者年龄，肺癌家族史和重新编码的has症状。

在又一个实施方案中，在80％特异性下，基于六种生物标志物结合临床因素和使用人工神经网络工程来确定评估患者患有癌症的可能性的灵敏度。参见图15D。神经网络将患者分类为可能患有癌症或不可能患有癌症。

在本实施例中(另外参见图15D和实施例5)，使用前馈模式识别神经网络工程将患者分类为可能或不可能患有肺癌。对ANN的输入包括生物标志物：CA 19-9，CEA，Cyfra 21-1，NSE，Pro-GRP，SCC；和临床参数：吸烟状态，吸烟指数，患者年龄，肺癌家族史，和可利用时的重新编码的has症状。将神经网络工程的输出提供为：(1)可能患有肺癌；(2)不可能患有肺癌。通过这种方法获得了明显的灵敏度改进，其中灵敏度大于90％，且因此比图15A-15C的任何其它方法更好。在实施方案中，其中患者被认为可能患有肺癌，然后将他们推荐用于诊断测试，例如CT测试。

总之，与具有51％灵敏度的任意生物标志物高(图15A)相比，特异性为80％的ANN使灵敏度增加39.2％。特异性为80％的ANN比仅结合6个生物标志物的具有灵敏度为70.4％的MLR提高了19.8％的灵敏度。与结合6个生物标志物和临床因素的显示75.6％敏感度的MLR相比，特异性为80％的ANN使灵敏度提高了14.6％。ANN、任意生物标志物高、MLR(仅生物标志物)、MLR(生物标志物加临床因子)的曲线值下面积分别为0.91、0.76、0.84和0.87。

实施例5

疾病的新预测指标的鉴定

在一些实施方案中，神经网络可以用来识别疾病的新预测指标。例如，可以选择本申请中公开的新型生物标志物或临床因素或其它类型的输入(例如来自文献，来自环境等)以作为神经网络的输入，并且可以确定新输入是否可预测肺癌。在这类情况下，新的输入可能与肺癌没有任何以前已知的相关性。

例如，新的输入被选为神经网络系统的输入。根据实施例3和图14对神经网络进行训练。确定与没有新输入的神经网络相比灵敏度是否增加，保持大致相同，或者降低。如果灵敏度增加，则新的输入可以作为疾病的预测指标。

作为具体例子，选择继发性疾病作为神经网络系统的输入。参见例如，LungCancer and peripheral vascular surgery(1983) Beachamp G.等人Can J.Surg 26(5):472-4。根据实施例3和图14对神经网络进行训练。确定与没有继发性疾病的神经网络相比，灵敏度是增加、保持大致相同、还是降低。如果灵敏度增加，则继发性疾病可能成为疾病的预测指标。另外，这些技术可用于鉴定疾病例如肺癌与和肺癌相关或共存的疾病之间的新型相关性。

例如，使用本文提供的技术，可以用于确定肺癌和外周血管病通常相关，例如患有肺癌的患者也可能患有外周血管病。

实施例6

排序输入因素

在一些实施方案中，神经网络可以用来对疾病的输入因素进行排序，以鉴定哪些输入为疾病的最大预测因素。例如，本申请中公开的任意数量的新生物标志物，临床因素或其它类型的输入(例如来自文献，来自环境等)可以被选择为神经网络的输入(例如数十，数百，数千)，且神经网络可以用来确定哪些输入子集是最能预测肺癌的。在某些情况下，最具预测性的输入可能与此疾病例如肺癌没有之前已知的关联或相关性。

表B：用于预测肺癌的生物标志物和临床因素的排序

	重要性指数
		cyfra	18.27887711
cea	17.70786983
		吸烟_持续时间	16.50408067
结节	15.37358411
		nse	10.77973493
grp	8.153103186
		年龄	7.903903228
scc	6.183531192
		ca	5.689815943
吸烟_状态	3.943065227
		咳嗽	3.199732643
症状	2.623152619
		历史	1.613154169
包	0.362940835
		每日的香烟量	0.226657039

实施例7

临床因素+血清生物标志物优于任一单独的方法

传统上，临床医师判断已经形成了肺癌风险评估、患者咨询和决策制定的基础。然而，由于主观和客观的混杂因素，临床医师的估计往往是有偏差的。为了缓解这一问题并获得更准确的肺癌预测，在过去的十年中已经开发了数十个多生物标志物组以更好地评估肺癌的存在。

根据本文提供的实施方案，发现认知计算/机器学习方法模型进一步改善了肺癌风险评估中的准确度。

统计模型可以提供辅助处理大量的变量(生物标志物值和临床因素)。几种不同的统计方法已经应用于区分患有肺癌的患者与非肺癌患者，例如多变量逻辑回归(MLR)，随机森林(RF)，分类和回归树，支持向量机(SVM)等。这些方法已被用于开发算法，这些算法结合组中最具预测性的生物标志物的测量结果以实现最高的诊断准确度。本发明实施方案的一个目标是开发结合临床因素的生物标志物组，其也可包括额外的输入，其具有成本效益，并且可以在全球部署，甚至在世界上医疗系统受限于使用机器学习技术(例如神经网络工程或深度学习神经网络工程)的成本的地区。因此，开发一个具有成本效益的平台将是有益的。

当前研究的目标是确认生物标志物的组对独立数据集的准确性，以探索相对于并结合临床风险预测因素的准确度，重点关注与肺癌筛查相关的风险患者，并进一步研究一种先进的多参数统计算法是否可以实质性地改善我们肺癌检测的诊断准确性。

方法

训练组血清样品

在训练组中使用的所有癌症和正常对照样品都是IRB批准的许可的血清样品，其购自Clinical Research Center of Cape Cod,Inc.(Cape Cod,MA),Asterand(Detroit,MI),Indivumed(Germany)或Bioreclamation IVT(New York,NY)。所有的肺癌样品均在临床医师的办公室或医院采集。

所有肺癌和对照血清样品来自50岁或以上年龄的患者，他们是现吸烟者或曾吸烟者，其中吸烟史大于20的吸烟指数和小于15年的戒烟期。肺癌群组的诊断从手术病理报告中得到证实。对照组没有证据显示当前或以前的癌症。

测试组血清样品

在测试组中使用的所有癌症和正常对照样品得自Cleveland Clinic的IRB批准的血液生物储存库。所有患者都提供了书面知情同意书。所有肺癌病例均经活检证实且未经治疗。对照患者样品得自就诊于肺癌筛查诊所或普通肺科诊所的患者。

样品分析

如上所述使用来自EMD Millipore,Inc.的试剂进行患者血清中CEA、CYFRA21-1、CA125和HGF的基于多路磁珠的免疫测定(Mantovani等人,Chemo-radiotherapy in lungcancer:state of the art with focus on the elderly population.Ann Oncol.2006；17(增刊2):ii 61-63.6.)。使用MAP人循环癌症生物标志物磁珠组1。如上所述[Moyer VA；US Preventive Services Task Force.Screening for lung cancer:USPreventive Services Task Force recommendation statement.Ann Intern Med.2014；160(5):330-338]使用仪器(Luminex Corporation,Austin,TX)测定4种肿瘤蛋白(CEA、CYFRA21-1、CA125和HGF)。使用中值荧光强度(MFI)值和5-参数逻辑曲线拟合方法(用于的软件)，计算样品中每种肿瘤蛋白的浓度。计算的蛋白质浓度值用于随后的分析。

使用在20/20 Gene Systems,MD研发的免疫测定法和如上所述的读出器[同上]进行NY-ESO1自身抗体检测。背景扣除的MFI值用于随后的分析。

统计学分析

基于癌症或对照结果将研究群组分成2个组。如果适合，使用样品平均值与标准偏差或比例描述人口统计数据、并存病(comorbidity)和癌症特征。

多变量逻辑回归分析：为了确定每个生物标志物对结果的影响的直接和统计学意义，我们对全部数据集进行了多变量逻辑回归(MLR)分析。每个MLR模型包括5个生物标志物。对于基于模型构建的ROC曲线计算AUC。对根据阶段和组织学分开并且在包括临床变量后的测试组进行探索性MLR分析。临床变量包括年龄、性别、COPD的临床诊断和吸烟史。

随机森林分析：随机森林(RF)模型用于鉴定与癌症相关和癌症预测的变量(BachPB,Mirkin JN,Oliver TK,Azzoli CG,Berry DA, Brawley OW,等人Benefits and harmsof CT screening for lung cancer:a systematic review.JAMA.2012；307(22):2418–29.doi:10.1001/jama.2012.552)。为了避免MLR模型可能的过度拟合，我们使用反复的随机-分开交叉验证方法(Croswell JM,Kramer BS,Kreimer AR,Prorok PC,Xu JL,BakerSG,等人Cumulative incidence of false-positive results in repeated,multimodalcancer screening.Ann Fam Med.2009；7:212–22)。特别地，我们将数据随机分成训练(70％)组和验证(30％)组100次。对于每个训练组建立RF模型且然后对相应的测试组评估。将验证结果报告为所有测试组中的平均性能。对根据阶段和组织学分开和包括临床变量后的测试组进行探索RF分析(如上所述)。

结果

训练组由604个患者样品组成(268个患有肺癌，336个对照)。患有肺癌的那些的151个(56.3％)具有腺癌，且268个肺癌的144个(53.7％)处于I期。测试组由400个患者样品组成(155个患有肺癌，245个对照)。患有肺癌的那些的74个(47.7％)具有腺癌，且155个肺癌的52个(33.5％)处于I期(表5)。

表5.训练和测试组中癌症和对照患者的临床特征

训练组结果显示，所研究的生物标志物的组合比单独考虑的单个生物标志物更精确(组AUC 0.80与个体AUC 0.45-0.71)。使用生物标志物值对训练组建立逻辑回归模型，然后将其应用于验证组。验证组中的4种生物标志物的组的诊断准确性与训练组相差无几(AUC 0.81)。

对于结合临床因素和生物标志物值的算法开发，训练样品的可利用的元数据(meta-data)较少。因此，为了评估一种结合生物标志物和临床数据的算法方法，仅对验证组样品(n＝400)进行进一步分析。

表6.使用生物标志物和临床因素的逻辑回归(LR)和随机森林(RF)模型性能

在探索性分析中，从验证组中的临床变量(年龄，性别，COPD，吸烟史)构建的多变量逻辑回归(MLR)模型具有0.68的AUC。当与4种生物标志物的组组合时，AUC为0.86(表6)。类似地，单独的临床因素和生物标志物值的随机森林(RF)建模分别产生0.66和0.84的平均AUC。当与4种生物标志物的组组合时，AUC改善为0.87(表6)。

来自Cleveland Clinic(n＝400)的验证样品组具有显著数量的样品，其不符合USPTF或PAULA测试的指示标准。“PAULA测试”(用于肺癌算法的蛋白质分析物(ProteinAnalytes Used for Lung cancer Algorithms)的缩写)测量血清抗原，自身抗体和几种临床因素的水平，所述临床因素包括患者年龄，吸烟史和先前的肺部疾病。该试验旨在用作来自未接受年度CT扫描的高危人群中无症状个体的非小细胞肺癌(NSCLC)(例如吸烟指数为20的当前吸烟者或少于15年前戒烟的过去的吸烟者，且年龄在50岁以上)的初始筛查患者。具体而言，样品包括吸烟史的变化，包括一些从不吸烟的人。一些患者的吸烟史低于20的吸烟指数(且根据USPTF<30的吸烟指数)。有些患者年龄在50岁以下(和55岁以下或80岁以上，按照USPTF)。

使用随机森林统计分析，我们评估了由单个预测因素产生的改善，并且鉴定了生物标志物和临床因素两者中显得最重要的分类器组：CEA，CA-125，CYFRA和NYESO-1，年龄，吸烟史，吸烟指数和COPD。在符合PAULA测试选择标准(例如吸烟指数为20的当前吸烟者或少于15年前戒烟且年龄超过50岁的过去的吸烟者)的人群中，该组的表现优于包括50岁以下和吸烟指数为20以下的吸烟者在内的更广泛人群(表7)。在大致相同的特异性(79％比80％)下，在更广泛的人群中灵敏度从81％降至74％。但是，应当注意，样品大小(400与216)也可能影响结果之间的差异。

表7.PAULA测试选择标准和较宽人群中人群的测试行为

	组大小	AUC*	灵敏度％	特异性％
					全部患者	n＝400	0.845	74	79％
PAULA测试选择标准内的患者	n＝216	0.887	80	80

图16A-16B显示符合PAULA测试选择标准的患者群组中测试分数的分布。对于这项分析，我们排除了从不吸烟者和信息缺失者，并将患者群组限制在PAULA的测试选择标准。这些附图显示了使用RF模型的PAULA测试分数的分布(CEA，CA-125，CYFRA和NYESO-1，年龄，吸烟史，吸烟指数和COPD)：16A，方框和虚线图。16B，散点图。图16B中的水平线显示了从验证集结果导出的0.43的PAULA测试截止值。

表8 肺癌阶段合并的生物标志物-临床因素组的表现

使用对应于80％的固定特异性(0.43)的测试截止值，我们按阶段评估了两组患者中组合的组的准确性。对应于PAULA测试选择标准的患者早期(I和II)的检测灵敏度高于更广泛人群-83.5％与70.1％(表8)。

我们还使用来自Cleveland Clinic(n＝400)的整个验证组探索了用于测试性能评估的深度神经网络工程(DNN)建模方法。为了建立DNN模型，我们首先鉴定输入变量，其包括临床因素和生物标志物。然后，我们应用了2个隐藏层，第一层中有1000个节点，第二层中有5000个节点。DNN法采用Tanh激活函数。以70％的数据点作为训练数据集，和30％的数据点作为测试组，DNN模型比随机森林(0.88)和逻辑回归(0.87)模型产生更高的AUC(0.89)(表9)。

表9.使用生物标志物和临床变量以及不同建模方法(LR、RF和DNN)的PAULA测试结果比较

讨论

目前的研究验证了处于患有肺癌风险的人群中组合的蛋白和抗体组的临床准确性，并且探索了将临床和生物标志物变量组合对测试准确度的影响。本研究的预期应用人群是处于患有肺癌风险中的患者。结果表明标志物的组合比单独的任何标志物更准确。在探索性分析中，通过将PAULA测试选择标准(50岁或以上的当前吸烟者，或吸烟指数大于20(a smoking history of greater than 20 packs per year)且少于15年戒烟的以前吸烟者)内的患者的临床特征和生物标志物结果组合实现了最高准确度。基于随机森林统计算法，该测试产生以下性能：当考量两种生物标志物值(CEA，CYFRA，CA125和NY-ESO1)和临床因素(年龄，吸烟史，吸烟指数和COPD状态)时，80％灵敏度，80％特异性，0.88AUC。

为了追求临床实用性测试，应当确定该研究的结果是否支持该生物标志物作为早期检测工具的进一步开发。测试的准确性应当支持潜在的应用。为了估计在临床实用研究中证明投资的准确性，已经提出了一个公式，该公式并入了公认益处：当前标准实践的损害平衡[(Pepe MS,Janes H,Li CI,Bossuyt PM,Feng Z,Hilden J.Early-phase studies ofbiomarkers:What target sensitivity and specificity values might conferclinical utility？Clin Chem 2016；62(5):737-742.)。如果我们使用这个公式来确定测试的准确性，这将允许我们使用该测试的结果从具有患有肺癌发病率0.2％的人群中选择进行肺癌筛查的患者，并且推定我们目前接受筛查人群的癌症发病率为0.83％(在National Lung Screening Trial筛查年期间的发病率[The National Lung ScreeningTrial Research Team.Reduced lung-cancer mortality wi th low-dose computedtomographic screening.N Engl J Med.2011；365:395–409.doi:10.1056/NEJMoa1102873])，测试的TPR(真阳性率或灵敏度)/FPR(假阳性率或(1-特异性))将不得不至少为4。基于此分析，当前研究中生物标志物组的精确度(例如80％特异性(RF模型)下的灵敏度为80％或82％特异性(DNN模型)下的灵敏度为90％)满足最小生物标志物组的性能(TPR/FPR＝4)，从而支持测试的进一步开发作为筛选工具。此外，该测试的成本将远低于目前可得到的大部分基于组学(omics)的测试平台。在考量开发筛选测试时，这也是重要的。

我们还基于来自该研究的结果开发了风险分类工具。该测试从随机森林模型生成综合分数，所述随机森林模型包含4个临床参数和患者血清中4种生物标志物的水平。该分数是每个目前患有肺癌的患者相对于其他具有可比吸烟史的患者的风险水平的指标。使用两个截断点(0.43和0.62)，将测试结果分为三个独立的具有增加风险因素的类别(表10)。表10显示了在测试时给定分数范围内的患者肺癌的概率。阳性预测值(PPV)是阳性测试分数高于所选截止值的人确实患有该疾病的概率。与灵敏度和特异性不同，PPV依赖于正在测试的人群，并且受疾病发病率的影响。对于PPV计算，我们使用来自NLST研究中的0.83％肺癌患病率[The National Lung Screening Trial Research Team.Reduced lung-cancermortality with low-dose computed tomographic screening.N Engl J Med.2011；365:395–409.]。表10显示，在PAULA测试时患者得分越高，则该患者患癌症的可能性就越大。

表10. 3个单独的分数类别的测试PPV

分数范围	灵敏度	特异性	PPV
				X≥0.62	55.1％	95.3％	8.89％
0.43≤X<0.62	62.2％	84.0％	3.16％
				X<0.43	100.0％	0.0％	0.83％

在0.43的截断值以下，该测试将不区分癌症与非癌症。分数落在该范围内的个体患肺癌的可能性与USPTF目前推荐用于LCDT的人相同(0.83％)。分数落在中间范围内的个体患肺癌的可能性为USPTF当前推荐用于LCDT的个体的3.8x高。最终，得分落在高范围内的个体患肺癌的可能性为目前USPTF(US Preventative Services Task Force)推荐用于LCDT的个体的10.7x高。使用这样的分类表所呈现的测试结果将通知临床医师在有关测试的阳性结果后患者患有肺癌风险的大致程度。

目前研究的优势包括来自与潜在临床应用有关的群组的适度大数量的样品，其中样品得自多于一种的来源。样品组包括主要部分的早期疾病病例，和多种组的相关患者并存病，这支持该方法的稳定性。将结果与临床预测比较且比临床预测更准确，并且标志物结果与临床特征的组合改善了两者的准确性。只对来自Cleveland Clinic的验证组进行探索性分析。

总之，本研究验证了与肺癌筛查相关的人群中的一组蛋白质和自身抗体的准确性，并且表明将临床特征与生物标志物结果相结合的益处。

实施例8

肺癌生物标志物表达和临床参数变量的研究

The National Lung Screening Trial(“NLST”)显示低剂量CT(LDCT)筛选程序可将高危患者的疾病特异性死亡率降低20％，且总死亡率降低7％，这证明早期肺癌检测可挽救生命(并被认为可降低终身疾病特定医疗成本)[The National Lung Screening TrialResearch Team.Reduced lung-cancer mortality with low-dose computedtomographic screening.N Engl J Med.2011；365:395–409.doi:10.1056/NEJMoa1102873]。然而，LDCT的主要缺点包括假阳性率高和无法明确区分良性结节，这可能涉及昂贵的侵入性随访程序[Bach PB,Mirkin JN,Oliver TK,Azzoli CG,Berry DA,Brawley OW,等人Benefits and harms of CT screening for lung cancer:asystematic review.JAMA.2012；307(22):2418–29；Croswell JM,Kramer BS,Kreimer AR,Prorok PC,Xu JL,Baker SG,等人Cumulative incidence of false-positive resultsin repeated,multimodal cancer screening.Ann Fam Med.2009；7:212–22；Wood DE,Eapen GA,Ettinger DS,等人Lung cancer screening.J Natl Cancer Compr netw 2012；10:240-265]。假阳性LDCT结果发生在主要筛查人群中；全部阳性结果的95％不会导致癌症诊断。大部分肺病专家认为需要生物标志物测试来肯定射线照相筛查，因为LDCT实现了其最终的稳态应用。

具有肺结节且证实为肺癌(肺癌测试组)的459位当前和以前的(过去15年内停止)吸烟者和具有证实为良性肺结节的139位匹配的对照组成的群组参与本研究。所有参与者都是50岁或以上，其具有20或以上的吸烟指数的吸烟史。所有受试者在射线照相筛查6周内献血用于生物标志物的测量。使用射线照相筛查来表征肺结节，包括大小和数字。相关的患者信息包括年龄，性别，种族，最终诊断包括肺癌和组织学类型，肺癌家族史，吸烟指数，每日包数(例如吸烟强度)，吸烟持续时间(年)，吸烟状态，症状，咳嗽(是或否)和痰中带血。

人口统计和临床信息

对于对照组，中位年龄是58岁，91％是男性(9％是女性)，50％是无症状的，且9％具有肺癌家族史。对于试验组(确诊为肺癌)，中位年龄为62岁，男性91％(女性9％)，无症状者43％，且8％具有肺癌家族史。试验组和对照组之间的吸烟史类似，两组均具有40的吸烟指数中位值。在对照组中，87％为当前吸烟者，戒烟后的中位年龄为53.5岁且自戒烟以来有3年，与之相比，试验组中89％戒烟后的年龄中位值为60岁且自戒烟以来有4年。在肺癌组中，44％被分期为早期(I期和II期)，且56％为晚期(III期和IV期)。肺癌分型为：腺癌40％，鳞状细胞癌34％，小细胞癌19％，大细胞癌4％，且其它为3％。

使用来自Roche Diagnostics的市售试剂和免疫测定技术测量血清生物标志物。测量的生物标志物包括CEA，CA 19-9，CYFRA 21-1，NSE，SCC和ProGRP，并且将水平作为测试值报告。获得的临床参数包括肺癌家族史，结节大小，吸烟指数，每日包数(或吸烟强度)，研究时的患者年龄，吸烟持续时间(年)，吸烟状态，咳嗽(二元)，血液。

表11：良性结节(对照组)

生物标志物	中位值(蛋白质或单位)
		CA 19-9	9
CEA	2
		CYFRA	2
NSE	11
		Pro-GRP	34
SCC	1

表12:肺癌(测试组)

分析

在单变量逻辑回归模型和共同在多变量逻辑回归模型中分析那些变量的每一个(生物标志物或临床参数)。在下文中将变量分析提供为接收器操作特征(ROC)曲线的曲线下面积(AUC)。

表13：生物标志物和临床参数分析

进一步分析生物标志物，从而比较具有和不具有临床参数的6-标志物组和5-标志物组。根据生物标志物组计算AUC值，并且将临床参数组与生物标志物组+临床参数比较，显示将临床参数变量添加到多变量逻辑回归模型分析中的改善。在测试的生物标志物中，4种对区分良性与恶性结节的分析做出贡献；它们为CEA、CYFRA、NSE和ProGRP。在测试的临床参数中，6种对区分良性与恶性结节的多变量分析做出贡献；它们为患者年龄、吸烟状态、吸烟史(包括吸烟指数、以年计的吸烟的持续时间和吸烟强度)、胸部症状(例如胸痛、痰中带血、胸部紧迫感)、咳嗽和结节大小。

表14：6-生物标志物组和临床参数分析

¹使用MOM方法归一化的值

²多变量逻辑回归分析

³年龄、吸烟状态、吸烟史(吸烟指数和每天的包数)、胸部症状、咳嗽、肺癌家族史和结节大小。

⁴逐步MLR分析；CEA、CYFRA、NSE和Pro-GRP；年龄、吸烟状态、吸烟指数、胸部症、咳嗽和结节大小

表15：5-生物标志物组和临床参数分析

⁵使用MOM法归一化的值

⁶多变量逻辑回归分析

实施例9

良性与恶性肺结节之间区分的多标志物算法

将来自实施例1的459位当前和以前(在过去15年内停止)具有肺结节的吸烟者的组扩展到总计1005位受试者的群组，其中本研究的目标是以成本效益和快速的方式筛选大量现存数据进行风险评估算法开发，并展示使用算法(而非“任意标志物高”方法)从一组标志物生成结果的重要性。我们还探索了使用先进的机器学习模型将肺结节分类为良性或恶性。本文中，我们报告使用来自LDCT筛查群组(n＝1005)的数据预测肺结节中肺癌概率的模型和计算器的开发。

如下文公开的和在实施例8中，获得并分析了来自具有射线照相上明显的肺结节的1005名受试者的群组的数据，其中502名受试者患有恶性结节“癌症”，并且503名受试者是具有良性结节的“对照”组。分析前收集的数据是不知情的。被选择纳入研究的所有受试者为：a)初次评估时年龄为50-80岁；b)具有20以上的吸烟指数的吸烟者；和c)当前吸烟者或在过去15年内戒烟的吸烟者，并包括有症状和无症状的受试者。所有受试者都进行了以下癌症生物标志物的检测：CEA，CYFRA 21-1，NSE，CA 19-9，Pro-GRP和SCC。每位癌症患者(具有射线照相明显的肺结节者)的诊断由临床结果，影像学诊断和组织学检查证实。还收集每个参与者的以下临床特征：抽血时的年龄，性别，吸烟史(当前或以前)，吸烟指数，肺癌家族史，症状的存在，伴随疾病和结节的个数和大小。

表16：癌症和对照受试者的临床特征

	癌症(502)	对照(503)
			年龄	62	58
性别(％男性)	91	91
			有症状/无症状(％)	57/43	58/42
中值吸烟指数	40	35
			当前/以前吸烟者(％)	89/11	87/13
腺癌(％)	41
			鳞状(％)	34
小细胞(％)	18
			大细胞(％)	3
I期(％)	54
			II期(％)	24
III期(％)	18
			IV期(％)	4

通过微粒酶免疫测定法，使用Abbott试剂组(Abbott,USA)测定蛋白质生物标志物浓度，并且通过化学发光分析仪(ARCHITECT i2000SR,Abbott,USA)，根据制造商的推荐测量。

统计分析

逻辑回归用于使用连续的(例如生物标志物浓度值)或二分的(例如当前或以前吸烟者)独立变量的向量来预测二元(是/否)癌症患者结果。在逻辑模型中，使用以下等式将二元(是/否)结果转换为概率函数[f(p)]：

因此，概率函数随后可以用于预测模型，包括截距(α)和预测指标(X)的估计值(β)。

f(p)＝α+βX

当使用一个以上预测指标时，该模型称作多变量逻辑回归：

f(p)＝α+β₁X_i1+β₂X_i2+…+β_pX_ip

逐步逻辑回归是特殊类型的多变量逻辑回归，其中预测指标反复地包括在模型中，条件是对预测指标的卡方统计的预测强度满足预定的显著性阈值(α＝0.3)。

整个数据集(N＝1005)被视为用于模型开发的训练数据集。分析6个生物标志物(CEA，CYFRA 21-1，NSE，CA 19-9，Pro-GRP和SCC)和7个临床因素(吸烟状态，吸烟指数，年龄，肺癌病史，症状(例如与肺癌相关的症状和体征：咳嗽，咳血，呼吸短促，喘息或呼吸嘈杂，食欲缺乏，疲劳，复发感染等)，结节大小和咳嗽)的组。在分析中，没有数值的症状(例如咳嗽)被分配为二进制值，1或0，或者症状存在，或者不存在，而具有数值的症状(例如年龄或吸烟指数)被用于分析。将所开发的MLR模型与“任意标志物高”方法进行比较，其中如果任何单个生物标志物值高于其各自的截止点，则测试被认为是阳性的。对于新模型开发，我们将临床参数添加到生物标志物组中。在实施方案中，MLR用于计算生物标志物和临床参数组的测量值的概率值(在本文中也被称为综合分数或预测概率)，然后将该概率值与阈值进行比较以确定概率值是高于还是低于阈值，其中如果概率值高于阈值，患者的射线照相明显的肺结节被分类为恶性的，或者如果概率值低于阈值，则患者的射线照相明显的肺结节被分类为良性的。在实施方案中，该阈值仅是50％的预测值，其中具有约50％的预测值的患者被分类为患有恶性肺结节或被视为具有恶性肺结节的可能性增加。在另外的实施方案中，基于80％的灵敏度确定阈值，其中基于预测值进行ROC/AUC分析以确定其是高于还是低于设定的阈值。

在每次使用80％的样品作为训练数据集和20％作为测试组的三次试验中测试一系列预测肺癌(恶性肺结节)的可选统计学方法。以下方法在模型上并行运行，其具有以下临床参数和生物标志物的组：吸烟状态，患者年龄，结节大小，CEA，CYFRA和NSE。在这项研究中，该组对于正确区分良性与恶性肺结节最具预测性(最高AUC)。

1.对数单位模型：简单传统逻辑回归模型；

2.随机森林：使用用于分类和回归的Breiman氏随机森林算法来进行，其可以避免过度拟合训练数据集。总计500个决策树运行随机森林。

3.神经网络工程：在模型和2个隐藏层中应用传统逆转算法。

4.支持向量机(SVM)：应用R包“e1071”的默认设置；

5.决策树：在R包“rpart”中应用递归分割和回归树；

6.深度学习：应用具有神经网络工程中200个隐藏层的R包“h2o”的默认设置。

使用v9.3或以上进行全部统计学分析。

结果

逻辑回归(单变量、多变量和阶梯式多变量)用于开发用于肺癌风险预测的算法。将为预测恶性肺结节而进行的逻辑回归的结果分析报告在表17中：

表17：预测肺癌的单变量和多变量逻辑回归(N＝1005)

如表17中所示，使用全部6个生物标志物(吸烟状态，患者年龄，结节大小，CEA，CYFRA和NSE)的“任意标志物高”单变量模型或多变量模型两者中生物标志物的组合比单独考量的单个生物标志物更准确(AUC 0.51-0.77与0.74和0.84)。然而，具有0.74AUC的单变量“任意标志物高”模型与具有全部6个生物标志物的多变量模型(0.84)相比显然不能作为良好的预测模型。

为了进行新模型的开发，我们向合并全部6个生物标志物(CEA，CYFRA，NSE，Pro-GRP，SCC，CA 19-9)和7个临床变量(肺癌家族史，结节大小，重新编码的has的症状(例如与早期或晚期肺癌相关的那些，例如与肺癌相关的症状和征兆：咳嗽、咳嗽至出血、呼吸短促、哮鸣或噪杂呼吸、食欲缺乏、疲劳、复发感染等)，吸烟指数，患者年龄，吸烟状态，咳嗽)的生物标志物组中添加临床参数。该模型产生了0.87的最高AUC。当特异性固定在80％时，1)“任意标志物高”模型、2)仅具有6个生物标志物的模型和3)合并6个生物标志物和7个临床因素的模型的灵敏度分别为46.0％、70.4％和75.2％。

基于单变量和多变量二者的结果，选择6个预测指标的组(3个生物标志物和3个临床因素)：CEA，CYFRA，NSE，吸烟状态，检查时的患者年龄和结节大小。6个预测指标的该组在80％的特异性下产生0.88AUC的最佳区分准确度和76％灵敏度(图17，表17)。

用于使用该模型计算风险(即肺癌概率)的算法为：

f(p)＝α+β_吸烟状态X_吸烟状态+β_{检查时的患者年龄}X_{检查时的患者年龄}+β_结节大小X_结节大小+β_{测试值_CEA}X_{测试值_CEA}+β_{测试值_CYFRA}+β_{测试值_NSE}X_{测试值_NSE}

使用合并的生物标志物-临床模型，我们根据癌症阶段和组织学评估了测试准确度。表18显示当癌症阶段增加时，测试灵敏度改善。最普遍的NSCLC类型、腺癌和鳞状细胞癌(SCC)在本研究中显示了类似的性能(分别为：灵敏度72％和77％；AUC 0.85和0.87，p<0.0001)(表18)。在80％特异性下检测到代表早期检测和诊断中挑战的快速生长类型的癌症小细胞肺癌(SCLC)具有0.95AUC和82％的灵敏度。

表18：包括变量吸烟状态、患者年龄、结节大小、CEA、CYFRA和NSE的根据阶段和组织学亚型分类的多变量逻辑结果

基于3个生物标志物+3个临床因素模型，计算患有肺癌的患者的相对风险(病例与对照中‘阳性’结果的比例比较)。患者的测量的生物标志物浓度和数字临床预测指标(例如0或1为是或无临床参数或相关数字例如年龄、吸烟指数、结节大小)乘以来自逻辑回归模型的最大可能性估计值。然后求和这些值并且乘以100-计算患者的％癌症风险概率。这可以是使得医生基于我们使用的模型知晓其患者患有肺癌的概率的诊断工具。此外，然后患有肺癌风险增加的那些患者可以进行使用CT的筛查或给他们提供治疗。

高级认知计算方法模型

我们还使用完整数据集(n＝1005)评估了深度学习神经网络工程(DNN)方法以及其它建模方法(随机森林，分类和回归树，支持向量机)(表19)。这些方法已经用于开发一种算法，所述算法在组中合并最具预测性的生物标志物和临床参数的测量，以实现最高的诊断准确性。概括在表19中的结果显示DNN方法提供了优于其它方法的区分肺癌与良性肺结节的预测准确性。

表19：使用来自不同建模方法(随机森林，SVM，决策树和深度学习神经网络工程)的3个生物标志物和3个临床变量(吸烟状态，患者年龄，结节大小，CEA，CYFRA和NSE)预测肺癌的结果比较

模型交叉确认：交叉确认是一种重要模型验证技术，其用于评估如何对独立的数据集概括结果。我们应用反复随机子采样验证，其中我们根据不同比例将数据集随机分成训练和验证组。在分组内求结果的平均值并且提供在表19中。

与结节大小的相关性

来自n＝1005的群组的数据集的进一步分析集中于结节大小与结节为恶性的概率之间的相关性。

直方图(参见图18)显示n＝1005的群组中“癌症”和“对照”参与者的结节大小分布。该组中的535位患者具有30mm或以上直径的结节。通常，肺结节大小在患有肺癌(恶性结节)的患者中高于良性结节。将整个数据组分类为3种结节大小：0-14，15-29和≥30mm。单变量且然后多变量和逐步多变量回归分析对n＝1005的群组数据集的3个子样品进行。基于这些结果，对于每个结节大小的类别选择合并生物标志物值和临床因素的最佳模型。参见表20。第一种结节类别的MLR模型(低于14mm)包括4个生物标志物(CEA，CYFRA，NSE，Pro-GRP)和4个临床参数(检查时患者年龄，咳嗽，吸烟持续时间，存在症状)。Pro-GRP对于2和3组结节未改善测试准确性，且从该模型中去除。

表20：根据结节大小分类的模型性能

图19显示三种结节亚组的ROC示意图。如表20和图19中所示，具有小结节(0-14mm)的患者中合并的生物标志物-临床因素评估的AUC为0.84，其中中间大小结节(15-29mm)为0.79，且在具有大结节(高于3cm)的那些中为0.91。

最佳模型为3个生物标志物(CEA、CYFRA、NSE)+4个临床参数(患者年龄、咳嗽和吸烟持续时间))的组合以区分恶性中间大小的结节(15-29mm)与良性结节(灵敏度为62.8％且特异性为77.2％)。参见表20。生物标志物与临床参数的相同组合用于较大大小的结节(≥30mm)，并且分类良性和恶性结节(具有较高的分别为83.7％的灵敏度和81.9％的特异性)之间的差异。参见表20。对于最小结节(0-14mm)，最佳模型为4个生物标志物(CEA、CYFRA、NSE和Pro-GRP)和4个临床参数(症状、患者年龄、咳嗽和吸烟持续时间)。

为了计算每个结节大小类别中肺癌的％概率，使用来自MLR模型的最大可能性估计值。图20中的散点图显示每个结节大小类别的肺癌概率。

讨论

LDCT的高灵敏度的代价是检测出许多假阳性，包括良性肺结节。研究显示，放射学者难以有效地区分真(恶性)结节与假阳性。此外，对筛查CT扫描发现的小肺结节的处置成为一个极为困难的问题。当发现结节在8mm-15-20mm大小时(肺-RADS 1.0版评估类别4A、4B和4X)，临床医师面对广泛的一系列选择并且平衡复杂的临床现象。分类为肺-RADS类别-4的患者(在美国全部LDCT的约6％明显)对临床医师是否包括额外的LDCT、使用或不使用造影剂的全暴露CT、PET-CT、针吸活组织检查或切除呈现困惑。可以识别具有高危或者低危肺癌的患者的血液生物标志物测试(具有显著的灰色区)可以有益地改善患有肺癌的患者的护理和处理成本。

目前我们拥有了令人瞩目的证据：通过使用算法方法，我们可以生成风险分数(肺癌风险增加)，其比得自任意单个标志物或通过“多截止值”方法得到的风险评估更准确。在本研究中，我们分析了来自中国的高危患者的回顾性组的大数据集(n＝1005)，并且证实该训练中，使用整合生物标志物值与临床因素的算法显著地改善了生物标志物测试的准确度。合并基于MLR的生物标志物-临床模型的总体灵敏度在80％的特异性和0.88 AUC下为76％。这种性能明显优于在80％的特异性下具有AUC 0.74和46％灵敏度的单变量“任意标志物高”模型的性能。本研究中早期(I和II)疾病的灵敏度在80％特异性下约为66％(基于3个生物标志物+3个临床因素MLR模型)，与之相比，晚期(III和IV)为～90％的灵敏度。深度学习神经网络工程方法的应用进一步改善了测试性能，导致在80％特异性下的灵敏度为77％。这些初步结果显示深度神经网络工程提供了优于其它方法的预测准确度。

我们还在具有不确定的单一肺结节的意图测试的患者人群中建立了算法。大小超过30mm的肺结节被推定为是恶性的，并通过手术切除。5-30mm之间的结节可能是良性或恶性的，其中恶性可能性随着大小而增加。因此，可以减少假阳性的数字并减少不必要的活组织检查的数量的血液测试将是合乎需要的。n＝1005群组包括371例结节在15-29mm之间的患者。在美国，分类为基于结节大小的组中的患者随后成为侵入性的，这归因于在具有这种大小结节(例如15-29mm)的患者中的肺癌更高比例，并且在低于30毫米时，他们并不频繁地被发送至手术去除结节。目前的血液生物标志物算法可以识别该群组(15-29mm)中的肺癌患者，具有63％的灵敏度和77％的特异性。在n＝1005群组中，将近100名患者具有的结节大小小于15mm。在美国，对基于结节大小分类到该组的患者进行保守治疗。目前的联合生物标志物-临床因素算法可以识别该组(0-14mm结节)中具有癌症高风险的患者亚群，具有61％灵敏度和89％特异性。这种算法的使用可能潜在地决定进一步的诊断和/或侵入性操作，例如CT扫描，针吸活组织检查或组织切除。

总之，这种病例-对照研究表明，随着临床因素和高级数据处理(算法)的增加，免疫测定标志物性能可以显著改善。我们用生物标志物和临床变量开发了一种不连续的多变量模型，其区分恶性结节与良性结节。

本发明还涉及以下的实施方案：

1.计算机执行的方法，以帮助早期检测患者中早期癌症相对于人群的存在，包括：

(a)得到来自患者的生物样品的生物标志物的组的每种生物标志物的值；

(b)使用机器学习系统以：

(1)比较每个值与该生物标志物的参比值；

(2)基于所述比较生成生物标志物综合分数，其中该生物标志物综合分数是每个值的加权集合，且其中所述机器学习系统已经确定了每种生物标志物的权重；

(3)基于患者的生物标志物综合分数和医疗史生成所述患者的风险分数，其中所述风险分数由所述机器学习系统确定；和

(4)将所述风险分数分类为多个风险类别之一以确定所述患者患有癌症的可能性，其中风险类别来源于与患者相同的组群，并且其中每个风险类别与不同的风险水平相关。

2.实施方案1的方法，其中患者的医疗史包含选自年龄、性别、吸烟史、症状和癌症家族史的一种或多种临床参数。

3.实施方案1的方法，其中将每个值归一化。

4.实施方案1的方法，其中每个值为浓度值。

5.实施方案1的方法，其中所述癌症选自肺癌、肾癌、乳腺癌、胆管癌、骨癌、胰腺癌、宫颈癌、结肠癌、结直肠癌、胆囊癌、肝或肝细胞癌、卵巢癌、睾丸癌、小叶癌、前列腺癌和皮肤癌或黑素瘤。

6.实施方案1的方法，其中所述癌症是肺癌。

7.实施方案1的方法，其中生物标志物的组包含两种或多种生物标志物，其选自AFP、CA125、CA 15-3、CA-19-19、CEA、Cyfra 21-1、Pro-GRP、NSE、PSA、SCC、抗-NY-ESO-1、抗-p53、抗-细胞周期蛋白E2、抗-MAPKAPK3和HE-4。

8.实施方案1的方法，其中生物标志物的组包含两种或多种生物标志物，其选自AFP、CA 125、CA 15-3、CA-19-9、CEA、PSA和HE-4。

9.实施方案1的方法，其中生物标志物的组包含两种或多种生物标志物，其选自AFP、CA 125、CA 15-3、CA-19-9、降钙素、CEA、PSA和PAP。

10.实施方案1的方法，其中生物标志物的组包含两种或多种生物标志物，其选自AFP,BR 27.29、CA125II、CA 15-3、CA-19-9、降钙素、CEA、PSA和Her-2。

11.实施方案1的方法，其中生物标志物的组包含两种或多种生物标志物，其选自AFP、CA125、CA 15-3、CA-19-9、CEA、PSA和人附睾蛋白4。

12.实施方案1的方法，包括给临床医师提供有关建议是否测试以确定患者存在癌症的通知。

13.实施方案1的方法，其中所述机器学习系统还并入来自患者的成像数据以生成风险分数。

14.实施方案1的方法，其中所述机器学习系统还并入来自患者的生物标志物的生物标志物速度以生成风险分数。

15.实施方案14的方法，包括：

(a)得到来自患者的生物标志物的系列值；

(b)基于所述系列值确定所述生物标志物的生物标志物速度；和(c)包括生物标志物速度以生成风险分数。

16.实施方案1的方法，其中所述风险分数表示所述患者处于患有癌症的高风险中，并且包括：

(a)得到证实或否定癌症存在的测试结果；

(b)将测试结果并入数据集以训练所述机器学习系统；和

(c)由所述机器学习系统生成改进的风险分数。

17.实施方案1的方法，包含至少三种风险类别，且其中每种风险类别包含与一定范围的主综合分数相关的风险分数。

18.实施方案17的方法，其中所述风险类别还包含风险识别符。

19.实施方案1的方法，其中至少部分根据回顾性临床样品确定所述风险分数。

20.实施方案1的方法，其中基于由所述机器学习系统生成的风险分类表确定风险分数，其中所述风险分类表包括多个风险类别，每个类别与一定范围的主综合分数相关。

21.实施方案1的方法，其中将风险分数提供给临床医师，作为相对于人群中存在癌症的比例，患者存在癌症的风险增加。

22.评估患者相对于人群患有肺癌的可能性的方法，包括下列步骤：

(i)从患者得到流体样品；

(ii)测定样品中多个生物标志物的值；

(iii)使用机器学习系统确定来自生物标志物测量值的生物标志物综合分数；

(iv)使用所述机器学习系统确定相对于人群，患者患有癌症的风险分数，其中已经使用包含被诊断为癌症的患者和尚未被诊断为癌症的患者的数据集训练了所述机器学习系统，且其中基于患者的生物标志物综合分数和医疗史进行所述确定。

23.实施方案22的方法，其中所述患者和所述人群为50岁以上年龄且具有吸烟史。

24.实施方案23的方法，其中吸烟史包含至少约20吸烟指数的吸烟史。

25.实施方案22的方法，其中所述多个生物标志物包含两种或多种生物标志物，其选自AFP、CA125、CA 15-3、CA-19-19、CEA、Cyfra21-1、Pro-GRP、NSE、PSA、SCC、抗-NY-ESO-1、抗-p53、抗-细胞周期蛋白E2、抗-MAPKAPK3和HE-4。

26.实施方案22的方法，其中所述多个生物标志物包含两种或多种生物标志物，其选自AFP、CA 125、CA 15-3、CA-19-9、CEA、PSA和HE-4。

27.实施方案22的方法，其中所述多个生物标志物包含两种或多种生物标志物，其选自AFP、CA 125、CA 15-3、CA-19-9、降钙素、CEA、PSA和PAP。

28.实施方案22的方法，其中所述多个生物标志物包含两种或多种生物标志物，其选自AFP、BR 27.29、CA125II、CA 15-3、CA-19-9、降钙素、CEA、PSA和Her-2。

29.实施方案22的方法，其中所述多个生物标志物包含两种或多种生物标志物，其选自AFP、CA125、CA 15-3、CA-19-9、CEA、PSA和人附睾蛋白4。

30.实施方案22的方法，其中在包含处于高、中和低风险的那些的至少三种类别中将患者的风险分数与患者的主综合分数比较。

31.实施方案22的方法，其中在包含处于最高风险、中间偏高风险、中间风险、中间偏低风险和低风险的那些的至少五种类别中将患者的风险分数与患者的主综合分数比较。

32.确定患者相对于人群存在肺癌的风险分数的方法，包括：

a)确定患者的生物标志物的组；

b)确定每个测量的生物标志物的归一化分数；

c)使用机器学习系统生成生物标志物综合分数，其中所述机器学习系统已经确定每个归一化分数的权重并且集合了每个生物标志物的归一化分数以形成该生物标志物综合分数；

d)将患者存在肺癌的风险增加量化为风险分数，其中使用所述机器学习系统生成包含生物标志物综合分数的风险分数，并且将该风险分数分类为来源于组群的多个风险类别的风险类别，其中每个风险类别包含乘数形式的风险分数，其指示相对于人群，患有肺癌的可能性增加；和给患者提供风险分数与建议是否测试以证实或否定癌症存在的指示。

33.实施方案32的方法，其中生物标志物的组包含两种或多种生物标志物，其选自CEA、CA125、Cyfra 21-1、Pro-GRP、抗-NY-ESO-1、抗-p53、抗-细胞周期蛋白E2和抗-MAPKAPK3。

34.实施方案32的方法，其中生物标志物的组包含两种或多种生物标志物，其选自AFP、CA125、CA 15-3、CA-19-19、CEA、Cyfra 21-1、Pro-GRP、NSE、PSA、SCC、抗-NY-ESO-1、抗-p53、抗-细胞周期蛋白E2、抗-MAPKAPK3和HE-4。

35.实施方案32的方法，其中生物标志物的组包含两种或多种生物标志物，其选自AFP、CA 125、CA 15-3、CA-19-9、CEA、PSA和HE-4。

36.实施方案32的方法，其中生物标志物的组包含两种或多种生物标志物，其选自AFP、CA 125、CA 15-3、CA-19-9、降钙素、CEA、PSA和PAP。

37.实施方案32的方法，其中生物标志物的组包含两种或多种生物标志物，其选自AFP、BR 27.29、CA125II、CA 15-3、CA-19-9、降钙素、CEA、PSA和Her-2。

38.实施方案32的方法，其中生物标志物的组包含两种或多种生物标志物，其选自AFP、CA125、CA 15-3、CA-19-9、CEA、PSA和人附睾蛋白4。

39.实施方案32的方法，包括：

从患者得到流体样品，其中所述样品是血液、血清、血浆或其某些部分；和

测量样品中生物标志物组的每种生物标志物的值。

40.实施方案32的方法，其中每个风险类别与一定范围的主综合分数相关，且其中由所述机器学习系统至少部分从人群的回顾性临床样品确定多个风险类别、指示风险类别内患有肺癌的可能性增加的每个乘数和风险类别的主综合分数的每个范围。

41.实施方案32的方法，其中多个风险类别包含至少三种风险类别，且其中指示患有癌症的可能性增加的乘数约为2或以上。

42.实施方案32的方法，其中多个风险类别包含至少两种风险类别，且其中指示患有肺癌的可能性增加的乘数约为5或以上。

43.实施方案32的方法，其中所述患者年龄为50岁或以上且具有吸烟史。

44.确定患者存在肺癌的量化风险的方法，包括：

a)得到来自患者的样品的至少一种生物标志物的测量值，其中所述患者为至少50岁或以上，且具有吸烟史，且其中至少一种癌症生物标志物选自AFP、CEA、CA-19-9、CA 15-3、CA125、Cyfra 21-1、NSE、SCC、Pro-GRP、PSA、抗-NY-ESO-1、抗-p53、抗-细胞周期蛋白E2和抗-MAPKAPK3；

b)确定样品中测量的每种生物标志物的归一化分数；

c)使用机器学习系统生成生物标志物综合分数，其中所述机器学习系统已经确定每个归一化分数的权重并且集合归一化分数以得到所述患者的生物标志物综合分数；

d)使用所述机器学习系统合并患者的生物标志物综合分数与吸烟史，以生成肺癌存在的风险分数，其中风险分数与组群的至少三种风险类别之一匹配，且其中每个风险类别包含指示与一定范围的主综合分数相关的患有肺癌的可能性的乘数；和

e)提供患者的风险分数，由此确定该患者存在肺癌的量化风险。

45.实施方案44的方法，其中所述样品是血液、血清、血浆或其成分。

46.实施方案44的方法，其中在包含处于高、中和低风险的那些的至少三种风险类别中将患者的风险分数与患者的主综合分数比较。

47.实施方案44的方法，其中将风险分数提供给临床医师作为患者测试前相对于人群存在癌症的增加的风险。

48.实施方案44的方法，其中吸烟史包含为20的吸烟指数。

49.用于评估患者相对于人群存在癌症的风险的分层患者组的分组，包含：

a)至少三种风险类别，其中每个风险类别包含风险分数、风险识别符和一定范围的主综合分数，

b)其中患者的风险分数由机器学习系统基于患者的生物标志物综合分数和医疗史确定，且其中患者的风险分数通过与和风险类别有关的一定范围的主综合分数比较确定。

50.实施方案49的分组，其中风险识别符选自低风险、中偏低风险、中等风险、中偏高风险和最高风险。

51.实施方案49的分组，其中风险分数是对于每个风险类别指示患有癌症的可能性增加的乘数的形式。

52.实施方案49的分组，其中生物标志物综合分数是根据癌症的生物标志物的组确定的归一化生物标志物分数的总和。

53.实施方案49的分组，其中一定范围的主综合分数来源于回顾性临床样品。

54.实施方案49的分组，其中该分组为选自表格形式、软件应用程序、计算机程序和excel表格程序的形式。

55.实施方案49的分组，其中所述癌症是肺癌，且一定范围的主综合分数通过测量来自回顾性临床样品的生物标志物的组的每个生物标志物的值来生成，其中生物标志物组选自AFP、CEA、CA-19-9、CA 15-3、CA125、Cyfra 21-1、NSE、SCC、Pro-GRP、PSA、抗-NY-ESO-1、抗-p53、抗-细胞周期蛋白E2和抗-M APKAPK3。

56.用于评估患者相对于人群存在癌症的风险的试剂盒，包含：

a)用于测量来自患者的样品中的至少一种癌症生物标志物的试剂；

b)风险分类表；和

c)对应于软件应用程序的计算机执行的指令，其中在处理器执行时，该指令生成访问机器学习系统的界面；

d)由所述机器学习系统确定每个样品的生物标志物综合分数，并且利用该生物标志物综合分数与患者的医疗史生成主综合分数，其中主综合分数与风险类别相关；

e)分类表。

57.实施方案56的试剂盒，其中由机器学习系统生成和通过界面可访问的风险分类表用于确定患者相对于人群存在癌症的风险分数。

58.实施方案56的试剂盒，其中所述癌症选自肺癌、肾癌、乳腺癌、胆管癌、骨癌、胰腺癌、宫颈癌、结肠癌、结直肠癌、胆囊癌、肝或肝细胞癌、卵巢癌、睾丸癌、小叶癌、前列腺癌和皮肤癌或黑素瘤。

59.实施方案56的试剂盒，其中所述癌症是肺癌。

60.实施方案56的试剂盒，其中所述试剂选自用于测量生物标志物的抗原和抗体。

61.系统，包含：

机器学习系统，包含：

一个或多个处理器，该处理器被配置为：

比较生物标志物的组的每个值与该生物标志物的参比值；基于比较生成生物标志物综合分数，其中该生物标志物综合分数是每个值的加权集合，且其中所述机器学习系统已经确定每个生物标志物的权重；

基于患者的生物标志物综合分数和医疗史生成该患者的风险分数，其中由所述机器学习系统确定风险分数；和

将风险分数分类为多个风险类别，其中该风险类别来源于与患者相同的组群，且其中每个风险类别与风险的不同水平相关，以确定患者患有癌症的可能性。

62.实施方案61的系统，其中一个或多个处理器被配置为：

接收指示患者是否患有癌症的数据；

确定由所述机器学习系统生成的风险分数是否与接收的数据一致；

当接收的数据与风险分数不一致时，使用接收的数据训练所述机器学习系统。

63.实施方案61的系统，其中一个或多个处理器被配置为：

确定患者的居留地；

分析地理数据以确定患者的居留地是否是患有癌症的风险因素；

当将居留地确定为风险因素时，由所述机器学习系统确定居留地风险因素的权重；和

利用加权居留地风险因素来确定风险分数。

64.实施方案61的系统，其中一个或多个处理器被配置为：

确定患者中存在遗传突变；

分析遗传数据以确定该遗传突变是否为患有癌症的风险因素；当遗传突变被确定为风险因素时，由所述机器学习系统确定遗传风险因素的权重；和

利用加权的遗传风险因素来确定风险分数。

65.实施方案61的系统，其中所述计算机处理器进一步被配置为：

确定来自家族成员的额外医疗信息对于风险分数的计算是否需要；

得到额外医疗信息；和

由所述机器学习系统并入额外医疗信息以生成风险分数。

66.实施方案61的系统，其中所述机器学习系统被配置为鉴定来自患者医疗史的有问题的信息。

67.实施方案61的系统，其中所述机器学习系统被配置为基于训练的数据确定用于构建组群的参数。

68.实施方案61的系统，其中所述机器学习系统被配置为基于成像数据和生物标志物速度数据生成风险分数。

69.实施方案61的系统，其中所述机器学习系统被配置为基于新的患者数据进行连续训练。

70.计算机程序产品，包含储存计算机可读程序代码的计算机可读储存介质，其包含由计算机化的装置执行的指令，所述计算机程序代码包含：

用于接收患者的生物标志物综合分数、患者的医疗史和具有患有癌症和不患有癌症的多个个体的数据集的信息的界面；

第一神经网络模块，以确定与患者相同的组群；和第二神经网络，以基于风险分数确定与组群相比存在癌症的可能性，其中风险分数由第二神经网络基于患者的生物标志物综合分数和医疗史确定；和

将风险分数分类为多个风险类别，其中风险类别来源于与患者相同的组群，且其中每个风险类别与风险的不同水平相关，以确定患者患有癌症的可能性。

71.实施方案70的计算机程序产品，其中由一个或多个处理器执行的程序代码被配置为：

接收指示患者是否患有癌症的数据；

确定由第二神经网络生成的风险分数是否与接收的数据一致；当接收的数据与风险分数不一致时，使用接收的数据训练第二神经网络。

72.实施方案70的计算机程序产品，其中由一个或多个处理器执行的程序代码被配置为：

确定患者的居留地；

分析地理数据以确定该患者的居留地是否是患有癌症的风险因素；

当居留地被确定为风险因素时，由另一个神经网络确定居留地风险的权重；和

利用加权的居留地风险因素来确定风险分数。

73.实施方案70的计算机程序产品，其中由一个或多个处理器执行的程序代码被配置为：

确定患者中存在遗传突变；

分析遗传数据以确定该遗传突变是否是患有癌症的风险因素；当遗传突变被确定为风险因素时，由另一神经网络确定遗传风险因素的权重；和

利用加权的遗传风险因素来确定风险分数。

74.实施方案70的计算机程序产品，其中由一个或多个处理器执行的程序代码被配置为：

得到额外医疗信息；和

由第二神经网络并入额外医疗信息以生成风险分数。

75.实施方案70的计算机程序产品，其中另一神经网络被配置为鉴定来自患者的医疗史的有问题的信息。

76.实施方案70的计算机程序产品，其中第一神经网络被配置为基于训练的数据确定用于构建组群的参数。

77.实施方案70的计算机程序产品，其中第二神经网络被配置为基于成像数据和生物标志物速度数据生成风险分数。

78.实施方案70的计算机程序产品，其中第二神经网络被配置为基于新的患者数据进行连续训练。

79.实施方案61-78任一项的方法，其中该方法考虑选自以下的信息：

(a)生物标志物水平；

(b)患者EMR；

(c)医学文献；

(d)影像；或

(e)生物标志物速度。

80.计算机执行的用于预测患者患有癌症的可能性的方法，

该方法在计算机系统中进行，所述计算机系统具有一个或多个耦合至存储器的处理器，所述存储器储存由一个或多个处理器执行的一个或多个计算机可读指令，所述一个或多个计算机可读指令包含用于如下的指令：

储存包含多个患者记录的数据集，每个患者记录包括多个参数和相应的患者的值，且其中数据集还包括诊断指示符，其指示该患者是否被诊断为患有癌症；

选择输入的多个参数的子集进入机器学习系统，其中所述子集包括一组至少两种不同的生物标志物和至少一种临床参数；

将数据集随机分配为训练数据和验证数据；

使用机器学习系统基于训练数据和输入的子集生成分类器，其中每个输入值具有相关的权重；和

确定分类器是否满足预定的接收器操作者特征(ROC)统计值，从而指定灵敏度和特异性，以校正患者类别。

81.实施方案80的计算机执行的方法，还包括当分类器不满足预定的接收器操作者特征(ROC)统计值时，通过使用不同的输入子集和/或调整输入值的相关权重反复再现分类器，直到再现的分类器满足预定的ROC统计值。

82.实施方案80的计算机执行的方法，还包括当所述机器学习系统满足预定的ROC统计值时，生成分类器的静态配置。

83.实施方案80的计算机执行的方法，包括：

使用分类器分类验证数据；

确定分类器是否满足预定的ROC统计值；和

当分类器不满足预定的ROC统计值时，通过使用不同的输入子集和/或调整输入值的相关权重反复再现分类器，直到再现的分类器满足预定的ROC统计值。

84.实施方案82的计算机执行的方法，还包括：

使用静态分类器配置用户可访问的计算装置；

使对应于患者的多个参数的子集的值进入计算装置；和

使用静态分类器将患者分类为指示患有癌症可能性的类别或指示不患有癌症的可能性的另一类别。

85.实施方案84的计算机执行的方法，其中指示患有癌症可能性的类别被进一步分类为定性组。

86.实施方案85的计算机执行的方法，其中所述定性组选自低、中或高。

87.实施方案84的计算机执行的方法，其中指示患有癌症的类别进一步被分类为定量组。

88.实施方案87的计算机执行的方法，其中向用户提供作为患有癌症可能性的百分比、乘数值、综合分数或风险分数的定量组。

89.实施方案84的计算机执行的方法，还包括当患者被分类为指示剂患有癌症的可能性的类别时，向用户提供建议进行诊断测试的通知。

90.实施方案89的计算机执行的方法，其中所述诊断测试是射线照相筛查。

91.实施方案89的计算机执行的方法，还包括：

(1)从证实或否定存在癌症的诊断测试得到测试结果；

(2)将测试结果并入训练数据以进一步训练所述机器学习系统；和

(3)由所述机器学习系统生成改善的分类器。

92.实施方案80的计算机执行的方法，其中生物标志物的组选自：AFP、CA125、CA15-3、CA 19-19、CEA、CYFRA 21-1、HE-4、NSE、Pro-GRP、PSA、SCC、抗-细胞周期蛋白E2、抗-MAPKAPK3、抗-NY-ESO-1和抗-p53。

93.实施方案92的计算机执行的方法，其中生物标志物的组包括任意两种、任意三种、任意四种、任意五种或任意六种生物标志物。

94.实施方案80的计算机执行的方法，其中生物标志物的组包含：CA 19-9、CEA、CYFRA 21-1、NSE、Pro-GRP和SCC。

95.实施方案80的计算机执行的方法，其中所述临床参数选自：

(1)年龄；

(2)性别；

(3)吸烟状态；

(4)吸烟指数；

(5)症状；

(6)癌症家族史；

(7)伴随疾病；

(8)结节数量；

(9)结节大小；和

(10)成像数据。

96.实施方案80的计算机执行的方法，其中所述临床参数包括吸烟状态、吸烟指数和年龄。

97.实施方案80的计算机执行的方法，还包括将对应于生物标志物速度的值输入至所述机器学习系统，其中生物标志物速度通过下列步骤测定：

(1)从患者得到生物标志物的系列值；和

(2)基于所述系列值测定该生物标志物的生物标志物速度。

98.实施方案80的计算机执行的方法，其中多个参数还包含选自如下的一种或多种参数：

(a)患者电子医学记录(EMR)；

(b)医学文献；

(c)影像；和

(d)地理学。

99.实施方案80的计算机执行的方法，其中所述分类器是神经网络。

100.实施方案99的计算机执行的方法，其中所述神经网络具有如下特征的任意一种或多种：

(1)至少两个隐藏层；

(2)至少两个输出，其中第一输出指示可能存在肺癌，且第二输出指示不可能存在肺癌；和

(3)20-30个节点。

101.实施方案80的计算机执行的方法，其中所述分类器是支持向量机、决策树、随机森林、神经网络或深度学习神经网络。

102.实施方案80的计算机执行的方法，其中所述分类器具有至少80％的特异性。

103.实施方案102的计算机执行的方法，其中所述分类器具有至少70％的灵敏度。

104.实施方案80的计算机执行的方法，其中数据集由归一化值预加工。

105.实施方案80的计算机执行的方法，其中所述癌症选自乳腺癌、胆管癌、骨癌、宫颈癌、结肠癌、结直肠癌、胆囊癌、肾癌、肝或肝细胞癌、小叶癌、肺癌、黑素瘤、卵巢癌、胰腺癌、前列腺癌、皮肤癌和睾丸癌。

106.实施方案80的计算机执行的方法，其中所述癌症是肺癌。

107.计算机执行的评估患者相对于人群患有肺癌的可能性的方法，包括：

测量来自患者的样品中的生物标志物的组的值；

从患者得到临床参数；

利用由机器学习系统生成的分类器将患者分类为指示患有癌症的可能性的类别或指示不患有癌症的可能性的另一类别，其中分类器包含至少70％的灵敏度和至少80％的特异性，且其中使用包含至少两种不同生物标志物的生物标志物的组和至少一种临床参数生成分类器；和

当患者被分类为指示患有癌症的可能性的类别时，向用户提供进行诊断测试的通知。

108.实施方案107的计算机执行的方法，其中生物标志物的组包含：

CA 19-9、CEA、CYFRA 21-1、NSE、Pro-GRP和SCC。

109.实施方案107的计算机执行的方法，其中所述临床参数选自：

(1)年龄；

(2)性别；

(3)吸烟状态；

(4)吸烟指数；

(5)症状；

(6)癌症家族史；

(7)伴随疾病；

(8)结节数量；

(9)结节大小；和

(10)成像数据。

110.实施方案107的计算机执行的方法，其中所述临床参数包括吸烟状态、吸烟指数和年龄。

111.实施方案107的计算机执行的方法，其中指示患有癌症的可能性的类别进一步被分类为定性组。

112.实施方案111的计算机执行的方法，其中所述定性组选自低、中或高。

113.实施方案107的计算机执行的方法，其中指示患有癌症的类别进一步被分类为定量组。

114.实施方案113的计算机执行的方法，其中向用户提供作为百分比、乘数值、综合分数或患有癌症可能性的风险分数的定量组。

115.实施方案107的计算机执行的方法，其中所述诊断测试是射线照相筛查。

116.实施方案109的计算机执行的方法，其中所述临床参数包含：

(1)至少50岁年龄；和

(2)至少20的吸烟指数的吸烟史。

117.实施方案107的计算机执行的方法，其中生物标志物的组包含两种或多种生物标志物，其选自：AFP、CA125、CA 15-3、CA-19-19、CEA、CYFRA 21-1、HE-4、Pro-GRP、NSE、PSA、SCC、抗-NY-ESO-1、抗-p53、抗-细胞周期E2和抗-MAPKAPK3。

118.实施方案107的计算机执行的方法，其中所述样品是血液、血清、血浆或其成分。

119.计算机执行的用于预测受试者的癌症可能性的方法，

该方法使用计算机系统进行，所述计算机系统具有耦合至存储器的一个或多个处理器，所述存储器储存由一个或多个处理器执行的一个或多个计算机可读指令，所述一个或多个计算机可读指令包含用于如下操作的指令：

储存包含多个患者记录的数据集，每个患者记录包括患者的多个参数，且其中数据集还包括诊断指示符，其指示该患者是否已经被诊断为患有癌症；

选择多个参数用于输入机器学习系统，其中所述参数包括一组至少两种不同生物标志物值和至少一种类型临床数据；和

使用所述机器学习系统生成分类器，其中分类器包含至少70％的灵敏度和至少80％的特异性，且其中该分类器基于输入值的子集。

120.实施方案119的计算机执行的方法，还包括当所述分类器不满足预定的至少70％的灵敏度和至少80％的特异性的统计值时，通过使用不同的输入值子集和/或通过调整输入值的相关权重反复再现分类器，直到再现的分类器满足预定的ROC统计值。

121.实施方案119的计算机执行的方法，还包括当机器学习系统满足预定的至少70％的灵敏度和至少80％的特异性统计值时，生成分类器的静态配置。

122.实施方案119的计算机执行的方法，包括：

使用分类器分类验证数据；

确定分类器是否满足预定的至少70％的灵敏度和至少80％的特异性的统计值；和

当所述分类器不满足预定的至少70％的灵敏度和至少80％的特异性的统计值时，通过使用不同的输入值子集和/或通过调整输入值的相关权重反复再现分类器，直到再现的分类器满足预定的至少70％的灵敏度和至少80％的特异性的统计值。

123.实施方案121的计算机执行的方法，还包括：

使用静态分类器配置用户可访问的计算装置；

使对应于患者的多个参数的子集的值进入计算装置；和

使用静态分类器将患者分类为指示患有癌症的可能性的类别或指示不患有癌症的可能性的另一类别。

124.实施方案123的计算机执行的方法，其中指示患有癌症可能性的类别进一步被分类为定性组。

125.实施方案124的计算机执行的方法，其中所述定性组选自低、中或高。

126.实施方案123的计算机执行的方法，其中指示患有癌症的可能性的类别进一步被分类为定量组。

127.实施方案126的计算机执行的方法，其中向用户提供作为百分比、乘数值、综合分数或患有癌症可能性的风险分数的定量组。

128.实施方案123的计算机执行的方法，还包括当患者被分类为指示患有癌症的可能性的类别时，向用户提供建议进行诊断测试的通知。

129.实施方案128的计算机执行的方法，其中所述诊断测试是射线照相筛查。

130.实施方案119的计算机执行的方法，还包括：

(1)从证实或否定存在癌症的诊断测试中得到测试结果；

(2)将测试结果并入训练数据用于进一步训练所述机器学习系统；和

(3)由所述机器学习系统生成改善的分类器。

131.实施方案119的计算机执行的方法，其中生物标志物的组选自：AFP、CA125、CA15-3、CA 19-19、CEA、CYFRA 21-1、HE-4、NSE、Pro-GRP、PSA、SCC、抗-细胞周期蛋白E2、抗-MAPKAPK3、抗-NY-ESO-1和抗-p53。

132.实施方案131的计算机执行的方法，其中生物标志物的组包括任意两种、任意三种、任意四种、任意五种或任意六种生物标志物。

133.实施方案119的计算机执行的方法，其中所述生物标志物组包含：

CA 19-9、CEA、CYFRA 21-1、NSE、Pro-GRP和SCC。

134.实施方案119的计算机执行的方法，其中所述临床参数选自：

(1)年龄；

(2)性别；

(3)吸烟状态；

(4)吸烟指数；

(5)症状；

(6)癌症家族史；

(7)伴随疾病；

(8)结节数量；

(9)结节大小；和

(10)成像数据。

135.实施方案119的计算机执行的方法，其中所述临床参数包括吸烟状态、吸烟指数和年龄。

136.实施方案119的计算机执行的方法，还包括将对应于生物标志物速度的值输入至所述机器学习系统，其中所述生物标志物速度通过下列步骤测定：

(1)从患者得到生物标志物的系列值；和

(2)基于所述系列值测定该生物标志物的生物标志物速度。

137.实施方案119的计算机执行的方法，其中多个参数进一步包含选自如下的一种或多种参数：

(a)患者电子医学记录(EMR)；

(b)医学文献；

(c)影像；和

(d)地理学。

138.实施方案119的计算机执行的方法，其中所述分类器是神经网络。

139.实施方案138的计算机执行的方法，其中所述神经网络具有如下特征的任意一种或多种：

(1)至少两个隐藏层；

(3)5-50个节点。

140.实施方案119的计算机执行的方法，其中所述分类器是支持向量机、决策树、随机森林、神经网络或深度学习神经网络。

141.实施方案119的计算机执行的方法，其中所述机器学习系统是具有至少两个隐藏层的神经网络。

142.实施方案119的计算机执行的方法，其中所述癌症选自乳腺癌、胆管癌、骨癌、宫颈癌、结肠癌、结直肠癌、胆囊癌、肾癌、肝或肝细胞癌、小叶癌、肺癌、黑素瘤、卵巢癌、胰腺癌、前列腺癌、皮肤癌和睾丸癌。

143.实施方案119的计算机执行的方法，其中所述癌症是肺癌。

144.系统，包含一个或多个处理器，所述处理器被配置为：

利用由机器学习系统生成的分类器将患者分类为两种类别之一，第一类别指示癌症的可能性，且第二类别指示不可能存在癌症，

其中所述分类器包含至少70％的灵敏度和至少80％的特异性，且

其中该分类器接受作为输入值的一组至少两种不同生物标志物值和至少一种临床参数；和

当患者被分类为第一类别时，向用户提供进行诊断测试的通知。

145.实施方案144的系统，其中一个或多个处理器被配置为：

(1)得到来自证实或否定癌症存在的诊断测试的测试结果；

(2)将所述测试结果并入数据集用于进一步训练分类器；和

(3)通过所述机器学习系统生成改善的分类器。

146.实施方案144的系统，其中所述处理器进一步被配置为：

确定额外的信息是否可用，其选自：

(a)患者的居留地；

(b)居留地是否是发生癌症的风险因素；

(c)来自患有癌症的家族成员的医疗信息；和

(d)患者中存在遗传突变，其中所述遗传突变是患有癌症的风险因素；

得到所述额外的信息；和

将所述额外的信息作为一个或多个输入值并入所述机器学习系统以改善分类器的灵敏度。

Claims

1.计算机执行的用于预测患者患有癌症的可能性的方法，

将数据集随机分配为训练数据和验证数据；

2.权利要求1的计算机执行的方法，还包括当所述机器学习系统满足预定的ROC统计值时，生成分类器的静态配置。

3.权利要求2的计算机执行的方法，还包括：

使用静态分类器配置用户可访问的计算装置；

使对应于患者的多个参数的子集的值进入计算装置；和

4.权利要求3的计算机执行的方法，还包括当患者被分类为指示剂患有癌症的可能性的类别时，向用户提供建议进行诊断测试的通知。

5.权利要求4的计算机执行的方法，还包括：

(1)从证实或否定存在癌症的诊断测试得到测试结果；

(3)由所述机器学习系统生成改善的分类器。

6.权利要求1的计算机执行的方法，其中生物标志物的组选自：AFP、CA125、CA 15-3、CA19-19、CEA、CYFRA 21-1、HE-4、NSE、Pro-GRP、PSA、SCC、抗-细胞周期蛋白E2、抗-MAPKAPK3、抗-NY-ESO-1和抗-p53。

7.权利要求1的计算机执行的方法，其中所述分类器是神经网络、支持向量机，决策树，随机森林，神经网络或深度学习神经网络。

8.权利要求1的计算机执行的方法，其中所述分类器具有至少80％的特异性。

9.权利要求1的计算机执行的方法，其中所述癌症选自乳腺癌、胆管癌、骨癌、宫颈癌、结肠癌、结直肠癌、胆囊癌、肾癌、肝或肝细胞癌、小叶癌、肺癌、黑素瘤、卵巢癌、胰腺癌、前列腺癌、皮肤癌和睾丸癌。

10.计算机执行的评估患者相对于人群患有肺癌的可能性的方法，包括：

测量来自患者的样品中的生物标志物的组的值；

从患者得到临床参数；