CN103890586A - 肺癌生物标记及其用途 - Google Patents

肺癌生物标记及其用途 Download PDF

Info

Publication number
CN103890586A
CN103890586A CN201180074349.4A CN201180074349A CN103890586A CN 103890586 A CN103890586 A CN 103890586A CN 201180074349 A CN201180074349 A CN 201180074349A CN 103890586 A CN103890586 A CN 103890586A
Authority
CN
China
Prior art keywords
biomarker
individuality
nsclc
value
cancer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201180074349.4A
Other languages
English (en)
Other versions
CN103890586B (zh
Inventor
M·里尔-米恩
A·A·E·斯图尔特
R·M·奥斯特罗夫
S·A·威廉斯
E·N·布罗迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Private Placement Protein Body Operation Co ltd
Original Assignee
Somalogic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Somalogic Inc filed Critical Somalogic Inc
Priority to CN201610457386.8A priority Critical patent/CN106168624B/zh
Publication of CN103890586A publication Critical patent/CN103890586A/zh
Application granted granted Critical
Publication of CN103890586B publication Critical patent/CN103890586B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57407Specifically defined cancers
    • G01N33/57423Specifically defined cancers of lung
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/60Complex ways of combining multiple protein biomarkers for diagnosis

Abstract

本申请包括用于检测和诊断非小细胞肺癌和一般癌症的生物标记、方法、装置、试剂、系统和试剂盒。在一个方面,本申请提供了生物标记,其可以单独或以多种组合使用,以诊断非小细胞肺癌或一般癌症。在另一个方面,提供了用于诊断个体中的非小细胞肺癌的方法,其中所述方法包括在来自个体的生物样品中检测至少一个生物标记值,其对应于选自表1中提供的生物标记组的至少一种生物标记,其中基于所述至少一个生物标记值,将所述个体分类为具有肺癌,或测定所述个体具有肺癌的似然性。在另一个方面,提供了用于诊断个体中的癌症的方法,其中所述方法包括在来自个体的生物样品中检测至少一个生物标记值,其对应于选自表19中提供的生物标记组的至少一种生物标记,其中基于所述至少一个生物标记值,将所述个体分类为具有癌症,或测定所述个体具有癌症的似然性。

Description

肺癌生物标记及其用途
技术领域
本申请大体上涉及生物标记的检测和个体中的癌症诊断,并且更具体而言,涉及用于诊断个体中的癌症更特别地肺癌的一种或多种生物标记、方法、装置、试剂、系统和试剂盒。
背景技术
下述说明书提供了与本申请有关的信息概括,并且并非承认本文提供的信息或参考的出版物中的任何是本申请的现有技术。
与任何其他类型的癌症相比较,更多人死于肺癌。这对于男性和女性都是真实的。肺癌负责比乳腺癌、前列腺癌和结肠癌组合更多的死亡。肺癌负责估计的157,300例死亡,或在2010年美国中的所有癌症死亡的28%。据估计在2010年,116,750名男性和105,770名女性将被诊断有肺癌,并且86,220名男性和71,080名女性将死于肺癌(Jemal,CA Cancer J Clin2010;60:277)。在美国的男性中,肺癌是白人、黑人、亚洲人/太平洋岛民、美洲印第安人/阿拉斯加原住民和西班牙男性中的第二大最常见癌症。在美国的女性中,肺癌是白人、黑人和美洲印第安人/阿拉斯加原住民女性中的第二大最常见癌症,并且是亚洲人/太平洋岛民和西班牙女性中的第三大最常见癌症。对于不戒烟的那些人,死于肺癌的机率是15%,并且即使对于在50-59岁戒除的那些人也仍高于5%。单独在美国每年肺癌的医疗保健费用是$950亿。
通过吸烟引起的百分之九十一肺癌是非小细胞肺癌(NSCLC),其代表所有肺癌的约85%。所有肺癌的剩余15%是小细胞肺癌,尽管混合细胞型肺癌的确发生。因为小细胞肺癌是罕见和快速致命的,所以关于早期检测的机会很小。
存在三个主要类型的NSCLC:鳞状细胞癌、大细胞癌和腺癌。腺癌是最常见的肺癌形式(30%-65%),并且是吸烟者和非吸烟者中最常发现的肺癌。鳞状细胞癌负责所有肺癌的25-30%,并且一般在近端支气管中发现。早期NSCLC趋于局部性,并且如果早期检测到,则它通常可以通过用手术进行治疗,具有有利结果和改善存活。其他治疗选项包括辐射治疗、药物疗法和这些方法的组合。
NSCLC通过肿瘤大小及其在其他组织包括淋巴结中的存在进行分期。在隐匿期,癌细胞可以在痰样品或灌洗样品中发现,并且在肺中无法检测到肿瘤。在0期中,仅最里面的肺衬里显示出癌细胞,并且肿瘤不生长通过衬里。在IA期中,癌症视为局部侵袭性的,并且已生长深入肺组织内,但肿瘤小于3cm直径。在这个时期,肿瘤未在主支气管或淋巴结中发现。在IB期中,肿瘤大于3cm直径或已生长到支气管或胸膜内,但仍未生长到淋巴结内。在IIA期中,肿瘤小于7cm直径,并且可能已生长到淋巴结内。在IIB期中,肿瘤已在淋巴结中发现并大于5cm直径,或生长到支气管或胸膜内;或者癌症未在淋巴结中,但在胸壁、横膈膜、胸膜、支气管或围绕心脏的组织中发现,或分开的肿瘤结节存在于肺的相同叶中。在IIIA期中,癌细胞在肺和支气管附近的淋巴结中,以及在肺之间但在肿瘤定位于其中的胸部侧面上的那些中发现。IIIB期,癌细胞定位于胸部与肿瘤的相对侧上或颈部中。肺附近的其他器官也可以具有癌细胞,并且多个肿瘤可以在一个肺叶中发现。在IV期中,肿瘤在相同肺的超过一个叶或两个肺中发现,并且癌细胞在机体的其他部分中发现。
用于肺癌诊断的目前方法包括就癌细胞测试痰、胸部x线、气道的纤维光学评估和活组织检查、和低剂量螺旋计算机断层摄影术(CT)。痰细胞学具有极低灵敏度。胸部X线也是相对不灵敏的,要求病变大小为大于1cm才可见。支气管镜检查要求肿瘤在对支气管镜可接近的气道内部可见。最广泛公认的诊断方法是低剂量胸部CT,但与X线共同,CT的使用涉及电离辐射,其自身可以引起癌症。CT还具有显著局部性:扫描需要高水平的专门技能加以解释,并且观察到的异常中的许多事实上不是肺癌,并且在随访CT发现中产生大量医疗保健费用。最常见的偶然发现是良性肺结节。
肺部结节是定位在肺内的相对圆形的病变,或异常组织的区域,并且大小可以不同。肺部结节可以是良性或癌性的,但大多数是良性的。如果结节低于4mm,则流行率仅为1.5%,如果结节为4-8mm,则流行率大约为6%,并且如果结节超过20mm,则发生率大约为20%。对于小型和中等大小的结节,患者建议经历在三个月到一年内的重复扫描。对于许多大结节,患者接受活组织检查(其是侵袭性的并且可以导致并发症),即使这些中的大多数是良性的。
因此,需要可以替代或补充CT的诊断方法,以减少进行的外科手术次数且使手术并发症的危险降到最低。另外,即使在肺结节不存在或未知时,也需要检测处于其早期的肺癌以改善患者结果的方法。与其中5年存活率仅为13%的在晚期时诊断的那些的84%相比较,仅16%的肺癌病例诊断为局部性、早期癌症,其中5年存活率为46%。这证实依赖症状用于诊断并非有用的,因为其中许多是其他肺疾病共同的,并且通常仅在肺癌的晚期存在。这些症状包括持续咳嗽、血痰、胸痛和复发性支气管炎或肺炎。
当存在癌症中的早期诊断方法时,利益是医学界一般公认的。已广泛利用筛选方案的癌症具有最高的5年存活率,例如乳腺癌(88%)和结肠癌(65%)相对于肺癌的16%。然而,如果癌症通过筛选在I期时诊断,则高达88%的肺癌患者存活十年或更久。这证实关于可以可靠地检测早期NSCLC的诊断方法的明确需要。
关于特异性疾病状态的生物标记选择涉及首先鉴定这样的标记,与关于特异性医学应用的对照群体相比较,所述标记在疾病群体中具有可测量和统计上显著的差异。生物标记可以包括分泌或脱落的分子,其与疾病发展或进展平行,并且响应病变容易地从肺组织或远侧组织扩散到血流内。它们还可以包括由细胞响应肿瘤制备的蛋白质。鉴定的生物标记或生物标记组一般是临床上验证的,或显示为用于它就其选择的原始预期用途的可靠指示物。生物标记可以包括小分子、代谢产物、肽、蛋白质和核酸。影响生物标记鉴定的关键问题中的一些包括可用数据的过拟合和数据中的偏差。
多种方法已用于鉴定生物标记和诊断疾病的尝试中。对于基于蛋白质的标记,这些包括双向电泳、质谱法和免疫测定方法。对于核酸标记,这些包括mRNA表达谱分析、微小RNA谱分析、FISH、基因表达系列分析(SAGE)和大规模基因表达阵列。
双向电泳的效用受限于低检测灵敏度;关于蛋白质溶解度、电荷和疏水性的问题;凝胶再现性;和单个斑点代表多种蛋白质的可能性。对于质谱法,取决于使用的形式,局限性局限性围绕样品加工和分离、对低丰度蛋白质的灵敏度、信噪比考虑、和立即鉴定检测到的蛋白质的无能性。关于生物标记发现的免疫测定方法中的局限性集中于基于抗体的多路测定法测量大量分析物的无能性。可以仅印刷高质量抗体的阵列,并且无需夹心,测量与这些抗体结合的分析物。(这将是使用核酸序列的全基因组通过杂交测量生物体或细胞中的所有DNA或RNA序列的等价形式。杂交实验因为杂交可以是关于同一性的严格测试而起作用。即使非常良好的抗体在选择其结合配偶体以在血液或甚至细胞提取物的背景下起作用也不够严格,因为在这些基质中的蛋白质总体具有非常不同的丰度)。因此,必须使用与生物标记发现的基于免疫测定法的方法不同的方法,将需要使用多路ELISA测定法(即,夹心)以获得足够的严格性来同时测量许多分析物,以决定哪些分析物是真正的生物标记。夹心免疫测定法无法按比例扩大至高含量,并且因此使用严格夹心免疫测定法的生物标记发现使用标准阵列形式是不可能的。最后,抗体试剂具有大量批次可变性和试剂不稳定性的缺点。关于蛋白质生物标记发现的即时平台克服了这个问题。
这些方法中的许多依赖或要求在分析前的一些类型的样品分级。因此,运行足够有力的研究所需的样品制备是非常困难、昂贵和耗时的,所述研究设计为鉴定/发现在一系列明确定义的样品群体中的统计上有关的生物标记。在分级过程中,广泛范围的可变性可以引入多种样品中。例如,潜在标记可以是对于过程不稳定的,标记的浓度可以改变,可以发生不适当的聚集或崩解,并且可以发生非故意的样品污染,并且因此使在早期疾病中预料的微妙变化模糊。
广泛公认使用这些技术的生物标记发现和检测方法具有关于鉴定诊断生物标记的严重局限性。这些局限性包括检测低丰度生物标记的无能性、一致地覆盖蛋白质组的整个动态范围的无能性、样品加工和分级中的不可再现性,以及方法的总体不可再现性和稳固性的缺乏。进一步地,这些研究已将偏差引入数据内,并且无法充分解决样品群体的复杂性,包括在鉴定且验证靶疾病群体内的生物标记所需的分布和随机化方面的适当控制。
尽管旨在发现新型有效生物标记的努力已持续了数十年,但努力在很大程度上是不成功的。关于多种疾病的生物标记通常已在科研实验室中得到鉴定,通常通过在对一些疾病过程进行基础研究时的意外发现。基于发现和少量临床数据,公开了提示新生物标记鉴定的论文。然而,这些提议的生物标记中的大多数仍未证实为真实或有用的生物标记,主要是因为测试的小数目的临床样品仅提供事实上已发现有效生物标记的弱统计证据。即,初始鉴定关于统计学的基本要素是不严格的。在1994年直到2003年中的每一年,科学文献的搜索显示公开了针对生物标记的数千篇参考文献。然而,在该相同时期中,FDA每年批准至多三种新蛋白质生物标记用于诊断用途,并且在几年中,未批准新蛋白质生物标记。
基于失败的生物标记发现努力的历史,已提出进一步促进一般理解的数学理论:关于疾病的生物标记是罕见且难以发现的。基于2D凝胶或质谱法的生物标记研究支持这些概念。非常少的有用的生物标记已通过这些方法加以鉴定。然而,2D凝胶和质谱法测量以大约1nM及更高的浓度存在于血液中的蛋白质,并且这个蛋白质总体很可能最不可能随着疾病改变,这是通常被忽略的。除即时生物标记发现平台外,不存在蛋白质组学生物标记发现平台,其能够精确地测量处于低得多的浓度的蛋白质表达水平。
关于复杂人生物学的生物化学途径了解很多。许多生物化学途径由分泌蛋白质达到顶点或起始,所述分泌蛋白质在病理状态内局部起作用,例如分泌生长因子以刺激病理状态中的其他细胞复制,并且分泌其他因子以避开免疫系统等等。虽然这些分泌蛋白质中的许多以旁分泌形式工作,但一些在机体内远侧操作。具有生物化学途径的基础理解的本领域技术人员将理解许多病理状态特异性蛋白质应当以低于(甚至远低于)2D凝胶和质谱法的检测限的浓度存在于血液中。必须领先于这种相对丰富数目的疾病生物标记鉴定的是蛋白质组学平台,其可以分析其浓度低于可通过2D凝胶或质谱法检测的那些的蛋白质。
相应地,存在关于生物标记、方法、装置、试剂、系统和试剂盒的需要,其使下述成为可能:(a)对肺癌筛选高危吸烟者,(b)区分良性肺部结节与恶性肺部结节;(c)检测肺癌生物标记;和(d)诊断肺癌。
发明内容
本申请包括用于检测和诊断癌症和更特别地NSCLC的生物标记、方法、试剂、装置、系统和试剂盒。本申请的生物标记使用基于适体(aptamer)的多路测定法进行鉴定,所述基于适体的多路测定法在实施例1中详细描述。通过使用本文描述的基于适体的生物标记鉴定方法,本申请描述了令人惊讶的大量可用于NSCLC检测和诊断的NSCLC生物标记,以及大量可用于更一般的癌症检测和诊断的癌症生物标记。在鉴定这些生物标记中,测量来自数百份单个样品的超过1000种蛋白质,其中一些处于低飞摩尔范围中的浓度。这比用2D凝胶和/或质谱法完成的生物标记发现实验低约四个数量级。
虽然所述NSCLC生物标记中的某些可单独用于检测且诊断NSCLC,但本文描述了用于分组多个NSCLC生物标记子集的方法,所述多个NSCLC生物标记子集可用作生物标记实验对象组。一旦单个生物标记或生物标记子集已得到鉴定,就可以使用任何测定法平台或形式完成个体中的NSCLC检测或诊断,所述测定法平台或形式能够测量生物样品中的所选一种或多种生物标记水平中的差异。
然而,仅通过使用本文描述的基于适体的生物标记鉴定方法能够鉴定本文公开的NSCLC生物标记,在所述鉴定方法中,从先前已诊断为具有或不具有NSCLC的大量个体中单个筛选超过1000个分开的潜在生物标记值。这种发现方法与来自条件培养基或裂解细胞的生物标记发现形成鲜明对比,因为它查询不需要转变为人病理状态的与患者更相关的系统。
因此,在本申请的一个方面,提供了用于单独或以多种组合使用的一种或多种生物标记,以诊断NSCLC或允许鉴别诊断NSCLC与良性状况,例如在用CT扫描或其他成像方法鉴定的具有不确定肺部结节的个体中发现的那些,就NSCLC筛选高危吸烟者,并且诊断具有NSCLC的个体。示例性实施方案包括表1中提供的生物标记,其如上所述使用实施例1中一般描述以及实施例2和5中更具体描述的基于适体的多路测定法进行鉴定。表1中提供的标记可用于诊断高危群体中的NSCLC,并且用于区分具有不确定肺部结节的个体中的良性肺部疾病与NSCLC。
虽然所述NSCLC生物标记中的某些可单独用于检测且诊断NSCLC,但本文还描述了用于分组多个NSCLC生物标记子集的方法,所述多个NSCLC生物标记子集各自可用作两种或更多种生物标记的实验对象组。因此,本申请的多个实施方案提供了包含N种生物标记的组合,其中N是至少两种生物标记。在其他实施方案中,N选择为来自2-59种生物标记的任何数目。
在另外其他实施方案中,N选择为来自2-5、2-10、2-15、2-20、2-25、2-30、2-35、2-40、2-45、2-50、2-55或2-59的任何数目。在其他实施方案中,N选择为来自3-5、3-10、3-15、3-20、3-25、3-30、3-35、3-40、3-45、3-50、3-55或3-59的任何数目。在其他实施方案中,N选择为来自4-5、4-10、4-15、4-20、4-25、4-30、4-35、4-40、4-45、4-50、4-55或4-59的任何数目。在其他实施方案中,N选择为来自5-10、5-15、5-20、5-25、5-30、5-35、5-40、5-45、5-50、5-55或5-59的任何数目。在其他实施方案中,N选择为来自6-10、6-15、6-20、6-25、6-30、6-35、6-40、6-45、6-50、6-55或6-59的任何数目。在其他实施方案中,N选择为来自7-10、7-15、7-20、7-25、7-30、7-35、7-40、7-45、7-50、7-55或7-59的任何数目。在其他实施方案中,N选择为来自8-10、8-15、8-20、8-25、8-30、8-35、8-40、8-45、8-50、8-55或8-59的任何数目。在其他实施方案中,N选择为来自9-10、9-15、9-20、9-25、9-30、9-35、9-40、9-45、9-50、9-55或9-59的任何数目。在其他实施方案中,N选择为来自10-15、10-20、10-25、10-30、10-35、10-40、10-45、10-50、10-55或10-59的任何数目。应当理解N可以选择为包含类似或更高级别的范围。
在另一个方面,提供了用于诊断个体中的NSCLC的方法,该方法包括在来自个体的生物样品中检测至少一个生物标记值,其对应于选自表1中提供的生物标记组的至少一种生物标记,其中该个体基于至少一个生物标记值分类为具有NSCLC。
在另一个方面,提供了用于诊断个体中的NSCLC的方法,该方法包括在来自个体的生物样品中检测生物标记值,其各自对应于选自表1中阐述的生物标记组的至少N种生物标记之一,其中该个体具有NSCLC的似然性基于生物标记值进行测定。
在另一个方面,提供了用于诊断个体中的NSCLC的方法,该方法包括在来自个体的生物样品中检测生物标记值,其各自对应于选自表1中阐述的生物标记组的至少N种生物标记之一,其中该个体基于生物标记值分类为具有NSCLC,并且其中N=2-10。
在另一个方面,提供了用于诊断个体中的NSCLC的方法,该方法包括在来自个体的生物样品中检测生物标记值,其各自对应于选自表1中阐述的生物标记组的至少N种生物标记之一,其中该个体具有NSCLC的似然性基于生物标记值进行测定,并且其中N=2-10。
在另一个方面,提供了用于诊断个体不具有NSCLC的方法,该方法包括在来自个体的生物样品中检测至少一个生物标记值,其对应于选自表1中阐述的生物标记组的至少一种生物标记,其中该个体基于至少一个生物标记值分类为不具有NSCLC。
在另一个方面,提供了用于诊断个体不具有NSCLC的方法,该方法包括在来自个体的生物样品中检测生物标记值,其各自对应于选自表1中阐述的生物标记组的至少N种生物标记之一,其中该个体基于生物标记值分类为不具有NSCLC,并且其中N=2-10。
在另一个方面,提供了用于诊断NSCLC的方法,该方法包括在来自个体的生物样品中检测生物标记值,其各自对应于在N种生物标记组的实验对象组上的生物标记,其中所述生物标记选自表1中阐述的生物标记组,其中所述生物标记值的分类指示个体具有NSCLC,并且其中N=3-10。
在另一个方面,提供了用于诊断NSCLC的方法,该方法包括在来自个体的生物样品中检测生物标记值,其各自对应于在选自表2-11中阐述的实验对象组的生物标记实验对象组上的生物标记,其中所述生物标记值的分类指示个体具有NSCLC。
在另一个方面,提供了用于诊断不存在NSCLC的方法,该方法包括在来自个体的生物样品中检测生物标记值,其各自对应于在N种生物标记组的实验对象组上的生物标记,其中所述生物标记选自表1中阐述的生物标记组,其中所述生物标记值的分类指示个体中不存在NSCLC,并且其中N=3-10。
在另一个方面,提供了用于诊断不存在NSCLC的方法,该方法包括在来自个体的生物样品中检测生物标记值,其各自对应于在N种生物标记组的实验对象组上的生物标记,其中所述生物标记选自表1中阐述的生物标记组,其中所述生物标记值的分类指示个体中不存在NSCLC,并且其中N=3-10。
在另一个方面,提供了用于诊断不存在NSCLC的方法,该方法包括在来自个体的生物样品中检测生物标记值,其各自对应于在选自表2-11中提供的实验对象组的生物标记实验对象组上的生物标记,其中所述生物标记值的分类指示个体中不存在NSCLC。
在另一个方面,提供了用于诊断个体中的NSCLC的方法,该方法包括在来自个体的生物样品中检测生物标记值,其对应于选自表1中阐述的生物标记组的至少N种生物标记之一,其中该个体基于衍生自预定阈值的分类评分而分类为具有NSCLC,并且其中N=2-10。
在另一个方面,提供了用于诊断个体中不存在NSCLC的方法,该方法包括在来自个体的生物样品中检测生物标记值,其对应于选自表1中阐述的生物标记组的至少N种生物标记之一,其中所述个体基于衍生自预定阈值的分类评分而分类为不具有NSCLC,并且其中N=2-10。
在另一个方面,提供了用于指示NSCLC似然性的计算机执行方法。该方法包括:在计算机上检索关于个体的生物标记信息,其中该生物标记信息包含各自对应于选自表1中阐述的生物标记组的至少N种生物标记之一的生物标记值,其中N如上定义;用计算机进行生物标记值各自的分类;并且基于多个分类指示个体具有NSCLC的似然性。
在另一个方面,提供了用于将个体分类为具有或不具有NSCLC的计算机执行方法。该方法包括:在计算机上检索关于个体的生物标记信息,其中该生物标记信息包含各自对应于选自表1中提供的生物标记组的至少N种生物标记之一的生物标记值;用计算机进行生物标记值各自的分类;并且基于多个分类指示个体是否具有NSCLC。
在另一个方面,提供了用于指示NSCLC似然性的计算机程序产品。该计算机程序产品包括收录可由计算装置或系统的处理器执行的程序代码的计算机可读介质,该程序代码包含:检索归于来自个体的生物样品的数据的代码,其中该数据包含在生物样品中各自对应于选自表1中阐述的生物标记组的至少N种生物标记之一的生物标记值,其中N如上定义;和执行分类方法的代码,所述分类方法根据生物标记值指示个体具有NSCLC的似然性。
在另一个方面,提供了用于指示个体的NSCLC状态的计算机程序产品。该计算机程序产品包括收录可由计算装置或系统的处理器执行的程序代码的计算机可读介质,该程序代码包含:检索归于来自个体的生物样品的数据的代码,其中该数据包含在生物样品中各自对应于选自表1中提供的生物标记组的至少N种生物标记之一的生物标记值;和执行分类方法的代码,所述分类方法根据生物标记值指示个体的NSCLC状态。
在另一个方面,提供了用于指示NSCLC似然性的计算机执行方法。该方法包括:在计算机上检索关于个体的生物标记信息,其中该生物标记信息包含对应于选自表1中阐述的生物标记组的生物标记的生物标记值;用计算机进行生物标记值的分类;并且基于分类法指示个体具有NSCLC的似然性。
在另一个方面,提供了用于将个体分类为具有或不具有NSCLC的计算机执行方法。该方法包括由计算机检索关于个体的生物标记信息,其中该生物标记信息包含对应于选自表1中提供的生物标记组的生物标记的生物标记值;用计算机进行生物标记值的分类;并且基于分类法指示个体是否具有NSCLC。
在另外一个方面,提供了用于指示NSCLC似然性的计算机程序产品。该计算机程序产品包括收录可由计算装置或系统的处理器执行的程序代码的计算机可读介质,该程序代码包含:检索归于来自个体的生物样品的数据的代码,其中该数据包含在生物样品中对应于选自表1中阐述的生物标记组的生物标记的生物标记值;和执行分类方法的代码,所述分类方法根据生物标记值指示个体具有NSCLC的似然性。
在另外一个方面,提供了用于指示个体的NSCLC状态的计算机程序产品。该计算机程序产品包括收录可由计算装置或系统的处理器执行的程序代码的计算机可读介质,该程序代码包含:检索归于来自个体的生物样品的数据的代码,其中该数据包含在生物样品中对应于选自表1中提供的生物标记组的生物标记的生物标记值;和执行分类方法的代码,所述分类方法根据生物标记值指示个体的NSCLC状态。
虽然所述生物标记中的某些也可单独用于检测且诊断一般癌症,但本文描述了用于分组多个生物标记子集的方法,所述多个生物标记子集可用作检测且诊断一般而言的癌症的生物标记实验对象组。一旦单个生物标记或生物标记子集已得到鉴定,就可以使用任何测定法平台或形式完成个体中的癌症检测或诊断,所述测定法平台或形式能够测量生物样品中的所选一种或多种生物标记水平中的差异。
然而,仅通过使用本文描述的基于适体的生物标记鉴定方法能够鉴定本文公开的癌症生物标记,在所述鉴定方法中,从先前已诊断为具有或不具有癌症的大量个体中单个筛选超过1000个分开的潜在生物标记值。这种发现方法与来自条件培养基或裂解细胞的生物标记发现形成鲜明对比,因为它查询不需要转变为人病理状态的与患者更相关的系统。
因此,在本申请的一个方面,提供了用于单独或以多种组合使用的一种或多种生物标记,以诊断癌症。示例性实施方案包括表19中提供的生物标记,其使用实施例1中一般描述和实施例6中更具体描述的基于适体的多路测定法进行鉴定。表19中提供的标记可用于区分具有癌症的个体与不具有癌症的那些。
虽然所述癌症生物标记中的某些可单独用于检测且诊断癌症,但本文还描述了用于分组多个癌症生物标记子集的方法,所述多个癌症生物标记子集各自可用作三种或更多种生物标记的实验对象组。因此,本申请的多个实施方案提供了包含N种生物标记的组合,其中N是至少三种生物标记。在其他实施方案中,N选择为来自3-23种生物标记的任何数目。
在另外其他实施方案中,N选择为来自2-5、2-10、2-15、2-20或2-23的任何数目。在其他实施方案中,N选择为来自3-5、3-10、3-15、3-20或3-23的任何数目。在其他实施方案中,N选择为来自4-5、4-10、4-15、4-20或4-23的任何数目。在其他实施方案中,N选择为来自5-10、5-15、5-20或5-23的任何数目。在其他实施方案中,N选择为来自6-10、6-15、6-20或6-23的任何数目。在其他实施方案中,N选择为来自7-10、7-15、7-20或7-23的任何数目。在其他实施方案中,N选择为来自8-10、8-15、8-20或8-23的任何数目。在其他实施方案中,N选择为来自9-10、9-15、9-20或9-23的任何数目。在其他实施方案中,N选择为来自10-15、10-20或10-23的任何数目。应当理解N可以选择为包含类似或更高级别的范围。
在另一个方面,提供了用于诊断个体中的癌症的方法,该方法包括在来自个体的生物样品中检测生物标记值,其各自对应于选自表19中阐述的生物标记组的至少N种生物标记之一,其中该个体具有癌症的似然性基于生物标记值进行测定,并且其中N=2-10。
在另一个方面,提供了用于诊断个体中的癌症的方法,该方法包括在来自个体的生物样品中检测生物标记值,其各自对应于选自表19中阐述的生物标记组的至少N种生物标记之一,其中该个体具有癌症的似然性基于生物标记值进行测定。
在另一个方面,提供了用于诊断个体中的癌症的方法,该方法包括在来自个体的生物样品中检测生物标记值,其各自对应于选自表19中阐述的生物标记组的至少N种生物标记之一,其中该个体基于生物标记值分类为具有癌症,并且其中N=3-10。
在另一个方面,提供了用于诊断个体中的癌症的方法,该方法包括在来自个体的生物样品中检测生物标记值,其各自对应于选自表19中阐述的生物标记组的至少N种生物标记之一,其中该个体具有癌症的似然性基于生物标记值进行测定,并且其中N=3-10。
在另一个方面,提供了用于诊断个体不具有癌症的方法,该方法包括在来自个体的生物样品中检测至少一个生物标记值,其对应于选自表19中阐述的生物标记组的至少一种生物标记,其中该个体基于至少一个生物标记值分类为不具有癌症。
在另一个方面,提供了用于诊断个体不具有癌症的方法,该方法包括在来自个体的生物样品中检测生物标记值,其各自对应于选自表19中阐述的生物标记组的至少N种生物标记之一,其中该个体基于生物标记值分类为不具有癌症,并且其中N=3-10。
在另一个方面,提供了用于诊断癌症的方法,该方法包括在来自个体的生物样品中检测生物标记值,其各自对应于在N种生物标记组的实验对象组上的生物标记,其中所述生物标记选自表19中阐述的生物标记组,其中所述生物标记值的分类指示个体具有癌症,并且其中N=3-10。
在另一个方面,提供了用于诊断癌症的方法,该方法包括在来自个体的生物样品中检测生物标记值,其各自对应于在选自表20-29中阐述的实验对象组的生物标记实验对象组上的生物标记,其中所述生物标记值的分类指示个体具有癌症。
在另一个方面,提供了用于诊断不存在癌症的方法,该方法包括在来自个体的生物样品中检测生物标记值,其各自对应于在N种生物标记组的实验对象组上的生物标记,其中所述生物标记选自表19中阐述的生物标记组,其中所述生物标记值的分类指示个体中不存在癌症,并且其中N=3-10。
在另一个方面,提供了用于诊断不存在癌症的方法,该方法包括在来自个体的生物样品中检测生物标记值,其各自对应于在选自表20-29中提供的实验对象组的生物标记实验对象组上的生物标记,其中所述生物标记值的分类指示个体中不存在癌症。
在另一个方面,提供了用于诊断个体中的癌症的方法,该方法包括在来自个体的生物样品中检测生物标记值,其对应于选自表19中阐述的生物标记组的至少N种生物标记之一,其中该个体基于衍生自预定阈值的分类评分而分类为具有癌症,并且其中N=3-10。
在另一个方面,提供了用于诊断个体中不存在癌症的方法,该方法包括在来自个体的生物样品中检测生物标记值,其对应于选自表19中阐述的生物标记组的至少N种生物标记之一,其中所述个体基于衍生自预定阈值的分类评分而分类为不具有癌症,并且其中N=3-10。
在另一个方面,提供了用于指示癌症似然性的计算机执行方法。该方法包括:在计算机上检索关于个体的生物标记信息,其中该生物标记信息包含各自对应于选自表19中阐述的生物标记组的至少N种生物标记之一的生物标记值,其中N如上定义;用计算机进行生物标记值各自的分类;并且基于多个分类指示个体具有癌症的似然性。
在另一个方面,提供了用于将个体分类为具有或不具有癌症的计算机执行方法。该方法包括:在计算机上检索关于个体的生物标记信息,其中该生物标记信息包含各自对应于选自表19中提供的生物标记组的至少N种生物标记之一的生物标记值;用计算机进行生物标记值各自的分类;并且基于多个分类指示个体是否具有癌症。
在另一个方面,提供了用于指示癌症似然性的计算机程序产品。该计算机程序产品包括收录可由计算装置或系统的处理器执行的程序代码的计算机可读介质,该程序代码包含:检索归于来自个体的生物样品的数据的代码,其中该数据包含在生物样品中各自对应于选自表19中阐述的生物标记组的至少N种生物标记之一的生物标记值,其中N如上定义;和执行分类方法的代码,所述分类方法根据生物标记值指示个体具有癌症的似然性。
在另一个方面,提供了用于指示个体的癌症状态的计算机程序产品。该计算机程序产品包括收录可由计算装置或系统的处理器执行的程序代码的计算机可读介质,该程序代码包含:检索归于来自个体的生物样品的数据的代码,其中该数据包含在生物样品中各自对应于选自表19中提供的生物标记组的至少N种生物标记之一的生物标记值;和执行分类方法的代码,所述分类方法根据生物标记值指示个体的癌症状态。
在另一个方面,提供了用于指示癌症似然性的计算机执行方法。该方法包括:在计算机上检索关于个体的生物标记信息,其中该生物标记信息包含对应于选自表19中阐述的生物标记组的生物标记的生物标记值;用计算机进行生物标记值的分类;并且基于分类法指示个体具有癌症的似然性。
在另一个方面,提供了用于将个体分类为具有或不具有癌症的计算机执行方法。该方法包括由计算机检索关于个体的生物标记信息,其中该生物标记信息包含对应于选自表19中提供的生物标记组的生物标记的生物标记值;用计算机进行生物标记值的分类;并且基于分类法指示个体是否具有癌症。
在另外一个方面,提供了用于指示癌症似然性的计算机程序产品。该计算机程序产品包括收录可由计算装置或系统的处理器执行的程序代码的计算机可读介质,该程序代码包含:检索归于来自个体的生物样品的数据的代码,其中该数据包含在生物样品中对应于选自表19中阐述的生物标记组的生物标记的生物标记值;和执行分类方法的代码,所述分类方法根据生物标记值指示个体具有癌症的似然性。
在另外一个方面,提供了用于指示个体的癌症状态的计算机程序产品。该计算机程序产品包括收录可由计算装置或系统的处理器执行的程序代码的计算机可读介质,该程序代码包含:检索归于来自个体的生物样品的数据的代码,其中该数据包含在生物样品中对应于选自表19中提供的生物标记组的生物标记的生物标记值;和执行分类方法的代码,所述分类方法根据生物标记值指示个体的癌症状态。
附图说明
图1A是用于检测生物样品中的NSCLC的示例性方法的流程图。
图1B是使用朴素贝叶斯
Figure BDA0000495129570000151
分类方法,用于检测生物样品中的NSCLC的示例性方法的流程图。
图2显示使用朴素贝叶斯分类器用于检测NSCLC的测试,关于单一生物标记MMP7的ROC曲线。
图3显示使用朴素贝叶斯分类器用于检测NSCLC的测试,来自二到十种生物标记的生物标记实验对象组的ROC曲线。
图4举例说明使用朴素贝叶斯分类法用于NSCLC实验对象组,随着生物标记的数目从一增加到十,在分类评分(AUC)中的增加。
图5显示关于合并的吸烟者和良性肺部结节对照(实线)和NSCLC疾病组(虚线),连同它们对用于训练朴素贝叶斯分类器的正常cdf(虚线)的曲线拟合,在对数转化的RFU中根据累积分布函数(cdf)测量的关于MMP7的生物标记分布。
图6举例说明用于与本文描述的多种计算机执行方法一起使用的示例性计算机系统。
图7是依照一个实施方案,关于指示个体具有NSCLC的似然性的方法的流程图。
图8是依照一个实施方案,关于指示个体具有NSCLC的似然性的方法的流程图。
图9举例说明可以用于检测生物样品中的一种或多种NSCLC生物标记的示例性适体测定法。
图10显示来自聚集的潜在生物标记集合的生物标记在构建分类器中的频率的直方图,所述分类器用于区分NSCLC以及吸烟者和良性肺部结节对照组。
图11A显示使用表1中阐述的生物标记(黑色)和随机标记集合(灰色),概括所有可能的单一蛋白质朴素贝叶斯分类器评分(AUC)的一对直方图。
图11B显示使用表1中阐述的生物标记(黑色)和随机标记集合(灰色),概括所有可能的二蛋白质蛋白质朴素贝叶斯分类器评分(AUC)的一对直方图。
图11C显示使用表1中阐述的生物标记(黑色)和随机标记集合(灰色),概括所有可能的三蛋白质朴素贝叶斯分类器评分(AUC)的一对直方图。
图12显示使用来自选自完全实验对象组的2-10种标记以及在分类器生成过程中通过放弃最佳的5、10和15种标记获得的评分,用于朴素贝叶斯分类器的AUC。
图13A显示对于来自二到五种标记的实验对象组,由表14中的数据建模的一组ROC曲线。
图13B显示如图12A中,对于来自二到五种标记的实验对象组,由训练数据计算的一组ROC曲线。
图14显示由实施例5中所述的临床生物标记实验对象组计算的ROC曲线。
图15A和15B显示由实施例6(表19)中所述的贪婪选择程序选择的十种癌症生物标记和1,000个随机取样的十种“非标记”生物标记集合之间的性能比较。关于表19中的十种癌症生物标记的平均AUC显示为垂直虚线。在图15A中,十种“非标记”的集合是随机选择的,其未通过实施例6中所述的贪婪选择程序加以选择。在图15B中,使用与15A相同的程序;然而,取样局限于来自表1的剩余49种NSCLC生物标记,其未通过实施例6中所述的贪婪选择程序加以选择。
图16显示关于表31中阐述的3种朴素贝叶斯分类器的接受者操作特征(ROC)曲线。对于每项研究,曲线下面积(AUC)也紧靠图例展示。
具体实施方式
现在详细参考本发明的代表性实施方案。虽然本发明与例举的实施方案结合描述,但应当理解本发明并不预期限制于这些实施方案。相反,本发明预期涵盖所有替代方案、修饰和等价物,其可以包括在如由权利要求定义的本发明的范围内。
本领域技术人员将认识到与本文描述的那些相似或等价的许多方法和材料,其可以用于本发明的实践中并且在本发明实践的范围内。本发明决不限于所述方法和材料。
除非另有定义,否则本文使用的技术和科学术语具有与本发明所属领域普通技术人员通常理解相同的含义。尽管现在描述了优选方法、装置和材料,但与本文描述的那些相似或等价的任何方法、装置和材料均可用于本发明的实践或测试中。
本申请中引用的所有出版物、公开专利文件和专利申请指示本申请所属一个或多个领域的技术水平。本文引用的所有出版物、公开专利文件和专利申请在此引入作为参考,其程度与每个单个出版物、公开专利文件或专利申请特别并单个指出引入作为参考相同。
如本申请包括所附权利要求中使用的,除非内容另有明确说明,否则单数形式“一个”、“一种”和“该/所述”包括复数参考,并且可与“至少一个/种”和“一个或多个/一种或多种”互换使用。因此,提及“适体”包括适体混合物,提及“探针”包括探针混合物等等。
如本文使用的,术语“约”代表无关紧要的数值修饰或变化,从而使得数值与其有关的项目的基本功能未改变。
如本文使用的,术语“包含”、“包括”、“含有”及其任何变化,预期涵盖非排他性包括,从而使得包含、包括或含有元件或元件列表的过程、方法、过程产物(product-by-process)或物质组合物不包括仅这些元件,而是可以包括未明确列出或者此类过程、方法、过程产物或物质组合物固有的其他元件。
本申请包括用于检测和诊断NSCLC和更一般的癌症的生物标记、方法、装置、试剂、系统和试剂盒。
在一个方面,提供了用于单独或以多种组合使用的一种或多种生物标记,以诊断NSCLC,允许鉴别诊断在用CT扫描或其他成像方法鉴定的具有不确定肺部结节的个体中发现的NSCLC与非恶性状况,就NSCLC筛选高危吸烟者,并且诊断具有NSCLC的个体,鉴定NSCLC复发,或解决其他临床适应症。如下文详细描述的,示例性实施方案包括表1中提供的生物标记,其使用实施例1中一般描述和实施例2中更具体描述的基于适体的多路测定法进行鉴定。
表1中阐述得自分析数百份来自NSCLC病例的个体血样,以及数百份来自高危吸烟者和良性肺部结节的等价个体对照血样的发现。吸烟者和良性肺部结节对照组设计为匹配NSCLC诊断测试对于其可以具有最大利益的群体,包括无症状的个体和有症状的个体。这些病例和对照得自多个临床场所,以模拟在其下可以应用此类测试的真实世界条件的范围。潜在生物标记在单个样品而不是合并的疾病和对照血液中进行测量;这允许在与疾病(在这种情况下NSCLC)的存在和不存在相关的表型中的个体和组变异的更佳理解。因为对每份样品进行超过1000次蛋白质测量,并且单个测量来自疾病和对照群体各自的数百份样品,所以表1起因于罕见的大型数据集的分析。测量使用本文部分“生物标记的分类和疾病评分的计算”中所述的方法进行分析。表1列出了发现可用于区分得自具有NSCLC的个体的样品与得自吸烟者和良性肺部结节的“对照”样品的59种生物标记。
虽然所述NSCLC生物标记中的某些可单独用于检测且诊断NSCLC,但本文还描述了用于分组多个NSCLC生物标记子集的方法,其中每个分组或子集选择可用作三种或更多种生物标记的实验对象组,在本文中可互换地被称为“生物标记实验对象组(biomarker panel)”和实验对象组(panel)。因此,本申请的多个实施方案提供了包含N种生物标记的组合,其中N是至少两种生物标记。在其他实施方案中,N选自2-59种生物标记。
在另外其他实施方案中,N选择为来自2-5、2-10、2-15、2-20、2-25、2-30、2-35、2-40、2-45、2-50、2-55或2-59的任何数目。在其他实施方案中,N选择为来自3-5、3-10、3-15、3-20、3-25、3-30、3-35、3-40、3-45、3-50、3-55或3-59的任何数目。在其他实施方案中,N选择为来自4-5、4-10、4-15、4-20、4-25、4-30、4-35、4-40、4-45、4-50、4-55或4-59的任何数目。在其他实施方案中,N选择为来自5-10、5-15、5-20、5-25、5-30、5-35、5-40、5-45、5-50、5-55或5-59的任何数目。在其他实施方案中,N选择为来自6-10、6-15、6-20、6-25、6-30、6-35、6-40、6-45、6-50、6-55或6-59的任何数目。在其他实施方案中,N选择为来自7-10、7-15、7-20、7-25、7-30、7-35、7-40、7-45、7-50、7-55或7-59的任何数目。在其他实施方案中,N选择为来自8-10、8-15、8-20、8-25、8-30、8-35、8-40、8-45、8-50、8-55或8-59的任何数目。在其他实施方案中,N选择为来自9-10、9-15、9-20、9-25、9-30、9-35、9-40、9-45、9-50、9-55或9-59的任何数目。在其他实施方案中,N选择为来自10-15、10-20、10-25、10-30、10-35、10-40、10-45、10-50、10-55或10-59的任何数目。应当理解N可以选择为包含类似或更高级别的范围。
在一个实施方案中,可用于生物标记子集或实验对象组的生物标记数目基于关于生物标记值的特定组合的灵敏度和特异性值。术语“灵敏度”和“特异性”在本文中关于基于在其生物样品中检测到的一个或多个生物标记值,将个体正确分类为具有NSCLC或不具有NSCLC的能力使用。“灵敏度”指示一种或多种生物标记关于正确分类具有NSCLC的个体的性能。“特异性”指示一种或多种生物标记关于正确分类不具有NSCLC的个体的性能。例如,关于用于测试对照样品和NSCLC样品集合的标记实验对象组的85%特异性和90%灵敏度指示:85%的对照样品由实验对象组正确分类为对照样品,并且90%NSCLC样品由实验对象组正确分类为NSCLC样品。所需或优选最小值可以如实施例3中所述进行测定。代表性实验对象组在表4-11中阐述,其阐述具有3-10种生物标记的一系列100个不同实验对象组,其具有关于每个实验对象组的指示特异性和灵敏度水平。每种标记在这些实验对象组各自中出现的总数目在表12中指示。
在一个方面,通过对来自个体的生物样品进行测定法,并且检测生物标记值,来检测或诊断个体中的NSCLC,所述生物标记值各自对应于生物标记MMP7、CLIC1或STXIA中的至少一种和选自表1中的生物标记列表的至少N种另外生物标记,其中N等于2、3、4、5、6、7、8或9。在进一步方面,通过对来自个体的生物样品进行测定法,并且检测生物标记值,来检测或诊断个体中的NSCLC,所述生物标记值各自对应于生物标记MMP7、CLIC1或STXIA和选自表1中的生物标记列表的至少N种另外生物标记之一,其中N等于1、2、3、4、5、6或7。在进一步方面,通过对来自个体的生物样品进行测定法,并且检测生物标记值,来检测或诊断个体中的NSCLC,所述生物标记值各自对应于生物标记MMP7和选自表1中的生物标记列表的至少N种另外生物标记之一,其中N等于2、3、4、5、6、7、8或9。在进一步方面,通过对来自个体的生物样品进行测定法,并且检测生物标记值,来检测或诊断个体中的NSCLC,所述生物标记值各自对应于生物标记CLIC1和选自表1中的生物标记列表的至少N种另外生物标记之一,其中N等于2、3、4、5、6、7、8或9。在进一步方面,通过对来自个体的生物样品进行测定法,并且检测生物标记值,来检测或诊断个体中的NSCLC,所述生物标记值各自对应于生物标记STXIA和选自表1中的生物标记列表的至少N种另外生物标记之一,其中N等于2、3、4、5、6、7、8或9。
本文鉴定的NSCLC生物标记代表相对大量的关于生物标记子集或实验对象组的选择,所述生物标记可以用于有效检测或诊断NSCLC。此类生物标记的所需数目的选择依赖所选生物标记的具体组合。重要的是记住用于检测或诊断NSCLC的生物标记实验对象组还可以包括在表1中未发现的生物标记,并且在表1中未发现的另外生物标记的包括可以减少在选自表1的特定子集或实验对象组中的生物标记数目。如果另外的生物医学信息与生物标记值结合使用,以确定关于给定测定法的可接受的灵敏度与特异性值,则还可以减少在子集或实验对象组中使用的来自表1的生物标记数目。
可以影响待用于生物标记子集或实验对象组中的生物标记数目的另一种因素是用于从个体中获得生物样品的程序,所述个体待就NSCLC进行诊断。在小心控制的样品获得环境中,满足所需灵敏度和特异性值必需的生物标记数目将低于其中在样品收集、处理和贮存中可以存在更多变化的情况。在开发表1中阐述的生物标记列表中,多个样品收集场所用于收集数据用于分类器训练。这提供了对样品收集、处理和贮存中的变化更不敏感的更强大的生物标记,但如果训练数据均在非常相似的条件下获得,则还可以要求子集或实验对象组中的生物标记数目更大。
本申请的一个方面一般可以关于图1A和1B进行描述。生物样品得自一个或多个目的个体。随后测定生物样品,以检测一种或多种(N)目的生物标记的存在,并且测定关于所述N种生物标记(图1B中被称为标记RFU)各自的生物标记值。一旦已检测到生物标记并指定生物标记值,就如本文详细描述的对每种标记进行评分或分类。随后合并标记评分,以提供总诊断评分,其指示样品由其获得的个体具有NSCLC的似然性。
如本文使用的,“肺”可以可互换地被称为“肺的”。
如本文使用的,“吸烟者”指具有烟草烟雾吸入史的个体。
“生物样品”、“样品”和“测试样品”在本文中可互换使用,以指得自或另外衍生自个体的任何材料、生物流体、组织或细胞。这包括血液(包括全血、白细胞、外周血单核细胞、血沉棕黄层、血浆和血清)、痰、泪、粘液、鼻洗涤物、鼻抽吸物、呼吸物(breath)、尿、精液、唾液、腹膜洗涤物、囊液、脑膜液、羊水、腺液、淋巴液、细胞学液、腹水、胸膜液、乳头抽吸物、支气管抽吸物、支气管刷检、滑液、关节抽吸物、器官分泌物、细胞、细胞提取物和脑脊髓液。这还包括实验上分离的前述全部的级分。例如,血样可以分级成血清、血浆或含有特定类型血细胞例如红血细胞或白血细胞(白细胞)的级分。需要时,样品可以是来自个体的样品组合,例如组织和流体样品的组合。术语“生物样品”还包括例如含有匀浆化固体材料的材料,例如来自粪便样品、组织样品或组织活组织检查。术语“生物样品”还包括衍生自组织培养或细胞培养的材料。可以采用用于获得生物样品的任何合适方法;示例性方法包括例如放血、拭子(例如颊拭子)和细针抽吸活组织检查程序。对细针抽吸敏感的示例性组织包括淋巴结、肺、肺洗涤物、BAL(支气管肺泡灌洗液)、胸膜、甲状腺、乳房、胰腺和肝。还可以例如通过显微解剖(例如激光捕获显微解剖(LCM)或激光显微解剖(LMD))、膀胱洗涤、涂片(例如PAP涂片)或导管灌洗收集样品。得自或衍生自个体的“生物样品”包括任何此类样品,其已在得自个体后以任何合适方式进行加工。
进一步地,应认识到生物样品可以通过从许多个体获得生物样品且合并其或合并每个个体的生物样品的等分试样而获得。合并样品可以作为来自单个个体的样品进行处理,并且如果在合并样品中确定癌症的存在,则可以再测试每份个体生物样品,以测定哪个或哪些个体具有NSCLC。
为了本说明书的目的,短语“归于来自个体的生物样品的数据”意指以一些形式的数据衍生自个体的生物样品或使用个体的生物样品生成。数据可以例如通过从一个测量系统中的单位转变为另一个测量系统中的单位,在已生成后在一定程度上再格式化、修正或数学上改变;但是,数据应理解为已衍生自生物样品或使用生物样品生成。
“靶”、“靶分子”和“分析物”在本文中可互换使用,以指可以存在于生物样品中的任何目的分子。“目的分子”包括特定分子的任何较小变化,例如在蛋白质的情况下,例如在氨基酸序列、二硫键形成、糖基化、脂质化、乙酰化、磷酸化或任何其他操作或修饰例如与标记组分缀合中的较小变化,所述标记组分基本上不改变分子的特性。“靶分子”、“靶”或“分析物”是一类分子或多分子结构的拷贝或者分子或多分子结构种类的集合。“靶分子”、“靶”和“分析物”指超过一个此类分子集合。示例性靶分子包括蛋白质、多肽、核酸、碳水化合物、脂质、多糖、糖蛋白、激素、受体、抗原、抗体、亲和体、自身抗体、抗体模拟物、病毒、病原体、毒性物质、底物、代谢产物、过渡态类似物、辅因子、抑制剂、药物、染料、营养素、生长因子、细胞、组织和前述任何的任何片段或部分。
如本文使用的,“多肽”、“肽”和“蛋白质”在本文中可互换使用,以指任何长度的氨基酸聚合物。聚合物可以是线性或分支的,它可以包含经修饰的氨基酸,并且它可以由非氨基酸间断。该术语还包含已天然地或通过干预修饰的氨基酸聚合物;例如二硫键形成、糖基化、脂质化、乙酰化、磷酸化或任何其他操作或修饰,例如与标记组分缀合。在该定义内还包括的是例如含有一个或多个氨基酸类似物(包括例如非天然氨基酸等)以及本领域已知的其他修饰的多肽。多肽可以是单链或相关链。在该定义内还包括的是前蛋白和完整的成熟蛋白质;衍生自成熟蛋白质的肽或多肽;蛋白质的片段;剪接变体;重组形式的蛋白质;具有氨基酸修饰、缺失或置换的蛋白质变体;消化产物;和翻译后修饰,例如糖基化、乙酰化、磷酸化等等。
如本文使用的,“标记”和“生物标记”可互换使用,以指这样的靶分子,其指示个体中的正常或异常过程或者个体中的疾病或其他状况,或是个体中的正常或异常过程或者个体中的疾病或其他状况的征兆。更具体而言,“标记”或“生物标记”是与特定生理学状态或过程的存在相关的解剖学、生理学、生物化学或分子参数,无论是正常的还是异常的,并且如果是异常的,则无论是慢性还是急性的。生物标记是可通过多种方法包括实验室测定法和医学成像检测和测量的。当生物标记是蛋白质时,还能够使用相应基因的表达作为生物样品中的相应蛋白质生物标记、或编码生物标记的基因的甲基化状态或控制生物标记表达的蛋白质的量或存在或不存在的替代量度。
如本文使用的,“生物标记值”、“值”、“生物标记水平”和“水平”可互换使用,以指这样的测量,其使用用于检测生物样品中的生物标记的任何分析方法作出,并且指示生物样品中的生物标记、关于生物样品中的生物标记或对应于生物样品中的生物标记的存在、不存在、绝对量或浓度、相对量或浓度、滴度、水平、表达水平、测量水平的比例等等。“值”或“水平”的确切性质取决于用于检测生物标记的特定分析方法的具体设计和组分。
当生物标记指示个体中的异常过程或疾病或其他状况,或者是个体中的异常过程或疾病或其他状况的征兆时,生物标记一般描述为与生物标记(其指示个体中的正常过程或者疾病或其他状况的不存在,或者是个体中的正常过程或者疾病或其他状况的不存在的征兆)的表达水平或值相比较是过表达或表达不足的。“上调”、“上调的”、“过表达”、“过表达的”及其任何变化可互换使用,以指生物样品中的生物标记值或水平大于通常在来自健康或正常个体的相似生物样品中检测到的生物标记值或水平(或值或水平范围)。该术语还可以指生物样品中的生物标记值或水平大于可以在特定疾病的不同阶段时检测到的生物标记值或水平(或值或水平范围)。
“下调”、“下调的”、“表达不足”、“表达不足的”及其任何变化可互换使用,以指生物样品中的生物标记值或水平小于通常在来自健康或正常个体的相似生物样品中检测到的生物标记值或水平(或值或水平范围)。该术语还可以指生物样品中的生物标记值或水平小于可以在特定疾病的不同阶段时检测到的生物标记值或水平(或值或水平范围)。
进一步地,与生物标记(其指示个体中的正常过程或者疾病或其他状况的不存在,或者是个体中的正常过程或者疾病或其他状况的不存在的征兆)的“正常”表达水平或值相比较,过表达或表达不足的生物标记还可以被称为“差异表达的”或者具有“差异水平”或“差异值”。因此,生物标记的“差异表达”还可以被称为与生物标记的“正常”表达水平的变化。
术语“差异基因表达”和“差异表达”可互换使用,以指相对于其在正常或对照对象中的表达,其表达在患有特定疾病的对象中被激活至更高或更低水平的基因(或其相应蛋白质表达产物)。该术语还包括其表达在相同疾病的不同阶段时被激活至更高或更低水平的基因(或相应蛋白质表达产物)。还应当理解差异表达的基因可以在核酸水平或蛋白质水平上进行激活或抑制,或可以实施可变剪接,以导致不同的多肽产物。此类差异可以通过多种改变加以证明,所述改变包括多肽的mRNA水平、表面表达、分泌或其他分隔。差异基因表达可以包括在两种或更多种基因或其基因产物之间的表达比较;或在两种或更多种基因或其基因产物之间的表达比例的比较;或甚至相同基因的两种差异加工产物的比较,其在正常对象和患有疾病的对象之间不同;或在相同疾病的多个阶段之间不同。差异表达包括在例如正常和患病细胞中,或在已经历不同疾病事件或疾病阶段的细胞中,在基因或其表达产物中的瞬时或细胞表达模式中的定量以及定性差异两者。
如本文使用的,“个体”指测试对象或患者。个体可以是哺乳动物或非哺乳动物。在多个实施方案中,个体是哺乳动物。哺乳动物个体可以是人或非人。在多个实施方案中,个体是人。健康或正常个体是其中目的疾病或状况(包括例如肺疾病、肺相关疾病或其他肺状况)无法通过常规诊断方法检测的个体。
“诊断”及其变化指基于与个体有关的一种或多种体征、症状、数据或其他信息,该个体的健康状态或状况的检测、测定或识别。个体的健康状态可以诊断为健康/正常(即,疾病或状况的不存在的诊断)或诊断为有病/异常(即,疾病或状况的存在的诊断,或疾病或状况的特征的评价)。关于特定疾病或状况的术语“诊断”等包含疾病的初始检测;疾病的表征或分类;疾病进展、缓解或复发的检测;和在给个体施用治疗或疗法后,疾病应答的检测。NSCLC的诊断包括区分其具有癌症的个体与不具有癌症的个体。它进一步包括区分吸烟者和良性肺部结节与NSCLC。
“预后”及其变化指具有疾病或状况的个体中的疾病或状况的未来过程的预测(例如预测患者存活),并且此类术语包含在给个体施用治疗或疗法后,疾病应答的评估。
“评估”及其变化包含“诊断”和“预后”,并且还包含关于不具有疾病的个体中的疾病或状况的未来过程的测定或预测,以及关于疾病或状况将在明显已治愈疾病的个体中复发的似然性的测定或预测。术语“评估”还包含评价个体对治疗的应答,例如预测个体是否可能有利地响应治疗剂或不太可能响应治疗剂(或例如将经历毒性或其他不希望有的副作用),选择用于施用于个体的治疗剂,或者监控或测定个体对已施用于个体的疗法的应答。因此,“评估”NSCLC可以包括例如下述的任何:预测个体中的NSCLC的未来过程;预测在明显已治愈NSCLC的个体中的NSCLC复发;或者测定或预测个体对NSCLC治疗的应答,或基于衍生自个体的生物样品的生物标记值的测定,选择NSCLC治疗以施用于个体。
下述例子中的任何可以被称为“诊断”或“评估”NSCLC:最初检测NSCLC的存在或不存在;测定NSCLC的特定阶段、类型或亚型、或其他特征的分类;测定可疑肺部结节或团块是良性还是恶性NSCLC;或检测/监控NSCLC进展(例如监控肿瘤生长或转移扩散)、缓解或复发。
如本文使用的,“另外的生物医学信息”指除使用本文描述的生物标记中的任何外,个体的一种或多种评估,所述生物标记与癌症危险或更具体而言NSCLC危险相关。“另外的生物医学信息”包括下述中的任何:个体的物理描述词、通过CT成像观察到的肺部结节的物理描述词、个体的高度和/或重量、个体的性别、个体的种族性、吸烟史、职业史、暴露于已知致癌物(例如暴露于石棉、氡气、化学制品、来自火的烟雾和空气污染中的任何,所述空气污染可以包括来自静止或活动来源的排放物,例如工业/工厂或汽车/船舶/飞行器排放物)、暴露于二手烟、NSCLC(或其他癌症)的家族史、肺部结节的存在、结节大小、结节位置、结节形态(例如如通过CT成像观察到的:毛玻璃不透明(GGO)、固体、非固体)、结节的边缘特征(例如平滑、分叶状、尖锐和平滑的、针状的、浸润的)等等。吸烟史通常就“包年”而言进行定量,所述“包年”指个人已吸烟的年数乘以每天吸烟的平均包数。例如,平均起来,每天吸一包烟共35年的个人被称为具有35包年的吸烟史。另外的生物医学信息可以使用本领域已知的常规技术得自个体,例如通过使用常规患者问卷或健康史问卷来自个体自身等,或来自医学从业者等。可替代地,另外的生物医学信息可以得自常规成像技术,包括CT成像(例如低剂量CT成像)和X射线。与单独测试的生物标记或评估单独的另外生物医学信息的任何特定项目(例如单独的CT成像)相比较,与任何另外的生物医学信息评估组合的生物标记水平的测试可以例如改善用于检测NSCLC(或其他NSCLC相关用途)的灵敏度、特异性和/或AUC。
术语“曲线下面积”或“AUC”指接受者操作特征(ROC)曲线的曲线下面积,这两者均为本领域众所周知的。AUC量度可用于跨越完全数据范围比较分类器的精确度。具有更大AUC的分类器具有将未知正确地分类在两个目的组之间(例如NSCLC样品和正常或对照样品)的更大能力。ROC曲线可用于标绘特定特点(例如本文描述的生物标记中的任何和/或另外的生物医学信息中的任何项目)在区分两个群体(例如具有NSCLC的病例和不具有NSCLC的对照)中的性能。通常,跨越整个群体(例如病例和对照)的特点数据基于单个特点的值以递升次序进行分选。随后,对于该特点的每个值,计算关于数据的真阳性和假阳性率。通过计数高于关于该特点的值的病例数,并且随后除以总病例数,来测定真阳性率。通过计数高于关于该特点的值的对照数,并且随后除以总对照数,来测定假阳性率。尽管这个定义指其中特点与对照相比较在病例中升高的情况,但这个定义还应用于其中特点与对照相比较在病例中更低的情况(在此类情况下,将计数低于关于该特点的值的样品)。ROC曲线可以对于单个特点以及对于其他单个输出量生成,例如两个或更多个特点的组合可以在数学上合并(例如加、减、乘等),以提供单个总和值,并且这个单个总和值可以在ROC曲线中进行标绘。另外,多个特点的任何组合可以在ROC曲线中进行标绘,其中所述组合获得单个输出量值。这些特点的组合可以包含测试。ROC曲线是测试的真阳性率(灵敏度)相对于测试的假阳性率(1-特异性)的图。
如本文使用的,关于生物标记值的“检测”或“测定”包括观察和记录对应于生物标记值的信号所需的仪器和生成该信号所需的一种或多种材料两者的使用。在多个实施方案中,生物标记值使用任何合适方法进行检测,所述方法包括荧光、化学发光、表面等离子体共振、表面声波、质谱法、红外光谱法、拉曼光谱法、原子力显微镜检查、扫描隧道显微镜检查、电化学检测方法、核磁共振、量子点等等。
“固体载体”在本文中指具有分子可以直接或间接、通过共价或非共价键与之附着的表面的任何基底。“固体载体”可以具有多种物理形式,其可以包括例如膜;芯片(例如蛋白质芯片);载玻片(例如玻璃载玻片或盖玻片);柱;空心、固体、半固体、含孔或腔的颗粒,例如珠;凝胶;纤维包括纤维光学材料;矩阵;和样品容器;示例性样品容器包括能够容纳样品的样品孔、管、毛细管、小瓶和任何其他器皿、凹槽或凹口。样品容器可以包含在多样品平台上,例如微量滴定板、载玻片、微粒体装置等等。载体可以由天然或合成材料、有机或无机材料组成。捕获试剂附着在其上的固体载体的组成一般取决于附着方法(例如共价附着)。其他示例性容器包括在其内可以发生测定法和相关操作的小滴和微粒体控制的或散装的油/含水乳状液。合适的固体载体包括例如塑料、树脂、多糖、二氧化硅或硅基材料、功能化玻璃、经修饰的硅、碳、金属、无机玻璃、膜、尼龙、天然纤维(例如丝、羊毛和棉花)、聚合物等等。组成固体载体的材料可以包括用于附着捕获试剂的反应基团,例如羧基、氨基或羟基。聚合物固体载体可以包括例如聚苯乙烯、聚对苯二甲酸乙二醇酯(polyethylene glycol tetraphthalate)、聚乙酸乙烯酯、聚氯乙烯、聚乙烯吡咯烷酮、聚丙烯腈、聚甲基丙烯酸甲酯、聚四氟乙烯、丁基橡胶、苯乙烯丁二烯橡胶、天然橡胶、聚乙烯、聚丙烯、(聚)四氟乙烯、(聚)偏二氟乙烯、聚碳酸酯和聚甲基戊烯。可以使用的合适的固体载体颗粒包括例如编码颗粒,例如Luminex型编码颗粒、磁性颗粒和玻璃颗粒。
生物标记的示例性用途
在多个示例性实施方案中,通过经由任何数目的分析方法包括本文描述的分析方法中的任何,检测对应于存在于个体的循环例如血清或血浆中的一种或多种生物标记的一种或多种生物标记值,提供了用于诊断个体中的NSCLC的方法。与不具有NSCLC的个体相比较,这些生物标记例如在具有NSCLC的个体中是差异表达的。在个体中生物标记的差异表达的检测可以例如用于允许NSCLC的早期诊断,以区分良性和恶性肺部结节(例如在计算机断层摄影术(CT)扫描上观察到的结节),以监控NSCLC复发,或用于其他临床指示。
本文描述的生物标记中的任何均可用于关于NSCLC的多种临床指示中,包括下述中的任何:NSCLC的检测(例如在高危个体或群体中);表征NSCLC(例如测定NSCLC类型、亚型或阶段),例如通过区分非小细胞肺癌(NSCLC)和小细胞肺癌(SCLC)和/或腺癌和鳞状细胞癌(或另外促进组织病理学);测定肺结节是良性结节还是恶性肺肿瘤;测定NSCLC预后;监控NSCLC进展或缓解;监控NSCLC复发;监控转移;治疗选择;监控对治疗剂或其他治疗的应答;用于计算机断层摄影术(CT)扫描的个体分层(例如鉴定处于更大的NSCLC危险中并从而最可能获益于螺旋CT扫描的那些个体,因此增加CT的阳性预测值);合并生物标记测试与另外的生物医学信息,例如吸烟史等,或结节大小、形态等(例如以提供与单独的CT测试或生物标记测试相比较,具有增加的诊断性能的测定法);促进肺部结节为恶性或良性的诊断;促进在CT上观察到肺部结节后的临床决策(例如如果结节视为低危的,例如如果基于生物标记的测试是阴性的,连同或不连同结节大小的分类,则预定重复CT扫描,或者如果结节视为中至高危的,例如如果基于生物标记的测试是阳性的,连同或不连同结节大小的分类,则考虑活组织检查);且促进关于临床随访的决定(例如在CT上观察非钙化结节后,是否实现重复CT扫描、细针活组织检查、结节切除术或胸廓切开术)。生物标记测试可以改善阳性预测值(PPV)超过单独的高危个体的CT或胸部X线扫描。除其与CT扫描结合的效用外,本文描述的生物标记还可以与用于NSCLC的任何其他成像模式结合使用,所述成像模式例如胸部X线、支气管镜检查或荧光支气管镜检查、MRI或PET扫描。此外,在通过成像模式或其他临床关联检测到NSCLC指示前,或在症状出现前,所述生物标记还可以用于允许这些用途中的某些。它进一步包括区分用CT扫描或其他成像方法鉴定的具有不确定肺部结节的个体,高危吸烟者关于NSCLC的筛选,和诊断具有NSCLC的个体。
作为其中本文描述的生物标记中的任何均可用于诊断NSCLC的方式的例子,未知其具有NSCLC的个体中的所需生物标记中的一种或多种的差异表达可以指示该个体具有NSCLC,从而使得能够检测处于疾病早期的NSCLC,在所述疾病早期时治疗是最有效的,可能在通过其他方法检测到NSCLC前或在症状出现前。在NSCLC过程期间生物标记中的一种或多种的过表达可以指示NSCLC进展,例如NSCLC肿瘤在生长和/或转移(并且因此指示预后不良),而生物标记中的一种或多种对于其差异表达的程度中的降低(即,在后续生物标记测试中,个体中的表达水平朝向“正常”表达水平移动或接近“正常”表达水平)可以指示NSCLC缓解,例如NSCLC肿瘤在萎缩(并且因此指示预后良好或较好)。类似地,在NSCLC治疗过程期间生物标记中的一种或多种对于其差异表达的程度中的增加(即,在后续生物标记测试中,个体中的表达水平进一步远离“正常”表达水平移动)可以指示NSCLC在进展,并且因此指示治疗是无效的,而在NSCLC治疗过程期间生物标记中的一种或多种的差异表达中的降低可以指示NSCLC缓解,并且因此指示治疗成功起作用。另外,在个体明显已治愈NSCLC后,生物标记中的一种或多种的差异表达中的增加或降低可以指示NSCLC复发。在例如这样的情况下,例如,个体可以在比直到以后才检测到NSCLC复发更早的时期重新开始治疗(或如果个体具有维持疗法,则例如修改治疗方案,以增加剂量量和/或频率)。此外,个体中的生物标记中的一种或多种的差异表达水平可以预测个体对特定治疗剂的应答。在监控NSCLC复发或进展中,生物标记表达水平中的改变可以指示关于重复成像(例如重复CT扫描)的需要,例如以测定NSCLC活性或测定关于治疗中的改变的需要。
本文描述的生物标记中的任何的检测在NSCLC治疗后或与NSCLC治疗同时可以是特别有用的,例如以评估治疗的成功或在治疗后监控NSCLC缓解、复发和/或进展(包括转移)。NSCLC治疗可以包括例如治疗剂对个体的施用、手术的进行(例如NSCLC肿瘤的至少部分的手术切除或NSCLC和周围组织的去除)、放射疗法的施用、或本领域使用的任何其他类型的NSCLC治疗、和这些治疗的任何组合。肺癌治疗可以包括例如治疗剂对个体的施用、手术的进行(例如肺肿瘤的至少部分的手术切除)、放射疗法的施用、或本领域使用的任何其他类型的NSCLC治疗、和这些治疗的任何组合。例如,siRNA分子是合成双链RNA分子,其抑制基因表达并且可以充当靶向肺癌治疗剂。例如,生物标记中的任何可以在治疗后检测至少一次,或可以在治疗后检测多次(例如以定期间隔),或可以在治疗前和后均进行检测。在一段时间内个体中的生物标记中的任何的差异表达水平可以指示NSCLC进展、缓解或复发,其例子包括下述中的任何:与治疗前的生物标记的表达水平相比较,在治疗后的生物标记的表达水平中的增加或降低;与在治疗后的较早时间点的生物标记的表达水平相比较,在治疗后的较晚时间点的生物标记的表达水平中的增加或降低;和与生物标记的正常水平相比较,在治疗后在单个时间点的生物标记的差异表达水平。
作为具体例子,关于本文描述的生物标记中的任何的生物标记水平均可在手术前和手术后(例如手术后2-16周)血清或血浆样品中进行测定。与手术前样品相比较,在手术后样品中的一种或多种生物标记表达水平中的增加可以指示NSCLC的进展(例如不成功的手术),而与手术前样品相比较,在手术后样品中的一种或多种生物标记表达水平中的降低可以指示NSCLC的缓解(例如手术成功去除肺肿瘤)。生物标记水平的相似分析可以在其他治疗形式前和后,例如在放射疗法或者治疗剂或癌症疫苗施用前和后进行。
除测试生物标记水平作为独立诊断测试之外,生物标记水平还可以与SNP或者其他遗传病变或可变性的测定结合完成,所述其他遗传病变或可变性指示疾病敏感性的危险增加(参见例如,Amos等人,Nature Genetics40,616-622(2009))。
除测试生物标记水平作为独立诊断测试之外,生物标记水平还可以与放射学筛选例如CT筛选结合完成。例如,生物标记可以促进用于实现CT扫描的医学和经济理由,例如用于筛选处于NSCLC危险中的大型无症状群体(例如吸烟者)。例如,生物标记水平的“CT前”测试可以用于分层用于CT筛选的高危个体,例如基于其生物标记水平用于鉴定其处于NSCLC的最高危险中,并且应优先考虑用于CT筛选的那些。如果实现CT测试,则可以测量一种或多种生物标记的生物标记水平(例如如通过血清或血浆样品的适体测定法测定的),并且诊断评分可以与另外的生物医学信息(例如通过CT测试测定的肿瘤参数)结合进行评估,以增强阳性预测值(PPV)超过单独的CT或生物标记测试。用于测定生物标记水平的“CT后”适体实验对象组可以用于测定通过CT(或其他成像法模式)观察到的肺部结节是恶性或良性的似然性。
本文描述的生物标记中的任何的检测均可用于CT后测试。例如,生物标记测试可以消除或减少显著数目的假阳性测试超过单独的CT。进一步地,生物标记测试可以促进患者的治疗。例如,如果肺结节大小为小于5mm,则生物标记测试的结果可以将患者从“观察和等待”推进到在较早时间的活组织检查;如果肺结节为5-9mm,则生物标记测试可以消除活组织检查或胸廓切开术对假阳性扫描的使用;并且如果肺结节大于10mm,则生物标记测试可以消除对于具有良性结节的这些患者亚群的手术。基于生物标记测试在一些患者中消除活组织检查的需要将是有益的,因为存在与结节活组织检查相关的显著发病率和取决于结节位置在获得结节组织中的困难。类似地,在例如其结节实际上是良性的一些患者中消除手术的需要,将避免不必要的危险和与手术相关的费用。
除与高危个体中的放射学筛选结合测试生物标记水平(例如与在成像扫描上观察到的肺结节或团块的大小或其他特征结合评价生物标记水平)之外,关于生物标记的信息还可以与其他类型的数据结合评估,所述其他类型的数据特别是指示个体关于NSCLC的危险的数据(例如患者临床史、职业暴露史、症状、癌症的家族史、危险因素例如个体是否是吸烟者、和/或其他生物标记的状态等)。这些多种数据可以通过自动化方法例如计算机程序/软件进行评估,所述自动化方法可以在计算机或其他器械/装置中收录。
所述生物标记中的任何还可以用于成像测试中。例如,显像剂可以与所述生物标记中的任何偶联,其可以在其他用途中用于帮助NSCLC诊断,监控疾病进展/缓解或转移,监控疾病复发,或监控对疗法的应答。
生物标记和生物标记值的检测和测定
关于本文描述的生物标记的生物标记值可以使用多种已知分析方法中的任何进行检测。在一个实施方案中,生物标记值使用捕获试剂进行检测。如本文使用的,“捕获剂”或“捕获试剂”指能够与生物标记特异性结合的分子。在多个实施方案中,捕获试剂可以暴露于溶液中的生物标记,或可以暴露于生物标记,而捕获试剂固着在固体载体上。在其他实施方案中,捕获试剂含有与固体载体上的次要特点反应的特点。在这些实施方案中,捕获试剂可以暴露于溶液中的生物标记,并且随后在捕获试剂上的特点可以与固体载体上的次要特点结合使用,以将生物标记固着在固体载体上。捕获试剂基于待进行的分析类型加以选择。捕获试剂包括但不限于适体、抗体、抗原、adnectins、锚蛋白、其他抗体模拟物和其他蛋白质支架、自身抗体、嵌合体、小分子、F(ab')2片段、单链抗体片段、Fv片段、单链Fv片段、核酸、凝集素、配体结合受体、亲和体、纳米抗体、印迹聚合物、高亲合性多聚体(Avimers)、拟肽、激素受体、细胞因子受体和合成受体、以及这些的修饰和片段。
在一些实施方案中,使用生物标记/捕获试剂复合物检测生物标记值。
在其他实施方案中,生物标记值衍生自生物标记/捕获试剂复合物,并且间接地例如由于反应进行检测,所述反应是生物标记/捕获试剂相互作用后续,但依赖生物标记/捕获试剂复合物的形成。
在一些实施方案中,生物标记值直接由生物样品中的生物标记进行检测。
在一个实施方案中,生物标记使用多路形式进行检测,所述多路形式允许生物样品中的两种或更多种生物标记的同时检测。在多路形式的一个实施方案中,捕获试剂直接或间接地、共价或非共价地固着在固体载体上的不连续位置中。在另一个实施方案中,多路形式使用不连续的固体载体,其中每个固体载体具有与该固体载体相关的独特捕获试剂,例如量子点。在另一个实施方案中,单个装置用于检测在生物样品中待检测的多重生物标记中的每一种。单个装置可以被构造成允许生物样品中的每种生物标记同时进行加工。例如,微量滴定板可以这样使用,从而使得板中的每个孔用于独特地分析在生物样品中待检测的多重生物标记之一。
在前述实施方案的一个或多个中,荧光标签可以用于标记生物标记/捕获复合物的组分,以使得能够检测生物标记值。在多个实施方案中,荧光标记可以使用已知技术缀合至对于本文描述的生物标记中的任何特异性的捕获试剂,并且荧光标记随后可以用于检测相应生物标记值。合适的荧光标记包括稀土螯合物、荧光素及其衍生物、罗丹明及其衍生物、丹酰、别藻蓝蛋白、PBXL-3、Qdot605、丽丝胺、藻红蛋白、德克萨斯红及其他此类化合物。
在一个实施方案中,荧光标记是荧光染料分子。在一些实施方案中,荧光染料分子包括至少一个取代吲哚鎓环系统,其中在吲哚鎓环的3-碳上的取代基含有化学反应基团或缀合物质。在一些实施方案中,染料分子包括AlexFluor分子,例如AlexaFluor488、AlexaFluor532、AlexaFluor647、AlexaFluor680或AlexaFluor700。在其他实施方案中,染料分子包括第一类和第二类染料分子,例如两种不同的AlexaFluor分子。在其他实施方案中,染料分子包括第一类和第二类染料分子,并且两种染料分子具有不同发射光谱。
荧光可以用与广泛范围的测定法形式相容的多种仪器进行测量。例如,分光荧光计已设计为分析微量滴定板、显微镜载玻片、印刷阵列、比色杯等。参见Principles of Fluorescence Spectroscopy,通过J.R.Lakowicz,Springer Science+Business Media,Inc.,2004。参见Bioluminescence&Chemiluminescence:Progress&Current Applications;Philip E.Stanley和Larry J.Kricka编辑,World Scientific Publishing Company,2002年1月。
在前述实施方案的一个或多个中,化学发光标签可以任选用于标记生物标记/捕获复合物的组分,以使得能够检测生物标记值。合适的化学发光材料包括草酰氯、罗丹明6G、Ru(bipy)32+、TMAE(四(二甲氨基)乙烯)、连苯三酚(1,2,3-三羟基苯)、光泽精、过氧草酸酯、芳基草酸酯、吖啶酯、二氧杂环丁烷及其他中的任何。
在另外其他实施方案中,检测方法包括酶/底物组合,其生成对应于生物标记值的可检测信号。通常,酶催化生色底物的化学改变,所述化学改变可以使用多种技术进行测量,所述技术包括分光光度法、荧光和化学发光。合适的酶包括例如萤光素酶、萤光素、苹果酸脱氢酶、脲酶、辣根过氧化物酶(HRPO)、碱性磷酸酶、β-半乳糖苷酶、葡糖淀粉酶、溶菌酶、葡萄糖氧化酶、半乳糖氧化酶和葡萄糖-6-磷酸脱氢酶、尿酸酶、黄嘌呤氧化酶、乳过氧化物酶、微过氧化物酶等。
在另外其他实施方案中,检测方法可以是生成可测量信号的荧光、化学发光、放射性核素或酶/底物组合的组合。多模态发信号在生物标记测定法形式中可以具有独特且有利的特征。
更具体而言,关于本文描述的生物标记的生物标记值可以使用已知的分析方法进行检测,所述分析方法包括单路适体测定法、多路适体测定法、单路或多路免疫测定法、mRNA表达谱、miRNA表达谱、质谱分析、组织学/细胞学方法等,如在下文详细描述的。
使用基于适体的测定法来测定生物标记值
针对检测和定量生物样品及其他样品中生理学上有意义的分子的测定法是科学研究和卫生保健领域中的重要工具。一类此类测定法涉及使用包括固着在固体载体上的一种或多种适体的微阵列。适体各自能够以高特异性方式和非常高的亲和力与靶分子结合。参见例如名称为“Nucleic AcidLigands”的美国专利号5,475,096;还参见例如美国专利号6,242,246、美国专利号6,458,543和美国专利号6,503,715,所述专利各自的名称为“NucleicAcid Ligand Diagnostic Biochip”。一旦使微阵列与样品接触,适体就与样品中存在的其各自的靶分子结合,从而使得能够测定对应于生物标记的生物标记值。
如本文使用的,“适体”指对靶分子具有特异性结合亲和力的核酸。认识到亲和相互作用是程度的问题;然而,在这个背景下,适体对其靶的“特异性结合亲和力”意指适体一般以比其结合测试样品中的其他组分的亲和力高得多的程度结合其靶。“适体”是一类核酸分子或核酸分子种类的拷贝集合,所述核酸分子具有特定的核苷酸序列。适体可包含任何合适数目的核苷酸,包括任何数目的化学修饰的核苷酸。“适体”指超过一个此类分子集合。不同的适体可以具有相同或不同数目的核苷酸。适体可以是DNA或RNA或化学修饰的核酸,并且可以是单链的、双链的或含有双链区,并且可以包含较高级别的结构。适体也可以是光适体,其中在适体中包括光反应性或化学反应性官能团,以允许其与其相应靶共价连接。本文公开的适体方法中的任何可以包括使用特异性结合相同靶分子的两种或更多种适体。如下文进一步描述的,适体可以包含标签。如果适体包括标签,则该适体的所有拷贝均无需具有相同的标签。此外,如果不同适体各自包括标签,则这些不同适体可以具有相同标签或不同标签。
适体可以使用任何已知方法包括SELEX过程进行鉴定。一旦鉴定,就可以依照任何已知方法制备或合成适体,所述已知方法包括化学合成方法和酶促合成方法。
如本文使用的,“SOMAmer”或缓慢解离速率修饰的适体指具有改善的解离速率特征的适体。可以使用名称为“Method for Generating Aptamerswith Improved Off-Rates”的美国公开号2009/0004667中所述的改善SELEX方法生成SOMAmer。
术语“SELEX”和“SELEX过程”在本文可互换使用,一般指下述的组合:(1)以期望方式与靶分子相互作用,例如以高亲和力与蛋白质结合的适体的选择,(2)所选核酸的扩增。SELEX过程可以用于鉴定对特定靶或生物标记具有高亲和力的适体。
SELEX一般包括制备核酸的候选混合物,使候选混合物与所选靶分子结合以形成亲和复合物,分离亲和复合物与未结合的候选核酸,使核酸与亲和复合物分开并分离,纯化核酸,并鉴定特异性适体序列。该过程可以包括多次循环以进一步改进所选适体的亲和力。该过程可以包括在该过程中的一个或多个点处的扩增步骤。参见例如名称为“Nucleic Acid Ligands”的美国专利号5,475,096。SELEX过程可以用于生成共价结合其靶的适体,以及非共价结合其靶的适体。参见例如名称为“Systematic Evolution ofNucleic Acid Ligands by Exponential Enrichment:Chemi-SELEX”的美国专利号5,705,337。
SELEX过程可以用于鉴定含有经修饰的核苷酸的高亲和力适体,所述经修饰的核苷酸对适体赋予改善的特征,例如改善的体内稳定性或改善的递送特征。此类修饰的例子包括在核糖和/或磷酸和/或碱基位置处的化学取代。SELEX过程鉴定的含有经修饰的核苷酸的适体在名称为“High AffinityNucleic Acid Ligands Containing Modified Nucleotides”的美国专利号5,660,985中描述,所述专利描述了含有在嘧啶的5'-和2'-位置处经化学修饰的核苷酸衍生物的寡核苷酸。参见上文,美国专利号5,580,737描述了高特异性适体,其含有由2'-氨基(2'-NH2)、2'氟(2'-F)和/或2'-O-甲基(2'-OMe)修饰的一个或多个核苷酸。还参见名称为“SELEX and PHOTOSELEX”的美国专利申请公开2009/0098549,其描述了具有扩展的物理和化学性质的核酸文库及其在SELEX和photoSELEX中的用途。
SELEX还可以用于鉴定具有期望的解离速率特征的适体。参见名称为“Method for Generating Aptamers with Improved Off-Rates”的美国专利申请公开2009/0004667,其描述了用于生成可以与靶分子结合的适体的改善SELEX方法。描述了用于生成与其各自的靶分子具有较慢离解速率的适体和光适体的方法。该方法涉及使候选混合物与靶分子接触,允许核酸-靶复合物的形成发生,并进行缓慢解离速率富集过程,其中具有快速离解速率的核酸-靶复合物离解并不再形成,而具有缓慢离解速率的复合物将保持完整。另外,该方法包括在产生候选核酸混合物中使用经修饰的核苷酸,以生成具有改善的解离速率性能的适体。
这种测定法的变化采用包括光反应性官能团的适体,所述光反应性官能团使适体能够与其靶分子共价结合或“光交联”。参见例如名称为“NucleicAcid Ligand Diagnostic Biochip”的美国专利号6,544,776。这些光反应性适体也被称为光适体。参见例如美国专利号5,763,177、美国专利号6,001,577和美国专利号6,291,184,所述专利各自名称为“Systematic Evolution ofNucleic Acid Ligands by Exponential Enrichment:Pho-toselection of NucleicAcid Ligands and Solution SELEX”;还参见例如名称为“Photoselection ofNucleic Acid Ligands”的美国专利号6,458,539。在使微阵列与样品接触并使光适体具有与其靶分子结合的机会后,将光适体光激活并洗涤固体载体以去除任何非特异性结合的分子。可以使用严格洗涤条件,因为由于光适体上一个或多个光激活的官能团产生的共价键,与光适体结合的靶分子一般未被去除。以这种方式,测定法使得能够检测对应于测试样品中生物标记的生物标记值。
在这两种测定法形式中,适体在与样品接触前固着在固体载体上。然而,在某些情况下,在与样品接触前的适体固着可能不提供最佳测定法。例如,适体的预固着可以导致适体与靶分子在固体载体表面上的无效混合,可能导致过长的反应时间和因此延长的温育期以允许适体与其靶分子的有效结合。进一步地,当光适体用于测定法中并且取决于用作固体载体的材料时,该固体载体可能趋于散射或吸收用于实现光适体与其靶分子之间的共价键形成的光。此外,取决于采用的方法,与其适体结合的靶分子的检测可能具有不精确的缺点,因为固体载体的表面也可能暴露于使用的任何标记剂且受使用的任何标记剂的影响。最后,在固体载体上的适体固着一般涉及在适体暴露于样品前的适体制备步骤(即固着),并且这个制备步骤可能影响适体的活性或功能性。
还已描述了适体测定法,其允许适体在溶液中捕获其靶,并且随后采用设计为在检测前去除适体-靶混合物中的特定组分的分离步骤(参见名称为“Multiplexed Analyses of Test Samples”的美国专利申请公开2009/0042206)。通过检测且定量核酸(即适体),所述适体测定方法使得能够检测和定量测试样品中的非核酸靶(例如蛋白质靶)。所述方法产生核酸替代物(即适体)用于检测且定量非核酸靶,因此允许广泛多样的核酸技术包括扩增应用于更广泛范围的所需靶包括蛋白质靶。
可以构建适体以促进从适体生物标记复合物(或光适体生物标记共价复合物)中分离测定法组分,并允许分离适体用于检测和/或定量。在一个实施方案中,这些构建体可以包含适体序列中可切割或可释放的元件。在其他实施方案中,可以将另外的官能性引入适体内,所述另外的官能性例如标记或可检测的组分、间隔组分或特异性结合标签或固着元件。例如,适体可以包括经由可切割部分与适体连接的标签、标记、分离标记的间隔组分和可切割部分。在一个实施方案中,可切割元件是光可切割接头。光可切割接头可以附着至生物素部分和间隔区段,可以包括NHS基团用于胺的衍生化,并且可以用于将生物素基团引入适体,从而允许适体在测定方法中以后释放。
用在溶液中所有测定法组分进行的均质测定法在检测信号前不需要分离样品与试剂。这些方法是快速且易于使用的。这些方法基于与其特异性靶反应的分子捕获或结合试剂生成信号。对于NSCLC,分子捕获试剂将是适体或抗体等等,并且特异性靶将是表1的NSCLC生物标记。
在一个实施方案中,用于信号生成的方法利用由于荧光团标记的捕获试剂与其特异性生物标记靶的相互作用的各向异性信号改变。当标记的捕获试剂与其靶反应时,增加的分子量促使附着至复合物的荧光团的旋转运动变得慢得多,改变各向异性值。通过监控各向异性改变,结合事件可以用于定量测量溶液中的生物标记。其他方法包括荧光偏振测定法、分子信标方法、时间分辨荧光猝灭、化学发光、荧光共振能量转移等等。
可以用于检测对应于生物样品中的生物标记的生物标记值的基于溶液的示例性适体测定法包括下述步骤:(a)通过使生物样品与适体接触来制备混合物,所述适体包括第一标签并对生物标记具有特异性亲和力,其中当生物标记存在于样品中时,形成适体亲和复合物;(b)使混合物暴露于包括第一捕获元件的第一固体载体,并且允许第一标签与第一捕获元件结合;(c)去除未与第一固体载体结合的混合物的任何组分;(d)使第二标签附着至适体亲和复合物的生物标记组分;(e)从第一固体载体释放适体亲和复合物;(f)使释放的适体亲和复合物暴露于包括第二捕获元件的第二固体载体,并且允许第二标签与第二捕获元件结合;(g)通过分隔未复合的适体与适体亲和复合物,从混合物中去除任何未复合的适体;(h)从固体载体中洗脱适体;和(i)通过检测适体亲和复合物的适体组分来检测生物标记。
通过检测适体亲和复合物的适体组分,本领域已知的任何方法均可用于检测生物标记值。许多不同的检测方法可以用于检测亲和复合物的适体组分,例如杂交测定法、质谱法或QPCR。在一些实施方案中,核酸测序方法可以用于检测适体亲和复合物的适体组分,并且从而检测生物标记值。简言之,可以对测试样品实施任何种类的核酸测序方法,以鉴定且定量测试样品中存在的一种或多种适体的一个或多个序列。在一些实施方案中,序列包括整个适体分子或分子的任何部分,其可以用于独特鉴定分子。在其他实施方案中,鉴定测序是加入适体的特异性序列;此类序列通常被称为“标签”、“条形码”或“邮编码”。在一些实施方案中,测序方法包括酶促步骤,以扩增适体序列或将含有对任何位置的化学修饰的任何种类的核酸(包括RNA和DNA)转换为适合于测序的任何其他种类的核酸。
在一些实施方案中,测序方法包括一个或多个克隆步骤。在其他实施方案中,测序方法包括直接测序方法而无需克隆。
在一些实施方案中,测序方法包括使用特异性引物的定向方法,所述特异性引物靶向测试样品中的一种或多种适体。在其他实施方案中,测序方法包括靶向测试样品中的所有适体的鸟枪法。
在一些实施方案中,测序方法包括酶促步骤以扩增靶向用于测序的分子。在其他实施方案中,测序方法直接测序单一分子。可以用于检测对应于生物样品中的生物标记的生物标记值的基于核酸测序的示例性方法包括下述步骤:(a)使用酶促步骤,将含有经化学修饰的核苷酸的适体混合物转换为未经修饰的核酸;(b)用大量平行测序平台,例如454测序系统(454LifeSciences/Roche)、Illumina测序系统(Illumina)、ABI SOLiD测序系统(AppliedBiosystems)、HeliScope单分子测序仪(Helicos Biosciences)、或PacificBiosciences实时单分子测序系统(Pacific BioSciences)或Polonator G测序系统(Dover Systems),鸟枪测序所得到的未经修饰的核酸;和(c)通过特异性序列和序列计数鉴定且定量混合物中存在的适体。
使用免疫测定法来测定生物标记值
免疫测定方法基于抗体与其相应靶或分析物的反应,并且可以根据特定测定法形式检测样品中的分析物。为了改善基于免疫反应性的测定方法的特异性和灵敏度,由于其特异性表位识别而通常使用单克隆抗体。多克隆抗体由于其与单克隆抗体相比较增加的对于靶的亲和力也已成功地用于多种免疫测定法中。免疫测定法已设计为与广泛范围的生物样品基质一起使用。免疫测定法形式已设计为提供定性、半定量和定量结果。
定量结果通过使用由待检测的已知浓度的特定分析物产生的标准曲线来生成。将来自未知样品的应答或信号标绘到标准曲线上,并确定该未知样品中对应于靶的量或值。
已设计了众多免疫测定法形式。ELISA或EIA可以定量检测分析物。这种方法依赖标记对分析物或抗体的附着,并且标记组分直接或间接地包括酶。ELISA测试可以格式化用于分析物的直接、间接、竞争性或夹心检测。其他方法依赖标记,例如放射性同位素(I125)或荧光。另外的技术包括例如凝集反应、浊度测定法、比浊法、蛋白质印迹、免疫沉淀、免疫细胞化学、免疫组织化学、流式细胞术、血清学、Luminex测定法及其他(参见ImmunoAssay:A Practical Guide,由Brian Law编辑,由Taylor&Francis,Ltd.出版,2005版)。
示例性测定法形式包括酶联免疫吸附测定法(ELISA)、放射性免疫测定法、荧光、化学发光和荧光共振能量转移(FRET)或时间分辨的-FRET(TR-FRET)免疫测定法。用于检测生物标记的程序的例子包括生物标记免疫沉淀,随后为允许大小和肽水平区别的定量方法,例如凝胶电泳、毛细管电泳、平面电色谱等等。
检测和/或定量可检测标记或信号生成材料的方法取决于标记的性质。由合适的酶催化的反应产物(其中可检测标记是酶;参见上文)可以是但不限于荧光、发光或放射性的,或者它们可以吸收可见光或紫外光。适合于检测此类可检测标记的检测器的例子包括但不限于x线胶片、放射性计数器、闪烁计数器、分光光度计、比色计、荧光计、发光计和密度计。
可以以允许反应的任何适当制备、加工和分析的任何形式来进行检测方法中的任何。这可以例如在多孔测定板(如96孔或384孔)中,或者使用任何合适的阵列或微阵列。可以人工或机器化制备关于多种试剂的原液,并且使用能够检测可检测标记的商购可得的分析软件、机器人和检测仪器,可以机器化完成所有后续移液、稀释、混合、分配、洗涤、温育、样品读取、数据收集和分析。
使用基因表达谱分析来测定生物标记值
测量生物样品中的mRNA可以用作检测生物样品中的相应蛋白质水平的替代。因此,本文所述的生物标记或生物标记实验对象组中的任何还可以通过检测适当的RNA来检测。
mRNA表达水平通过逆转录定量聚合酶链式反应(RT-PCR随后为qPCR)进行测量。RT-PCR用于由mRNA产生cDNA。cDNA可以用于qPCR测定法中,随着DNA扩增过程进展而产生荧光。通过与标准曲线比较,qPCR可以产生绝对测量,例如每细胞的mRNA拷贝数。RNA印迹、微阵列、Invader测定法以及与毛细管电泳组合的RT-PCR均已用于测量样品中的mRNA表达水平。参见Gene Expression Profiling:Methods and Protocols,Richard A.Shimkets,编辑,Humana Press,2004。
miRNA分子是非编码但可以调节基因表达的小RNA。适合于测量mRNA表达水平的方法中的任何均可用于相应的miRNA。最近,许多实验室已研究了miRNA作为疾病的生物标记的用途。许多疾病涉及广泛的转录调节,并且miRNA可能发现作为生物标记的作用并不令人惊讶。与蛋白质水平和疾病之间的关联相比较,miRNA浓度和疾病之间的关联通常更不明确,然而,miRNA生物标记的价值可能是重要的。当然,与在疾病期间差异表达的任何RNA一样,体外诊断产品开发所面临的问题包括下述要求:miRNA在患病细胞中存活并易于提取用于分析,或者miRNA被释放进入血液或其他基质内,在其中它们必须存活足够久以进行测量。蛋白质生物标记具有类似的要求,尽管许多潜在的蛋白质生物标记以旁分泌形式在疾病期间在病理状态和功能部位处有意地分泌。许多潜在的蛋白质生物标记设计为在其内合成那些蛋白质的细胞外起作用。
使用体内分子成像技术检测分子标记
所述生物标记中的任何(参见表1)还可以用于分子成像测试中。例如,显像剂可以与所述生物标记中的任何偶联,其可以在其他用途中用于帮助NSCLC诊断,监控疾病进展/缓解或转移,监控疾病复发,或监控对疗法的应答。
体内成像技术提供了用于测定个体体内特定疾病状态的非侵入性方法。例如,机体的整个部分或甚至整个机体均可以作为三维图像观察,从而提供关于机体内形态和结构的有价值的信息。此类技术可以与本文所述的生物标记检测组合,以提供关于个体的癌症状态特别是NSCLC状态的信息。
体内分子成像技术的使用由于技术中的多种进展而扩大。这些进展包括开发新造影剂或标记,例如放射性标记和/或荧光标记,其可以在体内提供强信号;以及开发强大的新成像技术,其可以从机体外部检测且分析这些信号,具有足够的灵敏度和精确度以提供有用的信息。造影剂可以在适当的成像系统中显现,从而提供造影剂定位于其中的一个或多个机体部分的图像。造影剂可以与下述结合或相关:例如捕获试剂例如适体或抗体,和/或肽或蛋白质、或寡核苷酸(例如用于基因表达的检测)或复合物,所述复合物含有这些中的任何连同一种或多种大分子和/或其他微粒形式。
造影剂还可以是可用于成像的放射性原子的特点。对于闪烁研究的合适放射性原子包括锝-99m或碘-123。其他可容易检测的部分包括例如用于磁共振成像(MRI)的自旋标记,例如碘-123、再次碘-131、铟-111、氟-19、碳-13、氮-15、氧-17、钆、锰或铁。此类标记是本领域众所周知的,并且可以由本领域普通技术人员容易地选择。
标准成像技术包括但不限于磁共振成像、计算机断层摄影术扫描、正电子发射断层摄影术(PET)、单光子发射计算机断层摄影术(SPECT)等等。对于诊断性体内成像,可用的检测仪器类型是在选择给定造影剂中的主要因素,例如用于靶(蛋白质、mRNA等等)的给定放射性核素和特定生物标记。所选的放射性核素通常具有可由给定类型的仪器检测的衰变类型。另外,当选择用于体内诊断的放射性核素时,其半衰期应足够长以使得能够在由靶组织的最大摄取时检测,但也应足够短,以使宿主的有害辐射降到最低。
示例性成像技术包括但不限于PET和SPECT,其为其中放射性核素全身(synthetically)或局部地施用于个体的成像技术。在一段时间内测量放射性示踪剂的随后摄取,并用于获得关于靶向组织和生物标记的信息。由于采用的特定同位素的高能(γ-射线)发射以及用于检测其的仪器的灵敏度和复杂性,可以由机体外部推断放射性的二维分布。
PET中常用的正电子发射核素包括例如碳-11、氮-13、氧-15和氟-18。通过电子捕获和/或γ-发射衰变的同位素用于SPECT中,并且包括例如碘-123和锝-99m。用锝-99m标记氨基酸的示例性方法是在螯合前体的存在下的高锝酸盐离子还原,以形成不稳定的锝-99m-前体络合物,其依次又与双官能修饰的趋化肽的金属结合基团反应,以形成锝-99m-趋化肽缀合物。
抗体频繁用于此类体内成像诊断方法。用于体内诊断的抗体的制备和用途是本领域众所周知的。特异性结合表1中的生物标记中的任何的标记抗体可以注射到怀疑具有某种类型癌症(例如NSCLC)的个体内,所述标记抗体可根据使用的特定生物标记检测,用于诊断或评估个体的疾病状况的目的。如先前描述的,使用的标记依照待使用的成像模式加以选择。标记的定位允许测定癌症的扩散。器官或组织内的标记量也允许测定该器官或组织中癌症的存在或不存在。
类似地,适体可以用于此类体内成像诊断方法。例如,用于鉴定表1中所述的特定生物标记的适体(并且因此特异性结合该特定生物标记)可以适当地进行标记,并注射到怀疑具有NSCLC的个体内,所述适体可根据特定生物标记检测,用于诊断或评估个体的NSCLC状况的目的。如先前描述的,使用的标记依照待使用的成像模式加以选择。标记的定位允许测定癌症的扩散。器官或组织内的标记量也允许测定该器官或组织中癌症的存在或不存在。与其他显像剂相比较,适体定向的显像剂可以具有关于组织渗透、组织分布、动力学、消除、效力和选择性的独特且有利的特征。
此类技术也可以任选地用标记的寡核苷酸进行,例如用于通过用反义寡核苷酸成像检测基因表达。这些方法用于原位杂交,例如用荧光分子或放射性核素作为标记。用于检测基因表达的其他方法包括例如检测报道基因的活性。
另一种一般类型的成像技术是光学成像,其中对象内的荧光信号通过对于所述对象外部的光学装置进行检测。这些信号可以是由于实际的荧光和/或生物发光。光学检测装置的灵敏度中的改善已增加光学成像用于体内诊断测定法的有用性。
体内分子生物标记成像的用途是渐增的,包括用于临床试验,例如在关于新癌症疗法的试验中更快速地测量临床功效,和/或避免对于诸如多发性硬化的那些疾病的延长安慰剂治疗,其中此类延长治疗可能被认为在伦理上是有问题的。
关于其他技术的综述,参见N.Blow,Nature Methods,6,465-469,2009。
使用组织学/细胞学方法来测定生物标记值
对于NSCLC的评估,多种组织样品可以用于组织学或细胞学方法中。样品选择取决于原发肿瘤位置和转移的部位。例如,支气管内和经支气管活组织检查、细针抽吸、切割针和核心活组织检查可以用于组织学。支气管洗涤和刷检、胸膜抽吸、胸膜液和痰可以用于细胞学。虽然细胞学分析仍用于NSCLC的诊断中,但已知组织学方法提供用于癌症检测的更佳灵敏度。本文鉴定的在具有NSCLC的个体中显示为上调的生物标记中的任何(表1)均可用于染色组织学样本作为疾病的指示。
在一个实施方案中,对相应的一种或多种生物标记特异性的一种或多种捕获试剂用于肺组织细胞样品的细胞学评估中,并且可以包括下述中的一种或多种:收集细胞样品、固定细胞样品、脱水、透明(clearing)、将细胞样品固定在显微镜载玻片上、使细胞样品透化、处理用于分析物恢复(analyte retrieval)、染色、脱色、洗涤、封闭和在缓冲溶液中与一种或多种捕获试剂反应。在另一个实施方案中,细胞样品由细胞块产生。
在另一个实施方案中,对相应的一种或多种生物标记特异性的一种或多种捕获试剂用于肺组织样品的组织学评估中,并且可以包括下述中的一种或多种:收集组织样本、固定组织样品、脱水、透明、将组织样品固定在显微镜载玻片上、使组织样品透化、处理用于分析物恢复、染色、脱色、洗涤、封闭、再水合和在缓冲溶液中与一种或多种捕获试剂反应。在另一个实施方案中,固定和脱水用冷冻代替。
在另一个实施方案中,对相应的一种或多种生物标记特异性的一种或多种适体与组织学或细胞学样品反应,并且可以充当核酸扩增方法中的核酸靶。合适的核酸扩增方法包括例如PCR、q-β复制酶、滚环扩增、链置换、解旋酶依赖性扩增、环介导的等温扩增、连接酶链式反应以及限制和环化辅助的滚环扩增。
在一个实施方案中,将对用于组织学或细胞学评估的相应生物标记特异性的一种或多种捕获试剂在缓冲溶液中混合,所述缓冲溶液可以包括下述中的任何:封闭材料、竞争剂、去污剂、稳定剂、载体核酸、聚阴离子材料等。
“细胞学方案”通常包括样品收集、样品固定(fixation)、样品固定和染色。“细胞制备”可以包括样品收集后的几个加工步骤,包括使用一种或多种缓慢解离速率的适体用于染色所制备的细胞。
样品收集可以包括直接将样品置于未经处理的转运容器中,将样品置于含有一些类型介质的转运容器中,或将样品直接置于玻片上(固着)而无需任何处理或固定。
样品固定可以通过将收集样本的部分应用于由聚赖氨酸、明胶或硅烷处理的玻璃载玻片上得到改善。载玻片可以通过在载玻片上涂抹薄且均勻的细胞层进行制备。通常小心操作以使机械变形和干燥假象降到最低。液体样本可以在细胞块方法进行加工。或者,可替代地,液体样本可以与固定溶液在室温下1:1混合约10分钟。
细胞块可以由残留积液、痰、尿沉渣、胃肠液、肺液、细胞刮取物或细针抽吸物制备。通过离心或膜过滤将细胞浓缩或压实。已开发了许多用于细胞块制备的方法。代表性程序包括固定沉积物、细菌琼脂或膜过滤方法。在固定沉积物方法中,将细胞沉积物与固定剂例如Bouins、苦味酸或缓冲福尔马林混合,并且随后将混合物离心以使固定细胞形成团块。去除上清液,使细胞团块尽可能完全地干燥。收集团块并包裹在拭镜纸中,并且随后置于组织包埋盒(tissue cassette)中。将组织包埋盒置于含另外固定剂的罐中,并且作为组织样品进行加工。琼脂方法非常相似,只是取出细胞团块并在纸巾上干燥,并且随后切成两半。将切割侧面置于玻璃载玻片上的一滴熔化琼脂中,并且随后将团块用琼脂覆盖,确保在琼脂中无气泡形成。允许琼脂变硬,并且随后削去任何过量琼脂。将其置于组织包埋盒中,并且完成组织加工。可替代地,可以将团块直接悬浮于在65℃下的2%液体琼脂中并将样品离心。允许琼脂细胞团块在4℃下固化1小时。可以从离心管中取出固体琼脂并切成两半。将琼脂包裹在滤纸中,并且随后置于组织包埋盒中。从这里开始的加工如上所述。在任何这些程序中可以用膜过滤代替离心。这些过程中的任何均可用于生成“细胞块样品”。
细胞块可以使用专门的树脂进行制备,所述树脂包括Lowicryl树脂、LR White、LR Gold、Unicryl和MonoStep。这些树脂具有低粘度,并且可以在低温下和使用紫外(UV)线进行聚合。包埋过程依赖在脱水期间逐渐冷却样品,将样品转移至树脂,并且在最终低温下在适当的UV波长处聚合块。
细胞块切片可以用苏木精-伊红染色用于细胞形态检查,而另外的切片用于特异性标记的检查。
无论该过程是细胞学还是组织学的,可以在另外加工前将样品固定,以防止样品降解。这种过程被称为“固定(fixation)”,并且描述了可以互换使用的广泛范围的材料和程序。基于待检测的靶和待分析的具体细胞/组织类型,凭经验最佳地选择样品固定方案和试剂。样品固定依赖试剂,例如乙醇、聚乙二醇、甲醇、福尔马林或异丙醇。样品应在收集和附着至载玻片后尽可能快地固定。然而,选择的固定剂可以在多种分子靶内引入结构改变,使得其后续检测更加困难。固定和固着过程及其顺序可以修改细胞的外观,并且这些改变必须是由细胞技术员预料且认识到的。固定剂可以促使某些细胞类型萎缩,并且促使细胞质看起来是颗粒状或网状的。许多固定剂通过使细胞组分交联而起作用。这可以损害或修改特异性表位,生成新表位,促使分子关联且减少膜通透性。福尔马林固定是最常用的细胞学/组织学方法之一。福尔马林在相邻蛋白质之间或在蛋白质内形成甲基桥。沉淀或凝固也用于固定,并且乙醇频繁用于这类固定中。交联和沉淀的组合也可以用于固定。强固定过程在保存形态信息方面是最佳的,而较弱的固定过程对于分子靶的保存是最佳的。
代表性固定剂是50%无水乙醇、2mM聚乙二醇(PEG)、1.85%甲醛。关于这种制剂的变化包括仅乙醇(50%-95%)、甲醇(20%-50%)和福尔马林(甲醛)。另一种常用固定剂是2%PEG1500、50%乙醇和3%甲醇。将载玻片在室温下置于固定剂中约10-15分钟,并且随后取出并允许干燥。一旦载玻片被固定,就可以用诸如PBS的缓冲溶液将其冲洗。
广泛范围的染料可以用于差异地突出显示且反差或“染色”细胞、亚细胞和组织特点或形态结构。苏木精用于将细胞核染为蓝色或黑色。OrangeG-6和Eosin Azure两者均染色细胞的细胞质。Orange G将含有角蛋白和糖原的细胞染为黄色。曙红Y用于染色核仁、纤毛、红血细胞和浅表上皮鳞状细胞。Romanowsky染剂用于风干的载玻片,并且可用于增强多形性(pleomorphism)且区分细胞外与细胞质内材料。
染色过程可以包括增加细胞对染剂的通透性的处理。用去污剂处理细胞可以用于增加通透性。为了增加细胞和组织通透性,可以将固定的样品用溶剂、皂苷类或非离子型去污剂进一步处理。酶促消化也可以改善组织样品中特异性靶的可接近性。
在染色后,使用渐增醇浓度的一系列醇冲洗使样品脱水。最终的洗涤使用二甲苯或二甲苯替代物例如柑桔萜完成,所述二甲苯或二甲苯替代物具有接近于待应用于载玻片的盖玻片的折射率。这个最后步骤被称为透明。一旦使样品脱水且透明,就应用封固剂。封固剂选择为具有接近预玻璃的折射率,并且能够使盖玻片与载玻片粘合。它还抑制细胞样品的另外干燥、萎缩或褪色。
与使用的染剂或加工无关,通过一些类型的显微镜检查进行肺细胞学样本的最后评估,以允许形态的目视检查和标记的存在或不存在的测定。示例性显微镜检查方法包括亮视野、相位差、荧光和微分干涉对比。
如果在检查后需要对样品进行次级测试,则可以去除盖玻片并使玻璃载玻片脱色。脱色涉及使用在最初染色载玻片中使用的原始溶剂系统,而无需添加染料,并以与原始染色程序相反的次序。脱色也可以通过将载玻片浸泡在酸醇中直至细胞无色来完成。一旦无色,就将载玻片在水浴中充分冲洗并应用第二染色程序。
另外,通过使用特异性分子试剂,例如抗体或者核酸探针或适体,特异性分子区分可能能够与细胞形态分析结合。这改善了诊断细胞学的准确度。显微解剖可以用于分离细胞子集用于另外的评估,特别是用于异常染色体、基因表达或突变的遗传评估。
制备用于组织学评估的组织样品涉及固定、脱水、渗入、包埋和切片。在组织学中使用的固定试剂与在细胞学中使用的那些非常相似或相同,并且具有以分子特点例如单个蛋白质为代价保存形态特点的相同问题。如果组织样品不进行固定且脱水,相反而是冷冻且随后在冷冻时切片,则可以节省时间。这是更温和的加工程序,并且可以保存更多的个体标记。然而,冷冻对于组织样品的长期贮存是无法接受的,因为亚细胞信息由于冰晶的引入而丧失。冷冻组织样品中的冰也防止切片过程产生极薄的切片,并且因此可以丧失亚细胞结构的一些显微镜分辨率和成像。除福尔马林固定之外,四氧化锇也用于固定且染色磷脂(膜)。
组织的脱水通过用渐增醇浓度连续洗涤来实现。透明采用与醇和包埋材料可混溶的材料,并且涉及从50:50醇:透明剂开始且随后为100%透明剂(二甲苯或二甲苯替代物)的逐步过程。渗入涉及使组织与液体形式的包埋剂(温蜡、硝化纤维素溶液)一起温育,首先为50:50包埋剂:透明剂,随后为100%包埋剂。包埋通过将组织置于模具或包埋盒中并充满熔化的包埋剂如蜡、琼脂或明胶来完成。允许包埋剂变硬。随后可以将变硬的组织样品切成薄切片,用于染色和后续检查。
在染色前,使组织切片脱蜡并再水合。二甲苯用于使切片脱蜡,可以使用一次或多次二甲苯更换,并通过在递减浓度的醇中连续洗涤使组织再水合。在脱蜡前,可以将组织切片在约80℃下约20分钟热固定至玻璃载玻片。
激光捕获显微解剖允许从组织切片中分离细胞子集用于进一步分析。
如细胞学中,为了增强显微特点的显现,可以将组织切片或薄片用多种染剂进行染色。大量商购可得的染剂可以用于增强或鉴定特定特点。
为了进一步增加分子试剂与细胞学/组织学样品的相互作用,已开发了用于“分析物恢复(analyte retrieval)”的许多技术。第一种此类技术使用固定样品的高温加热。这种方法也被称为热诱导的表位检索或HIER。已使用了多种加热技术,包括蒸汽加热、微波、高压蒸汽、水浴和加压蒸煮或这些加热方法的组合。分析物恢复溶液包括例如水、柠檬酸盐和生理盐水缓冲液。分析物恢复的关键是在高温下的时间,但较长时间的较低温度也已成功使用。分析物恢复的另一个关键是加热溶液的pH。已发现低pH提供最佳的免疫染色,但是也产生经常需要使用第二组织切片作为阴性对照的背景。与缓冲液组成无关,使用高pH溶液一般获得最一致的利益(增加免疫染色而不增加背景)。关于特定靶的分析物恢复过程凭经验对于靶进行最佳化,使用加热、时间、pH和缓冲液组成作为过程最佳化的变量。使用微波分析物恢复方法允许用抗体试剂顺次染色不同的靶。但是在染色步骤之间实现抗体和酶复合物所需的时间也已证实使细胞膜分析物降解。微波加热方法同样已改善原位杂交方法。
为了开始分析物恢复过程,首先将切片脱蜡并水合。随后将载玻片置于皿或罐中的10mM柠檬酸钠缓冲液pH6.0中。代表性程序使用1100W微波,并且以100%功率对载玻片微波处理2分钟,随后在检查确定载玻片保留覆盖在液体中后,使用20%功率对载玻片微波处理18分钟。随后允许载玻片在无盖容器中冷却,并且随后用蒸馏水冲洗。HIER可以与酶促消化组合使用,以改善靶与免疫化学试剂的反应性。
一种此类酶促消化方案使用蛋白质酶K。20g/ml浓度的蛋白质酶K在50mM Tris碱、1mM EDTA、0.5%Triton X-100,pH8.0缓冲液中进行制备。该过程首先涉及在各5分钟的二甲苯的2次更换中脱蜡切片。随后将样品在各3分钟的100%乙醇的2次更换,各1分钟的95%和80%乙醇中水合,并且随后在蒸馏水中冲洗。将切片用蛋白质酶K工作溶液覆盖,在37℃下在加湿室中温育10-20分钟(最佳温育时间可以取决于组织类型和固定程度而变化)。将切片在室温下冷却10分钟,并且随后在PBS Tween20中冲洗2x2分钟。需要时,可以将切片封闭以消除来自内源化合物和酶的潜在干扰。随后将切片与在一抗稀释缓冲液中以适当稀释度的一抗一起在室温下温育1小时或在4℃下温育过夜。随后将该切片用PBS Tween20冲洗2x2分钟。如果是特定应用所需的,则可以进行另外的封闭,随后用PBS Tween20另外冲洗3x2分钟,并且随后最后完成免疫染色方案。
在室温下用1%SDS的简单处理也已证实改善免疫组织化学染色。分析物恢复方法已应用于载玻片固定切片以及自由浮动切片。另一个处理选项是将载玻片置于在pH6.0下含有柠檬酸和0.1Nonident P40的罐中,并加热至95℃。随后将载玻片用缓冲溶液如PBS进行洗涤。
对于组织的免疫学染色,可以通过将切片浸入诸如血清或脱脂奶粉的蛋白质溶液中来封闭抗体与组织蛋白质的非特异性结合。
封闭反应可以包括下述需要:减少内源生物素的水平;消除内源电荷效应;使内源核酸酶失活;和/或使内源酶如过氧化物酶和碱性磷酸酶失活。内源核酸酶可以通过下述失活:用蛋白质酶K降解,热处理,使用螯合剂例如EDTA或EGTA,引入载体DNA或RNA,用离液剂处理,所述离液剂例如尿素、硫脲、盐酸胍、硫氰酸胍、高氯酸锂等或焦碳酸二乙酯。碱性磷酸酶可以通过用0.1N HC1在室温下处理5分钟或用1mM左旋咪唑处理而失活。过氧化物酶活性可以通过用0.03%过氧化氢处理而消除。内源生物素可以通过在室温下在抗生物素蛋白质(链霉抗生物素蛋白质、中性亲和素可以取代)溶液中浸泡载玻片或切片至少15分钟进行封闭。随后将载玻片或切片在缓冲液中洗涤至少10分钟。这个步骤可以重复至少三次。随后将载玻片或切片在生物素溶液中浸泡10分钟。这可以重复至少三次,每次使用新鲜的生物素溶液。重复缓冲液洗涤程序。封闭方案应降到最低,以防止损害细胞或组织结构或者一种或多种目的靶,但可以组合这些方案中的一种或多种,以在与一种或多种缓慢解离速率适体反应前“封闭”载玻片或切片。参见Basic Medical Histology:the Biology of Cells,Tissues andOrgans,由Richard G.Kessel创作,Oxford University Press,1998。
使用质谱方法测定生物标记值
多种质谱仪配置可以用于检测生物标记值。几个类型的质谱仪是可获得的或可以用多种配置产生。一般而言,质谱仪具有下述主要部件:样品入口、离子源、质量分析器、检测器、真空系统以及仪器控制系统和数据系统。样品入口、离子源和质量分析器中的差异一般限定仪器的类型及其能力。例如,入口可以是毛细管柱液相色谱源,或可以是例如在基质辅助激光解吸中使用的直接探针或载物台(stage)。常用的离子源是例如电喷雾包括纳米喷雾和微喷雾,或基质辅助激光解吸。常用的质量分析器包括四极滤质器、离子阱质量分析器和飞行时间质量分析器。另外的质谱方法是本领域众所周知的(参见Burlingame等人Anal.Chem.70:647R-716R(1998);Kinter和Sherman,New York(2000))。
蛋白质生物标记和生物标记值可以通过下述中的任何进行检测且测量:电喷雾电离质谱法(ESI-MS)、ESI-MS/MS、ESI-MS/(MS)n、基质辅助激光解吸电离飞行时间质谱法(MALDI-TOF-MS)、表面增强激光解吸/电离飞行时间质谱分析法(SELDI-TOF-MS)、在硅上的解吸/电离(DIOS)、二次离子质谱法(SIMS)、四极飞行时间(Q-TOF)、被称为ultraflex III TOF/TOF的串联飞行时间(TOF/TOF)技术、大气压化学电离质谱法(APCI-MS)、APCI-MS/MS、APCI-(MS)N、大气压光电离质谱法(APPI-MS)、APPI-MS/MS和APPI-(MS)N、四极质谱法、傅里叶变换质谱法(FTMS)、定量质谱法和离子阱质谱法。
样品制备策略用于在蛋白质生物标记的质谱表和测定生物标记值前标记且富集样品。标记方法包括但不限于用于相对和绝对定量的等量异位标签(iTRAQ)和在细胞培养中用氨基酸的稳定同位素标记(SILAC)。在质谱分析前用于就候选生物标记蛋白质选择性富集样品的捕获试剂包括但不限于适体、抗体、核酸探针、嵌合物、小分子、F(ab')2片段、单链抗体片段、Fv片段、单链Fv片段、核酸、凝集素、配体-结合受体、亲和体、纳米抗体、锚蛋白、结构域抗体、可变抗体支架(例如双抗体等)、印迹聚合物、高亲合性多聚体、肽模拟物、类肽、肽核酸、苏糖核酸、激素受体、细胞因子受体和合成受、体以及这些的修饰和片段。
使用邻位连接测定法来测定生物标记值
邻位连接测定法可以用于测定生物标记值。简言之,使测试样品与一对亲和探针接触,所述一对亲和探针可以是一对抗体或一对适体,其中该对的每个成员由寡核苷酸延伸。关于所述一对亲和探针的靶可以是在一种蛋白质上的两个不同决定簇(determinates)或在两种不同蛋白质各自上的一个决定簇,所述两种不同蛋白质可以作为同或异多聚复合物存在。当探针与靶决定簇结合时,寡核苷酸延伸的游离端达到足够靠近以一起杂交。寡核苷酸延伸的杂交通过常见的连接寡核苷酸得到促进,当寡核苷酸延伸放置足够接近时,所述连接寡核苷酸作用于使它们桥接在一起。一旦探针的寡核苷酸延伸杂交,延伸的端就通过酶促DNA连接而连接在一起。
每种寡核苷酸延伸包含用于PCR扩增的引物位点。一旦寡核苷酸延伸连接在一起,寡核苷酸就形成连续DNA序列,其通过PCR扩增揭示关于靶蛋白质的同一性和量的信息,以及关于蛋白质-蛋白质相互作用的信息,其中靶决定簇在两种不同蛋白质上。邻位连接可以通过使用实时PCR提供用于实时蛋白质浓度和相互作用信息的高灵敏度和特异性的测定法。不结合目的决定簇的探针不具有达到接近的相应的寡核苷酸延伸,并且不进行连接或PCR扩增,导致不产生信号。
前述测定法使得能够检测可用于诊断NSCLC的方法中的生物标记值,其中该方法包括在来自个体的生物样品中检测至少N个生物标记值,其各自对应于选自表1中提供的生物标记的生物标记,其中如下文详细描述的,使用生物标记值的分类法指示个体是否具有NSCLC。虽然所述NSCLC生物标记中的某些可单独用于检测且诊断NSCLC,但本文还描述了用于分组多个NSCLC生物标记子集的方法,所述多个NSCLC生物标记子集各自可用作三种或更多种生物标记的实验对象组。因此,本申请的多个实施方案提供了包含N种生物标记的组合,其中N是至少三种生物标记。在其他实施方案中,N选择为来自2-59种生物标记的任何数目。应当理解N可以选择为来自上述范围中的任何以及相似但更高级别的范围的任何数目。依照本文描述的方法中的任何,生物标记值可以单个检测且分类,或它们可以共同检测且分类,如例如在多路测定法形式中。
在另一个方面,提供了用于检测NSCLC的不存在的方法,该方法包括在来自个体的生物样品中检测至少N个生物标记值,其各自对应于选自表1中提供的生物标记的生物标记,其中如下文详细描述的,生物标记值的分类法指示个体中NSCLC的不存在。虽然所述NSCLC生物标记中的某些可单独用于检测且诊断NSCLC的不存在,但本文还描述了用于分组多个NSCLC生物标记子集的方法,所述多个NSCLC生物标记子集各自可用作三种或更多种生物标记的实验对象组。因此,本申请的多个实施方案提供了包含N种生物标记的组合,其中N是至少三种生物标记。在其他实施方案中,N选择为来自2-59种生物标记的任何数目。应当理解N可以选择为来自上述范围中的任何以及相似但更高级别的范围的任何数目。依照本文描述的方法中的任何,生物标记值可以单个检测且分类,或它们可以共同检测且分类,如例如在多路测定法形式中。
生物标记的分类和疾病评分的计算
关于给定诊断测试的生物标记“标志”含有标记的集合,每个标记在目的群体中具有不同水平。在这个背景下,不同水平可以指关于两个或更多个组中个体的标记水平的不同平均值,或者两个或更多个组中的不同方差,或者这两者的组合。对于最简单形式的诊断测试,这些标记可以用于将来自个体的未知样品指定到两组之一内,患病的或非患病的。将样品指定到两个或更多个组之一内称为分类,并且用于实现这种指定的程序称为分类器或分类方法。分类方法也可以被称为评分方法。存在可以用于从生物标记值的集合构建诊断分类器的许多分类方法。一般而言,分类方法最容易使用监督学习技术进行,其中使用得自希望区分的两个(或更多个,用于多重分类状态)不同组内的个体的样品收集数据集。因为每个样品所属类别(组或群体)对于每个样品事先是已知的,所以可以训练分类方法以给出所需分类应答。还能够使用无监督学习技术来产生诊断分类器。
用于开发诊断分类器的常用方法包括决策树;套袋,提高,森林和随机森林;基于规则推论的学习;Parzen窗;线性模型;逻辑;神经网络方法;无监督聚类;K-平均值;分层递升/递减;半监督学习;原型方法;最近邻;核密度估计;支持向量机;隐马尔可夫模型;玻尔兹曼学习;并且分类器可以简单或以使特定目标函数降到最低的方式组合。关于综述,参见例如Pattern Classification,R.O.Duda等人,编辑,John Wiley&Sons,第2版,2001;还参见The Elements of Statistical Learning-Data Mining,Inference,and Prediction,T.Hastie等人,编辑,Springer Science+BusinessMedia,LLC,第2版,2009;所述参考文献各自整体引入本文作为参考。
为了使用监督学习技术产生分类器,获得称为训练数据的样品集合。在诊断测试的背景下,训练数据包括来自未知样品以后将被指定至其的不同组(类别)的样品。例如,由对照群体中的个体和特定疾病群体中的个体收集的样品可以构成训练数据,以开发可以将未知样品(或更特别地,由其获得样品的个体)分类为具有该疾病或不含该疾病的分类器。由训练数据开发分类器被称为训练该分类器。关于分类器训练的具体细节取决于监督学习技术的性质。作为举例说明的目的,训练朴素贝叶斯分类器的例子在下文进行描述(参见例如Pattern Classification,R.O.Duda等人,编辑,John Wiley&Sons,第2版,2001;还参见,The Elements of Statistical Learning-DataMining,Inference,and Prediction,T.Hastie等人,编辑,SpringerScience+Business Media,LLC,第2版,2009)。
因为通常存在比训练集合中的样品多许多的潜在生物标记值,所以必须小心避免过拟合。当统计模型描述随机误差或噪声代替潜在关系时,发生过拟合。过拟合可以以多种方式避免,所述方式包括例如限制开发分类器中使用的标记数目,假设标记应答互相独立,限制采用的潜在统计模型的复杂性,以及确保潜在统计模型符合数据。
使用生物标记的集合开发诊断测试的举例说明性例子包括应用朴素贝叶斯分类器,基于贝叶斯定理的简单概率分类器,具有生物标记的严格独立处理。每种生物标记通过关于每个类别中测量的RFU值或对数RFU(相对荧光单位)值的类别依赖性概率密度函数(pdf)描述。关于一个类别中的标记集合的共同pdf假定为关于每种生物标记的个体类别依赖性pdf的乘积。在这个背景下训练朴素贝叶斯分类器意味着指定参数(“参数化”),以表征类别依赖性pdf。关于类别依赖性pdf的任何潜在模型均可使用,但是模型一般应符合在训练集合中观察的数据。
具体地,测量疾病类别中的生物标记i的值Xi的类别依赖性概率写作p(Xi|d),并且观察具有值x=(x1,x2,......xn)的n种标记的总体朴素贝叶斯概率写作其中单个XiS是以RFU或log RFU表示的测量的生物标记水平。对于未知的分类指定通过下述得到促进:对于相同测量值,与不含疾病(对照)的概率p(c|X)相比较,具有测量的X的患病概率这些概率p(d|X)。这些概率的比例通过应用贝叶斯定理由类别依赖性pdf计算,所述贝叶斯定理即
Figure BDA0000495129570000532
其中p(d)为对测试适合的群体中疾病的流行率。对这个比例的两边取对数并由上文代入朴素贝叶斯类别依赖性概率,获得这种形式被称为对数似然比,并且简单陈述不含特定疾病相对于具有疾病的对数似然比,并且主要由n种单个生物标记的单个对数似然比的总和组成。在其最简单的形式中,如果上述比例大于零,则将未知样品(或更特别地,由其获得样品的个体)分类为不含疾病,并且如果所述比例小于零,则分类为具有疾病。
在一示例性实施方案中,类别依赖性生物标记pdf p(Xi|C)和p(Xi|d)假定在测量的RFU值Xi中为正态分布或对数正态分布,即
Figure BDA0000495129570000534
对于使用μd和σd的p(Xi|d)具有类似表达。模型的参数化要求估计来自训练数据的每个类别依赖性pdf的两个参数,平均值μ和方差σ2。这可以以多种方式实现,包括例如最大似然估计值、最小二乘法和本领域技术人员已知的任何其他方法。将关于μ和σ的正态分布代入上文定义的对数似然比内,获得下述表达式:
一旦μs和σ2s的集合已对来自训练数据的每个类别中的每个pdf定义,并且指定群体中的疾病流行率,贝叶斯分类器就完全确定并且可以用于分类具有测量值X的未知样品。
朴素贝叶斯分类器的性能取决于用于构建且训练分类器的生物标记数目和质量。如下文实施例3中定义的,单一生物标记将依照其KS距离(Kolmogorov-Smirnov)进行。如果分类器性能度量定义为接受者操作特征曲线下面积(AUC),则完美分类器将具有评分1,并且平均起来,随机分类器将具有评分0.5。大小为n和m的两个集合A和B之间的KS距离的定义是值Dn,m=supx|FA,n(x)–FB,m(x)|,其为两个经验累积分布函数(cdf)之间的最大差异。关于n个观察的集合A的经验cdf,Xi定义为
Figure BDA0000495129570000542
其中Ixi≤x是指示函数,如果Xi<x,则其等于1,并且否则等于0。通过定义,这个值界定在0和1之间,其中KS距离1指示经验分布不重叠。
如果后续添加的标记不依赖于第一标记,则具有良好KS距离(例如>0.3)的后续标记添加一般将改善分类性能。使用ROC曲线下面积(AUC)作为分类器评分,用贪婪算法的变体直接生成许多高评分分类器。(贪婪算法是遵循在每一个阶段作出局部最佳选择的问题解决元启发式(metaheuristic)的任何算法,希望找到总体最优值。)
此处使用的算法方法在实施例4中详细描述。简言之,由潜在生物标记表生成所有单一分析物分类器并加入列表中。接下来,随后进行第二分析物向存储的单一分析物分类器各自中的所有可能添加,在新列表上储存预定数目的最佳评分对,例如一千个。使用这个最佳二标记分类器的新列表探究所有可能的三标记分类器,再次储存其中最佳的一千个。这个过程持续直至评分随着另外标记添加而进入平台期或开始变差。可以就对于预期用途的所需性能评估在会聚后保留的那些高评分分类器。例如,在一个诊断应用中,具有高灵敏度和中等特异性的分类器可能是比中等灵敏度和高特异性更期望的。在另一个诊断应用中,具有高特异性和中等灵敏度的分类器可以是更期望的。所需性能水平一般基于在假阳性和假阴性数之间必须作出的权衡进行选择,所述假阳性和假阴性数可以各自对于特定诊断应用进行容许。此类权衡一般取决于假阳性或假阴性误差的医学后果。
多种其他技术是本领域已知的,并且可以被采用以使用朴素贝叶斯分类器由生物标记列表生成许多潜在分类器。在一个实施方案中,所谓的遗传算法可以使用如上定义的适合度评分用于组合不同标记。遗传算法特别良好地适合于探究潜在分类器的大型多样化群体。在另一个实施方案中,所谓的蚁群优化可以用于生成分类器的集合。还可以采用本领域已知的其他策略,包括例如其他进化策略以及模拟退火和其他随机搜索方法。还可以采用元启发式方法例如和声搜索。
示例性实施方案使用以多种组合的表1中列出的任意数目的NSCLC生物标记,以产生用于检测NSCLC的诊断测试(关于如何鉴定这些生物标记的详细描述,参见实施例2)。在一个实施方案中,用于诊断NSCLC的方法使用与表1中列出的任意数目的NSCLC生物标记结合的朴素贝叶斯分类方法。在举例说明性实施例(实施例3)中,用于从吸烟者和良性肺部结节群体中检测NSCLC的最简单测试可以用诸如MMP7的单一生物标记进行构建,所述MMP7在NSCLC中差异表达,其KS距离为0.59。使用来自表16的关于MMP7的参数μc,i、σc,i、μd,i、和σd,i和关于上述对数似然性的等式,可以衍生具有AUC0.803的诊断测试,参见表15。关于这个测试的ROC曲线展示于图2中。
例如其KS距离为0.53的生物标记CLIC1的添加将分类器性能显著改善为AUC0.883。应注意由两种生物标记构建的分类器的评分不是KS距离的简单总和;当组合生物标记时KS距离不是加合性时,并且它使用许多较弱标记来实现与强标记相同的性能水平。添加第三种标记STX1A例如将分类器性能提高为AUC0.901。添加另外的生物标记例如CHRDL1、PA2G4、SERPINAl、BDNF、GHR、TGFBI和NME2产生一系列NSCLC测试,其在表15中概括并在图3中展示为一系列ROC曲线。根据分类器构建中使用的分析物数目的分类器评分展示于图4。这个示例性十标记分类器的AUC为0.948。
表1中列出的标记可以以许多方式组合,以产生用于诊断NSCLC的分类器。在一些实施方案中,取决于所选择的具体诊断性能标准,生物标记的实验对象组由不同数目的分析物组成。例如,生物标记的某些组合产生比其他组合更灵敏(或更特异性)的测试。
一旦实验对象组限定为包括来自表1的生物标记的特定集合,并且由训练数据集构建分类器,就完成诊断测试的限定。在一个实施方案中,用于分类未知样品的程序在图1A中概述。在另一个实施方案中,用于分类未知样品的程序在图1B中概述。将生物样品适当稀释,并且随后在一个或多个测定法中运行,以产生用于分类的有关定量生物标记水平。测量的生物标记水平用作分类方法的输入,所述分类方法输出关于样品的分类和任选评分,其反映类别指定的置信度。
表1鉴定了可用于诊断NSCLC的59种生物标记。当与在生物标记发现努力中通常发现的相比较时,这令人惊讶地高于预期的数目,并且可以归于所述研究的规模,其涵盖在几百份单个样品中测量的超过1000种蛋白质,在一些情况下浓度为低飞摩尔范围。据推测,发现的大量生物标记反映在肿瘤生物学和机体对肿瘤存在的应答中牵涉的不同生物化学途径;每种途径和过程均涉及许多蛋白质。结果显示小组蛋白质中没有单个蛋白质对于此类复杂过程独特提供信息;相反,多重蛋白质涉及有关过程,例如细胞凋亡或细胞外基质修复。
考虑到在所述研究过程中鉴定的众多生物标记,预期能够衍生大量高性能分类器,其可以用于多种诊断方法中。为测试这个概念,使用表1中的生物标记评估几万个分类器。如实施例4中所述,表1中呈现的多个生物标记子集可以组合以产生有用的分类器。例如,提供了关于含有1、2和3种生物标记的分类器用于检测NSCLC的描述。如实施例4中所述,使用表1中的生物标记构建的所有分类器均比使用“非标记”构建的分类器明显更好。
还测试了通过随机排除表1中的一些标记获得的分类器的性能,所述随机排除导致由其构建分类器的较小子集。如实施例4中所述,由表1中的随机标记子集构建的分类器表现类似于使用表1中的完全标记列表构建的最佳分类器。
还测试了通过从十标记聚集中排除“最佳”单个标记而获得的十标记分类器的性能。如实施例4中所述,不使用表1的“最佳”标记构建的分类器也表现良好。甚至在去除表中列出的标记中最好的15种后,表1中列出的多个生物标记子集表现仍接近于最佳。这暗示任何特定分类器的性能特征可能不是由于生物标记的一些小核心组,并且疾病过程可能影响众多生物化学途径,其改变许多蛋白质的表达水平。
来自实施例4的结果提示某些可能的结论:首先,大量生物标记的鉴定使它们能够聚集成巨大数目的提供相似高性能的分类器。其次,分类器可以这样构建,从而使得特定生物标记可以以反映冗余的方式取代其他生物标记,所述冗余无疑遍及潜在疾病过程的复杂性。也就是说,由表1中鉴定的任何单个生物标记贡献的有关疾病的信息与由其他生物标记贡献的信息重叠,从而使得表1中没有特定生物标记或生物标记的小组必须包括在任何分类器中。
示例性实施方案使用由表16中的数据构建的朴素贝叶斯分类器,以分类未知样品。程序在图1A和1B中概括。在一个实施方案中,将生物样品任选稀释并且在多路适体测定法中运行。将来自测定法的数据如实施例3所述规范化且校准,并且所得到的生物标记水平用作贝叶斯分类方案的输入。对于每个测量的生物标记单个计算对数似然比,并且随后求和以产生最终分类评分,其也称为诊断评分。可以报道所得到的指定以及总体分类评分。任选地,同样可以报道对于每种生物标记水平计算的单个对数似然性危险因素。分类评分计算的细节呈现于实施例3中。
试剂盒
表1中的生物标记(以及另外的生物医学信息)的任何组合可以使用合适的试剂盒进行检测,例如用于进行本文公开的方法。此外,任何试剂盒均可含有如本文所述的一种或多种可检测标记,例如荧光部分等。
在一个实施方案中,如本文进一步描述,试剂盒包括:(a)一种或多种捕获试剂(例如至少一种适体或抗体),用于检测生物样品中的一种或多种生物标记,其中所述生物标记包括表1中阐述的生物标记中的任何,和任选的(b)一种或多种软件或计算机程序产品,用于将由其获得生物样品的个体分类为具有或不具有肺癌,或者用于测定个体具有NSCLC的似然性。可替代地,代替一种或多种计算机程序产品,可以提供用于通过人手动进行上述步骤的一种或多种说明书。
固体载体与相应捕获试剂和信号产生材料的组合在本文中被称为“检测装置”或“试剂盒”。试剂盒还可以包括关于使用装置和试剂、处理样品且分析数据的说明书。进一步地,试剂盒可以与计算机系统或软件一起使用,以分析且报道生物样品的分析结果。
试剂盒还可以含有一种或多种试剂(如增溶缓冲液、去污剂、洗涤剂或缓冲液),用于加工生物样品。本文所述的试剂盒中的任何还可以包括例如缓冲液、封闭剂、质谱法基质材料、抗体捕获剂、阳性对照样品、阴性对照样品、软件和信息例如方案、指导和参考数据。
在一个方面,本发明提供了分析NSCLC状态的试剂盒。试剂盒包括用于选自表1的一种或多种生物标记的PCR引物。试剂盒可以进一步包括生物标记的使用和生物标记与NSCLC的关联的说明书。试剂盒还可以包括DNA阵列,其含有选自表1的一种或多种生物标记的补体、用于扩增或分离样品DNA的试剂和/或酶。试剂盒可以包括用于实时PCR的试剂,例如TaqMan探针和/或引物和酶。
例如,试剂盒可以包含:(a)试剂,其包含至少用于定量测试样品中的一种或多种生物标记的捕获试剂,其中所述生物标记包含表1中阐述的生物标记或者本文所述的任何其他生物标记或生物标记实验对象组,和任选的(b)—种或多种算法或计算机程序,用于进行下述步骤:比较测试样品中定量的每种生物标记的量与一个或多个预定截断,并且基于所述比较指定关于定量的每种生物标记的评分,组合关于定量的每种生物标记的指定评分以获得总评分,比较总评分与预定评分,以及使用所述比较测定个体是否具有NSCLC。可替代地,代替一种或多种算法或计算机程序,可以提供用于通过人手动进行上述步骤的一种或多种说明书。
计算机方法和软件
一旦选择生物标记或生物标记组,诊断个体的方法就可以包括下述步骤:1)收集或以其他方式获得生物样品;2)进行分析方法以检测且测量生物样品中的生物标记或实验对象组中的生物标记;3)进行用于收集生物标记值的方法所需的任何数据规范化或标准化;4)计算标记评分;5)组合标记评分以获得总诊断评分;和6)报告个体的诊断评分。在这种方法中,诊断评分可以是由所有标记计算的总和测定的单一数目,将该数目与指示疾病存在或不存在的预设阈值比较。或者,诊断评分可以是一系列条,其各自代表生物标记值,并且可以将应答模式与预设模式比较,用于测定疾病的存在或不存在。
本文所述方法的至少一些实施方案可以使用计算机实现。计算机系统100的例子在图6中示出。参考图6,显示了包括经由总线108电联接的硬件元件的系统100,所述硬件元件包括处理器101、输入装置102、输出装置103、存储装置104、计算机可读存储介质读取器105a、通讯系统106、加工加速(例如DSP或专用处理器)107和存储器109。计算机可读存储介质读取器105a与计算机可读存储介质105b进一步联接,该组合全面地代表远程、局域、固定和/或可移动的存储装置加上存储介质、存储器等,用于暂时和/或更永久地含有计算机可读信息,其可以包括存储装置104、存储器109和/或任何其他此类可存取系统100资源。系统100还包括软件元件(显示为目前定位于工作存储器191内),包括操作系统192及其他代码193,例如程序、数据等等。
参考图6,系统100具有广泛的灵活性和可配置性。因此,例如单一体系结构可以用于实现一个或多个服务器,其可以依照目前期望的方案、方案变化、扩展等进一步配置。然而,本领域技术人员应当了解可以依照更具体的应用要求更好地利用实施方案。例如,一个或多个系统元件可以作为系统100部件内(例如在通讯系统106内)的子元件实现。还可以使用定制的硬件和/或特定元件可以在硬件、软件或两者中实现。进一步地,虽然可以采用与其他计算装置例如网络输入/输出装置(未示出)的连接,但应当理解还可以利用与其他计算装置的有线、无线、调制解调器和/或其他一种或多种连接。
在一个方面,该系统可以包括含有NSCLC特征性生物标记的特点的数据库。生物标记数据(或生物标记信息)可以用作计算机的输入以用作计算机执行方法的部分。生物标记数据可以包括如本文所述的数据。
在一个方面,该系统进一步包括一个或多个装置,用于将输入数据提供给一个或多个处理器。
该系统还包括用于存储分级数据元件的数据集的存储器。
在另一个方面,用于提供输入数据的装置包括用于检测数据元件的特征的检测器,例如质谱仪或基因芯片读取器。
该系统另外可以包括数据库管理系统。用户请求或查询可以通过数据库管理系统理解的适当语言进行格式化,该数据库管理系统处理所述查询以从训练集合的数据库中提取有关信息。
该系统可以与网络连接,所述网络连接网络服务器和一个或多个客户端。网络可以是如本领域已知的局域网(LAN)或广域网(WAN)。优选地,服务器包括运行计算机程序产品(例如软件)所需的硬件,以访问数据库数据用于处理用户请求。
该系统可以包括操作系统(例如UNIX或Linux),用于执行来自数据库管理系统的指令。在一个方面,操作系统可以在全球通讯网络例如因特网上操作,并利用全球通讯网络服务器来连接此类网络。
该系统可以包括包含图形显示界面的一个或多个装置,该图形显示界面包括界面元件例如按钮、下拉菜单、滚动条、用于输入文本的字段等等,如本领域已知的图形用户界面中常规发现的。用户界面上输入的请求可以传送给系统中的应用程序用于格式化,以在一个或多个系统数据库中搜索有关信息。用户输入的请求或查询可以以任何合适的数据库语言构建。
图形用户界面可以通过作为操作系统部分的图形用户界面代码生成,并且可以用于输入数据和/或显示输入的数据。加工数据的结果可以在界面上显示,在与该系统通讯的打印机上打印,存储在存储装置中,和/或在网络上传输或可以以计算机可读介质的形式提供。
该系统可以与输入装置通讯,用于将关于数据元件的数据提供给系统(例如表达值)。在一个方面,输入装置可以包括基因表达谱分析系统,包括如质谱仪、基因芯片或阵列读取器等等。
根据多个实施方案用于分析NSCLC生物标记信息的方法和器械可以以任何合适方式实现,例如使用在计算机系统上操作的计算机程序。可以使用常规计算机系统,其包括处理器和随机存取存储器,例如可远程访问的应用服务器、网络服务器、个人计算机或工作站。另外的计算机系统部件可以包括存储装置或信息储存系统,例如大容量存储系统和用户界面,例如常规显示器、键盘和跟踪装置。计算机系统可以是单机系统,或包括服务器和一个或多个数据库的计算机网络的部分。
NSCLC生物标记分析系统可以提供完成数据分析的功能和操作,例如数据收集、处理、分析、报告和/或诊断。例如,在一个实施方案中,计算机系统可以执行计算机程序,该程序可以接收、存储、搜索、分析且报告关于NSCLC生物标记的信息。计算机程序可以包括进行多种功能或操作的多个模块,例如用于处理原始数据且生成补充数据的处理模块,以及用于分析原始数据和补充数据以生成NSCLC状态和/或诊断的分析模块。诊断NSCLC状态可以包括生成或收集任何其他信息,包括另外的生物医学信息、关于个体与疾病有关的状况,鉴定是否需要进一步测试,或另外评估个体的健康状态。
现在参考图7,可见依照公开实施方案的原理利用计算机的方法的例子。在图7中,示出了流程图3000。在方框3004中,可以检索个体的生物标记信息。例如在进行个体的生物样品的测试后,生物标记信息可以从计算机数据库中检索。生物标记信息可以包含生物标记值,其各自对应于选自表1中提供的生物标记的至少N种生物标记之一,其中N=2-59。在方框3008中,计算机可以用于分类每个生物标记值。另外在方框3012中,基于多个分类可以作出关于个体具有NSCLC的似然性的测定。可以将该指示输出至显示器或其他显示装置,从而使得它可由个人观看。因此,例如该指示可以在计算机的显示屏或其他输出装置上显示。
现在参考图8,经由流程图3200可以举例说明依照另一个实施方案的利用计算机的替代方法。在方框3204中,可以利用计算机检索关于个体的生物标记信息。生物标记信息包含生物标记值,其对应于选自表1中提供的生物标记组的生物标记。在方框3208中,可以用计算机进行生物标记值的分类。另外在方框3212中,基于分类可以作出关于个体具有NSCLC的似然性的指示。可以将该指示输出至显示器或其他显示装置,从而使得它可由个人观看。因此,例如该指示可以在计算机的显示屏或其他输出装置上显示。
本文所述的一些实施方案可以这样实现,以便包括计算程序产品。计算机程序产品可以包括具有在介质中收录的计算机可读程序代码的计算机可读介质,用于促使应用程序在具有数据库的计算机上执行。
如本文使用的,“计算机程序产品”指以自然或程序设计语言语句形式的组织化的指令集合,其包含在任何性质的物理介质上(例如书写、电子、磁性、光学或者其他方式),并且可以与计算机或其他自动化数据处理系统一起使用。当由计算机或数据处理系统执行时,此类程序设计语言语句促使该计算机或数据处理系统依照语句的特定内容起作用。计算机程序产品包括但不限于:植入计算机可读介质中的源代码和目标代码和/或测试或数据文库中的程序。此外,使计算系统或数据处理设备装置能够以预选方式起作用的计算机程序产品可以以多种形式提供,包括但不限于原始源代码、汇编代码、目标代码、机器语言、前述的加密或压缩形式以及任何和所有等价物。
在一个方面,提供了用于指示NSCLC的似然性的计算机程序产品。该计算机程序产品包括收录程序代码的计算机可读介质,所述程序代码可由计算装置或系统的处理器执行,所述程序代码包含:检索归于来自个体的生物样品的数据的代码,其中所述数据包含生物标记值,其各自对应于生物样品中选自表1中提供的生物标记组的至少N种生物标记之一,其中N=2-59;以及执行分类方法的代码,所述分类方法根据生物标记值指示个体的NSCLC状态。
在另外一个方面,提供了用于指示NSCLC的似然性的计算机程序产品。该计算机程序产品包括收录程序代码的计算机可读介质,所述程序代码可由计算装置或系统的处理器执行,所述程序代码包含:检索归于来自个体的生物样品的数据的代码,其中所述数据包含生物标记值,其对应于生物样品中选自表1中提供的生物标记组的生物标记;以及执行分类方法的代码,所述分类方法根据生物标记值指示个体的NSCLC状态。
虽然多个实施方案已作为方法或器械进行描述,但应当理解实施方案可以通过与计算机联接的代码,例如驻留在计算机上或可由计算机访问的代码实现。例如,软件和数据库可以用于实现上述方法中的许多。因此,除由硬件完成的实施方案之外,还应注意到这些实施方案可以通过使用此类制造物品完成,所述制造物品包括具有在其中收录的计算机可读程序代码的计算机可用介质,所述计算机可读程序代码促使本说明书中公开的功能的实现。因此,期望另外考虑在其程序代码方式中的实施方案同样由本专利加以保护。此外,实施方案可以收录为存储在实际上任何种类的计算机可读存储器中的代码,所述计算机可读存储器包括但不限于RAM、ROM、磁性介质、光学介质或磁光介质。甚至更一般地,实施方案可以在软件或硬件或其任何组合中实现,包括但不限于在通用处理器、微代码、PLA或ASIC上运行的软件。
还设想实施方案可以作为包括在载波中收录的计算机信号以及通过传输介质传播的信号(例如电信号和光信号)实现。因此,上述多种类型的信息均可以在结构例如数据结构中格式化,并且作为电信号通过传输介质传输,或存储在计算机可读介质上。
还应当注意,本文叙述的结构、材料和动作中的许多可以叙述为用于进行功能的方式或用于进行功能的步骤。因此,应当理解此类语言有权涵盖在本说明书内公开的所有此类结构、材料或动作及其等价物,包括通过引入作为参考的内容。
生物标记鉴定过程、本文公开的生物标记的利用和用于测定生物标记值的多种方法在上文关于NSCLC详细描述。然而,过程的应用、鉴定的生物标记的用途和用于测定生物标记值的方法完全可应用于其他特定类型的癌症、一般而言的癌症、任何其他疾病或医学状况、或可能获益于或不获益于辅助医学治疗的个体的鉴定。除了提及与NSCLC有关的具体结果之外,如由上下文明确的,本文提及NSCLC可以理解为包括其他类型的癌症、一般而言的癌症或任何其他疾病或医学状况。
实施例
下述实施例仅提供用于举例说明性目的,并且不意图限制如由所附权利要求限定的本申请的范围。本文描述的所有实施例均使用本领域技术人员众所周知且常规的标准技术进行。下述实施例中描述的常规分子生物学技术可以如标准实验室手册中所述进行,所述标准实验室手册例如Sambrook等人,Molecular Cloning:A Laboratory Manual,第3版,ColdSpring Harbor Laboratory Press,Cold Spring Harbor,N.Y.,(2001)。
实施例1.样品的多路适体分析
本实施例描述用于分析样品和对照的多路适体测定法,用于鉴定表1中阐述的生物标记(参见图9)和鉴定表19中阐述的癌症生物标记。对于NSCLC、间皮瘤和肾细胞癌研究,多路分析利用各自对于特定靶独特的1,034种适体。
在这个方法中,对于每次溶液添加均更换移液器尖端。
另外,除非另有说明,否则大多数溶液转移和洗涤添加使用BeckmanBiomek Fxp的96孔头部。除非另有说明,否则手动移液的方法步骤使用十二通道P200Pipetteman(Rainin Instruments,LLC,Oakland,CA)。内部制备称为SB17的定制缓冲液,其包含40mM HEPES、100mM NaCl、5mMKCl、5mM MgCl2、1mM EDTA,pH7.5。内部制备称为SB18的定制缓冲液,其包含40mM HEPES、100mM NaCl、5mM KCl、5mM MgCl2,pH7.5。除非另有说明,否则所有步骤均在室温下进行。
1.适体原液的制备
在1x SB17,0.05%Tween-20中以2x浓度制备关于5%、0.316%和0.01%血清的定制适体原液。
将这些溶液贮存于-20℃下直至使用时。测定法当天,使每种适体混合物在37℃下解冻10分钟,置于沸水浴中10分钟,并且允许冷却至25℃20分钟,伴随在每个加热步骤之间的剧烈混合。在加热-冷却后,将55μl每种2x适体混合物手动移液到96孔Hybaid平板内,并且将平板用箔密封。最终结果是具有5%、0.316%和0.01%适体混合物的三块96孔、箔密封的Hybaid平板。单个适体浓度为2x终浓度或1nM。
2.测定样品制备
将贮存于-80℃下的100%血清或血浆的冷冻等分试样置于25℃水浴中10分钟。将解冻样品置于冰上,轻轻涡漩(设为4)8秒,并且随后再置于冰上。
在4℃下,通过使用50μL8通道跨越移液器(spanning pipettor)将8μL样品转移到96孔Hykiid平板内,制备10%样品溶液(2x终浓度),每个孔含有72μL适当的样品稀释剂(对于血清,1x SB17,或对于血浆0.8x SB18,加上0.06%Tween-20、11.1μΜZ-block_2、0.44mM MgCl2、2.2mM AEBSF、1.1mM EGTA、55.6μΜEDTA)。将这块平板贮存于冰上,直至在BiomekFxP机器人上开始下一个样品稀释步骤。
为了开始样品和适体平衡,将10%样品平板短暂离心并置于BeckmanFX上,在其中用96孔移液器通过上下移液将它混合。随后通过将6μL的10%样品稀释到具有2mM AEBSF的89μL1xSB17、0.05%Tween-20内,制备0.632%样品平板(2x终浓度)。接下来,6μL所得到的0.632%样品在184μL1xSB17、0.05%Tween-20内的稀释制备0.02%样品平板(2x终浓度)。在Beckman Biomek Fxp上完成稀释。在每次转移后,通过上下移液将溶液混合。随后,通过将55μL样品加入55μL适当的2x适体混合物中,将3块样品稀释平板转移至其各自的适体溶液。样品和适体溶液通过上下移液在机器人上混合。
3.样品平衡结合
将样品/适体平板用箔密封,并且在进行至捕获1步骤前,置于37℃温箱中3.5小时。
4.捕获2珠平板的制备
将MyOne(Invitrogen Corp.,Carlsbad,CA)链霉抗生物素蛋白质C1珠的11mL等分试样用等体积的20mM NaOH洗涤2次(对于每次洗涤,温育5分钟),用等体积的1x SB17、0.05%Tween-20洗涤3次,并重悬浮于11mL1x SB17、0.05%Tween-20中。使用12-跨越多通道移液器,将50μL该溶液手动移液到96孔Hyhid平板的每个孔内。随后将平板用箔覆盖,并贮存于4℃下用于测定法中。
5.捕获1珠平板的制备
将三块0.45μm Millipore HV平板(Durapore membrane,目录#MAHVN4550)100μL1x SB17、0.05%Tween-20平衡至少10分钟。平衡缓冲液随后通过平板过滤,并且向每个孔内加入133.3μL7.5%链霉抗生物素蛋白质-琼脂糖珠浆(在1x SB17、0.05%Tween-20中)。为了在将链霉抗生物素蛋白质-琼脂糖珠转移到滤板内时使其保持悬浮,将珠溶液用200μL,12通道移液器手动混合,在移液事件之间至少6次。在将珠跨越3块滤板分配后,施加真空以去除珠上清液。最后,将珠在滤板中用200μL1x SB17、0.05%Tween-20洗涤,并且随后重悬浮于200μL1x SB17、0.05%Tween-20中。将滤板的底部吸干,并将平板贮存用于测定法中。
6.装载Cytomat
使Cytomat装载有所有尖端、平板、槽中的所有试剂(除了在加入平板前立即新鲜制备的NHS-生物素试剂之外)、3块制备的捕获1滤板和1块制备的MyOne平板。
7.捕获1
在3.5小时平衡时间后,将样品/适体平板从温箱中取出,离心约1分钟,去除覆盖,并置于Beckman Biomek Fxp的平台(deck)上。启动BeckmanBiomek Fxp程序。除非另有说明,否则捕获1中的所有后续步骤均由Beckman Biomek Fxp机器人完成。在该程序内,对捕获1滤板施加真空以去除珠上清液。将各100微升的5%、0.316%和0.01%平衡结合反应加入其各自的捕获1滤板,并且使用平台型(on-deck)定轨振荡器以800rpm将每块板混合10分钟。
经由真空过滤去除未结合的溶液。通过分配溶液并立即抽真空以使溶液通过平板过滤,将捕获1珠用在1x SB17、0.05%Tween-20中的190μL100μM生物素洗涤,随后用5x190μL1x SB17、0.05%Tween-20洗涤。
8.加标签
将在无水DMSO中的100mM NHS-PEO4-生物素等分试样在37℃下解冻6分钟,并且随后用加标签缓冲液(pH7.25的SB17、0.05%Tween-20)稀释1:100。在机器人辅助下,将稀释的NHS-PEO4-生物素试剂手动加入平台型槽中,并且手动重新启动机器人程序,以将100μL NHS-PEO4-生物素分配到每块捕获1滤板的每个孔内。允许这个溶液在定轨振荡器上伴随捕获1珠振荡以800rpm温育5分钟。
9.动力学攻击和光切割
通过真空过滤去除加标签反应,并且通过向捕获1平板中加入在1xSB17、0.05%Tween-20中的150μL20mM甘氨酸来猝灭。经由真空过滤去除NHS-标签/甘氨酸溶液。接下来,将1500μL20mM甘氨酸(1x SB17、0.05%Tween-20)加入每块平板,并在通过真空过滤去除前,在定轨振荡器上以800rpm温育1分钟。
随后通过下述将捕获1平板的孔洗涤三次:加入1x SB17、0.05%Tween-20,随后为真空过滤,并且随后加入190μL1x SB17、0.05%Tween-20,伴随以800rpm的1分钟振荡,随后为真空过滤。在最后一次洗涤后,将平板置于1mL深孔平板的顶部并从平台上取出。将捕获1平板以1000rpm下离心1分钟,以在洗脱前从琼脂糖珠中尽可能多地去除多余体积。
将平板放回到Beckman Biomek Fxp上,并向滤板的每个孔内加入在1xSB17、0.05%Tween-20中的85μL10mM DxSO4。
将滤板从平台上取出,置于在BlackRay(Ted Pella,Inc.,Redding,CA)光源下的Variomag Thermoshaker(Thermo Fisher Scientific,Inc.,ffaltham,ΜΑ)上,并且在以800rpm振荡的同时照射5分钟。在5分钟温育后,使平板旋转180度且伴随振荡多照射5分钟。
通过首先将5%捕获1滤板置于1mL深孔平板的顶部并以1000rpm离心1分钟,将光切割的溶液从每块捕获1平板顺次洗脱到共同深孔平板内。随后,将0.316%和0.01%捕获1平板顺次离心到相同的深孔平板内。
10.捕获2珠捕获
将含有合并的捕获1洗脱物的1mL深孔块置于Beckman Biomek Fxp的平台上用于捕获2。
机器人将光切割洗脱物全部从1mL深孔平板转移到含有先前制备的捕获2MyOne磁珠的Hyhid平板上(在经由磁性分离去除MyOne缓冲液后)。
在以1350rpm振荡的同时,使溶液在Variomag Thermoshaker(ThermoFisher Scientific,Inc.,Waltham,MA)上在25℃下温育5分钟。
机器人将平板转移到平台型磁性分离器站。在去除并弃去上清液前,将平板在磁体上温育90秒。
11.37℃30%甘油洗涤
将捕获2平板移到平台型热振荡器,将75μL1x SB17、0.05%Tween-20转移到每个孔。将平板在1350rpm和37℃下混合1分钟,以重悬浮并加温珠。在37℃下,向捕获2平板的每个孔中转移75μL60%甘油,并将平板继续在1350rpm和37℃下混合另一分钟。机器人将平板转移到37℃磁性分离器,在其中将其在磁体上温育2分钟,并且随后机器人去除并弃去上清液。将这些洗涤再重复2次。
从捕获2珠中去除第三次30%甘油洗涤液后,将150μL1x SB17、0.05%Tween-20加入每个孔内,并在37℃磁体上通过磁性分离去除前,在37℃下以1350rpm振荡温育1分钟。
在磁性分离前,在25℃下以1350rpm振荡的同时,使用150μL1xSB17、0.05%Tween-20伴随1分钟温育将捕获2珠最后洗涤一次。
12.捕获2珠洗脱和中和
通过向每个孔加入具有1M NaCl、0.05%Tween-20的105μL100mMCAPSO,从捕获2珠中洗脱适体。使珠伴随以1300rpm的振荡与这种溶液一起温育5分钟。
随后,在将63μL洗脱物转移到在每个孔含有7μL500mM HCl、500mM HEPES、0.05%Tween-20的新96孔平板前,将捕获2平板置于磁性分离器上90秒。在转移后,通过将90μL上下移液五次来机器化混合溶液。
13.杂交
Beckman Biomek Fxp将20μL中和的捕获2洗脱物转移到新鲜的Hybaid平板,并且向每个孔加入含有10x杂交对照掺料的6μL10x AgilentBlock。接下来,将30μL2x Agilent杂交缓冲液手动移液到含有中和样品和封闭缓冲液的平板的每个孔内,并且通过缓慢地手动将25μL上下移液15次将溶液混合,以避免大量气泡形成。将平板以1000rpm旋转1分钟。
定制Agilent微阵列载玻片(Agilent Technologies,Inc.,Santa Clara,CA)设计为含有与适体随机区加上一些引物区互补的探针。对于大多数适体,凭经验测定互补序列的最佳长度,并且范围为40-50个核苷酸。对于以后的适体,缺省选择46聚体互补区。探针由聚T接头与载玻片表面连接用于60个核苷酸的总探针长度。
将密封载玻片置于Agilent杂交室内,将各40μL含有杂交和封闭溶液的样品手动移液到每个垫圈内。以预期使气泡形成降到最低的方式使用8通道可调跨越移液器。随后将其条形码朝上的定制Agilent微阵列载玻片(Agilent Technologies,Inc.,Santa Clara,CA)缓慢下降到密封载玻片上(关于详细描述,参见Agilent手册)。
将杂交室上部置于载玻片/背衬夹心上,并将夹紧托架滑动到整个组件上。通过牢固地转动螺旋来夹紧这些组件。
目视检查每个载玻片/背衬载玻片夹心,以确保溶液气泡可以在样品内自由移动。如果气泡无法自由移动,则轻拍杂交室以释放位于垫圈附近的气泡。
将组装的杂交室在Agilent杂交炉中在60℃下以20rpm旋转温育19小时。
14.杂交后洗涤
将约400mL Agilent洗涤缓冲液1置于两个分开的玻璃染色皿的每一个内。将一个染色皿置于磁力搅拌板上,并将载玻片架和搅拌棒置于缓冲液内。
通过将搅拌棒置于空玻璃染色皿内,制备用于Agilent洗涤2的染色皿。
预留第四个玻璃染色皿,用于最终乙腈洗涤。
拆开六个杂交室的每一个。逐个地将载玻片/背衬夹心从其杂交室中取出,并浸入含有洗涤1的染色皿中。使用一对镊子将载玻片/背衬夹心撬开,同时仍浸没微阵列载玻片。将载玻片快速转移到磁力搅拌板上的洗涤1染色皿中的载玻片架内。
将载玻片架轻轻上升且降低5次。磁力搅拌器以低设定开启,并且将载玻片温育5分钟。
当洗涤1剩余一分钟时,将在温箱中预热至37℃的洗涤缓冲液2加入第二个制备的染色皿。将载玻片架快速转移到洗涤缓冲液2中,并且通过将其刮取到染色皿的顶部上,去除架底部上的任何过量缓冲液。将载玻片架轻轻上升且降低5次。磁力搅拌器以低设定开启,并将载玻片温育5分钟。
将载玻片架从洗涤2中缓慢拉出,花费大约15秒以从溶液中取出载玻片。
对于在洗涤2中剩余的一分钟,将乙腈(ACN)加入第四个染色皿。将载玻片架转移到乙腈染色皿。将载玻片架轻轻上升且降低5次。磁力搅拌器以低设定开启,并将载玻片温育5分钟。
将载玻片架从ACN染色皿中缓慢拉出,并置于吸水巾上。载玻片的底部边缘快速干燥,并将载玻片置于干净的载玻片盒内。
15.微阵列成像
将微阵列载玻片置于Agilent扫描仪载玻片支架内,并根据制造商说明书装载到Agilent微阵列扫描仪内。
将载玻片在Cy3通道中以5μm分辨率在100%PMT设定下成像,并且XRD选项以0.05启用。所得到的tiff图像使用Agilent特点抽取软件版本10.5进行处理。
实施例2.生物标记鉴定
进行潜在NSCLC生物标记的鉴定,用于诊断在用CT扫描或其他成像方法鉴定的具有不确定肺部结节的个体中的NSCLC,就NSCLC筛选高危吸烟者,和诊断具有NSCLC的个体。关于这项研究的入选标准是吸烟者,年龄18岁或更大,能够给出知情同意书,以及血样和NSCLC或良性发现的证明诊断。对于病例,在治疗或手术前收集血样,并且随后诊断有NSCLC。淘汰标准包括在抽血5年内癌症的先前诊断或治疗(排除皮肤的鳞状细胞癌)。如表17中所述,血清样品从4个不同部位收集,并且包括46份NSCLC样品和218份对照组样品。如实施例1中所述的多路适体亲和测定法用于测量且报道关于这264份样品各自中的1,034种分析物的RFU值。
通过对于1,034种分析物各自生成类别依赖性累积分布函数(cdf)分开比较病例和对照群体中的每一个。来自两个样品集合的值之间的KS距离(Kolmogorov-Smirnov统计量)是下述程度的非参数测量,即来自一个集合(集合A)的值的经验分布与来自另一集合(集合B)的值的分布的差异程度。对于阈值T的任何值,来自集合A的一定比例的值小于T,并且来自集合B的一定比例的值小于T。KS距离测量对于任何T选择来自两个集合的值的比例之间的最大(无符号)差异。
这个潜在生物标记集合可以用于构建分类器,该分类器将样品指定至对照或疾病组。事实上,由这些生物标记集合产生许多此类分类器,并且测定任何生物标记在良好评分分类器中使用的频率。在最好的评分分类器中最频繁出现的那些生物标记对于产生诊断测试最有用的。在本实施例中,贝叶斯分类器用于探究分类空间,但是许多其他监督学习技术可以为此目的而采用。通过在贝叶斯表面上分类器的接受者操作特征曲线下面积(ROC的AUC)衡量任何单个分类器的评分适合度,假定疾病流行率为0.5。这个评分度量在零到一之间变动,其中一是无误差分类器。由生物标记群体测量构建贝叶斯分类器的细节在实施例3中描述。
使用表1中的59种分析物,发现总共964个10分析物分类器,具有用于诊断来自对照组的NSCLC的AUC0.94。从这个分类器集合,发现在30%或更多的高评分分类器中存在总共12种生物标记。表13提供了这些潜在生物标记的列表,并且图10是关于鉴定的生物标记的频率图。
实施例3.用于NSCLC的朴素贝叶斯分类
从鉴定为可用于区分NSCLC和对照的生物标记列表,选择十种生物标记的实验对象组并构建朴素贝叶斯分类器,参见表16和18。将类别依赖性概率密度函数(pdf)、p(Xi|c)和p(Xi|d)建模为对数正态分布函数,其中Xi为对于生物标记i测量的RFU值的对数,并且c和d指对照和疾病群体,该函数的特征在于平均值μ和方差σ2。关于十种生物标记的pdf的参数在表16中列出,并且原始数据连同与正态pdf模型拟合的例子展示于图5中。如由图5证明的,潜在的假设看起来非常良好地拟合数据。
关于此类模型的朴素贝叶斯分类由下式给出,其中p(d)是适合于测试的群体中的疾病流行率, ln ( p ( d | x ~ ) p ( c | x ~ ) ) = Σ i = 1 n ln ( σ c , i σ d , i ) - 1 2 Σ i = 1 n [ ( x i - μ d , i σ d , i ) 2 - ( x i - μ c , i σ c , i ) 2 ] + ln ( p ( d ) 1 - p ( d ) ) , 并且n=10。求和中的每一项是关于单个标记的对数似然比,并且不含目的疾病(即,在这种情况下,NSCLC)相对于具有疾病的样品X的总对数似然比仅是这些单个项加上负责疾病流行率的项的总和。为简便起见,我们假设p(d)=0.5,从而使得 ln ( p ( d ) 1 - p ( d ) ) = 0 .
考虑到关于6.9、8.7、7.9、9.8、8.4、10.6、7.3、6.3、7.3、8.1的十种生物标记中每一种的log(RFU)中的未知样品测量,分类的计算在表16中详述。将包含关于疾病相对于对照类别的对数似然比的单个成分制表,并且可以由表16中的参数和
Figure BDA0000495129570000721
的值计算。单个对数似然比的总和为-11.584,或不含疾病相对于具有疾病的似然性为107,386,其中似然性e11.584=107,386。前3种生物标记值具有与疾病组(对数似然性>0)更一致的似然性,但剩余7种生物标记均一致地发现利于对照组。将似然性相乘给出与上文显示相同的结果;未知样品不含疾病的似然性为107,386。事实上,这个样品来自训练集合中的对照群体。
实施例4.用于选择用于分类器的生物标记实验对象组的贪婪算法
本实施例描述了从表1选择生物标记以形成可以在本文所述的方法的任何中用作分类器的实验对象组。选择表1中的生物标记子集以构建具有良好性能的分类器。这个方法还用于测定哪些潜在标记包括作为实施例2中的生物标记。
此处使用的分类器性能的测量是AUC;0.5的性能是关于随机(抛硬币)分类器的基线期望值,比随机更差的分类器将评分在0.0-0.5之间,比随机性能更好的分类器将评分在0.5-1.0之间。无误差的完美分类器具有1.0的灵敏度和1.0的特异性。可以将实施例4中所述的方法应用于性能的其他常见测量,例如F-测量、灵敏度和特异性的总和、或灵敏度和特异性的乘积。具体地,可能希望用不同加权处理特异性和特异性,以便选择以一些灵敏度为代价的具有较高特异性表现的那些分类器,或选择以一些特异性为代价的具有较高灵敏度表现的那些分类器。因为本文所述方法仅涉及“性能”的测量,因此可以使用导致单一性能测量的任何加权方案。不同应用对于真阳性和真阴性发现具有不同利益,以及与假阳性发现和假阴性发现相关的不同成本。例如,筛选无症状吸烟者和在CT上发现的良性结节的鉴定诊断一般不具有在特异性和灵敏度之间相同的最佳权衡。两种测试的不同需求一般需要对阳性和阴性误分类设定不同的加权,在性能测量中反映。改变性能测量一般将改变对于给定数据集的选自表1的确切标记子集。
对于实施例3中所述的区分NSCLC样品与对照样品的贝叶斯方法,通过生物标记在疾病和良性训练样品中的分布将分类器完全参数化,并且生物标记列表选自表1;即,给定训练数据集,选择用于包括的标记子集以一对一的方式测定分类器。
此处采用的贪婪方法用于从表1搜索最佳标记子集。对于小数目标记或具有相对少标记的分类器,列举每一个可能的标记子集,并根据用该特定标记集合构建的分类器的性能进行评估(参见实施例4,部分2)。(这种方法在统计学领域众所周知为“最佳子集选择”;参见例如Hastie等人)。但是,对于本文所述分类器,多个标记的组合的数目可以是非常大的,并且评估10种标记的每一个可能集合是不可行的,因为存在可以由仅30种总分析物的列表生成的30,045,015种可能组合。因为通过每一个标记子集搜索的不切实际,所以可能无法发现单一最佳子集;然而,通过使用这种方法,发现了许多优异的子集,并且在许多情况下,这些子集中的任何均可代表最佳的子集。
代替评估每一个可能的标记集合,可以遵循“贪婪”逐步向前方法(参见例如Dabney AR,Storey JD(2007)Optimality Driven Nearest CentroidClassification from Genomic Data.PLoS ONE2(10):e1002.doi:10.1371/journal.pone.0001002)。使用这个方法,分类器以最佳的单一标记(基于关于单个标记的KS距离)起始,并且在每个步骤时通过依次尝试标记列表中目前并非分类器中的标记集合成员的每个成员而成长。将与现有分类器组合评分最佳的一种标记加入分类器中。重复这点直至不再实现性能中的进一步改善。不幸的是,这个方法可能错过有价值的标记组合,单个标记中的一些对于其在过程终止前没有被全部选择。
此处使用的贪婪程序是前述逐步向前方法的详细说明,因此,为了拓宽搜索,不是在每个步骤时仅保留单一候选分类器(标记子集),而是保留候选分类器列表。该列表用每一个单一标记子集(使用表中每一个标记自身)播种。通过由目前在列表上的分类器衍生新分类器(标记子集)并将其加入列表中,在步骤中扩大该列表。通过加入来自表1的并非已是该分类器部分的任何标记,所述标记在其加入子集时将不复制现有子集(这些被称为“允许标记”),延伸目前在列表上的每个标记子集。每一个现有标记子集通过来自列表的每一个允许标记得到延伸。明确的是,此类过程最终生成每一个可能子集,并且该列表将耗尽空间。因此,所有生成的分类器仅在列表小于某一预定大小(通常足以保持所有三标记子集)时才保留。一旦列表达到预定大小限制,它就变成精英(elitist);即,仅显示一定水平性能的那些分类器保留在列表上,而其他分类器跌落到列表末尾并被丢弃。这通过保留按分类器性能次序分选的列表来实现;插入与目前在列表上的最差分类器至少一样好的新分类器,迫使排除目前底部的后进者。一个进一步的实现细节是列表在每个生成步骤时被完全替换;因此,列表上的每一个分类器具有相同数目的标记,在每个步骤时每个分类器的标记数目增长一个。
因为这个方法使用不同标记组合产生候选分类器列表,所以可以询问是否可以组合分类器,以便避免可能由最佳单一分类器或由最佳分类器的少数组产生的误差。此类“总体”和“专家委员会”方法是统计学和机器学习领域众所周知的,并且包括例如“求平均值”、“投票”、“堆叠”、“装袋”和“提高”(参见例如Hastie等人)。通过包括几个不同分类器和因此来自生物标记表的更大标记集合的信息,简单分类器的这些组合提供了用于减少分类中由于任何特定标记集合中的噪声的方差的方法,在分类器之间有效平均。这个方法的有用性的例子是它可以防止单一标记中的异常值不利地影响单份样品的分类。测量更大数目信号的需求在常规的“一次一种标记”抗体测定法中可能是不切实际的,但对于完全多路适体测定法没有缺点。诸如这些技术获益于更广泛的生物标记表,并且使用关于疾病过程的多种信息来源以提供更稳固的分类。
表1中选择的生物标记产生这样的分类器,其表现优于用“非标记”(即具有并不满足用于包括在表1中的标准的信号的蛋白质(如实施例2中所述))构建的分类器。
对于仅含有一种、两种和三种标记的分类器,使用表1中的生物标记获得的所有可能的分类器被列举,并且与由随机选择的非标记信号的类似表构建的分类器相比较检查性能分布。
在图11中,AUC用作性能测量;0.5的性能是随机(抛硬币)分类器的基线期望值。分类器性能的直方图与来自由59个非标记信号的“非标记”表构建的分类器的类似穷举的性能直方图比较;所述59个信号随机选自未证实在对照与疾病群体之间的差异发信号的适体。
图11显示由表14中的生物标记参数构建的所有可能的单标记、二标记和三标记分类器对于生物标记的性能的直方图,所述生物标记可以区分对照群体和NSCLC,并且将这些分类器与使用59个“非标记”适体RFU信号构建的所有可能的单标记、二标记和三标记分类器比较。图11A显示单标记分类器性能的直方图,图11B显示二标记分类器性能的直方图,并且图11C显示三标记分类器性能的直方图。
在图11中,实线表示使用表14中关于吸烟者和良性肺部结节和NSCLC的生物标记数据的所有单标记、二标记和三标记分类器的分类器性能的直方图。虚线是使用关于对照和NSCLC的数据但使用随机非标记信号集合的所有单标记、二标记和三标记分类器的分类器性能的直方图。
由表1中列出的标记构建的分类器形成了独特的直方图,对于所有单标记、二标记和三标记比较,与用来自“非标记”的信号构建的分类器良好分离。与由非标记构建的分类器相比较,由表1中的生物标记构建的分类器的性能和AUC评分还随着标记数更快速增加,随着每个分类器的标记数增加,标记和非标记分类器之间的分离增加。使用表14中列出的生物标记构建的所有分类器均比使用“非标记”构建的分类器表现明显更佳。
分类器性能的分布显示存在许多可能的多重标记分类器,其可以衍生自表1中的分析物集合。尽管如由关于单一分析物的分类器评分和AUC的分布证明的,一些生物标记自身优于其他生物标记,但希望测定此类生物标记是否是构建高性能分类器所需的。为了作出这种区分,分类器性能的行为通过删去一些数目的最佳生物标记进行检查。图12比较用表1中的生物标记完全列表构建的分类器性能与用排除排行最高标记的来自表1的生物标记子集构建的分类器性能。
图12证实未用最佳标记构建的分类器表现良好,暗示分类器的性能不是由于标记的一些小核心组,并且与疾病相关的潜在过程中的变化反映在许多蛋白质的活性中。甚至在去除来自表1的59种标记中最好的15种后,表1中的多个生物标记子集表现仍接近于最佳。在放弃来自表1的15种排行最高(通过KS距离排名)的标记后,分类器性能随着选自该表的标记数增加,以达到几乎0.93的AUC,接近于选自完全生物标记列表的最佳分类器评分0.948的性能。
最后,图13显示根据实施例3由表14中的参数列表构建的典型分类器的ROC性能。用MMP7、CLIC1、STX1A、CHRDL1和PA2G4构建五分析物分类器。图13A显示如实施例3中假设这些标记的独立性的模型性能,并且图13B显示由用于限定表14中的参数的研究数据集生成的经验ROC曲线。可见关于给定数目的所选标记的性能在性质上是一致的,并且如由AUC证明的,定量一致一般是相当良好的,尽管模型计算趋于将分类器性能估计过高。这与下述概念一致:由关于疾病过程的任何特定生物标记贡献的信息与由表1中提供的其他生物标记贡献的信息是冗余的,而模型计算假定完全独立性。图13因此证实与实施例3中所述的方法组合的表1使得能够构建和评估非常多的分类器,其可用于区分NSCLC与对照组。
实施例5.临床生物标记实验对象组
由选择的生物标记实验对象组构建随机森林分类器,所述生物标记可能是最适合于在临床诊断测试中使用的。与由朴素贝叶斯贪婪向前算法选择的模型不同,随机森林分类器不假定生物标记测量是随机分布的。因此,这个模型可以利用来自表1的生物标记,其在朴素贝叶斯分类器中无效。
使用向后淘汰程序选择实验对象组,所述向后淘汰程序利用由随机森林分类器提供的基尼重要性测量。基尼重要性是生物标记在正确分类训练集合中的样品方面的有效性的测量。
这个生物标记重要性测量可以用于消除对于分类器性能较不重要的标记。向后淘汰程序通过构建包括表1中的所有59种标记的随机森林分类器开始。随后消除较不重要的生物标记,并且用剩余生物标记构建新模型。这个程序继续直至仅单一生物标记被保留。
选择的最终实验对象组提供在模型中的最大AUC和最小标记数之间的最佳平衡。满足这些标准的8生物标记实验对象组由下述分析物组成:MMP12、MMP7、KLK3-SERPINA3、CRP、C9、CNDP1、CA6和EGFR。关于这个生物标记实验对象组的ROC曲线的图在图14中显示。这个模型的灵敏度为0.70,具有0.89的相应特异性。
实施例6.用于癌症诊断的生物标记
进行用于癌症的一般诊断的潜在生物标记的鉴定。由3个不同类型的癌症(肺癌、间皮瘤和肾细胞癌)评估病例和对照样品两者。跨越场所,选择标准为至少18岁,具有签名的知情同意书。由于除所讨论的癌症外的已知恶性肿瘤排除病例和对照两者。
肺癌。病例和对照样品如实施例2中所述获得。总共46个病例和218个对照用于这个实施例中。
胸膜间皮瘤。病例和对照样品得自学术癌症中心生物储库(biorepository),以鉴定用于胸膜间皮瘤与良性肺疾病的鉴别诊断的潜在生物标记,所述良性肺疾病包括以后诊断为非恶性的可疑放射学发现。总共124个间皮瘤病例和138个石棉暴露对照用于这个实施例中。
肾细胞癌。病例和对照样品得自来自具有肾细胞癌(RCC)和良性团块(BEN)的患者的学术癌症中心生物储库。对于所有对象均获得手术前样品(TP1)。初步分析比较关于具有通过临床随访证明的“疾病证据”(EVD)相对于“无疾病证据”(NED)的RCC患者的结果数据(如SEER数据库字段CA状态1中记录的)。总共38个EVD病例和104个NED对照用于这个实施例中。
通过合并对于3项不同癌症研究各自考虑的生物标记集合,鉴定癌症生物标记的最终列表。使用贪婪算法成功构建使用大小渐增的生物标记集合的贝叶斯分类器(如这个实施例的部分6.2中更详细地描述的)。可用于诊断一般而言的在不同部位中的癌症的生物标记集合(或实验对象组)和癌症类型汇编为集合(或实验对象组)大小的函数,并且分析其性能。这个分析导致表19中所示的23种癌症生物标记列表,所述生物标记各自存在于这些连续标记集合的至少一个中,所述标记集合大小范围为三到十种标记。作为举例说明性例子,我们描述了由表32中所示的十种癌症生物标记组成的具体实验对象组的生成。
6.1用于癌症的朴素贝叶斯分类法
如这个实施例的部分6.2中概述的,从表1中的生物标记列表中,使用用于生物标记选择的贪婪算法选择具有十种潜在生物标记的实验对象组。对于3种癌症各自构建不同的朴素贝叶斯分类器。将类别依赖性概率密度函数(pdf)、p(Xi|c)和p(Xi|d)建模为对数正态分布函数,其中Xi为对于生物标记i测量的RFU值的对数,并且c和d指对照和疾病群体,该函数的特征在于平均值μ和方差σ2。关于由十种潜在生物标记组成的3个模型的pdf的参数在表31中列出。
关于此类模型的朴素贝叶斯分类由下式给出,其中p(d)是适合于测试的群体中的疾病流行率, ln ( p ( d | x ~ ) p ( c | x ~ ) ) = Σ i = 1 n ln ( σ c , i σ d , i ) - 1 2 Σ i = 1 n [ ( x i - μ d , i σ d , i ) 2 - ( x i - μ c , i σ c , i ) 2 ] + ln ( p ( d ) 1 - p ( d ) ) , 并且n=10。求和中的每一项是关于单个标记的对数似然比,并且不含目的疾病(即,在这种情况下,来自3个不同癌症类型的每种特定疾病)相对于具有疾病的样品X的总对数似然比仅是这些单个项加上负责疾病流行率的项的总和。为简便起见,我们假设p(d)=0.5,从而使得
Figure BDA0000495129570000782
考虑到关于9.5、8.8、7.8、8.3、9.4、7.0、7.9、6.3、7.7、10.6的十种生物标记中每一种的log(RFU)中的未知样品测量,分类的计算在表32中详述。将包含关于疾病相对于对照类别的对数似然比的单个成分制表,并且可以由表31中的参数和X的值计算。单个对数似然比的总和为-3.326,或不含疾病相对于具有疾病的似然性为28,其中似然性e3.326=28。前4种生物标记值具有与疾病组(对数似然性>0)更一致的似然性,但剩余6种生物标记均一致地发现利于对照组。将似然性相乘给出与上文显示相同的结果;未知样品不含疾病的似然性为28。事实上,这个样品来自肾细胞癌训练集合中的对照群体。
6.1用于癌症的朴素贝叶斯分类法
如这个实施例的部分6.2中概述的,从表1中的生物标记列表中,使用用于生物标记选择的贪婪算法选择具有十种潜在生物标记的实验对象组。对于3种不同癌症各自构建不同的朴素贝叶斯分类器。将类别依赖性概率密度函数(pdf)、p(Xi|c)和p(Xi|d)建模为对数正态分布函数,其中Xi为对于生物标记i测量的RFU值的对数,并且c和d指对照和疾病群体,该函数的特征在于平均值μ和方差σ2。关于由十种潜在生物标记组成的3个模型的pdf的参数在表31中列出。
关于此类模型的朴素贝叶斯分类由下式给出,其中p(d)是适合于测试的群体中的疾病流行率, ln ( p ( d | x ~ ) p ( c | x ~ ) ) = Σ i = 1 n ln ( σ c , i σ d , i ) - 1 2 Σ i = 1 n [ ( x i - μ d , i σ d , i ) 2 - ( x i - μ c , i σ c , i ) 2 ] + ln ( p ( d ) 1 - p ( d ) ) , 并且n=10。求和中的每一项是关于单个标记的对数似然比,并且不含目的疾病(即,在这种情况下,来自3个不同癌症类型的每种特定疾病)相对于具有疾病的样品X的总对数似然比仅是这些单个项加上负责疾病流行率的项的总和。为简便起见,我们假设p(d)=0.5,从而使得
考虑到关于9.5、8.8、7.8、8.3、9.4、7.0、7.9、6.3、7.7、10.6的十种生物标记中每一种的log(RFU)中的未知样品测量,分类的计算在表32中详述。将包含关于疾病相对于对照类别的对数似然比的单个成分制表,并且可以由表31中的参数和X的值计算。单个对数似然比的总和为-3.326,或不含疾病相对于具有疾病的似然性为28,其中似然性e3.326=28。生物标记值中仅4种具有与疾病组(对数似然性>0)更一致的似然性,但剩余6种生物标记均一致地发现利于对照组。将似然性相乘给出与上文显示相同的结果;未知样品不含疾病的似然性为28。事实上,这个样品来自NSCLC训练集合中的对照群体。
6.2用于选择用于分类器的癌症生物标记实验对象组的贪婪算法
部分1
选择表1中的生物标记子集以构建潜在分类器,其可以用于测定哪些标记可以用作一般癌症生物标记以检测癌症。
具有标记集合,对于3项癌症研究各自训练不同模型,因此需要总体性能测量以选择能够同时分类许多不同类型的癌症的生物标记集合。此处使用的分类器性能的测量是跨越所有朴素贝叶斯分类器的ROC曲线下面积的平均值。ROC曲线是单一分类器真阳性率(灵敏度)相对于假阳性率(1-特异性)的图。曲线下面积(AUC)范围为0至1.0,其中1.0的AUC对应于完美分类,并且0.5的AUC对应于随机(抛硬币)分类器。可以应用性能的其他常见测量,例如F-测量、或者灵敏度和特异性的总和或乘积。具体地,可能希望用不同加权处理特异性和特异性,以便选择以一些灵敏度为代价的具有较高特异性表现的那些分类器,或选择以一些特异性为代价的具有较高灵敏度表现的那些分类器。我们选择使用AUC是因为它包含在单一测量中的所有灵敏度和特异性组合。不同应用对于真阳性和真阴性发现具有不同利益,并且将具有与假阳性发现和假阴性发现相关的不同成本。改变性能测量可以改变对于给定数据集的选择的确切标记子集。
对于本实施例的部分6.1中所述的区分癌症样品与对照样品的贝叶斯方法,通过生物标记在3项癌症研究各自中的分布将分类器完全参数化,并且生物标记列表选自表19。即,给定训练数据集,选择用于包括的标记子集以一对一的方式测定分类器。
此处采用的贪婪方法用于从表1搜索最佳标记子集。对于小数目标记或具有相对少标记的分类器,列举每一个可能的标记子集,并根据用该特定标记集合构建的分类器的性能进行评估(参见实施例4)。(这种方法在统计学领域众所周知为“最佳子集选择”;参见例如Hastie等人)。但是,对于本文所述分类器,多个标记的组合的数目可以是非常大的,并且评估10种标记的每一个可能集合是不可行的,因为存在可以由仅30种总分析物的列表生成的30,045,015种可能组合。因为通过每一个标记子集搜索的不切实际,所以可能无法发现单一最佳子集;然而,通过使用这种方法,发现了许多优异的子集,并且在许多情况下,这些子集中的任何均可代表最佳的子集。
代替评估每一个可能的标记集合,可以遵循“贪婪”逐步向前方法(参见例如Dabney AR,Storey JD(2007)Optimality Driven Nearest CentroidClassification from Genomic Data.PLoS ONE2(10):e1002.doi:10.1371/journal.pone.0001002)。使用这个方法,分类器以最佳的单一标记(基于关于单个标记的KS距离)起始,并且在每个步骤时通过依次尝试标记列表中目前并非分类器中的标记集合成员的每个成员而成长。将与现有分类器组合评分最佳的一种标记加入分类器中。重复这点直至不再实现性能中的进一步改善。不幸的是,这个方法可能错过有价值的标记组合,单个标记中的一些对于其在过程终止前没有被全部选择。
此处使用的贪婪程序是前述逐步向前方法的详细说明,因此,为了拓宽搜索,不是在每个步骤时仅保留单一标记子集,而是保留候选标记集合列表。该列表用单一标记列表播种。通过由目前在列表上的分类器衍生新标记子集并将其加入列表中,在步骤中扩大该列表。通过加入来自表1的并非已是该分类器部分的任何标记,所述标记在其加入子集时将不复制现有子集(这些被称为“允许标记”),延伸目前在列表上的每个标记子集。每次限定新标记集合,使用这些标记训练由用于每项癌症研究之一组成的分类器集合,并且经由跨越所有3项研究的平均AUC测量总体性能。为了避免潜在的过拟合,经由十倍交叉验证程序计算关于每个癌症研究模型的AUC。每一个现有标记子集通过来自列表的每一个允许标记得到延伸。明确的是,此类过程最终生成每一个可能子集,并且该列表将耗尽空间。因此,所有生成的标记集合仅在列表小于某一预定大小时才保留。一旦列表达到预定大小限制,它就变成精英;即,仅显示一定水平性能的那些分类器集合保留在列表上,而其他分类器跌落到列表末尾并被丢弃。这通过保留按分类器集合性能次序分选的列表来实现;插入与目前在列表上的最差分类器集合总体上至少一样好的新分类器,迫使排除不能达到分类器集合的目前底部。一个进一步的实现细节是列表在每个生成步骤时被完全替换;因此,列表上的每一个标记集合具有相同数目的标记,在每个步骤时每个分类器的标记数目增长一个。
在一个实施方案中,可用于构建用于诊断一般癌症与非癌症的分类器的生物标记集合(或实验对象组)基于关于在分类方案中使用的特定生物标记组合的平均AUC。我们鉴定了衍生自表19中的标记的许多生物标记组合,其能够有效分类不同癌症样品与对照。代表性实验对象组在表22-29中阐述,其阐述具有3-10种生物标记的一系列100个不同实验对象组,其具有关于每个实验对象组的指示平均交叉验证(CV)AUC。每种标记在这些实验对象组各自中出现的总数目在每个表的底部处指示。
表19中选择的生物标记产生这样的分类器,其表现优于用“非标记”构建的分类器。在图15中,我们展示与其他可能分类器的性能相比较,我们的十生物标记分类器的性能。
图15A显示关于由十种“非标记”的随机取样集合构建的分类器的平均AUC的分布,所述十种“非标记”取自所有3项研究中存在的整个23种标记集合,排除表19中的十种标记。十种潜在癌症生物标记的性能展示为垂直虚线。这个图明确显示十种癌症生物标记的性能远远超出其他标记组合的分布。
图15B展示与图15A相似的分布,然而,随机取样集合局限于来自表1的49种生物标记,其未由贪婪生物标记选择程序选择用于十分析物分类器。这个图证实由贪婪算法选择的十种生物标记代表推广到其他类型癌症的生物标记子集,其远远优于用剩余49种生物标记构建的分类器。
最后,图16显示关于3个癌症研究分类器各自的分类器ROC曲线。前述实施方案和实施例预期仅作为例子。特定实施方案、实施例或者特定实施方案或实施例的元件均不应解释为权利要求中任一项的关键、必需或基本元件或特点。进一步地,本文描述的元件不是所附权利要求的实践所需的,除非明确描述为“基本的”或“关键的”。可以对公开的实施方案作出多种改变、修饰、取代和其他变化,而不背离由所附权利要求限定的本发明的范围。说明书包括附图和实施例应视为举例说明性方式,而不是限制性方式,并且所有此类修饰和取代均预期包括在本申请的范围内。相应地,申请的范围应由所附权利要求及其合法等价物而不是上文给出的实施例决定。例如,在方法或过程权利要求中任一项中叙述的步骤可以以任何可行次序执行,并不限于实施方案、实施例或权利要求中任一中呈现的次序。进一步地,在上述方法的任何中,表1或表19的一种或多种生物标记可以特别排除作为单个生物标记或来自任何实验对象组的生物标记。
表1:癌症生物标记
表2:1种生物标记的实验对象组
Figure BDA0000495129570000841
表3:2种生物标记的实验对象组
Figure BDA0000495129570000851
表3—续上页
Figure BDA0000495129570000861
表4:3种生物标记的实验对象组
Figure BDA0000495129570000862
表4—续上页
Figure BDA0000495129570000871
表5:4种生物标记的实验对象组
Figure BDA0000495129570000881
表5—续上页
Figure BDA0000495129570000891
表6:5种生物标记的实验对象组
Figure BDA0000495129570000892
表6—续上页
表7:6种生物标记的实验对象组
Figure BDA0000495129570000911
表7—续上页
Figure BDA0000495129570000921
表7—续上页
Figure BDA0000495129570000931
表8:7种生物标记的实验对象组
Figure BDA0000495129570000932
表8—续上页
Figure BDA0000495129570000941
表8—续上页
Figure BDA0000495129570000951
表8—续上页
表9:8种生物标记的实验对象组
Figure BDA0000495129570000962
表9—续上页
Figure BDA0000495129570000971
表9—续上页
Figure BDA0000495129570000981
表9—续上页
Figure BDA0000495129570000991
表10:9种生物标记的实验对象组
Figure BDA0000495129570000992
表10—续上页
Figure BDA0000495129570001001
表10—续上页
Figure BDA0000495129570001011
表10—续上页
Figure BDA0000495129570001021
表11:10种生物标记的实验对象组
Figure BDA0000495129570001022
表11—续上页
Figure BDA0000495129570001031
表11—续上页
Figure BDA0000495129570001041
表11—续上页
Figure BDA0000495129570001051
表12:生物标记实验对象组中的标记计数
表13:十标记分类器中的分析物
CLIC1 BDNF
MMP7 STX1A
GHR TGFBI
CHRDL1 CRP
LRIG3 KLK3-SERPINA3
AHSG KIT
表14:衍生自用于朴素贝叶斯分类器的训练集合的参数。
表15:关于生物标记的示例性组合的AUC
# AUC
1 MMP7 0.803
2 MMP7 CLIC1 0.883
3 MMP7 CLIC1 STX1A 0.901
4 MMP7 CLIC1 STX1A CHTDL1 0.899
5 MMP7 CLIC1 STX1A CHTDL1 PA2G4 0.912
6 MMP7 CLIC1 STX1A CHRDL1 PA2G4 SERPINA1 0.922
7 MMP7 CLIC1 STX1A CHRDL1 PA2G4 SERPINA1 BDNF 0.930
8 MMP7 CLIC1 STX1A CHRDL1 PA2G4 SERPINA1 BDNF GHR 0.937
9 MMP7 CLIC1 STX1A CHRDL1 PA2G4 SERPINA1 BDNF GHR TGFBI 0.944
10 MMp7 GLIC1 STX1A CHRDL1 PA2G4 SERPINA1 BDNF GHR TGFBI NME2 0.948
表16:衍生自用于朴素贝叶斯分类器的训练集合的计算。
Figure BDA0000495129570001081
表17:训练集合的临床特征
Figure BDA0000495129570001082
表18:十生物标记分类器蛋白质
Figure BDA0000495129570001091
表19:一般癌症的生物标记
KLK3-SERPINA3 EGFR
BMPER FGA-FGB-FGG
C9 STX1A
AKR7A2 CKB-CKM
DDC CA6
IGFBP2 IGFBP4
FN1 BMP1
CRP KIT
CNTN1 SERPTNA1
BDNF GHR
ITIH4 NME2
AHSG
表20:1种生物标记的实验对象组
Figure BDA0000495129570001101
表21:2种生物标记的实验对象组
Figure BDA0000495129570001102
表21—续上页
Figure BDA0000495129570001111
表21—续上页
Figure BDA0000495129570001121
表22:3种生物标记的实验对象组
Figure BDA0000495129570001122
表22—续上页
Figure BDA0000495129570001131
表23:4种生物标记的实验对象组
表23—续上页
Figure BDA0000495129570001151
表23—续上页
Figure BDA0000495129570001161
表24:5种生物标记的实验对象组
Figure BDA0000495129570001162
表24—续上页
Figure BDA0000495129570001171
表25:6种生物标记的实验对象组
表25—续上页
Figure BDA0000495129570001191
表25—续上页
表25—续上页
Figure BDA0000495129570001211
表26:7种生物标记的实验对象组
Figure BDA0000495129570001221
表26—续上页
Figure BDA0000495129570001231
表26—续上页
Figure BDA0000495129570001241
表26—续上页
Figure BDA0000495129570001251
表27:8种生物标记的实验对象组
表27—续上页
Figure BDA0000495129570001261
表27—续上页
表27—续上页
表28:9种生物标记的实验对象组
Figure BDA0000495129570001282
表28—续上页
表28—续上页
Figure BDA0000495129570001301
表28—续上页
Figure BDA0000495129570001311
表29:10种生物标记的实验对象组
Figure BDA0000495129570001312
表29—续上页
Figure BDA0000495129570001321
表29—续上页
Figure BDA0000495129570001331
表29—续上页
Figure BDA0000495129570001341
表30:生物标记实验对象组中的标记计数
Figure BDA0000495129570001342
表31:衍生自用于朴素贝叶斯分类器的癌症训练集合的参数
Figure BDA0000495129570001351
表32:衍生自用于朴素贝叶斯分类器的训练集合的计算。
Figure BDA0000495129570001352

Claims (66)

1.一种用于诊断个体具有或不具有非小细胞肺癌(NSCLC)的方法,所述方法包括:
在来自个体的生物样品中检测生物标记值,所述生物标记值各自对应于选自表1的至少N种生物标记之一,其中所述个体基于所述生物标记值分类为具有或不具有肺癌,并且其中N=2-59。
2.权利要求1的方法,其中检测所述生物标记值包括执行体外测定法。
3.权利要求2的方法,其中所述体外测定法包括对应于每个所述生物标记的至少一种捕获试剂,并且进一步包括从适体、抗体和核酸探针中选择所述至少一种捕获试剂。
4.权利要求3的方法,其中所述至少一种捕获试剂是适体。
5.权利要求2的方法,其中所述体外测定法选自免疫测定法、基于适体的测定法、组织学或细胞学测定法和mRNA表达水平测定法。
6.权利要求1的方法,其中每个生物标记值基于预定值或预定值范围进行评估。
7.权利要求1的方法,其中所述生物样品是肺组织,并且其中所述生物标记值衍生自所述肺组织的组织学或细胞学分析。
8.权利要求1的方法,其中所述生物样品选自全血、血浆和血清。
9.权利要求1的方法,其中所述生物样品是血清。
10.权利要求1的方法,其中所述个体是人。
11.权利要求1的方法,其中N=2-15。
12.权利要求1的方法,其中N=2-10。
13.权利要求1的方法,其中N=3-10。
14.权利要求1的方法,其中N=4-10。
15.权利要求1的方法,其中N=5-10。
16.权利要求1的方法,其中所述个体是吸烟者。
17.权利要求1的方法,其中所述个体具有肺部结节。
18.权利要求1的方法,其中所述生物标记选自表15。
19.一种用于指示NSCLC的似然性的计算机执行方法,所述方法包括:
在计算机上检索关于个体的生物标记信息,其中所述生物标记信息包含生物标记值,所述生物标记值各自对应于选自表1的至少N种生物标记之一;
用计算机进行每个所述生物标记值的分类;和
基于多个分类指示所述个体具有肺癌的似然性,并且其中N=2-59。
20.权利要求19的方法,其中指示所述个体具有肺癌的似然性包括在计算机显示器上展示所述似然性。
21.一种用于指示NSCLC的似然性的计算机程序产品,所述计算机程序产品包括:
收录可由计算装置或系统的处理器执行的程序代码的计算机可读介质,所述程序代码包含:
检索归于来自个体的生物样品的数据的代码,其中所述数据包含各自对应于选自表1的至少N种生物标记之一的生物标记值,其中所述生物标记在所述生物样品中检测;和
执行分类方法的代码,所述分类方法根据所述生物标记值指示所述个体的肺疾病状态;并且其中N=2-59。
22.权利要求21的计算机程序产品,其中所述分类方法使用概率密度函数。
23.权利要求22的计算机程序产品,其中所述分类方法使用两个或更多个类别。
24.一种用于针对NSCLC筛选无症状高危个体的方法,所述方法包括:
在来自个体的生物样品中检测生物标记值,所述生物标记值各自对应于选自表1的至少N种生物标记之一,其中基于所述生物标记值,将所述个体分类为具有或不具有NSCLC,或测定所述个体具有NSCLC的似然性,并且其中N=2-59。
25.权利要求24的方法,其中检测所述生物标记值包括执行体外测定法。
26.权利要求25的方法,其中所述体外测定法包括对应于每个所述生物标记的至少一种捕获试剂,并且进一步包括从适体、抗体和核酸探针中选择所述至少一种捕获试剂。
27.权利要求26的方法,其中所述至少一种捕获试剂是适体。
28.权利要求25的方法,其中所述体外测定法选自免疫测定法、基于适体的测定法、组织学或细胞学测定法和mRNA表达水平测定法。
29.权利要求24的方法,其中每个生物标记值基于预定值或预定值范围进行评估。
30.权利要求24的方法,其中所述生物样品是肺组织,并且其中所述生物标记值衍生自所述肺组织的组织学或细胞学分析。
31.权利要求24的方法,其中所述生物样品选自全血、血浆和血清。
32.权利要求31的方法,其中所述生物样品是血清。
33.权利要求24的方法,其中所述个体是人。
34.权利要求24的方法,其中N=2-15。
35.权利要求24的方法,其中N=2-10。
36.权利要求24的方法,其中N=3-10。
37.权利要求24的方法,其中N=4-10。
38.权利要求24的方法,其中N=5-10。
39.权利要求24的方法,其中所述个体是吸烟者。
40.权利要求24的方法,其中所述个体具有肺部结节。
41.权利要求24的方法,其中所述生物标记选自表15。
42.一种用于诊断个体具有或不具有NSCLC的方法,所述方法包括:
在来自个体的生物样品中检测生物标记值,所述生物标记值各自对应于选自表1的生物标记实验对象组,其中所述个体分类为具有或不具有肺癌,并且其中所述生物标记实验对象组具有0.80或更大的AUC值。
43.权利要求42的方法,其中所述实验对象组具有0.85或更大的AUC值。
44.权利要求42的方法,其中所述个体是吸烟者。
45.一种用于诊断个体具有或不具有癌症的方法,所述方法包括:
在来自个体的生物样品中检测生物标记值,所述生物标记值各自对应于选自表19的至少N种生物标记之一,其中所述个体基于所述生物标记值分类为具有或不具有癌症,并且其中N=3-12。
46.权利要求45的方法,其中检测所述生物标记值包括执行体外测定法。
47.权利要求46的方法,其中所述体外测定法包括对应于每个所述生物标记的至少一种捕获试剂,并且进一步包括从适体、抗体和核酸探针中选择所述至少一种捕获试剂。
48.权利要求47的方法,其中所述至少一种捕获试剂是适体。
49.权利要求46的方法,其中所述体外测定法选自免疫测定法、基于适体的测定法、组织学或细胞学测定法和mRNA表达水平测定法。
50.权利要求45的方法,其中每个生物标记值基于预定值或预定值范围进行评估。
51.权利要求45的方法,其中所述生物样品选自全血、血浆和血清。
52.权利要求45的方法,其中所述生物样品是血清。
53.权利要求45的方法,其中所述个体是人。
54.权利要求45的方法,其中N=3-10。
55.权利要求45的方法,其中N=4-10。
56.权利要求45的方法,其中N=5-10。
57.一种用于指示癌症的似然性的计算机执行方法,所述方法包括:
在计算机上检索关于个体的生物标记信息,其中所述生物标记信息包含生物标记值,所述生物标记值各自对应于选自表19的至少N种生物标记之一;
用计算机进行每个所述生物标记值的分类;和
基于多个分类指示所述个体具有癌症的似然性,并且其中N=3-12。
58.权利要求57的方法,其中指示所述个体具有癌症的似然性包括在计算机显示器上展示所述似然性。
59.一种用于指示癌症的似然性的计算机程序产品,所述计算机程序产品包括:
收录可由计算装置或系统的处理器执行的程序代码的计算机可读介质,所述程序代码包含:
检索归于来自个体的生物样品的数据的代码,其中所述数据包含各自对应于选自表19的至少N种生物标记之一的生物标记值,其中所述生物标记在所述生物样品中检测;和
执行分类方法的代码,所述分类方法根据所述生物标记值指示所述个体的癌症状态;并且其中N=3-12。
60.权利要求59的计算机程序产品,其中所述分类方法使用概率密度函数。
61.权利要求60的计算机程序产品,其中所述分类方法使用两个或更多个类别。
62.根据权利要求1或24的方法,其中基于所述生物标记值和对应于所述个体的至少一项另外的生物医学信息,将所述个体分类为具有或不具有NSCLC,或测定所述个体具有NSCLC的似然性。
63.根据权利要求45的方法,其中基于所述生物标记值和对应于所述个体的至少一项另外的生物医学信息,将所述个体分类为具有或不具有癌症,或测定所述个体具有癌症的似然性。
64.根据权利要求62或63的方法,其中所述至少一项另外的生物医学信息独立地选自:
(a)对应于所述个体的物理描述词的信息,
(b)对应于所述个体中的肺异常的放射学描述词的信息,
(c)对应于所述个体中的肺部结节的存在或不存在的信息,
(d)对应于所述个体中的肺部结节的物理描述词的信息,
(e)对应于所述个体的高度和/或重量中的改变的信息,
(f)对应于所述个体的种族性的信息,
(g)对应于所述个体的性别的信息,
(h)对应于所述个体的吸烟史的信息,
(i)对应于所述个体中的环境烟草暴露的信息,
(j)对应于所述个体中的饮酒史的信息,
(k)对应于所述个体中的职业史的信息,
(l)对应于所述个体中的肺癌或其他癌症的家族史的信息,
(m)对应于所述个体中至少一种遗传标记的存在或不存在的信息,所述遗传标记与所述个体或所述个体的家族成员中的肺癌或癌症的更高危险关联,
(n)对应于所述个体的临床症状的信息,
(o)对应于其他实验室测试的信息,
(p)对应于所述个体的基因表达值的信息,和
(q)对应于所述个体对已知致癌物的暴露的信息。
65.一种分类器,其包含表15的生物标记。
66.一种分类器,其包含实施例5中的生物标记,特别是MMP12、MMP7、KLK3-SERPINA3、CRP、C9、CNDP1、CA6和EGFR。
CN201180074349.4A 2011-10-24 2011-10-24 肺癌生物标记及其用途 Active CN103890586B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610457386.8A CN106168624B (zh) 2011-10-24 2011-10-24 肺癌生物标记及其用途

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2011/057499 WO2013062515A2 (en) 2011-10-24 2011-10-24 Lung cancer biomarkers and uses thereof

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201610457386.8A Division CN106168624B (zh) 2011-10-24 2011-10-24 肺癌生物标记及其用途

Publications (2)

Publication Number Publication Date
CN103890586A true CN103890586A (zh) 2014-06-25
CN103890586B CN103890586B (zh) 2016-06-29

Family

ID=48168748

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201610457386.8A Active CN106168624B (zh) 2011-10-24 2011-10-24 肺癌生物标记及其用途
CN201180074349.4A Active CN103890586B (zh) 2011-10-24 2011-10-24 肺癌生物标记及其用途

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201610457386.8A Active CN106168624B (zh) 2011-10-24 2011-10-24 肺癌生物标记及其用途

Country Status (15)

Country Link
EP (1) EP2771692B1 (zh)
JP (1) JP5986638B2 (zh)
KR (1) KR101921945B1 (zh)
CN (2) CN106168624B (zh)
AU (1) AU2011378427B8 (zh)
BR (1) BR112014006432B8 (zh)
CA (3) CA3006793C (zh)
ES (1) ES2674318T3 (zh)
IL (2) IL231426A (zh)
IN (1) IN2014CN01787A (zh)
MX (1) MX355416B (zh)
NZ (1) NZ621733A (zh)
SG (1) SG11201400375SA (zh)
WO (1) WO2013062515A2 (zh)
ZA (1) ZA201401476B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107796942A (zh) * 2016-09-02 2018-03-13 生命基础公司 用于肺癌诊断的复合生物标志物群、肺癌诊断用试剂盒、利用其的信息的方法及计算系统
CN107849569A (zh) * 2015-11-05 2018-03-27 深圳华大生命科学研究院 肺腺癌生物标记物及其应用
CN108026584A (zh) * 2015-09-11 2018-05-11 适体科学株式会社 非小细胞肺癌诊断用蛋白质生物标志物组及利用其的非小细胞肺癌诊断方法
CN109116023A (zh) * 2018-06-14 2019-01-01 郑州大学第附属医院 一种肺癌标志物抗-mmp12自身抗体及其应用
CN109470859A (zh) * 2018-11-04 2019-03-15 华东医院 一种外泌体蛋白作为鉴别肺结节良恶性标志物及其应用
CN110140175A (zh) * 2016-11-08 2019-08-16 哈佛学院院长及董事 基质印迹和清除
CN110473167A (zh) * 2019-07-09 2019-11-19 哈尔滨工程大学 一种基于深度学习的尿沉渣图像识别系统及方法
CN113711313A (zh) * 2019-02-15 2021-11-26 佰欧迪塞克斯公司 用于识别手术后处于高复发风险的早期nsclc患者的预测性测试
US11788123B2 (en) 2017-05-26 2023-10-17 President And Fellows Of Harvard College Systems and methods for high-throughput image-based screening
US11959075B2 (en) 2014-07-30 2024-04-16 President And Fellows Of Harvard College Systems and methods for determining nucleic acids

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130116150A1 (en) 2010-07-09 2013-05-09 Somalogic, Inc. Lung Cancer Biomarkers and Uses Thereof
CA2910327A1 (en) * 2013-05-09 2014-11-13 Rui Li Method and system for assessing health condition
CN104263723B (zh) * 2014-09-15 2017-06-06 南京医科大学 一种与原发性肺癌辅助诊断相关的低频高外显性遗传标志物及其应用
WO2016094330A2 (en) * 2014-12-08 2016-06-16 20/20 Genesystems, Inc Methods and machine learning systems for predicting the liklihood or risk of having cancer
CN110402394B (zh) * 2017-03-01 2024-04-26 豪夫迈·罗氏有限公司 用于将关于分析物的存在的生物样品进行分类的系统和方法
CN112892619B (zh) * 2019-12-04 2022-07-15 香港城市大学深圳研究院 弧形边缘截面的pdms母模、微流控阀和芯片及其制备
KR102613772B1 (ko) * 2021-02-02 2023-12-14 제노마인(주) 폐암 혈액 바이오마커의 검출 방법 및 키트

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030215895A1 (en) * 2000-08-18 2003-11-20 Wennerberg Anne Elizabeth Monoclonal antibody DS6, tumor-associated antigen CA6, and methods of use thereof
WO2006016697A1 (en) * 2004-08-10 2006-02-16 Oncotherapy Science, Inc. Non-small cell lung cancer-related gene, anln, and its interactions with rhoa
CN101283106A (zh) * 2005-07-27 2008-10-08 肿瘤疗法科学股份有限公司 小细胞肺癌的诊断方法
US20100070191A1 (en) * 2008-09-09 2010-03-18 Somalogic, Inc. Lung Cancer Biomarkers and Uses Thereof
CN102084253A (zh) * 2008-02-22 2011-06-01 穆比奥产品有限公司 小细胞肺癌生物标记物组

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000052204A2 (en) * 1999-02-22 2000-09-08 Orntoft Torben F Gene expression in bladder tumors
EP1937837A2 (en) * 2005-07-29 2008-07-02 Siemens Healthcare Diagnostics Inc. Methods and kits for the prediction of therapeutic success, recurrence free and overall survival in cancer therapies
US8445198B2 (en) 2005-12-01 2013-05-21 Medical Prognosis Institute Methods, kits and devices for identifying biomarkers of treatment response and use thereof to predict treatment efficacy
US8014957B2 (en) * 2005-12-15 2011-09-06 Fred Hutchinson Cancer Research Center Genes associated with progression and response in chronic myeloid leukemia and uses thereof
WO2008046911A2 (en) * 2006-10-20 2008-04-24 Exiqon A/S Novel human micrornas associated with cancer
WO2010030697A1 (en) * 2008-09-09 2010-03-18 Somalogic, Inc. Lung cancer biomarkers and uses thereof
CA3153682A1 (en) 2008-11-17 2010-05-20 Veracyte, Inc. Methods and compositions of molecular profiling for disease diagnostics
EP2370813A4 (en) 2008-12-04 2012-05-23 Univ California MATERIALS AND METHODS FOR DIAGNOSIS AND PROGNOSIS OF PROSTATE CANCER
WO2011100472A1 (en) * 2010-02-10 2011-08-18 The Regents Of The University Of California Salivary transcriptomic and proteomic biomarkers for breast cancer detection
CA2791905A1 (en) 2010-03-01 2011-09-09 Caris Life Sciences Luxembourg Holdings, S.A.R.L. Biomarkers for theranostics
AU2011237669B2 (en) 2010-04-06 2016-09-08 Caris Life Sciences Switzerland Holdings Gmbh Circulating biomarkers for disease

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030215895A1 (en) * 2000-08-18 2003-11-20 Wennerberg Anne Elizabeth Monoclonal antibody DS6, tumor-associated antigen CA6, and methods of use thereof
WO2006016697A1 (en) * 2004-08-10 2006-02-16 Oncotherapy Science, Inc. Non-small cell lung cancer-related gene, anln, and its interactions with rhoa
CN101283106A (zh) * 2005-07-27 2008-10-08 肿瘤疗法科学股份有限公司 小细胞肺癌的诊断方法
CN102084253A (zh) * 2008-02-22 2011-06-01 穆比奥产品有限公司 小细胞肺癌生物标记物组
US20100070191A1 (en) * 2008-09-09 2010-03-18 Somalogic, Inc. Lung Cancer Biomarkers and Uses Thereof

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11959075B2 (en) 2014-07-30 2024-04-16 President And Fellows Of Harvard College Systems and methods for determining nucleic acids
CN108026584A (zh) * 2015-09-11 2018-05-11 适体科学株式会社 非小细胞肺癌诊断用蛋白质生物标志物组及利用其的非小细胞肺癌诊断方法
CN108026584B (zh) * 2015-09-11 2021-12-10 适体科学株式会社 非小细胞肺癌诊断用蛋白质生物标志物组及利用其的非小细胞肺癌诊断方法
CN107849569A (zh) * 2015-11-05 2018-03-27 深圳华大生命科学研究院 肺腺癌生物标记物及其应用
CN107849569B (zh) * 2015-11-05 2021-08-03 深圳华大生命科学研究院 肺腺癌生物标记物及其应用
CN107796942B (zh) * 2016-09-02 2020-05-05 百奥医福股份有限公司 用于肺癌诊断的复合生物标志物群、肺癌诊断用试剂盒、利用其的信息的方法及计算系统
CN107796942A (zh) * 2016-09-02 2018-03-13 生命基础公司 用于肺癌诊断的复合生物标志物群、肺癌诊断用试剂盒、利用其的信息的方法及计算系统
CN110140175A (zh) * 2016-11-08 2019-08-16 哈佛学院院长及董事 基质印迹和清除
US11788123B2 (en) 2017-05-26 2023-10-17 President And Fellows Of Harvard College Systems and methods for high-throughput image-based screening
CN109116023A (zh) * 2018-06-14 2019-01-01 郑州大学第附属医院 一种肺癌标志物抗-mmp12自身抗体及其应用
CN109470859A (zh) * 2018-11-04 2019-03-15 华东医院 一种外泌体蛋白作为鉴别肺结节良恶性标志物及其应用
CN113711313A (zh) * 2019-02-15 2021-11-26 佰欧迪塞克斯公司 用于识别手术后处于高复发风险的早期nsclc患者的预测性测试
CN110473167B (zh) * 2019-07-09 2022-06-17 哈尔滨工程大学 一种基于深度学习的尿沉渣图像识别系统及方法
CN110473167A (zh) * 2019-07-09 2019-11-19 哈尔滨工程大学 一种基于深度学习的尿沉渣图像识别系统及方法

Also Published As

Publication number Publication date
MX355416B (es) 2018-04-18
CN106168624B (zh) 2018-03-13
CA3064363C (en) 2022-05-17
ES2674318T3 (es) 2018-06-28
AU2011378427A1 (en) 2013-05-16
KR101921945B1 (ko) 2018-11-26
IN2014CN01787A (zh) 2015-05-29
WO2013062515A3 (en) 2014-04-17
KR20140082840A (ko) 2014-07-02
CN103890586B (zh) 2016-06-29
BR112014006432B1 (pt) 2021-04-06
WO2013062515A2 (en) 2013-05-02
CA3006793C (en) 2020-02-18
IL252163A0 (en) 2017-07-31
JP5986638B2 (ja) 2016-09-06
AU2011378427A8 (en) 2015-08-27
BR112014006432B8 (pt) 2022-10-25
IL231426A (en) 2017-06-29
EP2771692A4 (en) 2015-08-26
NZ621733A (en) 2015-05-29
CN106168624A (zh) 2016-11-30
ZA201401476B (en) 2016-06-29
CA2847188A1 (en) 2013-05-02
SG11201400375SA (en) 2014-04-28
AU2011378427B2 (en) 2015-07-16
AU2011378427B8 (en) 2015-08-27
EP2771692B1 (en) 2018-04-18
EP2771692A2 (en) 2014-09-03
CA2847188C (en) 2020-02-18
IL231426A0 (en) 2014-04-30
CA3006793A1 (en) 2013-05-02
BR112014006432A2 (pt) 2017-04-04
MX2014004860A (es) 2014-05-27
JP2015501154A (ja) 2015-01-15
CA3064363A1 (en) 2013-05-02

Similar Documents

Publication Publication Date Title
CN103890586B (zh) 肺癌生物标记及其用途
CN102209968B (zh) 肺癌生物标记蛋白的捕获剂在制备试剂盒中的用途
CN102985819B (zh) 肺癌生物标记及其用途
CN103415624B (zh) 胰腺癌生物标记及其用途
CN103429753A (zh) 间皮瘤生物标记及其用途
CN103959060A (zh) 心血管危险事件预测及其用途
US20120143805A1 (en) Cancer Biomarkers and Uses Thereof
WO2011031344A1 (en) Cancer biomarkers and uses thereof
CN108603887A (zh) 非酒精性脂肪肝疾病(nafld)和非酒精性脂肪性肝炎(nash)生物标记及其用途
US20220065872A1 (en) Lung Cancer Biomarkers and Uses Thereof

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Colorado, USA

Patentee after: Private placement protein body Operation Co.,Ltd.

Address before: Colorado, USA

Patentee before: SOMALOGIC, Inc.