CN114730612A - 使用肿瘤微环境活性蛋白质提高各种疾病的诊断 - Google Patents

使用肿瘤微环境活性蛋白质提高各种疾病的诊断 Download PDF

Info

Publication number
CN114730612A
CN114730612A CN202080063803.5A CN202080063803A CN114730612A CN 114730612 A CN114730612 A CN 114730612A CN 202080063803 A CN202080063803 A CN 202080063803A CN 114730612 A CN114730612 A CN 114730612A
Authority
CN
China
Prior art keywords
cancer
disease
computer
implemented method
biomarkers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080063803.5A
Other languages
English (en)
Inventor
加利纳·克拉西克
基思·林根费尔特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Outer Race Co ltd
Original Assignee
Outer Race Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Outer Race Co ltd filed Critical Outer Race Co ltd
Publication of CN114730612A publication Critical patent/CN114730612A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57407Specifically defined cancers
    • G01N33/57423Specifically defined cancers of lung
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57484Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6863Cytokines, i.e. immune system proteins modifying a biological response such as cell growth proliferation or differentiation, e.g. TNF, CNF, GM-CSF, lymphotoxin, MIF or their receptors
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6863Cytokines, i.e. immune system proteins modifying a biological response such as cell growth proliferation or differentiation, e.g. TNF, CNF, GM-CSF, lymphotoxin, MIF or their receptors
    • G01N33/6869Interleukin
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Public Health (AREA)
  • Molecular Biology (AREA)
  • Hematology (AREA)
  • Urology & Nephrology (AREA)
  • Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Cell Biology (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Biotechnology (AREA)
  • Databases & Information Systems (AREA)
  • Microbiology (AREA)
  • General Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Food Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

通过接收生物标志物的浓度值来检测多个生物标志物,使用生物标志物的样本来构建训练集,并对生物标志物浓度值进行相关性计算来诊断疾病的疾病诊断的系统和方法。

Description

使用肿瘤微环境活性蛋白质提高各种疾病的诊断
相关申请的交叉引用
本申请要求2019年7月13日提交的美国临时申请No.62/873,862的权益,其全部内容通过引用并入本文。
2017年7月27日提交的相关专利申请PCT/US2017/014595(公布为WO2017/127822)描述了使用用于相关性分析的自变量以改善疾病预测的方法,该自变量不是直接测量分析物的浓度,而是被称为“邻近度评分”的计算值,该值根据浓度计算得到并且还针对特定年龄(或其他生理参数)被归一化,以去除年龄漂移和当疾病状态从非疾病转变为疾病时浓度值随生理参数(例如,年龄、绝经状态等)漂移或移位方式的非线性。
技术领域
本发明涉及用于提高疾病诊断准确性的系统和方法,以及涉及所测量的分析物与二元结果(例如,非疾病或疾病)以及高阶结果(例如,疾病的若干个阶段中的一个)的相关性的相关联诊断测试。本发明的重点是检测早期分期癌症,特别是非小细胞肺癌(NSCLC)。所述发明同样适用于其他实体肿瘤癌症,诸如乳腺癌、卵巢癌、前列腺癌和黑色素瘤等。
本公开中讨论的生物标志物主要称为肿瘤微环境(TME)活性蛋白质(细胞因子)。这些生物标志物揭示了根据噪声抑制的血清血液测量结果确定的肿瘤的作用和状态。使用引用的(上述)专利申请中公开的方法,可以如本文所述的确定实时肿瘤状态和肿瘤的侵袭性生长程度。
背景技术
诊断医学长期以来一直承诺,蛋白质组学,即与疾病状态相关的多个蛋白质的测量结果会产生突破性诊断方法,用于迄今为止针对性研究尚未产生简单可行的血液测试的疾病。癌症和阿尔茨海默病便是两个。在很大程度上,主要问题归结为样本的蛋白质(或其他生物分子)浓度测量结果受到与其他状况或药物相关的因素(如对酒精是否有规定)污染,或者样本反映了对生物分子浓度测量结果的地理影响和环境影响。在将被用作评估相关性的模型基础的具有已知疾病和非疾病状态的大群体中,即使没有数千种也有数百种影响所选生物标志物的上调或下调的病症或药物。此外,生物系统表现出复杂的非线性行为,这使得在相关性方法中难以建模。
发明内容
旧的蛋白质组学方法的传统认知是,“真相”在于测量的原始浓度值,并且他们的实践者来自生物学或临床化学背景。相反,本发明的方法完全偏离“真相”在于这些原始浓度值这一概念,并且基于如下所讨论的浓度意指什么的更深层解释。这些显著改善了回归方法的表现、神经网络解决方案、使支持向量机降噪,并使其他更强大的相关方法向前发展。解决方案部分来自测量结果数学和随机噪声排除。所有测量结果均由期望信号和噪声组成。数学证明,对期望信号进行多次采样可以消除离噪声。通过这种采样,噪声将被分离为相关噪声(与测量结果采样方案同步)和不相关或随机噪声。随机噪声以样本数量的平方根减少。通过多次采样,可以非常准确地推断信号和相关噪声(称为偏移)。最后,可以利用没有信号的情况下的测量结果来确定偏移。这些方法在引用的专利申请PCT/US2017/014595中详细描述和公开。TME活性细胞因子的优越预测能力是通过采用该专利申请中描述的方法产生的。
附图说明
当结合附图考虑时,通过参考以下详细描述,随着对本发明的更好理解,将很容易获得对本发明及其许多附带优点的更全面的理解,其中:
图1是示出200个被诊断有和未被诊断有非小细胞肺癌的样本的促炎细胞因子的生物标志物IL 6的接受者操作特征(ROCD)曲线的图表。这示出在噪声抑制血清中测量的生物标志物的TME特征行为;
图2是示出200个被诊断有和未被诊断有非小细胞肺癌的样本的血管化细胞因子生物标志物VEGF的接受者操作特征(ROC)曲线的图表。这示出在噪声抑制血清中测量的生物标志物的TME特征行为;
图3是示出200个被诊断有和未被诊断有非小细胞肺癌的样本的肿瘤细胞凋亡细胞因子受体生物标志物TNF Ri的接受者操作特征(ROCD)曲线的图表。这示出在噪声抑制血清中测量的生物标志物的TME特征行为;
图4是示出200个被诊断有和未被诊断有非小细胞肺癌的样本的血管生成细胞因子生物标志物IL 8的接受者操作特征(ROCD)曲线的图表。这示出在噪声抑制血清中测量的生物标志物的TME特征行为;
图5是示出200个被诊断有和未被诊断有非小细胞肺癌的样本的颗粒集落刺激因子(G-CSF细胞因子生物标志物)的接受者操作特征(ROCD)曲线的图表。这示出在噪声抑制血清中测量的生物标志物的TME特征行为;
图6是示出针对乳腺癌的五个生物标志物YEGF、IL 6、PSA、IL 8和TNFα的接受者操作特征复合曲线的图表。这示出蛋白质组学噪声抑制和空间邻近度相关性方法的放大效应,参见参考专利和在噪声抑制血清中测量的生物标志物的TME标志物行为;
图7是示出NSCLC分期的TME活性生物标志物的作用的图表。这示出这些生物标志物随着肿瘤生长进展的调节;
图8A是示出前列腺癌Gleason评分的TME活性生物标志物的作用的图表。该图示出这些生物标志物随着肿瘤生长进展的调节;
图8B是示出前列腺癌Gleason评分的TME活性生物标志物的作用的图表。该图示出这些生物标志物随着肿瘤生长进展的调节;
图8C是示出前列腺癌Gleason评分的TME活性生物标志物通的作用的图表。该图表示出这些生物标志物随着肿瘤生长进展的调节;
图9是示出400个已被诊断有和未被诊断有乳腺癌的女性的两个典型的重要生物标志物IL 6和VEGF的图表;
图10是示出图1所示的400个女性的相同两个生物标志物IL 6和VEGF的邻近度评分标记图的图表;
图11是示出一个方程集的浓度-邻近度评分转换的图表;
图12是示出另一方程集的浓度-邻近度评分转换的图表;
图13是示出另一方程集的浓度-邻近度评分转换的图表,该方程集的区域折叠在另一区域的顶部;
图14是示出生物标志物PSA和TNFα平均浓度值的年龄分布的图表;
图15示出水平轴上绘制的IL 6和VEGF邻近度评分以及垂直轴上绘制群体分布的3D图;
图16示出图15的3D图,其中水平轴向下旋转,示出非癌症和癌症样本的水平分离;
图17A是示出针对卵巢癌的单独的CA125、HE 4的ROC曲线和ROMA测试的复合ROC曲线的图表;
图17B是示出针对卵巢癌的单独的CA 125、HE 4的ROC曲线和ROMA测试的复合ROC曲线的图表;
图17C是示出针对卵巢癌的单独的CA125、HE 4的ROC曲线和ROMA测试的复合ROC曲线的图表;
图18是示出绘制IL 6、VEGF和IL 8的3D图;
图19示出图18中绕垂直轴旋转并向后倾斜的3D图;
图20示出图18中旋转的3D图,以通过原点看到背面;
图21示出图18中向上旋转的3D图,以示出前面的癌症样本;
图22是示出当癌症从健康进展到3期乳腺癌时,五个乳腺癌生物标志物的作用的图表;
图23是卵巢癌的生物标志物CA 125和HE 4的3D图,其在垂直轴上示出邻近度评分的群体分布;
图24示出图23的旋转的3D图,以更清楚地示出HE 4生物标志物的群体分布;
图25示出图23向下旋转的3D图,以更清楚地示出这些twp肿瘤标志物的两个轴分布;
图26是示出本申请中讨论的乳腺癌测试的ROC曲线的图表;
图27是示出400个被诊断有和未被诊断有乳腺癌的女性的生物标志物VEGF的群体分布的图表;
图28是示出一个方程集的浓度-邻近度评分转换的图表;
图29示出构造训练集模型的任务流程图;
图30是示出具有大的非线性分布的程式化邻近度评分分布的图表;
图31是示出程式化的邻近度评分分布的图表,其中大的非线性分布被抑制;
图32是示出训练集要求的50%至50%的疾病对非疾病分布的程式化邻近度评分分布的图表;
图33是示出疾病对非疾病的真实分布的程式化邻近度评分分布的图表;
图34是示出通过折叠校正的疾病到非疾病真实分布的程式化邻近度评分分布的图表;
图35是示出生物标志物VEGF转换后的群体分布结果的图表;
图36是示出乳腺癌的TME活性生物标志物的作用的图表。这示出这些生物标志物随着肿瘤生长进展的调节;
图37是示出针对前列腺癌的通过Gleason评分的生物标志物作用的图表;
图38是示出乳腺癌的按分期的生物标志物作用和癌症评分的图表;和
图39示出可通过其执行本发明方法的示例性路径。
具体实施方式
为了清晰起见,在描述附图中所例示的本发明的优选实施例时,将使用特定术语。然而,本发明并不限于如此选择的特定术语,并且应当理解,各个特定术语包括以类似方式操作以实现类似目的的所有技术等价方案。为了说明的目的描述了本发明的若干优选实施例,应当理解,本发明可以以附图中未具体示出的其他形式实施。
旧的蛋白质组学方法的传统认知是,“真相”在于测量的原始浓度值,并且他们的实践者来自生物学或临床化学背景。相反,本发明的方法完全偏离“真相”在于这些原始浓度值这一概念,并且基于如下所讨论的浓度意指什么的更深层解释。这些显著改善了回归方法的表现、神经网络解决方案、使支持向量机降噪,并使其他更强大的相关方法向前发展。解决方案部分来自测量结果数学和随机噪声排除。所有测量结果均由期望信号和噪声组成。数学证明,对期望信号进行多次采样可以消除离噪声。通过这种采样,噪声将被分离为相关噪声(与测量结果采样方案同步)和不相关或随机噪声。随机噪声以通过样本数量的平方根减少。通过多次采样,可以非常准确地推断信号和相关噪声(称为偏移)。最后,可以利用没有信号的情况下的测量结果来确定偏移。这些方法在引用的专利申请PCT/US2017/014595中详细描述和公开。TME活性细胞因子的优越预测能力是通过采用该专利申请中描述的方法产生的。
为了本申请的目的,使用特定术语来更好地描述本发明的优选实施例,其定义如下:
“分析灵敏度”被定义为零校准以上的三个标准差。对于低于该水平的浓度,诊断被认为是不准确。因此,低于该水平的临床相关浓度不被认为是准确的,也不用于临床实验室中的诊断目的。
“个体的基线分析物测量结果”是针对个体患者从非疾病状态到疾病状态转变的感兴趣的生物标志物的测量结果集,其是在一段时间上对单一个体多次测量得到的。当个体患者没有患病时,测量针对非疾病状态的基线分析物测量结果,可替代地,当个体患者患有疾病时,确定针对疾病状态的基线分析物测量结果。这些基线测量结果被认为对于个体患者是唯一的,并且可以有助于诊断该个体患者从非疾病到疾病的转变。针对疾病状态的基线分析物测量结果可以用于诊断该个体中疾病第二或更多的发生。
“生物样本”是指从对象身上抽取的组织或体液,诸如血液或血浆等,可以从中确定诊断上有信息量的分析物(也称为标志物或生物标志物)的浓度或水平。
“生物标志物”或“标志物”是指对象的生物样本的生物成分,通常是在体液中测量的蛋白质或代谢分析物,诸如血清蛋白质等。示例包括细胞因子、肿瘤标志物等。本发明还将包括但不限于以下的其他指标视为“生物标志物”和“标志物”:身高、眼睛颜色、地理因素、环境因素等。通常,该指标将包括在群体内变化且保持可测量、可确定或可观察的任何测量结果或属性。
“盲样”是抽取自无已知对的给定疾病诊断的对象的生物样本,并且对于期望针对这些对象进行关于疾病的存在或不存在的预测。
“疾病相关功能”是生物标志物的特征,其是疾病继续或生长的作用,或者是身体阻止疾病进展的作用。在癌症的情况下,肿瘤将会通过要求血液循环增长以存活和勃发来作用于身体,而免疫系统将增加促炎作用以杀死肿瘤。这些生物标志物与不具有疾病相关功能的肿瘤标志物形成对比,并会脱落到循环系统中,因此可以被测量。功能性生物标志物的示例是引起免疫系统的作用的白介素6,或肿瘤分泌的以引起局部血管生长的VEGF。而非功能性的示例是CA 125。这是位于眼睛和人类女性生殖道中的结构蛋白,并且没有由身体用于杀死肿瘤的作用或由肿瘤用于帮助肿瘤生长的作用。
“检测限”(LOD)被定义为“零”浓度校准值以上2个标准差的浓度值。通常,零校准重复运行20次或更多次,以得到测量结果的标准差的准确表示。例如,对于病毒或细菌检测,低于该水平的浓度测定被视为零或不存在。出于本发明的目的,当样本复制运行时,可以使用1.5个标准差,尽管优选使用20次重复。需要单一浓度数的诊断表示通常并不被绘制为低于该水平。检测限水平处的测量结果在统计上具有95%的置信水平。使用本文讨论的方法预测疾病状态不是基于单一浓度,并且示出在基于LOD的浓度以下的测量结果水平上进行预测是可能的。
“低丰度蛋白质”是血清中的处于非常低水平的蛋白质。文献中未明确定义该水平的定义,但在本说明书中使用时,在从中抽取样本的血清或血浆和其他体液中,该水平将小于约1皮克/毫升。
“元变量”是指给定对象的除分析物和生物标志物的浓度或水平之外的特征的信息,但其对对象不一定是个性化的或独特的。这样的元变量的示例包括但不限于对象的年龄、绝经状态(绝经前、绝经期和绝经后)以及其他状况和特征,诸如青春期、体重、患者居住的地理位置或区域、生物样本的地理来源、体脂百分比、年龄、种族或种族混合或时代。
“群体分布”是指给定对象群体的生物样本中特定分析物的浓度的范围。特定“群体”是指但不限于:从地理区域、特定种族或特定性别中选择的个体。并且,如本申请中所述的选择使用的群体分布特征还预期在该较大的限定群体中使用两个不同的子群体,这些子群体是已被诊断为具有给定疾病状态(疾病子群体)和不具有疾病状态(非疾病子群体)的群体成员。群体可以是期望预测疾病的任何组。此外,预期适当的群体包括那些具有相对于疾病进展的其他分期已进展到特定临床阶段的疾病的对象。
“群体分布特征”可在生物标志物的群体分布内确定,诸如特定分析物的浓度的平均值,或其中值浓度值,或浓度的动态范围,或者群体分布如何落入根据各种生物标志物的上调或下调程度可识别为不同峰的组中,以及随着患者经历从非疾病到疾病状态的生物转变或进展而受到疾病的发作和进展影响的感兴趣的元变量。
“预测能力”是指诊断测定或测试的灵敏度和特异性的平均值,或者1减去错误预测(假阴性和假阳性)的总数除以样本总数。
“邻近度评分”是指所测量的生物标志物的浓度的替代值或替换值,实际上是可用于诊断相关性分析的新的自变量。邻近度评分与所测量的生物标志物分析物的浓度相关,并根据其计算,其中该分析物对给定的疾病状态具有预测能力。如国际公布WO 2017/127822和国际公布WO 2014/158287所公开的:使用感兴趣的经元变量调整的群体分布特征来计算邻近度评分,以针对期望进行诊断的给定患者对预测性生物标志物的实际测量浓度进行转化。“邻近度评分”和“伪浓度”具有相同的定义,可以互换使用。
“切割多维网格”对于减少构建模型所需的计算时间是有用的。在这种情况下,沿各组正交轴将多维空间(5维)切割成2维切片。对于5维的情况,这产生10个“双标志物平面”(6维将产生15个平面)。然后将训练集数据绘制到各个平面上,并且再次将平面按各轴切割成网格部分。因此,各个双标志物平面是双平面上的完整多维网格的投影。
“蛋白质组学平均值分离”确定感兴趣的生物标志物是否可以实际分离感兴趣信号(疾病)或零偏移(非疾病)的两种状况。如果在已知群体中准确测量平均值,并且它们存在分离(值不同),则将实现诊断预测能力。
“蛋白质组学噪声抑制”是抑制上述蛋白质组学差异(噪声)的方法。这种抑制首先在已知的样本组(称为训练集)上进行。目标是为了调节训练集样本的浓度值,使其与医学确定的诊断一致。数学方法仅限于强制使预测模型的预测评分与已知样本一致的目标。该方法可能涉及压缩、扩展、反转、变换,将测量变量的部分折叠到自身上,产生多个输入(浓度)产生相同的输出(邻近度评分)的函数。其原因有若干个(参见下文群体分布偏差),并且包括衰减差异“噪声”的目的。此外,查找表或类似工具可用于转化和其他数学方案。当相同的噪声抑制方法应用于盲样本或验证样本时,将产生相同的噪声抑制。转化后的结果被称为邻近度评分。蛋白质组学差异的抑制是数学转化,它消除或抑制与感兴趣的状况无关的差异,在这种情况下,通过在大量已知群体中的各个中测量的两者平均值来定义非乳腺癌和乳腺癌。
“特异性”是测试的真假阳性率。它在数学方式上是一减去测量结果的假阳性测量数量除以测量的真阴性样本总数。
“不一致训练集模型”(或“辅助算法”)是辅助训练集模型,其使用不同的现象学数据还原方法,使得双标志物平面的网格上的单独的点不太可能在主相关性训练集模型和该辅助算法中都不稳定。
“空间邻近度相关性方法”(或邻域搜索或聚类分析)是用于确定自变量与二元结果之间的相关性关系的方法,其中自变量被绘制在正交轴上。盲样的预测是基于与所谓的“训练集”数据点的数量(3个、4个、5个或更多个)的邻近度,其中结果是已知的。二元结果评分是基于从多维网格至示出相反结果的训练集点的盲点计算的总距离。最短距离确定单个盲数据点的评分。可以在穿过多维网格的双标志物平面上切面进行相同的分析,其中单个双标志物平面评分与其他平面的评分组合以产生总分。通过空间使用二维正交投影的切割可以减少计算时间。
“训练集”是具有已知生物标志物浓度、已知元变量值和已知诊断的患者组(通常为达到统计显著性,为200个或更多个)。训练集用于确定“双标志”平面的轴值“邻近度评分”,以及来自将被用于对单独的盲样进行评分的空间邻进度分析的评分网格点。
“训练集模型”是从训练集构造的算法或算法组,其允许关于对象(或患者)患有疾病或没有疾病的概率的预测结果对盲样进行评估。然后使用“训练集模型”计算盲样的评分用于临床和诊断目的。为此,提供任意范围内的评分,该评分指示疾病或非疾病的百分比可能性或正为患者开发诊断的医疗保健提供者所优选的一些其他预定指示读数。
“正交”是在适用于例如衔接子、效应子、信使、调节蛋白等低水平信号传导功能的方法的描述中使用的术语。这些蛋白质具有特定于身体对疾病的反应或疾病对身体的作用的功能。在癌症的情况下,这些蛋白质通常被认为是免疫系统作用物,诸如炎症或细胞凋亡和血管化功能。在一个肿瘤标志物不代表特定的信号传导功能的程度上,它被认为达到正交的程度。应尽可能选择标志物,使其独立于其他标志物。换句话说,一个标志物的不同水平不应该与其他标志物相互作用,除非疾病本身影响两者。因此,如果一个正交功能出现变化,则这些变化本身不会驱动其他功能的变化。血管化和炎症功能被认为是正交的,因为可以选择主要仅进行这些功能中的一个的蛋白质。当在多维空间邻近度网格上绘制时,这些蛋白质将独立地起作用,并且如果疾病引起两者的作用,它们将放大预测能力。许多细胞因子具有多种相互作用的功能,因此任务是选择功能和蛋白质,使得这种相互作用被限制。“功能正交性”的程度是相对的,事实上可以认为所有细胞因子都有一定程度上的相互作用。许多细胞因子具有严格重叠的功能,而许多细胞因子则没有。白介素8涉及促炎和抗炎作用以及血管生成。在诸如癌症的疾病中,白介素8主要通过血液循环发挥作用,但是生物体内的其他现存状况很可能正好驱动该细胞因子的作用,从而导致蛋白质组学差异。具有功能正交性的最佳生物标志物的选择至多是根据被诊断的病症而折衷。
“接受者操作特征(ROC)曲线”是图形方法,用于表示用于决策的信号传导方法的表现,其中假阳性率、假阴性率和检测信号强度之间存在取舍。在这种图形表示法中,图的纵坐标包含测试方法的灵敏度,横坐标有假阳性率。对于向上作用于疾病触发点的生物标志物(或信号),曲线将位于45°中立(Null)线上方,该中立线源自原点(0,0)至图右上方的(1.0,1.0)。曲线下面积指示生物标志物在预测方面的表现有多好。
“ROC曲线下面积(AUC)”是指生物标志物特征曲线下和横坐标的面积。对于完全无用的生物标志物,AUC将为0.5,并且是上述45°中立线下的面积。完美测试的AUC为1.0,从原点向上延伸至纵坐标至100%灵敏度点,然后穿过ROC曲线至右上方的1.0、1.0点。
“肿瘤微环境”沐浴在肿瘤间质液(TIF)中,其是肿瘤存在的细胞环境,包括周围血管、免疫细胞、成纤维细胞、骨髓源性炎症细胞、淋巴细胞、信号分子和细胞外基质。
“肿瘤标志物”是蛋白质标志物,它脱落到TME或没有明显的功能的血液供给中,即肿瘤通过肿瘤分泌物生长或肿瘤被免疫系统抑制。
这些方法涉及确定待预测状况下定义群体的生物标志物平均值,例如癌症与非癌症或癌症分期,并抑制由这些平均值锚定的原始浓度测量结果。此外,在转变为新的相关性自变量(称为邻近度评分)时,必须将所选年龄或其他元变量的平均浓度中的漂移归一化或归零。这新的自变量集然后用于预测疾病状态的相关性。
肿瘤微环境生物标志物
噪声抑制血清生物标志物可用于确定TME内的肿瘤和免疫系统作用的特征。这些作用包括肿瘤抑制肿瘤生长、促炎细胞因子和抗肿瘤或凋亡细胞因子。还包括肿瘤生长的作用,包括血管生成、周围组织中的血管生长以及肿瘤块内的血管化和血管生长。此外,肿瘤抑制免疫系统的作用,其中抗炎细胞因子是重要的。这些生物标志物的作用揭示了肿瘤的状态和行为,就像在抽血瞬间冻结的快照。图7和图8A-C通过NSCLC的癌症分期和前列腺癌示出这些作用,图9针对乳腺癌示出作用。随着肿瘤从健康状态进展到恶性状态,并经历各种的癌症分期,可以对这种行为做出一般性的评论。这种行为也指示其他实体肿瘤癌症,诸如卵巢癌等。
在早期分期的开始时,初生肿瘤发病时,免疫系统反应强烈。促炎和肿瘤凋亡的生物标志物反应强烈。通常也可以看到肿瘤刺激周围组织中血管生长的强烈反应。随着肿瘤的进展,它分泌抑制免疫系统的抗炎细胞因子。随着肿瘤块的增大,肿瘤血管化细胞因子的分泌明显上调。当在血清测量结果中适当抑制噪声时,这些组合作用示出肿瘤和免疫系统的作用以及肿瘤的详细状态。
特异性细胞因子-促炎
通常,白介素6已经被发现为证明这种免疫系统作用,然而,其他的(其为白介素1、白介素1β、IL-12和IL-18)可能是重要的参与者。图1示出NSCLC的IL-6的接受者操作特征曲线。这种单独生物标志物不能充分检测NSCLC的存在。在90%的灵敏度下,假阳性率相当高,约为60%。
特异性细胞因子-肿瘤血管化
大块肿瘤血管化主要与血管内皮生长因子、VEGFβ相关联。该功能组中的其他细胞因子可能是胎盘生长因子(PLGF)、VEGF-A、VEGF-C和VEGF-D:VEGF-A与VEGFR1和VEGFR2结合。图2示出NSCLC的VEGF的接受者操作特征曲线。这种单独生物标志物不能充分检测NSCLC的存在。在90%的灵敏度下,假阳性率相当高,约为50%。
特异性细胞因子-肿瘤导向的细胞凋亡
肿瘤坏死家族中的细胞因子通过抑制血管生成进行多个免疫系统功能(范围从炎症到T细胞和B细胞调节)。家族中的某些细胞因子主要关注细胞凋亡,即程序性细胞死亡。这些是TNFα、CD254、DR3L、CD258和TNA受体(1和2)。图3示出NSCLC的TNF Ri的接受者操作特征曲线。这种单独生物标志物不能充分检测NSCLC的存在。在90%的灵敏度下,假阳性率相当高,约为45%。
特异性细胞因子-肿瘤血管生成
血管生成与血管化相关联,然而,在这种情况下,重点是在肿瘤早期分期直接周围组织中刺激血管生长。白介素8与此相关联。图4示出NSCLC的IL8的接受者操作特征曲线。这种单独生物标志物不能充分检测NSCLC的存在。在90%的灵敏度下,假阳性率相当高,约为65%。
特异性细胞因子-集落刺激因子
这些细胞因子似乎与血管生成和血管化的启动有关,并由肿瘤分泌。主要因子是粒细胞刺激因子G-CSF,但也与颗粒巨噬细胞刺激因子GM-CSF和巨噬细胞刺激因子GSF有关。图5示出NSCLC的G-CSF的接受者操作特征曲线。这种单独生物标志物不能充分检测NSCLC的存在。在90%的灵敏度下,假阳性率相当高,约为75%。
将生物标志物与蛋白质组学噪声抑制相组合
这些TME活性细胞因子不能单独准确预测NSCLC的存在。来自其他状况的基于血清的作用所造成的污染会产生“噪声”,降低特异性。通过采用引用的PCT/US2017/014595专利申请中所述的噪声抑制方法,可以缓解这些问题。参考的乳腺癌专利申请中概述的示例示出该方法如何允许其工作。该示例使用了来自类似TME活性功能组的蛋白质,并以图形方式示出所实现的预测能力的显著提高。此处重复该示例(参见图6、图7和图8A-C)。图6示出在类似的乳腺癌测试板中用于检测该癌症存在的五个生物标志物中的各个的组合ROC。图7示出乳腺癌的生物标志物IL 6的ROC曲线。IL-6ROC曲线示出在90%的灵敏度下,其假阳性率低达60%。在图6中,VEGF的独立ROC示出的假阳性率非常低,为78%,灵敏度为90%。
当这两个生物标志物使用蛋白质组学噪声抑制方法和空间邻近度相关性进行组合时,这两个生物标志物在90%的灵敏度下实现了40%的假阳性率。有关这一点的详细说明,请参见引用的PCT/US2017/014595专利申请。
该方法部分取决于使用TME活性的、被称为功能上正交的蛋白质。这些蛋白质在多维空间中被抑制噪声、绘制和评分,因为它们在向疾病的转变中上调。
标准相关性方法无法实现这个,因为它们无法捕获噪声抑制的浓度信息产生的空间分离向量。如图8A-图8C以图形方式示出。这些ROC曲线是用于Abbott-ROMA测试,该测试使用两个肿瘤标志物HE4和CA125来推荐卵巢癌的治疗载体。注意,两个独立的生物标志物在ROC曲线表现上相似,在90%的灵敏度下,假阳性率约为35%至45%。还要注意的是,组合ROC并不比单独的单一肿瘤标志物好。这是因为诸如逻辑回归、神经网络和ROC曲线面积增强方法等简单的相关性方法无法捕获空间分离信息。
如图8A-图8C所示,这种组合的生物标志物集达到99%的特异性和97%的灵敏度。上文讨论的使用这些方法的乳腺癌测试板的灵敏度分别达到96%和97%。
在寻求筛查特定疾病(例如乳腺癌)的患者中,这些状况的存在通常是未知的,问题是未知患者适合哪一组,非乳腺癌组还是乳腺癌组。为了回答这个问题,必须衰减未知差异,就像在蛋白质组学差异中所做的那样,在测量学中的“噪声”抑制。注意,乳腺癌阳性患者和非乳腺癌患者两者的浓度测量结果都被这些无关信息所污染。此外,对于“健康”个体和有疾病的个体而言,这些生物标志物的“正确”值的概念是毫无意义的。理解浓度数据分散的唯一方法是:通过在浓度数据中锚定平均值并抑制所有其他信息来显著抑制两个群的噪声。结果是邻近度评分。可以说,对于“健康”或患病的个体,这些浓度的“正确值”的概念是毫无意义的。额外的信息,蛋白质组学差异“噪声”,是图9中分散的原因。这种噪声抑制产生了图10中更清晰的图。
第一步骤是协调关于图9的乳腺癌图的已知项。图中与这个问题相关的信息有限,即未知患者是否可能患有非乳腺癌疾病状态或乳腺癌疾病状态。图中的信息是非乳腺癌和乳腺癌两者的两个生物标志物的平均值。除了这些平均值,本文还可以根据各个个体样本与平均值的关系对其进行排序。只有四个等级或区域:1)个体样本小于非乳腺癌的平均值;2)个体样本大于该非乳腺癌平均值,但小于乳腺癌/非乳腺癌平均之间的推导中点平均值;3)个体样本高于平均的中点,且低于癌症的平均值;4)个体样本高于乳腺癌的平均值。此外,对于各个状态和各个生物标志物的提到的平均值随年龄而漂移。因此,必须知道年龄和平均值之间的关系。对任何一个患者,以上提到的各个排名必须限制至在该患者年龄平均值。对于个体样本而言,除此之外的任何信息都是无用的,可以被视为蛋白质组学差异(噪声)。这五条信息(年龄和平均与中点的关系)是对原始浓度测量结果的更深入解释。如前所述,当根据本发明进行评估时,该信息意想不到地反映了关于现有问题的真相,即患者不患疾病还是患病。从而提供指示被检查患者中存在疾病状态的可能性的方法。
最后,从原始浓度转移平均值和等级,以便将平均值归一化,并在特定区域绘制所提到的等级。原始浓度的(由经年龄调整的平均和相对于平均的经年龄调整的等级所锚定的)这种转化为空间邻近度图和相关性方法产生了新的自变量。这个变量称为邻近度评分。
如上所讨论的,图10示出将原始浓度调节为邻近度评分后得到的双平面图。此外,年龄漂移被归一化,以便所有年龄组都被定位在各个生物标志物的固定或设定点。因此,如果未知患者样本的浓度值恰好处于其年龄的非癌症平均值,则其邻近度评分将固定在设定值,处于该平均值的所有年龄的所有患者样本将获得相同的邻近度评分值。
在本示例中,对于非癌症平均,设定值被任意设定为4,对于癌症平均,设定值被任意设定为16。例如,可以使用其他值,诸如更大的范围等。此外,注意,在本示例中,通过将这些浓度折叠到现在新设定的伪浓度的固定平均值之间的空间中,原始的外围浓度值实现与训练集的已知患者诊断的最佳拟合。这实现了所需的噪声衰减,并且转化被设计为保留相关性方法所基于的聚集行为,即空间邻近度相关性。
然后,基于各个原始浓度值在浓度空间中相对于其年龄的平均的位置,将其置于4个“等级”中的一个等级内。一旦转换为邻近度评分,年龄将从相关性的新自变量中去除(详情见下文)。这不是该任务的唯一方程集,也是训练集与实际诊断的最佳拟合。这种转化的设计基于待拟合的原始数据的基本特征以及空间邻近度方法的基础特征。通过反复试验可以找到可行的解决方案。
使用本申请中描述的这五个生物标志物,IL 6、IL 8、VEGF、TNFα和PSA治疗乳腺癌,并产生上文表2所提到的各种相关性方法的预测能力。虽然这些特定标志物充分正交,并提供足够的信息来分离疾病状态,但发明人预期可以利用其他生物标志物集,并且这些集中不同数量的生物标志物可能不同。
这些生物标志物通过标准的逻辑回归方法产生预测能力,这是任何五个该标志物组的典型。这预测能力的水平也是用于最大化ROC曲线下的合计面积(即约80%)的各种接受者操作特征(ROC)曲线方法的典型。对数刻度的转换也是典型的,因为原始浓度范围通常超过5个数量级。此外,使用支持向量机和空间邻近度相关性方法的浓度对数可以产生更好的预测能力(即84%至85%)。这可能是由于这些生物标志物的空间分离效应。转换为邻近度评分(减少无关信息)也会使预测能力得到更显著的提高(即87%到90%)。然而,将这所有三个(功能上正交的生物标志物、空间邻近度相关性以及转换为邻近性评分(即96%))组合起来,可以获得最佳的预测能力。最后,校正针对拓扑不稳定性的空间邻近度方法将该预测能力提高到96%以上。
包括本发明方法实施例的分析模型通常遵循以下步骤:
1)收集大量已知的非疾病和疾病患者样本。不应该对这些样本的任何其他无关状况(非恶性癌症)进行筛选,但应当收集,以使其在统计学上与总群体相似。
2)测量生物标志物参数浓度。
3)计算非疾病和疾病组的这些生物标志物的平均值(参见下文根据平均值的年龄漂移的其他考虑因素)。
4)在数学方式上操作原始浓度,以强制它们进入模拟平均值的组中。这可能涉及压缩、扩展、反转、变换、查阅用于转化的表和其他数学运算。该方法可以包括这些模式中的一些或全部。得到的数值可能根本不像原始浓度值,并且可能无法从结果值返回到浓度,因为转化曲线可能折回其自身上。这种用于相关性的新自变量称为邻近度评分。实际上,由此产生的分布可能在两个平均值附近堆积,并保留平均值锚定点。
5)操作还必须强制未知样本基于样本与上述平均值的关系而经受排序。本文定义了区域,其分别是:1)低于未知样本在其年龄处的非疾病平均值;2)高于其年龄的非疾病平均值,但低于其年龄处的非疾病平均与疾病平均之间的推导中点;3)高于非疾病平均和疾病平均之间的推导中点,但低于其年龄处的疾病平均值;和4)高于未知样本在其年龄处的疾病平均值。这些区域可以被压缩到相应平均附近和/或之上的空间中,以衰减由不相关的干扰状况或药物引起的差异。
6)上述平均值必须考虑各对生物样本进行贡献的患者的年龄。各个样本的区域定位必须与相应患者的年龄以及患者年龄处的疾病和非疾病平均值相关。
7)用于浓度-邻近度评分转换的可能方程
用于OTraces乳腺癌和前列腺癌确定的比率对数线性方程是:
参考申请中讨论的浓度-邻近度评分转换的一个方程为:
PSh=K*logarithm10((Ci/C(h))-(Cc/Ch))+偏移 方程1
PSc=K*logarithm10((Ci/Cc))-(Ch/Cc))2+偏移 方程2
其中:
PSh=非癌症的邻近度评分
PSc=癌症的邻近度评分
K=用于设定任意范围的增益因子
Ci=实际患者分析物的测量浓度
Ch=非疾病患者分析物的经患者年龄调整的平均浓度
Cc=疾病患者分析物的经患者年龄调整的平均浓度。
偏移=用于设定数值范围(任意)的坐标偏移
本实施例,图11示出区域1折叠到区域2之上和区域4折叠回区域3之上(参见群体分布偏差的部分)。在癌症相对于非癌症的情况下,癌症群在训练集中存在大幅度的过度呈现。折叠改善了由非癌症主导的区域的分布偏差。本实施例如图所示。
8)另一实施例使用直接对数浓度进行线性转换。
其中:
PS=M(log(Ci)+B
以及PS=邻近度评分浓度
Ci=实际患者分析物的测量浓度
M=转换斜率
B=偏移
本实施例如图12和图13所示。图12示出邻近度评分轴上按维持的顺序的四个区域的顺序。图13示出区域1和区域2重叠,如区域3和区域4重叠一样(参见下面的群体分布偏差)。区域1折叠到区域2之上和区域4折叠回区域3之上的折叠是有用的,其中两个状态“A”和非“A”的群体分布在一定程度上是等同的。
7)该称为邻近度评分的新变量被应用于选择的相关性方法(参见本文中关于此讨论的部分)。8)使用与所开发的相同的模式使训练集模型内的预测能力最大化,确定未知样本“适合”非疾病组还是疾病组。
年龄相关的平均值函数是用于从原始浓度转变的锚定点和空间邻近度网格上的在相关性中使用的新邻近度评分。该函数由已知的疾病和非疾病样本的大量群体确定,并且群体可以包括训练集但也可以包括更大的组。非疾病和疾病群体的定义如下所提。它是将非疾病和疾病的平均值与年龄漂移相关的函数。它用于将平均值放置在邻近度评分轴上的固定位置,其中原始浓度被转换为邻近度评分。它通常会产生一系列进行转化的方程,其中各个方程用于各个年龄的转化。该函数允许年龄漂移的归一化。
图14示出在莫斯科Gertsen研究所进行的TNFα和激肽释放酶3(PSA)市场清除试验中,乳腺癌和非乳腺癌的这些函数。注意,该图可以给出非常好的生物标志物指示,当以本申请中描述的方式与其他生物标志物耦合时,该生物标志物将产生预测能力。从测量结果科学的角度来看,跨所有年龄段的分离程度指示存在强烈的“信号”,这种信号将使非信号状况、疾病和非疾病得以区分。在大多数情况下,这将比单一的ROC曲线更好地指示预测能力。
功能上正交的生物标志物的使用和空间邻近度相关性方法
该方法使用空间邻近度搜索(邻域搜索)以用于相关性。该方法将各个自变量放置到空间轴上,并且所使用的各个生物标志物有其自己的轴。将五个生物标志物放置到5维空间中。通过本文讨论的元变量方法转化各个生物标志物。该方法在浓度作用和免疫系统非线性中强制年龄相关漂移的归一化。本文讨论的测试板用于乳腺癌,并且它使用炎症标志物,白介素6;肿瘤抗血管生成或细胞凋亡标志物,肿瘤坏死因子α;肿瘤血管化标志物,血管内皮生长因子(VEGF);和血管生成标志物,白介素8;以及已知的肿瘤组织标志物,激肽释放酶-3(或PSA)。这些标志物在用于相关性的邻近度方法中是高度互补的,因为它们的功能不显著重叠。因此,当正交绘制时,它们增强对于非癌症和癌症的分离,因为各个添加的轴将生物标志物数据点拉开,如图中所示。其他标准相关性方法,诸如回归分析或ROC曲线面积最大化方法等不能保留这种正交分离,因为数学分析查找单独的标志物趋势(线性回归-线性和逻辑-对数)。任何空间信息都会丢失。
上面提到的现象,即功能的正交性或不一致性也可以在图15和图16中以图形方式看到。这些图示出促炎生物标志物的浓度群体分布,IL 6相对于水平正交轴上的血管化生物标志物VEGF而绘制。图15示出旋转的3D图,所以得水平面几乎是水平的,图16示出旋转的x、y平面,所以可以在该水平面上看到标志物的平面分布。水平浓度轴示出该参数不是以浓度单位绘制的,而是以本文所讨论的计算邻近度评分绘制的。垂直轴示出群体分布占总数的百分比。各个垂直条的分箱尺寸为0.5单位的邻近度评分。注意,该图形绘制描述将不允许两个群体组,即非癌症(bl和癌症的并排分离。因此,这些条彼此重叠。当非癌症群体高于癌症群体时,癌症群体示出在在癌症群体之上,反之亦然,但它们不相加,非癌症群体背后的癌症群体仍然示出垂直轴上的癌症群体高。注意,非癌症在癌症群体上的相当大的重叠,反之亦然,正如对任何一个生物标志物所期望的那样。还注意到与非癌症样本相比,癌症群体通常沿各个轴具有更高的邻近度评分水平,正如对单一生物标志物所期望的那样。图6示出这些相同的3D轴向下旋转45°以示出水平轴。注意,各个标志物的显著分离。促炎标志物IL 6示出低反应但是是呈癌症,癌症倾向于示出高水平的血管化反应,反之亦然。对于因与所选择的其他生物标志物的不耦合功能性而选择的任何生物标志物可以预期这种效果,并且生物标志物通常对于癌症会上调。这可以通过简单的概率来预期,两个蛋白质在疾病转变中上调,具有来自一个功能的低反应的那些将可能会示出对另一功能的更强反应。该效果在具有炎症和血管化功能的正交性的乳腺癌中得到甚至更多的增强。图17A-图17C示出随癌症分期的乳腺癌中这些蛋白质中的各个的上调程度。注意,在初生分期0开始时,促炎标志物首先高度上调。然而,随着肿瘤的进展,血管化标志物随着肿瘤的生长,在分期1至分期4更大程度地上调。因此,晚期分期的低水平促炎反应与高水平的血管化反应相耦合。在疾病的早期分期,高水平的促炎反应与相对低水平的血管化反应相耦合。当在多维相关性方法中绘制时,这种行为将在癌症中将低水平血管化反应与高水平促炎反应分开,从而使这些样本点远离原点(反之亦然)。在癌症中,相关性信息被远离正交轴的函数拉动用于其他函数。注意,这种增强在诸如回归或ROC曲线面积最大化等方法中丧失,因为失去了正交函数的耦合。
图18至图21示出主要在血管生成中发挥作用的第三生物标志物IL8,其以具有上面讨论的另外两个生物标志物的3D图呈现。注意,血管生成(IL 8)和血管化(VEGF)两者都参与生长的血管但并不相同。血管生成(IL 8)驱动由具有现有循环的组织产生血管,而血管化(VEGF)驱动在大量没有预先存在的循环的组织中产生新血管。已知肿瘤产生上述两者反应。再次参见图17,当肿瘤在血管化组织内并且血管化随着大块肿瘤生长而增加时,血管生成在早期分期是强烈的。图为:图18示出从所有轴上方45°向下俯视图原点得到的图。图19示出旋转的图,其示出水平轴高于水平10度,并且垂直轴向右旋转约35°。非癌症明显位于癌症下方,并且更接近原点。图20示出整个图旋转到背面以通过原点看非癌症和背面的癌症,图21示出图稍微向上旋转以示出在非癌症前面的癌症。注意,如上所概述和本申请中,通过不使用实际浓度而使用在相关申请中讨论的邻近度评分使该分离大大增强。这些图清楚地示出选择具有互补功能(即正交)的生物标志物如何产生分离和如此预测能力的显著改善。这种改善将通过未示出的其他两个标志物TNFα(抗肿瘤发生)和激肽释放酶3(PSA)肿瘤标志物而继续。当然,它们不能与前三个生物标志物一起绘制,因为这将超过3个维度,并且眼睛无法看到这一点。当针对上述所提到的三个生物标志物中的一个绘制时,这两个标志物将看起来基本相同,从而示出在各个轴上的分离高度。计算机化的5维空间邻近度相关性方法保留了这种正交性。
总之,初生乳腺癌肿瘤(分期0)发生非常强烈的促炎反应,如图22所示。这种反应本身不能与感染、过敏或自身免疫性疾病(和其他疾病)区分开。然而,这种相同的初生肿瘤将生成强烈的血管生成反应,组织周围血管化的循环增加。因此,在图18至图21中,初生肿瘤样本将在促炎轴上向外移动,并在血管生成轴(以及第四和第五维度中的抗肿瘤发生轴和肿瘤生物标志物轴)上向上移动。晚期分期肿瘤分期3或4将倾向于示出强烈的血管化反应(在没有血管化的大块肿瘤组织中生长)和较弱的抗肿瘤发生,从VEGF轴的原点向外移动。这些不能与创伤、心肌缺血或怀孕区分开,因为这些状况需要血管化。然而,再次,不相关的功能,即肿瘤抗发生和肿瘤标志物的上调将产生区别。
随着其他三个生物标志物被添加到5维相关性网格中,这种改善成倍增加。仔细选择不一致功能性的生物标志物相比选择多个肿瘤标志物的方法提高预测能力。相同肿瘤的肿瘤标志物倾向于测量相同的现象,这不会将使生物标志物在这些正交轴上分离,它们只会将聚类的组旋转45度。回归和其他方法不保留这种正交信息。这种改善只能通过功能上正交的生物标志物和空间邻近度相关性方法来实现。
对于空间邻近度相关性方法,测量的浓度值本身不用于5轴网格中。使用邻近度评分。该计算值去除了从非癌症向癌症转变过程中与年龄相关的漂移,实际浓度平均值、非癌症平均值和癌症平均值中的年龄变化被归一化。此外,小心扩展和压缩实际浓度,以消除所谓的局部空间和群体密度偏差,以确定邻近度评分的值。该数值无单位,并且在0至20的任意范围内变化。这两个校正将使预测能力提高约6%。与使用多个肿瘤标志物作为生物标志物相比,使用不一致的功能性细胞因子组将实现约10%至15%的更高的预测能力。与传统的邻近搜索方法相比,年龄漂移和非线性上下调节的归一化使预测能力产生6%至7%的提高。
相比之下,图23、图24和图25示出对于卵巢癌的CA 125、HE4的群体分布,其再次在水平轴上,以及垂直轴上的群体分布。图13示出这些轴向下旋转以看到这些生物标志物彼此的正交关系。当在水平的2维双标志物平面上绘制时,该3D图还示出这两个标志物的空间分布(垂直轴示出群体分布)。将浓度绘制为1至20的归一化的对数浓度。CA125和HE4是众所周知的卵巢癌生物标志物。事实上,对于单一高丰度蛋白质癌症标志物,这些是非常好的。对于男性的前列腺癌,HE 4远远优于PSA。然而,它们还不足以获得监管机构的批准用于筛查。即使两者组合也没有效果。注意,对于两者,单一的生物标志物相对较好。CA 125在90%的灵敏度下将达到约50%的特异性。HE 4在90%的灵敏度下将达到约45%的特异性。注意,当在二维中观察时,正交分离与单一生物标志物本身相比没有太大差别。“HE4 a noveltumor marker for ovarian cancer:comparison with CA 125and ROMA algorithm inpatients with gynaecological diseases;”Rafael Molina,Jose M.Escudero,JoseM.Augé,Xavier Filella,Laura Foj,Aureli Torné,Jose Lejarcegui,Jaume Pahisa;Tumor Biology;2011年12月,32卷,第6期,第1087至1095页。图15示出另一个通用的卵巢癌生物标志物AFP的添加。相对于CA 125和HE 4没有看到到额外的改善。这三个生物标志物正在测量同一事物的相似方面,因此在保持正交性的情况下,这三个生物标志物在改善预测能力方面并不是互补的。组合表现(使用标准方法)与HE 4本身大致相同。图16示出当与卵巢癌相关时单独的CA125和HE4的ROC曲线,然后是两者组合的ROC曲线。该组合几乎与HE 4ROC曲线重叠。根本没有表现改善(除了绝经后女性的轻微改善)。“HE 4 and CA 125 as adiagnostic test in ovarian cancer:prospective validation of the Risk ofOvarian Malignancy Algorithm;”T Van Gorp,I Cadron,E Despierre,ALeunen,FAmant,D Timmerman,B De Moor,I Vergote;Br J Cancer,2011年3月1日;104(5)863-870。使用具有这种所谓的正交函数特征的三个、然后四个、然后所有五个生物标志物的ROC曲线的显著改善示出在图26中。这些图都使用原始浓度的对数。注意,如果将这些原始浓度转换为邻近度评分,并且当蛋白质组学差异“噪声”被去除时,随着正交分离移动加强,将看到改善。剪切概率指示,当抑制该噪声时,具有低响应的一种癌症的肿瘤生物标志物可能会在正交轴上具有较高的响应。
仅通过转换为邻近度评分,在该正交网格上出现进一步分离。图15和图16以3D图示出图10中的数据,其中垂直轴是各个生物标志物的群体分布。邻近度评分将样本数据分离为由接近原点的大部分非乳腺癌和远离原点的乳腺癌为群体的两组。这些分布近似呈泊松分布。注意,正常的单一生物标志物在各个水平轴上重叠。即使再多的数学操作也不能摆脱该问题。然而,注意到在促炎轴(IL 6)上的低位置的各个乳腺癌样本倾向于在血管化(VEGF)轴上具有高位置。对于(VEGF)的其他水平轴也是如此。注意,这种分离将在使用功能上正交的生物标志物的情况下出现,或者与不具有固有的正交分离作用的肿瘤标志物一起出现。简单的几率将决定肿瘤标志物中的一个的低水平浓度将很可能对应于癌症患者中所有其他肿瘤标志物的高水平。例如,如果测试板包括5个肿瘤标志物(非正交作用),则标志物测量相同的状况(例如,存在肿瘤)。所有标志物在大多数情况下上调。如果一个标志物具有不良响应,例如不存在上调时通常发现的水平,则在个体中,其他标志物可能也必须是活跃上调的。当蛋白质组学差异(或噪声)被衰减时,这种分离作用会显现。在原始浓度值内,这种分离效果被噪声污染。还注意到,这种分离通过网格中的所有正交维度(在该示例中为5个正交维度)而保持堆积,无论是被选择用于功能正交性的生物标志物还是仅作为指示相同肿瘤的存在的肿瘤标志物,具有功能的正交性到目前为止具有最好的分离。注意,这些维度中的各个与所选择的各个生物标志物相关联。因此,五个生物标志物将需要5个维度,而6个生物标志物需要6个维度等。
空间邻近度方法
该方法包括多维空间,各个生物标志物一个空间。训练集中各个生物标志物的邻近度评分被绘制在多维空间(该乳腺癌示例中为5个维度)中。该图被分解为网格,然后该五维网格中的各个点通过其与网格上的若干(5%至15%)训练集点的最邻近程度来评分为乳腺癌或非乳腺癌。在被评分的空网格点的局部附近,通过乳腺癌和非乳腺癌的计数得到癌症评分。当空网格点仅“看到”乳腺癌时,其实现最大评分,对于非乳腺癌反之亦然。然后将未知样本放置在该网格上并相应地评分。表1示出,生物标志物的这种功能正交选择与邻近度评分转换(降噪和年龄归一化)的组合,在该乳腺癌病例中对于这些生物标志物产生了96%的预测能力。
Figure BDA0003542179740000251
Figure BDA0003542179740000261
也可以通过各个生物标志物二维平面上的5维网格对各个双标志物切片进行同样的操作,以减少计算时间。这产生了10个所谓的双标志物平面。通过与疾病或非疾病训练集的邻近度,通过与训练集点的二维邻近度再次对二维网格点进行评分。在这种情况下,3%至10%的最近数据点被用于邻近度距离。这产生了针对各个网格点的评分。其中含有训练集数据点的网格点忽略对用于网格点评分的训练集点的实际诊断。然后通过通常的定义对训练集点的正确与不正确计数来对平面的预测能力、灵敏度和特异性进行评分。然后将10个所得平面与单独的平面预测能力加权相加。各个双标志物平面的这种加权是该平面的预测能力(也可以使用灵敏度)。然后移位并获得所有十个平面的附加评分以得到0至200的范围,其中0至100标记为非癌症,101至200标记为癌症。然后,通过使用训练集由构建的模型进行预定评分而将它们放置在这些双标志物平面上,从而对未知样本数据点进行评分。
五个生物标志物乳腺癌诊断测试板的ROC曲线
图26示出完整的5个测试板的组合ROC曲线,该曲线得出自Gertsen研究所对于癌症和非癌症群总共407个血清样本测量的浓度值。该总体图示出五个ROC曲线:1)单独的VEGF;2)IL 6和VEGF的组合;3)仅PSA、IL 6和VEGF;4)仅PSA、IL 6、VEGF和IL 8;5)所有五个生物标志物。当观察对应于100(任意0至200的癌症评分范围之间的中点)的癌症评分集点时,预测能力的积累是清晰的。图18示出该范围的放大的ROC曲线以更好地看到各个添加的生物标志物所实现的改善。X标记位于中点癌症评分100的数据点上。这将是从非癌症到癌症的推定转变点。但是医疗目标可能改变该值。肿瘤学家已将转变点设定在约80,以使假阴性预测最小化,代价是假阳性结果。这些数据示出所有数据集点,包括训练集和盲样两者,以及来自用于检测乳腺癌的OTraces BC Sera Dx测试试剂盒的第三方验证的数据,总共407个数据集。注意,训练集内的预测能力和盲数据集的最终预测能力评分具有大致相同的预测能力,为约97%至98%。在这种情况下报告的癌症评分是从0至200的任意评分,其中0至100是非癌症,100至200是癌症。注意,针对所有五个生物标志物的曲线不会在通常的轴终点0,0和1,1处终止。这是因为大量的数据集点的癌症评分恰好为0和200。30%的非癌症样本评分为0,约50%的癌症点评分为200。在5维网格中的这些点仅分别看到网格中训练集点的0评分的非癌症和200评分的癌症。邻近度测试使用三个最接近的点在通过5维空间的各个2维正交切面上进行评分计算。这些切面被称为双标志物平面。5维空间产生10个离散的双标志物平面。在全部五个维度中,测试各个盲样与约20至25个不同训练集数据点的邻近度。这些评分为0或200的样本分别仅在网格中看到非癌症或癌症训练集点。因此,它们的评分分别为0和200,即任意范围的末端。同样如此,但对于3个和4个生物标志物曲线的程度较小。这证明了该方法的稳健性。
尽管这些生物标志物具有不足以用作筛查测试的预测能力,但是它们组合可以实现超过95%的预测能力。然而,这种表现不能从单独的ROC曲线和一个生物标志物行为的测量结果中确定。VEGF具有最差表现的ROC曲线,但是当与促炎生物标志物组合时示出预测能力非常高的提升。这是由于这些生物标志物的正交功能的放大效应。此外,具有这些特征的生物标志物继续放大预测能力。只有在空间邻近度相关性方法中保留多个函数中包含的正交信息时才能看到该放大。
评估一个生物标志物自身的表现价值有限。它们需要以保持功能性耦合(或解耦)的多维形式评估。可替代地,可以在正交矩阵中研究生物标志物。这些ROC曲线中示出的预测能力的放大直接来自:1)通过转换为邻近度评分来抑制蛋白质组学差异;2)使用具有与空间邻近度相关性方法相耦合的功能正交性的生物标志物;和3)从非疾病向疾病转变所固有的年龄漂移的归一化。
年龄归一化
图27中测量了约4400个患者中测量了VEGF在女性人类中的测量浓度分布。VEGF是抗肿瘤低丰度细胞因子,其一般在血清中随癌症的存在而上调,但也在其他状况中上调。
年龄引起上述讨论的复杂化,因为非癌症和癌症两者的群体平均值随年龄而变化。此外,在相关性分析中使用年龄作为单独的自变量不会改善预测能力。因此,尽管上述方法改善了预测能力,但应考虑年龄漂移的因素。相关的临时申请61/851,867(及其后续专利申请)描述了如何将年龄作为元变量用于将浓度变量转化为年龄因素的邻近度评分值。下面的讨论描述了改善这种转化的方法。
如前所概述的,改善疾病预测的方法可以使用用于相关性分析的自变量,该自变量不是直接测量的分析物浓度,而是根据浓度计算的计算值(邻近度评分),而且还对于特定年龄(或其他生理参数)进行归一化以去除这些参数的负面特征,诸如当疾病状态从健康转为疾病时年龄漂移和浓度值随生理参数(年龄)漂移或移位的非线性等。该讨论提供了对该方法的改善。
在申请中讨论的用于将浓度转换为邻近度评分的一个方程是(参见上文浓度向邻近度评分转换的可能的方程):
PSh=K*logarithm10((Ci/C(h))-((Cc/Ch))+偏移 方程1
PSc=K*logarithm10((Ci/Cc))-((Ch/Cc))2+偏移 方程2
其中:
PSh=非癌症的邻近度评分
PSc=癌症的邻近度评分
K=设定任意范围的增益因子
Ci=实际患者分析物的测量浓度
Ch=非疾病患者分析物的经患者年龄调整的平均浓度
Cc=疾病患者分析物的经患者年龄调整的平均浓度。
偏移=设定数值范围的坐标偏移(任意)
这在下文中称为方程1和方程2。
这些方程选择性地压缩或扩展测量的浓度值,以允许更好地拟合邻近度相关性方法。经年龄调整的平均浓度值用于非疾病状态和用于疾病状态。下面的年龄调整方法示出,这种改善的方法使用该方程和图中的部分或区域中的其他方程,其示出在相关性分析中实际使用的测量浓度和得到的邻近度评分。
图28示出绘制的方程1和方程2,其示出从浓度向邻近度评分的转换。注意,方程2被颠倒并在数学方式上反转,且其偏移值移位使得非癌症方程(一)与癌症方程(二)不在纵坐标上的重叠。年龄相关的平均值示出在横坐标上,如水平渐近曲线中非癌症靠左,癌症靠右。这些渐近曲线在横坐标上再次随年龄而变化。事实上,对于一些标志物,非癌症和癌症的经年龄调整的平均值在垂直轴上重叠,如图所示。如果不处理,这种生物学方面特别会使预测能力劣化。该实施例示出区域1折叠到区域2和区域4折叠回区域3(参见关于群体分布偏差的讨论)。在癌症与非癌症的情况下,癌症群在训练集中存在大幅度的过度呈现。折叠改善了由非癌症主导的区域中的分布偏差。
图13示出使用直接对数浓度进行线性转换的替代实施例。在这种场景下,PS=M(log(Ci)+B,其中PS=邻近度评分(浓度),Ci=实际患者分析物的测量浓度,M=转换斜率,B=偏移。同样地,该实施例示出区域1折叠到区域2上,区域4折叠回区域3。
通过调整偏移值,方程和得到的邻近度评分值被强制进入二维图上的区域。此外,实际测量值低于非癌症年龄平均值的特定年龄的所有个体样本将被强制进入区域1。同样地,实际测量值高于癌症平均值的特定年龄的所有样本将被强制进入区域4。类似地,实际值在该特定年龄的非癌症平均值与该特定年龄的非癌症和癌症平均值的中点之间的样本被强制进入区域2,同样适用于区域3。实际上,邻近度评分强制某个年龄的个体样本根据其与该年龄的非癌症和癌症的平均值的关系而选取四个位置中的一个。邻近度评分强制使浓度测量结果偏向一侧。注意,这不指示区域1中的样本将不是癌症。其取决于其他四个标志物的行为。三个关键点,即非癌症平均、癌症平均以及它们之间的推导中点都在横坐标上独立地变化,并且可以重叠但是在集区域或纵坐标上的值(邻近度评分)中被归一化。
图29描绘了用于构建蛋白质组学噪声抑制相关性方法的示例性流程图。该流程图描述了开发高性能相关性算法所涉及的步骤,该算法用于分离诊断疾病状态、诊断与严重程度相关的疾病状态内的状况、或确定适合用特定药物治疗疾病的最佳群体所需的两个相反状况(状态“A”和非状态“A”)。状态“A”和非状态“A”可以是疾病的存在和疾病的不存在。可替代地,它可以是疾病的严重状态和疾病的不太严重的状态。此外,它可以用于在预期患者组中对特定药物或治疗方式进行疗效评分。对于癌症,具有正交功能性的优选细胞因子将是:促炎细胞因子、抗炎细胞因子、抗肿瘤发生细胞因子、血管生成细胞因子和血管化细胞因子。此外,至少一种肿瘤标志物将是合适的。年龄可以是不同的自变量。将该变量称为元变量。此外,应该注意的是,其他自变量中的年龄体重指数、种族和地理区域可能是元变量。
示例性方法被示出为2100,“任务流程图”。在步骤2101,定义状态“A”示例性地为疾病状态,非状态“A”示例性地为非疾病状态。在步骤2102中,选择包括集的生物标志物,优选具有正交功能性的那些生物标志物。在步骤2103中,获得已知状态“A”和非状态“A”的大样本集。在步骤2104中,对于状态“A”和非状态“A”,测量各个生物标志物的平均值。在步骤2105中,对于状态“A”和非状态“A”,计算与年龄相关的移位。在步骤2106中,计算状态“A”和非状态“A”的平均值之间的经年龄调整的中点。在步骤2107中,软件计算非状态“A”和状态“A”的平均值的向邻近度评分转换的固定数值以及推导中点。在步骤2108中,将该集中各个生物标志物的浓度测量结果转换为邻近度评分。在步骤2109中,使用该集中各个生物标志物的生物标志物邻近度评分来计算浓度邻近度评分,并选择状态“A”和非状态“A”的浓度方程。在步骤2110中,将邻近度评分绘制到正交网格上,使得该集中的各个生物标志物有一个维度。在步骤2111中,基于例如邻近度评分转换方程集对生物标志物集进行评分。该生物标志物集的评分导致产生本文讨论的高度预测性诊断方法。
空间邻近度相关性方法的负面影响
空间邻近度相关性方法与其他方法相比具有非常显著的优点,因为当从健康至癌症的转变出现时,它保留了这些生物标志物中固有的正交空间分离。然而,该方法可能存在若干与传统分析方法无关的缺点,这些缺点是可以克服的。该方法在多维网格上绘制训练集数据,然后通过与训练集点的邻近度对网格上的其他“盲”(未占用)点进行非癌症或癌症的评分。如果这些生物标志物数据点的移动是相对线性的,则通常会出现最佳相关性表现。即,如果移动或上调/下调是高度非线性的或表现出高度孤立点的聚集,则可能出现相关性的降低。基本上,网格上高度孤立的点将影响所有附近的点,其中孤立点的评分以其他点为代价。第二问题涉及训练集数据的相对总群体分布和总群体中疾病的实际分布。在乳腺癌的情况下,总群体分布为约0.5%的癌症至99.5%的非癌症。然而,训练集必须分布为50%/50%,否则相关性将出现偏差,利于较多群体侧。没有偏差要求50%/50%的分离。这可以导致以非癌症为主而癌症水平低的区在这些区被称为癌症,反之亦然。
空间邻近度相关性方法和人类生物测量结果的特殊偏差问题。
图27示出癌症预测测试中讨论的生物标志物中的一个的群体分布。具有聚集和高度孤立的数据点的这种非线性分布对于所有五个这些生物标志物以及大多数(如果不是全部的话)这些低水平信号传导蛋白(细胞因子)是典型的。这指示了免疫系统的非线性行为。这个问题(以及上文所述的年龄移位效应)显著削弱了将这些蛋白质与疾病状态预测关联的能力。本示例旨在教导如何校正这种非线性上调行为。
在图27中,浓度分布高度非线性,浓度值块处于极低水平和非常高的水平。这指示免疫系统的非线性行为。这种行为在所有这些细胞因子或基于信号传导的生物标志物中都很常见。事实上,本文讨论的乳腺癌检测方法中使用的生物标志物看起来与图27中的图非常相似。还注意,分布示出聚集之间的孤立点。这将导致相关性偏差,本文称之为“局部空间分布偏差”。如上所述,使用方程1和方程2,这两个缺陷都得到了部分缓解。
局部空间分布偏差
如上所述,使用方程1和方程2部分缓解了该问题,尽管可能还有许多其他可能的解决方案。图30示出程式化的二维生物标志物图(示出高水平和分散的癌症)。此外,示出较低水平和压缩的非癌症。还示出这些聚集之间的孤立点。该图上的绘制点的间距的标准差约为8个单位。注意,图中的两个孤立点将扫过邻近图的大部分,强制这些区具有孤立点的诊断。
图31示出由方程1和方程2进行的压缩和扩展所调节的这些相同点。该图上的点之间的标准差约为2.5,聚类和孤立大大降低。根据上述测量结果科学所讨论提到的规则,这种数学操作是完全可以接受的。事实上,距离标准差减少对模型的预测能力是很好的经验法则。注意,间距的标准差减少至仅3个单位。在不移位间距顺序的情况下,间距差应尽可能低。
群体分布局部偏差
图32、图33和图34示出如何缓解该问题。图32示出对于低于非癌症的年龄相关的平均值的样本,非癌症空间中癌症的过度显现。右上方的区通常是癌症样本。左下方的样本以非癌症为主,因此更正确。图33示出如果通过真实的癌症较小分布来恰当地表示,该图将看起来如何。这些都有偏差的风险,并且可以通过将右下区折叠到非癌症的年龄相关的平均值附近的区而在一定程度上缓解。这些非常低的浓度值(远低于1pg/ml)被归为较高浓度区中,从而有助于缓解偏差。图34中示出了显示折叠和减少的局部群体分布偏差的程式化图。
数学规则是:1)训练集模型应归为50%非癌症和50%癌症,以去除模型偏差。2)如果将该方法应用于训练集模型和待测试的盲样,则数学操作对于降低独立测量结果的物理特性的影响以减少无关信息噪声的影响是可接受的。
使用这些生物标志物对乳腺癌进行简单的逻辑回归将产生略低于80%的预测能力。使用简单的标准空间邻近度相关性而不进行年龄和非线性校正(浓度的简单对数)产生约89%的预测能力。上面讨论的这些改善:1)年龄归一化;2)局部空间分布偏差校正;3)群体分布局部偏差校正,利用这些生物标志物产生约96%的预测能力。为拓扑不稳定性添加盲样的校正可以再增加1%至2%的改善。
空间偏差和群体分布偏差校正是对差异(噪声)抑制方法的补充
上面讨论的用于校正与空间邻近度相关性方法相关联的两个偏差问题的方法与解决蛋白质组学差异(噪声)的问题是互补的。校正方法两者都涉及压缩原始浓度数据,并且该压缩朝向疾病和非疾病的预定平均值。事实上,校正群体偏差问题涉及将非常低的浓度值(远低于非疾病平均)折叠到非疾病平均值附近或甚至高于非疾病平均值的区中。非常高的浓度值也是如此。
图35示出该方法得出的邻近度评分分布。其他四个看起来相似。该过程强制样本数据点进入两个大致重叠的泊松分布,其中非癌症在下侧占优势,癌症在上侧占优势。注意,癌症和非癌症样本仍然重叠。一个生物标志物不能高度准确地将健康与疾病完全分开。在该示例中使用的方程分别在高于和低于癌症和非癌症的经年龄调整的浓度平均值的区域中引起浓度值在转变为邻近度评分时顺序反转。本文讨论了两种情况。第一情况是区域1和区域2高于非疾病平均值并低于中点;并且区域3和区域4高于中点但低于疾病平均值。第二情况是区域在邻近度评分轴上顺序分段,其中非疾病平均置于区域1和区域2之间;疾病平均置于区域3和区域4之间,并且推导中点置于区域2和区域3之间。第一情况已被用于非疾病和疾病的群体分布不一致的情况(例如,乳腺癌-非乳腺癌分别为0.5%和99.5%,这反映了局部群体偏差)。第二情况已被用于群体分布更接近训练集分布的情况(例如,侵袭性/非侵袭性前列腺癌)。
注意,现在非癌症平均值、中点和癌症平均值的平均值年龄转换各自是纵坐标轴上的单一垂直线。还注意到非常低和非常高的值是对数压缩的,并且年龄相关的平均值附近的值存在一定程度扩展。关于反转,重要的是要注意在邻近度相关性方法中保持线性顺序并不重要,必须要简单地保持邻近度关系。换句话说,顺序可以颠倒。压缩和扩展将数据的大分布或整体分布归一化,但保持接近的空间关系。这被称为除去空间偏差。该方法除去了由于年龄或其他生理变量例如体重指数引起的数据的负空间偏差和模糊。实质上,训练集样本数据点被强制在4个区域中的一个中占据位置:1)低于非癌症的年龄相关的平均;2)非癌症的年龄相关的平均与转变为癌症的中点之间;3)高于中点转变且低于癌症的年龄相关的平均;4)高于癌症的年龄相关的平均,不管年龄或空间分布非线性。
注意,只要处理空间偏差,就可以在该方法中使用若干其他方程。简单对数压缩用于从低浓度至非癌症的年龄相关的平均,以及高于癌症的年龄相关的平均的高浓度,以及这些平均值之间可能的S形(Sigmoid)方程。先验确定该转变的方程关系是不可能的,并且必须通过实验和经由总体多标志物ROC曲线对结果进行比较来确定最佳拟合。最佳方程取决于空间偏差的特征。
分析步骤总结
1)选择与感兴趣的疾病有功能关系的生物标志物。生物标志物可能具有非常差的疾病预测能力(较差的ROC曲线)的事实不能排除将它作为考虑,这是因为在从非疾病到疾病的转变中具有很大独立作用的两个差生物标志物可以产生对预测能力的非常大的放大。这些生物标志物应该在其作用上具有功能的区别。
2)仔细定义训练集的疾病和非疾病群。这些集应该模拟将要进行测试的群体。不应消除与疾病无关的无关非状况。对于癌症群和非癌症群两者,群体内的非恶性状况应该在统计学上是正确的。
3)通过足够的年龄采样,测量各个群的浓度平均值,以准确确定年龄如何影响平均值。
4)将原始浓度值转换为邻近度评分。在双轴图上,该转化将包括强制所有原始浓度值等于或非常接近各自的平均值到邻近度评分轴上的固定但不同(分离)的数值,而不管样本年龄如何。此外,不管样本年龄如何,在非疾病和疾病平均值之间的浓度计算中点处或非常接近计算中点的原始浓度值必须在数学方式上强制为邻近度评分轴上的固定值。中点邻近度评分点应在邻近度评分轴上的低非疾病(通常)和高疾病固定点之间。该位置排列通常是期望的,但可能并非总是如此(例如,在低年龄时上调但在较高年龄时下调的生物标志物可能需要不同的蛋白质组学差异抑制策略)。
5)在数学方式上压缩或扩展(或其他运算)原始浓度数据,使其关于其年龄的平均值的关系而落在适当的位置(使数据按等级排列)。在应用空间邻近度相关性方法时,调整数学模式或用数学模式进行实验,以使训练集组情况下的预测能力最大化。不存在先验规则,并且符合诊断目标的数学模式将根据从非疾病向疾病转变所涉及的原始测量结果的特征、非线性和复杂性而改变。The Complexity Paradox(Kenneth L.Mossman,OxfordUniversity Press,2014)适当地总结了蛋白质组学研究者所面临的挑战:“复杂生物系统中固有的非线性动力学导致不规则和不可预测的行为”。
6)使用严格相同的数学模式来计算测试群体的疾病评分,该测试群体等同于测试的目标群体。确定该验证样本集是否符合诊断标准。
预测肿瘤状态和侵袭性
图36、37和38示出随着肿瘤进展分期到后期分期,许多不同生物标志物的作用;示出在前列腺癌的情况下的Gleason评分。这三张图示出所有三个癌症其各自TME活性生物标志物的相似行为。注意,在早期分期,免疫系统会对初生肿瘤做出侵袭性地反应。促炎和抗肿瘤发生(凋亡)生物标志物激增。通常,血管生成反应在早期肿瘤分期也很强烈(参见乳腺癌和NSCLC)。肿瘤的血管化反应随着肿瘤的生长倾向于增加。此外,在后期分期,肿瘤倾向于分泌抗炎细胞因子(TME活性),以抑制免疫系统。对于侵袭性前列腺癌尤其如此(Gleason评分为8、9和10)。
这些TME活性生物标志物的这种修改允许使用不同的训练集模型来调用肿瘤的当前分期。本文对乳腺癌和NSCLC癌两者的准确率为97%。在前列腺癌的情况下,可以以95%的准确率对从低级别或非侵袭性前列腺癌到侵袭性状态的转变进行预测。
空间邻近度相关性方法产生二元结果预测。该方法将确定未知样本是“状态A”还是“非状态A”。在确定分期(或前列腺癌的Gleason评分)后,必须修改策略。对于可能存在癌症分期或0、1、2、3或4的情况,策略是将这些分期聚类为二元组集。因此,对于所提到的情况,二元组的聚类是:1)分期0与分期1、2、3、4;2)分期1与分期0、2、3、4;3)分期2与分期0、1、3、4;4)分期3与分期0、1、2、4;5)分期4与分期0、1、2、3。然后用空间邻近度相关性方法对这5个聚类进行评分。然后将各个分期水平从模型的复合组中解卷积,以产生各个分期的直接评分。该方法将产生上述提到的预测能力值,95%至97%。
示例性方法
图39示出可通过其进行本发明方法的示例性路径。该方法从步骤3902开始,“接收非疾病状态的生物标志物的浓度值”,其中系统接收来自具有非疾病诊断患者中的第一样本集的第一生物标志物的浓度值输入。然后,在步骤3904,“接收疾病状态的生物标志物的浓度值”,系统接收来自具有疾病诊断患者的第二生物标志物的浓度值输入。然后,在步骤3906,“基于浓度值构建训练样本集”,使用生物标志物的浓度值来构建训练样本集。在步骤3908,“用第一生物标志物进行相关性计算”,系统针对该生物标志物,由与来自第二浓度值集的第一生物标志物的浓度值组合的第一浓度值集,完成相关性计算。在各种实施例中,该计算可以是简单回归、神经网络、ROC曲线面积最大化、随机森林方法、支持向量机或本领域已知的其他行业标准方法。在步骤3910,“对第二生物标志物重复步骤3902至3908”,对第二生物标志物重复步骤3902至3908。在重复这些步骤的同时,更新样本的训练集模型,以说明分析中使用的第一生物标志物和第二生物标志物对疾病和非疾病状态的综合影响。在某些实施例中,独立分析第二生物标志物,而在其他实施例中,在多维空间中结合第一生物标志物分析第二生物标志物。在又一其他实施例中,第二生物标志物可在功能上与第一生物标志物正交。在分析了上文示例性概述的第一生物标志物和第二生物标志物后,系统在步骤3912“输出疾病概率”中,基于其针对被检查个体患者接收到的输入,输出疾病状态概率,该输入具有两个生物标志物的各种不同浓度。如上所述,概率的确定可以基于邻近度评分。在某些实施例中,疾病概率的确定可能涉及根据推导出的排除区域和包括区域进行计算,以及从训练集中对集点值进行计数。然后,疾病状态的概率基于由系统报告的输出评分。
上述描述和附图应被视为仅说明本发明的原理。本发明不受优选实施例的限制,可以以本领域普通技术人员将清楚的多种方式实现。本发明的许多应用将容易发生于本领域技术人员。因此,期望不将本发明限制于公开的具体示例或所示出和描述的确切构造和操作。相反,可以采用落入本发明范围内的所有合适的修改和等效方案。

Claims (29)

1.一种计算机实现的方法,用于创建评估模型,所述评估模型指示被检查的患者的疾病状态概率,所述方法包括:
a.从来自具有非疾病诊断的患者的第一样本集中接收第一生物标志物的第一浓度值集;
b.从来自具有疾病诊断的患者的第二样本集中接收所述第一生物标志物的第二浓度值集,其中,所述第一样本集和所述第二样本集包括训练样本集;
c.针对第一生物标志物,由与来自所述第二浓度值集的第一生物标志物的浓度值组合的所述第一浓度值集,完成相关性计算,其中,所述计算可以是简单回归、神经网络、ROC曲线面积最大化、随机森林方法、支持向量机或其他行业标准方法;以及
d.对第二生物标志物进行步骤a至c,其中,所述第二生物标志物在功能上与所述第一生物标志物正交,并且其中,独立地分析所述第二生物标志物或者与所述第一生物标志物在多维空间中结合地分析所述第二生物标志物,以指示疾病状态的所述概率。
2.根据权利要求1所述的计算机实现的方法,其中,所述训练样本集包括血液样本、尿液样本和组织样本中的至少一个。
3.根据权利要求1所述的计算机实现的方法,其中,所述训练样本集包括同等数量的疾病样本和非疾病样本。
4.根据权利要求3所述的计算机实现的方法,其中,所诊断的所述疾病是:
a.非小细胞肺癌;或
b.按照分期隔开的非小细胞肺癌的分期。
5.根据权利要求4所述的计算机实现的方法,其中,所述生物标志物选自具有功能组的细胞因子,其中,所述功能组是促炎功能、抗肿瘤发生或细胞凋亡功能、血管生成功能、血管化细胞因子功能以及集落刺激因子功能中的至少三个。
6.根据权利要求5所述的计算机实现的方法,其中,所述生物标志物之一是白介素6。
7.根据权利要求5所述的计算机实现的方法,其中,所述生物标志物之一是肿瘤坏死因子受体1。
8.根据权利要求5所述的计算机实现的方法,其中,所述生物标志物之一是IL 8。
9.根据权利要求5所述的计算机实现的方法,其中,所述生物标志物之一是血管内皮生长因子β。
10.根据权利要求5所述的计算机实现的方法,其中,所述集落刺激因子功能之一是粒细胞-集落刺激因子。
11.根据权利要求5所述的计算机实现的方法,其中,所述促炎因子之一是白介素1、白介素1β、IL 12或IL 18。
12.根据权利要求5所述的计算机实现的方法,其中,所述抗肿瘤发生或细胞凋亡因子之一是CD254、DR3L、CD258或TNA受体2。
13.根据权利要求5所述的计算机实现的方法,其中,所述血管化因子之一是胎盘生长因子即PLGF、VEGF-A、VEGF-C或VEGF-D。
14.根据权利要求13所述的计算机实现的方法,其中,所述VEGF-A结合VEGFR1和VEGFR2。
15.根据权利要求5所述的计算机实现的方法,其中,所述集落刺激因子之一是GM-CSF或巨噬细胞刺激因子即GSF。
16.根据权利要求3所述的计算机实现的方法,其中,所诊断的所述疾病是实体肿瘤癌症的分期,诸如乳腺癌、卵巢癌、黑色素瘤;以及特定于所述癌症的肿瘤标志物被加入到测试中的分期。
17.根据权利要求11所述的计算机实现的方法,其中,具有分期信息的样本被分组为二元组,其中各分期被表示在二元集的一侧,或者剩余分期被分组在另一侧。
18.根据权利要求17所述的计算机实现的方法,其中,对具有癌症分期的样本的所有二元分组进行评分。
19.根据权利要求18所述的计算机实现的方法,其中,通过将针对经分组的二元组的评分与表示针对该组的评分的部分贡献的加权因子相加,来对各样本进行单独评分。
20.根据权利要求1所述的计算机实现的方法,其中,所述训练样本集包括来自预定年龄范围内的患者的样本。
21.根据权利要求1或5所述的计算机实现的方法,其中,所述疾病诊断选自包括癌症分期的组。
22.根据权利要求2所述的计算机实现的方法,其中,所述癌症选自包括以下项的组:乳腺癌、肾癌、卵巢癌、肺癌、黑色素瘤和前列腺癌。
23.根据权利要求2所述的计算机实现的方法,其中,所述癌症为非小细胞肺癌,并且所述分期为分期0、分期1、分期2、分期3和分期4。
24.根据权利要求2所述的计算机实现的方法,其中,所述癌症为乳腺癌,并且所述分期为分期0、分期1、分期2、分期3和分期4。
25.根据权利要求2所述的计算机实现的方法,其中,所述癌症为前列腺癌,并且所述疾病的进展以2至10的Gleason评分表示。
26.根据权利要求2所述的计算机实现的方法,其中,所述非疾病诊断包括所述五个分期中的四个分期,并且所述疾病诊断包括剩余分期。
27.一种非暂时性计算机可读介质,其存储有通过根据权利要求1所述的方法创建的评估模型,所述评估模型指示被检查的患者的疾病状态概率。
28.一种计算机实现的方法,所述方法由一个或多于一个服务器计算装置执行,所述方法用于指示被检查患者存在疾病状态的概率,所述方法包括:
a.通过所述服务器计算装置至少之一从样本分析系统接收来自所述被检查患者的所测量的第一生物标志物的浓度值;
b.根据导出的排除区域和包括区域以及来自训练集的计数集点值,计算基于输出评分的疾病状态的概率,以及报告所述评分。
29.一种非暂时性计算机可读介质,其存储通过根据权利要求30所述的方法创建的报告结果,所述报告结果指示被检查患者的疾病状态概率。
CN202080063803.5A 2019-07-13 2020-07-13 使用肿瘤微环境活性蛋白质提高各种疾病的诊断 Pending CN114730612A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962873862P 2019-07-13 2019-07-13
US62/873,862 2019-07-13
PCT/US2020/041838 WO2021011491A1 (en) 2019-07-13 2020-07-13 Improving diagnosis for various diseases using tumor microenvironment active proteins

Publications (1)

Publication Number Publication Date
CN114730612A true CN114730612A (zh) 2022-07-08

Family

ID=74102027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080063803.5A Pending CN114730612A (zh) 2019-07-13 2020-07-13 使用肿瘤微环境活性蛋白质提高各种疾病的诊断

Country Status (7)

Country Link
US (1) US20210012899A1 (zh)
EP (1) EP3997704A4 (zh)
JP (1) JP2022541689A (zh)
CN (1) CN114730612A (zh)
CA (1) CA3147270A1 (zh)
IL (1) IL289803A (zh)
WO (1) WO2021011491A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3405896A4 (en) * 2016-01-22 2019-09-25 Otraces Inc. SYSTEMS AND METHODS FOR ENHANCING DIAGNOSIS OF DISEASE

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106661624A (zh) * 2014-05-17 2017-05-10 加利福尼亚大学董事会 用于癌症诊断、预后和治疗选择的着丝粒/动粒蛋白基因
WO2017127822A1 (en) * 2016-01-22 2017-07-27 Otraces, Inc. Systems and methods for improving disease diagnosis
WO2019032858A1 (en) * 2017-08-09 2019-02-14 Otraces, Inc. SYSTEMS AND METHODS FOR ENHANCING DIAGNOSIS OF DISEASE BY MEASURING ANALYTES

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080195327A1 (en) * 2006-10-17 2008-08-14 Synergenz Bioscience Limited Methods of Analysis of Polymorphisms and Uses Thereof
WO2011085163A2 (en) * 2010-01-08 2011-07-14 The Regents Of The University Of California Protein markers for lung cancer detection and methods of using thereof
EP2434285A1 (en) * 2010-09-22 2012-03-28 IMBA-Institut für Molekulare Biotechnologie GmbH Breast cancer diagnostics
CN110289092A (zh) * 2013-03-14 2019-09-27 奥特拉西斯公司 使用所测分析物改进疾病诊断的方法
CA2960890A1 (en) * 2014-09-16 2016-03-24 Regeneron Pharmaceuticals, Inc. Predictive and prognostic biomarkers related to anti-angiogenic therapy of metastatic colorectal cancer
AU2016206486A1 (en) * 2015-01-16 2017-07-20 The Board Of Trustees Of The Leland Stanford Junior University VEGF variant polypeptide compositions

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106661624A (zh) * 2014-05-17 2017-05-10 加利福尼亚大学董事会 用于癌症诊断、预后和治疗选择的着丝粒/动粒蛋白基因
WO2017127822A1 (en) * 2016-01-22 2017-07-27 Otraces, Inc. Systems and methods for improving disease diagnosis
WO2019032858A1 (en) * 2017-08-09 2019-02-14 Otraces, Inc. SYSTEMS AND METHODS FOR ENHANCING DIAGNOSIS OF DISEASE BY MEASURING ANALYTES

Also Published As

Publication number Publication date
IL289803A (en) 2022-03-01
JP2022541689A (ja) 2022-09-26
US20210012899A1 (en) 2021-01-14
WO2021011491A1 (en) 2021-01-21
EP3997704A4 (en) 2023-07-19
EP3997704A1 (en) 2022-05-18
CA3147270A1 (en) 2021-01-21

Similar Documents

Publication Publication Date Title
US20230274839A1 (en) Systems and methods for improving disease diagnosis
Mofidi et al. Identification of severe acute pancreatitis using an artificial neural network
JP7326402B2 (ja) 測定分析物を使用する、疾患診断を改善するための方法
Khene et al. Application of machine learning models to predict recurrence after surgical resection of nonmetastatic renal cell carcinoma
JP2023156317A (ja) がんの予後
WO2010051552A1 (en) Methods of simulating chemotherapy for a patient
CN114730612A (zh) 使用肿瘤微环境活性蛋白质提高各种疾病的诊断
CN104720804A (zh) 宫颈癌患者使用紫杉醇和顺铂进行化疗敏感性预测方法
US20210035662A1 (en) Systems and methods for improving disease diagnosis using measured analytes
RU2782359C2 (ru) Системы и способы улучшения диагностики заболеваний с применением измеряемых аналитов
Shimoda et al. Relationship between the thickness of erector spinae muscles and mortality in patients with pulmonary tuberculosis
Zou et al. Ovarian cancer screening based on mixture change-point model
CN114628026A (zh) 诊断hcm的装置、预测hcm患者预后的装置
Kamarudin Incorporating time-dimension in ROC curve methodology for event-time outcomes
CN118039158A (zh) 基于术前和术后参数的预后风险预测方法、系统及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40076781

Country of ref document: HK