CN114762050A - 使用表达数据来检测神经编程肿瘤 - Google Patents
使用表达数据来检测神经编程肿瘤 Download PDFInfo
- Publication number
- CN114762050A CN114762050A CN202080065440.9A CN202080065440A CN114762050A CN 114762050 A CN114762050 A CN 114762050A CN 202080065440 A CN202080065440 A CN 202080065440A CN 114762050 A CN114762050 A CN 114762050A
- Authority
- CN
- China
- Prior art keywords
- tumor
- genes
- gene expression
- genes listed
- expression data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- Biomedical Technology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Pathology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本文公开的实施方案总体上涉及基于基因表达数据来将肿瘤分类为神经相关的或非神经相关的。可以使用机器学习模型对所述肿瘤进行分类,所述机器学习模型可以已经过训练以区分与神经元或神经内分泌肿瘤相关联的基因表达数据和与非神经元肿瘤和非神经内分泌肿瘤相关联的基因表达数据。可以基于所述分类提供区别性的治疗和/或治疗推荐。当肿瘤被识别为非神经相关时,可以使用或推荐一线检查点阻断疗法,而当肿瘤被识别为神经相关时,可以使用或推荐组合疗法(例如,初始化学疗法和随后的检查点阻断疗法)。
Description
相关专利申请的交叉引用
本申请要求2019年7月24日提交的美国临时申请第62/878,095号和2019年12月17日提交的美国临时申请第62/949,025号的权益和优先权。这些申请中的每个申请出于所有目的特此通过引用整体并入本文。
技术领域
本文公开的方法和系统一般涉及检测肿瘤数据是否对应于神经程序化肿瘤。具体来说,分类器可以处理基因表达数据以检测肿瘤是否为神经程序化肿瘤。
背景技术
癌症是一种异质性疾病,并且即使是患有相同类型的肿瘤的个体也可能经历非常不同的疾病进程并对疗法表现出不同的应答。对于显示不同的预后的受试者组的识别(患者分层)代表了用于治疗癌症的有希望的方法。例如,多种治疗选择可用于治疗患有肿瘤的受试者。一种治疗选择包括免疫检查点阻断疗法。免疫检查点促进T细胞活化。免疫检查点阻断疗法旨在抑制免疫抑制因子分子,否则会抑制T细胞活性。在一些情况下,这可以促进自身反应性细胞毒性T细胞淋巴细胞对肿瘤的活性。然而,免疫检查点阻断疗法,像许多治疗选择那样,不能有效治疗所有肿瘤。作为另一个示例,化学疗法的功效可能在疾病分期、癌症类型、受试者组和其他已知或未知的预测性特征之间显著不同。因此,将有利的是能够更好地表征个体肿瘤,以便确定治疗选择中的每种治疗选择(例如,免疫检查点阻断疗法)是否可能在治疗患有肿瘤的受试者方面有效,或者个性化的治疗组合是否将更适用于已识别的肿瘤亚类中的每个肿瘤亚类。
发明内容
在一些实施例中,提供了一种计算机实现方法以用于识别基因组合规范。访问对应于一个或多个受试者的训练基因表达数据的集合。已基于从患有肿瘤的该一个或多个受试者中的对应的受试者收集的样品而生成训练基因表达数据元素的集合中的每个训练基因表达数据元素。该训练基因表达数据元素的集合中的每个训练基因表达数据元素可以为基因的集合中的每种基因指示对应于该基因的表达度量。将该训练基因表达数据元素的集合中的每个训练基因表达数据元素分配给肿瘤类型类别。该分配包括:将该训练基因表达数据元素的集合的第一子集中的每个训练基因表达数据元素分配给第一肿瘤类型类别。第一子集包括对于其而言肿瘤为神经元肿瘤的训练基因表达数据元素。该分配进一步包括:将该训练基因表达数据元素的集合的第二子集中的每个训练基因表达数据元素分配给第二肿瘤类型类别。对于第二子集中的每个训练基因表达数据元素而言,肿瘤为非神经元和非神经内分泌肿瘤。使用该训练基因表达数据元素的集合和肿瘤类型类别分配来训练机器学习模型。训练机器学习模型包括学习参数的集合。基于习得的参数的集合,识别基因的集合的不完整子集,用于该不完整子集的表达度量提供关于肿瘤类型类别分配的信息。输出用于检查点阻断疗法顺应性的基因组合的规范。该规范识别不完整子集中所表示的一种或多种基因中的每种基因。
在一些情况下,第一子集可包括基于从患有神经内分泌肿瘤的另一个受试者收集的另一个样品而生成的附加的基因表达数据元素。训练机器学习模型可包括:对于基因的集合中的每种基因而言,识别用于第一肿瘤类型类别的第一表达度量统计量,以及识别用于第二肿瘤类型类别的第二表达度量统计量,并且,对于不完整子集中的每种基因而言,第一表达度量统计量与第二表达度量统计量之间的差值可超过预定义的阈值。训练机器学习模型可包括学习权重的集合,并且其中基于该权重的集合来识别不完整子集。机器学习模型可使用分类技术,并且习得的参数可对应于超平面的定义。机器学习模型可包括梯度推进机。该方法可进一步包括:接收对应于基因组合的第一基因表达数据;基于第一基因表达数据来确定第一肿瘤对应于第一肿瘤类型类别;输出将组合疗法识别为疗法候选项的第一输出,该组合疗法包括初始化学疗法和随后的检查点阻断疗法;接收对应于基因组合的第二基因表达数据;基于第二基因表达数据来确定第二肿瘤对应于第二肿瘤类型类别(例如,第一肿瘤和第二肿瘤中的每一者已被识别为非神经元和非神经内分泌肿瘤并且已被识别为对应于相同类型的器官);以及输出将一线检查点阻断疗法识别为疗法候选项的第二输出。
在一些情况下,提供了一种计算机实现方法以用于使用机器学习模型来确定一线检查点阻断疗法是给定受试者的疗法候选项。访问已通过执行操作的集合而被训练的机器学习模型。该操作的集合包括:访问与一个或多个受试者相对应的训练基因表达数据元素的集合。该训练基因表达数据元素的集合中的每个训练基因表达数据元素已经基于从患有肿瘤的一个或多个受试者中的对应的受试者收集的样品而生成。该训练基因表达数据元素的集合中的每个训练基因表达数据元素为基因的集合中的每种基因指示对应于该基因的表达度量。该操作的集合还包括:将该训练基因表达数据元素的集合中的每个训练基因表达数据元素分配给肿瘤类型类别。该分配包括:将该训练基因表达数据元素的集合的第一子集中的每个训练基因表达数据元素分配给第一肿瘤类型类别。第一子集包括对于其而言肿瘤为神经元肿瘤的训练基因表达数据元素。该分配还包括:将该训练基因表达数据元素的集合的第二子集中的每个训练基因表达数据元素分配给第二肿瘤类型类别。对于第二子集中的每个训练基因表达数据元素而言,肿瘤为非神经元和非神经内分泌肿瘤。该操作的集合还包括:使用该训练基因表达数据元素的集合和肿瘤类型类别分配来训练机器学习模型。训练机器学习模型包括学习参数的集合。访问基因表达数据元素。该基因表达数据元素基于另一肿瘤的另一活组织检查而生成。另一基因表达数据元素针对基因组中的至少一些基因中的每种基因指示对应于该基因的另一个表达度量。使用该另一基因表达数据元素执行经过训练的机器学习模型。该执行生成指示该另一肿瘤属于第二肿瘤类别类型的结果。响应于该结果,可输出输出。该输出将一线检查点阻断疗法识别为疗法候选项。
在一些情况下,第一子集可包括基于从患有神经内分泌肿瘤的另一个受试者收集的另一个样品而生成的附加的基因表达数据元素。机器学习模型可使用分类技术,并且习得的参数可对应于超平面的定义。机器学习模型可包括梯度推进机。该另一肿瘤可对应于黑色素瘤肿瘤。该方法还可包括:访问已基于附加的肿瘤的附加的活组织检查而生成的附加的基因表达数据元素(例如,该附加的肿瘤关联于与该另一肿瘤相同的解剖位置,该另一肿瘤关联于第一受试者,并且该附加的肿瘤关联于第二受试者);使用该附加的基因表达数据元素来执行经过训练的机器学习模型(该执行生成附加的结果,该附加的结果指示该附加的肿瘤属于第一肿瘤类别类型);以及响应于该附加的结果,输出将另一疗法识别为用于第二受试者的疗法候选项的附加的输出。其他疗法可包括组合疗法,该组合疗法可包括一线化学疗法和随后的检查点阻断疗法。该附加的肿瘤可以为非神经元和非神经内分泌肿瘤。
在一些情况下,提供了一种计算机实现方法以用于估计受试者是否顺应特定的治疗方法。访问基因表达数据元素。该基因表达数据元素基于从患有非神经元和非神经内分泌肿瘤的受试者收集的样品而生成。该基因表达数据元素针对多种基因中的每种基因指示对应于该基因的表达度量。确定该基因表达数据元素对应于神经元遗传特性。一种治疗方法被识别为包括初始化学疗法治疗和随后的检查点阻断疗法。输出表明受试者顺应该治疗方法的指示。
在一些情况下,该多种基因可包括以下各项中的至少一项:SV2A、NCAM1、ITGB6、SH2D3A、TACSTD2、C29orf33、SFN、RND2、PHLDA3、OTX2、TBC1D2、C3orf52、ANXA11、MSI1、TET1、HSH2D、C6orf132、RCOR2、CFLAR、IL4R、SHISA7、DTX2、UNC93B1和FLNB。该多种基因可包括以下各项中的至少五项:SV2A、NCAM1、ITGB6、SH2D3A、TACSTD2、C29orf33、SFN、RND2、PHLDA3、OTX2、TBC1D2、C3orf52、ANXA11、MSI1、TET1、HSH2D、C6orf132、RCOR2、CFLAR、IL4R、SHISA7、DTX2、UNC93B1和FLNB。该方法还可包括:访问已基于从患有另一种非神经元和非神经内分泌肿瘤的另一受试者收集的另一样品而生成的另一基因表达数据元素(该非神经元和非神经内分泌肿瘤可在受试者的特定器官中,该另一种非神经元和非神经内分泌肿瘤可在该另一受试者的另一特定器官中,并且该特定器官和该另一特定器官可属于相同类型的器官);确定该另一基因表达数据元素不对应于该神经元遗传特性;识别另一种治疗方法包括一线检查点阻断疗法;以及输出表明该另一受试者顺应该另一治疗方法的指示。该方法还可包括:通过使用训练数据集训练分类算法来确定神经元遗传特性,该训练数据集包括训练基因表达数据元素的集合(例如,其中该训练基因表达数据元素的集合中的训练基因表达数据元素对于至少多种基因中的每种基因而言可指示对应于该基因的表达度量;以及标记这样的数据:该数据将该训练基因表达数据元素的集合的第一子集与指示具有神经元性质的肿瘤的第一标记相关联,并且该数据将该训练基因表达数据元素的集合的第二子集与指示不具有该神经元性质的肿瘤的第二标记相关联。
在一些情况下,提供了一种试剂盒以用于检测指示肿瘤是否为神经相关的基因表达,该试剂盒包括引物的集合。该引物的集合中的每个引物可结合至表1中列出的基因,并且该引物的集合可包括至少5个引物。
在一些情况下,该引物的集合中的每个引物可包括上游引物,并且该试剂盒还可包括对应的下游引物的集合。该引物的集合包括靶向至少10个引物或至少20个引物。对于该引物的集合中的每个引物而言,该引物与之结合的基因可与表1中5.0以上的权重相关联。对于该引物的集合中的每个引物而言,该引物与之结合的基因可与表1中1.0以上的权重相关联。对于该引物的集合中的每个引物而言,该引物与之结合的基因可与表1中0.5以上的权重相关联。
在一些情况下,提供了一种系统,其包括一个或多个数据处理器和非暂态计算机可读存储介质,该非暂态计算机可读存储介质包含指令,该指令在该一个或多个数据处理器上被执行时使该一个或多个数据处理器执行本文公开的一种或多种方法的一部分或全部。
在一些情况下,提供了一种有形地体现在非暂态机器可读存储介质中的计算机程序产品。该计算机程序产品可包含指令,该指令被配置成使一个或多个数据处理器执行本文公开的一种或多种方法的一部分或全部。
本公开的一些实施例包括一种系统,其包括一个或多个数据处理器。在一些实施例中,所述系统包括非暂态计算机可读存储介质,其包含指令,所述指令当在所述一个或多个数据处理器上执行时,促使所述一个或多个数据处理器执行本文所公开的一种或多种方法的一部分或全部以及/或者一种或多种过程的一部分或全部。本公开的一些实施例包括有形地体现在非暂态机器可读存储介质中的计算机程序产品,其包括被配置成促使一个或多个数据处理器执行本文所公开的一种或多种方法的一部分或全部以及/或者一种或多种过程的一部分或全部的指令。
已采用的术语和表达被用作描述性而非限制性的术语,并且在使用这些术语和表达时,无意排除所示出和描述的特征或其部分的任何等同物,但是应当认识到,在所要求保护的本发明的范围内,各种修改是可能的。因此,应当理解,虽然通过实施例和任选特征具体公开了本发明,但是本领域技术人员可以对本文公开的概念进行修改和变化,并且此类修改和变化被认为是在所附权利要求书所限定的本发明范围内。
附图说明
结合附图描述本公开:
图1示出了来自不同类型的肿瘤的样品中的效应T细胞水平;
图2示出了用于使用机器学习模型来识别有助于肿瘤分类的结果的计算系统;
图3示出了用于数据标记的示例性映射及其使用;
图4示出了使用经过训练的机器学习模型生成的训练数据和测试数据结果;
图5说明了对于不同的肿瘤分类(行)而言,与不同的ML生成的分类相对应的子集在已识别的免疫和间质浸润特性(列)方面不同的程度;
图6A至图6F示出了按照由经过训练的机器学习模型生成的分类分开的临床数据;
图7示出了按照由经过训练的机器学习模型生成的分类分开的临床数据;
图8示出了不同的增殖和神经相关类别的示例性Kaplan-Meier曲线;
图9A至图9C示出了按照属于神经相关(或非神经相关)、类干性(或非类干性)和/或增殖(低或高)的分类分开的数据;
图10示出了针对神经内分泌和非神经内分泌数据组群的免疫细胞特性和突变统计;
图11示出了不同类型的肿瘤样品中六种神经元/神经内分泌标志物基因的表达水平;
图12示出了不同类型的肿瘤样品中各种神经元/神经内分泌基因特性的评分;
图13A示出了当使用基于PCT的方法处理基因表达数据时不同类型的肿瘤样品中的第一主成分和第二主成分;
图13B示出了当使用基于PCT的方法处理基因表达数据时不同类型的肿瘤样品中的第三主成分、第四主成分、第五主成分和第六主成分;
图14示出了对于各个类型的肿瘤而言,针对神经相关样品以及针对非神经相关样品生成的主成分值;
图15示出了由分类器生成的评分,这些评分对应于关于各种基因表达数据集是否对应于神经相关类别的预测;
图16示出了各种基因的表达水平对于影响神经相关分类的重要程度;
图17示出了关于各种基因的表达在神经相关肿瘤与非神经相关肿瘤之间如何不同的表示;
图18示出了由分类器模型预测为神经相关的肿瘤中所表示的肿瘤类型的细分;
图19示出了针对各种样品和肿瘤类型的统一流形逼近与投影(UMAP)投影;
图20示出了当将与来自被预测为神经相关的保留集(holdout set)的肿瘤相对应的UMAP值和与来自被预测为神经相关的训练集的肿瘤相对应的UMAP值进行比较时的经过调整的p值;
图21示出了对于两种基因中的每种基因和两种肿瘤类型中的每种肿瘤类型而言,与关于各种样品是否神经相关的预测相对应的基于样品是否包含基因突变而分开的分类器评分;
图22示出了对于多种黑色素瘤亚型中的每种黑色素瘤亚型而言,预测神经相关性的评分和干性评分;
图23说明了使用机器学习模型来识别组合规范的过程;
图24说明了使用机器学习模型来识别疗法候选项数据的过程;并且
图25说明了基于神经特性分析来识别疗法顺应性的过程。
在附图中,相似的部件和/或特征可以具有相同的附图标记。此外,相同类型的各种部件可以通过在附图标记后面加上破折号和区分相似部件的第二标记来区分。如果在说明书中仅使用第一附图标记,则该描述适用于具有相同的第一附图标记的任何一个相似部件,而不考虑第二附图标记。
具体实施方式
I.概述
癌症免疫疗法利用受试者自身免疫系统的各个方面以便减缓、停止或逆转肿瘤生长。一些免疫疗法被设计为调整T细胞的活性,T细胞介导受试者体内的患病细胞或受损细胞的细胞死亡。例如,检查点蛋白是人体免疫系统的天然成分,并且有些检查点蛋白可起到抑制T细胞活性的作用。在正常情况下,这种抑制可以防止对自身的长期攻击,这种对自身的长期攻击会引起炎性组织损伤和/或自身免疫性疾病。然而,一些肿瘤也会产生检查点蛋白,从而保护肿瘤免受T细胞的侵害,否则T细胞将有效杀死肿瘤细胞。检查点抑制剂疗法是这样一种癌症免疫疗法,其被设计为阻断检查点蛋白,使得身体自身的T细胞能够更好地发挥杀死肿瘤细胞的作用。
然而,如果身体上已存在数量足以影响肿瘤的T细胞(这本身取决于受试者的免疫系统是否通过产生T细胞来攻击肿瘤而对肿瘤的存在作出应答),则检查点抑制剂疗法只会提高肿瘤内的T细胞活性。图1示出了效应T细胞的水平如何随肿瘤类型和样品而变化(其中每个点表示一个样品)。效应T细胞的高水平指示免疫反应大。值得注意的是,虽然效应T细胞在不同的肿瘤类型之间存在明显差异,但这些水平的范围在不同的肿瘤类型之间高度重叠。每种给定类型的肿瘤的样品中的效应T细胞水平的广泛范围以及不同的肿瘤类型之间效应T细胞水平的高度重叠表明,仅肿瘤类型不足以指示受试者的免疫系统是否被激活以及检查点阻断疗法是否可能是一种有效的治疗方法。
受试者的免疫系统是否在这方面激活以应答肿瘤的存在可取决于肿瘤的免疫表型。在这方面,可将肿瘤分类为免疫学“热型”或免疫学“冷型”。冷肿瘤(或“免疫沙漠型”肿瘤)是一种未发炎且未显示出免疫细胞浸润的肿瘤。更具体地说,肿瘤可能仍未被检测到,从而仅引发微弱的T细胞免疫应答或未引发T细胞免疫应答来攻击肿瘤。同时,热肿瘤(或“炎性”肿瘤)是在肿瘤核心中有明显的T细胞浸润的肿瘤。因此,可以基于T细胞标志物的表达将肿瘤分为热肿瘤或冷肿瘤(使得当标志物指示T细胞炎性表型时,肿瘤被指定为热肿瘤)。
在一些方法中,检查点阻断疗法可被选择性地识别为当肿瘤为热型时的一线疗法。然而,可使用其他性质来表征肿瘤,并且因此,可能的是,以不同的方式对肿瘤进行分层可以替代性地或进一步地关于检查点阻断疗法是否将是一种有效的治疗方法进行预测。本文公开的一种方法涉及将肿瘤表征为神经相关(或神经性)肿瘤或非神经相关(或非神经性)肿瘤中的一者。神经表征可以(但不必)指示肿瘤具有神经胚胎起源,诸如神经嵴。神经相关肿瘤可包括脑肿瘤和神经内分泌肿瘤,然而这种列举的包括性是不够的,因为至少一些其他类型的肿瘤可能为神经相关。
在一些实施例中,提供了使用基因表达数据来估计肿瘤是否为神经相关的机器学习模型。更具体地说,在一些情况下,可以使用包括一组阳性数据元素(对应于第一类别)和一组阴性数据元素(对应于第二类别)的训练数据集来训练机器学习模型。该组阳性元素和该组阴性元素中的每一者可以包括针对基因的集合中的每种基因指示表达数据的数据。该表达数据可以以根据下一代测序确定的RNA转录物计数(或丰度估计值)(其经过处理的型式(例如,通过归一化遍及整个所测量的基因的集合的转录物计数,计算转录物计数的对数,或确定RNA-Seq数据的归一化的对数变换值))的形式表示。在一些情况下,该组阳性数据元素中的每个阳性数据元素对应于脑肿瘤或神经内分泌肿瘤。在一些情况下,该组阴性数据元素中的每个阴性数据元素对应于不是脑肿瘤且不是神经内分泌肿瘤的肿瘤。
训练机器学习模型可包括学习(例如)用于神经相关数据集和非神经相关数据集中的每一者的基因关联权重、基因表达特征和/或特性。习得的数据可用于识别这样的基因子集,对于该基因子集而言,表达数据提供关于对于为神经相关或非神经相关的肿瘤的类别分配的信息并且/或者预测对于为神经相关或非神经相关的肿瘤的类别分配。该基因子集中的每种基因可能已与超过绝对或预定义阈值的权重和/或显著性值相关联(例如,以便识别基因集合中预定义数量的与最高权重相关联的基因,以便从与超过预定义阈值的权重相关联的基因集合中识别每种基因,等等)。
可以生成和输出(传输和/或呈现)指示基因组合的规范可以识别基因子集的结果。然后可以相应地设计和实现基因组合,使得其结果识别基因子集中的每种基因的表达和/或任何突变。更具体地说,基因组合可被设计为使用特定的引物或探针以与基因子集附近和/或基因子集内的位点结合。每个引物和/或探针可包括标记。在一些情况下,相对于与其他基因相关联的其他标志物的普遍性,该标记的普遍性可指示基因的表达。在一些情况下,检测不同标记的顺序可识别基因的实际一级序列,然后可将该实际一级序列与参考序列进行比较以确定受试者是否具有与该基因有关的任何突变。
由机器学习模型产生的结果可指示基因的集合中的每种基因的表达程度是否和/或如何预测分类分配(例如,该分类分配将样品与神经相关或非神经相关分类相关联)。例如,二元指示可指示给定基因的任何表达或高度表达与给定分类的类别(例如,神经相关类别或非神经相关类别)的分配相关联或相关。作为另一示例,数字指示可指示给定基因的表达与类别的分配相关联或相关的程度,其中负数表示与一个分类的关联,而正数表示与另一个分类的关联。
在一些情况下,对应于给定受试者的表达数据被输入到经过训练的机器学习模型中。经过训练的机器学习模型的执行可引致生成这样的分类,该分类对应于关于受试者的肿瘤是否为神经相关的估计。结果可包括或表示该估计的置信度。应当理解,输入的表达数据中所表示的基因的标识不必与训练数据中所表示的基因的标识相同。然后,经过训练的机器学习模型可基于在训练数据和输入的表达数据两者中表示的基因中的至少一些基因来生成结果。在一些情况下,输出的结果可表示或包括分类。在一些情况下,结果进一步地或替代性地识别可基于分配的分类来选择的候选治疗方法。例如,当分配的分类估计肿瘤不对应于神经特征并且/或者不对应于神经相关类别时,检查点阻断疗法可被识别为一线疗法的候选项。同时,当分配的分类估计肿瘤对应于神经特征并且/或者对应于神经相关类别时,可将替代性治疗方法(例如,初始化学疗法治疗,随后是检查点阻断疗法)识别为候选项。在一些情况下,输出的结果包括或表示关于特定的治疗方法是否将有效治疗医学病状(例如,减缓、停止和/或逆转受试者体内的癌症的进展)的预测(该预测是基于分配给与受试者相对应的特定输入数据集的分类来进行的)。在一些情况下,结果识别或指示特定的治疗方法(例如,当输入的数据集被分配到神经相关分类时,检查点阻断治疗为一线治疗方法)。
在一些情况下,设计并提供了一种试剂盒。该试剂盒可包括被配置成有助于检测与神经相关基因相对应的表达和/或突变的引物和/或探针。该试剂盒还可包括固定在底物上的此类引物和/或探针。该试剂盒还可包括微阵列。
II.定义和缩写
如本文所用,术语“神经相关的”肿瘤(或肿瘤细胞)是指这样的肿瘤(或肿瘤细胞),该肿瘤(或肿瘤细胞)相对于没有神经胚胎起源的肿瘤细胞的分子谱而言具有与神经胚胎起源的肿瘤细胞的分子谱更相似的分子谱(例如,可回溯到神经嵴或神经管的细胞谱系,包括中枢神经系统类型和神经内分泌细胞类型两者)。本发明的一些实施例涉及基于受试者的一种或多种肿瘤是否为神经相关来确定治疗建议、确定治疗方法和/或治疗受试者。具有神经胚胎起源的肿瘤细胞包括来自脑肿瘤(例如,胶质母细胞瘤和神经胶质瘤)、来自一些神经内分泌肿瘤(例如,嗜铬细胞瘤、副神经节瘤)的细胞。神经相关肿瘤还包括神经内分泌肿瘤(包括从非神经嵴衍生组织发展而来的神经内分泌肿瘤,诸如胰腺神经内分泌肿瘤和肺腺癌——大细胞神经内分泌肿瘤)和其他神经相关肿瘤(例如,肌肉浸润性膀胱癌——基于表达的神经元亚型)。没有神经胚胎起源的肿瘤细胞可包括来自不在脑中的肿瘤的非神经内分泌细胞(例如,来自胰腺导管腺癌、非神经内分泌肺腺癌和非神经内分泌肌肉浸润性膀胱癌的细胞)。不在脑中的非神经内分泌肿瘤可包括一种或多种神经相关肿瘤细胞,与没有神经胚胎起源的肿瘤细胞的分子谱相比,该一种或多种神经相关肿瘤细胞具有与神经胚胎起源的肿瘤细胞的分子谱更相似的分子谱(例如,如基于分类器的输出而确定)。例如,分类器可输出特定的分子谱数据对应于与神经胚胎起源相关联的类别的预测(例如,二元指示器、此类分类的超过预定义阈值的置信度和/或此类分类的超过预定义阈值的预测的概率)。由于特定的微环境和/或生物学经验,神经相关肿瘤(或肿瘤细胞)可能出现在不在脑中的非神经内分泌肿瘤中。例如,神经相关肿瘤细胞可能由于耐药机制和/或由于肿瘤适应微环境(通过包括与没有神经胚胎起源的肿瘤细胞的分子谱相比具有与神经胚胎起源的肿瘤细胞的分子谱更相似的分子谱的肿瘤细胞)而出现。
如本文所用,术语“非神经相关的”肿瘤(或肿瘤细胞)是指这样的肿瘤(或肿瘤细胞),该肿瘤(或肿瘤细胞)相对于具有神经胚胎起源的肿瘤细胞的分子谱而言具有与没有神经胚胎起源的肿瘤细胞的分子谱更相似的分子谱。
如本文所用,术语“基因组合”是指一组一种或多种探针或引物,其用于识别一种或多种选定的感兴趣核酸(例如,一种或多种感兴趣的DNA或RNA序列)的存在和/或量。特定的引物或探针可被选择用于特定的功能(例如,用于检测与特定类型的神经疾病或性状相关联的核酸)或可被选择用于全基因组测序。寡核苷酸探针和引物的长度可为约20个至约40个核苷酸残基。引物或探针可被可检测地标记,或者其产物被可检测地标记。可检测的标记包括放射性核素、化学部分、荧光部分等。探针或引物可包括荧光标记和荧光猝灭部分,由此当荧光标记和荧光猝灭部分两者与非常接近的感兴趣的核酸结合时,荧光信号减小。可使用分子信标系统。多重可检测标记可用于多重测定系统中。基因组合可以是微阵列。基因组合可被设计为通过(例如)检测阳性(包含突变或等位基因)或阴性(不含突变或等位基因)结果来识别突变或等位基因。可使用本领域普通技术人员已知的测序方法使用核酸测序来“读取”基因组合。示例性测序方法和系统包括但不限于Maxam-Gilbert测序、染料终止子测序、Lynx Therapeutics的大规模平行测序(MPSS)、聚合酶克隆测序、454焦磷酸测序、Illumina(Solexa)测序、SOLiDTM测序、单分子SMART测序、单分子实时(RNAP)测序和Nanopore DNA测序。
如本文所用,术语“探针”是指与感兴趣的核酸杂交的寡核苷酸,但该术语还包括用于新一代核酸测序技术的试剂。探针不必与包括突变或等位基因位点的位置杂交,但可与突变或等位基因的上游(5')和/或下游(3')杂交。
如本文所用,术语“引物”是指启动对选定的核酸进行的测序反应的寡核苷酸引物。引物可包括正向测序引物和/或反向测序引物。基因组合中的引物或探针可与底物结合或不结合。替代性地,一种或多种引物可用于特异性地扩增感兴趣的核酸的至少一部分。mRNA转录物可在扩增前被逆转录以生成cDNA文库。能够与扩增的部分杂交的被可检测地标记的多核苷酸可用于识别一种或多种选定的感兴趣的核酸的存在和/或量。
如本文所用,“受试者”涵盖一种或多种细胞、组织或生物体。受试者可以是人类或非人类的,无论是体内的、离体的还是体外的,也无论是雄性的还是雌性的。受试者可以是哺乳动物,诸如人。
如本文所用,术语“基因表达数据元素”是指指示一种或多种基因在样品中或受试者体内表达的数据。基因表达数据元素可识别样品中或受试者体内表达了哪些基因和/或一种或多种基因中的每种基因的定量表达水平。基因表达可通过(例如)测量mRNA水平(例如,经由下一代测序、微阵列分析或逆转录聚合酶链式反应)或测量蛋白质水平(例如,经由蛋白质印迹或免疫组织化学)来确定。
如本文所用,术语“检查点阻断疗法顺应性”是指关于检查点阻断疗法(例如,当用作初始疗法和/或没有在先的化疗疗法时)是否将减缓癌症进展和/或减小给定受试者体内一个或多个肿瘤的大小的预测。
如本文所用,术语“神经元遗传特性”(本文也称为“神经特性”)是指识别在神经相关肿瘤中表达的特定基因和/或神经相关肿瘤中的特定基因的表达水平(例如,表达水平统计量和/或表达水平范围)的数据。神经元遗传特性可识别(例如,通常、一般或总是)在神经相关肿瘤中表达而(例如,通常、一般或总是)不在非神经相关肿瘤中表达的基因(和/或其表达水平)。与非神经相关肿瘤相比,神经元遗传特性可识别(例如,通常、一般或总是)在神经相关肿瘤中更高度表达的基因(和/或其表达水平)。如本文所述,神经元遗传特性可包括已被识别为提供关于以下信息的基因的集合:分配为包括一种或多种神经元肿瘤以及任选地一种或多种神经内分泌肿瘤的第一类肿瘤和包括每种肿瘤都是非神经和非神经内分泌肿瘤的一种或多种肿瘤的第二类肿瘤中的一者。
如本文所用,术语“检查点阻断疗法”是指包含免疫检查点抑制剂的免疫疗法。该一种或多种免疫检查点抑制剂中的每种免疫检查点抑制剂都靶向免疫检查点,该免疫检查点是调节(例如,抑制)免疫应答的蛋白质。示例性检查点包括PD-1/PD-L1和CTLA-4/B7-1/7-2。与本文公开内容有关的精选缩写包括:
III.计算环境与模型架构
图2示出了用于训练和使用机器学习模型来识别有助于肿瘤分类的结果的计算系统200。计算系统200包括标记映射器205,该标记映射器将特定的肿瘤集合映射到“神经相关”标记(例如,将“神经相关”标记分配给特定类型的肿瘤)并且将其他特定的肿瘤集合映射到“非神经相关”标记。特定的肿瘤集合可包括脑肿瘤和/或神经内分泌肿瘤。在一些情况下,该其他特定的肿瘤集合中的每种肿瘤都不是脑肿瘤,并且也不是神经内分泌肿瘤。该映射不必是详尽的。例如,可保留该映射以应用于这样的肿瘤集合,对于该肿瘤集合而言,存在与以下有关的高置信度和/或确定性:肿瘤是否为脑肿瘤、神经内分泌肿瘤和/或对应于神经特性,使得其他肿瘤可能根本没有标记。
映射数据可存储在映射数据存储库(未示出)中。映射数据可识别映射到神经相关标记或非神经相关标记的每个肿瘤。映射数据可以(但不必)进一步识别附加的肿瘤集合(例如,该附加的肿瘤集合可以或有可能与任一标记相关联)。
训练表达数据存储库210可存储用于一个或多个肿瘤集合中的每种肿瘤(包括映射到神经相关标记和非神经相关标记的那些肿瘤中的一些肿瘤或全部肿瘤)的训练基因表达数据。训练基因表达数据可包括(例如)RNA-Seq数据。存储在训练表达数据存储库210中的训练基因表达数据可以已(例如)从公共数据存储库和/或从接收自(例如)实验室或医生办公室的数据收集。
为了获得RNA-Seq数据,可从组织中分离RNA,并将该RNA与脱氧核糖核酸酶(DNase)结合以减少基因组DNA的数量,从而提供分离的RNA。可过滤该分离的RNA(例如,利用聚(A)尾)以滤出rRNA并产生分离的mRNA,可过滤该分离的RNA得到与特定序列结合和/或保持其原始分离状态的RNA。RNA(或mRNA或过滤后的RNA)可逆转录为cDNA,然后通常使用下一代测序技术对该cDNA进行测序。可执行直接(或“批量”)RNA测序或单细胞RNA测序以生成表达谱。然后可执行转录组装(例如,使用从头方法或与参考序列的比对),并且可以通过计算与每个基因座和/或转录物对齐的读数的数量并且/或者通过使用此类计数获得一种或多种基因表达产物的丰度的估计值来生成表达数据。可将RNA-Seq数据定义为包含该表达数据。
训练控制器215可使用映射和训练基因表达数据集来训练机器学习模型。更具体地说,训练控制器215可访问模型的架构,为模型定义(固定的)超参数(该超参数是影响学习过程的参数,诸如模型的学习率、大小/复杂度等),以及训练模型使得习得参数的集合。更具体地说,可以通过识别与通过将预测的输出(使用给定的参数值获得)与实际输出进行比较而生成的低的或最低的损失、成本或误差相关联的参数值来学习参数集。在一些情况下,机器学习模型包括梯度推进机或回归模型(例如,线性回归模型或逻辑回归模型,其可实现诸如L1惩罚之类的惩罚)。因此,训练控制器215可检索存储的梯度推进机架构220或存储的回归架构225。可将梯度推进机配置成迭代地拟合新模型以提高输出(例如,该输出包括与关于肿瘤是否为神经相关的估计或可能性相对应的度量或标识符)的估计准确性。可以构建新的基础学习器以优化与整个系综的损失函数的负梯度的相关性。因此,梯度推进机可依赖于基础学习器的集合,其中的每个基础学习器都可能有其自己的架构(未示出)。使用梯度推进机可能是有利的,因为在不包含某些基因的表达数据的外部数据集中,模型仍可使用仅可用基因的表达数据来生成输出。另一种方法(例如,关于逻辑回归)是估算缺失的表达数据。回归模型可能更简单和更快速,尽管它可能会引入偏差。
习得的参数可包括(例如)权重。在一些情况下,至少一个权重中的每个权重对应于单种基因,使得该权重可指示该单种基因的表达提供关于肿瘤标记的信息的程度。在一些情况下,至少一个权重中的每个权重对应于多种基因。
特征选择器235可使用在整个训练过程中收集的数据和/或习得的参数来选择特征的集合,这些特征提供感兴趣的结果的信息。例如,可进行初始训练以并发地或迭代地评估数百种或数千种基因的表达数据如何与结果(例如,肿瘤分类标记)相关。特征选择器235然后可识别数百种或数千种基因的不完整子集,使得该子集内的每种基因与超过预定义的绝对或相对阈值的度量(例如,显著性值和/或权重值)相关联。例如,特征选择器235可识别5种、10种、15种、20种、25种、50种、100种或任何其他数量的提供标记的最丰富信息的基因。在一些情况下,特征选择器235和训练控制器215协调,使得基于特征选择结果使用不同的训练表达数据集(对应于不同的基因)迭代地执行训练。例如,基因的初始集合可被迭代地和重复地过滤,以获得提供关于肿瘤标记的信息的集合。
由特征选择器235选择的特征的集合可对应于(例如)表1中已识别的至少1种、至少5种、至少10种、至少15种、至少20种、至少25种或至少50种基因。特征的集合可包括(例如)至少1种、至少5种、至少10种或至少20种与(表1中)高于1.0、0.75、0.5或0.25的权重相关联的基因。特征的集合可包括(例如)至少25种、至少50种或至少100种与(表1中)高于0.25、0.1、0.1或0.05的权重相关联的基因。
表1
在一些情况下,训练控制器215和特征选择器235中的一者或两者确定或学习预处理参数和/或方法。例如,预处理可包括基于由特征选择器235选择的特征来过滤表达数据(例如,以包含对应于每种选定基因的表达数据,以不包含对应于每种非选定基因的表达数据和/或以识别对于其而言有待评定表达数据的选定基因的集合的子集)。其他示例性预处理可包括归一化或标准化数据。
机器学习(ML)执行处理器240可使用该架构和习得的参数来处理非训练数据并生成结果。例如,ML执行处理器240可接收与基因相对应以及与在训练表达数据集中未被表示的受试者相对应的表达数据。可以(但不必)根据习得的或已识别的预处理技术来预处理表达数据。(预处理的或原始的)表达数据可被馈送到这样的机器学习模型中,该机器学习模型具有在训练期间使用的(或已识别的)并配置有习得的参数的架构(例如,梯度推进机架构220或回归架构225)。
在一些情况下,分类器245基于机器学习模型的执行来识别针对表达数据集的分类。该执行本身可产生包含标记的结果,或者该执行可包含分类器245可用于确定分类的结果。例如,结果可包含表达数据对应于给定分类的概率和/或该概率的置信度。分类器245然后可应用规则和/或变换以将该概率和/或置信度映射到分类。在一些情况下,可能的分类包括“神经相关”标记、“非神经相关”分类和“未知”分类。作为说明,如果结果包含肿瘤对应于给定类别的大于50%的概率,则可分配第一分类,否则可分配第二分类。
治疗候选项识别器250可使用该分类来识别一种或多种推荐的治疗方法和/或一种或多种不推荐的治疗方法。例如,结果可包含关于作为基于该分类的一线治疗的治疗候选项的检查点阻断疗法是否被预测为适用于给定受试者的二元指示的程度。例如,当分配了非神经相关分类时,检查点阻断疗法可被识别为治疗候选项或一线治疗和/或单独治疗(例如,表明其不与另一种抗肿瘤治疗方法诸如化学疗法或生物疗法相结合)的候选项。作为另一个示例,当分配了神经相关分类时,可将除检查点阻断疗法之外的治疗方法(例如,化学疗法、靶向疗法或生物疗法)识别为治疗候选项或一线治疗的候选项。作为又另一个(附加的或替代性的)示例,当分配了神经相关分类时,可将包含检查点阻断疗法和另一种治疗方法的组合疗法识别为治疗候选项或一线治疗的候选项。
组合规范控制器255可使用来自机器学习模型的输出和/或选择的特征(由特征选择器235选择)来识别组合(例如,基因组合)的规范。该规范可包含要包含在该组合中的一种、多种或全部基因中的每种基因的标识符。该规范可包含基因列表,该基因列表顺应被包含在该组合中(并且对于其而言表达数据提供分类分配的信息)。在一些情况下,组合规范控制器255可识别与以下各项相关联的每种基因:高于预定义的绝对或相对阈值的权重和/或超过另一个预定义的绝对或相对阈值的显著性值(例如,低于另一个预定义阈值的p值)。
通信接口260可收集结果并将该结果(或其经过处理的版本)传送给用户设备或其他系统。例如,通信接口260可生成识别以下各项的输出:受试者,对应于该受试者的表达数据中的至少一些表达数据,分配的分类以及已识别的治疗候选项。然后可呈现和/或传输该输出,这可有助于输出数据的显示,例如在计算设备的显示器上显示。作为另一个示例,通信接口260可生成包含用于潜在包含在组合中的基因列表的输出(可能具有与基因相关联的权重和/或显著性值),并且该输出可在用户设备处显示以有助于基因组合的设计。
在一些情况下,分析表2中列出的基因中的一种或多种、两种或更多种、三种或更多种、五种或更多种、十种或更多种、二十种或更多种或者五十种或更多种基因在受试者体内的表达水平。应当理解,以下各项中的每项或一些项可提高免疫细胞的活性:表2中列出的基因中的一种或多种、两种或更多种、三种或更多种、五种或更多种、十种或更多种、二十种或更多种或者五十种或更多种基因。在一些情况下,分析表3中列出的基因中的一种或多种、两种或更多种、三种或更多种、五种或更多种、十种或更多种、二十种或更多种或者五十种或更多种基因在受试者体内的表达水平。在一些情况下,分析表4中列出的基因中的一种或多种、两种或更多种、三种或更多种、五种或更多种、十种或更多种、二十种或更多种或者五十种或更多种基因在受试者体内的表达水平。该分析可包括生成预测以下各项的结果:受试者的一种或多种肿瘤是否为非神经相关(相比神经相关),疾病(例如,癌症)是否会对提高受试者体内的免疫细胞活性的治疗产生应答(例如,如通过进展减缓或停止和/或存活一段时间来证明),以及/或者受试者的一种或多种肿瘤是否会对提高受试者体内的免疫细胞活性的治疗产生应答(例如,计数缩减、累积大小缩减、中位肿瘤大小缩减或平均肿瘤大小缩减),受试者的疾病(例如,癌症)是否会对免疫检查点阻断治疗产生应答(例如,如通过进展减缓或停止和/或存活一段时间来证明),以及/或者受试者的一种或多种肿瘤是否会对检查点阻断疗法治疗产生应答(例如,计数缩减、累积大小缩减、中位肿瘤大小缩减或平均肿瘤大小缩减)。
Entrez基因ID | 基因符号 |
9900 | SV2A |
4684 | NCAM1 |
3694 | ITGB6 |
10045 | SH2D3A |
4070 | TACSTD2 |
64073 | C19orf33 |
2810 | SFN |
8153 | RND2 |
23612 | pHLDA3 |
5015 | OTX2 |
55357 | TBC1D2 |
79669 | C3orf52 |
311 | ANXA11 |
4440 | MSI1 |
80312 | TET1 |
84941 | HSH2D |
647024 | C6orf132 |
283248 | RCOR2 |
8837 | CFLAR |
3566 | IL4R |
729956 | SHISA7 |
113878 | DTX2 |
81622 | UNC93B1 |
2317 | FLNB |
22844 | FRMPD1 |
387104 | C6orf174 |
55964 | 3-Sep |
79570 | NKAIN1 |
199731 | CADM4 |
51560 | RAB6B |
55028 | C17orf80 |
3383 | ICAM1 |
547 | KIF1A |
57501 | KIAA1257 |
表2
Entrez基因ID | 基因符号 |
9900 | SV2A |
4684 | NCAM1 |
3694 | ITGB6 |
10045 | SH2D3A |
4070 | TACSTD2 |
64073 | C19orf33 |
2810 | SFN |
8153 | RND2 |
23612 | PHLDA3 |
5015 | OTX2 |
55357 | TBC1D2 |
79669 | C3orf52 |
311 | ANXA11 |
4440 | MSI1 |
80312 | TET1 |
84941 | HSH2D |
647024 | C6orf132 |
283248 | RCOR2 |
8837 | CFLAR |
3566 | IL4R |
表3
Entrez基因ID | 基因符号 |
9900 | SV2A |
4684 | NCAM1 |
3694 | ITGB6 |
10045 | SH2D3A |
4070 | TACSTD2 |
64073 | C19orf33 |
2810 | SFN |
8153 | RND2 |
23612 | PHLDA3 |
5015 | OTX2 |
55357 | TBC1D2 |
表4
IV.示例性模型训练和表征
图3示出了用于数据标记的示例性映射及其使用。在一些情况下,所描绘的标记映射中的一些或全部标记映射对应于由标记映射器205识别和/或(例如,由训练控制器)用于训练机器学习模型的映射。在所描绘的实例中,第一集合的肿瘤类型映射到神经相关标记(“阳性病例”),并且第二集合的肿瘤类型映射到非神经相关类别(“阴性病例”)。第一集合包括脑肿瘤(胶质母细胞瘤(GBM)和低级别胶质瘤(LGG))、神经内分泌肿瘤(嗜铬细胞瘤-副神经节瘤(PCPG)、胰腺神经内分泌瘤(PNET)和肺腺癌-大细胞神经内分泌瘤(LCNEC))和其他神经相关肿瘤(肌肉浸润性膀胱癌——基于表达的神经元亚型(BLCA-神经元))。第二集合可如此定义为没有任何脑肿瘤或神经内分泌肿瘤。例如,对于肺腺癌和肌肉浸润性膀胱癌中的每一者,肿瘤可以是神经内分泌肿瘤,或者也可以是非神经内分泌肿瘤。因此,来自患有肺腺癌和肌肉浸润性膀胱癌的特定受试者的数据是否被分配到第一集合与第二集合可取决于其是否属于神经内分泌类型。在示出的实例中,第二集合包括胰腺导管腺癌(PDAC)、非神经内分泌和非脑肺腺癌(LUAD)以及非神经内分泌和非脑肌肉浸润性膀胱癌(BLAC)。确定肿瘤是否属于神经内分泌类型可包括应用(例如)Robertson AG等人的“Comprehensive molecular characterization of muscle-invasive bladder cancer”.Cell 17(3),546-566(2017年10月)或Chen F等人的“Multiplatform-based molecularsubtypes of non-small cell lung cancer”Oncogene 36,1384-1393(2017年3月)中所公开的技术,上述文献中的每个文献出于所有目的以引用其全文的方式并入本文。
所描绘的图示表示了如何可以使用来自存储库(例如,癌症基因组图谱)的数据来训练机器学习模型。在该示例中,929个数据元素中的每个数据元素对应于与神经相关类别相关联的所列肿瘤类型中的一种肿瘤类型,并且985个数据元素中的每个数据元素对应于与非神经相关类别相关联的所列肿瘤类型中的一种肿瘤类型。每个数据元素可包括用于多种基因中的每种基因的表达数据。数据元素可分为训练集和测试集(例如,使得数据元素在类别之间的分布对于该训练集和该测试集而言大致相等)。
图4示出了使用经过训练的机器学习模型生成的训练数据和测试数据结果。具体来说,该结果对应于来自癌症基因组图谱的数据元素,如关于图3所描述的,这些数据元素被划分类别并且分为测试集和训练数据集。执行特征选择以移除与两个类别中表达水平低于阈值的基因相对应的数据。在剩余的基因中,基因的“判别”集合被识别为在类别之间具有至少高于阈值的差异并且还具有高于阈值的显著性的那些基因。更具体地说,为了将基因表征为判别基因,该基因的表达需要在两个类别之间有至少1.5倍的差异。当limma模型控制疾病指示时,该差异还需要与limma中小于0.1的经过调整的p值相关联。使用处理方法计算经过调整的p值,该处理方法使用具有最低对数FC要求的经过经验Bayes调节的t统计量。该判别集合包含1969种基因。
关于图4中描绘的数据,示例性机器学习模型被配置成输出数据对应于神经相关肿瘤的概率。如果该概率超过50%,则分配神经相关分类,否则分配非神经相关分类。分类正确对应于实际类别的实例(如基于图3所示的映射来确定)用黑色矩形表示。分类被识别为神经相关但实际的类别为非神经相关(假阳性)的实例用实心圆圈表示。分类被识别为非神经相关但实际的类别为神经相关(假阴性)的实例用空心圆圈表示。如图所示,既没有假阴性,也没有假阴性。因此,机器学习模型能够准确地学会区分这两类肿瘤。
图5说明了对于不同的肿瘤分类(行)而言,与不同的ML生成的分类相对应的子集在已识别的免疫和间质浸润特性(列)方面不同的程度。点矩阵中的每列表示免疫反应或间质浸润性的量度。每行表示一种肿瘤类型。每个点的大小基于与区分关联于神经相关类别和非神经相关类别的肿瘤(基于如关于图4所描述的进行训练和配置的机器学习模型的输出)相对应的显著性水平来缩放。
更具体地说,对于每个肿瘤类型,收集表示肿瘤集合的数据集。该集合中的每个数据元素(对应于单个肿瘤)包含基因表达数据。对于每个数据元素,机器学习模型用于将肿瘤分为神经相关或非神经相关。对于每种肿瘤,还访问了免疫反应和间质浸润度量。对于每个肿瘤类型和每种免疫反应或间质浸润度量,计算出表示两个类别中度量的差异的显著性的显著性值。点大小与显著性度量相关。结果表明,对于某些肿瘤,神经相关肿瘤与非神经相关肿瘤之间的许多免疫反应和间质浸润度量方面存在一致且显著的差异。对于其他肿瘤而言,这些差异不太明显。潜在地,对于其他肿瘤而言,一个或多个其他肿瘤属性主导这些度量的影响,使得由神经相关/非神经相关分类引起的任何差异的影响都降低。
在一些实施例中,来自机器学习模型的输出、分类和/或类别可用于识别治疗方法和/或可预测治疗的功效。例如,神经相关类别名称可表明检查点阻断疗法将不太可能有效治疗对应的肿瘤(例如,通常和/或没有先前的预处理治疗或先前的一线治疗)。
V.示例性模型结果
V.A.实例1
图6A至图6D示出了来自癌症基因组图谱的未经治疗的样品的临床数据,这些临床数据按照由经过训练的机器学习模型生成的分类分开。癌症基因组图谱中的数据表示来自假定提供标准护理治疗的多家(例如,5家或更多家)医院的生物标本。更具体地说,机器学习模型(下文在第V.E.节中对其进行更全面的讨论并且称为NEPTUNE)基于梯度推进机架构而构建并且如上文关于图4所述进行训练。然后,包含附加元素的单独的测试数据集由经过训练的机器学习模型处理。该测试数据集中的附加元素包括用于基因集合中的每种基因的表达数据(使用RNA-Seq确定)。在该实例中评估的肿瘤是未经治疗的,因此预测不会与不同的治疗混淆(因为在未经治疗的肿瘤中通常未观察到谱系可塑性和神经内分泌转化,而此类谱系可塑性和/或神经内分泌转化可响应于对治疗产生耐药性或由于复发而出现)。机器学习模型的输出包含数据元素对应于神经相关类别的概率。如果该概率超过50%,则将该数据元素分配给神经相关类别。否则,将该数据元素分配给非神经相关类别。
每个数据元素对应于一个受试者,并且进一步跟踪每个受试者的结果数据。因此,可进一步计算存活率和无进展存活率度量。更具体地说,生成了时间序列度量,对于时间点的集合(相对于初始病理诊断)而言以及对于每个类别而言(粗线:神经相关类别;细线:非神经相关类别),这些时间序列度量识别与仍然存活的类别相对应的受试者的百分比(左图),以及仍然存活且对于其而言肿瘤/癌症未进展的受试者的百分比(右图)。虽然肿瘤标本是未经治疗的,但受试者随后接受标准护理治疗(例如,手术或非手术治疗)。
TCGA.与非神经相关肿瘤相比,观察到TCGA中的神经相关肿瘤与非常差的癌症特异性存活期(CSS)和无进展间期(PFI)相对应(图6A)。为了解决各个癌症类型是否可推动这种关联性的问题,在Cox比例风险回归模型中控制了癌症类型。神经相关分类仍然是CSS和PFI的重要风险因素(图6B)。由于具有神经特性的两种变体的存在(1-低增殖高分化;2-高增殖低分化),接下来研究了神经编程表型是否具有基于增殖和干性水平的不同的存活率关联性,即神经相关类别与增殖或干性中的一者之间的交互作用项是否显著。通过添加神经相关分类、增殖和干性中的任何一者,仅包括疾病(癌症类型)的模型的解释能力显著提高(图6C,左图)。增殖是该三者之中最显著的变量,但是当允许增殖对不同的神经相关分类具有不同的影响大小时,该模型具有甚至更大的能力。(对于CSS和PFI两者,与非神经相关肿瘤相比,对于神经相关肿瘤而言增殖具有更大的风险比;提示增殖性肿瘤在神经程序化状态下可能更具侵袭性)(图6C,右图)。如Kaplan-Meier图表中所示,患有高增殖性神经相关肿瘤的受试者具有最差的结果,而患有低增殖性非神经相关肿瘤的那些受试者具有最佳的临床结果(图6D)。高增殖性神经相关肿瘤的侵袭性在多个单独的指示中得到了证实(例如黑色素瘤、膀胱癌和肝癌)(图6E)。有趣的是,低增殖性神经相关肿瘤在某些指示中是惰性的(图6F)。
图7示出了类似的数据,但针对的是胰腺肿瘤。更具体地说,神经相关类别对应于胰腺神经内分泌肿瘤,而非神经相关类肿瘤对应于胰腺导管腺癌。在这种情况下,神经相关类别的存活率度量超过了非神经相关类别的那些存活率度量。该数据表明,低增殖性神经相关肿瘤可能是惰性的。
V.B.实例2
如实例1中所述并使用实例1中所述的分类器收集和分析数据集,不同之处在于该数据基于增殖速度被进一步细分(除了用于给定样品的基因表达数据是否被分配给神经相关类别或非神经相关类别之外)。然后执行存活率建模以确定神经相关表型是否提供了超出基于增殖速度所提供的信息的关于存活率数据点的任何附加信息。为了确定增殖速度,使用来自MSigDB的Hallmark G2M检查点基因集合处理了基因表达数据以识别估计的增殖速度(如在https://www.gsea-msigdb.org/gsea/msigdb/collections.jsp处所表征的)。具体来说,首先对基因表达数据(RSEM值)进行了对数变换,然后在增殖特性中遍及样品针对每种基因进行了标准化。然后遍及基因对标准化的值(即z评分)求平均值,以得出每个样品的增殖评分。针对高增殖速度分类和低增殖速度分类中的每一者遍及样品计算出中值。
图8示出了癌症特异性存活率(顶部)和无进展存活率(底部)的Kaplan-Meier曲线。受试者结果分为四组,该四组基于基因表达数据是否被分配给神经相关类别(相比非神经相关类别)以及基于基因表达数据是否被分配给高增殖类别(相比低增殖类别)进行区分。如图8所示,所有四个组群的准确性各不相同,并且两种分类(神经相关与非神经相关,和高增殖与低增殖)中的每种分类似乎都会影响预测存活率。将关联于神经相关分类和高增殖分类的组群与最低存活率前景相关联,并且将关联于非神经相关分类和低增殖分类的组群与最高存活率前景相关联。值得注意的是,与(1)神经相关分类和高增殖分类相关联的组群以及与(2)非神经相关分类和低增殖分类相关联的组群位于该两个极端组群之间。因此,似乎增殖分类和神经相关分类两者都提供关于存活率前景的信息。
组群之间的存活率-前景差异说明了组群之间在预后和疾病活动方面的差异,这可以指示具有预测的神经相关分类(相比非神经相关分类)的受试者之间在治疗效果和/或适用性方面和/或在对增殖速度的预测方面存在差异。这些结果与以下理解是一致的:预先存在(即,在疗法之前存在)的肿瘤内CD8 T细胞水平可预测对免疫检查点阻断疗法的应答。因为神经相关肿瘤的CD8 T细胞水平很低,所以这些肿瘤不太可能对免疫检查点阻断疗法产生应答。结果表明,对于增殖性神经相关肿瘤而言,化学疗法和免疫检查点阻断疗法的组合可对治疗肿瘤有效,而单独的或不使用化学疗法的免疫检查点阻断疗法可能是对于这些肿瘤而言不太有效的治疗策略。
V.C.实例3
从METABRIC数据库中收集了源自人类乳腺癌标本的基因表达数据(如Rueda等人的“Dynamics of Breast-Cancer Relapse Reveal Late-Curring ER-Positive GenomicSubgroups”Nature.2019年3月;567(7748):399-404.doi:10.1038/s41586-019-1007-8.Epub 2019年3月13日中所描述的)。基因本体如The Gene Ontology Consortium,“TheGene Ontology Resource:20 years and still Going strong”Nucleic Acids Res.2019年1月8日;47(数据库期号):D330–D338中所描述的。基因本体(GO)神经元特性(下文也称为“GO神经元”)(其列出了GO识别为与神经元相关的基因)用于将每个标本分配给NEURO类别:神经相关(NEP)或非神经相关。更具体地说,在GO神经元特性中遍及样品针对每种基因对归一化的基因表达数据(微阵列值)进行了标准化,然后遍及基因对标准化的值(即,z评分)求平均值以获得每个样品的神经元评分。使用来自Miranda等人的“Cancer stemness,intratumoral heterogeneity,and immune response across cancers”Proc Natl Acad Sci USA.2019年4月30日;116(18):9020-9029的基因表达数据和干性特性,将每个标本进一步分类为类干性或高分化(STEMNESS类别)。更具体地说,在干性特性中遍及样品针对每种基因通过标准化进一步执行了干性表征,然后遍及基因对标准化的值(即,z评分)求平均值以获得每个样品的干性评分。表5识别了与NEURO类别相关联的基因以及与STEMNESS类别相关联的基因。(来自用于估计增殖速度的Hallmark G2M检查点基因集合的基因表示在表5的第372行至第571行。与来自Miranda等人的干性特性相关联的基因表示在表5的第263行至第371行。)
表5
然后执行存活率建模以确定存活率统计量在类别之间的差异程度。更具体地说,从最大的公众可获得的乳腺癌组群METABRIC(N=1978)中检索数据,以研究神经编程是否与人体中的转移相关联。在这里,GO Neuron特性用于对神经编程进行评分,因为RNA-Seq数据不可用,因此无法基于RNA-Seq数据将肿瘤分类为神经相关或非神经相关。结果表明,神经编程与降低的癌症特异性存活率(CSS)和远处复发(DR)的时间相关联(分别为p=0.023和0.033,对数秩检验)(图9A)。接下来,为了确定不同类型的神经相关肿瘤(高分化低增殖性与低分化高增殖性)是否与不同的存活率和转移关联性相关联,确定了神经编程与干性或增殖中的任一者之间是否存在显著的统计学交互作用。在评定的统计模型之中,当基于以下生成了存活率预测时实现了最佳性能:
NEURO+STEMNESS+(NEURO*STEMNESS)
尽管干性和增殖两者都是CSS和DR的重要预后因素,但只有干性与神经编程具有显著的交互作用(图9B)。这表明低分化肿瘤在神经程序化状态下可能更具侵袭性。Kaplan-Meier曲线的视觉评定表明,事实上,低分化(高干性)NEP肿瘤在CSS和DR两者方面(干性和GO神经元两者评分的中位截止值)最具侵袭性。相比之下,高分化NEP肿瘤未显示出与非NEP肿瘤的明显的CSS或DR差异(图9B)。图9C示出了四个组群的Kaplan-Meier曲线(基于干性和神经相关性分开)。神经相关和高干性类别的组群与最差存活率曲线相关联,但其他三个组在统计学上不可区分。结果表明,神经表型仅与干性以外的受试者风险因素相关联。
V.D.实例4
收集了源自人类小细胞肺癌(SCLC)肿瘤的基因表达数据(如George等人,“Comprehensive Genomic Profiles of Small Cell Lung Cancer”Nature.2015年8月6日;524(7563):47-53中所描述的)。尽管SCLC肿瘤通常被认为是一种神经内分泌指示(并且因此为神经相关的),但基于样品的分层聚类(如根据分类技术实现的,该分类技术如由George等人,“Comprehensive Genomic Profiles of Small Cell Lung Cancer”Nature.2015年8月6日;524(7563):47-53所描述的),一小部分样品被认为是非神经内分泌的。因此,将第一“NE”组群的基因表达数据(与神经内分泌表征相关联)与第二“非NE”组群的基因表达数据(与非神经内分泌表征相关联)进行了比较。免疫细胞特性采集自CIBERSORT(Newman等人,“Robust enumeration of cell subsets from tissueexpression profiles”Nat Methods.2015年5月;12(5):453-7)并且包括CD8 T细胞、细胞溶解活性和活化树突状细胞的特性。I类抗原呈递特性采集自Senbabaoglu等人,“TumorImmune Microenvironment Characterization in Clear Cell Renal Cell CarcinomaIdentifies Prognostic and Immunotherapeutically Relevant Messenger RNASignatures”Genome Biol.2016年11月17日;17(1):231。通过以下操作执行了特性评分:1)计算遍及样品的每种基因的z评分,以及2)计算特性中遍及基因的z评分的平均值。该过程为每个样品产生评分。
NE和非NE组的评分示出在图10的顶行图表中。与神经内分泌组群相比,非神经内分泌组群的四种免疫细胞特性中的每种免疫细胞特性的值都更高。这些差异表明,与SCLC中的非神经内分泌亚型相比,SCLC的神经内分泌亚型的免疫浸润性很低。
对于每个标本而言,从George等人,2015中呈现的数据识别了体细胞突变和错义突变的数量。图10底行中的图表示出了每个组群的突变数量。神经内分泌组群的突变计数与非神经内分泌组群的那些突变计数相似。这种相似性表明,神经内分泌亚型中的低免疫浸润性不能用突变负荷来解释,因为就突变负荷而言,神经内分泌组群与非神经内分泌组群之间没有显著差异。
V.E.实例5
V.E.1.方法
V.E.1.a.分类器架构
使用从癌症基因组图谱(TCGA)批量RNA-Seq下载的数据集(可在https://gdc.cancer.gov/about-data/publications/pancanatlas处获取)训练了基于梯度推进机(GrBM)的分类器,称为NEPTUNE(神经程序化肿瘤预测引擎)以预测肿瘤是否为神经相关肿瘤。
阳性病例和阴性病例的选择:已知的阳性(即神经相关)病例包括来自CNS指示的样品,诸如胶质母细胞瘤(GBM,N=169)和低级别神经胶质瘤(LGG,N=534),以及来自神经内分泌指示嗜铬细胞瘤和副神经节瘤的样品(PCPG,N=184)。此外,已知的阳性病例还包括:来自TCGA胰腺癌组群的样品,这些样品随后从研究中被移除,因为它们显示出神经内分泌组织结构(PAAD,N=8);来自TCGA肺腺癌组群(LUAD)的样品,这些样品被注释为大细胞神经内分泌癌(LCNEC,N=14);以及来自TCGA肌肉浸润性膀胱癌组群的样品,发现这些样品形成基于基因表达的“神经元”亚型(如根据https://gdc.cancer.gov/about-data/publications/pancanatlas的方法识别的;BLCA,N=20)。已知的阳性样品的总数加起来为929。图3示出了阳性集合和阴性集合中的每个集合中所包含的肿瘤类型的分布。
对于所有指示而言的阴性(即非神经相关)病例都被包含在不是真正的神经内分泌或CNS指示的“阳性”集合中。因此,“阴性”集合包括:来自BLCA的样品,这些样品未被注释为神经内分泌或未发现处于基于基因表达的“神经元”亚型中(N=387);未被注释为神经内分泌的来自PAAD的样品(N=171);未被注释为LCNEC或未发现处于基于基因表达的“LCNEC相关联的”亚型中的来自LUAD的样品(N=427)。阴性病例的总数为985。(参见图3。)训练集中未使用补集。
预处理:已知的阳性病例和阴性病例统称为“学习集”(N=1914)。泛癌症无批效应的TCGA RNA-Seq数据集的预处理包括以下步骤:1)构造子集以保留仅学习集肿瘤样品,2)利用log2(x+1)进行对数变换,其中x为RSEM值,以及3)去除低表达基因(高表达被定义为在至少100个样品中经过对数变换的RSEM归一化的表达水平大于1)。这些步骤产生了18985种基因和1914个样品的数据矩阵。
训练和验证集拆分:然后将经过预处理的数据矩阵随机以75%至25%的份额分成训练和验证集(图3)。每个指示中阳性病例和阴性病例的分布保持在训练和验证集中。因此,训练和验证集中阳性病例的数量分别为:GBM为{127,42},LGG为{401,133},PCPG为{138,46},BLCA为{15,5},LUAD为{11,3},并且PAAD为{6,2}。训练和验证集中阴性病例的数量为:BLCA为{291,96},LUAD为{321,106},并且PAAD为{129,42}。
利用limma进行特征选择:接下来,在训练集中的阳性病例和阴性病例之间利用limma执行了差异表达测试,以便如基于p值秩所确定的来识别分类任务中最具区分性和非冗余的基因(图3)。对于该步骤未利用验证集。在limma线性模型中,每种基因都针对二元“神经表型”变量(阳性标记或阴性标记)以及用于控制指示特定表达模式的指示因数被回归。使用该处理方法计算了每种基因的差异表达的显著性水平,该处理方法采用具有最低log-FC要求的经过经验Bayes调节的t统计量。在18,985种基因中,1,969种基因(如前文关于图4讨论的判别式集)与小于0.1倍和1.5倍差值的经过调整的p值处的阳性病例和阴性病例之间的显著差值相关联(图3)。经过调整的p值和倍数变化阈值有目的地保持宽松,因为分析的目标是为训练步骤富集更多判别基因。NEPTUNE架构包含总共270种基因,这些基因列于上文表1中。
训练集评估:使用R中的插入符号平台和gbm**包开发了NEPTUNE分类器。
使用(“居中和缩放”)训练集评估了NEPTUNE分类器的性能。更具体地说,插入符号函数中的“居中和缩放”选项用于减去基因特定平均值并除以基因的标准偏差。输入被定义为经过对数变换的均方根误差(RSEM)值。使用网格搜索优化了超参数,并且针对网格中的每个点执行了5倍交叉验证,重复10次(总共运行50次)。在两种超参数上执行了网格搜索:1)范围为从50到500增量为50的n.trees(系综中树的数量),以及2)选自{1,3,5,7,9}的interaction.depth(树的复杂度)。另一方面,其他两种超参数,即收缩率(学习率)和n.minobsinnode(节点中开始拆分的训练集样品的最小数量)分别保持处于0.1和10的值不变,如插入符号包中所示。针对分类器优化的附加的超参数涉及使用原始“基因维度”和“主成分”(PCA)的选择。
因为所评定的问题是两类问题(NEP或非NEP),所以选择ROC下的面积(AUROC)作为性能度量。网格中每个点的AUROC是来自50次重采样运行的AUROC值的平均值。对于每次重采样运行,插入符号对NEPTUNE评分应用一系列截止值来预测类别。对于每个截止值,针对预测计算了敏感性和特异性,并且遍及不同的截止值生成了ROC曲线。梯形规则用于计算AUROC。
遍及不同的超参数值(树的数量、树的深度、“基因”或“PCA”维度),训练集中的NEPTUNE AUROC值均高于0.995。为了评估验证集的性能,选择了对应于最高AUROC(>0.995)的超参数值,并且评定了每个指示中的误判数量。
在BLCA和LUAD(不是真正的神经内分泌肿瘤或神经组织肿瘤的指示)中观察到指示特异性性能是可变的并且相对较差。因此,数据表明,利用交叉验证优化的模型对超参数的选择是稳健的。为了提高通用性,决定基于验证集的性能来选择最佳超参数值。有趣的是,作为具有5种随机选择的基因(从非判别基因中选择)的梯度推进架构的随机分类器在训练集中也具有很高的性能(AUROC值为约0.96)。然而,这种性能在验证集中被部分破坏,有44/475的错误预测(9.3%,基因维度),在非神经/非神经内分泌指示中的性能可能较差(BLCA中的错误预测为26/101,25.7%,基因维度)。验证集中随机分类器性能的下降证实了经过交叉验证的分类器可能容易过度拟合的先验证据。然而,随机分类器的这种仍然相对较高的性能表明,即使使用基因的判别集合的相对较小的子集,也可以相对准确地执行神经相关与非神经相关的分类任务。从生物学上讲,这可能源于这样一个事实,即从基因表达的角度来看,脑组织和血液是人体中的两个主要外群(因此很容易区分),并且许多不同的基因集合(即使具有相对较小的大小)可提供关于区分它们的信息。
验证集评定:为了提高NEPTUNE分类器的通用性,对验证集优化了超参数值。将网格搜索应用于超参数优化,其设定与交叉验证中所使用的设定相同(如上所述)。然而,F1评分被选为该步骤中的性能度量,以便能够同时评定精度和查全率。对于整个NEPTUNE网格而言F1评分超过0.98,表明分类器的一般性能对超参数的选择不敏感,再次潜在地指向生成准确分类的可及性。选择了树深度的高值以允许可能的非线性交互(interaction.depth=9),并且选择了树数量的低值以减少计算时间(n.trees=50)。然后通过使用这些超参数值将经过梯度推进的树模型拟合到学习集(训练集+验证集)“基因维度”来构建最终分类器。
计算平台:使用doParallel**包将训练运行并行化为R的5个副本,并且在高性能计算集群中执行了这些训练运行。
NEPTUNE与基于逻辑回归的分类器的比较:再次在R插入符号框架内使用glmnet包将NEPTUNE梯度推进模型与更简单的架构——经过L1惩罚的逻辑回归模型进行了比较。以与用于梯度推进模型的方式类似的方式执行了逻辑回归模型中的超参数优化。使用线性搜索来优化λ超参数。λ的可能值的范围为从0.001到0.1,增量为0.001,并且基于来自验证集的F1评分确定了最佳值为0.001。尽管逻辑回归分类器具有与NEPTUNE非常相似的性能,但NEPTUNE具有能够容忍缺失数据的优势。容忍缺失数据有利于NEPTUNE对看不见的数据集的可扩展性,因为利用来自RefSeq的Entrez Gene ID对NEPTUNE进行了训练,并且使用其他基因模型的数据集可能由于基因模型之间的不匹配而缺失数据。
V.E.2.结果
V.E.2.a.基于机器学习的分类器在识别NEP肿瘤方面比替代性方法表现更好。
高通量基因表达数据可用于在泛癌症组群中以多种方式调用神经相关肿瘤。这些方法随着复杂程度的提高包括:1)单独的神经元/神经内分泌标志物基因,2)神经元/神经内分泌特性,3)无监督的主成分分析,其中将基于与已知的神经相关肿瘤的接近程度来调用新的神经相关肿瘤,以及4)受监督的机器学习方法,其中对已知的神经相关肿瘤和非神经相关肿瘤进行训练的分类器将预测新的神经相关肿瘤。
在七个TCGA指示中测试了这四种方法的性能,这些指示具有基于组织病理学或基因表达的“神经元”或“神经内分泌”调用(在这种情况下两者均被视为神经相关的)。更具体地说,使用仅包含训练中所使用的高置信度调用的数据的超集评估了这四种方法的性能。基于组织病理学的神经相关肿瘤包括:中枢神经系统指示胶质母细胞瘤(GBM)和低级别胶质瘤(LGG);神经内分泌指示嗜铬细胞瘤/副神经节瘤(PCPG);可见于TCGA胰腺癌(PAAD)研究中的8种胰腺神经内分泌肿瘤(Pan-NET);来自肌肉浸润性膀胱癌(BLCA)研究的4个病例,经病理学重新审查发现这些病例具有小细胞/神经内分泌组织结构(PMID 28988769);以及来自肺腺癌研究的14个病例,发现这些病例与大细胞神经内分泌癌(LCNEC)具有相同的组织结构特征(PMC5344748)。基于基因表达的神经相关肿瘤包括来自以下各项的病例:在BLCA研究中发现的“神经元”亚型(PMID 28988769),以及在TCGA肺腺癌(LUAD)和肺鳞状细胞癌(LUSC)组群的联合分析中发现的LCNEC相关联的AD.1亚型(PMID 28988769)。大多数基于基因表达的神经相关肿瘤缺乏小细胞和神经内分泌组织结构。
选择了六种单独的神经元/神经内分泌标志物基因(ASCL1、MYT1、CHGA、SYP、TUBB2B、NES),并且将它们用于在这七个指示中识别神经相关肿瘤。非神经相关肿瘤中的最大基因表达水平未能成功区分神经相关(NEP)肿瘤和非神经相关(非NEP)肿瘤。(图11。)此外,神经相关肿瘤和非神经相关肿瘤中单个标志物的表达水平重叠的程度阻止了在这种方法中发现有效截止值。此外,与基于组织病理学的调用相比,基于基因表达的神经相关调用更难以使用单个标志物方法与非神经相关肿瘤区分开来,这可能是由于这样的事实,即它们的最初发现也依赖于多维聚类方法。
对于第二种方法,使用已公布的神经内分泌肿瘤(NET)(参见:Tsai等人,“GeneExpression Signatures of Neuroendocrine Prostate Cancer and Primary SmallCell Prostatic Carcinoma”BMC Cancer.2017年11月13日;17(1):759,对应于表5的第41行至第77行;以及Xu等人,“Pan-cancer transcriptome analysis reveals a geneexpression signature for the identification of tumor tissue origin”Mod Pathol.2016年6月;29(6):546-56,对应于表5的第78行至第86行)和神经元(The GeneOntology Consortium,2019;Jassal等人,“The Reactome Pathway Knowledgebase”Nucleic Acids Res.2020年1月8日;48(D1):D498-D503;Robertson等人,“ComprehensiveMolecular Characterization of Muscle-Invasive Bladder Cancer”Cell.2017年10月19日;171(3):540-556,对应于表5的第87行至第263行)基因特性以及表示NET IHC标志物的更简单的2基因特性(SYP&NCAM1)来识别神经相关肿瘤。
第二种方法的性能度量超过了单个标志物方法的那些性能度量:特别地,GO神经元特性能够以比其他测试的特性和单独的标志物更好的程度区分神经相关肿瘤与非神经相关肿瘤(图12)。然而,即使是这种特性也无法成功捕获LUAD组群中的LCNEC肿瘤或绝大多数基于基因表达的神经相关肿瘤。总体来说,没有任何测试的特性或标志物基因对神经相关肿瘤表现出足够的特异性。对于给定的特性和给定的癌症指示,可以设计最小化误判的截止值。然而,图11和图12表明任何截止值的有效性将仅限于少量指示;它不会推广到泛癌症环境。
作为第三种方法,主成分分析(PCA)——一种不受监督的降维方法——用于识别神经相关肿瘤的集群。第一主成分(PC1)能够分离大多数基于组织病理学的神经相关肿瘤,除了LCNEC肿瘤(图13A)。与GO神经元特性相似,PC1(以及较低的PC)未能将LCNEC和基于基因表达的神经相关肿瘤识别为单独的神经相关集群(图13A至B)。因此,数据表明单个标志物基因、神经元/神经内分泌特性或PCA方法都未能基于基因表达数据准确地预测肿瘤是否为神经相关的。
在使用NEPTUNE监督的方法的情况下,用于训练用例的阳性(NEP)和阴性(非NEP)标记的准确性决定了所得的分类器在看不见的数据集中的性能。因此,只有来自文献中的高置信度NEP调用被包含在训练集中。由于组织病理学是关于基因表达的一种正交证据,所有基于组织病理学的NEP调用都被视为具有高置信度。通过使用主成分分析来评定神经相关肿瘤与非神经相关肿瘤之间的分离,仔细检查了在BLCA、LUAD和LUSC研究中进行的基于基因表达的NEP调用。仅在BLCA研究中观察到基于基因表达的NEP肿瘤形成独特的集群直至低水平的混合物(图14)。因此,来自BLCA研究的基于基因表达的NEP肿瘤作为高置信度阳性病例被包含在训练集中,但来自LUAD和LUSC的基于基因表达的NEP肿瘤则被排除在外。因此,阳性集合包括六个指示(来自LUAD的GBM、LGG、PCPG、LCNEC,来自PAAD的PanNET,以及BLCA神经元),并且阴性集合包括来自LUAD、PAAD和BLCA的非神经相关样品,具有如图3所示的n值。
NEPTUNE模型是高度准确的分类器,在学习集中具有零假阳性和零假阴性(图15)。如上所述,NEPTUNE架构包含总共270种基因(表1),但这些基因中只有八种基因的重要性评分大于10(图16)。在NEP肿瘤中上调或下调的基因在前8种分类基因中均有发现(图16插图),其中上调的基因指示如所预期的神经元生物学(SV2A、NCAM1、RND2),并且下调的基因表明多种功能丧失,该多种功能包括细胞粘附(ITGB6)、细胞周期检查点和p53激活(SFN[a])。细胞周期检查点的丢失可以解释增殖表型,而先前单独增殖并不能预测免疫检查点阻断疗法的功效。
V.E.2.b.NEPTUNE发现的神经相关肿瘤是TCGA中已知肿瘤的两倍多
NEPTUNE模型用于处理来自TCGA保留样品的基因表达数据(未用于训练或验证)。被预测为神经相关的肿瘤在所有指示中都具有升高的神经元/神经内分泌特性水平(图17)。NEPTUNE模型预测以前不知道是神经相关的1129例具有这种分类。除了学习集中的929个阳性病例外,在TCGA中被预测为神经相关的肿瘤样品的总数为2058个(患病率19.9%)。2058例NEP肿瘤按癌症指示的分类显示,未治疗组群中NEP肿瘤在肾上腺皮质癌(ACC)、睾丸生殖细胞肿瘤(TGCT)、子宫癌肉瘤(UCS)、葡萄膜黑色素瘤(UVM)、肉瘤(SARC)、急性髓系淋巴瘤(LAML)和皮肤黑色素瘤(SKCM)中的患病率大于50%(图18)。
在训练NEPTUNE分类器时,与各个指示相关联的基因在特征选择步骤中被移除,以便找到代表泛癌症神经编程生物学的基因。然而,尚不确定阳性集合中GBM、LGG和PCPG样品的过度表示是否仍然使分类器偏向于调用CNS样肿瘤或PCPG样肿瘤。因此,将来自被预测为神经相关的保留集中的实例与来自被识别为神经相关的学习集中的实例进行了比较。在由NEPTUNE的270种基因构建的UMAP维度中,与CNS或神经内分泌指示相比,来自被预测为神经相关的保留集的肿瘤与来自BLCA和LCNEC的阳性训练例(图19)更相似。真正的CNS和神经内分泌指示(GBM、LGG、PCPG)形成了它们各自独立的集群。该数据表明NEPTUNE模型不偏向于单独的CNS和神经内分泌指示。
V.E.2.c.在多个指示中神经相关肿瘤在TCGA亚型中富集
潜在地,TCGA亚型中NEP肿瘤的富集提供了有关对神经编程很重要的生物过程和途径的信息。对被预测为神经相关的肿瘤执行了来自TCGAbiolinks的已公布的TCGA亚型注释以及无偏富集测试(Fisher精确测试)。这些肿瘤在多种亚型中显著富集,该多种亚型包括:1)卵巢癌中的“增殖”亚型,2)NSCLC中与吸烟相关联的“高颠倒”亚型,3)乳腺癌中的“基础”亚型,4)黑色素瘤中的“低MITF”亚型,5)所有肉瘤之中的滑膜肉瘤和平滑肌肉瘤,以及6)乳头状甲状腺癌(PTC)中的“滤泡”、“高甲基化”、“富含CNV”和“22q丢失”亚型(图20)。
所提到的PTC亚型主要来自更具侵袭性的“RAS样”亚型(而不是BRAFV600E样亚型)。黑色素瘤是另一种以RAS和BRAF突变亚型为主的癌症指示。与RAS-wt样品相比,(H/N/K)-RAS突变的样品在PTC和黑色素瘤中具有显著更高的NEPTUNE评分(图21)。PTC中的22q丢失亚型没有确定的驱动因素,并且在无偏分析中,观察到臂水平22q丢失事件在不仅来自PTC还来自卵巢(OV)、子宫内膜(UCEC)和肺鳞状细胞(LUSC)癌症的NEP肿瘤中富集。这一发现表明,22q丢失或神经编程可能在某些肿瘤中驱动另一个,或者可能有共同的上游驱动因素。
“低MITF”是黑色素瘤中低分化的亚型,因为MITF是该指示中的分化因子。鉴于观察到低MITF亚型中富集NEP肿瘤,从Tsoi等人(“Multi-stage Differential DefinesMelanoma Subtypes with Differential Vulnerability to Drug-Induced Iron-Dependent Oxidative Stress”Cancer Cell.2018年5月14日;33(5):890-904)获得了“未分化”、“神经嵴样”、“暂时性”和“黑素细胞”亚型注释。然后遍及这些亚型比较了的NEPTUNE评分。在黑色素瘤中,NEPTUNE模型调用了来自神经嵴样亚型的具有最高评分的样品,随后调用了来自未分化亚型的那些样品(图22)。这两种亚型也具有最高的干性评分,这表明NEPTUNE成功地调用了神经相关肿瘤,并且在一些指示中,神经相关生物学与干性表型具有共同的特征。
VI.示例性用例
图23说明了使用机器学习模型来识别组合规范的过程2300。在框2305处,访问训练基因表达数据集。训练基因表达数据集可包括数据元素的集合。对于基因的集合中的每种基因而言,每个数据元素可包括表达数据。每个数据元素还可包括或关联于特定的肿瘤类型(例如,关联于身体位置或系统)和/或细胞类型。
在框2310处,将训练基因表达数据集的集合中的每个数据元素分配给神经相关类别或非神经相关类别。该分配可以基于规则。例如,如果相关联的肿瘤数据指示肿瘤为脑肿瘤或神经内分泌肿瘤(例如,或与脑肿瘤和/或神经内分泌肿瘤的列表中的列表项相对应的任何肿瘤),则数据元素可被分配给神经相关类别,而在其他情况下数据元素可被分配给非神经相关类别。
在框2315处,使用训练数据来训练机器学习模型。机器学习模型可被配置成接收基因表达数据并输出肿瘤类别。训练机器学习模型可包括学习权重。在一些情况下,相对于每种基因而言,至少一个权重代表用于该基因的表达数据可预测肿瘤分类的程度。在一些情况下,没有单独对应于单种基因的权重并且/或者任何基因特异性权重都不代表用于该基因的表达数据可预测肿瘤分类的程度,因为(例如)存在属于该基因和其他基因的其他权重。
在框2320处,识别基因的集合的不完整子集。该子集中的每种基因可对应于这样的表达数据,对于该表达数据而言,该表达数据已被确定(基于机器学习模型的习得的参数数据和/或输出)为可提供关于肿瘤分类分配的信息(例如,神经相关或非神经相关)。在一些情况下,为基因的集合中的每种基因识别权重,并且该不完整子集可包括(并且/或者可被定义为)对于其而言权重超过绝对或相对阈值的那些基因(例如,以便识别与最高权重相关联的20种基因)。权重可包括机器学习模型的习得的参数(例如,与神经网络中节点之间的连接、特征向量中的权重等相关联)。在一些情况下,权重是基于实施解释技术来确定的,以便基于习得的参数发现基因的表达可预测标记分配的程度。
在框2325处,基于所识别的不完整子集(包括所识别的不完整子集中的一些或全部的标识)为肿瘤类型输出基因组合规范。基因组合规范可包括基因的子集中待包括在该组合中的每种基因的标识。基因组合规范可在本地呈现或传输到另一个计算机系统。因此,基因组合规范可用于设计这样的基因组合,该基因组合可用于相对于给定类型的肿瘤来区分神经相关肿瘤和非神经相关肿瘤(例如,对应于特定的器官、解剖位置、细胞类型等的肿瘤类型)。
因此,过程2300可生成可用于促进基因组合的设计的输出,该基因组合可用于确定给定受试者的肿瘤是神经相关的还是非神经相关的。可相应地设计基因组合,从而确定基因子集中的每种基因的表达水平。然后可使用相同的机器学习模型、不同的机器学习模型和/或不同的技术来评定表达水平,以确定肿瘤是否为神经相关的。
图24说明了使用机器学习模型来识别疗法候选项数据的过程2400。过程2400的框2405至2415与过程2300的框2305至2315并行。然而,在一些(但并非所有)情况下,该机器学习模型的配置与在框2415中训练的机器学习模型相比可聚焦于更小的基因集合。例如,该更小的基因集合可对应于已知处于给定基因组合中的基因,被识别为处于不完整子集内的基因(其中不完整子集包含可提供关于肿瘤类别的信息的基因)等。例如,机器学习模型最初可基于属于基因的集合的表达数据进行训练,基因的集合的子集可被识别为可提供关于肿瘤类别的信息,并且相同的机器学习模型或另一个机器学习模型然后可基于该基因集合的子集进行(重新)训练。例如,过程800的框805至820可首先用属于基因集合的训练数据来执行,并且框2405至2415或过程2400可随后用属于该基因集合的子集的训练数据来执行。
在框2420处,使用另一基因表达数据元素来执行经过训练的机器学习模型。该另一基因表达数据元素可包括与在框2405处访问的训练基因表达数据集中所表示的基因中的全部或一些基因相对于的表达数据。该另一基因表达数据元素可对应于患有肿瘤的特定受试者。执行的结果可包括(例如)肿瘤属于神经相关类别(或非神经相关类别)的概率、结果中的置信度和/或分类类别分配(例如,识别神经相关类别分配或非神经相关类别分配)。
在框2425处,基于机器学习结果确定将一线检查点阻断疗法识别为治疗候选项。检查点阻断疗法可包括通过干扰通常会限制T细胞反应性的抑制途径来放大T细胞效应功能的疗法。一线检查点阻断疗法可与化学疗法和/或放射疗法一起提供或代替化学疗法和/或放射疗法提供。
在一些情况下,框2425包括确定机器学习模型的结果包括或对应于对神经相关类别的分配,因为在生成了神经相关类别分配的情况下,检查点阻断疗法可被选择性地识别为一线疗法。在一些情况下,可执行机器学习结果的后处理以评定该结果和/或将该结果转换为类别分配。例如,如果结果表明这种类别分配的概率超过50%,则可分配给神经相关类别,否则可以分配给非神经相关类别。
图25说明了基于神经特性分析来识别疗法顺应性的过程2500。过程2500开始于框2505,在该框处,访问基因表达数据元素。基因表达数据元素对应于患有肿瘤的受试者。该肿瘤可以为非神经元肿瘤和非神经内分泌肿瘤。在一些情况下,该肿瘤为热型。基因表达数据元素可包括用于基因的集合中的每种基因的表达数据。
在框2510处,确定数据元素对应于神经元遗传特性。该确定可包括(例如)将部分或全部基因表达数据元素(或其经过处理的版本)输入到机器学习模型中。该确定可包括检测来自机器学习模型的输出对应于神经相关类别。该确定可基于将基因表达数据元素中的表达水平中的一个、多个或全部表达水平中的每个表达水平与阈值(例如,该阈值可以但不必针对不同的基因进行不同的设定)进行比较。习得的参数可指示就特定基因的表达水平而言,超过阈值是否表明肿瘤为神经相关的或非神经相关的。
在框2515处,识别不同于一线检查点阻断疗法的治疗方法(例如,其包括初始免疫抑制治疗和随后的检查点阻断疗法)。在框2520处,输出对治疗方法的顺应性的指示(例如,本地呈现或传输到另一个设备)。在一些情况下,还输出另一种治疗方法。例如,另一种治疗方法可包括化学疗法或放射疗法,而没有随后的检查点阻断疗法。在一些情况下,输出可指示一线检查点阻断疗法尚未被识别为候选治疗方法。
值得注意的是,对于数据元素对应于神经元遗传特性的确定(在框2510处)可基于与神经相关类别或非神经相关类别相关联的先前数据的评估来执行。因此,该确定可取决于新型的肿瘤分类。然而,分类不需要在肿瘤类型水平上进行。如上所述,已在通常不被识别为神经元肿瘤或神经内分泌肿瘤的肿瘤类型中识别出了表现出神经相关表型的肿瘤。换句话说,神经相关类别或非神经相关类别之间的分类与已知的分类(诸如基于肿瘤类型的那些分类)不匹配。例如,对于给定的肿瘤类型,该肿瘤类型的肿瘤对于一些受试者而言可能与的神经相关类别和/或神经元遗传特性相关联,但对于其他受试者而言,该肿瘤类型的肿瘤可能与非神经相关类别相关联并且/或者可能不与神经元遗传特性相关联。此外,分配给神经相关类别(相比非神经相关类别)和/或被确定为对应于神经元遗传特性的肿瘤可包括冷肿瘤和热肿瘤,并且/或者分配给非神经相关类别和/或被确定为不对应于神经元遗传特性的肿瘤可包括冷肿瘤和热肿瘤。
此外,过程2500表明,相对于既不是脑肿瘤也不是神经内分泌肿瘤的肿瘤,该肿瘤被识别为对应于神经元遗传特性,并且然后基于该特性来选择疗法。因此,通常可能不用于给定肿瘤类型(例如,对应于与肿瘤相关联的位置或系统的类型)的疗法可由于该特性而被识别为选项。
VII.示例性实施例
第一示例性实施例包括一种用于识别用于评定检查点阻断疗法顺应性的基因组合的计算机实现方法,其包括:访问包括一个或多个训练基因表达数据元素的训练基因表达数据的集合,每个训练基因表达数据元素对应于相应受试者,其中每个训练基因表达数据元素包括用于在从所述相应受试者收集的样品中测量的基因的集合中的每种基因的表达度量;将训练基因表达数据元素的集合中的每个训练基因表达数据元素分配给肿瘤类型类别,其中所述分配包括:将所述训练基因表达数据元素的集合的第一子集中的每个训练基因表达数据元素分配给第一肿瘤类别,其中所述第一子集包括对于其而言肿瘤为神经元肿瘤的训练基因表达数据元素;以及将所述训练基因表达数据元素的集合的第二子集中的每个训练基因表达数据元素分配给第二肿瘤类别,其中对于所述第二子集中的每个训练基因表达数据元素而言,所述肿瘤为非神经元和非神经内分泌肿瘤;使用所述训练基因表达数据元素的集合和肿瘤类别分配来训练机器学习模型,其中训练所述机器学习模型包括学习参数的集合;基于习得的参数的集合,识别所述基因的集合的不完整子集,其中用于所述不完整子集中的基因的表达度量提供关于肿瘤类别分配的信息;以及输出用于评定检查点阻断疗法顺应性的基因组合的规范,所述规范识别所述不完整子集中所表示的每种基因。
第二示例性实施例包括第一示例性实施例,其中在所述第一子集中所表示的至少一个神经元肿瘤中的每个神经元肿瘤为脑肿瘤。
第三示例性实施例包括第一或第二示例性实施例,其中所述第一子集不包括对于其而言所述肿瘤为非神经元和非神经内分泌肿瘤的训练基因表达数据元素。
第四示例性实施例包括前述示例性实施例中的任一示例性实施例,其中所述基因组合的规范对应于以下推荐:所述不完整子集中的每种基因都被包括在所述基因组合中,并且在所述基因的集合中但不在所述不完整子集中的每种基因都未被包括在所述基因组合中。
第五示例性实施例包括前述示例性实施例中的任一示例性实施例,其中所述第一子集包括对于其而言所述肿瘤为神经内分泌肿瘤的附加的训练基因表达数据元素,所述神经内分泌肿瘤为从神经内分泌系统或神经系统的细胞发展而来的肿瘤,并且/或者所述神经内分泌肿瘤为已使用组织病理学测试或基于表达的测试被指定为神经内分泌亚型的肿瘤。
第六示例性实施例包括前述示例性实施例中的任一示例性实施例,其中对于所述第二子集的每个训练基因表达数据元素而言,所述肿瘤为源自相应类型的器官或组织的非神经元和非神经内分泌肿瘤,并且所述第一子集中的至少一个训练基因表达数据元素是对于其而言所述肿瘤为源自相同的相应类型的器官或组织的神经内分泌肿瘤的基因表达数据元素。
第七示例性实施例包括前述示例性实施例中的任一示例性实施例,其中训练所述机器学习模型包括:对于所述基因的集合中的每种基因而言,识别第一表达度量统计量,所述第一表达度量统计量指示所述基因在对应于所述第一肿瘤类别的细胞中被表达的程度;以及识别第二表达度量统计量,所述第二表达度量统计量指示所述基因在对应于所述第二肿瘤类别的细胞中被表达的程度,并且其中对于所述不完整子集中的每种基因而言,所述第一表达度量统计量与所述第二表达度量统计量之间的差值超过预定义的阈值。
在一些实施例中,第一表达度量统计量与第二表达度量统计量之间的差值为第一肿瘤类别中的基因表达数据元素中的基因的表达与第二肿瘤类别中的基因表达数据元素中的基因的表达之间的倍数变化估计值,或者为从所述倍数变化估计值得出的值(诸如,例如,通过对数变换得出)。
在一些实施例中,第一表达度量统计量和/或第二表达度量统计量为样品或样品集合中的基因的一个或多个转录物的丰度的估计值。
第八示例性实施例包括前述示例性实施例中的任一示例性实施例,其中训练所述机器学习模型包括:学习用于一个或多个决策树中的一个或多个分支的条件的集合,并且其中基于对所述条件的集合的评估来识别所述不完整子集。
第九示例性实施例包括第一至第七示例性实施例中的任一示例性实施例,其中训练所述机器学习模型包括学习权重的集合,并且其中基于所述权重的集合来识别所述不完整子集。
第十示例性实施例包括第一至第七示例性实施例中的任一示例性实施例,其中所述机器学习模型使用分类技术,并且其中所述习得的参数对应于超平面的定义。
第十一示例性实施例包括第一至第八示例性实施例中的任一示例性实施例,其中所述机器学习模型包括梯度推进机。
第十二示例性实施例包括第一至第十一示例性实施例中的任一示例性实施例,其还包括:接收第一基因表达数据元素,所述第一基因表达数据元素识别针对第一受试者确定时的所述基因组合的结果中所表示的用于基因的表达度量;基于所述第一基因表达数据元素来确定第一肿瘤对应于所述第一肿瘤类别;输出将组合疗法识别为用于所述第一受试者的疗法候选项的第一输出,所述组合疗法包括初始化学疗法和随后的检查点阻断疗法;接收第二基因表达数据元素,所述第二基因表达数据元素识别针对第二受试者确定时的所述基因组合的结果中所表示的用于基因的表达度量;基于所述第二基因表达数据元素来确定第二肿瘤对应于所述第二肿瘤类别,其中所述第一肿瘤和所述第二肿瘤中的每一者被识别为非神经元和非神经内分泌肿瘤并且被识别为对应于相同类型的器官;以及输出将一线检查点阻断疗法识别为用于所述第二受试者的疗法候选项的第二输出。
在一些实施例中,该方法包括:将候选基因的集合识别为该基因的集合中的对于其而言第一表达度量统计量与第二表达度量统计量之间的差值超过预定义的阈值的基因,并且训练机器学习模型包括使用已识别的候选基因的集合来训练机器学习模型。
在一些实施例中,候选基因的集合包括该基因的集合中的对于其而言第一表达度量统计量与第二表达度量统计量之间的差值超过预定义的阈值的基因,并且该差值的统计显著性的估计值满足另外的标准。例如,统计显著性的估计值可以为p值或经过调整的p值,并且该另外的标准可以为(经过调整的)p值低于预定义的阈值。
在一些实施例中,训练机器学习模型包括:学习用于一个或多个决策树中的一个或多个分支的条件的集合,并且其中基于对该条件的集合的评估来识别不完整子集。
在一些实施例中,机器学习模型是神经网络、支持向量机、决策树或决策树系综,诸如梯度推进机。
第十三示例性实施例包括一种用于评定患有肿瘤的一个或多个受试者的检查点阻断疗法顺应性的计算机实现方法,所述方法包括:使用根据第一至第十一示例性实施例中的任一示例性实施例所述的方法来识别用于评定检查点阻断疗法顺应性的基因组合;接收基因表达数据元素,所述基因表达数据元素包括用于在从患有肿瘤的受试者收集的样品中测量的基因的集合中的每种基因的表达度量,其中所述基因的集合包括所述基因组合;基于所述基因表达数据来确定所述肿瘤属于第一肿瘤类别还是属于第二肿瘤类别,其中所述确定包括:确定用于所述基因组合中的基因的表达量度更接近于所述第一肿瘤类别中的肿瘤的表达量度还是更接近于所述第二肿瘤类别中的肿瘤的表达量度;以及如果确定所述肿瘤属于所述第一肿瘤类别,则将组合疗法识别为疗法候选项,并且/或者如果确定所述肿瘤属于所述第二肿瘤类别,则将一线检查点阻断疗法识别为疗法候选项,所述组合疗法包括初始化学疗法和随后的检查点阻断疗法。
第十四示例性实施例包括第十三示例性实施例并且还包括输出已识别的候选疗法。
第十五示例性实施例包括第十三或第十四示例性实施例并且还包括重复以下操作:接收第二基因表达数据元素、用所述第二基因表达数据元素进行确定和识别,其中所述第一肿瘤和所述第二肿瘤中的每一者被识别为非神经元和非神经内分泌肿瘤,并且其中所述第一肿瘤和所述第二肿瘤中的每一者被识别为相同类型的器官中的肿瘤。
在实施例中,该类型的器官为肺、膀胱或胰腺。
第十六示例性实施例包括一种用于识别患有肿瘤的受试者的疗法候选项的计算机实现方法,所述方法包括:访问已通过执行操作的集合而被训练的机器学习模型,包括:访问包括一个或多个训练基因表达数据元素的训练基因表达数据的集合,每个训练基因表达数据元素对应于相应受试者,其中每个训练基因表达数据元素包括用于在从所述相应受试者收集的样品中测量的基因的集合中的每种基因的表达度量;将训练基因表达数据元素的集合中的每个训练基因表达数据元素分配给肿瘤类型类别,其中所述分配包括:将所述训练基因表达数据元素的集合的第一子集中的每个训练基因表达数据元素分配给第一肿瘤类别,其中所述第一子集包括对于其而言肿瘤为神经元肿瘤的训练基因表达数据元素;以及将所述训练基因表达数据元素的集合的第二子集中的每个训练基因表达数据元素分配给第二肿瘤类别,其中对于所述第二子集中的每个训练基因表达数据元素而言,所述肿瘤为非神经元和非神经内分泌肿瘤;以及使用所述训练基因表达数据元素的集合和肿瘤类别分配来训练机器学习模型,其中训练所述机器学习模型包括学习参数的集合;访问已基于与另一受试者相关联的肿瘤的活组织检查而生成的另一基因表达数据元素,所述另一基因表达数据元素包括用于在另一样品中测量的基因组中的至少一些基因中的每种基因的另一表达度量;使用经过训练的机器学习模型和所述另一基因表达数据元素生成指示其他肿瘤属于所述第二肿瘤类别类型的结果;以及响应于所述结果,输出将一线检查点阻断疗法识别为疗法候选项的输出。
在一些实施例中,训练机器学习模型包括:学习用于一个或多个决策树中的一个或多个分支的条件的集合,并且其中基于对该条件的集合的评估来识别不完整子集。
在一些实施例中,机器学习模型是神经网络、支持向量机、决策树或决策树系综,诸如梯度推进机。
第十七示例性实施例包括第十六示例性实施例,其中在所述第一子集中所表示的每个神经元肿瘤为脑肿瘤。
第十八示例性实施例包括第十六或第十七示例性实施例,其中所述第一子集不包括对于其而言所述肿瘤为非神经元和非神经内分泌肿瘤的训练基因表达数据元素。
第十九示例性实施例包括第十六至第十八示例性实施例中的任一示例性实施例,其中所述基因的集合的不完整子集基于习得的参数的集合而被识别为提供关于肿瘤类别分配的信息,并且其中所述基因的集合中的至少一些基因包括所述基因的集合的所述不完整子集而不包括所述基因的集合中不在所述不完整子集中的其他基因。
第二十示例性实施例包括第十六至第十九示例性实施例中的任一示例性实施例,其中所述第一子集包括对于其而言所述肿瘤为神经内分泌肿瘤的附加的训练基因表达数据元素,所述神经内分泌肿瘤为从神经内分泌系统或神经系统的细胞发展而来的肿瘤,并且/或者所述神经内分泌肿瘤为已使用组织病理学测试或基于表达的测试被指定为神经内分泌亚型的肿瘤。
第二十一示例性实施例包括第十六至第二十示例性实施例中的任一示例性实施例,其中对于所述第二子集的每个训练基因表达数据元素而言,所述肿瘤为源自相应类型的器官或组织的非神经元和非神经内分泌肿瘤,并且所述第一子集中的至少一个训练基因表达数据元素是对于其而言所述肿瘤为源自相同的相应类型的器官或组织的神经内分泌肿瘤的基因表达数据元素。
第二十二示例性实施例包括第十六至二十一示例性实施例中的任一示例性实施例,其中所述机器学习模型包括梯度推进机。
第二十三示例性实施例包括第十六至第二十二示例性实施例中的任一示例性实施例,其中所述机器学习模型包括一个或多个决策树。
第二十四示例性实施例包括第十六至第二十三示例性实施例中的任一示例性实施例,其中所述另一肿瘤为黑色素瘤肿瘤。
第二十五示例性实施例包括第十六至第二十四示例性实施例中的任一示例性实施例,其还包括:访问已基于附加的肿瘤的附加的活组织检查而生成的附加的基因表达数据元素,所述附加的肿瘤关联于与所述另一肿瘤相同的解剖位置,所述附加的肿瘤关联于与所述另一受试者不同的附加的受试者;使用所述经过训练的机器学习模型和所述附加的基因表达数据元素来生成附加的结果,所述附加的结果指示所述附加的肿瘤属于所述第一肿瘤类别类型;以及如果所述经过训练的机器学习模型将所述另一受试者的肿瘤分类为所述第一肿瘤类别,则将除一线检查点阻断疗法之外的疗法识别为所述附加的受试者的疗法候选项。
第二十六示例性实施例包括第二十五示例性实施例,其中其他疗法包括组合疗法,所述组合疗法包括一线化学疗法和随后的检查点阻断疗法。
第二十七示例性实施例包括第二十四或第二十六示例性实施例,其中所述附加的肿瘤为非神经元和非神经内分泌肿瘤。
第二十八示例性实施例包括一种用于识别用于患有肿瘤的受试者的候选疗法的计算机实现方法,其包括:访问基因表达数据元素,所述基因表达数据元素包括用于在从所述受试者收集的样品中测量的基因的集合中的每种基因的表达度量;确定所述基因表达数据元素对应于神经元遗传特性;确定包括初始化学疗法治疗和随后的检查点阻断疗法的治疗方法;以及输出表明所述受试者顺应所述治疗方法的指示。
第二十九示例性实施例包括第二十六至第二十八示例性实施例中的任一示例性实施例,其中确定所述基因表达数据元素对应于神经元遗传特性包括:将所述基因表达数据元素在包括具有神经元特性的肿瘤的第一类别和包括不具有所述神经元特性的肿瘤的第二类别之间进行分类,其中所述第一类别和所述第二类别中的肿瘤具有至少一种基因的不同的表达。
第三十示例性实施例包括一种用于识别用于患有肿瘤的受试者的候选疗法的计算机实现方法,其包括:访问基因表达数据元素,所述基因表达数据元素包括用于在从所述受试者收集的样品中测量的基因的集合中的每种基因的表达度量;确定所述基因表达数据元素不对应于神经元遗传特性;识别包括初始使用检查点阻断疗法的治疗方法;以及输出表明所述受试者顺应所述治疗方法的指示。
第三十一示例性实施例包括第三十示例性实施例,其中所述治疗方法不包括使用化学疗法。
第三十二示例性实施例包括第三十或第三十一示例性实施例,其中确定所述基因表达数据元素对应于神经元遗传特性包括:将所述基因表达数据元素在包括具有神经元特性的肿瘤的第一类别和包括不具有所述神经元特性的肿瘤的第二类别之间进行分类,其中所述第一类别和所述第二类别中的肿瘤具有至少一种基因的不同的表达。
第三十三示例性实施例包括第二十八至第三十二示例性实施例中的任一示例性实施例,其还包括:通过使用训练数据集训练分类算法来确定所述神经元遗传特性,所述训练数据集包括:训练基因表达数据元素的集合,所述训练基因表达数据元素的集合中的每个训练基因表达数据元素对于至少多种基因中的每种基因而言指示对应于所述基因的表达度量;以及标记这样的数据:所述数据将所述训练基因表达数据元素的集合的第一子集与第一标记相关联,所述第一标记指示具有神经元性质的肿瘤;并且所述数据将所述训练基因表达数据元素的集合的第二子集与第二标记相关联,所述第二标记指示不具有所述神经元性质的肿瘤。
第三十四示例性实施例包括第二十八至第三十三示例性实施例中的任一示例性实施例,其中所述基因的集合包括至少一种选自以下各项中的基因:SV2A、NCAM1、ITGB6、SH2D3A、TACSTD2、C29orf33、SFN、RND2、PHLDA3、OTX2、TBC1D2、C3orf52、ANXA11、MSI1、TET1、HSH2D、C6orf132、RCOR2、CFLAR、IL4R、SHISA7、DTX2、UNC93B1和FLNB。
第三十五示例性实施例包括第二十八至第三十三示例性实施例中的任一示例性实施例,其中所述基因的集合包括至少五种选自以下各项中的基因:SV2A、NCAM1、ITGB6、SH2D3A、TACSTD2、C29orf33、SFN、RND2、PHLDA3、OTX2、TBC1D2、C3orf52、ANXA11、MSI1、TET1、HSH2D、C6orf132、RCOR2、CFLAR、IL4R、SHISA7、DTX2、UNC93B1和FLNB。
第三十六示例性实施例包括一种用于检测指示肿瘤是否为神经相关的基因表达的试剂盒,所述试剂盒包括引物的集合,其中所述引物的集合中的每个引物特异性结合至表1中列出的基因,并且其中所述引物的集合包括至少5个引物。
第三十七示例性实施例包括第三十六示例性实施例,其中所述引物的集合用于基于来自机器学习模型的输出来指示肿瘤是否为神经相关,所述来自机器学习模型的输出是基于包括与一种或多种基因相对应的表达数据的输入数据集而生成的。
第三十八示例性实施例包括第三十六示例性实施例,其中所述引物的集合用于基于来自机器学习模型的输出来指示肿瘤是否为神经相关,所述机器学习模型被训练为区分与非神经相关的肿瘤类型的细胞中的多种基因的表达水平相比的神经相关的肿瘤类型的细胞中的多种基因的表达水平。
第三十九示例性实施例包括第三十六至第三十八示例性实施例中的任一示例性实施例,其中所述引物的集合包括:上游引物,所述上游引物靶向位于所述基因的集合中的基因的上游的序列;以及一个或多个下游引物,所述一个或多个下游引物靶向所述基因的集合中的基因的下游的其他序列。扩增可包括整个基因。
第四十示例性实施例包括第三十六至第三十九示例性实施例中的任一示例性实施例,其中所述引物的集合包括靶向至少10种基因的引物。
第四十一示例性实施例包括第三十六至第四十示例性实施例中的任一示例性实施例,其中所述引物的集合包括靶向至少20种基因的引物。
第四十二示例性实施例包括第三十六至第四十一示例性实施例中的任一示例性实施例,其中对于所述引物的集合中的每个引物而言,所述引物与之结合的基因与表1中5.0以上的权重相关联。
第四十三示例性实施例包括第三十六至第四十一示例性实施例中的任一示例性实施例,其中对于所述引物的集合中的每个引物而言,所述引物与之结合的基因与表1中1.0以上的权重相关联。
第四十四示例性实施例包括第三十六至第四十一示例性实施例中的任一示例性实施例,其中对于所述引物的集合中的每个引物而言,所述引物与之结合的基因与表1中0.5以上的权重相关联。
第四十五示例性实施例包括一种系统,其包括:如第三十六至第四十四示例性实施例中的任一示例性实施例中所定义的试剂盒,以及包含指令的计算机可读介质,所述指令在由至少一个处理器执行时使所述处理器实施根据第一至第二十五示例性实施例中的任一示例性实施例所述的方法。
第四十六示例性实施例包括一种用于预测患有一种或多种肿瘤的个体是否可能受益于包含增强免疫细胞活性的药剂的治疗的方法,所述方法包括:测量先前已从所述个体获得的肿瘤样品中在表2中列出的一种或多种基因中的每种基因的表达水平,以及使用所述一种或多种基因的表达水平来预测所述个体是否可能受益于包含增强免疫细胞活性的所述药剂的治疗。
第四十七示例性实施例包括第四十六示例性实施例,其中使用所述一种或多种基因的表达水平来识别所述个体是否为能够受益于包含增强免疫细胞活性的所述药剂的治疗的个体包括:将所述肿瘤在以下两者之间进行分类:第一类别,所述第一类别包括预期不会受益于包含增强免疫细胞活性的所述药剂的治疗的肿瘤;以及第二类别,所述第二类别包括预期会受益于包含增强免疫细胞活性的所述药剂的治疗的肿瘤,其中所述第一类别和所述第二类别中的肿瘤在所述一种或多种基因的表达方面不同。
第四十八示例性实施例包括第四十六或第四十七示例性实施例,其中表2中列出的所述一种或多种基因包括表2中列出的5种或更多种基因。
第四十九示例性实施例包括第四十六或第四十七示例性实施例,其中表2中列出的所述一种或多种基因包括表2中列出的10种或更多种基因。
第五十示例性实施例包括第四十六或第四十七示例性实施例,其中表2中列出的所述一种或多种基因包括表3中列出的1种或多种基因。
第五十一示例性实施例包括第四十六或第四十七示例性实施例,其中表2中列出的所述一种或多种基因包括表3中列出的5种或更多种基因。
第五十二示例性实施例包括第四十六或第四十七示例性实施例,其中表2中列出的所述一种或多种基因包括表3中列出的10种或更多种基因。
第五十三示例性实施例包括第四十六或第四十七示例性实施例,其中表2中列出的所述一种或多种基因包括表4中列出的1种或多种基因。
第五十四示例性实施例包括第四十六或第四十七示例性实施例,其中表2中列出的所述一种或多种基因包括表4中列出的5种或更多种基因。
第五十五示例性实施例包括第四十六或第四十七示例性实施例,其中表2中列出的所述一种或多种基因包括表4中列出的10种或更多种基因。
第五十六示例性实施例包括第四十六至第五十五示例性实施例中的任一示例性实施例,其中包含增强免疫细胞活性的所述药剂的治疗包括免疫阻断疗法。
第五十七示例性实施例包括第四十六至第五十六示例性实施例中的任一示例性实施例,其中已处理所述一种或多种基因的表达水平的经过训练的机器学习模型提供了将所述一种或多种肿瘤表征为非神经相关的分类结果,并且其中基于所述分类结果预测所述个体为可能受益于所述治疗的个体。
第五十八示例性实施例包括第四十六至第五十七示例性实施例中的任一示例性实施例,其中识别所述个体是否为能够受益于包含增强免疫细胞活性的所述药剂的治疗的个体包括使用机器学习模型,所述机器学习模型已被训练为将肿瘤在包括神经相关的肿瘤的第一类别与包括非神经相关的肿瘤的第二类别之间进行分类,其中预期与所述第二类别中的其他肿瘤相比,利用包含增强免疫细胞活性的所述药剂的治疗不会更有效地治疗所述第一类别中的肿瘤。
第五十九示例性实施例包括第五十八示例性实施例,其中已使用如第一至第十一示例性实施例中的任一示例性实施例所述的方法训练所述机器学习模型。
第六十示例性实施例包括一种用于选择免疫阻断疗法作为对患有一种或多种肿瘤的个体的治疗的方法,所述方法包括:测量来自所述个体的肿瘤样品中在表2中列出的一种或多种基因中的每种基因的表达水平,以及使用所述一种或多种基因的表达水平来预测所述个体可能受益于包含所述免疫阻断疗法的治疗。
第六十一示例性实施例包括第六十示例性实施例,其中表2中列出的所述一种或多种基因包括表2中列出的5种或更多种基因。
第六十二示例性实施例包括第六十示例性实施例,其中表2中列出的所述一种或多种基因包括表2中列出的10种或更多种基因。
第六十三示例性实施例包括第六十示例性实施例,其中表2中列出的所述一种或多种基因包括表3中列出的1种或多种基因。
第六十四示例性实施例包括第六十示例性实施例,其中表2中列出的所述一种或多种基因包括表3中列出的5种或更多种基因。
第六十五示例性实施例包括第六十示例性实施例,其中表2中列出的所述一种或多种基因包括表3中列出的10种或更多种基因。
第六十六示例性实施例包括第六十示例性实施例,其中表2中列出的所述一种或多种基因包括表4中列出的1种或多种基因。
第六十七示例性实施例包括第六十示例性实施例,其中表2中列出的所述一种或多种基因包括表4中列出的5种或更多种基因。
第六十八示例性实施例包括第六十示例性实施例,其中表2中列出的所述一种或多种基因包括表4中列出的10种或更多种基因。
第六十九示例性实施例包括第六十至第六十八示例性实施例中的任一示例性实施例,其中已处理所述一种或多种基因的表达水平的经过训练的机器学习模型提供了将所述一种或多种肿瘤表征为非神经相关的分类结果,并且其中基于所述分类结果识别所述个体为能够受益于所述治疗的个体。
第七十示例性实施例包括一种治疗患有癌症的个体的方法,所述方法包括:(a)测量先前已从个体获得的肿瘤样品中在表2中列出的一种或多种基因中的每种基因的表达水平;(b)使用所述一种或多种基因的表达水平将所述肿瘤分类为非神经相关的;以及(c)对所述个体施用有效量的检查点阻断疗法。
第七十一示例性实施例包括第七十示例性实施例,其中表2中列出的所述一种或多种基因包括表2中列出的5种或更多种基因。
第七十二示例性实施例包括第七十示例性实施例,其中表2中列出的所述一种或多种基因包括表2中列出的10种或更多种基因。
第七十三示例性实施例包括第七十示例性实施例,其中表2中列出的所述一种或多种基因包括表3中列出的1种或多种基因。
第七十四示例性实施例包括第七十示例性实施例,其中表2中列出的所述一种或多种基因包括表3中列出的5种或更多种基因。
第七十五示例性实施例包括第七十示例性实施例,其中表2中列出的所述一种或多种基因包括表3中列出的10种或更多种基因。
第七十六示例性实施例包括第七十示例性实施例,其中表2中列出的所述一种或多种基因包括表4中列出的1种或多种基因。
第七十七示例性实施例包括第七十示例性实施例,其中表2中列出的所述一种或多种基因包括表4中列出的5种或更多种基因。
第七十八示例性实施例包括第七十示例性实施例,其中表2中列出的所述一种或多种基因包括表4中列出的10种或更多种基因。
第七十九示例性实施例包括第七十至第七十八示例性实施例中的任一示例性实施例,其中基于由已处理所述一种或多种基因的表达水平的经过训练的机器学习模型生成的结果,所述一种或多种基因的表达水平被确定为指示所述个体的所述一种或多种肿瘤为非神经相关的。
第八十示例性实施例包括一种用于在治疗患有癌症的个体的方法中使用的检查点阻断疗法,所述方法包括:(a)测量先前已从个体获得的肿瘤样品中在表2中列出的一种或多种基因中的每种基因的表达水平;(b)使用所述一种或多种基因的表达水平将所述肿瘤分类为非神经相关的;以及(c)对所述个体施用有效量的检查点阻断疗法。
第八十一示例性实施例包括第八十示例性实施例,其中表2中列出的所述一种或多种基因包括表2中列出的5种或更多种基因。
第八十二示例性实施例包括第八十示例性实施例,其中表2中列出的所述一种或多种基因包括表2中列出的10种或更多种基因。
第八十三示例性实施例包括第八十示例性实施例,其中表2中列出的所述一种或多种基因包括表3中列出的1种或多种基因。
第八十四示例性实施例包括第八十示例性实施例,其中表2中列出的所述一种或多种基因包括表3中列出的5种或更多种基因。
第八十五示例性实施例包括第八十示例性实施例,其中表2中列出的所述一种或多种基因包括表3中列出的10种或更多种基因。
第八十六示例性实施例包括第八十示例性实施例,其中表2中列出的所述一种或多种基因包括表4中列出的1种或多种基因。
第八十七示例性实施例包括第八十示例性实施例,其中表2中列出的所述一种或多种基因包括表4中列出的5种或更多种基因。
第八十八示例性实施例包括第八十示例性实施例,其中表2中列出的所述一种或多种基因包括表4中列出的10种或更多种基因。
第八十九示例性实施例包括第八十至第八十八示例性实施例中的任一示例性实施例,其中基于由已处理所述一种或多种基因的表达水平的经过训练的机器学习模型生成的结果,所述一种或多种基因的表达水平被确定为指示所述个体的所述一种或多种肿瘤为非神经相关的。
第九十示例性实施例包括一种治疗患有癌症的个体的方法,所述方法包括向所述个体施用有效量的增强免疫细胞活性的药剂,其中已确定来自所述个体的样品中在表2中列出的一种或多种基因的水平对应于非神经相关的分类。
第九十一示例性实施例包括第九十示例性实施例,其中表2中列出的所述一种或多种基因包括表2中列出的5种或更多种基因。
第九十二示例性实施例包括第九十示例性实施例,其中表2中列出的所述一种或多种基因包括表2中列出的10种或更多种基因。
第九十三示例性实施例包括第九十示例性实施例,其中表2中列出的所述一种或多种基因包括表3中列出的1种或多种基因。
第九十四示例性实施例包括第九十示例性实施例,其中表2中列出的所述一种或多种基因包括表3中列出的5种或更多种基因。
第九十五示例性实施例包括第九十示例性实施例,其中表2中列出的所述一种或多种基因包括表3中列出的10种或更多种基因。
第九十六示例性实施例包括第九十示例性实施例,其中表2中列出的所述一种或多种基因包括表4中列出的1种或多种基因。
第九十七示例性实施例包括第九十示例性实施例,其中表2中列出的所述一种或多种基因包括表4中列出的5种或更多种基因。
第九十八示例性实施例包括第九十示例性实施例,其中表2中列出的所述一种或多种基因包括表4中列出的10种或更多种基因。
第九十九示例性实施例包括第九十至第九十八示例性实施例中的任一示例性实施例,其中基于由已处理所述一种或多种基因的表达水平的经过训练的机器学习模型生成的结果,所述一种或多种基因的表达水平被确定为指示所述个体的所述一种或多种肿瘤为非神经相关的。
第一百示例性实施例包括一种系统,其包括:一个或多个数据处理器;以及非暂态计算机可读存储介质,所述非暂态计算机可读存储介质包含指令,所述指令在所述一个或多个数据处理器上被执行时,使所述一个或多个数据处理器执行本文公开的一种或多种方法的一部分或全部。
第一百零一示例性实施例包括一种系统,其包括:一个或多个数据处理器;以及非暂态计算机可读存储介质,所述非暂态计算机可读存储介质包含指令,所述指令在所述一个或多个数据处理器上被执行时,使所述一个或多个数据处理器执行第一至第三十五、第四十六至第七十九和第九十至第九十九示例性实施例中的任一示例性实施例的一部分或全部。
第一百零二示例性实施例包括一种有形地体现在非暂态机器可读存储介质中的计算机程序产品,其包含指令,所述指令被配置成使一个或多个数据处理器执行本文公开的一种或多种方法的一部分或全部。
第一百零三示例性实施例包括一种有形地体现在非暂态机器可读存储介质中的计算机程序产品,其包含指令,所述指令被配置成使一个或多个数据处理器执行第一至第三十五、第四十六至第七十九和第九十至第九十九示例性实施例中的任一示例性实施例的一部分或全部。
VIII.附加考虑
本公开的一些实施例包括一种系统,其包括一个或多个数据处理器。在一些实施例中,所述系统包括非暂态计算机可读存储介质,其包含指令,所述指令当在所述一个或多个数据处理器上执行时,促使所述一个或多个数据处理器执行本文所公开的一种或多种方法的一部分或全部以及/或者一种或多种过程的一部分或全部。本公开的一些实施例包括有形地体现在非暂态机器可读存储介质中的计算机程序产品,其包括被配置成促使一个或多个数据处理器执行本文所公开的一种或多种方法的一部分或全部以及/或者一种或多种过程的一部分或全部的指令。
已采用的术语和表达被用作描述性而非限制性的术语,并且在使用这些术语和表达时,无意排除所示出和描述的特征或其部分的任何等同物,但是应当认识到,在所要求保护的本发明的范围内,各种修改是可能的。因此,应当理解,虽然通过实施例和任选特征具体公开了本发明,但是本领域技术人员可以对本文公开的概念进行修改和变化,并且此类修改和变化被认为是在所附权利要求书所限定的本发明范围内。
本文的描述仅提供优选的示例性实施例,并且不旨在限制本公开的范围、适用性或配置。相反,优选的示例性实施例的描述将为本领域技术人员提供用于实现各种实施例的可行描述。应当理解,在不脱离所附权利要求书中所阐述的实质和范围的情况下,可以对要素的功能和布置进行各种改变。
在本文描述中给出具体细节以提供对实施例的透彻理解。然而,应当理解,可以在没有这些具体细节的情况下实践这些实施例。例如,电路、系统、网络、过程和其他部件可以展示为框图形式中的部件,以免不必要的细节使实施例晦涩难懂。在其他情况下,为了避免使实施例晦涩难懂,可以在没有不必要的细节的情况下示出公知的电路、过程、算法、结构和技术。
Claims (103)
1.一种用于识别用于评定检查点阻断疗法顺应性的基因组合的计算机实现方法,其包括:
访问包括一个或多个训练基因表达数据元素的训练基因表达数据的集合,每个训练基因表达数据元素对应于相应受试者,其中每个训练基因表达数据元素包括用于在从所述相应受试者收集的样品中测得的基因的集合中的每种基因的表达度量;
将训练基因表达数据元素的集合中的每个训练基因表达数据元素分配至肿瘤类型类别,其中所述分配包括:
将所述训练基因表达数据元素的集合的第一子集中的每个训练基因表达数据元素分配至第一肿瘤类别,其中所述第一子集包括对于其而言肿瘤是神经元肿瘤的训练基因表达数据元素;以及
将所述训练基因表达数据元素的集合的第二子集中的每个训练基因表达数据元素分配至第二肿瘤类别,其中,对于所述第二子集中的每个训练基因表达数据元素而言,所述肿瘤为非神经元和非神经内分泌肿瘤;
使用所述训练基因表达数据元素的集合和肿瘤类别分配来训练机器学习模型,其中训练所述机器学习模型包括学习参数的集合;基于习得的参数的集合,识别所述基因的集合的不完整子集,其中用于所述不完整子集中的基因的表达度量提供关于肿瘤类别分配的信息;以及
输出用于评定检查点阻断疗法顺应性的基因组合的规范,所述规范识别所述不完整子集中所表示的每种基因。
2.根据权利要求1所述的计算机实现方法,其中在所述第一子集中所表示的至少一个神经元肿瘤中的每个神经元肿瘤是脑肿瘤。
3.根据权利要求1或2所述的计算机实现方法,其中所述第一子集不包括对于其而言所述肿瘤为非神经元和非神经内分泌肿瘤的训练基因表达数据元素。
4.根据前述权利要求中任一项所述的计算机实现方法,其中所述基因组合的规范对应于以下推荐:所述不完整子集中的每种基因都被包括在所述基因组合中,并且在所述基因的集合中但不在所述不完整子集中的每种基因都未被包括在所述基因组合中。
5.根据前述权利要求中任一项所述的计算机实现方法,其中所述第一子集包括对于其而言所述肿瘤是神经内分泌肿瘤的附加训练基因表达数据元素,所述神经内分泌肿瘤是从神经内分泌系统或神经系统的细胞发展而来的肿瘤,和/或所述神经内分泌肿瘤是已使用组织病理学测试或基于表达的测试被指定为神经内分泌亚型的肿瘤。
6.根据前述权利要求中任一项所述的计算机实现方法,其中对于所述第二子集中的每个训练基因表达数据元素而言,所述肿瘤是源自相应类型的器官或组织的非神经元和非神经内分泌肿瘤,并且所述第一子集中的至少一个训练基因表达数据元素是对于其而言所述肿瘤是源自相同的相应类型的器官或组织的神经内分泌肿瘤的基因表达数据元素。
7.根据前述权利要求中任一项所述的计算机实现方法,其中训练所述机器学习模型包括:对于所述基因的集合中的每种基因而言,识别第一表达度量统计量,所述第一表达度量统计量指示所述基因在对应于所述第一肿瘤类别的细胞中被表达的程度;以及识别第二表达度量统计量,所述第二表达度量统计量指示所述基因在对应于所述第二肿瘤类别的细胞中被表达的程度,并且其中,对于所述不完整子集中的每种基因而言,所述第一表达度量统计量与所述第二表达度量统计量之间的差值超过预定义阈值。
8.根据前述权利要求中任一项所述的计算机实现方法,其中训练所述机器学习模型包括:学习用于一个或多个决策树中的一个或多个分支的条件的集合,并且其中基于对所述条件的集合的评估来识别所述不完整子集。
9.根据权利要求1至7中任一项所述的计算机实现方法,其中训练所述机器学习模型包括学习权重的集合,并且其中基于所述权重的集合来识别所述不完整子集。
10.根据权利要求1至7中任一项所述的计算机实现方法,其中所述机器学习模型使用分类技术,并且其中习得的参数对应于超平面的定义。
11.根据权利要求1至8中任一项所述的计算机实现方法,其中所述机器学习模型包括梯度提升机。
12.根据权利要求1至11中任一项所述的计算机实现方法,其进一步包括:
接收第一基因表达数据元素,所述第一基因表达数据元素识别针对第一受试者来确定时的所述基因组合的结果中所表示的基因的表达度量;
基于所述第一基因表达数据元素来确定第一肿瘤对应于所述第一肿瘤类别;
输出将组合疗法识别为用于所述第一受试者的疗法候选项的第一输出,所述组合疗法包括初始化学疗法和随后的检查点阻断疗法;
接收第二基因表达数据元素,所述第二基因表达数据元素识别针对第二受试者来确定时的所述基因组合的结果中所表示的基因的表达度量;
基于所述第二基因表达数据元素来确定第二肿瘤对应于所述第二肿瘤类别,其中所述第一肿瘤和所述第二肿瘤中的每一者被识别为非神经元和非神经内分泌肿瘤并且被识别为对应于相同类型的器官;以及
输出将一线检查点阻断疗法识别为用于所述第二受试者的疗法候选项的第二输出。
13.一种用于评定患有肿瘤的一个或多个受试者的检查点阻断疗法顺应性的计算机实现方法,所述方法包括:
使用根据权利要求1至11中任一项所述的方法来识别用于评定检查点阻断疗法顺应性的基因组合,
接收基因表达数据元素,所述基因表达数据元素包括用于在从患有肿瘤的受试者收集的样品中测得的基因的集合中的每种基因的表达度量,其中所述基因的集合包括所述基因组合;
基于所述基因表达数据来确定所述肿瘤属于第一肿瘤类别还是属于第二肿瘤类别,其中所述确定包括:确定用于所述基因组合中的基因的表达度量更接近于所述第一肿瘤类别中的肿瘤的表达度量还是更接近于所述第二肿瘤类别中的肿瘤的表达度量;以及
如果确定所述肿瘤属于所述第一肿瘤类别,则将组合疗法识别为疗法候选项,和/或如果确定所述肿瘤属于所述第二肿瘤类别,则将一线检查点阻断疗法识别为疗法候选项,所述组合疗法包括初始化学疗法和随后的检查点阻断疗法。
14.根据权利要求13所述的方法,其进一步包括输出经识别的候选疗法。
15.根据权利要求13或14所述的方法,其包括用第二基因表达数据元素重复所述接收、确定和识别,其中所述第一肿瘤和所述第二肿瘤中的每一者被识别为非神经元和非神经内分泌肿瘤,并且其中所述第一肿瘤和所述第二肿瘤中的每一者被识别为相同类型的器官中的肿瘤。
16.一种用于识别患有肿瘤的受试者的疗法候选项的计算机实现方法,所述方法包括:
访问已通过执行操作的集合而被训练的机器学习模型,所述操作的集合包括:
访问包括一个或多个训练基因表达数据元素的训练基因表达数据的集合,每个训练基因表达数据元素对应于相应受试者,其中每个训练基因表达数据元素包括用于在从所述相应受试者收集的样品中测得的基因的集合中的每种基因的表达度量;
将训练基因表达数据元素的集合中的每个训练基因表达数据元素分配至肿瘤类型类别,其中所述分配包括:
将所述训练基因表达数据元素的集合的第一子集中的每个训练基因表达数据元素分配至第一肿瘤类别,其中所述第一子集包括对于其而言肿瘤是神经元肿瘤的训练基因表达数据元素;以及
将所述训练基因表达数据元素的集合的第二子集中的每个训练基因表达数据元素分配至第二肿瘤类别,其中,对于所述第二子集中的每个训练基因表达数据元素而言,所述肿瘤为非神经元和非神经内分泌肿瘤;以及
使用所述训练基因表达数据元素的集合和肿瘤类别分配来训练机器学习模型,其中训练所述机器学习模型包括学习参数的集合;
访问已基于与另一受试者相关联的肿瘤的活组织检查而生成的另一基因表达数据元素,其他基因表达数据元素包括用于在其他样品中测得的基因的集合中的至少一些基因中的每种基因的另一表达度量;
使用经过训练的机器学习模型和所述其他基因表达数据元素生成指示其他肿瘤属于所述第二肿瘤类别类型的结果;以及
响应于所述结果,输出将一线检查点阻断疗法识别为疗法候选项的输出。
17.根据权利要求16所述的计算机实现方法,其中在所述第一子集中所表示的每个神经元肿瘤是脑肿瘤。
18.根据权利要求16或17所述的计算机实现方法,其中所述第一子集不包括对于其而言所述肿瘤为非神经元和非神经内分泌肿瘤的训练基因表达数据元素。
19.根据权利要求16至18中任一项所述的计算机实现方法,其中所述基因的集合的不完整子集基于所述习得的参数的集合而被识别为提供关于肿瘤类别分配的信息,并且其中所述基因的集合中的至少一些基因包括所述基因的集合的所述不完整子集而不包括所述基因的集合中不在所述不完整子集中的其他基因。
20.根据权利要求16至19中任一项所述的计算机实现方法,其中所述第一子集包括对于其而言所述肿瘤是神经内分泌肿瘤的附加训练基因表达数据元素,所述神经内分泌肿瘤是从神经内分泌系统或神经系统的细胞发展而来的肿瘤,和/或所述神经内分泌肿瘤是已使用组织病理学测试或基于表达的测试被指定为神经内分泌亚型的肿瘤。
21.根据权利要求16至20中任一项所述的计算机实现方法,其中对于所述第二子集中的每个训练基因表达数据元素而言,所述肿瘤是源自相应类型的器官或组织的非神经元和非神经内分泌肿瘤,并且所述第一子集中的至少一个训练基因表达数据元素是对于其而言所述肿瘤是源自相同的相应类型的器官或组织的神经内分泌肿瘤的基因表达数据元素。
22.根据权利要求16至21中任一项所述的计算机实现方法,其中所述机器学习模型包括梯度提升机。
23.根据权利要求16至22中任一项所述的计算机实现方法,其中所述机器学习模型包括一个或多个决策树。
24.根据权利要求16至23中任一项所述的计算机实现方法,其中所述其他肿瘤是黑素瘤肿瘤。
25.根据权利要求16至24中任一项所述的计算机实现方法,其进一步包括:
访问已基于附加肿瘤的附加活组织检查而生成的附加基因表达数据元素,所述附加肿瘤关联于与所述其他肿瘤相同的解剖位置,所述附加肿瘤关联于与其他受试者不同的附加受试者;
使用所述经过训练的机器学习模型和所述附加基因表达数据元素来生成附加结果,所述附加结果指示所述附加肿瘤属于所述第一肿瘤类别类型;以及
如果所述经过训练的机器学习模型将再一受试者的肿瘤分类为所述第一肿瘤类别,则将除一线检查点阻断疗法之外的疗法识别为所述附加受试者的疗法候选项。
26.根据权利要求25所述的计算机实现方法,其中其他疗法包括组合疗法,所述组合疗法包括一线化学疗法和随后的检查点阻断疗法。
27.根据权利要求25或27所述的计算机实现方法,其中所述附加肿瘤为非神经元和非神经内分泌肿瘤。
28.一种用于识别患有肿瘤的受试者的候选疗法的计算机实现方法,其包括:
访问基因表达数据元素,所述基因表达数据元素包括用于在从所述受试者收集的样品中测得的基因的集合中的每种基因的表达度量;
确定所述基因表达数据元素对应于神经元遗传特征;
识别包括初始化学疗法治疗和随后的检查点阻断疗法的治疗方法;以及
输出表明所述受试者顺应所述治疗方法的指示。
29.根据权利要求26至28中任一项所述的计算机实现方法,其中确定所述基因表达数据元素对应于神经元遗传特征包括:将所述基因表达数据元素在包括具有神经元特征的肿瘤的第一类别和包括不具有所述神经元特征的肿瘤的第二类别之间进行分类,其中所述第一类别和所述第二类别中的肿瘤具有至少一种基因的不同表达。
30.一种用于识别患有肿瘤的受试者的候选疗法的计算机实现方法,其包括:
访问基因表达数据元素,所述基因表达数据元素包括用于在从所述受试者收集的样品中测得的基因的集合中的每种基因的表达度量;
确定所述基因表达数据元素不对应于神经元遗传特征;
识别包括初始使用检查点阻断疗法的治疗方法;以及
输出表明所述受试者顺应所述治疗方法的指示。
31.根据权利要求30所述的计算机实现方法,其中所述治疗方法不包括使用化学疗法。
32.根据权利要求30至31中任一项所述的计算机实现方法,其中确定所述基因表达数据元素确实对应于神经元遗传特征包括:将所述基因表达数据元素在包括具有神经元特征的肿瘤的第一类别和包括不具有所述神经元特征的肿瘤的第二类别之间进行分类,其中所述第一类别和所述第二类别中的肿瘤具有至少一种基因的不同表达。
33.根据权利要求28至32中任一项所述的计算机实现方法,其进一步包括:
通过使用训练数据集训练分类算法来确定所述神经元遗传特征,所述训练数据集包括:
训练基因表达数据元素的集合,所述训练基因表达数据元素的集合中的每个训练基因表达数据元素对于至少多种基因中的每种基因而言指示对应于所述基因的表达度量;以及
标记数据,其关联于以下各项:
所述训练基因表达数据元素的集合的具有第一标记的第一子集,所述第一标记指示具有神经元特性的肿瘤;和
所述训练基因表达数据元素的集合的具有第二标记的第二子集,所述第二标记指示不具有所述神经元特性的肿瘤。
34.根据权利要求28至33中任一项所述的计算机实现方法,其中所述基因的集合包括至少一个选自以下各项的基因:SV2A、NCAM1、ITGB6、SH2D3A、TACSTD2、C29orf33、SFN、RND2、PHLDA3、OTX2、TBC1D2、C3orf52、ANXA11、MSI1、TET1、HSH2D、C6orf132、RCOR2、CFLAR、IL4R、SHISA7、DTX2、UNC93B1和FLNB。
35.根据权利要求28至33中任一项所述的计算机实现方法,其中所述基因的集合包括至少五个选自以下各项的基因:SV2A、NCAM1、ITGB6、SH2D3A、TACSTD2、C29orf33、SFN、RND2、PHLDA3、OTX2、TBC1D2、C3orf52、ANXA11、MSI1、TET1、HSH2D、C6orf132、RCOR2、CFLAR、IL4R、SHISA7、DTX2、UNC93B1和FLNB。
36.一种用于检测指示肿瘤是否与神经相关的基因表达的试剂盒,所述试剂盒包括引物的集合,其中所述引物的集合中的每个引物与表1中列出的基因特异性结合,并且其中所述引物的集合包括至少5个引物。
37.根据权利要求36所述的试剂盒,其中所述引物的集合用于基于来自机器学习模型的输出来指示肿瘤是否与神经相关,所述输出基于包括与一种或多种基因相对应的表达数据的输入数据集而生成。
38.根据权利要求36所述的试剂盒,其中所述引物的集合用于基于来自机器学习模型的输出来指示肿瘤是否与神经相关,所述机器学习模型被训练为区分与非神经相关的肿瘤类型的细胞中的多种基因的表达水平相比的神经相关的肿瘤类型的细胞中的多种基因的表达水平。
39.根据权利要求36至38中任一项所述的试剂盒,其中所述引物的集合包括:上游引物,其靶向位于所述基因的集合中的基因的上游的序列;以及一个或多个下游引物,其靶向所述基因的集合中的基因的下游的其他序列。
40.根据权利要求36至39中任一项所述的试剂盒,其中所述引物的集合包括靶向至少10种基因的引物。
41.根据权利要求36至39中任一项所述的试剂盒,其中所述引物的集合包括靶向至少20种基因的引物。
42.根据权利要求36至41中任一项所述的试剂盒,其中,对于所述引物的集合中的每个引物而言,所述引物与之结合的基因在表1中与5.0以上的权重相关联。
43.根据权利要求36至41中任一项所述的试剂盒,其中,对于所述引物的集合中的每个引物而言,所述引物与之结合的基因在表1中与1.0以上的权重相关联。
44.根据权利要求36至41中任一项所述的试剂盒,其中,对于所述引物的集合中的每个引物而言,所述引物与之结合的基因在表1中与0.5以上的权重相关联。
45.一种系统,其包括:
如权利要求36至44中任一项所定义的试剂盒,以及
计算机可读介质,其包含指令,所述指令在由至少一个处理器执行时使所述处理器实施根据权利要求1至25中任一项所述的方法。
46.一种用于预测患有一种或多种肿瘤的个体是否可能受益于包含增强免疫细胞活性的药剂的治疗的方法,所述方法包括:测量先前已从所述个体获得的肿瘤样品中的在表2中列出的一种或多种基因中的每种基因的表达水平,以及使用所述一种或多种基因的表达水平来预测所述个体是否可能受益于包含增强免疫细胞活性的所述药剂的所述治疗。
47.根据权利要求46所述的方法,其中使用所述一种或多种基因的表达水平来识别所述个体是否是可受益于包含增强免疫细胞活性的所述药剂的所述治疗的个体包括:
将所述肿瘤在以下两者之间分类:第一类别,所述第一类别包括预期不会受益于包含增强免疫细胞活性的所述药剂的所述治疗的肿瘤;以及第二类别,所述第二类别包括预期会受益于包含增强免疫细胞活性的所述药剂的所述治疗的肿瘤,其中所述第一类别和所述第二类别中的肿瘤在所述一种或多种基因的表达方面不同。
48.根据权利要求46或权利要求47所述的方法,其中表2中列出的所述一种或多种基因包括表2中列出的5种或更多种基因。
49.根据权利要求46或权利要求47所述的方法,其中表2中列出的所述一种或多种基因包括表2中列出的10种或更多种基因。
50.根据权利要求46或权利要求47所述的方法,其中表2中列出的所述一种或多种基因包括表3中列出的1种或多种基因。
51.根据权利要求46或权利要求47所述的方法,其中表2中列出的所述一种或多种基因包括表3中列出的5种或更多种基因。
52.根据权利要求46或权利要求47所述的方法,其中表2中列出的所述一种或多种基因包括表3中列出的10种或更多种基因。
53.根据权利要求46或权利要求47所述的方法,其中表2中列出的所述一种或多种基因包括表4中列出的1种或多种基因。
54.根据权利要求46或权利要求47所述的方法,其中表2中列出的所述一种或多种基因包括表4中列出的5种或更多种基因。
55.根据权利要求46或权利要求47所述的方法,其中表2中列出的所述一种或多种基因包括表4中列出的10种或更多种基因。
56.根据权利要求46至55中任一项所述的方法,其中包含增强免疫细胞活性的所述药剂的所述治疗包括免疫阻断疗法。
57.根据权利要求46至56中任一项所述的方法,其中已处理所述一种或多种基因的表达水平的经过训练的机器学习模型提供了将所述一种或多种肿瘤表征为非神经相关的分类结果,并且其中基于所述分类结果预测所述个体是可能受益于所述治疗的个体。
58.根据权利要求46至57中任一项所述的方法,其中识别所述个体是否是可受益于包含增强免疫细胞活性的所述药剂的所述治疗的个体包括使用机器学习模型,所述机器学习模型已被训练为将肿瘤在包括神经相关的肿瘤的第一类别与包括非神经相关的肿瘤的第二类别之间进行分类,其中预期与所述第二类别中的其他肿瘤相比,利用包含增强免疫细胞活性的所述药剂的所述治疗不会更有效地治疗所述第一类别中的肿瘤。
59.根据权利要求58所述的方法,其中已使用如权利要求1至11中任一项所述的方法训练所述机器学习模型。
60.一种用于选择免疫阻断疗法作为对患有一种或多种肿瘤的个体的治疗的方法,所述方法包括:测量来自所述个体的肿瘤样品中的在表2中列出的一种或多种基因中的每种基因的表达水平,以及使用所述一种或多种基因的表达水平来预测所述个体可能受益于包含所述免疫阻断疗法的治疗。
61.根据权利要求60所述的方法,其中表2中列出的所述一种或多种基因包括表2中列出的5种或更多种基因。
62.根据权利要求60所述的方法,其中表2中列出的所述一种或多种基因包括表2中列出的10种或更多种基因。
63.根据权利要求60所述的方法,其中表2中列出的所述一种或多种基因包括表3中列出的1种或多种基因。
64.根据权利要求60所述的方法,其中表2中列出的所述一种或多种基因包括表3中列出的5种或更多种基因。
65.根据权利要求60所述的方法,其中表2中列出的所述一种或多种基因包括表3中列出的10种或更多种基因。
66.根据权利要求60所述的方法,其中表2中列出的所述一种或多种基因包括表4中列出的1种或多种基因。
67.根据权利要求60所述的方法,其中表2中列出的所述一种或多种基因包括表4中列出的5种或更多种基因。
68.根据权利要求60所述的方法,其中表2中列出的所述一种或多种基因包括表4中列出的10种或更多种基因。
69.根据权利要求60至68中任一项所述的方法,其中已处理所述一种或多种基因的表达水平的经过训练的机器学习模型提供了将所述一种或多种肿瘤表征为非神经相关的分类结果,并且其中基于所述分类结果识别所述个体为可受益于所述治疗的个体。
70.一种治疗患有癌症的个体的方法,所述方法包括:
(a)测量先前已从个体获得的肿瘤样品中的在表2中列出的一种或多种基因中的每种基因的表达水平;
(b)使用所述一种或多种基因的表达水平将所述肿瘤分类为非神经相关的;以及
(c)对所述个体施用有效量的检查点阻断疗法。
71.根据权利要求70所述的方法,其中表2中列出的所述一种或多种基因包括表2中列出的5种或更多种基因。
72.根据权利要求70所述的方法,其中表2中列出的所述一种或多种基因包括表2中列出的10种或更多种基因。
73.根据权利要求70所述的方法,其中表2中列出的所述一种或多种基因包括表3中列出的1种或多种基因。
74.根据权利要求70所述的方法,其中表2中列出的所述一种或多种基因包括表3中列出的5种或更多种基因。
75.根据权利要求70所述的方法,其中表2中列出的所述一种或多种基因包括表3中列出的10种或更多种基因。
76.根据权利要求70所述的方法,其中表2中列出的所述一种或多种基因包括表4中列出的1种或多种基因。
77.根据权利要求70所述的方法,其中表2中列出的所述一种或多种基因包括表4中列出的5种或更多种基因。
78.根据权利要求70所述的方法,其中表2中列出的所述一种或多种基因包括表4中列出的10种或更多种基因。
79.根据权利要求70至78中任一项所述的方法,其中基于由已处理所述一种或多种基因的表达水平的经过训练的机器学习模型生成的结果,所述一种或多种基因的表达水平被确定为指示所述个体的所述一种或多种肿瘤为非神经相关的。
80.一种用于在治疗患有癌症的个体的方法中使用的检查点阻断疗法,所述方法包括:
(a)测量先前已从个体获得的肿瘤样品中的在表2中列出的一种或多种基因中的每种基因的表达水平;
(b)使用所述一种或多种基因的表达水平将所述肿瘤分类为非神经相关的;以及
(c)对所述个体施用有效量的检查点阻断疗法。
81.根据权利要求80所述的检查点阻断疗法,其中表2中列出的所述一种或多种基因包括表2中列出的5种或更多种基因。
82.根据权利要求80所述的检查点阻断疗法,其中表2中列出的所述一种或多种基因包括表2中列出的10种或更多种基因。
83.根据权利要求80所述的检查点阻断疗法,其中表2中列出的所述一种或多种基因包括表3中列出的1种或多种基因。
84.根据权利要求80所述的检查点阻断疗法,其中表2中列出的所述一种或多种基因包括表3中列出的5种或更多种基因。
85.根据权利要求80所述的检查点阻断疗法,其中表2中列出的所述一种或多种基因包括表3中列出的10种或更多种基因。
86.根据权利要求80所述的检查点阻断疗法,其中表2中列出的所述一种或多种基因包括表4中列出的1种或多种基因。
87.根据权利要求80所述的检查点阻断疗法,其中表2中列出的所述一种或多种基因包括表4中列出的5种或更多种基因。
88.根据权利要求80所述的检查点阻断疗法,其中表2中列出的所述一种或多种基因包括表4中列出的10种或更多种基因。
89.根据权利要求80至88中任一项所述的检查点阻断疗法,其中基于由已处理所述一种或多种基因的表达水平的经过训练的机器学习模型生成的结果,所述一种或多种基因的表达水平被确定为指示所述个体的所述一种或多种肿瘤为非神经相关的。
90.一种治疗患有癌症的个体的方法,所述方法包括向所述个体施用有效量的增强免疫细胞活性的药剂,其中已确定来自所述个体的样品中的在表2中列出的一种或多种基因的水平对应于非神经相关的分类。
91.根据权利要求90所述的方法,其中表2中列出的所述一种或多种基因包括表2中列出的5种或更多种基因。
92.根据权利要求90所述的方法,其中表2中列出的所述一种或多种基因包括表2中列出的10种或更多种基因。
93.根据权利要求90所述的方法,其中表2中列出的所述一种或多种基因包括表3中列出的1种或多种基因。
94.根据权利要求90所述的方法,其中表2中列出的所述一种或多种基因包括表3中列出的5种或更多种基因。
95.根据权利要求90所述的方法,其中表2中列出的所述一种或多种基因包括表3中列出的10种或更多种基因。
96.根据权利要求90所述的方法,其中表2中列出的所述一种或多种基因包括表4中列出的1种或多种基因。
97.根据权利要求90所述的方法,其中表2中列出的所述一种或多种基因包括表4中列出的5种或更多种基因。
98.根据权利要求90所述的方法,其中表2中列出的所述一种或多种基因包括表4中列出的10种或更多种基因。
99.根据权利要求90至98中任一项所述的方法,其中基于由已处理所述一种或多种基因的表达水平的经过训练的机器学习模型生成的结果,所述一种或多种基因的表达水平被确定为指示所述个体的所述一种或多种肿瘤为非神经相关的。
100.一种系统,其包括:
一个或多个数据处理器;以及
非暂时性计算机可读存储介质,其包含指令,所述指令在所述一个或多个数据处理器上被执行时,使所述一个或多个数据处理器执行本文所公开的一种或多种方法的一部分或全部。
101.一种系统,其包括:
一个或多个数据处理器;以及
非暂时性计算机可读存储介质,其包含指令,所述指令在所述一个或多个数据处理器上被执行时,使所述一个或多个数据处理器执行方法1至35、46至79和90至99中任一种方法的一部分或全部。
102.一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,其包含指令,所述指令被配置成使一个或多个数据处理器执行本文所公开的一种或多种方法的一部分或全部。
103.一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,其包含指令,所述指令被配置成使一个或多个数据处理器执行1至35、46至79和90至99的一部分或全部。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962878095P | 2019-07-24 | 2019-07-24 | |
US62/878,095 | 2019-07-24 | ||
US201962949025P | 2019-12-17 | 2019-12-17 | |
US62/949,025 | 2019-12-17 | ||
PCT/US2020/043363 WO2021016502A1 (en) | 2019-07-24 | 2020-07-24 | Detecting neurally programmed tumors using expression data |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114762050A true CN114762050A (zh) | 2022-07-15 |
Family
ID=72139654
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080065440.9A Pending CN114762050A (zh) | 2019-07-24 | 2020-07-24 | 使用表达数据来检测神经编程肿瘤 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220262458A1 (zh) |
EP (1) | EP4004928A1 (zh) |
CN (1) | CN114762050A (zh) |
WO (1) | WO2021016502A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11967084B2 (en) * | 2021-03-09 | 2024-04-23 | Ping An Technology (Shenzhen) Co., Ltd. | PDAC image segmentation method, electronic device and storage medium |
CN113820489A (zh) * | 2021-11-02 | 2021-12-21 | 上海交通大学医学院附属仁济医院 | Elavl3蛋白在制备作为诊断神经内分泌型前列腺癌的生物标记物中的用途 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019012147A1 (en) * | 2017-07-13 | 2019-01-17 | Institut Gustave-Roussy | RADIOMY-BASED IMAGING TOOL FOR MONITORING INFILTRATION AND TUMOR LYMPHOCYTE AND RESULTS IN CANCER PATIENTS TREATED WITH ANTI-PD-1 / PD-L1 AGENTS |
-
2020
- 2020-07-24 US US17/629,327 patent/US20220262458A1/en active Pending
- 2020-07-24 CN CN202080065440.9A patent/CN114762050A/zh active Pending
- 2020-07-24 WO PCT/US2020/043363 patent/WO2021016502A1/en active Application Filing
- 2020-07-24 EP EP20757705.7A patent/EP4004928A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220262458A1 (en) | 2022-08-18 |
WO2021016502A1 (en) | 2021-01-28 |
EP4004928A1 (en) | 2022-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Individual-level analysis of differential expression of genes and pathways for personalized medicine | |
Simon et al. | Analysis of gene expression data using BRB-array tools | |
Lee et al. | Expression signature of E2F1 and its associated genes predict superficial to invasive progression of bladder tumors | |
Riester et al. | Combination of a novel gene expression signature with a clinical nomogram improves the prediction of survival in high-risk bladder cancer | |
Yoshihara et al. | Gene expression profiling of advanced‐stage serous ovarian cancers distinguishes novel subclasses and implicates ZEB2 in tumor progression and prognosis | |
DK2382331T3 (en) | CANCER biomarkers | |
US20090062144A1 (en) | Gene signature for prognosis and diagnosis of lung cancer | |
Wylie et al. | Molecular classification of thyroid lesions by combined testing for miRNA gene expression and somatic gene alterations | |
Romualdi et al. | Pattern recognition in gene expression profiling using DNA array: a comparative study of different statistical methods applied to cancer classification | |
JP2020535823A (ja) | 標的遺伝子発現の数学的モデル化を使用する、jak−stat3細胞シグナル伝達経路活性の評価 | |
US20090197259A1 (en) | Gene signature for diagnosis and prognosis of breast cancer and ovarian cancer | |
CN106755415A (zh) | 用于诊断和预测移植物排斥的生物标志物板 | |
CN111187839A (zh) | m5C甲基化相关调节基因在肝癌预后预测中的应用 | |
Agulló-Ortuño et al. | Lung cancer genomic signatures | |
US20230160019A1 (en) | Rna markers and methods for identifying colon cell proliferative disorders | |
CN107208132A (zh) | 用于诊断胃肠胰神经内分泌瘤的组合物、方法和试剂盒 | |
Owzar et al. | Statistical considerations for analysis of microarray experiments | |
Simon | Analysis of DNA microarray expression data | |
Jiang et al. | Calculating confidence intervals for prediction error in microarray classification using resampling | |
CN114762050A (zh) | 使用表达数据来检测神经编程肿瘤 | |
JP2016073287A (ja) | 腫瘍特性及びマーカーセットの同定のための方法、腫瘍分類、並びに癌のマーカーセット | |
US20120117018A1 (en) | Method for the systematic evaluation of the prognostic properties of gene pairs of medical conditions, and certain gene pairs identified | |
US20180223369A1 (en) | Methods for predicting the efficacy of treatment | |
CA2889276A1 (en) | Method for identifying a target molecular profile associated with a target cell population | |
Ju et al. | Robust deep learning model for prognostic stratification of pancreatic ductal adenocarcinoma patients |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |