CN112863604B - 一种预测肿瘤间质化机制及治疗敏感性的方法 - Google Patents
一种预测肿瘤间质化机制及治疗敏感性的方法 Download PDFInfo
- Publication number
- CN112863604B CN112863604B CN202110029152.4A CN202110029152A CN112863604B CN 112863604 B CN112863604 B CN 112863604B CN 202110029152 A CN202110029152 A CN 202110029152A CN 112863604 B CN112863604 B CN 112863604B
- Authority
- CN
- China
- Prior art keywords
- data
- tumor
- gene
- types
- strong strength
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 83
- 230000007246 mechanism Effects 0.000 title claims abstract description 32
- 230000035945 sensitivity Effects 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000011282 treatment Methods 0.000 title claims abstract description 25
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 79
- 230000037361 pathway Effects 0.000 claims abstract description 63
- 238000009169 immunotherapy Methods 0.000 claims abstract description 23
- 238000002626 targeted therapy Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000004458 analytical method Methods 0.000 claims abstract description 11
- 238000010206 sensitivity analysis Methods 0.000 claims abstract description 8
- 230000014509 gene expression Effects 0.000 claims description 65
- 230000004913 activation Effects 0.000 claims description 23
- 102100023267 YY1-associated protein 1 Human genes 0.000 claims description 21
- 210000003716 mesoderm Anatomy 0.000 claims description 16
- 239000003814 drug Substances 0.000 claims description 13
- 229940079593 drug Drugs 0.000 claims description 12
- 210000004027 cell Anatomy 0.000 claims description 9
- 230000008236 biological pathway Effects 0.000 claims description 7
- 230000006916 protein interaction Effects 0.000 claims description 7
- 206010064571 Gene mutation Diseases 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 230000009257 reactivity Effects 0.000 claims description 6
- 230000001024 immunotherapeutic effect Effects 0.000 claims description 5
- 238000012482 interaction analysis Methods 0.000 claims description 5
- 238000003064 k means clustering Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 230000008595 infiltration Effects 0.000 claims description 3
- 238000001764 infiltration Methods 0.000 claims description 3
- 210000002540 macrophage Anatomy 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 230000008685 targeting Effects 0.000 claims description 3
- 230000003827 upregulation Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 230000004186 co-expression Effects 0.000 claims description 2
- 238000010195 expression analysis Methods 0.000 claims description 2
- 238000003384 imaging method Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000035772 mutation Effects 0.000 claims 1
- 210000001082 somatic cell Anatomy 0.000 claims 1
- 239000000523 sample Substances 0.000 description 24
- 208000032612 Glial tumor Diseases 0.000 description 6
- 206010018338 Glioma Diseases 0.000 description 6
- 102000037982 Immune checkpoint proteins Human genes 0.000 description 6
- 108091008036 Immune checkpoint proteins Proteins 0.000 description 6
- 241001529936 Murinae Species 0.000 description 6
- 208000005017 glioblastoma Diseases 0.000 description 6
- 241000699670 Mus sp. Species 0.000 description 4
- 238000002560 therapeutic procedure Methods 0.000 description 4
- 239000003112 inhibitor Substances 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 239000013610 patient sample Substances 0.000 description 3
- 230000004083 survival effect Effects 0.000 description 3
- 206010069754 Acquired gene mutation Diseases 0.000 description 2
- 102000008096 B7-H1 Antigen Human genes 0.000 description 2
- 108010074708 B7-H1 Antigen Proteins 0.000 description 2
- 206010059866 Drug resistance Diseases 0.000 description 2
- 241000699666 Mus <mouse, genus> Species 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005746 immune checkpoint blockade Effects 0.000 description 2
- 230000037451 immune surveillance Effects 0.000 description 2
- 230000037439 somatic mutation Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- OAVCWZUKQIEFGG-UHFFFAOYSA-O 2-(5-methyl-2H-tetrazol-1-ium-1-yl)-1,3-thiazole Chemical compound CC1=NN=N[NH+]1C1=NC=CS1 OAVCWZUKQIEFGG-UHFFFAOYSA-O 0.000 description 1
- 101150066375 35 gene Proteins 0.000 description 1
- 230000007730 Akt signaling Effects 0.000 description 1
- 108091054455 MAP kinase family Proteins 0.000 description 1
- 102000043136 MAP kinase family Human genes 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 206010061309 Neoplasm progression Diseases 0.000 description 1
- 229930040373 Paraformaldehyde Natural products 0.000 description 1
- 102000004887 Transforming Growth Factor beta Human genes 0.000 description 1
- 108090001012 Transforming Growth Factor beta Proteins 0.000 description 1
- 102000013814 Wnt Human genes 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 208000024055 brain glioblastoma Diseases 0.000 description 1
- 201000011609 brain glioblastoma multiforme Diseases 0.000 description 1
- 210000005013 brain tissue Anatomy 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000003828 downregulation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 101150046266 foxo gene Proteins 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 239000012188 paraffin wax Substances 0.000 description 1
- 229920002866 paraformaldehyde Polymers 0.000 description 1
- 238000010837 poor prognosis Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000010186 staining Methods 0.000 description 1
- 210000000130 stem cell Anatomy 0.000 description 1
- ZRKFYGHZFMAOKI-QMGMOQQFSA-N tgfbeta Chemical compound C([C@H](NC(=O)[C@H](C(C)C)NC(=O)CNC(=O)[C@H](CCC(O)=O)NC(=O)[C@H](CCCNC(N)=N)NC(=O)[C@H](CC(N)=O)NC(=O)[C@H](CC(C)C)NC(=O)[C@H]([C@@H](C)O)NC(=O)[C@H](CCC(O)=O)NC(=O)[C@H]([C@@H](C)O)NC(=O)[C@H](CC(C)C)NC(=O)CNC(=O)[C@H](C)NC(=O)[C@H](CO)NC(=O)[C@H](CCC(N)=O)NC(=O)[C@@H](NC(=O)[C@H](C)NC(=O)[C@H](C)NC(=O)[C@@H](NC(=O)[C@H](CC(C)C)NC(=O)[C@@H](N)CCSC)C(C)C)[C@@H](C)CC)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CC=1C=CC=CC=1)C(=O)N[C@@H](C)C(=O)N1[C@@H](CCC1)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](C)C(=O)N[C@@H](CC=1C=CC=CC=1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](C)C(=O)N[C@@H](CC(C)C)C(=O)N1[C@@H](CCC1)C(=O)N1[C@@H](CCC1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CO)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC(C)C)C(O)=O)C1=CC=C(O)C=C1 ZRKFYGHZFMAOKI-QMGMOQQFSA-N 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000005751 tumor progression Effects 0.000 description 1
- 231100000588 tumorigenic Toxicity 0.000 description 1
- 230000000381 tumorigenic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Databases & Information Systems (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Epidemiology (AREA)
- Chemical & Material Sciences (AREA)
- Pharmacology & Pharmacy (AREA)
- Bioethics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Probability & Statistics with Applications (AREA)
- Medicinal Chemistry (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
一种预测肿瘤间质化机制及治疗敏感性的方法,其属于肿瘤间质化机制分析技术领域。该方法通过样本训练数据集和识别间质化机制特征的基因集建立模型将将上皮来源肿瘤分成一类‑间质化弱、二类‑间质化中、三类‑间质化强‑YAP过度激活型和四类‑间质化强‑AKT过度激活型四种类型。并通过靶向治疗敏感性和免疫治疗敏感性分析,确定三类‑间质化强‑YAP过度激活型对于靶向治疗敏感,四类‑间质化强‑AKT过度激活型对于免疫治疗抵抗,而当AKT通路被抑制后,则免疫治疗敏感。该方法能够高效的评估和识别出导致肿瘤间质化的机制,进一步将高间质化的肿瘤区分成两种具有不同治疗敏感性的肿瘤类型,为分析肿瘤间质化及不同间质化类型肿瘤的治疗敏感性提供一种工具。
Description
技术领域
本发明涉及一种预测肿瘤间质化机制及治疗敏感性的方法,其属于肿瘤间质化机制分析技术领域。
背景技术
肿瘤是现代医学中导致死亡的主要原因之一。在肿瘤发展过程中,大多数上皮肿瘤将经历间质转变。发生间质转变后肿瘤具有高迁移和侵袭能力,拥有永生增殖并会逃避免疫监视。在临床上,间质转化是提示早期转移,复发以及耐药的指标之一,常与肿瘤的不良预后有关。促癌通路的过度活化是肿瘤间质化的经典机制。近年来,肿瘤微环境对于肿瘤的作用被认为是促进肿瘤发生间质化的另一重要机制。两种机制所导致的间质化所产生的临床结局不同,例如促癌通路导致的间质化常与永生增殖有关,而微环境导致的间质化常与耐药或逃避免疫监视有关。因此,两种机制导致的间质化应该采用不同的治疗方法。然而,目前评估间质化的方法并不能够识别导致肿瘤间质化的机制。本发明涉及了一种能够预测肿瘤间质化机制并分析对应治疗敏感性的方法。
发明内容
为了解决现有技术中存在的问题,本发明提供一种预测肿瘤间质化机制及治疗敏感性的方法。
为实现发明目的,本发明采用如下技术方案:一种预测肿瘤间质化机制及治疗敏感性的方法,该方法包含以下步骤:
步骤一:获取训练样本数据集,从肿瘤基因组图谱TCGA数据库获得训练样本数据集,所述训练样本数据集包括24类上皮肿瘤类型共9415例数据,所述9415例数据包含每例样本的基因突变数据、基因拷贝数变异数据、基因表达count数据和临床信息数据。
步骤二:构建识别间质化机制特征的基因集,从分子特种数据库MsigDB下载四个与肿瘤间质化相关的基因集,所述四个与肿瘤间质化相关的基因集包含①肿瘤间质化,GOID:001837;②正性调控肿瘤间质化,GO ID:0010718;③逆肿瘤间质化,GO ID:0060231和④负性调控肿瘤间质化,GO ID:0010719,去掉基因集之间的重叠数据,识别出只参与肿瘤间质化正性过程的103个基因,利用在线工具蛋白互作分析和在线工具基因共表达分析分析对所述103个基因分析,构建用于识别间质化机制特征的基因集MTCG。
步骤三:根据基因集MTCG特征对TCGA肿瘤数据进行分类,从步骤一的基因表达count数据中提取TCGA肿瘤数据MTCG基因的表达数据,利用K-均值聚类,对训练样本数据集进行分类。
步骤四:四类间质化程度强弱确定,利用ssGSEA算法以步骤三得到的MTCG基因的表达数据为输入,计算每例样本的间质化活性评分,根据表达相对强弱,把样本定义为一类-间质化弱、二类-间质化中、三类-间质化强和四类-间质化强。
步骤五:确定三类-间质化强和四类-间质化强的驱动机制,利用KEGG分析,确定基因集MTCG基因参与的十个生物学通路,利用ssGSEA算法计算每个生物学通路的评分,进一步把三类-间质化强和四类-间质化强分别命名为三类-间质化强-YAP通路激活和四类-间质化强-AKT通路激活。
步骤六:靶向治疗敏感性分析,从肿瘤药敏数据库GDSC获得细胞系数据的基因表达数据和药敏筛选数据,利用R语言预编译包sva包对GDSC数据库的基因表达数据和TCGA数据库中的基因表达count数据进行去批次,提取GDSC数据库中的MTCG基因表达数据,利用MTCG基因表达数据,将细胞系分类到步骤四所述的四类间质化中去,比较每种靶向药的IC50值在四类间质化中的大小,确定三类-间质化强-YAP通路激活型靶向治疗敏感,四类-间质化强-AKT通路激活型靶向治疗抵抗。
步骤七:免疫治疗敏感性分析,从免疫治疗数据库IMvigor210CoreBiologies获得样本的基因表达和免疫治疗反应性数据,利用R语言预编译包sva包对IMvigor210CoreBiologies数据库的基因表达数据和TCGA数据库中的基因表达count数据进行去批次,提取IMvigor210CoreBiologies数据库中的MTCG基因表达数据,利用MTCG基因表达数据,将IMvigor210CoreBiologies数据库中的患者分类到步骤四所述的四类间质化中,比较四类间质化的免疫治疗反应情况,确定四类-间质化强-AKT通路激活型为在AKT通路被抑制后免疫治疗敏感。
步骤八:待测样本的间质化分析,获得待测样本的基因表达数据,利用R语言预编译包sva包对待测样本的基因表达数据和TCGA数据库中的基因表达count数据进行去批次,提取待测样本的MTCG基因表达数据,通过计算待测样本与TCGA数据四个聚类中心点的欧几里得距离,把待测样本划归到欧几里得距离最短的间质化类型中,确定待测样本的间质化类型。
所述步骤二中利用在线工具蛋白互作分析对所述103个基因分析,识别出58个节点基因,利用在线工具基因共表达分析对所述103个基因分析,识别出50个共表达基因,对58个节点基因和50个共表达基因取交集,构建用于识别间质化机制特征的包含35个识别基因的基因集MTCG。
所述步骤三中K-均值聚类的参数设置为:模拟次数=100,距离=欧几里得距离,连接方式=平均,聚类后根据一致性数据将聚类数设定为4。
所述步骤五通过比较三类-间质化强和四类-间质化强的基因突变数据、基因拷贝数变异数据和利用cibersort算法计算得到的肿瘤微环境构成数据,确定三类-间质化强-YAP通路激活型是由于肿瘤体细胞突变过多或者拷贝数改变过多使YAP通路过度活化导致的,四类-间质化强-AKT通路激活型是由于微环境中巨噬细胞浸润过多造成AKT通路过度活化导致的。
所述步骤六通过计算GDSC数据库中的样本与TCGA数据四个聚类中心点的欧几里得距离,并把GDSC数据中的样本划归到欧几里得距离最短的间质化类型中去,分别比较每种靶向药的IC50值在四类间质化中的大小,确定三类-间质化强-YAP通路激活型靶向治疗敏感,四类-间质化强-AKT通路激活型靶向治疗抵抗;步骤七通过计算IMvigor210CoreBiologies数据库中的样本与TCGA数据四个聚类中心点的欧几里得距离,并把IMvigor210CoreBiologies数据中的样本划归到欧几里得距离最短的一类中去,通过比较每类间质化中对于免疫治疗的反应性情况,确定四类-间质化强-AKT通路激活型免疫治疗敏感。
本发明的有益效果是:一种预测肿瘤间质化机制及治疗敏感性的方法,该方法通过样本训练数据集和识别间质化机制特征的基因集建立模型将将上皮来源肿瘤分成一类-间质化弱、二类-间质化中、三类-间质化强-YAP过度激活型和四类-间质化强-AKT过度激活型四种类型。并通过靶向治疗敏感性和免疫治疗敏感性分析,确定三类-间质化强-YAP过度激活型对于靶向治疗敏感,四类-间质化强-AKT过度激活型在AKT通路被抑制后对于免疫治疗抵抗。该方法能够高效的评估和识别出导致肿瘤间质化的机制,进一步将高间质化的肿瘤区分成两种具有不同治疗敏感性的肿瘤类型,为分析肿瘤间质化及不同间质化类型肿瘤的治疗敏感性提供一种工具。
附图说明
图1是一种预测肿瘤间质化机制及治疗敏感性的方法的流程示意图。
图2是鼠胶质瘤免疫检查点阻断治疗效果对比图。
图3是中国人脑胶质母细胞瘤患者间质化分类预测图。
具体实施方式
为使本发明的技术方案更加清楚,下面将结合本发明的实施例,对实施例中的技术方案进行清楚、完整地描述,以下实施例用于说明本发明,但不用来限制本发明的范围。
图1示出了一种预测肿瘤间质化机制及治疗敏感性的方法的流程示意图。图中,这种预测肿瘤间质化机制及治疗敏感性的方法包含以下步骤:
步骤一:从肿瘤基因组图谱(TCGA)图谱计划数据库获(https://portal.gdc.cancer.gov)得训练样本数据集,该训练集由各个训练样本的基因突变数据、基因拷贝数变异数据、基因表达count数据和临床信息构成。该训练数据集共包括24类上皮肿瘤类型共9415例数据。
步骤二:构建识别间质化机制特征的基因集。从分子特种数据库MsigDB(https://www.gsea-msigdb.org/gsea/index.jsp)下载四个与肿瘤间质化相关的基因集(①肿瘤间质化,GO ID:001837;②正性调控肿瘤间质化,GO ID:0010718;③逆肿瘤间质化,GO ID:0060231;④负性调控肿瘤间质化,GO ID:0010719),四个基因集共包括155个基因。通过韦恩图,识别出103个基因只参与肿瘤间质化的正性过程(即肿瘤间质化和正性调控肿瘤间质化过程)。利用在线工具蛋白互作分析(http://string-db.org)对103个基因分析,构建出蛋白互作网络,利用cytoscape软件对蛋白互作网络中的combined score进行分析,识别出58个节点基因(节点的度在整个网络中排前2/3);利用在线工具基因共表达分析(https://www.coexpedia.org)对103个基因分析,识别出50个共表达基因(评分在前2/3)。对58个节点基因和50个共表达基因取交集,从而构建出用于识别间质化机制特征的基因集,该基因集包括35个基因(MTCG)。
步骤三:根据MTCG特征对TCGA肿瘤数据进行分类。从基因表达count数据中提取TCGA肿瘤数据35个MTCG基因的表达情况。利用K-均值聚类,对步骤一中的训练样本进行聚类,参数如下:模拟次数=100;距离=欧几里得距离;连接方式=平均,输入数据为35个基因的表达情况。聚类后根据一致性数据将聚类数定为4。对35个基因进行PCA分析发现,聚类数为4时,可以很好地把各类患者分开。
步骤四:四类间质化程度强弱确定。利用ssGSEA算法以35个基因表达量为输入,计算每个患者的间质化活性评分。根据表达相对强弱,把患者定义为,一类-间质化弱,二类-间质化中,三类-间质化强,四类-间质化强。
步骤五:三类-间质化强,四类-间质化强驱动机制确定。利用KEGG分析,确定MTCG基因所参与的生物学通路,共确定十个通路(包括AGE-RAGE通路、Relaxin通路、FoxO通路、Stem Cell通路、MAPK通路、YAP通路、TGF-beta通路、Wnt通路以及PI3K-AKT通路)。利用ssGSEA算法计算通路的评分。通过对通路评分相对大小的比较,进一步把间质化强的两类命名为三类-间质化强-YAP通路激活,四类-间质化强-AKT通路激活。比较三类和四类的基因突变数据、基因拷贝数变异数据以及利用cibersort算法计算得来的肿瘤微环境构成数据后发现,三类-间质化强-YAP通路激活型是由于肿瘤体细胞突变过多或者拷贝数改变过多而使YAP通路过度活化导致的,四类-间质化强-AKT通路激活型是由于微环境中巨噬细胞浸润过多导致的AKT通路过度活化导致的。
步骤六:靶向治疗敏感性敏感性分析。从肿瘤药敏数据库GDSC(https://www.cancerrxgene.org)获得细胞系数据的基因表达数据和药敏筛选数据。利用R语言预编译包sva包对GDSC数据库的基因表达数据TCGA数据库中的基因表达数据进行去批次。提取GDSC数据库数据中35个MTCG基因的表达情况。利用35个MTCG基因的表达数据,计算GDSC数据库中的样本与TCGA数据四个聚类中心点的欧几里得距离,并把GDSC数据中的样本分别划归到欧几里得距离最短的间质化类型中去。分别比较每种靶向药的IC50值在每类中的大小,从而确定三类-间质化强-YAP通路激活型靶向治疗敏感,四类-间质化强-AKT通路激活型靶向治疗抵抗。
步骤七:免疫治疗敏感性分析。从免疫治疗数据库IMvigor210CoreBiologies(http://research-pub.gene.com/IMvigor210CoreBiologies/packageVersions/)获得患者样本的基因表达和免疫治疗反应性情况。利用R语言预编译包sva包对IMvigor210CoreBiologies数据库的基因表达数据TCGA数据库中的基因表达数据进行去批次。提取IMvigor210CoreBiologies数据库数据中35个MTCG基因的表达情况。利用35个MTCG基因的表达数据,计算IMvigor210CoreBiologies数据库中的样本与TCGA数据四个聚类中心点的欧几里得距离,并把IMvigor210CoreBiologies数据中的样本分别划归到欧几里得距离最短的那间质化类型中去。比较每类中免疫治疗的反应性情况,从而确定四类-间质化强-AKT通路激活型在AKT通路被抑制后免疫治疗敏感。
步骤八:待测样本的间质化分析,获得待测样本的基因表达数据,利用R语言预编译包sva包对待测样本的基因表达数据和TCGA数据库中的基因表达count数据进行去批次,提取待测样本的MTCG基因表达数据,通过计算待测样本与TCGA数据四个聚类中心点的欧几里得距离,把待测样本划归到欧几里得距离最短的间质化类型中,确定待测样本的间质化类型。
实施例1
对鼠胶质瘤细胞系GL261进行测序,获得其基因表达谱,按照具体实施方式中的步骤对鼠胶质瘤细胞系GL261的基因表达谱进行分析,确定鼠胶质瘤细胞系GL261属于四类-间质化强-AKT过度激活型。利用小鼠立体定向技术,将GL261原位种植于小鼠脑中,对其分别进行免疫检查点治疗和使用MK2206抑制四类-间质化强-AKT过度激活型的AKT通路进行治疗,一组对比不同治疗方法小鼠的存活期。另外一组,在15天时处死小鼠,将小鼠脑组织取出,多聚甲醛固定,石蜡包埋切片,采用苏木精—伊红染色法检测肿瘤大小。
图2是鼠胶质瘤免疫检查点阻断治疗效果对比图,其中,图A是经治疗后生存期对比图,图B是治疗后肿瘤大小对比图,图中,NC是不经任何处理的对照组,MK2206是经AKT通路抑制剂治疗组,PD-L1是免疫检查点治疗组,PD-L1+MK2206是免疫检查点联合AKT通路抑制剂治疗组。从图中可以看出,四类-间质化强-AKT过度激活型鼠胶质瘤经免疫检查点联合AKT通路抑制剂治疗后肿瘤明显缩小,小鼠的生存期延长。通过MK2206抑制四类-间质化强-AKT过度激活型的AKT通路可以提高免疫检查点治疗的治疗效果。
实施例2
通过中国脑胶质瘤基因组图谱计划CGGA数据库(http://www.cgga.org.cn)下载388例中国人脑胶质母细胞瘤基因表达数据,通过具体实施方式中的步骤八对其进行分析,将388例中国人脑胶质母细胞瘤分成四种间质化类型。同时,按照步骤四和步骤五对分类后的四组间质化类型进行分析。
图3是中国人脑胶质母细胞瘤患者间质化分类预测图,其中,A是间质化分类结果图,B是四种间质化的间质化评分图,C是四种间质化的YAP通路评分图,D是四种间质化的AKT通路评分图。根据图3,中国人脑胶质母细胞瘤患者被分为四种间质化类型,比较四组的间质化评分,发现三类和四类符合高间质化的特点。比较四组的YAP通路评分,发现三类符合YAP通路激活的特点。比较四组的AKT通路评分,发现四类符合AKT通路激活的特点。可以看出,388例中国人脑胶质母细胞瘤基因数据特征符合一类-间质化弱,二类-间质化中,三类-间质化强-YAP过度激活型,四类-间质化强-AKT过度激活型。
GDSC是药敏数据库,从细胞系的表达谱数据,就可以提取35个基因的表达,然后将其分为四种间质化类型,比较每种药物在四种不同间质化类型中的敏感性情况,从而得到治疗敏感性。
IMvigor210CoreBiologies是免疫治疗数据库,从接受免疫治疗的患者的表达谱中提取35个基因的表达,将其分类,然后比较每类患者中,免疫治疗的反应率,从而得到每类间质化类型的免疫治疗(免疫检查点阻断治疗)敏感或抵抗。之后任意患者样本的数据代入模型中,得到分类。然后根据GDSC和IMvigor210CoreBiologies数据库分析出来的特性,来推定这个患者样本的特性。
以上所述仅是本发明的较佳实施例而已,并非对本发明做任何形式上的限制,任何熟悉本发明的技术人员在不脱离本发明技术范围内,当可利用上述提示的技术内容做出些许变动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化与修饰,均仍属于本发明方案的范围内。
Claims (5)
1.一种预测肿瘤间质化机制及治疗敏感性的方法,其特征在于,该方法包含如下步骤:
步骤一:获取训练样本数据集,从肿瘤基因组图谱TCGA数据库获得训练样本数据集,所述训练样本数据集包括24类上皮肿瘤类型共9415例数据,所述9415例数据包含每例样本的基因突变数据、基因拷贝数变异数据、基因表达count数据和临床信息数据;
步骤二:构建识别间质化机制特征的基因集,从分子特种数据库MsigDB下载四个与肿瘤间质化相关的基因集,所述四个与肿瘤间质化相关的基因集包含①肿瘤间质化,GO ID:001837;②正性调控肿瘤间质化,GO ID:0010718;③逆肿瘤间质化,GO ID:0060231和④负性调控肿瘤间质化,GO ID:0010719,去掉基因集之间的重叠数据,识别出只参与肿瘤间质化正性过程的103个基因,利用在线工具蛋白互作分析和在线工具基因共表达分析分析对所述103个基因分析,构建用于识别间质化机制特征的基因集MTCG;
步骤三:根据基因集MTCG特征对TCGA肿瘤数据进行分类,从步骤一的基因表达count数据中提取TCGA肿瘤数据中MTCG基因的表达数据,利用K-均值聚类,对训练样本数据集进行分类;
步骤四:四类间质化程度强弱确定,利用ssGSEA算法以步骤三得到的MTCG基因的表达数据为输入,计算每例样本的间质化活性评分,根据表达相对强弱,把样本定义为一类-间质化弱、二类-间质化中、三类-间质化强和四类-间质化强;
步骤五:确定三类-间质化强和四类-间质化强的驱动机制,利用KEGG分析,确定基因集MTCG基因参与的十个生物学通路,利用ssGSEA算法计算每个生物学通路的评分,进一步把三类-间质化强和四类-间质化强分别命名为三类-间质化强-YAP通路激活和四类-间质化强-AKT通路激活;
步骤六:靶向治疗敏感性分析,从肿瘤药敏数据库GDSC获得细胞系数据的基因表达数据和药敏筛选数据,利用R语言预编译包sva包对GDSC数据库的基因表达数据和TCGA数据库中的基因表达count数据进行去批次,提取GDSC数据库中的MTCG基因表达数据,利用MTCG基因表达数据,将细胞系分类到步骤四所述的四类间质化中去,比较每种靶向药的IC50值在四类间质化中的大小,确定三类-间质化强-YAP通路激活型靶向治疗敏感,四类-间质化强-AKT通路激活型靶向治疗抵抗;
步骤七:免疫治疗敏感性分析,从免疫治疗数据库IMvigor210CoreBiologies获得样本的基因表达和免疫治疗反应性数据,利用R语言预编译包sva包对IMvigor210CoreBiologies数据库的基因表达数据和TCGA数据库中的基因表达count数据进行去批次,提取IMvigor210CoreBiologies数据库中的MTCG基因表达数据,利用MTCG基因表达数据,将IMvigor210CoreBiologies数据库中的患者分类到步骤四所述的四类间质化中,比较四类间质化的免疫治疗反应情况,确定四类-间质化强-AKT通路激活型在AKT通路被抑制后为免疫治疗敏感;
步骤八:待测样本的间质化分析,获得待测样本的基因表达数据,利用R语言预编译包sva包对待测样本的基因表达数据和TCGA数据库中的基因表达count数据进行去批次,提取待测样本的MTCG基因表达数据,通过计算待测样本与TCGA数据四个聚类中心点的欧几里得距离,把待测样本划归到欧几里得距离最短的间质化类型中,确定待测样本的间质化类型。
2.根据权利要求1所述的一种预测肿瘤间质化机制及治疗敏感性的方法,其特征在于,步骤二中利用在线工具蛋白互作分析对所述103个基因分析,识别出58个节点基因,利用在线工具基因共表达分析对所述103个基因分析,识别出50个共表达基因,对58个节点基因和50个共表达基因取交集,构建用于识别间质化机制特征的包含35个识别基因的基因集MTCG。
3.根据权利要求1所述的一种预测肿瘤间质化机制及治疗敏感性的方法,其特征在于,所述步骤三中K-均值聚类的参数设置为:模拟次数=100,距离=欧几里得距离,连接方式=平均,聚类后根据一致性数据将聚类数设定为4。
4.根据权利要求1所述的一种预测肿瘤间质化机制及治疗敏感性的方法,其特征在于,所述步骤五通过比较三类-间质化强和四类-间质化强的基因突变数据、基因拷贝数变异数据和利用cibersort算法计算得到的肿瘤微环境构成数据,确定三类-间质化强-YAP通路激活型是由于肿瘤体细胞突变过多或者拷贝数改变过多使YAP通路过度活化导致的,四类-间质化强-AKT通路激活型是由于微环境中巨噬细胞浸润过多造成AKT通路过度活化导致的。
5.根据权利要求1所述的一种预测肿瘤间质化机制及治疗敏感性的方法,其特征在于,所述步骤六通过计算GDSC数据库中的样本与TCGA数据四个聚类中心点的欧几里得距离,把GDSC数据中的样本划归到欧几里得距离最短的间质化类型中去,分别比较每种靶向药的IC50值在四类间质化中的大小,确定三类-间质化强-YAP通路激活型靶向治疗敏感,四类-间质化强-AKT通路激活型靶向治疗抵抗;步骤七通过计算IMvigor210CoreBiologies数据库中的样本与TCGA数据四个聚类中心点的欧几里得距离,并把IMvigor210CoreBiologies数据中的样本划归到欧几里得距离最短的间质化类型中去,通过比较每类间质化中对于免疫治疗的反应性情况,确定四类-间质化强-AKT通路激活型在AKT通路被抑制后免疫治疗敏感。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110029152.4A CN112863604B (zh) | 2021-01-10 | 2021-01-10 | 一种预测肿瘤间质化机制及治疗敏感性的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110029152.4A CN112863604B (zh) | 2021-01-10 | 2021-01-10 | 一种预测肿瘤间质化机制及治疗敏感性的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112863604A CN112863604A (zh) | 2021-05-28 |
CN112863604B true CN112863604B (zh) | 2024-02-13 |
Family
ID=76002232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110029152.4A Active CN112863604B (zh) | 2021-01-10 | 2021-01-10 | 一种预测肿瘤间质化机制及治疗敏感性的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112863604B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113421613B (zh) * | 2021-06-08 | 2024-06-18 | 吴安华 | 一种基于铁死亡水平评价胶质母细胞瘤患者免疫治疗反应性的系统及分析方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190037426A (ko) * | 2017-09-29 | 2019-04-08 | 사회복지법인 삼성생명공익재단 | 소화기암 환자의 면역치료 반응성 예측용 tirap 마커 및 이의 용도 |
CN109913420A (zh) * | 2019-03-07 | 2019-06-21 | 北京师范大学 | Cdc20共表达基因网络作为胶质瘤治疗靶点的应用 |
WO2020201267A1 (en) * | 2019-04-01 | 2020-10-08 | Københavns Universitet | Identification of pan-gamma secretase inhibitor (pan-gsi) theranostic response signatures for cancers |
JP2020178667A (ja) * | 2019-04-26 | 2020-11-05 | 国立大学法人 東京大学 | がん治療の効果および予後の予測方法および治療手段の選択方法 |
CN112133365A (zh) * | 2020-09-03 | 2020-12-25 | 南方医科大学南方医院 | 评估肿瘤微环境的基因集、评分模型及其应用 |
CN112164422A (zh) * | 2020-10-12 | 2021-01-01 | 郑州大学第一附属医院 | 一种量化time浸润模式的评分方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7324926B2 (en) * | 1999-04-09 | 2008-01-29 | Whitehead Institute For Biomedical Research | Methods for predicting chemosensitivity or chemoresistance |
JP7295015B2 (ja) * | 2016-10-07 | 2023-06-20 | オムニセック インコーポレイテッド | 個別化治療を決定するための方法 |
US20190214136A1 (en) * | 2017-07-11 | 2019-07-11 | Regents Of The University Of Minnesota | Predictive biomarkers of drug response in malignancies |
WO2019135957A1 (en) * | 2018-01-04 | 2019-07-11 | Nantomics, Llc | Immune gene expression signature in treg enriched tumor samples |
-
2021
- 2021-01-10 CN CN202110029152.4A patent/CN112863604B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190037426A (ko) * | 2017-09-29 | 2019-04-08 | 사회복지법인 삼성생명공익재단 | 소화기암 환자의 면역치료 반응성 예측용 tirap 마커 및 이의 용도 |
CN109913420A (zh) * | 2019-03-07 | 2019-06-21 | 北京师范大学 | Cdc20共表达基因网络作为胶质瘤治疗靶点的应用 |
WO2020201267A1 (en) * | 2019-04-01 | 2020-10-08 | Københavns Universitet | Identification of pan-gamma secretase inhibitor (pan-gsi) theranostic response signatures for cancers |
JP2020178667A (ja) * | 2019-04-26 | 2020-11-05 | 国立大学法人 東京大学 | がん治療の効果および予後の予測方法および治療手段の選択方法 |
CN112133365A (zh) * | 2020-09-03 | 2020-12-25 | 南方医科大学南方医院 | 评估肿瘤微环境的基因集、评分模型及其应用 |
CN112164422A (zh) * | 2020-10-12 | 2021-01-01 | 郑州大学第一附属医院 | 一种量化time浸润模式的评分方法 |
Non-Patent Citations (1)
Title |
---|
Intratumoral heterogeneity of secondharmonic generation scattering from tumor collagen and its effects on metastatic risk prediction;Danielle E. Desa等;《BMCCancer》;20201231;论文第1-14页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112863604A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11996202B2 (en) | Cancer evolution detection and diagnostic | |
Elyasigomari et al. | Cancer classification using a novel gene selection approach by means of shuffling based on data clustering with optimization | |
Li et al. | Identification and characterization of lncRNA mediated transcriptional dysregulation dictates lncRNA roles in glioblastoma | |
WO2019095017A1 (en) | Systems and methods for predicting the efficacy of cancer therapy | |
WO2022170909A1 (zh) | 药物敏感预测方法、电子设备及计算机可读存储介质 | |
CN108664769A (zh) | 基于癌症基因组和非特异性基因标签的大规模药物重定位方法 | |
Zheng et al. | Identification and validation of immunotherapy for four novel clusters of colorectal cancer based on the tumor microenvironment | |
CN107292130B (zh) | 基于基因突变与基因表达的药物重定位方法 | |
CN112863604B (zh) | 一种预测肿瘤间质化机制及治疗敏感性的方法 | |
Pan et al. | A robust two‐gene signature for glioblastoma survival prediction | |
TWI709904B (zh) | 訓練類神經網路以預測個體基因表現特徵的方法及系統 | |
WO2022156610A1 (zh) | 基于基因检测判断肝癌药物敏感性和远期预后的预测工具及其应用 | |
US20230242992A1 (en) | Methods of predicting cancer progression | |
Ruan et al. | Investigation of optimal pathways for preeclampsia using network-based guilt by association algorithm | |
Chen et al. | Single-cell profiling resolved transcriptional alterations and lineage dynamics of subventricular zone after mild traumatic brain injury | |
CN111785319A (zh) | 基于差异表达数据的药物重定位方法 | |
de Sousa et al. | RNA sequencing data of different grade astrocytoma cell lines | |
CN113707223A (zh) | 一种预测肿瘤炎性小体活性状态及治疗敏感性的基因集系统及方法 | |
Flores | Decoding the pharmacogenetics of nonsteroidal anti‐inflammatory drug hypersensitivity | |
CN117594118A (zh) | 卷积神经网络结合网络医学方法预测肿瘤基因组生物标志物的方法 | |
Yu et al. | Diagnostic Genes Identification and Molecular Classification Patterns Based on Oxidative Stress-Related Genes in Ischemic Stroke | |
Wang et al. | Gene expression insights: Chronic stress and bipolar disorder: A bioinformatics investigation | |
Stavroula et al. | A 21-hub-gene Signature in Multiple Sclerosis Identified using Machine Learning Techniques | |
KR20230140439A (ko) | 단일 세포 전사체 분석을 통한 암 미세 환경 내 세포 클러스터의 표적 후보 추천 방법, 그 장치 및 프로그램 | |
Bhambre et al. | Precision and personalized medicine: new way for cancer management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |