CN111933211B - 癌症精准化疗分型标志物筛选方法、化疗敏感性的分子分型方法和应用 - Google Patents
癌症精准化疗分型标志物筛选方法、化疗敏感性的分子分型方法和应用 Download PDFInfo
- Publication number
- CN111933211B CN111933211B CN202010854377.9A CN202010854377A CN111933211B CN 111933211 B CN111933211 B CN 111933211B CN 202010854377 A CN202010854377 A CN 202010854377A CN 111933211 B CN111933211 B CN 111933211B
- Authority
- CN
- China
- Prior art keywords
- chemotherapy
- typing
- cancer
- analysis
- protein
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002512 chemotherapy Methods 0.000 title claims abstract description 171
- 238000000034 method Methods 0.000 title claims abstract description 76
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 66
- 201000011510 cancer Diseases 0.000 title claims abstract description 58
- 239000003550 marker Substances 0.000 title claims abstract description 21
- 238000012216 screening Methods 0.000 title claims abstract description 19
- 230000035945 sensitivity Effects 0.000 title description 6
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 95
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 90
- 230000008901 benefit Effects 0.000 claims abstract description 25
- 238000010801 machine learning Methods 0.000 claims abstract description 4
- 238000007635 classification algorithm Methods 0.000 claims abstract description 3
- 238000004458 analytical method Methods 0.000 claims description 71
- 208000005718 Stomach Neoplasms Diseases 0.000 claims description 59
- 206010017758 gastric cancer Diseases 0.000 claims description 58
- 201000011549 stomach cancer Diseases 0.000 claims description 58
- 230000004083 survival effect Effects 0.000 claims description 58
- 230000000973 chemotherapeutic effect Effects 0.000 claims description 32
- YXTKHLHCVFUPPT-YYFJYKOTSA-N (2s)-2-[[4-[(2-amino-5-formyl-4-oxo-1,6,7,8-tetrahydropteridin-6-yl)methylamino]benzoyl]amino]pentanedioic acid;(1r,2r)-1,2-dimethanidylcyclohexane;5-fluoro-1h-pyrimidine-2,4-dione;oxalic acid;platinum(2+) Chemical compound [Pt+2].OC(=O)C(O)=O.[CH2-][C@@H]1CCCC[C@H]1[CH2-].FC1=CNC(=O)NC1=O.C1NC=2NC(N)=NC(=O)C=2N(C=O)C1CNC1=CC=C(C(=O)N[C@@H](CCC(O)=O)C(O)=O)C=C1 YXTKHLHCVFUPPT-YYFJYKOTSA-N 0.000 claims description 19
- 238000009104 chemotherapy regimen Methods 0.000 claims description 19
- ZSTCHQOKNUXHLZ-PIRIXANTSA-L [(1r,2r)-2-azanidylcyclohexyl]azanide;oxalate;pentyl n-[1-[(2r,3r,4s,5r)-3,4-dihydroxy-5-methyloxolan-2-yl]-5-fluoro-2-oxopyrimidin-4-yl]carbamate;platinum(4+) Chemical compound [Pt+4].[O-]C(=O)C([O-])=O.[NH-][C@@H]1CCCC[C@H]1[NH-].C1=C(F)C(NC(=O)OCCCCC)=NC(=O)N1[C@H]1[C@H](O)[C@H](O)[C@@H](C)O1 ZSTCHQOKNUXHLZ-PIRIXANTSA-L 0.000 claims description 17
- BASFCYQUMIYNBI-UHFFFAOYSA-N platinum Chemical compound [Pt] BASFCYQUMIYNBI-UHFFFAOYSA-N 0.000 claims description 17
- 238000002474 experimental method Methods 0.000 claims description 16
- HEVGGTGPGPKZHF-UHFFFAOYSA-N Epilaurene Natural products CC1C(=C)CCC1(C)C1=CC=C(C)C=C1 HEVGGTGPGPKZHF-UHFFFAOYSA-N 0.000 claims description 12
- 238000003205 genotyping method Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 9
- GHASVSINZRGABV-UHFFFAOYSA-N Fluorouracil Chemical compound FC1=CNC(=O)NC1=O GHASVSINZRGABV-UHFFFAOYSA-N 0.000 claims description 7
- 229960002949 fluorouracil Drugs 0.000 claims description 7
- 229910052697 platinum Inorganic materials 0.000 claims description 7
- 108090000765 processed proteins & peptides Proteins 0.000 claims description 7
- 150000002500 ions Chemical class 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 239000012474 protein marker Substances 0.000 claims description 6
- 108010033276 Peptide Fragments Proteins 0.000 claims description 5
- 102000007079 Peptide Fragments Human genes 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 238000012098 association analyses Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000000737 periodic effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 claims description 2
- 238000012706 support-vector machine Methods 0.000 claims description 2
- 239000003814 drug Substances 0.000 abstract description 8
- 238000001228 spectrum Methods 0.000 abstract description 8
- 229940079593 drug Drugs 0.000 abstract description 7
- 238000006243 chemical reaction Methods 0.000 abstract description 2
- 238000011282 treatment Methods 0.000 description 27
- 239000000523 sample Substances 0.000 description 14
- 238000001514 detection method Methods 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 9
- 239000000463 material Substances 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 108010026552 Proteome Proteins 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 102100031065 Choline kinase alpha Human genes 0.000 description 3
- 101710106334 Choline kinase alpha Proteins 0.000 description 3
- 102000000763 Survivin Human genes 0.000 description 3
- 108010002687 Survivin Proteins 0.000 description 3
- 239000003153 chemical reaction reagent Substances 0.000 description 3
- 238000001819 mass spectrum Methods 0.000 description 3
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004393 prognosis Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 239000002246 antineoplastic agent Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 229940044683 chemotherapy drug Drugs 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000013079 data visualisation Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000001747 exhibiting effect Effects 0.000 description 2
- 238000010195 expression analysis Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 230000001225 therapeutic effect Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- -1 xol Chemical compound 0.000 description 2
- 241001412224 Firmiana Species 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 108091000080 Phosphotransferase Proteins 0.000 description 1
- 229940123237 Taxane Drugs 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000035572 chemosensitivity Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000000968 intestinal effect Effects 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 239000012188 paraffin wax Substances 0.000 description 1
- 238000011338 personalized therapy Methods 0.000 description 1
- 102000020233 phosphotransferase Human genes 0.000 description 1
- 150000003057 platinum Chemical class 0.000 description 1
- 238000011518 platinum-based chemotherapy Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000751 protein extraction Methods 0.000 description 1
- 238000000575 proteomic method Methods 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
- G01N33/57407—Specifically defined cancers
- G01N33/57446—Specifically defined cancers of stomach or intestine
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
- G01N33/57484—Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/20—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/106—Pharmacogenomics, i.e. genetic variability in individual responses to drugs and drug metabolism
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/112—Disease subtyping, staging or classification
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/158—Expression markers
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Immunology (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Analytical Chemistry (AREA)
- Pathology (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Urology & Nephrology (AREA)
- Biochemistry (AREA)
- Hematology (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Oncology (AREA)
- Organic Chemistry (AREA)
- Hospice & Palliative Care (AREA)
- Cell Biology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Microbiology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Genetics & Genomics (AREA)
- Medicinal Chemistry (AREA)
- General Physics & Mathematics (AREA)
- Food Science & Technology (AREA)
- Library & Information Science (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
Abstract
本发明涉及一种癌症精准化疗分型标志物筛选方法、化疗敏感性的分子分型方法和应用,该方法通过从多中心、大样本队列中获得分型标志物,发现分子分型,进而利用分型标志物或者使用基于分型标签得到的差异蛋白作为选择特征,构建分类器;所述分类器进行分类应用时,输入采集样本的表达谱数据,进行表达谱数据预处理、分类器特征匹配、对数转化后、经过机器学习分类算法或者人工智能模型构建的分类器预测后,最后得到化疗敏感组或化疗不敏感组的输出标签,进行精准化疗的分子分型,解决了肿瘤医疗领域的痛点问题,包括精准判别化疗是否获益人群、提供一线用药方案最佳组合推荐以及提供化疗方案最适周期推荐。
Description
技术领域
本发明涉及肿瘤临床医学领域,具体涉及一种癌症精准化疗分型标志物筛选方法、化疗敏感性的分子分型方法和应用。
背景技术
据中国国家癌症中心于2019年1月发布的最新一期的全国癌症统计数据显示,癌症已经成为严重威胁中国人群健康的主要公共卫生问题之一,恶性肿瘤死亡占居民全部死因的23.91%,且近十几年来恶性肿瘤的发病死亡均呈持续上升态势,每年恶性肿瘤所致的医疗花费超过2200亿,防控形势严峻。
以胃癌为例,胃癌是世界范围发病率第五位的常见肿瘤,是仅次于肺癌、肝癌的第三位癌症死因。作为胃癌的高发大国,我国胃癌的发病率和死亡率均位居恶性肿瘤的第二位,严重危害国人健康。与日韩等国家早诊早治的特点不同,我国胃癌确诊时约70%患者处于局部进展期或晚期(进展期胃癌),进展期胃癌预后很差,即使进行根治性手术,复发率也高达30%~70%,治疗原则是以化疗为主的多学科综合治疗,氟尿嘧啶类与铂类或者紫杉类等化疗药的组合成为临床上一、二线的路径。随着精准医疗概念的提出,针对所有患者使用同一化疗方案的治疗方法显然已不能满足临床需求。
为了更好的预测患者预后和指导个体治疗方案,研究者一直对胃癌合理的分型进行探究。目前应用最广泛的分型方式是基于形态学的病理学分型,即Lauren分型。从发病率来看肠型胃癌要占到全胃癌的54%,而弥漫型胃癌占32%,混合型胃癌大约为15%。然而,组织病理学分型的分类不够细致,且同为肠型或者弥漫型的病人预后和治疗敏感性大有不同,而不同亚型的患者也可能具有同样的分子特征,因此基于分子分型了解胃癌异质性至关重要。
另外,基因检测也是目前癌症精准分型与精准用药的一个重要方法。但是,基因与生命活动的最终执行者——蛋白质之间仍然存在较大差异,难以直接反映生命变化。基因水平信息反映的是疾病发生的概率(即可能性),而蛋白质作为生命活动的最终执行者,其状态的改变更为直接地反映了疾病的发生、发展状况。目前基于基因组数据完成的分子分型工作,如肿瘤基因组项目(TCGA)的4iCluster-subtypes,Critescu et al.的4PCA-subtypes等,虽然从基因层面描绘出了胃癌的不同“画像”,揭示了不同“性格”胃癌的分子特征,但对于真正改变临床实践还是任重道远。
胃癌治疗中存在的重大难题是“个体化”差异,以及“癌症分型与临床治疗效果关联度低”,而依靠分期或病理类型等临床特征以及现有的基因组分型特征还无法突破现有瓶颈。蛋白质组因其更接近生物信息传递的表层,基于蛋白质组数据的分型,将有助于区分出化疗中最能获益的治疗群体,预测治疗结果,优化治疗方案,避免过度化疗给病人带来的经济负担和身体痛苦,实现胃癌精准化疗从0到1的突破;从长远期看,将有助于胃癌新型靶向性治疗方案的研发,无论是新药开发,或是老药新用,都将对提高胃癌的有效率具有至关重要的意义。
目前尚没有临床级指导癌症精准化疗的解决方案设计相关资料公开。以胃癌为例,现有的基于形态学的病理分型——Lauren分型虽然对胃癌治疗起着一定的指导作用,但不同Lauren分型对于不同的化疗药物疗效差异较大,同种药物对不同的分型疗效亦有差异。基于基因组技术产生的一系列关于胃癌的分子分型,大多使用的是手术切除后冷冻的新鲜组织,相较于石蜡包埋(FFPE)样本,对于样本存储的要求更高,样本量少,随访信息缺乏,其对应的分型的结果通常与生物功能进行关联,但没有切实回答哪些病人适合化疗、适合什么方案、最佳使用周期等肿瘤医疗领域的痛点问题。
公开号为CN103687964A的中国专利公开了一种用于预测患有癌症之对象对化疗之临床响应的方法,涉及胆碱激酶α作为预测性标志物用于在患有癌症之对象中确定对化疗性治疗之响应的用途,特别是用于预测患有非小细胞肺癌之对象对基于铂之化疗性治疗的临床响应的用途。本发明涉及基于胆碱激酶α的表达水平为患有癌症(特别是非小细胞肺癌)的对象设计个性化治疗的方法,并且涉及基于在对象中使用基于铂的化疗性治疗来治疗非小细胞肺癌的方法,其中基于胆碱激酶α的表达水平来选择所述对象。但是该专利没有切实回答哪些病人适合化疗,适合什么方案,最佳使用周期等肿瘤医疗领域的痛点问题。
此外,一方面由于对本领域技术人员的理解存在差异;另一方面由于发明人做出本发明时研究了大量文献和专利,但篇幅所限并未详细罗列所有的细节与内容,然而这绝非本发明不具备这些现有技术的特征,相反本发明已经具备现有技术的所有特征,而且申请人保留在背景技术中增加相关现有技术之权利。
发明内容
根据上述领域的需求和空白,本发明基于质谱的定量蛋白质组学技术,采用定量FOT值构成的蛋白表达谱,对其进行精准化疗的分子分型,解决了肿瘤医疗领域的痛点问题,包括精准判别化疗是否获益人群、提供一线用药方案最佳组合推荐以及提供化疗方案最适周期推荐,具体方案如下:
本发明一方面提供一种癌症分型标志物的筛选方法,包含如下处理过程:
a)高置信蛋白筛选:从来自于多个样本形成的蛋白质表达谱数据中筛选蛋白,筛选的蛋白含有至少一条专属肽段(unique peptide)且离子分值(ion score)大于等于20,且至少二条离子分值大于等于20的肽段,或者三条离子分值大于等于20的肽段;
b)剔除在样本中出现频次低于预设出现频率的蛋白或保留高于预设出现频率的蛋白;
c)去除冗余蛋白;
d)选取FOT值排名在预设位置前的蛋白用于后续分析;
e)基于总和的定量数据标准化:针对所选蛋白集,对于每一列,计算FOT之和,然后将每个蛋白的FOT除以前述FOT总和,得到基于总和的定量数据标准化后的数据,为了便于数据可视化,标准化后的数值再乘以105。
在上述技术方案中,还包含如下处理过程:
所选蛋白在样本间存在差异,具有变异系数CV大于或等于预设值;
优选所述癌症为胃癌时,CV大于等于2.7。
所述的蛋白质表达谱数据包括:蛋白的标识符,如Protein GI number,Accession和Gene Symbol;对应蛋白在当前实验中的定量表达值(包括标准化前后,如标准化前的Spectral count、iBAQ等,标准化后的iFOT、LFQ等)。
在上述技术方案中,
b)剔除鉴定频次低于500-1000的蛋白,优选700,或保留满足最低鉴定频次,即占总实验数的1/10;
c)去除冗余蛋白:剔除样本中1%-10%的极高丰度的蛋白,优选5%,其FOT之和占总体FOT的60%-90%,优选80%;
d)选取FOT值排名在800-1200,优选1000的蛋白用于后续分析。
本发明另一方面提供一种关联临床化疗信息的癌症化疗分子分型方法,包括如下步骤:
(1)根据所述筛选方法选出该种癌症的分型标志物集,以及检测所述分型标志物集中每个蛋白的FOT值;
(2)对所述分型标志物集进行以下分型步骤:
a.采用log(1+x)对所述分型标志物集中的每个蛋白的FOT值进行转换,其中x即蛋白的FOT值;
b.采用非负矩阵分解(NMF)一致性聚类方法对蛋白标志物集进行分型,并为每个分型分配NMF分型标签;
(3)关联所述多个样本的临床信息进行生存分析;
i.提供所述多个样本的临床信息,包含:是否化疗、总生存时间、是否死亡、性别、年龄、TNM分期、Lauren分型;
ii.对所述多个样本进行生存分析:采用K-M方法和Cox多因素分析;
(4)根据步骤(3)的结果,对步骤(2)的分型结果进行参数调整得到癌症化疗分子分型参考表。
在上述技术方案中,步骤(3)中的关联分析还包括关联所述多个样本的临床化疗方案进行生存分析:
a'.将化疗方案进行归纳分类得出化疗分类方案一,化疗分类方案二、…、化疗分类方案N;
b'.基于化疗是否获益亚组,对每个分类方案进行生存分析;
i.纳入分析的临床变量包括:是否化疗、化疗是否获益标签、方案分类标签、是否使用对应方案、是否死亡、总生存时间;
ii.生存分析的方法:K-M曲线和Cox多因素分析,因素包含性别,年龄,TNM分期,Lauren分型。
在上述技术方案中,步骤(3)中的关联分析还包括关联所述多个样本的临床化疗周期进行生存分析:
c'.化疗周期归纳分组:对每一个所述化疗分类方案的的化疗周期进行归纳,并分配化疗周期分组标签;
d'.基于化疗是否获益亚组,展开不同分组周期的生存分析;
基于化疗是否获益亚组,对每个分类方案进行生存分析;
i.纳入分析的临床变量:是否化疗、周期分组标签、是否死亡、总生存时间;
ii.生存分析的方法:K-M曲线和Cox多因素分析,因素包含性别,年龄,TNM分期,Lauren分型;
所述癌症化疗分子分型参考表包含分型标签、化疗获益和不获益亚组、化疗方案分类、不同化疗方案的最佳适用周期。
所述的癌症化疗分子分型方法,所述癌症是胃癌,并且包括:
a'.将化疗方案进行归纳分类得出化疗分类方案一额化疗分类方案二,其中分类方案一包含不化疗(NoChemo)、氟尿嘧啶加铂类方案(Fu+Pt)、其他方案;其中分类方案二包含不化疗方案、FOLFOX方案、XELOX方案、SOX方案、其他方案;
c'.所述化疗周期归纳分组:
针对所述分类方案一,优选地,氟尿嘧啶加铂类方案的化疗周期归纳为2、3、4、5|7、6、8、9|10|11|12;
针对所述分类方案二,优选地,FOLFOX方案的化疗周期归纳为1|2|3、4、6、8|9|10|11|12;
针对所述分类方案二,优选地,XELOX方案的化疗周期归纳为2|3|4、6、7|8|10;
针对所述分类方案二,优选地,SOX方案的化疗周期归纳为2|3|4、6、7|8。
本发明的再一方面提供一种癌症精准化疗分类器的构建方法,包括以下步骤:
(1)选择分类器特征:使用上述任一癌症分型标志物的筛选方法获得的分型标志物或者使用分型差异蛋白;
(2)分类器选择:已知机器学习分类算法或者人工智能模型,如随机森林、支持向量机;
(3)输入数据:log(FOT+1),前述癌症化疗分子分型方法产生的NMF分型标签;其中FOT来自于所述分型标志物或者使用分型差异蛋白;
(4)对算法进行准确性测试,优选采用10折交叉验证。
在上述技术方案中,所述癌症指胃癌,所述分型标志物如表1所列。
本发明的再一方面提供了前述的构建方法得到的胃癌精准化疗分类器。
本发明的再一方面提供了一种胃癌精准化疗分型标志物在制备胃癌患者化疗敏感性检测试剂盒和/或芯片中的应用,所述胃癌精准化疗分型标志物为表1中所示的110个蛋白分型标志物。
在上述技术方案中,所述检测包括分型诊断、化疗方案选择及最适化疗周期确定中的任意一种或多种。
本发明的再一方面提供了一种胃癌患者化疗敏感性检测试剂盒或芯片,其特征在于:所述检测芯片存储有表1中所示的蛋白分型标志物的信息,优选地,还存储有上述所述的分类器。
本发明提供一种胃癌患者化疗敏感性检测芯片,所述检测芯片存储有表1中所示的癌症分型标志物的检测试剂,所述检测试剂是特异性抗体、特异性核苷酸探针(如catTFRE技术)或针对特定类别蛋白(如激酶)的特异性底物小分子。
本发明的最后一方面提供了一种用于个体胃癌精准化疗分型的装置,其特征在于,具有以下模块:
1)蛋白标志物筛选模块:用于完成上述癌症分型标志物的筛选,从待分析个体样本形成的蛋白质表达谱数据中选出其癌症分型标志物;
2)蛋白标志物分型模块:用于采用前述癌症化疗分子分型方法对个体癌症分型标志物集进行分型并生成NMF分型标签;
3)分型器模块:接收输入log(FOT+1)和NMF分型标签,进行分类器特征匹配,对数转化,预测;
4)分型结果输出单元:将个体胃癌精准化疗分型推荐结果输出。
本发明的有益效果是:1)使用了满足临床研究大样本要求的FFPE样本,数量多,可以从多个中心收集,保存时间长,随访信息完整;2)第一次使用基于质谱的定量蛋白质组学技术,采用定量FOT值构成的蛋白表达谱,对其进行精准化疗的分子分型,解决了肿瘤医疗领域的痛点问题,包括精准判别化疗获是否获益人群、提供一线用药方案最佳组合推荐以及提供化疗方案最适周期推荐。
附图说明
图1是去除冗余蛋白得到的结果;
图2是胃癌NMF分型结果;
图3是胃癌生存分析——K-M曲线;
图4是胃癌生存分析——Cox多因素分析;
图5是胃癌最佳化疗方案选择-归类方案1;
图6是胃癌最佳化疗方案选择-归类方案2;
图7是胃癌最适化疗周期指导-归类方案一;
图8是胃癌最适化疗周期指导-归类方案二;
图9是构建得到的胃癌精准化疗分类器。
具体实施方式
下面结合具体实施例对本发明作示例性说明。下述实施例中的实验方法,如无特别说明,均为常规方法。下述实施例中所使用的材料、试剂等,如无特殊说明,均可通过商业途径获得。
实施例1获得胃癌FFPE样本的蛋白质表达谱数据
针对1020例已知胃癌病例的FFPE样本进行蛋白质提取和分析,详细步骤依据专利申请CN110146636A中实施例1第一部分记载的步骤。
对样本进行质谱检测,检测和分析参照专利申请CN108445097A中具体实施方式部分“三、胃癌蛋白样品的质谱检测;四、胃癌蛋白样品的质谱数据分析”部分:
使用Firmiana计算平台解析质谱数据,进行肽段的鉴定和蛋白的组装,采用iBAQ算法进行蛋白定量,从而构成蛋白质表达谱数据,包括:蛋白的标识符,如Protein GInumber,Accession或Gene Symbol;对应蛋白在当前实验中的定量表达值(包括标准化前后,如标准化前的Spectral count、iBAQ等,标准化后的iFOT、LFQ等)。
实施例2分型标志物的选择
基于实施例1的数据进行分型标志物选择,具体步骤如下:
1)蛋白表达谱预处理和实验过滤
a)高置信蛋白筛选:要求定量的蛋白含有至少一条专属肽段(unique peptide)且离子分值(ion score)大于等于20,且至少二条离子分值大于等于20的肽段,或者三条离子分值大于等于20的肽段。
b)剔除蛋白鉴定频次低于700的实验(该步骤可根据不同癌症、不同样本类型的实际蛋白鉴定数进行调整)。
c)将1020个样本分为发现集(742个样本)和验证集(278个样本)。
d)基于742个样本构成的发现集去除冗余蛋白:5%的蛋白FOT之和占总体FOT的80%,结果如图1所示:针对蛋白表达谱矩阵(行是蛋白,列是实验),计算每个蛋白的平均值,X轴是蛋白的平均值的大小排名(降序),Y轴是平均值的累积和。图中虚线表示蛋白的平均值累积和达到平均值总和的80%。剔除累积和达到虚线处之前的所有蛋白(冗余蛋白),大约占总体5%。
e)选取每个实验的FOT值排名前1000(Top1000)的3772个蛋白用于后续分析。
f)基于总和的定量数据标准化:针对所选蛋白集,对于每一列(即实验),计算FOT之和,然后将每个蛋白的FOT除以前述FOT总和,得到基于总和的定量数据标准化后的数据,为了便于数据可视化,标准化后得数值再乘以105。
2)分型标志物的选择
a)基于742个胃癌FFPE样本构成的发现集,满足最低鉴定频次,即占总实验数的1/10,该步骤可根据不同癌症、不同样本类型的蛋白质组数据进行调整;
b)基于742个胃癌FFPE样本构成的发现集,在样本间存在较大差异,变异系数(CV)大于等于2.7(每个分型标志物的CV是基于标准化后的数据计算得到的),该步骤可根据不同癌症、不同样本类型的蛋白质组数据进行调整;
按照上述筛选步骤,基于742个胃癌FFPE样本构成的发现集,最终获得如表1所示的110个分型标志物。
表1
实施例3胃癌的精准化疗的分子分型
第一部分:精准化疗的分子分型
(1)对实施例2得到的分型标志物集进行以下分型步骤:
a.采用log(1+x)对分型标志物集中的每个蛋白的FOT值进行转换,其中x即蛋白的FOT值;转换后的数据如下表2所示(表中,行是分型标志物,列是实验):
表2
b.采用非负矩阵分解(NMF)一致性聚类方法对分型标志物集进行分型,并为每个分型分配NMF分型标签,具体如下:
加载R语言程序包CancerSubtypes,使用ExecuteCNMF函数对分型标志物表达谱进行分析,参数clusterNum设置为2,nrun设置为50。
NMF分型结果如表3所示:
表3
实验号 | 分型标签 |
Exp027601 | 2 |
Exp027603 | 2 |
Exp027607 | 1 |
Exp027617 | 2 |
Exp027621 | 2 |
Exp027623 | 1 |
省略733个实验号 | ······ |
Exp059510 | 2 |
Exp059514 | 2 |
Exp059516 | 2 |
总共742个实验号 |
分型结果如图2所示,图2A根据非负矩阵分解一致性聚类方法,无监督地将742个样本分成二类(Cluster 1和2);图2B为轮廓系数图,轮廓系数作为一种聚类效果的评价指标,需满足单个类别的轮廓系数和平均轮廓系数中大于等于0.8,轮廓系数越大,聚类越好。
(2)关联临床信息,进行生存分析
i.临床信息:如下表4所示:
表4
ii.生存分析:K-M方法和Cox多因素分析。
K-M方法:
针对前述临床信息和NMF分型标签,使用R语言程序包survival中的survfit函数进行K-M生存分析,输入数据包括表4中患者的总生存时间、生存状态和是否化疗分组,其他参数默认,得到一个survfit结果对象。
使用R语言程序包survminer中的ggsurvplot函数,输入前述survfit结果对象绘制K-M生存曲线图。
Cox多因素分析:
针对前述临床信息和NMF分型标签,使用R语言程序包survival中的survival函数进行COX多因素生存分析,输入数据包括表4中患者的总生存时间、生存状态,是否化疗分组,以及协变量(年龄、性别、AJCC分期、Lauren分型),其他参数默认,得到一个coxph结果对象。
使用R语言程序包survminer中的ggforest函数,输入前述coxph结果对象绘制Cox多因素生存分析的森林图。
绘制的K-M曲线如图3所示,可见:
如图3A所示,将化疗敏感组(CSG:Chemo-sensitive group)的患者分为接受化疗和未接受化疗的两组,根据Kaplan-Meier方法绘制的生存曲线,Log-rank P=0.00058表示接受化疗和未接受化疗的两组患者生存存在显著差异,HR=0.49(P<0.001)来自Cox多因素分析,表示接受化疗比未接受化疗的患者的死亡风险显著降低51%。
如图3B所示,将化疗不敏感组(CIG:Chemo-insensitive group)的患者分为接受化疗和未接受化疗的两组,根据Kaplan-Meier方法绘制的生存曲线,Log-rank P=0.61表示接受化疗和未接受化疗的两组患者生存无差异,HR=0.82(P=0.325)来自Cox多因素分析,表示接受化疗和未接受化疗的患者的死亡风险无显著差别。
Cox多因素分析结果如图4所示,可见:
如图4A所示,将化疗敏感组(CSG:Chemo-sensitive group)的患者分为接受化疗和未接受化疗的两组,引入协变量,包括年龄,性别,AJCC分期,进行Cox多因素分析,绘制森林图,Chemotherapy status栏,HR=0.54,Pvalue=0.025,表示接受化疗比未接受化疗的患者的死亡风险显著降低46%。
如图4B所示,将化疗不敏感组(CIG:Chemo-insensitive group)的患者分为接受化疗和未接受化疗的两组,引入协变量,包括年龄,性别,AJCC分期,进行Cox多因素分析,绘制森林图,Chemotherapy status栏,HR=1.06,Pvalue=0.914,表示接受化疗和未接受化疗的患者的死亡风险无显著差别。
(3)根据步骤(2)的结果,对步骤b的分型结果进行参数调整:
如果NMF分型的结果和临床化疗结果关联不上,即不能区分出化疗敏感和不敏感亚组,则改变实施例2中分型标志物的选择的卡值标准,调整鉴定频次和CV卡值。
至此,确定了NMF的分型结果可以和临床的化疗结果关联后,进一步去探究分型结果和临床化疗方案和周期的关联。
第二部分:临床化疗方案和周期关联分析
1)最佳化疗方案选择
a)对所选样本进行化疗方案归纳分类
i.分类方案一:不化疗(No Chemo)、氟尿嘧啶加铂类方案(Fu+Pt)、其他方案(Others)
ii.分类方案二:不化疗、FOLFOX方案、XELOX方案、SOX方案、其他方案
具体分类结果如下表5所示:
表5
b)基于化疗是否获益亚组,展开不同分类方案的生存分析
i.纳入分析的临床变量:是否化疗,化疗是否获益标签,方案分类标签、是否使用对应方案,是否死亡,总生存时间;临床变量信息见下表6:
表6
/>
ii.生存分析的方法:对表6中的数据进行K-M曲线和Cox多因素分析(协变量:性别,年龄,TNM分期,Lauren分型);
得出最佳化疗方案选择-归类方案1,结果如图5所示:
如图5A,将化疗敏感组(CSG:Chemo-sensitive group)的患者分为未接受化疗、接受FU+Pt方案治疗和接受非FU+Pt方案(Others)治疗的三组,根据Kaplan-Meier方法绘制的生存曲线,Log-rank P=0.00049表示未接受化疗、接受FU+Pt方案治疗和接受非FU+Pt方案治疗的三组患者生存存在显著差异。Fu+Pt:HR=0.38(P<0.001)来自Cox多因素分析,表示接受FU+Pt方案治疗比未接受化疗的患者的死亡风险显著降低62%。Others:HR=0.56(P<0.019)来自Cox多因素分析,表示接受非FU+Pt方案治疗比未接受化疗的患者的死亡风险显著降低44%。
如图5B,将化疗不敏感组(CIG:Chemo-insensitive group)的患者分为未接受化疗、接受FU+Pt方案治疗和接受非FU+Pt方案(Others)治疗的三组,根据Kaplan-Meier方法绘制的生存曲线,Log-rank P=0.18表示未接受化疗、接受FU+Pt方案治疗和接受非FU+Pt方案治疗的三组患者生存无显著差异。Fu+Pt:HR=0.68(P<0.08)来自Cox多因素分析,表示接受FU+Pt方案治疗比未接受化疗的患者的死亡风险无显著差别。Others:HR=0.89(P<0.66)来自Cox多因素分析,表示接受非FU+Pt方案治疗比未接受化疗的患者的死亡风险无显著差别。
得出最佳化疗方案选择-归类方案2,结果如图6所示:
如图6A,将化疗敏感组(CSG:Chemo-sensitive group)的患者分为未接受化疗、接受FOLFOX方案治疗、接受XELOX方案治疗、接受SOX方案治疗和接受非FOLFOX/XELOX/SOX(Others)治疗的五组,根据Kaplan-Meier方法绘制的生存曲线,Log-rank P=0.002表示未接受化疗、接受FOLFOX方案治疗、接受XELOX方案治疗、接受SOX方案治疗和接受非FOLFOX/XELOX/SOX治疗的五组患者生存存在显著差异。FOLFOX:HR=0.46(P=0.014)来自Cox多因素分析,表示接受FOLFOX方案治疗比未接受化疗的患者的死亡风险显著降低54%。XELOX:HR=0.43(P=0.012)来自Cox多因素分析,表示接受XELOX方案治疗比未接受化疗的患者的死亡风险显著降低57%。SOX:HR=0.19(P=0.001)来自Cox多因素分析,表示接受SOX方案治疗比未接受化疗的患者的死亡风险显著降低81%。Others:HR=0.54(P=0.012)来自Cox多因素分析,表示接受Others方案治疗比未接受化疗的患者的死亡风险显著降低46%。
如图6B,将化疗不敏感组(CIG:Chemo-insensitive group)的患者分为未接受化疗、接受FOLFOX方案治疗、接受XELOX方案治疗、接受SOX方案治疗和接受非FOLFOX/XELOX/SOX(Others)治疗的五组,根据Kaplan-Meier方法绘制的生存曲线,Log-rank P=0.57表示未接受化疗、接受FOLFOX方案治疗、接受XELOX方案治疗、接受SOX方案治疗和接受非FOLFOX/XELOX/SOX治疗的五组患者生存无显著差异。FOLFOX:HR=0.80(P=0.427)来自Cox多因素分析,表示接受FOLFOX方案治疗比未接受化疗的患者的死亡风险无显著差别。XELOX:HR=0.71(P=0.232)来自Cox多因素分析,表示接受XELOX方案治疗比未接受化疗的患者的死亡风险无显著差别。SOX:HR=0.60(P=0.071)来自Cox多因素分析,表示接受SOX方案治疗比未接受化疗的患者的死亡风险无显著差别。Others:HR=0.83(P=0.452)来自Cox多因素分析,表示接受Others方案治疗比未接受化疗的患者的死亡风险无显著差别。
1)最适化疗周期指导(以胃癌临床蛋白质组学分析为例)
a)化疗周期归纳分组
i.针对1)中的分类方案一,氟尿嘧啶加铂类方案的化疗周期归纳为2、3、4、5|7、6、8、9|10|11|12
ii.针对1)中的分类方案二,FOLFOX方案的化疗周期归纳为1|2|3、4、6、8|9|10|11|12
iii.针对1)中的分类方案二,XELOX方案的化疗周期归纳为2|3|4、6、7|8|10
iv.针对1)中的分类方案二,SOX方案的化疗周期归纳为2|3|4、6、7|8
b)基于化疗是否获益亚组,展开不同分组周期的生存分析
i.纳入分析的临床变量:是否化疗,周期分组标签,是否死亡,总生存时间,如表7:
表7
ii.生存分析的方法:用表7中的数据进行K-M曲线和Cox多因素分析(性别,年龄,TNM分期,Lauren分型)
分析得到如图7所示的最适化疗周期指导-归类方案一:
如图7A,将化疗敏感组(CSG:Chemo-sensitive group)的患者中接受Fu+Pt患者根据化疗周期(CC:chemotherapy cycle)进行分组,分别对应CC=2;3;4;5|7;6;8;9|10|11|12七组,结合协变量(年龄、性别和AJCC分期),同未化疗组病人相比,进行Cox多因素分析,CC=4;6;9|10|11|12(P<0.05)三组,患者的死亡风险显著降低。
如图7B,将化疗敏感组(CSG:Chemo-sensitive group)的患者中接受Fu+Pt患者根据化疗周期(CC:chemotherapy cycle)进行分组,分别对应CC=2;3;4;5|7;6;8;9|10|11|12七组,根据Kaplan-Meier方法绘制的生存曲线,Log-rank P=0.0022表示前述七组患者与未化疗的患者相比,生存存在显著差异。
如图7C,针对CC=2;3;4;5|7;6;8;9|10|11|12七组和未化疗组,计算每个组别的5年生存率,呈现化疗周期差异。
分析得到如图8所示的最适化疗周期指导-归类方案二:
如图8A,将化疗敏感组(CSG:Chemo-sensitive group)的患者中接受SOX患者根据化疗周期(CC:chemotherapy cycle)进行分组,分别对应CC=2|3|4;6;7|8三组,结合协变量(年龄、性别和AJCC分期),同未化疗组病人相比,进行Cox多因素分析,CC=2|3|4组,患者的死亡风险显著降低。
如图8B,将化疗敏感组(CSG:Chemo-sensitive group)的患者中接受SOX患者根据化疗周期(CC:chemotherapy cycle)进行分组,分别对应CC=2|3|4;6;7|8三组,根据Kaplan-Meier方法绘制的生存曲线,Log-rank P=0.0062表示前述三组患者与未化疗的患者相比,生存存在显著差异。
如图8C,针对CC=2|3|4;6;7|8三组和未化疗组,计算每个组别的5年生存率,呈现化疗周期差异。
第三部分:构建癌症精准化疗参考表
基于第一部分和第二部分的结果,构建癌症精准化疗参考表,包括以下信息:化疗获益和不获益亚组;化疗方案分类;不同化疗方案的最佳适用周期。构建的胃癌精准化疗参考表如表8所示:
表8胃癌精准化疗参考表
针对化疗敏感组(CSG),患者使用FU+Pt的化疗方案治疗,可以显著从4/6/9-12个化疗周期中获益,建议做适当周期的化疗;
具体到FU+Pt的详细方案中,患者使用FOLFOX方案可从>8个周期的治疗中显著获益,患者使用XELOX方案可从6个周期的治疗中显著获益,患者使用SOX方案可从2-4个周期中的治疗中显著获益,建议做适当周期的化疗;
针对化疗不敏感组(CIG),无论使用哪种化疗方案,均不能显著获益,建议不采取化疗或者使用其他治疗方法。
实施例4癌症精准化疗分类器的构建方法
1)分类器特征选择:使用表1所列的110个分型标志物;
2)分类器构建:
用于胃癌分子分型的分类器的构建,包括发现、验证及测试三个阶段,即将发现集样本FOT的log10(FOT+1)矩阵和NMF分型标签作为输入数据(输入的数据如表9所示),训练随机森林模型,训练过程中采用10倍交叉验证法随机划分发现集样本,评估分类器准确率,即将742个样本随机分为10等分,这10等分中两个亚型也是平均分布的,用90%的样本进行建模,用剩下10%的样本进行测试,如此重复10次,计算10次准确率的平均值。然后用训练好的分类器预测独立验证集,得到的分型标签关联预测集样本的临床信息,观察预测集两簇样本特征是否能与发现集两个亚型的特征相对应。
表9
/>
构建得到的分类器如图9所示:
基于发现集中筛选出的特征蛋白集合(110个蛋白),利用机器学习算法(随机森林),构建分类器,预测化疗敏感和不敏感亚组,采用10折交叉验证的方式对模型的准确性进行评价,得到模型的预测准确性为93.9%。
验证例1.癌症精准化疗分类器的应用
对其它278个样本,进行验证;
对样本预处理得到表达谱数据(方法参照实施例1)
a)输入:样本的表达谱数据;
b)中间过程:表达谱数据预处理(方法参照实施例2),分类器特征匹配(匹配表1所列的110个分型标志物),对数转化,预测;
c)输出:输出结果如表10所示,其中278个样本中有217个划为化疗敏感亚组,61个划为化疗不敏感亚组。分类器应用预测结果与样本来源患者的临床治疗情况相符合。
表10
实验号 | 分类标签 |
Exp018817 | 1 |
Exp018823 | 1 |
Exp018825 | 1 |
Exp018831 | 1 |
Exp018835 | 1 |
Exp018839 | 1 |
省略269个实验号 | ······ |
Exp061483 | 1 |
Exp061487 | 1 |
Exp061491 | 2 |
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。
Claims (12)
1.一种关联临床化疗信息的癌症化疗分子分型方法,其特征在于,包括如下步骤:
(1)筛选该癌症的分型标志物集,以及检测所述分型标志物集中每个蛋白的FOT值;
(2)对所述分型标志物集进行以下分型步骤:
a.采用1g(1+x)对所述分型标志物集中的每个蛋白的FOT值进行转换,其中x即蛋白的FOT值;
b.采用非负矩阵分解一致性聚类方法对蛋白标志物集进行分型,并为每个分型分配NMF分型标签;
(3)关联多个样本的临床信息进行生存分析;
i.提供所述多个样本的临床信息,包含:是否化疗、总生存时间、是否死亡、性别、年龄、TNM分期、Lauren分型;
ii对所述多个样本进行生存分析:采用K-M方法和Cox多因素分析;
(4)根据步骤(3)的结果,对步骤(2)的分型结果进行参数调整得到癌症化疗分子分型参考表。
2.根据权利要求1所述的癌症化疗分子分型方法,其特征在于,步骤(1)筛选该种癌症的分型标志物集的方法包括:
a)高置信蛋白筛选:从来自于多个样本形成的蛋白质表达谱数据中筛选蛋白,筛选的蛋白含有①至少一条专属肽段且离子分值大于等于20,且至少二条离子分值大于等于20的肽段;②或者三条离子分值大于等于20的肽段;
b)剔除在样本中出现频次低于预设出现频率的蛋白或保留高于预设出现频率的蛋白;
c)去除冗余蛋白;
d)选取FOT值排名在预设位置前的蛋白用于后续分析;
e)基于总和的定量数据标准化:针对所选蛋白集,计算FOT之和,然后将每个蛋白的FOT除以前述FOT总和,得到基于总和的定量数据标准化后的数据。
3.根据权利要求2所述的癌症化疗分子分型方法,其特征在于,
所选蛋白在样本间存在差异,具有变异系数CV大于或等于预设值;
所述癌症为胃癌时,CV大于等于2.7;
在b)步骤中,剔除鉴定频次低于500-1000的蛋白,或保留满足最低鉴定频次,即占总实验数的1/10的蛋白;
在c)步骤中,去除冗余蛋白:剔除样本中1%-10%的极高丰度的蛋白,其FOT之和占总体FOT的60%-90%;
在d)步骤中,选取FOT值排名在800-1200的蛋白作为癌症分型标志物用于后续分析。
4.根据权利要求2或3所述的癌症化疗分子分型方法,其特征在于,
在b)步骤中,剔除鉴定频次低于700的蛋白。
5.根据权利要求2或3所述的癌症化疗分子分型方法,其特征在于,
在c)步骤中,剔除样本中5%的极高丰度的蛋白。
6.根据权利要求2或3所述的癌症化疗分子分型方法,其特征在于,
在c)步骤中,其FOT之和占总体FOT的80%。
7.根据权利要求2或3所述的癌症化疗分子分型方法,其特征在于,
在d)步骤中,选取FOT值排名在l000的蛋白作为癌症分型标志物用于后续分析。
8.根据权利要求1所述的癌症化疗分子分型方法,其特征在于,
步骤(3)中的关联分析还包括关联所述多个样本的临床化疗方案进行生存分析:
a’.将化疗方案进行归纳分类得出化疗分类方案一,化疗分类方案二、…、化疗分类方案N;
b’.基于化疗是否获益亚组,对每个分类方案进行生存分析;
i.纳入分析的临床变量包括:是否化疗、化疗是否获益标签、方案分类标签、是否使用对应方案、是否死亡、总生存时间;
ii.生存分析的方法:K-M曲线和Cox多因素分析,因素包含性别、年龄、TNM分期和Lauren分型;
c’.化疗周期归纳分组:对每一个所述化疗分类方案的化疗周期进行归纳,并分配化疗周期分组标签;
d’.基于化疗是否获益亚组,展开不同分组周期的生存分析;
基于化疗是否获益亚组,对每个分类方案进行生存分析;
i.纳入分析的临床变量:是否化疗、周期分组标签、是否死亡、总生存时间;
ii生存分析的方法:K-M曲线和Cox多因素分析,因素包含性别、年龄、TNM分期和Lauren分型;
所述癌症化疗分子分型参考表包含分型标签、化疗获益和不获益亚组、化疗方案分类、不同化疗方案的最佳适用周期。
9.根据权利要求8所述的癌症化疗分子分型方法,其特征在于,所述癌症是胃癌,该方法包括:
a’.将化疗方案进行归纳分类得出化疗分类方案一,化疗分类方案二;
其中分类方案一包含不化疗、氟尿嘧啶加铂类方案、其他方案;
其中分类方案二包含不化疗方案、FOLFOX方案、XELOX方案、SOX方案、其他方案;
c’.所述化疗周期归纳分组:
针对所述分类方案一,氟尿嘧啶加铂类方案的化疗周期归纳为2、3、4、5|7、6、8、9|10|11|12;
针对所述分类方案二,FOLFOX方案的化疗周期归纳为1|2|3、4、6、8|9|10|11|12;
针对所述分类方案二,XELOX方案的化疗周期归纳为2|3|4、6、7|8|10;针对所述分类方案二,SOX方案的化疗周期归纳为2|3|4、6、7|8。
10.一种癌症精准化疗分类器的构建方法,其特征在于,包括以下步骤:
(1)选择分类器特征:使用权利要求2~7之一所述方法获得的分型标志物或者使用分型差异蛋白;
(2)分类器选择:已知机器学习分类算法或者人工智能模型,包括随机森林和支持向量机;
(3)输入数据:lg(FOT+1),权利要求3或4所述方法产生的NMF分型标签;FOT来自于所述分型标志物或者使用分型差异蛋白;
(4)对算法进行准确性测试;
其中,所述癌症指胃癌,所述分型标志物如表1所示:
表1
11.根据权利要求10所述的癌症精准化疗分类器的构建方法,其特征在于,在步骤(4)中,采用10折交叉验证。
12.一种用于个体胃癌精准化疗分型的装置,其特征在于,具有以下模块:
1)蛋白标志物筛选模块:用于完成权利要求2~7之一所述的癌症分型标志物的筛选,从待分析个体样本形成的蛋白质表达谱数据中选出其癌症分型标志物;
2)蛋白标志物分型模块:用于采用权利要求1或8所述的癌症化疗分子分型方法对个体癌症分型标志物集进行分型并生成NMF分型标签;
3)分型器模块:接收输入lg(FOT+1)和NMF分型标签,进行分类器特征匹配,对数转化,预测;
4)分型结果输出单元:将个体胃癌精准化疗分型推荐结果输出。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010597882 | 2020-06-28 | ||
CN202010597882X | 2020-06-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111933211A CN111933211A (zh) | 2020-11-13 |
CN111933211B true CN111933211B (zh) | 2023-10-31 |
Family
ID=73305780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010854377.9A Active CN111933211B (zh) | 2020-06-28 | 2020-08-21 | 癌症精准化疗分型标志物筛选方法、化疗敏感性的分子分型方法和应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111933211B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112885409B (zh) * | 2021-01-18 | 2023-03-24 | 吉林大学 | 一种基于特征选择的结直肠癌蛋白标志物选择系统 |
CN112786141B (zh) * | 2021-01-21 | 2023-07-14 | 北京晶泰科技有限公司 | 一种功能肽推荐方法、装置和计算设备 |
CN114694748B (zh) * | 2022-02-22 | 2022-10-28 | 中国人民解放军军事科学院军事医学研究院 | 一种基于预后信息与强化学习的蛋白质组学分子分型方法 |
CN115954046A (zh) * | 2022-12-02 | 2023-04-11 | 上海爱谱蒂康生物科技有限公司 | 一种胃癌个性化治疗决策方法、系统及含其的存储介质 |
CN117219158A (zh) * | 2022-12-02 | 2023-12-12 | 上海爱谱蒂康生物科技有限公司 | 一种肠癌个性化治疗决策方法、系统及含其的存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102323246A (zh) * | 2011-07-29 | 2012-01-18 | 毅新兴业(北京)科技有限公司 | 检测肺癌蛋白的质谱模型及构建方法 |
CN108445097A (zh) * | 2017-03-31 | 2018-08-24 | 北京谷海天目生物医学科技有限公司 | 弥漫型胃癌的分子分型、用于分型的蛋白标志物及其筛选方法和应用 |
CN109060989A (zh) * | 2018-08-29 | 2018-12-21 | 重庆市肿瘤研究所 | 应用iTRAQ技术研究三阴性乳腺癌外泌体差异表达蛋白的方法 |
CN110146636A (zh) * | 2019-04-30 | 2019-08-20 | 北京谷海天目生物医学科技有限公司 | 胃癌分型的蛋白标志物的筛选方法、筛选装置及其筛选的蛋白标志物的应用 |
-
2020
- 2020-08-21 CN CN202010854377.9A patent/CN111933211B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102323246A (zh) * | 2011-07-29 | 2012-01-18 | 毅新兴业(北京)科技有限公司 | 检测肺癌蛋白的质谱模型及构建方法 |
CN108445097A (zh) * | 2017-03-31 | 2018-08-24 | 北京谷海天目生物医学科技有限公司 | 弥漫型胃癌的分子分型、用于分型的蛋白标志物及其筛选方法和应用 |
CN109060989A (zh) * | 2018-08-29 | 2018-12-21 | 重庆市肿瘤研究所 | 应用iTRAQ技术研究三阴性乳腺癌外泌体差异表达蛋白的方法 |
CN110146636A (zh) * | 2019-04-30 | 2019-08-20 | 北京谷海天目生物医学科技有限公司 | 胃癌分型的蛋白标志物的筛选方法、筛选装置及其筛选的蛋白标志物的应用 |
Non-Patent Citations (1)
Title |
---|
A proteomic landscape of diffuse-type gastric cancer;Sai Ge et al.;《NATURE COMMUNICATIONS》;第1-16页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111933211A (zh) | 2020-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933211B (zh) | 癌症精准化疗分型标志物筛选方法、化疗敏感性的分子分型方法和应用 | |
Jayawardana et al. | Determination of prognosis in metastatic melanoma through integration of clinico‐pathologic, mutation, mRNA, microRNA, and protein information | |
Dudoit et al. | Multiple hypothesis testing in microarray experiments | |
US20020095260A1 (en) | Methods for efficiently mining broad data sets for biological markers | |
US20090319244A1 (en) | Binary prediction tree modeling with many predictors and its uses in clinical and genomic applications | |
Dunkler et al. | Statistical analysis principles for Omics data | |
CN111081317A (zh) | 一种基于基因谱的乳腺癌淋巴结转移预测方法及预测系统 | |
CN111653314B (zh) | 一种分析识别淋巴管浸润的方法 | |
CN114203269B (zh) | 一种基于机器学习和分子对接技术的抗癌中药筛选方法 | |
CN113061655B (zh) | 一组用于预测乳腺癌新辅助化疗敏感性的基因标签及应用 | |
Tarca et al. | Methodological approach from the best overall team in the sbv improver diagnostic signature challenge | |
US20020155480A1 (en) | Brain tumor diagnosis and outcome prediction | |
CN104115151B (zh) | 用于鉴定具有期望生物活性的剂的方法 | |
CN114203256A (zh) | 基于微生物丰度的mibc分型及预后预测模型构建方法 | |
CN107292130A (zh) | 基于基因突变与基因表达的药物重定位方法 | |
Akçay et al. | Non-negative matrix factorization and differential expression analyses identify hub genes linked to progression and prognosis of glioblastoma multiforme | |
Huang et al. | Gene expression profiling for prediction of clinical characteristics of breast cancer | |
US8140456B2 (en) | Method and system of extracting factors using generalized Fisher ratios | |
CN110055328A (zh) | 一种基于代谢基因谱的肺腺癌诊断标志物 | |
Kusonmano et al. | Effects of pooling samples on the performance of classification algorithms: a comparative study | |
WO2019206217A1 (zh) | 多发性骨髓瘤分子分型及应用 | |
Blazadonakis et al. | Complementary gene signature integration in multiplatform microarray experiments | |
CN115862876B (zh) | 基于免疫微环境基因群预测肺腺癌患者预后的装置 | |
Tian et al. | Identification of genes involved in breast cancer metastasis by integrating protein–protein interaction information with expression data | |
CN117935928A (zh) | 一种基于蛋白组学的高级别浆液性卵巢癌免疫分型模型的构建方法及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |