CN113593700B - 分析肺癌进展的方法、装置、设备、介质及程序产品 - Google Patents
分析肺癌进展的方法、装置、设备、介质及程序产品 Download PDFInfo
- Publication number
- CN113593700B CN113593700B CN202110904405.8A CN202110904405A CN113593700B CN 113593700 B CN113593700 B CN 113593700B CN 202110904405 A CN202110904405 A CN 202110904405A CN 113593700 B CN113593700 B CN 113593700B
- Authority
- CN
- China
- Prior art keywords
- lung cancer
- cancer cell
- cell line
- state
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010058467 Lung neoplasm malignant Diseases 0.000 title claims abstract description 161
- 201000005202 lung cancer Diseases 0.000 title claims abstract description 161
- 208000020816 lung neoplasm Diseases 0.000 title claims abstract description 161
- 238000000034 method Methods 0.000 title abstract description 39
- 238000000513 principal component analysis Methods 0.000 claims abstract description 81
- 230000014509 gene expression Effects 0.000 claims abstract description 76
- 108020004999 messenger RNA Proteins 0.000 claims abstract 11
- 108090000623 proteins and genes Proteins 0.000 claims description 96
- 238000004458 analytical method Methods 0.000 claims description 33
- 206010041067 Small cell lung cancer Diseases 0.000 claims description 32
- 208000002154 non-small cell lung carcinoma Diseases 0.000 claims description 32
- 208000000587 small cell lung carcinoma Diseases 0.000 claims description 32
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 claims description 32
- 239000003814 drug Substances 0.000 claims description 20
- 229940079593 drug Drugs 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 13
- 210000005265 lung cell Anatomy 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000002685 pulmonary effect Effects 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 abstract description 2
- 210000004027 cell Anatomy 0.000 description 164
- 206010028980 Neoplasm Diseases 0.000 description 25
- 201000011510 cancer Diseases 0.000 description 22
- 238000011282 treatment Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 13
- 238000011160 research Methods 0.000 description 10
- 230000033228 biological regulation Effects 0.000 description 6
- 230000005764 inhibitory process Effects 0.000 description 5
- 230000036210 malignancy Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000037361 pathway Effects 0.000 description 3
- 230000001737 promoting effect Effects 0.000 description 3
- 241001442234 Cosa Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 238000010201 enrichment analysis Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010362 genome editing Methods 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 210000004072 lung Anatomy 0.000 description 2
- 230000002250 progressing effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 235000012571 Ficus glomerata Nutrition 0.000 description 1
- 244000153665 Ficus glomerata Species 0.000 description 1
- 108700005075 Regulator Genes Proteins 0.000 description 1
- 230000010632 Transcription Factor Activity Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000021164 cell adhesion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003828 downregulation Effects 0.000 description 1
- 230000000857 drug effect Effects 0.000 description 1
- 230000000235 effect on cancer Effects 0.000 description 1
- 230000002900 effect on cell Effects 0.000 description 1
- 210000002919 epithelial cell Anatomy 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 230000003834 intracellular effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 238000011369 optimal treatment Methods 0.000 description 1
- 230000002018 overexpression Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 229920002477 rna polymer Polymers 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000003827 upregulation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Biotechnology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Genetics & Genomics (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种分析肺癌进展的方法、装置、设备、介质及程序产品。本发明第一方面提供一种分析肺癌进展的方法,借助肺癌细胞系mRNA表达谱公共数据作为背景数据,联合待测第一状态和第二状态肺癌细胞系mRNA表达数据进行PCA分析,确定第一状态至第二状态肺癌的进展情况,即确定肺癌细胞从第一状态至第二状态为恶化或好转;通过计算欧式距离,量化肺癌细胞从第一状态至第二状态进展程度,解决目前常规PCA分析无法定性定量分析肺癌进展的问题。
Description
技术领域
本发明涉及一种分析肺癌进展的方法、装置、设备、介质及程序产品,涉及生物医学技术领域。
背景技术
细胞转录组mRNA测序与芯片技术是目前生物医学领域研究的首选技术方案,特别在肿瘤基因研究中,对癌细胞进行不同类型的基因编辑处理或者药物处理后,比较处理前后癌细胞3-5万个基因mRNA转录本的表达差异,可以进行细胞间的系统发育树与主成分分析(PCA),观察细胞处理前后变化情况。基于以上表达谱数据分析结果,再进一步进行基因功能通路富集,观察显著性差异表达基因的主要作用通路。
以上为目前肺癌研究过程中,表达谱数据分析的通用方案流程,该流程试图去发现某调控基因或某种药物处理后,在肺癌细胞内发生的全部基因表达变化,这些变化从总体上对细胞造成了多大的影响(聚类树与PCA分析),并试图去解释出现这些变化的细胞内部分子机制(GO功能富集),然而这种流程化分析方案没有直观解决研究者最为关注的三个最主要问题:1、研究因素某基因或者某种药物对癌细胞是促进还是抑制作用:分析过程中获得庞大信息量,差异基因动辄成百上千,上调与下调基因共同作用大量功能通路,且富集出的通路功能与癌症发生进展的相关性尚未确切阐明,因此,不能笼统的描述为研究因素(基因或药物)对癌细胞的促进或者抑制作用;2、研究因素某基因或者某种药物促癌或抑癌作用的强弱程度:在转录组mRNA分析流程中,使用差异表达基因数据进行系统聚类树与主成分分析PCA,通过计算树枝长度和主成分中细胞系点之间的距离,来展示研究因素(基因或药物)对癌细胞影响的大小,这种细胞系间的离散距离反映了处理因素带来的全部变化,但这种变化没有方向性,这些变化对研究对象癌细胞产生的促进亦或抑制作用,作用程度多大并不清楚;3、与其他已知的基因调控或者药物处理方法相比,研究基因或者药物效果的优劣:研究人员为证明其研究因素的重要性,通常会将研究因素(基因或药物)与已有的同类型基因或药物知识成果进行比较,目前的比较方式是将采用不同癌细胞处理方法获得的实验结果进行比较,而由于实验室间实验材料不均一和随机误差等因素影响,无法达成标准量化比较,因此会导致研究人员之间出现巨大争议,特别是在某些新因素研究中,研究人员手中的成果非常有限。
发明内容
本发明提供一种分析肺癌细胞进展的方法,用于解决现有PCA分析方法存在的问题。
本发明第一方面提供一种分析肺癌进展的方法,包括如下步骤:
1)分别获取N1个非小细胞肺癌细胞系、N2个小细胞肺癌细胞系、N3个待测第一状态肺癌细胞系以及N3个待测第二状态肺癌细胞系的mRNA表达数据,N1、N2、N3均为大于零的正整数;
2)根据所述mRNA表达数据,进行PCA分析并得到分析数据坐标图;
3)根据N1个非小细胞肺癌细胞系主成分分析数据中的中心点坐标A1、N2个小细胞肺癌细胞系主成分分析数据中的中心点坐标A2、得到由A1指向A2的向量A;
4)根据N3个待测第一状态肺癌细胞系主成分分析数据中的中心点坐标A3、N3个待测第二状态肺癌细胞系主成分分析数据中的中心点坐标A4、得到A3投影到向量A上的坐标A3’,A4投影到向量A上的坐标A4’,根据A3’和A4’确定肺癌进展。
如上述方法,步骤1)中所述待测第一状态肺癌细胞系为未处理过的肺癌细胞系,所述待测第二状态肺癌细胞系为采用基因调控或药物处理后的肺癌细胞系。
如上述方法,步骤1)还包括获取N4个正常肺细胞系的mRNA表达数据,N4为大于等于零的整数。
如上述方法,步骤2)具体包括如下步骤:
根据N1个非小细胞肺癌细胞系、N2个小细胞肺癌细胞系、N4个正常肺细胞系的mRNA表达数据,获取显著性差异表达基因;
根据N3个待测第一状态肺癌细胞系以及N3个待测第二状态肺癌细胞系的mRNA表达数据,提取所述显著性差异表达基因;
将提取到的显著性差异表达基因与N1个非小细胞肺癌细胞系、N2个小细胞肺癌细胞系、N4个正常肺细胞系的显著性差异表达基因组合进行PCA分析。
如上述方法,步骤4)具体包括如下步骤:
根据A3投影到向量A上的坐标A3’、A4投影到向量A上的坐标A4’,判断由A3’指向A4’的向量B与所述向量A的方向是否相同,若相同,则表明由第一状态向第二状态的肺癌进展为恶化,若方向相反,则表明由第一状态向第二状态的肺癌进展为好转。
如上述方法,步骤4)具体包括如下步骤:
根据A3投影到向量A上的坐标A3’、A4投影到向量A上的坐标A4’,计算由A3’指向A4’的向量b的大小,得到肺癌的进展程度。
本发明第二方面提供一种分析肺癌进展的装置,包括:
获取模块,用于获取N1个非小细胞肺癌细胞系、N2个小细胞肺癌细胞系、N3个待测第一状态肺癌细胞系以及N3个待测第二状态肺癌细胞系的mRNA表达数据;
分析模块,根据所述mRNA表达数据进行PCA分析得到分析数据坐标图;
数据处理模块,根据N1个非小细胞肺癌细胞系主成分分析数据中的中心点坐标A1、N2个小细胞肺癌细胞系主成分分析数据中的中心点坐标A2、得到由A1指向A2的向量A;根据N3个待测第一状态肺癌细胞系主成分分析数据中的中心点坐标A3、N3个待测第二状态肺癌细胞系主成分分析数据中的中心点坐标A4、获取A3投影到向量A上的坐标A3’,A4投影到向量A上的坐标A4’;
输出模块,根据所述分析模块得到的数据输出肺癌进展分析结果。
本发明第三方面提供一种测试设备,包括:
处理器;以及
存储器,用于存储所述处理器的计算机程序;
其中,所述处理器被配置为通过执行所述计算机程序来实现本发明第一方面提供的分析肺癌进展的方法。
本发明第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明第一方面提供的分析肺癌进展的方法。
本发明第五方面提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本发明第一方面提供的分析肺癌进展的方法。
本发明提供一种分析肺癌进展的方法,借助肺癌细胞系mRNA表达谱公共数据作为背景数据,联合待测第一状态和第二状态肺癌细胞系mRNA表达谱数据进行PCA分析,确定第一状态至第二状态肺癌的进展情况,即肺癌细胞从第一状态至第二状态为恶化或好转;通过计算欧式距离,量化肺癌细胞从第一状态至第二状态进展程度,解决目前常规PCA分析无法定性定量分析肺癌进展的问题。
附图说明
图1为过表达基因A的A549细胞系与未过表达基因A的A549细胞系转录组mRNA差异表达分析;
图2为过表达基因A的A549细胞系与未过表达基因A的A549细胞系转录组mRNA差异基因PCA分析结果;
图3为过表达基因A的A549细胞系与未过表达基因A的A549细胞系转录组mRNA差异基因GO富集分析最显著的30个功能通路;
图4为本发明一实施例提供的分析肺癌进展的方法的流程图;
图5为本发明一实施例提供的非小细胞肺癌细胞系、小细胞肺癌细胞系和正常肺细胞系联合过表达基因A的A549细胞系、未过表达基因A的A549细胞系的PCA分析数据三维坐标图;
图6为本发明一实施例提供的A549_V_1,2,3中心点坐标和A549_D_1,2,3中心点坐标向肺癌进展向量A的投影示意图;
图7为本发明一实施例提供的A549_V_1,2,3和A549_D_1,2,3向肺癌进展向量A投影的PCA三维图;
图8为本发明一实施例提供的分析肺癌进展的装置示意图。
附图标记说明:
201-获取模块;
202-分析模块;
203-数据处理模块;
204-输出模块。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在研究某个基因或者某种药物对肺癌的作用时,目前的常规研究方案是获取基因调控前后或是药物处理前后,肺癌细胞系全基因组mRNA表达谱数据,得到两种细胞系的显著性差异表达基因,随后进行系统发育聚类分析和主成分分析(以下简称PCA分析),观察基因调控前后或是药物处理前后两种细胞系的总体聚类和离散变化情况,再进一步进行基因功能通路富集,观察发生显著性差异表达基因的主要作用通路,判断该基因或药物对肺癌细胞的影响机理。
例如,使用某公司mRNA转录芯片,共包含超过58000条探针,可检测全基因组mRNA表达情况。为了研究基因A对肺癌的作用,以A549细胞为例,通过基因编辑技术以过表达基因A的A549细胞系作为实验组,以未过表达基因A的A549细胞系作为对照组,对照组与实验组各设置3个重复实验,随后使用mRNA转录芯片对6个细胞系的mRNA进行表达量检测,图1为过表达基因A的A549细胞系与未过表达基因A的A549细胞系转录组mRNA差异表达分析,如图1所示,通过实验组(A549_D_1、A549_D_2、A549_D_3)与对照组(A549_V_1、A549_V_2、A549_V_3)的全基因组mRNA表达差异计算,表达量显著升高(表达量升高超过2倍,实验组与对照组表达差异显著性P<0.05)的基因有1247个,表达量显著下降(表达量下降超过2倍,实验组与对照组表达差异显著性P<0.05)的基因有1626个,以上述2873个显著性差异基因为纵坐标,实验组和对照组细胞系为横坐标,根据不同细胞系中不同基因的表达情况,绘制得到图1,其中颜色越深表示对应基因的表达量越高。
采用系统发育聚类分析对图1进行分析可知:实验组与对照组组内3例重复细胞各自先聚类,分支短,实验组与对照组组间最后聚类,分支较长,说明过表达基因A的处理在两组细胞间产生了较大的影响。
为进一步观察基因A过表达后的作用效果,PCA分析也常用来评估组间差异及组内样本重复情况,PCA分析采用线性代数的计算方法,对数以万计的基因变量进行降维及主成分提取,线性无关的向量就称为主成分。PCA能够提取出最大程度反映细胞系间差异的两个坐标轴,从而将多维数据的差异反映在坐标图上,进而揭示复杂数据背景下的简单规律。理想条件下,PCA图中,组间样本应该分散,组内样本应该聚在一起。图2为过表达基因A的A549细胞系与未过表达基因A的A549细胞系转录组mRNA差异基因PCA分析结果,如图2所示,基于差异表达mRNA数据进行PCA分析,可见在第一主成分PC1轴上,实验室与对照组重复细胞系分别聚集,而组间出现巨大的差异,体现过表达基因A在肺癌细胞系A549中的作用效果。PC2轴体现了组内细胞系间差距,为实验误差。
图3为过表达基因A的A549细胞系与未过表达基因A的A549细胞系转录组mRNA差异基因GO富集分析最显著的30个功能通路,如图3所示,通过差异基因GO富集分析发现过表达基因A主要影响了肺癌细胞的核糖体合成、细胞粘附和转录因子活性等生物学功能过程。
然而常规的PCA分析方法并没有直观解决研究者最为关注的三个最主要问题:1、研究因素某基因或者某种药物对癌细胞是促进还是抑制作用;2、研究因素某基因或者某种药物促癌或抑癌作用的强弱程度;3、与其他已知的基因调控或者药物处理方法相比,研究基因或者药物效果的优劣,因此,在现有的PCA分析方法的基础上,本发明第一方面提供一种分析肺癌进展的方法,包括如下步骤:
1)分别获取N1个非小细胞肺癌细胞系、N2个小细胞肺癌细胞系、N3个待测第一状态肺癌细胞系以及N3个待测第二状态肺癌细胞系的mRNA表达数据,N1、N2、N3均为大于零的正整数;
2)根据所述mRNA表达数据,进行PCA分析并得到分析数据坐标图;
3)根据N1个非小细胞肺癌细胞系主成分分析数据中的中心点坐标A1、N2个小细胞肺癌细胞系主成分分析数据中的中心点坐标A2、得到由A1指向A2的向量A;
4)根据N3个待测第一状态肺癌细胞系主成分分析数据中的中心点坐标A3、N3个待测第二状态肺癌细胞系主成分分析数据中的中心点坐标A4、得到A3投影到向量A上的坐标A3’,A4投影到向量A上的坐标A4’,根据A3’和A4’确定肺癌进展。
本发明提供一种分析肺癌进展的方法,借助肺癌细胞系mRNA表达谱公共数据作为背景数据,联合待测第一状态和第二状态肺癌细胞系mRNA表达数据进行PCA分析,确定第一状态至第二状态肺癌的进展情况,即肺癌细胞从第一状态至第二状态为恶化或好转;通过计算欧式距离,量化肺癌细胞从第一状态至第二状态进展程度,解决目前常规PCA分析无法定性定量分析肺癌细胞进展的问题。
在一种具体实施方式中,图4为本发明一实施例提供的分析肺癌进展的方法的流程图,如图4所示,该方法具体包括如下步骤:
步骤1、分别获取N1个非小细胞肺癌细胞系、N2个小细胞肺癌细胞系、N3个待测第一状态肺癌细胞系以及N3个待测第二状态肺癌细胞系的mRNA表达数据,N1、N2、N3均为大于零的正整数;
肺癌病理分型主要分为非小细胞肺癌与小细胞肺癌两个大类,一般情况下非小细胞肺癌恶性程度较低,可成瘤、生长与转移较慢,小细胞肺癌恶性程度较高,播散式生长,不成瘤,转移速度快,死亡率较高,因此,使用非小细胞肺癌细胞系和小细胞肺癌细胞系的mRNA表达谱作为背景数据,可有效描述出肺癌的整体进展情况;此外,为了进一步提高数据的可靠性,步骤1)还包括获取N4个正常肺细胞系的mRNA表达数据,N4为大于等于零的整数,即步骤1包括分别获取N1个非小细胞肺癌细胞系、N2个小细胞肺癌细胞系、N4个正常肺细胞系的mRNA表达数据。
非小细胞肺癌细胞系、小细胞肺癌细胞系和正常肺细胞系的数量可以相同或不同,例如,取正常肺上皮细胞系59例,非小细胞肺癌细胞系118例、小细胞肺癌细胞系29例,相关细胞系的mRNA表达数据可从基因公共数据库中下载。
同时,还需获取N3个待测第一状态肺癌细胞系以及N3个待测第二状态肺癌细胞系的mRNA表达数据,第一状态和第二状态是指待分析的肺癌细胞系的两种状态,即分析肺癌细胞从第一状态到第二状态是恶化还是好转,例如,待测第一状态肺癌细胞系为未处理过的肺癌细胞系,所述待测第二状态肺癌细胞系为采用基因调控或药物处理后的肺癌细胞系,即该分析方法能够分析某基因或药物对肺癌细胞是促癌作用还是抑癌作用。
例如,当需要研究基因A对肺癌发生和进展的作用时,可以采用常规基因技术手段得到过表达基因A的A549细胞系为实验组,未过表达基因A的A549细胞系为对照组,实验组和对照组设置三个重复试验,即N3=3,为了便于表述,我们将对照组三组细胞系命名为A549_V_1、A549_V_2、A549_V_3,实验组三组细胞系命名为A549_D_1、A549_D_2、A549_D_3,获取上述六组细胞系的mRNA表达数据。
步骤2、根据所述mRNA表达数据,进行PCA分析并得到分析数据坐标图;
根据常规PCA分析方法对步骤1获取得到的mRNA表达数据进行分析,具体包括如下步骤:步骤2.1、根据N1个非小细胞肺癌细胞系、N2个小细胞肺癌细胞系、N4个正常肺细胞细胞系的mRNA表达数据,获取显著性差异表达基因;
例如,根据步骤1提供的206个细胞系,按正常肺细胞-非小细胞肺癌-小细胞肺癌计算显著性差异表达基因,计算得到710个在三组细胞系之间的显著性差异表达基因,列表如下:
表1三组肺癌细胞系之间的显著性差异表达基因
上述710个基因被当做与肺癌发生和进展直接相关的重要集合,以上述710个基因mRNA表达数据作为背景基础数据,联合待测第一状态和第二状态肺癌细胞系mRNA表达数据进行PCA分析,即步骤2.2、根据N3个待测第一状态肺癌细胞系以及N3个待测第二状态肺癌细胞系的mRNA表达数据,提取所述显著性差异表达基因,即从N3个待测第一状态肺癌细胞系以及N3个待测第二状态肺癌细胞系的mRNA表达数据中获得上述710个显著性表达基因;
步骤2.3、将提取到的显著性差异表达基因与N1个非小细胞肺癌细胞系、N2个小细胞肺癌细胞系、N4个正常肺细胞细胞系的显著性差异表达基因组合进行PCA分析。
例如,从步骤1使用的6个细胞系(A549_V_1、A549_V_2、A549_V_3和A549_D_1、A549_D_2、A549_D_3)的表达数据中提取上述710个基因表达数据,与206细胞系的710个基因mRNA表达背景数据组合,进行PCA分析即可得到如图5所示的分析结果,根据图5可知,五组不同细胞系分别聚集。
步骤3、根据N1个非小细胞肺癌细胞系主成分分析数据中的中心点坐标A1、N2个小细胞肺癌细胞系主成分分析数据中的中心点坐标A2、得到由A1指向A2的向量A;
继续参考图5,相同细胞系发生聚集,根据N1个非小细胞肺癌细胞系主成分分析数据中的中心点坐标A1、N2个小细胞肺癌细胞系主成分分析数据中的中心点坐标A2,获得低恶性肺癌向高恶性转化的肺癌进展向量A:(-1.095,2.383,0.595),其中,中心点坐标为每组细胞系在三维图上的坐标平均点,在一定程度上可以代表该细胞系在三维图上的中心坐标点。
步骤4、根据N3个待测第一状态肺癌细胞系主成分分析数据中的中心点坐标A3、N3个待测第二状态肺癌细胞系主成分分析数据中的中心点坐标A4、得到A3投影到向量A上的坐标A3’,A4投影到向量A上的坐标A4’,根据A3’和A4’确定肺癌进展。
N3个待测第一状态肺癌细胞系主成分分析数据中的中心点坐标A3、N3个待测第二状态肺癌细胞系主成分分析数据中的中心点坐标A4的获得方式可参考非小细胞肺癌细胞系主成分分析数据中的中心点坐标A1或N2个小细胞肺癌细胞系主成分分析数据中的中心点坐标A2,将N3个待测第一状态肺癌细胞系主成分分析数据中的中心点坐标A3、N3个待测第二状态肺癌细胞系主成分分析数据中的中心点坐标A4投影到向量A上,得到坐标A3’和坐标A4’,随后即可根据A3’和坐标A4’确定肺癌进展,具体地,判断由A3’指向A4’的向量B与所述向量A的方向是否相同,若相同,则表明所述肺癌进展为恶化,若方向相反,则表明所述肺癌进展为好转,并且可以根据向量B的大小确定肺癌的进展程度。
例如,图6为本发明一实施例提供的A549_V_1,2,3中心点和A549_D_1,2,3中心点向肺癌进展向量A的投影示意图,如图6所示,A549_V_1,2,3细胞系中心点坐标(0.514,0.826,5.125),距离坐标轴0点的欧式距离A549_D_1,2,3细胞系中心点坐标(0.333,1.184,5.054),距离坐标轴0点的欧式距离为/>分别将A549_V_1,2,3中心点和A549_D_1,2,3中心点向肺癌进展向量A进行垂直投影,A549_V_1,2,3中心点在向量A上的投影为V’,A549_D_1,2,3中心点在向量A上的投影为D’;由V’指向D’的向量B与向量A的方向相同,则表明过表达基因A后A549细胞系在朝高恶性方向发生移动,即基因A为促癌基因,完成对基因A对肺癌进展的定性判断。
随后对基因A促癌作用的强弱进行量化分析,计算过表达基因A后A549细胞系在肺癌进展向量A上的移动距离,即V’到D’的距离:V’到0点的距离Lv'=cosa1×Lv,其中,Lv=5.217,COSa1未知,∠a1为向量A549_V_1,2,3(0.514,0.826,5.125)与肺癌进展向量A(-1.095,2.383,0.595)的夹角;D’到0点的距离Ld'=cosa2×Ld,其中,Ld=5.202,COSa2未知,∠a2为向量A549_D_1,2,3(0.333,1.184,5.054)与肺癌进展向量A(-1.095,2.383,0.595)的夹角;三维向量夹角的公式为:
基于三维向量夹角公式,计算得到Lv’=1.657,Ld’=2.032,也就是说,V’点到D’点的向量B的方向与向量A相同,向量B大小为0.375,我们定义向量B为肺癌进展量化指数(Lung Cancer Aggressive Index,LCAI),其中,方向用“+”、“-”表示,“+”表示促癌作用,“-”表示抑癌作用,数值表示处理因素作用大小,即基因A的LCAI值为+0.375,为促癌基因,基因A对肺癌细胞的作用大小为0.375。
以上计算过程通过三维PCA图像角度旋转后可更为直观的观察到过表达基因A后A549细胞系在肺癌进展向量A上朝高恶性方向发生移动,如图7所示。
综上,根据本发明提供的分析方法,可确定第一状态至第二状态肺癌的进展情况,即肺癌细胞从第一状态至第二状态为恶化或好转;通过计算欧式距离,量化肺癌细胞从第一状态至第二状态进展程度,解决目前常规PCA分析无法定性定量分析肺癌细胞进展的问题;此外,还可以使用相同的方法对不同处理因素进行分析,比较不同因素对肺癌细胞的肺癌进展量化指数LCAI,确定最优的治疗手段。
本发明实施例还提供一种分析肺癌进展的装置,图8为本申请一实施例提供的分析肺癌进展的装置的结构示意图,如图8所示,包括:
获取模块201,用于获取N1个非小细胞肺癌细胞系、N2个小细胞肺癌细胞系、N3个待测第一状态肺癌细胞系以及N3个待测第二状态肺癌细胞系的mRNA表达数据;
分析模块202,根据所述mRNA表达数据进行PCA分析得到分析数据坐标图;
数据处理模块203,根据N1个非小细胞肺癌细胞系主成分分析数据中的中心点坐标A1、N2个小细胞肺癌细胞系主成分分析数据中的中心点坐标A2、得到由A1指向A2的向量A;根据N3个待测第一状态肺癌细胞系主成分分析数据中的中心点坐标A3、N3个待测第二状态肺癌细胞系主成分分析数据中的中心点坐标A4、获取A3投影到向量A上的坐标A3’,A4投影到向量A上的坐标A4’;
输出模块204,根据所述分析模块得到的数据输出肺癌进展分析结果。
本发明实施例还提供一种测试设备,包括:处理器;以及
存储器,用于存储所述处理器的计算机程序;
其中,所述处理器被配置为通过执行所述计算机程序来实现上述分析肺癌进展的方法。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,当该计算机程序被处理器执行时,实现如上分析肺癌进展的方法。
本发明实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上分析肺癌进展的方法。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (7)
1.一种分析肺癌进展的装置,其特征在于,包括:
获取模块:分别获取N1个非小细胞肺癌细胞系、N2个小细胞肺癌细胞系、N3个待测第一状态肺癌细胞系以及N3个待测第二状态肺癌细胞系的mRNA表达数据,N1、N2、N3均为大于零的正整数;
分析模块:根据所述mRNA表达数据,进行PCA分析并得到分析数据坐标图;
数据处理模块:根据N1个非小细胞肺癌细胞系主成分分析数据中的中心点坐标A1、N2个小细胞肺癌细胞系主成分分析数据中的中心点坐标A2、得到由A1指向A2的向量A;根据N3个待测第一状态肺癌细胞系主成分分析数据中的中心点坐标A3、N3个待测第二状态肺癌细胞系主成分分析数据中的中心点坐标A4、得到A3投影到向量A上的坐标A3’,A4投影到向量A上的坐标A4’,根据A3’和A4’确定肺癌进展;
根据A3投影到向量A上的坐标A3’、A4投影到向量A上的坐标A4’,判断由A3’指向A4’的向量B与所述向量A的方向是否相同,若相同,则表明由第一状态向第二状态的肺癌进展为恶化,若方向相反,则表明由第一状态向第二状态的肺癌进展为好转;
输出模块,根据所述分析模块得到的数据输出肺癌进展分析结果。
2.根据权利要求1所述的装置,其特征在于,所述待测第一状态肺癌细胞系为未处理过的肺癌细胞系,所述待测第二状态肺癌细胞系为采用基因调控或药物处理后的肺癌细胞系。
3.根据权利要求1所述的装置,其特征在于,所述获取模块还包括获取N4个正常肺细胞系的mRNA表达数据,N4为大于等于零的整数。
4.根据权利要求3所述的装置,其特征在于,所述分析模块具体包括:
根据N1个非小细胞肺癌细胞系、N2个小细胞肺癌细胞系、N4个正常肺细胞系的mRNA表达数据,获取显著性差异表达基因;
根据N3个待测第一状态肺癌细胞系以及N3个待测第二状态肺癌细胞系的mRNA表达数据,提取所述显著性差异表达基因;
将提取到的显著性差异表达基因与N1个非小细胞肺癌细胞系、N2个小细胞肺癌细胞系、N4个正常肺细胞系的显著性差异表达基因组合进行PCA分析。
5.根据权利要求1-4任一项所述的装置,其特征在于,所述数据处理模块还包括:
根据A3投影到向量A上的坐标A3’、A4投影到向量A上的坐标A4’,计算由A3’指向A4’的向量b的大小,得到肺癌的进展程度。
6.一种测试设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的计算机程序;
其中,所述处理器被配置为:
分别获取N1个非小细胞肺癌细胞系、N2个小细胞肺癌细胞系、N3个待测第一状态肺癌细胞系以及N3个待测第二状态肺癌细胞系的mRNA表达数据,N1、N2、N3均为大于零的正整数;
根据所述mRNA表达数据,进行PCA分析并得到分析数据坐标图;
根据N1个非小细胞肺癌细胞系主成分分析数据中的中心点坐标A1、N2个小细胞肺癌细胞系主成分分析数据中的中心点坐标A2、得到由A1指向A2的向量A;根据N3个待测第一状态肺癌细胞系主成分分析数据中的中心点坐标A3、N3个待测第二状态肺癌细胞系主成分分析数据中的中心点坐标A4、得到A3投影到向量A上的坐标A3’,A4投影到向量A上的坐标A4’,根据A3’和A4’确定肺癌进展;
根据A3投影到向量A上的坐标A3’、A4投影到向量A上的坐标A4’,判断由A3’指向A4’的向量B与所述向量A的方向是否相同,若相同,则表明由第一状态向第二状态的肺癌进展为恶化,若方向相反,则表明由第一状态向第二状态的肺癌进展为好转;
根据分析模块得到的数据输出肺癌进展分析结果。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如下步骤:
分别获取N1个非小细胞肺癌细胞系、N2个小细胞肺癌细胞系、N3个待测第一状态肺癌细胞系以及N3个待测第二状态肺癌细胞系的mRNA表达数据,N1、N2、N3均为大于零的正整数;
根据所述mRNA表达数据,进行PCA分析并得到分析数据坐标图;
根据N1个非小细胞肺癌细胞系主成分分析数据中的中心点坐标A1、N2个小细胞肺癌细胞系主成分分析数据中的中心点坐标A2、得到由A1指向A2的向量A;根据N3个待测第一状态肺癌细胞系主成分分析数据中的中心点坐标A3、N3个待测第二状态肺癌细胞系主成分分析数据中的中心点坐标A4、得到A3投影到向量A上的坐标A3’,A4投影到向量A上的坐标A4’,根据A3’和A4’确定肺癌进展;
根据A3投影到向量A上的坐标A3’、A4投影到向量A上的坐标A4’,判断由A3’指向A4’的向量B与所述向量A的方向是否相同,若相同,则表明由第一状态向第二状态的肺癌进展为恶化,若方向相反,则表明由第一状态向第二状态的肺癌进展为好转;
根据分析模块得到的数据输出肺癌进展分析结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110904405.8A CN113593700B (zh) | 2021-08-06 | 2021-08-06 | 分析肺癌进展的方法、装置、设备、介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110904405.8A CN113593700B (zh) | 2021-08-06 | 2021-08-06 | 分析肺癌进展的方法、装置、设备、介质及程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113593700A CN113593700A (zh) | 2021-11-02 |
CN113593700B true CN113593700B (zh) | 2024-02-27 |
Family
ID=78256032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110904405.8A Active CN113593700B (zh) | 2021-08-06 | 2021-08-06 | 分析肺癌进展的方法、装置、设备、介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113593700B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2631236A1 (en) * | 2005-12-01 | 2007-06-28 | Medical Prognosis Institute | Methods and devices for identifying biomarkers of treatment response and use thereof to predict treatment efficacy |
CN102356163A (zh) * | 2009-01-19 | 2012-02-15 | 西斯特米克苏格兰有限公司 | 采用非编码rna表达分析的方法 |
CN106778066A (zh) * | 2017-01-10 | 2017-05-31 | 郑州大学第附属医院 | 一种非小细胞肺癌相关癌基因筛选与功能分析方法 |
CN108883171A (zh) * | 2015-11-13 | 2018-11-23 | 麻省理工学院 | 用于检测和调节癌细胞的方法和组合物 |
EP3739065A1 (en) * | 2019-05-16 | 2020-11-18 | Fundació Centre de Regulació Genòmica | Somatic mutation-based classification of cancers |
CN112195249A (zh) * | 2020-11-13 | 2021-01-08 | 北京市化工职业病防治院(北京市职业病防治研究院) | 肺癌细胞辐射适应性MicroRNA表达谱检测方法 |
-
2021
- 2021-08-06 CN CN202110904405.8A patent/CN113593700B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2631236A1 (en) * | 2005-12-01 | 2007-06-28 | Medical Prognosis Institute | Methods and devices for identifying biomarkers of treatment response and use thereof to predict treatment efficacy |
CN102356163A (zh) * | 2009-01-19 | 2012-02-15 | 西斯特米克苏格兰有限公司 | 采用非编码rna表达分析的方法 |
CN108883171A (zh) * | 2015-11-13 | 2018-11-23 | 麻省理工学院 | 用于检测和调节癌细胞的方法和组合物 |
CN106778066A (zh) * | 2017-01-10 | 2017-05-31 | 郑州大学第附属医院 | 一种非小细胞肺癌相关癌基因筛选与功能分析方法 |
EP3739065A1 (en) * | 2019-05-16 | 2020-11-18 | Fundació Centre de Regulació Genòmica | Somatic mutation-based classification of cancers |
CN112195249A (zh) * | 2020-11-13 | 2021-01-08 | 北京市化工职业病防治院(北京市职业病防治研究院) | 肺癌细胞辐射适应性MicroRNA表达谱检测方法 |
Non-Patent Citations (2)
Title |
---|
Comparative proteome analysis across non-small cell lung cancer cell lines;Kathrin Grundner-Culemann 等;《Journal of proteomics》;第130卷;1-10 * |
Pax5在肺腺癌向小细胞肺癌转化中的作用及机制;刘喆 等;《第十二届全国免疫学学术大会分会场交流报告集》;185 * |
Also Published As
Publication number | Publication date |
---|---|
CN113593700A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Confounder adjustment in multiple hypothesis testing | |
Blein-Nicolas et al. | Thousand and one ways to quantify and compare protein abundances in label-free bottom-up proteomics | |
EP3837690B1 (en) | Systems and methods for using neural networks for germline and somatic variant calling | |
Wirth et al. | Mining SOM expression portraits: feature selection and integrating concepts of molecular function | |
US20220189579A1 (en) | Protein complex structure prediction from cryo-electron microscopy (cryo-em) density maps | |
CN103955629A (zh) | 基于模糊k均值的宏基因组片段聚类方法 | |
Mukhopadhyay | Large-scale mode identification and data-driven sciences | |
CA3154621A1 (en) | Single cell rna-seq data processing | |
Guo et al. | Metabolomic analyses redefine the biological classification of pancreatic cancer and correlate with clinical outcomes | |
Wang et al. | DTWscore: differential expression and cell clustering analysis for time-series single-cell RNA-seq data | |
WO2022011855A1 (zh) | 一种假阳性结构变异过滤方法、存储介质及计算设备 | |
CN113593700B (zh) | 分析肺癌进展的方法、装置、设备、介质及程序产品 | |
Liu et al. | Characteristic gene selection via weighting principal components by singular values | |
CN111733251A (zh) | 一种特征miRNA表达谱组合及肾透明细胞癌早期预测方法 | |
CN115881218A (zh) | 用于全基因组关联分析的基因自动选择方法 | |
Su et al. | Distribution‐Agnostic Deep Learning Enables Accurate Single‐Cell Data Recovery and Transcriptional Regulation Interpretation | |
Rueda et al. | Clustering time-series gene expression data with unequal time intervals | |
CN114496097A (zh) | 一种胃癌代谢基因预后预测方法和装置 | |
CN111383708A (zh) | 基于化学基因组学的小分子靶标预测算法及其应用 | |
CN111710366A (zh) | 一种任意阶分段多项式信号的处理方法 | |
Lu | Molecular structure recognition by blob detection | |
CN111276188B (zh) | 一种基于角度特征的短时序基因表达数据聚类方法 | |
Perner et al. | Characterizing cell types through differentially expressed gene clusters using a model-based approach | |
Kim | Statistical learning methods for multi-omics data integration in dimension reduction, supervised and unsupervised machine learning | |
Riccadonna et al. | Supervised classification of combined copy number and gene expression data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |