CN114150059B - Mcm3相关乳腺癌生物标志物试剂盒、诊断系统及其相关应用 - Google Patents
Mcm3相关乳腺癌生物标志物试剂盒、诊断系统及其相关应用 Download PDFInfo
- Publication number
- CN114150059B CN114150059B CN202010927463.8A CN202010927463A CN114150059B CN 114150059 B CN114150059 B CN 114150059B CN 202010927463 A CN202010927463 A CN 202010927463A CN 114150059 B CN114150059 B CN 114150059B
- Authority
- CN
- China
- Prior art keywords
- breast cancer
- genes
- mcm3
- diagnostic
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010006187 Breast cancer Diseases 0.000 title claims abstract description 70
- 208000026310 Breast neoplasm Diseases 0.000 title claims abstract description 70
- 239000000107 tumor biomarker Substances 0.000 title abstract description 5
- 238000003745 diagnosis Methods 0.000 title description 21
- 102100039606 DNA replication licensing factor MCM3 Human genes 0.000 title 1
- 101000963174 Homo sapiens DNA replication licensing factor MCM3 Proteins 0.000 title 1
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 79
- 101000836150 Homo sapiens Transforming acidic coiled-coil-containing protein 3 Proteins 0.000 claims abstract description 8
- 102100027048 Transforming acidic coiled-coil-containing protein 3 Human genes 0.000 claims abstract description 8
- 101710176668 Cartilage oligomeric matrix protein Proteins 0.000 claims abstract description 7
- 102100027473 Cartilage oligomeric matrix protein Human genes 0.000 claims abstract description 7
- 102100038504 Cellular retinoic acid-binding protein 2 Human genes 0.000 claims abstract description 7
- 102100039444 Cortexin-1 Human genes 0.000 claims abstract description 7
- 102100030690 Histone H2B type 1-C/E/F/G/I Human genes 0.000 claims abstract description 7
- 101001099851 Homo sapiens Cellular retinoic acid-binding protein 2 Proteins 0.000 claims abstract description 7
- 101000889207 Homo sapiens Cortexin-1 Proteins 0.000 claims abstract description 7
- 101001084682 Homo sapiens Histone H2B type 1-C/E/F/G/I Proteins 0.000 claims abstract description 7
- 101000687968 Homo sapiens Membrane-associated tyrosine- and threonine-specific cdc2-inhibitory kinase Proteins 0.000 claims abstract description 7
- 101000575378 Homo sapiens Microfibrillar-associated protein 2 Proteins 0.000 claims abstract description 7
- 101001120710 Homo sapiens Ovarian cancer G-protein coupled receptor 1 Proteins 0.000 claims abstract description 7
- 101001130293 Homo sapiens Ras-related protein Rab-26 Proteins 0.000 claims abstract description 7
- 101000618133 Homo sapiens Sperm-associated antigen 5 Proteins 0.000 claims abstract description 7
- 101000851357 Homo sapiens Troponin T, slow skeletal muscle Proteins 0.000 claims abstract description 7
- 101000837581 Homo sapiens Ubiquitin-conjugating enzyme E2 T Proteins 0.000 claims abstract description 7
- 102100024262 Membrane-associated tyrosine- and threonine-specific cdc2-inhibitory kinase Human genes 0.000 claims abstract description 7
- 102100025599 Microfibrillar-associated protein 2 Human genes 0.000 claims abstract description 7
- 102100026070 Ovarian cancer G-protein coupled receptor 1 Human genes 0.000 claims abstract description 7
- 102100031530 Ras-related protein Rab-26 Human genes 0.000 claims abstract description 7
- 108091006628 SLC12A8 Proteins 0.000 claims abstract description 7
- 102100036751 Solute carrier family 12 member 8 Human genes 0.000 claims abstract description 7
- 102100021915 Sperm-associated antigen 5 Human genes 0.000 claims abstract description 7
- 102100036860 Troponin T, slow skeletal muscle Human genes 0.000 claims abstract description 7
- 102100028705 Ubiquitin-conjugating enzyme E2 T Human genes 0.000 claims abstract description 7
- 102100027995 Collagenase 3 Human genes 0.000 claims abstract description 6
- 101000577887 Homo sapiens Collagenase 3 Proteins 0.000 claims abstract description 6
- 238000001514 detection method Methods 0.000 claims description 45
- 238000005516 engineering process Methods 0.000 claims description 8
- 239000003153 chemical reaction reagent Substances 0.000 claims description 5
- 239000000463 material Substances 0.000 claims description 3
- 238000012775 microarray technology Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 2
- 238000011529 RT qPCR Methods 0.000 claims 1
- 238000003762 quantitative reverse transcription PCR Methods 0.000 claims 1
- 230000014509 gene expression Effects 0.000 description 36
- 238000000034 method Methods 0.000 description 31
- 206010028980 Neoplasm Diseases 0.000 description 22
- 201000011510 cancer Diseases 0.000 description 15
- 238000007405 data analysis Methods 0.000 description 12
- 210000004027 cell Anatomy 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000012216 screening Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 239000003550 marker Substances 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000007477 logistic regression Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000012228 RNA interference-mediated gene silencing Methods 0.000 description 4
- 238000005094 computer simulation Methods 0.000 description 4
- 230000009368 gene silencing by RNA Effects 0.000 description 4
- 238000012417 linear regression Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000002493 microarray Methods 0.000 description 4
- 238000004393 prognosis Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000012163 sequencing technique Methods 0.000 description 4
- 101150082072 14 gene Proteins 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 3
- 230000036210 malignancy Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 101150004492 Mcm3 gene Proteins 0.000 description 2
- 208000003721 Triple Negative Breast Neoplasms Diseases 0.000 description 2
- 108010073929 Vascular Endothelial Growth Factor A Proteins 0.000 description 2
- 102000005789 Vascular Endothelial Growth Factors Human genes 0.000 description 2
- 108010019530 Vascular Endothelial Growth Factors Proteins 0.000 description 2
- 102000015694 estrogen receptors Human genes 0.000 description 2
- 108010038795 estrogen receptors Proteins 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000002018 overexpression Effects 0.000 description 2
- 208000022679 triple-negative breast carcinoma Diseases 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 102100032912 CD44 antigen Human genes 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 101710179497 DNA replication helicase Proteins 0.000 description 1
- 101000868273 Homo sapiens CD44 antigen Proteins 0.000 description 1
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 description 1
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 210000000270 basal cell Anatomy 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000010261 cell growth Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013502 data validation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006806 disease prevention Effects 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 201000007741 female breast cancer Diseases 0.000 description 1
- 201000002276 female breast carcinoma Diseases 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010362 genome editing Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000003147 molecular marker Substances 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 239000000583 progesterone congener Substances 0.000 description 1
- 102000005962 receptors Human genes 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000009711 regulatory function Effects 0.000 description 1
- 238000003757 reverse transcription PCR Methods 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- 239000000439 tumor marker Substances 0.000 description 1
- 101150071951 ube2t gene Proteins 0.000 description 1
- 108700026220 vif Genes Proteins 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/112—Disease subtyping, staging or classification
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/158—Expression markers
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biotechnology (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Immunology (AREA)
- Analytical Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Public Health (AREA)
- Oncology (AREA)
- Hospice & Palliative Care (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Artificial Intelligence (AREA)
- Physiology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
本文提供了MCM3相关乳腺癌生物标志物试剂盒、诊断系统及其相关应用。具体而言,本文提供了一组可作为乳腺癌诊断标记的MCM3关联基因及基于该组基因建立的诊断模型:TACC3、SPAG5、UBE2T、TNNT1、COMP、MFAP2、GPR68、PKMYT1、MMP13、CRABP2、RAB26、CTXN1、HIST1H2BC、SLC12A8。本文所提供的MCM3关联基因与诊断模型,能够以高置信度鉴定乳腺癌细胞。
Description
技术领域
本文关于乳腺癌生物标志物试剂盒、诊断系统及其相关应用,具体而言,本文是关于检测来自待测个体的离体样品中TACC3等14个差异表达的基因水平利用该以及试剂盒和/或诊断系统中的应用。
背景技术
乳腺癌是全球范围内女性常见的恶性肿瘤,严重威胁女性健康,全球乳腺癌发病率自20世纪70年代末开始一直呈上升趋势。美国8名妇女一生中就会有1人患乳腺癌。中国不是乳腺癌的高发国家,但不宜乐观,近年我国乳腺癌发病率的增长速度却高出高发国家1~2个百分点。据国家癌症中心和卫生部疾病预防控制局公布的乳腺癌发病数据显示:全国肿瘤登记地区乳腺癌发病率位居女性恶性肿瘤的第1位,女性乳腺癌发病率(粗率)全国合计为42.55/10万,城市为51.91/10万,农村为23.12/10万。根据临床病理分型可将乳腺癌分为Luminal A型,Luminal B型,HER2过表达型和基底细胞型(三阴性乳腺癌),各分子亚型间在基因表达水平,发病年龄,临床特征,恶性程度和治疗敏感度及预后均存在差异,其中尤其以三阴性乳腺癌的恶性程度最高且预后较差。
乳腺癌的发生、发展与许多肿瘤标志物的异常表达有关,目前研究较多的乳腺癌肿瘤标志物有:孕激素受体(PR)、血管内皮生长因子(VEGF)、雌激素受体(ER)、CD44、p53等。但单一乳腺癌肿瘤标志物的检测灵敏度不高,常常存在误诊,导致真正的临床应用非常有限。
发明内容
为了解决上述现有技术中的问题,本文通过对特定的TACC3、SPAG5、UBE2T、TNNT1、COMP、MFAP2、GPR68、PKMYT1、MMP13、CRABP2、RAB26、CTXN1、HIST1H2BC和SLC12A8共14个基因的表达式水平进行了检测,提高了对乳腺癌检测的准确性。
本文的一个目的在于寻找新的、敏感性及特异性更好的诊断乳腺癌的标记物的组合,检测上述基因的试剂在制备鉴别乳腺癌细胞和/或诊断乳腺癌的诊断系统中的应用。
本发明的另一目的在于提供一种基于一组互相关联的诊断标记物所制备的乳腺癌检测试剂盒。
本文的另一目的在于提供一种乳腺癌诊断系统,包括检测单元和数据分析单元,所述检测单元用于检测来自待测个体的离体样本中上述14个基因的表达值,获得检测结果;所述数据分析单元用于对检测单元的检测结果进行分析处理。
本文的另一目的在于提供一种存储有基于所构建的乳腺癌诊断模型的计算机程序指令的计算机存储介质,所述计算机存储介质存储有计算机程序指令,所述计算机程序指令被执行时实现:基于待测个体的上述14个基因的表达水平值获得个体罹患乳腺癌的诊断分类结果。
本文的另一目的在于提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现:基于待测个体的上述14个基因的表达水平值获得个体罹患乳腺癌的诊断分类结果。
综上所述,本文提供了一组MCM3相关乳腺癌生物标志物与基于该组标志物构建的诊断系统及其相关应用,所建立的包含14个基因的诊断系统经计算机模拟及乳腺癌基因组数据验证皆具有高可信度。与现有的针对乳腺癌的单一诊断标记相比,本文的生物标志物能够进一步提升乳腺癌的诊断灵敏度和精确性。基于本文中诊断标记的高准确性以及检测方法的快速和高可操作性,本文可以通过商业试剂盒以用于乳腺癌的临床快速检验。
附图说明
图1所示为本文实施例MCM3关联基因在不同类型肿瘤细胞中的表达量分析示意图;
图2所示为本文实施例构建检测模型的流程图;
图3所示为本文实施例MCM3关联的差异表达基因与乳腺癌差异表达基因的相关性分析示意图;
图4所示为本文实施例乳腺癌诊断系统的结构示意图;
图5所示为本文实施例乳腺癌诊断系统的具体结构示意图;
图6所示为本文实施例基于机器学习的LASSO逻辑回归模型(LASSO logisticregression model)分析曲线图;
图7a、图7b所示为本文实施例利用计算机模拟数据测试以该组14个基因组成的乳腺癌诊断系统的诊断能力示意图;
图8所示为本文实施例利用已发布的乳腺癌基因组数据集测试以该组14个基因组成的乳腺癌诊断模型的诊断能力示意图;
图9所示为本文实施例的结构示意图。
具体实施方式
为了对本文的技术特征、目的和有益效果有更加清楚的理解,现对本文的技术方案进行以下详细说明,但不能理解为对本文的可实施范围的限定。实施例中未详细注明的操作方法,按照所属领域中的常规操作或厂商说明书的建议操作条件进行。
MCM3(minichromosome maintenance deficient 3)是真核生物DNA复制解旋酶中的一个组成部分,本文发明人研究发现,MCM3同样参与基因表达调控。如图1所示,MCM3在19种不同的癌症的肿瘤样本和正常样本中都存在显著差异表达的现象,其中MCM3在绝大部分肿瘤样本里过表达,其可能于癌症发展过程中发挥作用。
如图2所示为本文实施例构建检测模型的流程图,在本图中描述了构建通过MCM3的14个关联基因作为乳腺癌诊断的标志物组合的筛选过程,由所述检测模型构成的乳腺癌诊断系统可以提供很高的准确率以及可信度,该方法具体包括:
步骤201,筛选MCM3关联基因。
在本步骤中,鉴于MCM3在细胞生长中的重要作用以及在乳腺癌细胞中的显著过表达,本文发明人通过研究MCM3的基因表达调控功能,利用RNA干扰技术敲减和高通量转录组测序技术鉴定,共发现1518个MCM3差异表达基因,这些基因的表达可能受到MCM3的直接或间接调控,与MCM3的功能可能具有相关性,因此为MCM3关联基因。
其中,RNA干扰技术敲减和高通量转录组测序技术可以参考现有技术中的方法,当然也可以采用其他的分析方法得到类似的和MCM3相关的差异表达基因,即MCM3关联基因,例如RNA干扰技术可以采用CRISPR-CasRx基因编辑技术进行替代;高通量转录组测序技术可以采用基因芯片(genechip)技术替代。
步骤202,筛选MCM3关联基因和乳腺癌差异表达基因的相关基因。
在本步骤中,通过比对MCM3关联基因与乳腺癌细胞差异表达基因,获得了一个包含168个共同相关基因的列表,如图3所示的韦恩图展示了MCM3相关的1518个差异表达基因和1695个在乳腺癌肿瘤样本和正常样本中差异表达的基因,两者共有168个相关基因。这些基因与MCM3及乳腺癌都存在相关性,部分基因可能代表了乳腺癌细胞的某种特性。
步骤203,从所述相关基因中筛选出预测能力较强的基因。
在本步骤中,通过对上述168个相关基因进行单基因预测水平筛选(single genepredictive power filtering),将候选的诊断标记物列表进一步缩小为38个基因。
具体的,根据前述RNA干扰技术敲减和高通量转录组测序技术,通过分析得到MCM3关联基因。为了进一步探寻MCM3关联基因在乳腺癌诊断中的作用,分析了乳腺癌肿瘤样本和正常样本的差异基因,通过和MCM3的关联基因进行分析筛选,得到168个在乳腺癌中差异表达的MCM3的相关基因,它们可能对乳腺癌的早期诊断有贡献。由于差异基因并不一定代表该基因能对区分癌症和正常样本起作用,因此,又对上述相关的168个基因进行接受者操作特征曲线(Receiver Operating Characteristic curve,ROC)分析,在一个实施例中将曲线面积(Area under the Curve of ROC,AUC)大于阈值(例如0.8)的基因筛选而出,在本例中得到38个基因。通过ROC分析滤除预测能力较低的单基因后,得到的38个基因能提高结果的预测效果。
步骤204,从预测能力较强的基因中筛选出MCM3中作为乳腺癌的诊断标志物的基因组合。
在本步骤中,为进一步缩小诊断标志物组合以便于临床应用,本文利用基于Glmnet算法(https://cran.r-project.org/web/packages/glmnet/index.html)的LASSO逻辑回归模型(LASSO logistic regression model)分析,筛选出一组共14个基因作为乳腺癌的诊断标志物组合。
其中,在训练数据集中,包括了多个具有乳腺癌诊断标签(正确分类)的上述38个单基因预测能力大于阈值的MCM3相关的乳腺癌差异基因,即癌症样本或正常样本,采用上述LASSO逻辑回归模型可以以很低的错误率筛选出最佳的乳腺癌诊断标志物基因组合,还可以得到拟合的线性回归模型的截距和基因组合中每个基因的权重系数。
在其他实施例中,还可以采用前进法,后退法,逐步回归法,logstic线性回归法、甚至枚举法等算法进行上述筛选最佳乳腺癌诊断标志物基因组合,并得到线性回归模型的截距和每个基因的权重系数。
上述的基因组合包括14个基因,这14个基因分别是:TACC3、SPAG5、UBE2T、TNNT1、COMP、MFAP2、GPR68、PKMYT1、MMP13、CRABP2、RAB26、CTXN1、HIST1H2BC、SLC12A8。
步骤205,根据所述基因组合构建乳腺癌检测模型。
在上述步骤中,以该组14个MCM3基因组合为基础构建乳腺癌检测模型,通过上述的LASSO逻辑回归模型可以构建出如下的检测模型,或者还可以通过logstic线性回归生成检测模型:
8.2178595+0.0000001×TACC3+0.1630247×SPAG5+1.1824652×UBE2T+0.8529433×TNNT1+1.2709300×COMP+0.4809236×MFAP2+0.7679371×GPR68+0.5655680×PKMYT1+0.5373511×MMP13-0.5447167×CRABP2+1.4946474×RAB26+0.5254629×CTXN1+0.5588773×HIST1H2BC+1.0419111×SLC12A8。
如图4所示为本文实施例乳腺癌诊断系统的结构示意图,在本图中描述了利用上述检测模型构建的诊断系统,该系统中可以通过软件程序实现其中功能模块,或者也可以通过专用芯片或者通用芯片的方式实现其中的功能模块,其中的功能模块可以存在于一台计算机中,也可以存在于多台计算机构成的计算机集群中,所述系统包括:
检测单元401,用于检测以下基因表达值,获得检测结果:TACC3、SPAG5、UBE2T、TNNT1、COMP、MFAP2、GPR68、PKMYT1、MMP13、CRABP2、RAB26、CTXN1、HIST1H2BC和SLC12A8;
数据分析单元402,用于对检测单元的检测结果进行分析处理。其中,所述数据分析单元对检测结果进行分析处理后输出分类结果。
作为本文实施例的一个方面,所述数据分析单元402进一步用于将14个基因表达值配以权重系数,以计算所述离体样本的风险得分。
上述的数据分析单元402应用了前述的检测模型对检测得到的待测个体的离体样本中的14个基因表达值进行计算。
所述检测可以采用本领域中任何已知的技术检测所述基因。可以在DNA水平、RNA水平检测本发明所述基因。
检测所述基因的试剂包括采用RT-qPCR(定量逆转录聚合酶链式反应)技术或微阵列(microarray)技术用到的材料和/或设备。通过RT-qPCR技术或微阵列(microarray)技术检测所述基因以鉴别及诊断乳腺癌细胞,检测方法快速且具有高可操作性。
所述离体样本例如可以是血液、病理组织样品等。
作为本文实施例的一个方面,还可以参考图5所示为本文实施例乳腺癌诊断系统的详细结构示意图,所述数据分析单元402进一步包括,预处理模块4021,用于将所述离体样本的基因表达值标准化;
计算模块4022,用于将标准化的基因表达值带入到以下检测模型,得到该离体样本的风险得分:
风险得分=8.2178595+0.0000001×TACC3+0.1630247×SPAG5+1.1824652×UBE2T+0.8529433×TNNT1+1.2709300×COMP+0.4809236×MFAP2+0.7679371×GPR68+0.5655680×PKMYT1+0.5373511×MMP13-0.5447167×CRABP2+1.4946474×RAB26+0.5254629×CTXN1+0.5588773×HIST1H2BC+1.0419111×SLC12A8。
上述的预处理模块4021对于所述离体样本中的同一个基因表达值进行“z-score”标准化,即减掉均值再除以标准差,可以通过R函数的’scale()’进行标准化,标准化后获得由14个MCM3基因表达值组成的数据集。
作为本文实施例的一个方面,所述数据分析单元402还包括,矩阵输入模块4023,用于接收所述预处理模块4021输出的多个所述标准化的基因表达值,将所述标准化的基因表达值以矩阵形式输入到所述计算模块4022。
上述的矩阵输入模块4023可以将多个离体样本的标准化基因表达值输入到计算模块中,所述的计算模块可同时对多个离体样品的标准化基因表达值进行分析,以表达矩阵的形式输入计算模块,其中,矩阵的行是不同的离体样品,矩阵的列是14个基因的标准化表达值。
作为本文实施例的一个方面,所述数据分析单元402还包括,输出模块4024,用于接收所述计算模块4022输出的风险得分,将大于0和小于0的风险得分转换为诊断分类结果。
上述的输出模块4024通过内置的predict函数,输出二分值结果:“0”代表正常样品,“1”代表癌症样品。其内部逻辑如下:根据检测模型对14个基因的标准化表达值的风险得分计算,得分大于0的风险得分输出结果“1”,代表癌症样品;得分小于0的风险得分输出结果“0”,代表正常样品。
本文所述的乳腺癌诊断系统,可以是虚拟装置,只要能实现所述检测单元以及数据分析单元的功能即可。所述的检测单元可以是包括各种检测试剂材料和/或检测仪器设备等。所述的数据分析单元可以是任何可以实现对检测单元的检测结果进行分析处理而得出待测个体是否罹患乳腺癌的分析预判结果的运算仪器、模块或是虚拟设备,例如可以是预先存储有基于算法模型的运算程序指令的运算仪器,将检测单元的检测结果输入该运算仪器能得出待测个体是否罹患乳腺癌的分析预判结果或分类结果。
根据本文技术方案的验证结果显示,该检测模型对乳腺癌具有显著的诊断能力。计算机模拟数据测试显示该检测模型对模拟癌症细胞的诊断能力高达99%,如图6所示,展示了使用R包“glmnet”的LASSO算法,通过交叉验证,对38个AUC值大于0.8的潜在标志基因进行进一步筛选的过程,纵坐标代表错误率,横坐标上方数字代表选取的分子标志物组合里基因的个数,点代表该组合下的错误率,上下灰线代表误差范围。可以看到从右到左,随着组合的基因数目增加,模型的错误率在降低。该过程挑选出2个最佳基因组合,如两条灰色虚线所示,其中,如本文实施例中采用LASSO回归寻找最佳特征组合时,底层参数选择的标准有两种,一种是使得交叉验证的平均错误率最低,另一种是使得误差在最小值的标准误差内。图中的两条灰色线段分别对应了这两种不同的标准。在图6中展示了在底层参数Lambda取不同的值时,交叉验证的平均误差的值,最上方的数字代表在Lambda取不同值时,对应的特征组合的特征数目,同样的特征数目对应的特征并不一样。横坐标下面的数字代表底层参数Lambda的对数值(log)。
此外,利用已公布的乳腺癌基因组数据进行测试,结果显示通过检测模型对计算机模拟数据进行检测,预测准确率高达99%(如图7a所示),其中,通过计算机模型建立包含正常组织和癌细胞组织的模拟数据集,该数据集共包含1022个模拟样品的数据,其中模拟正常样品93个,模拟癌细胞样品929个。利用机器学习算法通过模拟数据集对模型进行训练,训练结果显示模型可以正确分类大于99%的癌细胞样品(926/929)。训练结束后,再利用检测模型的诊断系统对另一测试数据集进行分类,结果显示该诊断系统分类准确率高达99%(179/180)(如图7b所示)。
为了进一步证明本文利用了上述检测模型的诊断系统针对真实临床样品依然切实有效,本文收集了公共数据库中已发布的乳腺癌样品基因表达值验证数据集(编号GSE42568,包括17个正常组织和104个癌细胞组织的基因组数据),通过上述的检测模型的诊断系统对该组样品进行诊断和分析,结果显示该诊断系统能够成功诊断出全部104个癌症组织样品,诊断准确度达97.5%(如图8所示),准确度的计算方法是:(14+104)/121=97.5%,敏感度的计算方法是:104/104=100%,特异性的计算方法是:14/17=82.4%,表明本文的诊断系统针对乳腺癌具有显著的诊断能力,表明其具有很高的可信度和应用前景。
本文可通过简单的RT-qPCR技术或微阵列(microarray)技术鉴别及诊断乳腺癌细胞。具体而言,在取得新的样品后,采用RT-qPCR技术或微阵列(microarray)技术获得本文中14个诊断标记的基因表达值,然后,通过诊断系统对样品进行鉴定。该系统以不同权重分别将14个基因的表达水平纳入计算,从而得到预测的分类结果(0代表正常样品,1代表癌症样品)。
基于本文中诊断标志物及诊断模型的高准确性以及检测方法的快速和高可操作性,本文还可以形成商业试剂盒以用于乳腺癌的临床快速检验。
如图9所示为本文实施例乳腺癌诊断系统的结构示意图,在本实施例中,在本实施例中的诊断系统上检测待测个体的离体样本,获得MCM3相应的基因表达值,并对14个基因表达值进行计算分析并输出分类结果,在本实施例中称为计算设备,计算设备902可以包括一个或多个处理设备904,诸如一个或多个中央处理单元(CPU),每个处理单元可以实现一个或多个硬件线程。计算设备902还可以包括任何存储资源906,其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的,比如,存储资源906可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,任何存储资源都可以使用任何技术来存储信息。进一步地,任何存储资源可以提供信息的易失性或非易失性保留。进一步地,任何存储资源可以表示计算设备902的固定或可移除部件。在一种情况下,当处理设备904执行被存储在任何存储资源或存储资源的组合中的相关联的指令时,计算设备902可以执行相关联指令的任一操作。计算设备902还包括用于与任何存储资源交互的一个或多个驱动机构908,诸如硬盘驱动机构、光盘驱动机构等。
计算设备902还可以包括输入/输出模块910(I/O),其用于接收各种输入(经由输入设备912)和用于提供各种输出(经由输出设备914))。一个具体输出机构可以包括呈现设备916和相关联的图形用户接口(GUI)918。计算设备902还可以包括一个或多个网络接口920,其用于经由一个或多个通信链路922与其他设备交换数据。一个或多个通信总线924将上文所描述的部件耦合在一起。
通信链路922可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路922可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
本文实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
检测以下基因表达值,获得检测结果:TACC3、SPAG5、UBE2T、TNNT1、COMP、MFAP2、GPR68、PKMYT1、MMP13、CRABP2、RAB26、CTXN1、HIST1H2BC和SLC12A8;对所述检测结果进行分析处理。其中,所述数据分析单元对检测结果进行分析处理后输出分类结果。
本文实施例提供的计算机设备还可以实现如图2、图3、图6-图8中的处理。
本文实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述系统的步骤。
本文实施例还提供一种计算机可读指令,其中当处理器执行所述指令时,其中的程序使得处理器执行如图2、图3、图6-图8中的处理。
应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
还应理解,在本发明实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (3)
1.检测以下基因的试剂在制备鉴别乳腺癌细胞和/或诊断乳腺癌的检测系统中的应用:
检测的14个基因为:TACC3、SPAG5、UBE2T、TNNT1、COMP、MFAP2、GPR68、PKMYT1、MMP13、CRABP2、RAB26、CTXN1、HIST1H2BC和SLC12A8。
2.根据权利要求1所述的应用,其中,检测所述基因的试剂包括采用RT-qPCR技术或微阵列microarray技术用到的材料。
3.根据权利要求1所述的应用,其中是对来自待测个体的离体样本进行检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010927463.8A CN114150059B (zh) | 2020-09-07 | 2020-09-07 | Mcm3相关乳腺癌生物标志物试剂盒、诊断系统及其相关应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010927463.8A CN114150059B (zh) | 2020-09-07 | 2020-09-07 | Mcm3相关乳腺癌生物标志物试剂盒、诊断系统及其相关应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114150059A CN114150059A (zh) | 2022-03-08 |
CN114150059B true CN114150059B (zh) | 2024-04-12 |
Family
ID=80460773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010927463.8A Active CN114150059B (zh) | 2020-09-07 | 2020-09-07 | Mcm3相关乳腺癌生物标志物试剂盒、诊断系统及其相关应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114150059B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018174861A1 (en) * | 2017-03-21 | 2018-09-27 | Mprobe Inc. | Methods and compositions for detecting early stage breast cancer with rna-seq expression profiling |
CN110499364A (zh) * | 2019-07-30 | 2019-11-26 | 北京凯昂医学诊断技术有限公司 | 一种用于检测扩展型遗传病全外显子的探针组及其试剂盒和应用 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130295581A1 (en) * | 2012-05-04 | 2013-11-07 | Oncocyte Corporation | Methods and Compositions for the Treatment and Diagnosis of Breast Cancer |
-
2020
- 2020-09-07 CN CN202010927463.8A patent/CN114150059B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018174861A1 (en) * | 2017-03-21 | 2018-09-27 | Mprobe Inc. | Methods and compositions for detecting early stage breast cancer with rna-seq expression profiling |
CN110499364A (zh) * | 2019-07-30 | 2019-11-26 | 北京凯昂医学诊断技术有限公司 | 一种用于检测扩展型遗传病全外显子的探针组及其试剂盒和应用 |
Non-Patent Citations (8)
Title |
---|
A Highly Potent TACC3 Inhibitor as a Novel Anticancer Drug Candidate;Ozge Akbulut等;《Mol Cancer Ther》;第19卷(第6期);第1243-1254页 * |
CRABP1 is associated with a poor prognosis in breast cancer: adding to the complexity of breast cancer cell response to retinoic acid;Rong-Zong Liu等;《Mol Cancer》;第14卷;129 * |
High expression of SPAG5 sustains the malignant growth and invasion of breast cancer cells through the activation of Wnt/β-catenin signalling;Jue Jiang等;《Clin Exp Pharmacol Physiol》;第46卷(第6期);第597-606页 * |
lncRNA LCPAT1 Upregulation Promotes Breast Cancer Progression via Enhancing MFAP2 Transcription;Xue Gong等;《Molecular Therapy》;第21卷;第804-813页 * |
MMP13 is potentially a new tumor marker for breast cancer diagnosis;Hui-Jen Chang等;《Oncol Rep》;第22卷(第5期);第1119-1127页 * |
Systematic expression analysis of WEE family kinases reveals the importance of PKMYT1 in breast carcinogenesis;Yu Liu等;《Cell Prolif》;第53卷(第2期);e12741 * |
TNNT1 facilitates proliferation of breast cancer cells by promoting G1/S phase transition;Yawei Shi等;《Life Sci》;第208卷;第161-166页 * |
基于数据库挖掘分析SLC12A8在乳腺癌组织中的表达及与细胞耐药的关系;李琪等;《现代肿瘤医学》;第29卷(第22期);第3938-3943页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114150059A (zh) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khosravi et al. | Deep convolutional neural networks enable discrimination of heterogeneous digital pathology images | |
US10713590B2 (en) | Bagged filtering method for selection and deselection of features for classification | |
US8478534B2 (en) | Method for detecting discriminatory data patterns in multiple sets of data and diagnosing disease | |
Etzioni et al. | Combining biomarkers to detect disease with application to prostate cancer | |
US8515680B2 (en) | Analysis of transcriptomic data using similarity based modeling | |
JP5184087B2 (ja) | ガンの予後のためのマーカー候補を分析および最適化するための方法およびコンピュータープログラム製品 | |
EP2700042B1 (en) | Analyzing the expression of biomarkers in cells with moments | |
EP3942556A1 (en) | Systems and methods for deriving and optimizing classifiers from multiple datasets | |
US9940383B2 (en) | Method, an arrangement and a computer program product for analysing a biological or medical sample | |
WO2021161901A1 (ja) | 特徴量選択方法、特徴量選択プログラム、マルチクラス分類方法、マルチクラス分類プログラム、特徴量選択装置、マルチクラス分類装置、及び特徴量セット | |
JP7197795B2 (ja) | 機械学習プログラム、機械学習方法および機械学習装置 | |
CN113271849A (zh) | 结合类别不平衡集降采样与生存分析的疾病风险确定方法 | |
Yeganeh et al. | Use of machine learning for diagnosis of cancer in ovarian tissues with a selected mRNA panel | |
CN114150059B (zh) | Mcm3相关乳腺癌生物标志物试剂盒、诊断系统及其相关应用 | |
CN110942808A (zh) | 一种基于基因大数据的预后预测方法及预测系统 | |
KR20210044400A (ko) | 이종 플랫폼의 dna 메틸레이션 데이터를 이용한 암의 예후 예측용 바이오마커 발굴 방법 및 장치 | |
US20230253109A1 (en) | Cancer screening device and cancer screening method | |
US20180181705A1 (en) | Method, an arrangement and a computer program product for analysing a biological or medical sample | |
KR20160088663A (ko) | 질병 관련 유전자 탐색 장치 및 그 방법 | |
WO2011119967A2 (en) | System,method and computer-accessible medium for evaluating a maliganacy status in at-risk populations and during patient treatment management | |
Feng et al. | Statistical considerations in combining biomarkers for disease classification | |
Malossini et al. | Assessment of SVM reliability for microarray data analysis | |
WO2022065216A1 (ja) | 特徴量選択方法、特徴量選択プログラム、及び特徴量選択装置、マルチクラス分類方法、マルチクラス分類プログラム、及びマルチクラス分類装置、並びに特徴量セット | |
Berreby | Combining Urinary Biomarker Panels and Machine Learning for Earlier Detection of Pancreatic Cancer | |
Kussaibi et al. | Al-Powered classification of Ovarian cancers Based on Histopathological lmages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |