CN117568471A - 蛋白基因甲基化作为辅助诊断癌症的分子标志物 - Google Patents

蛋白基因甲基化作为辅助诊断癌症的分子标志物 Download PDF

Info

Publication number
CN117568471A
CN117568471A CN202210242043.5A CN202210242043A CN117568471A CN 117568471 A CN117568471 A CN 117568471A CN 202210242043 A CN202210242043 A CN 202210242043A CN 117568471 A CN117568471 A CN 117568471A
Authority
CN
China
Prior art keywords
cancer
seq
ccdc88c
dna fragment
lung
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210242043.5A
Other languages
English (en)
Inventor
张晶
狄飞飞
张筝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tengchen Biotechnology Shanghai Co ltd
Original Assignee
Tengchen Biotechnology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tengchen Biotechnology Shanghai Co ltd filed Critical Tengchen Biotechnology Shanghai Co ltd
Priority to CN202210242043.5A priority Critical patent/CN117568471A/zh
Publication of CN117568471A publication Critical patent/CN117568471A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Immunology (AREA)
  • Wood Science & Technology (AREA)
  • Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Microbiology (AREA)
  • Hospice & Palliative Care (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Biochemistry (AREA)
  • Bioethics (AREA)
  • Oncology (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了蛋白基因甲基化作为辅助诊断癌症的分子标志物。本发明提供了甲基化CCDC88C基因作为标志物在制备产品中的应用;所述产品的用途为如下至少一种:辅助诊断癌症或预测癌症患病风险;辅助区分良性结节和癌症;辅助区分癌症不同亚型;辅助区分癌症不同分期;辅助区分不同癌症;确定待测物对癌症的发生是否存在阻碍或促进作用;所述癌症可为肺癌或乳腺癌。本发明研究发现了肺癌和乳腺癌患者血液中CCDC88C基因的高甲基化现象,本发明对提高肺癌和乳腺癌早期诊疗效果和降低死亡率均有重要的科学意义和临床应用价值。

Description

蛋白基因甲基化作为辅助诊断癌症的分子标志物
技术领域
本发明涉及医学领域,特别涉及蛋白基因甲基化作为辅助诊断癌症的分子标志物。
背景技术
肺癌是一种发生于支气管粘膜上皮的恶性肿瘤,近几十年来,其发病率和死亡率一直呈上升趋势,为全世界发病率和死亡率最高的癌症。尽管最近几年在诊断方法、手术技术及化疗药物等方面均有新进展,但肺癌患者总的5年生存率仅为16%,主要是由于大部分肺癌患者就诊时已发生转移从而失去了手术根治机会。研究表明,肺癌的预后与分期直接相关,I 期肺癌5年生存率为83%,II期为53%,III期为26%,IV期为6%。因此,降低肺癌患者死亡率的关键在于早诊断早治疗。
目前主要的肺癌诊断方法有如下几种:(1)影像学方法:例如胸部X射线和低剂量螺旋 CT。但胸部X射线很难发现早期肺癌。低剂量螺旋CT虽然可以发现肺内小结节,但是假阳性率高达96.4%,给被检查者带来不必要的心理负担。同时,胸部X射线和低剂量螺旋CT由于辐射的原因不宜频繁使用。另外,影像学方法也往往受设备和医生看片经验,以及有效读片时间的影响。(2)细胞学方法:例如痰液细胞学检查、支气管镜下刷片或取活检、支气管肺泡灌洗液细胞学检查等。痰液细胞学检查和支气管镜下刷片或取活检对于周围性肺癌的灵敏度较低。同时支气管镜下刷片或取活检、支气管肺泡灌洗液细胞学检查操作比较繁琐,且体检者舒适度不佳。(3)目前常用的血清肿瘤标志物:癌胚抗原(CEA)、糖类抗原 (CA125/153/199)、细胞角蛋白19片段抗原(CYFRA21-1)和神经元特异性烯醇化酶(NSE) 等。这些血清肿瘤标志物对肺癌的灵敏度有限,一般为30%-40%,对于I期肿瘤甚至更低。而且肿瘤特异性也比较有限,受许多良性病变如良性肿瘤、炎症、退行性疾病等影响。目前,肿瘤标志物主要用于恶性肿瘤的筛查和肿瘤治疗效果复查。因此,需要进一步开发高效特异的肺癌早期诊断技术。
目前国际公认的肺部结节诊断的最有效方法是胸部低剂量螺旋CT筛查。但是低剂量螺旋CT的灵敏度高,能发现大量的小结节,却难以进行良恶性的判别。在发现的小结节中,恶性的比例还不到4%。目前,临床上对肺结节的良恶性鉴定需要长期随访、反复CT检查或者依赖肺部结节活组织取样(包括胸壁细针穿刺活检、支气管镜组织活检、胸腔镜或开胸手术肺活检)等创伤性检查方法。CT引导或超声引导经胸穿刺活检有较高的灵敏度,但对于<2cm的结节诊断率较低,有30-70%漏诊率,且气胸和出血发生率较高。气管镜针吸活检并发症发生率相对较低,但对周围型结节诊断率有限,对≤2cm的结节诊断率仅34%,大于2cm的结节诊断率为63%。手术切除诊断率高且可直接对结节进行处理,但会造成患者肺功能出现短暂减退,若结节为良性,则患者进行了不必要的手术,导致了过度医疗。因此,目前迫切需要新的体外诊断分子标志物来辅助进行肺部结节的鉴别,在降低漏诊率的同时也尽量减少不必要的穿刺或者手术。
乳腺癌是乳腺上皮细胞发生增殖失控引起的恶性肿瘤。一方面乳腺癌在世界范围内是女性最常见的恶性肿瘤之一,发病率位居女性恶性肿瘤首位。另一方面,乳腺癌的生存率与肿瘤的类别和分期有关。早期阶段乳腺癌的5年生存预后通常高于60%,但是对于晚期乳腺癌,该数值降至40-60%。对于转移性乳腺癌,5年生存预后通常为约15%。因此提高乳腺癌早期的检出率对乳腺癌后期有效诊治十分必要。现阶段,临床医学对乳腺癌的早期筛查诊断主要有影像学和病理学两种方式。影像学诊断中B型超声成像无辐射,但是受超声成像的机理限制,该方法对体积较小、回声改变不明显的病灶分辨率较差,容易漏诊。乳腺钼靶检查技术是一种低剂量乳腺X光拍摄乳房的技术,它能清晰显示乳腺各层组织结构情况,但乳腺钼靶检查有着较高的假阳性率,需要对患者乳腺进行穿刺以进行更准确的判断,此外乳腺钼靶对患者还存在电离辐射等危害。乳腺核磁共振成像利用磁能和无线电波查看乳腺组织并生成内部图像的技术,主要适用于乳腺癌高危人群的筛查。病理学诊断主要有乳腺活检,是指取病变组织进行病理诊断的方法,然而活检手术因对人有创伤令患者十分抗拒。此外还有一些常用的肿瘤标志物,如肿瘤抗原15-3、肿瘤抗原27.29、癌胚抗原、肿瘤抗原125和循环肿瘤细胞等被用于乳腺癌的诊断,但其特异性和灵敏度有待提高,一般结合影像学研究使用。因此,更为敏感、特异的早期乳腺癌分子标记亟待发掘。
DNA甲基化是基因上重要的一种化学修饰,影响着基因转录的调控过程和细胞核结构。 DNA甲基化的改变是癌症发展的早期事件和伴随事件,主要体现在肿瘤组织上抑癌基因的高甲基化和原癌基因的低甲基化等。但是血液中的DNA甲基化跟肿瘤发生发展的相关性则报道得较少。此外血液容易收集,DNA甲基化较稳定,如果可以发现肿瘤特异的血液DNA甲基化分子标志物则有巨大的临床应用价值。因此,探索和开发适用于临床检测需要的血液 DNA甲基化诊断技术对提高肺癌早期诊疗效果和降低死亡率均有重要的临床应用价值和社会意义。
发明内容
本发明的目的是提供一种用于辅助诊断癌症的卷曲螺旋蛋白88C(Coiled-CoilDomain Containing 88C,CCDC88C)甲基化标志物及试剂盒。
第一方面,本发明要求保护甲基化CCDC88C基因作为标志物在制备产品中的应用。所述产品的用途可为如下中的至少一种:
(1)辅助诊断癌症或预测癌症患病风险;
(2)辅助区分良性结节和癌症;
(3)辅助区分癌症不同亚型;
(4)辅助区分癌症不同分期;
(5)辅助诊断肺癌或预测肺癌患病风险;
(6)辅助区分肺部良性结节和肺癌;
(7)辅助区分肺癌不同亚型;
(8)辅助区分肺癌不同分期;
(9)辅助诊断乳腺癌或预测乳腺癌患病风险;
(10)辅助区分乳腺良性结节和乳腺癌;
(11)辅助区分乳腺癌不同亚型;
(12)辅助区分乳腺癌不同分期;
(13)辅助区分肺癌和乳腺癌;
(14)确定待测物对癌症的发生是否存在阻碍或促进作用。
进一步地,(1)中所述辅助诊断癌症具体可体现为如下中的至少一种:辅助区分癌症患者和无癌对照(可理解为现在及曾经均没有患过癌症且没有报告良性结节且血常规指标都在参考范围内);辅助区分不同癌症。
进一步地,(2)中所述良性结节为(2)中所述癌症对应的良性结节,如肺部良性结节和肺癌。
进一步地,(3)中所述癌症不同亚型可为病理分型,如组织学分型。
进一步地,(4)中所述癌症不同分期可为临床分期或TNM分期。
在本发明的具体实施方式中,(5)中所述辅助诊断肺癌具体体现为如下中的至少一种:可辅助区分肺癌患者和无癌对照、可辅助区分肺腺癌患者和无癌对照、可辅助区分肺鳞癌患者和无癌对照、可辅助区分小细胞肺癌患者和无癌对照、可辅助区分I期肺癌患者和无癌对照、可辅助区分II-III期肺癌患者和无癌对照、可辅助区分无淋巴结浸润的肺癌患者和无癌对照、可辅助区分有淋巴结浸润的肺癌患者和无癌对照。其中,所述无癌对照可理解为现在及曾经均没有患过癌症且没有报告肺部良性结节且血常规指标都在参考范围内。
在本发明的具体实施方式中,(6)中所述辅助区分肺部良性结节和肺癌具体体现为如下中的至少一种:可辅助区分肺癌和肺部良性结节、可辅助区分肺腺癌和肺部良性结节、可辅助区分肺鳞癌和肺部良性结节、可辅助区分小细胞肺癌和肺部良性结节、可辅助区分I期肺癌和肺部良性结节、可辅助区分II-III期肺癌和肺部良性结节、可辅助区分无淋巴结浸润的肺癌和肺部良性结节、可辅助区分有淋巴结浸润的肺癌和肺部良性结节。
在本发明的具体实施方式中,(7)中所述辅助区分肺癌不同亚型具体体现为:可辅助区分肺腺癌、肺鳞癌和小细胞肺癌中的任意两种。
在本发明的具体实施方式中,(8)中所述辅助区分肺癌不同分期具体体现为如下中的至少一种:可辅助区分T1期肺癌、T2期肺癌和T3肺癌中的任意两种;可辅助区分无淋巴结浸润的肺癌和有淋巴结浸润的肺癌;可辅助区分临床I期肺癌、临床II期肺癌和临床III期肺癌中的任意两种。
在本发明的具体实施方式中,(9)中所述辅助诊断乳腺癌具体体现为如下中的至少一种:可辅助区分乳腺癌患者和无癌女性对照,可辅助区分乳腺导管原位癌和无癌对照,可辅助区分乳腺浸润性导管癌和无癌对照,可辅助区分乳腺浸润性小叶癌和无癌对照,可辅助区分I期乳腺癌和无癌对照,可辅助区分II-III期乳腺癌和无癌对照,可辅助区分无淋巴结浸润的乳腺癌和无癌对照,可辅助区分有淋巴结浸润的乳腺癌和无癌对照。其中,所述无癌对照可理解为现在及曾经均没有患过癌症且没有报告乳腺良性结节且血常规指标都在参考范围内。
在本发明的具体实施方式中,(10)中所述辅助区分乳腺良性结节和乳腺癌具体体现为如下中的至少一种:可辅助区分乳腺癌和乳腺良性结节、可辅助区分乳腺导管原位癌和乳腺良性结节、可辅助区分乳腺浸润性导管癌和乳腺良性结节、可辅助区分乳腺浸润性小叶癌和乳腺良性结节、可辅助区分I期乳腺癌和乳腺良性结节、可辅助区分II-III期乳腺癌和乳腺良性结节、可辅助区分无淋巴结浸润的乳腺癌和乳腺良性结节、可辅助区分有淋巴结浸润的乳腺癌和乳腺良性结节。
在本发明的具体实施方式中,(11)中所述辅助区分乳腺癌不同亚型具体体现为:可辅助区分乳腺导管原位癌、乳腺浸润性导管癌和乳腺浸润性小叶癌中的任意两种。
在本发明的具体实施方式中,(12)中所述辅助区分乳腺癌不同分期具体体现为如下中的至少一种:可辅助区分T1期乳腺癌、T2期乳腺癌和T3乳腺癌中的任意两种;可辅助区分无淋巴结浸润的乳腺癌和有淋巴结浸润的乳腺癌;可辅助区分临床I期乳腺癌、临床II期乳腺癌和临床III期乳腺癌中的任意两种。
在上述(1)-(14)中,所述癌症可为能够引起机体内CCDC88C基因甲基化水平升高的癌症,如肺癌、乳腺癌等。
第二方面,本发明要求保护用于检测CCDC88C基因甲基化水平的物质在制备产品中的应用。所述产品的用途可为前文(1)-(14)中的至少一种。
第三方面,本发明要求保护用于检测CCDC88C基因甲基化水平的物质和储存有数学模型建立方法和/或使用方法的介质在制备产品中的应用。所述产品的用途可为前文(1)-(14) 中的至少一种。
所述数学模型可按照包括如下步骤的方法获得:
(A1)分别检测n1个A类型样本和n2个B类型样本的CCDC88C基因甲基化水平(训练集);
(A2)取步骤(A1)获得的所有样本的CCDC88C基因甲基化水平数据,按照A类型和B类型的分类方式,通过二分类逻辑回归法建立数学模型,确定分类判定的阈值。
其中,(A1)中的n1和n2均为50以上的正整数。
所述数学模型的使用方法包括如下步骤:
(B1)检测待测样本的CCDC88C基因甲基化水平;
(B2)将步骤(B1)获得的所述待测样本的CCDC88C基因甲基化水平数据代入所述数学模型,得到检测指数;然后比较检测指数和阈值的大小,根据比较结果确定所述待测样本的类型是A类型还是B类型。
在本发明的具体实施方式中,所述阈值设为0.5。大于0.5归为一类,小于0.5归为另外一类,等于0.5作为不确定的灰区。其中A类型和B类型为相对应的两分类,二分类的分组,哪一组是A类型,哪一组是B类型,要根据具体的数学模型来确定,无需约定。
在实际应用中,所述阈值也可根据最大约登指数确定(具体可为最大约登指数对应的数值)。大于阈值归为一类,小于阈值归为另外一类,等于阈值作为不确定的灰区。其中A类型和B类型为相对应的两分类,二分类的分组,哪一组A类型,哪一组是B类型,要根据具体的数学模型来确定,无需约定。
所述A类型样本和所述B类型样本可为如下中的任一种:
(C1)肺癌样本和无癌对照;
(C2)肺癌样本和肺部良性结节样本;
(C3)肺癌不同亚型样本;
(C4)肺癌不同分期样本;
(C5)乳腺癌样本和无癌女性对照;
(C6)乳腺癌样本和乳腺良性结节样本;
(C7)乳腺癌不同亚型样本;
(C8)乳腺癌不同分期样本;
(C9)肺癌样本和乳腺癌样本。
第四方面,本发明要求保护前文第三方面中所述的“储存有数学模型建立方法和/或使用方法的介质”在制备产品中的应用。所述产品的用途可为前文(1)-(14)中的至少一种。
第五方面,本发明要求保护一种试剂盒。
本发明所要求保护的试剂盒包括用于检测CCDC88C基因甲基化水平的物质。所述试剂盒的用途可为前文(1)-(14)中的至少一种。
进一步地,所述试剂盒中还可含有前文第三方面或第四方面中所述的“储存有数学模型建立方法和/或使用方法的介质”。
第六方面,本发明要求保护一种系统。
本发明所要求保护的系统,包括:
(D1)用于检测CCDC88C基因甲基化水平的试剂和/或仪器;
(D2)装置,所述装置包括单元A和单元B;
所述单元A用于建立数学模型,包括数据采集模块、数据分析处理模块和模型输出模块;
所述数据采集模块用于采集(D1)检测得到的n1个A类型样本和n2个B类型样本的CCDC88C基因甲基化水平数据;
所述数据分析处理模块能够基于所述数据采集模块采集的n1个A类型样本和n2个B 类型样本的CCDC88C基因甲基化水平数据,按照A类型和B类型的分类方式,通过二分类逻辑回归法建立数学模型,确定分类判定的阈值;
所述模型输出模块用于输出所述数据分析处理模块建立的数学模型;
所述单元B用于确定待测样本类型,包括数据输入模块、数据运算模块、数据比较模块和结论输出模块;
所述数据输入模块用于输入(D1)检测得到的待测者的CCDC88C基因甲基化水平数据;
所述数据运算模块用于将所述待测者的CCDC88C基因甲基化水平数据代入所述数学模型,计算得到检测指数;
所述数据比较模块用于将所述检测指数与阈值进行比较;
所述结论输出模块用于根据所述数据比较模块的比较结果输出所述待测样本的类型是A 类型还是B类型的结论;所述A类型样本和所述B类型样本可为如下中的任一种:
(C1)肺癌样本和无癌对照;
(C2)肺癌样本和肺部良性结节样本;
(C3)肺癌不同亚型样本;
(C4)肺癌不同分期样本;
(C5)乳腺癌样本和无癌女性对照;
(C6)乳腺癌样本和乳腺良性结节样本;
(C7)乳腺癌不同亚型样本;
(C8)乳腺癌不同分期样本;
(C9)肺癌样本和乳腺癌样本。
其中,n1和n2均可为50以上正整数。
在本发明的具体实施方式中,所述阈值设为0.5。大于0.5归为一类,小于0.5归为另外一类,等于0.5作为不确定的灰区。其中A类型和B类型为相对应的两分类,二分类的分组,哪一组是A类型,哪一组是B类型,要根据具体的数学模型来确定,无需约定。
在实际应用中,所述阈值也可根据最大约登指数确定(具体可为最大约登指数对应的数值)。大于阈值归为一类,小于阈值归为另外一类,等于阈值作为不确定的灰区。其中A类型和B类型为相对应的两分类,二分类的分组,哪一组是A类型,哪一组是B类型,要根据具体的数学模型来确定,无需约定。
在前文各方面中,所述CCDC88C基因甲基化水平可为CCDC88C基因中如下(e1)-(e5)所示片段中全部或部分CpG位点的甲基化水平。所述甲基化CCDC88C基因可为CCDC88C基因中如下(e1)-(e5)所示片段中全部或部分CpG位点甲基化。
(e1)SEQ ID No.1所示的DNA片段或与其具有80%以上同一性的DNA片段;
(e2)SEQ ID No.2所示的DNA片段或与其具有80%以上同一性的DNA片段;
(e3)SEQ ID No.3所示的DNA片段或与其具有80%以上同一性的DNA片段;
(e4)SEQ ID No.4所示的DNA片段或与其具有80%以上同一性的DNA片段;
(e5)SEQ ID No.5所示的DNA片段或与其具有80%以上同一性的DNA片段。
进一步地,所述“全部或部分CpG位点”可为CCDC88C基因中SEQ ID No.1至SEQ IDNo.5所示5个DNA片段中的任意一个或多个CpG位点。此处所述“多个CpG位点”的上限为CCDC88C基因中SEQ ID No.1至SEQ ID No.5所示5个DNA片段中所有CpG位点。 SEQ ID No.1所示的DNA片段中所有CpG位点见表1,SEQ ID No.2所示的DNA片段中所有CpG位点见表2,SEQ ID No.3所示的DNA片段中所有CpG位点见表3,SEQ ID No.4所示的DNA片段中所有CpG位点见表4,SEQ ID No.5所示的DNA片段中所有CpG位点见表 5。
或,所述“全部或部分CpG位点”为SEQ ID No.2所示的DNA片段中所有CpG位点(见表2)和SEQ ID No.1所示的DNA片段中所有CpG位点(见表1)。
或,所述“全部或部分CpG位点”为SEQ ID No.2所示的DNA片段中所有CpG位点(见表2)和SEQ ID No.5所示的DNA片段中所有CpG位点(见表5)。
或,所述“全部或部分CpG位点”为SEQ ID No.1所示的DNA片段中所有CpG位点(见表1)和SEQ ID No.5所示的DNA片段中所有CpG位点(见表5)。
或,所述“全部或部分CpG位点”为SEQ ID No.2所示的DNA片段中所有CpG位点(见表2)和SEQ ID No.1所示的DNA片段中所有CpG位点(见表1)和SEQ ID No.5所示的 DNA片段中所有CpG位点(见表5)。
或,所述“全部或部分CpG位点”可为CCDC88C基因中所述SEQ ID No.2所示的DNA片段中的全部或任意10个或任意9个或任意8个或任意7个或任意6个或任意5个或任意4 个或任意3个或任意2个或任意1个。
或,所述“全部或部分CpG位点”可为CCDC88C基因中SEQ ID No.3所示的DNA片段中如下9项所示CpG位点的全部或任意8项或任意7项或任意6项或任意5项或任意4项或任意3项或任意2项或任意1项:
(f1)SEQ ID No.2所示的DNA片段自5’端第76-77位所示CpG位点(CCDC88C_B_3);
(f2)SEQ ID No.2所示的DNA片段自5’端第185-186位所示CpG位点(CCDC88C_B_4);
(f3)SEQ ID No.2所示的DNA片段自5’端第265-266位所示CpG位点(CCDC88C_B_5);
(f4)SEQ ID No.2所示的DNA片段自5’端第291-292位所示CpG位点(CCDC88C_B_6);
(f5)SEQ ID No.2所示的DNA片段自5’端第339-340位所示CpG位点(CCDC88C_B_7);
(f6)SEQ ID No.2所示的DNA片段自5’端第362-363位所示CpG位点(CCDC88C_B_8);
(f7)SEQ ID No.2所示的DNA片段自5’端第380-381位所示CpG位点(CCDC88C_B_9);
(f8)SEQ ID No.2所示的DNA片段自5’端第414-415位所示CpG位点 (CCDC88C_B_10);
(f9)SEQ ID No.2所示的DNA片段自5’端第582-583位所示CpG位点 (CCDC88C_B_11)。
在本发明的具体实施方式中,有些相邻的甲基化位点在利用飞行时间质谱进行DNA甲基化分析时由于几个CpG位点位于一个甲基化片段上,峰图无法区分(无法区分的位点在表 7中有记载),因而在进行甲基化水平分析、以及构建和使用相关数学模型时将其按照一个甲基化位点进行处理。
在上述各方面中,所述用于检测CCDC88C基因甲基化水平的物质可包含(或为)用于扩增CCDC88C基因全长或部分片段的引物组合。所述用于检测CCDC88C基因甲基化水平的试剂可包含(或为)用于扩增CCDC88C基因全长或部分片段的引物组合;所述用于检测CCDC88C基因甲基化水平的仪器可为飞行时间质谱检测仪。当然所述用于检测CCDC88C基因甲基化水平的试剂中还可包含进行飞行时间质谱所用的其他常规试剂。
进一步地,所述部分片段可为如下中至少一个片段:
(g1)SEQ ID No.1所示的DNA片段或其包含的DNA片段;
(g2)SEQ ID No.2所示的DNA片段或其包含的DNA片段;
(g3)SEQ ID No.3所示的DNA片段或其包含的DNA片段;
(g4)SEQ ID No.4所示的DNA片段或其包含的DNA片段;
(g5)SEQ ID No.5所示的DNA片段或其包含的DNA片段;
(g6)与SEQ ID No.1所示的DNA片段或其包含的DNA片段具有80%以上同一性的DNA片段;
(g7)与SEQ ID No.2所示的DNA片段或其包含的DNA片段具有80%以上同一性的DNA片段;
(g8)与SEQ ID No.3所示的DNA片段或其包含的DNA片段具有80%以上同一性的DNA片段。
(g9)与SEQ ID No.4所示的DNA片段或其包含的DNA片段具有80%以上同一性的DNA片段;
(g10)与SEQ ID No.5所示的DNA片段或其包含的DNA片段具有80%以上同一性的DNA片段。
在本发明中,所述引物组合具体可为引物对A和/或引物对B和/或引物对C和/或引物对D和/或引物对E;
所述引物对A为引物A1和引物A2组成的引物对;所述引物A1具体可为SEQ ID No.6或SEQ ID No.6的第11-35位核苷酸所示的单链DNA;所述引物A2具体可为SEQ ID No.7 或SEQ ID No.7的第32-56位核苷酸所示的单链DNA;
所述引物对B为引物B1和引物B2组成的引物对;所述引物B1具体可为SEQ ID No.8或SEQ ID No.8的第11-35位核苷酸所示的单链DNA;所述引物B2具体可为SEQ ID No.9 或SEQ ID No.9的第32-56位核苷酸所示的单链DNA;
所述引物对C为引物C1和引物C2组成的引物对;所述引物C1具体可为SEQ IDNo.10 或SEQ ID No.10的第11-35位核苷酸所示的单链DNA;所述引物C2具体可为SEQ IDNo.11 或SEQ ID No.11的第32-56位核苷酸所示的单链DNA;
所述引物对D为引物D1和引物D2组成的引物对;所述引物D1具体可为SEQ IDNo.12 或SEQ ID No.12的第11-35位核苷酸所示的单链DNA;所述引物D2具体可为SEQ IDNo.13 或SEQ ID No.13的第32-56位核苷酸所示的单链DNA;
所述引物对E为引物E1和引物E2组成的引物对;所述引物E1具体可为SEQ IDNo.14 或SEQ ID No.14的第11-35位核苷酸所示的单链DNA;所述引物E2具体可为SEQ IDNo.15 或SEQ ID No.15的第32-56位核苷酸所示的单链DNA;
另外,本发明还要求保护一种区分待测样本为A类型样本还是B类型样本的方法。该方法可包括如下步骤:
(A)可按照包括如下步骤的方法建立数学模型:
(A1)分别检测n1个A类型样本和n2个B类型样本的CCDC88C基因甲基化水平(训练集);
(A2)取步骤(A1)获得的所有样本的CCDC88C基因甲基化水平数据,按照A类型和B类型的分类方式,通过二分类逻辑回归法建立数学模型,确定分类判定的阈值。
其中,(A1)中的n1和n2均为50以上的正整数。
(B)可按照包括如下步骤的方法确定所述待测样本为A类型样本还是B类型样本:
(B1)检测所述待测样本的CCDC88C基因甲基化水平;
(B2)将步骤(B1)获得的所述待测样本的CCDC88C基因甲基化水平数据代入所述数学模型,得到检测指数;然后比较检测指数和阈值的大小,根据比较结果确定所述待测样本的类型是A类型还是B类型。
在本发明的具体实施方式中,所述阈值设为0.5。大于0.5归为一类,小于0.5归为另外一类,等于0.5作为不确定的灰区。其中A类型和B类型为相对应的两分类,二分类的分组,哪一组是A类型,哪一组是B类型,要根据具体的数学模型来确定,无需约定。
在实际应用中,所述阈值也可根据最大约登指数确定(具体可为最大约登指数对应的数值)。大于阈值归为一类,小于阈值归为另外一类,等于阈值作为不确定的灰区。其中A类型和B类型为相对应的两分类,二分类的分组,哪一组是A类型,哪一组是B类型,要根据具体的数学模型来确定,无需约定。
所述A类型样本和所述B类型样本可为如下中的任一种:
(C1)肺癌样本和无癌对照;
(C2)肺癌样本和肺部良性结节样本;
(C3)肺癌不同亚型样本;
(C4)肺癌不同分期样本;
(C5)乳腺癌样本和无癌女性对照;
(C6)乳腺癌样本和乳腺良性结节样本;
(C7)乳腺癌不同亚型样本;
(C8)乳腺癌不同分期样本;
(C9)肺癌样本和乳腺癌样本。
以上任一所述数学模型在实际应用中可能会根据DNA甲基化的检测方法以及拟合方式不同有所改变,要根据具体的数学模型来确定,无需约定。
在本发明的实施例中,所述模型具体为log(y/(1-y))=b0+b1x1+b2x2+b3x3+…+bnXn,其中y为因变量即将待测样品的一个或者多个甲基化位点的甲基化值代入模型以后得出的检测指数,b0为常量,x1~xn为自变量即为该测试样品的一个或者多个甲基化位点的甲基化值(每一个值为0-1之间的数值),b1~bn为模型赋予每一个位点甲基化值的权重。
在本发明的实施例中,所述模型的建立还可酌情加入年龄、性别、白细胞计数等已知参数来提高判别效率。本发明的实施例中建立的一个具体模型为用于辅助区分肺部良性结节和肺癌的模型,所述模型具体为:log(y/(1-y))=0.978+0.302*CCDC88C_B_3+0.622*CCDC8 8C_B_4-0.175*CCDC88C_B_5+1.491*CCDC88C_B_6-1.991*CCDC88C_B_7+2.276*CCDC88C_B_8-2.418*CCDC88C_B_9+0.016*CCDC88C_B_10+0.301*CCDC88C_B_11 +0.002*年龄(取整数)+0.055*(男性赋值为1,女性赋值为0)+0.009*白细胞计数(单位10^9/L)。所述CCDC88C_C_3为SEQ ID No.2所示的DNA片段自5’端第76-77位所示C pG位点的甲基化水平;所述CCDC88C_C_4为SEQ ID No.2所示的DNA片段自5’端第18 5-186位所示CpG位点的甲基化水平;所述CCDC88C_C_5为SEQ ID No.2所示的DNA片段自5’端第265-266位所示CpG位点的甲基化水平;所述CCDC88C_C_6为SEQ ID No.2 所示的DNA片段自5’端第291-292位所示CpG位点的甲基化水平;所述CCDC88C_C_7为 SEQ ID No.2所示的DNA片段自5’端第339-340位所示CpG位点的甲基化水平;所述CCD C88C_C_8为SEQ ID No.2所示的DNA片段自5’端第362-363位所示CpG位点的甲基化水平;所述CCDC88C_C_9为SEQ ID No.2所示的DNA片段自5’端第380-381位所示CpG位点的甲基化水平;所述CCDC88C_C_10为SEQ ID No.2所示的DNA片段自5’端第414-415 位所示CpG位点的甲基化水平;所述CCDC88C_C_11为SEQ ID No.2所示的DNA片段自 5’端第582-583位所示CpG位点的甲基化水平。所述模型的阈值为0.5。通过模型计算的检测指数大于0.5的患者候选为肺癌患者,小于0.5的患者候选为肺部良性结节患者。
在上述各方面中,所述检测CCDC88C基因甲基化水平为检测血液中CCDC88C基因甲基化水平。
在上述各方面中,当所述A类型样本和所述B类型样本为(C3)中肺癌不同亚型样本时,所述A类型样本和所述B类型样本具体可为肺腺癌样本、肺鳞癌样本和小细胞肺癌样本中的任意两种。
在上述各方面中,当所述A类型样本和所述B类型样本为(C4)中肺癌不同分期样本时,所述A类型样本和所述B类型样本具体可为临床I期肺癌样本、临床II期肺癌样本和临床III期肺癌样本中的任意两种。
以上任一所述CCDC88C基因具体可包括Genbank登录号:NM_001080414.4(2018年11 月23日)。
本发明提供了肺癌患者和乳腺癌血液中CCDC88C基因的高甲基化现象。实验证明,以血液为样本就能够区分癌症(肺癌或乳腺癌)患者和无癌对照、区分肺部良性结节和肺癌、区分肺癌不同亚型、区分肺癌不同分期,区分乳腺良性结节和乳腺癌、区分乳腺癌不同亚型、区分乳腺癌不同分期,并且能够区分肺癌和乳腺癌。本发明对于提高肺癌和乳腺癌早期诊疗效果和降低死亡率均有重要的科学意义和临床应用价值。
附图说明
图1为数学模型示意图。
图2为数学模型举例说明。
具体实施方式
下述实施例中所使用的实验方法如无特殊说明,均为常规方法。
下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
以下实施例中的卷曲螺旋蛋白88C(Coiled-Coil Domain Containing 88C,CCDC88C)基因定量试验,均设置三次重复实验,结果取平均值。
实施例1、用于检测CCDC88C基因甲基化位点的引物设计
经过大量序列和功能分析,选择了CCDC88C基因中的五个片段(CCDC88C_A片段、CCDC88C_B片段、CCDC88C_C片段、CCDC88C_D片段和CCDC88C_E片段)进行甲基化水平和癌症相关性分析。
CCDC88C_A片段(SEQ ID No.1)位于hg19参考基因组chr14:91744130-91744730,反义链;
CCDC88C_B片段(SEQ ID No.2)位于hg19参考基因组chr14:91791561-91792174,反义链;
CCDC88C_C片段(SEQ ID No.3)位于hg19参考基因组chr14:91817587-91818134,反义链;
CCDC88C_D片段(SEQ ID No.4)位于hg19参考基因组chr14:91820330-91820890,反义链;
CCDC88C_E片段(SEQ ID No.5)位于hg19参考基因组chr14:91821325-91821992,反义链。
CCDC88C_A片段中的CpG位点信息如表1所示;
CCDC88C_B片段中的CpG位点信息如表2所示;
CCDC88C_C片段中的CpG位点信息如表3所示;
CCDC88C_D片段中的CpG位点信息如表4所示;
CCDC88C_E片段中的CpG位点信息如表5所示。
表1、CCDC88C_A片段中CpG位点信息
表2、CCDC88C_B片段中CpG位点信息
CpG位点 CpG位点在序列中的位置
CCDC88C_B_1 SEQ ID No.2自5’端第32-33位
CCDC88C_B_2 SEQ ID No.2自5’端第60-61位
CCDC88C_B_3 SEQ ID No.2自5’端第76-77位
CCDC88C_B_4 SEQ ID No.2自5’端第185-186位
CCDC88C_B_5 SEQ ID No.2自5’端第265-266位
CCDC88C_B_6 SEQ ID No.2自5’端第291-292位
CCDC88C_B_7 SEQ ID No.2自5’端第339-340位
CCDC88C_B_8 SEQ ID No.2自5’端第362-363位
CCDC88C_B_9 SEQ ID No.2自5’端第380-381位
CCDC88C_B_10 SEQ ID No.2自5’端第414-415位
CCDC88C_B_11 SEQ ID No.2自5’端第582-583位
表3、CCDC88C_C片段中CpG位点信息
CpG位点 CpG位点在序列中的位置
CCDC88C_C_1 SEQ ID No.3自5’端第59-60位
CCDC88C_C_2 SEQ ID No.3自5’端第100-101位
CCDC88C_C_3 SEQ ID No.3自5’端第116-117位
CCDC88C_C_4 SEQ ID No.3自5’端第152-153位
CCDC88C_C_5 SEQ ID No.3自5’端第167-168位
CCDC88C_C_6 SEQ ID No.3自5’端第195-196位
CCDC88C_C_7 SEQ ID No.3自5’端第215-216位
CCDC88C_C_8 SEQ ID No.3自5’端第219-220位
CCDC88C_C_9 SEQ ID No.3自5’端第289-290位
CCDC88C_C_10 SEQ ID No.3自5’端第317-318位
CCDC88C_C_11 SEQ ID No.3自5’端第371-372位
CCDC88C_C_12 SEQ ID No.3自5’端第407-408位
CCDC88C_C_13 SEQ ID No.3自5’端第439-440位
CCDC88C_C_14 SEQ ID No.3自5’端第465-466位
CCDC88C_C_15 SEQ ID No.3自5’端第507-508位
表4、CCDC88C_D片段中CpG位点信息
表5、CCDC88C_E片段中CpG位点信息
针对五个片段(CCDC88C_A片段、CCDC88C_B片段、CCDC88C_C片段、CCDC88C_D 片段和CCDC88C_E片段)设计特异PCR引物,如表6所示。其中,SEQ ID No.6、SEQ ID No.8、 SEQID No.10、SEQ ID No.12和SEQ ID No.14为正向引物,SEQ ID No.7、SEQ ID No.9、SEQ IDNo.11、SEQ ID No.13和SEQ ID No.15为反向引物;SEQ ID No.6、SEQ ID No.8、SEQ IDNo.10、SEQ ID No.12和SEQ ID No.14中自5’端第1至10位为非特异标签,第11至35位为特异引物序列;SEQ ID No.7、SEQ ID No.9、SEQ ID No.11、SEQ ID No.13和SEQ ID No.15 中自5’第1至31位为非特异标签,第32至56位为特异引物序列。引物序列中不包含SNP 和CpG位点。
表6、CCDC88C甲基化引物序列
实施例2、CCDC88C基因甲基化检测及结果分析
一、研究样本
经患者知情同意,共收集426例肺癌患者、286例肺部出现良性结节患者、292例乳腺癌患者、82例乳腺良性结节患者、816例无癌对照(其中男女性别各占一半,均为408例)的离体血液样本。
所有患者样本都是手术前收集的且都经过影像学和病理确诊。
肺癌和乳腺癌亚型根据病理组织学进行判断。
无癌对照即以前和现在没有患过癌症且没有报道过肺部良性结节或乳腺良性结节患者且血常规指标都在参考范围内。
肺癌和乳腺癌分期以AJCC第8版分期系统为判断标准。
426例肺癌患者按照分型划分:肺腺癌319例,肺鳞癌47例,小细胞肺癌52例,其他8例。
426例肺癌患者按照分期划分:I期338例,II期49例,III期39例。
426例肺癌患者按照肺癌肿瘤大小(T)划分:T1期306例,T2期72例,T3期48例。
426例肺癌患者按照有无肺癌淋巴结浸润(N)划分:无肺癌淋巴结浸润394例,有肺癌淋巴结浸润32例。
292例乳腺癌患者按照分型划分:乳腺导管原位癌93例,乳腺浸润性导管癌183例,乳腺浸润性小叶癌16例。
292例乳腺癌患者按照分期划分:I期225例,II期49例,III期18例。
292例乳腺癌患者按照肺癌肿瘤大小(T)划分:T1期238例,T2期41例,T3期13 例。
292例乳腺癌患者按照有无乳腺癌淋巴结浸润(N)划分:无乳腺癌淋巴结浸润266例,有乳腺癌淋巴结浸润26例。
无癌人群、肺癌、肺部良性结节、乳腺癌和乳腺良性结节患者各自年龄的中位数分别为 54、55、58、56和56岁,且这5种群体中各自的男女比例都约为1:1。
无癌女性对照年龄的中位数是55岁。
二、甲基化检测
1、提取血液样本的总DNA。
2、将步骤1制备的血液样本总DNA进行重亚硫酸盐处理(参照Qiagen的DNA甲基化试剂盒说明书操作)。重亚硫酸盐处理后,原来CpG位点中未发生甲基化的胞嘧啶(C)被转化成尿嘧啶(U),而发生甲基化的胞嘧啶保持不变。
3、以步骤2经过重亚硫酸盐处理的DNA为模板,采用表6中的5对特异引物对通过DNA聚合酶按照常规PCR反应要求的反应体系进行PCR扩增,所有引物都采用常规的标准PCR反应体系,且都按照以下程序进行扩增。
PCR反应程序为:95℃,4min→(95℃,20s→56℃,30s→72℃,2min)45个循环→72℃, 5min→4℃,1h。
4、取步骤3的扩增产物,通过飞行时间质谱进行DNA甲基化分析,具体方法如下:
(1)向5μl PCR产物中加入2μl虾碱性磷酸盐(SAP)溶液(0.3ml SAP[0.5U]+1.7mlH2O) 然后按照以下程序在PCR仪中孵育(37℃,20min→85℃,5min→4℃,5min);
(2)取出2μl步骤(1)得到的SAP处理后的产物,根据说明书加入5μl T-Cleavage反应体系中,然后在37℃孵育3h;
(3)取步骤(2)的产物,加入19μl去离子水,再用6μg Resin在旋转摇床进行去离子化孵育1h;
(4)2000rpm室温离心5min,将微量上清由Nanodispenser机械手臂上样384SpectroCHIP;
(5)飞行时间质谱分析;获得的数据用SpectroACQUIRE v3.3.1.3软件收集,通过MassArray EpiTyper v1.2软件实现可视化。
上述飞行时间质谱检测使用的试剂均来自试剂盒(T-Cleavage MassCLEAVEReagent Auto Kit,货号:10129A);上述飞行时间质谱检测使用的检测仪器为Analyzer Chip Prep Module 384,型号:41243;上述数据分析软件为检测仪器自带软件。
5、对步骤4得到的数据进行分析。
数据统计分析由SPSS Statistics 23.0进行。
非参数检验用于两组之间的比较分析。
多个CpG位点的组合对于不同样品分组的鉴别效果通过逻辑回归和受试者曲线的统计学方法得以实现。
所有的统计检验都是双侧的,p值<0.05被认为具有统计学意义。
通过质谱实验,共获得75个可以区别的甲基化片段的峰图。采用SpectroACQUIREv3.3.1.3软件根据“甲基化水平=甲基化片段的峰面积/(非甲基化片段的峰面积+甲基化片段的峰面积)”公式可自动通过计算峰面积得到每个样本在每个CpG位点的甲基化水平)。
三、结果分析
1、无癌对照、肺部良性结节和肺癌血液中CCDC88C基因甲基化水平
以426例肺癌患者、286例肺部出现良性结节患者和816例无癌对照的血液为研究材料进行分析CCDC88C基因中所有CpG位点的甲基化水平(表7)。结果表明,CCDC88C基因中所有CpG位点在无癌对照组中甲基化水平中位数为0.83(IQR=0.66-0.86),肺部良性结节中甲基化水平中位数为0.87(IQR=0.71-0.90),肺癌患者中甲基化水平中位数为0.86(IQR=0.70-0.89)。
2、血液中CCDC88C基因甲基化水平可以区分无癌对照和肺癌患者
通过比较分析426例肺癌患者和816例无癌对照的CCDC88C基因的甲基化水平,结果发现肺癌患者CCDC88C基因中所有CpG位点甲基化水平显著高于无癌对照在对应位点的甲基化水平(p<0.05,表8)。此外,肺癌不同亚型(肺腺癌、肺鳞癌和小细胞肺癌)中CCDC88C基因所有CpG位点的甲基化水平分别都与无癌对照有显著性差异。肺癌不同分期(临床I期和II-III期)中CCDC88C基因所有CpG位点的甲基化水平分别都与无癌对照有显著性差异。此外,无淋巴浸润的肺癌患者和有淋巴浸润的肺癌患者的甲基化水平分别与无癌对照之间有显著性差异(p<0.05)。因此,CCDC88C基因的甲基化水平可以用于肺癌的临床诊断,尤其可用于肺癌的早期诊断。
3、血液中CCDC88C基因甲基化水平可以区分肺部良性结节和肺癌患者
通过比较分析426例肺癌患者和286例肺部良性结节中CCDC88C基因的甲基化水平,结果发现肺部良性结节患者中CCDC88C基因所有CpG位点甲基化水平显著高于肺癌患者(p<0.05,表9)。此外还发现肺癌不同亚型(肺腺癌、肺鳞癌和小细胞肺癌)、不同临床时期(I期和II-III期)和有无淋巴浸润的肺癌患者的CCDC88C基因中所有CpG的甲基化水平分别都与肺部良性结节有显著性差异。因此,CCDC88C基因的甲基化水平可应用于区分肺癌患者和肺部良性结节患者,是非常有潜在价值的标志物。
4、血液中CCDC88C基因甲基化水平区分肺癌不同亚型或者肺癌不同分期
通过比较分析不同亚型肺癌患者和不同分期肺癌患者中CCDC88C基因的甲基化水平,发现CCDC88C基因中所有CpG位点甲基化水平分别在肺癌不同亚型(肺腺癌、肺鳞癌和小细胞肺癌)、肺癌不同肿瘤大小(T1、T2和T3)、肺癌不同分期(临床I期、II期和III期)、肺癌有无淋巴结浸润条件下存在显著性差异(p<0.05,表10)。因此,CCDC88C基因的甲基化水平可以用于区分肺癌不同亚型或者肺癌不同分期。
5、无癌女性对照、乳腺良性结节和乳腺癌血液中CCDC88C基因甲基化水平
以292例乳腺癌患者、82例乳腺良性结节患者和408例无癌女性对照的血液为研究材料进行分析乳腺癌患者、乳腺良性结节患者和无癌女性对照之间的CCDC88C基因中CpG位点甲基化水平(表11)。结果表明,无癌女性对照组甲基化水平中位数为0.82(IQR=0.65-0.85),乳腺良性结节中甲基化水平中位数为0.89(IQR=0.72-0.92),乳腺癌患者中甲基化水平中位数为0.85(IQR=0.68-0.88)。
6、血液中CCDC88C基因甲基化水平可以区分无癌女性对照和乳腺癌患者
通过比较分析292例乳腺癌患者和408例无癌女性对照的CCDC88C基因的甲基化水平,结果发现乳腺癌患者CCDC88C基因中所有CpG位点甲基化水平显著高于无癌女性对照(p<0.05,表12)。此外,乳腺癌不同亚型(乳腺导管原位癌、乳腺浸润性导管癌和乳腺浸润性小叶癌)中CCDC88C基因所有CpG位点的甲基化水平分别都与无癌女性对照有显著性差异。乳腺癌不同分期(临床I期和II-III期)中CCDC88C基因所有CpG位点的甲基化水平分别都与无癌女性对照有显著性差异。此外,无淋巴浸润的乳腺癌患者和有淋巴浸润的乳腺癌患者的甲基化水平分别与无癌女性对照之间有显著性差异(p<0.05)。因此,CCDC88C基因的甲基化水平可以用于乳腺癌的临床诊断,尤其可用于乳腺癌的早期诊断。
7、血液中CCDC88C基因甲基化水平可以区分乳腺良性结节和乳腺癌患者
通过比较分析292例乳腺癌患者和82例乳腺良性结节中CCDC88C基因的甲基化水平,结果发现乳腺良性结节患者中CCDC88C基因所有CpG位点甲基化水平显著高于乳腺癌患者 (p<0.05,表13)。此外还发现乳腺癌不同亚型(乳腺导管原位癌、乳腺浸润性导管癌和乳腺浸润性小叶癌)、不同临床时期(I期和II-III期)和有无淋巴浸润的乳腺癌患者的CCDC88C 基因中所有CpG位点的甲基化水平分别都与乳腺良性结节有显著性差异。因此,CCDC88C 基因的甲基化水平可应用于区分乳腺癌患者和乳腺良性结节患者,是非常有潜在价值的标志物。
8、血液中CCDC88C基因甲基化水平区分乳腺癌不同亚型或者乳腺癌不同分期
通过比较分析不同亚型乳腺癌患者和不同分期乳腺癌患者中CCDC88C基因的甲基化水平,发现CCDC88C基因中所有CpG位点甲基化水平分别在乳腺癌不同亚型(乳腺导管原位乳腺癌、乳腺浸润性导管癌和乳腺浸润性小叶癌)、乳腺癌肿瘤大小(T1、T2和T3)、乳腺癌不同分期(临床I期、II期和III期)、有无淋巴结浸润条件下存在显著性差异(p<0.05,表14)。因此,CCDC88C基因的甲基化水平可以用于区分乳腺癌不同亚型或者乳腺癌不同分期。
9、血液中CCDC88C甲基化水平可以区分乳腺癌患者和肺癌患者
以292例乳腺癌患者和426例肺癌患者的血液为研究材料进行分析乳腺癌患者和肺癌患者血液CCDC88C基因中甲基化水平差异(表15)。结果表明,乳腺癌患者中所有目标CpG 位点的甲基化水平中位数为0.85(IQR=0.68-0.88),肺癌患者甲基化水平中位数为0.86 (IQR=0.70-0.89),乳腺癌患者中所有CpG位点甲基化水平显著低于肺癌患者(p<0.05)。因此,CCDC88C基因的甲基化水平可以用于区分乳腺癌和肺癌患者。
10、用于辅助癌症诊断的数学模型的建立
本发明建立的数学模型可以用于达到如下目的:
(1)区分肺癌患者和无癌对照;
(2)区分肺癌患者和肺部良性结节患者;
(3)区分乳腺癌患者和无癌女性对照;
(4)区分乳腺癌患者和乳腺良性结节患者;
(5)区分乳腺癌患者和肺癌患者
(6)区分肺癌亚型;
(7)区分肺癌分期;
(8)区分乳腺癌亚型;
(9)区分乳腺癌分期。
数学模型的建立方法如下:
(A)数据来源:步骤一中列出的426例肺癌患者、286例肺部出现良性结节患者、292例乳腺癌患者、82例乳腺良性结节患者和816例无癌对照(包括408例无癌女性对照)的离体血液样本的目标CpG位点(表1-表5中的一种或多种的组合)甲基化水平(检测方法同步骤二)。
数据可根据实际需要加入年龄、性别、白细胞计数等已知参数来提高判别效率。
(B)模型建立
根据需要选取任意两类不同类型患者数据即训练集(例如:无癌对照和肺癌患者、无癌女性对照和乳腺癌患者、肺部良性结节患者和肺癌患者、乳腺良性结节和乳腺癌患者、肺癌患者和乳腺癌患者、肺腺癌和肺鳞癌患者、肺腺癌和小细胞肺癌患者、肺鳞癌和小细胞肺癌患者、I期肺癌和II期肺癌患者、I期肺癌和III期肺癌患者、II期肺癌和III期肺癌患者、乳腺导管原位癌和乳腺浸润性导管癌患者、乳腺导管原位癌和乳腺浸润性小叶癌患者、乳腺浸润性导管癌和乳腺浸润性小叶癌患者、I期乳腺癌和II期乳腺癌患者、I期乳腺癌和III期乳腺癌患者、II期乳腺癌和III期乳腺癌患者)作为用于建立模型的数据,使用SAS,R,SPSS 等统计软件使用二分类逻辑回归的统计方法通过公式建立数学模型。数学模型公式计算出的最大约登指数对应的数值为阈值或直接设定0.5为阈值,待测样品经过测试和代入模型计算后得到的检测指数大于阈值归为一类(B类),小于阈值归为另外一类(A类),等于阈值作为不确定的灰区。在对新的待测样品进行预测来判断属于哪一类时,首先通过DNA甲基化的测定方法检测该待测样品CCDC88C基因上一个或者多个CpG位点的甲基化水平,然后将这些甲基化水平的数据代入上述数学模型(如果构建模型时纳入了年龄、性别、白细胞计数等已知参数,则该步骤同时向模型公式中代入该待测样品的相应参数的具体数值),计算得到所述待测样本对应的检测指数,然后比较所述待测样本对应的检测指数和阈值的大小,根据比较结果确定所述待测样本属于哪一类样本。
举例:如图1所示,将训练集中CCDC88C基因单个CpG位点的甲基化水平或者多个CpG位点组合的甲基化水平的数据通过SAS、R、SPSS等统计软件使用二分类逻辑回归的公式建立用于区分A类和B类的数学模型。该数学模型在此为二分类逻辑回归模型,具体为: log(y/1-y)=b0+b1x1+b2x2+b3x3+…+bnXn,其中y为因变量即将待测样品的一个或者多个甲基化位点的甲基化值代入模型以后得出的检测指数,b0为常量,x1~xn为自变量即为该测试样品的一个或者多个甲基化位点的甲基化值(每一个值为0-1之间的数值),b1~bn为模型赋予每一个位点甲基化值的权重。具体应用时,先根据训练集中已经检测的样本的一个或者多个DNA甲基化位点的甲基化程度(x1~xn)及其已知的分类情况(A类或者B类,分别对y 赋值0和1)建立数学模型,由此确定该数学模型的常量b0以及各个甲基化位点的权重b1~bn, 并由该数学模型计算出的以最大约登指数对应的检测指数(在此例中为0.5)为划分的阈值。待测样品经过测试和代入模型计算后得到的检测指数即y值大于0.5归为B类,小于0.5归为A 类,等于0.5作为不确定的灰区。其中A类和B类为相对应的两分类(二分类的分组,哪一组A类,哪一组是B类,要根据具体的数学模型来确定,在此不做约定),比如无癌对照和肺癌患者、无癌女性对照和乳腺癌患者、肺部良性结节患者和肺癌患者、乳腺良性结节和乳腺癌患者、肺癌患者和乳腺癌患者、肺腺癌和肺鳞癌患者、肺腺癌和小细胞肺癌患者、肺鳞癌和小细胞肺癌患者、I期肺癌和II期肺癌患者、I期肺癌和III期肺癌患者、II期肺癌和III 期肺癌患者、乳腺导管原位癌和乳腺浸润性导管癌患者、乳腺导管原位癌和乳腺浸润性小叶癌患者、乳腺浸润性导管癌和乳腺浸润性小叶癌患者、I期乳腺癌和II期乳腺癌患者、I期乳腺癌和III期乳腺癌患者、II期乳腺癌和III期乳腺癌患者。对受试者的样品进行预测来判断属于哪一类时,首先采集受试者的血液,然后从中提取DNA。将提取的DNA通过重亚硫酸盐转化后,用DNA甲基化的测定方法对受试者的CCDC88C基因的单个CpG位点的甲基化水平或者多个CpG位点组合的甲基化水平进行检测,然后将检测得到的甲基化数据代入上述数学模型。如果该受试者的CCDC88C基因一个或者多个CpG位点的甲基化水平代入上述数学模型后计算出来的检测指数大于阈值,则该受试者判定与训练集中检测指数大于0.5的归属于一类(B类);如果该受试者的CCDC88C基因一个或者多个CpG位点的甲基化水平数据代入上述数学模型后计算出来的值即检测指数小于阈值,则该受试者跟训练集中检测指数小于0.5的归属于一类(A类);如果该受试者的CCDC88C基因一个或者多个CpG位点的甲基化水平数据代入上述数学模型后计算出来的值即检测指数等于阈值,则不能判断该受试者是A类还是B类。
举例:图2的示意图举例说明CCDC88C_C的优选CpG位点(CCDC88C_B_3、CCDC8 8C_B_4、CCDC88C_B_5、CCDC88C_B_6、CCDC88C_B_7、CCDC88C_B_8、CCDC88C_B _9、CCDC88C_B_10和CCDC88C_B_11)的甲基化水平以及数学建模在用于肺部良恶性结节判别的应用:将肺癌患者和肺部良性结节患者训练集(在此为:426名肺癌患者和286位肺部良性结节患者)中已经检测的9个可区分的优选CpG位点组合的甲基化水平的数据以及患者的年龄、性别(男性赋值为1,女性赋值为0)、白细胞计数通过R软件使用二分类逻辑回归的公式建立用于区分肺癌患者和肺部良性结节患者的数学模型。该数学模型在此为二类逻辑回归模型,由此确定该数学模型的常量b0以及各个甲基化位点的权重b1~bn,在此例中具体为:log(y/(1-y))=0.978+0.302*CCDC88C_B_3+0.622*CCDC88C_B_4-0.175*CCDC8 8C_B_5+1.491*CCDC88C_B_6-1.991*CCDC88C_B_7+2.276*CCDC88C_B_8-2.418* CCDC88C_B_9+0.016*CCDC88C_B_10+0.301*CCDC88C_B_11+0.002*年龄(取整数) +0.055*(男性赋值为1,女性赋值为0)+0.009*白细胞计数(单位10^9/L)。其中y为因变量即将待测样品的9个可区分的甲基化位点的甲基化值以及年龄、性别、白细胞计数代入模型以后得出的检测指数。在设定0.5为阈值的情况下,待测样品的CCDC88C_B_3、CCDC 88C_B_4、CCDC88C_B_5、CCDC88C_B_6、CCDC88C_B_7、CCDC88C_B_8、CCDC88C_ B_9、CCDC88C_B_10和CCDC88C_B_11这9个可区分的CpG位点的甲基化水平经过测试后连同其年龄、性别、白细胞计数的信息代入模型进行计算,得到的检测指数即y值大于0. 5归为肺癌患者,小于0.5归为肺部良性结节患者,等于0.5则不确定为肺癌患者还是肺部良性结节患者。此模型的曲线下面积(AUC)计算结果为0.81(表19)。具体受试者判断方法举例如图2所示,从两位受试者(甲,乙)分别采集血液提取DNA,将提取的DNA通过重亚硫酸盐转化后,用DNA甲基化的测定方法对受试者的CCDC88C_B_3、CCDC88C_B_4、CC DC88C_B_5、CCDC88C_B_6、CCDC88C_B_7、CCDC88C_B_8、CCDC88C_B_9、CCDC88 C_B_10和CCDC88C_B_11这9个可区分的CpG位点的甲基化水平进行检测。然后将检测得到的甲基化水平数据连同受试者的年龄、性别和白细胞计数的信息代入上述数学模型。甲受试者经数学模型后计算出来的值为0.88大于0.5,则甲受试者判定为肺癌患者(与临床判定结果相符);乙受试者的CCDC88C基因一个或者多个CpG位点的甲基化水平数据代入上述数学模型后计算出来的值为0.43小于0.5,则乙受试者判定肺部良性结节患者(与临床判定结果相符)。
(C)模型效果评价
根据上述方法,分别建立用于区分无癌对照和肺癌患者、无癌女性对照和乳腺癌患者、肺部良性结节患者和肺癌患者、乳腺良性结节和乳腺癌患者、肺癌患者和乳腺癌患者、肺腺癌和肺鳞癌患者、肺腺癌和小细胞肺癌患者、肺鳞癌和小细胞肺癌患者、I期肺癌和II期肺癌患者、I期肺癌和III期肺癌患者、II期肺癌和III期肺癌患者、乳腺导管原位癌和乳腺浸润性导管癌患者、乳腺导管原位癌和乳腺浸润性小叶癌患者、乳腺浸润性导管癌和乳腺浸润性小叶癌患者、I期乳腺癌和II期乳腺癌患者、I期乳腺癌和III期乳腺癌患者、II期乳腺癌和 III期乳腺癌患者的数学模型,并且通过受试者曲线(ROC曲线)对其有效性进行评价。ROC 曲线得出的曲线下面积(AUC)越大,说明模型的区分度越好,分子标志物越有效。采用不同CpG位点进行数学模型构建后的评价结果如表16、表17和表18所示。表16、表17和表 18中,1个CpG位点代表CCDC88C_B扩增片段中任意一个CpG位点的位点,2个CpG位点代表CCDC88C_B中任意2个CpG位点的组合,3个CpG位点代表CCDC88C_B中任意3 个CpG位点的组合……以此类推。表中的数值为不同位点组合评价结果的范围值(即任意个 CpG位点组合方式的结果均在此范围内)。
上述结果显示,CCDC88C基因对于各组的鉴别能力(无癌对照和肺癌患者、无癌女性对照和乳腺癌患者、肺部良性结节患者和肺癌患者、乳腺良性结节和乳腺癌患者、肺癌患者和乳腺癌患者、肺腺癌和肺鳞癌患者、肺腺癌和小细胞肺癌患者、肺鳞癌和小细胞肺癌患者、I 期肺癌和II期肺癌患者、I期肺癌和III期肺癌患者、II期肺癌和III期肺癌患者、乳腺导管原位癌和乳腺浸润性导管癌患者、乳腺导管原位癌和乳腺浸润性小叶癌患者、乳腺浸润性导管癌和乳腺浸润性小叶癌患者、I期乳腺癌和II期乳腺癌患者、I期乳腺癌和III期乳腺癌患者、II期乳腺癌和III期乳腺癌患者)随着位点数的增加而增加。
除此以外,在表1-表5所示的CpG位点中,还存在少数几个较优位点的组合比多个非较优位点组合的鉴别能力更好的情况。例如表19、表20、表21所示的CCDC88C_B_3、CCDC88C_B_4、CCDC88C_B_5、CCDC88C_B_6、CCDC88C_B_7、CCDC88C_B_8、 CCDC88C_B_9、CCDC88C_B_10和CCDC88C_B_11这9个可区分的最优位点的组合是 CCDC88C_C中任意9个可区分位点的优选位点组合。
综上所述,CCDC88C基因上的CpG位点及其各种组合,CCDC88C_A片段上的CpG位点及其各种组合,CCDC88C_B片段上的CpG位点及其各种组合,CCDC88C_B片段上 CCDC88C_B_3、CCDC88C_B_4、CCDC88C_B_5、CCDC88C_B_6、CCDC88C_B_7、 CCDC88C_B_8、CCDC88C_B_9、CCDC88C_B_10和CCDC88C_B_11这9个位点及其各种组合,CCDC88C_C片段上的CpG位点及其各种组合,CCDC88C_D片段上的CpG位点及其各种组合,CCDC88C_E片段上的CpG位点及其各种组合,以及CCDC88C_A、CCDC88C_B、 CCDC88C_C、CCDC88C_D和CCDC88C_E上的CpG位点及其各种组合的甲基化水平都对无癌对照和肺癌患者、无癌女性对照和乳腺癌患者、肺部良性结节患者和肺癌患者、乳腺良性结节和乳腺癌患者、肺癌患者和乳腺癌患者、肺腺癌和肺鳞癌患者、肺腺癌和小细胞肺癌患者、肺鳞癌和小细胞肺癌患者、I期肺癌和II期肺癌患者、I期肺癌和III期肺癌患者、II 期肺癌和III期肺癌患者、乳腺导管原位癌和乳腺浸润性导管癌患者、乳腺导管原位癌和乳腺浸润性小叶癌患者、乳腺浸润性导管癌和乳腺浸润性小叶癌患者、I期乳腺癌和II期乳腺癌患者、I期乳腺癌和III期乳腺癌患者、II期乳腺癌和III期乳腺癌患者有判别能力。
表7、比较无癌对照、肺部良性结节和肺癌的甲基化水平
表8、比较无癌对照和肺癌的甲基化水平差异
表9、比较肺部良性结节和肺癌的甲基化水平差异
表10、比较肺癌不同亚型或者肺癌不同分期的甲基化水平差异
表11、比较无癌女性对照、乳腺良性结节和乳腺癌的甲基化水平
表12、比较无癌女性对照和乳腺癌的甲基化水平差异
表13、比较乳腺良性结节和乳腺癌的甲基化水平差异
表14、比较乳腺癌不同亚型或者乳腺癌不同分期的甲基化水平差异
表15、比较肺癌和乳腺癌的甲基化水平差异
表16、CCDC88C_B的CpG位点及其组合用于区分肺癌和无癌对照、肺癌和肺部良性结节、乳腺癌和无癌女性对照、乳腺癌和乳腺良性结节、肺癌和乳腺癌
表17、CCDC88C_B的CpG位点及其自由组合用于区分肺癌患者不同亚型和不同分期
表18、CCDC88C_B的CpG位点及其自由组合用于区分乳腺癌患者不同亚型和不同分期
表19、CCDC88C_B的最佳CpG位点及其组合用于区分肺癌和无癌对照,肺癌和肺部良性结节,乳腺癌和无癌女性对照,乳腺癌和乳腺良性结节以及肺癌和乳腺癌
表20、CCDC88C_B的最佳CpG位点及其组合用于区分肺癌患者不同亚型和不同分期
表21、CCDC88C_B的最佳CpG位点及其组合用于区分乳腺癌患者不同亚型和不同分期
SEQUENCE LISTING
<110> 南京腾辰生物科技有限公司
<120> 蛋白基因甲基化作为辅助诊断癌症的分子标志物
<160> 15
<170> PatentIn version 3.5
<210> 1
<211> 601
<212> DNA
<213> Artificial sequence
<400> 1
gtgaaattca aaaggagtcc agactttcag cctggtggga ataagccctg ggttttcggg 60
caagggattt tattctgata gtttgaagtg ggcaaaggca gcacgaagcc tctagaagcc 120
accagagggc tgccaagact gatgagggtc ctctgtctcc tgccctgaca cccaggctcc 180
tccgagcagc tccatggccg gtctgagagc ttcagcagcg aagacctgat ccccagcagg 240
gacctggcca ctttgccccg ggaagccagc acaccgggac gcaacgccct cggccgccac 300
gagtacccct tgcctcggaa cgggcctctc ccacaggagg gtgcccagaa gaggggcaca 360
gcccctccct acgtcggagt gcggccctgc tcggcctccc ccagcagtga gatggtcacc 420
ttggaggagt tcctggagga gagcaaccgc agctccccca cccatgtgag tgatccggac 480
acggacttgg cccgtctctc ttccctctct gtctcttcct ggctcaagat catagctgca 540
gaaaggatgg ggtgggggtg gcgtggccta ggcacaggac tggcttggac atgagaggct 600
g 601
<210> 2
<211> 614
<212> DNA
<213> Artificial sequence
<400> 2
ttgggaggct aaggtgggag gatcccttga gcgcaggagt tctaaccctg gcaacctagc 60
gaggccccat ctctacgaaa actaaataat tgggcatggt ggtgtgagcc tgtagttcca 120
tctacttggg agagactgag gcaggagggt tgcttgagcc tgggaggttg aggctgcagt 180
gagccgtgat cacaccattg cattccagcc tgggtgatag agcaagacct tgtctcagaa 240
aaaaagaaag aaagaaaaga aaaccgattg gggcaggttc aggtttatgg cgtgcccttc 300
tctgatagtt tagctactgg gtttgttgct gctactgccg ttgctgctgc cactgctacc 360
acgaatgact tgttgactgc ggggagtagc ttgctaaaat cagcaggctt gagcgggtgc 420
cacttaacac ccacaaacag agcacttgac ttctgtattg cttttctgta ggaatgagtg 480
tgtgtgtgtg tcttggaaga agggtctttg ccagtgttga tggtgtgggg tgagctgtga 540
tttgttagcc tgttaacagc tttagaggcc tgttagggct tcgctagagc cacagagctg 600
cccatcactg caca 614
<210> 3
<211> 548
<212> DNA
<213> Artificial sequence
<400> 3
gacttgacat gggcagcaga gagacactag agtaaagggc cactagtcag agtgcccccg 60
ggaggctcct gcaccattcc acacaggcat gcagcttagc gcctgccaga gtccacgttt 120
gataaatatg tgtgcctggt tatgttaatg ccggggggtg ggggcacgtg gtgacatgag 180
gattccacag gggccgctcc ccagaatgtg agcccgtgcg tagaggtgcc tgcctccttc 240
cccatgggtg gggacacata tgatggagca tccccatgtg cccacccacg gggaactctc 300
caccttgagt attcctcggc agtgcctagg aagtacccca actgttaaaa taataataaa 360
cagctcttct cgttgtaagc tgagccctca ggagggccct cagagccgtg cccatgtgag 420
tgagtgttgg ggtgtgcccg tgtactgagg agagacaaca gggtcgtgtt cagtgcactg 480
ctgttttcaa atcactgtga cagcctcgtg agcatcctta tgaaataact ggtttttaag 540
tacaaaac 548
<210> 4
<211> 561
<212> DNA
<213> Artificial sequence
<400> 4
ctcccctagg cctgagatga ctccctgaaa accgccttca ccatcttgcc agctgcacag 60
ctattaaata tctttcgcgg ttactggtga gtgttttcta caagaagcct gtgagaagca 120
agagctcacg tctgtgctgt gagggaggat gctggatgga gctagaccag ctccggggtc 180
cctccagctc tggcttctca gcatcttgct cagcagccag gcctgtcact gtgccacacg 240
cacaagaaaa gactagattt gtctgacggg aagccagggt gttagcaaat tactttctgc 300
gatgaatcac aggacagttg cactggaaga aagcattgtt ttttcttcca gggtttgtat 360
ccaagtatag tagtggtttc cagacttaca catggccgat cccaccgaag ccatttagaa 420
tggaagggaa cgagccattt aggtgtagaa gcccagccca gagagcggag gagctcattc 480
agaggcacac agcatggagg tccccatagg cgcaagacag atttcacacc ataaattgca 540
cagatggtta cttttgtgga c 561
<210> 5
<211> 668
<212> DNA
<213> Artificial sequence
<400> 5
aaattgcttt tgaaatctct cctcagcatc tgcccgtccc ggcccaaact cctcactccc 60
ttacgctgtg tctgccctgg gaccgtctct ggatttctgc tctgatggtg ctgtggtttt 120
gcagctcact ctcagctgca cccacgcccc cggggagggg agggtctgtc tggtgcctca 180
ctgctgtagt ctctgcttct ccgagcacgg cctgggctct ggctggaccc tgcttgaacc 240
ccgccctcac ttttatatga cggctcttat aagagcctgc ccccatagtg aggcggtgtg 300
caggcttctg gggcctgagt gccgtagagc gtccttcgcc ttgtttcccc tcagccatcc 360
ttatccttcc ctcttacccg tgtctgcgct gtcgcctggt gtcccgggtc taccctcagt 420
gcacccccag aagccgagct ctcctctgca gccctcctca ccaccaccag ctcccctgct 480
tccgcctggc tgctccccag ggcagtgtcc tcacctctgc cccctgcagt ctgctcccag 540
catggcagcc cgagcagccc actcctcagg tcagccgact gtcattttgc agcccgctcc 600
gggcactagg gcctgtgcac ctgccggtcc ctctgccagc gagctgtgta aacacctcct 660
gtgagccc 668
<210> 6
<211> 35
<212> DNA
<213> Artificial sequence
<400> 6
aggaagagag gtgaaattta aaaggagttt agatt 35
<210> 7
<211> 56
<212> DNA
<213> Artificial sequence
<400> 7
cagtaatacg actcactata gggagaaggc tcaacctctc atatccaaac caatcc 56
<210> 8
<211> 35
<212> DNA
<213> Artificial sequence
<400> 8
aggaagagag ttgggaggtt aaggtgggag gattt 35
<210> 9
<211> 56
<212> DNA
<213> Artificial sequence
<400> 9
cagtaatacg actcactata gggagaaggc ttatacaata ataaacaact ctataa 56
<210> 10
<211> 35
<212> DNA
<213> Artificial sequence
<400> 10
aggaagagag gatttgatat gggtagtaga gagat 35
<210> 11
<211> 56
<212> DNA
<213> Artificial sequence
<400> 11
cagtaatacg actcactata gggagaaggc tattttatac ttaaaaacca attatt 56
<210> 12
<211> 35
<212> DNA
<213> Artificial sequence
<400> 12
aggaagagag tttttttagg tttgagatga ttttt 35
<210> 13
<211> 56
<212> DNA
<213> Artificial sequence
<400> 13
cagtaatacg actcactata gggagaaggc tatccacaaa aataaccatc tataca 56
<210> 14
<211> 35
<212> DNA
<213> Artificial sequence
<400> 14
aggaagagag aaattgtttt tgaaattttt tttta 35
<210> 15
<211> 56
<212> DNA
<213> Artificial sequence
<400> 15
cagtaatacg actcactata gggagaaggc taaactcaca aaaaatattt acacaa 56

Claims (10)

1.甲基化CCDC88C基因作为标志物在制备产品中的应用;所述产品的用途为如下中的至少一种:
(1)辅助诊断癌症或预测癌症患病风险;
(2)辅助区分良性结节和癌症;
(3)辅助区分癌症不同亚型;
(4)辅助区分癌症不同分期;
(5)辅助诊断肺癌或预测肺癌患病风险;
(6)辅助区分肺部良性结节和肺癌;
(7)辅助区分肺癌不同亚型;
(8)辅助区分肺癌不同分期;
(9)辅助诊断乳腺癌或预测乳腺癌患病风险;
(10)辅助区分乳腺良性结节和乳腺癌;
(11)辅助区分乳腺癌不同亚型;
(12)辅助区分乳腺癌不同分期;
(13)辅助区分肺癌和乳腺癌;
(14)确定待测物对癌症的发生是否存在阻碍或促进作用。
2.用于检测CCDC88C基因甲基化水平的物质在制备产品中的应用;所述产品的用途为如下中的至少一种:
(1)辅助诊断癌症或预测癌症患病风险;
(2)辅助区分良性结节和癌症;
(3)辅助区分癌症不同亚型;
(4)辅助区分癌症不同分期;
(5)辅助诊断肺癌或预测肺癌患病风险;
(6)辅助区分肺部良性结节和肺癌;
(7)辅助区分肺癌不同亚型;
(8)辅助区分肺癌不同分期;
(9)辅助诊断乳腺癌或预测乳腺癌患病风险;
(10)辅助区分乳腺良性结节和乳腺癌;
(11)辅助区分乳腺癌不同亚型;
(12)辅助区分乳腺癌不同分期;
(13)辅助区分肺癌和乳腺癌;
(14)确定待测物对癌症的发生是否存在阻碍或促进作用。
3.用于检测CCDC88C基因甲基化水平的物质和储存有数学模型建立方法和/或使用方法的介质在制备产品中的应用;所述产品的用途为如下中的至少一种:
(1)辅助诊断癌症或预测癌症患病风险;
(2)辅助区分良性结节和癌症;
(3)辅助区分癌症不同亚型;
(4)辅助区分癌症不同分期;
(5)辅助诊断肺癌或预测肺癌患病风险;
(6)辅助区分肺部良性结节和肺癌;
(7)辅助区分肺癌不同亚型;
(8)辅助区分肺癌不同分期;
(9)辅助诊断乳腺癌或预测乳腺癌患病风险;
(10)辅助区分乳腺良性结节和乳腺癌;
(11)辅助区分乳腺癌不同亚型;
(12)辅助区分乳腺癌不同分期;
(13)辅助区分肺癌和乳腺癌;
(14)确定待测物对癌症的发生是否存在阻碍或促进作用;
所述数学模型按照包括如下步骤的方法获得:
(A1)分别检测n1个A类型样本和n2个B类型样本的CCDC88C基因甲基化水平;
(A2)取步骤(A1)获得的所有样本的CCDC88C基因甲基化水平数据,按照A类型和B类型的分类方式,通过二分类逻辑回归法建立数学模型,确定分类判定的阈值;
所述数学模型的使用方法包括如下步骤:
(B1)检测待测样本的CCDC88C基因甲基化水平;
(B2)将步骤(B1)获得的所述待测样本的CCDC88C基因甲基化水平数据代入所述数学模型,得到检测指数;然后比较检测指数和阈值的大小,根据比较结果确定所述待测样本的类型是A类型还是B类型;
所述A类型样本和所述B类型样本为如下中的任一种:
(C1)肺癌样本和无癌对照;
(C2)肺癌样本和肺部良性结节样本;
(C3)肺癌不同亚型样本;
(C4)肺癌不同分期样本;
(C5)乳腺癌样本和无癌女性对照;
(C6)乳腺癌样本和乳腺良性结节样本;
(C7)乳腺癌不同亚型样本;
(C8)乳腺癌不同分期样本;
(C9)肺癌样本和乳腺癌样本。
4.储存有数学模型建立方法和/或使用方法的介质在制备产品中的应用;所述产品的用途为如下中的至少一种:
(1)辅助诊断癌症或预测癌症患病风险;
(2)辅助区分良性结节和癌症;
(3)辅助区分癌症不同亚型;
(4)辅助区分癌症不同分期;
(5)辅助诊断肺癌或预测肺癌患病风险;
(6)辅助区分肺部良性结节和肺癌;
(7)辅助区分肺癌不同亚型;
(8)辅助区分肺癌不同分期;
(9)辅助诊断乳腺癌或预测乳腺癌患病风险;
(10)辅助区分乳腺良性结节和乳腺癌;
(11)辅助区分乳腺癌不同亚型;
(12)辅助区分乳腺癌不同分期;
(13)辅助区分肺癌和乳腺癌;
(14)确定待测物对癌症的发生是否存在阻碍或促进作用;
所述数学模型按照包括如下步骤的方法获得:
(A1)分别检测n1个A类型样本和n2个B类型样本的CCDC88C基因甲基化水平;
(A2)取步骤(A1)获得的所有样本的CCDC88C基因甲基化水平数据,按照A类型和B类型的分类方式,通过二分类逻辑回归法建立数学模型,确定分类判定的阈值;
所述数学模型的使用方法包括如下步骤:
(B1)检测待测样本的CCDC88C基因甲基化水平;
(B2)将步骤(B1)获得的所述待测样本的CCDC88C基因甲基化水平数据代入所述数学模型,得到检测指数;然后比较检测指数和阈值的大小,根据比较结果确定所述待测样本的类型是A类型还是B类型;
所述A类型样本和所述B类型样本为如下中的任一种:
(C1)肺癌样本和无癌对照;
(C2)肺癌样本和肺部良性结节样本;
(C3)肺癌不同亚型样本;
(C4)肺癌不同分期样本;
(C5)乳腺癌样本和无癌女性对照;
(C6)乳腺癌样本和乳腺良性结节样本;
(C7)乳腺癌不同亚型样本;
(C8)乳腺癌不同分期样本;
(C9)肺癌样本和乳腺癌样本。
5.试剂盒,包括用于检测CCDC88C基因甲基化水平的物质;所述试剂盒的用途为如下中的至少一种:
(1)辅助诊断癌症或预测癌症患病风险;
(2)辅助区分良性结节和癌症;
(3)辅助区分癌症不同亚型;
(4)辅助区分癌症不同分期;
(5)辅助诊断肺癌或预测肺癌患病风险;
(6)辅助区分肺部良性结节和肺癌;
(7)辅助区分肺癌不同亚型;
(8)辅助区分肺癌不同分期;
(9)辅助诊断乳腺癌或预测乳腺癌患病风险;
(10)辅助区分乳腺良性结节和乳腺癌;
(11)辅助区分乳腺癌不同亚型;
(12)辅助区分乳腺癌不同分期;
(13)辅助区分肺癌和乳腺癌;
(14)确定待测物对癌症的发生是否存在阻碍或促进作用。
6.根据权利要求5所述的试剂盒,其特征在于:所述试剂盒中还含有权利要求3或4中所述的储存有数学模型建立方法和/或使用方法的介质。
7.系统,包括:
(D1)用于检测CCDC88C基因甲基化水平的试剂和/或仪器;
(D2)装置,所述装置包括单元A和单元B;
所述单元A用于建立数学模型,包括数据采集模块、数据分析处理模块和模型输出模块;
所述数据采集模块用于采集(D1)检测得到的n1个A类型样本和n2个B类型样本的CCDC88C基因甲基化水平数据;
所述数据分析处理模块能够基于所述数据采集模块采集的n1个A类型样本和n2个B类型样本的CCDC88C基因甲基化水平数据,按照A类型和B类型的分类方式,通过二分类逻辑回归法建立数学模型,确定分类判定的阈值;
所述模型输出模块用于输出所述数据分析处理模块建立的数学模型;
所述单元B用于确定待测样本类型,包括数据输入模块、数据运算模块、数据比较模块和结论输出模块;
所述数据输入模块用于输入(D1)检测得到的待测者的CCDC88C基因甲基化水平数据;
所述数据运算模块用于将所述待测者的CCDC88C基因甲基化水平数据代入所述数学模型,计算得到检测指数;
所述数据比较模块用于将所述检测指数与阈值进行比较;
所述结论输出模块用于根据所述数据比较模块的比较结果输出所述待测样本的类型是A类型还是B类型的结论;
所述A类型样本和所述B类型样本为如下中的任一种:
(C1)肺癌样本和无癌对照;
(C2)肺癌样本和肺部良性结节样本;
(C3)肺癌不同亚型样本;
(C4)肺癌不同分期样本;
(C5)乳腺癌样本和无癌女性对照;
(C6)乳腺癌样本和乳腺良性结节样本;
(C7)乳腺癌不同亚型样本;
(C8)乳腺癌不同分期样本;
(C9)肺癌样本和乳腺癌样本。
8.根据权利要求1-7中任一所述的应用或试剂盒或系统,其特征在于:所述CCDC88C基因甲基化水平为CCDC88C基因中如下(e1)-(e5)所示片段中全部或部分CpG位点的甲基化水平;
所述甲基化CCDC88C基因为CCDC88C基因中如下(e1)-(e5)所示片段中全部或部分CpG位点甲基化;
(e1)SEQ ID No.1所示的DNA片段或与其具有80%以上同一性的DNA片段;
(e2)SEQ ID No.2所示的DNA片段或与其具有80%以上同一性的DNA片段;
(e3)SEQ ID No.3所示的DNA片段或与其具有80%以上同一性的DNA片段;
(e4)SEQ ID No.4所示的DNA片段或与其具有80%以上同一性的DNA片段;
(e5)SEQ ID No.5所示的DNA片段或与其具有80%以上同一性的DNA片段。
9.根据权利要求8所述的应用或试剂盒或系统,其特征在于:所述“全部或部分CpG位点”为CCDC88C基因中SEQ ID No.1至SEQ ID No.5所示5个DNA片段中的任意一个或多个CpG位点;
所述“全部或部分CpG位点”为SEQ ID No.2所示的DNA片段中所有CpG位点和SEQ IDNo.1所示的DNA片段中所有CpG位点;
所述“全部或部分CpG位点”为SEQ ID No.2所示的DNA片段中所有CpG位点和SEQ IDNo.5所示的DNA片段中所有CpG位点;
所述“全部或部分CpG位点”为SEQ ID No.1所示的DNA片段中所有CpG位点和SEQ IDNo.5所示的DNA片段中所有CpG位点;
所述“全部或部分CpG位点”为SEQ ID No.2所示的DNA片段中所有CpG位点、SEQ IDNo.1所示的DNA片段中所有CpG位点和SEQ ID No.5所示的DNA片段中所有CpG位点;
所述“全部或部分CpG位点”可为CCDC88C基因中所述SEQ ID No.2所示的DNA片段中的全部或任意10个或任意9个或任意8个或任意7个或任意6个或任意5个或任意4个或任意3个或任意2个或任意1个;
所述“全部或部分CpG位点”为SEQ ID No.2所示的DNA片段中如下9项所示CpG位点的全部或任意8项或任意7项或任意6项或任意5项或任意4项或任意3项或任意2项或任意1项:
(f1)SEQ ID No.2所示的DNA片段自5’端第76-77位所示CpG位点;
(f2)SEQ ID No.2所示的DNA片段自5’端第185-186位所示CpG位点;
(f3)SEQ ID No.2所示的DNA片段自5’端第265-266位所示CpG位点;
(f4)SEQ ID No.2所示的DNA片段自5’端第291-292位所示CpG位点;
(f5)SEQ ID No.2所示的DNA片段自5’端第339-340位所示CpG位点;
(f6)SEQ ID No.2所示的DNA片段自5’端第362-363位所示CpG位点;
(f7)SEQ ID No.2所示的DNA片段自5’端第380-381位所示CpG位点;
(f8)SEQ ID No.2所示的DNA片段自5’端第414-415位所示CpG位点;
(f9)SEQ ID No.2所示的DNA片段自5’端第582-583位所示CpG位点。
10.根据权利要求1-9中任一所述的应用或试剂盒或系统,其特征在于:所述用于检测CCDC88C基因甲基化水平的物质包含用于扩增CCDC88C基因全长或部分片段的引物组合;
所述用于检测CCDC88C基因甲基化水平的试剂包含用于扩增CCDC88C基因全长或部分片段的引物组合;
进一步地,所述部分片段为如下中至少一个片段:
(g1)SEQ ID No.1所示的DNA片段或其包含的DNA片段;
(g2)SEQ ID No.2所示的DNA片段或其包含的DNA片段;
(g3)SEQ ID No.3所示的DNA片段或其包含的DNA片段;
(g4)SEQ ID No.4所示的DNA片段或其包含的DNA片段;
(g5)SEQ ID No.5所示的DNA片段或其包含的DNA片段;
(g6)与SEQ ID No.1所示的DNA片段或其包含的DNA片段具有80%以上同一性的DNA片段;
(g7)与SEQ ID No.2所示的DNA片段或其包含的DNA片段具有80%以上同一性的DNA片段;
(g8)与SEQ ID No.3所示的DNA片段或其包含的DNA片段具有80%以上同一性的DNA片段。
(g9)与SEQ ID No.4所示的DNA片段或其包含的DNA片段具有80%以上同一性的DNA片段;
(g10)与SEQ ID No.5所示的DNA片段或其包含的DNA片段具有80%以上同一性的DNA片段;
更进一步地,所述引物组合为引物对A和/或引物对B和/或引物对C或引物对D和/或引物对E;
所述引物对A为引物A1和引物A2组成的引物对;所述引物A1为SEQ ID No.6或SEQ IDNo.6的第11-35位核苷酸所示的单链DNA;所述引物A2为SEQ ID No.7或SEQ ID No.7的第32-56位核苷酸所示的单链DNA;
所述引物对B为引物B1和引物B2组成的引物对;所述引物B1为SEQ ID No.8或SEQ IDNo.8的第11-35位核苷酸所示的单链DNA;所述引物B2为SEQ ID No.9或SEQ ID No.9的第32-56位核苷酸所示的单链DNA;
所述引物对C为引物C1和引物C2组成的引物对;所述引物C1为SEQ ID No.10或SEQ IDNo.10的第11-35位核苷酸所示的单链DNA;所述引物C2为SEQ ID No.11或SEQ ID No.11的第32-56位核苷酸所示的单链DNA。
所述引物对D为引物D1和引物D2组成的引物对;所述引物D1为SEQ ID No.12或SEQ IDNo.12的第11-35位核苷酸所示的单链DNA;所述引物D2为SEQ ID No.13或SEQ ID No.13的第32-56位核苷酸所示的单链DNA;
所述引物对E为引物E1和引物E2组成的引物对;所述引物E1为SEQ ID No.14或SEQ IDNo.14的第11-35位核苷酸所示的单链DNA;所述引物E2为SEQ ID No.15或SEQ ID No.15的第32-56位核苷酸所示的单链DNA。
CN202210242043.5A 2022-03-11 2022-03-11 蛋白基因甲基化作为辅助诊断癌症的分子标志物 Pending CN117568471A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210242043.5A CN117568471A (zh) 2022-03-11 2022-03-11 蛋白基因甲基化作为辅助诊断癌症的分子标志物

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210242043.5A CN117568471A (zh) 2022-03-11 2022-03-11 蛋白基因甲基化作为辅助诊断癌症的分子标志物

Publications (1)

Publication Number Publication Date
CN117568471A true CN117568471A (zh) 2024-02-20

Family

ID=89890514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210242043.5A Pending CN117568471A (zh) 2022-03-11 2022-03-11 蛋白基因甲基化作为辅助诊断癌症的分子标志物

Country Status (1)

Country Link
CN (1) CN117568471A (zh)

Similar Documents

Publication Publication Date Title
CN118547070A (zh) 一种用于肺癌诊断的计算机装置及其应用
CN114507731B (zh) 一种用于辅助癌症诊断的甲基化标志物及试剂盒
CN113355412B (zh) 用于辅助诊断癌症的甲基化标志物及试剂盒
CN113234818A (zh) 前列腺癌症标志物基因组合及应用
CN113215252B (zh) 用于辅助诊断癌症的甲基化标志物
CN114480630B (zh) 用于辅助诊断癌症的一种甲基化标志物
CN113136428B (zh) 一种甲基化标志物在辅助诊断癌症中的应用
CN117568471A (zh) 蛋白基因甲基化作为辅助诊断癌症的分子标志物
CN113355413B (zh) 一种分子标志物及试剂盒在辅助诊断癌症中的应用
CN113122630B (zh) 一种用于辅助诊断癌症的钙结合蛋白甲基化标志物
CN113215251B (zh) 一种辅助诊断癌症的甲基化标志物
CN113186279B (zh) 用于辅助诊断癌症的透明质酸酶甲基化标志物及试剂盒
CN113215250B (zh) 一个基因的甲基化水平在辅助诊断癌症中的应用
CN117568473A (zh) 一种可用于辅助诊断癌症的甲基化分子标志物
CN118028461A (zh) 一种蛋白基因在辅助诊断癌症中的应用
CN117568470A (zh) 一种作为辅助诊断癌症的分子标志物及试剂盒
CN117604094A (zh) 一种甲基化标志物及试剂盒在辅助诊断癌症中的应用
CN117568472A (zh) 一种甲基化标志物在辅助诊断癌症中的应用
CN115701454A (zh) 一种用于辅助诊断癌症的分子标志物及试剂盒
CN115612731A (zh) 一种辅助诊断癌症的分子标志物
CN115612735A (zh) 一种辅助诊断癌症的潜在分子标志物
CN115612732A (zh) 用于辅助诊断癌症的标志物及其试剂盒
CN115701453A (zh) 用于辅助诊断癌症的分子标志物及试剂盒
CN116536422A (zh) 一种甲状腺癌早期辅助诊断标志物
CN117802236A (zh) 用于早期甲状腺癌鉴别的组合标志物在制备产品中的应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination