CN116403719A - 一种乳腺结节恶性鉴别诊断模型的构建方法 - Google Patents
一种乳腺结节恶性鉴别诊断模型的构建方法 Download PDFInfo
- Publication number
- CN116403719A CN116403719A CN202211394717.XA CN202211394717A CN116403719A CN 116403719 A CN116403719 A CN 116403719A CN 202211394717 A CN202211394717 A CN 202211394717A CN 116403719 A CN116403719 A CN 116403719A
- Authority
- CN
- China
- Prior art keywords
- breast cancer
- breast
- methylation
- tissues
- benign
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 20
- 206010006272 Breast mass Diseases 0.000 title claims abstract description 15
- 238000003748 differential diagnosis Methods 0.000 title claims abstract description 12
- 206010028980 Neoplasm Diseases 0.000 title claims description 33
- 201000011510 cancer Diseases 0.000 title claims description 13
- 230000036210 malignancy Effects 0.000 title claims description 9
- 208000026310 Breast neoplasm Diseases 0.000 claims abstract description 51
- 206010006187 Breast cancer Diseases 0.000 claims abstract description 50
- 210000001519 tissue Anatomy 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000007067 DNA methylation Effects 0.000 claims abstract description 19
- 210000002381 plasma Anatomy 0.000 claims abstract description 19
- 238000012216 screening Methods 0.000 claims abstract description 13
- 210000000481 breast Anatomy 0.000 claims abstract description 12
- 201000010099 disease Diseases 0.000 claims abstract description 11
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 11
- 230000001973 epigenetic effect Effects 0.000 claims abstract description 10
- 230000003902 lesion Effects 0.000 claims abstract description 9
- 230000003211 malignant effect Effects 0.000 claims abstract description 9
- 238000012795 verification Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 abstract description 9
- 230000035945 sensitivity Effects 0.000 abstract description 8
- 238000001228 spectrum Methods 0.000 abstract 2
- 206010054107 Nodule Diseases 0.000 abstract 1
- 238000004378 air conditioning Methods 0.000 abstract 1
- 210000004293 human mammary gland Anatomy 0.000 abstract 1
- 230000011987 methylation Effects 0.000 description 44
- 238000007069 methylation reaction Methods 0.000 description 44
- 108020004414 DNA Proteins 0.000 description 22
- 102000054766 genetic haplotypes Human genes 0.000 description 19
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical group NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 17
- 230000004048 modification Effects 0.000 description 11
- 238000012986 modification Methods 0.000 description 11
- 239000000523 sample Substances 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 8
- 238000003745 diagnosis Methods 0.000 description 8
- 239000012634 fragment Substances 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 229940104302 cytosine Drugs 0.000 description 6
- 108091029523 CpG island Proteins 0.000 description 5
- LSNNMFCWUKXFEE-UHFFFAOYSA-N Sulfurous acid Chemical compound OS(O)=O LSNNMFCWUKXFEE-UHFFFAOYSA-N 0.000 description 5
- 238000012163 sequencing technique Methods 0.000 description 5
- 102000053602 DNA Human genes 0.000 description 4
- 108020004682 Single-Stranded DNA Proteins 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000004049 epigenetic modification Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 3
- 210000000265 leukocyte Anatomy 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012164 methylation sequencing Methods 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 239000002773 nucleotide Substances 0.000 description 3
- 125000003729 nucleotide group Chemical group 0.000 description 3
- 206010033128 Ovarian cancer Diseases 0.000 description 2
- 206010061535 Ovarian neoplasm Diseases 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 201000007741 female breast cancer Diseases 0.000 description 2
- 201000002276 female breast carcinoma Diseases 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000007170 pathology Effects 0.000 description 2
- 210000005259 peripheral blood Anatomy 0.000 description 2
- 239000011886 peripheral blood Substances 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000002992 thymic effect Effects 0.000 description 2
- 229930024421 Adenine Natural products 0.000 description 1
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 230000005778 DNA damage Effects 0.000 description 1
- 231100000277 DNA damage Toxicity 0.000 description 1
- 230000030933 DNA methylation on cytosine Effects 0.000 description 1
- 230000008836 DNA modification Effects 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- 208000034826 Genetic Predisposition to Disease Diseases 0.000 description 1
- 108010047956 Nucleosomes Proteins 0.000 description 1
- 208000003721 Triple Negative Breast Neoplasms Diseases 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N adenyl group Chemical group N1=CN=C2N=CNC2=C1N GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000000601 blood cell Anatomy 0.000 description 1
- 208000030270 breast disease Diseases 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 230000030833 cell death Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004141 dimensional analysis Methods 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 230000013020 embryo development Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 210000001623 nucleosome Anatomy 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 210000004976 peripheral blood cell Anatomy 0.000 description 1
- 210000004180 plasmocyte Anatomy 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 235000013529 tequila Nutrition 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
- 208000022679 triple-negative breast carcinoma Diseases 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- 230000005748 tumor development Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Pathology (AREA)
- Molecular Biology (AREA)
- Physiology (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请提出了一种乳腺结节恶性鉴别诊断模型的构建方法,涉及生物医疗技术领域。包括以下步骤:先利用乳腺癌组织、乳腺良性病变和正常组织描绘乳腺癌特异的表观遗传学全景图谱;然后利用乳腺癌患者组织对应的血浆样本和健康人血浆样本筛选乳腺癌特异的游离DNA甲基化模式;最后利用乳腺癌患者、良性疾病患者及正常人群的血浆样本构建基于游离DNA甲基化的人类乳腺良恶性结节判断模型。本申提出了多维度解析cfDNA、提高早期乳腺癌检测灵敏度的新思路,通过绘制乳腺癌组织表观遗传学全景图谱,揭示乳腺癌特异的游离DNA甲基化特征图谱,为探索建立高效的无创早筛技术拓展了理论基础。
Description
技术领域
本申请涉及生物医疗技术领域,具体而言,涉及一种乳腺结节恶性鉴别诊断模型的构建方法。
背景技术
临床上超声对乳腺疾病患者病情进行确定,可从多切面、多层次扫查患者乳腺,对患者病变情况进行明确,但实际操作中发现,受到图像清晰率、扫描深度等情况影响,利用常规超声对乳腺结节良恶性进行辨别存在一定局限性,容易发生误诊以及漏诊。开发新型乳腺结节良恶性鉴别诊断工具是解决这一问题的有效方式。
发明内容
本申请的目的在于提供一种乳腺结节恶性鉴别诊断模型的构建方法,此构建方法利用检测手段以及相关测序信息分析方法,结合分子生物学检测和机器学习手段,为乳腺癌患者的非侵入性诊断提供新的工具。
本申请解决其技术问题是采用以下技术方案来实现的。
本申请实施例提供一种乳腺结节恶性鉴别诊断模型的构建方法,包括以下步骤:
S1、先利用乳腺癌组织、乳腺良性病变和正常组织描绘乳腺癌特异的表观遗传学全景图谱;
S2、然后利用乳腺癌患者组织对应的血浆样本和健康人血浆样本筛选乳腺癌特异的游离DNA甲基化模式;
S3、最后利用乳腺癌患者、良性疾病患者及正常人群的血浆样本构建基于游离DNA甲基化的人类乳腺良恶性结节判断模型。
相对于现有技术,本申请的实施例至少具有如下优点或有益效果:
1、本申请聚焦我国女性乳腺癌独有的临床生物学特征,提出了多维度解析cfDNA、提高早期乳腺癌检测灵敏度的新思路,通过绘制乳腺癌组织表观遗传学全景图谱,揭示乳腺癌特异的游离DNA甲基化特征图谱,为探索建立高效的无创早筛技术拓展了理论基础。
2、本申请聚焦乳腺癌基因组特征与cfDNA高通量测序特点,创建了乳腺癌无创早筛技术的综合技术体系,集成应用了单链DNA建库方法、高效率探针合成以及捕获技术,融合应用基于群体遗传统计原理的突变丰度测度、基于深度学习的甲基化特征发现等方法,为探索建立新检验领域多学科合作模式积累了经验。
3、在本申请构建方法中,利用胸腺核苷酸多聚酶对单链DNA进行3’加尾、3’接头连接、线性扩增、以及5’随机引物接头连接的单链DNA建库方法,该方法对亚硫酸盐处理后的DNA的建库效率达到常规双链建库方法的5000%,且其覆盖度非常均一。本申请通过深度学习工具,构造了单分子甲基化单倍型特征学习网络,能以较高的效率在全基因组CpG岛范围内发现肿瘤特异的甲基化单倍型特征。该技术可能将检测的灵敏度提高到单分子级别。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例构建方法的流程示意图;
图2为本申请实验例中乳腺癌特异甲基化单倍型占比图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将对本申请实施例中的技术方案进行清楚、完整地描述。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考具体实施例来详细说明本申请。
游离DNA (cell-free DNA,cfDNA)当前被视为未来最具前景的肿瘤无创早筛标志物,基于病变或异常细胞来源的cfDNA与正常细胞来源cfDNA的差异,临床上应用血浆中cfDNA进行疾病诊断的主要领域包括但不限于妇产科、肿瘤液态活检及器官移植。肿瘤细胞突变等形式的cfDNA是高度特异性的标志物,被称之为循环肿瘤DNA(circulatingtumourDNA,ctDNA),其半衰期在16min和2.5h之间,其定量检测可用来实时评估患者肿瘤负荷。然而,单纯依赖基因突变与拷贝数分析的cfDNA检测方法却无法满足乳腺癌早筛的临床需求,癌症早期筛查Grail公司于2018年美国临床肿瘤学会年会(ESMO)公布了基于cfDNA深度靶向测序、全基因组(甲基化)分析的早期乳腺癌(临床Ⅰ、Ⅱ)检测结果,三阴性乳腺癌较其他分子分型相对敏感,但仍不足40%。基于乳腺癌分子分型多样性、组织异质性以及遗传易感复杂性,本申请认为,多维度解析ctDNA方能提高乳腺癌诊断的敏感性。
表观遗传学修饰,包括甲基化修饰、核小体分布(片段化分析)等被认为是可以准确判断cfDNA细胞来源的一种诊断标志物。cfDNA分子除了携带有基因组序列信息外,还携带有不同细胞来源的表观遗传标记,包括但不限于DNA甲基化修饰。DNA甲基化是指DNA碱基上的腺嘌呤或胞嘧啶被加上了甲基化基团,DNA甲基化在胚胎发育、疾病发生等过程中均起到重要作用。基因的异常甲基化会导致肿瘤的发生,这种异常的 DNA 甲基化状态可能成为肿瘤诊断的潜在生物学标志物,且DNA甲基化修饰过程早于蛋白质翻译,相较于检测癌症相关蛋白表达水平,在肿瘤早期诊断中可能具有更大的价值。
cfDNA甲基化模式反映了机体发生着的细胞死亡事件重要信息,可以通过特定方法解析其组织来源与疾病状态(包含乳腺肿瘤)。DNA甲基化模式的改变出现在很多肿瘤发生的早期,且在血浆中的循环肿瘤DNA中已发现其含有肿瘤特异的DNA甲基化模式。异常DNA甲基化具有化学和生物学稳定性且甲基化模式通常在疾病进展过程中相对保守,基于cfDNA甲基化的肿瘤筛查手段取得较好的灵敏度及特异性,提示cfDNA甲基化在肿瘤诊断中有很好的应用潜能。
基于申请人对于上述理论的研究,本申请提出一种乳腺结节恶性鉴别诊断模型的构建方法,包括以下步骤:
S1、先利用乳腺癌组织、乳腺良性病变和正常组织描绘乳腺癌特异的表观遗传学全景图谱;
S2、然后利用乳腺癌患者组织对应的血浆样本和健康人血浆样本筛选乳腺癌特异的游离DNA甲基化模式;
S3、最后利用乳腺癌患者、良性疾病患者及正常人群的血浆样本构建基于游离DNA甲基化的人类乳腺良恶性结节判断模型。
在本申请的一些实施例中,上述S3步骤之后还包括对该判断模型进行扩大样本验证。
以下结合实施例对本申请的特征和性能作进一步的详细描述。
实施例
一种乳腺结节恶性鉴别诊断模型的构建方法,如图1所示,具体包括以下步骤:
1、采集50例乳腺良性病变患者的病变组织及配对正常组织/外周血白细胞,以及50例初诊乳腺癌患者(尽量覆盖各分子分型及小叶癌等特殊组织类型)的肿瘤组织及癌旁组织/外周血白细胞。使用亚硫酸盐转化,全基因组CpG岛探针组捕获测序,以获得全基因组CpG岛甲基化特征信息。根据统计学原理计算结合机器学习行CpG岛差异甲基化位点及区域分析、差异甲基化区域单倍型分析,以得到乳腺癌组织特异的表观遗传学修饰关键特征,描绘乳腺癌特异的表观遗传学全景图谱。
2、为了分析肿瘤组织来源的特异性表观遗传学修饰特征在血浆游离DNA(cfDNA)中的表达一致性,利用前述研究中来源于100例乳腺癌和乳腺良性病变患者的血浆样本以及来源于50例健康人群的血浆样本,进行cfDNA甲基化测序,检测分析cfDNA携带的表观遗传学信息。将cfDNA甲基化数据与其组织来源的表观遗传学修饰信息并进行比对,构建乳腺癌来源的cfDNA甲基化特征图谱,利用统计分析构建基于cfDNA甲基化的乳腺结节良恶性鉴别诊断模型。
3、应用盲法开展模型分析性能与临床效能验证:采集100例健康女性志愿者、100例乳腺良性病变患者以及100例乳腺癌患者(尽量覆盖各分子分型及小叶癌等特殊组织类型)的配对血浆及外周血白细胞,提前设盲,对血浆中游离DNA及白细胞基因组DNA行cfDNA甲基化测序和数据分析,测试前述研究中建立的基于cfDNA甲基化的乳腺结节良恶性鉴别诊断模型的灵敏性、特异度等相应指标。
在本实施例DNA 甲基化研究中,现有技术最常用的方法是亚硫酸盐测序法,但常规的亚硫酸盐处理造成的 DNA 损伤会极大降低建库效率,为得到更多有效数据需要相应的提高DNA 用量,但患者血液中cfDNA量往往有限,严重阻碍科研人员的相关研究。为解决这一问题,本申请实施例通过分子定向进化获得高效的修复酶和聚合酶,并优化修复体系,提高针对极端样本的建库效率,建立 Tequila 建库技术。Tequila 甲基化建库技术可对pg级、不同损伤类型的 DNA 进行高效建库;单管操作,2 小时建库;同时具有高模板利用率(>95%)、高文库纯度、接头二聚体<0.01%、低序列偏好等多项优势。
在本实施例中,甲基化特异单倍型的机器学习具体为:对于任意一组甲基化测序数据比对后的BAM文件,根据其生物学来源,将其分为实验组及对照组。对于任意一个感兴趣的任意基因组位置(下称“位点”),使用pysam软件包(Version: 0.11.2.2)从比对后BAM文件中提取覆盖该点的所有测序所得DNA片段,并抽取每个片段的:起始位置、终止位置、长度、基因型四个信息。这里的基因型,可以为DNA碱基序列多态性(单核苷酸多态性(SNP)、短插入、缺失(Indel))或DNA修饰的多态性(甲基化胞嘧啶修饰、羟甲基化胞嘧啶修饰、羧甲基化胞嘧啶修饰等)。特别地,对于每个参考基因组为胞嘧啶(C)的碱基位置,其取值可以是存在甲基化胞嘧啶修饰(写作‘1’),不存在甲基化胞嘧啶修饰(写作‘-1’),或未知(‘0’)三种不同情况。因此,任意一条测序所得DNA片段上的胞嘧啶甲基化修饰情况,可被表示为-1/0/1三字符构成的一个字符串。该字符串在基因组上的对应位置是可确定的。所有测序所得的、覆盖同样一个或更多胞嘧啶位点的DNA片段的甲基化修饰情况,可叠加构成一个矩阵R,其形如[0,1,-1;0,1,1;1,1,-1;…],其中每行为一条DNA片段上测序所得的甲基化修饰情况(下称“甲基化单倍型”),每列为一个特定的胞嘧啶位点。同样地,对于任意两个或两个以上的参考基因组为胞嘧啶的碱基位置,可以遍历这些胞嘧啶位点上甲基化状态的组合,即所有的甲基化单倍型,构成一个矩阵H,形如[0,1,-1;0,1,1;1,1,-1;…],其中任意一行为一种甲基化单倍型h。对于任意一个来自样本i的R[i],进行正交矩阵分解R[i]=w[i]*H(利用R软件包即可计算),即可得到R[i]中不同甲基化单倍型的相对占比w[i]。对不同来源的R[i,j](j为不同的来源),经统计后获得一组w[i,j,k],利用R的广义线性回归模型(GLM软件包)计算不同j来源之间w[i,j,k]存在的稳定差异,以存在稳定差异的w[k]对应的单倍型h[k]作为某组织器官来源的特异甲基化单倍型。
在本实施例中,疾病特异甲基化差异分析―机器学习与深度学习的结合具体为:机器学习方法直接从数据中获得信息熵和散度作为描述替代传统统计学的方差和协方差,去除非显著差异的数据,找出所有组织与组织、肿瘤组织与正常组织之间的差异性甲基化区域,本申请所使用的机器学习算法在分析过程中,不仅能够容忍测序深度过浅、肿瘤异质性、肿瘤含量不同、样本数量过少所带来的噪音,寻找组织特异、疾病特异甲基化区域,而且能够对疾病病理分型进行区分。本申请的深度学习方法在此基础上,对发现的差异甲基化区域的甲基化单倍型信号进行分析,通过深度学习训练阶段将甲基化单倍型信号转换为数字信号,然后通过深度学习稀疏自编码降噪网络和主成分分析的方法将数字信号转化为甲基化单倍型模式输出。真实世界中,如一条游离DNA片段甲基化单倍型信号与肿瘤相同,则该游离 DNA 片段极有可能来自于肿瘤。
以34例正常、健康、非怀孕志愿者女性为对照,选取临床病理确诊的10例乳腺癌患者与12例卵巢癌患者,应用相应的组织、血浆及血细胞标本。通过全基因组甲基化捕获测序,首先计算乳腺癌特异的单位点甲基化变化,进而,利用机器学习模型,据此计算乳腺癌特异的甲基化单倍型,其结果如图2所示。从图2中可以看出,乳腺癌特异甲基化单倍型在乳腺癌组织中的占比显著地高于良性乳腺组织、卵巢癌组织、正常健康未孕女性外周血细胞及血浆游离DNA。
综上所述,本申请实施例的一种乳腺结节恶性鉴别诊断模型的构建方法,具有以下优点:
1、本申请聚焦我国女性乳腺癌独有的临床生物学特征,提出了多维度解析cfDNA、提高早期乳腺癌检测灵敏度的新思路,通过绘制乳腺癌组织表观遗传学全景图谱,揭示乳腺癌特异的游离DNA甲基化特征图谱,为探索建立高效的无创早筛技术拓展了理论基础。
2、本申请聚焦乳腺癌基因组特征与cfDNA高通量测序特点,创建了乳腺癌无创早筛技术的综合技术体系,集成应用了单链DNA建库方法、高效率探针合成以及捕获技术,融合应用基于群体遗传统计原理的突变丰度测度、基于深度学习的甲基化特征发现等方法,为探索建立新检验领域多学科合作模式积累了经验。
3、在本申请构建方法中,利用胸腺核苷酸多聚酶对单链DNA进行3’加尾、3’接头连接、线性扩增、以及5’随机引物接头连接的单链DNA建库方法,该方法对亚硫酸盐处理后的DNA的建库效率达到常规双链建库方法的5000%,且其覆盖度非常均一。本申请通过深度学习工具,构造了单分子甲基化单倍型特征学习网络,能以较高的效率在全基因组CpG岛范围内发现肿瘤特异的甲基化单倍型特征。该技术可能将检测的灵敏度提高到单分子级别。
以上所描述的实施例是本申请一部分实施例,而不是全部的实施例。本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
Claims (2)
1.一种乳腺结节恶性鉴别诊断模型的构建方法,其特征在于,包括以下步骤:
S1、先利用乳腺癌组织、乳腺良性病变和正常组织描绘乳腺癌特异的表观遗传学全景图谱;
S2、然后利用乳腺癌患者组织对应的血浆样本和健康人血浆样本筛选乳腺癌特异的游离DNA甲基化模式;
S3、最后利用乳腺癌患者、良性疾病患者及正常人群的血浆样本构建基于游离DNA甲基化的人类乳腺良恶性结节判断模型。
2.根据权利要求1所述的一种乳腺结节恶性鉴别诊断模型的构建方法,其特征在于,所述S3步骤之后还包括对该判断模型进行扩大样本验证。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211394717.XA CN116403719A (zh) | 2022-11-09 | 2022-11-09 | 一种乳腺结节恶性鉴别诊断模型的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211394717.XA CN116403719A (zh) | 2022-11-09 | 2022-11-09 | 一种乳腺结节恶性鉴别诊断模型的构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116403719A true CN116403719A (zh) | 2023-07-07 |
Family
ID=87018518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211394717.XA Pending CN116403719A (zh) | 2022-11-09 | 2022-11-09 | 一种乳腺结节恶性鉴别诊断模型的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116403719A (zh) |
-
2022
- 2022-11-09 CN CN202211394717.XA patent/CN116403719A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220195530A1 (en) | Identification and use of circulating nucleic acid tumor markers | |
CN107771221B (zh) | 用于癌症筛查和胎儿分析的突变检测 | |
JP6954964B2 (ja) | エピジェネティックドメインの安定性の全般的な損失を通して癌を検出する方法およびその組成物 | |
WO2021128519A1 (zh) | Dna甲基化生物标志物组合、检测方法和试剂盒 | |
US20020137086A1 (en) | Method for the development of gene panels for diagnostic and therapeutic purposes based on the expression and methylation status of the genes | |
CN113257350B (zh) | 基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置 | |
CN111910004B (zh) | cfDNA在早期乳腺癌无创诊断中的应用 | |
KR102029393B1 (ko) | 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도 | |
AU2018305609B2 (en) | Enhancement of cancer screening using cell-free viral nucleic acids | |
CN112941180A (zh) | 一组肺癌dna甲基化分子标志物及其在制备用于肺癌早期诊断试剂盒中的应用 | |
CN109830264B (zh) | 肿瘤患者基于甲基化位点进行分类的方法 | |
CN106399304B (zh) | 一种与乳腺癌相关的snp标记 | |
WO2023226938A1 (zh) | 甲基化生物标记物、试剂盒及用途 | |
CN112899359A (zh) | 用于肺结节良恶性检测的甲基化标记物或其组合及应用 | |
JP2023516633A (ja) | メチル化シークエンシングデータを使用したバリアントをコールするためのシステムおよび方法 | |
CN115820860A (zh) | 基于增强子甲基化差异的非小细胞肺癌标志物筛选方法及其标志物和应用 | |
CN111968702B (zh) | 一种基于循环肿瘤dna的恶性肿瘤早期筛查系统 | |
CN115976209A (zh) | 一种肺癌预测模型的训练方法以及预测装置和应用 | |
CN116403719A (zh) | 一种乳腺结节恶性鉴别诊断模型的构建方法 | |
CN110607370B (zh) | 一种用于人体肿瘤分子分型的基因组合及其应用 | |
CN116970705B (zh) | 用于尿路上皮癌基因甲基化检测的核酸产品、试剂盒及应用 | |
CN115772564B (zh) | 用于辅助检测肺癌体细胞atm基因融合突变的甲基化生物标记物及其应用 | |
CN115772566B (zh) | 用于辅助检测肺癌体细胞erbb2基因突变的甲基化生物标记物及其应用 | |
US20230323473A1 (en) | Methods for multimodal epigenetic sequencing assays | |
CN106636351A (zh) | 一种与乳腺癌相关的snp标记及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |