CN115323058A - 一种基于ctDNA甲基化模式的癌种定位方法 - Google Patents
一种基于ctDNA甲基化模式的癌种定位方法 Download PDFInfo
- Publication number
- CN115323058A CN115323058A CN202211264900.8A CN202211264900A CN115323058A CN 115323058 A CN115323058 A CN 115323058A CN 202211264900 A CN202211264900 A CN 202211264900A CN 115323058 A CN115323058 A CN 115323058A
- Authority
- CN
- China
- Prior art keywords
- dna sequence
- sequence
- ctdna
- dna
- methylation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011987 methylation Effects 0.000 title claims abstract description 85
- 238000007069 methylation reaction Methods 0.000 title claims abstract description 85
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 64
- 201000011510 cancer Diseases 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000004807 localization Effects 0.000 title claims abstract description 30
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 261
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 108020004414 DNA Proteins 0.000 claims description 30
- 238000001914 filtration Methods 0.000 claims description 17
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 claims description 8
- 108091062167 DNA cytosine Proteins 0.000 claims description 5
- 229910052799 carbon Inorganic materials 0.000 claims description 5
- 125000004432 carbon atom Chemical group C* 0.000 claims description 5
- 230000000295 complement effect Effects 0.000 claims description 5
- 230000008685 targeting Effects 0.000 claims description 5
- LRSASMSXMSNRBT-UHFFFAOYSA-N 5-methylcytosine Chemical compound CC1=CNC(=O)N=C1N LRSASMSXMSNRBT-UHFFFAOYSA-N 0.000 claims description 4
- 102000014914 Carrier Proteins Human genes 0.000 claims description 4
- 102000055027 Protein Methyltransferases Human genes 0.000 claims description 4
- 108700040121 Protein Methyltransferases Proteins 0.000 claims description 4
- MEFKEPWMEQBLKI-AIRLBKTGSA-N S-adenosyl-L-methioninate Chemical compound O[C@@H]1[C@H](O)[C@@H](C[S+](CC[C@H](N)C([O-])=O)C)O[C@H]1N1C2=NC=NC(N)=C2N=C1 MEFKEPWMEQBLKI-AIRLBKTGSA-N 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 4
- 229960001570 ademetionine Drugs 0.000 claims description 4
- 108091008324 binding proteins Proteins 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 3
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 claims description 3
- 238000001514 detection method Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- RYVNIFSIEDRLSJ-UHFFFAOYSA-N 5-(hydroxymethyl)cytosine Chemical compound NC=1NC(=O)N=CC=1CO RYVNIFSIEDRLSJ-UHFFFAOYSA-N 0.000 description 2
- 208000035657 Abasia Diseases 0.000 description 2
- 108091029430 CpG site Proteins 0.000 description 2
- 230000007067 DNA methylation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- BLQMCTXZEMGOJM-UHFFFAOYSA-N 5-carboxycytosine Chemical compound NC=1NC(=O)N=CC=1C(O)=O BLQMCTXZEMGOJM-UHFFFAOYSA-N 0.000 description 1
- 230000035131 DNA demethylation Effects 0.000 description 1
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 1
- 102000005744 Glycoside Hydrolases Human genes 0.000 description 1
- 108010031186 Glycoside Hydrolases Proteins 0.000 description 1
- 108091023045 Untranslated Region Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000017858 demethylation Effects 0.000 description 1
- 238000010520 demethylation reaction Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 230000008995 epigenetic change Effects 0.000 description 1
- 238000011528 liquid biopsy Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 239000007921 spray Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/154—Methylation markers
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Analytical Chemistry (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Zoology (AREA)
- Biotechnology (AREA)
- Wood Science & Technology (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Pathology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Oncology (AREA)
- Hospice & Palliative Care (AREA)
- Theoretical Computer Science (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及ctDNA甲基化癌种定位技术领域,揭露了一种基于ctDNA甲基化模式的癌种定位方法,包括:从参考基因组中提取ctDNA序列,记为第一DNA序列,通过导向定位对所述第一DNA序列进行处理,获取ctDNA序列的第二DNA序列;对所述第一DNA序列与第二DNA序列进行数据预处理;对所述第二DNA序列进行癌种位置进行候选,确定所述第二DNA序列的唯一位置的序列与多个位置的序列,获得所述第二DNA序列的候选集合;通过比较所述第一DNA序列与第二DNA序列,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制。本发明可解决现有方案中无法提高癌种定位准确率的技术问题。
Description
技术领域
本发明涉及ctDNA甲基化癌种定位技术领域,尤其涉及一种基于ctDNA甲基化模式的癌种定位方法、装置、电子设备及计算机可读存储介质。
背景技术
癌症患者血浆或血清中的循环肿瘤DNA(ctDNA)为肿瘤的非侵入性取样提供了机会。这种“液体活检”允许对DNA进行拷贝数变异、特异性突变以及表观遗传改变的检测,并可以进行病情实时“跟踪”,从而指导和改善癌症患者的整个诊疗过程。与检测肿瘤特异性突变相比,ctDNA在特定基因区域的异常甲基化具有高度一致的特征,使得ctDNA甲基化检测更广泛地适用于肿瘤的诊断、监测,预测治疗反应和预后判断,但是现有的癌种定位技术无法提高癌种定位准确率。
发明内容
本发明提供一种基于ctDNA甲基化模式的癌种定位方法、装置、电子设备及计算机可读存储介质,其主要目的在于可解决现有方案中无法提高癌种定位准确率的技术问题。
为实现上述目的,本发明提供的一种基于ctDNA甲基化模式的癌种定位方法,所述方法包括:
从参考基因组中提取ctDNA序列,记为第一DNA序列,通过导向定位对所述第一DNA序列进行处理,获取ctDNA序列的第二DNA序列;
对所述第一DNA序列与第二DNA序列进行数据预处理;
对所述第二DNA序列进行癌种位置进行候选,确定所述第二DNA序列的唯一位置的序列与多个位置的序列,获得所述第二DNA序列的候选集合;
通过比较所述第一DNA序列与第二DNA序列,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制,过滤所述第二DNA序列位于偏离区域的候选位置,获得所述第二DNA序列的过滤偏离候选集合;
通过所述过滤偏离候选集合确定所述第二DNA序列的最佳比对位置,对所述第二DNA序列的癌种位置进行定位。
优选地,所述通过导向定位对所述第一DNA序列进行处理,获取ctDNA序列的第二DNA序列,包括:
获取所述第一DNA序列的DNA链,将所述DNA链连接磷酸基团的一端记为5端,将所述DNA链的另一端记为3端;
对所述5端与3端进行导向定位,使所述3端的序列的保持不变,使所述5端的序列未甲基化的C转化成T,所述5端的序列甲基化的C保持不变;
获得所述ctDNA序列的第二DNA序列。
优选地,所述5端的序列甲基化,包括:是在甲基化结合蛋白和DNA甲基转移酶的作用下,由S-腺苷甲硫氨酸提供甲基,将DNA胞嘧啶5端碳原子上加入一个甲基基团,使之成为5甲基胞嘧啶。
优选地,所述对所述第一DNA序列与第二DNA序列进行数据预处理,包括:
确定所述第一DNA序列与第二DNA序列的ctDNA甲基化,根据碱基互补配对可知所述第一DNA序列与第二DNA序列的ctDNA甲基化形式为AGTG;
通过T4DNA聚合酶对所述第一DNA序列与第二DNA序列的ctDNA甲基化,寻找所述第一DNA序列与第二DNA序列的ctDNA甲基化,确定所述T4DNA聚合酶对所述第一DNA序列与第二DNA序列的ctDNA甲基化的处理边界;
对所述第一DNA序列与第二DNA序列的ctDNA甲基化进行预处理,以所述第一DNA序列与第二DNA序列最右端的TG为处理边界;
将所述第一DNA序列与第二DNA序列最右端的TG的右侧序列保留下来,作为预处理后的第一DNA序列与第二DNA序列。
优选地,所述T4DNA聚合酶用于保证第一DNA序列与所述参考基因组DNA片段一致。
优选地,所述对所述第二DNA序列进行癌种位置进行候选,确定所述第二DNA序列的唯一位置的序列与多个位置的序列,包括:
将所述第二DNA序列的ctDNA甲基化与所述参考基因组进行比对;
将所述第二DNA序列的ctDNA甲基化与所述参考基因组能够确定的唯一位置的序列记为U;
将所述第二DNA序列的ctDNA甲基化与所述参考基因组比对到的多个位置的序列记为M。
优选地,所述获得所述第二DNA序列的候选集合,包括:
将所述第二DNA序列的ctDNA甲基化比对到的多个位置的序列M集中处理;
将所述第二DNA序列的ctDNA甲基化比对到的多个位置序列的集合记为m;
优选地,所述通过比较所述第一DNA序列与第二DNA序列,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制,过滤所述第二DNA序列位于偏离区域的候选位置,获得所述第二DNA序列的过滤偏离候选集合,包括:
通过将所述第一DNA序列的位置信息作为辅助信息,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制;
优选地,所述通过所述过滤偏离候选集合确定所述第二DNA序列的最佳比对位置,对所述第二DNA序列的癌种位置进行定位,包括:
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现上述所述的一种基于ctDNA甲基化模式的癌种定位方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的一种基于ctDNA甲基化模式的癌种定位方法。
相比于背景技术所述:本发明通过对所述第一DNA序列与第二DNA序列进行数据预处理,确定所述第一DNA序列与第二DNA序列的ctDNA甲基化,根据碱基互补配对可知所述第一DNA序列与第二DNA序列的ctDNA甲基化形式为AGTG;通过T4DNA聚合酶对所述第一DNA序列与第二DNA序列的ctDNA甲基化,寻找所述第一DNA序列与第二DNA序列的ctDNA甲基化,确定所述T4DNA聚合酶对所述第一DNA序列与第二DNA序列的ctDNA甲基化的处理边界;对所述第一DNA序列与第二DNA序列的ctDNA甲基化进行预处理,以所述第一DNA序列与第二DNA序列最右端的TG为处理边界;将所述第一DNA序列与第二DNA序列最右端的TG的右侧序列保留下来,作为预处理后的第一DNA序列与第二DNA序列;对所述第二DNA序列进行癌种位置进行候选,确定所述第二DNA序列的唯一位置的序列与多个位置的序列,获得所述第二DNA序列的候选集合;通过比较所述第一DNA序列与第二DNA序列,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制,过滤所述第二DNA序列位于偏离区域的候选位置,获得所述第二DNA序列的过滤偏离候选集合,从而能够提高癌种定位的准确率,因此本发明提出的一种基于ctDNA甲基化模式的癌种定位方法、装置、电子设备及计算机可读存储介质,可以解决现有方案中无法提高癌种定位准确率的技术问题。
附图说明
图1为本发明一实施例提供的一种基于ctDNA甲基化模式的癌种定位方法的流程示意图;
图2为本发明一实施例提供第一DNA序列与第二DNA序列进行数据预处理的的示意图;
图3为本发明一实施例提供的第一DNA序列与第二DNA序列进行数据预处理的的流程示意图;
图4为本发明一实施例提供的实现所述一种基于ctDNA甲基化模式的癌种定位方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种基于ctDNA甲基化模式的癌种定位方法。所述一种基于ctDNA甲基化模式的癌种定位方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述一种基于ctDNA甲基化模式的癌种定位方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
实施例1:
参照图1所示,为本发明一实施例提供的一种基于ctDNA甲基化模式的癌种定位方法的流程示意图。在本实施例中,所述一种基于ctDNA甲基化模式的癌种定位方法包括:
请参阅图1-图3所示,本发明为一种基于ctDNA甲基化模式的癌种定位方法,具体的步骤包括:
从参考基因组中提取ctDNA序列,记为第一DNA序列,通过导向定位对所述第一DNA序列进行处理,获取ctDNA序列的第二DNA序列;
对所述第一DNA序列与第二DNA序列进行数据预处理;
对所述第二DNA序列进行癌种位置进行候选,确定所述第二DNA序列的唯一位置的序列与多个位置的序列,获得所述第二DNA序列的候选集合;
通过比较所述第一DNA序列与第二DNA序列,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制,过滤所述第二DNA序列位于偏离区域的候选位置,获得所述第二DNA序列的过滤偏离候选集合;
通过所述过滤偏离候选集合确定所述第二DNA序列的最佳比对位置,对所述第二DNA序列的癌种位置进行定位。
所述通过导向定位对所述第一DNA序列进行处理,获取ctDNA序列的第二DNA序列,包括:
获取所述第一DNA序列的DNA链,将所述DNA链连接磷酸基团的一端记为5端,将所述DNA链的另一端记为3端;
对所述5端与3端进行导向定位,使所述3端的序列的保持不变,使所述5端的序列未甲基化的C转化成T,所述5端的序列甲基化的C保持不变;
获得所述ctDNA序列的第二DNA序列。
所述5端的序列甲基化,包括:是在甲基化结合蛋白和DNA甲基转移酶的作用下,由S-腺苷甲硫氨酸提供甲基,将DNA胞嘧啶5端碳原子上加入一个甲基基团,使之成为5甲基胞嘧啶。
需要解释的是,本发明实施例中,DNA甲基化是甲基化结合蛋白和DNA甲基转移酶的作用下,由S-腺苷甲硫氨酸提供甲基,将DNA胞嘧啶5端碳原子上加入一个甲基基团,使之成为5甲基胞嘧啶;DNA甲基化主要发生在CpG和CpA/T/CpG位点,这类位点通常在基因组中成簇分布,多位于在基因的启动子区,5端非翻译区和第一个外显子区;在该DNA去甲基化途径中,DNA胞嘧啶5端碳原子在TET蛋白的作用下,逐步被氧化成5羟甲基胞嘧啶、5醛基胞嘧啶和5羧基胞嘧啶。胸腺嘧啶DNA糖苷酶能将5fC和5caC上的碱基切除,形成一个无碱基位点;随后无碱基位点通过BER途径被修复成正常的胞嘧啶,从而实现DNA的主动去甲基化。
所述对所述第一DNA序列与第二DNA序列进行数据预处理,包括:
确定所述第一DNA序列与第二DNA序列的ctDNA甲基化,根据碱基互补配对可知所述第一DNA序列与第二DNA序列的ctDNA甲基化形式为AGTG;
通过T4DNA聚合酶对所述第一DNA序列与第二DNA序列的ctDNA甲基化,寻找所述第一DNA序列与第二DNA序列的ctDNA甲基化,确定所述T4DNA聚合酶对所述第一DNA序列与第二DNA序列的ctDNA甲基化的处理边界;
需要解释的是,本发明实施例中,需要用到T4DNA聚合酶处理基因片段,从而保证第一DNA序列和原始DNA片段一致,最后获取第一DNA序列与第二DNA序列。但T4DNA聚合酶可能产生处理不足或过度处理的现象,直接影响获取数据的准确性,影响比对的效率.所以需要找到第一DNA序列与第二DNA序列处理的边界,进而对数据进行预处理。
对所述第一DNA序列与第二DNA序列的ctDNA甲基化进行预处理,以所述第一DNA序列与第二DNA序列最右端的TG为处理边界;
需要解释的是,本发明实施例中,ctDNA甲基化应注意样本收集的时间点,如治疗前后对比来评估疗效,甚至治疗全程多时间点依次收集样本来监测病程。ctDNA在血液中半衰期较短,其甲基化动力学变化应纳入考虑。技术进步使得检测数万个CpG位点成为可能,但是全基因组ctDNA甲基化检测技术对生物信息学提出了更高的要求。
将所述第一DNA序列与第二DNA序列最右端的TG的右侧序列保留下来,作为预处理后的第一DNA序列与第二DNA序列。
所述T4DNA聚合酶用于保证第一DNA序列与所述参考基因组DNA片段一致。
所述对所述第二DNA序列进行癌种位置进行候选,确定所述第二DNA序列的唯一位置的序列与多个位置的序列,包括:
将所述第二DNA序列的ctDNA甲基化与所述参考基因组进行比对;
将所述第二DNA序列的ctDNA甲基化与所述参考基因组能够确定的唯一位置的序列记为U;
将所述第二DNA序列的ctDNA甲基化与所述参考基因组比对到的多个位置的序列记为M。
所述获得所述第二DNA序列的候选集合,包括:
将所述第二DNA序列的ctDNA甲基化比对到的多个位置的序列M集中处理;
将所述第二DNA序列的ctDNA甲基化比对到的多个位置序列的集合记为m;
所述通过比较所述第一DNA序列与第二DNA序列,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制,过滤所述第二DNA序列位于偏离区域的候选位置,获得所述第二DNA序列的过滤偏离候选集合,包括:
通过将所述第一DNA序列的位置信息作为辅助信息,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制;
需要解释的是,本发明实施例中,第二DNA序列位于第一DNA序列下游的相反链上,且距离相差不超过1000bp,所以将所述第一DNA序列的位置信息作为辅助信息。
所述通过所述过滤偏离候选集合确定所述第二DNA序列的最佳比对位置,对所述第二DNA序列的癌种位置进行定位,包括:
相比于背景技术所述:本发明通过对所述第一DNA序列与第二DNA序列进行数据预处理,确定所述第一DNA序列与第二DNA序列的ctDNA甲基化,根据碱基互补配对可知所述第一DNA序列与第二DNA序列的ctDNA甲基化形式为AGTG;通过T4DNA聚合酶对所述第一DNA序列与第二DNA序列的ctDNA甲基化,寻找所述第一DNA序列与第二DNA序列的ctDNA甲基化,确定所述T4DNA聚合酶对所述第一DNA序列与第二DNA序列的ctDNA甲基化的处理边界;对所述第一DNA序列与第二DNA序列的ctDNA甲基化进行预处理,以所述第一DNA序列与第二DNA序列最右端的TG为处理边界;将所述第一DNA序列与第二DNA序列最右端的TG的右侧序列保留下来,作为预处理后的第一DNA序列与第二DNA序列;对所述第二DNA序列进行癌种位置进行候选,确定所述第二DNA序列的唯一位置的序列与多个位置的序列,获得所述第二DNA序列的候选集合;通过比较所述第一DNA序列与第二DNA序列,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制,过滤所述第二DNA序列位于偏离区域的候选位置,获得所述第二DNA序列的过滤偏离候选集合,从而能够提高癌种定位的准确率,因此本发明提出的一种基于ctDNA甲基化模式的癌种定位方法、装置、电子设备及计算机可读存储介质,可以解决现有方案中无法提高癌种定位准确率的技术问题。
实施例2:
如图4所示,是本发明一实施例提供的实现一种基于ctDNA甲基化模式的癌种定位方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如一种盐雾试验箱PH校准程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(SmartMediaCard,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(FlashCard)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于ctDNA甲基化模式的癌种定位程序12的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(CentralProcessingunit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如基于ctDNA甲基化模式的癌种定位程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheralcomponentinterconnect,简称PCI)总线或扩展工业标准结构(extendedindustrystandardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图4仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图4示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(OrganicLight-EmittingDiode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的基于ctDNA甲基化模式的癌种定位程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
从参考基因组中提取ctDNA序列,记为第一DNA序列,通过导向定位对所述第一DNA序列进行处理,获取ctDNA序列的第二DNA序列;
对所述第一DNA序列与第二DNA序列进行数据预处理;
对所述第二DNA序列进行癌种位置进行候选,确定所述第二DNA序列的唯一位置的序列与多个位置的序列,获得所述第二DNA序列的候选集合;
通过比较所述第一DNA序列与第二DNA序列,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制,过滤所述第二DNA序列位于偏离区域的候选位置,获得所述第二DNA序列的过滤偏离候选集合;
通过所述过滤偏离候选集合确定所述第二DNA序列的最佳比对位置,对所述第二DNA序列的癌种位置进行定位。
具体地,所述处理器10对上述指令的具体实现方法可参考图1至图4对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (9)
1.一种基于ctDNA甲基化模式的癌种定位方法,其特征在于,所述方法包括:
从参考基因组中提取ctDNA序列,记为第一DNA序列,通过导向定位对所述第一DNA序列进行处理,获取ctDNA序列的第二DNA序列;
对所述第一DNA序列与第二DNA序列进行数据预处理;
对所述第二DNA序列进行癌种位置进行候选,确定所述第二DNA序列的唯一位置的序列与多个位置的序列,获得所述第二DNA序列的候选集合;
通过比较所述第一DNA序列与第二DNA序列,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制,过滤所述第二DNA序列位于偏离区域的候选位置,获得所述第二DNA序列的过滤偏离候选集合;
通过所述过滤偏离候选集合确定所述第二DNA序列的最佳比对位置,对所述第二DNA序列的癌种位置进行定位。
2.如权利要求1所述的一种基于ctDNA甲基化模式的癌种定位方法,其特征在于,所述通过导向定位对所述第一DNA序列进行处理,获取ctDNA序列的第二DNA序列,包括:
获取所述第一DNA序列的DNA链,将所述DNA链连接磷酸基团的一端记为5端,将所述DNA链的另一端记为3端;
对所述5端与3端进行导向定位,使所述3端的序列的保持不变,使所述5端的序列未甲基化的C转化成T,所述5端的序列甲基化的C保持不变;
获得所述ctDNA序列的第二DNA序列。
3.如权利要求2所述的一种基于ctDNA甲基化模式的癌种定位方法,其特征在于,所述5端的序列甲基化,包括:是在甲基化结合蛋白和DNA甲基转移酶的作用下,由S-腺苷甲硫氨酸提供甲基,将DNA胞嘧啶5端碳原子上加入一个甲基基团,使之成为5甲基胞嘧啶。
4.如权利要求1所述的一种基于ctDNA甲基化模式的癌种定位方法,其特征在于,所述对所述第一DNA序列与第二DNA序列进行数据预处理,包括:
确定所述第一DNA序列与第二DNA序列的ctDNA甲基化,根据碱基互补配对可知所述第一DNA序列与第二DNA序列的ctDNA甲基化形式为AGTG;
通过T4DNA聚合酶对所述第一DNA序列与第二DNA序列的ctDNA甲基化,寻找所述第一DNA序列与第二DNA序列的ctDNA甲基化,确定所述T4DNA聚合酶对所述第一DNA序列与第二DNA序列的ctDNA甲基化的处理边界;
对所述第一DNA序列与第二DNA序列的ctDNA甲基化进行预处理,以所述第一DNA序列与第二DNA序列最右端的TG为处理边界;
将所述第一DNA序列与第二DNA序列最右端的TG的右侧序列保留下来,作为预处理后的第一DNA序列与第二DNA序列。
5.如权利要求4所述的一种基于ctDNA甲基化模式的癌种定位方法,其特征在于,所述T4DNA聚合酶用于保证第一DNA序列与所述参考基因组DNA片段一致。
6.如权利要求1所述的一种基于ctDNA甲基化模式的癌种定位方法,其特征在于,所述对所述第二DNA序列进行癌种位置进行候选,确定所述第二DNA序列的唯一位置的序列与多个位置的序列,包括:
将所述第二DNA序列的ctDNA甲基化与所述参考基因组进行比对;
将所述第二DNA序列的ctDNA甲基化与所述参考基因组能够确定的唯一位置的序列记为U;
将所述第二DNA序列的ctDNA甲基化与所述参考基因组比对到的多个位置的序列记为M。
8.如权利要求7所述的一种基于ctDNA甲基化模式的癌种定位方法,其特征在于,所述通过比较所述第一DNA序列与第二DNA序列,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制,过滤所述第二DNA序列位于偏离区域的候选位置,获得所述第二DNA序列的过滤偏离候选集合,包括:
通过将所述第一DNA序列的位置信息作为辅助信息,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211264900.8A CN115323058A (zh) | 2022-10-17 | 2022-10-17 | 一种基于ctDNA甲基化模式的癌种定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211264900.8A CN115323058A (zh) | 2022-10-17 | 2022-10-17 | 一种基于ctDNA甲基化模式的癌种定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115323058A true CN115323058A (zh) | 2022-11-11 |
Family
ID=83915434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211264900.8A Pending CN115323058A (zh) | 2022-10-17 | 2022-10-17 | 一种基于ctDNA甲基化模式的癌种定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115323058A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114045342A (zh) * | 2021-12-01 | 2022-02-15 | 大连晶泰生物技术有限公司 | 一种游离DNA(cfDNA)甲基化突变的检测方法及试剂盒 |
CN115064211A (zh) * | 2022-08-15 | 2022-09-16 | 臻和(北京)生物科技有限公司 | 一种基于全基因组甲基化测序的ctDNA预测方法及其应用 |
CN115132274A (zh) * | 2022-09-01 | 2022-09-30 | 臻和(北京)生物科技有限公司 | 循环无细胞dna转录因子结合位点的甲基化水平分析方法及装置 |
-
2022
- 2022-10-17 CN CN202211264900.8A patent/CN115323058A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114045342A (zh) * | 2021-12-01 | 2022-02-15 | 大连晶泰生物技术有限公司 | 一种游离DNA(cfDNA)甲基化突变的检测方法及试剂盒 |
CN115064211A (zh) * | 2022-08-15 | 2022-09-16 | 臻和(北京)生物科技有限公司 | 一种基于全基因组甲基化测序的ctDNA预测方法及其应用 |
CN115132274A (zh) * | 2022-09-01 | 2022-09-30 | 臻和(北京)生物科技有限公司 | 循环无细胞dna转录因子结合位点的甲基化水平分析方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lopez-Rincon et al. | Automatic discovery of 100-miRNA signature for cancer classification using ensemble feature selection | |
US11193175B2 (en) | Normalizing tumor mutation burden | |
EP3573066B1 (en) | Methods for analyzing massively parallel sequencing data for noninvasive prenatal diagnosis | |
AU2023204088A1 (en) | Methods for multi-resolution analysis of cell-free nucleic acids | |
Zhang et al. | Detecting false expression signals in high-density oligonucleotide arrays by an in silico approach | |
Xu et al. | Identification of glioblastoma gene prognosis modules based on weighted gene co-expression network analysis | |
EP3271848A1 (en) | Systems and methods for analyzing nucleic acid | |
CN112927755B (zh) | 一种鉴定cfDNA变异来源的方法和系统 | |
US11728007B2 (en) | Methods and systems for analyzing nucleic acid sequences using mappability analysis and de novo sequence assembly | |
CN117413072A (zh) | 用于通过核酸甲基化分析检测癌症的方法和系统 | |
Bonizzoni et al. | ASPIC: a novel method to predict the exon-intron structure of a gene that is optimally compatible to a set of transcript sequences | |
Orlov et al. | Quality assessment of the Affymetrix U133A&B probesets by target sequence mapping and expression data analysis | |
Mitra et al. | Systems biology of cancer biomarker detection | |
CN114974412A (zh) | 生成目标对象的肿瘤检测数据的方法、设备和介质 | |
US20180106806A1 (en) | Tumor Analytical Methods | |
CN115323058A (zh) | 一种基于ctDNA甲基化模式的癌种定位方法 | |
CN114596968B (zh) | 多重pcr引物设计方法和装置 | |
CN118098378B (zh) | 一种识别肝细胞肝癌新亚型的基因模型构建方法及应用 | |
WO2019129200A1 (zh) | 一种c位点提取方法及装置 | |
CN115148285B (zh) | 信息筛选方法、装置、电子设备、介质和程序产品 | |
George et al. | Transcriptome sequencing for precise and accurate measurement of transcripts and accessibility of TCGA for cancer datasets and analysis | |
US12014831B2 (en) | Approaches to reducing dimensionality of genetic information used for machine learning and systems for implementing the same | |
CN115410649B (zh) | 一种同时检测甲基化和突变信息的方法及装置 | |
US20230274794A1 (en) | Multiclass classification model for stratifying patients among multiple cancer types based on analysis of genetic information and systems for implementing the same | |
CN106407746A (zh) | 呼吸系统对应的基因的突变位点的获取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |