CN115323058A - 一种基于ctDNA甲基化模式的癌种定位方法 - Google Patents

一种基于ctDNA甲基化模式的癌种定位方法 Download PDF

Info

Publication number
CN115323058A
CN115323058A CN202211264900.8A CN202211264900A CN115323058A CN 115323058 A CN115323058 A CN 115323058A CN 202211264900 A CN202211264900 A CN 202211264900A CN 115323058 A CN115323058 A CN 115323058A
Authority
CN
China
Prior art keywords
dna sequence
sequence
ctdna
dna
methylation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211264900.8A
Other languages
English (en)
Inventor
崔品
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ruifa Biotechnology Co ltd
Original Assignee
Shenzhen Ruifa Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ruifa Biotechnology Co ltd filed Critical Shenzhen Ruifa Biotechnology Co ltd
Priority to CN202211264900.8A priority Critical patent/CN115323058A/zh
Publication of CN115323058A publication Critical patent/CN115323058A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Zoology (AREA)
  • Biotechnology (AREA)
  • Wood Science & Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Pathology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Theoretical Computer Science (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及ctDNA甲基化癌种定位技术领域,揭露了一种基于ctDNA甲基化模式的癌种定位方法,包括:从参考基因组中提取ctDNA序列,记为第一DNA序列,通过导向定位对所述第一DNA序列进行处理,获取ctDNA序列的第二DNA序列;对所述第一DNA序列与第二DNA序列进行数据预处理;对所述第二DNA序列进行癌种位置进行候选,确定所述第二DNA序列的唯一位置的序列与多个位置的序列,获得所述第二DNA序列的候选集合;通过比较所述第一DNA序列与第二DNA序列,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制。本发明可解决现有方案中无法提高癌种定位准确率的技术问题。

Description

一种基于ctDNA甲基化模式的癌种定位方法
技术领域
本发明涉及ctDNA甲基化癌种定位技术领域,尤其涉及一种基于ctDNA甲基化模式的癌种定位方法、装置、电子设备及计算机可读存储介质。
背景技术
癌症患者血浆或血清中的循环肿瘤DNA(ctDNA)为肿瘤的非侵入性取样提供了机会。这种“液体活检”允许对DNA进行拷贝数变异、特异性突变以及表观遗传改变的检测,并可以进行病情实时“跟踪”,从而指导和改善癌症患者的整个诊疗过程。与检测肿瘤特异性突变相比,ctDNA在特定基因区域的异常甲基化具有高度一致的特征,使得ctDNA甲基化检测更广泛地适用于肿瘤的诊断、监测,预测治疗反应和预后判断,但是现有的癌种定位技术无法提高癌种定位准确率。
发明内容
本发明提供一种基于ctDNA甲基化模式的癌种定位方法、装置、电子设备及计算机可读存储介质,其主要目的在于可解决现有方案中无法提高癌种定位准确率的技术问题。
为实现上述目的,本发明提供的一种基于ctDNA甲基化模式的癌种定位方法,所述方法包括:
从参考基因组中提取ctDNA序列,记为第一DNA序列,通过导向定位对所述第一DNA序列进行处理,获取ctDNA序列的第二DNA序列;
对所述第一DNA序列与第二DNA序列进行数据预处理;
对所述第二DNA序列进行癌种位置进行候选,确定所述第二DNA序列的唯一位置的序列与多个位置的序列,获得所述第二DNA序列的候选集合;
通过比较所述第一DNA序列与第二DNA序列,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制,过滤所述第二DNA序列位于偏离区域的候选位置,获得所述第二DNA序列的过滤偏离候选集合;
通过所述过滤偏离候选集合确定所述第二DNA序列的最佳比对位置,对所述第二DNA序列的癌种位置进行定位。
优选地,所述通过导向定位对所述第一DNA序列进行处理,获取ctDNA序列的第二DNA序列,包括:
获取所述第一DNA序列的DNA链,将所述DNA链连接磷酸基团的一端记为5端,将所述DNA链的另一端记为3端;
对所述5端与3端进行导向定位,使所述3端的序列的保持不变,使所述5端的序列未甲基化的C转化成T,所述5端的序列甲基化的C保持不变;
获得所述ctDNA序列的第二DNA序列。
优选地,所述5端的序列甲基化,包括:是在甲基化结合蛋白和DNA甲基转移酶的作用下,由S-腺苷甲硫氨酸提供甲基,将DNA胞嘧啶5端碳原子上加入一个甲基基团,使之成为5甲基胞嘧啶。
优选地,所述对所述第一DNA序列与第二DNA序列进行数据预处理,包括:
确定所述第一DNA序列与第二DNA序列的ctDNA甲基化,根据碱基互补配对可知所述第一DNA序列与第二DNA序列的ctDNA甲基化形式为AGTG;
通过T4DNA聚合酶对所述第一DNA序列与第二DNA序列的ctDNA甲基化,寻找所述第一DNA序列与第二DNA序列的ctDNA甲基化,确定所述T4DNA聚合酶对所述第一DNA序列与第二DNA序列的ctDNA甲基化的处理边界;
对所述第一DNA序列与第二DNA序列的ctDNA甲基化进行预处理,以所述第一DNA序列与第二DNA序列最右端的TG为处理边界;
将所述第一DNA序列与第二DNA序列最右端的TG的右侧序列保留下来,作为预处理后的第一DNA序列与第二DNA序列。
优选地,所述T4DNA聚合酶用于保证第一DNA序列与所述参考基因组DNA片段一致。
优选地,所述对所述第二DNA序列进行癌种位置进行候选,确定所述第二DNA序列的唯一位置的序列与多个位置的序列,包括:
将所述第二DNA序列的ctDNA甲基化与所述参考基因组进行比对;
将所述第二DNA序列的ctDNA甲基化与所述参考基因组能够确定的唯一位置的序列记为U;
将所述第二DNA序列的ctDNA甲基化与所述参考基因组比对到的多个位置的序列记为M。
优选地,所述获得所述第二DNA序列的候选集合,包括:
将所述第二DNA序列的ctDNA甲基化比对到的多个位置的序列M集中处理;
将所述第二DNA序列的ctDNA甲基化比对到的多个位置序列的集合记为m;
根据所述第二DNA序列的ctDNA甲基化比对到的多个位置序列的集合获得所述第 二DNA序列的候选集合
Figure 100002_DEST_PATH_IMAGE001
,表达式为:
Figure 100002_DEST_PATH_IMAGE003
其中,
Figure 216847DEST_PATH_IMAGE004
为集合
Figure 100002_DEST_PATH_IMAGE005
中的一条序列,
Figure 720641DEST_PATH_IMAGE006
为候选位置的个数,
Figure 100002_DEST_PATH_IMAGE007
为第1 至n候选位置的个数上的序列。
优选地,所述通过比较所述第一DNA序列与第二DNA序列,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制,过滤所述第二DNA序列位于偏离区域的候选位置,获得所述第二DNA序列的过滤偏离候选集合,包括:
通过将所述第一DNA序列的位置信息作为辅助信息,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制;
过滤所述第二DNA序列位于偏离区域的候选位置,根据所述
Figure 971711DEST_PATH_IMAGE004
相对应的另一端序 列是
Figure 738810DEST_PATH_IMAGE008
,将
Figure 657087DEST_PATH_IMAGE008
比对到所述参考基因组上,获得所述第二DNA序列的过滤偏离候选集合
Figure 100002_DEST_PATH_IMAGE009
,表达式为:
Figure 100002_DEST_PATH_IMAGE011
其中,
Figure 167834DEST_PATH_IMAGE012
为候选位置的个数,
Figure 100002_DEST_PATH_IMAGE013
为1至m个候选位置的个 数上的序列。
优选地,所述通过所述过滤偏离候选集合确定所述第二DNA序列的最佳比对位置,对所述第二DNA序列的癌种位置进行定位,包括:
将所述候选集合与所述过滤偏离候选集合中相对应的
Figure 996113DEST_PATH_IMAGE014
Figure 100002_DEST_PATH_IMAGE015
利用所述候选集合与所述过滤偏离候选集合中相对应的
Figure 730851DEST_PATH_IMAGE014
Figure 480632DEST_PATH_IMAGE015
之间的信息, 定位癌种位置,表达式为:
Figure 100002_DEST_PATH_IMAGE017
其中,第二DNA序列的ctDNA甲基化第一个癌种的位置为
Figure 857387DEST_PATH_IMAGE018
Figure 100002_DEST_PATH_IMAGE019
为第二DNA序列的 ctDNA甲基化第
Figure 336909DEST_PATH_IMAGE020
个癌种的位置。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现上述所述的一种基于ctDNA甲基化模式的癌种定位方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的一种基于ctDNA甲基化模式的癌种定位方法。
相比于背景技术所述:本发明通过对所述第一DNA序列与第二DNA序列进行数据预处理,确定所述第一DNA序列与第二DNA序列的ctDNA甲基化,根据碱基互补配对可知所述第一DNA序列与第二DNA序列的ctDNA甲基化形式为AGTG;通过T4DNA聚合酶对所述第一DNA序列与第二DNA序列的ctDNA甲基化,寻找所述第一DNA序列与第二DNA序列的ctDNA甲基化,确定所述T4DNA聚合酶对所述第一DNA序列与第二DNA序列的ctDNA甲基化的处理边界;对所述第一DNA序列与第二DNA序列的ctDNA甲基化进行预处理,以所述第一DNA序列与第二DNA序列最右端的TG为处理边界;将所述第一DNA序列与第二DNA序列最右端的TG的右侧序列保留下来,作为预处理后的第一DNA序列与第二DNA序列;对所述第二DNA序列进行癌种位置进行候选,确定所述第二DNA序列的唯一位置的序列与多个位置的序列,获得所述第二DNA序列的候选集合;通过比较所述第一DNA序列与第二DNA序列,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制,过滤所述第二DNA序列位于偏离区域的候选位置,获得所述第二DNA序列的过滤偏离候选集合,从而能够提高癌种定位的准确率,因此本发明提出的一种基于ctDNA甲基化模式的癌种定位方法、装置、电子设备及计算机可读存储介质,可以解决现有方案中无法提高癌种定位准确率的技术问题。
附图说明
图1为本发明一实施例提供的一种基于ctDNA甲基化模式的癌种定位方法的流程示意图;
图2为本发明一实施例提供第一DNA序列与第二DNA序列进行数据预处理的的示意图;
图3为本发明一实施例提供的第一DNA序列与第二DNA序列进行数据预处理的的流程示意图;
图4为本发明一实施例提供的实现所述一种基于ctDNA甲基化模式的癌种定位方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种基于ctDNA甲基化模式的癌种定位方法。所述一种基于ctDNA甲基化模式的癌种定位方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述一种基于ctDNA甲基化模式的癌种定位方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
实施例1:
参照图1所示,为本发明一实施例提供的一种基于ctDNA甲基化模式的癌种定位方法的流程示意图。在本实施例中,所述一种基于ctDNA甲基化模式的癌种定位方法包括:
请参阅图1-图3所示,本发明为一种基于ctDNA甲基化模式的癌种定位方法,具体的步骤包括:
从参考基因组中提取ctDNA序列,记为第一DNA序列,通过导向定位对所述第一DNA序列进行处理,获取ctDNA序列的第二DNA序列;
对所述第一DNA序列与第二DNA序列进行数据预处理;
对所述第二DNA序列进行癌种位置进行候选,确定所述第二DNA序列的唯一位置的序列与多个位置的序列,获得所述第二DNA序列的候选集合;
通过比较所述第一DNA序列与第二DNA序列,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制,过滤所述第二DNA序列位于偏离区域的候选位置,获得所述第二DNA序列的过滤偏离候选集合;
通过所述过滤偏离候选集合确定所述第二DNA序列的最佳比对位置,对所述第二DNA序列的癌种位置进行定位。
所述通过导向定位对所述第一DNA序列进行处理,获取ctDNA序列的第二DNA序列,包括:
获取所述第一DNA序列的DNA链,将所述DNA链连接磷酸基团的一端记为5端,将所述DNA链的另一端记为3端;
对所述5端与3端进行导向定位,使所述3端的序列的保持不变,使所述5端的序列未甲基化的C转化成T,所述5端的序列甲基化的C保持不变;
获得所述ctDNA序列的第二DNA序列。
所述5端的序列甲基化,包括:是在甲基化结合蛋白和DNA甲基转移酶的作用下,由S-腺苷甲硫氨酸提供甲基,将DNA胞嘧啶5端碳原子上加入一个甲基基团,使之成为5甲基胞嘧啶。
需要解释的是,本发明实施例中,DNA甲基化是甲基化结合蛋白和DNA甲基转移酶的作用下,由S-腺苷甲硫氨酸提供甲基,将DNA胞嘧啶5端碳原子上加入一个甲基基团,使之成为5甲基胞嘧啶;DNA甲基化主要发生在CpG和CpA/T/CpG位点,这类位点通常在基因组中成簇分布,多位于在基因的启动子区,5端非翻译区和第一个外显子区;在该DNA去甲基化途径中,DNA胞嘧啶5端碳原子在TET蛋白的作用下,逐步被氧化成5羟甲基胞嘧啶、5醛基胞嘧啶和5羧基胞嘧啶。胸腺嘧啶DNA糖苷酶能将5fC和5caC上的碱基切除,形成一个无碱基位点;随后无碱基位点通过BER途径被修复成正常的胞嘧啶,从而实现DNA的主动去甲基化。
所述对所述第一DNA序列与第二DNA序列进行数据预处理,包括:
确定所述第一DNA序列与第二DNA序列的ctDNA甲基化,根据碱基互补配对可知所述第一DNA序列与第二DNA序列的ctDNA甲基化形式为AGTG;
通过T4DNA聚合酶对所述第一DNA序列与第二DNA序列的ctDNA甲基化,寻找所述第一DNA序列与第二DNA序列的ctDNA甲基化,确定所述T4DNA聚合酶对所述第一DNA序列与第二DNA序列的ctDNA甲基化的处理边界;
需要解释的是,本发明实施例中,需要用到T4DNA聚合酶处理基因片段,从而保证第一DNA序列和原始DNA片段一致,最后获取第一DNA序列与第二DNA序列。但T4DNA聚合酶可能产生处理不足或过度处理的现象,直接影响获取数据的准确性,影响比对的效率.所以需要找到第一DNA序列与第二DNA序列处理的边界,进而对数据进行预处理。
对所述第一DNA序列与第二DNA序列的ctDNA甲基化进行预处理,以所述第一DNA序列与第二DNA序列最右端的TG为处理边界;
需要解释的是,本发明实施例中,ctDNA甲基化应注意样本收集的时间点,如治疗前后对比来评估疗效,甚至治疗全程多时间点依次收集样本来监测病程。ctDNA在血液中半衰期较短,其甲基化动力学变化应纳入考虑。技术进步使得检测数万个CpG位点成为可能,但是全基因组ctDNA甲基化检测技术对生物信息学提出了更高的要求。
将所述第一DNA序列与第二DNA序列最右端的TG的右侧序列保留下来,作为预处理后的第一DNA序列与第二DNA序列。
所述T4DNA聚合酶用于保证第一DNA序列与所述参考基因组DNA片段一致。
所述对所述第二DNA序列进行癌种位置进行候选,确定所述第二DNA序列的唯一位置的序列与多个位置的序列,包括:
将所述第二DNA序列的ctDNA甲基化与所述参考基因组进行比对;
将所述第二DNA序列的ctDNA甲基化与所述参考基因组能够确定的唯一位置的序列记为U;
将所述第二DNA序列的ctDNA甲基化与所述参考基因组比对到的多个位置的序列记为M。
所述获得所述第二DNA序列的候选集合,包括:
将所述第二DNA序列的ctDNA甲基化比对到的多个位置的序列M集中处理;
将所述第二DNA序列的ctDNA甲基化比对到的多个位置序列的集合记为m;
根据所述第二DNA序列的ctDNA甲基化比对到的多个位置序列的集合获得所述第 二DNA序列的候选集合
Figure 39286DEST_PATH_IMAGE001
,表达式为:
Figure 541943DEST_PATH_IMAGE003
其中,
Figure 456809DEST_PATH_IMAGE004
为集合
Figure 853156DEST_PATH_IMAGE005
中的一条序列,
Figure 398538DEST_PATH_IMAGE006
为候选位置的个数,
Figure 513124DEST_PATH_IMAGE007
为第1 至n候选位置的个数上的序列。
所述通过比较所述第一DNA序列与第二DNA序列,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制,过滤所述第二DNA序列位于偏离区域的候选位置,获得所述第二DNA序列的过滤偏离候选集合,包括:
通过将所述第一DNA序列的位置信息作为辅助信息,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制;
需要解释的是,本发明实施例中,第二DNA序列位于第一DNA序列下游的相反链上,且距离相差不超过1000bp,所以将所述第一DNA序列的位置信息作为辅助信息。
过滤所述第二DNA序列位于偏离区域的候选位置,根据所述
Figure 169364DEST_PATH_IMAGE004
相对应的另一端序 列是
Figure 420217DEST_PATH_IMAGE008
,将
Figure 136500DEST_PATH_IMAGE008
比对到所述参考基因组上,获得所述第二DNA序列的过滤偏离候选集合
Figure 738383DEST_PATH_IMAGE009
,表达式为:
Figure 198314DEST_PATH_IMAGE011
其中,
Figure 569253DEST_PATH_IMAGE012
为候选位置的个数,
Figure 456437DEST_PATH_IMAGE013
为1至m个候选位置的个 数上的序列。
所述通过所述过滤偏离候选集合确定所述第二DNA序列的最佳比对位置,对所述第二DNA序列的癌种位置进行定位,包括:
将所述候选集合与所述过滤偏离候选集合中相对应的
Figure 280037DEST_PATH_IMAGE014
Figure 340397DEST_PATH_IMAGE015
利用所述候选集合与所述过滤偏离候选集合中相对应的
Figure 441208DEST_PATH_IMAGE014
Figure 623928DEST_PATH_IMAGE015
之间的信息, 定位癌种位置,表达式为:
Figure DEST_PATH_IMAGE021
其中,第二DNA序列的ctDNA甲基化第一个癌种的位置为
Figure 606927DEST_PATH_IMAGE018
Figure 408661DEST_PATH_IMAGE019
为第二DNA序列的 ctDNA甲基化第
Figure 223033DEST_PATH_IMAGE020
个癌种的位置。
需要解释的是,本发明实施例中,通过计算1-
Figure 717600DEST_PATH_IMAGE020
个位置的每个位置的可能性,最后 选取候选集合中相对应信息最高的位置为癌种的定位的位置。
相比于背景技术所述:本发明通过对所述第一DNA序列与第二DNA序列进行数据预处理,确定所述第一DNA序列与第二DNA序列的ctDNA甲基化,根据碱基互补配对可知所述第一DNA序列与第二DNA序列的ctDNA甲基化形式为AGTG;通过T4DNA聚合酶对所述第一DNA序列与第二DNA序列的ctDNA甲基化,寻找所述第一DNA序列与第二DNA序列的ctDNA甲基化,确定所述T4DNA聚合酶对所述第一DNA序列与第二DNA序列的ctDNA甲基化的处理边界;对所述第一DNA序列与第二DNA序列的ctDNA甲基化进行预处理,以所述第一DNA序列与第二DNA序列最右端的TG为处理边界;将所述第一DNA序列与第二DNA序列最右端的TG的右侧序列保留下来,作为预处理后的第一DNA序列与第二DNA序列;对所述第二DNA序列进行癌种位置进行候选,确定所述第二DNA序列的唯一位置的序列与多个位置的序列,获得所述第二DNA序列的候选集合;通过比较所述第一DNA序列与第二DNA序列,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制,过滤所述第二DNA序列位于偏离区域的候选位置,获得所述第二DNA序列的过滤偏离候选集合,从而能够提高癌种定位的准确率,因此本发明提出的一种基于ctDNA甲基化模式的癌种定位方法、装置、电子设备及计算机可读存储介质,可以解决现有方案中无法提高癌种定位准确率的技术问题。
实施例2:
如图4所示,是本发明一实施例提供的实现一种基于ctDNA甲基化模式的癌种定位方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如一种盐雾试验箱PH校准程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(SmartMediaCard,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(FlashCard)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于ctDNA甲基化模式的癌种定位程序12的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(CentralProcessingunit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如基于ctDNA甲基化模式的癌种定位程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheralcomponentinterconnect,简称PCI)总线或扩展工业标准结构(extendedindustrystandardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图4仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图4示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(OrganicLight-EmittingDiode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的基于ctDNA甲基化模式的癌种定位程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
从参考基因组中提取ctDNA序列,记为第一DNA序列,通过导向定位对所述第一DNA序列进行处理,获取ctDNA序列的第二DNA序列;
对所述第一DNA序列与第二DNA序列进行数据预处理;
对所述第二DNA序列进行癌种位置进行候选,确定所述第二DNA序列的唯一位置的序列与多个位置的序列,获得所述第二DNA序列的候选集合;
通过比较所述第一DNA序列与第二DNA序列,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制,过滤所述第二DNA序列位于偏离区域的候选位置,获得所述第二DNA序列的过滤偏离候选集合;
通过所述过滤偏离候选集合确定所述第二DNA序列的最佳比对位置,对所述第二DNA序列的癌种位置进行定位。
具体地,所述处理器10对上述指令的具体实现方法可参考图1至图4对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (9)

1.一种基于ctDNA甲基化模式的癌种定位方法,其特征在于,所述方法包括:
从参考基因组中提取ctDNA序列,记为第一DNA序列,通过导向定位对所述第一DNA序列进行处理,获取ctDNA序列的第二DNA序列;
对所述第一DNA序列与第二DNA序列进行数据预处理;
对所述第二DNA序列进行癌种位置进行候选,确定所述第二DNA序列的唯一位置的序列与多个位置的序列,获得所述第二DNA序列的候选集合;
通过比较所述第一DNA序列与第二DNA序列,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制,过滤所述第二DNA序列位于偏离区域的候选位置,获得所述第二DNA序列的过滤偏离候选集合;
通过所述过滤偏离候选集合确定所述第二DNA序列的最佳比对位置,对所述第二DNA序列的癌种位置进行定位。
2.如权利要求1所述的一种基于ctDNA甲基化模式的癌种定位方法,其特征在于,所述通过导向定位对所述第一DNA序列进行处理,获取ctDNA序列的第二DNA序列,包括:
获取所述第一DNA序列的DNA链,将所述DNA链连接磷酸基团的一端记为5端,将所述DNA链的另一端记为3端;
对所述5端与3端进行导向定位,使所述3端的序列的保持不变,使所述5端的序列未甲基化的C转化成T,所述5端的序列甲基化的C保持不变;
获得所述ctDNA序列的第二DNA序列。
3.如权利要求2所述的一种基于ctDNA甲基化模式的癌种定位方法,其特征在于,所述5端的序列甲基化,包括:是在甲基化结合蛋白和DNA甲基转移酶的作用下,由S-腺苷甲硫氨酸提供甲基,将DNA胞嘧啶5端碳原子上加入一个甲基基团,使之成为5甲基胞嘧啶。
4.如权利要求1所述的一种基于ctDNA甲基化模式的癌种定位方法,其特征在于,所述对所述第一DNA序列与第二DNA序列进行数据预处理,包括:
确定所述第一DNA序列与第二DNA序列的ctDNA甲基化,根据碱基互补配对可知所述第一DNA序列与第二DNA序列的ctDNA甲基化形式为AGTG;
通过T4DNA聚合酶对所述第一DNA序列与第二DNA序列的ctDNA甲基化,寻找所述第一DNA序列与第二DNA序列的ctDNA甲基化,确定所述T4DNA聚合酶对所述第一DNA序列与第二DNA序列的ctDNA甲基化的处理边界;
对所述第一DNA序列与第二DNA序列的ctDNA甲基化进行预处理,以所述第一DNA序列与第二DNA序列最右端的TG为处理边界;
将所述第一DNA序列与第二DNA序列最右端的TG的右侧序列保留下来,作为预处理后的第一DNA序列与第二DNA序列。
5.如权利要求4所述的一种基于ctDNA甲基化模式的癌种定位方法,其特征在于,所述T4DNA聚合酶用于保证第一DNA序列与所述参考基因组DNA片段一致。
6.如权利要求1所述的一种基于ctDNA甲基化模式的癌种定位方法,其特征在于,所述对所述第二DNA序列进行癌种位置进行候选,确定所述第二DNA序列的唯一位置的序列与多个位置的序列,包括:
将所述第二DNA序列的ctDNA甲基化与所述参考基因组进行比对;
将所述第二DNA序列的ctDNA甲基化与所述参考基因组能够确定的唯一位置的序列记为U;
将所述第二DNA序列的ctDNA甲基化与所述参考基因组比对到的多个位置的序列记为M。
7.如权利要求1所述的一种基于ctDNA甲基化模式的癌种定位方法,其特征在于,所述获得所述第二DNA序列的候选集合,包括:
将所述第二DNA序列的ctDNA甲基化比对到的多个位置的序列M集中处理;
将所述第二DNA序列的ctDNA甲基化比对到的多个位置序列的集合记为m;
根据所述第二DNA序列的ctDNA甲基化比对到的多个位置序列的集合获得所述第二DNA 序列的候选集合
Figure DEST_PATH_IMAGE001
,表达式为:
Figure DEST_PATH_IMAGE003
其中,
Figure 231104DEST_PATH_IMAGE004
为集合
Figure DEST_PATH_IMAGE005
中的一条序列,
Figure 641356DEST_PATH_IMAGE006
为候选位置的个数,
Figure DEST_PATH_IMAGE007
为第1至n候 选位置的个数上的序列。
8.如权利要求7所述的一种基于ctDNA甲基化模式的癌种定位方法,其特征在于,所述通过比较所述第一DNA序列与第二DNA序列,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制,过滤所述第二DNA序列位于偏离区域的候选位置,获得所述第二DNA序列的过滤偏离候选集合,包括:
通过将所述第一DNA序列的位置信息作为辅助信息,对所述第二DNA序列的唯一位置的序列与多个位置的序列进行限制;
过滤所述第二DNA序列位于偏离区域的候选位置,根据所述
Figure 692489DEST_PATH_IMAGE004
相对应的另一端序列是
Figure 24244DEST_PATH_IMAGE008
,将
Figure 779711DEST_PATH_IMAGE008
比对到所述参考基因组上,获得所述第二DNA序列的过滤偏离候选集合
Figure DEST_PATH_IMAGE009
, 表达式为:
Figure DEST_PATH_IMAGE011
其中,
Figure 919836DEST_PATH_IMAGE012
为候选位置的个数,
Figure DEST_PATH_IMAGE013
为1至m个候选位置的个数上 的序列。
9.如权利要求1所述的一种基于ctDNA甲基化模式的癌种定位方法,其特征在于,所述通过所述过滤偏离候选集合确定所述第二DNA序列的最佳比对位置,对所述第二DNA序列的癌种位置进行定位,包括:
将所述候选集合与所述过滤偏离候选集合中相对应的
Figure 141870DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
利用所述候选集合与所述过滤偏离候选集合中相对应的
Figure 492080DEST_PATH_IMAGE014
Figure 51237DEST_PATH_IMAGE015
之间的信息,定位 癌种位置,表达式为:
Figure DEST_PATH_IMAGE017
其中,第二DNA序列的ctDNA甲基化第一个癌种的位置为
Figure 170503DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
为第二DNA序列的ctDNA 甲基化第
Figure 981682DEST_PATH_IMAGE020
个癌种的位置。
CN202211264900.8A 2022-10-17 2022-10-17 一种基于ctDNA甲基化模式的癌种定位方法 Pending CN115323058A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211264900.8A CN115323058A (zh) 2022-10-17 2022-10-17 一种基于ctDNA甲基化模式的癌种定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211264900.8A CN115323058A (zh) 2022-10-17 2022-10-17 一种基于ctDNA甲基化模式的癌种定位方法

Publications (1)

Publication Number Publication Date
CN115323058A true CN115323058A (zh) 2022-11-11

Family

ID=83915434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211264900.8A Pending CN115323058A (zh) 2022-10-17 2022-10-17 一种基于ctDNA甲基化模式的癌种定位方法

Country Status (1)

Country Link
CN (1) CN115323058A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114045342A (zh) * 2021-12-01 2022-02-15 大连晶泰生物技术有限公司 一种游离DNA(cfDNA)甲基化突变的检测方法及试剂盒
CN115064211A (zh) * 2022-08-15 2022-09-16 臻和(北京)生物科技有限公司 一种基于全基因组甲基化测序的ctDNA预测方法及其应用
CN115132274A (zh) * 2022-09-01 2022-09-30 臻和(北京)生物科技有限公司 循环无细胞dna转录因子结合位点的甲基化水平分析方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114045342A (zh) * 2021-12-01 2022-02-15 大连晶泰生物技术有限公司 一种游离DNA(cfDNA)甲基化突变的检测方法及试剂盒
CN115064211A (zh) * 2022-08-15 2022-09-16 臻和(北京)生物科技有限公司 一种基于全基因组甲基化测序的ctDNA预测方法及其应用
CN115132274A (zh) * 2022-09-01 2022-09-30 臻和(北京)生物科技有限公司 循环无细胞dna转录因子结合位点的甲基化水平分析方法及装置

Similar Documents

Publication Publication Date Title
Lopez-Rincon et al. Automatic discovery of 100-miRNA signature for cancer classification using ensemble feature selection
US11193175B2 (en) Normalizing tumor mutation burden
EP3573066B1 (en) Methods for analyzing massively parallel sequencing data for noninvasive prenatal diagnosis
AU2023204088A1 (en) Methods for multi-resolution analysis of cell-free nucleic acids
Zhang et al. Detecting false expression signals in high-density oligonucleotide arrays by an in silico approach
Xu et al. Identification of glioblastoma gene prognosis modules based on weighted gene co-expression network analysis
EP3271848A1 (en) Systems and methods for analyzing nucleic acid
CN112927755B (zh) 一种鉴定cfDNA变异来源的方法和系统
US11728007B2 (en) Methods and systems for analyzing nucleic acid sequences using mappability analysis and de novo sequence assembly
CN117413072A (zh) 用于通过核酸甲基化分析检测癌症的方法和系统
Bonizzoni et al. ASPIC: a novel method to predict the exon-intron structure of a gene that is optimally compatible to a set of transcript sequences
Orlov et al. Quality assessment of the Affymetrix U133A&B probesets by target sequence mapping and expression data analysis
Mitra et al. Systems biology of cancer biomarker detection
CN114974412A (zh) 生成目标对象的肿瘤检测数据的方法、设备和介质
US20180106806A1 (en) Tumor Analytical Methods
CN115323058A (zh) 一种基于ctDNA甲基化模式的癌种定位方法
CN114596968B (zh) 多重pcr引物设计方法和装置
CN118098378B (zh) 一种识别肝细胞肝癌新亚型的基因模型构建方法及应用
WO2019129200A1 (zh) 一种c位点提取方法及装置
CN115148285B (zh) 信息筛选方法、装置、电子设备、介质和程序产品
George et al. Transcriptome sequencing for precise and accurate measurement of transcripts and accessibility of TCGA for cancer datasets and analysis
US12014831B2 (en) Approaches to reducing dimensionality of genetic information used for machine learning and systems for implementing the same
CN115410649B (zh) 一种同时检测甲基化和突变信息的方法及装置
US20230274794A1 (en) Multiclass classification model for stratifying patients among multiple cancer types based on analysis of genetic information and systems for implementing the same
CN106407746A (zh) 呼吸系统对应的基因的突变位点的获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination