CN118116462A - 基于tdfps算法针对纳米孔测序中条形码的设计方法 - Google Patents
基于tdfps算法针对纳米孔测序中条形码的设计方法 Download PDFInfo
- Publication number
- CN118116462A CN118116462A CN202410242340.9A CN202410242340A CN118116462A CN 118116462 A CN118116462 A CN 118116462A CN 202410242340 A CN202410242340 A CN 202410242340A CN 118116462 A CN118116462 A CN 118116462A
- Authority
- CN
- China
- Prior art keywords
- dtw
- nanosig
- signal
- initnanosigset
- bar code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012163 sequencing technique Methods 0.000 title claims description 40
- 238000005070 sampling Methods 0.000 claims abstract description 38
- 238000007672 fourth generation sequencing Methods 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 238000013461 design Methods 0.000 claims description 25
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 16
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 6
- 239000011148 porous material Substances 0.000 claims description 6
- 239000002773 nucleotide Substances 0.000 claims description 5
- 125000003729 nucleotide group Chemical group 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims description 2
- 230000005856 abnormality Effects 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 4
- 238000011160 research Methods 0.000 abstract description 3
- 230000001133 acceleration Effects 0.000 abstract description 2
- 230000004907 flux Effects 0.000 abstract description 2
- 230000006872 improvement Effects 0.000 abstract description 2
- 238000011173 large scale experimental method Methods 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 abstract description 2
- 241000276427 Poecilia reticulata Species 0.000 description 30
- 239000000523 sample Substances 0.000 description 15
- 230000000875 corresponding effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 239000012634 fragment Substances 0.000 description 4
- 108020004414 DNA Proteins 0.000 description 3
- 239000013614 RNA sample Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 238000003752 polymerase chain reaction Methods 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 238000001668 nucleic acid synthesis Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000007671 third-generation sequencing Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6811—Selection methods for production or design of target specific oligonucleotides or binding molecules
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Physics & Mathematics (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Zoology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Wood Science & Technology (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于TDFPS算法针对纳米孔测序中条形码的设计方法。本发明采用了利用DTW距离改进的最远点采样算法,以确保在设计条形码套件时最大化序列的差异性。这一特点在提高解复用精度方面具有显著优势,有效降低了条形码之间的重叠和“碰撞”,使得解复用过程更为可靠和精准。在另一方面,在算法中结合了一种基于GPU的加速机制来提高DTW距离的计算效率,这对于计算方法学的研究具有一定的意义。同时,TDFPS解决了纳米孔测序中条形码数目不足的问题,为提高纳米孔测序通量提供了新的可能性,降低了大型实验的成本。本发明能够显著提高实验效率,并在解复用过程中取得更高的准确性。
Description
技术领域
本发明涉及机器学习和生物基因检测技术领域,具体涉及基于TDFPS算法针对纳米孔测序中条形码的设计方法。
背景技术
最近,随着基于牛津纳米孔测序技术(ONT)的单分子测序技术的问世,它成功地摆脱了长读数、点测序以及聚合酶链反应(PCR)的限制。具体而言,ONT已广泛应用于多个研究领域,包括基因组组装、转录组组装、甲基化研究和突变鉴定。为有效利用测序能力并降低测序成本,可将多个DNA/RNA样本与独特的条形码整合在一起,在流动池上同时进行测序。测序结束后,需要进行解复用处理,以便根据相应的条形码对序列进行分类。
目前已提出了几种条形码试剂盒,并在各种应用中使用,从12个样本到96个样本的解复用,这种条形码策略还被用于变异检测和单细胞测序。而ONT提供的条形码试剂盒(EXP-PBC096)现在可支持多达96个样本的同时测序。随着样本数量的增加,大容量多样品测序需要额外的策略。一个直接的解决方案是设计特定的条形码,用于准确和大容量的样品解复用。
条形码设计可被视为纠错码设计问题,相关理论自20世纪70年代以来已得到发展。为满足高通量下一代测序的需求,DNA条形码设计中引入了Hamming codes和Reed-Solomon code barcodes。虽然已经提出了许多条形码方案,但这些方案都是为下一代测序设计的,基于测序错误率限制在1%以内的假设,由于第三代测序的错误率较高,这些条形码方案无法保证纳米孔测序足够的解复用精度。
条码设计必须遵守两个关键原则,即条码容量大和序列差异高。对于ONT序列数据,序列差异的测量可基于原始电流信号或碱基调用核苷酸。Edit距离是目前测量两个DNA序列之间相似性最有效的方法,而且已经提出了许多无比对的相似性测量方法。相比之下,基于信号的方法已被广泛应用于直接纳米孔序列分析中,其中大多数基于动态时间扭曲(DTW)算法来测量信号差异。与基于序列的比较相比,直接纳米孔电流信号分析可以利用更多的冗余信息,并抑制较高的基数调用误差。
发明内容
本发明的目的是提供一种基于TDFPS算法针对纳米孔测序中条形码的设计方法,以弥补现有技术的不足。
本发明采用一种被良好设计的阈值来缩小基于DTW的最远点采样算法(TDFPS-Designer)的信号采样空间,从而在纳米孔测序中快速准确地完成条形码设计。TDFPS-Designer采用最远点采样算法,直接根据纳米孔信号的比对结果,在给定的序列空间内挑选条形码。此外,还设计了基于DTW距离的解复用策略,以确保准确的样本标签分配。
具体而言,本发明是通过以下技术方案实现的:
一种基于TDFPS算法针对纳米孔测序中条形码的设计方法,包括以下步骤:
S1:利用DNA序列的核苷酸字母表{A、T、C、G}形成候选序列,对该候选序列预处理,筛选出一定数量的具有较大差异的序列建立初始DNA序列集{initset};
S2:将所述初始DNA序列集{initset}转换成一组标准纳米孔信号{initNanoSigSet};并将最远点采样算法和DTW距离进行结合,形成TDFPS算法;
S3:自动化调整好阈值r,保证设计出的条形码信号集合中任意两个信号序列之间有足够大的差异性,差异性由DTW距离来度量(距离大于r),期间采用GPU计算来保证效率;
S4:在确定阈值r和初始纳米孔信号集合{initNanoSigSet}之后,采用所述TDFPS算法来挑选条形码,输出采样集合{nanosig}set。
进一步的,所述S1包括:
在DNA序列的核苷酸字母表{A、T、C、G}上定义哈希函数H,其中H(A)=0,H(C)=1,H(G)=2,H(T)=3;将这一函数扩展到DNA序列,公式定义如下:
H(S)=H(s1)×4k-1+H(s2)×4k-2+…+H(sn)
该公式反映了序列与相应哈希值之间的关系,两个序列之间的差异越大,它们的哈希函数值的差异也就越大;利用这种关系来确定初始选择策略;计算所有序列的哈希值并进行排序,然后使用均匀随机抽样方法选出一百万个候选序列。
进一步的,所述S2具体为:将所有候选序列转化成对应的牛津纳米孔测序信号以建立初始序列集,最远点采样算法中用DTW距离来度量两个序列差异性,并不断迭代地挑选与已挑选集合{nanosig}set差异最大的序列,将挑选的序列加入{nanosig}set中;在此过程中,挑选到序列集合{nanosig}set中任意两条序列之间的差异性足够大;这里,阈值r作为终止条件,具体的条件是{initNanoSigSet}中不存在任何一条序列s满足:s与{nanosig}set中的所有序列之间DTW距离都大于阈值r。
进一步的,所述S3包括:
S3-1:对于给定的条形码长度和阈值r,记{nanosig}set为条形码信号集合,最大条形码集合{nanosig}setmax满足以下条件:
S3-2:确定阈值r即确定了在生成的{nanosig}set集合中任意两个条形码序列之间的最小DTW距离;越大的阈值表示生成的{nanosig}set集合中两个序列之间的差异越大,最终挑选出{nanosig}set集合中条形码的数目越少。
进一步的,所述S4包括:
S4-1:从{initNanoSigSet}中随机选取一个信号initNanoSig作为第一个采样信号,将其加入到采样集合中,并从候选纳米孔信号集合中删除:
{nanosig}set={initNanoSig}
{initNanoSigSet}={initNanoSigSet}\{initNanoSig};
S4-2:将剩余的候选纳米孔信号集合{initNanoSigSet}中与initNanoSig的DTW距离小于阈值r的信号全部过滤:
filertedSet={sig|DTWdis(sig,initNanoSig)≤t,sig∈{initNanoSigSet}};
{initNanoSigSet}={initNanoSigSet}\{filertedSet};
并在过滤后的候选纳米空信号集合中选取与initNanoSig差异最大的点,也就是与initNanoSig DTW距离最大的点,作为第二个采样点initNanoSig′,initNanoSig′满足
DTW_dist(initNanoSig′,initNanoSig)=max{DTW_dis(sig,initNanoSig),sig∈{initNanoSigSet}}
将第二个采样点加入到采样集合中,并从候选集合中删除;
S4-3:将剩余的候选纳米孔信号集合{initNanoSigSet}中与已采样集合{nanosig}set的DTW距离小于阈值r的信号全部过滤:
filertedSet={sig|DTW_dis(s,{nanoisg}set)≤t};
{initNanoSingSet}={initNanoSigSet}\{filertedSet};
在过滤后的候选纳米孔信号集合{initNanoSigSet}中选取与已采样集合{nanosig}setDWT距离最大的点sig′,即sig′满足
DTW_dis(sig′,{nanosig}set)=max{DTW_dis(s,{nanosig}set),s∈{initNanoSigSet}};
其中DTW_dis(s,{nanosig}set)=min{DTW_dis(s,s′),s′∈{nanosig}set},
将采样点加入到采样集合中,并从候选集合中删除
S4-4:重复S4-3,不断从候选纳米孔信号集合{initNanoSigSet}中选取采样点sig′,直到
进一步的,上述方法还包括条形码解复用步骤:
第一步:检测纳米孔信号中的条形码区域;根据多样本测序文库构建方案和半全局DTW算法设计了一种启发式策略来提取条形码信号;该策略包括检测适配器信号区域以确定条形码信号的位置,并估算条形码信号的长度,具体来说,假设条形码的序列长度为n(不包括侧翼序列),根据纳米孔信号的结构划分,估计条形码信号长度为10n+c,其中c默认为70;
第二步:提取条形码信号后,计算这些测序信号与标准条形码信号之间的DTW距离矩阵,距离矩阵每列中最小值的行索引对应解复用结果,具体来说,从距离矩阵的每一行提取最小值后,采用5-σ方法检测异常,任何距离超过mean+5×std的信号都会被归类为异常数据,可能没有相关的条形码,mean和std分别表示所有距离的平均值和标准偏差。
与现有技术相比,本发明的优点和有益效果是:
本发明采用了利用DTW距离改进的最远点采样算法,以确保在设计条形码套件时最大化序列的差异性。这一特点在提高解复用精度方面具有显著优势,有效降低了条形码之间的重叠和“碰撞”,使得解复用过程更为可靠和精准。在另一方面,在算法中结合了一种基于GPU的加速机制来提高DTW距离的计算效率,这对于计算方法学的研究具有一定的意义。
同时,TDFPS解决了纳米孔测序中条形码数目不足的问题,为提高纳米孔测序通量提供了新的可能性,降低了大型实验的成本。通过设计更多且具有差异性的条形码,TDFPS为研究人员提供了更多样品复用的可能性,进一步推动了纳米孔测序技术在高通量测序领域的应用。本发明能够显著提高实验效率,并在解复用过程中取得更高的准确性。
附图说明
图1是TDFPS-Designer的工作流程,其中,a为条形码设计策略,b为解复用策略。
图2是96个数据集的解复用准确率箱型图,其中,a为人类基因组片段的对应结果,b为k-mer空间的对应结果。
图3是原始纳米孔信号中提取条形码区域过程,其中a为根据条形码套件生成模拟纳米孔信号,b为条形码的纳米孔信号图像,c为提取的条形码信号与标准条形码信号之间的DTW距离分布。
图4是TDFPS-Designer在三个中型数据集(M-ESH TD795、M-ESH TD1093和MESHTD2120)上的解复用分析,其中,a为TDFPS-Designer在三个中型数据集上的解复用精度方框图,b为最低解复用准确率与条形码数量之间的折线图,c为在不同精度阈值下,三个中等规模数据集对应的条形码数量。
图5是展示Guppy在不同测序错误率的数据集上的解复用性能,其中,a为两种不同错误模型的测序准确率分布,b为Guppy在不同测序错误率数据集上的解复用准确率方框图,c为不同测序错误率数据集上条形码的解复用准确率散点图,d为Guppy在不同条形码试剂盒上的解复用准确率方框图。
图6是在使用TDFPS Designer最终设计的条形码试剂盒的数据集上对本发明和Guppy进行的综合解复用评估,其中,a为本发明和Guppy在不同数据集上所有准确度值的方框图。,b为本发明和Guppy在不同数据集上的精确度,c为本发明和Guppy在不同数据集上的召回率,d为本发明和Guppy在不同数据集上的平均准确率,e为本发明和Guppy在不同数据集上的最低准确率。
图7是阈值r的确定过程,其中,a为序列对应的纳米孔信号之间的DTW距离分布,b为生成合成数据的工作流程,c为不同序列长度和编辑距离下的解复用准确率汇总,d为序列长度与DTW距离之间的线性关系。
具体实施方式
下面结合实施例对本发明所述的技术方案作进一步地描述说明。
实施例1
一种基于TDFPS算法针对纳米孔测序中条形码的设计方法,该方法包括:
1、记Σ={A,G,C,T}是一个四元字母表,一个在字母表Σ上的长度为k的序列seq=s1s2…sk,si∈Σ,i=1,2…k。定义k-mer空间为所有长度为k的序列seq的集合,记作Sk,所有k-mer空间的并集记为S,i.e.S=∪k>0Sk。
对于给定的条形码长度和阈值r,记{nanosig}set为条形码信号集合,最大条形码集合{nanosig}setmax满足以下条件:
2、一个可证的命题:
命题1:对于给定的序列长度k和阈值r,在Sk中找最大数目的条形码集合是一个NP完全问题。
3、DTW的定义
动态时间规整(Dynamic Time Warping,DTW)是一种用于测量两个时间序列之间相似性的方法。DTW允许在时间轴上对两个序列进行非线性的拉伸或压缩,以找到它们之间的最佳匹配。这在处理由于速度不同或存在时间偏移等原因导致的序列变化时非常有用。
定义DTW距离的步骤如下:
(1)初始化:创建一个n×m的矩阵,其中第(i,j)个元素表示序列1中的第i个元素与序列2中的第j个元素之间的距离。
(2)动态规划:从矩阵的左上角开始,通过递归地计算每个元素的最小累积距离,直到达到矩阵的右下角。在计算每个元素时,考虑到相邻三个方向(上方、左方、左上方)的元素,选择其中距离最小的路径,并将其添加到当前元素的距离中。
(3)最终距离:DTW距离是矩阵右下角元素的值,表示两个序列之间的最佳匹配距离。
条形码的设计分为三个步骤进行:首先进行数据预处理,在数据量过于庞大时,能有效减小算法输入的数据量;其次设定阈值,保证设计出的条形码信号集合{nanosig}set中任意两个序列之间有足够大的差异性,以确保解复用时有足够的精度;最后输入预处理的数据集和阈值,用改进的最远点采样算法设计条形码。具体如下:
1、数据预处理
先对所有候选的DNA序列进行预筛选,以粗略的方式选出有一定差异性的DNA序列,减小算法输入的数据量。首先将长为n的DNA序列通过哈希函数N:N(G)=0,N(A)=1,N(T)=2,N(C)=3转为整数。对于序列s1s2…sn∈Sn,有N(s1s2…sn)=N(s1)40+N(s2)41+…+N(sn)4n-1。将所有整数从小到大排列,然后进行均匀采样。采样得到的数集对应的DNA序列集合就是预处理后的DNA序列集合。
2、设定阈值
如图7所示,阈值r确定了在生成的{nanosig}set集合中任意两个条形码信号序列之间的最小DTW距离。越大的阈值表示生成的{nanosig}set集合中两个信号序列之间的差异越大,最终挑选出{barcode}集合中条形码的数目越少。如图7c所示,在不同序列长度下,当编辑距离为10时,解复用准确率超过99%,表明条形码之间的差异足够大。此外,还分析了不同序列长度下编辑距离为10的DTW距离的数值分布,并确定了一个线性函数来确定相应的门限(图7d)。
3、设计条线码的算法
在确定阈值r和候选的条形码信号集合{initNanoSigSet}后(其中,候选条形码集合{initNanoSigSet}可以是第一步进行预处理后的集合,也可以是用户自己提供的条形码转换成的信号集合),将所有条形码信号采用TDFPS算法来挑选条形码信号。算法2是对最远点采样算法(算法1)和DTW距离的结合,通过不断迭代地挑选距离已挑选集合{nanosig}set最远的序列,将挑选的信号序列加入{nanosig}set中,保证最终的信号序列集合{nanosig}set中任意两条序列之间的距离足够大。
TDFPS算法基于算法1改编了以下两点:(1)采样的终止条件由采样数目n变为控制由阈值r控制;(2)TDFPS中用DTW距离来度量两个序列差异性。如图1所示,给定k-mer空间或用户定义的序列集,计算每个读数的哈希值,并根据哈希值以升序对序列进行排序。然后,从排序后的序列项中平均选择一个序列子集。所选序列的哈希值应具有显著的差异性。然后将这些选定的序列转换成模拟纳米孔电流信号。算法1用于选择精确信号作为条形码信号,确保这些信号之间的DTW距离相对较大且大于给定阈值r。为了对纳米孔信号进行解复用,需要识别读数的条形码区域,并将其与从标准条形码参考(条形码集项目)翻译而来的当前信号进行比较。然后,计算测序条形码信号与标准条形码当前信号之间的DTW距离矩阵,在此基础上进行顶k选择,以确定解复用结果。
TDFPS算法在输入候选序列集合{initNanoSigSet}和阈值r后,会输出采样集合{nanosig}set,具体步骤为:
S1:从{initNanoSigSet}中随机选取一个信号initNanoSig作为第一个采样信号,将其加入到采样集合中,并从候选纳米孔信号集合中删除:
{nanosig}set={initNanoSig}
{initNanoSigSet}={initNanoSigSet}\{initNanoSig};
S2:将剩余的候选纳米孔信号集合{initNanoSigSet}中与initNanoSig的DTW距离小于阈值r的信号全部过滤:
filertedSet={sig|DTWdis(sig,initNanoSig)≤t,sig∈{initNanoSigSet}};
{initNanoSigSet}={initNanoSigSet}\{filertedSet};
并在过滤后的候选纳米空信号集合中选取与initNanoSig差异最大的点,也就是与initNanoSig DTW距离最大的点,作为第二个采样点initNanoSig′,initNanoSig′满足
DTW_dist(initNanoSig′,initNanoSig)=max{DTW_dis(sig,initNanoSig),sig∈{initNanoSigSet}}
将第二个采样点加入到采样集合中,并从候选集合中删除;
S3:将剩余的候选纳米孔信号集合{initNanoSigSet}中与已采样集合{nanosig}set的DTW距离小于阈值r的信号全部过滤:
filertedSet={sig|DTW_dis(s,{nanosig}set)≤t};
{initNanoSigSet}={initNanoSigSet}\{filertedSet};
在过滤后的候选纳米孔信号集合{initNanoSigSet}中选取与已采样集合{nanosig}setDWT距离最大的点sig′,即sig′满足
DTW_dis(sig′,{nanosig}set)=max{DTW_dis(s,{nanosig}set),s∈{initNanoSigSet}};
其中DTW_dis(s,{nanosig}set)=min{DTW_dis(s,s′),s′∈{nanosig}set},
将采样点加入到采样集合中,并从候选集合中删除
S4:重复S3,不断从候选纳米孔信号集合{initNanoSigSet}中选取采样点sig′,直到
TDFPS算法
4、解复用方法
第一步:检测纳米孔信号中的条形码区域,根据牛津纳米孔公司的官方多样本测序文库构建方案和半全局DTW算法设计了一种启发式策略来提取条形码信号。该策略包括检测适配器信号区域以确定条形码信号的位置,并估算条形码信号的长度。具体来说,假设条形码的序列长度为n(不包括侧翼序列),根据纳米孔信号的结构划分,估计条形码信号长度为10n+c,其中c默认为70。
第二步:提取条形码信号后,计算这些测序信号与标准条形码信号之间的DTW距离矩阵,距离矩阵每列中最小值的行索引对应解复用结果。具体来说,从距离矩阵的每一行提取最小值后,采用5-σ方法检测异常。任何距离超过mean+5×std的信号都会被归类为异常数据,可能没有相关的条形码。这里,mean和std分别表示所有距离的平均值和标准偏差。
实施例2:
基于实施例1提供的条形码设计和解复用方法,通过设计实验对生成的条形码和解复用的精确度进行了全面验证。
TDFPS-Designer设计的条形码比随机选择的条形码更容易解复用:在生物实验中,条形码通常是通过各种方法随机选择的短DNA片段,如随机核酸合成或从现有条形码库中选择。根据解复用的准确性评估了条形码设计策略的有效性。主要实验结果如图2所示,在人类基因组(数据集:GRCh37)的片段空间(size=100000)中选择条形码,在k-mer空间(k=15或20)中选择条形码,然后模拟多样本测序,最后得出解复用准确率并绘制方框图。将人类基因组随机分成15bp或20bp的片段(人类基因组片段空间),然后使用TDFPS-Designer或随机(5次)选择条形码。k-mer空间是指由长度为k的所有可能DNA序列组成的集合。对于每个条形码,使用DeepSimulator1.5(设置100个随机种子)模拟100个纳米孔信号,然后使用本发明获得其解复用结果。这样就完全避免了条形码提取中的错误。
如图2a所示,当使用84个随机选择的15bp条形码时,解链准确率仅为60%,而TDFPS-Designer选择的条形码则保持了94%以上的高准确率。同样,在随机选择261个条形码的情况下(图2a中的第四个子图),一些条形码完全被错误分类。当使用331个随机选择的20bp条形码时,某条形码的准确率仅为60%。图2b显示了类似的统计趋势。随着条形码数量的增加(图2b中的第7和第8个子图),一些随机选择的条形码变得难以解复用。总体而言,与随机选择的条形码相比,基于本发明设计的条形码的解复用准确率提高了10%至40%。
TDFPS-Designer可以有效地从原始纳米孔信号中提取条形码区域:通过计算提取的条形码信号与标准条形码信号之间的DTW距离来评估条形码提取策略的有效性。为了生成实验数据,获得了12,000个提取的条形码信号和162,000个随机截取的信号,并从中获得了两个距离矩阵(图3a)。图3a根据条形码套件(EXP-NBD104,12个条形码),共生成12,000个模拟纳米孔信号,每个条形码对应1,000个信号。在每个信号中随机截取1000个长度为310的信号(左图),并使用提取策略获得条形码信号(长度=310)。计算这两组信号与条形码标准纳米孔信号之间的距离矩阵,得到相应的距离分布。(b)①条形码信号和适配器信号的位置。红色数字表示条形码信号的位置。通过提取策略得到的条形码信号的位置。条形码的纳米孔信号图像。④标准(或无噪声)条形码纳米孔信号图像。(c)①提取的条形码信号与标准条形码信号之间的DTW距离分布,距离值超过110的比例为5.55%。②随机抽取的信号与标准条形码信号之间的DTW距离分布,距离值超过110的比例为99.39%。
本发明生成了两种不同的距离分布(图3c)。如图3c(右)所示,信号与标准条形码信号之间的距离小于110的概率非常低(~0.0061)。相比之下,图3c(左)显示,94.35%的提取条形码信号与标准条形码信号之间的DTW距离小于110,表明本发明的提取策略非常有效。在效率方面,通过使用单线程,可以在1秒钟内提取大约255个序列的条形码区域。
TDFPS-Designer可以设计出易于解复用的不同长度的大容量条形码套件:首先,使用三个小型数据集对TDFPS-Designer中的解复用模块进行了初步评估,以评估解复用方法的可靠性。随后,使用TDFPS-Designer设计了条形码工具包(初始条形码工具包),并在三个中型数据集上进行了解复用评估,以估算条形码工具包的容量。最后,根据估算的容量,在初始条形码工具包中选择了解复用性能更稳定的条形码,以确定最终的条形码工具包,评估了Guppy在条形码工具包(初始和最终条形码工具包)上的解复用性能。结果表明,Guppy对测序误差非常敏感,而本发明能保持稳定的解复用性能,这表明本发明解复用方法可作为一种替代解复用方案(在测序误差不确定的情况下,如非模式生物产生的测序数据)。另一方面,这凸显了本发明解复用方法为设计高容量条形码试剂盒提供了先决条件。此外,还对最终的条形码试剂盒进行了全面评估。实验结果证实,这些工具包中的条形码可以很容易地进行解复用,每个条形码的解复用准确率超过95%。这表明TDFPS-Designer能够设计任意长度的条形码。详情如下:
(1)对本发明解复用方法进行初步评估
本发明使用基准数据集对TDFPS-Designer的解复用性能进行了初步评估。本发明解复用方法和Guppy在带有ONT条形码的三个数据集(S-ET ONT12、S-ET ONT24和S-ETONT96)上实现了几乎完美的解复用结果。Guppy的解复用方法是专为ONT条形码设计的,因此其最低精度比TDFPS-Designer稍高1%-4%,平均精度几乎相同。在解复用条形码时,Guppy的最低精度低于80%,比本发明低约20%。这表明本发明更适用于大容量条形码套件。
(2)确定不同的条形码套件
本发明使用TDFPS-Designer设计了具有不同长度条形码的初始工具包:20bp、24bp和30bp,分别产生了795、1093和2120个条形码。使用这些条形码试剂盒生成了三个中等大小的数据集(M-ESH TD795、M-ESH TD1093和M-ESH TD2120)。然后,对这些数据集进行了解复用。如图4所示,图4a显示了解复用准确率的分布,还可以看到,解复用准确率与条形码长度存在正相关,这表明条形码套件的最大容量与条形码长度呈正相关。
还深入研究了条形码数量与最低精确度之间的关系,因为最低精确度直接影响条形码套件最大容量的估算(如图4b所示)。从图4b中可以看出,一旦条形码数量超过某个阈值,最低准确度就会显著下降。这种下降意味着某些条形码之间会发生"碰撞",也就是说,解复用系统难以准确区分某些条形码。
在各种精度阈值条件下,确定了条形码的数量,如图4c所示。可以看出,套件中几乎所有条形码的准确率都高于95%(或90%)。在条形码长度为20bp(或24bp)的条形码套件中,约有1/7(或2/5)的条形码符合最低准确度超过98%的严格要求。30bp条形码试剂盒中的大多数条形码的解复用准确率都高于98%。
最后,根据98%的阈值,构建了最终的条形码工具包。20bp、24bp和30bp条码工具包中分别有113、423和2034个条码。
(3)Guppy对不同条形码套件的解复用分析
如图5所示,纳米孔2020"对应高错误率,"纳米孔2023"对应低错误率。一个点对应一个条形码,横(纵)坐标表示Guppy在测序错误率高(低)的数据集上对该条形码的解复用准确率。所有数据集均由纳米孔2020误差模型生成。20bp-795、24bp-1093和30bp-2120分别代表M-ESH TD795、M-ESH TD1093和M-ESH TD2120数据集,条形码为初始条形码试剂盒中的条形码。20bp-113、24bp-423和30bp-2034是上述三个数据集的子集,条形码来自最终设计的条形码套件。
评估了Guppy在不同测序错误率(图5a)和不同条形码试剂盒的数据集上的解复用性能。图5b显示了Guppy在三个具有初始条形码套件的数据集上的解复用性能。可以看到,测序错误严重影响了Guppy的性能,在M-ESH TD795(纳米孔2020)上的最低准确率低于65%,这意味着有些条形码没有成功解复用。相比之下(图4a)本发明解复用方法直接根据纳米孔信号进行解复用,从而避免了测序误差对解复用的影响,其最低准确率比Guppy高出25%。同时,从图5b中可以看出,当测序错误率较低时,Guppy的解复用准确率明显提高。更详细地分析了测序错误对Guppy解复用的影响(图5c),可以看到,当测序错误率较低时,几乎所有条形码都能有效解复用。
评估了Guppy在初始条形码试剂盒和最终条形码试剂盒上的解复用性能(图5d),发现尽管设计的条形码之间存在显著差异,但Guppy无法解复用某些条形码。这一观察结果表明,条形码之间的巨大差异并不能消除测序错误对Guppy的影响。
尽管ONT测序的准确性不断提高,但测序错误率仍然存在不确定性,尤其是在非模式生物和RNA样本的情况下。在这种情况下,本发明解复用方法成为一种可行的替代解决方案。
(4)Guppy和TDFPS-Designer在本发明最终设计的条形码工具包上的解复用性能。
在三个大型数据集(L-ESH TD113、L-ESH TD423和L-ESH TD2034)上评估了最终条形码工具包的有效性,检查它们是否适合进行解复用。如图6所示,所有数据集中的参考读数通过Deepsimulator1.5直接生成原始纳米孔信号,并通过Badread的不同测序误差模型生成误差率不同的碱基调用读数。原始纳米孔信号输入到本发明中完成解复用,不同错误率的序列输入到Guppy中完成解复用。Guppy-nanopore-2020"("Guppynanopore-2023")表示Guppy在测序错误率高(低)的数据集上的结果(图5a)。
图6展示了主要评估结果,表明,本发明实现了近乎完美的精确度和召回率,最低精确度(平均精确度)超过95%。如此高的准确率表明本发明成功地解复用了所有条形码,突显了TDFPS在设计易于解复用的条形码方面的能力。Guppy在测序错误率较高的数据集上表现不佳。某些条形码的最低准确率低于70%,比本发明低30%。
总之,TDFPS-Designer集成的解复用方法与设计的条形码试剂盒非常兼容。特别是在数据集具有高错误率的情况下(如对非模型生物样本或RNA样本进行测序),本发明解复用方法有效克服了Guppy的局限性,这也是设计大容量条形码试剂盒的重要前提。
在上述实施例的基础上,本发明继续对其中涉及到的技术特征及该技术特征在本发明中所起到的功能、作用进行详细的描述,以帮助本领域的技术人员充分理解本发明的技术方案并且予以重现。
最后,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (6)
1.一种基于TDFPS算法针对纳米孔测序中条形码的设计方法,其特征在于,包括以下步骤:
S1:利用DNA序列的核苷酸字母表{A、T、C、G}形成候选序列,对该候选序列预处理,筛选出一定数量的具有较大差异的序列建立初始DNA序列集{initset};
S2:将所述初始DNA序列集{initset}转换成一组标准纳米孔信号{initNanoSigSet};并将最远点采样算法和DTW距离进行结合,形成TDFPS算法;
S3:自动化调整好阈值r,保证设计出的条形码信号集合中任意两个信号序列之间有足够大的差异性,差异性由DTW距离来度量,期间采用GPU计算来保证效率;
S4:在确定阈值r和初始纳米孔信号集合{initNanoSigSet}之后,采用所述TDFPS算法来挑选条形码,输出采样集合{nanosig}set。
2.如权利要求1所述的设计方法,其特征在于,所述S1包括:
在DNA序列的核苷酸字母表{A、T、C、G}上定义哈希函数H,其中H(A)=0,H(C)=1,H(G)=2,H(T)=3;将这一函数扩展到DNA序列,公式定义如下:
H(S)=H(s1)×4k-1+H(s2)×4k-2+…+H(sn)
该公式反映了序列与相应哈希值之间的关系,两个序列之间的差异越大,它们的哈希函数值的差异也就越大;利用这种关系来确定初始选择策略;计算所有序列的哈希值并进行排序,然后使用均匀随机抽样方法选出候选序列。
3.如权利要求1所述的设计方法,其特征在于,所述S2具体为:将所有候选序列转化成对应的纳米孔测序信号以建立初始序列集,最远点采样算法中用DTW距离来度量两个序列差异性,并不断迭代地挑选与已挑选集合{nanosig}set差异最大的序列,将挑选的序列加入{nanosig}set中;在此过程中,挑选到序列集合{nanosig}set中任意两条序列之间的差异性足够大;这里,阈值r作为终止条件,具体的条件是{initNanoSigSet}中不存在任何一条序列s满足:s与{nanosig}set中的所有序列之间DTW距离都大于阈值r。
4.如权利要求1所述的设计方法,其特征在于,所述S3包括:
S3-1:对于给定的条形码长度和阈值r,记{nanosig}set为条形码信号集合,最大条形码集合{nanosig}setmax满足以下条件:
S3-2:确定阈值r即确定了在生成的{nanosig}set集合中任意两个条形码序列之间的最小DTW距离;越大的阈值表示生成的{nanosig}set集合中两个序列之间的差异越大,最终挑选出{nanosig}set集合中条形码的数目越少。
5.如权利要求1所述的设计方法,其特征在于,所述S4包括:
S4-1:从{initNanoSigSet}中随机选取一个信号initNanoSig作为第一个采样信号,将其加入到采样集合中,并从候选纳米孔信号集合中删除:
{nanosig}set={initNanoSig}
{initNanoSigSet}={initNanoSigSet}\{initNanoSig};
S4-2:将剩余的候选纳米孔信号集合{initNanoSigSet}中与initNanoSig的DTW距离小于阈值r的信号全部过滤:
filertedSet={sig|DTWdis(sig,initNanoSig)≤t,sig∈{initNanoSigSet}};
{initNanoSigSet}={initNanoSigSet}\{filertedSet};
并在过滤后的候选纳米空信号集合中选取与initNanoSig差异最大的点,也就是与initNanoSig DTW距离最大的点,作为第二个采样点initNanoSig′,initNanoSig′满足
DTW_dist(initNanoSig′,initNanoSig)
=max{DTW_dis(sig,initNanoSig),sig∈{initNanoSigSet}}
将第二个采样点加入到采样集合中,并从候选集合中删除;
S4-3:将剩余的候选纳米孔信号集合{initNanoSigSet}中与已采样集合{nanosig}set的DTW距离小于阈值r的信号全部过滤:
filertedSet={sig|DTW_dis(s,{nanosig}set)≤t};
{initNanoSigSet}={initNanoSigSet}\{filertedSet};
在过滤后的候选纳米孔信号集合{initNanoSigSet}中选取与已采样集合{nanosig)setDWT距离最大的点sig′,即sig′满足
DTW_dis(sig′,{nanosig}set)=max{DTW_dis(s,{nanosig}set),s∈{initNanoSigSet}};
其中DTW_dis(s,{nanosig}set)=min{DTW_dis(s,s′),s′∈{nanosig}set},
将采样点加入到采样集合中,并从候选集合中删除
S4-4:重复S4-3,不断从候选纳米孔信号集合{initNanoSigSet}中选取采样点sig′,直到
6.如权利要求1所述的设计方法,其特征在于,该述方法还包括条形码解复用步骤:
第一步:检测纳米孔信号中的条形码区域;根据多样本测序文库构建方案和半全局DTW算法设计了一种启发式策略来提取条形码信号;该策略包括检测适配器信号区域以确定条形码信号的位置,并估算条形码信号的长度,具体来说,假设条形码的序列长度为n,根据纳米孔信号的结构划分,估计条形码信号长度为10n+c;
第二步:提取条形码信号后,计算这些测序信号与标准条形码信号之间的DTW距离矩阵,距离矩阵每列中最小值的行索引对应解复用结果,具体来说,从距离矩阵的每一行提取最小值后,采用5-σ方法检测异常,任何距离超过mean+5×std的信号都会被归类为异常数据,mean和std分别表示所有距离的平均值和标准偏差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410242340.9A CN118116462A (zh) | 2024-03-04 | 2024-03-04 | 基于tdfps算法针对纳米孔测序中条形码的设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410242340.9A CN118116462A (zh) | 2024-03-04 | 2024-03-04 | 基于tdfps算法针对纳米孔测序中条形码的设计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118116462A true CN118116462A (zh) | 2024-05-31 |
Family
ID=91210054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410242340.9A Pending CN118116462A (zh) | 2024-03-04 | 2024-03-04 | 基于tdfps算法针对纳米孔测序中条形码的设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118116462A (zh) |
-
2024
- 2024-03-04 CN CN202410242340.9A patent/CN118116462A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102273717B1 (ko) | 심층 학습 기반 변이체 분류자 | |
Brāzma et al. | Predicting gene regulatory elements in silico on a genomic scale | |
CN103201744B (zh) | 用于估算全基因组拷贝数变异的方法 | |
US20060286566A1 (en) | Detecting apparent mutations in nucleic acid sequences | |
US20060136144A1 (en) | Nucleic acid analysis | |
EP3332034A1 (en) | Systems and methods for genomic analysis | |
EP2923293B1 (en) | Efficient comparison of polynucleotide sequences | |
CN103114150B (zh) | 基于酶切建库测序与贝叶斯统计的单核苷酸多态性位点鉴定的方法 | |
CN111462823A (zh) | 一种基于dna测序数据的同源重组缺陷判定方法 | |
CN110016497B (zh) | 一种检测肿瘤单细胞基因组拷贝数变异的方法 | |
CN108137642A (zh) | 分子质量保证方法在测序中的应用 | |
CN101950326B (zh) | 基于Hurst指数的DNA序列相似性检测方法 | |
CN116434843A (zh) | 一种碱基测序质量评估方法 | |
Rasheed et al. | LSH-Div: Species diversity estimation using locality sensitive hashing | |
CN110021365B (zh) | 确定检测靶点的方法、装置、计算机设备和存储介质 | |
CN118116462A (zh) | 基于tdfps算法针对纳米孔测序中条形码的设计方法 | |
JP2022548504A (ja) | 低頻度バリアントの検出およびレポートを容易にするためのdnaライブラリー生成方法 | |
CN114420214A (zh) | 核酸测序数据的质量评估方法和筛选方法 | |
CN114566214A (zh) | 检测基因组缺失插入变异的方法及检测装置和计算机可读存储介质与应用 | |
US6994965B2 (en) | Method for displaying results of hybridization experiment | |
US11127485B2 (en) | Techniques for fine grained correction of count bias in massively parallel DNA sequencing | |
CN105787294B (zh) | 确定探针集的方法、试剂盒及其用途 | |
Heller | Structural variant calling using third-generation sequencing data | |
CN118262789A (zh) | RNA m6A修饰检测方法及系统 | |
Wang | Improved Basecalling and Base Modification Detection Through Signal-level Analysis of Nanopore Direct RNA Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |