CN111243674B - 一种碱基序列的识别方法、装置和存储介质 - Google Patents
一种碱基序列的识别方法、装置和存储介质 Download PDFInfo
- Publication number
- CN111243674B CN111243674B CN202010026283.2A CN202010026283A CN111243674B CN 111243674 B CN111243674 B CN 111243674B CN 202010026283 A CN202010026283 A CN 202010026283A CN 111243674 B CN111243674 B CN 111243674B
- Authority
- CN
- China
- Prior art keywords
- current signal
- base sequence
- base
- preset
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000011159 matrix material Substances 0.000 claims abstract description 52
- 239000012634 fragment Substances 0.000 claims abstract description 45
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 230000001364 causal effect Effects 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 9
- 238000010845 search algorithm Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 abstract description 16
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000007672 fourth generation sequencing Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 6
- 238000012163 sequencing technique Methods 0.000 description 6
- 241001227713 Chiron Species 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 239000011148 porous material Substances 0.000 description 4
- 102000035195 Peptidases Human genes 0.000 description 3
- 108091005804 Peptidases Proteins 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 230000010339 dilation Effects 0.000 description 3
- 235000019833 protease Nutrition 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 102000039446 nucleic acids Human genes 0.000 description 2
- 108020004707 nucleic acids Proteins 0.000 description 2
- 150000007523 nucleic acids Chemical class 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种碱基序列的识别方法,包括步骤:读取牛津纳米孔测序仪输出的数据文件并提取出待测的DNA/RNA分子对应的电流信号;将所述电流信号按预设的重叠率截取出若干个预设长度的电流信号片段;将每一所述电流信号片段输入预设的时序卷积网络模型中进行时序建模,以针对每一电流信号片段生成对应的碱基概率矩阵;其中,所述碱基概率矩阵为所述电流信号片段在每一采样时间点上出现碱基的概率分布;根据每一所述碱基概率矩阵解码出对应的碱基序列片段,并根据每一碱基序列片段生成所述碱基序列。本发明实施例还提供了碱基序列的识别装置和存储介质。采用本发明实施例,通过时序卷积网络对电流信号进行时序建模,加快了神经网络推理速度,提高了碱基序列识别的效率。
Description
技术领域
本发明涉及生物信息技术领域,尤其涉及一种碱基序列的识别方法、装置和存储介质。
背景技术
随着生物学技术的发展,对DNA/RNA分子双链进行碱基序列识别的方法的研究已受到越来越多研究学者的关注。碱基识别的过程即为通过算法将捕获的电流信号转换为可识别的碱基序列的过程。在现有的碱基测序方法中,牛津纳米孔测序是基于电信号的第三代单分子实时测序技术。DNA/RNA双链在马达蛋白酶的作用下进行位移,位移过程中纳米孔内的离子电流会随着孔内核酸的移动而波动,将捕获到的波动的电流信号采用基于循环神经网络的端到端碱基识别方法(Chiron)进行碱基序列的识别。
然而,在实施本发明过程中,发明人发现现有技术至少存在如下问题:Chiron采用了循环神经网络对电流信号进行碱基序列识别,在循环神经网络的推理阶段,每个时间点的计算都依赖于前一个时间点的计算结果,且这种循环式的神经网络也难以执行并行计算,导致Chiron的碱基识别速率较慢,每一秒只能识别2000~3000个碱基。而纳米孔测序技术的数据处理量较大,采用Chiron碱基序列识别方法无法较好地满足纳米孔测序技术的数据处理量,因而无法满足在大规模的碱基测序应用。
发明内容
本发明实施例的目的是提供一种碱基序列的识别方法、装置和存储介质,其通过时序卷积网络对电流信号进行时序建模,加快了神经网络推理速度,提高了碱基序列识别的效率。
为实现上述目的,本发明实施例提供了一种碱基序列的识别方法,包括步骤:
读取牛津纳米孔测序仪输出的数据文件并提取出待测的DNA/RNA分子对应的电流信号;
将所述电流信号按预设的重叠率截取出若干个预设长度的电流信号片段;
将每一所述电流信号片段输入预设的时序卷积网络模型中进行时序建模,以针对每一电流信号片段生成对应的碱基概率矩阵;其中,所述碱基概率矩阵为所述电流信号片段在每一采样时间点上出现碱基的概率分布;
根据每一所述碱基概率矩阵解码出对应的碱基序列片段,并根据每一碱基序列片段生成所述碱基序列。
作为上述方案的改进,所述将所述电流信号按预设的重叠率截取出若干个预设长度的电流信号片段,具体包括:
根据绝对中位差法对所述电流信号进行标准化;
将标准化后的电流信号按预设的重叠率截取出若干个预设长度的电流信号片段。
作为上述方案的改进,所述根据绝对中位差法对所述电流信号进行标准化,具体为:
根据绝对中位差法,通过以下计算公式对所述电流信号进行标准化:
其中,Xsd为标准化后的电流信号;Xraw为标准化前的电流信号;c为预设常数;m(Xraw)为电流信号Xraw的绝对中位差。
作为上述方案的改进,所述根据每一所述碱基概率矩阵解码出对应的碱基序列片段,并根据每一碱基序列片段生成所述碱基序列,具体包括:
将每一所述碱基概率矩阵输入预设的连接时间解码器,以使所述连接时间解码器执行集束搜索算法解码出对应的碱基序列片段;
将每一所述碱基序列片段以最大重叠区域进行拼接,以生成所述碱基序列。
作为上述方案的改进,所述预设的时序卷积网络模型由五层残差块和两层全连接层依次连接组成;其中,每一所述残差块包括两层膨胀因果卷积。
本发明实施例提供了一种碱基序列的识别装置,包括:电流信号获取模块、电流信号片段截取模块、碱基概率矩阵生成模块和碱基序列生成模块;其中,
所述电流信号获取模块,用于读取牛津纳米孔测序仪输出的数据文件并提取出待测的DNA/RNA分子对应的电流信号;
所述电流信号片段截取模块,用于将所述电流信号按预设的重叠率截取出若干个预设长度的电流信号片段;
所述碱基概率矩阵生成模块,用于将每一所述电流信号片段输入预设的时序卷积网络模型中进行时序建模,以针对每一电流信号片段生成对应的碱基概率矩阵;其中,所述碱基概率矩阵为所述电流信号片段在每一采样时间点上出现碱基的概率分布;
所述碱基序列生成模块,用于根据每一所述碱基概率矩阵解码出对应的碱基序列片段,并根据每一碱基序列片段生成所述碱基序列。
作为上述方案的改进,所述电流信号片段截取模块包括电流信号标准化单元和电流信号片段截取单元,其中,
所述电流信号标准化单元,用于根据绝对中位差法对所述电流信号进行标准化;
所述电流信号片段截取单元,用于将标准化后的电流信号按预设的重叠率截取出若干个预设长度的电流信号片段。
作为上述方案的改进,所述碱基序列生成模块包括碱基序列片段解码单元和碱基序列生成单元;其中,
所述碱基序列片段解码单元,用于将每一所述碱基概率矩阵输入预设的连接时间解码器,以使所述连接时间解码器执行集束搜索算法解码出对应的碱基序列片段;
所述碱基序列生成单元,用于将每一所述碱基序列片段以最大重叠区域进行拼接,以生成所述碱基序列。
本发明实施例还提供了另一种碱基序列的识别装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的碱基序列的识别方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任意一项所述的碱基序列的识别方法。
与现有技术相比,本发明公开的一种碱基序列的识别方法、装置和存储介质,通过牛津纳米孔测序仪器输出的数据文件提取出待测的DNA/RNA分子对应的电流信号后,将所述电流信号进行标准化,并按预设的重叠率截取出若干个预设长度的电流信号片段。将每一所述电流信号片段输入预设的时序卷积网络模型中进行时序建模,以生成碱基概率矩阵,并通过连接时间解码器解码出每一所述电流信号片段对应的碱基序列片段,最终生成完整的碱基序列。其通过时序卷积网络对电流信号进行时序建模,加快了神经网络推理速度,提高了碱基序列的识别精准性;且时序卷积结构的神经网络能实现并行计算的效果,进一步提高了碱基序列的识别效率。
附图说明
图1是本发明实施例一提供的一种碱基序列的识别方法的步骤流程示意图;
图2是本发明实施例一提供的一种优选的碱基序列的识别方法的流程示意图;
图3是本发明实施例一提供的碱基序列的识别方法中电流信号标准化方法的流程示意图;
图4是本发明实施例一提供的碱基序列的识别方法中碱基序列生成方法的流程示意图;
图5是本发明实施例二提供的一种碱基序列的识别方法中时序卷积网络模型的结构示意图;
图6是本发明实施例二提供的时序卷积网络模型中残差块的结构示意图;
图7是本发明实施例二提供的时序卷积网络模型中膨胀因果卷积的结构示意图;
图8是本发明实施例三提供的一种碱基序列的识别装置的结构示意图;
图9是本发明实施例四提供的另一种碱基序列的识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1-2,图1是本发明实施例一提供的一种碱基序列的识别方法的步骤流程示意图。图2是本发明实施例一提供的一种优选的碱基序列的识别方法的流程示意图。本发明实施例一提供的碱基序列的识别方法,包括步骤S11至S14:
S11、读取牛津纳米孔测序仪输出的数据文件并提取出待测的DNA/RNA分子对应的电流信号。
具体地,牛津纳米孔测序法是基于电信号的第三代单分子实时测序技术,可以直接读取DNA/RNA分子双链,并进行电流信号的捕获。在测序过程中,DNA/RNA双链首先与马达蛋白酶连接,并与镶嵌在生物膜上的纳米孔蛋白相结合、解螺旋,马达蛋白酶通过纳米孔控制DNA/RNA双链的移动,位移过程中纳米孔内的离子电流会随着孔内核酸的移动而波动,从而将波动的电流信号进行捕获并存储在数据文件中。通过与存储所述电流信号的数据文件连接,获取所述数据文件中所述待测DNA/RNA分子对应的电流信号,以进行后续的碱基序列识别过程。
s12、将所述电流信号按预设的重叠率截取出若干个预设长度的电流信号片段。
优选地,参见图3,是本发明实施例一提供的碱基序列的识别方法中电流信号标准化方法的流程示意图。步骤S12通过步骤S121至S122执行:
S121、根据绝对中位差法(MAD)对所述电流信号进行标准化。具体地,根据绝对中位差法,通过以下计算公式对所述电流信号进行标准化:
其中,Xsd为标准化后的电流信号;Xraw为标准化前的电流信号;c为预设常数;m(Xraw)为电流信号Xraw的绝对中位差。
使用绝对中位差法(MAD)对牛津纳米孔测序法捕获到的电流信号进行预处理,用于清理电流信号数据中的异常数据,将标准化后的电流信号进行后续的碱基序列识别,能够进一步提高碱基序列识别的精准性。
s122、将标准化后的电流信号按预设的重叠率截取出若干个预设长度的电流信号片段。
具体地,参见图2,预先设置所要截取的电流信号片段的长度T,其中,电流信号片段的长度T小于等于原始的电流信号长度。将标准化后的同一电流信号按照预设的重叠率截取出若干个长度为T的电流信号片段。优选地,所述重叠率为电流信号片段长度的也即
S13、将每一所述电流信号片段输入预设的时序卷积网络模型中进行时序建模,以针对每一电流信号片段生成对应的碱基概率矩阵;其中,所述碱基概率矩阵为所述电流信号片段在每一采样时间点上出现碱基的概率分布。
预先获取训练数据样本,并构建时序卷积网络模型进行训练,训练好的时序卷积网络模型用于在碱基序列识别过程中对输入电流信号进行分类预测,得到碱基出现概率。
具体地,将截取出来的每一所述电流信号片段依次输入预先训练好的时序卷积网络模型中,提取电流信号特征,并对提取到的电流信号特征进行时序建模,以针对每一电流信号生成对应的T×5的碱基概率矩阵,从而完成从特征空间对概率空间的映射,得到与输入的电流信号片段的每一采样时间点上出现碱基(ATCG)的概率。所述碱基概率矩阵的每一行都与所述电流信号片段的每一个采样时间点对应,用于表示在该采样时间点出现的碱基概率或空白占位符的概率。
在本发明实施例中,采用时序卷积网络对具有长程依赖关系的电流信号的特征进行时序建模。随着网络层数加深,时序卷积网络可获得更大的感受野,从而更好的建模长段电流中的时序关系。且时序卷积运算是以矩阵乘法的形式进行的,这种卷积形式的网络可以加快推理的速度,从而提高碱基序列识别的速率。同时,卷积结构具有高度的可并行性,可通过并行计算的技术手段进一步提高碱基识别的速率。
S14、根据每一所述碱基概率矩阵解码出所述电流信号片段对应的碱基序列片段,并根据每一碱基序列片段生成所述碱基序列。
具体地,参见图4,是本发明实施例一提供的碱基序列的识别方法中碱基序列生成方法的流程示意图。步骤S14通过步骤S141至S142执行:
S141、将每一所述碱基概率矩阵输入预设的连接时间解码器,以使所述连接时间解码器执行集束搜索算法解码出对应的碱基序列片段。
S142、将每一所述碱基序列片段以最大重叠区域进行拼接,以生成所述碱基序列。
在所述时序卷积网络模型的末端连接一个连接时间解码器,用于对所述碱基概率矩阵进行解码,得到预测的碱基序列片段。具体地,通过所述时序卷积网络模型得到碱基概率矩阵后,将所述碱基概率矩阵输入预设的连接时间解码器,所述连接时间解码器执行集束搜索算法,根据所述碱基概率矩阵解码得到出现概率最大的碱基序列片段,作为电流信号片段对应的碱基序列片段。通过对每一碱基概率矩阵进行解码,得到每一电流信号片段对应的碱基序列片段。
进一步地,对每一所述碱基序列片段按照最大重叠区域进行拼接,以生成完整的碱基序列,所述完整的碱基序列即为根据所述待测的DNA/RNA的电流信号识别得到的碱基序列。
本发明实施例一提供的一种碱基序列的识别方法,通过牛津纳米孔测序仪输出的数据文件提取待测的DNA/RNA分子对应的电流信号后,将所述电流信号进行标准化,并按预设的重叠率截取出若干个预设长度的电流信号片段。将每一所述电流信号片段输入预设的时序卷积网络模型中进行时序建模,以生成碱基概率矩阵,并通过连接时间解码器解码出每一所述电流信号片段对应的碱基序列片段,最终生成完整的碱基序列。其通过时序卷积网络对电流信号进行时序建模,加快了神经网络推理速度,提高了碱基序列的识别精准性;且时序卷积结构的神经网络能实现并行计算的效果,进一步提高了碱基序列的识别效率。
参见图5,是本发明实施例二提供的一种碱基序列的识别方法中时序卷积网络模型20的结构示意图。本发明实施例二在实施例一所述的碱基序列的识别方法的基础上实施,包括步骤S21至S24:
S21、读取牛津纳米孔测序仪输出的数据文件并提取出待测的DNA/RNA分子对应的电流信号;
S22、将所述电流信号按预设的重叠率截取出若干个预设长度的电流信号片段;
S23、将每一所述电流信号片段输入预设的时序卷积网络模型中进行时序建模,以针对每一电流信号片段生成对应的碱基概率矩阵;其中,所述碱基概率矩阵为所述电流信号片段在每一采样时间点上出现碱基的概率分布;
S24、根据每一所述碱基概率矩阵解码出对应的碱基序列片段,并根据每一碱基序列片段生成所述碱基序列。
在本实施方式中,步骤S21至S24的执行过程与实施例一中的步骤S11至S14相同,在此不再赘述。
作为优选的实施方式,所述预设的时序卷积网络模型20由五层残差块21和两层全连接层22依次连接组成;其中,每一所述残差块包括两层膨胀因果卷积。
具体地,参见图5,所述预设的时序卷积网络模型20由五层堆叠的残差块21和两层全连接层22构成,所述残差块的卷积核的大小为k=3。每一电流信号片段输入所述时序卷积网络模型后,依次通过五层残差层21和两层全连接层22进行卷积计算,在经过最后一层全连接层22输出后,使用softmax函数激活以获得对应的碱基概率矩阵。在时序卷积网络模型20之后接上连接时间解码器,由连接时间解码器对输入的碱基概率矩阵进行解码,并输出预测的碱基序列片段。
优选地,参见图6-7,图6是本发明实施例二提供的时序卷积网络模型中残差块的结构示意图;图7是本发明实施例二提供的时序卷积网络模型中膨胀因果卷积的结构示意图。
在本发明实施例中,残差块21主要由两层堆叠的膨胀因果卷积层构成。随着神经网络层数的增加,膨胀因子d按2的指数倍增长。作为举例,残差块1的膨胀因子d=1,残差块2的膨胀因子d=2,残差块3的膨胀因子d=4,残差块4的膨胀因子d=8,残差块5的膨胀因子d=16。神经网络的感受野R随着膨胀因子d成倍增长,感受野R=(k-1)d,其中,k为卷积核大小。对于输入信号Xsd=[x1,x2,...,xT]和卷积核f:{0,...,k-1}→R,因果卷积的计算公式如下:
每一层因果卷积计算结束后,都通过权重正则化(Weight Norm)对卷积网络的权重进行正则化操作。由于DNA以及RNA分子的复杂性和多变性,以及测序过程中的噪声,现有的碱基识别算法的错误率较高,通过对网路的权重进行归一化,可降低网络对噪声的敏感性以获得更鲁棒的学习效果,从而增强网络的稳定性,同时也能加快网络的收敛速度。
需要说明的是,通过门控线性单元对每个因果卷积层的输出进行激活,以起到特征选择的作用。残差连接是在第一个因果卷积的输入和第二个因果卷积的输出进行残差连接,以保证残差块的输入与输出维度一致,同时减少梯度消失的影响。
在本发明实施例中,对时序卷积网络模型进行改进。采用本发明实施例的时序卷积网络模型,与现有技术的Chiron相比,可显著降低碱基识别的错误率,有效地提高了碱基序列的识别速率和精准性。
本发明实施例二提供的一种碱基序列的识别方法,通过牛津纳米孔测序仪输出的数据文件提取出待测的DNA/RNA分子对应的电流信号后,将所述电流信号进行标准化,并按预设的重叠率截取出若干个预设长度的电流信号片段。将每一所述电流信号片段输入预设的时序卷积网络模型中进行时序建模,以生成碱基概率矩阵,并通过连接时间解码器解码出每一所述电流信号片段对应的碱基序列片段,最终生成完整的碱基序列。其通过时序卷积网络对电流信号进行时序建模,加快了神经网络推理速度,提高了碱基序列的识别精准性;且时序卷积结构的神经网络能实现并行计算的效果,进一步提高了碱基序列的识别效率。
参见图8,是本发明实施例三提供的一种碱基序列的识别装置的结构示意图。本发明实施例提供了一种碱基序列的识别装置30,包括:电流信号获取模块31、电流信号片段截取模块32、碱基概率矩阵生成模块33和碱基序列生成模块34;其中,
所述电流信号获取模块31,用于读取牛津纳米孔测序仪输出的数据文件并提取出待测的DNA/RNA分子对应的电流信号;
所述电流信号片段截取模块32,用于将所述电流信号按预设的重叠率截取出若干个预设长度的电流信号片段;
所述碱基概率矩阵生成模块33,用于将每一所述电流信号片段输入预设的时序卷积网络模型中进行时序建模,以针对每一电流信号片段生成对应的碱基概率矩阵;其中,所述碱基概率矩阵为所述电流信号片段在每一采样时间点上出现碱基的概率分布;
所述碱基序列生成模块34,用于根据每一所述碱基概率矩阵解码出对应的碱基序列片段,并根据每一碱基序列片段生成所述碱基序列。
作为优选,所述电流信号片段截取模块32包括电流信号标准化单元321和电流信号片段截取单元322,其中,
所述电流信号标准化单元321,用于根据绝对中位差法对所述电流信号进行标准化;
所述电流信号片段截取单元322,用于将标准化后的电流信号按预设的重叠率截取出若干个预设长度的电流信号片段。
作为优选,所述碱基序列生成模块34包括碱基序列片段解码单元341和碱基序列生成单元342;其中,
所述碱基序列片段解码单元341,用于将每一所述碱基概率矩阵输入预设的连接时间解码器,以使所述连接时间解码器执行集束搜索算法解码出对应的碱基序列片段;
所述碱基序列生成单元342,用于将每一所述碱基序列片段以最大重叠区域进行拼接,以生成所述碱基序列。
需要说明的是,本发明实施例提供的一种碱基序列的识别装置用于执行上述实施例一或实施例二中的一种碱基序列的识别方法的所有流程步骤,两者的工作原理和有益效果一一对应,因而不再赘述。
本发明实施例三提供的一种碱基序列的识别装置,通过牛津纳米孔测序仪输出的数据文件提取出待测的DNA/RNA分子对应的电流信号后,将所述电流信号进行标准化,并按预设的重叠率截取出若干个预设长度的电流信号片段。将每一所述电流信号片段输入预设的时序卷积网络模型中进行时序建模,以生成碱基概率矩阵,并通过连接时间解码器解码出每一所述电流信号片段对应的碱基序列片段,最终生成完整的碱基序列。其通过时序卷积网络对电流信号进行时序建模,加快了神经网络推理速度,提高了碱基序列的识别精准性;且时序卷积结构的神经网络能实现并行计算的效果,进一步提高了碱基序列的识别效率。
参见图9,是本发明实施例四提供的另一种碱基序列的识别装置的结构示意图。本发明实施例四提供了一种碱基序列的识别装置40,包括处理器41、存储器42以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如实施例一或实施例二中任意一项所述的碱基序列的识别方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如实施例一或实施例二中任意一项所述的碱基序列的识别方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (4)
1.一种碱基序列的识别方法,其特征在于,包括步骤:
读取牛津纳米孔测序仪输出的数据文件并提取出待测的DNA/RNA分子对应的电流信号;
将所述电流信号按预设的重叠率截取出若干个预设长度的电流信号片段;
将每一所述电流信号片段输入预设的时序卷积网络模型中进行时序建模,以针对每一电流信号片段生成对应的碱基概率矩阵;其中,所述碱基概率矩阵为所述电流信号片段在每一采样时间点上出现碱基的概率分布;
根据每一所述碱基概率矩阵解码出对应的碱基序列片段,并根据每一碱基序列片段生成所述碱基序列;
所述将所述电流信号按预设的重叠率截取出若干个预设长度的电流信号片段,具体包括:
根据绝对中位差法对所述电流信号进行标准化;
将标准化后的电流信号按预设的重叠率截取出若干个预设长度的电流信号片段;
所述根据绝对中位差法对所述电流信号进行标准化,具体为:
根据绝对中位差法,通过以下计算公式对所述电流信号进行标准化:
其中,Xsd为标准化后的电流信号;Xraw为标准化前的电流信号;c为预设常数;m(Xraw)为电流信号Xraw的绝对中位差;
所述根据每一所述碱基概率矩阵解码出对应的碱基序列片段,并根据每一碱基序列片段生成所述碱基序列,具体包括:
将每一所述碱基概率矩阵输入预设的连接时间解码器,以使所述连接时间解码器执行集束搜索算法解码出对应的碱基序列片段;
将每一所述碱基序列片段以最大重叠区域进行拼接,以生成所述碱基序列;
所述预设的时序卷积网络模型由五层残差块和两层全连接层依次连接组成;其中,每一所述残差块包括两层膨胀因果卷积。
2.一种碱基序列的识别装置,其特征在于,包括:电流信号获取模块、电流信号片段截取模块、碱基概率矩阵生成模块和碱基序列生成模块;其中,
所述电流信号获取模块,用于读取牛津纳米孔测序仪输出的数据文件并提取出待测的DNA/RNA分子对应的电流信号;
所述电流信号片段截取模块,用于将所述电流信号按预设的重叠率截取出若干个预设长度的电流信号片段;
所述碱基概率矩阵生成模块,用于将每一所述电流信号片段输入预设的时序卷积网络模型中进行时序建模,以针对每一电流信号片段生成对应的碱基概率矩阵;其中,所述碱基概率矩阵为所述电流信号片段在每一采样时间点上出现碱基的概率分布;
所述碱基序列生成模块,用于根据每一所述碱基概率矩阵解码出对应的碱基序列片段,并根据每一碱基序列片段生成所述碱基序列;
所述电流信号片段截取模块包括电流信号标准化单元和电流信号片段截取单元;其中,
所述电流信号标准化单元,用于根据绝对中位差法对所述电流信号进行标准化;
所述电流信号片段截取单元,用于将标准化后的电流信号按预设的重叠率截取出若干个预设长度的电流信号片段;
所述电流信号标准化单元,具体用于:
根据绝对中位差法,通过以下计算公式对所述电流信号进行标准化:
其中,Xsd为标准化后的电流信号;Xraw为标准化前的电流信号;c为预设常数;m(Xraw)为电流信号Xraw的绝对中位差;
所述碱基序列生成模块包括碱基序列片段解码单元和碱基序列生成单元;其中,
所述碱基序列片段解码单元,用于将每一所述碱基概率矩阵输入预设的连接时间解码器,以使所述连接时间解码器执行集束搜索算法解码出对应的碱基序列片段;
所述碱基序列生成单元,用于将每一所述碱基序列片段以最大重叠区域进行拼接,以生成所述碱基序列;
所述预设的时序卷积网络模型由五层残差块和两层全连接层依次连接组成;其中,每一所述残差块包括两层膨胀因果卷积。
3.一种碱基序列的识别装置,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1所述的碱基序列的识别方法。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1所述的碱基序列的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010026283.2A CN111243674B (zh) | 2020-01-08 | 2020-01-08 | 一种碱基序列的识别方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010026283.2A CN111243674B (zh) | 2020-01-08 | 2020-01-08 | 一种碱基序列的识别方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111243674A CN111243674A (zh) | 2020-06-05 |
CN111243674B true CN111243674B (zh) | 2023-07-04 |
Family
ID=70864965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010026283.2A Active CN111243674B (zh) | 2020-01-08 | 2020-01-08 | 一种碱基序列的识别方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111243674B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112309503A (zh) * | 2020-10-19 | 2021-02-02 | 深圳市儒翰基因科技有限公司 | 基于纳米孔电信号的碱基判读方法、判读设备及存储介质 |
CN112183486B (zh) * | 2020-11-02 | 2023-08-01 | 中山大学 | 基于深度网络快速识别单分子纳米孔测序碱基方法 |
CN112652356B (zh) * | 2021-01-19 | 2024-01-26 | 深圳市儒瀚科技有限公司 | 一种dna甲基化表观修饰的识别方法、识别设备及存储介质 |
CN113462544A (zh) * | 2021-07-01 | 2021-10-01 | 南方科技大学 | 核酸序列的检测方法、装置、系统、控制设备 |
CN113837036B (zh) * | 2021-09-09 | 2024-08-02 | 成都齐碳科技有限公司 | 生物聚合物的表征方法、装置、设备及计算机存储介质 |
CN113870949B (zh) * | 2021-10-08 | 2022-05-17 | 东北林业大学 | 基于深度学习的nanopore测序数据碱基识别方法 |
CN116486910B (zh) * | 2022-10-17 | 2023-12-22 | 北京普译生物科技有限公司 | 纳米孔测序碱基识别的深度学习训练集建立方法及其应用 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103390119A (zh) * | 2013-07-03 | 2013-11-13 | 哈尔滨工程大学 | 一种转录因子结合位点识别方法 |
CN109448795A (zh) * | 2018-11-12 | 2019-03-08 | 山东农业大学 | 一种circRNA的识别方法及装置 |
CN110570908A (zh) * | 2019-11-05 | 2019-12-13 | 南京医基云医疗数据研究院有限公司 | 测序序列多态识别方法及装置、存储介质、电子设备 |
-
2020
- 2020-01-08 CN CN202010026283.2A patent/CN111243674B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103390119A (zh) * | 2013-07-03 | 2013-11-13 | 哈尔滨工程大学 | 一种转录因子结合位点识别方法 |
CN109448795A (zh) * | 2018-11-12 | 2019-03-08 | 山东农业大学 | 一种circRNA的识别方法及装置 |
CN110570908A (zh) * | 2019-11-05 | 2019-12-13 | 南京医基云医疗数据研究院有限公司 | 测序序列多态识别方法及装置、存储介质、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111243674A (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111243674B (zh) | 一种碱基序列的识别方法、装置和存储介质 | |
CN111312329B (zh) | 基于深度卷积自动编码器的转录因子结合位点预测的方法 | |
CN111914873A (zh) | 一种两阶段云服务器无监督异常预测方法 | |
CN113673346B (zh) | 一种基于多尺度SE-Resnet的电机振动数据处理与状态识别方法 | |
CN111564179B (zh) | 一种基于三元组神经网络的物种生物学分类方法及系统 | |
CN111507155A (zh) | 联合U-Net++和UDA的微地震有效信号初至拾取方法及装置 | |
CN113571125A (zh) | 基于多层网络与图编码的药物靶点相互作用预测方法 | |
CN112164426A (zh) | 基于TextCNN的药物小分子靶点活性预测方法和装置 | |
CN116312748A (zh) | 基于多头注意力机制的增强子-启动子相互作用预测模型构建方法 | |
CN114841216B (zh) | 一种基于模型不确定性学习的脑电信号分类方法 | |
CN113129908A (zh) | 基于循环帧级特征融合的端到端猕猴声纹验证方法及系统 | |
CN114582420B (zh) | 一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统 | |
CN115037805A (zh) | 一种基于深度聚类的未知网络协议识别方法、系统、装置及存储介质 | |
CN114301719B (zh) | 一种基于变分自编码器的恶意更新检测方法及系统 | |
CN118197434B (zh) | 一种dna启动子及其强度的两阶段预测方法 | |
CN118038995B (zh) | 非编码rna中小开放阅读窗编码多肽能力预测方法及系统 | |
CN114781779A (zh) | 一种无监督能耗异常检测方法、装置及存储介质 | |
CN117594132A (zh) | 基于鲁棒性残差图卷积网络的单细胞rna序列数据聚类方法 | |
CN116386720A (zh) | 基于深度学习和注意力机制的单细胞转录因子预测方法 | |
CN114783507B (zh) | 基于二级结构特征编码的药物-蛋白亲和力预测方法及装置 | |
CN115329821A (zh) | 一种基于配对编码网络和对比学习的舰船噪声识别方法 | |
CN115273965A (zh) | 一种多类型rna甲基化修饰位点预测方法 | |
CN112309495B (zh) | 基于机器学习的海藻固碳蛋白预测方法及系统 | |
CN114093423A (zh) | 病变dna识别方法、装置、电子设备及存储介质 | |
CN114187963A (zh) | 全长环状rna上蛋白绑定核苷酸位点的预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |