CN117744748B - 一种神经网络模型训练、碱基识别方法及装置、电子设备 - Google Patents
一种神经网络模型训练、碱基识别方法及装置、电子设备 Download PDFInfo
- Publication number
- CN117744748B CN117744748B CN202410186555.3A CN202410186555A CN117744748B CN 117744748 B CN117744748 B CN 117744748B CN 202410186555 A CN202410186555 A CN 202410186555A CN 117744748 B CN117744748 B CN 117744748B
- Authority
- CN
- China
- Prior art keywords
- base recognition
- base
- recognition model
- training
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 138
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000003062 neural network model Methods 0.000 title claims abstract description 30
- 238000012163 sequencing technique Methods 0.000 claims abstract description 125
- 238000013139 quantization Methods 0.000 claims description 45
- 238000010606 normalization Methods 0.000 claims description 34
- 238000007781 pre-processing Methods 0.000 claims description 31
- 238000000605 extraction Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 23
- 238000003860 storage Methods 0.000 claims description 22
- 238000012512 characterization method Methods 0.000 claims description 19
- 238000002372 labelling Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000005520 cutting process Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 2
- 108090000623 proteins and genes Proteins 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 24
- 238000012545 processing Methods 0.000 description 19
- 239000013598 vector Substances 0.000 description 15
- 230000007246 mechanism Effects 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 11
- 238000007672 fourth generation sequencing Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000009966 trimming Methods 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 2
- 102000053602 DNA Human genes 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 229920002477 rna polymer Polymers 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本公开涉及生物学基因测序领域,公开了一种神经网络模型训练、碱基识别方法及装置、电子设备,该方法包括:根据自监督预训练得到的基础模块和多个类型的微调模块,确定多个类型的碱基识别模型;针对任意一个类型的碱基识别模型,基于该碱基识别模型对样本碱基序列在预设测序场景下的样本电信号进行识别,确定该碱基识别模型对应的碱基识别结果;根据每个类型的碱基识别模型对应的碱基识别结果,对每个类型的碱基识别模型进行训练,得到训练后的多个类型的碱基识别模型;根据训练后的多个类型的碱基识别模型,确定在预设测序场景下的目标碱基识别模型。通过本公开实施例确定的碱基识别模型,能够提高碱基识别的精度和可靠性。
Description
技术领域
本公开涉及生物学基因测序领域,尤其涉及一种神经网络模型训练、碱基识别方法及装置、电子设备。
背景技术
纳米孔测序技术是现代基因组学中常用的高通量测序技术。在纳米孔测序技术中,根据测序电信号准确识别碱基序列对下游分析至关重要。但是,待识别碱基序列对应的测序电信号会受到噪声、电极漂移和碱基之间的相互作用等多种因素的影响,导致现有技术中的碱基识别方法的识别精度和可靠性不足。
发明内容
有鉴于此,本公开提出了一种神经网络模型训练、碱基识别方法及装置、电子设备的技术方案。
根据本公开的一方面,提供了一种神经网络模型训练方法,包括:根据自监督预训练得到的基础模块和多个类型的微调模块,确定多个类型的碱基识别模型;针对任意一个类型的碱基识别模型,基于该碱基识别模型,对样本碱基序列在预设测序场景下对应的样本电信号进行识别,确定该碱基识别模型对应的碱基识别结果;根据每个类型的碱基识别模型对应的碱基识别结果,对每个类型的碱基识别模型进行训练,得到训练后的多个类型的碱基识别模型;根据训练后的多个类型的碱基识别模型,确定在所述预设测序场景下的目标碱基识别模型,其中,所述目标碱基识别模型用于对待识别碱基序列在所述预设测序场景下对应的测序电信号进行碱基识别。
在一种可能的实现方式中,所述基础模块包括:特征提取子模块,编码子模块和量化子模块,其中,所述特征提取子模块用于确定所述样本电信号对应的浅层特征,所述编码子模块用于根据所述浅层特征,确定上下文表征,所述量化子模块用于根据对所述上下文表征进行离散化。
在一种可能的实现方式中,所述特征提取子模块包括多组卷积层,其中,每组卷积层包括一维卷积层、批次归一化和缩放指数线性单元激活函数;所述编码子模块包括多组编码层,其中,每组编码层包括动态位置编码的多头自注意力层、层归一化、前馈层、逐点卷积层、门控线性单元和深度卷积层;所述量化子模块包括线性层、量化算法层和码本。
在一种可能的实现方式中,所述针对任意一个类型的碱基识别模型,基于该碱基识别模型,对样本碱基序列在预设测序场景下对应的样本电信号进行识别,确定该碱基识别模型对应的碱基识别结果,包括:针对任意一个类型的碱基识别模型,将所述样本电信号输入该碱基识别模型对应的基础模块,确定所述样本电信号对应的信号特征;将所述信号特征输入该碱基识别模型对应的微调模块,确定该碱基识别模型对应的碱基识别结果。
在一种可能的实现方式中,所述根据每个类型的碱基识别模型对应的碱基识别结果,对每个类型的碱基识别模型进行训练,得到训练后的多个类型的碱基识别模型,包括:针对任意一个类型的碱基识别模型,根据该碱基识别模型对应的碱基识别结果,以及所述样本碱基序列对应的标注信息,确定该碱基识别模型对应的识别损失;根据该碱基识别模型对应的识别损失,对该碱基识别模型进行训练,直至到达预设训练条件,得到训练后的该类型的碱基识别模型。
在一种可能的实现方式中,所述根据训练后的多个类型的碱基识别模型,确定在所述预设测序场景下的目标碱基识别模型,包括:分别确定训练后的每个类型的碱基识别模型对应的识别准确率;将识别准确率最高的训练后的碱基识别模型,确定为所述目标碱基识别模型。
在一种可能的实现方式中,所述方法还包括:在所述预设测序场景下,确定所述样本碱基序列对应的原始电信号;对所述原始电信号进行数据预处理,确定所述样本电信号,其中,所述数据预处理包括信号裁剪和信号归一化。
根据本公开的另一方面,提供了一种碱基识别方法,包括:在预设测序场景下,确定待识别碱基序列对应的测序电信号;对所述测序电信号进行数据预处理,确定待识别电信号,其中,所述数据预处理包括信号裁剪和信号归一化;根据目标碱基识别模型,对所述待识别电信号进行碱基识别,确定所述待识别碱基序列对应的碱基识别结果,其中,所述目标碱基识别模型通过上述方法训练得到。
根据本公开的另一方面,提供了一种神经网络模型训练装置,包括:模型构建模块,用于根据自监督预训练得到的基础模块和多个类型的微调模块,确定多个类型的碱基识别模型;碱基识别模块,用于针对任意一个类型的碱基识别模型,基于该碱基识别模型,对样本碱基序列在预设测序场景下对应的样本电信号进行识别,确定该碱基识别模型对应的碱基识别结果;训练模块,用于根据每个类型的碱基识别模型对应的碱基识别结果,对每个类型的碱基识别模型进行训练,得到训练后的多个类型的碱基识别模型;目标模型确定模块,用于根据训练后的多个类型的碱基识别模型,确定在所述预设测序场景下的目标碱基识别模型,其中,所述目标碱基识别模型用于对待识别碱基序列在所述预设测序场景下对应的测序电信号进行碱基识别。
根据本公开的另一方面,提供了一种碱基识别装置,包括:测序电信号确定模块,用于在预设测序场景下,确定待识别碱基序列对应的测序电信号;数据预处理模块,用于对所述测序电信号进行数据预处理,确定待识别电信号,其中,所述数据预处理包括信号裁剪和信号归一化;碱基识别模块,用于根据目标碱基识别模型,对所述待识别电信号进行碱基识别,确定所述待识别碱基序列对应的碱基识别结果,其中,所述目标碱基识别模型通过上述方法训练得到。
根据本公开的另一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为在执行所述存储器存储的指令时,实现上述方法。
根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。
在本公开实施例中,根据自监督预训练得到的基础模块和多个类型的微调模块,可以确定多个类型的碱基识别模型,从而将大规模预训练模型的思想引入碱基识别领域,可以避免现有技术中常用碱基识别方法应用的神经网络模型准确度和可靠性较低的缺点,并且对基础模块进行自监督预训练,可以使用只有少量标注信息的样本电信号,学习到具有较高鲁棒性的信号特征,可以减少获取具有大量准确标注信息的样本电信号的人力成本和时间成本,提高碱基识别模型的训练效率。针对任意一个类型的碱基识别模型,基于该碱基识别模型,对样本碱基序列在预设测序场景下对应的样本电信号进行识别,可以确定该碱基识别模型对应的碱基识别结果;根据每个类型的碱基识别模型对应的碱基识别结果,可以对每个类型的碱基识别模型进行训练,得到训练后的多个类型的碱基识别模型;根据训练后的多个类型的碱基识别模型,可以确定在预设测序场景下的目标碱基识别模型,目标碱基识别模型可以用于对待识别碱基序列在预设测序场景下对应的测序电信号进行碱基识别。通过本公开实施例确定的基于大规模自监督预训练的碱基识别模型,能够从测序电信号提取到具有较高鲁棒性的信号特征,从而能够提高模型的碱基识别精度和可靠性。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开实施例的一种神经网络模型训练方法的流程图。
图2示出根据本公开实施例的一种基础模块的网络结构的示意图。
图3示出根据本公开实施例的一种基础模块的自监督训练损失的变化示意图。
图4示出根据本公开实施例的每个类型的碱基识别模型对应的识别准确率的示意图。
图5示出根据本公开实施例的目标碱基识别模型与现有技术中的碱基识别模型的识别准确率的示意图。
图6示出根据本公开实施例的一种碱基识别方法的流程图。
图7示出根据本公开实施例的一种神经网络模型训练装置的框图。
图8示出根据本公开实施例的一种碱基识别装置的框图。
图9示出根据本公开实施例的一种电子设备的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
纳米孔测序技术是现代基因组学中常用的高通量测序技术。在纳米孔测序技术中,根据测序电信号准确识别碱基序列对下游分析至关重要。但是,待识别碱基序列对应的测序电信号会受到噪声、电极漂移和碱基之间的相互作用等多种因素的影响,很难实现对测序电信号的高精度解码。
现有技术中,通常采用基于隐马尔可夫模型(HMM)、循环神经网络(RNN)、卷积神经网络(CNN)等神经网络模型的碱基识别方法,对待识别碱基对应的测序电信号进行识别(解码)。但是,这些常用的神经网络模型在用于碱基识别时,都存在影响碱基识别准确度和可靠性的不足,例如,HMM模型需要手动从测序电信号中提取特征,并且对远程依赖关系的建模能力有限;RNN模型虽然可以对长期依赖关系进行建模,但是RNN模型存在梯度消失和爆炸的问题;CNN模型则很难捕捉测序电信号中的时间信息等。因此,受限于神经网络模型本身的性能不足,基于这些神经网络模型的碱基识别方法的解码精度和可靠性较低。
有鉴于此,本公开实施例提供了一种神经网络模型训练方法,可以将大规模预训练模型引入纳米孔测序技术领域,确定一种包括自监督预训练得到的基础模块的碱基识别模型。通过本公开实施例确定的碱基识别模型对待识别碱基序列对应的测序电信号进行碱基识别,可以提高碱基识别的准确度和可靠性。下面对本公开实施例提供的神经网络模型训练方法进行详细说明。
图1示出根据本公开实施例的一种神经网络模型训练方法的流程图。该神经网络模型训练方法可以由终端设备或服务器等电子设备执行,终端设备可以为用户设备(UserEquipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(PersonalDigital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等,该神经网络模型训练方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。或者,可通过服务器执行该神经网络模型训练方法。如图1所示,该神经网络模型训练方法包括:
在步骤S11中,根据自监督预训练得到的基础模块和多个类型的微调模块,确定多个类型的碱基识别模型。
大规模预训练模型是一种基于大规模数据集,通过自监督预训练过程,学习样本数据中的语言知识和语义表示的深度学习模型,广泛应用于解决各种自然语言相关的处理任务。
基于大量的未标记的电信号,可以通过自监督预训练得到基础模块;将基础模块与多个类型的微调模块结合,可以确定多个类型的碱基识别模型,从而实现将大规模预训练的思想引入碱基识别领域。
在一种可能的实现方式中,基础模块包括:特征提取子模块,编码子模块和量化子模块,其中,特征提取子模块用于确定样本电信号对应的浅层特征,编码子模块用于根据浅层特征,确定上下文表征,量化子模块用于根据对上下文表征进行离散化。
图2示出根据本公开实施例的一种基础模块的网络结构的示意图。如图2所示,基础模块包括特征提取子模块,编码子模块和量化子模块。
具体的,利用特征提取子模块,可以对输入基础模块的样本电信号进行特征提取,确定样本电信号对应的浅层特征。
编码子模块可以提取样本电信号对应的碱基序列中,每个碱基之间的权重和特征,从而根据浅层特征,确定上下文表征。
通过量化子模块对编码子模块输出的上下文表征(连续特征向量)进行离散化,可以获取被样本电信号中遮蔽掉的特征,以确定量化表征(离散特征向量),便于微调模块可以根据碱基识别任务直接对量化表征进行处理。
在一种可能的实现方式中,特征提取子模块包括多组卷积层,其中,每组卷积层包括一维卷积层、批次归一化和缩放指数线性单元激活函数;编码子模块包括多组编码层,其中,每组编码层包括动态位置编码的多头自注意力层、层归一化、前馈层、逐点卷积层、门控线性单元和深度卷积层;量化子模块包括线性层、量化算法层和码本。
以上述图2为例,如图2所示,特征提取子模块可以包括多组卷积层,每组卷积层包括一维卷积层、批次归一化和缩放指数线性单元(Scaled Exponential Linear Unit,SiLU)激活函数。特征提取子模块中卷积层的组数、以及每组卷积层的具体参数,可以根据实际的使用需求灵活设置,本公开对此不做具体限定。
在一示例中,特征提取子模块可以包括三组卷积层,第一组卷积层对应的输出维度为4,卷积核宽度为5,卷积步长为1;第二组卷积层对应的输出维度为16,卷积核宽度为5,卷积步长为1;第三组卷积层对应的输出维度为768,卷积核宽度为19,步长为5。
SiLU激活函数可以表示为公式(1)和(2):
其中,f(x)表示SiLU激活函数的输出结果;x表示输入基础模块的电信号。
以上述图2为例,如图2所示,编码子模块可以包括多组编码层(Transformer),每组编码层包括动态位置编码的多头自注意力层、层归一化、前馈层、逐点卷积层(PointwiseConvolution)、门控线性单元和深度卷积层(Depthwise Convolution)。
与RNN不同,Transformer采用并行计算结构,其本质上是一个无状态的网络模型,没有显式的顺序信息。因此,需要引入位置编码(Positional Encoding,PE)机制,将碱基序列中的碱基顺序信息输入Transformer,使其能够捕捉到不同碱基在碱基序列中的相对位置关系,更好地处理碱基序列中的长距离依赖关系,帮助理解碱基序列中不同位置的语义差异。基于PE机制确定的碱基序列的绝对位置编码可以表示为公式(3)和(4):
其中,pos表示输入基础模块的电信号对应的碱基序列中,任意一个碱基的位置;i表示编码向量中的维度;dmodel表示Transformer的维度,dmodel的具体取值,可以根据实际的使用需求灵活设置,例如,可以设置为768等,本公开对此不做具体限定;表示碱基序列的第2i个位置对应的正弦位置编码向量;/>表示碱基序列的第2i+1个位置对应的余弦位置编码向量。
基于自注意力机制,可以同时关注碱基序列中的所有位置,从而捕捉到全局的依赖关系。并且,自注意力机制允许Transformer能够关注与碱基识别任务相关的重要信息,将更多的注意力集中在与碱基识别任务相关的位置上。相对于固定权重机制,基于自注意力机制能够提高Transformer对碱基识别任务的适应性。基于绝对位置编码的自注意力机制,能够使碱基识别模型对固定长度的电信号进行准确的碱基识别。但是,当输入的电信号的长度发生变化时,碱基识别的准确性可能会受到影响。在此基础上,本公开实施例通过在自注意力机制中增加预设的向量偏移量,可以将碱基序列的绝对位置编码调整为动态位置编码(相对位置编码),从而可以增强基础模块对不同长度的电信号进行特征提取和语义学习的鲁棒性,提高碱基识别模型的对不同长度电信号的碱基识别准确性。动态位置编码的自注意力机制可以表示为公式(5)和(6):
其中,X表示特征提取子模块输出的特征矩阵;表示Transformer中三个可训练的参数矩阵;Q表示查询矩阵,K表示键矩阵,V表示值矩阵,Q、K、V可以通过对输入Transformer的特征矩阵X进行线性变换确定;softmax表示softmax函数;vk和vp表示查询矩阵对应的向量偏置;dk表示键矩阵K的维度;/>表示正弦位置编码向量或余弦位置编码向量的转置矩阵;/>表示注意力权重。
在此基础上,多头自注意力机制允许Transformer同时学习多个不同的注意力表示。多头自注意力机制中,每个注意力头可以关注碱基序列中的不同部分,从而可以提供多个独立的表达能力。基于多头注意力可以捕捉到不同层次的语义信息,使得Transformer能够更好地理解输入序列,提升Transformer的表征和泛化能力。动态位置编码的多头自注意力可以表示为公式(7)和(8):
其中,MultiHead表示多头注意力函数;Concat表示向量拼接操作;headi表示多头注意力中的第i个注意力头;表示Transformer中可训练的参数矩阵;/>、/>和/>分别表示第i个注意力头中可训练的参数矩阵。
通过上述过程,可以将碱基序列的动态位置编码整合到多头自注意力中,使基础模块具有较高的鲁棒性,可以在对电信号进行碱基识别的过程中,根据不同的上下文信息确定电信号对应的碱基序列中每个碱基的相对位置,从而能够增强碱基识别模型对输入的不同长度的电信号进行碱基识别的准确性。
由于动态位置编码的多头自注意力机制对碱基序列的不同位置分配了不同权重,为了进一步避免碱基序列的序列长度对归一化效果的影响,本公开实施例通过层归一化方法进行归一化。层归一化方法的具体计算原理可以表示为公式(9)和公式(10):
其中,表示层归一化结果;/>表示任意一个自注意力头输出的注意力表征;/>表示注意力表征的均值;/>表示注意力表征的标准差;/>表示注意力表征的范数;a2和b2表示Transformer中可训练的网络参数,a2和b2的维度与输入/>的维度相同。
经过动态位置编码的多头自注意力处理后,可以对多头自注意力输出的特征进行逐点卷积和深度卷积处理,以增加基础模块的局部建模能力,并提高基础模块的处理效率。
具体的,逐点卷积层可以在通道维度对输入特征进行卷积处理,减少输入特征的通道数,从而降低基础模块特征处理的运算量,并减少基础模块中的网络参数的数量;深度卷积层可以分别在每个通道对输入特征在空间维度进行卷积处理,可以在保留输入特征的空间信息的基础上,降低基础模块特征处理的运算量,并减少基础模块中的网络参数的数量。
另外,可以在逐点卷积层和深度卷积层之间增加门控线性单元。利用门控线性单元的门控机制,可以调节基础模块的学习能力,保证基础模块可以梯度平稳收敛,使碱基识别模型具有较高的稳定性。
在对基础模块进行自监督预训练的过程中,为了确定被基础模块遮蔽掉的特征,可以通过量化子模块对编码子模块输出的上下文表征(连续特征向量)进行离散化,以确定量化表征(离散特征向量)并计算损失。量化子模块采用的量化方法,可以根据实际的使用需求灵活设置,例如,可以是耿贝尔归一化指数函数(Gumbel Softmax)量化方法,也可以是K均值聚类算法(K-means clustering)量化方法等,本公开对此不做具体限定。
以上述图2为例,如图2所示,量化子模块中包括线性层、量化算法层和码本。其中,量化算法层可以采用Gumbel Softmax量化方法对上下文表征进行量化。
通过线性层,可以将输入的连续的特征向量空间投射至多个离散子空间,确定多个量化表征(离散特征向量);Gumbel softmax是一种重参数化技巧,可以用于解决离散随机变量采样时梯度消失问题,基于Gumbel softmax的量化算法层可以将离散向量进行可微分化;码本可以表示存储各离散子空间维度的特征矩阵。Gumbel softmax的具体计算原理可以表示为公式(11):
其中,表示任意一个量化表征在一个码本上的Gumbel softmax概率;/>表示Gumbel softmax的非负温度,可以用于避免基础模块在确定输出的信号特征时,出现梯度爆炸或消失现象;/>表示码本中的任意一个条目,/>,其中,G表示码本数,V表示每个码本中条目数;v,k∈V,g∈G;/>;/>;/>表示基础模块输出的概率矩阵。
在一种可能的实现方式中,根据自监督训练损失,对基础模块进行自监督预训练。
具体的,自监督训练损失可以包括对比损失和多样性损失。其中,对比损失(Contrastive Loss),可以用于确定上下文表征和量化表征之间的余弦相似度,余弦相似度可以表示量化子模块当前输出的一个量化表征与编码子模块输出的上下文表征之间的相似度最大,与当前输出的其他量化表征之间的相似度最小;对比损失可以表示为公式(12):
其中,表示上下文表征和量化表征之间的余弦相似度;ct表示编码子模块在第t掩码时间步输出的上下文表征;qt表示量化子模块在第t掩码时间步输出的量化表征;Qt表示包含qt与其他时间步量化子模块输出的干扰特征; />,表示Qt中的任意一个干扰特征;k表示干扰特征的数量。
多样性损失(Diversity Loss),可以用于增加码本的范围,增加基础模块的鲁棒性;多样性损失可以表示为公式(13):
其中,表示任意一个量化表征在一个码本上的Gumbel softmax概率的平均值。
根据对比损失和多样性损失,可以确定自监督训练损失。自监督训练损失可以表示为公式(14):
其中,L表示自监督训练损失;α表示控制多样性损失的超参数。
图3示出根据本公开实施例的一种基础模块的自监督训练损失的变化示意图。如图3所示,基础模块的自监督训练步达到约300000步时,自监督训练损失收敛,完成对基础模块的自监督预训练。
微调模块可以表示连接在基础模块的尾部,用于根据基础模块输出的特征,确定碱基识别结果的神经网络层。微调模块的类型,取决于微调模块的具体网络结构,可以根据实际的使用需求灵活设置,本公开对此不做具体限定。
在一示例中,可以预设7个不同类型的微调模块,每个类型的微调模块中包括至少一个线性层。具体的,7个类型的微调模块分别包括:
仅由一个线性层构成的第一微调模块;
由一个自注意力层+一个线性层构成的第二微调模块;
由两个自注意力层+一个线性层构成的第三微调模块;
由三个自注意力层+一个线性层构成的第四微调模块;
由一个线性层+一个自注意力层+一个线性层构成的第五微调模块;
由一个线性层+两个自注意力层+一个线性层构成的第六微调模块;
由一个线性层+三个自注意力层+一个线性层都成的第七微调模块。
通过将大规模预训练模型的思想引入碱基识别领域,可以避免现有技术中常用碱基识别方法所应用的神经网络模型的缺点。另一方面,对基础模块进行自监督预训练,可以使用只有少量标注信息的样本电信号,可以减少获取具有大量准确标注信息的样本电信号的人力成本和时间成本,提高碱基识别模型的训练效率。而设置多个类型的微调模块,与基础模块连接构成多个不同类型的碱基识别模型,可以提供更加多样的选择,以便于根据实际的使用需求进行灵活选择。
在步骤S12中,针对任意一个类型的碱基识别模型,基于该碱基识别模型,对样本碱基序列在预设测序场景下对应的样本电信号进行识别,确定该碱基识别模型对应的碱基识别结果。
确定多个类型的碱基识别模型后,可以基于任意一个类型的碱基识别模型,对样本碱基序列在预设测序场景下对应的样本电信号进行碱基识别,确定该碱基识别模型对应的碱基识别结果。该碱基识别模型对应的碱基识别结果,可以用于指示样本碱基序列中包括的碱基类型和碱基排列顺序。
样本碱基序列的具体类型,可以根据实际的使用需求灵活设置,例如,可以是脱氧核糖核酸(DNA)序列,也可以是核糖核酸(RNA)序列,本公开对此不做具体限定。
基于不同的测序平台,或者同一测序平台采用不同的测序参数等情况下,同一段待识别碱基序列对应的测序电信号可能在信号强度、信号长度等方面存在差异。因此,可以根据测序平台,和/或测序参数等不同,确定多个不同的测序场景。
预设测序场景,可以表示采用特定测序平台以及特定测序参数,对样本碱基序列进行纳米孔测序的场景。其中,测序平台的具体类型,可以根据实际的使用需求灵活设置,例如,可以是Nanopore平台、Pacbio平台或Stratos genomics平台等,本公开对此不做具体限定;测序参数的具体内容,可以根据实际的使用需求灵活设置,例如,可以包括纳米孔的分子尺寸、数量,碱基序列的过孔速率等,本公开对此不做具体限定;测序参数的具体取值,可以根据实际的使用需求灵活设置,本公开对此不做具体限定。
后文会结合本公开可能的实现方式,对针对任意一个类型的碱基识别模型,基于该碱基识别模型对样本碱基序列对应的样本电信号进行识别,确定该碱基识别模型对应的碱基识别结果的过程进行详细描述,此处不做赘述。
在步骤S13中,根据每个类型的碱基识别模型对应的碱基识别结果,对每个类型的碱基识别模型进行训练,得到训练后的多个类型的碱基识别模型。
针对任意一个类型的碱基识别模型,可以根据该碱基识别模型对应的碱基识别结果,对该碱基识别模型进行训练,得到训练后的碱基识别模型。
后文会结合本公开可能的实现方式,对根据每个类型的碱基识别模型对应的碱基识别结果,对每个类型的碱基识别模型进行训练,得到训练后的多个类型的碱基识别模型的过程进行详细描述,此处不做赘述。
在步骤S14中,根据训练后的多个类型的碱基识别模型,确定在预设测序场景下的目标碱基识别模型,其中,目标碱基识别模型用于对待识别碱基序列在预设测序场景下对应的测序电信号进行碱基识别。
针对任意一种类型的碱基识别模型,对不同的预设测序场景下确定的不同测序电信号进行碱基识别时,该碱基识别模型的性能可能存在较大的差异。因此,在分别完成对每个类型的碱基识别模型的训练,确定训练后的多个类型的碱基识别模型后,可以根据实际的使用需求,在训练后的多个类型的碱基识别模型中,确定在预设测序场景下适宜的目标碱基识别模型,以通过目标碱基识别模型,对待识别碱基序列预设测序场景下对应的测序电信号进行碱基识别。
在本公开实施例中,根据自监督预训练得到的基础模块和多个类型的微调模块,可以确定多个类型的碱基识别模型,从而将大规模预训练模型的思想引入碱基识别领域,可以避免现有技术中常用碱基识别方法应用的神经网络模型准确度和可靠性较低的缺点,并且对基础模块进行自监督预训练,可以使用只有少量标注信息的样本电信号,学习到具有较高鲁棒性的信号特征,可以减少获取具有大量准确标注信息的样本电信号的人力成本和时间成本,提高碱基识别模型的训练效率。针对任意一个类型的碱基识别模型,基于该碱基识别模型,对样本碱基序列在预设测序场景下对应的样本电信号进行识别,可以确定该碱基识别模型对应的碱基识别结果;根据每个类型的碱基识别模型对应的碱基识别结果,可以对每个类型的碱基识别模型进行训练,得到训练后的多个类型的碱基识别模型;根据训练后的多个类型的碱基识别模型,可以确定在预设测序场景下的目标碱基识别模型,目标碱基识别模型可以用于对待识别碱基序列在预设测序场景下的对应的测序电信号进行碱基识别。通过本公开实施例确定的基于大规模自监督预训练的碱基识别模型,能够从测序电信号提取到具有较高鲁棒性的信号特征,从而能够提高模型的碱基识别精度和可靠性。
在一种可能的实现方式中,该方法还包括:在预设测序场景下,确定样本碱基序列对应的原始电信号;对原始电信号进行数据预处理,确定样本电信号,其中,数据预处理包括信号裁剪和信号归一化。
基于纳米孔测序技术,可以在预设测序场景下确定样本碱基序列对应的原始电信号。由于原始电信号中可能存在噪声、电极漂移和碱基之间的相互作用等多种因素的影响,因此,需要对原始电信号进行数据预处理。数据预处理可以包括信号裁剪和信号归一化。
其中,信号裁剪包括基于预设的信号窗口对原始电信号进行遍历,并判断信号窗口中超过预设阈值的信号点的数量是否满足预设数量。当信号窗口中超过预设阈值的信号点的数量满足预设数量时,停止遍历,并将信号窗口的当前位置确定为原始电信号对应的信号起点,对原始电信号进行裁剪。
信号归一化的具体方法,可以根据实际的使用需求灵活设置,本公开对此不做具体限定。
在一示例中,信号归一化的计算方式可以表示为公式(15)、(16)和(17):
其中,表示信号归一化结果;qa表示原始电信号的0.2分位值;qb表示原始电信号的0.9分位值;/>表示移位值,/>表示放缩值,/>和/>可以用于调整原始电信号的位置并对信号值进行放缩;/>表示信号裁剪后的原始电信号;/>表示移位参数,/>的具体取值可以根据实际的使用需求灵活设置,例如,可以设置为0.51等,本公开对此不做具体限定;表示放缩参数,/>的具体取值可以根据实际的使用需求灵活设置,例如可以设置为0.53,本公开对此不做具体限定。
除了上述信号裁剪和信号归一化外,数据预处理还可以包括其他的处理方法,可以根据实际使用需求灵活设置,本公开对此不做具体限定。
通过对样本碱基序列对应的原始电信号进行数据预处理,可以确定符合碱基识别模型的使用需求,且规范统一的样本电信号,从而提高碱基识别模型的训练效率和识别准确性。
在一种可能的实现方式中,针对任意一个类型的碱基识别模型,基于该碱基识别模型,对样本碱基序列在预设测序场景下对应的样本电信号进行识别,确定该碱基识别模型对应的碱基识别结果,包括:针对任意一个类型的碱基识别模型,将样本电信号输入该碱基识别模型对应的基础模块,确定样本电信号对应的信号特征;将信号特征输入该碱基识别模型对应的微调模块,确定该碱基识别模型对应的碱基识别结果。
针对任意一个类型的碱基识别序列,将样本电信号输入该碱基识别模型对应的基础模块,通过基础模块对样本电信号进行特征提取,可以确定样本电信号对应的信号特征。将信号特征输入该碱基识别模型对应的微调模块,可以确定该碱基识别模型对那个的碱基识别结果。
通过上述过程,可以确定每个类型的碱基识别模型对应的碱基识别结果。不同类型的碱基识别模型对应的碱基识别结果可能相同,也可能不同,可以反映不同类型的碱基识别模型对于同一个样本碱基序列对应的样本电信号的识别性能的差异。
在一种可能的实现方式中,根据每个类型的碱基识别模型对应的碱基识别结果,对每个类型的碱基识别模型进行训练,得到训练后的多个类型的碱基识别模型,包括:针对任意一个类型的碱基识别模型,根据该碱基识别模型对应的碱基识别结果,以及样本碱基序列对应的标注信息,确定该碱基识别模型对应的识别损失;根据该碱基识别模型对应的识别损失,对该碱基识别模型进行训练,直至到达预设训练条件,得到训练后的该类型的碱基识别模型。
针对任意一个类型的碱基识别模型,可以基于预设的损失函数,根据该碱基识别模型对应的碱基识别结果,以及样本碱基序列对应的标注信息,确定该碱基识别模型对应的识别损失,其中,样本碱基序列对应的标注信息可以表示样本碱基序列中实际的碱基类型和碱基排列顺序;损失函数的具体类型,可以根据实际的使用需求灵活设置,例如,连接主义时序分类(Connectionist Temporal Classification,CTC)损失函数等,本公开对此不做具体限定。
针对任意一个类型的碱基识别模型,根据该碱基识别模型对应的识别损失,可以对该碱基识别模型进行训练,调整该碱基识别模型中基础模块和微调模块的网络参数,以提高该碱基识别模型的识别性能。达到预设训练条件后,完成对该碱基识别模型的训练,得到训练后的该类型的碱基识别模型。其中,预设训练条件的具体内容,可以根据实际的使用需求灵活设置,例如,预设训练条件可以为训练轮次达到预设轮数,或者识别损失小于预设阈值等,本公开对此不做具体限定。
在任意一轮训练过程中,可以分别确定该轮训练结束后,每个类型的碱基识别模型对应的识别准确率,以进一步确定每个类型的碱基识别模型的识别性能变化情况。
以基于上述7个类型的微调模块,构成7个类型碱基识别模型为例。图4示出根据本公开实施例的每个类型的碱基识别模型对应的识别准确率的示意图。如图4所示,预设训练条件为训练轮次达到10轮;图中左侧柱状图表示在完成第一轮训练后,每个类型的碱基识别模型对应的识别准确率;图中右侧柱状图表示在训练完成(训练轮次达到10轮)后,每个类型的碱基识别模型对应的识别准确率。
如图4所示,在完成第一轮训练后,训练后的每个类型的碱基识别模型对应的准确识别率均超过了92%;在达到预设训练条件后,训练后的每个类型的碱基识别模型对应的准确识别率均在94.5%左右,说明通过本公开实施例,确定的基于碱基识别模型具有较高的精准度和通用性。
在一种可能的实现方式中,根据训练后的多个类型的碱基识别模型,确定在预设测序场景下的目标碱基识别模型,包括:分别确定训练后的每个类型的碱基识别模型对应的识别准确率;将识别准确率最高的训练后的碱基识别模型,确定为目标碱基识别模型。
以上述图4为例,如图4所示,在达到预设训练条件后,训练后的第一碱基识别模型对应的识别准确率约为95.15%;训练后的第二碱基识别模型对应的识别准确率约为94.75%;训练后的第二碱基识别模型对应的识别准确率约为94.75%;训练后的第三碱基识别模型对应的识别准确率约为94.75%;训练后的第四碱基识别模型对应的识别准确率约为94.75%;训练后的第五碱基识别模型对应的识别准确率约为95%;训练后的第六碱基识别模型对应的识别准确率约为94.35%;训练后的第七碱基识别模型对应的识别准确率约为94.5%。
因此,可以将识别准确率最高的第一碱基识别模型确定为目标碱基识别模型,以用于对待识别碱基序列在预设测序场景下对应的测序电信号进行碱基识别。
图5示出根据本公开实施例的目标碱基识别模型与现有技术中的碱基识别模型的识别准确率的示意图。如图5所示,基于相同的测试数据集,对通过本公开实施例确定的目标碱基识别模型、ONT测序平台(Oxford Nanopore Technologies)中使用的条件随机场(Conditional Random Fields,CRF)模型和连接主义时序分类(Connectionist temporalclassification,CTC)模型进行性能测试,分别确定目标碱基识别模型对应的准确识别率、CRF模型对应的识别准确率和CTC模型对应的识别准确率。
如图5所示,通过本公开实施例确定的目标碱基识别模型对应的识别准确率约为94%,CRF模型对应的识别准确率约为93.2%,CTC模型对应的识别准确率仅约为89.2%。因此,通过本公开实施例确定的目标碱基识别模型,相对于现有技术中常用的碱基识别模型,具有更高的准确度和可靠性。
在本公开实施例中,根据自监督预训练得到的基础模块和多个类型的微调模块,可以确定多个类型的碱基识别模型,从而将大规模预训练模型的思想引入碱基识别领域,可以避免现有技术中常用碱基识别方法应用的神经网络模型准确度和可靠性较低的缺点,并且对基础模块进行自监督预训练,可以使用只有少量标注信息的样本电信号,学习到具有较高鲁棒性的信号特征,可以减少获取具有大量准确标注信息的样本电信号的人力成本和时间成本,提高碱基识别模型的训练效率。针对任意一个类型的碱基识别模型,基于该碱基识别模型,对样本碱基序列在预设测序场景下对应的样本电信号进行识别,可以确定该碱基识别模型对应的碱基识别结果;根据每个类型的碱基识别模型对应的碱基识别结果,可以对每个类型的碱基识别模型进行训练,得到训练后的多个类型的碱基识别模型;根据训练后的多个类型的碱基识别模型,可以确定在预设测序场景下的目标碱基识别模型,目标碱基识别模型可以用于对待识别碱基序列在预设测序场景下对应的测序电信号进行碱基识别。通过本公开实施例确定的基于大规模自监督预训练的碱基识别模型,能够从测序电信号提取到具有较高鲁棒性的信号特征,并能够提高模型的碱基识别精度和可靠性。
本公开还提供了一种碱基识别方法。
图6示出根据本公开实施例的一种碱基识别方法的流程图。该碱基识别方法可以由终端设备或服务器等电子设备执行,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal DigitalAssistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等,该碱基识别方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。或者,可通过服务器执行该碱基识别方法。如图6所示,该碱基识别方法包括:
在步骤S61中,在预设测序场景下,确定待识别碱基序列对应的测序电信号。
基于纳米孔测序技术,可以在预设测序场景下确定待识别碱基序列对应的测序电信号。其中,待识别碱基序列的具体类型,可以根据实际的使用需求灵活设置,例如,可以是DNA序列,也可以是RNA序列,本公开对此不做具体限定。
基于不同的测序平台,或者同一测序平台采用不同的测序参数等情况下,同一段待识别碱基序列对应的测序电信号可能在信号强度、信号长度等方面存在差异。因此,可以根据测序平台,和/或测序参数等不同,确定多个不同的测序场景。
预设测序场景,可以表示采用特定测序平台以及特定测序参数,对样本碱基序列进行纳米孔测序的场景。其中,测序平台的具体类型,可以根据实际的使用需求灵活设置,例如,可以是Nanopore平台、Pacbio平台或Stratos genomics平台等,本公开对此不做具体限定;测序参数的具体内容,可以根据实际的使用需求灵活设置,例如,可以包括纳米孔的分子尺寸、数量,碱基序列的过孔速率等,本公开对此不做具体限定;测序参数的具体取值,可以根据实际的使用需求灵活设置,本公开对此不做具体限定。
在步骤S62中,对测序电信号进行数据预处理,确定待识别电信号,其中,数据预处理包括信号裁剪和信号归一化。
由于基于纳米孔测序技术确定的测序电信号中可能存在噪声、电极漂移和碱基之间的相互作用等多种因素的影响,因此,需要对测序电信号进行数据预处理,确定待识别电信号。数据预处理可以包括信号裁剪和信号归一化。信号裁剪和信号归一化的具体过程,可以参考前文记载,此处不做赘述。
在步骤S63中,根据目标碱基识别模型,对待识别电信号进行碱基识别,确定待识别碱基序列对应的碱基识别结果,其中,目标碱基识别模型通过上述方法训练得到。
通过上述方法训练得到的目标碱基识别模型,可以对待识别电信号进行碱基识别,确定待识别碱基序列对应的碱基识别结果,以指示待识别碱基序列中包括的碱基类型和碱基排列顺序。
在本公开实施例中,基于纳米孔测序技术,确定待识别碱基序列对应的测序电信号,并对测序电信号进行数据预处理,确定待识别电信号,其中,数据预处理包括信号裁剪和信号归一化,可以根据通过前述方法训练得到的目标碱基识别模型,对待识别电信号进行碱基识别,确定待识别碱基序列对应的碱基识别结果。基于大规模自监督预训练的目标碱基识别模型,可以避免现有技术中常用碱基识别方法应用的神经网络模型准确度和可靠性较低的缺点,能够从待识别电信号提取到具有较高鲁棒性的信号特征,从而提高碱基识别的精度和可靠性。
可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
此外,本公开还提供了一种神经网络模型训练装置、碱基识别装置、电子设备和计算机可读存储介质、程序,上述均可用来实现本公开提供的任意一种神经网络模型训练方法,和/或碱基识别方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
图7示出根据本公开实施例的一种神经网络模型训练装置的框图。如图7所示,装置700包括:
模型构建模块701,用于根据自监督预训练得到的基础模块和多个类型的微调模块,确定多个类型的碱基识别模型;
碱基识别模块702,用于针对任意一个类型的碱基识别模型,基于该碱基识别模型,对样本碱基序列在预设测序场景下对应的样本电信号进行识别,确定该碱基识别模型对应的碱基识别结果;
训练模块703,用于根据每个类型的碱基识别模型对应的碱基识别结果,对每个类型的碱基识别模型进行训练,得到训练后的多个类型的碱基识别模型;
目标模型确定模块704,用于根据训练后的多个类型的碱基识别模型,确定在预设测序场景下的目标碱基识别模型,其中,目标碱基识别模型用于对待识别碱基序列在预设测序场景下对应的测序电信号进行碱基识别。
在一种可能的实现方式中,基础模块包括:特征提取子模块,编码子模块和量化子模块,其中,特征提取子模块用于确定样本电信号对应的浅层特征,编码子模块用于根据浅层特征,确定上下文表征,量化子模块用于根据对上下文表征进行离散化。
在一种可能的实现方式中,特征提取子模块包括多组卷积层,其中,每组卷积层包括一维卷积层、批次归一化和缩放指数线性单元激活函数;编码子模块包括多组编码层,其中,每组编码层包括动态位置编码的多头自注意力层、层归一化、前馈层、逐点卷积层、门控线性单元和深度卷积层;量化子模块包括线性层、量化算法层和码本。
在一种可能的实现方式中,装置700还包括:数据预处理模块,用于:
在预设测序场景下,确定样本碱基序列对应的原始电信号;对原始电信号进行数据预处理,确定样本电信号,其中,数据预处理包括信号裁剪和信号归一化。
在一种可能的实现方式中,碱基识别模块702,还用于:
针对任意一个类型的碱基识别模型,将样本电信号输入该碱基识别模型对应的基础模块,确定样本电信号对应的信号特征;将信号特征输入该碱基识别模型对应的微调模块,确定该碱基识别模型对应的碱基识别结果。
在一种可能的实现方式中,训练模块703,还用于:
针对任意一个类型的碱基识别模型,根据该碱基识别模型对应的碱基识别结果,以及样本碱基序列对应的标注信息,确定该碱基识别模型对应的识别损失;根据该碱基识别模型对应的识别损失,对该碱基识别模型进行训练,直至到达预设训练条件,得到训练后的该类型的碱基识别模型。
在一种可能的实现方式中,目标模型确定模块704,还用于:
分别确定训练后的每个类型的碱基识别模型对应的识别准确率;将识别准确率最高的训练后的碱基识别模型,确定为目标碱基识别模型。
图8示出根据本公开实施例的一种碱基识别装置的框图。如图8所示,装置800包括:
测序电信号确定模块801,用于在预设测序场景下,确定待识别碱基序列对应的测序电信号;
数据预处理模块802,用于对测序电信号进行数据预处理,确定待识别电信号,其中,数据预处理包括信号裁剪和信号归一化;
碱基识别模块803,用于根据目标碱基识别模型,对待识别电信号进行碱基识别,确定待识别碱基序列对应的碱基识别结果,其中,目标碱基识别模型通过上述方法训练得到。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
本公开实施例还提出一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。
本公开实施例还提出一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为在执行所述存储器存储的指令时,实现上述方法。
电子设备可以被提供为终端、服务器或其它形态的设备。
图9示出根据本公开实施例的一种电子设备的框图。参照图9,装置1900可以被提供为一服务器或终端设备。参照图9,装置1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。
装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理,一个有线或无线网络接口1950被配置为将装置1900连接到网络,和一个输入输出接口1958(I/O接口)。装置1900可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM, LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器1932,上述计算机程序指令可由装置1900的处理组件1922执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (10)
1.一种神经网络模型训练方法,其特征在于,包括:
根据自监督预训练得到的基础模块和多个类型的微调模块,确定多个类型的碱基识别模型;
针对任意一个类型的碱基识别模型,基于该碱基识别模型,对样本碱基序列在预设测序场景下对应的样本电信号进行识别,确定该碱基识别模型对应的碱基识别结果;
根据每个类型的碱基识别模型对应的碱基识别结果,对每个类型的碱基识别模型进行训练,得到训练后的多个类型的碱基识别模型;
根据训练后的多个类型的碱基识别模型,确定在所述预设测序场景下的目标碱基识别模型,其中,所述目标碱基识别模型用于对待识别碱基序列在所述预设测序场景下对应的测序电信号进行碱基识别;
所述基础模块包括:特征提取子模块,编码子模块和量化子模块,其中,所述特征提取子模块用于确定所述样本电信号对应的浅层特征,所述编码子模块用于根据所述浅层特征,确定上下文表征,所述量化子模块用于根据对所述上下文表征进行离散化;
所述特征提取子模块包括多组卷积层,其中,每组卷积层包括一维卷积层、批次归一化和缩放指数线性单元激活函数;
所述编码子模块包括多组编码层,其中,每组编码层包括动态位置编码的多头自注意力层、层归一化、前馈层、逐点卷积层、门控线性单元和深度卷积层;
所述量化子模块包括线性层、量化算法层和码本。
2.根据权利要求1所述的方法,其特征在于,所述针对任意一个类型的碱基识别模型,基于该碱基识别模型,对样本碱基序列在预设测序场景下对应的样本电信号进行识别,确定该碱基识别模型对应的碱基识别结果,包括:
针对任意一个类型的碱基识别模型,将所述样本电信号输入该碱基识别模型对应的基础模块,确定所述样本电信号对应的信号特征;
将所述信号特征输入该碱基识别模型对应的微调模块,确定该碱基识别模型对应的碱基识别结果。
3.根据权利要求1所述的方法,其特征在于,所述根据每个类型的碱基识别模型对应的碱基识别结果,对每个类型的碱基识别模型进行训练,得到训练后的多个类型的碱基识别模型,包括:
针对任意一个类型的碱基识别模型,根据该碱基识别模型对应的碱基识别结果,以及所述样本碱基序列对应的标注信息,确定该碱基识别模型对应的识别损失;
根据该碱基识别模型对应的识别损失,对该碱基识别模型进行训练,直至到达预设训练条件,得到训练后的该类型的碱基识别模型。
4.根据权利要求1所述的方法,其特征在于,所述根据训练后的多个类型的碱基识别模型,确定在所述预设测序场景下的目标碱基识别模型,包括:
分别确定训练后的每个类型的碱基识别模型对应的识别准确率;
将识别准确率最高的训练后的碱基识别模型,确定为所述目标碱基识别模型。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述预设测序场景下,确定所述样本碱基序列对应的原始电信号;
对所述原始电信号进行数据预处理,确定所述样本电信号,其中,所述数据预处理包括信号裁剪和信号归一化。
6.一种碱基识别方法,其特征在于,包括:
在预设测序场景下,确定待识别碱基序列对应的测序电信号;
对所述测序电信号进行数据预处理,确定待识别电信号,其中,所述数据预处理包括信号裁剪和信号归一化;
根据目标碱基识别模型,对所述待识别电信号进行碱基识别,确定所述待识别碱基序列对应的碱基识别结果,其中,所述目标碱基识别模型通过权利要求1至5中任意一项所述的方法训练得到。
7.一种神经网络模型训练装置,其特征在于,包括:
模型构建模块,用于根据自监督预训练得到的基础模块和多个类型的微调模块,确定多个类型的碱基识别模型;
碱基识别模块,用于针对任意一个类型的碱基识别模型,基于该碱基识别模型,对样本碱基序列在预设测序场景下对应的样本电信号进行识别,确定该碱基识别模型对应的碱基识别结果;
训练模块,用于根据每个类型的碱基识别模型对应的碱基识别结果,对每个类型的碱基识别模型进行训练,得到训练后的多个类型的碱基识别模型;
目标模型确定模块,用于根据训练后的多个类型的碱基识别模型,确定在所述预设测序场景下的目标碱基识别模型,其中,所述目标碱基识别模型用于对待识别碱基序列在所述预设测序场景下对应的测序电信号进行碱基识别;
所述基础模块包括:特征提取子模块,编码子模块和量化子模块,其中,所述特征提取子模块用于确定所述样本电信号对应的浅层特征,所述编码子模块用于根据所述浅层特征,确定上下文表征,所述量化子模块用于根据对所述上下文表征进行离散化;
所述特征提取子模块包括多组卷积层,其中,每组卷积层包括一维卷积层、批次归一化和缩放指数线性单元激活函数;
所述编码子模块包括多组编码层,其中,每组编码层包括动态位置编码的多头自注意力层、层归一化、前馈层、逐点卷积层、门控线性单元和深度卷积层;
所述量化子模块包括线性层、量化算法层和码本。
8.一种碱基识别装置,其特征在于,包括:
测序电信号确定模块,用于在预设测序场景下,确定待识别碱基序列对应的测序电信号;
数据预处理模块,用于对所述测序电信号进行数据预处理,确定待识别电信号,其中,所述数据预处理包括信号裁剪和信号归一化;
碱基识别模块,用于根据目标碱基识别模型,对所述待识别电信号进行碱基识别,确定所述待识别碱基序列对应的碱基识别结果,其中,所述目标碱基识别模型通过权利要求1至5中任意一项所述的方法训练得到。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为在执行所述存储器存储的指令时,实现权利要求1至6中任意一项所述的方法。
10.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至6中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410186555.3A CN117744748B (zh) | 2024-02-20 | 2024-02-20 | 一种神经网络模型训练、碱基识别方法及装置、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410186555.3A CN117744748B (zh) | 2024-02-20 | 2024-02-20 | 一种神经网络模型训练、碱基识别方法及装置、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117744748A CN117744748A (zh) | 2024-03-22 |
CN117744748B true CN117744748B (zh) | 2024-04-30 |
Family
ID=90279979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410186555.3A Active CN117744748B (zh) | 2024-02-20 | 2024-02-20 | 一种神经网络模型训练、碱基识别方法及装置、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117744748B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183486A (zh) * | 2020-11-02 | 2021-01-05 | 中山大学 | 基于深度网络快速识别单分子纳米孔测序碱基方法 |
CN112309503A (zh) * | 2020-10-19 | 2021-02-02 | 深圳市儒翰基因科技有限公司 | 基于纳米孔电信号的碱基判读方法、判读设备及存储介质 |
CN116486910A (zh) * | 2022-10-17 | 2023-07-25 | 北京普译生物科技有限公司 | 纳米孔测序碱基识别的深度学习训练集建立方法及其应用 |
CN116994246A (zh) * | 2023-09-20 | 2023-11-03 | 深圳赛陆医疗科技有限公司 | 基于多任务联合的碱基识别方法及装置、基因测序仪及介质 |
CN117274614A (zh) * | 2023-09-20 | 2023-12-22 | 深圳赛陆医疗科技有限公司 | 基于荧光标记dNTP基因测序的碱基识别方法、测序仪及介质 |
CN117497055A (zh) * | 2024-01-02 | 2024-02-02 | 北京普译生物科技有限公司 | 神经网络模型训练、碱基测序电信号的片段化方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR112021024915A2 (pt) * | 2019-06-12 | 2022-01-18 | Quantum Si Inc | Técnicas para a identificação de proteína ao usar aprendizagem de máquina e sistemas e métodos relacionados |
-
2024
- 2024-02-20 CN CN202410186555.3A patent/CN117744748B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112309503A (zh) * | 2020-10-19 | 2021-02-02 | 深圳市儒翰基因科技有限公司 | 基于纳米孔电信号的碱基判读方法、判读设备及存储介质 |
CN112183486A (zh) * | 2020-11-02 | 2021-01-05 | 中山大学 | 基于深度网络快速识别单分子纳米孔测序碱基方法 |
CN116486910A (zh) * | 2022-10-17 | 2023-07-25 | 北京普译生物科技有限公司 | 纳米孔测序碱基识别的深度学习训练集建立方法及其应用 |
CN116994246A (zh) * | 2023-09-20 | 2023-11-03 | 深圳赛陆医疗科技有限公司 | 基于多任务联合的碱基识别方法及装置、基因测序仪及介质 |
CN117274614A (zh) * | 2023-09-20 | 2023-12-22 | 深圳赛陆医疗科技有限公司 | 基于荧光标记dNTP基因测序的碱基识别方法、测序仪及介质 |
CN117497055A (zh) * | 2024-01-02 | 2024-02-02 | 北京普译生物科技有限公司 | 神经网络模型训练、碱基测序电信号的片段化方法及装置 |
Non-Patent Citations (3)
Title |
---|
Optimizing the surface enhanced Raman signal for accurate identification of DNA base pairs;Lindsay Freeman et al.;《2014 Conference on Lasers and Electro-Optics (CLEO) - Laser Science to Photonic Applications》;20140608;全文 * |
基于深度学习的纳米孔DNA测序碱基电信号识别算法研究;孟浩;《中国优秀硕士学位论文全文数据库 基础科学辑》;20240215(第02期);1-64 * |
深度学习在碱基识别中的应用研究;柴合丹 等;《周口师范学院学报》;20210915;第38卷(第05期);55-61 * |
Also Published As
Publication number | Publication date |
---|---|
CN117744748A (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992782B (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
US11823658B2 (en) | Trial-based calibration for audio-based identification, recognition, and detection system | |
CN110309343B (zh) | 一种基于深度哈希的声纹检索方法 | |
CN111079780B (zh) | 空间图卷积网络的训练方法、电子设备及存储介质 | |
CN110825857B (zh) | 多轮问答识别方法、装置、计算机设备及存储介质 | |
CN111008266B (zh) | 文本分析模型的训练方法及装置、文本分析方法及装置 | |
CN113610173A (zh) | 一种基于知识蒸馏的多跨域少样本分类方法 | |
CN111564179B (zh) | 一种基于三元组神经网络的物种生物学分类方法及系统 | |
CN110569505A (zh) | 一种文本输入方法及装置 | |
CN112307820A (zh) | 文本识别方法、装置、设备和计算机可读介质 | |
CN112800768A (zh) | 一种嵌套命名实体识别模型的训练方法及装置 | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
CN112632248A (zh) | 问答方法、装置、计算机设备和存储介质 | |
CN112380421A (zh) | 简历的搜索方法、装置、电子设备及计算机存储介质 | |
CN111611395B (zh) | 一种实体关系的识别方法及装置 | |
CN111859948B (zh) | 语言识别、语言模型训练、字符预测方法及装置 | |
EP4374291A1 (en) | Distilling transformers for neural cross-domain search | |
CN111460829A (zh) | 多场景应用下的意图识别方法、装置、设备及存储介质 | |
CN117351940B (zh) | 基于语音大模型的合成语音检测方法及装置 | |
CN112700766B (zh) | 语音识别模型的训练方法及装置、语音识别方法及装置 | |
CN117744748B (zh) | 一种神经网络模型训练、碱基识别方法及装置、电子设备 | |
CN111797220A (zh) | 对话生成方法、装置、计算机设备和存储介质 | |
CN116955644A (zh) | 基于知识图谱的知识融合方法、系统及存储介质 | |
CN113722462B (zh) | 目标论元信息抽取数据处理系统 | |
CN112735392B (zh) | 语音处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |