CN117497055B - 神经网络模型训练、碱基测序电信号的片段化方法及装置 - Google Patents
神经网络模型训练、碱基测序电信号的片段化方法及装置 Download PDFInfo
- Publication number
- CN117497055B CN117497055B CN202410001853.0A CN202410001853A CN117497055B CN 117497055 B CN117497055 B CN 117497055B CN 202410001853 A CN202410001853 A CN 202410001853A CN 117497055 B CN117497055 B CN 117497055B
- Authority
- CN
- China
- Prior art keywords
- sample
- base
- sequence
- base sequence
- boundary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 26
- 238000003062 neural network model Methods 0.000 title claims abstract description 25
- 150000007523 nucleic acids Chemical group 0.000 claims abstract description 46
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 47
- 238000013467 fragmentation Methods 0.000 claims description 23
- 238000006062 fragmentation reaction Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 10
- 108090000623 proteins and genes Proteins 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 20
- 238000012545 processing Methods 0.000 description 19
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 10
- 238000005070 sampling Methods 0.000 description 9
- 238000007672 fourth generation sequencing Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 229940104302 cytosine Drugs 0.000 description 5
- 229930024421 Adenine Natural products 0.000 description 4
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 4
- 229960000643 adenine Drugs 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 229920000642 polymer Polymers 0.000 description 4
- 239000000823 artificial membrane Substances 0.000 description 3
- 229920002477 rna polymer Polymers 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 2
- 102000053602 DNA Human genes 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 102000004310 Ion Channels Human genes 0.000 description 1
- 238000000692 Student's t-test Methods 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000008151 electrolyte solution Substances 0.000 description 1
- 229940021013 electrolyte solution Drugs 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000178 monomer Substances 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 238000003752 polymerase chain reaction Methods 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
- 102000004196 processed proteins & peptides Human genes 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012353 t test Methods 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本公开涉及生物学基因测序领域,公开了一种神经网络模型训练、碱基测序电信号的片段化方法及装置,包括:对预设核酸序列对应的电信号进行碱基识别,确定多个样本碱基序列、每个样本碱基序列对应的样本电信号、以及碱基位置信息;针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,确定该样本碱基序列对应的样本电信号的参考边界序列;根据每个样本碱基序列对应的样本电信号、以及每个样本碱基序列对应的样本电信号的参考边界序列,确定训练数据集;根据训练数据集对碱基边界确定模型进行训练。通过本公开实施例确定的碱基边界确定模型可以快速确定电信号的边界,以便于灵活地对电信号进行片段化,具有较高的准确性和适用性。
Description
技术领域
本公开涉及生物学基因测序领域,尤其涉及一种神经网络模型训练、碱基测序电信号的片段化方法及装置。
背景技术
通过纳米孔测序方法,确定待测核酸序列对应的电信号后,需要对电信号进行片段化,以便于后续处理。现有技术中,对电信号进行片段化的方法,通常会受到片段长度和片段分割的阈值等相关参数的限制,导致片段化的准确率较低,并且,对于不同的测序场景,需要对相关参数进行相应的调整,增加了对电信号进行片段化的工作量,降低了处理效率。
发明内容
有鉴于此,本公开提出了一种神经网络模型训练、碱基测序电信号的片段化方法及装置的技术方案。
根据本公开的一方面,提供了一种神经网络模型训练方法,包括:对预设核酸序列对应的电信号进行碱基识别,确定多个样本碱基序列、每个所述样本碱基序列对应的样本电信号、以及每个所述样本碱基序列对应的碱基位置信息,其中,每个所述样本碱基序列包括预设数量的碱基,任意一个样本碱基序列对应的碱基位置信息,用于指示该样本碱基序列中每个碱基在该样本碱基序列对应的样本电信号中的位置;针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,确定该样本碱基序列对应的样本电信号的参考边界序列,其中,该样本碱基序列对应的样本电信号的参考边界序列,用于指示该样本碱基序列对应的样本电信号中不同碱基之间的真实边界;根据每个所述样本碱基序列对应的样本电信号、以及每个所述样本碱基序列对应的样本电信号的参考边界序列,确定训练数据集;根据所述训练数据集,对碱基边界确定模型进行训练,其中,训练后的所述碱基边界确定模型用于对待识别碱基序列对应的电信号进行碱基边界识别。
在一种可能的实现方式中,所述对预设核酸序列对应的电信号进行碱基识别,确定多个样本碱基序列、每个所述样本碱基序列对应的样本电信号、以及每个所述样本碱基序列对应的碱基位置信息,包括:对所述预设核酸序列对应的电信号进行碱基识别,确定多个初始碱基序列,以及每个所述初始碱基序列对应的碱基位置信息,其中,每个所述初始碱基序列包括所述预设数量的碱基,任意一个初始碱基序列对应的碱基位置信息,用于指示该初始碱基序列中每个碱基在该初始碱基序列对应的初始电信号中的位置;根据每个所述初始碱基序列和所述预设核酸序列对应的碱基序列标注信息,确定每个所述初始碱基序列对应的识别准确率;针对任意一个初始碱基序列,在该初始碱基序列对应的识别准确率大于预设阈值的情况下,将该初始碱基序列确定为样本碱基序列。
在一种可能的实现方式中,所述针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,确定该样本碱基序列对应的样本电信号的参考边界序列,包括:针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,确定该样本碱基序列中每个碱基,在该样本碱基序列对应的样本电信号中的起始位置和结束位置;针对该样本碱基序列中的任意一个碱基,根据该碱基在该样本碱基序列对应的样本电信号中的起始位置和结束位置,确定该碱基对应的标识信息;根据该样本碱基序列中每个碱基对应的标识信息,确定该样本碱基序列对应的样本电信号的参考边界序列。
在一种可能的实现方式中,所述根据所述训练数据集,对碱基边界确定模型进行训练,包括:针对任意一个样本碱基序列,将该样本碱基序列对应的样本电信号输入至所述碱基边界确定模型,确定该样本碱基序列对应的样本电信号的预测边界序列,其中,该样本碱基序列对应的样本电信号的预测边界序列用于指示该样本碱基序列对应的样本电信号中不同碱基之间的预测边界;根据该样本碱基序列对应的样本电信号的预测边界序列和参考边界序列,确定模型损失;根据所述模型损失,调整所述碱基边界确定模型的网络参数。
在一种可能的实现方式中,所述预设核酸序列为德布莱因序列。
根据本公开的另一方面,提供了一种碱基测序电信号的片段化方法,包括:确定待识别碱基序列对应的待处理电信号;基于碱基边界确定模型,对所述待处理电信号进行碱基边界识别,确定所述待处理电信号对应的预测边界序列,其中,所述碱基边界确定模型通过上述方法训练得到,所述预测边界序列用于指示所述待处理信号中不同碱基之间的预测边界;根据所述预测边界序列,对所述待处理电信号进行分段,确定片段化电信号。
根据本公开的另一方面,提供了一种神经网络模型训练装置,包括:碱基识别模块,用于对预设核酸序列对应的电信号进行碱基识别,确定多个样本碱基序列、每个所述样本碱基序列对应的样本电信号、以及每个所述样本碱基序列对应的碱基位置信息,其中,每个所述样本碱基序列包括预设数量的碱基,任意一个样本碱基序列对应的碱基位置信息,用于指示该样本碱基序列中每个碱基在该样本碱基序列对应的样本电信号中的位置;参考序列确定模块,用于针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,确定该样本碱基序列对应的样本电信号的参考边界序列,其中,该样本碱基序列对应的样本电信号的参考边界序列,用于指示该样本碱基序列对应的样本电信号中不同碱基之间的真实边界;训练数据集确定模块,用于根据每个所述样本碱基序列对应的样本电信号、以及每个所述样本碱基序列对应的样本电信号的参考边界序列,确定训练数据集;模型训练模块,用于根据所述训练数据集,对碱基边界确定模型进行训练,其中,训练后的所述碱基边界确定模型用于对待识别碱基序列对应的电信号进行碱基边界识别。
根据本公开的另一方面,提供了一种碱基测序电信号的片段化装置,包括:电信号确定模块,用于确定待识别碱基序列对应的待处理电信号;碱基边界确定模块,用于基于碱基边界确定模型,对所述待处理电信号进行碱基边界识别,确定所述待处理电信号对应的预测边界序列,其中,所述碱基边界确定模型通过上述方法训练得到,所述预测边界序列用于指示所述待识别碱基序列中不同碱基之间的边界;片段化模块,用于根据所述预测边界序列,对所述待处理电信号进行分段,确定片段化电信号。
根据本公开的另一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为在执行所述存储器存储的指令时,实现上述方法。
根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。
在本公开实施例中,对预设核酸序列对应的电信号进行碱基识别,可以确定多个样本碱基序列、每个样本碱基序列对应的样本电信号、以及每个样本碱基序列对应的碱基位置信息,其中,每个样本碱基序列包括预设数量的碱基,任意一个样本碱基序列对应的碱基位置信息,用于指示该样本碱基序列中每个碱基在该样本碱基序列对应的样本电信号中的位置;针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,可以确定该样本碱基序列对应的样本电信号的参考边界序列,其中,该样本碱基序列对应的样本电信号的参考边界序列,用于指示该样本碱基序列对应的样本电信号中不同碱基之间的真实边界;根据每个样本碱基序列对应的样本电信号、以及每个样本碱基序列对应的样本电信号的参考边界序列,可以确定训练数据集;根据训练数据集,对碱基边界确定模型进行训练,其中,训练后的碱基边界确定模型用于对待识别碱基序列对应的电信号进行碱基边界识别,确定待识别碱基序列对应的电信号的参考边界序列,基于参考边界序列,能够快速灵活地对待识别碱基序列对应的电信号进行片段化,可以降低现有技术中的片段化方法对片段化参数的依赖,实现降低片段化的工作量,提高片段化的准确率和处理效率。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开实施例的一种神经网络模型训练方法的流程图。
图2示出根据本公开实施例的一种样本电信号与参考边界序列配对的示意图。
图3示出根据本公开实施例的一种基于训练数据集训练碱基识别模型的损失和准确率的变化曲线的示意图。
图4示出根据本公开实施例的一种碱基测序电信号的片段化方法的流程图。
图5示出根据本公开实施例的一种神经网络模型训练装置的框图。
图6示出根据本公开实施例的一种碱基测序电信号的片段化装置的框图。
图7示出根据本公开实施例的一种电子设备的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
纳米孔测序技术是用于取代基于聚合酶链式反映的新型核酸检测技术,可以将纳米孔(蛋白孔或固态孔)镶嵌在绝缘人工膜上形成离子通道,绝缘人工膜的两侧有电解质溶液,并分别设置有电极。绝缘人工膜两侧的电极的电势差可以在纳米孔的孔道内形成过孔电流。当聚合物链(如单链脱氧核糖核酸(DNA)、核糖核酸(RNA)、蛋白质等)通过纳米孔时,由于聚合物链上存在多种不同的单体,例如,腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)、胸腺嘧啶(T)和尿嘧啶(U)、多肽、氨基酸等,不同的单体对应的阻抗不同,会产生不同的电信号。通过检测聚合物链通过纳米孔时产生的电信号,例如,电流信号和电压信号等,可以推导聚合物链的组成序列。由于纳米孔测序技术具有序列读取长度较长,使用简便,并且可以直接对RNA进行测序等优势,近年来在生物学基因测序领域被广泛关注。
现有技术中,通常利用神经网络模型,对基于纳米孔测序技术确定的电信号进行碱基识别,具有较高的准确率。但是,训练神经网络模型需要大量准确的电信号与碱基序列一一配对的训练数据集。在训练神经网络模型的过程中,如果训练数据集中的电信号长度较长,需要用于进行神经网络模型训练的硬件设备具有较高的处理性能,并会降低神经网络模型的训练效率。因此,为了提高训练神经网络模型的效率,降低对硬件设备的性能要求,需要对基于纳米孔测序技术确定的长度较长的电信号进行分段。
现有技术中,对电信号进行片段化的方法,例如基于t检验的片段化方法等,通常会受到电信号的片段长度和片段分割的阈值等相关参数的限制,导致片段化的准确率较低,并且,对于不同的测序场景,需要对相关参数进行相应的调整,增加了对电信号进行片段化的工作量,降低了处理效率。
图1示出根据本公开实施例的一种神经网络模型训练方法的流程图。如图1所示,该神经网络模型训练方法可以由终端设备或服务器等电子设备执行,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等,该神经网络模型训练方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。或者,可通过服务器执行该神经网络模型训练方法。如图1所示,该神经网络模型训练方法包括:
在步骤S11中,对预设核酸序列对应的电信号进行碱基识别,确定多个样本碱基序列、每个样本碱基序列对应的样本电信号、以及每个样本碱基序列对应的碱基位置信息,其中,每个样本碱基序列包括预设数量的碱基,任意一个样本碱基序列对应的碱基位置信息,用于指示该样本碱基序列中每个碱基在该样本碱基序列对应的样本电信号中的位置。
这里的预设核酸序列是碱基类型和碱基排列顺序已知的核酸序列。预设核酸序列的具体形式,可以根据实际的使用需求灵活设置,例如,可以是DNA序列,也可以是RNA序列,本公开对此不做具体限定。
通过对预设核酸序列对应的电信号进行碱基识别,可以确定预设核酸序列对应的多个包括预设数量的碱基的样本碱基序列,以及每个样本碱基序列对应的样本电信号和碱基位置信息。其中,预设数量的具体取值,可以根据实际的使用需求灵活设置,例如1000核苷酸数(Nucleotide,nt)等,本公开对此不做具体限定。
针对任意一个样本碱基序列,其对应的碱基位置信息,可以用于指示该样本碱基序列中每个碱基,在该样本碱基序列对应的样本电信号中的位置。碱基位置信息的具体内容,可以根据实际的使用需求灵活设置,例如,可以包括每个碱基在该样本碱基序列对应的样本电信号中的开始位置、持续长度和结束位置等,本公开对此不做具体限定。
在一示例中,预设核酸序列是DNA序列,样本碱基序列为GCATTCGAGT。参阅表1,样本碱基序列对应的碱基位置信息可以包括每个碱基在该样本碱基序列对应的样本电信号中的开始位置和持续长度。
表 1
参阅表1,该样本碱基序列中的第一个碱基为鸟嘌呤(G),其在该样本碱基序列对应的样本电信号中的开始位置对应样本电信号的第0个采样点处,持续长度为5个采样点;该样本碱基序列中的第二个碱基为胞嘧啶(C),其在该样本碱基序列对应的样本电信号中的开始位置对应样本电信号的第5个采样点处,持续长度为8个采样点,以此类推。
后文会结合本公开可能的实现方式,将对预设核酸序列对应的电信号进行碱基识别,确定多个样本碱基序列、每个样本碱基序列对应的样本电信号、以及每个样本碱基序列对应的碱基位置信息的过程进行详细描述,此处不做赘述。
在步骤S12中,针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,确定该样本碱基序列对应的样本电信号的参考边界序列,其中,该样本碱基序列对应的样本电信号的参考边界序列,用于指示该样本碱基序列对应的样本电信号中不同碱基之间的真实边界。
针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,可以确定该样本碱基序列中每个碱基,在该样本碱基序列对应的样本电信号中的边界位置,从而可以得到确定该样本碱基序列对应的样本电信号的参考边界序列。
通过样本碱基序列对应的样本电信号的参考边界序列,可以指示该样本碱基序列对应的样本电信号中不同碱基之间的真实边界。其中,参考边界序列的具体形式,可以根据实际的使用需求灵活设置,例如,参考边界序列可以是包含0和1的数字序列,通过数字1表示碱基的边界位置,数字0表示碱基的持续位置等,本公开对此不做具体限定。
后文会结合本公开可能的实现方式,将针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,确定该样本碱基序列对应的样本电信号的参考边界序列的过程进行详细描述,此处不做赘述。
在步骤S13中,根据每个样本碱基序列对应的样本电信号、以及每个样本碱基序列对应的样本电信号的参考边界序列,确定训练数据集。
将每个样本碱基序列对应的样本电信号,与每个样本碱基序列对应的样本电信号的参考边界序列进行一一配对,可以构建训练数据集。
图2示出根据本公开实施例的一种样本电信号与参考边界序列配对的示意图。如图2所示,图2中的(a)表示样本电信号,图2中的(b)表示参考边界序列对应的图像。通过将样本电信号与参考边界序列对应的图像进行配对,可以标注样本电信号中每个碱基之间的真实边界。
在步骤S14中,根据训练数据集,对碱基边界确定模型进行训练,其中,训练后的碱基边界确定模型用于对待识别碱基序列对应的电信号进行碱基边界识别。
通过上述过程构建训练数据集后,可以根据训练数据集对碱基边界确定模型进行训练。通过训练后的碱基边界确定模型,可以对待识别碱基序列对应的电信号进行碱基边界识别,确定待识别碱基序列对应的电信号的参考边界序列,以指示待识别碱基序列对应的电信号中每个碱基之间的真实边界。
其中,待识别碱基序列可以表示需要通过电信号进行碱基序列识别的DNA序列;碱基边界确定模型的具体形式,可以根据实际的使用需求灵活设置,例如,可以是长短期记忆(Long Short Term Memory,LSTM)模型、自注意力机制(Transformer)模型等,本公开对此不做具体限定。
后文会结合本公开可能的实现方式,将对碱基边界确定模型进行训练的过程进行详细描述,此处不做赘述。
在本公开实施例中,对预设核酸序列对应的电信号进行碱基识别,可以确定多个样本碱基序列、每个样本碱基序列对应的样本电信号、以及每个样本碱基序列对应的碱基位置信息,其中,每个样本碱基序列包括预设数量的碱基,任意一个样本碱基序列对应的碱基位置信息,用于指示该样本碱基序列中每个碱基在该样本碱基序列对应的样本电信号中的位置;针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,可以确定该样本碱基序列对应的样本电信号的参考边界序列,其中,该样本碱基序列对应的样本电信号的参考边界序列,用于指示该样本碱基序列对应的样本电信号中不同碱基之间的真实边界;根据每个样本碱基序列对应的样本电信号、以及每个样本碱基序列对应的样本电信号的参考边界序列,可以确定训练数据集;根据训练数据集,对碱基边界确定模型进行训练,其中,训练后的碱基边界确定模型用于对待识别碱基序列对应的电信号进行碱基边界识别,确定待识别碱基序列对应的电信号的参考边界序列,基于参考边界序列,能够快速灵活地对待识别碱基序列对应的电信号进行片段化,可以降低现有技术中的片段化方法对片段化参数的依赖,实现降低片段化的工作量,提高片段化的准确性和处理效率。
在一种可能的实现方式中,预设核酸序列为德布莱因序列。
德布莱因序列(De Bruijn sequence)可以表示由多个预设元素构成的循环序列。所有由预设元素构成的序列长度为k的序列,均可以在德布莱因序列(环状形式)的子序列中出现,并且仅出现一次。
在一示例中,德布莱因序列中包括预设元素0和1,由预设元素构成的序列的序列长度k=3。德布莱因序列B(2,3)可以表示为00010111,其序列长度为3的子序列为000,001,010,101,011,111,110和100。
通过设置预设核酸序列为德布莱因序列,可以使预设核酸序列中包括每一种排列组合的碱基序列,使预设核酸序列具有均匀性和全面性,能够提高训练后的碱基边界确定模型,识别待识别碱基序列对应的电信号中每个碱基之间的真实边界的准确性。
在一种可能的实现方式中,对预设核酸序列对应的电信号进行碱基识别,确定多个样本碱基序列、每个样本碱基序列对应的样本电信号、以及每个样本碱基序列对应的碱基位置信息,包括:对预设核酸序列对应的电信号进行碱基识别,确定多个初始碱基序列,以及每个初始碱基序列对应的碱基位置信息,其中,每个初始碱基序列包括预设数量的碱基,任意一个初始碱基序列对应的碱基位置信息,用于指示该初始碱基序列中每个碱基在该初始碱基序列对应的初始电信号中的位置;根据每个初始碱基序列和预设核酸序列对应的碱基序列标注信息,确定每个初始碱基序列对应的识别准确率;针对任意一个初始碱基序列,在该初始碱基序列对应的识别准确率大于预设阈值的情况下,将该初始碱基序列确定为样本碱基序列。
获取预设核酸序列后,可以对预设核酸序列对应的电信号进行碱基识别,确定多个包括预设数量的碱基的初始碱基序列,以及每个初始碱基序列对应的碱基位置信息。其中,对预设核酸序列对应的电信号进行碱基识别的具体方法,可以参考相关技术中的实施方式,例如,通过碱基识别(basecall)工具进行识别等,本公开对此不做具体限定。任意一个初始碱基序列对应的碱基位置信息,用于指示该初始碱基序列中每个碱基在该初始碱基序列对应的初始电信号中的位置。碱基位置信息的具体形式,可以根据实际的使用需求灵活设置,例如,可以包括每个碱基在该初始碱基序列对应的初始电信号中的开始位置、持续长度和结束位置等,本公开对此不做具体限定。
通过对预设核酸序列对应的电信号进行碱基识别确定的初始碱基序列,可能存在识别误差,导致初始碱基序列与预设核酸序列中真实的碱基排列顺序可能并不完全一致。因此,需要对初始碱基序列进行质量控制,根据预设核酸序列对应的碱基序列标注信息,确定每个初始碱基序列对应的识别准确率。
针对任意一个初始碱基序列,该初始碱基序列对应的识别准确率,可以表示该初始碱基序列,与预设核酸序列对应的碱基序列标注信息中的标注的真实碱基序列之间的相似度,可以以百分比的形式表示。
针对任意一个初始碱基序列,该初始碱基序列对应的识别准确率大于预设阈值的情况下,确定该初始碱基序列为高质量的碱基序列,具有较高的可读性,并将该初始碱基序列确定为样本碱基序列,该初始碱基序列对应的碱基位置信息为样本碱基序列对应的碱基位置信息,该初始碱基序列对应的初始电信号为样本碱基序列对应的样本电信号。其中,预设阈值的具体取值,可以根据实际的使用需求灵活设置,例如,预设阈值可以设置为95%,本公开对此不做具体限定。
在一种可能的实现方式中,针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,确定该样本碱基序列对应的样本电信号的参考边界序列,包括:针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,确定该样本碱基序列中每个碱基,在该样本碱基序列对应的样本电信号中的起始位置和结束位置;针对该样本碱基序列中的任意一个碱基,根据该碱基在该样本碱基序列对应的样本电信号中的起始位置和结束位置,确定该碱基对应的标识信息;根据该样本碱基序列中每个碱基对应的标识信息,确定该样本碱基序列对应的样本电信号的参考边界序列。
针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,可以确定该样本碱基序列中每个碱基,在该样本碱基序列对应的样本电信号中的起始位置和结束位置。
在一示例中,预设核酸序列是DNA序列,样本碱基序列为GCA,该样本碱基序列对应的样本电信号的长度为20个采样点,该样本碱基序列对应的碱基位置信息可以参阅表2。
表 2
参阅表2,可以确定该样本碱基序列中的第一个碱基鸟嘌呤(G)对应的开始位置和结束位置,分别为该样本碱基序列对应的样本电信号的第0个采样点和第6个采样点处;该样本碱基序列中的第二个碱基胞嘧啶(C)对应的开始位置和结束位置,分别为该样本碱基序列对应的样本电信号的第7个采样点和第11个采样点处;该样本碱基序列中的第三个碱基腺嘌呤(A)对应的开始位置和结束位置,分别为该样本碱基序列对应的样本电信号的第12个采样点和第20个采样点处。
针对样本碱基序列中的任意一个碱基,根据该碱基在该样本碱基序列对应的样本电信号中的起始位置和结束位置,确定该碱基对应的标识信息。具体的,可以将该碱基对应的结束位置,确定为该碱基与相邻碱基之间的边界位置,并确定该碱基的边界位置对应的标识信息为第一标识,确定该碱基除边界位置以外的其他位置对应的标识信息为第二标识。其中,标识信息的具体形式,可以根据实际的使用需求灵活设置,本公开对此不做具体限定。
以上述样本碱基序列为GCA为例,每个碱基的边界位置对应的标识信息为第一标识,第一标识可以表示为1,每个碱基除边界位置以外的其他位置对应的标识信息为第二标识,第二标识可以表示为0。则鸟嘌呤(G)对应的标识信息可以表示为000001,胞嘧啶(C)对应的标识信息可以表示为00001,腺嘌呤(A)对应的标识信息可以表示为0000000001。
针对任意一个样本碱基序列,根据该样本碱基序列中每个碱基对应的标识信息,可以确定该样本碱基序列对应的样本电信号的参考边界序列。
以上述样本碱基序列为GCA为例,分别确定该样本碱基序列中鸟嘌呤(G)、胞嘧啶(C)和腺嘌呤(A)对应的标识信息后,可以确定根据标识信息,确定该样本碱基序列对应的参考边界序列为:000001000010000000001。
在一种可能的实现方式中,根据训练数据集,对碱基边界确定模型进行训练,包括:针对任意一个样本碱基序列,将该样本碱基序列对应的样本电信号输入至碱基边界确定模型,确定该样本碱基序列对应的样本电信号的预测边界序列,其中,该样本碱基序列对应的样本电信号的预测边界序列用于指示该样本碱基序列对应的样本电信号中不同碱基之间的预测边界。根据该样本碱基序列对应的样本电信号的预测边界序列和参考边界序列,确定模型损失;根据模型损失,调整碱基边界确定模型的网络参数。
确定训练数据集后,可以根据训练数据集,对碱基边界确定模型进行训练。具体的,可以将训练数据集中,任意一个样本碱基序列对应的样本电信号输入值碱基边界确定模型,并根据碱基边界确定模型确定该样本碱基序列对应的样本电信号的预测边界序列。通过该样本碱基序列对应的样本电信号的预测边界序列,可以指示该样本碱基序列对应的样本电信号中不同碱基之间的预测边界。
将该样本碱基序列对应的样本电信号的预测边界序列,与该样本碱基序列对应的样本电信号的参考边界序列进行对比,可以确定碱基边界确定模型对应的模型损失。根据模型损失,可以对碱基边界确定模型的网络参数进行调整。其中,模型损失的具体形式,可以根据实际的使用需求灵活设置,例如,可以交叉熵损失(cross entropy loss)等,本公开对此不做具体限定。
通过基于训练数据集对碱基边界确定模型进行迭代训练,直至模型损失收敛,可以得到训练后的碱基边界确定模型。利用训练后的碱基边界确定模型,可以对待识别碱基序列对应的电信号进行碱基边界识别,确定待识别碱基序列对应的电信号的参考边界序列,准确指示待识别碱基序列对应的电信号中每个碱基之间的真实边界。
在一示例中,碱基边界确定模型为长短期记忆(Long Short Term Memory,LSTM)模型,设置损失函数为交叉熵损失,并采用梯度下降方法,根据训练数据集对LSTM模型进行训练。具体的,可以将训练数据集划分为多个不同的批次,每个批次的训练数据中包括多个由样本碱基序列对应的样本电信号,每个样本碱基序列对应的样本电信号的参考边界序列。
每个训练轮次中,可以将一个批次的训练数据输入至LSTM模型中,得到对应的预测边界序列。进而可以根据每个样本碱基序列对应的样本电信号的预测边界序列和参考边界序列,计算交叉熵损失,并根据交叉熵损失更新LSTM模型的网络参数。重复迭代多个训练轮次,直至交叉熵损失不再下降或达到预设的损失阈值,完成对LSTM模型的训练,得到训练后的碱基边界确定模型。
图3示出根据本公开实施例的一种基于训练数据集训练碱基识别模型的损失和准确率的变化曲线的示意图。如图3所示,通过训练数据集对碱基边界确定模型进行训练约100个轮次后,碱基边界确定模型对应的模型损失和预测准确率收敛。
在本公开实施例中,对预设核酸序列对应的电信号进行碱基识别,可以确定多个样本碱基序列、每个样本碱基序列对应的样本电信号、以及每个样本碱基序列对应的碱基位置信息,其中,每个样本碱基序列包括预设数量的碱基,任意一个样本碱基序列对应的碱基位置信息,用于指示该样本碱基序列中每个碱基在该样本碱基序列对应的样本电信号中的位置;针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,可以确定该样本碱基序列对应的样本电信号的参考边界序列,其中,该样本碱基序列对应的样本电信号的参考边界序列,用于指示该样本碱基序列对应的样本电信号中不同碱基之间的真实边界;根据每个样本碱基序列对应的样本电信号、以及每个样本碱基序列对应的样本电信号的参考边界序列,可以确定训练数据集;根据训练数据集,对碱基边界确定模型进行训练,其中,训练后的碱基边界确定模型用于对待识别碱基序列对应的电信号进行碱基边界识别,确定待识别碱基序列对应的电信号的参考边界序列,基于参考边界序列,能够快速灵活地对待识别碱基序列对应的电信号进行片段化,可以降低现有技术中的片段化方法对片段化参数的依赖,实现降低片段化的工作量,提高片段化的准确性和处理效率。
本公开还提供了一种碱基测序电信号的片段化方法。
图4示出根据本公开实施例的一种碱基测序电信号的片段化方法的流程图。该碱基测序电信号的片段化方法可以由终端设备或服务器等电子设备执行,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等,该碱基测序电信号的片段化方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。或者,可通过服务器执行该碱基测序电信号的片段化方法。如图4所示,该碱基测序电信号的片段化方法包括:
在步骤S41中,确定待识别碱基序列对应的待处理电信号。
这里的待识别碱基序列可以表示需要通过电信号进行碱基序列识别的DNA序列或RNA序列。确定待识别碱基序列对应的待处理电信号的具体方式,除了可以是纳米孔测序方法以外,也可以是其他方法,可以参考相关技术中的实施方式,本公开对此不做具体限定。
在步骤S42中,基于碱基边界确定模型,对待处理电信号进行碱基边界识别,确定待处理电信号对应的预测边界序列,其中,碱基边界确定模型通过上述方法训练得到,预测边界序列用于指示待处理信号中不同碱基之间的预测边界。
将待处理电信号输入碱基边界确定模型后,可以确定待处理电信号对应的预测边界序列,以指示待处理信号中不同碱基之间的预测边界。通过预测边界序列,可以对待识别碱基序列和待处理电信号进行分析和解读。其中,预测边界序列的具体形式,可以根据实际的使用需求灵活设置,本公开对此不做具体限定。
在步骤S43中,根据预测边界序列,对待处理电信号进行分段,确定片段化电信号。
基于预测边界序列,可以对待处理电信号进行分段,在待处理电信号中不同碱基之间的边界位置进行分割,确定多个片段化电信号。片段化电信号可以用于后续对待识别碱基序列进行相应的处理,例如,对待识别碱基序列进行碱基序列识别等。
在本公开实施例中,确定待识别碱基序列对应的待处理电信号后,可以基于碱基边界确定模型,对待处理电信号进行碱基边界识别,确定待处理电信号对应的预测边界序列,其中,碱基边界确定模型通过上述方法训练得到,预测边界序列用于指示待处理信号中不同碱基之间的预测边界;并根据预测边界序列,对待处理电信号进行分段,确定片段化电信号,相对于现有技术中,对待处理电信号进行片段化的方法,可以降低对片段化相关参数的依赖,减少在不同应用场景下对电信号进行片段化的工作量,提高片段化的效率、准确性和适用性。
可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
此外,本公开还提供了一种神经网络模型训练装置、碱基测序电信号的片段化装置、电子设备和计算机可读存储介质、程序,上述均可用来实现本公开提供的任意一种神经网络模型训练方法,和/或碱基测序电信号的片段化方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
图5示出根据本公开实施例的一种神经网络模型训练装置的框图。如图5所示,装置500包括:
碱基识别模块501,用于对预设核酸序列对应的电信号进行碱基识别,确定多个样本碱基序列、每个样本碱基序列对应的样本电信号、以及每个样本碱基序列对应的碱基位置信息,其中,每个样本碱基序列包括预设数量的碱基,任意一个样本碱基序列对应的碱基位置信息,用于指示该样本碱基序列中每个碱基在该样本碱基序列对应的样本电信号中的位置;
参考序列确定模块502,用于针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,确定该样本碱基序列对应的样本电信号的参考边界序列,其中,该样本碱基序列对应的样本电信号的参考边界序列,用于指示该样本碱基序列对应的样本电信号中不同碱基之间的真实边界;
训练数据集确定模块503,用于根据每个样本碱基序列对应的样本电信号、以及每个样本碱基序列对应的样本电信号的参考边界序列,确定训练数据集;
模型训练模块504,用于根据训练数据集,对碱基边界确定模型进行训练,其中,训练后的碱基边界确定模型用于对待识别碱基序列对应的电信号进行碱基边界识别。
在一种可能的实现方式中,碱基识别模块501,用于:
对预设核酸序列对应的电信号进行碱基识别,确定多个初始碱基序列,以及每个初始碱基序列对应的碱基位置信息,其中,每个初始碱基序列包括预设数量的碱基,任意一个初始碱基序列对应的碱基位置信息,用于指示该初始碱基序列中每个碱基在该初始碱基序列对应的初始电信号中的位置;根据每个初始碱基序列和预设核酸序列对应的碱基序列标注信息,确定每个初始碱基序列对应的识别准确率;针对任意一个初始碱基序列,在该初始碱基序列对应的识别准确率大于预设阈值的情况下,将该初始碱基序列确定为样本碱基序列。
在一种可能的实现方式中,参考序列确定模块502,用于:
针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,确定该样本碱基序列中每个碱基,在该样本碱基序列对应的样本电信号中的起始位置和结束位置;针对该样本碱基序列中的任意一个碱基,根据该碱基在该样本碱基序列对应的样本电信号中的起始位置和结束位置,确定该碱基对应的标识信息;根据该样本碱基序列中每个碱基对应的标识信息,确定该样本碱基序列对应的样本电信号的参考边界序列。
在一种可能的实现方式中,模型训练模块504,用于:
针对任意一个样本碱基序列,将该样本碱基序列对应的样本电信号输入至碱基边界确定模型,确定该样本碱基序列对应的样本电信号的预测边界序列,其中,该样本碱基序列对应的样本电信号的预测边界序列用于指示该样本碱基序列对应的样本电信号中不同碱基之间的预测边界。根据该样本碱基序列对应的样本电信号的预测边界序列和参考边界序列,确定模型损失;根据模型损失,调整碱基边界确定模型的网络参数。
在一种可能的实现方式中,预设核酸序列为德布莱因序列。
图6示出根据本公开实施例的一种碱基测序电信号的片段化装置的框图。如图6所示,装置600包括:
电信号确定模块601,用于确定待识别碱基序列对应的待处理电信号;
碱基边界确定模块602,用于基于碱基边界确定模型,对待处理电信号进行碱基边界识别,确定待处理电信号对应的预测边界序列,其中,碱基边界确定模型通过上述方法训练得到,预测边界序列用于指示待识别碱基序列中不同碱基之间的边界;
片段化模块603,用于根据预测边界序列,对待处理电信号进行分段,确定片段化电信号。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
本公开实施例还提出一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。
本公开实施例还提出一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为在执行所述存储器存储的指令时,实现上述方法。
电子设备可以被提供为终端、服务器或其它形态的设备。
图7示出根据本公开实施例的一种电子设备的框图。例如,装置1900可以被提供为一服务器或终端设备。参照图7,装置1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。
装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理,一个有线或无线网络接口1950被配置为将装置1900连接到网络,和一个输入输出接口1958(I/O接口)。装置1900可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM, LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器1932,上述计算机程序指令可由装置1900的处理组件1922执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (9)
1.一种神经网络模型训练方法,其特征在于,包括:
对预设核酸序列对应的电信号进行碱基识别,确定多个样本碱基序列、每个所述样本碱基序列对应的样本电信号、以及每个所述样本碱基序列对应的碱基位置信息,其中,每个所述样本碱基序列包括预设数量的碱基,任意一个样本碱基序列对应的碱基位置信息,用于指示该样本碱基序列中每个碱基在该样本碱基序列对应的样本电信号中的位置;
针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,确定该样本碱基序列对应的样本电信号的参考边界序列,其中,该样本碱基序列对应的样本电信号的参考边界序列,用于指示该样本碱基序列对应的样本电信号中不同碱基之间的真实边界;
根据每个所述样本碱基序列对应的样本电信号、以及每个所述样本碱基序列对应的样本电信号的参考边界序列,确定训练数据集;
根据所述训练数据集,对碱基边界确定模型进行训练,其中,训练后的所述碱基边界确定模型用于对待识别碱基序列对应的电信号进行碱基边界识别;
其中,所述根据所述训练数据集,对碱基边界确定模型进行训练,包括:
针对任意一个样本碱基序列,将该样本碱基序列对应的样本电信号输入至所述碱基边界确定模型,确定该样本碱基序列对应的样本电信号的预测边界序列,其中,该样本碱基序列对应的样本电信号的预测边界序列用于指示该样本碱基序列对应的样本电信号中不同碱基之间的预测边界;
根据该样本碱基序列对应的样本电信号的预测边界序列和参考边界序列,确定模型损失;
根据所述模型损失,调整所述碱基边界确定模型的网络参数。
2.根据权利要求1所述的方法,其特征在于,所述对预设核酸序列对应的电信号进行碱基识别,确定多个样本碱基序列、每个所述样本碱基序列对应的样本电信号、以及每个所述样本碱基序列对应的碱基位置信息,包括:
对所述预设核酸序列对应的电信号进行碱基识别,确定多个初始碱基序列,以及每个所述初始碱基序列对应的碱基位置信息,其中,每个所述初始碱基序列包括所述预设数量的碱基,任意一个初始碱基序列对应的碱基位置信息,用于指示该初始碱基序列中每个碱基在该初始碱基序列对应的初始电信号中的位置;
根据每个所述初始碱基序列和所述预设核酸序列对应的碱基序列标注信息,确定每个所述初始碱基序列对应的识别准确率;
针对任意一个初始碱基序列,在该初始碱基序列对应的识别准确率大于预设阈值的情况下,将该初始碱基序列确定为样本碱基序列。
3.根据权利要求1或2所述的方法,其特征在于,所述针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,确定该样本碱基序列对应的样本电信号的参考边界序列,包括:
针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,确定该样本碱基序列中每个碱基,在该样本碱基序列对应的样本电信号中的起始位置和结束位置;
针对该样本碱基序列中的任意一个碱基,根据该碱基在该样本碱基序列对应的样本电信号中的起始位置和结束位置,确定该碱基对应的标识信息;
根据该样本碱基序列中每个碱基对应的标识信息,确定该样本碱基序列对应的样本电信号的参考边界序列。
4.根据权利要求1或2所述的方法,其特征在于,所述预设核酸序列为德布莱因序列。
5.一种碱基测序电信号的片段化方法,其特征在于,包括:
确定待识别碱基序列对应的待处理电信号;
基于碱基边界确定模型,对所述待处理电信号进行碱基边界识别,确定所述待处理电信号对应的预测边界序列,其中,所述碱基边界确定模型通过权利要求1至4中任意一项所述的方法训练得到,所述预测边界序列用于指示所述待处理电信号中不同碱基之间的预测边界;
根据所述预测边界序列,对所述待处理电信号进行分段,确定片段化电信号。
6.一种神经网络模型训练装置,其特征在于,包括:
碱基识别模块,用于对预设核酸序列对应的电信号进行碱基识别,确定多个样本碱基序列、每个所述样本碱基序列对应的样本电信号、以及每个所述样本碱基序列对应的碱基位置信息,其中,每个所述样本碱基序列包括预设数量的碱基,任意一个样本碱基序列对应的碱基位置信息,用于指示该样本碱基序列中每个碱基在该样本碱基序列对应的样本电信号中的位置;
参考序列确定模块,用于针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,确定该样本碱基序列对应的样本电信号的参考边界序列,其中,该样本碱基序列对应的样本电信号的参考边界序列,用于指示该样本碱基序列对应的样本电信号中不同碱基之间的真实边界;
训练数据集确定模块,用于根据每个所述样本碱基序列对应的样本电信号、以及每个所述样本碱基序列对应的样本电信号的参考边界序列,确定训练数据集;
模型训练模块,用于根据所述训练数据集,对碱基边界确定模型进行训练,其中,训练后的所述碱基边界确定模型用于对待识别碱基序列对应的电信号进行碱基边界识别;
其中,所述模型训练模块具体用于:
针对任意一个样本碱基序列,将该样本碱基序列对应的样本电信号输入至所述碱基边界确定模型,确定该样本碱基序列对应的样本电信号的预测边界序列,其中,该样本碱基序列对应的样本电信号的预测边界序列用于指示该样本碱基序列对应的样本电信号中不同碱基之间的预测边界;
根据该样本碱基序列对应的样本电信号的预测边界序列和参考边界序列,确定模型损失;
根据所述模型损失,调整所述碱基边界确定模型的网络参数。
7.一种碱基测序电信号的片段化装置,其特征在于,包括:
电信号确定模块,用于确定待识别碱基序列对应的待处理电信号;
碱基边界确定模块,用于基于碱基边界确定模型,对所述待处理电信号进行碱基边界识别,确定所述待处理电信号对应的预测边界序列,其中,所述碱基边界确定模型通过权利要求1至4中任意一项所述的方法训练得到,所述预测边界序列用于指示所述待处理电信号中不同碱基之间的预测边界;
片段化模块,用于根据所述预测边界序列,对所述待处理电信号进行分段,确定片段化电信号。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为在执行所述存储器存储的指令时,实现权利要求1至5中任意一项所述的方法。
9.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至5中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410001853.0A CN117497055B (zh) | 2024-01-02 | 2024-01-02 | 神经网络模型训练、碱基测序电信号的片段化方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410001853.0A CN117497055B (zh) | 2024-01-02 | 2024-01-02 | 神经网络模型训练、碱基测序电信号的片段化方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117497055A CN117497055A (zh) | 2024-02-02 |
CN117497055B true CN117497055B (zh) | 2024-03-12 |
Family
ID=89683358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410001853.0A Active CN117497055B (zh) | 2024-01-02 | 2024-01-02 | 神经网络模型训练、碱基测序电信号的片段化方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117497055B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117744748B (zh) * | 2024-02-20 | 2024-04-30 | 北京普译生物科技有限公司 | 一种神经网络模型训练、碱基识别方法及装置、电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111312333A (zh) * | 2020-02-15 | 2020-06-19 | 苏州浪潮智能科技有限公司 | 一种bwt查表性能改进方法、装置、设备和介质 |
CN115210816A (zh) * | 2020-02-20 | 2022-10-18 | 因美纳有限公司 | 基于人工智能的索引序列的碱基检出 |
CN115240189A (zh) * | 2021-04-16 | 2022-10-25 | 深圳市华大智造软件技术有限公司 | 碱基分类方法、基因测序仪、计算机可读存储介质 |
CN115910217A (zh) * | 2022-12-23 | 2023-04-04 | 郑州思昆生物工程有限公司 | 一种碱基确定方法、装置、计算机设备及存储介质 |
CN116486910A (zh) * | 2022-10-17 | 2023-07-25 | 北京普译生物科技有限公司 | 纳米孔测序碱基识别的深度学习训练集建立方法及其应用 |
CN116904569A (zh) * | 2023-09-13 | 2023-10-20 | 北京齐碳科技有限公司 | 信号处理方法、装置、电子设备、介质和产品 |
CN117063240A (zh) * | 2021-12-24 | 2023-11-14 | 上海芯像生物科技有限公司 | 基于深度学习的核酸测序方法和系统 |
CN117252786A (zh) * | 2023-11-17 | 2023-12-19 | 吉林华瑞基因科技有限公司 | 一种基因检测数据增强处理方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2022305321A1 (en) * | 2021-06-29 | 2024-01-18 | Illumina, Inc. | Signal-to-noise-ratio metric for determining nucleotide-base calls and base-call quality |
-
2024
- 2024-01-02 CN CN202410001853.0A patent/CN117497055B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111312333A (zh) * | 2020-02-15 | 2020-06-19 | 苏州浪潮智能科技有限公司 | 一种bwt查表性能改进方法、装置、设备和介质 |
CN115210816A (zh) * | 2020-02-20 | 2022-10-18 | 因美纳有限公司 | 基于人工智能的索引序列的碱基检出 |
CN115240189A (zh) * | 2021-04-16 | 2022-10-25 | 深圳市华大智造软件技术有限公司 | 碱基分类方法、基因测序仪、计算机可读存储介质 |
CN117063240A (zh) * | 2021-12-24 | 2023-11-14 | 上海芯像生物科技有限公司 | 基于深度学习的核酸测序方法和系统 |
CN116486910A (zh) * | 2022-10-17 | 2023-07-25 | 北京普译生物科技有限公司 | 纳米孔测序碱基识别的深度学习训练集建立方法及其应用 |
CN115910217A (zh) * | 2022-12-23 | 2023-04-04 | 郑州思昆生物工程有限公司 | 一种碱基确定方法、装置、计算机设备及存储介质 |
CN116904569A (zh) * | 2023-09-13 | 2023-10-20 | 北京齐碳科技有限公司 | 信号处理方法、装置、电子设备、介质和产品 |
CN117252786A (zh) * | 2023-11-17 | 2023-12-19 | 吉林华瑞基因科技有限公司 | 一种基因检测数据增强处理方法 |
Non-Patent Citations (5)
Title |
---|
Diana S.C. Han et al..The Biology of Cell-free DNA Fragmentation and the Roles of DNASE1,DNASE1L3, and DFFB.《ScienceDirect》.2020,第106卷(第2期),全文. * |
DNA序列分词方法的优化及应用;张丽娜;《中国优秀硕士学位论文全文数据库 基础科学辑》;20140315(第3期);第A006-113页 * |
Nanocall: an open source basecaller for Oxford Nanopore sequencing data;Matei David et al.;《OXFORD ACADEMIC》;20160910;第33卷(第1期);全文 * |
原核启动子识别研究进展;杜耀华, 王正志;生物技术;20051020(05);全文 * |
基于HMM的表面肌电信号模式分类;罗志增;严庭芳;;华中科技大学学报(自然科学版);20080415(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117497055A (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109994155B (zh) | 一种基因变异识别方法、装置和存储介质 | |
CN117497055B (zh) | 神经网络模型训练、碱基测序电信号的片段化方法及装置 | |
Ono et al. | PBSIM2: a simulator for long-read sequencers with a novel generative model of quality scores | |
WO2015081754A1 (en) | Genome compression and decompression | |
CN109979530B (zh) | 一种基因变异识别方法、装置和存储介质 | |
CN111564179B (zh) | 一种基于三元组神经网络的物种生物学分类方法及系统 | |
CN115394361A (zh) | 用于构建微生物基因组数据库的方法、设备和介质 | |
CN110782946A (zh) | 识别重复序列的方法及装置、存储介质、电子设备 | |
CN113590756A (zh) | 信息序列生成方法、装置、终端设备和计算机可读介质 | |
CN117831630B (zh) | 为碱基识别模型构建训练数据集的方法、装置及电子设备 | |
CN116403645B (zh) | 转录因子结合位点的预测方法及装置 | |
CN108139379B (zh) | 法医文件的众包自动化审查 | |
Collier et al. | A new statistical framework to assess structural alignment quality using information compression | |
CN117831630A (zh) | 为碱基识别模型构建训练数据集的方法、装置及电子设备 | |
EP3367275A1 (en) | Biological sequence data processing method and device | |
CN112148865B (zh) | 信息推送方法和装置 | |
AU2019253000B2 (en) | Determination of frequency distribution of nucleotide sequence variants | |
Gudodagi et al. | Investigations and Compression of Genomic Data | |
CN117744748B (zh) | 一种神经网络模型训练、碱基识别方法及装置、电子设备 | |
CN111883212B (zh) | Dna指纹图谱的构建方法、构建装置及终端设备 | |
KR102111731B1 (ko) | 핵산 시퀀스를 분석하는 방법 및 장치 | |
CN111091873B (zh) | 基因变异的识别方法及装置、电子设备和存储介质 | |
CN116992450B (zh) | 一种文件检测规则确定方法及装置、电子设备及存储介质 | |
US11183270B2 (en) | Next generation sequencing sorting in time and space complexity using location integers | |
US20190050531A1 (en) | Dna sequence processing method and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |