CN113539371A - 一种序列的编码方法及装置、可读存储介质 - Google Patents
一种序列的编码方法及装置、可读存储介质 Download PDFInfo
- Publication number
- CN113539371A CN113539371A CN202110756922.5A CN202110756922A CN113539371A CN 113539371 A CN113539371 A CN 113539371A CN 202110756922 A CN202110756922 A CN 202110756922A CN 113539371 A CN113539371 A CN 113539371A
- Authority
- CN
- China
- Prior art keywords
- sequence
- codes
- nucleic acid
- code
- representative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请提供一种序列的编码方法及装置、可读存储介质。序列的编码方法包括:获取多个第一序列编码;第一序列编码为预设位数的碱基对应的指定位数的序列编码;根据预设的筛选算法对多个第一序列编码进行筛选,获得筛选后的多个第一序列编码;根据增量聚类算法基于筛选后的多个第一序列编码中的各个序列编码对应的序列之间的距离,从筛选后的多个第一序列编码中确定出多个代表序列编码;对多个代表序列编码进行拼接,确定多个第二序列编码;第二序列编码的位数大于指定位数;根据多个第二序列编码生成多个最终的序列编码;最终的序列编码对应的核酸序列用于对待测核酸进行标记。该方法用以实现误识别率低的序列编码的有效生成。
Description
技术领域
本申请涉及核酸序列编码技术领域,具体而言,涉及一种序列的编码方法及装置、可读存储介质。
背景技术
核酸的三代测序技术,利用已知序列编码生成对应的已知序列,连接在未知被测序列的头部,以实现对未知被测序列的标识,进而实现多路复用。
现有技术中,利用局部突变迭代等方法生成序列编码,这种方法可能会陷入局部最优而不是全局最优的情况,进而导致序列编码对应的序列容易被误识别。
如果从全局优化的角度出发,在解的空间里寻找最优序列集,可以解决误识别的问题。但是,目前常规计算机体系的存储能力还不能搜索遍历较大的解空间。
因此,现有技术缺少有效生成误识别率低的序列编码的方法。
发明内容
本申请实施例的目的在于提供一种序列的编码方法及装置、可读存储介质,用以实现误识别率低的序列编码的有效生成。
第一方面,本申请实施例提供一种序列的编码方法,包括:获取多个第一序列编码;所述第一序列编码为预设位数的碱基对应的指定位数的序列编码;根据预设的筛选算法对所述多个第一序列编码进行筛选,获得筛选后的多个第一序列编码;根据增量聚类算法基于所述筛选后的多个第一序列编码中的各个序列编码对应的序列之间的距离,从所述筛选后的多个第一序列编码中确定出多个代表序列编码;对所述多个代表序列编码进行拼接,确定多个第二序列编码;所述第二序列编码的位数大于所述指定位数;根据所述多个第二序列编码生成多个最终的序列编码;所述最终的序列编码对应的核酸序列用于对待测核酸进行标记。
在本申请实施例中,与现有技术相比,采用全局的分割组合的搜索方法,先对指定位数的序列编码进行筛选,并从筛选后的序列编码中确定出代表序列编码,然后再基于代表序列编码进行拼接,获得位数更高的序列编码,最后再基于位数更高的序列编码生成最终的序列编码。在这个过程中,利用增量聚类算法和拼接的方式,可以不断迭代生成长链序列编码,解决了完整长链序列空间太大无法存储的问题,也解决了通过遗传算法等容易搜索到局部最优点而非全局最优点的问题,进而可以实现误识别率低的序列编码的有效生成,将其应用于多路复用应用场景中,可以实现多路核酸的有效测序。
作为一种可能的实现方式,所述根据增量聚类算法基于所述筛选后的多个第一序列编码中的各个序列编码对应的序列之间的距离,从所述筛选后的多个第一序列编码中确定出多个代表序列编码,包括:针对当前待判断的序列编码,计算所述当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列之间的距离;若所述当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列中的每个序列之间的距离均大于预设阈值,则确定所述当前待判断的序列编码为代表序列编码;若所述当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列中的至少一个序列之间的距离小于或者等于预设阈值,则确定所述当前待判断的序列编码不是代表序列编码。
在本申请实施例中,在运用增量聚类算法时,结合序列编码之间的距离,对序列编码是否为代表序列编码进行有效的判断;并且,可以通过这种迭代判断方式实现各个序列编码的准确判断,实现全局搜索。
作为一种可能的实现方式,所述计算所述当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列之间的距离,包括:通过预设的距离算法和DTW(Dynamic Time Warping,动态时间归整)函数计算所述当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列之间的距离。
在本申请实施例中,通过基于距离算法的动态时间归整算法,能够实现距离的有效计算;且基于该距离所筛选出的代表序列编码所生成的序列编码,在应用时,效果更好。
作为一种可能的实现方式,所述通过预设的距离算法和DTW函数计算所述当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列之间的距离,包括:生成所述当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列分别对应的电流信号;通过所述预设的距离算法、所述DTW函数和所述电流信号确定所述当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列之间的距离。
在本申请实施例中,通过生成电流信号,可以实现基于电流信号对距离进行有效计算。
作为一种可能的实现方式,所述预设的距离算法为:巴氏距离算法或者欧式距离算法。
在本申请实施例中,通过基于巴氏距离/欧式距离的动态时间归整算法,能够实现距离的有效计算,且基于该距离所筛选出的代表序列编码所生成的序列编码,在应用时,效果更好。
作为一种可能的实现方式,所述根据所述多个第二序列编码生成多个最终的序列编码,包括:对所述多个第二序列编码进行筛选,获得多个筛选后的第二序列编码;根据增量聚类算法基于所述多个筛选后的第二序列编码中的各个序列编码对应的序列之间的距离从所述多个筛选后的第二序列编码中确定出多个新的代表序列编码;对所述多个新的代表序列编码进行拼接,确定多个第三序列编码;所述第三序列编码的位数大于所述第二序列编码的位数;根据所述多个第三序列编码生成多个最终的序列编码。
在本申请实施例中,在基于代表序列编码拼接获得位数更高的序列编码之后,还可以迭代全局搜索过程,进而生成更多的最终的序列编码,能够更好的应用于多路复用应用场景中。
作为一种可能的实现方式,所述编码方法还包括:从所述多个最终的序列编码中确定出标记序列编码;确定所述标记序列编码对应的校验编码;合成所述标记序列编码对应的标记核酸序列,以及合成所述校验编码对应的校验核酸序列;依次连接所述标记核酸序列、所述校验核酸序列和所述待测核酸,获得标记后的待测核酸。
在本申请实施例中,在对多个序列编码进行应用时,还可以为标记序列编码确定校验编码,然后基于序列编码对应的序列以及校验编码对应的序列对待测核酸序列进行标记,校验编码对应的序列可以对序列编码对应的序列进行验证,实现待测核酸序列的有效标记。
作为一种可能的实现方式,所述编码方法还包括:在对所述待测核酸进行纳米孔测序时,获取所述标记后的待测核酸对应的纳米孔的电流信号;从所述电流信号中分离出所述标记核酸序列对应的电流信号和所述校验核酸序列对应的电流信号;将所述标记核酸序列对应的电流信号输入到预先训练好的检测模型中,获得所述标记核酸序列对应的标识;根据所述校验核酸序列对应的电流信号确定还原的标记核酸序列;根据预设的所述最终的序列编码与序列编码标识之间的对应关系确定所述还原的标记核酸序列对应的标识;将所述标记核酸序列对应的标识和所述还原的标记核酸序列对应的标识进行比对;根据比对结果对所述标记核酸序列对应的电流信号进行处理。
在本申请实施例中,在对待测核酸进行测序时,通过标记核酸序列对应的电流信号确定标记核酸序列对应的标识,通过校验核酸序列确定还原的标记核酸序列对应的标识,最后将两个标识进行比对,根据比对结果可以对标记核酸序列对应的电流信号进行有效的处理。
作为一种可能的实现方式,所述根据比对结果对所述标记核酸序列对应的电流信号进行处理,包括:若所述标记核酸序列对应的标识和所述还原的标记核酸序列对应的标识不一致,存储所述标记核酸序列对应的标识和所述标记核酸序列对应的电流信号;所述编码方法还包括:在对初始的检测模型进行训练时,将所述标记核酸序列对应的标识和所述标记核酸序列对应的电流信号作为训练数据。
在本申请实施例中,如果标记核酸序列对应的标识和还原的标记核酸序列对应的标识不一致,说明该标记核酸序列可能存在误识别的情况,此时可以将其用作训练数据,对检测模型进行训练,以提高检测模型的精度。
作为一种可能的实现方式,所述根据预设的筛选算法对所述多个第一序列编码进行筛选,获得筛选后的多个第一序列编码,包括:根据最小自由能算法对所述多个第一序列编码进行筛选,以及根据重复序列检查法对所述多个第一序列编码进行筛选,获得筛选后的多个第一序列编码;所述最小自由能算法用于筛选掉具有空间结构的序列对应的编码,所述重复序列检查法用于筛选掉指定的重复序列对应的编码。
在本申请实施例中,通过最小自由能算法可以筛选掉具有空间结构的序列对应的编码;通过重复序列检查法可以筛选掉指定的重复序列对应的编码;进而实现序列编码的有效筛选。
第二方面,本申请实施例提供一种序列的编码装置,包括:用于实现第一方面以及第一方面的任意一种可能的实现方式中所述的序列的编码方法的各个功能模块。
第三方面,本申请实施例提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被计算机运行时,执行第一方面以及第一方面的任意一种可能的实现方式中所述的序列的编码方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的序列的编码方法的流程图;
图2为本申请实施例提供的序列的编码装置的结构示意图。
图标:200-序列的编码装置;210-获取模块;220-处理模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
本申请实施例提供的序列的编码方法可以应用在核酸三代测序的多路复用的应用场景中,在该多路复用的应用场景中,先生成用于对核酸进行标记的序列编码,然后合成序列编码对应的标记序列。在对待测核酸进行测序时,将合成的标记序列连接在待测核酸的头部,以实现对待测核酸的标记。在利用纳米孔测序技术获得相应的电流信号之后,结合标记序列和待测核酸的电路信号的特点,从中分离出标记序列对应的电流信号和待测核酸对应的电流信号。基于标记序列对应的电流信号,确定标记序列对应的标识,进而确定待测核酸的标识,可以理解为确定待测核酸是多路核酸中的哪一路核酸。基于待测核酸对应的电流信号,可以确定待测核酸的序列。
在本申请实施例中,一方面,提供一种序列的编码方法,来实现误识别率低的序列编码的有效生成;另一方面,对生成的序列编码的应用方式进行介绍。
本申请实施例所提供的技术方案的执行主体可以包括编码生成设备和核酸测序设备,编码生成设备和核酸测序设备可以是同一个设备,也可以是不同的设备,可以是计算机等具有数据处理能力的电子设备。
可以理解,碱基一共包括四种:ATCG;序列编码仅代表这四种碱基的排列组合方式,基于该排列组合方式,可以合成对应的序列。举例来说,假设序列编码为:AACAGGACCAGGCGAAG,则在合成对应的序列时,将四种碱基按照该序列编码中的排列组合方式进行合成,即可获得序列编码对应的序列。
此外,不同位数的碱基具有不同数量的排列组合方式,以40位碱基为例,其对应的排列组合方式有:440种,如果从这440种进行全局搜索,难以实现有效的遍历,导致不能实现序列编码的有效生成,而采用本申请实施例提供的方法,可以实现序列编码的有效生成。
接下来请参照图1,为本申请实施例提供的序列的编码方法的流程图,该编码方法包括:
步骤110:获取多个第一序列编码。其中,第一序列编码为预设位数的碱基对应的指定位数的序列编码。
步骤120:根据预设的筛选算法对多个第一序列编码进行筛选,获得筛选后的多个第一序列编码。
步骤130:根据增量聚类算法基于筛选后的多个第一序列编码中的各个序列编码对应的序列之间的距离,从筛选后的多个第一序列编码中确定出多个代表序列编码。
步骤140:对多个代表序列编码进行拼接,确定多个第二序列编码。其中,第二序列编码的位数大于指定位数。
步骤150:根据多个第二序列编码生成多个最终的序列编码。其中,最终的序列编码对应的核酸序列用于对待测核酸进行标记。
在本申请实施例中,与现有技术相比,采用全局的分割组合的搜索方法,先对指定位数的序列编码进行筛选,并从筛选后的序列编码中确定出代表序列编码,然后再基于代表序列编码进行拼接,获得位数更高的序列编码,最后再基于位数更高的序列编码生成最终的序列编码。在这个过程中,利用增量聚类算法和拼接的方式,可以不断迭代生成长链序列编码,解决了完整长链序列空间太大无法存储的问题,也解决了通过遗传算法等容易搜索到局部最优点的问题,进而可以实现误识别率低的序列编码的有效生成,将其应用于多路复用应用场景中,可以实现多路核酸的有效测序。
接下来对该序列的编码方法的详细实施方式进行介绍。
在步骤110中,预设位数为碱基的位数,第一序列编码为预设位数的碱基的多个序列编码中指定位数的序列编码。比如:预设位数可以为40位,则相应的碱基的排列组合方式共有440种。指定位数的序列编码可以是短序列的编码,比如:假设预设位数为40位,则第一序列编码可以是:9-mer,10-mer,11-mer等较短k-mer序列编码中的至少一种序列编码。
第一序列编码的数量为多个,步骤110的获取过程,可以理解为这些较短序列编码的确定过程,可采用成熟的序列编码确定方式确定。
在步骤120中,对多个第一序列编码进行筛选。作为一种可选的实施方式,该步骤包括:根据最小自由能算法对多个第一序列编码进行筛选,以及根据重复序列检查法对多个第一序列编码进行筛选,获得筛选后的多个第一序列编码;最小自由能算法用于筛选掉具有空间结构的序列对应的编码,重复序列检查法用于筛选掉指定的重复序列对应的编码。
在这种实施方式中,通过最小自由能算法可以筛选掉具有空间结构的序列对应的编码;通过重复序列检查法可以筛选掉指定的重复序列对应的编码;进而实现序列编码的有效筛选。
在步骤120中获得筛选后的多个第一序列编码之后,在步骤130中,根据增量聚类算法基于筛选后的多个第一序列编码中的各个序列编码对应的序列之间的距离,从筛选后的多个第一序列编码中确定出多个代表序列编码。
增量聚类算法,是一种迭代算法。在本申请实施例中,基于该迭代算法,可以对多个第一序列编码进行全局搜索,从中确定出多个代表序列编码。为了便于理解,对增量聚类的过程作一个举例介绍。
预设一个代表序列编码的判断标准,先根据该判断标准从多个第一序列编码中确定出第一个代表序列编码,针对后续的各个待判断的序列编码,依次判断序列编码是否满足该判断标准,如果满足,则待判断的序列编码为代表序列编码,如果不满足,则待判断的序列编码不是代表序列编码。通过不断重复该判断过程,可从中确定出全部的代表序列编码。
在本申请实施例中,判断标准可以是:待判断序列编码对应的序列与已确定的代表序列编码对应的序列之间的距离大于预设阈值。因此,作为一种可选的实施方式,步骤130包括:针对当前待判断的序列编码,计算当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列之间的距离;若当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列中的每个序列之间的距离均大于预设阈值,则确定当前待判断的序列编码为代表序列编码;若当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列中的至少一个序列之间的距离小于或者等于预设阈值,则确定当前待判断的序列编码不是代表序列编码。
其中,在先确定的代表序列编码为在当前待判断的序列编码之前所确定出的各个代表序列编码。比如:假设当前待判断的序列编码为第5个序列编码,如果第2和3个序列编码已经确定是代表序列编码,第1个序列编码和第4个序列编码确定不是代表序列编码,则在先确定的代表编码序列为第2和3个序列编码。
继续以上述举例为例,先从多个第一序列编码中随机确定一个序列编码为代表序列编码,即确定第一个代表序列编码;然后针对第二个序列编码(多个第一序列编码中除该代表序列编码之外的一剩余序列编码),计算第二个序列编码对应的序列与该代表序列编码对应的序列之间的距离,如果距离大于预设距离值,则第二个序列编码也为代表序列编码;如果距离小于或者等于预设距离值,则第二个序列编码不是代表序列编码。继续对第三个序列编码(多个第一序列编码中除该代表序列编码及该第二个序列编码之外的一剩余序列编码)进行判断,直至遍历完第一序列编码中的所有序列编码,确定出多个代表序列编码。
可以理解,如果当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列的距离均大于预设阈值,则当前待判断的序列编码是代表序列编码,否则,则不是。举例来说,在先确定的代表序列编码有5个,如果当前待判断的序列编码对应的序列与这5个代表序列编码分别对应的序列之间的距离值均大于预设阈值,则当前待判断的序列编码为代表序列编码;如果当前待判断的序列编码对应的序列与这5个代表序列编码分别对应的序列之间的距离值,存在着至少一个小于或者等于预设阈值的距离值,则当前待判断的序列编码不是代表序列编码。
在本申请实施例中,在运用增量聚类算法时,结合序列编码之间的距离,对序列编码是否为代表序列编码进行有效的判断;并且,可以通过这种迭代判断方式实现各个序列编码的准确判断,实现全局搜索。
在增量聚类的过程中,序列编码对应的序列之间的距离的计算比较重要。作为一种可选的实施方式,距离的计算方式为:通过预设的距离算法和DTW函数计算序列编码对应的序列之间的距离,即,当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列之间的距离通过预设的距离算法和DTW函数进行计算。
其中,预设的距离算法用于计算点之间的距离,DTW函数用于计算序列之间的距离,结合这两种算法,可以实现序列之间的距离的有效计算。其中,点之间的距离可以是用仿真软件得到的电流时间分布序列对应的时间点两个序列电流之间的距离。
在本申请实施例中,预设的距离算法可以为巴氏距离或者欧式距离。通过基于巴氏距离的动态时间归整算法,能够实现距离的有效计算,且基于该距离所筛选出的代表序列编码所生成的序列编码,在应用时,效果更好。
作为一种可选的实施方式,通过预设的距离算法和DTW函数计算当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列之间的距离,包括:生成当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列分别对应的电流信号;通过预设的距离算法、DTW函数和电流信号确定当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列之间的距离。
在这种实施方式中,通过生成电流信号,可以实现基于电流信号对距离进行有效计算。其中,基于电流信号计算距离属于本领域成熟的技术,但是本申请实施例所采用的算法与现有的距离算法不同,因此,本申请实施例中不对如何基于电流信号计算距离作详细的介绍。
在步骤130中确定出多个代表序列编码之后,在步骤140中,对多个代表序列编码进行拼接,确定多个第二序列编码。第二序列编码的位数大于指定位数。
在拼接时,可以按照预设的拼接规则进行代表序列编码的拼接。比如:将多个第二序列编码拼接成多个不等长的长k-mer序列(比如20-mer~30-mer序列)。进而,每次拼接时,可以选择不同长度的序列,以使每次拼接得到的序列的长度不相同。
进而,在步骤150中,根据多个第二序列编码生成多个最终的序列编码。作为一种可选的实施方式,基于多个第二序列编码,可以继续进行全局搜索,步骤150包括:对多个第二序列编码进行筛选,获得多个筛选后的第二序列编码;根据增量聚类算法基于多个筛选后的第二序列编码中的各个序列编码对应的序列之间的距离从多个筛选后的第二序列编码中确定出多个新的代表序列编码;对多个新的代表序列编码进行拼接,确定多个第三序列编码;第三序列编码的位数大于第二序列编码的位数;根据多个第三序列编码生成多个最终的序列编码。
在这种实施方式中,在基于代表序列编码拼接获得位数更高的序列编码之后,还可以迭代全局搜索过程,进而生成更多的最终的序列编码,能够更好的应用于多路复用应用场景中。
因此,该种实施方式中,实际上是将多个第二序列编码作为步骤110中的短序列编码,进行筛选、聚类,最后再拼接成更高位数的序列编码。所生成的第三序列编码可作为最终的结果,也可以继续进行筛选、聚类和拼接,获得位数更高的序列编码,直至满足需求;当然,在步骤150中获得的第二序列编码也可作为最终的序列编码,在本申请实施例中不对迭代的次数进行限制。
在步骤150中所生成的多个最终的序列编码可用于对待测核酸进行标记,接下来对该最终的序列编码的标记应用进行介绍。
作为一种可选的应用方式,从多个最终的序列编码中确定出标记序列编码;确定标记序列编码对应的校验编码;合成标记序列编码对应的标记核酸序列,以及合成校验编码对应的校验核酸序列;依次连接标记核酸序列、校验核酸序列和待测核酸,获得标记后的待测核酸。
其中,在确定标记序列编码时,可以根据待测核酸的数量进行确定。比如,一共有3路待测核酸,则可以从最终的序列编码中随机选择三个序列编码。
在确定标记序列编码之后,可以基于标记序列编码,生成对应的校验编码。在生成校验编码时,可以先将标记序列编码转换为数字编码,然后根据数字编码生成数字校验编码,然后再将数字校验编码转换为(序列)校验编码。在实际应用时,只要保证通过校验编码,可以还原出标记序列编码即可,因此,在本申请实施例中不对校验编码的生成方式作限定。
基于标记序列编码可以合成对应的标记核酸序列,基于校验编码可以合成对应的校验核酸序列,合成的实施方式属于本领域成熟的技术,在本申请实施例中不作详细介绍。
在需要对待测核酸进行测序时,依次连接标记核酸序列、校验核酸序列和待测核酸,即可获得标记后的待测核酸,其中,序列之间的连接可以通过连接酶实现。此外,标记核酸序列和校验核酸序列连接在待测核酸的头部。
在本申请实施例中,由于生成的多个最终的序列编码也需要进行区分,因此,可以为序列编码设置相应的标识。比如:一共有100个序列编码,则这100个序列编码分别对应的标识为:编号001-编号100;比如:第3个序列编码对应的标识为:003;第20个序列编码对应的标识为020。
进而,在对待测核酸进行纳米孔测序时,获取标记后的待测核酸对应的纳米孔的电流信号;从电流信号中分离出标记核酸序列对应的电流信号和校验核酸序列对应的电流信号;将标记核酸序列对应的电流信号输入到预先训练好的检测模型中,获得标记核酸序列对应的标识;根据校验核酸序列对应的电流信号确定还原的标记核酸序列;根据预设的最终的序列编码与序列编码标识之间的对应关系确定还原的标记核酸序列对应的标识;将标记核酸序列对应的标识和还原的标记核酸序列对应的标识进行比对;根据比对结果对标记核酸序列对应的电流信号进行处理。
在这种实施方式中,在分离标记核酸序列对应的电流信号和校验核酸序列对应的电流信号时,可以根据预设的与两个电流信号分别匹配的电流特征进行分离,电流特征的依据为标记核酸序列和校验核酸序列在待测核酸的头部。比如:标记核酸序列对应的电流信号为第一时间段内满足第一预设电流值的电流信号;校验核酸序列为第二时间段内满足第二预设电流值的电流信号。其中,第二时间段在第一时间段之后,第一预设电流值小于第二预设电流值。第一时间段、第二时间段、第一预设电流和第二预设电流的具体值,可以结合具体的应用场景中的纳米孔环境,以及待测核酸的情况进行预设,在本申请实施例中不作限定。
预先训练好的检测模型,为一种神经网络模型,其可以是卷积神经网络,或者循环神经网络,或者Transformer,在本申请实施例中不作限定。
该检测模型对应的训练数据中包括:从纳米孔电流信号中分离出的标记核酸序列对应的电流信号,以及标记核酸序列对应的标记序列编码的标识,即标记核酸序列对应的标识,也可以理解为标记核酸序列对应的标记序列编码的种类。除了该部分数据,在训练数据中还可以包括基于已有的标记核酸序列对应的电流信号和对应的负种类判断结果(即判断有误的结构)的负例数据,参见后续实施例中的介绍。该负例数据除了直接作为训练数据,也可以作为验证数据集对检测模型的准确度进行验证,并根据验证结果对检测模型进行调整。
总之,对于该检测模型,通过预先的训练,在将标记核酸序列对应的电流信号输入到该模型中之后,检测模型可以输出标记核酸序列对应的标识。
除了基于检测模型所获得的标识,参照前述实施例中的介绍,通过校验编码,可以还原出标记序列编码。因此,可以先根据校验核酸序列对应的电流信号确定校验核酸编码,然后再基于校验核酸编码还原出标记序列编码。进而,根据预设的最终的序列编码与序列编码标识之间的对应关系确定标记序列编码对应的标识,该标识即为还原的标记核酸序列对应的标识。
将标记核酸序列对应的标识和还原的标记核酸序列对应的标识进行比对,获得两者是否一致的比对结果,基于该比对结果,可以对标记核酸序列对应的电路信号作进一步的处理。
作为一种可选的实施方式,该处理过程包括:若标记核酸序列对应的标识和还原的标记核酸序列对应的标识不一致,存储标记核酸序列对应的标识和标记核酸序列对应的电流信号。对应的,该编码方法还包括:在对初始的检测模型进行训练时,将标记核酸序列对应的标识和标记核酸序列对应的电流信号作为训练数据。
在这种实施方式中,如果标记核酸序列对应的标识和还原的标记核酸序列对应的标识不一致,说明该标记核酸序列可能存在误识别的情况,此时可以将其用作训练数据,对检测模型进行训练。即,标记核酸序列对应的标识和标记核酸序列对应的电流信号可以作为前述实施例中介绍的检测模型的负例训练数据,通过这种方式,可以提高检测模型的精度。
结合前述实施例的介绍,在本申请实施例中,一方面,采用全局的分割组合的搜索方法,以及在过程中,基于巴氏距离和DTW计算距离,最终实现误识别率低的序列编码的有效生成。另一方面,在对应序列编码进行应用时,利用序列编码对应的序列的检测结果获得检测模型的训练数据,进而可以不断提高序列编码对应的序列的检测精度,使序列编码可以得到更有效的利用。
基于同一发明构思,请参照图2,本申请实施例中还提供一种序列的编码装置200,包括:获取模块210和处理模块220。
获取模块210用于:获取多个第一序列编码;所述第一序列编码为预设位数的碱基对应的指定位数的序列编码。
处理模块220用于:根据预设的筛选算法对所述多个第一序列编码进行筛选,获得筛选后的多个第一序列编码;根据增量聚类算法基于所述筛选后的多个第一序列编码中的各个序列编码对应的序列之间的距离,从所述筛选后的多个第一序列编码中确定出多个代表序列编码;对所述多个代表序列编码进行拼接,确定多个第二序列编码;所述第二序列编码的位数大于所述指定位数;根据所述多个第二序列编码生成最终的序列编码;所述最终的序列编码对应的核酸序列用于对待测核酸进行标记。
在本申请实施例中,处理模块220具体用于:针对当前待判断的序列编码,计算所述当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列之间的距离;若所述当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列中的每个序列之间的距离均大于预设阈值,则确定所述当前待判断的序列编码为代表序列编码;若所述当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列中的至少一个序列之间的距离小于或者等于预设阈值,则确定所述当前待判断的序列编码不是代表序列编码。
在本申请实施例中,处理模块220具体用于:通过预设的距离算法和DTW(DynamicTime Warping,动态时间归整)函数计算所述当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列之间的距离。
在本申请实施例中,处理模块220具体还用于:生成所述当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列分别对应的电流信号;通过所述预设的距离算法、所述DTW函数和所述电流信号确定所述当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列之间的距离。
在本申请实施例中,处理模块220具体还用于:对所述多个第二序列编码进行筛选,获得多个筛选后的第二序列编码;根据增量聚类算法基于所述多个筛选后的第二序列编码中的各个序列编码对应的序列之间的距离从所述多个筛选后的第二序列编码中确定出多个新的代表序列编码;对所述多个新的代表序列编码进行拼接,确定多个第三序列编码;所述第三序列编码的位数大于所述第二序列编码的位数;根据所述多个第三序列编码生成多个最终的序列编码。
在本申请实施例中,序列的编码装置200还包括,核酸测序模块,用于:从所述多个最终的序列编码中确定出标记序列编码;确定所述标记序列编码对应的校验编码;合成所述标记序列编码对应的标记核酸序列,以及合成所述校验编码对应的校验核酸序列;依次连接所述标记核酸序列、所述校验核酸序列和所述待测核酸,获得标记后的待测核酸。
在本申请实施例中,核酸测序模块还用于:在对所述待测核酸进行纳米孔测序时,获取所述标记后的待测核酸对应的纳米孔的电流信号;从所述电流信号中分离出所述标记核酸序列对应的电流信号和所述校验核酸序列对应的电流信号;将所述标记核酸序列对应的电流信号输入到预先训练好的检测模型中,获得所述标记核酸序列对应的标识;根据所述校验核酸序列对应的电流信号确定还原的标记核酸序列;根据预设的所述最终的序列编码与序列编码标识之间的对应关系确定所述还原的标记核酸序列对应的标识;将所述标记核酸序列对应的标识和所述还原的标记核酸序列对应的标识进行比对;根据比对结果对所述标记核酸序列对应的电流信号进行处理。
在本申请实施例中,核酸测序模块具体用于:若所述标记核酸序列对应的标识和所述还原的标记核酸序列对应的标识不一致,存储所述标记核酸序列对应的标识和所述标记核酸序列对应的电流信号。序列的编码装置200还包括训练模块,用于在对初始的检测模型进行训练时,将所述标记核酸序列对应的标识和所述标记核酸序列对应的电流信号作为训练数据。
在本申请实施例中,处理模块220具体还用于:根据最小自由能算法对所述多个第一序列编码进行筛选,以及根据重复序列检查法对所述多个第一序列编码进行筛选,获得筛选后的多个第一序列编码;所述最小自由能算法用于筛选掉具有空间结构的序列对应的编码,所述重复序列检查法用于筛选掉指定的重复序列对应的编码。
序列的编码装置200与前述实施例中的序列的编码方法对应,因此,序列的编码装置200的各个模块的实施方式可以参照序列的编码方法的各个步骤的实施方式,在此不再重复介绍。
基于同一发明构思,本申请实施例还提供一种可读存储介质,该可读存储介质上存储有计算机程序,该计算机程序被计算机运行时,执行前述实施例中的序列的编码方法。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (12)
1.一种序列的编码方法,其特征在于,包括:
获取多个第一序列编码;所述第一序列编码为预设位数的碱基对应的指定位数的序列编码;
根据预设的筛选算法对所述多个第一序列编码进行筛选,获得筛选后的多个第一序列编码;
根据增量聚类算法基于所述筛选后的多个第一序列编码中的各个序列编码对应的序列之间的距离,从所述筛选后的多个第一序列编码中确定出多个代表序列编码;
对所述多个代表序列编码进行拼接,确定多个第二序列编码;所述第二序列编码的位数大于所述指定位数;
根据所述多个第二序列编码生成多个最终的序列编码;所述最终的序列编码对应的核酸序列用于对待测核酸进行标记。
2.根据权利要求1所述的编码方法,其特征在于,所述根据增量聚类算法基于所述筛选后的多个第一序列编码中的各个序列编码对应的序列之间的距离,从所述筛选后的多个第一序列编码中确定出多个代表序列编码,包括:
针对当前待判断的序列编码,计算所述当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列之间的距离;
若所述当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列中的每个序列之间的距离均大于预设阈值,则确定所述当前待判断的序列编码为代表序列编码;
若所述当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列中的至少一个序列之间的距离小于或者等于预设阈值,则确定所述当前待判断的序列编码不是代表序列编码。
3.根据权利要求2所述的编码方法,其特征在于,所述计算所述当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列之间的距离,包括:
通过预设的距离算法和DTW函数计算所述当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列之间的距离。
4.根据权利要求3所述的编码方法,其特征在于,所述通过预设的距离算法和DTW函数计算所述当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列之间的距离,包括:
生成所述当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列分别对应的电流信号;
通过所述预设的距离算法、所述DTW函数和所述电流信号确定所述当前待判断的序列编码对应的序列与在先确定的多个代表序列编码分别对应的序列之间的距离。
5.根据权利要求3所述的编码方法,其特征在于,所述预设的距离算法为:巴氏距离算法或者欧式距离算法。
6.根据权利要求1所述的编码方法,其特征在于,所述根据所述多个第二序列编码生成多个最终的序列编码,包括:
对所述多个第二序列编码进行筛选,获得多个筛选后的第二序列编码;
根据增量聚类算法基于所述多个筛选后的第二序列编码中的各个序列编码对应的序列之间的距离从所述多个筛选后的第二序列编码中确定出多个新的代表序列编码;
对所述多个新的代表序列编码进行拼接,确定多个第三序列编码;所述第三序列编码的位数大于所述第二序列编码的位数;
根据所述多个第三序列编码生成多个最终的序列编码。
7.根据权利要求1所述的编码方法,其特征在于,所述编码方法还包括:
从所述多个最终的序列编码中确定出标记序列编码;
确定所述标记序列编码对应的校验编码;
合成所述标记序列编码对应的标记核酸序列,以及合成所述校验编码对应的校验核酸序列;
依次连接所述标记核酸序列、所述校验核酸序列和所述待测核酸,获得标记后的待测核酸。
8.根据权利要求7所述的编码方法,其特征在于,所述编码方法还包括:
在对所述待测核酸进行纳米孔测序时,获取所述标记后的待测核酸对应的纳米孔的电流信号;
从所述电流信号中分离出所述标记核酸序列对应的电流信号和所述校验核酸序列对应的电流信号;
将所述标记核酸序列对应的电流信号输入到预先训练好的检测模型中,获得所述标记核酸序列对应的标识;
根据所述校验核酸序列对应的电流信号确定还原的标记核酸序列;
根据预设的所述最终的序列编码与序列编码标识之间的对应关系确定所述还原的标记核酸序列对应的标识;
将所述标记核酸序列对应的标识和所述还原的标记核酸序列对应的标识进行比对;
根据比对结果对所述标记核酸序列对应的电流信号进行处理。
9.根据权利要求8所述的编码方法,其特征在于,所述根据比对结果对所述标记核酸序列对应的电流信号进行处理,包括:
若所述标记核酸序列对应的标识和所述还原的标记核酸序列对应的标识不一致,存储所述标记核酸序列对应的标识和所述标记核酸序列对应的电流信号;
所述编码方法还包括:
在对初始的检测模型进行训练时,将所述标记核酸序列对应的标识和所述标记核酸序列对应的电流信号作为训练数据。
10.根据权利要求1所述的编码方法,其特征在于,所述根据预设的筛选算法对所述多个第一序列编码进行筛选,获得筛选后的多个第一序列编码,包括:
根据最小自由能算法对所述多个第一序列编码进行筛选,以及根据重复序列检查法对所述多个第一序列编码进行筛选,获得筛选后的多个第一序列编码;所述最小自由能算法用于筛选掉具有空间结构的序列对应的编码,所述重复序列检查法用于筛选掉指定的重复序列对应的编码。
11.一种序列的编码装置,其特征在于,包括:
获取模块,用于获取多个第一序列编码;所述第一序列编码为预设位数的碱基对应的指定位数的序列编码;
处理模块,用于:
根据预设的筛选算法对所述多个第一序列编码进行筛选,获得筛选后的多个第一序列编码;
根据增量聚类算法基于所述筛选后的多个第一序列编码中的各个序列编码对应的序列之间的距离,从所述筛选后的多个第一序列编码中确定出多个代表序列编码;
对所述多个代表序列编码进行拼接,确定多个第二序列编码;所述第二序列编码的位数大于所述指定位数;
根据所述多个第二序列编码生成最终的序列编码;所述最终的序列编码对应的核酸序列用于对待测核酸进行标记。
12.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被计算机运行时,执行如权利要求1-10任一项所述的序列的编码方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110756922.5A CN113539371B (zh) | 2021-07-05 | 2021-07-05 | 一种序列的编码方法及装置、可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110756922.5A CN113539371B (zh) | 2021-07-05 | 2021-07-05 | 一种序列的编码方法及装置、可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113539371A true CN113539371A (zh) | 2021-10-22 |
CN113539371B CN113539371B (zh) | 2023-06-23 |
Family
ID=78097733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110756922.5A Active CN113539371B (zh) | 2021-07-05 | 2021-07-05 | 一种序列的编码方法及装置、可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113539371B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101200763A (zh) * | 2007-11-13 | 2008-06-18 | 东南大学 | 待测核酸序列的编码及解码方法 |
CN101565746A (zh) * | 2009-06-03 | 2009-10-28 | 东南大学 | 带奇偶校验的信号组合编码dna连接测序方法 |
CN102404270A (zh) * | 2011-11-18 | 2012-04-04 | 苏州大学 | 一种多载波里德穆勒papr编码方法及系统 |
CN110111843A (zh) * | 2018-01-05 | 2019-08-09 | 深圳华大基因科技服务有限公司 | 对核酸序列进行聚类的方法、设备及存储介质 |
CN111279422A (zh) * | 2017-10-25 | 2020-06-12 | 深圳华大生命科学研究院 | 编码/解码方法、编码/解码器和存储方法、装置 |
-
2021
- 2021-07-05 CN CN202110756922.5A patent/CN113539371B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101200763A (zh) * | 2007-11-13 | 2008-06-18 | 东南大学 | 待测核酸序列的编码及解码方法 |
CN101565746A (zh) * | 2009-06-03 | 2009-10-28 | 东南大学 | 带奇偶校验的信号组合编码dna连接测序方法 |
CN102404270A (zh) * | 2011-11-18 | 2012-04-04 | 苏州大学 | 一种多载波里德穆勒papr编码方法及系统 |
CN111279422A (zh) * | 2017-10-25 | 2020-06-12 | 深圳华大生命科学研究院 | 编码/解码方法、编码/解码器和存储方法、装置 |
CN110111843A (zh) * | 2018-01-05 | 2019-08-09 | 深圳华大基因科技服务有限公司 | 对核酸序列进行聚类的方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113539371B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4912646B2 (ja) | 遺伝子の転写物マッピング方法及びシステム | |
CN110070914B (zh) | 一种基因序列识别方法、系统和计算机可读存储介质 | |
US10810239B2 (en) | Sequence data analyzer, DNA analysis system and sequence data analysis method | |
CN113259216B (zh) | 一种can总线信号解析方法及系统 | |
CN111858507A (zh) | 基于dna的数据存储方法、解码方法、系统和装置 | |
CN115171807A (zh) | 一种分子编码模型训练方法、分子编码方法和系统 | |
CN115426710A (zh) | 一种面向室内指纹定位的稀疏特征补全方法 | |
CN117376632A (zh) | 基于智能深度合成的数据恢复方法和系统 | |
CN104243095A (zh) | 一种卷积码与线性分组码的码字类型盲识别方法 | |
CN113539371A (zh) | 一种序列的编码方法及装置、可读存储介质 | |
CN114021596A (zh) | 一种基于深度学习的条码识别方法及装置 | |
CN117526965A (zh) | 一种银行数据智能压缩存储方法、计算机设备及存储介质 | |
CN110796060B (zh) | 高速行车路线确定方法、装置、设备和存储介质 | |
CN110007955B (zh) | 一种指令集模拟器译码模块代码的压缩方法 | |
CN106940779A (zh) | 一种高效率的rfid标签识别方法 | |
CN108830333A (zh) | 一种基于三倍比特量化及非对称距离的最近邻搜索方法 | |
CN110717469B (zh) | 一种基于相关性语义特征学习的手指静脉识别方法及系统 | |
US20190102515A1 (en) | Method and device for decoding data segments derived from oligonucleotides and related sequencer | |
CN111368576A (zh) | 一种基于全局优化的Code128条码自动识读方法 | |
CN113571129B (zh) | 一种基于质谱的复杂交联肽段鉴定方法 | |
CN111126043B (zh) | Vin码多重校验方法、vin码识别方法及装置 | |
CN116401678B (zh) | 一种汽车信息安全测试用例的构建和提取方法 | |
CN114022660A (zh) | 一种标签处理方法、装置及计算机可读存储介质 | |
CN116342363B (zh) | 基于两阶段深度神经网络的可见水印去除方法 | |
US20240185959A1 (en) | Nested Error Correction Codes for DNA Data Storage |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |