CN110442472B - 一种dna数据存储混合错误纠正与数据恢复方法 - Google Patents

一种dna数据存储混合错误纠正与数据恢复方法 Download PDF

Info

Publication number
CN110442472B
CN110442472B CN201910596136.6A CN201910596136A CN110442472B CN 110442472 B CN110442472 B CN 110442472B CN 201910596136 A CN201910596136 A CN 201910596136A CN 110442472 B CN110442472 B CN 110442472B
Authority
CN
China
Prior art keywords
sequence
copies
error correction
processed
double
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910596136.6A
Other languages
English (en)
Other versions
CN110442472A (zh
Inventor
陈为刚
黄刚
韩昌彩
杨晋生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910596136.6A priority Critical patent/CN110442472B/zh
Publication of CN110442472A publication Critical patent/CN110442472A/zh
Application granted granted Critical
Publication of CN110442472B publication Critical patent/CN110442472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本发明公开了一种DNA数据存储混合错误纠正与数据恢复方法,包括:根据双端读段重叠部分的编辑距离、标号部分的校验信息是否正确两个标准对测序读段进行筛选;根据已恢复的标号和文件号将读段进行分簇,将簇内读段分割为中间重合部分和不重合部分两部分;若中间重合部分或不重合部分的副本数量大于设定的门限值,采用聚类的方法确定中心序列,否则通过多序列合并确定;将每个读段对应数据部分的碱基分成若干个预设长度片段,每一个片段根据列序号的奇偶与前后对应的片段进行联合纠错;纠错采用多序列合并最终得到重复码长度为预设长度片段的可靠恢复。本发明主要解决测序读段中存在的插入/删节错误,以及采用低测序覆盖读段的合并。

Description

一种DNA数据存储混合错误纠正与数据恢复方法
技术领域
本发明涉及利用脱氧核糖核酸(DNA)的数据存储领域,尤其涉及一种DNA数据存储混合错误纠正与数据恢复方法。
背景技术
脱氧核糖核酸(DNA)是一种由脱氧核糖和四种含氮碱基(包括腺嘌呤A、胸腺嘧啶T、胞嘧啶C、鸟嘌呤G)组成的双链结构,是所有生命的遗传信息载体,控制着生命的发育、延续以及生命机能运作,是自然界天然的、最重要的信息存储载体。随着生物技术的发展,尤其是DNA合成与测序技术的发展,利用DNA序列作为数字化数据信息存储载体,已经具有技术可行性。DNA数字信息存储指的是把数字化信息存储于DNA的碱基序列之中,用不同的碱基或碱基组合表示数据。该技术利用寡核苷酸合成仪或高通量的芯片合成技术合成完全人工设计的包含数字信息的DNA序列来存储数据,利用DNA测序仪来读取所存储的信息。
DNA作为存储介质,与现有的磁带、硬盘、光盘以及固态Flash等存储媒介相比具有体积小、密度大,信息保持时间持久等特点。在密度方面,根据有关研究机构的分析,认为DNA存储的密度与磁盘、磁带以及固态存储等相对都有7个数量级的提升;在保持时间方面,如果采用合适的强化存放方法,DNA分子可以存储上百年,甚至上万年。DNA存储的缺点是:合成和读取DNA所存储的数字化信息成本较高,但DNA分子的日常存储成本相对便宜。值得期待的是,目前DNA合成与测序技术发展迅速,其发展速度甚至超过了半导体领域的摩尔定律,因此未来合成和读取用于存储的DNA序列的成本有望大幅度降低,成为未来重要的颠覆性存储方法。
2013年1月,欧洲分子生物学实验室的生物信息学研究所(EMBL-BMI)的NickGoldman教授团队在Nature发表的论文中将英文语言文本、扩展ASCII码对照表的文本、一篇pdf格式论文、JPEG图片和MP3格式的音频文件成功的存储并读取。在保证可靠性方面,该方案中采用了较为简单的重复编码方案。Goldman教授建议的读取方法的基本流程为:首先,根据同一双端测序数据中两条读段的中间重合部分的91个碱基之间的汉明距离和奇偶校验信息对测序读段进行筛选;然后,根据标号和文件号对测序读段进行分簇,并通过大数合并的方法得到各簇的中心序列;进一步,通过大数合并的方法得到多重覆盖区域的中心序列;最后,将所有片段进行拼接,并将拼接后的序列进行解码得到计算机多媒体文件。
该方法已经在中国申请专利,发明人为尼克·高曼,约翰·伯尼,名称为“DNA中数字信息的高容量存储”,申请时间为2013年5月31日,申请号为201380028511,本发明主要针对该项专利发明的采用重复码的DNA数据存储方法,提供一种优化的读取数据处理与纠错恢复方法。
DNA扩增过程中随机错误除替代错误外,还包括插入(Insertion)和删节(Deletion)错误。尼克·高曼等提出的读取方法在数据筛选时使用汉明距离作为筛选条件,可能会将仅发生少量插入或者删节错误的读段舍弃,减少了用于数据恢复的样本数量,浪费了合成与测序资源。另一方面,在数据量较少时,直接使用大数合并的方法恢复数据,会造成数据恢复的可靠性降低;如果考虑读段中的插入或者删节错误,该合并方法无法有效工作。该方案采用了四重重复码方法,重复码的合并也存在类似问题。本发明在数据筛选时以编辑距离作为筛选条件,提高了数据的利用率;同时,在数据恢复时,使用聚类或多序列合并的方法,对编辑错误进行了纠正,保证了数据恢复的可靠性。
发明内容
本发明提供了一种DNA数据存储混合错误纠正与数据恢复方法,本发明主要解决测序读段中存在的插入/删节错误,以及采用低测序覆盖读段的合并,详见下文描述:
一种DNA数据存储混合错误纠正与数据恢复方法,所述方法包括:
(1)对双端读取序列中的一条读段进行反转互补,获取两条有重叠的读段;
(2)根据双端读段重叠部分的编辑距离、标号部分的校验信息是否正确两个标准对测序读段进行筛选;
(3)根据已恢复的标号和文件号将读段进行分簇,将簇内读段分割为中间重合部分和不重合部分两部分;
(4)若中间重合部分或不重合部分的副本数量大于设定的门限值,使用聚类的方法确定中心序列,否则通过多序列合并确定;
(5)将每个读段对应数据部分的碱基分成若干个预设长度片段,每一个片段根据序列序号的奇偶与前后对应的片段进行联合纠错;纠错采用多序列合并最终得到重复码长度为预设长度片段的可靠恢复。
其中,所述步骤(2)具体为:
计算双端读段中间重合部分之间的编辑距离,保留编辑距离小于设定门限值的双端读段;
根据标号部分序列恢复标号并对其进行校验,保留校验正确的双端读段。
进一步地,所述根据标号部分序列恢复标号并对其进行校验,保留校验正确的双端读段具体为:
根据标号部分序列恢复标号;检验双端测序中标号部分的奇偶校验信息,若校验正确,保留当前双端读段,并记录该双端读段的标号及文件号;否则,丢弃该双端读段。
其中,所述步骤(4)具体为:
计算簇内不重合部分副本数量,若副本数量大于设定的门限值,则使用聚类的方法确定中心序列;否则,针对编辑错误,通过多序列合并确定中心序列;
计算簇内中间重合部分副本数量,若副本数量大于设定的门限值,则使用聚类的方法确定中心序列;否则,针对编辑错误,通过多序列合并得到中心序列;
将不重合部分和中间重合部分的中心序列合并,得到当前簇的中心序列。
进一步地,所述步骤(5)具体为:
(5.1)依次选取片段所对应的副本;
(5.2)判断当前副本所在读段对应的文件号的奇偶,若文件号为奇数,则将对应的副本进行反转互补;
(5.3)判断片段对应的副本是否全部选取完毕,若存在未选取的副本,则返回执行步骤(5.1);否则,针对插入、删节与替代错误,通过多序列合并实现重复码片段的纠错恢复。
其中,所述多序列合并具体为:
(6.1)分别计算当前段中各副本与其它副本之间的编辑距离之和;将编辑距离之和最小的副本作为参考序列,其它副本作为待处理片段;
(6.2)将与参考序列之间编辑距离大于等于设定删除门限的待处理片段删除,分别计算各待处理片段与参考序列的编辑距离,若编辑距离小于设定的门限值,则保留该待处理片段;否则在当前段中删除;
(6.3)计算当前段中副本数量,若副本数量小于3,则将参考序列作为中心序列,流程结束;否则,执行步骤(6.4);
(6.4)依次选取待处理片段,递归计算当前待处理片段与参考序列在各节点的编辑距离d(xi,yj),并记录上一节点的位置pointer(i,j);
(6.5)回溯,处理编辑错误,从节点(n,n)出发,通过利用pointer(i,j)中的信息,寻找一条到达节点(0,0)的最大似然路径并同步处理此路径上的插入、删节错误,若pointer(i,j)=(i-1,j),则表示待处理片段发生删节,从当前碱基连同后续碱基右移一个碱基位置,空出的位置填零补充;若pointer(i,j)=(i,j-1),则表示发生插入,将当前碱基在片段中删除,后续碱基左移一个碱基位置;由此,得到一条当前待处理片段的新的序列副本;
(6.6)判断待处理片段是否全部处理完毕,若存在未处理的片段,则返回执行步骤(6.4);否则,将各待处理片段处理编辑错误后新生成的副本和参考序列进行大数合并得到中心序列。
本发明提供的技术方案的有益效果是:
(1)高测序数据利用率:本发明在进行数据筛选时根据双端测序文件中两条读段中间重合部分之间的编辑距离选择读段,与基于汉明距离选择读段的方法相比,用于文件恢复的读段数量获得提升,提高了测序数据利用率;
(2)高可靠性:本发明在纠错方面,根据段内副本数量的不同,采用了不同纠错机制。当副本数量较多时,使用聚类的方法可快速得到较可靠的中心序列;当副本数量较少时,采用多序列合并的方法得到中心序列,可保证序列恢复的可靠性,进而保证了整个文件恢复的可靠性,尤其是在低测序覆盖下有较明显的优势。
附图说明
图1为一种DNA数据存储混合错误纠正与数据恢复方法的流程图;
图2为本发明根据编辑距离对测序读段进行筛选的流程图;
图3为本发明对簇内片段进行纠错并得到中心序列的流程图;
图4为本发明采用多序列合并方法实现纠错的流程图;
图5为本发明中多序列合并的流程图;
图6为本发明中用于存储数据的DNA序列组成的流程图;
图7为本发明中不同数据覆盖深度下测序数据利用率的对比图;
图8为本发明中重复码译码后未恢复片段数量的对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
参见图1,一种DNA数据存储混合错误纠正与数据恢复方法,该方法包括以下步骤:
(1)对测序数据进行预处理,具体是:针对双端读取的序列,将其中一条读段进行反转互补,从而得到两条有重叠的读段;
(2)根据双端读段重叠部分的编辑距离、标号部分的校验信息是否正确两个标准对测序读段进行筛选;
(3)根据已恢复的标号和文件号将读段进行分簇,考虑到标号部分已处理,并将簇内读段分割为中间重合部分和不重合部分两部分;
(4)若中间重合部分或不重合部分的副本数量Num大于设定的门限值copy_num,使用聚类的方法确定中心序列,否则通过多序列合并确定;
(5)考虑插入、删节与替代错误的重复码译码,具体是将每个读段对应数据部分的100个碱基分成四个25nt的片段,每一个片段根据序列序号的奇偶,按照正常的顺序或者反转互补的顺序,与前后对应的片段进行联合纠错;纠错采用任意多序列合并的方法或者本发明提出的多序列合并方法实现,从而得到重复码长度为25nt片段的可靠恢复。
所述根据双端读段重叠部分的编辑距离、标号部分的校验信息是否正确两个标准对测序读段进行筛选,如图2所示,具体步骤为:
计算双端读段中间重合部分之间的编辑距离,保留编辑距离小于设定门限值ed_filter的双端读段;
根据标号部分序列恢复标号并对其进行校验,保留校验正确的双端读段。
进一步地,所述根据标号部分序列恢复标号并对其进行校验,保留校验正确的双端读段具体为:
根据标号部分序列恢复标号;检验双端测序中标号部分的奇偶校验信息,若校验正确,保留当前双端读段,并记录该双端读段的标号及文件号;否则,丢弃该双端读段。
所述若中间重合部分或不重合部分的副本数量Num大于设定的门限值copy_num,使用聚类的方法确定中心序列,否则通过多序列合并确定,如图3所示,具体步骤为:
计算簇内不重合部分副本数量Num,若副本数量Num大于设定的门限值copy_num,则使用聚类的方法确定中心序列;否则,针对编辑错误,通过多序列合并确定中心序列;
计算簇内中间重合部分副本数量Num,若副本数量Num大于设定的门限值copy_num,则使用聚类的方法确定中心序列;否则,针对编辑错误,通过多序列合并得到中心序列;
将不重合部分和中间重合部分的中心序列合并,得到当前簇的中心序列。
所述考虑插入、删节与替代错误的重复码译码,具体是将每个读段对应数据部分的100个碱基分成四个25nt的片段,每一个片段根据序列序号的奇偶,按照正常的顺序或者反转互补的顺序,与前后对应的片段进行联合纠错;纠错采用任意多序列合并的方法或者本发明提出的多序列合并方法实现,从而得到重复码长度为25nt片段的可靠恢复,如图4所示,具体步骤为:
(5.1)依次选取片段所对应的副本;
(5.2)判断当前副本所在读段对应的文件号的奇偶,若文件号为奇数,则将对应的副本进行反转互补;
(5.3)判断片段对应的副本是否全部选取完毕,若存在未选取的副本,则返回执行步骤(5.1);否则,针对插入、删节与替代错误,通过多序列合并的方法实现重复码片段的纠错恢复。
所述的简化的多序列合并的方法,如图5所示,具体步骤为:
令序列x=(x1,x2,...,xn)和y=(y1,y2,...,yn)分别表示长度为n的参考序列和待处理片段;令d(xi,yj)表示节点(i,j)的编辑距离(xi和yj分别表示序列x与y的前i个和前j个元素);
(6.1)分别计算当前段中各副本与其它副本之间的编辑距离之和;将编辑距离之和最小的副本作为参考序列,其它副本作为待处理片段;
(6.2)将与参考序列之间编辑距离大于等于设定删除门限ed_erasure的待处理片段删除,分别计算各待处理片段与参考序列的编辑距离,若编辑距离小于设定的门限值ed_erasure,则保留该待处理片段;否则在当前段中删除;
(6.3)计算当前段中副本数量,若副本数量小于3,则将参考序列作为中心序列,流程结束;否则,执行步骤(6.4);
(6.4)依次选取待处理片段,初始化当前待处理片段和参考序列的的编辑距离,即令d(x0,yj)=j,d(xi,y0)=i(0≤i,j≤n),递归计算当前待处理片段与参考序列在各节点的编辑距离d(xi,yj),并记录上一节点的位置pointer(i,j),节点(i,j)处的编辑距离为:
Figure BDA0002117719860000071
其中,指示函数
Figure BDA0002117719860000072
当xi=yj时,值为0;否则,值为1;上一节点位置为:
Figure BDA0002117719860000073
(6.5)回溯,处理编辑错误,从节点(n,n)出发,通过利用pointer(i,j)中的信息,寻找一条到达节点(0,0)的最大似然路径并同步处理此路径上的插入、删节错误,若pointer(i,j)=(i-1,j),则表示待处理片段发生删节,从当前碱基连同后续碱基右移一个碱基位置,空出的位置填零补充;若pointer(i,j)=(i,j-1),则表示发生插入,将当前碱基在片段中删除,后续碱基左移一个碱基位置;由此,得到一条当前待处理片段的新的序列副本;
(6.6)判断待处理片段是否全部处理完毕,若存在未处理的片段,则返回执行步骤(6.4);否则,将各待处理片段处理编辑错误后的新副本和参考序列进行大数合并得到中心序列。
综上所述,本发明实施例根据双端测序数据中两条读段中间重合部分之间的编辑距离是否小于设定的门限值选择读段,提高测序数据利用率;然后将所有读段按照标号和文件号分簇后,在各簇内将读段分割为中间重合部分和不重合部分,并根据中间重合部分和不重合部分中副本数量是否大于设定的门限值,分别采用聚类或通过多序列合并的方法计算得到中心序列,进而组合得到簇中心序列。重复码的片段译码也采用多序列合并的方法。本发明纠错恢复方法,能对抗插入与删节错误,可提高测序数据利用率,实现采用少量测序数据的可靠恢复。
下面给出一个具体的实施例,说明本发明实施例给出的DNA数据存储的数据译码恢复方法的可行性。本实施例,使用引证文献使用数据,将本发明实施例中提出的混合错误纠错与数据恢复方法,与Goldman在论文与专利申请材料(引证文献)给出的恢复方法在不同数据覆盖深度下的性能进行了对比。其中,原始数据采用Goldman分析的数据,总共79,564,267组测序数据。该数据对应的原始DNA序列共153,305条,包括5个计算机多媒体文件。编码数据的具体格式如图6所示,每条DNA序列长度为117符号,除两端添加的1nt用于区分读取方向的标识信息外,该序列依序包含100nt的重叠编码数据和15nt的标引信息,其中标引信息分别包括2nt的文件编号、12nt的文件内编号以及1nt奇偶校验信息。原始数据中每条读段长度为104nt,在双端测序文件同一双端测序数据中,正向读取文件中读段的后91nt和反向读取文件中读段的前91nt为中间重合部分。为验证对比纠错与数据恢复方法,在双端测序文件中分别取75万、150万、300万和7900万条读段进行性能验证。
该实施例中,用于数据筛选的编辑距离预设门限值ed_filter设置为7,判断采用聚类或多序列合并的方法的副本数量门限值copy_num设置为9,处理编辑错误进行大数合并法中片段删除门限ed_erasure设置为7。具体中应该根据样本情况、测序方法与测序质量等参数动态选择上述参数,这里给出的参数仅针对Goldman提供的测序数据,其方法详见引证文献。
图7给出了不同数据覆盖深度下两种数据处理方法的测序数据利用率对比图,从图7中可以看出,本发明在进行数据筛选时根据双端测序文件中同一双端测序数据内的两条读段中间重合部分之间的编辑距离进行筛选,与基于汉明距离进行数据筛选的办法相比,可以利用的读段数量获得了提升,提高了测序数据利用率,对提高恢复质量,尤其是低测序覆盖度下的恢复质量有一定意义。
图8给出了重复码译码后未恢复片段对比图。从图8中可以看出,本发明实施例可保证中心序列恢复的可靠性,进而保证了整个文件恢复的可靠性,尤其是在低覆盖深度下,本方法有较明显的优势。为衡量整理的纠正混合错误与重复码纠正混合错误的整体性能,在仿真中,主要衡量碱基的错误率与缺失率,可以看出本方法在这两个指标上均取得了一定优势,尤其是采用的测序读段的数量为150万、300万时,有明显的改善,如果不考虑重复码的译码,仅仅考虑利用多副本的纠错,图8也给出了以25nt的段为单位衡量的错误率,可以看出,本方法均优于引证文献中的恢复方法,从而说明本发明,考虑存在插入与删节错误,并纠正插入、删节、替代混合错误的方法的有效性。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种DNA数据存储混合错误纠正与数据恢复方法,其特征在于,所述方法包括:
步骤(1)对双端读取序列中的一条读段进行反转互补,获取两条有重叠的读段;
步骤(2)根据双端读段重叠部分的编辑距离、标号部分的校验信息是否正确两个标准对测序读段进行筛选;
步骤(3)根据已恢复的标号和文件号将读段进行分簇,将簇内读段分割为中间重合部分和不重合部分;
步骤(4)若中间重合部分或不重合部分的副本数量大于设定的门限值,使用聚类的方法确定中心序列,否则通过多序列合并确定;
步骤(5)将每个读段对应数据部分的碱基分成若干个预设长度片段,每一个片段根据序列序号的奇偶与前后对应的片段进行联合纠错;纠错采用多序列合并最终得到重复码长度为预设长度片段的可靠恢复。
2.根据权利要求1所述的一种DNA数据存储混合错误纠正与数据恢复方法,其特征在于,所述步骤(2)具体为:
计算双端读段中间重合部分之间的编辑距离,保留编辑距离小于设定门限值的双端读段;
根据标号部分序列恢复标号并对其进行校验,保留校验正确的双端读段。
3.根据权利要求2所述的一种DNA数据存储混合错误纠正与数据恢复方法,其特征在于,所述根据标号部分序列恢复标号并对其进行校验,保留校验正确的双端读段具体为:
根据标号部分序列恢复标号;检验双端测序中标号部分的奇偶校验信息,若校验正确,保留当前双端读段,并记录该双端读段的标号及文件号;否则,丢弃该双端读段。
4.根据权利要求1所述的一种DNA数据存储混合错误纠正与数据恢复方法,其特征在于,所述步骤(4)具体为:
计算簇内不重合部分副本数量,若副本数量大于设定的门限值,则使用聚类的方法确定中心序列;否则,针对编辑错误,通过多序列合并确定中心序列;
计算簇内中间重合部分副本数量,若副本数量大于设定的门限值,则使用聚类的方法确定中心序列;否则,针对编辑错误,通过多序列合并得到中心序列;
将不重合部分和中间重合部分的中心序列合并,得到当前簇的中心序列。
5.根据权利要求1所述的一种DNA数据存储混合错误纠正与数据恢复方法,其特征在于,所述步骤(5)具体为:
(5.1)依次选取片段所对应的副本;
(5.2)判断当前副本所在读段对应的文件号的奇偶,若文件号为奇数,则将对应的副本进行反转互补;
(5.3)判断片段对应的副本是否全部选取完毕,若存在未选取的副本,则返回执行步骤(5.1);否则,针对插入、删节与替代错误,通过多序列合并实现重复码片段的纠错恢复。
6.根据权利要求1或4所述的一种DNA数据存储混合错误纠正与数据恢复方法,其特征在于,所述多序列合并具体为:
(6.1)分别计算当前段中各副本与其它副本之间的编辑距离之和;将编辑距离之和最小的副本作为参考序列,其它副本作为待处理片段;
(6.2)将与参考序列之间编辑距离大于等于设定删除门限的待处理片段删除,分别计算各待处理片段与参考序列的编辑距离,若编辑距离小于设定的门限值,则保留该待处理片段;否则在当前段中删除;
(6.3)计算当前段中副本数量,若副本数量小于3,则将参考序列作为中心序列,流程结束;否则,将参考序列作为中心序列,初始化其他序列与中心序列的编辑距离,执行步骤(6.4);
(6.4)依次选取待处理片段,递归计算当前待处理片段与参考序列在各节点的编辑距离d(xi,yj),并记录上一节点的位置pointer(i,j);
(6.5)回溯,处理编辑错误,从节点(n,n)出发,通过利用pointer(i,j)中的信息,寻找一条到达节点(0,0)的最大似然路径并同步处理此路径上的插入、删节错误,若pointer(i,j)=(i-1,j),则表示待处理片段发生删节,从当前碱基连同后续碱基右移一个碱基位置,空出的位置填零补充;若pointer(i,j)=(i,j-1),则表示发生插入,将当前碱基在片段中删除,后续碱基左移一个碱基位置;由此,得到一条当前待处理片段的新的序列副本;
(6.6)判断待处理片段是否全部处理完毕,若存在未处理的片段,则返回执行步骤(6.4);否则,将各待处理片段处理编辑错误后新生成的副本和参考序列进行大数合并得到中心序列。
CN201910596136.6A 2019-07-03 2019-07-03 一种dna数据存储混合错误纠正与数据恢复方法 Active CN110442472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910596136.6A CN110442472B (zh) 2019-07-03 2019-07-03 一种dna数据存储混合错误纠正与数据恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910596136.6A CN110442472B (zh) 2019-07-03 2019-07-03 一种dna数据存储混合错误纠正与数据恢复方法

Publications (2)

Publication Number Publication Date
CN110442472A CN110442472A (zh) 2019-11-12
CN110442472B true CN110442472B (zh) 2021-08-13

Family

ID=68429299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910596136.6A Active CN110442472B (zh) 2019-07-03 2019-07-03 一种dna数据存储混合错误纠正与数据恢复方法

Country Status (1)

Country Link
CN (1) CN110442472B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737955A (zh) * 2020-06-24 2020-10-02 任兆瑞 一种使用dna字符码存储文字点阵的方法
CN112650204B (zh) * 2020-12-30 2021-12-24 中南大学 一种智慧轨道无人驾驶车辆故障基因识别方法及系统
CN113345521A (zh) * 2021-05-31 2021-09-03 天津大学 一种采用大片段dna存储的编码与恢复方法
CN113343736B (zh) * 2021-06-21 2023-07-25 天津大学合肥创新发展研究院 一种dna测序用条形码识别算法的硬件加速装置
WO2023108616A1 (zh) * 2021-12-17 2023-06-22 深圳华大生命科学研究院 利用dna进行信息存储的方法和系统
CN114518972B (zh) * 2022-02-14 2024-06-18 海光信息技术股份有限公司 内存错误处理方法、装置、内存控制器及处理器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109300508A (zh) * 2017-07-25 2019-02-01 南京金斯瑞生物科技有限公司 一种dna数据存储编码解码方法
CN109943560A (zh) * 2018-11-22 2019-06-28 西藏自治区人民政府驻成都办事处医院 基于dna载体的汉字信息存储方法
CN109979540A (zh) * 2018-11-29 2019-07-05 天津大学 一种dna信息存储编码方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10650312B2 (en) * 2016-11-16 2020-05-12 Catalog Technologies, Inc. Nucleic acid-based data storage

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109300508A (zh) * 2017-07-25 2019-02-01 南京金斯瑞生物科技有限公司 一种dna数据存储编码解码方法
CN109943560A (zh) * 2018-11-22 2019-06-28 西藏自治区人民政府驻成都办事处医院 基于dna载体的汉字信息存储方法
CN109979540A (zh) * 2018-11-29 2019-07-05 天津大学 一种dna信息存储编码方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DNA存储技术的研究概述;周谷成;《生物学通报》;20181231;全文 *

Also Published As

Publication number Publication date
CN110442472A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN110442472B (zh) 一种dna数据存储混合错误纠正与数据恢复方法
Erlich et al. DNA Fountain enables a robust and efficient storage architecture
CN104169927B (zh) 紧凑的下一代测序数据集及使用其的高效测序处理
WO2018148260A1 (en) Apparatus, method and system for digital information storage in deoxyribonucleic acid (dna)
CN111600609B (zh) 一种优化中文存储的dna存储编码方法
JP4912646B2 (ja) 遺伝子の転写物マッピング方法及びシステム
WO2016020280A1 (en) Code generation method, code generating apparatus and computer readable storage medium
CN112100982A (zh) Dna存储方法、系统和存储介质
CN112673431A (zh) 通过具有不定误差的读段的追踪重构
US9886561B2 (en) Efficient encoding and storage and retrieval of genomic data
CN113345521A (zh) 一种采用大片段dna存储的编码与恢复方法
Wang et al. Hidden addressing encoding for DNA storage
CN111858507A (zh) 基于dna的数据存储方法、解码方法、系统和装置
Wang et al. Oligo design with single primer binding site for high capacity DNA-based data storage
Yan et al. Scaling logical density of DNA storage with enzymatically-ligated composite motifs
Ding et al. Improving error-correcting capability in DNA digital storage via soft-decision decoding
Mu et al. RBS: a rotational coding based on blocking strategy for DNA storage
CN103797487A (zh) 使用生物信息学字符集和和映射的生物信息学字体的基因组/蛋白质组序列的表示、可视化,比较以及报告
CN112397148A (zh) 序列比对方法、序列校正方法及其装置
CN115242255A (zh) 一种基于汉明-vt的dna存储编码方法
Nahum et al. Single-read reconstruction for DNA data storage using transformers
EP3163512A1 (en) Data processing apparatus and method for recovering a correct code symbol sequence from multiple incorrect copies
US20240184666A1 (en) Preprocessing for Correcting Insertions and Deletions in DNA Data Storage
US20190102515A1 (en) Method and device for decoding data segments derived from oligonucleotides and related sequencer
KR102418616B1 (ko) Dna 저장 장치의 시퀀스 집단화 방식 기반 복호화 방법, 프로그램 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant