CN100367189C - 编码脱氧核糖核酸序列的方法和装置 - Google Patents

编码脱氧核糖核酸序列的方法和装置 Download PDF

Info

Publication number
CN100367189C
CN100367189C CNB2004100283280A CN200410028328A CN100367189C CN 100367189 C CN100367189 C CN 100367189C CN B2004100283280 A CNB2004100283280 A CN B2004100283280A CN 200410028328 A CN200410028328 A CN 200410028328A CN 100367189 C CN100367189 C CN 100367189C
Authority
CN
China
Prior art keywords
character
sequence
variation
reference sequences
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2004100283280A
Other languages
English (en)
Other versions
CN1536068A (zh
Inventor
安兑臻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR10-2004-0005945A external-priority patent/KR100537523B1/ko
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN1536068A publication Critical patent/CN1536068A/zh
Application granted granted Critical
Publication of CN100367189C publication Critical patent/CN100367189C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种编码DNA序列的装置和方法。一比较单元用于将已知DNA信息的参考序列和待编码的对象序列对齐,从而使两序列的一致碱基可以最优匹配,同时提取两序列间的差异信息。一转换单元用于将提取的参考序列和对象序列的差异信息转换为预定的字符串。一编码单元通过与存储于编码存储单元的单个字符相对应的预定转换编码来编码组成字符串的单个字符。一压缩单元通过常用的压缩方法压缩编码的结果。压缩结果存储于序列存储单元。

Description

编码脱氧核糖核酸序列的方法和装置
技术领域
本发明涉及一种编码DNA序列的方法和装置。尤其是,本发明涉及一种能通过更有效的压缩,实现降低储存空间和传输量,同时在储存和传输DNA序列时提供安全性的编码DNA序列的方法和装置。
背景技术
随着生物技术的发展,含有物种特定遗传信息的DNA序列被加以分析和揭示。这种DNA序列分析能被用于各种目的,例如寻找导致表型变异和物种疾病的遗传因子,该分析在借助于计算机的帮助下有效的进行。在这点上,必须将DNA序列转换成计算机可读形式。然而,由于DNA序列包含大量的遗传信息以及DNA序列存储量的需要增加,需要花费大量的财力来存储和传输DNA序列。因此,为了保证DNA序列的存储、传输和搜索,需要对DNA序列进行压缩。
一种DNA序列的压缩方法大体分为基于词典的和非基于词典基础的。基于词典的压缩方法可以获得较高的压缩率。根据这种压缩方法,压缩率一般为70%至80%。然而,这种压缩方法不适于对整个基因组DNA序列的压缩。
目前最有效DNA序列压缩方法能实现对整个基因组的压缩。根据这种策略,据报道压缩率一般为70%至80%,而对于E.coli基因组的压缩率达到96.6%。然而,这些压缩率仅为简单的推测值,没有关于获得这些压缩率的具体方法的报道。
发明内容
本发明提供了一种能通过更有效的压缩,实现降低储存空间和传输的传输量,同时在存储和传输DNA序列时提供安全的编码DNA序列的方法和装置。
本发明还提供了一种具体化的计算机可读介质,在该介质之上存在一种能实现通过更有效的压缩降低储存空间和转移传输量,同时在存储和传输DNA序列时提供安全的编码DNA序列的方法的计算机程序。
根据本发明的一方面,提供了一种编码DNA序列的装置,包括:一比较单元,用于将要编码的对象序列与已知DNA信息的参考序列对齐,提取对象序列和参考序列的差异;一转换单元,用于将对象序列与参考序列的差异的信息转换为预定的字符串;一编码存储单元,用于存储相应于单个字符的预定的转换编码;和一编码单元,用于编码采用转换编码来编码组成字符串的单个字符,其中,参考序列和目的序列是同源序列,并且其中所述的字符包括第一种字符代表DNA碱基的符号,第二种字符代表差异的数目,第三种字符代表差异开始和终止,第四种字符代表差异的持续。
根据本发明的另一方面,提供一种编码DNA序列的方法,包括:将要编码的对象DNA序列与已知DNA信息的参考DNA序列对齐;提取参考序列与对象序列的差异;将对象序列与参考序列的差异转换为预定的字符串;采用相应于单个字符的预先设定的转换编码来编码组成字符串的单个字符其中,参考序列和对象序列是同源序列,并且其中所述的字符包括第一种字符代表DNA碱基的符号,第二种字符代表差异的数目,第三种字符代表差异开始和终止的位置,第四种字符代表差异的持续。
因此,一DNA序列能以90%或以上的压缩率进行存储而不丢失遗传信息,从而能获得高的安全性。此外,这种高的压缩率能有效的存储基因组序列或基因组特定部分的多种DNA序列。
附图说明
参考如下附图并结合具体实施例的详述,本发明的上述和其他方面的特性将更明确:
图1显示了根据本发明实施例的编码DNA序列的装置结构框图;
图2显示了采用NCBI blast工具比较对象DNA和参考DNA序列所获的比较结果;
图3是说明将通过在比较单元中比较所获得的参考DNA序列与对象DNA序列的差异信息转换为字符串的原理图;
图4显示了编码字符串的4比特编码;
图5显示了将mody3基因外显子转换为字符串和字符串的4比特编码;
图6显示了根据本发明的实施例编码DNA序列的过程的流程图;
图7显示了根据本发明另一实施例的编码DNA序列的装置结构的框图;
图8显示了根据表2中的变异序列诱导因子修改的参考序列的过程;
图9显示了根据本发明另一实施例的编码DNA序列过程的流程图。
具体实施方式
在下文中,将参考附图进一步描述根据本发明的一种编码DNA的装置和方法。
图1显示了根据本发明实施例的编码DNA序列的装置结构框图。
参考图1,编码DNA序列的装置100包括一比较单元110、分割单元120、转换单元130、编码单元140、压缩单元150、编码存储单元160和序列存储单元170。
比较单元110用于将待编码的对象序列与已知DNA信息的参考序列相对准,以提取二序列间的差异。此时,参考序列与对象序列对齐从而使一致的碱基优最优化地相配。分割单元120用于将提取得到的对象序列和参考序列间的差异信息分割成预定大小的片段。优选的,这样的分割使每一片段的大小等于序列存储单元170整个容量的15%。图2显示了采用NCBI blast工具比较对象DNA序列和参考DNA序列的比较结果。该比较结果能以text、html、或xml文档格式输出。一已知的分析方法能从比较结果中提取参考序列和对象序列的差异信息。
转换单元130将提取的对象序列与参考序列间的差异信息转换为16字符的字符串。参考序列与对象序列的差异将分为6种类型。在转换单元130中,该6种不同类型将表达为16字符的字符串。这些16个字符包括从0到9的10个数字字符,4个DNA符号A,T,G,C,和用于识别信息的两个标识符。表1显示了表达参考序列和对象序列差异信息的16个字符,及其对应的说明。
表1
  字符   说明
  A   腺嘌呤   对象序列不同于参考序列的DNA符号
  T   胸腺嘧啶
  G   鸟嘌呤
  C   胞嘧啶
  0-9   表述差异部分起始位置,持续长度,和起始位置与终止位置的距离的数字符号
  /   表述差异的起始位置和终止位置的标识符
 ~   表述差异的持续的标识符
现在参考图3,将描述将参考序列和对象序列的差异转换为字符串的原理。不过,图3的原理仅用于说明,本发明并不限于此或并不受它们限制。
首先,将分析参考序列和对象序列的差异类型。
A.开始区不匹配:对象序列的开始区的X-3至X-1位都未在参考序列中出现,相应的为gac序列。
B.空白:参考序列的X6到X7位的区域都未在对象序列中出现,相应的为ta序列。
C.单个碱基对不匹配:在X11位,参考序列和对象序列的DNA碱基不一致。
D.插入:未在参考序列中出现的atgcat序列出现在对象序列X13和X14间。
E.多处碱基对不匹配:在X16至X18区域间,参考序列的DNA碱基不同于对象序列的DNA碱基。
F.终止区域不匹配:对象序列的X22至X23终止序列未在参考序列中出现,相应的为ag序列。
下面,上述不同差异类型将被循序的转换为字符。
A型转换为“/-3~3gac/3”字符。在这里,第一个“/”表示A型开始。“-3”表示A型的起始位点,也就是,从起始点X0处上游的第3号位。“~”表示A型的持续。第一个“3”表示A型持续的长度。“gac”表示对象序列不同于参考序列的开始DNA碱基对。第二个“/”表示A型结束。第二个“3”表示A型起始位点与终止位点之间的距离。
B型转换为“/6/2”字符。在这里,“/6”表示B型的开始点位于X0下游的6个碱基处的X6的位置,是由表示A型的开始位点和终止位点间距离的“3”所决定的位置。“2”表示B型起始位点与终止位点之间的距离。
C型转换为“/3~1c/1”字符。在这里,“/3”表示C型的开始点位于X11,也就是X8下游的3个碱基处的位置,X8是表示B型的开始位点和终止位点间距离的“2”所决定的位置。“~1”表示C型持续的碱基数目为一。“c”表示了对象序列不同于参考序列的DNA碱基。“1”表示C型起始位点与终止位点之间的距离。
D型转换为“/1~6atgcat/1”字符。在这里,“/1”表示D型的开始点位于X13,也就是X12下游的1个碱基处的位置,X12是由表示C型的开始位点和终止位点间距离的“1”所决定的位置。“~6”表示D型持续的碱基数目为六。“atgcat”表示了对象序列不同于参考序列的DNA碱基。最后的“1”表示D型起始位点(X13)与终止位点之间的距离。距离“1”表示DNA序列的插入。
E型转换为“/2~3tcc/3”字符。在这里,“/2”表示E型的开始点位于X16,也就是X14下游的2个碱基处的位置,X14是由表示D型的开始位点和终止位点间距离的“1”所决定的位置。“~3”表示E型持续的碱基数目为三。“tcc”表示了对象序列不同于参考序列的DNA碱基。最后的“3”表示E型起始位点(X16)与终止位点之间的距离。
F型转换为“/3~2ag/2”字符。在这里,“/3”表示F型的开始点位于X22,也就是X19下游的3个碱基处的位置,X19是由表示E型的开始位点和终止位点间距离的“3”所决定的位置。“~2”表示F型持续的碱基数目为二。“ag”表示了对象序列不同于参考序列的DNA碱基。最后的“2”表示F型起始位点(X22)与终止位点之间的距离。
根据上述描述,对象序列将由如下字符串表示。由于1个字节等于1个字符,总字符串的大小为50字节。
“/-3~3gac/3/6/2/3~1c/1/1~6atgcat/1/2~3tcc/3/3~2ag/2”
编码单元140采用存储于编码存储单位160中的4比特编码来编码组成字符串的单个字符。图4为一存储于编码存储单元160中的例子。图3中各类型的单个字符串的4比特编码结果如下:
/-3~3gac/3:11100000000000111111001111001010110111100011
/6/2:1110011011100010
/3~1c/1:1110001111110001110111100001
/1~6a t gca t/1:11100110111110101011110011011010110111100001
/2~3tcc/3:111000101111001110111101110111100011
/3~2ag/2:11100011111100101010110011100010
因此,从编码单元140中输出的最终编码结果如下。总大小为25字节。
11100000000000111111001111001010110111100011111001101110001011100011111100011101111000011110011011111010101111001101101011011110000111100010111100111011110111011110001111100011111100101010110011100010
压缩单元150采用常用的压缩方法对编码结果进行压缩。压缩结果存储于序列存储单元170。
当将对象序列与参考序列的差异信息转换为字符串并将该字符串的4比特编码应用于mody 3基因外显子时,可获得98.9%或更多的压缩率。此外,当已编码的mody 3基因的外显子被压缩时,可以获得更高的压缩率。图5显示了mody 3基因的外显子转换为字符串和该字符串的4比特编码的结果。参考图5,大小为5552字节的mody 3基因的外显子转换为122字节的字符串,同时进一步编码成为61字节的字符串。压缩率等于98.9%。
同时,根据本发明的DNA序列编码装置还可包括一预处理单元用于支持对相同DNA序列的各种编码格式。预处理单元用作对DNA序列加密的部件。一般的,在编码的DNA序列存储在存储部件前,将对编码的DNA序列进行预先设定的安全和加密设置。然而,根据本发明的DNA序列编码装置用于对DNA序列采用特定的安全和加密措施。带有预处理单元的DNA序列编码装置创建模板DNA序列,从创建的模板DNA序列中选出可用做加密密钥的DNA序列,然后编码对象DNA序列。对采用上述方法编码的DNA序列进行解码,需要有于带有预处理单元的DNA编码装置相对应的解码装置。因此,一旦出现恶意分配或截取密钥的情况,根据本发明的方法编码的DNA序列将比采用标准加密算法的传统加密方法有更高的安全性。
根据本发明的对DNA序列进行编码的方法可以在用于生物信息学的普通计算机系统上实现,例如个人计算机(PC),工作站,和超级计算机。对一物种的已知基因组DNA序列进行编码和压缩的方法可被分为6个步骤。
图6显示了根据本发明一实施例的DNA序列的编码方法的流程图。
参考图6,将一物种的已知参考序列和需要存储的对象序列的差异信息提取出来(步骤S600)。步骤S600中的序列比较可以通过生物信息学中已知的传统同源序列检索系统来实现。可采用的同源序列检索系统的例子包括Blast,Blat,Fasta和Smith-Waterman算法。根据任一系统,参考序列和对象序列将对齐和比较。输出的文档通过已知的分析技术进行分析从而获得差异信息。由于,本发明的目的在于仅仅编码两个DNA序列的差异信息,因此对齐两个DNA序列很重要,从而使两DNA序列的一致的碱基序列被最优地匹配。
下一步,步骤S600的输出文档将被分割成适合存储器处理的片段大小(步骤S610)。由于整个基因组序列大小为几百兆字节,不适于一次编码整个输出文档。基于此,对齐和序列比较的结果被分成许多片段,片段大小相应于根据本发明的序列编码装置的整个存储器的15%。
下一步,参考序列和对象序列的差异信息被转换为字符串(步骤S620)。参考序列和对象序列的差异可以被分为6种类型。在步骤S620中,这6种类型转换为16个字符的字符串。这16个字符包括0到9这10个数字字符,A,T,G,C4个DNA符号,和用于识别信息的2个标识符。
所述的6种类型包括起始区不匹配、空白、单个碱基对不匹配、插入、和终止区域不配对,这些都是本领域普通技术人员很容易理解的术语。
这16个字符的组合可以将差异信息表达为字符串的形式,例如6种类型的位置、DNA序列、和长度等。通过与参考信息相比较,这些字符串可以恢复为原始对象序列的形式而且不会丢失序列信息。这种恢复通过反向进行对象DNA序列至字符串的转换实现。
下一步,以字符串形式表达的DNA序列通过以4比特编码的形式被编码(步骤S630)。组成字符串的单个字符可表达为4比特编码。
下一步,4比特的编码结果采用传统的压缩算法进行压缩(步骤S640)。因此,这里用的压缩算法可以是数据压缩领域众所周知的工具,例如LZ78,Hoffman编码,和计算编码。此外,与遗传信息压缩相关的各种已知的压缩技术都可以采用。压缩后的DNA序列可在各种存储装置例如硬盘和CD中进行存储(步骤S650)。
图7为一方框图,显示了根据本发明另一实施例的编码DNA序列的装置的结构。除了预处理单元180、加密单元185、和变异序列存储单元190外,图7中显示的DNA序列编码装置剩下的组成元件与参考图1实施例描述的结构一样,因此,相应的详细描述予以省略。
参考图7,预处理单元180对待编码的DNA序列的参考序列进行预处理,在预处理单元180中进行的预处理过程是一种对DNA信息加密的过程。当进一步采用加密单元185时,编码的DNA序列信息可被双重加密。在这种情况下,加密单元185采用一种本发明申请日前已公知的加密算法对本发明中的DNA序列编码装置编码的DNA序列信息进行加密。
预处理单元180对参考序列的预处理过程如下。第一步,对参考序列创建变异序列生成函数。变异序列生成函数为一函数,其使用可以通过计算科学中例如随机数生成算法的技术具体方法获得的随机变量作为输入。变异序列生成函数的输出(在下文中,称为“变异序列诱导系数”)包括变异的全部总量(TotalNv)、变异间的距离(Nd)、变异的长度(Lv)、变异的类型(插入/取代)、和变异的序列(A,T,G,C,N:空的)。当变异总数为4,如下表2中展示了每一变异的变异序列生成因子的实例。在此,“空的”不能与另一变异序列一起出现。当“空的”与另一变异序列一起出现时,它表现位数目与变异序列的长度相对应。
表2
  区域   变异1   变异2   变异3   变异4
  变异间的距离   1035   2220   3215   3200
  变异长度   1   4   7   5
  变异类型   取代   取代   插入   取代
  变异序列   T   ATGG   ATGCGGG   NNNNN
图8显示了根据列于表2中的变异序列生成因子对参考序列修改的过程。参考图8,参考序列的长度为1000bp。变异1产生于参考序列起始位点的第1035比特下游的第一个变异。变异1的长度为1,变异1的类型为取代,变异1的序列为T。预处理单元180通过变异序列生成函数输出的变异序列生成因子对参考序列进行修改。也就是,考虑到单个变异元素(变异1,变异2,变异3,变异4),直到变异元素队列为空时,在相应于变异元素间的距离进行距离移动后,预定长度的预设变异序列在参考序列中进行取代或插入。变异序列存储于变异序列存储单元190,然后与对象序列一起输入到比较单元110。在这种情况下,参考序列和选择的变异序列诱导因子分别的作为密钥保存。
图7中的安全性的DNA序列编码装置与图1中的装置的不同点在于选择参考序列的替代元素存在或缺少。在存在已知物种的一参考序列,和基于该参考序列编码DNA序列的情况下,当在缺乏参考序列信息的情况下对编码序列进行解码时,给出了相应于编码DNA序列长度的可能情况的数量。例如,当一长度为100000bp长DNA序列采用根据本发明的DNA编码装置编码进行编码压缩后,当在缺乏参考序列信息情况下对编码DNA序列进行解码时,可能的情况下的数量等于选择与已知基因组序列编码长度中一样的参考序列的可能情况的数量。因此,当100000bp的人类DNA序列被编码和压缩时,在缺乏参考序列信息的情况下对编码的人类DNA序列进行解码可能出现的情况数量等于(人类DNA序列全部长度-编码的人类DNA序列长度),也就是,(3.06×109-100000)。基于此,一般的,当一长度为n的DNA序列进行编码时,在缺乏参考序列信息的情况下对编码的DNA序列进行解码后,存在所有可能出现的组合,可能出现情况的总数为(3.06×109-n),可能出现的概率为1/(3.06×109-n)。因此,编码一很长的DNA序列例如整个基因组序列将降低其安全因素。
然而,如上文所述,当对在预处理单元中修改过的参考序列进行编码时,DNA序列的安全性增强。预处理单元通过密钥而作为一种加密装置。在这里,密钥为修改过的参考序列,加密文件为DNA序列。根据本发明,使用者可以根据安全性的等级来决定对参考序列的修改程度。这就意味着使用者可以控制要创建的密钥数量。也就是,使用者可以使用比在加密算法,如通常采用的triple-DES中更少或更多的密钥对DNA序列加密。在triple-DES算法中采用的密钥数目为21682.56×1050。同时,根据图7所示的DNA序列编码装置中产生的密钥数目(Nkey)在如下等式1中所示。
等式1
NkeyLCTotaLNv×2×(4×Lv+1)
根据等式1,当参考序列的长度为10000bp,总变异数目为16时,密钥为大约4.72×1050,其数目大于triple-DES算法中产生的密钥数目。
图9显示了采用图7所示的DNA序列编码装置进行的DNA序列编码过程的流程图。
参考图9,预处理单元180从用于产生随机变量输入的变异序列生成函数中获得变异序列生成因子(步骤S900)。同样,预处理单元180采用一些产生的变异序列生成因子修改参考序列,然后将修改了的参考序列存储于变异序列存储单元190中(步骤S910)。比较单元110提取修改的参考序列与待存储的物种DNA序列,即对象序列的差异信息(步骤S920)。分割单元120将提取的差异信息分成适合于存储器处理大小的片断(步骤S930)。转换单元130将参考序列和对象序列的差异信息转换为字符串形式(步骤S940)。编码单元140采用4比特编码形式对组成字符串的单个字符进行编码(步骤S950)。加密单元185采用通常的加密算法对编码的DNA序列进行加密(步骤S960)。加密单元的加密处理是可选择的。压缩单元150采用通常的压缩算法对加密后的结果进行压缩(步骤S970)。压缩后的DNA序列存储于序列存储单元170中或通过通讯网络进行传输(步骤S980)。
根据本发明,只有已知参考序列与对象序列的差异信息才进行编码和压缩。因此,参考序列和对象序列间的同源性决定了压缩的效率。根据一般生物学知识,相同物种的序列同源性达99%或以上。基于此,可以说只有1%或更少的差异性被记载了。因此,当本发明用于存储和压缩人类基因组序列时,可以预计获得98.65%或以上的压缩率。
这种人类基因组序列的理论压缩率可以通过如下推测来解释。本领域的普通技术人员能很合理的接受这些推测。一般的,在人类基因组中,由空白或插入引起的差异很少出现,几乎所有的变异都是由单个碱基对不匹配引起的。根据普通遗传学可知,当每100bp中出现1个差异时,待记载的信息总量等于原始信息总量的1%。因此,整个人类基因组的1%的信息将被编码。一旦转换为字符串形式,则将以每100bp 8字符(/100~1/1)被进一步记载,因此使待记载的信息总量增加了8%。相应的,待记载的信息总量等于原始信息量的9%。然而,当字符串以4比特形式表示时,待记载的信息量将减少一半。最终,当编码的信息量通过压缩率为70%的压缩算法进行压缩时,待记载的信息量等于原始信息量的1.35%。因此,当整个人类基因组被压缩时,理论上可达的最小压缩率为98.65%。
本发明可以在一计算机可读介质上具体化为一种计算机可读的编码形式。计算机可读介质包括能被计算机系统识别的所有的存储数据的记载介质形式。比如,计算机可读介质包括ROM,RAM,CD-ROM,磁带,软盘,光数据存储介质,载波(例如,通过因特网传播)。同样的,计算机可读介质可以存储通过网络连接在计算机系统上分布的计算机可读的编码,从而使计算机能通过一种分布的方式阅读和执行编码。
从上述描述中明显看出,根据本发明的编码DNA序列的装置和方法,DNA序列能被以90%或以上的压缩率压缩,而且不会丢失任何遗传信息,然后被存储。因此,基因组序列或基因组特定区段的多种DNA序列可以被保存。根据实施例,当从数万携带个别特定疾病基因的病人体内分离出的该基因被测序和存储时,压缩存储可以降低存储空间。此外,能有效增加序列数据的传输速度和检索效率。更进一步,由于仅有DNA之间的差异信息被记载,不同的DNA序列可以被有效的比较和检索。比如,当存在数万的携带特定疾病基因的病人和正常人群的DNA序列时,病人与正常人群的序列差异性或健康人间的序列差异性可以被有效的检索出来。同时,由于DNA序列在参考序列被修改后编码,因此,在DNA序列信息存储和传输时安全性提高。同样的,由于1个或更多的大多数参考序列被不同的修改作为密钥,可以保证获得更高的安全性。
当本发明的内容通过具体实施例描述时,本领域的技术人员应该明确在不超过权利要求要求保护的范围的前提下从中可产生各种形式和细节上的改变。

Claims (16)

1.一种编码DNA序列的装置,包括:
一比较单元,用于将已知DNA信息的参考序列与待编码的对象序列对齐,以使一致的碱基最优化地相配,同时提取出参考序列和对象序列的差异信息;
一转换单元,用于将提取的参考序列和对象序列的差异信息转换为预定的字符串形式;
一编码存储单元,用于存储相应于单个字符的预定的转换编码;和
一编码单元,用于通过使用转换编码来编码组成字符串的单个字符;
其中,参考序列和目的序列是同源序列,并且其中所述的字符包括第一种字符代表DNA碱基的符号,第二种字符代表差异的数目,第三种字符代表差异开始和终止,第四种字符代表差异的持续。
2.权利要求1的装置,其中所述的转换单元分别将开始信息、起始位点、持续、持续的碱基数目、碱基、终止位点、差异起始位点和终止位点的距离分别转换为第三种字符、第二种字符、第四种字符、第二种字符、第一种字符、第三种字符、和第二种字符,并将其输出为字符串形式。
3.权利要求1的装置,其中所述的差异包括参考序列与对象序列起始区域不匹配,对象序列相应于参考序列碱基缺失产生的空白,参考序列和对象序列的单个碱基对不匹配,在对象序列中的碱基插入,参考序列和对象序列的多个碱基对不匹配,以及参考序列和对象序列的终止区域不匹配。
4.权利要求1的装置,其中所述的转换编码为4比特编码,其中每一个对应一个字符。
5.权利要求1的装置,进一步还包括一分割单元将提取的差异信息分成预设大小的片段,以及其中根据片段,所述转换单元将提取的差异信息转换为字符串。
6.权利要求1的装置,还进一步包括:一对编码的对象序列进行压缩的压缩单元;和一存储压缩的对象序列的序列存储单元。
7.权利要求1的装置,还进一步包括一预处理单元,通过随机变量输入从变异序列生成函数中产生变异序列生成因子,和通过所产生的变异序列生成因子对参考序列进行修改。
8.权利要求7的装置,所述的变异序列诱导因子包括变异总数、变异间的距离、变异的长度、变异的类型和变异的序列。
9.一种编码DNA的方法,包括:
将已知DNA信息的参考序列与待编码的对象序列对齐,以使一致的碱基最优化地相配;
提取参考序列和对象序列的差异;
将提取的参考序列和对象序列的差异信息转换为预定的字符串;和
通过相应于单个字符的预设转换编码来编码组成预设字符串的单个字符;
其中,参考序列和对象序列是同源序列,并且其中所述的字符包括第一种字符代表DNA碱基的符号,第二种字符代表差异的数目,第三种字符代表差异开始和终止的位置,第四种字符代表差异的持续。
10.权利要求9要求保护的方法,其中所述的转换包括:
指定第三种字符为差异的开始;
指定第二种字符为差异的起始位点;
指定第四种字符为差异的持续;
指定第二种字符为差异持续碱基的数目;
指定第一种字符为差异的碱基;
指定第三种字符为差异的终止;
指定第二种字符为差异开始的位点与差异终止的位点间的距离;
输出指定的字符串。
11.权利要求9的方法,其中所述的差异包括参考序列与对象序列起始位点不匹配、对象序列相应于参考序列碱基缺失产生的空白、参考序列和对象序列的单个碱基对不匹配、在对象序列中的碱基插入、参考序列和对象序列的多个碱基对不匹配、以及参考序列和对象序列的终止区域不匹配。
12.权利要求9的方法,所述的转换编码为4比特编码,其中每一个对应一个字符。
13.权利要求9的方法,还进一步包括将提取的差异信息分为预设大小的片段,和其中在转换步骤中,根据片段将提取的差异信息转换为字符串形式。
14.权利要求9的方法,还进一步包括:压缩编码的对象序列;和存储压缩的对象序列。
15.权利要求9的方法,还进一步包括,在序列对齐前,通过随机变量输入从变异序列诱导函数中产生变异序列诱导因子,和通过产生的变异序列诱导因子修改参考序列。
16.权利要求15的方法,所述的变异序列诱导因子包括变异总数、变异的距离、变异的长度、变异的类型和变异的序列。
CNB2004100283280A 2003-02-03 2004-02-03 编码脱氧核糖核酸序列的方法和装置 Expired - Fee Related CN100367189C (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR6543/03 2003-02-03
KR20030006543 2003-02-03
KR6543/2003 2003-02-03
KR5945/04 2004-01-30
KR5945/2004 2004-01-30
KR10-2004-0005945A KR100537523B1 (ko) 2003-02-03 2004-01-30 Dna 서열 부호화 장치 및 방법

Publications (2)

Publication Number Publication Date
CN1536068A CN1536068A (zh) 2004-10-13
CN100367189C true CN100367189C (zh) 2008-02-06

Family

ID=32658680

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100283280A Expired - Fee Related CN100367189C (zh) 2003-02-03 2004-02-03 编码脱氧核糖核酸序列的方法和装置

Country Status (4)

Country Link
US (1) US20040153255A1 (zh)
EP (1) EP1443449A3 (zh)
JP (1) JP4608221B2 (zh)
CN (1) CN100367189C (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103087906A (zh) * 2011-10-31 2013-05-08 三星Sds株式会社 在目标基因组序列中产生新型序列的装置和方法
CN105190636A (zh) * 2013-03-28 2015-12-23 三菱宇宙软件株式会社 基因信息存储装置、基因信息检索装置、基因信息存储程序、基因信息检索程序、基因信息存储方法、基因信息检索方法以及基因信息检索系统

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4770163B2 (ja) * 2004-12-03 2011-09-14 大日本印刷株式会社 生物情報の解析装置および圧縮装置
JP4638721B2 (ja) * 2004-12-06 2011-02-23 大日本印刷株式会社 生物情報の検索装置
KR100753835B1 (ko) 2005-12-08 2007-08-31 한국전자통신연구원 유전자 조절 관계 예측 방법 및 장치
JP4852313B2 (ja) * 2006-01-20 2012-01-11 富士通株式会社 ゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法
CN101281560B (zh) * 2008-06-05 2012-07-25 中国人民解放军军事医学科学院放射与辐射医学研究所 一种设计具有多稳健结构的核糖核酸分子的方法
NL2003311C2 (en) * 2009-07-30 2011-02-02 Intresco B V Method for producing a biological pin code.
EP2460111B1 (en) * 2009-12-23 2018-10-31 Industrial Technology Research Institute Method and apparatus for compressing nucleotide sequence data
US9646134B2 (en) * 2010-05-25 2017-05-09 The Regents Of The University Of California Bambam: parallel comparative analysis of high-throughput sequencing data
KR101952965B1 (ko) * 2010-05-25 2019-02-27 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 Bambam:고처리율 서열분석 데이터의 병렬 비교 분석
CN102081707B (zh) * 2011-01-07 2013-04-17 深圳大学 一种dna序列数据压缩和解压系统及方法
CN102200967B (zh) * 2011-03-30 2012-10-24 中国人民解放军军事医学科学院放射与辐射医学研究所 一种基于dna序列的文本处理方法和系统
EP2544113A1 (en) * 2011-07-05 2013-01-09 Koninklijke Philips Electronics N.V. Genomic/proteomic sequence representation, visualization, comparison and reporting using a bioinformatics character set and a mapped bioinformatics font
US9715574B2 (en) 2011-12-20 2017-07-25 Michael H. Baym Compressing, storing and searching sequence data
US20130253839A1 (en) * 2012-03-23 2013-09-26 International Business Machines Corporation Surprisal data reduction of genetic data for transmission, storage, and analysis
US8751166B2 (en) 2012-03-23 2014-06-10 International Business Machines Corporation Parallelization of surprisal data reduction and genome construction from genetic data for transmission, storage, and analysis
US8812243B2 (en) 2012-05-09 2014-08-19 International Business Machines Corporation Transmission and compression of genetic data
US8855938B2 (en) 2012-05-18 2014-10-07 International Business Machines Corporation Minimization of surprisal data through application of hierarchy of reference genomes
US10353869B2 (en) * 2012-05-18 2019-07-16 International Business Machines Corporation Minimization of surprisal data through application of hierarchy filter pattern
US9002888B2 (en) 2012-06-29 2015-04-07 International Business Machines Corporation Minimization of epigenetic surprisal data of epigenetic data within a time series
US8972406B2 (en) 2012-06-29 2015-03-03 International Business Machines Corporation Generating epigenetic cohorts through clustering of epigenetic surprisal data based on parameters
US8937564B2 (en) * 2013-01-10 2015-01-20 Infinidat Ltd. System, method and non-transitory computer readable medium for compressing genetic information
US20140310214A1 (en) * 2013-04-12 2014-10-16 International Business Machines Corporation Optimized and high throughput comparison and analytics of large sets of genome data
US9760546B2 (en) * 2013-05-24 2017-09-12 Xerox Corporation Identifying repeat subsequences by left and right contexts
CN103546160B (zh) * 2013-09-22 2016-07-06 上海交通大学 基于多参考序列的基因序列分级压缩方法
CN103546162B (zh) * 2013-09-22 2016-08-17 上海交通大学 基于非连续上下文建模和最大熵原则的基因压缩方法
US10902937B2 (en) 2014-02-12 2021-01-26 International Business Machines Corporation Lossless compression of DNA sequences
WO2015146852A1 (ja) * 2014-03-24 2015-10-01 株式会社 東芝 基準ゲノムデータを生成する方法、装置及びプログラム、差分ゲノムデータを生成する方法、装置及びプログラム、データを復元する方法、装置及びプログラム
CN105022935A (zh) * 2014-04-22 2015-11-04 中国科学院青岛生物能源与过程研究所 一种利用dna进行信息存储的编码方法和解码方法
EP3365821B1 (en) * 2015-10-21 2022-06-29 Coherent Logix, Incorporated Dna alignment using a hierarchical inverted index table
EP3470997B1 (en) 2016-05-04 2024-10-23 BGI Shenzhen Method for using dna to store text information, decoding method therefor and application thereof
US10790044B2 (en) * 2016-05-19 2020-09-29 Seven Bridges Genomics Inc. Systems and methods for sequence encoding, storage, and compression
CN107633158B (zh) * 2016-07-18 2020-12-01 三星(中国)半导体有限公司 对基因序列进行压缩和解压缩的方法和设备
SG11201903180RA (en) * 2016-10-11 2019-05-30 Genomsys Sa Method and system for storing and accessing bioinformatics data
WO2018071078A1 (en) * 2016-10-11 2018-04-19 Genomsys Sa Method and apparatus for the access to bioinformatics data structured in access units
CN110663022B (zh) * 2016-10-11 2024-03-15 耶诺姆希斯股份公司 使用基因组描述符紧凑表示生物信息学数据的方法和设备
AU2017342688A1 (en) * 2016-10-11 2019-05-02 Genomsys Sa Method and system for selective access of stored or transmitted bioinformatics data
AU2017342754A1 (en) 2016-10-11 2019-05-02 Genomsys Sa Method and apparatus for the access to bioinformatics data structured in access units
CN106971090A (zh) * 2017-03-10 2017-07-21 首度生物科技(苏州)有限公司 一种基因测序数据压缩和传输方法
CN107169315B (zh) * 2017-03-27 2020-08-04 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种海量dna数据的传输方法及系统
JP6979280B2 (ja) * 2017-04-11 2021-12-08 株式会社日本バイオデータ トランスクリプトームデータの解析方法
CN109300508B (zh) * 2017-07-25 2020-08-11 南京金斯瑞生物科技有限公司 一种dna数据存储编码解码方法
US10742416B2 (en) * 2017-08-21 2020-08-11 Andrew J. Polcha Fuzzy dataset processing and biometric identity technology leveraging blockchain ledger technology
US11810651B2 (en) 2017-09-01 2023-11-07 Seagate Technology Llc Multi-dimensional mapping of binary data to DNA sequences
TWI770247B (zh) * 2018-08-03 2022-07-11 大陸商南京金斯瑞生物科技有限公司 核酸用於資料儲存之方法、及其非暫時性電腦可讀儲存介質、系統及電子裝置
CN110867213B (zh) * 2018-08-28 2023-10-20 华为技术有限公司 一种dna数据的存储方法和装置
CN109450452B (zh) * 2018-11-27 2020-07-10 中国科学院计算技术研究所 一种针对基因数据的取样字典树索引的压缩方法和系统
KR102252977B1 (ko) * 2019-03-05 2021-05-17 주식회사 헤세그 Dna 코드화 방법 및 그 코드화 방법의 의생명공학적 응용
CN110310709B (zh) * 2019-07-04 2022-08-16 南京邮电大学 一种基于参考序列的基因压缩方法
EP4087139A4 (en) * 2019-12-31 2023-01-18 MGI Tech Co., Ltd. METHOD AND DEVICE FOR CREATING A GENE MUTATION DICTIONARY AND USING THE DICTIONARY TO COMPRESS GENOMIC DATA
WO2021243605A1 (zh) * 2020-06-03 2021-12-09 深圳华大生命科学研究院 生成dna存储编解码规则的方法和装置及dna存储编解码方法和装置
CN113300720B (zh) * 2021-05-25 2022-06-28 天津大学 一种针对叠加水印的长dna序列的插入删节的分段识别方法
CN114356220B (zh) * 2021-12-10 2022-10-28 中科碳元(深圳)生物科技有限公司 基于dna存储的编码方法、电子设备及可读存储介质
CN114356222B (zh) * 2021-12-13 2022-08-19 深圳先进技术研究院 数据存储方法、装置、终端设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4560976A (en) * 1981-10-15 1985-12-24 Codex Corporation Data compression
WO2001080431A1 (fr) * 2000-04-19 2001-10-25 Satoshi Omori Informations relatives a des sequences nucleotidiques et procede et dispositif permettant d'enregistrer des informations relatives a la sequence d'un acide amine
CN1388443A (zh) * 2001-05-28 2003-01-01 佳能株式会社 用于数据压缩的方法、装置、计算机程序和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9713921D0 (en) * 1997-07-01 1997-09-03 Hexagen Technology Limited Biological data
US6917882B2 (en) * 1999-01-19 2005-07-12 Maxygen, Inc. Methods for making character strings, polynucleotides and polypeptides having desired characteristics
JP2002024416A (ja) * 2000-07-04 2002-01-25 Sony Corp Dna情報管理システム及びdna情報管理方法
JP2003228565A (ja) * 2001-04-18 2003-08-15 Satoshi Omori 生物学的物質の配列情報の記録方法及び装置、前記配列情報の供給方法、並びに前記配列情報を記録した記録媒体
JP2003188735A (ja) * 2001-12-13 2003-07-04 Ntt Data Corp データ圧縮装置及び方法並びにプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4560976A (en) * 1981-10-15 1985-12-24 Codex Corporation Data compression
WO2001080431A1 (fr) * 2000-04-19 2001-10-25 Satoshi Omori Informations relatives a des sequences nucleotidiques et procede et dispositif permettant d'enregistrer des informations relatives a la sequence d'un acide amine
CN1388443A (zh) * 2001-05-28 2003-01-01 佳能株式会社 用于数据压缩的方法、装置、计算机程序和存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A NEW CHALLENGE FOR COMPRESSIONALGORTHMS:GENETIC SEQUENCES. Grumbach.S. ET AL.information processing & management,elsevier,barking,GB,Vol.30 No.6. 1994 *
A NEW CHALLENGE FOR COMPRESSIONALGORTHMS:GENETIC SEQUENCES. Grumbach.S. ET AL.information processing &amp *
management,elsevier,barking,GB,Vol.30 No.6. 1994 *
遗传密码和DNA序列高维空间数字编码. 陈惟昌等.生物物理学报,第16卷第4期. 2000 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103087906A (zh) * 2011-10-31 2013-05-08 三星Sds株式会社 在目标基因组序列中产生新型序列的装置和方法
CN105190636A (zh) * 2013-03-28 2015-12-23 三菱宇宙软件株式会社 基因信息存储装置、基因信息检索装置、基因信息存储程序、基因信息检索程序、基因信息存储方法、基因信息检索方法以及基因信息检索系统

Also Published As

Publication number Publication date
JP4608221B2 (ja) 2011-01-12
EP1443449A2 (en) 2004-08-04
CN1536068A (zh) 2004-10-13
EP1443449A3 (en) 2006-02-22
JP2004240975A (ja) 2004-08-26
US20040153255A1 (en) 2004-08-05

Similar Documents

Publication Publication Date Title
CN100367189C (zh) 编码脱氧核糖核酸序列的方法和装置
JP3553106B2 (ja) テキスト圧縮駆動部構築方法及び入力テキスト列圧縮方法
US20170249345A1 (en) A biomolecule based data storage system
CN101610088B (zh) 基于具有安全特性的压缩技术来编码数据的系统和方法
CN112382340A (zh) 用于dna数据存储的二进制信息到碱基序列的编解码方法和编解码装置
WO2011007956A2 (ko) 데이터의 압축방법
CN101350624A (zh) 一种支持ansi编码的中文文本的压缩方法
WO2016187616A1 (en) Compression and transmission of genomic information
CN106202172A (zh) 文本压缩方法及装置
CN101335616B (zh) 一种具有无限密钥空间的对称加密方法
Al-Okaily et al. Toward a better compression for DNA sequences using Huffman encoding
CN115296862B (zh) 一种基于数据编码的网络数据安全传输方法
JP6902104B2 (ja) バイオインフォマティクス情報表示のための効率的データ構造
KR100537523B1 (ko) Dna 서열 부호화 장치 및 방법
US20140180679A1 (en) Method and system for text compression and decompression
Govindan et al. An intelligent text data encryption and compression for high speed and secure data transmission over internet
RU2437148C1 (ru) Способ сжатия и восстановления сообщений в системах обработки, передачи и хранения текстовой информации
CN114678074A (zh) 一种隐藏寻址的dna存储编码设计方法
JP2005004560A (ja) インバーテッドファイル作成方法
Kumar et al. WBMFC: Efficient and Secure Storage of Genomic Data.
CN108629157B (zh) 一种用于核酸测序数据压缩和加密的方法
Shanmugasundaram et al. Text preprocessing using enhanced intelligent dictionary based encoding (EIDBE)
JPH03206533A (ja) データ圧縮方式
CN109660262A (zh) 一种应用于电子邮箱地址的字符编码方法及系统
Li et al. Efficient parallel design for BWT-based DNA sequences data multi-compression algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080206

Termination date: 20160203

CF01 Termination of patent right due to non-payment of annual fee