CN111095423B - 编码/解码方法、装置和数据处理装置 - Google Patents

编码/解码方法、装置和数据处理装置 Download PDF

Info

Publication number
CN111095423B
CN111095423B CN201780094012.7A CN201780094012A CN111095423B CN 111095423 B CN111095423 B CN 111095423B CN 201780094012 A CN201780094012 A CN 201780094012A CN 111095423 B CN111095423 B CN 111095423B
Authority
CN
China
Prior art keywords
data
information
nucleic acid
gene database
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780094012.7A
Other languages
English (en)
Other versions
CN111095423A (zh
Inventor
杨焕明
刘斯奇
汪建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Shenzhen Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Publication of CN111095423A publication Critical patent/CN111095423A/zh
Application granted granted Critical
Publication of CN111095423B publication Critical patent/CN111095423B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种编码/解码方法、装置和数据处理装置,涉及数据处理技术领域。该编码方法包括:对信息进行数字化处理生成序列数据(110);将序列数据划分为N个数据片段(120),N为大于1的整数;针对每个数据片段,在基因数据库中查找相应的核酸片段,并将核酸片段在基因数据库中的位置信息作为每个数据片段的标识(130);根据各个数据片段对应的标识生成序列编码(140)。该方法和装置能够提高加密效率和安全性。

Description

编码/解码方法、装置和数据处理装置
技术领域
本发明涉及数据处理技术领域,特别涉及一种编码方法、编码装置、解码方法、解码装置、数据处理装置以及计算机可读存储介质。
背景技术
随着信息化技术的快速发展,由数字编码组成,以互联网或其他各种传输途径为载体的数字化信息已经广泛应用到了人类社会生活的各个方面。因此,保护数字化信息的安全就显得更加重要,尤其是在军事、商业和医疗等特殊领域。
作为保障数字化信息安全性的重要技术手段,数字加密技术越来越受到重视。相关技术主要是采用秘钥将信息明文转换成无意义的密文,以起到加密效果。
到目前为止,利用DNA进行信息存储的方法都需要:1)具有编码和解码信息的相关程序的计算机,将信息存储为“计算机语言”(0或1,数字信息的二进制代码),然后再转换成“生物语言”(DNA序列中的核苷酸A,T,C和G)。2)DNA合成仪,用于将“生物语言”的信息在体外或体内存储。3)DNA测序仪,在获得“生物语言”信息后,将“生物语言”重新转换为“计算机语言”,并进一步存储信息。虽然这是一个完全可用的系统,但步骤2)和3)使用的仪器是非常昂贵,且整个方法流程操作费时费力,无法广泛使用。
发明内容
本发明人发现上述相关技术中存在如下问题:仅依靠预先规定的数学方法对信息进行复杂繁琐的计算,导致加密效率低,安全性不高;现有的利用DNA进行信息存储的方法需要使用DNA合成仪与测序器,价格昂贵,方法操作费时费力。针对上述问题中的至少一个问题,本发明人提出了解决方案。
本发明的一个目的是提供一种加密效率高,安全性高的编码技术方案,以及本发明的另一个目的是提供一种操作简单,价格低廉的信息存储方案。
根据本发明的一个实施例,提供了一种编码方法,包括:对信息进行数字化处理生成序列数据;将所述序列数据划分为N个数据片段,N为大于1的整数;针对每个数据片段,在基因数据库中查找相应的核酸片段,并将所述核酸片段在所述基因数据库中的位置信息作为每个数据片段的标识;根据各个数据片段对应的标识生成序列编码。
可选地,针对所述基因数据库中没有查找到相应的核酸片段的数据片段,进行进一步的数据划分,得到M个数据片段,并在所述基因数据库中查找与M个数据片段中的每一个相应的核酸片段,M为大于1的整数。
可选地,所述数字化处理为对所述信息对应的二进制代码进行转码生成所述序列数据。
可选地,所述序列数据为由腺嘌呤A、胞嘧啶C、鸟嘌呤G和胸腺嘧啶T四种脱氧核糖核苷酸构成的数据。
可选地,将所述二进制代码中的0转换为A或T,1转换为C或G以生成所述序列数据。
可选地,将所述二进制代码中的01转换为A,00转换为T,11转换为C,10转换为G以生成所述序列数据。
可选地,所述序列数据为所述信息对应的二进制代码。
可选地,在查找步骤之前,将所述基因数据库中所有的核酸片段转码为二进制代码。
可选地,将所述基因数据库中的A或T转换为二进制代码0,C或G转换为二进制代码1。
可选地,将所述基因数据库中的A转换为二进制代码01,T转换为二进制代码00,C转换为二进制代码11,G转换为二进制代码10。
可选地,所述标识包括所述核酸片段第一个符号和最后一个符号在所述基因数据库中的位置信息。
可选地,所述标识包括所述核酸片段第一个符号在所述基因数据库中的位置信息,和所述核酸片段的长度。
可选地,所述基因数据库包括一个或多个动物和/或植物和/或微生物基因组数据。
可选地,所述基因数据库包括野生型基因组数据和/或合成型基因组数据。
可选地,所述基因数据库包括人类基因组数据。
根据本发明的另一个实施例,提供一种解码方法,包括:从编码数据中获取各数据片段对应的标识,所述编码数据为根据上述任一个实施例所述的编码方法生成的序列编码;根据所述标识获取各数据片段对应的位置信息;根据所述位置信息从基因数据库中获取对应的核酸片段;根据所述核酸片段生成序列数据。根据所述序列数据获取信息。
根据本发明的又一个实施例,提供一种编码装置,包括:信息数字化模块,用于对信息进行数字化处理生成序列数据;数据标识确定模块,所述数据标识确定模块与信息数字化模块相连,用于将所述序列数据划分为N个数据片段,N为大于1的整数,针对每个数据片段,在基因数据库中查找相应的核酸片段,并将所述核酸片段在所述基因数据库中的位置信息作为每个数据片段的标识;编码生成模块,所述编码生成模块与所述数据标识确定模块相连,用于根据各个数据片段对应的标识,生成序列编码。
可选地,所述数据标识确定模块针对所述基因数据库中没有查找到相应的核酸片段的数据片段,进行进一步的数据划分,得到M个数据片段,并在所述基因数据库中查找与M个数据片段中的每一个相应的核酸片段,M为大于1的整数。
可选地,上述信息数字化模块对所述信息对应的二进制代码进行转码生成所述序列数据。
可选地,所述序列数据为由腺嘌呤A、胞嘧啶C、鸟嘌呤G和胸腺嘧啶T四种脱氧核糖核苷酸构成的数据。
可选地,所述信息数字化模块将所述二进制代码中的0转换为A或T,1转换为C或G以生成所述序列数据。
可选地,所述信息数字化模块将所述二进制代码中的01转换为A,00转换为T,11转换为C,10转换为G以生成所述序列数据。
可选地,所述序列数据为所述信息对应的二进制代码。
可选地,该装置还包括基因数据转码模块,所述基因数据转码模块分别与所述信息数字化模块、所述数据标识确定模块相连,用于将所述基因数据库中所有的核酸片段转码为二进制代码。
可选地,所述基因数据转码模块将所述基因数据库中的A或T转换为二进制代码0,C或G转换为二进制代码1。
可选地,所述基因数据转码模块将所述基因数据库中的A转换为二进制代码01,T转换为二进制代码00,C转换为二进制代码11,G转换为二进制代码10。
可选地,所述标识包括所述核酸片段第一个符号和最后一个符号在所述基因数据库中的位置信息。
可选地,所述标识包括所述核酸片段第一个符号在所述基因数据库中的位置信息,和所述核酸片段的长度。
可选地,所述信息为文字信息、图片信息、音频信息或视频信息中的至少一种。
可选地,所述基因数据库包括一个或多个动物和/或植物和/或微生物基因组数据。
可选地,所述基因数据库包括野生型基因组数据和/或合成型基因组数据。
可选地,所述基因数据库包括人类基因组数据。
根据本发明的又一个实施例,提供一种解码装置,包括:数据标识获取模块,用于从编码数据中获取各数据片段对应的标识,所述编码数据为根据上述任一个实施例所述的编码方法或者根据上述任一个实施例所述的编码装置生成的序列编码;序列获取模块,所述序列获取模块与所述数据标识获取模块相连,用于根据所述标识获取各数据片段对应的位置信息,并根据所述位置信息从基因数据库中获取对应的核酸片段;信息生成模块,所述信息生成模块与所述序列获取模块相连,用于根据所述核酸片段生成序列数据,并根据所述序列数据获取信息。
根据本发明的再一个实施例,提供一种数据处理装置,包括:存储器以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行上述任一个实施例中的编码方法或解码方法。
根据本发明的再一个实施例,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的编码方法或解码方法。
本发明的一个优点在于,通过将待加密信息的序列数据对应到基因数据库中的核酸片段,将相应的位置信息作为序列编码,从而实现了信息的加密。利用核酸的超高存储密度以及独特的分子间识别机制,无需对信息进行复杂繁琐的数学计算即可完成加密,从而提高了加密效率和安全性。
本发明的另一个优点在于,使用本发明进行信息存储,不需要价格昂贵的DNA合成仪与测序仪,只需要具有编码和解码信息的相关程序的计算机,就可以实现将信息存储在核苷酸序列中,包括人类或其他物种的野生型基因组或者合成基因组,并且存储容量不受限制,允许存储无限量的信息。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同说明书一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1示出本发明的编码方法的一个实施例的流程图。
图2示出了本发明的编码/解码方法的一个实施例的示意图。
图3示出本发明的解码方法的一个实施例的流程图。
图4示出本发明的编码装置的一个实施例的结构图。
图5示出本发明的解码装置的一个实施例的结构图。
图6示出本发明的数据处理装置的一个实施例的结构图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1示出本发明的编码方法的一个实施例的流程图。
如图1所示,在步骤110中,对信息进行数字化处理生成序列数据。
在一个实施例中,数字化处理可以包括将信息转换为二进制代码。对二进制代码进行转码生成序列数据,序列数据可以是按顺序排列的一系列数据。信息可以为文本信息、图像信息或者音频信息等任何形式。下面以文档信息为例说明本发明的编码方法的具体步骤。
图2示出了本发明的编码/解码方法的一个实施例的示意图。
如图2所示,待处理的信息为文本信息21,“What I cannot create,I do notunderstand.Look deep into nature,and then you will understand everythingbetter.”,将这段文字信息转换为二进制代码22“01010111011010000110000101110100……”。可以将这段二进制代码中的0转换为A或T,1转换为C或G以生成序列数据23“AGACTGGCAGCTCTTTTGGTTTAGAGCGACTA……”。A、C、G和T分别对应DNA(Deoxyribonucleic Acid,脱氧核糖核酸)中的腺嘌呤(Adenine)、胞嘧啶(Cytosine)、鸟嘌呤(Guanine)和胸腺嘧啶(Thymine)。也可以依据1、0与A、C、G、T之间的其它转换方式生成其它形式的序列数据。
在另一个实施例中,序列数据可以为信息对应的二进制代码。在这种情况下,需要将基因数据库中所有的基因片段转码为二进制代码,以便可以在变换后的基因数据库中找到与信息对应的二进制代码。
通过上面的步骤可以将任何形式的信息对应到以DNA方式存储的数据,从而将信息与基因数据库联系起来,为信息的加密提供了必要的技术基础。进一步可以通过下面的步骤实现信息加密以及存储。
在步骤120中,将序列数据划分为N个数据片段,N为大于1的整数。
在步骤130中,针对每个数据片段,在基因数据库中查找相应的核酸片段,并将核酸片段在基因数据库中的位置信息作为每个数据片段的标识。也可以将与数据片段匹配的核酸片段的第一个符号的位置信息和核酸片段长度保存为数据片段的标识。
核酸片段是指由多个核苷酸头尾相连而形成的片段,核苷酸可以是脱氧核糖核苷酸,也可以是核糖核苷酸。可根据需要将核酸片段依照一定规则转码为二进制代码,而转码之后的核酸片段则指核酸片段所对应的二进制代码。
核酸片段的长度可以使用核苷酸的数量来表示,即“nt”;本发明中将每个核苷酸视为1个字符,也可以用字符的数量来表示核苷酸的数量。本发明中,可以根据需要将核酸片段依照一定规则转码为二进制代码,而转码之后的核酸片段则指核酸片段所对应的二进制代码。在这种情况下,核酸片段的长度则是用字节(Byte)来表示。
在上面两个步骤中,N的值越大,编码的存储效率越高,但是在基因数据库中找到相应的核酸片段的几率就越小。因此,可以根据在基因数据库中核酸片段的查找情况调整N的大小。
在一个实施例中,在基因数据库中没有查找到与数据片段相应的核酸片段,可以将序列数据重新划分,得到M个数据片段,并在基因数据库中查找与M个数据片段中的每一个相应的核酸片段,M为大于1的整数。
重新划分的数据片段的长度小于原数据片段的长度,以便能够在基因数据库中查找到与数据片段相应的核酸片段。例如,可以将无法在基因数据库中找到相应核酸片段的数据片段划分为多个部分,分别查找各部分在基因数据库中相应的核酸片段,以提高片段匹配几率和查找效率。
在一个实施例中,如图2所示,基因数据库24可以为人核孔复核蛋白基因的核苷酸序列(SEQ ID NO:1),共含有4103个字符构成的数据库。将序列数据23划分多个数据片段,每个数据片段包含2个字符。在基因数据库24中查找与各个数据片段相同的核酸片段。
如果查找到了相同的核酸片段,则记录该核酸片段中第一个字符对应的位置以及该核酸片段的长度作为标识。例如,序列数据中的前两个字符AG组成的数据片段对应的标识为3856 2,即AG对应基因数据库中第3856个字符开始长度为2个字符的核酸片段。
如果未查找到相同的核酸片段,则将数据片段的长度降为1个字符,并在基因数据库24中查找相同的核酸片段。例如,序列数据中的第3和第4个字符组成的数据序列AC在基因数据库24中不存在相同的核酸片段,则以第3个字符单独组成新的数据序列A。该数据序列对应的标识为3827 1,即A对应基因数据库中第3827个字符开始长度为1个字符的核酸片段。
在步骤140中,根据各个数据片段对应的标识生成序列编码。如图2所示,可以将各数据片段的标识按顺序存储起来即可获得信息对应的序列编码25“3856 2 3827 1 3856 11313 1 3275 1 1079 1 3906 1 1078 1 3856 2 853 1 949 1 3229 1 2600 1 3755 12496 1 714 1 2518 1 2736 1 1713 1 1789 1 1291 1 2153 1 3601 2 1159 1 537 12660 1 1962 1 375 1 892 1 1309 1 2620 1 2736 1……”。也可以为各个数据片段增加标识位以指示其生成顺序,再按照任意顺序将各个数据片段存储为序列编码。
上述图2示出的实施例中的基因数据库24容量较小,因此划分的数据片段长度也比较小,仅是示例性地说明本方法的实现过程。在实际应用中,可以采用存储有海量基因序列的基因数据库作为编码方法的数据库。如野生型或合成型的人类基因组数据、细菌基因组数据或多个物种基因组数据的组合数据库等,这些基因数据库中包含有几十亿量级的核苷酸,完全可以支持查找划分长度为几十甚至几百bit的数据片段,并以简短的标识来对这些数据片段进行编码。由这些标识构成的序列编码中仅包含各个数据片段的标识,不但可以实现信息加密,而且可以提高存储效率。
可以通过上述步骤的逆过程对序列编码构成的编码数据进行解码。
图3示出本发明的解码方法的一个实施例的流程图。
如图3所示,在步骤310中,从编码数据中获取各数据片段对应的标识。例如,编码数据可以为图2中的序列编码25。
在步骤320中,根据标识获取各数据片段对应的位置信息。
在步骤330中,根据位置信息从基因数据库中获取对应的核酸片段。例如,图2中的序列编码25中的标识3856 2即表示基因数据库24中以第3856个字符为起始字符,长度为2个字符的核酸片段。
在步骤340中,根据核酸片段生成序列数据。
例如,可以将获取的基因片段组合起来以得到图2中的序列数据23“AGACTGGCAGCTCTTTTGGTTTAGAGCGACTA……”。根据编码时采用的A、C、G、T与1、0之间的转码关系,将序列数据23转码为二进制代码22“01010111011010000110000101110100……”。
在步骤350中,根据序列数据获取信息。例如,可以将二进制代码22译码为文本信息21“What I cannot create,I do not understand”,从而完成解密。
上述实施例中,通过将待加密信息的序列数据对应到基因数据库中的基因片段,将相应的位置信息作为序列编码,从而实现了信息的加密。利用基因的超高存储密度以及独特的分子间识别机制,无需对信息进行复杂繁琐的数学计算即可完成加密,从而提高了加密效率和安全性。
而且上述实施例在进行信息存储时,不需要价格昂贵的DNA合成仪与测序仪,只需要具有编码和解码信息的相关程序的计算机,就可以实现将信息存储在核苷酸序列中,包括人类或其他物种的野生型基因组或者合成基因组,并且存储容量不受限制,允许存储无限量的信息。
图4示出本发明的编码装置的一个实施例的结构图。
如图4所示,该装置包括:信息数字化模块41、数据标识确定模块42和编码生成模块43。
信息数字化模块31对信息进行数字化处理生成序列数据。
在一个实施例中,信息数字化模块41对信息对应的二进制代码进行转码生成序列数据。例如,信息数字化模块41将二进制代码中的0转换为A或T,1转换为C或G以生成序列数据,或者将所述二进制代码中的01转换为A,00转换为T,11转换为C,10转换为G以生成序列数据。在这种情况下序列数据为由A、C、G和T构成的数据。
在另一个实施例中,该装置还包括基因数据转码模块44。在序列数据为信息对应的二进制代码的情况下,基因数据转码模块44将基因数据库中所有的核酸片段转码为二进制代码。
数据标识确定模块42将序列数据划分为N个数据片段,N为大于1的整数,针对每个数据片段,在基因数据库中查找相应的基因片段,并将核酸片段在基因数据库中的位置信息作为每个数据片段的标识。例如,标识可以包括核酸片段第一个符号和最后一个符号在基因数据库中的位置信息,或者标识可以包括核酸片段第一个符号在基因数据库中的位置信息,和核酸片段的长度。
在一个实施例中,数据标识确定模块42针对基因数据库中没有查找到相应的核酸片段的数据片段,进行进一步的数据划分,得到M个数据片段,并在基因数据库中查找与M个数据片段中的每一个相应的核酸片段,M为大于1的整数。
编码生成模块43根据各个数据片段对应的标识生成序列编码。例如,可以按照各个数据片段被划分的顺序依次生成序列编码。
图5示出本发明的解码装置的一个实施例的结构图。
如图5所示,该装置包括:数据标识获取模块51、序列获取模块52和信息生成模块53。
数据标识获取模块51从编码数据中获取各数据片段对应的标识,编码数据为通过上述实施例中的编码方法或者通过上述实施例中的编码装置生成的序列编码。
序列获取模块52根据标识获取各数据片段对应的位置信息,并根据位置信息从基因数据库中获取对应的核酸片段。
信息生成模块53根据核酸片段生成序列数据,并根据序列数据获取信息。
上述实施例中,通过将待加密信息的序列数据对应到基因数据库中的基因片段,将相应的位置信息作为序列编码,从而实现了信息的加密。利用基因的超高存储密度以及独特的分子间识别机制,无需对信息进行复杂繁琐的数学计算即可完成加密,从而提高了加密效率和安全性。
上述实施例中,进行信息存储时,不需要价格昂贵的DNA合成仪与测序仪,只需要具有编码和解码信息的相关程序的计算机,就可以实现将信息存储在核苷酸序列中,包括人类或其他物种的野生型基因组或者合成基因组,并且存储容量不受限制,允许存储无限量的信息。
图6示出本发明的数据处理装置的一个实施例的结构图。
如图6所示,该实施例的装置6包括:存储器61以及耦接至该存储器61的处理器62,处理器62被配置为基于存储在存储器61中的指令,执行本发明中任意一个实施例中的编码方法或解码方法。
其中,存储器61例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
本领域内的技术人员应当明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本领域内的技术人员应当明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
至此,已经详细描述了根据本发明的编码/解码方法、装置和数据处理装置。为了避免遮蔽本发明的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本发明的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims (34)

1.一种编码方法,包括:
对信息进行数字化处理生成序列数据;
将所述序列数据划分为N个数据片段,N为大于1的整数;
针对每个数据片段,在基因数据库中查找相应的核酸片段,并将所述核酸片段在所述基因数据库中的位置信息作为每个数据片段的标识;
根据各个数据片段对应的标识生成序列编码;
其中,所述在基因数据库中查找相应的核酸片段包括:
针对所述基因数据库中没有查找到相应的核酸片段的数据片段,进行进一步的数据划分,得到M个数据片段,并在所述基因数据库中查找与M个数据片段中的每一个相应的核酸片段,M为大于1的整数。
2.根据权利要求1所述的编码方法,其中,所述数字化处理为对所述信息对应的二进制代码进行转码生成所述序列数据。
3.根据权利要求2所述的编码方法,其中,所述序列数据为由腺嘌呤A、胞嘧啶C、鸟嘌呤G和胸腺嘧啶T四种脱氧核糖核苷酸构成的数据。
4.根据权利要求3所述的编码方法,其中,将所述二进制代码中的0转换为A或T,1转换为C或G以生成所述序列数据。
5.根据权利要求3所述的编码方法,其中,将所述二进制代码中的01转换为A,00转换为T,11转换为C,10转换为G以生成所述序列数据。
6.根据权利要求1所述的编码方法,其中,所述序列数据为所述信息对应的二进制代码。
7.根据权利要求6所述的编码方法,在查找步骤之前,还包括:
将所述基因数据库中所有的核酸片段转码为二进制代码。
8.根据权利要求7所述的编码方法,其中,将所述基因数据库中的A或T转换为二进制代码0,C或G转换为二进制代码1。
9.根据权利要求7所述的编码方法,其中,将所述基因数据库中的A转换为二进制代码01,T转换为二进制代码00,C转换为二进制代码11,G转换为二进制代码10。
10.根据权利要求1-9任一项所述的编码方法,其中,所述标识包括所述核酸片段第一个符号和最后一个符号在所述基因数据库中的位置信息。
11.根据权利要求1-9任一项所述的编码方法,其中,所述标识包括所述核酸片段第一个符号在所述基因数据库中的位置信息,和所述核酸片段的长度。
12.根据权利要求1-9任一项所述的编码方法,其中,所述信息为文字信息、图片信息、音频信息或视频信息中的至少一种。
13.根据权利要求1-9任一项所述的编码方法,其中,所述基因数据库包括一个或多个动物和/或植物和/或微生物基因组数据。
14.根据权利要求13所述的编码方法,其中,所述基因数据库包括野生型基因组数据和/或合成型基因组数据。
15.根据权利要求14所述的编码方法,其中,所述基因数据库包括人类基因组数据。
16.一种解码方法,包括:
从编码数据中获取各数据片段对应的标识,所述编码数据为根据权利要求1-15任一项所述的编码方法生成的序列编码;
根据所述标识获取各数据片段对应的位置信息;
根据所述位置信息从基因数据库中获取对应的核酸片段;
根据所述核酸片段生成序列数据;
根据所述序列数据获取信息。
17.一种编码装置,包括:
信息数字化模块,用于对信息进行数字化处理生成序列数据;
数据标识确定模块,所述数据标识确定模块与信息数字化模块相连,用于将所述序列数据划分为N个数据片段,N为大于1的整数,针对每个数据片段,在基因数据库中查找相应的核酸片段,并将所述核酸片段在所述基因数据库中的位置信息作为每个数据片段的标识,所述数据标识确定模块针对所述基因数据库中没有查找到相应的核酸片段的数据片段,进行进一步的数据划分,得到M个数据片段,并在所述基因数据库中查找与M个数据片段中的每一个相应的核酸片段,M为大于1的整数;
编码生成模块,所述编码生成模块与所述数据标识确定模块相连,用于根据各个数据片段对应的标识生成序列编码。
18.根据权利要求17所述的编码装置,其中,所述信息数字化模块对所述信息对应的二进制代码进行转码生成所述序列数据。
19.根据权利要求18所述的编码装置,其中,所述序列数据为由腺嘌呤A、胞嘧啶C、鸟嘌呤G和胸腺嘧啶T四种脱氧核糖核苷酸构成的数据。
20.根据权利要求19所述的编码装置,其中,
所述信息数字化模块将所述二进制代码中的0转换为A或T,1转换为C或G以生成所述序列数据。
21.根据权利要求19所述的编码装置,其中,
所述信息数字化模块将所述二进制代码中的01转换为A,00转换为T,11转换为C,10转换为G以生成所述序列数据。
22.根据权利要求17所述的编码装置,其中,所述序列数据为所述信息对应的二进制代码。
23.根据权利要求17所述的编码装置,还包括:
基因数据转码模块,所述基因数据转码模块分别与所述信息数字化模块、所述数据标识确定模块相连,用于将所述基因数据库中所有的核酸片段转码为二进制代码。
24.根据权利要求23所述的编码装置,其中,
所述基因数据转码模块将所述基因数据库中的A或T转换为二进制代码0,C或G转换为二进制代码1。
25.根据权利要求23所述的编码装置,其中,
所述基因数据转码模块将所述基因数据库中的A转换为二进制代码01,T转换为二进制代码00,C转换为二进制代码11,G转换为二进制代码10。
26.根据权利要求17-25任一项所述的编码装置,其中,所述标识包括所述核酸片段第一个符号和最后一个符号在所述基因数据库中的位置信息。
27.根据权利要求17-25任一项所述的编码装置,其中,所述标识包括所述核酸片段第一个符号在所述基因数据库中的位置信息,和所述核酸片段的长度。
28.根据权利要求17-25任一项所述的编码装置,其中,所述信息为文字信息、图片信息、音频信息或视频信息中的至少一种。
29.根据权利要求17-25任一项所述的编码装置,其中,所述基因数据库包括一个或多个动物和/或植物和/或微生物基因组数据。
30.根据权利要求29所述的编码装置,其中,所述基因数据库包括野生型基因组数据和/或合成型基因组数据。
31.根据权利要求30所述的编码装置,其中,所述基因数据库包括人类基因组数据。
32.一种解码装置,包括:
数据标识获取模块,用于从编码数据中获取各数据片段对应的标识,所述编码数据为根据权利要求1-15任一项所述的编码方法或根据权利要求17-31任一项所述的编码装置生成的序列编码;
序列获取模块,所述序列获取模块与所述数据标识获取模块相连,用于根据所述标识获取各数据片段对应的位置信息,并根据所述位置信息从基因数据库中获取对应的核酸片段;
信息生成模块,所述信息生成模块与所述序列获取模块相连,用于根据所述核酸片段生成序列数据,并根据所述序列数据获取信息。
33.一种数据处理装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行如权利要求1-15中任一项所述的编码方法或如权利要求16中所述的解码方法。
34.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-15中任一项所述的编码方法或如权利要求16中所述的解码方法。
CN201780094012.7A 2017-08-25 2017-08-25 编码/解码方法、装置和数据处理装置 Active CN111095423B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2017/099152 WO2019037117A1 (zh) 2017-08-25 2017-08-25 编码/解码方法、装置和数据处理装置

Publications (2)

Publication Number Publication Date
CN111095423A CN111095423A (zh) 2020-05-01
CN111095423B true CN111095423B (zh) 2023-07-21

Family

ID=65439286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780094012.7A Active CN111095423B (zh) 2017-08-25 2017-08-25 编码/解码方法、装置和数据处理装置

Country Status (2)

Country Link
CN (1) CN111095423B (zh)
WO (1) WO2019037117A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021056167A1 (zh) * 2019-09-24 2021-04-01 深圳华大生命科学研究院 信息编码和解码方法、装置、存储介质以及信息存储和解读方法
CN112687338B (zh) * 2020-12-31 2022-01-11 云舟生物科技(广州)有限公司 基因序列的存储和还原方法、计算机存储介质及电子设备
CN113380322B (zh) * 2021-06-25 2023-10-24 倍生生物科技(深圳)有限公司 人工核酸序列水印编码系统、水印字符串及编码和解码方法
CN113782102B (zh) * 2021-08-13 2022-12-13 中科碳元(深圳)生物科技有限公司 Dna数据的存储方法、装置、设备及可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05324738A (ja) * 1992-05-20 1993-12-07 Fujitsu Ltd 遺伝子データベースの相同性分類方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006084391A1 (en) * 2005-02-11 2006-08-17 Smartgene Gmbh Computer-implemented method and computer-based system for validating dna sequencing data
CN101420614B (zh) * 2008-11-28 2010-08-18 同济大学 一种混合编码与字典编码整合的图像压缩方法及装置
WO2013074658A1 (en) * 2011-11-15 2013-05-23 Citrix Systems, Inc. Systems and methods for compressing short text by dictionaries in a network
CN103114127B (zh) * 2011-11-16 2014-07-16 中国科学院华南植物园 一种基于dna芯片的密码系统
CN105022935A (zh) * 2014-04-22 2015-11-04 中国科学院青岛生物能源与过程研究所 一种利用dna进行信息存储的编码方法和解码方法
CN106506007A (zh) * 2015-09-08 2017-03-15 联发科技(新加坡)私人有限公司 一种无损数据压缩和解压缩装置及其方法
CN106845158A (zh) * 2017-02-17 2017-06-13 苏州泓迅生物科技股份有限公司 一种利用dna进行信息存储的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05324738A (ja) * 1992-05-20 1993-12-07 Fujitsu Ltd 遺伝子データベースの相同性分類方法

Also Published As

Publication number Publication date
WO2019037117A1 (zh) 2019-02-28
CN111095423A (zh) 2020-05-01

Similar Documents

Publication Publication Date Title
CN111095423B (zh) 编码/解码方法、装置和数据处理装置
WO2016059610A1 (en) A biomolecule based data storage system
CA3040145A1 (en) Method and systems for the indexing of bioinformatics data
Patro et al. Data-dependent bucketing improves reference-free compression of sequencing reads
CN102025482B (zh) 一种基于虚拟基因组的密码系统(vgc)的构造方法
Liu et al. High-speed and high-ratio referential genome compression
WO2024077948A1 (zh) 匿踪查询方法、装置和系统及存储介质
JP2004240975A (ja) Dna配列符号化装置及び方法
CN112527736A (zh) 基于dna的数据存储方法、数据恢复方法及终端设备
JP6902104B2 (ja) バイオインフォマティクス情報表示のための効率的データ構造
CN109783667B (zh) 一种图像存储和检索的方法、客户端及系统
Bhola et al. No-reference compression of genomic data stored in fastq format
US10225074B2 (en) Encryption system and method based on biometric technology
Hamed et al. Hybrid technique for steganography-based on DNA with n-bits binary coding rule
CN111279422B (zh) 编码/解码方法、编码/解码器和存储方法、装置
Aggarwal et al. Secure data transmission using DNA encryption
Bae et al. DNA privacy: analyzing malicious DNA sequences using deep neural networks
Zhang et al. A high storage density strategy for digital information based on synthetic DNA
CN113626645B (zh) 分级优化的高效密文模糊检索方法及相关设备
Marwan et al. Utilizing DNA Strands for Secured Data-Hiding with High Capacity.
KR20040070438A (ko) Dna 서열 부호화 장치 및 방법
Sardaraz et al. SCA-NGS: Secure compression algorithm for next generation sequencing data using genetic operators and block sorting
CN115268799B (zh) 一种基于云服务的存储方法和装置
Gupta et al. An improved substitution method for data encryption using DNA sequence and CDMB
US11631344B2 (en) Encryption and decryption method based on gene chip

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant