CN109086890A - 信息编码和信息解码的方法 - Google Patents

信息编码和信息解码的方法 Download PDF

Info

Publication number
CN109086890A
CN109086890A CN201810615395.4A CN201810615395A CN109086890A CN 109086890 A CN109086890 A CN 109086890A CN 201810615395 A CN201810615395 A CN 201810615395A CN 109086890 A CN109086890 A CN 109086890A
Authority
CN
China
Prior art keywords
information
matrix
molecular genetic
nitrogenous base
bit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810615395.4A
Other languages
English (en)
Inventor
谢尔盖·尼古拉耶维奇·斯米尔诺夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Landigrad
Landigrad Co Ltd
Original Assignee
Landigrad Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Landigrad Co Ltd filed Critical Landigrad Co Ltd
Publication of CN109086890A publication Critical patent/CN109086890A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/14Conversion to or from non-weighted codes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/123DNA computing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M13/00Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/28Programmable structures, i.e. where the code converter contains apparatus which is operator-changeable to modify the conversion process
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B82NANOTECHNOLOGY
    • B82YSPECIFIC USES OR APPLICATIONS OF NANOSTRUCTURES; MEASUREMENT OR ANALYSIS OF NANOSTRUCTURES; MANUFACTURE OR TREATMENT OF NANOSTRUCTURES
    • B82Y10/00Nanotechnology for information processing, storage or transmission, e.g. quantum computing or single electron logic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Error Detection And Correction (AREA)

Abstract

本发明涉及一种信息编码和信息解码的方法,编码信息阵列被分成逻辑的完整片段,每个片段被置于对应关系中,至少用于编码一个分子遗传系统的元件;系统中的元素组由i个数据比特组成的相关索引信息进行补充;数据比特的每个代码组合应补充由基于i个数据比特的组合所定义的k个校验比特的组合;以基数的二进制形式的每个i+k比特信息以多重态的形式写入,由n个含氮碱基或其相应的氨基酸组成并且是分子遗传系统的元件;根据氢键的数量和氮含量分子结构中含有的稠环数量分组;将前一代矩阵的张量多次提高到第二次幂预先形成矩阵,以获得下一代矩阵;形成i个数据比特的系统二进制索引,基于矩阵的数学发现遗传密码的结构特征。

Description

信息编码和信息解码的方法
技术领域
本发明属于信息编码和解码技术领域,具体涉及一种信息编码和信息解码的方法。
背景技术
现有基于DNA的文本信息编码技术(专利号为US 6312911,IPC C12Q1/68,G06N3/12,2001年)的方法,其在于对DNA序列中的信息文本进行编码,然后使用分子遗传系统提取信息,其中每个元件由DNA的三个不同的含氮碱基组成,并分别由一个字母符号标志。DNA有4种氮碱基(A-腺嘌呤,T-胸腺嘧啶,C-胞嘧啶,G-鸟嘌呤),故已知分子遗传系统的最大三联体表达将以64个独特符号的形式标志,以对应四种含氮碱基组合的数目。
现有描述所有类型的信息(文本文件、图像或音频文件)的编码方法,根据US2005/0053968号专利(IPCG06F 19/00,C12Q 1/68,G06N 3/12,G01N 33/48,G11B 20/00,G01N 33/50,G11C 13/02,2005),这种所有遗传信息编码技术使用由DNA的四个含氮碱基(G,A,C,T)的不同组合组成的分子遗传系统,其中每种组合由一个独特的符号代表。使用该方法,生成包括数字信息和加密密钥的合成DNA分子。合成DNA嵌入DNA存储介质中。在DNA的数量巨大的情况下,信息可以分成几个片段。该专利中描述的方法能够通过比较其中一个片段的引物与下一片段上的尾部引物重建DNA片段。
现有的已知方法应用范围受限,因为它们不能用于高效编码大量信息并且编码免疫性低。
从现有技术水平中可知冗余编码的数据和噪声免疫代码,为了增加对信息比特的抗噪性,增加了k个验证比特;检查比特可以检测和/或校正由于通信信道而在解码器中发生的信息中的错误。例如,在俄罗斯联邦.2408979号专利(IPC H03M 13/19,2011)中描述了使用验证比特进行纠错编码的已知方法。
下述信息编码方法是与本技术保护请求中所述的最接近的方法,与权利要求中最接近的方法是对信息进行编码的方法,根据该方法将数据分为两部分。构建一个独特的DNA序列,将其分成一组重叠的DNA片段。然后以二进制形式补充相关的索引信息组。(US 61/654,295,IPC G06F 19/00,2013号专利)。
这种方法的缺点是其相对较高的冗余度,因为需要足够多的三联体用于编码,这可能导致编码效率下降和编码错误的发生,以及每个氮碱基的信息容量低,大约等于1.83比特。
目前DNA信息存储的高容量是DNA作为信息载体的特性的研究主题之一。DNA分子提供的信息存储密度高,耐用,如果保存在适当的条件下(即凉爽干燥和黑暗的区域),可以存储数百年的信息。从数字通信抗噪声理论和离散信号转达的角度来看,可以说遗传信息本身对噪声是自然免疫的。然而,使用已知方法进行编码和解码信息时的产生的问题仍未解决-原始信息在编码过程中由于各种外部因素而变得失真,例如DNA合成缺陷,DNA序列的时间降解退化和构建错误。因此,尽管此前已有此类设计与发展,仍然需要对含氮碱基序列之间的所有特定相互作用进行系统研究和分类,以便确定大量信息编码有效、快速和准确条件。
发明内容
本发明的目的是提供一种信息编码和信息解码的方法以解决如何在使用最小体积物质载体来保存大型信息阵列而确保不丢失数据的问题的技术问题。
为了实现以上目的,本发明采取的技术方案为:信息编码的方法,编码信息阵列被分成逻辑的完整片段,每个片段被置于对应关系中,至少用于编码一个分子遗传系统的元件;系统中的元素组由i个数据比特组成的相关索引信息进行补充;数据比特的每个代码组合应补充由基于i个数据比特的组合所定义的k个校验比特的组合;以基数的二进制形式的每个i+k比特信息以多重态的形式写入,由n个含氮碱基或其相应的氨基酸组成并且是分子遗传系统的元件;由以四个含氮碱基质形式制成的矩阵组成,根据氢键的数量和氮含量分子结构中含有的稠环数量分组;通过将每个前一代矩阵的张量多次提高到第二次幂来预先形成矩阵,以便获得下一代矩阵;形成i个数据比特的系统二进制索引对应于含氮碱基的选定特征;与编码信息一起记录n的值,用于编码的矩阵的大小取决于该值、以及关于矩阵转换为序列的所选方法以及其读取顺序的信息。
进一步地,要以二进制形式编码的信息,包括每个多重态的二进制索引。
进一步地,待编码的信息应排列为含氮碱基序列。
进一步地,要对于i数据比特的每个编码组合,根据i和k比特的组合确定m个控制比特的组合。
进一步地,基于分子遗传系统矩阵中每个多重态的位置,人们可以评估细胞遗传系统的隐性或显性性状对应的逻辑上完整的信息块。
进一步地,含氮碱基的顺序应该被分成逻辑完整的块,其中关于块的开始和结束的信息的信息被编码。
进一步地,待编码的信息应该被排列为在DNA水平上编码的含氮碱基序列。
进一步地,待编码的信息应该被排列为将在RNA级别上编码的含氮碱基的序列。
进一步地,待编码的信息应该被排列为氨基酸序列。
进一步地,要被编码的信息应该被排列为在蛋白质级别上被编码的含氮碱基序列。
进一步地,分子遗传系统具有线性矩阵表示。
进一步地,分子遗传系统具有方形矩阵表示。
进一步地,分子遗传系统具有矩形矩阵表示。
进一步地,分子遗传系统具有圆形矩阵表示。
进一步地,分子遗传系统具有三维矩阵表示。
进一步地,分子遗传系统具有树形结构矩阵表示。
进一步地,分子遗传系统的二元指数对应于DNA的含氮碱基的选定特征。
进一步地,分子遗传系统的二元指数对应于RNA的含氮碱基的选定特征。
进一步地,分子遗传系统的二元指数对应于氨基酸的含氮碱基的选定特征。
进一步地,分子遗传系统的二元指数对应于形成遗传和显性性状的含氮碱基的选定特征水平。
进一步地,由获得的含氮碱基序列形成并含有被编码信息的合成DNA被置于存储介质中。
进一步地,将由获得的含氮碱基序列形成并含有被编码信息的合成DNA置于用于逻辑和数学的介质中计算;根据哪个信息解码的方法机器可读序列被分成逻辑完整的待解码信息块;块应包括i个数据比特和k个校验比特的组合;每个逻辑上完整的信息块应被分配至少一个由n个含氮碱基或相应氨基酸组成的多重态,并且是用于解码的分子遗传系统的元件,分子遗传系统由代表四氮基基质的碱基组成;含氮碱基按照含氮碱基分子结构中的氢键数目和稠环数目分组;通过将每个前一代矩阵的张量多次提高到第二次幂来预先形成矩阵,以便获得下一代矩阵;构成第i个数据比特的系统二进制索引对应于t的选定特征。
信息解码的方法,机器可读序列被分成逻辑完整的待解码信息块;块应包括i个数据比特和k个校验比特的组合;每个逻辑上完整的信息块应被分配至少一个由n个含氮碱基或相应氨基酸组成的多重态,并且是用于解码的分子遗传系统的元件;分子遗传系统由代表四个含氮碱基组成;含氮碱基按照含氮碱基分子结构中的氢键数目和稠环数目分组;通过将每个前一代矩阵的张量多次提高到第二次幂来预先形成矩阵,以便获得下一代矩阵;形成第i个数据比特的系统二进制索引对应于含氮碱基的选定特征,并且形成k个校验比特的索引应基于第i个数据比特的组合来定义。
进一步地,由待解码的逻辑完整信息块组成的机器可读序列的离散部分包括m个控制比特和形成m个控制比特的索引是基于i个数据比特的组合来定义的。
进一步地,基于分子遗传系统矩阵中的每个多重态的位置,可以评估隐性或显性特征对应的逻辑上完整的信息块。
进一步地,分子遗传系统具有线性矩阵表示。
进一步地,分子遗传系统具有方形矩阵表示。
进一步地,分子遗传系统具有矩形矩阵表示。
进一步地,分子遗传系统具有圆形矩阵表示。
进一步地,分子遗传系统具有三维矩阵表示。
进一步地,分子遗传系统具有树结构矩阵表示。
进一步地,分子遗传系统的二元索引对应于DNA的含氮碱基的选定特征。
进一步地,分子遗传系统的二元指数对应于RNA的含氮碱基的选定特征。
进一步地,分子遗传系统的二元指数对应于氨基酸的含氮碱基的选定特征。
进一步地,分子遗传系统的二元指数对应于形成遗传和显性性状的含氮碱基的选定特征水平。
本发明的有益效果:
在分子生物学中,中心教条是从DNA到RNA和从核酸到蛋白质的信息流遗传信息从DNA到RNA和从RNA到氨基酸的转变形成蛋白质复合物是所有由细胞组成的生物体的标准,并且是大分子生物合成的基础。DNA、RNA、氨基酸和蛋白质是线性聚合物,即它们结构中的每个单体通常与其他两种单体连接起来。单体的序列编码的信息,其传递规则亦由中心法则的描述。
DNA分子的复制和RNA分子的合成以DNA链作为构建子分子(基于模板的合成)的基质(模板)的方式进行。这种方法确保了遗传信息的复制及其在氨基酸(蛋白质)合成过程中的实现。信息流的方向包括三种类型的基质合成:DNA合成-复制;RNA合成-转录;蛋白质合成–转播。此外,还有一种基于模板的合成技术,可以纠正DNA(RNA)结构中的错误,以及恢复DNA(RNA)原始结构的有限复制(SOS-修复)的变体。核酸和蛋白质合成的模板性质确保了数据再现的高度准确性。
目前,研究遗传编码抗噪原理对于技术发展具有重要意义,因为它可以帮助解决提供信息系统抗噪声的问题。如果信息是用DNA(RNA)或氨基酸的含氮碱基编码的,它将代表一个非常复杂的二元组合,它通过系统中多重峰的排列来确定。以这种方式解码信息将需要一个精心设计的复杂数学方法。用于编码和解码的分层系统允许确定每个多重峰的稳定性、分子的一般结构和许多其他参数。
蛋白质分子、核酸(DNA,RNA)、以及形成的组织、器官、细胞内结构(细胞骨架)和细胞外基质、膜通道、受体和用于蛋白质和核酸的合成、包装和使用的分子机器以及涉及生物纳米对象的核酸。蛋白质分子的大小范围从1到1000nm。DNA螺旋的直径为2nm,长度可达几厘米。形成细胞骨架细丝的蛋白质复合物在长达几微米的范围内具有7-25nm的厚度。此特征可让使用相对较少的物理为存储介质来节省大量信息。
四种含氮碱基通常被认为是遗传密码的基本符号。由遗传分子(DNA和RNA)转达的遗传信息定义了活生物体蛋白质的初始结构。每种编码的蛋白质代表20-22种氨基酸链的一种。蛋白质链中的氨基酸序列由三联体序列(三字母组成的“单词”)定义。三联体(或密码子)是比特于所述DNA(或RNA)链的三个连续含氮碱基的组合。
计算机中的信息通常以矩阵的形式存储,并且使用27个酉变换的矩阵执行的,主要是标准化的阿达玛矩阵,它们在接收各种条件后作为执行各种步骤的逻辑单元。
本发明使我们能够基于矩阵的数学发现遗传密码的结构特征;遗传密码将被构建为建议的分子遗传系统,代表遗传密码元件的分层系统。而建议系统中的模式可以通过DNA,RNA和氨基酸的含氮碱基的各种特征来观察,从矩阵和离散信号理论和数字场的数学方法的角度,确保了建议系统的抗噪声性能。其中,所述数据模式也可以在较低的(原子和亚原子)和更高(蛋白质和基因)的水平来辨别。此外,在此结构化方法中并不必要的在DNA和RNA层级进行区分。另外外,也可以使用主要和次要含氮碱进行结构化。
另外,在用于编码/解码的分子遗传系统中,在以下级别可观察到结构和谐且模型良好的数学分形相互关系:DNA-RNA-氨基酸-蛋白质-遗传特征,同时,在计算含氮碱基的原子和亚原子组分时,可以在分子遗传系统的每个结构水平上观察到明确的数学关系。
同时,可以使用基于索引信息(1-黑色,0-白色)和彩色图表开发的黑白图表(即分形比色图表)在结构级别上对分子遗传系统进行颜色分析以及基于可见光谱波长的图表。
此外,除了用于构建分子遗传系统的二次矩阵和原型矩阵之外,还可进行线性矩阵表示,矩形矩阵表示,三维(立方体)矩阵表示以及图形树形式的表示。
附图说明
图1中图例解释用于编码的矩阵的线性矩阵表示,其由64个三联体形成,用于编码DNA,RNA和分配矩阵的各元素二元索引信息的氨基酸;
图2为DNA,RNA和氨基酸三联体矩阵的方块矩阵表示;
图3为DNA,RNA和氨基酸三联体矩阵的矩形矩阵表示;
图4为DNA,RNA和氨基酸三联体矩阵的圆形矩阵表示;
图5,图5A为DNA,RNA和氨基酸三联体矩阵的三维(立体)矩阵表示;
图6,图6A为DNA,RNA和氨基酸三联体矩阵的结构树表示;
图7为DNA的三联体基质的线性表示中氢键数目的改变;
图8为DNA/RNA三联体方块矩阵表示中氢键数目的变化;
图9为在DNA三联体的线性表示中每个含氮碱基的碳原子(C),氢(H),氮(N)和氧(O)的总数的变化;
图10为DNA三联体线性表示中的每个含氮碱基的碳原子总数(C)的变化;
图11为RNA的三联体的线性表示中每个含氮碱基中碳原子总数(С)的变化;
图12为DNA三联体线性表示中的每个含氮碱基的氧原子总数(O)的值;
图13为RNA的三联体的线性表示中每个含氮碱基中氧原子总数(O)的值;
图14为DNA和RNA的主要和次要氮碱基的比较分析;
图15为在模块2下以64个三联DNA(RNA)的形式添加获得的逻辑运算的信息(可变)和参考(所得)值之间的关系表;
图16为解释了结果向量与其三联体之间的关系表;
图17为基于分子遗传系统编制的字母表。
具体实施方式
下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
在实践中,可以遇到数字、文字、符号、图形和混合信息的变体。本发明的本质是将任何类型的信息转换成由i个数据比特组成的一系列代码组合;每个代码组合应补充数据比特以提供一个机会来使用k个校验比特的代码组合来恢复信息,其组合应根据i个数据比特的组合来定义。鉴于k个校验比特的组合应根据数字表示来选择,这些数字表示或者与用于离散信号处理的噪声免疫编码中应用的沃尔什函数的完整正交系统一致,或者具有恒定值。
以逻辑上完整的片段(一系列符号,图像,声音或遗传和体细胞层面上的生物序列)编码的信息阵列,其中每一个至少与分子遗传系统的一个元件相关联,至少一个元素的n个含氮碱基。系统中的元素集由索引信息进行补充。DNA,RNA或氨基酸的索引信息。基于索引信息,应该形成k个校验比特的组合的校验码,例如,可以是在模块2之下添加变量的布尔函数的值的组合,其数值表示与沃尔什函数的完整正交系统重合[I.V.Agafonova“非线性布尔函数密码学性质”,2007年,http://dha.spb.ru/PDF/cryptoBOOLEAN.pdf]。例如,对应于一个离散元件的编码信息含氮碱的量可以等于6(X,Y,Z-码字元素;X'Y'Z“-码字校验)。使用Z-编码信息被编码在机器可读二进制序列(离散的)符号的形式或以n个多重独特的核苷酸序列的形式呈现。编码信息记录n值的信息应与用于在序列中的变换矩阵的选定方法中的编码信息一起记录。通过提出的分形编码分子遗传系统多重序列可被构造为RNA,DNA,氨基酸,蛋白质。
DNA和RNA包括其由糖,磷酸基团和含氮碱基的核苷酸:用于RNA,DNA和尿嘧啶(U),胞嘧啶(C),腺嘌呤(A),鸟嘌呤(G),胸腺嘧啶(T)。同时,含氮碱基具有特殊生化特性的特定构造。由于糖和磷酸骨架的结构保持不变,当构建分子遗传系统的基础时,五个主要含氮碱基的特征决定了核苷酸的比特置;该系统被设计为2×2大小的F1矩阵的来记录遗传元件的分子基础结构的比特置。
其中T/U是指用构建系统的胸腺嘧啶(DNA)或尿嘧啶(RNA)。
用于DNA的四种含氮碱基和用于RNA的四种含氮碱基的是独特的具统一特征的基本对称系统的载体,其以各种方式将四种含氮碱基分解成与这些特征中的一种相对应的配对。对于DNA,碱基(F1)与胸腺嘧啶(T)比对,而对于RNA-对比尿嘧啶(U)。
在本文中使用的术语“分子遗传系统”是指用于传递特定种类的遗传信息(遗传物质)特征的一组结构和机制。[Arefiev VA,Lisovenko LA英语-俄语遗传词典,1995 407页]。同时,它的完整性是通过在空间和时间中部署的结构组合之间的关系和关系的组合来保证的。
这种结构的基本理由如下。
通常的DNA的双螺旋由两个相互缠绕的多核苷酸链组成,它们的含氮碱基通过成对的氢键连接起来。DNA的三维构型的刚性主要由于在链的相对碱基之间的大量氢键而得以保证,这意味着其中一条链的腺嘌呤(A)总是与胸腺嘧啶(T)或鸟嘌呤(G)与胞嘧啶(C)相反,胞嘧啶(C)基于含氮碱基的比特置使一条DNA链互补(补充)至另一条链。一条链的腺嘌呤(A)连接另一条胸腺嘧啶(T),鸟嘌呤(G)连接胞嘧啶(C)。RNA代表一条单链分子,就像其中一条DNA链一样结构。RNA核苷酸与DNA非常相似,尽管它们不相同。三个含氮碱基与DNA完全相同:腺嘌呤(A),鸟嘌呤(G)和胞嘧啶(C)。然而,代替胸腺嘧啶(T),RNA含有与尿嘧啶(U)结构中类似于胸腺嘧啶的另一种含氮碱基。
在以上提出的碱基(F1)中,含氮碱基按照氢键的数目逐行分组:在基质的第一行中-具有三个氢键的强氢键G-C的互补对,在第二行中-具有弱氢键A-T的互补对DNA)/U(对于RNA),其具有两个氢键。
其次,含氮碱基特征的一个特征是它们被细分为两种类型:包括腺嘌呤(A)和鸟嘌呤(G)的嘌呤碱基和包括胞嘧啶(C),胸腺嘧啶(T)和尿嘧啶的嘧啶碱基(U)。嘌呤和嘧啶碱基分子是基于两种芳香族杂环化合物-嘧啶和嘌呤。嘌呤分子由两个稠环组成,而pyramidine分子由一个稠环组成。因此,这里给出的基础(F1)中的含氮碱基根据它们的稠环的数目而垂直排列:基质的第一列具有在其分子结构中具有更多稠环的嘌呤碱基,第二列的特征是具有较少数目的环的嘧啶碱基。
这样,得到了含氮碱基对应其基本特征的成对系统的基础(F1):水平方面:第一行中含有三个氢键的元素,第二个含有两个氢键的元素,并且在第一行为嘌呤碱基,在第二个行为嘧啶碱基。
在基于特定特征的等效对中的细分中,每个含氮碱基可以用二元相对指数补充:例如,当特征非常明显时加一,或当它不很明显时加零。根据含氮碱基的生化特性将细分应用于二元指数时,基本基准(F1)应如下所示:
氮元素在元素碱中的比特置清楚地被展示了出来,根据第一特征,水平碱基对G=C(三个氢键,对应于数字1的强比特)和A=T/U(两个氢键,弱比特,数字0),根据第二个标准,垂直对G=A(分子中的两个环,对应于图1的强烈比特置),C=T/U(分子中一个环,对应于数字0的弱化比特置)。
编码的分子遗传系统是通过获得张量(Kronecker)来完成的。例如,用于4x4的DNA的下一代矩阵F2如下所示:
大小为8x8的DNA矩阵生成F3将如下所示:
矩阵元素的数量通过来自四个含氮碱基的三联体的组合数目来证明。每个三联体都有它自己的特定字符,因为它表现了矩阵的特征值行为,并且具有它自己的该矩阵的相应向量。例如,三个三联体AAC,ACA和CAA中的每一个都与它自己的矢量耦合,因此,这些三联体在这方面显着不同。
这样,分子遗传系统是由的无限次重复形成的,其中矩阵F(n)的每个象限完全再现前一代的矩阵F(n-1)或以前的力量。每一个新一代矩阵本身都隐藏着所有前几代的信息。大多重矩阵F(∞)包含所有具有较短多重谱矩阵的信息。矩阵的能力越高,定义结构化系统独特元素集合的含氮碱基组合的数量越大,并且该集合可以是无限的。因此,建议的元素系统可用于接收,转达,存储和复制大量信息。
为了能够通过技术手段处理信息,基于嘌呤-嘧啶碱基组合和氢键数目,可以在二元计算系统中形成相同的系统-从而索引数值到其集合的列和行。
例如,用于DNA的三元组矩阵的每个三元组在二进制系统中以六进制格式为特征,每个三元组将包含例如1个字节的信息,即每个字节中有6个比特。
而且,二元体系中每个三联体的构建都是从其较低的含氮碱基开始的,因为较低的碱基是2x2大小的原始F1矩阵的一个元素,首先将二进制编码与特征“氢键数”组合,然后再通过特征“嘌呤-嘧啶”组合。
底部基座连接到5'端,在上部基座-3'端。此外,还要注意到电子的运动以及读数从底部到顶部,即从5'-PO 4(-)到末端3'-OH(+)。
此外,所描述的元素系统形成了对信息转达非常重要的“显性/隐性”特征。在DNA和RNA水平上,显性(稳定)碱基是存在于DNA和RNA两者中的含氮碱基,即G,C,A。隐性(可变)碱是含氮碱基,其仅包含DNA(T)或仅在RNA(U)中。在四种含氮碱基中,胸腺嘧啶(T)与天然存在的其他三种元素相反,因为在从DNA到RNA的转换过程中,胸腺嘧啶(T)被另一个含氮碱基-尿嘧啶(U)取代-并且是隐性的。因此,考虑到上述特征,所提出的分子遗传系统类似于根据孟德尔杂交定律运作的生物体杂交的Pennett square(1906),其确认存在天然多通道噪音免疫编码每个有机体中的遗传信息。这些方阵是基于英国生物学家R.Punnett提出的男性和女性配子组合的定义基因型的图形方法。然而,Pennett的方阵特征不是矩阵的特征值及其组合,而是来自父母生殖细胞/配子的显性和隐性基因等比特基因的类似组合。在这种情况下,在信息传递的情况下,显性特征将被编码为更可靠(稳定)的含氮碱基。
根据含氮碱基的稳定性程度,每个三联体均标有特定颜色:红色(较低指数-1)的那些三联体中只有稳定碱基不会因DNA和RNA而改变;橙色(低指数-2)三胞胎,其中只有上(女)基会发生变化,两个较低的将保持稳定;黄色(较低指数-3)的三联体,这将改变中下游稳定的上下;绿色(低指标-4)三联体,其中只有底部基底稳定,并且上部和中部变化;蓝色(较低指数-5)三联体,其中较低(母体)的基地发生变化,上部和中部稳定;蓝色(较低指数-6)三联体,具有可变的底部和顶部碱基以及稳定的中间碱基;紫色(低指数-7)三联体,具有较低和中等的可变基数和稳定的高基数;紫色(低指数-8)-所有可变基数。
构建的Pennett square在视觉上重复了谢尔宾斯基地毯,并说明了分子遗传系统与其一部分相吻合的元素的分形结构。换句话说,所提出的系统具有与其部分相同的结构。在这种情况下,谢尔宾斯基地毯矩阵产生哈达马尔矩阵,它决定了无噪声编码的特性。因此,所有生命水平的元素特征决定了分子遗传系统每个元素的独特性,其构建原理例如归因于主动用于信息的噪声免疫编码的沃尔什函数。
使用分形-矩阵,其中的每一部分都反映了整体-允许在各种生命水平形成分子遗传系统,使用原子,亚原子,氨基酸,蛋白质,进而进行构建(组织,器官,建筑物材料)。
从DNA到RNA的信息通过含氮碱基的转运序列转达,建立在它们相互之间互补的原则上。
多次重复在氮亚基的RNA矩阵上的操作,获得了相同系统的元件,其中碱基胸腺嘧啶(T)被尿嘧啶(U)取代-也是具有两个氢键的嘧啶碱基:
因而,以卦状形式(六边形)表示的DNA三元体系的二元体系对于RNA三联体系将是相同的。
类似地,来自RNA的序列信息的tRNA的运输含氮碱基对形成蛋白质的氨基酸。三联体RNA(和随后的所有矩阵尺寸为3的倍数)允许氨基酸积木系统由每个三联体(密码子)氨基根据现有表氨基酸的分类定义酸(https://ru.wikipedia.org/wiki/关联遗传密码)。64个密码子对应于20个氨基酸:Ala-丙氨酸,Arg-精氨酸,Asn-天冬酰胺,Asp-天门冬氨酸-,Cys-半胱氨酸,Gln-谷氨酰胺,Glu-谷氨酸,Gly-甘氨酸,His-组氨酸,Ile-异亮氨酸,Leu-亮氨酸,Lys-赖氨酸,Met-蛋氨酸,Phe-苯丙氨酸,Pro-脯氨酸,Ser-丝氨酸,Thr-苏氨酸,Trp-色氨酸,Tyr-酪氨酸,Val-缬氨酸。
除了第21个(硒代半胱氨酸)和第22个(吡咯里嗪)氨基酸之外,不仅可以使用标准遗传密码,还可以使用后者的已知变体。
基因中的密码子序列决定了该基因编码的蛋白质多肽链中的氨基酸序列。
根据所述规则构造,通过编码元件的已知方法将具有不同适当多重值的任何矩阵变换成序列(线性表示)。与其中每个元素存储关于其前一代的指示符的分层数据结构相比,这种指示符不用于线性表示中。在编码方法中,最常用和最有效的是勒贝格曲线(Z曲线)的应用和希尔伯特曲线的应用。希尔伯特曲线的优点是其连续性-相邻元素按顺序排列。Z曲线的优点是简单和计算速度快,所以它在实际中更经常使用。为了使用Z曲线对元素进行编码,使用了莫顿编码,其对于Z曲线通过移比特和混合每个坐标的二进制表示的比特来计算。
在图1中,展示了使用分子遗传系统,描绘了具有对应于该基质的每个元件的相应二元指数信息的DNA/RNA和氨基酸的三联体基质的可能实例之一,其中三联体系由64个独特的六角图组成,每个图的比特置归因于DNA/RNA的含氮碱基的特征。为了更好地理解编码系统的结构,矩阵的64个元素被分成八个元素,这些元素从系统中较不稳定的元素开始编号。该矩阵处于线性表示中,其中八个八比特字节中的每一个都按照连续顺序放置。
在用于信息编码的系统中,可以观察在检验的码组合中应用的数字表示,其或者与用于离散信号处理的噪声免疫编码中使用的Walsh函数的完全正交系统一致或者具有恒定值以检查系统结构的正确性。取决于编码所描述的方法应用/解码的信息不同的结构矩阵表示可被使用,其中阿达玛矩阵的基本属性:FFT=n1=N1,其中F-n矩阵元素-1和+1。此外,上述数值表示和阿达玛矩阵的性质在三元组系统的各种结构表示中得到满足:
1)在DNA,RNA和氨基酸的三重矩阵的二次矩阵表示中(图2);
2)在DNA,RNA和氨基酸的三联矩阵的矩形矩阵表示中(图3);
3)在DNA,RNA和氨基酸三联体碱基的圆形矩阵表示中(图4);
4)在DNA/RNA三联矩阵的三维(立方体)矩阵表示中(图5,5A);
5)在DNA的三联体矩阵时结构图树的形式中(图6,6A)。
而且,在这个例子中,在从二进制数系统的标准转换期间,形成从0到63的十进制数字中的含氮碱的数字名称。
还可以有颜色和声音表示,应用于编码相应的图像和声音序列。
例如,在线性表示F3中,64个三元组中的每一个的氢键数目从9变到6,朝向矩阵的第一个八比特字节减少(图7),在所有三元组中相同的八比特字节中氢的数目相同。总和氢键的值对于每个八比特字节是24或16行,并且与沃尔什函数的正交系统一致。线总和氢键的总数是相同的并且等于60。
在二次表示F3中,64个三联体中的每一个的氢键数目也从9变化到6,朝向矩阵的第一个八比特字节减少(图8)。在这种情况下,总和氢键的值对于每个八比特字节是逐行的,或者24或16也与沃尔什函数的正交系统重合。氢键总列的总数等于60。在圆形表示F3中,比特于圆的相对区段上的两个三元组的氢键数目等于和等于15(图4)。例如,第8个八比特字节的三元组中的9个氢键在相反的第1个八比特字节的三元组中的第6个氢键的总和中将给出15-t的值。
每个含氮碱具有不同的原子数,包括碳原子数(C),氢原子数(H),氮原子数(N),氧原子数(O):
基于原子数的三联体系统F3规律如图9所示。在将每个八位比特置的碳(C),氢(H),氮(N)和氧(O)的所有原子的所有值相加之后,该值将是116或120并且与正交系沃尔什函数。碳(C),氢(H),氮(N)和氧(O)在每条水平线上的原子总数是相同的并且等于944。
当考虑DNA(图10)的碳原子总数(C)在三联体的的线性表示中时,水平线中的原子总数为36或40,并且与正交沃尔什函数系统。而当考虑RNA(图11)的碳原子总数(C)在三联体的线性表示中时,每条水平线上的原子总数是相同的并且等于36。
当考虑DNA(图12)和RNA(图13)的氧原子总数(O)时三联体的线性表示中时,每条水平线中原子的总数是相同的,DNA与RNA都等于8。
同样,根据以下特征,可以在构建的系统中按照各种表示形式进行模式划分:
1.含氮碱基原子中的电子和质子密度的数量,特别是:碳(C),氢(H),氮(N)和氧(O)中的含氮原子的原子数;
2.含氮原子中的中子密度的量,包括碳(C),氢(H),氮(N)和氧(O)中的氮原子;
3.含碳原子(C),氢(H),氮(N)和氧(O)中氮原子的质子和中子密度之间的差值;
4.系统的每个元件都有自己的电荷“aMino”-(正电荷)或“Keto”-(负电荷)。腺嘌呤和胞嘧啶具有“氨基”的正电荷,而鸟嘌呤,鸟氨酸和尿嘧啶具有“酮”的负电荷
5.含氮原子的分子密度,包括碳(C),氢(H),氮(N)和氧(O)中的氮原子;
6.含氮碱基原子质子中夸克的密度,包括碳(C),氢(H),氮(N)和氧(O)中含氮碱基原子的质子;
7.含氮原子中子的夸克密度,包括在碳(C),氢(H),氮(N)和氧(O)中的含氮碱基原子的中子,;
8.含氮碱基原子质子和中子的夸克密度,包括碳(C),氢(H),氮(N)和氧(O)中含氮碱基原子的质子和中子;
9.含氮原子的电子价带的密度。
这样,通过另外使用上述特征中的至少一个,还可以获得与可以用于验证码组合的沃尔什函数一致的数字表示。由于根据它们的特征组合了含氮碱基,获得了独特(非重复)元素的结构体系,并得出了整个体系的特征。逻辑结构由上面揭示的特征证实。
在这个例子中,使用了主要的(常见的)含氮碱基,但是在实际实施中,可以使用次要的(罕见的)含氮碱基。在这种情况下,对应于某个主要碱基的每个次要碱基都具有用于构建分子遗传系统的相似特征。因此,在使用次要碱基的情况下,分子遗传系统的结构不会被破坏。主要与次要碱基的比较例如图14所示。通过综合使用主要和次要碱基,分子遗传系统的信息能力将增加。
目前,普遍通过X,Y和Z来指定DNA的5'-3'链上密码子中核苷酸的比特置,其中X是“前缀”,Y是“根”,Z是“结尾”。因此,这条链上的三联体将如下所示:
5'–X–Y–Z–3'.
反过来,上述3'-5'链上的互补三联体上将有一个记录:
3'–Z–Y–X–5'.
三联体可以表示为三个矢量的总和:
其中
–物理生化系统“三联体”(密码子)的载体;
–物理生化系统“三联体”(含氮碱基)的第一个元素,以单比特向量“前缀”的形式表示;
–物理生化系统“三联体”(含氮碱基)的第二个元素,以单比特矢量“根”的形式表示;
–物理生化系统“三联体”(含氮碱基)的第三个元素,以单比特向量“结束”的形式表示;
m–5'-3'链上三联体(或其元件)的序列号;
n–在5'-3'链上的三联体总数。
反过来,矢量“三联体”中的每个单个元素都可以分解为其组成元素并以复杂的形式书写:
其中
–;物理生化系统“三联体”(含氮碱基)的第一个元素,以单比特向量“前缀”的形式表示;
х–对应于Hb轴的复数的实部(氢键轴);
i–“前缀”元素的虚数单比特;
iх–与PP轴对应的复数的虚数部分(含氮碱基类的轴)。
一组单比特矢量可以表示在复平面的单比特圆上。类似地,表示三元组Y(“根”)和类型Z(“结束”)的元素。
因此,可以将三元组写入m比特置,由以下表达式表示: 其中
i,j,k–具有以下属性的虚构单比特:
以矩阵形式
由于从n到k重复的展示比特置的数量由以下公式计算:那么在三联体中收集的三个含氮碱基形成64个不同的密码子,这相当于对数记录:log464=3。
示例1.上述用于写入逻辑加法(ab)操作的控制比特的编码方法的实现,其中该规则应用于二进制加法模:如果操作数(a)和(b)两者都为“0”在所有其他情况下,结果是“1”:
对于三元相加(X,Y,Z)模2,应用规则:如果没有操作数等于“1”或它们的偶数,则结果为“0”,而在其他情况下结果为“0”:
这种记录方法是基于主要氮碱基(A,C,G,T,U)及其次要类似物分解三比特:
·氮基类别(嘌呤或嘧啶)的比特“p”;
·含氮碱基(2或3)处的氢键数量“h”;
·氮碱基(aMino或Keto)的比特“e”。
在这种情况下,前两个信息比特(“p”-嘌呤或嘧啶和“h”-氢键的数量)充当变量值,并且第三控制比特“e”作为逻辑运算的结果。
下表特征描述了用于实施记录逻辑元素的方法的含氮碱基的比特值的相关性,其中“p”是嘌呤或嘧啶类,“h”是氢键2或3的数目,“e”是Keto或aMino组。
从表中可以看出,可以使用单一的含氮碱基记录3比特信息(两个信息比特和一个控制比特),并且当使用三元组(密码子)形式的逻辑元件时,二元和三元相加模2被同时实现。
所以,在这个例子中,使用单一的含氮碱基,可以写入9比特信息(6个变量值和3个控制比特的信息比特)。
当比较等于8(000到111)的所得三重矢量e(ΣxΣyΣz)的布尔函数值的总数和所得三重矢量XYZ(ΣpΣhΣΣ)的值的总数等于4(000;011;101;110),获得氮碱基三联体记录中的比特值总数,如图16。
由于只有16个不同的组合可以获得64个三元组,所以可以“压缩”16组记录,而不是三元组,但使用双元组(见表2a和2b)。
表2а.
形成16个双键(每个有两个氮基)
表2b.形成16个双联体(根据它们在表2a中的比特置的双联体的编号)
为这一操作的结果,在三联体的氮碱基下安放一个比特置(表3),并且可以用它作为四种状态之一的控制值:G(11);C(01);A(10)和T(00)。
例如,
G(11)是粗体的符号
C(01)是用倾斜(斜体)字体选择的符号
A(10)-以下划线字体突出显示的符号
T(00)是一个正常字符
表3.所得载体(16组密码子)的值与三重态和双重态入口的比值
例2单词“МИР”的编码(不检查错误)
在图17中显示三联体DNA编码(RNA)与拉丁字母和俄文字母的符号值的对应关系。记录从5'端到3'端进行。在这个例子中,三个含氮碱基对应于一个逻辑元素。
代码组合可以以不同的方法示:
1)线性:
2)块(垂直):
3)块(横的):
“МИР”一词分为逻辑元素“М”,“И”,“Р”.。根据上述原理构建的每个元件被分配一个独特的字母符号,该符号是根据三元组分子遗传系统编制的(图17)。每个符号都与系统的一个元素相关联,并增加了索引信息。
然后,从加法函数模2的值确定代码组合:
由于使用含氮碱进行符号记录不涉及错误检查,事实上,氮的每一比特都有2比特信息。这样,对于“МИР.”一词,有9个氮碱基或18比特。
示例3在检查错误的情况下对单词“МИР”进行编码。和前面的例子一样,记录是从5'端到3'端进行的。在这个例子中,六个含氮碱基(X,Y,Z,X',Y',Z')对应于一个逻辑元素:3个氮碱基(X,Y,Z)用于记录信息,另外3个氮碱基X',Y',Z')用于记录控制(验证)码。
为了能够验证读取记录的正确性,应使用图16所示的数据,其中显示了所得载体的值及其16组密码子的三联体解释。
因此,根据以下算法来构建信息的编码:
1.编码信息阵列被分成逻辑完整片段:在这个例子中,该单词被分成字母;
2.根据图17,每个片段被分配三联体DNA编码(RNA)5'-XYZ-3'。并且数据比特的代码组合(编码含氮碱基的特定特征的变量值)以矩阵的形式排列。。
3.对于信息比特的每个码组合,加入控制比特,这些比特是信息比特的二进制加模2码字的结果值,用于信息比特的三进制加模2码字以及总和(检查检查)。
4.将控制比特与三元组5'-X'Y'Z'-3'(图16)相匹配,并且形成二进制和三进制加法和最终检查(和的总和)的校验比特的序列。
5.形成由主要(5'-XYZ-3')和辅助三联体(5'-X'Y'Z'-3')组成的六个氮碱基符号的最终记录:
为了表示所提出的方法的抗噪声性,其允许最小化由于错误导致的信息数据损失,应使用错误检测法。错误检测最常用的方法之一是奇偶校验方法,该方法是根据码字形成的信息矩阵比特的行和列执行的-例4.如果偶数个单元,然后加上“0”,如果奇数,则“1”。一起完成行和列的奇偶校验。
如果所有的检查都是“0”,那么组合是正确的。如果有错误,检查结果会检测到“1”。在发现测试“1”的行列的交点处,存在错误的放电。
“МИР(世界)”一词编码的能力可以检查错误,并按顺序显示:
信息和控制比特矩阵以及奇偶校验矩阵如下:
示例4描述了使用含氮碱基(具有符号的4个状态并基于矩阵码检查错误)记录符号的方法。一个逻辑元素与含有15比特信息的六个含氮碱基(X,Y,Z,X',Y',Z')相关,其中有3个含氮碱基(X,Y,Z)用于记录信息并含有9比特,含有4比特信息并用于记录校验码的2个含氮碱基(X',Y'),以及含有2比特并用于控制代码的一个含氮碱基(Z')。
这里记录的信息密度是15比特/6个含氮碱基,因此每个含氮碱基为2.5比特。
代码信息和验证算法也形成了,如例3所示。这个例子的特点是用双代码而不是三元代码生成验证值(图16)。结果,一个含氮碱基(Z')被释放到用于辅助信息的控制码中。
例如,含氮碱基(Z')上的控制代码可以如在实施例1中那样编码如下:
G(11)是粗体的符号
C(01)是用倾斜(斜体)字体选择的符号
A(10)-以下划线字体突出显示的符号
T(00)是文本中的正常字符。
因此,“МИР”这个词可以用错误检查的可能性和用特殊字体写的可能性(在这个例子中使用了斜体)。
通过所描述的方法的信息被记录下来,并分解成短的DNA片段,其还记录有关的信息通路的开始和结束的信息进行编码。一个核苷酸在氢键和碱数水平上编码至少两个数据比特。当记录信息时,通过喷墨DNA打印机从各个核苷酸合成区段。这些片段应通过测序设备初步扩增和鉴定,如,IlluminaHiSeq。每个块的地址的存在可以在短核苷酸序列的混合物,而不是DNA的单链的形式存储信息。该方法允许存储几乎无限量的信息。为了阅读DNA的合成片段,可以使用已知的测序技术和基于建议的分子遗传系统用于将遗传密码翻译回二进制数据的专用软件。
上述分子遗传系统也应用于信息的解码。为了解码的目的,机器可读信息应该被分成由i+k+m个零组成的相等部分,以及将被解码的信息的逻辑完整块的索引;这些部分应由i个数据比特,k个校验比特和m个控制比特组成。然后每个部分应该被分配一个由n个含氮碱基组成的多重态,并且是分子遗传系统的一个元素,由此确定的一个逻辑完整的片段可解码信息序列。
因此,当采用方矩阵形式的分子遗传系统编码和解码信息的建议方法时,根据核苷酸的含氮碱基的特征进行构建,可以达到该要求保护的技术所述结果——在没有大量信息失真和改变的情况下操作,并且确保数字信号被编码和解码,使得它在通过软件工具转达时仍然不受噪声的影响。

Claims (35)

1.信息编码的方法,编码信息阵列被分成逻辑的完整片段,每个片段被置于对应关系中,至少用于编码一个分子遗传系统的元件;系统中的元素组由i个数据比特组成的相关索引信息进行补充;数据比特的每个代码组合应补充由基于i个数据比特的组合所定义的k个校验比特的组合;其特征在于:以基数的二进制形式的每个i+k比特信息以多重态的形式写入,由n个含氮碱基或其相应的氨基酸组成并且是分子遗传系统的元件;由以四个含氮碱基质形式制成的矩阵组成,根据氢键的数量和氮含量分子结构中含有的稠环数量分组;通过将每个前一代矩阵的张量多次提高到第二次幂来预先形成矩阵,以便获得下一代矩阵;形成i个数据比特的系统二进制索引对应于含氮碱基的选定特征;与编码信息一起记录n的值,用于编码的矩阵的大小取决于该值、以及关于矩阵转换为序列的所选方法以及其读取顺序的信息。
2.根据权利要求1所述的信息编码的方法,其特征在于:要以二进制形式编码的信息,包括每个多重态的二进制索引。
3.根据权利要求1所述的信息编码的方法,其特征在于:待编码的信息应排列为含氮碱基序列。
4.根据权利要求1所述的信息编码的方法,其特征在于:要对于i数据比特的每个编码组合,根据i和k比特的组合确定m个控制比特的组合。
5.根据权利要求1所述的信息编码的方法,其特征在于:基于分子遗传系统矩阵中每个多重态的位置,人们可以评估细胞遗传系统的隐性或显性性状对应的逻辑上完整的信息块。
6.根据权利要求1所述的信息编码的方法,其特征在于:含氮碱基的顺序应该被分成逻辑完整的块,其中关于块的开始和结束的信息的信息被编码。
7.根据权利要求3所述的信息编码的方法,其特征在于:待编码的信息应该被排列为在DNA水平上编码的含氮碱基序列。
8.根据权利要求3所述的信息编码的方法,其特征在于:待编码的信息应该被排列为将在RNA级别上编码的含氮碱基的序列。
9.根据权利要求3所述的信息编码的方法,其特征在于:待编码的信息应该被排列为氨基酸序列。
10.根据权利要求3所述的信息编码的方法,其特征在于:要被编码的信息应该被排列为在蛋白质级别上被编码的含氮碱基序列。
11.根据权利要求1所述的信息编码的方法,其特征在于:分子遗传系统具有线性矩阵表示。
12.根据权利要求1所述的信息编码的方法,其特征在于:分子遗传系统具有方形矩阵表示。
13.根据权利要求1所述的信息编码的方法,其特征在于:分子遗传系统具有矩形矩阵表示。
14.根据权利要求1所述的信息编码的方法,其特征在于:分子遗传系统具有圆形矩阵表示。
15.根据权利要求1所述的信息编码的方法,其特征在于:分子遗传系统具有三维矩阵表示。
16.根据权利要求1所述的信息编码的方法,其特征在于:分子遗传系统具有树形结构矩阵表示。
17.根据权利要求1所述的信息编码的方法,其特征在于:分子遗传系统的二元指数对应于DNA的含氮碱基的选定特征。
18.根据权利要求1所述的信息编码的方法,其特征在于:分子遗传系统的二元指数对应于RNA的含氮碱基的选定特征。
19.根据权利要求1或18所述的信息编码的方法,其特征在于:分子遗传系统的二元指数对应于氨基酸的含氮碱基的选定特征。
20.根据权利要求1所述的信息编码的方法,其特征在于:分子遗传系统的二元指数对应于形成遗传和显性性状的含氮碱基的选定特征水平。
21.根据权利要求1所述的信息编码的方法,其特征在于:由获得的含氮碱基序列形成并含有被编码信息的合成DNA被置于存储介质中。
22.根据权利要求1所述的信息编码的方法,将由获得的含氮碱基序列形成并含有被编码信息的合成DNA置于用于逻辑和数学的介质中计算;根据哪个信息解码的方法机器可读序列被分成逻辑完整的待解码信息块;块应包括i个数据比特和k个校验比特的组合;每个逻辑上完整的信息块应被分配至少一个由n个含氮碱基或相应氨基酸组成的多重态,并且是用于解码的分子遗传系统的元件,其特征在于:分子遗传系统由代表四氮基基质的碱基组成;含氮碱基按照含氮碱基分子结构中的氢键数目和稠环数目分组;通过将每个前一代矩阵的张量多次提高到第二次幂来预先形成矩阵,以便获得下一代矩阵;构成第i个数据比特的系统二进制索引对应于t的选定特征。
23.信息解码的方法,机器可读序列被分成逻辑完整的待解码信息块;块应包括i个数据比特和k个校验比特的组合;每个逻辑上完整的信息块应被分配至少一个由n个含氮碱基或相应氨基酸组成的多重态,并且是用于解码的分子遗传系统的元件;其特征在于:分子遗传系统由代表四个含氮碱基组成;含氮碱基按照含氮碱基分子结构中的氢键数目和稠环数目分组;通过将每个前一代矩阵的张量多次提高到第二次幂来预先形成矩阵,以便获得下一代矩阵;形成第i个数据比特的系统二进制索引对应于含氮碱基的选定特征,并且形成k个校验比特的索引应基于第i个数据比特的组合来定义。
24.根据权利要求23所述的信息解码的方法,其特征在于:由待解码的逻辑完整信息块组成的机器可读序列的离散部分包括m个控制比特和形成m个控制比特的索引是基于i个数据比特的组合来定义的。
25.根据权利要求23所述的信息解码的方法,其特征在于:基于分子遗传系统矩阵中的每个多重态的位置,可以评估隐性或显性特征对应的逻辑上完整的信息块。
26.根据权利要求23所述的信息解码的方法,其特征在于:分子遗传系统具有线性矩阵表示。
27.根据权利要求23所述的信息解码的方法,其特征在于:分子遗传系统具有方形矩阵表示。
28.根据权利要求23所述的信息解码的方法,其特征在于:分子遗传系统具有矩形矩阵表示。
29.根据权利要求23所述的信息解码的方法,其特征在于:分子遗传系统具有圆形矩阵表示。
30.根据权利要求23所述的信息解码的方法,其特征在于:分子遗传系统具有三维矩阵表示。
31.根据权利要求23所述的信息解码的方法,其特征在于:分子遗传系统具有树结构矩阵表示。
32.根据权利要求23所述的信息解码的方法,其特征在于:分子遗传系统的二元索引对应于DNA的含氮碱基的选定特征。
33.根据权利要求23所述的信息解码的方法,其特征在于:分子遗传系统的二元指数对应于RNA的含氮碱基的选定特征。
34.根据权利要求23或33所述的信息解码的方法,其特征在于:分子遗传系统的二元指数对应于氨基酸的含氮碱基的选定特征。
35.根据权利要求23所述的信息解码的方法,其特征在于:分子遗传系统的二元指数对应于形成遗传和显性性状的含氮碱基的选定特征水平。
CN201810615395.4A 2017-06-14 2018-06-14 信息编码和信息解码的方法 Pending CN109086890A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RURU2017120555 2017-06-14
RU2017120555A RU2659025C1 (ru) 2017-06-14 2017-06-14 Способы кодирования и декодирования информации

Publications (1)

Publication Number Publication Date
CN109086890A true CN109086890A (zh) 2018-12-25

Family

ID=62684614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810615395.4A Pending CN109086890A (zh) 2017-06-14 2018-06-14 信息编码和信息解码的方法

Country Status (12)

Country Link
US (1) US20180365276A1 (zh)
EP (1) EP3416076A1 (zh)
JP (1) JP2019009776A (zh)
KR (2) KR102269463B1 (zh)
CN (1) CN109086890A (zh)
AU (1) AU2018204252B2 (zh)
CA (1) CA3008070A1 (zh)
IL (1) IL259907A (zh)
RU (1) RU2659025C1 (zh)
TW (1) TWI673604B (zh)
WO (1) WO2018231100A1 (zh)
ZA (1) ZA201803894B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288089A (zh) * 2020-09-28 2021-01-29 清华大学 阵列式核酸信息存储方法及装置
CN112687338A (zh) * 2020-12-31 2021-04-20 云舟生物科技(广州)有限公司 基因序列的存储和还原方法、计算机存储介质及电子设备

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020123002A2 (en) * 2018-09-15 2020-06-18 Tahereh Karimi Molecular encoding and computing methods and systems therefor
RU2756641C2 (ru) * 2019-10-29 2021-10-04 Хиллол Дас Способ сохранения информации с использованием ДНК и устройство хранения информации
RU2747625C1 (ru) * 2020-04-28 2021-05-11 Федеральное государственное бюджетное учреждение высшего образования «Тамбовский государственный технический университет» (ФГБОУ ВО «ТГТУ») Способ совместного сжатия и шифрования данных при геномном выравнивании
CN112288090B (zh) * 2020-10-22 2022-07-12 中国科学院深圳先进技术研究院 存有数据信息的dna序列的处理方法及装置
CN112711935B (zh) * 2020-12-11 2023-04-18 中国科学院深圳先进技术研究院 编码方法、解码方法、装置及计算机可读存储介质
CN113315623B (zh) * 2021-05-21 2023-01-24 广州大学 一种dna存储的对称加密方法
US20230222313A1 (en) * 2022-01-12 2023-07-13 Dell Products L.P. Polysaccharide archival storage
CN115396092B (zh) * 2022-08-26 2023-09-12 河南天一智能信息有限公司 一种智能心功能治疗系统的数据管理方法
CN116092575A (zh) * 2023-02-03 2023-05-09 中国科学院地理科学与资源研究所 基于gmns法则的g-dna结构判别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020001804A1 (en) * 2000-02-25 2002-01-03 Wayne Mitchell Genomic analysis of tRNA gene sets
JP2005080523A (ja) * 2003-09-05 2005-03-31 Sony Corp 生体遺伝子に導入するdna、遺伝子導入ベクター、細胞、生体遺伝子への情報導入方法、情報処理装置および方法、記録媒体、並びにプログラム
CN1791875A (zh) * 2003-05-29 2006-06-21 独立行政法人产业技术综合研究所 作为信息载体的dna代码的设计方法
CN101061221A (zh) * 2004-09-17 2007-10-24 普罗美加公司 合成核酸分子及制备方法
CN101847145A (zh) * 2009-03-23 2010-09-29 北京大学 一种基于dna计算模型的拉蒙赛图的获取方法和系统
CN103853935A (zh) * 2012-12-07 2014-06-11 万继华 一种用0和1两个信号编译基因信息的数字处理方法
CN105061589A (zh) * 2015-08-26 2015-11-18 华南理工大学 一种重组人ⅰ型胶原蛋白及其固定化发酵生产的方法
CN106055927A (zh) * 2016-05-31 2016-10-26 广州麦仑信息科技有限公司 mRNA信息的二进制存储方法
WO2017085245A1 (en) * 2015-11-18 2017-05-26 Technische Universität Hamburg-Harburg Methods for encoding and decoding a binary string and system therefore

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2395874C (en) * 1999-05-06 2011-09-20 Frank Carter Bancroft Dna-based steganography
US20050053968A1 (en) * 2003-03-31 2005-03-10 Council Of Scientific And Industrial Research Method for storing information in DNA
WO2006030993A1 (en) * 2004-09-14 2006-03-23 Jin-Ho Choy Information code system using dna sequences
JP2008529538A (ja) * 2005-02-16 2008-08-07 ジェネティック テクノロジーズ リミテッド 相補性デュプリコンの増幅を含む遺伝子分析方法
JP4978625B2 (ja) * 2006-05-12 2012-07-18 日本電気株式会社 誤り訂正符号化方法及び装置
US20100323348A1 (en) * 2009-01-31 2010-12-23 The Regents Of The University Of Colorado, A Body Corporate Methods and Compositions for Using Error-Detecting and/or Error-Correcting Barcodes in Nucleic Acid Amplification Process
KR101188886B1 (ko) * 2010-10-22 2012-10-09 삼성에스디에스 주식회사 유전 정보 관리 시스템 및 방법
JP2015529864A (ja) * 2012-06-01 2015-10-08 ヨーロピアン モレキュラー バイオロジー ラボラトリーEuropean Molecular Biology Laboratory Dnaでのデジタル情報の高容量記憶
WO2014025056A1 (en) * 2012-08-07 2014-02-13 Hitachi Zosen Corporation Method of encryption and decryption using nucleic acid
US8972826B2 (en) * 2012-10-24 2015-03-03 Western Digital Technologies, Inc. Adaptive error correction codes for data storage systems
JP6612220B2 (ja) * 2013-10-07 2019-11-27 ザ ユニバーシティ オブ ノース カロライナ アット チャペル ヒル 核酸における化学修飾の検出
KR20150092585A (ko) * 2014-02-05 2015-08-13 한국전자통신연구원 이진 영상에 기반한 유전체 데이터 압축 방법 및 장치
WO2015144858A1 (en) * 2014-03-28 2015-10-01 Thomson Licensing Methods for storing and reading digital data on a set of dna strands
CN105022935A (zh) * 2014-04-22 2015-11-04 中国科学院青岛生物能源与过程研究所 一种利用dna进行信息存储的编码方法和解码方法
CN104850760B (zh) * 2015-03-27 2016-12-21 苏州泓迅生物科技有限公司 人工合成dna存储介质的信息存储读取方法
US10566077B1 (en) * 2015-11-19 2020-02-18 The Board Of Trustees Of The University Of Illinois Re-writable DNA-based digital storage with random access

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020001804A1 (en) * 2000-02-25 2002-01-03 Wayne Mitchell Genomic analysis of tRNA gene sets
CN1791875A (zh) * 2003-05-29 2006-06-21 独立行政法人产业技术综合研究所 作为信息载体的dna代码的设计方法
JP2005080523A (ja) * 2003-09-05 2005-03-31 Sony Corp 生体遺伝子に導入するdna、遺伝子導入ベクター、細胞、生体遺伝子への情報導入方法、情報処理装置および方法、記録媒体、並びにプログラム
CN101061221A (zh) * 2004-09-17 2007-10-24 普罗美加公司 合成核酸分子及制备方法
CN101847145A (zh) * 2009-03-23 2010-09-29 北京大学 一种基于dna计算模型的拉蒙赛图的获取方法和系统
CN103853935A (zh) * 2012-12-07 2014-06-11 万继华 一种用0和1两个信号编译基因信息的数字处理方法
CN105061589A (zh) * 2015-08-26 2015-11-18 华南理工大学 一种重组人ⅰ型胶原蛋白及其固定化发酵生产的方法
WO2017085245A1 (en) * 2015-11-18 2017-05-26 Technische Universität Hamburg-Harburg Methods for encoding and decoding a binary string and system therefore
CN106055927A (zh) * 2016-05-31 2016-10-26 广州麦仑信息科技有限公司 mRNA信息的二进制存储方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288089A (zh) * 2020-09-28 2021-01-29 清华大学 阵列式核酸信息存储方法及装置
CN112288089B (zh) * 2020-09-28 2022-12-20 清华大学 阵列式核酸信息存储方法及装置
CN112687338A (zh) * 2020-12-31 2021-04-20 云舟生物科技(广州)有限公司 基因序列的存储和还原方法、计算机存储介质及电子设备
CN112687338B (zh) * 2020-12-31 2022-01-11 云舟生物科技(广州)有限公司 基因序列的存储和还原方法、计算机存储介质及电子设备

Also Published As

Publication number Publication date
CA3008070A1 (en) 2018-12-14
WO2018231100A1 (ru) 2018-12-20
US20180365276A1 (en) 2018-12-20
TW201905691A (zh) 2019-02-01
RU2659025C1 (ru) 2018-06-26
KR102269463B1 (ko) 2021-06-29
ZA201803894B (en) 2019-03-27
AU2018204252A1 (en) 2019-01-17
JP2019009776A (ja) 2019-01-17
KR20180136407A (ko) 2018-12-24
AU2018204252B2 (en) 2019-11-07
TWI673604B (zh) 2019-10-01
EP3416076A1 (en) 2018-12-19
KR20200014926A (ko) 2020-02-11
IL259907A (en) 2018-07-31

Similar Documents

Publication Publication Date Title
CN109086890A (zh) 信息编码和信息解码的方法
CN104520864B (zh) Dna中数字信息的高容量存储
Bornholt et al. A DNA-based archival storage system
Gonzalez et al. Circular codes revisited: a statistical approach
WO2004107243A1 (ja) 情報担体としてのdna符号の設計方法
Wang et al. Hidden addressing encoding for DNA storage
CN110569974A (zh) 可包含人造碱基的dna存储分层表示与交织编码方法
Gonzalez et al. Strong short-range correlations and dichotomic codon classes in coding DNA sequences
Chakraborty et al. Image steganography using DNA sequence and sudoku solution matrix
Golomb Efficient coding for the desoxyribonucleic channel
Kashiwamura et al. Potential for enlarging DNA memory: the validity of experimental operations of scaled-up nested primer molecular memory
Jarrett Science & Resources: Prospects and Implications of Technological Advance
CN102453751A (zh) Dna测序仪短序列回贴基因组方法
Jain et al. An information security-based literature survey and classification framework of data storage in DNA
Babatunde Deoxyribonucleic acid (DNA) as a hypothetical information hiding medium: DNA mimics basic information security protocol
CN105488569B (zh) 基于改进pcr计算模型求解最大团问题的方法
Wang Coding for DNA data storage
Najadat et al. Genetic Algorithm Solution of the Knapsack Problem Used in Finding Full Issues in the Holy Quran Based on the Number (19).
Wei Enlarge Practical DNA Storage Capacity: The Challenge and The Methodology
Wang et al. DNA Digital Data Storage based on Distributed Method
Meiser Advancing Information Technology Using Synthetic DNA as an Alternative to Electronic-Based Media
CN116595948A (zh) 一种基于(7,4)汉明码的信息嵌入及提取方法
Beck A forensics software toolkit for DNA steganalysis.
Bouaynaya Analysis of proteomics and genomics based on signal processing and communication theory
CN118132510A (zh) 一种dna信息存储的编解码方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181225

WD01 Invention patent application deemed withdrawn after publication