CN106055927A - mRNA信息的二进制存储方法 - Google Patents

mRNA信息的二进制存储方法 Download PDF

Info

Publication number
CN106055927A
CN106055927A CN201610383223.XA CN201610383223A CN106055927A CN 106055927 A CN106055927 A CN 106055927A CN 201610383223 A CN201610383223 A CN 201610383223A CN 106055927 A CN106055927 A CN 106055927A
Authority
CN
China
Prior art keywords
binary
mrna
codon
base
kinds
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610383223.XA
Other languages
English (en)
Other versions
CN106055927B (zh
Inventor
谢清禄
徐宏锴
朱军
余孟春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shizhen Information Technology Co Ltd
Original Assignee
Guangzhou Shizhen Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shizhen Information Technology Co Ltd filed Critical Guangzhou Shizhen Information Technology Co Ltd
Priority to CN201610383223.XA priority Critical patent/CN106055927B/zh
Publication of CN106055927A publication Critical patent/CN106055927A/zh
Application granted granted Critical
Publication of CN106055927B publication Critical patent/CN106055927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Abstract

本发明提供一种mRNA测序后数据信息的二进制表示的存储方法,是涉及生物信息的数据存储的处理技术。该方法将mRNA的四种碱基以字符A、U、G、C表示;将四种碱基利用计算机二进制方法,对每一个碱基进行数值定义并用两位二进制数来表示;密码子由mRNA上的三个相邻碱基组成,密码子通过两位代表法转换之后生成了一个6位的二进制数值,并且可以将这个6位数据存储到一个字节(8位)的高位或低位,剩余的2位数值可用00,01,10,11作为固定值来填充;碱基共有四种组合,所以每个密码子有4^3=64种组合方式。对mRNA的64种密码子进行重新编码,通过mRNA的二进制表示和mRNA信息映射转换都可以将mRNA序列信息存储在一个具有随机存取格式的二进制文件当中。

Description

mRNA信息的二进制存储方法
技术领域
本发明涉及生物信息领域,涉及基因测序后数据存储的处理技术,是一种将mRNA信息进行二进制表示的存储方法。
背景技术
高通量基因测序技术的成熟与普及,使得基因检测的成本也逐渐降低,测序时间更快,而随着最新的更高通量、更快、成本更低的基因测序技术的研发与商业化,基因测序业已走进个人基因检测的商业化模式。然而,基因检测所得的数据是海量的,在测序输出的数据存储格式上,一般以SAM(Sequence Alignment Map)/BAM(Binary Alignment Map)格式存储能够紧凑的表示出核苷酸序列。这种传统格式存储不但占用巨大的存储空间,而且不利于对基因数据进行进一步的分析(如人工智能的数据挖掘)。
发明内容
本发明旨在提供一种mRNA测序后数据信息的二进制表示的存储方法。
关于mRNA信息的二进制存储方法,其特征在于,所述的方法包括:根据mRNA单链结构及其与DNA碱基互补配对原则,由字符代表mRNA中的碱基;将四种碱基进行数值定义并用两位二进制数来表示;三个相邻的碱基组成的密码子以6位二进制数值和2位固定赋值组成一个8位的二进制数值表示;以线性映射的方式,将64种密码子0~63根据Y=4X、或Y=4X+1、或Y=4X+2、或Y=4X+3的公式均匀映射到0~255中,并将0~255所有数值转换为8位二进制数,以二进制字节流形式的数据信息进行存储。
作为本发明的进一步技术方案:用字符代表mRNA中由DNA一条单链模板转录并匹配的碱基,根据碱基的固定配对,由字符A,U,G,C组成的字符文件,其中每一个字符代表一个碱基,表示方式如下所示:
A:腺嘌呤;U:尿嘧啶;G:鸟嘌呤;C:胞嘧啶
作为本发明的进一步技术方案:将四种碱基进行数值定义并用两位二进制数来表示,A、U、G、C四种碱基,利用计算机二进制方法,分别用2位的二进制数值来表示,可以有24种组合的表示方法,举例组合如下:
A=00、U=01、G=10、C=11。
作为本发明的进一步技术方案:密码子的8位二进制数值表示方法:三个相邻的碱基组成的密码子以6位二进制数值和2位固定赋值组成一个8位的二进制数值来表示。2位的固定赋值可以用00、01、10、11作为固定值来填充表示;以高位固定赋值是11,由碱基A、U、G组合成的密码子其两位二进制数表示分别是00、01、10为例,由碱基A、U、G组成的密码子的二进制表示为:AUG=11000110。
作为本发明的进一步技术方案:以线性映射的方式,将64种密码子进行数值映射并转换成8位二进制数值,根据线性映射的方式,将赋值之后的64种密码子0~63根据Y=4X、或Y=4X+1、或Y=4X+2、或Y=4X+3的公式均匀映射到0~255中,并将0~255所有数值转换为8位二进制数;通过该赋值与映射的方式,每一个密码子即可得到一个固定的8位二进制数,所有密码子组合在一起便形成二进制字节流,得到与mRNA信息两位代表转换法转换之后同样形式的二进制字节流。
附图说明
图1是字符与碱基对应的关系图。
具体实施例
参见说明书附图1:
mRNA(Messenger Ribonucleic Acid),即信使核糖核酸,由DNA的一条链作为模板转录而来,携带遗传信息的能指导蛋白质合成的一类单链核糖核酸。(成分为:核糖、磷酸及四种含氮碱基)组成。RNA是核糖核苷酸聚合而成的没有分支的长链。分子量比DNA小,但在大多数细胞中比DNA丰富。RNA与DNA最重要的区别一是RNA只有一条单链,二是它的碱基组成与DNA的不同,RNA没有碱基胸腺嘧啶(thymine,缩写为T),而有碱基尿嘧啶(uracil,缩写为U)。RNA主要分为3类,即信使RNA(mRNA),核糖体RNA(rRNA)和转移RNA(tRNA)。mRNA是合成蛋白质的模板,内容按照细胞核中的DNA所转录。mRNA中决定蛋白质多样性的是四种碱基:腺嘌呤(adenine,缩写为A)、尿嘧啶(uracil,缩写为U)、胞嘧啶(cytosine,缩写为C)和鸟嘌呤(guanine,缩写为G)的排列顺序不同。利用基因测序技术,可检测mRNA上的四种碱基排列顺序的数据信息,将四种碱基排列顺序以二进制的形式表示并进行存储,从而减少存储空间的使用,也方便读取分析基因信息,为基因信息的大数据挖掘、人工智能数据分析创造良好的应用基础。
mRNA是由DNA通过碱基互补配对的方式转录过来的单链结构。因为组成mRNA的碱基上没有T(胸腺嘧啶),代之的为U(尿嘧啶),因此当DNA单链模板上出现A(腺嘌呤)时,转录中由组成mRNA的碱基U(尿嘧啶)与之配对。
A:腺嘌呤;U:尿嘧啶;G:鸟嘌呤;C:胞嘧啶
DNA单链模板上转录mRNA的碱基配对示例:
T A C G A A C T G C T A...DNA单链模板
A U G C U U G A C G A U...mRNA单链
mRNA单链上的每三个相邻的碱基组成一个密码子,在蛋白质合成时,代表某一种氨基酸。如AUG、CUU、GAC、GAU等。
可以利用计算机二进制方法,对每一个碱基进行数值定义并用两位二进制数来表示。所有二进制组合方式如下表:
mRNA上每三个相邻碱基组成一个密码子,每个密码子对应一个氨基酸。密码子通过两位代表法转换之后生成了一个6位的二进制数值,并且可以将这个6位数据存储到一个字节(8位)的高位或低位,剩余的2位数值可用00,01,10,11作为固定值来填充。以高位固定赋值是11,由三个碱基A、U、G组合成的密码子其两位二进制数表示分别是00、01、10为例,因此由三个碱基A、U、G组成的密码子的二进制表示为AUG=11000110。
每个密码子都是可以用一个8位二进制数(一个字节)来表示。当所有密码子都使用二进制数表示之后,即得到一个新的由二进制数字节流表示的mRNA信息,再利用字节流图像表示的方式便可得到一个mRNA信息转化而成的可视化图像,通过这种方式可以对mRNA进行更加直观的研究与分析,并且在存储上节省了大量的存储空间。
每个密码子由三个碱基组成,碱基共有四种组合,所以每个密码子有4^3=64种组合方式。对mRNA的64种密码子进行重新编码,将64种密码子赋予0-63的编号,然后通过线性映射或可选阀值映射的方式映射到0~255的范围,从而得到一个新的字节流。密码子编号如下表所示:
密码子 编码 密码子 编码 密码子 编码 密码子 编码
AAA 0 UAA 16 GAA 32 CAA 48
AAU 1 UAU 17 GAU 33 CAU 49
AAG 2 UAG 18 GAG 34 CAG 50
AAC 3 UAC 19 GAC 35 CAC 51
AUA 4 UUA 20 GUA 36 CUA 52
AUU 5 UUU 21 GUU 37 CUU 53
AUG 6 UUG 22 GUG 38 CUG 54
AUC 7 UUC 23 GUC 39 CUC 55
AGA 8 UGA 24 GGA 40 CGA 56
AGU 9 UGU 25 GGU 41 CGU 57
AGG 10 UGG 26 GGG 42 CGG 58
AGC 11 UGC 27 GGC 43 CGC 59
ACA 12 UCA 28 GCA 44 CCA 60
ACU 13 UCU 29 GCU 45 CCU 61
ACG 14 UCG 30 GCG 46 CCG 62
ACC 15 UCC 31 GCC 47 CCC 63
线性映射可以有四种方式:Y=4X、或Y=4X+1、或Y=4X+2、或Y=4X+3,根据线性映射的方式,将赋值之后的64种密码子以Y=4X、或Y=4X+1、或Y=4X+2、或Y=4X+3的公式均匀映射到0~255中,并将0~255所有数值转换为8位二进制数,通过该赋值与映射的方式,
每一个密码子即可得到一个固定的8位二进制数,所有密码子的组合在一起便形成二进制字节流,得到与基因信息两位代表转换法转换之后同样形式的字节流。以映射公式Y=4X+1为例,映射结果如下表:
通过mRNA的二进制表示和mRNA信息映射转换都可以将mRNA序列信息存储在一个具有随机存取格式的二进制文件当中。文件可包含mRNA信息以及需要隐藏的信息。
利用数据赋值、两位二进制数表示,对密码子进行重新编码,编码之后形成的便是字节流形式的mRNA数据信息,这种数据可以通过字节流图像表示的方式对mRNA信息进行可视化转换,也可以进行以机器学习的算法进行数据挖掘。
与现有技术相比,本发明提供了一种全新的mRNA数据的存储模式,通过把生物mRNA的四种碱基(A,U,G,C)转换成二进制形式。在缩小了存储空间的同时能更加便捷的读取分析mRNA信息。

Claims (5)

1.关于mRNA信息的二进制存储方法,其特征在于,所述的方法包括:
根据mRNA单链结构及其与DNA碱基互补配对原则,由字符代表mRNA中的碱基;
将四种碱基进行数值定义并用两位二进制数来表示;
三个相邻的碱基组成的密码子以6位二进制数值和2位固定赋值组成一个8位的二进制数值表示;
以线性映射的方式,将64种密码子0~63根据Y=4X、或Y=4X+1、或Y=4X+2、或Y=4X+3的公式均匀映射到0~255中,并将0~255所有数值转换为8位二进制数,以二进制字节流形式的数据信息进行存储。
2.根据权利要求1所述的关于mRNA信息的二进制存储方法,用字符代表mRNA中由DNA一条单链模板转录并匹配的碱基,其特征在于:根据碱基的固定配对,由字符A,U,G,C组成的字符文件,其中每一个字符代表一个碱基,表示方式如下所示:
A:腺嘌呤;U:尿嘧啶;G:鸟嘌呤;C:胞嘧啶。
3.根据权利要求1所述的关于mRNA信息的二进制存储方法,将四种碱基进行数值定义并用两位二进制数来表示,其特征在于:A、U、G、C四种碱基,利用计算机二进制方法,分别用2位的二进制数值来表示,可以有24种组合的表示方法,举例组合如下:
A=00、U=01、G=10、C=11。
4.根据权利要求1所述的关于mRNA信息的二进制存储方法,密码子的8位二进制数值表示方法,其特征在于:三个相邻的碱基组成的密码子以6位二进制数值和2位固定赋值组成一个8位的二进制数值来表示;2位的固定赋值可以用00、01、10、11作为固定值来填充表示;以高位固定赋值是11,由碱基A、U、G组合成的密码子其两位二进制数表示分别是00、01、10为例,由碱基A、U、G组成的密码子的二进制表示为:AUG=11000110。
5.根据权利要求1所述的关于mRNA信息的二进制存储方法,以线性映射的方式,将64种密码子进行数值映射并转换成8位二进制数值,其特征在于:根据线性映射的方式,将赋值之后的64种密码子0~63根据Y=4X、或Y=4X+1、或Y=4X+2、或Y=4X+3的公式均匀映射到0~255中,并将0~255所有数值转换为8位二进制数;通过该赋值与映射的方式,每一个密码子即可得到一个固定的8位二进制数,所有密码子组合在一起便形成二进制字节流,得到与mRNA信息两位代表转换法转换之后同样形式的二进制字节流。
CN201610383223.XA 2016-05-31 2016-05-31 mRNA信息的二进制存储方法 Active CN106055927B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610383223.XA CN106055927B (zh) 2016-05-31 2016-05-31 mRNA信息的二进制存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610383223.XA CN106055927B (zh) 2016-05-31 2016-05-31 mRNA信息的二进制存储方法

Publications (2)

Publication Number Publication Date
CN106055927A true CN106055927A (zh) 2016-10-26
CN106055927B CN106055927B (zh) 2018-08-17

Family

ID=57172710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610383223.XA Active CN106055927B (zh) 2016-05-31 2016-05-31 mRNA信息的二进制存储方法

Country Status (1)

Country Link
CN (1) CN106055927B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845158A (zh) * 2017-02-17 2017-06-13 苏州泓迅生物科技股份有限公司 一种利用dna进行信息存储的方法
CN108018607A (zh) * 2016-10-28 2018-05-11 深圳华大基因股份有限公司 一种提升测序平台文库拆分率的标签序列混库方法和装置
CN108932401A (zh) * 2018-06-07 2018-12-04 江西海普洛斯生物科技有限公司 一种测序样本的标识方法及其应用
CN109086890A (zh) * 2017-06-14 2018-12-25 Landigrad有限责任公司 信息编码和信息解码的方法
CN110867213A (zh) * 2018-08-28 2020-03-06 华为技术有限公司 一种dna数据的存储方法和装置
CN112687338A (zh) * 2020-12-31 2021-04-20 云舟生物科技(广州)有限公司 基因序列的存储和还原方法、计算机存储介质及电子设备
CN113380328A (zh) * 2021-04-23 2021-09-10 中国人民大学 一种基于mRNA碱基的生物亲缘识别方法和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101702240B (zh) * 2009-11-26 2012-02-15 大连大学 基于dna子序列运算的图像加密方法
CN103336916B (zh) * 2013-07-05 2016-04-06 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统
CN105550570A (zh) * 2015-12-02 2016-05-04 深圳市同创国芯电子有限公司 一种应用于可编程器件的加密、解密方法及装置
CN105550535B (zh) * 2015-12-03 2017-12-26 人和未来生物科技(长沙)有限公司 一种基因字符序列快速编码为二进制序列的编码方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108018607A (zh) * 2016-10-28 2018-05-11 深圳华大基因股份有限公司 一种提升测序平台文库拆分率的标签序列混库方法和装置
CN108018607B (zh) * 2016-10-28 2021-04-27 深圳华大基因股份有限公司 一种提升测序平台文库拆分率的标签序列混库方法和装置
CN106845158A (zh) * 2017-02-17 2017-06-13 苏州泓迅生物科技股份有限公司 一种利用dna进行信息存储的方法
CN109086890A (zh) * 2017-06-14 2018-12-25 Landigrad有限责任公司 信息编码和信息解码的方法
CN108932401A (zh) * 2018-06-07 2018-12-04 江西海普洛斯生物科技有限公司 一种测序样本的标识方法及其应用
CN108932401B (zh) * 2018-06-07 2021-09-24 江西海普洛斯生物科技有限公司 一种测序样本的标识方法及其应用
CN110867213A (zh) * 2018-08-28 2020-03-06 华为技术有限公司 一种dna数据的存储方法和装置
CN110867213B (zh) * 2018-08-28 2023-10-20 华为技术有限公司 一种dna数据的存储方法和装置
CN112687338A (zh) * 2020-12-31 2021-04-20 云舟生物科技(广州)有限公司 基因序列的存储和还原方法、计算机存储介质及电子设备
CN113380328A (zh) * 2021-04-23 2021-09-10 中国人民大学 一种基于mRNA碱基的生物亲缘识别方法和系统
CN113380328B (zh) * 2021-04-23 2023-06-20 中国人民大学 一种基于mRNA碱基的生物亲缘识别方法和系统

Also Published As

Publication number Publication date
CN106055927B (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
CN106055927A (zh) mRNA信息的二进制存储方法
Moya et al. The evolution of RNA viruses: a population genetics view
Frank-Kamenetskii How the double helix breathes
Gonzalez et al. On the origin of the mitochondrial genetic code: towards a unified mathematical framework for the management of genetic information
Rossi et al. ncRNA classification with graph convolutional networks
Rosandić et al. The Novel Ideal Symmetry Genetic Code table–common purine-pyrimidine symmetry net for all RNA and DNA species
Mathews Prediction of RNA secondary structure
Yoon et al. HMM with auxiliary memory: a new tool for modeling RNA structures
Meyer DNA by design: an inference to the best explanation for the origin of biological information
Tannenbaum et al. Semiconservative replication in the quasispecies model
Yoon et al. RNA secondary structure prediction using context-sensitive hidden Markov models
Li et al. Similarity analysis of dna sequences based on codon usage
Sciarrino et al. A minimum principle in codon–anticodon interaction
Michel Genes on the circular code alphabet
Miyazaki et al. The efficiency of entropy evolution rate for construction of phylogenetic trees
Akhtar et al. Graph in genetic code algebra
KR20070114923A (ko) 복수의 표적 mRNA에 적용 가능한 siRNA염기서열을 추출하는 방법
Dutta et al. Automata on genetic structure
Frid et al. Speedup of RNA pseudoknotted secondary structure recurrence computation with the Four-Russians method
Yaseen A Novel Technique to Hide and Encrypt The Secret Information in DNA
Muttakin et al. Motif discovery in unaligned DNA sequences using genetic algorithm
Glišović The system to support the decision-making in detecting genetic mutations
Michel Circular code in introns
Dandekar et al. Magic RNA
Ciobanu et al. An automata description of the genetic message translation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 510670 17 / F, building 3, Yunsheng Science Park, No. 11, puyuzhong Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: GUANGZHOU MELUX INFORMATION TECHNOLOGY Co.,Ltd.

Address before: No.205-7, 79 Ruihe Road, Guangzhou Economic and Technological Development Zone, Guangdong 510665

Patentee before: GUANGZHOU MELUX INFORMATION TECHNOLOGY Co.,Ltd.

PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20231120

Granted publication date: 20180817

PD01 Discharge of preservation of patent
PD01 Discharge of preservation of patent

Date of cancellation: 20231219

Granted publication date: 20180817