CN117095752B - 保持密码子偏好性的dna蛋白质编码区域流式数据存储方法 - Google Patents

保持密码子偏好性的dna蛋白质编码区域流式数据存储方法 Download PDF

Info

Publication number
CN117095752B
CN117095752B CN202311060090.9A CN202311060090A CN117095752B CN 117095752 B CN117095752 B CN 117095752B CN 202311060090 A CN202311060090 A CN 202311060090A CN 117095752 B CN117095752 B CN 117095752B
Authority
CN
China
Prior art keywords
equal
assignment
codon
starting
amino acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311060090.9A
Other languages
English (en)
Other versions
CN117095752A (zh
Inventor
崔竞松
李嘉伟
齐浩
侯琨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jino Chuangwu Wuhan Technology Co ltd
Original Assignee
Jino Chuangwu Wuhan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jino Chuangwu Wuhan Technology Co ltd filed Critical Jino Chuangwu Wuhan Technology Co ltd
Priority to CN202311060090.9A priority Critical patent/CN117095752B/zh
Publication of CN117095752A publication Critical patent/CN117095752A/zh
Application granted granted Critical
Publication of CN117095752B publication Critical patent/CN117095752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • Library & Information Science (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Saccharide Compounds (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法,本发明中借鉴了熵编码和算术编码方法,使用密码编码学技术拟合输出符号的概率分布,并使用重整化技术将编码、解码均构造为流式算法。本发明可以突破已有技术手段在考虑密码子偏好性、信息空间利用率低、计算复杂度高等方面的不足,能够在编码结果符合密码子偏好性、高效计算的同时充分利用DNA蛋白质编码区域的信息空间。

Description

保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法
技术领域
本发明属于计算机数据编码与生物信息技术领域,涉及一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法,具体涉及一种利用计算机编码方法将固定进制数据通过流式编码存入蛋白质编码DNA序列中,并从其中流式地解码提取原始数据的编解码方法。
背景技术
在DNA存储的研究中,可以利用DNA蛋白质编码区域(蛋白质编码DNA,pcDNA)进行数据存储。这一数据存储方式的主要原理为:通过在同一种氨基酸的同义密码子集合中选择一个密码子,来写入信息。
现有的DNA蛋白质编码区存储方案大多采用了退化编码的方法,即对于某个位置上的氨基酸,只利用其同义密码子的一部分,从而将其存储模型退化为二进制或四进制。这样的方法没有充分利用DNA蛋白质编码区域的信息容量,会对存储空间造成极大的浪费;且未能考虑尝试拟合自然界或生物体本身的密码子偏好性,造成编码前后的不同密码子频度存在巨大偏差。此外,在尝试考虑密码子偏好性的同时充分利用DNA蛋白质编码区域信息容量的过程中,往往容易造成编解码算法的计算复杂度过高。
因此,现有技术中存在难以在考虑密码子偏好性的同时充分利用DNA蛋白质编码区域的信息容量进行高效数据存储的问题。
发明内容
为了解决上述技术问题,本发明提供了一种定进制数据与非均匀变进制数据之间的流式转换方法,用于实现在考虑密码子偏好性的同时充分利用DNA蛋白质编码区域的信息容量进行高效流式数据存储。
本发明的编码方法所采用的技术方案是:一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法,包括编码方法;具体包括以下步骤:
步骤A1:针对输入定进制数据流[u0,u1,...,uZ-1],其进制数为b≥2,长度为Z,Z≥2,0≤uj≤b-1,0≤j≤Z-1;确定用于存储的氨基酸序列,其长度为W,W≥1,确定正整数参数B;
步骤A2:根据确定的氨基酸序列,确定各氨基酸分别对应密码子的期望密码子偏好性其中,Ki表示第i个位置上的可选符号数量,Di中的各个元素表达了这一位置上各个符号的期望出现概率之比;0≤k≤Ki-1;
步骤A3:赋值i:=0,j:=0,N:=0;N表示内部预设变量;
步骤A4:判断i<W是否成立;
若是,则从步骤A5开始执行;
若否,则从步骤A8开始执行;
步骤A5:判断j<Z且N<B是否成立;
若是,则从步骤A6开始执行;
若否,则从步骤A7开始执行;
步骤A6:赋值N:=N*b+uj,赋值j:=j+1;并回转执行步骤A4;
步骤A7:计算(N,ri):=Int2BMR(N,Di),赋值i:=i+1,其中ri为第i个氨基酸选定的密码子;并回转执行步骤A4;
步骤A8:判断N>0是否成立;
若是,则赋值Result:=None;若否,则赋值Result:=rW-1...r1r0
步骤A9:输出Result作为编码结果。
作为优选,步骤A7中所述计算(N,ri):=Int2BMR(N,Di),具体实现包括以下子步骤:
步骤A7.1:对于输入计算/>
步骤A7.2:计算
步骤A7.3:对于输入N,赋值nr:=NmodLi
步骤A7.4:赋值
步骤A7.5:赋值N′:=nq*di,r+q;赋值ri为第i个氨基酸对应的第r种密码子;
步骤A7.6:返回(N′,ri)作为结果,并赋值给(N,ri)。
作为优选,步骤A7.2中所述计算具体实现包括以下子步骤:
步骤A7.2.1:对于输入令满足0≤j≤Ki-1的每个整数值j对应di,j个坐标点(j,0),(j,1),...,(j,di,j-1),得到/>个坐标点;
步骤A7.2.2:将这些坐标点进行重新排序得到
步骤A7.2.3:返回作为结果。
本发明的解码方法所采用的技术方案是:一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法,包括解码方法;用于解码权利要求1-3任一项所述方法编码结果;具体包括以下步骤:
步骤B1:确定输入进制b,b≥2,密码子序列rW-1...r1r0,和正整数参数B;
步骤B2:根据步骤B1确定的密码子序列,得出其对应的氨基酸序列,确定各个氨基酸分别对应密码子的期望密码子偏好性
步骤B3:赋值i:=W-1,j:=0,N:=0;
步骤B4:判断i≥0或N>0是否成立;
若是,则从步骤B5开始执行;若否,则从步骤B9开始执行;
步骤B5:判断i≥0是否成立;
若是,则从步骤B6开始执行;若否,则从步骤B8开始执行;
步骤B6:计算N′:=BMR2Int(N,ri,Di),并判断N′<b*B是否成立;
若是,则从步骤B7开始执行;若否,则从步骤B8开始执行;
步骤B7:赋值N:=N′,赋值i:=i-1;并回转执行步骤B4;
步骤B8:赋值u′j:=Nmodb,赋值赋值j:=j+1;并回转执行步骤B4;
步骤B9:赋值Z:=j,赋值[u0,u1,...,uZ-1]:=[u′Z-1,u′Z-2,...,u′0];
步骤B10:输出[u0,u1,...,uZ-1]作为解码结果。
作为优选,步骤B6中所述计算N′:=BMR2Int(N,ri,Di),具体实现包括以下子步骤:
步骤B6.1:对于输入计算/>
步骤B6.2:对于输入ri,赋值r为这一密码子的在当前位置氨基酸的密码子列表中的序号;
步骤B6.3:对于输入N,赋值q:=Nmoddi,r
步骤B6.4:计算nr:=Find(Di,r,q);
步骤B6.5:赋值N′:=nq*Li+nr
步骤B6.6:返回N′作为结果。
作为优选,步骤B6中所述计算nr:=Find(Di,r,q),具体实现包括以下子步骤:
步骤B6.4.1:对于输入采用步骤A7.2方法计算
步骤B6.4.2:对于输入r,q,寻找nr值,1≤nr≤Li-1,使得满足且/>
步骤B6.4.3:返回nr作为结果。
本发明的编码系统所采用的技术方案是:一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储系统,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述的保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法。
本发明的解码系统所采用的技术方案是:一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储系统,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述的保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法。
与现有技术相比,本发明所达到的有益效果是:
使得编码结果尽可能符合期望的氨基酸密码子分布,在考虑密码子偏好性的同时尽可能充分使用DNA蛋白质编码区域的信息容量;采用流式编码、解码方法,将编解码复杂度均控制在O(W),可以在对大量数据进行编解码操作时极大地提高计算效率;编解码算法可简化为加法、减法、乘法、除法、查表等基础运算,算法简单易用,在某些参数取特殊数值时可进一步加速和简化计算。
附图说明
下面使用实施例,以及具体实施方式作进一步说明本文的技术方案。另外,在说明技术方案的过程中,也使用了一些附图。对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图以及本发明的意图。
图1为本发明实施例提供的编码方法流程图;
图2为本发明实施例提供的解码方法流程图;
图3为本发明实施例中编码方法的函数Reorder()例示一结果图;
图4为本发明实施例中编码方法的函数Reorder()例示二结果图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本实施例提供的一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法,包括编码方法;具体包括以下步骤:
步骤A1:针对输入定进制数据流[u0,u1,...,uZ-1],其进制数为b≥2,长度为Z,Z≥2,0≤uj≤b-1,0≤j≤Z-1;确定用于存储的氨基酸序列,其长度为W,W≥1,确定正整数参数B;
步骤A2:根据确定的氨基酸序列,确定各氨基酸分别对应密码子的期望密码子偏好性其中,Ki表示第i个位置上的可选符号数量,Di中的各个元素表达了这一位置上各个符号的期望出现概率之比;0≤k≤Ki-1;
步骤A3:赋值i:=0,j:=0,N:=0;N表示内部预设变量;
步骤A4:判断i<W是否成立;
若是,则从步骤A5开始执行;
若否,则从步骤A8开始执行;
步骤A5:判断j<Z且N<B是否成立;
若是,则从步骤A6开始执行;
若否,则从步骤A7开始执行;
步骤A6:赋值N:=N*b+uj,赋值j:=j+1;并回转执行步骤A4;
步骤A7:计算(N,ri):=Int2BMR(N,Di),赋值i:=i+1,其中ri为第i个氨基酸选定的密码子;并回转执行步骤A4;
步骤A8:判断N>0是否成立;
若是,则赋值Result:=None;若否,则赋值Result:=rW-1...r1r0
步骤A9:输出Result作为编码结果。
本实施例的步骤A4、步骤A5、步骤A6、步骤A7共同构成了带有条件判断分支的循环结构。
在一种实施方式中,步骤A7中所述计算(N,ri):=Int2BMR(N,Di),具体实现包括以下子步骤:
步骤A7.1:对于输入计算/>
步骤A7.2:计算
步骤A7.3:对于输入N,赋值nr:=NmodLi
步骤A7.4:赋值
步骤A7.5:赋值N′:=nq*di,r+q;赋值ri为第i个氨基酸对应的第r种密码子;
步骤A7.6:返回(N′,ri)作为结果,并赋值给(N,ri)。
在一种实施方式中,步骤A7.2中所述计算具体实现包括以下子步骤:
步骤A7.2.1:对于输入令满足0≤j≤Ki-1的每个整数值j对应di,j个坐标点(j,0),(j,1),...,(j,di,j-1),得到/>个坐标点;
步骤A7.2.2:将这些坐标点进行按照编解码双方共享的指定方法重新排序得到
步骤A7.2.3:返回作为结果。
请见图2,本发明提供的一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法,包括解码方法;用于解码所述方法编码结果;具体包括以下步骤:
步骤B1:确定输入进制b,b≥2,密码子序列rW-1...r1r0,和正整数参数B;
步骤B2:根据步骤B1确定的密码子序列,得出其对应的氨基酸序列,确定各个氨基酸分别对应的密码子的集合;对于用于存储的氨基酸序列中第i(0≤i≤W-1)个氨基酸,确定所对应的密码子数量Ki,根据已有的密码子偏好性知识确定该氨基酸所对应的Ki个密码子的期望密码子偏好性其中di,j为整数且di,j≥0(0≤j≤Ki-1)。
步骤B3:赋值i:=W-1,j:=0,N:=0;
步骤B4:判断i≥0或N>0是否成立;
若是,则从步骤B5开始执行;若否,则从步骤B9开始执行;
步骤B5:判断i≥0是否成立;
若是,则从步骤B6开始执行;若否,则从步骤B8开始执行;
步骤B6:计算N′:=BMR2Int(N,ri,Di),并判断N′<b*B是否成立;
若是,则从步骤B7开始执行;若否,则从步骤B8开始执行;
步骤B7:赋值N:=N′,赋值i:=i-1;并回转执行步骤B4;
步骤B8:赋值u′j:=Nmodb,赋值赋值j:=j+1;并回转执行步骤B4;
步骤B9:赋值Z:=j,赋值[u0,u1,...,uZ-1]:=[u′Z-1,u′Z-2,...,u′0];
步骤B10:输出[u0,u1,...,uZ-1]作为解码结果。
本实施例的步骤B4、步骤B5、步骤B6、步骤B7、步骤B8共同构成了带有条件判断分支的循环结构。
在一种实施方式中,步骤B6中所述计算N′:=BMR2Int(N,ri,Di),具体实现包括以下子步骤:
步骤B6.1:对于输入计算/>
步骤B6.2:对于输入ri,赋值r为这一密码子的在当前位置氨基酸的密码子列表中的序号;
步骤B6.3:对于输入N,赋值q:=Nmoddi,r
步骤B6.4:计算nr:=Find(Di,r,q);
步骤B6.5:赋值N′:=nq*Li+nr
步骤B6.6:返回N′作为结果。
在一种实施方式中,步骤B6中所述计算nr:=Find(Di,r,q),具体实现包括以下子步骤:
步骤B6.4.1:对于输入采用步骤A7.2方法计算
步骤B6.4.2:对于输入r,q,寻找nr值,1≤nr≤Li-1,使得满足且/>
步骤B6.4.3:返回nr作为结果。
作为上述技术方案的进一步描述:运算表示向下取整。
在一种实施方式中,等运算的常见输入在预计算之后替换为查表操作,以加快程序运行速度。
在一种实施方式中,对于方案中的参数,取b=2;可取B=256或其它2的整数次幂;设定
本实施例还提供了一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储系统,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述的保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法。
本实施例还提供了一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储系统,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述的保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法。
接下来通过具体的实施例对本发明做进一步的阐述。
在一种实施方式中,对于步骤A7.2.2中将/>个坐标点以纵坐标(y坐标)数值为第一关键字、横坐标(x坐标)数值为第二关键字进行升序排列;例如,对于Ki=6,/>按照这种排序方式对个点进行排序,其实际排序效果请参见图3。
在一种实施方式中,对于步骤A7.2.2中对于坐标点(j,y),其排序后应位于列表中的第(di,0+di,1+...+di,j-1)+y个位置;其等价于将/>个坐标点以横坐标(x坐标)数值为第一关键字、纵坐标(y坐标)数值为第二关键字进行升序排列;例如,对于Ki=4,/>按照这种方式对/>个点进行排序,其实际排序效果请参见图4。
在一种实施方式中,还可以将函数Reorder替换为等同效果的查表操作。
在一种实施方式中,还可以将函数Find替换为等同效果的查表操作。
在一种实施方式中,还可以对预先设定的其它参数,将函数Int2BMR和函数BMR2Int替换为等同效果的查表操作。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (4)

1.一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法,包括编码方法;其特征在于,具体包括以下步骤:
步骤A1:针对输入定进制数据流[u0,u1,...,uZ-1],其进制数为b≥2,长度为Z,Z≥2,0≤uj≤b-1,0≤j≤Z-1;确定用于存储的氨基酸序列,其长度为W,W≥1,确定正整数参数B;
步骤A2:根据确定的氨基酸序列,确定各氨基酸分别对应密码子的期望密码子偏好性其中,Ki表示第i个位置上的可选符号数量,Di中的各个元素表达了这一位置上各个符号的期望出现概率之比;0≤k≤Ki-1;
步骤A3:赋值i:=0,j:=0,N:=0;N表示内部预设变量;
步骤A4:判断i<W是否成立;
若是,则从步骤A5开始执行;
若否,则从步骤A8开始执行;
步骤A5:判断j<Z且N<B是否成立;
若是,则从步骤A6开始执行;
若否,则从步骤A7开始执行;
步骤A6:赋值N:=N*b+uj,赋值j:=j+1;并回转执行步骤A4;
步骤A7:计算(N,ri):=Int2BMR(N,Di),赋值i:=i+1,其中ri为第i个氨基酸选定的密码子;并回转执行步骤A4;
所述计算(N,ri):=Int2BMR(N,Di),具体实现包括以下子步骤:
步骤A7.1:对于输入计算/>
步骤A7.2:计算
具体实现包括以下子步骤:
步骤A7.2.1:对于输入令满足0≤j≤Ki-1的每个整数值j对应di,j个坐标点(j,0),(j,1),...,(j,di,j-1),得到/>个坐标点;
步骤A7.2.2:将这些坐标点进行重新排序得到
步骤A7.2.3:返回作为结果;
步骤A7.3:对于输入N,赋值nr:=N mod Li
步骤A7.4:赋值
步骤A7.5:赋值N′:=nq*di,r+q;赋值ri为第i个氨基酸对应的第r种密码子;
步骤A7.6:返回(N′,ri)作为结果,并赋值给(N,ri);
步骤A8:判断N>0是否成立;
若是,则赋值Result:=None;若否,则赋值Result:=rW-1...r1r0
步骤A9:输出Result作为编码结果。
2.一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法,包括解码方法;其特征在于,用于解码权利要求1所述方法编码结果;具体包括以下步骤:
步骤B1:确定输入进制b,b≥2,密码子序列rW-1...r1r0,和正整数变量B;
步骤B2:根据步骤B1确定的密码子序列,得出其对应的氨基酸序列,确定各个氨基酸分别对应密码子的期望密码子偏好性
步骤B3:赋值i:=W-1,j:=0,N:=0;
步骤B4:判断i≥0或N>0是否成立;
若是,则从步骤B5开始执行;若否,则从步骤B9开始执行;
步骤B5:判断i≥0是否成立;
若是,则从步骤B6开始执行;若否,则从步骤B8开始执行;
步骤B6:计算N′:=BMR2Int(N,ri,Di),并判断N′<b*B是否成立;
若是,则从步骤B7开始执行;若否,则从步骤B8开始执行;
所述计算N′:=BMR2Int(N,ri,Di),具体实现包括以下子步骤:
步骤B6.1:对于输入计算/>
步骤B6.2:对于输入ri,赋值r为这一密码子的在当前位置氨基酸的密码子列表中的序号;
步骤B6.3:对于输入N,赋值q:=N mod di,r
步骤B6.4:计算nr:=Find(Di,r,q);
具体实现包括以下子步骤:
步骤B6.4.1:对于输入采用步骤A7.2方法计算
步骤B6.4.2:对于输入r,q,寻找nr值,1≤nr≤Li-1,使得满足且/>
步骤B6.4.3:返回nr作为结果;
步骤B6.5:赋值N′:=nq*Li+nr
步骤B6.6:返回N′作为结果;
步骤B7:赋值N:=N′,赋值i:=i-1;并回转执行步骤B4;
步骤B8:赋值u′j:=N mod b,赋值赋值j:=j+1;并回转执行步骤B4;
步骤B9:赋值Z:=j,赋值[u0,u1,...,uZ-1]:=[u′Z-1,u′Z-2,...,u′0];
步骤B10:输出[u0,u1,...,uZ-1]作为解码结果。
3.一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储系统,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1所述的保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法。
4.一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储系统,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求2所述的保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法。
CN202311060090.9A 2023-08-21 2023-08-21 保持密码子偏好性的dna蛋白质编码区域流式数据存储方法 Active CN117095752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311060090.9A CN117095752B (zh) 2023-08-21 2023-08-21 保持密码子偏好性的dna蛋白质编码区域流式数据存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311060090.9A CN117095752B (zh) 2023-08-21 2023-08-21 保持密码子偏好性的dna蛋白质编码区域流式数据存储方法

Publications (2)

Publication Number Publication Date
CN117095752A CN117095752A (zh) 2023-11-21
CN117095752B true CN117095752B (zh) 2024-03-19

Family

ID=88769359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311060090.9A Active CN117095752B (zh) 2023-08-21 2023-08-21 保持密码子偏好性的dna蛋白质编码区域流式数据存储方法

Country Status (1)

Country Link
CN (1) CN117095752B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001096860A1 (en) * 2000-06-13 2001-12-20 Zisman Lawrence S A system and method for identifying dna sequences that could code into a string of amino acids
CN106559084A (zh) * 2016-11-15 2017-04-05 浙江工业大学 一种基于算术编码的无损数据压缩编码方法
CN111629786A (zh) * 2017-10-06 2020-09-04 俄勒冈健康与科学大学 用于编辑rna的组合物和方法
CN112802549A (zh) * 2021-01-26 2021-05-14 武汉大学 Dna序列完整性校验和纠错的编解码方法
CN114360645A (zh) * 2021-12-31 2022-04-15 康码(上海)生物科技有限公司 一种蛋白质表达体系的密码子优化方法及蛋白质表达体系
CN116366071A (zh) * 2023-03-08 2023-06-30 山东云海国创云计算装备产业创新中心有限公司 一种基于ans编码的封装方法、系统、存储介质及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2064550B1 (en) * 2006-12-08 2015-02-25 The Children's Hospital Of Philadelphia Use of prrg4 in methods of tumor diagnosis

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001096860A1 (en) * 2000-06-13 2001-12-20 Zisman Lawrence S A system and method for identifying dna sequences that could code into a string of amino acids
CN106559084A (zh) * 2016-11-15 2017-04-05 浙江工业大学 一种基于算术编码的无损数据压缩编码方法
CN111629786A (zh) * 2017-10-06 2020-09-04 俄勒冈健康与科学大学 用于编辑rna的组合物和方法
CN112802549A (zh) * 2021-01-26 2021-05-14 武汉大学 Dna序列完整性校验和纠错的编解码方法
CN114360645A (zh) * 2021-12-31 2022-04-15 康码(上海)生物科技有限公司 一种蛋白质表达体系的密码子优化方法及蛋白质表达体系
CN116417065A (zh) * 2021-12-31 2023-07-11 康码(上海)生物科技有限公司 一种蛋白质表达体系的密码子优化方法及蛋白质表达体系
CN116366071A (zh) * 2023-03-08 2023-06-30 山东云海国创云计算装备产业创新中心有限公司 一种基于ans编码的封装方法、系统、存储介质及设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
An overview of the basic principles of the Q-Coder adaptive binary arithmetic coder;W. B. Pennebaker et al.;《IBM Journal of Research and Development》;第32卷(第6期);第717-726页 *
ANSbased compression and encryption with 128-bit security;Seyit Camtepe et al.;《International Journal of Information Security》;第21卷(第5期);第1051–1067页 *
BioCode: Two biologically compatible algorithms for embedding data in non-coding and coding regions of DN;David Haughton et al.;《BMC Bioinformatics》;第14卷(第121期);第1-16页 *
The use of asymmetric numeral systems as an accurate replacement for Huffman coding;Jarek Duda et al.;《2015 Picture Coding Symposium (PCS)》;第65-69页 *
香蕉基因组密码子使用偏好性分析;曲俊杰等;《南方农业学报》;第48卷(第01期);第14-19页 *

Also Published As

Publication number Publication date
CN117095752A (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN108039891B (zh) 一种基于多级更新流程的极化码bp译码方法及装置
CN107124251B (zh) 一种基于任意内核的极化码编码方法
CN111625258B (zh) 默克尔树更新方法、装置、设备及可读存储介质
CN109788285A (zh) 一种量化系数结束标志位的上下文模型选取方法及装置
CN109768846B (zh) 基于二核三核混合极化码的凿孔方法、系统、装置及介质
CN109462407B (zh) 维特比译码方法、设备及存储介质
CN112200713A (zh) 一种联邦学习中的业务数据处理方法、装置以及设备
CN117095752B (zh) 保持密码子偏好性的dna蛋白质编码区域流式数据存储方法
CN106537914B (zh) 通过限制的进位运算来执行算术编译的方法和设备
WO2024051757A1 (zh) 信息的处理方法、装置、电子设备及计算机可读介质
TWI356594B (en) Acs unit and method thereof
CN111079934B (zh) 应用于环域上误差学习加密算法的数论变换单元和方法
CN117155405A (zh) 一种基于梯度下降的tANS编码、解码转换表快速建立方法
CN107017962B (zh) 动态功耗控制的编码方法及编解码器
CN112929743A (zh) 对视频中指定对象添加视频特效的方法、装置及移动端
CN115834062B (zh) 一种用于数据托管服务的企业数据传输加密方法
CN107612557B (zh) 一种改进型Shuffled BP算法
CN110191341A (zh) 一种深度数据的编码方法和解码方法
CN104796161B (zh) 一种Turbo译码中的滑窗划分方法及装置
CN109347600B (zh) 一种极化码译码方法
Hwang et al. Genetic entropy-constrained vector quantizer design algorithm
WO2020019954A1 (zh) 极化码译码方法及装置、存储介质、电子装置
CN111010200B (zh) 基于异构多核的卫星气象数据喷泉解码算法硬件化系统
CN117118451A (zh) 带有符号偏好性变进制数据编码解码方法、系统及设备
CN115085742B (zh) 解码方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant