CN117095752B

CN117095752B - 保持密码子偏好性的dna蛋白质编码区域流式数据存储方法

Info

Publication number: CN117095752B
Application number: CN202311060090.9A
Authority: CN
Inventors: 崔竞松; 李嘉伟; 齐浩; 侯琨
Original assignee: Jino Chuangwu Wuhan Technology Co ltd
Current assignee: Jino Chuangwu Wuhan Technology Co ltd
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2024-03-19
Anticipated expiration: 2043-08-21
Also published as: CN117095752A

Abstract

本发明公开了一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法，本发明中借鉴了熵编码和算术编码方法，使用密码编码学技术拟合输出符号的概率分布，并使用重整化技术将编码、解码均构造为流式算法。本发明可以突破已有技术手段在考虑密码子偏好性、信息空间利用率低、计算复杂度高等方面的不足，能够在编码结果符合密码子偏好性、高效计算的同时充分利用DNA蛋白质编码区域的信息空间。

Description

保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法

技术领域

本发明属于计算机数据编码与生物信息技术领域，涉及一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法，具体涉及一种利用计算机编码方法将固定进制数据通过流式编码存入蛋白质编码DNA序列中，并从其中流式地解码提取原始数据的编解码方法。

背景技术

在DNA存储的研究中，可以利用DNA蛋白质编码区域(蛋白质编码DNA，pcDNA)进行数据存储。这一数据存储方式的主要原理为：通过在同一种氨基酸的同义密码子集合中选择一个密码子，来写入信息。

现有的DNA蛋白质编码区存储方案大多采用了退化编码的方法，即对于某个位置上的氨基酸，只利用其同义密码子的一部分，从而将其存储模型退化为二进制或四进制。这样的方法没有充分利用DNA蛋白质编码区域的信息容量，会对存储空间造成极大的浪费；且未能考虑尝试拟合自然界或生物体本身的密码子偏好性，造成编码前后的不同密码子频度存在巨大偏差。此外，在尝试考虑密码子偏好性的同时充分利用DNA蛋白质编码区域信息容量的过程中，往往容易造成编解码算法的计算复杂度过高。

因此，现有技术中存在难以在考虑密码子偏好性的同时充分利用DNA蛋白质编码区域的信息容量进行高效数据存储的问题。

发明内容

为了解决上述技术问题，本发明提供了一种定进制数据与非均匀变进制数据之间的流式转换方法，用于实现在考虑密码子偏好性的同时充分利用DNA蛋白质编码区域的信息容量进行高效流式数据存储。

本发明的编码方法所采用的技术方案是：一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法，包括编码方法；具体包括以下步骤：

步骤A1：针对输入定进制数据流[u₀,u₁,...,u_Z-1]，其进制数为b≥2，长度为Z，Z≥2，0≤u_j≤b-1，0≤j≤Z-1；确定用于存储的氨基酸序列，其长度为W，W≥1，确定正整数参数B；

步骤A2：根据确定的氨基酸序列，确定各氨基酸分别对应密码子的期望密码子偏好性其中，K_i表示第i个位置上的可选符号数量，D_i中的各个元素表达了这一位置上各个符号的期望出现概率之比；0≤k≤K_i-1；

步骤A3：赋值i:＝0，j:＝0，N:＝0；N表示内部预设变量；

步骤A4：判断i<W是否成立；

若是，则从步骤A5开始执行；

若否，则从步骤A8开始执行；

步骤A5：判断j<Z且N<B是否成立；

若是，则从步骤A6开始执行；

若否，则从步骤A7开始执行；

步骤A6：赋值N:＝N*b+u_j，赋值j:＝j+1；并回转执行步骤A4；

步骤A7：计算(N,r_i):＝Int2BMR(N,D_i)，赋值i:＝i+1，其中r_i为第i个氨基酸选定的密码子；并回转执行步骤A4；

步骤A8：判断N>0是否成立；

若是，则赋值Result:＝None；若否，则赋值Result:＝r_W-1...r₁r₀；

步骤A9：输出Result作为编码结果。

作为优选，步骤A7中所述计算(N,r_i):＝Int2BMR(N,D_i)，具体实现包括以下子步骤：

步骤A7.1：对于输入计算/>

步骤A7.2：计算

步骤A7.3：对于输入N，赋值n_r:＝NmodL_i，

步骤A7.4：赋值

步骤A7.5：赋值N′:＝n_q*d_i,r+q；赋值r_i为第i个氨基酸对应的第r种密码子；

步骤A7.6：返回(N′,r_i)作为结果，并赋值给(N,r_i)。

作为优选，步骤A7.2中所述计算具体实现包括以下子步骤：

步骤A7.2.1：对于输入令满足0≤j≤K_i-1的每个整数值j对应d_i,j个坐标点(j,0),(j,1),...,(j,d_i,j-1)，得到/>个坐标点；

步骤A7.2.2：将这些坐标点进行重新排序得到

步骤A7.2.3：返回作为结果。

本发明的解码方法所采用的技术方案是：一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法，包括解码方法；用于解码权利要求1-3任一项所述方法编码结果；具体包括以下步骤：

步骤B1：确定输入进制b,b≥2，密码子序列r_W-1...r₁r₀，和正整数参数B；

步骤B2：根据步骤B1确定的密码子序列，得出其对应的氨基酸序列，确定各个氨基酸分别对应密码子的期望密码子偏好性

步骤B3：赋值i:＝W-1，j:＝0，N:＝0；

步骤B4：判断i≥0或N>0是否成立；

若是，则从步骤B5开始执行；若否，则从步骤B9开始执行；

步骤B5：判断i≥0是否成立；

若是，则从步骤B6开始执行；若否，则从步骤B8开始执行；

步骤B6：计算N′:＝BMR2Int(N,r_i,D_i)，并判断N′<b*B是否成立；

若是，则从步骤B7开始执行；若否，则从步骤B8开始执行；

步骤B7：赋值N:＝N′，赋值i:＝i-1；并回转执行步骤B4；

步骤B8：赋值u′_j:＝Nmodb，赋值赋值j:＝j+1；并回转执行步骤B4；

步骤B9：赋值Z:＝j，赋值[u₀,u₁,...,u_Z-1]:＝[u′_Z-1,u′_Z-2,...,u′₀]；

步骤B10：输出[u₀,u₁,...,u_Z-1]作为解码结果。

作为优选，步骤B6中所述计算N′:＝BMR2Int(N,r_i,D_i)，具体实现包括以下子步骤：

步骤B6.1：对于输入计算/>

步骤B6.2：对于输入r_i，赋值r为这一密码子的在当前位置氨基酸的密码子列表中的序号；

步骤B6.3：对于输入N，赋值q:＝Nmodd_i,r，

步骤B6.4：计算n_r:＝Find(D_i,r,q)；

步骤B6.5：赋值N′:＝n_q*L_i+n_r；

步骤B6.6：返回N′作为结果。

作为优选，步骤B6中所述计算n_r:＝Find(D_i,r,q)，具体实现包括以下子步骤：

步骤B6.4.1：对于输入采用步骤A7.2方法计算

步骤B6.4.2：对于输入r,q，寻找n_r值，1≤n_r≤L_i-1，使得满足且/>

步骤B6.4.3：返回n_r作为结果。

本发明的编码系统所采用的技术方案是：一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储系统，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现所述的保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法。

本发明的解码系统所采用的技术方案是：一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储系统，包括：

一个或多个处理器；

与现有技术相比，本发明所达到的有益效果是：

使得编码结果尽可能符合期望的氨基酸密码子分布，在考虑密码子偏好性的同时尽可能充分使用DNA蛋白质编码区域的信息容量；采用流式编码、解码方法，将编解码复杂度均控制在O(W)，可以在对大量数据进行编解码操作时极大地提高计算效率；编解码算法可简化为加法、减法、乘法、除法、查表等基础运算，算法简单易用，在某些参数取特殊数值时可进一步加速和简化计算。

附图说明

下面使用实施例，以及具体实施方式作进一步说明本文的技术方案。另外，在说明技术方案的过程中，也使用了一些附图。对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图以及本发明的意图。

图1为本发明实施例提供的编码方法流程图；

图2为本发明实施例提供的解码方法流程图；

图3为本发明实施例中编码方法的函数Reorder()例示一结果图；

图4为本发明实施例中编码方法的函数Reorder()例示二结果图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本实施例提供的一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法，包括编码方法；具体包括以下步骤：

步骤A3：赋值i:＝0，j:＝0，N:＝0；N表示内部预设变量；

步骤A4：判断i<W是否成立；

若是，则从步骤A5开始执行；

若否，则从步骤A8开始执行；

步骤A5：判断j<Z且N<B是否成立；

若是，则从步骤A6开始执行；

若否，则从步骤A7开始执行；

步骤A6：赋值N:＝N*b+u_j，赋值j:＝j+1；并回转执行步骤A4；

步骤A8：判断N>0是否成立；

步骤A9：输出Result作为编码结果。

本实施例的步骤A4、步骤A5、步骤A6、步骤A7共同构成了带有条件判断分支的循环结构。

在一种实施方式中，步骤A7中所述计算(N,r_i):＝Int2BMR(N,D_i)，具体实现包括以下子步骤：

步骤A7.1：对于输入计算/>

步骤A7.2：计算

步骤A7.3：对于输入N，赋值n_r:＝NmodL_i，

步骤A7.4：赋值

步骤A7.6：返回(N′,r_i)作为结果，并赋值给(N,r_i)。

在一种实施方式中，步骤A7.2中所述计算具体实现包括以下子步骤：

步骤A7.2.2：将这些坐标点进行按照编解码双方共享的指定方法重新排序得到

步骤A7.2.3：返回作为结果。

请见图2，本发明提供的一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法，包括解码方法；用于解码所述方法编码结果；具体包括以下步骤：

步骤B2：根据步骤B1确定的密码子序列，得出其对应的氨基酸序列，确定各个氨基酸分别对应的密码子的集合；对于用于存储的氨基酸序列中第i(0≤i≤W-1)个氨基酸，确定所对应的密码子数量K_i，根据已有的密码子偏好性知识确定该氨基酸所对应的K_i个密码子的期望密码子偏好性其中d_i,j为整数且d_i,j≥0(0≤j≤K_i-1)。

步骤B3：赋值i:＝W-1，j:＝0，N:＝0；

步骤B4：判断i≥0或N>0是否成立；

若是，则从步骤B5开始执行；若否，则从步骤B9开始执行；

步骤B5：判断i≥0是否成立；

若是，则从步骤B6开始执行；若否，则从步骤B8开始执行；

步骤B6：计算N′:＝BMR2Int(N,r_i,D_i)，并判断N′<b*B是否成立；

若是，则从步骤B7开始执行；若否，则从步骤B8开始执行；

步骤B7：赋值N:＝N′，赋值i:＝i-1；并回转执行步骤B4；

步骤B10：输出[u₀,u₁,...,u_Z-1]作为解码结果。

本实施例的步骤B4、步骤B5、步骤B6、步骤B7、步骤B8共同构成了带有条件判断分支的循环结构。

在一种实施方式中，步骤B6中所述计算N′:＝BMR2Int(N,r_i,D_i)，具体实现包括以下子步骤：

步骤B6.1：对于输入计算/>

步骤B6.3：对于输入N，赋值q:＝Nmodd_i,r，

步骤B6.4：计算n_r:＝Find(D_i,r,q)；

步骤B6.5：赋值N′:＝n_q*L_i+n_r；

步骤B6.6：返回N′作为结果。

在一种实施方式中，步骤B6中所述计算n_r:＝Find(D_i,r,q)，具体实现包括以下子步骤：

步骤B6.4.1：对于输入采用步骤A7.2方法计算

步骤B6.4.3：返回n_r作为结果。

作为上述技术方案的进一步描述：运算表示向下取整。

在一种实施方式中，等运算的常见输入在预计算之后替换为查表操作，以加快程序运行速度。

在一种实施方式中，对于方案中的参数，取b＝2；可取B＝256或其它2的整数次幂；设定

本实施例还提供了一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储系统，包括：

一个或多个处理器；

接下来通过具体的实施例对本发明做进一步的阐述。

在一种实施方式中，对于步骤A7.2.2中将/>个坐标点以纵坐标(y坐标)数值为第一关键字、横坐标(x坐标)数值为第二关键字进行升序排列；例如，对于K_i＝6，/>按照这种排序方式对个点进行排序，其实际排序效果请参见图3。

在一种实施方式中，对于步骤A7.2.2中对于坐标点(j,y)，其排序后应位于列表中的第(d_i,0+d_i,1+...+d_i,j-1)+y个位置；其等价于将/>个坐标点以横坐标(x坐标)数值为第一关键字、纵坐标(y坐标)数值为第二关键字进行升序排列；例如，对于K_i＝4，/>按照这种方式对/>个点进行排序，其实际排序效果请参见图4。

在一种实施方式中，还可以将函数Reorder替换为等同效果的查表操作。

在一种实施方式中，还可以将函数Find替换为等同效果的查表操作。

在一种实施方式中，还可以对预先设定的其它参数，将函数Int2BMR和函数BMR2Int替换为等同效果的查表操作。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法，包括编码方法；其特征在于，具体包括以下步骤：

步骤A3：赋值i:＝0，j:＝0，N:＝0；N表示内部预设变量；

步骤A4：判断i<W是否成立；

若是，则从步骤A5开始执行；

若否，则从步骤A8开始执行；

步骤A5：判断j<Z且N<B是否成立；

若是，则从步骤A6开始执行；

若否，则从步骤A7开始执行；

步骤A6：赋值N:＝N*b+u_j，赋值j:＝j+1；并回转执行步骤A4；

所述计算(N,r_i):＝Int2BMR(N,D_i)，具体实现包括以下子步骤：

步骤A7.1：对于输入计算/>

步骤A7.2：计算

具体实现包括以下子步骤：

步骤A7.2.2：将这些坐标点进行重新排序得到

步骤A7.2.3：返回作为结果；

步骤A7.3：对于输入N，赋值n_r:＝N mod L_i，

步骤A7.4：赋值

步骤A7.6：返回(N′,r_i)作为结果，并赋值给(N,r_i)；

步骤A8：判断N>0是否成立；

步骤A9：输出Result作为编码结果。

2.一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法，包括解码方法；其特征在于，用于解码权利要求1所述方法编码结果；具体包括以下步骤：

步骤B1：确定输入进制b,b≥2，密码子序列r_W-1...r₁r₀，和正整数变量B；

步骤B3：赋值i:＝W-1，j:＝0，N:＝0；

步骤B4：判断i≥0或N>0是否成立；

若是，则从步骤B5开始执行；若否，则从步骤B9开始执行；

步骤B5：判断i≥0是否成立；

若是，则从步骤B6开始执行；若否，则从步骤B8开始执行；

步骤B6：计算N′:＝BMR2Int(N,r_i,D_i)，并判断N′<b*B是否成立；

若是，则从步骤B7开始执行；若否，则从步骤B8开始执行；

所述计算N′:＝BMR2Int(N,r_i,D_i)，具体实现包括以下子步骤：

步骤B6.1：对于输入计算/>

步骤B6.3：对于输入N，赋值q:＝N mod d_i,r，

步骤B6.4：计算n_r:＝Find(D_i,r,q)；

具体实现包括以下子步骤：

步骤B6.4.1：对于输入采用步骤A7.2方法计算

步骤B6.4.3：返回n_r作为结果；

步骤B6.5：赋值N′:＝n_q*L_i+n_r；

步骤B6.6：返回N′作为结果；

步骤B7：赋值N:＝N′，赋值i:＝i-1；并回转执行步骤B4；

步骤B8：赋值u′_j:＝N mod b，赋值赋值j:＝j+1；并回转执行步骤B4；

步骤B10：输出[u₀,u₁,...,u_Z-1]作为解码结果。

3.一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储系统，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1所述的保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法。

4.一种保持密码子偏好性的DNA蛋白质编码区域流式数据存储系统，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求2所述的保持密码子偏好性的DNA蛋白质编码区域流式数据存储方法。