CN107480473B

CN107480473B - 一种基于密码子模板的真核生物功能基因序列搜索方法

Info

Publication number: CN107480473B
Application number: CN201710610516.1A
Authority: CN
Inventors: 王珣; 宋弢; 朱虎
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2017-07-18
Filing date: 2017-07-18
Publication date: 2021-02-26
Anticipated expiration: 2037-07-18
Also published as: CN107480473A

Abstract

本发明提出了一种基于密码子模板的真核生物功能基因序列搜索方法，通过蛋白质反推出mRNA，然后利用mRNA在生物全基因组序列中搜索出负责调控蛋白质合成的基因序列。本发明的方法实现了在外显子中插入内含子，从而实现了真正意义上的蛋白质调控基因的恢复，可以有效的在全基因组序列中定位出蛋白质调控序列的位置和长度，为下一步通过基因实现对该蛋白质的调控提供了理论基础。

Description

一种基于密码子模板的真核生物功能基因序列搜索方法

技术领域

本发明涉及基因技术领域，特别涉及一种基于密码子模板的真核生物功能基因序列搜索方法。

背景技术

真核生物的功能基因序列由外显子和内含子两部分交叉组成。在翻译成蛋白质的过程中，内含子被切除掉，外显子连接在一起形成mRNA。最终由mRNA指导蛋白质的合成，这个过程是按照mRNA到蛋白质的密码子表对应完成的。

随着二代生物基因组测序技术的发展，对生物蛋白质产物的调控集中到了基因层面。基于以上蛋白质形成过程，如果可以在生物全基因组中找到调控蛋白质合成的那段基因，则可以通过对该段基因的调节，实现对蛋白质产物的控制。

以往该方面的科学研究，多由生物的全基因组序列着手，通过对全基因组序列的直接挖掘找出调控蛋白质的基因。

通过对生物全基因组数据直接挖掘的方法发现蛋白质调控基因，这种方法无异于大海捞针。这是由于生物全基因组序列数据的海量性，加之蛋白质调控基因相对而言比较短小，并且蛋白质调控基因在全基因组中并无明显标志性特点。目前成功的基因挖掘工作，都是在全基因组数据挖掘的基础上，通过生物同属同科间保守序列的比对，来确定疑似蛋白质调控基因，然后通过基因敲除实验，验证该疑似蛋白质调控基因的真伪。这种研究方法有两个显著缺点：

(1)针对某种生物的研究，需要建立在该生物的同属同科生物基因已被充分挖掘的基础上，否则，无法通过同属同科生物间的保守序列比对确定疑似基因。这就使得研究只能针对某些已有大量研究基础的“热门”生物，而这种研究基础本身也需要多年的积累，显然这种研究模式已经不适用于当今多物种的高通量生物基因组数据研究。

(2)通过生物同属同科间保守序列的比对来确定疑似蛋白质调控基因，这种方法本身就存在很大的误差，有可能出现多个疑似调控基因的序列，这就需要进一步通过生物实验的方式，逐一验证并最终确定调控基因。这不但使得研究成本提高，研究周期加长，同时也会由于实验操作准确性等问题，造成研究结果的误差。

发明内容

针对上述现有技术中存在的不足，本发明提出了一种基于密码子模板的真核生物功能基因序列搜索方法。

本发明的技术方案是这样实现的：

一种基于密码子模板的真核生物功能基因序列搜索方法，通过蛋白质反推出mRNA，然后利用mRNA在生物全基因组序列中搜索出负责调控蛋白质合成的基因序列。

可选地，在已知蛋白质氨基酸的构成和顺序的基础上，利用氨基酸密码子表，反推出mRNA，完成对mRNA的复原。

可选地，在mRNA的复原过程中，对氨基酸密码子表做以下处理：

令X＝{U，C，A，G}，X是U，C，A，G四个碱基中的任意一个；同理，令Y＝{U，C}，Z＝{A，G}，Y是U，C两个碱基中的任意一个，Z是A，G两个碱基中的任意一个；精简mRNA的编码形式。

可选地，利用mRNA寻找DNA序列中蛋白质调控基因的过程，具体步骤如下：

步骤1，取一条mRNA序列与DNA序列从头开始做比对；

步骤2，在DNA序列中所有与mRNA序列重合的部分中，选取最长的那一条，作为蛋白质调控基因中第一个外显子的序列，并且将mRNA序列中相应的部分截断去除；

步骤3，在DNA序列中，从第一个外显子之后的位置开始，继续按照步骤1、步骤2移动比对，直到找到所有外显子；

步骤4，从第一个外显子至最后一个外显子的DNA序列，即为所求的蛋白质调控基因。

可选地，所述步骤1中，如果mRNA的第一个碱基与DNA的第一位碱基不匹配，则将mRNA序列沿着DNA序列后移一位，然后比对；如果mRNA序列与DNA序列从第一位碱基开始匹配，则顺次比较下一位碱基，直到碱基无法比对上为止；记录下DNA序列中该段匹配的序列；然后将mRNA后移至不匹配的那个碱基，继续以上比对过程，无论长短记录下DNA序列中与mRNA序列从首位置开始重合的部分。

本发明的有益效果是：

(1)从根本上避免了对生物全基因组序列搜索的盲目性，可以有针对性地找到调控基因，提高了研究效率，并能保证研究的准确性。

(2)另一方面，本发明的方法无需大量的前期研究积累，便于针对单个生物进行独立研究，更适用于处理如今高通量的基因组数据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为真核生物调控蛋白质合成过程的原理示意图；

图2为氨基酸密码子表示意图；

图3为本发明利用mRNA寻找DNA序列中蛋白质调控基因过程中步骤一的原理示意图；

图4为本发明利用mRNA寻找DNA序列中蛋白质调控基因过程中步骤二的原理示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对亟待研究的蛋白质，本发明提出了一种基于密码子模板的真核生物功能基因序列搜索方法，通过蛋白质反推出mRNA，然后利用mRNA在生物全基因组序列中搜索出负责调控蛋白质合成的基因序列。

本发明的方法从根本上避免了对生物全基因组序列搜索的盲目性，可以有针对性地找到调控基因，提高了研究效率，并能保证研究的准确性。另一方面，本发明的方法无需大量的前期研究积累，便于针对单个生物进行独立研究，更适用于处理如今高通量的基因组数据。

真核生物调控蛋白质合成的过程如图1所示，其中过程1为剔除蛋白质调控基因中的内含子，合并外显子，生成mRNA；过程2为按照氨基酸密码子表中对应的编码方式由mRNA生成蛋白质，氨基酸密码子表如图2所示。

本发明的方法针对亟待研究的蛋白质，在已知蛋白质氨基酸的构成和顺序(即蛋白质一级结构)的基础上，利用氨基酸密码子表，可以反推出mRNA，即图1中过程2的逆过程，完成了对mRNA的复原；然后，利用mRNA寻找DNA序列中蛋白质调控基因的过程，即图1中过程1的逆过程。

下面给出本发明的方法中由密码子表反推mRNA的过程的一个具体实施例，由图2可见，三个核苷酸可以编码形成一个氨基酸，并且同一种氨基酸可以有不同的编码方式。例如，苯丙氨酸和谷氨酸有两种编码方式，甘氨酸则有四种编码方式，精氨酸有六种编码方式，而色氨酸则对应唯一编码方式，如表1所示。

表1

苯丙氨酸	甘氨酸	精氨酸	色氨酸
				UUU	GGU	CGU	UGG
UUC	GGC	CGC
					GGA	CGA
	GGG	CGG
						AGA
		AGG

假设亟待研究的蛋白质由苯丙氨酸、甘氨酸、精氨酸、色氨酸顺次组成，则在由密码子表反推mRNA的过程中，mRNA将会有2×4×6×1＝48种可能性。可能性越多，利用mRNA搜索调控基因的难度就越大。为方便计算，本发明的方法对密码子表做以下处理：

令X＝{U，C，A，G}，即X可以是U，C，A，G四个碱基中的任意一个；同样地，令Y＝{U，C}，Z＝{A，G}。则以上由苯丙氨酸、甘氨酸、精氨酸、色氨酸顺次组成的蛋白质可以精简为以下形式，如表2所示：

表2

苯丙氨酸	甘氨酸	精氨酸	色氨酸
				UUY	GGX	CGX	UGG
		AGZ

从而，在由密码子表反推mRNA的过程中，mRNA将会有1×1×2×1＝2种可能性，即UUY GGX CGX UGG和UUY GGX AGZ UGG两种编码方式。到此为止，本发明的方法完成了对mRNA的复原，即图1中过程2的逆过程。

下面介绍本方法中利用mRNA寻找DNA序列中蛋白质调控基因的过程，即图1中过程1的逆过程，具体包括以下步骤：

步骤1，取一条mRNA序列与DNA序列从头开始做比对。如果mRNA的第一个碱基与DNA的第一个碱基不匹配，则将mRNA序列沿着DNA序列后移一位，然后比对；如果mRNA序列与DNA序列从第一位碱基开始可以匹配，则顺次比较下一位碱基，直到碱基无法比对上为止。记录下DNA序列中该段匹配的序列。然后将mRNA后移至不匹配的那个碱基，继续以上比对过程，无论长短记录下DNA序列中与mRNA序列从首位置开始重合的部分，如图3所示。

步骤2，在DNA序列中所有与mRNA序列重合的部分中，选取最长的那一条，作为蛋白质调控基因中第一个外显子的序列。并且将mRNA序列中相应的部分截断去除，如图4所示。

步骤3，在DNA序列中，从第一个外显子之后的位置开始，继续按照步骤1、2的方法移动比对，直到找到所有外显子(即mRNA序列被从头至尾完全比对)。

经过以上4步，完成了利用mRNA寻找DNA序列中蛋白质调控基因的过程，即图1中过程1的逆过程。

本发明的方法实现了在外显子中插入内含子，从而实现了真正意义上的蛋白质调控基因的恢复，可以有效的在全基因组序列中定位出蛋白质调控序列的位置和长度，为下一步通过基因实现对该蛋白质的调控提供了理论基础。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于密码子模板的真核生物功能基因序列搜索方法，其特征在于，通过蛋白质反推出mRNA，然后利用mRNA在生物全基因组序列中寻找出负责调控蛋白质合成的基因序列；

在已知蛋白质氨基酸的构成和顺序的基础上，利用氨基酸密码子表，反推出mRNA，完成对mRNA的复原；

在mRNA的复原过程中，对氨基酸密码子表做以下处理：

令X＝{U，C，A，G}，X是U，C，A，G四个碱基中的任意一个；同理，令Y＝{U，C}，Z＝{A，G}，Y是U，C两个碱基中的任意一个，Z是A，G两个碱基中的任意一个；精简mRNA的编码形式；

利用mRNA寻找DNA序列中蛋白质调控基因的过程，具体步骤如下：

步骤1，取一条mRNA序列与DNA序列从头开始做比对；

2.如权利要求1所述的一种基于密码子模板的真核生物功能基因序列搜索方法，其特征在于，所述步骤1中，如果mRNA的第一个碱基与DNA的第一位碱基不匹配，则将mRNA序列沿着DNA序列后移一位，然后比对；如果mRNA序列与DNA序列从第一位碱基开始匹配，则顺次比较下一位碱基，直到碱基无法比对上为止；记录下DNA序列中该段匹配的序列；然后将mRNA后移至不匹配的那个碱基，继续以上比对过程，无论长短记录下DNA序列中与mRNA序列从首位置开始重合的部分。