CN107480473A - 一种基于密码子模板的真核生物功能基因序列搜索方法 - Google Patents

一种基于密码子模板的真核生物功能基因序列搜索方法 Download PDF

Info

Publication number
CN107480473A
CN107480473A CN201710610516.1A CN201710610516A CN107480473A CN 107480473 A CN107480473 A CN 107480473A CN 201710610516 A CN201710610516 A CN 201710610516A CN 107480473 A CN107480473 A CN 107480473A
Authority
CN
China
Prior art keywords
sequence
mrna
dna
protein
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710610516.1A
Other languages
English (en)
Other versions
CN107480473B (zh
Inventor
王珣
宋弢
朱虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN201710610516.1A priority Critical patent/CN107480473B/zh
Publication of CN107480473A publication Critical patent/CN107480473A/zh
Application granted granted Critical
Publication of CN107480473B publication Critical patent/CN107480473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提出了一种基于密码子模板的真核生物功能基因序列搜索方法,通过蛋白质反推出mRNA,然后利用mRNA在生物全基因组序列中搜索出负责调控蛋白质合成的基因序列。本发明的方法实现了在外显子中插入内含子,从而实现了真正意义上的蛋白质调控基因的恢复,可以有效的在全基因组序列中定位出蛋白质调控序列的位置和长度,为下一步通过基因实现对该蛋白质的调控提供了理论基础。

Description

一种基于密码子模板的真核生物功能基因序列搜索方法
技术领域
本发明涉及基因技术领域,特别涉及一种基于密码子模板的真核生物功能基因序列搜索方法。
背景技术
真核生物的功能基因序列由外显子和内含子两部分交叉组成。在翻译成蛋白质的过程中,内含子被切除掉,外显子连接在一起形成mRNA。最终由mRNA指导蛋白质的合成,这个过程是按照mRNA到蛋白质的密码子表对应完成的。
随着二代生物基因组测序技术的发展,对生物蛋白质产物的调控集中到了基因层面。基于以上蛋白质形成过程,如果可以在生物全基因组中找到调控蛋白质合成的那段基因,则可以通过对该段基因的调节,实现对蛋白质产物的控制。
以往该方面的科学研究,多由生物的全基因组序列着手,通过对全基因组序列的直接挖掘找出调控蛋白质的基因。
通过对生物全基因组数据直接挖掘的方法发现蛋白质调控基因,这种方法无异于大海捞针。这是由于生物全基因组序列数据的海量性,加之蛋白质调控基因相对而言比较短小,并且蛋白质调控基因在全基因组中并无明显标志性特点。目前成功的基因挖掘工作,都是在全基因组数据挖掘的基础上,通过生物同属同科间保守序列的比对,来确定疑似蛋白质调控基因,然后通过基因敲除实验,验证该疑似蛋白质调控基因的真伪。这种研究方法有两个显著缺点:
(1)针对某种生物的研究,需要建立在该生物的同属同科生物基因已被充分挖掘的基础上,否则,无法通过同属同科生物间的保守序列比对确定疑似基因。这就使得研究只能针对某些已有大量研究基础的“热门”生物,而这种研究基础本身也需要多年的积累,显然这种研究模式已经不适用于当今多物种的高通量生物基因组数据研究。
(2)通过生物同属同科间保守序列的比对来确定疑似蛋白质调控基因,这种方法本身就存在很大的误差,有可能出现多个疑似调控基因的序列,这就需要进一步通过生物实验的方式,逐一验证并最终确定调控基因。这不但使得研究成本提高,研究周期加长,同时也会由于实验操作准确性等问题,造成研究结果的误差。
发明内容
针对上述现有技术中存在的不足,本发明提出了一种基于密码子模板的真核生物功能基因序列搜索方法。
本发明的技术方案是这样实现的:
一种基于密码子模板的真核生物功能基因序列搜索方法,通过蛋白质反推出mRNA,然后利用mRNA在生物全基因组序列中搜索出负责调控蛋白质合成的基因序列。
可选地,在已知蛋白质氨基酸的构成和顺序的基础上,利用氨基酸密码子表,反推出mRNA,完成对mRNA的复原。
可选地,在mRNA的复原过程中,对氨基酸密码子表做以下处理:
令X={U,C,A,G},X是U,C,A,G四个碱基中的任意一个;同理,令Y={U,C},Z={A,G},Y是U,C两个碱基中的任意一个,Z是A,G两个碱基中的任意一个;精简mRNA的编码形式。
可选地,利用mRNA寻找DNA序列中蛋白质调控基因的过程,具体步骤如下:
步骤1,取一条mRNA序列与DNA序列从头开始做比对;
步骤2,在DNA序列中所有与mRNA序列重合的部分中,选取最长的那一条,作为蛋白质调控基因中第一个外显子的序列,并且将mRNA序列中相应的部分截断去除;
步骤3,在DNA序列中,从第一个外显子之后的位置开始,继续按照步骤1、步骤2移动比对,直到找到所有外显子;
步骤4,从第一个外显子至最后一个外显子的DNA序列,即为所求的蛋白质调控基因。
可选地,所述步骤1中,如果mRNA的第一个碱基与DNA的第一位碱基不匹配,则将mRNA序列沿着DNA序列后移一位,然后比对;如果mRNA序列与DNA序列从第一位碱基开始匹配,则顺次比较下一位碱基,直到碱基无法比对上为止;记录下DNA序列中该段匹配的序列;然后将mRNA后移至不匹配的那个碱基,继续以上比对过程,无论长短记录下DNA序列中与mRNA序列从首位置开始重合的部分。
本发明的有益效果是:
(1)从根本上避免了对生物全基因组序列搜索的盲目性,可以有针对性地找到调控基因,提高了研究效率,并能保证研究的准确性。
(2)另一方面,本发明的方法无需大量的前期研究积累,便于针对单个生物进行独立研究,更适用于处理如今高通量的基因组数据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为真核生物调控蛋白质合成过程的原理示意图;
图2为氨基酸密码子表示意图;
图3为本发明利用mRNA寻找DNA序列中蛋白质调控基因过程中步骤一的原理示意图;
图4为本发明利用mRNA寻找DNA序列中蛋白质调控基因过程中步骤二的原理示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对亟待研究的蛋白质,本发明提出了一种基于密码子模板的真核生物功能基因序列搜索方法,通过蛋白质反推出mRNA,然后利用mRNA在生物全基因组序列中搜索出负责调控蛋白质合成的基因序列。
本发明的方法从根本上避免了对生物全基因组序列搜索的盲目性,可以有针对性地找到调控基因,提高了研究效率,并能保证研究的准确性。另一方面,本发明的方法无需大量的前期研究积累,便于针对单个生物进行独立研究,更适用于处理如今高通量的基因组数据。
真核生物调控蛋白质合成的过程如图1所示,其中过程1为剔除蛋白质调控基因中的内含子,合并外显子,生成mRNA;过程2为按照氨基酸密码子表中对应的编码方式由mRNA生成蛋白质,氨基酸密码子表如图2所示。
本发明的方法针对亟待研究的蛋白质,在已知蛋白质氨基酸的构成和顺序(即蛋白质一级结构)的基础上,利用氨基酸密码子表,可以反推出mRNA,即图1中过程2的逆过程,完成了对mRNA的复原;然后,利用mRNA寻找DNA序列中蛋白质调控基因的过程,即图1中过程1的逆过程。
下面给出本发明的方法中由密码子表反推mRNA的过程的一个具体实施例,由图2可见,三个核苷酸可以编码形成一个氨基酸,并且同一种氨基酸可以有不同的编码方式。例如,苯丙氨酸和谷氨酸有两种编码方式,甘氨酸则有四种编码方式,精氨酸有六种编码方式,而色氨酸则对应唯一编码方式,如表1所示。
表1
苯丙氨酸 甘氨酸 精氨酸 色氨酸
UUU GGU CGU UGG
UUC GGC CGC
GGA CGA
GGG CGG
AGA
AGG
假设亟待研究的蛋白质由苯丙氨酸、甘氨酸、精氨酸、色氨酸顺次组成,则在由密码子表反推mRNA的过程中,mRNA将会有2×4×6×1=48种可能性。可能性越多,利用mRNA搜索调控基因的难度就越大。为方便计算,本发明的方法对密码子表做以下处理:
令X={U,C,A,G},即X可以是U,C,A,G四个碱基中的任意一个;同样地,令Y={U,C},Z={A,G}。则以上由苯丙氨酸、甘氨酸、精氨酸、色氨酸顺次组成的蛋白质可以精简为以下形式,如表2所示:
表2
苯丙氨酸 甘氨酸 精氨酸 色氨酸
UUY GGX CGX UGG
AGZ
从而,在由密码子表反推mRNA的过程中,mRNA将会有1×1×2×1=2种可能性,即UUY GGX CGX UGG和UUY GGX AGZ UGG两种编码方式。到此为止,本发明的方法完成了对mRNA的复原,即图1中过程2的逆过程。
下面介绍本方法中利用mRNA寻找DNA序列中蛋白质调控基因的过程,即图1中过程1的逆过程,具体包括以下步骤:
步骤1,取一条mRNA序列与DNA序列从头开始做比对。如果mRNA的第一个碱基与DNA的第一个碱基不匹配,则将mRNA序列沿着DNA序列后移一位,然后比对;如果mRNA序列与DNA序列从第一位碱基开始可以匹配,则顺次比较下一位碱基,直到碱基无法比对上为止。记录下DNA序列中该段匹配的序列。然后将mRNA后移至不匹配的那个碱基,继续以上比对过程,无论长短记录下DNA序列中与mRNA序列从首位置开始重合的部分,如图3所示。
步骤2,在DNA序列中所有与mRNA序列重合的部分中,选取最长的那一条,作为蛋白质调控基因中第一个外显子的序列。并且将mRNA序列中相应的部分截断去除,如图4所示。
步骤3,在DNA序列中,从第一个外显子之后的位置开始,继续按照步骤1、2的方法移动比对,直到找到所有外显子(即mRNA序列被从头至尾完全比对)。
步骤4,从第一个外显子至最后一个外显子的DNA序列,即为所求的蛋白质调控基因。
经过以上4步,完成了利用mRNA寻找DNA序列中蛋白质调控基因的过程,即图1中过程1的逆过程。
本发明的方法实现了在外显子中插入内含子,从而实现了真正意义上的蛋白质调控基因的恢复,可以有效的在全基因组序列中定位出蛋白质调控序列的位置和长度,为下一步通过基因实现对该蛋白质的调控提供了理论基础。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于密码子模板的真核生物功能基因序列搜索方法,其特征在于,通过蛋白质反推出mRNA,然后利用mRNA在生物全基因组序列中搜索出负责调控蛋白质合成的基因序列。
2.如权利要求1所述的一种基于密码子模板的真核生物功能基因序列搜索方法,其特征在于,在已知蛋白质氨基酸的构成和顺序的基础上,利用氨基酸密码子表,反推出mRNA,完成对mRNA的复原。
3.如权利要求2所述的一种基于密码子模板的真核生物功能基因序列搜索方法,其特征在于,在mRNA的复原过程中,对氨基酸密码子表做以下处理:
令X={U,C,A,G},X是U,C,A,G四个碱基中的任意一个;同理,令Y={U,C},Z={A,G},Y是U,C两个碱基中的任意一个,Z是A,G两个碱基中的任意一个;精简mRNA的编码形式。
4.如权利要求1所述的一种基于密码子模板的真核生物功能基因序列搜索方法,其特征在于,利用mRNA寻找DNA序列中蛋白质调控基因的过程,具体步骤如下:
步骤1,取一条mRNA序列与DNA序列从头开始做比对;
步骤2,在DNA序列中所有与mRNA序列重合的部分中,选取最长的那一条,作为蛋白质调控基因中第一个外显子的序列,并且将mRNA序列中相应的部分截断去除;
步骤3,在DNA序列中,从第一个外显子之后的位置开始,继续按照步骤1、步骤2移动比对,直到找到所有外显子;
步骤4,从第一个外显子至最后一个外显子的DNA序列,即为所求的蛋白质调控基因。
5.如权利要求4所述的一种基于密码子模板的真核生物功能基因序列搜索方法,其特征在于,所述步骤1中,如果mRNA的第一个碱基与DNA的第一位碱基不匹配,则将mRNA序列沿着DNA序列后移一位,然后比对;如果mRNA序列与DNA序列从第一位碱基开始匹配,则顺次比较下一位碱基,直到碱基无法比对上为止;记录下DNA序列中该段匹配的序列;然后将mRNA后移至不匹配的那个碱基,继续以上比对过程,无论长短记录下DNA序列中与mRNA序列从首位置开始重合的部分。
CN201710610516.1A 2017-07-18 2017-07-18 一种基于密码子模板的真核生物功能基因序列搜索方法 Active CN107480473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710610516.1A CN107480473B (zh) 2017-07-18 2017-07-18 一种基于密码子模板的真核生物功能基因序列搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710610516.1A CN107480473B (zh) 2017-07-18 2017-07-18 一种基于密码子模板的真核生物功能基因序列搜索方法

Publications (2)

Publication Number Publication Date
CN107480473A true CN107480473A (zh) 2017-12-15
CN107480473B CN107480473B (zh) 2021-02-26

Family

ID=60596682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710610516.1A Active CN107480473B (zh) 2017-07-18 2017-07-18 一种基于密码子模板的真核生物功能基因序列搜索方法

Country Status (1)

Country Link
CN (1) CN107480473B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693369A (zh) * 2011-03-24 2012-09-26 上海聚类生物科技有限公司 一种基于基因序列表达分析的LncRNA发掘方法
CN106191040A (zh) * 2015-04-30 2016-12-07 杭州菁因康生物科技有限公司 新型基因打靶方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693369A (zh) * 2011-03-24 2012-09-26 上海聚类生物科技有限公司 一种基于基因序列表达分析的LncRNA发掘方法
CN106191040A (zh) * 2015-04-30 2016-12-07 杭州菁因康生物科技有限公司 新型基因打靶方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MINSEO PARK等: "Detection and Prediction of Alternative Splicing within Acceptor Donor Sites in pre-mRNA of Arabidopsis thaliana", 《2007 IEEE 7TH INTERNATIONAL SYMPOSIUM ON BIOINFORMATICS AND BIOENGINEERING》 *
郑会芹: "山羊TRP1基因序列分析及SNPs研究", 《中国优秀硕士论文全文数据库》 *

Also Published As

Publication number Publication date
CN107480473B (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
Saether et al. Elucidation of the primary and three-dimensional structure of the uterotonic polypeptide kalata B1
Wipke et al. Artificial intelligence in organic synthesis. SST: starting material selection strategies. An application of superstructure search
CA2341143A1 (en) Production of motif-specific and context-independent antibodies using peptide libraries as antigens
ATE309342T1 (de) Verfahren zur herstellung in vitro von rekombinierten nucleotidsequenzen, und so hergestelte genbanken und sequenzen
WO2002026934A3 (en) System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map
Kime et al. Nuclear Overhauser experiments at 500 MHz on the downfield proton spectrum of a ribonuclease-resistant fragment of 5S ribonucleic acid
WO2002006834A3 (en) Nested sorting and high throughput screening
Chen et al. A case study in genome-level fragment assembly
CN107480473A (zh) 一种基于密码子模板的真核生物功能基因序列搜索方法
Han et al. Structural alignment of pseudoknotted RNA
WO2001037147A3 (en) Apparatus and method for structure-based prediction of amino acid sequences
WO2001018627A3 (en) Method and apparatus for computer automated detection of protein and nucleic acid targets of a chemical compound
CN108753994A (zh) 一种基于转录组的准确高效的真核生物基因鉴定方法
CN105069325B (zh) 一种对核酸序列信息进行匹配的方法
EP0335139A3 (en) National language support system without external files
Hadi et al. Optimization of signal phasing and timing using cauchy simulated annealing
Simon Sequence comparison: some theory and some practice
US9348968B2 (en) System and method for processing genome sequence in consideration of seed length
ATE541264T1 (de) Profil-suche in nuclein-säuresequenzen mit schneller fourier-transformation
DE60229518D1 (de) Verfahren zur rehydratation von aktiven trockenen hefen und rehydratationsmedium
WO2002091287A3 (en) Determining structures by performing comparisons between molecular replacement results for multiple different biomolecules
CN107312788B (zh) 一种tale重复序列载体的构建方法
CN117174164B (zh) 基于预测蛋白质-小分子结合姿势筛选先导化合物的方法
CN110534158A (zh) 一种基因序列比对方法、装置、服务器及介质
CN109468310A (zh) Dna编码碎片分子库的合成方法和连接基团的筛选方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant