CN1584027A - Rna全序列特征可视化提取方法 - Google Patents

Rna全序列特征可视化提取方法 Download PDF

Info

Publication number
CN1584027A
CN1584027A CN 200410025035 CN200410025035A CN1584027A CN 1584027 A CN1584027 A CN 1584027A CN 200410025035 CN200410025035 CN 200410025035 CN 200410025035 A CN200410025035 A CN 200410025035A CN 1584027 A CN1584027 A CN 1584027A
Authority
CN
China
Prior art keywords
sequence
rule
rna
cellular
evolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200410025035
Other languages
English (en)
Other versions
CN1257974C (zh
Inventor
王猛
黄振德
杨杰
刘国平
徐志节
姚莉秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN 200410025035 priority Critical patent/CN1257974C/zh
Publication of CN1584027A publication Critical patent/CN1584027A/zh
Application granted granted Critical
Publication of CN1257974C publication Critical patent/CN1257974C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种RNA全序列特征可视化提取方法,主要包括数据预处理、规则选取、元胞自动机CA方法应用及序列图像生成,首先对得到的RNA序列中每个脱氧核糖核酸“A”“T” “G”“U”进行编码,引入一维元胞自动机模型,选用特定的元胞自动机规则对编码后的“0”“1”基因序列进行演化,即元胞的下一时刻的状态由元胞和它的左右两个相邻元胞当前时刻的状态按照演化规则来决定,经若干次演化后形成一个“0”“1”二维矩阵,将二维矩阵转化为黑白图像并进行缩放,得到具有RNA全序列特征可视化图形。本发明方法具有全序列分析,直观性,敏感性和普适性的特点,从生成的可视化序列图像中可得到不同基因序列具有的特征。

Description

RNA全序列特征可视化提取方法
技术领域
本发明是一种RNA全序列特征可视化提取方法,涉及图像处理、模式识别和传统的基因序列分析的技术,与传统RNA序列比对分析方法不同,能比较形象地反映基因序列的特性。
背景技术
二十一世纪是生物的世纪,在人类基因组计划完成后,生物学家把更多的目光投向基因序列分析。传统的基因序列分析方法中,有相当的部分是通过基因序列比对来完成的。而传统的基因序列比对主要通过基因对齐,逐一碱基比对来完成的,其中比较典型的方法是用BLAST等非常成熟的软件来完成(http://www.ncbi.nlm.nih.gov/BLAST)。用该软件可以比较容易地反映碱基的缺失、插入、变异。这种方法虽然可以很简单地得到基因变异,但得到的结果并不直观。而其它基因的序列分析方法,如蛋白质二级结构【Kuo-ChenChou,2000,Prediction of Protein structural classes and Subcellular locations,CurretnProtein and Peptide Science.2000】,通过特定的结构来分析基因某部分的可能的功能。这些分析方法又过于倾向于局部的功能。
20世纪50年代,计算机创始人、著名数学家冯·诺依曼(Von Neumann)曾希望通过特定的程序在计算机上实现类似于生物体发育中细胞的自我复制【Wolfram S.2002.A New Kind of Science.Wolfram Media Inc.,Champaign,IL】。他提出了一个简单的模式,把一个长方形平面分成若干个网格,每个网格点表示一个细胞或系统的基元,它们的状态赋值为0或1,在网格中用空格或实格表示,在事先设定的规则下,细胞或基元的演化用网格的实格或空格的变动来描述。这样的模型就是元胞自动机。而S.Wolfram的潜心研究则充分展示了元胞自动机(CellularAutomation,CA)用简单规则模拟复杂系统的强大能力【Wolfram S.1984.Cellularautomation as models of complexity.Nature 311,419-424.】。元胞自动机为物理、生物和计算机科学提供一种简单模型,正是利用这些简单模型的“反复计算”,可以模拟复杂系统的离散模型。该方法在使用简单规则模拟复杂系统上的应用非常有效,但未用于生物序列的分析上。为了分析基因序列这种超乎寻常的复杂系统,使用CA方法将其可视化,然后分析生成的图像,从而得到不同基因序列具有的特点,是一个新的研究课题。
发明内容
本发明的目的在于针对传统的基因序列分析方法中存在的基因变异结果不直观,或是功能分析不全面等缺点,提供一种RNA全序列特征可视化提取方法,可从生成的基因可视化图像中得到不同基因序列具有的特征,进而分析利用其序列特征进行医学研究。
为实现这样的目的,本发明的基于元胞自动机的RNA全序列可视化提取方法,主要包括数据预处理、规则选取、元胞自动机CA方法应用及序列图像生成四个步骤。首先对得到的RNA序列中每个脱氧核糖核酸“A“”T“”G“”U”进行编码,引入一维元胞自动机CA模型,选用特定的元胞自动机规则对编码后的“0”“1”基因序列进行演化,即元胞的下一时刻的状态由元胞和它的左右两个相邻元胞当前时刻的状态按照演化规则来决定,经若干次演化后形成一个“0”“1”二维矩阵,将二维矩阵转化为黑白图像并进行缩放,得到具有RNA全序列特征可视化图形。
本发明的方法按如下具体步骤进行:
1.数据预处理
首先对得到的RNA序列中每个脱氧核糖核酸“A“”T“”G“”U”进行编码,将RNA序列转换为“0”“1”序列,具体为:A=00 U=01 G=10 T=11,并在序列的两端各补上一个0。
对RNA序列处理,如果直接用原始的ATGU字符组成的RNA序列处理,计算量会非常大。如果对RNA进行编码,将RNA序列转换为0,1序列,则计算量会小许多。将核苷酸序列按照上述方式编码后,新序列的长度就为原始序列的两倍。为了让序列两端的元胞也参加运算,可以在序列的两端各补上一个0。
2.元胞自动机CA方法规则的选取
对于编码后的“0”“1”,在元胞自动机CA法三点定一点的规则中选定一条区分性最好的规则作为演化规则。
对于CA方法中三点定一点的规则数一共有256条,所以需要根据具体情况对所有规则进行比较后,在其中选择一条区分性最好的规则进行演化。本发明主要选择第184号演化规则。
3.元胞自动机CA的应用
本发明在基因序列中引入了一维元胞自动机模型。在这一模型中,所有的元胞分布在一维直线上。对于基因序列,按照选定的元胞自动机规则对编码后的“0”“1”基因序列演化,即元胞的下一时刻的状态由元胞和它的左右两个相邻元胞当前时刻的状态按照演化规则来决定。
将已编码的原始基因序列作为第一行,把对第一行进行演化的结果作为第二行,把对第二行进行演化的结果作为第三行,依次类推。须注意,除了第一行的序列两端需要补零,每次演化后的新序列也在其序列两端各补上一个0,以便于下一步的演化运算。经过若干次的演化后,就可以形成一个“0”“1”二维矩阵。
4.序列图像的生成
定义“0”“1”二维矩阵中“0”表示黑色,“1”表示白色,使用可视化技术,将二维矩阵转化为一个黑白相间的二值图像。由于上述图像太大,以至于不可能直接分析原始图像的特点。本发明对图像进行水平和垂直方向变换缩小,得到具有RNA全序列特征的可视化图形。
本发明所收集的相关基因序列,最好能找到相关的可以相互比较基因全序列,这点一般都可以做到。选择规则的时候,可以从基因全序列中选择一个可以接受的片断,如3000个碱基。然后使用选定的适当规则,进行基因序列演化,从生成的可视化序列图像中可寻找得到不同基因序列具有的特征,发现规律。
与传统的序列比对方法相比较,本发明方法具有全序列分析,直观性,敏感性和普适性的特点。首先本方法是对全序列进行分析,可以考虑序列间的长程相互影响作用并给出序列本质的排列组合特征。而传统的序列分析方法只能通过比对得出突变点的位置和内容,并不能给出序列具有的组成特点。本方法是将序列转化为二维图像,利用人的视觉对图像敏感的特点发现生成图像的特征。而传统的方法是对一维序列直接进行分析,很显然,这是很抽象繁琐的过程。本方法对于序列中的少数突变点具有敏感性,也就是可以放大序列间的差别。通过对大量病毒序列的分析,本方法通过选取不同的规则可以将不同类别的病毒加以区分,也就是说本发明的这种方法具有普适性。
附图说明
图1为元胞自动机CA方法规则中184规则的示意图。
图1中自左到右分别说明了,“0”“1”序列中上一行三点可能出现的8种排列组合,以及在下一行相应位置应该取的值。
图2为与图1对应的184规则的数字表述形式。
意义和图一相同,只是用数字1,0分别表示白色和黑色。
图3为冠状病毒229E原图(非SARS)。
图4为冠状病毒Sin2774原图(SARS)。
具体实施方式
以下结合附图和实施例对本发明的技术方案作进一步描述。
本发明以SARS病毒序列分析为例说明其具体的实施方式。SARS的原名为严重急性呼吸综合症,是冠状病毒(coronavirus)引起的一种呼吸道急性传染疾病。本发明从NCBI网站上下载66种不同SARS病毒的RNA序列,每种病毒序列的长度大约在29700左右。对这些SARS病毒序列进行可视化处理,进行分析,寻找SARS序列的基本特征,比较与非SARS冠状病毒序列有哪些的不同点,从而可以利用SARS病毒的序列特征。表格1中列出了SARS病毒的RNA序列,表格2中列出了非SARS冠状病毒的RNA序列。
        表格1:SARS病毒序列
SARS        Accession       Length     SARS         Accession     Length
BJ01        AY278488        29725      TC1          AY338174      29573
BJ02        AY278487        29745      HSR1         AY323977      29751
BJ03        AY278490        29740      Frankfurt1   AY291315      29727
BJ04        AY279354        29732      AS           AY427439      29711
GZ01        AY278489        29757      CUHK-        AY345986      29736
ZJ01        AY297028        29714      CUHK-        AY345987      29736
HKU39849    AY278491        29742      CUHK-        AY345988      29736
CUHK W1     AY278554        29736      GD69         AY313906      29754
CUHK Su10   AY282752        29736      PUMC01       AY350750      29738
Sin2500     AY283794        29711      PUMC02       AY357075      29738
Sin2677     AY283795        29705      PUMC03       AY357076      29745
Sin2679     AY283796        29711      Sino1-11     AY485277      29741
Sin2748     AY283797        29705      Sino3-11     AY485278      29740
Sin2774     AY283798        29729      SoD          AY461660      29715
TW1         AY291451        29714      GZ02         AY390556      29760
Urbani      AY278741        29727      ZS-C         AY395003      29647
Tor2        NC 004718       29751      LC5          AY395002      29350
GZ50        AY304495        29720      LC4          AY395001      29350
SZ16        AY304488        29731      LC3          AY395000      29350
SZ3         AY304486        29741      LC2          AY394999      29350
FRA         AY310120        29740      LC1          AY394998      29736
GD01        AY278489        29757      ZS-A         AY394997      29683
TWC         AY321118        29725      ZS-B         AY394996      29683
TWC2        AY362698        29727      HSZ-Cc       AY394995      29765
TWC3        AY362699        29727      HSZ-Bc       AY394994      29765
ZMY1        AY351680        29749      HGZ8L2       AY394993      29736
TWY         AP006561        29727      HZS2-C       AY394992      29736
TWS         AP006560        29727      HZS2-Fc      AY394991      29736
TWK         AP006559        29727      HZS2-E       AY394990      29736
TWJ         AP006558        29725      HZS2-D       AY394989      29736
TWH                 AP006557      29727       HZS2-Fb      AY394987    29709
TC3                 AY348314      29573       HSZ-Cb       AY394986    29729
TC2                 AY338175      29573       HSZ-Bb       AY394985    29530
表格2:非SARS冠状病毒
Non-SARS genome       Accession      Length     Non-SARS genome      Accession      Length
D13096 Avian          D13096         27608      AY391777 HCoV-       AY391777       30738
AJ311317 Avian 1      AJ311317       27635      NC 005147 HCoV-      NC 005147      30738
U00735 Bovine         U00735         31032      AF304460 229E        AF304460       27317
AF220295 Bovine1      AF220295       31100      AF029248 Murine      AF029248       31357
NC 003436 Porcine     NC 003436      28033      AF208066 Murine      AF208066       31112
AF353511 Porcine1     AF353511       28033      NC 003045 Bovine     NC 003045      31028
NC 002645 229E        NC 002645      27317      NC 001451 Avian      NC 001451      27608
NC 001846 Murine      NC 001846      31357      AY319651 Avian       AY319651       27733
AF208067 Murine1      AF208067       31233      AF391542 Bovine      AF391542       31028
AF207902 Murine2      AF207902       31217      AF391541 Bovine      AF391541       31028
AF029248 Murine4      AF029248       31357      AF201929 Murine      AF201929       31276
NC 002306 Tran S      NC 002306      28586      AJ271965 Trans       AJ271965       28586
本发明方法按如下步骤进行:
1、数据预处理
对RNA序列进行编码,将RNA序列转换为“0”“1”序列,编码具体方式为:A=00 U=01 G=10 T=11。为了让序列两端的元胞也参加运算,可以在序列的两端各补上一个0。
2、CA方法规则的选取
本发明在CA三点定一点的256条规则中,选择184号规则进行演化。第184号演化规则如图1所示,其中白格表示编码1,黑格表示编码0,所以第184条演化规则的数字表述形式也可由图2所示。以第三种情况为例(从左数):当上一行三点分别是白,黑,白的组合时,下一行对应于中间点的位置应当取白色。
3、CA方法的应用
首先将原始的基因序列作为起始行,按照184规则从左至右依次生成下一行对应点,这样生成第二行序列。然后对生成的第二行再按照规则184进行演化。重复以上步骤2400次得到一个“0”“1”矩阵。注意序列两边需要补0,以使计算可以进行。使用184规则三点定一点的原则,对一维的“0”“1”序列运行2400次得到一个二维的“0”“1”矩阵,大小是2400*N,N是“0”“1”序列的长度。
4、序列图像的生成
定义“0”“1”二维矩阵中“0”表示黑色,“1”表示白色,使用可视化技术,将二维矩阵转换为一个黑白相间的二值图像,大小为60Kb×2.4Kb。这样做的优点是可以发挥人对图像的敏感性,从而非常方便地发现图像中的图案、规律等,从另外一个方面来研究基因序列。由于上述图像太大,以至于不可能直接分析原始图像的特点,所以还需对序列进行缩放,以发现图形特征。本发明利用如下的步骤对所有的图像进行变换:(1)水平方向缩小1/4,垂直方向缩小1/3.5;(2)水平方向再缩小1/3.5。受计算精度影响,全部的缩小尺寸是水平方向缩小到原来的1/14.007,垂直方向缩小到原来的1/2。最后得到具有RNA全序列特征的可视化图形。
最终根据上述结果,从图像特征提取到相关规则。图3为非SARS冠状病毒229E原图,图4为SARS冠状病毒Sin2774原图。从图3、4中可以明显的看到,SARS基因序列所形成的图像中有非常明显的V字形交叉区域,并且区域比较大,而非SARS基因序列所形成的图案则没有这样多的特征,主要是平行区域。这样一个显著的特点给我们一个区分SARS-CoV序列和非SARS序列的视觉准则。比较66个SARS-CoV和24个非SARS序列的图像,可以发现所有的SARS-CoV图像中都含有6个V字形交叉区域,且这些区域的位置分布一致,大约在84-2483nt、3040-5439nt、5592-7991nt、12050-14449nt、16412-18811nt和19677-22076nt。这些特征是SARS所特有的,即6个V形区域可以被认为是SARS病毒的特征。

Claims (2)

1、一种RNA全序列特征可视化提取方法,其特征在于包括如下具体步骤:
1)首先对得到的RNA序列中每个脱氧核糖核酸“A“”T“”G“”U”进行编码,将RNA序列转换为“0”“1”序列,具体为:A=00 U=01 G=10 T=11,并在序列的两端各补上一个0;
2)在元胞自动机CA法三点定一点的规则中选定一条区分性最好的规则作为演化规则;
3)在基因序列中引入一维元胞自动机模型,在这一模型中,所有的元胞分布在一维直线上,按照选定的元胞自动机规则对编码后的“0”“1”基因序列演化,即元胞的下一时刻的状态由元胞和它的左右两个相邻元胞当前时刻的状态按照演化规则来决定,将已编码的原始基因序列作为第一行,把对第一行进行演化的结果作为第二行,把对第二行进行演化的结果作为第三行,依次类推,每次演化后的新序列在其序列两端各补上一个0,经过若干次的演化后,形成一个“0”“1”二维矩阵;
4)定义“0”“1”二维矩阵中“0”表示黑色,“1”表示白色,使用可视化技术,将二维矩阵转化为一个黑白相间的二值图像,并对图像进行水平和垂直方向变换缩小,得到具有RNA全序列特征的可视化图形。
2、如权利要求1的RNA全序列特征可视化提取方法,其特征在于所述演化规则选择第184号规则。
CN 200410025035 2004-06-10 2004-06-10 Rna全序列特征可视化提取方法 Expired - Fee Related CN1257974C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200410025035 CN1257974C (zh) 2004-06-10 2004-06-10 Rna全序列特征可视化提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200410025035 CN1257974C (zh) 2004-06-10 2004-06-10 Rna全序列特征可视化提取方法

Publications (2)

Publication Number Publication Date
CN1584027A true CN1584027A (zh) 2005-02-23
CN1257974C CN1257974C (zh) 2006-05-31

Family

ID=34601109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200410025035 Expired - Fee Related CN1257974C (zh) 2004-06-10 2004-06-10 Rna全序列特征可视化提取方法

Country Status (1)

Country Link
CN (1) CN1257974C (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122371A (zh) * 2010-12-15 2011-07-13 西安交通大学 一种基于迭代函数的遗传信息二维可视化加密方法
CN102546158A (zh) * 2011-12-22 2012-07-04 河海大学 一种基于奇偶元胞自动机的分组加密方法
CN102708308A (zh) * 2012-03-31 2012-10-03 常熟市支塘镇新盛技术咨询服务有限公司 一种dna序列的可视化方法
CN106295245A (zh) * 2016-07-27 2017-01-04 广州麦仑信息科技有限公司 基于Caffe的堆栈降噪自编码基因信息特征提取的方法
CN107679551A (zh) * 2017-09-11 2018-02-09 电子科技大学 一种基于分形的涌现现象的识别方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122371A (zh) * 2010-12-15 2011-07-13 西安交通大学 一种基于迭代函数的遗传信息二维可视化加密方法
CN102122371B (zh) * 2010-12-15 2014-08-06 西安交通大学 一种基于迭代函数的遗传信息二维可视化加密方法
CN102546158A (zh) * 2011-12-22 2012-07-04 河海大学 一种基于奇偶元胞自动机的分组加密方法
CN102546158B (zh) * 2011-12-22 2014-05-07 河海大学 一种基于奇偶元胞自动机的分组加密方法
CN102708308A (zh) * 2012-03-31 2012-10-03 常熟市支塘镇新盛技术咨询服务有限公司 一种dna序列的可视化方法
CN106295245A (zh) * 2016-07-27 2017-01-04 广州麦仑信息科技有限公司 基于Caffe的堆栈降噪自编码基因信息特征提取的方法
CN106295245B (zh) * 2016-07-27 2019-08-30 广州麦仑信息科技有限公司 基于Caffe的堆栈降噪自编码基因信息特征提取的方法
CN107679551A (zh) * 2017-09-11 2018-02-09 电子科技大学 一种基于分形的涌现现象的识别方法
CN107679551B (zh) * 2017-09-11 2020-06-16 电子科技大学 一种基于分形的涌现现象的识别方法

Also Published As

Publication number Publication date
CN1257974C (zh) 2006-05-31

Similar Documents

Publication Publication Date Title
Strimmer et al. Quartet puzzling: a quartet maximum-likelihood method for reconstructing tree topologies
EP2383670A1 (en) Computer-implemented method, computer readable storage medium and apparatus for identification of a biological sequence
Bailey Discovering novel sequence motifs with MEME
CN105765592A (zh) 酶变体的自动筛选
CN1855088A (zh) 学习辅助系统
CN1514397A (zh) 人眼探测方法、设备、系统和存储介质
Girgis MeShClust v3. 0: high-quality clustering of DNA sequences using the mean shift algorithm and alignment-free identity scores
Milinkovitch et al. 2× genomes-depth does matter
CN1584027A (zh) Rna全序列特征可视化提取方法
Poladian et al. Multi-objective evolutionary algorithms and phylogenetic inference with multiple data sets
Cao et al. SAILER: scalable and accurate invariant representation learning for single-cell ATAC-seq processing and integration
Fraser et al. Microarray image analysis: an algorithmic approach
Navas et al. Application of proteomics in phylogenetic and evolutionary studies
Schuster Artificial life and molecular evolutionary biology
Shapiro et al. Graphical exploratory data analysis of RNA secondary structure dynamics predicted by the massively parallel genetic algorithm
Cotta et al. A memetic-aided approach to hierarchical clustering from distance matrices: application to gene expression clustering and phylogeny
CN1409838A (zh) 数据可视化
Krawczyk Experiments in architectural form generation using cellular automata
CN1670764A (zh) 基于遗传算法的人脸样本生成方法
Stepanyan A multiscale model of nucleic acid imaging
Safoury et al. Enriched dna strands classification using cgr images and convolutional neural network
CN114170247A (zh) 深度图像的分割方法及系统
US20050177315A1 (en) Feature extraction of partial microarray images
Peng et al. Detecting network motifs in gene co-expression networks through integration of protein domain information
Cres et al. DL-TODA: A Deep Learning Tool for Omics Data Analysis. Biomolecules 2023, 13, 585

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060531