CN1584027A - Rna全序列特征可视化提取方法 - Google Patents
Rna全序列特征可视化提取方法 Download PDFInfo
- Publication number
- CN1584027A CN1584027A CN 200410025035 CN200410025035A CN1584027A CN 1584027 A CN1584027 A CN 1584027A CN 200410025035 CN200410025035 CN 200410025035 CN 200410025035 A CN200410025035 A CN 200410025035A CN 1584027 A CN1584027 A CN 1584027A
- Authority
- CN
- China
- Prior art keywords
- sequence
- rule
- rna
- cellular
- evolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
一种RNA全序列特征可视化提取方法,主要包括数据预处理、规则选取、元胞自动机CA方法应用及序列图像生成,首先对得到的RNA序列中每个脱氧核糖核酸“A”“T” “G”“U”进行编码,引入一维元胞自动机模型,选用特定的元胞自动机规则对编码后的“0”“1”基因序列进行演化,即元胞的下一时刻的状态由元胞和它的左右两个相邻元胞当前时刻的状态按照演化规则来决定,经若干次演化后形成一个“0”“1”二维矩阵,将二维矩阵转化为黑白图像并进行缩放,得到具有RNA全序列特征可视化图形。本发明方法具有全序列分析,直观性,敏感性和普适性的特点,从生成的可视化序列图像中可得到不同基因序列具有的特征。
Description
技术领域
本发明是一种RNA全序列特征可视化提取方法,涉及图像处理、模式识别和传统的基因序列分析的技术,与传统RNA序列比对分析方法不同,能比较形象地反映基因序列的特性。
背景技术
二十一世纪是生物的世纪,在人类基因组计划完成后,生物学家把更多的目光投向基因序列分析。传统的基因序列分析方法中,有相当的部分是通过基因序列比对来完成的。而传统的基因序列比对主要通过基因对齐,逐一碱基比对来完成的,其中比较典型的方法是用BLAST等非常成熟的软件来完成(http://www.ncbi.nlm.nih.gov/BLAST)。用该软件可以比较容易地反映碱基的缺失、插入、变异。这种方法虽然可以很简单地得到基因变异,但得到的结果并不直观。而其它基因的序列分析方法,如蛋白质二级结构【Kuo-ChenChou,2000,Prediction of Protein structural classes and Subcellular locations,CurretnProtein and Peptide Science.2000】,通过特定的结构来分析基因某部分的可能的功能。这些分析方法又过于倾向于局部的功能。
20世纪50年代,计算机创始人、著名数学家冯·诺依曼(Von Neumann)曾希望通过特定的程序在计算机上实现类似于生物体发育中细胞的自我复制【Wolfram S.2002.A New Kind of Science.Wolfram Media Inc.,Champaign,IL】。他提出了一个简单的模式,把一个长方形平面分成若干个网格,每个网格点表示一个细胞或系统的基元,它们的状态赋值为0或1,在网格中用空格或实格表示,在事先设定的规则下,细胞或基元的演化用网格的实格或空格的变动来描述。这样的模型就是元胞自动机。而S.Wolfram的潜心研究则充分展示了元胞自动机(CellularAutomation,CA)用简单规则模拟复杂系统的强大能力【Wolfram S.1984.Cellularautomation as models of complexity.Nature 311,419-424.】。元胞自动机为物理、生物和计算机科学提供一种简单模型,正是利用这些简单模型的“反复计算”,可以模拟复杂系统的离散模型。该方法在使用简单规则模拟复杂系统上的应用非常有效,但未用于生物序列的分析上。为了分析基因序列这种超乎寻常的复杂系统,使用CA方法将其可视化,然后分析生成的图像,从而得到不同基因序列具有的特点,是一个新的研究课题。
发明内容
本发明的目的在于针对传统的基因序列分析方法中存在的基因变异结果不直观,或是功能分析不全面等缺点,提供一种RNA全序列特征可视化提取方法,可从生成的基因可视化图像中得到不同基因序列具有的特征,进而分析利用其序列特征进行医学研究。
为实现这样的目的,本发明的基于元胞自动机的RNA全序列可视化提取方法,主要包括数据预处理、规则选取、元胞自动机CA方法应用及序列图像生成四个步骤。首先对得到的RNA序列中每个脱氧核糖核酸“A“”T“”G“”U”进行编码,引入一维元胞自动机CA模型,选用特定的元胞自动机规则对编码后的“0”“1”基因序列进行演化,即元胞的下一时刻的状态由元胞和它的左右两个相邻元胞当前时刻的状态按照演化规则来决定,经若干次演化后形成一个“0”“1”二维矩阵,将二维矩阵转化为黑白图像并进行缩放,得到具有RNA全序列特征可视化图形。
本发明的方法按如下具体步骤进行:
1.数据预处理
首先对得到的RNA序列中每个脱氧核糖核酸“A“”T“”G“”U”进行编码,将RNA序列转换为“0”“1”序列,具体为:A=00 U=01 G=10 T=11,并在序列的两端各补上一个0。
对RNA序列处理,如果直接用原始的ATGU字符组成的RNA序列处理,计算量会非常大。如果对RNA进行编码,将RNA序列转换为0,1序列,则计算量会小许多。将核苷酸序列按照上述方式编码后,新序列的长度就为原始序列的两倍。为了让序列两端的元胞也参加运算,可以在序列的两端各补上一个0。
2.元胞自动机CA方法规则的选取
对于编码后的“0”“1”,在元胞自动机CA法三点定一点的规则中选定一条区分性最好的规则作为演化规则。
对于CA方法中三点定一点的规则数一共有256条,所以需要根据具体情况对所有规则进行比较后,在其中选择一条区分性最好的规则进行演化。本发明主要选择第184号演化规则。
3.元胞自动机CA的应用
本发明在基因序列中引入了一维元胞自动机模型。在这一模型中,所有的元胞分布在一维直线上。对于基因序列,按照选定的元胞自动机规则对编码后的“0”“1”基因序列演化,即元胞的下一时刻的状态由元胞和它的左右两个相邻元胞当前时刻的状态按照演化规则来决定。
将已编码的原始基因序列作为第一行,把对第一行进行演化的结果作为第二行,把对第二行进行演化的结果作为第三行,依次类推。须注意,除了第一行的序列两端需要补零,每次演化后的新序列也在其序列两端各补上一个0,以便于下一步的演化运算。经过若干次的演化后,就可以形成一个“0”“1”二维矩阵。
4.序列图像的生成
定义“0”“1”二维矩阵中“0”表示黑色,“1”表示白色,使用可视化技术,将二维矩阵转化为一个黑白相间的二值图像。由于上述图像太大,以至于不可能直接分析原始图像的特点。本发明对图像进行水平和垂直方向变换缩小,得到具有RNA全序列特征的可视化图形。
本发明所收集的相关基因序列,最好能找到相关的可以相互比较基因全序列,这点一般都可以做到。选择规则的时候,可以从基因全序列中选择一个可以接受的片断,如3000个碱基。然后使用选定的适当规则,进行基因序列演化,从生成的可视化序列图像中可寻找得到不同基因序列具有的特征,发现规律。
与传统的序列比对方法相比较,本发明方法具有全序列分析,直观性,敏感性和普适性的特点。首先本方法是对全序列进行分析,可以考虑序列间的长程相互影响作用并给出序列本质的排列组合特征。而传统的序列分析方法只能通过比对得出突变点的位置和内容,并不能给出序列具有的组成特点。本方法是将序列转化为二维图像,利用人的视觉对图像敏感的特点发现生成图像的特征。而传统的方法是对一维序列直接进行分析,很显然,这是很抽象繁琐的过程。本方法对于序列中的少数突变点具有敏感性,也就是可以放大序列间的差别。通过对大量病毒序列的分析,本方法通过选取不同的规则可以将不同类别的病毒加以区分,也就是说本发明的这种方法具有普适性。
附图说明
图1为元胞自动机CA方法规则中184规则的示意图。
图1中自左到右分别说明了,“0”“1”序列中上一行三点可能出现的8种排列组合,以及在下一行相应位置应该取的值。
图2为与图1对应的184规则的数字表述形式。
意义和图一相同,只是用数字1,0分别表示白色和黑色。
图3为冠状病毒229E原图(非SARS)。
图4为冠状病毒Sin2774原图(SARS)。
具体实施方式
以下结合附图和实施例对本发明的技术方案作进一步描述。
本发明以SARS病毒序列分析为例说明其具体的实施方式。SARS的原名为严重急性呼吸综合症,是冠状病毒(coronavirus)引起的一种呼吸道急性传染疾病。本发明从NCBI网站上下载66种不同SARS病毒的RNA序列,每种病毒序列的长度大约在29700左右。对这些SARS病毒序列进行可视化处理,进行分析,寻找SARS序列的基本特征,比较与非SARS冠状病毒序列有哪些的不同点,从而可以利用SARS病毒的序列特征。表格1中列出了SARS病毒的RNA序列,表格2中列出了非SARS冠状病毒的RNA序列。
表格1:SARS病毒序列
SARS Accession Length SARS Accession Length
BJ01 AY278488 29725 TC1 AY338174 29573
BJ02 AY278487 29745 HSR1 AY323977 29751
BJ03 AY278490 29740 Frankfurt1 AY291315 29727
BJ04 AY279354 29732 AS AY427439 29711
GZ01 AY278489 29757 CUHK- AY345986 29736
ZJ01 AY297028 29714 CUHK- AY345987 29736
HKU39849 AY278491 29742 CUHK- AY345988 29736
CUHK W1 AY278554 29736 GD69 AY313906 29754
CUHK Su10 AY282752 29736 PUMC01 AY350750 29738
Sin2500 AY283794 29711 PUMC02 AY357075 29738
Sin2677 AY283795 29705 PUMC03 AY357076 29745
Sin2679 AY283796 29711 Sino1-11 AY485277 29741
Sin2748 AY283797 29705 Sino3-11 AY485278 29740
Sin2774 AY283798 29729 SoD AY461660 29715
TW1 AY291451 29714 GZ02 AY390556 29760
Urbani AY278741 29727 ZS-C AY395003 29647
Tor2 NC 004718 29751 LC5 AY395002 29350
GZ50 AY304495 29720 LC4 AY395001 29350
SZ16 AY304488 29731 LC3 AY395000 29350
SZ3 AY304486 29741 LC2 AY394999 29350
FRA AY310120 29740 LC1 AY394998 29736
GD01 AY278489 29757 ZS-A AY394997 29683
TWC AY321118 29725 ZS-B AY394996 29683
TWC2 AY362698 29727 HSZ-Cc AY394995 29765
TWC3 AY362699 29727 HSZ-Bc AY394994 29765
ZMY1 AY351680 29749 HGZ8L2 AY394993 29736
TWY AP006561 29727 HZS2-C AY394992 29736
TWS AP006560 29727 HZS2-Fc AY394991 29736
TWK AP006559 29727 HZS2-E AY394990 29736
TWJ AP006558 29725 HZS2-D AY394989 29736
TWH AP006557 29727 HZS2-Fb AY394987 29709
TC3 AY348314 29573 HSZ-Cb AY394986 29729
TC2 AY338175 29573 HSZ-Bb AY394985 29530
表格2:非SARS冠状病毒
Non-SARS genome Accession Length Non-SARS genome Accession Length
D13096 Avian D13096 27608 AY391777 HCoV- AY391777 30738
AJ311317 Avian 1 AJ311317 27635 NC 005147 HCoV- NC 005147 30738
U00735 Bovine U00735 31032 AF304460 229E AF304460 27317
AF220295 Bovine1 AF220295 31100 AF029248 Murine AF029248 31357
NC 003436 Porcine NC 003436 28033 AF208066 Murine AF208066 31112
AF353511 Porcine1 AF353511 28033 NC 003045 Bovine NC 003045 31028
NC 002645 229E NC 002645 27317 NC 001451 Avian NC 001451 27608
NC 001846 Murine NC 001846 31357 AY319651 Avian AY319651 27733
AF208067 Murine1 AF208067 31233 AF391542 Bovine AF391542 31028
AF207902 Murine2 AF207902 31217 AF391541 Bovine AF391541 31028
AF029248 Murine4 AF029248 31357 AF201929 Murine AF201929 31276
NC 002306 Tran S NC 002306 28586 AJ271965 Trans AJ271965 28586
本发明方法按如下步骤进行:
1、数据预处理
对RNA序列进行编码,将RNA序列转换为“0”“1”序列,编码具体方式为:A=00 U=01 G=10 T=11。为了让序列两端的元胞也参加运算,可以在序列的两端各补上一个0。
2、CA方法规则的选取
本发明在CA三点定一点的256条规则中,选择184号规则进行演化。第184号演化规则如图1所示,其中白格表示编码1,黑格表示编码0,所以第184条演化规则的数字表述形式也可由图2所示。以第三种情况为例(从左数):当上一行三点分别是白,黑,白的组合时,下一行对应于中间点的位置应当取白色。
3、CA方法的应用
首先将原始的基因序列作为起始行,按照184规则从左至右依次生成下一行对应点,这样生成第二行序列。然后对生成的第二行再按照规则184进行演化。重复以上步骤2400次得到一个“0”“1”矩阵。注意序列两边需要补0,以使计算可以进行。使用184规则三点定一点的原则,对一维的“0”“1”序列运行2400次得到一个二维的“0”“1”矩阵,大小是2400*N,N是“0”“1”序列的长度。
4、序列图像的生成
定义“0”“1”二维矩阵中“0”表示黑色,“1”表示白色,使用可视化技术,将二维矩阵转换为一个黑白相间的二值图像,大小为60Kb×2.4Kb。这样做的优点是可以发挥人对图像的敏感性,从而非常方便地发现图像中的图案、规律等,从另外一个方面来研究基因序列。由于上述图像太大,以至于不可能直接分析原始图像的特点,所以还需对序列进行缩放,以发现图形特征。本发明利用如下的步骤对所有的图像进行变换:(1)水平方向缩小1/4,垂直方向缩小1/3.5;(2)水平方向再缩小1/3.5。受计算精度影响,全部的缩小尺寸是水平方向缩小到原来的1/14.007,垂直方向缩小到原来的1/2。最后得到具有RNA全序列特征的可视化图形。
最终根据上述结果,从图像特征提取到相关规则。图3为非SARS冠状病毒229E原图,图4为SARS冠状病毒Sin2774原图。从图3、4中可以明显的看到,SARS基因序列所形成的图像中有非常明显的V字形交叉区域,并且区域比较大,而非SARS基因序列所形成的图案则没有这样多的特征,主要是平行区域。这样一个显著的特点给我们一个区分SARS-CoV序列和非SARS序列的视觉准则。比较66个SARS-CoV和24个非SARS序列的图像,可以发现所有的SARS-CoV图像中都含有6个V字形交叉区域,且这些区域的位置分布一致,大约在84-2483nt、3040-5439nt、5592-7991nt、12050-14449nt、16412-18811nt和19677-22076nt。这些特征是SARS所特有的,即6个V形区域可以被认为是SARS病毒的特征。
Claims (2)
1、一种RNA全序列特征可视化提取方法,其特征在于包括如下具体步骤:
1)首先对得到的RNA序列中每个脱氧核糖核酸“A“”T“”G“”U”进行编码,将RNA序列转换为“0”“1”序列,具体为:A=00 U=01 G=10 T=11,并在序列的两端各补上一个0;
2)在元胞自动机CA法三点定一点的规则中选定一条区分性最好的规则作为演化规则;
3)在基因序列中引入一维元胞自动机模型,在这一模型中,所有的元胞分布在一维直线上,按照选定的元胞自动机规则对编码后的“0”“1”基因序列演化,即元胞的下一时刻的状态由元胞和它的左右两个相邻元胞当前时刻的状态按照演化规则来决定,将已编码的原始基因序列作为第一行,把对第一行进行演化的结果作为第二行,把对第二行进行演化的结果作为第三行,依次类推,每次演化后的新序列在其序列两端各补上一个0,经过若干次的演化后,形成一个“0”“1”二维矩阵;
4)定义“0”“1”二维矩阵中“0”表示黑色,“1”表示白色,使用可视化技术,将二维矩阵转化为一个黑白相间的二值图像,并对图像进行水平和垂直方向变换缩小,得到具有RNA全序列特征的可视化图形。
2、如权利要求1的RNA全序列特征可视化提取方法,其特征在于所述演化规则选择第184号规则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410025035 CN1257974C (zh) | 2004-06-10 | 2004-06-10 | Rna全序列特征可视化提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410025035 CN1257974C (zh) | 2004-06-10 | 2004-06-10 | Rna全序列特征可视化提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1584027A true CN1584027A (zh) | 2005-02-23 |
CN1257974C CN1257974C (zh) | 2006-05-31 |
Family
ID=34601109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200410025035 Expired - Fee Related CN1257974C (zh) | 2004-06-10 | 2004-06-10 | Rna全序列特征可视化提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1257974C (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102122371A (zh) * | 2010-12-15 | 2011-07-13 | 西安交通大学 | 一种基于迭代函数的遗传信息二维可视化加密方法 |
CN102546158A (zh) * | 2011-12-22 | 2012-07-04 | 河海大学 | 一种基于奇偶元胞自动机的分组加密方法 |
CN102708308A (zh) * | 2012-03-31 | 2012-10-03 | 常熟市支塘镇新盛技术咨询服务有限公司 | 一种dna序列的可视化方法 |
CN106295245A (zh) * | 2016-07-27 | 2017-01-04 | 广州麦仑信息科技有限公司 | 基于Caffe的堆栈降噪自编码基因信息特征提取的方法 |
CN107679551A (zh) * | 2017-09-11 | 2018-02-09 | 电子科技大学 | 一种基于分形的涌现现象的识别方法 |
-
2004
- 2004-06-10 CN CN 200410025035 patent/CN1257974C/zh not_active Expired - Fee Related
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102122371A (zh) * | 2010-12-15 | 2011-07-13 | 西安交通大学 | 一种基于迭代函数的遗传信息二维可视化加密方法 |
CN102122371B (zh) * | 2010-12-15 | 2014-08-06 | 西安交通大学 | 一种基于迭代函数的遗传信息二维可视化加密方法 |
CN102546158A (zh) * | 2011-12-22 | 2012-07-04 | 河海大学 | 一种基于奇偶元胞自动机的分组加密方法 |
CN102546158B (zh) * | 2011-12-22 | 2014-05-07 | 河海大学 | 一种基于奇偶元胞自动机的分组加密方法 |
CN102708308A (zh) * | 2012-03-31 | 2012-10-03 | 常熟市支塘镇新盛技术咨询服务有限公司 | 一种dna序列的可视化方法 |
CN106295245A (zh) * | 2016-07-27 | 2017-01-04 | 广州麦仑信息科技有限公司 | 基于Caffe的堆栈降噪自编码基因信息特征提取的方法 |
CN106295245B (zh) * | 2016-07-27 | 2019-08-30 | 广州麦仑信息科技有限公司 | 基于Caffe的堆栈降噪自编码基因信息特征提取的方法 |
CN107679551A (zh) * | 2017-09-11 | 2018-02-09 | 电子科技大学 | 一种基于分形的涌现现象的识别方法 |
CN107679551B (zh) * | 2017-09-11 | 2020-06-16 | 电子科技大学 | 一种基于分形的涌现现象的识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1257974C (zh) | 2006-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Strimmer et al. | Quartet puzzling: a quartet maximum-likelihood method for reconstructing tree topologies | |
EP2383670A1 (en) | Computer-implemented method, computer readable storage medium and apparatus for identification of a biological sequence | |
Bailey | Discovering novel sequence motifs with MEME | |
CN105765592A (zh) | 酶变体的自动筛选 | |
CN1855088A (zh) | 学习辅助系统 | |
CN1514397A (zh) | 人眼探测方法、设备、系统和存储介质 | |
Girgis | MeShClust v3. 0: high-quality clustering of DNA sequences using the mean shift algorithm and alignment-free identity scores | |
Milinkovitch et al. | 2× genomes-depth does matter | |
CN1584027A (zh) | Rna全序列特征可视化提取方法 | |
Poladian et al. | Multi-objective evolutionary algorithms and phylogenetic inference with multiple data sets | |
Cao et al. | SAILER: scalable and accurate invariant representation learning for single-cell ATAC-seq processing and integration | |
Fraser et al. | Microarray image analysis: an algorithmic approach | |
Navas et al. | Application of proteomics in phylogenetic and evolutionary studies | |
Schuster | Artificial life and molecular evolutionary biology | |
Shapiro et al. | Graphical exploratory data analysis of RNA secondary structure dynamics predicted by the massively parallel genetic algorithm | |
Cotta et al. | A memetic-aided approach to hierarchical clustering from distance matrices: application to gene expression clustering and phylogeny | |
CN1409838A (zh) | 数据可视化 | |
Krawczyk | Experiments in architectural form generation using cellular automata | |
CN1670764A (zh) | 基于遗传算法的人脸样本生成方法 | |
Stepanyan | A multiscale model of nucleic acid imaging | |
Safoury et al. | Enriched dna strands classification using cgr images and convolutional neural network | |
CN114170247A (zh) | 深度图像的分割方法及系统 | |
US20050177315A1 (en) | Feature extraction of partial microarray images | |
Peng et al. | Detecting network motifs in gene co-expression networks through integration of protein domain information | |
Cres et al. | DL-TODA: A Deep Learning Tool for Omics Data Analysis. Biomolecules 2023, 13, 585 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20060531 |