JP4975334B2 - Storage area detection system considering evolutionary process - Google Patents
Storage area detection system considering evolutionary process Download PDFInfo
- Publication number
- JP4975334B2 JP4975334B2 JP2006035486A JP2006035486A JP4975334B2 JP 4975334 B2 JP4975334 B2 JP 4975334B2 JP 2006035486 A JP2006035486 A JP 2006035486A JP 2006035486 A JP2006035486 A JP 2006035486A JP 4975334 B2 JP4975334 B2 JP 4975334B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- storage area
- genome
- detection system
- storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、複数のDNA(またはアミノ酸)配列から、ゲノム配列を比較してゲノム配列中における意味を調べるゲノム解析に関し、特に、進化の過程で保存されている保存領域を見つけ、表示する進化過程を考慮した保存領域検出システムに関する。 The present invention relates to genome analysis that examines the meaning of genomic sequences by comparing genomic sequences from a plurality of DNA (or amino acid) sequences, and in particular, an evolution process for finding and displaying a conserved region conserved in the process of evolution. The present invention relates to a storage area detection system that considers
従来技術においては、世界中の配列解析プロジェクトによって、ヒトや動植物のゲノム解析が進み、それらの情報は公共データベース等を通して容易に入手できるようになっている。さまざまな生物における種間や種内のDNA配列のうちゲノム解析の対象となるゲノム配列同士を比較することによって、ゲノム配列中で各々の種の特異的な部分や、または全ての種に共通な部分を明らかにすることができ、このような特異的な部分、共通な部分に関する情報を用いることで進化のプロセスや、生物学的意味の解釈に役立てることが可能である。例えば、哺乳類のMHC(the Major
Histocompatibility Complex)領域について調べた文献(Hughes
AL, Yeager M. Natural selection at major histocompatibility complex loci of
vertebrates.Annu Rev Genet.
1998;32:415-35やMcConnell TJ,
Talbot WS, McIndoe RA, Wakeland EK. The origin of MHC class II gene
polymorphism within the genus Mus.Nature.
1988 14;332(6165):651-4.やLawlor DA, Ward
FE, Ennis PD, Jackson AP, Parham P. HLA-A and B polymorphisms predate the
divergence of humans and chimpanzees.Nature.
1988 15;335(6187):268-71.など)では、数百年にわたってMHCがゲノム配列中に存続し機能していることが、各ゲノムを比較することによって明らかとなっている。
In the prior art, genome analysis of humans and animals and plants has progressed by sequence analysis projects all over the world, and such information can be easily obtained through public databases. By comparing the genome sequences that are the targets of genome analysis among the DNA sequences in and between species in various organisms, a specific portion of each species in the genome sequence or common to all species It is possible to clarify the part, and it is possible to use the information about the specific part and the common part to help the process of evolution and the interpretation of biological meaning. For example, mammalian MHC (the Major
References on the Histocompatibility Complex area (Hughes
AL, Yeager M. Natural selection at major histocompatibility complex loci of
vertebrates.Annu Rev Genet.
1998; 32: 415-35 and McConnell TJ,
Talbot WS, McIndoe RA, Wakeland EK.The origin of MHC class II gene
polymorphism within the genus Mus. Nature.
1988 14; 332 (6165): 651-4. Or Lawlor DA, Ward
FE, Ennis PD, Jackson AP, Parham P. HLA-A and B polymorphisms predate the
divergence of humans and chimpanzees.Nature.
1988 15; 335 (6187): 268-71. Etc.), it has become clear by comparing the genomes that MHC has persisted and functioned in the genome sequence for several hundred years.
さて、ゲノム配列を比較するとは、進化の過程においてゲノム配列中に起こる変化(変異)を捉える、即ち、把握することであるが、進化におけるゲノム配列の変化(変異)とは、具体的にはsubstitution・deletion・insertion・inversionが挙げられる。図1乃至4は、これらの変化の様子を示した説明図である。図1は、substitutionの変化の様子を示しており、ゲノム配列中の塩基AがCに置換されている。図2は、insertionの変化の様子を示しており、ゲノム配列中の塩基AとTとの間に、新たに塩基C追加され挿入されている。図3は、deletionの変化の様子を示しており、塩基Tが削除されている。図4は、inversionの変化の様子を示しており、ゲノム配列中のATTがTTAとなっており順序が逆となるように並び替えられている。 Now, comparing genome sequences means capturing (ie, grasping) changes (mutations) that occur in the genome sequence during the evolution process. Specifically, changes in genome sequences (mutation) during evolution are specifically: Substitution / deletion / insertion / inversion. 1 to 4 are explanatory diagrams showing the state of these changes. FIG. 1 shows the change of the substitution, in which the base A in the genome sequence is replaced with C. FIG. 2 shows how the insertion changes. A base C is newly added and inserted between bases A and T in the genome sequence. FIG. 3 shows how the deletion changes, and the base T is deleted. FIG. 4 shows a state of change of inversion, in which ATT in the genome sequence is TTA and rearranged so that the order is reversed.
これらの4種類の変化のうち、substitutionは一塩基単位の変化で起こるが、deletion・insertion・inversionは数百から数万塩基を含むブロック単位の全体で一度に起こることがあり、生物の種の進化の過程でこれらの変化が起こるとゲノム配列中で蓄積してゲノム配列全体に変化を与え、結果的にそれぞれ異なる生物の種を生まれさせていくこととなっている。 Of these four types of changes, substitution occurs with a change of one base unit, but deletion, insertion, and inversion may occur at once in a whole block unit containing hundreds to tens of thousands of bases. When these changes occur during the evolution process, they accumulate in the genome sequence and change the entire genome sequence, resulting in the creation of different species of organisms.
ゲノム配列を比較してゲノム解析が行われたことにより明らかとなっている重要な事実のひとつは、生物にとって重要なゲノム領域(遺伝子など)では、ゲノム配列の変化を受けていないことが多いことである。これは、そのような部分で変化を受けると、ほとんどの場合にはそのような部分の変化を受けた生物は絶滅することが多いため、結果的に、そのような重要なゲノム領域で変化を受けなかった生物が絶滅せずに現在まで残っており、重要なゲノム領域で変化を受けないことが現在まで存在するために必要であると考えられているからである。異なる種類の生物の種のDNA配列を比較すると、生物の種類によっては変化を受けて互いに異なるDNA配列を有していることもあるがこれらをアミノ酸毎のレベルで調べてみると変化していないことが多い。 One of the important facts revealed by genome analysis by comparing genome sequences is that genome regions (genes, etc.) that are important for organisms are often not affected by changes in the genome sequence. It is. This can result in changes in such important genomic regions, as changes in such parts are often extinct in most cases. This is because it is believed that it is necessary for the living organisms that have not been received to exist to the present day without being extinct, and to remain untouched in important genomic regions. Comparing the DNA sequences of different species of organisms, depending on the species of organisms, they may have different DNA sequences from each other, but these have not changed when examined at the amino acid level There are many cases.
このような重要なゲノム領域等のゲノム配列の変化を受けていない領域は、保存領域と呼ばれている。研究者は、この保存領域においてゲノム配列の変化を受けていない事実を利用しており、異なる種類の生物の種のゲノム配列を相互に比較して保存領域を見つけこの保存領域に基づいて生物学的な意味を推測するための手がかりとしている。 Such a region that has not undergone a change in the genome sequence, such as an important genomic region, is called a conserved region. Researchers take advantage of the fact that this conserved region has not undergone changes in the genome sequence, and compare the genome sequences of different species of organisms with each other to find the conserved region. It is a clue to guess the meaning.
また、別の重要な事実として、ゲノム配列は進化の歴史をとどめており示していることが挙げられる。一般的に近縁の種(ヒトとチンパンジー等)は、遠縁の種(ヒトと酵母等)よりも、ゲノム配列として類似している部分が多い。これは種が分化してから、近縁の種同士ではそれほど時間が経過しておらず、遠縁の種同士では、長時間経過しているからである。また、特定のDNA配列を含む遺伝子の状態の推移を追跡することで進化の歴史を把握することも可能である。 Another important fact is that the genome sequence remains and shows the history of evolution. In general, closely related species (such as humans and chimpanzees) have more similar portions as genomic sequences than distantly related species (such as humans and yeast). This is because not so much time has passed between closely related species and long time has passed between distantly related species since the species have differentiated. It is also possible to grasp the evolutionary history by tracking the transition of the state of a gene containing a specific DNA sequence.
図5はこのような遺伝子の状態の推移による進化の歴史を示した説明図である。図5では種1と種2の祖先においてDNA配列を含む或る遺伝子aが重複されて一列に配置されたタンデム(縦列)遺伝子a1とa2を生じ、その後、別々の種類の生物の種に種文化した様子を示している。種1の遺伝子a1と種2の遺伝子a1(または種1の遺伝子a2と種2の遺伝子a2)は共通の祖先のタンデム遺伝子a1(またはタンデム遺伝子a2)を共有することとなっておりこれはオーソログと呼ばれている。一方、種1または種2における遺伝子a1とa2とは遺伝子aの重複によって発生したものであり、これはパラログと呼ばれている。
FIG. 5 is an explanatory diagram showing the history of evolution due to the transition of the state of such a gene. In FIG. 5, a certain gene a including a DNA sequence is duplicated in the ancestors of
また、図5に示す以外にも遺伝子の状態の推移による進化としてゼノログ(外来)と呼ばれるタイプのものもある。このゼノログでは或る遺伝子がその他のどの遺伝子とも進化的起源を共有していな状態で進化していく場合であり、共生やウィルスによって、類縁のない生物種からもたらされたもの、すなわち水平伝播によって引き起こされたものといわれている。 In addition to those shown in FIG. 5, there is a type called xenolog (foreign) as an evolution due to the transition of the gene state. In this xenolog, a gene evolves without sharing its evolutionary origin with any other gene, which is derived from an unrelated species by symbiosis or viruses, ie horizontal propagation. It is said that it was caused by.
更に、遺伝子以外にも、遺伝子に含まれる配列においてSINEs(short
interspersed repetitive elements)やLINEs(long
interspersed repetitive elements)と呼ばれる特殊な配列がある。これらはゲノム配列中で自分自身を複製し、他の位置にこの複製した配列を挿入する性質を持っており、更に、一旦挿入されると欠失しない性質があるため、これらの特殊な配列も進化の歴史を把握するための手がかりとして利用されている。過去の報告(Verneau O, Catzeflis F, Furano AV. Determination of the evolutionary
relationships in Rattus sensu lato (Rodentia : Muridae) using L1 (LINE-1)
amplification events. J Mol Evol.
1997 45(4):424-36. や Furano AV,
Hayward BE, Chevret P, Catzeflis F, Usdin K. Amplification of the ancient
murine Lx family of long interspersed repeated DNA occurred during the murine
radiation. J Mol Evol. 1994
38(1):18-27.やMurata S, Takasaki N,
Saitoh M, Okada N. Determination of the phylogenetic relationships among
Pacific salmonids by using short interspersed elements (SINEs) as temporal
landmarks of evolution. Proc Natl Acad
Sci U S A. 1993 1;90(15):6995-9.など)によれば、種の文化が起こった後5000万年以内なら、これらの配列は進化を調べるためのマーカーとして使うことができ、研究者はこれらの特殊な配列を用いたマーカーとしての情報を手がかりとして進化の歴史上での出来事を推測することを行っている。
Furthermore, in addition to genes, SINEs (short
interspersed repetitive elements) and LINEs (long
There is a special arrangement called interspersed repetitive elements. These have the property of replicating themselves in the genome sequence and inserting this duplicated sequence at other positions, and since they have the property of not being deleted once inserted, these special sequences are also It is used as a clue to grasp the history of evolution. Past reports (Verneau O, Catzeflis F, Furano AV. Determination of the evolutionary
relationships in Rattus sensu lato (Rodentia: Muridae) using L1 (LINE-1)
amplification events. J Mol Evol.
1997 45 (4): 424-36. And Furano AV,
Hayward BE, Chevret P, Catzeflis F, Usdin K. Amplification of the ancient
murine Lx family of long interspersed repeated DNA occurred during the murine
radiation. J Mol Evol. 1994
38 (1): 18-27. And Murata S, Takasaki N,
Saitoh M, Okada N. Determination of the phylogenetic relationships among
Pacific salmonids by using short interspersed elements (SINEs) as temporal
landmarks of evolution.Proc Natl Acad
According to Sci US A. 1993 1; 90 (15): 6995-9, etc., these sequences can be used as markers for examining evolution within 50 million years after the occurrence of the species culture. Researchers have been inferring events in the history of evolution using information as markers using these special sequences.
実際にゲノム配列内の保存領域や進化の歴史を調べるための手法としては、主に3種類の方法が使用されている。1つ目の手法はドットマトリックス解析と呼ばれる手法で、二つのゲノム配列の間で変化を受けずに共通して存在している保存領域を見つけるために行われる。図6は、ドットマトリックス解析によりATGGCAの配列1とCATTGGCTの配列2に存在する保存領域を解析した様子を示す説明図である。このドットマトリックス解析では、二つの配列の長さに対応した縦6個×横8個のマトリックスを作成しこのマトリックスの縦軸と横軸のそれぞれに沿って配列1と配列2を並べる。そして、縦軸の配列の各要素と横軸の配列の各要素を比較し、縦軸および横軸に同じ要素である塩基(または残基)がある場合にはその同じ塩基の縦軸および横軸の座標に該当するドットに印を付していく。
Actually, three methods are mainly used as a method for examining the conserved region in the genome sequence and the history of evolution. The first method is called dot matrix analysis, and is performed to find a conserved region that exists in common without being changed between two genome sequences. FIG. 6 is an explanatory diagram showing a state in which the storage areas existing in the
図6においては該当するドットを印として濃色(強調)表示する。そして、配列1および配列2の間で保存領域が存在する場合には印を付したドットが対角線方向に並んで構成されこれを視覚的に確認することで保存領域を把握することができるようになっている。図6の点線で囲まれた部分で示すように、濃色(強調)表示したドットが対角線方向に並んでおり配列1のATGGCと配列2のATTGGCが類似しており保存領域となっていることが明らかとなっている。なお、配列1の塩基を相補鎖の塩基に変換する、すなわち、AをT、TをA、GをC、CをGに変換することによりreverse complement配列と配列2との間の保存領域を明らかとすることも可能である。この場合には、印を付したドットが、配列1の場合とは逆の対角線方向に並んで構成されこれを視覚的に確認することで保存領域を把握することができるようになっている。
In FIG. 6, the corresponding dot is displayed as a dark color (emphasized) as a mark. When there is a storage area between the
2つ目の手法は、マルチプルアライメントと呼ばれる手法で、複数の配列を並べたとき同じ要素が1つの列にできるだけ多く集まるような最適な並べ替えを行う手法である。図7は、マルチプルアライメントによる手法を示した説明図である。図7では15個のゲノム配列としてのアミノ酸配列に対してマルチプルアライメントを実行した結果で、各列に同じアミノ酸(類似したアミノ酸)が並ぶように、ギャップ文字(−)を配列中に挿入している。マルチプルアライメントは、そこに含まれるゲノム配列の間の進化的な歴史を表現したものとみることができる。 The second method is a method called multiple alignment, and is a method for performing optimal rearrangement so that as many elements as possible are gathered in one column when a plurality of arrays are arranged. FIG. 7 is an explanatory diagram showing a technique based on multiple alignment. In FIG. 7, as a result of performing multiple alignment on the amino acid sequence as 15 genome sequences, a gap character (-) is inserted in the sequence so that the same amino acid (similar amino acid) is arranged in each column. Yes. Multiple alignment can be seen as a representation of the evolutionary history between the genomic sequences contained therein.
もしミスマッチとして相互に異なるアミノ酸の個数が少なく、非常に良いマルチプルアライメントが得られるならば、それらのアミノ酸配列は共通の祖先から、比較的最近分かれてきたものと推測される。反対に、ミスマッチの個数が多く良いアライメントが得られないグループの間には、より複雑で遠い進化上の関係が存在する。あるゲノム配列はミスマッチの個数が少なく良く似ており、あるゲノム配列はミスマッチの個数が多く似ていない一群のゲノム配列のマルチプルアライメントを求められれば、それらのゲノム配列間の進化的関係を見出すことが可能である。 If the number of amino acids differing from each other as a mismatch is small and a very good multiple alignment can be obtained, it is assumed that their amino acid sequences have been separated relatively recently from a common ancestor. On the other hand, there are more complex and distant evolutionary relationships between groups that have a large number of mismatches and cannot achieve good alignment. Some genome sequences are similar, with few mismatches, and if a genome sequence requires multiple alignments of a group of genome sequences that do not have many mismatches, find evolutionary relationships between those genome sequences. Is possible.
最後に、3つ目の手法は、系統樹解析と呼ばれる手法である。これは互いに類縁のある塩基配列(あるいはアミノ酸配列)が含まれているファミリーの系統を解析し、進化過程でそのファミリーが派生してきた道筋を決定することである。図8は8つの種から得られたファミリーに含まれるゲノム配列に対して系統樹解析を行った様子を示す説明図である。ゲノム配列間の関係を、各ゲノム配列を枝先に配置したツリー構造の木として表し、木の内部における分岐関係を、異なるゲノム配列がどの程度の類縁関係にあるかを反映させて表示している。枝の長さは近縁/遠縁の度合いに対応しており、枝の長さが短いほど近縁の関係であることを示している。 Finally, the third method is a method called phylogenetic tree analysis. This is to analyze the family strains containing nucleotide sequences (or amino acid sequences) that are closely related to each other, and to determine the path from which the family was derived during the evolution process. FIG. 8 is an explanatory diagram showing a state in which a phylogenetic tree analysis is performed on genome sequences included in families obtained from eight species. The relationship between genome sequences is represented as a tree with a tree structure with each genome sequence placed at the end of the branch, and the branching relationship inside the tree is displayed reflecting the degree of affinity of different genome sequences. Yes. The length of the branch corresponds to the degree of the close / distant edge, and the shorter the length of the branch, the closer the relation is.
この系統樹解析では、類縁関係や近縁/遠縁の度合いを見ることにより個々の生物の種の進化において生じてきた変化の解析のみならず、ゲノム配列のファミリーの進化についても調べることが出来る。それにより、系統樹上の隣り合った枝を占めるゲノム配列が、最も近縁なゲノム配列だと決定できる。ある生物あるいは生物群においてゲノム配列としての遺伝子ファミリーが見出される場合、その遺伝子間の系統関係を調べれば、同じ機能をもつ遺伝子がどれかを予測するのに役立つ。これらの機能予測が得られれば、遺伝学的実験によってその機能を確認できる。系統樹解析は、例えばウィルスのような、急速に変化している生物種のおいて生じている変化を追うためにも使われる。ある集団内での変化の型の系統樹解析は、例えば、ある特定の遺伝子が自然選択を受けているかどうかといった、疫学などの応用にあたって大切な情報を明らかにする。また、従来のバイオチップにおいては、系統樹のノード等に対応して、複数の異なるターゲットの塩基配列に共通して存在する部分配列と特異的にはハイブリダイズするプローブを設計し、スポットしたものが提案されている(例えば、特許文献1参照。)。 In this phylogenetic tree analysis, it is possible not only to analyze the changes that have occurred in the evolution of individual organism species, but also to investigate the evolution of the family of genomic sequences by looking at the degree of affinity and relatedness / distantness. As a result, the genome sequence occupying adjacent branches on the phylogenetic tree can be determined to be the closest genome sequence. If a gene family is found as a genomic sequence in an organism or group of organisms, examining the phylogenetic relationship between the genes will help predict which genes have the same function. If these function predictions are obtained, the function can be confirmed by genetic experiments. Phylogenetic analysis is also used to track changes that occur in rapidly changing species such as viruses. Phylogenetic analysis of the type of change within a population reveals important information for applications such as epidemiology, such as whether a particular gene has undergone natural selection. Also, in conventional biochips, probes that specifically hybridize with partial sequences that exist in common in the base sequences of different targets corresponding to the nodes of the phylogenetic tree are spotted. Has been proposed (see, for example, Patent Document 1).
従来の技術においては、ゲノム配列同士を比較して、そこから生物学的な意味を読み取るためには、上に示したような複数のゲノム配列間で保存されている保存領域を見つけ、そして、それがどのような種で共有されているか、つまりどのような進化を歩んできたかを調べることが必要である。 In the prior art, in order to compare genome sequences and read the biological meaning from them, find conserved regions conserved among multiple genome sequences as shown above, and It is necessary to investigate what species it is shared with, that is, what evolution it has made.
しかしながら、上述のような従来の技術を用いても上に示した三つの方法を駆使しても、保存領域とその進化的な関係について、両者を包括的に理解するのは困難・あるいは非常に煩雑な手間を伴う。ドットマトリックス解析では二つのゲノム配列間の保存領域は分かるが、それはどの進化の段階から保存されているのかわからない。マルチプルアライメント解析では、inversionになって保存されていてもそれを検出することができない。また系統樹解析では、進化の過程は分かるが、具体的にどのようなゲノム配列が類縁関係で保存されているのか、そしてどの進化のレベルでinversionやinsertion、deletionが起こったのかどうかわからない。 However, it is difficult or very difficult to comprehensively understand the storage area and its evolutionary relationship, even if the above-mentioned conventional techniques or the above three methods are used. This is complicated. Dot matrix analysis reveals a conserved region between two genome sequences, but does not know from which evolutionary stage it is conserved. In multiple alignment analysis, even if it is stored in inversion, it cannot be detected. In addition, phylogenetic tree analysis shows the evolutionary process, but it is not clear what kind of genomic sequence is conserved in relation to each other, and at what level of evolution, inversion, insertion, or deletion occurred.
例えば、比較対象のゲノム配列のうち、進化的に近い生物種のファミリーで、共通した保存領域にはどのようなものがあるかを従来の方法で調べる場合を考える。研究者は、まず系統樹解析を行い、進化的に近いファミリーをみつける。そしてマルチプルアライメントを実行するか、あるいはドットマトリックス解析を行う。しかし、マルチプルアライメントを実行する場合、長い配列(数千塩基以上)を比較するには、実際的な問題として多大な時間を要する。また、マルチプルアライメントは、ある程度類似したゲノム配列を入力とすることが想定されているので、イントロン配列を多く含む場合や、入力配列が遺伝子以外の領域である場合、アライメントはうまくいかない。更にこの解析は、上にも述べたように、ゲノム配列中にinversionが起こっていてもそれを検出することができない。したがって、比較対象となるゲノム配列は非常に限られたものとなってくるという問題があった。 For example, consider a case where a conventional method is used to determine what kind of conserved regions are common in a family of biological species that are evolutionarily close among the genome sequences to be compared. Researchers first perform a phylogenetic tree analysis to find families that are evolutionarily close. Then, multiple alignment is performed or dot matrix analysis is performed. However, when performing multiple alignment, it takes a lot of time as a practical problem to compare long sequences (several thousand bases or more). In addition, since multiple alignments are assumed to input genome sequences that are somewhat similar to each other, alignment is not successful when many intron sequences are included or when the input sequences are regions other than genes. Furthermore, as described above, this analysis cannot detect even if inversion occurs in the genome sequence. Therefore, there is a problem that the genome sequences to be compared are very limited.
またゲノム配列が、マルチプルアライメントに適した配列であったとしても、ファミリーの配列に共通して存在し、ファミリーでない配列には存在しない保存領域を目視で確認する必要がある。一方、ドットマトリックス解析では、この解析手法の性質上、一度に二つのゲノム配列しか比較できない。したがって、ファミリーの生物種で共通した保存領域を見つける場合、ファミリーの配列同士で繰り返しドットマトリックス解析を行って保存領域をみつけ、更にファミリーに属していない配列でその領域が保存されていないことを確かめなければならない。これはファミリーの数や全体の比較するゲノム配列数が大きくなると、ドットマトリックス解析で比較を行う作業量が膨大なものとなり、手に負えないものとなってしまうという問題があった。 Moreover, even if the genome sequence is a sequence suitable for multiple alignment, it is necessary to visually confirm a conserved region that exists in common with the family sequence and does not exist in the non-family sequence. On the other hand, in dot matrix analysis, only two genome sequences can be compared at a time due to the nature of this analysis method. Therefore, when finding a conserved region common to the species of a family, repeat the dot matrix analysis between the sequences of the family to find the conserved region, and confirm that the region is not conserved with sequences that do not belong to the family. There must be. As the number of families and the total number of genome sequences to be compared increase, the amount of work to be compared by dot matrix analysis becomes enormous, and there is a problem that it becomes unmanageable.
それ故本発明では、従来技術の問題点を鑑みてなされたものであり、その目的とするところは、ゲノム解析の対象となる種のゲノム配列から保存領域を検出し、各々の種間の関係や各保存領域の関係を明確に表示することが可能な進化過程を考慮した保存領域検出システムを提供することを目的とする。 Therefore, the present invention has been made in view of the problems of the prior art, and the object of the present invention is to detect a conserved region from the genome sequence of a species to be subjected to genome analysis, and the relationship between each species. Another object of the present invention is to provide a storage area detection system that takes into account the evolution process that can clearly display the relationship between storage areas.
上記課題を解決するために、本発明は、複数のDNA配列のうちゲノム解析の対象となるゲノム配列の中に配列の変化を受けておらず進化的に保存されている保存領域を見つける進化過程を考慮した保存領域検出システムにおいて、
ゲノム配列に基づいて得られる系統樹を参照して、この系統樹を構成している中間ノードに属するゲノム配列を認識する配列認識手段と、
中間ノードに属するゲノム配列において存在している同一の文字列の位置から開始してゲノム配列内の保存領域を検出していく保存検出手段とを備えたことを特徴とする。
In order to solve the above-mentioned problems, the present invention is an evolution process for finding a conserved region that is evolutionarily conserved in a genomic sequence that is subject to genomic analysis among a plurality of DNA sequences. In the storage area detection system considering the
Sequence recognition means for referring to a phylogenetic tree obtained on the basis of a genomic sequence and recognizing a genomic sequence belonging to an intermediate node constituting the phylogenetic tree;
And a storage detection means for detecting a storage region in the genome sequence starting from the position of the same character string existing in the genome sequence belonging to the intermediate node.
このような発明においては、配列認識手段が系統樹を構成している中間ノードに属するゲノム配列を認識し、保存検出手段が中間ノードに属するゲノム配列において存在している同一の文字列の位置から開始してゲノム配列内の保存領域を検出していくので、正確にゲノム解析の対象となる種のゲノム配列から配列の変化を受けていない保存領域を検出することができる。 In such an invention, the sequence recognition means recognizes the genome sequence belonging to the intermediate node constituting the phylogenetic tree, and the storage detection means starts from the position of the same character string existing in the genome sequence belonging to the intermediate node. Since the conserved region in the genome sequence is detected by starting, it is possible to accurately detect the conserved region that has not undergone the sequence change from the genome sequence of the species to be analyzed.
また、上述の進化過程を考慮した保存領域検出システムにおいて、
前記保存検出手段は、
中間ノードに属する2つのゲノム配列において存在している同一の文字列の位置から開始してゲノム配列内の保存領域を検出していき、ミスマッチの文字の個数が所定の個数に達するまでの領域を保存領域として検出することとしても良い。
In the storage area detection system considering the evolution process described above,
The storage detection means includes
Starting from the position of the same character string existing in the two genome sequences belonging to the intermediate node, the storage region in the genome sequence is detected, and the region until the number of mismatched characters reaches the predetermined number It may be detected as a storage area.
このような発明においては、保存検出手段は、中間ノードに属する2つのゲノム配列において存在している同一の文字列の位置から開始してゲノム配列内の保存領域を検出していき、ミスマッチの文字の個数が所定の個数に達するまでの領域を保存領域として検出するので、全体的に略同一で配列の変化を受けておらず保存領域とみなすことができる領域を適切に保存領域として検出することができる。 In such an invention, the storage detection means detects the storage region in the genome sequence starting from the position of the same character string existing in the two genome sequences belonging to the intermediate node, and the mismatched character Since the area until the number reaches the predetermined number is detected as a storage area, an area that is substantially the same as a whole and has not undergone a sequence change and can be regarded as a storage area is appropriately detected as a storage area Can do.
上述の進化過程を考慮した保存領域検出システムにおいて、
前記保存検出手段は、
中間ノードに属する複数のゲノム配列において存在している同一の文字列の位置から開始してゲノム配列内で検出した保存領域に基づいて、中間ノードを変えながら繰り返しこの検出した同一の保存領域を検出していき、全ての中間ノードに属するゲノム配列内の保存領域を検出しても良い。
In the storage area detection system considering the above evolution process,
The storage detection means includes
Starting from the position of the same character string existing in multiple genome sequences belonging to the intermediate node, the same conserved region that was detected is detected repeatedly while changing the intermediate node based on the conserved region detected in the genome sequence. Thus, a conserved region in the genome sequence belonging to all intermediate nodes may be detected.
このような発明においては、保存検出手段は、中間ノードを変えながら繰り返しこの検出した同一の保存領域を検出していき、全ての中間ノードに属するゲノム配列内の保存領域を検出するので、系統樹を構成する全ての中間ノードに属するゲノム配列内の保存領域を検出できる。 In such an invention, the storage detection means repeatedly detects the same storage region detected while changing the intermediate node, and detects the storage regions in the genome sequence belonging to all the intermediate nodes. It is possible to detect a conserved region in the genome sequence belonging to all the intermediate nodes constituting.
上述の進化過程を考慮した保存領域検出システムにおいて、
前記保存検出手段が検出したゲノム配列内の各保存領域をそれぞれ毎に異なる形態の線により構成し、前記系統樹上の中間ノードを形成する枝を、中間ノードに属するゲノム配列内の各保存領域に対応させた形態の線により構成し、前記各保存領域と系統樹を同時に表示する解析結果表示手段を備えたこととしても良い。
In the storage area detection system considering the above evolution process,
Each storage region in the genome sequence detected by the storage detection means is configured by a line having a different form for each, and branches forming the intermediate node on the phylogenetic tree are each stored region in the genome sequence belonging to the intermediate node. It is good also as providing the analysis result display means comprised by the line | wire of the form made to respond | correspond to, and displaying each said storage area | region and phylogenetic tree simultaneously.
このような発明においては、解析結果表示手段が各保存領域をそれぞれ毎に異なる形態の線により構成し、系統樹上の中間ノードを形成する枝を、中間ノードに属するゲノム配列内の各保存領域に対応させた形態の線により構成し、各保存領域と系統樹を同時に表示するので、研究者は各保存領域を明確に区別して参照することができ、また、各保存領域と系統樹上の中間ノードとの対応関係を参照して進化的に保存された保存領域を確認し、進化過程を推測することが可能である。 In such an invention, the analysis result display means configures each storage region with a line having a different form for each, and the branches forming the intermediate nodes on the phylogenetic tree are represented by the storage regions in the genome sequence belonging to the intermediate node. Since each storage area and phylogenetic tree are displayed at the same time, researchers can clearly distinguish and refer to each storage area, and each storage area and phylogenetic tree By referring to the correspondence with the intermediate node, it is possible to confirm the evolutionary preservation area and to guess the evolution process.
上述の進化過程を考慮した保存領域検出システムにおいて、
前記解析結果表示手段は、
前記各保存領域を、既知のゲノム配列に関する情報と組み合わせて同時に表示することとしてもよい。
In the storage area detection system considering the above evolution process,
The analysis result display means includes
Each of the storage regions may be displayed simultaneously in combination with information on a known genome sequence.
このような発明においては、各保存領域に組み合わされた既知のゲノム配列に関する情報を参照して進化過程を推測することが可能である。 In such an invention, it is possible to estimate the evolution process with reference to information on known genomic sequences combined with each conserved region.
上述の進化過程を考慮した保存領域検出システムにおいて、
前記解析結果表示手段は、
前記各保存領域を、各保存領域が含まれるゲノム配列と組み合わせ、各ゲノム配列間に含まれる同一の保存領域を関連付けて表示しても良い。
In the storage area detection system considering the above evolution process,
The analysis result display means includes
Each of the storage regions may be combined with a genome sequence including each storage region, and the same storage region included between the genome sequences may be displayed in association with each other.
このような発明においては、関連付けて表示された同一の保存領域の状況を参照して進化的に保存された保存領域を確認し、進化過程を推測することが可能である。 In such an invention, it is possible to check the evolutionary storage area by referring to the situation of the same storage area displayed in association with each other, and estimate the evolution process.
上述の進化過程を考慮した保存領域検出システムにおいて、
任意の配列に基づいて、前記系統樹を構成している中間ノードに属するゲノム配列を検索する配列検索手段と、
前記配列検索手段が検索した結果得られたゲノム配列の情報を参照して、前記系統樹を構成している中間ノードに属するゲノム配列に関する情報を特定の表示方法で表示する特定表示手段を備えても良い。
In the storage area detection system considering the above evolution process,
Sequence search means for searching for a genome sequence belonging to an intermediate node constituting the phylogenetic tree based on an arbitrary sequence;
Specific display means for displaying information on genome sequences belonging to the intermediate nodes constituting the phylogenetic tree with a specific display method with reference to information on the genome sequence obtained as a result of the search by the sequence search means Also good.
このような発明においては、特定の表示方法で表示されたゲノム配列に関する情報を参照して任意の配列が進化的に保存されている様子を確認し、進化過程を推測することが可能である。 In such an invention, it is possible to check the evolutionary process by referring to the information on the genome sequence displayed by a specific display method, and confirming the evolutionary preservation of an arbitrary sequence.
上述の進化過程を考慮した保存領域検出システムにおいて、
特定表示手段は、
前記配列検索手段が検索した結果得られたゲノム配列を、当該任意の配列部分を関連付けて表示することとしても良い。
In the storage area detection system considering the above evolution process,
The specific display means is
The genome sequence obtained as a result of the search by the sequence search means may be displayed in association with the arbitrary sequence portion.
このような発明においては、関連付けて表示された当該任意の配列部分を参照して保存されている状況を確認し、進化過程を推測することが可能である。 In such an invention, it is possible to check the state of being stored by referring to the arbitrary sequence portion displayed in association with each other, and to estimate the evolution process.
以上説明したように、本発明によれば、ゲノム解析の対象となる種のゲノム配列から保存領域を検出し、各々の種間の関係や各保存領域の関係を明確に表示することが可能である。 As described above, according to the present invention, it is possible to detect a conserved region from the genome sequence of a species subject to genome analysis and clearly display the relationship between each species and the relationship between each conserved region. is there.
以下、図面を参照して本発明の実施の形態を説明する。 Embodiments of the present invention will be described below with reference to the drawings.
図14は、本発明にかかる進化過程を考慮した保存領域検出システムの全体構成を示す説明図である。この保存領域検出システム100は、ゲノム解析において、比較される対象となるゲノム配列のデータである対象配列1401と、それらの各対象配列1401を用いて系統樹を構成するための情報である構成情報1413と、ゲノム解析の解析結果を画像等により表示するための表示装置1402と、保存領域検出システム100での数値や文書情報等の情報の入力や選択の操作を行うための入力手段であるキーボード1403やマウス1404と、ゲノム解析の解析結果のデータに参考情報として注釈付けする既知のゲノム配列及びこの既知のゲノム配列に付属する情報が格納されている配列DB1405と、後述するプログラムメモリ1407や図示しない記憶装置に格納されたプログラムを実行することにより保存領域の検出や系統樹のデータの構築や解析結果の表示等の各処理を行う中央処理装置1406(以下、CPU1406という。)と、中央処理装置1406が行う各処理に必要なプログラムを格納するプログラムメモリ1407と、中央処理装置1406での処理の際に必要な演算結果等のデータを一時的に格納するデータメモリ1411とを備えて構成されている。
FIG. 14 is an explanatory diagram showing the overall configuration of the storage area detection system in consideration of the evolution process according to the present invention. The storage region detection system 100 includes a
プログラムメモリ1407は、図14に示すように、入力された各対象配列1401からそれらの対象配列1401間で保存されている保存領域を検出する処理を行うための保存領域計算処理部1408と、各対象配列1401を用いて系統樹を構築する処理を行う系統樹計算処理部1409と、これら解析・計算結果を表示する処理を行うための分析結果表示処理プログラム1410とを備えている。これらのプログラムは、CD−ROM、DVD−ROM、MO、フロッピー(登録商標)ディスク等の記録媒体に格納し、CPU1406がこれらの記録媒体から読み出すことにより提供することもできるし、インターネット等の公衆網のネットワークを介してサーバからダウンロードして提供することもできる。
As shown in FIG. 14, the program memory 1407 includes a storage area
配列DB1405は、CPU1406に接続された記憶装置に格納されていてもよいし、遠隔地に設置されたサーバコンピュータが管理する構成とし、そのサーバコンピュータ内のデータベースからインターネット等の公衆網のネットワーク等を介して配列DB1405に含まれている遺伝子データを取得するようにしてもよい。また、データメモリ1411は、プログラムの実行において入力データとして用いられる入力データ1412を含んでいる。
The
図15は、対象配列1401の一例を示す説明図である。ここでは対象配列1401に該当する各ゲノム配列をFASTA形式により表示しており、ゲノム配列を識別するための名称等を「>」の後に表示し、その次の行から、ゲノム配列そのものを表示している。この他にも、ゲノム配列を表す形式として、GenBank形式やEMBL形式で表示することとしてもよい。
FIG. 15 is an explanatory diagram showing an example of the
図16は、各対象配列1401を用いて系統樹を構成するための構成情報1413の一例を示す説明図である。この構成情報1413では系統樹のリーフと枝の長さを対象配列1401の各ゲノム配列の名称に対応付けており一組の括弧及び数値により一つの中間ノードに関する情報を形成している(数値はその中間ノードの上位の位置の中間ノードまでの枝の長さを示している)。そしてその中間ノードが自己の位置よりも下位側に(系統樹上でリーフに近い)更に中間ノードを有しているときは、入れ子構造で表現する形式をとっている。すなわち、BNF記法で表示すると次のようになる。
FIG. 16 is an explanatory diagram illustrating an example of
ノード::=(ノード,ノード):この中間ノードからその上位中間ノードまでの枝長|配列名:この葉から上位中間ノードまでの枝長 Node :: = (node, node): branch length from this intermediate node to its upper intermediate node | array name: branch length from this leaf to upper intermediate node
そして、この構成情報1413では、一組の括弧に囲まれた2つの名称または中間ノードによりゲノム配列の近縁関係を示しており、この系統樹のルートに対応する中間ノード間の相対関係に関する情報が構成されている。例えば「(種1:15,種2:10):20」は後述する図9に表示された系統樹の902の部分の中間ノードを示しており、種1(リーフ)から種1と種2の分岐点までの枝長が15、種2から種1と種2の分岐点までの枝長が10、そして、この分岐点とその上の中間ノード(901に対応するノード)までの枝長が20であることを示している。この他にも、系統樹間の関係を表す形式として、Phylip形式・CLUSTAL形式・Distance Matrix形式により表示することとしても良い。
In this
図17は、対象配列1401に該当する全てのDNA(またはアミノ酸)配列に関する索引情報を作成するためのデータ構造を示す構成図である。この索引情報に含まれる配列KtupleArrayDはpk個の要素からなる配列で、pは配列を構成する要素の種類数を示しており、すなわちDNA配列の場合は4、アミノ酸配列の場合は20となる。kはtuple(文字列)の長さを示している。配列KtupleArrayDの配列の各要素には各tupleが割り当てられる。例えば対象配列1401がDNA配列で、kが2のとき、配列KtupleArrayDは16個の要素からなり、それぞれの要素には、AA・AT・AG・AC・TA・TT・TG・TC・GA・GT・GG・GC・CA・CT・CG・CCの16種類のtupleが割り当てられる。
FIG. 17 is a configuration diagram showing a data structure for creating index information related to all DNA (or amino acid) sequences corresponding to the
また、この配列KtupleArrayDの各要素には、その要素に割り当てられたtupleが対象配列1401中に最も後側に現れたtupleの位置を表す。その要素に割り当てられたtupleが配列中にない場合は、0で表す。
Each element of the array KtupleArrayD represents the position of the tuple where the tuple assigned to the element appears most rearward in the
配列IdxArrayDは対象配列1401と等しい長さの配列であり対象配列1401の各要素に割り当てられた要素からなる配列である。配列IdxArrayDの各要素は対象配列1401上の各位置に割り当てられており、それら各要素に割り当てられた文字から始まるtupleと同じtupleがその要素より前側の配列中に現れた場合には、その現れたもののうちそれら各要素の最も直前に現れた要素の位置を表す。また、もしそれら各要素と同じtupleが前に現れない場合には0で表す。
The array IdxArrayD is an array having a length equal to that of the
図28は、対象配列1401としての配列GTCTCACGACACTCに対して作成された配列KtupleArrayDとIdxArrayDを表示した説明図である。この配列ではtuple TCは配列中の2番目、4番目、13番目に現れており、配列KtupleArrayDのTCに対応する要素(KtupleArrayD[8])に、tuple TCが対象配列1401中に最後に現れた位置13が表示されている。またIdxArrayD[13]には位置13に現れたtuple TCと同一のTCがその直前に現れた位置である「4」、IdxArrayD[4]には位置4に現れたtuple TCと同一のTCがその直前に現れた位置である「2」が表示されている。したがって、ここで示したように、特定のtupleが配列中のどこにあるかを、二つの配列KtupleArrayDとIdxArrayDを用いることで、高速に検索することが出来る。配列KtupleArrayRおよびIdxArrayRは、配列KtupleArrayDとIdxArrayDと同様に対象配列1401としてのDNA配列(またはアミノ酸配列)のreverse complement配列に対して、作成される。
FIG. 28 is an explanatory diagram showing the arrays KtupleArrayD and IdxArrayD created for the array GTCTCACGACACTC as the
図18は、対象配列1401の保存領域を記録するためのデータ構造を示す説明図である。このデータ構造で示す構造体配列ConservedRegは、各対象配列1401毎に、保存領域が存在していれば作成されるものであり、保存領域を示す位置1800、保存領域の長さ1801、保存領域の向き(順方向か逆方向か)1802の各データから構成されている。
FIG. 18 is an explanatory diagram showing a data structure for recording the storage area of the
図19は、各対象配列1401間の保存領域同士の関係を記録するためのデータ構造体ListOfConservedRegを示す説明図である。このデータ構造体は、構成情報1413上の各中間ノードで、保存領域毎に作られるものである。対象配列1401を識別するための配列名1900、この対象配列1401において作成されているいずれのConservedRegが対応しているかを示すために、配列名1900毎に作成された各構造体配列ConservedRegを識別するためのindex1901の各データから作成されている。
FIG. 19 is an explanatory diagram showing a data structure ListOfConservedReg for recording the relationship between the storage areas between the
図20は、図19で述べた関連する保存領域の集合を表す配列ListOfConservedRegを集めた配列AllOfConservedRegのデータ構造を示す説明図である。この配列AllOfConservedRegの各要素はListOfConservedRegへリンクしたポインタが表示されており、構成情報1413上の各中間ノード毎に、この配列AllOfConservedRegが1つ作成される。この配列AllOfConservedRegに該当する中間ノードに属するゲノム配列で保存されている異なる種類の保存領域のそれぞれを、各要素とListOfConservedRegとでリンクさせてこの配列によって表示している。なお、本実施の形態における進化過程を考慮した保存領域検出システムは、一般に使用されている各種の情報処理を行うための情報処理装置であるパーソナルコンピュータを用いて実現することも可能である。
FIG. 20 is an explanatory diagram showing the data structure of an array AllOfConservedReg in which the array ListOfConservedReg representing the set of related storage areas described in FIG. 19 is collected. Each element of this array AllOfConservedReg displays a pointer linked to ListOfConservedReg, and one array AllOfConservedReg is created for each intermediate node on the
続いて、上述のような構成を有する本実施形態の進化過程を考慮した保存領域検出システムの動作について図21乃至図27に示すフローチャートを用いて詳細に説明する。図21乃至図27に示すフローチャートでは、CPU1406が処理を行うことにより、図9、図10、図11、図12、図13に示す画像のデータを表示させるために必要となる系統樹1413の各リーフに対するConservedRegと、保存領域の関連を保持する配列ListOfConservedRegと、配列AllOfConservedRegを求めるようになっている。以下に説明する動作では、対象配列1401および系統樹1413から、系統樹1413の各中間ノードに対して、これらの三つの配列を得るためのアルゴリズムを説明する。
Next, the operation of the storage area detection system considering the evolution process of the present embodiment having the above-described configuration will be described in detail with reference to the flowcharts shown in FIGS. In the flowcharts shown in FIG. 21 to FIG. 27, each of the
本実施の形態における進化過程を考慮した保存領域検出システム100の概略的な処理の流れを図21に示すフローチャートを用いて説明する。まず、進化過程を考慮した保存領域検出システム100のCPU1406は、研究者がフロッピー(登録商標)ディスクやCD−ROM等の外部記録媒体を用いて入力した対象配列1401と系統樹の構成情報1413のデータを読み込み、データメモリ1411内に格納して入力データ1412として保持する(ステップ2100)。このとき、構成情報1413については系統樹自体の情報を読み込まなくても、系統樹を構成するために必要となるパラメータ情報のみを入力しこのパラメータ情報に基づいてCPU1406が構成情報1413のデータを作成することとしても良い。
A schematic processing flow of the storage area detection system 100 in consideration of the evolution process in the present embodiment will be described with reference to a flowchart shown in FIG. First, the
次に、CPU1406は、保存領域を検出するためのパラメータk, w, mを読み込み、データメモリ1411の入力データ1412として保持する処理を行う(ステップ2101)。ここで、kはtupleの文字列の長さ、wはウィンドウの長さ、mはウィンドウ内で許容されるミスマッチの数、即ち保存領域を検出する2つのゲノム配列で相互に異なる文字の最大限度数を示している。保存領域を検出する際に保存領域として検出を行っている領域中の連続するw個の文字(塩基または残基)に対し、2つの配列で相互に異なる文字であるミスマッチの個数が最大m個までを許容するようになっている。例えば、図29では、ウィンドウサイズwを5、許容されるミスマッチmの数を1としたときの配列Aと配列Bの2つのゲノム配列間の保存領域の場所を示している。この場合、連続する5個の文字のペア毎に同一の文字の配列を検出して保存領域を検出していった際にミスマッチの個数が全ての5個の文字のペア毎で1個以内となっており領域2601は二つの配列間の保存領域になっている。
Next, the
次に、CPU1406は、対象配列1401がDNA配列であり、それをアミノ酸配列として比較したい場合、全てのDNA配列をアミノ酸配列に変換する処理を行う(ステップ2102)。
Next, when the
次に、CPU1406は、各対象配列1401に対して上述のように図17乃至図20に示す索引情報、すなわちKtupleArrayD[ ], IdxArrayD[ ], KtupleArrayR[ ], IdxArrayR[ ] を作成する処理を行う(ステップ2103)。この処理の詳細については後述する。
Next, the
次に、CPU1406は、構成情報1413により構成される系統樹の全ての中間ノードに対して、その中間ノードに属するゲノム配列から全ての保存領域を検出したか否かを判定する処理を行う(ステップ2104)。
Next, the
次に、CPU1406は、全ての保存領域を検出していない場合には(ステップ2104のNO)、構成情報1413により構成される系統樹の全ての中間ノードに対して、その中間ノードに属するゲノム配列のうち保存領域を未だ検出していないものを選択する処理を行う(ステップ2105)。
Next, when all the storage areas are not detected (NO in step 2104), the
次に、CPU1406は、この選択した各ゲノム配列の間で保存されている保存領域を検出する処理を行う(ステップ2106)。この保存領域を検出する処理は後で詳しく述べる。この保存領域を検出する処理が終了すると次にステップ2104の処理を実行する。
Next, the
次に、CPU1406は、全ての保存領域を検出した場合には(ステップ2104のYES)、保存領域に基づいて配列DB1405内を検索し、同一の保存領域を有する種のゲノム配列の情報等の保存領域に関連する情報等があればこの関連情報を以上のゲノム解析の結果に付与する。そして、ゲノム解析の結果を表示装置1402に表示する処理を行い(ステップ2107)、全体の処理を終了する。
Next, when the
続いて、上述のステップ2103における、各対象配列1401に対して索引情報、すなわちKtupleArrayD[ ], IdxArrayD[ ], KtupleArrayR[ ], IdxArrayR[ ] を作成する処理について図22に示すフローチャートを用いて詳細に説明する。まず、CPU1406は、個々の対象配列1401に対応するKtupleArrayD[ ], IdxArrayD[ ], KtupleArrayR[ ], IdxArrayR[ ]の全要素を0で初期化する処理を行う(ステップ2200)。
Subsequently, the process of creating index information, that is, KtupleArrayD [], IdxArrayD [], KtupleArrayR [], IdxArrayR [] for each
次に、CPU1406は、変数j=1を設定する処理を行う(ステップ2201)。
Next, the
次に、CPU1406は、変数jが対象配列1401の配列終端側で最も後側のtupleに該当する要素の位置を示す数値、すなわちj=配列長−kとなっているか否かを判定する(ステップ2202)。j=配列長−kとなっている場合には(ステップ2202のYES)、ステップ2207の処理を実行する。
Next, the
次に、CPU1406は、j=配列長−kとなっていない場合には(ステップ2202のNO)、対象配列1401のj番目からはじまるk個の文字列からなるtupleをKと設定し、このKに割り当てられている配列KtupleArrayD[ ]の要素インデックス(即ち配列KtupleArrayD[ ]内の要素の位置を示す要素番号)を iと設定し、配列KtupleArrayD[ ]の配列中の各要素を構成していく処理を行う(ステップ2203)。例えば図28に示す配列KtupleArrayD[
]では、tuple KがTCの場合には、i は8番目の要素インデックスを示す「8」となっている。
Next, when j = array length−k is not satisfied (NO in step 2202), the
], When tuple K is TC, i is “8” indicating the eighth element index.
次に、CPU1406は、IndexArrayD[j]にKtupleArrayD[i]の数値を代入し、また、KtupleArrayD[i] に j を入力する(ステップ2204、2205)。KtupleArrayD[i]には、常に対象配列1401の配列中の最も後側に現れたtupleの位置を表示するため、この二つのステップ(2204,2205)は、変数jの数値をインクリメントしていき(ステップ2206)、配列中に新しくKに該当するtupleが後側に現れるたびに、KtupleArrayD[i]の数値を更新し、IdxArrayD[j]にその更新前のKtupleArrayD[i]の数値を表示していき、更新していく処理となっている。
Next, the
次に、以上のステップ2202〜2206の処理を全ての変数jに対して実行することにより、図28に示すような、配列IndexArrayD[j]とKtupleArrayD[i]の索引情報を作成する。
Next, the
次に、CPU1406は、以上のステップ2202〜2206の処理を全ての変数jに対して実行し、j=配列長−kとなっている場合には(ステップ2202のYES)、対象配列1401のreverse complement配列を改めて対象配列に設定する処理を行う(ステップ2207)。
Next, the
次に、CPU1406は、このreverse
complement配列に対する索引情報の配列IndexArrayR[j]とKtupleArrayR[i]を作成する処理を行う(ステップ2208〜2213)。CPU1406は、上述の対象配列1401に対して以上のステップ2202〜2206の処理と同様の処理を実行していき配列IndexArrayR[j]とKtupleArrayR[i]を作成する。以上のステップ2208〜2213の処理を全ての変数jに対して実行し、j=配列長−kとなっている場合には(ステップ2209のYES)、処理を終了する。
Next, the
Processing for creating index information arrays IndexArrayR [j] and KtupleArrayR [i] for the complement array is performed (
続いて、上述のステップ2106における、選択した各ゲノム配列の間で保存されている保存領域を検出する処理について図23〜図26で一体的に構成されたフローチャートを用いて詳細に説明する。まず、CPU1406は、上述のステップ2105で選択した保存領域の検出対象となる各対象配列1401のそれぞれに対して、対象配列1401を識別する情報seq1, seq2, …, seqMを設定する処理を行う(ステップ2300)。
Next, processing for detecting a storage region stored between each selected genome sequence in the above-described
次に、CPU1406は、変数i=1を設定する処理を行う(ステップ2301)。
Next, the
次に、CPU1406は、変数iが配列KtupleArrayDの終端位置を示す数値、すなわちi> pkとなっているか否かを判定する(ステップ2302)。i> pkとなっている場合には(ステップ2302のYES)、処理を終了する。 Then, CPU1406 determines number, i.e. whether a i> p k the variable i indicating the end position of the sequence KtupleArrayD (step 2302). If that is the i> p k (YES in Step 2302), the process ends.
次に、CPU1406は、定数c1にseq1の配列の配列KtupleArrayD[i]の数値を代入する処理を行う(ステップ2303)。上述の2103においてseq1の配列に対して作成したKtupleArrayD[i]の数値をc1に代入する。
Next, the
次に、CPU1406は、c1が0であるか否かを判定する処理を行う(ステップ2304)。c1が0である場合には(ステップ2304のYES)、ステップ2328の処理を実行する。
Next, the
次に、CPU1406は、c1が0でない場合には(ステップ2304のNO)、定数c2にseq2の配列の配列KtupleArrayD[i]の数値を代入する処理を行う(ステップ2305)。上述の2103においてseq2の配列に対して作成したKtupleArrayD[i]の数値をc2に代入する。
Next, when c1 is not 0 (NO in step 2304), the
次に、CPU1406は、c2が0であるか否かを判定する処理を行う(ステップ2306)。c2が0である場合には(ステップ2306のYES)、ステップ2317の処理を実行する。
Next, the
次に、CPU1406は、c2が0でない場合には(ステップ2306のNO)、配列seq1のKtupleArrayD[i]に割り当てられたtupleがseq1およびseq2の配列中に存在することとなっており、これら2つのゲノム配列seq1のc1番目とseq2のc2番目の位置に存在するこの同一のtupleから開始して保存領域を検出していく処理を行う(ステップ2307)。これら2つのゲノム配列seq1、seq2内の検出していく処理の開始位置からアライメントの連続するw個の文字列(塩基または残基)毎に保存領域を検出していき、seq1のc1番目とseq2のc2番目からアライメントを伸張させ保存領域として一致している文字列の個数を伸張させていく。そして、ゲノム配列seq1およびseq2間で相互に異なる文字であるミスマッチの個数がm個以下となっている文字列となっている領域の範囲内で保存領域を拡大させ、ミスマッチの個数がm個より多い文字列が存在した時点でその位置を保存領域の境界位置とする。このようにして保存領域を検出していき保存領域が存在する場合にはこれをCと設定する処理を行う。
Next, when c2 is not 0 (NO in step 2306), the
次に、CPU1406は、ステップ2307において保存領域が存在したか否かを判定する処理を行う(ステップ2308)。保存領域が存在しなかった場合には(ステップ2308のNO)、ステップ2316の処理を実行し、CPU1406は、c2にseq2のKtupleArrayD[c2]を代入する処理を行い、ステップ2306以降の処理を実行する(ステップ2316)。
Next, the
次に、CPU1406は、保存領域が存在した場合には(ステップ2308のYES)、残りの検出対象となる対象配列1401、即ちseq3,…,seqMのゲノム配列中で同一の保存領域Cを検出する処理を行う(ステップ2309)。変数jに対してj=3と設定する処理を行う。
Next, when a storage region exists (YES in step 2308), the
次に、CPU1406は、変数jが対象配列1401の最後のゲノム配列を示す数値、すなわちj>Mとなっているか否かを判定する(ステップ2310)。
Next, the
次に、CPU1406は、j>Mとなっていない場合には(ステップ2310のNO)、ゲノム配列seq jの配列中に存在する保存領域Cを検出する処理を行う(ステップ2311)。このseq jの配列中で保存領域Cを検出する処理については、後で詳しく説明する。
Next, when j> M is not satisfied (NO in step 2310), the
次に、CPU1406は、ステップ2311において保存領域Cが存在したか否かを判定する処理を行う(ステップ2312)。保存領域Cが存在しなかった場合には(ステップ2312のNO)、ステップ2316の処理を実行し、CPU1406は、c2にseq2のKtupleArrayD[c2]を代入する処理を行い、ステップ2306以降の処理を実行する(ステップ2316)。
Next, the
次に、CPU1406は、保存領域Cが存在した場合には(ステップ2312のYES)、変数jをひとつインクリメントし、ステップ2310以降の処理を再度実行する(ステップ2313)。そして、ステップ2310において、j>Mとなっている場合には(ステップ2310のYES)、ステップ2314の処理を実行し、CPU1406は、以上の処理で検出した各対象配列1401における保存領域CおよびCが配列seq1,…,seqMで現れた位置等の情報をConservedReg[
], ListOfConservedReg[ ], AllOfConservedReg[ ]に登録し、ステップ2316の処理を実行する。
Next, when the storage area C exists (YES in Step 2312), the
], ListOfConservedReg [], AllOfConservedReg [], and the processing of
次に、CPU1406は、ステップ2306においてc2が0である場合には(ステップ2306のYES)、c2にseq2のKtupleArrayR[i]を代入する処理を行う(ステップ2317)。上述の2103においてseq2の配列に対して作成したKtupleArrayR[i]の数値をc2に代入する。
Next, when c2 is 0 in step 2306 (YES in step 2306), the
次に、CPU1406は、c2が0であるか否かを判定する処理を行う(ステップ2318)。c2が0である場合には(ステップ2318のYES)、ステップ2315の処理を実行し、CPU1406は、c1にseq1のIdxArrayD[c1]を代入する処理を行い、ステップ2304以降の処理を実行する(ステップ2315)。
Next, the
次に、CPU1406は、c2が0でない場合には(ステップ2318のNO)、配列seq1のKtupleArrayD[i]に割り当てられたtupleがseq1の配列およびseq2のreverse complement配列中に存在することとなっており、これら2つのゲノム配列seq1のc1番目とseq2のreverse complement配列中のc2番目の位置に存在するこの同一のtupleから開始して保存領域を検出していく処理を行う(ステップ2319)。これは上述のステップ2307の処理と同様であり説明を省略する。
Next, when c2 is not 0 (NO in step 2318), the
次に、CPU1406は、ステップ2319において保存領域が存在したか否かを判定する処理を行う(ステップ2320)。保存領域が存在しなかった場合には(ステップ2320のNO)、ステップ2327の処理を実行し、CPU1406は、c2にseq2のIdxArrayR[c2]を代入する処理を行い、ステップ2318以降の処理を実行する(ステップ2327)。
Next, the
次に、CPU1406は、保存領域が存在した場合には(ステップ2320のYES)、残りの検出対象となる対象配列1401、即ちseq3,…,seqMのゲノム配列中で同一の保存領域Cを検出する処理を行う(ステップ2321)。変数jに対してj=3と設定する処理を行う。
Next, when there is a storage region (YES in step 2320), the
次に、CPU1406は、変数jが対象配列1401の最後のゲノム配列を示す数値、すなわちj>Mとなっているか否かを判定する(ステップ2322)。
Next, the
次に、CPU1406は、j>Mとなっていない場合には(ステップ2322のNO)、ゲノム配列seq jの配列中に存在する保存領域Cを検出する処理を行う(ステップ2323)。このseq jの配列中で保存領域Cを検出する処理については、後で詳しく説明する。
Next, when j> M is not satisfied (NO in step 2322), the
次に、CPU1406は、ステップ2323において保存領域Cが存在したか否かを判定する処理を行う(ステップ2324)。保存領域Cが存在しなかった場合には(ステップ2324のNO)、ステップ2327の処理を実行し、CPU1406は、c2にseq2のIdxArrayR[c2]を代入する処理を行い、ステップ2318以降の処理を実行する(ステップ2327)。
Next, the
次に、CPU1406は、保存領域Cが存在した場合には(ステップ2324のYES)、変数jをひとつインクリメントし、ステップ2322以降の処理を再度実行する(ステップ2325)。そして、ステップ2322において、j>Mとなっている場合には(ステップ2322のYES)、ステップ2326の処理を実行し、CPU1406は、以上の処理で検出した各対象配列1401における保存領域CおよびCが配列seq1,…,seqMで現れた位置等の情報をConservedReg[
], ListOfConservedReg[ ], AllOfConservedReg[ ]に登録し、ステップ2327の処理を実行する。
Next, when the storage area C exists (YES in Step 2324), the
], ListOfConservedReg [], AllOfConservedReg [] and execute the processing of
次に、CPU1406は、ステップ2304においてc1が0である場合には(ステップ2304のYES)、c1にseq1のKtupleArrayR[i]を代入する処理を行う(ステップ2328)。上述の2103においてseq1の配列に対して作成したKtupleArrayR[i]の数値をc1に代入する。
Next, when c1 is 0 in step 2304 (YES in step 2304), the
次に、CPU1406は、c1が0であるか否かを判定する処理を行う(ステップ2329)。c1が0である場合には(ステップ2329のYES)、ステップ2342の処理を実行し、CPU1406は、変数iをひとつインクリメントし、ステップ2302以降の処理を実行する(ステップ2342)。
Next, the
次に、CPU1406は、c2にseq2のKtupleArrayD[i]を代入する処理を行う(ステップ2330)。上述の2103においてseq2の配列に対して作成したKtupleArrayD[i]の数値をc2に代入する。
Next, the
次に、CPU1406は、c2が0であるか否かを判定する処理を行う(ステップ2331)。C2が0である場合には(ステップ2331のYES)、ステップ2343以降の処理を実行する。
Next, the
次に、CPU1406は、c2が0でない場合には(ステップ2331のNO)、seq1のreverse complement配列のKtupleArrayR[i]に割り当てられたtupleがseq1のreverse
complement配列中およびseq2の配列に存在することとなっており、これら2つのゲノム配列seq1のreverse complement配列中のc1番目とseq2のc2番目の位置に存在するこの同一のtupleから開始して保存領域を検出していく処理を行う(ステップ2332)。これは上述のステップ2307の処理と同様であり説明を省略する。
Next, when c2 is not 0 (NO in Step 2331), the
A conserved region starting from this same tuple that exists in the c1 and c2 positions in the reverse complement sequence of these two genomic sequences seq1. The process of detecting is performed (step 2332). This is the same as the processing in
次に、CPU1406は、ステップ2332において保存領域が存在したか否かを判定する処理を行う(ステップ2333)。保存領域が存在しなかった場合には(ステップ2333のNO)、ステップ2341の処理を実行し、CPU1406は、c2にseq2のIdxArrayD[c2]を代入する処理を行い、ステップ2331以降の処理を実行する(ステップ2341)。
Next, the
次に、CPU1406は、保存領域が存在した場合には(ステップ2333のYES)、残りの検出対象となる対象配列1401、即ちseq3,…,seqMのゲノム配列中で同一の保存領域Cを検出する処理を行う(ステップ2333)。変数jに対してj=3と設定する処理を行う(ステップ2334)。
Next, when a storage region exists (YES in step 2333), the
次に、CPU1406は、変数jが対象配列1401の最後のゲノム配列を示す数値、すなわちj>Mとなっているか否かを判定する(ステップ2335)。
Next, the
次に、CPU1406は、j>Mとなっていない場合には(ステップ2335のNO)、ゲノム配列seq jの配列中に存在する保存領域Cを検出する処理を行う(ステップ2336)。このseq jの配列中で保存領域Cを検出する処理については、後で詳しく説明する。
Next, when j> M is not satisfied (NO in step 2335), the
次に、CPU1406は、ステップ2336において保存領域Cが存在したか否かを判定する処理を行う(ステップ2337)。保存領域Cが存在しなかった場合には(ステップ2337のNO)、ステップ2341以降の処理を実行する。
Next, the
次に、CPU1406は、保存領域Cが存在した場合には(ステップ2337のYES)、変数jをひとつインクリメントし、ステップ2335以降の処理を再度実行する(ステップ2338)。そして、ステップ2335において、j>Mとなっている場合には(ステップ2335のYES)、ステップ2339の処理を実行し、CPU1406は、以上の処理で検出した各対象配列1401における保存領域CおよびCが配列seq1,…,seqMで現れた位置等の情報をConservedReg[
], ListOfConservedReg[ ], AllOfConservedReg[ ]に登録し、ステップ2341の処理を実行する。
Next, when the storage area C exists (YES in step 2337), the
], ListOfConservedReg [], AllOfConservedReg [], and the processing of
次に、CPU1406は、ステップ2331においてc2が0である場合には(ステップ2331のYES)、c2にseq2のKtupleArrayR[i]を代入する処理を行う(ステップ2343)。上述の2103においてseq2の配列に対して作成したKtupleArrayR[i]の数値をc2に代入する。
Next, when c2 is 0 in Step 2331 (YES in Step 2331), the
次に、CPU1406は、c2が0であるか否かを判定する処理を行う(ステップ2344)。c2が0である場合には(ステップ2344のYES)、ステップ2340の処理を実行し、CPU1406は、c1にseq1のIdxArrayR[c1]を代入する処理を行い、ステップ2329以降の処理を実行する(ステップ2340)。
Next, the
次に、CPU1406は、c2が0でない場合には(ステップ2344のNO)、seq1のreverse complement配列のKtupleArrayR[i]に割り当てられたtupleがseq1のreverse
complement配列中およびseq2のreverse complement配列中に存在することとなっており、これら2つのゲノム配列seq1のreverse complement配列中のc1番目とseq2のreverse
complement配列中のc2番目の位置に存在するこの同一のtupleから開始して保存領域を検出していく処理を行う(ステップ2345)。これは上述のステップ2307の処理と同様であり説明を省略する。
Next, when c2 is not 0 (NO in step 2344), the
It is supposed to be present in the complement sequence and in the reverse complement sequence of seq2, and the reverse of the c1 and seq2 in the reverse complement sequence of these two genomic sequences seq1
A process of detecting a conserved region is performed starting from the same tuple present at the c2 position in the complement sequence (step 2345). This is the same as the processing in
次に、CPU1406は、ステップ2345において保存領域が存在したか否かを判定する処理を行う(ステップ2346)。保存領域が存在しなかった場合には(ステップ2346のNO)、ステップ2353の処理を実行し、CPU1406は、c2にseq2のIdxArrayR[c2]を代入する処理を行い、ステップ2344以降の処理を実行する(ステップ2353)。
Next, the
次に、CPU1406は、保存領域が存在した場合には(ステップ2346のYES)、残りの検出対象となる対象配列1401、即ちseq3,…,seqMのゲノム配列中で同一の保存領域Cを検出する処理を行う(ステップ2347)。変数jに対してj=3と設定する処理を行う。
Next, when the storage region exists (YES in step 2346), the
次に、CPU1406は、変数jが対象配列1401の最後のゲノム配列を示す数値、すなわちj>Mとなっているか否かを判定する(ステップ2348)。
Next, the
次に、CPU1406は、j>Mとなっていない場合には(ステップ2348のNO)、ゲノム配列seq jの配列中に存在する保存領域Cを検出する処理を行う(ステップ2349)。このseq jの配列中で保存領域Cを検出する処理については、後で詳しく説明する。
Next, when j> M is not satisfied (NO in step 2348), the
次に、CPU1406は、ステップ2349において保存領域Cが存在したか否かを判定する処理を行う(ステップ2350)。保存領域Cが存在しなかった場合には(ステップ2350のNO)、ステップ2353以降の処理を実行する。
Next, the
次に、CPU1406は、保存領域Cが存在した場合には(ステップ2350のYES)、変数jをひとつインクリメントし、ステップ2348以降の処理を再度実行する(ステップ2351)。そして、ステップ2348において、j>Mとなっている場合には(ステップ2348のYES)、ステップ2352の処理を実行し、CPU1406は、以上の処理で検出した各対象配列1401における保存領域CおよびCが配列seq1,…,seqMで現れた位置等の情報をConservedReg[
], ListOfConservedReg[ ], AllOfConservedReg[ ]に登録し、ステップ2353の処理を実行する。以上のようにして、選択した各ゲノム配列の間で保存されている保存領域を検出する処理を行う。
Next, when the storage area C exists (YES in Step 2350), the
], ListOfConservedReg [], AllOfConservedReg [], and the process of
続いて、上述のステップ2311、2323、2336、2349における、ゲノム配列seq jの配列中に存在する保存領域Cを検出するについて図27で示すフローチャートを用いて詳細に説明する。まず、CPU1406は、保存領域C内の最も前側に位置する先頭tupleに該当するindexに変数iを設定する処理を行う(ステップ2400)。
Next, detection of the conserved region C present in the sequence of the genome sequence seq j in the
次に、CPU1406は、ゲノム配列seq j のKtupleArrayD[i]の値をc1と設定する処理を行う(ステップ2401)。
Next, the
次に、CPU1406は、c1が0であるか否かを判定する処理を行う(ステップ2402)。c1が0である場合には(ステップ2402のYES)、ステップ2406の処理を実行し、CPU1406は、c1にseqjのKtupleArrayR[i]を代入する処理を行い、ステップ2407以降の処理を実行する(ステップ2406)。
Next, the
次に、CPU1406は、c1が0でない場合には(ステップ2402のNO)、保存領域Cの先頭tupleがseqjの配列中に存在することとなっており、ゲノム配列seqjのc1番目から開始して、ステップ2307、2319、2332、2345で検出した保存領域Cのデータに基づいて保存領域を検出していく処理を行う(ステップ2403、2404)。これらゲノム配列seqj内の検出していく処理の開始位置および保存領域C内の先頭位置から文字列を比較していき、アライメントの連続するw個の文字列(塩基または残基)毎に保存領域を検出していき、seqjのc1番目からアライメントを伸張させ保存領域Cと一致している文字列の個数を伸張させていく。そして、ゲノム配列seqjおよび保存領域C間で相互に異なる文字であるミスマッチの個数がm個以下となっている文字列となっている領域の範囲内で保存領域を拡大させ、ミスマッチの個数がm個より多い文字列が存在した時点でその位置をゲノム配列seqj内での保存領域の境界位置とする。このようにして保存領域を検出していき保存領域が存在する場合にはこれを一時的にデータメモリ1411に格納する処理を行う。この検出した保存領域が保存領域Cよりも短い場合であっても、この検出した保存領域を改めてゲノム配列seqjにおける保存領域Cとして設定しデータメモリ1411に格納する処理を行う。
Next, when c1 is not 0 (NO in step 2402), the
次に、CPU1406は、c1にseqjのIdxArrayD[c1]を代入する処理を行い、ステップ2402以降の処理を実行する(ステップ2405)。
Next, the
次に、CPU1406は、ステップ2402においてc1が0である場合には(ステップ2402のYES)、ステップ2406の処理を実行し、CPU1406は、c1にseqjのKtupleArrayR[i]を代入する処理を行う(ステップ2406)。
Next, when c1 is 0 in step 2402 (YES in step 2402), the
次に、CPU1406は、c1が0であるか否かを判定する処理を行う(ステップ2407)。c1が0である場合には(ステップ2407のYES)、処理を終了する。
Next, the
次に、CPU1406は、c1が0でない場合には(ステップ2407のNO)、保存領域Cの先頭tupleがseqjのreverse
complement配列中に存在することとなっており、ゲノム配列seqjのreverse complement配列中のc1番目から開始して、ステップ2307、2319、2332、2345で検出した保存領域Cのデータに基づいて保存領域を検出していく処理を行う(ステップ2408、2409)。これは上述のステップ2403、2404の処理と同様であり説明を省略する。
Next, when c1 is not 0 (NO in Step 2407), the
The conserved region is determined based on the data of conserved region C detected in
次に、CPU1406は、c1にseqjのIdxArrayR[c1]を代入する処理を行い、ステップ2407以降の処理を実行する(ステップ2410)。
Next, the
CPU1406が以上説明した進化過程を考慮した保存領域検出システム100の動作を行うことにより、構成情報1413により構成される系統樹に属する中間ノードに属する各リーフに対する対象配列1401内で保存されている保存領域を検出し構造体配列ConservedRegと、保存領域の関連を保持する配列ListOfConservedRegと、配列AllOfConservedRegが求められる。そして、CPU1406は、以下に説明するような図9、図10、図11、図12、図13に示す画像のデータを作成し表示装置1402に表示させる処理を行う。
When the
図9は、構造体配列ConservedRegと、配列ListOfConservedRegと、配列AllOfConservedRegのデータを用いて作成した系統樹の様子を示す説明図である。この系統樹では、表示画面の左半分に対象配列1401の名称(例えば種1〜種6)を用いて構成された系統樹、右半分に各対象配列1401に対応するゲノム配列上の保存領域が表示されている。系統樹の各枝は、各対象配列1401毎に異なる色や実線、点線、一点鎖線等の異なる形態の線で表示されている。これにより配列ファミリーを識別するようになっており、例えば、線901は種1、種2、種3、種4のファミリーを表し、線902は種1、種2のファミリーを表している。図9では、各枝を識別するために色と線の形態を変えているが、実際にはこれ以外の表現方法でもよく、例えば、線の近くにタグや番号、名称等を表示する実現方法を用いても良い。
FIG. 9 is an explanatory diagram showing a phylogenetic tree created using data of the structure array ConservedReg, the array ListOfConservedReg, and the array AllOfConservedReg. In this phylogenetic tree, the left half of the display screen has a phylogenetic tree configured using the names of the target sequences 1401 (for example,
また図9の系統樹の右側には、各対象配列1401に対して、保存領域の位置と、その保存領域が系統樹で保存されているレベルを模式的に表示している。系統樹のレベルは、左半分の系統樹の枝の色・線の形態に対応しており、例えば種1と種2でのみ保存されている領域は種1と種2が属している中間ノードを形成する線902と同一の色および形態の線を用いて示した905の部分となっている。同様に、種1、種2、種3、種4でのみ保存されている領域は線901と同一の色および形態の線を用いて示した903に示された部分で、全ての対象配列1401(種1〜種6)で保存されている領域は線901の上位側の線と同一の色および形態の線を用いて示した904に示された部分である。遠縁の種同士で保存されているものは、近縁の種同士でも保存されているはずであり、図9の表示結果では、系統樹において根に近いところの線で表された保存領域は、葉に近いところの全ての対象配列1401内に存在していることが表示されている。
Further, on the right side of the phylogenetic tree in FIG. 9, the position of the storage area and the level at which the storage area is stored in the phylogenetic tree are schematically displayed for each
図10は、図9で示した対象配列1401としての種1の保存領域を実際の塩基配列(またはアミノ酸配列)として表示した説明図である。図10により研究者は、対象配列1401の保存領域のDNA(またはアミノ酸)配列を知ることが可能となっている。図10の図中で矢印の領域は、種1の配列をインターネット等の公衆網やローカルネットワーク上に設置されたデータベースに対して、このDNA(またはアミノ酸)配列に基づいて検索し、その結果をマッピングすることによって表示したものである(矢印の向きは検索配列の方向)。研究者は、この結果を参照してこの保存領域のDNA(またはアミノ酸)配列と既知の情報の対応関係を知ることもできる。図中では、保存領域で既知の結果が見つかった状況を示しており、研究者はこれにより、保存領域の生物学的意味を知ることができるようになっている。
FIG. 10 is an explanatory diagram showing the conserved region of
図11は、図9で示した各対象配列1401内の各保存領域の間の関係を示した説明図である。線の色・形状は図9の右半分において保存領域を表示した線に対応している。表示対象となる対象配列1401(図11の場合、種1・種2・種3・種4)を選ぶためには、例えば図9の表示画面上において901等の保存領域が表示されている線をマウス1404により選択操作して、このような表示をするかどうかのメニューを出せばよい。あるいは任意の配列集合を、入力メニューから選択操作して表示させることとしても良い。図11では、画面左寄りのの保存領域1101は種1、種2、種3では同じ向きだが、種4では向きが異なっている。これを参照することにより研究者は、進化のある時点で、種4でのみinversionが起こって向きが変わったか、あるいは種1・種2・種3の全てがinversionによって向きが変わった事実等を推測することが可能となり、これから進化の過程を知る手がかりとすることができる。
FIG. 11 is an explanatory diagram showing the relationship between the storage areas in each
図12も、図11と同様に図9で示した各対象配列1401内の各保存領域の間の関係を示した説明図である。図12では、図9の系統樹内の種5と種6を対象として表示している。この図12の画面を参照することにより研究者は、領域1201が、種5では2つ、種6ではひとつありこのことから種5が過去に領域1201を重複した事実等を推測できる。同様に領域1202は、過去に種6で同領域が重複した事実等を推測できる。
FIG. 12 is also an explanatory diagram showing the relationship between the storage areas in each
図13は、図9で示した系統樹内の種に対応する保存領域について他の種にも存在している状況を示した説明図である。図13では、種5の1301領域について、これと同様の配列が他の種にあるかどうか検索し、種3と種6でそれが発見された状況を示している。見つかった配列については、種の名称を強調して明確に表示している。ここで図13の画面を参照して研究者は、領域1301が種3でみつかったことの原因として、ひとつは進化系統樹そのものが間違っていたこと、そしてもうひとつは、SINE配列やLINE配列などレトロトランスポゾン配列が挿入されたことが考えられる等の推測を行うことができる。逆にこのことを用いて、系統樹が正しいかどうかを、見つかった保存領域に対して繰り返し検索を行うことで確認する利用形態も実現できる。
FIG. 13 is an explanatory diagram showing a situation in which the storage area corresponding to the species in the phylogenetic tree shown in FIG. 9 also exists in other species. FIG. 13 shows a situation in which the same sequence as that in the other species is searched for the 1301 region of the
以上説明したように、本実施の形態における進化過程を考慮した保存領域検出システム100では、CPU1406がゲノム解析の対象となる対象配列1401のデータに対してKtupleArrayD[ ], IdxArrayD[ ], KtupleArrayR[ ], IdxArrayR[ ]の索引情報を作成する処理を行い、構成情報1413により構成される系統樹に属する中間ノードに属する各リーフに対する対象配列1401内で保存されている保存領域を検出し構造体配列ConservedRegと、保存領域の関連を保持する配列ListOfConservedRegと、配列AllOfConservedRegを求める処理を行う。
As described above, in the storage region detection system 100 in consideration of the evolution process in the present embodiment, the
そして、CPU1406は、構造体配列ConservedRegと、配列ListOfConservedRegと、配列AllOfConservedRegのデータを用いて系統樹や系統樹を構成する各対象配列1401の実際のゲノム配列、各対象配列1401内の各保存領域の間の関係を示した表示データを作成し、ゲノム配列同士の保存領域を進化過程と対応付けて系統樹の情報と併せて表示画面1402に表示するので、研究者は、これを参照して各対象配列1401の種の保存領域の進化の過程を推測し、進化の過程を手がかりとして利用することが可能である。そして、より本質的な生物学の理解を得られることが期待される。
Then, the
(他の実施の形態)
図21および図22で示すフローチャートを用いて行った処理では、対象配列1401や構成情報1413のデータをもちいて、保存領域の検出対象となるゲノム配列を選択しているが、これに限られず、対象配列1401以外の任意のゲノム配列の集合に対しても、この処理を実行することが可能である。その場合には、図21のステップ2104の処理を実行せずスキップし、ステップ2105の処理で保存領域の検出対象となるゲノム配列として、対象配列1401以外の「任意の配列の集合」を選ぶようにすれば良い。
(Other embodiments)
In the process performed using the flowcharts shown in FIG. 21 and FIG. 22, the
また、図13のような解析結果を得るには、これは図24に示すフローチャートを用いた処理で説明した「配列seq j内に存在する保存領域Cを検出する処理」を全ての対象配列1401に対して実行すればよい。この処理によって保存領域Cが他の対象配列1401としてのゲノム配列でも検出されれば、そのゲノム配列中の保存領域Cの位置を記録することによって、図13で示す表示結果を得ることができる。
Further, in order to obtain the analysis result as shown in FIG. 13, this is the same as the processing for detecting the storage region C existing in the sequence seq j described in the processing using the flowchart shown in FIG. Can be executed. If the storage region C is also detected in the genome sequence as another
複数のDNA(またはアミノ酸)配列から、ゲノム配列を比較してゲノム配列中における意味を調べるゲノム解析に関し、特に、進化の過程で保存されている保存領域を見つけ、表示する進化過程を考慮した保存領域検出システムにおいて利用することが可能である。 Concerning genome analysis that examines the meaning of genomic sequences by comparing genomic sequences from multiple DNA (or amino acid) sequences, especially conserved in consideration of evolutionary processes to find and display conserved conserved regions during evolutionary processes It can be used in an area detection system.
100 保存領域検出システム
1401 対象配列
1402 表示装置
1403 キーボード
1404 マウス
1405 配列DB
1406 中央処理装置
1407 プログラムメモリ
1408 保存領域計算処理部
1409 系統樹計算処理部
1410 分析結果表示処理部
1411 データメモリ
1412 入力データ
1413 系統樹
2601 保存領域
100 storage
1406 Central processing unit 1407
Claims (7)
ゲノム配列に基づいて得られる系統樹を参照して、この系統樹を構成している中間ノードに属するゲノム配列を認識する配列認識手段と、
中間ノードに属するゲノム配列において存在している保存領域を検出していく保存検出手段とを備え、
前記保存検出手段は、
中間ノードに属する2つのゲノム配列において存在している同一の文字列の位置から開始して一定の文字列毎にゲノム配列内の領域を検出していき、ミスマッチの文字の個数が所定の個数以下の文字列が存在している前記領域を保存領域として拡大させていき、ミスマッチの文字の個数が所定の個数を超えた位置を保存領域の境界位置とすることにより、保存領域を検出することを特徴とする進化過程を考慮した保存領域検出システム。 In a conserved region detection system that takes into account the evolution process of finding conserved regions that are evolutionarily conserved without undergoing sequence changes in the genomic sequence to be subjected to genomic analysis among a plurality of DNA sequences,
Sequence recognition means for referring to a phylogenetic tree obtained on the basis of a genomic sequence and recognizing a genomic sequence belonging to an intermediate node constituting the phylogenetic tree;
And a storage detecting means will detect the save area that is present in the genome sequence belonging to the intermediate node,
The storage detection means includes
Starting from the position of the same character string existing in the two genome sequences belonging to the intermediate node, the region within the genome sequence is detected for each fixed character string, and the number of mismatched characters is less than the predetermined number The storage area is detected by expanding the area where the character string exists as a storage area, and setting the position where the number of mismatched characters exceeds a predetermined number as the boundary position of the storage area. A storage area detection system that takes into account the evolutionary process that is characteristic.
前記保存検出手段は、
中間ノードに属する複数のゲノム配列において存在している同一の文字列の位置から開始してゲノム配列内で検出した保存領域に基づいて、中間ノードを変えながら繰り返しこの検出した同一の保存領域を検出していき、全ての中間ノードに属するゲノム配列内の保存領域を検出することを特徴とする進化過程を考慮した保存領域検出システム。 In the storage area detection system considering the evolution process according to claim 1 ,
The storage detection means includes
Starting from the position of the same character string existing in multiple genome sequences belonging to the intermediate node, the same conserved region that was detected is detected repeatedly while changing the intermediate node based on the conserved region detected in the genome sequence. A storage region detection system that takes into account the evolutionary process, characterized by detecting storage regions in the genome sequence belonging to all intermediate nodes.
前記保存検出手段が検出したゲノム配列内の各保存領域をそれぞれ毎に異なる形態の線により構成し、前記系統樹上の中間ノードを形成する枝を、中間ノードに属するゲノム配列内の各保存領域に対応させた形態の線により構成し、前記各保存領域と系統樹を同時に表示する解析結果表示手段を備えたことを特徴とする進化過程を考慮した保存領域検出システム。 In the storage area detection system considering the evolution process according to claim 2 ,
Each storage region in the genome sequence detected by the storage detection means is configured by a line having a different form for each, and branches forming the intermediate node on the phylogenetic tree are each stored region in the genome sequence belonging to the intermediate node. A storage area detection system taking into account the evolution process, characterized by comprising analysis result display means configured to display each storage area and phylogenetic tree at the same time.
前記解析結果表示手段は、
前記各保存領域を、既知のゲノム配列に関する情報と組み合わせて同時に表示することを特徴とする進化過程を考慮した保存領域検出システム。 In the storage area detection system considering the evolution process according to claim 3 ,
The analysis result display means includes
A storage region detection system considering an evolution process, wherein each storage region is simultaneously displayed in combination with information on a known genome sequence.
前記解析結果表示手段は、
前記各保存領域を、各保存領域が含まれるゲノム配列と組み合わせ、各ゲノム配列間に含まれる同一の保存領域を関連付けて表示することを特徴とする進化過程を考慮した保存領域検出システム。 In the preservation area detection system in consideration of the evolution process according to claim 4 ,
The analysis result display means includes
A storage area detection system considering an evolution process, wherein each storage area is combined with a genome sequence including each storage area and the same storage area included between the genome sequences is displayed in association with each other.
任意の配列に基づいて、前記系統樹を構成している中間ノードに属するゲノム配列を検索する配列検索手段と、
前記配列検索手段が検索した結果得られたゲノム配列の情報を参照して、前記系統樹を構成している中間ノードに属するゲノム配列に関する情報を特定の表示方法で表示する特定表示手段を備えたことを特徴とする進化過程を考慮した保存領域検出システム。 In the storage area detection system considering the evolution process according to claim 5 ,
Sequence search means for searching for a genome sequence belonging to an intermediate node constituting the phylogenetic tree based on an arbitrary sequence;
Specific display means for displaying information on genome sequences belonging to the intermediate nodes constituting the phylogenetic tree with a specific display method with reference to information on the genome sequence obtained as a result of the search by the sequence search means A storage area detection system that takes into account the evolutionary process.
特定表示手段は、
前記配列検索手段が検索した結果得られたゲノム配列を、当該任意の配列部分を関連付けて表示することを特徴とする進化過程を考慮した保存領域検出システム。 In the preservation area detection system considering the evolution process according to claim 6 ,
The specific display means is
A storage region detection system in consideration of an evolution process, characterized in that a genome sequence obtained as a result of searching by the sequence search means is displayed in association with the arbitrary sequence portion.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006035486A JP4975334B2 (en) | 2006-02-13 | 2006-02-13 | Storage area detection system considering evolutionary process |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006035486A JP4975334B2 (en) | 2006-02-13 | 2006-02-13 | Storage area detection system considering evolutionary process |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007209305A JP2007209305A (en) | 2007-08-23 |
JP4975334B2 true JP4975334B2 (en) | 2012-07-11 |
Family
ID=38488248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006035486A Expired - Fee Related JP4975334B2 (en) | 2006-02-13 | 2006-02-13 | Storage area detection system considering evolutionary process |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4975334B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5453613B2 (en) * | 2008-09-30 | 2014-03-26 | 独立行政法人農業生物資源研究所 | Gene clustering apparatus and program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3353263B2 (en) * | 1993-11-12 | 2002-12-03 | 国立遺伝学研究所長 | Gene motif extraction processing apparatus and processing method |
JP2002330768A (en) * | 2001-05-11 | 2002-11-19 | Hitachi Software Eng Co Ltd | Probe designing method and biochip |
JP2006501223A (en) * | 2002-08-20 | 2006-01-12 | ピネル,ドーレン・エム | How to treat a fungal infection |
-
2006
- 2006-02-13 JP JP2006035486A patent/JP4975334B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007209305A (en) | 2007-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Danilevicz et al. | Plant pangenomics: approaches, applications and advancements | |
Zhang et al. | Phylogenomics from low‐coverage whole‐genome sequencing | |
Som | Causes, consequences and solutions of phylogenetic incongruence | |
Tice et al. | PhyloFisher: a phylogenomic package for resolving eukaryotic relationships | |
Uberbacher et al. | [16] Discovering and understanding genes in human DNA sequence using GRAIL | |
Powell et al. | Empirical evaluation of partitioning schemes for phylogenetic analyses of mitogenomic data: an avian case study | |
CA2424031C (en) | System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map | |
D’Agostino et al. | NGS-based genotyping, high-throughput phenotyping and genome-wide association studies laid the foundations for next-generation breeding in horticultural crops | |
Morrison et al. | Molecular homology and multiple-sequence alignment: an analysis of concepts and practice | |
Vitales et al. | Reconstructing phylogenetic relationships based on repeat sequence similarities | |
Horscroft et al. | Sequencing era methods for identifying signatures of selection in the genome | |
KR20140006846A (en) | Data analysis of dna sequences | |
Bourgeois et al. | Disentangling the determinants of transposable elements dynamics in vertebrate genomes using empirical evidences and simulations | |
Valderrama et al. | Transcriptome mining for phylogenetic markers in a recently radiated genus of tropical plants (Renealmia Lf, Zingiberaceae) | |
Fernández et al. | Orthology: definitions, inference, and impact on species phylogeny inference | |
Subbotin et al. | Molecular systematics | |
JP4975334B2 (en) | Storage area detection system considering evolutionary process | |
Fletcher et al. | AFLAP: Assembly-Free Linkage Analysis Pipeline using k-mers from whole genome sequencing data | |
Cvrčková | A plant biologists’ guide to phylogenetic analysis of biological macromolecule sequences | |
Lerat | Repeat in genomes: How and why you should consider them in genome analyses | |
US20160070856A1 (en) | Variant-calling on data from amplicon-based sequencing methods | |
Gustafsson et al. | Clustering genomic signatures A new distance measure for variable length Markov chains | |
Bertrand et al. | Genetic map refinement using a comparative genomic approach | |
Belcaid et al. | Exploring genome rearrangements using virtual hybridization | |
Jiang | Repetitive DNA sequence assembly |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080627 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110531 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110704 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120410 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120411 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150420 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |