JP4557609B2 - How to display splice variant sequence mapping - Google Patents
How to display splice variant sequence mapping Download PDFInfo
- Publication number
- JP4557609B2 JP4557609B2 JP2004170276A JP2004170276A JP4557609B2 JP 4557609 B2 JP4557609 B2 JP 4557609B2 JP 2004170276 A JP2004170276 A JP 2004170276A JP 2004170276 A JP2004170276 A JP 2004170276A JP 4557609 B2 JP4557609 B2 JP 4557609B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- cdna
- expression information
- start position
- cdna sequences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000013507 mapping Methods 0.000 title claims description 17
- 239000002299 complementary DNA Substances 0.000 claims description 86
- 230000014509 gene expression Effects 0.000 claims description 66
- 238000013518 transcription Methods 0.000 claims description 47
- 230000035897 transcription Effects 0.000 claims description 47
- 238000012545 processing Methods 0.000 claims description 33
- 238000000034 method Methods 0.000 claims description 26
- 230000015556 catabolic process Effects 0.000 claims description 7
- 102000001708 Protein Isoforms Human genes 0.000 claims description 4
- 108010029485 Protein Isoforms Proteins 0.000 claims description 4
- 108020004635 Complementary DNA Proteins 0.000 claims 2
- 108090000623 proteins and genes Proteins 0.000 description 22
- 108020004999 messenger RNA Proteins 0.000 description 13
- 108091060211 Expressed sequence tag Proteins 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 10
- 210000001519 tissue Anatomy 0.000 description 5
- 108700024394 Exon Proteins 0.000 description 4
- 238000001727 in vivo Methods 0.000 description 4
- 239000003550 marker Substances 0.000 description 4
- 210000000349 chromosome Anatomy 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000007794 visualization technique Methods 0.000 description 2
- 241000206602 Eukaryota Species 0.000 description 1
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 150000007513 acids Chemical class 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000001647 drug administration Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000003754 fetus Anatomy 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 101150090192 how gene Proteins 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
- 230000005026 transcription initiation Effects 0.000 description 1
- 230000005030 transcription termination Effects 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、遺伝子配列の情報解析に係わり、特に、大量のスプライスバリアント配列のエクソン・イントロン構造と、発現情報、及び、転写開始位置との相関関係の解析にかかわる。 The present invention relates to information analysis of gene sequences, and more particularly, to analysis of correlation between exon / intron structure of a large amount of splice variant sequences, expression information, and transcription start position.
ヒトを含む真核生物では、ゲノム上の一つの遺伝子領域からの同じ一次転写産物が、互いに異なるスプライシング過程を経ることにより、互いに異なる配列をもつ種々のmRNAが生成される。それらはスプライスバリアントとよばれる。それらは、互いに異なる配列を持つ蛋白質を生成し、従って互いに異なる機能を生体内で果たす。また、ゲノム配列上で遺伝子領域の上流側にはプロモータ領域や調節領域があり、それらの領域は、その遺伝子をいつどのような条件下でどの塩基位置から転写を開始するかを制御している。一つの遺伝子は、その転写開始位置を変化させることにより、異なった配列を持つ蛋白質を生成し、異なった機能を生体内で果たすことがある。これらは、発現する組織の違い、または、発達段階の違いなどにより、その遺伝子に多様性を持たせるための一つの大切な生体内の機構となっている。 In eukaryotes including humans, various mRNAs having different sequences are generated by the same primary transcript from one gene region on the genome through different splicing processes. They are called splice variants. They produce proteins with different sequences and thus perform different functions in vivo. In addition, there are a promoter region and a regulatory region upstream of the gene region on the genome sequence, and these regions control when and under what conditions the gene starts transcription. . One gene may generate a protein having a different sequence by changing its transcription start position, and may perform different functions in vivo. These are one important in vivo mechanism for giving diversity to the genes due to differences in the tissues to be expressed or developmental stages.
生体内で発現しているmRNAの配列データは、cDNAライブラリを作成し、シーケンサで塩基配列を読み取ることによって得られる。シーケンサで一度に読むことができる塩基数には限度があるため、通常、mRNA全長に渡る配列を得るためには繰り返しシーケンシングを行い、コストがかかる。そこで、発現する組織の違い、または、発達段階の違いなどにより、どのような遺伝子が発現しているかに関する情報を簡便に得るために、mRNA配列の一部分だけをシーケンサで一度だけ読み取って得られたEST(Expressed Sequence Tags)配列、またはワンパス (single-pass) 配列が大量に知られている。 Sequence data of mRNA expressed in vivo can be obtained by preparing a cDNA library and reading the base sequence with a sequencer. Since there is a limit to the number of bases that can be read at one time by a sequencer, it is usually costly to repeatedly sequence in order to obtain a sequence over the entire length of mRNA. Therefore, in order to easily obtain information on what genes are expressed due to differences in the tissues to be expressed or developmental stages, only a part of the mRNA sequence was read once with a sequencer. There are many known EST (Expressed Sequence Tags) sequences or single-pass sequences.
互いにスプライスバリアントとして異なるmRNA配列どうしは、異なるエクソン・イントロン構造を持ち、また、場合によっては、異なる転写開始位置をもつこともある。mRNA配列のエクソン・イントロン構造や転写開始位置は、配列類似性検索プログラムを用いて、その配列をゲノム配列上にマッピングすることにより求められる(非特許文献4)。エクソン配列はゲノム配列とmRNA配列との相同な区間として、また、イントロン部分はエクソン配列に挟まれたゲノム配列内の区間として、それぞれ、同定される。また、転写開始位置は、mRNA配列の5’末端側がゲノム上にマッピングされた位置として同定される。 MRNA sequences that are different from each other as splice variants have different exon-intron structures, and in some cases, may have different transcription start positions. The exon / intron structure and transcription start position of the mRNA sequence are determined by mapping the sequence onto the genome sequence using a sequence similarity search program (Non-patent Document 4). The exon sequence is identified as a homologous section between the genomic sequence and the mRNA sequence, and the intron part is identified as a section in the genomic sequence sandwiched between the exon sequences. The transcription start position is identified as the position where the 5 'end of the mRNA sequence is mapped on the genome.
mRNA配列のゲノム配列へのマッピングの結果は、通常、ゲノム配列上に沿ってエクソン配列を並べることにより表示される(非特許文献1、2、3)。この表示は、スプライスバリアントとしての違いを理解するために役立っている。また、一般に、イントロン配列はエクソン配列に比べ非常に長いので、より効果的にスプライスバリアントとしての違いを可視化するために、共通のイントロン配列を圧縮した上で、ゲノム配列上に沿ってエクソン配列を並べる表示法もある(特許文献1)。 The result of mapping the mRNA sequence to the genome sequence is usually displayed by arranging exon sequences along the genome sequence (Non-Patent Documents 1, 2, and 3). This display helps to understand the difference as a splice variant. In general, intron sequences are very long compared to exon sequences, so in order to visualize differences as splice variants more effectively, compress the common intron sequence, and then align the exon sequence along the genome sequence. There is also a display method of arranging them (Patent Document 1).
生体内の多くの組織、病気の有無、発達段階、外的刺激を加えた場合の経過時間、などの違いにより、遺伝子の発現の仕方がどのように変化するかを調べるために、既に数百万本以上の大量のEST配列データが知られている。これらをゲノム上にマッピングすると、ゲノム上の特定の箇所に数千本から数万本のEST配列がマッピングされることがある。このような箇所では、従来のマッピング結果の可視化法では、EST配列の数に比例して大量の線分を描かなければならず、表示コストがかさむ上に、人が大量に表示されたデータを見て、どのようなスプライスバリアントのタイプがあるかを理解することが困難になる。また、生物学的な解釈のためには、遺伝子の発現の条件の違いにより、スプライシングまたは転写開始位置が異なることを調べることが重要であるが、従来の可視化法では、スプライスバリアントとしての分類や転写開始位置と発現情報との関連が明示されていないため、そのような関連を発見することが困難であった。 In order to investigate how gene expression changes due to differences in many tissues in the body, the presence or absence of disease, the stage of development, the elapsed time when external stimuli are applied, etc. A large amount of EST sequence data of 10,000 or more is known. When these are mapped on the genome, thousands to tens of thousands of EST sequences may be mapped to specific locations on the genome. In such places, the conventional mapping result visualization method has to draw a large number of line segments in proportion to the number of EST sequences, which adds to the display cost and increases the amount of data displayed by humans. At first glance, it becomes difficult to understand what types of splice variants exist. In addition, for biological interpretation, it is important to examine the splicing or transcription start position depending on the gene expression conditions, but in the conventional visualization method, classification as a splice variant or Since the relationship between the transcription start position and the expression information is not clearly shown, it has been difficult to find such a relationship.
本発明は、スプライスバリアントのタイプや転写開始位置と発現情報との関連を理解しやすく表示することのできるスプライスバリアント表示方法を提供することを目的とする。 An object of the present invention is to provide a splice variant display method capable of easily displaying the type of splice variant and the relationship between transcription start position and expression information.
本発明は、大量のEST配列や全長mRNA配列に対して、スプライスバリアントとしてのタイプの違いを可視化し、各タイプ別の発現情報を可視化し、また、転写開始位置別の発現情報を可視化する、以下の処理ステップから構成される。以後、EST配列または全長mRNA配列を、纏めてcDNA配列とよぶ。 The present invention visualizes the type difference as a splice variant for a large amount of EST sequences and full-length mRNA sequences, visualizes expression information for each type, and visualizes expression information for each transcription start position. It consists of the following processing steps. Hereinafter, the EST sequence or the full-length mRNA sequence is collectively referred to as a cDNA sequence.
cDNA配列とゲノム配列との配列類似性検索によりマッピングを行い、各cDNA配列のエクソン・イントロン構造と転写開始位置を決めるステップ。 mapping by a sequence similarity search between the cDNA sequence and the genome sequence, and determining the exon / intron structure and transcription start position of each cDNA sequence.
cDNA配列どうしのエクソン・イントロン構造を比較し、同じスプライスバリアントに由来すると推定されるタイプに、cDNA配列を分類するステップ。 comparing exon-intron structures of cDNA sequences and classifying the cDNA sequences into types presumed to be derived from the same splice variant.
同じタイプに属するcDNA配列を纏めて、タイプごとにエクソン・イントロン構造をゲノム配列に沿って可視化するステップ。 The step of collecting cDNA sequences belonging to the same type and visualizing the exon / intron structure along the genome sequence for each type.
同じタイプに分類されたcDNA配列の発現情報を集め、タイプごとに発現情報の内訳を表示するステップ。 Collecting expression information of cDNA sequences classified into the same type and displaying a breakdown of the expression information for each type;
5’末端を含むcDNA配列の転写開始位置を求め、ゲノム配列上の各位置で、そこを転写開始位置とするcDNA配列を集めるステップ。 Obtaining a transcription start position of a cDNA sequence containing a 5 'end, and collecting cDNA sequences having the transcription start position at each position on the genome sequence;
ゲノム配列上の各位置で、そこを転写開始位置とするcDNA配列の発現情報を集め、転写開始位置ごとに発現情報の内訳を表示するステップ。 A step of collecting expression information of a cDNA sequence having a transcription start position at each position on the genome sequence and displaying a breakdown of the expression information for each transcription start position.
マッピング結果を可視化する際の描画量が、cDNA配列の数ではなくcDNA配列を分類したタイプの数に比例するため、例えば数百万本のcDNA配列データに対しては、従来の表示法による描画量の数十分の一程度に抑えられる。その結果、大量の配列データに対する解析結果をコンパクトに表示でき、人が見るべきデータ量が抑えられ理解しやすくなる。また、タイプごとに発現情報の違い及び転写開始位置ごとの発現情報の違いが明示的に示されるため、生物学的な解釈を行うこと、即ち、遺伝子の発現の条件の違いによりスプライシングまたは転写開始位置が変化することを調べることが容易になる。 Since the amount of plotting when visualizing the mapping result is proportional to the number of types that classify the cDNA sequences, not the number of cDNA sequences, for example, drawing for millions of cDNA sequence data using the conventional display method The amount is suppressed to a few tenths. As a result, analysis results for a large amount of sequence data can be displayed in a compact manner, and the amount of data that should be viewed by humans is reduced, making it easier to understand. In addition, since the difference in expression information for each type and the difference in expression information for each transcription start position are explicitly indicated, splicing or transcription initiation is performed according to biological interpretation, that is, the difference in gene expression conditions. It becomes easy to check that the position changes.
以下、本発明の実施の形態を、図を用いて詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1に、大量のcDNA配列に対して、本発明によりスプライスバリアント解析した結果を表示した例を示す。 FIG. 1 shows an example of displaying the result of splice variant analysis according to the present invention for a large amount of cDNA sequences.
図1において、101は一つの遺伝子領域に由来するcDNA配列をスプライスバリアントとして分類したときの、その各々のタイプのエクソン・イントロン構造を、公知の方法(特許文献1)に従って可視化したものである。102は、スプライスバリアントに共通のイントロン配列を、ゲノム配列内から除去することにより圧縮されたゲノム配列座標である。103は、スプライスバリアントとして分類された各々のタイプを並べるための座標である。104は、一つのタイプに含まれる一つのエクソンを表す線分である。一つのタイプのエクソン・イントロン構造は、エクソンを表す104の線分を幾つか、座標102に沿って並べることにより表現される。その際、連結された線分同士を区別できるように、線分の両端には端点を明示する。105のような、線分104に挟まれた間隙は、他のタイプのスプライスバリアントでは、そこに別のエクソンが挿入されるか、または、左右の線分104で表されるエクソンの一方または両方でスプライスサイトの変化が生じることにより、塩基配列が挿入されうることを示している。全てのタイプに対するこのような表示は、座標103に沿って並べられる。スプライスサイトを全く持たないcDNA配列は纏めて、座標102に沿って取り得る範囲を106で示す。
In FIG. 1, 101 is a visualization of each type of exon / intron structure when a cDNA sequence derived from one gene region is classified as a splice variant according to a known method (Patent Document 1). 102 is the genome sequence coordinate compressed by removing the intron sequence common to the splice variant from within the genome sequence. 103 is a coordinate for arranging each type classified as a splice variant. A
107は各タイプ別の発現情報を、103の座標に沿って表す。108は、発現強度を表す座標である。109は、一つのタイプに対する発現情報を表す。網掛けまたは色により発現情報の分類ごとの発現強度の内訳を示すと同時に、その総計によりそのタイプの発現強度を示す。同様に、110はスプライスサイトを持たないcDNA配列全体に対する発現情報を表す。
111は各転写開始位置別の発現情報を、102の座標に沿って表す。112は、発現強度を表す座標である。113は、一つの転写開始位置に対する発現情報を表す。網掛けまたは色により発現情報の分類ごとの発現強度の内訳を示すと同時に、その総計によりその転写開始位置の発現強度を示す。 111 represents the expression information for each transcription start position along the coordinates of 102. 112 is a coordinate representing the expression intensity. 113 represents expression information for one transcription start position. The breakdown of the expression intensity for each classification of the expression information is indicated by shading or color, and at the same time, the expression intensity of the transcription start position is indicated by the total.
114は、101内に表示される一つの遺伝子領域を選択するためのリストボックスである。リストの各要素には、115で示す遺伝子領域名(クラスタ名)と116で示す遺伝子領域アノテーション情報を表示する。遺伝子領域アノテーションとしては、その遺伝子領域の染色体上での詳細な位置情報、その遺伝子領域(クラスタ)に属する全長mRNA配列に対するアノテーションを集めたもの、などがある。117は現在選択しているリストボックスの要素を示すマーカーである。リストボックス114には、118に示す検索ウィンドウ内に記述した条件により、絞込み、並べ替え、または選択を行ったクラスタを表示する。検索の条件としては、染色体番号や染色体上の位置、または、クラスタに含まれるべき遺伝子の名前やそのアノテーション情報の一部、或いは、クラスタまたは転写開始位置の発現情報に関する条件などがある。117の選択は、ユーザが検索ウィンドウ118に入力した結果表示されるリストボックス114の内容を見て、必要に応じてさらにユーザがリストボックスの項目を再選択することで、決定される。117で選択された遺伝子領域が101に表示される。
図5は、発明によるスプライスバリアント解析・表示装置の概略構成図である。このスプライスバリアント解析・表示装置は、処理部503に対する操作や入力を行う操作・入力部501、処理結果を表示する表示部502、処理部503で処理するためのデータや情報を格納した記憶部504を備える。
FIG. 5 is a schematic configuration diagram of a splice variant analysis / display device according to the invention. This splice variant analysis / display device includes an operation /
記憶部504には、多数のcDNA配列を集めたcDNA配列データ202、ゲノム配列データ203、各cDNA配列の配列末端に関する情報を集めたcDNA配列の端点情報207、各cDNA配列の発現に関する情報を集めたcDNA配列の発現情報209、各cDNA配列のアノテーションに関する情報を集めた配列アノテーション情報212が格納されている。
The
処理部503は、cDNA配列データ202の各cDNA配列をゲノム配列データ203で示されるゲノム配列へのマッピングを行うマッピング処理部511、マッピングの結果に基づいてcDNA配列のクラスタを構成するクラスタリング処理部512、スプライトサイトの組み合わせが同じcDNア配列を一つのバリアントタイプとして纏めるバリアントタイプ分類処理部513、転写開始位置が同じcDNA配列同士をまとめる転写開始位置分類処理部514、各バリアントタイプに属するcDNA配列の発現情報を集めて分類するバリアントタイプ別の発現情報分類処理部515、各転写開始位置に属するcDNAの発現情報を集めて分類する転写開始位置別の発現情報分類処理部516、処理部503による解析結果を表示部502の表示画面に例えば図1に示したようにして表示する表示処理部517を備える。
The
図2を用いて、図1に示した表示を得るための処理手順を説明する。201では、公知のゲノムマッピング技術(非特許文献4)を用いて、記憶部504から処理部503に入力されたcDNA配列データ202とゲノム配列データ203より、各cDNA配列のゲノム配列へのマッピング処理を行う。この処理はマッピング処理部511によって行われる。その結果、各cDNA配列がゲノム配列上のどの位置にある塩基から転写されたものであるかが確定する。そこで、クラスタリング処理部512は、ゲノム上で塩基位置を1塩基または数塩基共有するようなcDNA配列を全て纏めてクラスタ(遺伝子領域に相当する)を構成することにより、cDNA配列のクラスタリング処理204を行う。このクラスタリング処理を効率的に行うためには、cDNA配列を構成する各エクソンの両端点のゲノム配列上での座標を求めておき、それらのゲノム配列座標をソートして、その座標を含むエクソン、さらに、それを含むcDNA配列を同じクラスタに入れて行けばよい。
A processing procedure for obtaining the display shown in FIG. 1 will be described with reference to FIG. In 201, a known genome mapping technique (Non-patent Document 4) is used to map each cDNA sequence to a genome sequence from the
また、201のマッピング処理の結果により、各cDNA配列のエクソン・イントロン構造が確定するので、ゲノム上のスプライスサイトの位置が確定する。バリアントタイプ別分類処理部513は、スプライスサイトの組み合わせが同じcDNA配列を一つのバリアントタイプとして纏めることにより、cDNA配列のバリアントタイプ分類処理205を行う。一般に各cDNA配列はスプライスサイトを複数もつが、その全てのスプライスサイトのゲノム配列上での座標が一致するか若しくは予め指定した数塩基程度以下の違いに収まるとき、スプライスサイトの組み合わせが同じとする。また、スプライスサイトを持たないcDNA配列は纏めて一つのタイプとして分類する。
Moreover, since the exon / intron structure of each cDNA sequence is determined based on the result of the
また、cDNA配列には、シーケンシングを行った際の手順の違いにより、(1)全長をシーケンシングしたもの、(2)5’末端側のみシーケンシングしたもの、(3)3’末端側のみシーケンシングしたもの、(4)任意の一部の断片をシーケンシングしたものなどがあり、このうち、(1)と(2)は完全な5’末端を持ち、(1)と(3)は完全な3’末端を持つ。転写開始位置分類処理部514は、このような配列末端に関する情報を集めた、cDNA配列の端点情報207を読み込む。完全な5’末端を持つcDNA配列であって、マッピング処理201においてその5’末端がゲノム配列上にマッピングされるとき、そのcDNA配列に対しては、転写開始位置が決まる。206では、転写開始位置分類処理部514は、転写開始位置が決まるcDNA配列を集め、それらを転写開始位置が同じグループに分類する。ここで、転写開始位置が同じとは、ゲノム配列座標上で完全に一致するか、または、予め指定した塩基数以下の違いに収まることとする。
In addition, due to differences in the procedure when sequencing, the cDNA sequence was (1) sequenced over the entire length, (2) sequenced only on the 5 ′ end, and (3) only on the 3 ′ end. Sequencing, (4) Sequencing of any fragment, (1) and (2) have a complete 5 'end, (1) and (3) Has a complete 3 'end. The transcription start position
各cDNA配列には、その元となるmRNAをどのような条件下のどのような個体のどのような器官・組織のどのような部位から採取したかの様々な情報がある。これをcDNA配列の発現情報209とよぶ。バリアントタイプ別の発現情報分類処理部515によるバリアントタイプ別の発現情報分類処理208では、205で得られた各バリアントタイプに対して、そのタイプに属するcDNA配列の発現情報を209から集め、それらを調べようとする観点に従って分類する。例えば、組織別に分類したり、正常細胞由来か癌細胞由来か或いは他の病気に罹患しているかで分類したり、胎児や成人などの発達段階の違いで分類したり、薬剤投与などの外的刺激の有無とその後の経過時間の違いなどにより分類する。転写開始位置別の発現情報分類処理部516による転写開始位置別の発現情報分類処理210では、206で得られた各転写開始位置に対して、その位置に属するcDNA配列の発現情報を209から集め、それらを調べようとする観点に従って208と同様に分類する。
Each cDNA sequence has a variety of information on the original mRNA collected from which site in what organ / tissue of which individual under what conditions. This is called cDNA
表示処理部517による表示・GUI(Graphic User Interface)処理211では、ユーザによって選択された一つの遺伝子領域(クラスタ)に対して、公知のスプライスバリアント比較表示法(特許文献1)によって、図1の101に示した表示を行う。ただし、一つのバリアントタイプに属するcDNA配列どうしは、スプライスサイトは共通であっても配列の両端には違いがあるため、最も伸びている端点を使って表示する。また、各タイプに対して208で求めた発現情報の分類結果を、103の座標に従って107内に110に示すように表示する。分類結果を、発現強度を示す座標108に沿って数値化する際は、例えば、その分類に属するEST配列の数を用いる。ただし、全EST配列に対して発現情報に偏りがある場合には、その偏りを補正するために、一つのクラスタの一つの分類に属するEST配列数を全ESTの中でその分類に属するEST配列の数で正規化して、発現強度とする。同様に、各転写開始位置に対して210で求めた発現情報の分類結果を、102の座標に従って111内に113に示すように表示する。
In a display / GUI (Graphic User Interface) process 211 by the
また、表示・GUI処理211では、配列アノテーション情報212を読み込んで、各クラスタに属する配列のアノテーション情報を纏めてリストボックス114内に表示し、ユーザが遺伝子領域(クラスタ)を選択するための支援情報とする。
In the display / GUI processing 211, the
以下、本発明の第2の実施の形態を、図を用いて説明する。
図3に、大量のcDNA配列に対して、本発明によりスプライスバリアント解析した結果を表示した例を示す。
Hereinafter, a second embodiment of the present invention will be described with reference to the drawings.
FIG. 3 shows an example of displaying the result of splicing variant analysis according to the present invention for a large amount of cDNA sequences.
図3において、101〜113は図1と同様である。301は、101内に表示されるcDNA配列を選択するためのリストボックスである。リストの各要素には、302で示す配列名と303で示す配列アノテーション情報を表示する。304は現在選択しているリストボックスの要素を指し示すマーカーである。リストボックス301には、305に示す検索ウィンドウ内に記述した条件により、絞込み、並べ替え、または選択を行ったcDNA配列を表示する。304の選択は、ユーザが検索ウィンドウ305に入力した結果表示されるリストボックス301の内容を見て、必要に応じてさらにユーザがリストボックスの項目を再選択することで、決定される。306と307は、304で選択されたcDNA配列が属するバリアントタイプを示すと同時に、それらの転写開始位置と転写終結位置を示すマーカーである。308は、タイプ別の発現情報を示すウィンドウ107の中で、304で選択されたcDNA配列が属するバリアントタイプの発現情報を指し示すマーカーである。309は、転写開始位置別の発現情報を表すウィンドウ111の中で、304で選択されたcDNA配列の転写開始位置における発現情報を指し示すマーカーである。
3,
以下、本発明の第3の実施の形態を、図を用いて説明する。
図4に、大量のcDNA配列に対して、本発明によりスプライスバリアント解析した結果を表示した例を示す。101、103、106〜113は図1と同様である。401は、一つのタイプに含まれる一つのエクソンを表すボックスである。一つのタイプのエクソン・イントロン構造は、エクソンを表す401のボックスを幾つか、ゲノム配列座標402に沿って並べることにより表現される。ボックス401を連結する折れ線403はイントロンを表す。ただし、一つのタイプの両端にあるエクソンを表すボックスは、そのタイプに属するその端点側のエクソンの中で最も伸びているものを表す。これは、一つのタイプに属するcDNA配列どうしは、スプライスサイトは共通であっても両端点は異なるためである。
Hereinafter, a third embodiment of the present invention will be described with reference to the drawings.
FIG. 4 shows an example of displaying the result of splice variant analysis according to the present invention for a large amount of cDNA sequences. 101, 103, 106 to 113 are the same as those in FIG. 401 is a box representing one exon included in one type. One type of exon-intron structure is represented by arranging several 401 boxes representing exons along genome sequence coordinates 402. A
以上説明したように、本発明は、スプライスバリアントの異常を伴う病気に対する診断、スプライスバリアントの異常を引き起こす薬剤に対する薬効・毒性の評価などへの応用が可能である。 As described above, the present invention can be applied to diagnosis for diseases accompanied by abnormal splice variants, evaluation of drug efficacy / toxicity for drugs causing abnormal splice variants, and the like.
102:ゲノム配列座標
104:エクソンを表す線分
107:各タイプ別の発現情報
111:各転写開始位置別の発現情報
114:遺伝子領域を選択するためのリストボックス
118:検索ウィンドウ
301:リストボックス
305:検索ウィンドウ
401:エクソンを表すボックス
403:イントロンを表す折れ線
102: Genome sequence coordinates
104: A line representing an exon
107: Expression information for each type
111: Expression information for each transcription start position
114: List box for selecting gene regions
118: Search window
301: List box
305: Search window
401: Box representing an exon
403: Line representing intron
Claims (2)
前記処理部が、
前記記憶部から読み出した前記複数のcDNA配列の各々を、前記記憶部から読み出した前記ゲノム配列にマッピングする工程、
前記マッピング処理により確定される、各cDNAの前記ゲノム配列上における転写位置の情報に基づいて、ゲノム配列上の同じ塩基を共有するcDNA配列を一つのクラスタに分類するクラスタリング工程、
前記クラスタに分類されたcDNAのうち、ゲノム配列上のスプライスサイトの座標が一致する又は座標の違いが数塩基以内のcDNA配列同士を一つのバリアントタイプに分類する工程、
前記バリアントタイプに分類されたcDNA配列を、発現情報に基づいて分類する工程、
前記クラスタのバリアントタイプ毎にエクソン・イントロン構造の表示と、各バリアントタイプに分類されたcDNA配列に関する発現情報の内訳とを一対一に対応付けて表示部に表示する工程、
を実行することを特徴とするスプライスバリアントの表示方法。 A method for displaying a splice variant by a processing unit that reads and processes a genomic sequence, a plurality of cDNA sequences, and expression information of each cDNA sequence from a storage unit,
The processing unit is
Mapping each of the plurality of cDNA sequences read from the storage unit to the genome sequence read from the storage unit;
A clustering step of classifying cDNA sequences sharing the same base on the genome sequence into one cluster based on information of transcription positions on the genome sequence of each cDNA determined by the mapping process;
A step of classifying cDNA sequences having the same splicing site coordinates on the genome sequence among the cDNAs classified into the clusters or having a difference in coordinates within several bases into one variant type;
Classifying the cDNA sequence classified into the variant type based on expression information;
A step of displaying the display of the exon and intron structure for each variant type of the cluster and the breakdown of the expression information regarding the cDNA sequences classified into each variant type on the display unit,
A method of displaying a splice variant, characterized in that:
前記処理部が、
前記記憶部から読み出した前記複数のcDNA配列の各々を、前記記憶部から読み出した前記ゲノム配列にマッピングする工程、
前記マッピング処理により確定される、各cDNAの前記ゲノム配列上における転写位置の情報に基づいて、ゲノム配列上の同じ塩基を共有するcDNA配列を一つのクラスタに分類するクラスタリング工程、
前記クラスタに分類されたcDNAのうち、ゲノム配列上のスプライスサイトの座標が一致する又は座標の違いが数塩基以内のcDNA配列同士を一つのバリアントタイプに分類する工程、
前記バリアントタイプに分類されたcDNA配列を、発現情報に基づいて分類する工程、
前記マッピング処理の結果と前記cDNA配列の配列末端に関する情報に基づいて確定される、転写開始位置の前記ゲノム配列上の座標が一致する又は座標の違いが数塩基以内のcDNA配列同士を一つの転写開始位置に分類する工程、
前記転写開始位置に分類されたcDNA配列を、発現情報に基づいて分類する工程、
前記クラスタのバリアントタイプ毎にエクソン・イントロン構造の表示と、各バリアントタイプに分類されたcDNA配列に関する発現情報の内訳とを一対一に対応付けて表示部に表示すると共に、前記エクソン・イントロン構造を表示する際に用いたゲノム配列座標に沿って、各転写開始位置に分類されたcDNA配列に関する発現情報の内訳を表示部に表示する工程、
を実行することを特徴とするスプライスバリアントの表示方法。 A method for displaying a splice variant by a processing unit that reads and processes a genomic sequence, a plurality of cDNA sequences, expression information of each cDNA sequence, and information on the sequence end of each cDNA sequence from a storage unit,
The processing unit is
Mapping each of the plurality of cDNA sequences read from the storage unit to the genome sequence read from the storage unit;
A clustering step of classifying cDNA sequences sharing the same base on the genome sequence into one cluster based on information of transcription positions on the genome sequence of each cDNA determined by the mapping process;
A step of classifying cDNA sequences having the same splicing site coordinates on the genome sequence among the cDNAs classified into the clusters or having a difference in coordinates within several bases into one variant type,
Classifying the cDNA sequence classified into the variant type based on expression information;
Transcription of cDNA sequences that are determined based on the result of the mapping process and information on the end of the sequence of the cDNA sequence, the coordinates of the transcription start position on the genome sequence are the same, or the difference in coordinates is within several bases. Categorizing into start position,
Classifying the cDNA sequence classified into the transcription start position based on expression information;
The display of the exon / intron structure for each variant type of the cluster and the breakdown of the expression information regarding the cDNA sequences classified into each variant type are displayed on the display unit in a one-to-one correspondence, and the exon / intron structure is displayed. A step of displaying a breakdown of expression information on the cDNA sequence classified at each transcription start position on the display unit along the genome sequence coordinates used when displaying,
A method of displaying a splice variant, characterized in that:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004170276A JP4557609B2 (en) | 2004-06-08 | 2004-06-08 | How to display splice variant sequence mapping |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004170276A JP4557609B2 (en) | 2004-06-08 | 2004-06-08 | How to display splice variant sequence mapping |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005352590A JP2005352590A (en) | 2005-12-22 |
JP4557609B2 true JP4557609B2 (en) | 2010-10-06 |
Family
ID=35587049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004170276A Expired - Fee Related JP4557609B2 (en) | 2004-06-08 | 2004-06-08 | How to display splice variant sequence mapping |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4557609B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008027244A (en) * | 2006-07-21 | 2008-02-07 | Univ Of Tokyo | Disease-specific selective splicing identification method based on exon array expression profile |
US20120302450A1 (en) * | 2009-10-30 | 2012-11-29 | Bernhard Palsson | Bacterial Metastructure and Methods of Use |
KR101278652B1 (en) * | 2010-10-28 | 2013-06-25 | 삼성에스디에스 주식회사 | Method for managing, display and updating of cooperation based-DNA sequence data |
JP2012146067A (en) * | 2011-01-11 | 2012-08-02 | Nippon Software Management Kk | Nucleic acid information processing apparatus and processing method thereof |
-
2004
- 2004-06-08 JP JP2004170276A patent/JP4557609B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005352590A (en) | 2005-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0935210A2 (en) | Computer aided visualisation of expression comparison | |
US6532462B2 (en) | Gene expression and evaluation system using a filter table with a gene expression database | |
US9898578B2 (en) | Visualizing expression data on chromosomal graphic schemes | |
AU784645B2 (en) | Method for providing clinical diagnostic services | |
CN108474040A (en) | Recommended using the treatment based on group of Cell-free DNA | |
US20060028471A1 (en) | Focus plus context viewing and manipulation of large collections of graphs | |
US20090125248A1 (en) | System, Method and computer program product for integrated analysis and visualization of genomic data | |
US6950756B2 (en) | Rearrangement of microarray scan images to form virtual arrays | |
JP2015089364A (en) | Cancer diagnostic method by multiplex somatic mutation, development method of cancer pharmaceutical, and cancer diagnostic device | |
US6502039B1 (en) | Mathematical analysis for the estimation of changes in the level of gene expression | |
Poszewiecka et al. | TADeus2: a web server facilitating the clinical diagnosis by pathogenicity assessment of structural variations disarranging 3D chromatin structure | |
JP4557609B2 (en) | How to display splice variant sequence mapping | |
US6631211B1 (en) | Interactive system for analyzing scatter plots | |
CN114730610A (en) | Kits and methods of using same | |
Hunt et al. | The visual language of synteny | |
US7031843B1 (en) | Computer methods and systems for displaying information relating to gene expression data | |
EP1630709A2 (en) | Mathematical analysis for the estimation of changes in the level of gene expression | |
US6994965B2 (en) | Method for displaying results of hybridization experiment | |
JP2005284964A (en) | Method for displaying data and process in system for analyzing gene manifestation as well as system for analyzing gene expression | |
CN111508563A (en) | Cancer-related alternative splicing database system of long non-coding RNA | |
KR102640503B1 (en) | Method and system for predicting the risk of hypertension by constitution | |
US20230289569A1 (en) | Non-Transitory Computer Readable Medium, Information Processing Device, Information Processing Method, and Method for Generating Learning Model | |
JP3773092B2 (en) | Gene expression pattern display method and apparatus, and recording medium | |
KR20080013099A (en) | Method for dividing microarray image | |
KR20220166095A (en) | Method and device to visualize patient medical information by linking with electronic medical record in real time |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070403 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100204 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100517 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20100616 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100713 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100720 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130730 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |