JP3469542B2 - cDNA配列とゲノム配列との対応表示方法、記録媒体、シーケンサ装置及びプライマ設計方法 - Google Patents

cDNA配列とゲノム配列との対応表示方法、記録媒体、シーケンサ装置及びプライマ設計方法

Info

Publication number
JP3469542B2
JP3469542B2 JP2000289728A JP2000289728A JP3469542B2 JP 3469542 B2 JP3469542 B2 JP 3469542B2 JP 2000289728 A JP2000289728 A JP 2000289728A JP 2000289728 A JP2000289728 A JP 2000289728A JP 3469542 B2 JP3469542 B2 JP 3469542B2
Authority
JP
Japan
Prior art keywords
sequence
cdna
genomic
genome
axis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000289728A
Other languages
English (en)
Other versions
JP2002099546A (ja
Inventor
宏一 木村
哲夫 西川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2000289728A priority Critical patent/JP3469542B2/ja
Priority to US09/933,168 priority patent/US20020038185A1/en
Publication of JP2002099546A publication Critical patent/JP2002099546A/ja
Application granted granted Critical
Publication of JP3469542B2 publication Critical patent/JP3469542B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6811Selection methods for production or design of target specific oligonucleotides or binding molecules

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は遺伝子配列の情報解
析に係わり、cDNAとゲノムの配列類似性検索結果か
ら、ゲノム上の遺伝子の位置と構造を推定し表示する方
法に関する。
【0002】
【従来の技術】ゲノム上の遺伝子の位置とそのエクソン
・イントロン構造を推定する方法としては、cDNA配
列とゲノム配列との類似性検索を行い、類似性のある部
分配列区間を列挙する方法がある。このとき、類似性の
ある部分配列区間は、類似度が高い順にソートして列挙
される。類似度は、そのような類似性が偶然現れる確率
によって評価し、その確率値が小さいものほど類似度が
高いとする。
【0003】このようなソート法が有用である理由は、
以下のように考えられる。生物のゲノムは、遺伝子のコ
ピーを派生させ分化させることにより進化してきた。そ
のため、一般に、一つのcDNA配列に対して、ゲノム
上の複数箇所に、種々の類似度で類似する部分配列が存
在する。それら複数のゲノム部分配列のうち、実際にそ
のcDNAの鋳型となったmRNAに転写されたゲノム
部分配列は、類似度が最も高いものに限られる。このと
きの不一致部分は、SNPなどの多型に起因するか、ま
たは、シーケンシング・エラーによるものと考えられ
る。従って、類似性のある区間を類似性の高い順にソー
トして列挙することにより、そのcDNAの鋳型となっ
たmRNAに転写されたゲノム上の部分配列が上位に列
挙され、cDNA配列とゲノム配列との対応付けが容易
になる。
【0004】また、cDNA配列とゲノム配列との対応
においては、cDNA配列全体が一本の配列としてゲノ
ム内の部分配列に対応することは少なく、一般には、c
DNA配列は何本かの部分配列に分かれ、その各々がゲ
ノム内の部分配列に対応する。このような対応が見られ
る理由は、ヒトを含む真核生物において、ゲノムからm
RNAが合成される際、スプライシングと呼ばれる現象
が起きることによる。cDNAとゲノム上で対応してい
る各々の部分配列はエクソンとよばれる。cDNA上で
はエクソンは切れ目なく繋がっているが、ゲノム上では
イントロンとよばれる部分配列を挟んで繋がっている。
cDNA上のエクソンとゲノム上のエクソンの位置関係
は次のいずれかになっている。
【0005】(1)cDNA上の各エクソン配列とゲノ
ム上の各エクソン配列はほぼ一致し(以下、これらは向
きが同じという)、それらは同じ順番で並んでいる。 (2)cDNA上の各エクソン配列とゲノム上の各エク
ソン配列は互いにほぼ相補鎖の関係にあり(以下、これ
らは向きが逆という)、それらは互いに反対の順番で並
んでいる。
【0006】このようなエクソン・イントロン構造をも
つcDNA配列とゲノム配列との対応の様子は、類似性
のある区間の列挙だけでは把握できず、それら類似性の
ある区間の相互の位置を調べる必要がある。そのために
は、ゲノム配列上の塩基位置とcDNA配列上の塩基位
置を両軸にとった2次元プロットが役立つ。最も単純な
プロット法として、ゲノム配列のx塩基目とcDNA配
列のy塩基目が同一の塩基であるとき、2次元上の座標
(x,y)に点をプロットする方法(ドットマトリクス
法)がある(105頁、Sequence Analysis Primer, M. Gr
ibskov and J.Devereux, Oxford University Press, 19
92年)。この方法では、局所的に精緻な比較が可能とな
る。また、より大局的な対応関係を捉える方法として、
ゲノム配列内とcDNA配列内に一定塩基長のウィンド
ウをとり、これらのウィンドウ内の塩基配列が一定割合
以上類似しているとき、ゲノム配列内のウィンドウ位置
をx軸にcDNA配列内のウィンドウ位置をy 軸にと
り、それらのウィンドウに対応する線分を2次元平面上
にプロットする方法がある(108頁、Sequence Analysis
Primer, M. Gribskov and J. Devereux, Oxford Unive
rsity Press, 1992年)。この方法では、一塩基ずつの
比較ではなく、数塩基〜数十塩基ずつの平均的な比較が
行われるため、より長い配列同士の比較が可能になり、
また、偶然生じ意味をもたない短い一致部分を排除でき
る。
【0007】
【発明が解決しようとする課題】エクソン・イントロン
構造をもつcDNA配列とゲノム配列との対応関係を、
判り易くグラフィック表示する。ゲノム上には多数の遺
伝子が存在する領域があり、多数のcDNAが対応付け
られる(貼り付けられるとも言う)ことがあり、それら
の位置関係はグラフィック表示することにより、視覚的
に理解しやすくなる。
【0008】また、遺伝子のエクソン・イントロン構造
において、イントロン配列はエクソン配列に比較して極
めて長いことがある。cDNA配列の長さは概ね数百か
ら数万塩基長程度であるが、ゲノム上の対応する遺伝子
領域は百万塩基長のオーダーまで広がることがある。こ
のようにcDNAとゲノムとで対応させるべき配列の長
さが3桁も異なる場合には、同じサイズのウィンドウを
cDNA配列内とゲノム配列内で移動して調べる従来の
方法は非効率的となる。
【0009】また、ゲノム上の広い範囲にわたってcD
NAとの類似配列の位置を表示する場合、真の対応関係
に関与しない多数の類似配列が現われ、真の対応関係を
2次元表示の中から拾い出すことを妨げる。そのような
ものとして、短い類似配列や、類似度の低い類似配列、
向きや順番が不整合の類似配列などが考えられる。そこ
で、これらの不要な類似配列を除去することが必要にな
る。
【0010】
【課題を解決するための手段】本発明では、与えられた
cDNA配列とゲノム断片配列に対して、以下の処理ス
テップから構成される方法によって、それらの間のエク
ソン・イントロン構造をもった対応関係を表示する。 (1)与えられたcDNA配列を纏めて検索用にデータ
ベース化しておき、与えられた各ゲノム断片配列ごと
に、それを検索配列としてcDNA配列データベースに
対して類似性検索を繰り返し行うステップ。
【0011】(2)互いに類似性があるcDNAとゲノ
ムの部分配列のペアを列挙し、そのペアの特徴量とし
て、部分配列の塩基長、類似度、各部分配列がゲ
ノム配列上またはcDNA配列上で並ぶ向きと順番、
cDNA部分配列が他のペアのcDNA部分配列と共同
してcDNA配列全体を被覆できる割合、を計算するス
テップ。
【0012】(3)前項で列挙された類似性のある部分
配列ペアの集合の中から、上記の特徴量に関する所定の
緩い条件を満たさないものを削除するステップ。これ
は、意味のある類似性を反映している可能性が低いもの
を除去して処理量を圧縮することを目的とする。即ち、
所定の長さや所定の類似度に満たないもの、また、ゲノ
ム上で互いに整合性のある向きと順番をとりえないも
の、また、共同してcDNA配列の所定以上の割合を覆
う可能性のないものを除去する。
【0013】(4)前ステップで選び出された類似性の
ある部分配列ペアの集合の中から、上記の特徴量に関し
て更に厳格な条件により、表示すべきペアの集合を絞り
込むステップ。これは、意味のある類似性を反映してい
る可能性が高いものを正確に選び出すことを目的とす
る。そのためには、例えば、グラフィック表示を利用
し、ユーザからの対話的な指示により絞込みの条件の閾
値を与えるパラメータを調整する。または、ゲノム上に
互いに整合性のある向きと順番で現われ、共同してcD
NA配列の所定以上の割合を覆うことができる部分配列
の集合を、プログラムに従って自動的に選び出し、結果
をグラフィック表示する。
【0014】(5)選び出されたcDNAとゲノムの部
分配列ペアの位置関係を2次元的に表示するステップ。
グラフの1の軸にゲノム配列上の塩基位置を、他の軸に
cDNA配列上の塩基位置をとり、各部分配列ペアを一
本の線分で表示する。この線分は、それぞれ軸へ射影し
たときに部分配列の位置を表し、かつ、cDNAとゲノ
ムの向きの対応を表す。
【0015】このため、本発明のcDNA配列とゲノム
配列との対応表示方法は、インターフェース装置から、
描画パラメータの指示を受けるステップと、前記指示を
受け、記憶されたゲノム−cDNA対応付けデーターフ
ァイルを用い、表示データを生成する手段にて、2次元
のグラフィック表示データを生成するステップと、前記
生成された表示データについて、前記インターフェース
装置に、グラフの1の軸にcDNAの鋳型となったmR
NAに転写されたゲノム部分配列を含むゲノム配列上の
塩基位置を、他の軸に前記cDNA配列上の塩基位置を
とり、前記ゲノム配列を示す軸と前記cDNA配列を示
す軸とでは、その桁が異なるものであり、前記ゲノム配
列のうち所定塩基長以上を有する部分配列について、前
記cDNA配列との間で所定の割合以上の類似性を有す
る部分をグラフ上に線分で表示させるステップとを有す
ることを特徴とする。また、複数のcDNAを縦軸にと
り、前記cDNAとの対応関係をcDNAごとに異なる
色で表示することが好ましい。
【0016】また、本発明は、cDNAの鋳型となった
mRNAに転写されたゲノム部分配列を含むゲノム配列
と前記cDNA配列とを入力するステップと、前記ゲノ
ム配列中の所定の塩基長以上を有する部分配列について
前記cDNA配列との間で所定の割合以上の類似性を有
する部分を検索するステップと、前記ゲノム配列と前記
cDNA配列をそれぞれグラフの縦軸と横軸又は横軸と
縦軸にとって、前記縦軸と前記横軸はその桁を異なるよ
うにして、前記検索するステップで検索された部分を線
分で該グラフ上に表示するステップと、を備えるcDN
A配列とゲノム配列との対応表示方法をコンピュータに
実行させるためのプログラムを記録したことを特徴とす
るコンピュータ読み取り可能な記録媒体である。
【0017】さらにcDNA配列とゲノム配列との対応
表示方法は、前記所定の塩基長及び前記類似性の所定の
割合を入力するステップを備えることが好ましい。本発
明のシーケンサ装置は、ネットワーク接続された又は内
蔵されたゲノムデータベースにアクセスし、cDNAの
鋳型となったmRNAに転写されたゲノム部分配列を含
ゲノム配列を入力し、シーケンシングによって得られ
前記cDNA配列を入力する入力手段と、前記ゲノム
配列中の所定の塩基長以上を有する部分配列について前
記cDNA配列との間で所定の割合以上の類似性を有す
る部分を検索する検索手段と、前記ゲノム配列と前記
DNA配列をそれぞれグラフの縦軸と横軸又は横軸と縦
軸にとり、前記ゲノム配列を示す軸と前記cDNA配列
を示す軸とでは、その桁が異なるものであり、前記検索
手段で検索された部分を線分で該グラフ上に表示して前
記cDNA配列に対応する前記ゲノム配列上の遺伝子の
エクソン・イントロン構造を表示する表示手段とを備え
ることを特徴とする。
【0018】また、本発明のプライマ設計方法は、イン
トロン配列を跨ぐ相異なるエクソン領域内にあるプライ
マのペアを設計しこれを用いてゲノムライブラリとcD
NAライブラリとでそれぞれPCRを行うステップと、
該PCRを行うステップで増幅されたcDNAの鋳型と
なったmRNAに転写されたゲノム部分配列を含むゲノ
ム配列と前記cDNA配列とを入力するステップと、前
記ゲノム配列中の所定の塩基長以上を有する部分配列に
ついて前記cDNA配列との間で所定の割合以上の類似
性を有する部分を検索するステップと、前記ゲノム配列
前記cDNA配列をそれぞれグラフの縦軸と横軸又は
横軸と縦軸にとり、前記ゲノム配列を示す軸と前記cD
NA配列を示す軸とでは、その桁が異なるものであり、
前記検索するステップで検索された部分を線分で該グラ
フ上に表示することによってイントロン配列が存在する
ために異なったポリヌクレオチドが増幅されたことを表
示して増幅したゲノム配列がイントロン配列を含んでい
ることを確認するステップと、を備えることを特徴とす
る。
【0019】
【発明の実施の形態】以下、本発明の実施の形態を、図
を用いて詳細に説明する。図1に、与えられたcDNA
配列をデータベース内のゲノム配列に貼り付けることに
より、cDNAに対応する遺伝子のエクソン・イントロ
ン構造を可視化することを目的とした、本発明の一実施
例における処理の流れを示す。
【0020】図1において、101は解析の対象とするc
DNA配列データであり、102はcDNA配列と比較さ
れるべきゲノム配列を格納したデータベースである。10
3は、cDNA配列データとゲノム配列データベースを
読み込む入力処理である。104は、以後の類似性検索に
備えるために、入力されたcDNA配列データをデータ
ベース化する処理であり、公知の方法を用いたプログラ
ムformatdb (Altschul,Stephen F., Thomas L. Madden,
Alejandro A. Schaffer, Jinghui Zhang, ZhengZhang,
Webb Miller, and David J. Lipman (1997), "Gapped
BLAST and PSI-BLAST: a new generation of protein d
atabase search programs", Nucleic Acids Res. 25:3
389-3402.) を使う。105は、ゲノムデータベース内にあ
る各々のゲノム断片配列ごとに、それを検索配列として
cDNAデータベースに対して類似性検索処理を繰り返
す処理である。この各々の類似性検索処理は、公知のア
ルゴリズムを用いたプログラムであるBLAST (Altschul,
Stephen F., Thomas L. Madden, Alejandro A. Schaff
er, Jinghui Zhang, Zheng Zhang, Webb Miller, and D
avid J. Lipman (1997), "Gapped BLAST and PSI-BLAS
T: a new generationof protein database search prog
rams", Nucleic Acids Res. 25:3389-3402.)を用いる。
106は、各ゲノム断片配列ごとに得られた類似性検索結
果を記述したテキストデータを全て読み込み、その中に
現われる類似性がある部分配列を抽出して列挙し、その
各々の部分配列を特徴付ける諸量を計算する処理であ
る。107は、それらの諸特徴量に基づき、列挙された類
似性のある部分配列の中から、所定の緩い条件を満たす
ものを選び出す、類似部分配列の1次選択処理である。
これは、意味のある類似性を反映している可能性が低い
ものを除去して処理量を圧縮することを目的とする。そ
の選択結果をファイル108に記憶する。ここまでの計算
処理は時間を要するため、また、ここまでの計算は以後
のユーザとの対話的処理とは独立に1回だけ行えばよい
ため、このようにファイルに記憶しておく。109は、c
DNA上とゲノム上にある類似性のある部分配列のうち
で選択されたものの相互の位置関係をファイル108から
読み込んで、ユーザに分かり易く呈示するために、2次
元のグラフィック表示データを生成する処理である。11
0はモニターディスプレイ,キーボード,マウスを備え
たユーザインターフェース装置で、109で生成されたグ
ラフィックデータを表示するとともに、ユーザからの描
画パラメータを受け付けて109に渡してグラフィックデ
ータを再計算させ、109と110は共同して対話的な表示を
行う。さらに、111は、更に厳格な条件により部分配列
を更に絞り込む、類似部分配列の2次選択処理である。
これは、意味のある類似性を反映している可能性が高い
ものをより正確に選び出すことを目的とする。110は、
そのために必要となるパラメータをユーザから受け付
け、それらを111に送る。111により更に絞り込まれた類
似部分配列のデータは109に送られ、そこで、グラフィ
ックデータが再計算される。これは、再び、110に送ら
れ、ユーザに呈示される。109と110と111とにより、対
話的に部分配列の選択の仕方を対話的に変更することが
でき、これにより、ゲノムとcDNAとの対応関係を正
しく捉えた部分配列の集合を選び出すことができる。
【0021】図2は、106において、類似性のあるゲノ
ム断片配列の部分配列とcDNA部分配列とのペアを抽
出して得られるデータのデータ構造を表す。ここに現わ
れる情報は全て、105のBLAST プログラムによる類似性
検索結果の中から得ることができる。201は、1本のゲ
ノム断片配列に対応するデータであり、全体のデータは
この繰り返し構造をもつ。201は、少なくとも、ゲノム
断片配列を識別する名前とその配列長、及び、そのゲノ
ム断片配列と類似性のある部分配列を持つcDNAに関
する情報202の繰り返し構造を含む。202は、少なくと
も、cDNAを識別する名前とその配列長、及び、ゲノ
ムとの類似性のある部分配列に関する情報203の繰り返
し構造を含む。以後、説明の簡略化のため、ゲノム内と
cDNA内にある互いに類似性のある部分配列を“エク
ソン”と呼ぶことにする。これは生物学的なエクソンに
対応することもあるが、それ以外に、偶然生じた類似性
による部分配列のペアも含むこともある。203はエクソ
ンの情報であり、少なくとも、長さ、ゲノムとcDNA
との一致塩基数、ゲノム断片配列内とcDNA配列内で
の位置の情報を含む。
【0022】図2に示したデータ構造は、図1内の106
以降で処理される情報の基本構造であり、ファイル108
に格納される情報もこのデータ構造をもつ。これは、10
6で得られた情報から、107において有用性が低いと判断
される一部の情報が除去されたものである。109は、図
2に示したデータ構造をもつ情報を読み込んでグラフィ
ック表示を行い、また、111は図2に示したデータ構造
をもつ情報を読み込んで、そこから有用性が高いと判断
されるエクソンを選び出し、再び、図2のデータ構造の
情報を109に返す。
【0023】図3は、107の類似部分配列ペア(エクソ
ン)の1次選択処理の動作を説明するためのフローチャ
ートである。301の終了判定を含む繰り返し処理によ
り、全てのゲノム断片配列に対して以下の処理を行う。
302で、処理中のゲノム断片配列に対する201に示す情報
を読み込む。この中には、202に示すcDNAの情報が
複数含まれる。303の終了判定を含む繰り返し処理によ
り、これら全てのcDNAに対して以下の処理を行う。
304で、処理中のcDNA配列に対する202に示す情報を
読み込む。この中には、203に示すエクソンの情報が複
数含まれる。305では、これらの個々のエクソンについ
て、 (類似度)=(エクソン内一致塩基数)/(エクソン塩
基長) により類似度を計算し、これが所定の類似度に満たない
場合は、203に列挙された中から該当エクソンを削除す
る。所定の類似度として、例えば80%を設定しておけ
ば、現在処理中のcDNAの鋳型となった遺伝子(また
はその近縁の遺伝子)に含まれるエクソン以外のゲノム
断片の部分配列は、ほぼ除去されると考えられる。次
に、306では、残ったエクソン長の最大値を求め、それ
が所定の値以上かどうかを判定する。多くの場合、遺伝
子中のエクソンの中には100塩基長程度のもの少なくと
も1つはある。したがって、例えば50塩基長程度の長さ
のエクソンがひとつも見つからないとすれば、この場
合、ゲノム中に豊富に遍在する繰り返し配列の一部を捉
えている可能性が高いと考えられるので、307によりす
べてのエクソン情報とそのcDNA情報を除去する。そ
うでない場合は、エクソン長の合計を計算し、cDNA
配列の全長との比を求め、308でその値が所定の値以上
かを判定する。その比の値が例えば30%に満たないよう
な場合は、それらのエクソンはcDNA配列のごく一部
しか覆うことができないため、そこでのcDNAとゲノ
ムとの関連は薄いと考えられるので、307によりすべて
のエクソン情報とそのcDNA情報を除去する。
【0024】図4は、109の表示処理により生成され、1
10のモニター画面上に描画されるイメージを、簡略化し
て表した説明図である。401は処理したゲノム断片配列
のリストであり、その中の1項目(図では「ゲノム断片
配列2」)が選択され、その項目に対する解析結果がモ
ニター画面に表示されていることを表している。402
は、横軸にゲノム断片配列上の塩基位置を荒い座標系
(図ではメガ塩基単位)でとり、縦軸にcDNA配列上
の塩基位置を細かい座標系(図ではキロ塩基単位)でと
り、ゲノムとcDNA間の類似部分配列のペアを示すエ
クソンを線分で表す。これらのエクソンを表す線分は、
実際のモニター画面では、cDNAごとに色分けして表
示する。403は、各cDNAに対してエクソンの合併が
cDNA配列の全体をどの割合まで覆うか示す。これ
は、そのcDNAが現在処理中のゲノム断片配列とどの
程度強い関連があるかを示している。404はcDNA配
列のリストであり、その中の1項目(図では「cDNA
配列1」)が選択され、その項目に対する解析結果がモ
ニター画面に表示されていることを表している。405
は、404において選ばれたcDNAに対して、それを含
む402のプロットの一部を拡大表示したものである。406
は、405のエクソンを表す線分のプロットを、縦軸に射
影したものである。ここで、エクソンの合併がcDNA
全体をどの程度覆うかを確認できる。また、407は、405
のエクソンを表す線分のプロットを、横軸に射影したも
のである。ここで、射影されたエクソンに挟まれた部分
がイントロンを表す。408は、各エクソンに対して、そ
の塩基長とその中の(ゲノム・cDNA間の)一致塩基
数を表示したものである。これにより、各エクソンにお
けるゲノム・cDNA間の類似度がどの程度高いかを確
認できる。
【0025】図5は、111の類似部分配列ペア(エクソ
ン)の2次選択処理の動作を説明するためのフローチャ
ートである。501の終了判定を含む繰り返し処理によ
り、全てのゲノム断片配列に対して以下の処理を行う。
502で、処理中のゲノム断片配列に対する201に示す情報
を読み込む。この中には、202に示すcDNAの情報が
複数含まれる。503の終了判定を含む繰り返し処理によ
り、これら全てのcDNAに対して以下の処理を行う。
504で、処理中のcDNA配列に対する202に示す情報を
読み込む。この中には、203に示すエクソンの情報が複
数含まれる。505では、これらの個々のエクソンについ
て、 (類似度)=(エクソン内一致塩基数)/(エクソン塩
基長) により類似度を計算し、これが所望の類似度に満たない
場合は、203に列挙された中から該当エクソンを削除す
る。所望の類似度は、ユーザインターフェース111によ
りプログラムに伝えられる。例えば、ここで類似度98%
を要求すれば、2%程度の違いはSNPなどの多型また
はシーケンシング・エラーによるものと許容して、現在
処理中のcDNAの鋳型となった遺伝子(またはそれに
酷似した遺伝子)に含まれるエクソンのみが選ばれると
考えられる。次に、506では、残ったエクソンの集合
を、向きと順番が互いに整合的であるようなグループに
分割する。すなわち、各グループごとに、そこに属する
エクソンの集合は次のいずれかの条件を満たす。
【0026】(1)cDNA上の各エクソン配列とゲノ
ム上の各エクソン配列はほぼ一致し(これらは向きが同
じ、または、正の向きという)、それらは同じ順番で並
んでいる。 (2)cDNA上の各エクソン配列とゲノム上の各エク
ソン配列は互いにほぼ相補鎖の関係にあり(これらは向
きが逆、または、負の向きという)、それらは互いに反
対の順番で並んでいる。このようなグループ分けを行う
手順は後述する。507の終了判定を含む繰り返し処理に
より、エクソンの各グループに対して以下の処理を行
う。508でグループ内に属するエクソンの合併がcDN
A全体を覆う割合を計算しそれが所定の割合(例えば95
%)以上かを判定し、また、グループ内のエクソンをc
DNA配列上で昇順に並べたとき隣り合うエクソン間の
間隔が所定の塩基長(例えば10塩基)未満になっている
かを判定し、違反があれば509においてこのグループに
属する全エクソンを203から削除する。
【0027】1つのcDNAに属するエクソン全体を、
506において上記のようにグループ分けするには、次の
ような手順に従う。まず、1つのcDNAに属するエク
ソン全体を正・負の向きによって2つに分ける。次に、
正の向きのエクソンをゲノム断片配列上の位置により昇
順にソートし、また、負の向きのエクソンをゲノム断片
配列上の位置により降順にソートする。それぞれの向き
のエクソンについてソート順に見ていき、 (1)最初のエクソンは新たなグループに属する。
【0028】(2)現在のエクソンqが直前に見たエク
ソンpに対して、 (q右端塩基のcDNA配列上での位置)>(p右端塩
基のcDNA配列上での位置)−(許容重なり塩基数) が成り立つならばqはpと同じグループに属し、そうで
ない場合、qは新たなグループに属する。許容重なり塩
基数としては、例えば、5塩基程度でよい。
【0029】
【発明の実施の形態 − その2】上記実施例によるc
DNA配列とゲノム配列との対応表示を利用して、プラ
イマ設計を行うための、本発明の第2の実施形態を、図
を用いて詳細に説明する。一般に、cDNAライブラリ
を作成したとき、そこに含まれるポリヌクレオチドとし
て、cDNA以外に、その他のゲノムの断片が紛れ込む
ことがある。従って、PCRを用いてcDNA配列の一
部を増幅しようとする際には、それが実際にcDNA配
列の一部であってそれ以外のゲノム断片ではないことを
確認できることが有用である。上記実施例を利用してプ
ライマを設計することにより、このような確認が可能に
なる。
【0030】図6は、そのようなプライマ設計法を説明
する原理図である。601はゲノム上の塩基位置を表す軸
であり、602はcDNA上の塩基位置を表す軸であり、6
03と604は一つのcDNAに属する相異なるエクソンを
表す。603と604の塩基配列の中から、公知の方法(田
平、林、PCR,PCR-SSCP法、新遺伝子工学ハンドブック、
村松・山本編、75頁、羊土社、1999年)によりプ
ライマ配列を選び出す。このプライマ配列のオリゴヌク
レオチドを合成して、cDNAライブラリに対してPC
Rを行えば、これらのプライマは607、608の位置でcD
NAに結合し、それらに挟まれた609に示すcDNAの
部分配列をもつポリヌクレオチドが増幅される。一方、
これと同じプライマを用いて、ゲノムライブラリに対し
てPCRを行えば、これらのプライマは610、611の位置
でゲノムに結合し、それらに挟まれた612に示すゲノム
の部分配列をもつポリヌクレオチドが増幅される。この
ポリヌクレオチドはイントロン配列を含んでいる。従っ
て、これら2種類のPCRで増幅されたポリヌクレオチ
ドの長さは異なる。
【0031】これに対して、cDNAライブラリの中に
紛れ込んだゲノム断片からプライマを設計してしまった
場合は、上記のような2種類のPCRで増幅されたポリ
ヌクレオチドは一致する。651はゲノム上の塩基位置を
表す軸であり、652はcDNA上の塩基位置を表す軸で
あり、653はエクソンを表す。653の塩基配列の中からプ
ライマ配列を選び出す。このプライマ配列のオリゴヌク
レオチドを合成して、cDNAライブラリに対してPC
Rを行えば、これらのプライマは656、657の位置でcD
NAライブラリに含まれるゲノム断片に結合し、それら
に挟まれた658に示す部分配列をもつポリヌクレオチド
が増幅される。また、これと同じプライマを用いて、ゲ
ノムライブラリに対してPCRを行えば、これらのプラ
イマは659、660の位置でゲノムに結合し、それらに挟ま
れた661に示す配列をもつポリヌクレオチドが増幅され
る。これら2種類のPCRで増幅されたポリヌクレオチ
ドは一致する。
【0032】このように、同じプライマを用いてcDN
Aライブラリとゲノムライブラリに対してPCRで増幅
されたポリヌクレオチドの違いを調べることにより,c
DNAに紛れ込んだゲノム断片ではなくcDNAの一部
を増幅していることが確認できる。
【0033】
【発明の効果】エクソン・イントロン構造をもつcDN
A配列とゲノム配列との対応関係を、向きと順番が整合
的な(エクソンに対応する)線分の並びとして、判り易
くグラフィック表示する。エクソンの候補となる類似部
分配列のペアについて、その両端の塩基位置と類似度等
をあらかじめ計算しておき、その中からよりエクソンと
して確からしい類似部分配列のペアを対話的に選んで描
画するため、ゲノム上の広範囲にわたって高速に描画で
きる。短い類似配列や、類似度の低い類似配列、向きや
順番が不整合の類似配列などを自動的に除去して表示す
るため、cDNA配列とゲノム配列との間の意味のある
対応関係のみが描画される。
【図面の簡単な説明】
【図1】本発明の一実施の形態における処理の流れを示
す図。
【図2】類似部分配列ペア(エクソン)を集めた情報の
データ構造。
【図3】類似部分配列ペア(エクソン)の1次選択処理
の動作を説明するためのフローチャート。
【図4】モニター画面上に描画されるイメージを、簡略
化して表した説明図。
【図5】類似部分配列ペア(エクソン)の2次選択処理
の動作を説明するためのフローチャート。
【図6】本発明の第2の実施形態におけるプライマ設計
法の原理を説明する図
【符号の説明】
101 解析の対象とするcDNA配列データ 102 cDNA配列と比較されるべきゲノム配列を格納
したデータベース 103 cDNA配列データとゲノム配列データベースを
読み込む入力処理 104 類似性検索処理のためにcDNA配列データをデ
ータベース化する処理 105 各ゲノム断片配列を検索配列としてcDNAデー
タベースに対して類似性検索を繰り返す処理 106 類似性がある部分配列ペア(エクソン)を抽出し
てその特徴量を計算する処理 107 処理量を圧縮することを目的とした、類似部分配
列の1次選択処理 108 類似性がある部分配列ペア(エクソン)によりゲ
ノムとcDNAを対応付けるデータを格納したファイル 109 2次元のグラフィック表示データを生成する処理 110 ユーザインターフェース装置 111 意味のある類似部分配列を正確に選び出すための
2次選択処理
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 内宮博文,加藤敦之,イネcDNAの 大量解析,蛋白質・核酸・酵素,日本, 共立出版株式会社,1992年 5月30日, Vol.37,No.7,p.1364−1368 榊佳之,生物科学の現状と展望 ヒト ゲノム解析プロジェクト,生物の科学 遺伝,日本,株式会社裳華堂,1996年 7月20日,別冊8号,p.89−96 M.Gribskov and J. Devereux,Sequence Anaysis Primer,米国, OXFORD UNIVWERSITY PRESS,1992年,p.105−108 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 C12M 1/00 C12N 15/09 JICSTファイル(JOIS)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 インターフェース装置から、描画パラメ
    ータの指示を受けるステップと、 前記指示を受け、記憶されたゲノム−cDNA対応付け
    データーファイルを用い、表示データを生成する手段に
    て、2次元のグラフィック表示データを生成するステッ
    プと、 前記生成された表示データについて、前記インターフェ
    ース装置に、グラフの1の軸にcDNAの鋳型となった
    mRNAに転写されたゲノム部分配列を含むゲノム配列
    上の塩基位置を、他の軸に前記cDNA配列上の塩基位
    置をとり、前記ゲノム配列を示す軸と前記cDNA配列
    を示す軸とでは、その桁が異なるものであり、前記ゲノ
    ム配列のうち所定塩基長以上を有する部分配列につい
    て、前記cDNA配列との間で所定の割合以上の類似性
    を有する部分をグラフ上に線分で表示させるステップと
    を有することを特徴とするcDNA配列とゲノム配列と
    の対応表示方法。
  2. 【請求項2】 複数のcDNAを縦軸にとり、前記cD
    NAとの対応関係をcDNAごとに異なる色で表示する
    ことを特徴とする請求項1記載のcDNA配列とゲノム
    配列との対応表示方法。
  3. 【請求項3】 cDNAの鋳型となったmRNAに転写
    されたゲノム部分配列を含むゲノム配列と前記cDNA
    配列とを入力するステップと、 前記ゲノム配列中の所定の塩基長以上を有する部分配列
    について前記cDNA配列との間で所定の割合以上の類
    似性を有する部分を検索するステップと、 前記ゲノム配列と前記cDNA配列をそれぞれグラフの
    縦軸と横軸又は横軸と縦軸にとって、前記縦軸と前記横
    軸はその桁を異なるようにして、前記検索するステップ
    で検索された部分を線分で該グラフ上に表示するステッ
    プと、 を備えるcDNA配列とゲノム配列との対応表示方法を
    コンピュータに実行させるためのプログラムを記録した
    ことを特徴とするコンピュータ読み取り可能な記録媒
    体。
  4. 【請求項4】 さらに前記所定の塩基長及び前記類似性
    の所定の割合を入力するステップを備えるcDNA配列
    とゲノム配列との対応表示方法をコンピュータに実行さ
    せるためのプログラムを記録したことを特徴とする請求
    項3記載の記録媒体。
  5. 【請求項5】 ネットワーク接続された又は内蔵された
    ゲノムデータベースにアクセスし、cDNAの鋳型とな
    ったmRNAに転写されたゲノム部分配列を含むゲノム
    配列を入力し、シーケンシングによって得られた前記
    DNA配列を入力する入力手段と、 前記ゲノム配列中の所定の塩基長以上を有する部分配列
    について前記cDNA配列との間で所定の割合以上の類
    似性を有する部分を検索する検索手段と、 前記ゲノム配列と前記cDNA配列をそれぞれグラフの
    縦軸と横軸又は横軸と縦軸にとり、前記ゲノム配列を示
    す軸と前記cDNA配列を示す軸とでは、その桁が異な
    るものであり、前記検索手段で検索された部分を線分で
    該グラフ上に表示して前記cDNA配列に対応する前記
    ゲノム配列上の遺伝子のエクソン・イントロン構造を表
    示する表示手段とを備えることを特徴とするシーケンサ
    装置。
  6. 【請求項6】 イントロン配列を跨ぐ相異なるエクソン
    領域内にあるプライマのペアを設計しこれを用いてゲノ
    ムライブラリとcDNAライブラリとでそれぞれPCR
    を行うステップと、 該PCRを行うステップで増幅されたcDNAの鋳型と
    なったmRNAに転写されたゲノム部分配列を含むゲノ
    ム配列と前記cDNA配列とを入力するステップと、 前記ゲノム配列中の所定の塩基長以上を有する部分配列
    について前記cDNA配列との間で所定の割合以上の類
    似性を有する部分を検索するステップと、 前記ゲノム配列と前記cDNA配列をそれぞれグラフの
    縦軸と横軸又は横軸と縦軸にとり、前記ゲノム配列を示
    す軸と前記cDNA配列を示す軸とでは、その桁が異な
    るものであり、前記検索するステップで検索された部分
    を線分で該グラフ上に表示することによってイントロン
    配列が存在するために異なったポリヌクレオチドが増幅
    されたことを表示して増幅したゲノム配列がイントロン
    配列を含んでいることを確認するステップと、 を備えることを特徴とするプライマ設計方法。
JP2000289728A 2000-09-25 2000-09-25 cDNA配列とゲノム配列との対応表示方法、記録媒体、シーケンサ装置及びプライマ設計方法 Expired - Fee Related JP3469542B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000289728A JP3469542B2 (ja) 2000-09-25 2000-09-25 cDNA配列とゲノム配列との対応表示方法、記録媒体、シーケンサ装置及びプライマ設計方法
US09/933,168 US20020038185A1 (en) 2000-09-25 2001-08-21 Method for indicating relationship between cDNA sequence and genome recording medium, sequencer apparatus, and method for designing a primer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000289728A JP3469542B2 (ja) 2000-09-25 2000-09-25 cDNA配列とゲノム配列との対応表示方法、記録媒体、シーケンサ装置及びプライマ設計方法

Publications (2)

Publication Number Publication Date
JP2002099546A JP2002099546A (ja) 2002-04-05
JP3469542B2 true JP3469542B2 (ja) 2003-11-25

Family

ID=18773072

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000289728A Expired - Fee Related JP3469542B2 (ja) 2000-09-25 2000-09-25 cDNA配列とゲノム配列との対応表示方法、記録媒体、シーケンサ装置及びプライマ設計方法

Country Status (2)

Country Link
US (1) US20020038185A1 (ja)
JP (1) JP3469542B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006072656A (ja) * 2004-09-01 2006-03-16 Hitachi Software Eng Co Ltd リアルタイムpcrのプライマー設計方法
CN102789553B (zh) * 2012-07-23 2015-04-15 中国水产科学研究院 利用长转录组测序结果装配基因组的方法及装置
WO2015198074A1 (en) * 2014-06-27 2015-12-30 Illumina Cambridge Limited Methods, applications and systems for processing and presenting gene sequencing information
US11989216B2 (en) 2019-04-09 2024-05-21 University Of Washington Systems and methods for providing similarity-based retrieval of information stored in DNA
CN115083527A (zh) * 2022-08-18 2022-09-20 北京大学人民医院 一种聚类泛基因组数据库构建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
M.Gribskov and J.Devereux,Sequence Anaysis Primer,米国,OXFORD UNIVWERSITY PRESS,1992年,p.105−108
内宮博文,加藤敦之,イネcDNAの大量解析,蛋白質・核酸・酵素,日本,共立出版株式会社,1992年 5月30日,Vol.37,No.7,p.1364−1368
榊佳之,生物科学の現状と展望 ヒトゲノム解析プロジェクト,生物の科学 遺伝,日本,株式会社裳華堂,1996年 7月20日,別冊8号,p.89−96

Also Published As

Publication number Publication date
JP2002099546A (ja) 2002-04-05
US20020038185A1 (en) 2002-03-28

Similar Documents

Publication Publication Date Title
AU2009313292B2 (en) Interactive genome browser
Safran et al. Human gene-centric databases at the Weizmann Institute of Science: GeneCards, UDB, CroW 21 and HORDE
US6420108B2 (en) Computer-aided display for comparative gene expression
EP3625715A1 (en) Systems and methods for analyzing datasets
US20080281818A1 (en) Segmented storage and retrieval of nucleotide sequence information
JPH08503091A (ja) オリゴプローブ設計ステーション:コンピューターによる最適dnaプローブの設計方法
WO2000028091A9 (en) Systems for the analysis of gene expression data
CN112133368A (zh) 一种基于三代测序技术的宏基因组测序数据的自动化分析方法
Usuka et al. Gene structure prediction by spliced alignment of genomic DNA with protein sequences: increased accuracy by differential splice site scoring
CN113488106A (zh) 一种快速获取目标基因组区域比对结果数据的方法
JP3469542B2 (ja) cDNA配列とゲノム配列との対応表示方法、記録媒体、シーケンサ装置及びプライマ設計方法
US20030200033A1 (en) High-throughput alignment methods for extension and discovery
CN111161797A (zh) 一种基于三代测序检测多样本量比较转录组分析方法
JP5469882B2 (ja) 生物種同定方法及びシステム
US6871147B2 (en) Automated method of identifying and archiving nucleic acid sequences
Schnable et al. Comparative genomics with maize and other grasses: from genes to genomes!
CN111681704B (zh) 一种基于matK基因的未知植物物种识别数据库的构建方法及数据库
WO2004055709A2 (en) Methods for identifying, viewing, and analyzing syntenic and orthologous genomic regions between two or more species
CN111599408A (zh) 基因变异顺反位置关系检测方法、装置、设备和存储介质
CN113409885B (zh) 一种自动化数据处理以及作图方法及系统
US9396304B2 (en) Computer systems for annotation of single molecule fragments
Tinker Why quantitative geneticists should care about bioinformatics.
Dong Chao Deng1†, Wenzhu Peng2, 3, 4†, Zhi Ma1, Caihuan Ke2, 3, 4, Weiwei You2, 3, 4* and Ying Wang1, 5, 3
Rees et al. Automappa: An interactive interface for metagenome-derived genome bins
EP1298572A2 (en) Method for analyzing trait map

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080905

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080905

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090905

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090905

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100905

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100905

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110905

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120905

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130905

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees