JP4298101B2 - 類似発現パターン抽出方法及び関連生体高分子抽出方法 - Google Patents

類似発現パターン抽出方法及び関連生体高分子抽出方法 Download PDF

Info

Publication number
JP4298101B2
JP4298101B2 JP37143499A JP37143499A JP4298101B2 JP 4298101 B2 JP4298101 B2 JP 4298101B2 JP 37143499 A JP37143499 A JP 37143499A JP 37143499 A JP37143499 A JP 37143499A JP 4298101 B2 JP4298101 B2 JP 4298101B2
Authority
JP
Japan
Prior art keywords
search
expression
expression pattern
pattern
biopolymer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP37143499A
Other languages
English (en)
Other versions
JP2001178463A (ja
Inventor
恒彦 渡辺
康行 野崎
亮 中重
卓郎 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP37143499A priority Critical patent/JP4298101B2/ja
Priority to EP00125806A priority patent/EP1113078A1/en
Priority to US09/739,525 priority patent/US7277798B2/en
Publication of JP2001178463A publication Critical patent/JP2001178463A/ja
Application granted granted Critical
Publication of JP4298101B2 publication Critical patent/JP4298101B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、遺伝子等の生体高分子と発現に関して関連を有する生体高分子を大量の生体高分子群の中から抽出する方法に関する。
【0002】
【従来の技術】
さまざまな種においてゲノム配列が決定されるのに伴い、進化に対応するとみられる遺伝子を見つけ出し、どの生物も共通に持っていると考えられる遺伝子の集合を探したり、それから逆に種毎に個別な特徴を推測するなど、種間の遺伝子の違いから何かを見出そうとする、いわゆるゲノム比較法が盛んに行われてきた。
【0003】
しかし近年、DNAチップやDNAマイクロアレイなどのインフラストラクチャの発達によって、分子生物学の興味は、種間の情報から種内の情報へ、すなわち同時発生解析へと移りつつあり、これまでの種間の比較と合わせて、情報の抽出から関連付けの場が大きく広がりを持ち始めている。
例えば、既知の遺伝子と同一の発現パターンを示す未知の遺伝子が見つかれば、その遺伝子には既知の遺伝子と同様の機能があると類推できる。これら遺伝子や蛋白質そのものの機能的な意味付けは、機能ユニットや機能グループといった形で研究されている。また、それらの間の相互作用も、既知の酵素反応データや物質代謝データとの対応付けによって、あるいはより直接的に、ある遺伝子を破壊あるいは過剰反応させ、その遺伝子の発現をなくすか、あるいは多量に発現させ、その遺伝子の直接的及び間接的影響を、全遺伝子の発現パターンを調べることによって解析している。
【0004】
ここで、ある遺伝子の発現パターンとは、横軸に実験ケース、縦軸に発現量をとり、その遺伝子に対して一連の実験ケースで得られた発現量の値をつなげて曲線(あるいは折れ線)グラフとして表したものである。なお、遺伝子だけでなくDNA、cDNA、RNA、DNA断片又はタンパク質などの生体高分子についても同様の発現パターンを考えることができるが、ここでは遺伝子の発現パターンを例にとって説明する。横軸にとる実験ケースの具体例としては、時系列、生物の体の部位、生物種、塩基配列の一部、遺伝子などがある。
【0005】
実験ケースにおいて時系列とした発現パターンを解析した例としては、例えばスタンフォード大学のP. Brownらのグループによるイースト菌の発現解析が挙げられる(Michel B. Eisen et. al.: Cluster analysis and display of genome-wide expression patterns: Proc. Natl. Acad. Sci. 1998 Dec 8, 95(25), 14863-8)。彼らは、cd6変異株と呼ばれる遺伝子を用い、遠心分離法を適用したときの発現過程、出芽時期における発現過程、高熱ショックを与えたときの発現過程、低熱ショックを与えたときの発現過程、ジーオーキーシーシフト法を適用したときの発現過程などの各実験における時系列の遺伝子の発現データを組み合わせ、発現パターン同士をクラスタリングすることにより、遺伝子の機能を特定するのに成功したことが知られている。
【0006】
遺伝子の発現解析法のひとつとして、図24(a)に示すような大量の遺伝子(検索対象遺伝子)群の発現パターンの中から、図24(b)に示すように任意に選択した遺伝子(検索遺伝子)の発現パターンによく類似したパターンを有する遺伝子を抽出する方法がある。抽出された遺伝子は、検索遺伝子の属する機能グループや機能ユニットの候補とすることができる。
【0007】
この従来の方法は、検索の様子を図24(c)に模式的に示し、検索結果を図24(d)に示すように、検索遺伝子の発現パターンとそのパターン全体において類似した発現パターンをもつ遺伝子を抽出する方法である。具体的には一つの遺伝子の発現過程を一つのベクトル(実験ケースと同じ数だけ独立した軸を有する多次元空間において、各実験ケースにおける発現量をその実験ケースに相当する軸方向の成分として持つベクトル)に対応させ、遺伝子間の類似性をベクトル間の(非)類似度によって比べている。また、実際の遺伝子データではなくユーザが任意に曲線データ(発現パターンデータ)を用意し、これを基準として遺伝子を抽出する方法もある。 これらの縦軸の発現量は遺伝子の数量に関する増幅割合を表すものであり、具体的な測定値は実験方法に依存するが、例えばDNAチップ上でハイブリダイズした遺伝子を標識している標識蛍光物質から発せられる蛍光の強度、標識化学発光物質から発せられる化学発光の強度、DNAチップ上に付着した遺伝子に発生する化学反応起因の電気的シグナルを電極により検出した値、ハイブリダイズした遺伝子をガス化しその飛行時間を計測することによって得た質量分析の値などを発現量の指標とすることができる。
などを発現量の指標とすることができる。
【0008】
【発明が解決しようとする課題】
ところが、前述の従来の方法では、任意に選択した検索遺伝子の発現パターンと検索対象遺伝子の発現パターンとが、そのパターンの全ての部分(全ての実験ケース)において類似している遺伝子しか抽出できなかった。
例えば図22(a)に示すように、検索対象遺伝子の発現パターンデータに実験環境の違いによる測定誤差が含まれていた場合、従来の方法ではこれを検索遺伝子と類似した発現パターンであると認識できなかった。また、例えば図22(b)に示すように、時系列のある区間(ある連続する実験ケースの区間)に限り複数の遺伝子が同じ機能のために協調して発現し、その他の区間では異なる機能のために別々に発現している場合、ある区間では同じ形状の曲線が集まっているように見える。このとき、従来の方法では、このようにある区間で同じ形状となっている曲線群を抽出できなかった。
【0009】
また、遺伝子の発現調節現象は、ある遺伝子の発現が別の遺伝子の発現を誘導したり、あるいは発現を阻害するなど、一連のカスケードで構成されている。
ここでカスケードとは、図23に模式的に示すように、遺伝子1は遺伝子2の発現を誘導し、さらに、遺伝子2は遺伝子3、遺伝子3は遺伝子4を誘導するというように複数の遺伝子が連鎖的に発現する現象のことである。そしてさらに、これらカスケードが複合することにより複雑なネットワークが形成される。このような遺伝子のカスケードでは、時間の経過と共に複数の遺伝子発現のピークが連なってみられ、それらの発現パターンは非常に類似した形状をもつことがある。図22(d)も、このカスケードの一部分を表した図である。従来の方法では、このような遺伝子のカスケードを検出することができなかった。
【0010】
これに加え、図22(e)に示すような、遺伝子の発現を抑制するように働く遺伝子発現パターンや、図22(c)に示すように協調して働くが発現量の度合いに一定量の大きな差がみられる遺伝子発現パターン、また、図22(f)に示すように常に一定の倍率をもって発現がみられる遺伝子発現パターン等を検出することができなかった。
【0011】
本発明は、このような従来技術の問題点に鑑み、遺伝子等の発現データ特有の性質を考慮した類似発現パターン抽出方法及び関連生体高分子抽出方法を提供することを目的とする。特に、検索対象となる発現パターンが測定誤差を含む場合の解析、時系列のある区間に限り複数の生体高分子(例えば遺伝子)が同じ機能のために協調して発現し、その他の区間では異なる機能のために別々に発現している場合の解析、あるいは遺伝子のカスケードの解析などを支援することのできる類似発現パターン抽出方法及び関連生体高分子抽出方法を提供することを目的とする。
【0012】
【課題を解決するための手段】
本発明ではまず、検索する遺伝子等の発現パターンのうち利用者が興味ある発現を示す実験ケース区間を図2(a),(b)のように検索の範囲として部分的に選択する。そして、図2(c)に示すように、この選択された発現パターンの一部分を検索対象遺伝子等の発現パターンと比べることにより、少なくとも一部分が類似した発現パターンを持つ遺伝子等を検索対象遺伝子群等の中から検索する。この方法を適用することで、例えば図22(a)の場合には誤差の範囲を検索対象外とすることで類似遺伝子等を抽出することができ、図22(b)の場合においても、同様な発現過程を示す範囲のみを検索対象とすることで、同じ発現過程を示す部分を抽出することができる。
【0013】
また、図2(d)に示すように、この部分的に取り出した曲線(発現パターンの一部)を任意に縦軸(発現量軸)方向又は横軸(実験ケース軸)方向に平行移動し、移動後の曲線(発現パターンの一部)と検索対象遺伝子等の発現パターン曲線とを重ねあわせることにより、図2(e)に示すように、類似したパターン形状を有する発現パターンを検索できる。さらに、部分的に取り出した曲線(発現パターン)を任意に加工し、例えば抑制遺伝子ならば曲線を上下反転する、常に一定の倍率をもって発現がみられる遺伝子ならば曲線を縦軸方向に拡大・縮小するなどし、この加工した曲線(発現パターン)を用いることにより、より広い意味での類似パターンを持つ遺伝子曲線を検索できる。
【0014】
検索遺伝子等の発現パターンの選択部分とこれに対応する検索対象遺伝子等の発現パターンのパターン形状を比較する手段としては、検索遺伝子等の発現パターン曲線の選択部分の発現量の値に任意の幅をもたせた帯を作り、検索対象遺伝子群等の発現パターンからこの帯に含まれる発現パターンを有する遺伝子等を取り出す方法、検索遺伝子等と検索対象遺伝子等との類似度を算出する方法、また、これらを組み合わせ、帯に含まれる遺伝子等の類似度を算出する方法を適用することができる。
【0015】
すなわち、本発明による類似発現パターン抽出方法は、生体高分子に対する複数の実験ケースと発現量との関係を表す検索対象発現パターンの集合の中から検索発現パターンに類似するものを抽出する類似発現パターン抽出方法において、検索発現パターンの一部分を取り出し、取り出したパターン部分のパターン形状と類似するパターン形状を含む検索対象発現パターンを抽出することを特徴とする。
【0016】
取り出したパターン部分に加工処理を施し、加工されたパターン部分のパターン形状と類似するパターン形状を含む検索対象発現パターンを抽出することもできる。加工処理としては、取り出したパターン部分を縦軸(発現量軸)に対して上下反転する処理、あるいは取り出したパターン部分の縦軸(発現量軸)方向あるいは横軸(実験ケース軸)方向の倍率を変化させる処理などが有効である。
【0017】
類似するパターン形状の判定に当たっては、検索発現パターンの一部分を取り出したパターン部分あるいはそれを加工したパターン部分に対し実験ケース毎に所定量の発現量を加減(加算・減算)することによって縦軸(発現量軸)方向に一定の幅を持った帯状のパターンを発生し、パターンの一部が当該帯状のパターンの中に全て入る検索対象発現パターンを抽出するようにする。
また、帯状のパターンを縦軸方向あるいは横軸方向に平行移動しながら、パターン部分が当該帯状のパターンの中に全て入る検索対象発現パターンを抽出する。
この類似発現パターン抽出方法を適用する生体高分子は遺伝子、DNA、cDNA、RNA、DNA断片又はタンパク質とすることができる。また、実験ケースは時系列に沿った実験、個体の種別、個体の部位、人工的な条件の印加と無印加、あるいはこれらのうちの複数を複合したものとすることができる。
【0018】
本発明による関連生体高分子抽出方法は、生体高分子に対する複数の実験ケースと発現量との関係を表す発現パターンどうしを比較して、検索対象生体高分子の中から検索生体高分子と発現において関連を有する生体高分子を抽出する関連生体高分子抽出方法において、検索生体高分子の発現パターンの一部分を取り出し、取り出したパターン部分のパターン形状と類似するパターン形状を含む発現パターンを有する検索対象生体高分子を抽出することを特徴とする。
【0019】
取り出したパターン部分に加工処理を施し、加工されたパターン部分のパターン形状と類似するパターン形状を含む発現パターンを有する検索対象生体高分子抽出することもできる。加工処理としては、パターン部分を縦軸(発現量軸)方向に対して上下反転する処理、あるいはパターン部分の縦軸(発現量軸)方向あるいは横軸(実験ケース軸)方向の倍率を変化させる処理などが有効である。
【0020】
類似するパターン形状の判定に当たっては、検索生体高分子の発現パターンの一部分を取り出したパターン部分あるいはそれを加工したパターン部分に対し実験ケース毎に所定量の発現量を加減することによって縦軸(発現量軸)方向に一定の幅を持った帯状のパターンを発生し、パターンの一部が当該帯状のパターンの中に全て入る発現パターンを有する検索対象生体高分子を抽出する。
また、帯状のパターンを縦軸方向あるいは横軸方向に平行移動しながら、パターンの一部が当該帯状のパターンの中に全て入る検索対象発現パターンを有する検索対象生体高分子を抽出する。
この関連生体高分子抽出方法を適用する生体高分子は遺伝子、DNA、cDNA、RNA、DNA断片又はタンパク質とすることができる。また、実験ケースは時系列に沿った実験、個体の種別、個体の部位、人工的な条件の印加と無印加、あるいはこれらのうちの複数を複合したものとすることができる。
【0021】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。理解を容易にするために、以下では具体例として横軸を時系列の実験ケースとし、縦軸を遺伝子の発現量とした発現パターンのグラフを用いて説明する。しかし、本発明の適用は遺伝子の発現パターン、あるいは横軸を時系列の実験ケースとした発現パターンに限られるものではない。
【0022】
例えば、カエルの発生時に働くある遺伝子に注目しその発現及び発現量を調べる場合、まず、大量のカエルの卵を同時に受精させ、ある一定の時間経過ごとにその遺伝子のコピーの有無と数量を計測する方法がある。本発明においては、このような実験において、一定の時間経過後における卵の状態を時系列的に観察し、それぞれの時間において受精された卵の遺伝子の発現及び発現量を測定することを一つの実験ケース(時系列の実験ケース)と捉える。また、実験ケースは、高熱による刺激の有無や投薬の前後で調べるなど実験環境の違いで比較を行う場合や、細胞分裂の時点や栄養素を与えた時点など細胞活動の時期の違いで比較を行う場合、さらに生物のそれぞれの部位同士で比較を行う場合、異なる生物種の間で比較を行う場合なども一つの実験ケースである。
【0023】
例えば、時系列の実験ケース以外の例として、横軸を体の部位とするものがある。具体的には横軸に脳、心臓、腎臓などの体の部位を取り、それぞれの部位における遺伝子、DNA、cDNA、RNA、DNA断片、たんぱく質等の発現量を結んで発現パターンを得ることができるが、本発明はこのような発現パターンに対しても適用可能である。あるいは、本発明は、個体の種別による違いを見るために、横軸を、例えばヒト、マウスなどの哺乳類や爬虫類、両生類などの個体種別として得た遺伝子、DNA、cDNA、RNA、DNA断片、たんぱく質等の発現パターンに対しても適用可能である。更には、横軸を、ある実験環境において個体の種別や体の部位に対して注射、ヒートショック、栄養素の付加などの外部からの影響が起きるだろうと思われる要因を加えたものと、加えないものとした場合、あるいは横軸を生物の体の部位、生物種又は時系列を含めこれらを選択し複合した場合の発現パターン一般に対しても適用できるものである。
【0024】
酵母やヒトなどの生物において、細胞の分裂、エネルギーの生成などのような細胞内活動が生じるとき、細胞の核内のいくつかの遺伝子はコピーされ、その結果タンパク質が生成される。つまり、遺伝子が機能し始める。これを遺伝子の発現とよび、遺伝子がコピーされる量を遺伝子の発現量とよぶ。実験ケースごとに遺伝子の発現量を調べると、遺伝子の働きに応じて発現量の増減の変化が現れる。これを本発明では発現パターンという。遺伝子以外にもDNA、cDNA、RNA、DNA断片又はタンパク質などの量も計測することがある。
【0025】
図1は、本発明の方法に用いるシステムの一例の概略構成図である。このシステムは、一連の細胞のプロセスにおいて遺伝子の発現の度合いを数値化したものを格納している遺伝子発現パターンデータ14、その発現パターンデータより必要な情報を取り出し解析を行うデータ解析部16、その結果を視覚化して表示するための処理を行う表示処理部15、また実際に表示する表示装置11、本システムへの値の入力や選択の操作を行うためのキーボード12及びマウス13等のポインティングデバイス、これらの処理をデータ解析部16に伝える入力処理部17を備える。ここで、表示処理部15、データ解析部16、入力処理部17は中央処理装置10上にある。この中央処理装置10は、コンピュータとそのプログラムによって具体化される。
【0026】
図3は、遺伝子発現パターンデータ14に格納された検索対象遺伝子発現パターンデータの具体的な構造を例示したものである。検索対象となる遺伝子群の発現データを二次元配列Exp[][]で表す。すなわち、遺伝子ID(id)に対応する遺伝子が実験ケース(no)における発現の度合いを数値化したデータをExp[id][no]に格納している。
【0027】
図4は、ある遺伝子の発現パターンデータと、そのデータに基づいて描かれる発現パターンの対応例を説明する模式図である。実験ケースは時系列になっているとする。例えば、一定時間おきに採取したサンプルに対し、同種のDNAチップを用いハイブリダイゼーション反応を行って得られた発現パターンデータである。
【0028】
図4(a)は、遺伝子1の発現パターンデータ例を表し、図4(b)は遺伝子1の発現パターンをグラフ化して表したものである。このグラフの横軸は時系列の時間(分)であり、縦軸は発現量(単位なし)である。図4(b)の曲線(折れ線グラフ)と、図4(a)の配列Exp[][]とは対応している。この曲線を二次元配列Exp[][]で表現する場合、遺伝子1のIDである1が最初の添字に入り、次の添字には実験ケースの順番が入る。そして、この配列がもつ値は発現量となる。図示した例の場合、遺伝子1のi分後の発現量のデータはExp[1][i+1]のように表すことができ、例えば2分後における発現量5のデータは実験ケース順では3番目なので、配列Exp[1][3]で表せ、この中身はExp[1][3]=5となる。
【0029】
図5は、図1に示したシステムにおける表示装置11の表示画面の一例を示す説明図である。この表示画面は、検索対象遺伝子データが入力され検索対象となる遺伝子の属性を表示する検索対象遺伝子表示ボックス22、検索対象遺伝子表示ボックス22に入力された複数の遺伝子の遺伝子発現パターンが重ねて同時に表示される検索対象遺伝子用グラフ表示領域25、検索の元となる遺伝子データが入力され検索する遺伝子の属性を表示する検索遺伝子表示ボックス23、検索遺伝子表示ボックス23に入力された遺伝子の遺伝子発現パターンが表示される検索遺伝子用グラフ表示領域29を有する。
【0030】
また、検索遺伝子用グラフ表示領域29に表示されている遺伝子発現パターンから検索候補となる任意の区間を選択するための選択区間設定枠30、選択区間設定枠30で選択された区間の発現パターンに加える変形方法を表示した変形オプションボックス24、変形オプションボックス24にて選択された変形方式で変形したパターンを表示する変形オプション表示領域28が用意されている。この変形オプションを用いることにより、例えばある遺伝子の発現が他の遺伝子の発現を阻害する関係にあるものなどを効率よく発見することができる。選択区間設定枠30は、例えばマウスポインタで枠をドラッグする等の方法で、横軸方向の位置、幅を任意に調整することができるようになっている。検索対象遺伝子用グラフ表示領域25には、例えばマウスポインタでドラッグする等の方法で、ユーザが左右に移動して検索開始点を自由に設定することのできる検索区間設定枠26が設けられている。
【0031】
選択区間設定枠30に表示された部分パターンと類似した発現パターンを有する遺伝子の検索は検索ボタン32をクリックすることにより開始され、検索結果は類似表31に類似順に表示される。図示の例では、類似表31には類似度、遺伝子名、検索区間が表示されるようになっている。類似表31の上部に置かれた詳細表示ボタン33をクリックすると、類似表31に表示された個々の遺伝子の詳しい属性が別ウィンドウに表示されるようになっている。
【0032】
表示画面上の詳細設定ボタン21をクリックすると、図6(a)に略示するような詳細設定ウインドウ41が表示される。詳細設定ウインドウ41には、帯のオプションを設定するための図6(a)に示す帯オプション設定タグ42、帯の使用・不使用を設定するための図6(b)に示す帯使用タグ43、類似パターン検索に用いる帯の幅を設定するための図6(c)に示す帯の幅設定タグ44、(非)類似度の算出方法を選択するための図6(d)に示す(非)類似度タグ45、検索する遺伝子と検索対象となる遺伝子に対し正規化処理の適用・不適用を設定するための図6(e)に示す正規化タグ46が含まれる。ここで帯とは、後述するように、発現パターンの発現量の値に任意の値を加減してできた、その発現パターンを中心として縦軸方向に幅を持った領域をいう。
【0033】
ユーザは、図5に示した表示画面において、検索遺伝子用グラフ表示領域29に表示されている遺伝子発現パターンの中で検索候補となる任意の区間を選択区間設定枠30によって選択する。この選択区間設定枠30によって切り取られた曲線(パターン形状)をもとに、検索対象遺伝子用グラフ表示領域25に表示されている検索対象遺伝子の遺伝子発現パターンの中から類似する曲線を抽出する。すなわち、選択区間設定枠30によって切り取られたパターン形状に類似する曲線を部分的に含むパターンを検索対象遺伝子用グラフ表示領域25に表示されている遺伝子発現パターンの中から抽出する。
【0034】
ユーザは検索区間設定枠26を左右に動かし、検索対象遺伝子用グラフ表示領域25における検索開始点を決定する。例えば、検索区間設定枠26内における遺伝子のカスケードの状況を観測するとき、ユーザが適宜、区間設定枠を移動し、類似している遺伝子を調べればよい。検索開始点は自動的に設定することも可能である。また、複数の検索開始点を自動設定し、検索開始点を順次移動しながら自動検索することも可能である。
【0035】
図7は、本発明による類似遺伝子発現パターン抽出方法の概略フローを示した図である。まず、図1に示した遺伝子発現パターンデータ14からデータ解析部16へデータを読み込む(ステップ11)。個々の遺伝子発現パターンデータの具体的な形は、先に図3にて説明したようなものである。次に、ユーザは、図1のデータ解析部16に読み込んだ遺伝子発現パターンデータのうち、検索対象となる遺伝子の発現パターンを取り出す(ステップ12)。さらに、検索したい遺伝子の発現パターンを取り出す(ステップ13)。ここでは、後述するように、ユーザ自身が任意に作成したデータを検索する遺伝子発現パターンデータとして入力するなどの方法も可能である。次にユーザは、検索遺伝子発現パターンデータの詳細設定と類似度(非類似度)の距離計算方式を決定する(ステップ14)。
【0036】
次に、検索対象遺伝子発現データにおける検索遺伝子の検索開始点を決める(ステップ15)。ここでは、ユーザが図5の表示画面上で検索区間設定枠26を左右に動かすことにより検索対象遺伝子発現パターンデータにおける検索開始点の値を決定し、これを変数Tsに保持する。次に、検索対象遺伝子群から任意の検索遺伝子に類似した遺伝子を抽出する(ステップ16)。最後に、抽出された検索対象遺伝子を、類似表31に類似している順に並べて表示する(ステップ17)。
【0037】
図8は、図7のステップ11における検索対象遺伝子発現パターンデータの登録に関する処理の詳細フローである。
まず、図9に示すように、本システムに蓄積された遺伝子発現パターンデータ14を別ウィンドウのローカル遺伝子データベース表示ボックス51に表示する。ローカル遺伝子データベース表示ボックス51には格納された遺伝子の遺伝子IDと遺伝子名が表示されるので、検索対象とする任意の遺伝子データを例えばポインティングデバイスで検索対象遺伝子表示ボックス52にドラッグアンドドロップすることにより選択し格納する。検索対象遺伝子表示ボックス52のデータは、図5に示した検索対象遺伝子表示ボックス22に入力される。検索対象遺伝子表示ボックス22に検索対象遺伝子が入力されると、検索対象遺伝子用グラフ表示領域25に発現度に応じた検索対象遺伝子の遺伝子発現パターンが表示される。同時に、図3にて説明したようにして、id番目の遺伝子のno個目の実験ケースにおける各遺伝子の発現量を二次元配列Exp[id][no]に登録する(ステップ21)。次に、変数gene_numに登録する遺伝子の総数を保持し、変数case_numに登録する遺伝子の実験ケースの総数を保持する(ステップ22)。
【0038】
図10は、図7のステップ12に示した検索遺伝子発現パターンデータの入力に関する処理の詳細フローである。
ローカル遺伝子データベースより検索遺伝子を選択するときは、図9のローカル遺伝子データベース表示ボックス51より検索する任意の遺伝子発現パターンデータをポインティングデバイスで検索遺伝子表示ボックス53にドラッグアンドドロップすることにより選択する(ステップ31)。検索遺伝子表示ボックス53のデータは、図5に図示した検索遺伝子表示ボックス23に入力される。検索遺伝子表示ボックス23に検索遺伝子が入力されると、検索遺伝子用グラフ表示領域29に検索遺伝子の遺伝子発現パターンが表示される。
【0039】
次に、検索遺伝子発現パターンを配列Target[]にコピーする(ステップ33)。ローカル遺伝子データベースより検索遺伝子を選択しないとき、ユーザは任意に遺伝子発現パターンを作成し、この作成した遺伝子発現パターンを配列Target[]にコピーする(ステップ32)。
【0040】
図11は、図7のステップ13に示した検索遺伝子発現パターンデータの設定に関する詳細フローである。
まず、図5の検索遺伝子用グラフ表示領域29に表示された全区間の検索遺伝子発現パターンの中から、利用者が着目したい区間を選択区間設定枠30を用いて選択する。選択した区間の開始点の値、終了点の値を保持しておく(ステップ41)。
【0041】
図12は、図5の選択区間設定枠30の検索範囲に対応する遺伝子発現パターンデータの具体的な構造を示した説明図である。検索する遺伝子の発現パターンデータを一次元配列Target[]で表す。すなわち、遺伝子ID(id)の実験ケースs,s+1,…,s+case_num-1におけるデータを検索遺伝子の発現データとするとき、Target[]はTarget[1]=Exp[id][s],…,Target[case_num]=Exp[id][s+case_num-1]となる。変数case_numはTarget[]に格納する実験ケースの総数である。
【0042】
次に、検索遺伝子に対して、どのような相互関係を持つ遺伝子を検索対象遺伝子群から抽出したいかにより、選択した区間の検索遺伝子発現パターンを変形する(ステップ42)。この発現パターンの変形は、変形オプションボックス24を用いて行われる。変形オプションボックス24の中にチェックが付されている変形方式が選択された変形方式であり、選択区間設定枠30によって囲まれた遺伝子発現パターンの一部は、変形オプション表示領域28上の変形表示ウインドウに、変形を施さないそのままの形状の曲線とともに、それぞれ選択した変形方式に従って変形されて表示される。変形オプション表示領域28より任意の変形方法を1つ選び、ポインティングデバイスによりスライドケース27にドラッグアンドドロップすると、検索対象遺伝子用グラフ表示領域25に検索区間設定枠26が設定される。スライドケース27内で検索区間設定枠26を左右に動かすことにより検索開始点を自由に設定することができる。
【0043】
変形オプションとしては、曲線の上下を反転する「抑制型」、発現量の倍率を変え曲線を縦軸方向に拡大又は縮小する、あるいは曲線を横軸方向に拡大あるいは縮小する「倍率変化型」、さらに、ユーザが選択した検索遺伝子発現パターンに対して、変形オプション表示領域上でポインティングデバイス等を用いて任意の変化を加える「ユーザ指定型」などがある。抑制型で変形したパターンを用いて類似検索をすると、検索遺伝子に対する抑制遺伝子を検索することができ、倍率変化型で変形したパターンを用いて類似検索をすると、発現量を増幅する遺伝子などを検索することができる。また、ユーザ指定型の変形パターンを用いると、ユーザの考えを反映したり、実験による誤差を修正して遺伝子検索を行うことができる。変形オプションの種類は、ここに例示したものに限られず、適宜のものを追加することが可能である。
【0044】
次に、類似度(非類似度)の距離計算方式を決定する(ステップ43)。類似度あるいは非類似度とは、2つの発現パターンの類似の程度を表す指標である。この指標には、距離のように値の小さい方が類似性が高いことを表す場合と、相関係数のように値の大きい方が類似性が高いことを表す場合とがある。前者の指標を非類似度、後者の指標を類似度という。類似度(非類似度)の距離計算方式は、図6(d)に示した(非)類似度タグ45によって任意の方法を選択する。図示した例では、類似度としてピアソンの相関係数を選択でき、また、非類似度としてユークリッド平方距離、標準化ユークリッド平方距離、マハラノビスの(汎)距離、ミンコフスキー距離等を選択することができる。ピアソンの相関係数は、図22(f)に示したような常に一定の倍率を持って発現が見られる遺伝子発現パターンを検索するときに有効であることが知られているので、類似度としてピアソンの相関係数を選択する時は後述する帯を自動的に不使用にするようにしてもよい。
【0045】
次に、ユーザが図6(c)に示す帯の幅タグ設定44に所望の値を代入することにより帯の幅を決定する。この値をWとする。(ステップ44)。帯の幅について、図13を用いて説明する。帯とは、例えば図13(a)に示すような発現パターンがあったとき、図13(b)に示すように、任意の値(ここでは1)を発現量の値に加減してできた、その発現パターンを中心とした縦軸方向に幅を持った領域をいう。帯の幅を小さくすれば、選択区間設定枠30によって囲まれた検索遺伝子発現パターンの一部と類似度の高い発現パターンを有する遺伝子のみが検索され、逆に帯の幅を大きくすれば、類似度の比較的低い発現パターンを有する遺伝子も検索されることになる。
【0046】
また、ある遺伝子に着目し、その遺伝子発現パターンを異なる体の部位の間で比べる時や、投薬前、投薬後で比べる時などでは、個々の実験で温度やチップ上のスポッティングの量などの実験環境の違いから、測定された遺伝子発現データが均一でないときがある。すなわち実験によって、遺伝子全体でみた時、発現量の平均値や分散値に違いがあることがある。この時、正規化処理を行うとこれらの違いを補正することができる。本システムでは正規化処理を適用するか否かを選択できるようにしている(ステップ45)。正規化処理の使用に関しては、図6(e)に示した正規化タグ46の選択により決定する。正規化を選択した場合、検索遺伝子、検索対象遺伝子ともに発現パターンデータに対し正規化処理を行い、その値をもとに図5に示した表示画面の検索対象遺伝子用グラフ表示領域25及び検索遺伝子用グラフ表示領域29に表示する。
【0047】
図14は、図7に示したステップ16の類似パターン抽出処理の詳細フローである。まず、帯を用いて発現パターンが全区間内において帯の幅の中に収まっている類似パターンを検索する。このとき、横軸上の開始点をTsとする(ステップ51)。検索の途中で帯内に入り類似パターンと認められた曲線はその時点でメモリに保存してもよいし、検索がすべて終了した後でメモリに保存してもかまわない。
【0048】
図15は、帯を用いたことによって類似パターンとして認められるパターンと、類似パターンとは認められないパターンの例を示す説明図である。類似パターンと認められるのは、発現パターンが選択された全区間内において帯の幅の中に収まっているパターンであり、これには図15(a)に示すように遺伝子発現パターンが帯の変化とほぼ同じである場合、図15(b)に示すように遺伝子発現パターンは帯の中央を通らないが全ての値は帯と重なっている場合、図15(c)に示すように遺伝子発現パターンは帯の中央を通らないが全ての値は帯と重なっている場合などがある。
【0049】
これらの場合は具体的には、遺伝子IDがiの遺伝子に対する発現データExp[i][Ts],Exp[i][Ts+1],…,Exp[i][Ts+case_num-1]と検索する遺伝子の発現パターンデータTarget[1],Target[2],…,Target[case_num]との間に、次の〔数1〕の関係が全て成り立つ場合であり、〔数1〕の関係を満たす遺伝子iは検索遺伝子と類似の発現パターンを有するとみなす。
【0050】
【数1】
Target[1]-W≦Exp[i][Ts]≦Target[1]+W,
Target[2]-W≦Exp[i][Ts+1]≦Target[2]+W,
……,
Target[case_num]-W≦Exp[i][Ts+case_num-1]≦Target[case_num]+W
【0051】
一方、類似パターンと認められないのは、図15(d)に示すように遺伝子発現パターンのうち初期値から中ほどの値にかけて帯と重なるが最後ははみ出てしまう場合、図15(e)に示すように初期の値が帯からはみ出てしまう場合、図15(f)に示すように初期の値と最後の値は帯と重なるが途中ではみ出てしまう場合などである。
【0052】
本発明では、図16に略示するように、横軸区間は固定したまま、(a)〜(d)のように帯を縦軸に関して上下にスライドさせながら、帯の範囲に含まれる遺伝子発現パターンを抽出する。ここで、検索遺伝子の発現パターンと類似パターンと認められるのは、図15(a)のように遺伝子発現パターンが帯の変化とほぼ同じ場合、図15(b),(c)のように遺伝子発現パターンは帯の中央を通らないが全ての値は帯と重なっている場合である。
【0053】
しかし、上記の方法によって発現パターンが類似しているとは認められない遺伝子の中にも相互の発現が関連性を有するものが含まれていることがある。そこで、検索区間の前後の値が帯からはみ出ていても、ある一定の割合で中央の値が重なっていれば類似パターンと認めるオプションを設ける。このオプションの設定は図6(a)に示した帯オプション設定タグ42で行う。帯オプションを例えば80%に指定するということは、選択区間設定枠30の横軸方向の幅をその中央値を中心として80%の範囲に縮小したのと同じ効果を有する。したがって、図示の例の場合、図17に示すように、帯オプション無しの検索では類似パターンとは認められなかった図15(d)や図15(e)のようなパターンも類似パターンとして認められることになる。ただし、図15(f)のように中央の値が帯からはみ出ている場合は、帯オプションを設定したとしても類似パターンとは認められない。図16(d)に示すように、帯が区間設定枠の上部に達した場合、帯による検索は終了する。
【0054】
図14に戻って、次にメモリに保存した帯内に入る曲線に対し(非)類似度を算出する。すなわち、図11のステップ43で設定した距離計算法に基づいて、検索遺伝子の発現パターンTarget[1],Target[2],…,Target[case_num]と検索対象遺伝子の発現パターンExp[i][Ts],Exp[i][Ts+1],…,Exp[i][Ts+case_num-1]との間の(非)類似度を求める(ステップ52)(iは、帯に入る遺伝子発現パターンの遺伝子ID)。次に、類似性の高い順((非)類似度の高い順)に並べ替え(ステップ53)、表示画面の類似表31に表示する。
【0055】
図18は、詳細表示ボタン33をクリックしたとき表示される類似度の降順による遺伝子データの表示例である。「類似度」の欄62には、(非)類似度タグ45で選択した類似度あるいは非類似度の評価方法によって評価された類似度あるいは非類似度の数値が表示される。「検索区間」の欄63には、検索区間における検索対象データ60と検索データ61の曲線データが表示される。また、「遺伝子に関する詳細表示」の欄64には、遺伝子が発現している生物体の部位、遺伝子の塩基配列等、その遺伝子に関連する情報が表示される。
ユーザーは図5に示した表示画面上で検索区間設定枠26を横軸方向(左右)に動かすことにより検索開始点の設定を行い検索を行うが、ユーザの検索したい区間において、検索開始点を自動的に移動しながら検索を行うようにすることも可能である。
【0056】
図19は、検索開始点を自動的に移動しながら検索を行う場合の説明図である。この場合には、まず図19(a)に示すように、検索対象遺伝子用グラフ表示領域25上の検索区間設定枠71をユーザの検索したい区間をカバーするように左右方向に広げる。次に、検索開始点のステップ移動の距離を決める。これらの設定をしておくことにより、図19(b)に略示するように、検索区間設定枠71内で検索開始点が横軸方向に▲1▼,▲2▼,…のように一定の間隔で自動的に設定される。そして、各検索開始点において上方向に移動する帯が検索区間設定枠71の上部に達すると、設定された移動距離だけ帯を横軸方向にずらして再び帯を上方向に移動しながら検索を反復することで、検索区間設定枠71内の全域に亘って自動的に検索を行なうことができる。
【0057】
更に、帯または曲線を横にスライドしながら検索することも可能である。図20は、帯又は曲線のスライド方向を説明する図である。図20(a)は検索区間設定枠73を縦軸方向に長く設定した場合の説明図であり、前述のように、検索遺伝子の発現パターンの一部あるいはそれを元に形成された帯を検索区間設定枠73内を上下に移動して類似パターンの検索を行う。このとき、図中に白抜き矢印で示すように、検索区間設定枠73は横軸方向に自由に移動することが可能である。
【0058】
これに対して図20(b)は、検索区間設定枠74を横軸方向に長く設定した場合の説明図であり、検索遺伝子の発現パターンの一部あるいはそれを元に形成された帯を横軸方向にスライドさせながら検索を行う。図21は発現パターンの一部あるいはそれを元に作成された帯を横軸方向にスライドさせながら検索を行う様子を模式的に示したものであり、図21(a)〜(d)に示すように、発現量区間を固定したまま、帯を横軸に関して左から右へスライドさせ、帯の範囲に含まれる遺伝子曲線を抽出する。この方法は遺伝子のカスケードの検出に有効である。この場合にも、図中に白抜き矢印で示すように、検索区間設定枠74を縦軸方向に自由に移動することが可能である。
【0059】
以上、代表的な例を用いて本発明を具体的に説明したが、遺伝子発現データベースはローカルなものだけではなく、ネットワーク上のものも利用できる。また、 一つの検索遺伝子について、複数の変形オプションを同時に選択し、これらを用い並行処理により同時に検索することも可能である。更に、上記説明では検索する遺伝子は一度に1つしか選択しなかったが、複数選択して並行処理により各遺伝子の発現パターンにそれぞれ類似する曲線を同時に検索することも可能である。
【0060】
【発明の効果】
以上説明したように、本発明によれば、遺伝子等の大量の未知の生体高分子群から既知の生体高分子の発現情報をもとに関連ある生体高分子を抽出し、その生体高分子の生物学的機能を効率よく推測することができる。
【図面の簡単な説明】
【図1】本発明の方法に用いるシステムの一例の概略構成図。
【図2】本発明による類似パターン検索の例を示す図。
【図3】検索対象遺伝子発現パターンデータの例を示す図。
【図4】グラフ上の遺伝子発現パターンデータと二次元配列における遺伝子発現パターンデータの対応例を示す図。
【図5】表示装置の表示画面の一例を示す説明図。
【図6】詳細設定ウインドウの説明図。
【図7】本発明による類似遺伝子発現パターン抽出処理の概要を示すフローチャート。
【図8】検索対象遺伝子発現パターンデータの登録処理に関するフローチャート。
【図9】遺伝子データから検索対象遺伝子と検索遺伝子を選択する例を示す説明図。
【図10】検索遺伝子発現パターンデータの入力処理に関するフローチャート。
【図11】検索遺伝子発現パターンの詳細設定及び距離計算法に関するフローチャート。
【図12】検索遺伝子発現パターンデータの例を示す図。
【図13】帯の幅に関する説明図。
【図14】類似パターン抽出処理の詳細設定に関するフローチャート。
【図15】類似パターン抽出処理において、類似パターンと認められる場合と認められない場合の例を示す図。
【図16】区間設定枠内の帯の縦軸方向のスライドを説明する図。
【図17】帯オプション設定例を示す図。
【図18】類似性の高い順による遺伝子データの表示例を示す図。
【図19】検索区間を指定し自動的に検索する例を示す図。
【図20】検索区間設定の説明図。
【図21】区間設定枠内の帯の横軸方向のスライドに関する例を示す図。
【図22】従来の方法で検索できなかった遺伝子発現パターンの例を示す図。
【図23】遺伝子のカスケードの例を示す図。
【図24】従来の類似パターン抽出処理法の説明図。
【符号の説明】
10…中央処理装置、11…表示装置、12…キーボード、13…マウス、14…遺伝子発現パターンデータ、15…表示処理部、16…データ解析部、17…入力処理部、21…詳細設定ボタン、22…検索対象遺伝子表示ボックス、23…検索遺伝子表示ボックス、24…変形オプションボックス、25…検索対象遺伝子用グラフ表示領域、26…検索区間設定枠、27…スライドケース、28…変形オプション表示領域、29…検索遺伝子用グラフ表示領域、30…選択区間設定枠、31…類似表、32…検索ボタン、33…詳細表示ボタン、41…詳細設定ウインドウ、42…帯オプション設定タグ、43…帯使用タグ、44…帯の幅設定タグ、45…(非)類似度タグ、46…正規化タグ、51…ローカル遺伝子データベース表示ボックス、52…検索対象遺伝子表示ボックス、53…検索遺伝子表示ボックス、60…検索対象データ、61…検索データ、71…検索区間設定枠、73…検索区間設定枠、74…検索区間設定枠

Claims (18)

  1. 発現パターンデータを記憶し表示部を備えた処理装置を用い、生体高分子に対する複数の実験ケースと発現量との関係を表す検索対象発現パターンの集合の中から検索発現パターンに類似するものを抽出する類似発現パターン抽出方法において、
    前記検索対象発現パターン及び前記検索発現パターンに対して実験ケース間での実験環境の違いによる発現データのバラつきを補正する正規化を行う工程と、
    発現量を縦軸にとり実験ケースを横軸にとって、前記検索対象発現パターンの集合を前記表示部の検索対象発現パターン表示領域に重ねて表示すると共に、前記検索発現パターンを前記表示部の検索発現パターン表示領域に表示する工程と、
    前記検索発現パターンの横軸方向の一部分の区間を選択する工程と、
    前記選択された横軸方向の区間において実験ケース毎に所定量の発現量を前記検索発現パターンに加減することによって前記縦軸方向に一定の幅を持った帯状のパターンを発生する工程と、
    前記検索対象発現パターン表示領域内に検索区間を設定する工程と、
    前記帯状のパターンを前記検索対象発現パターン表示領域内に設定された前記検索区間内で縦軸及び/又は横軸方向に平行移動しながら、前記帯状のパターンの中にユーザが指定した一定割合以上入る検索対象発現パターンを抽出する工程と、
    前記抽出された検索対象発現パターンの部分と前記検索発現パターンの前記選択された横軸方向の区間との類似度を予め選択された計算方法に従って計算する工程と、
    抽出された前記検索区間における前記検索対象発現パターンと前記選択された区間における前記検索発現パターンを前記表示部にオーバーラップして表示すると共に、抽出した検索対象発現パターンの詳細表示として、パターン間の類似度、遺伝子名、及び遺伝子に関する情報を前記計算された類似度の高い遺伝子の順に並び替えて表示する工程と
    を有することを特徴とする類似発現パターン抽出方法。
  2. 請求項1記載の類似発現パターン抽出方法において、前記検索区間内で、前記帯状のパターンを前記縦軸方向又は横軸方向に平行移動しながら前記帯状のパターンの中にユーザが指定した一定割合以上入る検索対象発現パターンを抽出する工程を、前記帯状のパターンを前記横軸方向又は縦軸方向に所定距離だけずらしながら反復することを特徴とする類似発現パターン抽出方法。
  3. 請求項1又は2記載の類似発現パターン抽出方法において、前記生体高分子は遺伝子、DNA、cDNA、RNA、DNA断片又はタンパク質であることを特徴とする類似発現パターン抽出方法。
  4. 請求項1〜3のいずれか1項記載の類似発現パターン抽出方法において、前記実験ケースは時系列に沿った実験であることを特徴とする類似発現パターン抽出方法。
  5. 請求項1〜4のいずれか1項記載の類似発現パターン抽出方法において、前記実験ケースは個体の種別であることを特徴とする類似発現パターン抽出方法。
  6. 請求項1〜4のいずれか1項記載の類似発現パターン抽出方法において、前記実験ケースは個体の部位であることを特徴とする類似発現パターン抽出方法。
  7. 請求項1〜4のいずれか1項記載の類似発現パターン抽出方法において、前記実験ケースは人工的な条件の印加と無印加であることを特徴とする類似発現パターン抽出方法。
  8. 請求項1〜4のいずれか1項記載の類似発現パターン抽出方法において、前記実験ケースは時系列に沿った実験、異なる種、個体の部位、及び人工的な条件の印加と無印加のうちの複数を複合したものであることを特徴とする類似発現パターン抽出方法。
  9. 請求項1記載の類似発現パターン抽出方法において、検索対象発現パターンの集合の中から複数の検索発現パターンに類似するものをそれぞれ抽出することを特徴とする類似発現パターン抽出方法。
  10. 発現パターンデータを記憶し表示部を備えた処理装置を用い、生体高分子に対する複数の実験ケースと発現量との関係を表す発現パターンどうしを比較して、検索対象生体高分子の中から検索生体高分子と発現において関連を有する生体高分子を抽出する関連生体高分子抽出方法において、
    前記検索対象生体高分子及び前記検索生体高分子の発現パターンに対して実験ケース間での実験環境の違いによる発現データのバラつきを補正する正規化を行う工程と、
    発現量を縦軸にとり実験ケースを横軸にとって、前記検索対象生体高分子の発現パターンの集合を前記表示部の検索対象生体高分子発現パターン表示領域に重ねて表示すると共に、前記検索生体高分子の発現パターンを前記表示部の検索生体高分子発現パターン表示領域に表示する工程と、
    前記検索生体高分子の発現パターンの横軸方向の一部分の区間を選択する工程と、
    前記選択された横軸方向の区間において実験ケース毎に所定量の発現量を前記検索生体高分子の発現パターンに加減することによって前記縦軸方向に一定の幅を持った帯状のパターンを発生する工程と、
    前記検索対象生体高分子発現パターン表示領域内に検索区間を設定する工程と、
    前記帯状のパターンを前記検索対象生体高分子発現パターン表示領域内に設定された前記検索区間内で縦軸及び/又は横軸方向に平行移動しながら、前記帯状のパターンの中にユーザが指定した一定割合以上入る検索対象発現パターンを有する検索対象生体高分子を抽出する工程と、
    前記抽出された検索対象生体高分子の発現パターンの部分と前記検索生体高分子の発現パターンの前記選択された横軸方向の区間との類似度を予め選択された計算方法に従って計算する工程と、
    抽出された前記検索区間における前記検索対象生体高分子の発現パターンと前記選択された区間における前記検索生体高分子の発現パターンを前記表示部にオーバーラップして表示すると共に、抽出した検索対象生体高分子の詳細表示として、発現パターン間の類似度、生体高分子名、及び生体高分子に関する情報を前記計算された類似度の高い生体高分子の順に並び替えて表示する工程と
    を有することを特徴とする関連生体高分子抽出方法。
  11. 請求項10記載の関連生体高分子抽出方法において、前記検索区間内で、前記帯状のパターンを前記縦軸方向又は横軸方向に平行移動しながら前記帯状のパターンの中にユーザが指定した一定割合以上入る検索対象発現パターンを有する検索対象生体高分子を抽出する工程を、前記帯状のパターンを前記横軸方向又は縦軸方向に所定距離だけずらしながら反復することを特徴とする関連生体高分子抽出方法。
  12. 請求項10又は11記載の関連生体高分子抽出方法において、前記生体高分子は遺伝子、DNA、cDNA、RNA、DNA断片又はタンパク質であることを特徴とする関連生体高分子抽出方法。
  13. 請求項10〜12のいずれか1項記載の関連生体高分子抽出方法において、前記実験ケースは時系列に沿った実験であることを特徴とする関連生体高分子抽出方法。
  14. 請求項10〜12のいずれか1項記載の関連生体高分子抽出方法において、前記実験ケースは個体の種別であることを特徴とする関連生体高分子抽出方法。
  15. 請求項10〜12のいずれか1項記載の関連生体高分子抽出方法において、前記実験ケースは個体の部位であることを特徴とする関連生体高分子抽出方法。
  16. 請求項10〜12のいずれか1項記載の関連生体高分子抽出方法において、前記実験ケースは人工的な条件の印加と無印加であることを特徴とする関連生体高分子抽出方法。
  17. 請求項10〜12のいずれか1項記載の関連生体高分子抽出方法において、前記実験ケースは時系列に沿った実験、異なる種、個体の部位、及び人工的な条件の印加と無印加のうちの複数を複合したものであることを特徴とする関連生体高分子抽出方法。
  18. 請求項10記載の関連生体高分子抽出方法において、検索対象生体高分子の集合の中から、複数の検索生体高分子の発現パターンを用いて、前記各検索生体高分子と発現において関連を有するものをそれぞれ抽出することを特徴とする関連生体高分子抽出方法。
JP37143499A 1999-12-27 1999-12-27 類似発現パターン抽出方法及び関連生体高分子抽出方法 Expired - Fee Related JP4298101B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP37143499A JP4298101B2 (ja) 1999-12-27 1999-12-27 類似発現パターン抽出方法及び関連生体高分子抽出方法
EP00125806A EP1113078A1 (en) 1999-12-27 2000-11-24 Methods for extracting similar expression patterns and related biopolymers
US09/739,525 US7277798B2 (en) 1999-12-27 2000-12-14 Methods for extracting similar expression patterns and related biopolymers

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP37143499A JP4298101B2 (ja) 1999-12-27 1999-12-27 類似発現パターン抽出方法及び関連生体高分子抽出方法

Publications (2)

Publication Number Publication Date
JP2001178463A JP2001178463A (ja) 2001-07-03
JP4298101B2 true JP4298101B2 (ja) 2009-07-15

Family

ID=18498715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP37143499A Expired - Fee Related JP4298101B2 (ja) 1999-12-27 1999-12-27 類似発現パターン抽出方法及び関連生体高分子抽出方法

Country Status (3)

Country Link
US (1) US7277798B2 (ja)
EP (1) EP1113078A1 (ja)
JP (1) JP4298101B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1442141A4 (en) * 2001-10-17 2005-05-18 Univ Utah Res Found METHODS FOR IDENTIFYING DIFFERENTIALLY EXPRESSED GENES BY MULTIVARIZABLE ANALYSIS OF MICROPUCLE DATA
US7176719B2 (en) * 2004-08-31 2007-02-13 Micron Technology, Inc. Capacitively-coupled level restore circuits for low voltage swing logic circuits
US7221605B2 (en) * 2004-08-31 2007-05-22 Micron Technology, Inc. Switched capacitor DRAM sense amplifier with immunity to mismatch and offsets
DE102005037921B3 (de) * 2005-08-11 2006-06-14 Dräger Medical AG & Co. KG Temperaturmessvorrichtung mit Funktionsindikator
JP5414286B2 (ja) * 2009-01-16 2014-02-12 株式会社東芝 自動分析装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4852183A (en) * 1986-05-23 1989-07-25 Mitsubishi Denki Kabushiki Kaisha Pattern recognition system
JP3180655B2 (ja) * 1995-06-19 2001-06-25 日本電信電話株式会社 パターンマッチングによる単語音声認識方法及びその方法を実施する装置
JP3551667B2 (ja) 1996-12-04 2004-08-11 株式会社日立製作所 はんだバンプの高さ測定方法
US6950752B1 (en) * 1998-10-27 2005-09-27 Rosetta Inpharmatics Llc Methods for removing artifact from biological profiles
CA2300639A1 (en) * 1999-03-15 2000-09-15 Whitehead Institute For Biomedical Research Methods and apparatus for analyzing gene expression data
US6692916B2 (en) * 1999-06-28 2004-02-17 Source Precision Medicine, Inc. Systems and methods for characterizing a biological condition or agent using precision gene expression profiles

Also Published As

Publication number Publication date
EP1113078A1 (en) 2001-07-04
JP2001178463A (ja) 2001-07-03
US7277798B2 (en) 2007-10-02
US20010016318A1 (en) 2001-08-23

Similar Documents

Publication Publication Date Title
Singh et al. Feature selection of gene expression data for cancer classification: a review
Barrett et al. Mining microarray data at NCBI’s Gene Expression Omnibus (GEO)
US7243112B2 (en) Multidimensional biodata integration and relationship inference
Hamadeh et al. An overview of toxicogenomics
US10275711B2 (en) System and method for scientific information knowledge management
US6303297B1 (en) Database for storage and analysis of full-length sequences
Pagnuco et al. Analysis of genetic association using hierarchical clustering and cluster validation indices
JP2007137887A (ja) 独立下部構造分析を実行するためのコンピュータ・システムの操作方法
JP2011520206A (ja) 医療分析システム
US20040234995A1 (en) System and method for storage and analysis of gene expression data
Fang et al. A binary classifier for prediction of the types of metabolic pathway of chemicals
JP4298101B2 (ja) 類似発現パターン抽出方法及び関連生体高分子抽出方法
US20020169560A1 (en) Analysis mechanism for genetic data
US20020178150A1 (en) Analysis mechanism for genetic data
US7315785B1 (en) Method and system for displaying dendrogram
US6994965B2 (en) Method for displaying results of hybridization experiment
Booma et al. CLASSIFICATION OF GENES FOR DISEASE IDENTIFICATION USING DATA MINING TECHNIQUES.
Krokidis et al. Recent Dimensionality Reduction Techniques for Visualizing High-Dimensional Parkinson’s Disease Omics Data
Shen Bioinformatics and its application: status and prospects
KR100882899B1 (ko) 복제 실험 및 염료 교환 실험의 신뢰도 검증 방법, 유효유전자 검색 방법, 이에스티 기능 검색 방법, 실험용프라이머 정보를 제공하는 데이터베이스 구축 방법 및 그기록매체
Abbas et al. DNA Microarray Data Management and Analysis: A General Framework
Masood et al. Next Generation Sequences Analysis Using Pattern Matching Algorithm
Şener et al. Inferring similarity between time-series microarrays: A content-based approach
JP2002525079A (ja) 遺伝子発現に基づく幾何的および階層的分類
Shon et al. Beyond similarity-based methods to associate genes for the inference of function

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040519

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040927

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20041101

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20050107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080827

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090316

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090415

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120424

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150424

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees