JP2004234580A

JP2004234580A - ゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置

Info

Publication number: JP2004234580A
Application number: JP2003025284A
Authority: JP
Inventors: Tatsuya Shiobara; 立也塩原; Masaru Osabe; 大長部; Hidetoshi Akasaka; 英俊赤坂; Norihiro Kato; 規弘加藤; Kazumoto Yasuda; 和基安田; Kenji Yamamoto; 健二山本; Fumihiko Takeuchi; 史比古竹内
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2003-01-31
Filing date: 2003-01-31
Publication date: 2004-08-19

Abstract

【課題】より精度の高いハプロタイプ解析を効率的におこなうこと。
【解決手段】タイピングプローブリスト（２１４）の情報を、コンセンサス配列データ（２１２）に対して相同性検索し（Ｓ２０４）、その結果に基づいて、多型データの解析をおこない（Ｓ２０５）、解析された結果（２１８，２１９，２２１）を表示し（２０７）、表示された結果（２２０）に基づいて、複数の多型からなるハプロタイプの再構築の指示の入力を受け付け、その指示に基づいておこなわれたハプロタイプの再構築の結果（２１８，２１９，２２１）を表示する（２０７）。
【選択図】図２

Description

【０００１】
【発明の属する技術分野】
この発明は、複数の多型（ＳＮＰ、マイクロサテライト、インサーション、デリーションなど）データからなるハプロタイプの解析を支援するゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置に関する。
【０００２】
【従来の技術】
近年、ゲノムの解析において、『量的形質とのかかわりにおける多型の意義』を研究するにあたり、特定染色体領域の複数の遺伝子多型で構成されるハプロタイプを使用した関連解析（以下ハプロタイプ解析）が注目を集めている。現在ハプロタイプ解析をおこなうパッケージはすでに存在する（たとえば、非特許文献１参照）が、それは多型データを指定して、ハプロタイプを構築・頻度計算から関連解析（データ群間の独立性の検定）を自動的におこなうに留まっている。
【０００３】
研究者が量的形質の感受性遺伝子座を探索する目的で、ＳＮＰをはじめとする遺伝子多型のデータを独自に収集する際、見つかったすべての多型について一様な数の検査集団（疾病であれば罹患群とその対照群）を解析対象とするのは、時間的および経済的に必ずしも効率が良くない。
【０００４】
そこで予備的段階として、ハプロタイプを構築しこれら見つかった多型の一部を取捨選択していくことが有用な戦略と考えられる。すなわち調べようとするゲノム領域（一つないし複数の遺伝子を含む）上の遺伝子多型の、はじめから一部についてのみアレル情報を収集しようとする、いわゆるスクリーニング的な解析においても、またすべての遺伝子多型についてのアレル情報をできるだけ多く収集しようとする、いわゆる網羅的な解析においても、ハプロタイプを構築することによって、量的形質の感受性遺伝子解析という意味で重複した多型データの収集を避けつつ、統計学的検出力を上げられることが大きな利点である。
【０００５】
【非特許文献１】
ＳＮＰ疾患関連解析ソフト「ＳＮＰＡｌｙｚｅｖｅｒ．２．１」（株式会社ダイナコム製）［ｏｎｌｉｎｅ］、［平成１５年１月１６日検索］、インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｗｗｗ．ｄｙｎａｃｏｍ．ｃｏ．ｊｐ／ｐｒｏｄｕｃｔｓ／ｐａｃｋａｇｅ／ｓｎｐａｌｙｚｅ／ｉｎｄｅｘ．ｈｔｍｌ（トップ画面）、ｈｔｔｐ：／／ｗｗｗ．ｄｙｎａｃｏｍ．ｃｏ．ｊｐ／ｐｒｏｄｕｃｔｓ／ｐａｃｋａｇｅ／ｓｎｐａｌｙｚｅ／ａｂｏｕｔ．ｈｔｍｌ（製品情報）、ｈｔｔｐ：／／ｗｗｗ．ｄｙｎａｃｏｍ．ｃｏ．ｊｐ／ｐｒｏｄｕｃｔｓ／ｐａｃｋａｇｅ／ｓｎｐａｌｙｚｅ／ｆｅａｔｕｒｅ．ｈｔｍｌ（特長）＞
【０００６】
【発明が解決しようとする課題】
ここで、ハプロタイプの構築に際しては、効率的な感受性遺伝子解析に資する多型情報、すなわち「どの遺伝子多型の組み合わせを用いれば当該領域の代表的なハプロタイプを構築させることが可能か」を判断することが、戦略上の重要なポイントである。言い換えれば、このような遺伝子多型の「セット」を適宜選択することができ、それらに対して検査集団のサンプル数を増やして、検出能力を上げていくことが効率的な感受性遺伝子解析である。
【０００７】
それには研究者自身が、各々収集した遺伝子多型データを検討し、上述したハプロタイプ構築のための遺伝子多型の「セット」を取捨選択しやすい解析支援ツールを構築することが必要となる。この際、サンプル数、遺伝子多型情報などのＷｅｔ実験データの追加修正に対して良好なインタフェースが要求される。
【０００８】
この発明は上記問題を解決するため、より精度の高いハプロタイプ解析を効率的におこなうことが可能なゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置を提供することを目的とする。
【０００９】
【課題を解決するための手段】
上述した課題を解決し、目的を達成するため、この発明にかかるゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置は、シークエンシングから得られるコンセンサス配列情報を取得し、タイピングプローブ配列情報を取得し、取得されたタイピングプローブ情報を、前記コンセンサス配列情報取得工程によって取得されたコンセンサス配列情報に対して相同性検索することを特徴とする。
【００１０】
これによって、シークエンシングデータとタイピングデータにおいて同じ遺伝子座にある多型データどうしを効率的にリンクさせ、リンク不可だったものに関しては、マニュアルで修正させることができる。
【００１１】
また、相同性検索された結果に基づいて、多型データの解析をおこない、解析された結果を表示するようにしてもよい。具体的には、表示された結果に基づいて、複数の多型からなるハプロタイプの再構築の指示の入力を受け付け、入力が受け付けられた指示に基づいておこなわれたハプロタイプの再構築の結果を表示すようにしてもよい。
【００１２】
また、ハプロタイプを構成する多型の選択、ハプロタイプを構成する多型に対するタグ付け、およびハプロタイプを構成する多型に対するコメントの付記の少なくともいずれか一つをおこなうようにしてもよく、また、入力が受け付けられた指示に基づいておこなわれたハプロタイプ再構築の結果ごとに、バージョンを付与するようにしてもよい。
【００１３】
また、ハプロタイプの再構築がおこなわれるたびに、多型データの多型頻度の決定および多型データのデータ群間の独立性の検定の少なくともいずれかをおこなうようにしてもよい。
【００１４】
これらは、一定の大きさの染色体領域での処理においておこなうようにしてもよく、染色体領域内を、連鎖不平衡係数マトリックスにて表示し、表示されたマトリックス上において、ハプロタイプ構築に用いる多型を選択するようにしてもよい。また、多型に対するコメントの付記の内容に基づいて、すでに構築されたハプロタイプを検索するようにしてもよく、検索された結果をパターン化し、そのパターンを登録するようにしてもよい。
【００１５】
【発明の実施の形態】
以下に添付図面を参照して、この発明にかかるゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置の好適な実施の形態を詳細に説明する。
【００１６】
（ゲノム情報解析支援方法の処理の概要）
この実施の形態にかかるゲノム情報解析支援方法の概要について説明する。
多型（ＳＮＰ、マイクロサテライト、インサーション・デリーション）データ収集にはシークエンシングとタイピングの２手法を用いる。シークエンシングに関しては主にゲノム上の多型位置情報収集、タイピングに関してはそのアレル頻度情報の精度をＵＰさせるためのデータ補充、およびその多型情報の集団別の比較を主な目的としている。また、解析する際には、シークエンシングおよびタイピングデータに加えて、これらを統合させたデータを使用するが、両データの統合は相同性検索を用いることによっておこなう。
【００１７】
上記多型データを元に構築したハプロタイプは、多型情報も含め格納するが、管理方法としては、個々の調査対象となるゲノム領域ごとにバージョン管理をする。格納されたハプロタイプに関しては、遺伝子多型の取捨選択およびシークエンシングおよびタイピングデータのサンプル数の補充をおこなうことで、ハプロタイプを再構築させ、バージョンを更新させることを可能にする。
【００１８】
このように遺伝子多型の『セット』をリファインさせ、その解析結果を一元的にバージョン管理することにより、『量的形質感受性遺伝子のマーカー候補となる多型およびそのハプロタイプ』を探索することを可能にする。
【００１９】
また、このマーカー候補となる多型に関しては、研究者が任意にタグ（Ｔａｇ）付けおよびコメント付記させることで、他の多型と識別ができると同時に、研究者間で情報を共有し閲覧することを可能にする。
【００２０】
多型およびハプロタイプと量的形質との相関性の判断には、分割表による独立性の検定（カイ二乗検定、尤度比検定、フィッシャーの直接確率検定など）をおこなう。特定のハプロタイプとそれ以外のものとの間の独立性検定に加えて、すべてのハプロタイプクラスを組み合わせた検定および、複数のデータ群についての多変量解析の実施も可能にする。
【００２１】
（システムの全体構成）
図１は、この発明の本実施の形態にかかるゲノム情報解析支援方法を実現するシステムの全体構成を示す説明図である。図１において、１００は、ＬＡＮなどのネットワークであり、１０１はサーバであり、１０２は、公共データベース群であり、１０３はＷｅｔ実験データを入力するデータエントリ端末であり、１０４は、クライアント（装置）である。また、１０５はインターネット１５０に接続されたＦ／Ｗ端末装置であり、１０６はルータ（ＬＲ）である。
【００２２】
公共データベース群１０２からの多型情報、標準塩基配列（Ｃｏｎｔｉｇ配列）などの各種情報を、インターネット１５０を経由してサーバ１０１に取り込む。これらのデータは、データエントリ端末１０３によって入力されたＷｅｔ実験結果とともに、クライアント（装置）１０４にインストールされたＷｅｂブラウザによるビューワ（後述するＳＮＰｓビューワ２０７）に表示させることが可能となる。
【００２３】
（システム構成）
つぎに、この発明の本実施の形態にかかるゲノム情報解析支援方法のシステム構成について説明する。図２は、この発明の本実施の形態にかかるゲノム情報解析支援方法を実現するシステムのシステム構成を示す説明図である。図２において、２０１はシークエンシングデータである。ここで、シークエンシングデータ２０１は、ベースコール配列２１１からなる。図３は、ベースコール配列２１１の一例を示す説明図である。図３において、ベースコール配列２１１は、任意にスクリーニングしたゲノム領域のすべての塩基配列に相当するデータである。ベースコール配列２１１は、シークエンシングでは、相補鎖に対して配列を読み取るため、シークエンシングをおこなったサンプル数（人数分）×２本分のファイルが存在する。
【００２４】
ベースコール配列２１１に対して、アライメントを実行する（処理Ｓ２０３）。これによって、各サンプルのベースコール配列２１１を縦にそろえて成型することができる。図４は、シークエンシング配列でのアライメント結果の一例を示す説明図である。アライメントとは、図４にも示すように、各サンプルを縦に成形することである。
【００２５】
アライメントの実行によって、コンセンサス配列データ２１２が得られる。コンセンサス配列データ２１２は、人数分の標準的な塩基配列データである。図５は、コンセンサス配列データ２１２の一例を示す説明図である。図５において示された塩基配列データは、図４の「Ｃｏｎｓｅｎｓｕｓ」の塩基配列データと同一のデータである。
【００２６】
また、アライメントの実行によって、アライメントＳＮＰデータ２１３が得られる。すなわち、アライメントを実行して、配列がそろわないところがＳＮＰになる。その部分をＳＮＰとして抜き出したのがアライメントＳＮＰデータ２１３である。図６は、アライメントＳＮＰデータ２１３の一例を示す説明図である。図６において、縦の項目にサンプルをとり、横の項目にＳＮＰをとり、各欄にはそれぞれのサンプルのＳＮＰに該当する遺伝子型（ジェノタイプ）の種類を入れる。
【００２７】
図４において、実線で囲んだ塩基が、図６に示す『ＳＮＰ＿５ＵＴＲ＿１』に該当する。ここで、サンプルごとに２本分存在するが、２本は同じジェノタイプとなるはずなので、同一であることを確認し、そのジェノタイプをアライメントＳＮＰデータ２１３とする。同一でない場合は、エラー扱いとし、発生状況・エラー内容を格納し、ビューワで表示する。アライメントＳＮＰデータ２１３は、“Ａ”、“Ｇ”、“Ｃ”、“Ｔ”の塩基のほかに、たとえば、「ＴまたはＣ」であれば“Ｙ”とする。
【００２８】
また図２において、２０２はタイピングデータであり、タイピングデータ２０２は、タイピングプローブリスト２１４と、タイピングデータ２１５とからなる。タイピングプローブリスト２１４は、ＳＮＰとなる塩基の前後配列に関するリストである。図７は、タイピングプローブリスト２１４の一例を示す説明図であり、図８は、タイピングデータ２１５の一例を示す説明図である。
【００２９】
図７にも示すように、２つのプローブ（ＶＩＣ、ＦＡＭ）を準備する。たとえば、ＳＮＰ１では、ＶＩＣのプローブの名前が『ＳＮＰ１ａＶ』であり、そのプローブ配列は『ＴＴＧＧＣＡＧＡＡ“Ａ”ＴＧＴＡＡＧＣ』である。一方、ＳＮＰ１の、ＦＡＭのプローブの名前が『ＳＮＰ１ｃＭ』であり、そのプローブ配列は『ＴＧＧＣＡＧＡＡ“Ｃ”ＴＧＴＡＡＧＣ』である。そして、各プローブ配列中に存在する塩基（図７において太文字（上記（“ ”））で示した“Ａ”と“Ｃ”）がＳＮＰである。
【００３０】
図８において、各サンプルは、上記２つのプローブのプローブ配列のどちらに該当するかをチェックし、該当する方のＳＮＰを選択し、その塩基を所定欄に入れる。具体的には、ＳＮＰ１の場合、ＶＩＣのプローブ配列に該当する場合は“Ａ”を、ＦＡＭのプローブ配列に該当する場合は“Ｃ”を、両方に該当する場合は“Ｍ”をそれぞれ図８の該当欄に入れることでタイピングデータ２１５が完成する。
【００３１】
つぎに、コンセンサス配列データ２１２とタイピングプローブリスト２１４との相同性検索をおこなう（処理Ｓ２０４）。図９は、コンセンサス配列データ２１２とタイピングプローブリスト２１４のプローブ配列の相同性検索の内容を示す説明図である。図９において、コンセンサス配列データ２１２とタイピングプローブリスト２１４のプローブ配列を縦に並べて、両者の配列を比較する。これによって、コンセンサス配列データ２１２上のタイピングＳＮＰの位置は判明し、シークエンシングＳＮＰとタイピングＳＮＰとのリンクが得られる。
【００３２】
このように、相同性検索によって、リンク付けテーブル２１６が得られる。図１０は、リンク付けテーブル２１６の一例を示す説明図である。図１０において、リンク付けテーブル２１６は、「統合ＳＮＰ−ＩＤ」項目１００１、「シークエンシングＳＮＰ−ＩＤ」項目１００２、「遺伝子名」項目１００３、「アレル（シークエンシング）」項目１００４、「遺伝子上のＳＮＰ位置」１００５、「相同性検索結果」項目１００６、「タイピングＳＮＰ−ＩＤ」項目１００７、「アレル（タイピング）」項目１００８の各項目からなる。
【００３３】
ここで、「統合ＳＮＰ−ＩＤ」項目１００１、「シークエンシングＳＮＰ−ＩＤ」項目１００２、「遺伝子名」項目１００３、「アレル（シークエンシング）」項目１００４、「遺伝子上のＳＮＰ位置」１００５は、シークエンシングから由来するものであって、一方、「タイピングＳＮＰ−ＩＤ」項目１００７、「アレル（タイピング）」項目１００８はタイピングから由来するものである。「相同性検索結果」項目１００６は、数値が高いほど類似性が強い。また、「アレル（シークエンシング）」項目１００４および「アレル（タイピング）」項目１００８は相違しない。
【００３４】
アライメントが実行されたシークエンシングデータ２０１と、タイピングデータ２１５およびリンク付けテーブル２１６から、ＳＮＰ−ＩＤ統合データ２１７が得られる。図１１は、ＳＮＰ−ＩＤ統合データ２１７の一例を示す説明図である。図１１において、「Ｓａｍｐｌｅ＿１」から「Ｓａｍｐｌｅ＿４８」までがシークエンシングデータ２０１であり、「Ｓａｍｐｌｅ＿４９」から「Ｓａｍｐｌｅ＿１１３’」までがタイピングデータ２０２である。
【００３５】
つぎに、アレル頻度・Ｄ’・ｒ^２（連鎖不平衡）計算、およびハプロタイプツールインプットファイルの準備をおこなう（処理Ｓ２０５）。アレル頻度の計算によってアレル頻度データ２１８が得られる。アレル頻度は、集団内における出現頻度であり、ある群種内での、そのＳＮＰの２つの塩基の存在比率である。この頻度は人種などで大きく変化することはわかっているため、群種間での頻度の差が、人種・疾患の有無を決定する確率は高いと考えられる。図１２は、アレル頻度データ２１８の一例を示す説明図である。
【００３６】
図１２において、アレル頻度データ２１８には、ＳＮＰごとに、ＳＮＰにかかる塩基情報、その塩基の頻度情報（パーセント）、遺伝子上の位置情報（エクソンまたはイントロンあるいは別の位置に存在するか）を含むデータからなる。具体的には、アレル頻度データ２１８は、ＳＮＰ−ＩＤ（ＩＭＣＪＩＤ）項目１２０１、シークエンシングＩＤ（ＣａｔａｌｏｇＩＤ）項目１２０２、物理位置（ＮＴＰｏｓｉｔｉｏｎ）項目１２０３、標準塩基（ＮＴ）項目１２０４、アレル（ＳＥＱ）項目１２０５、アレル頻度（Ｆｒｅｑｕｅｎｃｙ）項目１２０６、遺伝子上位置（Ｌｏｃａｔｉｏｎ）項目１２０７、アミノ酸（ＡｍｉｎｏＡｃｉｄ）項目１２０８、公共ＤＢ登録ＩＤ（ｄｂ−ＳＮＰ１２０９、ＨＧＶｂａｓｅ１２１０、ＴＳＣ１２１１、ＪＳＮＰ１２１２など）項目の各項目からなる。
【００３７】
また、Ｄ’・ｒ^２の計算によってＤ’・ｒ^２結果データ２１９が得られる。連鎖不平衡は、ある座位とその周辺の座位間にて、連鎖の強さが一律でない現象であり、その尺度であるＤ’・ｒ^２は、それぞれ特徴をもち、この値を元に、その領域は組換えを起こさないで、纏まって遺伝されるか否かを判断できる。ある疾患感受性を規定する部位においては、この部位と連鎖の強いＳＮＰが存在することが考えられる。したがってＳＮＰどうしの連鎖不平衡係数を網羅的に調べることで、ゲノム上で連鎖不平衡にある領域がわかり、これはハプロタイプ解析に有用な情報を与えることができる。図１３は、Ｄ’・ｒ^２結果データ２１９の一例を示す説明図である。図１３において、右上半分がＤ’の結果データである、左下半分がｒ^２の結果データである。ここでｒ^２に関しては、『１．００』が連鎖がもっとも強い。
【００３８】
また、図１４は、ハプロタイプインプットファイル２２０の一例を示す説明図である。図１４において、縦の項目にサンプルをとり、横の項目に各サンプルを構成するＳＮＰをとり、各欄にはそれぞれのサンプルのＳＮＰに該当する塩基の種類を入れる。このＳＮＰ（ＳＮＰ＿００００１〜ＳＮＰ＿００００９）がハプロタイプを構成する。このハプロタイプインプットファイル２２０を用いて、計算ツールを実行する（処理Ｓ２０６）。その結果、ハプロタイプ頻度結果２２１と、ハプロタイプバージョンデータ２２２とが得られる。
【００３９】
図１５は、ハプロタイプ頻度結果２２１の一例を示す説明図である。図１５において、ハプロタイプ頻度結果２２１は、ハプロタイプと、その頻度に関する情報からなる。図１５においては、ハプロタイプ“ＣＣＣＴＣＡＧＣＣ”が頻度『０．６９５６５２』で最も高いことがわかる。
【００４０】
図１６は、ハプロタイプバージョンデータ２２２の一例を示す説明図である。図１６において、ハプロタイプバージョンデータ２２２は、メジャーバージョン（ＭａｊｏｒＤｉｖｉｓｉｏｎ）項目１６０１と、マイナーバージョン（ＭｉｎｏｒＤｉｖｉｓｉｏｎ）項目１６０２と、コメント（Ｃｏｍｍｅｎｔ）項目１６０３と、ハプロタイプ頻度計算ツール（Ｐｒｏｇｒａｍ）項目１６０４と、ＳＮＰ−ＩＤ項目１６０５とからなる。ＳＮＰ−ＩＤ項目１６０５は、当該ハプロタイプにおいて選択したＳＮＰに関する情報が格納されている。その際、タグ付けしたＳＮＰを、タグの色を指定して明記する。
【００４１】
アレル頻度データ２１８、Ｄ’・ｒ^２結果データ２１９およびハプロタイプ頻度結果２２１を、ＳＮＰｓビューワ２０７を用いて表示する。ＳＮＰｓビューワ２０７には、ＳＮＰｓビューワデータ２３１、ＳＮＰｓテーブルデータ２３２、ハプロタイプインフォメーションデータ２３３などの各種データを備える。
【００４２】
ＳＮＰｓビューワ２０７上からＳＮＰｓ選択を手動でおこなうか、もしくはある指示に基づいて自動でおこなう（処理Ｓ２０８）、その処理によっても、ハプロタイプインプットファイル２２０が得られる。このハプロタイプインプットファイル２２０も用いて、計算ツールを実行する（処理Ｓ２０６）。
【００４３】
このようにして、Ｗｅｔ実験データの取り込み処理をおこない、これら取り込まれたデータはサーバ１０１内の管理フォルダにそれぞれ格納される。このフォルダに新規に格納されたデータファイルに関しては、定期的な自動処理により、アノテーション・多型データリンク・統計解析が実施される。
【００４４】
（データ処理の内容）
図１７は、この発明の本実施の形態にかかるゲノム情報解析支援方法の処理の内容を示すフローチャートである。図１７のフローチャートにおいて、公共データベースからの情報をダウンロードし（ステップＳ１７０１）、公開ＳＮＰ情報をマッピングし（ステップＳ１７０２）、ＳＮＰｓビューワ２０７の表示イメージにプロットする（ステップＳ１７０３）。同様に、タンパク質活性部位情報をマッピングし（ステップＳ１７０４）、ＳＮＰｓビューワ２０７の表示イメージにプロットする（ステップＳ１７０５）。
【００４５】
また、シークエンシングデータに関しては、公共データベースから取り込み（ステップＳ１７０６）、取得したＣｏｎｔｉｇ配列に対して、アライメントを実行する（ステップＳ１７０７）。これによって、コンセンサス配列データ２１２を決定するとともに、多型のゲノム上の位置情報（アライメントＳＮＰデータ２１３）を決定する（ステップＳ１７０８）。また、プローブリストを取り込み（ステップＳ１７０９）、コンセンサス配列データ２１２との間で相同性検索によるリンク付けをおこなう（ステップＳ１７１０）。
【００４６】
これによって、プローブリストをシークエンシングデータにリンクさせる。このプローブ配列はコンセンサス配列内の多型が存在する領域をカバーするように設計されているので、多型が含まれている配列領域で相同性が一番高くなる確率は極めて高い。
【００４７】
さらに、タイピングデータ２１５を取り込み（ステップＳ１７１１）、各ＳＮＰのアレル情報の統合をおこない（ステップＳ１７１２）、アレル頻度計算、ＬＤ計算をおこなう（ステップＳ１７１３）。アレル情報は、ＳＮＰｓビューワ２０７の表示イメージにおいて、所望の位置を指定するだけで、ポップアップ画面により表示される。また、シークエンシング領域をマッピングし（ステップＳ１７１４）、ＳＮＰｓビューワ２０７の表示イメージにプロットする（ステップＳ１７１５）。同様に、各種統計解析（アレル頻度計算、連鎖不平衡解析など）を実施し、ＳＮＰ位置をマッピングし（ステップＳ１７１６）、ＳＮＰｓビューワ２０７の表示イメージにプロットする（ステップＳ１７１７）。
【００４８】
このようにして、処理されたデータは、ＳＮＰｓビューワ２０７上において一元的に管理する。操作者は、ＳＮＰｓビューワ２０７を用いてハプロタイプ解析をおこなう（ステップＳ１７１８）。
【００４９】
（ＳＮＰｓビューワの内容）
つぎに、ＳＮＰｓビューワ２０７の内容について説明する。上記処理されたデータの結果はビューワ上で参照することができる。図１８は、ＳＮＰｓビューワの表示画面の一例を示す説明図である。図１８において、ＳＮＰｓビューワ２０７は、塩基の物理位置の情報を水平向の直線上に表すことによって、Ｍａｐ表示している。「Ａｇｇｒｅｇａｔｅ」１８０１は、ＳＮＰ位置に対する公共ＤＢ群１０２および独自データなどを色分けして表示する。このようにして、既知の情報と独自に見い出した情報などとを区別して表示でき、確認作業を効率的におこなうことができる。また、「Ｃｏｎｔｉｇ」１８０２は、各ＳＮＰデータを統合表示する。これによって、ＳＮＰの存在位置の分布状況を容易に把握することができる。
【００５０】
また、チェックボックス１８０３は、人種ごとにＳＮＰｓ情報を表示させるか否かを選択するものである。図１８では、すべてのチェックボックス１８０３にチェックがなされているので、すべての人種のＳＮＰｓ情報を表示させる設定となっている。また、レンジ入力欄１８０４には、現在表示されているゲノム情報の範囲（レンジ）が表示されている。この表示されている内容を変更することによって、表示されるゲノム情報の範囲を容易に変更することができる。
【００５１】
また、ハプロタイプの対象となるＳＮＰｓを上記「Ａｇｇｒｅｇａｔｅ」１８０１、「Ｃｏｎｔｉｇ」１８０２と垂直方向の物理位置を一致させるように、水平方向の直線上に表示する（「ＨａｐｌｏＴｙｐｅ」１８０６）。「ＨａｐｌｏＴｙｐｅ」１８０６において、○印で表示されているのがハプロタイプの対象となるＳＮＰであり、矩形で表示されている部分がタンパク質活性部位情報である。このように、ハプロタイプは、ユーザーが設定したＳＮＰ選択条件に基づいて、データが得られた時点およびデータがリンクされた時点において、頻度計算がおこなわれ、新規にバージョンが割り振られ格納される。
【００５２】
また、ハプロタイプは複数表示による比較が可能であり、バージョンを指定することで選択表示が可能である。図１８では３種類のバージョンを同時に表示させることができるが、３種類に限定されるものではない。これによって、画面切り替えなどの操作をすることなく、異なるバージョンを容易に比較することができる。また、ハプロタイプ選択欄１８０５は、右端の下矢印部分を押下することによって、すでに登録されているバージョン情報を一覧表示し、その中から所望のバージョンを選択する。そうすることによって、任意のバージョンのハプロタイプを構築するのに使用したＳＮＰｓ情報を直線上に表示する。
【００５３】
一連のハプロタイプ構築から表示の処理は、データが得られた時点およびデータがリンクされた時点において、ユーザーが設定したＳＮＰ選択条件に基づいて、おこなわれる。
【００５４】
また、ポインタ１８０７を合わせることによって、「Ａｇｇｒｅｇａｔｅ」１８０１、「Ｃｏｎｔｉｇ」１８０２、「ＨａｐｌｏＴｙｐｅ」１８０６の各直線上の所望の位置を指定すると、当該位置に存在するＳＮＰ情報の詳細内容を図１９に示すようなポップアップ画面１９００によって表示する。図１９は、ＳＮＰ情報の詳細内容を表示した表示画面（ポップアップ画面）の一例を示す説明図である。図１９において、ポップアップ画面１９００は、当該ＳＮＰのＩＤ情報、物理位置の情報のほか、人種別のアレル頻度情報などを表示する。たとえば、『ＪＰ』は日本人（Ｊａｐａｎｅｓｅ）、『ＣＡ』は白人（Ｃａｕｃａｓｉａｎ）、『ＡＡ』は黒人（Ａｆｒｉｃａｎ−Ａｍｅｒｉｃａｎ）のアレル頻度情報を示している。
【００５５】
また、ＳＮＰｓビューワ２０７には、図１８に示した情報に加えて、３種類表示することができるハプロタイプのうち、一番上のハプロタイプのバージョンの詳細情報を同時に表示することができる。図２０は、ＳＮＰｓビューワの表示画面の別の一例を示す説明図である。図２０において、表示画面の下側に、上記バージョンの詳細情報を同時に表示する。
【００５６】
このバージョンの詳細情報において、ハプロタイプを再構築することができる。具体的には、「Ｃｈｅｃｋ」ボックス欄２００１にチェックすることによって、再構築に使用するＳＮＰを選択する。また、「Ｔａｇ」入力欄２００２には、タグの表示色を選択指定することができる。これによって、関連性があるＳＮＰどうしを同一色にするなどして、解析をより効率的におこなうことができる。
【００５７】
また、「ＣＯＭＭＥＮＴ」入力欄２００３には、再構築したハプロタイプの趣旨、たとえば、どのような理由によってそのような再構築をしたか、あるいはどのような効果をねらったものか、など、再構築をおこなった操作者（研究者）のコメントを入力することができる。入力されたコメントは、再構築されたハプロタイプのあらたなバージョン情報としてあわせて格納される。
【００５８】
また、「Ｒｅｃｏｎｓｔｒｕｃｔｉｏｎ」ボタン２００４が押下されることによって、再構築された内容で計算の実行がなされる。再構築されたハプロタイプは新しいバージョン番号で登録する、もしくは上書き更新が可能である。ラジオボタン「Ｖｅｒｓｉｏｎ」２００５が選択されると、メジャーバージョンとして登録され、ラジオボタン「Ｍ−ｖｅｒｓｉｏｎ」２００６が選択されると、マイナーバージョンとして登録され、ラジオボタン「Ｕｐｄａｔｅ」２００７が選択されると、上書き保存する。
【００５９】
さらに、ツールの運用を選択させたり、使用するデータの実験由来を選択させたりすることもできる。たとえば、ラジオボタン「ＢｏｔｈＤａｔａ」２００８が選択されると、シークエンシングデータとタイピングデータの両方を用いることを示している。
【００６０】
また、Ｄ’・ｒ^２の結果もあわせて参照することができる。図２１は、ＳＮＰ情報の詳細内容を表示した表示画面（ポップアップ画面）の別の一例を示す説明図であり、Ｄ’・ｒ^２の結果を示した画面である。図２１に示した表示画面２１００において、再構築に使用するＳＮＰをチェックボックス２１０１を用いて選択することができる。このように、ＳＮＰｓビューワ２０７上でハプロタイプを再構築することが可能である。すでに構築され格納されているハプロタイプに対して、連鎖不平衡解析結果・アレル頻度を参照することによって、再度ＳＮＰ『セット』の選択・タグ付け・データ群選択・頻度計算方法の選択が可能となる。
【００６１】
また、ＳＮＰ選択は、ゲノム領域規模での連鎖不平衡係数表示画面上でおこなうことも可能である。図２２は、ＳＮＰｓビューワの表示画面の別の一例を示す説明図であり、特定染色体領域でのＳＮＰ選択画面である。図２２に示す表示画面２２００において、２２０１は染色体を模式的に示した図であり、この図の任意の一部の領域２２０２がクリックによって指定されることによって、その領域部分の詳細な塩基配列情報２２０３を染色体模式図２２０１の下側に表示する。この塩基配列情報２２０３のうちの解析領域がポインタ２２０４によってドラッグされることによってその解析領域に関する詳細な情報が、図２３に示すように表示される。
【００６２】
また、ズームボタン２２０５が用いられることによって、ズームインおよびズームアウトを容易におこなわせることもできる。また、遺伝子リストにリンクしており、「ＧｅｎｅＬｉｓｔ」部分２２０６がクリックされることによって、遺伝子リストを表示することもできる。
【００６３】
図２３は、ＳＮＰｓビューワの表示画面の別の一例を示す説明図である。図２３において、図２２に示した染色体上の任意の一部の領域２２０３が選択された場合に、この領域２２０３上に存在するすべての多型の連鎖不平衡係数マトリックス２３０１を表示する。このマトリックス２３０１上でハプロタイプ構築に用いる多型を任意に選択し、解析を実行することができる。具体的には、このマトリックス２３０１上で、ＬＤブロック２３０２をドラッグする。これによって、ハプロタイプ解析対象となるＳＮＰを選択することができる。選択されたＳＮＰは、表示画面の下側にその詳細な情報を表示する。
【００６４】
また、マトリックス２３０１上で、ポインタ２３０３を合わせると、合わせた位置に存在するＳＮＰ情報が表示される。ＳＮＰ情報は、たとえば、表示画面２３０４をポップアップすることによって表示することができる。
【００６５】
図２４は、ＳＮＰｓビューワの表示画面の別の一例を示す説明図であり、ハプロタイプ再構築の結果を表示している。図２４に示すＳＮＰｓビューワ２０７おいて、２４００が再構築されたバージョンであり、その表示項目としては、「Ｈａｐｌｏｔｙｐｅ」項目２４０１には構築されたハプロタイプを表示する。また、「Ｇｒｏｕｐ１」２４０２、「Ｇｒｏｕｐ２」２４０３には、ハプロタイプ頻度に関する情報を表示する。また、「χ２−ｖａｌｕｅ」項目２４０４、「Ｐ−ｖａｌｕｅ」項目２４０５、「ＬＲＴ」項目２４０６、「ＬＲＴＰ−ｖａｌｕｅ」項目２４０７には、各種独立性検定結果を表示する。
【００６６】
タグ付けされた多型はＭａｐ上に色別表示され、その色に対するコメントも表記できるので、ＳＮＰの位置付け、頻度の高低などを参照することができる。また、異なるデータ群間（たとえば健常者−罹患者など）で独立性の検定結果を表示する。検定方法としては、カイ二乗検定・尤度比検定・フィッシャーの直接検定などをおこない、検定値・Ｐ値を表示させる。またこの検定は、特定のハプロタイプの有無、すべてのハプロタイプクラス、群種情報を含んだ多変量解析に対応することができる。さらに特定値以上または以下の検定結果に対してソートをかけることや、サンプルを群間でランダムに入れ替え、ｅｍｐｉｒｉｃａｌＰ−ｖａｌｕｅにより信頼できるＰ−ｖａｌｕｅをシミュレーションすることもできる。
【００６７】
操作者（研究者）はこの結果に基づいて、データ群の形質とハプロタイプ間の相関性を評価する。また、多型頻度に関しても同様に独立性検定が可能である。ハプロタイプバージョン管理は、遺伝子単位もしくは、それを複数含むゲノム領域で管理する。バージョンデータでは、各バージョンに対して、構築した日付、コメント（ＳＮＰ選択パターンを選んだ時は、そのパターン番号）、計算ツール名、使用したＳＮＰ、そのタグおよび独立性検定結果を記載し、格納することができる。
【００６８】
また図２５は、ＳＮＰ選択パターンの検索画面の一例を示す説明図である。図２５に示す検索画面２５００において、２５０１は「ＣｏｍｍｅｎｔＫｅｙＷｏｒｄ」入力欄であり、この入力欄２５０１にＳＮＰ選択パターン（ハプロタイプ）に付けられていることが予想されるコメントのキーワードを入力させる。図２５においては、『ｒ^２＞０．５のブロックで構成したハプロタイプ』というキーワードが入力されている。
【００６９】
キーワードが入力され「Ｓｅａｒｃｈ」ボタン２５０２が押下されると、検索処理を開始する。検索処理には、公知の自然言語処理による類似検索などを用いる。そして、検索結果を検索結果表示領域「Ｒｅｓｕｌｔ」２５０３に表示する。検索結果としては、コメントの内容、ＳＮＰ選択パターン（ハプロタイプ）のバージョン情報、構築日時などを表示する。また、表示内容をクリックすることによって、ＳＮＰｓビューワ２０７に当該ハプロタイプの内容を表示することができる。この検索結果は、ＳＮＰ選択パターンとしてパターン化することができる。このパターン化された検索結果は図２６に示すように表示することができる。
【００７０】
図２６は、ＳＮＰ選択パターンの登録・実行画面の一例を示す説明図である。図２６に示す登録・実行画面２６００において、表示したパターンのうちのいずれかをラジオボタン２６０１によって選択し、その後、「Ｒｅｇｉｓｔｒａｔｉｏｎ」ボタン２６０２が押下されることによって、選択されたパターンの登録処理をおこなう。また、「Ｅｘｅｃｕｔｉｏｎ」ボタン２６０３が押下されることによって、選択されたパターンの算出処理を実行し、ＳＮＰｓビューワ２０７に算出結果の詳細な情報を表示する。
【００７１】
このように、入力したキーワードを、各遺伝子（ゲノム領域）のコメントに対して検索をおこない、ヒットしたバージョンを表示させることが可能である。また自動頻度計算をおこなう際のＳＮＰ自動選択は、ユーザーが登録作成したＳＮＰ選択パターン（統計結果、サンプル数、データマイニングによる結合規則・クラスタリング）を選択する。したがって、ある領域で有意性が得られたＳＮＰ選択条件を登録し、この条件を調査対象とするほかの遺伝子・ゲノム領域への適用をおこない、ハプロタイプを構成するＳＮＰを自動選択することができる。またここで自動選択されたＳＮＰ群に対して、ユーザーが任意にＳＮＰを追加削除することもできる。
【００７２】
また、この一連の検索を疾患感受性遺伝子探索としておこなった場合に、その思考プロセスを、該当するすべてのバージョンを含んだ系統樹表示することが可能である。図２７は、ハプロタイプバージョンの管理画面の一例を示す説明図である。図２７に示す管理画面２７００において、矩形は、バージョン名を示し、楕円はバージョン変更にかかるコメントを示している。
【００７３】
たとえば、ＳＮＰ１を削除することで（「ＳＮＰ１Ｄｅｌｅｔｅ」２７０３）、「Ｖｅｒ．１．００」２７０１から「Ｖｅｒ．１．０１」２７０２へ変更している。また、あらたなデータを追加することで（「Ｄａｔａａｄｄ」２７０５）、「Ｖｅｒ．１．００」２７０１から「Ｖｅｒ．３．００」２７０４へ変更している。このように、ハプロタイプのバージョンをツリー表示することによって、ハプロタイプの構築の流れを容易にかつ効率的に知らしめることができる。
【００７４】
また図２８は、図２７に示した「Ｖｅｒ．１．０２」２７０６のハプロタイプ進化系統樹を示している。図２８の進化系統樹２８００において、「ＡＧＧ＿００００１２」は、「ＡＡＧＧＣＴ」が８４．３８％、で「ＧＧＡＡＴＣ」が残りの１５．６２％となり、「ＧＧＡＡＴＣ」のうち、「ＡＧＡＡＴＣ」と進化したのが２．０８％で、「ＧＧＡＡＴＣ」と進化したのが残りの１３．５４％となり、さらにそのうち「ＧＧＡＡＴＣ」と進化したのが１１．４６％となり、「ＧＧＧＧＴＣ」と進化したのが２．０８％となる。このように、個々のバージョンを選択することによって、個々のバージョンにおけるハプロタイプの進化的関係をツリー図にて表示することができる。
【００７５】
（ゲノム情報解析支援装置のハードウエア構成）
つぎに、この発明の本実施の形態にかかるゲノム情報解析支援装置のハードウエア構成について説明する。図２９は、この発明の本実施の形態にかかるゲノム情報解析支援装置のハードウエア構成の一例を示すブロック図である。
【００７６】
図２９において、ゲノム情報解析支援装置は、ＣＰＵ２９０１と、ＲＯＭ２９０２と、ＲＡＭ２９０３と、ＨＤＤ２９０４と、ＨＤ２９０５と、ＦＤＤ（フレキシブルディスクドライブ）２９０６と、着脱可能な記録媒体の一例としてのＦＤ（フレキシブルディスク）２９０７と、ディスプレイ２９０８と、Ｉ／Ｆ（インタフェース）２９０９と、キーボード２９１０と、マウス２９１１と、スキャナ２９１２と、プリンタ２９１３と、を備えている。また、各構成部はバス２９００によってそれぞれ接続されている。
【００７７】
ここで、ＣＰＵ２９０１は、画像処理装置の全体の制御を司る。ＲＯＭ２９０２は、ブートプログラムなどのプログラムを記憶している。ＲＡＭ２９０３は、ＣＰＵ２９０１のワークエリアとして使用される。ＨＤＤ２９０４は、ＣＰＵ２９０１の制御にしたがってＨＤ２９０５に対するデータのリード／ライトを制御する。ＨＤ２９０５は、ＨＤＤ２９０４の制御で書き込まれたデータを記憶する。
【００７８】
ＦＤＤ２９０６は、ＣＰＵ２９０１の制御にしたがってＦＤ２９０７に対するデータのリード／ライトを制御する。ＦＤ２９０７は、ＦＤＤ２９０６の制御で書き込まれたデータを記憶したり、ＦＤ２９０７に記録されたデータを情報処理装置へ読み取らせたりする。着脱可能な記録媒体として、ＦＤ２９０７のほか、ＣＤ−ＲＯＭ（ＣＤ−Ｒ、ＣＤ−ＲＷ）、ＭＯ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、メモリーカードなどであってもよい。ディスプレイ２９０８は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。たとえば、ＣＲＴ、ＴＦＴ液晶ディスプレイ、プラズマディスプレイなどである。
【００７９】
Ｉ／Ｆ（インタフェース）２９０９は、通信回線を通じてＬＡＮやインターネットなどのネットワーク１５０に接続され、ネットワーク１５０を介して、他のサーバや情報処理装置に接続される。そして、Ｉ／Ｆ２９０９は、ネットワーク１５０と内部とのインタフェースを司り、他のサーバや情報端末装置からのデータの入出力を制御する。Ｉ／Ｆ２９０９は、たとえばモデムなどである。
【００８０】
キーボード２９１０は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。タッチパネル式の入力パッドやテンキーなどであってもよい。マウス２９１１は、カーソルの移動や範囲選択、あるいはウインドウの移動やサイズの変更などをおこなう。ポインティングデバイスとして同様の機能を備えるものであれば、トラックボール、ジョイスティックなどであってもよい。
【００８１】
スキャナ２９１２は、ドライバ画像などの画像を光学的に読み取り、ゲノム情報解析支援装置内に画像データを取り込む。さらにＯＣＲ機能も備えており、ＯＣＲ機能によって、印刷された情報を読み取ってデータ化することもできる。また、プリンタ２９１３は、輪郭画像情報などの画像データや文書データを印刷する。たとえば、レーザプリンタ、インクジェットプリンタなどである。
【００８２】
以上説明したように、本実施の形態によれば、シークエンシングから得られるコンセンサス配列情報を取得し、タイピングプローブ配列情報を取得し、タイピングプローブ情報を、コンセンサス配列情報に対して相同性検索するため、シークエンシングデータとタイピングデータにおいて同じ遺伝子座にある多型データどうしを効率的にリンクさせ、リンク不可だったものに関しては、マニュアルで修正させることができる。
【００８３】
また、本実施の形態によれば、相同性検索された結果に基づいて、多型データの解析をおこない、解析された結果を、公開された多型データと比較して表示するため、多型のアノテーション結果について、リファレンス配列（Ｃｏｎｔｉｇ配列など）をはじめとする公共ＤＢからの情報に対して、多型位置、種類、既報の多型との異同を確認することができる。またシークエンシングでのスクリーニング領域の表示もおこなうことができ、これら結果を、研究者がＬＡＮ内の端末（クライアント１０４）からＷｅｂブラウザ上のＳＮＰｓビューワ２０７を介し閲覧可能となる。
【００８４】
また、本実施の形態によれば、ＳＮＰｓビューワ２０７に表示された結果に基づいて、複数の多型からなるハプロタイプの再構築の指示（ハプロタイプを構成する多型の選択、ハプロタイプを構成する多型に対するタグ付け、およびハプロタイプを構成する多型に対するコメントの付記など）の入力を受け付け、ＳＮＰｓビューワ２０７に、入力が受け付けられた指示に基づいておこなわれたハプロタイプの再構築の結果を表示するため、タグ付けした多型を色別表示したハプロタイプに対して各データ群の頻度情報をテーブル表示し、データ群の比較が可能となる。またヒストグラムを表示することも可能である。位置情報に関しては、アノテーション結果に重ねてマップすることによって、ＳＮＰの種類（ｓｉｌｅｎｔ・ｃｏｄｉｎｇ・ｒｅｇｕｌａｔｏｒｙ・ｉｎｔｒｏｎなど）を判別することができる。
【００８５】
また、本実施の形態によれば、入力された指示に基づいておこなわれたハプロタイプ再構築の結果ごとに、バージョンを付与するため、付与されたバージョンに基づいてバージョン管理をおこなうことができる。したがって、再構築したハプロタイプ情報格納の際には、バージョン更新または、新規登録の選択が可能である。また格納したデータは、バージョンを指定することにより、再表示が可能である。そのハプロタイプに対してさらに再構築をおこなうことも可能である。
【００８６】
また、再構築を繰り返すことによって、遺伝子多型の『セット』をリファインさせ、その解析結果を一元的にバージョン管理することで、『量的形質感受性遺伝子のマーカー候補となる多型およびそのハプロタイプ』を探索することができる。この一連の疾患感受性遺伝子探索をおこなった思考プロセスを該当するすべてのバージョンのすべてのハプロタイプの関係図を表示することで、ハプロタイプ解析全体としての解析フローの表示が可能となる。
【００８７】
また、本実施の形態によれば、ハプロタイプの再構築がおこなわれるたびに、多型データの多型頻度の決定および多型データのデータ群間の独立性の検定の少なくともいずれかをおこない、さらに、独立性の決定または多型頻度の決定をおこなう際に、各多型データの並び替えをするため、データ群間の独立性の検定（たとえば、カイ二乗検定など）結果に関しては、ハプロタイプが再構築されるたびに、自動的に再検定が実施され、特定値以上または以下に対してソートをかけることができ、ハプロタイプ解析のための情報を効率的に収集することができる。。また多型頻度に対しての検定もおこなうことができる。これは、多型が単点（１つのＳＮＰ）の場合でも同様におこなうことができる。
【００８８】
また、本実施の形態によれば、ＳＮＰ選択からハプロタイプ構築までの上記処理を、一定の大きさの染色体領域での処理においてもおこなうことができるため、遺伝子単位での処理に加え、ゲノムワイドすなわち一定の大きさの染色体領域での処理が可能である。また、染色体領域内を、連鎖不平衡係数マトリックス表示し、表示されたマトリックス表示上において、ハプロタイプ構築に用いる多型を選択するため、染色体上のあるゲノム領域をユーザーが任意に選択し、このゲノム領域内を、連鎖不平衡係数マトリックスで色分け表示し、画面上でハプロタイプ構築に用いる多型の選択をおこなうことが可能である。またゲノム領域表示画面内に、遺伝子領域の表示をおこない、各遺伝子単位のハプロタイプ構築画面へのリンク遷移が可能となる。
【００８９】
また、多型に対するコメントの付記の内容に基づいて、すでに構築されたハプロタイプを検索し、さらに、検索された結果をパターン化し、登録するため、格納したバージョンを研究者が付記したコメントからのマイニングによる検索、および多型選択条件（統計結果、データマイニングによる結合規則・クラスタリング）の登録が可能となり、この条件を調査対象とするほかのゲノム領域への適用をおこない、ハプロタイプを構成する多型の自動選択をおこなうことができる。またこの自動選択した多型群に対して、研究者が任意に多型の追加削除をおこなうことができる。
【００９０】
なお、本実施の形態におけるゲノム情報解析支援方法は、あらかじめ用意されたコンピュータ読み取り可能なプログラムであってもよく、またそのプログラムをサーバ１０１を含むパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現される。このプログラムは、ＨＤ、ＦＤ、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、このプログラムは、インターネット１５０などのネットワークを介して配布することが可能な伝送媒体であってもよい。
【００９１】
（付記１）シークエンシングから得られるコンセンサス配列情報を取得するコンセンサス配列情報取得工程と、
タイピングプローブ配列情報を取得するタイピングプローブ情報取得工程と、
前記タイピングプローブ情報取得工程によって取得されたタイピングプローブ情報を、前記コンセンサス配列情報取得工程によって取得されたコンセンサス配列情報に対して相同性検索する相同性検索処理工程と、
を含んだことを特徴とするゲノム情報解析支援方法。
【００９２】
（付記２）前記相同性検索工程によって検索された結果に基づいて、多型データの解析をおこなう多型データ解析工程と、
前記多型データ解析工程によって解析された結果を表示する第１の表示工程と、
を含んだことを特徴とする付記１に記載のゲノム情報解析支援方法。
【００９３】
（付記３）前記第１の表示工程は、前記多型データ解析工程によって解析された結果を、公開された多型データと比較して表示することを特徴とする付記２に記載のゲノム情報解析支援方法。
【００９４】
（付記４）前記第１の表示工程によって表示された結果に基づいて、複数の多型からなるハプロタイプの再構築の指示の入力を受け付ける入力工程と、
前記入力工程によって入力が受け付けられた指示に基づいておこなわれたハプロタイプの再構築の結果を表示する第２の表示工程と、
を含んだことを特徴とする付記２または３に記載のゲノム情報解析支援方法。
【００９５】
（付記５）前記入力工程は、ハプロタイプを構成する多型の選択、ハプロタイプを構成する多型に対するタグ付け、およびハプロタイプを構成する多型に対するコメントの付記の少なくともいずれか一つをおこなうことを特徴とする付記４に記載のゲノム情報解析支援方法。
【００９６】
（付記６）前記入力工程によって入力が受け付けられた指示に基づいておこなわれたハプロタイプ再構築の結果ごとに、バージョンを付与するバージョン付与工程を含んだことを特徴とする付記５に記載のゲノム情報解析支援方法。
【００９７】
（付記７）前記ハプロタイプの再構築がおこなわれるたびに、前記多型データのデータ群間の独立性の決定および前記多型データの多型頻度の決定の少なくともいずれかをおこなうことを特徴とする付記４〜５のいずれか一つに記載のゲノム情報解析支援方法。
【００９８】
（付記８）前記独立性の決定または多型頻度の決定をおこなう際に、各多型データの並び替えをするソート工程を含んだことを特徴とする付記７に記載のゲノム情報解析支援方法。
【００９９】
（付記９）付記１〜付記８の各工程を、一定の大きさの染色体領域での処理においておこなうことを特徴とするゲノム情報解析支援方法。
【０１００】
（付記１０）前記染色体領域内を、連鎖不平衡係数マトリックス表示する第３の表示工程と、
前記表示工程によって表示された前記マトリックス表示上において、ハプロタイプ構築に用いる多型を選択する選択工程を含んだことを特徴とする付記９に記載のゲノム情報解析支援方法。
【０１０１】
（付記１１）前記入力工程によっておこなわれた前記多型に対するコメントの付記の内容に基づいて、すでに構築されたハプロタイプを検索する検索工程を含んだことを特徴とする付記５〜９のいずれか一つに記載のゲノム情報解析支援方法。
【０１０２】
（付記１２）前記検索工程によって検索された結果をパターン化し、登録するパターン登録工程を含んだことを特徴とする付記１１に記載のゲノム情報解析支援方法。
【０１０３】
（付記１３）シークエンシングから得られるコンセンサス配列情報を取得させるコンセンサス配列情報取得工程と、
タイピングプローブ配列情報を取得させるタイピングプローブ情報取得工程と、
前記タイピングプローブ情報取得工程によって取得されたタイピングプローブ情報を、前記コンセンサス配列情報取得工程によって取得されたコンセンサス配列情報に対して相同性検索させる相同性検索処理工程と、
をコンピュータに実行させることを特徴とするゲノム情報解析支援プログラム。
【０１０４】
（付記１４）シークエンシングから得られるコンセンサス配列情報を取得するコンセンサス配列情報取得手段と、
タイピングプローブ配列情報を取得するタイピングプローブ情報取得手段と、
前記タイピングプローブ情報取得手段によって取得されたタイピングプローブ情報を、前記コンセンサス配列情報取得手段によって取得されたコンセンサス配列情報に対して相同性検索する相同性検索処理手段と、
を含んだことを特徴とするゲノム情報解析支援装置。
【０１０５】
【発明の効果】
以上説明したように、この発明によれば、より精度の高いハプロタイプ解析を効率的におこなうことが可能なゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置が得られるという効果を奏する。
【図面の簡単な説明】
【図１】この発明の本実施の形態にかかるゲノム情報解析支援方法を実現するシステムの全体構成を示す説明図である。
【図２】この発明の本実施の形態にかかるゲノム情報解析支援方法を実現するシステムのシステム構成を示す説明図である。
【図３】ベースコール配列の一例を示す説明図である。
【図４】シークエンシング配列でのアライメント結果の一例を示す説明図である。
【図５】コンセンサス配列データの一例を示す説明図である。
【図６】アライメントＳＮＰデータの一例を示す説明図である。
【図７】タイピングプローブリストの一例を示す説明図である。
【図８】タイピングデータの一例を示す説明図である。
【図９】コンセンサス配列とプローブ配列の相同性検索の内容を示す説明図である。
【図１０】リンク付けテーブルの一例を示す説明図である。
【図１１】ＳＮＰ−ＩＤ統合データの一例を示す説明図である。
【図１２】アレル頻度データの一例を示す説明図である。
【図１３】Ｄ’・ｒ^２結果データの一例を示す説明図である。
【図１４】ハプロタイプインプットファイルの一例を示す説明図である。
【図１５】ハプロタイプ頻度結果の一例を示す説明図である。
【図１６】ハプロタイプバージョンデータの一例を示す説明図である。
【図１７】この発明の本実施の形態にかかるゲノム情報解析支援方法の処理の内容を示すフローチャートである。
【図１８】ＳＮＰｓビューワの表示画面の一例を示す説明図である。
【図１９】ＳＮＰ情報の詳細内容を表示した表示画面（ポップアップ画面）の一例を示す説明図である。
【図２０】ＳＮＰｓビューワの表示画面の別の一例を示す説明図である。
【図２１】ＳＮＰ情報の詳細内容を表示した表示画面（ポップアップ画面）の別の一例を示す説明図である。
【図２２】ＳＮＰｓビューワの表示画面の別の一例を示す説明図である。
【図２３】ＳＮＰｓビューワの表示画面の別の一例を示す説明図である。
【図２４】ＳＮＰｓビューワの表示画面の別の一例を示す説明図である。
【図２５】ＳＮＰ選択パターンの検索画面の一例を示す説明図である。
【図２６】ＳＮＰ選択パターンの登録・実行画面の一例を示す説明図である。
【図２７】ハプロタイプバージョンの管理画面の一例を示す説明図である。
【図２８】ハプロタイプ進化系統樹の一例を示す説明図である。
【図２９】この発明の本実施の形態にかかるゲノム情報解析支援装置のハードウエア構成の一例を示すブロック図である。
【符号の説明】
１０１サーバ
１０２公共データベース群
１０３データエントリ端末
１５０インターネット
２０１シークエンシングデータ
２０２タイピングデータ
２０７ＳＮＰｓビューワ
２１１ベースコール配列
２１２コンセンサス配列データ
２１３アライメントＳＮＰデータ
２１４タイピングプローブリスト
２１５タイピングデータ
２１６リンク付けテーブル
２１７ＳＮＰ−ＩＤ統合データ
２１８アレル頻度データ
２１９Ｄ’・ｒ^２結果データ
２２０ハプロタイプインプットファイル
２２１ハプロタイプ頻度結果
２２２ハプロタイプバージョンデータ

Claims

シークエンシングから得られるコンセンサス配列情報を取得するコンセンサス配列情報取得工程と、
タイピングプローブ配列情報を取得するタイピングプローブ情報取得工程と、
前記タイピングプローブ情報取得工程によって取得されたタイピングプローブ情報を、前記コンセンサス配列情報取得工程によって取得されたコンセンサス配列情報に対して相同性検索する相同性検索処理工程と、
を含んだことを特徴とするゲノム情報解析支援方法。
前記相同性検索工程によって検索された結果に基づいて、多型データの解析をおこなう多型データ解析工程と、
前記多型データ解析工程によって解析された結果を表示する第１の表示工程と、
を含んだことを特徴とする請求項１に記載のゲノム情報解析支援方法。
前記第１の表示工程によって表示された結果に基づいて、複数の多型からなるハプロタイプの再構築の指示の入力を受け付ける入力工程と、前記入力工程によって入力が受け付けられた指示に基づいておこなわれたハプロタイプの再構築の結果を表示する第２の表示工程と、
を含んだことを特徴とする請求項２に記載のゲノム情報解析支援方法。
前記入力工程は、ハプロタイプを構成する多型の選択、ハプロタイプを構成する多型に対するタグ付け、およびハプロタイプを構成する多型に対するコメントの請求項の少なくともいずれか一つをおこなうことを特徴とする請求項３に記載のゲノム情報解析支援方法。
前記入力工程によって入力が受け付けられた指示に基づいておこなわれたハプロタイプ再構築の結果ごとに、バージョンを付与するバージョン付与工程を含んだことを特徴とする請求項４に記載のゲノム情報解析支援方法。
請求項１〜請求項５の各工程を、一定の大きさの染色体領域での処理においておこなうことを特徴とするゲノム情報解析支援方法。
前記染色体領域内を、連鎖不平衡係数マトリックス表示する第３の表示工程と、
前記表示工程によって表示された前記マトリックス表示上において、ハプロタイプ構築に用いる多型を選択する選択工程を含んだことを特徴とする請求項６に記載のゲノム情報解析支援方法。
前記入力工程によっておこなわれた前記多型に対するコメントの請求項の内容に基づいて、すでに構築されたハプロタイプを検索する検索工程を含んだことを特徴とする請求項４〜６のいずれか一つに記載のゲノム情報解析支援方法。
シークエンシングから得られるコンセンサス配列情報を取得させるコンセンサス配列情報取得工程と、
タイピングプローブ配列情報を取得させるタイピングプローブ情報取得工程と、
前記タイピングプローブ情報取得工程によって取得されたタイピングプローブ情報を、前記コンセンサス配列情報取得工程によって取得されたコンセンサス配列情報に対して相同性検索させる相同性検索処理工程と、
をコンピュータに実行させることを特徴とするゲノム情報解析支援プログラム。
シークエンシングから得られるコンセンサス配列情報を取得するコンセンサス配列情報取得手段と、
タイピングプローブ配列情報を取得するタイピングプローブ情報取得手段と、
前記タイピングプローブ情報取得手段によって取得されたタイピングプローブ情報を、前記コンセンサス配列情報取得手段によって取得されたコンセンサス配列情報に対して相同性検索する相同性検索処理手段と、
を含んだことを特徴とするゲノム情報解析支援装置。