JP2004234580A - ゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置 - Google Patents

ゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置 Download PDF

Info

Publication number
JP2004234580A
JP2004234580A JP2003025284A JP2003025284A JP2004234580A JP 2004234580 A JP2004234580 A JP 2004234580A JP 2003025284 A JP2003025284 A JP 2003025284A JP 2003025284 A JP2003025284 A JP 2003025284A JP 2004234580 A JP2004234580 A JP 2004234580A
Authority
JP
Japan
Prior art keywords
haplotype
information
data
polymorphism
consensus sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003025284A
Other languages
English (en)
Inventor
Tatsuya Shiobara
立也 塩原
Masaru Osabe
大 長部
Hidetoshi Akasaka
英俊 赤坂
Norihiro Kato
規弘 加藤
Kazumoto Yasuda
和基 安田
Kenji Yamamoto
健二 山本
Fumihiko Takeuchi
史比古 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2003025284A priority Critical patent/JP2004234580A/ja
Publication of JP2004234580A publication Critical patent/JP2004234580A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】より精度の高いハプロタイプ解析を効率的におこなうこと。
【解決手段】タイピングプローブリスト(214)の情報を、コンセンサス配列データ(212)に対して相同性検索し(S204)、その結果に基づいて、多型データの解析をおこない(S205)、解析された結果(218,219,221)を表示し(207)、表示された結果(220)に基づいて、複数の多型からなるハプロタイプの再構築の指示の入力を受け付け、その指示に基づいておこなわれたハプロタイプの再構築の結果(218,219,221)を表示する(207)。
【選択図】 図2

Description

【0001】
【発明の属する技術分野】
この発明は、複数の多型(SNP、マイクロサテライト、インサーション、デリーションなど)データからなるハプロタイプの解析を支援するゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置に関する。
【0002】
【従来の技術】
近年、ゲノムの解析において、『量的形質とのかかわりにおける多型の意義』を研究するにあたり、特定染色体領域の複数の遺伝子多型で構成されるハプロタイプを使用した関連解析(以下ハプロタイプ解析)が注目を集めている。現在ハプロタイプ解析をおこなうパッケージはすでに存在する(たとえば、非特許文献1参照)が、それは多型データを指定して、ハプロタイプを構築・頻度計算から関連解析(データ群間の独立性の検定)を自動的におこなうに留まっている。
【0003】
研究者が量的形質の感受性遺伝子座を探索する目的で、SNPをはじめとする遺伝子多型のデータを独自に収集する際、見つかったすべての多型について一様な数の検査集団(疾病であれば罹患群とその対照群)を解析対象とするのは、時間的および経済的に必ずしも効率が良くない。
【0004】
そこで予備的段階として、ハプロタイプを構築しこれら見つかった多型の一部を取捨選択していくことが有用な戦略と考えられる。すなわち調べようとするゲノム領域(一つないし複数の遺伝子を含む)上の遺伝子多型の、はじめから一部についてのみアレル情報を収集しようとする、いわゆるスクリーニング的な解析においても、またすべての遺伝子多型についてのアレル情報をできるだけ多く収集しようとする、いわゆる網羅的な解析においても、ハプロタイプを構築することによって、量的形質の感受性遺伝子解析という意味で重複した多型データの収集を避けつつ、統計学的検出力を上げられることが大きな利点である。
【0005】
【非特許文献1】
SNP疾患関連解析ソフト「SNPAlyze ver. 2.1」(株式会社ダイナコム製)[online]、[平成15年1月16日検索]、インターネット<URL:http://www.dynacom.co.jp/products/package/snpalyze/index.html(トップ画面)、http://www.dynacom.co.jp/products/package/snpalyze/about.html(製品情報)、http://www.dynacom.co.jp/products/package/snpalyze/feature.html(特長)>
【0006】
【発明が解決しようとする課題】
ここで、ハプロタイプの構築に際しては、効率的な感受性遺伝子解析に資する多型情報、すなわち「どの遺伝子多型の組み合わせを用いれば当該領域の代表的なハプロタイプを構築させることが可能か」を判断することが、戦略上の重要なポイントである。言い換えれば、このような遺伝子多型の「セット」を適宜選択することができ、それらに対して検査集団のサンプル数を増やして、検出能力を上げていくことが効率的な感受性遺伝子解析である。
【0007】
それには研究者自身が、各々収集した遺伝子多型データを検討し、上述したハプロタイプ構築のための遺伝子多型の「セット」を取捨選択しやすい解析支援ツールを構築することが必要となる。この際、サンプル数、遺伝子多型情報などのWet実験データの追加修正に対して良好なインタフェースが要求される。
【0008】
この発明は上記問題を解決するため、より精度の高いハプロタイプ解析を効率的におこなうことが可能なゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置を提供することを目的とする。
【0009】
【課題を解決するための手段】
上述した課題を解決し、目的を達成するため、この発明にかかるゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置は、シークエンシングから得られるコンセンサス配列情報を取得し、タイピングプローブ配列情報を取得し、取得されたタイピングプローブ情報を、前記コンセンサス配列情報取得工程によって取得されたコンセンサス配列情報に対して相同性検索することを特徴とする。
【0010】
これによって、シークエンシングデータとタイピングデータにおいて同じ遺伝子座にある多型データどうしを効率的にリンクさせ、リンク不可だったものに関しては、マニュアルで修正させることができる。
【0011】
また、相同性検索された結果に基づいて、多型データの解析をおこない、解析された結果を表示するようにしてもよい。具体的には、表示された結果に基づいて、複数の多型からなるハプロタイプの再構築の指示の入力を受け付け、入力が受け付けられた指示に基づいておこなわれたハプロタイプの再構築の結果を表示すようにしてもよい。
【0012】
また、ハプロタイプを構成する多型の選択、ハプロタイプを構成する多型に対するタグ付け、およびハプロタイプを構成する多型に対するコメントの付記の少なくともいずれか一つをおこなうようにしてもよく、また、入力が受け付けられた指示に基づいておこなわれたハプロタイプ再構築の結果ごとに、バージョンを付与するようにしてもよい。
【0013】
また、ハプロタイプの再構築がおこなわれるたびに、多型データの多型頻度の決定および多型データのデータ群間の独立性の検定の少なくともいずれかをおこなうようにしてもよい。
【0014】
これらは、一定の大きさの染色体領域での処理においておこなうようにしてもよく、染色体領域内を、連鎖不平衡係数マトリックスにて表示し、表示されたマトリックス上において、ハプロタイプ構築に用いる多型を選択するようにしてもよい。また、多型に対するコメントの付記の内容に基づいて、すでに構築されたハプロタイプを検索するようにしてもよく、検索された結果をパターン化し、そのパターンを登録するようにしてもよい。
【0015】
【発明の実施の形態】
以下に添付図面を参照して、この発明にかかるゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置の好適な実施の形態を詳細に説明する。
【0016】
(ゲノム情報解析支援方法の処理の概要)
この実施の形態にかかるゲノム情報解析支援方法の概要について説明する。
多型(SNP、マイクロサテライト、インサーション・デリーション)データ収集にはシークエンシングとタイピングの2手法を用いる。シークエンシングに関しては主にゲノム上の多型位置情報収集、タイピングに関してはそのアレル頻度情報の精度をUPさせるためのデータ補充、およびその多型情報の集団別の比較を主な目的としている。また、解析する際には、シークエンシングおよびタイピングデータに加えて、これらを統合させたデータを使用するが、両データの統合は相同性検索を用いることによっておこなう。
【0017】
上記多型データを元に構築したハプロタイプは、多型情報も含め格納するが、管理方法としては、個々の調査対象となるゲノム領域ごとにバージョン管理をする。格納されたハプロタイプに関しては、遺伝子多型の取捨選択およびシークエンシングおよびタイピングデータのサンプル数の補充をおこなうことで、ハプロタイプを再構築させ、バージョンを更新させることを可能にする。
【0018】
このように遺伝子多型の『セット』をリファインさせ、その解析結果を一元的にバージョン管理することにより、『量的形質感受性遺伝子のマーカー候補となる多型およびそのハプロタイプ』を探索することを可能にする。
【0019】
また、このマーカー候補となる多型に関しては、研究者が任意にタグ(Tag)付けおよびコメント付記させることで、他の多型と識別ができると同時に、研究者間で情報を共有し閲覧することを可能にする。
【0020】
多型およびハプロタイプと量的形質との相関性の判断には、分割表による独立性の検定(カイ二乗検定、尤度比検定、フィッシャーの直接確率検定など)をおこなう。特定のハプロタイプとそれ以外のものとの間の独立性検定に加えて、すべてのハプロタイプクラスを組み合わせた検定および、複数のデータ群についての多変量解析の実施も可能にする。
【0021】
(システムの全体構成)
図1は、この発明の本実施の形態にかかるゲノム情報解析支援方法を実現するシステムの全体構成を示す説明図である。図1において、100は、LANなどのネットワークであり、101はサーバであり、102は、公共データベース群であり、103はWet実験データを入力するデータエントリ端末であり、104は、クライアント(装置)である。また、105はインターネット150に接続されたF/W端末装置であり、106はルータ(LR)である。
【0022】
公共データベース群102からの多型情報、標準塩基配列(Contig配列)などの各種情報を、インターネット150を経由してサーバ101に取り込む。これらのデータは、データエントリ端末103によって入力されたWet実験結果とともに、クライアント(装置)104にインストールされたWebブラウザによるビューワ(後述するSNPsビューワ207)に表示させることが可能となる。
【0023】
(システム構成)
つぎに、この発明の本実施の形態にかかるゲノム情報解析支援方法のシステム構成について説明する。図2は、この発明の本実施の形態にかかるゲノム情報解析支援方法を実現するシステムのシステム構成を示す説明図である。図2において、201はシークエンシングデータである。ここで、シークエンシングデータ201は、ベースコール配列211からなる。図3は、ベースコール配列211の一例を示す説明図である。図3において、ベースコール配列211は、任意にスクリーニングしたゲノム領域のすべての塩基配列に相当するデータである。ベースコール配列211は、シークエンシングでは、相補鎖に対して配列を読み取るため、シークエンシングをおこなったサンプル数(人数分)×2本分のファイルが存在する。
【0024】
ベースコール配列211に対して、アライメントを実行する(処理S203)。これによって、各サンプルのベースコール配列211を縦にそろえて成型することができる。図4は、シークエンシング配列でのアライメント結果の一例を示す説明図である。アライメントとは、図4にも示すように、各サンプルを縦に成形することである。
【0025】
アライメントの実行によって、コンセンサス配列データ212が得られる。コンセンサス配列データ212は、人数分の標準的な塩基配列データである。図5は、コンセンサス配列データ212の一例を示す説明図である。図5において示された塩基配列データは、図4の「Consensus」の塩基配列データと同一のデータである。
【0026】
また、アライメントの実行によって、アライメントSNPデータ213が得られる。すなわち、アライメントを実行して、配列がそろわないところがSNPになる。その部分をSNPとして抜き出したのがアライメントSNPデータ213である。図6は、アライメントSNPデータ213の一例を示す説明図である。図6において、縦の項目にサンプルをとり、横の項目にSNPをとり、各欄にはそれぞれのサンプルのSNPに該当する遺伝子型(ジェノタイプ)の種類を入れる。
【0027】
図4において、実線で囲んだ塩基が、図6に示す『SNP_5UTR_1』に該当する。ここで、サンプルごとに2本分存在するが、2本は同じジェノタイプとなるはずなので、同一であることを確認し、そのジェノタイプをアライメントSNPデータ213とする。同一でない場合は、エラー扱いとし、発生状況・エラー内容を格納し、ビューワで表示する。アライメントSNPデータ213は、“A”、“G”、“C”、“T”の塩基のほかに、たとえば、「TまたはC」であれば“Y”とする。
【0028】
また図2において、202はタイピングデータであり、タイピングデータ202は、タイピングプローブリスト214と、タイピングデータ215とからなる。タイピングプローブリスト214は、SNPとなる塩基の前後配列に関するリストである。図7は、タイピングプローブリスト214の一例を示す説明図であり、図8は、タイピングデータ215の一例を示す説明図である。
【0029】
図7にも示すように、2つのプローブ(VIC、FAM)を準備する。たとえば、SNP1では、VICのプローブの名前が『SNP1aV』であり、そのプローブ配列は『TTGGCAGAA“A”TGTAAGC』である。一方、SNP1の、FAMのプローブの名前が『SNP1cM』であり、そのプローブ配列は『TGGCAGAA“C”TGTAAGC』である。そして、各プローブ配列中に存在する塩基(図7において太文字(上記(“ ”))で示した“A”と“C”)がSNPである。
【0030】
図8において、各サンプルは、上記2つのプローブのプローブ配列のどちらに該当するかをチェックし、該当する方のSNPを選択し、その塩基を所定欄に入れる。具体的には、SNP1の場合、VICのプローブ配列に該当する場合は“A”を、FAMのプローブ配列に該当する場合は“C”を、両方に該当する場合は“M”をそれぞれ図8の該当欄に入れることでタイピングデータ215が完成する。
【0031】
つぎに、コンセンサス配列データ212とタイピングプローブリスト214との相同性検索をおこなう(処理S204)。図9は、コンセンサス配列データ212とタイピングプローブリスト214のプローブ配列の相同性検索の内容を示す説明図である。図9において、コンセンサス配列データ212とタイピングプローブリスト214のプローブ配列を縦に並べて、両者の配列を比較する。これによって、コンセンサス配列データ212上のタイピングSNPの位置は判明し、シークエンシングSNPとタイピングSNPとのリンクが得られる。
【0032】
このように、相同性検索によって、リンク付けテーブル216が得られる。図10は、リンク付けテーブル216の一例を示す説明図である。図10において、リンク付けテーブル216は、「統合SNP−ID」項目1001、「シークエンシングSNP−ID」項目1002、「遺伝子名」項目1003、「アレル(シークエンシング)」項目1004、「遺伝子上のSNP位置」1005、「相同性検索結果」項目1006、「タイピングSNP−ID」項目1007、「アレル(タイピング)」項目1008の各項目からなる。
【0033】
ここで、「統合SNP−ID」項目1001、「シークエンシングSNP−ID」項目1002、「遺伝子名」項目1003、「アレル(シークエンシング)」項目1004、「遺伝子上のSNP位置」1005は、シークエンシングから由来するものであって、一方、「タイピングSNP−ID」項目1007、「アレル(タイピング)」項目1008はタイピングから由来するものである。「相同性検索結果」項目1006は、数値が高いほど類似性が強い。また、「アレル(シークエンシング)」項目1004および「アレル(タイピング)」項目1008は相違しない。
【0034】
アライメントが実行されたシークエンシングデータ201と、タイピングデータ215およびリンク付けテーブル216から、SNP−ID統合データ217が得られる。図11は、SNP−ID統合データ217の一例を示す説明図である。図11において、「Sample_1」から「Sample_48」までがシークエンシングデータ201であり、「Sample_49」から「Sample_113’」までがタイピングデータ202である。
【0035】
つぎに、アレル頻度・D’・r(連鎖不平衡)計算、およびハプロタイプツールインプットファイルの準備をおこなう(処理S205)。アレル頻度の計算によってアレル頻度データ218が得られる。アレル頻度は、集団内における出現頻度であり、ある群種内での、そのSNPの2つの塩基の存在比率である。この頻度は人種などで大きく変化することはわかっているため、群種間での頻度の差が、人種・疾患の有無を決定する確率は高いと考えられる。図12は、アレル頻度データ218の一例を示す説明図である。
【0036】
図12において、アレル頻度データ218には、SNPごとに、SNPにかかる塩基情報、その塩基の頻度情報(パーセント)、遺伝子上の位置情報(エクソンまたはイントロンあるいは別の位置に存在するか)を含むデータからなる。具体的には、アレル頻度データ218は、SNP−ID(IMCJ ID)項目1201、シークエンシングID(Catalog ID)項目1202、物理位置(NT Position)項目1203、標準塩基(NT)項目1204、アレル(SEQ)項目1205、アレル頻度(Frequency)項目1206、遺伝子上位置(Location)項目1207、アミノ酸(Amino Acid)項目1208、公共DB登録ID(db−SNP1209、HGVbase1210、TSC1211、JSNP1212など)項目の各項目からなる。
【0037】
また、D’・rの計算によってD’・r結果データ219が得られる。連鎖不平衡は、ある座位とその周辺の座位間にて、連鎖の強さが一律でない現象であり、その尺度であるD’・rは、それぞれ特徴をもち、この値を元に、その領域は組換えを起こさないで、纏まって遺伝されるか否かを判断できる。ある疾患感受性を規定する部位においては、この部位と連鎖の強いSNPが存在することが考えられる。したがってSNPどうしの連鎖不平衡係数を網羅的に調べることで、ゲノム上で連鎖不平衡にある領域がわかり、これはハプロタイプ解析に有用な情報を与えることができる。図13は、D’・r結果データ219の一例を示す説明図である。図13において、右上半分がD’の結果データである、左下半分がrの結果データである。ここでrに関しては、『1.00』が連鎖がもっとも強い。
【0038】
また、図14は、ハプロタイプインプットファイル220の一例を示す説明図である。図14において、縦の項目にサンプルをとり、横の項目に各サンプルを構成するSNPをとり、各欄にはそれぞれのサンプルのSNPに該当する塩基の種類を入れる。このSNP(SNP_00001〜SNP_00009)がハプロタイプを構成する。このハプロタイプインプットファイル220を用いて、計算ツールを実行する(処理S206)。その結果、ハプロタイプ頻度結果221と、ハプロタイプバージョンデータ222とが得られる。
【0039】
図15は、ハプロタイプ頻度結果221の一例を示す説明図である。図15において、ハプロタイプ頻度結果221は、ハプロタイプと、その頻度に関する情報からなる。図15においては、ハプロタイプ“CCCTCAGCC”が頻度『0.695652』で最も高いことがわかる。
【0040】
図16は、ハプロタイプバージョンデータ222の一例を示す説明図である。図16において、ハプロタイプバージョンデータ222は、メジャーバージョン(Major Division)項目1601と、マイナーバージョン(Minor Division)項目1602と、コメント(Comment)項目1603と、ハプロタイプ頻度計算ツール(Program)項目1604と、SNP−ID項目1605とからなる。SNP−ID項目1605は、当該ハプロタイプにおいて選択したSNPに関する情報が格納されている。その際、タグ付けしたSNPを、タグの色を指定して明記する。
【0041】
アレル頻度データ218、D’・r結果データ219およびハプロタイプ頻度結果221を、SNPsビューワ207を用いて表示する。SNPsビューワ207には、SNPsビューワデータ231、SNPsテーブルデータ232、ハプロタイプインフォメーションデータ233などの各種データを備える。
【0042】
SNPsビューワ207上からSNPs選択を手動でおこなうか、もしくはある指示に基づいて自動でおこなう(処理S208)、その処理によっても、ハプロタイプインプットファイル220が得られる。このハプロタイプインプットファイル220も用いて、計算ツールを実行する(処理S206)。
【0043】
このようにして、Wet実験データの取り込み処理をおこない、これら取り込まれたデータはサーバ101内の管理フォルダにそれぞれ格納される。このフォルダに新規に格納されたデータファイルに関しては、定期的な自動処理により、アノテーション・多型データリンク・統計解析が実施される。
【0044】
(データ処理の内容)
図17は、この発明の本実施の形態にかかるゲノム情報解析支援方法の処理の内容を示すフローチャートである。図17のフローチャートにおいて、公共データベースからの情報をダウンロードし(ステップS1701)、公開SNP情報をマッピングし(ステップS1702)、SNPsビューワ207の表示イメージにプロットする(ステップS1703)。同様に、タンパク質活性部位情報をマッピングし(ステップS1704)、SNPsビューワ207の表示イメージにプロットする(ステップS1705)。
【0045】
また、シークエンシングデータに関しては、公共データベースから取り込み(ステップS1706)、取得したContig配列に対して、アライメントを実行する(ステップS1707)。これによって、コンセンサス配列データ212を決定するとともに、多型のゲノム上の位置情報(アライメントSNPデータ213)を決定する(ステップS1708)。また、プローブリストを取り込み(ステップS1709)、コンセンサス配列データ212との間で相同性検索によるリンク付けをおこなう(ステップS1710)。
【0046】
これによって、プローブリストをシークエンシングデータにリンクさせる。このプローブ配列はコンセンサス配列内の多型が存在する領域をカバーするように設計されているので、多型が含まれている配列領域で相同性が一番高くなる確率は極めて高い。
【0047】
さらに、タイピングデータ215を取り込み(ステップS1711)、各SNPのアレル情報の統合をおこない(ステップS1712)、アレル頻度計算、LD計算をおこなう(ステップS1713)。アレル情報は、SNPsビューワ207の表示イメージにおいて、所望の位置を指定するだけで、ポップアップ画面により表示される。また、シークエンシング領域をマッピングし(ステップS1714)、SNPsビューワ207の表示イメージにプロットする(ステップS1715)。同様に、各種統計解析(アレル頻度計算、連鎖不平衡解析など)を実施し、SNP位置をマッピングし(ステップS1716)、SNPsビューワ207の表示イメージにプロットする(ステップS1717)。
【0048】
このようにして、処理されたデータは、SNPsビューワ207上において一元的に管理する。操作者は、SNPsビューワ207を用いてハプロタイプ解析をおこなう(ステップS1718)。
【0049】
(SNPsビューワの内容)
つぎに、SNPsビューワ207の内容について説明する。上記処理されたデータの結果はビューワ上で参照することができる。図18は、SNPsビューワの表示画面の一例を示す説明図である。図18において、SNPsビューワ207は、塩基の物理位置の情報を水平向の直線上に表すことによって、Map表示している。「Aggregate」1801は、SNP位置に対する公共DB群102および独自データなどを色分けして表示する。このようにして、既知の情報と独自に見い出した情報などとを区別して表示でき、確認作業を効率的におこなうことができる。また、「Contig」1802は、各SNPデータを統合表示する。これによって、SNPの存在位置の分布状況を容易に把握することができる。
【0050】
また、チェックボックス1803は、人種ごとにSNPs情報を表示させるか否かを選択するものである。図18では、すべてのチェックボックス1803にチェックがなされているので、すべての人種のSNPs情報を表示させる設定となっている。また、レンジ入力欄1804には、現在表示されているゲノム情報の範囲(レンジ)が表示されている。この表示されている内容を変更することによって、表示されるゲノム情報の範囲を容易に変更することができる。
【0051】
また、ハプロタイプの対象となるSNPsを上記「Aggregate」1801、「Contig」1802と垂直方向の物理位置を一致させるように、水平方向の直線上に表示する(「Haplo Type」1806)。「Haplo Type」1806において、○印で表示されているのがハプロタイプの対象となるSNPであり、矩形で表示されている部分がタンパク質活性部位情報である。このように、ハプロタイプは、ユーザーが設定したSNP選択条件に基づいて、データが得られた時点およびデータがリンクされた時点において、頻度計算がおこなわれ、新規にバージョンが割り振られ格納される。
【0052】
また、ハプロタイプは複数表示による比較が可能であり、バージョンを指定することで選択表示が可能である。図18では3種類のバージョンを同時に表示させることができるが、3種類に限定されるものではない。これによって、画面切り替えなどの操作をすることなく、異なるバージョンを容易に比較することができる。また、ハプロタイプ選択欄1805は、右端の下矢印部分を押下することによって、すでに登録されているバージョン情報を一覧表示し、その中から所望のバージョンを選択する。そうすることによって、任意のバージョンのハプロタイプを構築するのに使用したSNPs情報を直線上に表示する。
【0053】
一連のハプロタイプ構築から表示の処理は、データが得られた時点およびデータがリンクされた時点において、ユーザーが設定したSNP選択条件に基づいて、おこなわれる。
【0054】
また、ポインタ1807を合わせることによって、「Aggregate」1801、「Contig」1802、「Haplo Type」1806の各直線上の所望の位置を指定すると、当該位置に存在するSNP情報の詳細内容を図19に示すようなポップアップ画面1900によって表示する。図19は、SNP情報の詳細内容を表示した表示画面(ポップアップ画面)の一例を示す説明図である。図19において、ポップアップ画面1900は、当該SNPのID情報、物理位置の情報のほか、人種別のアレル頻度情報などを表示する。たとえば、『JP』は日本人(Japanese)、『CA』は白人(Caucasian)、『AA』は黒人(African−American)のアレル頻度情報を示している。
【0055】
また、SNPsビューワ207には、図18に示した情報に加えて、3種類表示することができるハプロタイプのうち、一番上のハプロタイプのバージョンの詳細情報を同時に表示することができる。図20は、SNPsビューワの表示画面の別の一例を示す説明図である。図20において、表示画面の下側に、上記バージョンの詳細情報を同時に表示する。
【0056】
このバージョンの詳細情報において、ハプロタイプを再構築することができる。具体的には、「Check」ボックス欄2001にチェックすることによって、再構築に使用するSNPを選択する。また、「Tag」入力欄2002には、タグの表示色を選択指定することができる。これによって、関連性があるSNPどうしを同一色にするなどして、解析をより効率的におこなうことができる。
【0057】
また、「COMMENT」入力欄2003には、再構築したハプロタイプの趣旨、たとえば、どのような理由によってそのような再構築をしたか、あるいはどのような効果をねらったものか、など、再構築をおこなった操作者(研究者)のコメントを入力することができる。入力されたコメントは、再構築されたハプロタイプのあらたなバージョン情報としてあわせて格納される。
【0058】
また、「Reconstruction」ボタン2004が押下されることによって、再構築された内容で計算の実行がなされる。再構築されたハプロタイプは新しいバージョン番号で登録する、もしくは上書き更新が可能である。ラジオボタン「Version」2005が選択されると、メジャーバージョンとして登録され、ラジオボタン「M−version」2006が選択されると、マイナーバージョンとして登録され、ラジオボタン「Update」2007が選択されると、上書き保存する。
【0059】
さらに、ツールの運用を選択させたり、使用するデータの実験由来を選択させたりすることもできる。たとえば、ラジオボタン「Both Data」2008が選択されると、シークエンシングデータとタイピングデータの両方を用いることを示している。
【0060】
また、D’・rの結果もあわせて参照することができる。図21は、SNP情報の詳細内容を表示した表示画面(ポップアップ画面)の別の一例を示す説明図であり、D’・rの結果を示した画面である。図21に示した表示画面2100において、再構築に使用するSNPをチェックボックス2101を用いて選択することができる。このように、SNPsビューワ207上でハプロタイプを再構築することが可能である。すでに構築され格納されているハプロタイプに対して、連鎖不平衡解析結果・アレル頻度を参照することによって、再度SNP『セット』の選択・タグ付け・データ群選択・頻度計算方法の選択が可能となる。
【0061】
また、SNP選択は、ゲノム領域規模での連鎖不平衡係数表示画面上でおこなうことも可能である。図22は、SNPsビューワの表示画面の別の一例を示す説明図であり、特定染色体領域でのSNP選択画面である。図22に示す表示画面2200において、2201は染色体を模式的に示した図であり、この図の任意の一部の領域2202がクリックによって指定されることによって、その領域部分の詳細な塩基配列情報2203を染色体模式図2201の下側に表示する。この塩基配列情報2203のうちの解析領域がポインタ2204によってドラッグされることによってその解析領域に関する詳細な情報が、図23に示すように表示される。
【0062】
また、ズームボタン2205が用いられることによって、ズームインおよびズームアウトを容易におこなわせることもできる。また、遺伝子リストにリンクしており、「GeneList」部分2206がクリックされることによって、遺伝子リストを表示することもできる。
【0063】
図23は、SNPsビューワの表示画面の別の一例を示す説明図である。図23において、図22に示した染色体上の任意の一部の領域2203が選択された場合に、この領域2203上に存在するすべての多型の連鎖不平衡係数マトリックス2301を表示する。このマトリックス2301上でハプロタイプ構築に用いる多型を任意に選択し、解析を実行することができる。具体的には、このマトリックス2301上で、LDブロック2302をドラッグする。これによって、ハプロタイプ解析対象となるSNPを選択することができる。選択されたSNPは、表示画面の下側にその詳細な情報を表示する。
【0064】
また、マトリックス2301上で、ポインタ2303を合わせると、合わせた位置に存在するSNP情報が表示される。SNP情報は、たとえば、表示画面2304をポップアップすることによって表示することができる。
【0065】
図24は、SNPsビューワの表示画面の別の一例を示す説明図であり、ハプロタイプ再構築の結果を表示している。図24に示すSNPsビューワ207おいて、2400が再構築されたバージョンであり、その表示項目としては、「Haplotype」項目2401には構築されたハプロタイプを表示する。また、「Group1」2402、「Group2」2403には、ハプロタイプ頻度に関する情報を表示する。また、「χ2−value」項目2404、「P−value」項目2405、「LRT」項目2406、「LRT P−value」項目2407には、各種独立性検定結果を表示する。
【0066】
タグ付けされた多型はMap上に色別表示され、その色に対するコメントも表記できるので、SNPの位置付け、頻度の高低などを参照することができる。また、異なるデータ群間(たとえば健常者−罹患者など)で独立性の検定結果を表示する。検定方法としては、カイ二乗検定・尤度比検定・フィッシャーの直接検定などをおこない、検定値・P値を表示させる。またこの検定は、特定のハプロタイプの有無、すべてのハプロタイプクラス、群種情報を含んだ多変量解析に対応することができる。さらに特定値以上または以下の検定結果に対してソートをかけることや、サンプルを群間でランダムに入れ替え、empirical P−valueにより信頼できるP−valueをシミュレーションすることもできる。
【0067】
操作者(研究者)はこの結果に基づいて、データ群の形質とハプロタイプ間の相関性を評価する。また、多型頻度に関しても同様に独立性検定が可能である。ハプロタイプバージョン管理は、遺伝子単位もしくは、それを複数含むゲノム領域で管理する。バージョンデータでは、各バージョンに対して、構築した日付、コメント(SNP選択パターンを選んだ時は、そのパターン番号)、計算ツール名、使用したSNP、そのタグおよび独立性検定結果を記載し、格納することができる。
【0068】
また図25は、SNP選択パターンの検索画面の一例を示す説明図である。図25に示す検索画面2500において、2501は「Comment KeyWord」入力欄であり、この入力欄2501にSNP選択パターン(ハプロタイプ)に付けられていることが予想されるコメントのキーワードを入力させる。図25においては、『r>0.5のブロックで構成したハプロタイプ』というキーワードが入力されている。
【0069】
キーワードが入力され「Search」ボタン2502が押下されると、検索処理を開始する。検索処理には、公知の自然言語処理による類似検索などを用いる。そして、検索結果を検索結果表示領域「Result」2503に表示する。検索結果としては、コメントの内容、SNP選択パターン(ハプロタイプ)のバージョン情報、構築日時などを表示する。また、表示内容をクリックすることによって、SNPsビューワ207に当該ハプロタイプの内容を表示することができる。この検索結果は、SNP選択パターンとしてパターン化することができる。このパターン化された検索結果は図26に示すように表示することができる。
【0070】
図26は、SNP選択パターンの登録・実行画面の一例を示す説明図である。図26に示す登録・実行画面2600において、表示したパターンのうちのいずれかをラジオボタン2601によって選択し、その後、「Registration」ボタン2602が押下されることによって、選択されたパターンの登録処理をおこなう。また、「Execution」ボタン2603が押下されることによって、選択されたパターンの算出処理を実行し、SNPsビューワ207に算出結果の詳細な情報を表示する。
【0071】
このように、入力したキーワードを、各遺伝子(ゲノム領域)のコメントに対して検索をおこない、ヒットしたバージョンを表示させることが可能である。また自動頻度計算をおこなう際のSNP自動選択は、ユーザーが登録作成したSNP選択パターン(統計結果、サンプル数、データマイニングによる結合規則・クラスタリング)を選択する。したがって、ある領域で有意性が得られたSNP選択条件を登録し、この条件を調査対象とするほかの遺伝子・ゲノム領域への適用をおこない、ハプロタイプを構成するSNPを自動選択することができる。またここで自動選択されたSNP群に対して、ユーザーが任意にSNPを追加削除することもできる。
【0072】
また、この一連の検索を疾患感受性遺伝子探索としておこなった場合に、その思考プロセスを、該当するすべてのバージョンを含んだ系統樹表示することが可能である。図27は、ハプロタイプバージョンの管理画面の一例を示す説明図である。図27に示す管理画面2700において、矩形は、バージョン名を示し、楕円はバージョン変更にかかるコメントを示している。
【0073】
たとえば、SNP1を削除することで(「SNP1 Delete」2703)、「Ver.1.00」2701から「Ver.1.01」2702へ変更している。また、あらたなデータを追加することで(「Data add」2705)、「Ver.1.00」2701から「Ver.3.00」2704へ変更している。このように、ハプロタイプのバージョンをツリー表示することによって、ハプロタイプの構築の流れを容易にかつ効率的に知らしめることができる。
【0074】
また図28は、図27に示した「Ver.1.02」2706のハプロタイプ進化系統樹を示している。図28の進化系統樹2800において、「AGG_000012」は、「AAGGCT」が84.38%、で「GGAATC」が残りの15.62%となり、「GGAATC」のうち、「AGAATC」と進化したのが2.08%で、「GGAATC」と進化したのが残りの13.54%となり、さらにそのうち「GGAATC」と進化したのが11.46%となり、「GGGGTC」と進化したのが2.08%となる。このように、個々のバージョンを選択することによって、個々のバージョンにおけるハプロタイプの進化的関係をツリー図にて表示することができる。
【0075】
(ゲノム情報解析支援装置のハードウエア構成)
つぎに、この発明の本実施の形態にかかるゲノム情報解析支援装置のハードウエア構成について説明する。図29は、この発明の本実施の形態にかかるゲノム情報解析支援装置のハードウエア構成の一例を示すブロック図である。
【0076】
図29において、ゲノム情報解析支援装置は、CPU2901と、ROM2902と、RAM2903と、HDD2904と、HD2905と、FDD(フレキシブルディスクドライブ)2906と、着脱可能な記録媒体の一例としてのFD(フレキシブルディスク)2907と、ディスプレイ2908と、I/F(インタフェース)2909と、キーボード2910と、マウス2911と、スキャナ2912と、プリンタ2913と、を備えている。また、各構成部はバス2900によってそれぞれ接続されている。
【0077】
ここで、CPU2901は、画像処理装置の全体の制御を司る。ROM2902は、ブートプログラムなどのプログラムを記憶している。RAM2903は、CPU2901のワークエリアとして使用される。HDD2904は、CPU2901の制御にしたがってHD2905に対するデータのリード/ライトを制御する。HD2905は、HDD2904の制御で書き込まれたデータを記憶する。
【0078】
FDD2906は、CPU2901の制御にしたがってFD2907に対するデータのリード/ライトを制御する。FD2907は、FDD2906の制御で書き込まれたデータを記憶したり、FD2907に記録されたデータを情報処理装置へ読み取らせたりする。着脱可能な記録媒体として、FD2907のほか、CD−ROM(CD−R、CD−RW)、MO、DVD(Digital Versatile Disk)、メモリーカードなどであってもよい。ディスプレイ2908は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。たとえば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどである。
【0079】
I/F(インタフェース)2909は、通信回線を通じてLANやインターネットなどのネットワーク150に接続され、ネットワーク150を介して、他のサーバや情報処理装置に接続される。そして、I/F2909は、ネットワーク150と内部とのインタフェースを司り、他のサーバや情報端末装置からのデータの入出力を制御する。I/F2909は、たとえばモデムなどである。
【0080】
キーボード2910は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。タッチパネル式の入力パッドやテンキーなどであってもよい。マウス2911は、カーソルの移動や範囲選択、あるいはウインドウの移動やサイズの変更などをおこなう。ポインティングデバイスとして同様の機能を備えるものであれば、トラックボール、ジョイスティックなどであってもよい。
【0081】
スキャナ2912は、ドライバ画像などの画像を光学的に読み取り、ゲノム情報解析支援装置内に画像データを取り込む。さらにOCR機能も備えており、OCR機能によって、印刷された情報を読み取ってデータ化することもできる。また、プリンタ2913は、輪郭画像情報などの画像データや文書データを印刷する。たとえば、レーザプリンタ、インクジェットプリンタなどである。
【0082】
以上説明したように、本実施の形態によれば、シークエンシングから得られるコンセンサス配列情報を取得し、タイピングプローブ配列情報を取得し、タイピングプローブ情報を、コンセンサス配列情報に対して相同性検索するため、シークエンシングデータとタイピングデータにおいて同じ遺伝子座にある多型データどうしを効率的にリンクさせ、リンク不可だったものに関しては、マニュアルで修正させることができる。
【0083】
また、本実施の形態によれば、相同性検索された結果に基づいて、多型データの解析をおこない、解析された結果を、公開された多型データと比較して表示するため、多型のアノテーション結果について、リファレンス配列(Contig配列など)をはじめとする公共DBからの情報に対して、多型位置、種類、既報の多型との異同を確認することができる。またシークエンシングでのスクリーニング領域の表示もおこなうことができ、これら結果を、研究者がLAN内の端末(クライアント104)からWebブラウザ上のSNPsビューワ207を介し閲覧可能となる。
【0084】
また、本実施の形態によれば、SNPsビューワ207に表示された結果に基づいて、複数の多型からなるハプロタイプの再構築の指示(ハプロタイプを構成する多型の選択、ハプロタイプを構成する多型に対するタグ付け、およびハプロタイプを構成する多型に対するコメントの付記など)の入力を受け付け、SNPsビューワ207に、入力が受け付けられた指示に基づいておこなわれたハプロタイプの再構築の結果を表示するため、タグ付けした多型を色別表示したハプロタイプに対して各データ群の頻度情報をテーブル表示し、データ群の比較が可能となる。またヒストグラムを表示することも可能である。位置情報に関しては、アノテーション結果に重ねてマップすることによって、SNPの種類(silent・coding・regulatory・intronなど)を判別することができる。
【0085】
また、本実施の形態によれば、入力された指示に基づいておこなわれたハプロタイプ再構築の結果ごとに、バージョンを付与するため、付与されたバージョンに基づいてバージョン管理をおこなうことができる。したがって、再構築したハプロタイプ情報格納の際には、バージョン更新または、新規登録の選択が可能である。また格納したデータは、バージョンを指定することにより、再表示が可能である。そのハプロタイプに対してさらに再構築をおこなうことも可能である。
【0086】
また、再構築を繰り返すことによって、遺伝子多型の『セット』をリファインさせ、その解析結果を一元的にバージョン管理することで、『量的形質感受性遺伝子のマーカー候補となる多型およびそのハプロタイプ』を探索することができる。この一連の疾患感受性遺伝子探索をおこなった思考プロセスを該当するすべてのバージョンのすべてのハプロタイプの関係図を表示することで、ハプロタイプ解析全体としての解析フローの表示が可能となる。
【0087】
また、本実施の形態によれば、ハプロタイプの再構築がおこなわれるたびに、多型データの多型頻度の決定および多型データのデータ群間の独立性の検定の少なくともいずれかをおこない、さらに、独立性の決定または多型頻度の決定をおこなう際に、各多型データの並び替えをするため、データ群間の独立性の検定(たとえば、カイ二乗検定など)結果に関しては、ハプロタイプが再構築されるたびに、自動的に再検定が実施され、特定値以上または以下に対してソートをかけることができ、ハプロタイプ解析のための情報を効率的に収集することができる。。また多型頻度に対しての検定もおこなうことができる。これは、多型が単点(1つのSNP)の場合でも同様におこなうことができる。
【0088】
また、本実施の形態によれば、SNP選択からハプロタイプ構築までの上記処理を、一定の大きさの染色体領域での処理においてもおこなうことができるため、遺伝子単位での処理に加え、ゲノムワイドすなわち一定の大きさの染色体領域での処理が可能である。また、染色体領域内を、連鎖不平衡係数マトリックス表示し、表示されたマトリックス表示上において、ハプロタイプ構築に用いる多型を選択するため、染色体上のあるゲノム領域をユーザーが任意に選択し、このゲノム領域内を、連鎖不平衡係数マトリックスで色分け表示し、画面上でハプロタイプ構築に用いる多型の選択をおこなうことが可能である。またゲノム領域表示画面内に、遺伝子領域の表示をおこない、各遺伝子単位のハプロタイプ構築画面へのリンク遷移が可能となる。
【0089】
また、多型に対するコメントの付記の内容に基づいて、すでに構築されたハプロタイプを検索し、さらに、検索された結果をパターン化し、登録するため、格納したバージョンを研究者が付記したコメントからのマイニングによる検索、および多型選択条件(統計結果、データマイニングによる結合規則・クラスタリング)の登録が可能となり、この条件を調査対象とするほかのゲノム領域への適用をおこない、ハプロタイプを構成する多型の自動選択をおこなうことができる。またこの自動選択した多型群に対して、研究者が任意に多型の追加削除をおこなうことができる。
【0090】
なお、本実施の形態におけるゲノム情報解析支援方法は、あらかじめ用意されたコンピュータ読み取り可能なプログラムであってもよく、またそのプログラムをサーバ101を含むパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現される。このプログラムは、HD、FD、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、このプログラムは、インターネット150などのネットワークを介して配布することが可能な伝送媒体であってもよい。
【0091】
(付記1)シークエンシングから得られるコンセンサス配列情報を取得するコンセンサス配列情報取得工程と、
タイピングプローブ配列情報を取得するタイピングプローブ情報取得工程と、
前記タイピングプローブ情報取得工程によって取得されたタイピングプローブ情報を、前記コンセンサス配列情報取得工程によって取得されたコンセンサス配列情報に対して相同性検索する相同性検索処理工程と、
を含んだことを特徴とするゲノム情報解析支援方法。
【0092】
(付記2)前記相同性検索工程によって検索された結果に基づいて、多型データの解析をおこなう多型データ解析工程と、
前記多型データ解析工程によって解析された結果を表示する第1の表示工程と、
を含んだことを特徴とする付記1に記載のゲノム情報解析支援方法。
【0093】
(付記3)前記第1の表示工程は、前記多型データ解析工程によって解析された結果を、公開された多型データと比較して表示することを特徴とする付記2に記載のゲノム情報解析支援方法。
【0094】
(付記4)前記第1の表示工程によって表示された結果に基づいて、複数の多型からなるハプロタイプの再構築の指示の入力を受け付ける入力工程と、
前記入力工程によって入力が受け付けられた指示に基づいておこなわれたハプロタイプの再構築の結果を表示する第2の表示工程と、
を含んだことを特徴とする付記2または3に記載のゲノム情報解析支援方法。
【0095】
(付記5)前記入力工程は、ハプロタイプを構成する多型の選択、ハプロタイプを構成する多型に対するタグ付け、およびハプロタイプを構成する多型に対するコメントの付記の少なくともいずれか一つをおこなうことを特徴とする付記4に記載のゲノム情報解析支援方法。
【0096】
(付記6)前記入力工程によって入力が受け付けられた指示に基づいておこなわれたハプロタイプ再構築の結果ごとに、バージョンを付与するバージョン付与工程を含んだことを特徴とする付記5に記載のゲノム情報解析支援方法。
【0097】
(付記7)前記ハプロタイプの再構築がおこなわれるたびに、前記多型データのデータ群間の独立性の決定および前記多型データの多型頻度の決定の少なくともいずれかをおこなうことを特徴とする付記4〜5のいずれか一つに記載のゲノム情報解析支援方法。
【0098】
(付記8)前記独立性の決定または多型頻度の決定をおこなう際に、各多型データの並び替えをするソート工程を含んだことを特徴とする付記7に記載のゲノム情報解析支援方法。
【0099】
(付記9)付記1〜付記8の各工程を、一定の大きさの染色体領域での処理においておこなうことを特徴とするゲノム情報解析支援方法。
【0100】
(付記10)前記染色体領域内を、連鎖不平衡係数マトリックス表示する第3の表示工程と、
前記表示工程によって表示された前記マトリックス表示上において、ハプロタイプ構築に用いる多型を選択する選択工程を含んだことを特徴とする付記9に記載のゲノム情報解析支援方法。
【0101】
(付記11)前記入力工程によっておこなわれた前記多型に対するコメントの付記の内容に基づいて、すでに構築されたハプロタイプを検索する検索工程を含んだことを特徴とする付記5〜9のいずれか一つに記載のゲノム情報解析支援方法。
【0102】
(付記12)前記検索工程によって検索された結果をパターン化し、登録するパターン登録工程を含んだことを特徴とする付記11に記載のゲノム情報解析支援方法。
【0103】
(付記13)シークエンシングから得られるコンセンサス配列情報を取得させるコンセンサス配列情報取得工程と、
タイピングプローブ配列情報を取得させるタイピングプローブ情報取得工程と、
前記タイピングプローブ情報取得工程によって取得されたタイピングプローブ情報を、前記コンセンサス配列情報取得工程によって取得されたコンセンサス配列情報に対して相同性検索させる相同性検索処理工程と、
をコンピュータに実行させることを特徴とするゲノム情報解析支援プログラム。
【0104】
(付記14)シークエンシングから得られるコンセンサス配列情報を取得するコンセンサス配列情報取得手段と、
タイピングプローブ配列情報を取得するタイピングプローブ情報取得手段と、
前記タイピングプローブ情報取得手段によって取得されたタイピングプローブ情報を、前記コンセンサス配列情報取得手段によって取得されたコンセンサス配列情報に対して相同性検索する相同性検索処理手段と、
を含んだことを特徴とするゲノム情報解析支援装置。
【0105】
【発明の効果】
以上説明したように、この発明によれば、より精度の高いハプロタイプ解析を効率的におこなうことが可能なゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置が得られるという効果を奏する。
【図面の簡単な説明】
【図1】この発明の本実施の形態にかかるゲノム情報解析支援方法を実現するシステムの全体構成を示す説明図である。
【図2】この発明の本実施の形態にかかるゲノム情報解析支援方法を実現するシステムのシステム構成を示す説明図である。
【図3】ベースコール配列の一例を示す説明図である。
【図4】シークエンシング配列でのアライメント結果の一例を示す説明図である。
【図5】コンセンサス配列データの一例を示す説明図である。
【図6】アライメントSNPデータの一例を示す説明図である。
【図7】タイピングプローブリストの一例を示す説明図である。
【図8】タイピングデータの一例を示す説明図である。
【図9】コンセンサス配列とプローブ配列の相同性検索の内容を示す説明図である。
【図10】リンク付けテーブルの一例を示す説明図である。
【図11】SNP−ID統合データの一例を示す説明図である。
【図12】アレル頻度データの一例を示す説明図である。
【図13】D’・r結果データの一例を示す説明図である。
【図14】ハプロタイプインプットファイルの一例を示す説明図である。
【図15】ハプロタイプ頻度結果の一例を示す説明図である。
【図16】ハプロタイプバージョンデータの一例を示す説明図である。
【図17】この発明の本実施の形態にかかるゲノム情報解析支援方法の処理の内容を示すフローチャートである。
【図18】SNPsビューワの表示画面の一例を示す説明図である。
【図19】SNP情報の詳細内容を表示した表示画面(ポップアップ画面)の一例を示す説明図である。
【図20】SNPsビューワの表示画面の別の一例を示す説明図である。
【図21】SNP情報の詳細内容を表示した表示画面(ポップアップ画面)の別の一例を示す説明図である。
【図22】SNPsビューワの表示画面の別の一例を示す説明図である。
【図23】SNPsビューワの表示画面の別の一例を示す説明図である。
【図24】SNPsビューワの表示画面の別の一例を示す説明図である。
【図25】SNP選択パターンの検索画面の一例を示す説明図である。
【図26】SNP選択パターンの登録・実行画面の一例を示す説明図である。
【図27】ハプロタイプバージョンの管理画面の一例を示す説明図である。
【図28】ハプロタイプ進化系統樹の一例を示す説明図である。
【図29】この発明の本実施の形態にかかるゲノム情報解析支援装置のハードウエア構成の一例を示すブロック図である。
【符号の説明】
101 サーバ
102 公共データベース群
103 データエントリ端末
150 インターネット
201 シークエンシングデータ
202 タイピングデータ
207 SNPsビューワ
211 ベースコール配列
212 コンセンサス配列データ
213 アライメントSNPデータ
214 タイピングプローブリスト
215 タイピングデータ
216 リンク付けテーブル
217 SNP−ID統合データ
218 アレル頻度データ
219 D’・r結果データ
220 ハプロタイプインプットファイル
221 ハプロタイプ頻度結果
222 ハプロタイプバージョンデータ

Claims (10)

  1. シークエンシングから得られるコンセンサス配列情報を取得するコンセンサス配列情報取得工程と、
    タイピングプローブ配列情報を取得するタイピングプローブ情報取得工程と、
    前記タイピングプローブ情報取得工程によって取得されたタイピングプローブ情報を、前記コンセンサス配列情報取得工程によって取得されたコンセンサス配列情報に対して相同性検索する相同性検索処理工程と、
    を含んだことを特徴とするゲノム情報解析支援方法。
  2. 前記相同性検索工程によって検索された結果に基づいて、多型データの解析をおこなう多型データ解析工程と、
    前記多型データ解析工程によって解析された結果を表示する第1の表示工程と、
    を含んだことを特徴とする請求項1に記載のゲノム情報解析支援方法。
  3. 前記第1の表示工程によって表示された結果に基づいて、複数の多型からなるハプロタイプの再構築の指示の入力を受け付ける入力工程と、前記入力工程によって入力が受け付けられた指示に基づいておこなわれたハプロタイプの再構築の結果を表示する第2の表示工程と、
    を含んだことを特徴とする請求項2に記載のゲノム情報解析支援方法。
  4. 前記入力工程は、ハプロタイプを構成する多型の選択、ハプロタイプを構成する多型に対するタグ付け、およびハプロタイプを構成する多型に対するコメントの請求項の少なくともいずれか一つをおこなうことを特徴とする請求項3に記載のゲノム情報解析支援方法。
  5. 前記入力工程によって入力が受け付けられた指示に基づいておこなわれたハプロタイプ再構築の結果ごとに、バージョンを付与するバージョン付与工程を含んだことを特徴とする請求項4に記載のゲノム情報解析支援方法。
  6. 請求項1〜請求項5の各工程を、一定の大きさの染色体領域での処理においておこなうことを特徴とするゲノム情報解析支援方法。
  7. 前記染色体領域内を、連鎖不平衡係数マトリックス表示する第3の表示工程と、
    前記表示工程によって表示された前記マトリックス表示上において、ハプロタイプ構築に用いる多型を選択する選択工程を含んだことを特徴とする請求項6に記載のゲノム情報解析支援方法。
  8. 前記入力工程によっておこなわれた前記多型に対するコメントの請求項の内容に基づいて、すでに構築されたハプロタイプを検索する検索工程を含んだことを特徴とする請求項4〜6のいずれか一つに記載のゲノム情報解析支援方法。
  9. シークエンシングから得られるコンセンサス配列情報を取得させるコンセンサス配列情報取得工程と、
    タイピングプローブ配列情報を取得させるタイピングプローブ情報取得工程と、
    前記タイピングプローブ情報取得工程によって取得されたタイピングプローブ情報を、前記コンセンサス配列情報取得工程によって取得されたコンセンサス配列情報に対して相同性検索させる相同性検索処理工程と、
    をコンピュータに実行させることを特徴とするゲノム情報解析支援プログラム。
  10. シークエンシングから得られるコンセンサス配列情報を取得するコンセンサス配列情報取得手段と、
    タイピングプローブ配列情報を取得するタイピングプローブ情報取得手段と、
    前記タイピングプローブ情報取得手段によって取得されたタイピングプローブ情報を、前記コンセンサス配列情報取得手段によって取得されたコンセンサス配列情報に対して相同性検索する相同性検索処理手段と、
    を含んだことを特徴とするゲノム情報解析支援装置。
JP2003025284A 2003-01-31 2003-01-31 ゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置 Pending JP2004234580A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003025284A JP2004234580A (ja) 2003-01-31 2003-01-31 ゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003025284A JP2004234580A (ja) 2003-01-31 2003-01-31 ゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置

Publications (1)

Publication Number Publication Date
JP2004234580A true JP2004234580A (ja) 2004-08-19

Family

ID=32953607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003025284A Pending JP2004234580A (ja) 2003-01-31 2003-01-31 ゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置

Country Status (1)

Country Link
JP (1) JP2004234580A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293481A (ja) * 2005-04-06 2006-10-26 Hitachi Software Eng Co Ltd 遺伝子データ解析方法プログラム
JP2007233485A (ja) * 2006-02-27 2007-09-13 Fujitsu Ltd 遺伝子多型解析支援プログラム、該プログラムを記録した記録媒体、遺伝子多型解析支援装置、および遺伝子多型解析支援方法
JP2010072827A (ja) * 2008-09-17 2010-04-02 Hitachi Software Eng Co Ltd 生体高分子の表示方法及び装置
JP2014146318A (ja) * 2013-01-28 2014-08-14 Hasso Plattner Institute Fur Softwaresystemtechnik Gmbh インメモリデータベースシステム及びリアルタイム解析を用いるゲノムデータ処理のシステム及び方法
WO2015146852A1 (ja) * 2014-03-24 2015-10-01 株式会社 東芝 基準ゲノムデータを生成する方法、装置及びプログラム、差分ゲノムデータを生成する方法、装置及びプログラム、データを復元する方法、装置及びプログラム
JP2017184742A (ja) * 2011-04-14 2017-10-12 コンプリート・ジェノミックス・インコーポレイテッド 複合核酸配列データの処理および解析
JP7328632B2 (ja) 2019-06-19 2023-08-17 日本電気株式会社 集積集合データの製造装置、製造方法、プログラム、および記録媒体

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293481A (ja) * 2005-04-06 2006-10-26 Hitachi Software Eng Co Ltd 遺伝子データ解析方法プログラム
JP2007233485A (ja) * 2006-02-27 2007-09-13 Fujitsu Ltd 遺伝子多型解析支援プログラム、該プログラムを記録した記録媒体、遺伝子多型解析支援装置、および遺伝子多型解析支援方法
JP2010072827A (ja) * 2008-09-17 2010-04-02 Hitachi Software Eng Co Ltd 生体高分子の表示方法及び装置
JP2017184742A (ja) * 2011-04-14 2017-10-12 コンプリート・ジェノミックス・インコーポレイテッド 複合核酸配列データの処理および解析
JP2014146318A (ja) * 2013-01-28 2014-08-14 Hasso Plattner Institute Fur Softwaresystemtechnik Gmbh インメモリデータベースシステム及びリアルタイム解析を用いるゲノムデータ処理のシステム及び方法
WO2015146852A1 (ja) * 2014-03-24 2015-10-01 株式会社 東芝 基準ゲノムデータを生成する方法、装置及びプログラム、差分ゲノムデータを生成する方法、装置及びプログラム、データを復元する方法、装置及びプログラム
JP7328632B2 (ja) 2019-06-19 2023-08-17 日本電気株式会社 集積集合データの製造装置、製造方法、プログラム、および記録媒体

Similar Documents

Publication Publication Date Title
Speidel et al. A method for genome-wide genealogy estimation for thousands of samples
Rentería et al. Using PLINK for genome-wide association studies (GWAS) and data analysis
Dereeper et al. SNiPlay: a web-based tool for detection, management and analysis of SNPs. Application to grapevine diversity projects
Li et al. Toward high-throughput genotyping: dynamic and automatic software for manipulating large-scale genotype data using fluorescently labeled dinucleotide markers
JP2001515234A (ja) 多型性データベースを提供するためのシステム
Yan et al. SR4R: an integrative SNP resource for genomic breeding and population research in rice
Rajagopalan et al. Variations on a chip: Technologies of difference in human genetics research
Bochtler et al. World Marrow Donor Association framework for the implementation of HLA matching programs in hematopoietic stem cell donor registries and cord blood banks
Wang et al. iSheep: an integrated resource for sheep genome, variant and phenotype
EP1290613A1 (en) Method and system for determining haplotypes from a collection of polymorphisms
JP2004234580A (ja) ゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置
CN108376210A (zh) 基因组信息辅助育种方法ⅱ-一种基于全基因组snp有利单倍型挖掘的育种亲本选择方法
Ram et al. Complex trait analyses of the collaborative cross: tools and databases
Takada et al. MoG+: a database of genomic variations across three mouse subspecies for biomedical research
Luo et al. MaizeCUBIC: a comprehensive variation database for a maize synthetic population
Collins et al. Marker-assisted congenic screening (MACS): a database tool for the efficient production and characterization of congenic lines
Sanchez-Villeda et al. DNAAlignEditor: DNA alignment editor tool
De La Vega Selecting single-nucleotide polymorphisms for association studies with SNPbrowser™ software
Qi et al. EigenGWAS: An online visualizing and interactive application for detecting genomic signatures of natural selection
Chen et al. MI-MAAP: marker informativeness for multi-ancestry admixed populations
Motsinger et al. Clinical applications of whole-genome association studies: future applications at the bedside
Bult Bioinformatics resources for behavior studies in the laboratory mouse
Eppig et al. Informatics for mouse genetics and genome mapping
Yang et al. 4kSoyGVP provides a referenced variation map for genetic research in soybean
JP4477894B2 (ja) 遺伝子解析システム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040413

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060130

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20060130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060405

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090310

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090511

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090811