JP2005267282A

JP2005267282A - 研究遺伝子産物関連度予測システム

Info

Publication number: JP2005267282A
Application number: JP2004079260A
Authority: JP
Inventors: Toshio Tanaka; 利男田中; Junko Kohata; 純子香畑
Original assignee: Kitakyushu Foundation for Advancement of Industry Science and Technology
Current assignee: Kitakyushu Foundation for Advancement of Industry Science and Technology
Priority date: 2004-03-18
Filing date: 2004-03-18
Publication date: 2005-09-29

Abstract

【課題】発現実験データより発現した遺伝子を選び出し、文献データマイニングで求めた遺伝子関連ネットワークに当該発現データを重ねて関連ネットワーク表示を行うことができる研究遺伝子産物関連度予測システムを提供する。
【解決手段】遺伝子データベース１と薬物データベース２と疾患データベース３とを文献マイニングして文献マイニングデータベース６を作成する。文献マイニングデータベース６には疾患と遺伝子の関連性、薬物と遺伝子の関連性、遺伝子同士の関連性を示すデータなどが作成され保存される。一方、ＤＮＡ発現データベース７には薬物投与によるＤＮＡ発現情報が保存される。文献マイニングデータベース６のデータとＤＮＡ発現データベース７のデータとをマージして、文献マイニングデータとＤＮＡ発現データとを統合表示する（Ｓ３）。
【選択図】図２

Description

本発明は、コンピュータを用いた一塩基多型（ＳＮＰ）解析のためのデータ処理に関するもので、特にキャピラリー電気泳動法を利用して取得した大量の遺伝子データを高速に効率良く処理するためのクロマトデータ処理システムに関する。

薬物（主に治療薬）の遺伝子への作用を研究するための方法に、文献から収集した情報とDNAチップで発現実験をおこなったデータを両方利用して薬物の遺伝子への作用を検討する方法がある。

この手法は、文献に記載している特定の疾患領域での薬物作用に関する情報をあらかじめ入手して遺伝子と薬物の関係をしる。それと同時に大量の遺伝子を載せたＤＮＡチップにて発現実験を行う。

文献情報から推測される遺伝子の相関や発現情報から得られる遺伝子の相関を考慮しながら、特定疾患における薬物と遺伝子の関連性を見つけていく。

ところで、文献データマイニングネットワークと発現情報を関連付けて解析するような手法は提案されていない。従来、例えば、図１４に示すように、文献データを利用して、遺伝子間の関連性をネットワーク条に図式化した例はあるが、疾患との関連は表現できていない。
特開２００３−４４４８１号公報

上記従来の技術では、対象となる遺伝子の数が多いために、特定疾患における薬物と遺伝子の関連性を容易に、かつ客観的に知ることができないという問題があった。

本発明は、上述した課題を解決するために創案されたものであり、文献マイニングの手法等を利用し特定の疾患や特定の疾患と治療薬に関する遺伝子同士の関連度をもとめ、その結果をデータベース化し、遺伝子の関連ネットワークデータベースを構築する。同時に細胞に薬物投与を行い、ＤＮＡチップを利用した発現実験を行う。発現実験データより発現した遺伝子を選び出し、文献データマイニングで求めた遺伝子関連ネットワークに当該発現データを重ねて関連ネットワーク表示を行う。このような研究遺伝子産物関連度予測システムを提供することを目的としている。

上記目的を達成するために、請求項１記載の発明は、遺伝子情報、薬物情報、疾患情報の各情報をこれらの情報が記載されている文献情報に基づいてデータマイニングを行い、遺伝子の発現情報とともに遺伝子間の関連度を予測する研究遺伝子産物関連度予測システムにおいて、前記文献マイニングにより第１の遺伝子群の各遺伝子に関連する第２の遺伝子群を抽出する手段と、前記第１の遺伝子群の遺伝子間の類似度を前記第２の遺伝子群に共通している遺伝子の個数に基づいて類似度を測る手段と、前記類似度が所定値以上のときに同一グループに配置する手段とを備えたことを特徴とする研究遺伝子産物関連度予測システムである。

また、請求項２記載の発明は、前記同一グループを形成するクラスタの中心を特定の比較される遺伝子とし、この遺伝子が他のクラスタに属するときには両方のクラスタに親子関係を紐付けることを特徴とする請求項１記載の研究遺伝子産物関連度予測システムである。

また、請求項３記載の発明は、前記同一グループを形成するクラスタと他のクラスタとの距離を両方のクラスタに属する遺伝子の個数に基づき決定することを特徴とする請求項１〜請求項２記載の研究遺伝子産物関連度予測システムである。

また、請求項４記載の発明は、前記同一グループを形成するクラスタの遺伝子数を頂点とした多角形の頂点を遺伝子の座標とし、この多角形の重心を求める手段を備え、この重心と前記クラスタ間の距離に基づいて遺伝子の表示座標を決定することを特徴とする請求項３記載の研究遺伝子産物関連度予測システムである。

また、請求項５載の発明は、前記遺伝子の表示座標に基づき、発現情報に関する遺伝子に相関する遺伝子をネットワーク表示することを特徴とする請求項４記載の研究遺伝子産物関連度予測システム特徴とする遺伝子解析システムである。

本発明によれば、画面上に遺伝子マップを表示することで、発現実験に利用した遺伝子と文献での報告の関連が良くわかる。このことを利用すると、発現実験でよく発現している遺伝子の中で文献データベースのエビデンスをもった遺伝子かそうでない遺伝子かを簡単に分類することができる。

以下、図面を参照して本発明の一実施形態を説明する。図１は本発明が適用されるシステム全体の構成を示す。

図１のように、疾患の階層辞書１、薬物の階層辞書２、遺伝子辞書３を文献DB４を利用してマイニング５を行い、遺伝子関連データ６を作成する。遺伝子辞書は次の3つを用意する。まず、family Gene については親データを作成し、階層辞書とし、 symbol：alias =1:N の関係（HUGOとNCBIのマージ）とし、 symbol：fullname =1:N の関係（HUGOとNCBIのマージ）とする。

また、例えば文献DB４の文献数は、XML形式でMedline2003 baseline 1200万件程度のものを想定する。文献マイニングの結果として得られる遺伝子関連データ６とマイクロアレイ発現実験の結果として得られる遺伝子マップデータ７とを統合して遺伝子のネットワーク８を構築する。

図１の内容をフローチャートで示したのが、図２である。
遺伝子データベース１と薬物データベース２と疾患データベース３とを文献マイニングして文献マイニングデータベース６を作成する。文献マイニングデータベース６には疾患と遺伝子の関連性、薬物と遺伝子の関連性、遺伝子同士の関連性を示すデータなどが作成され保存される。

一方、ＤＮＡチップ（Ｓ２）などを用いたＤＮＡ発現実験（Ｓ１）を行い、ＤＮＡ発現データベース７を作成する。この中には薬物投与によるＤＮＡ発現情報が保存される。次に、文献マイニングデータベース６のデータとＤＮＡ発現データベース７のデータとをマージして、文献マイニングデータとＤＮＡ発現データとを統合表示する（Ｓ３）。

このようにして、必要なデータを文献マイニングによって作成しておく必要がある。この文献マイニングの手法は、特開２００３−４４４８１号公報の内容に基づいて行われる。概略を説明しておく。

（１）必要なデータ
文献マイニングデータベース
（A）疾患からのアプローチによる遺伝子データ
図３に示すように、疾患データベースと遺伝子データベースとを文献マイニングして、遺伝子と疾患の関連データを作成する。この疾患と関連が論じられた遺伝子群を（A.1）とする。次に、疾患に関連する遺伝子同士の関連データを作成する。この（A.1）の遺伝子と疾患文献上で関連が論じられた遺伝子を（A.2）とする。次に、遺伝子と遺伝子の関連データを作成する。この（A.2）の遺伝子と関連が論じられた遺伝子群を（A.3）とする。

これらの（A.1）、（A.2）、（A.3）のつながりの関係を示すのが図４である。（A.1）と（A.2）は遺伝子シンボルＡで結び付いており、（A.2）と（A.3）は遺伝子シンボルＢで結びついている。

（B）薬物からのアプローチによる遺伝子データ
図５に示すように薬物データベースと遺伝子データベースとを文献マイニングして、遺伝子と薬物の関連データを作成する。この薬物と関連が論じられた遺伝子群を（B.1）とする。次に、薬物に関連する遺伝子同士の関連データを作成する。この（B.1）の遺伝子と薬物文献上で関連が論じられた遺伝子を（B.2）とする。次に、遺伝子と遺伝子の関連データを作成する。この（B.2）の遺伝子と関連が論じられた遺伝子群を（B.3）とする。

これらの（B.1）、（B.2）、（B.3）のつながりの関係を示すのが図６である。（B.1）、（B.2）は遺伝子シンボルＡで結び付いており、（B.2）、（B.3）は遺伝子シンボルＢで結びついている。
（Ｃ）薬物投与で動いた遺伝子群、すなわち、図２で示すＤＮＡチップ等を用いて行われた発現実験に基づく薬物投与によるＤＮＡ発現情報が必要となる。

（２）文献マイニングの方法
特開２００３−４４４８１号公報に記載されているような方法で行う。例えば、遺伝子と疾患の関連データについては、遺伝子に関連するキーワードが論文（文献）情報データベースの論文情報に含まれるかを判別し遺伝子と論文の関係が決定すれば、疾患データベースと論文情報データベースを対応づけたデータを格納する。また、疾患に関連するキーワードが論文（文献）情報データベースの論文情報に含まれるかを判別し疾患と論文の関係が決定すれば、疾患データベースと論文情報データベースを対応づけたデータを格納する。

次に、疾患と論文との対応データと、遺伝子と論文との対応データとの関係で、共通論文の有無を判別し、共通論文が存在すれば、疾患と遺伝子の関係データを格納する。そして、この共通論文の件数の数が多いほど、疾患と遺伝子との関連度が高いと判断できる。
また、上記のように、共通論文の件数に比例させずに、論文の各種情報に重みをつけ、キーワード同士の関連の強さをあらゆる重み条件で取得できるようにしても良い。

次の疾患に関連する遺伝子同士の関連データについても同様に上記処理を行う。図４の例で言えば、遺伝子シンボルＡと遺伝子シンボルＢとの関連度は、これら２つの遺伝子シンボルが共に現れている論文の件数をカウントして、関連の度合いとする。さらに、遺伝子と遺伝子の関連データ、図４の例では遺伝子シンボルＢと遺伝子シンボルＣとについても同様に関連度を求めることができる。なお、遺伝子と薬物の関連データについても上記と同様な処理にて関連度を求めることができる。

（遺伝子ネットワーク作成法）
上記文献マイニングによって次のような A遺伝子群（∋Ai ; i =1, … ,N）と、各々に対応する関連遺伝子と関連度のデータを抽出する。

次に、マイクロアレイ実験で発現したB遺伝子群（∋Bj ; j=1…N）のデータに下記の処理を行う。まず、Bjが文献マイニングで抽出したAi遺伝子と一致する場合 BjとAi をリンクする。Bjが文献マイニングで抽出したAi遺伝子と一致しない場合、新規に文献を検索し、Bj に対応する関連遺伝子と関連度のデータを抽出する.。

上記のように処理されたA遺伝子群データとB遺伝子群データとを用いて以下に示す処理を行う。
類似度： Ai遺伝子とAk遺伝子の類似度は R（Ai）とR（Ak）の共通な遺伝子の数によって定める。Ai遺伝子についてAk(k=i+1,…N)と逐次比較し、AiとAkが類似すればAiをクラスタ中心として同一クラスタとする。

次に、上記で作成したクラスタを用いて以下の処理を行う。
クラスタ間の親子関係：クラスタCqの中心となる遺伝子Ai が他のクラスタCｒに属すれば CrはCqクラスタの親とする。

Cr(ｒ=1…M) について Cq（q=r+1…M）と逐次比較する。
このようにして、クラスタとクラスタの親子関係の作成フローを示したのが、図７であり、各クラスタ内の遺伝子間の親子関係の結びつきの状態を表すのが、図８である。

（クラスタ同士間のデータ作成）
遺伝子クラスタデータ作成後、画面表示を行うため、クラスタ間の距離データ、およびクラスタ同士の接続（連結）データをデータベース化する。クラスタに属する遺伝子群について、文献マイニングによって作成されたの遺伝子と遺伝子の関連データベース、（図４、図６で述べたA.3 またはB.3）を参照しながら、距離データを作成する。

図９のように２つの遺伝子クラスタの要素である遺伝子と関連する遺伝子のうち、共通する遺伝子数によってクラスタ間の距離を定め（図９では、CとC'の遺伝子に関連する遺伝子数である）

共通する遺伝子数が多いほどクラスタ間の距離は近くなるようにする。共通する遺伝子シンボルデータをクラスタ同士の連結（接続）データとする。上記のクラスタ同士間のデータ作成の処理フローをしめすのが図１０であり、遺伝子クラスタデータ、クラスタ間距離データ、クラスタとクラスタを接続する遺伝子データの各状態を示したのが図１１である。

（遺伝子ネットワーク座標決定のアルゴリズム）
（ＳＴ１）データベースからクラスタデータを取り出す。クラスタに属する遺伝子数を頂点の数とした多角形の頂点を遺伝子の座標とする。
（ＳＴ２）（ＳＴ１）のステップにおけるクラスタの遺伝子について、クラスタ間の接続遺伝子データとして存在するかデータベースを検索し、次の場合に分ける。
（ＳＴ３）（ＳＴ１）のクラスタの遺伝子が自分Caと他のクラスタCbを接続データとなっている。場合は下記の（ＳＴ３）に処理を移す。

（ＳＴ４）他のクラスタ同士Cd、Ce、・・（2クラスタ以上）の接続データとなっている場合は下記の（ＳＴ４）に処理を移す。
（ＳＴ５）接続データとして存在しない場合は、下記の（ＳＴ８）に処理を移す。
（ＳＴ６）（ＳＴ１）の中心と接続データとなる遺伝子の座標の重心に関して対称な座標を、新クラスタCbの中心座標とし、Cbを入力データとして（ＳＴ１）にもどる。
（ＳＴ７）接続データの座標重心を中心とし、他のクラスタの数を頂点の数とした多角形の頂点座標を新クラスタの中心座標とし、Cd、Ce、・・を入力データとして（ＳＴ１）にもどる。

（ＳＴ８）現在まで入力したクラスタ群Cxについて、Cx以外の任意のクラスタCyと接続データをもつかデータベースを検索し、次の場合に分ける
（ＳＴ９）CxとCyの接続データが存在する
（ＳＴ１０）接続データがない場合は下記の（ＳＴ１２）に処理を移す。
（ＳＴ１１）現在まで入力した全クラスタの中心座標の重心とクラスタCｘの中心について対称な座標を接続遺伝子データの座標とし、Cyを入力データとして（ＳＴ１）にもどる。
（ＳＴ１）〜（ＳＴ１１）を繰り返し、逐次座標を決定する。

（ＳＴ１２）現在配置されたすべてのクラスタの中心の重心と最長距離にあるクラスタ中心に関して対象座標をクラスタの中心座標とし（ＳＴ１）にもどる。
（ＳＴ１３）入力データがなくなったら、クラスタ間の距離データによって、順次クラスタを移動する。
上記の遺伝子ネットワーク座標決定フローを示すのが、図１２である。
以上述べた方法を用いて、具体的に画像表示した例が、図１３である。

この例では、DNAチップ発現データベースの作成を行っているが、DNAチップを利用した遺伝子発現実験から得られる、次のデータをデータベース化して用いている。遺伝子発現量で遺伝子に対する薬理作用の有無を判断し、薬物と遺伝子の関連度として扱う。
・薬物名
・遺伝子シンボル
・遺伝子発現量
実験に用いた薬物は高血圧疾患の治療薬として用いられている薬物を投与した（薬物名metoprolol,）。

本実施例では、次の手順でデータベースを作成した。
文献データマイニングデータベースにおける高血圧症からのアプローチによって遺伝子と遺伝子の関連データ（A）を作成した。前述した（A）疾患からのアプローチによる（A.3）の遺伝子データの作成法を基礎としている。
文献データマイニングデータベースにおける同薬物からのアプローチによって遺伝子と遺伝子の関連データ（B）を作成した。前述した（B）薬物からのアプローチによる（B.3）の遺伝子データの作成法を基礎としている。

DNAチップ発現データベースにおける同薬物で薬理作用のあった遺伝子シンボル（C）を作成し、（A）（B）（C）の遺伝子シンボル名を照合し、（A）のみの遺伝子、（A）と（C）に共通する遺伝子、（B）のみの遺伝子、（B）と（C）に共通する遺伝子、（C）のみの遺伝子の5データに分けた。

（A）（B）から遺伝子ネットワークデータベースを構築し（前述した遺伝子ネットワーク作成アルゴリズムと遺伝子ネットワーク座標決定方法に基づく）、（C）のみの遺伝子については、別途文献マイニングを行い（前述した文献マイニングデータベースの薬物からのアプローチによるデータ（B.3）等に基づく）、DNAチップ発現データベースに使用した遺伝子と、関連のある遺伝子のデータベースを作成し遺伝子ネットワークデータベースに追加した。

遺伝子ネットワークデータをもとに遺伝子ネットワーク表示する際、5データを視覚的に区別できるようにした（色分け）。

図１３は、このようにして遺伝子クラスターデータベースの遺伝子を表示したものである。
（１）遺伝子を表す図形の意味
□ 文献データマイニングでHypertension と関連がありかつＤＮＡチップを利用した発現実験で発現した遺伝子。
□ 文献データマイニングでMetoprolol と関連がありかつＤＮＡチップを利用した発現実験で発現した遺伝子。
○ 薬物metoprolol を投与したＤＮＡチップを利用した発現実験でのみ発現した遺伝子。
△ 文献データマイニングでHypertension とMetoprololの両方と関連があり、かつＤＮＡチップを利用した発現実験で発現した遺伝子（今回は該当なし）。
（２）薬物metoprolol を投与したＤＮＡチップを利用した発現実験で発現した遺伝子 ○ は metoprolol と線で結ぶ

（３）文献データマイニングで薬物metoprolol とだけ（Hypertensionとの関連が論文上になかった）関連のある遺伝子はmetoprolol と線で結ぶ
（４）文献データマイニングで疾患Hypertensionとだけ関連のある Hypertensionと線で結ぶ
（５）遺伝子シンボルをあらわすgene Aなどのアルファベット以外に、Ｙ，Ｒ，Ｐ，Ｇ，Ｗ，Ｂの符号がつけられているのは、実際にはカラー表示されているためで、その遺伝子がどの色で表されているかを示す。Ｙは黄色、Ｒは赤、Ｐはピンク、Ｇはグリーン、Ｗは水色、Ｂはブルーを表す。
（６）同じクラスターに属する遺伝子は同色で表す。

この図から、gene A は実験でのみmetoprololに作用した遺伝子であるが、文献マイニングを別途行うと、gene C,D,E,F らと同じクラスターに属することが分かった。さらに geneC が文献データマイニングによってgeneH と関連がある。geneH は geneN と関連しており geneNと同じクラスターに属する geneMがHypertension との関連性がわかっている。つまり gene A は Hypertension との直接的な関連性がまだ判明していないが、文献データマイニングによる遺伝子ネットワーク上の遺伝子を介することでHypertensionとのつながりがあることが予測できる。

本発明の研究遺伝子産物関連度予測システムの概略構成を示す図である。図１のデータフローを示す図である。疾患からのアプローチによる関連データ作成のフローを示す図である。図３のフローにより作成されたデータ群を示す図である。疾患からのアプローチによる関連データ作成のフローを示す図である。図３のフローにより作成されたデータ群を示す図である。クラスタ作成フローを示す図である。クラスタ同士間のデータ結合の関係を示す図である。クラスタ同士間の距離の概念を示す図である。クラスタ同士間のデータ作成フローを示す図である。図１０のフローにより作成されたデータ群を示す図である。遺伝子ネットワーク座標決定のフローを示す図である。本発明を用いて画像表示した例を示す図である。従来の遺伝子間の関連性をネットワーク条に図式化した図である。

符号の説明

１遺伝子データベース
２薬物データベース
３疾患データベース
４文献データベース
６文献マイニングデータベース
７ＤＮＡ発現データベース

Claims

遺伝子情報、薬物情報、疾患情報の各情報をこれらの情報が記載されている文献情報に基づいてデータマイニングを行い、遺伝子の発現情報とともに遺伝子間の関連度を予測する研究遺伝子産物関連度予測システムにおいて、
前記文献マイニングにより第１の遺伝子群の各遺伝子に関連する第２の遺伝子群を抽出する手段と、
前記第１の遺伝子群の遺伝子間の類似度を前記第２の遺伝子群に共通している遺伝子の個数に基づいて類似度を測る手段と、
前記類似度が所定値以上のときに同一グループに配置する手段とを備えたことを特徴とする研究遺伝子産物関連度予測システム。
前記同一グループを形成するクラスタの中心を特定の比較される遺伝子とし、この遺伝子が他のクラスタに属するときには両方のクラスタに親子関係を紐付けることを特徴とすることを特徴とする請求項１記載の研究遺伝子産物関連度予測システム。
前記同一グループを形成するクラスタと他のクラスタとの距離を両方のクラスタに属する遺伝子の個数に基づき決定することを特徴とする請求項１〜請求項２記載の研究遺伝子産物関連度予測システム。
前記同一グループを形成するクラスタの遺伝子数を頂点とした多角形の頂点を遺伝子の座標とし、この多角形の重心を求める手段を備え、この重心と前記クラスタ間の距離に基づいて遺伝子の表示座標を決定することを特徴とする請求項３記載の研究遺伝子産物関連度予測システム。
前記遺伝子の表示座標に基づき、発現情報に関する遺伝子に相関する遺伝子をネットワーク表示することを特徴とする請求項４記載の研究遺伝子産物関連度予測システム。