JP4861573B2

JP4861573B2 - 研究遺伝子産物の重要性を予測するシステム

Info

Publication number: JP4861573B2
Application number: JP2001235345A
Authority: JP
Inventors: 弘三川原; 利夫田中
Original assignee: 株式会社ワールドフュージョン
Priority date: 2001-08-02
Filing date: 2001-08-02
Publication date: 2012-01-25
Anticipated expiration: 2021-08-02
Also published as: JP2003044481A

Description

【０００１】
【発明の属する技術分野】
本発明は、コンピューターを用いた、創薬候補となりうる遺伝子を特定するシステムに関する。特に遺伝子と化合物と疾患の関連を検討することによって遺伝子とその産物の研究を行うために有用な候補となりうる遺伝子と化合物を見つけるためにデータベースをマイニングし、具体的に有用な候補となりうる遺伝子と化合物を検出するシステムに関する。
【０００２】
【従来の技術】
遺伝子とその産物の研究を進めていく上では、最も重要だと思われる遺伝子とその産物を見つけることが有効である。そのために、重要だと思われる遺伝子候補を選択しなければならない。重要と思われる遺伝子とは特定の疾患に対して創薬のターゲットとなる遺伝子である。そのため遺伝子と疾患との関連を考えながら候補となる低分子化合物候補を特定し、最終的にスクリーニング試験を行っていく。この中で、疾患と遺伝子の関連を特定する作業と、選択された遺伝子群に対して化合物候補を作製する作業をするとき、遺伝子と化合物を直接結びつけるデータベースは無いために、遺伝子配列から特定していく作業と文献などを参考にこれらの遺伝子と化合物候補を作成する。実際には公開された論文と公共遺伝子データベースと産物のデータベースを参照にしながら、経験を頼りにその重要性を見つけていた。
【０００３】
しかし、このような手法では誤差が大きく重要性が確定しないまま研究を続ける必要があるので、無駄な研究が行われてきた。このことは創薬などにおける遺伝子と産物の研究に莫大な費用の無駄を生じている。
また、従来において、文献や遺伝子データベースなどを用いて遺伝子に関する情報や化合物等に関する情報を一次元的に検索することはできたが、それらの関連、つまり特定遺伝子に関与している化合物と関与の程度を見つけるには、勘と経験を頼りにしか見つけることができなかったために、客観的に検討することができず、また大量の文献をすべて読むことは不可能で、判断をあやまることも多く、無駄な実験を行ってしまうために研究費に無駄が生じていた。遺伝子データベースや文献データベースには更新頻度が高く手作業では実現不可能であった。
【０００４】
【発明が解決しようとする課題】
しかし、従来においては他人の研究成果を参照しながら遺伝子とその産物に関する情報を研究する場合、産物や遺伝子データベース、文献データベースを手動で遺伝子名、化合物名、検索し該当する遺伝子データベースの検索をおこない、文献の要約を印刷し、それを見ながら経験的に該当しそうな化合物を見つけては実験を繰り返し行っていた。
たとえば特定の疾患に関してどのような遺伝子と化合物がよく研究対象になっているのかを知るためには、これら3要素の関連の強さをならべて見なければならないが、客観的にランク付けを行って見ることはできなかった。
【０００５】
そのために、いまから研究課題になりそうな遺伝子や化合物、重要な化合物と遺伝子やすでに研究ステージが終了しているもの、さらに、研究しても無駄である遺伝子と化合物を見つけることは不可能であった。
加えて、近年の遺伝子に関する研究データが急増しているために検索で出てくるデータ量は非常に多く、その中から経験的にこれらの関連を知るには経験と多くの時間が必要であった。
【０００６】
本発明の目的は上記の従来技術が有する問題点を解決するもので、日々更新される遺伝子や文献などのデータベースより、遺伝子に関連する疾患や化合物の関連性をコンピューターで見つけ、今後どの遺伝子や化合物を特定の疾患に関して検討していけばよいか、研究しても無駄な遺伝子や化合物は何かという指針を支援するための情報を随時研究者に提供することを目的とする。
【０００７】
上記目的を達成するために、本発明の研究遺伝子産物の重要性を予測するシステムは、公開された外部情報から遺伝子、化合物、疾患、及びこれらの文献に関するデータを検索する第１の検索手段と、前記第１の検索手段の結果に基づき、一の遺伝子名と一の化合物名の両方が含まれる文献に関する情報及び該文献の件数を遺伝子名と化合物名の組み合わせ毎に保存した第１の記憶手段と、前記第１の検索手段の結果に基づき、一の化合物名と一の疾患名の両方が含まれる文献に関する情報及び該文献の件数を化合物名と疾患名の組み合わせ毎に保存した第２の記憶手段と、前記第１の検索手段の結果に基づき、一の疾患名と一の遺伝子名の両方が含まれる文献に関する情報及び該文献の件数を保存した第３の記憶手段と、前記第１の記憶手段、第２の記憶手段、第３の記憶手段に対して、遺伝子名、化合物名、疾患名のいずれかのカテゴリの第１のキーワードにより検索を行い、前記第１のキーワードと組み合わせを持ち、かつ前記第１のキーワードが属するカテゴリと異なる遺伝子名、化合物名、疾患名のいずれかによる第１の名前情報グループを抽出する第２の検索手段と、前記第１のキーワードと第１の名前情報グループにおける名前の両方を含む文献の件数による第１の文献件数が多い順に前記第１の名前情報グループの名前を表示する第１の表示手段と、前記第１の名前情報グループから選択された第２のキーワードにより検索を行い、前記第２のキーワードと組み合わせを持ち、かつ前記第２のキーワードが属するカテゴリと異なる遺伝子名、化合物名、疾患名のいずれかによる第２の名前情報グループを抽出する第３の検索手段と、前記第１のキーワードと第２のキーワードと第２の名前情報グループにおける名前のすべてが含まれる文献の件数による第２の文献件数が多い順に前記第２の名前情報グループの名前を表示する第２の表示手段とを備えたことを主要な特徴としている。
【０００８】
上記の各手段を備えるシステムが実現することによって、研究者はタイムリーに情報の変化をとらまえることができるために、創薬などにおける研究のタイミングと目的遺伝子などの情報の検討が可能になる。
【０００９】
【発明の実施の形態】
本発明の一実施例の概要を図１に示す。以下図１に従って本発明の概要を述べることとし、細部の構成については図２以下を用いて説明することとする。
まず、本発明におけるシステムのデータマイニングは以下の方法で行っている。マイニングで必要なデータベースは遺伝子データベース１、化合物データベース２、疾患データベース３、と文献からのデータを抽出した論文情報データベース４、遺伝子／化合物／疾患と論文情報を対応付けたデータベース５、遺伝子、化合物、疾患を相互に関連付けたデータベース６からなる。
【００１０】
遺伝子データベース１は、ヒトを含む遺伝子を有する全ての生物を対象とした遺伝子情報を格納する。格納するデータ項目は遺伝子名と遺伝子のシンボル、シンボルのエイリアス(同義語)およびMeshなどを利用した同義語を必須項目とし、LOCATIONの項目を含む場合もある。このデータベースと論文情報データベース4をもとにして、遺伝子と論文の対応データベース5を作成する。
化合物データベース２は、化合物や薬品情報を格納する。格納するデータ項目は化合物名または薬品名、CASナンバー、Meshなど利用した同義語を必須項目とする。このデータベースと論文情報データベース4をもとにして、化合物と論文の対応テーブル5を作成する。
【００１１】
疾患データベース３は、疾患情報を格納する。格納するデータ項目は疾患名とMeshなどを利用した同義語を必須項目とする。このデータベースと論文情報データベース4をもとにして、疾患と論文の対応テーブル5を作成する。
文献から抽出した論文情報データベース４は、文献情報をデータ項目別に格納したデータベース。遺伝子データベース１、化合物データベース２、疾患データベース３と論文を関連付けるために利用する。格納するデータ項目は論文名、著者名、論文雑誌名、出版日、要約、ケミカルリスト、CASナンバー、Meshを必須項目とする。これらのデータ項目が論文を関連付ける際の検索対象となる。公共データベースやプライベートデータベースからデータ項目別に分解してデータを読み取り、データベースに格納するプログラムを用意することによって自動でデータを作成する仕組みを持つ。
【００１２】
遺伝子／化合物／疾患と論文を対応付けたデータベース５は、以下の３つのパターンで作成される。
第一に、遺伝子に関連するキーワードが論文情報データベース４の論文情報に含まれるかを判別し、遺伝子と論文の関係が決定すれば、遺伝子データベース１と論文情報データベース４を対応づけたデータを格納する。ただし、前処理としてキーワードの作成処理（後述する）を含む。
第二に、化合物に関連するキーワードが論文情報データベース４の論文情報に含まれるかを判別し、化合物と論文の関係が決定すれば、化合物データベース１と論文情報データベース４を対応づけたデータを格納する。
【００１３】
第三に、疾患に関連するキーワードが論文情報データベース４の論文情報に含まれるかを判別し疾患と論文の関係が決定すれば、疾患データベース１と論文情報データベース４を対応づけたデータを格納する。
キーワードの作成処理法として、遺伝子データベースの遺伝子名とシンボル、エイリアスから論文情報を検索する条件の基準として以下の３レベルの検索ワードを作成する。
▲１▼ シンボル or エイリアス
▲２▼ シンボル or エイリアス or (遺伝子名の1つ目のワード and 遺伝子名の2つ目のワード)
▲３▼ シンボル or エイリアス or 遺伝子名の1つ目のワード
遺伝子／化合物／疾患の相互を関連付けするデータベース６は、以下の３つのパターンで作成する
【００１４】
第一に、遺伝子と論文との対応ＤＢと、化合物と論文との対応ＤＢで、共通する論文の有無を判別し、共通論文が存在すれば、遺伝子と化合物の関係データを格納する。
第二に、化合物と論文との対応ＤＢと、疾患と論文との対応ＤＢとの関係で、共通する論文の有無を判別し、共通論文が存在すれば、化合物と疾患の関係データを格納する。
第三に、疾患と論文との対応ＤＢと、遺伝子と論文との対応ＤＢとの関係で、共通論文の有無を判別し、共通論文が存在すれば、疾患と遺伝子の関係データを格納する。
以下に各ＤＢの作成方法を詳述する。
遺伝子ＤＢの作成は以下のように行う。
公共データベース７、例えば、インターネット上で公開されている遺伝子に関するＤＢから、以下の各情報を遺伝子ＤＢ１に登録する。登録時に遺伝子IDを割り当てる。
遺伝子名
遺伝子のシンボル
エイリアス（同義名）
Meshなどの同義語
LOCATION
遺伝子名を登録する際、エイリアス遺伝子名に対する処理については以下の手順を踏む。ある遺伝子が同義の遺伝子名の参照を記している場合、その遺伝子を重複データとして排除し、代わりに同義の参照先となった遺伝子に排除した遺伝子のシンボルをエイリアスデータとして登録する。重複した遺伝子データを同義語としてデータ登録することによって、遺伝子と関連するデータが複数の同義の遺伝子のデータとして分散するのを防ぐ。
【００１５】
次に、化合物ＤＢ２の作成は以下のように行う。
公共データベース７から公開されている化合物や薬品に関する以下の各情報を化合物ＤＢ２に登録する。登録時に化合物IDを割り当てる。
化合物または薬品名
CASナンバー
Meshなどの同義語
疾患ＤＢ３の作成は以下のように行う。
公開されている疾患に関する以下の各情報を疾患テーブルに登録する。登録時に疾患IDを割り当てる。疾患名
Meshなどの同義語
【００１６】
論文情報ＤＢ４の作成をあらかじめ行っている場合には以下の論文ＩＤの取得という操作は必要がないが、公共データベース７から遺伝子情報をキーにして検索し、論文情報を取得して、論文情報ＤＢ４を作成するとともに、ＤＢ５の遺伝子と論文ID対応付けテーブルをも作成する場合には以下の論文ＩＤの取得という前処理が行われる。
１)遺伝子の名前により３レベルに検索用ワードの作成（あいまいな遺伝子名から成分を抽出する方法）
遺伝子ＤＢ１の遺伝子名、シンボルとエイリアスの組み合わせで３レベルに検索用ワードを作成する。
▲１▼ シンボル or エイリアス
▲２▼ シンボル or エイリアス or (遺伝子名の1つ目のワード and 遺伝子名の2つ目のワード)
▲３▼ シンボル or エイリアス or 遺伝子名の1つ目のワード
▲３▼＜▲２▼＜▲１▼ の順で精度は高くなり、ヒットする論文は少なくなる。
【００１７】
３つのレベルに分けることにより、画面出力時には精度の高いランキング、あいまい遺伝子名によるランキングが可能となる。それ以外に、▲１▼の検索ワードでヒットする論文が少なすぎる場合には検索制限を緩くするなどできる。
２) 作成した検索ワードを使用し論文IDを取得する。
作成した検索ワードでインターネット上のサイトを検索し、ヒットした論文IDを取得する。
データ格納先は、遺伝子テーブル及び遺伝子と論文ID対応付けのテーブル。
論文IDは各種の論文が持っているIDを利用して、独自のIDを作成する。これにより、論文の公開元が異なっても本データベース内ではユニークなIDを持つことになり、また公開元のIDにも再変換することができるので公開もとの論文データベースにリンクして、情報を取得できる。
検索でヒットした論文が３万件以上の場合は検索ワードがあいまいすぎると判断して破棄する。
【００１８】
遺伝子ＤＢ１に以下のデータを登録する
1)検索用ワードの各レベルごとのヒット件数
2)次回更新時のためのダウンロード日付
3)遺伝子データの更新の有無（後の遺伝子テーブルのデータ更新作業で更新のあった遺伝子のみを作業対象とする省力化のため）
後の遺伝子テーブルのデータ更新作業で更新のあった遺伝子のみを作業対象とすることによって省力化する。
遺伝子と論文ID対応付けのテーブルに以下のデータを登録する。
検索元に検索プログラムがある場合は以下のデータを登録し、無い場合は後述する８．の方法をとる。
ただしこのテーブルはデータ検索の高速化のため遺伝子1000件につき１テーブルとする。
（例：遺伝子1000件の場合は10テーブルが作成される）
1)遺伝子ID
2)論文ID
3)要約文中の遺伝子名出現回数
4)論文タイトル名に遺伝子名の有無
5)Meshなどの同義語と遺伝子名が一致したかの有無
論文IDを記録する際には一時的に使用する更新テーブルにも書き込む。
また、前回までに取得した論文データのうち、まだデータが未完成のものもこの更新テーブルに書き込み、後に論文データの更新を行えるようにしておく。
【００１９】
論文情報ＤＢ４の作成は以下のように行う。
論文情報をインターネットや内部データベース、ファイルなど公共データデース７から取得する。論文情報のデータ形式はXMLやCSVなどであるが、さまざまな形式に対応したプログラムを用意しておく。上記論文ＩＤの取得で作成した更新用のテーブルから論文IDを取り出し論文情報を取得する。上記論文ＩＤの取得で関連する論文IDのテーブルを作成しなかった場合には、全ての論文のデータを取得する。
論文に関する以下の各情報を論文情報データベース４に登録する。論文情報データベースは用途別に次の５つの各テーブルに情報を分割して格納する。
論文基本情報テーブル
1) 論文名
2) 著者名
3) 論文雑誌名
4) 出版日
論文アブストラクトテーブル
1) 要約
論文ケミカルリストテーブル
1) ケミカルリスト
2) CAS NO
論文Meshテーブル
1) Meshなどの同義語
アクセションIDテーブル
1) accessionID
【００２０】
未完成の論文データがある場合があるので、未完成データの場合には未完成であるという情報を入れておき、次回の更新時に論文データを更新できるようにしておく。論文のデータが削除されているなど情報を取得できなかった論文IDを削除する。情報を取得できなかった論文IDを、遺伝子／化合物／疾患と論文情報を対応付けたデータベース５の中の遺伝子ＩＤと論文IDを対応付けしたテーブル５Ａから削除し、遺伝子ＤＢ１の検索ワードレベルごとのヒット件数情報を該当件数分減算する。
ＤＢ５の遺伝子ＩＤと論文IDを対応づけたテーブルの各レコードに論文の出版日データを論文の情報ＤＢ４から取得して更新する。これを利用して画面出力時、論文の出版件数のチャートを表示する。
【００２１】
遺伝子／化合物／疾患と論文情報を対応付けたデータベース５の中の化合物と論文ＩＤ対応づけのテーブル５Ｂは以下のように作成する。
化合物ＤＢ２と論文情報ＤＢ４から、化合物と論文ID対応付けのテーブルに以下のデータを登録する。ただしこのテーブルはデータ検索の高速化のため化合物10000件につき１テーブルとする。
（例：化合物50000件の場合は 5テーブルが作成される）
1) 化合物ID
2) 論文ID
3) 要約文中の化合物出現回数
4) 論文タイトル名に化合物名の有無
5) ケミカルリストと化合物が一致したかの有無
手順を以下に示す。
１)化合物名で論文情報データベース４を検索
化合物のテーブルから化合物名を取り出し、それを検索ワードとしてヒットする論文IDを取得し、ＤＢ５の化合物と論文IDを対応付けするテーブル５Ｂに登録する。検索対象は論文IDの更新テーブルから取得した論文IDで、論文の各テーブルから論文のタイトル、要約、化合物リストを抽出して検索をする。論文名、要約、ケミカルリストのどの項目で一致したかを付加情報として登録する。要約については文中に化合物名が出現した回数を登録する。
２)CASナンバーで論文情報データベース４を検索
化合物のテーブルからCASナンバーを取り出し、それを検索ワードとしてヒットする論文IDを取得し、ＤＢ５の化合物と論文IDを関連付けするテーブル５Ｂに書き込む。検索対象は論文IDの更新テーブルから取得した論文IDで、論文の各テーブルから論文のCASナンバーを抽出して検索をする。ヒットした場合はケミカルリストと一致したという情報を書き込む。
３)化合物名の同義語で論文情報データベース４を検索
【００２２】
化合物ＤＢ２からMeshなどを利用して作成した化合物名の同義語を取り出し、それを検索ワードとしてヒットする論文IDを取得し、ＤＢ５の化合物と論文IDを関連付けするテーブル５Ｂに書き込む。検索対象は論文IDの更新テーブルから取得した論文IDで、論文情報ＤＢ４の各テーブルから論文のタイトル、要約、化合物リストを抽出して検索をする。データベースに登録する際には論文名、要約、ケミカルリストのどの項目で一致したかを付加情報として登録する。要約については文中に検索ワードが出現した回数を登録する。
４)検索した結果を化合物のリストテーブルに書き込む。
化合物を検索してヒットした件数を化合物テーブルに書き込む。
ＤＢ５の疾患と論文ID対応付けのテーブル５Ｃの作成は以下のように行う。
疾患ＤＢ３と論文情報データベース４から、疾患と論文ID対応付けのテーブル５Ｃに以下のデータを登録する。
ただしこのテーブルはデータ検索の高速化のため疾患10000件につき１テーブルとする。
（例：疾患50000件の場合は 5テーブルが作成される）
1) 疾患ID
2) 論文ID
3) 要約文中の疾患名出現回数
4) 論文タイトル名に疾患名の有無
5) Meshなどの同義語と疾患名が一致したかの有無
手順を以下に示す。
(1) 疾患名で論文情報データベース４を検索
疾患ＤＢ３から疾患名を取り出し、それを検索ワードとしてヒットする論文IDを取得し、ＤＢ５の疾患と論文IDを関連付けするテーブル５Ｃに書き込む。検索対象は論文IDの更新テーブルから取得した論文IDで、論文の各テーブルから論文のタイトル、要約、Meshリストを抽出して検索をする。論文名、要約、Meshリストのどの項目で一致したかを付加情報として登録する。要約については文中に検索ワードが出現した回数を登録する。
(2)疾患名の同義語で論文情報データベースを検索
疾患のテーブルからMeshなどを利用して作成した疾患名の同義語を取り出し、それを検索ワードとしてヒットする論文IDを取得し、ＤＢ５の疾患と論文IDを対応付けするテーブル５Ｃに書き込む。検索対象は論文IDの更新テーブルから取得した論文IDで、論文の各テーブルから論文のタイトル、要約、Meshリストを抽出して検索をする。論文名、要約、Meshリストのどの項目で一致したかを付加情報として登録する。要約については文中に検索ワードが出現した回数を登録する。
(3)検索した結果を疾患のリストテーブルに書き込む。
疾患を検索してヒットした件数を疾患ＤＢ３に書き込む。
【００２３】
ＤＢ５の遺伝子と論文ID対応付けのテーブル５Ａの作成は以下のように行う。
上記論文ＩＤの取得で検索元に検索プログラムがない場合は元の論文データベースから全データを取得し、以下の方法でＤＢ５の遺伝子と論文ID対応付けのテーブル５Ａに以下のデータを登録する。ただしこのテーブルはデータ検索の高速化のため遺伝子1000件につき１テーブルとする。
（例：遺伝子1000件の場合は10テーブルが作成される）
1) 遺伝子ID
2) 論文ID
3) 要約文中の遺伝子名出現回数
4) 論文タイトル名に遺伝子名の有無
5) Meshなどの同義語と遺伝子名が一致したかの有無
手順を以下に示す。
１)シンボル、エイリアスで論文情報データベースを検索
遺伝子のテーブルからシンボルとエイリアスを取り出し、それを検索ワードとしてヒットする論文IDを取得し、遺伝子と論文IDを関連付けするテーブル５Ａを更新する。検索対象は論文IDの更新テーブルから取得した論文IDで、論文の各テーブルから論文のタイトル、要約を抽出して検索をする。論文名、要約、Meshリストのどの項目で一致したかを付加情報として登録する。要約については文中に検索ワードが出現した回数を登録する。
２）遺伝子名で検索
遺伝子のテーブルから遺伝子名を取り出し、それを検索ワードとしてヒットする論文IDを取得し、遺伝子と論文IDを関連付けするテーブル５Ａに書き込む。検索対象は論文IDの更新テーブルから取得した論文IDで、論文の各テーブルから論文のタイトル、要約、Meshリストを抽出して検索をする。論文名、要約、Meshリストのどの項目で一致したかを付加情報として登録する。要約については文中に検索ワードが出現した回数を登録する。
３)遺伝子名の同義語で検索
遺伝子のテーブルからMeshなどで作成した同義語を取り出し、それを検索ワードとしてヒットする論文IDを取得し、遺伝子と論文IDを関連付けするテーブル５Ａに書き込む。検索対象は論文IDの更新テーブルから取得した論文IDで、論文の各テーブルから論文のタイトル、要約、Meshリストを抽出して検索をする。論文名、要約、Meshリストのどの項目で一致したかを付加情報として登録する。要約については文中に検索ワードが出現した回数を登録する。
４)検索した結果を遺伝子テーブルに書き込む。
遺伝子を検索してヒットした件数によって遺伝子テーブルを更新する。
【００２４】
遺伝子／化合物／疾患の相互を関連付けするデータベース６の遺伝子と関連する化合物情報テーブル６Ａの作成は以下のように行う。
ＤＢ５内の遺伝子と論文ID対応付けテーブルと化合物と論文ID対応付けテーブルの２テーブルから遺伝子IDと化合物IDを対応づける。データ格納先は、遺伝子と化合物の関連情報テーブル６Ａとなる。
以下のデータを登録する。
1) セットID
2) 遺伝子ID
3) 化合物ID
4) 共通論文件数
手順を以下に示す。
(1)遺伝子と化合物のそれぞれと関連する論文IDの一致件数を検索する。
新しく関連する論文IDが加えられた遺伝子と化合物を対象にして行う。
遺伝子と化合物の組み合わせでユニークなsetIDを作成する。
遺伝子と関連する論文IDを抽出し、次に化合物と関連する論文IDを抽出する。抽出した論文IDの一致件数を取得し、その一致件数とsetID、化合物名、遺伝子名レベルごとのヒット件数、化合物と遺伝子の関連論文IDの件数を書き込む。
(2)一致した論文IDの書き込み
遺伝子と化合物の組み合わせsetIDと論文情報を対応づける。
データ検索の高速化のため遺伝子、化合物のIDを利用して複数テーブルに分割する。
1) セットID
2) 論文ID
3) 要約文中の遺伝子名出現回数
4) 要約文中の化合物名出現回数
5) 論文タイトル名に遺伝子名の有無
6) 論文タイトル名に化合物名の有無
7) Meshなどの同義語と遺伝子名が一致したかの有無
8) Meshなどの同義語と化合物名が一致したかの有無
【００２５】
遺伝子と関連する疾患情報テーブル６Ｃは以下のように作成される。
遺伝子と論文ID対応付けテーブル５Ａと疾患と論文ID対応付けテーブル５Ｃの２テーブルから遺伝子IDと疾患IDを対応づける。データ格納先は、遺伝子と疾患の関連情報テーブル６Ｃ。
以下のデータを登録する。
1) セットID
2) 遺伝子ID
3) 疾患ID
4) 共通論文件数
手順を以下に示す。
(1)遺伝子と疾患のそれぞれと関連する論文IDの一致件数を検索する。
新しく関連する論文IDが加えられた遺伝子と疾患を対象にして行う。
遺伝子と疾患の組み合わせでユニークなsetIDを作成する。
遺伝子と関連する論文IDを抽出し、次に疾患と関連する論文IDを抽出する。抽出した論文IDの一致件数を取得し、その一致件数とsetID、疾患名、遺伝子名、レベルごとのヒット件数、疾患と遺伝子の関連論文IDの件数を書き込む。
(2) 一致した論文IDの書き込み
遺伝子と疾患の組み合わせsetIDと論文情報を対応づける。
データ検索の高速化のため遺伝子、疾患のIDを利用して複数テーブルに分割する。
1) セットID
2) 論文ID
3) 要約文中の遺伝子名出現回数
4) 要約文中の疾患名出現回数
5) 論文タイトル名に遺伝子名の有無
6) 論文タイトル名に疾患名の有無
7) Meshなどの同義語と遺伝子名が一致したかの有無
8) Meshなどの同義語と疾患名が一致したかの有無
【００２６】
化合物と関連する疾患情報テーブル６Ｂの作成は以下のように行われる。
(1)化合物と疾患のそれぞれと関連する論文IDの一致件数を検索する。
新しく関連する論文IDが加えられた化合物と疾患を対象にして行う。
化合物と疾患の組み合わせでユニークなsetIDを作成する。
化合物と関連する論文IDを抽出し、次に化合物と関連する論文IDを抽出する。抽出した論文IDの一致件数を取得し、その一致件数とsetID、化合物名、疾患名、カテゴリーごとのヒット件数、化合物と疾患の関連論文IDの件数を書き込む。
(2) 一致した論文IDの書き込み
遺伝子と疾患の組み合わせsetIDと論文情報を対応づける。
データ検索の高速化のため化合物、疾患のIDを利用して複数テーブルに分割する。
1)セットID
2)論文ID
3)要約文中の化合物名出現回数
4)要約文中の疾患名出現回数
5)論文タイトル名に化合物名の有無
6)論文タイトル名に疾患名の有無
7)Meshなどの同義語と化合物名が一致したかの有無
8)Meshなどの同義語と疾患名が一致したかの有無
さらに図１には示していないが、論文得点データ作成の作成は以下のように行われる。
ユーザが独自に、論文の各種情報に重みをつけ、キーワード同士の関連の強さをあらゆる重み条件で取得できるように論文得点テーブルを作成する。
論文得点テーブルは上記で作成した遺伝子／化合物／疾患の相互関連ＤＢ６をもとに作成される
テーブルの各項目
1)セットID
2)要約文中の遺伝子名（化合物名または疾患名）出現回数の合計値
3)論文タイトル名に遺伝子名の有無＝１として、その合計値
4)Meshなどの同義語と遺伝子名が一致したかの有無＝１として、その合計値
【００２７】
次に画面への出力方法について説明する。
ユーザーが使用する場合は、図１３のようなキーワード入力画面において、遺伝子（シンボル名も可）、化合物、疾患のいずれかの名前またはその一部を入力し、キーワードのカテゴリ（遺伝子、化合物、疾患）を選択する。
ＧＯをクリックすると、上記で入力されたキーワードのカテゴリテーブル（遺伝子テーブル、化合物テーブル、疾患テーブルのいずれか）をあいまい検索し候補となる名前リストを表示する。（図１４）
ここで、次画面でランキングしたいカテゴリ(遺伝子／疾患／薬物の何れか)選択する。また、下記のどの遺伝子名のレベルでヒットした論文件数を対象とするか選択する。
以下の３つのレベル
▲１▼シンボルorエイリアス
▲２▼シンボルorエイリアスor(遺伝子名の1つ目のワードand遺伝子名の2つ目のワード)
▲３▼シンボルorエイリアスor遺伝子名の1つ目のワード
図１４の画面で選択したキーワードに関連する遺伝子、化合物、疾患のいずれかのカテゴリデータのランキングを行う。
以下のデータを一覧表示する
1) 名前（遺伝子名、化合物名（薬品名）、疾患名の何れか）
2) 論文データ件数
3) ２キーワード（遺伝子、化合物、疾患のキーワードのうち２つ）の共通論文件数
4) 共通論文のヒット率
共通論文のヒット率＝（遺伝子、化合物、疾患のうち２つのキーワードによる共通論文件数）／単一キーワードのみの論文件数
【００２８】
以下に例を示す。
（例１）１．でキーワードが遺伝子→化合物ランキングの場合
遺伝子と化合物の関連付けテーブル（GENE_CHEMICAL_SETテーブル）をキーワード遺伝子のIDで検索し、組み合わせをもつ化合物IDと化合物名を取得。
化合物名のみの論文件数、２キーワード（遺伝子と化合物名）共通論文件数、
共通論文のヒット率のそれぞれの降順でランキング表示可能とする。
ユーザが、共通論文件数と共通論文のヒット率の下限を入力し、表示件数を制限を可能とする。
リスト表示された遺伝子、化合物、疾患のキーワードを選択すると論文リスト表示画面へ移る。
絞り込みランキング画面（図１６）
遺伝子、化合物、疾患のうち２カテゴリのランキング後、さらに絞り込みランキングを行う。ランキングするカテゴリは図１５の画面で選択し、遺伝子、化合物、疾患のいずれでもよい。
まず、２カテゴリのキーワードで共通する論文IDを取得し、さらに、この論文IDをもつカテゴリデータをランキング表示。
以下のデータを一覧表示する
1) 名前（遺伝子名、化合物名（薬品名）、疾患名の何れか）
2) 論文データ件数
3) ２キーワード（遺伝子、化合物、疾患のキーワードのうち２つ）の共通論文件数
4) 共通論文のヒット率
共通論文のヒット率＝（遺伝子、化合物、疾患のうち３つのキーワードによる共通論文件数）／単一キーワードのみの論文件数
【００２９】
以下に例を示す。
例えば、遺伝子→化合物（または化合物→遺伝子）のランキング後、絞り込みランキングカテゴリで疾患を選択した場合
遺伝子と化合物の共通論文IDテーブル（GENE_CHEMICAL_SET IDテーブル）を特定の遺伝子と化合物の組み合わせでヒットする論文IDを取得。
遺伝子と疾患の共通論文IDテーブル（GENE_DISEASE_SET IDテーブル）から前述の論文IDをもつ、疾患ID・NAMEを取得。
疾患名のみの論文件数、３キーワード（遺伝子名・化合物名・疾患名）の共通論文件数、共通論文のヒット率のそれぞれの降順でランキング表示可能とする。
ユーザが、共通論文件数と共通論文のヒット率の下限を入力し、表示件数を制限を可能とする。
リスト表示された遺伝子、化合物、疾患のキーワードを選択すると論文リスト表示画面へ移る。
論文リスト表示画面（図１７）
上記のランキング画面（図１５）または絞り込みランキング画面（図１６）にて、リスト表示された遺伝子、化合物、疾患のキーワードを選択（クリック）すると、そのキーワードに関連する以下の論文データを一覧表示する。
1) 論文ID
2) 論文名（タイトル）
3) 論文アブストラクト中のキーワードの出現頻度
4) 論文に関連のあるAccession ID
キーワードの出現頻度の降順に並べ替え可能とする。
目的の論文IDを選択（クリック）すると、公共文献データベースへリンク可能とする。
【００３０】
主成分分析によるランキング
論文得点テーブルの以下の各項目の成分を総合化し、主成分分析得点を算出する。その得点によりランキング表示可能とする。
論文得点テーブル項目
▲１▼ 要約文中の遺伝子名（化合物名または疾患名）出現回数の合計値
▲２▼ 論文タイトル名に遺伝子名の有無＝１として、その合計値
▲３▼ Meshなどの同義語と遺伝子名が一致したかの有無＝１として、その合計値
【００３１】
ユーザ設定ランキング
上記のランキング画面または絞り込みランキング画面にて、論文情報のうち、要約・タイトル・Meshなどの同義語の、どの項目を重視したいかによって、重み係数を決定し、入力。以下の論文得点テーブルの項目に重みづけして、その得点によりランキング表示可能とする。
論文得点テーブル項目
▲１▼要約文中の遺伝子名（化合物名または疾患名）出現回数の合計値
▲２▼ 論文タイトル名に遺伝子名の有無＝１として、その合計値
▲３▼ Meshなどの同義語と遺伝子名が一致したかの有無＝１として、その合計値重みづけの方法
３つの項目にそれぞれ重みを付けたい場合、３つの重み係数をそれぞれweight１、weight２、weight３とすれば、以下の計算式にて算出される
得点＝ ▲１▼×（weight１）＋▲２▼×（weight２）＋▲３▼×（weight３）
【００３２】
論文出版件数（文献発行件数）の時間的推移画面（図１８）
上記のランキング画面にて、遺伝子、化合物、疾患のうち特定の２キーワードの組み合わせを１つ指定して共通の論文の出版日又は、共通の文献の発行日を取得する。
ユーザは目的とする遺伝子、疾患、化合物の単独論文件数または任意の組み合わせの共通論文件数の時間的変動を見ることにより、研究の成長度を知る。
出版件数の取得法
論文データ作成時に出版日を登録しておき、ユーザが指定した、２キーワードの組み合わせでユニークなID（セットID）と単一キーワードのIDにより論文IDを取得。論文IDにより出版日を取得したら出版年で出版件数の合計をとりグラフに表示する。
【００３３】
【発明の効果】
本発明の研究遺伝子産物の重要性を予測するシステムによれば、遺伝子に関連する疾患や化合物の関連性をコンピューターで見つけ、上述したようにランキング表示や、共通の文献の発行件数の時間的推移を見ることによって、今後どの遺伝子や化合物を特定の疾患に関して検討していけばよいか、研究しても無駄な遺伝子や化合物は何かという指針を支援するための情報を得ることができる。
【図面の簡単な説明】
【図１】本発明のデータマイニング処理の概略を示す図である。
【図２】本発明の遺伝子データベースの作成フロー図である。
【図３】本発明の化合物データベースの作成フロー図である。
【図４】本発明の疾患データベースの作成フロー図である。
【図５】本発明の論文情報データベースの作成フロー図である。
【図６】本発明の遺伝子と論文を対応づけるデータベース作成フロー図である。
【図７】本発明の化合物と論文を対応づけるデータベース作成フロー図である。
【図８】本発明の疾患と論文を対応づけるデータベース作成フロー図である。
【図９】本発明の遺伝子と化合物を関連づけるデータベース作成フロー図である。
【図１０】本発明の化合物と疾患を関連づけるデータベース作成フロー図である。
【図１１】本発明の疾患と遺伝子を関連づけるデータベース作成フロー図である。
【図１２】本発明のデータ出力処理フロー図である。
【図１３】本発明におけるキーワード入力画面を示す図である。
【図１４】本発明におけるキーワード候補リストを示す図である。
【図１５】本発明におけるランキング画面を示す図である。
【図１６】本発明における絞り込みランキング画面を示す図である。
【図１７】本発明における論文リスト画面を示す図である。
【図１８】本発明における文献の発行件数の時間的推移を示す図である。

Claims

公開された外部情報から遺伝子、化合物、疾患、及びこれらの文献に関するデータを検索する第１の検索手段と、
前記第１の検索手段の結果に基づき、一の遺伝子名と一の化合物名の両方が含まれる文献に関する情報及び該文献の件数を遺伝子名と化合物名の組み合わせ毎に保存した第１の記憶手段と、
前記第１の検索手段の結果に基づき、一の化合物名と一の疾患名の両方が含まれる文献に関する情報及び該文献の件数を化合物名と疾患名の組み合わせ毎に保存した第２の記憶手段と、
前記第１の検索手段の結果に基づき、一の疾患名と一の遺伝子名の両方が含まれる文献に関する情報及び該文献の件数を保存した第３の記憶手段と、
前記第１の記憶手段、第２の記憶手段、第３の記憶手段に対して、遺伝子名、化合物名、疾患名のいずれかのカテゴリの第１のキーワードにより検索を行い、前記第１のキーワードと組み合わせを持ち、かつ前記第１のキーワードが属するカテゴリと異なる遺伝子名、化合物名、疾患名のいずれかによる第１の名前情報グループを抽出する第２の検索手段と、
前記第１のキーワードと第１の名前情報グループにおける名前の両方を含む文献の件数による第１の文献件数が多い順に前記第１の名前情報グループの名前を表示する第１の表示手段と、
前記第１の名前情報グループから選択された第２のキーワードにより検索を行い、前記第２のキーワードと組み合わせを持ち、かつ前記第２のキーワードが属するカテゴリと異なる遺伝子名、化合物名、疾患名のいずれかによる第２の名前情報グループを抽出する第３の検索手段と、
前記第１のキーワードと第２のキーワードと第２の名前情報グループにおける名前のすべてが含まれる文献の件数による第２の文献件数が多い順に前記第２の名前情報グループの名前を表示する第２の表示手段とを備えたことを特徴とする研究遺伝子産物の重要性を予測するシステム。
前記第１の表示手段による表示には、前記第１の文献件数を前記第１の名前情報グループにおける名前を含む文献の件数による第２の文献件数で除したヒット率の表示を含むことを特徴とする請求項１記載の研究遺伝子産物の重要性を予測するシステム。
前記第２の表示手段による表示には、第２の文献件数を、前記第２の名前情報グループの名前が含まれる文献件数で除したヒット率の表示を含むことを特徴とする請求項１記載の研究遺伝子産物の重要性を予測するシステム。
前記第１の表示手段による表示には、前記第１のキーワードによって抽出された文献情報の所定の項目に対する重み係数をユーザが任意に設定できるようにし、各項目の総合点による表示を含むことを特徴とする請求項１記載の研究遺伝子産物の重要性を予測するシステム。
前記第１の表示手段による表示には、前記第１のキーワードによって抽出された文献情報の所定の項目に対するキーワードの出現頻度による表示を含むことを特徴とする請求項１記載の研究遺伝子産物の重要性を予測するシステム。
前記第１のキーワードと第２のキーワードの２つのキーワードを含む文献の発行件数の現在までの変化、又は前記第１のキーワードを含む文献件数の現在までの変化、若しくは前記第２のキーワードを含む文献件数の現在までの変化を時系列で作成することを特徴とする請求項１記載の研究遺伝子産物の重要性を予測するシステム。