JP4861573B2 - 研究遺伝子産物の重要性を予測するシステム - Google Patents

研究遺伝子産物の重要性を予測するシステム Download PDF

Info

Publication number
JP4861573B2
JP4861573B2 JP2001235345A JP2001235345A JP4861573B2 JP 4861573 B2 JP4861573 B2 JP 4861573B2 JP 2001235345 A JP2001235345 A JP 2001235345A JP 2001235345 A JP2001235345 A JP 2001235345A JP 4861573 B2 JP4861573 B2 JP 4861573B2
Authority
JP
Japan
Prior art keywords
name
gene
paper
keyword
compound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001235345A
Other languages
English (en)
Other versions
JP2003044481A (ja
Inventor
弘三 川原
利夫 田中
Original Assignee
株式会社 ワールドフュージョン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社 ワールドフュージョン filed Critical 株式会社 ワールドフュージョン
Priority to JP2001235345A priority Critical patent/JP4861573B2/ja
Publication of JP2003044481A publication Critical patent/JP2003044481A/ja
Application granted granted Critical
Publication of JP4861573B2 publication Critical patent/JP4861573B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、コンピューターを用いた、創薬候補となりうる遺伝子を特定するシステムに関する。特に遺伝子と化合物と疾患の関連を検討することによって遺伝子とその産物の研究を行うために有用な候補となりうる遺伝子と化合物を見つけるためにデータベースをマイニングし、具体的に有用な候補となりうる遺伝子と化合物を検出するシステムに関する。
【0002】
【従来の技術】
遺伝子とその産物の研究を進めていく上では、最も重要だと思われる遺伝子とその産物を見つけることが有効である。そのために、重要だと思われる遺伝子候補を選択しなければならない。重要と思われる遺伝子とは特定の疾患に対して創薬のターゲットとなる遺伝子である。そのため遺伝子と疾患との関連を考えながら候補となる低分子化合物候補を特定し、最終的にスクリーニング試験を行っていく。この中で、疾患と遺伝子の関連を特定する作業と、選択された遺伝子群に対して化合物候補を作製する作業をするとき、遺伝子と化合物を直接結びつけるデータベースは無いために、遺伝子配列から特定していく作業と文献などを参考にこれらの遺伝子と化合物候補を作成する。実際には公開された論文と公共遺伝子データベースと産物のデータベースを参照にしながら、経験を頼りにその重要性を見つけていた。
【0003】
しかし、このような手法では誤差が大きく重要性が確定しないまま研究を続ける必要があるので、無駄な研究が行われてきた。このことは創薬などにおける遺伝子と産物の研究に莫大な費用の無駄を生じている。
また、従来において、文献や遺伝子データベースなどを用いて遺伝子に関する情報や化合物等に関する情報を一次元的に検索することはできたが、それらの関連、つまり特定遺伝子に関与している化合物と関与の程度を見つけるには、勘と経験を頼りにしか見つけることができなかったために、客観的に検討することができず、また大量の文献をすべて読むことは不可能で、判断をあやまることも多く、無駄な実験を行ってしまうために研究費に無駄が生じていた。遺伝子データベースや文献データベースには更新頻度が高く手作業では実現不可能であった。
【0004】
【発明が解決しようとする課題】
しかし、従来においては他人の研究成果を参照しながら遺伝子とその産物に関する情報を研究する場合、産物や遺伝子データベース、文献データベースを手動で遺伝子名、化合物名、検索し該当する遺伝子データベースの検索をおこない、文献の要約を印刷し、それを見ながら経験的に該当しそうな化合物を見つけては実験を繰り返し行っていた。
たとえば特定の疾患に関してどのような遺伝子と化合物がよく研究対象になっているのかを知るためには、これら3要素の関連の強さをならべて見なければならないが、客観的にランク付けを行って見ることはできなかった。
【0005】
そのために、いまから研究課題になりそうな遺伝子や化合物、重要な化合物と遺伝子やすでに研究ステージが終了しているもの、さらに、研究しても無駄である遺伝子と化合物を見つけることは不可能であった。
加えて、近年の遺伝子に関する研究データが急増しているために検索で出てくるデータ量は非常に多く、その中から経験的にこれらの関連を知るには経験と多くの時間が必要であった。
【0006】
本発明の目的は上記の従来技術が有する問題点を解決するもので、日々更新される遺伝子や文献などのデータベースより、遺伝子に関連する疾患や化合物の関連性をコンピューターで見つけ、今後どの遺伝子や化合物を特定の疾患に関して検討していけばよいか、研究しても無駄な遺伝子や化合物は何かという指針を支援するための情報を随時研究者に提供することを目的とする。
【0007】
上記目的を達成するために、本発明の研究遺伝子産物の重要性を予測するシステムは、公開された外部情報から遺伝子、化合物、疾患、及びこれらの文献に関するデータを検索する第1の検索手段と、前記第1の検索手段の結果に基づき、一の遺伝子名と一の化合物名の両方が含まれる文献に関する情報及び該文献の件数を遺伝子名と化合物名の組み合わせ毎に保存した第1の記憶手段と、前記第1の検索手段の結果に基づき、一の化合物名と一の疾患名の両方が含まれる文献に関する情報及び該文献の件数を化合物名と疾患名の組み合わせ毎に保存した第2の記憶手段と、前記第1の検索手段の結果に基づき、一の疾患名と一の遺伝子名の両方が含まれる文献に関する情報及び該文献の件数を保存した第3の記憶手段と、前記第1の記憶手段、第2の記憶手段、第3の記憶手段に対して、遺伝子名、化合物名、疾患名のいずれかのカテゴリの第1のキーワードにより検索を行い、前記第1のキーワードと組み合わせを持ち、かつ前記第1のキーワードが属するカテゴリと異なる遺伝子名、化合物名、疾患名のいずれかによる第1の名前情報グループを抽出する第2の検索手段と、前記第1のキーワードと第1の名前情報グループにおける名前の両方を含む文献の件数による第1の文献件数が多い順に前記第1の名前情報グループの名前を表示する第1の表示手段と、前記第1の名前情報グループから選択された第2のキーワードにより検索を行い、前記第2のキーワードと組み合わせを持ち、かつ前記第2のキーワードが属するカテゴリと異なる遺伝子名、化合物名、疾患名のいずれかによる第2の名前情報グループを抽出する第3の検索手段と、前記第1のキーワードと第2のキーワードと第2の名前情報グループにおける名前のすべてが含まれる文献の件数による第2の文献件数が多い順に前記第2の名前情報グループの名前を表示する第2の表示手段とを備えたことを主要な特徴としている。
【0008】
上記の各手段を備えるシステムが実現することによって、研究者はタイムリーに情報の変化をとらまえることができるために、創薬などにおける研究のタイミングと目的遺伝子などの情報の検討が可能になる。
【0009】
【発明の実施の形態】
本発明の一実施例の概要を図1に示す。以下図1に従って本発明の概要を述べることとし、細部の構成については図2以下を用いて説明することとする。
まず、本発明におけるシステムのデータマイニングは以下の方法で行っている。マイニングで必要なデータベースは遺伝子データベース1、化合物データベース2、疾患データベース3、と文献からのデータを抽出した論文情報データベース4、遺伝子/化合物/疾患 と 論文情報 を対応付けたデータベース5、遺伝子、化合物、疾患を相互に関連付けたデータベース6からなる。
【0010】
遺伝子データベース1は、ヒトを含む遺伝子を有する全ての生物を対象とした遺伝子情報を格納する。格納するデータ項目は遺伝子名と遺伝子のシンボル、シンボルのエイリアス(同義語)およびMeshなどを利用した同義語を必須項目とし、LOCATIONの項目を含む場合もある。このデータベースと論文情報データベース4をもとにして、遺伝子と論文の対応データベース5を作成する。
化合物データベース2は、化合物や薬品情報を格納する。格納するデータ項目は化合物名または薬品名、CASナンバー、Meshなど利用した同義語を必須項目とする。このデータベースと論文情報データベース4をもとにして、化合物と論文の対応テーブル5を作成する。
【0011】
疾患データベース3は、疾患情報を格納する。格納するデータ項目は疾患名とMeshなどを利用した同義語を必須項目とする。このデータベースと論文情報データベース4をもとにして、疾患と論文の対応テーブル5を作成する。
文献から抽出した論文情報データベース4は、文献情報をデータ項目別に格納したデータベース。遺伝子データベース1、化合物データベース2、疾患データベース3と論文を関連付けるために利用する。格納するデータ項目は論文名、著者名、論文雑誌名、出版日、要約、ケミカルリスト、CASナンバー、Meshを必須項目とする。これらのデータ項目が論文を関連付ける際の検索対象となる。公共データベースやプライベートデータベースからデータ項目別に分解してデータを読み取り、データベースに格納するプログラムを用意することによって自動でデータを作成する仕組みを持つ。
【0012】
遺伝子/化合物/疾患 と 論文を対応付けたデータベース5は、以下の3つのパターンで作成される。
第一に、遺伝子に関連するキーワードが論文情報データベース4の論文情報に含まれるかを判別し、遺伝子と論文の関係が決定すれば、遺伝子データベース1と論文情報データベース4を対応づけたデータを格納する。ただし、前処理としてキーワードの作成処理(後述する)を含む。
第二に、化合物に関連するキーワードが論文情報データベース4の論文情報に含まれるかを判別し、化合物と論文の関係が決定すれば、化合物データベース1と論文情報データベース4を対応づけたデータを格納する。
【0013】
第三に、疾患に関連するキーワードが論文情報データベース4の論文情報に含まれるかを判別し疾患と論文の関係が決定すれば、疾患データベース1と論文情報データベース4を対応づけたデータを格納する。
キーワードの作成処理法として、遺伝子データベースの遺伝子名とシンボル、エイリアスから論文情報を検索する条件の基準として以下の3レベルの検索ワードを作成する。
▲1▼ シンボル or エイリアス
▲2▼ シンボル or エイリアス or (遺伝子名の1つ目のワード and 遺伝子名の2つ目のワード)
▲3▼ シンボル or エイリアス or 遺伝子名の1つ目のワード
遺伝子/化合物/疾患 の相互を関連付けするデータベース6は、以下の3つのパターンで作成する
【0014】
第一に、遺伝子と論文との対応DBと、化合物と論文との対応DBで、共通する論文の有無を判別し、共通論文が存在すれば、遺伝子と化合物の関係データを格納する。
第二に、化合物と論文との対応DBと、疾患と論文との対応DBとの関係で、共通する論文の有無を判別し、共通論文が存在すれば、化合物と疾患の関係データを格納する。
第三に、疾患と論文との対応DBと、遺伝子と論文との対応DBとの関係で、共通論文の有無を判別し、共通論文が存在すれば、疾患と遺伝子の関係データを格納する。
以下に各DBの作成方法を詳述する。
遺伝子DBの作成は以下のように行う。
公共データベース7、例えば、インターネット上で公開されている遺伝子に関するDBから、以下の各情報を遺伝子DB1に登録する。登録時に遺伝子IDを割り当てる。
遺伝子名
遺伝子のシンボル
エイリアス(同義名)
Meshなどの同義語
LOCATION
遺伝子名を登録する際、エイリアス遺伝子名に対する処理については以下の手順を踏む。ある遺伝子が同義の遺伝子名の参照を記している場合、その遺伝子を重複データとして排除し、代わりに同義の参照先となった遺伝子に排除した遺伝子のシンボルをエイリアスデータとして登録する。重複した遺伝子データを同義語としてデータ登録することによって、遺伝子と関連するデータが複数の同義の遺伝子のデータとして分散するのを防ぐ。
【0015】
次に、化合物DB2の作成は以下のように行う。
公共データベース7から公開されている化合物や薬品に関する以下の各情報を化合物DB2に登録する。登録時に化合物IDを割り当てる。
化合物または薬品名
CASナンバー
Meshなどの同義語
疾患DB3の作成は以下のように行う。
公開されている疾患に関する以下の各情報を疾患テーブルに登録する。登録時に疾患IDを割り当てる。疾患名
Meshなどの同義語
【0016】
論文情報DB4の作成をあらかじめ行っている場合には以下の論文IDの取得という操作は必要がないが、公共データベース7から遺伝子情報をキーにして検索し、論文情報を取得して、論文情報DB4を作成するとともに、DB5の遺伝子と論文ID対応付けテーブルをも作成する場合には以下の論文IDの取得という前処理が行われる。
1)遺伝子の名前により3レベルに検索用ワードの作成(あいまいな遺伝子名から成分を抽出する方法)
遺伝子DB1の遺伝子名、シンボルとエイリアス の組み合わせで3レベルに検索用ワードを作成する。
▲1▼ シンボル or エイリアス
▲2▼ シンボル or エイリアス or (遺伝子名の1つ目のワード and 遺伝子名の2つ目のワード)
▲3▼ シンボル or エイリアス or 遺伝子名の1つ目のワード
▲3▼<▲2▼<▲1▼ の順で精度は高くなり、ヒットする論文は少なくなる。
【0017】
3つのレベルに分けることにより、画面出力時には精度の高いランキング、あいまい遺伝子名による ランキングが可能となる。それ以外に、▲1▼の検索ワードでヒットする論文が少なすぎる場合には検索制限を緩くするなどできる。
2) 作成した検索ワードを使用し論文IDを取得する。
作成した検索ワードでインターネット上のサイトを検索し、ヒットした論文IDを取得する。
データ格納先は、遺伝子テーブル 及び 遺伝子と論文ID対応付けのテーブル。
論文IDは各種の論文が持っているIDを利用して、独自のIDを作成する。これにより、論文の公開元が異なっても本データベース内ではユニークなIDを持つことになり、また公開元のIDにも再変換することができるので公開もとの論文データベースにリンクして、情報を取得できる。
検索でヒットした論文が3万件以上の場合は検索ワードがあいまいすぎると判断して破棄する。
【0018】
遺伝子DB1に以下のデータを登録する
1)検索用ワードの各レベルごとのヒット件数
2)次回更新時のためのダウンロード日付
3)遺伝子データの更新の有無(後の遺伝子テーブルのデータ更新作業で更新のあった遺伝子のみを作業対象とする省力化のため)
後の遺伝子テーブルのデータ更新作業で更新のあった遺伝子のみを作業対象とすることによって省力化する。
遺伝子と論文ID対応付けのテーブルに以下のデータを登録する。
検索元に検索プログラムがある場合は以下のデータを登録し、無い場合は後述する8.の方法をとる。
ただしこのテーブルはデータ検索の高速化のため 遺伝子1000件につき1テーブルとする。
(例:遺伝子1000件の場合は10テーブルが作成される)
1)遺伝子ID
2)論文ID
3)要約文中の遺伝子名出現回数
4)論文タイトル名に遺伝子名の有無
5)Meshなどの同義語と遺伝子名が一致したかの有無
論文IDを記録する際には一時的に使用する更新テーブルにも書き込む。
また、前回までに取得した論文データのうち、まだデータが未完成のものもこの更新テーブルに書き込み、後に論文データの更新を行えるようにしておく。
【0019】
論文情報DB4の作成は以下のように行う。
論文情報をインターネットや内部データベース、ファイルなど公共データデース7から取得する。論文情報のデータ形式はXMLやCSVなどであるが、さまざまな形式に対応したプログラムを用意しておく。上記論文IDの取得で作成した更新用のテーブルから論文IDを取り出し論文情報を取得する。上記論文IDの取得で関連する論文IDのテーブルを作成しなかった場合には、全ての論文のデータを取得する。
論文に関する以下の各情報を論文情報データベース4に登録する。論文情報データベースは用途別に次の5つの各テーブルに情報を分割して格納する。
論文基本情報テーブル
1) 論文名
2) 著者名
3) 論文雑誌名
4) 出版日
論文アブストラクトテーブル
1) 要約
論文ケミカルリストテーブル
1) ケミカルリスト
2) CAS NO
論文Meshテーブル
1) Meshなどの同義語
アクセションIDテーブル
1) accessionID
【0020】
未完成の論文データがある場合があるので、未完成データの場合には未完成であるという情報を入れておき、次回の更新時に論文データを更新できるようにしておく。論文のデータが削除されているなど情報を取得できなかった論文IDを削除する。情報を取得できなかった論文IDを、遺伝子/化合物/疾患 と 論文情報を対応付けたデータベース5の中の遺伝子IDと論文IDを対応付けしたテーブル5Aから削除し、遺伝子DB1の検索ワードレベルごとのヒット件数情報を該当件数分減算する。
DB5の遺伝子IDと論文IDを対応づけたテーブルの各レコードに論文の出版日データを論文の情報DB4から取得して更新する。これを利用して画面出力時、論文の出版件数のチャートを表示する。
【0021】
遺伝子/化合物/疾患 と 論文情報 を対応付けたデータベース5の中の化合物と論文ID対応づけのテーブル5Bは以下のように作成する。
化合物DB2と論文情報DB4から、化合物と論文ID対応付けのテーブルに以下のデータを登録する。ただしこのテーブルはデータ検索の高速化のため 化合物10000件につき1テーブルとする。
(例:化合物50000件の場合は 5テーブルが作成される)
1) 化合物ID
2) 論文ID
3) 要約文中の化合物出現回数
4) 論文タイトル名に化合物名の有無
5) ケミカルリストと化合物が一致したかの有無
手順を以下に示す。
1)化合物名で論文情報データベース4を検索
化合物のテーブルから化合物名を取り出し、それを検索ワードとしてヒットする論文IDを取得し、DB5の化合物と論文IDを対応付けするテーブル5Bに登録する。検索対象は論文IDの更新テーブルから取得した論文IDで、論文の各テーブルから論文のタイトル、要約、化合物リストを抽出して検索をする。論文名、要約、ケミカルリストのどの項目で一致したかを付加情報として登録する。要約については文中に化合物名が出現した回数を登録する。
2)CASナンバーで論文情報データベース4を検索
化合物のテーブルからCASナンバーを取り出し、それを検索ワードとしてヒットする論文IDを取得し、DB5の化合物と論文IDを関連付けするテーブル5Bに書き込む。検索対象は論文IDの更新テーブルから取得した論文IDで、論文の各テーブルから論文のCASナンバーを抽出して検索をする。ヒットした場合はケミカルリストと一致したという情報を書き込む。
3)化合物名の同義語で論文情報データベース4を検索
【0022】
化合物DB2からMeshなどを利用して作成した化合物名の同義語を取り出し、それを検索ワードとしてヒットする論文IDを取得し、DB5の化合物と論文IDを関連付けするテーブル5Bに書き込む。検索対象は論文IDの更新テーブルから取得した論文IDで、論文情報DB4の各テーブルから論文のタイトル、要約、化合物リストを抽出して検索をする。データベースに登録する際には論文名、要約、ケミカルリストのどの項目で一致したかを付加情報として登録する。要約については文中に検索ワードが出現した回数を登録する。
4)検索した結果を化合物のリストテーブルに書き込む。
化合物を検索してヒットした件数を化合物テーブルに書き込む。
DB5の疾患と論文ID対応付けのテーブル5Cの作成は以下のように行う。
疾患DB3と論文情報データベース4から、疾患と論文ID対応付けのテーブル5Cに以下のデータを登録する。
ただしこのテーブルはデータ検索の高速化のため 疾患10000件につき1テーブルとする。
(例:疾患50000件の場合は 5テーブルが作成される)
1) 疾患ID
2) 論文ID
3) 要約文中の疾患名出現回数
4) 論文タイトル名に疾患名 の有無
5) Meshなどの同義語と疾患名が一致したかの有無
手順を以下に示す。
(1) 疾患名で論文情報データベース4を検索
疾患DB3から疾患名を取り出し、それを検索ワードとしてヒットする論文IDを取得し、DB5の疾患と論文IDを関連付けするテーブル5Cに書き込む。検索対象は論文IDの更新テーブルから取得した論文IDで、論文の各テーブルから論文のタイトル、要約、Meshリストを抽出して検索をする。論文名、要約、Meshリストのどの項目で一致したかを付加情報として登録する。要約については文中に検索ワードが出現した回数を登録する。
(2)疾患名の同義語で論文情報データベースを検索
疾患のテーブルからMeshなどを利用して作成した疾患名の同義語を取り出し、それを検索ワードとしてヒットする論文IDを取得し、DB5の疾患と論文IDを対応付けするテーブル5Cに書き込む。検索対象は論文IDの更新テーブルから取得した論文IDで、論文の各テーブルから論文のタイトル、要約、Meshリストを抽出して検索をする。論文名、要約、Meshリストのどの項目で一致したかを付加情報として登録する。要約については文中に検索ワードが出現した回数を登録する。
(3)検索した結果を疾患のリストテーブルに書き込む。
疾患を検索してヒットした件数を疾患DB3に書き込む。
【0023】
DB5の遺伝子と論文ID対応付けのテーブル5Aの作成は以下のように行う。
上記論文IDの取得で検索元に検索プログラムがない場合は元の論文データベースから全データを取得し、以下の方法でDB5の遺伝子と論文ID対応付けのテーブル5Aに以下のデータを登録する。ただしこのテーブルはデータ検索の高速化のため 遺伝子1000件につき1テーブルとする。
(例:遺伝子1000件の場合は10テーブルが作成される)
1) 遺伝子ID
2) 論文ID
3) 要約文中の遺伝子名出現回数
4) 論文タイトル名に遺伝子名の有無
5) Meshなどの同義語と遺伝子名が一致したかの有無
手順を以下に示す。
1)シンボル、エイリアスで論文情報データベースを検索
遺伝子のテーブルからシンボルとエイリアスを取り出し、それを検索ワードとしてヒットする論文IDを取得し、遺伝子と論文IDを関連付けするテーブル5Aを更新する。検索対象は論文IDの更新テーブルから取得した論文IDで、論文の各テーブルから論文のタイトル、要約を抽出して検索をする。論文名、要約、Meshリストのどの項目で一致したかを付加情報として登録する。要約については文中に検索ワードが出現した回数を登録する。
2)遺伝子名で検索
遺伝子のテーブルから遺伝子名を取り出し、 それを検索ワードとしてヒットする論文IDを取得し、遺伝子と論文IDを関連付けするテーブル5Aに書き込む。検索対象は論文IDの更新テーブルから取得した論文IDで、論文の各テーブルから論文のタイトル、要約、Meshリストを抽出して検索をする。論文名、要約、Meshリストのどの項目で一致したかを付加情報として登録する。要約については文中に検索ワードが出現した回数を登録する。
3)遺伝子名の同義語で検索
遺伝子のテーブルからMeshなどで作成した同義語を取り出し、 それを検索ワードとしてヒットする論文IDを取得し、遺伝子と論文IDを関連付けするテーブル5Aに書き込む。検索対象は論文IDの更新テーブルから取得した論文IDで、論文の各テーブルから論文のタイトル、要約、Meshリストを抽出して検索をする。論文名、要約、Meshリストのどの項目で一致したかを付加情報として登録する。要約については文中に検索ワードが出現した回数を登録する。
4)検索した結果を遺伝子テーブルに書き込む。
遺伝子を検索してヒットした件数によって遺伝子テーブルを更新する。
【0024】
遺伝子/化合物/疾患 の相互を関連付けするデータベース6の遺伝子と関連する化合物情報テーブル6Aの作成は以下のように行う。
DB5内の遺伝子と論文ID対応付けテーブルと化合物と論文ID対応付けテーブルの2テーブルから 遺伝子IDと化合物IDを対応づける。データ格納先は、遺伝子と化合物の関連情報テーブル6Aとなる。
以下のデータを登録する。
1) セットID
2) 遺伝子ID
3) 化合物ID
4) 共通論文件数
手順を以下に示す。
(1)遺伝子と化合物のそれぞれと関連する論文IDの一致件数を検索する。
新しく関連する論文IDが加えられた遺伝子と化合物を対象にして行う。
遺伝子と化合物の組み合わせでユニークなsetIDを作成する。
遺伝子と関連する論文IDを抽出し、次に化合物と関連する論文IDを抽出する。抽出した論文IDの一致件数を取得し、その一致件数とsetID、化合物名、遺伝子名レベルごとのヒット件数、化合物と遺伝子の関連論文IDの件数を書き込む。
(2)一致した論文IDの書き込み
遺伝子と化合物の組み合わせsetIDと論文情報を対応づける 。
データ検索の高速化のため 遺伝子、化合物のIDを利用して複数テーブルに分割する。
1) セットID
2) 論文ID
3) 要約文中の遺伝子名出現回数
4) 要約文中の化合物名出現回数
5) 論文タイトル名に遺伝子名の有無
6) 論文タイトル名に化合物名の有無
7) Meshなどの同義語と遺伝子名が一致したかの有無
8) Meshなどの同義語と化合物名が一致したかの有無
【0025】
遺伝子と関連する疾患情報テーブル6Cは以下のように作成される。
遺伝子と論文ID対応付けテーブル5A と 疾患と論文ID対応付けテーブル5C の2テーブルから 遺伝子IDと疾患IDを対応づける。データ格納先は、遺伝子と疾患の関連情報テーブル6C。
以下のデータを登録する。
1) セットID
2) 遺伝子ID
3) 疾患ID
4) 共通論文件数
手順を以下に示す。
(1)遺伝子と疾患のそれぞれと関連する論文IDの一致件数を検索する。
新しく関連する論文IDが加えられた遺伝子と疾患を対象にして行う。
遺伝子と疾患の組み合わせでユニークなsetIDを作成する。
遺伝子と関連する論文IDを抽出し、次に疾患と関連する論文IDを抽出する。抽出した論文IDの一致件数を取得し、その一致件数とsetID、疾患名、遺伝子名、レベルごとのヒット件数、疾患と遺伝子の関連論文IDの件数を書き込む。
(2) 一致した論文IDの書き込み
遺伝子と疾患の組み合わせsetIDと論文情報を対応づける。
データ検索の高速化のため 遺伝子、疾患のIDを利用して複数テーブルに分割する。
1) セットID
2) 論文ID
3) 要約文中の遺伝子名出現回数
4) 要約文中の疾患名出現回数
5) 論文タイトル名に遺伝子名の有無
6) 論文タイトル名に疾患名 の有無
7) Meshなどの同義語と遺伝子名が一致したかの有無
8) Meshなどの同義語と疾患名が一致したかの有無
【0026】
化合物と関連する疾患情報テーブル6Bの作成は以下のように行われる。
(1)化合物と疾患のそれぞれと関連する論文IDの一致件数を検索する。
新しく関連する論文IDが加えられた化合物と疾患を対象にして行う。
化合物と疾患の組み合わせでユニークなsetIDを作成する。
化合物と関連する論文IDを抽出し、次に化合物と関連する論文IDを抽出する。抽出した論文IDの一致件数を取得し、その一致件数とsetID、化合物名、疾患名、カテゴリーごとのヒット件数、化合物と疾患の関連論文IDの件数を書き込む。
(2) 一致した論文IDの書き込み
遺伝子と疾患の組み合わせsetIDと論文情報を対応づける 。
データ検索の高速化のため 化合物、疾患のIDを利用して複数テーブルに分割する。
1)セットID
2)論文ID
3)要約文中の化合物名出現回数
4)要約文中の疾患名出現回数
5)論文タイトル名に化合物名の有無
6)論文タイトル名に疾患名の有無
7)Meshなどの同義語と化合物名が一致したかの有無
8)Meshなどの同義語と疾患名が一致したかの有無
さらに図1には示していないが、論文得点データ作成の作成は以下のように行われる。
ユーザが独自に、論文の各種 情報に重みをつけ、キーワード同士の関連の強さをあらゆる重み条件で取得できるように論文得点テーブルを作成する。
論文得点テーブルは上記で作成した遺伝子/化合物/疾患の相互関連DB6をもとに作成される
テーブルの各項目
1)セットID
2)要約文中の 遺伝子名(化合物名または疾患名)出現回数の合計値
3)論文タイトル名に遺伝子名の有無=1として、その合計値
4)Meshなどの同義語と遺伝子名が一致したかの有無=1として、その合計値
【0027】
次に画面への出力方法について説明する。
ユーザーが使用する場合は、図13のようなキーワード入力画面において、遺伝子(シンボル名も可)、化合物、疾患のいずれかの名前またはその一部を入力し、キーワードのカテゴリ(遺伝子、化合物、疾患)を選択する。
GOをクリックすると、上記で入力されたキーワードのカテゴリテーブル(遺伝子テーブル、化合物テーブル、疾患テーブルのいずれか)をあいまい検索し候補となる名前リストを表示する。(図14)
ここで、次画面でランキングしたいカテゴリ(遺伝子/疾患/薬物の何れか)選択する。また、下記のどの遺伝子名のレベルでヒットした論文件数を対象とするか選択する。
以下の3つのレベル
▲1▼シンボルorエイリアス
▲2▼シンボルorエイリアスor(遺伝子名の1つ目のワードand遺伝子名の2つ目のワード)
▲3▼シンボルorエイリアスor遺伝子名の1つ目のワード
図14の画面で選択したキーワードに関連する 遺伝子、化合物、疾患のいずれかのカテゴリデータのランキングを行う。
以下のデータを一覧表示する
1) 名前(遺伝子名 、化合物名(薬品名)、疾患名 の何れか)
2) 論文データ件数
3) 2キーワード(遺伝子、化合物、疾患のキーワードのうち2つ)の共通論文件数
4) 共通論文のヒット率
共通論文のヒット率=(遺伝子、化合物、疾患のうち2つのキーワードによる共通論文件数)/単一キーワードのみの論文件数
【0028】
以下に例を示す。
(例1)1.でキーワードが遺伝子→化合物ランキングの場合
遺伝子と化合物の関連付けテーブル(GENE_CHEMICAL_SETテーブル)をキーワード遺伝子のIDで検索し、組み合わせをもつ化合物IDと化合物名を取得。
化合物名のみの論文件数、2キーワード(遺伝子と化合物名)共通論文件数、
共通論文のヒット率のそれぞれの降順でランキング表示可能とする。
ユーザが、共通論文件数と共通論文のヒット率の下限を入力し、表示件数を制限を可能とする。
リスト表示された遺伝子、化合物、疾患のキーワードを選択すると論文リスト表示画面へ移る。
絞り込みランキング画面(図16)
遺伝子、化合物、疾患のうち2カテゴリのランキング後、さらに絞り込みランキングを行う。ランキングするカテゴリは図15の画面で選択し、遺伝子、化合物、疾患のいずれでもよい。
まず、2カテゴリのキーワードで共通する論文IDを取得し、さらに、この論文IDをもつカテゴリデータをランキング表示。
以下のデータを一覧表示する
1) 名前(遺伝子名、化合物名(薬品名)、疾患名の何れか)
2) 論文データ件数
3) 2キーワード(遺伝子、化合物、疾患のキーワードのうち2つ)の共通論文件数
4) 共通論文のヒット率
共通論文のヒット率=(遺伝子、化合物、疾患のうち3つのキーワードによる共通論文件数)/単一キーワードのみの論文件数
【0029】
以下に例を示す。
例えば、遺伝子→化合物(または化合物→遺伝子)のランキング後、絞り込みランキングカテゴリで疾患を選択した場合
遺伝子と化合物の共通論文IDテーブル(GENE_CHEMICAL_SET IDテーブル)を特定の遺伝子と化合物の組み合わせでヒットする論文IDを取得。
遺伝子と疾患の共通論文IDテーブル(GENE_DISEASE_SET IDテーブル)から前述の論文IDをもつ、疾患ID・NAMEを取得。
疾患名のみの論文件数、3キーワード(遺伝子名・化合物名・疾患名)の共通論文件数、共通論文のヒット率のそれぞれの降順でランキング表示可能とする。
ユーザが、共通論文件数と共通論文のヒット率の下限を入力し、表示件数を制限を可能とする。
リスト表示された遺伝子、化合物、疾患のキーワードを選択すると論文リスト表示画面へ移る。
論文リスト表示画面(図17)
上記のランキング画面(図15)または絞り込みランキング画面(図16)にて、リスト表示された遺伝子、化合物、疾患のキーワードを選択(クリック)すると、そのキーワードに関連する以下の論文データを一覧表示する。
1) 論文ID
2) 論文名(タイトル)
3) 論文アブストラクト中のキーワードの出現頻度
4) 論文に関連のあるAccession ID
キーワードの出現頻度の降順に並べ替え可能とする。
目的の論文IDを選択(クリック)すると、公共文献データベースへリンク可能とする。
【0030】
主成分分析によるランキング
論文得点テーブルの以下の各項目の成分を総合化し、主成分分析得点を算出する。その得点によりランキング表示可能とする。
論文得点テーブル項目
▲1▼ 要約文中の 遺伝子名(化合物名または疾患名)出現回数の合計値
▲2▼ 論文タイトル名に遺伝子名の有無=1として、その合計値
▲3▼ Meshなどの同義語と遺伝子名が一致したかの有無=1として、その合計値
【0031】
ユーザ設定ランキング
上記のランキング画面または絞り込みランキング画面にて、論文情報のうち、要約・タイトル・Meshなどの同義語の、どの項目を重視したいかによって、重み係数を決定し、入力。以下の論文得点テーブルの項目に重みづけして、その得点によりランキング表示可能とする。
論文得点テーブル項目
▲1▼要約文中の 遺伝子名(化合物名または疾患名)出現回数の合計値
▲2▼ 論文タイトル名に遺伝子名の有無=1として、その合計値
▲3▼ Meshなどの同義語と遺伝子名が一致したかの有無=1として、その合計値重みづけの方法
3つの項目にそれぞれ重みを付けたい場合、3つの重み係数をそれぞれweight1、weight2、weight3 とすれば、以下の計算式にて算出される
得点 = ▲1▼×(weight1)+▲2▼×(weight2)+▲3▼×(weight3)
【0032】
論文出版件数(文献発行件数)の時間的推移画面(図18)
上記のランキング画面にて、遺伝子、化合物、疾患 のうち 特定の2キーワードの組み合わせを1つ指定して共通の論文の出版日又は、共通の文献の発行日を取得する。
ユーザは目的とする遺伝子、疾患、化合物の単独論文件数または任意の組み合わせの共通論文件数の時間的変動を見ることにより、研究の成長度を知る。
出版件数の取得法
論文データ作成時に出版日を登録しておき、ユーザが指定した、2キーワードの組み合わせでユニークなID(セットID)と単一キーワードのIDにより論文IDを取得。論文IDにより 出版日を取得したら出版年で出版件数の合計をとりグラフに表示する。
【0033】
【発明の効果】
本発明の研究遺伝子産物の重要性を予測するシステムによれば、遺伝子に関連する疾患や化合物の関連性をコンピューターで見つけ、上述したようにランキング表示や、共通の文献の発行件数の時間的推移を見ることによって、今後どの遺伝子や化合物を特定の疾患に関して検討していけばよいか、研究しても無駄な遺伝子や化合物は何かという指針を支援するための情報を得ることができる。
【図面の簡単な説明】
【図1】本発明のデータマイニング処理の概略を示す図である。
【図2】 本発明の遺伝子データベースの作成フロー図である。
【図3】本発明の化合物データベースの作成フロー図である。
【図4】 本発明の疾患データベースの作成フロー図である。
【図5】 本発明の論文情報データベースの作成フロー図である。
【図6】 本発明の遺伝子と論文を対応づけるデータベース作成フロー図である。
【図7】本発明の化合物と論文を対応づけるデータベース作成フロー図である。
【図8】 本発明の疾患と論文を対応づけるデータベース作成フロー図である。
【図9】 本発明の遺伝子と化合物を関連づけるデータベース作成フロー図である。
【図10】 本発明の化合物と疾患を関連づけるデータベース作成フロー図である。
【図11】 本発明の疾患と遺伝子を関連づけるデータベース作成フロー図である。
【図12】 本発明のデータ出力処理フロー図である。
【図13】 本発明におけるキーワード入力画面を示す図である。
【図14】 本発明におけるキーワード候補リストを示す図である。
【図15】 本発明におけるランキング画面を示す図である。
【図16】 本発明における絞り込みランキング画面を示す図である。
【図17】 本発明における論文リスト画面を示す図である。
【図18】 本発明における文献の発行件数の時間的推移を示す図である。

Claims (6)

  1. 公開された外部情報から遺伝子、化合物、疾患、及びこれらの文献に関するデータを検索する第1の検索手段と、
    前記第1の検索手段の結果に基づき、一の遺伝子名と一の化合物名の両方が含まれる文献に関する情報及び該文献の件数を遺伝子名と化合物名の組み合わせ毎に保存した第1の記憶手段と、
    前記第1の検索手段の結果に基づき、一の化合物名と一の疾患名の両方が含まれる文献に関する情報及び該文献の件数を化合物名と疾患名の組み合わせ毎に保存した第2の記憶手段と、
    前記第1の検索手段の結果に基づき、一の疾患名と一の遺伝子名の両方が含まれる文献に関する情報及び該文献の件数を保存した第3の記憶手段と、
    前記第1の記憶手段、第2の記憶手段、第3の記憶手段に対して、遺伝子名、化合物名、疾患名のいずれかのカテゴリの第1のキーワードにより検索を行い、前記第1のキーワードと組み合わせを持ち、かつ前記第1のキーワードが属するカテゴリと異なる遺伝子名、化合物名、疾患名のいずれかによる第1の名前情報グループを抽出する第2の検索手段と、
    前記第1のキーワードと第1の名前情報グループにおける名前の両方を含む文献の件数による第1の文献件数が多い順に前記第1の名前情報グループの名前を表示する第1の表示手段と、
    前記第1の名前情報グループから選択された第2のキーワードにより検索を行い、前記第2のキーワードと組み合わせを持ち、かつ前記第2のキーワードが属するカテゴリと異なる遺伝子名、化合物名、疾患名のいずれかによる第2の名前情報グループを抽出する第3の検索手段と、
    前記第1のキーワードと第2のキーワードと第2の名前情報グループにおける名前のすべてが含まれる文献の件数による第2の文献件数が多い順に前記第2の名前情報グループの名前を表示する第2の表示手段とを備えたことを特徴とする研究遺伝子産物の重要性を予測するシステム。
  2. 前記第1の表示手段による表示には、前記第1の文献件数を前記第1の名前情報グループにおける名前を含む文献の件数による第2の文献件数で除したヒット率の表示を含むことを特徴とする請求項1記載の研究遺伝子産物の重要性を予測するシステム。
  3. 前記第2の表示手段による表示には、第2の文献件数を、前記第2の名前情報グループの名前が含まれる文献件数で除したヒット率の表示を含むことを特徴とする請求項1記載の研究遺伝子産物の重要性を予測するシステム。
  4. 前記第1の表示手段による表示には、前記第1のキーワードによって抽出された文献情報の所定の項目に対する重み係数をユーザが任意に設定できるようにし、各項目の総合点による表示を含むことを特徴とする請求項1記載の研究遺伝子産物の重要性を予測するシステム。
  5. 前記第1の表示手段による表示には、前記第1のキーワードによって抽出された文献情報の所定の項目に対するキーワードの出現頻度による表示を含むことを特徴とする請求項1記載の研究遺伝子産物の重要性を予測するシステム。
  6. 前記第1のキーワードと第2のキーワードの2つのキーワードを含む文献の発行件数の現在までの変化、又は前記第1のキーワードを含む文献件数の現在までの変化、若しくは前記第2のキーワードを含む文献件数の現在までの変化を時系列で作成することを特徴とする請求項1記載の研究遺伝子産物の重要性を予測するシステム。
JP2001235345A 2001-08-02 2001-08-02 研究遺伝子産物の重要性を予測するシステム Expired - Lifetime JP4861573B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001235345A JP4861573B2 (ja) 2001-08-02 2001-08-02 研究遺伝子産物の重要性を予測するシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001235345A JP4861573B2 (ja) 2001-08-02 2001-08-02 研究遺伝子産物の重要性を予測するシステム

Publications (2)

Publication Number Publication Date
JP2003044481A JP2003044481A (ja) 2003-02-14
JP4861573B2 true JP4861573B2 (ja) 2012-01-25

Family

ID=19066804

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001235345A Expired - Lifetime JP4861573B2 (ja) 2001-08-02 2001-08-02 研究遺伝子産物の重要性を予測するシステム

Country Status (1)

Country Link
JP (1) JP4861573B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5028847B2 (ja) 2006-04-21 2012-09-19 富士通株式会社 遺伝子間相互作用ネットワーク分析支援プログラム、該プログラムを記録した記録媒体、遺伝子間相互作用ネットワーク分析支援方法、および、遺伝子間相互作用ネットワーク分析支援装置
WO2007126088A1 (ja) * 2006-04-28 2007-11-08 Riken バイオアイテム検索装置、バイオアイテム検索端末装置、バイオアイテム検索方法、および、プログラム
JP2009064091A (ja) * 2007-09-04 2009-03-26 Komiyama Insatsu Kogyo Kk 電子ジャーナル編集システム及び原稿編集方法
JP6505421B2 (ja) 2014-11-19 2019-04-24 株式会社東芝 情報抽出支援装置、方法およびプログラム
JP6775935B2 (ja) 2015-11-04 2020-10-28 株式会社東芝 文書処理装置、方法、およびプログラム
JP6490607B2 (ja) 2016-02-09 2019-03-27 株式会社東芝 材料推薦装置
JP6602243B2 (ja) 2016-03-16 2019-11-06 株式会社東芝 学習装置、方法、及びプログラム
JP6622172B2 (ja) 2016-11-17 2019-12-18 株式会社東芝 情報抽出支援装置、情報抽出支援方法およびプログラム
CN116864036A (zh) * 2023-08-02 2023-10-10 山东政法学院 一种基于人工智能的化合物库构建方法

Also Published As

Publication number Publication date
JP2003044481A (ja) 2003-02-14

Similar Documents

Publication Publication Date Title
US9600533B2 (en) Matching and recommending relevant videos and media to individual search engine results
JP6101563B2 (ja) 情報構造化システム
US9047339B2 (en) Query rewriting with entity detection
US9652537B2 (en) Identifying terms associated with queries
US7987191B2 (en) System and method for generating a relationship network
US20060161545A1 (en) Method and apparatus for ordering items within datasets
US20090198693A1 (en) Method and apparatus for ordering items within datasets
US20080154886A1 (en) System and method for summarizing search results
WO2009003124A1 (en) Media discovery and playlist generation
JP2006048683A (ja) 情報検索システムにおけるフレーズ識別方法
Jacsó The pros and cons of Microsoft Academic Search from a bibliometric perspective
CN105930546B (zh) 文件关联显示方法
JP4861573B2 (ja) 研究遺伝子産物の重要性を予測するシステム
US20050065920A1 (en) System and method for similarity searching based on synonym groups
Bar-Ilan et al. The lifespan of “informetrics” on the Web: An eight year study (1998–2006)
Barrio et al. Sampling strategies for information extraction over the deep web
JP2003271609A (ja) 情報監視装置及び情報監視方法
WO1998049632A1 (en) System and method for entity-based data retrieval
EP1116137B1 (en) Database, and methods of data storage and retrieval
Kampmeier et al. Chapter Fifteen. Meeting The Interrelated Challenges Of Tracking Specimen, Nomenclature, And Literature Data In Mandala
JP2020009273A (ja) 検索システム
JP4146067B2 (ja) 文書検索システムおよび文書検索方法
JP4049967B2 (ja) データベース処理装置
Sabitha et al. A novel approach for finding optimal search results from web database using hybrid clustering algorithm
JP2004152035A (ja) 研究遺伝子産物データ分類システム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20010808

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20020729

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20030108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080801

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100907

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110517

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110717

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111011

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111107

R150 Certificate of patent or registration of utility model

Ref document number: 4861573

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141111

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term