JP2004302618A

JP2004302618A - キーワード頻度算出方法及びそれを実行するプログラム

Info

Publication number: JP2004302618A
Application number: JP2003092098A
Authority: JP
Inventors: Shigeru Tago; 滋多胡; Junji Yoshii; 淳治吉井; Sada Mizunuma; 貞水沼
Original assignee: Hitachi Software Engineering Co Ltd
Current assignee: Hitachi Software Engineering Co Ltd
Priority date: 2003-03-28
Filing date: 2003-03-28
Publication date: 2004-10-28
Anticipated expiration: 2023-03-28
Also published as: EP1462954A3; EP1462954A2; JP4247026B2; US20040193589A1

Abstract

【課題】塩基配列及びアミノ酸配列に関する情報を格納した第１のデータベースと文書データを格納した第２のデータベースとを用いてキーワードの出現頻度を算出する。
【解決手段】キーワード頻度算出方法は、ユーザが入力した塩基配列又はアミノ酸配列に基づいて、第１のデータベースより第１のテキストデータを抽出する第１のテキストデータ抽出ステップと、上記抽出した第１のテキストデータよりそれに含まれる文書データを識別する識別子を抽出する識別子抽出ステップと、上記抽出した識別子に基づいて、第２のデータベースより第２のテキストデータを抽出する第２のテキストデータ抽出ステップと、キーワードテーブルよりキーワードを順次読み出し、上記第２のテキストデータにおける上記各キーワードの出現頻度を算出する出現頻度算出ステップと、を含む。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は遺伝子関連のデータの検索に利用して好適なデータベース検索技術に関し、特に、テキストマイニング方法によって文書データに含まれるキーワードの頻度を検出するためのデータベース検索技術に関する。
【０００２】
【従来の技術】
遺伝子またはタンパク質に関する研究成果を記述した文書データのデータベースには一般に２種類が存在する。第１のデータベースには研究のテーマとしている塩基配列またはアミノ酸配列が記述されており、第２のデータベースにはその配列を持つ遺伝子またはタンパク質に関する機能や性質が記述されている。そして、第１のデータベースのデータには塩基配列情報またはアミノ酸配列情報とともに、同一の遺伝子またはタンパク質に関して記述している第２のデータベース上の文書データの識別子が関連文書データとして記述されているのが一般的である。
【０００３】
一方、ある特定の遺伝子またはタンパク質の機能または性質を知りたい検索者に対し、次のいずれかの方法がこれまで提供されている。第１の方法では、その遺伝子またはタンパク質の配列情報を検索キーとして、前記第１のデータベースを検索し、得られた第１のデータベースのデータ中から第２のデータベースのデータの識別子を抽出し、第２のデータベースのデータを取得し、それを検索者が参照してそこに記述されている各遺伝子またはタンパク質の機能または性質を理解する。この方法の例として「ＢＬＡＳＴ」（ｈｔｔｐ：／／ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ＢＬＡＳＴ／）と呼ばれる方法が広く利用されている。
【０００４】
第２の方法では、特定の遺伝子またはタンパク質の識別子またはそれに類する関連情報を配列情報とは異なるキーワードとして１つまたは複数選択し、そのキーワードのいずれかを含む第２のデータベースのデータを抽出し、それを検索者が参照してそこに記述されている各遺伝子またはタンパク質の機能または性質を理解する。さらに、抽出された第２のデータベースのデータを少数に絞り込むための方法として知識に相当する情報を適用する方法の例として、「特開２００２−３２３７４情報抽出方法及び記録媒体」がある。
【特許文献１】
特開２００２−３２３７４号公報
【０００５】
【発明が解決しようとする課題】
しかしながら、従来の方法には次のような課題がある。すなわち、第１の方法では、第２のデータベースのデータの参照を検索者が直接行わなければならないため、特定の遺伝子またはタンパク質の機能または性質を把握するために大量の文書データを参照しなければならない。
【０００６】
また、第２の方法では、適切なキーワードが選択可能であれば、適切な文書データグループを抽出することが可能となるものの、特定の塩基配列またはアミノ酸配列を持つ遺伝子またはタンパク質がいかなる機能または性質を持つのか知識のない検索者にとっては適切なキーワードを選択することは困難である。逆に言えば特定の遺伝子またはタンパク質がいかなる機能または性質を持つのかを知りたい検索者が検索を実行するのであり、やはりキーワードを検索者自身が選択することは困難である。従って、適切な文書データグループを抽出することは難しい。
【０００７】
【課題を解決するための手段】
本発明によると、塩基配列及びアミノ酸配列に関する情報を格納した第１のデータベースと文書データを格納した第２のデータベースとを用いてキーワードの出現頻度を算出するキーワード頻度算出方法であって、ユーザが入力した塩基配列又はアミノ酸配列に基づいて、第１のデータベースより第１のテキストデータを抽出する第１のテキストデータ抽出ステップと、上記抽出した第１のテキストデータよりそれに含まれる文書データを識別する識別子を抽出する識別子抽出ステップと、上記抽出した識別子に基づいて、第２のデータベースより第２のテキストデータを抽出する第２のテキストデータ抽出ステップと、上記第１のデータベースに関連したキーワードを含むキーワードテーブルよりキーワードを順次読み出し、上記第２のテキストデータにおける上記各キーワードの出現頻度を算出する出現頻度算出ステップと、を含む。
【０００８】
本発明によると、検索者は特定の配列を持つ遺伝子またはタンパク質について、その機能または性質を知りたい場合に、配列情報自体を検索キーとして入力することで、その遺伝子またはタンパク質の機能または性質を表すキーワードの一覧を、そのキーワードの文書データ中での出現頻度すなわち重要度として入手することが可能となる。
【０００９】
また、複数の配列を検索キーとして入力することで、複数の遺伝子またはタンパク質に共通の機能または性質についても同様にそれを表すキーワードの一覧を入手することが可能となる。
【００１０】
【発明の実施の形態】
以下図を参照して、本発明の実施例を説明する。図１は本発明によるデータベース検索システム構成を示す。本例のデータベース検索システムは、ディスプレイ装置１０１、演算装置１０２、マウス装置１０３、キーボード１０４、及び、第１、第２及び第３のファイルシステム１０５、１０７、１０９を有する。
【００１１】
ディスプレイ装置１０１は、文字および図形を表示する機能とマウスカーソルを表示する機能とを有する。演算装置１０２は、ディスプレイ装置１０１上のマウスカーソルの位置を受信する機能と、キーボードから任意の文字列を受信する機能と、メモリ中にデータを保持する機能と、テキストデータから特定の一部の文字列を切り出す機能と、特定の文字列同士が一致するか否かを判定する機能を有する。マウス装置１０３は、ディスプレイ装置１０１上のマウスカーソルの移動を指示し、ボタンを押すことによりマウスカーソルの位置の認識を指示する機能を有する。キーボード１０４は、任意の文字列を入力し、演算装置１０２に送信する機能を有する。
【００１２】
第１のファイルシステム１０５は、テキストデータ１０６を各々ファイルとして保持する機能を持つ補助記憶装置である。第２のファイルシステム１０７は、テキストデータ１０８を各々ファイルとして保持する機能を持つ補助記憶装置である。第３のファイルシステム１０９は、カテゴリーテーブル１１０をファイルとして保持する機能を持つ補助記憶装置である。
【００１３】
図２は第１のファイルシステム１０５のテキストデータ１０６の構造を示している。この例では特定の塩基配列に関連する研究成果をまとめた論文状のデータを示している。テキストデータ１０６は、本データが記述対象としている塩基又はアミノ酸の配列２０１と、本データと関連のある記述がされている他のテキストデータの識別子２０２とを含む。この例では本データに対して２つの関連するテキストデータがあるので、２つの識別子が格納されている。この例では「ＰＭＩＤ（ＰｕｂＭｅｄＩＤ）」と呼称する識別子を示す。
【００１４】
図３は第２のファイルシステム１０７のテキストデータ１０８の構造を示している。テキストデータ１０８は、本データの識別子３０１と、本データの本文に相当する文字列３０２とを含む。この例では、遺伝子またはタンパク質等、分子生物学上の研究成果について記述されているものとする。
【００１５】
図４はディスプレイ装置１０１上に表示される検索開始画面の構成を示している。検索開始画面は、ユーザが、塩基またはアミノ酸の配列を文字列として入力するフィールド４０１と、演算処理装置１０２に検索開始を指示するための検索開始ボタン４０２とを含む。
【００１６】
図５は第３のファイルシステム１０９のカテゴリーテーブル１１０の構造を示している。カテゴリーテーブル１１０は、１つまたは複数のキーワードが属するカテゴリーの名前を格納するカテゴリー部５０１とその下位のカテゴリーの名前を格納する下位カテゴリー部５０２とキーワードを格納するキーワード部５０３とを含む。カテゴリーテーブル１１０に含まれるキーワードは、第２のファイルシステム１０７のテキストデータ１０８に含まれる情報に関連したキーワードのみを含むものであってよい。この例では下位カテゴリー「ａｘｏｎｇｕｉｄａｎｃｅ」及び「ａｘｏｎｅｘｔｅｎｓｉｏｎ」は上位のカテゴリー「ｃｅｌｌｒｅｃｏｇｎｉｔｉｏｎ」に属することを示している。キーワード「ｍｏｔｏｒａｘｏｎｇｕｉｄａｎｃｅ」は下位カテゴリー「ａｘｏｎｇｕｉｄａｎｃｅ」に属することを示している。
【００１７】
再び図１を参照して、本発明によるデータベース検索システムの概念を説明する。先ずユーザは、キーボード１０４を使用して、塩基配列又はアミノ酸配列を入力する。例えば、塩基配列ＡＧＣＴを入力する。演算装置１０２は、配列ＡＧＣＴに基づいて、第１のファイルシステム１０５より、配列ＡＧＣＴを含む又は配列ＡＧＣＴに関連した情報を含むテキストデータ１０６を抽出する。
【００１８】
各テキストデータ１０６は、文書データを識別する識別子２０２を含む。演算装置１０２は、各テキストデータ１０６より、識別子２０２を抽出し、それを使用して、第２のファイルシステム１０７より、識別子２０２に対応したテキストデータ１０８を抽出する。
【００１９】
次に、演算装置１０２は、第３のファイルシステム１０９のカテゴリーテーブル１１０に含まれるキーワードを取り出し、抽出したテキストデータ１０８におけるキーワードの出現頻度を算出する。即ち、抽出したテキストデータ１０８のうち、各キーワードが出現する又は使用されているテキストデータ１０８の数を算出する。
【００２０】
こうしてユーザは、第２のファイルシステム１０７のテキストデータ１０８において、配列ＡＧＣＴに関連するキーワードの頻度を得ることができる。カテゴリーテーブル１１０は、キーワードをカテゴリーに分類したツリー構造にて格納している。従って、ユーザはディスプレイ装置１０１の画面にて、ツリー構造のキーワード頻度算出結果テーブルを得ることができる。
【００２１】
図６は、テキストデータ１０８において図５のキーワードに対する頻度算出結果テーブルを示す。図５と図６を比較すると明らかなように、頻度算出結果テーブルの領域６０１には、カテゴリーテーブル１１０のカテゴリー部５０１の各カテゴリーの頻度が表示され、領域６０２には、カテゴリーテーブル１１０の下位カテゴリー部５０２の各下位カテゴリーの頻度が表示され、領域６０３には、カテゴリーテーブル１１０のキーワード部５０３の各キーワードの頻度が表示されている。
【００２２】
カテゴリー部５０１の各カテゴリーの頻度は、それに属する下位カテゴリーの頻度の合計であり、下位カテゴリー部５０２の各下位カテゴリーの頻度は、それに属するキーワードの頻度の合計である。従って、領域６０３のキーワードの頻度が求められれば、それより上位の全てのカテゴリーの頻度は得られる。
【００２３】
この例では、「ｃｅｌｌｒｅｃｏｇｎｉｔｉｏｎ」というカテゴリーに属する全キーワードの出現頻度は、１９６である。これは、第２のファイルシステム１０７に含まれるテキストデータのうち、１９６個のテキストデータにおいて、「ｃｅｌｌｒｅｃｏｇｎｉｔｉｏｎ」というカテゴリーに属するキーワードが少なくとも１回以上出現していることを示している。
【００２４】
「ｍｏｔｏｒａｘｏｎｇｕｉｄａｎｃｅ」というキーワードの出現頻度は１８である。これは、第２のファイルシステム１０７に含まれるテキストデータのうち、「ｍｏｔｏｒａｘｏｎｇｕｉｄａｎｃｅ」というキーワードを１回以上含むテキストデータの総数が１８個であることを示している。
【００２５】
図７は、ディスプレイ装置１０１の画面に表示されているツリー構造のカテゴリー及びキーワードの頻度算出結果テーブルである。図５のカテゴリーテーブル１１０に、図６の頻度算出結果テーブルを重ね合わせることによって生成される。図７のツリー構造の頻度テーブルの領域７０１及び７０２は図５におけるカテゴリー５０１及び下位カテゴリー５０２に対応している図形ノードである。領域７０３は図５におけるキーワード５０３に対応している図形ノードである。
【００２６】
図８を参照して本発明によるデータベース検索方法の処理の流れを説明する。まず、ステップ８０１において、ユーザは、図４の検索開始画面の入力フィールド４０１に、塩基またはアミノ酸の配列を表現する文字列を入力する。図４の例では「Ａ」「Ｇ」「Ｃ」「Ｔ」という４種類の塩基を一列に並べることでその配列を表現する形式となっている。ここで、複数の配列を入力する場合は、配列を表現する文字列の間に空行を挿入する。ユーザは、マウス装置１０３によって、図４の検索開始画面の検索開始ボタン４０２をクリックすることにより、次のステップ８０２に進む。
【００２７】
次に、ステップ８０２において、図４の検索開始画面の入力フィールド４０１にて入力された全ての配列が処理されたかどうかをチェックし、全ての配列が処理された場合にはステップ８１４に進み、全ての配列が処理されていない場合にはステップ８０３に進む。
【００２８】
次に、ステップ８０３において、第１のファイルシステム１０５からテキストデータファイル１０６を１つ取り出す。ステップ８０４において、全てのテキストデータファイルについて処理されたか否かを判定する。全てのテキストデータファイルについて処理された場合には、ステップ８０２に戻り、次の配列の処理を行う。全てのテキストデータファイルについて処理されていない場合には、ステップ８０５に進む。以下、ステップ８０４において全てのテキストデータファイルについて処理されたと判断されるまで、ステップ８０３以降の処理を繰り返す。
【００２９】
ステップ８０５において、ステップ８０３にて取り出したテキストデータファイル１０６より配列文字列２０１を取り出し、その配列文字列がステップ８０１で入力された配列文字列のうち現在処理の対象としている文字列と一致するかまたはその一部を含むか否かを調べる。調べる方法としては、前述の「ＢＬＡＳＴ」を使用してよい。配列文字列が含まれている場合には、ステップ８０６に進み、配列文字列が含まれていない場合には、ステップ８０３に戻り、次のファイルを取り出して、以降のステップを処理する。
【００３０】
次に、ステップ８０６において、テキストデータファイル１０６より識別子２０２を取り出す。次に、ステップ８０７において、第２のファイルシステム１０７からテキストデータファイル１０８を１つ取り出す。ステップ８０８において、第２のファイルシステムの全てのテキストデータファイルについて処理が完了したか否かを判定する。第２のファイルシステムの全てのテキストデータファイルについて処理が完了した場合には、ステップ８０３に戻り、次のファイルを取り出し、上述の処理を行う。第２のファイルシステムの全てのテキストデータファイルについて処理が完了していない場合には、以下のステップを繰り返し実行する。
【００３１】
ステップ８０９において、テキストデータファイル１０７から本データの識別子３０１を取り出し、ステップ８０６にて取り出したテキストデータファイル１０７の識別子２０２のいずれかと一致するか否かを調べる。一致する場合にはステップ８１０に進み、一致していない場合には、ステップ８０７に戻り、別のファイルを取り出して処理を続行する。
【００３２】
ステップ８１０において、カテゴリーテーブル１１０からキーワードを１つ取り出す。そしてステップ８１１においてカテゴリーテーブルの全てのキーワードについて処理が完了したか否かを判定する。全てのキーワードについて処理が完了した場合はステップ８０７に戻り、他のファイルの処理を行う。全てのキーワードについて処理が完了していない場合はステップ８１２に進む。
【００３３】
次に、ステップ８１２において、ステップ８０７にて取り出したテキストデータファイルにステップ８１０で取り出したキーワードが含まれているか否かを調べる。含まれていない場合は、ステップ８１０に戻り、次のキーワードの処理を行い、含まれている場合は、ステップ８１３に進む。
【００３４】
ステップ８１３において、図６の頻度算出結果テーブルのキーワード出現頻度格納領域６０３における処理を行ったキーワードに対応した位置の頻度値を１増加させる。このとき、処理を行ったキーワードの上位カテゴリーに相当するカテゴリー５０１および５０２についても、それらに対応したキーワード出現頻度格納領域６０１および６０２の位置の頻度値を１増加させる。そしてステップ８１０に戻る。
このようにステップ８０２において全ての配列文字列について処理が完了したと判断された場合は、ステップ８１４に進む。
【００３５】
ステップ８１４において、図５のカテゴリーテーブルと図６の頻度算出結果テーブルの内容を反映させた図７のツリー構造の頻度テーブルをディスプレイ装置１０１上に表示させる。例えばマウス装置によっていずれかのカテゴリーに対応した図形ノードをクリックすると、その下位の図形ノードの表示および非表示を切り替えるなどの操作によって、使用者が適宜参照したい部分ツリーを表示させるようにする。
【００３６】
図８の処理はコンピュータによって実行されてよい。従って、本発明は図８の処理をコンピュータに実行させるためのプログラム及びそのようなプログラムを格納した記録媒体を含む。
【００３７】
以上本発明の例を説明したが本発明に上述の例に限定されるものではなく、特許請求の範囲に記載された発明の範囲にて様々な変更が可能であることは当業者に理解されよう。
【００３８】
【発明の効果】
本発明によると、検索者は特定の配列を持つ遺伝子またはタンパク質について、その機能または性質を知りたい場合に、配列情報自体を検索キーとして入力することで、その遺伝子またはタンパク質の機能または性質を表すキーワードの一覧を、そのキーワードの文書データ中での出現頻度すなわち重要度として入手することが可能となる効果がある。
【００３９】
本発明によると、複数の配列を検索キーとして入力することで、複数の遺伝子またはタンパク質に共通の機能または性質についても同様にそれを表すキーワードの一覧を入手することが可能となる効果がある。
【図面の簡単な説明】
【図１】本発明によるデータベース検索システムの構成を示す図である。
【図２】第１のテキストデータファイルの構造を示す図である。
【図３】第２のテキストデータファイルの構造を示す図である。
【図４】配列文字列入力画面の例を示す図である。
【図５】カテゴリーテーブルの構造を示す図である。
【図６】頻度算出結果テーブルの構造を示す図である。
【図７】ツリー構造の頻度テーブルの構造を示す図である。
【図８】本発明によるデータベース検索システムの動作を示す流れ図である。
【符号の説明】
１０１…ディスプレイ装置、１０２…演算装置、１０３…マウス装置、１０４…キーボード、１０５，１０７，１０９…ファイルシステム１０６，１０８，１１０…テキストデータファイル

Claims

塩基配列及びアミノ酸配列に関する情報を格納した第１のデータベースと文書データを格納した第２のデータベースとを用いてキーワードの出現頻度を算出するキーワード頻度算出方法であって、ユーザが入力した塩基配列又はアミノ酸配列に基づいて、第１のデータベースより第１のテキストデータを抽出する第１のテキストデータ抽出ステップと、上記抽出した第１のテキストデータよりそれに含まれる文書データを識別する識別子を抽出する識別子抽出ステップと、上記抽出した識別子に基づいて、第２のデータベースより第２のテキストデータを抽出する第２のテキストデータ抽出ステップと、上記第１のデータベースに関連したキーワードを含むキーワードテーブルよりキーワードを順次読み出し、上記第２のテキストデータにおける上記各キーワードの出現頻度を算出する出現頻度算出ステップと、を含むキーワード頻度算出方法。
請求項１記載のキーワード頻度算出方法において、上記キーワードテーブルは、キーワードをカテゴリー毎に分類して格納したツリー構造を有し、上記出現頻度算出ステップは、キーワードの出現頻度とキーワードが属する上位のカテゴリーの出現頻度を含むツリー構造の頻度算出結果テーブルを生成することを特徴とするキーワード頻度算出方法。
第１のテキストデータ抽出ステップは、ユーザが複数の配列を入力したとき、各配列に関して第１のデータベースより第１のテキストデータを抽出することを特徴とするキーワード頻度算出方法。
請求項１から３のいずれか１項記載のキーワード頻度算出方法をコンピュータに実行させるためのプログラム。