JP2004302618A - キーワード頻度算出方法及びそれを実行するプログラム - Google Patents

キーワード頻度算出方法及びそれを実行するプログラム Download PDF

Info

Publication number
JP2004302618A
JP2004302618A JP2003092098A JP2003092098A JP2004302618A JP 2004302618 A JP2004302618 A JP 2004302618A JP 2003092098 A JP2003092098 A JP 2003092098A JP 2003092098 A JP2003092098 A JP 2003092098A JP 2004302618 A JP2004302618 A JP 2004302618A
Authority
JP
Japan
Prior art keywords
keyword
text data
frequency
database
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003092098A
Other languages
English (en)
Other versions
JP4247026B2 (ja
Inventor
Shigeru Tago
滋 多胡
Junji Yoshii
淳治 吉井
Sada Mizunuma
貞 水沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP2003092098A priority Critical patent/JP4247026B2/ja
Priority to EP04002926A priority patent/EP1462954A3/en
Priority to US10/775,110 priority patent/US20040193589A1/en
Publication of JP2004302618A publication Critical patent/JP2004302618A/ja
Application granted granted Critical
Publication of JP4247026B2 publication Critical patent/JP4247026B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration

Abstract

【課題】塩基配列及びアミノ酸配列に関する情報を格納した第1のデータベースと文書データを格納した第2のデータベースとを用いてキーワードの出現頻度を算出する。
【解決手段】キーワード頻度算出方法は、ユーザが入力した塩基配列又はアミノ酸配列に基づいて、第1のデータベースより第1のテキストデータを抽出する第1のテキストデータ抽出ステップと、上記抽出した第1のテキストデータよりそれに含まれる文書データを識別する識別子を抽出する識別子抽出ステップと、上記抽出した識別子に基づいて、第2のデータベースより第2のテキストデータを抽出する第2のテキストデータ抽出ステップと、キーワードテーブルよりキーワードを順次読み出し、上記第2のテキストデータにおける上記各キーワードの出現頻度を算出する出現頻度算出ステップと、を含む。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は遺伝子関連のデータの検索に利用して好適なデータベース検索技術に関し、特に、テキストマイニング方法によって文書データに含まれるキーワードの頻度を検出するためのデータベース検索技術に関する。
【0002】
【従来の技術】
遺伝子またはタンパク質に関する研究成果を記述した文書データのデータベースには一般に2種類が存在する。第1のデータベースには研究のテーマとしている塩基配列またはアミノ酸配列が記述されており、第2のデータベースにはその配列を持つ遺伝子またはタンパク質に関する機能や性質が記述されている。そして、第1のデータベースのデータには塩基配列情報またはアミノ酸配列情報とともに、同一の遺伝子またはタンパク質に関して記述している第2のデータベース上の文書データの識別子が関連文書データとして記述されているのが一般的である。
【0003】
一方、ある特定の遺伝子またはタンパク質の機能または性質を知りたい検索者に対し、次のいずれかの方法がこれまで提供されている。第1の方法では、その遺伝子またはタンパク質の配列情報を検索キーとして、前記第1のデータベースを検索し、得られた第1のデータベースのデータ中から第2のデータベースのデータの識別子を抽出し、第2のデータベースのデータを取得し、それを検索者が参照してそこに記述されている各遺伝子またはタンパク質の機能または性質を理解する。この方法の例として「BLAST」(http://www.ncbi.nlm.nih.gov/BLAST/)と呼ばれる方法が広く利用されている。
【0004】
第2の方法では、特定の遺伝子またはタンパク質の識別子またはそれに類する関連情報を配列情報とは異なるキーワードとして1つまたは複数選択し、そのキーワードのいずれかを含む第2のデータベースのデータを抽出し、それを検索者が参照してそこに記述されている各遺伝子またはタンパク質の機能または性質を理解する。さらに、抽出された第2のデータベースのデータを少数に絞り込むための方法として知識に相当する情報を適用する方法の例として、「特開2002−32374 情報抽出方法及び記録媒体」がある。
【特許文献1】
特開2002−32374号公報
【0005】
【発明が解決しようとする課題】
しかしながら、従来の方法には次のような課題がある。すなわち、第1の方法では、第2のデータベースのデータの参照を検索者が直接行わなければならないため、特定の遺伝子またはタンパク質の機能または性質を把握するために大量の文書データを参照しなければならない。
【0006】
また、第2の方法では、適切なキーワードが選択可能であれば、適切な文書データグループを抽出することが可能となるものの、特定の塩基配列またはアミノ酸配列を持つ遺伝子またはタンパク質がいかなる機能または性質を持つのか知識のない検索者にとっては適切なキーワードを選択することは困難である。逆に言えば特定の遺伝子またはタンパク質がいかなる機能または性質を持つのかを知りたい検索者が検索を実行するのであり、やはりキーワードを検索者自身が選択することは困難である。従って、適切な文書データグループを抽出することは難しい。
【0007】
【課題を解決するための手段】
本発明によると、塩基配列及びアミノ酸配列に関する情報を格納した第1のデータベースと文書データを格納した第2のデータベースとを用いてキーワードの出現頻度を算出するキーワード頻度算出方法であって、ユーザが入力した塩基配列又はアミノ酸配列に基づいて、第1のデータベースより第1のテキストデータを抽出する第1のテキストデータ抽出ステップと、上記抽出した第1のテキストデータよりそれに含まれる文書データを識別する識別子を抽出する識別子抽出ステップと、上記抽出した識別子に基づいて、第2のデータベースより第2のテキストデータを抽出する第2のテキストデータ抽出ステップと、上記第1のデータベースに関連したキーワードを含むキーワードテーブルよりキーワードを順次読み出し、上記第2のテキストデータにおける上記各キーワードの出現頻度を算出する出現頻度算出ステップと、を含む。
【0008】
本発明によると、検索者は特定の配列を持つ遺伝子またはタンパク質について、その機能または性質を知りたい場合に、配列情報自体を検索キーとして入力することで、その遺伝子またはタンパク質の機能または性質を表すキーワードの一覧を、そのキーワードの文書データ中での出現頻度すなわち重要度として入手することが可能となる。
【0009】
また、複数の配列を検索キーとして入力することで、複数の遺伝子またはタンパク質に共通の機能または性質についても同様にそれを表すキーワードの一覧を入手することが可能となる。
【0010】
【発明の実施の形態】
以下図を参照して、本発明の実施例を説明する。図1は本発明によるデータベース検索システム構成を示す。本例のデータベース検索システムは、ディスプレイ装置101、演算装置102、マウス装置103、キーボード104、及び、第1、第2及び第3のファイルシステム105、107、109を有する。
【0011】
ディスプレイ装置101は、文字および図形を表示する機能とマウスカーソルを表示する機能とを有する。演算装置102は、ディスプレイ装置101上のマウスカーソルの位置を受信する機能と、キーボードから任意の文字列を受信する機能と、メモリ中にデータを保持する機能と、テキストデータから特定の一部の文字列を切り出す機能と、特定の文字列同士が一致するか否かを判定する機能を有する。マウス装置103は、ディスプレイ装置101上のマウスカーソルの移動を指示し、ボタンを押すことによりマウスカーソルの位置の認識を指示する機能を有する。キーボード104は、任意の文字列を入力し、演算装置102に送信する機能を有する。
【0012】
第1のファイルシステム105は、テキストデータ106を各々ファイルとして保持する機能を持つ補助記憶装置である。第2のファイルシステム107は、テキストデータ108を各々ファイルとして保持する機能を持つ補助記憶装置である。第3のファイルシステム109は、カテゴリーテーブル110をファイルとして保持する機能を持つ補助記憶装置である。
【0013】
図2は第1のファイルシステム105のテキストデータ106の構造を示している。この例では特定の塩基配列に関連する研究成果をまとめた論文状のデータを示している。テキストデータ106は、本データが記述対象としている塩基又はアミノ酸の配列201と、本データと関連のある記述がされている他のテキストデータの識別子202とを含む。この例では本データに対して2つの関連するテキストデータがあるので、2つの識別子が格納されている。この例では「PMID(PubMed ID)」と呼称する識別子を示す。
【0014】
図3は第2のファイルシステム107のテキストデータ108の構造を示している。テキストデータ108は、本データの識別子301と、本データの本文に相当する文字列302とを含む。この例では、遺伝子またはタンパク質等、分子生物学上の研究成果について記述されているものとする。
【0015】
図4はディスプレイ装置101上に表示される検索開始画面の構成を示している。検索開始画面は、ユーザが、塩基またはアミノ酸の配列を文字列として入力するフィールド401と、演算処理装置102に検索開始を指示するための検索開始ボタン402とを含む。
【0016】
図5は第3のファイルシステム109のカテゴリーテーブル110の構造を示している。カテゴリーテーブル110は、1つまたは複数のキーワードが属するカテゴリーの名前を格納するカテゴリー部501とその下位のカテゴリーの名前を格納する下位カテゴリー部502とキーワードを格納するキーワード部503とを含む。カテゴリーテーブル110に含まれるキーワードは、第2のファイルシステム107のテキストデータ108に含まれる情報に関連したキーワードのみを含むものであってよい。この例では下位カテゴリー「axon guidance」及び「axon extension」は上位のカテゴリー「cell recognition」に属することを示している。キーワード「motor axon guidance」は下位カテゴリー「axon guidance」に属することを示している。
【0017】
再び図1を参照して、本発明によるデータベース検索システムの概念を説明する。先ずユーザは、キーボード104を使用して、塩基配列又はアミノ酸配列を入力する。例えば、塩基配列AGCTを入力する。演算装置102は、配列AGCTに基づいて、第1のファイルシステム105より、配列AGCTを含む又は配列AGCTに関連した情報を含むテキストデータ106を抽出する。
【0018】
各テキストデータ106は、文書データを識別する識別子202を含む。演算装置102は、各テキストデータ106より、識別子202を抽出し、それを使用して、第2のファイルシステム107より、識別子202に対応したテキストデータ108を抽出する。
【0019】
次に、演算装置102は、第3のファイルシステム109のカテゴリーテーブル110に含まれるキーワードを取り出し、抽出したテキストデータ108におけるキーワードの出現頻度を算出する。即ち、抽出したテキストデータ108のうち、各キーワードが出現する又は使用されているテキストデータ108の数を算出する。
【0020】
こうしてユーザは、第2のファイルシステム107のテキストデータ108において、配列AGCTに関連するキーワードの頻度を得ることができる。カテゴリーテーブル110は、キーワードをカテゴリーに分類したツリー構造にて格納している。従って、ユーザはディスプレイ装置101の画面にて、ツリー構造のキーワード頻度算出結果テーブルを得ることができる。
【0021】
図6は、テキストデータ108において図5のキーワードに対する頻度算出結果テーブルを示す。図5と図6を比較すると明らかなように、頻度算出結果テーブルの領域601には、カテゴリーテーブル110のカテゴリー部501の各カテゴリーの頻度が表示され、領域602には、カテゴリーテーブル110の下位カテゴリー部502の各下位カテゴリーの頻度が表示され、領域603には、カテゴリーテーブル110のキーワード部503の各キーワードの頻度が表示されている。
【0022】
カテゴリー部501の各カテゴリーの頻度は、それに属する下位カテゴリーの頻度の合計であり、下位カテゴリー部502の各下位カテゴリーの頻度は、それに属するキーワードの頻度の合計である。従って、領域603のキーワードの頻度が求められれば、それより上位の全てのカテゴリーの頻度は得られる。
【0023】
この例では、「cell recognition」というカテゴリーに属する全キーワードの出現頻度は、196である。これは、第2のファイルシステム107に含まれるテキストデータのうち、196個のテキストデータにおいて、「cell recognition」というカテゴリーに属するキーワードが少なくとも1回以上出現していることを示している。
【0024】
「motor axon guidance」というキーワードの出現頻度は18である。これは、第2のファイルシステム107に含まれるテキストデータのうち、「motor axon guidance」というキーワードを1回以上含むテキストデータの総数が18個であることを示している。
【0025】
図7は、ディスプレイ装置101の画面に表示されているツリー構造のカテゴリー及びキーワードの頻度算出結果テーブルである。図5のカテゴリーテーブル110に、図6の頻度算出結果テーブルを重ね合わせることによって生成される。図7のツリー構造の頻度テーブルの領域701及び702は図5におけるカテゴリー501及び下位カテゴリー502に対応している図形ノードである。領域703は図5におけるキーワード503に対応している図形ノードである。
【0026】
図8を参照して本発明によるデータベース検索方法の処理の流れを説明する。まず、ステップ801において、ユーザは、図4の検索開始画面の入力フィールド401に、塩基またはアミノ酸の配列を表現する文字列を入力する。図4の例では「A」「G」「C」「T」という4種類の塩基を一列に並べることでその配列を表現する形式となっている。ここで、複数の配列を入力する場合は、配列を表現する文字列の間に空行を挿入する。ユーザは、マウス装置103によって、図4の検索開始画面の検索開始ボタン402をクリックすることにより、次のステップ802に進む。
【0027】
次に、ステップ802において、図4の検索開始画面の入力フィールド401にて入力された全ての配列が処理されたかどうかをチェックし、全ての配列が処理された場合にはステップ814に進み、全ての配列が処理されていない場合にはステップ803に進む。
【0028】
次に、ステップ803において、第1のファイルシステム105からテキストデータファイル106を1つ取り出す。ステップ804において、全てのテキストデータファイルについて処理されたか否かを判定する。全てのテキストデータファイルについて処理された場合には、ステップ802に戻り、次の配列の処理を行う。全てのテキストデータファイルについて処理されていない場合には、ステップ805に進む。以下、ステップ804において全てのテキストデータファイルについて処理されたと判断されるまで、ステップ803以降の処理を繰り返す。
【0029】
ステップ805において、ステップ803にて取り出したテキストデータファイル106より配列文字列201を取り出し、その配列文字列がステップ801で入力された配列文字列のうち現在処理の対象としている文字列と一致するかまたはその一部を含むか否かを調べる。調べる方法としては、前述の「BLAST」を使用してよい。配列文字列が含まれている場合には、ステップ806に進み、配列文字列が含まれていない場合には、ステップ803に戻り、次のファイルを取り出して、以降のステップを処理する。
【0030】
次に、ステップ806において、テキストデータファイル106より識別子202を取り出す。次に、ステップ807において、第2のファイルシステム107からテキストデータファイル108を1つ取り出す。ステップ808において、第2のファイルシステムの全てのテキストデータファイルについて処理が完了したか否かを判定する。第2のファイルシステムの全てのテキストデータファイルについて処理が完了した場合には、ステップ803に戻り、次のファイルを取り出し、上述の処理を行う。第2のファイルシステムの全てのテキストデータファイルについて処理が完了していない場合には、以下のステップを繰り返し実行する。
【0031】
ステップ809において、テキストデータファイル107から本データの識別子301を取り出し、ステップ806にて取り出したテキストデータファイル107の識別子202のいずれかと一致するか否かを調べる。一致する場合にはステップ810に進み、一致していない場合には、ステップ807に戻り、別のファイルを取り出して処理を続行する。
【0032】
ステップ810において、カテゴリーテーブル110からキーワードを1つ取り出す。そしてステップ811においてカテゴリーテーブルの全てのキーワードについて処理が完了したか否かを判定する。全てのキーワードについて処理が完了した場合はステップ807に戻り、他のファイルの処理を行う。全てのキーワードについて処理が完了していない場合はステップ812に進む。
【0033】
次に、ステップ812において、ステップ807にて取り出したテキストデータファイルにステップ810で取り出したキーワードが含まれているか否かを調べる。含まれていない場合は、ステップ810に戻り、次のキーワードの処理を行い、含まれている場合は、ステップ813に進む。
【0034】
ステップ813において、図6の頻度算出結果テーブルのキーワード出現頻度格納領域603における処理を行ったキーワードに対応した位置の頻度値を1増加させる。このとき、処理を行ったキーワードの上位カテゴリーに相当するカテゴリー501および502についても、それらに対応したキーワード出現頻度格納領域601および602の位置の頻度値を1増加させる。そしてステップ810に戻る。
このようにステップ802において全ての配列文字列について処理が完了したと判断された場合は、ステップ814に進む。
【0035】
ステップ814において、図5のカテゴリーテーブルと図6の頻度算出結果テーブルの内容を反映させた図7のツリー構造の頻度テーブルをディスプレイ装置101上に表示させる。例えばマウス装置によっていずれかのカテゴリーに対応した図形ノードをクリックすると、その下位の図形ノードの表示および非表示を切り替えるなどの操作によって、使用者が適宜参照したい部分ツリーを表示させるようにする。
【0036】
図8の処理はコンピュータによって実行されてよい。従って、本発明は図8の処理をコンピュータに実行させるためのプログラム及びそのようなプログラムを格納した記録媒体を含む。
【0037】
以上本発明の例を説明したが本発明に上述の例に限定されるものではなく、特許請求の範囲に記載された発明の範囲にて様々な変更が可能であることは当業者に理解されよう。
【0038】
【発明の効果】
本発明によると、検索者は特定の配列を持つ遺伝子またはタンパク質について、その機能または性質を知りたい場合に、配列情報自体を検索キーとして入力することで、その遺伝子またはタンパク質の機能または性質を表すキーワードの一覧を、そのキーワードの文書データ中での出現頻度すなわち重要度として入手することが可能となる効果がある。
【0039】
本発明によると、複数の配列を検索キーとして入力することで、複数の遺伝子またはタンパク質に共通の機能または性質についても同様にそれを表すキーワードの一覧を入手することが可能となる効果がある。
【図面の簡単な説明】
【図1】本発明によるデータベース検索システムの構成を示す図である。
【図2】第1のテキストデータファイルの構造を示す図である。
【図3】第2のテキストデータファイルの構造を示す図である。
【図4】配列文字列入力画面の例を示す図である。
【図5】カテゴリーテーブルの構造を示す図である。
【図6】頻度算出結果テーブルの構造を示す図である。
【図7】ツリー構造の頻度テーブルの構造を示す図である。
【図8】本発明によるデータベース検索システムの動作を示す流れ図である。
【符号の説明】
101…ディスプレイ装置、 102…演算装置、 103…マウス装置、 104…キーボード、 105,107,109…ファイルシステム 106,108,110…テキストデータファイル

Claims (4)

  1. 塩基配列及びアミノ酸配列に関する情報を格納した第1のデータベースと文書データを格納した第2のデータベースとを用いてキーワードの出現頻度を算出するキーワード頻度算出方法であって、ユーザが入力した塩基配列又はアミノ酸配列に基づいて、第1のデータベースより第1のテキストデータを抽出する第1のテキストデータ抽出ステップと、上記抽出した第1のテキストデータよりそれに含まれる文書データを識別する識別子を抽出する識別子抽出ステップと、上記抽出した識別子に基づいて、第2のデータベースより第2のテキストデータを抽出する第2のテキストデータ抽出ステップと、上記第1のデータベースに関連したキーワードを含むキーワードテーブルよりキーワードを順次読み出し、上記第2のテキストデータにおける上記各キーワードの出現頻度を算出する出現頻度算出ステップと、を含むキーワード頻度算出方法。
  2. 請求項1記載のキーワード頻度算出方法において、上記キーワードテーブルは、キーワードをカテゴリー毎に分類して格納したツリー構造を有し、上記出現頻度算出ステップは、キーワードの出現頻度とキーワードが属する上位のカテゴリーの出現頻度を含むツリー構造の頻度算出結果テーブルを生成することを特徴とするキーワード頻度算出方法。
  3. 第1のテキストデータ抽出ステップは、ユーザが複数の配列を入力したとき、各配列に関して第1のデータベースより第1のテキストデータを抽出することを特徴とするキーワード頻度算出方法。
  4. 請求項1から3のいずれか1項記載のキーワード頻度算出方法をコンピュータに実行させるためのプログラム。
JP2003092098A 2003-03-28 2003-03-28 キーワード頻度算出方法及びそれを実行するプログラム Expired - Fee Related JP4247026B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2003092098A JP4247026B2 (ja) 2003-03-28 2003-03-28 キーワード頻度算出方法及びそれを実行するプログラム
EP04002926A EP1462954A3 (en) 2003-03-28 2004-02-10 Key word frequency calculation method and program for carrying out the same
US10/775,110 US20040193589A1 (en) 2003-03-28 2004-02-11 Key word frequency calculation method and program for carrying out the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003092098A JP4247026B2 (ja) 2003-03-28 2003-03-28 キーワード頻度算出方法及びそれを実行するプログラム

Publications (2)

Publication Number Publication Date
JP2004302618A true JP2004302618A (ja) 2004-10-28
JP4247026B2 JP4247026B2 (ja) 2009-04-02

Family

ID=32821626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003092098A Expired - Fee Related JP4247026B2 (ja) 2003-03-28 2003-03-28 キーワード頻度算出方法及びそれを実行するプログラム

Country Status (3)

Country Link
US (1) US20040193589A1 (ja)
EP (1) EP1462954A3 (ja)
JP (1) JP4247026B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070162459A1 (en) * 2006-01-11 2007-07-12 Nimesh Desai System and method for creating searchable user-created blog content
JP5141560B2 (ja) * 2007-01-24 2013-02-13 富士通株式会社 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
CN106599082B (zh) * 2016-11-21 2020-07-14 北京金山安全软件有限公司 一种检索方法、相关装置及电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6442540B2 (en) * 1997-09-29 2002-08-27 Kabushiki Kaisha Toshiba Information retrieval apparatus and information retrieval method
EP1155379A1 (en) * 1999-01-29 2001-11-21 The Regents of the University of California Determining protein function and interaction from genome analysis
US6393415B1 (en) * 1999-03-31 2002-05-21 Verizon Laboratories Inc. Adaptive partitioning techniques in performing query requests and request routing
WO2000068757A2 (en) * 1999-05-07 2000-11-16 Carlos Cardona System and method for database retrieval, indexing and statistical analysis
US6470277B1 (en) * 1999-07-30 2002-10-22 Agy Therapeutics, Inc. Techniques for facilitating identification of candidate genes
US7464086B2 (en) * 2000-08-01 2008-12-09 Yahoo! Inc. Metatag-based datamining

Also Published As

Publication number Publication date
EP1462954A3 (en) 2005-08-03
US20040193589A1 (en) 2004-09-30
JP4247026B2 (ja) 2009-04-02
EP1462954A2 (en) 2004-09-29

Similar Documents

Publication Publication Date Title
TWI524193B (zh) 用於搜尋結果之語義目錄的電腦可讀取媒體及電腦實現方法
JP4962967B2 (ja) Webページ検索サーバ及びクエリ推薦方法
US20140149363A1 (en) Methods and apparatus for automated redaction of content in a document
US20050187920A1 (en) Contextual searching
US20080021891A1 (en) Searching a document using relevance feedback
US7734567B2 (en) Document data analysis apparatus, method of document data analysis, computer readable medium and computer data signal
KR20080031262A (ko) 관계 네트워크
JP2007206771A (ja) 情報要素処理プログラム、情報要素処理方法及び情報要素処理装置
JP2007310734A (ja) 検索装置
US20110131211A1 (en) Methods and systems for visualizing topic location in a document redundancy graph
KR20100060734A (ko) 키워드 시맨틱 네트워크 구성을 통한 특허정보 시각화 시스템 및 그 방법
JP3584848B2 (ja) 文書処理装置、項目検索装置及び項目検索方法
JPWO2003034279A1 (ja) 情報検索方法、情報検索プログラム、情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
CN108431800A (zh) 图像处理装置、图像检索界面显示装置以及图像检索界面的显示方法
JP2011100208A (ja) 行動推定装置、行動推定方法および行動推定プログラム
JP4247026B2 (ja) キーワード頻度算出方法及びそれを実行するプログラム
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2006023968A (ja) 固有表現抽出方法および装置並びにそれらに用いるプログラム
US6963865B2 (en) Method system and program product for data searching
EP2026216A1 (en) Data processing method, computer program product and data processing system
JP2004342016A (ja) 情報探索プログラム及び情報探索プログラムを記録した媒体
JPH1166078A (ja) 検索要求具体化方法及び装置及び検索要求具体化プログラムを格納した記憶媒体
JP4525224B2 (ja) ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置
JP2004139150A (ja) 文書検索装置、プログラム及び記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080617

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090109

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150116

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees