JP2003016089A - 情報検索システム及びサーバ - Google Patents

情報検索システム及びサーバ

Info

Publication number
JP2003016089A
JP2003016089A JP2001198757A JP2001198757A JP2003016089A JP 2003016089 A JP2003016089 A JP 2003016089A JP 2001198757 A JP2001198757 A JP 2001198757A JP 2001198757 A JP2001198757 A JP 2001198757A JP 2003016089 A JP2003016089 A JP 2003016089A
Authority
JP
Japan
Prior art keywords
information
query vector
inquiry
search
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001198757A
Other languages
English (en)
Other versions
JP3717808B2 (ja
Inventor
Yoshihiro Ota
佳宏 大田
Tetsuo Nishikawa
哲夫 西川
Shigeo Ihara
茂男 井原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2001198757A priority Critical patent/JP3717808B2/ja
Priority to US10/076,400 priority patent/US20030014398A1/en
Publication of JP2003016089A publication Critical patent/JP2003016089A/ja
Application granted granted Critical
Publication of JP3717808B2 publication Critical patent/JP3717808B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ユーザの要求する情報をより的確に、より分
かりやすく提供する。 【解決手段】 問い合わせ概念生成用画面101でテキ
スト形式ファイル名入力用フォーム102、自然言語入
力用フォーム103、UI番号入力用フォーム104、
URL入力用フォーム105、登録済みの問い合わせの概
念読み出し用フォーム106等によって問い合わせ用の
情報を入力すると、問い合わせ用の情報から構築した問
い合わせ概念を複数のキーワードと各キーワードの重み
とを含むクエリーベクトルとして画面108に表示す
る。ユーザはクエリーベクトルを見て問い合わせ概念を
確認し、必要があれば修正することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はインターネット上の
情報検索に係わり、例えば生命科学分野の文献を検索
し、それに付随した情報を表示する情報検索システム及
びサーバに関する。方法に関する。
【0002】
【従来の技術】情報検索の研究には半世紀近い歴史があ
るが、その根幹には学術情報をどのように配布するか、
あるいは収集するかという問題意識があった。したがっ
て、情報検索の検索対象は、書籍や学術論文などのよう
に均質で閉じた世界のものが中心であった。これに対し
て、1990年代に爆発的な普及をとげたインターネットは
情報検索の研究分野に大きなインパクトを与えた。イン
ターネット上の情報は、変化の速度、絶対量、非永続
性、非均質性、媒体の多様性、開放性などの点で従来の
情報検索の研究が対象としていた情報とは異質である。
このように質的に異なる検索対象を扱うためには、これ
までの情報検索で用いられてきた手法では必ずしも十分
ではない。最近、情報検索の研究分野が活性化している
のもインターネットの普及によるところが多い。
【0003】より知的で性能の良い情報検索システムが
求められているインターネット上の検索サービスは、大
きくYahoo!(http://www.yahoo.com/)のようなディレ
クトリ型と、Alta Vista(http://www.altavista.com)
やGoogle(http://www.google.com/)のようなロボット
型に分類できる。ディレクトリ型検索サービスでは、UR
Lを人手により分野別に分類する方式を取っており、デ
ータ量が少ない反面、人手で索引や要約を作成するた
め、索引と要約の信頼性が高いといった特徴を持つ。一
方、ロボット型検索サービスでは、WWWロボットやスパ
イダーと呼ばれるWeb探索プログラムを用いて、インタ
ーネット上で見つけることの出来るWWWサーバ上の情報
を定期的に収集し、その情報の索引付けを行っており、
情報量が多いという利点を持つ。ロボット型検索サービ
スのGoogleでは、従来のテキストに対する索引付けを行
い、類似度を計算することで行ってきた情報検索の手法
だけでなく、そのページに関するリンク情報をもとに算
出したPage Rankという要素を加味することで、情報検
索システムとしての性能を向上させている。
【0004】このような従来の手法だけではなく、様々
な試みを取り入れる動きは多く、特に、インターネット
上のリソースでも、分野を限定している場合のみ適用可
能な手法なども開発されている。生命科学分野の情報発
信のサイトである米国National Center for Biotechnol
ogy Information(NCBI)の文献データベースであるPub
Med(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi
?db=PubMed)に対してもそのような試みがなされてい
る。そこでは、問い合わせにおいて与えられた遺伝子名
をもとに、その遺伝子に関して最もよく説明されている
文献を抽出し、その文献との類似度の高い文献を検索で
きるという試みである。生命科学の分野においては、ヒ
トゲノムプロジェクトの進展(2000年7月にドラフトシー
ケンス完了)に伴い、その関連論文が日々増大している
のが現状である。PubMedにおいても、日々複数の論文が
新規登録され、更新されている。このような状態の検索
対象から、ユーザごとの要求に適した形で情報を抽出す
る作業は、いまだ困難な状態であると言える。
【0005】ここで、情報検索とは、ユーザの与えるク
エリに適合する文書を文書集合の中から見つけ出すこと
である。クエリとは、ユーザが問題を解決するために必
要と感じている情報への要求を具体化したものであり、
直接、情報検索システムに入力することのできる形式の
ものである。情報検索システムとは、ユーザからのクエ
リを受け、計算機がクエリに適合する文書を文書集合の
中から見つけ出し、ユーザに提示するという一連のシス
テムである。計算機における情報検索システムでは、検
索対象となる文書集合とユーザから与えられたクエリ
は、計算機の内部で扱えるようにするために、計算機の
内部表現へと変換される。その上で、両者を比較するこ
とで、計算機は検索を行うことになる。検索対象となる
文書集合やユーザから入力されたクエリを計算機上で扱
える内部表現に変換するための処理を、索引付けと呼
ぶ。文書は文章の集まりであり、文章は単語の集まりで
あるというのが、索引付けの基本的な考えであり、この
ときの最小単位となる単語などを索引語と呼ぶ。この考
えに基づき、各文書diはそれを構成する各索引語tj
出現頻度wijをもって、式(1.1)のようなベクトルとし
て表現することができる。
【0006】
【数1】
【0007】索引付けの処理においては、一般に次のよ
うな処理を行う。 (1) 不要語リストを参照して文書中の不要語を削除 (2) 接辞処理 (3) 語の頻度をもとにして索引語に重み付け
【0008】索引付けの主な役割は、文書の中からその
文書を特徴付ける索引語を漏れなく抽出することである
が、さらに抽出した索引語がその文書にどれだけ密接に
関係しているかを索引語の重要度として索引語に付与す
ることもできる。抽出した索引語にその索引語の重要度
を表す尺度を与えることを索引語の重み付けと呼ぶ。索
引語の重み付けの最も簡単なものは、その索引語が文書
の中で何回使われたかという頻度そのものを用いる場合
である。ある文書diを構成する各索引語tjの出現頻度
をwijとすると、各文書としては式(1.1)のようなベク
トルとして見ることができるが、ここでは、式(1.2)の
ような行列を考える。つまり、各行はその索引語の文書
にわたる分布を表し、各列はその文書内の索引語の分布
を表している。
【0009】
【数2】
【0010】このように検索対象となる文書集合を行列
として計算機の内部に持つことは、後のクエリとの比
較、つまり実際の検索において効率が良い。上記まで
は、検索対象となる文書の内部表現について説明した。
次に、ユーザから入力されたクエリの内部表現について
説明する。クエリの入力は、索引語の直接入力を扱う。
この索引語の集合を上記の検索対象と同様に、計算機の
内部表現へと変換することになる。クエリについても、
基本的には上記までの検索対象と同様の処理を行う。つ
まり、不要語の処理、接辞処理、重み付けを行うのであ
る。ただし、クエリは、文書集合のように複数あるわけ
ではなく、1回の検索に対しては1つのクエリのみという
ことになるので、式(1.2)のような行列としてではな
く、次の式(1.3)のように、クエリqは各索引語tjの出
現頻度wqjを要素として持つベクトルとして与えられる
こととなる。
【0011】
【数3】
【0012】ここまでで、検索対象となる文書集合とユ
ーザから入力されたクエリは、それぞれ索引語とその頻
度によって同様の形式の内部表現へと変換された。それ
を用いた文書とクエリの比較によって検索を行うのであ
るが、その比較方法である検索モデルはこれまでに数多
く提案されている。その代表的な例には、ブーリアンモ
デル、ベクトル空間モデル、確率モデル、ファジィ集合
モデル、拡張ブーリアンモデル、ネットワークモデル、
クラスタモデル等がある。
【0013】文書とクエリとを比較する検索モデルの最
も簡単なものは、ブーリアンモデルである。ブーリアン
モデルでは、クエリで用いられた索引語と完全一致する
索引語を含む文書を抽出するだけというもので、論理演
算によって簡単に求まる。また、処理の高速化の技術も
考案されており、実用向きである。ただし、この手法で
は検索結果に順位をつけることができないため、一般に
は他の方法と併用されることが多い(徳永健伸: "情報
検索と言語処理,言語と計算5", 東京大学出版会, 199
9)。
【0014】今回とりあげる検索システムのベースとな
る手法のベクトル空間モデルでは、各文書を式(1.2)の
各列を取り出した列ベクトルとし、それと同次元である
式(1.3)のクエリベクトルとの類似度を測る。この類似
度により、検索結果に順位をつけることができるのであ
る。ベクトル同士の類似度は、その余弦(式(1.4))によ
って計算されることが多い。これは、余弦を用いること
で、検索の性能が上がるという実験的な報告を受けての
ものである。余弦を用いることは、両ベクトルの張る角
度を見ることになり、また、ベクトルのノルムは無視さ
れることになるので、値が1に近いほど、その類似度が
高いということになる。ただし、ベクトル空間モデル
は、全ての文書との類似度計算をするため、一般にはブ
ーリアンモデルにより検索対象を絞り込んでから使うこ
とが多い。
【0015】
【数4】
【0016】
【発明が解決しようとする課題】本発明は、例えばPubM
edのような生命科学分野の文献データベースを活用し、
ユーザの要求する情報をより的確に、より分かりやすく
提供するための情報検索システムを提供することを目的
とする。
【0017】
【課題を解決するための手段】本発明では、ユーザの要
求をより高度に実現するために、問い合わせの生成、検
索結果の表示、検索結果の問い合わせへのフィードバッ
クなどにおいて、問い合わせ用の情報を入力するための
画面を表示する手段と、入力された問い合わせ用の情報
から構築した問い合わせ概念をクエリーベクトルとして
表示する手段、及び、問い合わせ概念の編集を可能とす
る手段の実装を行った。具体的には以下の機能があげら
れる。
【0018】(1) 問い合わせは、様々な形態のものを採
用できるようにすること。 (2) 検索途中の経過を表示しつつ、それに対してもアク
ションできるようにすること。 (3) 検索結果の詳細から、様々の情報を引き出せるよう
にすること。 (4) 検索結果から、問い合わせへの様々なフィードバッ
クを行えるようにすること。
【0019】本発明による情報検索システムあるいはサ
ーバは、以下の特徴を有する。 (1)データベースから情報を検索するための情報検索
システムにおいて、問い合わせ用の情報を入力するため
の入力画面を表示する手段と、入力された問い合わせ用
の情報から構築した問い合わせ概念を複数のキーワード
と各キーワードの重みとを含むクエリーベクトルとして
表示するクエリーベクトル表示手段とを備えることを特
徴とする情報検索システム。
【0020】(2)(1)記載の情報検索システムにお
いて、前記入力画面は、情報をテキスト形式で保存して
いるファイル名、自然言語による文や句、公共データベ
ースPubMed(http://www.ncbi.nlm.nih.gov/entrez/que
ry.fcgi?db=PubMed)のID番号、URL、既に登録済みの問
い合わせの識別情報のいずれか又はその組み合わせによ
って問い合わせ用の情報を入力することができ、前記ク
エリーベクトル表示手段は、前記入力画面に入力された
問い合わせ情報を統合して生成したクエリーベクトルを
表示することを特徴とする情報検索システム。公共デー
タベースのID番号としては、例えば公共データベースPu
bMed(http://www.ncbi.nlm.nih.gov/entrez/query.fcg
i?db=PubMed)のUI番号がある。
【0021】(3)(1)記載の情報検索システムにお
いて、前記クエリーベクトル表示手段に表示されたクエ
リーベクトルを編集する手段を備えることを特徴とする
情報検索システム。 (4)(3)記載の情報検索システムにおいて、前記ク
エリーベクトルを編集する手段は、前記クエリーベクト
ル表示手段に表示されたキーワードを、指定した重み以
上のキーワードだけに制限する手段、あるいは、指定し
た順位までの重みの大きなキーワードだけに制限する手
段を有することを特徴とする情報検索システム。
【0022】(5)(3)記載の情報検索システムにお
いて、前記クエリーベクトルを編集する手段は、前記ク
エリーベクトル表示手段に表示されたキーワードの重み
を個別に変更する手段を有することを特徴とする情報検
索システム。 (6)(1)記載の情報検索システムにおいて、検索結
果として、一方の軸に検索された文献をスコアの高い順
に配置し、他方の軸にクエリーベクトルの要素である複
数のキーワードを配置し、各文献とキーワードとの交点
に各文献における前記キーワードのスコアを配置した表
を表示する手段を備えることを特徴とする情報検索シス
テム。
【0023】(7)(1)記載の情報検索システムにお
いて、検索結果として得られた文献中で前記クエリーベ
クトル中のキーワードと共起する単語を抽出し一覧表示
するする手段と、当該一覧表示された単語の中で指定さ
れた単語を前記問い合わせ用の情報に追加する手段とを
備えることを特徴とする情報検索システム。 (8)(1)記載の情報検索システムにおいて、検索さ
れた文献をスコア順位の高い順に一覧表示する検索結果
表示手段と、前記検索結果表示手段に表示された文献の
中で指定された文献を前記問い合わせ用の情報に追加す
る手段を備えることを特徴とする情報検索システム。
【0024】(9)(7)又は(8)記載の情報検索シ
ステムにおいて、変更された問い合わせ用の情報に基づ
いて問い合わせ概念を再構築し、複数のキーワードと各
キーワードの重みとを含むクエリーベクトルとして表示
する手段を備えることを特徴とする情報検索システム。 (10)クライアントから送信されてきた問い合わせ用
の情報から複数のキーワードと各キーワードの重みとを
含むクエリーベクトルを生成する手段と、前記クエリー
ベクトルを表示した画面をクライアントに送信する手段
と、情報検索のために前記クエリーベクトルをデータベ
ースに送信する手段と、前記データベースによる検索結
果を表示した画面をクライアントに送信する手段とを含
むことを特徴とするサーバ。
【0025】(11)(10)記載のサーバにおいて、
検索結果として得られた文献中で前記クエリーベクトル
中のキーワードと共起する単語を抽出する手段と、抽出
した単語の一覧表示画面をクライアントに送信するする
手段と、前記一覧表示画面の中でクライアントが指定し
た単語を前記問い合わせ用の情報に追加してクエリーベ
クトルを再構成する手段とを備えることを特徴とするサ
ーバ。 (12)(10)記載のサーバにおいて、前記データベ
ースによって検索された文献をスコア順位の高い順に一
覧表示した検索結果表示画面をクライアントに送信する
手段と、前記検索結果表示画面に表示された文献の中で
クライアントが指定した文献を前記問い合わせ用の情報
に追加してクエリーベクトルを再構成する手段とを備え
ることを特徴とするサーバ。 (13)(1)〜(9)のいずれか1項記載の情報検索
システムをコンピュータに実現させるためのプログラ
ム。
【0026】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。本発明の情報検索システムでは、
クエリと文書中の索引語が一致することに基づいて検索
を行う。したがって、本来、同一であるべき索引語が言
語の多様性によって不一致になると、検索すべき文書が
検索できなくなってしまう。言語表現の多様性には語形
の多様性と語選択の多様性がある。語形の多様性の問題
を解決するために接辞処理を行う。ここでは、もう一つ
の多様性、語選択の多様性を考える。語選択の多様性と
は、ある概念を表現するのに様々な語を用いて表現でき
るということである。この語選択の多様性の問題を解決
するためには、以下の2つの方法が考えられている。 (1) 同じ概念を表す表現は全て同一の記号に変換する。 (2) クエリ中に含まれる表現をそれと同じ概念を表す全
ての表現の集合と置き換える。
【0027】(1)の方法は、語形の多様性を扱うために
接辞処理を行ったように、表層的には違うが本来同じも
のを全て同一の記号に縮退するというアプローチで、"r
oad"、"street"、"way"などを"@ROAD"のような概念を表
す記号に変換する方法である。(2)の方法は、ある一つ
の表現をそれと同じ概念を表す全ての表現に拡張するア
プローチで、クエリ中に、 "road"とあれば、それを"ro
ad"、"street"、"way"というように置き換える方法であ
る。(Bruce R. Schatz, Eric H. Johnson, Pauline A.
Cochrane: "Interactive Term Suggestion for Users
of Digital Libraries: Using Subject Thesauri and C
o-occurrence Lists for Information Retrieval", Pro
ceeding Digital Libraries '96: 1st ACM Internation
al Conference on Research and Development in Digit
al Libraries, March 20-23 1996in Bethesda, MD.)
【0028】ここではまず、図1を用いて問い合わせ概
念の生成方法について説明する。画面101は問い合わせ
概念の生成用の画面であり、ファイル名入力用フォーム
102、自然言語入力用フォーム103、UI番号入力用フォー
ム104、URL入力用フォーム105、前回作成して保存して
おいた問い合わせ概念の読み出し用フォーム106を持
ち、問い合わせ概念の生成処理の実行用ボタン107を持
つ。問い合わせ用の情報として、既にテキスト形式のフ
ァイルで用意されたものを入力する際は、ファイル名入
力用フォーム102にそのファイルのファイル名をフルパ
スで入力する。同様にして、問い合わせ用の情報として
自然言語を入力する際は、自然言語入力用フォーム103
に自然言語を記述し、Medline IDであるUI番号を入力す
る際は、UI番号入力フォーム104にUI番号を記述し、イ
ンターネット上のあるページを入力とする際は、URL入
力用フォーム105にURLを記述する。既に登録してある問
い合わせを入力する際は、読み出し用フォーム106を用
いて登録済みの問い合わせの識別情報を記述する。
【0029】一連の操作の後、問い合わせ概念の生成処
理の実行用ボタン107を押すことで、指定されたものに
ついての問い合わせ概念、及びそれらを統合した問い合
わせ概念をクエリーベクトルとして生成する。ここで統
合した問い合わせ概念は、各フォーム毎のクエリーベク
トルの足し算で作成される。クエリーベクトルが生成さ
れると、問い合わせ概念の詳細を表示する画面108が表
示される。画面中、109はクエリーベクトルのキーワー
ドのリストを表す。110はタグのリストを表す。ここで
タグとは、キーワードの属する分類クラスを表してい
る。例えば、キーワード“glucocorticoid”はタンパク
質名なので“PROTEIN”タグが割り当てられている。こ
の画面108は、問い合わせ概念をリスト109のキーワー
ド、リスト110のタグ、リスト111の重みをもって表現
し、表示している。
【0030】図2の画面201、及び、画面208は問い合わ
せ概念の表示例を表している。画面201では、重みが
「0.1」以上のキーワードで、かつ、重みの値が上位10
件以内のものだけを表示している。件数入力フォーム20
3を用いて、上位何件までを表示するかを記述し、重み
入力フォーム204を用いて、重みがいくつ以上のキーワ
ードを表示するかを記述する。件数入力フォーム203、
及び、重み入力フォーム204を記述後、表示を更新する
ための表示ボタン202を押すことで、上記条件を満たす
問い合わせ概念のキーワードのみが一覧として表示され
る。一覧は、前述の通りリスト205のキーワード、リス
ト206のタグ、リスト207の重み、以上3つの要素を表示
する。画面208では、重みが「0.01」以上のキーワード
で、かつ、重みの値が上位100件以内のものだけを表示
している。このように、件数入力フォーム203、重み入
力フォーム204、及び、表示ボタン202を用いることで、
問い合わせ概念の詳細を確認することができる。
【0031】次に、図3により問い合わせ概念の詳細確
認について説明する。画面301は、問い合わせ概念の表
示画面である。ここで、リスト302のキーワード、リス
ト303のタグ、リスト304の重みについては、前述の通り
である。この画面301が表示されている状態で、リスト3
02のキーワードのうち、追加情報を知りたいキーワード
をクリックするとサブウィンドウ310が開き、そのキー
ワードについての追加情報をあらかじめシステムに登録
しておいたオンライン上のデータベースで検索すること
ができる。
【0032】画面305、及び、画面308は、キーワード"g
lucocorticoid"をクリックしたとき開いたサブウインド
ウ310に表示されたデータベースで検索した結果を表示
したものである。画面305は、タンパク質についてのデ
ータベース(PDB)を検索した結果の画面で、リスト306に
挙げられたものが検索結果である。3次元グラフィック3
07は、選択したタンパク質の立体構造を表し、角度変更
や拡大縮小を用いて細部を確認することができる。ま
た、画面308は、配列データベース(Genebank)を検索し
た結果の画面で、リスト309は検索結果の名前と配列の
詳細を記述したものである。また、サブウインドウ310
に表示されている"modify"をクリックすると、weight変
更画面が現れ、そこに数値を入力することで、そのサブ
ウィンドウ310を開いたキーワードの重みの数値を変更
することができる。
【0033】次に、図4によりキーワードの追加につい
て説明する。画面401は、前述の問い合わせ作成画面で
ある。この画面401の"Suggetion"ボタン407をマウスで
クリックすることにより展開された画面402は、文献を
解析することによって予測した問い合わせ概念に追加す
べきキーワードの候補となるものの一覧を、ユーザに提
示する表示画面である。画面402は、キーワード追加の
ために用意された画面で、これを用いて問い合わせ概念
に新たにキーワードを追加することができる。ボタン40
3はキーワード追加の決定のボタンであり、チェックボ
タン404は、問い合わせ概念への追加キーワードを指定
するボタンである。リスト405のキーワードが、予測し
たキーワードであり、リスト406がその重みである。こ
こで、提示するキーワードは文献を解析することによっ
て予測したもので、検索結果の漏れを少なくするための
キーワードである。これと同様に、検索結果を絞り込む
ことに適したキーワードを提示する方法もある。そのよ
うな絞り込みのための問い合わせ拡張手法の流れを図6
に示す。
【0034】次に、図5により検索結果の表示について
説明する。画面501は通常の検索結果の表示画面であ
り、画面505は、より詳細な情報を含む検索結果の表示
画面である。画面501の"Detail Mode"ボタンをマウスで
クリックすると、検索結果の詳細画面505に移る。
【0035】画面501では、リスト502の順位、リスト50
3の文書ID、リスト504のタイトルを用いて検索結果を表
示している。画面505では、横軸507の文書ID及び横軸50
8のスコアにより、横軸方向へ検索結果のスコアの高い
順に各文書をとり、縦軸506のキーワードにより、各キ
ーワードが検索にどれだけ影響していたかの詳細を確認
することができる。要素509は、横軸507の文書IDが示す
文書が縦軸506のキーワードの指すものにどの程度影響
を受けているかのスコアが表示されている。
【0036】図6は、絞り込みのための問い合わせ拡張
手法の流れを示す図である。この手法は、従来の問い合
わせ拡張とは異なる。それは、従来は問い合わせ概念の
脆弱さを補い、検索結果の漏れを少なくすることを目標
として問い合わせに追加するキーワードを選出していた
が、この手法では、検索結果が膨大であることを受け、
それを削減していき目的とする文献を見つけやすくする
ために、検索結果を絞り込むことを目標として問い合わ
せに追加すべきキーワードを選出する。この手法では、
問い合わせ601と検索対象の文書集合602に対して索引付
け603を行い、問い合わせ概念であるクエリーベクトル
という内部表現604、及び検索対象の内部表現605を得
る。これと同時に、検索対象の文書集合602の文書ごと
に、その文書内での単語の共起情報を算出する。この個
別に算出した共起情報は個別共起情報606と呼ぶ。以上
の処理の後、検索607としてベクトル空間モデルに従い
ベクトルの比較を行う。その結果が、検索結果の文書集
合608である。クエリーベクトルである内部表現604及び
検索結果の文書集合608から、共起される単語を個別共
起情報606の中から抽出し、それをもとに絞り込むのに
適した文書の予測609をする。その結果が、問い合わせ
拡張の候補610である。この手法は、検索結果を受けて
抽出したものを使うことで、確実に絞り込める単語を抽
出することが可能になっている。
【0037】次に、図7により検索結果の詳細表示につ
いて説明する。画面701は、検索結果の表示画面であ
り、リスト702の順位、リスト703の文書ID、リスト704
のタイトルについては、前述の通りである。この画面
で、文書IDをマウスでクリックして選択することでその
文書に関する詳細を見ることができる。画面705及び画
面706がそれである。画面705は、システムがローカルに
保持している情報を表示したもので、検索の際に用いた
キーワードについては強調表示(図には枠で囲んで表
示)をしたものである。また、画面706は、システムに
登録済みのオンライン上の文献データベースを直接参照
したもので、表示の際に上記と同様にキーワードの強調
を付加したものである。
【0038】次に、図8により問い合わせの再計算につ
いて説明する。画面801は、検索結果の表示画面であ
り、リスト802の順位、リスト803の文書ID、リスト804
のタイトルについては、前述の通りである。チェックボ
タン805は、その検索結果を新しく問い合わせ概念に追
加するか否かの指定用のものである。このチェックボタ
ン805で追加する文書を選択し、マウスで"Recalculate"
ボタンをクリックすることにより、問い合わせ概念(問
い合わせ用のクエリーベクトル)を再度構築し直すこと
ができる。その結果が、画面806である。画面806の表示
は前述の問い合わせ概念の表示と同様のものである。し
たがって、リスト807のキーワード、リスト808のタグ、
リスト809の重みについても前述の通りである。
【0039】次に、図9によりシステム構成と動作につ
いて説明する。システムの構成は、サーバ901上に、検
索エンジン、クエリーベクトル編集エンジン及びオンラ
イン辞書を配置し、クライアント902上にはブラウザを
配置する。ユーザは、クライアント902上でブラウザを
用いることでインターネットを介してサーバ901とのイ
ンタラクションを持つ。また、サーバ901は必要に応じ
て、予めシステムに登録済みのオンライン上のデータベ
ース903にインターネットを介してアクセスする。サー
バ901の機能は、CD−ROM、DVD−ROM、MO
等の記録媒体に記録したプログラムを読み込むことによ
って、あるいはネットワークを介してプログラムを読み
込むことによって実現できる。
【0040】動作は、クライアント側で問い合わせ用の
情報入力904として、キーワードやテキストなどの問い
合わせ用の情報源を入力すると、サーバ901側では、問
い合わせ概念の構築905としてクエリーベクトルを生成
し、クライアント側へ表示画面を送る。クライアント側
では、これを受けてクエリーベクトルの詳細を確認す
る。その際、キーワードから公共DBへ検索906として、
登録してあるデータベースに対してキーワード検索を行
う。これはサーバを介してオンライン上のデータベース
にアクセスすることで行われる。オンライン上のデータ
ベースからの結果を受けて、サーバ側はその詳細情報を
クライアントに表示する。
【0041】クライアント側では、さらに、問い合わせ
概念の編集907として、キーワードのタグや重みの変更
をする。サーバ側では、修正した問い合わせを再構築90
8という形で、クエリーベクトルの再計算を行う。クラ
イアント側で、検索909を行うと、サーバ側からは、検
索結果の表示910として結果の表示画面が来る。これを
受けて、クライアント側では、登録済みのデータベース
への追加情報の検索をかけ、関連情報の表示911とし
て、関連情報の表示画面を得る。また、検索結果の表示
910から、検索結果の問い合わせ概念へのフィードバッ
ク912として、検索結果の中から問い合わせ概念に追加
する文書を選択することができる。これを受けて、最後
にユーザによる再検索913が行われることで、フィード
バックも実現する。再検索913以降は、基本的に検索909
以降と同様である。
【0042】
【発明の効果】本発明によれば、データベースからの文
献検索において様々な要求を問い合わせとして指定する
ことができ、同時に検索結果の文書からのフィードバッ
クも様々な手法で行うことができる。また、検索結果か
らさらに、登録済みのデータベースへの検索を行うこと
が可能になる。
【図面の簡単な説明】
【図1】検索システムの初期画面である問い合わせ作成
のメイン画面を示す図。
【図2】問い合わせ概念の表示画面例を示す図。
【図3】問い合わせ概念の詳細を確認する流れを示す
図。
【図4】問い合わせ概念へのキーワードの追加の様子を
示す図。
【図5】検索結果、及びその詳細を示す図。
【図6】絞り込みのための問い合わせ拡張の流れを示す
図。
【図7】検索結果の文献内容表示画面を示す図。
【図8】問い合わせの再計算への流れを示す図。
【図9】システム構成と動作を示す図。
【符号の説明】
101…問い合わせ概念の生成用画面 108…問い合わせ概念の表示画面 201…問い合わせ概念の表示例 208…問い合わせ概念の表示例 402…キーワード追加画面 501…検索結果の表示画面例 502…順位のリスト 503…文書IDのリスト 504…タイトルのリスト。 505…検索結果の詳細表示例 701…検索結果の表示画面 705…システムがローカルに保持している文献内容を表
す画面 706…オンライン上の文献データベースを直接参照した
文献内容を表す画面 901…サーバ 902…クライアント 903…オンライン上のデータベース
───────────────────────────────────────────────────── フロントページの続き (72)発明者 井原 茂男 東京都千代田区神田駿河台四丁目6番地 株式会社日立製作所ライフサイエンス推進 事業部内 Fターム(参考) 5B075 KK07 ND03 ND20 NK02 NK10 PP22 PP28 PQ02 PQ13 PQ36 PQ46 PR06 QM08 QP01 UU19

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 データベースから情報を検索するための
    情報検索システムにおいて、 問い合わせ用の情報を入力するための入力画面を表示す
    る手段と、 入力された問い合わせ用の情報から構築した問い合わせ
    概念を複数のキーワードと各キーワードの重みとを含む
    クエリーベクトルとして表示するクエリーベクトル表示
    手段とを備えることを特徴とする情報検索システム。
  2. 【請求項2】 請求項1記載の情報検索システムにおい
    て、 前記入力画面は、情報をテキスト形式で保存しているフ
    ァイル名、自然言語による文や句、公共データベースの
    ID番号、URL、既に登録済みの問い合わせ概念の識別情
    報のいずれか又はその組み合わせによって問い合わせ用
    の情報を入力することができ、 前記クエリーベクトル表示手段は、前記入力画面に入力
    された問い合わせ情報を統合して生成したクエリーベク
    トルを表示することを特徴とする情報検索システム。
  3. 【請求項3】 請求項1記載の情報検索システムにおい
    て、前記クエリーベクトル表示手段に表示されたクエリ
    ーベクトルを編集する手段を備えることを特徴とする情
    報検索システム。
  4. 【請求項4】 請求項3記載の情報検索システムにおい
    て、前記クエリーベクトルを編集する手段は、前記クエ
    リーベクトル表示手段に表示されたキーワードを、指定
    した重み以上のキーワードだけに制限する手段、あるい
    は、指定した順位までの重みの大きなキーワードだけに
    制限する手段を有することを特徴とする情報検索システ
    ム。
  5. 【請求項5】 請求項3記載の情報検索システムにおい
    て、前記クエリーベクトルを編集する手段は、前記クエ
    リーベクトル表示手段に表示されたキーワードの重みを
    個別に変更する手段を有することを特徴とする情報検索
    システム。
  6. 【請求項6】 請求項1記載の情報検索システムにおい
    て、検索結果として、一方の軸に検索された文献をスコ
    アの高い順に配置し、他方の軸にクエリーベクトルの要
    素である複数のキーワードを配置し、各文献とキーワー
    ドとの交点に各文献における前記キーワードのスコアを
    配置した表を表示する手段を備えることを特徴とする情
    報検索システム。
  7. 【請求項7】 請求項1記載の情報検索システムにおい
    て、検索結果として得られた文献中で前記クエリーベク
    トル中のキーワードと共起する単語を抽出し一覧表示す
    るする手段と、当該一覧表示された単語の中で指定され
    た単語を前記問い合わせ用の情報に追加する手段とを備
    えることを特徴とする情報検索システム。
  8. 【請求項8】 請求項1記載の情報検索システムにおい
    て、検索された文献をスコア順位の高い順に一覧表示す
    る検索結果表示手段と、前記検索結果表示手段に表示さ
    れた文献の中で指定された文献を前記問い合わせ用の情
    報に追加する手段を備えることを特徴とする情報検索シ
    ステム。
  9. 【請求項9】 請求項7又は8記載の情報検索システム
    において、変更された問い合わせ用の情報に基づいて問
    い合わせ概念を再構築し、複数のキーワードと各キーワ
    ードの重みとを含むクエリーベクトルとして表示する手
    段を備えることを特徴とする情報検索システム。
  10. 【請求項10】 クライアントから送信されてきた問い
    合わせ用の情報から複数のキーワードと各キーワードの
    重みとを含むクエリーベクトルを生成する手段と、 前記クエリーベクトルを表示した画面をクライアントに
    送信する手段と、 情報検索のために前記クエリーベクトルをデータベース
    に送信する手段と、 前記データベースによる検索結果を表示した画面をクラ
    イアントに送信する手段とを含むことを特徴とするサー
    バ。
  11. 【請求項11】 請求項10記載のサーバにおいて、検
    索結果として得られた文献中で前記クエリーベクトル中
    のキーワードと共起する単語を抽出する手段と、抽出し
    た単語の一覧表示画面をクライアントに送信するする手
    段と、前記一覧表示画面の中でクライアントが指定した
    単語を前記問い合わせ用の情報に追加してクエリーベク
    トルを再構成する手段とを備えることを特徴とするサー
    バ。
  12. 【請求項12】 請求項10記載のサーバにおいて、前
    記データベースによって検索された文献をスコア順位の
    高い順に一覧表示した検索結果表示画面をクライアント
    に送信する手段と、前記検索結果表示画面に表示された
    文献の中でクライアントが指定した文献を前記問い合わ
    せ用の情報に追加してクエリーベクトルを再構成する手
    段とを備えることを特徴とするサーバ。
  13. 【請求項13】 請求項1〜9のいずれか1項記載の情
    報検索システムをコンピュータに実現させるためのプロ
    グラム。
JP2001198757A 2001-06-29 2001-06-29 情報検索システム Expired - Fee Related JP3717808B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001198757A JP3717808B2 (ja) 2001-06-29 2001-06-29 情報検索システム
US10/076,400 US20030014398A1 (en) 2001-06-29 2002-02-19 Query modification system for information retrieval

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001198757A JP3717808B2 (ja) 2001-06-29 2001-06-29 情報検索システム

Publications (2)

Publication Number Publication Date
JP2003016089A true JP2003016089A (ja) 2003-01-17
JP3717808B2 JP3717808B2 (ja) 2005-11-16

Family

ID=19036146

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001198757A Expired - Fee Related JP3717808B2 (ja) 2001-06-29 2001-06-29 情報検索システム

Country Status (2)

Country Link
US (1) US20030014398A1 (ja)
JP (1) JP3717808B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007500408A (ja) * 2003-06-13 2007-01-11 マイクロソフト コーポレーション データベースクエリユーザインターフェース
JP2008123095A (ja) * 2006-11-09 2008-05-29 Seiko Epson Corp 検索端末装置、検索システムおよびプログラム
WO2009019830A1 (ja) * 2007-08-03 2009-02-12 Panasonic Corporation 関連語提示装置
JP2011503700A (ja) * 2007-11-02 2011-01-27 マイクロソフト コーポレーション ウェブ広告を使用した、検索クエリのシンジケート
JP2012533817A (ja) * 2009-07-22 2012-12-27 ファンデーションアイピー,エルエルシー 電子文書コレクションからクエリ結果を送付する方法、システム及び装置

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040008828A1 (en) * 2002-07-09 2004-01-15 Scott Coles Dynamic information retrieval system utilizing voice recognition
JP3974511B2 (ja) * 2002-12-19 2007-09-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報検索のためのデータ構造を生成するコンピュータ・システム、そのための方法、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラム、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラムを記憶したコンピュータ可読な記憶媒体、情報検索システム、およびグラフィカル・ユーザ・インタフェイス・システム
US7216121B2 (en) * 2002-12-31 2007-05-08 International Business Machines Corporation Search engine facility with automated knowledge retrieval, generation and maintenance
JP2005043977A (ja) * 2003-07-23 2005-02-17 Hitachi Ltd 文書間の類似度算出方法および装置
US8869061B1 (en) 2003-08-29 2014-10-21 Microsoft Corporation User interface for searching an electronic document
US7590936B1 (en) 2003-09-30 2009-09-15 Microsoft Corporation Method for extracting information associated with a search term
US7707142B1 (en) 2004-03-31 2010-04-27 Google Inc. Methods and systems for performing an offline search
US7272601B1 (en) * 2004-03-31 2007-09-18 Google Inc. Systems and methods for associating a keyword with a user interface area
US8631001B2 (en) * 2004-03-31 2014-01-14 Google Inc. Systems and methods for weighting a search query result
US7664734B2 (en) * 2004-03-31 2010-02-16 Google Inc. Systems and methods for generating multiple implicit search queries
US8041713B2 (en) * 2004-03-31 2011-10-18 Google Inc. Systems and methods for analyzing boilerplate
US9009153B2 (en) 2004-03-31 2015-04-14 Google Inc. Systems and methods for identifying a named entity
US7693825B2 (en) * 2004-03-31 2010-04-06 Google Inc. Systems and methods for ranking implicit search results
US7788274B1 (en) 2004-06-30 2010-08-31 Google Inc. Systems and methods for category-based search
US8131754B1 (en) 2004-06-30 2012-03-06 Google Inc. Systems and methods for determining an article association measure
US20070006129A1 (en) * 2005-06-01 2007-01-04 Opasmedia Oy Forming of a data retrieval, searching from a data retrieval system, and a data retrieval system
US8285739B2 (en) * 2005-07-28 2012-10-09 International Business Machines Corporation System and method for identifying qualifying data records from underlying databases
US8200695B2 (en) * 2006-04-13 2012-06-12 Lg Electronics Inc. Database for uploading, storing, and retrieving similar documents
US20100211605A1 (en) * 2009-02-17 2010-08-19 Subhankar Ray Apparatus and method for unified web-search, selective broadcasting, natural language processing utilities, analysis, synthesis, and other applications for text, images, audios and videos, initiated by one or more interactions from users
US10083229B2 (en) * 2009-10-09 2018-09-25 International Business Machines Corporation System, method, and apparatus for pairing a short document to another short document from a plurality of short documents
US9785704B2 (en) * 2012-01-04 2017-10-10 Microsoft Technology Licensing, Llc Extracting query dimensions from search results
JP5426710B2 (ja) * 2012-03-19 2014-02-26 株式会社東芝 検索支援装置、検索支援方法およびプログラム
US9069882B2 (en) * 2013-01-22 2015-06-30 International Business Machines Corporation Mapping and boosting of terms in a format independent data retrieval query
US10212256B2 (en) * 2015-12-14 2019-02-19 Facebook, Inc. Delegating database queries
US10552410B2 (en) 2017-11-14 2020-02-04 Mindbridge Analytics Inc. Method and system for presenting a user selectable interface in response to a natural language request
CN108829788A (zh) * 2018-05-31 2018-11-16 深圳市轱辘汽车维修技术有限公司 一种问题解答方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09153066A (ja) * 1995-11-29 1997-06-10 Matsushita Electric Ind Co Ltd 文書検索装置
JPH09288675A (ja) * 1996-04-22 1997-11-04 Sharp Corp 検索装置
JPH1145249A (ja) * 1997-07-25 1999-02-16 Just Syst Corp 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001117939A (ja) * 1999-10-20 2001-04-27 Just Syst Corp クエリ出力装置、文献検索システム、クエリ出力方法、文献検索方法、並びに、記録媒体

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6757646B2 (en) * 2000-03-22 2004-06-29 Insightful Corporation Extended functionality for an inverse inference engine based web search
US20010037328A1 (en) * 2000-03-23 2001-11-01 Pustejovsky James D. Method and system for interfacing to a knowledge acquisition system
US7464086B2 (en) * 2000-08-01 2008-12-09 Yahoo! Inc. Metatag-based datamining
US7231381B2 (en) * 2001-03-13 2007-06-12 Microsoft Corporation Media content search engine incorporating text content and user log mining
WO2003075186A1 (en) * 2002-03-01 2003-09-12 Paul Jeffrey Krupin A method and system for creating improved search queries

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09153066A (ja) * 1995-11-29 1997-06-10 Matsushita Electric Ind Co Ltd 文書検索装置
JPH09288675A (ja) * 1996-04-22 1997-11-04 Sharp Corp 検索装置
JPH1145249A (ja) * 1997-07-25 1999-02-16 Just Syst Corp 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001117939A (ja) * 1999-10-20 2001-04-27 Just Syst Corp クエリ出力装置、文献検索システム、クエリ出力方法、文献検索方法、並びに、記録媒体

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007500408A (ja) * 2003-06-13 2007-01-11 マイクロソフト コーポレーション データベースクエリユーザインターフェース
US8447775B2 (en) 2003-06-13 2013-05-21 Microsoft Corporation Database query user interface to assist in efficient and accurate query construction
JP2008123095A (ja) * 2006-11-09 2008-05-29 Seiko Epson Corp 検索端末装置、検索システムおよびプログラム
WO2009019830A1 (ja) * 2007-08-03 2009-02-12 Panasonic Corporation 関連語提示装置
JP4464463B2 (ja) * 2007-08-03 2010-05-19 パナソニック株式会社 関連語提示装置
JPWO2009019830A1 (ja) * 2007-08-03 2010-10-28 パナソニック株式会社 関連語提示装置
US8504357B2 (en) 2007-08-03 2013-08-06 Panasonic Corporation Related word presentation device
JP2011503700A (ja) * 2007-11-02 2011-01-27 マイクロソフト コーポレーション ウェブ広告を使用した、検索クエリのシンジケート
JP2012533817A (ja) * 2009-07-22 2012-12-27 ファンデーションアイピー,エルエルシー 電子文書コレクションからクエリ結果を送付する方法、システム及び装置

Also Published As

Publication number Publication date
JP3717808B2 (ja) 2005-11-16
US20030014398A1 (en) 2003-01-16

Similar Documents

Publication Publication Date Title
JP3717808B2 (ja) 情報検索システム
JP5546731B2 (ja) 検索方法及び検索システム
US8868539B2 (en) Search equalizer
US7783644B1 (en) Query-independent entity importance in books
US6636853B1 (en) Method and apparatus for representing and navigating search results
US9323827B2 (en) Identifying key terms related to similar passages
Kowalski Information retrieval architecture and algorithms
US20020073079A1 (en) Method and apparatus for searching a database and providing relevance feedback
US20100306249A1 (en) Social network systems and methods
JP2003114906A (ja) ユーザ定義可能なパーソナリティを備えたメタ文書管理システム
US20040064447A1 (en) System and method for management of synonymic searching
US20030004932A1 (en) Method and system for knowledge repository exploration and visualization
JP2008538149A (ja) 格付け方法、検索結果組織化方法、格付けシステム及び検索結果組織化システム
JP5084673B2 (ja) 商品情報検索装置、方法及びシステム
JP4200933B2 (ja) 情報検索装置
Bouramoul et al. Using context to improve the evaluation of information retrieval systems
JP4324650B2 (ja) 情報資源検索装置、情報資源検索方法及び情報資源検索プログラム
JP3612769B2 (ja) 情報検索装置および情報検索方法
JP2003271648A (ja) 検索装置、検索方法、ならびに、プログラム
JP3445800B2 (ja) テキスト検索方法
JP4146067B2 (ja) 文書検索システムおよび文書検索方法
JPH10105562A (ja) 検索システム
Rao Recall oriented approaches for improved indian language information access
Zacharis et al. SpiderServer: the meta-search engine of WebNaut
Manjula et al. An efficient approach for indexing web pages using various similarity features

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050831

LAPS Cancellation because of no payment of annual fees