JP2003016089A - 情報検索システム及びサーバ - Google Patents
情報検索システム及びサーバInfo
- Publication number
- JP2003016089A JP2003016089A JP2001198757A JP2001198757A JP2003016089A JP 2003016089 A JP2003016089 A JP 2003016089A JP 2001198757 A JP2001198757 A JP 2001198757A JP 2001198757 A JP2001198757 A JP 2001198757A JP 2003016089 A JP2003016089 A JP 2003016089A
- Authority
- JP
- Japan
- Prior art keywords
- information
- query vector
- inquiry
- search
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 ユーザの要求する情報をより的確に、より分
かりやすく提供する。 【解決手段】 問い合わせ概念生成用画面101でテキ
スト形式ファイル名入力用フォーム102、自然言語入
力用フォーム103、UI番号入力用フォーム104、
URL入力用フォーム105、登録済みの問い合わせの概
念読み出し用フォーム106等によって問い合わせ用の
情報を入力すると、問い合わせ用の情報から構築した問
い合わせ概念を複数のキーワードと各キーワードの重み
とを含むクエリーベクトルとして画面108に表示す
る。ユーザはクエリーベクトルを見て問い合わせ概念を
確認し、必要があれば修正することができる。
かりやすく提供する。 【解決手段】 問い合わせ概念生成用画面101でテキ
スト形式ファイル名入力用フォーム102、自然言語入
力用フォーム103、UI番号入力用フォーム104、
URL入力用フォーム105、登録済みの問い合わせの概
念読み出し用フォーム106等によって問い合わせ用の
情報を入力すると、問い合わせ用の情報から構築した問
い合わせ概念を複数のキーワードと各キーワードの重み
とを含むクエリーベクトルとして画面108に表示す
る。ユーザはクエリーベクトルを見て問い合わせ概念を
確認し、必要があれば修正することができる。
Description
【0001】
【発明の属する技術分野】本発明はインターネット上の
情報検索に係わり、例えば生命科学分野の文献を検索
し、それに付随した情報を表示する情報検索システム及
びサーバに関する。方法に関する。
情報検索に係わり、例えば生命科学分野の文献を検索
し、それに付随した情報を表示する情報検索システム及
びサーバに関する。方法に関する。
【0002】
【従来の技術】情報検索の研究には半世紀近い歴史があ
るが、その根幹には学術情報をどのように配布するか、
あるいは収集するかという問題意識があった。したがっ
て、情報検索の検索対象は、書籍や学術論文などのよう
に均質で閉じた世界のものが中心であった。これに対し
て、1990年代に爆発的な普及をとげたインターネットは
情報検索の研究分野に大きなインパクトを与えた。イン
ターネット上の情報は、変化の速度、絶対量、非永続
性、非均質性、媒体の多様性、開放性などの点で従来の
情報検索の研究が対象としていた情報とは異質である。
このように質的に異なる検索対象を扱うためには、これ
までの情報検索で用いられてきた手法では必ずしも十分
ではない。最近、情報検索の研究分野が活性化している
のもインターネットの普及によるところが多い。
るが、その根幹には学術情報をどのように配布するか、
あるいは収集するかという問題意識があった。したがっ
て、情報検索の検索対象は、書籍や学術論文などのよう
に均質で閉じた世界のものが中心であった。これに対し
て、1990年代に爆発的な普及をとげたインターネットは
情報検索の研究分野に大きなインパクトを与えた。イン
ターネット上の情報は、変化の速度、絶対量、非永続
性、非均質性、媒体の多様性、開放性などの点で従来の
情報検索の研究が対象としていた情報とは異質である。
このように質的に異なる検索対象を扱うためには、これ
までの情報検索で用いられてきた手法では必ずしも十分
ではない。最近、情報検索の研究分野が活性化している
のもインターネットの普及によるところが多い。
【0003】より知的で性能の良い情報検索システムが
求められているインターネット上の検索サービスは、大
きくYahoo!(http://www.yahoo.com/)のようなディレ
クトリ型と、Alta Vista(http://www.altavista.com)
やGoogle(http://www.google.com/)のようなロボット
型に分類できる。ディレクトリ型検索サービスでは、UR
Lを人手により分野別に分類する方式を取っており、デ
ータ量が少ない反面、人手で索引や要約を作成するた
め、索引と要約の信頼性が高いといった特徴を持つ。一
方、ロボット型検索サービスでは、WWWロボットやスパ
イダーと呼ばれるWeb探索プログラムを用いて、インタ
ーネット上で見つけることの出来るWWWサーバ上の情報
を定期的に収集し、その情報の索引付けを行っており、
情報量が多いという利点を持つ。ロボット型検索サービ
スのGoogleでは、従来のテキストに対する索引付けを行
い、類似度を計算することで行ってきた情報検索の手法
だけでなく、そのページに関するリンク情報をもとに算
出したPage Rankという要素を加味することで、情報検
索システムとしての性能を向上させている。
求められているインターネット上の検索サービスは、大
きくYahoo!(http://www.yahoo.com/)のようなディレ
クトリ型と、Alta Vista(http://www.altavista.com)
やGoogle(http://www.google.com/)のようなロボット
型に分類できる。ディレクトリ型検索サービスでは、UR
Lを人手により分野別に分類する方式を取っており、デ
ータ量が少ない反面、人手で索引や要約を作成するた
め、索引と要約の信頼性が高いといった特徴を持つ。一
方、ロボット型検索サービスでは、WWWロボットやスパ
イダーと呼ばれるWeb探索プログラムを用いて、インタ
ーネット上で見つけることの出来るWWWサーバ上の情報
を定期的に収集し、その情報の索引付けを行っており、
情報量が多いという利点を持つ。ロボット型検索サービ
スのGoogleでは、従来のテキストに対する索引付けを行
い、類似度を計算することで行ってきた情報検索の手法
だけでなく、そのページに関するリンク情報をもとに算
出したPage Rankという要素を加味することで、情報検
索システムとしての性能を向上させている。
【0004】このような従来の手法だけではなく、様々
な試みを取り入れる動きは多く、特に、インターネット
上のリソースでも、分野を限定している場合のみ適用可
能な手法なども開発されている。生命科学分野の情報発
信のサイトである米国National Center for Biotechnol
ogy Information(NCBI)の文献データベースであるPub
Med(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi
?db=PubMed)に対してもそのような試みがなされてい
る。そこでは、問い合わせにおいて与えられた遺伝子名
をもとに、その遺伝子に関して最もよく説明されている
文献を抽出し、その文献との類似度の高い文献を検索で
きるという試みである。生命科学の分野においては、ヒ
トゲノムプロジェクトの進展(2000年7月にドラフトシー
ケンス完了)に伴い、その関連論文が日々増大している
のが現状である。PubMedにおいても、日々複数の論文が
新規登録され、更新されている。このような状態の検索
対象から、ユーザごとの要求に適した形で情報を抽出す
る作業は、いまだ困難な状態であると言える。
な試みを取り入れる動きは多く、特に、インターネット
上のリソースでも、分野を限定している場合のみ適用可
能な手法なども開発されている。生命科学分野の情報発
信のサイトである米国National Center for Biotechnol
ogy Information(NCBI)の文献データベースであるPub
Med(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi
?db=PubMed)に対してもそのような試みがなされてい
る。そこでは、問い合わせにおいて与えられた遺伝子名
をもとに、その遺伝子に関して最もよく説明されている
文献を抽出し、その文献との類似度の高い文献を検索で
きるという試みである。生命科学の分野においては、ヒ
トゲノムプロジェクトの進展(2000年7月にドラフトシー
ケンス完了)に伴い、その関連論文が日々増大している
のが現状である。PubMedにおいても、日々複数の論文が
新規登録され、更新されている。このような状態の検索
対象から、ユーザごとの要求に適した形で情報を抽出す
る作業は、いまだ困難な状態であると言える。
【0005】ここで、情報検索とは、ユーザの与えるク
エリに適合する文書を文書集合の中から見つけ出すこと
である。クエリとは、ユーザが問題を解決するために必
要と感じている情報への要求を具体化したものであり、
直接、情報検索システムに入力することのできる形式の
ものである。情報検索システムとは、ユーザからのクエ
リを受け、計算機がクエリに適合する文書を文書集合の
中から見つけ出し、ユーザに提示するという一連のシス
テムである。計算機における情報検索システムでは、検
索対象となる文書集合とユーザから与えられたクエリ
は、計算機の内部で扱えるようにするために、計算機の
内部表現へと変換される。その上で、両者を比較するこ
とで、計算機は検索を行うことになる。検索対象となる
文書集合やユーザから入力されたクエリを計算機上で扱
える内部表現に変換するための処理を、索引付けと呼
ぶ。文書は文章の集まりであり、文章は単語の集まりで
あるというのが、索引付けの基本的な考えであり、この
ときの最小単位となる単語などを索引語と呼ぶ。この考
えに基づき、各文書diはそれを構成する各索引語tjの
出現頻度wijをもって、式(1.1)のようなベクトルとし
て表現することができる。
エリに適合する文書を文書集合の中から見つけ出すこと
である。クエリとは、ユーザが問題を解決するために必
要と感じている情報への要求を具体化したものであり、
直接、情報検索システムに入力することのできる形式の
ものである。情報検索システムとは、ユーザからのクエ
リを受け、計算機がクエリに適合する文書を文書集合の
中から見つけ出し、ユーザに提示するという一連のシス
テムである。計算機における情報検索システムでは、検
索対象となる文書集合とユーザから与えられたクエリ
は、計算機の内部で扱えるようにするために、計算機の
内部表現へと変換される。その上で、両者を比較するこ
とで、計算機は検索を行うことになる。検索対象となる
文書集合やユーザから入力されたクエリを計算機上で扱
える内部表現に変換するための処理を、索引付けと呼
ぶ。文書は文章の集まりであり、文章は単語の集まりで
あるというのが、索引付けの基本的な考えであり、この
ときの最小単位となる単語などを索引語と呼ぶ。この考
えに基づき、各文書diはそれを構成する各索引語tjの
出現頻度wijをもって、式(1.1)のようなベクトルとし
て表現することができる。
【0006】
【数1】
【0007】索引付けの処理においては、一般に次のよ
うな処理を行う。 (1) 不要語リストを参照して文書中の不要語を削除 (2) 接辞処理 (3) 語の頻度をもとにして索引語に重み付け
うな処理を行う。 (1) 不要語リストを参照して文書中の不要語を削除 (2) 接辞処理 (3) 語の頻度をもとにして索引語に重み付け
【0008】索引付けの主な役割は、文書の中からその
文書を特徴付ける索引語を漏れなく抽出することである
が、さらに抽出した索引語がその文書にどれだけ密接に
関係しているかを索引語の重要度として索引語に付与す
ることもできる。抽出した索引語にその索引語の重要度
を表す尺度を与えることを索引語の重み付けと呼ぶ。索
引語の重み付けの最も簡単なものは、その索引語が文書
の中で何回使われたかという頻度そのものを用いる場合
である。ある文書diを構成する各索引語tjの出現頻度
をwijとすると、各文書としては式(1.1)のようなベク
トルとして見ることができるが、ここでは、式(1.2)の
ような行列を考える。つまり、各行はその索引語の文書
にわたる分布を表し、各列はその文書内の索引語の分布
を表している。
文書を特徴付ける索引語を漏れなく抽出することである
が、さらに抽出した索引語がその文書にどれだけ密接に
関係しているかを索引語の重要度として索引語に付与す
ることもできる。抽出した索引語にその索引語の重要度
を表す尺度を与えることを索引語の重み付けと呼ぶ。索
引語の重み付けの最も簡単なものは、その索引語が文書
の中で何回使われたかという頻度そのものを用いる場合
である。ある文書diを構成する各索引語tjの出現頻度
をwijとすると、各文書としては式(1.1)のようなベク
トルとして見ることができるが、ここでは、式(1.2)の
ような行列を考える。つまり、各行はその索引語の文書
にわたる分布を表し、各列はその文書内の索引語の分布
を表している。
【0009】
【数2】
【0010】このように検索対象となる文書集合を行列
として計算機の内部に持つことは、後のクエリとの比
較、つまり実際の検索において効率が良い。上記まで
は、検索対象となる文書の内部表現について説明した。
次に、ユーザから入力されたクエリの内部表現について
説明する。クエリの入力は、索引語の直接入力を扱う。
この索引語の集合を上記の検索対象と同様に、計算機の
内部表現へと変換することになる。クエリについても、
基本的には上記までの検索対象と同様の処理を行う。つ
まり、不要語の処理、接辞処理、重み付けを行うのであ
る。ただし、クエリは、文書集合のように複数あるわけ
ではなく、1回の検索に対しては1つのクエリのみという
ことになるので、式(1.2)のような行列としてではな
く、次の式(1.3)のように、クエリqは各索引語tjの出
現頻度wqjを要素として持つベクトルとして与えられる
こととなる。
として計算機の内部に持つことは、後のクエリとの比
較、つまり実際の検索において効率が良い。上記まで
は、検索対象となる文書の内部表現について説明した。
次に、ユーザから入力されたクエリの内部表現について
説明する。クエリの入力は、索引語の直接入力を扱う。
この索引語の集合を上記の検索対象と同様に、計算機の
内部表現へと変換することになる。クエリについても、
基本的には上記までの検索対象と同様の処理を行う。つ
まり、不要語の処理、接辞処理、重み付けを行うのであ
る。ただし、クエリは、文書集合のように複数あるわけ
ではなく、1回の検索に対しては1つのクエリのみという
ことになるので、式(1.2)のような行列としてではな
く、次の式(1.3)のように、クエリqは各索引語tjの出
現頻度wqjを要素として持つベクトルとして与えられる
こととなる。
【0011】
【数3】
【0012】ここまでで、検索対象となる文書集合とユ
ーザから入力されたクエリは、それぞれ索引語とその頻
度によって同様の形式の内部表現へと変換された。それ
を用いた文書とクエリの比較によって検索を行うのであ
るが、その比較方法である検索モデルはこれまでに数多
く提案されている。その代表的な例には、ブーリアンモ
デル、ベクトル空間モデル、確率モデル、ファジィ集合
モデル、拡張ブーリアンモデル、ネットワークモデル、
クラスタモデル等がある。
ーザから入力されたクエリは、それぞれ索引語とその頻
度によって同様の形式の内部表現へと変換された。それ
を用いた文書とクエリの比較によって検索を行うのであ
るが、その比較方法である検索モデルはこれまでに数多
く提案されている。その代表的な例には、ブーリアンモ
デル、ベクトル空間モデル、確率モデル、ファジィ集合
モデル、拡張ブーリアンモデル、ネットワークモデル、
クラスタモデル等がある。
【0013】文書とクエリとを比較する検索モデルの最
も簡単なものは、ブーリアンモデルである。ブーリアン
モデルでは、クエリで用いられた索引語と完全一致する
索引語を含む文書を抽出するだけというもので、論理演
算によって簡単に求まる。また、処理の高速化の技術も
考案されており、実用向きである。ただし、この手法で
は検索結果に順位をつけることができないため、一般に
は他の方法と併用されることが多い(徳永健伸: "情報
検索と言語処理,言語と計算5", 東京大学出版会, 199
9)。
も簡単なものは、ブーリアンモデルである。ブーリアン
モデルでは、クエリで用いられた索引語と完全一致する
索引語を含む文書を抽出するだけというもので、論理演
算によって簡単に求まる。また、処理の高速化の技術も
考案されており、実用向きである。ただし、この手法で
は検索結果に順位をつけることができないため、一般に
は他の方法と併用されることが多い(徳永健伸: "情報
検索と言語処理,言語と計算5", 東京大学出版会, 199
9)。
【0014】今回とりあげる検索システムのベースとな
る手法のベクトル空間モデルでは、各文書を式(1.2)の
各列を取り出した列ベクトルとし、それと同次元である
式(1.3)のクエリベクトルとの類似度を測る。この類似
度により、検索結果に順位をつけることができるのであ
る。ベクトル同士の類似度は、その余弦(式(1.4))によ
って計算されることが多い。これは、余弦を用いること
で、検索の性能が上がるという実験的な報告を受けての
ものである。余弦を用いることは、両ベクトルの張る角
度を見ることになり、また、ベクトルのノルムは無視さ
れることになるので、値が1に近いほど、その類似度が
高いということになる。ただし、ベクトル空間モデル
は、全ての文書との類似度計算をするため、一般にはブ
ーリアンモデルにより検索対象を絞り込んでから使うこ
とが多い。
る手法のベクトル空間モデルでは、各文書を式(1.2)の
各列を取り出した列ベクトルとし、それと同次元である
式(1.3)のクエリベクトルとの類似度を測る。この類似
度により、検索結果に順位をつけることができるのであ
る。ベクトル同士の類似度は、その余弦(式(1.4))によ
って計算されることが多い。これは、余弦を用いること
で、検索の性能が上がるという実験的な報告を受けての
ものである。余弦を用いることは、両ベクトルの張る角
度を見ることになり、また、ベクトルのノルムは無視さ
れることになるので、値が1に近いほど、その類似度が
高いということになる。ただし、ベクトル空間モデル
は、全ての文書との類似度計算をするため、一般にはブ
ーリアンモデルにより検索対象を絞り込んでから使うこ
とが多い。
【0015】
【数4】
【0016】
【発明が解決しようとする課題】本発明は、例えばPubM
edのような生命科学分野の文献データベースを活用し、
ユーザの要求する情報をより的確に、より分かりやすく
提供するための情報検索システムを提供することを目的
とする。
edのような生命科学分野の文献データベースを活用し、
ユーザの要求する情報をより的確に、より分かりやすく
提供するための情報検索システムを提供することを目的
とする。
【0017】
【課題を解決するための手段】本発明では、ユーザの要
求をより高度に実現するために、問い合わせの生成、検
索結果の表示、検索結果の問い合わせへのフィードバッ
クなどにおいて、問い合わせ用の情報を入力するための
画面を表示する手段と、入力された問い合わせ用の情報
から構築した問い合わせ概念をクエリーベクトルとして
表示する手段、及び、問い合わせ概念の編集を可能とす
る手段の実装を行った。具体的には以下の機能があげら
れる。
求をより高度に実現するために、問い合わせの生成、検
索結果の表示、検索結果の問い合わせへのフィードバッ
クなどにおいて、問い合わせ用の情報を入力するための
画面を表示する手段と、入力された問い合わせ用の情報
から構築した問い合わせ概念をクエリーベクトルとして
表示する手段、及び、問い合わせ概念の編集を可能とす
る手段の実装を行った。具体的には以下の機能があげら
れる。
【0018】(1) 問い合わせは、様々な形態のものを採
用できるようにすること。 (2) 検索途中の経過を表示しつつ、それに対してもアク
ションできるようにすること。 (3) 検索結果の詳細から、様々の情報を引き出せるよう
にすること。 (4) 検索結果から、問い合わせへの様々なフィードバッ
クを行えるようにすること。
用できるようにすること。 (2) 検索途中の経過を表示しつつ、それに対してもアク
ションできるようにすること。 (3) 検索結果の詳細から、様々の情報を引き出せるよう
にすること。 (4) 検索結果から、問い合わせへの様々なフィードバッ
クを行えるようにすること。
【0019】本発明による情報検索システムあるいはサ
ーバは、以下の特徴を有する。 (1)データベースから情報を検索するための情報検索
システムにおいて、問い合わせ用の情報を入力するため
の入力画面を表示する手段と、入力された問い合わせ用
の情報から構築した問い合わせ概念を複数のキーワード
と各キーワードの重みとを含むクエリーベクトルとして
表示するクエリーベクトル表示手段とを備えることを特
徴とする情報検索システム。
ーバは、以下の特徴を有する。 (1)データベースから情報を検索するための情報検索
システムにおいて、問い合わせ用の情報を入力するため
の入力画面を表示する手段と、入力された問い合わせ用
の情報から構築した問い合わせ概念を複数のキーワード
と各キーワードの重みとを含むクエリーベクトルとして
表示するクエリーベクトル表示手段とを備えることを特
徴とする情報検索システム。
【0020】(2)(1)記載の情報検索システムにお
いて、前記入力画面は、情報をテキスト形式で保存して
いるファイル名、自然言語による文や句、公共データベ
ースPubMed(http://www.ncbi.nlm.nih.gov/entrez/que
ry.fcgi?db=PubMed)のID番号、URL、既に登録済みの問
い合わせの識別情報のいずれか又はその組み合わせによ
って問い合わせ用の情報を入力することができ、前記ク
エリーベクトル表示手段は、前記入力画面に入力された
問い合わせ情報を統合して生成したクエリーベクトルを
表示することを特徴とする情報検索システム。公共デー
タベースのID番号としては、例えば公共データベースPu
bMed(http://www.ncbi.nlm.nih.gov/entrez/query.fcg
i?db=PubMed)のUI番号がある。
いて、前記入力画面は、情報をテキスト形式で保存して
いるファイル名、自然言語による文や句、公共データベ
ースPubMed(http://www.ncbi.nlm.nih.gov/entrez/que
ry.fcgi?db=PubMed)のID番号、URL、既に登録済みの問
い合わせの識別情報のいずれか又はその組み合わせによ
って問い合わせ用の情報を入力することができ、前記ク
エリーベクトル表示手段は、前記入力画面に入力された
問い合わせ情報を統合して生成したクエリーベクトルを
表示することを特徴とする情報検索システム。公共デー
タベースのID番号としては、例えば公共データベースPu
bMed(http://www.ncbi.nlm.nih.gov/entrez/query.fcg
i?db=PubMed)のUI番号がある。
【0021】(3)(1)記載の情報検索システムにお
いて、前記クエリーベクトル表示手段に表示されたクエ
リーベクトルを編集する手段を備えることを特徴とする
情報検索システム。 (4)(3)記載の情報検索システムにおいて、前記ク
エリーベクトルを編集する手段は、前記クエリーベクト
ル表示手段に表示されたキーワードを、指定した重み以
上のキーワードだけに制限する手段、あるいは、指定し
た順位までの重みの大きなキーワードだけに制限する手
段を有することを特徴とする情報検索システム。
いて、前記クエリーベクトル表示手段に表示されたクエ
リーベクトルを編集する手段を備えることを特徴とする
情報検索システム。 (4)(3)記載の情報検索システムにおいて、前記ク
エリーベクトルを編集する手段は、前記クエリーベクト
ル表示手段に表示されたキーワードを、指定した重み以
上のキーワードだけに制限する手段、あるいは、指定し
た順位までの重みの大きなキーワードだけに制限する手
段を有することを特徴とする情報検索システム。
【0022】(5)(3)記載の情報検索システムにお
いて、前記クエリーベクトルを編集する手段は、前記ク
エリーベクトル表示手段に表示されたキーワードの重み
を個別に変更する手段を有することを特徴とする情報検
索システム。 (6)(1)記載の情報検索システムにおいて、検索結
果として、一方の軸に検索された文献をスコアの高い順
に配置し、他方の軸にクエリーベクトルの要素である複
数のキーワードを配置し、各文献とキーワードとの交点
に各文献における前記キーワードのスコアを配置した表
を表示する手段を備えることを特徴とする情報検索シス
テム。
いて、前記クエリーベクトルを編集する手段は、前記ク
エリーベクトル表示手段に表示されたキーワードの重み
を個別に変更する手段を有することを特徴とする情報検
索システム。 (6)(1)記載の情報検索システムにおいて、検索結
果として、一方の軸に検索された文献をスコアの高い順
に配置し、他方の軸にクエリーベクトルの要素である複
数のキーワードを配置し、各文献とキーワードとの交点
に各文献における前記キーワードのスコアを配置した表
を表示する手段を備えることを特徴とする情報検索シス
テム。
【0023】(7)(1)記載の情報検索システムにお
いて、検索結果として得られた文献中で前記クエリーベ
クトル中のキーワードと共起する単語を抽出し一覧表示
するする手段と、当該一覧表示された単語の中で指定さ
れた単語を前記問い合わせ用の情報に追加する手段とを
備えることを特徴とする情報検索システム。 (8)(1)記載の情報検索システムにおいて、検索さ
れた文献をスコア順位の高い順に一覧表示する検索結果
表示手段と、前記検索結果表示手段に表示された文献の
中で指定された文献を前記問い合わせ用の情報に追加す
る手段を備えることを特徴とする情報検索システム。
いて、検索結果として得られた文献中で前記クエリーベ
クトル中のキーワードと共起する単語を抽出し一覧表示
するする手段と、当該一覧表示された単語の中で指定さ
れた単語を前記問い合わせ用の情報に追加する手段とを
備えることを特徴とする情報検索システム。 (8)(1)記載の情報検索システムにおいて、検索さ
れた文献をスコア順位の高い順に一覧表示する検索結果
表示手段と、前記検索結果表示手段に表示された文献の
中で指定された文献を前記問い合わせ用の情報に追加す
る手段を備えることを特徴とする情報検索システム。
【0024】(9)(7)又は(8)記載の情報検索シ
ステムにおいて、変更された問い合わせ用の情報に基づ
いて問い合わせ概念を再構築し、複数のキーワードと各
キーワードの重みとを含むクエリーベクトルとして表示
する手段を備えることを特徴とする情報検索システム。 (10)クライアントから送信されてきた問い合わせ用
の情報から複数のキーワードと各キーワードの重みとを
含むクエリーベクトルを生成する手段と、前記クエリー
ベクトルを表示した画面をクライアントに送信する手段
と、情報検索のために前記クエリーベクトルをデータベ
ースに送信する手段と、前記データベースによる検索結
果を表示した画面をクライアントに送信する手段とを含
むことを特徴とするサーバ。
ステムにおいて、変更された問い合わせ用の情報に基づ
いて問い合わせ概念を再構築し、複数のキーワードと各
キーワードの重みとを含むクエリーベクトルとして表示
する手段を備えることを特徴とする情報検索システム。 (10)クライアントから送信されてきた問い合わせ用
の情報から複数のキーワードと各キーワードの重みとを
含むクエリーベクトルを生成する手段と、前記クエリー
ベクトルを表示した画面をクライアントに送信する手段
と、情報検索のために前記クエリーベクトルをデータベ
ースに送信する手段と、前記データベースによる検索結
果を表示した画面をクライアントに送信する手段とを含
むことを特徴とするサーバ。
【0025】(11)(10)記載のサーバにおいて、
検索結果として得られた文献中で前記クエリーベクトル
中のキーワードと共起する単語を抽出する手段と、抽出
した単語の一覧表示画面をクライアントに送信するする
手段と、前記一覧表示画面の中でクライアントが指定し
た単語を前記問い合わせ用の情報に追加してクエリーベ
クトルを再構成する手段とを備えることを特徴とするサ
ーバ。 (12)(10)記載のサーバにおいて、前記データベ
ースによって検索された文献をスコア順位の高い順に一
覧表示した検索結果表示画面をクライアントに送信する
手段と、前記検索結果表示画面に表示された文献の中で
クライアントが指定した文献を前記問い合わせ用の情報
に追加してクエリーベクトルを再構成する手段とを備え
ることを特徴とするサーバ。 (13)(1)〜(9)のいずれか1項記載の情報検索
システムをコンピュータに実現させるためのプログラ
ム。
検索結果として得られた文献中で前記クエリーベクトル
中のキーワードと共起する単語を抽出する手段と、抽出
した単語の一覧表示画面をクライアントに送信するする
手段と、前記一覧表示画面の中でクライアントが指定し
た単語を前記問い合わせ用の情報に追加してクエリーベ
クトルを再構成する手段とを備えることを特徴とするサ
ーバ。 (12)(10)記載のサーバにおいて、前記データベ
ースによって検索された文献をスコア順位の高い順に一
覧表示した検索結果表示画面をクライアントに送信する
手段と、前記検索結果表示画面に表示された文献の中で
クライアントが指定した文献を前記問い合わせ用の情報
に追加してクエリーベクトルを再構成する手段とを備え
ることを特徴とするサーバ。 (13)(1)〜(9)のいずれか1項記載の情報検索
システムをコンピュータに実現させるためのプログラ
ム。
【0026】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。本発明の情報検索システムでは、
クエリと文書中の索引語が一致することに基づいて検索
を行う。したがって、本来、同一であるべき索引語が言
語の多様性によって不一致になると、検索すべき文書が
検索できなくなってしまう。言語表現の多様性には語形
の多様性と語選択の多様性がある。語形の多様性の問題
を解決するために接辞処理を行う。ここでは、もう一つ
の多様性、語選択の多様性を考える。語選択の多様性と
は、ある概念を表現するのに様々な語を用いて表現でき
るということである。この語選択の多様性の問題を解決
するためには、以下の2つの方法が考えられている。 (1) 同じ概念を表す表現は全て同一の記号に変換する。 (2) クエリ中に含まれる表現をそれと同じ概念を表す全
ての表現の集合と置き換える。
施の形態を説明する。本発明の情報検索システムでは、
クエリと文書中の索引語が一致することに基づいて検索
を行う。したがって、本来、同一であるべき索引語が言
語の多様性によって不一致になると、検索すべき文書が
検索できなくなってしまう。言語表現の多様性には語形
の多様性と語選択の多様性がある。語形の多様性の問題
を解決するために接辞処理を行う。ここでは、もう一つ
の多様性、語選択の多様性を考える。語選択の多様性と
は、ある概念を表現するのに様々な語を用いて表現でき
るということである。この語選択の多様性の問題を解決
するためには、以下の2つの方法が考えられている。 (1) 同じ概念を表す表現は全て同一の記号に変換する。 (2) クエリ中に含まれる表現をそれと同じ概念を表す全
ての表現の集合と置き換える。
【0027】(1)の方法は、語形の多様性を扱うために
接辞処理を行ったように、表層的には違うが本来同じも
のを全て同一の記号に縮退するというアプローチで、"r
oad"、"street"、"way"などを"@ROAD"のような概念を表
す記号に変換する方法である。(2)の方法は、ある一つ
の表現をそれと同じ概念を表す全ての表現に拡張するア
プローチで、クエリ中に、 "road"とあれば、それを"ro
ad"、"street"、"way"というように置き換える方法であ
る。(Bruce R. Schatz, Eric H. Johnson, Pauline A.
Cochrane: "Interactive Term Suggestion for Users
of Digital Libraries: Using Subject Thesauri and C
o-occurrence Lists for Information Retrieval", Pro
ceeding Digital Libraries '96: 1st ACM Internation
al Conference on Research and Development in Digit
al Libraries, March 20-23 1996in Bethesda, MD.)
接辞処理を行ったように、表層的には違うが本来同じも
のを全て同一の記号に縮退するというアプローチで、"r
oad"、"street"、"way"などを"@ROAD"のような概念を表
す記号に変換する方法である。(2)の方法は、ある一つ
の表現をそれと同じ概念を表す全ての表現に拡張するア
プローチで、クエリ中に、 "road"とあれば、それを"ro
ad"、"street"、"way"というように置き換える方法であ
る。(Bruce R. Schatz, Eric H. Johnson, Pauline A.
Cochrane: "Interactive Term Suggestion for Users
of Digital Libraries: Using Subject Thesauri and C
o-occurrence Lists for Information Retrieval", Pro
ceeding Digital Libraries '96: 1st ACM Internation
al Conference on Research and Development in Digit
al Libraries, March 20-23 1996in Bethesda, MD.)
【0028】ここではまず、図1を用いて問い合わせ概
念の生成方法について説明する。画面101は問い合わせ
概念の生成用の画面であり、ファイル名入力用フォーム
102、自然言語入力用フォーム103、UI番号入力用フォー
ム104、URL入力用フォーム105、前回作成して保存して
おいた問い合わせ概念の読み出し用フォーム106を持
ち、問い合わせ概念の生成処理の実行用ボタン107を持
つ。問い合わせ用の情報として、既にテキスト形式のフ
ァイルで用意されたものを入力する際は、ファイル名入
力用フォーム102にそのファイルのファイル名をフルパ
スで入力する。同様にして、問い合わせ用の情報として
自然言語を入力する際は、自然言語入力用フォーム103
に自然言語を記述し、Medline IDであるUI番号を入力す
る際は、UI番号入力フォーム104にUI番号を記述し、イ
ンターネット上のあるページを入力とする際は、URL入
力用フォーム105にURLを記述する。既に登録してある問
い合わせを入力する際は、読み出し用フォーム106を用
いて登録済みの問い合わせの識別情報を記述する。
念の生成方法について説明する。画面101は問い合わせ
概念の生成用の画面であり、ファイル名入力用フォーム
102、自然言語入力用フォーム103、UI番号入力用フォー
ム104、URL入力用フォーム105、前回作成して保存して
おいた問い合わせ概念の読み出し用フォーム106を持
ち、問い合わせ概念の生成処理の実行用ボタン107を持
つ。問い合わせ用の情報として、既にテキスト形式のフ
ァイルで用意されたものを入力する際は、ファイル名入
力用フォーム102にそのファイルのファイル名をフルパ
スで入力する。同様にして、問い合わせ用の情報として
自然言語を入力する際は、自然言語入力用フォーム103
に自然言語を記述し、Medline IDであるUI番号を入力す
る際は、UI番号入力フォーム104にUI番号を記述し、イ
ンターネット上のあるページを入力とする際は、URL入
力用フォーム105にURLを記述する。既に登録してある問
い合わせを入力する際は、読み出し用フォーム106を用
いて登録済みの問い合わせの識別情報を記述する。
【0029】一連の操作の後、問い合わせ概念の生成処
理の実行用ボタン107を押すことで、指定されたものに
ついての問い合わせ概念、及びそれらを統合した問い合
わせ概念をクエリーベクトルとして生成する。ここで統
合した問い合わせ概念は、各フォーム毎のクエリーベク
トルの足し算で作成される。クエリーベクトルが生成さ
れると、問い合わせ概念の詳細を表示する画面108が表
示される。画面中、109はクエリーベクトルのキーワー
ドのリストを表す。110はタグのリストを表す。ここで
タグとは、キーワードの属する分類クラスを表してい
る。例えば、キーワード“glucocorticoid”はタンパク
質名なので“PROTEIN”タグが割り当てられている。こ
の画面108は、問い合わせ概念をリスト109のキーワー
ド、リスト110のタグ、リスト111の重みをもって表現
し、表示している。
理の実行用ボタン107を押すことで、指定されたものに
ついての問い合わせ概念、及びそれらを統合した問い合
わせ概念をクエリーベクトルとして生成する。ここで統
合した問い合わせ概念は、各フォーム毎のクエリーベク
トルの足し算で作成される。クエリーベクトルが生成さ
れると、問い合わせ概念の詳細を表示する画面108が表
示される。画面中、109はクエリーベクトルのキーワー
ドのリストを表す。110はタグのリストを表す。ここで
タグとは、キーワードの属する分類クラスを表してい
る。例えば、キーワード“glucocorticoid”はタンパク
質名なので“PROTEIN”タグが割り当てられている。こ
の画面108は、問い合わせ概念をリスト109のキーワー
ド、リスト110のタグ、リスト111の重みをもって表現
し、表示している。
【0030】図2の画面201、及び、画面208は問い合わ
せ概念の表示例を表している。画面201では、重みが
「0.1」以上のキーワードで、かつ、重みの値が上位10
件以内のものだけを表示している。件数入力フォーム20
3を用いて、上位何件までを表示するかを記述し、重み
入力フォーム204を用いて、重みがいくつ以上のキーワ
ードを表示するかを記述する。件数入力フォーム203、
及び、重み入力フォーム204を記述後、表示を更新する
ための表示ボタン202を押すことで、上記条件を満たす
問い合わせ概念のキーワードのみが一覧として表示され
る。一覧は、前述の通りリスト205のキーワード、リス
ト206のタグ、リスト207の重み、以上3つの要素を表示
する。画面208では、重みが「0.01」以上のキーワード
で、かつ、重みの値が上位100件以内のものだけを表示
している。このように、件数入力フォーム203、重み入
力フォーム204、及び、表示ボタン202を用いることで、
問い合わせ概念の詳細を確認することができる。
せ概念の表示例を表している。画面201では、重みが
「0.1」以上のキーワードで、かつ、重みの値が上位10
件以内のものだけを表示している。件数入力フォーム20
3を用いて、上位何件までを表示するかを記述し、重み
入力フォーム204を用いて、重みがいくつ以上のキーワ
ードを表示するかを記述する。件数入力フォーム203、
及び、重み入力フォーム204を記述後、表示を更新する
ための表示ボタン202を押すことで、上記条件を満たす
問い合わせ概念のキーワードのみが一覧として表示され
る。一覧は、前述の通りリスト205のキーワード、リス
ト206のタグ、リスト207の重み、以上3つの要素を表示
する。画面208では、重みが「0.01」以上のキーワード
で、かつ、重みの値が上位100件以内のものだけを表示
している。このように、件数入力フォーム203、重み入
力フォーム204、及び、表示ボタン202を用いることで、
問い合わせ概念の詳細を確認することができる。
【0031】次に、図3により問い合わせ概念の詳細確
認について説明する。画面301は、問い合わせ概念の表
示画面である。ここで、リスト302のキーワード、リス
ト303のタグ、リスト304の重みについては、前述の通り
である。この画面301が表示されている状態で、リスト3
02のキーワードのうち、追加情報を知りたいキーワード
をクリックするとサブウィンドウ310が開き、そのキー
ワードについての追加情報をあらかじめシステムに登録
しておいたオンライン上のデータベースで検索すること
ができる。
認について説明する。画面301は、問い合わせ概念の表
示画面である。ここで、リスト302のキーワード、リス
ト303のタグ、リスト304の重みについては、前述の通り
である。この画面301が表示されている状態で、リスト3
02のキーワードのうち、追加情報を知りたいキーワード
をクリックするとサブウィンドウ310が開き、そのキー
ワードについての追加情報をあらかじめシステムに登録
しておいたオンライン上のデータベースで検索すること
ができる。
【0032】画面305、及び、画面308は、キーワード"g
lucocorticoid"をクリックしたとき開いたサブウインド
ウ310に表示されたデータベースで検索した結果を表示
したものである。画面305は、タンパク質についてのデ
ータベース(PDB)を検索した結果の画面で、リスト306に
挙げられたものが検索結果である。3次元グラフィック3
07は、選択したタンパク質の立体構造を表し、角度変更
や拡大縮小を用いて細部を確認することができる。ま
た、画面308は、配列データベース(Genebank)を検索し
た結果の画面で、リスト309は検索結果の名前と配列の
詳細を記述したものである。また、サブウインドウ310
に表示されている"modify"をクリックすると、weight変
更画面が現れ、そこに数値を入力することで、そのサブ
ウィンドウ310を開いたキーワードの重みの数値を変更
することができる。
lucocorticoid"をクリックしたとき開いたサブウインド
ウ310に表示されたデータベースで検索した結果を表示
したものである。画面305は、タンパク質についてのデ
ータベース(PDB)を検索した結果の画面で、リスト306に
挙げられたものが検索結果である。3次元グラフィック3
07は、選択したタンパク質の立体構造を表し、角度変更
や拡大縮小を用いて細部を確認することができる。ま
た、画面308は、配列データベース(Genebank)を検索し
た結果の画面で、リスト309は検索結果の名前と配列の
詳細を記述したものである。また、サブウインドウ310
に表示されている"modify"をクリックすると、weight変
更画面が現れ、そこに数値を入力することで、そのサブ
ウィンドウ310を開いたキーワードの重みの数値を変更
することができる。
【0033】次に、図4によりキーワードの追加につい
て説明する。画面401は、前述の問い合わせ作成画面で
ある。この画面401の"Suggetion"ボタン407をマウスで
クリックすることにより展開された画面402は、文献を
解析することによって予測した問い合わせ概念に追加す
べきキーワードの候補となるものの一覧を、ユーザに提
示する表示画面である。画面402は、キーワード追加の
ために用意された画面で、これを用いて問い合わせ概念
に新たにキーワードを追加することができる。ボタン40
3はキーワード追加の決定のボタンであり、チェックボ
タン404は、問い合わせ概念への追加キーワードを指定
するボタンである。リスト405のキーワードが、予測し
たキーワードであり、リスト406がその重みである。こ
こで、提示するキーワードは文献を解析することによっ
て予測したもので、検索結果の漏れを少なくするための
キーワードである。これと同様に、検索結果を絞り込む
ことに適したキーワードを提示する方法もある。そのよ
うな絞り込みのための問い合わせ拡張手法の流れを図6
に示す。
て説明する。画面401は、前述の問い合わせ作成画面で
ある。この画面401の"Suggetion"ボタン407をマウスで
クリックすることにより展開された画面402は、文献を
解析することによって予測した問い合わせ概念に追加す
べきキーワードの候補となるものの一覧を、ユーザに提
示する表示画面である。画面402は、キーワード追加の
ために用意された画面で、これを用いて問い合わせ概念
に新たにキーワードを追加することができる。ボタン40
3はキーワード追加の決定のボタンであり、チェックボ
タン404は、問い合わせ概念への追加キーワードを指定
するボタンである。リスト405のキーワードが、予測し
たキーワードであり、リスト406がその重みである。こ
こで、提示するキーワードは文献を解析することによっ
て予測したもので、検索結果の漏れを少なくするための
キーワードである。これと同様に、検索結果を絞り込む
ことに適したキーワードを提示する方法もある。そのよ
うな絞り込みのための問い合わせ拡張手法の流れを図6
に示す。
【0034】次に、図5により検索結果の表示について
説明する。画面501は通常の検索結果の表示画面であ
り、画面505は、より詳細な情報を含む検索結果の表示
画面である。画面501の"Detail Mode"ボタンをマウスで
クリックすると、検索結果の詳細画面505に移る。
説明する。画面501は通常の検索結果の表示画面であ
り、画面505は、より詳細な情報を含む検索結果の表示
画面である。画面501の"Detail Mode"ボタンをマウスで
クリックすると、検索結果の詳細画面505に移る。
【0035】画面501では、リスト502の順位、リスト50
3の文書ID、リスト504のタイトルを用いて検索結果を表
示している。画面505では、横軸507の文書ID及び横軸50
8のスコアにより、横軸方向へ検索結果のスコアの高い
順に各文書をとり、縦軸506のキーワードにより、各キ
ーワードが検索にどれだけ影響していたかの詳細を確認
することができる。要素509は、横軸507の文書IDが示す
文書が縦軸506のキーワードの指すものにどの程度影響
を受けているかのスコアが表示されている。
3の文書ID、リスト504のタイトルを用いて検索結果を表
示している。画面505では、横軸507の文書ID及び横軸50
8のスコアにより、横軸方向へ検索結果のスコアの高い
順に各文書をとり、縦軸506のキーワードにより、各キ
ーワードが検索にどれだけ影響していたかの詳細を確認
することができる。要素509は、横軸507の文書IDが示す
文書が縦軸506のキーワードの指すものにどの程度影響
を受けているかのスコアが表示されている。
【0036】図6は、絞り込みのための問い合わせ拡張
手法の流れを示す図である。この手法は、従来の問い合
わせ拡張とは異なる。それは、従来は問い合わせ概念の
脆弱さを補い、検索結果の漏れを少なくすることを目標
として問い合わせに追加するキーワードを選出していた
が、この手法では、検索結果が膨大であることを受け、
それを削減していき目的とする文献を見つけやすくする
ために、検索結果を絞り込むことを目標として問い合わ
せに追加すべきキーワードを選出する。この手法では、
問い合わせ601と検索対象の文書集合602に対して索引付
け603を行い、問い合わせ概念であるクエリーベクトル
という内部表現604、及び検索対象の内部表現605を得
る。これと同時に、検索対象の文書集合602の文書ごと
に、その文書内での単語の共起情報を算出する。この個
別に算出した共起情報は個別共起情報606と呼ぶ。以上
の処理の後、検索607としてベクトル空間モデルに従い
ベクトルの比較を行う。その結果が、検索結果の文書集
合608である。クエリーベクトルである内部表現604及び
検索結果の文書集合608から、共起される単語を個別共
起情報606の中から抽出し、それをもとに絞り込むのに
適した文書の予測609をする。その結果が、問い合わせ
拡張の候補610である。この手法は、検索結果を受けて
抽出したものを使うことで、確実に絞り込める単語を抽
出することが可能になっている。
手法の流れを示す図である。この手法は、従来の問い合
わせ拡張とは異なる。それは、従来は問い合わせ概念の
脆弱さを補い、検索結果の漏れを少なくすることを目標
として問い合わせに追加するキーワードを選出していた
が、この手法では、検索結果が膨大であることを受け、
それを削減していき目的とする文献を見つけやすくする
ために、検索結果を絞り込むことを目標として問い合わ
せに追加すべきキーワードを選出する。この手法では、
問い合わせ601と検索対象の文書集合602に対して索引付
け603を行い、問い合わせ概念であるクエリーベクトル
という内部表現604、及び検索対象の内部表現605を得
る。これと同時に、検索対象の文書集合602の文書ごと
に、その文書内での単語の共起情報を算出する。この個
別に算出した共起情報は個別共起情報606と呼ぶ。以上
の処理の後、検索607としてベクトル空間モデルに従い
ベクトルの比較を行う。その結果が、検索結果の文書集
合608である。クエリーベクトルである内部表現604及び
検索結果の文書集合608から、共起される単語を個別共
起情報606の中から抽出し、それをもとに絞り込むのに
適した文書の予測609をする。その結果が、問い合わせ
拡張の候補610である。この手法は、検索結果を受けて
抽出したものを使うことで、確実に絞り込める単語を抽
出することが可能になっている。
【0037】次に、図7により検索結果の詳細表示につ
いて説明する。画面701は、検索結果の表示画面であ
り、リスト702の順位、リスト703の文書ID、リスト704
のタイトルについては、前述の通りである。この画面
で、文書IDをマウスでクリックして選択することでその
文書に関する詳細を見ることができる。画面705及び画
面706がそれである。画面705は、システムがローカルに
保持している情報を表示したもので、検索の際に用いた
キーワードについては強調表示(図には枠で囲んで表
示)をしたものである。また、画面706は、システムに
登録済みのオンライン上の文献データベースを直接参照
したもので、表示の際に上記と同様にキーワードの強調
を付加したものである。
いて説明する。画面701は、検索結果の表示画面であ
り、リスト702の順位、リスト703の文書ID、リスト704
のタイトルについては、前述の通りである。この画面
で、文書IDをマウスでクリックして選択することでその
文書に関する詳細を見ることができる。画面705及び画
面706がそれである。画面705は、システムがローカルに
保持している情報を表示したもので、検索の際に用いた
キーワードについては強調表示(図には枠で囲んで表
示)をしたものである。また、画面706は、システムに
登録済みのオンライン上の文献データベースを直接参照
したもので、表示の際に上記と同様にキーワードの強調
を付加したものである。
【0038】次に、図8により問い合わせの再計算につ
いて説明する。画面801は、検索結果の表示画面であ
り、リスト802の順位、リスト803の文書ID、リスト804
のタイトルについては、前述の通りである。チェックボ
タン805は、その検索結果を新しく問い合わせ概念に追
加するか否かの指定用のものである。このチェックボタ
ン805で追加する文書を選択し、マウスで"Recalculate"
ボタンをクリックすることにより、問い合わせ概念(問
い合わせ用のクエリーベクトル)を再度構築し直すこと
ができる。その結果が、画面806である。画面806の表示
は前述の問い合わせ概念の表示と同様のものである。し
たがって、リスト807のキーワード、リスト808のタグ、
リスト809の重みについても前述の通りである。
いて説明する。画面801は、検索結果の表示画面であ
り、リスト802の順位、リスト803の文書ID、リスト804
のタイトルについては、前述の通りである。チェックボ
タン805は、その検索結果を新しく問い合わせ概念に追
加するか否かの指定用のものである。このチェックボタ
ン805で追加する文書を選択し、マウスで"Recalculate"
ボタンをクリックすることにより、問い合わせ概念(問
い合わせ用のクエリーベクトル)を再度構築し直すこと
ができる。その結果が、画面806である。画面806の表示
は前述の問い合わせ概念の表示と同様のものである。し
たがって、リスト807のキーワード、リスト808のタグ、
リスト809の重みについても前述の通りである。
【0039】次に、図9によりシステム構成と動作につ
いて説明する。システムの構成は、サーバ901上に、検
索エンジン、クエリーベクトル編集エンジン及びオンラ
イン辞書を配置し、クライアント902上にはブラウザを
配置する。ユーザは、クライアント902上でブラウザを
用いることでインターネットを介してサーバ901とのイ
ンタラクションを持つ。また、サーバ901は必要に応じ
て、予めシステムに登録済みのオンライン上のデータベ
ース903にインターネットを介してアクセスする。サー
バ901の機能は、CD−ROM、DVD−ROM、MO
等の記録媒体に記録したプログラムを読み込むことによ
って、あるいはネットワークを介してプログラムを読み
込むことによって実現できる。
いて説明する。システムの構成は、サーバ901上に、検
索エンジン、クエリーベクトル編集エンジン及びオンラ
イン辞書を配置し、クライアント902上にはブラウザを
配置する。ユーザは、クライアント902上でブラウザを
用いることでインターネットを介してサーバ901とのイ
ンタラクションを持つ。また、サーバ901は必要に応じ
て、予めシステムに登録済みのオンライン上のデータベ
ース903にインターネットを介してアクセスする。サー
バ901の機能は、CD−ROM、DVD−ROM、MO
等の記録媒体に記録したプログラムを読み込むことによ
って、あるいはネットワークを介してプログラムを読み
込むことによって実現できる。
【0040】動作は、クライアント側で問い合わせ用の
情報入力904として、キーワードやテキストなどの問い
合わせ用の情報源を入力すると、サーバ901側では、問
い合わせ概念の構築905としてクエリーベクトルを生成
し、クライアント側へ表示画面を送る。クライアント側
では、これを受けてクエリーベクトルの詳細を確認す
る。その際、キーワードから公共DBへ検索906として、
登録してあるデータベースに対してキーワード検索を行
う。これはサーバを介してオンライン上のデータベース
にアクセスすることで行われる。オンライン上のデータ
ベースからの結果を受けて、サーバ側はその詳細情報を
クライアントに表示する。
情報入力904として、キーワードやテキストなどの問い
合わせ用の情報源を入力すると、サーバ901側では、問
い合わせ概念の構築905としてクエリーベクトルを生成
し、クライアント側へ表示画面を送る。クライアント側
では、これを受けてクエリーベクトルの詳細を確認す
る。その際、キーワードから公共DBへ検索906として、
登録してあるデータベースに対してキーワード検索を行
う。これはサーバを介してオンライン上のデータベース
にアクセスすることで行われる。オンライン上のデータ
ベースからの結果を受けて、サーバ側はその詳細情報を
クライアントに表示する。
【0041】クライアント側では、さらに、問い合わせ
概念の編集907として、キーワードのタグや重みの変更
をする。サーバ側では、修正した問い合わせを再構築90
8という形で、クエリーベクトルの再計算を行う。クラ
イアント側で、検索909を行うと、サーバ側からは、検
索結果の表示910として結果の表示画面が来る。これを
受けて、クライアント側では、登録済みのデータベース
への追加情報の検索をかけ、関連情報の表示911とし
て、関連情報の表示画面を得る。また、検索結果の表示
910から、検索結果の問い合わせ概念へのフィードバッ
ク912として、検索結果の中から問い合わせ概念に追加
する文書を選択することができる。これを受けて、最後
にユーザによる再検索913が行われることで、フィード
バックも実現する。再検索913以降は、基本的に検索909
以降と同様である。
概念の編集907として、キーワードのタグや重みの変更
をする。サーバ側では、修正した問い合わせを再構築90
8という形で、クエリーベクトルの再計算を行う。クラ
イアント側で、検索909を行うと、サーバ側からは、検
索結果の表示910として結果の表示画面が来る。これを
受けて、クライアント側では、登録済みのデータベース
への追加情報の検索をかけ、関連情報の表示911とし
て、関連情報の表示画面を得る。また、検索結果の表示
910から、検索結果の問い合わせ概念へのフィードバッ
ク912として、検索結果の中から問い合わせ概念に追加
する文書を選択することができる。これを受けて、最後
にユーザによる再検索913が行われることで、フィード
バックも実現する。再検索913以降は、基本的に検索909
以降と同様である。
【0042】
【発明の効果】本発明によれば、データベースからの文
献検索において様々な要求を問い合わせとして指定する
ことができ、同時に検索結果の文書からのフィードバッ
クも様々な手法で行うことができる。また、検索結果か
らさらに、登録済みのデータベースへの検索を行うこと
が可能になる。
献検索において様々な要求を問い合わせとして指定する
ことができ、同時に検索結果の文書からのフィードバッ
クも様々な手法で行うことができる。また、検索結果か
らさらに、登録済みのデータベースへの検索を行うこと
が可能になる。
【図1】検索システムの初期画面である問い合わせ作成
のメイン画面を示す図。
のメイン画面を示す図。
【図2】問い合わせ概念の表示画面例を示す図。
【図3】問い合わせ概念の詳細を確認する流れを示す
図。
図。
【図4】問い合わせ概念へのキーワードの追加の様子を
示す図。
示す図。
【図5】検索結果、及びその詳細を示す図。
【図6】絞り込みのための問い合わせ拡張の流れを示す
図。
図。
【図7】検索結果の文献内容表示画面を示す図。
【図8】問い合わせの再計算への流れを示す図。
【図9】システム構成と動作を示す図。
101…問い合わせ概念の生成用画面
108…問い合わせ概念の表示画面
201…問い合わせ概念の表示例
208…問い合わせ概念の表示例
402…キーワード追加画面
501…検索結果の表示画面例
502…順位のリスト
503…文書IDのリスト
504…タイトルのリスト。
505…検索結果の詳細表示例
701…検索結果の表示画面
705…システムがローカルに保持している文献内容を表
す画面 706…オンライン上の文献データベースを直接参照した
文献内容を表す画面 901…サーバ 902…クライアント 903…オンライン上のデータベース
す画面 706…オンライン上の文献データベースを直接参照した
文献内容を表す画面 901…サーバ 902…クライアント 903…オンライン上のデータベース
─────────────────────────────────────────────────────
フロントページの続き
(72)発明者 井原 茂男
東京都千代田区神田駿河台四丁目6番地
株式会社日立製作所ライフサイエンス推進
事業部内
Fターム(参考) 5B075 KK07 ND03 ND20 NK02 NK10
PP22 PP28 PQ02 PQ13 PQ36
PQ46 PR06 QM08 QP01 UU19
Claims (13)
- 【請求項1】 データベースから情報を検索するための
情報検索システムにおいて、 問い合わせ用の情報を入力するための入力画面を表示す
る手段と、 入力された問い合わせ用の情報から構築した問い合わせ
概念を複数のキーワードと各キーワードの重みとを含む
クエリーベクトルとして表示するクエリーベクトル表示
手段とを備えることを特徴とする情報検索システム。 - 【請求項2】 請求項1記載の情報検索システムにおい
て、 前記入力画面は、情報をテキスト形式で保存しているフ
ァイル名、自然言語による文や句、公共データベースの
ID番号、URL、既に登録済みの問い合わせ概念の識別情
報のいずれか又はその組み合わせによって問い合わせ用
の情報を入力することができ、 前記クエリーベクトル表示手段は、前記入力画面に入力
された問い合わせ情報を統合して生成したクエリーベク
トルを表示することを特徴とする情報検索システム。 - 【請求項3】 請求項1記載の情報検索システムにおい
て、前記クエリーベクトル表示手段に表示されたクエリ
ーベクトルを編集する手段を備えることを特徴とする情
報検索システム。 - 【請求項4】 請求項3記載の情報検索システムにおい
て、前記クエリーベクトルを編集する手段は、前記クエ
リーベクトル表示手段に表示されたキーワードを、指定
した重み以上のキーワードだけに制限する手段、あるい
は、指定した順位までの重みの大きなキーワードだけに
制限する手段を有することを特徴とする情報検索システ
ム。 - 【請求項5】 請求項3記載の情報検索システムにおい
て、前記クエリーベクトルを編集する手段は、前記クエ
リーベクトル表示手段に表示されたキーワードの重みを
個別に変更する手段を有することを特徴とする情報検索
システム。 - 【請求項6】 請求項1記載の情報検索システムにおい
て、検索結果として、一方の軸に検索された文献をスコ
アの高い順に配置し、他方の軸にクエリーベクトルの要
素である複数のキーワードを配置し、各文献とキーワー
ドとの交点に各文献における前記キーワードのスコアを
配置した表を表示する手段を備えることを特徴とする情
報検索システム。 - 【請求項7】 請求項1記載の情報検索システムにおい
て、検索結果として得られた文献中で前記クエリーベク
トル中のキーワードと共起する単語を抽出し一覧表示す
るする手段と、当該一覧表示された単語の中で指定され
た単語を前記問い合わせ用の情報に追加する手段とを備
えることを特徴とする情報検索システム。 - 【請求項8】 請求項1記載の情報検索システムにおい
て、検索された文献をスコア順位の高い順に一覧表示す
る検索結果表示手段と、前記検索結果表示手段に表示さ
れた文献の中で指定された文献を前記問い合わせ用の情
報に追加する手段を備えることを特徴とする情報検索シ
ステム。 - 【請求項9】 請求項7又は8記載の情報検索システム
において、変更された問い合わせ用の情報に基づいて問
い合わせ概念を再構築し、複数のキーワードと各キーワ
ードの重みとを含むクエリーベクトルとして表示する手
段を備えることを特徴とする情報検索システム。 - 【請求項10】 クライアントから送信されてきた問い
合わせ用の情報から複数のキーワードと各キーワードの
重みとを含むクエリーベクトルを生成する手段と、 前記クエリーベクトルを表示した画面をクライアントに
送信する手段と、 情報検索のために前記クエリーベクトルをデータベース
に送信する手段と、 前記データベースによる検索結果を表示した画面をクラ
イアントに送信する手段とを含むことを特徴とするサー
バ。 - 【請求項11】 請求項10記載のサーバにおいて、検
索結果として得られた文献中で前記クエリーベクトル中
のキーワードと共起する単語を抽出する手段と、抽出し
た単語の一覧表示画面をクライアントに送信するする手
段と、前記一覧表示画面の中でクライアントが指定した
単語を前記問い合わせ用の情報に追加してクエリーベク
トルを再構成する手段とを備えることを特徴とするサー
バ。 - 【請求項12】 請求項10記載のサーバにおいて、前
記データベースによって検索された文献をスコア順位の
高い順に一覧表示した検索結果表示画面をクライアント
に送信する手段と、前記検索結果表示画面に表示された
文献の中でクライアントが指定した文献を前記問い合わ
せ用の情報に追加してクエリーベクトルを再構成する手
段とを備えることを特徴とするサーバ。 - 【請求項13】 請求項1〜9のいずれか1項記載の情
報検索システムをコンピュータに実現させるためのプロ
グラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001198757A JP3717808B2 (ja) | 2001-06-29 | 2001-06-29 | 情報検索システム |
US10/076,400 US20030014398A1 (en) | 2001-06-29 | 2002-02-19 | Query modification system for information retrieval |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001198757A JP3717808B2 (ja) | 2001-06-29 | 2001-06-29 | 情報検索システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003016089A true JP2003016089A (ja) | 2003-01-17 |
JP3717808B2 JP3717808B2 (ja) | 2005-11-16 |
Family
ID=19036146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001198757A Expired - Fee Related JP3717808B2 (ja) | 2001-06-29 | 2001-06-29 | 情報検索システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20030014398A1 (ja) |
JP (1) | JP3717808B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007500408A (ja) * | 2003-06-13 | 2007-01-11 | マイクロソフト コーポレーション | データベースクエリユーザインターフェース |
JP2008123095A (ja) * | 2006-11-09 | 2008-05-29 | Seiko Epson Corp | 検索端末装置、検索システムおよびプログラム |
WO2009019830A1 (ja) * | 2007-08-03 | 2009-02-12 | Panasonic Corporation | 関連語提示装置 |
JP2011503700A (ja) * | 2007-11-02 | 2011-01-27 | マイクロソフト コーポレーション | ウェブ広告を使用した、検索クエリのシンジケート |
JP2012533817A (ja) * | 2009-07-22 | 2012-12-27 | ファンデーションアイピー,エルエルシー | 電子文書コレクションからクエリ結果を送付する方法、システム及び装置 |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040008828A1 (en) * | 2002-07-09 | 2004-01-15 | Scott Coles | Dynamic information retrieval system utilizing voice recognition |
JP3974511B2 (ja) * | 2002-12-19 | 2007-09-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報検索のためのデータ構造を生成するコンピュータ・システム、そのための方法、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラム、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラムを記憶したコンピュータ可読な記憶媒体、情報検索システム、およびグラフィカル・ユーザ・インタフェイス・システム |
US7216121B2 (en) * | 2002-12-31 | 2007-05-08 | International Business Machines Corporation | Search engine facility with automated knowledge retrieval, generation and maintenance |
JP2005043977A (ja) * | 2003-07-23 | 2005-02-17 | Hitachi Ltd | 文書間の類似度算出方法および装置 |
US8869061B1 (en) | 2003-08-29 | 2014-10-21 | Microsoft Corporation | User interface for searching an electronic document |
US7590936B1 (en) | 2003-09-30 | 2009-09-15 | Microsoft Corporation | Method for extracting information associated with a search term |
US7707142B1 (en) | 2004-03-31 | 2010-04-27 | Google Inc. | Methods and systems for performing an offline search |
US7272601B1 (en) * | 2004-03-31 | 2007-09-18 | Google Inc. | Systems and methods for associating a keyword with a user interface area |
US8631001B2 (en) * | 2004-03-31 | 2014-01-14 | Google Inc. | Systems and methods for weighting a search query result |
US7664734B2 (en) * | 2004-03-31 | 2010-02-16 | Google Inc. | Systems and methods for generating multiple implicit search queries |
US8041713B2 (en) * | 2004-03-31 | 2011-10-18 | Google Inc. | Systems and methods for analyzing boilerplate |
US9009153B2 (en) | 2004-03-31 | 2015-04-14 | Google Inc. | Systems and methods for identifying a named entity |
US7693825B2 (en) * | 2004-03-31 | 2010-04-06 | Google Inc. | Systems and methods for ranking implicit search results |
US7788274B1 (en) | 2004-06-30 | 2010-08-31 | Google Inc. | Systems and methods for category-based search |
US8131754B1 (en) | 2004-06-30 | 2012-03-06 | Google Inc. | Systems and methods for determining an article association measure |
US20070006129A1 (en) * | 2005-06-01 | 2007-01-04 | Opasmedia Oy | Forming of a data retrieval, searching from a data retrieval system, and a data retrieval system |
US8285739B2 (en) * | 2005-07-28 | 2012-10-09 | International Business Machines Corporation | System and method for identifying qualifying data records from underlying databases |
US8200695B2 (en) * | 2006-04-13 | 2012-06-12 | Lg Electronics Inc. | Database for uploading, storing, and retrieving similar documents |
US20100211605A1 (en) * | 2009-02-17 | 2010-08-19 | Subhankar Ray | Apparatus and method for unified web-search, selective broadcasting, natural language processing utilities, analysis, synthesis, and other applications for text, images, audios and videos, initiated by one or more interactions from users |
US10083229B2 (en) * | 2009-10-09 | 2018-09-25 | International Business Machines Corporation | System, method, and apparatus for pairing a short document to another short document from a plurality of short documents |
US9785704B2 (en) * | 2012-01-04 | 2017-10-10 | Microsoft Technology Licensing, Llc | Extracting query dimensions from search results |
JP5426710B2 (ja) * | 2012-03-19 | 2014-02-26 | 株式会社東芝 | 検索支援装置、検索支援方法およびプログラム |
US9069882B2 (en) * | 2013-01-22 | 2015-06-30 | International Business Machines Corporation | Mapping and boosting of terms in a format independent data retrieval query |
US10212256B2 (en) * | 2015-12-14 | 2019-02-19 | Facebook, Inc. | Delegating database queries |
US10552410B2 (en) | 2017-11-14 | 2020-02-04 | Mindbridge Analytics Inc. | Method and system for presenting a user selectable interface in response to a natural language request |
CN108829788A (zh) * | 2018-05-31 | 2018-11-16 | 深圳市轱辘汽车维修技术有限公司 | 一种问题解答方法及相关装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09153066A (ja) * | 1995-11-29 | 1997-06-10 | Matsushita Electric Ind Co Ltd | 文書検索装置 |
JPH09288675A (ja) * | 1996-04-22 | 1997-11-04 | Sharp Corp | 検索装置 |
JPH1145249A (ja) * | 1997-07-25 | 1999-02-16 | Just Syst Corp | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2001117939A (ja) * | 1999-10-20 | 2001-04-27 | Just Syst Corp | クエリ出力装置、文献検索システム、クエリ出力方法、文献検索方法、並びに、記録媒体 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6757646B2 (en) * | 2000-03-22 | 2004-06-29 | Insightful Corporation | Extended functionality for an inverse inference engine based web search |
US20010037328A1 (en) * | 2000-03-23 | 2001-11-01 | Pustejovsky James D. | Method and system for interfacing to a knowledge acquisition system |
US7464086B2 (en) * | 2000-08-01 | 2008-12-09 | Yahoo! Inc. | Metatag-based datamining |
US7231381B2 (en) * | 2001-03-13 | 2007-06-12 | Microsoft Corporation | Media content search engine incorporating text content and user log mining |
WO2003075186A1 (en) * | 2002-03-01 | 2003-09-12 | Paul Jeffrey Krupin | A method and system for creating improved search queries |
-
2001
- 2001-06-29 JP JP2001198757A patent/JP3717808B2/ja not_active Expired - Fee Related
-
2002
- 2002-02-19 US US10/076,400 patent/US20030014398A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09153066A (ja) * | 1995-11-29 | 1997-06-10 | Matsushita Electric Ind Co Ltd | 文書検索装置 |
JPH09288675A (ja) * | 1996-04-22 | 1997-11-04 | Sharp Corp | 検索装置 |
JPH1145249A (ja) * | 1997-07-25 | 1999-02-16 | Just Syst Corp | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2001117939A (ja) * | 1999-10-20 | 2001-04-27 | Just Syst Corp | クエリ出力装置、文献検索システム、クエリ出力方法、文献検索方法、並びに、記録媒体 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007500408A (ja) * | 2003-06-13 | 2007-01-11 | マイクロソフト コーポレーション | データベースクエリユーザインターフェース |
US8447775B2 (en) | 2003-06-13 | 2013-05-21 | Microsoft Corporation | Database query user interface to assist in efficient and accurate query construction |
JP2008123095A (ja) * | 2006-11-09 | 2008-05-29 | Seiko Epson Corp | 検索端末装置、検索システムおよびプログラム |
WO2009019830A1 (ja) * | 2007-08-03 | 2009-02-12 | Panasonic Corporation | 関連語提示装置 |
JP4464463B2 (ja) * | 2007-08-03 | 2010-05-19 | パナソニック株式会社 | 関連語提示装置 |
JPWO2009019830A1 (ja) * | 2007-08-03 | 2010-10-28 | パナソニック株式会社 | 関連語提示装置 |
US8504357B2 (en) | 2007-08-03 | 2013-08-06 | Panasonic Corporation | Related word presentation device |
JP2011503700A (ja) * | 2007-11-02 | 2011-01-27 | マイクロソフト コーポレーション | ウェブ広告を使用した、検索クエリのシンジケート |
JP2012533817A (ja) * | 2009-07-22 | 2012-12-27 | ファンデーションアイピー,エルエルシー | 電子文書コレクションからクエリ結果を送付する方法、システム及び装置 |
Also Published As
Publication number | Publication date |
---|---|
JP3717808B2 (ja) | 2005-11-16 |
US20030014398A1 (en) | 2003-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3717808B2 (ja) | 情報検索システム | |
JP5546731B2 (ja) | 検索方法及び検索システム | |
US8868539B2 (en) | Search equalizer | |
US7783644B1 (en) | Query-independent entity importance in books | |
US6636853B1 (en) | Method and apparatus for representing and navigating search results | |
US9323827B2 (en) | Identifying key terms related to similar passages | |
Kowalski | Information retrieval architecture and algorithms | |
US20020073079A1 (en) | Method and apparatus for searching a database and providing relevance feedback | |
US20100306249A1 (en) | Social network systems and methods | |
JP2003114906A (ja) | ユーザ定義可能なパーソナリティを備えたメタ文書管理システム | |
US20040064447A1 (en) | System and method for management of synonymic searching | |
US20030004932A1 (en) | Method and system for knowledge repository exploration and visualization | |
JP2008538149A (ja) | 格付け方法、検索結果組織化方法、格付けシステム及び検索結果組織化システム | |
JP5084673B2 (ja) | 商品情報検索装置、方法及びシステム | |
JP4200933B2 (ja) | 情報検索装置 | |
Bouramoul et al. | Using context to improve the evaluation of information retrieval systems | |
JP4324650B2 (ja) | 情報資源検索装置、情報資源検索方法及び情報資源検索プログラム | |
JP3612769B2 (ja) | 情報検索装置および情報検索方法 | |
JP2003271648A (ja) | 検索装置、検索方法、ならびに、プログラム | |
JP3445800B2 (ja) | テキスト検索方法 | |
JP4146067B2 (ja) | 文書検索システムおよび文書検索方法 | |
JPH10105562A (ja) | 検索システム | |
Rao | Recall oriented approaches for improved indian language information access | |
Zacharis et al. | SpiderServer: the meta-search engine of WebNaut | |
Manjula et al. | An efficient approach for indexing web pages using various similarity features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050708 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050823 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050831 |
|
LAPS | Cancellation because of no payment of annual fees |