JPH10240739A - 情報検索装置および情報検索方法 - Google Patents
情報検索装置および情報検索方法Info
- Publication number
- JPH10240739A JPH10240739A JP9043577A JP4357797A JPH10240739A JP H10240739 A JPH10240739 A JP H10240739A JP 9043577 A JP9043577 A JP 9043577A JP 4357797 A JP4357797 A JP 4357797A JP H10240739 A JPH10240739 A JP H10240739A
- Authority
- JP
- Japan
- Prior art keywords
- word
- search
- knowledge
- information
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】誤入力されたキーワード語句を自動的に検出・
訂正して検索を実行する情報検索装置を提供する。 【解決手段】検索語訂正用辞書16は、キーワードとし
て入力された語句の類似語を得るための類似語知識、共
起語を得るための共起語知識および関連語を得るための
関連語知識などを含む辞書であり、検索語訂正部12
は、この検索語訂正用辞書16を参照することにより、
検索条件入力部11を介して入力された検索条件に含ま
れる誤入力語句を検出する。そして、検索語訂正部12
は、この検出した誤入力語句を検索語訂正用辞書16に
より訂正し、その訂正後の語句を含んで構成される検索
条件を検索条件記憶部13に格納することによって、検
索部14に訂正後の語句を用いた検索を実行させる。
訂正して検索を実行する情報検索装置を提供する。 【解決手段】検索語訂正用辞書16は、キーワードとし
て入力された語句の類似語を得るための類似語知識、共
起語を得るための共起語知識および関連語を得るための
関連語知識などを含む辞書であり、検索語訂正部12
は、この検索語訂正用辞書16を参照することにより、
検索条件入力部11を介して入力された検索条件に含ま
れる誤入力語句を検出する。そして、検索語訂正部12
は、この検出した誤入力語句を検索語訂正用辞書16に
より訂正し、その訂正後の語句を含んで構成される検索
条件を検索条件記憶部13に格納することによって、検
索部14に訂正後の語句を用いた検索を実行させる。
Description
【0001】
【発明の属する技術分野】この発明は、キーワードとし
て入力された語句を含んで構成される検索条件に合致し
た情報を検索する情報検索装置および情報検索方法に係
り、特に誤入力された語句を自動的に検出・訂正して検
索を実行する情報検索装置および情報検索方法に関す
る。
て入力された語句を含んで構成される検索条件に合致し
た情報を検索する情報検索装置および情報検索方法に係
り、特に誤入力された語句を自動的に検出・訂正して検
索を実行する情報検索装置および情報検索方法に関す
る。
【0002】
【従来の技術】近年、パーソナルコンピュータ、インタ
ーネット、電子図書館などの普及に伴ない、個人がアク
セスできる情報の量は増加する一方であり、また、情報
のメディアもテキスト、画像、音声など多様化してい
る。そして、このような状況により膨大な情報の中から
求める情報のみを検索する高度な情報検索システムの需
要が高まりつつある。
ーネット、電子図書館などの普及に伴ない、個人がアク
セスできる情報の量は増加する一方であり、また、情報
のメディアもテキスト、画像、音声など多様化してい
る。そして、このような状況により膨大な情報の中から
求める情報のみを検索する高度な情報検索システムの需
要が高まりつつある。
【0003】通常の情報検索システムを利用する際、ユ
ーザは、自分の要求をシステムに伝えるために、一つ以
上の検索語を入力してシステムが理解できる形式の検索
条件を構成する。システムは、「ユーザの要求=検索条
件」という仮定のもとで、検索対象の中から検索条件を
満たす情報のみを選出して出力する。
ーザは、自分の要求をシステムに伝えるために、一つ以
上の検索語を入力してシステムが理解できる形式の検索
条件を構成する。システムは、「ユーザの要求=検索条
件」という仮定のもとで、検索対象の中から検索条件を
満たす情報のみを選出して出力する。
【0004】しかし、実際は「ユーザの要求=検索条
件」という仮定が成り立たないケースが多い。特に、キ
ーボードや文字認識装置、音声認識装置などの入力装置
を介して検索条件を指定する際に、検索語の誤入力のた
めにユーザの意図とはかけ離れた検索条件が作成されて
しまうことがある。たとえば、かな漢字変換システムを
用いて漢字の検索語を指定しようとしたときに、変換誤
りによってまったく関係のない同音異義語を入力してし
まう場合がある。
件」という仮定が成り立たないケースが多い。特に、キ
ーボードや文字認識装置、音声認識装置などの入力装置
を介して検索条件を指定する際に、検索語の誤入力のた
めにユーザの意図とはかけ離れた検索条件が作成されて
しまうことがある。たとえば、かな漢字変換システムを
用いて漢字の検索語を指定しようとしたときに、変換誤
りによってまったく関係のない同音異義語を入力してし
まう場合がある。
【0005】有り得ないつづりの単語などに対しては、
すべての検索語に対して単語辞書引きを行なうことによ
って誤入力の検出・訂正が可能であるが、前述した同音
異義語の例のように、語入力の結果、単語としては正し
い語句が得られてしまった場合には、従来の情報検索シ
ステムでは、これを検出・訂正することはできなかっ
た。このため、誤った検索条件により誤った検索結果が
得られ、そこで初めてユーザが自分の誤入力に気づくと
いったケースが生じていた。さらに、検索語の誤入力に
よって誤った検索結果が得られても、なお、ユーザが自
分では誤入力に気づかないケースもあった。
すべての検索語に対して単語辞書引きを行なうことによ
って誤入力の検出・訂正が可能であるが、前述した同音
異義語の例のように、語入力の結果、単語としては正し
い語句が得られてしまった場合には、従来の情報検索シ
ステムでは、これを検出・訂正することはできなかっ
た。このため、誤った検索条件により誤った検索結果が
得られ、そこで初めてユーザが自分の誤入力に気づくと
いったケースが生じていた。さらに、検索語の誤入力に
よって誤った検索結果が得られても、なお、ユーザが自
分では誤入力に気づかないケースもあった。
【0006】
【発明が解決しようとする課題】このように、従来の情
報検索システムでは、単語としては正しい語句が検索語
として誤入力されてしまった場合に、これを検出・訂正
することができないといった問題があった。
報検索システムでは、単語としては正しい語句が検索語
として誤入力されてしまった場合に、これを検出・訂正
することができないといった問題があった。
【0007】この発明はこのような実情に鑑みてなされ
たものであり、誤入力された語句を自動的に検出・訂正
して検索を実行する情報検索装置および情報検索方法を
提供することを目的とする。
たものであり、誤入力された語句を自動的に検出・訂正
して検索を実行する情報検索装置および情報検索方法を
提供することを目的とする。
【0008】
【課題を解決するための手段】この発明は、前述した目
的を達成するために、たとえばキーワードとして入力さ
れた語句の類似語を得るための類似語知識、共起語を得
るための共起語知識および関連語を得るための関連語知
識などを含む辞書を利用して、誤入力された語句を検出
・訂正してから検索を実行するようにしたものである。
的を達成するために、たとえばキーワードとして入力さ
れた語句の類似語を得るための類似語知識、共起語を得
るための共起語知識および関連語を得るための関連語知
識などを含む辞書を利用して、誤入力された語句を検出
・訂正してから検索を実行するようにしたものである。
【0009】また、この辞書を利用して、多義に解釈さ
れる語句の解釈を選定することにより、検索の効率およ
び精度を向上させるものである。さらに、ユーザによる
検索結果の評価を分析し、この分析結果を誤入力された
語句の検出・訂正にフィードバックすることにより、再
検索の精度を向上させるものである。
れる語句の解釈を選定することにより、検索の効率およ
び精度を向上させるものである。さらに、ユーザによる
検索結果の評価を分析し、この分析結果を誤入力された
語句の検出・訂正にフィードバックすることにより、再
検索の精度を向上させるものである。
【0010】このように、誤入力があった場合であって
も、ユーザが本来意図した検索条件を作成して検索を実
行することにより、適切な情報検索環境を提供すること
を可能とする。
も、ユーザが本来意図した検索条件を作成して検索を実
行することにより、適切な情報検索環境を提供すること
を可能とする。
【0011】
【発明の実施の形態】以下、図面を参照してこの発明の
実施の形態を説明する。 (第1実施形態)まず、この発明の第1実施形態につい
て説明する。図1に、第1実施形態に係る情報検索シス
テムの構成を示す。図1に示したように、この情報検索
システム10は、検索条件入力部11、検索語訂正部1
2、検索条件記憶部13、検索部14および検索結果出
力部15からなる。ここで、検索条件入力部11は、キ
ーボード、文字認識装置、音声認識装置などの入力装置
に、検索結果出力部15は、ディスプレイ、プリンタな
どの出力装置に、検索条件記憶部13は、主記憶やハー
ドディスク装置などにそれぞれ対応し、検索部14およ
び検索語訂正部12は、CPUによって実行制御される
プログラムに対応する。
実施の形態を説明する。 (第1実施形態)まず、この発明の第1実施形態につい
て説明する。図1に、第1実施形態に係る情報検索シス
テムの構成を示す。図1に示したように、この情報検索
システム10は、検索条件入力部11、検索語訂正部1
2、検索条件記憶部13、検索部14および検索結果出
力部15からなる。ここで、検索条件入力部11は、キ
ーボード、文字認識装置、音声認識装置などの入力装置
に、検索結果出力部15は、ディスプレイ、プリンタな
どの出力装置に、検索条件記憶部13は、主記憶やハー
ドディスク装置などにそれぞれ対応し、検索部14およ
び検索語訂正部12は、CPUによって実行制御される
プログラムに対応する。
【0012】ユーザにより検索条件入力部11に入力さ
れた検索条件は、検索語訂正部12に渡され、必要に応
じてキーワードとなる語句、すなわち検索語の訂正が行
なわれる。訂正された検索条件は、検索条件記憶部13
に記憶され、この検索条件により検索部14が情報の検
索を行なう。検索結果は、検索結果出力部15によりユ
ーザに出力される。
れた検索条件は、検索語訂正部12に渡され、必要に応
じてキーワードとなる語句、すなわち検索語の訂正が行
なわれる。訂正された検索条件は、検索条件記憶部13
に記憶され、この検索条件により検索部14が情報の検
索を行なう。検索結果は、検索結果出力部15によりユ
ーザに出力される。
【0013】従来の情報検索システムとこの情報検索シ
ステム10との違いは、前者では検索条件入力部11に
入力された検索条件が直接検索条件記憶部13に渡され
るのに対し、後者では検索条件が一旦検索語訂正部12
に渡され、その後に検索条件記憶部13に渡される点の
みである。よって、検索語訂正部12の処理以外は既存
のどのような検索システムでも構わない。ユーザが一つ
以上の検索語を指定することにより検索を行なうもので
あれば、検索条件の指定方法、検索対象、検索方法など
は問わない。さらに、検索語は日本語、英語の他、どの
ような言語でも構わない。以下、検索語訂正部12の動
作を中心に説明する。
ステム10との違いは、前者では検索条件入力部11に
入力された検索条件が直接検索条件記憶部13に渡され
るのに対し、後者では検索条件が一旦検索語訂正部12
に渡され、その後に検索条件記憶部13に渡される点の
みである。よって、検索語訂正部12の処理以外は既存
のどのような検索システムでも構わない。ユーザが一つ
以上の検索語を指定することにより検索を行なうもので
あれば、検索条件の指定方法、検索対象、検索方法など
は問わない。さらに、検索語は日本語、英語の他、どの
ような言語でも構わない。以下、検索語訂正部12の動
作を中心に説明する。
【0014】図2に、第1実施形態の検索語訂正部12
の処理の流れの一例を示す。検索語訂正部12は、まず
検索条件入力部11からユーザの入力した検索条件を受
取り(ステップA1)、これを解析して検索語を同定す
る(ステップA2)。そして、各検索語について以下の
処理を行なう。
の処理の流れの一例を示す。検索語訂正部12は、まず
検索条件入力部11からユーザの入力した検索条件を受
取り(ステップA1)、これを解析して検索語を同定す
る(ステップA2)。そして、各検索語について以下の
処理を行なう。
【0015】現在着目している検索語の類似語知識およ
びそれ以外の検索語の共起語知識や関連語知識を検索語
訂正用辞書から取出す(ステップA4)。次に、これら
の知識を用いて、現在着目している検索語が誤入力であ
るかどうかを判定する(ステップA5)。誤入力である
と判定した場合は(ステップA5のY)、検索語を前述
の類似語で置換えることにより検索条件を訂正する(ス
テップA6)。
びそれ以外の検索語の共起語知識や関連語知識を検索語
訂正用辞書から取出す(ステップA4)。次に、これら
の知識を用いて、現在着目している検索語が誤入力であ
るかどうかを判定する(ステップA5)。誤入力である
と判定した場合は(ステップA5のY)、検索語を前述
の類似語で置換えることにより検索条件を訂正する(ス
テップA6)。
【0016】なお、検索語の訂正を完全自動で行なうか
わりに、誤入力の検出のみをまず行ない、ユーザに「訂
正しますか?」などのメッセージを表示して、対話的に
訂正を行なうようにしてもよい。
わりに、誤入力の検出のみをまず行ない、ユーザに「訂
正しますか?」などのメッセージを表示して、対話的に
訂正を行なうようにしてもよい。
【0017】図3に、第1実施形態の検索語訂正用辞書
16に登録されている類似語知識、共起語知識および関
連語知識の一例を示す。この第1実施形態では、「語
A」がかな漢字変換誤りやつづり誤りなどの誤入力によ
って「語B」になってしまうような場合に、「語A」と
「語B」とは互いに類似語であるということにする。
16に登録されている類似語知識、共起語知識および関
連語知識の一例を示す。この第1実施形態では、「語
A」がかな漢字変換誤りやつづり誤りなどの誤入力によ
って「語B」になってしまうような場合に、「語A」と
「語B」とは互いに類似語であるということにする。
【0018】図3の例では、類似語知識として、同音異
義語知識と類似表記語知識との2種類が示されている。
図3の(知識a)〜(知識d)が同音異義語知識の例で
あり、(知識e)〜(知識g)が類似表記語知識の例で
ある。たとえば、(知識a)から、「会席」と「解析」
という語がともに「かいせき」という読みをもつことが
わかり、また、(知識g)から、「leader」と
「reader」という語は表記が似ており誤入力しや
すいということがわかる。この同音異義語知識は、たと
えば既存のかな漢字変換用辞書を利用して構築すること
が可能である。また、類似表記知識は、たとえば一文字
違いの単語の組合せを機械的に列挙したり、日本人のつ
づり誤りのデータを収集するなどによって構築すること
が可能である。
義語知識と類似表記語知識との2種類が示されている。
図3の(知識a)〜(知識d)が同音異義語知識の例で
あり、(知識e)〜(知識g)が類似表記語知識の例で
ある。たとえば、(知識a)から、「会席」と「解析」
という語がともに「かいせき」という読みをもつことが
わかり、また、(知識g)から、「leader」と
「reader」という語は表記が似ており誤入力しや
すいということがわかる。この同音異義語知識は、たと
えば既存のかな漢字変換用辞書を利用して構築すること
が可能である。また、類似表記知識は、たとえば一文字
違いの単語の組合せを機械的に列挙したり、日本人のつ
づり誤りのデータを収集するなどによって構築すること
が可能である。
【0019】この第1実施形態では、「語A」と「語
B」とが同一の文書や段落、あるいは文などに出現する
場合に、両者は互いに共起語であるということにする。
また、「語A」と「語B」とが意味的に関係がある場合
に、両者は互いに関連語であるということにする。図3
の(知識h)〜(知識l)が共起語知識の例であり、
(知識m)〜(知識o)が関連語知識の例である。たと
えば、(知識j)から「情報」と「検索」という語は共
起することが多いことがわかり、(知識m)から「パソ
コン」と「オフコン」とは意味的に関係の深い語である
ことがわかる。
B」とが同一の文書や段落、あるいは文などに出現する
場合に、両者は互いに共起語であるということにする。
また、「語A」と「語B」とが意味的に関係がある場合
に、両者は互いに関連語であるということにする。図3
の(知識h)〜(知識l)が共起語知識の例であり、
(知識m)〜(知識o)が関連語知識の例である。たと
えば、(知識j)から「情報」と「検索」という語は共
起することが多いことがわかり、(知識m)から「パソ
コン」と「オフコン」とは意味的に関係の深い語である
ことがわかる。
【0020】共起語知識は、たとえば既存のかな漢字変
換用辞書の共起データを利用して構築することが可能で
ある。また、関連語知識は、たとえば既存のシソーラス
における兄弟語(同一の親ノードをもつ語)の情報を利
用して構築したり、あるいは前述の共起語知識を利用し
て、「「語A」と「語B」とが共起し、かつ「語C」と
「語B」とが共起するなら、「語A」と「語C」とは同
じような文脈に出現したので関連語である」といった方
針により構築することが可能である。なお、類似語知
識、共起語知識および関連語知識などの具体的な構築方
法は、この発明の主旨ではなく、どのような方法で構築
されても構わない。
換用辞書の共起データを利用して構築することが可能で
ある。また、関連語知識は、たとえば既存のシソーラス
における兄弟語(同一の親ノードをもつ語)の情報を利
用して構築したり、あるいは前述の共起語知識を利用し
て、「「語A」と「語B」とが共起し、かつ「語C」と
「語B」とが共起するなら、「語A」と「語C」とは同
じような文脈に出現したので関連語である」といった方
針により構築することが可能である。なお、類似語知
識、共起語知識および関連語知識などの具体的な構築方
法は、この発明の主旨ではなく、どのような方法で構築
されても構わない。
【0021】図4に、第1実施形態の検索条件入力部1
1から検索語訂正部12に渡される語入力された検索語
を含む検索条件の例を示す。図4(1)〜(6)は、複
数の検索語をAND、OR、NOT演算子により結合し
て検索条件を構成するブール検索の例である。
1から検索語訂正部12に渡される語入力された検索語
を含む検索条件の例を示す。図4(1)〜(6)は、複
数の検索語をAND、OR、NOT演算子により結合し
て検索条件を構成するブール検索の例である。
【0022】図4(1)は、「自然言語」と「解析」と
いう2つの語を共に含む情報を検索しようとしたとき
に、かな漢字変換を誤って「解析」のかわりに「会席」
と入力してしまった例である。図4(2)は、同様の検
索を行おうとしたときに、「かいせき」とひらがなを入
力した後、漢字に変換しないまま確定してしまった例で
ある。人間がこのような間違いを犯し易いことは、ワー
プロ文書などを見れば明らかである。
いう2つの語を共に含む情報を検索しようとしたとき
に、かな漢字変換を誤って「解析」のかわりに「会席」
と入力してしまった例である。図4(2)は、同様の検
索を行おうとしたときに、「かいせき」とひらがなを入
力した後、漢字に変換しないまま確定してしまった例で
ある。人間がこのような間違いを犯し易いことは、ワー
プロ文書などを見れば明らかである。
【0023】これらの例の場合、図3の(知識a)を利
用すれば、検索語訂正部12には2番目の検索語を「解
析」あるいは「懐石」と訂正する必要があるかもしれな
いということがわかる。
用すれば、検索語訂正部12には2番目の検索語を「解
析」あるいは「懐石」と訂正する必要があるかもしれな
いということがわかる。
【0024】一方、1番目の検索語である「自然言語」
に関する共起語知識としては、図3の(知識h)および
(知識i)があるが、このうち(知識i)は「自然言
語」と「解析」とが共起することを示しているので、2
番目の検索語は「解析」と訂正すればよいことがわか
る。
に関する共起語知識としては、図3の(知識h)および
(知識i)があるが、このうち(知識i)は「自然言
語」と「解析」とが共起することを示しているので、2
番目の検索語は「解析」と訂正すればよいことがわか
る。
【0025】図4(3)は、NOTを使ったブール検索
における誤入力の例を示している。「顧客満足度(Cu
stomer Satisfaction)」の略語と
して使われる「CS」という語を含む情報を検索したい
ユーザが、「CS」には「通信衛星(communic
ation satellites)」の意味もあるの
で、後者の意味での「CS」という語を含む情報を排除
するために、NOT「衛星」と入力しようとして、誤っ
て「衛生」としてしまった場合である。この場合、図3
の(知識b)および(知識k)から、「衛生」を「衛
星」に訂正すればよいことがわかる。
における誤入力の例を示している。「顧客満足度(Cu
stomer Satisfaction)」の略語と
して使われる「CS」という語を含む情報を検索したい
ユーザが、「CS」には「通信衛星(communic
ation satellites)」の意味もあるの
で、後者の意味での「CS」という語を含む情報を排除
するために、NOT「衛星」と入力しようとして、誤っ
て「衛生」としてしまった場合である。この場合、図3
の(知識b)および(知識k)から、「衛生」を「衛
星」に訂正すればよいことがわかる。
【0026】図4(1)〜(3)は、類義語知識のうち
の同音異義語知識を利用してかな漢字変換の誤りを訂正
する例であった。これに対し、図4(4)〜(5)は、
類義語知識のうちの類似表記語知識を利用して入力誤り
を訂正する例である。
の同音異義語知識を利用してかな漢字変換の誤りを訂正
する例であった。これに対し、図4(4)〜(5)は、
類義語知識のうちの類似表記語知識を利用して入力誤り
を訂正する例である。
【0027】図4(4)は、「情報」AND「検索」と
いうブール検索を行おうとして、「検索」のかわりに
「検察」と入力してしまった場合である。この場合、図
3の(知識f)から、意図した検索語は「検察」と表記
の似ている「検索」である可能性があることがわかり、
一方、図3の(知識j)から「情報」と「検索」とは共
起することがわかるので、「検察」を「検索」に訂正す
ればよいことがわかる。
いうブール検索を行おうとして、「検索」のかわりに
「検察」と入力してしまった場合である。この場合、図
3の(知識f)から、意図した検索語は「検察」と表記
の似ている「検索」である可能性があることがわかり、
一方、図3の(知識j)から「情報」と「検索」とは共
起することがわかるので、「検察」を「検索」に訂正す
ればよいことがわかる。
【0028】図4(5)は、(4)と同様であるが、検
索語が英語である例である。「光学的文字読み取り機
(optical character reade
r)」に関する情報を検索しようとして、「reade
r」のつづりを間違って「leader」としてしまっ
た場合である。これは図3の(知識g)および(知識
l)により訂正可能である。
索語が英語である例である。「光学的文字読み取り機
(optical character reade
r)」に関する情報を検索しようとして、「reade
r」のつづりを間違って「leader」としてしまっ
た場合である。これは図3の(知識g)および(知識
l)により訂正可能である。
【0029】図4(1)〜(5)は、類似語知識と共起
語知識とを利用して検索語訂正を行なう例であった。こ
れに対し、図4(6)は、類義語知識と関連語知識とを
利用して検索語訂正を行なう例である。
語知識とを利用して検索語訂正を行なう例であった。こ
れに対し、図4(6)は、類義語知識と関連語知識とを
利用して検索語訂正を行なう例である。
【0030】図4(6)は、ANDおよびORを使って
「放送衛星」、「衛星放送」、「通信衛星」、「衛星通
信」などに関する情報を検索しようとしたユーザが、
「放送」のかわりに「包装」と誤入力してしまった場合
を示している。この場合、図3の(知識c)から「包
装」の同音異義語に「放送」があることがわかり、一
方、図3の(知識n)から「放送」の関連語に「通信」
があることがわかる。ここで、検索条件では「包装」と
「通信」がORで結ばれていたので、「包装」は「放
送」に訂正すればよいことがわかる。
「放送衛星」、「衛星放送」、「通信衛星」、「衛星通
信」などに関する情報を検索しようとしたユーザが、
「放送」のかわりに「包装」と誤入力してしまった場合
を示している。この場合、図3の(知識c)から「包
装」の同音異義語に「放送」があることがわかり、一
方、図3の(知識n)から「放送」の関連語に「通信」
があることがわかる。ここで、検索条件では「包装」と
「通信」がORで結ばれていたので、「包装」は「放
送」に訂正すればよいことがわかる。
【0031】図5に、図2におけるi番目の検索語の誤
入力判定アルゴリズム(図2のステップA5)の一例を
示す。ここでは、検索条件が図4(1)であり、i番目
の検索語が「会席」であり、かつ検索語訂正用辞書16
が図3の知識を含む場合を例として説明する。まず、i
番目の検索語に関する類似語知識から、i番目の検索語
の同音異義語および類似表記語を取出すと、図3の(知
識a)から「かいせき」、「解析」、「懐石」という同
音異義語が得られる(ステップB1)。次に、i番目以
外の検索語、すなわち「自然言語」に関する共起語知識
/関連語知識のうち、「かいせき」、「解析」、もしく
は「懐石」という語を含むエントリを取出すと、図3の
(知識i){自然言語、解析}が得られる(ステップB
2)。そして、このようなエントリが存在するので(ス
テップB3のY)、検索語「会席」は誤入力であり、
「解析」に訂正すべきであると判定することができる
(ステップB4)。
入力判定アルゴリズム(図2のステップA5)の一例を
示す。ここでは、検索条件が図4(1)であり、i番目
の検索語が「会席」であり、かつ検索語訂正用辞書16
が図3の知識を含む場合を例として説明する。まず、i
番目の検索語に関する類似語知識から、i番目の検索語
の同音異義語および類似表記語を取出すと、図3の(知
識a)から「かいせき」、「解析」、「懐石」という同
音異義語が得られる(ステップB1)。次に、i番目以
外の検索語、すなわち「自然言語」に関する共起語知識
/関連語知識のうち、「かいせき」、「解析」、もしく
は「懐石」という語を含むエントリを取出すと、図3の
(知識i){自然言語、解析}が得られる(ステップB
2)。そして、このようなエントリが存在するので(ス
テップB3のY)、検索語「会席」は誤入力であり、
「解析」に訂正すべきであると判定することができる
(ステップB4)。
【0032】図4(1)〜(6)の検索条件を本方式に
より訂正した結果の例を、図6(1)〜(6)に示す。
図4(1)〜(6)は、ブール検索式の例であったが、
この発明は検索条件の形式には依存しない。図4(7)
〜(8)には、ブール検索以外の検索方式を用いた検索
システムにおける検索条件の例が示されている。
より訂正した結果の例を、図6(1)〜(6)に示す。
図4(1)〜(6)は、ブール検索式の例であったが、
この発明は検索条件の形式には依存しない。図4(7)
〜(8)には、ブール検索以外の検索方式を用いた検索
システムにおける検索条件の例が示されている。
【0033】図4(7)は、「自然言語」と「解析」と
いう語が同一段落内に出現するような情報を検索しよう
として、誤って「解析」を「会席」としてしまった例で
ある。一方、図4(8)は、「自然言語」と「解析」と
いう語がともに第1文目に出現するような情報を検索し
ようとした同様な例である。これらの場合も、図4
(1)の場合と同様に訂正が可能である。
いう語が同一段落内に出現するような情報を検索しよう
として、誤って「解析」を「会席」としてしまった例で
ある。一方、図4(8)は、「自然言語」と「解析」と
いう語がともに第1文目に出現するような情報を検索し
ようとした同様な例である。これらの場合も、図4
(1)の場合と同様に訂正が可能である。
【0034】この他、検索語の頻度を指定するような検
索や、検索語と検索語との間の距離を指定するような検
索などに対しても、同様に検索語訂正を行なうことは有
効である。
索や、検索語と検索語との間の距離を指定するような検
索などに対しても、同様に検索語訂正を行なうことは有
効である。
【0035】(第2実施形態)次に、この発明の第2実
施形態について説明する。図7に、第2実施形態に係る
情報検索システムの構成を示す。図7に示したように、
第1実施形態と第2実施形態とのシステム構成上の違い
は、後者が検索結果評価情報入力部18を有する点であ
る。また、システムの処理の流れにおける違いは、前者
では入力された検索条件が訂正されてから検索が行なわ
れるのに対し、後者では入力された検索条件を用いてま
ず検索を行ない、その検索結果に対するユーザの評価情
報が得られてはじめて検索条件を訂正する点である。よ
って、この第2実施形態では、再検索を行なうことを前
提としている。以下、第1実施形態と異なる点のみにつ
いて詳しく説明する。
施形態について説明する。図7に、第2実施形態に係る
情報検索システムの構成を示す。図7に示したように、
第1実施形態と第2実施形態とのシステム構成上の違い
は、後者が検索結果評価情報入力部18を有する点であ
る。また、システムの処理の流れにおける違いは、前者
では入力された検索条件が訂正されてから検索が行なわ
れるのに対し、後者では入力された検索条件を用いてま
ず検索を行ない、その検索結果に対するユーザの評価情
報が得られてはじめて検索条件を訂正する点である。よ
って、この第2実施形態では、再検索を行なうことを前
提としている。以下、第1実施形態と異なる点のみにつ
いて詳しく説明する。
【0036】検索部14は、ユーザにより入力された検
索条件を用いて第1回目の検索を行ない、検索結果出力
部15は、ユーザに検索結果を出力する。次に、ユーザ
は、この検索結果を見て、自分の要求にあったものであ
るかどうかの評価を行ない、その評価結果を検索結果評
価情報入力部18に入力する。この評価情報は、検索語
訂正部12に渡される。検索語訂正部12は、検索結果
のうちどの情報がユーザの要求に適合し、どの情報が適
合しなかったかを分析し、必要があればこれをもとに検
索条件を修正する。そして、検索部14は、この訂正さ
れた検索条件を用いて再検索を行なう。
索条件を用いて第1回目の検索を行ない、検索結果出力
部15は、ユーザに検索結果を出力する。次に、ユーザ
は、この検索結果を見て、自分の要求にあったものであ
るかどうかの評価を行ない、その評価結果を検索結果評
価情報入力部18に入力する。この評価情報は、検索語
訂正部12に渡される。検索語訂正部12は、検索結果
のうちどの情報がユーザの要求に適合し、どの情報が適
合しなかったかを分析し、必要があればこれをもとに検
索条件を修正する。そして、検索部14は、この訂正さ
れた検索条件を用いて再検索を行なう。
【0037】図8に、第2実施形態の検索結果評価情報
入力部18の処理の流れの一例を示す。検索結果評価情
報入力部18は、検索結果出力部15によってユーザに
出力された情報の各々について、ユーザの評価を受付け
る(ステップC2〜ステップC3)。ここで、ユーザの
評価とは、検索された情報がユーザにとってどれほど有
用であったかという情報を検索システムに与えることを
意味する。たとえば「この情報は有用であったが、この
情報は有用でなかった」といった2段階の評価や、点数
付けによる多段階評価などが考えられる。なお、検索結
果に対して評価を行なうこと自体は、たとえば文献
(「情報検索論」、David Ellis原著、細野
公男監訳、丸善)で「適合性判定」として紹介されてい
るように公知の技術であり、この発明の主旨ではない。
そして、検索結果評価情報入力部18は、最後に前述の
評価情報を検索語訂正部に渡す(ステップC6)。
入力部18の処理の流れの一例を示す。検索結果評価情
報入力部18は、検索結果出力部15によってユーザに
出力された情報の各々について、ユーザの評価を受付け
る(ステップC2〜ステップC3)。ここで、ユーザの
評価とは、検索された情報がユーザにとってどれほど有
用であったかという情報を検索システムに与えることを
意味する。たとえば「この情報は有用であったが、この
情報は有用でなかった」といった2段階の評価や、点数
付けによる多段階評価などが考えられる。なお、検索結
果に対して評価を行なうこと自体は、たとえば文献
(「情報検索論」、David Ellis原著、細野
公男監訳、丸善)で「適合性判定」として紹介されてい
るように公知の技術であり、この発明の主旨ではない。
そして、検索結果評価情報入力部18は、最後に前述の
評価情報を検索語訂正部に渡す(ステップC6)。
【0038】図9に、第2実施形態の検索語訂正部12
の処理の流れの一例を示す。検索語訂正部12は、まず
検索結果評価情報入力部18から評価情報を受取る(ス
テップD1)。そして、評価された検索結果の各々につ
いて、検索条件がどのようにして満たされたかを分析す
る(ステップD2)。この分析結果と、検索語訂正用辞
書から得た各検索語の類似語知識、共起語知識および関
連語知識とを照合して、誤入力されたと思われる検索語
を同定しこれを訂正する(ステップD6〜ステップD
7)。最後に、訂正された検索条件を検索条件記憶部1
3に渡す(ステップD8)。
の処理の流れの一例を示す。検索語訂正部12は、まず
検索結果評価情報入力部18から評価情報を受取る(ス
テップD1)。そして、評価された検索結果の各々につ
いて、検索条件がどのようにして満たされたかを分析す
る(ステップD2)。この分析結果と、検索語訂正用辞
書から得た各検索語の類似語知識、共起語知識および関
連語知識とを照合して、誤入力されたと思われる検索語
を同定しこれを訂正する(ステップD6〜ステップD
7)。最後に、訂正された検索条件を検索条件記憶部1
3に渡す(ステップD8)。
【0039】図10に、検索結果評価情報入力部18か
ら検索語訂正部12に渡される評価情報の一例を示す。
ここでは、ユーザは、図6(6)の検索条件を入力した
つもりであったが、実際には、誤入力のために図4
(6)の検索条件が入力されたとする。これにより検索
を行なった結果、3つの文書が検索され、これらに対し
てユーザが2段階評価を行なったものとする。各文書が
検索語を含んでいた場合を1、含んでいなかった場合を
0で、また、各文書が検索条件を満たした場合を1、満
たさなかった場合を0で示してある。文書1は、たまた
ま「包装」と「衛星」という語を両方含んでいたために
検索条件が満たされてしまったが、内容的にはユーザの
求める「放送衛星」、「衛星放送」、「通信衛星」、
「衛星通信」とはまったく無関係であったために、「有
用でない」と評価されている。一方、文書2および文書
3は、「通信」と「衛星」という語を含むことにより検
索条件を満たし、かつユーザに「有用である」と評価さ
れている。
ら検索語訂正部12に渡される評価情報の一例を示す。
ここでは、ユーザは、図6(6)の検索条件を入力した
つもりであったが、実際には、誤入力のために図4
(6)の検索条件が入力されたとする。これにより検索
を行なった結果、3つの文書が検索され、これらに対し
てユーザが2段階評価を行なったものとする。各文書が
検索語を含んでいた場合を1、含んでいなかった場合を
0で、また、各文書が検索条件を満たした場合を1、満
たさなかった場合を0で示してある。文書1は、たまた
ま「包装」と「衛星」という語を両方含んでいたために
検索条件が満たされてしまったが、内容的にはユーザの
求める「放送衛星」、「衛星放送」、「通信衛星」、
「衛星通信」とはまったく無関係であったために、「有
用でない」と評価されている。一方、文書2および文書
3は、「通信」と「衛星」という語を含むことにより検
索条件を満たし、かつユーザに「有用である」と評価さ
れている。
【0040】以下に、図10のような評価結果に対して
検索語訂正部12が行なう処理を説明する。図10にお
いて、たとえば「有用でない」と評価された文書に出現
し、かつ「有用である」と評価された文書に出現しなか
った検索語を求めると、「包装」という検索語が得られ
る。「包装」という語を含んでいた文書1が、検索条件
を満たしているにもかかわらず「有用でない」と評価さ
れたことから、「包装」という検索語は誤入力である可
能性がある。以後、第1実施形態と同様に検索語訂正用
辞書16を利用することにより、「包装」を「放送」と
訂正することが可能である。
検索語訂正部12が行なう処理を説明する。図10にお
いて、たとえば「有用でない」と評価された文書に出現
し、かつ「有用である」と評価された文書に出現しなか
った検索語を求めると、「包装」という検索語が得られ
る。「包装」という語を含んでいた文書1が、検索条件
を満たしているにもかかわらず「有用でない」と評価さ
れたことから、「包装」という検索語は誤入力である可
能性がある。以後、第1実施形態と同様に検索語訂正用
辞書16を利用することにより、「包装」を「放送」と
訂正することが可能である。
【0041】なお、この第2実施形態におけるユーザの
評価情報を利用した検索語訂正処理は、第1実施形態と
同様にブール検索以外においても有効であることはいう
までもない。
評価情報を利用した検索語訂正処理は、第1実施形態と
同様にブール検索以外においても有効であることはいう
までもない。
【0042】
【発明の効果】以上詳述したように、この発明によれ
ば、誤入力された語句が自動的に検出・訂正されるた
め、その作業効率は飛躍的に向上する。また、入力され
た語句が多義に解釈される語句であっても、その解釈を
選定することができるため、検索の効率および精度を向
上させることが可能となる。さらに、ユーザによる検索
結果の評価を語句の検出・訂正にフィードバックするこ
とにより、再検索の精度を向上させることができるよう
になる。
ば、誤入力された語句が自動的に検出・訂正されるた
め、その作業効率は飛躍的に向上する。また、入力され
た語句が多義に解釈される語句であっても、その解釈を
選定することができるため、検索の効率および精度を向
上させることが可能となる。さらに、ユーザによる検索
結果の評価を語句の検出・訂正にフィードバックするこ
とにより、再検索の精度を向上させることができるよう
になる。
【図1】この発明の第1実施形態に係る情報検索システ
ムの構成を示す図。
ムの構成を示す図。
【図2】同実施形態の検索語訂正部の処理の流れの一例
を示すフローチャート。
を示すフローチャート。
【図3】同実施形態の検索語訂正用辞書に登録されてい
る類似語知識、共起語知識および関連語知識の一例を示
す図。
る類似語知識、共起語知識および関連語知識の一例を示
す図。
【図4】同実施形態の検索条件入力部から検索語訂正部
に渡される語入力された検索語を含む検索条件の例を示
す図。
に渡される語入力された検索語を含む検索条件の例を示
す図。
【図5】同実施形態の図2におけるi番目の検索語の誤
入力判定アルゴリズム(図2のステップA5)の一例を
示すフローチャート。
入力判定アルゴリズム(図2のステップA5)の一例を
示すフローチャート。
【図6】同実施形態の検索条件を訂正した結果を例示す
る図。
る図。
【図7】この発明の第2実施形態に係る情報検索システ
ムの構成を示す図。
ムの構成を示す図。
【図8】同実施形態の検索結果評価情報入力部の処理の
流れの一例を示すフローチャート。
流れの一例を示すフローチャート。
【図9】同実施形態の検索語訂正部の処理の流れの一例
を示すフローチャート。
を示すフローチャート。
【図10】同実施形態の検索結果評価情報入力部から検
索語訂正部に渡される評価情報の一例を示す図。
索語訂正部に渡される評価情報の一例を示す図。
10…情報検索システム、11…検索条件入力部、12
…検索語訂正部、13…検索条件記憶部、14…検索
部、15…検索結果出力部、16…検索語訂正用辞書、
17…検索情報、18…検索結果評価情報入力部。
…検索語訂正部、13…検索条件記憶部、14…検索
部、15…検索結果出力部、16…検索語訂正用辞書、
17…検索情報、18…検索結果評価情報入力部。
Claims (5)
- 【請求項1】 キーワードとして入力された語句を含ん
で構成される検索条件に合致した情報を検索する情報検
索装置において、 類似語知識、共起語知識および関連語知識の少なくとも
一つ以上を含む語句訂正用辞書と、 誤入力された語句を前記検索語訂正用辞書により検出す
る誤入力語句検出手段と、 前記誤入力語句検出手段が検出した語句を前記検索語訂
正用辞書により訂正する語句訂正手段とを具備してなる
ことを特徴とする情報検索装置。 - 【請求項2】 キーワードとして入力された語句を含ん
で構成される検索条件に合致した情報を検索する情報検
索装置において、 類似語知識、共起語知識および関連語知識の少なくとも
一つ以上を含む語句選定用辞書と、 前記入力された語句が多義に解釈される語句であるとき
に、前記語句選定用辞書によりいずれかの解釈に選定す
る語句選定手段とを具備してなることを特徴とする情報
検索装置。 - 【請求項3】 検索された情報それぞれの有用度を示す
評価を入力する評価入力手段と、 前記評価入力手段により入力された評価を分析して前記
語句を訂正するフィードバック手段とをさらに具備して
なることを特徴とする請求項1または2記載の情報検索
装置。 - 【請求項4】 類似語知識、共起語知識および関連語知
識の少なくとも一つ以上を含む語句訂正用辞書を備え、
キーワードとして入力された語句を含んで構成される検
索条件に合致した情報を検索する情報検索方法におい
て、 誤入力された語句を前記検索語訂正用辞書により検出
し、 この検出された語句語を前記語句訂正用辞書により訂正
し、 この訂正後の語句を含んで構築される検索条件を用いて
検索を実行することを特徴とする情報検索方法。 - 【請求項5】 類似語知識、共起語知識および関連語知
識の少なくとも一つ以上を含む語句選定用辞書を備え、
キーワードとして入力された語句を含んで構成される検
索条件に合致した情報を検索する情報検索方法におい
て、 前記入力された語句が多義に解釈される語句であるとき
に、前記語句選定用辞書によりいずれかの解釈に選定
し、 この選定結果を前記検索条件に反映させた後に検索を実
行することを特徴とする情報検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9043577A JPH10240739A (ja) | 1997-02-27 | 1997-02-27 | 情報検索装置および情報検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9043577A JPH10240739A (ja) | 1997-02-27 | 1997-02-27 | 情報検索装置および情報検索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH10240739A true JPH10240739A (ja) | 1998-09-11 |
Family
ID=12667625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9043577A Pending JPH10240739A (ja) | 1997-02-27 | 1997-02-27 | 情報検索装置および情報検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH10240739A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001027993A (ja) * | 1999-07-14 | 2001-01-30 | Nippon Telegr & Teleph Corp <Ntt> | 流行予測支援方法及び装置及び流行予測支援プログラムを格納した記憶媒体 |
JP2006209022A (ja) * | 2005-01-31 | 2006-08-10 | Toshiba Corp | 情報検索システム、方法及びプログラム |
JP2007535741A (ja) * | 2004-04-21 | 2007-12-06 | テルコーディア テクノロジーズ インコーポレイテッド | データベースアクセスのための2段階データ検証およびマッピング |
JP2011159250A (ja) * | 2010-02-04 | 2011-08-18 | Toppan Printing Co Ltd | 電子チラシ情報検索装置 |
JP2013069170A (ja) * | 2011-09-22 | 2013-04-18 | Toshiba Corp | 検索装置、検索方法およびプログラム |
WO2023119573A1 (ja) * | 2021-12-23 | 2023-06-29 | 日本電気株式会社 | 情報処理装置、情報処理システム、情報処理方法、およびプログラム |
-
1997
- 1997-02-27 JP JP9043577A patent/JPH10240739A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001027993A (ja) * | 1999-07-14 | 2001-01-30 | Nippon Telegr & Teleph Corp <Ntt> | 流行予測支援方法及び装置及び流行予測支援プログラムを格納した記憶媒体 |
JP2007535741A (ja) * | 2004-04-21 | 2007-12-06 | テルコーディア テクノロジーズ インコーポレイテッド | データベースアクセスのための2段階データ検証およびマッピング |
US7788278B2 (en) | 2004-04-21 | 2010-08-31 | Kong Eng Cheng | Querying target databases using reference database records |
US8346794B2 (en) | 2004-04-21 | 2013-01-01 | Tti Inventions C Llc | Method and apparatus for querying target databases using reference database records by applying a set of reference-based mapping rules for matching input data queries from one of the plurality of sources |
JP2006209022A (ja) * | 2005-01-31 | 2006-08-10 | Toshiba Corp | 情報検索システム、方法及びプログラム |
US7818173B2 (en) * | 2005-01-31 | 2010-10-19 | Kabushiki Kaisha Toshiba | Information retrieval system, method, and program |
JP2011159250A (ja) * | 2010-02-04 | 2011-08-18 | Toppan Printing Co Ltd | 電子チラシ情報検索装置 |
JP2013069170A (ja) * | 2011-09-22 | 2013-04-18 | Toshiba Corp | 検索装置、検索方法およびプログラム |
WO2023119573A1 (ja) * | 2021-12-23 | 2023-06-29 | 日本電気株式会社 | 情報処理装置、情報処理システム、情報処理方法、およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5694559A (en) | On-line help method and system utilizing free text query | |
US6393389B1 (en) | Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions | |
US7774193B2 (en) | Proofing of word collocation errors based on a comparison with collocations in a corpus | |
US7149970B1 (en) | Method and system for filtering and selecting from a candidate list generated by a stochastic input method | |
US7228269B2 (en) | Computer-aided reading system and method with cross-language reading wizard | |
US7788085B2 (en) | Smart string replacement | |
US6424983B1 (en) | Spelling and grammar checking system | |
US6859771B2 (en) | System and method for identifying base noun phrases | |
US20060195435A1 (en) | System and method for providing query assistance | |
JP2000200291A (ja) | 選択された文字列をテキスト内で自動検出する方法 | |
JP2003514304A (ja) | スペルミス、タイプミス、および変換誤りに耐性のある、あるテキスト形式から別のテキスト形式に変換する言語入力アーキテクチャ | |
JPH07325828A (ja) | 文法チェックシステム | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
JP2004516527A (ja) | クロス言語ライティングウィザードを伴うコンピュータ支援ライティングのシステムおよび方法 | |
JP2002215617A (ja) | 品詞タグ付けをする方法 | |
JPH10240739A (ja) | 情報検索装置および情報検索方法 | |
JP2806452B2 (ja) | かな漢字変換装置および方法、並びに記録媒体 | |
JP2007122660A (ja) | 文書データ処理装置および文書データ処理プログラム | |
El-Beltagy et al. | Ontology based annotation of text segments | |
JPH07175808A (ja) | 自然言語処理装置 | |
JP7302267B2 (ja) | 検索プログラム、検索方法及び検索装置 | |
JP3244286B2 (ja) | 翻訳処理装置 | |
JPH0793345A (ja) | 文書検索装置 | |
JPH01126767A (ja) | 辞書参照装置 | |
JPH1145280A (ja) | 他言語文書検索システム、他言語文書検索プログラムが記憶された記憶媒体、及び他言語文書検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040525 |