JP2009211124A

JP2009211124A - ワード提示システム、方法及びプログラム、並びに情報検索システム

Info

Publication number: JP2009211124A
Application number: JP2008050430A
Authority: JP
Inventors: Hitoshi Sakamoto; 仁坂本
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2008-02-29
Filing date: 2008-02-29
Publication date: 2009-09-17

Abstract

【課題】非常に専門的、限定的な内容を求める検索者であっても、ごく簡単なキーワードから検索を始めて、その後は何らキーワードや付加情報を入力することなく、求める情報を検索することができるようにする。
【解決手段】本発明のワード提示システムは、入力ワードを含む１又は複数の情報を検索する情報検索手段と、情報検索手段により検索された各検索結果の素性を解析し、その素性の組み合わせに基づいて各検索結果の情報内容を判断し、情報内容に応じて各検索結果を分類する検索結果分類手段と、検索結果分類手段により分類された各グループの検索結果に基づいて、各グループの分類を特徴付ける１又は複数の特徴ワードを選出する特徴ワード選出手段と、特徴ワード選出手段により選出された各グループの各特徴ワードを検索者に向けて提示する特徴ワード提示手段とを備えることを特徴とする。
【選択図】図１

Description

本発明は、ワード提示システム、方法及びプログラム、並びに情報検索システムに関し、例えば、特定の情報あるいはデータを検索してユーザに提示するワード提示システム、方法及びプログラム、並びに情報検索システムに適用し得るものである。

近年、パーソナルコンピュータや携帯電話、電子手帳等のパーソナル情報ツールの普及により、さらにそれらの機器を情報通信ネットワークで結んだインターネットや電子メール等が急速に普及している。また、従来は紙に印刷し製本されていた書籍類もＣＤ−ＲＯＭ等の電子情報媒体によって出版されることが珍しくなくなった。

このように、メッセージや日記から百科事典や文学全集まで、様々な文書の電子化が進みつつある。このような文書の電子化の進展はインターネットの普及に伴って、日常的に接する文書の性格を質・量共に一変させてしまった。

従来は、文書といえば紙という媒体の制約から、既に何らかの観点で、記載、保存、出版などをするのに値すると判断されたものであり、いわゆる「落書き」等とは明らかに異なるものと考えられていた。この考えは、現在のようなパーソナルコンピュータやハードディスク等の低価格化が進む以前には、電子的な文書についてもほぼ同様であった。

このような考えを背景に、初期の文書検索システムは与えられた条件に合致する文書を漏れなく出力することを目的として設計されていた。このことは、現在でも特許の分野等では、例えば先行技術調査のための検索では重視されている。

しかし、特許のように大きな利害が関係することもない、一般の文書検索では文書検索システムが出力した検索結果がすべてチェックされるとは考えられず、検索結果に優先順位を付与して、検索者が望むだけの数をチェックできるようにすることは不可欠である。そこには、検索者が求める情報に高い優先順位を付与すること、つまり「適合性」が高いことが求められている。

特許文献１に開示された装置は、検索結果のパフォーマンスの様々な観点を表すデータを連続的に収集することにより、検索結果の適合性を向上させるものである。ここで収集されるデータとは、検索結果を見たユーザのマウスクリック行為であったり、アンケート式のレイティングへの回答行為であったりする。

特許文献２及び特許文献３に開示された装置は、他の検索ユーザの行動とは独立して、当該検索ユーザと検索システムとのインタラクションによって検索結果の適合性を向上しようとするものである。

特許文献２に開示された装置は、例えば「日本の文化」という句をクエリー（質問）として検索する際に、「文化」の共起トークンである「新しい」「伝統」「食」「形成」「発展」「あげる」・・・なども提示し、検索ユーザにあるトークン（例では「伝統」）を選択してもらえば、新たに加えられた検索条件に基づいて再検索することで、元のクエリーのみによる検索よりも検索結果の適合性を向上しようとするものである。

特許文献３に開示された装置は、例えば「ブックエンドは本を出し入れするとすぐに位置がずれてしまう」という文をクエリー（質問）として検索する際に、「対象」「手段」「用途」「課題」「目的・効果」のような観点も提示し、検索ユーザにある観点（例では「課題」）を選択してもらえば、その観点に応じてターム抽出し、重み付け、検索範囲を動的に変更して検索を実行することで、クエリーのみによる検索よりも検索結果の適合性を向上しようとするものである。

特許文献４及び特許文献５に開示された装置は、検索結果をより確認しやすい形態で検索者に提示することで、検索者がクエリー（質問）をより適切なものとすることを支援するものである。これにより、再検索時の適合性を向上しようとすることができる。

特許文献４に開示された装置は、文書構造解析及び文脈解析して得られた結果から求めた重要度に応じて検索結果が要約される。

特許文献５に開示された装置は、文書のタイトル情報から章立ての構造を解析する書式解析によって、検索ユーザの要求に応じて詳細度の変化させた要約文章を対話的に提示するものである。

特開２００５−２７６２１３号公報特開２００５−３１９５０号公報特開２００７−１０２７２３号公報特開平７−１８２３７３号公報特開平７−１２９６０５号公報

しかしながら、上述した特許文献１〜５に記載の技術は、以下のような問題が生じるおそれがある。

特許文献１に開示された方法では、多数の利用者を対象に、かつ多数の利用者が関心を持つようなトピックに限定されるものであった。また、特許文献２に開示された方法は、あらかじめ共起トークンが用意されているような、よく質問に用いられる語句を使用して検索しているような場合には機能するが、限定された分野でのみ用いられる専門用語や新造語を主体にして質問を構成してしまったりすると、ほとんど機能しなくなってしまうといった問題があった。

例えば、ＡＴＭと略された名の建物の写真をみるなどして、ふと興味を引かれて、「何の建物なのか」「どこにあるのか」「正式な名称は何なのか」などを知りたいと考え、「ＡＴＭ」というキーワードをインターネット上の文書類を検索したとする。

この場合、特許文献１に記載の技術の場合、多数の利用者が関心を持つようなトピックを検索するものであるので、特許文献１の技術を適用しても、上記のような「ＡＴＭ」という身近でない建物を検索することができない。

特許文献２に記載の技術の場合、検索対象である「ＡＴＭ」について、「何の建物なのか」「どこにあるのか」「正式な名前は何なのか」という共起トークンが設定されている必要がある。しかし、それほど身近でない「ＡＴＭ」という建物についてまで共起トークンを設定するとは困難である。

特許文献３に記載の技術の場合、「ＡＴＭ」という建物が、例えば、「ただ知りたいだけ」のような観点が用意されているとは期待できないし、そのような観点が追加されたとしてもそれによって検索精度が向上するとは考えにくい。

特許文献４及び特許文献５に記載の技術の場合、仮に検索が成功しても、「ＡＴＭ」というキーワードで検索した結果、得られた文書がいかに明快に要約できたとしても、その結果にターゲットである「ＡＴＭ」が含まれていなければ、この検索者にとっては意味がない。

そのため、非常に専門的、限定的な内容を求める検索者であっても、ごく簡単なキーワードから検索を始めて、その後は何らキーワードや付加情報を入力することなく、求める情報を検索することができる情報検索システムが求められている。

かかる課題を解決するために、第１の本発明のワード提示システムは、（１）情報検索に係る入力ワードを取り込み、この入力ワードを含む１又は複数の情報を検索する情報検索手段と、（２）情報検索手段により検索された各検索結果の素性を解析し、その素性の組み合わせに基づいて各検索結果の情報内容を判断し、情報内容に応じて各検索結果を分類する検索結果分類手段と、（３）検索結果分類手段により分類された各グループの検索結果に基づいて、各グループの分類を特徴付ける１又は複数の特徴ワードを選出する特徴ワード選出手段と、（４）特徴ワード選出手段により選出された各グループの各特徴ワードを検索者に向けて提示する特徴ワード提示手段とを備えることを特徴とする。

第２の本発明の情報検索システムは、（１）情報検索に係る入力ワードを取り込み、この入力ワードを含む１又は複数の情報を検索する情報検索手段と、（２）情報検索手段により検索された検索結果に基づいて、グループ化された検索結果の１又は複数の特徴ワードを検索者に提示する第１の本発明のワード提示システムであるワード提示手段と、（３）検索者により選択されたグループの各特徴ワードを受け取り、当該グループの各特徴ワードを入力ワードとして情報検索手段に情報検索させるワード再構成手段とを備えることを特徴とする。

第３の本発明のワード提示方法は、情報検索手段、検索結果分類手段、特徴ワード選出手段及び特徴ワード提示手段を備え、（１）情報検索手段が、情報検索に係る入力ワードを取り込み、この入力ワードを含む１又は複数の情報を検索する情報検索工程と、（２）検索結果分類手段が、情報検索手段により検索された各検索結果の素性を解析し、その素性の組み合わせに基づいて各検索結果の情報内容を判断し、情報内容に応じて各検索結果を分類する検索結果分類工程と、（３）特徴ワード選出手段が、検索結果分類手段により分類された各グループの検索結果に基づいて、各グループの分類を特徴付ける１又は複数の特徴ワードを選出する特徴ワード選出工程と、（４）特徴ワード提示手段が、特徴ワード選出手段により選出された各グループの各特徴ワードを検索者に向けて提示する特徴ワード提示工程とを有することを特徴とする。

第４の本発明のワード提示プログラムは、コンピュータを、（１）情報検索に係る入力ワードを取り込み、この入力ワードを含む１又は複数の情報を検索する情報検索手段、（２）情報検索手段により検索された各検索結果の素性を解析し、その素性の組み合わせに基づいて各検索結果の情報内容を判断し、情報内容に応じて各検索結果を分類する検索結果分類手段、（３）検索結果分類手段により分類された各グループの検索結果に基づいて、各グループの分類を特徴付ける１又は複数の特徴ワードを選出する特徴ワード選出手段、（４）特徴ワード選出手段により選出された各グループの各特徴ワードを検索者に向けて提示する特徴ワード提示手段として機能させるものである。

本発明によれば、非常に専門的、限定的な内容を求める検索者であっても、ごく簡単なキーワードから検索を始めて、その後は何らキーワードや付加情報を入力することなく求める情報を検索することができる

（Ａ）第１の実施形態
以下、本発明のワード提示システム、方法及びプログラム、並びに情報検索システムの第１の実施形態について図面を参照して説明する。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態の情報検索システムの構成を示す構成図である。

図１において、第１の実施形態の情報検索システム１は、一次検索部１１、検索結果分類部１２、検索結果評価部１３、検索結果要約部１４、質問限定部１５、使用例データベース１６を少なくとも有するものである。

一次検索部１１は、ネットワーク上に存在する、文書、資料、データ等のＷｅｂ情報から、検索キーワードを含む１又は複数のＷｅｂ情報を検索するものである。この検索キーワードは、検索者であるユーザから取り入れたクエリーである。また、一次検索部１１は、検索した検索結果を検索結果分類部１２に与えるものである。

一次検索部１１による情報検索方法は、特に限定されるものではなく、既存のネットワーク検索エンジン技術を広く適用することができる。また、第１の実施形態では、ネットワーク上の情報を検索する場合を例示するが、データベースに格納される情報を検索する場合にも同様に適用できる。

検索結果分類部１２は、一次検索部１１により検索された検索結果に基づいて、検索した情報内容が近いものを判断して、その情報内容に応じて検索結果をグループに分類するものである。また、検索結果分類部１２は、その分類したグループを検索結果評価部１３に与えるものである。

検索結果評価部１３は、検索結果分類部１２により分類された各グループ毎の各情報の内容の同一性又は類似性を判断し、同一又は類似する情報が複数個ある場合、これら情報が単一の情報となるように併合し、出現する用語の度数を１個の結果分に調整するものである。また、検索結果評価部１３は、各グループ毎に調整した検索結果を検索結果要約部１４に与えるものである。

検索結果要約部１４は、検索結果評価部１３によって調整された各グループの検索結果を受け取ると、各グループを特徴付けるキーワードを抽出し、そのキーワードに基づいて出力用の検索結果要約を生成するものである。また、検索結果要約部１４は、各グループ毎に抽出したキーワードと生成した検索結果要約とを質問限定部１５に与えるものである。

質問限定部１５は、検索結果要約部１４から各グループ毎のキーワードと検索結果要約とを受け取り、グループ毎の検索要約結果をユーザに提示するものである。また、質問限定部１５は、グループ毎の検索要約結果を提示したユーザからの応答又は反応を解析し、当該ユーザが否定的な選択（以下では「排除」ともいう）した検索結果のグループと、肯定的な選択（以下では「選択」ともいう）した検索結果のグループとを特定するものである。さらに、質問限定部１５は、ユーザにより選択されたグループのキーワードを入力キーワードとして再構成し、これらのキーワードを一次検索部１１又は検索結果分類部１２に与えて、ユーザが希望する検索情報を検索させるものである。

（Ａ−２）第１の実施形態の動作
以下では、検索者であるユーザが入力したクエリーに基づいて、ネットワーク上から情報を検索する情報検索処理について図面を参照しながら詳細に説明する。

図２は、第１の実施形態の情報検索処理を示すフローチャートである。

まず、検索者であるユーザが入力したクエリーは一次検索部１１に与えられ、一次検索部１１は、ネットワーク上に存在するＷｅｂ情報から、入力クエリーにマッチする情報を検索する（ステップＳ１０１）。

例えば、検索者が「ＡＴＭ」という建物について検索しようと考え、「ＡＴＭ」をクエリーとして入力するものとする。そうすると、一次検索部１１は、入力クエリー「ＡＴＭ」をキーワードとして、ネットワーク上のＷｅｂ情報から情報検索を行う。

図３は、一次検索部１１により検索された検索結果を示す図である。図３では、一次検索部１１により多数の利用者によりヒット件数が多いものから順に検索結果を得たものである。図３では、ビット件数が多いものから取得するので、この検索結果には検索者であるユーザが希望する「ＡＴＭ」という建物に関する情報はない。

次に、一次検索部１１により検索された検索結果のうち上位から所定数の情報を対象として、検索結果分類部１２により検索結果の分類処理が行われる（ステップＳ１０２）。

例えば、検索結果分類部１２は、一次検索部１１により検索された検索結果のうち、上位から所定数の検索結果を分類対象とする。このとき、分類対象とする検索結果の数は、システム運用に応じて任意に定めることができ、例えば、１００件、５００件、１０００件等とすることができる。

検索結果分類部１２は、分類対象であるそれぞれの検索結果を構成する情報を素性とし、それら情報から同一又は類似する情報を含む検索結果を同じグループとして分類する。

ここで、検索結果分類部１２による分類方法としては、種々の方法を適用することができ、例えば、文献１（工藤拓、松本裕治、“Support Vector Machineを用いたChunk同定”自然言語処理、Vol.9.No.5、pp3-22（2002））に記載のＳＶＭ（Support Vector Machine）を用いたＣｈｕｎｋ同定方法や、文献２（高野明彦、西岡伸吾、丹羽芳樹他、“汎用連想計算エンジンの開発と大規模文書分析への応用”、IPA、2001年度成果報告集）に記載の分類方法を適用することができる。

図３に示す検索結果を用いて検索結果を分類する処理を図４を参照しながら説明する。例えば、図３の１）の検索結果は、「現金自動預け払い機−Wikipedia現金自動預け払い機（げんきんじどうあずけはらいき、ATM、Automated Teller Machine）は、通常、紙幣（及び硬貨）、通帳、磁気カード等の受け入れ口、支払い口を備え、金融機関や貸金業者、現金出納を行う業者の提供サービスが、…ja.wikipedia.org/wiki/現金自動預け払い機-47ｋ-キャッシュ-関連ページ」である（図４（Ａ）参照）。

検索結果分類部１２は、図３の１）の検索結果を構成する単語を解析すると図４（Ｂ）に示すような結果を得る。１）の検索結果において、単語「現金自動預け払い機」は３回出現しており、また平仮名であるが「げんきんじどうあずけはらいき」も１回出現しており、更に英字であるが「Automated Teller Machine」も１回出現している。そうすると、検索結果分類部１２は、当該検索結果の素性は、「現金自動預け払い機」であると判断する。

同様にして、検索結果分類部１２は、図３の２）の検索結果についても素性を解析し、この２）の検索結果も、１）の検索結果と同じ「現金自動預け払い機」を素性に持つものであると判断する。そうすると、検索結果分類部１２は、１）の検索結果と２）の検索結果を同じグループにグルーピングする。

他の検索結果についても同様にして行い、検索結果分類部１２は、分類対象の検索結果を複数のグループに分類する。

なお、検索結果の分類方法については、上記の例で示した方法に限定されるものではない。例えば、予め単語意味や単語の組み合わせに応じて分類ルールを作成しておき、この分類ルールを参照しながら、検索結果を分類する方法も適用し得る。

検索結果分類部１２により検索結果が複数のグループに分類されると、検索結果評価部１３は、各グループにおいて、内容が類似する検索結果については、単一の情報であるように併合処理を行う（ステップＳ１０３）。

ここで、検索結果評価部１３による各グループでの検索結果の併合処理としては、例えば、検索結果を構成する各キーワードのうち出現頻度が閾値以上の特徴キーワードが同一又は類似する場合、検索結果において最初に出現する単語が同一である場合、検索結果のＵＲＬが同一又は類似する場合、これら複数の検索結果は同一又は類似のものであるとみなす。

検索結果評価部１３が複数の検索結果を併合する際に、検索結果評価部１３は、複数の検索結果を単純に結合して、大きな文書とする。

また、別の併合の仕方としては、検索結果評価部１３は、併合する複数の検索結果の中から１個の検索結果を候補として選出する。この候補の選出方法としては、検索上位に位置する検索結果を選出したり、任意に選択した検索結果を選出したりするなど広く適用することができる。

例えば、図５は、検索結果評価部１３による各グループにおける検索結果の併合処理を説明する説明図である。

図５（Ａ）では、同一グループである図３の８）及び９）の検索結果を示す。図５（Ａ）において、検索結果評価部１３が、８）及び９）の検索結果のそれぞれの単語を解析すると、８）及び９）のいずれの検索結果の先頭に位置する単語が「○○コンビニ銀行」であり同一であると判断する。また、検索結果評価部１３は、８）の検索結果のＵＲＬである単語が「www.○○konbinibank.co.jp/atm/index.html」であり、９）の検索結果のＵＲＬである単語が「www.○○konbinibank.co.jp」であり、「www.○○konbinibank.co.jp」部分が同じであるから、８）の検索結果と９）の検索結果は類似すると判断する。

その結果、検索結果評価部１３は、同一グループである図３の８）の検索結果と９）の検索結果は、同一の検索内容であると判定する。そして、検索結果評価部１３は、検索上位に位置する図３の８）の検索結果を選出し、図３の９）の検索結果を削除する。

また、別の併合処理としては、以下のような処理例を適用することができる。以下では、各グループにおける、複数の文書を順次結合させていき、特定キーワードの出現頻度が閾値を超える場合、これら複数の文書を併合するという方法である。

例えば、第１の例としては、検索結果評価部１３により、複数の検索結果が単純に合成され、大きな文書が生成された場合、その合成された文書に対して、再度キーワードの特定処理を行う。そして、各キーワードの出現頻度を求め、出現頻度が閾値を超えるとき、これら文書を併合する。

また第２の例としては、特定されたキーワードの出現頻度を各キーワード毎に合計し、その併合した検索結果数で除して、この併合した文書における各キーワードの出現頻度を求める。これにより、結合した文書における特定キーワードの出現頻度の平均を求めることができる。そして、特定キーワードの出現頻度の平均値が閾値を超えるとき、これら文書を併合する。

更に第３の例としては、句読点や改行を利用して、文書を文や行等の小さな単位に区切り、併合する文書間で共通して現れる文や行は１つにしながら、併合する文書の文や行を結合して、大きな文書を生成し、その結合した文書に対して再度キーワードの特定、出現頻度の計数等の処理を行う。そして、特定キーワードの出現頻度が閾値を超えるとき、これら文書を併合する。

このようにして、検索結果評価部１３により各グループ毎に検索結果の併合がなされると、検索結果要約部１４により、各グループ毎の検索結果について要約処理を行う（ステップＳ１０４）。

ここで、まず、検索結果要約部１４は、各グループの情報内容を特徴付けるキーワード抽出を行う。

このとき、検索結果要約部１４は、各グループに属する検索結果を構成するキーワードの出現頻度を求める。そして、各キーワードの出現頻度の高いものを、当該グループを特徴付ける特定のキーワードであるとする。

次に、検索結果要約部１４は、使用例データベース１６に当該特定キーワードを含む使用例があるか否かを検索する。図６は、検索結果要約部１４による使用例の検索処理を説明するフローチャートである。

図７は、使用例データベース１６の構成例を示す構成図である。図７に示すように、使用例データベース１６は、「キーワード」と「使用例」の項目を有して構成される。「キーワード」には、１又は複数のキーワードが格納される。「使用例」には、対応する「キーワード」に格納される１又は複数のキーワードを含む使用例が格納される。

この使用例データベース１６は、例えば、大規模な文書データベースやインターネットから、キーワードを含む使用例を検索し、その結果として、キーワードと使用例とを対応付けて格納したデータベースである。あらかじめ格納したデータベースに対象とするキーワードが含まれていなかった場合、あるいはキーワードは含まれていても対応する使用例の数が予め定めた閾値未満の場合、そのキーワードを含む使用例を検索して、閾値以上の数の使用例を収集する構成が望ましい。

例えば、グループから「銀行」、「店舗」という特定キーワードが抽出されると、検索結果要約部１４は、この特定キーワード「銀行」、「店舗」を含む使用例が使用例データベース１６に閾値以上か否かを判断し（ステップＳ２０１）、閾値以上の場合（すなわち、十分ある場合）、当該特定キーワード「銀行」、「店舗」を含む使用例「銀行の店舗に」を取り出す（ステップＳ２０２）。

このとき、使用例データベース１６において、あるキーワードに対する使用例が比較的少ない場合（例えば、使用例数が閾値未満の場合）や、複数のキーワードを含む使用例が得られていない場合（例えば、単独キーワードの場合）、そのキーワードを含むだけで、かつ当該グループ以外のグループを特徴づけるキーワードを含まない使用例を抽出する処理を加えてもよい。

例えば、図７に示すように、単独キーワード「店舗」だけを含む場合には、このキーワードと特徴的でないキーワードを含む使用例として「店舗のご案内」という使用例を格納しておき、この使用例を抽出するようにする。

また、当該グループについて抽出した使用例が他のグループの使用例と異なる場合、当該グループの使用例は他のグループを特徴付けるワードであるとする。すなわち、他のグループにおいても抽出された特定キーワードは、グループ毎の特徴を示すものでないので、特徴付けないキーワードについては破棄する（ステップＳ２０４）。これを全ての特定キーワードについて行い（ステップＳ２０５）、当該グループを特徴付ける使用例を抽出する。

なお、使用例データベース１６に各グループの特定キーワードを「キーワード」とする使用例が閾値未満の場合（すなわち、十分ない場合）、検索結果要約部１４は、使用例データベース１６の格納情報を作成することができる。この場合、例えば、検索結果要約部１４は、大規模データベースから当該キーワードを含むワードを検索し（ステップＳ２０６）、そのワードを使用例として使用例データベースに追加する（ステップＳ２０７）。

以上のようにして、検索結果要約部１４は、抽出した使用例をリスト化した検索結果である要約と特定キーワードを質問限定部１５に出力する。

ここで、検索結果要約部１４は、検索結果要約の生成・出力の際、キーワード又は使用例の出現度数に応じた順序に、使用例を並び替えて出力するようにしてもよい。

具体的には、例えば、使用例データベース１６に使用例を収録する際、その収録時における使用例の出現度数を保持したり、又は当該使用例に含まれるキーワード個別の出現度数を所定の重み付けを用いて合算した重み付け値を保持しておく。そして、これら使用例の出現度数や複数のキーワードの出現度数の合算値に応じた優先度に応じて、使用例の順序を並び替えたリストを質問限定部１５に出力するようにしてもよい。

なお、検索結果要約部１４による各グループ毎の要約処理の具体的な処理としては、この他にも種々の方法を適用することができる。例えば、文献３（森辰則、田村直良，“情報検索結果の知的提示のための自動要約ならびにインタフェースに関する研究”、文部科学省科学研究費補助金特定領域研究「ＩＴの進化の基盤を拓く情報額研究」、平成１７年度報告）に記載される要約処理を適用することができる。

質問限定部１５は、検索結果要約部１４から各グループの要約を取得すると、その各グループの要約をユーザに対して提示する（ステップＳ１０５）。

ここで、質問限定部１５は、検索結果要約部１４により生成された要約を提示するが、この要約を提示する利点について説明する。質問限定部１５の提示方法としては、種々の方法を適用でき、例えば音声やテキストで要約をユーザ提示することができる。

例えば、要約として孤立した「店舗」を音声合成システムにより提示する場合、使用例データベース１６において、キーワード「てんぽ」には「店舗」と「テンポ」が格納されているとする。この場合、従来のように、キーワード「てんぽ」をユーザに提示する際、「てんぽ」を音声出力しても、ユーザは「店舗」であるか「テンポ」であるか分からない。これに対して、第１の実施形態では、「銀行の店舗に」等のように使用例を出力するから、ユーザはキーワードが「店舗」であることが容易に理解できる。

また、テキストで文字表示する場合でも、孤立したキーワードの羅列として提示されると、例えばキーワード「店頭」がキーワード「株式」と並んで提示されると、「店頭」が取引所を介していない店頭取引を意味して、具体的な場所としての店頭の意味を失うようなおそれもあるが、第１の実施形態によれば、冗長を持たせた使用例による要約であれば、この問題を解消できる。

質問限定部１５は、ユーザに検索結果要約部１４からの検索結果の要約を提示する。第１の実施形態では、例えば、音声合成システムを利用する場合に適用できる。また例えば携帯電話機等のように狭い表示域に文字表示する場合等には逐次的に提示する。また例えば、広い表示域に文字表示する場合には一括して提示する。

質問限定部１５は、提示した検索結果の要約に対する検索者からの応答／反応を解析し、検索者の否定的な選択（これを排除という）した検索結果のグループと、肯定的な選択（これを単に選択という）した検索結果のグループを特定する（ステップＳ１０６）。

質問限定部１５は、検索結果要約部１４が抽出したキーワードを基に、ユーザからのクエリーを再構築して一次検索部１１に出力する（ステップＳ１０７）。

このとき、質問限定部１５は、ユーザにより排除された検索結果のグループを特徴付けるキーワードと、ユーザにより選択された検索結果のグループを特徴付けるキーワードとを区別する。

この区別する方法としては、例えば、排除された検索結果のグループを特徴付けるキーワードには、「−」を付与する。

例えば、第１の実施形態の場合、ユーザが求める「ＡＴＭ」が「現金自動預け払い機」や「非同期転送モード」でないとすると、「現金自動預け払い機」や「非同期転送モード」のグループを特徴付けるキーワードには「−」が付与される。従って、質問限定部１５が、クエリーを再構成すると「ＡＴＭ −銀行、−現金、−店舗、−非同期、−転送」というクエリーが作成される。

そして、一次検索部１１が、この再構成されたクエリーを用いて、ステップＳ１０１に戻って再び検索処理を行う。図８は、一次検索部１１が、再構成されたクエリーを用いてサイド検索した検索結果を示す。

そして、ステップＳ１０２〜Ｓ１０３の処理が繰り返し行われると、検索結果分類部１２は、図９に示すように、「ＡＲＴＴＯＷＥＲＭＩＴＯ」のグループを分類する。そして、ステップＳ１０４〜Ｓ１０５の処理により、検索結果要約部１４は、このグループを特徴付けるキーワードとして「コンサートホール」、「水戸」、「ART TOWER MITO」等を抽出する。

このようにすることで、情報検索のためのキーワードが思いつかない場合であっても、ユーザは提示されたグループを選択するだけで、適切なキーワードを見つけ出すことができるので、情報検索に係る作業を大幅に軽減することができる。

ステップＳ１０６において、検索を求めるグループがない場合、ユーザはその旨（排除）を質問限定部１５に与え、ステップＳ１０１に戻り処理を繰り返す。このとき、前回の検索結果の分類対象とならなかった情報を分類対象とする。例えば、前回の分類対象を上位１００件とした場合、今回は、前回の分類対象としなかった上位１０１から２００件までの情報を分類対象とする。

また、ユーザ（検索者）が専門的、限定的な用語の内容を知りたい場合には、以下のようにすることで実現できる。

例えば、検索結果分類部１２が、上述した分類処理により、図１０に示す２つのグループを分類したものとする。

検索結果要約部１４は、両グループに共通する「用語辞典」や「非同期」等ではなく、専門的、限定的なキーワードを抽出する。例えば、図１０の５）から、「A… Type Manager」というキーワードを抽出し、図１０の６）から「ペイロード」、「仮想チャネル」等を抽出するものとする。

検索結果要約部１４及び質問限定部１５が上述したステップＳ１０５〜Ｓ１０７の処理を行うと、「非同期転送モード」の技術的な内容に関する情報を検索することができる。これにより、専門的、限定的な内容（例えば、「非同期転送モード」という技術的な内容）を求める検索者も、第１回目の「ＡＴＭ」というキーワード以外に何らキーワードを入力することなく、所望情報を取得できる。

（Ａ−３）第１の実施形態の効果
以上のように、第１の実施形態によれば、検索者がクエリーとして適切な組み合わせのキーワードの組を考え出すという非常に負荷の高い作業を大幅に軽減することができる。

（Ｂ）他の実施形態
（Ｂ−１）第１の実施形態では、特定の目的を持った検索者に対する検索システムに適用した場合を例に説明したが、明確な目的が決まっていない使用者に対して、使用者の反応に合わせて話題を提供するような構成をすることで、対話システムとしても適用可能である。

また、ネットワーク上の情報としては、テキストデータ、画像データ、動画像データ、音データ等を検索対象データとすることができる。

（Ｂ−２）第１の実施形態で説明した情報検索システムが実現する各種構成要件の機能はソフトウェア処理により実現されるものである。例えば、ハードウェア構成として、例えばＣＰＵ、ＲＯＭ、ＲＡＭなどを有して構成されるものであって、各種構成要件の機能は、ＣＰＵが、ＲＯＭに格納される処理プログラムを、処理に必要なデータを用いて実行することにより実現されるものである。

（Ｂ−３）第１の実施形態で説明した情報検索システムは、物理的に同一の装置に搭載されることに限定されるものではなく、各種構成要件が分散的な装置に搭載されるようにしてもよい。すなわち、各種構成要件が、分散配置されてもよい。

また、言語は、日本語に限定されず、英語、中国語などの外国語に広く適用できる。

第１の実施形態の情報検索システムの構成を示す構成図である。第１の実施形態の情報検索処理を示すフローチャートである。第１の実施形態の一次検索処理により検索された検索結果の例を示す図である。第１の実施形態の検索結果の分類処理を説明する説明図である。第１の実施形態の検索結果の併合処理を説明する説明図である。第１の実施形態の使用例の抽出処理を示すフローチャートである。第１の実施形態の使用例データベースの格納情報の構成例を示す構成図である。第１の実施形態の一次検索処理により再検索された検索結果の例を示す図である。第１の実施形態の再構成された検索結果の分類処理された検索結果の例を示す図である。第１の実施形態の検索結果分類部により分類された検索結果の例を示す図である。

符号の説明

１…情報検索システム、１１…一次検索部、１２…検索結果分類部、１３…検索結果評価部、１４…検索結果要約部、１５…質問限定部、１６…使用例データベース。

Claims

情報検索に係る入力ワードを取り込み、この入力ワードを含む１又は複数の情報を検索する情報検索手段と、
上記情報検索手段により検索された各検索結果の素性を解析し、その素性の組み合わせに基づいて各検索結果の情報内容を判断し、情報内容に応じて各検索結果を分類する検索結果分類手段と、
上記検索結果分類手段により分類された各グループの検索結果に基づいて、各グループの分類を特徴付ける１又は複数の特徴ワードを選出する特徴ワード選出手段と、
上記特徴ワード選出手段により選出された各グループの各特徴ワードを検索者に向けて提示する特徴ワード提示手段と
を備えることを特徴とするワード提示システム。
上記検索結果分類手段が、
上記各グループに分類された各検索結果の同一性又は類似性を上記グループ毎に判断する同一類似判断部と、
上記同一類似判断部により同一性又は類似性があると判断された複数の検索結果を単一の検索結果に併合する検索結果併合部と
を有することを特徴とする請求項１に記載のワード提示システム。
上記特徴ワード選出手段が、
予め設定された、複数の特徴ワードと、上記各特徴ワードに関連する複数の関連ワードとが対応付けられた特徴ワード記憶部と、
上記各グループに分類された検索結果から１又は複数のキーワードを抽出し、抽出された各キーワードを上記関連ワードにもつ特徴ワードを取得する特徴ワード取得部と
を有することを特徴とする請求項１又は２に記載のワード提示システム。
情報検索に係る入力ワードを取り込み、この入力ワードを含む１又は複数の情報を検索する情報検索手段と、
上記情報検索手段により検索された検索結果に基づいて、グループ化された検索結果の１又は複数の特徴ワードを検索者に提示する請求項１〜３のいずれかに記載のワード提示システムであるワード提示手段と、
検索者により選択されたグループの各特徴ワードを受け取り、当該グループの各特徴ワードを入力ワードとして上記情報検索手段に情報検索させるワード再構成手段と
を備えることを特徴とする情報検索システム。
情報検索手段、検索結果分類手段、特徴ワード選出手段及び特徴ワード提示手段を備え、
情報検索手段が、情報検索に係る入力ワードを取り込み、この入力ワードを含む１又は複数の情報を検索する情報検索工程と、
上記検索結果分類手段が、上記情報検索手段により検索された各検索結果の素性を解析し、その素性の組み合わせに基づいて各検索結果の情報内容を判断し、情報内容に応じて各検索結果を分類する検索結果分類工程と、
上記特徴ワード選出手段が、上記検索結果分類手段により分類された各グループの検索結果に基づいて、各グループの分類を特徴付ける１又は複数の特徴ワードを選出する特徴ワード選出工程と、
特徴ワード提示手段が、上記特徴ワード選出手段により選出された各グループの各特徴ワードを検索者に向けて提示する特徴ワード提示工程と
を有することを特徴とするワード提示方法。
コンピュータを、
情報検索に係る入力ワードを取り込み、この入力ワードを含む１又は複数の情報を検索する情報検索手段、
上記情報検索手段により検索された各検索結果の素性を解析し、その素性の組み合わせに基づいて各検索結果の情報内容を判断し、情報内容に応じて各検索結果を分類する検索結果分類手段、
上記検索結果分類手段により分類された各グループの検索結果に基づいて、各グループの分類を特徴付ける１又は複数の特徴ワードを選出する特徴ワード選出手段、
上記特徴ワード選出手段により選出された各グループの各特徴ワードを検索者に向けて提示する特徴ワード提示手段
として機能させるワード提示プログラム。