JP2009211124A - ワード提示システム、方法及びプログラム、並びに情報検索システム - Google Patents

ワード提示システム、方法及びプログラム、並びに情報検索システム Download PDF

Info

Publication number
JP2009211124A
JP2009211124A JP2008050430A JP2008050430A JP2009211124A JP 2009211124 A JP2009211124 A JP 2009211124A JP 2008050430 A JP2008050430 A JP 2008050430A JP 2008050430 A JP2008050430 A JP 2008050430A JP 2009211124 A JP2009211124 A JP 2009211124A
Authority
JP
Japan
Prior art keywords
search
information
search result
word
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008050430A
Other languages
English (en)
Inventor
Hitoshi Sakamoto
仁 坂本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2008050430A priority Critical patent/JP2009211124A/ja
Publication of JP2009211124A publication Critical patent/JP2009211124A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】非常に専門的、限定的な内容を求める検索者であっても、ごく簡単なキーワードから検索を始めて、その後は何らキーワードや付加情報を入力することなく、求める情報を検索することができるようにする。
【解決手段】本発明のワード提示システムは、入力ワードを含む1又は複数の情報を検索する情報検索手段と、情報検索手段により検索された各検索結果の素性を解析し、その素性の組み合わせに基づいて各検索結果の情報内容を判断し、情報内容に応じて各検索結果を分類する検索結果分類手段と、検索結果分類手段により分類された各グループの検索結果に基づいて、各グループの分類を特徴付ける1又は複数の特徴ワードを選出する特徴ワード選出手段と、特徴ワード選出手段により選出された各グループの各特徴ワードを検索者に向けて提示する特徴ワード提示手段とを備えることを特徴とする。
【選択図】 図1

Description

本発明は、ワード提示システム、方法及びプログラム、並びに情報検索システムに関し、例えば、特定の情報あるいはデータを検索してユーザに提示するワード提示システム、方法及びプログラム、並びに情報検索システムに適用し得るものである。
近年、パーソナルコンピュータや携帯電話、電子手帳等のパーソナル情報ツールの普及により、さらにそれらの機器を情報通信ネットワークで結んだインターネットや電子メール等が急速に普及している。また、従来は紙に印刷し製本されていた書籍類もCD−ROM等の電子情報媒体によって出版されることが珍しくなくなった。
このように、メッセージや日記から百科事典や文学全集まで、様々な文書の電子化が進みつつある。このような文書の電子化の進展はインターネットの普及に伴って、日常的に接する文書の性格を質・量共に一変させてしまった。
従来は、文書といえば紙という媒体の制約から、既に何らかの観点で、記載、保存、出版などをするのに値すると判断されたものであり、いわゆる「落書き」等とは明らかに異なるものと考えられていた。この考えは、現在のようなパーソナルコンピュータやハードディスク等の低価格化が進む以前には、電子的な文書についてもほぼ同様であった。
このような考えを背景に、初期の文書検索システムは与えられた条件に合致する文書を漏れなく出力することを目的として設計されていた。このことは、現在でも特許の分野等では、例えば先行技術調査のための検索では重視されている。
しかし、特許のように大きな利害が関係することもない、一般の文書検索では文書検索システムが出力した検索結果がすべてチェックされるとは考えられず、検索結果に優先順位を付与して、検索者が望むだけの数をチェックできるようにすることは不可欠である。そこには、検索者が求める情報に高い優先順位を付与すること、つまり「適合性」が高いことが求められている。
特許文献1に開示された装置は、検索結果のパフォーマンスの様々な観点を表すデータを連続的に収集することにより、検索結果の適合性を向上させるものである。ここで収集されるデータとは、検索結果を見たユーザのマウスクリック行為であったり、アンケート式のレイティングへの回答行為であったりする。
特許文献2及び特許文献3に開示された装置は、他の検索ユーザの行動とは独立して、当該検索ユーザと検索システムとのインタラクションによって検索結果の適合性を向上しようとするものである。
特許文献2に開示された装置は、例えば「日本の文化」という句をクエリー(質問)として検索する際に、「文化」の共起トークンである「新しい」「伝統」「食」「形成」「発展」「あげる」・・・なども提示し、検索ユーザにあるトークン(例では「伝統」)を選択してもらえば、新たに加えられた検索条件に基づいて再検索することで、元のクエリーのみによる検索よりも検索結果の適合性を向上しようとするものである。
特許文献3に開示された装置は、例えば「ブックエンドは本を出し入れするとすぐに位置がずれてしまう」という文をクエリー(質問)として検索する際に、「対象」「手段」「用途」「課題」「目的・効果」のような観点も提示し、検索ユーザにある観点(例では「課題」)を選択してもらえば、その観点に応じてターム抽出し、重み付け、検索範囲を動的に変更して検索を実行することで、クエリーのみによる検索よりも検索結果の適合性を向上しようとするものである。
特許文献4及び特許文献5に開示された装置は、検索結果をより確認しやすい形態で検索者に提示することで、検索者がクエリー(質問)をより適切なものとすることを支援するものである。これにより、再検索時の適合性を向上しようとすることができる。
特許文献4に開示された装置は、文書構造解析及び文脈解析して得られた結果から求めた重要度に応じて検索結果が要約される。
特許文献5に開示された装置は、文書のタイトル情報から章立ての構造を解析する書式解析によって、検索ユーザの要求に応じて詳細度の変化させた要約文章を対話的に提示するものである。
特開2005−276213号公報 特開2005−31950号公報 特開2007−102723号公報 特開平7−182373号公報 特開平7−129605号公報
しかしながら、上述した特許文献1〜5に記載の技術は、以下のような問題が生じるおそれがある。
特許文献1に開示された方法では、多数の利用者を対象に、かつ多数の利用者が関心を持つようなトピックに限定されるものであった。また、特許文献2に開示された方法は、あらかじめ共起トークンが用意されているような、よく質問に用いられる語句を使用して検索しているような場合には機能するが、限定された分野でのみ用いられる専門用語や新造語を主体にして質問を構成してしまったりすると、ほとんど機能しなくなってしまうといった問題があった。
例えば、ATMと略された名の建物の写真をみるなどして、ふと興味を引かれて、「何の建物なのか」「どこにあるのか」「正式な名称は何なのか」などを知りたいと考え、「ATM」というキーワードをインターネット上の文書類を検索したとする。
この場合、特許文献1に記載の技術の場合、多数の利用者が関心を持つようなトピックを検索するものであるので、特許文献1の技術を適用しても、上記のような「ATM」という身近でない建物を検索することができない。
特許文献2に記載の技術の場合、検索対象である「ATM」について、「何の建物なのか」「どこにあるのか」「正式な名前は何なのか」という共起トークンが設定されている必要がある。しかし、それほど身近でない「ATM」という建物についてまで共起トークンを設定するとは困難である。
特許文献3に記載の技術の場合、「ATM」という建物が、例えば、「ただ知りたいだけ」のような観点が用意されているとは期待できないし、そのような観点が追加されたとしてもそれによって検索精度が向上するとは考えにくい。
特許文献4及び特許文献5に記載の技術の場合、仮に検索が成功しても、「ATM」というキーワードで検索した結果、得られた文書がいかに明快に要約できたとしても、その結果にターゲットである「ATM」が含まれていなければ、この検索者にとっては意味がない。
そのため、非常に専門的、限定的な内容を求める検索者であっても、ごく簡単なキーワードから検索を始めて、その後は何らキーワードや付加情報を入力することなく、求める情報を検索することができる情報検索システムが求められている。
かかる課題を解決するために、第1の本発明のワード提示システムは、(1)情報検索に係る入力ワードを取り込み、この入力ワードを含む1又は複数の情報を検索する情報検索手段と、(2)情報検索手段により検索された各検索結果の素性を解析し、その素性の組み合わせに基づいて各検索結果の情報内容を判断し、情報内容に応じて各検索結果を分類する検索結果分類手段と、(3)検索結果分類手段により分類された各グループの検索結果に基づいて、各グループの分類を特徴付ける1又は複数の特徴ワードを選出する特徴ワード選出手段と、(4)特徴ワード選出手段により選出された各グループの各特徴ワードを検索者に向けて提示する特徴ワード提示手段とを備えることを特徴とする。
第2の本発明の情報検索システムは、(1)情報検索に係る入力ワードを取り込み、この入力ワードを含む1又は複数の情報を検索する情報検索手段と、(2)情報検索手段により検索された検索結果に基づいて、グループ化された検索結果の1又は複数の特徴ワードを検索者に提示する第1の本発明のワード提示システムであるワード提示手段と、(3)検索者により選択されたグループの各特徴ワードを受け取り、当該グループの各特徴ワードを入力ワードとして情報検索手段に情報検索させるワード再構成手段とを備えることを特徴とする。
第3の本発明のワード提示方法は、情報検索手段、検索結果分類手段、特徴ワード選出手段及び特徴ワード提示手段を備え、(1)情報検索手段が、情報検索に係る入力ワードを取り込み、この入力ワードを含む1又は複数の情報を検索する情報検索工程と、(2)検索結果分類手段が、情報検索手段により検索された各検索結果の素性を解析し、その素性の組み合わせに基づいて各検索結果の情報内容を判断し、情報内容に応じて各検索結果を分類する検索結果分類工程と、(3)特徴ワード選出手段が、検索結果分類手段により分類された各グループの検索結果に基づいて、各グループの分類を特徴付ける1又は複数の特徴ワードを選出する特徴ワード選出工程と、(4)特徴ワード提示手段が、特徴ワード選出手段により選出された各グループの各特徴ワードを検索者に向けて提示する特徴ワード提示工程とを有することを特徴とする。
第4の本発明のワード提示プログラムは、コンピュータを、(1)情報検索に係る入力ワードを取り込み、この入力ワードを含む1又は複数の情報を検索する情報検索手段、(2)情報検索手段により検索された各検索結果の素性を解析し、その素性の組み合わせに基づいて各検索結果の情報内容を判断し、情報内容に応じて各検索結果を分類する検索結果分類手段、(3)検索結果分類手段により分類された各グループの検索結果に基づいて、各グループの分類を特徴付ける1又は複数の特徴ワードを選出する特徴ワード選出手段、(4)特徴ワード選出手段により選出された各グループの各特徴ワードを検索者に向けて提示する特徴ワード提示手段として機能させるものである。
本発明によれば、非常に専門的、限定的な内容を求める検索者であっても、ごく簡単なキーワードから検索を始めて、その後は何らキーワードや付加情報を入力することなく求める情報を検索することができる
(A)第1の実施形態
以下、本発明のワード提示システム、方法及びプログラム、並びに情報検索システムの第1の実施形態について図面を参照して説明する。
(A−1)第1の実施形態の構成
図1は、第1の実施形態の情報検索システムの構成を示す構成図である。
図1において、第1の実施形態の情報検索システム1は、一次検索部11、検索結果分類部12、検索結果評価部13、検索結果要約部14、質問限定部15、使用例データベース16を少なくとも有するものである。
一次検索部11は、ネットワーク上に存在する、文書、資料、データ等のWeb情報から、検索キーワードを含む1又は複数のWeb情報を検索するものである。この検索キーワードは、検索者であるユーザから取り入れたクエリーである。また、一次検索部11は、検索した検索結果を検索結果分類部12に与えるものである。
一次検索部11による情報検索方法は、特に限定されるものではなく、既存のネットワーク検索エンジン技術を広く適用することができる。また、第1の実施形態では、ネットワーク上の情報を検索する場合を例示するが、データベースに格納される情報を検索する場合にも同様に適用できる。
検索結果分類部12は、一次検索部11により検索された検索結果に基づいて、検索した情報内容が近いものを判断して、その情報内容に応じて検索結果をグループに分類するものである。また、検索結果分類部12は、その分類したグループを検索結果評価部13に与えるものである。
検索結果評価部13は、検索結果分類部12により分類された各グループ毎の各情報の内容の同一性又は類似性を判断し、同一又は類似する情報が複数個ある場合、これら情報が単一の情報となるように併合し、出現する用語の度数を1個の結果分に調整するものである。また、検索結果評価部13は、各グループ毎に調整した検索結果を検索結果要約部14に与えるものである。
検索結果要約部14は、検索結果評価部13によって調整された各グループの検索結果を受け取ると、各グループを特徴付けるキーワードを抽出し、そのキーワードに基づいて出力用の検索結果要約を生成するものである。また、検索結果要約部14は、各グループ毎に抽出したキーワードと生成した検索結果要約とを質問限定部15に与えるものである。
質問限定部15は、検索結果要約部14から各グループ毎のキーワードと検索結果要約とを受け取り、グループ毎の検索要約結果をユーザに提示するものである。また、質問限定部15は、グループ毎の検索要約結果を提示したユーザからの応答又は反応を解析し、当該ユーザが否定的な選択(以下では「排除」ともいう)した検索結果のグループと、肯定的な選択(以下では「選択」ともいう)した検索結果のグループとを特定するものである。さらに、質問限定部15は、ユーザにより選択されたグループのキーワードを入力キーワードとして再構成し、これらのキーワードを一次検索部11又は検索結果分類部12に与えて、ユーザが希望する検索情報を検索させるものである。
(A−2)第1の実施形態の動作
以下では、検索者であるユーザが入力したクエリーに基づいて、ネットワーク上から情報を検索する情報検索処理について図面を参照しながら詳細に説明する。
図2は、第1の実施形態の情報検索処理を示すフローチャートである。
まず、検索者であるユーザが入力したクエリーは一次検索部11に与えられ、一次検索部11は、ネットワーク上に存在するWeb情報から、入力クエリーにマッチする情報を検索する(ステップS101)。
例えば、検索者が「ATM」という建物について検索しようと考え、「ATM」をクエリーとして入力するものとする。そうすると、一次検索部11は、入力クエリー「ATM」をキーワードとして、ネットワーク上のWeb情報から情報検索を行う。
図3は、一次検索部11により検索された検索結果を示す図である。図3では、一次検索部11により多数の利用者によりヒット件数が多いものから順に検索結果を得たものである。図3では、ビット件数が多いものから取得するので、この検索結果には検索者であるユーザが希望する「ATM」という建物に関する情報はない。
次に、一次検索部11により検索された検索結果のうち上位から所定数の情報を対象として、検索結果分類部12により検索結果の分類処理が行われる(ステップS102)。
例えば、検索結果分類部12は、一次検索部11により検索された検索結果のうち、上位から所定数の検索結果を分類対象とする。このとき、分類対象とする検索結果の数は、システム運用に応じて任意に定めることができ、例えば、100件、500件、1000件等とすることができる。
検索結果分類部12は、分類対象であるそれぞれの検索結果を構成する情報を素性とし、それら情報から同一又は類似する情報を含む検索結果を同じグループとして分類する。
ここで、検索結果分類部12による分類方法としては、種々の方法を適用することができ、例えば、文献1(工藤拓、松本裕治、“Support Vector Machineを用いたChunk同定”自然言語処理、Vol.9.No.5、pp3-22(2002))に記載のSVM(Support Vector Machine)を用いたChunk同定方法や、文献2(高野明彦、西岡伸吾、丹羽芳樹他、“汎用連想計算エンジンの開発と大規模文書分析への応用”、IPA、2001年度成果報告集)に記載の分類方法を適用することができる。
図3に示す検索結果を用いて検索結果を分類する処理を図4を参照しながら説明する。例えば、図3の1)の検索結果は、「現金自動預け払い機−Wikipedia現金自動預け払い機(げんきん じどうあずけはらいき、ATM、Automated Teller Machine)は、通常、紙幣(及び硬貨)、通帳、磁気カード等の受け入れ口、支払い口を備え、金融機関や貸金業者、現金出納を行う業者の提供サービスが、…ja.wikipedia.org/wiki/現金自動預け払い機-47k-キャッシュ-関連ページ」である(図4(A)参照)。
検索結果分類部12は、図3の1)の検索結果を構成する単語を解析すると図4(B)に示すような結果を得る。1)の検索結果において、単語「現金自動預け払い機」は3回出現しており、また平仮名であるが「げんきん じどうあずけはらいき」も1回出現しており、更に英字であるが「Automated Teller Machine」も1回出現している。そうすると、検索結果分類部12は、当該検索結果の素性は、「現金自動預け払い機」であると判断する。
同様にして、検索結果分類部12は、図3の2)の検索結果についても素性を解析し、この2)の検索結果も、1)の検索結果と同じ「現金自動預け払い機」を素性に持つものであると判断する。そうすると、検索結果分類部12は、1)の検索結果と2)の検索結果を同じグループにグルーピングする。
他の検索結果についても同様にして行い、検索結果分類部12は、分類対象の検索結果を複数のグループに分類する。
なお、検索結果の分類方法については、上記の例で示した方法に限定されるものではない。例えば、予め単語意味や単語の組み合わせに応じて分類ルールを作成しておき、この分類ルールを参照しながら、検索結果を分類する方法も適用し得る。
検索結果分類部12により検索結果が複数のグループに分類されると、検索結果評価部13は、各グループにおいて、内容が類似する検索結果については、単一の情報であるように併合処理を行う(ステップS103)。
ここで、検索結果評価部13による各グループでの検索結果の併合処理としては、例えば、検索結果を構成する各キーワードのうち出現頻度が閾値以上の特徴キーワードが同一又は類似する場合、検索結果において最初に出現する単語が同一である場合、検索結果のURLが同一又は類似する場合、これら複数の検索結果は同一又は類似のものであるとみなす。
検索結果評価部13が複数の検索結果を併合する際に、検索結果評価部13は、複数の検索結果を単純に結合して、大きな文書とする。
また、別の併合の仕方としては、検索結果評価部13は、併合する複数の検索結果の中から1個の検索結果を候補として選出する。この候補の選出方法としては、検索上位に位置する検索結果を選出したり、任意に選択した検索結果を選出したりするなど広く適用することができる。
例えば、図5は、検索結果評価部13による各グループにおける検索結果の併合処理を説明する説明図である。
図5(A)では、同一グループである図3の8)及び9)の検索結果を示す。図5(A)において、検索結果評価部13が、8)及び9)の検索結果のそれぞれの単語を解析すると、8)及び9)のいずれの検索結果の先頭に位置する単語が「○○コンビニ銀行」であり同一であると判断する。また、検索結果評価部13は、8)の検索結果のURLである単語が「www.○○konbinibank.co.jp/atm/index.html」であり、9)の検索結果のURLである単語が「www.○○konbinibank.co.jp」であり、「www.○○konbinibank.co.jp」部分が同じであるから、8)の検索結果と9)の検索結果は類似すると判断する。
その結果、検索結果評価部13は、同一グループである図3の8)の検索結果と9)の検索結果は、同一の検索内容であると判定する。そして、検索結果評価部13は、検索上位に位置する図3の8)の検索結果を選出し、図3の9)の検索結果を削除する。
また、別の併合処理としては、以下のような処理例を適用することができる。以下では、各グループにおける、複数の文書を順次結合させていき、特定キーワードの出現頻度が閾値を超える場合、これら複数の文書を併合するという方法である。
例えば、第1の例としては、検索結果評価部13により、複数の検索結果が単純に合成され、大きな文書が生成された場合、その合成された文書に対して、再度キーワードの特定処理を行う。そして、各キーワードの出現頻度を求め、出現頻度が閾値を超えるとき、これら文書を併合する。
また第2の例としては、特定されたキーワードの出現頻度を各キーワード毎に合計し、その併合した検索結果数で除して、この併合した文書における各キーワードの出現頻度を求める。これにより、結合した文書における特定キーワードの出現頻度の平均を求めることができる。そして、特定キーワードの出現頻度の平均値が閾値を超えるとき、これら文書を併合する。
更に第3の例としては、句読点や改行を利用して、文書を文や行等の小さな単位に区切り、併合する文書間で共通して現れる文や行は1つにしながら、併合する文書の文や行を結合して、大きな文書を生成し、その結合した文書に対して再度キーワードの特定、出現頻度の計数等の処理を行う。そして、特定キーワードの出現頻度が閾値を超えるとき、これら文書を併合する。
このようにして、検索結果評価部13により各グループ毎に検索結果の併合がなされると、検索結果要約部14により、各グループ毎の検索結果について要約処理を行う(ステップS104)。
ここで、まず、検索結果要約部14は、各グループの情報内容を特徴付けるキーワード抽出を行う。
このとき、検索結果要約部14は、各グループに属する検索結果を構成するキーワードの出現頻度を求める。そして、各キーワードの出現頻度の高いものを、当該グループを特徴付ける特定のキーワードであるとする。
次に、検索結果要約部14は、使用例データベース16に当該特定キーワードを含む使用例があるか否かを検索する。図6は、検索結果要約部14による使用例の検索処理を説明するフローチャートである。
図7は、使用例データベース16の構成例を示す構成図である。図7に示すように、使用例データベース16は、「キーワード」と「使用例」の項目を有して構成される。「キーワード」には、1又は複数のキーワードが格納される。「使用例」には、対応する「キーワード」に格納される1又は複数のキーワードを含む使用例が格納される。
この使用例データベース16は、例えば、大規模な文書データベースやインターネットから、キーワードを含む使用例を検索し、その結果として、キーワードと使用例とを対応付けて格納したデータベースである。あらかじめ格納したデータベースに対象とするキーワードが含まれていなかった場合、あるいはキーワードは含まれていても対応する使用例の数が予め定めた閾値未満の場合、そのキーワードを含む使用例を検索して、閾値以上の数の使用例を収集する構成が望ましい。
例えば、グループから「銀行」、「店舗」という特定キーワードが抽出されると、検索結果要約部14は、この特定キーワード「銀行」、「店舗」を含む使用例が使用例データベース16に閾値以上か否かを判断し(ステップS201)、閾値以上の場合(すなわち、十分ある場合)、当該特定キーワード「銀行」、「店舗」を含む使用例「銀行の店舗に」を取り出す(ステップS202)。
このとき、使用例データベース16において、あるキーワードに対する使用例が比較的少ない場合(例えば、使用例数が閾値未満の場合)や、複数のキーワードを含む使用例が得られていない場合(例えば、単独キーワードの場合)、そのキーワードを含むだけで、かつ当該グループ以外のグループを特徴づけるキーワードを含まない使用例を抽出する処理を加えてもよい。
例えば、図7に示すように、単独キーワード「店舗」だけを含む場合には、このキーワードと特徴的でないキーワードを含む使用例として「店舗のご案内」という使用例を格納しておき、この使用例を抽出するようにする。
また、当該グループについて抽出した使用例が他のグループの使用例と異なる場合、当該グループの使用例は他のグループを特徴付けるワードであるとする。すなわち、他のグループにおいても抽出された特定キーワードは、グループ毎の特徴を示すものでないので、特徴付けないキーワードについては破棄する(ステップS204)。これを全ての特定キーワードについて行い(ステップS205)、当該グループを特徴付ける使用例を抽出する。
なお、使用例データベース16に各グループの特定キーワードを「キーワード」とする使用例が閾値未満の場合(すなわち、十分ない場合)、検索結果要約部14は、使用例データベース16の格納情報を作成することができる。この場合、例えば、検索結果要約部14は、大規模データベースから当該キーワードを含むワードを検索し(ステップS206)、そのワードを使用例として使用例データベースに追加する(ステップS207)。
以上のようにして、検索結果要約部14は、抽出した使用例をリスト化した検索結果である要約と特定キーワードを質問限定部15に出力する。
ここで、検索結果要約部14は、検索結果要約の生成・出力の際、キーワード又は使用例の出現度数に応じた順序に、使用例を並び替えて出力するようにしてもよい。
具体的には、例えば、使用例データベース16に使用例を収録する際、その収録時における使用例の出現度数を保持したり、又は当該使用例に含まれるキーワード個別の出現度数を所定の重み付けを用いて合算した重み付け値を保持しておく。そして、これら使用例の出現度数や複数のキーワードの出現度数の合算値に応じた優先度に応じて、使用例の順序を並び替えたリストを質問限定部15に出力するようにしてもよい。
なお、検索結果要約部14による各グループ毎の要約処理の具体的な処理としては、この他にも種々の方法を適用することができる。例えば、文献3(森辰則、田村直良,“情報検索結果の知的提示のための自動要約ならびにインタフェースに関する研究”、文部科学省 科学研究費補助金 特定領域研究「ITの進化の基盤を拓く情報額研究」、平成17年度報告)に記載される要約処理を適用することができる。
質問限定部15は、検索結果要約部14から各グループの要約を取得すると、その各グループの要約をユーザに対して提示する(ステップS105)。
ここで、質問限定部15は、検索結果要約部14により生成された要約を提示するが、この要約を提示する利点について説明する。質問限定部15の提示方法としては、種々の方法を適用でき、例えば音声やテキストで要約をユーザ提示することができる。
例えば、要約として孤立した「店舗」を音声合成システムにより提示する場合、使用例データベース16において、キーワード「てんぽ」には「店舗」と「テンポ」が格納されているとする。この場合、従来のように、キーワード「てんぽ」をユーザに提示する際、「てんぽ」を音声出力しても、ユーザは「店舗」であるか「テンポ」であるか分からない。これに対して、第1の実施形態では、「銀行の店舗に」等のように使用例を出力するから、ユーザはキーワードが「店舗」であることが容易に理解できる。
また、テキストで文字表示する場合でも、孤立したキーワードの羅列として提示されると、例えばキーワード「店頭」がキーワード「株式」と並んで提示されると、「店頭」が取引所を介していない店頭取引を意味して、具体的な場所としての店頭の意味を失うようなおそれもあるが、第1の実施形態によれば、冗長を持たせた使用例による要約であれば、この問題を解消できる。
質問限定部15は、ユーザに検索結果要約部14からの検索結果の要約を提示する。第1の実施形態では、例えば、音声合成システムを利用する場合に適用できる。また例えば携帯電話機等のように狭い表示域に文字表示する場合等には逐次的に提示する。また例えば、広い表示域に文字表示する場合には一括して提示する。
質問限定部15は、提示した検索結果の要約に対する検索者からの応答/反応を解析し、検索者の否定的な選択(これを排除という)した検索結果のグループと、肯定的な選択(これを単に選択という)した検索結果のグループを特定する(ステップS106)。
質問限定部15は、検索結果要約部14が抽出したキーワードを基に、ユーザからのクエリーを再構築して一次検索部11に出力する(ステップS107)。
このとき、質問限定部15は、ユーザにより排除された検索結果のグループを特徴付けるキーワードと、ユーザにより選択された検索結果のグループを特徴付けるキーワードとを区別する。
この区別する方法としては、例えば、排除された検索結果のグループを特徴付けるキーワードには、「−」を付与する。
例えば、第1の実施形態の場合、ユーザが求める「ATM」が「現金自動預け払い機」や「非同期転送モード」でないとすると、「現金自動預け払い機」や「非同期転送モード」のグループを特徴付けるキーワードには「−」が付与される。従って、質問限定部15が、クエリーを再構成すると「ATM −銀行、−現金、−店舗、−非同期、−転送」というクエリーが作成される。
そして、一次検索部11が、この再構成されたクエリーを用いて、ステップS101に戻って再び検索処理を行う。図8は、一次検索部11が、再構成されたクエリーを用いてサイド検索した検索結果を示す。
そして、ステップS102〜S103の処理が繰り返し行われると、検索結果分類部12は、図9に示すように、「ART TOWER MITO」のグループを分類する。そして、ステップS104〜S105の処理により、検索結果要約部14は、このグループを特徴付けるキーワードとして「コンサートホール」、「水戸」、「ART TOWER MITO」等を抽出する。
このようにすることで、情報検索のためのキーワードが思いつかない場合であっても、ユーザは提示されたグループを選択するだけで、適切なキーワードを見つけ出すことができるので、情報検索に係る作業を大幅に軽減することができる。
ステップS106において、検索を求めるグループがない場合、ユーザはその旨(排除)を質問限定部15に与え、ステップS101に戻り処理を繰り返す。このとき、前回の検索結果の分類対象とならなかった情報を分類対象とする。例えば、前回の分類対象を上位100件とした場合、今回は、前回の分類対象としなかった上位101から200件までの情報を分類対象とする。
また、ユーザ(検索者)が専門的、限定的な用語の内容を知りたい場合には、以下のようにすることで実現できる。
例えば、検索結果分類部12が、上述した分類処理により、図10に示す2つのグループを分類したものとする。
検索結果要約部14は、両グループに共通する「用語辞典」や「非同期」等ではなく、専門的、限定的なキーワードを抽出する。例えば、図10の5)から、「A… Type Manager」というキーワードを抽出し、図10の6)から「ペイロード」、「仮想チャネル」等を抽出するものとする。
検索結果要約部14及び質問限定部15が上述したステップS105〜S107の処理を行うと、「非同期転送モード」の技術的な内容に関する情報を検索することができる。これにより、専門的、限定的な内容(例えば、「非同期転送モード」という技術的な内容)を求める検索者も、第1回目の「ATM」というキーワード以外に何らキーワードを入力することなく、所望情報を取得できる。
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、検索者がクエリーとして適切な組み合わせのキーワードの組を考え出すという非常に負荷の高い作業を大幅に軽減することができる。
(B)他の実施形態
(B−1)第1の実施形態では、特定の目的を持った検索者に対する検索システムに適用した場合を例に説明したが、明確な目的が決まっていない使用者に対して、使用者の反応に合わせて話題を提供するような構成をすることで、対話システムとしても適用可能である。
また、ネットワーク上の情報としては、テキストデータ、画像データ、動画像データ、音データ等を検索対象データとすることができる。
(B−2)第1の実施形態で説明した情報検索システムが実現する各種構成要件の機能はソフトウェア処理により実現されるものである。例えば、ハードウェア構成として、例えばCPU、ROM、RAMなどを有して構成されるものであって、各種構成要件の機能は、CPUが、ROMに格納される処理プログラムを、処理に必要なデータを用いて実行することにより実現されるものである。
(B−3)第1の実施形態で説明した情報検索システムは、物理的に同一の装置に搭載されることに限定されるものではなく、各種構成要件が分散的な装置に搭載されるようにしてもよい。すなわち、各種構成要件が、分散配置されてもよい。
また、言語は、日本語に限定されず、英語、中国語などの外国語に広く適用できる。
第1の実施形態の情報検索システムの構成を示す構成図である。 第1の実施形態の情報検索処理を示すフローチャートである。 第1の実施形態の一次検索処理により検索された検索結果の例を示す図である。 第1の実施形態の検索結果の分類処理を説明する説明図である。 第1の実施形態の検索結果の併合処理を説明する説明図である。 第1の実施形態の使用例の抽出処理を示すフローチャートである。 第1の実施形態の使用例データベースの格納情報の構成例を示す構成図である。 第1の実施形態の一次検索処理により再検索された検索結果の例を示す図である。 第1の実施形態の再構成された検索結果の分類処理された検索結果の例を示す図である。 第1の実施形態の検索結果分類部により分類された検索結果の例を示す図である。
符号の説明
1…情報検索システム、11…一次検索部、12…検索結果分類部、13…検索結果評価部、14…検索結果要約部、15…質問限定部、16…使用例データベース。

Claims (6)

  1. 情報検索に係る入力ワードを取り込み、この入力ワードを含む1又は複数の情報を検索する情報検索手段と、
    上記情報検索手段により検索された各検索結果の素性を解析し、その素性の組み合わせに基づいて各検索結果の情報内容を判断し、情報内容に応じて各検索結果を分類する検索結果分類手段と、
    上記検索結果分類手段により分類された各グループの検索結果に基づいて、各グループの分類を特徴付ける1又は複数の特徴ワードを選出する特徴ワード選出手段と、
    上記特徴ワード選出手段により選出された各グループの各特徴ワードを検索者に向けて提示する特徴ワード提示手段と
    を備えることを特徴とするワード提示システム。
  2. 上記検索結果分類手段が、
    上記各グループに分類された各検索結果の同一性又は類似性を上記グループ毎に判断する同一類似判断部と、
    上記同一類似判断部により同一性又は類似性があると判断された複数の検索結果を単一の検索結果に併合する検索結果併合部と
    を有することを特徴とする請求項1に記載のワード提示システム。
  3. 上記特徴ワード選出手段が、
    予め設定された、複数の特徴ワードと、上記各特徴ワードに関連する複数の関連ワードとが対応付けられた特徴ワード記憶部と、
    上記各グループに分類された検索結果から1又は複数のキーワードを抽出し、抽出された各キーワードを上記関連ワードにもつ特徴ワードを取得する特徴ワード取得部と
    を有することを特徴とする請求項1又は2に記載のワード提示システム。
  4. 情報検索に係る入力ワードを取り込み、この入力ワードを含む1又は複数の情報を検索する情報検索手段と、
    上記情報検索手段により検索された検索結果に基づいて、グループ化された検索結果の1又は複数の特徴ワードを検索者に提示する請求項1〜3のいずれかに記載のワード提示システムであるワード提示手段と、
    検索者により選択されたグループの各特徴ワードを受け取り、当該グループの各特徴ワードを入力ワードとして上記情報検索手段に情報検索させるワード再構成手段と
    を備えることを特徴とする情報検索システム。
  5. 情報検索手段、検索結果分類手段、特徴ワード選出手段及び特徴ワード提示手段を備え、
    情報検索手段が、情報検索に係る入力ワードを取り込み、この入力ワードを含む1又は複数の情報を検索する情報検索工程と、
    上記検索結果分類手段が、上記情報検索手段により検索された各検索結果の素性を解析し、その素性の組み合わせに基づいて各検索結果の情報内容を判断し、情報内容に応じて各検索結果を分類する検索結果分類工程と、
    上記特徴ワード選出手段が、上記検索結果分類手段により分類された各グループの検索結果に基づいて、各グループの分類を特徴付ける1又は複数の特徴ワードを選出する特徴ワード選出工程と、
    特徴ワード提示手段が、上記特徴ワード選出手段により選出された各グループの各特徴ワードを検索者に向けて提示する特徴ワード提示工程と
    を有することを特徴とするワード提示方法。
  6. コンピュータを、
    情報検索に係る入力ワードを取り込み、この入力ワードを含む1又は複数の情報を検索する情報検索手段、
    上記情報検索手段により検索された各検索結果の素性を解析し、その素性の組み合わせに基づいて各検索結果の情報内容を判断し、情報内容に応じて各検索結果を分類する検索結果分類手段、
    上記検索結果分類手段により分類された各グループの検索結果に基づいて、各グループの分類を特徴付ける1又は複数の特徴ワードを選出する特徴ワード選出手段、
    上記特徴ワード選出手段により選出された各グループの各特徴ワードを検索者に向けて提示する特徴ワード提示手段
    として機能させるワード提示プログラム。
JP2008050430A 2008-02-29 2008-02-29 ワード提示システム、方法及びプログラム、並びに情報検索システム Pending JP2009211124A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008050430A JP2009211124A (ja) 2008-02-29 2008-02-29 ワード提示システム、方法及びプログラム、並びに情報検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008050430A JP2009211124A (ja) 2008-02-29 2008-02-29 ワード提示システム、方法及びプログラム、並びに情報検索システム

Publications (1)

Publication Number Publication Date
JP2009211124A true JP2009211124A (ja) 2009-09-17

Family

ID=41184259

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008050430A Pending JP2009211124A (ja) 2008-02-29 2008-02-29 ワード提示システム、方法及びプログラム、並びに情報検索システム

Country Status (1)

Country Link
JP (1) JP2009211124A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339756A (zh) * 2016-08-25 2017-01-18 北京百度网讯科技有限公司 训练数据的生成方法、搜索方法以及装置
JP6094937B1 (ja) * 2016-09-30 2017-03-15 剛一 尾和 特許文献集合のスクリーニング方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145270A (ja) * 1997-07-28 1999-02-16 Just Syst Corp 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11213000A (ja) * 1998-01-29 1999-08-06 Nippon Telegr & Teleph Corp <Ntt> インタラクティブ情報検索方法及び装置及びインタラクティブ情報検索プログラムを格納した記憶媒体
JP2006146802A (ja) * 2004-11-24 2006-06-08 Mitsubishi Electric Corp テキストマイニング装置およびテキストマイニング方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145270A (ja) * 1997-07-28 1999-02-16 Just Syst Corp 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11213000A (ja) * 1998-01-29 1999-08-06 Nippon Telegr & Teleph Corp <Ntt> インタラクティブ情報検索方法及び装置及びインタラクティブ情報検索プログラムを格納した記憶媒体
JP2006146802A (ja) * 2004-11-24 2006-06-08 Mitsubishi Electric Corp テキストマイニング装置およびテキストマイニング方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339756A (zh) * 2016-08-25 2017-01-18 北京百度网讯科技有限公司 训练数据的生成方法、搜索方法以及装置
CN106339756B (zh) * 2016-08-25 2019-04-02 北京百度网讯科技有限公司 训练数据的生成方法、搜索方法以及装置
JP6094937B1 (ja) * 2016-09-30 2017-03-15 剛一 尾和 特許文献集合のスクリーニング方法

Similar Documents

Publication Publication Date Title
US7783644B1 (en) Query-independent entity importance in books
US9323827B2 (en) Identifying key terms related to similar passages
Gupta et al. A survey of text question answering techniques
CA2774278C (en) Methods and systems for extracting keyphrases from natural text for search engine indexing
TWI695277B (zh) 自動化網站資料蒐集方法
US20040098385A1 (en) Method for indentifying term importance to sample text using reference text
EP2307951A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
JP3921837B2 (ja) 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
Guo et al. An opinion feature extraction approach based on a multidimensional sentence analysis model
Kang Transactional query identification in web search
Lim et al. Automatic genre detection of web documents
JP4525433B2 (ja) 文書集約装置及びプログラム
JP5315726B2 (ja) 情報提供方法、情報提供装置、および情報提供プログラム
JP2009211124A (ja) ワード提示システム、方法及びプログラム、並びに情報検索システム
WO2010103916A1 (ja) 文書の特徴語提示装置及び特徴語の優先度付与プログラム
JP2007293377A (ja) 主観的ページと非主観的ページを分離する入出力装置
JP4649731B2 (ja) 文書要約システム及び文書要約方法
Sushmita et al. Using digest pages to increase user result space: Preliminary designs
Kumar et al. Generating personalized summaries using publicly available web documents
JP2013084216A (ja) 定型文判別装置及び定型文判別方法
JP2003316807A (ja) 情報検索装置及び情報検索ソフトウェアを格納した記憶媒体
JP3799447B2 (ja) 文書検索処理方法および文書検索システム
JP3861105B2 (ja) 質問応答システム
Sengupta et al. Semantic thumbnails: a novel method for summarizing document collections
JPH1145255A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100713

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101109