JP6381775B2

JP6381775B2 - 情報処理システム及び情報処理方法

Info

Publication number: JP6381775B2
Application number: JP2017501757A
Authority: JP
Inventors: 利昇三好; 潔人伊藤; 石井　智之; 智之石井; 峰雄千田; 嘉治永島
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2015-02-25
Filing date: 2015-02-25
Publication date: 2018-08-29
Anticipated expiration: 2035-02-25
Also published as: JPWO2016135905A1; WO2016135905A1; US20180039633A1; US10671619B2

Description

本発明は、ユーザに情報を提示する技術に関する。

ユーザが求める情報を提示する方法として、ユーザに単語又はフレーズ等のキーワードの入力を求め、そのキーワードに関連の深いドキュメント、Ｗｅｂページ、文章の一部、写真、音声、又は製品情報などを提示する情報検索方法は、大量の文書又は画像等のメディア情報の中から、ユーザが求める情報を抽出するために広く用いられている。また、ユーザが入力したキーワードだけでなく、その同義語及びそれと関連の深い語を含む情報も検索対象とする類似検索及び連想検索などの技術がある。

また、ユーザの行動履歴（製品の購買履歴や、映画等の視聴履歴等）に基づいて、その行動履歴と類似した行動をとっている他のユーザの履歴をもとに、ユーザが求める情報を推定し、提示する方法は、リコメンド技術として広く用いられており、特に、協調フィルタリングなどの手法が用いられている。

"A survey of collaborative filtering techniques", Advances in Artificial Intelligence Volume 2009, January 2009, Article No. 4

ユーザが求める情報を提示する方法として、ユーザが過去に行った参照又は検索等の履歴情報に基づいて、ユーザが所望する情報（製品等）を推定し、提示するリコメンド技術があるが、これを実現するためには予めユーザの履歴情報を取得しておく必要がある。そのため、履歴情報が少ない場合及び取得できない場合には、適用できない。また、履歴情報を保存しておく必要があるため、個人情報保護の観点から、これらの手法を適用できないケースがある。

上記の課題を解決するために、本発明の一態様は、複数の対象の各々と複数の評価表現とを対応付ける評価データ、及び、前記評価表現間の関係を示す評価表現関係データを格納する記憶部と、複数の文書データから前記複数の対象の各々に対応する前記評価表現を抽出して前記評価データを生成する評価表現抽出部と、前記複数の文書データから前記評価表現間の関係を推定して前記評価表現関係データを生成する評価表現関係データ生成部と、前記評価データ及び前記評価表現関係データに基づいて質問を生成して出力する質問生成部と、前記質問に対する回答が入力されると、前記回答に基づいて前記評価データに含まれる前記対象の情報を出力するマッチング部と、を有することを特徴とする。

本発明の一態様によれば、ユーザの履歴情報が少ない場合又は取得できない場合にも、ユーザが所望する情報を検索し、提示することができる。上記以外の課題、構成及び効果は、以下の実施形態の説明によって明らかにされる。

本実施例の情報提示システムの一例を示す機能ブロック図である。本実施例の情報提示システムを構成する計算機の一例を示すブロック図である。本実施例のデータ収集部が実行する処理の一例を示すフローチャートである。本実施例の評価表現抽出部が実行する処理の一例を示すフローチャートである。本実施例のデータ収集部が収集したデータの一例の説明図である。本実施例の個別評価ＤＢに含まれるデータの一例の説明図である。本実施例の表現マップ生成部が実行する処理の一例を示すフローチャートである。本実施例の表現マップ生成部が収集した評価表現の一例の説明図である。本実施例の質問応答システムが実行する処理の一例を示すフローチャートである。本実施例の質問応答生成部が生成する質問用の評価表現候補リストの一例の説明図である。本実施例の質問応答生成部が生成する、各評価表現に対して各対象の評価が当てはまるかどうかを示す情報の一例の説明図である。

情報提示システムの実施例について、図表を参照しながら説明する。本実施例の情報提示システムは、ユーザとの質問応答に基づいて、ユーザが求める情報を絞り込み、提示するシステムである。検索対象の情報は、文書、画像、音声、又はその他のデータなどである。

図２は、本実施例の情報提示システムを構成する計算機の一例を示すブロック図である。

本実施例の情報提示システムを構成する計算機２０１は、入力装置２０２、表示装置２０３、通信装置２０４、演算装置（ＣＰＵ）２０５、及び外部記憶装置２０６を備える。

入力装置２０２は、コマンド等を入力するためのキーボード及びマウス等である。入力装置２０２は、演算装置（ＣＰＵ）２０５で実行されるプログラムの制御、その他、接続機器の制御のために実行されるコマンド等を入力するための装置である。

表示装置２０３は、処理内容を適宜表示するディスプレイ等の装置である。

通信装置２０４は、ＰＣ又はサーバ等の外部機器からのデータのやりとりを行うために用いられる。詳細には、通信装置２０４は、外部機器からのユーザによる実行コマンドの取得、及び、画像又はテキストなどの情報の外部機器からの取得等の目的に用いられる。また、通信装置２０４は、計算機２０１での処理内容を外部機器に送信する等の目的にも用いられる。

演算装置（ＣＰＵ）２０５は、ユーザとの質問応答などの処理を実行する演算装置である。

外部記憶装置２０６は、ＨＤＤ又はメモリ等の外部記憶装置である。外部記憶装置２０７には、質問応答に必要なデータ及び検索対象となるデータなどが記憶されている。また、外部記憶装置２０６は、演算装置（ＣＰＵ）２０５によって実行される処理の途中で生成されるデータ等を一時的に記憶しておくためにも用いられる。

計算機２０１は、入力装置２０２、表示装置２０３及び通信装置２０４を備えなくてもよい。入力装置２０２が無い場合には、通信装置２０４を用いて外部機器からコマンド等が入力される。表示装置２０３が無い場合には、処理結果は通信装置２０４を用いて外部機器に送信される。

処理を実行するモジュールの出力と入力は、外部記憶装置２０６を介して行ってもよい。すなわち、処理部１（図示省略）が処理結果を処理部２（図示省略）に出力し、処理部２がその処理結果を入力として受け取る場合、実際には、処理部１が処理結果を外部記憶装置２０６に出力し記憶しておき、処理部２は、外部記憶装置２０６に記憶されている処理部１の出力結果を入力として取得してもよい。

次に、本実施例における情報提示システムによって実施される処理の説明に移る。

図１は、本実施例の情報提示システムの一例を示す機能ブロック図である。

本実施例の情報提示システムは、質問用知識データベース生成装置１０１、データベース１０７、質問応答システム１１２及びデータベース１１６を有する。質問用知識データベース生成装置１０１は、データ収集部１０２、評価表現抽出部１０３及び表現マップ生成部１０４を含む。データベース１０７は、収集データベース（ＤＢ）１０８、個別評価データベース（ＤＢ）１０９、評価表現マップ１１０及びドメイン知識データベース（ＤＢ）１１１を含む。質問応答システム１１２は、質問応答生成部１１３、ユーザ回答取得部１１５及びマッチング部１１４を含む。データベース１１６は、データベース１０７と同様の個別評価ＤＢ１０９、評価表現マップ１１０及びドメイン知識ＤＢ１１１を含む。

図１の情報提示システムは、一つ以上の計算機２０１によって実現される。例えば、質問用知識データベース生成装置１０１及びデータベース１０７が一つの計算機２０１によって実現され、それとネットワークを介して接続された別の計算機によって質問応答システム１１２及びデータベース１１６が実現されてもよい。その場合、データ収集部１０２、評価表現抽出部１０３、表現マップ生成部１０４、質問応答生成部１１３、ユーザ回答取得部１１５及びマッチング部１１４は、それぞれの計算機２０１の外部記憶装置２０６に格納されたプログラムを演算装置２０５が実行することによって実現され、データベース１０７及び１１６はそれぞれの計算機２０１の外部記憶装置２０６に格納される。

あるいは、図１の情報提示システムが一つ以上の計算機２０１によって実現されてもよい。その場合、質問用知識データベース生成装置１０１及び質問応答システム１１２の各部は一つの計算機２０１の外部記憶装置２０６に格納されたプログラムを演算装置２０５が実行することによって実現される。また、この場合、質問応答システム１１２がデータベース１０７を参照することによって、データベース１１６を省略することができる。

あるいは、データベース１０７が質問用知識データベース生成装置１０１及び質問応答システム１１２とは別の計算機２０１の外部記憶装置２０６に格納され、質問用知識データベース生成装置１０１及び質問応答システム１１２がネットワークを介してデータベース１０７の作成及び参照を行ってもよい。

本実施例の情報提示システムの構成は、上記の例に限られない。すなわち、本実施例の情報提示システムの任意の部分が、ネットワークに接続された計算機２０１によって実現されてもよいし、一つの計算機２０１を論理的に分割することによって生成された仮想計算機によって実現されてもよい。

次に、質問用知識データベース生成装置１０１及びデータベース１０７について説明する。ドメイン知識ＤＢ１１１は、予め作成しておくデータベースであり、テーマ（話題）となる対象に関する情報を含む。

ドメイン知識ＤＢ１１１について説明する。ここでは、旅行をテーマとした場合の例を説明する。ドメイン知識ＤＢ１１１は、例えば、旅行に関係する概念のオントロジーに関する情報を含んでいても良い。このような情報として、例えば、ｉｓ−ａ関係、ｐａｒｔ−ｏｆ関係、ｉｎｓｔａｎｃｅ−ｏｆ関係などに関する情報がある。例えば、ホテルが宿泊施設であるということは、「ホテルｉｓ−ａ宿泊施設」、温泉がホテルの設備の一部であることは、「温泉ｐａｒｔ−ｏｆホテル」、ホテルＡがホテル概念の具体的なインスタンスであることは、「ホテルＡｉｎｓｔａｎｃｅ−ｏｆホテル」などとあらわされる。これによって、概念間の関係と、各々の概念がもつ設備、概念の具体的なインスタンスなどに関する情報を整理しておく。オントロジーの形式以外の情報の整理の仕方を用いても良い。テーマに関する事前知識が予め人手または計算機による処理を用いてドメイン知識ＤＢ１１１として整備される。また、ドメイン知識ＤＢ１１１は、データ収集部１０２がテーマに関連するドキュメントを抽出、分類するための規則に関するデータなどを含んでいても良い。

データ収集部１０２は、処理の対象となる文書データ（例えばＷｅｂサイト、アンケート、又はその他の任意の種類のドキュメント類）を収集する。例えば、お勧めの旅行先を提示する場合には、データ収集部１０２は、ホテル、観光施設、交通機関等の商業施設、公共施設のホームページ、口コミ、地域情報、及びブログ等を収集する。顧客のアンケート情報等がある場合には、データ収集部１０２はそれらの情報も収集する。また、製品を提示する場合には、データ収集部１０２は製品に関連するサイトやドキュメント等を収集する。収集した情報は種別ごとに分類され、収集ＤＢ１０８に保存される。

データ収集部１０２の処理例について説明する。ここでは、旅行をテーマとして、ユーザに旅行先を提示することを想定し、Ｗｅｂ上からデータを収集する場合について説明する。

図３は、本実施例のデータ収集部１０２が実行する処理の一例を示すフローチャートである。

データ収集ステップ３０１において、データ収集部１０２は、例えば通信装置２０４に接続されたネットワークを介してＷｅｂをクローリングするなどして、情報を収集する。このとき、旅行の場合には、宿泊施設、レジャー施設、お土産物屋、レストラン、温泉等の商業施設、公民館、交通機関等の公共施設、および、それらに関して記載されている口コミサイト、ブログ、情報サイト、などが対象となる。図３では省略されているが、ドメイン知識ＤＢ１１１を使用してもよい。例えば、収集対象となるページが持つ特徴をドメイン知識ＤＢ１１１に予め保持しておき、それに基づいて、データ収集部１０２がページを収集する。ドメイン知識ＤＢ１１１には、例えば、旅行に関連するキーワードを多く含むサイト、商業施設であることを示す営業時間や料金などの情報があるサイト、などの特徴が保持されることが考えられる。

タグ付けステップ３０２において、データ収集部１０２は、それらのサイトに種別を示すタグを付加しておく。例えば、ホテル、温泉、デパートなど、施設の種別を示すタグ、所在地を示すタグ、口コミ、ブログ、オーナーサイト、など情報源の区別を示すタグなどが考えられる。タグ付けの規則についても、ドメイン知識ＤＢ１１１に保持しておく。このようにタグを付けておくことで、例えば、オーナーページよりも口コミ情報のほうが、より客観的な評価情報を得られるなど、ページの信頼性、客観性などを判定することができる。ページの信頼性などを数値化して、属性として保存しておいてもよい。

データ収集部１０２は、Ｗｅｂだけでなく、組織内のドキュメントなどからもデータを収集し、タグ付けしてもよい。データ収集部１０２が収集し、タグ付けしたデータは、収集ＤＢ１０８に保存される。

次に、評価表現抽出部１０３の説明に移る。評価表現抽出部１０３は、収集したデータから、「ホテルＡの温泉は景色がよくリラックスできる」などの評価表現を抽出し、その表現が評価の対象とするものと、その対象に対する評価表現、および、可能な場合には、評価者の属性を推定する。

なお、上記のような収集ＤＢ１０８の生成方法は一例であり、上記以外の方法で生成された収集ＤＢ１０８を用いても、後述する本実施例の処理を実行することができる。

図４は、本実施例の評価表現抽出部１０３が実行する処理の一例を示すフローチャートである。

図４を用いて、適宜、旅行がテーマの場合の例を挙げながら、評価表現抽出部１０３の処理を説明する。なお、ドメイン知識ＤＢ１１１は、必要に応じて参照されるが、図４では省略した。

レイアウト解析ステップ４０１において、評価表現抽出部１０３は、収集ＤＢ１０８に保存されているページ（ドキュメント）のレイアウトを解析する。また、ページのそれぞれの部分の意味を解析する。この解析の例を、図５を参照して説明する。

図５は、本実施例のデータ収集部１０２が収集したデータの一例の説明図である。

例を挙げて説明する。図５に示すページ５０１は、ホテルの口コミサイトなどのページの例である。ページ５０１の上部の部分５０２にはホテル名が含まれ、その下の部分５０３には口コミ全体の評価点数又はホテルに関する説明文などが含まれる。その下の部分５０４には、当該ホテルの個々の利用者によって書き込まれた当該ホテルの評価（いわゆる口コミ）が表示される。口コミごとに部分５０３に示すような評価点数が示されている場合もある。また、ページ５０１の右又は下に広告又は関連施設の情報が表示されるなど、様々なレイアウトがある。

レイアウト解析ステップ４０１において、評価表現抽出部１０３は、ページ５０１のレイアウトを解析し、各部の意味（部分５０２がタイトル、部分５０４が口コミ、部分５０３が説明文及び評価点数、など）を推定する。レイアウトを推定するための規則及びキーワードなどは予めドメイン知識ＤＢ１１１に保持されており、それを評価表現抽出部１０３が参照する。例えば、部分５０２がタイトルであることは、ページの上部にあること、フォントが大きいことから判断できる。また、このタイトルがホテル名であることは、「ホテルＡ」のようにホテルという単語が含まれていなくとも、ページの本文にホテルに関連する概念を表すキーワードがよく現れることなどから、判断することができる。これらの概念は、ドメイン知識ＤＢ１１１に保持されている。

また、部分５０３のような評価点数及び部分５０４のような評価文章が複数出現することから、このページが口コミサイトであることを推定できる。Ｗｅｂページの場合には、構造化されているため、ＨＴＭＬタグ等を用いることで、レイアウト構造を抽出することができる。一般のドキュメントの場合には、文書処理に用いられるレイアウト解析技術をレイアウト解析ステップ４０１に援用してもよい。

評価文章抽出ステップ４０２において、評価表現抽出部１０３は、レイアウト解析の結果、評価文章が記述されている部分を抽出する。上述の口コミサイトの例では、部分５０３または５０４に評価文章が記述されている。評価文章とは、「ＸＸはきれいだ」などのように何らかのものを評価する表現が含まれている文章である。ただし、評価の対象（この例では「ＸＸ」の部分）が明示されていない場合もある。評価は、形容詞で表現される場合が多いため、例えば、評価表現として用いられる形容詞のリストをドメイン知識ＤＢ１１１に予め保持しておき、その形容詞のいずれかを含む文章を抽出することによって評価表現を抽出することができる。また、形容詞で表現できない評価表現（「温泉ではとてもリラックスできた」など）があるため、構文解析結果に基づく評価表現の特徴（規則）を定めておいてもよい。あるいは極性解析技術を用いてもよい。

評価表現抽出ステップ４０３において、評価表現抽出部１０３は、評価文章抽出ステップ４０２で抽出した文章の中から、評価表現を抽出する。例えば、「ホテルＣは食事がおいしくて、ベッドも広いので、リラックスできます。露天風呂もあって、おすすめです。」という文章の例では、「おいしく」「広い」「リラックスできる」「おすすめ」が評価表現となる。

評価対象特定ステップ４０４において、評価表現抽出部１０３は、評価表現抽出ステップ４０３で抽出した評価表現の評価対象を抽出する。上記の例のように、「ホテルＣは食事がおいしくて」などの場合には、係り受け解析等によって、「ホテルＣの食事」が「おいしい」、と評価していることが分かる。ただし、上記の評価文章抽出ステップ４０２で説明した例のように、対象が文章中に明示されていない場合（たとえば、「ホテルＣは」が無い場合など）がある。このような場合には、評価表現抽出部１０３は、周辺情報から、評価対象を推定する。例えば、口コミサイトの場合には、タイトルなどに評価対象となる施設名や製品名などが記載されている場合があるため、タイトルなどから評価対象を推定する。

評価者属性推定ステップ４０５において、評価表現抽出部１０３は、文章中から評価者の属性を推定する。評価者の属性は、例えば、旅行の場合には、家族で行っている、車を使っている、など、文章中から読み取れる、評価者の周辺状況（評価の前提）などである。また、その対象に対する評価者の専門度などの属性もある。例えば、デジタルカメラなどの製品の評価などの場合には、写真に詳しい人とそうでない人の評価は、各々視点が異なる。そのため、写真に詳しい人の評価は、写真に詳しくなく（あまりこだわりがなく）安くて手軽に撮れるカメラを探している人にはあまり参考にならないことも想定される。

このように、書いた人の専門性、こだわりの強さによって、評価者をグループ化しておくと、ユーザの好みを推定する際に有用である。専門度は、例えば、専門性の高いキーワードが文章に表れる、表現に具体性が高いなどの特徴を分析し、判定することができる。ただし、評価者属性推定ステップ４０５は、省略してもよい。特に、評価者の推定が難しいドキュメントに対しては、省略してもよい。

個別評価ＤＢ１０９には、ホテルＡ、ホテルＢなどの個別の対象と、それに対する評価表現とが整理されて格納される。また、評価者属性も推定された場合にはデータベースとして整理される。

図６は、本実施例の個別評価ＤＢ１０９に含まれるデータの一例の説明図である。

なお、抽出された評価表現がゆれを含む場合には、そのようなゆれを補正し、正規化した評価表現を個別評価ＤＢ１０９に保存してもよい。例えば、「おいしい」「美味しい」「美味だ」などは「おいしい」という評価表現にまとめて個別評価ＤＢ１０９に記録しておいてもよい。

図６のデータ６０１には、個別の対象のＩＤ６０１Ａと、その対象種別６０１Ｂ、および、名称６０１Ｃ等の、個別の対象に関する情報が含まれる。図示は省略されているが、他にも、Ｗｅｂページのアドレス、最寄り駅等、取得できた情報をデータ６０１に含めて個別評価ＤＢ１０９に格納しておくことができる。

図６のデータ６０２には、対象ＩＤ６０２Ａによって識別される個々の対象に対する評価表現６０２Ｂが含まれる。同じ対象ＩＤ及び同じ評価表現が複数回現れてもよい。評価者タイプが推定できた場合には、その評価者タイプのＩＤ６０２Ｃをデータ６０２に含めて個別評価ＤＢ１０９に格納しておくことができる。上記の通り、評価者タイプが推定されなかった場合は評価者タイプＩＤ６０２Ｃが省略されてもよい。また、一人の評価者について複数のタイプが推定された場合、又は、タイプの異なる複数の評価者によって同一対象に同一の評価表現が与えられた場合には、当該対象及び評価表現に対する評価者タイプＩＤ６０２Ｃとして複数の値が含まれてもよい。

なお、図３のステップ３０２で収集したドキュメントの種別を示すタグが付された場合には、データ６０２は、各評価表現が抽出されたドキュメントの種別を示すタグをさらに含んでもよい。一つの評価表現が複数の種別のドキュメント（例えばオーナーサイトのページ及びユーザのブログのページ等）から抽出された場合、その評価表現には複数の種別を示すタグが対応付けられる。

図６のデータ６０３には、個々の対象ＩＤ６０３Ａに対して、それに付随している対象のＩＤ６０３Ｂが含まれる。図６の例では、対象ＩＤ「００１２３２７」で識別されるホテルＡ及び対象ＩＤ「０８２３１８１」で識別されるレストランＢは、いずれもデータ６０１に含まれる対象であるが、レストランＢがホテルＡに付随する施設であるため、対象ＩＤ「００１２３２７」に対応する付随対象ＩＤ６０３Ｂとして「０８２３１８１」が保持される。付随する対象を持たない対象に対応する付随対象ＩＤ６０３Ｂは空となり、一つの対象に複数の対象が付随する場合には付随対象ＩＤ６０３Ｂとして複数の対象のＩＤが保持される。

図６のデータ６０４には、評価者タイプＩＤ６０４Ａとその評価者タイプがもつ属性６０４Ｂが含まれる。評価者タイプは複数回現れても良い。また、この例の専門性のように、属性には数値で表されるものも含まれる。

このようにして、個別の対象に対する評価、情報、評価者のタイプ等がデータベース上に保存される。

次に、表現マップ生成部１０４について説明する。表現マップ生成部１０４は、対象種別ごとに使われている評価表現間の関係を解析する。評価表現は、対象ごとに使われる表現及びその意味が異なる場合がある。例えば、ラーメンに対する「あっさり」という評価表現は、ホテルなどの施設に対してはあまり使われない。また、人に対する「あっさり」しているという評価とは意味が異なる。そのため、対象種別ごとに、どのような評価表現が使われるか、どのように使われるか、を解析しておく必要がある。この例では、評価表現間の類似関係、包含関係、トレードオフ関係、などの関係を解析する。

図７は、本実施例の表現マップ生成部１０４が実行する処理の一例を示すフローチャートである。

表現間関係推定ステップ７０１において、表現マップ生成部１０４は、対象種別ごとにその評価に用いられる評価表現を収集し、表現間の類似関係、包含関係、トレードオフ関係、などの関係を解析する。

表現間関係推定ステップ７０１の処理の例について説明する。表現マップ生成部１０４は、まず、対象種別ごとに、各対象の評価表現を収集する。

図８は、本実施例の表現マップ生成部１０４が収集した評価表現の一例の説明図である。

図８の評価表現８０１は、対象種別「ホテル」に対して、対象ごとの評価表現をまとめたものである。各行に、名称８０１Ａを有するひとつの対象に対する一つ以上の評価表現８０１Ｂが列挙されている。

表現マップ生成部１０４は、まず、評価表現間の近さを定量化する。ここでは、その方法の例を説明する。ある２つの評価表現Ｅ１及びＥ２があるとする。このとき、表現マップ生成部１０４は、Ｅ１とＥ２の距離Ｄ（Ｅ１，Ｅ２）を計算する。以下の説明では、集合Ｓの要素の数を＃｜Ｓ｜と表す。評価表現Ｅ１が現れる対象の集合をＯ（Ｅ１）、評価表現Ｅ２が現れる対象の集合をＯ（Ｅ２）としたとき、評価表現Ｅ１と評価表現Ｅ２が同時に現れる（共起する）頻度が大きいほうが、評価表現Ｅ１とＥ２が近いと考えられる。例えば、表現マップ生成部１０４は、同一の対象（例えばホテルＡ）の評価表現８０１Ｂに評価表現Ｅ１及びＥ２がいずれも含まれる場合に共起する、一方のみが含まれる場合に共起しないと判定し、対象種別「ホテル」に該当する全ての対象について同様に評価表現Ｅ１及びＥ２が共起するか否かを判定して、それらの判定の結果から共起の頻度を計算する。評価表現間の距離は、例えば、式（１）によって定義できる。

D(E1,E2)＝Ｌｏｇ〔（２×＃｜O(E1)∪O(E2)｜）／（＃｜O(E1)∩O(E2)｜＋＃｜O(E1)∪O(E2)｜）〕・・・（１）

Ｄ（Ｅ１，Ｅ２）は、評価表現Ｅ１またはＥ２の少なくとも一方が現れる対象において、必ずＥ１とＥ２の両方が現れる（すなわち共起する）場合、０となり、全く共起しない場合には、Ｌｏｇ２となる。さらに、評価表現Ｅが対象Ｋの評価表現として現れる回数をＦ（Ｋ，Ｅ）とする。このとき、Ｅ１とＥ２が現れる回数Ｆ（Ｋ，Ｅ１），Ｆ（Ｋ，Ｅ２）が近いほうが、Ｅ１とＥ２が近いと推定できるため、距離Ｄ（Ｅ１，Ｅ２）の計算の別の例として、式（２）を使用してもよい。

D(E1,E2)＝Σ〔（｜F(K,E1)−F(K,E2)｜）／（｜F(K,E1)＋F(K,E2)｜）〕・・・（２）

ここで和（Σ）は、いま考えている対象種別の対象Ｋ全体に対して計算される。ここで、式（３）が成立する場合には、そのＫに対する項は０とする。

｜F(K,E1)＋F(K,E2)｜＝０・・・（３）

上記２つの例を挙げたが、これら２つの基準を組み合わせても良い。このように、評価表現Ｅ１とＥ２の共起頻度、Ｅ１とＥ２の出現回数の近さ、などを基準として、これらの関数として、評価表現間の距離を定量化することができる。

次に、包含関係を定量化する例を示す。例えば、「駅から近い」と「駅から３分」という２つの表現に対して、後者はより具体的であり、前者はより抽象的となっている。また、駅から３分が駅から近いと解釈できるなら、前者の表現は後者の表現を包含していると考えられる。表現マップ生成部１０４は、このような、表現間の包含関係を推定する。評価表現Ｅ２が評価表現Ｅ１に包含される程度は、対象Ｋの評価表現８０１Ｂにおいて、評価表現Ｅ２が現れるならば評価表現Ｅ１が現れる場合が多い（言い換えると、評価表現Ｅ１及びＥ２が共起する頻度が所定の条件を満たす場合において、評価表現Ｅ１及びＥ２が共起しない対象については、Ｅ１のみが現れる頻度が、Ｅ２のみが現れる頻度より高い）ときに、評価表現Ｅ２は評価表現Ｅ１に包含される割合が大きいと推定できる。そこで、表現マップ生成部１０４は、評価表現Ｅ（例えばＥ１及びＥ２のそれぞれ）に対して、式（４）が計算される。

F(E)=ΣF(K,E) ・・・（４）

ここで、Σは考えている対象種別の対象Ｋ全体に対して計算される。さらに、表現マップ生成部１０４は、式（５）によってＰ（Ｋ，Ｅ）を計算する。

P(K,E)=F(K,E)/F(E) ・・・（５）

このＰ（Ｋ，Ｅ）は、Ｋを変数と考えたとき、評価表現Ｅの確率分布とみることができる。そこで、表現マップ生成部１０４は、例えば、式（６）によってＰ（Ｋ，Ｅ１）、Ｐ（Ｋ，Ｅ２）の負のカルバック・ライブラー情報量Ｉ（Ｅ１，Ｅ２）を計算することによって、評価表現Ｅ２が評価表現Ｅ１に包含される程度を定量化することができる。これは、Ｅ２が現れるときに、Ｅ１もまた高確率で表れる場合に、大きな値となる。

I（E1,E2）＝−KL（E2||E1）＝−Σｐ（K,E2）Ｌｏｇ〔ｐ（K,E2）／ｐ（K,E1）〕・・・（６）

なお、表現マップ生成部１０４は、類義語辞書及び包含関係を示す辞書を用いて評価表現間の類似関係及び包含関係を推定してもよい。

次に、表現マップ生成部１０４は、評価表現間のトレードオフの関係を定量化する。例えば、「高級感がある」と「安い」などはトレードオフの関係になりやすい。このような関係は、対義語辞書を用いる、評価表現から、「高級感があるが、安い」などのように、対立関係を表す言語表現から取得することができる。また、トレードオフの関係となっている評価表現は共起しにくい場合もあり、式（７）によって上記で定義したＤ（Ｅ１，Ｅ２）の逆数Ｔ（Ｅ１，Ｅ２）を計算してもよい。

T(E1,E2)＝１／D(E1,E2) ・・・（７）

以上のように、表現マップ生成部１０４は、評価表現同士の類似関係、包含関係、及びトレードオフ関係を解析しておく。解析結果は、評価表現マップ１１０に保存される。具体的には、表現間の類似度Ｄ（Ｅ１，Ｅ２）、包含度Ｉ（Ｅ１，Ｅ２）、及びトレードオフ度Ｔ（Ｅ１，Ｅ２）などの情報が評価表現マップ１１０に保存される。上記のように、トレードオフ関係を示す情報として対義語などの情報が保存されてもよい。

対象種別間類似推定ステップ７０２において、表現マップ生成部１０４は、類似した対象種別間で評価表現間の関係解析結果を共有する。表現間関係推定ステップ７０１の処理は、対象種別ごとに行われる。しかし、近い対象種別、例えば、「ホテル」と「宿」では、類似しているため、それぞれに関する評価表現間の関係解析結果を互いに流用できると期待できる。

ここで、２つの対象種別Ｏ１、Ｏ２の間の類似度Ｓ（Ｏ１，Ｏ２）を計算する方法の例を説明する。Ｏ１の全対象に対して、評価表現Ｅの出現回数をＦ（Ｏ１，Ｅ）とする。このとき、表現マップ生成部１０４は、式（８）によってＰ（Ｏ１，Ｅ）を計算する。

P(O1,E)＝F(O1,E)／ΣF(O1,E) ・・・（８）

ここで、和（Σ）は全ての評価表現Ｅについて計算される。このとき、Ｐ（Ｏ１，Ｅ）は、Ｅを確率変数としたときに、確率分布とみなすことができる。ここで、表現マップ生成部１０４は、確率分布Ｐ（Ｏ１，Ｅ）とＰ（Ｏ２，Ｅ）の距離Ｌ（Ｏ１，Ｏ２）を計算する。距離には、カルバック・ライブラー距離などを用いることが出来る。評価表現Ｅの出現頻度が似ている対象種別は類似していると考えられるため、類似度Ｓ（Ｏ１，Ｏ２）は、例えば、式（９）のように定義される。

S(O1,O2)＝１／（L(O1,O2)＋１）・・・（９）

このように、対象種別Ｏ１，Ｏ２の間で評価表現の使われ方や、使用頻度が似ているかどうかに基づいて、類似度を測ることができる。

表現マップ生成部１０４は、このように計測した対象種別間類似度を用いて、評価表現間の類似度（または距離）、包含関係、トレードオフ関係を再定義することができる。例えば、対象種別Ｏ１における評価表現Ｅ１と評価表現Ｅ２の距離Ｄ（Ｏ１；Ｅ１，Ｅ２）が表現間関係推定ステップ７０１の方法で定義されているとする。このとき、対象種別Ｏ１における評価表現間の距離は、例えば、式（１０）のように再定義できる。

D’(O1;E1,E2)＝ΣS(O1,O)D(O;E1,E2) ・・・（１０）

ここで和（Σ）は、全ての対象種別Ｏについて計算される。これは、対象種別間の類似度Ｓを重みとして、他の対象種別の評価表現間の距離を共有している。なお、上記の例では全ての対象種別Ｏについて和を計算したが、予め定めた対象種別、あるいは、類似度が一定以上の対象種別に関してのみ、和を計算してもよい。同様の処理を包含関係、トレードオフ関係に適用してもよい。また、対象種別ごとの評価表現が十分に得られる場合には、表現マップ生成部１０４は対象種別間類似推定ステップ７０２を行わなくてもよいが、ある対象種別について、評価文章が少なく、十分に得られない場合には、この処理をすることによって、評価表現間の関係を共有できる。

上記の例では、２つの評価表現間の関係を解析したが、評価表現をベクトルとして表現し、ベクトル空間上の点として評価表現を表しておくと便利である。そのため、類似度が高い表現同士がベクトル空間上に配置されるように、評価表現をベクトルに変換すればよい。このような方法の例として、Ｆｏｒｃｅ−ＤｉｒｅｃｔｅｄＡｌｇｏｒｉｔｈｍなどの方法を用いることが出来る。この方法では、すべての要素間に一定の斥力を定義し、要素間の類似度に基づいて、要素間に働く引力を定義し、その引力と斥力に基づく系全体のエネルギーが小さくなるように、逐次的に要素の配置を修正し、配置が収束したところで、その要素の位置を定める。これによって、類似度が高い要素間はベクトル空間上の近くに配置されるようになる。表現マップ生成部１０４は、上記のように評価表現をベクトルに変換し、得られたベクトル空間及びベクトル値も類似度マップとして評価表現マップ１１０に保存しておく。同様にして、包含関係、トレードオフ関係についてもベクトル空間を定めることができる。

次に、図１の質問応答システム１１２について説明する。質問応答システム１１２は、ユーザへの質問及びそれに対するユーザの応答に基づいてユーザの嗜好を聞きだし、ユーザの嗜好に近い対象をマッチングによって絞り込み、ユーザに提示する。質問応答システム１１２は、質問用知識データベース生成装置１０１が生成した個別評価ＤＢ１０９及び評価表現マップ１１０を用いる。

質問応答生成部１１３は、評価表現を用いて質問を生成し、ユーザからの回答を得るプロセスを繰り返すことによって、ユーザの嗜好を推定する。

図９は、本実施例の質問応答システム１１２が実行する処理の一例を示すフローチャートである。

ステップ９０１から９０４までが質問応答生成部１１３の処理、ステップ９０５がユーザ回答取得部１１５の処理、ステップ９０６〜９０９がマッチング部１１４の処理である。

まず、質問用評価表現候補生成ステップ９０１において、質問応答生成部１１３は、対象種別ごとに、質問用の評価表現候補リストを生成する。

図１０Ａは、本実施例の質問応答生成部１１３が生成する質問用の評価表現候補リストの一例の説明図である。

図１０Ａに示す評価表現候補リスト１００１は、対象ごとに評価表現の出現回数をまとめたものである。図１０Ａの例では、評価表現の下の括弧内の数字がその評価表現の出現回数を示す。ここでは、質問応答生成部１１３は、評価表現として出現頻度の少ない表現を取り除き、出現頻度が一定以上の値となる評価表現のリストを作成する。さらに、質問応答生成部１１３は、施設及び設備の有無に関する評価（例えば、「露天風呂がある」「レストランがある」など）も、評価表現候補リスト１００１に付け加える。これらの情報は、例えば、収集ＤＢ１０８に保存されているホテル等の対象のオーナーページから取得できる。

以降の処理において、質問応答生成部１１３は、例えば、評価表現に基づいて「ホテルは駅に近いところが良いですか？」などの質問を生成する。ユーザ回答取得部１１５は、ユーザからの自然言語文での回答を受け付け、または、回答を選択肢（例えば、「近いところが良い」「できれば」「あまり気にしない」「できれば遠い方が良い」「遠い方が良い」など）として提示して、それに対するユーザの選択を回答として受け付け、受け付けた回答に基づいてマッチング部１４がユーザの嗜好に合った対象を絞り込む。

効率的質問順算出ステップ９０２において、質問応答生成部１１３は、効率的な質問の順序を提示する。処理の例について説明する。まず、質問応答生成部１１３は、評価表現候補リスト１００１の各対象に対する評価表現のうち、対象に対して高い確度で当てはまると推定される表現を残し、それ以外を除外する。確度の高さは、例えば、該当する評価表現の出現頻度の高さ、及び、その評価表現に対立する（すなわちトレードオフ関係の度合いが大きい）評価表現の出現頻度の少なさ、などに基づいて計算できる。

例えば、質問応答生成部１１３は、ある評価表現とそれに対立する評価表現の共起頻度が高いほど、その評価表現の確度が低いと判定してもよい。また、施設及び設備の有無などは、オーナーページなどから取得できるため、確度が高いと考えられる。このように、質問応答生成部１１３は、各評価表現に、それぞれが抽出されたドキュメントの種類（例えばそれがオーナーページであるのか個人のブログであるのか等）に応じて予め定められた確度（又は確度の重み）を与えてもよい。そこで、質問応答生成部１１３は、各評価表現に対して、各対象の評価が当てはまるかどうか、を示す情報を作成する。

確度の低い評価表現に基づく質問を出力し、それに対するユーザの回答を得ても、ユーザに適した対象を絞り込めないことが考えられる。上記のように確度の高い評価表現に基づく質問のみを出力することによって、効率的に対象を絞り込むことができる。

図１０Ｂは、本実施例の質問応答生成部１１３が生成する、各評価表現に対して各対象の評価が当てはまるかどうかを示す情報の一例の説明図である。

図１０Ｂの例では、各評価表現に対して各対象の評価が当てはまる場合に「○」記号を記載している。各評価表現に対して各対象の評価が当てはまるかどうかを示す表１００２は、例えば、ホテルＡが「駅から近い」ことの確度が高いと判定されたことを示す。また、表１００２は、ホテルＡに関して、「リラックスできる」という評価の確度が低い、または無かったことを示す。

効率的質問順算出ステップ９０２において、質問応答生成部１１３は、ユーザに質問を繰り返し、ユーザの回答と合致する候補の個数を予め定めた閾値以下に絞る際に、効率的であると推定される質問順を算出する。例えば、質問応答生成部１１３は、効率的な質問順を算出するために、上記のような評価表現に基づく質問に対する回答が「Ｙｅｓ」と「Ｎｏ」のみであると仮定した場合に、どちらの回答が得られたとしても、多くの候補が除外できる質問が優先的に出力されるように質問順を生成する。

例えば、「ホテルは駅から近いほうがよいですか？」という質問に対して、「Ｙｅｓ」と答えるとホテルＡが候補として残り、「Ｎｏ」と答えるとホテルＢが候補として残る場合を想定する。この質問に対して、例えば、「Ｙｅｓ」と答えた場合に除外される候補の数と、「Ｎｏ」と答えた場合に除外される候補の数を合計したものが多いほうが、候補を絞るために効率的であると考えられる。このため、質問応答生成部１１３は、より効率的と考えられる質問が早く出力されるように質問に順位付けをして、予め定めておいた個数の上位の質問の基となる評価表現を算出しておく。この順位付けに用いた値（ここでは候補数の合計）をスコアとする。

具体的には、質問応答生成部１１３は、各評価表現に基づく質問への回答に対応しない（すなわちその回答によって除外される）対象の数を推定し、推定した対象の数に基づいて（例えばその数が所定の条件を満たす評価表現に基づく質問が早く出力されるように）スコアを算出する。例えば、質問応答生成部１１３は、全ての対象の数、評価表現「駅から近い」に対応する対象の数、及び、その評価表現とトレードオフの関係にある評価表現（例えば「駅から遠い」）に対応する対象の数、の関係に基づいて、スコアを計算してもよい。

例えば、全対象数に対して、評価表現「駅から近い」及び「駅から遠い」のいずれにも対応しない対象の数の割合が大きいことは、「ホテルは駅から近いほうがよいですか？」という質問に対する回答が「Ｙｅｓ」又は「Ｎｏ」のいずれであっても候補から除外できない対象の割合が大きいことを示している。また、例えば評価表現「駅から近い」に対応する対象の数と、「駅から遠い」に対応する対象の数と、の一方が極端に小さい場合には、回答が「Ｙｅｓ」又は「Ｎｏ」の一方であった場合に候補から除外できる対象がほとんどなく、もう一方であった場合には候補として残る対象がほとんどないことになる。

ユーザに提示する対象の候補を絞り込む効率を考慮すると、ユーザに受け入れられそうにない対象を早期に候補から除外することが望ましいが、その一方で、ユーザに受け入れられる可能性がある対象が早期に候補から除外されることは望ましくないと考えられるため、まだ多数の候補が残っている段階で上記のような評価表現に基づく質問をすることは望ましくない。このため、質問応答生成部１１３は、例えば、その評価表現とそれに対立する表現のいずれにも対応しない対象の割合が所定の値より大きい評価表現に基づく質問、及び、一方の回答に該当する対象の数が所定の値より小さい評価表現に基づく質問より、それらに該当しない質問が早く出力されるように、それぞれの評価表現のスコアを算出してもよい。これによって、効率的に対象を絞り込むことができる。

質問順補正ルール算出ステップ９０３において、質問応答生成部１１３は、絞り込みの効率性だけでなく、対話の自然さを考慮した質問順を生成する。会話では、最初から具体的なことを聞くよりも、最初は広い（例えば抽象的な、又は漠然とした）表現で質問し、その後、少しずつ具体的なことを聞く方が自然である。また、会話の途中でユーザの気が変わる、又はユーザが回答を間違える、という場合がある。さらに、ユーザのニーズは、例えば、「安いホテル」を求めることと、「部屋が広いホテル」を求めることなど、トレードオフ関係にある両立しにくいことを求める場合があるため、どこかを妥協する、などの調整が必要となる。

そこで、質問順補正ルール算出ステップ９０３において、質問応答生成部１１３は、評価表現間の類似関係、包含関係、トレードオフ関係に基づいて、効率的質問順算出ステップ９０２で得られた質問の優先順を補正する。このとき、質問応答生成部１１３は評価表現マップ１１０を用いる。

以下で、処理の例を挙げて説明する。質問応答生成部１１３は、評価表現を要素とするベクトルを考え、これまでのユーザの回答結果をベクトルで表現する。回答結果ベクトルをｖ＝（ｖ１、…、ｖｎ）とする（ｎは評価表現の個数）。例えば、ｖ１は、評価表現「駅から近い」に対応する回答結果を表す。最初は全ての要素は０とする。質問応答生成部１１３は、このベクトルを対象種別ごとに作成する。例えば、「ホテルは駅から近いほうがよいですか？」という質問に対し、「絶対に近いほうがいい」「できれば」「こだわらない」「遠くてもいい」「遠い方がいい」の５つの回答を準備したとすると、ユーザの回答に応じて、各回答に対応して、それぞれ、ｖ１＝１．０、ｖ１＝０．５、ｖ１＝０．０、ｖ１＝−０．５、ｖ１＝−１．０などと設定する。以下の説明において、２つの評価表現が近いとは、評価表現同士の類似度が予め定めた閾値以上であることを示し、評価表現Ｅ１が評価表現Ｅ２に包含されるとは、その包含度が予め定めた閾値以上であることを示すものとする。

質問応答生成部１１３は、このようなベクトルを保持し、効率的質問順算出ステップ９０２で得られた評価表現Ｅ１及びＥ２について、Ｅ２の順位がＥ１の順位より下位で、Ｅ２がＥ１を包含し、かつ、Ｅ２がまだ質問に用いられていない場合には、Ｅ２のスコアをその包含度に応じて増加させる。これによって、まだ質問されていない抽象度の高い質問は上位に配置される傾向となる。その結果、上記の例では、評価表現Ｅ２に基づく質問が、評価表現Ｅ１に基づく質問より早く出力されやすくなる。

さらに、これまでの質問に対して得られた回答に適合しない対象が除外されていった結果、ユーザに提示する対象の候補数が少なくなっている場合には、質問応答生成部１１３は、既に行った質問と類似した評価表現を用いた質問をしてもよい。これは、ユーザの気が変わることも想定して、これまでと似た質問をするなどとする。そのために、効率的質問順算出ステップ９０２に挙がっていない評価表現であっても、一定の規則で（例えばランダムに）、過去の質問に現れた評価表現と類似の評価表現の質問順を繰り上げる（例えばその時点の最上位とする）。

質問選定ステップ９０４において、質問応答生成部１１３は、質問順補正ルール算出ステップ９０３が終了した時点で最上位にある評価表現を用いた質問を行う。例えば、ホテルという対象に対する「駅から近い」という評価表現が最上位の評価表現として選択されている場合には、質問応答生成部１１３は、「ホテルは駅から近いほうが良いですか？」などの質問を出力する。

なお、これまでの例では、対象種別はホテルの例を挙げながら、固定して説明してきたが、質問応答生成部１１３は、質問用評価表現候補生成ステップ９０１、効率的質問順算出ステップ９０２及び質問順補正ルール算出ステップ９０３の処理を、複数の対象種別に対して並行して行い、質問選定ステップ９０４では、これらのうちから、一定の規則で対象種別を選んで、質問を生成してもよい。

ユーザ回答取得ステップ９０５において、ユーザ回答取得部１１５は、ユーザから回答を取得する。ユーザ回答取得部１１５は、自然言語で記述された回答を取得してもよいし、複数のデフォルト回答を準備しておき、それらからのユーザの選択を回答として取得してもよい。自然言語で取得する場合には、ユーザ回答取得部１１５は、ユーザの表現に基づいて、回答に対する肯定度、否定度（例えば上記の例におけるｖ１＝１．０〜−１．０のような値）を計算し、数値化してベクトルの要素として保存する。

嗜好分布算出ステップ９０６において、マッチング部１１４は、回答結果を数値化するなどして表現する。例えば、上記で説明した回答結果ベクトルなどで表現してもよい。

マッチングステップ９０７において、マッチング部１１４は、ユーザの回答結果に合致する候補を選定する。ユーザの回答結果との合致度の計算例について述べる。例えば、マッチング部１１４は、回答結果ベクトルと同様にして、各要素が各評価表現に対応するベクトルによって各対象を表現し、その評価表現がある場合には１、そうでない場合には０とする。例えば、ホテルＡのベクトルをｗ＝（ｗ１、…、ｗｎ）としたとき、最初の要素ｗ１が「駅から近い」に対応する評価表現である場合には、ホテルＡに対応する評価表現として「駅から近い」があればｗ１＝１となり、なければ（又はそれとトレードオフの関係にある「駅から遠い」のような評価表現があれば）ｗ１＝０となる。

例えば、図１０Ｂに示した各対象に対応する各評価項目の確度が、各対象に対応する評価表現のベクトルの要素となってもよい。図１０Ｂの例では、ホテルＡの評価表現のベクトルの要素のうち、評価表現「駅から近い」に対応する要素の値は「１」、評価表現「リラックスできる」に対応する要素の値は「０」である。

そして、マッチング部１１４は、この各対象に対応する評価表現から生成されたベクトルと回答結果ベクトルとの類似度を計算し、類似度が一定以上の対象をユーザの回答結果と合致する、と判定する。ベクトル同士の類似度の計算には、様々な方法があり、例えば、コサイン類似度などを用いることができる。このようにして、対象種別ごとに、上記のようにしてユーザの回答結果と合致する対象を選定できる。

しかし、このとき、マッチング部１１４は、異なる対象種別で、両立する候補に絞る必要がある。例えば、旅行プランを提示することを考えた場合、「ホテル」と「観光地（場所）」の２つの対象種別があったとき、ユーザの回答結果と合致するホテルＡの立地と、ユーザの回答結果と合致する観光地の場所は、同じか近い必要がある。そこで、マッチング部１１４は、対象種別ごとに候補として選んだ中から、両立する候補の組み合わせをプランとして作成し、それを候補として算出する。

なお、このとき、回答結果ベクトルの値には、ユーザから回答が得られた評価表現に対応する要素にのみ値が与えられているが、回答を得ていない評価表現に対応する要素に関しても、類似した評価表現について値がある場合には、その類似度に応じて、両者が回答を共有してもよい。例えば、ある評価表現Ｅに類似した評価表現Ｅ’の要素値がｖ、それらの類似度がｓのとき（ｓは０から１の間となるように正規化されているものとする）、評価表現Ｅの要素値をｖ＊ｓと定めてもよい。

また、図６に示すように、個別評価ＤＢ１０９に各評価表現を使用した評価者の属性を示す情報が含まれる場合には、マッチング部１１４がその属性を考慮して、ユーザの回答に合致する対象を選定してもよい。具体的には、例えば、回答しているユーザに適合する評価者の属性が判明している場合、マッチング部１１４は、その属性の評価者が使用した評価表現の出現頻度の重みがより重くなるように、各評価表現の出現頻度に重み付けを行い、その重み付けされた評価表現の出現頻度に基づいて、各対象に対応する評価表現のベクトルを生成し、それと回答結果ベクトルとの類似度を計算してもよい。ユーザに適合する評価者の属性は、ユーザ自身が指定してもよいし（例えば専門性が高い人の評価を重視したい、又は家族で旅行した人の評価を重視したい、など）、ユーザが入力した回答に基づいて質問応答システム１１２が推定してもよい。これによって、よりユーザに適合する対象を提示することができる。

また、個別評価ＤＢ１０９に、各評価表現が抽出されたドキュメントの種別を示す情報が含まれる場合には、マッチング部１１４は、その種別について、上記の評価者の属性に関する処理と同様の処理を行うことができる。

質問終了判定ステップ９０８において、マッチング部１１４は、質問を終了するかどうかを判定する。終了しない場合には効率的質問順算出ステップ９０２に進み、再度質問を生成する。終了する場合には、情報提示ステップ９０９に進む。例えば、マッチング部１１４は、ユーザの回答結果と一定の基準で合致する対象の候補が存在するか否かを判定し、所定の数以下の場合に、質問を終了する、と判定してもよい。

情報提示ステップ９０９において、マッチング部１１４は、表示装置２０３を介して、ユーザの回答に合致する対象の候補を提示する。マッチング部１１４は、複数の候補を提示してもよいし、もっとも合致度が高いものを提示してもよい。また、対象種別ごとに提示してもよいし、例えば、ホテルＡとレストランＡなど、対象種別の組み合わせ（プラン）を提示してもよい。

なお、例えば、旅行の場合には、予め、ホテル、交通機関、及びレストランなどがセットとなった旅行プラン又はツアーなどが提供されている場合がある。このとき、ユーザの回答結果から、ユーザの嗜好に合ったプラン又はツアーを提示したい場合がある。このときには、質問応答システム１１２は、ツアー又はプランなどに、予め評価タグをつけておき、その評価タグとユーザ回答結果との類似度を測ることによって、類似度の高いプラン又はツアーを提示してもよい。

また、質問応答システム１１２は、ユーザの行動履歴などを利用できる場合には、行動履歴から各評価表現に対する評価を推定し、ユーザ回答結果ベクトルと同様にして行動履歴ベクトルを生成し、両方のベクトルとの類似度を考慮した上で、提示する情報を定めても良い。

上記のような質問を出力し、それに対する応答を取得することによってユーザの嗜好を聞きだすことで、行動履歴が無い場合又は少ない場合にも、ユーザの嗜好にあった情報を提示できる。また、評価表現に基づいて、ユーザの嗜好を推定するため、例えば、Ｗｉｆｉの設備の有無及び露天風呂の有無など、明確に属性が決まるようなものではなく、曖昧なニーズ、キーワードによる検索が難しい対象でも、ユーザに合った情報を適切に提示することができる。さらに、本実施例では、対象種別ごとに評価表現を分析するため、対象種別ごとに異なる評価表現に基づいて、適切に情報を提示できる。また、類似した対象種別間で評価表現の分析結果を共有するため、データが少ない対象種別についても、評価表現間の関係を把握できる。

上記の実施例では、検索の対象の例として、旅行に利用されるホテル、レストラン等の施設を示したが、それ以外の対象、例えば、書籍、映画、任意の種類の小売商品、任意の種類の施設、不動産等の検索にも本発明を適用することができる。

なお、本発明は上述した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。

上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によってハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによってソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。

また、図面には、実施例を説明するために必要と考えられる制御線及び情報線を示しており、必ずしも、本発明が適用された実際の製品に含まれる全ての制御線及び情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。

Claims

複数の対象の各々と複数の評価表現とを対応付ける評価データ、及び、前記評価表現間の関係を示す評価表現関係データを格納する記憶部と、
複数の文書データから前記複数の対象の各々に対応する前記評価表現を抽出して前記評価データを生成する評価表現抽出部と、
前記複数の文書データから前記評価表現間の関係を推定して前記評価表現関係データを生成する評価表現関係データ生成部と、
前記評価データ及び前記評価表現関係データに基づいて質問を生成して出力する質問生成部と、
前記質問に対する回答が入力されると、前記回答に基づいて前記評価データに含まれる前記対象の情報を出力するマッチング部と、を有することを特徴とする情報処理システム。
請求項１に記載の情報処理システムであって、
前記質問生成部は、
前記複数の評価表現に基づいて複数の質問を生成し、
記各評価表現に基づく質問に対する回答に対応しない前記対象の数を、前記評価データに基づいて推定し、前記推定した対象の数に基づいて前記複数の質問の出力順序を算出することを特徴とする情報処理システム。
請求項２に記載の情報処理システムであって、
前記評価表現関係データは、評価表現間のトレードオフ関係を示す情報を含み、
前記質問生成部は、前記各評価表現の出現頻度、及び、前記各評価表現とトレードオフ関係にある評価表現の共起頻度に基づいて、前記各評価表現が前記各対象に当てはまる確度を推定し、前記確度が高いと推定される複数の前記評価表現に基づいて前記複数の質問を生成することを特徴とする情報処理システム。
請求項２に記載の情報処理システムであって、
前記記憶部は、前記各評価表現が抽出された文書データの種類を特定する情報を格納し、
前記質問生成部は、特定された前記文書データの種類に基づいて前記各評価表現が前記各対象に当てはまる確度を推定し、前記確度が高いと推定される複数の前記評価表現に基づいて前記複数の質問を生成することを特徴とする情報処理システム。
請求項２に記載の情報処理システムであって、
前記評価表現関係データは、評価表現間の包含関係を示す情報を含み、
前記質問生成部は、前記複数の評価表現のうち第１評価表現が第２評価表現を包含する場合、前記第１評価表現に基づく質問を、前記第２評価表現に基づく質問より早く出力するように、前記出力順序を変更することを特徴とする情報処理システム。
請求項２に記載の情報処理システムであって、
前記マッチング部は、出力された一つ以上の前記質問に対する一つ以上の回答と、前記各対象に対応する評価表現との類似度を算出し、前記類似度が所定の条件を満たす前記対象の情報を出力することを特徴とする情報処理システム。
請求項６に記載の情報処理システムであって、
前記評価データは、前記各評価表現を使用した評価者の属性を示す情報を含み、
前記マッチング部は、前記各対象に対応する前記各評価表現の出現頻度に、前記各評価表現を使用した評価者の属性による重み付けをし、前記重み付けされた出現頻度に基づいて、出力された一つ以上の前記質問に対する一つ以上の回答と、前記各対象に対応する評価表現との類似度を算出することを特徴とする情報処理システム。
請求項６に記載の情報処理システムであって、
前記評価表現関係データは、評価表現間の類似関係を示す情報を含み、
前記質問生成部は、前記類似度が所定の条件を満たす前記対象の数が所定の条件を満たす場合、既に出力した質問の基となった評価表現に類似する評価表現に基づく質問を早く出力するように前記出力順序を変更することを特徴とする情報処理システム。
請求項１に記載の情報処理システムであって、
前記評価表現抽出部は、
レイアウト解析によって各文書データのうち前記対象が記述された部分及び前記評価表現が記述された部分を特定し、
前記評価表現が記述された部分から、品詞又は予め定められた規則に基づいて一つ以上の前記評価表現を抽出し、
前記対象が記述された部分から、前記抽出された評価表現に対応する前記対象を抽出し、
前記各文書データに含まれる文言に基づいて、前記各評価表現を使用した評価者の属性を推定し、
前記抽出した評価表現、前記抽出した対象及び前記推定した属性を含む前記評価データを前記記憶部に格納することを特徴とする情報処理システム。
請求項１に記載の情報処理システムであって、
前記評価表現関係データ生成部は、前記複数の文書データから、前記対象の種類ごとに、前記評価表現間の関係を推定して前記評価表現関係データを生成することを特徴とする情報処理システム。
請求項１０に記載の情報処理システムであって、
前記評価表現関係データ生成部は、
二つの前記評価表現の共起頻度に基づいて前記二つの評価表現の類似関係を推定し、
二つの前記評価表現の共起頻度が所定の条件を満たす場合において、前記二つの評価表現が共起しないときの前記各評価表現の出現頻度の偏りに基づいて前記二つの評価表現の包含関係を推定することを特徴とする情報処理システム。
請求項１１に記載の情報処理システムであって、
前記評価表現関係データ生成部は、前記対象の種類間の類似関係を推定し、
互いに類似すると推定された複数の種類の前記対象に対応する複数の前記評価表現に基づいて前記評価表現関係データを生成することを特徴とする情報処理システム。
請求項１に記載の情報処理システムであって、
前記記憶部には、収集されるべき前記文書データの特徴を示す情報及び前記文書データの種類を判別する規則を含む知識データがさらに格納され、
前記知識データに基づいて、ネットワークを介して前記複数の文書データを収集し、収集した前記複数の文書データの各々を前記文書データの種類を示す情報と対応付けて前記記憶部に格納するデータ収集部をさらに有することを特徴とする情報処理システム。
演算部と、前記演算部に接続される記憶部と、を有する計算機システムによる情報処理方法であって、
前記記憶部には、複数の対象の各々と複数の評価表現とを対応付ける評価データ、及び、前記評価表現間の関係を示す評価表現関係データが格納され、
前記情報処理方法は、
前記演算部が複数の文書データから前記複数の対象の各々に対応する前記評価表現を抽出して前記評価データを生成する手順と、
前記演算部が前記複数の文書データから前記評価表現間の関係を推定して前記評価表現関係データを生成する手順と、
前記演算部が前記評価データ及び前記評価表現関係データに基づいて質問を生成して出力する手順と、
前記質問に対する回答が入力されると、前記演算部が前記回答に基づいて前記評価データに含まれる前記対象の情報を出力する手順と、を含むことを特徴とする情報処理方法。