JP2009223781A

JP2009223781A - 情報推薦装置、情報推薦システム、情報推薦方法、プログラム及び記録媒体

Info

Publication number: JP2009223781A
Application number: JP2008069763A
Authority: JP
Inventors: Shinichiro Kamei; 真一郎亀井; Yoshiko Matsukawa; 淑子松川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-03-18
Filing date: 2008-03-18
Publication date: 2009-10-01

Abstract

【課題】選択された第一の文書に関連・類似する文書を選択する情報推薦装置、情報推薦システム、情報推薦方法、プログラム及び記録媒体を提供する。
【解決手段】文書データベースに格納された各文書の特徴語句を抽出する際に、各文書を形態素解析等して係り受け関係にある複数単語からなるフレーズを抽出し、前記フレーズを構成する各単語が文書データベース全体の中に出現する頻度・偏りの程度を求め、前記頻度・偏りから算出した積の値の大きさを、前記フレーズの優先度とし、優先度が一定値以上のフレーズを特徴語句とし、各文書と特徴語句との対応付けを作成し、これを特徴フレーズインデックスに保持し、出力された推薦文書に対する特定文書選択情報を入力として、特徴フレーズインデックスを検索し、選択文書に対する特徴フレーズを取得し、これを入力として特徴フレーズインデックスを検索し、入力したフレーズを特徴フレーズとする文書を取得する。
【選択図】図１

Description

本発明は、情報推薦装置、情報推薦システム、情報推薦方法、プログラム及び記録媒体に関し、特に、利用者が選択した第一の文書に関連・類似した第二の文書を文書データベースの中から選び出して、利用者に推薦する情報推薦装置、情報推薦システム、情報推薦方法、プログラム及び記録媒体に関する。

利用者が選択した第一の文書に関連・類似した第二の文書を、文書データベースに格納された文書の中から選び出す方法として、文書に記述されたテキスト内容を利用する方法が知られている。

第一、第二両文書間の関連・類似の計算方法は、第一の文書に含まれている特徴語句の多くが含まれている文書を第二の文書として選択する、という方法を基礎としている。ここで「特徴語句」の選択の仕方には様々な方法が提案されているが、それらに共通した基本的な方針は以下の通りである。すなわち、まず、テキスト内から、ある条件を満たす語句を抽出して特徴語句の候補とし、次に、ある計算式に従ってその候補に優先度づけし、優先度の高いものを特徴語句と認定する。基本となる技術としては、非特許文献１に記載があるような以下の内容が知られている。これをここでは関連方法１と呼ぶ。

まず、単語または複合語を特徴語句の候補とする。ただし、機能語（助詞、助動詞など）を候補から除き、内容語（名詞、動詞、形容詞など）を候補の対象とする。次に、候補となった単語または複合語のうち、当該文書内の出現頻度が高いものを特徴語として優先する。この性質を満たす優先度付け方法としては、何通りかの方法が提案されているが、次の計算式を用いるＴＦ法が代表的である。
［文書Ａにおける特徴語句Ｔの重み］Ｗ（Ｔ、Ａ）
＝ tf（Ｔ、Ａ）＝文書Ａにおける特徴語Ｔの出現頻度

優先度付けの方法としては、候補となった単語または複合語のうち、母集団の文書群における出現の偏りの高いものを特徴語として優先する、という方法も知られている。この性質を満たす優先度付け方法としては、何通りかの方法が提案されているが、次の計算式を用いるＩＤＦ法が代表的である。
［特徴語句Ｔの重み］Ｗ（Ｔ）
＝ idf（Ｔ）
＝文書データベース中の母集団文書群における特徴語Ｔの偏りの大きさ
＝ log ( Ｎ / df(Ｔ)) ＋１
ここで、Ｎ＝母集団文書群の文書数
df ＝母集団文書群の中で、特徴語Ｔが出現する文書数

上記二つの優先度付け方法の両方の性質を満たす優先度付け方法としては、これらの積を用いるＴＦ・ＩＤＦ法と呼ばれる方法が代表的である。
[文書Ａにおける特徴語句Ｔの重み] Ｗ（Ｔ、Ａ）
＝ [文書Ａにおける特徴語句Ｔの出現頻度] tf（Ｔ、Ａ）
× [母集団文書群における特徴語句Ｔの偏りの大きさ] idf（Ｔ）

また、上記の関連方法１を改良した方法の一つとして、特許文献１では、特徴語句の候補対象を拡張し、係り受け関係にある複数単語のつながり（以下では「フレーズ」と呼ぶ）を特徴語句の候補とする方法が提案されている。これをここでは関連方法２と呼ぶ。なお、関連方法２においても、候補対象の優先付け方法は、上記の関連方法１と同様、候補フレーズの当該文書内での出現頻度の高さ、あるいは候補フレーズの母集団文書群における出現の偏りの高さ、あるいはその積を用いている。

上記の関連方法１を改良した方法の一つとして、特許文献２、特許文献３では、利用者が選択した第一の文書に関連・類似した第二の文書を利用者に推薦・提示するとき、同時に、第二の文書を推薦した根拠を提示し、その根拠に対して、利用者から肯定あるいは否定の評価を受け、次回以降の関連度・類似度の計算に使用する方法が提案されている。これをここでは関連方法３と呼ぶ。

関連方法３の場合、第二の文書を推薦した根拠としては、第一の文書と第二の文書との関連度・類似度の計算に用いた単語または複合語を用いている。第二の文書を推薦した根拠として提示した特徴語句に対して利用者が肯定の評価を入力した場合、システムはその評価を受け取り、当該の特徴語の重みを上げて、次回以降の関連度・類似度の計算に使用する。第二の文書を推薦した根拠として提示した特徴語句に対して利用者が否定の評価を入力した場合、システムはその評価と受け取り、当該の特徴語句の重みを下げるか、あるいはその特徴語句を対象から削除して、次回以降の関連度・類似度の計算を行う。
特開２００４−２４０５７６号公報特開２００６−３３９７９４号公報特開２００７−０１１９０１号公報徳永健伸『情報検索と言語処理』東京大学出版会１９９９

しかしながら、上記のような技術には、以下の問題点がある。まず第１点目の課題として、文書の特徴語句として単語または複合語だけを対象とした場合に、第一の文書と第二の文書が関連・類似しているとは限らない、という問題点がある。例えば、第一の文書に「価格が高い」という表現があり、「価格」「高い」という二つの単語が特徴語句として抽出された場合は、「解像度が高いカメラで価格が安い機種」といった文意の全く異なる文を含む文書が元の文書と類似度が高い文書として判定されてしまう可能性がある。

また、特許文献２、特許文献３のように、推薦の根拠を利用者に提示する場合に、単語または複合語を提示しただけでは推薦の根拠が理解されない場合がある。まず、特徴語句として単語または複合語を対象とすると、第一の文書と第二の文書が同じ特徴語句を共有していたとしても、意味内容が関連・類似しているとは限らない。例えば、特徴語句として単語「雰囲気」「やわらかい」「おいしい」などが選ばれても、どんな「雰囲気」なのか、何が「やわらかい」のか、何が「おいしい」のか特定できない。従って必ずしも第一の文書と第二の文書が類似しているとは言えない。そして、推薦の根拠となる特徴語句として単語または複合語を利用者に提示しても、どんな「雰囲気」なのか、何が「やわらかい」のか、何が「おいしい」のかが特定できない。従って利用者に関連・類似の根拠が充分に伝わらないため、利用者は推薦の根拠となる特徴語に対する否定・肯定の評価を行うことが困難であった。

上述のような第１点目の課題を解決するという観点からは、特許文献１のように、「フレーズ」を特徴語句に採用することは有効である。上記関連方法２では、例えば「価格（名詞）−が（助詞）−高い（形容詞）」というフレーズ全体を特徴語句の候補とする。しかしながら、特許文献１に記載されている技術も、下記の第２点目の課題および第３点目の課題および第４点目の課題を問題点として有している。これら第２点目の課題、第３点目の課題、第４点目の課題は、特徴語句を単語または複合語、あるいはフレーズとした場合にも共通する問題点である。

上記関連技術の第２点目の課題は、文書の特徴語句の選択において、「当該文書内の出現頻度が高いものを優先する」という方法が有効でない場合がある、という点である。情報推薦が対象とする文書の一つ一つは、数行ないし十数行程度の短い文書の場合が頻繁にある。例えば、書籍、音楽ＣＤ、映画、ＴＶ番組、飲食店といった項目を利用者に推薦する場合、それらの項目の説明文を利用者に推薦提供するが、これらの説明文は数行ないし十数行程度の短い文である場合が多い。このように短い文書の場合、同一文書内に同じ単語や複合語が複数回出現することは稀である。したがって、出現回数に閾値Ｎを設定し、Ｎ回以上出現する単語ないし複合語を特徴語とする場合に、閾値Ｎを２以上に設定すると、対象となる特徴語がほとんど無くなってしまい、有効な特徴語句が選択できないという問題が生じる。

第３点目の課題は、文書の特徴語句の選択において、「母集団の文書群における出現の偏りの高いものを優先する」という方法が有効でない場合がある、という点である。飲食店の特徴を記述した説明文を利用者に推薦提供する場合を例に挙げて以下説明する。上記関連技術では、単語「店」「味」「雰囲気」「料理」「メニュー」など、母集団の文書群に偏りなく広く出現する単語は、特徴語句としての優先度が低くなり、特徴語句に選ばれない。しかし、母集団の文書群に広く出現する単語には、評価の観点の軸を表す重要な単語が含まれる場合もある。例えば「メニューが豊富」という表現の場合、単語「メニュー」が評価の軸を表し、単語「豊富」が、それらの評価軸の具体的な様子を表している。しかし上記関連技術のように、母集団の文書群に偏りなく広く出現する単語を特徴語句に含めない方法を採用した場合は、単語「メニュー」は特徴語句に含まれず、単語「豊富」だけを特徴語句とすることになる。単語「豊富」だけでは評価の観点が示されないため、何が「豊富」なのか判断することができないという問題が生じる。すなわち、母集団の文書群に広く出現する単語を含めて類似度を計算する方が、文書間の関連・類似をより適切に反映させることができる。

また同様に、利用者に関連・類似となった根拠を提示する場合にも、母集団の文書群に広く出現する単語を含むフレーズを示す方法の方が、利用者にとって意味が分かりやすく望ましい。母集団の文書群における出現の偏りの高い特徴語のみから成るフレーズを表示する場合に比べて、利用者が推薦の根拠となる特徴語句に対して、肯定・否定の評価を行うことが容易になる。

例えば、推薦の根拠として「メニューが豊富」というフレーズを利用者に提示した場合には利用者にとってその意味がわかりやすい。したがって、示された推薦の根拠を、推薦の根拠として採用するための肯定の評価や、推薦の根拠として採用しないようにするための否定の評価を行いやすい。これに対し、推薦の根拠として単語「豊富」だけを示しても、利用者にとってその意味がわかりにくい。

推薦の根拠として単語を複数示した場合にも、例えば、単語「豊富」と単語「メニュー」の間に関係があるのか、関係がないのかが不明なので、利用者にとって推薦の根拠がわかりにくい。したがって、示された推薦の根拠を、推薦の根拠として採用するための肯定の評価や、推薦の根拠として採用しないようにするための否定の評価を行いにくい。

第４点目の課題は、利用者から推薦の妥当性に関して肯定・否定の評価を受けて、それを次回からの関連・類似文書選択方法に反映する場合に、単純に特徴語句の重みを上げたり、特徴語句を対象から削除したりする方法では不十分な場合がある、という点である。

特許文献２、特許文献３では、推薦の根拠として利用者に示すのは単語または複合語であるが、これを単にフレーズに拡張し、推薦の根拠としてフレーズを利用者に示す場合を考える。例えば「エスニックな雰囲気」というフレーズが利用者に示され、利用者がこれを肯定評価した場合、単に「エスニックな雰囲気」というフレーズの重みだけを上げる方法を採ると、「エスニックなメニュー」「エスニックな料理」といった、意味の類似したフレーズの重みが上げられない、という問題点があった。

また、「エスニックな雰囲気」というフレーズが否定評価された場合、従来法のように「エスニックな雰囲気」というフレーズだけの重みを下げたり、このフレーズだけを対象から削除する方法を採ると、「エスニックなメニュー」「エスニックな料理」といった、意味の類似したフレーズの重みを下げたり、削除したりできない、という問題点があった。

上記第４点目の課題に対する対策としては、単語の場合に類義語データベースを保持するのと同様な方法が容易に想到される。すなわち、予め類義フレーズデータベースを作成しておく方法が想到され得る。しかしこの方法は、現実的には有効性が低い。なぜなら、上記の例で挙げた「雰囲気」という単語と「メニュー」や「料理」という単語は、単語単独で考えた場合には、類義語とは考えられないからである。したがって、予め「エスニックな雰囲気」に対して「エスニックなメニュー」や「エスニックな料理」といった類義表現を格納した類義フレーズデータベースを保持しておくという仕組みは、実現性が低い。つまり、特許文献２、特許文献３で提案されている単語または複合語に対する方法を、単にフレーズに拡張しただけでは、この問題に対処することが出来ない。

以上のように、上述した関連技術では、利用者が選択した文書に類似した文書を文書データベースから選択する場合に、文書に含まれる単語や複合語を用いる手法では元の文書に類似していない文書が含まれる可能性があった点、単語や複合語の代わりにフレーズを用いる方法でも当該文書内での頻度を用いる方法では短い文書に対して有効な類似度計算ができなかった点、さらに、利用者に対して単語や複合語を推薦の根拠として提示する際に、利用者にとって推薦の根拠が判り難いため、利用者からの推薦根拠の妥当性の可否評価を受けにくかった点が問題となっていた。

本発明はこのような状況に鑑みてなされたものであり、選択された第一の文書からその文書の特徴語句となるフレーズを抽出し、そのフレーズに類似したフレーズ群を生成し、そのフレーズ群を含む第二の文書を文書データベースから選択することを目的とする。

本発明に係る第１の情報推薦装置は、推薦する文書の候補となる文書群を格納した文書データベースと、前記文書データベースに格納された各文書の特徴語句を抽出する際に各文書を形態素解析または構文解析して係り受け関係にある複数単語からなるフレーズを抽出し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する頻度を計算し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する偏りの程度を計算し、抽出したフレーズを構成する各単語について、前記出現の頻度と偏りとの積を計算し、該積の値の大きさを抽出したフレーズの優先度として、抽出した複数のフレーズの中から、前記優先度が一定値以上のフレーズを特徴語句とし、各文書と特徴語句との対応付けを作成するインデックス作成手段と、前記インデックス作成手段で作成した各文書と特徴語句との対応付けを保持した特徴フレーズインデックスと、推薦文書を出力する推薦文書出力手段と、前記出力された推薦文書に対して特定の文書が選択されたという情報を受け取る選択文書受付手段と、前記選択文書受付手段にて受け付けた選択文書を入力として、前記特徴フレーズインデックスを検索し、選択文書に対する特徴フレーズを取得する特徴フレーズ取得手段と、前記特徴フレーズ取得手段から、選択文書と対応する特徴フレーズとを受け取り、前記特徴フレーズを入力として、前記特徴フレーズインデックスを検索し、入力したフレーズを特徴フレーズとする文書を前記文書データベースから取得する類似文書群取得手段と、を有することを特徴とする。

本発明に係る第１の情報推薦システムは、上記第１の情報推薦装置と、表示装置と、入力装置とから構成され、前記表示装置は、前記推薦文書出力手段又は前記推薦根拠出力手段からの出力を受け取り、表示部に表示する表示手段を備え、前記情報推薦装置が備える選択文書受付手段又は推薦根拠評価受付手段は、前記入力装置から受け付けることを特徴とする。

本発明に係る第１の情報推薦方法は、推薦する文書の候補となる文書群を格納した文書データベースから、前記格納された各文書の特徴語句を抽出する際に各文書を形態素解析または構文解析して係り受け関係にある複数単語からなるフレーズを抽出し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する頻度を計算し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する偏りの程度を計算し、抽出したフレーズを構成する各単語について、前記出現の頻度と偏りとの積を計算し、該積の値の大きさを抽出したフレーズの優先度として、抽出した複数のフレーズの中から、前記優先度が一定値以上のフレーズを特徴語句とし、各文書と特徴語句との対応付けを作成するステップと、推薦文書を出力するステップと、前記出力された推薦文書に対して特定の文書が選択されたという選択文書の情報を受け取るステップと、前記受け付けた選択文書を入力として、前記作成した各文書と特徴語句との対応付けを保持した特徴フレーズインデックスを検索し、選択文書に対する特徴フレーズを取得するステップと、前記取得した選択文書と対応する特徴フレーズとを受け取り、前記特徴フレーズを入力として前記特徴フレーズインデックスを検索し、入力したフレーズを特徴フレーズとする文書を前記文書データベースから取得するステップと、を有することを特徴とする。

本発明に係る第１の情報推薦プログラムは、推薦する文書の候補となる文書群を格納した文書データベースから、前記格納された各文書の特徴語句を抽出する際に各文書を形態素解析または構文解析して係り受け関係にある複数単語からなるフレーズを抽出し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する頻度を計算し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する偏りの程度を計算し、抽出したフレーズを構成する各単語について、前記出現の頻度と偏りとの積を計算し、該積の値の大きさを抽出したフレーズの優先度として、抽出した複数のフレーズの中から、前記優先度が一定値以上のフレーズを特徴語句とし、各文書と特徴語句との対応付けを作成する処理と、推薦文書を出力する処理と、前記出力された推薦文書に対して特定の文書が選択されたという選択文書の情報を受け取る処理と、前記受け付けた選択文書を入力として、前記作成した各文書と特徴語句との対応付けを保持した特徴フレーズインデックスを検索し、選択文書に対する特徴フレーズを取得する処理と、前記取得した選択文書と対応する特徴フレーズとを受け取り、前記特徴フレーズを入力として前記特徴フレーズインデックスを検索し、入力したフレーズを特徴フレーズとする文書を前記文書データベースから取得する処理と、を有することを特徴とする。

本発明に係る第１の記録媒体は、上記第１の情報推薦プログラムの処理を記録するコンピュータ読取り可能な記録媒体である。

本発明によれば、選択された第一の文書からその文書の特徴語句となるフレーズを抽出し、そのフレーズに類似したフレーズ群を生成し、そのフレーズ群を含む第二の文書を文書データベースから選択することが出来る。

以下に、本発明の実施形態について図面を用いて詳細に説明する。なお、以下に述べる実施形態は、本発明の好適な実施形態であるから、技術的に好ましい種々の限定が付されているが、本発明の範囲は、以下の説明において特に本発明を限定する旨の記載がない限り、これらの態様に限られるものではない。

本願発明の第１の実施形態について図を参照しながら説明する。図１は本願発明の第１の実施形態に係る情報推薦装置１１のブロック構成図である。情報推薦装置１１は、文書データベース１、インデックス作成部２、特徴フレーズインデックス３、推薦文書出力部４、選択文書受付部５、特徴フレーズ取得部６、類似文書群取得部７から構成される。表示装置２０は、ディスプレイのように情報を利用者に表示する装置である。入力装置３０は、キーボードやマウスや画面位置指示ペンのような利用者の入力情報をシステムに伝える装置である。なお、これら情報推薦装置、表示装置、入力装置から成る情報推薦システムや、情報推薦装置、表示装置、入力装置の機能を全て備える情報処理装置も本発明の範囲内である。

文書データベース１は、利用者に推薦する文書の候補となる文書群を保持している。インデックス作成部２は、文書データベース１に格納された各文書から前記特徴フレーズを抽出して、各文書と特徴フレーズを対応づける。特徴フレーズインデックス３は、インデックス作成部２で対応付けられた特徴フレーズと各文書との対応を保持する検索インデックスである。

類似文書群取得部７は、特徴フレーズ取得部６から受信したフレーズを入力として特徴フレーズインデックス３を介して文書データベース１を検索し、入力したフレーズを記述の中に含む文書群を取得する。推薦文書出力部４は、類似文書群取得部７の結果である文書群の内容を表示装置２０に送信する。

表示装置２０は、推薦文書出力部４から受信した文書群の内容を表示する。選択文書受付部５は、推薦文書出力部４が出力し、表示装置２０が表示した文書群の中から利用者が選択した文書がどれであるかの情報を入力装置３０から受け取る。

特徴フレーズ取得部６は、選択文書受付部５から利用者が選択した文書がどれであるかの情報を受け取り、それを入力として特徴フレーズインデックス３を検索し、当該文書に対する特徴フレーズを取得し、その特徴フレーズを類似文書群取得部７に送信する。

以下では、具体例を示して、本実施形態の動作処理を説明する。まず、文書データベース１には、利用者に推薦する対象となる文書群が格納されている。例えば、飲食店を推薦するシステムにおいては、各飲食店の特徴を記述した文書群が格納されている。図２は、文書データベース１に格納されている文書の一例を示す図である。例えば文書ＩＤ００１は、「あたたかい雰囲気の店内で、やわらかい牛肉の料理を堪能できる。メニューが豊富で、他の店では味わえないめずらしいデザートも楽しめる。」という文書内容を持っている。

インデックス作成部２は、文書データベース１に格納された各文書を形態素解析し、続いて構文解析して、各文書の特徴語句として、係り受け関係にある単語のまとまり、すなわちフレーズを抽出する。この抽出されたフレーズが、各文書の特徴フレーズの候補となる。

図３は、本発明の実施形態に係るインデックス作成部２の動作処理を示すフローチャートである。インデックス作成部２は、文書データベース１から１つの文書を取得し（ステップＡ１）、取得した文書の文を形態素解析する（ステップＡ２）。

例えば文書ＩＤ００１の文書の場合、次のように形態素解析される。以下では記号「／」で区切られた単位が形態素を表すものとする。
／あたたかい／雰囲気／の／店内／で／、／やわらかい／牛肉／の／料理／を／堪能／できる／。／メニュー／が／豊富／で／、／他／の／店／で／は／味わえ／ない／めずらしい／デザート／も／楽しめる／。／

インデックス作成部２は、形態素解析の後に構文解析を行い（ステップＡ３）、係り受け関係にある複数の単語からなるフレーズを抽出する（ステップＡ４）。例えば上記の文では以下のようなフレーズが抽出される。
／あたたかい／雰囲気／
／雰囲気／の／店内／
／店内／で／堪能／できる／
／やわらかい／牛肉／
／牛肉／の／料理／
／料理／を／堪能／できる／
／メニュー／が／豊富／
／他／の／店／
／店／で／は／味わえ／ない／
／めずらしい／デザート／
／デザート／も／楽しめる／

なお、インデックス作成部２は、形態素解析した後に正式な構文解析を行わず、連続する形態素のうち、係り受けの可能性のある形態素を、係り受け関係にあるものと近似的に認定してフレーズを抽出してもよい。

例えば、連体形の形態素の後に体言（名詞の類）が隣接している場合、近似的に係り受け関係にあるものと認定してもよい。同様に、連用形の形態素の後に用言（動詞、形容詞、形容動詞など）が隣接している場合、近似的に係り受け関係にあるものと認定してもよい。

抽出するフレーズの型は予め指定されている。抽出するフレーズの型の例としては「修飾語句Ｄ・被修飾語句Ｈ型」、「主語Ｈ・述語Ｄ型」が挙げられるが、本発明はこれに限定されるわけではない。

修飾語句Ｄ・被修飾語句Ｈ型の例としては、次のフレーズがある。
／あたたかい／雰囲気／
／やわらかい／牛肉／
／めずらしい／デザート／
上記の「／あたたかい／雰囲気／」という例において、「あたたかい」が修飾語句Ｄであり、「雰囲気」が被修飾語句Ｈである。

主語Ｈ・述語Ｄ型の例としては、次のフレーズがある。
／雰囲気／が／あたたかい／
／牛肉／は／やわらかい／
／デザート／も／めずらしい／
上記の「／雰囲気／が／あたたかい／」という例において、「雰囲気」が主語Ｈであり、「あたたかい」が述語Ｄである。

次に、インデックス作成部２は、抽出されたフレーズに対して、そのフレーズを文書の特徴フレーズとするかどうかを判定するための計算を行う（ステップＡ５、Ａ６）。特徴フレーズの判定方法としては以下の２種類の式を用いる。
特徴フレーズＰの第一の重みＷ１（Ｐ）
＝ [母集団文書群内での特徴フレーズ要素Ｈの出現頻度]
× [母集団文書群内での特徴フレーズ要素Ｄの偏りの大きさ]
特徴フレーズＰの第二の重みＷ２（Ｐ）
＝ [母集団文書群内での特徴フレーズ要素Ｈの偏りの大きさ]
× [母集団文書群内での特徴フレーズ要素Ｄの偏りの大きさ]
これらの式において、特徴フレーズＰの重みの計算に、そのフレーズの構成要素の出現頻度および偏りの大きさを用いている点が、上述した関連技術と異なる点である。これらの式において、特徴フレーズ要素Ｈとは、上述の「修飾語句Ｄ・被修飾語句Ｈ型」のフレーズの場合には被修飾語Ｈであり、「主語Ｈ・述語Ｄ型」のフレーズの場合には主語Ｈである。これらの式において、特徴フレーズ要素Ｄとは、上述の「修飾語句Ｄ・被修飾語句Ｈ型」のフレーズの場合には修飾語Ｄであり、「主語Ｈ・述語Ｄ型」のフレーズの場合には述語Ｄである。

例えば「あたたかい雰囲気」というフレーズの場合には、特徴フレーズ要素Ｈは「雰囲気」であり、特徴フレーズ要素Ｄは「あたたかい」である。「雰囲気があたたかい」というフレーズの場合にも、特徴フレーズ要素Ｈは「雰囲気」であり、特徴フレーズ要素Ｄは「あたたかい」である。

上記第１式、すなわち、特徴フレーズＰの重みＷ１（Ｐ）を計算する式では、右辺第１項で母集団全体における出現頻度を計算する点が、上記関連技術と異なる点である。上記関連技術は、当該文書内における特徴語句の出現頻度を用いる方法が提案されていたが、本発明においては、母集団文書群内すなわち文書データベース１に格納された文書全体における出現頻度を用いる点に特徴がある。このことを上記の例を使って説明する。

上述のように、関連技術では、当該文書内において出現頻度の高い特徴語句の優先度を上げていたが、テキスト量の少ない文書を対象とする場合に、同一文書内に同じフレーズが複数回出現することは非常に稀であった。したがって、同一文書内における出現頻度の計算は、特徴語句の選択に有効ではなかった。

これに対して、本発明に係る上記第１式では、母集団文書群内において出現頻度の高い単語を含むフレーズの優先度を上げる。つまり、文書データベース１に格納されている文書群全体の中での出現頻度の高い単語を含むフレーズの優先度を上げる。

例えば、特徴フレーズ要素Ｈである「雰囲気」は、文書データベース１に格納されている文書群全体の中での出現頻度が高いとする。関連技術では、このような文書群全体に偏りなく出現する単語は、優先度が下げられたり、対象から削除されたりしていた。しかしながら、本発明では、このような単語を含むフレーズの優先度を高くする点に特徴がある。

インデックス作成部２では、上記の特徴フレーズＰの重みＷ１（Ｐ）およびＷ２（Ｐ）の値にそれぞれ閾値を設定でき、特徴フレーズＰの重みＷ１（Ｐ）またはＷ２（Ｐ）の値が閾値以上の場合、そのフレーズを各文書の特徴フレーズとして認定する（ステップＡ７）。

例として、次のフレーズを考える。
「和の雰囲気」

この場合、特徴フレーズ要素Ｈは「雰囲気」であり、特徴フレーズ要素Ｄは「和」である。この例では、特徴フレーズ要素Ｈ「雰囲気」は母集団文書群内で頻繁に出現するので、上記Ｗ１（Ｐ）の計算式の右辺第１項の値が大きい。特徴フレーズ要素Ｄ「和」は、特定の文書だけに出現するので、母集団文書群内での偏りの大きさは大きく、上記Ｗ１（Ｐ）の計算式の右辺第２項の値が大きい。したがって、この「和の雰囲気」というフレーズＰの重みＷ１（Ｐ）の値は大きくなり、一定の閾値を超えるので、このフレーズは文書の特徴フレーズとして認定される。

また、他の例として、次のフレーズを考える。
「独特のオーラ」

この場合、特徴フレーズ要素Ｈは「オーラ」であり、特徴フレーズ要素Ｄは「独特」である。この例では、特徴フレーズ要素Ｈ「オーラ」は、特定の文書だけに出現するので母集団文書群内での偏りの大きさは大きく、上記Ｗ２（Ｐ）の計算式の右辺第１項の値が大きい。特徴フレーズ要素Ｄ「独特」は、特定の文書だけに出現するので、母集団文書群内での偏りの大きさは大きく、上記Ｗ２（Ｐ）の計算式の右辺第２項の値が大きい。したがって、この「独特のオーラ」というフレーズＰの重みＷ２（Ｐ）の値は大きくなり、一定の閾値を超えるので、このフレーズは文書の特徴フレーズとして認定される。

このように、本発明では、特徴フレーズＰに対して、特徴フレーズ要素Ｈの母集団全体における出現頻度を重視した第一の重みＷ１（Ｐ）と、特徴フレーズ要素Ｈの母集団全体における偏りの大きさを重視した第二の重みＷ２（Ｐ）の２種類の重みを使って特徴フレーズを認定するので、出現頻度の高い単語を含むフレーズも、出現の偏りの大きい単語を含むフレーズも特徴フレーズとして選定することができる。

特徴フレーズインデックス３は、上述のようにしてインデックス作成部２で対応づけられた各文書のＩＤとその特徴フレーズの対応を保持している。図４は、特徴フレーズインデックス３が保持している文書ＩＤと特徴語フレーズの対応の例である。図４によれば、例えば、文書ＩＤ００１に対して「あたたかい雰囲気」「やわらかい牛肉」「メニューが豊富」「めずらしいデザート」といったフレーズが特徴フレーズとして保持される。

特徴フレーズインデックス３は、ある文書のＩＤが入力されると、そのＩＤに対応する文書に含まれる特徴フレーズを出力する。例えば、文書ＩＤ００１が入力されると、以下のようなその文書の特徴フレーズを出力する。
「あたたかい雰囲気」
「やわらかい牛肉」
「メニューが豊富」
「めずらしいデザート」

また、特徴フレーズインデックス３は、あるフレーズが入力されると、そのフレーズを含む文書の文書ＩＤを得る。さらに、そのＩＤを用いて文書データベース１を検索してそのフレーズを含む文書の文書内容を得て、入力されたフレーズを含む文書の文書ＩＤと文書内容を出力する。

例えば「あたたかい雰囲気」というフレーズが入力されると、以下のようにそのフレーズを含む文書の文書ＩＤと、その文書内容を出力する。
文書ＩＤ００１：「あたたかい雰囲気の店内で、やわらかい牛肉の料理を堪能できる。メニューが豊富で、他の店では味わえないめずらしいデザートも楽しめる。」
この場合、そのフレーズを含む文書ＩＤが複数存在すれば、複数の文書ＩＤと文書内容を出力する。

図４によれば「あたたかい雰囲気」というフレーズを持つ文書として次の文書が文書ＩＤと共に出力される。
文書ＩＤ００１：「あたたかい雰囲気の店内で、やわらかい牛肉の料理を堪能できる。メニューが豊富で、他の店では味わえないめずらしいデザートも楽しめる。」
文書ＩＤ０１２：「おかえりなさい、という声が聞こえてきそうな、あたたかい雰囲気の家庭料理の店。」
文書ＩＤ１９８：「しゃれた店内にクラシックが流れるカフェ。オーナーのあたたかい雰囲気が気持ちをなごませる。」

類似文書群取得部７は、特徴フレーズインデックス３にフレーズを入力して、そのフレーズを含む文書の文書ＩＤと、その文書内容を出力する。図５は類似文書群取得部７の動作を示すフローチャートである。類似文書群取得部７は、特徴フレーズ取得部６からフレーズを受信し（ステップＢ１）、そのフレーズを入力として特徴フレーズインデックス３を検索し（ステップＢ２）、入力されたフレーズを含む文書の文書ＩＤと文書内容を特徴フレーズインデックス３から受信する（ステップＢ３）。次に、類似文書群取得部７が行うフレーズ型変換（ステップＢ４）について説明する。

類似文書群取得部７は、修飾語句Ｄ・被修飾語句Ｈ型のフレーズに対しては、それに対応する主語Ｈ・述語Ｄ型のフレーズを合成し、また、主語Ｈ・述語Ｄ型のフレーズのフレーズに対しては、それに対応する修飾語句Ｄ・被修飾語句Ｈ型のフレーズを合成するフレーズ型変換機能を有している（ステップＢ４）。この機能は、フレーズを要素の形態素に分割し、特徴フレーズ要素Ｈと特徴フレーズ要素Ｄの順序を入れ替え、用言の活用は語尾を調整し、体現の助詞を挿入・削除することで実現できる。

例えば、上記のフレーズ「あたたかい雰囲気」は修飾語句Ｄ・被修飾語句Ｈ型のフレーズである。類似文書群取得部７は、このフレーズを要素の形態素に分割し、特徴フレーズ要素Ｈ「雰囲気」と特徴フレーズ要素Ｄ「あたたかい」の順序を入れ替え、特徴フレーズ要素Ｈに後接する助詞を補って主語Ｈ・述語Ｄ型のフレーズ「雰囲気があたたかい」「雰囲気もあたたかい」などを合成する。

例えば、「店内は落ち着いている」は主語Ｈ・述語Ｄ型のフレーズである。類似文書群取得部７は、このフレーズを要素の形態素に分割し、特徴フレーズ要素Ｈ「店内」と特徴フレーズ要素Ｄ「落ち着い」の順序を入れ替え、特徴フレーズ要素Ｄに後接する助動詞を補って修飾語句Ｄ・被修飾語句Ｈ型のフレーズ「落ち着いている店内」「落ち着いた店内」などを合成する。

類似文書群取得部７は、合成して得られたフレーズ型変換（ステップＢ４）後のフレーズを入力として特徴フレーズインデックス３をさらに検索し（ステップＢ５）、そのフレーズを含む文書ＩＤと文書本体を得る（ステップＢ６）。上記の例「あたたかい雰囲気」の場合、フレーズ型変換後のフレーズ「雰囲気があたたかい」「雰囲気もあたたかい」などを入力として特徴フレーズインデックス３を検索する。

文書データベース１が図２に示した内容例をもち、特徴フレーズインデックス３が図４に示した内容例を持つ場合、特徴フレーズインデックスから検索結果として次の文書ＩＤおよび文書内容が出力され、類似文書群取得部７に送信される。
文書ＩＤ２５６：「シチューの名店。じっくり煮込んだ牛肉がやわらかい。店の雰囲気もあたたかい。」

類似文書群取得部７は、検索に使われた特徴フレーズと、その重みの値と、検索で得られた文書ＩＤと、その文書内容を、推薦文書出力部４に送信する（ステップＢ７）。

推薦文書出力部４は、類似文書群取得部７から受信した文書ＩＤとその文書本体を保持し、その文書に含まれる特徴フレーズの重みの値の大きさの順番に並べ替える。この場合、特徴フレーズが複数含まれている文書の場合、特徴フレーズの重みの和をとり、その文書の重みとする。

推薦文書出力部４は、文書ＩＤと、その文書本体と、それらの順番とを表示装置２０に送信する。

表示装置２０は、推薦文書出力部４から受信した文書本体を、その順番に従って画面に表示する。例えば、上で例に挙げた４つの文書本体を次のように表示する。
「シチューの名店。じっくり煮込んだ牛肉がやわらかい。店の雰囲気もあたたかい。」
「しゃれた店内にクラシックが流れるカフェ。オーナーのあたたかい雰囲気が気持ちをなごませる。」
「あたたかい雰囲気の店内で、やわらかい牛肉の料理を堪能できる。メニューが豊富で、他の店では味わえないめずらしいデザートも楽しめる。」
「おかえりなさい、という声が聞こえてきそうな、あたたかい雰囲気の家庭料理の店。」

なお、各文書の文書ＩＤは利用者に表示されてもされなくても構わない。表示されない場合にも、各文書とその文書ＩＤは対応付けられて保持されている。利用者は、画面に推薦表示された複数の文書を読み、その中で気に入った一つの文書を、入力装置３０を使って指示・選択する。

選択文書受付部５は、利用者によって指示された文書の情報を入力装置３０から受信し、その文書の文書ＩＤを特徴フレーズ取得部６に送信する。特徴フレーズ取得部６は、受信した文書ＩＤを入力として特徴フレーズインデックス３を検索し、その文書ＩＤの値をもつ文書に含まれる特徴フレーズを取得する。

例えば、上記の４つの文書の中から利用者が次の文書を選択した場合を述べる。
「あたたかい雰囲気の店内で、やわらかい牛肉の料理を堪能できる。メニューが豊富で、他の店では味わえないめずらしいデザートも楽しめる。」
選択文書受付部５は、この文書の文書ＩＤ００１を特徴フレーズ取得部６に送信する。特徴フレーズ取得部６は、文書ＩＤ００１を入力として、特徴フレーズインデックス３を検索する。

特徴フレーズインデックス３は、図４のように、文書ＩＤと特徴フレーズの対応を保持している。文書ＩＤ００１が入力されると、次のようなフレーズを出力する。
／あたたかい／雰囲気／
／やわらかい／牛肉／
／メニュー／が／豊富／
／めずらしい／デザート／
特徴フレーズ取得部６は、特徴フレーズインデックス３から上記のようなフレーズを取得し、文書ＩＤと共に、類似文書群取得部７に送信する。類似文書群取得部７は、特徴フレーズ取得部６から受信したフレーズを入力として特徴フレーズインデックス３を検索し、そのフレーズを含む文書とその文書ＩＤを受信し、その結果を、推薦文書出力部４に送信する。この動作は上述の通りである。

なお、類似文書群取得部７が、文書とその文書ＩＤの組を推薦文書出力部４に送信する際、類似文書群取得部７が特徴フレーズ取得部６から受け取った文書ＩＤと同一の文書ＩＤをもった文書に関しては、それを推薦文書出力部４に送信するように設定することもできるし、送信しないように設定することもできる。

利用者に一度推薦された文書を再度推薦することが問題ない利用方法の場合、類似文書群取得部７が特徴フレーズ取得部６から受け取った文書ＩＤと同一の文書ＩＤをもった文書も、その他の文書と同様に、推薦文書出力部４に送信するように設定する。

利用者に一度推薦された文書を再度推薦することが不都合な利用方法の場合、類似文書群取得部７が特徴フレーズ取得部６から受け取った文書ＩＤと同一の文書ＩＤをもった文書も、その他の文書と同様に、推薦文書出力部４に送信しないように設定する。

次に、本願発明の第２の実施形態について図を参照しながら説明する。図６は本実施形態に係る情報推薦装置１２のブロック構成図である。情報推薦装置１２は、文書データベース１、インデックス作成部２、特徴フレーズインデックス３、推薦文書出力部４、選択文書受付部５、特徴フレーズ取得部６、類似文書群取得部７、推薦根拠出力部８、推薦根拠評価受付部９、特徴フレーズ展開部１０から構成される。

推薦根拠部８は、類似文書群取得部７から文書の推薦根拠として特徴フレーズを受信し、表示装置２０に送信する。推薦根拠評価受付部９は、推薦根拠として表示された特徴フレーズに対する利用者の肯定・否定の評価を入力装置３０から受信し、その結果を特徴フレーズ展開部１０に送信する。

特徴フレーズ展開部１０は、利用者に示された推薦根拠である特徴フレーズの中から利用者が選択した特定のフレーズとその特定のフレーズに対する肯定または否定の評価とを推薦根拠評価受付部９から受け取って保持する。

また、特徴フレーズ展開部１０は、評価を受けた特徴フレーズを構成要素に分解し、インデックス作成部２を参照して、構成要素の各単語が、文書データベース全体の中に出現する偏りの程度を取得し、偏りの高さが一定値以下の構成要素を特徴フレーズから差し引いた残りの特徴構成要素を保持する。

次に、本実施形態に係る情報推薦装置１２の動作処理を説明する。

類似文書群取得部７は、文書内容とその文書ＩＤを推薦文書出力部４に送信すると同時に、その文書を選択する理由となった特徴フレーズを推薦根拠出力部８に送信する。その際、類似文書群取得部７は、各文書ＩＤとその文書内容と特徴フレーズとを組にして推薦根拠出力部８に送信しても良い。また、推薦文書出力部４に送信する文書の全ての特徴フレーズをまとめてそれらの特徴フレーズだけを推薦根拠出力部８に送信しても良い。

推薦根拠出力部８は、類似文書群取得部７から受信した特徴フレーズを表示装置２０に送信する。その際、推薦根拠出力部８は、各文書ＩＤとその文書内容と特徴フレーズとを組にして表示装置２０に送信しても良い。また、類似文書群取得部７が推薦文書出力部４に送信する文書のすべての特徴フレーズをまとめて表示装置２０に送信しても良い。

推薦根拠出力部８が、各文書ＩＤとその文書内容と特徴フレーズとを組にして表示装置２０に送信した場合、表示装置２０は、各文書とその根拠を組にして利用者に表示する。

推薦根拠出力部８が、類似文書群取得部７が推薦文書出力部４に送信する文書のすべての特徴フレーズをまとめて表示装置２０に送信した場合、表示装置２０は、特徴フレーズをまとめて利用者に表示する。

例として、「あたたかい雰囲気」「牛肉がやわらかい」「しゃれた店内」という特徴フレーズを含む次の４つの文書を表示する場合を述べる。
「シチューの名店。じっくり煮込んだ牛肉がやわらかい。店の雰囲気もあたたかい。」
「しゃれた店内にクラシックが流れるカフェ。オーナーのあたたかい雰囲気が気持ちをなごませる。」
「あたたかい雰囲気の店内で、やわらかい牛肉の料理を堪能できる。メニューが豊富で、他の店では味わえないめずらしいデザートも楽しめる。」
「おかえりなさい、という声が聞こえてきそうな、あたたかい雰囲気の家庭料理の店。」

推薦根拠出力部８が、各文書ＩＤとその文書内容と特徴フレーズとを組にして表示装置２０に送信した場合、表示装置２０は、例えば、図７のような形式で、文書内容と特徴フレーズを表示する。

推薦根拠出力部８が、類似文書群取得部７が推薦文書出力部４に送信する文書のすべての特徴フレーズをまとめて表示装置２０に送信した場合、表示装置２０は、例えば、図８のような形式で、文書内容と特徴フレーズを表示する。

利用者は、図７あるいは図８のような推薦結果を評価する。推薦結果の文書が自分の嗜好に合っている場合、その推薦理由に「肯定」の評価を入力する。推薦結果の文書が自分の嗜好に合っていない場合、その推薦理由に「否定」の評価を入力する。

図９は、図７の形式の推薦理由を表示した場合を例にして、利用者がある一つの推薦理由に「肯定」の評価を入力した場合の例を示す図である。

図１０は、図８の形式で推薦理由を表示した場合を例にして、利用者がある一つの推薦理由に「否定」の評価を入力した場合の例を示す図である。

図９および図１０では、利用者が推薦理由を評価する場合に、ある一つの推薦理由を選択する。するとシステムが「肯定」「否定」の評価の入力を促す。図９および図１０では、肯定評価として「採用」と表示し、否定評価として「不採用」と表示する場合の例を示している。

利用者は、その推薦理由を次回以降の推薦で強調したい場合に、肯定評価を入力する。また、利用者は、その推薦理由を次回以降の推薦には使いたくない場合に、否定評価を入力する。

入力装置３０から、ある推薦理由に対して利用者の肯定評価あるいは否定評価が入力されると、その信号を推薦根拠評価受付部９が受信する。推薦根拠評価受付部９は、評価された推薦理由の特徴フレーズと、肯定か否定かの評価内容とを組にして、特徴フレーズ展開部１０に送付する。

図９では例として「牛肉がやわらかい」という特徴フレーズが肯定されている場合を示している。図１０では例として「牛肉がやわらかい」という特徴フレーズが否定されている場合を示している。特徴フレーズ展開部１０は、推薦根拠評価受付部９から受信した特徴フレーズを、構成要素の単語に分解し、類似文書群取得部７と同様の方法で、特徴フレーズの型を変換する。

すなわち、修飾語句Ｄ・被修飾語句Ｈ型のフレーズに対しては、それに対応する主語Ｈ・述語Ｄ型のフレーズを合成し、また、主語Ｈ・述語Ｄ型のフレーズのフレーズに対しては、それに対応する修飾語句Ｄ・被修飾語句Ｈ型のフレーズを合成するフレーズ型変換機能を有する。

例として「牛肉がやわらかい」というフレーズの場合には次のようになる。
このフレーズは、主語Ｈ・述語Ｄ型のフレーズである。特徴フレーズ展開部１０は、このフレーズを要素の形態素に分割する。この例の場合には、以下のような構成要素に分解する。
／牛肉／が／やわらかい／

特徴フレーズ要素Ｈ「牛肉」と特徴フレーズ要素Ｄ「やわらかい」の順序を入れ替え、修飾語句Ｄ・被修飾語句Ｈ型のフレーズ「やわらかい牛肉」を合成する。なおこの際、必要に応じて特徴フレーズ要素Ｄに後接する助動詞等を補ってもよい。

この場合、結果として、特徴フレーズ展開部１０は、推薦根拠評価受付部９から受信した特徴フレーズ「牛肉がやわらかい」と、その特徴フレーズの型を変換したフレーズ「やわらかい牛肉」とを保持する。

この状態で、利用者が次の文書を次の文書を選択した場合を例として考える。
「しゃれた店内にクラシックが流れるカフェ。オーナーのあたたかい雰囲気が気持ちをなごませる。」

利用者がこの文書を選択したという情報は、入力装置３０を介して、選択文書受付部５に送信される。選択文書受付部５は、特徴フレーズ取得部６にこの文書の文書ＩＤを送信する。上記の例の場合、図２によれば、文書ＩＤは１９８である。

特徴フレーズ取得部６は、文書ＩＤを入力として、特徴フレーズインデックス３を検索し、この文書の文書内容と特徴フレーズを受信する。

図２および図４によれば、この文書の特徴フレーズには以下のようなフレーズが含まれる。
／しゃれた／店内／
／あたたかい／雰囲気／

特徴フレーズ取得部６は、文書ＩＤと、文書内容と、特徴フレーズの組を類似文書群取得部７に送信する。類似文書群取得部７は、特徴フレーズ取得部６から受け取った特徴フレーズを入力として特徴フレーズインデックス３を検索して、そのフレーズを含む文書を得る。

さらに類似文書群取得部７は、特徴フレーズ取得部６から受け取った特徴フレーズのフレーズ型を変換したフレーズを入力として特徴フレーズインデックス３を検索してそのフレーズを含む文書を得る。

上記の例の場合、フレーズ「しゃれた店内」を含む文書とフレーズ「あたたかい雰囲気」を含む文書とが得られる。後者の文書としては、次の４つの文書が得られる。
「シチューの名店。じっくり煮込んだ牛肉がやわらかい。店の雰囲気もあたたかい。」
「しゃれた店内にクラシックが流れるカフェ。オーナーのあたたかい雰囲気が気持ちをなごませる。」
「あたたかい雰囲気の店内で、やわらかい牛肉の料理を堪能できる。メニューが豊富で、他の店では味わえないめずらしいデザートも楽しめる。」
「おかえりなさい、という声が聞こえてきそうな、あたたかい雰囲気の家庭料理の店。」

次に類似文書群取得部７は、特徴フレーズ展開部１０を参照する。特徴フレーズ展開部１０には、利用者が評価したフレーズと、肯定か否定かという評価の値が保持されている。また、特徴フレーズ展開部１０には、利用者が評価したフレーズのフレーズ型を変換したフレーズが保持されている。

図９の例の場合、「牛肉がやわらかい」というフレーズが肯定されている、という情報が特徴フレーズ展開部１０に保持されている。また「牛肉がやわらかい」というフレーズの型を変換したフレーズとして「やわらかい牛肉」というフレーズが保持されている。

類似文書群取得部７は、特徴フレーズ展開部１０に保持されているこの情報を候補となる文書の優先度に反映させる。この例の場合、「牛肉がやわらかい」「やわらかい牛肉」というフレーズを含む次の文書の優先度を上げて、推薦文書出力部４に送信する。
「シチューの名店。じっくり煮込んだ牛肉がやわらかい。店の雰囲気もあたたかい。」
「あたたかい雰囲気の店内で、やわらかい牛肉の料理を堪能できる。メニューが豊富で、他の店では味わえないめずらしいデザートも楽しめる。」

ここで、すでに利用者が選択した文書は再度表示しないという設定である場合を考える。この例の場合、利用者は、次の２つの文書を既に選択している。
「シチューの名店。じっくり煮込んだ牛肉がやわらかい。店の雰囲気もあたたかい。」
「しゃれた店内にクラシックが流れるカフェ。オーナーのあたたかい雰囲気が気持ちをなごませる。」

この場合、上記の４つの文書から、この２つの文書を除いた、次の２つの文書が推薦対象として選ばれて、推薦文書出力部４から表示装置２０に送信される。
「あたたかい雰囲気の店内で、やわらかい牛肉の料理を堪能できる。メニューが豊富で、他の店では味わえないめずらしいデザートも楽しめる。」
「おかえりなさい、という声が聞こえてきそうな、あたたかい雰囲気の家庭料理の店。」

この場合、肯定評価を受けて優先度が高い「やわらかい牛肉」を含んだ文書が優先されて表示される。

次に、図１０の例のように、「牛肉がやわらかい」というフレーズが否定されている場合の動作を説明する。特徴フレーズ展開部１０には、「牛肉がやわらかい」というフレーズが否定されている、という情報が保持されている。また「牛肉がやわらかい」というフレーズの型を変換したフレーズとして「やわらかい牛肉」というフレーズが保持されている。

類似文書群取得部７は、特徴フレーズ展開部１０に保持されているこの情報を候補となる文書の優先度に反映させる。この例の場合、「牛肉がやわらかい」「やわらかい牛肉」というフレーズを含む次の文書の優先度を下げるか、あるいは、対象から削除して、推薦文書出力部４に送信する。
「シチューの名店。じっくり煮込んだ牛肉がやわらかい。店の雰囲気もあたたかい。」
「あたたかい雰囲気の店内で、やわらかい牛肉の料理を堪能できる。メニューが豊富で、他の店では味わえないめずらしいデザートも楽しめる。」

結果として、上記の４つの文書から、この２つの文書を除いた、次の２つの文書が推薦対象として選ばれて、推薦文書出力部４から表示装置２０に送信される。
「しゃれた店内にクラシックが流れるカフェ。オーナーのあたたかい雰囲気が気持ちをなごませる。」
「おかえりなさい、という声が聞こえてきそうな、あたたかい雰囲気の家庭料理の店。」

以上のようにして、利用者の肯定・否定の評価を、次回以降の推薦に利用する。さらに、特徴フレーズ展開部１０は、保持している特徴フレーズを、構成要素の単語に分解し、母集団の文書群における出現の偏りの高さが一定値以下の構成要素の単語を見出し、特徴フレーズからその構成要素の単語を差し引いた残りの構成要素（ここでは「特徴構成要素」と呼ぶ）を保持する機能を有する。

例えば「エスニックな雰囲気」というフレーズが利用者に示され、利用者がこれを肯定評価した場合、特徴フレーズ展開部１０は「エスニックな雰囲気」「雰囲気がエスニック」といった特徴フレーズを保持している。

特徴フレーズ展開部１０は、これらの特徴フレーズを構成要素の単語に分解し、インデックス作成部２を参照して、それぞれの構成要素の単語の母集団の文書群における出現の偏りを求める。

「エスニックな雰囲気」「雰囲気がエスニック」といった特徴フレーズの場合、「エスニック」と「雰囲気」という２つの構成要素が得られるが、このうち構成要素「雰囲気」は、文書データベース１に格納されている母集団の文書群において広く分布する単語である。

つまり単語「雰囲気」は、母集団の文書群における出現の偏りの高さが一定値以下の構成要素である。特徴フレーズ展開部１０は、保持している「エスニックな雰囲気」「雰囲気がエスニック」といった特徴フレーズから、母集団の文書群における出現の偏りの高さが一定値以下の構成要素である「雰囲気」を差し引く操作を行い、残った構成要素として「エスニック」という単語を得てこれを保持する。この例で「エスニック」が特徴構成要素である。

図１１は、本実施形態に係る類似文書群取得部７の動作処理を示すフローチャートである。ステップＣ１〜Ｃ６は、図５のステップＢ１〜Ｂ６と同様である。

類似文書群取得部７は、特徴フレーズ展開部１０を参照し、特徴フレーズ展開部１０に、上記のような特徴構成要素が保持されているときには、この特徴構成要素を入力として、特徴フレーズインデックス３を検索する（ステップＣ７、Ｃ８）。この特徴構成要素を構成要素としてもつフレーズと、そのフレーズを含む文書ＩＤと、その文書内容を取得する（ステップＣ９）。

上記の例の場合、類似文書群取得部７は、「エスニック」という特徴構成要素を入力として特徴フレーズインデックス３を検索する。そして「エスニックな雰囲気」「エスニックなメニュー」「エスニックな料理」といった、構成要素として特徴構成要素「エスニック」を含むフレーズを見出し、そのフレーズを含む文書ＩＤと、その文書内容を取得する。

そして、特徴構成要素が肯定されている場合には、そのようにして得られた文書の優先度を上げて、推薦文書出力部４に送信する（ステップＣ１０、Ｃ１１）。それと同時に、推薦の根拠としての特徴構成要素を推薦根拠出力部８に送信する。

同様にして、特徴構成要素が否定されている場合には、そのようにして得られた文書の優先度を下げるか、あるいはそのようにして得られた文書を削除して、推薦文書出力部４に送信する。

上記各実施形態により、第二の文書を文書データベースから選択する際に、フレーズを構成要素の単語に分割し、その各構成要素に対して、文書データベースに格納された文書全体における出現頻度および出現の偏りを求めて類似度計算を行うため、文書の特徴語句として単語や複合語やフレーズ全体を利用する場合に比べて利用者が選択した第一の文書により類似した文書を、利用者に推薦することができる。

さらに、推薦根拠として、文書の特徴語句となるフレーズを利用者に提示し、利用者からそのフレーズが推薦根拠として妥当か否かの評価を受け取り、次回からの推薦の際の類似度計算に使用することが出来る。その際、フレーズの型を変換して、同義フレーズを増やすため、単に指定されたフレーズそれ自体を利用する場合に比べて、利用者の嗜好により適合した文書を利用者に推薦することができる。

また、フレーズを構成要素の単語に分割し、その各構成要素に対して、文書データベースに格納された文書全体における出現の偏りを求めて出現の偏りの高さが一定値以下の構成要素をフレーズから取り除いて特徴構成要素を求め、その特徴構成要素を構成要素としてもつフレーズを含む文書の優先度を計算するため、単に指定されたフレーズそれ自体を利用する場合に比べて、利用者の嗜好により適合した文書を利用者に推薦することができる。

なお、各図のフローチャートに示す処理を、ＣＰＵが実行するためのプログラムは本発明によるプログラムを構成する。このプログラムを記録する記録媒体としては、半導体記憶部や光学的及び／又は磁気的な記憶部等を用いることができる。このようなプログラム及び記録媒体を、前述した各実施形態とは異なる構成のシステム等で用い、そこのＣＰＵで上記プログラムを実行させることにより、本発明と実質的に同じ効果を得ることができる。

以上、本発明を好適な実施形態に基づき具体的に説明したが、本発明は上記のものに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。

本発明の実施形態に係る情報推薦装置のブロック構成図である。本発明の実施形態に係る文書データベース１の内容の一例を示す図である。本発明の実施形態に係るインデックス作成部２の動作処理を示すフローチャートである。本発明の実施形態に係る特徴フレーズインデックス３の保持している内容の一例を示す図である。本発明の実施形態に係る類似文書群取得部７の動作処理を示すフローチャートである。本発明の実施形態に係る情報推薦装置のブロック構成図である。本発明の実施形態に係る推薦根拠出力部８が表示装置２０に送信するデータの表示例を示す図である。本発明の実施形態に係る推薦根拠出力部８が表示装置２０に送信するデータの別の表示例を示す図である。本発明の実施形態に係る推薦根拠評価受付部９が入力装置３０から受信するデータの入力例を示す図である。本発明の実施形態に係る推薦根拠評価受付部９が入力装置３０から受信するデータの別の入力例を示す図である。本発明の実施形態に係る類似文書群取得部７の動作処理を示すフローチャートである。

符号の説明

１文書データベース
２インデックス作成部
３特徴フレーズインデックス
４推薦文書出力部
５選択文書受付部
６特徴フレーズ取得部
７類似文書群取得部
８推薦根拠出力部
９推薦根拠評価受付部
１０特徴フレーズ展開部
１１、１２情報推薦装置
２０表示装置
３０入力装置

Claims

推薦する文書の候補となる文書群を格納した文書データベースと、
前記文書データベースに格納された各文書の特徴語句を抽出する際に各文書を形態素解析または構文解析して係り受け関係にある複数単語からなるフレーズを抽出し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する頻度を計算し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する偏りの程度を計算し、抽出したフレーズを構成する各単語について、前記出現の頻度と偏りとの積を計算し、該積の値の大きさを抽出したフレーズの優先度として、抽出した複数のフレーズの中から、前記優先度が一定値以上のフレーズを特徴語句とし、各文書と特徴語句との対応付けを作成するインデックス作成手段と、
前記インデックス作成手段で作成した各文書と特徴語句との対応付けを保持した特徴フレーズインデックスと、
推薦文書を出力する推薦文書出力手段と、
前記出力された推薦文書に対して特定の文書が選択されたという情報を受け取る選択文書受付手段と、
前記選択文書受付手段にて受け付けた選択文書を入力として、前記特徴フレーズインデックスを検索し、選択文書に対する特徴フレーズを取得する特徴フレーズ取得手段と、
前記特徴フレーズ取得手段から、選択文書と対応する特徴フレーズとを受け取り、前記特徴フレーズを入力として前記特徴フレーズインデックスを検索し、入力したフレーズを特徴フレーズとする文書を前記文書データベースから取得する類似文書群取得手段と、
を有することを特徴とする情報推薦装置。
前記選択文書と、前記類似文書群取得手段が取得した類似文書とが共通に持つ特徴フレーズを、前記類似文書を推薦する根拠として出力する推薦根拠出力手段と、
出力された推薦根拠である特徴フレーズの中から選択された特定の特徴フレーズと、前記特定のフレーズに対する肯定または否定の評価内容とを受け取る推薦根拠評価受付手段と、
前記推薦根拠評価受付手段から、前記選択された特定の特徴フレーズと、前記評価内容とを受け取り保持し、前記特徴フレーズを構成要素の単語に分割し、構成要素の各単語が、前記文書データベース全体の中に出現する偏りの程度を計算し、偏りの高さが一定値以下の構成要素を特徴フレーズから差し引いた残りの特徴構成要素を保持する特徴フレーズ展開手段と、
を有することを特徴とする請求項１記載の情報推薦装置。
請求項１又は２記載の情報推薦装置と、表示装置と、入力装置とから構成され、
前記表示装置は、前記推薦文書出力手段又は前記推薦根拠出力手段からの出力を受け取り、表示部に表示する表示手段を備え、
前記情報推薦装置が備える選択文書受付手段又は推薦根拠評価受付手段は、前記入力装置から受け付けることを特徴とする情報推薦システム。
推薦する文書の候補となる文書群を格納した文書データベースから、前記格納された各文書の特徴語句を抽出する際に各文書を形態素解析または構文解析して係り受け関係にある複数単語からなるフレーズを抽出し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する頻度を計算し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する偏りの程度を計算し、抽出したフレーズを構成する各単語について、前記出現の頻度と偏りとの積を計算し、該積の値の大きさを抽出したフレーズの優先度として、抽出した複数のフレーズの中から、前記優先度が一定値以上のフレーズを特徴語句とし、各文書と特徴語句との対応付けを作成するステップと、
推薦文書を出力するステップと、
前記出力された推薦文書に対して特定の文書が選択されたという選択文書の情報を受け取るステップと、
前記受け付けた選択文書を入力として、前記作成した各文書と特徴語句との対応付けを保持した特徴フレーズインデックスを検索し、選択文書に対する特徴フレーズを取得するステップと、
前記取得した選択文書と対応する特徴フレーズとを受け取り、前記特徴フレーズを入力として前記特徴フレーズインデックスを検索し、入力したフレーズを特徴フレーズとする文書を前記文書データベースから取得するステップと、
を有することを特徴とする情報推薦方法。
推薦する文書の候補となる文書群を格納した文書データベースから、前記格納された各文書の特徴語句を抽出する際に各文書を形態素解析または構文解析して係り受け関係にある複数単語からなるフレーズを抽出し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する頻度を計算し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する偏りの程度を計算し、抽出したフレーズを構成する各単語について、前記出現の頻度と偏りとの積を計算し、該積の値の大きさを抽出したフレーズの優先度として、抽出した複数のフレーズの中から、前記優先度が一定値以上のフレーズを特徴語句とし、各文書と特徴語句との対応付けを作成する処理と、
推薦文書を出力する処理と、
前記出力された推薦文書に対して特定の文書が選択されたという選択文書の情報を受け取る処理と、
前記受け付けた選択文書を入力として、前記作成した各文書と特徴語句との対応付けを保持した特徴フレーズインデックスを検索し、選択文書に対する特徴フレーズを取得する処理と、
前記取得した選択文書と対応する特徴フレーズとを受け取り、前記特徴フレーズを入力として前記特徴フレーズインデックスを検索し、入力したフレーズを特徴フレーズとする文書を前記文書データベースから取得する処理と、
を有することを特徴とする情報推薦プログラム。
請求項５記載の情報推薦プログラムの処理を記録するコンピュータ読取り可能な記録媒体。