JP2009223781A - 情報推薦装置、情報推薦システム、情報推薦方法、プログラム及び記録媒体 - Google Patents

情報推薦装置、情報推薦システム、情報推薦方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP2009223781A
JP2009223781A JP2008069763A JP2008069763A JP2009223781A JP 2009223781 A JP2009223781 A JP 2009223781A JP 2008069763 A JP2008069763 A JP 2008069763A JP 2008069763 A JP2008069763 A JP 2008069763A JP 2009223781 A JP2009223781 A JP 2009223781A
Authority
JP
Japan
Prior art keywords
document
phrase
feature
characteristic
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008069763A
Other languages
English (en)
Inventor
Shinichiro Kamei
真一郎 亀井
Yoshiko Matsukawa
淑子 松川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008069763A priority Critical patent/JP2009223781A/ja
Publication of JP2009223781A publication Critical patent/JP2009223781A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】選択された第一の文書に関連・類似する文書を選択する情報推薦装置、情報推薦システム、情報推薦方法、プログラム及び記録媒体を提供する。
【解決手段】文書データベースに格納された各文書の特徴語句を抽出する際に、各文書を形態素解析等して係り受け関係にある複数単語からなるフレーズを抽出し、前記フレーズを構成する各単語が文書データベース全体の中に出現する頻度・偏りの程度を求め、前記頻度・偏りから算出した積の値の大きさを、前記フレーズの優先度とし、優先度が一定値以上のフレーズを特徴語句とし、各文書と特徴語句との対応付けを作成し、これを特徴フレーズインデックスに保持し、出力された推薦文書に対する特定文書選択情報を入力として、特徴フレーズインデックスを検索し、選択文書に対する特徴フレーズを取得し、これを入力として特徴フレーズインデックスを検索し、入力したフレーズを特徴フレーズとする文書を取得する。
【選択図】図1

Description

本発明は、情報推薦装置、情報推薦システム、情報推薦方法、プログラム及び記録媒体に関し、特に、利用者が選択した第一の文書に関連・類似した第二の文書を文書データベースの中から選び出して、利用者に推薦する情報推薦装置、情報推薦システム、情報推薦方法、プログラム及び記録媒体に関する。
利用者が選択した第一の文書に関連・類似した第二の文書を、文書データベースに格納された文書の中から選び出す方法として、文書に記述されたテキスト内容を利用する方法が知られている。
第一、第二両文書間の関連・類似の計算方法は、第一の文書に含まれている特徴語句の多くが含まれている文書を第二の文書として選択する、という方法を基礎としている。ここで「特徴語句」の選択の仕方には様々な方法が提案されているが、それらに共通した基本的な方針は以下の通りである。すなわち、まず、テキスト内から、ある条件を満たす語句を抽出して特徴語句の候補とし、次に、ある計算式に従ってその候補に優先度づけし、優先度の高いものを特徴語句と認定する。基本となる技術としては、非特許文献1に記載があるような以下の内容が知られている。これをここでは関連方法1と呼ぶ。
まず、単語または複合語を特徴語句の候補とする。ただし、機能語(助詞、助動詞など)を候補から除き、内容語(名詞、動詞、形容詞など)を候補の対象とする。次に、候補となった単語または複合語のうち、当該文書内の出現頻度が高いものを特徴語として優先する。この性質を満たす優先度付け方法としては、何通りかの方法が提案されているが、次の計算式を用いるTF法が代表的である。
[文書Aにおける特徴語句Tの重み] W(T、A)
= tf(T、A) = 文書Aにおける特徴語Tの出現頻度
優先度付けの方法としては、候補となった単語または複合語のうち、母集団の文書群における出現の偏りの高いものを特徴語として優先する、という方法も知られている。この性質を満たす優先度付け方法としては、何通りかの方法が提案されているが、次の計算式を用いるIDF法が代表的である。
[特徴語句Tの重み] W(T)
= idf(T)
= 文書データベース中の母集団文書群における特徴語Tの偏りの大きさ
= log ( N / df(T)) + 1
ここで、N = 母集団文書群の文書数
df = 母集団文書群の中で、特徴語Tが出現する文書数
上記二つの優先度付け方法の両方の性質を満たす優先度付け方法としては、これらの積を用いる TF・IDF法と呼ばれる方法が代表的である。
[文書Aにおける特徴語句Tの重み] W(T、A)
= [文書Aにおける特徴語句Tの出現頻度] tf(T、A)
× [母集団文書群における特徴語句Tの偏りの大きさ] idf(T)
また、上記の関連方法1を改良した方法の一つとして、特許文献1では、特徴語句の候補対象を拡張し、係り受け関係にある複数単語のつながり(以下では「フレーズ」と呼ぶ)を特徴語句の候補とする方法が提案されている。これをここでは関連方法2と呼ぶ。なお、関連方法2においても、候補対象の優先付け方法は、上記の関連方法1と同様、候補フレーズの当該文書内での出現頻度の高さ、あるいは候補フレーズの母集団文書群における出現の偏りの高さ、あるいはその積を用いている。
上記の関連方法1を改良した方法の一つとして、特許文献2、特許文献3では、利用者が選択した第一の文書に関連・類似した第二の文書を利用者に推薦・提示するとき、同時に、第二の文書を推薦した根拠を提示し、その根拠に対して、利用者から肯定あるいは否定の評価を受け、次回以降の関連度・類似度の計算に使用する方法が提案されている。これをここでは関連方法3と呼ぶ。
関連方法3の場合、第二の文書を推薦した根拠としては、第一の文書と第二の文書との関連度・類似度の計算に用いた単語または複合語を用いている。第二の文書を推薦した根拠として提示した特徴語句に対して利用者が肯定の評価を入力した場合、システムはその評価を受け取り、当該の特徴語の重みを上げて、次回以降の関連度・類似度の計算に使用する。第二の文書を推薦した根拠として提示した特徴語句に対して利用者が否定の評価を入力した場合、システムはその評価と受け取り、当該の特徴語句の重みを下げるか、あるいはその特徴語句を対象から削除して、次回以降の関連度・類似度の計算を行う。
特開2004−240576号公報 特開2006−339794号公報 特開2007−011901号公報 徳永健伸『情報検索と言語処理』東京大学出版会1999
しかしながら、上記のような技術には、以下の問題点がある。まず第1点目の課題として、文書の特徴語句として単語または複合語だけを対象とした場合に、第一の文書と第二の文書が関連・類似しているとは限らない、という問題点がある。例えば、第一の文書に「価格が高い」という表現があり、「価格」「高い」という二つの単語が特徴語句として抽出された場合は、「解像度が高いカメラで価格が安い機種」といった文意の全く異なる文を含む文書が元の文書と類似度が高い文書として判定されてしまう可能性がある。
また、特許文献2、特許文献3のように、推薦の根拠を利用者に提示する場合に、単語または複合語を提示しただけでは推薦の根拠が理解されない場合がある。まず、特徴語句として単語または複合語を対象とすると、第一の文書と第二の文書が同じ特徴語句を共有していたとしても、意味内容が関連・類似しているとは限らない。例えば、特徴語句として単語「雰囲気」「やわらかい」「おいしい」などが選ばれても、どんな「雰囲気」なのか、何が「やわらかい」のか、何が「おいしい」のか特定できない。従って必ずしも第一の文書と第二の文書が類似しているとは言えない。そして、推薦の根拠となる特徴語句として単語または複合語を利用者に提示しても、どんな「雰囲気」なのか、何が「やわらかい」のか、何が「おいしい」のかが特定できない。従って利用者に関連・類似の根拠が充分に伝わらないため、利用者は推薦の根拠となる特徴語に対する否定・肯定の評価を行うことが困難であった。
上述のような第1点目の課題を解決するという観点からは、特許文献1のように、「フレーズ」を特徴語句に採用することは有効である。上記関連方法2では、例えば「価格(名詞)−が(助詞)−高い(形容詞)」というフレーズ全体を特徴語句の候補とする。しかしながら、特許文献1に記載されている技術も、下記の第2点目の課題および第3点目の課題および第4点目の課題を問題点として有している。これら第2点目の課題、第3点目の課題、第4点目の課題は、特徴語句を単語または複合語、あるいはフレーズとした場合にも共通する問題点である。
上記関連技術の第2点目の課題は、文書の特徴語句の選択において、「当該文書内の出現頻度が高いものを優先する」という方法が有効でない場合がある、という点である。情報推薦が対象とする文書の一つ一つは、数行ないし十数行程度の短い文書の場合が頻繁にある。例えば、書籍、音楽CD、映画、TV番組、飲食店といった項目を利用者に推薦する場合、それらの項目の説明文を利用者に推薦提供するが、これらの説明文は数行ないし十数行程度の短い文である場合が多い。このように短い文書の場合、同一文書内に同じ単語や複合語が複数回出現することは稀である。したがって、出現回数に閾値Nを設定し、N回以上出現する単語ないし複合語を特徴語とする場合に、閾値Nを2以上に設定すると、対象となる特徴語がほとんど無くなってしまい、有効な特徴語句が選択できないという問題が生じる。
第3点目の課題は、文書の特徴語句の選択において、「母集団の文書群における出現の偏りの高いものを優先する」という方法が有効でない場合がある、という点である。飲食店の特徴を記述した説明文を利用者に推薦提供する場合を例に挙げて以下説明する。上記関連技術では、単語「店」「味」「雰囲気」「料理」「メニュー」など、母集団の文書群に偏りなく広く出現する単語は、特徴語句としての優先度が低くなり、特徴語句に選ばれない。しかし、母集団の文書群に広く出現する単語には、評価の観点の軸を表す重要な単語が含まれる場合もある。例えば「メニューが豊富」という表現の場合、単語「メニュー」が評価の軸を表し、単語「豊富」が、それらの評価軸の具体的な様子を表している。しかし上記関連技術のように、母集団の文書群に偏りなく広く出現する単語を特徴語句に含めない方法を採用した場合は、単語「メニュー」は特徴語句に含まれず、単語「豊富」だけを特徴語句とすることになる。単語「豊富」だけでは評価の観点が示されないため、何が「豊富」なのか判断することができないという問題が生じる。すなわち、母集団の文書群に広く出現する単語を含めて類似度を計算する方が、文書間の関連・類似をより適切に反映させることができる。
また同様に、利用者に関連・類似となった根拠を提示する場合にも、母集団の文書群に広く出現する単語を含むフレーズを示す方法の方が、利用者にとって意味が分かりやすく望ましい。母集団の文書群における出現の偏りの高い特徴語のみから成るフレーズを表示する場合に比べて、利用者が推薦の根拠となる特徴語句に対して、肯定・否定の評価を行うことが容易になる。
例えば、推薦の根拠として「メニューが豊富」というフレーズを利用者に提示した場合には利用者にとってその意味がわかりやすい。したがって、示された推薦の根拠を、推薦の根拠として採用するための肯定の評価や、推薦の根拠として採用しないようにするための否定の評価を行いやすい。これに対し、推薦の根拠として単語「豊富」だけを示しても、利用者にとってその意味がわかりにくい。
推薦の根拠として単語を複数示した場合にも、例えば、単語「豊富」と単語「メニュー」の間に関係があるのか、関係がないのかが不明なので、利用者にとって推薦の根拠がわかりにくい。したがって、示された推薦の根拠を、推薦の根拠として採用するための肯定の評価や、推薦の根拠として採用しないようにするための否定の評価を行いにくい。
第4点目の課題は、利用者から推薦の妥当性に関して肯定・否定の評価を受けて、それを次回からの関連・類似文書選択方法に反映する場合に、単純に特徴語句の重みを上げたり、特徴語句を対象から削除したりする方法では不十分な場合がある、という点である。
特許文献2、特許文献3では、推薦の根拠として利用者に示すのは単語または複合語であるが、これを単にフレーズに拡張し、推薦の根拠としてフレーズを利用者に示す場合を考える。例えば「エスニックな雰囲気」というフレーズが利用者に示され、利用者がこれを肯定評価した場合、単に「エスニックな雰囲気」というフレーズの重みだけを上げる方法を採ると、「エスニックなメニュー」「エスニックな料理」といった、意味の類似したフレーズの重みが上げられない、という問題点があった。
また、「エスニックな雰囲気」というフレーズが否定評価された場合、従来法のように「エスニックな雰囲気」というフレーズだけの重みを下げたり、このフレーズだけを対象から削除する方法を採ると、「エスニックなメニュー」「エスニックな料理」といった、意味の類似したフレーズの重みを下げたり、削除したりできない、という問題点があった。
上記第4点目の課題に対する対策としては、単語の場合に類義語データベースを保持するのと同様な方法が容易に想到される。すなわち、予め類義フレーズデータベースを作成しておく方法が想到され得る。しかしこの方法は、現実的には有効性が低い。なぜなら、上記の例で挙げた「雰囲気」という単語と「メニュー」や「料理」という単語は、単語単独で考えた場合には、類義語とは考えられないからである。したがって、予め「エスニックな雰囲気」に対して「エスニックなメニュー」や「エスニックな料理」といった類義表現を格納した類義フレーズデータベースを保持しておくという仕組みは、実現性が低い。つまり、特許文献2、特許文献3で提案されている単語または複合語に対する方法を、単にフレーズに拡張しただけでは、この問題に対処することが出来ない。
以上のように、上述した関連技術では、利用者が選択した文書に類似した文書を文書データベースから選択する場合に、文書に含まれる単語や複合語を用いる手法では元の文書に類似していない文書が含まれる可能性があった点、単語や複合語の代わりにフレーズを用いる方法でも当該文書内での頻度を用いる方法では短い文書に対して有効な類似度計算ができなかった点、さらに、利用者に対して単語や複合語を推薦の根拠として提示する際に、利用者にとって推薦の根拠が判り難いため、利用者からの推薦根拠の妥当性の可否評価を受けにくかった点が問題となっていた。
本発明はこのような状況に鑑みてなされたものであり、選択された第一の文書からその文書の特徴語句となるフレーズを抽出し、そのフレーズに類似したフレーズ群を生成し、そのフレーズ群を含む第二の文書を文書データベースから選択することを目的とする。
本発明に係る第1の情報推薦装置は、推薦する文書の候補となる文書群を格納した文書データベースと、前記文書データベースに格納された各文書の特徴語句を抽出する際に各文書を形態素解析または構文解析して係り受け関係にある複数単語からなるフレーズを抽出し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する頻度を計算し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する偏りの程度を計算し、抽出したフレーズを構成する各単語について、前記出現の頻度と偏りとの積を計算し、該積の値の大きさを抽出したフレーズの優先度として、抽出した複数のフレーズの中から、前記優先度が一定値以上のフレーズを特徴語句とし、各文書と特徴語句との対応付けを作成するインデックス作成手段と、前記インデックス作成手段で作成した各文書と特徴語句との対応付けを保持した特徴フレーズインデックスと、推薦文書を出力する推薦文書出力手段と、前記出力された推薦文書に対して特定の文書が選択されたという情報を受け取る選択文書受付手段と、前記選択文書受付手段にて受け付けた選択文書を入力として、前記特徴フレーズインデックスを検索し、選択文書に対する特徴フレーズを取得する特徴フレーズ取得手段と、前記特徴フレーズ取得手段から、選択文書と対応する特徴フレーズとを受け取り、前記特徴フレーズを入力として、前記特徴フレーズインデックスを検索し、入力したフレーズを特徴フレーズとする文書を前記文書データベースから取得する類似文書群取得手段と、を有することを特徴とする。
本発明に係る第1の情報推薦システムは、上記第1の情報推薦装置と、表示装置と、入力装置とから構成され、前記表示装置は、前記推薦文書出力手段又は前記推薦根拠出力手段からの出力を受け取り、表示部に表示する表示手段を備え、前記情報推薦装置が備える選択文書受付手段又は推薦根拠評価受付手段は、前記入力装置から受け付けることを特徴とする。
本発明に係る第1の情報推薦方法は、推薦する文書の候補となる文書群を格納した文書データベースから、前記格納された各文書の特徴語句を抽出する際に各文書を形態素解析または構文解析して係り受け関係にある複数単語からなるフレーズを抽出し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する頻度を計算し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する偏りの程度を計算し、抽出したフレーズを構成する各単語について、前記出現の頻度と偏りとの積を計算し、該積の値の大きさを抽出したフレーズの優先度として、抽出した複数のフレーズの中から、前記優先度が一定値以上のフレーズを特徴語句とし、各文書と特徴語句との対応付けを作成するステップと、推薦文書を出力するステップと、前記出力された推薦文書に対して特定の文書が選択されたという選択文書の情報を受け取るステップと、前記受け付けた選択文書を入力として、前記作成した各文書と特徴語句との対応付けを保持した特徴フレーズインデックスを検索し、選択文書に対する特徴フレーズを取得するステップと、前記取得した選択文書と対応する特徴フレーズとを受け取り、前記特徴フレーズを入力として前記特徴フレーズインデックスを検索し、入力したフレーズを特徴フレーズとする文書を前記文書データベースから取得するステップと、を有することを特徴とする。
本発明に係る第1の情報推薦プログラムは、推薦する文書の候補となる文書群を格納した文書データベースから、前記格納された各文書の特徴語句を抽出する際に各文書を形態素解析または構文解析して係り受け関係にある複数単語からなるフレーズを抽出し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する頻度を計算し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する偏りの程度を計算し、抽出したフレーズを構成する各単語について、前記出現の頻度と偏りとの積を計算し、該積の値の大きさを抽出したフレーズの優先度として、抽出した複数のフレーズの中から、前記優先度が一定値以上のフレーズを特徴語句とし、各文書と特徴語句との対応付けを作成する処理と、推薦文書を出力する処理と、前記出力された推薦文書に対して特定の文書が選択されたという選択文書の情報を受け取る処理と、前記受け付けた選択文書を入力として、前記作成した各文書と特徴語句との対応付けを保持した特徴フレーズインデックスを検索し、選択文書に対する特徴フレーズを取得する処理と、前記取得した選択文書と対応する特徴フレーズとを受け取り、前記特徴フレーズを入力として前記特徴フレーズインデックスを検索し、入力したフレーズを特徴フレーズとする文書を前記文書データベースから取得する処理と、を有することを特徴とする。
本発明に係る第1の記録媒体は、上記第1の情報推薦プログラムの処理を記録するコンピュータ読取り可能な記録媒体である。
本発明によれば、選択された第一の文書からその文書の特徴語句となるフレーズを抽出し、そのフレーズに類似したフレーズ群を生成し、そのフレーズ群を含む第二の文書を文書データベースから選択することが出来る。
以下に、本発明の実施形態について図面を用いて詳細に説明する。なお、以下に述べる実施形態は、本発明の好適な実施形態であるから、技術的に好ましい種々の限定が付されているが、本発明の範囲は、以下の説明において特に本発明を限定する旨の記載がない限り、これらの態様に限られるものではない。
本願発明の第1の実施形態について図を参照しながら説明する。図1は本願発明の第1の実施形態に係る情報推薦装置11のブロック構成図である。情報推薦装置11は、文書データベース1、インデックス作成部2、特徴フレーズインデックス3、推薦文書出力部4、選択文書受付部5、特徴フレーズ取得部6、類似文書群取得部7から構成される。表示装置20は、ディスプレイのように情報を利用者に表示する装置である。入力装置30は、キーボードやマウスや画面位置指示ペンのような利用者の入力情報をシステムに伝える装置である。なお、これら情報推薦装置、表示装置、入力装置から成る情報推薦システムや、情報推薦装置、表示装置、入力装置の機能を全て備える情報処理装置も本発明の範囲内である。
文書データベース1は、利用者に推薦する文書の候補となる文書群を保持している。インデックス作成部2は、文書データベース1に格納された各文書から前記特徴フレーズを抽出して、各文書と特徴フレーズを対応づける。特徴フレーズインデックス3は、インデックス作成部2で対応付けられた特徴フレーズと各文書との対応を保持する検索インデックスである。
類似文書群取得部7は、特徴フレーズ取得部6から受信したフレーズを入力として特徴フレーズインデックス3を介して文書データベース1を検索し、入力したフレーズを記述の中に含む文書群を取得する。推薦文書出力部4は、類似文書群取得部7の結果である文書群の内容を表示装置20に送信する。
表示装置20は、推薦文書出力部4から受信した文書群の内容を表示する。選択文書受付部5は、推薦文書出力部4が出力し、表示装置20が表示した文書群の中から利用者が選択した文書がどれであるかの情報を入力装置30から受け取る。
特徴フレーズ取得部6は、選択文書受付部5から利用者が選択した文書がどれであるかの情報を受け取り、それを入力として特徴フレーズインデックス3を検索し、当該文書に対する特徴フレーズを取得し、その特徴フレーズを類似文書群取得部7に送信する。
以下では、具体例を示して、本実施形態の動作処理を説明する。まず、文書データベース1には、利用者に推薦する対象となる文書群が格納されている。例えば、飲食店を推薦するシステムにおいては、各飲食店の特徴を記述した文書群が格納されている。図2は、文書データベース1に格納されている文書の一例を示す図である。例えば文書ID001は、「あたたかい雰囲気の店内で、やわらかい牛肉の料理を堪能できる。メニューが豊富で、他の店では味わえないめずらしいデザートも楽しめる。」という文書内容を持っている。
インデックス作成部2は、文書データベース1に格納された各文書を形態素解析し、続いて構文解析して、各文書の特徴語句として、係り受け関係にある単語のまとまり、すなわちフレーズを抽出する。この抽出されたフレーズが、各文書の特徴フレーズの候補となる。
図3は、本発明の実施形態に係るインデックス作成部2の動作処理を示すフローチャートである。インデックス作成部2は、文書データベース1から1つの文書を取得し(ステップA1)、取得した文書の文を形態素解析する(ステップA2)。
例えば文書ID001の文書の場合、次のように形態素解析される。以下では記号「/」で区切られた単位が形態素を表すものとする。
/あたたかい/雰囲気/の/店内/で/、/やわらかい/牛肉/の/料理/を/堪能/できる/。/メニュー/が/豊富/で/、/他/の/店/で/は/味わえ/ない/めずらしい/デザート/も/楽しめる/。/
インデックス作成部2は、形態素解析の後に構文解析を行い(ステップA3)、係り受け関係にある複数の単語からなるフレーズを抽出する(ステップA4)。例えば上記の文では以下のようなフレーズが抽出される。
/あたたかい/雰囲気/
/雰囲気/の/店内/
/店内/で/堪能/できる/
/やわらかい/牛肉/
/牛肉/の/料理/
/料理/を/堪能/できる/
/メニュー/が/豊富/
/他/の/店/
/店/で/は/味わえ/ない/
/めずらしい/デザート/
/デザート/も/楽しめる/
なお、インデックス作成部2は、形態素解析した後に正式な構文解析を行わず、連続する形態素のうち、係り受けの可能性のある形態素を、係り受け関係にあるものと近似的に認定してフレーズを抽出してもよい。
例えば、連体形の形態素の後に体言(名詞の類)が隣接している場合、近似的に係り受け関係にあるものと認定してもよい。同様に、連用形の形態素の後に用言(動詞、形容詞、形容動詞など)が隣接している場合、近似的に係り受け関係にあるものと認定してもよい。
抽出するフレーズの型は予め指定されている。抽出するフレーズの型の例としては「修飾語句D・被修飾語句H型」、「主語H・述語D型」が挙げられるが、本発明はこれに限定されるわけではない。
修飾語句D・被修飾語句H型の例としては、次のフレーズがある。
/あたたかい/雰囲気/
/やわらかい/牛肉/
/めずらしい/デザート/
上記の「/あたたかい/雰囲気/」という例において、「あたたかい」が修飾語句Dであり、「雰囲気」が被修飾語句Hである。
主語H・述語D型の例としては、次のフレーズがある。
/雰囲気/が/あたたかい/
/牛肉/は/やわらかい/
/デザート/も/めずらしい/
上記の「/雰囲気/が/あたたかい/」という例において、「雰囲気」が主語Hであり、「あたたかい」が述語Dである。
次に、インデックス作成部2は、抽出されたフレーズに対して、そのフレーズを文書の特徴フレーズとするかどうかを判定するための計算を行う(ステップA5、A6)。特徴フレーズの判定方法としては以下の2種類の式を用いる。
特徴フレーズPの第一の重み W1(P)
= [母集団文書群内での特徴フレーズ要素Hの出現頻度]
× [母集団文書群内での特徴フレーズ要素Dの偏りの大きさ]
特徴フレーズPの第二の重み W2(P)
= [母集団文書群内での特徴フレーズ要素Hの偏りの大きさ]
× [母集団文書群内での特徴フレーズ要素Dの偏りの大きさ]
これらの式において、特徴フレーズPの重みの計算に、そのフレーズの構成要素の出現頻度および偏りの大きさを用いている点が、上述した関連技術と異なる点である。これらの式において、特徴フレーズ要素Hとは、上述の「修飾語句D・被修飾語句H型」のフレーズの場合には被修飾語Hであり、「主語H・述語D型」のフレーズの場合には主語Hである。これらの式において、特徴フレーズ要素Dとは、上述の「修飾語句D・被修飾語句H型」のフレーズの場合には修飾語Dであり、「主語H・述語D型」のフレーズの場合には述語Dである。
例えば「あたたかい雰囲気」というフレーズの場合には、特徴フレーズ要素Hは「雰囲気」であり、特徴フレーズ要素Dは「あたたかい」である。「雰囲気があたたかい」というフレーズの場合にも、特徴フレーズ要素Hは「雰囲気」であり、特徴フレーズ要素Dは「あたたかい」である。
上記第1式、すなわち、特徴フレーズPの重みW1(P)を計算する式では、右辺第1項で母集団全体における出現頻度を計算する点が、上記関連技術と異なる点である。上記関連技術は、当該文書内における特徴語句の出現頻度を用いる方法が提案されていたが、本発明においては、母集団文書群内すなわち文書データベース1に格納された文書全体における出現頻度を用いる点に特徴がある。このことを上記の例を使って説明する。
上述のように、関連技術では、当該文書内において出現頻度の高い特徴語句の優先度を上げていたが、テキスト量の少ない文書を対象とする場合に、同一文書内に同じフレーズが複数回出現することは非常に稀であった。したがって、同一文書内における出現頻度の計算は、特徴語句の選択に有効ではなかった。
これに対して、本発明に係る上記第1式では、母集団文書群内において出現頻度の高い単語を含むフレーズの優先度を上げる。つまり、文書データベース1に格納されている文書群全体の中での出現頻度の高い単語を含むフレーズの優先度を上げる。
例えば、特徴フレーズ要素Hである「雰囲気」は、文書データベース1に格納されている文書群全体の中での出現頻度が高いとする。関連技術では、このような文書群全体に偏りなく出現する単語は、優先度が下げられたり、対象から削除されたりしていた。しかしながら、本発明では、このような単語を含むフレーズの優先度を高くする点に特徴がある。
インデックス作成部2では、上記の特徴フレーズPの重み W1(P)およびW2(P)の値にそれぞれ閾値を設定でき、特徴フレーズPの重み W1(P)またはW2(P)の値が閾値以上の場合、そのフレーズを各文書の特徴フレーズとして認定する(ステップA7)。
例として、次のフレーズを考える。
「和の雰囲気」
この場合、特徴フレーズ要素Hは「雰囲気」であり、特徴フレーズ要素Dは「和」である。この例では、特徴フレーズ要素H「雰囲気」は母集団文書群内で頻繁に出現するので、上記W1(P)の計算式の右辺第1項の値が大きい。特徴フレーズ要素D「和」は、特定の文書だけに出現するので、母集団文書群内での偏りの大きさは大きく、上記W1(P)の計算式の右辺第2項の値が大きい。したがって、この「和の雰囲気」というフレーズPの重みW1(P)の値は大きくなり、一定の閾値を超えるので、このフレーズは文書の特徴フレーズとして認定される。
また、他の例として、次のフレーズを考える。
「独特のオーラ」
この場合、特徴フレーズ要素Hは「オーラ」であり、特徴フレーズ要素Dは「独特」である。この例では、特徴フレーズ要素H「オーラ」は、特定の文書だけに出現するので母集団文書群内での偏りの大きさは大きく、上記W2(P)の計算式の右辺第1項の値が大きい。特徴フレーズ要素D「独特」は、特定の文書だけに出現するので、母集団文書群内での偏りの大きさは大きく、上記W2(P)の計算式の右辺第2項の値が大きい。したがって、この「独特のオーラ」というフレーズPの重みW2(P)の値は大きくなり、一定の閾値を超えるので、このフレーズは文書の特徴フレーズとして認定される。
このように、本発明では、特徴フレーズPに対して、特徴フレーズ要素Hの母集団全体における出現頻度を重視した第一の重みW1(P)と、特徴フレーズ要素Hの母集団全体における偏りの大きさを重視した第二の重みW2(P)の2種類の重みを使って特徴フレーズを認定するので、出現頻度の高い単語を含むフレーズも、出現の偏りの大きい単語を含むフレーズも特徴フレーズとして選定することができる。
特徴フレーズインデックス3は、上述のようにしてインデックス作成部2で対応づけられた各文書のIDとその特徴フレーズの対応を保持している。図4は、特徴フレーズインデックス3が保持している文書IDと特徴語フレーズの対応の例である。図4によれば、例えば、文書ID001に対して「あたたかい雰囲気」「やわらかい牛肉」「メニューが豊富」「めずらしいデザート」といったフレーズが特徴フレーズとして保持される。
特徴フレーズインデックス3は、ある文書のIDが入力されると、そのIDに対応する文書に含まれる特徴フレーズを出力する。例えば、文書ID001が入力されると、以下のようなその文書の特徴フレーズを出力する。
「あたたかい雰囲気」
「やわらかい牛肉」
「メニューが豊富」
「めずらしいデザート」
また、特徴フレーズインデックス3は、あるフレーズが入力されると、そのフレーズを含む文書の文書IDを得る。さらに、そのIDを用いて文書データベース1を検索してそのフレーズを含む文書の文書内容を得て、入力されたフレーズを含む文書の文書IDと文書内容を出力する。
例えば「あたたかい雰囲気」というフレーズが入力されると、以下のようにそのフレーズを含む文書の文書IDと、その文書内容を出力する。
文書ID001:「あたたかい雰囲気の店内で、やわらかい牛肉の料理を堪能できる。メニューが豊富で、他の店では味わえないめずらしいデザートも楽しめる。」
この場合、そのフレーズを含む文書IDが複数存在すれば、複数の文書IDと文書内容を出力する。
図4によれば「あたたかい雰囲気」というフレーズを持つ文書として次の文書が文書IDと共に出力される。
文書ID001:「あたたかい雰囲気の店内で、やわらかい牛肉の料理を堪能できる。メニューが豊富で、他の店では味わえないめずらしいデザートも楽しめる。」
文書ID012:「おかえりなさい、という声が聞こえてきそうな、あたたかい雰囲気の家庭料理の店。」
文書ID198:「しゃれた店内にクラシックが流れるカフェ。オーナーのあたたかい雰囲気が気持ちをなごませる。」
類似文書群取得部7は、特徴フレーズインデックス3にフレーズを入力して、そのフレーズを含む文書の文書IDと、その文書内容を出力する。図5は類似文書群取得部7の動作を示すフローチャートである。類似文書群取得部7は、特徴フレーズ取得部6からフレーズを受信し(ステップB1)、そのフレーズを入力として特徴フレーズインデックス3を検索し(ステップB2)、入力されたフレーズを含む文書の文書IDと文書内容を特徴フレーズインデックス3から受信する(ステップB3)。次に、類似文書群取得部7が行うフレーズ型変換(ステップB4)について説明する。
類似文書群取得部7は、修飾語句D・被修飾語句H型のフレーズに対しては、それに対応する主語H・述語D型のフレーズを合成し、また、主語H・述語D型のフレーズのフレーズに対しては、それに対応する修飾語句D・被修飾語句H型のフレーズを合成するフレーズ型変換機能を有している(ステップB4)。この機能は、フレーズを要素の形態素に分割し、特徴フレーズ要素Hと特徴フレーズ要素Dの順序を入れ替え、用言の活用は語尾を調整し、体現の助詞を挿入・削除することで実現できる。
例えば、上記のフレーズ「あたたかい雰囲気」は修飾語句D・被修飾語句H型のフレーズである。類似文書群取得部7は、このフレーズを要素の形態素に分割し、特徴フレーズ要素H「雰囲気」と特徴フレーズ要素D「あたたかい」の順序を入れ替え、特徴フレーズ要素Hに後接する助詞を補って主語H・述語D型のフレーズ「雰囲気があたたかい」「雰囲気もあたたかい」などを合成する。
例えば、「店内は落ち着いている」は主語H・述語D型のフレーズである。類似文書群取得部7は、このフレーズを要素の形態素に分割し、特徴フレーズ要素H「店内」と特徴フレーズ要素D「落ち着い」の順序を入れ替え、特徴フレーズ要素Dに後接する助動詞を補って修飾語句D・被修飾語句H型のフレーズ「落ち着いている店内」「落ち着いた店内」などを合成する。
類似文書群取得部7は、合成して得られたフレーズ型変換(ステップB4)後のフレーズを入力として特徴フレーズインデックス3をさらに検索し(ステップB5)、そのフレーズを含む文書IDと文書本体を得る(ステップB6)。上記の例「あたたかい雰囲気」の場合、フレーズ型変換後のフレーズ「雰囲気があたたかい」「雰囲気もあたたかい」などを入力として特徴フレーズインデックス3を検索する。
文書データベース1が図2に示した内容例をもち、特徴フレーズインデックス3が図4に示した内容例を持つ場合、特徴フレーズインデックスから検索結果として次の文書IDおよび文書内容が出力され、類似文書群取得部7に送信される。
文書ID256:「シチューの名店。じっくり煮込んだ牛肉がやわらかい。店の雰囲気もあたたかい。」
類似文書群取得部7は、検索に使われた特徴フレーズと、その重みの値と、検索で得られた文書IDと、その文書内容を、推薦文書出力部4に送信する(ステップB7)。
推薦文書出力部4は、類似文書群取得部7から受信した文書IDとその文書本体を保持し、その文書に含まれる特徴フレーズの重みの値の大きさの順番に並べ替える。この場合、特徴フレーズが複数含まれている文書の場合、特徴フレーズの重みの和をとり、その文書の重みとする。
推薦文書出力部4は、文書IDと、その文書本体と、それらの順番とを表示装置20に送信する。
表示装置20は、推薦文書出力部4から受信した文書本体を、その順番に従って画面に表示する。例えば、上で例に挙げた4つの文書本体を次のように表示する。
「シチューの名店。じっくり煮込んだ牛肉がやわらかい。店の雰囲気もあたたかい。」
「しゃれた店内にクラシックが流れるカフェ。オーナーのあたたかい雰囲気が気持ちをなごませる。」
「あたたかい雰囲気の店内で、やわらかい牛肉の料理を堪能できる。メニューが豊富で、他の店では味わえないめずらしいデザートも楽しめる。」
「おかえりなさい、という声が聞こえてきそうな、あたたかい雰囲気の家庭料理の店。」
なお、各文書の文書IDは利用者に表示されてもされなくても構わない。表示されない場合にも、各文書とその文書IDは対応付けられて保持されている。利用者は、画面に推薦表示された複数の文書を読み、その中で気に入った一つの文書を、入力装置30を使って指示・選択する。
選択文書受付部5は、利用者によって指示された文書の情報を入力装置30から受信し、その文書の文書IDを特徴フレーズ取得部6に送信する。特徴フレーズ取得部6は、受信した文書IDを入力として特徴フレーズインデックス3を検索し、その文書IDの値をもつ文書に含まれる特徴フレーズを取得する。
例えば、上記の4つの文書の中から利用者が次の文書を選択した場合を述べる。
「あたたかい雰囲気の店内で、やわらかい牛肉の料理を堪能できる。メニューが豊富で、他の店では味わえないめずらしいデザートも楽しめる。」
選択文書受付部5は、この文書の文書ID001を特徴フレーズ取得部6に送信する。特徴フレーズ取得部6は、文書ID001を入力として、特徴フレーズインデックス3を検索する。
特徴フレーズインデックス3は、図4のように、文書IDと特徴フレーズの対応を保持している。文書ID001が入力されると、次のようなフレーズを出力する。
/あたたかい/雰囲気/
/やわらかい/牛肉/
/メニュー/が/豊富/
/めずらしい/デザート/
特徴フレーズ取得部6は、特徴フレーズインデックス3から上記のようなフレーズを取得し、文書IDと共に、類似文書群取得部7に送信する。類似文書群取得部7は、特徴フレーズ取得部6から受信したフレーズを入力として特徴フレーズインデックス3を検索し、そのフレーズを含む文書とその文書IDを受信し、その結果を、推薦文書出力部4に送信する。この動作は上述の通りである。
なお、類似文書群取得部7が、文書とその文書IDの組を推薦文書出力部4に送信する際、類似文書群取得部7が特徴フレーズ取得部6から受け取った文書IDと同一の文書IDをもった文書に関しては、それを推薦文書出力部4に送信するように設定することもできるし、送信しないように設定することもできる。
利用者に一度推薦された文書を再度推薦することが問題ない利用方法の場合、類似文書群取得部7が特徴フレーズ取得部6から受け取った文書IDと同一の文書IDをもった文書も、その他の文書と同様に、推薦文書出力部4に送信するように設定する。
利用者に一度推薦された文書を再度推薦することが不都合な利用方法の場合、類似文書群取得部7が特徴フレーズ取得部6から受け取った文書IDと同一の文書IDをもった文書も、その他の文書と同様に、推薦文書出力部4に送信しないように設定する。
次に、本願発明の第2の実施形態について図を参照しながら説明する。図6は本実施形態に係る情報推薦装置12のブロック構成図である。情報推薦装置12は、文書データベース1、インデックス作成部2、特徴フレーズインデックス3、推薦文書出力部4、選択文書受付部5、特徴フレーズ取得部6、類似文書群取得部7、推薦根拠出力部8、推薦根拠評価受付部9、特徴フレーズ展開部10から構成される。
推薦根拠部8は、類似文書群取得部7から文書の推薦根拠として特徴フレーズを受信し、表示装置20に送信する。推薦根拠評価受付部9は、推薦根拠として表示された特徴フレーズに対する利用者の肯定・否定の評価を入力装置30から受信し、その結果を特徴フレーズ展開部10に送信する。
特徴フレーズ展開部10は、利用者に示された推薦根拠である特徴フレーズの中から利用者が選択した特定のフレーズとその特定のフレーズに対する肯定または否定の評価とを推薦根拠評価受付部9から受け取って保持する。
また、特徴フレーズ展開部10は、評価を受けた特徴フレーズを構成要素に分解し、インデックス作成部2を参照して、構成要素の各単語が、文書データベース全体の中に出現する偏りの程度を取得し、偏りの高さが一定値以下の構成要素を特徴フレーズから差し引いた残りの特徴構成要素を保持する。
次に、本実施形態に係る情報推薦装置12の動作処理を説明する。
類似文書群取得部7は、文書内容とその文書IDを推薦文書出力部4に送信すると同時に、その文書を選択する理由となった特徴フレーズを推薦根拠出力部8に送信する。その際、類似文書群取得部7は、各文書IDとその文書内容と特徴フレーズとを組にして推薦根拠出力部8に送信しても良い。また、推薦文書出力部4に送信する文書の全ての特徴フレーズをまとめてそれらの特徴フレーズだけを推薦根拠出力部8に送信しても良い。
推薦根拠出力部8は、類似文書群取得部7から受信した特徴フレーズを表示装置20に送信する。その際、推薦根拠出力部8は、各文書IDとその文書内容と特徴フレーズとを組にして表示装置20に送信しても良い。また、類似文書群取得部7が推薦文書出力部4に送信する文書のすべての特徴フレーズをまとめて表示装置20に送信しても良い。
推薦根拠出力部8が、各文書IDとその文書内容と特徴フレーズとを組にして表示装置20に送信した場合、表示装置20は、各文書とその根拠を組にして利用者に表示する。
推薦根拠出力部8が、類似文書群取得部7が推薦文書出力部4に送信する文書のすべての特徴フレーズをまとめて表示装置20に送信した場合、表示装置20は、特徴フレーズをまとめて利用者に表示する。
例として、「あたたかい雰囲気」「牛肉がやわらかい」「しゃれた店内」という特徴フレーズを含む次の4つの文書を表示する場合を述べる。
「シチューの名店。じっくり煮込んだ牛肉がやわらかい。店の雰囲気もあたたかい。」
「しゃれた店内にクラシックが流れるカフェ。オーナーのあたたかい雰囲気が気持ちをなごませる。」
「あたたかい雰囲気の店内で、やわらかい牛肉の料理を堪能できる。メニューが豊富で、他の店では味わえないめずらしいデザートも楽しめる。」
「おかえりなさい、という声が聞こえてきそうな、あたたかい雰囲気の家庭料理の店。」
推薦根拠出力部8が、各文書IDとその文書内容と特徴フレーズとを組にして表示装置20に送信した場合、表示装置20は、例えば、図7のような形式で、文書内容と特徴フレーズを表示する。
推薦根拠出力部8が、類似文書群取得部7が推薦文書出力部4に送信する文書のすべての特徴フレーズをまとめて表示装置20に送信した場合、表示装置20は、例えば、図8のような形式で、文書内容と特徴フレーズを表示する。
利用者は、図7あるいは図8のような推薦結果を評価する。推薦結果の文書が自分の嗜好に合っている場合、その推薦理由に「肯定」の評価を入力する。推薦結果の文書が自分の嗜好に合っていない場合、その推薦理由に「否定」の評価を入力する。
図9は、図7の形式の推薦理由を表示した場合を例にして、利用者がある一つの推薦理由に「肯定」の評価を入力した場合の例を示す図である。
図10は、図8の形式で推薦理由を表示した場合を例にして、利用者がある一つの推薦理由に「否定」の評価を入力した場合の例を示す図である。
図9および図10では、利用者が推薦理由を評価する場合に、ある一つの推薦理由を選択する。するとシステムが「肯定」「否定」の評価の入力を促す。図9および図10では、肯定評価として「採用」と表示し、否定評価として「不採用」と表示する場合の例を示している。
利用者は、その推薦理由を次回以降の推薦で強調したい場合に、肯定評価を入力する。また、利用者は、その推薦理由を次回以降の推薦には使いたくない場合に、否定評価を入力する。
入力装置30から、ある推薦理由に対して利用者の肯定評価あるいは否定評価が入力されると、その信号を推薦根拠評価受付部9が受信する。推薦根拠評価受付部9は、評価された推薦理由の特徴フレーズと、肯定か否定かの評価内容とを組にして、特徴フレーズ展開部10に送付する。
図9では例として「牛肉がやわらかい」という特徴フレーズが肯定されている場合を示している。図10では例として「牛肉がやわらかい」という特徴フレーズが否定されている場合を示している。特徴フレーズ展開部10は、推薦根拠評価受付部9から受信した特徴フレーズを、構成要素の単語に分解し、類似文書群取得部7と同様の方法で、特徴フレーズの型を変換する。
すなわち、修飾語句D・被修飾語句H型のフレーズに対しては、それに対応する主語H・述語D型のフレーズを合成し、また、主語H・述語D型のフレーズのフレーズに対しては、それに対応する修飾語句D・被修飾語句H型のフレーズを合成するフレーズ型変換機能を有する。
例として「牛肉がやわらかい」というフレーズの場合には次のようになる。
このフレーズは、主語H・述語D型のフレーズである。特徴フレーズ展開部10は、このフレーズを要素の形態素に分割する。この例の場合には、以下のような構成要素に分解する。
/牛肉/が/やわらかい/
特徴フレーズ要素H「牛肉」と特徴フレーズ要素D「やわらかい」の順序を入れ替え、修飾語句D・被修飾語句H型のフレーズ「やわらかい牛肉」を合成する。なおこの際、必要に応じて特徴フレーズ要素Dに後接する助動詞等を補ってもよい。
この場合、結果として、特徴フレーズ展開部10は、推薦根拠評価受付部9から受信した特徴フレーズ「牛肉がやわらかい」と、その特徴フレーズの型を変換したフレーズ「やわらかい牛肉」とを保持する。
この状態で、利用者が次の文書を次の文書を選択した場合を例として考える。
「しゃれた店内にクラシックが流れるカフェ。オーナーのあたたかい雰囲気が気持ちをなごませる。」
利用者がこの文書を選択したという情報は、入力装置30を介して、選択文書受付部5に送信される。選択文書受付部5は、特徴フレーズ取得部6にこの文書の文書IDを送信する。上記の例の場合、図2によれば、文書IDは198である。
特徴フレーズ取得部6は、文書IDを入力として、特徴フレーズインデックス3を検索し、この文書の文書内容と特徴フレーズを受信する。
図2および図4によれば、この文書の特徴フレーズには以下のようなフレーズが含まれる。
/しゃれた/店内/
/あたたかい/雰囲気/
特徴フレーズ取得部6は、文書IDと、文書内容と、特徴フレーズの組を類似文書群取得部7に送信する。類似文書群取得部7は、特徴フレーズ取得部6から受け取った特徴フレーズを入力として特徴フレーズインデックス3を検索して、そのフレーズを含む文書を得る。
さらに類似文書群取得部7は、特徴フレーズ取得部6から受け取った特徴フレーズのフレーズ型を変換したフレーズを入力として特徴フレーズインデックス3を検索してそのフレーズを含む文書を得る。
上記の例の場合、フレーズ「しゃれた店内」を含む文書とフレーズ「あたたかい雰囲気」を含む文書とが得られる。後者の文書としては、次の4つの文書が得られる。
「シチューの名店。じっくり煮込んだ牛肉がやわらかい。店の雰囲気もあたたかい。」
「しゃれた店内にクラシックが流れるカフェ。オーナーのあたたかい雰囲気が気持ちをなごませる。」
「あたたかい雰囲気の店内で、やわらかい牛肉の料理を堪能できる。メニューが豊富で、他の店では味わえないめずらしいデザートも楽しめる。」
「おかえりなさい、という声が聞こえてきそうな、あたたかい雰囲気の家庭料理の店。」
次に類似文書群取得部7は、特徴フレーズ展開部10を参照する。特徴フレーズ展開部10には、利用者が評価したフレーズと、肯定か否定かという評価の値が保持されている。また、特徴フレーズ展開部10には、利用者が評価したフレーズのフレーズ型を変換したフレーズが保持されている。
図9の例の場合、「牛肉がやわらかい」というフレーズが肯定されている、という情報が特徴フレーズ展開部10に保持されている。また「牛肉がやわらかい」というフレーズの型を変換したフレーズとして「やわらかい牛肉」というフレーズが保持されている。
類似文書群取得部7は、特徴フレーズ展開部10に保持されているこの情報を候補となる文書の優先度に反映させる。この例の場合、「牛肉がやわらかい」「やわらかい牛肉」というフレーズを含む次の文書の優先度を上げて、推薦文書出力部4に送信する。
「シチューの名店。じっくり煮込んだ牛肉がやわらかい。店の雰囲気もあたたかい。」
「あたたかい雰囲気の店内で、やわらかい牛肉の料理を堪能できる。メニューが豊富で、他の店では味わえないめずらしいデザートも楽しめる。」
ここで、すでに利用者が選択した文書は再度表示しないという設定である場合を考える。この例の場合、利用者は、次の2つの文書を既に選択している。
「シチューの名店。じっくり煮込んだ牛肉がやわらかい。店の雰囲気もあたたかい。」
「しゃれた店内にクラシックが流れるカフェ。オーナーのあたたかい雰囲気が気持ちをなごませる。」
この場合、上記の4つの文書から、この2つの文書を除いた、次の2つの文書が推薦対象として選ばれて、推薦文書出力部4から表示装置20に送信される。
「あたたかい雰囲気の店内で、やわらかい牛肉の料理を堪能できる。メニューが豊富で、他の店では味わえないめずらしいデザートも楽しめる。」
「おかえりなさい、という声が聞こえてきそうな、あたたかい雰囲気の家庭料理の店。」
この場合、肯定評価を受けて優先度が高い「やわらかい牛肉」を含んだ文書が優先されて表示される。
次に、図10の例のように、「牛肉がやわらかい」というフレーズが否定されている場合の動作を説明する。特徴フレーズ展開部10には、「牛肉がやわらかい」というフレーズが否定されている、という情報が保持されている。また「牛肉がやわらかい」というフレーズの型を変換したフレーズとして「やわらかい牛肉」というフレーズが保持されている。
類似文書群取得部7は、特徴フレーズ展開部10に保持されているこの情報を候補となる文書の優先度に反映させる。この例の場合、「牛肉がやわらかい」「やわらかい牛肉」というフレーズを含む次の文書の優先度を下げるか、あるいは、対象から削除して、推薦文書出力部4に送信する。
「シチューの名店。じっくり煮込んだ牛肉がやわらかい。店の雰囲気もあたたかい。」
「あたたかい雰囲気の店内で、やわらかい牛肉の料理を堪能できる。メニューが豊富で、他の店では味わえないめずらしいデザートも楽しめる。」
結果として、上記の4つの文書から、この2つの文書を除いた、次の2つの文書が推薦対象として選ばれて、推薦文書出力部4から表示装置20に送信される。
「しゃれた店内にクラシックが流れるカフェ。オーナーのあたたかい雰囲気が気持ちをなごませる。」
「おかえりなさい、という声が聞こえてきそうな、あたたかい雰囲気の家庭料理の店。」
以上のようにして、利用者の肯定・否定の評価を、次回以降の推薦に利用する。さらに、特徴フレーズ展開部10は、保持している特徴フレーズを、構成要素の単語に分解し、母集団の文書群における出現の偏りの高さが一定値以下の構成要素の単語を見出し、特徴フレーズからその構成要素の単語を差し引いた残りの構成要素(ここでは「特徴構成要素」と呼ぶ)を保持する機能を有する。
例えば「エスニックな雰囲気」というフレーズが利用者に示され、利用者がこれを肯定評価した場合、特徴フレーズ展開部10は「エスニックな雰囲気」「雰囲気がエスニック」といった特徴フレーズを保持している。
特徴フレーズ展開部10は、これらの特徴フレーズを構成要素の単語に分解し、インデックス作成部2を参照して、それぞれの構成要素の単語の母集団の文書群における出現の偏りを求める。
「エスニックな雰囲気」「雰囲気がエスニック」といった特徴フレーズの場合、「エスニック」と「雰囲気」という2つの構成要素が得られるが、このうち構成要素「雰囲気」は、文書データベース1に格納されている母集団の文書群において広く分布する単語である。
つまり単語「雰囲気」は、母集団の文書群における出現の偏りの高さが一定値以下の構成要素である。特徴フレーズ展開部10は、保持している「エスニックな雰囲気」「雰囲気がエスニック」といった特徴フレーズから、母集団の文書群における出現の偏りの高さが一定値以下の構成要素である「雰囲気」を差し引く操作を行い、残った構成要素として「エスニック」という単語を得てこれを保持する。この例で「エスニック」が特徴構成要素である。
図11は、本実施形態に係る類似文書群取得部7の動作処理を示すフローチャートである。ステップC1〜C6は、図5のステップB1〜B6と同様である。
類似文書群取得部7は、特徴フレーズ展開部10を参照し、特徴フレーズ展開部10に、上記のような特徴構成要素が保持されているときには、この特徴構成要素を入力として、特徴フレーズインデックス3を検索する(ステップC7、C8)。この特徴構成要素を構成要素としてもつフレーズと、そのフレーズを含む文書IDと、その文書内容を取得する(ステップC9)。
上記の例の場合、類似文書群取得部7は、「エスニック」という特徴構成要素を入力として特徴フレーズインデックス3を検索する。そして「エスニックな雰囲気」「エスニックなメニュー」「エスニックな料理」といった、構成要素として特徴構成要素「エスニック」を含むフレーズを見出し、そのフレーズを含む文書IDと、その文書内容を取得する。
そして、特徴構成要素が肯定されている場合には、そのようにして得られた文書の優先度を上げて、推薦文書出力部4に送信する(ステップC10、C11)。それと同時に、推薦の根拠としての特徴構成要素を推薦根拠出力部8に送信する。
同様にして、特徴構成要素が否定されている場合には、そのようにして得られた文書の優先度を下げるか、あるいはそのようにして得られた文書を削除して、推薦文書出力部4に送信する。
上記各実施形態により、第二の文書を文書データベースから選択する際に、フレーズを構成要素の単語に分割し、その各構成要素に対して、文書データベースに格納された文書全体における出現頻度および出現の偏りを求めて類似度計算を行うため、文書の特徴語句として単語や複合語やフレーズ全体を利用する場合に比べて利用者が選択した第一の文書により類似した文書を、利用者に推薦することができる。
さらに、推薦根拠として、文書の特徴語句となるフレーズを利用者に提示し、利用者からそのフレーズが推薦根拠として妥当か否かの評価を受け取り、次回からの推薦の際の類似度計算に使用することが出来る。その際、フレーズの型を変換して、同義フレーズを増やすため、単に指定されたフレーズそれ自体を利用する場合に比べて、利用者の嗜好により適合した文書を利用者に推薦することができる。
また、フレーズを構成要素の単語に分割し、その各構成要素に対して、文書データベースに格納された文書全体における出現の偏りを求めて出現の偏りの高さが一定値以下の構成要素をフレーズから取り除いて特徴構成要素を求め、その特徴構成要素を構成要素としてもつフレーズを含む文書の優先度を計算するため、単に指定されたフレーズそれ自体を利用する場合に比べて、利用者の嗜好により適合した文書を利用者に推薦することができる。
なお、各図のフローチャートに示す処理を、CPUが実行するためのプログラムは本発明によるプログラムを構成する。このプログラムを記録する記録媒体としては、半導体記憶部や光学的及び/又は磁気的な記憶部等を用いることができる。このようなプログラム及び記録媒体を、前述した各実施形態とは異なる構成のシステム等で用い、そこのCPUで上記プログラムを実行させることにより、本発明と実質的に同じ効果を得ることができる。
以上、本発明を好適な実施形態に基づき具体的に説明したが、本発明は上記のものに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。
本発明の実施形態に係る情報推薦装置のブロック構成図である。 本発明の実施形態に係る文書データベース1の内容の一例を示す図である。 本発明の実施形態に係るインデックス作成部2の動作処理を示すフローチャートである。 本発明の実施形態に係る特徴フレーズインデックス3の保持している内容の一例を示す図である。 本発明の実施形態に係る類似文書群取得部7の動作処理を示すフローチャートである。 本発明の実施形態に係る情報推薦装置のブロック構成図である。 本発明の実施形態に係る推薦根拠出力部8が表示装置20に送信するデータの表示例を示す図である。 本発明の実施形態に係る推薦根拠出力部8が表示装置20に送信するデータの別の表示例を示す図である。 本発明の実施形態に係る推薦根拠評価受付部9が入力装置30から受信するデータの入力例を示す図である。 本発明の実施形態に係る推薦根拠評価受付部9が入力装置30から受信するデータの別の入力例を示す図である。 本発明の実施形態に係る類似文書群取得部7の動作処理を示すフローチャートである。
符号の説明
1 文書データベース
2 インデックス作成部
3 特徴フレーズインデックス
4 推薦文書出力部
5 選択文書受付部
6 特徴フレーズ取得部
7 類似文書群取得部
8 推薦根拠出力部
9 推薦根拠評価受付部
10 特徴フレーズ展開部
11、12 情報推薦装置
20 表示装置
30 入力装置

Claims (6)

  1. 推薦する文書の候補となる文書群を格納した文書データベースと、
    前記文書データベースに格納された各文書の特徴語句を抽出する際に各文書を形態素解析または構文解析して係り受け関係にある複数単語からなるフレーズを抽出し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する頻度を計算し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する偏りの程度を計算し、抽出したフレーズを構成する各単語について、前記出現の頻度と偏りとの積を計算し、該積の値の大きさを抽出したフレーズの優先度として、抽出した複数のフレーズの中から、前記優先度が一定値以上のフレーズを特徴語句とし、各文書と特徴語句との対応付けを作成するインデックス作成手段と、
    前記インデックス作成手段で作成した各文書と特徴語句との対応付けを保持した特徴フレーズインデックスと、
    推薦文書を出力する推薦文書出力手段と、
    前記出力された推薦文書に対して特定の文書が選択されたという情報を受け取る選択文書受付手段と、
    前記選択文書受付手段にて受け付けた選択文書を入力として、前記特徴フレーズインデックスを検索し、選択文書に対する特徴フレーズを取得する特徴フレーズ取得手段と、
    前記特徴フレーズ取得手段から、選択文書と対応する特徴フレーズとを受け取り、前記特徴フレーズを入力として前記特徴フレーズインデックスを検索し、入力したフレーズを特徴フレーズとする文書を前記文書データベースから取得する類似文書群取得手段と、
    を有することを特徴とする情報推薦装置。
  2. 前記選択文書と、前記類似文書群取得手段が取得した類似文書とが共通に持つ特徴フレーズを、前記類似文書を推薦する根拠として出力する推薦根拠出力手段と、
    出力された推薦根拠である特徴フレーズの中から選択された特定の特徴フレーズと、前記特定のフレーズに対する肯定または否定の評価内容とを受け取る推薦根拠評価受付手段と、
    前記推薦根拠評価受付手段から、前記選択された特定の特徴フレーズと、前記評価内容とを受け取り保持し、前記特徴フレーズを構成要素の単語に分割し、構成要素の各単語が、前記文書データベース全体の中に出現する偏りの程度を計算し、偏りの高さが一定値以下の構成要素を特徴フレーズから差し引いた残りの特徴構成要素を保持する特徴フレーズ展開手段と、
    を有することを特徴とする請求項1記載の情報推薦装置。
  3. 請求項1又は2記載の情報推薦装置と、表示装置と、入力装置とから構成され、
    前記表示装置は、前記推薦文書出力手段又は前記推薦根拠出力手段からの出力を受け取り、表示部に表示する表示手段を備え、
    前記情報推薦装置が備える選択文書受付手段又は推薦根拠評価受付手段は、前記入力装置から受け付けることを特徴とする情報推薦システム。
  4. 推薦する文書の候補となる文書群を格納した文書データベースから、前記格納された各文書の特徴語句を抽出する際に各文書を形態素解析または構文解析して係り受け関係にある複数単語からなるフレーズを抽出し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する頻度を計算し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する偏りの程度を計算し、抽出したフレーズを構成する各単語について、前記出現の頻度と偏りとの積を計算し、該積の値の大きさを抽出したフレーズの優先度として、抽出した複数のフレーズの中から、前記優先度が一定値以上のフレーズを特徴語句とし、各文書と特徴語句との対応付けを作成するステップと、
    推薦文書を出力するステップと、
    前記出力された推薦文書に対して特定の文書が選択されたという選択文書の情報を受け取るステップと、
    前記受け付けた選択文書を入力として、前記作成した各文書と特徴語句との対応付けを保持した特徴フレーズインデックスを検索し、選択文書に対する特徴フレーズを取得するステップと、
    前記取得した選択文書と対応する特徴フレーズとを受け取り、前記特徴フレーズを入力として前記特徴フレーズインデックスを検索し、入力したフレーズを特徴フレーズとする文書を前記文書データベースから取得するステップと、
    を有することを特徴とする情報推薦方法。
  5. 推薦する文書の候補となる文書群を格納した文書データベースから、前記格納された各文書の特徴語句を抽出する際に各文書を形態素解析または構文解析して係り受け関係にある複数単語からなるフレーズを抽出し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する頻度を計算し、抽出したフレーズを構成する各単語が、文書データベース全体の中に出現する偏りの程度を計算し、抽出したフレーズを構成する各単語について、前記出現の頻度と偏りとの積を計算し、該積の値の大きさを抽出したフレーズの優先度として、抽出した複数のフレーズの中から、前記優先度が一定値以上のフレーズを特徴語句とし、各文書と特徴語句との対応付けを作成する処理と、
    推薦文書を出力する処理と、
    前記出力された推薦文書に対して特定の文書が選択されたという選択文書の情報を受け取る処理と、
    前記受け付けた選択文書を入力として、前記作成した各文書と特徴語句との対応付けを保持した特徴フレーズインデックスを検索し、選択文書に対する特徴フレーズを取得する処理と、
    前記取得した選択文書と対応する特徴フレーズとを受け取り、前記特徴フレーズを入力として前記特徴フレーズインデックスを検索し、入力したフレーズを特徴フレーズとする文書を前記文書データベースから取得する処理と、
    を有することを特徴とする情報推薦プログラム。
  6. 請求項5記載の情報推薦プログラムの処理を記録するコンピュータ読取り可能な記録媒体。
JP2008069763A 2008-03-18 2008-03-18 情報推薦装置、情報推薦システム、情報推薦方法、プログラム及び記録媒体 Withdrawn JP2009223781A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008069763A JP2009223781A (ja) 2008-03-18 2008-03-18 情報推薦装置、情報推薦システム、情報推薦方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008069763A JP2009223781A (ja) 2008-03-18 2008-03-18 情報推薦装置、情報推薦システム、情報推薦方法、プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2009223781A true JP2009223781A (ja) 2009-10-01

Family

ID=41240456

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008069763A Withdrawn JP2009223781A (ja) 2008-03-18 2008-03-18 情報推薦装置、情報推薦システム、情報推薦方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2009223781A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013047471A1 (ja) * 2011-09-27 2013-04-04 株式会社ぐるなび 店舗情報検索システム
KR101860472B1 (ko) * 2016-05-23 2018-05-23 고려대학교 산학협력단 오픈 디렉터리 프로젝트 기반의 텍스트 분류기, 및 텍스트 분류기의 생성 및 분류 방법
JP2018156552A (ja) * 2017-03-21 2018-10-04 株式会社日立製作所 計算機システム及び文章データの検索方法
JP6435467B1 (ja) * 2018-03-05 2018-12-12 株式会社テンクー 検索システム及び検索システムの動作方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013047471A1 (ja) * 2011-09-27 2013-04-04 株式会社ぐるなび 店舗情報検索システム
KR101860472B1 (ko) * 2016-05-23 2018-05-23 고려대학교 산학협력단 오픈 디렉터리 프로젝트 기반의 텍스트 분류기, 및 텍스트 분류기의 생성 및 분류 방법
JP2018156552A (ja) * 2017-03-21 2018-10-04 株式会社日立製作所 計算機システム及び文章データの検索方法
JP6435467B1 (ja) * 2018-03-05 2018-12-12 株式会社テンクー 検索システム及び検索システムの動作方法
WO2019172153A1 (ja) * 2018-03-05 2019-09-12 株式会社テンクー インデックスを用いた情報検索システム及び情報検索方法
JP2019153267A (ja) * 2018-03-05 2019-09-12 株式会社テンクー 検索システム及び検索システムの動作方法
KR20200125697A (ko) * 2018-03-05 2020-11-04 가부시키가이샤텐쿠 인덱스를 이용한 정보 검색 시스템 및 정보 검색 방법
KR102453183B1 (ko) 2018-03-05 2022-10-07 가부시키가이샤텐쿠 인덱스를 이용한 정보 검색 시스템 및 정보 검색 방법

Similar Documents

Publication Publication Date Title
KR100943962B1 (ko) 감성 기반의 아이템 검색 서비스 제공 방법, 데이터베이스구축 방법 및 검색 서버
EP2230607A1 (en) Apparatus and method for creating animation from web text
US20090292686A1 (en) Disambiguating tags in folksonomy tagging systems
JP5444115B2 (ja) データ検索装置、データ検索方法及びプログラム
JP2007213497A (ja) 情報処理装置および方法、並びにプログラム
JPH10275157A (ja) データ処理装置
US20070233663A1 (en) Method, apparatus, and computer program product for searching information
KR20150116929A (ko) 텍스트에 기반한 동영상 생성장치 및 그 생성방법
JP6165068B2 (ja) ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
JP2009223781A (ja) 情報推薦装置、情報推薦システム、情報推薦方法、プログラム及び記録媒体
US10346545B2 (en) Method, device, and recording medium for providing translated sentence
KR101928074B1 (ko) 문맥 정보에 기반한 콘텐츠 제공 서버 및 방법
JP4883644B2 (ja) リコメンド装置、リコメンドシステム、リコメンド装置の制御方法、およびリコメンドシステムの制御方法
JP2008217064A (ja) 要望抽出装置、方法およびプログラム
JP2008160512A (ja) 再生装置、電子機器、再生方法、および、プログラム
JP5951300B2 (ja) サービス制御装置、サービス制御方法およびサービス制御プログラム
JP6639040B2 (ja) 情報検索装置及びプログラム
JP2009059335A (ja) 情報処理装置および方法、並びにプログラム
JP5518665B2 (ja) 特許検索装置、特許検索方法、およびプログラム
TW201619853A (zh) 檢索過濾方法及其處理裝置
JP4477931B2 (ja) 検索リクエスト装置、検索リクエスト方法、検索リクエストプログラムおよび検索リクエストプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2014056426A (ja) コンテンツ推薦システム、コンテンツ推薦方法、及びプログラム、並びに端末装置及びプログラム
JP2005236546A (ja) 部分コンテンツ作成方法及び装置及びプログラム
JP2005202485A (ja) 映像提示装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20110607