JP2011248831A

JP2011248831A - 情報処理装置および方法、並びに、プログラム

Info

Publication number: JP2011248831A
Application number: JP2010124183A
Authority: JP
Inventors: Hiroshi Tateno; 啓舘野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-05-31
Filing date: 2010-05-31
Publication date: 2011-12-08
Anticipated expiration: 2030-05-31
Also published as: CN102262647A; US20160071015A1; US20140122405A1; US9208441B2; CN102262647B; US8682830B2; US9785888B2; US20110295787A1; JP5454357B2

Abstract

【課題】コンテンツに対する評価を予測する場合の予測精度を向上させる。
【解決手段】評価情報抽出部１１４は、ユーザにより言語で表現された情報である言語表現から評価対象および評価対象への評価を含む評価情報を抽出する。タイプ識別部１１５は、評価情報がコンテンツに関する第１のタイプの評価情報であるか、または、他のユーザに関する第２のタイプの評価情報であるかを識別する。評価予測部１２１は、注目ユーザによる第１のタイプの評価情報、および、注目ユーザによる第２のタイプの評価情報における他のユーザによる評価情報に基づいて、注目ユーザのコンテンツに対する評価を予測する。本発明は、例えば、ユーザにコンテンツを推薦するシステムに適用できる。
【選択図】図１

Description

本発明は、情報処理装置および方法、並びに、プログラムに関し、特に、ユーザのコンテンツに対する評価を予測する場合に用いて好適な情報処理装置および方法、並びに、プログラムに関する。

近年、ブログ（Weblog）、SNS（ソーシャル・ネットワーキング・サービス）、twitter（登録商標）などのインターネットを介したサービスを利用して、一般のユーザが様々な事象や事物に対して個人の意見を述べる機会が増えている。

従来、このようなユーザにより言語で表現された情報（以下、言語表現と称する）から、ある事象や事物に対する評価を表す表現（以下、評価表現と称する）を抽出する技術が提案されている（例えば、非特許文献１参照）。

また、従来、評価表現がポジティブなものかネガティブなものかを判別する技術が提案されている（例えば、非特許文献２参照）。

N. Kobayashi他， "Opinion Mining from Web Documents: Extraction and Structurization"，人工知能学会論文誌, Vol. 22, No. 2, pp.227-238, 2007 T. Nasukawa他, T., "Sentiment Analysis: Capturing Favorability Using Natural Language Processing", Proceedings of International Conference on Knowledge Capture, 2003

例えば、非特許文献１および非特許文献２に記載されている技術を用いて、ユーザの嗜好を推定し、様々なコンテンツに対する評価を予測することが考えられる。しかしながら、必ずしも個々のユーザが直接表した評価表現を十分な量だけ得られるとは限らず、その結果、コンテンツに対する評価の予測精度が低下する恐れがある。

本発明は、このような状況を鑑みてなされたものであり、言語表現に基づいてユーザのコンテンツに対する評価を予測する場合の予測精度を向上させるようにするものである。

本発明の一側面の情報処理装置は、ユーザにより言語で表現された情報である言語表現から評価対象および前記評価対象への評価を含む評価情報を抽出する評価情報抽出手段と、前記評価情報がコンテンツに関する第１のタイプの評価情報であるか、または、他のユーザに関する第２のタイプの評価情報であるかを識別する識別手段と、注目ユーザによる前記第１のタイプの評価情報、および、前記注目ユーザによる前記第２のタイプの評価情報における前記他のユーザによる前記評価情報に基づいて、前記注目ユーザのコンテンツに対する評価を予測する評価予測手段とを含む。

前記第２のタイプの評価情報は、前記他のユーザの前記言語表現を前記評価対象とする前記評価情報を含み、前記評価予測手段には、前記注目ユーザによる前記第１のタイプの評価情報、および、前記注目ユーザによる前記第２のタイプの評価情報において前記評価対象とされた前記他のユーザの前記言語表現に含まれる前記評価情報に基づいて、前記注目ユーザのコンテンツに対する評価を予測させることができる。

前記第２のタイプの評価情報は、前記他のユーザ自身を前記評価対象とする前記評価情報を含み、前記評価予測手段には、前記注目ユーザによる前記第１のタイプの評価情報、および、前記注目ユーザによる前記第２のタイプの評価情報において前記評価対象とされた前記他のユーザによる前記評価情報に基づいて、前記注目ユーザのコンテンツに対する評価を予測させることができる。

前記評価予測手段には、前記注目ユーザによる前記第１のタイプの評価情報、および、前記注目ユーザによる前記第２のタイプの評価情報における前記他のユーザによる前記評価情報に基づいて、前記注目ユーザのコンテンツに対する評価予測に用いるパラメータを推定する推定手段と、前記注目ユーザの前記パラメータに基づいて、前記注目ユーザのコンテンツに対する評価を予測する予測手段とを設けることができる。

前記推定手段には、さらに、前記注目ユーザの前記パラメータと、前記注目ユーザによりポジティブな評価が与えられた前記他のユーザの前記パラメータとを重み付け加算することにより得られる値を、前記注目ユーザの前記パラメータに設定させることができる。

前記推定手段には、さらに、前記注目ユーザと、前記注目ユーザによりポジティブな評価が与えられた前記他のユーザとの間で前記パラメータの事前分布を共有して、前記注目ユーザの前記パラメータを推定させることができる。

前記予測手段ｎは、さらに、前記前記注目ユーザによりポジティブな評価が与えられた他のユーザの前記パラメータを用いて、前記注目ユーザのコンテンツに対する評価を予測させることができる。

本発明の一側面の情報処理方法は、ユーザのコンテンツに対する評価を予測する情報処理装置が、ユーザにより言語で表現された情報である言語表現から評価対象および前記評価対象への評価を含む評価情報を抽出し、前記評価情報がコンテンツに関する第１のタイプの評価情報であるか、または、他のユーザに関する第２のタイプの評価情報であるかを識別し、注目ユーザによる前記第１のタイプの評価情報、および、前記注目ユーザによる前記第２のタイプの評価情報における前記他のユーザによる前記評価情報に基づいて、前記注目ユーザのコンテンツに対する評価を予測するステップを含む。

本発明のプログラムは、ユーザにより言語で表現された情報である言語表現から評価対象および前記評価対象への評価を含む評価情報を抽出し、前記評価情報がコンテンツに関する第１のタイプの評価情報であるか、または、他のユーザに関する第２のタイプの評価情報であるかを識別し、注目ユーザによる前記第１のタイプの評価情報、および、前記注目ユーザによる前記第２のタイプの評価情報における前記他のユーザによる前記評価情報に基づいて、前記注目ユーザのコンテンツに対する評価を予測するステップを含む処理をコンピュータに実行させる。

本発明の一側面においては、ユーザにより言語で表現された情報である言語表現から評価対象および前記評価対象への評価を含む評価情報が抽出され、前記評価情報がコンテンツに関する第１のタイプの評価情報であるか、または、他のユーザに関する第２のタイプの評価情報であるかが識別され、注目ユーザによる前記第１のタイプの評価情報、および、前記注目ユーザによる前記第２のタイプの評価情報における前記他のユーザによる前記評価情報に基づいて、前記注目ユーザのコンテンツに対する評価が予測される。

本発明の一側面によれば、言語表現に基づいてユーザのコンテンツに対する評価を予測することができる。また、本発明の一側面によれば、その予測精度を向上させることができる。

本発明を適用した情報処理システムの一実施の形態の構成例を示すブロック図である。情報処理システムにより実行されるコンテンツ推薦処理を説明するためのフローチャートである。他者評価情報解析処理の詳細を説明するためのフローチャートである。ブログ情報の例を示す図である。言語表現情報の例を示す図である。評価情報の例を示す図である。コンテンツ評価情報の例を示す図である。ユーザ参照情報の例を示す図である。予測学習に用いるパラメータの推定結果の第１の例を示す図である。予測学習に用いるパラメータの推定結果の第２の例を示す図である。コンテンツの特徴量の例を示す図である。コンピュータの構成例を示すブロック図である。

以下、本発明を実施するための形態（以下、実施の形態という）について説明する。なお、説明は以下の順序で行う。
１．実施の形態
２．変形例

＜１．実施の形態＞
［情報処理システムの構成例］
図１は、本発明を適用した情報処理システムの一実施の形態を示すブロック図である。情報処理システム１０１は、例えば、コンピュータ、サーバ、記憶装置、通信装置などにより構成される。そして、情報処理システム１０１は、インターネットなどのネットワーク（不図示）を介して、各ユーザのコンテンツ等に対する評価情報を収集し、収集した評価情報に基づいて、各ユーザのコンテンツに対する評価予測の学習を行う。また、情報処理システム１０１は、学習結果に基づいて、各ユーザのコンテンツに対する評価を予測し、ネットワークを介して、ユーザにコンテンツを推薦する処理を行う。

ここで、コンテンツとは、例えば、画像データ、動画データ、楽曲データ、各種の商品、文書データなどを指し、特定の種類に限定されるものではない。

情報処理システム１０１は、ブログ情報保持部１１１、言語表現収集部１１２、言語表現保持部１１３、評価情報抽出部１１４、タイプ識別部１１５、評価情報保持部１１６、評価情報解析部１１７、コンテンツ評価情報取得部１１８、コンテンツ評価情報保持部１１９、ユーザ参照情報保持部１２０、評価予測部１２１、コンテンツ情報保持部１２２、および、コンテンツ提示部１２３を含むように構成される。また、評価予測部１２１は、パラメータ推定部１３１、ユーザパラメータ保持部１３２、および、予測部１３３を含むように構成される。

また、ブログ情報保持部１１１、言語表現保持部１１３、評価情報保持部１１６、コンテンツ評価情報保持部１１９、ユーザ参照情報保持部１２０、コンテンツ情報保持部１２２、および、ユーザパラメータ保持部１３２は、例えば、ハードディスクドライブ、フラッシュメモリなどの各種の記憶装置により構成される。なお、ブログ情報保持部１１１、言語表現保持部１１３、評価情報保持部１１６、コンテンツ評価情報保持部１１９、ユーザ参照情報保持部１２０、コンテンツ情報保持部１２２、および、ユーザパラメータ保持部１３２を、それぞれ異なる記憶装置により構成するようにしてもよいし、一部または全部を同じ記憶装置により構成するようにしてもよい。

言語表現収集部１１２は、図４を参照して後述するブログ情報をブログ情報保持部１１１から取得する。言語表現収集部１１２は、ネットワーク（不図示）を介して、ブログ情報に登録されている各ユーザのブログにアクセスして、各ユーザによる言語表現を収集する。言語表現収集部１１２は、収集した言語表現を含む言語表現情報を言語表現保持部１１３に保存する。

ここで、言語表現とは、テキストデータや音声データなど、文字や音声を用いて言語により表現された情報のことである。

評価情報抽出部１１４は、言語表現保持部１１３に保存されている言語表現から、各種の事物や事象などの評価対象への評価を含む評価情報を抽出する。評価情報抽出部１１４は、抽出した評価情報をタイプ識別部１１５に供給する。

タイプ識別部１１５は、評価情報において評価されている評価対象のタイプ（以下、対象タイプと称する）を識別する。タイプ識別部１１５は、識別した対象タイプを加えた評価情報を評価情報保持部１１６に保存する。

評価情報解析部１１７は、評価情報保持部１１６に保存されている評価情報を解析する。そして、評価情報解析部１１７は、解析結果に基づいて、各ユーザの各コンテンツに対する評価を表すコンテンツ評価情報を生成し、コンテンツ評価情報保持部１１９に保存する。また、評価情報解析部１１７は、解析結果に基づいて、各ユーザの他のユーザに対する評価を表すユーザ参照情報を生成し、ユーザ参照情報保持部１２０に保存する。

コンテンツ評価情報取得部１１８は、外部から入力されるコンテンツ評価情報を取得し、コンテンツ評価情報保持部１１９に保存する。

評価予測部１２１は、各ユーザのコンテンツに対する評価予測のための学習を行い、学習結果に基づいて、各ユーザのコンテンツに対する評価を予測する。

より具体的には、評価予測部１２１のパラメータ推定部１３１は、コンテンツ評価情報保持部１１９からコンテンツ評価情報を取得し、ユーザ参照情報保持部１２０からユーザ参照情報を取得する。そして、パラメータ推定部１３１は、コンテンツ評価情報およびユーザ参照情報に基づいて、所定の学習手法を用いて、各ユーザのコンテンツに対する評価予測のための学習を行う。また、パラメータ推定部１３１は、学習結果を表すユーザ毎のパラメータをユーザパラメータ保持部１３２に保存する。

予測部１３３は、ユーザパラメータ保持部１３２から各ユーザのパラメータを取得し、コンテンツ情報保持部１２２から各コンテンツの特徴量を取得する。そして、予測部１３３は、各ユーザのパラメータおよび各コンテンツの特徴量に基づいて、各ユーザの各コンテンツに対する評価を予測し、予測した結果をコンテンツ提示部１２３に供給する。

コンテンツ情報保持部１２２は、コンテンツの特徴量を含む各種のコンテンツに関する情報を保存する。なお、コンテンツに関する情報とともにコンテンツ自身もコンテンツ情報保持部１２２に保存するようにしてもよい。

コンテンツ提示部１２３は、各ユーザの各コンテンツに対する評価予測の結果に基づいて、各ユーザに推薦するコンテンツに関する情報をコンテンツ情報保持部１２２から取得し、提示する。

［コンテンツ推薦処理］
次に、図２および図３のフローチャートを参照して、情報処理システム１０１により実行されるコンテンツ推薦処理について説明する。なお、適宜、図４乃至図１１を具体例として参照しながら説明する。

ステップＳ１において、言語表現収集部１１２は、言語表現を収集する。具体的には、まず、言語表現収集部１１２は、ブログ情報保持部１１１からブログ情報を取得する。

図４は、ブログ情報の例を示している。ブログ情報は、言語表現を収集する対象となるブログが登録されており、例えば、収集対象となるブログを開設しているユーザ、および、各ユーザのブログのトップページのURL（Uniform Resource Locator）を含む。例えば、図４の１番目のレコードには、ユーザ１が開設し、かつ、トップページのURLがhttp://blog.example.com/user1/entry-1.htmlであるブログが登録されている。

次に、言語表現収集部１１２は、ネットワーク（不図示）を介して、ブログ情報に登録されている各ユーザのブログにアクセスする。次に、言語表現収集部１１２は、各ブログサービスのフォーマットに基づいて、各ブログに掲載されている記事を収集および整形し、後の処理に必要な言語表現のみを抽出する。そして、言語表現収集部１１２は、抽出した言語表現を含む言語表現情報を言語表現保持部１１３に保存する。

図５は、言語表現情報の例を示している。言語表現情報は、例えば、各言語表現を個々に識別するための言語表現ＩＤ、言語表現を発信したユーザ、および、言語表現を含む。なお、この例では、言語表現を抽出したサイト（ブログのページ）のURLが、言語表現ＩＤとして用いられている。

例えば、図５の１番目のレコードには、ユーザ１が発信した言語表現「アーティストAの楽曲Aは素晴らしいね。」が登録されている。また、言語表現の抽出元となるユーザ１のブログのページのURL「http://blog.example.com/ user1/entry-1.html」が、言語表現ＩＤとして登録されている。

なお、言語表現に他のサイトへのリンク情報が含まれる場合、後の処理を考慮して、そのリンク情報をそのまま残しておくことが望ましい。例えば、図５の２番目のレコードの言語表現には、アンカータグで囲まれたリンク情報「<a href="http://blog.example.com/user3/entry-1.html">〜</a>」が、そのまま残されている。

図２に戻り、ステップＳ２において、評価情報抽出部１１４は、言語表現保持部１１３に保存されている言語表現情報から、評価情報を抽出する。

図６は、図５の言語表現情報から抽出された評価情報の例を示している。評価情報は、例えば、評価者、評価表現、評価極性、対象タイプ、および、評価対象を含む。

評価情報抽出部１１４は、言語表現保持部１１３に保存されている言語表現情報に含まれる各言語表現を解析して、各言語表現から評価表現、および、その評価表現の評価対象を抽出する。また、評価情報抽出部１１４は、抽出した評価表現の極性（以下、評価極性と称する）が、ポジティブまたはネガティブのいずれであるかを判別する。なお、評価表現および評価対象の抽出、並びに、評価極性の判別を行う手法として、例えば、上述した非特許文献２に記載されている手法を採用することが可能である。

そして、評価情報抽出部１１４は、評価者、評価表現、評価極性、および、評価対象を含む評価情報をタイプ識別部１１５に供給する。なお、評価情報の抽出元となる言語表現を発信したユーザが、評価情報の評価者に設定される。

ステップＳ３において、タイプ識別部１１５は、評価対象のタイプ（すなわち、対象タイプ）を識別する。具体的には、評価情報抽出部１１４は、対象タイプが、最終的にユーザに推薦する単位となるコンテンツ、他のユーザによる言語表現、または、人物（他のユーザ）のいずれであるかを識別する。

例えば、タイプ識別部１１５は、アーティスト名や曲名等が登録されている辞書を用いたり、ユーザの名前またはニックネーム等が登録されているユーザ登録情報を用いたり、引用符（例えば、"など）で囲まれているか否かのルールを用いたり、固有表現の抽出技術等を用いたりして、対象タイプを識別する。なお、固有表現の抽出技術の詳細は、例えば、特許４２００６４５号公報（以下、特許文献１と称する）、「Erik F. Tjong他， "Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition"， CoNLL, 2003」（以下、非特許文献３と称する）などに記載されている。

また、例えば、タイプ識別部１１５は、評価対象がリンク付きのアンカータグ（<a href=・・・>〜</A>など）で囲まれている場合、ドメイン名の辞書を用いて、リンク先のURLのドメイン名により対象タイプがコンテンツまたは言語表現のいずれであるかを識別する。例えば、ドメイン名が動画投稿サイトのものである場合、対象タイプをコンテンツ（動画）に分類することができる。なお、この方法は、評価対象が、あるサイトのページのURLである場合にも適用することができる。

さらに、例えば、タイプ識別部１１５は、所定の手法の学習処理を行って、アンカーテキストの内容に基づいて、対象タイプを識別する。

また、例えば、タイプ識別部１１５は、評価対象が画像データである場合、所定の手法の学習処理を行って、画像データに埋め込まれている埋め込みテキストの内容に基づいて、対象タイプを識別する。

このようにして、各評価情報が、コンテンツに関するもの（対象タイプがコンテンツ）であるか、または、他のユーザに関するもの（対象タイプが言語表現または人物）であるかが識別される。さらに、他のユーザに関する評価情報が、他のユーザによる言語表現に関するもの（対象が言語表現）であるか、または、他のユーザ自身に関するもの（対象タイプが人物）であるかが識別される。

なお、以上は、対象タイプの識別方法の一例であり、対象タイプの識別方法は、特に以上の例に限定されるものではなく、任意の方法を採用することが可能である。

そして、タイプ識別部１１５は、対象タイプを加えた評価情報を評価情報保持部１１６に保存する。なお、タイプ識別部１１５は、対象タイプがコンテンツ、言語表現、および、人物のいずれにも該当しない場合、その評価情報を破棄し、評価情報保持部１１６に保存しない。

以上のステップＳ２およびステップＳ３の処理により、例えば、図５の１番目のレコードの言語表現「アーティストＡの楽曲Ａは素晴らしいね。」から、「素晴らしい」が評価表現として抽出され、「楽曲Ａ」が評価対象として抽出される。また、評価表現「素晴らしい」の評価極性がポジティブであると判別され、評価対象「楽曲Ａ」の対象タイプがコンテンツに分類される。そして、図６の１番目のレコードである、評価者「ユーザ１」、評価表現「素晴らしい」、評価極性「ポジティブ」、対象タイプ「コンテンツ」、および、評価対象「楽曲A」を含む評価情報が生成される。

また、例えば、図５の２番目のレコードの言語表現「<a href="http://blog.example.com/user3/entry-1.html">こんな考え方</a>はちょっと酷いな。」から、「酷い」が評価表現として抽出される。また、このレコードの言語表現の文章中では、評価対象は「こんな考え方」になるが、この文字列がリンク付きのアンカータグで囲まれているので、「http://blog.example.com/user3/entry-1.html」が実際に評価対象として抽出される。また、評価表現「酷い」の評価極性がネガティブであると判別され、評価対象「http://blog.example.com/user3/entry-1.html」の対象タイプが言語表現に分類される。そして、図６の２番目のレコードである、評価者「ユーザ１」、評価表現「酷い」、評価極性「ネガティブ」、対象タイプ「言語表現」、および、評価対象「http://blog.example.com/user3/entry-1.html」を含む評価情報が生成される。

さらに、例えば、図５の３番目のレコードの言語表現「ユーザ２さんは本当にセンスが良い。」から、「良い」が評価表現として抽出され、「ユーザ２さん」が評価対象として抽出される。また、評価表現「良い」の評価極性がポジティブであると判別され、評価対象「ユーザ２さん」の対象タイプが人物に分類される。そして、図６の３番目のレコードである、評価者「ユーザ１」、評価表現「良い」、評価極性「ポジティブ」、対象タイプ「人物」、および、評価対象「ユーザ２さん」を含む評価情報が生成される。

同様にして、図５の４番目のレコードおよび５番目のレコードの言語表現情報から、図６の４番目のレコードおよび５番目のレコードの評価情報が生成される。

図２に戻り、ステップＳ４において、評価情報解析部１１７は、コンテンツ評価情報を生成する。具体的には、評価情報解析部１１７は、評価情報保持部１１６に保存されている評価情報の中から、対象タイプがコンテンツである評価情報を抽出する。そして、評価情報解析部１１７は、抽出した評価情報に基づいて、コンテンツ評価情報を生成する。

図７は、コンテンツ評価情報の例を示している。コンテンツ評価情報は、例えば、評価者、評価対象となるコンテンツ、および、評価極性を含む。例えば、図６の１番目のレコードの評価情報に基づいて、図７の１番目のレコードである、評価者「ユーザ１」、コンテンツ「楽曲Ａ」、および、評価極性「ポジティブ」を含むコンテンツ評価情報が生成される。すなわち、ユーザ１が楽曲Ａをポジティブに評価していることを示すコンテンツ評価情報が生成される。同様に、図６の４番目および５番目のレコードの評価情報に基づいて、図７の４番目および５番目のレコードのコンテンツ評価情報が生成される。そして、評価情報解析部１１７は、生成したコンテンツ評価情報をコンテンツ評価情報保持部１１９に保存する。

ステップＳ５において、評価情報解析部１１７は、他者評価情報解析処理を実行する。ここで、図３のフローチャートを参照して、他者評価情報解析処理の詳細について説明する。

ステップＳ５１において、評価情報解析部１１７は、評価情報保持部１１６に保存されている評価情報の中から、解析する評価情報を選択する。例えば、評価情報解析部１１７は、図６の１番目のレコードから順番に解析する評価情報を選択していく。

ステップＳ５２において、評価情報解析部１１７は、解析する評価情報の対象タイプに基づいて、言語表現への評価であるか否かを判定する。言語表現への評価であると判定された場合、処理はステップＳ５３に進む。

ステップＳ５３において、評価情報解析部１１７は、言語表現内で評価されているコンテンツを抽出する。ここで、対象タイプが言語表現である図６の２番目のレコードの評価情報を解析している場合について考える。

例えば、評価情報解析部１１７は、上述した図２のステップＳ１と同様の処理により、当該評価情報の評価対象である「http://blog.example.com/user3/entry-1.html」に掲載されている記事から、言語表現「楽曲Ｂなんて子供だましだね。」を抽出する。次に、評価情報解析部１１７は、上述した図２のステップＳ２と同様の処理により、言語表現内で評価されているコンテンツ「楽曲Ｂ」を抽出する。

なお、いまの場合、先に実行されたステップＳ１およびステップＳ２の処理において、当該言語表現内からコンテンツ「楽曲Ｂ」がすでに抽出されているので、この処理は省略することが可能である。

また、言語表現内で評価されている評価対象が、別の言語表現である場合、評価情報解析部１１７は、さらに、その別の言語表現内で評価されているコンテンツを抽出する処理を実行する。

ステップＳ５４において、評価情報解析部１１７は、抽出したコンテンツに対するコンテンツ評価情報を生成する。

例えば、いまの場合、ユーザ１がユーザ３の言語表現に対してネガティブな評価をしており、ユーザ３は、その言語表現の中で楽曲Ｂに対してネガティブな評価をしている。従って、ユーザ１が、間接的に楽曲Ｂに対してポジティブな評価をしているとみなすことができる。

そこで、評価情報解析部１１７は、図７の２番目のレコードである、評価者「ユーザ１」、コンテンツ「楽曲Ｂ」、評価極性「ポジティブ」を含むコンテンツ評価情報を生成する。そして、評価情報解析部１１７は、生成したコンテンツ評価情報をコンテンツ評価情報保持部１１９に保存する。その後、処理はステップＳ５８に進む。

このようにして、ユーザ１によるユーザ３の言語表現に対する評価に基づいて、ユーザ３の言語表現内で評価されている楽曲Ｂに対するユーザ１の評価が推定され、推定した結果を示すコンテンツ評価情報が生成され、保存される。

一方、ステップＳ５２において、言語表現への評価ではないと判定された場合、処理はステップＳ５５に進む。

ステップＳ５５において、評価情報解析部１１７は、解析する評価情報の対象タイプに基づいて、人物への評価であるか否か判定する。人物への評価であると判定された場合、処理はステップＳ５６に進む。

ステップＳ５６において、評価情報解析部１１７は、ユーザ参照情報を保存する。ここで、対象タイプが人物である図６の３番目のレコードの評価情報を解析している場合について考える。

図８は、ユーザ参照情報の例を示している。ユーザ参照情報は、例えば、参照元ユーザ、参照先ユーザ、および、評価極性を含む。例えば、図６の３番目のレコードの評価情報では、ユーザ１が、ユーザ２に対してポジティブな評価をしている。従って、評価情報解析部１１７は、図８の１番目のレコードである、参照元ユーザ「ユーザ１」、参照先ユーザ「ユーザ２」、評価極性「ポジティブ」を含むユーザ参照情報を生成する。すなわち、このユーザ参照情報は、評価対象である参照先ユーザ「ユーザ２」に対する評価者である参照元ユーザ「ユーザ１」の評価極性が「ポジティブ」であることを示している。そして、評価情報解析部１１７は、生成したユーザ参照情報をユーザ参照情報保持部１２０に保存する。

ステップＳ５７において、評価情報解析部１１７は、参照先ユーザのコンテンツ評価情報を利用して、参照元ユーザのコンテンツ評価情報を生成する。例えば、いまの場合、参照元ユーザであるユーザ１が、参照先ユーザであるユーザ２をポジティブに評価している。従って、ユーザ２のコンテンツ評価情報をそのまま利用して、ユーザ１のコンテンツ評価情報を生成することが可能である。すなわち、評価情報解析部１１７は、ユーザ２が評価者である図７の４番目のコンテンツ評価情報をコピーし、さらに評価者をユーザ１に変更することにより、ユーザ１のコンテンツ評価情報を生成する。これにより、図７の３番目のレコードである、評価者「ユーザ１」、コンテンツ「アルバム１」、評価極性「ポジティブ」を含むコンテンツ評価情報が生成される。

なお、このとき、ユーザ２に対するユーザ１の評価がネガティブである場合、評価極性を反転するようにすればよい。

そして、評価情報解析部１１７は、生成したコンテンツ評価情報をコンテンツ評価情報保持部１１９に保存する。その後、処理はステップＳ５８に進む。

一方、ステップＳ５５において、人物への評価ではないと判定された場合、すなわち、コンテンツへの評価である場合、ステップＳ５６およびステップＳ５７の処理はスキップされ、処理はステップＳ５８に進む。すなわち、対象タイプがコンテンツである評価情報については、上述した図２のステップＳ４の処理でコンテンツ評価情報がすでに生成されているので、新たにコンテンツ評価情報は生成されない。

ステップＳ５８において、評価情報解析部１１７は、全ての評価情報を解析したか否かを判定する。まだ全ての評価情報が解析されていないと判定された場合、処理はステップＳ５１に戻り、ステップＳ５８において、全ての評価情報が解析されたと判定されるまで、ステップＳ５１乃至Ｓ５８の処理が繰返し実行される。

一方、ステップＳ５８において、全ての評価情報が解析されたと判定された場合、他者評価情報解析処理は終了する。

このようにして、あるユーザのコンテンツ評価情報が、当該ユーザが評価を行った他のユーザの評価情報に基づいて生成され、保存される。

図２に戻り、ステップＳ６において、パラメータ推定部１３１は、各ユーザのコンテンツに対する評価予測に用いるパラメータを推定する。

一般的に、コンテンツ推薦における評価予測の方法は、協調フィルタリング（Collaborative Filtering，CF）と内容ベースフィルタリング（Content Based Filtering，CBF）に分けられる。前者は、例えば、米国特許出願公開２０１０／００３０７６４号明細書（以下、特許文献２と称する）、あるいは、「Yehuda Koren, "Factorization Meets the Neighborhood: a Multifaceted Collaborative Filtering Model", Proceedings of International Conference on Knowledge Discovery and Data Mining, 2008」（以下、非特許文献４と称する）などに記載されているような、行列分解に基づく手法がよく知られている。一方、後者は、SVM（Support Vector Machine）などのパターン認識的手法がよく用いられる。

いずれの手法も、与えられたデータ（ここでは、ユーザのコンテンツに対する評価情報とコンテンツ自体の情報）に基づいて、ユーザごとあるいはコンテンツごとのパラメータを推定する課題に落とし込まれる。

なお、以下、学習の手法として、ロジスティック回帰を用いたCBFを用いた場合について説明する。なお、ロジスティック回帰を用いたCBFについては、例えば、「C. M. ビショップ著，元田浩他訳， ”パターン認識と機械学習−ベイズ理論による統計的予測”，シュプリンガー・ジャパン株式会社， 2007年12月」（以下、非特許文献５と称する）等に詳細な説明が記載されている。

ロジスティック回帰では、コンテンツの各特徴量（例えば、ジャンルやキーワード、音楽であればテンポやキーなど信号的特徴など）に対する重みと定数項を含む、実数値ベクトルにより表されるパラメータが学習される。

まず、パラメータ推定部１３１は、コンテンツ評価情報保持部１１９に保存されているコンテンツ評価情報に基づいて、ユーザ毎に個別にコンテンツに対する評価予測の学習を行う。例えば、パラメータ推定部１３１は、評価者がユーザ１であるコンテンツ評価情報（例えば、図６の１番目乃至３番目のレコード）に基づいて、ユーザ１のコンテンツに対する評価予測の学習を行う。また、パラメータ推定部１３１は、評価者がユーザ２であるコンテンツ評価情報（例えば、図６の４番目のレコード）に基づいて、ユーザ２のコンテンツに対する評価予測の学習を行う。さらに、パラメータ推定部１３１は、評価者がユーザ３であるコンテンツ評価情報（例えば、図６の５番目のレコード）に基づいて、ユーザ３のコンテンツに対する評価予測の学習を行う。

図９は、コンテンツの特徴量が４種類である場合の、ユーザ毎のコンテンツに対する評価予測の学習結果の例を示している。この場合、学習結果として、４種類のコンテンツ特徴量にそれぞれ対応する４種類のパラメータ１乃至４、および、定数項の５種類のパラメータが、ユーザ毎に求められる。

次に、パラメータ推定部１３１は、ユーザ参照情報保持部１２０に保存されているユーザ参照情報に基づいて、パラメータを融合する。例えば、パラメータ推定部１３１は、あるユーザに対するパラメータと、当該ユーザがポジティブに評価しているユーザのパラメータとの加重平均（重み付け加算値）を、当該ユーザのパラメータに設定する。

例えば、図８のユーザ参照情報では、ユーザ１がユーザ２に対してポジティブな評価を与えている。従って、パラメータ推定部１３１は、ユーザ１のパラメータとユーザ２のパラメータとを、例えば２：１の割合で重み付けして加重平均を取ることにより、ユーザ１のパラメータを算出する。これにより、ユーザ１のパラメータは、図１０に示されるように、0.13、1.03、0.83、4.63、-2.50となる。

なお、例えば、ユーザ１が複数のユーザ（例えば、ユーザ２とユーザ３）に対してポジティブな評価を与えている場合、ユーザ１とその複数のユーザのパラメータの加重平均が、ユーザ１のパラメータに設定される。なお、ポジティブな評価を与えている複数のユーザの中から所定の人数のユーザを抽出して、加重平均をとるようにしてもよい。

また、例えば、ユーザ１が１人のユーザ（例えば、ユーザ２）に対して複数回評価を与えている場合、ポジティブな評価回数がネガティブな評価回数を上回っているとき、その比率に基づいて、加重平均の重みを決定するようにすればよい。一方、ポジティブな評価回数がネガティブな評価回数以下であるユーザのパラメータは、加重平均に用いないようにすることが望ましい。

さらに、例えば、ユーザ１がポジティブな評価を与えているユーザ２のパラメータを、そのままユーザ１のパラメータとして利用するようにしてもよい。これは、例えば、ユーザ１のコンテンツ評価情報が少なく、ユーザ１のパラメータの信頼度が低い一方で、ユーザ２のコンテンツ評価情報が多く、ユーザ２のパラメータの信頼度が高い場合に特に有効である。

なお、ユーザ２およびユーザ３のユーザ参照情報はないため、ユーザ２およびユーザ３のパラメータには、それぞれ単独で推定されたパラメータが用いられる。

そして、パラメータ推定部１３１は、学習処理の結果得られた各ユーザのパラメータをユーザパラメータ保持部１３２に保存する。

なお、上述した非特許文献５等に記載されているように、パラメータに事前分布を仮定するベイズ学習の枠組みを利用することにより、コンテンツなどの分類を行う分類器等を精度良く学習できることが知られている。

この事前分布は全ユーザで共有するようにしてもよいし、ユーザ毎に保持するようにしてもよい。ただし、前者の場合、粒度が粗すぎて精度が出ない場合があり、後者の場合、データ数が少ないために適切に事前分布を学習できない場合がある。そこで、「Kai Yu他， "A Nonparametric Hierarchical Bayesian Framework For Information Filtering", Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval, USA, Association for Computing Machinery, 2004, pp.353-360」（以下、非特許文献６と称する）に記載されているように、似た傾向のユーザ同士で事前分布を共有することが考えられる。この似た傾向のユーザの選択は、確率モデル上で表現することが可能であるが、本実施の形態では、ユーザ参照情報においてポジティブな評価を与えている参照先ユーザの事前分布をそのまま利用してパラメータ学習を行うことが可能である。

この場合、例えば、ユーザ毎にパラメータを学習したのち、共有する事前分布を学習する。後者の処理によって、共有する他のユーザのパラメータ学習に影響を与えることができる。

図２に戻り、ステップＳ７において、予測部１３３は、評価予測に参照先ユーザのパラメータを使用するか否かを判定する。ここで、評価予測を行う対象となるユーザ（以下、注目ユーザと称する）のコンテンツに対する評価を予測する方法として、例えば、注目ユーザのパラメータを使用する方法と、参照先ユーザのパラメータを使用する方法がある。

例えば、注目ユーザがポジティブな評価を与えている参照先ユーザが存在しない場合、注目ユーザのパラメータを用いて評価予測が行われる。この場合、予測部１３３は、評価予測に参照先ユーザのパラメータを使用しないと判定する。

また、例えば、注目ユーザのパラメータが他のユーザのパラメータとの加重平均により求められている場合、注目ユーザのパラメータを用いて評価予測が行われる。この場合も、予測部１３３は、評価予測に参照先ユーザのパラメータを使用しないと判定する。

さらに、例えば、注目ユーザがポジティブな評価を与えている参照先ユーザが存在し、かつ、注目ユーザのパラメータが他のユーザのパラメータとの加重平均を用いずに単独で推定された場合、確率α（０＜α≦１）で、当該参照先ユーザのパラメータを用いて評価予測が行われ、確率１−αで、注目ユーザのパラメータを用いて評価予測が行われる。すなわち、この場合、予測部１３３は、確率１−αで、評価予測に参照先ユーザのパラメータを使用しないと判定し、確率αで、評価予測に参照先ユーザのパラメータを使用すると判定する。

なお、注目ユーザがポジティブな評価を与えている参照先ユーザが複数存在する場合、例えば、確率αが当該参照先ユーザの数で等分される。あるいは、当該参照先ユーザ毎にそれぞれ異なる確率を設定するようにしてもよい。

そして、ステップＳ７において、評価予測に参照先ユーザのパラメータを使用しないと判定された場合、処理はステップＳ８に進む。

ステップＳ８において、予測部１３３は、注目ユーザのパラメータを取得する。例えば、ユーザ１が注目ユーザである場合、予測部１３３は、図９（または図１０）に示される各ユーザのパラメータのうち、ユーザ１のパラメータを取得する。その後、処理はステップＳ１０に進む。

一方、ステップＳ７において、評価予測に参照先ユーザのパラメータを使用すると判定された場合、処理はステップＳ９に進む。

ステップＳ９において、予測部１３３は、参照先ユーザのパラメータを取得する。例えば、ユーザ１が注目ユーザである場合、予測部１３３は、図８のユーザ参照情報に基づいて、ユーザ１がポジティブな評価を与えている参照先ユーザがユーザ２であることを特定する。そして、予測部１３３は、図９（または図１０）に示される各ユーザのパラメータの中から、ユーザ２のパラメータを取得する。その後、処理はステップＳ１０に進む。

ステップＳ１０において、予測部１３３は、評価予測を行う。具体的には、予測部１３３は、コンテンツ情報保持部１２２に情報が保存されているコンテンツのうち、注目ユーザがまだ評価していないコンテンツに対する評価を予測する。すなわち、予測部１３３は、コンテンツ情報保持部１２２に情報が保存されているコンテンツのうち、コンテンツ評価情報保持部１１９に注目ユーザのコンテンツ評価情報が保存されていないコンテンツに対する注目ユーザの評価を予測する。

例えば、評価予測に用いるユーザのパラメータを表すベクトルをw、評価対象となるコンテンツの特徴量を表すベクトルをxとすると、予測部１３３は、以下の式（１）に基づいて、ロジスティック回帰の出力値fw(x)を算出する。

fw(x)＝1／(1＋exp(−w^Tx)) ・・・（１）

なお、行列xには、パラメータの定数項に対応して常に値が１となる要素を含んでいる。

そして、予測部１３３は、算出した出力値fw(x)を、注目ユーザの当該コンテンツに対する予測評価値とする。

例えば、図９のユーザ１のパラメータを評価予測に用い、評価対象となるコンテンツ１乃至３の特徴量１乃至４が、図１１に示される値に設定されている場合、ユーザ１のコンテンツ１乃至３に対する予測評価値fw(x)は、それぞれ0.51，0.81，0.14となる。

また、予測部１３３は、予測評価値fw(x)をベルヌーイ分布の期待値として、特徴量xを有するコンテンツに対する注目ユーザの評価がポジティブまたはネガティブのいずれであるかを予測する。なお、予測評価値fw(x)の値が大きければ大きいほど、注目ユーザが当該コンテンツを好きである（ポジティブな評価を与える）確率が高くなる。逆に、予測評価値fw(x)の値が小さければ小さいほど、注目ユーザが当該コンテンツを嫌いである（ネガティブな評価を与える）確率が高くなる。

そして、予測部１３３は、注目ユーザの未評価コンテンツに対する予測評価値fw(x)をコンテンツ提示部１２３に供給する。

ステップＳ１１において、コンテンツ提示部１２３は、コンテンツを提示する。例えば、コンテンツ提示部１２３は、予測評価値fw(x)が上位n個に入るコンテンツを抽出し、抽出したコンテンツに関する情報をコンテンツ情報保持部１２２から取得する。そして、コンテンツ提示部１２３は、取得したコンテンツに関する情報を、例えば、図示せぬネットワークを介して注目ユーザが有する情報機器（例えば、コンピュータ、携帯電話機、携帯情報端末など）に送信する。そして、注目ユーザの情報機器において、抽出したコンテンツに関する情報が表示されることにより、注目ユーザに対してコンテンツの推薦が行われる。

その後、コンテンツ推薦処理は終了する。

以上のようにして、注目ユーザの評価情報に加えて、注目ユーザが言語表現またはユーザ自身を評価した他のユーザの評価情報に基づいて、注目ユーザのコンテンツに対する評価が予測される。従って、より多くの信頼度の高い評価情報に基づいて、注目ユーザのコンテンツに対する評価が予測される。その結果、注目ユーザのコンテンツに対する評価の予測精度が向上し、より注目ユーザの嗜好に合致したコンテンツを推薦することが可能になる。

＜３.変形例＞
なお、以上の説明では、コンテンツに対する評価予測の学習手法として、ロジスティック回帰を用いたCBFを用いる例を示したが、本発明の実施の形態では、その他の任意の学習手法を採用することができる。なお、ロジスティック回帰やSVMなどの分類手法の代わりに、線形回帰やSupport Vector Regressionなどの連続値を予測する回帰手法を用いる場合には、図２のステップＳ２において評価極性を判別するときに、例えば、「非常に」や「少々」などの副詞表現等を利用して、評価極性のポジティブおよびネガティブの度合いを設定するようにすることが考えられる。

また、以上の説明では、言語情報の収集先をブログとする例を示したが、特にこの例に限定されるものではなく、本発明の実施の形態では、SNS、twitter（登録商標）などの他の任意の収集先を設定することが可能である。

さらに、収集した言語表現から抽出したコンテンツ評価情報だけでなく、コンテンツ評価情報取得部１１８が外部から取得したコンテンツ評価情報を利用して、学習処理を行うようにしてもよい。

なお、本発明は、例えば、ユーザのコンテンツに対する評価を予測したり、ユーザに対してコンテンツを推薦したりする各種の情報処理装置、情報処理システム、ソフトウエア等に適用することが可能である。

［コンピュータの構成例］
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図１２は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）２０１，ROM（Read Only Memory）２０２，RAM（Random Access Memory）２０３は、バス２０４により相互に接続されている。

バス２０４には、さらに、入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、入力部２０６、出力部２０７、記憶部２０８、通信部２０９、及びドライブ２１０が接続されている。

入力部２０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部２０７は、ディスプレイ、スピーカなどよりなる。記憶部２０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部２０９は、ネットワークインタフェースなどよりなる。ドライブ２１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア２１１を駆動する。

以上のように構成されるコンピュータでは、CPU２０１が、例えば、記憶部２０８に記憶されているプログラムを、入出力インタフェース２０５及びバス２０４を介して、RAM２０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU２０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア２１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア２１１をドライブ２１０に装着することにより、入出力インタフェース２０５を介して、記憶部２０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部２０９で受信し、記憶部２０８にインストールすることができる。その他、プログラムは、ROM２０２や記憶部２０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本明細書において、システムの用語は、複数の装置、手段などより構成される全体的な装置を意味するものとする。

さらに、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１０１情報処理システム，１１１ブログ情報保持部，１１２言語表現収集部，１１３言語表現保持部，１１４評価情報抽出部，１１５タイプ識別部，１１６評価情報保持部，１１７評価情報解析部，１１８コンテンツ評価情報取得部，１１９コンテンツ評価情報保持部，１２０ユーザ参照情報保持部，１２１評価予測部，１２２コンテンツ情報保持部，１２３コンテンツ提示部，１３１パラメータ推定部，１３２ユーザパラメータ保持部，１３３予測部

Claims

ユーザにより言語で表現された情報である言語表現から評価対象および前記評価対象への評価を含む評価情報を抽出する評価情報抽出手段と、
前記評価情報がコンテンツに関する第１のタイプの評価情報であるか、または、他のユーザに関する第２のタイプの評価情報であるかを識別する識別手段と、
注目ユーザによる前記第１のタイプの評価情報、および、前記注目ユーザによる前記第２のタイプの評価情報における前記他のユーザによる前記評価情報に基づいて、前記注目ユーザのコンテンツに対する評価を予測する評価予測手段と
を含む情報処理装置。
前記第２のタイプの評価情報は、前記他のユーザの前記言語表現を前記評価対象とする前記評価情報を含み、
前記評価予測手段は、前記注目ユーザによる前記第１のタイプの評価情報、および、前記注目ユーザによる前記第２のタイプの評価情報において前記評価対象とされた前記他のユーザの前記言語表現に含まれる前記評価情報に基づいて、前記注目ユーザのコンテンツに対する評価を予測する
請求項１に記載の情報処理装置。
前記第２のタイプの評価情報は、前記他のユーザ自身を前記評価対象とする前記評価情報を含み、
前記評価予測手段は、前記注目ユーザによる前記第１のタイプの評価情報、および、前記注目ユーザによる前記第２のタイプの評価情報において前記評価対象とされた前記他のユーザによる前記評価情報に基づいて、前記注目ユーザのコンテンツに対する評価を予測する
請求項１に記載の情報処理装置。
前記評価予測手段は、
前記注目ユーザによる前記第１のタイプの評価情報、および、前記注目ユーザによる前記第２のタイプの評価情報における前記他のユーザによる前記評価情報に基づいて、前記注目ユーザのコンテンツに対する評価予測に用いるパラメータを推定する推定手段と、
前記注目ユーザの前記パラメータに基づいて、前記注目ユーザのコンテンツに対する評価を予測する予測手段と
を含む請求項１に記載の情報処理装置。
前記推定手段は、さらに、前記注目ユーザの前記パラメータと、前記注目ユーザによりポジティブな評価が与えられた前記他のユーザの前記パラメータとを重み付け加算することにより得られる値を、前記注目ユーザの前記パラメータに設定する
請求項４に記載の情報処理装置。
前記推定手段は、さらに、前記注目ユーザと、前記注目ユーザによりポジティブな評価が与えられた前記他のユーザとの間で前記パラメータの事前分布を共有して、前記注目ユーザの前記パラメータを推定する
請求項４に記載の情報処理装置。
前記予測手段は、さらに、前記前記注目ユーザによりポジティブな評価が与えられた他のユーザの前記パラメータを用いて、前記注目ユーザのコンテンツに対する評価を予測する
請求項４に記載の情報処理装置。
ユーザのコンテンツに対する評価を予測する情報処理装置が、
ユーザにより言語で表現された情報である言語表現から評価対象および前記評価対象への評価を含む評価情報を抽出し、
前記評価情報がコンテンツに関する第１のタイプの評価情報であるか、または、他のユーザに関する第２のタイプの評価情報であるかを識別し、
注目ユーザによる前記第１のタイプの評価情報、および、前記注目ユーザによる前記第２のタイプの評価情報における前記他のユーザによる前記評価情報に基づいて、前記注目ユーザのコンテンツに対する評価を予測する
ステップを含む情報処理方法。
ユーザにより言語で表現された情報である言語表現から評価対象および前記評価対象への評価を含む評価情報を抽出し、
前記評価情報がコンテンツに関する第１のタイプの評価情報であるか、または、他のユーザに関する第２のタイプの評価情報であるかを識別し、
注目ユーザによる前記第１のタイプの評価情報、および、前記注目ユーザによる前記第２のタイプの評価情報における前記他のユーザによる前記評価情報に基づいて、前記注目ユーザのコンテンツに対する評価を予測する
ステップを含む処理をコンピュータに実行させるためのプログラム。