以下、図面を参照して、実施の一形態について説明する。
図1は、実施形態に係る感情推定方法を適用するコンテンツ処理再生装置(電子機器)1の一例を示す。なお、コンテンツ処理再生装置1は、映像コンテンツや音声コンテンツを処理して再生する。また、以下に説明する要素や構成は、マイクロコンピュータ(処理装置、たとえばCPU(Central Processing Unit))によりソフトウェアで実現するものあるいはハードウェアで実現するもの、のいずれであってもよい。
また、以下の記載において、コンテンツ処理再生装置1が再生する番組は、ストリームまたはコンテンツもしくは情報と称する場合もある。なお、番組は、映像と、映像に付属する音声や音楽を含む。また、映像は、動画、静止画あるいはテキスト(コード化された符号列で示される文字や記号等で表される情報)の少なくとも1つを含む。なお、コンテンツ処理再生装置1は、たとえばデジタルテレビジョン放送受信装置(以下テレビ装置と称する)、スマートフォンあるいはパーソナルコンピュータ(PC)、等である。また、コンテンツ処理再生装置1が再生する番組は、番組供給元(放送事業者)が、たとえば空間波(電波)を用いて送信する放送を受信することで取得できる。なお、番組は、番組配信元(配信事業者)が、光ファイバ(ケーブル)網やインターネット・プロトコル(Internet Protocol)通信網、等のネットワークを用いて配信するものであってもよい。番組はまた、ユーザがアクセスした場合に、所定の条件に基づいて取得可能に情報供給元が用意するコンテンツであってもよい。すなわち、番組は、ネットワーク上の番組提供元(コンテンツサーバ)が保持するストリーミング映像(ストリーム)の読み出し(ダウンロード)とその再生であってもよい。番組はさらに、ネットワーク機能を使用する映像転送技術(他の装置が保持する番組のネットワークを経由した(番組の)再生であってもよい。
図1が示す感情推定システムを適用するコンテンツ処理再生装置1は、コンテンツ状況検出部100、ユーザ状況検出部200および感情推定部300を含む。なお、ユーザ状況検出部200および感情推定部300の何れか一方、または両方がコンテンツ処理再生装置1と一体の装置であってもよい。
コンテンツ状況検出部100は、たとえばテレビ装置、スマートフォン、ナビゲーション装置あるいはパーソナルコンピュータ(PC)、等である。なお、コンテンツ状況検出部100は、たとえばスマートフォンあるいはタブレット(PC)装置のアプリケーション(プログラム)等であってもよい。ユーザ状況検出部200は、たとえば腕時計や指輪あるいはリストバンド等のユーザの生体の情報を取得可能なウェアラブル装置や、カメラ装置やスマートフォン等の映像や音声(音響)を取得可能な機器である。感情推定部300は、たとえばロボット装置のように所定の動作が可能な装置や音声あるいは映像を出力可能な情報再生装置、である。なお、感情推定部300は、スマートフォンあるいはタブレット(PC)装置のアプリケーション(プログラム)等であってもよい。
コンテンツ状況検出部100は、コンテンツの状況(コンテンツ状況)を解析する。コンテンツは、たとえば番組、カメラ映像、あるいはナビゲーション装置の画面表示、等である。
ユーザ状況検出部200は、ユーザの感情を含む状況(ユーザ状況)を解析する。ユーザ状況は、たとえばカメラ装置が取得するユーザの「嬉しそう」、「悲しそう」あるいは「にこやか」等であるユーザの表情、「明るい」、「朗らか」もしくは「沈んでいる」等であり、かつ声の高さ(トーン)や声の大きさ等であるユーザの雰囲気、あるいは脈拍や発汗、等である生体情報を解析し、ユーザの感情、たとえば「嬉しい」や「悲しい」を、特定する。
感情推定部300は、コンテンツ状況検出部100とユーザ状況検出部200とにおいて検出した状況情報を比較し、その感情である「嬉しい」や「悲しい」に至る理由となる補足情報、たとえば「チャンス」や「ピンチ」を含む感情情報に基づいて、ユーザの感情(ユーザ感情)を推定する。なお、感情推定部300が推定するユーザ感情は、上述した「嬉しい」と「悲しい」のように、推定時に「対」もしくは「対極」で表すことのできる感情であることが好ましい。しかしながら、ユーザ感情は、たとえば自動車を運転中に生じることのある「眠気」等に起因して、「−(無し)」となる(必ずしも「対」もしくは「対極」で表すことがない)場合もある。
また、感情推定部300が推定するユーザ感情は、たとえば「笑い顔」と「無表情(笑っていない)」や「(真剣に)画面表示を見ている」と「画面表示を見る目(カメラが捕らえるユーザの視線)が散漫である」あるいは「(真剣に)画面表示を見ている」と「他者と会話している」、等、さまざまな事象を考えることができる。なお、たとえば「他者と会話している」については、画面表示(番組)を見て、他者と同調して盛り上がっている、等、マイクロフォン等により取得可能な音声情報を参照することにより、より精度の高い感情の推定が可能となる。
コンテンツ状況検出部100は、図1に示す例においてテレビ装置である場合に、アンテナ受信部101、デジタル復調部102、MPEG(ビデオ/オーディオ信号)処理部103、出力部104、操作入力部105、CPU(システム制御部)106、コンテンツ状況解析部107およびコンテンツ状況送信部108、を含む。なお、アンテナ受信部101は、アンテナANTと接続し、アンテナANTが受信する放送信号を受けつけ、任意のチャンネルにチューニングし、そのチャンネルの番組を受信する。また、出力部105には、出力映像を表示するディスプレイ110および出力音響(音声)を再生するスピーカ111が接続することで、映像(video)および音響(audio)を、再生できる。なお、ディスプレイ110およびスピーカ111の少なくとも一方は、コンテンツ状況検出部100と一体であってもよい。また、ディスプレイ110およびスピーカ111の少なくとも一方は、コンテンツ処理再生装置1(コンテンツ状況検出部100)から映像または音響を無線通信により取得するものであってもよい。なお、コンテンツ状況検出部100には、受信した番組を記憶する記憶装置および記憶装置への(番組の)記録と記憶装置からの(番組の)再生を制御する記憶制御部が付属してもよい。
アンテナANTから受信部101に入力する放送信号は、受信部101がIF(中間周波数)信号に変換する。デジタル復調部102は、IF信号からデジタル信号(TS:トランスポートストリーム)を抽出し、MPEG処理部103に出力する。
MPEG処理部103は、復調部102が抽出したTSを、映像(video)および音響(audio)ならびにEPG表示用のSI(Service Information)に分離し、映像(video)および音響(audio)をデコードする。出力部105は、MPEG処理部104がデコードした映像(video)データおよび音響(audio)データを、ディスプレイ110およびスピーカ111に、それぞれ出力する。
CPU106は、上述した要素や構成の動作を制御する。CPU106はまた、操作入力部104が受けつけるユーザ操作(直接入力)や、リモートコントローラRM、あるいはタブレットPCやスマートフォンが代表する携帯可能な端末装置からの制御入力(操作指示)に対応する、さまざまな制御コマンドを出力する。制御コマンドは、例えばテレビ放送(番組)の録画(記憶)や録画(記憶)された番組の再生等を指示するコマンドである。
コンテンツ状況解析部107は、MPEG処理部103が出力する映像(video)/音声(audio)データを解析する。コンテンツ状況解析部107は、たとえば、コンテンツ状況検出部100が受信中の番組が野球放送の場合、映像/音声データから、点が加算されたことや満塁であること、等を検出し、「点加算」もしくは「満塁」等というキーワードを、生成する。
コンテンツ状況処理部108は、たとえばBluetooth(登録商標)等の接続手段である。コンテンツ状況処理部108は、コンテンツ状況解析部107が生成するキーワードを感情推定部300に送信する。
ユーザ状況検出部200は、ユーザ情報入力部201、ユーザ状況解析部202、ユーザ状況送信部203を備え、これらがバスを介してCPU204に接続される。
ユーザ情報入力部201は、ユーザの顔画像や声、心拍数、脈拍、血圧、発汗あるいは脳波、等の生体情報等のユーザ情報を検出するセンサーデバイスである。
ユーザ状況解析部202は、CPU204の制御の下で、ユーザ情報入力部201からのユーザ情報を解析し、たとえば「嬉しい」や「悲しい」、等の感情を検出する。なお、ユーザ状況解析部202は、CPU204が実行する機能の一つとして実現されていても良いし、或いはハードウェア回路として実現されていても良い。
ユーザ状況送信部203は、CPU204の制御の下で、ユーザ状況解析部202が検出するユーザの感情である「嬉しい」もしくは「悲しい」、等のキーワードを、感情推定部300に、送信する。即ちユーザ状況送信部203は、無線又は有線の通信部である。
感情推定部300は、コンテンツ状況受信部301、ユーザ状況受信部302、状況比較および感情推定部303、コメント生成部304、コメント出力部305を備え、これらがバスを介してCPU306に接続される。
コンテンツ状況受信部301は、無線又は有線の通信部であり、コンテンツ状況送信部108が送信するコンテンツの状況情報、たとえば「点加算」、「満塁」等のキーワードを受信する。
ユーザ状況受信部302は、無線又は有線の通信部であり、ユーザ状況送信部203が送信するユーザの状況情報、たとえば「嬉しい」、「悲しい」、等のキーワードを受信する。
なおコンテンツ状況受信部301及びユーザ状況受信部302は同一の通信部であっても良い。
状況比較および感情推定部303は、図2又は図3を用いて後段に詳述するが、ユーザ状況解析部202が検出するユーザの感情よりもコンテンツに対応するより高度な感情を推定する。
コメント生成部304は、図2又は図3を用いて後段に説明するが、状況比較および感情推定部303が生成するユーザ感情情報に基づいて、ユーザの共感が得られると推測するコメントを作成する。
コメント出力部305は、図2又は図3を用いて後段に説明するが、コメント生成部304が作成するコメントの基づいて、音声出力、文字出力、バイブレーションの動作、等を出力する。なお、感情推定部300を、たとえばロボット装置として構成した場合は、コメントが「チャンス」である場合に、たとえば「踊る(ダンスする)」、等の動作による応答も可能である。また、感情推定部300を、たとえばスマートフォンもしくは携帯端末装置として構成した場合、表示部310による文字や映像の出力や、スピーカ311による音響(音声)出力による応答が可能である。なお、感情推定部300がコンテンツ再生装置(テレビ装置)である場合においても、ディスプレイ310による文字や映像の出力や、スピーカ111による音響(音声)出力による応答が可能である。
CPU306は、それぞれの構成要素を制御する。なお、状況比較および感情推定部303、コメント生成部304、コメント出力部305は、全てがCPUにより実行される機能として実現されても良いし、あるいは、これらの一部又は全てがハードウェア回路として実現されても良い。
図2に、状況比較および感情推定部303による感情を推定の一例を示す。
図2において、ユーザ状況が「嬉しい」であり、イベントすなわちコンテンツ状況が「野球で満塁」である場合には、状況比較および感情推定部303は、「チャンスで嬉しい」というように、その感情(嬉しい)に至る理由である補足情報(チャンス)に基づいて、ユーザの感情を推定する。同様に、ユーザ状況が「悲しい」であり、コンテンツ状況(イベント)が「野球で満塁」であった場合、「ピンチで悲しい」というように、その感情(悲しい)に至る理由となる補足情報(ピンチ)に基づいて、ユーザの感情を、推定する。なお、イベントは、上述の「満塁」や「得点」等であり、それぞれを『種類(イベントの種類)』と称する場合がある。
なお、コンテンツ状況(イベント)が「点が加算」である場合も、「点を取って」嬉しい、もしくは「点を取られて」悲しい、というように、その感情に至る理由を推定することが可能となる。このように、感情推定部300は、ユーザ感情を推定する際に、「悲しい」や「嬉しい」という感情に至る理由である補足情報までを含めてユーザの感情を推定することができる。
また、図3が示すように、高度に感情を推定することも可能である。
たとえば、ユーザの「嬉しい」あるいは「悲しい」といったユーザ状況とコンテンツ中で実況するアナウンサーの「嬉しい」または「悲しい」といったコンテンツ状況から、ユーザがコンテンツ(アナウンサーの実況)を否定している、という感情まで推定することが可能である。すなわち、ユーザが応援するチームとアナウンサーが好意を示しているチームとか逆であるような場合に、ユーザがアナウンサーの実況を否定している状態の「嬉しい」もしくは「悲しい」という感情まで推定することが可能である。
コメント生成部304は、状況比較および感情推定部303が作成するユーザ感情をもとに、たとえば図2が示すように、「チャンスだね」、「ピンチだね」、「点取ったね」もしくは「点取られちゃったね」というようなコメントを作成する。すなわち、状況比較および感情推定部303が作成するユーザ感情は、ユーザ状況である「嬉しい」や「悲しい」、もしくはコンテンツ状況である「野球:満塁」だけでは判断できない「チャンス」や「ピンチ」までを、ユーザの応援するチームを推測した結果も加えて状況比較することで、「チャンスだね」、「ピンチだね」というコメントを生成する。なお、図3が示すように、ユーザが応援するチームとアナウンサーが好意を示しているチームとか逆であるような場合には、状況比較の結果に基づいて、コメントに『のに』という接続助詞を付加でき、高度なコメントを生成することができる。
なお、イベントは、上述の「満塁」や「得点」、「アナウンサーの実況」等であり、それぞれを『種類(イベントの種類)』と称する場合がある。
図4は、図2又は図3に例示した状況比較および感情推定部におけるキーワードの生成例を示す。
ユーザ状況取得部301が、コンテンツ状況情報として、たとえば「野球:満塁」のようなキーワードを取得する[101]。
ユーザ状況取得部302が、たとえば「嬉しい」、「悲しい」のようなキーワードのユーザ状況情報を取得する[102]。
状況比較および感情推定部303が、たとえば、図2に示すような「チャンスで嬉しい」や「ピンチで悲しい」という感情を推定する[103]。
コメント生成部304が、たとえば、図2に示すような「チャンスだね」や「ピンチだね」というコメントを作成する[104]。
コメント出力部305が、[104]で作成したコメントを、音声出力もしくは、文字表示などで出力する[105]。
図5に、状況比較および感情推定部によるユーザの感情の推定の精度を向上する例を示す。
たとえば、ユーザ状況解析部202が解析したユーザ状況について、その確度を付属する。これにより、状況比較および感情推定部301が解析したユーザ状況の確度を、一層高めることができる。たとえば、図6に示すように、感情推定部700において、図3に示す感情推定部300に、状況対応記憶部704を付加し、図7に示すように、たとえば、出現回数を記憶する。
図7が示すように、コンテンツ状況情報として、たとえば野球放送、等のスポーツの番組において、「チーム名を示すと考えることができる文字“A”の次の数字を得点と判定し、その数字が加算」された場合、得点があった(加点した/加点された)と推定する。このとき、ユーザ情報状況の「嬉しい」、「悲しい」のそれぞれについて、出現した(カメラまたはウェアラブル端末装置が特定した)回数を特定する。
ここで、新規の感情(最後に出現したユーザ状況)が「嬉しい」で、コンテンツ状況情報が「文字“A”の次の数字が加算」である、として計算例を示す。
ユーザ状況検出部の信用比率を、Wとする。なお、ここでは、W=0.8とする。
あるコンテンツ状況によるユーザ状況の出現確率を、P(%)とする。なお、ここでの計算においては、図7が示すユーザ状況の情報に基づいてP(%)を計算する。図7に示すように、メモリには、過去において、コンテンツ状況情報が「文字“A”の次の数字が加算」であった場合に認識されたユーザ状況の回数が記憶されている。図7の例においては、「嬉しい」が900回、「悲しい」が100回認識されている。つまり図7の例においては、「文字“A”の次の数字が加算」された場合に、ユーザ状況「嬉しい」が出現する確立P(%)は(900/(900+100))である。
以下、新規のユーザ状況(感情)の確度は、
ユーザ状況検出部の確度×W+P×(1−W)
で計算できる。
上記を適応すると、新規の「嬉しい」の確度は、
80×0.8+(900/(900+100))×100×(1−0.2)=82
となる。なお、ユーザ状況検出部の確度「80」は、定性的な一般値を当てはめたものである。
これにより、図5が示すように、新規の感情の確度は、「嬉しい」の場合、82%ととなる。
なお、確度は、コメント出力の判定に用いることも可能であり、ある一定以上の確度の場合のみ、コメントを出力するよう設定することも可能である。これにより、ユーザへの反応の精度も向上する。
また、ユーザ状況検出部200は、たとえばテレビ装置に付属するマイクロフォンやユーザが保持する携帯端末装置であってもよい。その場合、感情推定部300は、取得したユーザの声の高さ(トーン)や声の大きさ、「沈んでいる」、「明るい」等の感情に対応することの多い話勢、等の要素から、ユーザの感情を推定できる。
なお、ユーザが2人以上である場合には、ユーザ状況の検出とユーザの感情推定は、ユーザ毎とすることが好ましい。この場合、感情推定部300がロボットである場合には、コメントに対する応答(反応)は、何れかの(特定の)ユーザのユーザ状況および感情推定の結果に依存せず、中庸な応答(反応)とすることが好ましい。なお、ユーザ状況検出部200が、複数のユーザの状況情報の論理積、論理和もしくは加重平均をとり、統一した状況情報として出力することが好ましい。例えば図2の例において、満塁であってユーザ1が「嬉しい」、ユーザ2が「悲しい」の場合、コメントとして「満塁だね」や「ユーザ1さんにはチャンスだけど、ユーザ2さんにはピンチだね」等が出力されても良い。また同様に、図2の例において、点が加算された場合であって、ユーザ1が「嬉しい」、ユーザ2が「悲しい」の場合、コメントとして「点が入ったね。ユーザ1さんには嬉しいけど、ユーザ2さんには悲しいね」等が出力されても良い。
あるいは、感情推定部300が、たとえば個々のユーザが保持する表示装置、たとえばタブレット装置やスマートフォンである場合、各ユーザに、異なる応答(反応)を呈しても良い。たとえば、感情推定部300が、各ユーザの保持する携帯端末装置であるならば、チームAを応援するユーザCとチームBを応援するユーザDとが、図8が示す野球中継を見ている場合に、ユーザCが保持する携帯端末装置に、図2が示す「チャンスだね」というコメントを表示し、ユーザDが保持する携帯端末装置に、図2が示す「ピンチだね」というコメントを表示することができる。なお、ユーザ状況検出部200と感情推定部300とは、たとえば4人程度のユーザを想定して複数用意されてもよいし、たとえばアプリケーション(またはプログラムもしくはファームウェア)として、並列処理が可能に構成されてもよい。
図8−図10は、それぞれ、コンテンツ再生装置を実現する実施形態の一例を示す。
図8が示すコンテンツ再生装置は、図1により説明したコンテンツ状況検出部100、ユーザ状況検出部200、感情推定部300が、それぞれ別々の装置である例を示し、コンテンツ状況検出部100をテレビ装置(コンテンツ再生装置)901とし、ユーザ状況検出部200を腕時計のようなウェアラブル端末装置902とし、感情推定部300をロボットのような音声出力と動きによる応答の表現可能なコメント出力装置903とする例である。
図9が示すコンテンツ再生装置は、図1により説明したコンテンツ状況検出部100がテレビ装置911であり、ユーザ状況検出部200を、たとえばカメラ912としてテレビ装置911に一体的に設け、感情推定部300を、コメント表示部913としてテレビ装置911の所定の領域にコメントを表示する例である。すなわち、図9が示す例では、テレビ装置911において(テレビ装置911が再生する)コンテンツからコンテンツ状況情報を解析し、カメラ912によりユーザの状況を取得してユーザ状況情報を解析して感情を推定し、コメント表示部913に、コメント(映像(文字))やアニメーションを表示する例である。なお、コメント表示部913は、テレビ装置911の画像表示の任意の領域に、コメントを映像(アニメーションや文字を含む)あるいは音声(音響)もしくはその両者として出力することができる。
なお、コンテンツ状況検出部100をテレビ装置(コンテンツ再生装置1)に内蔵し、ユーザ状況検出部200と感情推定部300とを一体としてテレビ装置911とは独立に用意してもよい。たとえば、感情推定部300をロボットとし、ロボットにカメラを一体的に設け、カメラによりユーザの状況情報を取得して解析してもよい。
図10は、たとえばスマートフォン1001をコンテンツ状況検出部100として自動車の所定の位置にセットして、利用する例を示す。なお、図10が示す例は、感情推定部300がスマートフォン1001に、たとえばアプリケーション(プログラム)として内蔵され、コンテンツ状況検出部100として、スマートフォンの非表示部1010側の対物カメラ1011を用い、カメラ1011が取り込む外部状況(車窓風景)を、コンテンツ状況とする例を説明する。すなわち、カメラ1011が取り込む外部状況がコンテンツである。また、図10が示す例は、ユーザ状況検出部200としてスマートフォン1001の表示部1010側の自撮り用カメラ1012およびマイクロフォン(送話部)1013を、感情推定部300としてスマートフォン1001の表示部1010およびスピーカ(受話部)1014を、それぞれ用いる。なお、自動車に外部状況を取り込む車載カメラが用意されている場合、対物カメラ1011が取得する外部状況(車窓風景)に置き換えることも可能である。
図11Aは、図10に示すスマートフォン1001のカメラ1011が取り込む外部状況(車窓風景)に基づく状況比較および感情推定部303による感情の推定の一例を示す。
図11Aにおいて、自撮り用カメラ1012が取り込んだ映像やマイクロフォン1013が取得できるユーザの声、等に基づいて得られるユーザ状況が「覚醒」又は「眠気」であり、ユーザ状況が「眠気」かつコンテンツ状況が「人や車が多い」であった場合、状況比較および感情推定部303は、「混んでいるのに眠い」と推測する。これに応じて、「混んでいるよ、注意してね」等という「覚醒」を促すコメントを生成する。一方、「人や車が多い」でも、ユーザ状況が「覚醒」であった場合、状況比較および感情推定部303は、「混んでいるので集中している」と推測する。なお、この場合、ユーザ感情は、例えば「混んでいるのに眠い(眠気)」や「混んでいるので集中している(覚醒)」と推定できる。これに応じて、「落ち着いてね」等という過剰に「覚醒」しすぎないようなコメントを生成する。
また、ユーザ状況が「覚醒」又は「眠気」であっても、コンテンツ状況が「人や車が少ない」であった場合、ユーザ状況が「眠気」かつコンテンツ状況が「人や車が少ない」であった場合、状況比較および感情推定部303は、「空いているので眠い」と推測する。これに応じて、「空いているね」という「眠気」になりすぎないようなコメントを生成する。一方、「人や車が少ない」でも、ユーザ状況が「覚醒」であった場合、状況比較および感情推定部303は、「空いており集中している」と推測する。なお、この場合、ユーザ感情は、例えば「空いているので眠い(眠気)」や「空いているけど集中している(覚醒)」と推定できる。これに応じて、この場合、コメント生成部304は、たとえば「空いていていいね」等を、コメントとして生成することも可能であるが、ユーザ状況が「覚醒」であることを考慮して、コメントを出力しないことも可能である。
また、状況比較および感情推定部303は、ユーザ状況とコンテンツ状況に応じて、注意を喚起するレベル(注意喚起レベル)を作成することも可能である。例えば、「眠気」と「人と車が多い」場合危険な状態であると判定し、注意喚起レベルを高くする(図11Aの例では、例えば『10段階の10』とする)。注意喚起レベルは、例えば、図11Aのようにコメントを出力する場合の、音量やトーンの変更に使用することが可能である。例えば、図11Aのように、注意喚起レベルが高ければ、音量を大きくする(図11Aの例では、例えば『5段階の5』とする)ことが可能である。
また、図11Bが示すように、自撮り用カメラ1012が取り込んだ映像やマイクロフォン1013が取得できるユーザの声、等に基づいて得られるユーザ状況が「覚醒」又は「眠気」であり、コンテンツ状況が「人や車が多い」であった場合、コメント生成部304は、たとえば「落ち着いてね」等を、コメントとして生成してもよい。一方、ユーザ状況が「眠気」である場合には、コメント生成部304は、たとえば「混んでるよ、注意してね!」等を、コメントとして生成してもよい。また、ユーザ状況が「覚醒」又は「眠気」であっても、コンテンツ状況が「人や車が少ない」であった場合、コメント生成部304は、たとえば「空いていていいね」等を、コメントとして生成してもよい。しかしながら、ユーザ状況が「覚醒」であることを考慮して、コメントを出力しないことも可能である。一方で、ユーザ状況が「眠気」である場合には、コメント生成部304は、主として居眠り防止等のための、たとえば「空いているね!」等を、コメントとして生成することが好ましい。
図12は、図10に示したスマートフォン1001を、ナビゲーション装置として利用する場合の状況比較および感情推定部303による感情を推定の一例を示す。図12は、ユーザ状況が「嬉しい」又は「悲しい」であり、コンテンツ状況が「目的地周辺」であった場合の例である。
図12において、ユーザ状況が「嬉しい」かつコンテンツ状況が「目的地周辺」であった場合、状況比較および感情推定部303は、目的地に到達することが嬉しい状況であると推測し、この場合、コメント生成部304は、たとえば「やった、ついたね!」等、ユーザを称えるコメントを生成する。一方、ユーザ状況が「悲しい」かつコンテンツ状況が「目的地周辺」であった場合、状況比較および感情推定部303は、目的地に到達することが悲しい状況であると推測し、この場合、たとえば「やっと着いたよ」等、ユーザを労うコメントを生成する。
ここで、目的地周辺は、自宅の画像をコンテンツ検出部100に登録することで、車載カメラの画像と比較することで、目的地周辺を認識することも可能である。
上述の図11A、図11Bおよび図12のように車載システムにおいても、ユーザ状況とコンテンツ状況に応じたコメントを生成することが可能である。
なお、コンテンツ処理再生装置1が、再生するコンテンツは、放送波やネットワークなどの外部から取得する番組でなくてもよく、たとえば、アマチュアのサッカーをデジタルカメラ等で撮影してDVD等に保存したコンテンツの再生でもよい。例えば、図13に示すように、選手のユニフォームの違いとボールの動きから、コンテンツ状況として「インターセプト」や「ロングボールが通った」等を解析することが可能で、ユーザ状況の「嬉しい」および「悲しい」と照らし合わせることにより、ユーザがどちらのチームに所属、もしくはどちらのチームを応援しているかが判定できる。そのため、図13のように、ユーザの状況「嬉しい」や「悲しい」等とコンテンツ状況「インターセプト」や「ロングボールが通った」等に応じたユーザの感情にあうコメントを返すことが可能である。なお、ユーザの感情としては、例えば「インターセプト(したので嬉しい)」や「ロングボールが通った(ので嬉しい)」あるいは「インターセプト(されたので悲しい)」や「ロングボールが通った(ので悲しい)」と推定できる。
また、例えば、「インターセプト」や「ロングボールが通った」等である時に、コンテンツ状況検出部100が、ユーザの所属もしくは応援するチームからみてどちらの陣地で前記事象(「インターセプト」や「ロングボールが通った」)が起こったか、等も解析することができ、陣地の情報をもとに、状況比較および感情推定部303がピンチもしくはチャンスの度合いを判定することができる。これにより、コメント生成部304はピンチもしくはチャンスの度合いに応じたコメントを返すことができる。
図14−図18は、コメントによる応答に代えて、複数の画像からユーザの好みに合う画像を、自動的に選択して表示する例を示す。
任意の画像(フレーム)を表示し、その画像(フレーム)を見ているユーザの表情等を、カメラや携帯端末装置を用いて自撮り(ユーザがユーザ自身を撮影)する。
次に、自撮りしたユーザの画像について、ユーザの感情の評価値(視聴するユーザの笑顔度、喜び度、等)を求める。
続いて、表示する画像(フレーム)のそれぞれについて、画像の評価値(画像の笑顔度、リファレンスとの類似度、等)の評価値とユーザの感情の評価値とを足し合わせ、足し合わせた評価値の大きい順に最適な画像と判定する。
以下、評価値の大きい順に、ユーザに提供する(再生する)。
これにより、複数の画像からユーザの好みに合う画像を、自動的に選択できる。
なお、画像の評価値を、画像の評価値に掛け合わせる係数を「0」として除外することにより(ユーザの)感情のみの評価値を用いて、ユーザが再生を期待する好適な画像を抽出して再生することも可能である。
以下、表示する方法を、詳細に説明する。
始めに、図14が示すように、動画もしくは複数の静止画を撮影する[SA00]。
次に、図15が示すように、最後のフレーム(画像)であるか否かをチェックし[SA10]、最後のフレーム(画像)の前のフレーム(画像)になるまで、撮影した動画もしくは静止画を1フレームずつユーザに表示する[SA11]。このとき、カメラやウェアラブル端末装置により、ユーザ情報を取得する。なお、ユーザ情報は、たとえばカメラでユーザを撮影して得られる笑顔度であってもよいし、ウェアラブル装置により取得する、脳波や脈拍、呼吸数、等のさまざまな生体情報であってもよい。また、取得する生体情報と笑顔度とを併用してもよい[SA12]。
以下、画像を解析し、たとえば笑顔度である評価値[eval_image]、を計算する[SA13]。
次に、たとえば表示した画像を見たユーザの笑顔度であるユーザ状況の評価値[eval_user]、を計算する[SA14]。
次に、フレーム毎に、最適画像の評価値[eval]を計算し、計算した結果を保存する[SA15]。
なお、最適画像の評価値[eval]は、たとえば
画像の評価値:eval_image
画像の係数:coef_image
感情の評価値:eval_user
感情の係数:coef_user
とすると、
eval
= coef_image×eval_image
+coef_user×eval_user
にて、求めることができる。
従い、eval(最適画像の評価値)の高い画像(フレーム)を、最適な画像(フレーム)とする。
その後、図16に示すように、図15で求めた最適画像の評価値evalが最も高いフレーム(画像)からフレーム(画像)を表示する[SA20]。
図17および図18は、図14−図16で説明した評価値を求める際に、撮影時に、あらかじめ画像を解析して、ユーザが視聴する(ユーザに提示する)画像を絞りこむ例である。なお、ユーザに提示する画像の絞り込みには、たとえば図15により説明した脳波や脈拍、呼吸数、等のさまざまな生体情報や、カメラにより撮影したユーザの表情(笑顔度)、等を用いることが好ましい。
始めに、図17が示すように、動画もしくは複数の静止画を撮影する[SB00]。
次に、画像を解析し、たとえば笑顔度、あるいはリファレンスとの類似度である評価値[eval_image]、を計算する[SB01]。
次に、たとえば評価値[eval]の高い順に、[eval_image(評価値)の高い画像を、複数枚(またはユーザの感情を取得し易い所定枚)を選択し、保存する[SB02]。なお、感情の評価値を取得しやすい順に並べ替える。感情の評価値を取得しやすい順とは、たとえば感情の変化が出やすいように、画像の評価値の高い画像と低い画像を交互に保存する。
続いて、最後のフレーム(画像)であるか否かをチェックし[SB10]、最後のフレーム(画像)の前のフレーム(画像)になるまで、撮影した動画もしくは静止画を1フレームずつユーザに表示する[SB11]。このとき、カメラやウェアラブル端末装置により、ユーザ情報を取得する。なお、カメラでユーザを撮影してもよいし、ウェアラブル端末装置により、脳波や脈拍、呼吸数、等を取得してもよいし、さまざまな方法で取得する生体情報を併用してもよい[SB12]。
以下、たとえば、表示されたフレーム(画像)を見たユーザの笑顔度である、ユーザ状況の評価値[eval_user]を計算する[SB13]。
以下、フレーム毎に、評価値[eval]を計算し、計算した結果を保存する[SB14]。
なお、評価値[eval]は、図15に示したと同様に、
画像の評価値:eval_image
画像の係数:coef_image
感情の評価値:eval_user
感情の係数:coef_user
を用い、
eval
= coef_image×eval_image
+coef_user×eval_user
にて、求めることができる。
その後、図16で示したように、最適画像として、最適画像の評価値[eval]が高いフレーム(画像)から表示する[SA20]。
このように、スポーツにおける得点、移動中の目的地到着、画像(写真)の評価値、等、のユーザにより反応が異なりうる事象(シーン)と、その事象(シーン)に対するユーザの反応を検出し、事象とユーザ反応の両方を考慮した動作(応答)を行う。これにより、ユーザの共感が得られると推測する応答(画像の表示)が可能な感情推定方法及び電子機器を得ることができる。、
たとえば、映像音声コンテンツを視聴するユーザの感情において、コンテンツ状況解析部とユーザ状況解析部とにより解析した状況情報に基づいて、状況情報比較および感情推定部がユーザの感情を推定することにより、理由等の補足情報を含む感情情報や、コンテンツの感情情報を否定する感情情報や、感情の正確さを増す感情情報、等の高度な感情を推定することが可能となる。
また、状況情報比較および感情推定部により推定した感情情報を基づいてコメント生成部がコメントを生成し、コメント出力部がコメントを音声や動作、あるいは文字の表示、等で出力することにより、より高度なユーザへのコメントを返すことが可能となる。
また、コメント出力部が、たとえば動きを表現できるロボットや多くの文字情報やアニメーション等を表示可能なタブレット端末装置、等である場合、コンテンツが、たとえばスポーツ中継、等の応援をすることが可能なコンテンツであった場合には、応援者(ユーザ)の感情に沿うような応答(アクション)を呈することが可能となり、ユーザの共感が得られる高度な内容の応答が可能となる。なお、コメント出力部が、動きを表現できるロボットである場合は、野球やサッカー、等の応援可能なコンテンツを視聴する際に、応援者(ユーザ)側の立場に立つ、より高度な応援ロボットを実現できる。
なお、感情推定の正確さを高めることにより、ユーザへのアクション(応答)を、実施するかどうかを、より正確に判定することが可能となる。
また、コメントの出力(コメントによる応答)に代えて、複数の画像(フレーム)からユーザの好みに合う画像を表示するような場合には、たとえばユーザの表情あるいは生態情報、もしくはその両者と画像(フレーム)とを関連づけ、評価値の高い画像を表示することにより、ユーザが気に入るであろう、画像(フレーム)を優先的に表示することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。