JP6625809B2

JP6625809B2 - 電子機器およびその制御方法

Info

Publication number: JP6625809B2
Application number: JP2015067124A
Authority: JP
Inventors: 紀昭河合
Original assignee: Toshiba Visual Solutions Corp
Current assignee: Toshiba Visual Solutions Corp
Priority date: 2015-03-27
Filing date: 2015-03-27
Publication date: 2019-12-25
Anticipated expiration: 2035-03-27
Also published as: JP2016186741A

Description

この発明は、電子機器およびその制御方法に関する。

対象者に関する画像、音声もしくは生体情報に基づいて、対象者の感情を推定する方法および電子機器がある。

特開２００７−３４６６４号公報

たとえば、案内表示装置、等の表示機能を有する電子機器においては、対象者の感情を推定し、対象者の感情に、的確に応答する画像や音声メッセージ、等を出力することが好ましい。

しかしながら、感情推定方法および電子機器においては、感情推定の精度が十分とは言えない場合も多く、対象者が期待する応答（画像表示や音声メッセージ）とは異なる応答を出力する場合がある。

この発明の目的は、ユーザの共感が得られると推測する応答が可能な電子機器およびその制御方法を提供することである。

実施形態の電子機器は、ユーザ状況解析部と、コンテンツ状況解析部と、感情推定部と、を具備する。ユーザ状況解析部は、ユーザの生体情報を解析する。コンテンツ状況解析部は、コンテンツの状況を解析する。感情推定部は、前記コンテンツ状況解析部により解析されたコンテンツ状況と前記ユーザ状況解析部により解析されたユーザ状況とに基づいた動作を実行する。即ち、感情推定部は、前記ユーザが第１のタイミングにおける前記ユーザ状況と前記コンテンツ状況とを用いて、前記ユーザが前記ユーザ状況に至った理由である補足情報を推定するとともに、前記補足情報と前記ユーザ状況とを用いて推定したユーザ感情の出力を得るものであり、前記ユーザ感情の出力は前記コンテンツに関する前記コンテンツ状況を肯定する出力又は前記コンテンツに関する前記コンテンツ状況を否定する出力の何れかを得るようにしている。

実施形態に係る電子機器の一例を示す。実施形態に係る電子機器が用いる推定規則の一例を示す。実施形態に係る電子機器が用いる推定規則の一例を示す。実施形態に係る電子機器が出力するコメント生成の手順の一例を示す。実施形態に係る電子機器が用いる推定規則の一例を示す。実施形態に係る電子機器の感情推定部の一例を示す。実施形態に係る電子機器が用いる推定規則の一例を示す。実施形態に係る電子機器の構成の一例を示す。実施形態に係る電子機器の構成の一例を示す。実施形態に係る電子機器の構成の一例を示す。実施形態に係る電子機器が用いる推定規則の一例を示す。実施形態に係る電子機器におけるコメント出力の一例を示す。実施形態に係る電子機器が用いる推定規則の一例を示す。実施形態に係る電子機器が用いる推定規則の一例を示す。実施形態に係る電子機器が用いる推定規則の準備段階の手順の一例を示す。実施形態に係る電子機器が用いる推定規則の応答段階の手順の一例を示す。実施形態に係る電子機器が用いる推定規則の応答設定の手順の一例を示す。実施形態に係る電子機器が用いる推定規則の準備段階の手順の一例を示す。実施形態に係る電子機器が用いる推定規則の応答設定の手順の一例を示す。

以下、図面を参照して、実施の一形態について説明する。

図１は、実施形態に係る感情推定方法を適用するコンテンツ処理再生装置（電子機器）１の一例を示す。なお、コンテンツ処理再生装置１は、映像コンテンツや音声コンテンツを処理して再生する。また、以下に説明する要素や構成は、マイクロコンピュータ（処理装置、たとえばＣＰＵ（Central Processing Unit））によりソフトウェアで実現するものあるいはハードウェアで実現するもの、のいずれであってもよい。

また、以下の記載において、コンテンツ処理再生装置１が再生する番組は、ストリームまたはコンテンツもしくは情報と称する場合もある。なお、番組は、映像と、映像に付属する音声や音楽を含む。また、映像は、動画、静止画あるいはテキスト（コード化された符号列で示される文字や記号等で表される情報）の少なくとも１つを含む。なお、コンテンツ処理再生装置１は、たとえばデジタルテレビジョン放送受信装置（以下テレビ装置と称する）、スマートフォンあるいはパーソナルコンピュータ（ＰＣ）、等である。また、コンテンツ処理再生装置１が再生する番組は、番組供給元（放送事業者）が、たとえば空間波（電波）を用いて送信する放送を受信することで取得できる。なお、番組は、番組配信元（配信事業者）が、光ファイバ（ケーブル）網やインターネット・プロトコル（Internet Protocol）通信網、等のネットワークを用いて配信するものであってもよい。番組はまた、ユーザがアクセスした場合に、所定の条件に基づいて取得可能に情報供給元が用意するコンテンツであってもよい。すなわち、番組は、ネットワーク上の番組提供元（コンテンツサーバ）が保持するストリーミング映像（ストリーム）の読み出し（ダウンロード）とその再生であってもよい。番組はさらに、ネットワーク機能を使用する映像転送技術（他の装置が保持する番組のネットワークを経由した（番組の）再生であってもよい。

図１が示す感情推定システムを適用するコンテンツ処理再生装置１は、コンテンツ状況検出部１００、ユーザ状況検出部２００および感情推定部３００を含む。なお、ユーザ状況検出部２００および感情推定部３００の何れか一方、または両方がコンテンツ処理再生装置１と一体の装置であってもよい。

コンテンツ状況検出部１００は、たとえばテレビ装置、スマートフォン、ナビゲーション装置あるいはパーソナルコンピュータ（ＰＣ）、等である。なお、コンテンツ状況検出部１００は、たとえばスマートフォンあるいはタブレット（ＰＣ）装置のアプリケーション（プログラム）等であってもよい。ユーザ状況検出部２００は、たとえば腕時計や指輪あるいはリストバンド等のユーザの生体の情報を取得可能なウェアラブル装置や、カメラ装置やスマートフォン等の映像や音声（音響）を取得可能な機器である。感情推定部３００は、たとえばロボット装置のように所定の動作が可能な装置や音声あるいは映像を出力可能な情報再生装置、である。なお、感情推定部３００は、スマートフォンあるいはタブレット（ＰＣ）装置のアプリケーション（プログラム）等であってもよい。

コンテンツ状況検出部１００は、コンテンツの状況（コンテンツ状況）を解析する。コンテンツは、たとえば番組、カメラ映像、あるいはナビゲーション装置の画面表示、等である。

ユーザ状況検出部２００は、ユーザの感情を含む状況（ユーザ状況）を解析する。ユーザ状況は、たとえばカメラ装置が取得するユーザの「嬉しそう」、「悲しそう」あるいは「にこやか」等であるユーザの表情、「明るい」、「朗らか」もしくは「沈んでいる」等であり、かつ声の高さ（トーン）や声の大きさ等であるユーザの雰囲気、あるいは脈拍や発汗、等である生体情報を解析し、ユーザの感情、たとえば「嬉しい」や「悲しい」を、特定する。

感情推定部３００は、コンテンツ状況検出部１００とユーザ状況検出部２００とにおいて検出した状況情報を比較し、その感情である「嬉しい」や「悲しい」に至る理由となる補足情報、たとえば「チャンス」や「ピンチ」を含む感情情報に基づいて、ユーザの感情（ユーザ感情）を推定する。なお、感情推定部３００が推定するユーザ感情は、上述した「嬉しい」と「悲しい」のように、推定時に「対」もしくは「対極」で表すことのできる感情であることが好ましい。しかしながら、ユーザ感情は、たとえば自動車を運転中に生じることのある「眠気」等に起因して、「−（無し）」となる（必ずしも「対」もしくは「対極」で表すことがない）場合もある。

また、感情推定部３００が推定するユーザ感情は、たとえば「笑い顔」と「無表情（笑っていない）」や「（真剣に）画面表示を見ている」と「画面表示を見る目（カメラが捕らえるユーザの視線）が散漫である」あるいは「（真剣に）画面表示を見ている」と「他者と会話している」、等、さまざまな事象を考えることができる。なお、たとえば「他者と会話している」については、画面表示（番組）を見て、他者と同調して盛り上がっている、等、マイクロフォン等により取得可能な音声情報を参照することにより、より精度の高い感情の推定が可能となる。

コンテンツ状況検出部１００は、図１に示す例においてテレビ装置である場合に、アンテナ受信部１０１、デジタル復調部１０２、ＭＰＥＧ（ビデオ／オーディオ信号）処理部１０３、出力部１０４、操作入力部１０５、ＣＰＵ（システム制御部）１０６、コンテンツ状況解析部１０７およびコンテンツ状況送信部１０８、を含む。なお、アンテナ受信部１０１は、アンテナＡＮＴと接続し、アンテナＡＮＴが受信する放送信号を受けつけ、任意のチャンネルにチューニングし、そのチャンネルの番組を受信する。また、出力部１０５には、出力映像を表示するディスプレイ１１０および出力音響（音声）を再生するスピーカ１１１が接続することで、映像（video）および音響（audio）を、再生できる。なお、ディスプレイ１１０およびスピーカ１１１の少なくとも一方は、コンテンツ状況検出部１００と一体であってもよい。また、ディスプレイ１１０およびスピーカ１１１の少なくとも一方は、コンテンツ処理再生装置１（コンテンツ状況検出部１００）から映像または音響を無線通信により取得するものであってもよい。なお、コンテンツ状況検出部１００には、受信した番組を記憶する記憶装置および記憶装置への（番組の）記録と記憶装置からの（番組の）再生を制御する記憶制御部が付属してもよい。

アンテナＡＮＴから受信部１０１に入力する放送信号は、受信部１０１がＩＦ（中間周波数）信号に変換する。デジタル復調部１０２は、ＩＦ信号からデジタル信号（ＴＳ：トランスポートストリーム）を抽出し、ＭＰＥＧ処理部１０３に出力する。

ＭＰＥＧ処理部１０３は、復調部１０２が抽出したＴＳを、映像（video）および音響（audio）ならびにＥＰＧ表示用のＳＩ（Service Information）に分離し、映像（video）および音響（audio）をデコードする。出力部１０５は、ＭＰＥＧ処理部１０４がデコードした映像（video）データおよび音響（audio）データを、ディスプレイ１１０およびスピーカ１１１に、それぞれ出力する。

ＣＰＵ１０６は、上述した要素や構成の動作を制御する。ＣＰＵ１０６はまた、操作入力部１０４が受けつけるユーザ操作（直接入力）や、リモートコントローラＲＭ、あるいはタブレットＰＣやスマートフォンが代表する携帯可能な端末装置からの制御入力（操作指示）に対応する、さまざまな制御コマンドを出力する。制御コマンドは、例えばテレビ放送（番組）の録画（記憶）や録画（記憶）された番組の再生等を指示するコマンドである。

コンテンツ状況解析部１０７は、ＭＰＥＧ処理部１０３が出力する映像（video）／音声（audio）データを解析する。コンテンツ状況解析部１０７は、たとえば、コンテンツ状況検出部１００が受信中の番組が野球放送の場合、映像／音声データから、点が加算されたことや満塁であること、等を検出し、「点加算」もしくは「満塁」等というキーワードを、生成する。

コンテンツ状況処理部１０８は、たとえばＢｌｕｅｔｏｏｔｈ（登録商標）等の接続手段である。コンテンツ状況処理部１０８は、コンテンツ状況解析部１０７が生成するキーワードを感情推定部３００に送信する。

ユーザ状況検出部２００は、ユーザ情報入力部２０１、ユーザ状況解析部２０２、ユーザ状況送信部２０３を備え、これらがバスを介してＣＰＵ２０４に接続される。

ユーザ情報入力部２０１は、ユーザの顔画像や声、心拍数、脈拍、血圧、発汗あるいは脳波、等の生体情報等のユーザ情報を検出するセンサーデバイスである。

ユーザ状況解析部２０２は、ＣＰＵ２０４の制御の下で、ユーザ情報入力部２０１からのユーザ情報を解析し、たとえば「嬉しい」や「悲しい」、等の感情を検出する。なお、ユーザ状況解析部２０２は、ＣＰＵ２０４が実行する機能の一つとして実現されていても良いし、或いはハードウェア回路として実現されていても良い。

ユーザ状況送信部２０３は、ＣＰＵ２０４の制御の下で、ユーザ状況解析部２０２が検出するユーザの感情である「嬉しい」もしくは「悲しい」、等のキーワードを、感情推定部３００に、送信する。即ちユーザ状況送信部２０３は、無線又は有線の通信部である。

感情推定部３００は、コンテンツ状況受信部３０１、ユーザ状況受信部３０２、状況比較および感情推定部３０３、コメント生成部３０４、コメント出力部３０５を備え、これらがバスを介してＣＰＵ３０６に接続される。

コンテンツ状況受信部３０１は、無線又は有線の通信部であり、コンテンツ状況送信部１０８が送信するコンテンツの状況情報、たとえば「点加算」、「満塁」等のキーワードを受信する。

ユーザ状況受信部３０２は、無線又は有線の通信部であり、ユーザ状況送信部２０３が送信するユーザの状況情報、たとえば「嬉しい」、「悲しい」、等のキーワードを受信する。

なおコンテンツ状況受信部３０１及びユーザ状況受信部３０２は同一の通信部であっても良い。

状況比較および感情推定部３０３は、図２又は図３を用いて後段に詳述するが、ユーザ状況解析部２０２が検出するユーザの感情よりもコンテンツに対応するより高度な感情を推定する。

コメント生成部３０４は、図２又は図３を用いて後段に説明するが、状況比較および感情推定部３０３が生成するユーザ感情情報に基づいて、ユーザの共感が得られると推測するコメントを作成する。

コメント出力部３０５は、図２又は図３を用いて後段に説明するが、コメント生成部３０４が作成するコメントの基づいて、音声出力、文字出力、バイブレーションの動作、等を出力する。なお、感情推定部３００を、たとえばロボット装置として構成した場合は、コメントが「チャンス」である場合に、たとえば「踊る（ダンスする）」、等の動作による応答も可能である。また、感情推定部３００を、たとえばスマートフォンもしくは携帯端末装置として構成した場合、表示部３１０による文字や映像の出力や、スピーカ３１１による音響（音声）出力による応答が可能である。なお、感情推定部３００がコンテンツ再生装置（テレビ装置）である場合においても、ディスプレイ３１０による文字や映像の出力や、スピーカ１１１による音響（音声）出力による応答が可能である。

ＣＰＵ３０６は、それぞれの構成要素を制御する。なお、状況比較および感情推定部３０３、コメント生成部３０４、コメント出力部３０５は、全てがＣＰＵにより実行される機能として実現されても良いし、あるいは、これらの一部又は全てがハードウェア回路として実現されても良い。

図２に、状況比較および感情推定部３０３による感情を推定の一例を示す。

図２において、ユーザ状況が「嬉しい」であり、イベントすなわちコンテンツ状況が「野球で満塁」である場合には、状況比較および感情推定部３０３は、「チャンスで嬉しい」というように、その感情（嬉しい）に至る理由である補足情報（チャンス）に基づいて、ユーザの感情を推定する。同様に、ユーザ状況が「悲しい」であり、コンテンツ状況（イベント）が「野球で満塁」であった場合、「ピンチで悲しい」というように、その感情（悲しい）に至る理由となる補足情報（ピンチ）に基づいて、ユーザの感情を、推定する。なお、イベントは、上述の「満塁」や「得点」等であり、それぞれを『種類（イベントの種類）』と称する場合がある。

なお、コンテンツ状況（イベント）が「点が加算」である場合も、「点を取って」嬉しい、もしくは「点を取られて」悲しい、というように、その感情に至る理由を推定することが可能となる。このように、感情推定部３００は、ユーザ感情を推定する際に、「悲しい」や「嬉しい」という感情に至る理由である補足情報までを含めてユーザの感情を推定することができる。

また、図３が示すように、高度に感情を推定することも可能である。

たとえば、ユーザの「嬉しい」あるいは「悲しい」といったユーザ状況とコンテンツ中で実況するアナウンサーの「嬉しい」または「悲しい」といったコンテンツ状況から、ユーザがコンテンツ（アナウンサーの実況）を否定している、という感情まで推定することが可能である。すなわち、ユーザが応援するチームとアナウンサーが好意を示しているチームとか逆であるような場合に、ユーザがアナウンサーの実況を否定している状態の「嬉しい」もしくは「悲しい」という感情まで推定することが可能である。

コメント生成部３０４は、状況比較および感情推定部３０３が作成するユーザ感情をもとに、たとえば図２が示すように、「チャンスだね」、「ピンチだね」、「点取ったね」もしくは「点取られちゃったね」というようなコメントを作成する。すなわち、状況比較および感情推定部３０３が作成するユーザ感情は、ユーザ状況である「嬉しい」や「悲しい」、もしくはコンテンツ状況である「野球：満塁」だけでは判断できない「チャンス」や「ピンチ」までを、ユーザの応援するチームを推測した結果も加えて状況比較することで、「チャンスだね」、「ピンチだね」というコメントを生成する。なお、図３が示すように、ユーザが応援するチームとアナウンサーが好意を示しているチームとか逆であるような場合には、状況比較の結果に基づいて、コメントに『のに』という接続助詞を付加でき、高度なコメントを生成することができる。

なお、イベントは、上述の「満塁」や「得点」、「アナウンサーの実況」等であり、それぞれを『種類（イベントの種類）』と称する場合がある。

図４は、図２又は図３に例示した状況比較および感情推定部におけるキーワードの生成例を示す。

ユーザ状況取得部３０１が、コンテンツ状況情報として、たとえば「野球：満塁」のようなキーワードを取得する［１０１］。

ユーザ状況取得部３０２が、たとえば「嬉しい」、「悲しい」のようなキーワードのユーザ状況情報を取得する［１０２］。

状況比較および感情推定部３０３が、たとえば、図２に示すような「チャンスで嬉しい」や「ピンチで悲しい」という感情を推定する［１０３］。

コメント生成部３０４が、たとえば、図２に示すような「チャンスだね」や「ピンチだね」というコメントを作成する［１０４］。

コメント出力部３０５が、［１０４］で作成したコメントを、音声出力もしくは、文字表示などで出力する［１０５］。

図５に、状況比較および感情推定部によるユーザの感情の推定の精度を向上する例を示す。

たとえば、ユーザ状況解析部２０２が解析したユーザ状況について、その確度を付属する。これにより、状況比較および感情推定部３０１が解析したユーザ状況の確度を、一層高めることができる。たとえば、図６に示すように、感情推定部７００において、図３に示す感情推定部３００に、状況対応記憶部７０４を付加し、図７に示すように、たとえば、出現回数を記憶する。

図７が示すように、コンテンツ状況情報として、たとえば野球放送、等のスポーツの番組において、「チーム名を示すと考えることができる文字“Ａ”の次の数字を得点と判定し、その数字が加算」された場合、得点があった（加点した／加点された）と推定する。このとき、ユーザ情報状況の「嬉しい」、「悲しい」のそれぞれについて、出現した（カメラまたはウェアラブル端末装置が特定した）回数を特定する。

ここで、新規の感情（最後に出現したユーザ状況）が「嬉しい」で、コンテンツ状況情報が「文字“Ａ”の次の数字が加算」である、として計算例を示す。

ユーザ状況検出部の信用比率を、Ｗとする。なお、ここでは、Ｗ＝０．８とする。

あるコンテンツ状況によるユーザ状況の出現確率を、Ｐ（％）とする。なお、ここでの計算においては、図７が示すユーザ状況の情報に基づいてＰ（％）を計算する。図７に示すように、メモリには、過去において、コンテンツ状況情報が「文字“Ａ”の次の数字が加算」であった場合に認識されたユーザ状況の回数が記憶されている。図７の例においては、「嬉しい」が９００回、「悲しい」が１００回認識されている。つまり図７の例においては、「文字“Ａ”の次の数字が加算」された場合に、ユーザ状況「嬉しい」が出現する確立Ｐ（％）は（９００／（９００＋１００））である。

以下、新規のユーザ状況（感情）の確度は、
ユーザ状況検出部の確度×Ｗ＋Ｐ×（１−Ｗ）
で計算できる。

上記を適応すると、新規の「嬉しい」の確度は、
８０×０．８＋（９００／（９００＋１００））×１００×（１−０．２）＝８２
となる。なお、ユーザ状況検出部の確度「８０」は、定性的な一般値を当てはめたものである。

これにより、図５が示すように、新規の感情の確度は、「嬉しい」の場合、８２％ととなる。

なお、確度は、コメント出力の判定に用いることも可能であり、ある一定以上の確度の場合のみ、コメントを出力するよう設定することも可能である。これにより、ユーザへの反応の精度も向上する。

また、ユーザ状況検出部２００は、たとえばテレビ装置に付属するマイクロフォンやユーザが保持する携帯端末装置であってもよい。その場合、感情推定部３００は、取得したユーザの声の高さ（トーン）や声の大きさ、「沈んでいる」、「明るい」等の感情に対応することの多い話勢、等の要素から、ユーザの感情を推定できる。

なお、ユーザが２人以上である場合には、ユーザ状況の検出とユーザの感情推定は、ユーザ毎とすることが好ましい。この場合、感情推定部３００がロボットである場合には、コメントに対する応答（反応）は、何れかの（特定の）ユーザのユーザ状況および感情推定の結果に依存せず、中庸な応答（反応）とすることが好ましい。なお、ユーザ状況検出部２００が、複数のユーザの状況情報の論理積、論理和もしくは加重平均をとり、統一した状況情報として出力することが好ましい。例えば図２の例において、満塁であってユーザ１が「嬉しい」、ユーザ２が「悲しい」の場合、コメントとして「満塁だね」や「ユーザ１さんにはチャンスだけど、ユーザ２さんにはピンチだね」等が出力されても良い。また同様に、図２の例において、点が加算された場合であって、ユーザ１が「嬉しい」、ユーザ２が「悲しい」の場合、コメントとして「点が入ったね。ユーザ１さんには嬉しいけど、ユーザ２さんには悲しいね」等が出力されても良い。

あるいは、感情推定部３００が、たとえば個々のユーザが保持する表示装置、たとえばタブレット装置やスマートフォンである場合、各ユーザに、異なる応答（反応）を呈しても良い。たとえば、感情推定部３００が、各ユーザの保持する携帯端末装置であるならば、チームＡを応援するユーザＣとチームＢを応援するユーザＤとが、図８が示す野球中継を見ている場合に、ユーザＣが保持する携帯端末装置に、図２が示す「チャンスだね」というコメントを表示し、ユーザＤが保持する携帯端末装置に、図２が示す「ピンチだね」というコメントを表示することができる。なお、ユーザ状況検出部２００と感情推定部３００とは、たとえば４人程度のユーザを想定して複数用意されてもよいし、たとえばアプリケーション（またはプログラムもしくはファームウェア）として、並列処理が可能に構成されてもよい。

図８−図１０は、それぞれ、コンテンツ再生装置を実現する実施形態の一例を示す。

図８が示すコンテンツ再生装置は、図１により説明したコンテンツ状況検出部１００、ユーザ状況検出部２００、感情推定部３００が、それぞれ別々の装置である例を示し、コンテンツ状況検出部１００をテレビ装置（コンテンツ再生装置）９０１とし、ユーザ状況検出部２００を腕時計のようなウェアラブル端末装置９０２とし、感情推定部３００をロボットのような音声出力と動きによる応答の表現可能なコメント出力装置９０３とする例である。

図９が示すコンテンツ再生装置は、図１により説明したコンテンツ状況検出部１００がテレビ装置９１１であり、ユーザ状況検出部２００を、たとえばカメラ９１２としてテレビ装置９１１に一体的に設け、感情推定部３００を、コメント表示部９１３としてテレビ装置９１１の所定の領域にコメントを表示する例である。すなわち、図９が示す例では、テレビ装置９１１において（テレビ装置９１１が再生する）コンテンツからコンテンツ状況情報を解析し、カメラ９１２によりユーザの状況を取得してユーザ状況情報を解析して感情を推定し、コメント表示部９１３に、コメント（映像（文字））やアニメーションを表示する例である。なお、コメント表示部９１３は、テレビ装置９１１の画像表示の任意の領域に、コメントを映像（アニメーションや文字を含む）あるいは音声（音響）もしくはその両者として出力することができる。

なお、コンテンツ状況検出部１００をテレビ装置（コンテンツ再生装置１）に内蔵し、ユーザ状況検出部２００と感情推定部３００とを一体としてテレビ装置９１１とは独立に用意してもよい。たとえば、感情推定部３００をロボットとし、ロボットにカメラを一体的に設け、カメラによりユーザの状況情報を取得して解析してもよい。

図１０は、たとえばスマートフォン１００１をコンテンツ状況検出部１００として自動車の所定の位置にセットして、利用する例を示す。なお、図１０が示す例は、感情推定部３００がスマートフォン１００１に、たとえばアプリケーション（プログラム）として内蔵され、コンテンツ状況検出部１００として、スマートフォンの非表示部１０１０側の対物カメラ１０１１を用い、カメラ１０１１が取り込む外部状況（車窓風景）を、コンテンツ状況とする例を説明する。すなわち、カメラ１０１１が取り込む外部状況がコンテンツである。また、図１０が示す例は、ユーザ状況検出部２００としてスマートフォン１００１の表示部１０１０側の自撮り用カメラ１０１２およびマイクロフォン（送話部）１０１３を、感情推定部３００としてスマートフォン１００１の表示部１０１０およびスピーカ（受話部）１０１４を、それぞれ用いる。なお、自動車に外部状況を取り込む車載カメラが用意されている場合、対物カメラ１０１１が取得する外部状況（車窓風景）に置き換えることも可能である。

図１１Ａは、図１０に示すスマートフォン１００１のカメラ１０１１が取り込む外部状況（車窓風景）に基づく状況比較および感情推定部３０３による感情の推定の一例を示す。

図１１Ａにおいて、自撮り用カメラ１０１２が取り込んだ映像やマイクロフォン１０１３が取得できるユーザの声、等に基づいて得られるユーザ状況が「覚醒」又は「眠気」であり、ユーザ状況が「眠気」かつコンテンツ状況が「人や車が多い」であった場合、状況比較および感情推定部３０３は、「混んでいるのに眠い」と推測する。これに応じて、「混んでいるよ、注意してね」等という「覚醒」を促すコメントを生成する。一方、「人や車が多い」でも、ユーザ状況が「覚醒」であった場合、状況比較および感情推定部３０３は、「混んでいるので集中している」と推測する。なお、この場合、ユーザ感情は、例えば「混んでいるのに眠い（眠気）」や「混んでいるので集中している（覚醒）」と推定できる。これに応じて、「落ち着いてね」等という過剰に「覚醒」しすぎないようなコメントを生成する。

また、ユーザ状況が「覚醒」又は「眠気」であっても、コンテンツ状況が「人や車が少ない」であった場合、ユーザ状況が「眠気」かつコンテンツ状況が「人や車が少ない」であった場合、状況比較および感情推定部３０３は、「空いているので眠い」と推測する。これに応じて、「空いているね」という「眠気」になりすぎないようなコメントを生成する。一方、「人や車が少ない」でも、ユーザ状況が「覚醒」であった場合、状況比較および感情推定部３０３は、「空いており集中している」と推測する。なお、この場合、ユーザ感情は、例えば「空いているので眠い（眠気）」や「空いているけど集中している（覚醒）」と推定できる。これに応じて、この場合、コメント生成部３０４は、たとえば「空いていていいね」等を、コメントとして生成することも可能であるが、ユーザ状況が「覚醒」であることを考慮して、コメントを出力しないことも可能である。

また、状況比較および感情推定部３０３は、ユーザ状況とコンテンツ状況に応じて、注意を喚起するレベル（注意喚起レベル）を作成することも可能である。例えば、「眠気」と「人と車が多い」場合危険な状態であると判定し、注意喚起レベルを高くする（図１１Ａの例では、例えば『１０段階の１０』とする）。注意喚起レベルは、例えば、図１１Ａのようにコメントを出力する場合の、音量やトーンの変更に使用することが可能である。例えば、図１１Ａのように、注意喚起レベルが高ければ、音量を大きくする（図１１Ａの例では、例えば『５段階の５』とする）ことが可能である。

また、図１１Ｂが示すように、自撮り用カメラ１０１２が取り込んだ映像やマイクロフォン１０１３が取得できるユーザの声、等に基づいて得られるユーザ状況が「覚醒」又は「眠気」であり、コンテンツ状況が「人や車が多い」であった場合、コメント生成部３０４は、たとえば「落ち着いてね」等を、コメントとして生成してもよい。一方、ユーザ状況が「眠気」である場合には、コメント生成部３０４は、たとえば「混んでるよ、注意してね！」等を、コメントとして生成してもよい。また、ユーザ状況が「覚醒」又は「眠気」であっても、コンテンツ状況が「人や車が少ない」であった場合、コメント生成部３０４は、たとえば「空いていていいね」等を、コメントとして生成してもよい。しかしながら、ユーザ状況が「覚醒」であることを考慮して、コメントを出力しないことも可能である。一方で、ユーザ状況が「眠気」である場合には、コメント生成部３０４は、主として居眠り防止等のための、たとえば「空いているね！」等を、コメントとして生成することが好ましい。

図１２は、図１０に示したスマートフォン１００１を、ナビゲーション装置として利用する場合の状況比較および感情推定部３０３による感情を推定の一例を示す。図１２は、ユーザ状況が「嬉しい」又は「悲しい」であり、コンテンツ状況が「目的地周辺」であった場合の例である。

図１２において、ユーザ状況が「嬉しい」かつコンテンツ状況が「目的地周辺」であった場合、状況比較および感情推定部３０３は、目的地に到達することが嬉しい状況であると推測し、この場合、コメント生成部３０４は、たとえば「やった、ついたね！」等、ユーザを称えるコメントを生成する。一方、ユーザ状況が「悲しい」かつコンテンツ状況が「目的地周辺」であった場合、状況比較および感情推定部３０３は、目的地に到達することが悲しい状況であると推測し、この場合、たとえば「やっと着いたよ」等、ユーザを労うコメントを生成する。

ここで、目的地周辺は、自宅の画像をコンテンツ検出部１００に登録することで、車載カメラの画像と比較することで、目的地周辺を認識することも可能である。

上述の図１１Ａ、図１１Ｂおよび図１２のように車載システムにおいても、ユーザ状況とコンテンツ状況に応じたコメントを生成することが可能である。

なお、コンテンツ処理再生装置１が、再生するコンテンツは、放送波やネットワークなどの外部から取得する番組でなくてもよく、たとえば、アマチュアのサッカーをデジタルカメラ等で撮影してＤＶＤ等に保存したコンテンツの再生でもよい。例えば、図１３に示すように、選手のユニフォームの違いとボールの動きから、コンテンツ状況として「インターセプト」や「ロングボールが通った」等を解析することが可能で、ユーザ状況の「嬉しい」および「悲しい」と照らし合わせることにより、ユーザがどちらのチームに所属、もしくはどちらのチームを応援しているかが判定できる。そのため、図１３のように、ユーザの状況「嬉しい」や「悲しい」等とコンテンツ状況「インターセプト」や「ロングボールが通った」等に応じたユーザの感情にあうコメントを返すことが可能である。なお、ユーザの感情としては、例えば「インターセプト（したので嬉しい）」や「ロングボールが通った（ので嬉しい）」あるいは「インターセプト（されたので悲しい）」や「ロングボールが通った（ので悲しい）」と推定できる。

また、例えば、「インターセプト」や「ロングボールが通った」等である時に、コンテンツ状況検出部１００が、ユーザの所属もしくは応援するチームからみてどちらの陣地で前記事象（「インターセプト」や「ロングボールが通った」）が起こったか、等も解析することができ、陣地の情報をもとに、状況比較および感情推定部３０３がピンチもしくはチャンスの度合いを判定することができる。これにより、コメント生成部３０４はピンチもしくはチャンスの度合いに応じたコメントを返すことができる。

図１４−図１８は、コメントによる応答に代えて、複数の画像からユーザの好みに合う画像を、自動的に選択して表示する例を示す。

任意の画像（フレーム）を表示し、その画像（フレーム）を見ているユーザの表情等を、カメラや携帯端末装置を用いて自撮り（ユーザがユーザ自身を撮影）する。

次に、自撮りしたユーザの画像について、ユーザの感情の評価値（視聴するユーザの笑顔度、喜び度、等）を求める。

続いて、表示する画像（フレーム）のそれぞれについて、画像の評価値（画像の笑顔度、リファレンスとの類似度、等）の評価値とユーザの感情の評価値とを足し合わせ、足し合わせた評価値の大きい順に最適な画像と判定する。

以下、評価値の大きい順に、ユーザに提供する（再生する）。

これにより、複数の画像からユーザの好みに合う画像を、自動的に選択できる。

なお、画像の評価値を、画像の評価値に掛け合わせる係数を「０」として除外することにより（ユーザの）感情のみの評価値を用いて、ユーザが再生を期待する好適な画像を抽出して再生することも可能である。

以下、表示する方法を、詳細に説明する。

始めに、図１４が示すように、動画もしくは複数の静止画を撮影する［ＳＡ００］。

次に、図１５が示すように、最後のフレーム（画像）であるか否かをチェックし［ＳＡ１０］、最後のフレーム（画像）の前のフレーム（画像）になるまで、撮影した動画もしくは静止画を１フレームずつユーザに表示する［ＳＡ１１］。このとき、カメラやウェアラブル端末装置により、ユーザ情報を取得する。なお、ユーザ情報は、たとえばカメラでユーザを撮影して得られる笑顔度であってもよいし、ウェアラブル装置により取得する、脳波や脈拍、呼吸数、等のさまざまな生体情報であってもよい。また、取得する生体情報と笑顔度とを併用してもよい［ＳＡ１２］。

以下、画像を解析し、たとえば笑顔度である評価値［ｅｖａｌ＿ｉｍａｇｅ］、を計算する［ＳＡ１３］。

次に、たとえば表示した画像を見たユーザの笑顔度であるユーザ状況の評価値［ｅｖａｌ＿ｕｓｅｒ］、を計算する［ＳＡ１４］。

次に、フレーム毎に、最適画像の評価値［ｅｖａｌ］を計算し、計算した結果を保存する［ＳＡ１５］。

なお、最適画像の評価値［ｅｖａｌ］は、たとえば
画像の評価値：ｅｖａｌ＿ｉｍａｇｅ
画像の係数：ｃｏｅｆ＿ｉｍａｇｅ
感情の評価値：ｅｖａｌ＿ｕｓｅｒ
感情の係数：ｃｏｅｆ＿ｕｓｅｒ
とすると、
ｅｖａｌ
＝ｃｏｅｆ＿ｉｍａｇｅ×ｅｖａｌ＿ｉｍａｇｅ
＋ｃｏｅｆ＿ｕｓｅｒ×ｅｖａｌ＿ｕｓｅｒ
にて、求めることができる。

従い、ｅｖａｌ（最適画像の評価値）の高い画像（フレーム）を、最適な画像（フレーム）とする。

その後、図１６に示すように、図１５で求めた最適画像の評価値ｅｖａｌが最も高いフレーム（画像）からフレーム（画像）を表示する［ＳＡ２０］。

図１７および図１８は、図１４−図１６で説明した評価値を求める際に、撮影時に、あらかじめ画像を解析して、ユーザが視聴する（ユーザに提示する）画像を絞りこむ例である。なお、ユーザに提示する画像の絞り込みには、たとえば図１５により説明した脳波や脈拍、呼吸数、等のさまざまな生体情報や、カメラにより撮影したユーザの表情（笑顔度）、等を用いることが好ましい。

始めに、図１７が示すように、動画もしくは複数の静止画を撮影する［ＳＢ００］。

次に、画像を解析し、たとえば笑顔度、あるいはリファレンスとの類似度である評価値［ｅｖａｌ＿ｉｍａｇｅ］、を計算する［ＳＢ０１］。

次に、たとえば評価値［ｅｖａｌ］の高い順に、［ｅｖａｌ＿ｉｍａｇｅ（評価値）の高い画像を、複数枚（またはユーザの感情を取得し易い所定枚）を選択し、保存する［ＳＢ０２］。なお、感情の評価値を取得しやすい順に並べ替える。感情の評価値を取得しやすい順とは、たとえば感情の変化が出やすいように、画像の評価値の高い画像と低い画像を交互に保存する。

続いて、最後のフレーム（画像）であるか否かをチェックし［ＳＢ１０］、最後のフレーム（画像）の前のフレーム（画像）になるまで、撮影した動画もしくは静止画を１フレームずつユーザに表示する［ＳＢ１１］。このとき、カメラやウェアラブル端末装置により、ユーザ情報を取得する。なお、カメラでユーザを撮影してもよいし、ウェアラブル端末装置により、脳波や脈拍、呼吸数、等を取得してもよいし、さまざまな方法で取得する生体情報を併用してもよい［ＳＢ１２］。

以下、たとえば、表示されたフレーム（画像）を見たユーザの笑顔度である、ユーザ状況の評価値［ｅｖａｌ＿ｕｓｅｒ］を計算する［ＳＢ１３］。

以下、フレーム毎に、評価値［ｅｖａｌ］を計算し、計算した結果を保存する［ＳＢ１４］。

なお、評価値［ｅｖａｌ］は、図１５に示したと同様に、
画像の評価値：ｅｖａｌ＿ｉｍａｇｅ
画像の係数：ｃｏｅｆ＿ｉｍａｇｅ
感情の評価値：ｅｖａｌ＿ｕｓｅｒ
感情の係数：ｃｏｅｆ＿ｕｓｅｒ
を用い、
ｅｖａｌ
＝ｃｏｅｆ＿ｉｍａｇｅ×ｅｖａｌ＿ｉｍａｇｅ
＋ｃｏｅｆ＿ｕｓｅｒ×ｅｖａｌ＿ｕｓｅｒ
にて、求めることができる。

その後、図１６で示したように、最適画像として、最適画像の評価値［ｅｖａｌ］が高いフレーム（画像）から表示する［ＳＡ２０］。

このように、スポーツにおける得点、移動中の目的地到着、画像（写真）の評価値、等、のユーザにより反応が異なりうる事象（シーン）と、その事象（シーン）に対するユーザの反応を検出し、事象とユーザ反応の両方を考慮した動作（応答）を行う。これにより、ユーザの共感が得られると推測する応答（画像の表示）が可能な感情推定方法及び電子機器を得ることができる。、
たとえば、映像音声コンテンツを視聴するユーザの感情において、コンテンツ状況解析部とユーザ状況解析部とにより解析した状況情報に基づいて、状況情報比較および感情推定部がユーザの感情を推定することにより、理由等の補足情報を含む感情情報や、コンテンツの感情情報を否定する感情情報や、感情の正確さを増す感情情報、等の高度な感情を推定することが可能となる。

また、状況情報比較および感情推定部により推定した感情情報を基づいてコメント生成部がコメントを生成し、コメント出力部がコメントを音声や動作、あるいは文字の表示、等で出力することにより、より高度なユーザへのコメントを返すことが可能となる。

また、コメント出力部が、たとえば動きを表現できるロボットや多くの文字情報やアニメーション等を表示可能なタブレット端末装置、等である場合、コンテンツが、たとえばスポーツ中継、等の応援をすることが可能なコンテンツであった場合には、応援者（ユーザ）の感情に沿うような応答（アクション）を呈することが可能となり、ユーザの共感が得られる高度な内容の応答が可能となる。なお、コメント出力部が、動きを表現できるロボットである場合は、野球やサッカー、等の応援可能なコンテンツを視聴する際に、応援者（ユーザ）側の立場に立つ、より高度な応援ロボットを実現できる。

なお、感情推定の正確さを高めることにより、ユーザへのアクション（応答）を、実施するかどうかを、より正確に判定することが可能となる。

また、コメントの出力（コメントによる応答）に代えて、複数の画像（フレーム）からユーザの好みに合う画像を表示するような場合には、たとえばユーザの表情あるいは生態情報、もしくはその両者と画像（フレーム）とを関連づけ、評価値の高い画像を表示することにより、ユーザが気に入るであろう、画像（フレーム）を優先的に表示することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００…コンテンツ状況検出部、１０７…コンテンツ状況解析部、１０８…コンテンツ状況送信部、２００…ユーザ状況検出部、２０１…ユーザ情報入力部、２０２…ユーザ状況解析部、２０３…ユーザ状況送信部、３００…感情推定部、３０１…コンテンツ状況受信部、３０２…ユーザ状況受信部、３０３…状況比較および感情推定部、３０４…コメント生成部、３０５…コメント出力部。

Claims

ユーザの生体情報を解析するユーザ状況解析部と、
コンテンツの状況を解析するコンテンツ状況解析部と、
前記コンテンツ状況解析部により解析されたコンテンツ状況と前記ユーザ状況解析部により解析されたユーザ状況とに基づいた動作を実行する感情推定部と、
を具備し、
前記ユーザ状況解析部は、前記ユーザの第１のタイミングの前記生体情報を、センサを用いて検出して解析して、前記第１のタイミングにおける前記ユーザの感情に関する前記ユーザ状況を特定し、
前記コンテンツ状況解析部は、前記第１のタイミングの近傍における前記コンテンツに含まれる映像および音声の少なくとも１つを用いて、前記第１のタイミングにおけるコンテンツに関する前記コンテンツ状況を特定しており、
前記感情推定部は、前記ユーザの前記第１のタイミングにおける前記ユーザ状況と前記コンテンツ状況とを用いて、前記ユーザが前記ユーザ状況に至った理由である補足情報を推定するとともに、前記補足情報と前記ユーザ状況とを用いて推定したユーザ感情の出力を得るものであり、
前記ユーザ感情の出力は前記コンテンツに関する前記コンテンツ状況を肯定する出力又は前記コンテンツに関する前記コンテンツ状況を否定する出力の何れかである、電子機器。
前記感情推定部は、コメントを生成するコメント生成部をさらに含み、推定された前記ユーザ感情に基づいたコメントを生成する、請求項１に記載の電子機器。
前記コメントは、前記補足情報を含む、請求項２に記載の電子機器。
ユーザ状況解析部、コンテンツ状況解析部及び感情推定部を利用し、
ユーザの生体情報を、センサを用いて解析したユーザ状況を取得し、
コンテンツの状況を解析したコンテンツ状況を取得し、
前記コンテンツ状況と前記ユーザ状況とに基づいた動作を実行する電子機器の制御方法であって、
前記ユーザの第１のタイミングの前記生体情報を検出して解析して、前記ユーザの前記第１のタイミングにおける前記ユーザ状況を特定し、前記第１のタイミングの近傍における前記コンテンツに含まれる映像および音声の少なくとも１つを用いて、前記第１のタイミングにおける前記コンテンツ状況を特定し、
前記ユーザの前記第１のタイミングにおける前記ユーザ状況と前記コンテンツ状況とを用いて、前記ユーザが前記ユーザ状況に至った理由である補足情報を推定するとともに、前記補足情報と前記ユーザ状況とを用いてユーザ感情を推定したユーザ感情の出力を得、前記ユーザ感情の出力は前記コンテンツに関する前記コンテンツ状況を肯定する出力又は前記コンテンツに関する前記コンテンツ状況を否定する出力の何れかである、制御方法。
推定された前記ユーザ感情に基づいたコメントを生成する、請求項４に記載の制御方法。