JP6369462B2

JP6369462B2 - クライアント装置、制御方法、システム、およびプログラム

Info

Publication number: JP6369462B2
Application number: JP2015519740A
Authority: JP
Inventors: 脩繁田; 直毅斎藤; 麗子宮崎; 孝幸金子
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-05-30
Filing date: 2014-04-18
Publication date: 2018-08-08
Anticipated expiration: 2034-04-18
Also published as: EP3007456A1; JPWO2014192457A1; EP3007456A4; US10225608B2; CN105247879B; WO2014192457A1; BR112015029324A2; US20160142767A1; CN105247879A

Description

本開示は、クライアント装置、制御方法、システム、およびプログラムに関する。

近年、ネットワークの発達により、ユーザ同士のコミュニケーションが盛んになってきている。このような状況において、盛り上がったり、悲しんだり、笑ったり、驚いたり、怒ったりといった様々な感情を遠隔地に居る他ユーザと一緒に共感しながらコンテンツ視聴するスタイルが普及している。同じコンテンツを視聴している他ユーザとの感情の共感や、他ユーザの反応を知るための技術として、例えば以下のような共感システムが提案されている。

下記特許文献１では、コンテンツに視聴時において、同じコンテンツを視聴している他のユーザの反応をリアルタイムでコンテンツに反映させ、臨場感を提供するコンテンツ再生装置が提案されている。具体的には、特許文献１に記載のコンテンツ再生装置は、リアルタイムで収集した各ユーザの盛り上がり情報に基づいて複数のユーザの盛り上がり度合いを取得し、複数のユーザの盛り上がり度合いを表現する映像または音声から成る盛り上がり効果をコンテンツに合成して再生する。

下記特許文献２では、コンテンツを視聴するユーザが、他の多くのユーザの同コンテンツに対する反応音声をリアルタイムで知ることができ、他のユーザと感動等の感情を共有することができる情報処理システムが提案されている。

下記特許文献３では、放送番組を受信表示中に自端末の話者の音声を収音し、文字データに変換してサーバに送り、これと同時にサーバから他端末の文字データを受信して表示画面に併せて表示することで、簡易的に共感を得られるビューイングシステムが提案されている。

特開２０１１−１８２１０９号公報特開２０１２−１２９８００号公報特開２０１２−９００９１号公報

しかしながら、上記特許文献２、３のように、視聴時にユーザが発する音声を用いる場合、文字入力の手間は省かれるが、お互いの会話が筒抜けになってしまうという事態も想定される。例えば、コンテンツの反応に関係のない家族の会話等も全て他のユーザに伝送されてしまうことで、別ユーザのコンテンツ視聴の妨げとなる。

また、上記特許文献１では、複数のユーザの盛り上がり度合いを表現する映像または音声から成る盛り上がり効果をコンテンツに合成して再生するが、相手映像がコンテンツに合成されて再生されると、ユーザの視聴の妨げとなる。

そこで、本開示では、ユーザの視聴を妨げずに、他ユーザまたはユーザ自身の視聴反応を示す感情表現データを提示することが可能な、新規かつ改良されたクライアント装置、制御方法、システム、およびプログラムを提案する。

本開示によれば、コンテンツに対する視聴ユーザの反応を取得する取得部と、前記取得部による取得された視聴ユーザの反応情報に基づいて、前記視聴ユーザの感情を推定する感情推定部と、前記感情推定部による推定された感情を表す感情表現データを決定する決定部と、前記決定部により決定された感情表現データを出力する出力部と、を備える、クライアント装置を提案する。

本開示によれば、コンテンツに対する視聴ユーザの反応を取得するステップと、前記取得された視聴ユーザの反応情報に基づいて、前記視聴ユーザの感情を推定するステップと、前記推定された感情を表す感情表現データを決定するステップと、前記決定された感情表現データを出力するステップと、を含む、制御方法を提案する。

本開示によれば、コンテンツに対する視聴ユーザの反応を取得する取得部と、前記取得部による取得された視聴ユーザの反応情報に基づいて、前記視聴ユーザの感情を推定する感情推定部と、サーバから受信した推定感情結果の統合結果に基づいて、感情表現データを決定する決定部と、前記決定部により決定された感情表現データを出力する出力部と、を有するクライアント装置と、複数の前記クライアント装置から受信した前記視聴ユーザの感情推定結果を統合する統合部を有するサーバと、を備えるシステムを提案する。

本開示によれば、コンピュータを、コンテンツに対する視聴ユーザの反応を取得する取得部と、前記取得部による取得された視聴ユーザの反応情報に基づいて、前記視聴ユーザの感情を推定する感情推定部と、前記感情推定部による推定された感情を表す感情表現データを決定する決定部と、前記決定部により決定された感情表現データを出力する出力部と、として機能させるためのプログラムを提案する。

以上説明したように本開示によれば、他ユーザまたはユーザ自身の視聴反応を示す感情表現データを提示することが可能となる。

本開示の一実施形態による視聴反応フィードバックシステムの概要を説明するための図である。ユーザや他ユーザの映像を表示して共感を強める場合について説明するための図である。第１の実施形態による視聴反応フィードバックシステムを形成する各装置の内部構成の一例を示すブロック図である。テキストデータで形成された感情表現データ（非言語リアクション）をコンテンツに重畳表示させる出力例を示す図である。テキストデータで形成された感情表現データ（非言語リアクション）を漫画のような表現方法でコンテンツに重畳表示させる出力例を示す図である。テキストデータで形成された感情表現データ（非言語リアクション）をプロジェクタで投影させる出力例を示す図である。音声データで形成された感情表現データ（非言語リアクション）の出力例について説明するための図である。本実施形態による視聴反応フィードバックシステムの動作処理を示すフローチャートである。第２の実施形態による視聴反応フィードバックシステムを形成する各装置の内部構成の一例を示すブロック図である。第２の実施形態の変形例による視聴反応フィードバックシステムを形成する各装置の内部構成の一例を示すブロック図である。第３の実施形態によるクライアント装置の内部構成の一例を示すブロック図である。第４の実施形態によるクライアント装置の内部構成の一例を示すブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、説明は以下の順序で行うものとする。
１．本開示の一実施形態による視聴反応フィードバックシステムの概要
２．各実施形態
２−１．第１の実施形態
２−１−１．構成
２−１−２．動作処理
２−２．第２の実施形態
２−３．第３の実施形態
２−４．第４の実施形態
３．まとめ

＜＜１．本開示の一実施形態による視聴反応フィードバックシステムの概要＞＞
まず、本開示の一実施形態による視聴反応フィードバックシステムの概要について図１を参照して説明する。図１は、本開示の一実施形態による視聴反応フィードバックシステムの概要について説明するための図である。

図１に示すように、視聴環境Ａでは、視聴ユーザ３Ａが、クライアント装置１Ａに接続されるテレビジョン装置３０Ａ（情報提示装置の一例）でコンテンツを視聴し、視聴環境Ｂでは、視聴ユーザ３Ｂがクライアント装置１Ｂに接続されるテレビジョン装置３０Ｂで同じコンテンツを視聴している。また、同様に他の視聴環境Ｃ、Ｄでも他ユーザが各自のクライアント装置で同じコンテンツを視聴している。以下、各クライアント装置１Ａ、１Ｂを個別に説明する必要がない場合は、クライアント装置１と称する。

各クライアント装置１は、それぞれネットワークを介してサーバ２（クラウド）に接続している。

各テレビジョン装置３０Ａ、３０Ｂは、コンテンツを出力する情報提示装置の一例であって、図１に示すような映像表示装置の他、音声再生装置（スピーカ）によって実現されてもよい。また、スピーカが内蔵された映像表示装置であってもよい。

また、各テレビジョン装置３０Ａ、３０Ｂには、視聴ユーザの反応を検出するためのセンサ１１Ａ、１１Ｂが設けられている。以下、各センサ１１Ａ、１１Ｂを個別に説明する必要がない場合は、センサ１１と称する。

センサ１１は、例えばカメラ（撮像装置）やマイクロホン（収音装置）により実現され、視聴ユーザの動きや顔の表情、音声を取得する。カメラは、Ｍｉｃｒｏｓｏｆｔ社のＫｉｎｅｃｔのように、被写体（視聴ユーザ）の深度情報を取得できる特殊なカメラであってもよいし、マイクロホン（以下、マイクと称す）はマイクアレイのように複数のマイクが設置されたものであってもよい。センサ１１は、取得した視聴ユーザの反応を示す反応情報（検出結果）を、クライアント装置１に出力する。

このような構成において、本開示の一実施形態による視聴反応フィードバックシステムは、他の視聴ユーザの視聴反応を示す感情表現データ（後述する非言語リアクションなど）を視聴ユーザにフィードバックすることで、感情の共感を提供することができる。

例えば、お笑い番組を視聴している際に、会場の笑い声、拍手、笑った顔が出力されると、されない場合に比べて、ユーザは、より自分も面白い気持ちになる。また、科学番組を視聴している際に、頷く様子や納得している声、感心している声を聞くと、ユーザは、自分も納得したり、理解したりする気持ちが強まる。また、スポーツの試合を視聴している際に、歓声を聞くと盛り上がり、逆に落胆の声を聞くと残念な気持ちが強まる。また、感動的な番組を視聴している際に、鼻を啜る音や涙を流している顔を見ると、感動の気持ちが強まる。このように、ユーザは、コンテンツを視聴している他のユーザ（番組の出演者）の様子により感情が共有されると、その感情がより強まる。

通常、リアルな人と人のコミュニケーションの場合、必ずしも言語（会話）が無くてもコミュニケーションが成り立っていることが多い。例えば、一緒にテレビ番組を観ている時など、会話が無くても笑い声や表情などのリアクションだけでも、その空間を共有することでコミュニケーションが成立している。したがって、遠隔地に居る人と同じコンテンツを視聴している際に、会話が無い場合でも相手の映像がコンテンツの画面の一部に重なった状態で表示されると、コンテンツ視聴の邪魔になってしまう。

（背景）
ここで、複数のユーザが遠隔地で同じコンテンツを視聴して視聴反応を共有する方法としては、状況に応じて以下のような方法が考えられる。

（ａ）面識あるユーザ同士でコンテンツ視聴する場合
友達や知人など面識ある特定のユーザ同士で同じコンテンツを視聴して感情を共有する状況が想定される。この場合、同じコンテンツを視聴しながら、ビデオ、音声、テキスト等を送受信可能な通信サービスを用いることで、感想を交換し合うことが可能である。しかし、テキストの場合、コンテンツを視聴しながら文字入力を行う必要があるので、コンテンツ視聴が妨げられてしまう。また、ビデオや音声を用いた場合、文字入力の手間は省けるが、お互いの会話や映像が全て筒抜けになってしまう。例えばコンテンツに関係のない家族の会話等も全て他のユーザに伝わってしまい、他のユーザのコンテンツ視聴の妨げとなってしまう。

（ｂ）面識のないユーザ同士でコンテンツ視聴する場合
例えばユーザが自宅でスポーツ観戦する際、ユーザが応援しているチームの他のサポータ等の不特定多数の他ユーザと感情を共有して一緒に盛り上がることができれば、コンテンツ視聴をより楽しむことができる。通常、テレビジョン装置でスポーツ観戦する場合、両方のチームのサポータの音声（試合会場で収音された音声）が聞こえてしまうので、ユーザが応援しているチームの他のサポータと一緒に盛り上がっている感覚を得ることが困難である。

この場合、例えば図２に示すように、他のサポータの映像１２０ａや音声、自分（視聴ユーザ３Ａ）の映像１２０ｂや音声を、テレビジョン装置１００で通常放送されている歓声と共に、または相互にリアルタイムで提示することで、他のサポータと共感を強めることが可能となる。しかしながら、自分（視聴ユーザ３Ａ）の音声や映像が不特定多数のユーザにそのまま伝わってしまい、プライバシーの問題が発生する。

そこで、上記事情を一着眼点にして本開示の各実施形態による視聴反応フィードバックシステムを創作するに至った。本実施形態による視聴反応フィードバックシステムは、特定／不特定多数の他ユーザと同じコンテンツを視聴しながら、ユーザの視聴を妨げることなく、ユーザのプライバシーも保護できる方法で、他ユーザの視聴反応を示す感情表現データをフィードバックし、感情を共感させることができる。

特に、ユーザの視聴を妨げないよう、また、ユーザのプライバシーも保護するために、他ユーザの視聴反応を示す感情表現データとして、例えば非言語リアクションを用いる。本明細書において、非言語リアクションとは、状態や心情など音が発生しないものを音で表す言葉である「擬態語」と、物が発する音や声を表した言葉である「擬音語」とを含む擬声語や、感嘆詞、笑い声、泣き声等、感情を表す言葉である。本実施形態による視聴反応フィードバックシステムでは、ユーザの生の音声を直接他ユーザに提示せず、ユーザの反応から推定される感情を表す非言語リアクションを例えば別の音源で提示するので、ユーザのプライバシーが保護される。また、視聴コンテンツとは関係のない家族の会話等は検出されず、視聴コンテンツに対する反応から推定される感情に基づいて非言語リアクションが提示されるので、ユーザの生の音声が他ユーザに筒抜けになって他ユーザの視聴を妨げるといったことがない。

このような本開示による視聴反応フィードバックシステムについて、以下複数の実施形態を挙げて具体的に説明する。

＜＜２．各実施形態＞＞
＜２−１．第１の実施形態＞
まず、第１の実施形態による視聴反応フィードバックシステムについて、図３〜図８を参照して説明する。

（２−１−１．構成）
図３は、第１の実施形態による視聴反応フィードバックシステムを形成する各装置の内部構成の一例を示すブロック図である。図３に示すように、本実施形態による視聴反応フィードバックシステムは、複数のクライアント装置１Ａ−１、１Ｂ−１と、サーバ２−１を有する。

・クライアント装置１Ａ−１
クライアント装置１Ａ−１は、図１に示す視聴環境Ａを制御する装置であって、具体的には、図３に示すように、反応情報取得部１２、感情推定部１３、および送信部１５を有する。

反応情報取得部１２は、カメラやマイクにより実現されるセンサ１１Ａ（図１参照）から視聴ユーザの反応情報（撮像画像、音声データ）を取得し、感情推定部１３に出力する。ここで、センサ１１Ａは、カメラやマイクに限定されず、視聴ユーザ３Ａがポケットに入れているまたは手に持っている携帯電話端末やスマートフォンに内蔵されている加速度センサや角加速度センサであってもよい。この場合、反応情報取得部１２は、加速度情報や角加速度情報を視聴ユーザの反応情報として取得することができる。また、反応情報取得部１２は、視聴ユーザ３Ａに装着された生体センサ（センサ１１Ａの一例）から、脈拍、発汗、体温等の生体情報を視聴ユーザの反応情報として取得することも可能である。

感情推定部１３は、反応情報取得部１２により取得された視聴ユーザの反応情報に基づいて、視聴ユーザの感情を推定する。感情推定部１３は、推定した視聴ユーザの感情情報（感情推定結果）を、送信部１５を介してサーバ２−１に出力する。

ここで推定される感情のモデルは様々な手法が考えられるが、例えばＲｏｂｅｒｔＰｌｕｎｔｃｈｉｋにより提示された「感情の輪」を利用してもよい。感情の輪は、８つの基本感情（恐れ、驚き、悲しみ、嫌悪、怒り、予期、喜び、受容）と、２点の組み合わせからなる８つの応用感情（畏怖、失望、後悔、軽蔑、攻撃、楽観、愛、服従）から成り立ち、様々な種類の感情が定義される。

感情推定部１３による感情推定方法としては、例えば視聴ユーザ３Ａの顔画像を画像処理して、顔の表情や身体の姿勢から感情を推定する方法や、マイクアレイを用いて特定ユーザの音声のみを音源分離で抽出し、その音声データから音声認識技術を用いて推定してもよい。例えば、笑顔や笑い声が検出された場合、感情推定部１３は、「笑い」や「楽しさ」の感情を推定する。また、泣き顔や泣き声が検出された場合、感情推定部１３は、「泣き」や「悲しみ」の感情を推定する。

また、他にも、感情推定部１３は、ユーザの瞳孔の大きさ、体温、発汗等に基づいて、ユーザの感情を推定してもよい。さらに、コンテンツ視聴時にユーザが入力したＳＮＳのテキストデータが反応情報取得部１２により取得されていた場合、入力されたテキストデータを解析することでユーザの感情を推定することもできる。

・サーバ２−１
サーバ２−１は、複数の視聴環境に居る各視聴ユーザの感情推定結果を統合し、統合結果を各視聴環境のクライアント装置に送信する。具体的には、本実施形態によるサーバ２−１は、図３に示すように、受信部２１、統合部２３、および送信部２５を有する。

受信部２１は、ネットワークを介してクライアント装置１Ａ−１から視聴ユーザ３Ａの感情推定結果を受信し、統合部２３に出力する。なお図３に示す例ではクライアント装置１Ａ−１からしか感情推定結果を受信していないが、受信部２１は、他の視聴環境（例えば視聴環境Ｂ、Ｃ、Ｄ）からも各視聴ユーザ３Ｂ〜３Ｄの感情推定結果を受信する。

統合部２３は、複数の視聴ユーザの感情推定結果を統合し、統合結果を、送信部２５を介して各クライアント装置（ここでは、一例としてクライアント装置１Ｂ−１）にネットワークを介して送信する。統合結果とは、具体的には、複数の視聴ユーザの感情推定結果の統計データである。統合部２３は、特定視聴ユーザの感情推定結果を統合してもよいし、不特定多数の視聴ユーザの感情推定結果を統合してもよい。

かかる統計データには、例えば統合したユーザの人数や、男女比率、年齢構成、統合した感情推定結果の割合（例えば、笑い６０％、驚き２０％、ノーリアクション２０％等）、各感情推定結果のスコア等である。感情推定結果のスコアとは、例えば１．０を最大スコアとして、大笑いであればスコア０．８、軽い笑いであればスコア０．２等を付ける。

また、後述するように、コンテンツの内容に応じて、感情表現データの種別（女性の声、男性の声等）を変更する場合もあるので、統合部２３は、統合結果にコンテンツのメタデータを含めてもよい。メタデータの一例としては、例えばコンテンツ種別ＩＤ（例えばＴＶ、ビデオ、動画サイト）、タイトル、放送時間、ジャンル、出演者、脚本家、プロデューサ等の情報、ＵＲＬ（ネット動画の場合）、コンテンツに関連付けられたツイートのリスト等が挙げられる。

・クライアント装置１Ｂ−１
クライアント装置１Ｂ−１は、図１に示す視聴環境Ｂを制御する装置であって、サーバ２−１から送信された統合結果に基づいて、感情表現データを決定し、情報提示装置（例えばテレビジョン装置３０Ｂ）から出力する。

具体的には、クライアント装置１Ｂ−１は、図３に示すように、受信部１６、決定部１７、および出力制御部１８を有する。受信部１６は、ネットワークを介してサーバ２−１から複数の視聴ユーザの感情推定結果の統合結果（統計データ）を受信し、決定部１７に出力する。

決定部１７は、統合結果に基づいて、感情表現データを決定する。例えば、「笑い」の感情の割合が多い場合、決定部１７は、「笑い」の感情を表す感情表現データを決定する。かかる感情表現データは、例えば音声データまたはテキストデータにより形成されている。「笑い」の感情を表す感情表現データは、例えば上述した非言語リアクションであってもよい。具体的には、例えば予め登録された（視聴ユーザ３Ａの生の声ではなく別の音源の）笑い声の音声データや、『あははは』『うふふふ』といった擬音語のテキストデータであってもよい。別の音源に差し替えることで、各ユーザのプライバシーが保護される。

また、例えばサッカーのゴール付近のプレイに対するユーザの反応を示す感情として推定される可能性が高い「歓声」を表す感情表現データとしては、『おおー』といった擬音語のテキストデータ等で形成された感情表現データに決定され得る。また、ゴールを外した際のユーザの反応を示す感情として推定される可能性が高い「落胆」を表す感情表現データとしては『はぁ』、「苛立ち」を表す感情表現データとしては『くそっ』といった擬音語のテキストデータにより形成される感情表現データに決定され得る。

また、ドキュメンタリー番組を視聴した際に推定される可能性が高い「悲しみ」を表す感情表現データとしては、『しくしく』、『ずるずる』（鼻をすする音）といった擬態語のテキストデータにより形成される感情表現データに決定され得る。また、教育番組を視聴した際に推定される可能性が高い「納得感」を表す感情表現データとしては、『ふむふむ』といった擬態語のテキストデータにより形成される感情表現データが決定され得る。また、男性アイドルや女性アイドル、アーティストのライブを視聴した際に推定される可能性が高い「喜び」を表す感情表現データとしては、『キャーキャー』といった擬音語のテキストデータにより形成された感情表現データが決定され得る。また、動物番組を視聴した際に推定される可能性が高い「癒し」を表す感情表現データとしては、『ホカホカ』といった擬態語のテキストデータにより形成された感情表現データが決定され得る。

また、非言語リアクション（感情表現データの一例）の具体例は特に限定しないが、さらには、例えば「感嘆」の感情を表す、『やったー』、『すごい』、『うわっ』、『へー』、『わーい』、『素晴らしい』等の言葉も含まれる。

以上、非言語リアクション（感情表現データの一例）の具体例についていくつか説明したが、決定部１７は、一般的に知られている擬態語や擬音語の他、インターネット上や地方の特定のコミュニティで利用されている独自の表現や、流行語を用いてもよい。

また、決定部１７は、統合結果（統計データ）に応じて、非言語リアクション（感情表現データの一例）の提示方法を変更してもよい。例えば、決定部１７は、「笑い」の感情の割合が多い場合、非言語リアクションとして決定する笑い声のトーンやボリュームを大きくしたり、「笑い」の割合に応じた人数（種類）の笑い声を重ねたりしてもよい。

また、決定部１７は、同じ感情であっても、状況や頻度に応じて決定する感情表現データの種類を切り替えてもよい。例えば、「笑い」の感情が継続的に推定されている場合、決定部１７は、同じ笑い声に決定するのでなく、異なる種類の笑い声に変更して決定する。また、決定部１７は、視聴されているコンテンツに応じて感情表現データの種類を変更してもよい。例えば、「喜び」の感情が推定されている場合、決定部１７は、コンテンツが女性アイドルのライブである場合は、当該コンテンツの視聴者層は男性であると推定されるので、「おー」といった男性の音声による感情表現データを決定する。また、決定部１７は、コンテンツが男性アイドルのライブである場合は、当該コンテンツの視聴者層は女性であると推定されるので、「キャー」といった女性の音声による感情表現データを決定する。また、決定部１７は、コンテンツの視聴者層の他、統合結果に含まれる、視聴ユーザの男女比率等の視聴ユーザの属性に応じた種類の感情表現データを決定してもよい。なお、決定部１７は、コンテンツの視聴者層および聴ユーザの属性のうち少なくともいずれかに応じて感情表現データを決定してもよい。

出力制御部１８は、決定部１７によって決定された感情表現データを、情報提示装置から出力するよう制御する。例えば、出力制御部１８は、感情表現データが笑い声の音声データである場合はスピーカ（情報提示装置の一例）から再生させ、感情表現データがテキストデータである場合はテレビジョン装置３０Ｂ（情報提示装置の一例）においてコンテンツに重畳表示させる。以下、感情表現データの出力例について、図４〜図７を参照して説明する。

図４は、テキストデータで形成された感情表現データ（非言語リアクション）をコンテンツに重畳表示させる出力例を示す図である。図４左の表示画面１８０ａに示すように、「歓声」の感情を表す『おおー！』『わー！』といった感情表現データや、「緊張」の感情を表す『ドキドキ』といった感情表現データがテキスト化され、テレビジョン装置３０Ａの表示画面において、コンテンツに重畳表示されて出力される。

また、図４右の表示画面１８０ｂに示すように、「笑い」の感情を表す『あははは！』『ワハハハハ』『クスクス』といった感情表現データがテキスト化され、テレビジョン装置３０Ａの表示画面において、コンテンツに重畳表示されて出力される。なお図４右に示す例では、決定部１７により、統計結果に基づいて「笑い」の割合が多いと判断され、複数種類の表現方法で感情表現データが出力されている。

このように、遠隔地に居る他の視聴ユーザの反応が、視聴ユーザの生の声や、生の声をそのままテキスト変換したものではなく、視聴ユーザの反応に基づいて推定される感情を表す表現方法で提供される。

なおテキストデータの字体は特に限定されず、例えば漫画のような表現方法であってもよい。ここで、図５に、テキストデータで形成された感情表現データ（非言語リアクション）を漫画のような表現方法でコンテンツに重畳表示させる出力例を示す。図５の表示画面１８０ｃに示すように、「笑い」の感情を表す感情表現データ（非言語リアクション）が、漫画のような表現方法で提示される。また、漫画のような表現方法を用いる場合、決定部１７は、例えば漫画の効果線（描画データ）で形成された感情表現データに決定することも可能である。

また、本実施形態による感情表現データの出力例は、図４や図５に示す例に限定されない。例えば、出力制御部１８は、プロジェクタ（情報提示装置の一例）などの外部装置と連携して、テレビジョン装置３０の周辺の壁に、テキストデータや描画データによる感情表現データを投影してもよい。これにより、コンテンツに感情表現データを重畳表示してコンテンツの一部が見えなくなることを回避することができる。ここで、図６に、テキストデータで形成された感情表現データ（非言語リアクション）をプロジェクタで投影させる出力例を示す。

出力制御部１８は、プロジェクタ（不図示）にテキストデータで形成された感情表現データＱ１〜Ｑ３を送り、図６に示すように、テレビジョン装置３０Ｂの周辺の壁に投影する。感情表現データＱ１〜Ｑ３は、例えば「笑い」の感情を表現するための複数のテキストデータである。

さらに、出力制御部１８は、視聴ユーザ３Ｂが座るソファやヘッドホンに内蔵されたバイブレーションを振動させることで感情表現データを出力してもよい。

また、出力制御部１８は、各視聴ユーザの感情推定結果をサーバ２−１から取得した場合、各感情推定結果に基づいて感情表現データを決定し、各感情表現データを、それぞれ誰の感情表現データであるかを示す顔画像やアバター画像と共に出力してもよい。

また、出力制御部１８は、非言語リアクションを音声データで出力する場合、テレビジョン装置３０Ｂに設けられているスピーカから出力してもよいが、前方に他の視聴ユーザが居ないのに声だけ聞こえても臨場感に欠ける。そこで、本実施形態による出力制御部１８は、例えばサラウンドスピーカやバーチャルサウンドテクノロジー等を用いて視聴ユーザ３Ｂの隣や後ろに音像を定位し、あたかも他の視聴ユーザが周囲にいるような状況を再現してもよい。以下、図７を参照して具体的に説明する。

図７は、音声データで形成された感情表現データ（非言語リアクション）の出力例について説明するための図である。図７に示すように、視聴環境Ｂには、複数のスピーカ（情報提示装置の一例）４が配置され、サラウンドスピーカシステムが実現される。複数のスピーカ４は、スピーカアレイにより構成されていてもよい。クライアント装置１Ｂの出力制御部１８は、テレビジョン装置３０Ｂに内蔵されているスピーカ（前方スピーカ）と、視聴ユーザ３Ｂの周囲に配置されているスピーカ４を用いて、音声データで形成された感情表現データを出力する。ここで、出力制御部１８は、視聴ユーザ３Ｂの隣や後ろにあたかも他の視聴ユーザ３１ａ、３１ｂが実際にいるように音像定位制御を行い、臨場感を再現し、より強い共感体験を提供する。この際、出力制御部１８は、視聴ユーザ３Ｂと面識のある特定の他の視聴ユーザに対応する感情表現データの音像を、視聴ユーザ３Ｂの隣（視聴ユーザ３１ａの位置）に定位してもよい。また、出力制御部１８は、視聴ユーザ３Ｂと面識のない不特定多数の他の視聴ユーザに対応する感情表現データの音像を、視聴ユーザ３Ｂの後ろ（視聴ユーザ３１ｂの位置）に定位してもよい。

以上、本実施形態による各装置の構成について説明した。なお、図３〜図７では、視聴環境Ｂにおいて、感情表現データが視聴ユーザ３Ｂに提示される場合を例に説明したが、同様の処理は視聴環境Ａや他の視聴環境Ｃ、Ｄでも行われる。これにより、遠隔地に各視聴ユーザ３Ａ〜３Ｄが、互いに同じコンテンツを視聴しながら感情を共有して共感体験を得ることができる。

また、図３に示す各装置の内部構成は一例であって、本実施形態による構成は図３に示す例に限定されない。例えば、クライアント装置１Ａ−１に含まれる「感情推定部１３」の処理や、クライアント装置１Ｂ−１に含まれる「決定部１７」の処理は、サーバ２−１で実行されてもよい。

また、上述した実施形態では、サーバ２−１は、同じコンテンツを視聴する各視聴環境Ａ〜Ｄに居る視聴ユーザ３Ａ〜３Ｄの視聴反応に基づく感情推定結果を収集しているが、本実施形態はこれに限定されない。例えばコンテンツがスポーツ大会や収録番組の場合、サーバ２−１は、コンテンツが生成されている現場に居るユーザの視聴反応に基づく感情推定結果を収集してもよい。具体的には、サーバ２−１は、サッカーや野球のスタジアムに設けられた各種センサ（カメラやマイク）により検出された情報（画像データ、音声データ）を受信し、感情を推定し、推定した感情推定結果を統合対象に含める。

例えば各視聴環境においてサッカーの試合が視聴されている際、サーバ２−１は、各視聴ユーザ３が応援しているチームのサポータの感情を、サッカースタジアムのサポータ席から取得したサポータの反応に基づいてそれぞれ推定し、推定結果を各視聴環境に送信する。そして、例えば視聴環境Ｂにおいて、クライアント装置１Ｂ−１は、視聴ユーザ３Ｂが応援しているチームのサポータの感情を表す感情表現データを提示することができる。

これにより、両サポータの声援がそのまま提示されることがなく、例えば視聴ユーザ３Ｂが応援しているチームが優勢の場合は、当該チームのサポータによる「驚き」や「喜び」の感情を表した感情表現データが提示される。また、当該チームが劣勢の場合は、当該チームのサポータによる「落胆」や「悲しみ」の感情を表した感情表現データが提示される。このように、視聴ユーザ３は、応援しているチームのサポータとの共感体験を実現することができる。なお視聴ユーザがどのチームを応援しているかについては、各クライアント装置１またはサーバ２−１により、ユーザのプロファイル情報に基づいて判断されてもよいし、試合観戦前にユーザが明示的に選択できるようにしてもよい。

続いて、本実施形態による視聴反応フィードバックシステムの動作処理について図８を参照して具体的に説明する。

（２−１−２．動作処理）
図８は、本実施形態による視聴反応フィードバックシステムの動作処理を示すフローチャートである。図８に示すように、まず、ステップＳ２０３において、クライアント装置１Ａ−１の反応情報取得部１２は、視聴ユーザ３Ａの反応情報をセンサ１１Ａから取得する。

次いで、ステップＳ２０６において、感情推定部１３は、反応情報取得部１２により取得された視聴ユーザの反応情報に基づいて、視聴ユーザ３Ａの感情を推定する。

次に、ステップＳ２０９において、送信部１５は、感情推定部１３により推定された視聴ユーザ３Ａの感情推定結果をサーバ２−１にネットワークを介して送信する。

次いで、ステップＳ２１２において、サーバ２−１の統合部２３は、受信部２１により各視聴環境から受信した複数視聴ユーザの感情推定結果を統合する。統合結果は、送信部２５からネットワークを介してクライアント端末１Ｂ−１に送信される。

次に、ステップＳ２１５において、クライアント装置１Ｂ−１の決定部１７は、受信部１６によりサーバ２−１から受信した統合結果（複数の感情推定結果の統計データ）に基づいて、感情表現データを決定する。感情表現データは、上述したように、擬音語や擬態語、感嘆詞等の非言語リアクションで表されてもよい。また、感情表現データは、上述したように、テキストデータ、音声データ、または描画データ等により形成されてもよい。

そして、ステップＳ２１８において、クライアント装置１Ｂ−１の出力制御部１８は、決定部１７により決定された感情表現データを、視聴環境Ｂに配置されている各情報提示装置（例えばテレビジョン装置３０Ｂ、スピーカ４）から出力するよう制御する。

上述した処理は、コンテンツが視聴されている間、継続的に繰り返し行われる。

以上説明したように、第１の実施形態による視聴反応フィードバックシステムによれば、他の視聴ユーザの視聴反応の感情を示す感情表現データが視聴ユーザに提示されることで、視聴ユーザは、複数のユーザと感情を共有し、共感体験を得ることができる。また、他の視聴ユーザの映像や音声がそのまま提示されたり、視聴反応とは関係ない家族の会話等がそのまま筒抜けになったりすることがないので、各視聴ユーザのプライバシーが保護され、また、ユーザの視聴の妨げも回避される。

＜２−２．第２の実施形態＞
上述した第１の実施形態では、各視聴ユーザの反応が、感情表現データに差し替えられて提示されるので、コンテンツの視聴が妨げられず、不特定多数の各視聴ユーザのプライバシーも保護される。しかし、面識ある特定のユーザ同士で本実施形態による視聴反応フィードバックシステムを利用する場合は、視聴ユーザの生の音声を他の視聴ユーザに提示しても、視聴ユーザのプライバシーは特に問題にならない。

そこで、第２の実施形態による視聴反応フィードバックシステムでは、視聴ユーザの発話から感情表現データを抽出できた場合、当該感情表現データを、特定の他ユーザ（視聴ユーザに許可されたユーザであって、視聴ユーザと面識のある友人や知人）に提示する。以下、図９を参照して具体的に説明する。

（２−２−１．構成）
図９は、第２の実施形態による視聴反応フィードバックシステムを形成する各装置の内部構成の一例を示すブロック図である。図９に示すように、本実施形態による視聴反応フィードバックシステムは、複数のクライアント装置１Ａ−２、１Ｂ−２と、サーバ２−２を有する。

・クライアント装置１Ａ−２
クライアント装置１Ａ−２は、図１に示す視聴環境Ａを制御する装置であって、具体的には、図９に示すように、反応情報取得部１２、感情推定部１３、抽出部１４、および送信部１５を有する。

反応情報取得部１２および感情推定部１３は、図３を参照して説明した第１の実施形態と同様の機能を有し、反応情報取得部１２により取得された視聴ユーザ３Ａの反応情報（撮像画像、音声データ）に基づいて、感情が推定される。

抽出部１４は、反応情報取得部１２により取得された視聴ユーザ３Ａの反応情報から感情表現データを抽出する。例えば、サッカーのゴールシーンのような盛り上がり時に、「このゴールすごいなぁ！これで同点だぁ！」といった視聴ユーザ３Ａの発話が収音された音声データが反応情報取得部１２により取得された場合、抽出部１４は、音声データに対して音声認識を行い、発話内容を文字データとして解析する。そして、抽出部１４は、解析された文字データから、感情を表現する感情表現データに相当する文字データを探す。例えば、上記発話からは、『すごい』という「感嘆」の感情を表す言葉（感嘆詞）が発見され得る。抽出部１４は、発見した言葉部分（区間部分）のユーザ３Ａの音声データ（生の声そのまま）を、音声による感情表現データとして抽出し（抜き出し）、送信部１５に出力する。

送信部１５は、感情推定部１３により推定された視聴ユーザ３Ａの感情推定結果と、抽出部１４により抽出された視聴ユーザ３Ａの音声による感情表現データを、ネットワークを介してサーバ２−２に送信される。

・サーバ２−２
サーバ２−２は、図９に示すように、受信部２１、統合部２３、送信部２５、およびユーザ情報ＤＢ（データベース）２８を有する。受信部２１、統合部２３、および送信部２５の機能は、図３を参照して説明した第１の実施形態と同様である。ユーザ情報ＤＢ２８には、どの視聴ユーザにとって誰が特定の視聴ユーザ（友人、知人等、面識のある他の視聴ユーザ）になるのか、または不特定多数の視聴ユーザ（面識のない他の視聴ユーザ）になるのかといったデータが格納されている。具体的には、例えば、互いに面識のある特定の視聴ユーザ同士には同じグループＩＤが対応付けられる（なお面識ある特定視聴ユーザ同士の組み合わせが複数ある場合は、組み合わせ毎に異なるグループＩＤが用いられる）。したがって、同じグループＩＤが対応付けられている他の視聴ユーザは面識のある特定の他の視聴ユーザであって、同じグループＩＤが対応付けられていない他の視聴ユーザは、面識のない不特定の他の視聴ユーザであるとされる。本実施形態によるサーバ２−２は、視聴ユーザ３Ａと面識のある特定の他の視聴ユーザ（例えば視聴ユーザ３Ｂ）に対しては、統合部２３による統合結果と共に、視聴ユーザ３Ａの音声による感情表現データを送信する。一方、視聴ユーザ３Ａと面識のない不特定多数の他の視聴ユーザ（例えば視聴ユーザ３Ｃ、３Ｄ）に対しては、サーバ２−２は、統合部２３による統合結果のみを送信する。

・クライアント装置１Ｂ−２
クライアント装置１Ｂ−２は、図１に示す視聴環境Ｂを制御する装置であって、具体的には、図９に示すように、受信部１６および出力制御部１８を有する。ここで、視聴環境Ｂは、視聴ユーザ３Ａと面識のある友人、知人等の特定の他の視聴ユーザである視聴ユーザ３Ｂが居る環境であることを想定する。どの視聴ユーザにとって誰が特定の視聴ユーザになるのか、または不特定多数の視聴ユーザになるのかは、上述したように、サーバ２−２側で管理されている。視聴環境Ｂを制御するクライアント装置１Ｂ−２は、受信部１６によりサーバ２−２から受信した視聴ユーザ３Ａの音声による感情表現データを、出力制御部１８により情報提示装置（例えばテレビジョン装置３０Ｂ）から出力するよう制御する。

これにより、視聴ユーザと面識がある特定の他の視聴ユーザに対しては、視聴ユーザのプライバシーが問題とはならないので、視聴ユーザの音声による感情表現データが提示される。なお、視聴ユーザと面識がない不特定多数の他の視聴ユーザに対しては、第１の実施形態によるクライアント装置１Ｂ−１と同様の構成を有するクライアント装置により、第１の実施形態と同様に、各視聴ユーザの感情推定結果の統合結果に基づいて決定された感情表現データが提示される。

（２−２−２．変形例）
ここで、視聴しているコンテンツのシーン、例えばサッカーのゴールシーンやファールシーンのような盛り上がる場面によっては、親しいユーザ同士が直接コメントを伝えたいと思う場合もある。そこで、第２の実施形態の変形例として、盛り上がり（特定共感シーン）が検出された場合は、一時的に直接的なコミュニケーションを可能とする。なお直接的なコミュニケーションは、盛り上がり（特定共感シーン）が検出された際に一時的にだけ行えるようにすることで、ユーザの視聴を妨げずに利便性を向上させることができる。以下、図１０を参照して具体的に説明する。

図１０は、第２の実施形態の変形例による視聴反応フィードバックシステムを形成する各装置の内部構成の一例を示すブロック図である。図１０に示すように、本実施形態による視聴反応フィードバックシステムは、複数のクライアント装置１Ａ−２’、１Ｂ−２’と、サーバ２−２’を有する。

・クライアント装置１Ａ−２’
クライアント装置１Ａ−２’は、図１に示す視聴環境Ａを制御する装置であって、具体的には、図１０に示すように、反応情報取得部１２Ａ、感情推定部１３、通信部１０Ａ、出力制御部１８Ａを有する。反応情報取得部１２Ａおよび感情推定部１３は、図３を参照して説明した第１の実施形態と同様の機能を有する。

通信部１０Ａは、図３を参照して説明した第１の実施形態による送信部１５の機能と、サーバ２−２’から特定共感シーンの検出通知や特定の他の視聴ユーザ３の音声データ等を受信する受信部の機能を有する。

出力制御部１８Ａは、通信部１０Ａが受信したデータを、視聴環境Ａに配置された情報提示装置（テレビジョン装置３０Ａやスピーカ）から出力するよう制御する。

・サーバ２−２’
サーバ２−２’は、図１０に示すように、通信部２２、統合部２３、および特定共感シーン検出部２４を有する。

通信部２２は、図３を参照して説明した第１の実施形態による受信部２１の機能と、送信部２５の機能を有する。

統合部２３は、図３を参照して説明した第１の実施形態と同様である。また、統合部２３は、統合結果を特定共感シーン検出部２４に出力する。

特定共感シーン検出部２４は、統合部２３による統合結果や、コンテンツのシーン解析結果に基づいて、例えばサッカーのゴールシーンのような盛り上がりのある特定のシーン（以下、特定共感シーンとも称する）を検出する。コンテンツのシーン解析は、特定共感シーン検出部２４が行ってもよい。

具体的には、例えば特定共感シーン検出部２４は、統合部２３による統合結果に基づいて、感情のスコアが所定値を上回っている場合、特定共感シーンとして検出する。また、特定共感シーン検出部２４は、シーン解析に基づいて、例えばサッカーであればゴール付近でボールの奪い合いがある場合や、野球であればホームベースに走者が向かっている場合に、特定共感シーンとして検出する。

特定共感シーン検出部２４は、特定共感シーンを検出した場合、特定共感シーンを検出した旨を、通信部２２を介して各クライアント装置１に通知する。特定共感シーンを検出では、当該通知を、例えばテレビジョン装置３０にテキスト表示させたり、スピーカから音声出力させたりする。

そして、サーバ２−２’は、特定の親しいユーザ同士の直接的なコミュニケーションを開始させる。ここで、どの視聴環境間で直接的なコミュニケーションを開始させるかは、ユーザのプロファイル情報等に基づいてサーバ２−２’が自動的に判断してもよいし、通知した際にどの視聴ユーザを直接的なコミュニケーションを開始するかを視聴ユーザに選択させてもよい。

・クライアント装置１Ｂ−２’
クライアント装置１Ｂ−２’は、図１に示す視聴環境Ｂを制御する装置であって、具体的には、図１０に示すように、反応情報取得部１２Ｂ、通信部１０Ｂ、および出力制御部１８Ｂを有する。

反応情報取得部１２Ｂは、クライアント装置１Ａ−２’が有する反応情報取得部１２Ａと同様に、視聴ユーザ３Ｂの反応情報（撮像画像、音声データ）をセンサ１１Ｂ（不図示）から取得する。

通信部１０Ｂは、図３を参照して説明した第１の実施形態による受信部１６の機能と、サーバ２−２’に、反応情報取得部１２Ｂにより取得した視聴ユーザ３Ｂの反応情報を送信する送信部の機能を有する。

出力制御部１８Ｂは、図３を参照して説明した第１の実施形態による出力制御部１８と同様である。また、本実施形態による出力制御部１８Ｂは、サーバ２−２’から受信した特定共感シーンの検出通知を、視聴ユーザＢに提示する。

以上説明した構成により、サーバ２−２’で特定共感シーンが検出されると、検出通知がクライアント装置１Ａ−２’、１Ｂ−２’に通知され、クライアント装置１Ａ−２’、１Ｂ−２’間の直接的なコミュニケーションが開始される。

直接的なコミュニケーションとは、例えば各反応情報取得部１２Ｂにより取得された視聴ユーザ３Ｂの音声データや撮像画像が、そのまま特定の親しい他の視聴ユーザ３Ａに送信され、視聴ユーザ３Ａからの音声データや撮像画像も視聴ユーザ３Ｂに送信されることである。直接的なコミュニケーションを音声データのみで行うか、併せて撮像画像も送るかは、ユーザの設定によって決定され得る。

以上、特定共感シーンが検出された場合に一時的に直接的なコミュニケーションが行える場合について具体的に説明した。なお、特定共感シーン以外では、各視聴ユーザの感情は、非言語リアクション等の感情表現データに変換して他の視聴ユーザに提示される。これにより、必要以上の会話や映像が他ユーザに送られることがないので、プライバシーの保護が保たれる。

また、一時的に直接的なコミュニケーションを開始した後、直接的なコミュニケーションを終了するタイミングは様々考え得るが、例えばクライアント装置１Ａ−２’、１Ｂ−２’またはサーバ２−２’は、一定時間通話が検出されない場合に終了してもよいし、視聴ユーザによる明示的な終了指示操作に応じて終了してもよい。明示的な終了指示操作とは、テレビジョン装置３０と接続されるリモートコントローラや、視聴ユーザによるジェスチャ、音声、視線等を用いた操作である。クライアント装置１Ａ−２’、１Ｂ−２’は、視聴ユーザによるこれら明示的な終了指示操作を検出した場合、視聴ユーザの音声や映像の送信を終了する。

また、本実施形態の変形例による視聴反応フィードバックシステムは、特定共感シーンが検出されていない場合でも、一時的に直接的なコミュニケーションを行いたいという視聴ユーザによる明示的な指示に応じて、一時的に直接的なコミュニケーションを開始してもよい。明示的な指示とは、例えばリモートコントローラにおける特定の操作（ボタンの押下等）、スマートフォン等の情報処理端末のＧＵＩにおける特定の操作、特定のジェスチャ、音声認識、または視線検出等を用いて、クライアント装置１に対して行われ得る。かかる指示を受け取ったクライアント装置１は、サーバ２−２’および、親しい特定の他の視聴ユーザが居る視聴環境のクライアント装置に対して、直接的なコミュニケーションの開始を通知する。

なお、コンテンツに集中したいユーザによっては、非言語リアクション等の感情表現データに変換されていない他の視聴ユーザの映像や音声による直接的なコミュニケーションを拒否したい場合もある。この場合、特定共感シーンの検出通知や直接的なコミュニケーションを受信しないよう、クライアント装置１側で拒否設定することも可能である。

＜２−３．第３の実施形態＞
以上説明したように、ネットワークを介してサーバ２に接続された複数の視聴環境に対して、各視聴ユーザの感情推定結果の統合結果に基づく感情表現データを提示することで、各視聴ユーザは、共感をより強めることが可能となる。このような感情表現データの提示により視聴ユーザの共感を強めるシステムは、視聴環境が１つの場合にも適用され得る。視聴環境が１つしかない場合、他の視聴ユーザの感情推定結果の統合結果を用いることができないが、ユーザ指示の感情推定結果に基づいて、非言語リアクション等による感情表現データを決定し、ユーザ自身に提示することで、ユーザが感じている感情をより強く、増幅することができる。このような単一の視聴環境による本開示によるシステムの適用を、以下、感情アンプリファとも称する。以下、本実施形態による感情アンプリファについて、図１１を参照して具体的に説明する。

図１１は、第３の実施形態によるクライアント装置１−３の内部構成の一例を示すブロック図である。図１１に示すように、本実施形態によるクライアント装置１−３は、反応情報取得部１２、感情推定部１３、決定部１７、および出力制御部１８を有する。これら各構成は、図３を参照して説明した第１の実施形態の各構成と同様である。

具体的には、まず、反応情報取得部１２により、視聴ユーザの反応情報が取得される。例えば、サッカーのナイスプレーを見て盛り上がっている視聴ユーザの映像（ガッツポーズなど）が取得される。

次いで、感情推定部１３は、反応情報取得部１２により取得された反応情報に基づいて、視聴ユーザの感情を推定する。例えば、感情推定部１３は、ガッツポーズの映像に基づいて、「喜び」の感情を推定する。

次に、決定部１７は、推定された感情を表す感情表現データを決定する。例えば、「喜び」の感情の場合、『やったー！』『わーい』等の音声やテキストにより形成された感情表現データを決定する。

そして、出力制御部１８は、決定部１７により決定された感情表現データを、情報提示装置（テレビジョン装置３０やスピーカ）から出力し、視聴ユーザの盛り上がりを増幅させる。

このように、単一の視聴環境においても、視聴ユーザ自身の感情に基づいて決定された感情表現データが視聴ユーザに提示することができ、視聴ユーザの感情を増幅させ、視聴ユーザは、より盛り上がったり、より泣けたり、より笑えたりすることができる。

以上説明した第３の実施形態による感情アンプリファは、単一の視聴環境で利用されるが、本開示による感情アンプリファは、単一の視聴環境に限定されず、上記第１、第２の実施形態で説明したネットワークで接続された複数の視聴環境に併用して利用されてもよい。

これにより、例えばマイナーだが自分の好きなアーティストが登場した瞬間や、マニアにしか分からないサッカーのナイスプレーのように、視聴ユーザだけが盛り上がる場合にも、視聴ユーザの盛り上がりに応じて、実際のコンテンツにはない歓声等が出力され、各ユーザに適した盛り上がりが演出される。

また、サッカーの試合等リアルタイムのコンテンツを視聴している際に、サッカーのゴールシーンで盛り上がっているタイミングと、他の視聴ユーザの感情推定結果（の統合結果）に基づく感情表現データが提示されるタイミングとの間にディレイが生じる場合がある。この場合に、上述した第３の実施形態による感情アンプリファを併用することで、視聴ユーザ自身の感情に基づいて決定された感情表現データを即座に提示し、後から他の視聴ユーザの感情表現データを提示することで、ディレイを解消してリアルタイムな盛り上がりを演出することができる。

また、本実施形態による視聴反応フィードバックシステムでは、視聴ユーザと親しい特定の他の視聴ユーザの感情を表す感情表現データを先に提示（出力）し、後から、不特定多数の他の視聴ユーザの感情を表す感情表現データを提示（出力）してもよい。これにより、親しい友人等の特定の他の視聴ユーザの反応を先に知ることができ、親しい友人同士で盛り上がりを共感して楽しむことができる。具体的には、例えば出力制御部１８は、特定の他の視聴ユーザの感情を表す感情表現データ（以下第１の感情表現データとも称す）の出力を終了してから、不特定多数の他の視聴ユーザの感情を表す感情表現データ（以下第２の感情表現データとも称す）の出力を開始してもよい。また、出力制御部１８は、第１の感情表現データの出力をフェードアウトさせながら、第２の感情表現データの出力をフェードインさせてもよい（クロスフェード）。また、出力制御部１８は、第２の感情表現データの出力を開始する際、第１の感情表現データの出力値（音量や表示テキストの大きさ等）を第２の感情表現データの出力値より下げて第１の感情表現データの出力を継続させてもよい。

＜２−４．第４の実施形態＞
以上第１〜第３の実施形態では、コンテンツをリアルタイムで視聴している視聴ユーザ間で感情表現データを提示し、各視聴ユーザの共感をより強めているが、本開示による視聴反応フィードバックシステムはこれに限定されない。例えば、各視聴ユーザの感情推定結果または統合結果を、コンテンツの該当シーンにタグ付け（以下、感情タグとも称す）することで、後から当該感情タグを用いてコンテンツを検索したり推薦したり感情表現データの提示を行ったりすることも可能である。

通常、録画機器などにおいては、コンテンツ内にチャプタを付与する際に、「ＣＭ」、「後メタ（シーン別、俳優別など）」、「コンテンツ内の音量レベル」のような情報を元にチャプタを設定している。しかし、実際の視聴ユーザの反応は反映されていないので、コンテンツを視聴する際に、「世間一般で盛り上がったシーンは自分も見ておきたい」と思っても、世間一般で盛り上がったシーンを検索することが困難であった。

そこで、本実施形態では、実際の視聴ユーザの感情推定結果に基づく感情タグをコンテンツのシーンに付加することで、実際の他の視聴ユーザの感情推定結果を用いて見たいシーンを選ぶことができる。また、実際の他の視聴ユーザの感情推定結果をコンテンツの推薦に用いることで、視聴ユーザに対して精度の高い推薦を行うことができる。以下、図１２を参照して具体的に説明する。

図１２は、第４の実施形態による視聴反応フィードバックシステムを形成する各装置の内部構成の一例を示すブロック図である。図１２に示すように、本実施形態による視聴反応フィードバックシステムは、複数のクライアント装置１Ａ−４、１Ｂ−４と、サーバ２−４を有する。

・クライアント装置１Ａ−４
クライアント装置１Ａ−４は、図１に示す視聴環境Ａを制御する装置であって、具体的には、図１２に示すように、反応情報取得部１２Ａ、感情推定部１３Ａ、通信部１０Ａ、およびコンテンツ処理部１９Ａを有する。反応情報取得部１２Ａ、感情推定部１３Ａ、および通信部１０Ａは、図１０を参照して説明した第２の実施形態と同様である。

コンテンツ処理部１９Ａは、ユーザ操作に応じたコンテンツの再生制御や、感情タグに基づくコンテンツのシーン検索等を行う。また、コンテンツ処理部１９は、ユーザが視聴しているコンテンツの情報（ＣＨ情報、番組情報、時刻情報など）を、通信部１０Ａを介してサーバ２−４に送信してもよい。

・クライアント装置１Ｂ−４
クライアント装置１Ｂ−４は、図１に示す視聴環境Ｂを制御する装置であって、具体的には、図１２に示すように、反応情報取得部１２Ｂ、感情推定部１３Ｂ、通信部１０Ｂ、およびコンテンツ処理部１９Ｂを有する。反応情報取得部１２Ｂおよび通信部１０Ｂは、図１０を参照して説明した第２の実施形態によると同様である。

また、感情推定部１３Ｂは、図１０を参照して説明した第２の実施形態による感情推定部１３と同様の機能を有する。

コンテンツ処理部１９Ｂは、上述したコンテンツ処理部１９Ａと同様の機能を有する。

・サーバ２−４
サーバ２−４は、図１２に示すように、受信部２１、対応付け部２６、感情タグ生成部２７、および送信部２５を有する。

受信部２１は、クライアント装置１Ａ−４を含む複数のクライアント装置１から、感情推定結果を受信する。

対応付け部２６は、コンテンツと、受信部２１で受信した各視聴ユーザの感情推定結果のマッピング（統合）を行う。具体的には、対応付け部２６は、コンテンツに対して時系列で、各感情推定結果を対応付ける。この際、対応付け部２６は、複数の感情推定結果を統合した統合結果を、対応するコンテンツのシーン（チャプタ）に対応付けてもよい。

感情タグ生成部２７は、対応付け部２６により対応付けられた感情推定結果（または統合結果）に基づいて、コンテンツのどのシーンにどのような感情が対応付けられたかを示す情報を感情タグとして生成し、送信部２５を介して各クライアント装置１Ａ−４、１Ｂ−４に送信する。

以上説明した構成により、各クライアント装置１Ａ−４、１Ｂ−４のコンテンツ処理部１９Ａ、１９Ｂ（以下、コンテンツ処理部１９とも称す）は、コンテンツ再生時に、通信部１０から受信した感情タグに基づいてコンテンツのシーン検索を行うことができる。

例えば、ある番組Ｘが各ユーザにより視聴された際に、サーバ２−４において、複数のユーザがどこで盛り上がったか、笑ったか、悔しがったか等を示す感情タグが生成され、クライアント装置１に送信される。

そして、クライアント装置１は、後でユーザがコンテンツを視聴する際に、実際の他ユーザがどこで盛り上がったか等を示す感情タグを用いて、コンテンツのシーン検索や、推薦を行う。

これにより、コンテンツを視聴しようとするユーザは、実際に世間一般または特定のコミュニティで盛り上がったシーンを検索することが可能である。

また、コンテンツを視聴しようとするユーザは、今の自分の気持ち（感情）に合うコンテンツを検索したりすることが可能である。例えば、ユーザが笑いたいと思った時に、タイトルから推測可能なお笑い番組以外にも、タイトルからは推測できないが笑える番組（コンテンツ）を検索することが可能である。

また、クライアント装置１は、感情タグ生成に用いられた他の視聴ユーザの数や、感情推定結果のスコアを用いて、より視聴ユーザの希望に合ったコンテンツを推薦することが可能である。

また、クライアント装置１は、録画されたある番組をタイムシフト再生する際に、感情タグを用いて、盛り上がったシーンや面白かったシーンのみを再生するといったシーン再生も可能である。

なお、本実施形態による対象コンテンツとしては、放送中の番組以外にも、録画機に録画された番組、ＶＯＤコンテンツ、ネット動画コンテンツ等も含む。

また、クライアント装置１は、再生プログレスバー上に、アイコンや色などで感情タグを表現してもよい。

なお、本実施形態では、サーバ２−４の対応付け部２６において対象とする視聴ユーザの範囲を特に限定していないが、対象とする視聴ユーザの範囲は、全て（不特定多数）であってもよいし、視聴ユーザの設定に応じた特定のコミュニティやフレンドのみ（特定の他ユーザ）であってもよい。

＜＜３．まとめ＞＞
上述したように、本実施形態では、視聴ユーザの視聴を妨げることなく、また、視聴ユーザのプライバシーも保護できる方法で、他の視聴ユーザまたは視聴ユーザ本人の視聴反応を示す感情表現データをフィードバックし、共感を強めさせることができる。

また、従来のビジュアルコミュニケーションの場合、自分のカメラ映像とマイク音声が会話相手にそのまま提示されるため、意図せずに発したリアクション（言葉、表情、動きなど）がそのまま相手に伝わってしまうといったプライバシー観点での問題があった。また、リアクションを受け取る会話相手側としても、相手の生々しいリアクションによってコンテンツ視聴を妨げられてしまう問題があった。しかし、本実施形態によれば、視聴ユーザの反応が、感情を表す感情表現データ（例えば非言語リアクション）に変換されて提示されるので、プライバシーが保護され、また、コンテンツ視聴が妨げること無く、他人とコンテンツを共感する体験が可能となる。

また、従来のコンテンツ視聴の場合、感情（笑い声、感嘆、残念など）や盛り上がりなどの演出をコンテンツ製作者側が行っている（例えば、お笑い番組での観客の笑い声の挿入など）。しかし、本実施形態によれば、実際の他の視聴ユーザや、特定のコミュニティ内（面識のある特定の他ユーザ等）や、自分自身の感情や盛り上がりによって、感情表現データが提示されるので、よりリアルな共感体験が可能となる。

また、従来のビジュアルコミュニケーションを用いたコンテンツ共同視聴体験の場合、音声を伴わない感情表現が発生した場合に、画面上に映っている相手のカメラ映像に視線を向けないとその感情を共感することができず、コンテンツ視聴の妨げになっていた（例えば、お笑い番組を観ていて、声を出さずに笑顔になっている時など）。しかし、本実施形態によれば、音声を伴わない感情も（笑顔のみなど）、感情表現データに変換されるので、より豊かな共感体験を実現することが可能となる。

また、実際に複数人でコンテンツを共同視聴する場合、他者のリアクションは自分の周辺で発生する。そのため、遠隔でのコンテンツ共同視聴の際に、ユーザの前方から他者の非言語リアクション（音声データ）が提示されると違和感が生じる可能性が高い。そこで、本実施形態によれば、ユーザの周囲に音像定位された非言語リアクション（音声データ）が提示されるので、遠隔でのコンテンツ共同視聴時でもより一体感のある環境を実現することが可能となる。

また、本実施形態では、プロジェクタを用いてテレビジョン装置３０の周辺領域に非言語リアクションを提示（投影）することで、コンテンツ視聴を妨げることなく共感体験を実現できる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、クライアント装置１（１Ａ−１〜１Ａ−４、１Ｂ−１〜１Ｂ−４）、サーバ２（サーバ２−１〜サーバ２−４）に内蔵されるＣＰＵ、ＲＯＭ、およびＲＡＭ等のハードウェアに、上述したクライアント装置１、サーバ２の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。

また、本明細書では、サッカーやアーティストのライブのようなコンテンツを用いて説明したが、コンテンツの種類はこれらに限定されず、ネットワークを介して複数のユーザ（プレイヤー）が参加できるゲームも含まれる。
例えば、ユーザ３Ａが、あるゲームを不特定多数の他のユーザと一緒にプレイしている際に、非言語リアクションを用いてユーザ３Ａと同じチームのユーザの感情を提示してもよい。

また、各ユーザの感情推定結果や統合結果は、コンテンツの時系列に沿ったタイムスタンプとセットでサーバ２に保存されていてもよい。これにより、後からコンテンツを再生した際に、クライアント装置１は、サーバ２に保存された感情推定結果や統合結果を取得し、再生中のコンテンツのタイムスタンプを元に非言語リアクションを決定して提示してもよい。

なお、本技術は以下のような構成も取ることができる。
（１）
コンテンツに対する視聴ユーザの反応を取得する取得部と、
前記取得部による取得された視聴ユーザの反応情報に基づいて、前記視聴ユーザの感情を推定する感情推定部と、
前記感情推定部による推定された感情を表す感情表現データを決定する決定部と、
前記決定部により決定された感情表現データを出力する出力部と、
を備える、クライアント装置。
（２）
前記決定部は、複数の視聴ユーザの感情推定結果が統合された感情に基づいて、前記感情表現データを決定する、前記（１）に記載のクライアント装置。
（３）
前記クライアント装置は、
前記感情推定部により推定した感情を示す情報を、サーバに送信する送信部と、
前記複数の視聴ユーザの感情推定結果が統合された感情を示す情報を、前記サーバから受信する受信部と、
をさらに備える、前記（２）に記載のクライアント装置。
（４）
前記複数の視聴ユーザの感情推定結果とは、特定視聴ユーザの感情推定結果である、前記（２）または（３）に記載のクライアント装置。
（５）
前記複数の視聴ユーザの感情推定結果とは、不特定多数の視聴ユーザの感情推定結果である、前記（２）または（３）に記載のクライアント装置。
（６）
前記出力部は、特定視聴ユーザの感情推定結果の統合に基づいて決定された第１の感情表現データの出力開始後、不特定多数の視聴ユーザの感情推定結果の統合に基づいて決定された第２の感情表現データの出力を開始する、前記（２）に記載のクライアント装置。
（７）
前記出力部は、前記第１の感情表現データの出力を終了した後、前記第２の感情表現データの出力を開始する、前記（６）に記載のクライアント装置。
（８）
前記出力部は、前記第１の感情表現データの出力をフェードアウトさせながら、前記第２の感情表現データの出力をフェードインさせる、前記（６）に記載のクライアント装置。
（９）
前記出力部は、前記第２の感情表現データの出力を開始する際、前記第１の感情表現データの出力値を前記第２の感情表現データの出力値より下げる、前記（６）に記載のクライアント装置。
（１０）
前記決定部は、前記感情表現データを、音声データ、テキストデータ、または描画データにより生成する、前記（１）〜（９）のいずれか１項に記載のクライアント装置。
（１１）
前記感情表現データは、所定の感情を表す擬声語、感嘆詞、効果音、または効果線である、前記（１０）に記載のクライアント装置。
（１２）
前記決定部は、前記コンテンツの視聴者層、または前記視聴ユーザの属性の少なくともいずれかに応じた種類の感情表現データを決定する、前記（１）〜（１１）のいずれか１項に記載のクライアント装置。
（１３）
前記取得部は、前記視聴ユーザの反応として前記視聴ユーザの音声を収音する、前記（１）〜（１２）のいずれか１項に記載のクライアント装置。
（１４）
前記クライアント装置は、
前記収音した視聴ユーザの音声から前記感情表現データを抽出する抽出部と、
前記抽出部により抽出した前記感情表現データをサーバに送信する送信部と、
をさらに備える、前記（１３）に記載のクライアント装置。
（１５）
前記取得部は、前記視聴ユーザの反応として前記視聴ユーザの顔画像を撮像する、前記（１）〜（１４）のいずれか１項に記載のクライアント装置。
（１６）
前記出力部は、前記感情表現データを音声および表示の少なくともいずれかにより出力する、前記（１）〜（１５）のいずれか１項に記載のクライアント装置。
（１７）
前記出力部は、外部装置と連携して前記感情表現データを出力する、前記（１）〜（１６）のいずれか１項に記載のクライアント装置。
（１８）
コンテンツに対する視聴ユーザの反応を取得するステップと、
前記取得された視聴ユーザの反応情報に基づいて、前記視聴ユーザの感情を推定するステップと、
前記推定された感情を表す感情表現データを決定するステップと、
前記決定された感情表現データを出力するステップと、
を含む、制御方法。
（１９）
コンテンツに対する視聴ユーザの反応を取得する取得部と；
前記取得部による取得された視聴ユーザの反応情報に基づいて、前記視聴ユーザの感情を推定する感情推定部と；
サーバから受信した推定感情結果の統合結果に基づいて、感情表現データを決定する決定部と；
前記決定部により決定された感情表現データを出力する出力部と；
を有するクライアント装置と、
複数の前記クライアント装置から受信した前記視聴ユーザの感情推定結果を統合する統合部を有するサーバと、
を備える、システム。
（２０）
コンピュータを、
コンテンツに対する視聴ユーザの反応を取得する取得部と、
前記取得部による取得された視聴ユーザの反応情報に基づいて、前記視聴ユーザの感情を推定する感情推定部と、
前記感情推定部による推定された感情を表す感情表現データを決定する決定部と、
前記決定部により決定された感情表現データを出力する出力部と、
として機能させるためのプログラム。

１、１Ａ−１〜１Ａ−４、１Ｂ−１〜１Ｂ−４クライアント装置
２、２−１〜２−４サーバ
３、３Ａ〜３Ｄ視聴ユーザ
４スピーカ
１０通信部
１１センサ
１２反応情報取得部
１３感情推定部
１４抽出部
１５送信部
１６受信部
１７決定部
１８出力制御部
１９コンテンツ処理部
２１受信部
２２通信部
２３統合部
２４特定共感シーン検出部
２５送信部
２６対応付け部
２７感情タグ生成部
２８ユーザ情報ＤＢ
３０テレビジョン装置

Claims

コンテンツに対する視聴ユーザの反応を取得する取得部と、
前記取得部による取得された視聴ユーザの反応情報に基づいて、前記視聴ユーザの感情を推定する感情推定部と、
前記感情推定部による推定された感情を表す感情表現データを決定する決定部と、
前記決定部により決定された感情表現データを出力する出力部と、
を備え、
前記決定部は、複数の視聴ユーザの感情推定結果が統合された感情に基づいて、前記感情表現データを決定し、
前記出力部は、特定視聴ユーザの感情推定結果の統合に基づいて決定された第１の感情表現データの出力開始後、不特定多数の視聴ユーザの感情推定結果の統合に基づいて決定された第２の感情表現データの出力を開始する、クライアント装置。
前記クライアント装置は、
前記感情推定部により推定した感情を示す情報を、サーバに送信する送信部と、
前記複数の視聴ユーザの感情推定結果が統合された感情を示す情報を、前記サーバから受信する受信部と、
をさらに備える、請求項１に記載のクライアント装置。
前記複数の視聴ユーザの感情推定結果とは、特定視聴ユーザの感情推定結果である、請求項１に記載のクライアント装置。
前記複数の視聴ユーザの感情推定結果とは、不特定多数の視聴ユーザの感情推定結果である、請求項１に記載のクライアント装置。
前記出力部は、前記第１の感情表現データの出力を終了した後、前記第２の感情表現データの出力を開始する、請求項１に記載のクライアント装置。
前記出力部は、前記第１の感情表現データの出力をフェードアウトさせながら、前記第２の感情表現データの出力をフェードインさせる、請求項１に記載のクライアント装置。
前記出力部は、前記第２の感情表現データの出力を開始する際、前記第１の感情表現データの出力値を前記第２の感情表現データの出力値より下げる、請求項１に記載のクライアント装置。
前記感情表現データは、音声データ、テキストデータ、または描画データにより形成される、請求項１に記載のクライアント装置。
前記感情表現データは、所定の感情を表す擬声語、感嘆詞、効果音、または効果線である、請求項８に記載のクライアント装置。
前記決定部は、前記コンテンツの視聴者層、または前記視聴ユーザの属性の少なくともいずれかに応じた種類の感情表現データを決定する、請求項１に記載のクライアント装置。
前記取得部は、前記視聴ユーザの反応として前記視聴ユーザの音声を収音する、請求項１に記載のクライアント装置。
前記クライアント装置は、
前記収音した視聴ユーザの音声から前記感情表現データを抽出する抽出部と、
前記抽出部により抽出した前記感情表現データをサーバに送信する送信部と、
をさらに備える、請求項１１に記載のクライアント装置。
前記取得部は、前記視聴ユーザの反応として前記視聴ユーザの顔画像を撮像する、請求項１に記載のクライアント装置。
前記出力部は、前記感情表現データを音声および表示の少なくともいずれかにより出力する、請求項１に記載のクライアント装置。
前記出力部は、外部装置と連携して前記感情表現データを出力する、請求項１に記載のクライアント装置。
コンテンツに対する視聴ユーザの反応を取得するステップと、
前記取得された視聴ユーザの反応情報に基づいて、前記視聴ユーザの感情を推定するステップと、
前記推定された感情を表す感情表現データを決定するステップと、
前記決定された感情表現データを出力するステップと、
を含み、
前記決定するステップは、複数の視聴ユーザの感情推定結果が統合された感情に基づいて、前記感情表現データを決定し、
前記出力するステップは、特定視聴ユーザの感情推定結果の統合に基づいて決定された第１の感情表現データの出力開始後、不特定多数の視聴ユーザの感情推定結果の統合に基づいて決定された第２の感情表現データの出力を開始する、制御方法。
コンテンツに対する視聴ユーザの反応を取得する取得部と；
前記取得部による取得された視聴ユーザの反応情報に基づいて、前記視聴ユーザの感情を推定する感情推定部と；
サーバから受信した推定感情結果の統合結果に基づいて、感情表現データを決定する決定部と；
前記決定部により決定された感情表現データを出力する出力部と；
を有するクライアント装置と、
複数の前記クライアント装置から受信した前記視聴ユーザの感情推定結果を統合する統合部を有するサーバと、
を備え、
前記決定部は、複数の視聴ユーザの感情推定結果が統合された感情に基づいて、前記感情表現データを決定し、
前記出力部は、特定視聴ユーザの感情推定結果の統合に基づいて決定された第１の感情表現データの出力開始後、不特定多数の視聴ユーザの感情推定結果の統合に基づいて決定された第２の感情表現データの出力を開始する、システム。
コンピュータを、
コンテンツに対する視聴ユーザの反応を取得する取得部と、
前記取得部による取得された視聴ユーザの反応情報に基づいて、前記視聴ユーザの感情を推定する感情推定部と、
前記感情推定部による推定された感情を表す感情表現データを決定する決定部と、
前記決定部により決定された感情表現データを出力する出力部と、
として機能させ、
前記決定部は、複数の視聴ユーザの感情推定結果が統合された感情に基づいて、前記感情表現データを決定し、
前記出力部は、特定視聴ユーザの感情推定結果の統合に基づいて決定された第１の感情表現データの出力開始後、不特定多数の視聴ユーザの感情推定結果の統合に基づいて決定された第２の感情表現データの出力を開始する、プログラム。