JP4716083B2

JP4716083B2 - 情報処理装置および方法、記録媒体、並びにプログラム

Info

Publication number: JP4716083B2
Application number: JP2004218532A
Authority: JP
Inventors: 祐介阪井; 直毅斎藤; 幹夫鎌田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-07-27
Filing date: 2004-07-27
Publication date: 2011-07-06
Anticipated expiration: 2024-07-27
Also published as: US7975230B2; US8291326B2; CN1728816A; CN100433828C; US20060026207A1; US20110216155A1; JP2006041887A

Description

本発明は、情報処理装置および方法、記録媒体、並びにプログラムに関し、特に、ネットワークを介して接続された他の情報処理装置とともに、同一のコンテンツとそれぞれのユーザの音声や映像を合成し、同期して再生するようにした情報処理装置および方法、記録媒体、並びにプログラムに関する。

従来、遠隔地にいる人同士の交流（以下、遠隔地コミュニケーションと記述する）に用いる装置として、電話、いわゆるテレビ電話、ビデオ会議システム等が存在する。また、パーソナルコンピュータ等を用いてインタネットに接続し、テキストチャット、映像と音声を伴うビデオチャット等を行う方法もある。

さらに、遠隔地コミュニケーションを実行しようとする人がそれぞれパーソナルコンピュータ等を用い、インタネットを介して仮想空間を共有したり、同一のコンテンツを共用することも提案されている（例えば、特許文献１参照）。

特開２００３−２７１５３０号公報

しかしながら、遠隔地にいる人同士が同一のコンテンツを共用する従来の方法では、主に言語的情報を伝送することでコミュニケーションを行うため、実際に相手と対面して行う対面コミュニケーションと比較して、ユーザ同士の心情や状況が伝わりにくいといった課題があった。

また、同一のコンテンツとともに、相手側の映像および音声も視聴する従来の方法では、相手側の映像および音声と、共用するコンテンツの映像および音声を、ユーザの操作などに応じて最適に合成させるには、機器の操作が煩雑であるため、困難である課題があった。

本発明はこのような状況に鑑みてなされたものであり、遠隔地にいる人同士が同一コンテンツを視聴している際に、複数の映像および音声の合成を、ユーザの状態に応じて簡単に設定することができるようにすることを目的とする。

本発明の情報処理装置は、コンテンツデータを再生する再生手段と、ユーザの音声および映像を含む第１のユーザ状態情報を入力するユーザ情報入力手段と、ネットワークを介して接続されている他の情報処理装置から、他のユーザの音声および映像を含む第２のユーザ状態情報を受信するユーザ情報受信手段と、第１のユーザ状態情報に基づいてユーザの姿勢を分析し、ユーザの姿勢に基づいて、再生中のコンテンツへのユーザの熱中度を分析する情報分析手段と、コンテンツデータの音声および映像と、第２のユーザ状態情報の音声および映像を合成するとともに、ユーザの熱中度に基づいて、第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いを変更する合成手段とを備える。
合成手段には、ユーザの熱中度が高いほど、第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いを低くさせ、ユーザの熱中度が低いほど、第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いを高くさせることができる。
分析手段には、さらに、第２のユーザ状態情報に基づいて、他のユーザのコミュニケーションの活性度を分析させ、合成手段には、ユーザの熱中度および他のユーザの活性度のうち少なくとも一方に基づいて、第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いを変更させることができる。
合成手段には、他のユーザの活性度が高いほど、第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いを高くさせ、他のユーザの活性度が低いほど、第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いを低くさせることができる。
第２のユーザ状態情報を、情報分析手段による分析の対象にするか否かを判定する分析対象判定手段をさらに備え、情報分析手段には、分析対象判定手段により第２のユーザ状態情報を分析の対象にしないと判定された場合、第１のユーザ状態情報のみを分析させることができる。
分析手段には、さらに、第１のユーザ状態情報に基づいて、合成手段により合成された映像を出力する出力手段に対するユーザの姿勢を分析させ、合成手段には、ユーザの熱中度および表示手段に対するユーザの姿勢のうち少なくとも一方に基づいて、第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いを変更させることができる。
再生手段には、他の情報処理装置と同一のコンテンツデータを同期再生させることができる。

第１のユーザ状態情報には、ユーザの環境情報も含まれ、第２のユーザ状態情報には、他のユーザの環境情報も含まれるようにすることができる。

合成手段により合成された音声および映像を出力する出力手段をさらに備えるようにすることができる。

情報分析手段による分析結果に基づいて、接続される電子機器を制御する電子機器制御手段をさらに備えるようにすることができる。

情報分析手段による分析結果に基づいて、他の情報処理装置を制御する制御パラメータを設定するパラメータ設定手段と、制御パラメータを、他の情報処理装置に送信する送信手段とさらに備えるようにすることができる。

他の情報処理装置から送信されてくる制御パラメータを受け付けるか否かを判定する受付判定手段をさらに備えるようにすることができる。

本発明の情報処理方法は、ネットワークを介して接続されている他の情報処理装置と通信する情報処理装置が、コンテンツデータを再生する再生ステップと、ユーザの音声および映像を含む第１のユーザ状態情報を入力するユーザ情報入力ステップと、他の情報処理装置から、他のユーザの音声および映像を含む第２のユーザ状態情報を受信するユーザ情報受信ステップと、第１のユーザ状態情報に基づいてユーザの姿勢を分析し、ユーザの姿勢に基づいて、再生中のコンテンツへのユーザの熱中度を分析する情報分析ステップと、コンテンツデータの音声および映像と、第２のユーザ状態情報の音声および映像を合成するとともに、ユーザの熱中度に基づいて、第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いを変更する合成ステップとを含む。

本発明の記録媒体に記録されているプログラムは、ネットワークを介して接続された情報処理装置と通信するコンピュータに、コンテンツデータを再生する再生ステップと、ユーザの音声および映像を含む第１のユーザ状態情報を入力するユーザ情報入力ステップと、情報処理装置から、他のユーザの音声および映像を含む第２のユーザ状態情報を受信するユーザ情報受信ステップと、第１のユーザ状態情報に基づいてユーザの姿勢を分析し、ユーザの姿勢に基づいて、再生中のコンテンツへのユーザの熱中度を分析する情報分析ステップと、コンテンツデータの音声および映像と、第２のユーザ状態情報の音声および映像を合成するとともに、ユーザの熱中度に基づいて、第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いを変更する合成ステップとを実行させる。

本発明のプログラムは、ネットワークを介して接続された情報処理装置と通信するコンピュータに、コンテンツデータを再生する再生ステップと、ユーザの音声および映像を含む第１のユーザ状態情報を入力するユーザ情報入力ステップと、情報処理装置から、他のユーザの音声および映像を含む第２のユーザ状態情報を受信するユーザ情報受信ステップと、第１のユーザ状態情報に基づいてユーザの姿勢を分析し、ユーザの姿勢に基づいて、再生中のコンテンツへのユーザの熱中度を分析する情報分析ステップと、コンテンツデータの音声および映像と、第２のユーザ状態情報の音声および映像を合成するとともに、ユーザの熱中度に基づいて、第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いを変更する合成ステップとを実行させる。

本発明においては、コンテンツデータが再生され、ユーザの音声および映像を含む第１のユーザ状態情報が入力され、ネットワークを介して接続されている他の情報処理装置から、他のユーザの音声および映像を含む第２のユーザ状態情報が受信され、第１のユーザ状態情報に基づいてユーザの姿勢が分析され、ユーザの姿勢に基づいて、再生中のコンテンツへのユーザの熱中度が分析され、コンテンツデータの音声および映像と、第２のユーザ状態情報の音声および映像が合成されるとともに、ユーザの熱中度に基づいて、第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いが変更される。

ネットワークとは、少なくとも２つの装置が接続され、ある装置から、他の装置に対して、情報の伝達をできるようにした仕組みをいう。ネットワークを介して通信する装置は、独立した装置どうしであってもよいし、１つの装置を構成している内部ブロックどうしであってもよい。

また、通信とは、無線通信および有線通信は勿論、無線通信と有線通信とが混在した通信、すなわち、ある区間では無線通信が行われ、他の区間では有線通信が行われるようなものであってもよい。さらに、ある装置から他の装置への通信が有線通信で行われ、他の装置からある装置への通信が無線通信で行われるようなものであってもよい。

本発明によれば、複数の映像および音声の合成を、ユーザの状態に応じて簡単に設定することができる。また、本発明によれば、遠隔地にいる人同士が、より活発で自然なコミュニケーションを行うことができる。

以下に本発明の実施の形態を説明するが、請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係を例示すると、次のようになる。この記載は、請求項に記載されている発明をサポートする具体例が、発明の実施の形態に記載されていることを確認するためのものである。したがって、発明の実施の形態中には記載されているが、構成要件に対応するものとして、ここには記載されていない具体例があったとしても、そのことは、その具体例が、その構成要件に対応するものではないことを意味するものではない。逆に、具体例が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その具体例が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。

さらに、この記載は、発明の実施の形態に記載されている具体例に対応する発明が、請求項に全て記載されていることを意味するものではない。換言すれば、この記載は、発明の実施の形態に記載されている具体例に対応する発明であって、この出願の請求項には記載されていない発明の存在、すなわち、将来、分割出願されたり、補正により追加される発明の存在を否定するものではない。

請求項１に記載の情報処理装置は、コンテンツデータを再生する再生手段（例えば、図４のコンテンツ再生部２５）と、ユーザの音声および映像を含む第１のユーザ状態情報を入力するユーザ情報入力手段（例えば、図４の入力部２２−１）と、ネットワークを介して接続されている他の情報処理装置（例えば、図１のコミュニケーション装置１−２）から、他のユーザの音声および映像を含む第２のユーザ状態情報を受信するユーザ情報受信手段（例えば、図４の通信部２３）と、第１のユーザ状態情報に基づいてユーザの姿勢を分析し、ユーザの姿勢に基づいて、再生中のコンテンツへのユーザの熱中度を分析する情報分析手段（例えば、図４のユーザ特性分析部７１）と、コンテンツデータの音声および映像と、第２のユーザ状態情報の音声および映像を合成するとともに、ユーザの熱中度に基づいて、第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いを変更する合成手段（例えば、図４の映像音声合成部２６）とを備える。

請求項５に記載の情報処理装置は、ユーザ情報受信手段により受信された第２のユーザ状態情報を、情報分析手段による分析の対象にするか否かを判定する分析対象判定手段（例えば、図４の合成制御部８４）をさらに備え、情報分析手段は、分析対象判定手段により第２のユーザ状態情報を分析の対象にしないと判定された場合、第１のユーザ状態情報のみを分析する。

請求項９に記載の情報処理装置は、合成手段により合成された音声および映像を出力する出力手段（例えば、図４の出力部２１）をさらに備える。

請求項１１に記載の情報処理装置は、情報分析手段による分析結果に基づいて、他の情報処理装置を制御する制御パラメータを設定するパラメータ設定手段（例えば、図４の制御情報生成部７２）と、制御パラメータを、他の情報処理装置に送信する送信手段送信手段（例えば、図４の操作情報出力部８７）とをさらに備える。

請求項１２に記載の情報処理装置は、他の情報処理装置から送信されてくる制御パラメータを受け付けるか否かを判定する受付判定手段（例えば、図４のセッション管理部８１）
をさらに備える。

請求項１３に記載の情報処理方法は、ネットワークを介して接続されている他の情報処理装置と通信する情報処理装置が、コンテンツデータを再生する再生ステップ（例えば、図５のステップＳ４）と、ユーザの音声および映像を含む第１のユーザ状態情報を入力するユーザ情報入力ステップ（例えば、図４の入力部２２−１が実行する図５のステップＳ２）と、他の情報処理装置から、他のユーザの音声および映像を含む第２のユーザ状態情報を受信するユーザ情報受信ステップ（例えば、図４の通信部２３が実行する図５のステップＳ２）と、第１のユーザ状態情報に基づいてユーザの姿勢を分析し、ユーザの姿勢に基づいて、再生中のコンテンツへのユーザの熱中度を分析する情報分析ステップ（例えば、図１３のステップＳ２３）と、コンテンツデータの音声および映像と、第２のユーザ状態情報の音声および映像を合成するとともに、ユーザの熱中度に基づいて、第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いを変更する合成ステップ（例えば、図１３のステップＳ２８）とを含む。

なお、請求項１４に記載の記録媒体および請求項１５に記載のプログラムも、上述した請求項１３に記載の情報処理方法と基本的に同様の構成であるため、繰り返しになるのでその説明は省略する。

以下、図を参照して本発明の実施の形態について説明する。

図１は、本発明を適用したコミュニケーションシステムの構成例を示している。このコミュニケーションシステムにおいて、コミュニケーション装置１−１は、通信網２を介して他のコミュニケーション装置１（図１の場合、コミュニケーション装置１−２）と接続し、いわゆるＴＶ（テレビジョン）電話機のようにユーザの音声および映像を相互に通信することに加えて、共通のコンテンツを、他のコミュニケーション装置１−２と同期して再生することにより、ユーザ間の遠隔地コミュニケーションを支援するものである。以下、コミュニケーション装置１−１および１−２を個々に区別する必要がない場合、単にコミュニケーション装置１と記述する。

なお、共通のコンテンツは、例えば、テレビジョン放送を受信して得られる番組コンテンツ、予めダウンロード済の映画等のコンテンツ、ユーザ間で供給済の私的なコンテンツ、ゲームや音楽のコンテンツ、または、ＤＶＤ（Digital Versatile Disk）に代表される光ディスク（図示せぬ）に記録済のコンテンツなどである。

コミュニケーション装置１は、複数のユーザが同時に利用することができる。例えば、図１の場合、コミュニケーション装置１−１は、ユーザＡ，Ｂによって使用されており、コミュニケーション装置１−２は、ユーザＸによって使用されているものとする。

例えば、共通のコンテンツの映像が図２Ａに示すようなものであり、コミュニケーション装置１−１によって撮影されたユーザＡの映像が図２Ｂに示すようなものであり、コミュニケーション装置１−２によって撮影されたユーザＸの映像が図２Ｂに示すようなものであるとする。この場合、コミュニケーション装置１−１のディスプレイ４１（図４）には、例えば、図３Ａに示すピクチャインピクチャ(picture in picture)、図３Ｂに示すクロスフェイド(Cross fade)、または図３Ｃに示すワイプ(wipe)の方式で、コンテンツとユーザの映像が重畳されて表示される。

図３Ａに示されたピクチャインピクチャにおいては、コンテンツの映像にユーザの映像が子画面として重畳される。子画面の表示位置およびサイズは任意に変更可能である。また、自身（ユーザＡ）とコミュニケーション相手（ユーザＸ）の映像の両方ではなく、一方の子画面だけを表示させることも可能である。

図３Ｂに示されたクロスフェイドにおいては、コンテンツの映像とユーザ（ユーザＡまたはユーザＸ）の映像が合成されて表示される。このクロスフェイドは、例えばコンテンツの映像として表示された地図上のある位置をユーザが指し示すとき等に用いることができる。

図３Ｃに示されたワイプにおいては、コンテンツの映像を覆うようにユーザの映像が所定の方向から出現する。例えば、図３Ｃにおいては、ユーザの映像は、コンテンツの映像の右側から出現している。

これらの合成パターンは、随時変更が可能である。また、図３Ａ乃至図３Ｃに示された合成パターンにおける各映像の透明度を設定する映像バランス、さらに、図示はしないが、コンテンツとユーザの音声の音量を設定する音量バランスなども、合成パラメータとして随時変更が可能である。これらの合成パターンおよび合成パラメータの変更の履歴は、合成情報として合成情報記憶部６４（図４）に記録される。なお、コンテンツとユーザの映像の表示は、上述した合成パターンだけに限らず、これら以外の合成パターンを適用してもよい。

図１に戻る。通信網２は、インタネット等に代表される広帯域なデータ通信網である。コンテンツ供給サーバ３は、コミュニケーション装置１からの要求に応じ、通信網２を介してコンテンツをコミュニケーション装置１に供給する。認証サーバ４は、コミュニケーション装置１のユーザが当該コミュニケーションシステムを利用するに際しての認証、課金等の処理を行う。

放送装置５は、テレビジョン放送等の番組としてコンテンツを送信する。したがって、各コミュニケーション装置１は、放送装置５から放送されるコンテンツを同期して受信し、再生することができる。なお、放送装置５からコミュニケーション装置１に対するコンテンツの送信は無線であってもよいし、有線であってもよい。また、通信網２を介してもかまわない。

標準時刻情報供給装置６は、コミュニケーション装置１に内蔵された時計（標準時刻計時部３０（図４））を、標準時刻（世界標準時、日本標準時刻等）に正確に同期させるための標準時刻情報を各コミュニケーション装置１に供給する。なお、標準時刻情報供給装置６からコミュニケーション装置１に対する標準時刻情報の供給は、無線であってもよいし、有線であってもよい。また、通信網２を介してもかまわない。

なお、図１の例においては、コミュニケーション装置１が通信網２を介して２台しか接続されていないが、２台に限らず、コミュニケーション装置１−３およびコミュニケーション装置１−４など、複数台のコミュニケーション装置１が通信網２に接続されている。

次に、コミュニケーション装置１−１の詳細な構成例について、図４を参照して説明する。

コミュニケーション装置１−１において、出力部２１は、ディスプレイ４１およびスピーカ４２より構成され、映像音声合成部２６から入力される映像信号および音声信号にそれぞれ対応する映像を表示し、音声を出力する。

入力部２２−１および２２−２は、ユーザの映像（動画像または静止画像）を撮影するカメラ５１−１および５１−２、ユーザの音声を集音するマイクロフォン（以下、マイクと称する）５２−１および５２−２、並びにユーザの周囲の明度や温度等を検出するセンサ５３−１および５３−２よりそれぞれ構成され、取得した映像、音声、明度、および温度等を含むユーザのリアルタイム（ＲＴ）データを、通信部２３、記憶部２７、およびデータ分析部２８に出力する。また、入力部２２−１および２２−２は、取得したユーザの映像および音声を、映像音声合成部２６に出力する。

なお、以下、入力部２２−１および２２−２、カメラ５１−１および５１−２、マイク５２−１および５２−２、並びにセンサ５３−１および５３−２を、個々に区別する必要がない場合、単に、それぞれ入力部２２、カメラ５１、マイク５２、並びにセンサ５３と称する。また、入力部２２を複数設け（図４の場合は２つ）、それぞれを複数のユーザ（図１のユーザＡ，Ｂ）に対して指向させるようにしてもよい。

通信部２３は、入力部２２から入力されるユーザのリアルタイムデータを、通信網２を介してコミュニケーション相手のコミュニケーション装置１−２に送信し、コミュニケーション装置１−２が送信したユーザのリアルタイムデータを受信し、映像音声合成部２６および記憶部２７に出力する。また、通信部２３は、コミュニケーション相手のコミュニケーション装置１−２またはコンテンツ供給サーバ３から通信網２を介して供給されたコンテンツ（以下、適宜、コンテンツデータとも称する）を受信し、コンテンツ再生部２５および記憶部２７に出力する。さらに、通信部２３は、記憶部２７に記憶されているコンテンツや、操作情報出力部８７からの操作情報や制御情報などを、通信網２を介してコミュニケーション装置１−２に送信する。

放送受信部２４は、放送装置５から放送されたテレビジョン放送信号を受信し、得られた放送番組のコンテンツを、コンテンツ再生部２５、および、必要に応じて記憶部３７に出力する。コンテンツ再生部２５は、放送受信部２４によって受信された放送番組のコンテンツ、通信部２３によって受信されたコンテンツ、記憶部２７から読み出されるコンテンツ、または、図示せぬ光ディスクなどから読み出されるコンテンツを再生し、得られたコンテンツの映像および音声を、映像音声合成部２６およびデータ分析部２８に出力する。

映像音声合成部２６は、コンテンツ再生部２５から入力されるコンテンツの映像および音声、入力部２２から入力されるユーザの映像および音声、通信部２３から入力される通信相手（ユーザＸ）の映像および音声、並びに、ユーザに対するアラート等の文字列などをミキシング（混合して調整すること、すなわち、以下、適宜、合成とも称する）し、その結果得られた映像信号と音声信号を出力部２１に出力する。

記憶部２７は、コンテンツ記憶部６１、ライセンス記憶部６２、ユーザ情報記憶部６３、および合成情報記憶部６４により構成される。コンテンツ記憶部６１は、入力部２２から供給されるユーザ（ユーザＡ等）のリアルタイムデータ、通信部２３から供給されるコミュニケーション相手（ユーザＸ）のリアルタイムデータ、放送受信部２４によって受信された放送番組のコンテンツ、通信部２３から供給されるコンテンツを記憶する。ライセンス記憶部６２は、コンテンツ記憶部６１に記憶されるコンテンツの、コミュニケーション装置１−１が有するライセンス情報などを記憶する。ユーザ情報記憶部６３は、コミュニケーション装置１−１が属するグループなどのプライバシ情報を記憶する。合成情報記憶部６４は、合成制御部８４により設定が変更された合成パターンや合成パラメータを、合成情報として記憶する。

データ分析部２８は、ユーザ特性分析部７１および制御情報生成部７２により構成され、入力部２２から供給されるユーザ（ユーザＡ等）のリアルタイムデータ、通信部２３から供給されるコミュニケーション相手（ユーザＸ）のリアルタイムデータ、およびコンテンツ再生部２５からのコンテンツデータが入力される。

ユーザ特性分析部７１は、入力部２２から供給されるユーザ（ユーザＡ等）のリアルタイムデータから得られる、ユーザの姿勢情報、人数情報、音声情報、または周囲の環境情報（すなわち、ユーザの状態情報）などの特性を分析し、分析結果を、制御情報生成部７２に出力する。また、ユーザ特性分析部７１は、ユーザＡのリアルタイムデータだけでなく、通信部２３から供給されるコミュニケーション相手（ユーザＸ）のリアルタイムデータから得られる、ユーザの状態情報などの特性も分析し、分析結果を、制御情報生成部７２に出力する。

制御情報生成部７２は、コミュニケーション装置１−１を構成する各部に対して、ユーザ特性分析部７１からの分析結果に応じた制御を行わせるための制御情報を生成し、生成した制御情報を、制御部３２に出力する。例えば、制御情報生成部７２は、分析結果に応じた合成パラメータや合成パターンで、コンテンツ再生部２５からのコンテンツの映像および音声、通信部２３から供給されるコミュニケーション相手のリアルタイムデータの映像および音声を合成させるように、映像音声合成部２６を制御するための制御情報を生成し、生成した制御情報を、制御部３２に出力する。

また、制御情報生成部７２は、コミュニケーション相手であるコミュニケーション装置１−２を構成する各部に対して、ユーザ特性分析部７１からの分析結果に応じた制御を行わせるための制御情報を生成し、生成した制御情報を、制御部３２に出力する。

通信環境検出部２９は、通信部２３と通信網２を介したコミュニケーション装置１−２との通信環境（通信レート、通信遅延時間等）を監視して制御部３２に出力する。標準時刻計時部３０は、制御部３２に供給する標準時刻を計時する。標準時刻計時部３０は、標準時刻情報供給装置６から供給される標準時刻情報に基づいて自己が刻む標準時刻を修正する。操作入力部３１は、リモートコントローラ等からなり、ユーザの操作を受け付けて対応する操作信号を制御部３２に入力する。

制御部３２は、操作入力部３１から入力されるユーザの操作に対応した操作信号や、データ分析部２８から入力される制御情報などに基づいて、コミュニケーション装置１−１を構成する各部を制御する。制御部３２は、セッション管理部８１、視聴記録レベル設定部８２、再生同期部８３、合成制御部８４、再生許可部８５、記録許可部８６、操作情報出力部８７、および電子機器制御部８８を含んでいる。なお、図４において、制御部３２からコミュニケーション装置１−１を構成する各部への制御ラインの図示は省略されている。

セッション管理部８１は、通信部２３が通信網２を介してコミュニケーション装置１−２、コンテンツ供給サーバ３、認証サーバ４等と接続する処理を制御する。また、セッション管理部８１は、他の装置（例えば、コミュニケーション装置１−２）などからのコミュニケーション装置１−１の各部を制御する制御情報を受け付けるか否かを判定する。

視聴記録レベル設定部８２は、ユーザの操作に基づき、入力部２２に取得されたユーザのリアルタイムデータやコンテンツ記憶部６１に記憶されているユーザ個人のコンテンツが、コミュニケーション相手のコミュニケーション装置１−２において再生可能であるか否か、記録可能であるか否か、記録可能であるなら記録可能な回数等を設定し、この設定情報を、プライバシ情報として、ユーザのリアルタイムデータに付加して、通信部２３からコミュニケーション装置１−２に通知させる。再生同期部８３は、コミュニケーション相手のコミュニケーション装置１−２と同期して同一のコンテンツが再生されるように、コンテンツ再生部２５を制御する。

合成制御部８４は、ユーザの操作に従って、ユーザのリアルタイムデータから得られるユーザの状態情報を分析するように、データ分析部２８を制御する。また、合成制御部８４は、コンテンツの映像および音声とユーザの映像および音声が、ユーザの操作、またはデータ分析部２８からの制御情報に従って合成されるように、映像音声合成部２６を制御する。すなわち、合成制御部８４は、データ分析部２８からの制御情報に基づいて、図３Ａ乃至図３Ｃに示されるような合成パターンおよび合成パラメータの設定を変更し、設定を変更した合成パターンおよび合成パラメータに基づいて、映像音声合成部２６を制御する。そして、合成制御部８４は、設定を変更した合成パターンおよび合成パラメータを、合成情報として、合成情報記憶部６４に記録させる。

再生許可部８５は、コンテンツに付加されているライセンス情報やプライバシ情報（コミュニケーション相手の視聴記録レベル設定部８２により設定される）等に基づいて当該コンテンツの再生の可否を判定し、判定結果に基づいてコンテンツ再生部２５を制御する。記録許可部８６は、コンテンツに付加されているライセンス情報やプライバシ情報等に基づき、コンテンツの記録の可否を判定し、判定結果に基づいて記憶部２７を制御する。

操作情報出力部８７は、ユーザによる操作（テレビジョン放送受信時のチャンネル切り換え操作、コンテンツ再生開始、再生終了、早送り再生の操作等）に対応して、その操作内容と操作時刻を含む操作情報を生成し、通信部２３からコミュニケーション相手のコミュニケーション装置１−２に通知させる。この操作情報は、コンテンツの同期再生に利用される。また、操作情報出力部８７は、データ分析部２８からの制御情報も、通信部２３からコミュニケーション相手のコミュニケーション装置１−２に通知させる。

電子機器制御部８８は、ユーザによる操作、または、データ分析部２８から入力される制御情報に基づき、出力部２１や入力部２２の出力や入力の設定、コミュニケーション装置１−１の周辺に位置する所定の電子機器（例えば、照明機器、空調機器等。いずれも不図示）を制御する。

なお、コミュニケーション装置１−２の詳細な構成例については、図４に示されたコミュニケーション装置１−１の構成例と同様であるので、その説明は省略する。

次に、コミュニケーション装置１−１によるコミュニケーション装置１−２との遠隔コミュニケーション処理について、図５のフローチャートを参照して説明する。なお、この処理は、コミュニケーション装置１−２においても同様に実行される処理でもある。

このコミュニケーション処理は、コミュニケーション装置１−２との遠隔コミュニケーションの開始を指示する操作が、操作入力部３１に入力され、この操作に対応する操作信号が制御部３２に入力されたときに開始される。

ステップＳ１において、通信部２３は、セッション管理部８１からの制御に基づき、通信網２を介してコミュニケーション装置１−２に接続し、遠隔コミュニケーションの開始を通知し、ステップＳ２に進む。この通知に対応して、コミュニケーション装置１−２は、遠隔コミュニケーションの開始の受諾を返信する。

ステップＳ２において、通信部２３は、制御部３２からの制御に基づき、入力部２２から入力されるユーザＡ等のリアルタイムデータを、通信網２を介してコミュニケーション装置１−２に送信し始めるとともに、コミュニケーション装置１−２から送信されたユーザＸのリアルタイムデータの受信を開始し、ステップＳ３に進む。このとき、入力部２２から入力されるユーザＡ等のリアルタイムデータと、受信されたユーザＸのリアルタイムデータは、データ分析部２８に入力され、リアルタイムデータのうちの映像および音声は、映像音声合成部２６に入力される。

ステップＳ３において、通信部２３は、セッション管理部８１からの制御に基づき、通信網２を介して認証サーバ４に接続し、コンテンツ取得のための認証処理を行う。この認証処理の後、通信部２３は、通信網２を介してコンテンツ供給サーバ３にアクセスし、ユーザが指定するコンテンツを取得し、ステップＳ４に進む。このとき、コミュニケーション装置１−２でも同様の処理が行われ、同一のコンテンツが取得されているものとする。

なお、テレビジョン放送されているコンテンツを受信する場合や、既に取得済で記憶部２７に記憶されているコンテンツを再生する場合、ステップＳ３の処理は不要となる。

ステップＳ４において、コンテンツ再生部２５は、再生同期部８３の制御に基づき、コミュニケーション装置１−２と同期したコンテンツの再生処理（以下、コンテンツ同期再生処理と記述する）を開始し、ステップＳ５に進む。このコンテンツ同期再生処理により、コミュニケーション装置１−１および１−２において、同じコンテンツが、標準時刻計時部３０（標準時刻情報供給装置６）から供給される標準時刻情報に基づいて同期して再生され、再生されたコンテンツデータは、映像音声合成部２６およびデータ分析部２８に入力される。

ステップＳ５において、記憶部２７は、遠隔コミュニケーション記録処理を開始し、ステップＳ６に進む。具体的には、映像音声合成部２６は、再生が開始されたコンテンツデータ、入力されたユーザＡ等のリアルタイムデータに含まれる映像および音声、受信されたユーザＸのリアルタイムデータに含まれる映像および音声を、合成制御部８４による制御のもと、合成し、合成の結果得られた映像信号および音声信号を出力部２１に供給する。なお、このとき、合成制御部８４は、ユーザの操作に基づいて予め設定されている合成パターンおよび合成パラメータに基づいて映像音声合成部２６の合成処理を制御する。

出力部２１は、供給された映像信号に対応する映像を表示し、音声信号に対応する音声を出力する。この段階でユーザ間の映像および音声の通信と、コンテンツの同期再生が開始されたことになる。

そして、再生が開始されたコンテンツ、入力されたユーザＡ等のリアルタイムデータに含まれる映像および音声、受信されたユーザＸのリアルタイムデータに含まれる映像および音声、並びに、これらの合成の状態（合成パターンおよび合成パラメータ）を示す合成情報の記録が開始される。

ステップＳ６において、データ分析部２８および映像音声合成部２６は、合成制御部８４による制御に従い、ユーザ特性分析ミキシング処理を実行する。この特性分析ミキシング処理の詳細については後述するが、ステップＳ６においては、データ分析部２８により、ユーザのリアルタイムデータから得られる、ユーザの状態情報（姿勢情報、人数情報、音声情報、または環境情報など）の特性が分析され、その分析の結果に基づいて、映像音声合成部２６などを制御するための制御情報が生成される。したがって、合成制御部８４は、ユーザの操作に基づいて予め設定されている合成パターンおよび合成パラメータではなく、生成される制御情報に基づいて合成パターンおよび合成パラメータを変更し、映像音声合成部２６の合成処理を制御する処理を実行する。

ステップＳ７において、制御部３２は、ユーザから遠隔コミュニケーションの終了を指示する操作が行われたか否かを判定し、遠隔コミュニケーションの終了を指示する操作が行われたと判定するまで待機する。ステップＳ７において、ユーザから遠隔コミュニケーションの終了を指示する操作が行われたと判定された場合、処理はステップＳ８に進む。

ステップＳ８において、通信部２３は、セッション管理部８１からの制御に基づき、通信網２を介してコミュニケーション装置１−２に接続し、遠隔コミュニケーションの終了を通知する。この通知に対応して、コミュニケーション装置１−２は、遠隔コミュニケーションの終了の受諾を返信する。

ステップＳ９において、記憶部２７は、遠隔コミュニケーション記録処理を終了し、遠隔コミュニケーション処理は、終了する。なお、ここまでに記録された、再生されたコンテンツ、ユーザＡ等のリアルタイムデータに含まれる映像および音声、受信されたユーザＸのリアルタイムデータに含まれる映像および音声、並びに合成情報は、今後において、今回の遠隔コミュニケーションが再現されるときに利用される。

以上、コミュニケーション装置１−１による遠隔コミュニケーション処理の説明を終了する。

次に、上述した遠隔コミュニケーション処理のステップＳ６におけるユーザ特性分析ミキシング処理について詳しく説明する。

図６は、ユーザ特性分析ミキシング処理を行うデータ分析部２８の詳細な構成例を示している。なお、図６において、図４における場合と対応する部分には対応する符号を付してあり、その説明は繰り返しになるので省略する。

図６の例において、ユーザ特性分析部７１は、分析制御部１０１、姿勢情報分析部１０２、人数情報分析部１０３、音声情報分析部１０４、および環境情報分析部１０５により構成される。

分析制御部１０１は、合成制御部８４の制御のもと、ユーザの状態情報のうち、分析を行う対象の情報に応じた各部（姿勢情報分析部１０２、人数情報分析部１０３、音声情報分析部１０４、または環境情報分析部１０５）を制御し、入力されるユーザＡのリアルタイムデータおよびユーザＸのリアルタイムデータのうち、対象のリアルタイムデータから得られるユーザの状態情報（特性）を分析させ、分析結果を、制御情報生成部７２に供給する。

姿勢情報分析部１０２は、対象のリアルタイムデータの映像から抽出されるユーザの前後、または左右の姿勢情報に基づく分析処理を実行し、分析結果を分析制御部１０１に供給する。人数情報分析部１０３は、入力されるリアルタイムデータに基づいて、遠隔コミュニケーションに参加するユーザ数を分析し、分析結果を分析制御部１０１に供給する。音声情報分析部１０４は、対象のリアルタイムデータの音声から抽出される音声情報（例えば、音量や周波数特性）に基づく分析処理を実行し、分析結果を分析制御部１０１に供給する。

環境情報分析部１０５は、対象となるリアルタイムデータの明度や温度などユーザの環境情報に基づく分析処理を実行し、分析結果を分析制御部１０１に供給する。なお、環境情報には、明度や温度の他に、湿度、コミュニケーション装置１−１の移動に応じた加速度、位置情報、あるいは時間帯なども含めることができる。この場合、入力部２２には、入力する環境情報に応じたセンサなどが設けられたり、ＧＩＳ（Geographical Information System）機能が装置内に設けられる。

制御情報生成部７２は、分析制御部１０１からの分析結果に基づいて、コミュニケーション装置１−１の各部が実行する処理を制御する制御情報を生成し、生成した制御情報を、合成制御部８４、または電子機器制御部８８に供給する。また、制御情報生成部７２は、分析制御部１０１からの分析結果に基づいて、コミュニケーション相手のコミュニケーション装置１−２の各部が実行する処理を制御する制御情報を生成し、生成した制御情報を、操作情報出力部８７に供給する。

次に、図７および図８を参照して、ユーザ特性分析ミキシング処理における、リアルタイムデータを用いてのユーザの状態情報分析方法を具体的に説明する。なお、図７および図８の例は、姿勢情報分析部１０２により実行される分析結果に基づいて、制御情報生成部７２が制御情報を生成する処理である。

図７の例においては、ユーザＡは、コミュニケーション装置１−１を用いて、図３Ａを参照して上述したピクチャインピクチャの方式により、コミュニケーション装置１−２を操作するユーザＸと、図５のステップＳ５における遠隔コミュニケーション記録処理を行っている。

したがって、コミュニケーション装置１−１においては、入力部２２により、ユーザＡの映像、音声、明度、および温度などを含むリアルタイムデータが取得され、通信部２３を介して、コミュニケーション装置１−２に送信されており、コミュニケーション装置１−２からは、通信部２３を介して、ユーザＸのリアルタイムデータが受信されている。なお、図７の例においては、入力部２２として、カメラ５１が示されている。

そして、コミュニケーション装置１−１のディスプレイ４１には、再生中のコンテンツの映像２０２の右下部に、コミュニケーション相手であるユーザＸの映像が、子画面２０１として重畳されて表示されている。なお、ユーザ特性分析ミキシング処理を始める前の子画面２０１の透明度を、基準の透明度とする。

このとき、ユーザＡにより、操作入力部３１を用いて、ユーザ特性分析ミキシング処理の開始を指示する操作が行われる。

ユーザ特性分析部７１には、ユーザＡ、およびユーザＸのリアルタイムデータが入力されており、ユーザ特性分析部７１の姿勢情報分析部１０２は、そのうちのカメラ５１より入力されている、図８に示されるユーザＡの映像２１１から、輪郭情報Ｇ１を抽出し、ユーザＡの基準輪郭Ｇ０に基づいて、ユーザＡの前後の姿勢情報（姿勢の特性）を分析する。すなわち、姿勢情報分析部１０２は、ディスプレイ４１に対するユーザＡの前後の姿勢情報（ユーザＡの姿勢の前傾または後傾）に基づいて、再生中のコンテンツへのユーザＡの熱中度を分析する。

そして、制御情報生成部７２は、姿勢情報分析部１０２により分析された姿勢情報の分析結果に基づいて、映像の合成において、子画面２０１の透明度の度合いを制御する制御情報を生成し、さらに、音声の合成において、コンテンツの音声とユーザＸの音声の音量バランスを制御する制御情報も生成する。

基準輪郭Ｇ０は、姿勢情報分析部１０２により予め設定される。基準輪郭Ｇ０は、例えば、図７の基準姿勢（すなわち、基準輪郭を設定する際の姿勢）のユーザＡを、カメラ５１で撮影し、撮影された映像内から、動きベクトル解析などの方法により、ユーザＡを識別して、ユーザＡの基準姿勢の輪郭情報を取得することにより設定される。なお、基準輪郭Ｇ０は、ユーザＡに、ディスプレイ４１に表示される自分を確認させながら設定されるようにしてもよい。

姿勢情報分析部１０２は、ユーザＡの輪郭情報Ｇ１と基準輪郭Ｇ０の輪郭比ｅ（Ｇ１／Ｇ０）を求め、図８のグラフ２１２に示されるように、求めた輪郭比ｅに基づいて姿勢情報を分析する。

図８のグラフ２１２においては、縦軸は、姿勢情報を表しており、縦軸の中心の基準姿勢より上は、ユーザの姿勢が前傾姿勢（前）であることを表し、基準姿勢より下は、ユーザの姿勢が後傾姿勢（後）であることを表している。横軸は、輪郭比ｅの値を表しており、横軸の中心（１）よりも右が、輪郭比ｅの値が１よりも大きい（＋寄りの位置にある）ことを表し、横軸の中心よりも左が輪郭比ｅの値が１よりも小さい（−寄りの位置にある）ことを表している。

したがって、輪郭比ｅが１よりも小さい場合、すなわち、ユーザＡの輪郭情報Ｇ１が基準輪郭Ｇ０より小さい場合、姿勢情報分析部１０２は、ユーザＡの姿勢が基準姿勢より後傾しているため、ユーザＡが再生中のコンテンツに冷めていると分析する。制御情報生成部７２は、その分析に基づいて、子画面２０１Ｂに示されるように、基準の子画面２０１の透明度と比較して、子画面２０１Ｂの透明度を低く、すなわち、ユーザＸの映像を濃く表示させるように映像を合成する制御情報とともに、ユーザＸの音声の音量を大きくするように音声を合成する制御情報を生成する。

一方、データ分析部２８は、輪郭比ｅが１よりも大きい場合、すなわち、ユーザＡの輪郭情報Ｇ１が基準輪郭Ｇ０より大きい場合、姿勢情報分析部１０２は、ユーザＡの姿勢が基準姿勢より前傾しているため、ユーザＡが再生中のコンテンツに熱中していると分析する。制御情報生成部７２は、その分析に基づいて、子画面２０１Ｆに示されるように、基準の子画面２０１の透明度と比較して、子画面２０１Ｆの透明度を高く、すなわち、ユーザＸの映像を薄く表示させるように映像を合成する制御情報とともに、ユーザＸの音声の音量を小さくするように音声を合成する制御情報を生成する。

なお、図７の例の場合、子画面２０１の透明度の度合いを設定するようにしたが、子画面２０１の大きさを設定するようにしてもよい。

以上のように、ユーザＡが前傾姿勢の場合、ユーザＸの映像を目立たないように表示（合成）させるようにしたので、ユーザＡは、子画面表示の設定を行うことなく、簡単に、コンテンツを視聴しやすい環境を得ることができる。また、ユーザＡが後傾姿勢の場合、ユーザＸの映像を目立つようにしたので、ユーザＡは、簡単に、ユーザＸとのコミュニケーションを行いやすい環境を得ることができる。

なお、図８の例の場合、ユーザＡの前後の姿勢情報を、ユーザＡの映像からの輪郭抽出により分析するようにしたが、分析方法は、これに限らず、例えば、ディスプレイ４１の左右に２台のカメラ５１を設置し、２台のカメラ５１からの映像を用いてステレオ視により姿勢情報を抽出して分析を行うようにしてもよいし、また、ディスプレイ４１の近傍に赤外線センサを設置し、赤外線を用いての３次元測距方式により姿勢情報を抽出して分析を行うようにしてもよい。

次に、図９および図１０を参照して、リアルタイムデータを用いてのユーザの状態情報の分析方法の他の例を具体的に説明する。なお、図９および図１０の例は、図７および図８の処理の他の例であり、姿勢情報分析部１０２により実行される分析結果に基づいて、制御情報生成部７２が制御情報を生成する例である。

図９の例においては、ユーザＡは、コミュニケーション装置１−１を用いて、図３Ａを参照して上述したピクチャインピクチャの方式により、コミュニケーション装置１−２を操作するユーザＸ、および図示せぬ他のコミュニケーション装置１−３を操作するユーザＹと、図５のステップＳ５における遠隔コミュニケーション記録処理を行っている。

したがって、コミュニケーション装置１−１においては、入力部２２により、ユーザＡの映像、音声、明度、および温度などを含むリアルタイムデータが取得され、通信部２３を介して、コミュニケーション装置１−２および１−３に送信されており、コミュニケーション装置１−２および１−３からは、通信部２３を介して、ユーザＸおよびユーザＹのリアルタイムデータが受信されている。なお、図９の例においては、入力部２２として、カメラ５１が示されている。

そして、コミュニケーション装置１−１のディスプレイ４１には、再生中のコンテンツの映像２２３に、コミュニケーション相手であるユーザＸの映像が、子画面２２１（コンテンツの映像の右側）として重畳され、ユーザＹの映像が、子画面２２２（コンテンツの映像の左側）として重畳されて表示されている。なお、ユーザ特性分析ミキシング処理を始める前の子画面２２１および子画面２２２の大きさを、それぞれ基準の大きさとする。

ユーザ特性分析部７１には、ユーザＡ、ユーザＸ、およびユーザＹのリアルタイムデータが入力されており、ユーザ特性分析部７１の姿勢情報分析部１０２は、そのうちのカメラ５１より入力されている、図１０に示されるユーザＡの映像２３１から、頭部位置Ｈ１を抽出し、ユーザＡの基準頭部位置Ｈ０に基づいて、ユーザＡの姿勢情報を分析する。すなわち、姿勢情報分析部１０２は、ディスプレイ４１に対するユーザＡの左右の姿勢情報が、子画面２２１および２２２に表示されるユーザへの向きを表すと分析し、ユーザＡの姿勢の左右位置を分析する。

そして、制御情報生成部７２は、姿勢情報分析部１０２により分析された姿勢情報の分析結果に基づいて、映像の合成において、子画面２２１および２２２の大きさ（表示サイズ）の度合いを制御する制御情報とともに、音声の合成において、コンテンツの音声とユーザＸおよびユーザＹの音声の音量バランスを制御する制御情報も生成する。

基準頭部位置Ｈ０は、姿勢情報分析部１０２により予め設定される。基準頭部位置Ｈ０は、例えば、図８を参照して上述した基準輪郭の設定方法と同様に、図９の基準姿勢（すなわち、基準頭部位置を設定する際の姿勢）のユーザＡを、カメラ５１で撮影し、撮影された映像内から、動きベクトル解析などの方法により、ユーザＡを識別して、ユーザＡの基準姿勢の頭部位置情報を取得することにより設定される。

姿勢情報分析部１０２は、ユーザＡの頭部位置Ｈ１と基準頭部位置Ｈ０を比較し、図１０のグラフ２３２に示されるように、横軸において、基準頭部位置Ｈ０を０として、姿勢情報を分析する。

図１０のグラフ２３２においては、縦軸は、姿勢情報を表しており、縦軸の中心の基準姿勢より上は、右寄り姿勢を表し、基準姿勢より下は、左寄り姿勢を表している。横軸は、基準頭部位置Ｈ０に対する頭部位置Ｈ１を表しており、横軸の中心（０）よりも右が、頭部位置Ｈ１が基準頭部位置Ｈ０よりも大きい（＋寄りの位置にある）ことを表し、横軸の中心よりも左が、頭部位置Ｈ１が基準頭部位置Ｈ０よりも小さい（−寄りの位置にある）ことを表している。なお、図１０のユーザＡの映像２３１においては、図９のディスプレイ４１を視聴するユーザＡと左右の方向が逆に示されている。すなわち、映像２３１の−側は、図９の左を表し、＋側は、図９の右を表す。

したがって、頭部位置Ｈ１が０よりも小さい場合、すなわち、ユーザＡの頭部位置Ｈ１が基準頭部位置Ｈ０より−寄りの位置にある場合、姿勢情報分析部１０２は、ユーザＡの姿勢が基準姿勢より左寄り姿勢であり、ユーザＡが、ディスプレイ４１（コンテンツの映像の）の左側の子画面２２２に表示されるユーザＹの方を向いていると分析する。制御情報生成部７２は、その分析に基づいて、子画面２２２Ｌに示されるように、子画面２２２Ｌの大きさを、基準の子画面２２２より大きく表示させるように映像を合成する制御情報とともに、ユーザＹの音声の音量を大きくするように音声を合成する制御情報を生成する。また、このとき、制御情報生成部７２は、他方の子画面２２１Ｓに示されるように、子画面２２１Ｓの大きさを、基準の子画面２２１より小さく表示させるように映像を合成する制御情報とともに、ユーザＸの音声の音量を小さくするように音声を合成する制御情報を生成する。

一方、頭部位置Ｈ１が０よりも大きい場合、すなわち、ユーザＡの頭部位置Ｈ１が基準頭部位置Ｈ０より＋寄りの位置にある場合、姿勢情報分析部１０２は、ユーザＡの姿勢が基準姿勢より右寄りしているため、ユーザＡが、ディスプレイ４１（コンテンツの映像）の右側の子画面２２１に表示されるユーザＹの方を向いていると分析する。制御情報生成部７２は、その分析に基づいて、子画面２２１Ｌに示されるように、子画面２２１Ｌの大きさを、基準の子画面２２１より大きく表示させるように映像を合成する制御情報とともに、ユーザＹの音声の音量を大きくするように音声を合成する制御情報を生成する。また、このとき、制御情報生成部７２は、他方の子画面２２２Ｓに示されるように、子画面２２２Ｓの大きさを、基準の子画面２２２より小さく表示させるように映像を合成する制御情報とともに、ユーザＸの音声の音量を小さくするように音声を合成する制御情報を生成する。

以上のように、図９および図１０の例においては、ユーザＡが左寄り姿勢の場合、ユーザＹの映像を目立つように、ユーザＸの映像を目立たないように表示（合成）させるようにしたので、ユーザＡにとって、そのとき会話しているユーザＹの表情や、身振り手振りなどが見やすくなるため、ユーザＡは、ユーザＹとのコミュニケーションを行いやすい環境を得ることができる。逆に、ユーザＡが右寄り姿勢の場合、ユーザＸの映像を目立つように、ユーザＹの映像を目立たないように表示（合成）させるようにしたので、ユーザＡにとって、そのとき会話しているユーザＸの表情や、身振り手振りなどが見やすくなるため、ユーザＡは、ユーザＸとのコミュニケーションを行いやすい環境を得ることができる。

これにより、ユーザに対して、会話を行うユーザに向かって話すという、実際の対話式のコミュニケーションと同様な感覚を与えることができ、自然で活発なコミュニケーションが提供される。

なお、図１０の例の場合、ユーザＡの左右の姿勢情報を、ユーザＡの映像からの頭部位置を抽出することにより分析するようにしたが、例えば、ユーザＡの目、鼻および口などの分布情報や視線情報を検出することにより、ユーザＡの左右の姿勢情報を分析するようにしてもよい。

以上、図７乃至図１０の例においては、ユーザＡのリアルタイムデータのユーザの状態情報（いまの場合、ユーザの映像）を用いて分析処理を行う例について説明したが、ユーザＡのリアルタイムデータだけでなく、遠隔地のコミュニケーション装置から送信されてくるコミュニケーション相手である、他のユーザのリアルタイムデータから得られるユーザの状態情報を分析することによりユーザＡのコミュニケーション装置１−１を制御することもできる。

次に、図１１および図１２を参照して、複数のリアルタイムデータを用いてのユーザの状態情報の分析方法を具体的に説明する。なお、図１１および図１２の例は、人数情報分析部１０３および音声情報分析部１０４により実行される分析結果に基づいて、制御情報生成部７２が制御情報を生成する処理の例である。

図１１の例においては、ユーザＡは、コミュニケーション装置１−１を用いて、図３Ａを参照して上述したピクチャインピクチャの方式により、コミュニケーション装置１−２を操作するユーザＸ、コミュニケーション装置１−３を操作するユーザＹ、並びに、コミュニケーション装置１−４を操作するユーザＺの計４人で、図５のステップＳ５における遠隔コミュニケーション記録処理を行っている。

したがって、コミュニケーション装置１−１においては、入力部２２により、ユーザＡの映像、音声、明度、および温度などを含むリアルタイムデータが取得され、通信部２３を介して、コミュニケーション装置１−２乃至１−４に送信されており、コミュニケーション装置１−２乃至１−４からは、通信部２３を介して、ユーザＸ、ユーザＹ、およびユーザＺのリアルタイムデータが受信されている。なお、図１１の例においては、入力部２２として、マイク５２が示されている。

そして、コミュニケーション装置１−１のディスプレイ４１には、再生中のコンテンツの映像２５４に、図中左から、コミュニケーション相手であるユーザＹの映像が、子画面２５２（コンテンツの映像の右下部）として重畳され、ユーザＸの映像が、子画面２５１（コンテンツの映像の中央下部）として重畳され、ユーザＺの映像が、子画面２５３（コンテンツの映像の左下部）として重畳されて表示されている。

ユーザ特性分析部７１には、ユーザＡ、ユーザＸ、ユーザＹ、およびユーザＺのリアルタイムデータが入力されており、ユーザ特性分析部７１の人数情報分析部１０３は、何人のユーザが遠隔コミュニケーション処理に参加しているのかを分析し、さらに、音声情報分析部１０４は、ユーザＡ、ユーザＸ、ユーザＹ、およびユーザＺのリアルタイムデータの音声から、音量や周波数特性などの音声情報（音声特性）を抽出し、抽出した音量や周波数特性に基づいて、コミュニケーションにおけるユーザの活性度（すなわち、盛り上がり指数）を分析する。そして、制御情報生成部７２は、音声情報分析部１０４により分析された音声情報の分析結果に基づいて、コンテンツの映像に合成される子画面２５１乃至２５３の大きさ、透明度、または画面効果を制御する制御情報を生成する。

図１２のグラフ２６１の横軸は、時間の経過を表しており、グラフ２６１は、上から順に、所定の時刻における、ユーザＡ、ユーザＸ、ユーザＹ、およびユーザＺの音量を表しており、音量は、上に行くほど、音量が大きいことを表している。また、グラフ２６２の横軸は、時間の経過を表しており、縦軸は、グラフ２６１に表される音量の度合いに基づいて分析（推定）される、所定の時刻における各ユーザの相対的な活性度を表しており、縦軸の中心の基準値より上に行くほど活性度が高いことを表している。

すなわち、グラフ２６１において、ユーザＡの音量は、時刻ｔ０の前は、ユーザＹやユーザＺよりも小さいが、ａに示されるように、時刻ｔ０の後において、音量が大きくなっている時間がユーザＹやユーザＺよりも多い。したがって、グラフ２６２において、ユーザＡの活性度は、時刻ｔ０の前では、基準値より低いが、時刻ｔ０を過ぎてから基準値よりも高くなると分析される。

グラフ２６１において、ユーザＸの音量は、時刻ｔ０の前には、ユーザＡ、ユーザＹ、およびユーザＺよりも小さい状態が継続しているが、ｘに示されるように、時刻ｔ０の後において、ユーザＡ、ユーザＹ、およびユーザＺよりも音量が大きい状態が長く継続している。したがって、グラフ２６２に示されるように、ユーザＸの活性度は、時刻ｔ０の前には、ユーザＡ、ユーザＹ、およびユーザＺより低く、基準値より低いと分析され、時刻ｔ０を過ぎてから基準値だけでなく、ユーザＡ、ユーザＹ、およびユーザＺより高くなると分析される。

グラフ２６１において、ユーザＹの音量は、時刻ｔ０の前には、大きい時間がユーザＡおよびユーザＸよりも多いが、ｙに示されるように、時刻ｔ０の後において、音量が大きい状態が２箇所ほどあるが、大きい状態がユーザＡやユーザＸより継続していない。したがって、グラフ２６２に示されるように、ユーザＹの活性度は、時刻ｔ０の前には、ユーザＡおよびユーザＸより、そして、基準値より少し高いが、時刻ｔ０を過ぎてから基準値より少し低くなると分析される。

グラフ２６１において、ユーザＺの音量は、時刻ｔ０の前には、ユーザＡ、ユーザＸ、およびユーザＹよりも大きい状態が継続しているが、ｚに示されるように、時刻ｔ０の後において、ユーザＡ、ユーザＸ、およびユーザＹよりも音量が小さい状態が継続している。したがって、グラフ２６２に示されるように、ユーザＺの活性度は、時刻ｔ０の前には、ユーザＡ、ユーザＸ、およびユーザＹよりより高く、基準値より高いと分析され、時刻ｔ０を過ぎてから基準値だけでなく、ユーザＡ、ユーザＸ、およびユーザＹよりより低くなると分析される。

以上の分析により、ユーザＡ、ユーザＹ、およびユーザＺと比較して、ユーザＸが最大音量を継続する状態が続くと分析されると、制御情報生成部７２は、図１１の矢印Ｐ１に示されるように、ユーザＸの映像が出力される子画面２５１の大きさを、他の子画面２５２および２５３よりも大きく表示させるように映像を合成する制御情報を生成する。また、ユーザＡ、ユーザＸ、およびユーザＹと比較して、ユーザＺの音量が小さい状態であり、沈黙状態に近いと分析されると、矢印Ｐ２に示されるように、ユーザＸの映像が出力される子画面２５３の大きさを、他の子画面２５１および２５２よりも小さく、または、薄く表示させるように映像を合成する制御情報を生成する。

なお、例えば、ユーザＡ、ユーザＸ、ユーザＹ、およびユーザＺのリアルタイムデータの音声から、周波数特性が抽出され、ユーザＡ、ユーザＹ、およびユーザＺと比較して、ユーザＸの周波数特性が高い状態が継続すると分析されると、制御情報生成部７２は、ユーザＸの映像が出力される子画面２５１に対して、点滅などの画面効果を出す制御情報を生成するようにすることも可能である。

以上のように、図１１および図１２の例においては、ユーザＡ自身の音声から抽出される音声情報だけでなく、コミュニケーション相手の音声から抽出される音声情報も分析し、その分析結果に基づいて、コミュニケーションにおいて一番活性度の高い（すなわち、興奮している）ユーザの子画面を大きくするなど、各ユーザが表示される子画面の合成を制御するようにしたので、そのときのコミュニケーションの状況に応じたコミュニケーションを行いやすい環境を得ることができる。もちろん、自分自身の音声情報は、分析せずにコミュニケーション相手の音声情報のみを分析するようにしてもよい。

また、図１１および図１２の例においては、子画面の表示（合成）制御情報とともに、音声出力の大小に関する制御情報も生成されるようにしてもよい。さらに、図１１および図１２の例においては、音声に基づいて分析する場合を説明したが、映像などの他のユーザ状態情報に基づいて分析することも可能である。映像の場合、例えば、他のユーザのリアルタイムデータの映像から、他のユーザの視線情報を抽出し、抽出した視線情報に基づいて、ユーザの会話の対象の子画面などの分析が可能である。

なお、図１１および図１２の例のように、コミュニケーション相手のリアルタイムデータから得られるユーザ状態情報を分析するということは、換言すると、コミュニケーション相手の動作や環境などに応じて、他のユーザＡのコミュニケーション装置１−１が制御されてしまうともいえる。このため、ユーザＡが望まない操作や効果が発生してしまう場合も生じる。これを抑制するために、ユーザＡのコミュニケーション装置１−１においては、図１３を参照して後述するように、他のユーザからのリアルタイムデータを分析しないように設定されたり、または、他のユーザのリアルタイムデータの分析結果から生成される制御情報が制限される。

以上の説明においては、ピクチャインピクチャの方式を用いて説明したが、本発明は、ピクチャインピクチャの方式に限らず、図３Ｂおよび図３Ｃを参照して上述したクロスフェイドの方式およびワイプの方式、さらに、その他の合成パターンでも適用される。

また、上記説明においては、コミュニケーション相手の映像および音声を、コンテンツの映像およびに合成する場合のみ説明したが、入力部２２より入力されたユーザＡの映像および音声も、コンテンツの映像および音声に合成するようにしてもよい。

次に、図１３のフローチャートを参照して、図５のステップＳ６のユーザ特性分析ミキシング処理について説明する。

図５のステップＳ５においては、コミュニケーション記録処理が開始され、合成制御部８４は、ユーザの操作に基づいて予め設定されている合成パターンおよび合成パラメータに基づいて、映像音声合成部２６の合成処理を制御する処理を実行しており、データ分析部２８には、再生されたコンテンツ、入力されるユーザＡ等のリアルタイムデータ、および受信されたユーザＸのリアルタイムデータが、入力されている。

ユーザＡにより、操作入力部３１を用いて、ユーザ特性分析ミキシング処理の開始を指示する操作が行われる。操作入力部３１は、ユーザＡの操作に対応する操作信号を、合成制御部８４に供給する。合成制御部８４は、操作入力部３１からの操作信号を入力すると、ステップＳ２１において、ユーザ特性分析ミキシング処理を開始するか否かを判定し、ユーザ特性分析ミキシング処理を開始すると判定した場合、ステップＳ２２に進み、分析対象として、他のユーザのリアルタイムデータも使用するか否かを判定し、分析対象として、他のユーザのリアルタイムデータも使用しないと判定した場合、ステップＳ２３に進む。

分析対象として、他のユーザのリアルタイムデータも使用するか否かは、処理前に予め設定されている。この設定は、もちろん、ユーザＡにより操作入力部３１を操作することにより変更可能である。

分析制御部１０１は、ステップＳ２３において、合成制御部８４の制御のもと、人数情報分析部１０３、音声情報分析部１０４、および環境情報分析部１０５のうちのいずれかを制御し、ユーザＡ（自分自身）のリアルタイムデータから得られるユーザ状態情報（特性）を分析させ、分析結果を制御情報生成部７２に供給させ、ステップＳ２４に進む。

ステップＳ２４において、制御情報生成部７２は、分析制御部１０１からの分析結果に基づいて、制御情報を生成し、生成した制御情報を、合成制御部８４、操作情報出力部８７、または電子機器制御部８８に供給し、ステップＳ２８に進む。

ステップＳ２３およびＳ２４の処理を具体的に説明すると、例えば、分析制御部１０１は、姿勢情報分析部１０２を制御し、ユーザＡのリアルタイムデータの映像から姿勢情報を抽出させ、図７乃至図１０を参照して上述したように、ユーザの前後、または左右の姿勢情報を分析し、分析結果を制御情報生成部７２に供給する。制御情報生成部７２は、コンテンツの映像および音声、並びに、コミュニケーション相手であるユーザＸの映像および音声を合成する映像音声合成部２６を制御するための制御情報（すなわち、合成パターンおよび合成パラメータを設定するための情報）を生成し、合成制御部８４に供給する。

また、例えば、分析制御部１０１は、環境情報分析部１０５を制御し、ユーザＡのリアルタイムデータの明度に基づいて、ユーザＡの周囲の環境が暗いか明るいかを分析し、分析結果を制御情報生成部７２に供給する。分析制御部１０１によりユーザＡの周囲の環境が暗いと分析された場合、制御情報生成部７２は、コミュニケーション装置１−１の周辺に位置する照明機器（図示せぬ）の設定を明るくする制御情報を生成し、電子機器制御部８８に供給する。

これに対応して、後述するステップＳ２９において、電子機器制御部８８は、生成された制御情報に基づいて、照明機器を明るくする設定をする。これにより、例えば、ディスプレイ４１に集中しすぎて部屋を明るくすることを忘れていたユーザが、暗いところで、アニメなどのコンテンツを見てしまい、気分が悪くなるようなことが抑制される。

一方、ステップＳ２２において、分析対象として、他のユーザのリアルタイムデータも使用すると判定した場合、ステップＳ２５に進む。

分析制御部１０１は、ステップＳ２５において、合成制御部８４の制御のもと、人数情報分析部１０３、音声情報分析部１０４、および環境情報分析部１０５のうちのいずれかを制御し、ユーザＡ（自分自身）およびコミュニケーション相手のリアルタイムデータから得られるユーザ状態情報を分析させ、分析結果を制御情報生成部７２に供給させ、ステップＳ２６に進む。

ステップＳ２６において、制御情報生成部７２は、分析制御部１０１からの分析結果に基づいて、制御情報を生成し、ステップＳ２７において、生成された制御情報を拒否するか否かを判定し、生成された制御情報を拒否しないと判定した場合、生成された制御情報を、合成制御部８４、操作情報出力部８７、または電子機器制御部８８に供給し、ステップＳ２８に進む。すなわち、コミュニケーション相手のリアルタイムデータの分析に基づいて実行される制御は、ユーザが望まない操作や効果を発生させる場合、拒否することが可能である。

ステップＳ２５乃至Ｓ２７の処理を具体的に説明すると、例えば、分析制御部１０１は、人数情報分析部１０３および音声情報分析部１０４を制御し、ユーザＡおよびコミュニケーション相手のリアルタイムデータの音声から、コミュニケーション相手の人数や、音量および周波数特性などの音声情報を抽出し、音声情報に基づいて、図１１および図１２を参照して上述したように、コミュニケーションにおけるユーザの活性度（すなわち、盛り上がり指数）を分析し、分析結果を制御情報生成部７２に供給する。制御情報生成部７２は、コンテンツの映像および音声、並びに、コミュニケーション相手であるユーザＸ、ユーザＹ、並びにユーザＺの映像および音声を合成する映像音声合成部２６を制御するための制御情報（すなわち、合成パターンおよび合成パラメータを設定するための情報）を生成し、その制御情報が拒否の対象とならなければ、生成した制御情報を、合成制御部８４に供給する。

また、例えば、分析制御部１０１は、音声情報分析部１０４を制御し、ユーザＡおよびコミュニケーション相手のリアルタイムデータの音声から、ユーザＡの環境音と、コミュニケーション相手の話し声を比較分析し、分析結果を、制御情報生成部７２に供給する。分析制御部１０１によりユーザＡの環境音に対してコミュニケーション相手の話し声が静かであると分析された場合、制御情報生成部７２は、スピーカ４２のボリュームを大きくする制御情報を生成し、その制御情報が拒否の対象とならなければ、生成した制御情報を、電子機器制御部８８に出力する。

なお、このとき、さらに、コミュニケーション相手（例えば、ユーザＸ）の環境音と、ユーザＡの話し声を比較分析し、ユーザＸが使用するコミュニケーション装置１−２のスピーカ４２のボリュームを大きくする制御情報を生成し、操作情報出力部８７に供給し、コミュニケーション装置１−２に送信するようにしてもよい。また、このとき、スピーカのボリュームではなく、合成の音声そのものを制御するようにすることも可能である。

これに対応して、後述するステップＳ２９において、電子機器制御部８８は、生成された制御情報に基づいて、スピーカ４２のボリュームを大きく設定する。これにより、例えば、騒音が大きい環境で話していることで、自然に大きくなってしまう声（音声情報）を、静かな環境にある相手側のコミュニケーション装置においては、小さく出力することができたり、逆に、静かな環境でぼそぼそ話してしまう声を、騒音が大きい環境にある相手側のコミュニケーション装置においては、大きく出力することができ、相互の環境に応じたコミュニケーションを、簡単に、実現することができる。

さらに、例えば、分析制御部１０１は、姿勢情報分析部１０２を制御し、ユーザＡおよびコミュニケーション相手のリアルタイムデータから映像から、コミュニケーション相手の姿勢情報を抽出させ、姿勢情報を分析し、分析結果を、制御情報生成部７２に供給する。制御情報生成部７２は、分析制御部１０１により、コミュニケーション相手の輪郭が、基準輪郭より大きくなった、すなわち、コミュニケーション装置１−２のディスプレイ４１に近づいてきたと分析された場合、制御情報生成部７２は、コミュニケーション相手が表示される子画面を大きく表示させるように映像を合成する制御情報を生成し、その制御情報が拒否の対象とならなければ、生成した制御情報を、合成制御部８４に出力する。

これに対応して、後述するステップＳ２８において、合成制御部８４は、生成された制御情報に基づいて、映像音声合成部６２を制御する。これによりコミュニケーション相手が、ディスプレイ４１に近づくことにより、ユーザＡの興味を引かせるような効果を発生させることができる。

図１３に戻って、ステップＳ２８において、合成制御部８４は、制御情報生成部７２からの制御情報に応じて、映像音声合成部２６の合成パターンや合成パラメータを設定し、映像音声合成部２６に、コンテンツの映像および音声、並びに、コミュニケーション相手であるユーザの映像および音声を合成させ、ステップＳ２９に進む。

これにより、出力部２１を構成するディスプレイ４１には、コンテンツの映像およびコミュニケーション相手であるユーザの映像が、ユーザ特性分析部７１により分析され、制御情報生成部７２により生成された制御情報に応じて表示される。また、出力部２１を構成するスピーカ４２には、コンテンツの音声およびコミュニケーション相手であるユーザの音声が、ユーザ特性分析部７１により分析され、制御情報生成部７２により生成された制御情報に応じて出力される。

そして、再生が開始されたコンテンツデータ、送信されたユーザＡ等のリアルタイムデータに含まれる映像および音声、受信されたユーザＸのリアルタイムデータに含まれる映像および音声とともに、制御情報生成部７２により生成された制御情報に応じて変更された合成パターンおよび合成パラメータが合成情報として記録される。

ステップＳ２９において、電子機器制御部８８は、制御情報生成部７２からの制御情報に応じて、コミュニケーション装置１−１の各部（例えば、スピーカ４２）の設定音量を制御したり、コミュニケーション装置１−１の周囲に位置する照明機器の設定を明るくするように制御し、ステップＳ３０に進む。

ステップＳ３０において、操作情報出力部８７は、制御情報生成部７２から、ユーザＸが使用するコミュニケーション装置１−２への制御情報を受けると、制御情報を、通信部２３、および通信網２を介して、コミュニケーション装置１−２に送信し、ステップＳ３１に進む。なお、制御情報を受信したコミュニケーション装置１−２の処理は、後述する。

ユーザＡにより、操作入力部３１を用いて、ユーザ特性分析ミキシング処理の終了を指示する操作が行われる。操作入力部３１は、ユーザＡの操作に対応する操作信号を、合成制御部８４に供給する。合成制御部８４は、操作入力部３１からの操作信号を入力すると、ステップＳ３１において、ユーザ特性分析ミキシング処理を終了するか否かを判定し、ユーザ特性分析ミキシング処理を終了すると判定された場合、ユーザ特性分析ミキシング処理を終了し、図５のステップＳ６に戻り、ステップＳ７に進む。

一方、ステップＳ２１において、ユーザ特性分析ミキシング処理を開始しないと判定された場合、ステップＳ２７において、制御情報を拒否すると判定された場合、もしくは、ステップＳ３１において、ユーザ特性分析ミキシング処理を終了すると判定された場合、ユーザ特性分析ミキシング処理は終了され、処理は、図５のステップＳ６に戻り、ステップＳ７に進む。すなわち、合成制御部８４は、ステップＳ７で遠隔コミュニケーション処理が終了するまで、ユーザの操作に基づいて予め設定されている合成パターンおよび合成パラメータでの映像音声合成部２６の合成処理を制御する処理を継続する。

以上のように、ユーザのリアルタイムデータである映像、音声、明度、または温度などのユーザの状態情報を分析し、分析結果に応じて、コンテンツの映像および音声、ならびにコミュニケーション相手の映像および音声の合成を制御したり、あるいは、コミュニケーション装置の各部の設定を制御するようにしたので、ユーザの状態がリアルタイムに反映されるコミュニケーションを行うことができる。したがって、遠隔地にいながらも対面でコミュニケーションを行っているような効果が引き出される。

また、ユーザにとって、わずらわしく、かつ設定が難しいとされる、これらのコミュニケーション装置の各設定をユーザの好みに設定することを、ユーザの状態に応じて簡単に行うことができるので、ユーザは、設定にかかる手間を省くことができる。

さらに、コミュニケーション相手のコミュニケーション装置も制御することができる。

次に、図１４のフローチャートを参照して、図１３のステップＳ３０においてコミュニケーション装置１−１から送信された制御情報を受信する、コミュニケーション装置１−２の制御情報受信処理について説明する。

なお、図１４の制御情報受信処理は、コミュニケーション装置１−２が、図５のステップＳ５の後において遠隔コミュニケーション記録処理を行っている間に実行される処理である。すなわち、この処理は、他のコミュニケーション装置１−１によるコンテンツ特性分析結果に応じて、ミキシング処理を行う処理であり、換言すると、ステップＳ６のコンテンツ特性分析ミキシング処理の他の処理である。

ステップＳ５１において、コミュニケーション装置１−２の通信部２３は、コミュニケーション装置１−１の操作情報出力部８７から送信されてくる制御情報を受信すると、セッション管理部８１に供給する。

ステップＳ５２において、セッション管理部８１は、コミュニケーション装置１−１からの制御情報が、ユーザが望まない操作や効果を発生させるものである場合、制御情報を拒否すると判定し、制御情報受信処理を終了する。

なお、コミュニケーション装置１−１からの制御情報の受付または拒否は、コミュニケーション装置１−２において設定することが可能であり、制御情報を一切受け付けないと設定することも可能である。また、受け付けた場合、自分自身のコミュニケーション装置において分析され、生成された制御情報の排他制御のため、優先度を設けたり、あるいは、コミュニケーション装置の間で、マスタとスレーブの関係を予め設定するようにしてもよい。

一方、ステップＳ５２において、セッション管理部８１は、コミュニケーション装置１−１からの制御情報を拒否しないと判定した場合、その制御情報を、合成制御部８４または電子機器制御部８８に供給し、ステップＳ５３に進む。

ステップＳ５３において、合成制御部８４は、制御情報生成部７２からの制御情報に応じて、映像音声合成部２６の合成パターンや合成パラメータを設定し、映像音声合成部２６に、コンテンツの映像および音声、並びに、コミュニケーション相手であるユーザの映像および音声を合成させ、ステップＳ５４に進む。

ステップＳ５４において、電子機器制御部８８は、制御情報に基づいて、コミュニケーション装置１−２の各部、または、コミュニケーション装置１−２の近傍に位置する電子機器などを制御し、制御情報受信処理を終了する。

以上のように、自分自身のユーザ特性分析部７１において分析され、制御情報生成部７２において生成された制御情報だけでなく、他のコミュニケーション装置のユーザ特性分析部７１において分析され、制御情報生成部７２において生成された制御情報も利用することができ、さらに、それを拒否することも可能である。

なお、上記説明においては、各コミュニケーション装置にデータ分析部２８を設置する場合を説明したが、通信網２に、サーバを設置し、そのサーバに、データ分析部２８を設け、制御情報を各コミュニケーション装置に提供するようにしてもよいし、サーバに、ユーザ特性分析部７１のみを設け、分析情報を各コミュニケーション装置に提供するようにしてもよい。

以上のように、遠隔コミュニケーション処理が実行されるので、従来の音声電話機、ＴＶ電話機、または、ビデオ会議システムのような遠隔地コミュニケーション装置と比較して、より活発で自然なコミュニケーションが実現される。

すなわち、従来においては、従来のＴＶ装置で、リアルタイムで配信される放送コンテンツ視聴するユーザＸが、遠隔地にいるユーザＡに音声電話機を使用して、放送コンテンツを視聴した感想を伝えた場合、実際に放送コンテンツを見ていないユーザＡには、状況の理解が困難である場合があった。

しかしながら、本発明のコミュニケーション装置を用いることにより、遠隔地にいるユーザＡとユーザＸが同じ時刻に同じコンテンツを共用することができ、さらに、子画面などにおいて、お互いの映像や音声も同時に再生されるので、遠隔地にいるにも関わらず、あたかも対面でコミュニケーションを行っているような臨場感、一体感、または親近感などを得ることができる。

さらに、ユーザの映像から抽出される、ユーザの姿勢情報や顔の向きなどの映像情報、ユーザの音声から抽出される、歓声、拍手などの音声情報、ユーザの周囲の環境の明度や温度から抽出される環境情報などを用いて、コンテンツとユーザの映像および音声の合成処理などを制御するようにしたので、ユーザの状態、またはユーザのコミュニケーションの状況などに応じて、コミュニケーション装置の各パラメータを、手間をかけることなく、簡単に設定することができる。これにより、さらに、活発で自然なコミュニケーションが実現される。

上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。この場合、例えば、図１のコミュニケーション装置１−１および１−２は、図１５に示されるようなパーソナルコンピュータ４０１により構成される。

図１５において、ＣＰＵ（Central Processing Unit）４１１は、ＲＯＭ(Read Only Memory) ４１２に記憶されているプログラム、または、記憶部４１８からＲＡＭ（Random Access Memory）４１３にロードされたプログラムに従って各種の処理を実行する。ＲＡＭ４１３にはまた、ＣＰＵ４１１が各種の処理を実行する上において必要なデータなどが適宜記憶される。

ＣＰＵ４１１、ＲＯＭ４１２、およびＲＡＭ４１３は、バス４１４を介して相互に接続されている。このバス４１４にはまた、入出力インタフェース４１５も接続されている。

入出力インタフェース４１５には、キーボード、マウスなどよりなる入力部４１６、ＣＲＴ(Cathode Ray Tube)，ＬＣＤ（Liquid Crystal Display）などよりなるディスプレイ、並びにスピーカなどよりなる出力部４１７、ハードディスクなどより構成される記憶部４１８、モデム、ターミナルアダプタなどより構成される通信部４１９が接続されている。通信部４１９は、無線などのネットワークを介しての通信処理を行う。

入出力インタフェース４１５にはまた、必要に応じてドライブ４２０が接続され、磁気ディスク４２１、光ディスク４２２、光磁気ディスク４２３、或いは半導体メモリ４２４などが適宜装着され、それから読み出されたコンピュータプログラムが、必要に応じて記憶部４１８にインストールされる。

一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば、汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。

この記録媒体は、図１５に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク４２１（フレキシブルディスクを含む）、光ディスク４２２（CD-ROM(Compact Disk-Read Only Memory)，ＤＶＤ(Digital Versatile Disk)を含む）、光磁気ディスク４２３（MD(Mini-Disk)（商標）を含む）、もしくは半導体メモリ４２４などよりなるパッケージメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているＲＯＭ４１２や、記憶部４１８に含まれるハードディスクなどで構成される。

なお、本明細書において、フローチャートに示されるステップは、記載された順序に従って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

なお、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

本発明のコミュニケーションシステムの構成例を示す図である。図１のコミュニケーションシステムにおいて用いられる映像の例を示す図である。コンテンツとユーザの映像の合成パターンの例を示す図である。図１のコミュニケーション装置の構成例を示すブロック図である。図１のコミュニケーション装置の遠隔コミュニケーション処理を説明するフローチャートである。図４のデータ分析部の詳細な構成例を示す図である。ユーザ状態情報の分析方法の一例を説明する図である。ユーザ状態情報の分析方法の一例を説明する図である。ユーザ状態情報の分析方法の他の例を説明する図である。ユーザ状態情報の分析方法の他の例を説明する図である。複数のリアルタイムデータを用いてのユーザ状態情報の分析方法の例を説明する図である。複数のリアルタイムデータを用いてのユーザ状態情報の分析方法の例を説明する図である。図５のステップＳ６のユーザ特性分析ミキシング処理を説明するフローチャートである。図１３のステップＳ３０の処理に対応して実行される、制御情報受信処理を説明するフローチャートである。本発明を適用するパーソナルコンピュータの構成例を示すブロック図である。

符号の説明

１−１，１−２コミュニケーション装置，２通信網，３コンテンツ供給サーバ，２１出力部，２２−１，２２−２入力部，２３通信部，２６映像音声合成部，２８データ分析部，３１操作入力部，３２制御部，４１ディスプレイ，４２スピーカ，５１−１，５１−２カメラ，５２−１，５２−２マイク，５３−１，５３−２センサ，７１ユーザ特性分析部，７２制御情報生成部，８１セッション管理部，８４合成制御部，８７操作情報出力部，８８電子機器制御部，１０１分析制御部，１０２姿勢情報分析部，１０３人数情報分析部，１０４音声情報分析部，１０５環境情報分析部

Claims

コンテンツデータを再生する再生手段と、
ユーザの音声および映像を含む第１のユーザ状態情報を入力するユーザ情報入力手段と、
ネットワークを介して接続されている他の情報処理装置から、他のユーザの音声および映像を含む第２のユーザ状態情報を受信するユーザ情報受信手段と、
前記第１のユーザ状態情報に基づいて前記ユーザの姿勢を分析し、前記ユーザの姿勢に基づいて、再生中のコンテンツへの前記ユーザの熱中度を分析する情報分析手段と、
前記コンテンツデータの音声および映像と、前記第２のユーザ状態情報の音声および映像を合成するとともに、前記ユーザの熱中度に基づいて、前記第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いを変更する合成手段と
を備える情報処理装置。
前記合成手段は、前記ユーザの熱中度が高いほど、前記第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いを低くし、前記ユーザの熱中度が低いほど、前記第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いを高くする
請求項１に記載の情報処理装置。
前記分析手段は、さらに、前記第２のユーザ状態情報に基づいて、前記他のユーザのコミュニケーションの活性度を分析し、
前記合成手段は、前記ユーザの熱中度および前記他のユーザの活性度のうち少なくとも一方に基づいて、前記第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いを変更する
請求項１に記載の情報処理装置。
前記合成手段は、前記他のユーザの活性度が高いほど、前記第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いを高くし、前記他のユーザの活性度が低いほど、前記第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いを低くする
請求項３に記載の情報処理装置。
前記第２のユーザ状態情報を、前記情報分析手段による分析の対象にするか否かを判定する分析対象判定手段をさらに備え、
前記情報分析手段は、前記分析対象判定手段により前記第２のユーザ状態情報を分析の対象にしないと判定された場合、前記第１のユーザ状態情報のみを分析する
請求項３に記載の情報処理装置。
前記分析手段は、さらに、前記第１のユーザ状態情報に基づいて、前記合成手段により合成された映像を出力する出力手段に対する前記ユーザの姿勢を分析し、
前記合成手段は、前記ユーザの熱中度および前記表示手段に対する前記ユーザの姿勢のうち少なくとも一方に基づいて、前記第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いを変更する
請求項１に記載の情報処理装置。
前記再生手段は、前記他の情報処理装置と同一のコンテンツデータを同期再生する
請求項１に記載の情報処理装置。
前記第１のユーザ状態情報には、前記ユーザの環境情報も含まれ、
前記第２のユーザ状態情報には、前記他のユーザの環境情報も含まれる
請求項１に記載の情報処理装置。
前記合成手段により合成された音声および映像を出力する出力手段をさらに備える
請求項１に記載の情報処理装置。
前記情報分析手段による分析結果に基づいて、接続される電子機器を制御する電子機器制御手段をさらに備える
請求項１に記載の情報処理装置。
前記情報分析手段による分析結果に基づいて、前記他の情報処理装置を制御する制御パラメータを設定するパラメータ設定手段と、
前記制御パラメータを、前記他の情報処理装置に送信する送信手段と
をさらに備える請求項１に記載の情報処理装置。
前記他の情報処理装置から送信されてくる制御パラメータを受け付けるか否かを判定する受付判定手段を
さらに備える請求項１に記載の情報処理装置。
ネットワークを介して接続されている他の情報処理装置と通信する情報処理装置が、
コンテンツデータを再生する再生ステップと、
ユーザの音声および映像を含む第１のユーザ状態情報を入力するユーザ情報入力ステップと、
前記他の情報処理装置から、他のユーザの音声および映像を含む第２のユーザ状態情報を受信するユーザ情報受信ステップと、
前記第１のユーザ状態情報に基づいて前記ユーザの姿勢を分析し、前記ユーザの姿勢に基づいて、再生中のコンテンツへの前記ユーザの熱中度を分析する情報分析ステップと、
前記コンテンツデータの音声および映像と、前記第２のユーザ状態情報の音声および映像を合成するとともに、前記ユーザの熱中度に基づいて、前記第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いを変更する合成ステップと
を含む情報処理方法。
ネットワークを介して接続された情報処理装置と通信するコンピュータに、
コンテンツデータを再生する再生ステップと、
ユーザの音声および映像を含む第１のユーザ状態情報を入力するユーザ情報入力ステップと、
前記情報処理装置から、他のユーザの音声および映像を含む第２のユーザ状態情報を受信するユーザ情報受信ステップと、
前記第１のユーザ状態情報に基づいて前記ユーザの姿勢を分析し、前記ユーザの姿勢に基づいて、再生中のコンテンツへの前記ユーザの熱中度を分析する情報分析ステップと、
前記コンテンツデータの音声および映像と、前記第２のユーザ状態情報の音声および映像を合成するとともに、前記ユーザの熱中度に基づいて、前記第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いを変更する合成ステップと
を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
ネットワークを介して接続された情報処理装置と通信するコンピュータに、
コンテンツデータを再生する再生ステップと、
ユーザの音声および映像を含む第１のユーザ状態情報を入力するユーザ情報入力ステップと、
前記情報処理装置から、他のユーザの音声および映像を含む第２のユーザ状態情報を受信するユーザ情報受信ステップと、
前記第１のユーザ状態情報に基づいて前記ユーザの姿勢を分析し、前記ユーザの姿勢に基づいて、再生中のコンテンツへの前記ユーザの熱中度を分析する情報分析ステップと、
前記コンテンツデータの音声および映像と、前記第２のユーザ状態情報の音声および映像を合成するとともに、前記ユーザの熱中度に基づいて、前記第２のユーザ状態情報の音声および映像のうち少なくとも一方の合成する度合いを変更する合成ステップと
を実行させるためのプログラム。