JP2011239263A

JP2011239263A - 端末装置および遠隔コミュニケーションシステム並びに端末装置の制御方法、プログラム

Info

Publication number: JP2011239263A
Application number: JP2010110026A
Authority: JP
Inventors: Kazuhiro Taniguchi; 和弘谷口
Original assignee: University of Tokyo NUC
Current assignee: University of Tokyo NUC
Priority date: 2010-05-12
Filing date: 2010-05-12
Publication date: 2011-11-24

Abstract

【課題】送信するデータ量が過大になるのを抑制すると共にコミュニケーションに重要な情報をより確実に伝達する。
【解決手段】カメラにより撮影した画像データにユーザの顔の領域があるときに、撮影した画像データから両目及びその両目の周辺部位を含む両目領域に相当する両目領域画像データと両目領域を除いた領域に相当する両目除外画像データとを生成し（Ｓ１２０）、両目除外画像データのフレームレートが両目領域画像データより小さくなるように両画像の符号化データを生成し（Ｓ１３０，Ｓ１６０）、生成した両画像の符号化データとマイクからの音声の符号化データとを送受信部により送信する（Ｓ１８０，Ｓ１９０）。これにより、送信するデータ量が過大になるのを抑制すると共にコミュニケーションに重要な両目とその周辺の情報をより確実に伝達することができる。
【選択図】図４

Description

本発明は、端末装置および遠隔コミュニケーションシステム並びに端末装置の制御方法、プログラムに関し、詳しくは、遠隔コミュニケーションに用いられる端末装置およびこうした端末装置を複数備える遠隔コミュニケーションシステム並びに端末装置の制御方法、プログラムに関する。

従来、この種の端末装置としては、画像を表示する液晶モニタと、音声を出力するスピーカと、画像を撮影するカメラと、音声を入力するマイクと、を備える携帯通信端末装置であって、マイクに入力された音声が有音のときには、人の顔以外の領域に比して、顔の領域に多くのビットが割り当てられるようにカメラからの画像を符号化して画像符号化データを生成し、生成した画像符号化データとマイクへの音声を符号化した音声符号化データとを多重化しデジタル変調して送信するものが提案されている（例えば、特許文献１参照）。この端末装置では、こうしてカメラからの画像を符号化することにより、人が会話しているときなどに、コミュニケーションに重要な顔の情報を豊富に伝達している。

特開２００７−１３７７１号公報

しかしながら、上述の端末装置では、コミュニケーションに重要な情報を豊富に伝達することができたとしても、送信するデータ量が大きくなる場合がある。カメラからの画像に顔以外の領域がある程度含まれているときには、送信するデータ量が画像全体として過大になる可能性は低いと考えられるが、例えば、ユーザの顔全体が程よくカメラの撮影範囲内に収まるように据え置くなどして端末装置を用いると、カメラからの画像のほぼ全体が顔の領域となり、顔以外の領域がなくなるか極僅かとなるために、マイクへの音声が有音のときに送信する画像のデータ量が大きくなって、画像全体の通信速度の低下や画像の乱れなどの不都合が生じる場合がある。

本発明の端末装置および遠隔コミュニケーションシステム並びに端末装置の制御方法、プログラムは、送信するデータ量が過大になるのを抑制すると共にコミュニケーションに重要な情報をより確実に伝達することを主目的とする。

本発明の端末装置および遠隔コミュニケーションシステム並びに端末装置の制御方法、プログラムは、上述の主目的を達成するために以下の手段を採った。

本発明の端末装置は、
遠隔コミュニケーションに用いられる端末装置であって、
動画と音声を含む情報を送受信する情報送受信手段と、
前記受信した動画を表示する動画表示手段と、
前記受信した音声を出力する音声出力手段と、
画像を動画として撮影する画像撮影手段と、
音声を入力する音声入力手段と、
前記撮影した画像にユーザの顔の領域があるとき、前記撮影した画像から前記ユーザの両目および該両目の周辺部位を含む領域の画像である両目領域画像を除いた両目除外画像の動画としての情報量が前記両目領域画像より少なくなるように送信用画像を作成し、該作成した送信用画像と前記入力した音声とを前記情報送受信手段により送信する処理を実行する送信処理手段と、
を備えることを要旨とする。

この本発明の端末装置では、撮影した画像にユーザの顔の領域があるときに、撮影した画像からユーザの両目およびその両目の周辺部位を含む領域の画像である両目領域画像を除いた両目除外画像の動画としての情報量が両目領域画像より少なくなるように送信用画像を作成し、作成した送信用画像と入力した音声とを情報送受信手段により送信する処理を実行する。したがって、両目除外画像の情報量を相対的に少なくすることにより、送信するデータ量が過大になるのを抑制し、両目領域画像の情報量を相対的に多くすることにより、コミュニケーションに重要な両目とその周辺の情報をより確実に伝達することができる。この結果、送信するデータ量が過大になるのを抑制すると共にコミュニケーションに重要な情報をより確実に伝達することができる。ここで、「両目領域画像」は、両目，眉毛，眉間，そして鼻根（鼻のつけ根）を含む矩形状の領域の画像などとすることができる。なお、両目除外画像の情報量を少なくするのは、両目とその周辺の画像からヒトは相手の感情などの様子を認識することができると共に音声からもヒトは相手の感情を読み取ることができるなどのヒトの特性に基づく。

こうした本発明の端末装置において、前記送信処理手段は、単位時間あたりのフレーム数が第１フレーム数の前記両目領域画像と単位時間あたりのフレーム数が前記第１フレーム数より小さい第２フレーム数の前記両目除外画像とを前記送信用画像として作成する手段である、ものとすることもできる。こうすれば、送信するデータ量が過大になるのを抑制すると共にコミュニケーションに重要な情報をより確実に伝達することをより適正に行なうことができる。

また、本発明の端末装置において、前記送信処理手段は、一画素あたりのデータ量が第１データ量の前記両目領域画像と一画素あたりのデータ量が前記第１データ量より小さい第２データ量の前記両目除外画像とを前記送信用画像として作成する手段である、ものとすることもできる。こうすれば、送信するデータ量が過大になるのを抑制すると共にコミュニケーションに重要な情報をより確実に伝達することをより適正に行なうことができる。

あるいは、本発明の端末装置において、前記送信処理手段は、前記両目領域画像を前記送信用画像として作成し、前記両目除外画像を送信することなく前記作成した送信用画像と前記入力した音声とを前記情報送受信手段により送信する処理を実行する手段である、ものとすることもできる。こうすれば、送信するデータ量が過大になるのをより確実に抑制することができる。なお、両目除外画像を送信しないのは、ヒトは自らが受け入れやすいように情報を補完する特性を有することなどに基づく。

本発明の遠隔コミュニケーションシステムは、上述のいずれかの態様の本発明の端末装置、即ち、基本的には、遠隔コミュニケーションに用いられる端末装置であって、動画と音声を含む情報を送受信する情報送受信手段と、前記受信した動画を表示する動画表示手段と、前記受信した音声を出力する音声出力手段と、画像を動画として撮影する画像撮影手段と、音声を入力する音声入力手段と、前記撮影した画像にユーザの顔の領域があるとき、前記撮影した画像から前記ユーザの両目および該両目の周辺部位を含む領域の画像である両目領域画像を除いた両目除外画像の動画としての情報量が前記両目領域画像より少なくなるように送信用画像を作成し、該作成した送信用画像と前記入力した音声とを前記情報送受信手段により送信する処理を実行する送信処理手段と、を備える複数の端末装置と、前記複数の端末装置を通信可能に接続するネットワークと、を備えることを要旨とする。

この本発明の遠隔コミュニケーションシステムでは、上述のいずれかの態様の本発明の端末装置を備えるから、上述の端末装置が奏する効果、例えば、送信するデータ量が過大になるのを抑制すると共にコミュニケーションに重要な情報をより確実に伝達することができる効果などと同様の効果を奏することができる。

本発明の端末装置の制御方法は、
動画と音声を含む情報を送受信する情報送受信手段と、前記受信した動画を表示する動画表示手段と、前記受信した音声を出力する音声出力手段と、画像を動画として撮影する画像撮影手段と、音声を入力する音声入力手段と、を備え、遠隔コミュニケーションに用いられる端末装置の制御方法であって、
前記撮影した画像にユーザの顔の領域があるとき、前記撮影した画像から前記ユーザの両目および該両目の周辺部位を含む領域の画像である両目領域画像を除いた両目除外画像の動画としての情報量が前記両目領域画像より少なくなるように送信用画像を作成し、該作成した送信用画像と前記入力した音声とを前記情報送受信手段により送信する処理を実行する、
ことを特徴とする。

この本発明の端末装置の制御方法では、撮影した画像にユーザの顔の領域があるときに、撮影した画像からユーザの両目およびその両目の周辺部位を含む領域の画像である両目領域画像を除いた両目除外画像の動画としての情報量が両目領域画像より少なくなるように送信用画像を作成し、作成した送信用画像と入力した音声とを情報送受信手段により送信する処理を実行する。したがって、両目除外画像の情報量を相対的に少なくすることにより、送信するデータ量が過大になるのを抑制し、両目領域画像の情報量を相対的に多くすることにより、コミュニケーションに重要な両目とその周辺の情報をより確実に伝達することができる。この結果、送信するデータ量が過大になるのを抑制すると共にコミュニケーションに重要な情報をより確実に伝達することができる。ここで、「両目領域画像」は、両目，眉毛，眉間，そして鼻根（鼻のつけ根）を含む矩形状の領域の画像などとすることができる。なお、両目除外画像の情報量を少なくするのは、両目とその周辺の画像からヒトは相手の感情などの様子を認識することができると共に音声からもヒトは相手の感情を読み取ることができるなどのヒトの特性に基づく。

本発明のプログラムは、上述のいずれかの態様の本発明の端末装置の制御方法をコンピュータに実現させるためのものである。このプログラムは、コンピュータが読み取り可能な記録媒体（例えばハードディスク、フラッシュメモリ、ＲＯＭ、ＦＤ、ＣＤ、ＤＶＤなど）に記録されていてもよいし、伝送媒体（インターネットやＬＡＮなどの通信網）を介してあるコンピュータから別のコンピュータに配信されてもよいし、その他どのような形で授受されてもよい。このプログラムを一つのコンピュータに実行させるか又は複数のコンピュータに分担して実行させれば、上述の本発明の端末装置の制御方法が実現されるため、本発明の端末装置の制御方法と同様の作用効果が得られる。ここで、「コンピュータ」には、本発明の端末装置が備える例えばマイクロプロセッサや、本発明の端末装置以外の例えば汎用のパーソナルコンピュータなどが含まれる。

本発明の一実施例としての端末装置２０を複数備える遠隔コミュニケーションシステム１０の構成の概略を示す構成図である。実施例の端末装置２０の構成の概略を示す構成図である。端末装置２０のコントローラ４０の動画および音声の情報を処理する機能に着目した機能ブロックの一例を示す説明図である。コントローラ４０により実行される動画音声送信処理ルーチンの一例を示すフローチャートである。カメラ２６による撮影画像７０における両目領域画像７２および両目除外画像７４の一例を模式的に示す説明図である。端末装置２０の送受信部３０により送信される両目領域画像７２および両目除外画像７４のフレーム毎の画像データの一例を説明する説明図である。送信された画像データが受信者側の端末装置２０で表示される様子の一例を説明する説明図である。

次に、本発明を実施するための形態を実施例を用いて説明する。

図１は、本発明の一実施例としての端末装置２０を複数備える遠隔コミュニケーションシステム１０の構成の概略を示す構成図であり、図２は、実施例の端末装置２０の構成の概略を示す構成図である。遠隔コミュニケーションシステム１０は、遠隔地のヒト同士のコミュニケーションを双方向通信により行なうシステムであり、図示するように、複数（図１では２台）の端末装置２０と、無線信号の送受信を行なう基地局１４を介して複数の端末装置２０を通信可能に接続する通信ネットワーク１２と、により構成されている。

端末装置２０は、遠隔コミュニケーションに用いられる例えば携帯電話などの通信端末として構成されており、静止画や動画として画像を表示する液晶を利用したディスプレイ２２と、音声を外部に出力するスピーカ２４と、静止画や動画として画像を撮影する撮影素子としてＣＣＤ（電荷結合素子）を利用したカメラ２６と、音声を集音するマイク２８と、通信ネットワーク１２の基地局１４との間で無線信号の送受信を行なう送受信部３０と、装置全体をコントロールするコントローラ４０と、装置全体の電力源としての図示しないバッテリと、を備える。

送受信部３０は、信号をデジタル変調して高周波数（例えば、数ＧＨｚなど）の無線信号として送信すると共に高周波無線信号を受信してデジタル復調する送受信回路３２と、電波の送受信を行なうアンテナ３４と、を備える。

コントローラ４０は、ＣＰＵ４２を中心とするマイクロプロセッサとして構成されており、ＣＰＵ４２の他に各種処理プログラムを記憶するＲＯＭ４４と、データを一時的に記憶するＲＡＭ４６と、データを記憶するフラッシュメモリ４８と、図示しない入出力ポートと、を備える。コントローラ４０には、カメラ２６により撮影された画像データやマイク２８により集音された音声信号，送受信回路３２からのデータなどが入力ポートを介して入力されている。コントローラ４０からは、ディスプレイ２２への表示信号やスピーカ２４への音声信号，送受信回路３２へのデータなどが出力ポートを介して出力されている。実施例では、カメラ２６により撮影された画像データは、ＲＧＢ（レッド，グリーン，ブルー）各８ビットの所定画素数Ｎ１（例えば、数十万画素や数百万画素など）のカラー画像データであるものとした。

図３は、端末装置２０のコントローラ４０の動画および音声の情報を処理する機能に着目した機能ブロックの一例を示す説明図である。この機能は、ＲＯＭ４４に記憶された処理プログラムをＣＰＵ４２が読み出して実行することにより実現される。コントローラ４０は、図示するように、カメラ２６からの画像データに一画素あたりのビット数の低減や画素数の低減，明るさの調整，コントラストの調整などの画像処理を適用して画像を調整すると共に画像データをディスプレイ２２に表示可能に調整する画像調整部５２と、画像調整部５２により調整された画像データを標本化し量子化して符号化すると共に符号化された画像データを復号する画像符号化復号部６２と、マイク２８からの音声信号にトーン（声調）の調整などの音声処理を適用して音声を調整する音声調整部５４と、音声調整部５４により調整された音声信号を標本化し量子化して符号化すると共に符号化された音声データを復号する音声符号化復号部６４と、画像符号化復号部６２により符号化された画像データと音声符号化復号部６４により符号化された音声データとを多重化すると共に符号化された画像データと音声データとを分離する多重化分離部６６と、を備え、カメラ２６により撮影された動画とマイク２８により集音された音声とを符号化して多重化したデータを送受信回路３２により送信すると共に、送受信回路３２により受信した動画と音声とが多重化されたデータを分離してそれぞれディスプレイ２２に動画を表示しスピーカ２４から音声を出力することができるようになっている。実施例では、コントローラ４０における画像符号化復号部６２と音声符号化復号部６４と多重化分離部６６との各機能については、規格化された標準的な圧縮技術（例えば、ＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）−４など）に従うものとし、画像符号化復号部６２ではハフマン符号化により画像を圧縮すると共に音声符号化復号部６４ではベクトル量子化により音声を圧縮し、画像符号化復号部６２により符号化された動画の単位時間あたりのフレーム数は、１秒あたりの整数値で表されるレートとしての所定フレームレートＦｒ１（例えば、数十ｆｐｓなど）であるものとした。

次に、こうして構成された実施例の端末装置２０の動作、特に通信ネットワーク１２を介して受信者側の端末装置２０に動画と音声とを送信する際の動作について説明する。図４は、コントローラ４０により実行される動画音声送信処理ルーチンの一例を示すフローチャートである。このルーチンは、ＲＯＭ４４に記憶された処理プログラムを読み出すことにより実行され、受信者側の端末装置２０が指定されると共に、カメラ２６により撮影された画像データに送信者としてのユーザの顔の領域があると判定されているときに所定時間Ｔｓｅｔ毎に繰り返し実行される。顔の領域の判定は、例えば、撮影された画像データのうち人肌の色の画素により形成される形状がＲＯＭ４４に予め記憶された複数のテンプレートにおける顔の画像の形状に相当するか否かを判定したりするなど、周知の手法により行なうことができ、実施例では、カメラ２６からの画像の面積に占める顔の領域の割合が過小でない所定の割合（例えば、２０％や３０％など）以上であることを条件として顔の領域があると判定されるものとした。また、所定時間Ｔｓｅｔは、送信される動画の単位時間あたりのフレーム数を所定フレームレートＦｒ１とするのに適した時間であるものとし、実施例では、所定フレームレートＦｒ１の逆数（Ｔｓｅｔ＝１／Ｆｒ１）を用いるものとする。

動画音声送信処理ルーチンが実行されると、コントローラ４０のＣＰＵ４２は、まず、カメラ２６により撮影された画像データやマイク２８により集音された音声信号など処理に必要なデータや信号を入力し（ステップＳ１００）、入力した画像データから両目及びその両目の周辺部位を含む領域としての両目領域を検出すると共に（ステップＳ１１０）、検出した両目領域に相当する両目領域画像データと、入力した画像データから両目領域を除いた領域に相当する両目除外画像データとを生成する処理を実行する（ステップＳ１２０）。ここで、両目領域は、実施例では、両目，眉毛，眉間，そして鼻根（鼻のつけ根）が含まれるように縦横比が予め定められた矩形状の領域であるものとした。また、両目領域の検出は、顔の領域の中央より上部で人肌の色の画素の領域よりも輝度値の低い顔の幅方向に並ぶ２つの領域を目の領域として検出したりするなど、周知の手法により行なうことができる。図５にカメラ２６による撮影画像７０における両目領域画像７２および両目除外画像７４の一例を模式的に示す。なお、ステップＳ１１０，Ｓ１２０の処理は、コントローラ４０の画像調整部５２より行なわれる。

こうして両目領域画像データと両目除外画像データとを生成すると、生成した両目領域画像データを前述の所定フレームレートＦｒ１で符号化することにより両目領域画像の符号化データを生成し（ステップＳ１３０）、初期値が値０のカウンタＣを閾値Ｃｒｅｆと比較し（ステップＳ１４０）、カウンタＣが閾値Ｃｒｅｆ未満のときには、両目除外画像を符号化しないと判断して、カウンタＣをインクリメントする（ステップＳ１５０）。ここで、カウンタＣを閾値Ｃｒｅｆと比較するのは、両目除外画像データを所定フレームレートＦｒ１より小さい処理用フレームレートＦｒ２で符号化するためであり、閾値Ｃｒｅｆは、実施例では、処理用フレームレートＦｒ２に対する所定フレームレートＦｒ１の比（Ｃｒｅｆ＝Ｆｒ１／Ｆｒ２）を用いるものとした。処理用フレームレートＦｒ２は、実施例では、所定フレームレートＦｒ１の正の約数としての整数値で表されるものとするが、詳細は後述する。なお、ステップＳ１３０の処理は画像符号化復号部６２により行なわれる。

こうして両目領域画像の符号化データを生成すると、入力した音声信号を符号化することにより音声の符号化データを生成し（ステップＳ１８０）、両目領域画像と音声との各符号化データを多重化分離部６６で多重化すると共に多重化したデータが通信ネットワーク１２を介して受信者側の端末装置２０に送信されるよう多重化分離部６６から送受信回路３２にデータを出力し（ステップＳ１９０）、動画音声送信処理ルーチンを終了する。なお、ステップＳ１８０の処理は音声調整部５４による調整が特に行なわれずに音声信号を入力した音声符号化復号部６４により行なわれる。

一方、ステップＳ１４０でカウンタＣが閾値Ｃｒｅｆ以上のときには、両目除外画像を符号化すると判断し、両目除外画像データを処理用フレームレートＦｒ２で符号化することにより両目除外画像の符号化データを画像符号化復号部６２で生成すると共に（ステップＳ１６０）、カウンタＣを値０にリセットし（ステップＳ１７０）、音声の符号化データを生成し（ステップＳ１８０）、両目領域画像と両目除外画像と音声との各符号化データを多重化分離部６６で多重化すると共に多重化したデータが通信ネットワーク１２を介して受信者側の端末装置２０に送信されるよう多重化分離部６６から送受信回路３２にデータを出力して（ステップＳ１９０）、動画音声送信処理ルーチンを終了する。ここで、処理用フレームレートＦｒ２について説明する。処理用フレームレートＦｒ２は、両目除外画像の動画としての情報量を小さくするためのものであり、実施例では、動画と音声との受信者が顔の画像と音声とから送信者の感情などの様子を読み取ることができる範囲内で比較的小さい方のレートとして実験などにより予め定められた値（例えば、数ｆｐｓなど）を用いるものとした。図６に端末装置２０の送受信部３０により送信される両目領域画像７２および両目除外画像７４のフレーム毎の画像データの一例を示す。こうして送信された画像と音声との符号化データを受信した受信者側の端末装置２０では、受信した画像と音声とが多重化されたデータを分離してそれぞれ復号すると共に、復号された両目除外画像データに対してこの両目除外画像データより高頻度で復号され更新される両目領域画像データを画像調整部５２で組み込むことによってディスプレイ２２に動画を表示し、スピーカ２４から音声を出力する。図７に送信された画像データが受信者側の端末装置２０で表示される様子の一例を示す。図中、波線は、両目領域画像の境界を示すが、ディスプレイ２２には表示されない。

ここで、両目除外画像のフレームレートを両目領域画像より小さくして顔の画像を送信する理由について説明する。両目とその周辺の画像があれば、まばたきの様子や瞳孔の大きさ，眉間のしわなどからヒトは相手の感情をある程度読み取ることができると共に知人の場合にはある程度個人を識別することができ、眉毛付近の骨格に存在する性差などからある程度性別を判別することができる。また、音声があれば、声の抑揚や大きさなどからヒトは相手の感情をある程度読み取ることができると共に、いわゆるマガーク効果からも解るようにヒトは音声から口の動きをある程度想像することができる。即ち、ヒト同士の遠隔コミュニケーションにおいて、顔の画像のうち両目とその周辺の情報は他の部分に比して特に重要であるということができる。したがって、両目除外画像のフレームレートを小さくして動画としての情報量を少なくすることにより、コミュニケーションを阻害することなく送信するデータ量が過大になるのを抑制することができると共に、両目領域画像の動画としての情報量を両目除外画像より多くすることにより、コミュニケーションに重要な両目とその周辺の情報をより確実に伝達することができるのである。

以上説明した実施例の端末装置２０によれば、カメラ２６により撮影した画像データにユーザの顔の領域があるときに、撮影した画像データから両目及びその両目の周辺部位を含む両目領域に相当する両目領域画像データと両目領域を除いた領域に相当する両目除外画像データとを生成し、両目除外画像データのフレームレートが両目領域画像データより小さくなるように両画像の符号化データを生成し、生成した両画像の符号化データとマイク２８からの音声の符号化データとを送受信部３０により送信するから、送信するデータ量が過大になるのを抑制すると共にコミュニケーションに重要な情報をより確実に伝達することができる。

実施例の端末装置２０では、両目領域画像データを所定フレームレートＦｒ１で符号化すると共に両目除外画像データを所定フレームレートＦｒ１より小さい処理用フレームレートＦｒ２で符号化するものとしたが、これに代えて又は加えて、両目領域画像データをその一画素あたりのビット数をカメラ２６からの画像データのＲＧＢ各８ビットのままで符号化すると共に両目除外画像データをその一画素あたりのビット数を８ビットより小さいＲＧＢ各４ビットなどに変換してから符号化するものとしたり、両目領域画像データをその画素数をカメラ２６からの画像データの所定画素数Ｎ１のままで符号化すると共に両目除外画像データをその画素数を所定画素数Ｎ１より小さい１／４の画素数などに変換してから符号化するものとしたりしてもよい。一画素あたりのビット数を変換する場合には、両目除外画像データについてはグレースケール画像に変換するものとしてもよく、画素数を変換する場合には、受信者側の端末装置２０では顔の画像が適正に表示されるように両目除外画像データの表示されるサイズを調整して両目領域データと組み合わせるものとすればよい。これらに代えて又は加えて、両目領域画像データをハフマン符号化により圧縮すると共に両目除外画像データをベクトル量子化により圧縮したり、両目除外画像データを両目領域画像データより荒い量子化を行なって符号化したりするものとしても構わない。

実施例の端末装置２０では、両目領域画像と音声との符号化データを多重化したり両目領域画像と両目除外画像と音声との符号化データを多重化して送受信部３０により送信するものとしたが、両目除外画像データを生成することなく（両目除外画像データのフレームレートを値０として）、両目領域画像データを生成して所定フレームレートＦｒ１で符号化すると共に音声信号を符号化し、両目領域画像と音声との符号化データを多重化して送受信部３０により送信するものとしてもよい。これは、ヒトは自らが受け入れやすいように情報を補完する特性、言い換えると、ヒトは相手の魅力が増すように想像して情報を補完する特性を有することなどに基づく。したがって、撮影された画像のうち両目除外画像を送信しないことにより、撮影された画像全体を送信するものに比して、送信するデータ量を抑制することができると共に、ユーザの魅力を増大させた状態でユーザ自身の感情などの様子を伝達することができる。こうした特性を利用して両目領域画像のみと音声とを送信する場合、画像と音声の送信者としてのユーザの魅力が増すように、画像調整部５２で画像データの明るさやコントラストを調整したり（例えば、肌の色を明るく調整し肌のシワやシミを目立たなくするなど）、画像調整部５２で瞳孔の大きさを調整したり、音声調整部５４で音声信号のトーンを調整したりしてもよい。こうすれば、ユーザの魅力を増大させた状態でユーザ自身の感情などの様子を伝達することができる。更にこの場合、両目領域画像データをグレースケール画像に変換するものとしてもよい。こうすれば、送信するデータ量を更に抑制することができる。

実施例の端末装置２０では、両目領域は、両目，眉毛，眉間，そして鼻根が含まれるように縦横比が予め定められた矩形状の領域であるものとしたが、両目とその周辺部位を含む領域であれば、例えば、眉毛の上端や左右端が含まれない矩形状の領域であるものとしてもよいし、両耳が含まれる矩形状の領域であるものとしてもよいし、楕円形状の領域であるものとしてもよい。

実施例の端末装置２０は、遠隔コミュニケーションに用いられる例えば携帯電話などの無線通信による通信端末として構成されているものとしたが、遠隔コミュニケーションに用いられるものであれば、例えばインターネットなど有線通信のネットワークを介して他の端末装置に接続可能な一般的なパーソナルコンピュータなどの端末装置として構成されているものとしてもよい。

実施例では、遠隔コミュニケーションシステム１０は、遠隔地のヒト同士のコミュニケーションを行なうシステムであるものとしたが、遠隔コミュニケーションを行なうものであれば、例えば人工知能を搭載した機械とヒトとの遠隔コミュニケーションを行なうシステムなどとしてもよい。

実施例では、端末装置２０の形態として説明したが、遠隔コミュニケーションシステム１０の形態としたり、端末装置２０の制御方法の形態としたり、端末装置２０のコントローラ４０や端末装置２０以外のコンピュータにより実行されるプログラムの形態としてもよい。

実施例の主要な要素と課題を解決するための手段の欄に記載した発明の主要な要素との対応関係について説明する。実施例では、送受信部３０が「情報送受信手段」に相当し、ディスプレイ２２が「動画表示手段」に相当し、スピーカ２４が「音声出力手段」に相当し、カメラ２６が「画像撮影手段」に相当し、マイク２８が「音声入力手段」に相当し、カメラ２６により撮影した画像データにユーザの顔の領域があるときに、撮影した画像データから両目及びその両目の周辺部位を含む両目領域に相当する両目領域画像データと両目領域を除いた領域に相当する両目除外画像データとを生成し、両目除外画像データのフレームレートが両目領域画像データより小さくなるように両画像の符号化データを生成し、生成した両画像の符号化データとマイク２８からの音声の符号化データとを送受信部３０により送信する図４の動画音声送信処理ルーチンを実行するコントローラ４０が「送信処理手段」に相当する。また、通信ネットワーク１２が「ネットワーク」に相当する。

ここで、「情報送受信手段」としては、アンテナ３４を含む送受信部３０に限定されるものではなく、有線通信に用いられるものなど、動画と音声を含む情報を送受信するものであれば如何なるものとしても構わない。「動画表示手段」としては、液晶を利用したディスプレイ２２に限定されるものではなく、有機エレクトロルミネッセンス（有機ＥＬ）を利用したものなど、受信した動画を表示するものであれば如何なるものとしても構わない。「音声出力手段」としては、装置本体に内蔵されたスピーカ２４に限定されるものではなく、装置本体と着脱可能に接続されたものなど、受信した音声を出力するものであれば如何なるものとしても構わない。「画像撮影手段」としては、撮影素子としてＣＣＤを利用したカメラ２６に限定されるものではなく、撮影素子としてＣＭＯＳ（相補性金属酸化膜半導体）を利用したものなど、画像を動画として撮影するものであれば如何なるものとしても構わない。「音声入力手段」としては、装置本体に内蔵されたマイク２８に限定されるものではなく、装置本体と着脱可能に接続されたものなど、音声を入力するものであれば如何なるものとしても構わない。「送信処理手段」としては、単一のコントローラ４０によるものではなく、複数のコントローラの組み合わせによるものとしてもよい。また、「送信処理手段」としては、カメラ２６により撮影した画像データにユーザの顔の領域があるときに、撮影した画像データから両目領域に相当する両目領域画像データと両目領域を除いた領域に相当する両目除外画像データとを生成し、両目除外画像データのフレームレートが両目領域画像データより小さくなるように両画像の符号化データを生成し、生成した両画像の符号化データとマイク２８からの音声の符号化データとを送受信部３０により送信するものに限定されるものではなく、両目除外画像データの一画素あたりのビット数を両目領域画像データより小さくして送信したり両目除外画像データを送信しないものなど、撮影した画像にユーザの顔の領域があるときに、撮影した画像からユーザの両目および両目の周辺部位を含む領域の画像である両目領域画像を除いた両目除外画像の動画としての情報量が両目領域画像より少なくなるように送信用画像を作成し、作成した送信用画像と入力した音声とを情報送受信手段により送信する処理を実行するものであれば如何なるものとしても構わない。また、「ネットワーク」としては、端末装置２０とは無線通信を行なう通信ネットワーク１２に限定されるものではなく、有線通信によるものなど、複数の端末装置を通信可能に接続するものであれば如何なるものとしても構わない。

なお、実施例の主要な要素と課題を解決するための手段の欄に記載した発明の主要な要素との対応関係は、実施例が課題を解決するための手段の欄に記載した発明を実施するための形態を具体的に説明するための一例であることから、課題を解決するための手段の欄に記載した発明の要素を限定するものではない。即ち、課題を解決するための手段の欄に記載した発明についての解釈はその欄の記載に基づいて行なわれるべきものであり、実施例は課題を解決するための手段の欄に記載した発明の具体的な一例に過ぎないものである。

以上、本発明を実施するための形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において、種々なる形態で実施し得ることは勿論である。

本発明は、端末装置の製造産業などに利用可能である。

１０遠隔コミュニケーションシステム、１２通信ネットワーク、１４基地局、２０端末装置、２２ディスプレイ、２４スピーカ、２６カメラ、２８マイク、３０送受信部、３２送受信回路、３４アンテナ、４０コントローラ、４２ＣＰＵ、４４ＲＯＭ、４６ＲＡＭ、４８フラッシュメモリ、５２画像調整部、５４音声調整部、６２画像符号化復号部、６４音声符号化復号部、６６多重化分離部、７０撮影画像、７２両目領域画像、７４両目除外画像。

Claims

遠隔コミュニケーションに用いられる端末装置であって、
動画と音声を含む情報を送受信する情報送受信手段と、
前記受信した動画を表示する動画表示手段と、
前記受信した音声を出力する音声出力手段と、
画像を動画として撮影する画像撮影手段と、
音声を入力する音声入力手段と、
前記撮影した画像にユーザの顔の領域があるとき、前記撮影した画像から前記ユーザの両目および該両目の周辺部位を含む領域の画像である両目領域画像を除いた両目除外画像の動画としての情報量が前記両目領域画像より少なくなるように送信用画像を作成し、該作成した送信用画像と前記入力した音声とを前記情報送受信手段により送信する処理を実行する送信処理手段と、
を備える端末装置。
請求項１記載の端末装置であって、
前記送信処理手段は、単位時間あたりのフレーム数が第１フレーム数の前記両目領域画像と単位時間あたりのフレーム数が前記第１フレーム数より小さい第２フレーム数の前記両目除外画像とを前記送信用画像として作成する手段である、
端末装置。
請求項１または２記載の端末装置であって、
前記送信処理手段は、一画素あたりのデータ量が第１データ量の前記両目領域画像と一画素あたりのデータ量が前記第１データ量より小さい第２データ量の前記両目除外画像とを前記送信用画像として作成する手段である、
端末装置。
請求項１記載の端末装置であって、
前記送信処理手段は、前記両目領域画像を前記送信用画像として作成し、前記両目除外画像を送信することなく前記作成した送信用画像と前記入力した音声とを前記情報送受信手段により送信する処理を実行する手段である、
端末装置。
請求項１ないし４のいずれか１つの請求項に記載の複数の端末装置と、
前記複数の端末装置を通信可能に接続するネットワークと、
を備える遠隔コミュニケーションシステム。
動画と音声を含む情報を送受信する情報送受信手段と、前記受信した動画を表示する動画表示手段と、前記受信した音声を出力する音声出力手段と、画像を動画として撮影する画像撮影手段と、音声を入力する音声入力手段と、を備え、遠隔コミュニケーションに用いられる端末装置の制御方法であって、
前記撮影した画像にユーザの顔の領域があるとき、前記撮影した画像から前記ユーザの両目および該両目の周辺部位を含む領域の画像である両目領域画像を除いた両目除外画像の動画としての情報量が前記両目領域画像より少なくなるように送信用画像を作成し、該作成した送信用画像と前記入力した音声とを前記情報送受信手段により送信する処理を実行する、
ことを特徴とする端末装置の制御方法。
請求項６記載の端末装置の制御方法をコンピュータに実現させるためのプログラム。