JP2011239263A - 端末装置および遠隔コミュニケーションシステム並びに端末装置の制御方法、プログラム - Google Patents
端末装置および遠隔コミュニケーションシステム並びに端末装置の制御方法、プログラム Download PDFInfo
- Publication number
- JP2011239263A JP2011239263A JP2010110026A JP2010110026A JP2011239263A JP 2011239263 A JP2011239263 A JP 2011239263A JP 2010110026 A JP2010110026 A JP 2010110026A JP 2010110026 A JP2010110026 A JP 2010110026A JP 2011239263 A JP2011239263 A JP 2011239263A
- Authority
- JP
- Japan
- Prior art keywords
- image
- terminal device
- binocular
- transmission
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【課題】送信するデータ量が過大になるのを抑制すると共にコミュニケーションに重要な情報をより確実に伝達する。
【解決手段】カメラにより撮影した画像データにユーザの顔の領域があるときに、撮影した画像データから両目及びその両目の周辺部位を含む両目領域に相当する両目領域画像データと両目領域を除いた領域に相当する両目除外画像データとを生成し(S120)、両目除外画像データのフレームレートが両目領域画像データより小さくなるように両画像の符号化データを生成し(S130,S160)、生成した両画像の符号化データとマイクからの音声の符号化データとを送受信部により送信する(S180,S190)。これにより、送信するデータ量が過大になるのを抑制すると共にコミュニケーションに重要な両目とその周辺の情報をより確実に伝達することができる。
【選択図】図4
【解決手段】カメラにより撮影した画像データにユーザの顔の領域があるときに、撮影した画像データから両目及びその両目の周辺部位を含む両目領域に相当する両目領域画像データと両目領域を除いた領域に相当する両目除外画像データとを生成し(S120)、両目除外画像データのフレームレートが両目領域画像データより小さくなるように両画像の符号化データを生成し(S130,S160)、生成した両画像の符号化データとマイクからの音声の符号化データとを送受信部により送信する(S180,S190)。これにより、送信するデータ量が過大になるのを抑制すると共にコミュニケーションに重要な両目とその周辺の情報をより確実に伝達することができる。
【選択図】図4
Description
本発明は、端末装置および遠隔コミュニケーションシステム並びに端末装置の制御方法、プログラムに関し、詳しくは、遠隔コミュニケーションに用いられる端末装置およびこうした端末装置を複数備える遠隔コミュニケーションシステム並びに端末装置の制御方法、プログラムに関する。
従来、この種の端末装置としては、画像を表示する液晶モニタと、音声を出力するスピーカと、画像を撮影するカメラと、音声を入力するマイクと、を備える携帯通信端末装置であって、マイクに入力された音声が有音のときには、人の顔以外の領域に比して、顔の領域に多くのビットが割り当てられるようにカメラからの画像を符号化して画像符号化データを生成し、生成した画像符号化データとマイクへの音声を符号化した音声符号化データとを多重化しデジタル変調して送信するものが提案されている(例えば、特許文献1参照)。この端末装置では、こうしてカメラからの画像を符号化することにより、人が会話しているときなどに、コミュニケーションに重要な顔の情報を豊富に伝達している。
しかしながら、上述の端末装置では、コミュニケーションに重要な情報を豊富に伝達することができたとしても、送信するデータ量が大きくなる場合がある。カメラからの画像に顔以外の領域がある程度含まれているときには、送信するデータ量が画像全体として過大になる可能性は低いと考えられるが、例えば、ユーザの顔全体が程よくカメラの撮影範囲内に収まるように据え置くなどして端末装置を用いると、カメラからの画像のほぼ全体が顔の領域となり、顔以外の領域がなくなるか極僅かとなるために、マイクへの音声が有音のときに送信する画像のデータ量が大きくなって、画像全体の通信速度の低下や画像の乱れなどの不都合が生じる場合がある。
本発明の端末装置および遠隔コミュニケーションシステム並びに端末装置の制御方法、プログラムは、送信するデータ量が過大になるのを抑制すると共にコミュニケーションに重要な情報をより確実に伝達することを主目的とする。
本発明の端末装置および遠隔コミュニケーションシステム並びに端末装置の制御方法、プログラムは、上述の主目的を達成するために以下の手段を採った。
本発明の端末装置は、
遠隔コミュニケーションに用いられる端末装置であって、
動画と音声を含む情報を送受信する情報送受信手段と、
前記受信した動画を表示する動画表示手段と、
前記受信した音声を出力する音声出力手段と、
画像を動画として撮影する画像撮影手段と、
音声を入力する音声入力手段と、
前記撮影した画像にユーザの顔の領域があるとき、前記撮影した画像から前記ユーザの両目および該両目の周辺部位を含む領域の画像である両目領域画像を除いた両目除外画像の動画としての情報量が前記両目領域画像より少なくなるように送信用画像を作成し、該作成した送信用画像と前記入力した音声とを前記情報送受信手段により送信する処理を実行する送信処理手段と、
を備えることを要旨とする。
遠隔コミュニケーションに用いられる端末装置であって、
動画と音声を含む情報を送受信する情報送受信手段と、
前記受信した動画を表示する動画表示手段と、
前記受信した音声を出力する音声出力手段と、
画像を動画として撮影する画像撮影手段と、
音声を入力する音声入力手段と、
前記撮影した画像にユーザの顔の領域があるとき、前記撮影した画像から前記ユーザの両目および該両目の周辺部位を含む領域の画像である両目領域画像を除いた両目除外画像の動画としての情報量が前記両目領域画像より少なくなるように送信用画像を作成し、該作成した送信用画像と前記入力した音声とを前記情報送受信手段により送信する処理を実行する送信処理手段と、
を備えることを要旨とする。
この本発明の端末装置では、撮影した画像にユーザの顔の領域があるときに、撮影した画像からユーザの両目およびその両目の周辺部位を含む領域の画像である両目領域画像を除いた両目除外画像の動画としての情報量が両目領域画像より少なくなるように送信用画像を作成し、作成した送信用画像と入力した音声とを情報送受信手段により送信する処理を実行する。したがって、両目除外画像の情報量を相対的に少なくすることにより、送信するデータ量が過大になるのを抑制し、両目領域画像の情報量を相対的に多くすることにより、コミュニケーションに重要な両目とその周辺の情報をより確実に伝達することができる。この結果、送信するデータ量が過大になるのを抑制すると共にコミュニケーションに重要な情報をより確実に伝達することができる。ここで、「両目領域画像」は、両目,眉毛,眉間,そして鼻根(鼻のつけ根)を含む矩形状の領域の画像などとすることができる。なお、両目除外画像の情報量を少なくするのは、両目とその周辺の画像からヒトは相手の感情などの様子を認識することができると共に音声からもヒトは相手の感情を読み取ることができるなどのヒトの特性に基づく。
こうした本発明の端末装置において、前記送信処理手段は、単位時間あたりのフレーム数が第1フレーム数の前記両目領域画像と単位時間あたりのフレーム数が前記第1フレーム数より小さい第2フレーム数の前記両目除外画像とを前記送信用画像として作成する手段である、ものとすることもできる。こうすれば、送信するデータ量が過大になるのを抑制すると共にコミュニケーションに重要な情報をより確実に伝達することをより適正に行なうことができる。
また、本発明の端末装置において、前記送信処理手段は、一画素あたりのデータ量が第1データ量の前記両目領域画像と一画素あたりのデータ量が前記第1データ量より小さい第2データ量の前記両目除外画像とを前記送信用画像として作成する手段である、ものとすることもできる。こうすれば、送信するデータ量が過大になるのを抑制すると共にコミュニケーションに重要な情報をより確実に伝達することをより適正に行なうことができる。
あるいは、本発明の端末装置において、前記送信処理手段は、前記両目領域画像を前記送信用画像として作成し、前記両目除外画像を送信することなく前記作成した送信用画像と前記入力した音声とを前記情報送受信手段により送信する処理を実行する手段である、ものとすることもできる。こうすれば、送信するデータ量が過大になるのをより確実に抑制することができる。なお、両目除外画像を送信しないのは、ヒトは自らが受け入れやすいように情報を補完する特性を有することなどに基づく。
本発明の遠隔コミュニケーションシステムは、上述のいずれかの態様の本発明の端末装置、即ち、基本的には、遠隔コミュニケーションに用いられる端末装置であって、動画と音声を含む情報を送受信する情報送受信手段と、前記受信した動画を表示する動画表示手段と、前記受信した音声を出力する音声出力手段と、画像を動画として撮影する画像撮影手段と、音声を入力する音声入力手段と、前記撮影した画像にユーザの顔の領域があるとき、前記撮影した画像から前記ユーザの両目および該両目の周辺部位を含む領域の画像である両目領域画像を除いた両目除外画像の動画としての情報量が前記両目領域画像より少なくなるように送信用画像を作成し、該作成した送信用画像と前記入力した音声とを前記情報送受信手段により送信する処理を実行する送信処理手段と、を備える複数の端末装置と、前記複数の端末装置を通信可能に接続するネットワークと、を備えることを要旨とする。
この本発明の遠隔コミュニケーションシステムでは、上述のいずれかの態様の本発明の端末装置を備えるから、上述の端末装置が奏する効果、例えば、送信するデータ量が過大になるのを抑制すると共にコミュニケーションに重要な情報をより確実に伝達することができる効果などと同様の効果を奏することができる。
本発明の端末装置の制御方法は、
動画と音声を含む情報を送受信する情報送受信手段と、前記受信した動画を表示する動画表示手段と、前記受信した音声を出力する音声出力手段と、画像を動画として撮影する画像撮影手段と、音声を入力する音声入力手段と、を備え、遠隔コミュニケーションに用いられる端末装置の制御方法であって、
前記撮影した画像にユーザの顔の領域があるとき、前記撮影した画像から前記ユーザの両目および該両目の周辺部位を含む領域の画像である両目領域画像を除いた両目除外画像の動画としての情報量が前記両目領域画像より少なくなるように送信用画像を作成し、該作成した送信用画像と前記入力した音声とを前記情報送受信手段により送信する処理を実行する、
ことを特徴とする。
動画と音声を含む情報を送受信する情報送受信手段と、前記受信した動画を表示する動画表示手段と、前記受信した音声を出力する音声出力手段と、画像を動画として撮影する画像撮影手段と、音声を入力する音声入力手段と、を備え、遠隔コミュニケーションに用いられる端末装置の制御方法であって、
前記撮影した画像にユーザの顔の領域があるとき、前記撮影した画像から前記ユーザの両目および該両目の周辺部位を含む領域の画像である両目領域画像を除いた両目除外画像の動画としての情報量が前記両目領域画像より少なくなるように送信用画像を作成し、該作成した送信用画像と前記入力した音声とを前記情報送受信手段により送信する処理を実行する、
ことを特徴とする。
この本発明の端末装置の制御方法では、撮影した画像にユーザの顔の領域があるときに、撮影した画像からユーザの両目およびその両目の周辺部位を含む領域の画像である両目領域画像を除いた両目除外画像の動画としての情報量が両目領域画像より少なくなるように送信用画像を作成し、作成した送信用画像と入力した音声とを情報送受信手段により送信する処理を実行する。したがって、両目除外画像の情報量を相対的に少なくすることにより、送信するデータ量が過大になるのを抑制し、両目領域画像の情報量を相対的に多くすることにより、コミュニケーションに重要な両目とその周辺の情報をより確実に伝達することができる。この結果、送信するデータ量が過大になるのを抑制すると共にコミュニケーションに重要な情報をより確実に伝達することができる。ここで、「両目領域画像」は、両目,眉毛,眉間,そして鼻根(鼻のつけ根)を含む矩形状の領域の画像などとすることができる。なお、両目除外画像の情報量を少なくするのは、両目とその周辺の画像からヒトは相手の感情などの様子を認識することができると共に音声からもヒトは相手の感情を読み取ることができるなどのヒトの特性に基づく。
本発明のプログラムは、上述のいずれかの態様の本発明の端末装置の制御方法をコンピュータに実現させるためのものである。このプログラムは、コンピュータが読み取り可能な記録媒体(例えばハードディスク、フラッシュメモリ、ROM、FD、CD、DVDなど)に記録されていてもよいし、伝送媒体(インターネットやLANなどの通信網)を介してあるコンピュータから別のコンピュータに配信されてもよいし、その他どのような形で授受されてもよい。このプログラムを一つのコンピュータに実行させるか又は複数のコンピュータに分担して実行させれば、上述の本発明の端末装置の制御方法が実現されるため、本発明の端末装置の制御方法と同様の作用効果が得られる。ここで、「コンピュータ」には、本発明の端末装置が備える例えばマイクロプロセッサや、本発明の端末装置以外の例えば汎用のパーソナルコンピュータなどが含まれる。
次に、本発明を実施するための形態を実施例を用いて説明する。
図1は、本発明の一実施例としての端末装置20を複数備える遠隔コミュニケーションシステム10の構成の概略を示す構成図であり、図2は、実施例の端末装置20の構成の概略を示す構成図である。遠隔コミュニケーションシステム10は、遠隔地のヒト同士のコミュニケーションを双方向通信により行なうシステムであり、図示するように、複数(図1では2台)の端末装置20と、無線信号の送受信を行なう基地局14を介して複数の端末装置20を通信可能に接続する通信ネットワーク12と、により構成されている。
端末装置20は、遠隔コミュニケーションに用いられる例えば携帯電話などの通信端末として構成されており、静止画や動画として画像を表示する液晶を利用したディスプレイ22と、音声を外部に出力するスピーカ24と、静止画や動画として画像を撮影する撮影素子としてCCD(電荷結合素子)を利用したカメラ26と、音声を集音するマイク28と、通信ネットワーク12の基地局14との間で無線信号の送受信を行なう送受信部30と、装置全体をコントロールするコントローラ40と、装置全体の電力源としての図示しないバッテリと、を備える。
送受信部30は、信号をデジタル変調して高周波数(例えば、数GHzなど)の無線信号として送信すると共に高周波無線信号を受信してデジタル復調する送受信回路32と、電波の送受信を行なうアンテナ34と、を備える。
コントローラ40は、CPU42を中心とするマイクロプロセッサとして構成されており、CPU42の他に各種処理プログラムを記憶するROM44と、データを一時的に記憶するRAM46と、データを記憶するフラッシュメモリ48と、図示しない入出力ポートと、を備える。コントローラ40には、カメラ26により撮影された画像データやマイク28により集音された音声信号,送受信回路32からのデータなどが入力ポートを介して入力されている。コントローラ40からは、ディスプレイ22への表示信号やスピーカ24への音声信号,送受信回路32へのデータなどが出力ポートを介して出力されている。実施例では、カメラ26により撮影された画像データは、RGB(レッド,グリーン,ブルー)各8ビットの所定画素数N1(例えば、数十万画素や数百万画素など)のカラー画像データであるものとした。
図3は、端末装置20のコントローラ40の動画および音声の情報を処理する機能に着目した機能ブロックの一例を示す説明図である。この機能は、ROM44に記憶された処理プログラムをCPU42が読み出して実行することにより実現される。コントローラ40は、図示するように、カメラ26からの画像データに一画素あたりのビット数の低減や画素数の低減,明るさの調整,コントラストの調整などの画像処理を適用して画像を調整すると共に画像データをディスプレイ22に表示可能に調整する画像調整部52と、画像調整部52により調整された画像データを標本化し量子化して符号化すると共に符号化された画像データを復号する画像符号化復号部62と、マイク28からの音声信号にトーン(声調)の調整などの音声処理を適用して音声を調整する音声調整部54と、音声調整部54により調整された音声信号を標本化し量子化して符号化すると共に符号化された音声データを復号する音声符号化復号部64と、画像符号化復号部62により符号化された画像データと音声符号化復号部64により符号化された音声データとを多重化すると共に符号化された画像データと音声データとを分離する多重化分離部66と、を備え、カメラ26により撮影された動画とマイク28により集音された音声とを符号化して多重化したデータを送受信回路32により送信すると共に、送受信回路32により受信した動画と音声とが多重化されたデータを分離してそれぞれディスプレイ22に動画を表示しスピーカ24から音声を出力することができるようになっている。実施例では、コントローラ40における画像符号化復号部62と音声符号化復号部64と多重化分離部66との各機能については、規格化された標準的な圧縮技術(例えば、MPEG(Moving Picture Experts Group)−4など)に従うものとし、画像符号化復号部62ではハフマン符号化により画像を圧縮すると共に音声符号化復号部64ではベクトル量子化により音声を圧縮し、画像符号化復号部62により符号化された動画の単位時間あたりのフレーム数は、1秒あたりの整数値で表されるレートとしての所定フレームレートFr1(例えば、数十fpsなど)であるものとした。
次に、こうして構成された実施例の端末装置20の動作、特に通信ネットワーク12を介して受信者側の端末装置20に動画と音声とを送信する際の動作について説明する。図4は、コントローラ40により実行される動画音声送信処理ルーチンの一例を示すフローチャートである。このルーチンは、ROM44に記憶された処理プログラムを読み出すことにより実行され、受信者側の端末装置20が指定されると共に、カメラ26により撮影された画像データに送信者としてのユーザの顔の領域があると判定されているときに所定時間Tset毎に繰り返し実行される。顔の領域の判定は、例えば、撮影された画像データのうち人肌の色の画素により形成される形状がROM44に予め記憶された複数のテンプレートにおける顔の画像の形状に相当するか否かを判定したりするなど、周知の手法により行なうことができ、実施例では、カメラ26からの画像の面積に占める顔の領域の割合が過小でない所定の割合(例えば、20%や30%など)以上であることを条件として顔の領域があると判定されるものとした。また、所定時間Tsetは、送信される動画の単位時間あたりのフレーム数を所定フレームレートFr1とするのに適した時間であるものとし、実施例では、所定フレームレートFr1の逆数(Tset=1/Fr1)を用いるものとする。
動画音声送信処理ルーチンが実行されると、コントローラ40のCPU42は、まず、カメラ26により撮影された画像データやマイク28により集音された音声信号など処理に必要なデータや信号を入力し(ステップS100)、入力した画像データから両目及びその両目の周辺部位を含む領域としての両目領域を検出すると共に(ステップS110)、検出した両目領域に相当する両目領域画像データと、入力した画像データから両目領域を除いた領域に相当する両目除外画像データとを生成する処理を実行する(ステップS120)。ここで、両目領域は、実施例では、両目,眉毛,眉間,そして鼻根(鼻のつけ根)が含まれるように縦横比が予め定められた矩形状の領域であるものとした。また、両目領域の検出は、顔の領域の中央より上部で人肌の色の画素の領域よりも輝度値の低い顔の幅方向に並ぶ2つの領域を目の領域として検出したりするなど、周知の手法により行なうことができる。図5にカメラ26による撮影画像70における両目領域画像72および両目除外画像74の一例を模式的に示す。なお、ステップS110,S120の処理は、コントローラ40の画像調整部52より行なわれる。
こうして両目領域画像データと両目除外画像データとを生成すると、生成した両目領域画像データを前述の所定フレームレートFr1で符号化することにより両目領域画像の符号化データを生成し(ステップS130)、初期値が値0のカウンタCを閾値Crefと比較し(ステップS140)、カウンタCが閾値Cref未満のときには、両目除外画像を符号化しないと判断して、カウンタCをインクリメントする(ステップS150)。ここで、カウンタCを閾値Crefと比較するのは、両目除外画像データを所定フレームレートFr1より小さい処理用フレームレートFr2で符号化するためであり、閾値Crefは、実施例では、処理用フレームレートFr2に対する所定フレームレートFr1の比(Cref=Fr1/Fr2)を用いるものとした。処理用フレームレートFr2は、実施例では、所定フレームレートFr1の正の約数としての整数値で表されるものとするが、詳細は後述する。なお、ステップS130の処理は画像符号化復号部62により行なわれる。
こうして両目領域画像の符号化データを生成すると、入力した音声信号を符号化することにより音声の符号化データを生成し(ステップS180)、両目領域画像と音声との各符号化データを多重化分離部66で多重化すると共に多重化したデータが通信ネットワーク12を介して受信者側の端末装置20に送信されるよう多重化分離部66から送受信回路32にデータを出力し(ステップS190)、動画音声送信処理ルーチンを終了する。なお、ステップS180の処理は音声調整部54による調整が特に行なわれずに音声信号を入力した音声符号化復号部64により行なわれる。
一方、ステップS140でカウンタCが閾値Cref以上のときには、両目除外画像を符号化すると判断し、両目除外画像データを処理用フレームレートFr2で符号化することにより両目除外画像の符号化データを画像符号化復号部62で生成すると共に(ステップS160)、カウンタCを値0にリセットし(ステップS170)、音声の符号化データを生成し(ステップS180)、両目領域画像と両目除外画像と音声との各符号化データを多重化分離部66で多重化すると共に多重化したデータが通信ネットワーク12を介して受信者側の端末装置20に送信されるよう多重化分離部66から送受信回路32にデータを出力して(ステップS190)、動画音声送信処理ルーチンを終了する。ここで、処理用フレームレートFr2について説明する。処理用フレームレートFr2は、両目除外画像の動画としての情報量を小さくするためのものであり、実施例では、動画と音声との受信者が顔の画像と音声とから送信者の感情などの様子を読み取ることができる範囲内で比較的小さい方のレートとして実験などにより予め定められた値(例えば、数fpsなど)を用いるものとした。図6に端末装置20の送受信部30により送信される両目領域画像72および両目除外画像74のフレーム毎の画像データの一例を示す。こうして送信された画像と音声との符号化データを受信した受信者側の端末装置20では、受信した画像と音声とが多重化されたデータを分離してそれぞれ復号すると共に、復号された両目除外画像データに対してこの両目除外画像データより高頻度で復号され更新される両目領域画像データを画像調整部52で組み込むことによってディスプレイ22に動画を表示し、スピーカ24から音声を出力する。図7に送信された画像データが受信者側の端末装置20で表示される様子の一例を示す。図中、波線は、両目領域画像の境界を示すが、ディスプレイ22には表示されない。
ここで、両目除外画像のフレームレートを両目領域画像より小さくして顔の画像を送信する理由について説明する。両目とその周辺の画像があれば、まばたきの様子や瞳孔の大きさ,眉間のしわなどからヒトは相手の感情をある程度読み取ることができると共に知人の場合にはある程度個人を識別することができ、眉毛付近の骨格に存在する性差などからある程度性別を判別することができる。また、音声があれば、声の抑揚や大きさなどからヒトは相手の感情をある程度読み取ることができると共に、いわゆるマガーク効果からも解るようにヒトは音声から口の動きをある程度想像することができる。即ち、ヒト同士の遠隔コミュニケーションにおいて、顔の画像のうち両目とその周辺の情報は他の部分に比して特に重要であるということができる。したがって、両目除外画像のフレームレートを小さくして動画としての情報量を少なくすることにより、コミュニケーションを阻害することなく送信するデータ量が過大になるのを抑制することができると共に、両目領域画像の動画としての情報量を両目除外画像より多くすることにより、コミュニケーションに重要な両目とその周辺の情報をより確実に伝達することができるのである。
以上説明した実施例の端末装置20によれば、カメラ26により撮影した画像データにユーザの顔の領域があるときに、撮影した画像データから両目及びその両目の周辺部位を含む両目領域に相当する両目領域画像データと両目領域を除いた領域に相当する両目除外画像データとを生成し、両目除外画像データのフレームレートが両目領域画像データより小さくなるように両画像の符号化データを生成し、生成した両画像の符号化データとマイク28からの音声の符号化データとを送受信部30により送信するから、送信するデータ量が過大になるのを抑制すると共にコミュニケーションに重要な情報をより確実に伝達することができる。
実施例の端末装置20では、両目領域画像データを所定フレームレートFr1で符号化すると共に両目除外画像データを所定フレームレートFr1より小さい処理用フレームレートFr2で符号化するものとしたが、これに代えて又は加えて、両目領域画像データをその一画素あたりのビット数をカメラ26からの画像データのRGB各8ビットのままで符号化すると共に両目除外画像データをその一画素あたりのビット数を8ビットより小さいRGB各4ビットなどに変換してから符号化するものとしたり、両目領域画像データをその画素数をカメラ26からの画像データの所定画素数N1のままで符号化すると共に両目除外画像データをその画素数を所定画素数N1より小さい1/4の画素数などに変換してから符号化するものとしたりしてもよい。一画素あたりのビット数を変換する場合には、両目除外画像データについてはグレースケール画像に変換するものとしてもよく、画素数を変換する場合には、受信者側の端末装置20では顔の画像が適正に表示されるように両目除外画像データの表示されるサイズを調整して両目領域データと組み合わせるものとすればよい。これらに代えて又は加えて、両目領域画像データをハフマン符号化により圧縮すると共に両目除外画像データをベクトル量子化により圧縮したり、両目除外画像データを両目領域画像データより荒い量子化を行なって符号化したりするものとしても構わない。
実施例の端末装置20では、両目領域画像と音声との符号化データを多重化したり両目領域画像と両目除外画像と音声との符号化データを多重化して送受信部30により送信するものとしたが、両目除外画像データを生成することなく(両目除外画像データのフレームレートを値0として)、両目領域画像データを生成して所定フレームレートFr1で符号化すると共に音声信号を符号化し、両目領域画像と音声との符号化データを多重化して送受信部30により送信するものとしてもよい。これは、ヒトは自らが受け入れやすいように情報を補完する特性、言い換えると、ヒトは相手の魅力が増すように想像して情報を補完する特性を有することなどに基づく。したがって、撮影された画像のうち両目除外画像を送信しないことにより、撮影された画像全体を送信するものに比して、送信するデータ量を抑制することができると共に、ユーザの魅力を増大させた状態でユーザ自身の感情などの様子を伝達することができる。こうした特性を利用して両目領域画像のみと音声とを送信する場合、画像と音声の送信者としてのユーザの魅力が増すように、画像調整部52で画像データの明るさやコントラストを調整したり(例えば、肌の色を明るく調整し肌のシワやシミを目立たなくするなど)、画像調整部52で瞳孔の大きさを調整したり、音声調整部54で音声信号のトーンを調整したりしてもよい。こうすれば、ユーザの魅力を増大させた状態でユーザ自身の感情などの様子を伝達することができる。更にこの場合、両目領域画像データをグレースケール画像に変換するものとしてもよい。こうすれば、送信するデータ量を更に抑制することができる。
実施例の端末装置20では、両目領域は、両目,眉毛,眉間,そして鼻根が含まれるように縦横比が予め定められた矩形状の領域であるものとしたが、両目とその周辺部位を含む領域であれば、例えば、眉毛の上端や左右端が含まれない矩形状の領域であるものとしてもよいし、両耳が含まれる矩形状の領域であるものとしてもよいし、楕円形状の領域であるものとしてもよい。
実施例の端末装置20は、遠隔コミュニケーションに用いられる例えば携帯電話などの無線通信による通信端末として構成されているものとしたが、遠隔コミュニケーションに用いられるものであれば、例えばインターネットなど有線通信のネットワークを介して他の端末装置に接続可能な一般的なパーソナルコンピュータなどの端末装置として構成されているものとしてもよい。
実施例では、遠隔コミュニケーションシステム10は、遠隔地のヒト同士のコミュニケーションを行なうシステムであるものとしたが、遠隔コミュニケーションを行なうものであれば、例えば人工知能を搭載した機械とヒトとの遠隔コミュニケーションを行なうシステムなどとしてもよい。
実施例では、端末装置20の形態として説明したが、遠隔コミュニケーションシステム10の形態としたり、端末装置20の制御方法の形態としたり、端末装置20のコントローラ40や端末装置20以外のコンピュータにより実行されるプログラムの形態としてもよい。
実施例の主要な要素と課題を解決するための手段の欄に記載した発明の主要な要素との対応関係について説明する。実施例では、送受信部30が「情報送受信手段」に相当し、ディスプレイ22が「動画表示手段」に相当し、スピーカ24が「音声出力手段」に相当し、カメラ26が「画像撮影手段」に相当し、マイク28が「音声入力手段」に相当し、カメラ26により撮影した画像データにユーザの顔の領域があるときに、撮影した画像データから両目及びその両目の周辺部位を含む両目領域に相当する両目領域画像データと両目領域を除いた領域に相当する両目除外画像データとを生成し、両目除外画像データのフレームレートが両目領域画像データより小さくなるように両画像の符号化データを生成し、生成した両画像の符号化データとマイク28からの音声の符号化データとを送受信部30により送信する図4の動画音声送信処理ルーチンを実行するコントローラ40が「送信処理手段」に相当する。また、通信ネットワーク12が「ネットワーク」に相当する。
ここで、「情報送受信手段」としては、アンテナ34を含む送受信部30に限定されるものではなく、有線通信に用いられるものなど、動画と音声を含む情報を送受信するものであれば如何なるものとしても構わない。「動画表示手段」としては、液晶を利用したディスプレイ22に限定されるものではなく、有機エレクトロルミネッセンス(有機EL)を利用したものなど、受信した動画を表示するものであれば如何なるものとしても構わない。「音声出力手段」としては、装置本体に内蔵されたスピーカ24に限定されるものではなく、装置本体と着脱可能に接続されたものなど、受信した音声を出力するものであれば如何なるものとしても構わない。「画像撮影手段」としては、撮影素子としてCCDを利用したカメラ26に限定されるものではなく、撮影素子としてCMOS(相補性金属酸化膜半導体)を利用したものなど、画像を動画として撮影するものであれば如何なるものとしても構わない。「音声入力手段」としては、装置本体に内蔵されたマイク28に限定されるものではなく、装置本体と着脱可能に接続されたものなど、音声を入力するものであれば如何なるものとしても構わない。「送信処理手段」としては、単一のコントローラ40によるものではなく、複数のコントローラの組み合わせによるものとしてもよい。また、「送信処理手段」としては、カメラ26により撮影した画像データにユーザの顔の領域があるときに、撮影した画像データから両目領域に相当する両目領域画像データと両目領域を除いた領域に相当する両目除外画像データとを生成し、両目除外画像データのフレームレートが両目領域画像データより小さくなるように両画像の符号化データを生成し、生成した両画像の符号化データとマイク28からの音声の符号化データとを送受信部30により送信するものに限定されるものではなく、両目除外画像データの一画素あたりのビット数を両目領域画像データより小さくして送信したり両目除外画像データを送信しないものなど、撮影した画像にユーザの顔の領域があるときに、撮影した画像からユーザの両目および両目の周辺部位を含む領域の画像である両目領域画像を除いた両目除外画像の動画としての情報量が両目領域画像より少なくなるように送信用画像を作成し、作成した送信用画像と入力した音声とを情報送受信手段により送信する処理を実行するものであれば如何なるものとしても構わない。また、「ネットワーク」としては、端末装置20とは無線通信を行なう通信ネットワーク12に限定されるものではなく、有線通信によるものなど、複数の端末装置を通信可能に接続するものであれば如何なるものとしても構わない。
なお、実施例の主要な要素と課題を解決するための手段の欄に記載した発明の主要な要素との対応関係は、実施例が課題を解決するための手段の欄に記載した発明を実施するための形態を具体的に説明するための一例であることから、課題を解決するための手段の欄に記載した発明の要素を限定するものではない。即ち、課題を解決するための手段の欄に記載した発明についての解釈はその欄の記載に基づいて行なわれるべきものであり、実施例は課題を解決するための手段の欄に記載した発明の具体的な一例に過ぎないものである。
以上、本発明を実施するための形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において、種々なる形態で実施し得ることは勿論である。
本発明は、端末装置の製造産業などに利用可能である。
10 遠隔コミュニケーションシステム、12 通信ネットワーク、14 基地局、20 端末装置、22 ディスプレイ、24 スピーカ、26 カメラ、28 マイク、30 送受信部、32 送受信回路、34 アンテナ、40 コントローラ、42 CPU、44 ROM、46 RAM、48 フラッシュメモリ、52 画像調整部、54 音声調整部、62 画像符号化復号部、64 音声符号化復号部、66 多重化分離部、70 撮影画像、72 両目領域画像、74 両目除外画像。
Claims (7)
- 遠隔コミュニケーションに用いられる端末装置であって、
動画と音声を含む情報を送受信する情報送受信手段と、
前記受信した動画を表示する動画表示手段と、
前記受信した音声を出力する音声出力手段と、
画像を動画として撮影する画像撮影手段と、
音声を入力する音声入力手段と、
前記撮影した画像にユーザの顔の領域があるとき、前記撮影した画像から前記ユーザの両目および該両目の周辺部位を含む領域の画像である両目領域画像を除いた両目除外画像の動画としての情報量が前記両目領域画像より少なくなるように送信用画像を作成し、該作成した送信用画像と前記入力した音声とを前記情報送受信手段により送信する処理を実行する送信処理手段と、
を備える端末装置。 - 請求項1記載の端末装置であって、
前記送信処理手段は、単位時間あたりのフレーム数が第1フレーム数の前記両目領域画像と単位時間あたりのフレーム数が前記第1フレーム数より小さい第2フレーム数の前記両目除外画像とを前記送信用画像として作成する手段である、
端末装置。 - 請求項1または2記載の端末装置であって、
前記送信処理手段は、一画素あたりのデータ量が第1データ量の前記両目領域画像と一画素あたりのデータ量が前記第1データ量より小さい第2データ量の前記両目除外画像とを前記送信用画像として作成する手段である、
端末装置。 - 請求項1記載の端末装置であって、
前記送信処理手段は、前記両目領域画像を前記送信用画像として作成し、前記両目除外画像を送信することなく前記作成した送信用画像と前記入力した音声とを前記情報送受信手段により送信する処理を実行する手段である、
端末装置。 - 請求項1ないし4のいずれか1つの請求項に記載の複数の端末装置と、
前記複数の端末装置を通信可能に接続するネットワークと、
を備える遠隔コミュニケーションシステム。 - 動画と音声を含む情報を送受信する情報送受信手段と、前記受信した動画を表示する動画表示手段と、前記受信した音声を出力する音声出力手段と、画像を動画として撮影する画像撮影手段と、音声を入力する音声入力手段と、を備え、遠隔コミュニケーションに用いられる端末装置の制御方法であって、
前記撮影した画像にユーザの顔の領域があるとき、前記撮影した画像から前記ユーザの両目および該両目の周辺部位を含む領域の画像である両目領域画像を除いた両目除外画像の動画としての情報量が前記両目領域画像より少なくなるように送信用画像を作成し、該作成した送信用画像と前記入力した音声とを前記情報送受信手段により送信する処理を実行する、
ことを特徴とする端末装置の制御方法。 - 請求項6記載の端末装置の制御方法をコンピュータに実現させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010110026A JP2011239263A (ja) | 2010-05-12 | 2010-05-12 | 端末装置および遠隔コミュニケーションシステム並びに端末装置の制御方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010110026A JP2011239263A (ja) | 2010-05-12 | 2010-05-12 | 端末装置および遠隔コミュニケーションシステム並びに端末装置の制御方法、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011239263A true JP2011239263A (ja) | 2011-11-24 |
Family
ID=45326737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010110026A Pending JP2011239263A (ja) | 2010-05-12 | 2010-05-12 | 端末装置および遠隔コミュニケーションシステム並びに端末装置の制御方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011239263A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9166298B2 (en) | 2012-08-24 | 2015-10-20 | Kabushiki Kaisha Toshiba | Wireless device, and information processing apparatus and storage device including the wireless device |
-
2010
- 2010-05-12 JP JP2010110026A patent/JP2011239263A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9166298B2 (en) | 2012-08-24 | 2015-10-20 | Kabushiki Kaisha Toshiba | Wireless device, and information processing apparatus and storage device including the wireless device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113422903B (zh) | 拍摄模式切换方法、设备、存储介质 | |
CN107771395B (zh) | 生成和发送用于虚拟现实的元数据的方法和装置 | |
KR102385365B1 (ko) | 전자 장치 및 전자 장치에서 이미지 데이터를 압축하는 방법 | |
CN113473005B (zh) | 拍摄中转场动效插入方法、设备、存储介质 | |
CN103460250A (zh) | 基于感兴趣对象的图像处理 | |
KR102386385B1 (ko) | 전자 장치 및 전자 장치의 이미지 압축 방법 | |
US20230162323A1 (en) | Image frame super-resolution implementation method and apparatus | |
CN112954251B (zh) | 视频处理方法、视频处理装置、存储介质与电子设备 | |
CN113596321B (zh) | 转场动效的生成方法、设备和存储介质 | |
CN111526407B (zh) | 屏幕内容的显示方法及装置 | |
US20230230196A1 (en) | Casting Control Method and Apparatus | |
CN113726815B (zh) | 一种动态调整视频的方法、电子设备、芯片系统和存储介质 | |
CN113852755A (zh) | 拍摄方法、设备、计算机可读存储介质及程序产品 | |
US10757426B2 (en) | Method and apparatus for processing image data | |
JP2011239263A (ja) | 端末装置および遠隔コミュニケーションシステム並びに端末装置の制御方法、プログラム | |
CN113923351B (zh) | 多路视频拍摄的退出方法、设备和存储介质 | |
CN113596320B (zh) | 视频拍摄变速录制方法、设备、存储介质 | |
JP2020115299A (ja) | 仮想空間情報処理装置、方法、プログラム | |
CN117440194A (zh) | 一种投屏画面的处理方法及相关装置 | |
CN113923528B (zh) | 屏幕共享方法、终端和存储介质 | |
KR100879648B1 (ko) | 절전형 화상통화 기능을 가지는 휴대용 단말기 및 휴대용단말기의 절전형 화상통화 방법 | |
KR101232537B1 (ko) | 화상통신 단말기 및 화상통신 단말기에서 화상통신 방법 | |
CN114697731A (zh) | 投屏方法、电子设备及存储介质 | |
CN115623213A (zh) | 视频编码方法、装置、系统和电子设备 | |
CN114339140A (zh) | 一种可交互监控装置、视频传输方法及装置 |