JP2009027246A - テレビ会議装置 - Google Patents

テレビ会議装置 Download PDF

Info

Publication number
JP2009027246A
JP2009027246A JP2007185693A JP2007185693A JP2009027246A JP 2009027246 A JP2009027246 A JP 2009027246A JP 2007185693 A JP2007185693 A JP 2007185693A JP 2007185693 A JP2007185693 A JP 2007185693A JP 2009027246 A JP2009027246 A JP 2009027246A
Authority
JP
Japan
Prior art keywords
video
video data
data
sound
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007185693A
Other languages
English (en)
Inventor
Toshiaki Ishibashi
利晃 石橋
Akio Yamane
章生 山根
Jun Asami
純 浅見
Satoshi Suzuki
智 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007185693A priority Critical patent/JP2009027246A/ja
Publication of JP2009027246A publication Critical patent/JP2009027246A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】話者のみでなく会議者全体の表情が分かりやすい映像を生成する、小規模で取り扱いが容易なテレビ会議装置を実現する。
【解決手段】
テレビ会議装置1のメイン制御部10は、相手先のテレビ会議装置からスキャン制御を受け付けると、映像制御部13は、カメラCA1〜CA3で生成した映像データ501〜503をテレビ会議装置1の長尺方向に沿って、映像データ503,501,502の順に配置した仮全体映像データの領域を設定する。映像制御部13は、仮全体映像データ領域の映像データ503側の端部601から映像データ502側の端部602に亘り、予め設定した映像領域サイズに準じて、フレーム映像データ511〜51nを順次切り出して出力する。
【選択図】 図6

Description

この発明は、互いに離れた位置の会議室間で映像と音声とを通信することにより会議を行うテレビ会議装置に関するものである。
従来、遠隔地間で会議を行うシステムとして、音声を通信する音声会議システムが各種存在するが、音声とともに映像も通信するテレビ会議システムが普及しつつある。このようなテレビ会議システムでは、相手先の話者を含む会議者の映像を見ながら会議を行うことができる。そして、このようなテレビ会議の映像構成方法が各種考案されている。例えば、特許文献1では、広範囲を撮像範囲とする全体映像と局所ズームによる話者映像とを一つの画面内の別枠に表示させている。
特開平2−202275号公報
しかしながら、特許文献1の構成では、会議者毎にマイクを設置し、かつこれらの会議者から離れた位置に首振りカメラを設置するため、システムが大規模になるとともに、設置等の取り扱いが容易ではなくなる。さらに、特許文献1の方法では、話者映像はズームされるため表情等を伝達しやすいが、話者以外の会議者の映像は、広範囲が撮像範囲となる、いわゆる引きの映像であるので、各会議者の表情が伝え難く、これに伴い、場の臨場感を伝え難い。
したがって、本発明の目的は、話者のみでなく会議者全体の表情が分かりやすい映像を生成する、小規模で取り扱いが容易なテレビ会議装置を実現することにある。
この発明は、自装置周りを収音して音声データを生成する収音手段と、それぞれに異なる撮像領域を撮像して映像データを生成する複数のカメラと、該複数のカメラの映像データに基づいて出力用映像データを生成する出力用映像データ生成手段と、音声データと出力用映像データとを関連付けして通信映像音声データを生成して送信する通信制御手段と、を一つの筐体に備えたテレビ会議装置に関するものである。
そして、この発明のテレビ会議装置は、外部からの制御コマンドを受け付ける制御コマンド受付手段を備えるとともに、複数のカメラが、それぞれの撮像領域が特定方向に沿って連続するように設定される。このテレビ会議装置の制御コマンド受付手段がスキャン制御コマンドを受け付けると、出力用映像データ生成手段は、複数のカメラの映像データにより構成される全体映像データを、特定方向に沿って順次切り出し領域をずらしながら所定サイズの映像領域毎に切り出すことでスキャン映像データを生成し、出力用映像データとして出力する。
この構成では、外部、例えば、ネットワーク接続されている相手先のテレビ会議装置から、スキャン制御コマンドを受け付けると、現状の映像データの態様(例えば、特定のカメラの映像が出力中)にかかわらず、スキャン映像データを生成して出力する。スキャン映像データは、それぞれに異なる撮像領域を有しスキャン方向に沿って各撮像領域が連続するように配置された複数のカメラの映像データを部分的にスキャン方向に沿って順次切り出すことにより生成される。このような構成および処理により、一つの筐体で撮像、収音が行われ、且つ、引きの映像のような一画面に会議者全員が入る映像を用いることなく、会議者全員の映像が実現される。
また、この発明のテレビ会議装置の出力用映像データ生成手段は、スキャン制御コマンドを受け付けると、全てのカメラからの切り出し映像領域の映像倍率を同じにする。
この構成では、スキャン制御コマンドの受け付け前に、各カメラの映像データの映像倍率が統一されていないような状況でも、スキャン制御時には映像倍率が統一される。
また、この発明のテレビ会議装置の複数のカメラは、それぞれの撮影軸の方向が異なる配置で前記筐体に設置される。テレビ会議装置の出力用映像データ生成手段は、切り出す映像領域が先のカメラから後のカメラへ移行する際に、先のカメラの撮影軸から後のカメラの撮影軸へ、それぞれのカメラの撮影軸間の角度に準じて徐々に撮影軸が変化するように映像補正を行う。
この構成では、複数のカメラが撮影軸を異ならせて筐体に設置されている。これにより、各カメラの撮像範囲が同じであっても、複数のカメラ全体としてほぼ同じ撮像範囲にならず、より広い撮像範囲の映像データが得られる。この場合、撮像軸方向が異なるので、同じ会議者を隣り合うカメラで撮像した場合の二つの映像での会議者の姿態が異なる。したがって、これらの映像から、連続して切り替わるスキャン映像を生成する場合、映像間での不連続さを感じさせてしまう。このため、撮像軸の変化に伴う映像の角度補正を行うことで、前記映像間での不連続さが低減される。これにより、さらに滑らかにスキャンするスキャン映像データが得られる。
また、この発明のテレビ会議装置の収音手段は、複数のマイクと、該複数のマイクの収音音声データからそれぞれに異なる収音指向性を有する複数の収音ビーム音声データを取得して、該複数の収音ビーム音声データのレベルから話者方位を検出する収音制御手段と、を備える。この収音制御手段は、当該話者方位を前記出力用映像データ生成手段へ与える。出力用映像データ生成手段は、話者方位を取得すると、当該話者方位を含む所定サイズの映像領域を切り出して話者映像データを生成し、該話者映像データを出力用映像データとする。
この構成では、話者が検出されると、スキャン中であっても話者を含む撮像領域の映像データに切り替わる。これにより、会議者全体の映像を出力できるとともに、話者の映像をより確実に取得して出力することができる。
この発明によれば、一つの筐体という簡素な構成で、収音、撮像を行うことができるととともに、話者のみでなく会議者全体の表情が分かりやすい映像を出力することができる。これにより、会議全体の雰囲気が掴みやすく臨場感のあるテレビ会議を簡素な構成で容易に実現することができる。
本発明の実施形態に係るテレビ会議装置について、図を参照して説明する。
図1は、本実施形態のテレビ会議装置の外観斜視図である。なお、本実施形態のテレビ会議装置は、正面壁に設置されたマイクアレイ、スピーカアレイの前方にパンチングメッシュ等からなるカバーが設置されているが本図では図示を省略する。
図1に示すように、テレビ会議装置1は略長尺形状からなる放収音素子設置筐体と制御系回路設置筐体とからなる。放収音素子設置筐体は長尺方向に沿った二側面をそれぞれ正面壁および背面壁とし、正面壁にマイクMC1〜MC16、スピーカSP1〜SP14、カメラCA1〜CA3が設置され、背面壁側に制御系回路設置筐体が設置されている。
マイクMC1〜MC16は、同じ機構及び同じ収音特性を有するものであり、前記長尺方向に沿う一直線に所定間隔で、正面壁の天面側に設置されている。マイクMC1〜MC16は、配列方向の中心付近(すなわち正面方向からみた中心付近)では狭いピッチに配置され、配列方向の両端付近では広いピッチで配置される。マイクMC1〜MC16は、正面壁から外方側を収音範囲とするように設置される。このようなマイクMC1〜MC16により、正面方向を収音範囲とするマイクアレイが形成される。
スピーカSP1〜SP14は、同じ機構および同じ放音特性を有するものであり、前記長尺方向に沿う一直線に所定間隔で、正面壁の垂直方向中心位置に設置されている。スピーカSP1〜SP14は、正面壁から外方側を放音方向とするように設置される。このようなスピーカSP1〜SP14により、正面方向を放音範囲とするスピーカアレイが形成される。
カメラCA1〜CA3は、同じ機構および同じ撮像特性を有するものである。
カメラCA1は、正面壁の底面側で、長尺方向の中心位置(すなわち正面方向からみた中心位置)に設置されている。カメラCA1は、撮像範囲の中心方向が正面壁に垂直な方向となるように設置されている。
カメラCA2は、正面壁の底面側で、長尺方向の一方端(図1であれば、テレビ会議装置1を正面視した状態での右端)に設置されている。カメラCA2は、撮像範囲の中心方向が正面壁に対して所定の角度、例えば、図1であれば、テレビ会議装置1を正面視した状態で、正面壁の右端から左端前方の所定位置を向く角度(約45度等)に設定されている。
カメラCA3は、正面壁の底面側で、長尺方向の一方端(図1であれば、テレビ会議装置1を正面視した状態での左端)に設置されている。カメラCA3は、撮像範囲の中心方向が正面壁に対して所定の角度、例えば、図1であれば、テレビ会議装置1を正面視した状態で、正面壁の左端から右端前方の所定位置を向く角度(約45度等)に設定されている。カメラCA2の撮像範囲とカメラCA3の撮像範囲とは、カメラCA1の撮像範囲の中心方向を基準軸として対称に設定されている。そして、これらカメラCA1〜CA3の撮像範囲は、それぞれの撮像範囲を連続させることで、テレビ会議装置1の正面側で長尺方向に沿う略全周囲が撮像されるように設定されている。
テレビ会議装置1の制御系回路設置筐体には、上述のマイクMC1〜MC16によるマイクアレイ、スピーカSP1〜SP14によるスピーカアレイ、およびカメラCA1〜CA3を除く機能部が設置されている。
図2は、本実施形態のテレビ会議装置1の機能ブロックの構成および外部との接続関係を示した図である。
図2に示すように、テレビ会議装置1は、上述のマイクMC1〜MC16、スピーカSP1〜SP14、およびカメラCA1〜CA3とともに、メイン制御部10、収音制御部11、エコーキャンセラ12、映像制御部13、放音制御部14、通信制御部15、操作部16、を備える。
メイン制御部10は、予め工場出荷時等から設定されたテレビ会議装置1の全体制御を行う。
メイン制御部10は、操作部16により入力された操作内容に準じた制御を行う。この制御に準じて、操作部16によりカメラのズーム操作が行われると、メイン制御部10は、操作部16のズーム操作内容を取得して、映像制御部13へズーム制御を行う。また、操作部16によりカメラの切り替え操作が行われると、メイン制御部10は、操作部16のカメラ切り替え内容を取得して、映像制御部13へカメラ切り替え制御を行う。
メイン制御部10は、通信制御部15を介してネットワーク900により接続された他のテレビ会議装置からのリモート操作コマンドを受け付けて、当該リモート操作コマンドに準じた制御を行う。この制御に準じて、メイン制御部10は、ネットワーク900および通信制御部15を介してスキャン映像出力要求コマンドを受け付けると、映像制御部13へスキャン映像生成制御を行う。
メイン制御部10は、収音制御部11で選択された収音ビーム音声データの選択情報を取得して、話者方位を検出する。メイン制御部10は、検出した話者方位に基づく話者方位情報を映像制御部13へ出力したり、検出した話者方位を撮像範囲とするカメラを選択して、話者方位カメラ情報として映像制御部13へ出力する。
また、メイン制御部10は、検出した話者方位を示す話者方位情報を通信制御部15に与え、当該話者方位情報に対応する収音ビーム音声データからなる出力音声データに関連付けして送信させる制御を、通信制御部15へ与える。また、メイン制御部10は、通信制御部15で受信した相手先のテレビ会議装置の出力音声データに関連付けされた話者方位データを取得し、当該話者方位データに応じた音源定位を行う制御を、放音制御部14へ与える。
マイクMC1〜MC16は、自装置(テレビ会議装置1)の正面側の音声を収音して収音信号を生成し、収音制御部11へ出力する。
収音制御部11は、各マイクMC1〜MC16の収音信号に対して、それぞれに異なる遅延処理および振幅処理パターンで信号処理を行うことで、それぞれに異なる方位を収音指向性の中心方向とする複数の収音ビーム音声データを生成する。より具体的には、収音制御部11は、各マイクMC1〜MC16の収音信号を所定増幅率で増幅し、A/D(アナログ−デジタル)変換することで、個別収音音声データを生成する。収音制御部11は、それぞれに異なる収音指向性を実現させる個別収音音声データ毎の遅延係数および振幅係数を予め記憶している。収音制御部11は、設定された収音指向性毎に、これら遅延係数、振幅係数に基づくフィルタ処理を各個別収音音声データに実行することで、それぞれに異なる収音指向性からなる収音ビーム音声データを生成する。
収音制御部11は、生成した複数の収音ビーム音声データのレベル(音声レベル)を比較し、予め設定した有音検出閾値レベルを超える収音ビーム音声データを選択し、エコーキャンセラ12へ出力する。
収音制御部11は、選択した収音ビーム音声データを特定する選択情報をメイン制御部10へ与える。
エコーキャンセラ12は、適応型フィルタとポストプロセッサとを備える。適応型フィルタは、通信制御部15から出力される相手先テレビ会議装置からの出力音声データに基づく疑似回帰音データを生成して、ポストプロセッサへ与える。ポストプロセッサは加算器を備え、加算器は、収音制御部11から出力された収音ビーム音声データから疑似回帰音データを減算してエコーキャンセルを行うことで出力音声データを生成して通信制御部15へ出力する。この際、ポストプロセッサはエコーキャンセル結果を適応型フィルタへフィードバックする。
カメラCA1〜CA3は、上述のようにそれぞれ異なる撮像範囲を撮像することで映像データを生成して、映像制御部13へ出力する。
映像制御部13は、話者方位カメラ情報を受け付けると、当該話者方位カメラ情報に従って、各カメラCA1〜CA3からの映像データを選択して出力する。また、映像制御部13は、ズーム制御を受け付けると、ズーム制御に基づく拡大量に応じて、現在使用中のカメラの映像データの映像切り出し領域を小さくして、元の映像データの大きさまで拡大する映像処理を行う。また、映像制御部13は、カメラ切り替え制御を受け付けると、選択されたカメラの映像データを出力する制御を行う。
映像制御部13は、スキャン映像生成制御を受け付けると、カメラCA1〜CA3の映像データ群に基づく全体映像を、上述の長尺方向に沿って、順次、所定映像サイズで切り出す処理を行う。すなわち、スキャン映像データとして出力される映像データサイズが予め設定されており、映像制御部13は、例えば、詳細を後述する図6(A)に示すように、長尺方向の一方端の領域を撮影するカメラCA3の映像データ503から、カメラCA1の映像データ501を介して、他方端の領域を撮影するカメラCA2の映像データ502へ順次切り出し領域が所定ピッチで移行する、図6(B)に示すような各コマの映像データが順次出力される形態からなるスキャン映像データを生成する。これにより、全体の会議者が一つの映像領域内に映される広角な映像を用いることなく、会議者全員を映した映像を出力することができる。この際、映像制御部13は、各カメラCA1〜CA3の倍率が等倍となるように設定する。すなわち、当該スキャン映像生成制御の前に、カメラCA1〜CA3のそれぞれに個別のズーム制御が行われていても、映像制御部13は、スキャン映像生成制御を受け付けると、切り出す各映像データの元映像に対する倍率が同じになる制御を行う。これにより、スキャン映像生成中のカメラが切り替わった時点での映像倍率の急激な変化が防止される。
このようなスキャン映像データの生成処理は継続的に実行されるが、話者方位情報や話者方位カメラ情報の受け付けに伴って、中断させても良い。すなわち、映像制御部13は、話者方位情報や話者方位カメラ情報を受け付けておらず、且つスキャン映像生成制御を受け付けた場合に、スキャン映像データの生成・出力を行い、話者方位情報や話者方位カメラ情報を受け付けると、当該話者方位情報や話者方位カメラ情報に基づいて、スキャン映像から話者を含む映像への映像データの切り替えを行う。
また、映像制御部13は、各カメラ間での映像データの切り替え時に、切り替え前のカメラの撮像軸と切り替え後のカメラの撮像軸との角度差(例えば、カメラCA3とカメラCA1との撮像軸の角度差)に基づいて、切り替え前後の映像データを撮像軸角度補正して出力する。撮像軸角度補正とは、スキャン映像データとして連続する複数のコマの映像データの撮像軸が、切り替え前の(先の)カメラの撮像軸から、切り替え後の(後の)カメラの撮像軸へと、徐々に変化するように、映像データの角度補正や倍率補正を行う。これにより、映像制御部13から出力されるスキャン映像データは、図8に示すような、カメラの切り替えによる会議者の姿態の急激な変化が防止される。
このように、映像制御部13で上述の各制御で生成された映像データは、出力映像データとして通信制御部15へ与えられる。
通信制御部15は、エコーキャンセラ12からの出力音声データを話者方位情報に関連付けして送信するとともに、映像制御部13からの出力映像データを送信する。この際、通信制御部15は、話者方位情報付き出力音声データと出力映像データとを関連付けして、これらのデータを含む所定の通信用映像データ形式にエンコードして、ネットワーク900の通信仕様に準じて送信する。
通信制御部15は、ネットワーク900を介して相手先から通信用映像データを受信すると、この通信用映像データをデコードして、話者方位情報つきの放音用音声データと、表示映像データを取得する。ここで、放音用音声データは、相手先で生成された出力音声データに相当し、表示映像データは、相手先で生成された出力映像データに相当する。通信制御部15は、放音用音声データを、エコーキャンセラ12を介して放音制御部14へ出力する。通信制御部15は、話者方位データをメイン制御部10へ出力する。通信制御部15は、表示映像データを、テレビ会議装置1とは別体の表示器20へ出力する。表示器20は、液晶ディスプレイ等からなり、通信制御部15から入力された表示映像データを再生して表示する。
放音制御部14は、通信制御部15からの放音用音声データと、これに関連する話者方位データに基づくメイン制御部10からの音源定位情報とに基づいて、各スピーカSP1〜SP14に与える個別駆動信号を生成する。より具体的には、放音制御部14は、放音用音声データを各スピーカSP1〜SP14用に分配し、分配した音声データ毎に、前記音源定位情報に基づく遅延処理および振幅処理を行うことで個別駆動音声データを生成する。放音制御部14は、生成した各個別駆動音声データをD/A(デジタル−アナログ)変換することで個別駆動信号を生成し、操作部16で設定されたボリューム等に基づく所定の増幅率で増幅した後に、各スピーカSP1〜SP14へ出力する。スピーカSP1〜SP14は、入力された個別駆動信号に基づいて放音する。これにより、話者方位データに基づく音源定位が実現され、仮想の話者位置から発音されたように放音される。このような放音指向性制御を行うことで、上述のような映像の表示効果とともに、会議者は、話者方位に対応した話者音声を聞くことができ、より臨場感に溢れるテレビ会議を実現することができる。
次に、より具体的な使用態様およびスキャン映像データの生成方法について図を参照して説明する。
図3はテレビ会議装置1の配置例および撮像範囲を表す平面図である。図4はテレビ会議装置1及び表示器20の配置例を示す平面図である。
図3に示すように、会議室内には会議テーブル400が設置され、当該会議テーブル400の三方を囲むように、会議者301〜306が着席する。そして、会議テーブル400の残りの一方にテレビ会議装置1が設置される。テレビ会議装置1は正面方向が会議テーブル400側となるように設置される。テレビ会議装置1は、例えば図4に示すように、表示器20の天面上に設置される。
会議者301,302は、会議テーブル400に対してテレビ会議装置1と対向する側に着席している。会議者303,304は、テレビ会議装置1の左端側(カメラCA3側)のテーブル400の端辺に沿って着席しており、会議者305,306は、右端側(カメラCA2側)の会議テーブル400の端辺に沿って着席している。
図5は、図3の状況における各カメラCA1〜CA3で撮像される映像データ501〜503の位置関係を示す図であり、(A)は実際の位置関係に基づく立体的な位置関係を示し、(B)は撮像された映像データ501〜503を長尺方向に沿って展開した状態を示す。
図3に示すように会議者301〜306が着席してテレビ会議装置1を起動させると、カメラCA1は、図5(B)の中央部分に示すように、会議者301,302を含む領域を撮像して、会議者301の映像311(以下、会議者映像311と称する)、会議者302の映像312(以下、会議者映像312と称する)、テーブル400の映像410(以下、テーブル映像410と称する)を含む映像データ501を生成する。カメラCA2は、図5(B)の右端側部分に示すように、会議者303,304を含む領域を撮像して、会議者303の映像313(以下、会議者映像313と称する)、会議者304の映像314(以下、会議者映像314と称する)、およびテーブル映像データ410を含む映像データ502を生成する。カメラCA3は、図5(B)の左端側部分に示すように、会議者305,306を含む領域を撮像して、会議者305の映像315(以下、会議者映像315と称する)、会議者306の映像316(以下、会議者映像316と称する)、およびテーブル映像データ410を含む映像データ503を生成する。
カメラCA1は、上述のように、テレビ会議装置1の長尺方向に垂直な正面方向に向いて設置されている。これにより、映像データ501は、会議者301,302を正面視した映像データとなる。
カメラCA2は、上述のように、テレビ会議装置1の長尺方向に垂直な正面方向(カメラCA1の撮像軸方向)から会議者303,304の方向へ所定角となる方向に向いて設置されている。これにより、映像データ502は、実際のテレビ会議装置1と会議者303,304との位置関係より正面側から、会議者303,304を映した映像データとなる。
カメラCA3は、上述のように、テレビ会議装置1の長尺方向に垂直な正面方向(カメラCA1の撮像軸方向)から会議者305,306の方向へ所定角となる方向に向いて設置されている。これにより、映像データ503は、実際のテレビ会議装置1と会議者305,306との位置関係より正面側から、会議者305,306を映した映像データとなる。
映像制御部13は、スキャン映像制御を受け付けると、各カメラCA1〜CA3の倍率を等倍にして、映像データ501〜503を取得する。映像制御部13は、映像データ501〜503を長尺方向に沿って、映像データ503、映像データ501、映像データ502の順で並べるように設定して、図6(A)に示すような仮全体映像データの領域を設定する。
図6(A)は仮全体映像データ領域の映像、および、フレーム映像データの切り出し領域を示す図であり、図6(B)〜(F)は各フレーム映像データ例を示す図である。
映像制御部13は、図6(A)に示すように、仮全体映像データ領域の映像データ503側端部601から、映像データ502側の端部602に亘り、予め設定した映像領域サイズからなるフレーム映像データ511〜51nを切り出して出力する。ここで、nはネットワーク900の通信仕様等に応じて設定されたフレームレイトから設定される映像の切り出し分割数により決定される。
具体的には、映像制御部13は、まず、映像データ503の映像データ501と対向する側の端部601を一方端として、映像データ503からフレーム映像データ511(図6(B)参照)を切り出す。次に、映像制御部13は、切り出し分割数に準じて設定される切り出しピッチ分だけ、端部601から長尺方向に沿って、フレーム映像データの切り出し位置を移動させ、映像データ503からフレーム映像データ512(図6(C)参照)を切り出す。映像制御部13は、このような映像データ503からのフレーム映像データの切り出し処理を順次実行していき、映像データ503の映像データ501側端部に、フレーム映像データの映像データ501側端部が達するとフレーム映像データ513(図6(D)参照)を切り出すとともに、切り出し対象を映像データ503から映像データ501へ切り替える。
映像制御部13は、映像データ501に対しても映像データ503と同様の切り出し処理を実行する。すなわち、映像制御部13は、映像データ501の映像データ503側端部を、フレーム映像データの映像データ503側端部とするフレーム映像データの切り出しから開始し、例えば、全体としてm番目(mは上述のnの約半分の整数)に、映像データ501からフレーム映像データ51m(図6(E)参照)を切り出す。映像制御部13は、このような映像データ501からのフレーム映像データの切り出し処理を順次実行していき、映像データ501の映像データ502側端部に、フレーム映像データの映像データ502側端部が達すると、切り出し対象を映像データ501から映像データ502へ切り替える。
映像制御部13は、映像データ502に対しても、映像データ503,501と同様の切り出し処理を実行する。すなわち、映像制御部13は、映像データ502の映像データ501側端部を、フレーム映像データの映像データ501側端部とするフレーム映像データの切り出しから開始し、映像データ502の映像データ501と対向する側の端部602を他方端として、映像データ502からフレーム映像データ51n(図6(F)参照)を切り出す。
この処理により、映像制御部13は、図6(B)〜(F)に示すような各フレーム映像データ511〜51nを順次出力することで、スキャン映像データとして出力する。そして、この処理は、スキャン停止制御等が行われるまで、継続的に実行される。すなわち、仮全体映像データの一方端である端部601から他方端である端部602までの一連の切り出し処理が終了すると、再度、端部601からの切り出し処理を行う。または、仮全体映像データの一方端である端部601から他方端である端部602までの一連の切り出し処理が終了すると、逆に端部602から端部601に向けて順次移行する一連の切り出し処理を行う。すなわち、仮全体映像データの端部601と端部602との間を往復動するように切り出し領域を変化させてフレーム映像データの切り出しを行う。
このような処理を行うことで、全体の会議者が一つの映像領域内に映される広角な映像を用いることなく、会議者全員を映した映像を出力することができる。これにより、相手先の会議者は、自装置側の会議者の映像を或程度以上の大きさで見ることができ、自装置側の各会議者の表情や各会議者のその場の雰囲気を、相手先の会議者へ、よりリアルに伝えることができる。また、各カメラの映像を等倍にすることで、スキャン映像生成中のカメラが切り替わった時点での映像倍率の急激な変化を防止することができ、相手先の会議者がより見やすい映像を提供することができる。この際、複数のカメラ、複数のマイクが一つの筐体に設置されていることで、上述のような映像処理と音声処理とを、テレビ会議装置単体のみという簡単な構成で実現することができる。
上述の方法では、スキャン映像制御を受け付けると、話者の有無、話者位置に関係なくスキャン映像データを生成して出力する例を示した。しかしながら、話者方位を検出した場合に、話者方位を含む映像データを、スキャン映像データのフレーム映像データ間に割り込ませるようにしてもよい。
図7は、話者方位検出による話者映像データの割り込みについて説明する図であり、(A)〜(C)はそれぞれに異なる態様を示す。
図7(A)〜(C)に示す態様では、話者方位が検出されると、当該話者方位の映像データを、対応するカメラ単位または対応する話者毎に切り出して、出力中のフレーム映像データの直後に割り込ませるものである。
図7(A)の場合は、映像制御部13は、上述のようにフレーム映像データ511,512を順次生成して出力する。フレーム映像データ512の生成出力時点で、メイン制御部10から、例えばカメラCA1を示す話者方位カメラ情報が映像制御部13へ入力されると、映像制御部13は、フレーム映像データ512の直後に話者方位カメラ情報に対応する話者映像データ51mを、フレーム映像データ511,512と同様の時間間隔で生成して出力し続ける。この際、話者映像データ51mは、カメラCA1の撮像領域全体の映像を出力しても良いが、予め設定されたフレーム映像データ511,512と同じ映像サイズに切り出して出力する。さらには、フレーム映像データ511〜51nの中から、各話者方位カメラ情報に対応する映像データを予め設定しておき、入力された話者方位カメラ情報に基づいて、フレーム映像データ511〜51nの中の該当するフレーム映像データを、話者映像データとして選択する。これにより、会議者の大きさが急激に変化しないので、全体をスキャンする映像から話者映像に切り替わる際、および話者映像から全体スキャン映像へ切り替わる際の映像の違和感を緩和することができる。そして、話者方位が検出されなくなる、すなわち、メイン制御部10から話者方位情報もしくは話者方位カメラ情報が映像制御部13に入力されなくなると、映像制御部13は、話者映像データの割り込み処理の直前のフレーム映像データ512に続くフレーム映像データ513を話者映像データ51mの後に出力する。このような処理を行うことで、会議者全員の映像を提供しながら、会議者が発言すると、当該発言を行っている話者の映像を提供することができる。これにより、さらに臨場感のある映像を提供することができる。
図7(B)の場合は、話者映像データの生成出力までは図7(A)の場合と同じである。そして、話者方位が検出されなくなる、すなわち、メイン制御部10から話者方位情報もしくは話者方位カメラ情報が映像制御部13に入力されなくなると、映像制御部13は、話者映像データ51mに続くフレーム映像データ51p(p=m+1の整数)を話者映像データ51mの後に出力する。このような処理を行うことで、話者映像の直後に話者方位に特に関連付けされていないフレーム映像データが出力されるのではなく、話者方位の映像に続いてスキャンが継続するようなフレーム映像データが出力される。これにより、相手側の会議者にとって見やすい映像を提供することができる。
図7(C)の場合は、話者映像データへの切り替えまでは図7(A)の場合と同じである。メイン制御部10から話者方位カメラ情報が映像制御部13へ入力されると、映像制御部13は、フレーム映像データ512の直後に話者方位カメラ情報に対応する話者映像データ51mを、フレーム映像データ511,512と同様の時間間隔で生成するとともに、さらに話者のみをズームする拡大話者映像データ51m’を生成する。この際、上述のズーム制御と同じように切り出し処理を行うことで映像の拡大を行う。映像制御部13は、話者映像データ51mの出力後に、拡大話者映像データ51m’を出力し、この後は、話者方位情報の入力が無くなるまで、拡大話者映像データ51m’をフレーム映像データ511,512と同様の時間間隔で生成して出力し続ける。そして、話者方位が検出されなくなると、映像制御部13は、話者映像データ51mに続くフレーム映像データ51p(p=m+1の整数)を話者映像データ51mの後に出力する。このような処理を行うことで、話者の映像がよりアップで相手先の表示器に表示され、相手先の会議者は、話者の表情をより正確に把握することができる。
なお、上述の説明では、映像データ501〜503の間で、撮像される会議者の姿態があまり変化しない場合を元に説明した。しかしながら、カメラCA1〜CA3の取り付け態様や撮像範囲、テレビ会議装置1とテーブル400と会議者301〜306との位置関係等によっては、映像データ501〜503の間で、会議者の姿態が変化する場合がある。この場合は、映像切り出し対象となるカメラの切り替わり時に、次に示す映像補正を行えばよい。
図8は映像補正の概念を説明するための図である。
この処理は、切り出し処理を行うカメラが切り替わる前後でのフレーム映像データを補正するものであり、これの区間に当てはまらないフレーム映像データは、図6に示す処理と同じ処理を行って生成され、出力される。例えば、図8の場合、フレーム映像データ521,522,525は、図5のフレーム映像データ511,512,51mと同じように生成される。
映像制御部13は、映像データ503の映像データ501側の端部の切り出し領域で設定されるフレーム映像データ523を取得すると、映像補正を行う。映像補正は、映像データの回転や拡大縮小、所定方向へのストレッチ処理等に依り実現される。
そして、映像制御部13は、映像データ503を撮像するカメラCA3の撮像軸と、映像データ501を撮像するカメラCA1の撮像軸との成す角に基づいて、カメラCA3の撮像軸とカメラCA1の撮像軸との間の所定角方向を撮像軸として撮像されたように、映像データ503から切り出したフレーム映像データ523を補正して、補正フレーム映像データ523’を生成する。この際、設定する撮像軸の方向は、カメラCA3の撮像軸とカメラCA1の撮像軸との角度中心よりもカメラCA3の撮像軸側の所定角の方向とする。これにより、補正フレーム映像データ523’の会議者映像311’,315’およびテーブル映像410’は、元のフレーム映像データ523の会議者映像311,315およびテーブル映像410よりも、カメラCA1(映像データ501)の映像態様により近い映像となる。
次に、映像制御部13は、映像データ501の映像データ503側の端部の切り出し領域で設定されるフレーム映像データ524を取得すると、フレーム映像データ523と同様の映像補正を行い、補正フレーム映像データ524’を生成する。この際、設定する撮像軸の方向は、カメラCA3の撮像軸とカメラCA1の撮像軸との角度中心よりもカメラCA1の撮像軸側の所定角の方向とする。これにより、補正フレーム映像データ524’の会議者映像311”,312”,315”およびテーブル映像410”は、元のフレーム映像データ524の会議者映像311,312,315およびテーブル映像410よりも、カメラCA3(映像データ503)の映像態様により近い映像となる。この際、補正フレーム映像データ524’は、補正フレーム映像データ523’よりも、よりカメラCA1側の映像態様に近い映像となる。
このような処理を行うことで、映像データ503から映像データ501へと切り出し領域が変化する場合に、滑らかにパンし、映像の切り替わりによる違和感をより抑圧した映像を提供することができる。
なお、上述の映像補正処理の説明では、切り替わり前後の1フレームずつの映像補正を行う例を示したが、全体のフレーム数が多い場合等には、切り替わり前後の数フレーム分を映像補正して、より滑らかにパンするフレーム映像データ群を生成することもできる。
本発明のテレビ会議装置の外観斜視図である。 本発明のテレビ会議装置1の機能ブロックの構成および外部との接続関係を示した図である。 テレビ会議装置1の配置例および撮像範囲を表す平面図である。 テレビ会議装置1及び表示器20の配置例を示す平面図である。 図3の状況における各カメラCA1〜CA3で撮像される映像データ501〜503の位置関係を示す図である。 仮全体映像データの映像、および、フレーム映像データの切り出し領域を示す図、および各フレーム映像データ例を示す図である。 話者方位検出による話者映像データの割り込みについて説明する図である。 映像補正の概念を説明するための図である。
符号の説明
1−テレビ会議装置、10−メイン制御部、11−収音制御部、12−エコーキャンセラ、13−映像制御部、14−放音制御部、15−通信制御部、16−操作部、20−表示器、MC1〜MC16−マイク、SP1〜SP14−スピーカ、CA1〜CA3−カメラ、301〜306−会議者、311〜316−会議者映像、400−会議テーブル、410−テーブル映像、501〜503−映像データ、511〜51n、521〜525−フレーム映像データ、

Claims (4)

  1. 自装置周りを収音して音声データを生成する収音手段と、
    それぞれに異なる撮像領域を撮像して、映像データを生成する複数のカメラと、
    該複数のカメラの映像データに基づいて出力用映像データを生成する出力用映像データ生成手段と、
    前記音声データと前記出力用映像データとを関連付けして通信映像音声データを生成して送信する通信制御手段と、
    を一つの筐体に備えたテレビ会議装置であって、
    外部からの制御コマンドを受け付ける制御コマンド受付手段を備え、
    前記複数のカメラは、それぞれの撮像領域が特定方向に沿って連続するように設定され、
    該制御コマンド受付手段がスキャン制御コマンドを受け付けると、
    前記出力用映像データ生成手段は、前記複数のカメラの映像データにより構成される全体映像データを、前記特定方向に沿って順次切り出し領域をずらしながら所定サイズの映像領域毎に切り出すことで、スキャン映像データを生成し、該スキャン映像データを前記出力用映像データとする、
    テレビ会議装置。
  2. 前記出力用映像データ生成手段は、前記スキャン制御コマンドを受け付けると、全てのカメラからの前記切り出す映像領域の映像倍率を同じにする、
    請求項1に記載のテレビ会議装置。
  3. 前記複数のカメラは、それぞれの撮影軸の方向が異なる配置で前記筐体に設置され、
    前記出力用映像データ生成手段は、前記切り出す映像領域が先のカメラから後のカメラへ移行する際に、前記先のカメラの撮影軸から前記後のカメラの撮影軸へ、それぞれのカメラの撮影軸間の角度に準じて徐々に撮影軸が変化するように映像補正を行う、
    請求項1または請求項2に記載のテレビ会議装置。
  4. 前記収音手段は、複数のマイクと、該複数のマイクの収音音声データからそれぞれに異なる収音指向性を有する複数の収音ビーム音声データを取得して、該複数の収音ビーム音声データのレベルから話者方位を検出する収音制御手段と、を備え、
    該収音制御手段は、当該話者方位を前記出力用映像データ生成手段へ与え、
    前記出力用映像データ生成手段は、話者方位を取得すると、当該話者方位を含む所定サイズの映像領域を切り出して話者映像データを生成し、該話者映像データを前記出力用映像データとする、
    請求項1〜請求項3のいずれかに記載のテレビ会議装置。
JP2007185693A 2007-07-17 2007-07-17 テレビ会議装置 Withdrawn JP2009027246A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007185693A JP2009027246A (ja) 2007-07-17 2007-07-17 テレビ会議装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007185693A JP2009027246A (ja) 2007-07-17 2007-07-17 テレビ会議装置

Publications (1)

Publication Number Publication Date
JP2009027246A true JP2009027246A (ja) 2009-02-05

Family

ID=40398678

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007185693A Withdrawn JP2009027246A (ja) 2007-07-17 2007-07-17 テレビ会議装置

Country Status (1)

Country Link
JP (1) JP2009027246A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011114769A (ja) * 2009-11-30 2011-06-09 Nikon Corp 撮像装置
JP2012248986A (ja) * 2011-05-26 2012-12-13 Sharp Corp テレビ会議装置
CN109698927A (zh) * 2017-10-23 2019-04-30 中兴通讯股份有限公司 会议管理方法、装置及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011114769A (ja) * 2009-11-30 2011-06-09 Nikon Corp 撮像装置
JP2012248986A (ja) * 2011-05-26 2012-12-13 Sharp Corp テレビ会議装置
CN109698927A (zh) * 2017-10-23 2019-04-30 中兴通讯股份有限公司 会议管理方法、装置及存储介质

Similar Documents

Publication Publication Date Title
US9860486B2 (en) Communication apparatus, communication method, and communication system
CN109218651B (zh) 视频会议中的最佳视图选择方法
US10440322B2 (en) Automated configuration of behavior of a telepresence system based on spatial detection of telepresence components
US9648278B1 (en) Communication system, communication apparatus and communication method
US7460150B1 (en) Using gaze detection to determine an area of interest within a scene
JP5857674B2 (ja) 画像処理装置、及び画像処理システム
US8115799B2 (en) Method and apparatus for obtaining acoustic source location information and a multimedia communication system
JP4862645B2 (ja) ビデオ会議装置
US10447970B1 (en) Stereoscopic audio to visual sound stage matching in a teleconference
US20040254982A1 (en) Receiving system for video conferencing system
US10079996B2 (en) Communication system, communication device, and communication method
EP2352290B1 (en) Method and apparatus for matching audio and video signals during a videoconference
MX2007015184A (es) Imagenes normalizadas para camaras.
JP2006039564A (ja) カメラシステム及びパノラマカメラシステム
JP2007274462A (ja) テレビ会議装置、テレビ会議システム
JP4892927B2 (ja) 撮影装置、および通信会議システム
WO2015198964A1 (ja) 音声入出力機能付き撮像装置およびテレビ会議システム
JP2009049734A (ja) カメラ付きマイクロフォン、カメラ付きマイクロフォンの制御プログラムおよびテレビ会議システム
JP2009027246A (ja) テレビ会議装置
CN213213667U (zh) 一种基于视觉与声音融合的可交互的会议装置
JP2006339869A (ja) 映像信号と音響信号の統合装置
JP2009021922A (ja) テレビ会議装置
JP6565777B2 (ja) 通信装置、会議システム、プログラムおよび表示制御方法
JP2016072844A (ja) 映像システム
JP2006339832A (ja) テレビ会議システムおよびテレビ会議端末装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100520

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20120321