JP2009027246A

JP2009027246A - テレビ会議装置

Info

Publication number: JP2009027246A
Application number: JP2007185693A
Authority: JP
Inventors: Toshiaki Ishibashi; 利晃石橋; Akio Yamane; 章生山根; Jun Asami; 純浅見; Satoshi Suzuki; 智鈴木
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2007-07-17
Filing date: 2007-07-17
Publication date: 2009-02-05

Abstract

【課題】話者のみでなく会議者全体の表情が分かりやすい映像を生成する、小規模で取り扱いが容易なテレビ会議装置を実現する。
【解決手段】
テレビ会議装置１のメイン制御部１０は、相手先のテレビ会議装置からスキャン制御を受け付けると、映像制御部１３は、カメラＣＡ１〜ＣＡ３で生成した映像データ５０１〜５０３をテレビ会議装置１の長尺方向に沿って、映像データ５０３，５０１，５０２の順に配置した仮全体映像データの領域を設定する。映像制御部１３は、仮全体映像データ領域の映像データ５０３側の端部６０１から映像データ５０２側の端部６０２に亘り、予め設定した映像領域サイズに準じて、フレーム映像データ５１１〜５１ｎを順次切り出して出力する。
【選択図】図６

Description

この発明は、互いに離れた位置の会議室間で映像と音声とを通信することにより会議を行うテレビ会議装置に関するものである。

従来、遠隔地間で会議を行うシステムとして、音声を通信する音声会議システムが各種存在するが、音声とともに映像も通信するテレビ会議システムが普及しつつある。このようなテレビ会議システムでは、相手先の話者を含む会議者の映像を見ながら会議を行うことができる。そして、このようなテレビ会議の映像構成方法が各種考案されている。例えば、特許文献１では、広範囲を撮像範囲とする全体映像と局所ズームによる話者映像とを一つの画面内の別枠に表示させている。
特開平２−２０２２７５号公報

しかしながら、特許文献１の構成では、会議者毎にマイクを設置し、かつこれらの会議者から離れた位置に首振りカメラを設置するため、システムが大規模になるとともに、設置等の取り扱いが容易ではなくなる。さらに、特許文献１の方法では、話者映像はズームされるため表情等を伝達しやすいが、話者以外の会議者の映像は、広範囲が撮像範囲となる、いわゆる引きの映像であるので、各会議者の表情が伝え難く、これに伴い、場の臨場感を伝え難い。

したがって、本発明の目的は、話者のみでなく会議者全体の表情が分かりやすい映像を生成する、小規模で取り扱いが容易なテレビ会議装置を実現することにある。

この発明は、自装置周りを収音して音声データを生成する収音手段と、それぞれに異なる撮像領域を撮像して映像データを生成する複数のカメラと、該複数のカメラの映像データに基づいて出力用映像データを生成する出力用映像データ生成手段と、音声データと出力用映像データとを関連付けして通信映像音声データを生成して送信する通信制御手段と、を一つの筐体に備えたテレビ会議装置に関するものである。
そして、この発明のテレビ会議装置は、外部からの制御コマンドを受け付ける制御コマンド受付手段を備えるとともに、複数のカメラが、それぞれの撮像領域が特定方向に沿って連続するように設定される。このテレビ会議装置の制御コマンド受付手段がスキャン制御コマンドを受け付けると、出力用映像データ生成手段は、複数のカメラの映像データにより構成される全体映像データを、特定方向に沿って順次切り出し領域をずらしながら所定サイズの映像領域毎に切り出すことでスキャン映像データを生成し、出力用映像データとして出力する。

この構成では、外部、例えば、ネットワーク接続されている相手先のテレビ会議装置から、スキャン制御コマンドを受け付けると、現状の映像データの態様（例えば、特定のカメラの映像が出力中）にかかわらず、スキャン映像データを生成して出力する。スキャン映像データは、それぞれに異なる撮像領域を有しスキャン方向に沿って各撮像領域が連続するように配置された複数のカメラの映像データを部分的にスキャン方向に沿って順次切り出すことにより生成される。このような構成および処理により、一つの筐体で撮像、収音が行われ、且つ、引きの映像のような一画面に会議者全員が入る映像を用いることなく、会議者全員の映像が実現される。

また、この発明のテレビ会議装置の出力用映像データ生成手段は、スキャン制御コマンドを受け付けると、全てのカメラからの切り出し映像領域の映像倍率を同じにする。

この構成では、スキャン制御コマンドの受け付け前に、各カメラの映像データの映像倍率が統一されていないような状況でも、スキャン制御時には映像倍率が統一される。

また、この発明のテレビ会議装置の複数のカメラは、それぞれの撮影軸の方向が異なる配置で前記筐体に設置される。テレビ会議装置の出力用映像データ生成手段は、切り出す映像領域が先のカメラから後のカメラへ移行する際に、先のカメラの撮影軸から後のカメラの撮影軸へ、それぞれのカメラの撮影軸間の角度に準じて徐々に撮影軸が変化するように映像補正を行う。

この構成では、複数のカメラが撮影軸を異ならせて筐体に設置されている。これにより、各カメラの撮像範囲が同じであっても、複数のカメラ全体としてほぼ同じ撮像範囲にならず、より広い撮像範囲の映像データが得られる。この場合、撮像軸方向が異なるので、同じ会議者を隣り合うカメラで撮像した場合の二つの映像での会議者の姿態が異なる。したがって、これらの映像から、連続して切り替わるスキャン映像を生成する場合、映像間での不連続さを感じさせてしまう。このため、撮像軸の変化に伴う映像の角度補正を行うことで、前記映像間での不連続さが低減される。これにより、さらに滑らかにスキャンするスキャン映像データが得られる。

また、この発明のテレビ会議装置の収音手段は、複数のマイクと、該複数のマイクの収音音声データからそれぞれに異なる収音指向性を有する複数の収音ビーム音声データを取得して、該複数の収音ビーム音声データのレベルから話者方位を検出する収音制御手段と、を備える。この収音制御手段は、当該話者方位を前記出力用映像データ生成手段へ与える。出力用映像データ生成手段は、話者方位を取得すると、当該話者方位を含む所定サイズの映像領域を切り出して話者映像データを生成し、該話者映像データを出力用映像データとする。

この構成では、話者が検出されると、スキャン中であっても話者を含む撮像領域の映像データに切り替わる。これにより、会議者全体の映像を出力できるとともに、話者の映像をより確実に取得して出力することができる。

この発明によれば、一つの筐体という簡素な構成で、収音、撮像を行うことができるととともに、話者のみでなく会議者全体の表情が分かりやすい映像を出力することができる。これにより、会議全体の雰囲気が掴みやすく臨場感のあるテレビ会議を簡素な構成で容易に実現することができる。

本発明の実施形態に係るテレビ会議装置について、図を参照して説明する。
図１は、本実施形態のテレビ会議装置の外観斜視図である。なお、本実施形態のテレビ会議装置は、正面壁に設置されたマイクアレイ、スピーカアレイの前方にパンチングメッシュ等からなるカバーが設置されているが本図では図示を省略する。
図１に示すように、テレビ会議装置１は略長尺形状からなる放収音素子設置筐体と制御系回路設置筐体とからなる。放収音素子設置筐体は長尺方向に沿った二側面をそれぞれ正面壁および背面壁とし、正面壁にマイクＭＣ１〜ＭＣ１６、スピーカＳＰ１〜ＳＰ１４、カメラＣＡ１〜ＣＡ３が設置され、背面壁側に制御系回路設置筐体が設置されている。

マイクＭＣ１〜ＭＣ１６は、同じ機構及び同じ収音特性を有するものであり、前記長尺方向に沿う一直線に所定間隔で、正面壁の天面側に設置されている。マイクＭＣ１〜ＭＣ１６は、配列方向の中心付近（すなわち正面方向からみた中心付近）では狭いピッチに配置され、配列方向の両端付近では広いピッチで配置される。マイクＭＣ１〜ＭＣ１６は、正面壁から外方側を収音範囲とするように設置される。このようなマイクＭＣ１〜ＭＣ１６により、正面方向を収音範囲とするマイクアレイが形成される。

スピーカＳＰ１〜ＳＰ１４は、同じ機構および同じ放音特性を有するものであり、前記長尺方向に沿う一直線に所定間隔で、正面壁の垂直方向中心位置に設置されている。スピーカＳＰ１〜ＳＰ１４は、正面壁から外方側を放音方向とするように設置される。このようなスピーカＳＰ１〜ＳＰ１４により、正面方向を放音範囲とするスピーカアレイが形成される。

カメラＣＡ１〜ＣＡ３は、同じ機構および同じ撮像特性を有するものである。
カメラＣＡ１は、正面壁の底面側で、長尺方向の中心位置（すなわち正面方向からみた中心位置）に設置されている。カメラＣＡ１は、撮像範囲の中心方向が正面壁に垂直な方向となるように設置されている。
カメラＣＡ２は、正面壁の底面側で、長尺方向の一方端（図１であれば、テレビ会議装置１を正面視した状態での右端）に設置されている。カメラＣＡ２は、撮像範囲の中心方向が正面壁に対して所定の角度、例えば、図１であれば、テレビ会議装置１を正面視した状態で、正面壁の右端から左端前方の所定位置を向く角度（約４５度等）に設定されている。
カメラＣＡ３は、正面壁の底面側で、長尺方向の一方端（図１であれば、テレビ会議装置１を正面視した状態での左端）に設置されている。カメラＣＡ３は、撮像範囲の中心方向が正面壁に対して所定の角度、例えば、図１であれば、テレビ会議装置１を正面視した状態で、正面壁の左端から右端前方の所定位置を向く角度（約４５度等）に設定されている。カメラＣＡ２の撮像範囲とカメラＣＡ３の撮像範囲とは、カメラＣＡ１の撮像範囲の中心方向を基準軸として対称に設定されている。そして、これらカメラＣＡ１〜ＣＡ３の撮像範囲は、それぞれの撮像範囲を連続させることで、テレビ会議装置１の正面側で長尺方向に沿う略全周囲が撮像されるように設定されている。
テレビ会議装置１の制御系回路設置筐体には、上述のマイクＭＣ１〜ＭＣ１６によるマイクアレイ、スピーカＳＰ１〜ＳＰ１４によるスピーカアレイ、およびカメラＣＡ１〜ＣＡ３を除く機能部が設置されている。

図２は、本実施形態のテレビ会議装置１の機能ブロックの構成および外部との接続関係を示した図である。
図２に示すように、テレビ会議装置１は、上述のマイクＭＣ１〜ＭＣ１６、スピーカＳＰ１〜ＳＰ１４、およびカメラＣＡ１〜ＣＡ３とともに、メイン制御部１０、収音制御部１１、エコーキャンセラ１２、映像制御部１３、放音制御部１４、通信制御部１５、操作部１６、を備える。

メイン制御部１０は、予め工場出荷時等から設定されたテレビ会議装置１の全体制御を行う。
メイン制御部１０は、操作部１６により入力された操作内容に準じた制御を行う。この制御に準じて、操作部１６によりカメラのズーム操作が行われると、メイン制御部１０は、操作部１６のズーム操作内容を取得して、映像制御部１３へズーム制御を行う。また、操作部１６によりカメラの切り替え操作が行われると、メイン制御部１０は、操作部１６のカメラ切り替え内容を取得して、映像制御部１３へカメラ切り替え制御を行う。

メイン制御部１０は、通信制御部１５を介してネットワーク９００により接続された他のテレビ会議装置からのリモート操作コマンドを受け付けて、当該リモート操作コマンドに準じた制御を行う。この制御に準じて、メイン制御部１０は、ネットワーク９００および通信制御部１５を介してスキャン映像出力要求コマンドを受け付けると、映像制御部１３へスキャン映像生成制御を行う。

メイン制御部１０は、収音制御部１１で選択された収音ビーム音声データの選択情報を取得して、話者方位を検出する。メイン制御部１０は、検出した話者方位に基づく話者方位情報を映像制御部１３へ出力したり、検出した話者方位を撮像範囲とするカメラを選択して、話者方位カメラ情報として映像制御部１３へ出力する。

また、メイン制御部１０は、検出した話者方位を示す話者方位情報を通信制御部１５に与え、当該話者方位情報に対応する収音ビーム音声データからなる出力音声データに関連付けして送信させる制御を、通信制御部１５へ与える。また、メイン制御部１０は、通信制御部１５で受信した相手先のテレビ会議装置の出力音声データに関連付けされた話者方位データを取得し、当該話者方位データに応じた音源定位を行う制御を、放音制御部１４へ与える。

マイクＭＣ１〜ＭＣ１６は、自装置（テレビ会議装置１）の正面側の音声を収音して収音信号を生成し、収音制御部１１へ出力する。

収音制御部１１は、各マイクＭＣ１〜ＭＣ１６の収音信号に対して、それぞれに異なる遅延処理および振幅処理パターンで信号処理を行うことで、それぞれに異なる方位を収音指向性の中心方向とする複数の収音ビーム音声データを生成する。より具体的には、収音制御部１１は、各マイクＭＣ１〜ＭＣ１６の収音信号を所定増幅率で増幅し、Ａ／Ｄ（アナログ−デジタル）変換することで、個別収音音声データを生成する。収音制御部１１は、それぞれに異なる収音指向性を実現させる個別収音音声データ毎の遅延係数および振幅係数を予め記憶している。収音制御部１１は、設定された収音指向性毎に、これら遅延係数、振幅係数に基づくフィルタ処理を各個別収音音声データに実行することで、それぞれに異なる収音指向性からなる収音ビーム音声データを生成する。

収音制御部１１は、生成した複数の収音ビーム音声データのレベル（音声レベル）を比較し、予め設定した有音検出閾値レベルを超える収音ビーム音声データを選択し、エコーキャンセラ１２へ出力する。
収音制御部１１は、選択した収音ビーム音声データを特定する選択情報をメイン制御部１０へ与える。

エコーキャンセラ１２は、適応型フィルタとポストプロセッサとを備える。適応型フィルタは、通信制御部１５から出力される相手先テレビ会議装置からの出力音声データに基づく疑似回帰音データを生成して、ポストプロセッサへ与える。ポストプロセッサは加算器を備え、加算器は、収音制御部１１から出力された収音ビーム音声データから疑似回帰音データを減算してエコーキャンセルを行うことで出力音声データを生成して通信制御部１５へ出力する。この際、ポストプロセッサはエコーキャンセル結果を適応型フィルタへフィードバックする。

カメラＣＡ１〜ＣＡ３は、上述のようにそれぞれ異なる撮像範囲を撮像することで映像データを生成して、映像制御部１３へ出力する。

映像制御部１３は、話者方位カメラ情報を受け付けると、当該話者方位カメラ情報に従って、各カメラＣＡ１〜ＣＡ３からの映像データを選択して出力する。また、映像制御部１３は、ズーム制御を受け付けると、ズーム制御に基づく拡大量に応じて、現在使用中のカメラの映像データの映像切り出し領域を小さくして、元の映像データの大きさまで拡大する映像処理を行う。また、映像制御部１３は、カメラ切り替え制御を受け付けると、選択されたカメラの映像データを出力する制御を行う。

映像制御部１３は、スキャン映像生成制御を受け付けると、カメラＣＡ１〜ＣＡ３の映像データ群に基づく全体映像を、上述の長尺方向に沿って、順次、所定映像サイズで切り出す処理を行う。すなわち、スキャン映像データとして出力される映像データサイズが予め設定されており、映像制御部１３は、例えば、詳細を後述する図６（Ａ）に示すように、長尺方向の一方端の領域を撮影するカメラＣＡ３の映像データ５０３から、カメラＣＡ１の映像データ５０１を介して、他方端の領域を撮影するカメラＣＡ２の映像データ５０２へ順次切り出し領域が所定ピッチで移行する、図６（Ｂ）に示すような各コマの映像データが順次出力される形態からなるスキャン映像データを生成する。これにより、全体の会議者が一つの映像領域内に映される広角な映像を用いることなく、会議者全員を映した映像を出力することができる。この際、映像制御部１３は、各カメラＣＡ１〜ＣＡ３の倍率が等倍となるように設定する。すなわち、当該スキャン映像生成制御の前に、カメラＣＡ１〜ＣＡ３のそれぞれに個別のズーム制御が行われていても、映像制御部１３は、スキャン映像生成制御を受け付けると、切り出す各映像データの元映像に対する倍率が同じになる制御を行う。これにより、スキャン映像生成中のカメラが切り替わった時点での映像倍率の急激な変化が防止される。

このようなスキャン映像データの生成処理は継続的に実行されるが、話者方位情報や話者方位カメラ情報の受け付けに伴って、中断させても良い。すなわち、映像制御部１３は、話者方位情報や話者方位カメラ情報を受け付けておらず、且つスキャン映像生成制御を受け付けた場合に、スキャン映像データの生成・出力を行い、話者方位情報や話者方位カメラ情報を受け付けると、当該話者方位情報や話者方位カメラ情報に基づいて、スキャン映像から話者を含む映像への映像データの切り替えを行う。

また、映像制御部１３は、各カメラ間での映像データの切り替え時に、切り替え前のカメラの撮像軸と切り替え後のカメラの撮像軸との角度差（例えば、カメラＣＡ３とカメラＣＡ１との撮像軸の角度差）に基づいて、切り替え前後の映像データを撮像軸角度補正して出力する。撮像軸角度補正とは、スキャン映像データとして連続する複数のコマの映像データの撮像軸が、切り替え前の（先の）カメラの撮像軸から、切り替え後の（後の）カメラの撮像軸へと、徐々に変化するように、映像データの角度補正や倍率補正を行う。これにより、映像制御部１３から出力されるスキャン映像データは、図８に示すような、カメラの切り替えによる会議者の姿態の急激な変化が防止される。

このように、映像制御部１３で上述の各制御で生成された映像データは、出力映像データとして通信制御部１５へ与えられる。

通信制御部１５は、エコーキャンセラ１２からの出力音声データを話者方位情報に関連付けして送信するとともに、映像制御部１３からの出力映像データを送信する。この際、通信制御部１５は、話者方位情報付き出力音声データと出力映像データとを関連付けして、これらのデータを含む所定の通信用映像データ形式にエンコードして、ネットワーク９００の通信仕様に準じて送信する。

通信制御部１５は、ネットワーク９００を介して相手先から通信用映像データを受信すると、この通信用映像データをデコードして、話者方位情報つきの放音用音声データと、表示映像データを取得する。ここで、放音用音声データは、相手先で生成された出力音声データに相当し、表示映像データは、相手先で生成された出力映像データに相当する。通信制御部１５は、放音用音声データを、エコーキャンセラ１２を介して放音制御部１４へ出力する。通信制御部１５は、話者方位データをメイン制御部１０へ出力する。通信制御部１５は、表示映像データを、テレビ会議装置１とは別体の表示器２０へ出力する。表示器２０は、液晶ディスプレイ等からなり、通信制御部１５から入力された表示映像データを再生して表示する。

放音制御部１４は、通信制御部１５からの放音用音声データと、これに関連する話者方位データに基づくメイン制御部１０からの音源定位情報とに基づいて、各スピーカＳＰ１〜ＳＰ１４に与える個別駆動信号を生成する。より具体的には、放音制御部１４は、放音用音声データを各スピーカＳＰ１〜ＳＰ１４用に分配し、分配した音声データ毎に、前記音源定位情報に基づく遅延処理および振幅処理を行うことで個別駆動音声データを生成する。放音制御部１４は、生成した各個別駆動音声データをＤ／Ａ（デジタル−アナログ）変換することで個別駆動信号を生成し、操作部１６で設定されたボリューム等に基づく所定の増幅率で増幅した後に、各スピーカＳＰ１〜ＳＰ１４へ出力する。スピーカＳＰ１〜ＳＰ１４は、入力された個別駆動信号に基づいて放音する。これにより、話者方位データに基づく音源定位が実現され、仮想の話者位置から発音されたように放音される。このような放音指向性制御を行うことで、上述のような映像の表示効果とともに、会議者は、話者方位に対応した話者音声を聞くことができ、より臨場感に溢れるテレビ会議を実現することができる。

次に、より具体的な使用態様およびスキャン映像データの生成方法について図を参照して説明する。
図３はテレビ会議装置１の配置例および撮像範囲を表す平面図である。図４はテレビ会議装置１及び表示器２０の配置例を示す平面図である。
図３に示すように、会議室内には会議テーブル４００が設置され、当該会議テーブル４００の三方を囲むように、会議者３０１〜３０６が着席する。そして、会議テーブル４００の残りの一方にテレビ会議装置１が設置される。テレビ会議装置１は正面方向が会議テーブル４００側となるように設置される。テレビ会議装置１は、例えば図４に示すように、表示器２０の天面上に設置される。

会議者３０１，３０２は、会議テーブル４００に対してテレビ会議装置１と対向する側に着席している。会議者３０３，３０４は、テレビ会議装置１の左端側（カメラＣＡ３側）のテーブル４００の端辺に沿って着席しており、会議者３０５，３０６は、右端側（カメラＣＡ２側）の会議テーブル４００の端辺に沿って着席している。

図５は、図３の状況における各カメラＣＡ１〜ＣＡ３で撮像される映像データ５０１〜５０３の位置関係を示す図であり、（Ａ）は実際の位置関係に基づく立体的な位置関係を示し、（Ｂ）は撮像された映像データ５０１〜５０３を長尺方向に沿って展開した状態を示す。

図３に示すように会議者３０１〜３０６が着席してテレビ会議装置１を起動させると、カメラＣＡ１は、図５（Ｂ）の中央部分に示すように、会議者３０１，３０２を含む領域を撮像して、会議者３０１の映像３１１（以下、会議者映像３１１と称する）、会議者３０２の映像３１２（以下、会議者映像３１２と称する）、テーブル４００の映像４１０（以下、テーブル映像４１０と称する）を含む映像データ５０１を生成する。カメラＣＡ２は、図５（Ｂ）の右端側部分に示すように、会議者３０３，３０４を含む領域を撮像して、会議者３０３の映像３１３（以下、会議者映像３１３と称する）、会議者３０４の映像３１４（以下、会議者映像３１４と称する）、およびテーブル映像データ４１０を含む映像データ５０２を生成する。カメラＣＡ３は、図５（Ｂ）の左端側部分に示すように、会議者３０５，３０６を含む領域を撮像して、会議者３０５の映像３１５（以下、会議者映像３１５と称する）、会議者３０６の映像３１６（以下、会議者映像３１６と称する）、およびテーブル映像データ４１０を含む映像データ５０３を生成する。

カメラＣＡ１は、上述のように、テレビ会議装置１の長尺方向に垂直な正面方向に向いて設置されている。これにより、映像データ５０１は、会議者３０１，３０２を正面視した映像データとなる。

カメラＣＡ２は、上述のように、テレビ会議装置１の長尺方向に垂直な正面方向（カメラＣＡ１の撮像軸方向）から会議者３０３，３０４の方向へ所定角となる方向に向いて設置されている。これにより、映像データ５０２は、実際のテレビ会議装置１と会議者３０３，３０４との位置関係より正面側から、会議者３０３，３０４を映した映像データとなる。

カメラＣＡ３は、上述のように、テレビ会議装置１の長尺方向に垂直な正面方向（カメラＣＡ１の撮像軸方向）から会議者３０５，３０６の方向へ所定角となる方向に向いて設置されている。これにより、映像データ５０３は、実際のテレビ会議装置１と会議者３０５，３０６との位置関係より正面側から、会議者３０５，３０６を映した映像データとなる。

映像制御部１３は、スキャン映像制御を受け付けると、各カメラＣＡ１〜ＣＡ３の倍率を等倍にして、映像データ５０１〜５０３を取得する。映像制御部１３は、映像データ５０１〜５０３を長尺方向に沿って、映像データ５０３、映像データ５０１、映像データ５０２の順で並べるように設定して、図６（Ａ）に示すような仮全体映像データの領域を設定する。
図６（Ａ）は仮全体映像データ領域の映像、および、フレーム映像データの切り出し領域を示す図であり、図６（Ｂ）〜（Ｆ）は各フレーム映像データ例を示す図である。
映像制御部１３は、図６（Ａ）に示すように、仮全体映像データ領域の映像データ５０３側端部６０１から、映像データ５０２側の端部６０２に亘り、予め設定した映像領域サイズからなるフレーム映像データ５１１〜５１ｎを切り出して出力する。ここで、ｎはネットワーク９００の通信仕様等に応じて設定されたフレームレイトから設定される映像の切り出し分割数により決定される。
具体的には、映像制御部１３は、まず、映像データ５０３の映像データ５０１と対向する側の端部６０１を一方端として、映像データ５０３からフレーム映像データ５１１（図６（Ｂ）参照）を切り出す。次に、映像制御部１３は、切り出し分割数に準じて設定される切り出しピッチ分だけ、端部６０１から長尺方向に沿って、フレーム映像データの切り出し位置を移動させ、映像データ５０３からフレーム映像データ５１２（図６（Ｃ）参照）を切り出す。映像制御部１３は、このような映像データ５０３からのフレーム映像データの切り出し処理を順次実行していき、映像データ５０３の映像データ５０１側端部に、フレーム映像データの映像データ５０１側端部が達するとフレーム映像データ５１３（図６（Ｄ）参照）を切り出すとともに、切り出し対象を映像データ５０３から映像データ５０１へ切り替える。

映像制御部１３は、映像データ５０１に対しても映像データ５０３と同様の切り出し処理を実行する。すなわち、映像制御部１３は、映像データ５０１の映像データ５０３側端部を、フレーム映像データの映像データ５０３側端部とするフレーム映像データの切り出しから開始し、例えば、全体としてｍ番目（ｍは上述のｎの約半分の整数）に、映像データ５０１からフレーム映像データ５１ｍ（図６（Ｅ）参照）を切り出す。映像制御部１３は、このような映像データ５０１からのフレーム映像データの切り出し処理を順次実行していき、映像データ５０１の映像データ５０２側端部に、フレーム映像データの映像データ５０２側端部が達すると、切り出し対象を映像データ５０１から映像データ５０２へ切り替える。

映像制御部１３は、映像データ５０２に対しても、映像データ５０３，５０１と同様の切り出し処理を実行する。すなわち、映像制御部１３は、映像データ５０２の映像データ５０１側端部を、フレーム映像データの映像データ５０１側端部とするフレーム映像データの切り出しから開始し、映像データ５０２の映像データ５０１と対向する側の端部６０２を他方端として、映像データ５０２からフレーム映像データ５１ｎ（図６（Ｆ）参照）を切り出す。

この処理により、映像制御部１３は、図６（Ｂ）〜（Ｆ）に示すような各フレーム映像データ５１１〜５１ｎを順次出力することで、スキャン映像データとして出力する。そして、この処理は、スキャン停止制御等が行われるまで、継続的に実行される。すなわち、仮全体映像データの一方端である端部６０１から他方端である端部６０２までの一連の切り出し処理が終了すると、再度、端部６０１からの切り出し処理を行う。または、仮全体映像データの一方端である端部６０１から他方端である端部６０２までの一連の切り出し処理が終了すると、逆に端部６０２から端部６０１に向けて順次移行する一連の切り出し処理を行う。すなわち、仮全体映像データの端部６０１と端部６０２との間を往復動するように切り出し領域を変化させてフレーム映像データの切り出しを行う。

このような処理を行うことで、全体の会議者が一つの映像領域内に映される広角な映像を用いることなく、会議者全員を映した映像を出力することができる。これにより、相手先の会議者は、自装置側の会議者の映像を或程度以上の大きさで見ることができ、自装置側の各会議者の表情や各会議者のその場の雰囲気を、相手先の会議者へ、よりリアルに伝えることができる。また、各カメラの映像を等倍にすることで、スキャン映像生成中のカメラが切り替わった時点での映像倍率の急激な変化を防止することができ、相手先の会議者がより見やすい映像を提供することができる。この際、複数のカメラ、複数のマイクが一つの筐体に設置されていることで、上述のような映像処理と音声処理とを、テレビ会議装置単体のみという簡単な構成で実現することができる。

上述の方法では、スキャン映像制御を受け付けると、話者の有無、話者位置に関係なくスキャン映像データを生成して出力する例を示した。しかしながら、話者方位を検出した場合に、話者方位を含む映像データを、スキャン映像データのフレーム映像データ間に割り込ませるようにしてもよい。

図７は、話者方位検出による話者映像データの割り込みについて説明する図であり、（Ａ）〜（Ｃ）はそれぞれに異なる態様を示す。

図７（Ａ）〜（Ｃ）に示す態様では、話者方位が検出されると、当該話者方位の映像データを、対応するカメラ単位または対応する話者毎に切り出して、出力中のフレーム映像データの直後に割り込ませるものである。
図７（Ａ）の場合は、映像制御部１３は、上述のようにフレーム映像データ５１１，５１２を順次生成して出力する。フレーム映像データ５１２の生成出力時点で、メイン制御部１０から、例えばカメラＣＡ１を示す話者方位カメラ情報が映像制御部１３へ入力されると、映像制御部１３は、フレーム映像データ５１２の直後に話者方位カメラ情報に対応する話者映像データ５１ｍを、フレーム映像データ５１１，５１２と同様の時間間隔で生成して出力し続ける。この際、話者映像データ５１ｍは、カメラＣＡ１の撮像領域全体の映像を出力しても良いが、予め設定されたフレーム映像データ５１１，５１２と同じ映像サイズに切り出して出力する。さらには、フレーム映像データ５１１〜５１ｎの中から、各話者方位カメラ情報に対応する映像データを予め設定しておき、入力された話者方位カメラ情報に基づいて、フレーム映像データ５１１〜５１ｎの中の該当するフレーム映像データを、話者映像データとして選択する。これにより、会議者の大きさが急激に変化しないので、全体をスキャンする映像から話者映像に切り替わる際、および話者映像から全体スキャン映像へ切り替わる際の映像の違和感を緩和することができる。そして、話者方位が検出されなくなる、すなわち、メイン制御部１０から話者方位情報もしくは話者方位カメラ情報が映像制御部１３に入力されなくなると、映像制御部１３は、話者映像データの割り込み処理の直前のフレーム映像データ５１２に続くフレーム映像データ５１３を話者映像データ５１ｍの後に出力する。このような処理を行うことで、会議者全員の映像を提供しながら、会議者が発言すると、当該発言を行っている話者の映像を提供することができる。これにより、さらに臨場感のある映像を提供することができる。

図７（Ｂ）の場合は、話者映像データの生成出力までは図７（Ａ）の場合と同じである。そして、話者方位が検出されなくなる、すなわち、メイン制御部１０から話者方位情報もしくは話者方位カメラ情報が映像制御部１３に入力されなくなると、映像制御部１３は、話者映像データ５１ｍに続くフレーム映像データ５１ｐ（ｐ＝ｍ＋１の整数）を話者映像データ５１ｍの後に出力する。このような処理を行うことで、話者映像の直後に話者方位に特に関連付けされていないフレーム映像データが出力されるのではなく、話者方位の映像に続いてスキャンが継続するようなフレーム映像データが出力される。これにより、相手側の会議者にとって見やすい映像を提供することができる。

図７（Ｃ）の場合は、話者映像データへの切り替えまでは図７（Ａ）の場合と同じである。メイン制御部１０から話者方位カメラ情報が映像制御部１３へ入力されると、映像制御部１３は、フレーム映像データ５１２の直後に話者方位カメラ情報に対応する話者映像データ５１ｍを、フレーム映像データ５１１，５１２と同様の時間間隔で生成するとともに、さらに話者のみをズームする拡大話者映像データ５１ｍ’を生成する。この際、上述のズーム制御と同じように切り出し処理を行うことで映像の拡大を行う。映像制御部１３は、話者映像データ５１ｍの出力後に、拡大話者映像データ５１ｍ’を出力し、この後は、話者方位情報の入力が無くなるまで、拡大話者映像データ５１ｍ’をフレーム映像データ５１１，５１２と同様の時間間隔で生成して出力し続ける。そして、話者方位が検出されなくなると、映像制御部１３は、話者映像データ５１ｍに続くフレーム映像データ５１ｐ（ｐ＝ｍ＋１の整数）を話者映像データ５１ｍの後に出力する。このような処理を行うことで、話者の映像がよりアップで相手先の表示器に表示され、相手先の会議者は、話者の表情をより正確に把握することができる。

なお、上述の説明では、映像データ５０１〜５０３の間で、撮像される会議者の姿態があまり変化しない場合を元に説明した。しかしながら、カメラＣＡ１〜ＣＡ３の取り付け態様や撮像範囲、テレビ会議装置１とテーブル４００と会議者３０１〜３０６との位置関係等によっては、映像データ５０１〜５０３の間で、会議者の姿態が変化する場合がある。この場合は、映像切り出し対象となるカメラの切り替わり時に、次に示す映像補正を行えばよい。
図８は映像補正の概念を説明するための図である。

この処理は、切り出し処理を行うカメラが切り替わる前後でのフレーム映像データを補正するものであり、これの区間に当てはまらないフレーム映像データは、図６に示す処理と同じ処理を行って生成され、出力される。例えば、図８の場合、フレーム映像データ５２１，５２２，５２５は、図５のフレーム映像データ５１１，５１２，５１ｍと同じように生成される。

映像制御部１３は、映像データ５０３の映像データ５０１側の端部の切り出し領域で設定されるフレーム映像データ５２３を取得すると、映像補正を行う。映像補正は、映像データの回転や拡大縮小、所定方向へのストレッチ処理等に依り実現される。

そして、映像制御部１３は、映像データ５０３を撮像するカメラＣＡ３の撮像軸と、映像データ５０１を撮像するカメラＣＡ１の撮像軸との成す角に基づいて、カメラＣＡ３の撮像軸とカメラＣＡ１の撮像軸との間の所定角方向を撮像軸として撮像されたように、映像データ５０３から切り出したフレーム映像データ５２３を補正して、補正フレーム映像データ５２３’を生成する。この際、設定する撮像軸の方向は、カメラＣＡ３の撮像軸とカメラＣＡ１の撮像軸との角度中心よりもカメラＣＡ３の撮像軸側の所定角の方向とする。これにより、補正フレーム映像データ５２３’の会議者映像３１１’，３１５’およびテーブル映像４１０’は、元のフレーム映像データ５２３の会議者映像３１１，３１５およびテーブル映像４１０よりも、カメラＣＡ１（映像データ５０１）の映像態様により近い映像となる。

次に、映像制御部１３は、映像データ５０１の映像データ５０３側の端部の切り出し領域で設定されるフレーム映像データ５２４を取得すると、フレーム映像データ５２３と同様の映像補正を行い、補正フレーム映像データ５２４’を生成する。この際、設定する撮像軸の方向は、カメラＣＡ３の撮像軸とカメラＣＡ１の撮像軸との角度中心よりもカメラＣＡ１の撮像軸側の所定角の方向とする。これにより、補正フレーム映像データ５２４’の会議者映像３１１”，３１２”，３１５”およびテーブル映像４１０”は、元のフレーム映像データ５２４の会議者映像３１１，３１２，３１５およびテーブル映像４１０よりも、カメラＣＡ３（映像データ５０３）の映像態様により近い映像となる。この際、補正フレーム映像データ５２４’は、補正フレーム映像データ５２３’よりも、よりカメラＣＡ１側の映像態様に近い映像となる。

このような処理を行うことで、映像データ５０３から映像データ５０１へと切り出し領域が変化する場合に、滑らかにパンし、映像の切り替わりによる違和感をより抑圧した映像を提供することができる。

なお、上述の映像補正処理の説明では、切り替わり前後の１フレームずつの映像補正を行う例を示したが、全体のフレーム数が多い場合等には、切り替わり前後の数フレーム分を映像補正して、より滑らかにパンするフレーム映像データ群を生成することもできる。

本発明のテレビ会議装置の外観斜視図である。本発明のテレビ会議装置１の機能ブロックの構成および外部との接続関係を示した図である。テレビ会議装置１の配置例および撮像範囲を表す平面図である。テレビ会議装置１及び表示器２０の配置例を示す平面図である。図３の状況における各カメラＣＡ１〜ＣＡ３で撮像される映像データ５０１〜５０３の位置関係を示す図である。仮全体映像データの映像、および、フレーム映像データの切り出し領域を示す図、および各フレーム映像データ例を示す図である。話者方位検出による話者映像データの割り込みについて説明する図である。映像補正の概念を説明するための図である。

符号の説明

１−テレビ会議装置、１０−メイン制御部、１１−収音制御部、１２−エコーキャンセラ、１３−映像制御部、１４−放音制御部、１５−通信制御部、１６−操作部、２０−表示器、ＭＣ１〜ＭＣ１６−マイク、ＳＰ１〜ＳＰ１４−スピーカ、ＣＡ１〜ＣＡ３−カメラ、３０１〜３０６−会議者、３１１〜３１６−会議者映像、４００−会議テーブル、４１０−テーブル映像、５０１〜５０３−映像データ、５１１〜５１ｎ、５２１〜５２５−フレーム映像データ、

Claims

自装置周りを収音して音声データを生成する収音手段と、
それぞれに異なる撮像領域を撮像して、映像データを生成する複数のカメラと、
該複数のカメラの映像データに基づいて出力用映像データを生成する出力用映像データ生成手段と、
前記音声データと前記出力用映像データとを関連付けして通信映像音声データを生成して送信する通信制御手段と、
を一つの筐体に備えたテレビ会議装置であって、
外部からの制御コマンドを受け付ける制御コマンド受付手段を備え、
前記複数のカメラは、それぞれの撮像領域が特定方向に沿って連続するように設定され、
該制御コマンド受付手段がスキャン制御コマンドを受け付けると、
前記出力用映像データ生成手段は、前記複数のカメラの映像データにより構成される全体映像データを、前記特定方向に沿って順次切り出し領域をずらしながら所定サイズの映像領域毎に切り出すことで、スキャン映像データを生成し、該スキャン映像データを前記出力用映像データとする、
テレビ会議装置。
前記出力用映像データ生成手段は、前記スキャン制御コマンドを受け付けると、全てのカメラからの前記切り出す映像領域の映像倍率を同じにする、
請求項１に記載のテレビ会議装置。
前記複数のカメラは、それぞれの撮影軸の方向が異なる配置で前記筐体に設置され、
前記出力用映像データ生成手段は、前記切り出す映像領域が先のカメラから後のカメラへ移行する際に、前記先のカメラの撮影軸から前記後のカメラの撮影軸へ、それぞれのカメラの撮影軸間の角度に準じて徐々に撮影軸が変化するように映像補正を行う、
請求項１または請求項２に記載のテレビ会議装置。
前記収音手段は、複数のマイクと、該複数のマイクの収音音声データからそれぞれに異なる収音指向性を有する複数の収音ビーム音声データを取得して、該複数の収音ビーム音声データのレベルから話者方位を検出する収音制御手段と、を備え、
該収音制御手段は、当該話者方位を前記出力用映像データ生成手段へ与え、
前記出力用映像データ生成手段は、話者方位を取得すると、当該話者方位を含む所定サイズの映像領域を切り出して話者映像データを生成し、該話者映像データを前記出力用映像データとする、
請求項１〜請求項３のいずれかに記載のテレビ会議装置。