JP5031016B2

JP5031016B2 - 画像処理装置、画像処理方法およびプログラム

Info

Publication number: JP5031016B2
Application number: JP2009277481A
Authority: JP
Inventors: 憲彦村田; 青木　　伸
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2009-12-07
Filing date: 2009-12-07
Publication date: 2012-09-19
Anticipated expiration: 2021-07-04
Also published as: JP2010081644A

Description

本発明は、画像処理装置、画像処理方法およびプログラムに関するものである。

近年、電気通信技術の発展により、会議の様子を撮影し、取得された画像を遠隔地に伝送するテレビ会議システムが多くの企業や団体で活用されるようになった。かかるシステムの利便性をより向上させるべく、従来より会議の様子を映像として取り込むための装置および話者のみを切り出した部分映像を伝送するためのシステムが数多く提案されている。

このような従来技術として、たとえば、特許文献１では、マイクから入力される音声を検出して話者を判定し、該判定結果に基づいてカメラ制御部でカメラを自動制御し、話者を捉えるというテレビ会議システムに関する技術が開示されている。

また、特許文献２では、魚眼又は超広角レンズおよび可変指向性マイクロフォンを用いたテレビカメラ装置に関する技術が開示されている。具体的には、音源位置の方向を判定し、該音源位置方向を追尾し、音源位置方向の画像を切り出して映像信号を生成するという発明が開示されている。

しかしながら、従来の技術では以下の問題点があった。すなわち、特開平５−１２２６８９号公報に開示される技術では、話者方向へカメラの向きを変えるのにある程度の時間が必要であり、話者が話し始めてから若干の間をおいて話者が映し出されるという問題点があった。また、カメラの移動の間映像が流れてしまい、会議画像が見辛くなるという問題点があった。すなわち、臨場感を損ねるという問題点があった。

また、特開平１１−３３１８２７号公報に開示される技術では、魚眼又は超広角レンズを用いた該テレビカメラ装置を机の上などに設置する場合、一般に天井などあまり重要でないものが視野の大半を占め、人間の顔などの重要な被写体が視野の周辺部に存在し、周縁減光や収差の影響を受けてしまうという問題点あった。すなわち、会議を効率的に視聴することができないという問題点があった。

また、このようなレンズを用いた場合、歪み補正のための計算が像の位置に大きく依存してしまい、計算負担が大きくなるという問題点もあった。また、このようなレンズないし光学系の設計は非常に難しくコストも高くなってしまうという問題点もあった。

また、近年では、従来のテレビ会議システムの特徴であるいわゆるリアルタイム性に加えて、会議内容を再びチェックしたいという要望も出てきている。

本発明は、上記に鑑みてなされたものであって、臨場感を維持しつつ、会議を効率的に再現可能とすることを目的とする。

上述した課題を解決し、目的を達成するために、本発明にかかる画像処理装置は、広角画像からパノラマ画像を展開する広角画像展開部と、前記パノラマ画像から、話者を含む画像を抽出する画像抽出部と、前記話者を含む画像と、前記話者の音声を含む音情報と、を対応付けて記憶部に記憶させるデータ送出部と、前記話者を含む画像と、前記話者の音声を含む音情報と、を対応付けて出力部に出力させる画像音声出力部と、を備え、前記画像音声出力部は、話者が所定の大きさとなるように拡大または縮小させた話者を含む画像を、前記出力部に出力させることを特徴とする。

本発明は、臨場感を維持しつつ、会議を効率的に再現可能とすることができるという効果を奏する。

図１は、本発明を会議場面に設置した使用例を概説する説明図である。図２は、実施の形態１の会議画像送出装置の外観斜視図である。図３は、実施の形態１の会議画像送出装置の正面図と平面図である。図４は、実施の形態１の会議画像送出装置のカメラ部の構成例を示した説明図である。図５は、実施の形態１の双曲面ミラーを用いた場合の光路を説明する図である。図６は、実施の形態１の双曲面ミラーによりＣＣＤの表面に結像される広角画像の様子を示した図である。図７は、実施の形態１の会議録画再生装置の構成例を示した図である。図８は、実施の形態１の録画画像再生システムの機能的構成の一例を示したブロック図である。図９は、実施の形態１の音源方向検出部による音源方向の検出原理を説明する図である。図１０は、音源が存在する方向が円錐上であることを説明する図である。図１１は、４つのマイクロフォンを２組に分けて音源方向を検出する場合の組分けの様子を示した説明図である。図１２は、３つのマイクロフォンによってマイクロフォン部が構成される場合のマイクロフォンの組の採り方を説明する説明図である。図１３は、実施の形態１の音源方向のデータ構成例を示した図である。図１４は、双曲面ミラーから取り込まれたドーナツ画像をパノラマ画像に変形した様子を示した説明図である。図１５は、双曲面ミラーを使用した場合の変形原理を説明する図のうち、ドーナツ画像とパノラマ画像の座標系を示した図である。図１６は、双曲面ミラーを使用した場合の変形原理を説明する図のうち、ＣＣＤからみた頂角ψと、仰角φとの関係を示した図である。図１７は、ドーナツ画像の座標系（ｕ，ｖ）からパノラマ画像の座標系（θ，φ）へ座標系を変換する場合の変換テーブルの例を模式的に示した説明図である。図１８は、実施の形態１の会議録画再生システムの処理流れの例を示した説明図である。図１９は、実施の形態２の画像録画再生システムの外観構成の一例を示した図である。図２０は、実施の形態２の会議画像録画再生システムのハードウェア構成の一例を示した説明図である。図２１は、実施の形態２の会議録画再生システムの機能的構成の一例を示した説明図である。図２２は、実施の形態２における画像抽出の例を示した説明図である。図２３は、実施の形態２の画像抽出部による部分画像データの生成方法を説明する説明図である。図２４は、実施の形態２の会議録画再生システムの処理流れの例を示した説明図である。図２５は、実施の形態３のカメラ部を含んだ装置の外観構成の一例を示した説明図である。図２６は、２枚の反射鏡を用いてドーナツ画像を取り込む構成としたカメラ部の外観構成図である。図２７は、実施の形態３のマイク部と音源方向との関係を説明する説明図である。図２８は、実施の形態４の会議画像送出装置と会議録画再生装置の機能ブロックを示した図である。図２９は、実施の形態４の会議画像送出装置の処理流れの例を示したフローチャートである。図３０は、実施の形態４の会議画像再生装置の処理流れの例を示したフローチャートである。図３１は、再生させたい画像を選択する画面構成の例を示した図である。図３２は、実施の形態５の会議画像送出装置と会議録画再生装置の機能ブロック図を示した図である。図３３は、実施の形態５の会議画像送出装置３２０１の処理流れの例を示したフローチャートである。図３４は、実施の形態５の会議画像再生装置の処理流れの例を示したフローチャートである。図３５は、再生させたい画像を選択する画面構成の例を示した図である。図３６は、実施の形態５の会議画像録画再生装置から出力される画像の構成例（画面例）を示した説明図である。図３７は、「ＭＡＮＵＡＬ」ボタンが選択されたのちの図３６に示した画像の構成の変化の様子を示した説明図である。図３８は、実施の形態５の方向指示操作部により抽出部分が変更された画像を示した図である。図３９は、画面構成の他の例であって、４分割画面の例を示した説明図である。

以下に添付図面を参照して、この発明にかかる画像処理装置、画像処理方法およびプログラムの一実施の形態を詳細に説明する。

（実施の形態１）
実施の形態１では、本発明の広角画像録画再生システムを会議の録画再生に適用した会議録画再生システムについて説明する。ここでは、まず、会議録画再生システムがどのように使用されるかの使用例について簡単に概説し、次に、会議録画再生システムを構成する要素（画像と音声の入力部に該当する会議画像送出装置、および、その画像と音声の録画再生部に該当する会議画像再生装置）を説明し、最後に処理流れについて説明する。

（会議録画再生システムの使用例）
図１は、本発明を会議場面に設置した使用例を概説する説明図である。会議録画再生システム１００は、広角画像と音声を入力する会議画像送出装置２００と、会議画像送出装置２００で入力された画像と音声を録画再生する会議画像再生装置３００と、を有する。

図示したように、会議画像送出装置２００は、テーブル１に設置され、会議の参加者（話者）２のいる方向、すなわち、水平面を見渡す全周囲の画像を一括して撮像し、また、会議の音声も入力する。会議画像再生装置３００は、キャビネット３に格納され、会議画像送出装置２００からの画像を録画し、ユーザの要求に応じて録画された会議内容を必要に応じて再生する（なお、図には再生用のモニタを省略している）。再生に際して会議画像再生装置３００は、会議画像送出装置２００から取り込まれた全周囲の画像を変形し、矩形の出力画像となるように変形する。

次に、会議録画再生システム１００の各部を説明する。

（会議画像送出装置２００の外観構成）
図２は、実施の形態１の会議画像送出装置２００の外観斜視図である。また、図３は、実施の形態１の会議画像送出装置２００の正面図と平面図である。会議画像送出装置２００は、鉛直方向を中心もしくは軸とした広角画像を入力するカメラ部２０１と、音声を入力するマイク部２０２と、を有する。ここで、広角画像とは少なくとも水平面を見渡す全周囲（３６０°）を含む画像をいう。

なお、図示したように、実施の形態１の会議画像送出装置２００は、４つのマイクロフォン２２１を有し、このマイクロフォン２２１と、後述するカメラ部２０１の撮像素子（ＣＣＤ）とは、台座２０３に配置されている。また、後述するカメラ部２０１の双曲面ミラー２１１は、透明ガラス２０４により台座２０３に対峙して配置されている。透明ガラス２０４を用いることにより、双曲面ミラー２１１から入射する光が遮蔽を受けることなく全周囲の画像を入力することができる。なお、符合２０５は、各種データを送信するケーブルを示す。

（会議画像送出装置２００：カメラ部２０１の内容）
図４は、実施の形態１の会議画像送出装置２００のカメラ部２０１の構成例を示した説明図である。カメラ部２０１は、双曲面ミラー２１１と、レンズ２１２と、絞り２１３と、光電変換素子であるＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄ
Ｄｅｖｉｃｅ）２１４と、を有する。

また、カメラ部２０１は、ＣＣＤ２１４のタイミング制御をおこなうと共に、ＣＣＤ２１４により得られた映像信号をＡ／Ｄ変換（アナログ−デジタル変換）する駆動処理部２１５と、駆動処理部２１５により得られたデジタル信号に対してエッジ強調やγ補正等の前処理をおこなう前処理回路２１６と、アイリスを制御するために絞り２１３を駆動するモータ駆動部２１７とを備えている。

ここで、光学系について説明する。双曲面ミラー２１１は、広角の撮影を可能とならしめる反射鏡である。反射鏡の例として実施の形態１では双曲面ミラーを用いて各種の説明をおこなうが、広角画像を取り込める構成であればその態様は問わない。なお、他の反射鏡の例については実施の形態３で述べる。

双曲面ミラー２１１により画像を取り込む技術に関しては、たとえば、Ａ．Ｍ．ＢｒｕｃｋｓｔｅｉｎａｎｄＴ．Ｊ．Ｒｉｃｈａｒｄｓｏｎ：ＯｍｎｉｖｉｅｗＣａｍｅｒａｓｗｉｔｈＣｕｒｖｅｄＳｕｒｆａｃｅＭｉｒｒｏｒｓ，Ｐｒｏｃ．ｏｆｔｈｅＩＥＥＥＷｏｒｋｓｈｏｐｏｎＯｍｎｉｄｉｒｅｃｔｉｏｎａｌＶｉｓｉｏｎ２０００，ｐｐ．７９−８４をあげることができる。同誌によれば、双曲面ミラーの使用により、人の顔などの水平方向に近い重要な被写体を比較的高い解像度で撮影可能であることが示されている。

図５は、実施の形態１の双曲面ミラー２１１を用いた場合の光路を説明する図であり、図６は、実施の形態１の双曲面ミラー２１１によりＣＣＤ２１４の表面に結像される広角画像の様子を示した図である。図示したように、双曲面ミラー２１１から取り込まれる画像はドーナツ形状となっている。なお、図６中の中心部は、台座２０３方向を映し出し、これは重要でない画像情報である。したがって、双曲面ミラー２１１の頭頂部２１８を黒く塗りつぶして、黒色情報としてもよい。なお、使用の態様によっては、頭頂部２１８に基準線を描画し、会議画像送出装置２００の立ち上げの際、モータ駆動部２１７を駆動することにより、ピント調整などの初期設定に利用してもよい。

カメラ部２０１は、以上に説明したように、汎用のＣＣＤ２１４と簡易な構成の双曲面ミラー２１１により構築できる。したがって、所望の被写体を高解像度で一括して撮影するとともに、安価なカメラ部２０１を提供することが可能となる。

（会議画像送出装置２００：マイク部２０２の構成）
次に、マイク部２０２の内容について説明する。図２もしくは図３を用いて説明したように、マイク部２０２には、複数のマイクロフォン２２１が備わっている。以降においては、この複数のマイクロフォン２２１を、適宜マイクロフォンアレイと称することとする。マイクロフォン２２１は、圧電型、容量型（いわゆるコンデンサマイクロフォン）など様々な種類のものを使用することができる。後述するように、複数のマイクロフォンを用いることにより、音源方向（話者方向）を検知することができる。

（会議画像再生装置３００の構成）
次に、会議画像再生装置３００の構成について説明する。図７は、実施の形態１の会議画像再生装置３００の構成例を示した図である。会議画像再生装置３００は、各種の制御および処理をおこなうＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０１と、ＳＤＲＡＭ（ＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３０２と、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）３０３と、マウス等のポインティングデバイス、キーボード、ボタン等に対する入力インターフェース（以下Ｉ／Ｆと称することとする）３０４と、電源３０５と、表示Ｉ／Ｆ３０６と、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）−ＲＡＭドライブ等の大容量記録装置３０７と、会議画像送出装置２００と接続するための外部Ｉ／Ｆ３０８と、を有し、バス３０９を介して接続されている。なお、表示Ｉ／Ｆ３０６はＣＲＴ等のディスプレイに接続される。

次に、会議画像再生装置３００の各構成部について説明する。ＣＰＵ３０１は、ＨＤＤ３０３に格納された所定のプログラムにしたがって、図６に示した広角のドーナツ形状の画像を矩形の出力画像となるように変形する。また、ＣＰＵ３０１は、音源方向の所定領域を抽出する。なお、この変形や抽出の処理については後述する。ＳＤＲＡＭ３０２は、ＣＰＵ３０１の作業領域として利用されるとともに、ＨＤＤ３０３に格納される各処理プログラムや、その他制御プログラム（たとえばＯＳ）などの記憶領域としても利用される。

外部Ｉ／Ｆ３０８は、前述したように、会議画像送出装置２００から送出されるデータを入力する際に使用されるインターフェースである。ここで、会議画像送出装置２００から入力するデータとしては、広角画像（動画データ）、音声データ、音源方向データがあげられる。外部Ｉ／Ｆ３０８は、各種のＩ／Ｆを採用することができ、たとえば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）、ＩＥＥＥ１３９４といった有線接続を採用してもよいし、ＩｒＤＡ、ＢｌｕｅＴｏｏｔｈ等の無線接続を採用してもよい。外部Ｉ／Ｆ３０８により入力されたデータは、大容量記録装置３０７に格納される。

（広角会議録画再生システム１００の内容：機能的構成）
次に、広角会議録画再生システム１００の機能的構成を説明しつつ、広角画像を矩形の出力画像となるように変形する画像処理や音源方向の検出処理について説明する。図８は、会議録画再生システム１００の機能的構成の一例を示したブロック図である。

広角会議録画再生システム１００は、その機能的構成として、広角画像入力部８０１と、音声入力部８０２と、音源方向検出部８０３と、記録部８０４と、画像変形部８０５と、方向修正部８０６と、領域固定部８０７と、画像音声出力部８０８と、を有する。

（広角会議録画再生システム１００：広角画像入力部８０１の内容）
広角画像入力部８０１は、鉛直方向を中心もしくは軸とした広角画像を取り込み、その画像データを記録部８０４に送出する。広角画像の例としては図６にあげられたドーナツ型の画像があげられる。広角画像入力部８０１は、たとえば、図４に示した双曲面ミラー２１１と、レンズ２１２と、絞り２１３と、ＣＣＤ２１４と、駆動処理部２１５と、前処理回路２１６によりその機能を実現できる。

（会議録画再生システム１００：音声入力部８０２・音源方向検出部８０３の内容）
音声入力部８０２は、音声を入力し電気信号（音声データ）に変換し、その音声データを音源方向検出部８０３と記録部８０４に送出する。音声入力部８０２は、マイクロフォン２２１（図２または図３参照）によりその機能を実現することができる。なお、マイクロフォン２２１は前述したように複数配置され、それぞれのマイクロフォン２２１からの音声データに基づいて音源方向が検出される。

音源方向検出部８０３は、音声入力部８０２から音声データを入力し、音源方向を検出する。音源方向を検出することにより、広角画像から発言者（話者）部分の画像を抽出する（切り出す）ことが可能となり、臨場感を維持しつつ、会議を効率的に再現することができる。次に、この音源方向の検出処理について説明する。

ここでは、音源方向検出部８０３が、マイクロフォンアレイに入力される音声の到達時間差により音源方向を検出する方法について説明する。図９は、音源方向検出部８０３による音源方向の検出原理を説明する図である。図に示したように、２つのマイクロフォン２２１（それぞれマイク１、マイク２と便宜的に称することとする）が間隔ｌだけ離れて並んでおり、音声がθ方向から到達する場合、マイク１が出力する音声データｓ１（ｔ）と、マイク２が出力する音声データｓ２（ｔ）との関係は、ｔを時間ｖを音速として、下式（１）の様に表すことができる。
ｓ１（ｔ）＝ｓ２（ｔ−（ｌ・ｃｏｓθ）／ｖ）・・・（１）

式（１）は、マイク１の音声データがマイク２の音声データに対して（ｌ・ｃｏｓθ）／ｖだけ時間が進んで到達していることを示している。音源方向検出部８０３は、この到達時間差を利用して、話者の音声の方向を特定する。

音源方向の特定に際しては、まず、マイク１とマイク２の音声データの到達時間差を検出する。この到達時間差は、たとえばマイク１の音声データｓ１（ｔ）とマイク２の音声データｓ２（ｔ＋ｄｔ）との相互相関値により計算する。相互相関値Ｃ（ｔ，ｄｔ）は、次式（２）により算出される。

式（２）は時刻ｔ以前のＮ個のサンプルを用いて積和演算をおこなうものであることを示している。なお、Ｎは相関窓の大きさを示す正の整数である。詳細な説明は省略するが、Ｃ（ｔ，ｄｔ）を最大化するｄｔが到達時間差である。

次に、マイクの間隔ｌ、到達時間差ｄｔおよび音速ｖを用いて、音声とマイクロフォンの基線とがなす角θを次式（３）により計算する。

ここで、θの値域は０°以上１８０°以下とする。

なお、以上の手順のみでは、マイクロフォン２２１の前側の１８０°の範囲しか方向が検出されず、音源方向が特定されない。すなわち、音源方向検出部８０３が出力する角度θは、実際には音声の到達方向と２つのマイク間の基線とがなす角度であり、実際の音声の方向は図１０に示したように、２つのマイクの中点を頂点とする頂角θの円錐の側面上のいずれかに存在している。

この問題を解消するために、マイク１とマイク２より構成される組と平行でない別のマイクロフォンの組を用いて補正をおこなう。図１１は、４つのマイクロフォン２２１を２組に分けて音源方向を検出する場合の組分けの様子を示した説明図である。図示したように、組分けは、あるマイクロフォン２２１（たとえばマイク１（マイク３））と、そのマイクロフォンと最も距離の離れたマイクロフォン２２１（マイク２（マイク４））とを組み合わせる。

最も距離の離れた２つのマイクの組を用いることで、音声の到達時間差が最大となり、方向検知の精度が向上する。なお、実施の形態１では、マイク部２０２には４つのマイクロフォン２２１が備わっているが、３つのマイクロフォンによっても、音源方向を精度良く検出できる。図１２は、３つのマイクロフォンによってマイクロフォン部が構成される場合のマイクロフォンの組の採り方を説明する説明図である。図示したように、マイクロフォンを正三角形に配置することにより、どのマイクの組を採用しても、精度良く音源方向を検出することができるようになる。なお、図示した例では、第１の組と第２の組を採用して全方向の音源を検出できるが、補完的に第３の組を使用してもよい。

音源方向検出部８０３は、たとえば、マイクロフォン２２１の図示しない制御部によりその機能を実現することができる。なお、使用の態様によっては、会議画像再生装置３００側のＣＰＵ３０１（図７参照）によりその機能を実現させてもよい。なお、この場合は、マイクロフォン２２１から入力される音声をそれぞれ別個に会議画像再生装置３００側に入力する必要がある。

（広角会議録画再生システム１００：記録部８０４の内容）
記録部８０４は、画像入力部８０１から出力された広角画像の動画データ、音声入力部８０２から出力された音声データ、音源方向検出部８０３から出力された音源方向に関するデータを記録する。記録の方式は様々挙げられるが、たとえば動画データに関しては、ＭＰＥＧに代表される動画符号化フォーマットなどの形式で記録する。また、音声データに関してはＭＰＥＧオーディオフォーマットを用いてもよく、ＰＣＭフォーマットを用いてもよい。

音源方向のデータに関しては、音源方向が変わった時刻と、その時の方位角と仰角とを随時記録しておくことによって、後述する画面の抽出（切り出し）をおこなうことが可能となる。図１３は、音源方向のデータ構成例を示した図である。図には、音源方向が変わった時刻（Ｔｉｍｅ）、新たな音源方向の方位角（θ）および仰角（φ）が記録されている。この方向データは、テキストファイルなどの形式で、動画データや音声データと共に大容量記録装置３０７に記録する。

なお、上述した例では、音源方向のデータは、動画データまたは音声データに結合したデータではないが、ＲｅａｌＮｅｔｗｏｒｋｓ社より提供されているＲｅａｌＭｅｄｉａフォーマットなどのストリーミング用フォーマットを用いれば音源方向のデータも１つのファイルに埋め込むことができる。この他ＭＰＥＧ−７のようなマルチメディア情報の内容記述標準を用いて音源方向データをファイルに記すこともできる。

この他、ＭＰＥＧプログラムストリームのように、動画データと音声データを１つのファイルに収めて記録してもよい。この様な符号化を用いることで、記録容量を小さくすることができる。記録部８０４は、たとえば、大容量記録装置３０７によりその機能を実現することができる。なお、使用の態様によっては、ＨＤＤ３０３によりその機能を実現してもよい。たとえば、長時間の会議や、定例会議については、保存の必要性からＤＶＤ等により構成される大容量記録装置３０７に記録し、短時間の会議など、長期の保存の必要性が低いものに関してはＨＤＤ３０３に記録するなどの使い分けをおこなってもよい。

（広角会議録画再生システム１００：画像変形部８０５および関連部の内容）
次に、画像変形部８０５およびこれに付随する機能部について説明する。画像変形部８０５は、ドーナツ形状（もしくは円形状の）広角画像を矩形の出力画像となるように変形する。一般に、広角の範囲を一時に撮影して得られる映像は、人間の眼で確認できる像の形状と異なり、大きな歪みが含まれている。したがって、記録部８０４に記録された会議を後に再生するには、変形処理が必要となる。

図２もしくは図３に示した双曲面ミラー２１１を使用した場合の変形処理について説明する。画像変形部８０５は、図６に示したドーナツ状の画像（以下ドーナツ画像と称することとする）を、図１４のように３６０度の視野角を持つ正像（以下パノラマ画像と称することとする）に変形する。

図１５および図１６は、双曲面ミラー２１１を使用した場合の変形原理を説明する図である。このうち、図１５は、ドーナツ画像とパノラマ画像の座標系を示した図であり、図１６は、ＣＣＤ２１４からみた頂角ψと、仰角φとの関係を示した図である。なお、図１６では、簡単のため、レンズ２１２と絞り２１３とは省略してある。ここでは変換式の便宜上、レンズ２１２〜ＣＣＤ２１４の光学系をピンホールカメラモデルとして説明する。

図中の各変数の意味は、下記の通りである。
（ｕ，ｖ）：ドーナツ画像における座標
（ｕ０，ｖ０）：ドーナツ画像における双曲面ミラーの中心の座標
（θ，φ）：パノラマ画像における座標
ｒ：（ｕ０，ｖ０）から（ｕ，ｖ）への画素単位の距離
ｒｍａｘ：ドーナツ画像における双曲面ミラーの画素単位の半径
θ ：方位角
φ ：仰角
ψ ：カメラの光軸からの頂角
Ｆ：双曲面ミラーの焦点
Ｆ’ ：双曲面ミラーと対をなす双曲面の焦点
（カメラの光学中心に一致する）

このとき、頂角ψと仰角φとの間に、以下の関係が成立する。

ここで、

である。また、φ_maxはドーナツ画像上の半径ｒ_maxの位置に対応する仰角の値であり、これはカメラの仰角方向の撮影限界値を表す。ｒ_maxとφ_maxの値は一般に容易に知ることができる。

以下、変形の手順を説明する。
（ｉ）：点（ｕ，ｖ）に対応する極座標（ｒ，θ）を、次式（６）を解くことにより求める。
（ｕ，ｖ）＝（ｒｃｏｓθ＋ｕ０，ｒｓｉｎθ＋ｖ０）・・・（６）
（ｉｉ）：（６）式により算出されたｒに対応する頂角ψを次式（７）により求める。

ここで、

であり、ψ_maxはドーナツ画像上の半径ｒ_maxの位置および仰角φ_maxに対応する頂角ψの値である。ψ_maxの値は、（４）式にφ_maxを代入することにより求めることができる。
（ｉｉｉ）：（７）式により算出されたψに対応する仰角φを、（４）式により求める。

以上の手順により、双曲面ミラー２１１により撮影されたドーナツ画像における任意の点（ｕ，ｖ）を、パノラマ画像における点（θ，φ）に座標変換することができる。すなわち、ドーナツ画像がパノラマ画像に変形される。

なお、プロセッサの処理能力が低い場合は、画像データの変形処理に計算時間がかかるので所定の変換テーブルを参照することにより（ｕ，ｖ）→（θ，φ）の変換を行ってもよい。図１７は、（ｕ，ｖ）→（θ，φ）の変換テーブルの例を模式的に示した説明図である。図示したテーブルにはドーナツ画像の座標（ｕ，ｖ）各点に対応するパノラマ画像の点（θ，φ）がそれぞれ格納されている。したがって、このテーブルを用いることにより、処理負担を小さくしつつ高速な画像変形をおこなうことが可能となる。

画像変形部８０５は、以上の変換処理をおこなうと共に、所定の画像領域を出力する。すなわち、会議の臨場感を維持しつつ会議を効率的に再現すべく、会議録画再生システム１００は、パノラマ画像のうち話者（発言者）部分を抽出して出力する。図８に示したように、会議録画再生システム１００は、その機能的構成として、話者位置判断部８０９と、領域決定部８１０とを有する。

話者位置判断部８０９は、広角画像入力部８０１から入力した画像データもしくは記録部８０４に記録した画像データのうち、画像の色分布もしくは画像中の移動部分に基づいて話者位置を判断する。画像の色分布に基づく判断の方法としては、たとえば、肌色が局所的に多い部分を検出する手法があげられる。なお、画像中の移動部分により判断が可能であるのは、発言者の口は必ず動いており、また、場合によっては発言者は身振り手振りで体を動かしていることに基づく。したがって、画像中最も移動量が多い部分により話者位置を判断することができる。

領域決定部８１０は、話者位置判断部８０９で判断した話者位置のどの部分を抽出するかを決定する。テーブル１が楕円形である場合に、カメラ部２０１と発言者との距離はそれぞれ異なり、広角画像もしくはパノラマ画像中の話者の大きさも異なることとなる。したがって、出力すべき領域が画一的な大きさであると、場合によっては、発言者が大きすぎたり、反対に小さすぎたりしてしまう。領域決定部８１０は、話者が適切な大きさとなるような領域で話者部分の領域を決定する。なお、画像変形部８０５では、適宜この画像を拡大もしくは縮小して表示する。

一方、方向修正部８０６は、音源方向に対応する方向を修正する。これは、音源方向検出部８０３で検出した音源方向が、拍手音などのノイズや、返事などの発言者以外の発する単発的な言葉により所望の方向とならない場合があることに基づく。また、領域決定部８１０により決定された領域よりも、たとえば、もう少し右側を映し出して欲しいというような要請も実用上は生じる。特に、話者がプレゼンテーションを行っており、ホワイトボードへ書き込みを行っている場合に方向を修正したい場合が生じる。したがって、方向修正部８０６は、この様な要請を満たすべく、音源方向を修正する。

また、領域固定部８０７は、音源方向に対応する方向であって、領域決定部８１０で決定された像領域を固定する。すなわち、領域決定部８１０では、たとえば１６０画素×９０画素といった相対的な領域を決定するのに対し、領域固定部８０７は、その領域が音源方向にしたがってぶれないように絶対的な位置として固定する。これは、話者が体を揺するなどして音源方向が微妙に移動する場合に画像がぶれないようにするものである。

以上説明したように、画像変形部８０５は、話者部分の画像を歪みなく適切に出力する。画像変形部８０５、領域固定部８０７および話者位置判断部８０９は、たとえば、図３に示した会議画像再生装置３００のＣＰＵ３０１と、ＨＤＤ３０３に格納された所定のプログラムによりその機能を実現することができる。また、方向修正部８０６および領域決定部８１０は、たとえば、図３に示した会議画像再生装置３００のＣＰＵ３０１と、ＨＤＤ３０３に格納された所定のプログラムと、入力Ｉ／Ｆ３０４に接続されるポインティングデバイス、Ｋ／Ｂ、ボタンによりその機能を実現することができる。

（会議録画再生システム１００：画像音声出力部８０８の内容）
画像音声出力部８０８は、画像変形部８０５から出力された画像（動画データ）と、この画像が撮影（入力）された際に同時に録音（入力）された音声を対応づけて出力する。すなわち、画像と音声の同期をとって出力する。プロセッサ（たとえばＣＰＵ３０１）の処理速度によっては、音声と画像のタイムラグが生じるので、画像音声出力部８０８は、画像と音声の同期をとることにより会議を自然な感じで再現する。画像音声出力部８０８は、たとえば、図３に示した会議画像再生装置３００のＣＰＵ３０１と、ＨＤＤ３０３に格納された所定のプログラムによりその機能を実現することができる。

（会議録画再生システム１００：処理の流れ）
次に、会議録画再生システム１００の処理流れについて説明する。図１８は、会議録画再生システム１００の処理流れの例を示した説明図である。会議録画再生システム１００は、まず、録画開始ボタン（図示せず）が押下されることにより、録画を開始する（ステップＳ１８０１）。この開始動作以降、鉛直方向を中心もしくは軸とした広角画像（ドーナツ画像）をカメラ部２０１から順次入力し、また、音声をマイク部２０２から順次入力する（ステップＳ１８０２）。なお、マイク部２０２から入力された音声に関しては、前述したマイクの組を使って音源方向を随時検出しておく。

次に、カメラ部２０１から入力されたドーナツ画像と、マイク部２０２から入力された音声と、検出された音源方向を記録する（ステップＳ１８０３）。記録に関しては、後の再生のために、適宜録画時刻やファイル名（会議名）などを付しておく。なお、音源方向が検出されているので、音声については、各マイクロフォン２２１（すなわち４つのマイクロフォン２２１）を４チャンネル分全てを記録する必要はなく、どれか一つもしくは４つの音の平均を記録すればよい。なお、原理的には前述した時間差が生じているが、会議画像送出装置２００の大きさと音速とを考えれば、この時間差は実用的には何ら問題となるレベルではない。

会議の終了にしたがって録画終了ボタン（図示せず）が押下されることにより録画を終了する（ステップＳ１８０４）。以上のステップを経ることにより、全周囲の画像、すなわち、加工前のドーナツ画像により構成される会議の内容を録画することができる。なお、加工前の画像を録画することにより、後の編集（画像領域の抽出、音源方向の修正等）を可能とする。

次に、録画された会議の再生について説明する。再生開始ボタン（図示せず）が押下されることにより、再生を開始する（ステップＳ１８０５）。なお、記録媒体（たとえばＤＶＤ−ＲＡＭ）に複数の会議が録画されている場合は、インデックス表示をしてユーザにどの会議を再生するかを選択させてから再生を開始する。

記録されたドーナツ画像のうち音源方向の肌色部分を手掛かりとして、話者位置を判定し（ステップＳ１８０６）、表示する領域を指定する（ステップＳ１８０７）。ここで、なお、画像の方向を意識的に調整したい場合は、適宜方向を修正する指示をおこなう。

続いて、ドーナツ画像のうち、指定された領域を矩形形状の画像となるように画像変形をおこなう（ステップＳ１８０８）。画像の変形に際しては、変換式を用いて変形してもよいが、変換テーブルを参照してもよい。最後に、抽出され、適正に変形された画像を音声と共に出力する（ステップＳ１８０９）。このようなステップを踏むことにより、臨場感を維持しつつ、会議を効率的に再現させることが可能となる。

なお、会議録画再生システム１００では、マイク部２０２の重心位置を、カメラ部２０１の光軸線上にあるように設計することが好ましい。最も好ましい設計は、ＣＣＤ２１４の重心と複数のマイクロフォン２２１の重心とが一致するような配置である。この様に設計ないし配置することにより、音源を算出する際の座標系と、画像変換する際の座標系を一致させることができ、計算負荷が少なくてすむ。

また、本実施の形態では、マイク部２０２が台座２０３に設けられていたが、個々の参加者２が無線通信手段を有したマイクロフォン２２１をそれぞれ所有することにより、音源の方向を検出することも可能である。たとえば、会議室内の複数の既知の位置に電波を発信するユニットを設置し、マイクロフォン２２１に到達した電波の信号強度や時間差より、三角測量の原理に基づき各マイクロフォン２２１の位置を検出できる。このとき、最も大きな信号振幅が得られたマイクロフォン２２１の方向を、話者方向として検出することができる。ここで、無線通信手段としては、Ｂｌｕｅｔｏｏｔｈなどの通信技術を用いることができる。

なお、会議画像再生装置３００は、パーソナルコンピュータによりその機能を実現させることができる。この場合は各機能部を実現するソフトウェアをハードディスクに格納し、適宜処理プログラムを実行させることによりその機能を実現させることができる。

以上説明したように、実施の形態１の会議録画再生システムは、双曲面ミラーを用いた簡易な光学系により簡便な構成で会議参加者の全員を一度に取り込むことができる。また、この内容を録画することにより会議を再現することができる。再生に関しては、必要な部分を変形して出力することにより、話者を中心とした臨場感の高い会議内容を再現できる。特に、会議内容を全方向で録画しているので、ユーザの好む条件で会議シーンを振り返ることも可能である。

（実施の形態２）
実施の形態２では、広域画像をパノラマ画像に変形してから録画する会議画像録画再生システムについて説明する。なお、実施の形態２では実施の形態１と同様の構成部分については同一の符号を付し、その説明を省略するものとする。以降では、会議録画再生システム１９００の外観構成、ハードウェア構成、機能的構成、処理流れについて順に説明する。

（会議録画再生システム１９００の外観構成）
図１９は、実施の形態２の画像録画再生システムの外観構成の一例を示した図である。画像録画再生システム１９００は、十字ボタン１９０１と、決定ボタン１９０２と、画像音声出力端子１９０３と、媒体挿入スロット１９０４と、を有する。実施の形態１の会議録画再生システム１００は、画像と音声を取り込む会議画像送出装置２００と、その動画を記録して加工再生する会議画像再生装置３００とが別体となっていたが、実施の形態２の会議録画再生システム１９００は、画像音声の入力、格納、加工、再生出力を一つの筐体でおこなう。

まず、外観に表れている上記各部を説明する。十字ボタン１９０１は、図示しない画面に表示されるメニューやポインタを移動させる際に使用する。たとえば、会議名を入力し、会議ファイルを作成する際に使用する。また、複数の会議が録画されている場合には、再生しようとする会議ファイル名を選択する際にも使用する。この他、話者の仰角を入力するなどの音源方向を修正する場合にも使用する。

決定ボタン１９０２は、各種の決定をおこなう。たとえば、十字ボタン１９０１による選択対象を決定する際にも使用する。なお、この決定ボタンに関しては、電源のオンオフと、再生停止とを割り当てるなどして多機能ボタンとして使用することもできる。

画像音声出力端子１９０３は、会議録画再生システム１９００で処理したデータ、すなわち、所定の話者が切り出された画像であって歪みのない画像の画像信号とその画像に伴う音声信号とを出力する。データ形式は前述のようなＭＰＥＧ形式やＲｅａｌＡｕｄｉｏ形式でもよいが、ここでは、通常のテレビに設けられているＶＩＤＥＯ端子（ＶＨＦ／ＵＨＦ端子）により送受信される信号形式を採用している。この様な汎用の信号形式により、特殊な制御回路を介することなく、通常のテレビで会議を再生することが可能となる。

媒体挿入スロット１９０４は、会議を録画する記録媒体を挿入するスロットである。実施の形態１では、ＤＶＤ−ＲＡＭなどを想定したが、ここでは、ＰＣＭＣＩＡソケットを採用し、高密度大容量のカード型ＨＤＤを挿入する構成としている。この様な構成により装置を小型化することが可能となる。なお、場合によっては、ＤＶＤ−ＲＷやＤＡＴテープを挿入できるスロットであってもよい。なお、機械的な駆動部を有する場合には、会議録画再生システム１９００がメカニカルノイズを拾わないような消音構造を採用する。

（会議録画再生システム１９００：ハードウェア構成）
次に、会議録画再生システム１９００のハードウェア構成について説明する。図２０は、実施の形態２の会議画像録画再生システムのハードウェア構成の一例を示した説明図である。会議録画再生システム１９００は、ＣＰＵ３０１の他、ＲＡＭ２００１、ＲＯＭ２００２、操作部２００３、出力Ｉ／Ｆ２００４と、カメラ部２００５と、マイク部２００６と、リムーバブルメディア部２００７と、を有する。なお、カメラ部２００５は、図１９に示した光学系を含んだカメラ部２０１を便宜的に示した表記であり、また、マイク部２００６も、図１９に示したマイクロフォン２２１を含んだマイク部２０２を便宜的に示した表記である。

ＲＡＭ２００１は、ＣＰＵ３０１の作業領域として利用されるとともに、ＨＤＤ３０３に格納される各処理プログラムや、その他制御プログラム（たとえばＯＳ）などの記憶領域としても利用される。ＲＯＭ２００２は、普遍の制御情報や係数を記憶する。たとえば、図１７に示した変換テーブル（対応表）を記憶しておいてもよい。

操作部２００３は、十字ボタン１９０１と、決定ボタン１９０２により構成される。出力Ｉ／Ｆ２００４は、画像音声出力端子１９０３やビデオカードやビデオメモリにより構成され、図示しないテレビのビデオ入力端子へ画像信号および音声信号を送出する。リムーバブルメディア部２００７は、媒体挿入スロット１９０４に挿入されたＰＣＭＣＩＡタイプの大容量ＨＤＤの書き込み／読み出しの駆動制御をおこなう。

（会議録画再生システム１９００の内容：機能的構成）
次に、会議録画再生システム１９００の機能的構成について説明する。図２１は、会議録画再生システム１９００の機能的構成の一例を示した説明図である。会議録画再生システム１９００は、その機能的構成として、図８に説明した各機能部の他、広角画像展開部２１０１と画像抽出部２１０２を備える。

（会議録画再生システム１９００：広角画像展開部２１０１の内容）
広角画像展開部２１０１は、ドーナツ画像をパノラマ画像に変形する。実施の形態１の会議録画再生システム１００では、再生時に画像の変形を行っていたが（図８の画像変形部８０５参照）、実施の形態２の会議録画再生システム１９００では、録画時に画像の変形をおこなう。換言すれば、会議録画再生システム１９００では、記録部８０４への記録前に広角画像をパノラマ画像へ展開し、このパノラマ画像が記録される。展開処理については、式（４）〜式（８）を用いて計算すればよいのでその説明を省略する。

なお、ＣＰＵ３０１（図２０参照）の処理能力が低い場合は、画像データの変形処理に計算時間がかかるので所定の変換テーブルを参照することにより広角画像とパノラマ画像とを対応づけてもよい。このようなテーブルを用いることにより、処理負担を小さくしつつ高速な画像変形をおこなうことが可能となる。

広角画像展開部２１０１は、たとえば、ＣＰＵ３０１と、ＨＤＤ３０３に格納された広角画像展開プログラムによりその機能を実現することができる。なお、会議録画再生システム１９００であっても会議録画再生システム１００であっても、オリジナルの情報を１００％有しているので、所望の音源方向のシーンを再生することが随時可能となる。

（会議録画再生システム１９００：画像抽出部２１０２の内容）
画像抽出部２１０２は、記録部８０４に記録されたパノラマ画像のうち音源方向に対応する所定の画像領域を切り出し（抽出し）、画像音声出力部８０８に出力する。たとえば、会議参加者Ａ（図６参照）が発言中である場合には、音源方向データに基づき、図１４の様に展開され記録された映像データを基に、参加者Ａに該当する部分を抽出する。以降では、この切り出された画像を部分画像と称することとする。図２２は、画像抽出の例を示した説明図である。図示したように画像抽出部２１０２は、参加者Ａのみが映された部分画像データを生成する。

ここで、画像抽出の手順を説明する。図２３は、実施の形態２の画像抽出部２１０２による部分画像データの生成方法を説明する説明図である。まず、部分画像データとして抽出される角度の範囲を事前に設定する。この角度の範囲は、方位角方向がΔθ、また仰角方向がΔφであるとする。次に、音源方向検出部８０３が検出した方位角θおよび仰角φを読み込む。最後に、記録部８０４から入力したパノラマ画像データにおいて、方位角θおよび仰角φに対応する領域（（θ−Δθ／２，φ−Δφ／２）、（θ＋Δθ／２，φ−Δφ／２）、（θ−Δθ／２，φ＋Δφ／２）、（θ＋Δθ／２，φ＋Δφ／２）で囲まれた領域）を抽出することにより、部分映像データを生成する。

なお、使用の態様によっては、画像抽出部２１０２は、ドーナツ画像から直接画像を抽出してもよい。このときはドーナツ画像を図１５に示したように、座標変換テーブルのうち（θ，φ）を中心とするΔθ×Δφの矩形領域のみをアクセスすることにより、ドーナツ画像データから部分映像データを切り出して変形する。また、実施の形態１のように、画像変形部８０５を有する場合には、画像変形部８０５により生成されたパノラマ画像に対し、（θ，φ）を中心とするΔθ×Δφの矩形領域を直接抽出するようにしてもよい。

画像抽出部２１０２は、たとえば、図２０に示した会議録画再生システム１９００のＣＰＵ３０１と、ＨＤＤ３０３に格納された画像抽出プログラムによりその機能を実現することができる。なお、実施の形態２においては、画像音声出力部８０８は、画像抽出部２１０２から出力された画像（動画データ）と、この画像が撮影（入力）された際に同時に録音（入力）された音声を対応づけて出力する。すなわち、画像と音声の同期をとって出力する。ＣＰＵ３０１（図２０参照）の処理速度によっては、音声と画像のタイムラグが生じるので、画像音声出力部８０８は、画像と音声の同期をとって自然な会議を再現する。

（会議録画再生システム１９００：処理の流れ）
次に、会議録画再生システム１９００の処理流れについて説明する。図２４は、会議録画再生システム１００の処理流れの例を示した説明図である。会議録画再生システム１００は、まず、録画開始ボタン（図示せず）が押下されることにより、録画を開始する（ステップＳ２４０１）。この開始動作以降、鉛直方向を中心もしくは軸とした広角画像をカメラ部２０１から順次入力し、また、音声をマイク部２０２から順次入力する（ステップＳ２４０２）。なお、マイク部２０２から入力された音声に関しては、前述したマイクの組を使って音源方向を随時検出しておく。

次に、カメラ部２０１から入力された広角画像（ドーナツ画像）を順次パノラマ画像に変形する（ステップＳ２４０３）。このパノラマ画像と、マイク部２０２から入力された音声と、検出された音源方向を記録する（ステップＳ２４０４）。記録に関しては、後の再生のために、適宜録画時刻やファイル名（会議名）などを付しておく。

会議が終わり、録画終了ボタン（図示せず）が押下されることにより、録画を終了する（ステップＳ２４０５）。以上のステップを経ることにより、全周囲の画像、すなわち、会議の様子をすべて含んだ内容を録画することができる。なお、保存された画像は、全周囲の画像を含んでいるので、後でユーザが好むように編集可能（画像領域の抽出、音源方向の修正等）となる。

次に、録画された会議の再生について説明する。会議録画再生システム１９００は、再生開始ボタン（図示せず）が押下されることにより再生を開始する（ステップＳ２４０６）。なお、記録媒体（ＰＣＭＣＩＡタイプのハードディスク）に複数の会議が録画されている場合は、インデックス表示をしてユーザにどの会議を再生するかを選択させる。

記録されたパノラマ画像のうち音源方向の肌色部分を手掛かりとして、話者位置を判定し（ステップＳ２４０７）、表示させる領域の画像を抽出する（ステップＳ２４０８）。最後に、抽出された画像を音声と共に出力する（ステップＳ２４０９）。このようなステップを踏むことにより、臨場感を維持しつつ、会議を効率的に再現させることが可能となる。

以上説明したように、実施の形態２の会議録画再生システムは、双曲面ミラーを用いた簡易な光学系により簡便な構成で会議参加者の全員を一度に取り込むことができる。また、この内容を録画することにより会議を再現することができる。また、ドーナツ画像をパノラマ画像に展開したものを録画するので、再生時の負荷が少ないシステムを構築することができる。

（実施の形態３）
実施の形態３では、会議録画再生システムのうち、カメラ部およびマイク部が実施の形態１または２とは異なった態様について説明する。図２５は、実施の形態３のカメラ部を含んだ装置の外観構成の一例を示した説明図である。図から明らかなように、会議録画再生システム２５００のカメラ部２５０１は、双曲面ミラーの代わりに円錐形状を有する鏡面体２５０２を有する。ドーナツ画像からパノラマ画像への変換式についての説明は省略するが、図４に示したレンズ２１２のように、適宜レンズを配することによりＣＣＤ２１４の表面上に焦点を合わせるようにする。なお、使用の態様によっては、放物面を有する鏡面体であってもよい。

以上にあげた例では、反射鏡（双曲面ミラー２１１、円錐形状を有する鏡面体２５０２もしくは放物面を有する鏡面体）は１枚構成であったが、これに限ることなく２枚の反射鏡を用いてもよい。図２６は、２枚の反射鏡を用いてドーナツ画像を取り込む構成としたカメラ部の外観構成図である。カメラ部２６００は、放物面ミラーもしくは双曲面ミラーから構成される第１の反射鏡２６０１と、第１の反射鏡により反射された反射光をＣＣＤ方向へ偏向する第２の反射鏡２６０２とを有する。なお、第１の反射鏡２６０１の頭頂部は第２の反射鏡からの反射光を取り込むために穴が開けられている。

次にマイク部について説明する。図２７は、実施の形態３のマイク部と音源方向との関係を説明する説明図である。実施の形態１および実施の形態２のマイク部２０２は、無指向性のマイクロフォン２２１を用いて、音声の到達時間差に基づいて音源方向を検出していた。実施の形態３のマイク部２７０１は、指向性を有するマイクロフォン２７０２を４つ有し、その音声の強度に基づいて音源方向を決定する。便宜的に４つのマイクロフォン２７０２をマイク１〜４とする。

いま、音声強度がマイク１で２０、マイク２で３０、マイク３で２０，マイク４で５という数値であったとする。この場合はマイク２の方向に音源があると判断する。マイク１とマイク３の強度を比較するといずれも同じ値２０であるので、最終的に音源方向はマイク２方向（図でθ＝４５°と示した方向）と決定する。

別の例を説明する。音声強度がマイク１で１５、マイク２で３０、マイク３で２５，マイク４で５であったとする。この場合はマイク２の方向に音源があると初期判断する。マイク１とマイク３の強度を比較すると、マイク３の強度がマイク１より大きいので、音源方向をマイク２方向からマイク３方向に若干量移動させた方向（図でθ＝３０°と示した方向）と決定する。この方向の移動量は指向性マイクの特性にしたがって予め決定しておけばよい。このように、指向性のマイクロフォン２２１を用いれば、式（１）〜式（３）のような計算をおこなわなくてすむので、プロセッサの負荷を軽減させることができる。

（実施の形態４）
実施の形態４では、汎用性のある会議画像送出装置および会議画像再生装置について説明する。ここで汎用性のあるとは、広角画像を取り込む鏡面体の構成やマイクロフォンの種類等により会議画像送出装置や会議画像再生装置が複数種類あっても、任意の組み合わせにより会議の録画ないし再生ができることをいう。なお、実施の形態４においても、実施の形態１〜３と同様の構成部分については、特に断らない限り同一の符号を付し、その説明を省略するものとする。

実施の形態４の会議録画再生システム２８００は、会議画像送出装置２８０１と、会議画像再生装置２８０２とを有する。図２８は、実施の形態４の会議画像送出装置２８０１と会議画像再生装置２８０２の機能ブロックを示した図である。会議画像送出装置２８０１は、その機能的構成として、広角画像入力部２８１１と、音声入力部２８１２と、音源方向検出部２８１３と、仰角設定部２８１４と、データ送出部２８１５と、を有する。

広角画像入力部２８１１は、鉛直方向を中心もしくは軸とした広角画像を取り込み、その画像データをデータ送出部２８１５に出力する。広角画像の入力は、実施の形態１で示した双曲面ミラー２１１を用いてもよく、また、実施の形態３で示した円錐形状の鏡面体２５０２もしくは放物面の反射鏡のいずれを用いてもよい。

音声入力部２８１２は、音声を入力して電気信号（音声データ）に変換し、その音声データを音源方向検出部２８１３とデータ送出部２８１５に送出する。音声の入力は、実施の形態１で示した無指向性のマイクロフォン２２１を採用してもよく、また、実施の形態３で説明した指向性のマイクロフォン２７０２を用いてもよい。音源方向検出部２８１３では、音声入力部２８１２から入力した音声の時間差もしくは強度に基づいて音源方向を検出する。音源方向の検出原理は既に説明したので省略する。

仰角設定部２８１４は、話者の高さ方向である仰角を設定する。音源方向検出部は一般に、図１０を用いて説明したように、仰角方向についての誤差が大きい。したがって、仰角設定部２８１４は、会議画像送出装置２８０１が設置される平面からの仰角を設定する。設定の方法は、たとえばテンキーによる角度ψの直接設定の他、話者の画像データ（肌色データ）検出に基づいてもよい。

データ送出部２８１５は、広角画像と、音声と、仰角も含めた音源方向に関するデータを所定のデータ格納手段に送出する。ここでは、会議画像再生装置２８０２に対して送出する。なお、実施の形態１〜３までは、有線によるデータ送出を述べたが、これに限ることなく無線によりデータを送出してもよい。無線データの送出方法については種々の方法を採用できるが、たとえば、ＩｒＤＡ、ＢｌｕｅＴｏｏｔｈ等の無線Ｉ／Ｆを採用することができる。

次に、会議画像再生装置２８０２について説明する。会議画像再生装置２８０２は、その機能的構成として、データ入力部２８２１と、記録部２８２２と、画像変形部２８２３と、領域決定部２８２４と、画像音声出力部２８２５と、を有する。また、会議画像再生装置２８０２は、方向修正部８０６と、領域固定部８０７を有する。なお、以降では各機能部を分説するが、会議画像再生装置２８０２はパーソナルコンピュータによりその機能を実現させることができる。この場合は各機能部を実現するソフトウェアをハードディスクに格納し、適宜処理プログラムを実行させることによりその機能を実現させることができる。

データ入力部２８２１は、所定のデータ送信元から、広角画像が撮像された動画データと、当該動画データに同期した音声データと、音源方向に関するデータと、を入力する。ここでは、所定のデータ送信元を会議画像送出装置２８０１としているが、動画データ、音声データ、音源方向に関するデータを、そのデータの種別が認識できる様な形式であれば送信元の装置には依存しない。なお、データの種別は、ファイルの拡張子やファイルのヘッダ部分により判別することができる。また、広角画像は、ここではドーナツ画像を想定しているが、パノラマ画像であってもよい。この種別も拡張子やヘッダにより判別する。データ入力部２８２１は、たとえば、ＩｒＤＡ、ＢｌｕｅＴｏｏｔｈ等の無線Ｉ／Ｆを採用することができる。

記録部２８２２は、データ入力部２８２１が入力した広角画像の動画データ、音声データ、仰角を含んだ音源方向に関するデータを記録する。記録の方式は様々挙げられるが、前述した様に、ＭＰＥＧ形式やＲｅａｌＡｕｄｉｏ形式を採用することができる。

画像変形部２８２３は、広角画像を矩形の出力画像となるように変形する。変換については、ＣＣＤ２１４で焦点が合うように設計されているので、ＣＣＤ２１４が取り込む画像は、常にドーナツ画像である。したがって、前述したようにドーナツ画像とパノラマ画像との対応テーブル（図示せず）を参照することにより画像の変形をおこなう。このとき、最終的な出力画像が発言者を含んだ部分であるので、画像変形部２８０３では、領域決定部２８２４で決定された画像領域部分のみの画像変形をおこなう。

領域決定部２８２４は、記録部２８２２に記録された仰角を含んだ音源方向に関するデータに基づいて再生すべき領域を決定する。なお、実施の形態１で説明したように、話者位置判断部８０９と併用して話者位置の検出精度を向上させてもよい。画像音声出力部２８２５は、画像変形部２８２３から出力された画像（動画データ）と、この画像が撮影（入力）された際に同時に録音（入力）された音声を対応づけて出力する。

次に、会議画像送出装置２８０１の処理流れについて説明する。図２９は、実施の形態４の会議画像送出装置２８０１の処理流れの例を示したフローチャートである。まず、会議画像送出装置２８０１のシステムがユーザにより起動され、データ（画像データと音声データ）の取り込み動作を開始する（ステップＳ２９０１）。次に、取り込み停止（記録）が指示された否かを判断し（ステップＳ２９０２）、指示があれば（ステップＳ２９０２：Ｙｅｓ）、取り込みを終了する。

取り込み停止の指示がない限り（ステップＳ２９０２：ＮＯ）、ＣＣＤ２１４から送信される画像データとマイクロフォンアレイから送信される音声データを入力し続ける（ステップＳ２９０３）。音声データがある一定量、たとえば式（２）に示した相関窓Ｃの大きさＮと同数のサンプルが入力された場合に、音源方向を検出し、音源方向データを生成する（ステップＳ２９０４）。会議画像送出装置２８０１は、画像データ、音声データおよび音源方向データを、所定の送信先、たとえば、ＰＣに順次出力する（ステップＳ２９０５）。以降は、ステップＳ２９０２〜ステップＳ２９０４までの動作を順次繰り返し、ユーザが記録停止を指示するまでデータを送出する。

次に、会議画像再生装置２８０２の処理流れについて説明する。図３０は、実施の形態４の会議画像再生装置２８０２の処理流れの例を示したフローチャートである。まず、会議画像再生装置２８０２のシステムがユーザにより起動される（ステップＳ３００１）。次に、図示しないディスプレイ（テレビ）に表示される画像にしたがって、再生する画像を選択する（ステップＳ３００２）。図３１は、再生させたい画像を選択する画面構成の例を示した図である。図示したように、会議のファイルはＭｅｅｔｉｎｇ１、Ｍｅｅｔｉｎｇ２と名付けられており、各ファイルは、画像データ（ＭＰＥＧ−２Ｖｉｄｅｏ）と、音声データ（ＭＰＥＧＡｕｄｉｏ）と、音源方向データ（ＴＥＸＴ）から構成されていることが分かる。

次に、会議画像再生装置２８０２は、広角画像データ、音声データおよび音源方向データを読み出し、再生動作を開始する（ステップＳ３００３）。続いて、会議画像再生装置２８０２は、再生停止の指示があるか否かを判定し（ステップＳ３００４）、指示された場合には再生を停止する。一方、再生停止の指示がない場合（ステップＳ３００４：ＮＯ）、音源方向データを問い合わせる時刻に到達したか否かを判定する（ステップＳ３００５）。音源方向データを問い合わせる時刻とは、たとえば、図１３に示したように、音源方向が変化した時刻をいう。

問い合わせ時刻に到達した場合は（ステップＳ３００５：Ｙｅｓ）、音源方向データにアクセスし、新たな音源方向（方位角θと仰角φの値）を取得する（ステップＳ３００６）。続いて、会議画像再生装置２８０２は、ステップＳ３００６で取得した、方位角θと仰角φに対応する部分画像データを抽出し（ステップＳ３００７）、抽出された部分画像データと音声とを同期させて出力（再生）する（ステップＳ３００８）。なお、ステップＳ３００５で問い合わせ時刻に到達していない場合は（ステップＳ３００５：ＮＯ）、現在再生されている部分画像データをそのまま続行して再生する（ステップＳ３００９）。

以上説明したように、実施の形態４は、ビデオカメラとビデオデッキのように会議画像送出装置と会議画像再生装置が別個独立に構成されていても、会議内容を臨場感を維持しつつ効率的に再現させることができる。

（実施の形態５）
実施の形態５では、汎用性のある会議画像送出装置および会議画像再生装置の他の構成例について説明する。なお、実施の形態５においても、実施の形態１〜４と同様の構成部分については、特に断らない限り同一の符号を付し、その説明を省略するものとする。

図３２は、実施の形態５の会議画像送出装置と会議録画再生装置の機能ブロック図を示した図である。実施の形態５の会議録画再生システム３２００は、会議画像送出装置３２０１と、会議画像再生装置３２０２とを有する。会議画像送出装置３２０１は、その機能的構成として、広角画像入力部３２１１と、音声入力部３２１２と、音源方向検出部３２１３と、広角画像展開部３２１４と、画像抽出部３２１５と、データ送出部３２１６と、を有する。

広角画像入力部３２１１は、鉛直方向を中心もしくは軸とした広角画像を取り込み、その画像データを広角画像展開部３２１４に出力する。広角画像の入力は、実施の形態４と同様に、双曲面ミラー２１１、円錐形状の鏡面体２５０２、放物面の反射鏡のいずれを用いてもよい。音声入力部３２１２は、音声を入力して電気信号（音声データ）に変換し、その音声データを音源方向検出部３２１３とデータ送出部３２１６に送出する。音声入力部３２１２は、指向性のマイクロフォンを用いてもよいし無指向性のマイクロフォンを用いてもよい。音源方向検出部２８１３では、音声入力部３２１２から入力した音声の時間差もしくは強度に基づいて音源方向を検出し、画像抽出部３２１５とデータ送出部３２１６に出力する。

広角画像展開部３２１４は、ドーナツ画像をパノラマ画像に変形し、画像抽出部３２１５とデータ送出部３２１６に出力する。画像抽出部３２１５は、広角画像展開部３２１４から出力されたパノラマ画像のうち、音源方向検出部３２１３から出力された音源方向に基づいて話者方向の所定部分の画像を抽出する。データ送出部３２１６は、パノラマ画像（全領域）と、抽出された画像（話者方向の部分画像）と、音声と、音源方向に関するデータを所定のデータ格納手段に送出する。ここでは、会議画像再生装置３２０２に対して送出する。

次に、会議画像再生装置３２０２について説明する。会議画像再生装置３２０２は、その機能的構成として、データ入力部３２２１と、記録部３２２２と、画像音声出力部３２２３と、方向修正部３２２４とを有する。なお、以降では各機能部を分説するが、会議画像再生装置３２０２はパーソナルコンピュータによりその機能を実現させることができる。この場合は各機能部を実現するソフトウェアをハードディスクに格納し、適宜処理プログラムを実行させることによりその機能を実現させることができる。

データ入力部３２２１は、所定のデータ送信元から広角画像が撮像された動画データと、当該動画データに同期した音声データと、音源方向に関するデータと、を入力する。ここでは、所定のデータ送信元を会議画像送出装置３２０１としているが、動画データ（全体画像と部分画像）、音声データ、音源方向に関するデータを、そのデータの種別が認識できる様な形式であれば送信元の装置には依存しない。

記録部３２２２は、データ入力部３２２１が入力したパノラマ画像と話者方向の部分画像の動画データ、音声データ、音源方向に関するデータを記録する。記録の方式は様々挙げられるが、前述した様に、ＭＰＥＧ形式やＲｅａｌＡｕｄｉｏ形式を採用することができる。画像音声出力部３２２３は、記録部３２２２から出力された話者方向の部分画像（動画データ）と、この画像が撮影（入力）された際に同時に録音（入力）した音声を対応づけて出力する。

但し、話者方向の部分画像が適正に抽出されていない場合や、話者以外の画像、たとえば、隣り合った二人やホワイトボードを含んだ話者を表示させたい場合がある。そこで、この様な要求を満たすべく、会議画像再生装置３２０２は、方向修正部３２２４を備える。方向修正部３２２４は、音源方向に対応する方向を修正し、ユーザによる所望の音声方向を選択可能にする。なお、ユーザによる方向の選択については後述する。

次に、会議画像送出装置３２０１の処理流れについて説明する。図３３は、実施の形態５の会議画像送出装置３２０１の処理流れの例を示したフローチャートである。まず、会議画像送出装置３２０１のシステムがユーザにより起動され、データ（画像データと音声データ）の取り込み動作を開始する（ステップＳ３３０１）。次に、取り込み停止（記録停止）が指示された否かを判断し（ステップＳ３３０２）、指示があれば（ステップＳ３３０２：Ｙｅｓ）、取り込みを終了する。

取り込み停止の指示がない限り（ステップＳ３３０２：ＮＯ）、ＣＣＤ２１４から送信される画像データとマイクロフォンアレイから送信される音声データを入力する（ステップＳ３３０３）。音声データがある一定量、たとえば相関窓の大きさＮと同数のサンプルが入力された場合には、音源方向を検出し、音源方向データを順次生成する（ステップＳ３３０４）。会議画像送出装置３２０１は、ステップＳ３３０３で入力した広角画像（ドーナツ画像）をパノラマ画像に順次展開し（ステップＳ３３０５）、展開されたパノラマ画像のうち、音源方向の部分画像データを生成する（ステップＳ３３０６）。

会議画像送出装置２８０１は、パノラマ画像データ、部分画像データ、音声データおよび音源方向データを、所定の送信先、たとえば、ＰＣに順次出力する（ステップＳ３３０７）。以降は、ステップＳ３３０２〜ステップＳ３３０７までの動作を順次繰り返し、ユーザが記録停止を指示するまでデータを送出する。

次に、会議画像再生装置３２０２の処理流れについて説明する。図３４は、実施の形態５の会議画像再生装置３２０２の処理流れの例を示したフローチャートである。まず、会議画像再生装置３２０２のシステムがユーザにより起動される（ステップＳ３４０１）。次に、図示しないディスプレイ（テレビ）に表示される画像にしたがって、再生する画像を選択する（ステップＳ３４０２）。図３５は、再生させたい画像を選択する画面構成の例を示した図である。図示したように、会議のファイルはＭｅｅｔｉｎｇ１、Ｍｅｅｔｉｎｇ２と名付けられており、各ファイルは、パノラマ画像データ（ＭＰＥＧ−２Ｖｉｄｅｏ）と、音声データ（ＭＰＥＧＡｕｄｉｏ）と、音源方向データ（ＴＥＸＴ）と、更に、部分画像データ（ＭＰＥＧ−２ＶＩｄｅｏ）から構成されていることが分かる。

次に、会議画像再生装置３２０２は、部分画像データ、音声データを読み出し、再生動作を開始する（ステップＳ３４０３）。続いて、会議画像再生装置２８０２は、再生停止の指示があるか否かを判定し（ステップＳ３４０４）、指示された場合には再生を停止する。一方、再生停止の指示がない場合（ステップＳ３４０４：ＮＯ）、方向修正部３２２４からの入力があったかを判断する（ステップＳ３４０５）。方向の修正があった場合（ステップＳ３４０５：Ｙｅｓ）、指定された部分画像をパノラマ画像から抽出し、音声と併せて出力（再生）する（ステップＳ３４０６）。

一方、方向修正部３２２４からの入力がない場合（ステップＳ３４０５：ＮＯ）、そのまま部分画像データを出力する（ステップＳ３４０７）。なお、会議画像再生装置３２０２は、予め抽出された部分画像を順次出力するので、方向修正がされない限り、図３５に示したＭｅｅｔｉｎｇ１＿ｐｖを再生すればよい。

次に、会議画像録画再生装置３２００から出力される画像の構成例について説明する。図３６は、会議画像録画再生装置３２００から出力される画像の構成例（画面例）を示した説明図である。画面は話者方向の画像３６０１だけでなく、モード切替部３６０２、方向指示操作部３６０３、再生操作指示部３６０４といったユーザインターフェースも含んでいる。

次に、各ユーザインターフェースを説明する。モード切替部３６０２は、広角画像データにおける特定の部分画像を再生するか否かを切り替えるものである。図３６に示したように、ラジオボタンを用いて、動作モードを切り替えることができる。すなわち、「ＡＵＴＯ」と描かれたラジオボタンが選択されると、音源方向データに基づいて加工抽出され、記録部３２２２に記録された部分画像が自動的再生される。一方、「ＭＡＮＵＡＬ」と描かれたラジオボタンが選択されると、図３７に示したように、ドーナツ画像３６０５が表示され、ユーザの操作により再生させたい部分を手動で選択することのできる「手動切替モード」に移行する。

手動切替モードでは、上下左右の向きの矢印が描かれた４つのボタンである方向指示操作部３６０３によりポインタ３６０７を移動させる。ポインタ３６０７を移動させることにより、部分画像データの描画方向を移動させ、図３８の様に抽出部分が変更された画像を出力させることができる。この操作により、たとえば、ホワイトボード上の描画内容を適切に出力させることができる。なお、画面の構成としては、図３６〜図３８に限られることなく、たとえば図３９の様に、４分割画面を同時に出力させるようにしてもよい。なお、ここで、符号３９０１は、４分割画面とそのうちの一画面との出力切り替えをおこなうＧＵＩである。

一方、再生操作指示部３６０４は、図示したように、左から再生、停止、一時停止、早送り、巻き戻しの機能が割り付けられているＧＵＩを有し、各部が押下されることにより、その機能に対応した動作を実現する。なお、ここではソフトウェア的な処理として説明したが、会議画像再生装置３２０２側にハードウェア的にボタンを配置してもよく、また、リモートコントローラを別途設けて利便性を高めてもよい。

この様な手動切替モードや４分割画面を設けることにより、たとえば１人の参加者が長時間話し続けるシーンを後で再生する場合、発言者を映した映像のみを延々と再生するよりも、間欠的に話者以外の参加者を再生する方が退屈感を与えず、臨場感がます。このように、発言者以外の参加者の表情など方向データで指定された部分以外の映像を見たい場合に、モード切替部３６０２、方向指示操作部３６０３が特に有用となる。

なお、実施の形態５の会議画像送出装置３２０１は、パノラマ画像（全領域）と抽出された画像（話者方向の部分画像）をいずれも送出したが、使用の態様によっては、部分画像のみを送出してもよい。また、このときは音源方向データは、会議画像再生装置３２０２側で画像の抽出や音源方向の判定がなされないので、会議画像再生装置３２０２に送出する必要はない。

以上説明したように、実施の形態５は、実施の形態４と同様に、会議画像送出装置と会議画像再生装置が別個独立に構成されていても、会議内容を臨場感を維持しつつ効率的に再現させることができる。

なお、ここまでの例では、主として会議を録画するシステムについて説明したが、本発明は、この用途に限定されるものではなく、たとえば、天上に備え付けることにより防犯カメラとして利用することもできる。また、夜行性の動物の生態を調べる用途にも使用することができる。この場合は、高感度ＣＣＤを用いる。

１００，１９００会議録画再生システム
２００，２８０１，３２０１会議画像送出装置
２０１，２００５，２５０１，２６００カメラ部
２０２，２００６，２７０１マイク部
２０３，２０３２台座
２０４透明ガラス
２１１双曲面ミラー
２１２レンズ
２１３絞り
２２１，２７０２マイクロフォン
３００会議画像再生装置
３０７大容量記録装置
８０１，２８１１，３２１１広角画像入力部
８０２，２８１２，３２１２音声入力部
８０３，３２１３音源方向検出部
８０４，２８１３，２８２２，３２２２記録部
８０５，２８０３，２８２３画像変形部
８０６，３２２４方向修正部
８０７，２８２４領域固定部
８０８，２８２５，３２２３画像音声出力部
８０９話者位置判断部
８１０領域決定部
１９０１十字ボタン
１９０２決定ボタン
１９０３画像音声出力端子
１９０４媒体挿入スロット
２００３操作部
２００７リムーバブルメディア部
２１０１，３２１４広角画像展開部
２１０２，３２１５画像抽出部
２５００，２８００，３２００会議録画再生システム
２５０２鏡面体
２６０１第１の反射鏡
２６０２第２の反射鏡
２８０２，３２０２，３３０２会議画像再生装置
２８１４仰角設定部
２８１５，３２１６データ送出部
２８２１，３２２１データ入力部
３６０２モード切替部
３６０３方向指示操作部
３６０４再生操作指示部

特開平５−１２２６８９号公報特開平１１−３３１８２７号公報

Claims

広角画像からパノラマ画像を展開する広角画像展開部と、
前記パノラマ画像から、話者を含む画像を抽出する画像抽出部と、
前記話者を含む画像と、前記話者の音声を含む音情報と、を対応付けて記憶部に記憶させるデータ送出部と、
前記話者を含む画像と、前記話者の音声を含む音情報と、を対応付けて出力部に出力させる画像音声出力部と、を備え、
前記画像音声出力部は、話者が所定の大きさとなるように拡大または縮小させた話者を含む画像を、前記出力部に出力させることを特徴とする画像処理装置。
前記記憶部には、前記広角画像展開部で展開したパノラマ画像が記憶されることを特徴とする請求項１に記載の画像処理装置。
前記記憶部には、前記話者の音源方向が記憶されることを特徴とする請求項１に記載の画像処理装置。
前記画像抽出部は、前記話者の音源方向に基づいて、前記話者を含む画像を抽出することを特徴とする請求項３に記載の画像処理装置。
話者が所定の大きさとなるように拡大または縮小させた話者を含む画像を再生することを特徴とする請求項１に記載の画像処理装置。
広角画像からパノラマ画像を展開するステップと、
前記パノラマ画像から、話者を含む画像を抽出するステップと、
前記話者を含む画像と、前記話者の音声を含む音情報と、を対応付けて記憶部に記憶させるステップと、
前記話者を含む画像と、前記話者の音声を含む音情報と、を対応付けて出力部に出力させる画像音声出力ステップと、を含み、
前記画像音声出力ステップは、話者が所定の大きさとなるように拡大または縮小させた話者を含む画像を、前記出力部に出力させることを特徴とする画像処理方法。
広角画像からパノラマ画像を展開するステップと、
前記パノラマ画像から、話者を含む画像を抽出するステップと、
前記話者を含む画像と、前記話者の音声を含む音情報と、を対応付けて記憶部に記憶させるステップと、
前記話者を含む画像と、前記話者の音声を含む音情報と、を対応付けて出力部に出力させる画像音声出力ステップと、をコンピュータに実行させるためのプログラムであって、
前記画像音声出力ステップは、話者が所定の大きさとなるように拡大または縮小させた話者を含む画像を、前記出力部に出力させることを特徴とするプログラム。