JP4697907B2

JP4697907B2 - 画像処理装置及び方法

Info

Publication number: JP4697907B2
Application number: JP2000086806A
Authority: JP
Inventors: ジェームステイラーマイケル; マイケルロウサイモン
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1999-04-14
Filing date: 2000-03-27
Publication date: 2011-06-08
Anticipated expiration: 2020-03-27
Also published as: EP1045586A2; JP2000350192A; EP1045586B1; EP1045586A3; GB9908545D0; US7113201B1; DE60030027D1

Description

【０００１】
【発明が属する技術分野】
本発明は画像データのアーカイビングに関する。
【０００２】
【従来の技術】
多くのデータベースは画像データを格納するために存在している。しかし、特に、格納すべき画像データの量が膨大であり、また、データベースから情報を検索する目的でデータベースを問い合わせるために使用できる方法がかぎられているため、問題も生じている。
【０００３】
【発明が解決しようとする課題】
本発明は上記の問題に留意してなされた。
【０００４】
【課題を解決するための手段】
本発明によれば、話をしている人物を示す、複数のカメラからの画像データをアーカイブするために処理を実行する装置又は方法が提供される。現在話をしている人物と、その人物の視線の先にいる人物（又は視線の先にある物体）を判定し、それに従ってアーカイブすべき画像データの部分集合を選択する。
【０００５】
このようにすれば、全てのカメラからの画像データを格納する必要がなくなるので、容量が減少する。
【０００６】
また、本発明は、複数のカメラにより記録された、話をしている人物を示す画像データの中から画像データを選択する装置又は方法を提供する。この場合、画像データの少なくとも一部を処理することにより、少なくとも、現在話をしている人物の頭部と、その人物の視線の先にいる人物（又は視線の先にある物体）の三次元位置を判定し、判定された位置及びカメラの視野に基づいて画像データの選択を実行する。
【０００７】
更に、本発明は、プログラム可能処理装置をそのようなシステムにおいて装置として構成させる又は方法を実行可能な状態にさせるための、信号及び記録形態を含めた命令を提供する。
【０００８】
【発明の実施の形態】
以下、添付の図面を参照して本発明の実施形態を説明する。
【０００９】
図１を参照すると、複数のビデオカメラ（図１に示す例では３台であるが、これ以外の台数であっても差し支えない）２−１、２−２、２−３及びマイクロホンアレイ４を使用して、数人の人物６、８、１０、１２の間で行われている会議から画像データと、音声データとをそれぞれ記録している。
【００１０】
マイクロホンアレイ４は、例えば、英国特許第２１４０５５８号、米国特許第４３３３１７０号及び米国特許第３３９２３９２号に記載されているように、入って来る音の方向を判定することができるように配列されたマイクロホンのアレイから構成されている。
【００１１】
ビデオカメラ２−１、２−２、２−３からの画像データと、マイクロホンアレイ４からの音声データはケーブル（図示せず）を介してコンピュータ２０に入力される。コンピュータ２０は受信したデータを処理し、データベースにデータを格納して、会議のアーカイブ記録を作成する。後に、このデータベースから情報を検索することができる。
【００１２】
コンピュータ２０は、表示装置２６、並びにこの実施形態ではキーボード２８及びマウス３０から構成されるユーザ入力装置と共に、従来のように１つ又は複数のプロセッサと、メモリと、サウンドカードなどを含む処理装置２４を含む従来通りのパーソナルコンピュータである。
【００１３】
コンピュータ２０の構成要素と、それらの構成要素の入出力データとを図２に概略的に示す。
【００１４】
図２を参照して説明すると、処理装置２４は、例えば、ディスク３２などのデータ記憶媒体に格納されたデータとして、及び／又は例えば、インターネットなどの通信ネットワーク（図示せず）を介する送信により又は無線通信により遠隔データベースから処理装置２４に入力され且つ／又はユーザによりキーボード２８などのユーザ入力装置又は他の入力装置を介して入力された信号３４として入力されるプログラミング命令に従って動作するようにプログラムされている。
【００１５】
プログラミング命令によりプログラムされると、処理装置２４は処理動作を実行するためのいくつかの機能ユニットに有効に構成される。そのような機能ユニットの例と、その相互接続を図２に示す。しかし、図２に示されているユニットと接続は概念的なもので、単に理解を助けるための例示を目的として示されているにすぎない。従って、図２に示すユニットや接続は、処理装置２４のプロセッサ、メモリなどが実際に構成される厳密なユニットと接続を必ずしも表してはいない。
【００１６】
図２に示す機能ユニットを説明すると、中央制御装置３６はユーザ入力装置２８、３０からの入力を処理すると共に、ユーザによりディスク３８などの記憶装置に格納されたデータとして、又は処理装置２４へ送信される信号４０として処理装置２４に入力されるデータを受信する。更に、中央制御装置３６はいくつかの他の機能ユニットの制御とそれに関わる処理を実行する。メモリ４２は、中央制御装置３６及び他の機能ユニットにより使用される。
【００１７】
頭部追跡装置５０は、会議の参加者６、８、１０、１２それぞれの頭部の位置と向きを三次元で追跡するために、ビデオカメラ２−１、２−２、２−３から受信される画像データを処理する。この実施形態では、この追跡を実行するために、頭部追跡装置５０はそれぞれの参加者の頭部の三次元コンピュータモデルを定義するデータと、その顔の特徴を定義するデータとを使用する。それらのデータは、後述するように、頭部モデル記憶装置５２に格納されている。
【００１８】
方向処理装置５３はマイクロホンアレイ４からの音声データを処理して、マイクロホンにより記録された音が受信された方向（１つ又は複数）を判定する。このような処理は、例えば、英国特許第２１４０５５８号、米国特許４３３３１７０号及び米国特許第３３９２３９２号に記載されているような従来の方式により実行される。
【００１９】
音声認識処理装置５４はマイクロホンアレイ４から受信された音声データを処理して、そこからテキストデータを生成する。すなわち、音声認識処理装置５４は、「Dragon Dictate」又はIBMの「ViaVoice」などの従来の音声認識プログラムに従って動作し、参加者６、８、１０、１２が話した言葉に対応するテキストデータを生成する。音声認識処理を実行するため、音声認識処理装置５４は、音声認識パラメータ記憶装置５６に格納されている、参加者６、８、１０、１２ごとの音声認識パラメータを定義するデータを使用する。すなわち、音声認識パラメータ記憶装置５６に格納されているデータは、従来の方式により音声認識処理装置を訓練することにより生成された各参加者の音声プロファイルを定義するデータである。
【００２０】
アーカイブ処理装置５８は、頭部追跡装置５０、方向処理装置５３及び音声認識処理装置５４から受信したデータを使用して、会議アーカイブデータベース６０に格納すべきデータを生成する。すなわち、後述するように、カメラ２−１、２−２、２−３からの映像データと、マイクロホンアレイ４からの音声データとを、音声認識処理装置５４からのテキストデータ及び所定の時点で会議の各参加者の視線の先にいる人物を定義するデータと共に会議アーカイブデータベース６０に格納する。
【００２１】
テキストサーチャ６２は、中央制御装置３６と関連して、会議の１つ又は複数の部分について、後に詳細に説明するように、ユーザにより指定される探索基準に適合する音声データ及び映像データを発見し、再生すべく、会議アーカイブデータベース６０を探索するために使用される。
【００２２】
表示プロセッサ６４は、中央制御装置３６の制御の下に、表示装置２６を介してユーザに対し情報を表示すると共に、会議アーカイブデータベース６０に格納されている音声データと映像データを再生する。
【００２３】
出力プロセッサ６６はアーカイブデータベース６０のデータの一部又は全てを、例えば、ディスク６８などの記憶装置に出力するか、あるいは信号７０として出力する。
【００２４】
会議を始める前に、処理装置２４に必要な処理動作を実行させることができるようにするために必要なデータを入力することにより、コンピュータ２０を初期設定しなければならない。
【００２５】
図３は、この初期設定中に処理装置２４により実行される処理動作を示している。
【００２６】
図３を参照して説明すると、まず、ステップＳ１では、中央処理装置３６は、表示プロセッサ６４にユーザが会議に参加するそれぞれの人物の名前を入力することを要求するメッセージを表示装置２６に表示させる。
【００２７】
ステップＳ２では、中央制御装置３６は、例えば、キーボード２８を使用してユーザにより入力された名前を定義するデータを受信して、各参加者にその人独自の識別番号を割り当てると共に、識別番号と参加者の名前との関係を定義するデータ、例えば、図４に示すテーブル４を会議アーカイブデータベース６０に格納する。ステップＳ３では、中央制御装置３６は、表示プロセッサ６４に、会議中の相当に長い時間にわたって人物が見ると思われ、会議アーカイブデータベース６０にアーカイブデータを格納することが望まれる物体それぞれの名前をユーザが入力することを要求するメッセージを表示装置２６に表示させる。そのような物体としては、例えば、図１に示すフリップチャート１４のようなフリップチャート、ホワイトボード又は黒板、テレビなどが考えられるであろう。
【００２８】
ステップＳ４では、中央制御装置３６は、例えば、キーボード２８を使用してユーザにより入力された物体の名前を定義するデータを受信して、各々の物体にそれ独自の識別番号を割り当てると共に、識別番号と物体の名前との関係を定義するデータ、例えば、図４に示すテーブル８０のデータを会議アーカイブデータベースに格納する。
【００２９】
ステップＳ６では、中央制御装置３６は、会議の参加者ごとに頭部モデルが既に格納されているか否かを判定するために、頭部モデル記憶装置５２を探索する。
【００３０】
ステップＳ６で、１人又は２人以上の参加者について頭部モデルがまだ格納されていないと判定されたならば、ステップＳ８で、中央制御装置３６は、表示プロセッサ６４に、モデルがまだ格納されていない各参加者の頭部モデルを定義するデータをユーザが入力することを要求するメッセージを表示装置２６に表示させる。
【００３１】
それに応答して、ユーザは、例えば、ディスク３８などの記憶媒体により又は接続している処理装置からの信号４０としてデータをダウンロードすることにより、必要とされている頭部モデルを定義するデータを入力する。そのような頭部モデルは、従来の方法に従って、例えば、Valente他の「An Analysis／Synthesis Cooperation for Head Tracking and Video Face Cloning」（ProceedingsECCV ’98 Workshop on Perception of Human Action、ドイツ、フライブルク大学、１９９８年６月６日開催）に記載されている方法により生成されれば良い。
【００３２】
ステップＳ１０では、中央制御装置３６はユーザにより入力されたデータを頭部モデル記憶装置５２に格納する。
【００３３】
ステップＳ１２では、中央制御装置３６及び表示プロセッサ６４はユーザにより入力されたそれぞれの三次元コンピュータ頭部モデルをレンダリングして、ユーザに対し、ユーザが各モデルの少なくとも７つの特徴を識別することを要求するメッセージと共にモデルを表示装置２６に表示する。
【００３４】
それに応答して、ユーザは、各モデル中の、参加者の顔の正面、側面及び（可能であれば）背面にある顕著な特徴、例えば、目の輪郭、鼻孔、口、耳又は参加者がかけている眼鏡の特徴などに対応する点をマウス３０を使用して指定する。
【００３５】
ステップＳ１４では、中央制御装置３６は、ユーザにより識別された特徴を定義するデータを頭部モデル記憶装置５２に格納する。
【００３６】
これに対し、ステップＳ６で、各参加者について、頭部モデルが既に頭部モデル記憶装置５２に格納されていると判定された場合には、上記のステップＳ８からＳ１４を省略する。
【００３７】
ステップＳ１６では、中央制御装置３６は、参加者ごとに音声認識パラメータが既に格納されているか否かを判定するために、音声認識パラメータ記憶装置５６を探索する。
【００３８】
ステップＳ１６で、全ての参加者について音声認識パラメータを利用できるわけではないと判定されたならば、ステップＳ１８で、中央制御装置３６は、表示プロセッサ６４に、パラメータがまだ格納されていない各参加者についてユーザが音声認識パラメータを入力することを要求するメッセージを表示装置２６に表示させる。
【００３９】
それに応答して、ユーザは、例えば、ディスク３８などの記憶媒体により又は遠隔処理装置からの信号４０として、必要な音声認識パラメータを定義するデータを入力する。先に述べた通り、それらのパラメータはユーザの音声のプロファイルを定義するもので、音声認識プロセッサを従来の方法で訓練することにより生成される。従って、例えば、Dragon Dictateを装備した音声認識プロセッサの場合、ユーザにより入力される音声認識パラメータはDragon Dictateの「ユーザファイル」に格納されるパラメータに相当する。
【００４０】
ステップＳ２０では、中央制御装置３６は、ユーザにより入力された音声認識パラメータを音声認識パラメータ記憶装置５６に格納する。
【００４１】
これに対し、ステップＳ１６で、参加者ごとに音声認識パラメータが既に利用可能になっていると判定された場合には、ステップＳ１８及びＳ２０を省略する。
【００４２】
ステップＳ２２では、中央制御装置３６は、表示プロセッサ６４に、ユーザがカメラ２−１、２−２及び２−３の校正を可能にするためのステップを実行させることを要求するメッセージを表示装置２６に表示させる。
【００４３】
これに応答して、ユーザは必要なステップを実行し、ステップＳ２４では、中央制御装置３６はカメラ２−１、２−２及び２−３を校正するための処理を実行する。すなわち、この実施形態においては、ユーザにより実行されるステップ及び中央制御装置３６により実行される処理は、Wiles及びDavisonの「Calibrating and 3D Modeling with a Multi−Camera System」（1999 IEEE Workshop on Multi−View Modeling and Analysis of Visual Scenes，ISBN 0769501109）に記載されているような方式で実行される。これは、会議室に対する各カメラ２−１、２−２及び２−３の位置と向きを定義する校正データと、各カメラの固有パラメータ（横縦比、焦点距離、主点、一次半径方向ひずみ係数）とを生成する。カメラ校正データは、例えば、メモリ４２に格納される。
【００４４】
ステップＳ２５では、中央制御装置３６は、表示プロセッサ６４に、ステップＳ４で識別データを格納した物体それぞれの位置と向きを判定できるようにするためのステップをユーザが実行することを要求するメッセージを表示装置２６に表示させる。
【００４５】
これに応答して、ユーザは必要なステップを実行し、ステップＳ２６では、中央制御装置３６は各物体の位置と向きを判定するための処理を実行する。すなわち、この実施形態では、ユーザは、会議の参加者が見ると思われる物体の面の周囲、例えば、フリップチャート１４の紙面の平面の周囲にカラーマーカーで点を書く。その後、中央制御装置３６は、各々のカメラ２−１、２−２及び２−３により記録された画像データをステップＳ２４で格納されたカメラ校正データを使用して処理し、従来通りに、それぞれのカラーマーカーの三次元位置を判定する。各カラーマーカーの位置を別個に推定するために、この処理はカメラ２−１、２−２及び２−３ごとに実行され、各カメラ２−１、２−２及び２−３からのデータを使用して計算された位置から各マーカーの位置の平均を判定する。各マーカーの平均位置を使用して、中央制御装置３６は、従来の方式により、物体の面の中心及び物体の面の向きを定義するための面垂線を計算する。物体ごとに判定された位置と向きは、例えば、メモリ４２に物体校正データとして格納される。
【００４６】
ステップＳ２７では、中央制御装置３６は、表示プロセッサ６４に、会議の次の参加者（初めてステップＳ２７を実行するときには、これは最初の参加者である）を着席させることを要求するメッセージを表示装置２６に表示させる。
【００４７】
ステップＳ２８では、処理装置２４は要求された参加者が着席するまでの時間をとるために所定の期間待機し、続くステップＳ３０では、中央制御装置３６は、カメラごとの着席した参加者の頭部の推定位置を判定するために、各カメラ２−１、２−２及び２−３からのそれぞれの画像データを処理する。すなわち、この実施形態においては、中央制御装置３６は従来のようにカメラごとに別個に処理を実行して、参加者の肌の色に対応する色を有するカメラからの画像データのフレームの中のそれぞれの位置を識別し（この色は、頭部モデル記憶装置５２に格納されている参加者の頭部モデルを定義するデータから判定される）、次に、（頭部は人体の中で最も高い位置にある肌色の部分であると推定されるため）会議室で最も高い位置に相当する部分を選択する。画像中の識別された部分の位置と、ステップＳ２４で判定されたカメラ校正パラメータとを使用して、中央制御装置３６は従来の方式により頭部の推定三次元位置を判定する。カメラ２−１、２−２及び２−３ごとに別個の推定頭部位置を得るために、この処理はカメラごとに実行される。
【００４８】
ステップＳ３２では、中央制御装置３６はカメラ２−１、２−２及び２−３ごとに参加者の頭部の三次元推定向きを判定する。すなわち、この実施形態においては、中央制御装置３６は、頭部モデル記憶装置５２に格納されている参加者の頭部の三次元コンピュータモデルをモデルの複数の異なる向きについてレンダリングして、向きごとに対応するモデルの二次元画像を作成する。この実施形態では、参加者の頭部のコンピュータモデルを１０８の異なる向きについてレンダリングして、１０８枚の対応する二次元画像を作成する。これらの向きは、０°（まっすぐに向いている場合）、＋４５°（上を向いている場合）及び−４５°（下を向いている場合）に相当する３つの頭部の傾きのそれぞれについて１０°ずつ頭部モデルを３６回転させた向きに相当している。次に、中央制御装置３６はモデルの各二次元画像を参加者の頭部を示すカメラ２−１、２−２、２−３からのビデオフレームの部分と比較し、モデルの画像が映像データと最も良く整合する向きを選択する。カメラごとに別個の推定頭部向きを得るために、この比較と選択はカメラごとに実行される。頭部モデルをレンダリングすることにより生成された画像データをカメラからの映像データと比較するときには、例えば、Schodl、Haro及びEssaの「Head Tracking Using a Textured Polygonal Model」（Proceedings１９９８ Workshop on Perceptual User Interfacesに掲載）に記載されているような従来の技法を使用する。
【００４９】
ステップＳ３４では、ステップＳ３０で生成した参加者の頭部のそれぞれの推定位置と、ステップＳ３２で生成した参加者の頭部のそれぞれの推定向きとを頭部追跡装置５０に入力し、各々のカメラ２−１、２−２及び２−３から受信した画像データのフレームを処理して、参加者の頭部を追跡する。すなわち、この実施形態においては、頭部追跡装置５０は、例えば、Valente他の「An Analysis／Synthesis Cooperation for Head Tracking and Video Face Cloning」（Proceedings EECV '98 Workshop on Perceptionof Human Action、ドイツ、フライブルク大学、１９９８年６月）に記載されているような従来の方式により頭部を追跡するために処理を実行する。
【００５０】
図５は、ステップＳ３４で頭部追跡装置５０により実行される処理動作の概要を示す。
【００５１】
図５を参照して説明すると、ステップＳ４２−１からＳ４２−ｎ（この実施形態で使用するカメラは３台であるので、「ｎ」は３である）の各々において、頭部追跡装置５０は会議を記録した、対応する１台のカメラからの画像データを処理して、そのカメラからの画像データに含まれる参加者の頭部の特徴（ステップＳ１４で格納されている）の位置を判定すると共に、そこから、そのカメラからの画像データの現在フレームについて、参加者の頭部の三次元位置と向きを判定する。
【００５２】
図６は、ステップＳ４２−１からS４２−nのうち所定の１つのステップで実行される処理動作を示す。これらの処理動作は各ステップで同一であるが、異なるカメラからの画像データについて実行される。
【００５３】
図６を参照して説明すると、ステップＳ５０では、頭部追跡装置５０は、初めてステップＳ５０が実行されるときに図３のステップＳ３０及びＳ３２で生成される推定値である、参加者の頭部の現在推定３D位置及び現在推定向きを読み取る。
【００５４】
ステップＳ５２では、頭部追跡装置５０はステップＳ２４で生成されたカメラ校正データを使用して、ステップＳ５０で読み取られた推定位置及び推定向きに従って、頭部モデル記憶装置５２に格納されている参加者の頭部の三次元コンピュータモデルをレンダリングする。
【００５５】
ステップＳ５４では、頭部追跡装置５０はカメラから受信した映像データの現在フレームについて画像データを処理して、ユーザにより識別され、ステップＳ１４で識別された頭部の特徴の１つの期待位置を取り囲む各領域からの画像データを取り出す。この期待位置は、ステップＳ５０で読み取られた推定位置及び推定向きと、ステップＳ２４で生成されたカメラ校正データとから判定される。
【００５６】
ステップＳ５６では、頭部追跡装置５０はステップＳ５２で生成、レンダリングされた画像データと、ステップＳ５４で取り出されたカメラ画像データとを整合して、レンダリングされた頭部モデルに最も良く整合するカメラ画像データを求める。
【００５７】
ステップＳ５８では、頭部追跡装置５０はステップＳ５６で識別された、レンダリングされた頭部モデルに最も良く整合するカメラ画像データを、ステップＳ２４（図３）で格納されていたカメラ校正データと共に使用して、映像データの現在フレームについて参加者の頭部の３D位置と向きを判定する。
【００５８】
再び図５に戻ると、ステップＳ４４では、頭部追跡装置５０はステップＳ４２−１からＳ４２−ｎのそれぞれで識別された、（図６のステップＳ５８で識別された）レンダリングされた頭部モデルに最も良く整合するカメラ画像データを使用して、映像データの現在フレームについて参加者の頭部の平均３D位置と平均向きを判定する。
【００５９】
ステップＳ４４を実行すると同時に、ステップＳ４６では、ステップＳ４２−１からＳ４２−ｎのそれぞれで判定されたカメラ画像データ中の頭部の特徴の位置（図６のステップＳ５８で識別されている）を従来のカルマンフィルタに入力して、映像データの次のフレームについて参加者の頭部の推定３Ｄ位置及び推定向きを生成する。ビデオカメラ２−１，２−２及び２−３から映像データのフレームが受信されるにつれて、参加者についてステップＳ４２からＳ４６を繰り返し実行する。
【００６０】
再び図３に戻ると、ステップＳ３６では、中央制御装置３６は、会議に別の参加者がいるか否かを判定し、各参加者に対して先に説明したように処理が実行され終わるまで、ステップＳ２７からＳ３６を繰り返す。しかし、これらのステップが参加者ごとに実行されている間、ステップＳ３４では、頭部追跡装置５０は既に着席した各参加者の頭部を追跡し続けている。
【００６１】
ステップＳ３６で、会議にそれ以上の参加者がなく、従って、頭部追跡装置５０により各参加者の頭部が追跡されていることが判定されると、ステップＳ３８で、中央制御装置３６は、参加者間で会議を始めても良いことを指示するために、可聴信号を処理装置２４から出力させる。
【００６２】
図７は、参加者間で会議が行われているときに処理装置２４により実行される処理動作を示す。
【００６３】
図７を参照すると、ステップＳ７０では、頭部追跡装置５０は会議中の各参加者の頭部を追跡し続けている。ステップＳ７０で頭部追跡装置５０により実行される処理は、先にステップＳ３４に関して説明したのと同じ処理であるので、ここでは繰り返し説明しない。
【００６４】
頭部追跡装置５０がステップＳ７０で各参加者の頭部を追跡しているのと同時に、ステップＳ７２では、会議アーカイブデータベース６０に格納すべきデータを生成し、それを格納するための処理を実行する。
【００６５】
図８は、ステップＳ７２で実行される処理動作を示す。
【００６６】
図８を参照して説明すると、ステップＳ８０では、アーカイブプロセッサ５８は、参加者がどの人物又はどの物体を見ているかを定義するいわゆる「視線パラメータ」を参加者ごとに生成する。
【００６７】
図９は、ステップＳ８０で実行される処理動作を示す。
【００６８】
図９を参照すると、ステップＳ１１０では、アーカイブプロセッサ５８は頭部追跡装置５０から各参加者の頭部の現在三次元位置を読み取る。これは、ステップＳ４４（図５）で頭部追跡装置５０により実行される処理により生成された平均位置である。
【００６９】
ステップＳ１１２では、アーカイブプロセッサ５８は頭部追跡装置５０から次の参加者（ステップＳ１１２を初めて実行するときには、これは最初の参加者である）の頭部の現在向きを読み取る。ステップＳ１１２で読み取られる向きは、ステップＳ４４（図５）で頭部追跡装置５０により実行される処理で生成された平均向きである。
【００７０】
ステップＳ１１４では、アーカイブプロセッサ５８は、参加者がどこを見ているかを定義する線（いわゆる「視線」）と、その参加者の頭部を別の参加者の頭部の中心と結ぶ概念上のそれぞれの線とが成す角度を判定する。
【００７１】
これを更に詳細に説明する。図１０及び図１１を参照すると、ステップＳ１１４で実行される処理の一例が１人の参加者、すなわち、図１の参加者６について示されている。図１０を参照すると、ステップＳ１１２で読み取られる参加者の頭部の向きは、参加者の両目の中心の間の一点から出る、参加者の頭部に対し垂直な視線９０を定義する。同様に、図１１を参照すると、ステップＳ１１０で読み取られた参加者の頭部全ての位置は、参加者６の両目の中心の間の点からその他の参加者８、１０、１２それぞれの頭部の中心に至る概念上の線９２、９４、９６を定義する。ステップＳ１１４で実行される処理では、アーカイブプロセッサ５８は視線９０と、それぞれの概念上の線９２、９４、９６とが成す角度９８、１００、１０２を判定する。
【００７２】
再び図９に戻ると、ステップＳ１１６では、アーカイブプロセッサ５８は最小値を有する角度９８、１００又は１０２を選択する。すなわち、図１１に示す例でいえば、角度１００が選択されることになるであろう。
【００７３】
ステップＳ１１８では、アーカイブプロセッサ５８は、ステップＳ１１６で選択した角度が１０°より小さいか否かを判定する。
【００７４】
ステップＳ１１８で、角度が１０°より小さいと判定されれば、ステップＳ１２０で、アーカイブプロセッサ５８は参加者の視線パラメータを、視線と最小の角度を成す概念上の線により結ばれている参加者の識別番号（図３のステップＳ２で割り当てられている）に設定する。すなわち、図１１に示す例でいえば、角度１００が１０°より小さければ、この角度１００は視線９０と、参加者６を参加者１０と結ぶ概念上の線９４とが成す角度であるので、視線パラメータは参加者１０の識別番号に設定されることになるであろう。
【００７５】
これに対し、ステップＳ１１８で、最小角度が１０°以上であることが判定された場合には、ステップＳ１２２で、アーカイブプロセッサ５８は先にステップＳ２６（図３）で格納されていた各物体の位置を読み取る。
【００７６】
ステップＳ１２４では、アーカイブプロセッサ５８は、参加者の視線９０がいずれかの物体の平面と交わるか否かを判定する。
【００７７】
ステップＳ１２４で、視線９０がある物体の平面と交わると判定されれば、ステップＳ１２６で、アーカイブプロセッサ５０は参加者の視線パラメータを、視線と交わる物体の識別番号（図３のステップＳ４で割り当てられている）に設定する。視線と交わる物体が２つ以上ある場合には、視線と交わる物体のうち、参加者に最も近い物体を選択する。
【００７８】
これに対し、ステップＳ１２４で、視線９０が物体の平面と交わらないと判定された場合には、ステップＳ１２８で、アーカイブプロセッサ５８は参加者の視線パラメータの値を「０」に設定する。これは、（視線９０が概念上の線９２、９４、９６のいずれに対しても十分な近さにないために）参加者は他の参加者のいずれをも見ておらず、また、（視線９０と交わる物体がないために）参加者はどの物体も見ていないと判定されたことを示す。このような状況は、例えば、ステップＳ４でデータが格納されず且つステップＳ２６で校正されなかった、会議室内のいずれかの物体を参加者が見ている場合（例えば、図１に示す例では、参加者１２が持っているメモ）などに起こりうるであろう。
【００７９】
ステップＳ１３０では、アーカイブプロセッサ５８は会議に別の参加者がいるか否かを判定し、それぞれの参加者について上述の処理が実行され終わるまで、ステップＳ１１２からS１３０を繰り返す。
【００８０】
再び図８に戻ると、ステップＳ８２では、中央制御装置３６及び音声認識プロセッサ５４は、マイクロホンアレイ４から映像データの現在フレームに対応する音声データが受信されたか否かを判定する。
【００８１】
ステップＳ８２で、音声データが受信されたと判定されれば、ステップＳ８４で、会議の参加者の中で誰が話しているかを判定するための処理を実行する。
【００８２】
図１２は、ステップＳ８４で実行される処理動作を示す。
【００８３】
図１２を参照して説明すると、ステップＳ１４０では、方向プロセッサ５３はマイクロホンアレイ４からの音声データを処理して、その音声が来ている方向を判定する。この処理は、例えば、英国特許第２１４０５５８号、米国特許第４３３３１７０号及び米国特許第３３９２３９２号に記載されているような従来の方式で実行される。
【００８４】
ステップＳ１４２では、アーカイブプロセッサ５８は、画像データの現在フレームについてステップＳ４４（図５）で頭部追跡装置５０により判定された各参加者の頭部の位置を読み取り、そこから、ステップＳ１４０で判定された方向、すなわち、音声が来ている方向に対応する位置に頭部がある参加者は誰であるかを判定する。
【００８５】
ステップＳ１４４では、アーカイブプロセッサ５８は、音声が来ている方向に２人以上の参加者がいるか否かを判定する。
【００８６】
ステップＳ１４４で、音声が来ている方向に参加者が１人しかいないと判定されれば、ステップＳ１４６で、アーカイブプロセッサ５８は、音声が来ている方向にいる参加者を画像データの現在フレームに関わる話者として選択する。
【００８７】
これに対し、ステップＳ１４４で、音声が来ている方向に対応する位置に頭部がある参加者は２人以上いると判定された場合には、ステップＳ１４８で、アーカイブプロセッサ５８は、それらの参加者の１人が画像データの直前のフレームで話者として識別されていたか否かを判定する。
【００８８】
ステップＳ１４８で、音声が来ている方向にいる参加者の１人が画像データの直前のフレームで話者として選択されていたと判定されれば、ステップＳ１５０で、アーカイブプロセッサ５８は画像データの直前のフレームで識別されていた話者を画像データの現在フレームについても話者として選択する。これは、画像データの直前のフレームの話者が現在フレームの話者と同一である確率が高いからである。
【００８９】
これに対し、ステップＳ１４８で、音声が来ている方向にいる参加者がいずれも直前のフレームで話者として識別された参加者ではないと判定された場合、又は直前のフレームで識別されていた話者がいない場合には、ステップＳ１５２で、アーカイブプロセッサ５８は、音声が来ている方向にいるそれぞれの参加者を「話者になりうる」参加者として選択する。
【００９０】
再び図８に戻ると、ステップＳ８６では、アーカイブプロセッサ５８は、話者である各参加者の視線パラメータ値、すなわち、ステップＳ８０で判定された、話者である各参加者が誰を又は何を見ているかを定義する視線パラメータ値を、後の解析に備えて、例えば、メモリ４２に格納する。
【００９１】
ステップＳ８８では、アーカイブプロセッサ５８は、ステップＳ８４で判定された話者である各参加者のアイデンティティを音声認識プロセッサ５４に報知する。これに応答して、音声認識プロセッサ５４は話者である参加者の音声認識パラメータを音声認識パラメータ記憶装置５６から選択し、選択されたパラメータを使用して、受信した音声データについて音声認識処理を実行し、話者である参加者が話した言葉に対応するテキストデータを生成する。
【００９２】
これに対し、ステップＳ８２で、受信した音声データが話し言葉を含んでいないと判定された場合には、ステップＳ８４からS８８を省略する。
【００９３】
ステップＳ８９では、アーカイブプロセッサ５８は、会議アーカイブデータベース６０にどの画像データを格納すべきか、すなわち、カメラ２−１、２−２及び２−３のうちどのカメラからの画像データを格納すべきかを判定する。
図１３は、ステップＳ８９でアーカイブプロセッサ５８により実行される処理動作を示す。
【００９４】
図１３を参照すると、ステップＳ１６０では、アーカイブプロセッサ５８は、画像データの現在フレームについてステップＳ８２（図８）で話し言葉が検出されたか否かを判定する。ステップＳ１６０で、現在フレームについては話し言葉が存在しないと判定されたならば、ステップＳ１６２で、アーカイブプロセッサ５８は、画像データを格納すべきカメラとしてデフォルトカメラを選択する。すなわち、この実施形態においては、アーカイブプロセッサ５８は直前のフレームで画像データが記録されたカメラを選択する。処理中の現在フレームが最初のフレームである場合には、アーカイブプロセッサ５８はカメラ２−１、２−２、２−３の１台を無作為に選択する。
【００９５】
これに対し、ステップＳ１６０で、処理中の現在フレームについて話し言葉が存在すると判定された場合には、ステップＳ１６４で、アーカイブプロセッサ５８は、次の話者である参加者（ステップＳ１６４を初めて実行するときには、これは最初の話者である参加者となる）についてステップＳ８６で先に格納された視線パラメータを読み取り、その話者である参加者が見ている人物又は物体を判定する。
【００９６】
ステップＳ１６６では、アーカイブプロセッサ５８は、現在考慮されている話者である参加者の（図５のステップＳ４４で判定された）頭部の位置と向きを、話者である参加者の視線の先にいる参加者の頭部の位置と向き（図５のステップＳ４４で判定されている）、又は話者である参加者の視線の先にある物体の位置と向き（図３のステップＳ２６で格納されている）と共に読み取る。
【００９７】
ステップＳ１６８では、アーカイブプロセッサ５８はステップＳ１６６で読み取られた位置と向きを処理して、カメラ２−１、２−２、２−３のうち、話者である参加者と、その話者である参加者が見ている参加者又は物体の双方を最も良く示しているカメラはどれであるかを判定し、このカメラを現在フレームの画像データを会議アーカイブデータベース６０に格納すべきカメラとして選択する。
【００９８】
図１４は、ステップＳ１６８でアーカイブプロセッサ５８により実行される処理動作を示す。
【００９９】
図１４を参照して説明すると、ステップＳ１７６では、アーカイブプロセッサ５８は次のカメラ（ステップＳ１７６を初めて実行するときには、これは最初のカメラである）の三次元位置と視野方向を読み取る。この情報は先に図３のステップＳ２４で生成され、格納されている。
【０１００】
ステップＳ１７８では、アーカイブプロセッサ５８はステップＳ１７６で読み取られた情報を、（図５のステップＳ４４で判定された）話者である参加者の頭部の三次元位置及び向きを定義する情報及び（図５のステップＳ４４で判定された）話者である参加者の視線の先にいる参加者の頭部の三次元位置及び向き又は（図３のステップＳ２６で格納された）話者である参加者の視線の先にある物体の三次元位置及び向きを定義する情報と共に使用して、話者である参加者と、その視線の先にいる参加者又はその視線の先にある物体の双方が現在考慮されているカメラの視野の中にあるか否か（すなわち、現在考慮されているカメラが話者である参加者と、その視線の先にいる参加者又はその視線の先にある物体の双方を視野におさめることができるか否か）を判定する。すなわち、この実施形態においては、アーカイブプロセッサ５８は下記の式を評価し、全ての不等式が成立した場合に、カメラは話者である参加者と、その視線の先にいる参加者又はその視線の先にある物体の双方を視野におさめることができると判定する。
【０１０１】
【数１】

【０１０２】
【数２】

【０１０３】
【数３】

【０１０４】
【数４】

【０１０５】
ここで、（X_c，Y_c，Z_c）は、それぞれ、カメラの主点のx座標、y座標及びz座標（先に図３のステップＳ２４で判定され、格納されている）であり、
（dX_c、dY_c，dZ_c）は、それぞれ、x方向、y方向及びz方向におけるカメラの視野方向（同様に、図３のステップＳ２４で判定され、格納されている）を表し、
θ_h及びθ_vは、それぞれ、水平方向と垂直方向におけるカメラの視野角度（同様に図３のステップＳ２４で判定され、格納されている）であり、
（X_p1、Y_p1，Z_p1）は、それぞれ、話者である参加者の頭部の中心のx座標、y座標及びz座標（図５のステップＳ４４で判定されている）であり、
（dX_p1、dY_p1，dZ_p1）は、それぞれ、話者である参加者の視線９０の向き（同様に図５のステップＳ４４で判定されている）を表し、
（X_p2、Y_p2，Z_p2）は、それぞれ、話者である参加者の視線の先にいる人物の頭部の中心のx座標、y座標及びz座標（図５のステップＳ４４で判定されている）、又は話者である参加者の視線の先にある物体の面の中心のx座標、y座標及びz座標（図３のステップＳ２６で判定されている）であり、
（dX_p2、dY_p2，dZ_p2）は、それぞれ、話者である参加者の視線の先にいる参加者に視線９０のx方向、y方向及びz方向における方向（同様に図５のステップＳ４４で判定されている）、又は話者である参加者の視線の先にある物体の面に対する垂線のx方向、y方向及びz方向における方向（図３のステップＳ２６で判定されている）を表す。
【０１０６】
ステップＳ１７８で、話者である参加者と、話者である参加者の視線の先にいる人物又は視線の先にある物体の双方をカメラが捉えることができると判定されれば（すなわち、上記の式（１）、（２）、（３）及び（４）における不等式が成立すれば）ステップＳ１８０で、アーカイブプロセッサ５８は、現在考慮されているカメラが話者である参加者を捉えている視野の画質を表す値を計算し、格納する。すなわち、この実施形態においては、アーカイブプロセッサ５８は、下記の式を使用して、画質値Q１を計算する。
【０１０７】
【数５】

【０１０８】
式中、用語の定義は先の式（１）及び（２）に関して挙げた用語と同じである。
【０１０９】
ステップＳ１８０で計算される画質値Q１は、−１から＋１までの値を有するスカラであり、話者である参加者の頭部の背面が直接にカメラに面している場合には、この値は−１であり、話者である参加者の顔面が直接にカメラに面している場合には、この値は＋１であり、話者である参加者の頭部がその他の方向を向いているときには−１から＋１までの値をとる。
【０１１０】
ステップＳ１８２では、アーカイブプロセッサ５８は、考慮されているカメラが話者である参加者の視線の先にいる参加者又は視線の先にある物体を捉えている視野の画質を表す値を計算し、格納する。すなわち、この実施形態においては、アーカイブプロセッサ５８は、下記の式を使用して、画質値Q２を計算する。
【０１１１】
【数６】

【０１１２】
式中、パラメータの定義は先の式（３）及び（４）に関して挙げた用語と同じである。
【０１１３】
Q２も、同様に、−１から＋１までの値を取るスカラであり、参加者の頭部の背面又は物体の面の背面が直接にカメラに面している場合には−１であり、参加者の顔面又は物体の正面が直接にカメラに面している場合には＋１になる。参加者の頭部又は物体の面がその他の方向を向いているときには、その間の値をとる。
【０１１４】
ステップＳ１８４では、アーカイブプロセッサ５８は、ステップＳ１８０で計算された画質値Q１をステップＳ１８２で計算された画質値Q２と比較し、最小値を選択する。この最小値は、カメラが話者である参加者、あるいは話者である参加者の視線の先にいる参加者又は視線の先にある物体を捉えるときの「最悪の視野」を示す（最悪の視野は、話者である参加者についてはQ１がQ２より小さい場合の視野であり、話者である参加者の視線の先にいる参加者又は視線の先にある物体については、Q２がQ１より小さい場合の視野である）。
【０１１５】
これに対し、ステップＳ１７８で、式（１）、（２）、（３）及び（４）の不等式のいずれか１つ又は２つ以上が成立しない（すなわち、カメラが話者である参加者と、話者である参加者の視線の先にいる参加者又は視線の先にある物体の双方を捉えることができない）と判定された場合には、ステップＳ１８０からS１８４を省略する。
【０１１６】
ステップＳ１８６では、アーカイブプロセッサ５８は、受信画像データを提供したカメラが他に存在するか否かを判定する。カメラごとに上述の処理が実行され終わるまで、ステップＳ１７６からS１８６を繰り返す。
【０１１７】
ステップＳ１８８では、アーカイブプロセッサ５８は、ステップＳ１８４で処理を実行したときにカメラごとに格納された「最悪の視野」の値（すなわち、ステップＳ１８４でカメラごとに格納された値Q１又はQ２）を比較し、それらの格納値の中の最大値を選択する。この最大値は「最良の最悪視野」を表し、従って、ステップＳ１８８では、アーカイブプロセッサ５８は、ステップＳ１８４でこの「最良の最悪視野」値が格納されたカメラを会議アーカイブデータベースに格納すべき画像データを提供するカメラとして選択する。これは、このカメラが話者である参加者と、話者である参加者の視線の先にいる参加者又は視線の先にある物体の双方を捉える最良の視野を有するからである。
【０１１８】
ステップＳ１７０では、アーカイブプロセッサ５８は、話者に「なりうる」参加者を含めて、他の話者である参加者が存在するか否かを判定する。話者である参加者ごとに、また、話者に「なりうる」参加者ごとに、上述の処理が実行され終わるまで、ステップＳ１６４からＳ１７０を繰り返す。
【０１１９】
再び図８に戻ると、ステップＳ９０では、アーカイブプロセッサ５８は、ステップＳ８９で選択したカメラから受信された映像データの現在フレームと、マイクロホンアレイ４から受信された音声データとを従来の方式によりMPEG２データとして符号化し、符号化されたデータを会議アーカイブデータベース６０に格納する。
【０１２０】
図１５は、会議アーカイブデータベース６０におけるデータの格納状態を概略的に示す。図１５に示す格納構造は概念上のものであり、格納される情報の連係を例示することにより理解を助けるために示されている。従って、この格納構造は会議アーカイブデータベース６０を構成するメモリにデータが格納される厳密な状態を必ずしも表してはいない。
【０１２１】
図１５を参照して説明すると、会議アーカイブデータベース６０は水平軸２００により表される情報を格納している。水平軸２００上の各単位は所定の量の時間、例えば、カメラから受信される映像データの１つのフレームの時間周期を表す。（会議アーカイブデータベース６０が一般に図１５に示す数より多くの時間単位を含むことは言うまでもなく理解されるであろう。）ステップＳ９０で生成されたMPEG２データは、時間情報（この時間情報は図１５には水平軸２００に沿ったMPEG２データ２０２の位置により概略的に表されている）と共に、データ２０２として会議アーカイブデータベース６０に格納されている。
【０１２２】
再び図８に戻ると、ステップＳ９２では、アーカイブプロセッサ５８は、現在フレームについてステップＳ８８で音声認識プロセッサ５４により生成されたテキストデータを会議アーカイブデータベース６０に格納する（図１５には２０４で示されている）。すなわち、テキストデータは対応するMPEG２データとのリンクを保ちながら格納され、このリンクは図１５には、テキストデータがMPEG２データと同じ縦列に格納されるものとして表されている。図からわかるように、話をしていない参加者からは格納すべきテキストデータは得られない。図１５に示す例においては、テキストは参加者１に関しては初めの１０個のタイムスロットに格納され（２０６で示す）、参加者３については１２番目から２０番目のタイムスロットに格納され（２０８で示す）、参加者４については２１番目のタイムスロットに格納されている（２１０で示す）。この例では、参加者２は図１５に示すタイムスロットの間には話をしていなかったので、参加者２についてはテキストは格納されていない。
【０１２３】
ステップＳ９４では、アーカイブプロセッサ５８は、ステップＳ８０で参加者ごとに現在フレームについて生成された視線パラメータ値を会議アーカイブデータベース６０に格納する（図１５には２１２で示す）。図１５を参照すると、視線パラメータ値は、参加者ごとに、関連するMPEG２データ２０２及び関連するテキストデータ２０４と共に格納されている（このリンクは、図１５では、視線パラメータ値が関連するMPEG２データ２０２及び関連するテキストデータ２０４と同じ列にあることにより表されている）。すなわち、一例として図１５の第１のタイムスロットを参照すると、参加者１の視線パラメータ値は、参加者１が参加者３を見ていることを示す３であり、参加者２の視線パラメータ値は、参加者２がフリップチャート１４を見ていることを示す５であり、参加者３の視線パラメータ値は、参加者３が参加者１を見ていることを示す１であり、参加者４の視線パラメータ値は、参加者４がその他の参加者の誰も見ていないことを示す「０」である（図１に示す例では、１２で指示される参加者はその他の参加者ではなく、自分のメモを見ている）。
【０１２４】
ステップＳ９６では、中央制御装置３６は及びアーカイブプロセッサ５８は、会議の参加者の１人が話し終えたか否かを判定する。この実施形態においては、この検査は、所定の参加者についてテキストデータが直前のタイムスロットでは存在していたが、現在タイムスロットでは存在しないことを判定するためにテキストデータ２０４を検査することにより実行される。いずれかの参加者がこの条件を満たすのであれば（すなわち、参加者が話を止めていれば）、ステップＳ９８で、アーカイブプロセッサ５８は、話を止めた参加者のそれぞれについてステップＳ８６を実行したときに先に格納されていた視線パラメータ値を処理して（これらの視線パラメータ値は、現時点では終了している話をしていた期間中にその参加者が誰を又は何を見ていたかを定義する）、視線ヒストグラムを定義するデータを生成する。すなわち、参加者が話をしていた期間における視線パラメータ値を処理して、話者である参加者がその他の参加者及び物体の各々を見ていた時間の割合（％）を定義するデータを生成する。
【０１２５】
図１６A及び図１６Bは、図１５のテキスト２０６及び２０８にそれぞれ対応する期間に対応する視線ヒストグラムを示す。
【０１２６】
図１５及び図１６Aを参照して説明すると、参加者１が話していた期間２０６、参加者１は１０個のタイムスロットのうち６個の間（すなわち、参加者１が話していた期間全体の長さの６０％）は参加者３を見ており（図１６Aには３００で示されている）、１０個のタイムスロットのうち４個の間（すなわち、時間全体の４０％）は参加者４を見ていた（図１６Aには３１０で示されている）。
【０１２７】
同様に、図１５及び図１６Bを参照すると、期間２０８の間、参加者３は時間の約４５％については参加者１を見ており（図１６Bには３２０で示されている）、時間の約３３％については物体５（すなわち、フリップチャート１４）を見ており（図１６Bには３３０で示されている）、時間の約２２％については参加者２を見ていた（図１６Bには３４０で示されている）。
【０１２８】
再び図８に戻ると、ステップＳ１００では、ステップＳ９８で生成した各視線ヒストグラムをそれが生成されたテキスと関連する期間にリンクする会議アーカイブデータベース６０に格納する。図１５を参照すると、格納された視線ヒストグラムは２１４で示されており、テキスト期間２０６のヒストグラムを定義するデータは２１６で示されており、テキスト期間２０８のヒストグラムを定義するデータは２１８で示されている。図１５において、視線ヒストグラムと関連するテキストとの間のリンクは、視線ヒストグラムがテキストデータと同じ列に格納されることにより表されている。
【０１２９】
これに対し、ステップＳ９６で、現在時間周期については参加者の１人が話を止めていないことが判定された場合には、ステップＳ９８及びS１００を省略する。
【０１３０】
ステップＳ１０２では、アーカイブプロセッサ５８は、映像データの直前のフレーム（すなわち、ステップＳ８０からS１００でデータが生成、格納されたばかりのフレームの直前のフレーム）及びそれ以前のフレームについて、必要に応じて、会議アーカイブデータベース６０に格納されているデータを修正する。
【０１３１】
図１７は、ステップＳ１０２でアーカイブプロセッサ５８により実行される処理動作を示す。
【０１３２】
図１７を参照すると、ステップＳ１９０では、アーカイブプロセッサ５８は、１つ前のフレーム（初めてステップＳ１９０を実行する場合には、これは現在フレームの直前のフレームということになる。すなわち、現在フレームを「ｉ」番目のフレームとすれば、「ｉ−１」番目のフレーム）について、話者に「なりうる」参加者に関するデータが会議アーカイブデータベース６０に格納されているか否かを判定する。
【０１３３】
ステップＳ１９０で、考慮すべき直前のフレームについて話者に「なりうる」参加者のデータが格納されていないと判定されれば、会議アーカイブデータベース６０のデータを修正する必要はない。
【０１３４】
これに対し、ステップＳ１９０で、考慮すべき直前のフレームについて話者に「なりうる」参加者のデータが格納されていると判定された場合には、ステップＳ１９２で、アーカイブプロセッサ５８は、直前のフレームについてデータが格納されていた話者に「なりうる」参加者の１人が現在フレームについて識別されている話者である参加者（話者に「なりうる」参加者ではない）、すなわち、図１２のステップＳ１４６で識別された話者である参加者と同１人物であるか否かを判定する。
【０１３５】
ステップＳ１９２で、直前のフレームの話者に「なりうる」参加者がいずれも現在フレームについてステップＳ１４６で識別された話者である参加者と同じではないと判定されれば、考慮すべき直前のフレームについて会議アーカイブデータベース６０に格納されているデータの修正を実行しない。
【０１３６】
これに対し、ステップＳ１９２で、直前のフレームの話者に「なりうる」参加者が現在フレームについてステップＳ１４６で識別された話者である参加者と同じであると判定された場合には、ステップＳ１９４で、アーカイブプロセッサ５８は、現在フレームの話者である参加者と同じではない話者に「なりうる」参加者の各々について、考慮すべき直前のフレームに関わるテキストデータ２０４を会議アーカイブデータベース６０から削除する。
【０１３７】
以上説明したステップＳ１９０、Ｓ１９２及びＳ１９４の処理を実行することにより、現在フレームの画像データ及び音声データの処理によってある話者が明確に識別された場合、現在フレームにおける話者は直前のフレームにおける話者と同１人物であると言う仮定を利用して、話者に「なりうる」参加者について格納されている直前のフレームのデータを更新する（すなわち、話者を曖昧でなく識別することが不可能であったためである）。
【０１３８】
ステップＳ１９４を実行した後、１つ前のフレームについてステップＳ１９０からＳ１９４を繰り返す。すなわち、現在フレームを「ｉ」番目のフレームとすれば、初めてステップＳ１９０からＳ１９４を実行するときに「ｉ−１」番目のフレームを考慮し、２度目にステップＳ１９０からS１９４を実行するときには「ｉ−２」番目のフレームを考慮する。以下、同様である。ステップＳ１９０で、話者に「なりうる」参加者のデータが考慮すべき直前のフレームについては格納されていないと判定されるか、又はステップＳ１９２で、考慮すべき直前のフレームにおける話者に「なりうる」参加者のいずれも現在フレームについて明確に識別された話者である参加者と同じではないと判定されるまで、ステップＳ１９０からS１９４を繰り返し続ける。このようにして、いくつかの連続するフレームにわたって話者に「なりうる」参加者が識別された場合、話者に「なりうる」参加者の中の実際の話者である参加者が次のフレームで識別されれば、会議アーカイブデータベースに格納されているデータを修正する。
【０１３９】
再び図８に戻ると、ステップＳ１０４では、中央制御装置３６は、カメラ２−１、２−２、２−３から映像データの別のフレームが受信されたか否かを判定する。カメラ２−１、２−２、２−３から画像データが受信されている間、ステップＳ８０からS１０４を繰り返し実行する。
【０１４０】
会議アーカイブデータベース６０にデータが格納されている場合、会議に関連するデータを検索するために、会議アーカイブデータベース６０を問い合わせても良い。
【０１４１】
図１８は、ユーザが指定する探索基準を満たす会議の各部分に関連するデータを検索する目的で会議アーカイブデータベース６０を探索するために実行される処理動作を示す。
【０１４２】
図１８を参照して説明すると、ステップＳ２００では、中央制御装置３６は表示プロセッサ６４に、要求される会議アーカイブデータベース６０の探索を定義する情報をユーザが入力することを要求するメッセージを表示装置２６に表示させる。すなわち、この実施形態においては、中央制御装置３６は図１９Aに示すものを表示装置２６に表示させることになる。
【０１４３】
図１９Aを参照すると、ユーザは、会議アーカイブデータベース６０中で見出すことを望む会議の１つ又は複数の部分を定義する情報を入力することを求められる。すなわち、この実施形態においては、ユーザは話をしていた参加者を定義する情報４００と、情報４００の中で識別される参加者が話した１つ又は複数のキーワードから成る情報４１０と、情報４００の中で識別される参加者が話している間に見ていた参加者又は物体を定義する情報４２０とを入力することを求められる。更に、ユーザは、探索を実行すべき会議の部分を定義する時間情報を入力することができる。すなわち、ユーザは、探索を打ち切るべき会議中の時間（すなわち、指定時間の前の会議の期間を探索することになる）を定義する情報４３０と、その時間の後から探索を実行すべき会議中の時間を定義する情報４４０と、探索を実行すべき開始時間と終了時間をそれぞれ定義する情報４５０及び４６０とを入力できる。この実施形態では、情報４３０、４４０、４５０及び４６０は、例えば、分単位の絶対期限を指定するか、又は会議時間全体に占める割合を指示する小数値を入力するという方法により相対期限を指定することにより入力されれば良い。例えば、情報４３０として値０．２５を入力すると、探索時間は会議の初めの四分の一に制限されることになるであろう。
【０１４４】
本実施形態では、ユーザは一回の探索で情報４００、４１０及び４２０の全てを入力する必要はなく、これらの情報のうち１つ又は２つを省いても差し支えない。ユーザが情報４００、４１０及び４２０の全てを入力すると、情報４００の中で識別される参加者が情報４２０の中で識別される参加者又は物体に対して話をしていた会議中の各部分及び情報４１０の中で定義されるキーワードを話した各部分を識別するための探索が実行される。これに対し、情報４１０を省いた場合には、情報４００の中で定義される参加者が何を話したかには関係なく、参加者が情報４２０の中で定義される参加者又は物体に対して話をしていた会議中の各部分を識別するための探索が実行される。情報４１０及び４２０を省いた場合には、何を誰に話したかには関係なく、情報４００で定義される参加者が話していた会議の各部分を識別するための探索が実行される。情報４００を省いた場合には、いずれかの参加者が情報４２０の中で定義される参加者又は物体を見ている間に情報４１０の中で定義されるキーワードを話した会議中の各部分を識別するための探索が実行される。情報４００及び４１０を省いた場合には、いずれかの参加者が情報４２０の中で定義される参加者又は物体に対して話をした会議中の各部分を識別するための探索が実行される。情報４２０を省いた場合には、情報４００の中で定義される参加者が誰にキーワードを話したかに関わらず情報４１０の中で定義されるキーワードを話した会議中の各部分を識別するための探索が実行される。同様に、情報４００及び４２０を省いた場合には、誰が誰にキーワードを話したかに関わらず、情報４１０の中で識別されるキーワードが話された会議中の各部分を識別するための探索が実行される。
【０１４５】
更に、ユーザは時間情報４３０、４４０、４５０及び４６０の全てを入力しても良いし、これらの情報の１つ又は２つ以上を省いても良い。
【０１４６】
また、探索時に言葉の組み合わせ又はその言葉に代わる言葉を探索できるようにするために、情報４１０の中で入力されるキーワードと組み合わせて周知のブール演算子及び探索アルゴリズムを使用しても良い。
【０１４７】
ユーザが探索を定義するために要求される情報の全てを入力したならば、マウス３０などのユーザ入力装置を使用して領域４７０をクリックすることにより探索を開始する。
【０１４８】
再び図１８に戻ると、ステップＳ２０２では、ユーザにより入力された探索情報を中央制御装置３６により読み取り、命令された探索を実行する。すなわち、この実施形態においては、中央制御装置３６は、情報４００又は４２０により入力された参加者又は物体の名前をテーブル８０（図４）を使用して識別番号に変換し、情報４００の中で定義されている参加者（情報４００が入力されなかった場合には全ての参加者）についてテキスト情報２０４を考慮する。ユーザにより情報４２０が入力されていれば、テキストの期間ごとに、中央制御装置３６は対応する視線ヒストグラムを定義するデータを検査して、情報４２０の中で定義されている参加者又は物体のヒストグラムにおける視線を受けている時間の割合がこの実施形態では２５％である閾値以上であるか否かを判定する。このようにして、発言（テキスト）の各期間を考慮し、情報４００の中で定義されている参加者がその発言の時間の少なくとも２５％にわたり情報４２０の中で定義されている参加者又は物体を見ていたならば、話者である参加者が話している間に他の参加者又は物体を見ていたとしても、話者である参加者は情報４２０の中で定義されている参加者又は物体に向かって話していたという基準を満たすことになる。従って、例えば、２人以上の参加者が情報４２０の中で指定されていた場合には、それらの参加者について視線ヒストグラムの値が２５％以上である話の期間が識別されることもあるだろう。ユーザにより情報４１０が入力されていれば、中央制御装置３６及びテキストサーチャ６２は、情報４００及び４２０に基づいて先に識別されたテキストの各部分（情報４００及び４２０が入力されなかった場合にはテキストの全ての部分）を探索して、情報４１０の中で識別されているキーワードを含む部分を識別する。ユーザにより時間情報が入力されていれば、上記の探索はそれらの時間情報の制限により定義される会議時間に限られる。
【０１４９】
ステップＳ２０４では、中央制御装置３６は表示プロセッサ６４に、探索中に識別された関連する発言のリストを表示装置２６を介してユーザに対し表示させる。すなわち、中央制御装置３６は図１９Bに示すような情報をユーザに対し表示させる。図１９Bを参照すると、探索パラメータを満足させる発言についてリストが作成されており、その発言の開始時間を絶対期間として定義すると共に、会議時間全体に占める割合としても定義する情報が表示される。そこで、ユーザは、例えば、マウス３０を使用してリストの必要な発言の場所をクリックすることにより、再生のために発言の１つを選択することができる。
【０１５０】
ステップＳ２０６では、中央制御装置３６はステップＳ２０４でユーザにより行われた選択を読み取り、会議の関連部分の格納されているMPEG２データ２０２を会議アーカイブデータベース６０から再生する。すなわち、中央制御装置３６及び表示プロセッサ６４はMPEG２データ２０２を復号し、表示装置２６を介して画像データと音声データを出力する。発言の一部又は全体について、再生すべきデータとして２台以上のカメラからの画像データが格納されている場合には、そのことを表示装置２６を介してユーザに指示する。そこで、ユーザは、例えば、キーボード２８を使用して中央制御装置３６に命令を入力することにより、再生すべき画像データを選択することができる。
【０１５１】
ステップＳ２０８では、中央制御装置３６は、ユーザが会議アーカイブデータベース６０の問い合わせを中止することを望むか否かを判定し、望まないのであれば、ステップＳ２００からS２０８を繰り返す。
【０１５２】
以上説明した本発明の実施形態については、様々な変形や変更を行うことができる。
【０１５３】
例えば、上記の実施形態では、マイクロホンアレイ４は、受信した音声がどの方向から来たかを判定するために、会議室のテーブルの上に置かれていた。しかし、その代わりに、会議中の参加者ごとに対応する１台のマイクロホンを設けても良い（参加者の衣服に装着するマイクロホンなど）。このようにすると、参加者の音声データがそれぞれ対応するチャネルを介して処理装置２４に入力されるので、話者である参加者を容易に識別できる。
【０１５４】
上記の実施形態では、ステップＳ３４（図３）及びステップＳ７０（図７）において、会議中の各参加者の頭部を追跡していた。しかし、それに加えて、ステップＳ４及びS２６でデータを格納した物体が移動する物体（例えば、参加者が回覧すると思われるメモ、又は参加者の間で手渡されるべき物体）である場合には、そのような物体を追跡することも可能であろう。
【０１５５】
上記の実施形態では、ステップＳ１６８（図１３）において、話者である参加者を最も良く視野に捉えているカメラと、話者である参加者の視線の先にいる参加者又は視線の先にある物体とを識別するための処理を実行していた。しかし、カメラを先の実施形態で説明した方法により識別するのではなく、ユーザが処理装置２４の初期設定中に、会議テーブルを囲む２つずつの着席位置を最も良く視野に捉えるのはカメラ２−１、２−２、２−３のうちどのカメラであるか及び／又はそれぞれの着席位置と所定の物体（フリップチャート１４など）を最も良く視野に捉えるのはどのカメラであるかを定義することが可能である。このようにして、話者である参加者と、話者である参加者の視線の先にいる参加者とがあらかじめ定義された着席位置にいることが判定された場合、ユーザがそれらのあらかじめ定義された着席位置を最も良く捉えると定義したカメラを画像データを格納すべきカメラとして選択することができる。同様に、話者である参加者があらかじめ定義された位置にあり且つある物体を見ている場合、ユーザがそのあらかじめ定義された着席位置と物体を最も良く捉えると定義したカメラを画像データを格納すべきカメラとして選択することができる。
【０１５６】
上記の実施形態では、ステップＳ１６２（図１３）において、直前のフレームについて画像データが格納されたカメラをデフォルトカメラとして選択していた。しかし、その代わりに、例えば、処理装置２４の初期設定中にユーザがデフォルトカメラを選択しても良い。
【０１５７】
上記の実施形態では、ステップＳ１９４（図１７）において、その時点で実際には話者である参加者ではないと識別されている話者に「なりうる」参加者について、会議アーカイブデータベース６０からテキストデータ２０４を削除していた。しかし、これに加えて、関連する視線ヒストグラムデータ２１４をも削除して良い。更に、２台以上のカメラ２−１、２−２、２−３からのMPEG２データ２０２を格納していた場合、その話者に「なりうる」参加者に関連するMPEG２データも削除して良い。
【０１５８】
上記の実施形態では、話者である参加者を唯一の話者として識別できない場合、話者に「なりうる」参加者を定義し、話者になりうる参加者のデータを処理して、会議アーカイブデータベース６０に格納し、その後、会議アーカイブデータベース６０に格納されたデータを修正していた（図８のステップＳ１０２）。しかし、話者に「なりうる」参加者のデータを処理し、格納するのではなく、カメラ２−１、２−２及び２−３から受信した映像データと、マイクロホンアレイ４から受信した音声データとを格納しておき、後に、後続フレームに関連するデータから話者である参加者が識別された時点でデータを処理し、アーカイブしても良い。あるいは、ステップＳ１１４（図１２）の処理を実行した結果、音声が来ている方向に２人以上の参加者がいると指示された場合に、カメラ２−１、２−２及び２−３からの画像データを処理して、参加者の唇の動きを検出し、音声が来る方向にいて、唇が動いている参加者を話者である参加者として選択しても良い。
【０１５９】
上記の実施形態では、各人物の頭部の位置と、各人物の頭部の向きと、人物ごとの、その人物が誰を又は何を見ているかを定義する視線パラメータとを判定するための処理を実行していた。その後、人物ごとの視線パラメータ値を画像データのフレームごとに会議アーカイブデータベース６０に格納する。しかし、全ての人物について視線パラメータを判定する必要はない。例えば、話者である参加者に限って視線パラメータを判定し、画像データのフレームごとにこの視線パラメータ値のみを会議アーカイブデータベース６０に格納することが可能である。従って、この場合には、話者である参加者の頭部の向きを判定することだけが必要になるであろう。このようにすれば、処理及び格納に課される負担を軽減することができる。
【０１６０】
上記の実施形態では、ステップＳ２０２（図１８）において、テキストの特定の部分について視線ヒストグラムを考慮し、視線ヒストグラムにおいて別の参加者又は物体を見ている時間が占める割合が所定の閾値以上である場合に、参加者はその別の参加者又は物体に対して話していたと判定していた。しかし、閾値を使用する代わりに、テキスト（発言）の期間中に話者である参加者が見ていた参加者又は物体を視線ヒストグラムの中で最も大きな割合の注目値を有する参加者又は物体（例えば、図１６Aでは参加者３、図１６Bでは参加者１）であると定義しても良い。
【０１６１】
上記の実施形態では、カメラ２−１、２−２、２−３及びマイクロホンアレイ４からデータが受信されている間、リアルタイムでMPEG２データ２０２と、テキストデータ２０４と、視線パラメータ２１２と、視線ヒストグラム２１４を会議アーカイブデータベース６０に格納していた。しかし、その代わりに、映像データと音声データを格納し、リアルタイムではなくデータ２０２、２０４、２１２及び２１４を生成して、会議アーカイブデータベース６０に格納しても良い。
【０１６２】
上記の実施形態では、会議の定義された部分に関わるデータを検索するために会議アーカイブデータベース６０が問い合わされる前に、MPEG２データ２０２、テキストデータ２０４、視線パラメータ２１２及び視線ヒストグラム２１４を生成し、会議アーカイブデータベース６０に格納していた。しかし、ユーザの要求の前に視線ヒストグラムデータ２１４を生成、格納しておくのではなく、ユーザにより要求される会議アーカイブデータベース６０の探索に応答して、既に会議アーカイブデータベース６０に格納されているデータを処理することにより、視線ヒストグラムデータ２１４の一部又は全てを生成しても良い。例えば、上記の実施形態では視線ヒストグラム２１４はステップＳ９８及びS１００（図８）でリアルタイムで計算、格納されていたが、ユーザにより入力される探索要求に応答してそれらのヒストグラムを計算することも可能であろう。
【０１６３】
上記の実施形態では、テキストデータ２０４を会議アーカイブデータベース６０に格納していた。テキストデータ２０４の代わりに、音声データを会議アーカイブデータベース６０に格納しても良い。その後、格納されている音声データを音声認識処理を利用してキーワードを求めて探索しても良いし、あるいは音声認識処理を使用して音声データをテキストに変換し、従来のテキストサーチャを使用してテキストサーチを実行しても良い。
【０１６４】
上記の実施形態では、処理装置２４はアーカイブすべきデータを受信し、生成するための機能構成要素（例えば、中央制御装置３６、頭部追跡装置５０、頭部モデル記憶装置５２、方向プロセッサ５３、音声認識プロセッサ５４、音声認識パラメータ記憶装置５６及びアーカイブプロセッサ５８）と、アーカイブデータを格納するための機能構成要素（例えば、会議アーカイブデータベース６０）と、データベースを探索し、そこから情報を検索するための機能構成要素（例えば、中央制御装置３６及びテキストサーチャ６２）とを含む。しかし、これらの機能構成要素を別個の装置に設けても良い。例えば、アーカイブすべきデータを生成するための１つ又は複数の装置と、データベース探索のための１つ又は複数の装置をインターネットなどのネットワークを介して１つ又は複数のデータベースに接続しても良い。
【０１６５】
また、図２０を参照して説明すると、１箇所又は２箇所以上で行われている会議５００、５１０、５２０からの映像データと音声データをデータ処理・データベース格納装置５３０（アーカイブデータを生成、格納するための機能構成要素を具備する）に入力し、１つ又は複数のデータベース問い合わせ装置５４０、５５０をデータ処理・データベース格納装置５３０に接続して、データベースを問い合わせ、そこから情報を検索するようにしても良い。
【０１６６】
上記の実施形態では、プログラミング命令により定義される処理ルーチンを使用してコンピュータにより処理を実行していた。しかし、処理の一部又は全てをハードウェアを使用して実行することも可能であろう。
【０１６７】
数人の参加者の間で行われる会議に関して上記の実施形態を説明したが、本発明はこの用途には限定されず、フィルムセットなどの画像データ及び音声データを処理するなどの他の用途にも適用できる。
【０１６８】
上記の変形例の異なる組み合わせも言うまでもなく可能であり、本発明の趣旨から逸脱せずに他にも変更や変形を実施することは可能である。
【図面の簡単な説明】
【図１】複数の参加者の間の会議から得られた音声データ及び映像データの記録を示す図である。
【図２】一実施形態における処理装置内の概念上の機能構成要素の一例を示すブロック線図である。
【図３Ａ】参加者間の図１に示す会議が始まる前に図２の処理装置２４により実行される処理動作を示す図である。
【図３Ｂ】参加者間の図１に示す会議が始まる前に図２の処理装置２４により実行される処理動作を示す図である。
【図３Ｃ】参加者間の図１に示す会議が始まる前に図２の処理装置２４により実行される処理動作を示す図である。
【図４】図３のステップＳ２及びステップＳ４で会議アーカイブデータベース６０に格納されるデータを概略的に示す図である。
【図５】図３のステップＳ３４及び図７のステップＳ７０で実行される処理動作を示す図である。
【図６】図５のステップＳ４２−１、S４２−２及びS４２−nの各々で実行される処理動作を示す図である。
【図７】参加者間の会議が行われている間に図２の処理装置２４により実行される処理動作を示す図である。
【図８Ａ】図７のステップＳ７２で実行される処理動作を示す図である。
【図８Ｂ】図７のステップＳ７２で実行される処理動作を示す図である。
【図９Ａ】図８のステップＳ８０で実行される処理動作を示す図である。
【図９Ｂ】図８のステップＳ８０で実行される処理動作を示す図である。
【図１０】図９のステップＳ１１４及びステップＳ１２４で実行される処理において使用される参加者の視線を示す図である。
【図１１】図９のステップＳ１１４で実行される処理で計算される角度を示す図である。
【図１２】図８のステップＳ８４で実行される処理動作を示す図である。
【図１３】図８のステップＳ８９で実行される処理動作を示す図である。
【図１４】図１３のステップＳ１６８で実行される処理動作を示す図である。
【図１５】会議アーカイブデータベース６０への情報の格納を概略的に示す図である。
【図１６Ａ】会議アーカイブデータベース６０に格納されているデータにより定義される視線ヒストグラムの例を示す図である。
【図１６Ｂ】会議アーカイブデータベース６０に格納されているデータにより定義される視線ヒストグラムの例を示す図である。
【図１７】図８のステップＳ１０２で実行される処理動作を示す図である。
【図１８】会議アーカイブデータベース６０から情報を検索するために処理装置２４により実行される処理動作を示す図である。
【図１９Ａ】図１８のステップＳ２００でユーザに対し表示される情報を示す図である。
【図１９Ｂ】図１８のステップＳ２０４でユーザに対し表示される情報の一例を示す図である。
【図２０】１つのデータベースで複数の会議からの情報を格納し、１つ又は複数の遠隔装置からそのデータベースを問い合わせる実施形態を概略的に示す図である。

Claims

複数のカメラからの画像データを受信する受信手段と、
話者を判定する話者識別手段と、
前記話者の視線の先の人物を判定する人物判定手段と、
前記話者の位置と、前記話者の視線の先の人物の位置とを判定する位置判定手段と、
前記話者の位置と、前記話者の視線の先の人物の位置に基づいて、前記受信した画像データから画像データを選択する選択手段と
を具備することを特徴とする画像処理装置。
選択手段は、前記話者と前記話者の視線の先の人物の双方が存在する画像データを選択することを特徴とする請求項１記載の画像処理装置。
前記話者と前記話者の視線の先の人物の正面が撮影されている場合、前記話者と前記話者の視線の先の人物の背面が撮影されている場合よりも高くなる画質値を、前記複数のカメラからの画像データのそれぞれから算出する算出手段を有し、
前記話者と前記話者の視線の先の人物の双方が存在する画像データを複数のカメラから受信した場合、選択手段は、前記算出された画質値が高い画像データを選択することを特徴とする請求項１又は２記載の画像処理装置。
前記算出手段は、前記話者の頭部の位置及び向きと、前記話者の視線の先の人物の頭部の位置及び向きとに基づいて画質値を算出することを特徴とする請求項３記載の画像処理装置。
前記位置判定手段は、少なくとも一台のカメラからの画像データを用いて前記話者の位置と、前記話者の視線の先の人物の位置を判定することを特徴とする請求項１記載の画像処理装置。
前記話者判定手段は、複数のマイクロホンによる音声データの受信状況に基づいて、話者を判定することを特徴とする請求項１乃至５のいずれか１項に記載の画像処理装置。
マイクロホンにより受信された音声データからテキストデータを生成する生成手段と、
前記受信した画像データ、受信した音声データ、及び生成されたテキストデータの少なくとも一部を関連付けたデータベースとを具備することを特徴とする請求項１乃至６のうちいずれか１項に記載の画像処理装置。
前記データベースは、前記話者が発言した期間ごとに、前記画像データ内の人物のそれぞれについて、前記話者の視線の先にいると判定された時間の割合の情報を含み、
前記話者の視線の先の人物を特定する情報が入力された場合、前記入力により特定された人物の前記割合が閾値以上の期間に対応する画像データ及び、音声データを再生させる再生制御手段を具備することを特徴とする請求項７に記載の画像処理装置。
複数のカメラからの画像データを受信する受信手段と、
話者を判定する話者識別手段と、
前記話者の視線の先の物体を判定する物体判定手段と、
前記話者の位置と、前記話者の視線の先の物体の位置とを判定する位置判定手段と、
前記判定された話者の位置と、前記話者の視線の先の物体の位置に基づいて、前記受信した画像データから画像データを選択する選択手段とを具備することを特徴とする画像処理装置。
複数のカメラからの画像データを受信する画像処理装置が行う画像処理方法であって、
話者を判定する話者識別ステップと、
前記話者の視線の先の人物を判定する人物判定ステップと、
前記話者の位置と、前記話者の視線の先の人物の位置とを判定する位置判定ステップと、
前記話者の位置と、前記話者の視線の先の人物の位置に基づいて、前記受信した画像データを選択する選択ステップとを備えることを特徴とする画像処理方法。
選択ステップでは、前記話者と前記話者の視線の先の人物の双方が存在する画像データを選択することを特徴とする請求項１０記載の画像処理方法。
前記話者と前記話者の視線の先の人物の正面が撮影されている場合、前記話者と前記話者の視線の先の人物の背面が撮影されている場合よりも高くなる画質値を、前記複数のカメラからの画像データのそれぞれから算出する算出ステップを備え、
前記話者と前記話者の視線の先の人物の双方が存在する画像データを複数のカメラから受信した場合、選択ステップでは、前記算出された画質値が高い画像データを選択することを特徴とする請求項１０又は１１記載の画像処理方法。
前記算出ステップでは、前記話者の頭部の位置及び向きと、前記話者の視線の先の人物の頭部の位置及び向きとに基づいて各画質値を算出することを特徴とする請求項１２記載の画像処理方法。
前記位置判定ステップでは、少なくとも一台のカメラからの画像データを用いて前記話者の位置と、前記話者の視線の先の人物の位置を判定することを特徴とする請求項１０記載の画像処理方法。
前記話者判定ステップでは、複数のマイクロホンによる音声データの受信状況に基づいて、話者を判定することを特徴とする請求項１０乃至１４のいずれか１項に記載の画像処理方法。
マイクロホンにより受信された音声データからテキストデータを生成するテキスト生成ステップと、
前記受信した画像データ、受信した音声データ、及び生成されたテキストデータの少なくとも一部を関連付けたデータベースを生成するデータベース生成ステップを具備することを特徴とする請求項１０乃至１５のうちいずれか１項に記載の画像処理方法。
前記データベースは、前記話者が発言した期間ごとに、前記画像データ内の人物のそれぞれについて、前記話者の視線の先にいると判定された時間の割合の情報を含み、
前記話者の視線の先の人物を特定する情報が入力された場合、前記入力により特定された人物の前記割合が閾値以上の期間に対応する画像データ及び、音声データを再生させる再生制御ステップを具備することを特徴とする請求項１６記載の画像処理方法。
画像処理装置が行う画像処理方法であって、
複数のカメラからの画像データを受信する受信ステップと、
話者を判定する話者識別ステップと、
前記話者の視線の先の物体を判定する物体判定ステップと、
前記話者の位置と、前記話者の視線の先の物体の位置とを判定する位置判定ステップと、
前記判定された話者の位置と、前記話者の視線の先の物体の位置に基づいて、前記受信した画像データから画像データを選択する選択ステップとを備えることを特徴とする画像処理方法。