JP2014165565A

JP2014165565A - テレビ会議装置およびシステムおよび方法

Info

Publication number: JP2014165565A
Application number: JP2013032807A
Authority: JP
Inventors: Yohei Ozaki; 洋平尾崎; Masami Oshita; 政巳大下; Yuhei Yamazaki; 雄平山崎
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2013-02-22
Filing date: 2013-02-22
Publication date: 2014-09-08

Abstract

【課題】会議の様子全体が写ったモニタ上に発言者である目印を加えること。
【解決手段】テレビ会議システムは、複数拠点とのテレビ会議接続で各拠点に複数人がテレビ会議に参加する場合、同一拠点内での発言者を特定し、会議の様子全体が写ったテレビ画面上に発言者である目印を加える。カメラで撮影した会議の様子が映ったテレビ画面映像を参考に、人間の顔が映っているテレビ画面上の座標情報およびカメラ角度を算出し、マイクで受信した発言者の音声の指向性から音源の方向（マイク角度）を利用し発言者を特定する。
【選択図】図７

Description

本発明は、テレビ会議装置およびシステムおよび方法に係り、特に、テレビ会議システムの利用において、複数拠点とのテレビ会議接続で各拠点に複数人がテレビ会議に参加する場合、同一拠点内での発言者を特定し、会議の様子全体が写ったモニタ上に発言者である目印を加えるテレビ会議装置およびシステムおよび方法に関する。

本技術分野の背景技術として、特開平５−６８２４８号公報（特許文献１）がある。この公報には、「自局の画像及び話中の相手の画像を正規の明るさに明るくし、他の画像を暗くする」（要約）ようにしたテレビ会議システムおよび表示制御装置について記載されている。

特開平５−６８２４８号公報

前記特許文献１には、発言者識別表示機能を有するテレビ会議システムが記載されている。
しかし、特許文献１のテレビ会議システムでは、一つのモニタの表示画面を分割し、各分割画面に各拠点の会議参加者を一人ずつしか表示できないため、会議室全体の様子がモニタに表示されず、会議の臨場感が少ないことが想定される。

本発明は、以上の点に鑑み、テレビ会議システムにおいて、会議の様子が写ったモニタ上に発言者である目印を加えることを目的とする。

本発明の第１の解決手段によると、
テレビ会議装置であって、
画像処理部
を備え、
前記画像処理部は、
会議のモニタ画像における複数の会議参加者の各位置について、座標情報と、予め設定された基準点からみた角度情報とを求め、
前記基準点からみた発言者の方向を表すマイク角度を入力し、
複数の前記角度情報の中から、前記マイク角度と最も近い値に対応する会議参加者を特定し、
前記モニタ画像における、前記特定した前記会議参加者の座標情報の位置に、発言者である目印を施した合成画像を作成し、前記合成画像をモニタに表示させる
ことを特徴とするテレビ会議装置が提供される。

本発明の第２の解決手段によると、
テレビ会議システムであって、
会議の様子を撮影するカメラと、
会議の画像を映し出すモニタと、
基準点から見た音源の方向を表すマイク角度を出力するマイクと、
画像処理部と
を備え、

前記画像処理部は、
前記カメラにより撮影された会議のモニタ画像における複数の会議参加者の各位置について、座標情報と、予め設定された基準点からみた角度情報とを求め、
前記マイクから、前記基準点からみた発言者の方向を表すマイク角度を入力し、
複数の前記角度情報の中から、前記マイク角度と最も近い値に対応する会議参加者を特定し、
前記モニタ画像における、前記特定した前記会議参加者の座標情報の位置に、発言者である目印を施した合成画像を作成し、前記合成画像を前記モニタに表示させる
ことを特徴とするテレビ会議システムが提供される。

本発明の第３の解決手段によると、
テレビ会議装置におけるテレビ会議方法であって、
前記テレビ会議装置は、
画像処理部
を備え、
前記画像処理部は、
会議のモニタ画像における複数の会議参加者の各位置について、座標情報と、予め設定された基準点からみた角度情報とを求め、
前記基準点からみた発言者の方向を表すマイク角度を入力し、
複数の前記角度情報の中から、前記マイク角度と最も近い値に対応する会議参加者を特定し、
前記モニタ画像における、前記特定した前記会議参加者の座標情報の位置に、発言者である目印を施した合成画像を作成し、前記合成画像をモニタに表示させる
ことを特徴とするテレビ会議方法が提供される。

本発明によれば、テレビ会議システムにおいて、会議の様子が写ったモニタ上に発言者である目印を加えることができる。

同一拠点内での発言者特定システムの実施例１におけるテレビ会議システムのブロック構成図である。実施例１における動作のフローチャート図（顔座標処理）である。実施例１におけるモニタでの会議参加者の座標およびカメラ角度の取り方を示す図である。カメラ角度テーブル（顔座標処理）の説明図である。実施例１におけるマイクでの角度の取り方を示す図である。マイク角度テーブルの説明図である。実施例１および実施例２における発言者を特定した結果のイメージ図である。実施例２における動作のフローチャート図（口・頭座標処理）である。実施例２におけるモニタでの会議参加者の口座標およびカメラ角度の取り方を示す図である。カメラ角度テーブル（口・頭座標処理）の説明図である。同一拠点内での発言者特定システムの実施例３におけるテレビ会議システムのブロック構成図である。実施例３における動作のフローチャート図（口・頭座標処理＋声紋処理）である。実施例３における発言者を特定した結果のイメージ図である。テレビ会議システムにおける同一拠点内での発言者特定システムの実施例４におけるテレビ会議システムのブロック構成図である。実施例４における動作のフローチャート図（口・頭座標処理＋声紋処理＋カメラ回転処理）である。実施例４における発言者を特定した結果のイメージ図である。実施例４における発言者を特定した結果のイメージ図（名前表示）である。実施例３における動作のフローチャート図（顔座標処理＋声紋処理）である。実施例４における動作のフローチャート図（顔座標処理＋声紋処理＋カメラ回転処理）である。実施例４における動作のフローチャート図（口・頭座標処理＋カメラ回転処理）である。実施例４における動作のフローチャート図（顔座標処理＋カメラ回転処理）である。音声データベースの説明図である。画像データベースの説明図である。

１．概要

本実施例では、複数拠点とのテレビ会議接続で各拠点に複数人がテレビ会議に参加する場合、同一拠点内での発言者を特定し、会議の様子全体が写ったモニタ上に発言者である目印を加えるテレビ会議システムの実現に向けて、カメラで撮影した会議の様子が映ったモニタ映像を参考に、人間の顔が映っているモニタ上の位置情報と、マイクで受信した発言者の音声の指向性から算出した音源の方向(マイク角度)を利用して得る発言者を特定するための構成を有する。

本実施例では、以下のようないずれかまたは複数の事項を達成することができる。
・同一拠点内での発言者を特定し、会議の様子全体が写ったモニタ上に発言者である目印を施した映像を他拠点へ配信することができる。
・カメラで会議の様子を撮影したモニタ映像を元に、モニタにおける会議参加者の座標情報および角度情報と超指向性マイクにより得られた音源の方向（マイク角度）を利用し、モニタにおける発言者の位置を特定することができる。
・画像処理部は、拠点側のテレビ会議室のレイアウト初期画面を保存し、そのレイアウト初期画面と更新された会議室レイアウト画像との差分箇所を抽出し、その差分箇所は、発言者の位置を特定するために利用されることができる。
・抽出した差分箇所が、顔判定の技術を使用して人間の顔であると判定された場合、画像処理部は、モニタにおける会議参加者の座標情報および角度情報を算出し表として保存し、この表は、発言者の位置を特定するために利用されることができる。
・超指向性マイクにより受信した発言者の音声から音源の方向（マイク角度）を算出し、算出した角度は、発言者の位置を特定するために利用されることができる。
・超指向性マイクにより算出した角度と最も近い値を予め用意した表の中から選び、その角度と対応する座標が発言者の位置を特定することができる。
・モニタにおける会議参加者の頭座標、口座標、顎座標情報および角度情報を算出し表として保存し、この表は、発言者の位置を特定するために利用されることができる。
・会議の様子全体が写ったモニタ上に発言者である目印を施すことに加え、発言者の名前も施された映像を他拠点へ配信することができる。
・音声処理部が更新された音声データと音声データベースに登録された声紋とを参照し、声紋認識することができる。
・声紋認識により発言者の名前特定を行うことができる。
・会議の様子を撮影するカメラが自動回転可能な場合において、同一拠点内での発言者を特定し、会議の様子全体が写ったモニタ上に発言者である目印を施し、また、発言者の名前も施された映像を他拠点へ配信することができる。
・超指向性マイクにより算出された音源方向の変化の有無によりカメラを自動回転させた場合において、カメラの回転後に撮影された映像と初期画面である会議室レイアウト画像との差分箇所を抽出し、その差分箇所は、発言者の位置を特定するために利用されることができる。

以下、実施例を、図面を用いて説明する。

２．顔座標処理

本実施例では、テレビ会議システムの利用において、複数拠点とのテレビ会議接続で各拠点に複数人がテレビ会議に参加する場合、同一拠点内での発言者を特定し、会議の様子全体が写ったモニタ上に発言者である目印を加える方式（顔座標処理）について説明する。

図１は、本実施例のテレビ会議システムのブロック構成図の例である。
テレビ会議システム１００は、会議の様子を撮影するカメラ１０１、会議の映像を映し出すモニタ１０２、テレビ会議クライアント端末１０３、音源の方向（マイク角度）を算出できる超指向性マイク１０４、テレビ会議システムサーバ１０５、画像処理部１０６、画像データベース１０７、位置情報記憶部１０８を有する。
超指向性マイク１０４は、単一指向性より指向性を鋭くし、指向性マイクで受信した音源の方向（マイク角度）をより正確に算出できるものである。画像処理部１０６は、会議の映像において、基準点Ｏから見た任意の位置の座標および角度の算出が可能であり、また画像の保存および画像認識および画像の編集が可能なものである。
位置情報記憶部１０８は、カメラ角度テーブル３１０または３３０、マイク角度テーブル３２０を備える。
なお、画像データベース１０７、マイク角度テーブル３２０を具備しない構成とすることもできる。

図４は、実施例１におけるカメラ角度テーブル（顔座標処理）３１０の説明図である。カメラ角度テーブル３１０は、人の番号３１１に対して会議参加者の座標３１２、カメラ角度３１３を記憶する。

図６は、位置情報記憶部１０８内のマイク角度テーブル３２０の説明図である。マイク角度テーブル３２０は、人の番号３２１に対してマイク角度３２２を記憶する。

図２３は、画像データベース１０７の説明図である。画像データベース１０７は、様々な角度から撮影した顔画像および非顔画像が保存されており、画像３５１に対し分類３５２を記憶する。

図２は、実施例１における顔画像処理のフローチャート図である。ただし、図２は、テレビ会議参加者が各拠点に設置されたテレビ会議クライアント端末１０３を使用し、テレビ会議システムサーバ１０５へ接続を行った状態からの動作を示すものである。
ステップ２０１では、サーバ側の画像処理部１０６が、クライアント側のテレビ会議室のレイアウト初期画面を保存する。ただし、初期画面は、人間が映っていないことを前提としている。ステップ２０２では、テレビ会議システムサーバ１０５が、画像の更新および音声の更新がないか、テレビ会議クライアント端末１０３に確認（以下、ポーリングとする。）する。ステップ２０３では、テレビ会議クライアント端末１０３が、更新された会議室レイアウト画像と音声をテレビ会議システムサーバ１０５へ送信するので、画像処理部１０６は、更新された会議室レイアウト画像と音声を受信する。
ステップ２０４では、画像処理部１０６が、更新された会議室レイアウト画像と初期画面との差分箇所を抽出する。ステップ２０５では、画像処理部１０６は、ステップ２０４にて画像処理部１０６によって抽出された差分箇所が、人間の顔であるか判定する。顔判定については、画像処理部１０６は、例えば、差分箇所に対して適宜の顔判定技術を適用することにより顔判定を行うことができる。または、画像処理部１０６は、抽出された差分箇所と、画像データベース１０７に存在する顔画像および非顔画像を照合することにより顔判定を行うこともできる。また、ここでの顔判定は、人間の顔であるかを判定するだけに限定する。画像処理部１０６によって抽出された差分箇所が、人間の顔であると判定されなかった場合、処理は、ステップ２０２へ進む。

図３は、モニタでの会議参加者の座標およびカメラ角度の取り方を示す図である。
ステップ２０６では、ステップ２０４にて画像処理部１０６によって抽出された差分箇所が、人間の顔であると判定された場合、画像処理部１０６は、図３に示すとおり、モニタにおける会議参加者の座標、および、会議参加者の座標と基準点Ｏを結んだ直線と、ｘ軸とが成す角度（以下、カメラ角度とする）を求める。モニタにおける会議参加者の座標は、その会議参加者が発言者である場合に、発言者である目印を施す位置を示すものである。モニタにおける会議参加者の座標は、画像処理部１０６によって求められ、以下に示す。

さらに、求めるカメラ角度は、図３に示すとおり、基準点Ｏとテレビ会議参加者の座標を結んだ直線と、ｘ軸が成す角度を表し、以下に示す。

図３のとおり同一拠点内での会議参加人数が６人の場合、カメラ角度θ_ｃｎは、以下となる。

以上より、画像処理部１０６によって求められた座標（ｘ_ｎ，ｙ_ｎ）（ｎ＝１、２、・・・、６）およびカメラ角度θ_ｃｎ（ｎ＝１、２、・・・、６）は、予めカメラ角度テーブル（顔座標処理）３０１（図４に示す）の会議参加者の座標３１２およびカメラ角度３１３に記憶され、テレビ会議での発言者特定に利用される。なお、人の番号３１１は、画像処理部１０６が適宜の順序で付与することができる。

図５は、マイクでの角度の取り方を示す図である。
ステップ２０７では、超指向性マイク１０４は、図５に示すとおり、各拠点に設置された超指向性マイク１０４が受信した音声の指向性から、角度（以下、マイク角度とする）を求める。
マイク角度は、図５に示すとおりに、基準点Ｏとテレビ会議参加者の座標とを結んだ直線と、ｘ軸が成す角度を示している。マイク角度は、例えば、図５のとおり同一拠点内での会議参加人数が６人の場合、次のように表される。

また、発言者の方向を表すマイク角度は、次のように表される。

ステップ２０８では、マイク角度の情報は、テレビ会議クライアント端末１０３からテレビ会議システムサーバ１０５内の画像処理部１０６へ送信されるので、画像処理部１０６は、マイク角度を受信する。
超指向性マイク１０４によって求められたマイク角度θ_ｍｎ＊は、テレビ会議での発言者特定に利用される。

また、図６に、マイク角度テーブル３２０を示す。
ステップ２０８において、画像処理部１０６は、マイク角度θ_ｍｎ＊をマイク角度テーブル３２０内のマイク角度３２２に記憶してもよいし、記憶しなくてもよい。なお、マイク角度は、本フローチャートのタイミングに限らず、例えば、予め定められた適宜のタイミング等でステップ２０９より前に受信または記憶してもよい。

ステップ２０９では、画像処理部１０６は、画像処理部１０６が超指向性マイク１０４により受信したマイク角度θ_ｍｎ＊と、予め用意したカメラ角度テーブル３１０内のカメラ角度３１３（この例では、θ_ｃ１、θ_ｃ２、・・・、θ_ｃ６）の中で、最も近い値に対応する人の番号ｎ^＊＊３１１を次式により求め、発言者を特定する。

画像処理部１０６は、カメラ角度テーブル（顔座標処理）３１０を参照することで、特定した人の番号３１１に対応する会議参加者の座標３１２を発言者である目印を施す位置とすることができる。
なお、ステップ２０８において、マイク角度θ_ｍｎ＊がマイク角度テーブル３２０内に記憶されている場合、画像処理部１０６は、ステップ２０９で求めた人の番号ｎ^＊＊３１１を、マイク角度テーブル３２０の人の番号３２１に記憶してもよいし、記憶しなくてもよい。

ステップ２１０では、図２のステップ２０８において画像処理部１０６が算出した会議参加者の座標３１２に、画像処理部１０６が、発言者である目印を施し画像を加工する。

図７に、発言者を特定した結果のイメージ図を示す。
例えば、図示のように、目印が施される。目印は、これに限らず、適宜のものを用いることができる。

ステップ２１１では、画像処理部１０６は、発言者に目印を施した画像データをクライアント端末１０３側に送信する。また、画像処理部１０６は、この画像データを他の拠点や他の装置に送信してもよい。
ステップ２１２では、画像処理部１０６は、テレビ会議システムサーバ１０５とテレビ会議クライアント端末１０３との接続を確認する。接続が確認された場合は、処理は、ステップ２０２へ戻る。接続が確認されなかった場合は、処理は、終了する。

実施例１によれば、テレビ会議システムの利用において、複数拠点とのテレビ会議接続で各拠点に複数人がテレビ会議に参加する場合、同一拠点内での発言者を特定し、会議の様子全体が写ったモニタ上に発言者である目印を正確な位置に加えるテレビ会議システムを提供することができる。

３．口・頭座標処理

本実施例では、モニタにおける会議参加者の頭座標、口座標、顎座標を利用し、発言者の位置特定の精度を向上する方式（口・頭座標処理）について説明する。
実施例２のテレビ会議システムのブロック構成図の例は、位置情報記憶部１０８内のカメラ角度テーブル３１０の代わりに、カメラ角度テーブル（口・頭座標処理）３３０を備え、その他は、実施例１と同様であり、図１に示される。
テレビ会議システム１００は、会議の様子を撮影するカメラ１０１、会議の映像を映し出すモニタ１０２、テレビ会議クライアント端末１０３、音源の方向（マイク角度）を算出できる超指向性マイク１０４、テレビ会議システムサーバ１０５、画像処理部１０６、画像データベース１０７、位置情報記憶部１０８を有する。
超指向性マイク１０４は、単一指向性より指向性を鋭くし、指向性マイクで受信した音源の方向（マイク角度）をより正確に算出できるものである。画像処理部１０６は、会議の映像において、基準点Ｏから見た任意の位置の座標および角度の算出が可能であり、また画像の保存および画像認識および画像の編集が可能なものである。画像データベース１０７は、様々な角度から撮影した顔画像および非顔画像が保存されているものである。位置情報記憶部１０８は、カメラ角度テーブル（口・頭座標処理）３３０、マイク角度テーブル３２０を備える。

図１０は、実施例２におけるカメラ角度テーブル（口・頭座標処理）３３０の説明図である。カメラ角度テーブル３３０は、人の番号３３１に対して、頭座標３３２、口座標３３３、顎座標３３４およびカメラ角度３３５を記憶する。

図８は、実施例２における口・頭座標処理のフローチャート図である。ただし、図８は、テレビ会議参加者が各拠点に設置されたテレビ会議クライアント端末１０３を使用し、テレビ会議システムサーバ１０５へ接続を行った状態からの動作を示すものである。
図８の実施例２における口・頭座標処理のフローチャート図において、図１の頭座標処理のフローチャート図と同一番号の処理は、動作が同じであるため、説明を省略する。

図９は、モニタでの会議参加者の口座標およびカメラ角度の取り方を示す図である。
ステップ８０１では、画像処理部１０６によって抽出された差分箇所が人間の顔であると判定された場合、画像処理部１０６は、例えば、図９に示すとおり、テレビ画面における各座席の会議参加者の口座標と基準点Ｏとを結んだ直線と、ｘ軸が成す角度（以下、カメラ角度とする）を求める。口座標は、頭座標、顎座標を用い、「頭と口の距離」と「口と顎の距離」の比率から求めることとする。人間の頭座標は、抽出された人間の顔におけるｙ座標の最大値とそのときのｘ座標であり、以下に示す。

さらに、人間の顎座標は、抽出された人間の顔におけるｙ座標の最小値とそのときのｘ座標であり、以下に示す。

また、一般的に、人間の顔において、頭と顎の中央に目があり、目と顎の中央に鼻があり、鼻と顎の中央に口があるので、「頭と口の距離」と「口と顎の距離」の比率は約７：１となる。従って、人間の口座標は、次式で求めることが可能である。

画像処理部１０６によって求められた頭座標は、発言者特定後に発言者を明確にするために目印を施す位置である。さらに、求めるカメラ角度は、図９に示すとおり、基準点Ｏとテレビ会議参加者の口座標を結んだ直線と、ｘ軸が成す角度を表し、次式で表される。

以上より、画像処理部１０６によって求められた頭座標および口座標および顎座標およびカメラ角度は、予めカメラ角度テーブル（口・頭座標処理）３３０（図１０に示す）に記憶され、テレビ会議での発言者特定に利用される。なお、人の番号３３１は、画像処理部１０６が適宜の順序で付与することができる。
ステップ８０２では、画像処理部１０６は、画像処理部１０６が超指向性マイク１０４により受信したマイク角度θ_ｍｎ＊と、予め用意したカメラ角度テーブル（口・頭座標処理）３３０のカメラ角度３３５の中から最も近い値に対応する人の番号ｎ^＊＊３３１を前述の（１）式により求め、発言者を特定する。
特定した人の番号３３１に対応する頭座標３３２が発言者である目印を施す位置となる。なお、ステップ８０２において、マイク角度θ_ｍｎ＊がマイク角度テーブル３２０内に記憶されている場合、画像処理部１０６は、ステップ８０２で求めた人の番号ｎ^＊＊３３１を、人の番号３２１に記憶してもよいし、記憶しないとしてもよい。
ステップ８０３では、画像処理部１０６は、ステップ８０２において画像処理部１０６が算出した頭座標（ｘ_ｎｈ，ｙ_ｎｈ）に、発言者である目印を施し画像を加工する。

発言者を特定した結果のイメージ図は、実施例１と同様であり、図７に示す。

実施例２によれば、会議の様子全体が写ったテレビ画面上に発言者である目印を加えるテレビ会議システムを提供することができる。また、実施例２は、モニタにおける会議参加者の頭座標、口座標、顎座標を利用して、発言者の位置を特定するため、実施例１よりも位置特定の精度が向上する。

４．声紋処理

本実施例は、実施例１および実施例２で説明した会議の様子全体が写ったモニタ上に発言者である目印を施すことに加え、発言者の音声より声紋認識を行い発言者の名前も特定し、モニタ上に発言者の名前も表示する方法（声紋処理）について説明する。

図１１は、本実施例のテレビ会議システムのブロック構成図の例である。
テレビ会議システム１１００は、会議の様子を撮影するカメラ１０１、カメラで撮影した会議の映像を映し出すモニタ１０２、テレビ会議クライアント端末１０３、音源の方向（マイク角度）を算出できる超指向性マイク１０４、テレビ会議システムサーバ１１０１、画像処理部１０６、画像データベース１０７、位置情報記憶部１０８、音声処理部１１０２、音声データベース１１０３を有する。

位置情報記憶部１０８は、カメラ角度テーブル３１０または３３０、マイク角度テーブル３２０を備える。
音声処理部１１０２は、声紋認識が可能なものである。
なお、画像データベース１０７、マイク角度テーブル３２０を具備しない構成とすることもできる。

図２２は、音声データベース１１０３の説明図である。音声データベース１１０３は、ある組織に所属する各個人の声紋が登録されているもので、人の番号３４１に対して声紋３４２、名前３４３が記憶されている。

（１）口・頭座標処理＋声紋処理

口・頭座標処理および声紋処理を組合わせた処理を実行するテレビ会議システムでは、図１１のブロック構成図において、位置情報記憶部１０８は、図１０に示すカメラ角度テーブル（口・頭座標処理）３３０を備える。

図１２は、口・頭座標処理および声紋処理を組合わせた処理のフローチャート図である。ただし、図１２は、テレビ会議参加者が各拠点に設置されたテレビ会議クライアント端末１０３を使用し、テレビ会議システムサーバ１１０１へ接続を行った状態からの動作を実施するものである。
図１２の実施例３における動作のフローチャート図において、図１および図８の動作のフローチャート図と同一番号の処理は、動作が同様であるため、説明を省略する。
ステップ１２０１では、音声処理部１１０２が、更新された音声データと音声データベース１１０３に登録された声紋３４２とを参照し、声紋認識する。ステップ１２０２では、音声処理部１１０２は、音声データベース１１０３を参照して、ステップ１２０１の声紋認識により特定した声紋３４２から、対応する発言者の名前３４３の特定を行う。名前の特定が行えた場合、処理は、ステップ２０５へ進む。名前の特定が行えない場合、処理は、ステップ２０２に戻る。
ステップ１２０３では、画像処理部１０６は、ステップ８０２において画像処理部１０６が算出した頭座標３３２に、発言者である目印を施し画像を加工する。また、画像処理部１１０２は、音声データベース１１０３を参照して、特定した発言者の名前３４３も施し画像を加工する。

図１３に、発言者を特定した結果のイメージ図を示す。なお、発言者の名前の表示位置は、図１３のように画面上端部に限らず、例えば、画面下端部、左端部、右端部や発言者の目印の位置に配置する等、画面内のいずれかの適宜の位置に配置することができる。また、名前３４３限らず、適宜の人物識別情報を用いることができる。

（２）顔座標処理＋声紋処理

顔座標処理および声紋処理を組合わせた処理を実行するテレビ会議システムでは、図１１のブロック構成図において、位置情報記憶部１０８は、図４に示すカメラ角度テーブル（顔座標処理）３１０を備える。

図１８は、顔座標処理および声紋処理を組合わせた処理のフローチャート図である。ただし、図１８は、テレビ会議参加者が各拠点に設置されたテレビ会議クライアント端末１０３を使用しテレビ会議システムサーバ１１０１へ接続を行った状態からの動作を実施するものである。
図１８の実施例３における動作のフローチャート図において、図１、図８および図１２の動作のフローチャート図と同一番号の処理は、ステップ１２０３で目印を施す位置が、頭座標３３２の代わりに会議参加者の座標３１２であることを除き、動作が同様であるため、説明を省略する。

実施例３によれば、会議の様子全体が写ったモニタ上に発言者である目印を加えるテレビ会議システムを提供することができる。また、本実施例では、実施例１および実施例２で説明した会議の様子全体が写ったモニタ上に発言者である目印を施すことに加え、発言者の音声より声紋認識を行い発言者の名前等の人物識別情報も特定し、モニタ上に発言者の名前も表示することが可能である。

５．カメラ回転処理

本実施例では、会議の様子を撮影するカメラが自動回転可能な場合、もしくは、会議参加者がカメラを操作した場合において、実施例１および実施例２および実施例３で説明した発言者特定方式に適用し、カメラを回転する処理（カメラ回転処理）について説明する。

図１４は、本実施例のテレビ会議システムのブロック構成図の例である。
テレビ会議システム１４００は、会議の様子を撮影する自動回転または手動回転が可能であるカメラ１４０１、カメラで撮影した会議の映像を映し出すディスプレイ１０２、テレビ会議クライアント端末１０３、音源の方向（マイク角度）を算出できる超指向性マイク１０４、テレビ会議システムサーバ１１０１、画像処理部１０６、画像データベース１０７、位置情報記憶部１０８、音声処理部１１０２、音声データベース１１０３を有する。位置情報記憶部１０８は、カメラ角度テーブル３１０または３３０、マイク角度テーブル３２０を備える。
なお、画像データベース１０７、マイク角度テーブル３２０を具備しない構成とすることもできる。

（１）口・頭座標処理＋声紋処理＋カメラ回転処理

口・頭座標処理、声紋処理およびカメラ回転処理を組合わせた処理を実行するテレビ会議システムでは、図１４のブロック構成図において、位置情報記憶部１０８は、図１０に示すカメラ角度テーブル（口・頭座標処理）３３０を備える。

図１５は、口・頭座標処理、声紋処理およびカメラ回転処理を組合わせた処理のフローチャート図である。ただし、図１５は、テレビ会議参加者が各拠点に設置されたテレビ会議クライアント端末１０３を使用しテレビ会議システムサーバ１１０１へ接続を行った状態からの動作を実施するものである。
図１５の実施例４における動作のフローチャート図において、図１、図８および図１２の動作のフローチャート図と同一番号の処理は、動作が同様であるため、説明を省略する。
ステップ１５００では、マイク角度の情報は、テレビ会議クライアント端末１０３からテレビ会議システムサーバ１０５内の画像処理部１０６へ送信されるので、画像処理部１０６は、マイク角度を受信する。画像処理部１０６は、前回に受信したマイク角度と、今回受信したマイク角度を適宜の記憶部に記憶しておく。なお、マイク角度は、本フローチャートのタイミングに限らず、予め定められた適宜のタイミング等で受信または記憶してもよい。超指向性マイク１０４によって求められたマイク角度θ_ｍｎ＊は、テレビ会議での発言者特定に利用される。
ステップ１５０１では、画像処理部１０６は、マイク角度の値が更新されているか、前回のマイク角度の値と比較する。画像処理部１０６は、値の変化の有無によりカメラ１４０１を自動回転させるか判断する。なお、画像処理部１０６は、ステップ１５００で受信したマイク角度θ_ｍｎ＊をマイク角度テーブル３２０内のマイク角度３２２に記憶してもよい。マイク角度の値に変化があった場合、処理は、ステップ１５０２へと進む。また、マイク角度の値に変化がなかった場合、処理は、ステップ８０２へ進む。ステップ１５０２では、画像処理部１０６は、マイク角度の値に変化があったと判断した場合、カメラ１４０１を自動回転させ、処理は、ステップ２０２へ戻る。
なお、本実施例のカメラ回転処理を行う場合において、ステップ１５０２のカメラ回転を実施した後の図３のカメラ角度θ_ｃｎ（この例では、θ_ｃ１、θ_ｃ２、・・・、θ_ｃ６）および図５のマイク角度θ_ｍｎ＊（この例では、θ_ｍ１、θ_ｍ２、・・・、θ_ｍ６）の取り方は、例えば、カメラとマイクが基準点に位置する場合、カメラを回転させた角度と同じ角度を、カメラ角度θ_ｃｎおよびマイク角度θ_ｍｎ＊から増減した値とすることができる。他の場合にも、画像処理部１０６は、カメラ位置とマイク位置に基づき、適宜の座標変換を行うことで、カメラの回転角度、カメラ角度およびマイク角度を求めることができる。

図１７に発言者を特定した結果のイメージ図を示す。

（２）顔座標処理＋声紋処理＋カメラ回転処理

顔座標処理、声紋処理およびカメラ回転処理を組合わせた処理を実行するテレビ会議システムでは、図１４のブロック構成図において、位置情報記憶部１０８は、図４に示すカメラ角度テーブル（顔座標処理）３１０を備える。

図１９は、顔座標処理、声紋処理およびカメラ回転処理を組合わせた処理のフローチャート図である。ただし、図１９は、テレビ会議参加者が各拠点に設置されたテレビ会議クライアント端末１０３を使用しテレビ会議システムサーバ１１０１へ接続を行った状態からの動作を実施するものである。
図１９の実施例４における動作のフローチャート図において、図１、図８、図１２および図１５の動作のフローチャート図と同一番号の処理は、ステップ１２０３で目印を施す位置が、頭座標３３２の代わりに会議参加者の座標３１２であることを除き、動作が同様であるため、説明を省略する。

図１７に発言者を特定した結果のイメージ図を示す。

（３）口・頭座標処理＋カメラ回転処理

口・頭座標処理およびカメラ回転処理を組合わせた処理を実行するテレビ会議システムでは、図１４のブロック構成図において、位置情報記憶部１０８は、図１０に示すカメラ角度テーブル（口・頭座標処理）３３０を備える。

図２０は、口・頭座標処理およびカメラ回転処理を組合わせた処理のフローチャート図である。ただし、図１５は、テレビ会議参加者が各拠点に設置されたテレビ会議クライアント端末１０３を使用しテレビ会議システムサーバ１１０１へ接続を行った状態からの動作を実施するものである。
図２０の実施例４における動作のフローチャート図において、図１、図８、図１２および図１５の動作のフローチャート図と同一番号の処理は、動作が同様であるため、説明を省略する。

図１６に発言者を特定した結果のイメージ図を示す。

（４）顔座標処理＋カメラ回転処理

顔座標処理およびカメラ回転処理を組合わせた処理を実行するテレビ会議システムでは、図１４のブロック構成図において、位置情報記憶部１０８は、図４に示すカメラ角度テーブル（顔座標処理）３１０を備える。

図２１は、顔座標処理およびカメラ回転処理を組合わせた処理のフローチャート図である。ただし、図１５は、テレビ会議参加者が各拠点に設置されたテレビ会議クライアント端末１０３を使用しテレビ会議システムサーバ１１０１へ接続を行った状態からの動作を実施するものである。
図２１の実施例４における動作のフローチャート図において、図１、図８、図１２および図１５の動作のフローチャート図と同一番号の処理は、動作が同様であるため、説明を省略する。

図１６に発言者を特定した結果のイメージ図を示す。

実施例４によれば、会議の様子を写しつつ、発言者に対しカメラの向きを合わせることができ、テレビ画面上に発言者である目印を加えるテレビ会議システムを提供することができる。

６．付記

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれている。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１００テレビ会議システム（実施例１、２）
１０１カメラ
１０２モニタ
１０３テレビ会議クライアント端末
１０４超指向性マイク
１０５テレビ会議システムサーバ（実施例１、２）
１０６画像処理部
１０７画像データベース
１０８位置情報記憶部
３１０カメラ角度テーブル（顔座標処理）
３１１人の番号
３１２会議参加者の座標
３１３カメラ角度
３２０マイク角度テーブル
３２１人の番号
３２２マイク角度
３３０カメラ角度テーブル（口・頭座標処理）
３３１人の番号
３３２頭座標
３３３口座標
３３４顎座標
３３５カメラ角度
３４１人の番号
３４２声紋
３４３名前
３５１画像
３５２分類
１１００テレビ会議システム（実施例３）
１１０１テレビ会議システムサーバ（実施例３、４）
１１０２音声処理部
１１０３音声データベース
１４００テレビ会議システム（実施例４）
１４０１回転機能付きカメラ

Claims

テレビ会議装置であって、
画像処理部
を備え、
前記画像処理部は、
会議のモニタ画像における複数の会議参加者の各位置について、座標情報と、予め設定された基準点からみた角度情報とを求め、
前記基準点からみた発言者の方向を表すマイク角度を入力し、
複数の前記角度情報の中から、前記マイク角度と最も近い値に対応する会議参加者を特定し、
前記モニタ画像における、前記特定した前記会議参加者の座標情報の位置に、発言者である目印を施した合成画像を作成し、前記合成画像をモニタに表示させる
ことを特徴とするテレビ会議装置。
請求項１に記載のテレビ会議装置であって、
前記画像処理部は、拠点側のテレビ会議室のレイアウト初期画面を保存し、そのレイアウト初期画面と更新されたレイアウト画像との差分箇所を抽出し、その差分箇所を、発言者の位置を特定するために用いることを特徴とするテレビ会議装置。
請求項２に記載のテレビ会議装置であって、
会議参加者の座標情報および角度情報を対応して記憶する第１のテーブルを、
さらに備え、
前記画像処理部は、前記抽出した差分箇所が、顔判定技術を使用して人間の顔であると判定した場合、前記モニタ画像における会議参加者の座標情報および角度情報を求め、これら情報を前記第１のテーブルに保存し、前記第１のテーブルを、発言者の位置を特定するために用いることを特徴とするテレビ会議装置。
請求項１に記載のテレビ会議装置であって、
会議参加者の頭座標、口座標、顎座標情報および角度情報を対応して記憶する第２のテーブルを
さらに備え、
前記画像処理部は、
前記モニタ画像における会議参加者の頭座標情報および顎座標情報を求め、頭座標情報および顎座標情報から口座標情報を算出し、
前記モニタ画像における会議参加者の角度情報を求め、
これら情報を前記第２のテーブルに保存し、
前記第２のテーブルを、発言者の位置を特定するために用いる
ことを特徴とするテレビ会議装置。
請求項４に記載のテレビ会議装置であって、
前記画像処理部は、抽出した差分箇所が人間の顔であると判定した場合、顔画像から各会議参加者の頭座標、口座標およびカメラ角度を求め、前記口座標を、テレビ会議での発言者特定に利用することを特徴とするテレビ会議装置。
請求項４に記載のテレビ会議装置であって、
前記画像処理部は、頭座標の位置に、発言者の目印を施すことを特徴とするテレビ会議装置。
請求項１に記載のテレビ会議装置であって、
声紋および人識別情報を記憶した音声データベースを
さらに備え、
前記画像処理部は、前記モニタ画像上に、発言者である目印を施すことに加え、前記音声データベースを参照して、声紋に基づき求めた発言者の人識別情報を施して表示することを特徴とするテレビ会議装置。
請求項７に記載のテレビ会議装置であって、
更新または入力された音声データと前記音声データベースに登録された声紋とを参照し、声紋認識することで人識別情報を求める音声処理部を、
さらに備えたことを特徴とするテレビ会議装置。
請求項８に記載のテレビ会議装置であって、
人識別情報として名前を含むことを特徴とするテレビ会議装置。
請求項１に記載のテレビ会議装置であって、
自動回転機能を有するカメラを、
さらに備え、
同一拠点内での発言者を特定してマイク角度が変化した場合、前記画像処理部は、前記自動回転機能により、発言者の方向に前記カメラを自動回転させることを特徴とするテレビ会議装置。
請求項１０に記載のテレビ会議装置であって、
前記画像処理部は、前記カメラを自動回転させた場合に、前記カメラの回転後に撮影された画像と、初期画面または回転前に撮影された画像との差分箇所を抽出し、その差分箇所を、発言者の位置を特定するために用いることを特徴とするテレビ会議装置。
請求項１に記載のテレビ会議装置であって、
超指向性マイクにより受信した発言者の音声から音源の方向であるマイク角度を算出し、前記画像処理部は、算出した前記マイク角度を入力し、前記マイク角度を発言者の位置を特定するために用いることを特徴とするテレビ会議装置。
請求項１に記載のテレビ会議装置であって、
発言者である目印を施した画像を、他拠点または他装置へ配信することを特徴とするテレビ会議装置。
テレビ会議システムであって、
会議の様子を撮影するカメラと、
会議の画像を映し出すモニタと、
基準点から見た音源の方向を表すマイク角度を出力するマイクと、
画像処理部と
を備え、

前記画像処理部は、
前記カメラにより撮影された会議のモニタ画像における複数の会議参加者の各位置について、座標情報と、予め設定された基準点からみた角度情報とを求め、
前記マイクから、前記基準点からみた発言者の方向を表すマイク角度を入力し、
複数の前記角度情報の中から、前記マイク角度と最も近い値に対応する会議参加者を特定し、
前記モニタ画像における、前記特定した前記会議参加者の座標情報の位置に、発言者である目印を施した合成画像を作成し、前記合成画像を前記モニタに表示させる
ことを特徴とするテレビ会議システム。
テレビ会議装置におけるテレビ会議方法であって、
前記テレビ会議装置は、
画像処理部
を備え、
前記画像処理部は、
会議のモニタ画像における複数の会議参加者の各位置について、座標情報と、予め設定された基準点からみた角度情報とを求め、
前記基準点からみた発言者の方向を表すマイク角度を入力し、
複数の前記角度情報の中から、前記マイク角度と最も近い値に対応する会議参加者を特定し、
前記モニタ画像における、前記特定した前記会議参加者の座標情報の位置に、発言者である目印を施した合成画像を作成し、前記合成画像をモニタに表示させる
ことを特徴とするテレビ会議方法。