JP2014165565A - テレビ会議装置およびシステムおよび方法 - Google Patents

テレビ会議装置およびシステムおよび方法 Download PDF

Info

Publication number
JP2014165565A
JP2014165565A JP2013032807A JP2013032807A JP2014165565A JP 2014165565 A JP2014165565 A JP 2014165565A JP 2013032807 A JP2013032807 A JP 2013032807A JP 2013032807 A JP2013032807 A JP 2013032807A JP 2014165565 A JP2014165565 A JP 2014165565A
Authority
JP
Japan
Prior art keywords
speaker
image
angle
conference
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013032807A
Other languages
English (en)
Inventor
Yohei Ozaki
洋平 尾崎
Masami Oshita
政巳 大下
Yuhei Yamazaki
雄平 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2013032807A priority Critical patent/JP2014165565A/ja
Publication of JP2014165565A publication Critical patent/JP2014165565A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】 会議の様子全体が写ったモニタ上に発言者である目印を加えること。
【解決手段】 テレビ会議システムは、複数拠点とのテレビ会議接続で各拠点に複数人がテレビ会議に参加する場合、同一拠点内での発言者を特定し、会議の様子全体が写ったテレビ画面上に発言者である目印を加える。カメラで撮影した会議の様子が映ったテレビ画面映像を参考に、人間の顔が映っているテレビ画面上の座標情報およびカメラ角度を算出し、マイクで受信した発言者の音声の指向性から音源の方向(マイク角度)を利用し発言者を特定する。
【選択図】 図7

Description

本発明は、テレビ会議装置およびシステムおよび方法に係り、特に、テレビ会議システムの利用において、複数拠点とのテレビ会議接続で各拠点に複数人がテレビ会議に参加する場合、同一拠点内での発言者を特定し、会議の様子全体が写ったモニタ上に発言者である目印を加えるテレビ会議装置およびシステムおよび方法に関する。
本技術分野の背景技術として、特開平5−68248号公報(特許文献1)がある。この公報には、「自局の画像及び話中の相手の画像を正規の明るさに明るくし、他の画像を暗くする」(要約)ようにしたテレビ会議システムおよび表示制御装置について記載されている。
特開平5−68248号公報
前記特許文献1には、発言者識別表示機能を有するテレビ会議システムが記載されている。
しかし、特許文献1のテレビ会議システムでは、一つのモニタの表示画面を分割し、各分割画面に各拠点の会議参加者を一人ずつしか表示できないため、会議室全体の様子がモニタに表示されず、会議の臨場感が少ないことが想定される。

本発明は、以上の点に鑑み、テレビ会議システムにおいて、会議の様子が写ったモニタ上に発言者である目印を加えることを目的とする。
本発明の第1の解決手段によると、
テレビ会議装置であって、
画像処理部
を備え、
前記画像処理部は、
会議のモニタ画像における複数の会議参加者の各位置について、座標情報と、予め設定された基準点からみた角度情報とを求め、
前記基準点からみた発言者の方向を表すマイク角度を入力し、
複数の前記角度情報の中から、前記マイク角度と最も近い値に対応する会議参加者を特定し、
前記モニタ画像における、前記特定した前記会議参加者の座標情報の位置に、発言者である目印を施した合成画像を作成し、前記合成画像をモニタに表示させる
ことを特徴とするテレビ会議装置が提供される。
本発明の第2の解決手段によると、
テレビ会議システムであって、
会議の様子を撮影するカメラと、
会議の画像を映し出すモニタと、
基準点から見た音源の方向を表すマイク角度を出力するマイクと、
画像処理部と
を備え、

前記画像処理部は、
前記カメラにより撮影された会議のモニタ画像における複数の会議参加者の各位置について、座標情報と、予め設定された基準点からみた角度情報とを求め、
前記マイクから、前記基準点からみた発言者の方向を表すマイク角度を入力し、
複数の前記角度情報の中から、前記マイク角度と最も近い値に対応する会議参加者を特定し、
前記モニタ画像における、前記特定した前記会議参加者の座標情報の位置に、発言者である目印を施した合成画像を作成し、前記合成画像を前記モニタに表示させる
ことを特徴とするテレビ会議システムが提供される。
本発明の第3の解決手段によると、
テレビ会議装置におけるテレビ会議方法であって、
前記テレビ会議装置は、
画像処理部
を備え、
前記画像処理部は、
会議のモニタ画像における複数の会議参加者の各位置について、座標情報と、予め設定された基準点からみた角度情報とを求め、
前記基準点からみた発言者の方向を表すマイク角度を入力し、
複数の前記角度情報の中から、前記マイク角度と最も近い値に対応する会議参加者を特定し、
前記モニタ画像における、前記特定した前記会議参加者の座標情報の位置に、発言者である目印を施した合成画像を作成し、前記合成画像をモニタに表示させる
ことを特徴とするテレビ会議方法が提供される。
本発明によれば、テレビ会議システムにおいて、会議の様子が写ったモニタ上に発言者である目印を加えることができる。
同一拠点内での発言者特定システムの実施例1におけるテレビ会議システムのブロック構成図である。 実施例1における動作のフローチャート図(顔座標処理)である。 実施例1におけるモニタでの会議参加者の座標およびカメラ角度の取り方を示す図である。 カメラ角度テーブル(顔座標処理)の説明図である。 実施例1におけるマイクでの角度の取り方を示す図である。 マイク角度テーブルの説明図である。 実施例1および実施例2における発言者を特定した結果のイメージ図である。 実施例2における動作のフローチャート図(口・頭座標処理)である。 実施例2におけるモニタでの会議参加者の口座標およびカメラ角度の取り方を示す図である。 カメラ角度テーブル(口・頭座標処理)の説明図である。 同一拠点内での発言者特定システムの実施例3におけるテレビ会議システムのブロック構成図である。 実施例3における動作のフローチャート図(口・頭座標処理+声紋処理)である。 実施例3における発言者を特定した結果のイメージ図である。 テレビ会議システムにおける同一拠点内での発言者特定システムの実施例4におけるテレビ会議システムのブロック構成図である。 実施例4における動作のフローチャート図(口・頭座標処理+声紋処理+カメラ回転処理)である。 実施例4における発言者を特定した結果のイメージ図である。 実施例4における発言者を特定した結果のイメージ図(名前表示)である。 実施例3における動作のフローチャート図(顔座標処理+声紋処理)である。 実施例4における動作のフローチャート図(顔座標処理+声紋処理+カメラ回転処理)である。 実施例4における動作のフローチャート図(口・頭座標処理+カメラ回転処理)である。 実施例4における動作のフローチャート図(顔座標処理+カメラ回転処理)である。 音声データベースの説明図である。 画像データベースの説明図である。
1.概要

本実施例では、複数拠点とのテレビ会議接続で各拠点に複数人がテレビ会議に参加する場合、同一拠点内での発言者を特定し、会議の様子全体が写ったモニタ上に発言者である目印を加えるテレビ会議システムの実現に向けて、カメラで撮影した会議の様子が映ったモニタ映像を参考に、人間の顔が映っているモニタ上の位置情報と、マイクで受信した発言者の音声の指向性から算出した音源の方向(マイク角度)を利用して得る発言者を特定するための構成を有する。
本実施例では、以下のようないずれかまたは複数の事項を達成することができる。
・同一拠点内での発言者を特定し、会議の様子全体が写ったモニタ上に発言者である目印を施した映像を他拠点へ配信することができる。
・カメラで会議の様子を撮影したモニタ映像を元に、モニタにおける会議参加者の座標情報および角度情報と超指向性マイクにより得られた音源の方向(マイク角度)を利用し、モニタにおける発言者の位置を特定することができる。
・画像処理部は、拠点側のテレビ会議室のレイアウト初期画面を保存し、そのレイアウト初期画面と更新された会議室レイアウト画像との差分箇所を抽出し、その差分箇所は、発言者の位置を特定するために利用されることができる。
・抽出した差分箇所が、顔判定の技術を使用して人間の顔であると判定された場合、画像処理部は、モニタにおける会議参加者の座標情報および角度情報を算出し表として保存し、この表は、発言者の位置を特定するために利用されることができる。
・超指向性マイクにより受信した発言者の音声から音源の方向(マイク角度)を算出し、算出した角度は、発言者の位置を特定するために利用されることができる。
・超指向性マイクにより算出した角度と最も近い値を予め用意した表の中から選び、その角度と対応する座標が発言者の位置を特定することができる。
・モニタにおける会議参加者の頭座標、口座標、顎座標情報および角度情報を算出し表として保存し、この表は、発言者の位置を特定するために利用されることができる。
・会議の様子全体が写ったモニタ上に発言者である目印を施すことに加え、発言者の名前も施された映像を他拠点へ配信することができる。
・音声処理部が更新された音声データと音声データベースに登録された声紋とを参照し、声紋認識することができる。
・声紋認識により発言者の名前特定を行うことができる。
・会議の様子を撮影するカメラが自動回転可能な場合において、同一拠点内での発言者を特定し、会議の様子全体が写ったモニタ上に発言者である目印を施し、また、発言者の名前も施された映像を他拠点へ配信することができる。
・超指向性マイクにより算出された音源方向の変化の有無によりカメラを自動回転させた場合において、カメラの回転後に撮影された映像と初期画面である会議室レイアウト画像との差分箇所を抽出し、その差分箇所は、発言者の位置を特定するために利用されることができる。

以下、実施例を、図面を用いて説明する。
2.顔座標処理

本実施例では、テレビ会議システムの利用において、複数拠点とのテレビ会議接続で各拠点に複数人がテレビ会議に参加する場合、同一拠点内での発言者を特定し、会議の様子全体が写ったモニタ上に発言者である目印を加える方式(顔座標処理)について説明する。
図1は、本実施例のテレビ会議システムのブロック構成図の例である。
テレビ会議システム100は、会議の様子を撮影するカメラ101、会議の映像を映し出すモニタ102、テレビ会議クライアント端末103、音源の方向(マイク角度)を算出できる超指向性マイク104、テレビ会議システムサーバ105、画像処理部106、画像データベース107、位置情報記憶部108を有する。
超指向性マイク104は、単一指向性より指向性を鋭くし、指向性マイクで受信した音源の方向(マイク角度)をより正確に算出できるものである。画像処理部106は、会議の映像において、基準点Oから見た任意の位置の座標および角度の算出が可能であり、また画像の保存および画像認識および画像の編集が可能なものである。
位置情報記憶部108は、カメラ角度テーブル310または330、マイク角度テーブル320を備える。
なお、画像データベース107、マイク角度テーブル320を具備しない構成とすることもできる。
図4は、実施例1におけるカメラ角度テーブル(顔座標処理)310の説明図である。カメラ角度テーブル310は、人の番号311に対して会議参加者の座標312、カメラ角度313を記憶する。
図6は、位置情報記憶部108内のマイク角度テーブル320の説明図である。マイク角度テーブル320は、人の番号321に対してマイク角度322を記憶する。
図23は、画像データベース107の説明図である。画像データベース107は、様々な角度から撮影した顔画像および非顔画像が保存されており、画像351に対し分類352を記憶する。
図2は、実施例1における顔画像処理のフローチャート図である。ただし、図2は、テレビ会議参加者が各拠点に設置されたテレビ会議クライアント端末103を使用し、テレビ会議システムサーバ105へ接続を行った状態からの動作を示すものである。
ステップ201では、サーバ側の画像処理部106が、クライアント側のテレビ会議室のレイアウト初期画面を保存する。ただし、初期画面は、人間が映っていないことを前提としている。ステップ202では、テレビ会議システムサーバ105が、画像の更新および音声の更新がないか、テレビ会議クライアント端末103に確認(以下、ポーリングとする。)する。ステップ203では、テレビ会議クライアント端末103が、更新された会議室レイアウト画像と音声をテレビ会議システムサーバ105へ送信するので、画像処理部106は、更新された会議室レイアウト画像と音声を受信する。
ステップ204では、画像処理部106が、更新された会議室レイアウト画像と初期画面との差分箇所を抽出する。ステップ205では、画像処理部106は、ステップ204にて画像処理部106によって抽出された差分箇所が、人間の顔であるか判定する。顔判定については、画像処理部106は、例えば、差分箇所に対して適宜の顔判定技術を適用することにより顔判定を行うことができる。または、画像処理部106は、抽出された差分箇所と、画像データベース107に存在する顔画像および非顔画像を照合することにより顔判定を行うこともできる。また、ここでの顔判定は、人間の顔であるかを判定するだけに限定する。画像処理部106によって抽出された差分箇所が、人間の顔であると判定されなかった場合、処理は、ステップ202へ進む。
図3は、モニタでの会議参加者の座標およびカメラ角度の取り方を示す図である。
ステップ206では、ステップ204にて画像処理部106によって抽出された差分箇所が、人間の顔であると判定された場合、画像処理部106は、図3に示すとおり、モニタにおける会議参加者の座標、および、会議参加者の座標と基準点Oを結んだ直線と、x軸とが成す角度(以下、カメラ角度とする)を求める。モニタにおける会議参加者の座標は、その会議参加者が発言者である場合に、発言者である目印を施す位置を示すものである。モニタにおける会議参加者の座標は、画像処理部106によって求められ、以下に示す。
Figure 2014165565
さらに、求めるカメラ角度は、図3に示すとおり、基準点Oとテレビ会議参加者の座標を結んだ直線と、x軸が成す角度を表し、以下に示す。
Figure 2014165565
図3のとおり同一拠点内での会議参加人数が6人の場合、カメラ角度θcnは、以下となる。
Figure 2014165565
以上より、画像処理部106によって求められた座標(x,y)(n=1、2、・・・、6)およびカメラ角度θcn(n=1、2、・・・、6)は、予めカメラ角度テーブル(顔座標処理)301(図4に示す)の会議参加者の座標312およびカメラ角度313に記憶され、テレビ会議での発言者特定に利用される。なお、人の番号311は、画像処理部106が適宜の順序で付与することができる。
図5は、マイクでの角度の取り方を示す図である。
ステップ207では、超指向性マイク104は、図5に示すとおり、各拠点に設置された超指向性マイク104が受信した音声の指向性から、角度(以下、マイク角度とする)を求める。
マイク角度は、図5に示すとおりに、基準点Oとテレビ会議参加者の座標とを結んだ直線と、x軸が成す角度を示している。マイク角度は、例えば、図5のとおり同一拠点内での会議参加人数が6人の場合、次のように表される。
Figure 2014165565
また、発言者の方向を表すマイク角度は、次のように表される。
Figure 2014165565
ステップ208では、マイク角度の情報は、テレビ会議クライアント端末103からテレビ会議システムサーバ105内の画像処理部106へ送信されるので、画像処理部106は、マイク角度を受信する。
超指向性マイク104によって求められたマイク角度θmn*は、テレビ会議での発言者特定に利用される。
また、図6に、マイク角度テーブル320を示す。
ステップ208において、画像処理部106は、マイク角度θmn*をマイク角度テーブル320内のマイク角度322に記憶してもよいし、記憶しなくてもよい。なお、マイク角度は、本フローチャートのタイミングに限らず、例えば、予め定められた適宜のタイミング等でステップ209より前に受信または記憶してもよい。
ステップ209では、画像処理部106は、画像処理部106が超指向性マイク104により受信したマイク角度θmn*と、予め用意したカメラ角度テーブル310内のカメラ角度313(この例では、θc1、θc2、・・・、θc6)の中で、最も近い値に対応する人の番号n**311を次式により求め、発言者を特定する。
Figure 2014165565
画像処理部106は、カメラ角度テーブル(顔座標処理)310を参照することで、特定した人の番号311に対応する会議参加者の座標312を発言者である目印を施す位置とすることができる。
なお、ステップ208において、マイク角度θmn*がマイク角度テーブル320内に記憶されている場合、画像処理部106は、ステップ209で求めた人の番号n**311を、マイク角度テーブル320の人の番号321に記憶してもよいし、記憶しなくてもよい。

ステップ210では、図2のステップ208において画像処理部106が算出した会議参加者の座標312に、画像処理部106が、発言者である目印を施し画像を加工する。
図7に、発言者を特定した結果のイメージ図を示す。
例えば、図示のように、目印が施される。目印は、これに限らず、適宜のものを用いることができる。
ステップ211では、画像処理部106は、発言者に目印を施した画像データをクライアント端末103側に送信する。また、画像処理部106は、この画像データを他の拠点や他の装置に送信してもよい。
ステップ212では、画像処理部106は、テレビ会議システムサーバ105とテレビ会議クライアント端末103との接続を確認する。接続が確認された場合は、処理は、ステップ202へ戻る。接続が確認されなかった場合は、処理は、終了する。
実施例1によれば、テレビ会議システムの利用において、複数拠点とのテレビ会議接続で各拠点に複数人がテレビ会議に参加する場合、同一拠点内での発言者を特定し、会議の様子全体が写ったモニタ上に発言者である目印を正確な位置に加えるテレビ会議システムを提供することができる。
3.口・頭座標処理

本実施例では、モニタにおける会議参加者の頭座標、口座標、顎座標を利用し、発言者の位置特定の精度を向上する方式(口・頭座標処理)について説明する。
実施例2のテレビ会議システムのブロック構成図の例は、位置情報記憶部108内のカメラ角度テーブル310の代わりに、カメラ角度テーブル(口・頭座標処理)330を備え、その他は、実施例1と同様であり、図1に示される。
テレビ会議システム100は、会議の様子を撮影するカメラ101、会議の映像を映し出すモニタ102、テレビ会議クライアント端末103、音源の方向(マイク角度)を算出できる超指向性マイク104、テレビ会議システムサーバ105、画像処理部106、画像データベース107、位置情報記憶部108を有する。
超指向性マイク104は、単一指向性より指向性を鋭くし、指向性マイクで受信した音源の方向(マイク角度)をより正確に算出できるものである。画像処理部106は、会議の映像において、基準点Oから見た任意の位置の座標および角度の算出が可能であり、また画像の保存および画像認識および画像の編集が可能なものである。画像データベース107は、様々な角度から撮影した顔画像および非顔画像が保存されているものである。位置情報記憶部108は、カメラ角度テーブル(口・頭座標処理)330、マイク角度テーブル320を備える。
図10は、実施例2におけるカメラ角度テーブル(口・頭座標処理)330の説明図である。カメラ角度テーブル330は、人の番号331に対して、頭座標332、口座標333、顎座標334およびカメラ角度335を記憶する。
図8は、実施例2における口・頭座標処理のフローチャート図である。ただし、図8は、テレビ会議参加者が各拠点に設置されたテレビ会議クライアント端末103を使用し、テレビ会議システムサーバ105へ接続を行った状態からの動作を示すものである。
図8の実施例2における口・頭座標処理のフローチャート図において、図1の頭座標処理のフローチャート図と同一番号の処理は、動作が同じであるため、説明を省略する。
図9は、モニタでの会議参加者の口座標およびカメラ角度の取り方を示す図である。
ステップ801では、画像処理部106によって抽出された差分箇所が人間の顔であると判定された場合、画像処理部106は、例えば、図9に示すとおり、テレビ画面における各座席の会議参加者の口座標と基準点Oとを結んだ直線と、x軸が成す角度(以下、カメラ角度とする)を求める。口座標は、頭座標、顎座標を用い、「頭と口の距離」と「口と顎の距離」の比率から求めることとする。人間の頭座標は、抽出された人間の顔におけるy座標の最大値とそのときのx座標であり、以下に示す。
Figure 2014165565
さらに、人間の顎座標は、抽出された人間の顔におけるy座標の最小値とそのときのx座標であり、以下に示す。
Figure 2014165565
また、一般的に、人間の顔において、頭と顎の中央に目があり、目と顎の中央に鼻があり、鼻と顎の中央に口があるので、「頭と口の距離」と「口と顎の距離」の比率は約7:1となる。従って、人間の口座標は、次式で求めることが可能である。
Figure 2014165565
画像処理部106によって求められた頭座標は、発言者特定後に発言者を明確にするために目印を施す位置である。さらに、求めるカメラ角度は、図9に示すとおり、基準点Oとテレビ会議参加者の口座標を結んだ直線と、x軸が成す角度を表し、次式で表される。
Figure 2014165565
以上より、画像処理部106によって求められた頭座標および口座標および顎座標およびカメラ角度は、予めカメラ角度テーブル(口・頭座標処理)330(図10に示す)に記憶され、テレビ会議での発言者特定に利用される。なお、人の番号331は、画像処理部106が適宜の順序で付与することができる。
ステップ802では、画像処理部106は、画像処理部106が超指向性マイク104により受信したマイク角度θmn*と、予め用意したカメラ角度テーブル(口・頭座標処理)330のカメラ角度335の中から最も近い値に対応する人の番号n**331を前述の(1)式により求め、発言者を特定する。
特定した人の番号331に対応する頭座標332が発言者である目印を施す位置となる。なお、ステップ802において、マイク角度θmn*がマイク角度テーブル320内に記憶されている場合、画像処理部106は、ステップ802で求めた人の番号n**331を、人の番号321に記憶してもよいし、記憶しないとしてもよい。
ステップ803では、画像処理部106は、ステップ802において画像処理部106が算出した頭座標(xnh,ynh)に、発言者である目印を施し画像を加工する。

発言者を特定した結果のイメージ図は、実施例1と同様であり、図7に示す。
実施例2によれば、会議の様子全体が写ったテレビ画面上に発言者である目印を加えるテレビ会議システムを提供することができる。また、実施例2は、モニタにおける会議参加者の頭座標、口座標、顎座標を利用して、発言者の位置を特定するため、実施例1よりも位置特定の精度が向上する。
4.声紋処理

本実施例は、実施例1および実施例2で説明した会議の様子全体が写ったモニタ上に発言者である目印を施すことに加え、発言者の音声より声紋認識を行い発言者の名前も特定し、モニタ上に発言者の名前も表示する方法(声紋処理)について説明する。
図11は、本実施例のテレビ会議システムのブロック構成図の例である。
テレビ会議システム1100は、会議の様子を撮影するカメラ101、カメラで撮影した会議の映像を映し出すモニタ102、テレビ会議クライアント端末103、音源の方向(マイク角度)を算出できる超指向性マイク104、テレビ会議システムサーバ1101、画像処理部106、画像データベース107、位置情報記憶部108、音声処理部1102、音声データベース1103を有する。
位置情報記憶部108は、カメラ角度テーブル310または330、マイク角度テーブル320を備える。
音声処理部1102は、声紋認識が可能なものである。
なお、画像データベース107、マイク角度テーブル320を具備しない構成とすることもできる。
図22は、音声データベース1103の説明図である。音声データベース1103は、ある組織に所属する各個人の声紋が登録されているもので、人の番号341に対して声紋342、名前343が記憶されている。
(1)口・頭座標処理+声紋処理

口・頭座標処理および声紋処理を組合わせた処理を実行するテレビ会議システムでは、図11のブロック構成図において、位置情報記憶部108は、図10に示すカメラ角度テーブル(口・頭座標処理)330を備える。
図12は、口・頭座標処理および声紋処理を組合わせた処理のフローチャート図である。ただし、図12は、テレビ会議参加者が各拠点に設置されたテレビ会議クライアント端末103を使用し、テレビ会議システムサーバ1101へ接続を行った状態からの動作を実施するものである。
図12の実施例3における動作のフローチャート図において、図1および図8の動作のフローチャート図と同一番号の処理は、動作が同様であるため、説明を省略する。
ステップ1201では、音声処理部1102が、更新された音声データと音声データベース1103に登録された声紋342とを参照し、声紋認識する。ステップ1202では、音声処理部1102は、音声データベース1103を参照して、ステップ1201の声紋認識により特定した声紋342から、対応する発言者の名前343の特定を行う。名前の特定が行えた場合、処理は、ステップ205へ進む。名前の特定が行えない場合、処理は、ステップ202に戻る。
ステップ1203では、画像処理部106は、ステップ802において画像処理部106が算出した頭座標332に、発言者である目印を施し画像を加工する。また、画像処理部1102は、音声データベース1103を参照して、特定した発言者の名前343も施し画像を加工する。
図13に、発言者を特定した結果のイメージ図を示す。なお、発言者の名前の表示位置は、図13のように画面上端部に限らず、例えば、画面下端部、左端部、右端部や発言者の目印の位置に配置する等、画面内のいずれかの適宜の位置に配置することができる。また、名前343限らず、適宜の人物識別情報を用いることができる。
(2)顔座標処理+声紋処理

顔座標処理および声紋処理を組合わせた処理を実行するテレビ会議システムでは、図11のブロック構成図において、位置情報記憶部108は、図4に示すカメラ角度テーブル(顔座標処理)310を備える。
図18は、顔座標処理および声紋処理を組合わせた処理のフローチャート図である。ただし、図18は、テレビ会議参加者が各拠点に設置されたテレビ会議クライアント端末103を使用しテレビ会議システムサーバ1101へ接続を行った状態からの動作を実施するものである。
図18の実施例3における動作のフローチャート図において、図1、図8および図12の動作のフローチャート図と同一番号の処理は、ステップ1203で目印を施す位置が、頭座標332の代わりに会議参加者の座標312であることを除き、動作が同様であるため、説明を省略する。
実施例3によれば、会議の様子全体が写ったモニタ上に発言者である目印を加えるテレビ会議システムを提供することができる。また、本実施例では、実施例1および実施例2で説明した会議の様子全体が写ったモニタ上に発言者である目印を施すことに加え、発言者の音声より声紋認識を行い発言者の名前等の人物識別情報も特定し、モニタ上に発言者の名前も表示することが可能である。
5.カメラ回転処理

本実施例では、会議の様子を撮影するカメラが自動回転可能な場合、もしくは、会議参加者がカメラを操作した場合において、実施例1および実施例2および実施例3で説明した発言者特定方式に適用し、カメラを回転する処理(カメラ回転処理)について説明する。
図14は、本実施例のテレビ会議システムのブロック構成図の例である。
テレビ会議システム1400は、会議の様子を撮影する自動回転または手動回転が可能であるカメラ1401、カメラで撮影した会議の映像を映し出すディスプレイ102、テレビ会議クライアント端末103、音源の方向(マイク角度)を算出できる超指向性マイク104、テレビ会議システムサーバ1101、画像処理部106、画像データベース107、位置情報記憶部108、音声処理部1102、音声データベース1103を有する。位置情報記憶部108は、カメラ角度テーブル310または330、マイク角度テーブル320を備える。
なお、画像データベース107、マイク角度テーブル320を具備しない構成とすることもできる。
(1)口・頭座標処理+声紋処理+カメラ回転処理

口・頭座標処理、声紋処理およびカメラ回転処理を組合わせた処理を実行するテレビ会議システムでは、図14のブロック構成図において、位置情報記憶部108は、図10に示すカメラ角度テーブル(口・頭座標処理)330を備える。
図15は、口・頭座標処理、声紋処理およびカメラ回転処理を組合わせた処理のフローチャート図である。ただし、図15は、テレビ会議参加者が各拠点に設置されたテレビ会議クライアント端末103を使用しテレビ会議システムサーバ1101へ接続を行った状態からの動作を実施するものである。
図15の実施例4における動作のフローチャート図において、図1、図8および図12の動作のフローチャート図と同一番号の処理は、動作が同様であるため、説明を省略する。
ステップ1500では、マイク角度の情報は、テレビ会議クライアント端末103からテレビ会議システムサーバ105内の画像処理部106へ送信されるので、画像処理部106は、マイク角度を受信する。画像処理部106は、前回に受信したマイク角度と、今回受信したマイク角度を適宜の記憶部に記憶しておく。なお、マイク角度は、本フローチャートのタイミングに限らず、予め定められた適宜のタイミング等で受信または記憶してもよい。超指向性マイク104によって求められたマイク角度θmn*は、テレビ会議での発言者特定に利用される。
ステップ1501では、画像処理部106は、マイク角度の値が更新されているか、前回のマイク角度の値と比較する。画像処理部106は、値の変化の有無によりカメラ1401を自動回転させるか判断する。なお、画像処理部106は、ステップ1500で受信したマイク角度θmn*をマイク角度テーブル320内のマイク角度322に記憶してもよい。マイク角度の値に変化があった場合、処理は、ステップ1502へと進む。また、マイク角度の値に変化がなかった場合、処理は、ステップ802へ進む。ステップ1502では、画像処理部106は、マイク角度の値に変化があったと判断した場合、カメラ1401を自動回転させ、処理は、ステップ202へ戻る。
なお、本実施例のカメラ回転処理を行う場合において、ステップ1502のカメラ回転を実施した後の図3のカメラ角度θcn(この例では、θc1、θc2、・・・、θc6)および図5のマイク角度θmn*(この例では、θm1、θm2、・・・、θm6)の取り方は、例えば、カメラとマイクが基準点に位置する場合、カメラを回転させた角度と同じ角度を、カメラ角度θcnおよびマイク角度θmn*から増減した値とすることができる。他の場合にも、画像処理部106は、カメラ位置とマイク位置に基づき、適宜の座標変換を行うことで、カメラの回転角度、カメラ角度およびマイク角度を求めることができる。

図17に発言者を特定した結果のイメージ図を示す。
(2)顔座標処理+声紋処理+カメラ回転処理

顔座標処理、声紋処理およびカメラ回転処理を組合わせた処理を実行するテレビ会議システムでは、図14のブロック構成図において、位置情報記憶部108は、図4に示すカメラ角度テーブル(顔座標処理)310を備える。
図19は、顔座標処理、声紋処理およびカメラ回転処理を組合わせた処理のフローチャート図である。ただし、図19は、テレビ会議参加者が各拠点に設置されたテレビ会議クライアント端末103を使用しテレビ会議システムサーバ1101へ接続を行った状態からの動作を実施するものである。
図19の実施例4における動作のフローチャート図において、図1、図8、図12および図15の動作のフローチャート図と同一番号の処理は、ステップ1203で目印を施す位置が、頭座標332の代わりに会議参加者の座標312であることを除き、動作が同様であるため、説明を省略する。

図17に発言者を特定した結果のイメージ図を示す。
(3)口・頭座標処理+カメラ回転処理

口・頭座標処理およびカメラ回転処理を組合わせた処理を実行するテレビ会議システムでは、図14のブロック構成図において、位置情報記憶部108は、図10に示すカメラ角度テーブル(口・頭座標処理)330を備える。
図20は、口・頭座標処理およびカメラ回転処理を組合わせた処理のフローチャート図である。ただし、図15は、テレビ会議参加者が各拠点に設置されたテレビ会議クライアント端末103を使用しテレビ会議システムサーバ1101へ接続を行った状態からの動作を実施するものである。
図20の実施例4における動作のフローチャート図において、図1、図8、図12および図15の動作のフローチャート図と同一番号の処理は、動作が同様であるため、説明を省略する。

図16に発言者を特定した結果のイメージ図を示す。
(4)顔座標処理+カメラ回転処理

顔座標処理およびカメラ回転処理を組合わせた処理を実行するテレビ会議システムでは、図14のブロック構成図において、位置情報記憶部108は、図4に示すカメラ角度テーブル(顔座標処理)310を備える。
図21は、顔座標処理およびカメラ回転処理を組合わせた処理のフローチャート図である。ただし、図15は、テレビ会議参加者が各拠点に設置されたテレビ会議クライアント端末103を使用しテレビ会議システムサーバ1101へ接続を行った状態からの動作を実施するものである。
図21の実施例4における動作のフローチャート図において、図1、図8、図12および図15の動作のフローチャート図と同一番号の処理は、動作が同様であるため、説明を省略する。

図16に発言者を特定した結果のイメージ図を示す。
実施例4によれば、会議の様子を写しつつ、発言者に対しカメラの向きを合わせることができ、テレビ画面上に発言者である目印を加えるテレビ会議システムを提供することができる。
6.付記

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれている。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
100 テレビ会議システム(実施例1、2)
101 カメラ
102 モニタ
103 テレビ会議クライアント端末
104 超指向性マイク
105 テレビ会議システムサーバ(実施例1、2)
106 画像処理部
107 画像データベース
108 位置情報記憶部
310 カメラ角度テーブル(顔座標処理)
311 人の番号
312 会議参加者の座標
313 カメラ角度
320 マイク角度テーブル
321 人の番号
322 マイク角度
330 カメラ角度テーブル(口・頭座標処理)
331 人の番号
332 頭座標
333 口座標
334 顎座標
335 カメラ角度
341 人の番号
342 声紋
343 名前
351 画像
352 分類
1100 テレビ会議システム(実施例3)
1101 テレビ会議システムサーバ(実施例3、4)
1102 音声処理部
1103 音声データベース
1400 テレビ会議システム(実施例4)
1401 回転機能付きカメラ

Claims (15)

  1. テレビ会議装置であって、
    画像処理部
    を備え、
    前記画像処理部は、
    会議のモニタ画像における複数の会議参加者の各位置について、座標情報と、予め設定された基準点からみた角度情報とを求め、
    前記基準点からみた発言者の方向を表すマイク角度を入力し、
    複数の前記角度情報の中から、前記マイク角度と最も近い値に対応する会議参加者を特定し、
    前記モニタ画像における、前記特定した前記会議参加者の座標情報の位置に、発言者である目印を施した合成画像を作成し、前記合成画像をモニタに表示させる
    ことを特徴とするテレビ会議装置。
  2. 請求項1に記載のテレビ会議装置であって、
    前記画像処理部は、拠点側のテレビ会議室のレイアウト初期画面を保存し、そのレイアウト初期画面と更新されたレイアウト画像との差分箇所を抽出し、その差分箇所を、発言者の位置を特定するために用いることを特徴とするテレビ会議装置。
  3. 請求項2に記載のテレビ会議装置であって、
    会議参加者の座標情報および角度情報を対応して記憶する第1のテーブルを、
    さらに備え、
    前記画像処理部は、前記抽出した差分箇所が、顔判定技術を使用して人間の顔であると判定した場合、前記モニタ画像における会議参加者の座標情報および角度情報を求め、これら情報を前記第1のテーブルに保存し、前記第1のテーブルを、発言者の位置を特定するために用いることを特徴とするテレビ会議装置。
  4. 請求項1に記載のテレビ会議装置であって、
    会議参加者の頭座標、口座標、顎座標情報および角度情報を対応して記憶する第2のテーブルを
    さらに備え、
    前記画像処理部は、
    前記モニタ画像における会議参加者の頭座標情報および顎座標情報を求め、頭座標情報および顎座標情報から口座標情報を算出し、
    前記モニタ画像における会議参加者の角度情報を求め、
    これら情報を前記第2のテーブルに保存し、
    前記第2のテーブルを、発言者の位置を特定するために用いる
    ことを特徴とするテレビ会議装置。
  5. 請求項4に記載のテレビ会議装置であって、
    前記画像処理部は、抽出した差分箇所が人間の顔であると判定した場合、顔画像から各会議参加者の頭座標、口座標およびカメラ角度を求め、前記口座標を、テレビ会議での発言者特定に利用することを特徴とするテレビ会議装置。
  6. 請求項4に記載のテレビ会議装置であって、
    前記画像処理部は、頭座標の位置に、発言者の目印を施すことを特徴とするテレビ会議装置。
  7. 請求項1に記載のテレビ会議装置であって、
    声紋および人識別情報を記憶した音声データベースを
    さらに備え、
    前記画像処理部は、前記モニタ画像上に、発言者である目印を施すことに加え、前記音声データベースを参照して、声紋に基づき求めた発言者の人識別情報を施して表示することを特徴とするテレビ会議装置。
  8. 請求項7に記載のテレビ会議装置であって、
    更新または入力された音声データと前記音声データベースに登録された声紋とを参照し、声紋認識することで人識別情報を求める音声処理部を、
    さらに備えたことを特徴とするテレビ会議装置。
  9. 請求項8に記載のテレビ会議装置であって、
    人識別情報として名前を含むことを特徴とするテレビ会議装置。
  10. 請求項1に記載のテレビ会議装置であって、
    自動回転機能を有するカメラを、
    さらに備え、
    同一拠点内での発言者を特定してマイク角度が変化した場合、前記画像処理部は、前記自動回転機能により、発言者の方向に前記カメラを自動回転させることを特徴とするテレビ会議装置。
  11. 請求項10に記載のテレビ会議装置であって、
    前記画像処理部は、前記カメラを自動回転させた場合に、前記カメラの回転後に撮影された画像と、初期画面または回転前に撮影された画像との差分箇所を抽出し、その差分箇所を、発言者の位置を特定するために用いることを特徴とするテレビ会議装置。
  12. 請求項1に記載のテレビ会議装置であって、
    超指向性マイクにより受信した発言者の音声から音源の方向であるマイク角度を算出し、前記画像処理部は、算出した前記マイク角度を入力し、前記マイク角度を発言者の位置を特定するために用いることを特徴とするテレビ会議装置。
  13. 請求項1に記載のテレビ会議装置であって、
    発言者である目印を施した画像を、他拠点または他装置へ配信することを特徴とするテレビ会議装置。
  14. テレビ会議システムであって、
    会議の様子を撮影するカメラと、
    会議の画像を映し出すモニタと、
    基準点から見た音源の方向を表すマイク角度を出力するマイクと、
    画像処理部と
    を備え、

    前記画像処理部は、
    前記カメラにより撮影された会議のモニタ画像における複数の会議参加者の各位置について、座標情報と、予め設定された基準点からみた角度情報とを求め、
    前記マイクから、前記基準点からみた発言者の方向を表すマイク角度を入力し、
    複数の前記角度情報の中から、前記マイク角度と最も近い値に対応する会議参加者を特定し、
    前記モニタ画像における、前記特定した前記会議参加者の座標情報の位置に、発言者である目印を施した合成画像を作成し、前記合成画像を前記モニタに表示させる
    ことを特徴とするテレビ会議システム。
  15. テレビ会議装置におけるテレビ会議方法であって、
    前記テレビ会議装置は、
    画像処理部
    を備え、
    前記画像処理部は、
    会議のモニタ画像における複数の会議参加者の各位置について、座標情報と、予め設定された基準点からみた角度情報とを求め、
    前記基準点からみた発言者の方向を表すマイク角度を入力し、
    複数の前記角度情報の中から、前記マイク角度と最も近い値に対応する会議参加者を特定し、
    前記モニタ画像における、前記特定した前記会議参加者の座標情報の位置に、発言者である目印を施した合成画像を作成し、前記合成画像をモニタに表示させる
    ことを特徴とするテレビ会議方法。

JP2013032807A 2013-02-22 2013-02-22 テレビ会議装置およびシステムおよび方法 Pending JP2014165565A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013032807A JP2014165565A (ja) 2013-02-22 2013-02-22 テレビ会議装置およびシステムおよび方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013032807A JP2014165565A (ja) 2013-02-22 2013-02-22 テレビ会議装置およびシステムおよび方法

Publications (1)

Publication Number Publication Date
JP2014165565A true JP2014165565A (ja) 2014-09-08

Family

ID=51615836

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013032807A Pending JP2014165565A (ja) 2013-02-22 2013-02-22 テレビ会議装置およびシステムおよび方法

Country Status (1)

Country Link
JP (1) JP2014165565A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105706444A (zh) * 2016-01-18 2016-06-22 王晓光 一种视频网络的图像追踪方法及系统
JP2017034658A (ja) * 2015-08-03 2017-02-09 株式会社リコー 映像処理装置、映像処理方法、及び映像処理システム
JP2018513991A (ja) * 2015-03-23 2018-05-31 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声を要約するための方法、コンピュータ・プログラムおよびコンピュータ・システム
CN111406400A (zh) * 2017-09-26 2020-07-10 惠普发展公司,有限责任合伙企业 会议电话参与者标识
JP2021022836A (ja) * 2019-07-26 2021-02-18 株式会社リコー 通信システム、通信端末、通信方法およびプログラム
CN113014857A (zh) * 2021-02-25 2021-06-22 游密科技(深圳)有限公司 视频会议显示的控制方法、装置、电子设备及存储介质
JP2022056108A (ja) * 2020-09-29 2022-04-08 ソフトバンク株式会社 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム
CN114531563A (zh) * 2022-02-16 2022-05-24 广州市哲闻信息科技有限公司 一种视频会议控制方法和系统
JP7325865B1 (ja) 2022-06-20 2023-08-15 株式会社インタラクティブソリューションズ ウェブ会議システムを用いた画面合成方法
CN117294945A (zh) * 2023-09-19 2023-12-26 广东保伦电子股份有限公司 一种通过导轨摄像头自动对正发言者面部的智能会议方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018513991A (ja) * 2015-03-23 2018-05-31 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声を要約するための方法、コンピュータ・プログラムおよびコンピュータ・システム
JP2017034658A (ja) * 2015-08-03 2017-02-09 株式会社リコー 映像処理装置、映像処理方法、及び映像処理システム
CN105706444A (zh) * 2016-01-18 2016-06-22 王晓光 一种视频网络的图像追踪方法及系统
WO2017124228A1 (zh) * 2016-01-18 2017-07-27 王晓光 一种视频网络的图像追踪方法及系统
CN111406400A (zh) * 2017-09-26 2020-07-10 惠普发展公司,有限责任合伙企业 会议电话参与者标识
CN111406400B (zh) * 2017-09-26 2022-05-10 惠普发展公司,有限责任合伙企业 会议电话参与者标识
US11178359B2 (en) 2017-09-26 2021-11-16 Hewlett-Packard Development Company, L.P. Electronic device and generating conference call participants identifications
JP2021022836A (ja) * 2019-07-26 2021-02-18 株式会社リコー 通信システム、通信端末、通信方法およびプログラム
JP2022056108A (ja) * 2020-09-29 2022-04-08 ソフトバンク株式会社 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム
JP7152453B2 (ja) 2020-09-29 2022-10-12 ソフトバンク株式会社 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム
CN113014857A (zh) * 2021-02-25 2021-06-22 游密科技(深圳)有限公司 视频会议显示的控制方法、装置、电子设备及存储介质
CN114531563A (zh) * 2022-02-16 2022-05-24 广州市哲闻信息科技有限公司 一种视频会议控制方法和系统
JP7325865B1 (ja) 2022-06-20 2023-08-15 株式会社インタラクティブソリューションズ ウェブ会議システムを用いた画面合成方法
WO2023249005A1 (ja) * 2022-06-20 2023-12-28 株式会社インタラクティブソリューションズ ウェブ会議システムを用いた画面合成方法
JP2024000413A (ja) * 2022-06-20 2024-01-05 株式会社インタラクティブソリューションズ ウェブ会議システムを用いた画面合成方法
CN117294945A (zh) * 2023-09-19 2023-12-26 广东保伦电子股份有限公司 一种通过导轨摄像头自动对正发言者面部的智能会议方法

Similar Documents

Publication Publication Date Title
JP2014165565A (ja) テレビ会議装置およびシステムおよび方法
US11089266B2 (en) Communication processing method, terminal, and storage medium
CN109754811B (zh) 基于生物特征的声源追踪方法、装置、设备及存储介质
US9342752B1 (en) Adjusting an image for video conference display
US8411130B2 (en) Apparatus and method of video conference to distinguish speaker from participants
US10241990B2 (en) Gesture based annotations
KR101897072B1 (ko) 얼굴 라이브니스 검증 방법 및 검증 장치
EP3701715B1 (en) Electronic apparatus and method for controlling thereof
JP2009089324A (ja) テレビ会議システムおよびプログラム、記録媒体
JPWO2015186519A1 (ja) 画像処理装置及び画像表示装置
EP3005690B1 (en) Method and system for associating an external device to a video conference session
WO2010010736A1 (ja) 会議画像生成方法、会議システム、サーバ装置及び会議装置等
JPWO2019139101A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP2015517239A (ja) ビデオインターフェースを制御するための方法、ビデオインターフェースを動作させるための方法、顔向き検出器、およびビデオ会議サーバ
US20160328201A1 (en) Display control system, display control apparatus, display control method, and storage medium
EP2953351A1 (en) Method and apparatus for eye-line augmentation during a video conference
JP2010191544A (ja) 映像音声処理装置、映像音声処理方法、映像音声処理プログラム
TWI626849B (zh) 視訊會議控制方法及裝置
JP2000132693A (ja) 画像処理装置および方法、並びに提供媒体
JP2020115609A (ja) 音声録音装置及びその制御方法、並びにプログラム
WO2014208169A1 (ja) 情報処理装置、制御方法、プログラム、および記憶媒体
JP2021184236A (ja) ナンバープレート映像を構成する複数のフレームに対する分析および補正を通じて車両番号の認識を行う車両番号認識装置
US9883142B1 (en) Automated collaboration system
TWI764020B (zh) 視訊會議系統及其方法
TWI799048B (zh) 環景影像會議系統及方法