JP2012119927A - 端末装置、情報提示方法、及び情報提示プログラム - Google Patents
端末装置、情報提示方法、及び情報提示プログラム Download PDFInfo
- Publication number
- JP2012119927A JP2012119927A JP2010267678A JP2010267678A JP2012119927A JP 2012119927 A JP2012119927 A JP 2012119927A JP 2010267678 A JP2010267678 A JP 2010267678A JP 2010267678 A JP2010267678 A JP 2010267678A JP 2012119927 A JP2012119927 A JP 2012119927A
- Authority
- JP
- Japan
- Prior art keywords
- image data
- speaker
- range
- terminal device
- partial image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【課題】撮影手段の撮影範囲を切り替えることなく、話者及び話者が注目する対象物を含む範囲の画像を表すデータをより的確に出力可能な端末装置、情報提示方法、及び情報提示プログラムを提供すること。
【解決手段】端末装置は、撮影手段から出力された画像データを取得する(S15)。端末装置は、画像データが表す人物の中から、話者を特定する(S20,S30,S40,S100,S130)。端末装置は、画像データが表す対象物の中から、話者が注目する対象物を特定対象物として特定する(S40)。端末装置は、撮影範囲の一部を表すデータであって、話者と、特定対象物とのそれぞれを表すデータである部分画像データを生成する(S140)。端末装置は、部分画像データを出力する(S160)。
【選択図】図5
【解決手段】端末装置は、撮影手段から出力された画像データを取得する(S15)。端末装置は、画像データが表す人物の中から、話者を特定する(S20,S30,S40,S100,S130)。端末装置は、画像データが表す対象物の中から、話者が注目する対象物を特定対象物として特定する(S40)。端末装置は、撮影範囲の一部を表すデータであって、話者と、特定対象物とのそれぞれを表すデータである部分画像データを生成する(S140)。端末装置は、部分画像データを出力する(S160)。
【選択図】図5
Description
本発明は、撮影範囲の一部を表す部分画像データを出力させることが可能な端末装置、情報提示方法、及び情報提示プログラムに関する。
ネットワークを介して相互に接続された複数の端末装置の間で画像及び音声を表すデータを送受信するテレビ会議システムが普及している。複数の端末装置の間で共有される画像には、例えば、テレビ会議の参加者を撮影した画像がある(例えば、特許文献1参照)。従来の装置では、複数の参加者全員を表す画像データを生成する。
上記の装置が生成する画像は、テレビ会議全体の雰囲気を伝えることを目的とした、参加者全員を表す画像であるため、話者及び話者が注目する対象物を十分に表現できないことがある。
本発明は上記課題を解決するためになされたものであり、撮影手段の撮影範囲を切り替えることなく、話者及び話者が注目する対象物を含む範囲の画像を表すデータをより的確に出力可能な端末装置、情報提示方法、及び情報提示プログラムを提供することを目的とする。
第1態様の端末装置は、撮影手段から出力された、撮影範囲を表す画像データを取得する画像データ取得手段と、前記画像データ取得手段によって取得された前記画像データが表す人物の中から、話者を特定する話者特定手段と、前記画像データ取得手段によって取得された前記画像データが表す対象物の中から、前記話者特定手段によって特定された前記話者が注目する対象物を特定対象物として特定する対象物特定手段と、前記画像データ取得手段によって取得された前記画像データに基づき、前記撮影範囲の一部を表すデータであって、前記話者特定手段によって特定された前記話者と、前記対象物特定手段によって特定された前記特定対象物とのそれぞれを表すデータである部分画像データを生成する部分画像データ生成手段と、前記部分画像データ生成手段によって生成された前記部分画像データを出力する出力手段とを備えている。第1態様の端末装置は、撮影手段の撮影範囲を切り替えることなく、話者及び特定対象物に注目した画像を表す部分画像データを生成し、出力することができる。
第1態様の端末装置において、前記部分画像データ生成手段は、前記特定対象物全体のうちの前記話者が注目する範囲のうち第1所定割合以上の範囲である第1範囲全体と、前記話者の頭部のうちの第2所定割合以上の範囲である第2範囲全体とを含み、且つ、前記第1範囲と前記第2範囲との範囲全体に占める割合が最大値となる所定形状の範囲を表すデータを、前記部分画像データとして生成してもよい。この場合の端末装置では、部分画像データが表す範囲に占める、話者の頭部と、話者が操作する範囲とのそれぞれの割合が最も大きい。このため、端末装置は、話者及び特定対象物に注目した画像を表す部分画像データを生成し、出力することができる。
第1態様の端末装置は、前記対象物特定手段は、前記画像データが表す前記対象物の中から、前記話者の手の位置及び前記話者の前記手が伸びる方向の少なくともいずれかに基づき設定された所定範囲にある対象物を、前記特定対象物として特定してもよい。この場合の端末装置は、話者の手の位置及び話者の手が伸びる方向の少なくともいずれかに基づき設定された所定範囲に基づき、特定対象物を的確に特定することができる。
第1態様の端末装置は、前記対象物特定手段は、前記所定範囲に前記対象物が複数ある場合には、前記手よりも大きい最小矩形の対象物を、前記特定対象物として特定してもよい。この場合の端末装置は、複数の対象物が特定対象物として特定されうる場合に、手よりも大きい最小矩形の対象物を特定対象物として特定する。手よりも大きい最小矩形の対象物は、紙の資料を想定したものである。したがって、端末装置は、話者が注目する紙の資料を特定することができる。
第1態様の端末装置は、前記話者特定手段は、画像データ取得手段によって取得された前記画像データが表す人物の中から、発話中及び発話終了後所定時間経過前の状態にある人物を前記話者として特定してもよい。話者が話をする期間内に、話者が間を置くなどの理由によって発話がとぎれることがある。この場合、発話の有無のみに基づき話者が特定されると、話者の特定状況が頻繁に変わることになる。これに対し、この場合の端末装置は、発話中の人物及び発話終了後所定時間経過前の人物のそれぞれについて話者と特定する。したがって、端末装置は、発話がとぎれる度に、話者の特定状況が頻繁に変わる事態を回避することができる。
第1態様の端末装置は、前記部分画像データ生成手段は、前記話者特定手段によって前記話者が特定されなかった場合、及び前記対象物特定手段によって前記特定対象物が特定されなかった場合の少なくともいずれかの場合は、前記部分画像データを生成せず、前記出力手段は、前記部分画像データ生成手段によって前記部分画像データが生成された場合には、前記部分画像データを出力し、前記部分画像データが生成されなかった場合には前記画像データ取得手段によって取得された前記画像データが表す前記撮影範囲全体を表すデータである全体画像データを出力してもよい。この場合の端末装置は、話者及び特定対象物の少なくともいずれかの特定状況に応じて、出力するデータを切り替えることができる。
第1態様の端末装置は、前記部分画像データ生成手段は、前記話者特定手段によって互いに異なる時間に発話が検出された複数の前記話者に基づき、前記話者が変わったと判断される場合に、直前に特定された前記話者と、新たな前記話者と、前記対象物特定手段によって特定された前記特定対象物とのそれぞれを含む範囲を表すデータを、前記部分画像データとして生成してもよい。この場合の端末装置は、話者が変わった直後の撮影範囲内の様子を的確に表すデータを出力することができる。
第2態様の情報提示方法は、撮影手段から出力された、撮影範囲を表す画像データを取得する画像データ取得ステップと、前記画像データ取得ステップで取得された前記画像データが表す人物の中から、話者を特定する話者特定ステップと、前記画像データ取得ステップで取得された前記画像データが表す対象物の中から、前記話者特定ステップで特定された前記話者が注目する対象物を特定対象物として特定する対象物特定ステップと、前記画像データ取得ステップによって取得された前記画像データに基づき、前記撮影範囲の一部を表すデータであって、前記話者特定ステップで特定された前記話者と、前記対象物特定ステップで特定された前記特定対象物とのそれぞれを表すデータである部分画像データを生成する部分画像データ生成ステップと、前記部分画像データ生成ステップによって生成された前記部分画像データを出力する出力ステップとを備えている。第2態様の情報提示方法によれば、撮影手段の撮影範囲を切り替えることなく、話者及び特定対象物に注目した画像を表す部分画像データを生成し、出力することができる。
第3態様の情報提示プログラムは、撮影手段から出力された、撮影範囲を表す画像データを取得する画像データ取得ステップと、前記画像データ取得ステップで取得された前記画像データが表す人物の中から、話者を特定する話者特定ステップと、前記画像データ取得ステップで取得された前記画像データが表す対象物の中から、前記話者特定ステップで特定された前記話者が注目する対象物を特定対象物として特定する対象物特定ステップと、前記画像データ取得ステップによって取得された前記画像データに基づき、前記撮影範囲の一部を表すデータであって、前記話者特定ステップで特定された前記話者と、前記対象物特定ステップで特定された前記特定対象物とのそれぞれを表すデータである部分画像データを生成する部分画像データ生成ステップと、前記部分画像データ生成ステップによって生成された前記部分画像データを出力する出力ステップとを端末装置のコントローラに実行させるための指示を含む。第3態様の情報提示プログラムは、コンピュータに実行させることにより、撮影手段の撮影範囲を切り替えることなく、話者及び特定対象物に注目した画像を表す部分画像データを生成し、出力することができる。
以下、第1及び第2の実施形態のテレビ会議システム1について、図面を参照して順に説明する。参照される図面は、本発明が採用しうる技術的特徴を説明するために用いられるものであり、記載されている装置の構成、各種処理のフローチャート等は、それのみに限定する趣旨ではなく、単なる説明例である。
図1を参照して、第1及び第2の実施形態のテレビ会議システム1に共通する概略構成について説明する。テレビ会議システム1は、複数の端末装置30を含み、これらの装置は通信網2(例えば、インターネット)を介して相互に接続している。図1には、複数の端末装置30として、端末装置31から34の4台の端末装置が図示されているが、端末装置30の数は4台に限られない。以下では、複数の端末装置30を総称する場合、及び複数の端末装置30のうちいずれかを特定せずに指す場合には、「端末装置30」という。また、端末装置30において実行される処理を説明するために、注目する1つの端末装置30を「自装置30」ともいう。複数の端末装置30の中の、自装置30以外の端末装置30を「他の端末装置30」ともいう。
図2を参照して、第1及び第2の実施形態の端末装置30に共通する構成について説明する。本実施形態では、端末装置30の一例として、汎用のノート型パーソナルコンピュータが採用されている。図2に示すように、端末装置30は、CPU300と、ROM301と、RAM302と、入出力(I/O)インタフェイス304と、外部通信インタフェイス(I/F)305と、ハードディスク装置(HDD)310と、ビデオコントローラ321と、ディスプレイ322と、キーコントローラ323と、キーボード324と、マイク331と、スピーカ332と、CD−ROMドライブ340と、USBインタフェイス350とを備えている。
ROM301と、RAM302と、I/Oインタフェイス304とは、それぞれCPU300に接続されている。外部通信I/F305と、HDD310と、ビデオコントローラ321と、キーコントローラ323と、マイク331と、スピーカ332と、CD−ROMドライブ340と、USBインタフェイス350とは、それぞれI/Oインタフェイス304に接続されている。ディスプレイ322は、ビデオコントローラ321に接続されている。キーボード324は、キーコントローラ323に接続されている。
USBインタフェイス350は、外部機器とユニバーサル・シリアル・バスで接続するコントローラである。USBインタフェイス350には、マウス351と、カメラ352とがそれぞれUSBケーブルで接続されている。本実施形態では、カメラ352として、撮像した画像データを通信網2へリアルタイムで出力可能な小型・軽量の汎用カメラ(いわゆる、WEBカメラ)が採用されている。外部通信I/F305は、通信網2を介してデータ送受信を行うコントローラである。本実施形態では、外部通信I/F305は、テレビ会議の実行時に、他の端末装置30との間で音声データと、画像データとを含むデータの送受信を行う。
CPU300は、ROM301と、HDD310とに記憶された各種プログラムを実行することにより、端末装置30の動作を制御する。ROM301は、端末装置30を動作させるためのプログラムと初期値等を記憶している。RAM302は、CPU300が各種処理を実行する際、演算結果等のデータを一時的に記憶する。HDD310は、大容量の記憶装置である。HDD310には、後述するメイン処理用のプログラム等、CPU300によって実行される各種処理用のプログラムと、各種処理で使用されるデータベースとが記憶されている。また、HDD310には、他の端末装置30との間で送受信される各種データ等も記憶される。各種データには、例えば、画像データと、音声データとがある。画像データには、カメラ352又は他の端末装置30から取得される画像データと、全体画像データと、部分画像データとがある。全体画像データは、カメラ352から出力される画像データが表す撮影範囲を表すデータである。本実施形態の全体画像データは、カメラ352から出力された画像データに圧縮処理等が施されたデータである。部分画像データは、画像データによって表される撮影範囲のうち、一部の範囲を表すデータであって、話者と、特定対象物とのそれぞれを表すデータである。本実施形態の部分画像データは、圧縮処理されている。特定対象物は、画像データが表す対象物のうちの、話者が注目する対象物である。音声データは、マイク331又は他の端末装置30から取得される。
CD−ROMドライブ340には、CPU300によって実行される各種処理用のプログラムを記憶したCD−ROM341が挿入可能である。端末装置30では、CD−ROMドライブ340からこれらのプログラムが読み込まれ、HDD310にセットアップされる。プログラムは、通信網2経由で外部機器からダウンロードされたものがHDD310にセットアップされてもよい。
図3を参照して、自装置30が使用される会議環境(以下、「自拠点」ともいう。)の具体例について説明する。図3に示す自拠点では、3人の参加者が、テーブル102を囲んで着席している。3人の参加者を、紙面左奥から反時計回りに、A,B,及びCとする。3人の参加者のうち、参加者Aを、自拠点のテレビ会議の主催者であるとする。テーブル102上の各参加者の前方となる位置には、矩形の紙資料が配置されている。紙資料の大きさは、例えば、日本工業規格のA4サイズである。テーブル102の奥側にある壁には、矩形のホワイトボード101が配置されている。参加者は、必要に応じて、ホワイトボード101を使用可能である。自装置30に接続されるカメラ352は、例えば、図3のように、紙面手前側に配置される。カメラ352の撮影範囲201には、参加者A,B,Cの少なくとも頭部と、資料111から113の全体と、ホワイトボード101の全体とが収まる。本実施形態では、カメラ352の撮影範囲201は、テレビ会議開始前に調整される。カメラ352の撮影範囲201は、メイン処理が実行されている期間中、一定に維持される。図3では、自装置30及び自装置30とカメラ352とを接続するUSBケーブルを図示していないが、自装置30は、例えば、テーブル102上のカメラ352に隣接する位置に配置される。
次に、第1の実施形態のメイン処理の概要を説明する。第1の実施形態のメイン処理は、テレビ会議システム1において、テレビ会議専用のアプリケーションが起動されている期間実行される処理である。より具体的には、メイン処理では、話者の発話状況に応じて全体画像データ及び部分画像データのいずれかを、他の端末装置30に送信する処理が実行される。テレビ会議システム1内で実行される処理のうち、音声データを送受信する処理と、画像を表すデータ(例えば、全体画像データ及び部分画像データ)を受信する処理と、音声データ及び画像データを再生する処理とについては、メイン処理とは別途実行される。
次に、図4から図13を参照して、第1の実施形態のメイン処理を説明する。図3の具体例において、図4のように、参加者Aと、参加者Cとのそれぞれが異なる期間に発話した場合を想定する。図4に示すように、時間T1から時間T2までの期間は、参加者Aが発話した期間である。時間T3から時間T5までの期間は、参加者Cが発話した期間である。時間T2から時間T4までの期間は、参加者Aの削除判定時間の長さと等しいとする。削除判定時間については、後述する。図5のフローチャートに示す各処理を実行させるプログラムは、図2のROM301又はHDD310に記憶されており、テレビ会議専用のアプリケーションが起動された場合にCPU300が実行する。以下の説明では、例示する画像の長手方向を画像の左右方向ともいう。画像の長手方向に直交する方向を画像の上下方向ともいう。
図5のメイン処理ではまず、CPU300は、参加者情報を取得し、参加者情報を参加者テーブルに記憶させる(S10)。参加者情報は、例えば、テレビ会議専用のアプリケーションが起動される際に、テレビ会議の参加者によって入力される。具体例では、参加者情報として、参加者IDと、主催者であるか否かを示す情報とが取得され、取得された情報は図6に示す参加者テーブルに記憶される。参加者テーブルは、例えば、RAM302に記憶されており、参加者IDと、平均会話時間と、平均会話間隔と、主催フラグと、削除判定時間とを含む。参加者IDは、自拠点の参加者を識別するデータである。具体例では、参加者IDとして、上述のA,B,及びCが取得される。平均会話時間は、参加者毎に算出された、会話時間の平均値である。会話時間は、発話が連続して検出される期間の長さを表す。平均会話間隔は、参加者毎に算出された、会話間隔の平均値である。会話間隔は、同一の参加者が一旦発話を終了してから、次の発話を開始するまでの時間の平均値である。平均会話時間と、平均会話間隔とは、それぞれ参加者の発話状況に応じて、随時更新される。主催フラグは、自拠点のテレビ会議の主催者であるか否かをそれぞれON/OFFで表す情報である。具体例では、参加者Aの主催フラグは、ONに設定され、参加者B,及びCの主催フラグは、OFFに設定される。削除判定時間は、参加者の発話状況に基づき、話者を特定する処理に用いられる。本実施形態では、発話中及び発話終了後所定時間経過前の状態にある人物を話者とする。平均会話時間と、平均会話間隔と、削除判定時間とには、初期値が設定されてもよい。
削除判定時間は、平均会話時間と、平均会話間隔と、主催フラグとを考慮して、参加者毎に算出され、随時更新される。削除判定時間は、例えば、式(1)に従って算出される。
(平均会話時間)/(会話時間の平均)×(平均会話間隔)/(会話間隔の平均)×(所定時間)×(主催フラグの値に応じた重み) ・・・式(1)
式(1)において、会話時間の平均は、自拠点の参加者の会話時間の平均値である。会話間隔の平均は、自拠点の参加者の会話間隔の平均値である。所定時間は、例えば、4secである。主催フラグの値に応じた重みは、例えば、主催フラグONの場合は、1.5であり、主催フラグOFFの場合は、1.0である。図5のメイン処理には図示しないが、参加者の発話状況に応じて平均会話時間及び平均会話間隔を随時更新するために、CPU300は、発話の開始時刻と、発話の終了時刻とをそれぞれRAM302に記憶させている。
(平均会話時間)/(会話時間の平均)×(平均会話間隔)/(会話間隔の平均)×(所定時間)×(主催フラグの値に応じた重み) ・・・式(1)
式(1)において、会話時間の平均は、自拠点の参加者の会話時間の平均値である。会話間隔の平均は、自拠点の参加者の会話間隔の平均値である。所定時間は、例えば、4secである。主催フラグの値に応じた重みは、例えば、主催フラグONの場合は、1.5であり、主催フラグOFFの場合は、1.0である。図5のメイン処理には図示しないが、参加者の発話状況に応じて平均会話時間及び平均会話間隔を随時更新するために、CPU300は、発話の開始時刻と、発話の終了時刻とをそれぞれRAM302に記憶させている。
次に、CPU300は、カメラ352から出力される画像データを取得し、取得した画像データをRAM302に記憶させる(S15)。具体例において、図7の画像211を表す画像データが取得された場合を想定する。図7の画像211が表す人物及び物体と、図3の撮影範囲201に配置された人物及び物体との対応は以下の通りである。ホワイトボード画像401は、ホワイトボード101を表す。テーブル画像402は、テーブル102を表す。資料画像411は、資料111を表す。資料画像412は、資料112を表す。人物画像451は、参加者Aを表す。人物画像452は、参加者Bを表す。人物画像453は、参加者C表す。
次に、CPU300は、話者を検出する(S20)。ステップS20では、CPU300は、発話中の人物を話者として検出し、話者を表す人物画像と、話者の参加者IDとを特定する。話者は、公知の方法を用いて適宜検出されればよい。例えば、CPU300は、ステップS15で取得した画像データによって表される人物画像451から453のうち、口が動いていると判断した人物画像を、話者の人物画像として検出してもよい。他の例では、CPU300は、マイク331から出力される音声データに基づき音源方向を特定する。CPU300は、ステップS15で取得した画像データによって表される人物画像451から453のうち、音源方向に配置された人物画像を、話者の人物画像として特定してもよい。これらの場合、話者と、参加者IDとは、例えば次のように対応付ければよい。ステップS10で、参加者情報として、参加者の座席の配置を取得する場合には、CPU300は、画像データによって表される画像中の人物画像の位置に基づき、話者と参加者IDとを対応付ければよい。ステップS10で、参加者情報として、参加者の頭部を表す照合用画像を取得する場合には、CPU300は、画像照合によって、話者と参加者IDとを対応付ければよい。他の例では、参加者情報として、参加者の声を表す音声データを取得する場合には、CPU300は、音声照合によって、話者を検出してもよい。
次に、CPU300は、ステップS20で話者を検出したか否かを判断する(S30)。図4の時間T1から時間T2までの期間では、話者として参加者Aが検出される(S30:YES)。この場合、CPU300は、情報登録処理を実行する。情報登録処理では、CPU300は、ステップS15で取得した画像データに基づき、話者の頭部を表す範囲と、特定対象物全体を表す範囲とを含む最小矩形範囲を特定する。図8を参照して、情報登録処理を説明する。
図8に示すように、情報登録処理では、CPU300はまず、画像データに基づき、所定範囲内に配置されている対象物を検出する(S42)。図7に示す画像211では、ステップS42の所定範囲は、人物画像451を基準として、範囲221のように設定される。人物の輪郭線の抽出は、公知の方法(例えば、特開2010−231462公報参照)を用いて実行される。範囲221の輪郭線は、人物画像451の輪郭線から所定距離外側にある。所定距離は、例えば、実空間で10cmに相当する距離である。ステップS42で検出される対象物は、参加者がテレビ会議中に注目する可能性があると想定される物体である。ステップS42では、例えば、予め登録された形状の物体であるか否かに基づき対象物が検出される。本実施形態では、CPU300は、所定範囲内に少なくとも一部が配置されている矩形の物体を対象物として検出する。物体の形状は、実空間において物体と重なる他の物体の存在を考慮して検出される。ただし、CPU300は、テーブル102は、対象物から除外する。具体例では、資料画像411が対象物をとして検出される。
次に、CPU300は、画像データに基づき、話者の手の形状及び位置を検出する(S44)。ステップS44は、公知の手法(例えば、特開2005−122492号公報参照)を用いて実行される。次に、CPU300は、話者が対象物を操作しているか否かを判断する(S46)。本実施形態では、話者が操作している対象物(以下、「操作対象物」ともいう。)を、話者が注目する対象物とする。具体的には、CPU300は、ステップS42及びステップS44の検出結果に基づき、話者の手の位置が、対象物と重なっていると判断される場合を、話者が対象物を操作していると判断する(S46:YES)。またCPU300は、ステップS42及びステップS44の検出結果に基づき、話者の手(指)が伸びる方向に対象物がある場合を、話者が対象物を操作していると判断する(S46:YES)。話者の手が伸びる方向は、例えば、話者の手の形状を矩形に近似した場合の、矩形の長手方向のうちの、手先側に向かう方向とする。
具体例では、参加者Aの手は、資料111と重なっていると判断される(S46:YES)。この場合、CPU300は、操作対象物が複数あるか否かを判断する(S48)。具体例では、資料111のみが操作対象物であると判断される(S48:NO)。この場合、CPU300は、資料111を、特定対象物として特定する(S49)。CPU300は、操作対象物が複数ある場合(S48:YES)、それら複数の対象物の中から、1つの対象物を特定対象物として特定する。複数の対象物の中から、1つの対象物を選定する方法は適宜決定されればよい。本実施形態では、話者の手よりも大きい対象物のうち、最小の対象物を特定対象物として特定する。
ステップS49及びステップS50のいずれかの次に、CPU300は、表示領域テーブルを更新し、更新した表示領域テーブルをRAM302に記憶させる(S52)。表示領域テーブルは、部分画像データが表す範囲を決定する処理に用いられるテーブルである。図9に示すように、表示領域テーブルは、参加者IDと、最小矩形範囲を特定する座標と、登録時刻と、発話フラグとを含む情報を記憶する。
最小矩形範囲は、画像データによって表される画像全体のうちの一部の範囲であり、第1範囲全体と、第2範囲全体とを含む矩形範囲のうち、最小の範囲である。第1範囲は、特定対象物全体のうちの話者が注目する範囲のうち第1所定割合以上の範囲である。第1所定割合は、例えば、話者が注目する範囲の大きさと、属性(例えば、色及び形状)といった条件を考慮して適宜定められる。第1所定割合とは、好ましくは、8割以上の値であり、さらに好ましくは9割以上の値である。第2範囲は、話者の頭部全体のうちの第2所定割合以上の範囲である。第2所定割合は、話者を他の参加者と区別することと、話者の表情を把握することといった条件を考慮して適宜定められる。第2所定割合とは、好ましくは、8割以上の値であり、さらに好ましくは9割以上の値である。さらに第2範囲には、話者の顔が含まれていることが好ましい。本実施形態の第1及び第2所定割合は、10割とする。第1所定割合と、第2所定割合とは、同じ値であってもよいし、異なる値であってもよい。最小矩形範囲を特定する座標は、例えば、最小矩形範囲の左上点と、右上点とを表す画像座標系の座標である。画像座標系は、画像上に設定された座標系であり、図7には画像座標系のX軸とY軸とを示している。具体例では、範囲231を特定する座標として、点241の座標(X1,Y1)と、点242の座標(X2,Y2)とが、表示領域テーブルに記憶される。
登録時刻は、最小矩形範囲を特定する座標が表示領域テーブルに記憶(更新を含む)された時刻である。発話フラグは、参加者IDで特定される話者に発話が確認されたか否かを表すデータである。発話フラグがONである場合、参加者IDで示される話者に発話が確認されたことを示す。
CPU300は、ステップS52では、話者に対応する参加者IDを含む登録情報が、既に表示領域テーブルに記憶されている場合、その登録情報を更新する。話者に対応する参加者IDを含む登録情報が、表示領域テーブルに記憶されていない場合、話者に対応する参加者IDを含む登録情報を表示領域テーブルに追加する。表示領域テーブルに複数の登録情報が記憶されている場合、CPU300は、ステップS20で発話が検出された話者の登録情報以外の登録情報については、発話フラグをOFFに設定する。
ステップS46において、話者が対象物を操作していないと判断される場合(S46:NO)、又はステップS52の次に、CPU300は、情報登録処理を終了し、処理はメイン処理に戻る。このように、本実施形態では、話者が対象物を操作していないと判断される場合には、CPU300は、表示領域テーブルの更新を実行しない。
図5に示すメイン処理において、ステップS20で話者が検出されなかった場合(S30:NO)、CPU300は、表示領域テーブルの発話フラグの値を全てOFFに設定し、表示領域テーブルを更新する(S35)。ステップS35又はステップS40の次に、CPU300は、参加者テーブルを更新し、更新した参加者テーブルをRAM302に記憶させる(S90)。CPU300は、ステップS90では、いずれかの参加者が新たに発話を開始した場合に、平均会話間隔及び削除判定時間を更新する。CPU300は、ステップS90では、いずれかの参加者が発話を終了した場合に、平均会話時間及び削除判定時間を更新する。
次に、CPU300は、表示領域テーブル更新処理を実行する(S100)。CPU300は、表示領域テーブル更新処理では、発話が終了してから削除判定時間以上経過した参加者の登録情報を、表示領域テーブルから削除する。図10を参照して、表示領域テーブル更新処理の詳細を説明する。図10に示すように、表示領域テーブル更新処理では、CPU300は、表示領域テーブルのN番目の登録情報の発話フラグがOFFであるか否かを判断する(S102)。Nは、登録情報を順に読み出すための、1以上の自然数である。Nの初期値は、1である。図9の表示領域テーブルでは、紙面上から順に各登録情報に読み出し順序が付与されている。図9の表示領域テーブルの1番目の登録情報の発話フラグはONである(S102:NO)。この場合、CPU300は、N番目の登録情報が、表示領域テーブルに含まれる最後の登録情報か否かを判断する(S124)。図9の表示領域テーブルの1番目の登録情報は、最後の登録情報である(S124:YES)。この場合、CPU300は、表示領域テーブル更新処理を終了し、処理は図5のメイン処理に戻る。N番目の登録情報は、最後の登録情報ではない場合(S124:NO)、CPU300は、Nをインクリメントし、処理はステップS102戻る。
N番目の登録情報の発話フラグがOFFである場合(S102:YES)、CPU300は、N番目の登録情報について、登録時刻から削除判定時間が経過しているか否かを判断する(S104)。登録時刻から削除判定時間が経過している場合(S104:YES)、CPU300は、N番目の登録情報を表示領域テーブルから削除し、表示領域テーブルをRAM302に記憶させる(S106)。登録時刻から削除判定時間が経過していない場合(S104:NO)、又はステップS106の次に、CPU300は、前述のステップS124の処理を実行する。
図5のメイン処理において、ステップS100の次に、CPU300は、表示領域テーブルに、登録情報が記憶されているか否かを判断する(S130)。表示領域テーブルに登録情報が記憶されている場合は(S130:YES)、話者と、特定対象物との双方が特定された場合である。図9に示す具体例の表示領域テーブルには、1つの登録情報が記憶されている(S130:YES)。この場合、CPU300は、部分画像データを生成し、生成した部分画像データをRAM302に記憶させる(S140)。部分画像データが表す画像(以下、「部分画像」ともいう。)の形状は、ステップS15で取得された画像データが表す画像と同じアスペクト比を有する矩形(以下、「合同矩形」ともいう。)である。部分画像には、表示領域テーブルの最小矩形範囲全体が含まれる。部分画像が表す範囲は、表示領域テーブルの最小矩形範囲全体の割合が最大となるように設定される。具体例では、部分画像に占める範囲231全体の割合が最大となる範囲を表し、且つ、合同矩形の部分画像として、図11の画像212を表すデータを圧縮処理することによって、部分画像データが生成される。画像212には、資料画像411全体と、頭部画像461全体とが含まれる。頭部画像461は、参加者Aの頭部を表す。
ステップS130において、表示領域テーブルに、登録情報が記憶されていない場合(S130:NO)、CPU300は、ステップS15で取得した画像データに基づき全体画像データを生成し、生成した全体画像データをRAM302に記憶させる(S150)。全体画像データは、例えば、画像データを圧縮処理することによって生成される。ステップS140又はステップS150の次に、CPU300は、画像データを他の端末装置30に送信する(S160)。ステップS140で部分画像データが生成された場合には、ステップS160では、CPU300は部分画像データを他の端末装置30に送信する。ステップS150で全体画像データが生成された場合には、ステップS160では、CPU300は全体画像データを他の端末装置30に送信する。CPU300は、アプリケーションを終了する指示を取得したか否かを判断する(S170)。アプリケーションを終了する指示は、例えば、自拠点の参加者が入力するか、又は他の端末装置30からテレビ会議終了の指示が送信された場合に取得される。CPU300がアプリケーションを終了する指示を取得していない場合(S170:NO)、処理はステップS15に戻る。CPU300がアプリケーションを終了する指示を取得した場合(S170:YES)、メイン処理は終了する。
図4の時間T3において、CPU300が、図7に示す画像211を表す画像データを取得し(S15)、話者として参加者Cを検出した場合(S20,S30:YES)を想定する。この場合、図8に示す情報登録処理では、CPU300は、画像データに基づき、図7の範囲222内に配置されている資料112を検出する(S42)。CPU300は、参加者Cの手が伸びる方向601に1つの資料112が配置されていると判断する(S46:YES、S48:NO)。したがって、CPU300は、資料112を、特定対象物として特定する(S49)。次に、CPU300は、図12に示すように、表示領域テーブルに、参加者Cに関する登録情報を追加し、表示領域テーブルをRAM302に記憶させる(S52)。ステップS52では、範囲232を特定する座標として、点243の座標(X3,Y3)と、点244の座標(X4,Y4)とが、表示領域テーブルに記憶される。次に、CPU300は、情報登録処理を終了し、処理はメイン処理に戻る。
図5に示すメイン処理において、CPU300は、参加者テーブルを更新した後(S90)、表示領域テーブルを更新する(S100)。図4の時間T3の時点では、図12の1番目の登録情報の登録時刻から削除判定時間経過していない(図10のS102:YES,S104:NO)。したがって、時間T3の時点では、図12に示すように、表示領域テーブルには2つの登録情報が含まれる(S130:YES)。この場合、CPU300は、例えば、図13の画像213を表す部分画像データを生成する(S140)。図13に示すように、画像213には、範囲231の全体と、範囲232の全体とが含まれている。画像213が表す範囲は、画像213に占める範囲231と、範囲232との割合が最大となる合同矩形の範囲である。
図4の時間T4において、CPU300が、図7に示す画像211を表す画像データを取得し(S15)、話者として参加者Cを検出した場合(S20,S30:YES)を想定する。この場合、図12の1番目の登録情報の登録時刻から削除判定時間経過している(図10のS102:YES,S104:YES)。したがって、時間T4の時点では、表示領域テーブルには1つの登録情報が含まれる(S130:YES)。この場合、CPU300は、図示しないが、範囲232全体の割合が最大値となる合同矩形の画像を表す部分画像データを生成する(S140)。
以上のように第1の実施形態の端末装置30は、メイン処理を実行する。他の端末装置30では、受信した全体画像データ又は部分画像データに基づき、テレビ会議専用アプリケーションの所定の表示領域に全体画像又は部分画像が表示される。全体画像は、全体画像データによって表される画像である。通常、全体画像と、部分画像とは、上記所定の表示領域に、同じ大きさで表示されるので、部分画像は、全体画像の一部を拡大した画像として視認される。
第1の実施形態の端末装置30において、カメラ352は、本発明の「撮影手段」に相当する。図5のステップS15は、本発明の「画像データ取得ステップ」に相当する。ステップS15を実行するCPU300は、本発明の「画像データ取得手段」として機能する。ステップS20と、ステップS40と、ステップS100と、ステップS130とは、本発明の「話者特定ステップ」に相当する。ステップS20と、ステップS40と、ステップS100と、ステップS130とを実行するCPU300は、本発明の「話者特定手段」として機能する。図8のステップS49と、ステップS50とは、本発明の「対象物特定ステップ」に相当する。ステップS49と、ステップS50とを実行するCPU300は、本発明の「対象物特定手段」として機能する。ステップS140は、本発明の「部分画像データ生成ステップ」に相当する。ステップS140を実行するCPU300は、本発明の「部分画像データ生成手段」として機能する。ステップS160は、本発明の「出力ステップ」に相当する。ステップS160を実行するCPU300は、本発明の「出力手段」として機能する。合同矩形は、本発明の「所定形状」に相当する。削除判定時間は、本発明の「所定時間」に相当する。
第1の実施形態の端末装置30は、撮影範囲201を切り替えることなく、話者及び特定対象物に注目した画像を表す部分画像データを生成し、出力することができる。より具体的には、端末装置30は、図11の画像212のように、部分画像に占める、話者の頭部全体を表す範囲と、特定対象物全体を表す範囲とのそれぞれの割合を最も大きくすることができる。本実施形態で例示したテレビ会議システム1では、他拠点での会議の様子は、主に、他拠点から送信される画像データと、音声データとに基づき把握される。即ち、テレビ会議システム1は、画像データと、音声データとを主な情報源として提供することによって、参加者に他拠点の会議の様子を伝えなければならないという特有の課題がある。端末装置30によれば、参加者は、部分画像によって、テレビ会議の参加者が他拠点での会議の様子を把握する上で重要な情報として、話者がどのような表情で、何に注目して発話をしたかを適切に把握することができる。また、端末装置30によれば、話者は、自分の表情及び自分が注目する対象物を、参加者に伝えることができる。
特定対象物の特定方法について、端末装置30は、話者から所定距離内にある対象物のうち、話者の手と重なる対象物及び話者の手(指)が伸びる方向にある対象物を特定対象物として特定する。話者から所定距離内にある対象物は、話者が注目し易い対象物である。話者の手と重なる対象物は、話者が手で持ったり、話者が移動させたりと、操作の対象としている可能性の高い対象物である。話者の手が伸びる方向にある対象物は、話者が指し示している可能性が高い対象物である。したがって、端末装置30は、上記特定基準に基づき、話者が注目する対象物を適切に特定することができる。さらに端末装置30は、複数の対象物が特定対象物として特定されうる場合、手よりも大きい最小矩形の対象物を特定対象物として特定する。よりも大きい最小矩形の対象物は、具体的には、紙資料を想定している。端末装置30は、テレビ会議では、紙資料を参照する機会が多いことを考慮して、特定対象物を特定することができる。
一般に、話者が話をする期間内に、話者が間を置くなどの理由によって発話がとぎれることがある。この場合、発話の有無のみに基づき話者が特定されると、話者の特定状況が頻繁に変わることになる。これに対し、端末装置30は、話者の特定方法について、発話中及び発話終了後削除判定時間経過前の状態にある人物を話者と特定する。したがって、端末装置30は、発話がとぎれる度に、話者の特定状況が頻繁に変わる事態を回避することができる。このように、端末装置30は、話者及び特定対象物を特定することによって、端末装置30は、話者及び特定対象物に注目した画像を適切に表す部分画像データを生成し、出力することができる。
さらに、端末装置30は、話者及び特定対象物の少なくともいずれかが特定されず、表示領域テーブルに登録情報が記憶されていない場合には、撮影範囲全体を表す全体画像データを、他の端末装置30に出力する。このため、端末装置30は、話者及び特定対象物の特定状況に応じて、他の端末装置30に送信するデータを切り替えることができる。端末装置30は、図13の画像213のように、話者が変わった直後の撮影範囲内の様子を的確に表す部分画像データを、他の端末装置30に送信することができる。
次に、第2の実施形態のメイン処理を図14から図19を参照して説明する。まず、第2の実施形態のメイン処理の概要を説明する。第2の実施形態のメイン処理では、第1の実施形態のメイン処理と同様に、参加者の発話状況に応じて、部分画像データ及び全体画像データのいずれかを他の端末装置30に送信する処理が実行される。第2の実施形態のメイン処理では、特定対象物が予め登録された対象物である場合に、第1のメイン処理とは異なる処理を実行する。また、第2の実施形態のメイン処理では、発話終了時から削除判定期間経過前の話者の登録情報についての処理が、第1のメイン処理とは異なる。
次に、第2の実施形態のメイン処理を説明する。第1の実施形態と同様の具体例において、図4のように、参加者Aと、参加者Cとのそれぞれが異なる期間に発話した場合を想定する。図14のフローチャートに示す各処理を実行させるプログラムは、図2のROM301又はHDD310に記憶されており、テレビ会議専用のアプリケーションが起動された場合にCPU300が実行する。
図14において、図5の第1の実施形態のメイン処理と同様の処理を行う場合には、同じステップ番号を付与している。図14に示すように、第2の実施形態のメイン処理は、ステップS10の前に、ステップS2及びステップS4が実行される点と、ステップS10と、ステップS15との間にステップS12が実行される点と、ステップS40に代えてステップS41が実行される点と、ステップS100に代えてステップS101が実行される点とにおいて、第1の実施形態のメイン処理と異なる。第1の実施形態のメイン処理と同様な処理については説明を省略し、以下、第1の実施形態と異なる上記処理について説明する。
ステップS2では、CPU300は、登録対象物を記憶させる指示があるか否かを判断する(S2)。登録対象物は、テレビ会議の参加者によって予め端末装置30に記憶された物体である。テレビ会議の参加者は、テレビ会議開始前に、対象物を登録対象物として記憶する指示を入力することができる。登録対象物に関する情報は、テレビ会議システム1内の一部又は全部の端末装置30で共有されてもよいし、自装置30のみが記憶してもよい。後述するように、第2の実施形態では、CPU300は、ステップS15で取得した画像データに基づき撮影範囲内に登録対象物が検出された場合、登録対象物の種別に応じた処理を実行する。
登録対象物を記憶させる指示がある場合(S2:YES)、CPU300は、登録対象物テーブルを更新し、更新した登録対象物テーブルをRAM302に記憶させる(S4)。具体例において、図15に示すように登録対象物テーブルが更新された場合を想定する。図15に示すように、登録対象物テーブルは、対象物IDと、種別と、登録対象物を表す画像データとを含む情報を記憶する。対象物IDは、登録対象物を識別するデータである。種別は、登録対象物を表す画像データに基づき、登録対象物が検出された場合の処理を規定するデータである。本実施形態では、種別として、重要と、非表示とが設定されている。本実施形態では、話者が注目している対象物として複数の対象物が検出された場合に、それらの対象物の中から、優先して特定対象物として特定する物体の種別を「重要」とする。また、セキュリティを考慮し、部分画像を作成したくない物体の種別を「非表示」とする。登録対象物を表す画像データは、例えば、登録対象物の外観を撮影したデータである。具体例の登録対象物テーブルには、鉢植えの花を表す画像データ251と、鉢植えの植物を表す画像データ252とが記憶されているものとする。登録対象物を記憶させる指示がない場合(S2:NO)、又はステップS4の次に、CPU300は、ステップS10の処理を実行する。
ステップS12では、CPU300は、カメラ352から出力される画像データに基づき、参加者の特定位置を検出し、検出した特定位置を参加者IDと対応付けて参加者テーブルに記憶させる(S12)。特定位置は、参加者が着席している場合の頭部の上端の位置であり、画像座標系の座標によって表される。本実施形態では、メイン処理開始直後、即ち、テレビ会議開始直後は、自拠点の参加者全員が着席していると想定し、ステップS12で取得された画像データに基づき、特定位置を検出する。特定位置は、参加者が起立したか否かを判断する処理に用いられる。特定位置の検出方法は適宜変更されてよい。例えば、ステップS10において、CPU300は、参加者が着席しているか否かの情報を取得し、着席している参加者のみ特定位置を検出してもよい。他の例では、CPU300は、繰り返し実行されるステップS15で取得される画像データを解析し、各参加者の頭部の位置を学習により推定してもよい。
ステップS41では、CPU300は、図16に示す情報登録処理を実行する。図16において、図8の第1の実施形態の情報登録処理と同様の処理を行う場合には、同じステップ番号を付与している。図16に示すように、第2の実施形態の情報登録処理は、ステップS50に代えて、ステップS51が実行される点と、ステップS52に代えて、ステップS54と、ステップS56と、ステップS58と、ステップS60と、ステップS80と、ステップS82と、ステップS84とが実行される点とにおいて、第1の実施形態の情報登録処理と異なる。第1の実施形態の情報登録処理と同様な処理については説明を簡略化又は省略し、以下、第1の実施形態と異なる上記処理について説明する。
CPU300が、図17に示す画像214を表す画像データを取得し(S15)、図4の時間T1から時間T2の期間に、参加者Aを話者として検出した場合(S20,S30:YES)を想定する。図17に示す画像214によって表された人物及び物体と、図3の撮影範囲201に配置された人物及び物体との対応は以下の通りである。ホワイトボード画像501は、ホワイトボード101を表す。テーブル画像502は、テーブル102を表す。資料画像511は、資料111を表す。人物画像551は、参加者Aを表す。頭部画像561は、参加者Aの頭部を表す。人物画像552は、参加者Bを表す。人物画像553は、参加者C表す。頭部画像562は、参加者Cの頭部を表す。花画像281は、図3において図示しない花を表す。植物画像282は、図3において図示しない植物を表す。
具体例の場合、CPU300は、範囲221内の対象物として、資料111と、花画像281が表す花とを検出する(S42)。資料111は、参加者Aの手と重なっており、花は、参加者Aの手が伸びる方向602にある(S46:YES,S48:YES)。この場合、CPU300は、資料111と、花との中から、種別が「重要」である登録対象物を優先して特定対象物として特定する(S51)。したがって、CPU300は、花を特定対象物として特定する。操作対象物のいずれも、登録対象物ではない場合、CPU300は、第1の実施形態のステップS50と同様に、特定対象物を特定する。
花は、種別が「非表示」である登録対象物ではなく(S54:NO)、ホワイトボードでもない(S58:NO)。花は、種別が「重要」である登録対象物(以下、「重要対象物」ともいう。)である(S80:YES)。したがって、CPU300は、表示領域テーブルに記憶されている登録情報を全て削除し、削除後の表示領域テーブルをRAM302に記憶させる(S82)。ステップS82は、優先度の高い対象物として登録された登録対象物を表す範囲全体が、部分画像に占める割合をなるべく大きくするための処理である。即ち、ステップS82後、後述するステップS84を実行することによって、ステップS140では新たに記憶させた1つの登録情報にのみ基づき、部分画像データが生成される。特定対象物が重要対象物ではない場合(S80:NO)又はステップS82の次に、CPU300は、頭部画像561全体と、花画像281全体とを含む最小矩形範囲を特定し、特定結果に基づき表示領域テーブルを更新する(S84)。ステップS84では、範囲233を特定する座標として、点245の座標と、点246の座標とが、表示領域テーブルに記憶される。情報登録処理は以上で終了し、処理は、図14のメイン処理に戻る。
ステップS49又はステップS51で特定された特定対象物が、種別が「非表示」である登録対象物である場合(S54:YES)、CPU300は、表示領域テーブルに記憶されている登録情報を全て削除する(S56)。ステップS56の処理が実行された場合、図14のメイン処理のステップS160において他の端末装置30に、全体画像データが送信される(S130:NO,S150,S160)。即ち、種別が「非表示」である登録対象物が拡大された部分画像データは生成されない。
CPU300が、図17に示す画像214を表す画像データを取得し(S15)、参加者Cを話者として検出した場合(S20,S30:YES)を想定する。この場合、ステップS42では、CPU300は、範囲223内の対象物として、ホワイトボード101を検出する。ホワイトボード101は、参加者Cの手と重なっており、且つ、参加者Cの手が伸びる方向にある(S46:YES,S48:NO,S49,S54:NO,S58:YES)。この場合、CPU300は、ホワイトボード操作処理を実行する(S60)。
図18を参照して、ホワイトボード操作処理の詳細を説明する。図18に示すように、ホワイトボード操作処理ではまず、CPU300は、図14のステップS15で取得した画像データに基づき、対象人物の顔の位置を検出する(S62)。図16のステップS60で実行されるホワイトボード操作処理における対象人物は、ステップS20で検出された話者である。対象人物の顔の位置は、例えば、対象人物の頭部の上端とする。図17の具体例では、対象人物の顔の位置として、位置263が検出される。
次に、CPU300は、対象人物の顔の位置が、対象人物の特定位置よりも高い位置にあるか否かを判断する(S64)。前述のように、参加者毎の特定位置は、図14のステップS12で検出され、参加者テーブルに記憶されている。図17に示すように、具体例では、位置263は、参加者Cの特定位置262よりも紙面上方にある(S64:YES)。この場合、CPU300は、対象人物の手と重なるブロック271を検出する(S68,S70:YES)。ブロックは、レイアウト解析により検出されたテキスト及び図形領域の少なくとも一部を含み、ホワイトボード画像501の一部分である。ブロックの内部には、ホワイトボード101に書かれた文字、又は、ホワイトボード101に描かれた図形が表されている。ホワイトボード画像501全体のうち、ブロック271で表される範囲は、参加者Cが注目していると想定される範囲である。この場合、CPU300は、頭部画像562全体と、ブロック271全体とを含む範囲234を、最小矩形範囲として特定し、その特定結果に基づき、表示領域テーブルを更新する(S72)。ステップS72では、範囲234を特定する座標として、点247の座標と、点248の座標とが、表示領域テーブルに記憶される。
ステップS68においてブロックが検出されなかった場合(S70:NO)、CPU300は、頭部画像562全体と、ホワイトボード画像501全体とを含む範囲を、最小矩形範囲として特定し、特定結果に基づき、表示領域テーブルを更新する(S74)。ステップS64において、対象人物の顔の位置が、特定位置以下である場合(S64:NO)と、ステップS72と、ステップS74とのいずれかの次に、ホワイトボード操作処理は終了し、処理は図16の情報登録処理に戻る。図16に示す情報登録処理において、ステップS56又はステップS60の次に、情報登録処理は終了し、処理は図14のメイン処理に戻る。
図14に示すメイン処理のステップS101では、CPU300は、図19に示す表示領域テーブル更新処理を実行する。図19において、図10の第1の実施形態の表示領域テーブル更新処理と同様の処理を行う場合には、同じステップ番号を付与している。図19に示すように、第2の実施形態の表示領域テーブル更新処理は、ステップS106に代えて、ステップS108と、ステップS110と、ステップS112と、ステップS114と、ステップS116と、ステップS118と、ステップS120と、ステップS122とが実行される点において、第1の実施形態の表示領域テーブル更新処理と異なる。第1の実施形態の表示領域テーブル更新処理と同様な処理については説明を簡略化又は省略し、以下、第1の実施形態と異なる上記処理について説明する。図示しないが、第2の実施形態の表示領域テーブルには、第1の実施形態の表示領域に含まれる項目に加え、特定対象物を識別するためのデータとして、特定対象物IDが記憶されているものとする。
CPU300が、図17に示す画像214を表す画像データを取得し(S15)、図4の時間T3に、参加者Cを話者として検出した場合(S20,S30:YES)を想定する。この場合、表示領域テーブルには、図9のように、参加者A及びCの登録情報が記憶されている。図9のように、1番目の登録情報の発話フラグはOFFであるが(S102:YES)、時間T3の時点では参加者Aの発話が終了してから削除判定時間は経過していない(S104:NO)。この場合、CPU300は、N番目の登録情報に含まれる参加者IDで表される参加者を対象人物とする。具体例では、CPU300は、参加者Aを対象人物として以下の処理が実行する。CPU300は、範囲221内の資料111及び花画像281が表す花を検出し(S108)、参加者Aの手の形状及び位置を検出する(S110)。CPU300は、ステップS108及びステップS110の検出結果に基づき、参加者Aが資料111及び花に操作していることを検出する(S112:YES)。ステップS108は、図16のステップS42と同様の処理である。ステップS110は、図16のステップS44と同様の処理である。ステップS112は、図16のステップS46と同様の処理である。
次に、CPU300は、操作対象物の大きさが、所定サイズ以下か否かを判断する(S114)。所定サイズは、例えば、対象人物の手の大きさの1.5倍である。具体例では、表示領域テーブルに特定対象物IDが登録された操作対象物である花画像281が表す花は、参加者Aの手の1.5倍よりも大きい(S114:NO)。この場合、CPU300は、対象人物の操作対象物が、ホワイトボード101であるか否かを判断する(S118)。
操作対象物が、ホワイトボード101である場合(S118:YES)、ホワイトボード操作処理を実行する(S120)。ステップS120で実行されるホワイトボード操作処理は、基本的に図16のステップS60で実行されるホワイトボード操作処理と同じである。ただし、ステップS120で実行されるホワイトボード操作処理では、N番目の登録情報に含まれる参加者IDによって表される参加者を、ステップS62における対象人物とする。図16のホワイトボード操作処理が終了した場合、処理は、図19の表示領域テーブル更新処理に戻る。操作対象物が、ホワイトボード101ではない場合(S118:NO)、CPU300は、対象人物の頭部全体を表す範囲と、操作対象物全体を表す範囲とを含む最小矩形範囲を特定し、特定結果に基づき、表示領域テーブルを更新する(S122)。
ステップS112において、対象人物が対象物を操作していない場合(S112:NO)、又は操作対象物の大きさが所定サイズ以下の場合(S114:YES)、CPU300は、N番目の登録情報を表示領域テーブルから削除する(S116)。このように、本実施形態では、発話終了から削除判定期間が経過する前であっても、登録情報を表示領域テーブルから削除する場合がある。ステップS116と、ステップS120と、ステップS122とのいずれかの次に、CPU300は、ステップS124を実行する。
以上のように、第2の実施形態の端末装置30は、メイン処理を実行する。第2の実施形態の端末装置30において、ステップS20と、ステップS41と、ステップS101と、ステップS130とは、本発明の「話者特定ステップ」に相当する。ステップS20と、ステップS41と、ステップS101と、ステップS130とを実行するCPU300は、本発明の「話者特定手段」として機能する。図16のステップS49と、ステップS51と、ステップS101とは、本発明の「対象物特定ステップ」に相当する。ステップS49と、ステップS51と、ステップS101とを実行するCPU300は、本発明の「対象物特定手段」として機能する。
上記第2の実施形態の端末装置30は、複数の操作対象物があると判断される場合、種別に「重要」が設定された登録対象物を優先して特定対象物として特定する。例えば、テレビ会議の議題に関わる対象物は、テレビ会議中に、話者が注目する可能性が高い。このような対象物が予め優先度の高い登録対象物として登録されることによって、端末装置30は、話者が注目している対象物を特定する精度を高めることができる。端末装置30は、種別に「非表示」が設定された登録対象物を特定対象物として特定しない。例えば、試作段階の商品等、セキュリティを考慮して、詳細な画像を表示させたくない場合がある。このような場合に、端末装置30は、種別が「非表示」である登録対象物として対象物を予め登録することによって、その登録対象物が含まれる割合が大きい画像が他の端末装置30に送信されることを回避することができる。
端末装置30は、特定対象物がホワイトボードであり、且つ、話者が起立していると判断される場合、特定対象物の一部の範囲を話者が注目する範囲として特定する処理を実行する。即ち、端末装置30は、特定対象物及び話者の姿勢に応じて、特定対象物全体を話者が注目する範囲として特定するか、又は特定対象物の一部の範囲を話者が注目する範囲として特定するかを変えることができる。具体的には、端末装置30は、ホワイトボード全体のうちの、文字及び図形の少なくともいずれかが含まれるブロックを、話者が注目する範囲として特定する。端末装置30は、話者の手の位置及び手が伸びる方向の少なくともいずれかに基づき、ブロックを特定する。そして、端末装置30は、話者の頭部全体と、ブロック全体とが占める割合が最大値となる矩形範囲を表す部分画像データを生成する。このため、端末装置30は、部分画像データが表す範囲にホワイトボード全体が含まれる場合に比べ、話者が注目する範囲の割合が大きい部分画像データを生成することができる。
本発明は、上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更が加えられてもよい。例えば、以下の(1)から(6)に例示する変形が適宜加えられてもよい。
(1)端末装置30の構成は適宜変更可能である。例えば、端末装置30は、汎用のデスクトップ型パーソナルコンピュータであってもよい。他の例では、表示装置と接続可能であれば、端末装置30自身が表示装置を備えなくてもよい。また、端末装置30の用途は適宜変更可能である。例えば、複数の話者が登場するシンポジウムの模様を会場の画面に表示する用途及び他の会場に中継する用途に、端末装置30が利用されてもよい。
(2)撮影範囲内の複数の人物の中から、話者を特定する方法は、適宜変更されてもよく、少なくとも画像データと、音声データとの少なくともいずれかを用いて実行されればよい。例えば、以下に例示する変形が加えられてもよい。
(2−1)上記実施形態の端末装置30は、発話中及び発話終了後所定時間経過前の状態にある人物を話者としていたが、これに限定されない。例えば、端末装置30は、発話中及び発話終了後、新たな話者が特定されるまでの状態にある人物を、話者として特定してもよい。他の例では、特定の座席に座っている人物等の予め指定された条件を満たす人物を、話者として特定してもよい。
(2−2)削除判定時間の設定方法は適宜変更されてよい。例えば、上述の式(1)は一例であり、他の計算式に基づき削除判定時間が算出されてもよい。他の例では、特定対象物及び話者の属性に応じて、異なる削除判定時間が設定されてもよい。具体的には、特定対象物の属性としては、例えば、特定対象物の大きさと、重要度とが挙げられる。話者の属性としては、テレビ会議の主催者等の会議上の役割と、役職と、年齢とが挙げられる。他の例では、削除判定時間は、話者の発話態様に基づき設定されてもよい。発話態様としては、例えば、発話の内容と、発話の速度と、発話の頻度とが挙げられる。
(2−3)削除判定時間は、メイン処理において随時更新されていたが、一定の値であってもよい。
(3)撮影範囲内の対象物の中から、話者が注目する対象物を特定対象物として特定する方法は、適宜変更されてよい。例えば、以下に例示する変形が加えられてもよい。
(3−1)図8に示す情報登録処理の、ステップS42の所定範囲の設定方法は適宜変更されてよい。例えば、上記実施形態と同様に、人物画像の輪郭線の所定距離外側に輪郭線を有する範囲を所定範囲とする場合、所定距離は、適宜変更されてよい。他の例では、話者全体が収まる最小の楕円によって表される範囲が、所定範囲に設定されてもよい。
(3−2)ステップS42では、特定範囲の大きさの物体のみ対象物として検出されてもよい。例えば、上記実施形態のように、矩形形状の物体を対象物として検出する場合、名刺と、消しゴムと、定規といった、話者が注目する可能性が低い物体が、特定対象物の候補となる対象物として検出される可能性がある。また上記実施形態の場合、資料中に描かれた矩形形状が、特定対象物の候補となる対象物として検出される可能性がある。特定範囲の大きさの物体のみ対象物として検出されることによって、上記に例示したような、話者が注目する可能性が低い物体、及び話者が注目している対象物の一部の範囲のみが意図せずに特定対象物として検出されることを回避することができる。より具体的には、端末装置は、紙資料に含まれるブロックが特定対象物として特定されることを防止することができる。また、端末装置は、手で隠れてしまうような小さいサイズの物体を特定対象物として特定し、操作対象物が確認しづらい、即ち、画像を拡大する効果が少ない部分画像データを生成することを回避することができる。
(3−3)端末装置30は、話者の動作に基づき特定対象物を特定してもよい。例えば、端末装置30は、話者が特定の操作を行った物体を特定対象物として特定してもよい。具体的には、端末装置30は、話者が手で所定角度(例えば、180度)回転させた物体を対象物として特定してもよい。この場合、例えば、表示領域テーブルに特定対象物IDを記憶させる項目を設ける。特定対象物IDは、一旦特定対象物であると特定された対象物を表す。CPU300は、特定対象物IDに基づき、一旦特定対象物であると特定された対象物を参加者が話者であると判断されている期間継続して特定対象物であると判断しもよい。他の例では、端末装置30は、話者の目線の先に存在する対象物を特定対象物として特定してもよい。他の例では、端末装置30は、話者の顔と、手と、指といった体の一部によって指し示す方向に存在する対象物を特定対象物として特定してもよい。他の例では、端末装置30は、差し棒といった話者が操作する物体が指し示す方向に存在する対象物を特定対象物として特定してもよい。他の例では、端末装置30は、操作対象物以外の対象物を特定対象物として特定してもよい。例えば、話者の立ち位置といった、話者の配置に基づき特定対象物が特定されてもよい。具体的には、端末装置30は、話者がホワイトボードの前に立っていると判断される時には、ホワイトボードを特定対象物として特定してもよい。上記のような変形例において、例えば、3Dカメラから得られる画像に基づき、話者及び話者が操作する物体の状態が検出されてもよい。
(3−4)一度に複数の対象物が特定対象物として特定されてもよい。
(4)部分画像データは、撮影範囲の一部を表すデータであって、話者と、特定対象物とのそれぞれを表すデータであればよく、その生成方法は適宜変更されてよい。例えば、以下に例示する変形が加えられてもよい。
(4−1)表示領域テーブルに記憶された、発話終了後から削除判定時間経過前の登録情報に基づき、部分画像データが生成される場合、発話終了後からの経過時間に応じて、徐々に撮影範囲全体に近づけた範囲を表す部分画像データが生成されてもよい。他の例では、部分画像データが表す部分画像の形状は、図5のステップS15で取得された画像データが表す画像とアスペクト比が同じ矩形に限定されず、任意の形状であってよい。
(4−2)上記実施形態では、互いに異なる時間に発話が検出された複数の話者に基づき、話者が変わったと判断される場合の部分画像データの生成方法は適宜変更されてよい。上記実施形態のように、直前の話者が発話終了後削除判定経過前であった場合のみ、直前に特定された話者と、新たな話者と、特定対象物とのそれぞれを含む範囲を表すデータを、部分画像データとして生成してもよい。他の例では、直前の話者が発話終了後削除判定経過前であるか否かに関わらず、直前に特定された話者と、新たな話者と、特定対象物とのそれぞれを含む範囲を表すデータを、部分画像データとして生成してもよい。この場合、例えば、新たな話者が特定されてから、所定時間(例えば、5秒間)は、直前の話者の登録情報を表示領域テーブルに記憶させておけばよい。他の例では、新たな話者と、特定対象物とのそれぞれを含む範囲を表すデータを、部分画像データとして生成してもよい。この場合、例えば、新たな話者が特定された場合には、直前の話者が発話終了後削除判定経過前であるか否かに関わらず、直前の話者の登録情報を表示領域テーブルから削除すればよい。
(5)全体画像データ又は部分画像データについて、必要に応じて編集処理が実行されてもよい。例えば、部分画像によって表される特定対象物が、予め登録された優先度に応じて強調表示されるように、全体画像データ又は部分画像データに編集処理が実行されてもよい。他の例では、予め登録された種別が非表示である登録対象物が画像に含まれる場合、その対象物を表す部分が表示されないように、全体画像データ又は部分画像データに編集処理が実行されてもよい。具体的には、図17の画像214のように、予め登録された植物画像282が含まれる場合に、植物画像282を表す部分283にモザイク処理が実行されてもよい。端末装置は、植物画像282をさけた状態で画像が切り出す、即ち、部分283が画像の範囲外となるようにしてもよい。端末装置は、植物画像282を特定対象物とする登録情報を表示領域テーブルに記憶させないとしてもよい。ステップS15で取得された画像データを、他の端末装置に送信する全体画像データとしてもよい。
(6)話者と、特定対象物との特定状況に応じて、全体画像データ及び部分画像データ以外のデータが生成され、出力されてもよい。例えば、図8に示す情報登録処理において特定対象物が特定されなかった場合(S46:NO)、話者の頭部全体を含む最小矩形が特定され、表示領域テーブルに登録されてもよい。この場合、図5のメイン処理では、ステップS140では、全体画像データ及び部分画像データ以外のデータが生成されればよい。全体画像データ及び部分画像データ以外のデータは、画像データによって表される撮影範囲のうち、一部の範囲を表すデータであって、話者を表すデータである。
30 端末装置
300 CPU
301 ROM
302 RAM
305 外部通信I/F
310 HDD
322 ディスプレイ
350 USBインタフェイス
300 CPU
301 ROM
302 RAM
305 外部通信I/F
310 HDD
322 ディスプレイ
350 USBインタフェイス
Claims (9)
- 撮影手段から出力された、撮影範囲を表す画像データを取得する画像データ取得手段と、
前記画像データ取得手段によって取得された前記画像データが表す人物の中から、話者を特定する話者特定手段と、
前記画像データ取得手段によって取得された前記画像データが表す対象物の中から、前記話者特定手段によって特定された前記話者が注目する対象物を特定対象物として特定する対象物特定手段と、
前記画像データ取得手段によって取得された前記画像データに基づき、前記撮影範囲の一部を表すデータであって、前記話者特定手段によって特定された前記話者と、前記対象物特定手段によって特定された前記特定対象物とのそれぞれを表すデータである部分画像データを生成する部分画像データ生成手段と、
前記部分画像データ生成手段によって生成された前記部分画像データを出力する出力手段と
を備えることを特徴とする端末装置。 - 前記部分画像データ生成手段は、前記特定対象物全体のうちの前記話者が注目する範囲のうち第1所定割合以上の範囲である第1範囲全体と、前記話者の頭部のうちの第2所定割合以上の範囲である第2範囲全体とを含み、且つ、前記第1範囲と前記第2範囲との範囲全体に占める割合が最大値となる所定形状の範囲を表すデータを、前記部分画像データとして生成することを特徴とする請求項1に記載の端末装置。
- 前記対象物特定手段は、前記画像データが表す前記対象物の中から、前記話者の手の位置及び前記話者の前記手が伸びる方向の少なくともいずれかに基づき設定された所定範囲にある対象物を、前記特定対象物として特定することを特徴とする請求項1又は2に記載の端末装置。
- 前記対象物特定手段は、前記所定範囲に前記対象物が複数ある場合には、前記手よりも大きい最小矩形の対象物を、前記特定対象物として特定することを特徴とする請求項3に記載の端末装置。
- 前記話者特定手段は、画像データ取得手段によって取得された前記画像データが表す人物の中から、発話中及び発話終了後所定時間経過前の状態にある人物を前記話者として特定することを特徴とする請求項1から4のいずれかに記載の端末装置。
- 前記部分画像データ生成手段は、前記話者特定手段によって前記話者が特定されなかった場合、及び前記対象物特定手段によって前記特定対象物が特定されなかった場合の少なくともいずれかの場合は、前記部分画像データを生成せず、
前記出力手段は、前記部分画像データ生成手段によって前記部分画像データが生成された場合には、前記部分画像データを出力し、前記部分画像データが生成されなかった場合には前記画像データ取得手段によって取得された前記画像データが表す前記撮影範囲全体を表すデータである全体画像データを出力することを特徴とする請求項1から5のいずれかに記載の端末装置。 - 前記部分画像データ生成手段は、前記話者特定手段によって互いに異なる時間に発話が検出された複数の前記話者に基づき、前記話者が変わったと判断される場合に、直前に特定された前記話者と、新たな前記話者と、前記対象物特定手段によって特定された前記特定対象物とのそれぞれを含む範囲を表すデータを、前記部分画像データとして生成することを特徴とする請求項1から6のいずれかに記載の端末装置。
- 撮影手段から出力された、撮影範囲を表す画像データを取得する画像データ取得ステップと、
前記画像データ取得ステップで取得された前記画像データが表す人物の中から、話者を特定する話者特定ステップと、
前記画像データ取得ステップで取得された前記画像データが表す対象物の中から、前記話者特定ステップで特定された前記話者が注目する対象物を特定対象物として特定する対象物特定ステップと、
前記画像データ取得ステップによって取得された前記画像データに基づき、前記撮影範囲の一部を表すデータであって、前記話者特定ステップで特定された前記話者と、前記対象物特定ステップで特定された前記特定対象物とのそれぞれを表すデータである部分画像データを生成する部分画像データ生成ステップと、
前記部分画像データ生成ステップによって生成された前記部分画像データを出力する出力ステップと
を備えたことを特徴とする情報提示方法。 - 撮影手段から出力された、撮影範囲を表す画像データを取得する画像データ取得ステップと、
前記画像データ取得ステップで取得された前記画像データが表す人物の中から、話者を特定する話者特定ステップと、
前記画像データ取得ステップで取得された前記画像データが表す対象物の中から、前記話者特定ステップで特定された前記話者が注目する対象物を特定対象物として特定する対象物特定ステップと、
前記画像データ取得ステップによって取得された前記画像データに基づき、前記撮影範囲の一部を表すデータであって、前記話者特定ステップで特定された前記話者と、前記対象物特定ステップで特定された前記特定対象物とのそれぞれを表すデータである部分画像データを生成する部分画像データ生成ステップと、
前記部分画像データ生成ステップによって生成された前記部分画像データを出力する出力ステップと
を端末装置のコントローラに実行させるための指示を含むことを特徴とする情報提示プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010267678A JP2012119927A (ja) | 2010-11-30 | 2010-11-30 | 端末装置、情報提示方法、及び情報提示プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010267678A JP2012119927A (ja) | 2010-11-30 | 2010-11-30 | 端末装置、情報提示方法、及び情報提示プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012119927A true JP2012119927A (ja) | 2012-06-21 |
Family
ID=46502289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010267678A Pending JP2012119927A (ja) | 2010-11-30 | 2010-11-30 | 端末装置、情報提示方法、及び情報提示プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012119927A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015195458A (ja) * | 2014-03-31 | 2015-11-05 | 株式会社ニコン | 電子機器 |
WO2017033544A1 (ja) * | 2015-08-24 | 2017-03-02 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
WO2020240795A1 (ja) * | 2019-05-30 | 2020-12-03 | 日本電信電話株式会社 | 表示情報生成装置、表示情報生成方法及び表示情報生成プログラム |
WO2024029718A1 (ko) * | 2022-08-02 | 2024-02-08 | 삼성전자주식회사 | 적어도 하나의 외부 객체에 기반하여 적어도 하나의 외부 전자 장치를 선택하기 위한 전자 장치 및 그 방법 |
-
2010
- 2010-11-30 JP JP2010267678A patent/JP2012119927A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015195458A (ja) * | 2014-03-31 | 2015-11-05 | 株式会社ニコン | 電子機器 |
WO2017033544A1 (ja) * | 2015-08-24 | 2017-03-02 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US10545716B2 (en) | 2015-08-24 | 2020-01-28 | Sony Corporation | Information processing device, information processing method, and program |
WO2020240795A1 (ja) * | 2019-05-30 | 2020-12-03 | 日本電信電話株式会社 | 表示情報生成装置、表示情報生成方法及び表示情報生成プログラム |
JPWO2020240795A1 (ja) * | 2019-05-30 | 2020-12-03 | ||
JP7327475B2 (ja) | 2019-05-30 | 2023-08-16 | 日本電信電話株式会社 | 表示情報生成装置、表示情報生成方法及び表示情報生成プログラム |
US11972172B2 (en) | 2019-05-30 | 2024-04-30 | Nippon Telegraph And Telephone Corporation | Display information generation apparatus, display information generation method, and display information generation program |
WO2024029718A1 (ko) * | 2022-08-02 | 2024-02-08 | 삼성전자주식회사 | 적어도 하나의 외부 객체에 기반하여 적어도 하나의 외부 전자 장치를 선택하기 위한 전자 장치 및 그 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7379907B2 (ja) | 情報処理装置、情報処理プログラム、情報処理システム、情報処理方法 | |
US8782566B2 (en) | Using gestures to schedule and manage meetings | |
CN108886600B (zh) | 用于在视频流中提供可选择的交互元素的方法和系统 | |
US8169469B2 (en) | Information processing device, information processing method and computer readable medium | |
KR102193029B1 (ko) | 디스플레이 장치 및 그의 화상 통화 수행 방법 | |
JP6417787B2 (ja) | 表示装置、伝送システムおよび伝送方法 | |
US9247206B2 (en) | Information processing device, information processing system, and information processing method | |
CN114641975A (zh) | 用于会议的多通道音频和/或多个数据流的节流和优先级排序 | |
JP5299240B2 (ja) | 情報表示装置および情報表示システム | |
US20210135892A1 (en) | Automatic Detection Of Presentation Surface and Generation of Associated Data Stream | |
JP2012119927A (ja) | 端末装置、情報提示方法、及び情報提示プログラム | |
JP6176041B2 (ja) | 情報処理装置及びプログラム | |
WO2018061173A1 (ja) | Tv会議システム、tv会議方法、およびプログラム | |
JP2022042423A (ja) | 遠隔勤務支援システム及び遠隔勤務支援方法 | |
US20100275120A1 (en) | Processing of fields in motion picture videos or still photos | |
JP2019159261A (ja) | 電子黒板、映像表示方法、プログラム | |
JPWO2010021240A1 (ja) | 画像表示装置 | |
EP2385701A2 (en) | Virtual conversation method | |
JP6413521B2 (ja) | 表示制御方法、情報処理プログラム、及び情報処理装置 | |
JP2019101739A (ja) | 情報処理装置、情報処理システムおよびプログラム | |
JP6346645B2 (ja) | 情報システム、サーバ装置、端末装置、情報処理方法、およびプログラム | |
JP2020115609A (ja) | 音声録音装置及びその制御方法、並びにプログラム | |
JP6638281B2 (ja) | 情報処理装置及びプログラム | |
JP2015186199A5 (ja) | ||
JP2014153747A (ja) | 画像複雑度に基づいてキャラクタ表示を制御するプログラム、情報機器及び方法 |