JP2012119927A

JP2012119927A - 端末装置、情報提示方法、及び情報提示プログラム

Info

Publication number: JP2012119927A
Application number: JP2010267678A
Authority: JP
Inventors: Katsura Uchida; 桂内田
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2010-11-30
Filing date: 2010-11-30
Publication date: 2012-06-21

Abstract

【課題】撮影手段の撮影範囲を切り替えることなく、話者及び話者が注目する対象物を含む範囲の画像を表すデータをより的確に出力可能な端末装置、情報提示方法、及び情報提示プログラムを提供すること。
【解決手段】端末装置は、撮影手段から出力された画像データを取得する（Ｓ１５）。端末装置は、画像データが表す人物の中から、話者を特定する（Ｓ２０，Ｓ３０，Ｓ４０，Ｓ１００，Ｓ１３０）。端末装置は、画像データが表す対象物の中から、話者が注目する対象物を特定対象物として特定する（Ｓ４０）。端末装置は、撮影範囲の一部を表すデータであって、話者と、特定対象物とのそれぞれを表すデータである部分画像データを生成する（Ｓ１４０）。端末装置は、部分画像データを出力する（Ｓ１６０）。
【選択図】図５

Description

本発明は、撮影範囲の一部を表す部分画像データを出力させることが可能な端末装置、情報提示方法、及び情報提示プログラムに関する。

ネットワークを介して相互に接続された複数の端末装置の間で画像及び音声を表すデータを送受信するテレビ会議システムが普及している。複数の端末装置の間で共有される画像には、例えば、テレビ会議の参加者を撮影した画像がある（例えば、特許文献１参照）。従来の装置では、複数の参加者全員を表す画像データを生成する。

特開２００４−１１２５１１号公報

上記の装置が生成する画像は、テレビ会議全体の雰囲気を伝えることを目的とした、参加者全員を表す画像であるため、話者及び話者が注目する対象物を十分に表現できないことがある。

本発明は上記課題を解決するためになされたものであり、撮影手段の撮影範囲を切り替えることなく、話者及び話者が注目する対象物を含む範囲の画像を表すデータをより的確に出力可能な端末装置、情報提示方法、及び情報提示プログラムを提供することを目的とする。

第１態様の端末装置は、撮影手段から出力された、撮影範囲を表す画像データを取得する画像データ取得手段と、前記画像データ取得手段によって取得された前記画像データが表す人物の中から、話者を特定する話者特定手段と、前記画像データ取得手段によって取得された前記画像データが表す対象物の中から、前記話者特定手段によって特定された前記話者が注目する対象物を特定対象物として特定する対象物特定手段と、前記画像データ取得手段によって取得された前記画像データに基づき、前記撮影範囲の一部を表すデータであって、前記話者特定手段によって特定された前記話者と、前記対象物特定手段によって特定された前記特定対象物とのそれぞれを表すデータである部分画像データを生成する部分画像データ生成手段と、前記部分画像データ生成手段によって生成された前記部分画像データを出力する出力手段とを備えている。第１態様の端末装置は、撮影手段の撮影範囲を切り替えることなく、話者及び特定対象物に注目した画像を表す部分画像データを生成し、出力することができる。

第１態様の端末装置において、前記部分画像データ生成手段は、前記特定対象物全体のうちの前記話者が注目する範囲のうち第１所定割合以上の範囲である第１範囲全体と、前記話者の頭部のうちの第２所定割合以上の範囲である第２範囲全体とを含み、且つ、前記第１範囲と前記第２範囲との範囲全体に占める割合が最大値となる所定形状の範囲を表すデータを、前記部分画像データとして生成してもよい。この場合の端末装置では、部分画像データが表す範囲に占める、話者の頭部と、話者が操作する範囲とのそれぞれの割合が最も大きい。このため、端末装置は、話者及び特定対象物に注目した画像を表す部分画像データを生成し、出力することができる。

第１態様の端末装置は、前記対象物特定手段は、前記画像データが表す前記対象物の中から、前記話者の手の位置及び前記話者の前記手が伸びる方向の少なくともいずれかに基づき設定された所定範囲にある対象物を、前記特定対象物として特定してもよい。この場合の端末装置は、話者の手の位置及び話者の手が伸びる方向の少なくともいずれかに基づき設定された所定範囲に基づき、特定対象物を的確に特定することができる。

第１態様の端末装置は、前記対象物特定手段は、前記所定範囲に前記対象物が複数ある場合には、前記手よりも大きい最小矩形の対象物を、前記特定対象物として特定してもよい。この場合の端末装置は、複数の対象物が特定対象物として特定されうる場合に、手よりも大きい最小矩形の対象物を特定対象物として特定する。手よりも大きい最小矩形の対象物は、紙の資料を想定したものである。したがって、端末装置は、話者が注目する紙の資料を特定することができる。

第１態様の端末装置は、前記話者特定手段は、画像データ取得手段によって取得された前記画像データが表す人物の中から、発話中及び発話終了後所定時間経過前の状態にある人物を前記話者として特定してもよい。話者が話をする期間内に、話者が間を置くなどの理由によって発話がとぎれることがある。この場合、発話の有無のみに基づき話者が特定されると、話者の特定状況が頻繁に変わることになる。これに対し、この場合の端末装置は、発話中の人物及び発話終了後所定時間経過前の人物のそれぞれについて話者と特定する。したがって、端末装置は、発話がとぎれる度に、話者の特定状況が頻繁に変わる事態を回避することができる。

第１態様の端末装置は、前記部分画像データ生成手段は、前記話者特定手段によって前記話者が特定されなかった場合、及び前記対象物特定手段によって前記特定対象物が特定されなかった場合の少なくともいずれかの場合は、前記部分画像データを生成せず、前記出力手段は、前記部分画像データ生成手段によって前記部分画像データが生成された場合には、前記部分画像データを出力し、前記部分画像データが生成されなかった場合には前記画像データ取得手段によって取得された前記画像データが表す前記撮影範囲全体を表すデータである全体画像データを出力してもよい。この場合の端末装置は、話者及び特定対象物の少なくともいずれかの特定状況に応じて、出力するデータを切り替えることができる。

第１態様の端末装置は、前記部分画像データ生成手段は、前記話者特定手段によって互いに異なる時間に発話が検出された複数の前記話者に基づき、前記話者が変わったと判断される場合に、直前に特定された前記話者と、新たな前記話者と、前記対象物特定手段によって特定された前記特定対象物とのそれぞれを含む範囲を表すデータを、前記部分画像データとして生成してもよい。この場合の端末装置は、話者が変わった直後の撮影範囲内の様子を的確に表すデータを出力することができる。

第２態様の情報提示方法は、撮影手段から出力された、撮影範囲を表す画像データを取得する画像データ取得ステップと、前記画像データ取得ステップで取得された前記画像データが表す人物の中から、話者を特定する話者特定ステップと、前記画像データ取得ステップで取得された前記画像データが表す対象物の中から、前記話者特定ステップで特定された前記話者が注目する対象物を特定対象物として特定する対象物特定ステップと、前記画像データ取得ステップによって取得された前記画像データに基づき、前記撮影範囲の一部を表すデータであって、前記話者特定ステップで特定された前記話者と、前記対象物特定ステップで特定された前記特定対象物とのそれぞれを表すデータである部分画像データを生成する部分画像データ生成ステップと、前記部分画像データ生成ステップによって生成された前記部分画像データを出力する出力ステップとを備えている。第２態様の情報提示方法によれば、撮影手段の撮影範囲を切り替えることなく、話者及び特定対象物に注目した画像を表す部分画像データを生成し、出力することができる。

第３態様の情報提示プログラムは、撮影手段から出力された、撮影範囲を表す画像データを取得する画像データ取得ステップと、前記画像データ取得ステップで取得された前記画像データが表す人物の中から、話者を特定する話者特定ステップと、前記画像データ取得ステップで取得された前記画像データが表す対象物の中から、前記話者特定ステップで特定された前記話者が注目する対象物を特定対象物として特定する対象物特定ステップと、前記画像データ取得ステップによって取得された前記画像データに基づき、前記撮影範囲の一部を表すデータであって、前記話者特定ステップで特定された前記話者と、前記対象物特定ステップで特定された前記特定対象物とのそれぞれを表すデータである部分画像データを生成する部分画像データ生成ステップと、前記部分画像データ生成ステップによって生成された前記部分画像データを出力する出力ステップとを端末装置のコントローラに実行させるための指示を含む。第３態様の情報提示プログラムは、コンピュータに実行させることにより、撮影手段の撮影範囲を切り替えることなく、話者及び特定対象物に注目した画像を表す部分画像データを生成し、出力することができる。

テレビ会議システム１の構成図である。端末装置３０の電気的構成を示すブロック図である。テレビ会議の参加者Ａ，Ｂ，Ｃの配置と、資料１１１から１１３の配置と、ホワイトボード１０１の配置と、カメラ３５２の配置と、カメラ３５２の撮影範囲２０１との説明図である。テレビ会議の参加者が発話する期間を例示する具体例の説明図である。メイン処理のフローチャートである。参加者ＩＤと、平均会話時間と、平均会話間隔と、主催フラグと、削除判定時間とを含む情報を記憶する参加者テーブルである。画像データによって表される画像２１１の説明図である。図５のメイン処理で実行される情報登録処理のフローチャートである。話者に関する情報として、参加者ＩＤと、最小矩形領域を特定するための左上点及び右下点と、登録時刻と、発話フラグとを含む登録情報を記憶する表示領域テーブルである。図５のメイン処理で実行される表示領域テーブル更新処理のフローチャートである。部分画像データによって表される画像２１２の説明図である。話者に関する情報として、参加者ＩＤと、最小矩形領域を特定するための左上点及び右下点と、登録時刻と、発話フラグとを含む登録情報を記憶する表示領域テーブルである。部分画像データによって表される画像２１３の説明図である。メイン処理のフローチャートである。対象物ＩＤと、種別と、画像データとを含む情報を記憶する登録対象物テーブルである。図１４のメイン処理で実行される情報登録処理のフローチャートである。画像データによって表される画像２１４の説明図である。ホワイトボード操作処理のフローチャートである。図１４のメイン処理で実行される表示領域テーブル更新処理のフローチャートである。

以下、第１及び第２の実施形態のテレビ会議システム１について、図面を参照して順に説明する。参照される図面は、本発明が採用しうる技術的特徴を説明するために用いられるものであり、記載されている装置の構成、各種処理のフローチャート等は、それのみに限定する趣旨ではなく、単なる説明例である。

図１を参照して、第１及び第２の実施形態のテレビ会議システム１に共通する概略構成について説明する。テレビ会議システム１は、複数の端末装置３０を含み、これらの装置は通信網２（例えば、インターネット）を介して相互に接続している。図１には、複数の端末装置３０として、端末装置３１から３４の４台の端末装置が図示されているが、端末装置３０の数は４台に限られない。以下では、複数の端末装置３０を総称する場合、及び複数の端末装置３０のうちいずれかを特定せずに指す場合には、「端末装置３０」という。また、端末装置３０において実行される処理を説明するために、注目する１つの端末装置３０を「自装置３０」ともいう。複数の端末装置３０の中の、自装置３０以外の端末装置３０を「他の端末装置３０」ともいう。

図２を参照して、第１及び第２の実施形態の端末装置３０に共通する構成について説明する。本実施形態では、端末装置３０の一例として、汎用のノート型パーソナルコンピュータが採用されている。図２に示すように、端末装置３０は、ＣＰＵ３００と、ＲＯＭ３０１と、ＲＡＭ３０２と、入出力（Ｉ／Ｏ）インタフェイス３０４と、外部通信インタフェイス（Ｉ／Ｆ）３０５と、ハードディスク装置（ＨＤＤ）３１０と、ビデオコントローラ３２１と、ディスプレイ３２２と、キーコントローラ３２３と、キーボード３２４と、マイク３３１と、スピーカ３３２と、ＣＤ−ＲＯＭドライブ３４０と、ＵＳＢインタフェイス３５０とを備えている。

ＲＯＭ３０１と、ＲＡＭ３０２と、Ｉ／Ｏインタフェイス３０４とは、それぞれＣＰＵ３００に接続されている。外部通信Ｉ／Ｆ３０５と、ＨＤＤ３１０と、ビデオコントローラ３２１と、キーコントローラ３２３と、マイク３３１と、スピーカ３３２と、ＣＤ−ＲＯＭドライブ３４０と、ＵＳＢインタフェイス３５０とは、それぞれＩ／Ｏインタフェイス３０４に接続されている。ディスプレイ３２２は、ビデオコントローラ３２１に接続されている。キーボード３２４は、キーコントローラ３２３に接続されている。

ＵＳＢインタフェイス３５０は、外部機器とユニバーサル・シリアル・バスで接続するコントローラである。ＵＳＢインタフェイス３５０には、マウス３５１と、カメラ３５２とがそれぞれＵＳＢケーブルで接続されている。本実施形態では、カメラ３５２として、撮像した画像データを通信網２へリアルタイムで出力可能な小型・軽量の汎用カメラ（いわゆる、ＷＥＢカメラ）が採用されている。外部通信Ｉ／Ｆ３０５は、通信網２を介してデータ送受信を行うコントローラである。本実施形態では、外部通信Ｉ／Ｆ３０５は、テレビ会議の実行時に、他の端末装置３０との間で音声データと、画像データとを含むデータの送受信を行う。

ＣＰＵ３００は、ＲＯＭ３０１と、ＨＤＤ３１０とに記憶された各種プログラムを実行することにより、端末装置３０の動作を制御する。ＲＯＭ３０１は、端末装置３０を動作させるためのプログラムと初期値等を記憶している。ＲＡＭ３０２は、ＣＰＵ３００が各種処理を実行する際、演算結果等のデータを一時的に記憶する。ＨＤＤ３１０は、大容量の記憶装置である。ＨＤＤ３１０には、後述するメイン処理用のプログラム等、ＣＰＵ３００によって実行される各種処理用のプログラムと、各種処理で使用されるデータベースとが記憶されている。また、ＨＤＤ３１０には、他の端末装置３０との間で送受信される各種データ等も記憶される。各種データには、例えば、画像データと、音声データとがある。画像データには、カメラ３５２又は他の端末装置３０から取得される画像データと、全体画像データと、部分画像データとがある。全体画像データは、カメラ３５２から出力される画像データが表す撮影範囲を表すデータである。本実施形態の全体画像データは、カメラ３５２から出力された画像データに圧縮処理等が施されたデータである。部分画像データは、画像データによって表される撮影範囲のうち、一部の範囲を表すデータであって、話者と、特定対象物とのそれぞれを表すデータである。本実施形態の部分画像データは、圧縮処理されている。特定対象物は、画像データが表す対象物のうちの、話者が注目する対象物である。音声データは、マイク３３１又は他の端末装置３０から取得される。

ＣＤ−ＲＯＭドライブ３４０には、ＣＰＵ３００によって実行される各種処理用のプログラムを記憶したＣＤ−ＲＯＭ３４１が挿入可能である。端末装置３０では、ＣＤ−ＲＯＭドライブ３４０からこれらのプログラムが読み込まれ、ＨＤＤ３１０にセットアップされる。プログラムは、通信網２経由で外部機器からダウンロードされたものがＨＤＤ３１０にセットアップされてもよい。

図３を参照して、自装置３０が使用される会議環境（以下、「自拠点」ともいう。）の具体例について説明する。図３に示す自拠点では、３人の参加者が、テーブル１０２を囲んで着席している。３人の参加者を、紙面左奥から反時計回りに、Ａ，Ｂ，及びＣとする。３人の参加者のうち、参加者Ａを、自拠点のテレビ会議の主催者であるとする。テーブル１０２上の各参加者の前方となる位置には、矩形の紙資料が配置されている。紙資料の大きさは、例えば、日本工業規格のＡ４サイズである。テーブル１０２の奥側にある壁には、矩形のホワイトボード１０１が配置されている。参加者は、必要に応じて、ホワイトボード１０１を使用可能である。自装置３０に接続されるカメラ３５２は、例えば、図３のように、紙面手前側に配置される。カメラ３５２の撮影範囲２０１には、参加者Ａ，Ｂ，Ｃの少なくとも頭部と、資料１１１から１１３の全体と、ホワイトボード１０１の全体とが収まる。本実施形態では、カメラ３５２の撮影範囲２０１は、テレビ会議開始前に調整される。カメラ３５２の撮影範囲２０１は、メイン処理が実行されている期間中、一定に維持される。図３では、自装置３０及び自装置３０とカメラ３５２とを接続するＵＳＢケーブルを図示していないが、自装置３０は、例えば、テーブル１０２上のカメラ３５２に隣接する位置に配置される。

次に、第１の実施形態のメイン処理の概要を説明する。第１の実施形態のメイン処理は、テレビ会議システム１において、テレビ会議専用のアプリケーションが起動されている期間実行される処理である。より具体的には、メイン処理では、話者の発話状況に応じて全体画像データ及び部分画像データのいずれかを、他の端末装置３０に送信する処理が実行される。テレビ会議システム１内で実行される処理のうち、音声データを送受信する処理と、画像を表すデータ（例えば、全体画像データ及び部分画像データ）を受信する処理と、音声データ及び画像データを再生する処理とについては、メイン処理とは別途実行される。

次に、図４から図１３を参照して、第１の実施形態のメイン処理を説明する。図３の具体例において、図４のように、参加者Ａと、参加者Ｃとのそれぞれが異なる期間に発話した場合を想定する。図４に示すように、時間Ｔ１から時間Ｔ２までの期間は、参加者Ａが発話した期間である。時間Ｔ３から時間Ｔ５までの期間は、参加者Ｃが発話した期間である。時間Ｔ２から時間Ｔ４までの期間は、参加者Ａの削除判定時間の長さと等しいとする。削除判定時間については、後述する。図５のフローチャートに示す各処理を実行させるプログラムは、図２のＲＯＭ３０１又はＨＤＤ３１０に記憶されており、テレビ会議専用のアプリケーションが起動された場合にＣＰＵ３００が実行する。以下の説明では、例示する画像の長手方向を画像の左右方向ともいう。画像の長手方向に直交する方向を画像の上下方向ともいう。

図５のメイン処理ではまず、ＣＰＵ３００は、参加者情報を取得し、参加者情報を参加者テーブルに記憶させる（Ｓ１０）。参加者情報は、例えば、テレビ会議専用のアプリケーションが起動される際に、テレビ会議の参加者によって入力される。具体例では、参加者情報として、参加者ＩＤと、主催者であるか否かを示す情報とが取得され、取得された情報は図６に示す参加者テーブルに記憶される。参加者テーブルは、例えば、ＲＡＭ３０２に記憶されており、参加者ＩＤと、平均会話時間と、平均会話間隔と、主催フラグと、削除判定時間とを含む。参加者ＩＤは、自拠点の参加者を識別するデータである。具体例では、参加者ＩＤとして、上述のＡ，Ｂ，及びＣが取得される。平均会話時間は、参加者毎に算出された、会話時間の平均値である。会話時間は、発話が連続して検出される期間の長さを表す。平均会話間隔は、参加者毎に算出された、会話間隔の平均値である。会話間隔は、同一の参加者が一旦発話を終了してから、次の発話を開始するまでの時間の平均値である。平均会話時間と、平均会話間隔とは、それぞれ参加者の発話状況に応じて、随時更新される。主催フラグは、自拠点のテレビ会議の主催者であるか否かをそれぞれＯＮ／ＯＦＦで表す情報である。具体例では、参加者Ａの主催フラグは、ＯＮに設定され、参加者Ｂ，及びＣの主催フラグは、ＯＦＦに設定される。削除判定時間は、参加者の発話状況に基づき、話者を特定する処理に用いられる。本実施形態では、発話中及び発話終了後所定時間経過前の状態にある人物を話者とする。平均会話時間と、平均会話間隔と、削除判定時間とには、初期値が設定されてもよい。

削除判定時間は、平均会話時間と、平均会話間隔と、主催フラグとを考慮して、参加者毎に算出され、随時更新される。削除判定時間は、例えば、式（１）に従って算出される。
（平均会話時間）／（会話時間の平均）×（平均会話間隔）／（会話間隔の平均）×（所定時間）×（主催フラグの値に応じた重み）・・・式（１）
式（１）において、会話時間の平均は、自拠点の参加者の会話時間の平均値である。会話間隔の平均は、自拠点の参加者の会話間隔の平均値である。所定時間は、例えば、４ｓｅｃである。主催フラグの値に応じた重みは、例えば、主催フラグＯＮの場合は、１．５であり、主催フラグＯＦＦの場合は、１．０である。図５のメイン処理には図示しないが、参加者の発話状況に応じて平均会話時間及び平均会話間隔を随時更新するために、ＣＰＵ３００は、発話の開始時刻と、発話の終了時刻とをそれぞれＲＡＭ３０２に記憶させている。

次に、ＣＰＵ３００は、カメラ３５２から出力される画像データを取得し、取得した画像データをＲＡＭ３０２に記憶させる（Ｓ１５）。具体例において、図７の画像２１１を表す画像データが取得された場合を想定する。図７の画像２１１が表す人物及び物体と、図３の撮影範囲２０１に配置された人物及び物体との対応は以下の通りである。ホワイトボード画像４０１は、ホワイトボード１０１を表す。テーブル画像４０２は、テーブル１０２を表す。資料画像４１１は、資料１１１を表す。資料画像４１２は、資料１１２を表す。人物画像４５１は、参加者Ａを表す。人物画像４５２は、参加者Ｂを表す。人物画像４５３は、参加者Ｃ表す。

次に、ＣＰＵ３００は、話者を検出する（Ｓ２０）。ステップＳ２０では、ＣＰＵ３００は、発話中の人物を話者として検出し、話者を表す人物画像と、話者の参加者ＩＤとを特定する。話者は、公知の方法を用いて適宜検出されればよい。例えば、ＣＰＵ３００は、ステップＳ１５で取得した画像データによって表される人物画像４５１から４５３のうち、口が動いていると判断した人物画像を、話者の人物画像として検出してもよい。他の例では、ＣＰＵ３００は、マイク３３１から出力される音声データに基づき音源方向を特定する。ＣＰＵ３００は、ステップＳ１５で取得した画像データによって表される人物画像４５１から４５３のうち、音源方向に配置された人物画像を、話者の人物画像として特定してもよい。これらの場合、話者と、参加者ＩＤとは、例えば次のように対応付ければよい。ステップＳ１０で、参加者情報として、参加者の座席の配置を取得する場合には、ＣＰＵ３００は、画像データによって表される画像中の人物画像の位置に基づき、話者と参加者ＩＤとを対応付ければよい。ステップＳ１０で、参加者情報として、参加者の頭部を表す照合用画像を取得する場合には、ＣＰＵ３００は、画像照合によって、話者と参加者ＩＤとを対応付ければよい。他の例では、参加者情報として、参加者の声を表す音声データを取得する場合には、ＣＰＵ３００は、音声照合によって、話者を検出してもよい。

次に、ＣＰＵ３００は、ステップＳ２０で話者を検出したか否かを判断する（Ｓ３０）。図４の時間Ｔ１から時間Ｔ２までの期間では、話者として参加者Ａが検出される（Ｓ３０：ＹＥＳ）。この場合、ＣＰＵ３００は、情報登録処理を実行する。情報登録処理では、ＣＰＵ３００は、ステップＳ１５で取得した画像データに基づき、話者の頭部を表す範囲と、特定対象物全体を表す範囲とを含む最小矩形範囲を特定する。図８を参照して、情報登録処理を説明する。

図８に示すように、情報登録処理では、ＣＰＵ３００はまず、画像データに基づき、所定範囲内に配置されている対象物を検出する（Ｓ４２）。図７に示す画像２１１では、ステップＳ４２の所定範囲は、人物画像４５１を基準として、範囲２２１のように設定される。人物の輪郭線の抽出は、公知の方法（例えば、特開２０１０−２３１４６２公報参照）を用いて実行される。範囲２２１の輪郭線は、人物画像４５１の輪郭線から所定距離外側にある。所定距離は、例えば、実空間で１０ｃｍに相当する距離である。ステップＳ４２で検出される対象物は、参加者がテレビ会議中に注目する可能性があると想定される物体である。ステップＳ４２では、例えば、予め登録された形状の物体であるか否かに基づき対象物が検出される。本実施形態では、ＣＰＵ３００は、所定範囲内に少なくとも一部が配置されている矩形の物体を対象物として検出する。物体の形状は、実空間において物体と重なる他の物体の存在を考慮して検出される。ただし、ＣＰＵ３００は、テーブル１０２は、対象物から除外する。具体例では、資料画像４１１が対象物をとして検出される。

次に、ＣＰＵ３００は、画像データに基づき、話者の手の形状及び位置を検出する（Ｓ４４）。ステップＳ４４は、公知の手法（例えば、特開２００５−１２２４９２号公報参照）を用いて実行される。次に、ＣＰＵ３００は、話者が対象物を操作しているか否かを判断する（Ｓ４６）。本実施形態では、話者が操作している対象物（以下、「操作対象物」ともいう。）を、話者が注目する対象物とする。具体的には、ＣＰＵ３００は、ステップＳ４２及びステップＳ４４の検出結果に基づき、話者の手の位置が、対象物と重なっていると判断される場合を、話者が対象物を操作していると判断する（Ｓ４６：ＹＥＳ）。またＣＰＵ３００は、ステップＳ４２及びステップＳ４４の検出結果に基づき、話者の手（指）が伸びる方向に対象物がある場合を、話者が対象物を操作していると判断する（Ｓ４６：ＹＥＳ）。話者の手が伸びる方向は、例えば、話者の手の形状を矩形に近似した場合の、矩形の長手方向のうちの、手先側に向かう方向とする。

具体例では、参加者Ａの手は、資料１１１と重なっていると判断される（Ｓ４６：ＹＥＳ）。この場合、ＣＰＵ３００は、操作対象物が複数あるか否かを判断する（Ｓ４８）。具体例では、資料１１１のみが操作対象物であると判断される（Ｓ４８：ＮＯ）。この場合、ＣＰＵ３００は、資料１１１を、特定対象物として特定する（Ｓ４９）。ＣＰＵ３００は、操作対象物が複数ある場合（Ｓ４８：ＹＥＳ）、それら複数の対象物の中から、１つの対象物を特定対象物として特定する。複数の対象物の中から、１つの対象物を選定する方法は適宜決定されればよい。本実施形態では、話者の手よりも大きい対象物のうち、最小の対象物を特定対象物として特定する。

ステップＳ４９及びステップＳ５０のいずれかの次に、ＣＰＵ３００は、表示領域テーブルを更新し、更新した表示領域テーブルをＲＡＭ３０２に記憶させる（Ｓ５２）。表示領域テーブルは、部分画像データが表す範囲を決定する処理に用いられるテーブルである。図９に示すように、表示領域テーブルは、参加者ＩＤと、最小矩形範囲を特定する座標と、登録時刻と、発話フラグとを含む情報を記憶する。

最小矩形範囲は、画像データによって表される画像全体のうちの一部の範囲であり、第１範囲全体と、第２範囲全体とを含む矩形範囲のうち、最小の範囲である。第１範囲は、特定対象物全体のうちの話者が注目する範囲のうち第１所定割合以上の範囲である。第１所定割合は、例えば、話者が注目する範囲の大きさと、属性（例えば、色及び形状）といった条件を考慮して適宜定められる。第１所定割合とは、好ましくは、８割以上の値であり、さらに好ましくは９割以上の値である。第２範囲は、話者の頭部全体のうちの第２所定割合以上の範囲である。第２所定割合は、話者を他の参加者と区別することと、話者の表情を把握することといった条件を考慮して適宜定められる。第２所定割合とは、好ましくは、８割以上の値であり、さらに好ましくは９割以上の値である。さらに第２範囲には、話者の顔が含まれていることが好ましい。本実施形態の第１及び第２所定割合は、１０割とする。第１所定割合と、第２所定割合とは、同じ値であってもよいし、異なる値であってもよい。最小矩形範囲を特定する座標は、例えば、最小矩形範囲の左上点と、右上点とを表す画像座標系の座標である。画像座標系は、画像上に設定された座標系であり、図７には画像座標系のＸ軸とＹ軸とを示している。具体例では、範囲２３１を特定する座標として、点２４１の座標（Ｘ１，Ｙ１）と、点２４２の座標（Ｘ２，Ｙ２）とが、表示領域テーブルに記憶される。

登録時刻は、最小矩形範囲を特定する座標が表示領域テーブルに記憶（更新を含む）された時刻である。発話フラグは、参加者ＩＤで特定される話者に発話が確認されたか否かを表すデータである。発話フラグがＯＮである場合、参加者ＩＤで示される話者に発話が確認されたことを示す。

ＣＰＵ３００は、ステップＳ５２では、話者に対応する参加者ＩＤを含む登録情報が、既に表示領域テーブルに記憶されている場合、その登録情報を更新する。話者に対応する参加者ＩＤを含む登録情報が、表示領域テーブルに記憶されていない場合、話者に対応する参加者ＩＤを含む登録情報を表示領域テーブルに追加する。表示領域テーブルに複数の登録情報が記憶されている場合、ＣＰＵ３００は、ステップＳ２０で発話が検出された話者の登録情報以外の登録情報については、発話フラグをＯＦＦに設定する。

ステップＳ４６において、話者が対象物を操作していないと判断される場合（Ｓ４６：ＮＯ）、又はステップＳ５２の次に、ＣＰＵ３００は、情報登録処理を終了し、処理はメイン処理に戻る。このように、本実施形態では、話者が対象物を操作していないと判断される場合には、ＣＰＵ３００は、表示領域テーブルの更新を実行しない。

図５に示すメイン処理において、ステップＳ２０で話者が検出されなかった場合（Ｓ３０：ＮＯ）、ＣＰＵ３００は、表示領域テーブルの発話フラグの値を全てＯＦＦに設定し、表示領域テーブルを更新する（Ｓ３５）。ステップＳ３５又はステップＳ４０の次に、ＣＰＵ３００は、参加者テーブルを更新し、更新した参加者テーブルをＲＡＭ３０２に記憶させる（Ｓ９０）。ＣＰＵ３００は、ステップＳ９０では、いずれかの参加者が新たに発話を開始した場合に、平均会話間隔及び削除判定時間を更新する。ＣＰＵ３００は、ステップＳ９０では、いずれかの参加者が発話を終了した場合に、平均会話時間及び削除判定時間を更新する。

次に、ＣＰＵ３００は、表示領域テーブル更新処理を実行する（Ｓ１００）。ＣＰＵ３００は、表示領域テーブル更新処理では、発話が終了してから削除判定時間以上経過した参加者の登録情報を、表示領域テーブルから削除する。図１０を参照して、表示領域テーブル更新処理の詳細を説明する。図１０に示すように、表示領域テーブル更新処理では、ＣＰＵ３００は、表示領域テーブルのＮ番目の登録情報の発話フラグがＯＦＦであるか否かを判断する（Ｓ１０２）。Ｎは、登録情報を順に読み出すための、１以上の自然数である。Ｎの初期値は、１である。図９の表示領域テーブルでは、紙面上から順に各登録情報に読み出し順序が付与されている。図９の表示領域テーブルの１番目の登録情報の発話フラグはＯＮである（Ｓ１０２：ＮＯ）。この場合、ＣＰＵ３００は、Ｎ番目の登録情報が、表示領域テーブルに含まれる最後の登録情報か否かを判断する（Ｓ１２４）。図９の表示領域テーブルの１番目の登録情報は、最後の登録情報である（Ｓ１２４：ＹＥＳ）。この場合、ＣＰＵ３００は、表示領域テーブル更新処理を終了し、処理は図５のメイン処理に戻る。Ｎ番目の登録情報は、最後の登録情報ではない場合（Ｓ１２４：ＮＯ）、ＣＰＵ３００は、Ｎをインクリメントし、処理はステップＳ１０２戻る。

Ｎ番目の登録情報の発話フラグがＯＦＦである場合（Ｓ１０２：ＹＥＳ）、ＣＰＵ３００は、Ｎ番目の登録情報について、登録時刻から削除判定時間が経過しているか否かを判断する（Ｓ１０４）。登録時刻から削除判定時間が経過している場合（Ｓ１０４：ＹＥＳ）、ＣＰＵ３００は、Ｎ番目の登録情報を表示領域テーブルから削除し、表示領域テーブルをＲＡＭ３０２に記憶させる（Ｓ１０６）。登録時刻から削除判定時間が経過していない場合（Ｓ１０４：ＮＯ）、又はステップＳ１０６の次に、ＣＰＵ３００は、前述のステップＳ１２４の処理を実行する。

図５のメイン処理において、ステップＳ１００の次に、ＣＰＵ３００は、表示領域テーブルに、登録情報が記憶されているか否かを判断する（Ｓ１３０）。表示領域テーブルに登録情報が記憶されている場合は（Ｓ１３０：ＹＥＳ）、話者と、特定対象物との双方が特定された場合である。図９に示す具体例の表示領域テーブルには、１つの登録情報が記憶されている（Ｓ１３０：ＹＥＳ）。この場合、ＣＰＵ３００は、部分画像データを生成し、生成した部分画像データをＲＡＭ３０２に記憶させる（Ｓ１４０）。部分画像データが表す画像（以下、「部分画像」ともいう。）の形状は、ステップＳ１５で取得された画像データが表す画像と同じアスペクト比を有する矩形（以下、「合同矩形」ともいう。）である。部分画像には、表示領域テーブルの最小矩形範囲全体が含まれる。部分画像が表す範囲は、表示領域テーブルの最小矩形範囲全体の割合が最大となるように設定される。具体例では、部分画像に占める範囲２３１全体の割合が最大となる範囲を表し、且つ、合同矩形の部分画像として、図１１の画像２１２を表すデータを圧縮処理することによって、部分画像データが生成される。画像２１２には、資料画像４１１全体と、頭部画像４６１全体とが含まれる。頭部画像４６１は、参加者Ａの頭部を表す。

ステップＳ１３０において、表示領域テーブルに、登録情報が記憶されていない場合（Ｓ１３０：ＮＯ）、ＣＰＵ３００は、ステップＳ１５で取得した画像データに基づき全体画像データを生成し、生成した全体画像データをＲＡＭ３０２に記憶させる（Ｓ１５０）。全体画像データは、例えば、画像データを圧縮処理することによって生成される。ステップＳ１４０又はステップＳ１５０の次に、ＣＰＵ３００は、画像データを他の端末装置３０に送信する（Ｓ１６０）。ステップＳ１４０で部分画像データが生成された場合には、ステップＳ１６０では、ＣＰＵ３００は部分画像データを他の端末装置３０に送信する。ステップＳ１５０で全体画像データが生成された場合には、ステップＳ１６０では、ＣＰＵ３００は全体画像データを他の端末装置３０に送信する。ＣＰＵ３００は、アプリケーションを終了する指示を取得したか否かを判断する（Ｓ１７０）。アプリケーションを終了する指示は、例えば、自拠点の参加者が入力するか、又は他の端末装置３０からテレビ会議終了の指示が送信された場合に取得される。ＣＰＵ３００がアプリケーションを終了する指示を取得していない場合（Ｓ１７０：ＮＯ）、処理はステップＳ１５に戻る。ＣＰＵ３００がアプリケーションを終了する指示を取得した場合（Ｓ１７０：ＹＥＳ）、メイン処理は終了する。

図４の時間Ｔ３において、ＣＰＵ３００が、図７に示す画像２１１を表す画像データを取得し（Ｓ１５）、話者として参加者Ｃを検出した場合（Ｓ２０，Ｓ３０：ＹＥＳ）を想定する。この場合、図８に示す情報登録処理では、ＣＰＵ３００は、画像データに基づき、図７の範囲２２２内に配置されている資料１１２を検出する（Ｓ４２）。ＣＰＵ３００は、参加者Ｃの手が伸びる方向６０１に１つの資料１１２が配置されていると判断する（Ｓ４６：ＹＥＳ、Ｓ４８：ＮＯ）。したがって、ＣＰＵ３００は、資料１１２を、特定対象物として特定する（Ｓ４９）。次に、ＣＰＵ３００は、図１２に示すように、表示領域テーブルに、参加者Ｃに関する登録情報を追加し、表示領域テーブルをＲＡＭ３０２に記憶させる（Ｓ５２）。ステップＳ５２では、範囲２３２を特定する座標として、点２４３の座標（Ｘ３，Ｙ３）と、点２４４の座標（Ｘ４，Ｙ４）とが、表示領域テーブルに記憶される。次に、ＣＰＵ３００は、情報登録処理を終了し、処理はメイン処理に戻る。

図５に示すメイン処理において、ＣＰＵ３００は、参加者テーブルを更新した後（Ｓ９０）、表示領域テーブルを更新する（Ｓ１００）。図４の時間Ｔ３の時点では、図１２の１番目の登録情報の登録時刻から削除判定時間経過していない（図１０のＳ１０２：ＹＥＳ，Ｓ１０４：ＮＯ）。したがって、時間Ｔ３の時点では、図１２に示すように、表示領域テーブルには２つの登録情報が含まれる（Ｓ１３０：ＹＥＳ）。この場合、ＣＰＵ３００は、例えば、図１３の画像２１３を表す部分画像データを生成する（Ｓ１４０）。図１３に示すように、画像２１３には、範囲２３１の全体と、範囲２３２の全体とが含まれている。画像２１３が表す範囲は、画像２１３に占める範囲２３１と、範囲２３２との割合が最大となる合同矩形の範囲である。

図４の時間Ｔ４において、ＣＰＵ３００が、図７に示す画像２１１を表す画像データを取得し（Ｓ１５）、話者として参加者Ｃを検出した場合（Ｓ２０，Ｓ３０：ＹＥＳ）を想定する。この場合、図１２の１番目の登録情報の登録時刻から削除判定時間経過している（図１０のＳ１０２：ＹＥＳ，Ｓ１０４：ＹＥＳ）。したがって、時間Ｔ４の時点では、表示領域テーブルには１つの登録情報が含まれる（Ｓ１３０：ＹＥＳ）。この場合、ＣＰＵ３００は、図示しないが、範囲２３２全体の割合が最大値となる合同矩形の画像を表す部分画像データを生成する（Ｓ１４０）。

以上のように第１の実施形態の端末装置３０は、メイン処理を実行する。他の端末装置３０では、受信した全体画像データ又は部分画像データに基づき、テレビ会議専用アプリケーションの所定の表示領域に全体画像又は部分画像が表示される。全体画像は、全体画像データによって表される画像である。通常、全体画像と、部分画像とは、上記所定の表示領域に、同じ大きさで表示されるので、部分画像は、全体画像の一部を拡大した画像として視認される。

第１の実施形態の端末装置３０において、カメラ３５２は、本発明の「撮影手段」に相当する。図５のステップＳ１５は、本発明の「画像データ取得ステップ」に相当する。ステップＳ１５を実行するＣＰＵ３００は、本発明の「画像データ取得手段」として機能する。ステップＳ２０と、ステップＳ４０と、ステップＳ１００と、ステップＳ１３０とは、本発明の「話者特定ステップ」に相当する。ステップＳ２０と、ステップＳ４０と、ステップＳ１００と、ステップＳ１３０とを実行するＣＰＵ３００は、本発明の「話者特定手段」として機能する。図８のステップＳ４９と、ステップＳ５０とは、本発明の「対象物特定ステップ」に相当する。ステップＳ４９と、ステップＳ５０とを実行するＣＰＵ３００は、本発明の「対象物特定手段」として機能する。ステップＳ１４０は、本発明の「部分画像データ生成ステップ」に相当する。ステップＳ１４０を実行するＣＰＵ３００は、本発明の「部分画像データ生成手段」として機能する。ステップＳ１６０は、本発明の「出力ステップ」に相当する。ステップＳ１６０を実行するＣＰＵ３００は、本発明の「出力手段」として機能する。合同矩形は、本発明の「所定形状」に相当する。削除判定時間は、本発明の「所定時間」に相当する。

第１の実施形態の端末装置３０は、撮影範囲２０１を切り替えることなく、話者及び特定対象物に注目した画像を表す部分画像データを生成し、出力することができる。より具体的には、端末装置３０は、図１１の画像２１２のように、部分画像に占める、話者の頭部全体を表す範囲と、特定対象物全体を表す範囲とのそれぞれの割合を最も大きくすることができる。本実施形態で例示したテレビ会議システム１では、他拠点での会議の様子は、主に、他拠点から送信される画像データと、音声データとに基づき把握される。即ち、テレビ会議システム１は、画像データと、音声データとを主な情報源として提供することによって、参加者に他拠点の会議の様子を伝えなければならないという特有の課題がある。端末装置３０によれば、参加者は、部分画像によって、テレビ会議の参加者が他拠点での会議の様子を把握する上で重要な情報として、話者がどのような表情で、何に注目して発話をしたかを適切に把握することができる。また、端末装置３０によれば、話者は、自分の表情及び自分が注目する対象物を、参加者に伝えることができる。

特定対象物の特定方法について、端末装置３０は、話者から所定距離内にある対象物のうち、話者の手と重なる対象物及び話者の手（指）が伸びる方向にある対象物を特定対象物として特定する。話者から所定距離内にある対象物は、話者が注目し易い対象物である。話者の手と重なる対象物は、話者が手で持ったり、話者が移動させたりと、操作の対象としている可能性の高い対象物である。話者の手が伸びる方向にある対象物は、話者が指し示している可能性が高い対象物である。したがって、端末装置３０は、上記特定基準に基づき、話者が注目する対象物を適切に特定することができる。さらに端末装置３０は、複数の対象物が特定対象物として特定されうる場合、手よりも大きい最小矩形の対象物を特定対象物として特定する。よりも大きい最小矩形の対象物は、具体的には、紙資料を想定している。端末装置３０は、テレビ会議では、紙資料を参照する機会が多いことを考慮して、特定対象物を特定することができる。

一般に、話者が話をする期間内に、話者が間を置くなどの理由によって発話がとぎれることがある。この場合、発話の有無のみに基づき話者が特定されると、話者の特定状況が頻繁に変わることになる。これに対し、端末装置３０は、話者の特定方法について、発話中及び発話終了後削除判定時間経過前の状態にある人物を話者と特定する。したがって、端末装置３０は、発話がとぎれる度に、話者の特定状況が頻繁に変わる事態を回避することができる。このように、端末装置３０は、話者及び特定対象物を特定することによって、端末装置３０は、話者及び特定対象物に注目した画像を適切に表す部分画像データを生成し、出力することができる。

さらに、端末装置３０は、話者及び特定対象物の少なくともいずれかが特定されず、表示領域テーブルに登録情報が記憶されていない場合には、撮影範囲全体を表す全体画像データを、他の端末装置３０に出力する。このため、端末装置３０は、話者及び特定対象物の特定状況に応じて、他の端末装置３０に送信するデータを切り替えることができる。端末装置３０は、図１３の画像２１３のように、話者が変わった直後の撮影範囲内の様子を的確に表す部分画像データを、他の端末装置３０に送信することができる。

次に、第２の実施形態のメイン処理を図１４から図１９を参照して説明する。まず、第２の実施形態のメイン処理の概要を説明する。第２の実施形態のメイン処理では、第１の実施形態のメイン処理と同様に、参加者の発話状況に応じて、部分画像データ及び全体画像データのいずれかを他の端末装置３０に送信する処理が実行される。第２の実施形態のメイン処理では、特定対象物が予め登録された対象物である場合に、第１のメイン処理とは異なる処理を実行する。また、第２の実施形態のメイン処理では、発話終了時から削除判定期間経過前の話者の登録情報についての処理が、第１のメイン処理とは異なる。

次に、第２の実施形態のメイン処理を説明する。第１の実施形態と同様の具体例において、図４のように、参加者Ａと、参加者Ｃとのそれぞれが異なる期間に発話した場合を想定する。図１４のフローチャートに示す各処理を実行させるプログラムは、図２のＲＯＭ３０１又はＨＤＤ３１０に記憶されており、テレビ会議専用のアプリケーションが起動された場合にＣＰＵ３００が実行する。

図１４において、図５の第１の実施形態のメイン処理と同様の処理を行う場合には、同じステップ番号を付与している。図１４に示すように、第２の実施形態のメイン処理は、ステップＳ１０の前に、ステップＳ２及びステップＳ４が実行される点と、ステップＳ１０と、ステップＳ１５との間にステップＳ１２が実行される点と、ステップＳ４０に代えてステップＳ４１が実行される点と、ステップＳ１００に代えてステップＳ１０１が実行される点とにおいて、第１の実施形態のメイン処理と異なる。第１の実施形態のメイン処理と同様な処理については説明を省略し、以下、第１の実施形態と異なる上記処理について説明する。

ステップＳ２では、ＣＰＵ３００は、登録対象物を記憶させる指示があるか否かを判断する（Ｓ２）。登録対象物は、テレビ会議の参加者によって予め端末装置３０に記憶された物体である。テレビ会議の参加者は、テレビ会議開始前に、対象物を登録対象物として記憶する指示を入力することができる。登録対象物に関する情報は、テレビ会議システム１内の一部又は全部の端末装置３０で共有されてもよいし、自装置３０のみが記憶してもよい。後述するように、第２の実施形態では、ＣＰＵ３００は、ステップＳ１５で取得した画像データに基づき撮影範囲内に登録対象物が検出された場合、登録対象物の種別に応じた処理を実行する。

登録対象物を記憶させる指示がある場合（Ｓ２：ＹＥＳ）、ＣＰＵ３００は、登録対象物テーブルを更新し、更新した登録対象物テーブルをＲＡＭ３０２に記憶させる（Ｓ４）。具体例において、図１５に示すように登録対象物テーブルが更新された場合を想定する。図１５に示すように、登録対象物テーブルは、対象物ＩＤと、種別と、登録対象物を表す画像データとを含む情報を記憶する。対象物ＩＤは、登録対象物を識別するデータである。種別は、登録対象物を表す画像データに基づき、登録対象物が検出された場合の処理を規定するデータである。本実施形態では、種別として、重要と、非表示とが設定されている。本実施形態では、話者が注目している対象物として複数の対象物が検出された場合に、それらの対象物の中から、優先して特定対象物として特定する物体の種別を「重要」とする。また、セキュリティを考慮し、部分画像を作成したくない物体の種別を「非表示」とする。登録対象物を表す画像データは、例えば、登録対象物の外観を撮影したデータである。具体例の登録対象物テーブルには、鉢植えの花を表す画像データ２５１と、鉢植えの植物を表す画像データ２５２とが記憶されているものとする。登録対象物を記憶させる指示がない場合（Ｓ２：ＮＯ）、又はステップＳ４の次に、ＣＰＵ３００は、ステップＳ１０の処理を実行する。

ステップＳ１２では、ＣＰＵ３００は、カメラ３５２から出力される画像データに基づき、参加者の特定位置を検出し、検出した特定位置を参加者ＩＤと対応付けて参加者テーブルに記憶させる（Ｓ１２）。特定位置は、参加者が着席している場合の頭部の上端の位置であり、画像座標系の座標によって表される。本実施形態では、メイン処理開始直後、即ち、テレビ会議開始直後は、自拠点の参加者全員が着席していると想定し、ステップＳ１２で取得された画像データに基づき、特定位置を検出する。特定位置は、参加者が起立したか否かを判断する処理に用いられる。特定位置の検出方法は適宜変更されてよい。例えば、ステップＳ１０において、ＣＰＵ３００は、参加者が着席しているか否かの情報を取得し、着席している参加者のみ特定位置を検出してもよい。他の例では、ＣＰＵ３００は、繰り返し実行されるステップＳ１５で取得される画像データを解析し、各参加者の頭部の位置を学習により推定してもよい。

ステップＳ４１では、ＣＰＵ３００は、図１６に示す情報登録処理を実行する。図１６において、図８の第１の実施形態の情報登録処理と同様の処理を行う場合には、同じステップ番号を付与している。図１６に示すように、第２の実施形態の情報登録処理は、ステップＳ５０に代えて、ステップＳ５１が実行される点と、ステップＳ５２に代えて、ステップＳ５４と、ステップＳ５６と、ステップＳ５８と、ステップＳ６０と、ステップＳ８０と、ステップＳ８２と、ステップＳ８４とが実行される点とにおいて、第１の実施形態の情報登録処理と異なる。第１の実施形態の情報登録処理と同様な処理については説明を簡略化又は省略し、以下、第１の実施形態と異なる上記処理について説明する。

ＣＰＵ３００が、図１７に示す画像２１４を表す画像データを取得し（Ｓ１５）、図４の時間Ｔ１から時間Ｔ２の期間に、参加者Ａを話者として検出した場合（Ｓ２０，Ｓ３０：ＹＥＳ）を想定する。図１７に示す画像２１４によって表された人物及び物体と、図３の撮影範囲２０１に配置された人物及び物体との対応は以下の通りである。ホワイトボード画像５０１は、ホワイトボード１０１を表す。テーブル画像５０２は、テーブル１０２を表す。資料画像５１１は、資料１１１を表す。人物画像５５１は、参加者Ａを表す。頭部画像５６１は、参加者Ａの頭部を表す。人物画像５５２は、参加者Ｂを表す。人物画像５５３は、参加者Ｃ表す。頭部画像５６２は、参加者Ｃの頭部を表す。花画像２８１は、図３において図示しない花を表す。植物画像２８２は、図３において図示しない植物を表す。

具体例の場合、ＣＰＵ３００は、範囲２２１内の対象物として、資料１１１と、花画像２８１が表す花とを検出する（Ｓ４２）。資料１１１は、参加者Ａの手と重なっており、花は、参加者Ａの手が伸びる方向６０２にある（Ｓ４６：ＹＥＳ，Ｓ４８：ＹＥＳ）。この場合、ＣＰＵ３００は、資料１１１と、花との中から、種別が「重要」である登録対象物を優先して特定対象物として特定する（Ｓ５１）。したがって、ＣＰＵ３００は、花を特定対象物として特定する。操作対象物のいずれも、登録対象物ではない場合、ＣＰＵ３００は、第１の実施形態のステップＳ５０と同様に、特定対象物を特定する。

花は、種別が「非表示」である登録対象物ではなく（Ｓ５４：ＮＯ）、ホワイトボードでもない（Ｓ５８：ＮＯ）。花は、種別が「重要」である登録対象物（以下、「重要対象物」ともいう。）である（Ｓ８０：ＹＥＳ）。したがって、ＣＰＵ３００は、表示領域テーブルに記憶されている登録情報を全て削除し、削除後の表示領域テーブルをＲＡＭ３０２に記憶させる（Ｓ８２）。ステップＳ８２は、優先度の高い対象物として登録された登録対象物を表す範囲全体が、部分画像に占める割合をなるべく大きくするための処理である。即ち、ステップＳ８２後、後述するステップＳ８４を実行することによって、ステップＳ１４０では新たに記憶させた１つの登録情報にのみ基づき、部分画像データが生成される。特定対象物が重要対象物ではない場合（Ｓ８０：ＮＯ）又はステップＳ８２の次に、ＣＰＵ３００は、頭部画像５６１全体と、花画像２８１全体とを含む最小矩形範囲を特定し、特定結果に基づき表示領域テーブルを更新する（Ｓ８４）。ステップＳ８４では、範囲２３３を特定する座標として、点２４５の座標と、点２４６の座標とが、表示領域テーブルに記憶される。情報登録処理は以上で終了し、処理は、図１４のメイン処理に戻る。

ステップＳ４９又はステップＳ５１で特定された特定対象物が、種別が「非表示」である登録対象物である場合（Ｓ５４：ＹＥＳ）、ＣＰＵ３００は、表示領域テーブルに記憶されている登録情報を全て削除する（Ｓ５６）。ステップＳ５６の処理が実行された場合、図１４のメイン処理のステップＳ１６０において他の端末装置３０に、全体画像データが送信される（Ｓ１３０：ＮＯ，Ｓ１５０，Ｓ１６０）。即ち、種別が「非表示」である登録対象物が拡大された部分画像データは生成されない。

ＣＰＵ３００が、図１７に示す画像２１４を表す画像データを取得し（Ｓ１５）、参加者Ｃを話者として検出した場合（Ｓ２０，Ｓ３０：ＹＥＳ）を想定する。この場合、ステップＳ４２では、ＣＰＵ３００は、範囲２２３内の対象物として、ホワイトボード１０１を検出する。ホワイトボード１０１は、参加者Ｃの手と重なっており、且つ、参加者Ｃの手が伸びる方向にある（Ｓ４６：ＹＥＳ，Ｓ４８：ＮＯ，Ｓ４９，Ｓ５４：ＮＯ，Ｓ５８：ＹＥＳ）。この場合、ＣＰＵ３００は、ホワイトボード操作処理を実行する（Ｓ６０）。

図１８を参照して、ホワイトボード操作処理の詳細を説明する。図１８に示すように、ホワイトボード操作処理ではまず、ＣＰＵ３００は、図１４のステップＳ１５で取得した画像データに基づき、対象人物の顔の位置を検出する（Ｓ６２）。図１６のステップＳ６０で実行されるホワイトボード操作処理における対象人物は、ステップＳ２０で検出された話者である。対象人物の顔の位置は、例えば、対象人物の頭部の上端とする。図１７の具体例では、対象人物の顔の位置として、位置２６３が検出される。

次に、ＣＰＵ３００は、対象人物の顔の位置が、対象人物の特定位置よりも高い位置にあるか否かを判断する（Ｓ６４）。前述のように、参加者毎の特定位置は、図１４のステップＳ１２で検出され、参加者テーブルに記憶されている。図１７に示すように、具体例では、位置２６３は、参加者Ｃの特定位置２６２よりも紙面上方にある（Ｓ６４：ＹＥＳ）。この場合、ＣＰＵ３００は、対象人物の手と重なるブロック２７１を検出する（Ｓ６８，Ｓ７０：ＹＥＳ）。ブロックは、レイアウト解析により検出されたテキスト及び図形領域の少なくとも一部を含み、ホワイトボード画像５０１の一部分である。ブロックの内部には、ホワイトボード１０１に書かれた文字、又は、ホワイトボード１０１に描かれた図形が表されている。ホワイトボード画像５０１全体のうち、ブロック２７１で表される範囲は、参加者Ｃが注目していると想定される範囲である。この場合、ＣＰＵ３００は、頭部画像５６２全体と、ブロック２７１全体とを含む範囲２３４を、最小矩形範囲として特定し、その特定結果に基づき、表示領域テーブルを更新する（Ｓ７２）。ステップＳ７２では、範囲２３４を特定する座標として、点２４７の座標と、点２４８の座標とが、表示領域テーブルに記憶される。

ステップＳ６８においてブロックが検出されなかった場合（Ｓ７０：ＮＯ）、ＣＰＵ３００は、頭部画像５６２全体と、ホワイトボード画像５０１全体とを含む範囲を、最小矩形範囲として特定し、特定結果に基づき、表示領域テーブルを更新する（Ｓ７４）。ステップＳ６４において、対象人物の顔の位置が、特定位置以下である場合（Ｓ６４：ＮＯ）と、ステップＳ７２と、ステップＳ７４とのいずれかの次に、ホワイトボード操作処理は終了し、処理は図１６の情報登録処理に戻る。図１６に示す情報登録処理において、ステップＳ５６又はステップＳ６０の次に、情報登録処理は終了し、処理は図１４のメイン処理に戻る。

図１４に示すメイン処理のステップＳ１０１では、ＣＰＵ３００は、図１９に示す表示領域テーブル更新処理を実行する。図１９において、図１０の第１の実施形態の表示領域テーブル更新処理と同様の処理を行う場合には、同じステップ番号を付与している。図１９に示すように、第２の実施形態の表示領域テーブル更新処理は、ステップＳ１０６に代えて、ステップＳ１０８と、ステップＳ１１０と、ステップＳ１１２と、ステップＳ１１４と、ステップＳ１１６と、ステップＳ１１８と、ステップＳ１２０と、ステップＳ１２２とが実行される点において、第１の実施形態の表示領域テーブル更新処理と異なる。第１の実施形態の表示領域テーブル更新処理と同様な処理については説明を簡略化又は省略し、以下、第１の実施形態と異なる上記処理について説明する。図示しないが、第２の実施形態の表示領域テーブルには、第１の実施形態の表示領域に含まれる項目に加え、特定対象物を識別するためのデータとして、特定対象物ＩＤが記憶されているものとする。

ＣＰＵ３００が、図１７に示す画像２１４を表す画像データを取得し（Ｓ１５）、図４の時間Ｔ３に、参加者Ｃを話者として検出した場合（Ｓ２０，Ｓ３０：ＹＥＳ）を想定する。この場合、表示領域テーブルには、図９のように、参加者Ａ及びＣの登録情報が記憶されている。図９のように、１番目の登録情報の発話フラグはＯＦＦであるが（Ｓ１０２：ＹＥＳ）、時間Ｔ３の時点では参加者Ａの発話が終了してから削除判定時間は経過していない（Ｓ１０４：ＮＯ）。この場合、ＣＰＵ３００は、Ｎ番目の登録情報に含まれる参加者ＩＤで表される参加者を対象人物とする。具体例では、ＣＰＵ３００は、参加者Ａを対象人物として以下の処理が実行する。ＣＰＵ３００は、範囲２２１内の資料１１１及び花画像２８１が表す花を検出し（Ｓ１０８）、参加者Ａの手の形状及び位置を検出する（Ｓ１１０）。ＣＰＵ３００は、ステップＳ１０８及びステップＳ１１０の検出結果に基づき、参加者Ａが資料１１１及び花に操作していることを検出する（Ｓ１１２：ＹＥＳ）。ステップＳ１０８は、図１６のステップＳ４２と同様の処理である。ステップＳ１１０は、図１６のステップＳ４４と同様の処理である。ステップＳ１１２は、図１６のステップＳ４６と同様の処理である。

次に、ＣＰＵ３００は、操作対象物の大きさが、所定サイズ以下か否かを判断する（Ｓ１１４）。所定サイズは、例えば、対象人物の手の大きさの１．５倍である。具体例では、表示領域テーブルに特定対象物ＩＤが登録された操作対象物である花画像２８１が表す花は、参加者Ａの手の１．５倍よりも大きい（Ｓ１１４：ＮＯ）。この場合、ＣＰＵ３００は、対象人物の操作対象物が、ホワイトボード１０１であるか否かを判断する（Ｓ１１８）。

操作対象物が、ホワイトボード１０１である場合（Ｓ１１８：ＹＥＳ）、ホワイトボード操作処理を実行する（Ｓ１２０）。ステップＳ１２０で実行されるホワイトボード操作処理は、基本的に図１６のステップＳ６０で実行されるホワイトボード操作処理と同じである。ただし、ステップＳ１２０で実行されるホワイトボード操作処理では、Ｎ番目の登録情報に含まれる参加者ＩＤによって表される参加者を、ステップＳ６２における対象人物とする。図１６のホワイトボード操作処理が終了した場合、処理は、図１９の表示領域テーブル更新処理に戻る。操作対象物が、ホワイトボード１０１ではない場合（Ｓ１１８：ＮＯ）、ＣＰＵ３００は、対象人物の頭部全体を表す範囲と、操作対象物全体を表す範囲とを含む最小矩形範囲を特定し、特定結果に基づき、表示領域テーブルを更新する（Ｓ１２２）。

ステップＳ１１２において、対象人物が対象物を操作していない場合（Ｓ１１２：ＮＯ）、又は操作対象物の大きさが所定サイズ以下の場合（Ｓ１１４：ＹＥＳ）、ＣＰＵ３００は、Ｎ番目の登録情報を表示領域テーブルから削除する（Ｓ１１６）。このように、本実施形態では、発話終了から削除判定期間が経過する前であっても、登録情報を表示領域テーブルから削除する場合がある。ステップＳ１１６と、ステップＳ１２０と、ステップＳ１２２とのいずれかの次に、ＣＰＵ３００は、ステップＳ１２４を実行する。

以上のように、第２の実施形態の端末装置３０は、メイン処理を実行する。第２の実施形態の端末装置３０において、ステップＳ２０と、ステップＳ４１と、ステップＳ１０１と、ステップＳ１３０とは、本発明の「話者特定ステップ」に相当する。ステップＳ２０と、ステップＳ４１と、ステップＳ１０１と、ステップＳ１３０とを実行するＣＰＵ３００は、本発明の「話者特定手段」として機能する。図１６のステップＳ４９と、ステップＳ５１と、ステップＳ１０１とは、本発明の「対象物特定ステップ」に相当する。ステップＳ４９と、ステップＳ５１と、ステップＳ１０１とを実行するＣＰＵ３００は、本発明の「対象物特定手段」として機能する。

上記第２の実施形態の端末装置３０は、複数の操作対象物があると判断される場合、種別に「重要」が設定された登録対象物を優先して特定対象物として特定する。例えば、テレビ会議の議題に関わる対象物は、テレビ会議中に、話者が注目する可能性が高い。このような対象物が予め優先度の高い登録対象物として登録されることによって、端末装置３０は、話者が注目している対象物を特定する精度を高めることができる。端末装置３０は、種別に「非表示」が設定された登録対象物を特定対象物として特定しない。例えば、試作段階の商品等、セキュリティを考慮して、詳細な画像を表示させたくない場合がある。このような場合に、端末装置３０は、種別が「非表示」である登録対象物として対象物を予め登録することによって、その登録対象物が含まれる割合が大きい画像が他の端末装置３０に送信されることを回避することができる。

端末装置３０は、特定対象物がホワイトボードであり、且つ、話者が起立していると判断される場合、特定対象物の一部の範囲を話者が注目する範囲として特定する処理を実行する。即ち、端末装置３０は、特定対象物及び話者の姿勢に応じて、特定対象物全体を話者が注目する範囲として特定するか、又は特定対象物の一部の範囲を話者が注目する範囲として特定するかを変えることができる。具体的には、端末装置３０は、ホワイトボード全体のうちの、文字及び図形の少なくともいずれかが含まれるブロックを、話者が注目する範囲として特定する。端末装置３０は、話者の手の位置及び手が伸びる方向の少なくともいずれかに基づき、ブロックを特定する。そして、端末装置３０は、話者の頭部全体と、ブロック全体とが占める割合が最大値となる矩形範囲を表す部分画像データを生成する。このため、端末装置３０は、部分画像データが表す範囲にホワイトボード全体が含まれる場合に比べ、話者が注目する範囲の割合が大きい部分画像データを生成することができる。

本発明は、上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更が加えられてもよい。例えば、以下の（１）から（６）に例示する変形が適宜加えられてもよい。

（１）端末装置３０の構成は適宜変更可能である。例えば、端末装置３０は、汎用のデスクトップ型パーソナルコンピュータであってもよい。他の例では、表示装置と接続可能であれば、端末装置３０自身が表示装置を備えなくてもよい。また、端末装置３０の用途は適宜変更可能である。例えば、複数の話者が登場するシンポジウムの模様を会場の画面に表示する用途及び他の会場に中継する用途に、端末装置３０が利用されてもよい。

（２）撮影範囲内の複数の人物の中から、話者を特定する方法は、適宜変更されてもよく、少なくとも画像データと、音声データとの少なくともいずれかを用いて実行されればよい。例えば、以下に例示する変形が加えられてもよい。

（２−１）上記実施形態の端末装置３０は、発話中及び発話終了後所定時間経過前の状態にある人物を話者としていたが、これに限定されない。例えば、端末装置３０は、発話中及び発話終了後、新たな話者が特定されるまでの状態にある人物を、話者として特定してもよい。他の例では、特定の座席に座っている人物等の予め指定された条件を満たす人物を、話者として特定してもよい。

（２−２）削除判定時間の設定方法は適宜変更されてよい。例えば、上述の式（１）は一例であり、他の計算式に基づき削除判定時間が算出されてもよい。他の例では、特定対象物及び話者の属性に応じて、異なる削除判定時間が設定されてもよい。具体的には、特定対象物の属性としては、例えば、特定対象物の大きさと、重要度とが挙げられる。話者の属性としては、テレビ会議の主催者等の会議上の役割と、役職と、年齢とが挙げられる。他の例では、削除判定時間は、話者の発話態様に基づき設定されてもよい。発話態様としては、例えば、発話の内容と、発話の速度と、発話の頻度とが挙げられる。

（２−３）削除判定時間は、メイン処理において随時更新されていたが、一定の値であってもよい。

（３）撮影範囲内の対象物の中から、話者が注目する対象物を特定対象物として特定する方法は、適宜変更されてよい。例えば、以下に例示する変形が加えられてもよい。

（３−１）図８に示す情報登録処理の、ステップＳ４２の所定範囲の設定方法は適宜変更されてよい。例えば、上記実施形態と同様に、人物画像の輪郭線の所定距離外側に輪郭線を有する範囲を所定範囲とする場合、所定距離は、適宜変更されてよい。他の例では、話者全体が収まる最小の楕円によって表される範囲が、所定範囲に設定されてもよい。

（３−２）ステップＳ４２では、特定範囲の大きさの物体のみ対象物として検出されてもよい。例えば、上記実施形態のように、矩形形状の物体を対象物として検出する場合、名刺と、消しゴムと、定規といった、話者が注目する可能性が低い物体が、特定対象物の候補となる対象物として検出される可能性がある。また上記実施形態の場合、資料中に描かれた矩形形状が、特定対象物の候補となる対象物として検出される可能性がある。特定範囲の大きさの物体のみ対象物として検出されることによって、上記に例示したような、話者が注目する可能性が低い物体、及び話者が注目している対象物の一部の範囲のみが意図せずに特定対象物として検出されることを回避することができる。より具体的には、端末装置は、紙資料に含まれるブロックが特定対象物として特定されることを防止することができる。また、端末装置は、手で隠れてしまうような小さいサイズの物体を特定対象物として特定し、操作対象物が確認しづらい、即ち、画像を拡大する効果が少ない部分画像データを生成することを回避することができる。

（３−３）端末装置３０は、話者の動作に基づき特定対象物を特定してもよい。例えば、端末装置３０は、話者が特定の操作を行った物体を特定対象物として特定してもよい。具体的には、端末装置３０は、話者が手で所定角度（例えば、１８０度）回転させた物体を対象物として特定してもよい。この場合、例えば、表示領域テーブルに特定対象物ＩＤを記憶させる項目を設ける。特定対象物ＩＤは、一旦特定対象物であると特定された対象物を表す。ＣＰＵ３００は、特定対象物ＩＤに基づき、一旦特定対象物であると特定された対象物を参加者が話者であると判断されている期間継続して特定対象物であると判断しもよい。他の例では、端末装置３０は、話者の目線の先に存在する対象物を特定対象物として特定してもよい。他の例では、端末装置３０は、話者の顔と、手と、指といった体の一部によって指し示す方向に存在する対象物を特定対象物として特定してもよい。他の例では、端末装置３０は、差し棒といった話者が操作する物体が指し示す方向に存在する対象物を特定対象物として特定してもよい。他の例では、端末装置３０は、操作対象物以外の対象物を特定対象物として特定してもよい。例えば、話者の立ち位置といった、話者の配置に基づき特定対象物が特定されてもよい。具体的には、端末装置３０は、話者がホワイトボードの前に立っていると判断される時には、ホワイトボードを特定対象物として特定してもよい。上記のような変形例において、例えば、３Ｄカメラから得られる画像に基づき、話者及び話者が操作する物体の状態が検出されてもよい。

（３−４）一度に複数の対象物が特定対象物として特定されてもよい。

（４）部分画像データは、撮影範囲の一部を表すデータであって、話者と、特定対象物とのそれぞれを表すデータであればよく、その生成方法は適宜変更されてよい。例えば、以下に例示する変形が加えられてもよい。

（４−１）表示領域テーブルに記憶された、発話終了後から削除判定時間経過前の登録情報に基づき、部分画像データが生成される場合、発話終了後からの経過時間に応じて、徐々に撮影範囲全体に近づけた範囲を表す部分画像データが生成されてもよい。他の例では、部分画像データが表す部分画像の形状は、図５のステップＳ１５で取得された画像データが表す画像とアスペクト比が同じ矩形に限定されず、任意の形状であってよい。

（４−２）上記実施形態では、互いに異なる時間に発話が検出された複数の話者に基づき、話者が変わったと判断される場合の部分画像データの生成方法は適宜変更されてよい。上記実施形態のように、直前の話者が発話終了後削除判定経過前であった場合のみ、直前に特定された話者と、新たな話者と、特定対象物とのそれぞれを含む範囲を表すデータを、部分画像データとして生成してもよい。他の例では、直前の話者が発話終了後削除判定経過前であるか否かに関わらず、直前に特定された話者と、新たな話者と、特定対象物とのそれぞれを含む範囲を表すデータを、部分画像データとして生成してもよい。この場合、例えば、新たな話者が特定されてから、所定時間（例えば、５秒間）は、直前の話者の登録情報を表示領域テーブルに記憶させておけばよい。他の例では、新たな話者と、特定対象物とのそれぞれを含む範囲を表すデータを、部分画像データとして生成してもよい。この場合、例えば、新たな話者が特定された場合には、直前の話者が発話終了後削除判定経過前であるか否かに関わらず、直前の話者の登録情報を表示領域テーブルから削除すればよい。

（５）全体画像データ又は部分画像データについて、必要に応じて編集処理が実行されてもよい。例えば、部分画像によって表される特定対象物が、予め登録された優先度に応じて強調表示されるように、全体画像データ又は部分画像データに編集処理が実行されてもよい。他の例では、予め登録された種別が非表示である登録対象物が画像に含まれる場合、その対象物を表す部分が表示されないように、全体画像データ又は部分画像データに編集処理が実行されてもよい。具体的には、図１７の画像２１４のように、予め登録された植物画像２８２が含まれる場合に、植物画像２８２を表す部分２８３にモザイク処理が実行されてもよい。端末装置は、植物画像２８２をさけた状態で画像が切り出す、即ち、部分２８３が画像の範囲外となるようにしてもよい。端末装置は、植物画像２８２を特定対象物とする登録情報を表示領域テーブルに記憶させないとしてもよい。ステップＳ１５で取得された画像データを、他の端末装置に送信する全体画像データとしてもよい。

（６）話者と、特定対象物との特定状況に応じて、全体画像データ及び部分画像データ以外のデータが生成され、出力されてもよい。例えば、図８に示す情報登録処理において特定対象物が特定されなかった場合（Ｓ４６：ＮＯ）、話者の頭部全体を含む最小矩形が特定され、表示領域テーブルに登録されてもよい。この場合、図５のメイン処理では、ステップＳ１４０では、全体画像データ及び部分画像データ以外のデータが生成されればよい。全体画像データ及び部分画像データ以外のデータは、画像データによって表される撮影範囲のうち、一部の範囲を表すデータであって、話者を表すデータである。

３０端末装置
３００ＣＰＵ
３０１ＲＯＭ
３０２ＲＡＭ
３０５外部通信Ｉ／Ｆ
３１０ＨＤＤ
３２２ディスプレイ
３５０ＵＳＢインタフェイス

Claims

撮影手段から出力された、撮影範囲を表す画像データを取得する画像データ取得手段と、
前記画像データ取得手段によって取得された前記画像データが表す人物の中から、話者を特定する話者特定手段と、
前記画像データ取得手段によって取得された前記画像データが表す対象物の中から、前記話者特定手段によって特定された前記話者が注目する対象物を特定対象物として特定する対象物特定手段と、
前記画像データ取得手段によって取得された前記画像データに基づき、前記撮影範囲の一部を表すデータであって、前記話者特定手段によって特定された前記話者と、前記対象物特定手段によって特定された前記特定対象物とのそれぞれを表すデータである部分画像データを生成する部分画像データ生成手段と、
前記部分画像データ生成手段によって生成された前記部分画像データを出力する出力手段と
を備えることを特徴とする端末装置。
前記部分画像データ生成手段は、前記特定対象物全体のうちの前記話者が注目する範囲のうち第１所定割合以上の範囲である第１範囲全体と、前記話者の頭部のうちの第２所定割合以上の範囲である第２範囲全体とを含み、且つ、前記第１範囲と前記第２範囲との範囲全体に占める割合が最大値となる所定形状の範囲を表すデータを、前記部分画像データとして生成することを特徴とする請求項１に記載の端末装置。
前記対象物特定手段は、前記画像データが表す前記対象物の中から、前記話者の手の位置及び前記話者の前記手が伸びる方向の少なくともいずれかに基づき設定された所定範囲にある対象物を、前記特定対象物として特定することを特徴とする請求項１又は２に記載の端末装置。
前記対象物特定手段は、前記所定範囲に前記対象物が複数ある場合には、前記手よりも大きい最小矩形の対象物を、前記特定対象物として特定することを特徴とする請求項３に記載の端末装置。
前記話者特定手段は、画像データ取得手段によって取得された前記画像データが表す人物の中から、発話中及び発話終了後所定時間経過前の状態にある人物を前記話者として特定することを特徴とする請求項１から４のいずれかに記載の端末装置。
前記部分画像データ生成手段は、前記話者特定手段によって前記話者が特定されなかった場合、及び前記対象物特定手段によって前記特定対象物が特定されなかった場合の少なくともいずれかの場合は、前記部分画像データを生成せず、
前記出力手段は、前記部分画像データ生成手段によって前記部分画像データが生成された場合には、前記部分画像データを出力し、前記部分画像データが生成されなかった場合には前記画像データ取得手段によって取得された前記画像データが表す前記撮影範囲全体を表すデータである全体画像データを出力することを特徴とする請求項１から５のいずれかに記載の端末装置。
前記部分画像データ生成手段は、前記話者特定手段によって互いに異なる時間に発話が検出された複数の前記話者に基づき、前記話者が変わったと判断される場合に、直前に特定された前記話者と、新たな前記話者と、前記対象物特定手段によって特定された前記特定対象物とのそれぞれを含む範囲を表すデータを、前記部分画像データとして生成することを特徴とする請求項１から６のいずれかに記載の端末装置。
撮影手段から出力された、撮影範囲を表す画像データを取得する画像データ取得ステップと、
前記画像データ取得ステップで取得された前記画像データが表す人物の中から、話者を特定する話者特定ステップと、
前記画像データ取得ステップで取得された前記画像データが表す対象物の中から、前記話者特定ステップで特定された前記話者が注目する対象物を特定対象物として特定する対象物特定ステップと、
前記画像データ取得ステップによって取得された前記画像データに基づき、前記撮影範囲の一部を表すデータであって、前記話者特定ステップで特定された前記話者と、前記対象物特定ステップで特定された前記特定対象物とのそれぞれを表すデータである部分画像データを生成する部分画像データ生成ステップと、
前記部分画像データ生成ステップによって生成された前記部分画像データを出力する出力ステップと
を備えたことを特徴とする情報提示方法。
撮影手段から出力された、撮影範囲を表す画像データを取得する画像データ取得ステップと、
前記画像データ取得ステップで取得された前記画像データが表す人物の中から、話者を特定する話者特定ステップと、
前記画像データ取得ステップで取得された前記画像データが表す対象物の中から、前記話者特定ステップで特定された前記話者が注目する対象物を特定対象物として特定する対象物特定ステップと、
前記画像データ取得ステップによって取得された前記画像データに基づき、前記撮影範囲の一部を表すデータであって、前記話者特定ステップで特定された前記話者と、前記対象物特定ステップで特定された前記特定対象物とのそれぞれを表すデータである部分画像データを生成する部分画像データ生成ステップと、
前記部分画像データ生成ステップによって生成された前記部分画像データを出力する出力ステップと
を端末装置のコントローラに実行させるための指示を含むことを特徴とする情報提示プログラム。