JP2010087907A

JP2010087907A - 映像合成表示装置、映像表示システム及び映像表示方法

Info

Publication number: JP2010087907A
Application number: JP2008255575A
Authority: JP
Inventors: Takashi Oya; 崇大矢
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2008-09-30
Filing date: 2008-09-30
Publication date: 2010-04-15
Also published as: US8467509B2; US20100079675A1

Abstract

【課題】複数のコンテンツを合成して表示する場合において、人物を含む映像のコンテンツ等の複数のコンテンツの視認性を向上させることを目的とする。
【解決手段】グラフィック及びテキストの少なくとも一つを含む情報を映像に合成して表示する映像合成表示装置であって、前記映像に含まれる人物の人物領域と、グラフィック及びテキストの少なくとも一つを含む情報の領域とを重複しないように表示する表示処理手段を有することを特徴とする。
【選択図】図３

Description

本発明は、人物を含む複数の映像を合成して表示する映像合成表示装置、映像表示システム、映像表示方法、プログラム及び記録媒体に関するものである。

テレビ放送やビデオ会議において、複数のライブ映像や、ライブ映像とテキスト・グラフィック等とを合成する技術が広く使用されている。このような技術としては、画面分割による複数地点映像の合成、ピクチャーインピクチャー合成及びクロマキー合成等がある。

例えば、特許文献１には、ビデオ会議において、二分割した画面に人物映像とドキュメント映像とをそれぞれ表示する技術が開示されている。また、例えば、特許文献２には、二地点間のテレビ電話において、話者を共通の背景上に配置する技術と、蓄積画像を背景として相手映像をピクチャーインピクチャー形式で表示する技術とが開示されている。更に、例えば、特許文献３には、ビデオ会議において、人物の周囲に吹き出し等のグラフィック又はテキストを配置する技術が開示されている。

特開平０８−７９７２１号公報特許第２８４９１１９号公報特開２００４−７２３１０号公報

しかしながら、ライブ映像中の人物を抜き出して別の背景映像と合成するクロマキー合成では、特定の色（クロマ）を検出して背景領域を求めている。したがって、背景に文書等を表示する場合には、背景全体に文書を表示すると重要な部分が前景の人物に隠される場合がある。また、背景を機械的に別の映像に置換するものなので、前景の位置や境界を考慮して、背景に文書やテキストを配置する用途には適さない。

一方、画面を複数に分割して人物と文書とを表示する方法があるが、所定の形状に分割された画面上に人物映像や文書映像を表示するため、必ずしも画面全体を有効に使用しているとは限らない。また人物領域を検出して、背景領域に図形やテキストを配置する技術があるが、内容が多い文書の場合には空き領域が狭くて全体を表示できない場合がある。
本発明は、上述したような問題点に鑑みてなされたものであり、複数のコンテンツを合成して表示する場合において、人物を含む映像のコンテンツ等の複数のコンテンツの視認性を向上させることを目的とする。

本発明は、グラフィック及びテキストの少なくとも一つを含む情報を映像に合成して表示する映像合成表示装置であって、前記映像に含まれる人物の人物領域と、グラフィック及びテキストの少なくとも一つを含む情報の領域とを重複しないように表示する表示処理手段を有することを特徴とする。
本発明は、送信装置と受信装置とを有する映像表示システムであって、前記送信装置は、映像を前記受信装置に送信する送信手段を有し、前記受信装置は、前記送信手段により送信された映像に含まれる人物の人物領域と、グラフィック及びテキストの少なくとも一つを含む情報の領域とを重複しないように表示する表示処理手段を有することを特徴とする。
本発明は、グラフィック及びテキストの少なくとも一つを含む情報を映像に合成して表示する映像合成表示装置における映像表示方法であって、前記映像のコンテンツに含まれる人物の人物領域と、グラフィック及びテキストの少なくとも一つを含む情報とを重複しないように表示する表示処理ステップを有することを特徴とする。
本発明は、グラフィック及びテキストの少なくとも一つの情報を映像に合成して表示させるためのプログラムであって、コンピュータに前記映像のコンテンツに含まれる人物の人物領域と、グラフィック及びテキストの少なくとも一つを含む情報とを重複しないように表示する表示処理ステップを実行させるためのプログラムである。

本発明によれば、映像、グラフィック及びテキストの少なくとも一つを含む複数のコンテンツを合成して表示する場合において、人物を含む映像のコンテンツ等の複数のコンテンツの視認性を向上させることができる。

以下、本発明に係る実施形態について図面を参照して説明する。
（第１の実施形態）
本実施形態では、人物の背景領域に文書（テキスト）およびグラフィック等のコンテンツ（情報）を配置する合成表示方式において、人物とコンテンツとの双方の視認性がよい表示方式について説明する。なお、合成においては、人物の境界領域を計測し、人物領域とコンテンツ領域とが重複しないように双方を配置する。このとき、人物領域が所望の配置となるようにカメラのパン、チルト、ズームを制御することによって、広い背景領域を設ける。

本実施形態に係る映像表示システムを構成する端末装置の機能構成（一部ハードウェア構成を含む）を図１及び図２に示す。なお、図１及び図２では、本実施形態の説明に関係する部分のみ示している。また、本実施形態では、映像表示システムの用途としてビデオ会議（テレビ会議）を取り上げて説明する。
映像表示システムは、送信装置１００と受信装置２００とを含んで構成されている。通常、ビデオ会議では、送信装置１００と受信装置２００とが、それぞれ一体化されて構成されている。

まず、図１に示す送信装置１００は、映像及び音声を取得して、相手端末に送信するものである。送信装置１００には、撮像装置（カメラ）１０とマイクロホン２０とが接続されている。なお、カメラ１０は、送信装置１００に一体的に構成されていてもよい。
送信装置１００は、映像取得部１１１、映像符号化部１１２、音声取得部１２１、音声符号化部１２２、撮像装置制御部１３０、データ会議通信制御部１５０、通信インターフェース１６０を含んで構成されている。

映像取得部１１１は、カメラ１０により生成された映像を取得する。映像符号化部１１２は、映像取得部１１１経由で入力された映像情報を符号化する。ここで、映像符号化の方式としては、ＭｏｔｉｏｎＪＰＥＧ、ＭＰＥＧ−２、ＭＰＥＧ−４、Ｈ．２６４等の方式があるが、特定の符号化方式に限定されるものではない。
また、音声取得部１２１は、マイクロホン２０により集音された音声を取得する。音声符号化部１２２は、音声取得部１２１により取得された音声情報を符号化する。ここで、音声の符号化方式としては、Ｇ．７１１やＧ．７２２等の方式があるが、特定の符号化方式に限定されるものではない。符号化された音声及び映像は、通信インターフェース１６０経由でインターネット等のネットワーク経由で相手端末に送信される。

カメラ１０は、相手端末からネットワーク経由でパン、チルト、ズーム制御可能である。すなわち、送信装置１００は、相手端末から通信インターフェース１６０経由で制御命令を受信し、撮像装置制御部１３０が、その制御命令を解釈して、カメラ１０の制御を実行する。なお、ビデオ会議では、自端末と相手端末との間で、文書や画像等のデータ共有が行われる。すなわち、例えば共有ホワイトボード機能等を用いて、自端末と同一の画像を相手端末に表示したりする。データ会議通信制御部１５０は、このような画像や文書等のデータを共有する制御を行う。なお、データ共有のプロトコルにはＴ．１２０がある。また、表示するデータは、必ずしも相手端末から取得する必要はなく、例えば、受信装置２００内部にあるデータを表示してもよいし、各種の設定情報やメッセージを表示してもよい。

次に、図２に示す受信装置２００は、送信装置１００から送信された映像及び音声等を受信するものである。また、受信装置２００は、映像、グラフィック（画像）及びテキスト（文書）の少なくとも一つを含む複数のコンテンツを合成して表示する映像合成表示装置としての機能を有する。
受信装置２００には、表示装置（ディスプレイ）３０、スピーカ４０、リモコン等の外部入力機器２７１、外部記憶装置２６１が接続されている。なお、ディスプレイ３０は、受信装置２００に一体に構成されていてもよい。また、受信装置２００は、映像復号化部２１０、人物領域特定部２１１、データ会議通信制御部２１２、コンテンツ解析部２１３、合成部２１４を含んでいる。また、受信装置２００は、ビデオＲＡＭ２１６、ディスプレイ制御部２１５、音声復号化部２２０、映像音声同期部２２１、音声バッファ２２２、通信インターフェース２９０、外部記憶制御部２６０、入力機器制御部２７０を含んで構成されている。

受信装置２００は、送信装置１００から送信された映像、音声及び文書等のデータを通信インターフェース２９０経由で受信する。受信装置２００は、各データを受信した後、データの種類ごとにそれぞれ復号化を行う。例えば、映像のコンテンツは、映像復号化部２１０で復号化を行う。その後、人物領域特定部２１１において、復号化された映像データから人物領域を抽出して、特定する。ここで、人物領域の抽出方法としては、顔検出による方法や上体検出による方法がある。これらの検出方法の詳細については、後述する。

一方、文書や静止画像等のコンテンツは、データ会議通信制御部２１２で復号化される。その後、コンテンツ解析部２１３は、復号化された文書内容を解析する。例えば、文書のコンテンツの場合、コンテンツ解析部２１３は、文書を構成するフォントサイズやレイアウト等を解析する。その後、合成部２１４は、人物を含む映像と文書との配置を決定し、１つの映像に合成する。なお、レイアウトや合成の具体的な方法については後述する。
この後、合成した映像は、ビデオＲＡＭ２１６に記憶される。そして、ディスプレイ制御部２１５は、ビデオＲＡＭ２１６に記憶されている合成した映像をディスプレイ３０に表示する。なお、ディスプレイ制御部２１５は、ディスプレイ３０に表示する表示タイミング等を制御する。また、音声は、音声復号化部２２０で復号化される。また、映像音声同期部２２１において、映像との間で再生タイミングを図りながら、音声バッファ２２２を介してスピーカ４０で再生する。また、外部記憶制御部２６０は、ハードディスク等の外部記憶装置２６１に記憶されたデータの読み出しや書き込みを制御する。また、入力機器制御部２７０は、ユーザによる入力機器２７１を介した入力を制御する。

なお、送信装置１００及び受信装置２００の内部構成としては、不図示のＣＰＵ、ＲＯＭ、ＲＡＭ、バス等により構成されている。図１及び図２に示す送信装置１００及び受信装置２００の機能構成は、それぞれのＣＰＵがＲＯＭ等や外部記憶装置２６１に記憶されているプログラムを実行することにより実現する。なお、送信装置１００及び受信装置２００の構成は、例えばＰＣや組み込みボードを用いて実現可能である。例えば、映像符号化部１１２、音声符号化部１２２、映像復号化部２１０、音声復号化部２２０は、専用のコーデックチップにより実現することができる。同様に、人物領域特定部２１１は、専用の画像処理チップにより実現することができる。

次に、図３及び図４を参照して、本実施形態に係る人物を含む映像のコンテンツと文書を含むコンテンツとの合成方法の一例について説明する。
まず、図３は、人物を撮影したカメラ１０の映像３１０において、人物領域の配置を変更する方法を説明するための図である。図３に示す映像３１０は、カメラ１０によって撮影された原映像である。また、図３に示す画面３５０は、人物領域の配置が変更された後の映像である。
まず、映像３１０では、人物は中央に配置されているため、人物の背景領域に文書を配置する領域が少ない。したがって、以下に説明する二つの方法により、図４に示すような配置にする。図４は、各コンテンツの配置の一例を示す図である。画面４００は、ディスプレイ３０の表示領域である。画面４００では、人物４３１，４３２を表示範囲における右下に配置し、その背景領域に複数の文書のコンテンツ４１０、４２０を配置している。図４では、人物領域と文書のコンテンツ領域とが重複しないように配置されている。なお、図４では、文書のコンテンツ４１０、４２０を配置しているが、例えば、画像（グラフィック）や映像等のコンテンツであってもよい。

まず、第一の方法は、画像処理により人物領域の位置及びサイズ等を変更する方法である。すなわち、図３に示す人物周辺の領域３２０、すなわち人物領域（顔領域）３１１、３１２を含むような領域３２０を切り出し、電子的に拡大、縮小及び平行移動を施す。この処理は、領域変更手段の一例に対応する。そして、画面３５０に示すように表示領域に対して新たな位置に人物領域を含むように領域３５２を配置する。次に、第二の方法は、カメラ制御により人物領域の位置及びサイズ等を変更する方法である。すなわち、カメラ１０のパン、チルト及びズームのうち少なくとも何れか一つを制御する。この処理は、撮像装置制御手段の一例に対応する。そして、画面３５０に示す領域３５２の位置に、人物が映るように配置する。第一の手段及び第二の手段の何れかの方法であっても、顔検出又は上体検出を行って、人物領域を特定する。これらの検出処理は、目、眉、鼻、口、肩等の部分の特徴を画像中から検出し、人物の存在する位置を特定するものであり、その機能は、既に例えばデジタルカメラ等に搭載されている。

次に、第一の方法と第二の方法との違いについて説明する。
まず、第一の方法では、図３に示す背景領域１は実映像であるが、背景領域２は実映像ではない。一方、第二の方法では、背景領域１及び背景領域２共に、実映像を利用することができる。したがって、第二の方法では、図４に示す文書のコンテンツ４１０、４２０を配置し、文書を透過表示する場合等に、自然な合成映像を生成することが可能である。

また、第一の方法では、拡大、縮小及び平行移動処理が毎フレーム必要である。一方、第二の方法では、毎フレームごとの処理は、必要ではない。しかし、第二の方法は、カメラ１０の制御が必要であるため、共有表示を希望しない端末に対しても、画面３５０のような映像が送信されてしまう。また、カメラ１０の制御を行うときに制御権を必要とするシステム構成の場合、制御権が取得できない場合があり、この場合、第一の方法を採用する。

次に、第二の方法における、カメラ制御量について説明する。
図３において、制御前の人物サイズをＨ０とし、制御後のサイズをＨ１とする。また、移動前の人物位置を（ｘ０，ｙ０）とし、移動後の人物位置を（ｘ１，ｙ１）とする。また、制御前のパン、チルト、ズーム倍率を（Ｐ０，Ｔ０，Ｚ０）とし、制御後のパン、チルト、ズーム倍率を（Ｐ１，Ｔ１，Ｚ１）とする。ここで、Ｐ１，Ｔ１，Ｚ１の概算値は、以下の式により導出される。

Ｐ１＝Ｐ０＋ｔａｎ^-1（ｘ１／Ｚ１／Ｆ）−ｔａｎ^-1（ｘ０／Ｚ０／Ｆ）
Ｔ１＝Ｔ０＋ｔａｎ^-1（ｙ１／Ｚ１／Ｆ）−ｔａｎ^-1（ｙ０／Ｚ０／Ｆ）
Ｚ１＝Ｚ０×Ｈ１／Ｈ０
（式１）

但し、Ｆは、倍率１のときの焦点距離（画素）である。人物の位置（ｘ，ｙ）は、画面中央を中心とし、向かって右方向をｘ軸の正方向とし、向かって上方向をｙ軸の正方向とする。また、カメラを横から見て、上方向への回転をチルト回転の正方向とし、カメラを上から見て、時計回りをパン回転の正方向とする。なお、画像の歪等による計測位置のずれは無視している。

また、顔、図形又は文字を表示する際の視認性を保つためには、一定の解像度及び物理サイズを維持する必要がある。これは、顔、図形又は文字の解像度及び実環境での表示サイズによって決定される。前者を論理表示サイズ、後者を物理表示サイズという。受信装置２００は、論理表示サイズを算出する。この処理は、論理表示サイズ算出手段の一例に対応する。また、受信装置２００は、物理表示サイズを算出する。この処理は、物理表示サイズ算出手段の一例に対応する。また、受信装置２００は、各サイズの下限値を設定する。この処理は、下限設定手段の一例に対応する。

例えば、顔に関しては、論理表示サイズとして縦横の画素数（Ｆｈ、Ｆｖ）を選択する。
また、物理サイズとしては代表的な視点から顔を見込む角度（θｈ、θｖ）を選択する。ここで、図５に視点と表示領域のサイズとの関係を示す。図５は、ユーザがディスプレイを水平方向から見ている状態の実配置を示す図である。代表的な視点は、端末の設置されている会場における座席位置から求めることができる。視点からディスプレイ（スクリーン）までの距離をＬとする。また、ディスプレイの単位長さあたりの表示画素数を（Ｒｈ，Ｒｖ）（ｐｉｘｅｌ／ｍ）とすると、顔を見込む角度（θｈ、θｖ）の概算値は、以下の式により導出される。

θｈ＝２ｔａｎ^-1（Ｆｈ／Ｒｈ／２Ｌ）
θｖ＝２ｔａｎ^-1（Ｆｖ／Ｒｖ／２Ｌ）
（式２）
となる。従って、人物画像を配置する場合に、（θｈ、θｖ）の下限値を割り込まないように、縮小倍率又はズーム倍率を設定、制御する必要がある。すなわち、受信装置２００は、論理表示サイズ及び物理表示サイズを算出するときには、下限以上になるようにして表示レイアウトを決定する。

以上の理論は、文書における文字フォントに関しても適用することができる。すなわち、各文字の視認性を保つための物理表示サイズを定める。文字の場合も、顔と同様にフォントサイズから物理表示サイズを算出可能である。従って、文書全体を表示する場合に最低限必要な論理表示サイズ及び物理表示サイズを算出できる。このようにすることで、顔の視認性を損なわない範囲で文書画像の表示サイズを定めることができる。
なお、例えば、受信装置２００は、所望する文書画像の物理表示サイズを確保できない場合、人物画像の物理表示サイズを優先させて、人物画像を表示するものとする。すなわち、受信装置２００は、人物画像の物理表示サイズを優先させるように、表示レイアウトを決定する。そして、受信装置２００は、文書画像を、表示領域にそのままで、拡大、縮小及び縦横スクロール処理の少なくとも一つを行い、文書の一部分を表示すればよい。このとき、受信装置２００は、文書画像を、下限以上で設定した論理表示サイズ及び物理表示サイズで表示する。ここで、縦横スクロール処理とは、所定のコンテンツ領域に表示しきれないコンテンツの内容の一部を表示するように、コンテンツの内容をスクロールさせて表示させる処理をいう。ここで、スクロールさせる方法は、自動的にスクロールさせてもよく、ユーザによるスクロールバー等の入力の操作に応じて、スクロールさせてもよく、どのような方法であってもよい。

また、ネットワーク経由での映像を配信する場合、符号化の際の画質も考慮する必要がある。例えば、ＪＰＥＧの場合、Ｑ値（ＱｕａｌｉｔｙＮｕｍｂｅｒ）の設定により画質が大きく変化する。所定のレベルでの視認性を確保するためには、例えば、ＪＰＥＧでＱ値の最低値を設定する等、符号化時の符号化画質及び帯域の少なくとも一つの設定を併せて行う。これは受信装置２００から送信装置１００に対して設定を要求する設定要求情報を送信することにより行う。この処理は、設定要求情報送信手段の一例に対応する。また、送信装置１００では、この設定要求情報に基づいて、例えば、映像符号化部１１２が映像に対して符号化時の符号化画質又は帯域の設定を行うことで実現することができる。この処理は、設定手段の一例に対応する。

以上、説明した方法をビデオ会議に適用した場合、送信装置１００と受信装置２００との動作処理について、図６に示すシーケンス図を参照して説明する。
図６では、送信装置１００と受信装置２００と間のシーケンスを示したものであるが、通常の会議端末は両方の機能を同時に備えるのが通常であり、送信装置１００と受信装置２００とが対向で利用されるものと考えてよい。
まず、ステップＳ６０１では、受信装置２００は、装置の初期化処理を行う。また、ステップＳ６０２では、送信装置１００は、装置の初期化処理を行う。

次に、ステップＳ６０３では、受信装置２００は、送信装置１００に対して接続要求を行う。
ステップＳ６０４では、送信装置１００は、接続を許可する旨の信号を受信装置２００に返信する。この処理により、ステップＳ６０５において、送信装置１００と受信装置２００との接続が確立する。なお、端末間の接続制御には、Ｈ．３２３やＳＩＰ（ＳｅｓｓｉｏｎＩｎｉｔｉａｔｉｏｎＰｒｏｔｏｃｏｌ）が用いられるが、特定の接続制御プロトコルに限定されるものではない。ここでは、説明の都合上、受信装置２００から送信装置１００に対して接続要求を行うものとしてが、実際は、接続が確立するまでは、送信・受信の区別はなく、受信装置２００以外の制御部分が接続処理を行ってもよい。

次に、ステップＳ６０７では、受信装置２００は、送信装置１００に対してカメラ１０の制御権を要求する。
次に、ステップＳ６０８では、送信装置１００は、カメラ制御の許可又は不許可の信号を返信する。
次に、ステップＳ６０９では、受信装置２００は、その信号を取得して、その内容を判定する。この処理は、取得判定手段の一例に対応する。
続いて、受信装置２００は、判定結果に基づいて、画面合成モードを選択する。画面選択モードは、図３及び図４で説明したように、人物領域の配置を変更するときに、画像処理により配置するか、カメラ制御により配置するかを選択するモードである。ここで、受信装置２００は、送信装置１００からカメラ制御の許可を示す信号を受信した場合、すなわちカメラ制御権を取得した場合、カメラ制御により人物領域を配置するモードを選択する。一方、受信装置２００は、送信装置１００からカメラ制御の不許可を示す信号を受信した場合、人物領域を電子的に変更して配置するモードを選択する。

次に、ステップＳ６１０では、送信装置１００は、人物の映像データを送信する。ステップＳ６１１では、受信装置２００は、人物の映像データを受信する。
また、ステップＳ６１２では、送信装置１００は、文書データを送信する。ステップＳ６１３では、受信装置２００は、文書データを受信する。なお、図示しないが、人物の映像データの受信は連続して行われる。

ステップＳ６１５では、受信装置２００は、人物検出処理を行う。また、受信装置２００は、図４に示すような人物領域とその他のコンテンツ領域とが重複しないように表示レイアウトを決定する。具体的には、例えば、人物領域とコンテンツ領域とを、所定の距離、離間させて表示レイアウトを決定する。この処理は、表示レイアウト決定手段の一例に対応する。このとき、受信装置２００は、上述のように算出した論理表示サイズや物理表示サイズに基づいて、表示レイアウトを決定する。
次に、ステップＳ６１７では、受信装置２００は、送信装置１００に対してカメラ制御要求を行う。なお、受信装置２００が、カメラ制御権を有していない場合、上述したように、画像処理により人物領域の配置を行う。

ステップＳ６１８では、送信装置１００は、受信装置２００からのカメラ制御要求に基づいて、カメラ１０に対してパン、チルト及びズームの制御を行う。
カメラ動作後、ステップＳ６２０では、送信装置１００は、人物の映像データを送信する。
ステップＳ６２１では、受信装置２００は、人物の映像データを受信する。
ステップＳ６２２では、受信装置２００は、決定した表示レイアウトに基づいて、文書のデータ及び人物の映像データを合成する。
ステップＳ６２３では、受信装置２００は、合成した映像をディスプレイ３０に表示する。この処理は、表示処理手段の一例に対応する。

次に、受信装置２００の動作処理について図７に示すフローチャートを参照して説明する。図７に示すフローチャートは、例えば、受信装置２００の外部記憶装置２６１に記憶されているプログラムを受信装置２００のＣＰＵが実行することにより実現する。なお、プログラムは、同時並行的に動作する複数の実行単位から構成される。本実施形態では、本発明に関わる部分として、メインスレッドと表示スレッドとの動作手順に限定して説明する。

まず、メインスレッドにおいて、ステップＳ７０１では、受信装置２００は、装置の初期化を行う。
次に、ステップＳ７０２では、受信装置２００は、相手端末すなわち送信装置１００に対して接続要求を行う。
次に、ステップＳ７０３において、受信装置２００は、接続が成功したか否かを判定する。接続が成功した場合、ステップＳ７０４に処理を進める。接続が成功しない場合、ステップＳ７０２において、受信装置２００は、再び接続を要求する。

ステップＳ７０４では、受信装置２００は、送信装置１００に対してカメラ１０の制御権を要求する。なお、送信装置１００とカメラ１０とが一体的に構成されている場合、受信装置２００は、カメラ１０に対して制御権を要求する。このとき、制御権を取得できるか否かにより、後述する表示スレッドの処理が一部異なってくる。

次に、ステップＳ７０５では、受信装置２００は、相手端末すなわち送信装置１００からの映像データの取得を開始する。
また、ステップＳ７０６では、受信装置２００は、文書データの共有を開始する処理を行う。この処理は、相手端末との間で特定の文書データの共有処理を指示するものである。文書の実データが記憶されている装置は、自端末である受信装置２００であっても、相手端末である送信装置１００の何れかであってもよい。共有が開始されると、文書データが追加される等、更新された場合、相互に通知が行われる。

次に、ステップＳ７０７では、受信装置２００は、文書データの共有の処理が終了したか否かを判定する。終了した場合、ステップＳ７０８に処理を進める。終了していない場合、終了するまで待機する。
ステップＳ７０８では、受信装置２００は、メインスレッドの処理を終了する。

続いて、文書のコンテンツ領域すなわち文書領域と人物領域との合成及び表示を行う、表示スレッドについて説明する。
まず、ステップＳ７１０では、受信装置２００は、映像データを受信したか否かを判定する。映像データを受信した場合、ステップＳ７１１に処理を進める。映像データを受信しない場合、ステップＳ７１３に処理を進める。
ステップＳ７１１では、受信装置２００は、受信した映像中の人物を検出する。ここで、受信装置２００は、映像に含まれる人物の顔又は上半身に基づいて、単数又は複数の人物を検出する。この処理は、人物検出手段の一例に対応する。

次に、ステップＳ７１２では、受信装置２００は、人物検出結果を解析し、人物情報に変化があったか否かを判定する。人物情報に変化があった場合、ステップＳ７２０に処理を進める。
ステップＳ７２０では、受信装置２００は、人物情報に基づいて、人物領域を特定し、表示レイアウトを算出する。ステップＳ７１２において、人物情報に変化がない場合、ステップＳ７１３に処理を進める。

ステップＳ７１３では、受信装置２００は、文書データを受信したか否かを判定する。文書データを受信した場合、ステップＳ７１４に処理を進める。
ステップＳ７１４では、受信装置２００は、文書データを解析して、文書のフォントサイズや使用領域等を検出する。
解析後、ステップＳ７２０に処理を進め、人物領域や文書領域に基づいて、表示レイアウトを算出する。このように人物領域又は文書領域の少なくとも一つが変化した場合、受信装置２００は、表示レイアウトの再計算を行う。

次に、ステップＳ７２１では、受信装置２００は、カメラ制御権を取得しているか否かを確認する。制御権を取得している場合、ステップＳ７２２に処理を進める。ステップＳ７２２では、受信装置２００は、ステップＳ７２０で算出した表示レイアウトの計算結果に基づいて、送信装置１００に対してカメラ制御要求を行う。すなわち、カメラ制御により、カメラ１０にパン、チルト及びズームの動作を行わせ、映像における人物領域を変更させ、表示領域に再配置する。
ステップＳ７２１において、制御権を取得していない場合、画像処理により人物領域を再配置して、ステップＳ７２３に処理を進める。

ステップＳ７２３では、受信装置２００は、再配置した人物領域を含む映像と文書とを合成する。
ステップＳ７２４では、受信装置２００は、合成した映像と文書とをディスプレイ３０に表示する。表示した後、ステップＳ７１０に処理を戻し、次のイベント処理を行う。なお、ステップＳ７１３において、受信装置２００が、文書データを受信していないと判定した場合、ステップＳ７１５に処理を進める。ステップＳ７１５では、受信装置２００は、その他のイベント処理を行う。

このように、本実施形態によれば、人物を所定のサイズに維持したまま、ディスプレイ３０の表示領域の隅に移動させ背景領域に文書のコンテンツ等の他のコンテンツを合成して表示する。したがって、人物の映像と文書のコンテンツ等の複数のコンテンツを視認するときの視認性を向上させることができる。

また、人物領域と文書のコンテンツ領域等の他のコンテンツ領域とが重複しないように表示レイアウトを決定する。具体的には、例えば、人物領域とコンテンツ領域とを、所定の距離、離間させる等して表示レイアウトを決定するので、ディスプレイの表示画面を有効に利用することができる。
また、人物の物理表示サイズの下限を定め、下限以下に画像処理をしたり、カメラ制御をしたりしないようにすることで、人物をディスプレイに表示したときの視認性を向上させることができる。

（第２の実施形態）
次に、第２の実施形態について説明する。第２の実施形態では、一定時間の人物領域の観測値に基づいて、文書のコンテンツ等のその他のコンテンツを配置するコンテンツ領域を算出する。具体的には、人物領域と他のコンテンツ領域とのマージンを算出する処理が追加されたものである。

図３を参照して、配置の方法について説明する。
図３において、受信装置２００は、映像中に二つの顔領域３１１、３１２を検出している。また、図３では、人物は着座しているものの、完全に静止しているわけではないため、画面上において人物の顔の位置は、常に微少変動する。したがって、文書領域等を配置するときに、文書領域と人物領域とを接近させすぎると、人物が人物領域外に出たり、人物が文書領域を隠したりする問題が生じる。本実施形態では、この問題を解決するために、人物領域と他のコンテンツ領域との間に適切なマージンを配置する。

本実施形態では、単に一枚の映像から人物領域を決定するのではなく、一定時間顔検出を行い、画面上で顔領域となる確率が一定値以上の領域を人物領域とする。以下、このような人物領域を特定する方法について、具体的に説明する。
まず、受信装置２００が、顔検出の結果として顔領域を矩形の領域で取得した場合、当該矩形の周囲ＤＯ画素の領域を計測領域（候補領域）として設定する。なお、複数の顔を対象にすることも可能である。この場合、例えば、検出した複数の顔を含む任意の領域を設定し、この領域の周囲ＤＯ画素の領域を計測領域として設定する。この処理は、候補領域設定手段の一例に対応する。

次に、受信装置２００は、一定時間Ｔの間、計測領域内における顔の検出を行う。ここで、取得したフレームにおいて、候補領域を構成する画像要素（画素）ごとに、顔を検出した検出回数を１（フレーム）加算する。受信装置２００は、計測中のフレーム数をＮとすると、０からＮまでの間に、検出回数の統計量を取得することができる。この処理は、計測手段の一例に対応する。

次に、受信装置２００は、計測結果に基づいて、所定値Ｔｈ以上の検出回数の画素の領域を特定する。Ｔｈは、フレーム数からＴｈ＝ｒ×Ｎにより算出することができる。ここで、ｒは、検出率であり、例えば、一定確率以上として例えば、９０％以上とする場合、０．９を用いる。なお、投票を行う単位として、画素以外にもＪＰＥＧ等の符号化ブロック単位又は任意形状の領域等を用いることもできる。

この結果、受信装置２００は、検出率ｒ以上の確率で、顔として検出される画素の集合の領域を算出することができる。なお、このようにして求めた領域には、通常、突起や穴を有するために、例えばモルフォロジカルオペレータによる膨張・縮退処理を施して、平滑化を行う。また、複数の領域が得られる場合があるが、これらの領域を包含する領域を判定し、当該領域の外側に一定のマージンＤ１を設定する。この処理は、領域判定手段の一例に対応する。そして、受信装置２００は、一定のマージンを設定した領域を最終的な人物領域として特定する。
受信装置２００は、一旦、人物領域を決定したら、第１の実施形態で説明したような、画像処理又はカメラ制御により、人物領域の配置処理を行い、文書領域等の他のコンテンツ領域を含む表示レイアウトを決定することができる。

次に、上述した処理を映像表示システムに適用した場合の動作処理について、図８に示すフローチャートを参照して説明する。
図８に示すフローチャートは、図７に示す表示スレッドのフローチャートにおいて、ステップＳ７１２の後に挿入されるものである。
図８に示す動作処理は、数秒程度の時間を要するものであるため、人物に大きな動きがあった場合のみ、実行することが合理的である。

まず、ステップＳ８０１では、受信装置２００は、映像データを受信したか否かを判定する。映像データを受信した場合、ステップＳ８０２に処理を進める。
ステップＳ８０２では、受信装置２００は、顔検出処理を行う。
次に、ステップＳ８０３では、受信装置２００は、顔を検出したか否かを判定する。顔を検出しない場合、ステップＳ８０１に処理を戻し、次の映像データを受信する。顔を検出した場合、ステップＳ８０４に処理を進める。

ステップＳ８０４では、受信装置２００は、人物領域の計測中であるか否かを判定する。計測中ではない場合、新規に計測を開始するために、ステップＳ８０６に処理を進める。
ステップＳ８０６では、受信装置２００は、検出した顔及びその周辺領域に対応した画素に対して投票用配列を確保する。
次に、ステップＳ８０７では、受信装置２００は、所定時間、計測を開始する。
なお、ステップＳ８０４において、計測中の場合、ステップＳ８０５に処理を進める。ステップＳ８０５では、受信装置２００は、画素に対する投票を行う。すなわち、上述したように、画素ごとに、顔を検出した検出回数を加算する。

ステップＳ８０８では、受信装置２００は、所定時間経過したか又は所定フレームの計測をしたか否かを判定する。更に計測が必要な場合、ステップＳ８０１に処理を戻す。
一方、所定時間経過して、十分な計測データを取得した場合、ステップＳ８０９に処理を進める。
ステップＳ８０９では、受信装置２００は、一定の投票数以上の画素を選択する。すなわち、所定値Ｔｈ以上の検出回数の画素を特定する。
次に、ステップＳ８１０では、受信装置２００は、選択した画素の集合に対し、モルフォロジカルオペレータによる膨張・縮退処理を施す。
次に、ステップＳ８１１では、受信装置２００は、ステップＳ８１０の処理結果に対して、一定のマージンを加えたものを、人物領域として決定する。

このように、本実施形態によれば、一定確率以上で顔を検出する画素の集合の領域を検出し、検出した領域に基づいて、人物領域を決定する。したがって、人物が微動する場合を考慮して、人物領域を決定することができるので、人物が動くことにより他のコンテンツ領域と重複することを防止することができる。
なお、本実施形態では、人物の検出の方法として顔検出についてのみ説明したが、人物検出の方法は顔検出に限定されるものではない。例えば、上体検出等の方法を用いて人物を検出してもよい。

（第３の実施形態）
次に、第３の実施形態について説明する。第３の実施形態では、人物検出を送信側で行う場合について説明する。この場合、送信装置１００は、カメラ１０から映像を取得した後に、人物領域を特定する。そして、映像データと共に、特定した人物領域のデータを受信装置２００に送信する。
なお、送信装置１００は、受信装置２００の要求に応じて、人物領域の特定結果を受信装置２００に送信してもよい。特定結果は、人物領域のデータであって、例えば顔の数、各顔の位置やサイズである。送信方法は、例えば受信装置２００からのＨＴＴＰのリクエストに対して、送信装置１００がレスポンスを返信する。あるいは、送信する映像に人物領域のデータを添付して受信装置２００に送信してもよい。このように、本実施形態によれば、送信装置１００により人物領域を特定するので、受信装置２００側の負荷を軽減させることができる。

（第４の実施形態）
次に、第４の実施形態について説明する。第４の実施形態では、人物検出により特定した人物を識別し、識別情報をディスプレイに表示する場合について図９を参照して、説明する。
受信装置２００は、例えば、図８に示すフローチャートのステップＳ８０２の処理の後に、検出した顔を識別する処理を行う。具体的には、受信装置２００は、検出した顔から特徴データを抽出し、抽出した特徴データから、外部記憶装置２６１等に記憶されている複数の特徴データのうち一致する特徴データを検出する。この処理は、検索手段の一例に対応する。そして、一致する特徴データに関連付けられている人物の識別情報を取得する。この処理は、識別情報取得手段の一例に対応する。なお、識別情報には、例えば検出した顔の人物の氏名情報、アドレス情報等の人物の付属情報が含まれる。

その後、受信装置２００は、図７に示す表示スレッドのフローチャートのステップＳ７２４において、合成した映像と文書とをディスプレイ３０に表示するとき、図９に示すように、映像に含まれる人物に近接させて、取得した識別情報９０１、９０２を表示する。
このように、本実施形態によれば、映像に含まれる人物の識別情報を表示するので、ディスプレイ３０を視聴するユーザは、表示されている人物をすぐに識別することができ、送信装置１００と受信装置２００との間におけるビデオ会議を円滑に進めることができる。

なお、本実施形態では、受信装置２００で、識別情報を取得する場合について説明したが、この場合に限られない。例えば、送信装置１００において、顔を検出して、特徴データを抽出し、その人物の顔を認識して、識別情報を取得するように構成してもよい。この場合、送信装置１００は、映像データと共に、取得した人物の識別情報を受信装置２００に送信する。
また、第３の実施形態のように、送信装置１００によって送信された映像データ及び特定した人物領域のデータから、受信装置２００が人物領域を切り出して、人物の顔を識別して、識別情報を取得するように構成してもよい。

（第５の実施形態）
次に、第５の実施形態について説明する。第５の実施形態では、ビデオ会議のような双方向にデータを送信できるような映像音声通信システム以外に用いる場合について説明する。本実施形態として、例えば、個人放送やモニタリングシステム等の片方向の映像音声通信システムに用いる場合について説明する。

本実施形態のシステム構成は、図１及び図２に示す構成のうち、カメラ１０、送信装置１００、ネットワーク、受信装置２００、ディスプレイ３０を含んで構成される。ここで、個人放送の場合、送信装置１００は、不特定多数向けに、共有して表示させたい文書等のコンテンツと共に映像を配信することになる。また、受信装置２００は、多数となり、それぞれの環境に併せて所望のサイズで映像や文書等の複数のコンテンツを表示する。

一方、モニタリングシステムの場合、送信装置１００が、多数となる。また、映像中に不審人物を検出したときに、受信装置２００は、当該人物の情報を画面上に表示する。このようなときに、人物領域を再配置して、背景領域を生成すれば、詳細な情報を表示することができる。ここで表示する情報は、送信装置１００内部に記憶させてもよいが、通常は、受信装置２００が、外部のデータベースから取得するか又は受信装置２００の外部記憶装置２６１に記憶する。また、第１の実施形態と同様に、カメラ１０と送信装置１００とは、一体化した構成とすることができ、代表的な例としてはネットワークカメラが挙げられる。

（第６の実施形態）
次に、第６の実施形態について説明する。第６の実施形態では、人物領域と重複しないようにコンテンツ領域を配置する表示レイアウトの決定方法について図１０を参照して、説明する。
まず、図１０に示すように、受信装置２００は、原映像から人物を検出し、顔表情が認識できるような下限の物理表示サイズになるように人物領域のサイズを決定し、表示範囲における右下隅に人物領域９１０を配置する。ここでは、人物領域は上体検知によって人物の境界を判別した場合の例を示している。

次に、受信装置２００は、人物領域と重複しない空き領域に、他のコンテンツのコンテンツ領域を設定する。ここで、設定方法としては、縦方向を優先する方法がある。縦方向を優先する場合、図１０（ａ）に示すように、第一の配置領域１（９２０）を縦長に設定する。なお、第２の実施形態で説明したように、受信装置２００は、人物領域９１０の境界には、第一の配置領域１（９２０）の境界との間に一定のマージンを設ける。このように、第一の配置領域１（９２０）が決定されると、残りの空き領域に第二の配置領域２（９３０）を設定することができる。このようにして、再帰的に複数のコンテンツ領域を設定、すなわち表示レイアウトを決定することができる。なお、配置領域には最低面積等の基準を予め設けておき、一定面積以上の配置領域を新規に確保できない場合には、配置領域を設定する処理を終了する。

次に、設定方法としては、横方向を優先する方法がある。横方向を優先する場合、図１０（ｂ）に示すように、第一の配置領域１（９７０）を横長に設定する。また、人物領域９６０は、図１０（ｂ）に示すように、表示範囲における左下隅に配置することができる。受信装置２００は、上述と同様に、人物領域９６０の境界には、第一の配置領域１（９７０）との間に一定のマージンを設ける。同様に、残りの空き領域に第二の配置領域２（９８０）を設定する。
なお、本実施形態では、配置領域は矩形にする場合について説明したが、任意の形状であっても同様な方法により、人物領域と重複しないようにコンテンツ領域を設定することが可能である。

また、本実施形態では、順々にコンテンツ領域を設定する場合について説明したが、同一属性の複数のコンテンツ領域をまとめて確保してもよい。例えば、配置したいコンテンツ領域の個数を予め決めておいて、同一形状の矩形領域を並べることにより、複数のコンテンツ領域を設定してもよい。また、同様に、同一面積の任意形状のコンテンツ領域を所望の個数分、表示領域に設定するようにしてもよい。

また、本実施形態では、人物領域が一つの場合について説明したが、複数の人物領域を特定してもよい。この場合、まず、複数の人物領域の配置を決定し、次に当該複数の人物領域と重複しないようにコンテンツ領域を設定する。この場合、複数の映像から特定した人物領域を使用してもよく、人物ごと個別で配置してもよい。何れであっても、人物領域間で重複しないような配置を設定する。

上述した本発明の実施形態における装置及びシステムを構成する各手段、並びに方法の各ステップは、コンピュータのＲＡＭやＲＯＭ等に記憶されたプログラムが動作することによって実現できる。このプログラム及びこのプログラムを記録したコンピュータ読み取り可能な記録媒体は本発明に含まれる。

また、本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施形態も可能である。また、本発明は、上述した実施形態の機能を実現するソフトウェアのプログラムを、システム又は装置に直接、又は遠隔から供給する。そして、そのシステム又は装置のコンピュータが前記供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。

従って、本発明の機能処理をコンピュータで実現するために、前記コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等の形態であってもよい。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。更に、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳ等が、実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

更に、その他の方法として、まず記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。そして、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現される。

送信装置の機能構成の一例を示す図である。受信装置の機能構成の一例を示す図である。原映像から人物領域の配置位置を算出するための方法を説明するための図である。人物を含む映像と文書のコンテンツとを合成して表示した画面の一例を示す図である。人物及び文字の物理表示サイズを説明するための図である。送信装置及び受信装置の動作シーケンスを示す図である。受信装置の動作処理を示すフローチャートである。人物領域を算出する動作処理を示すフローチャートである。人物と共に人物の識別情報を表示した画面の一例を示す図である。コンテンツ領域を配置する表示レイアウトの決定方法を説明するための図である。

符号の説明

１０撮像装置（カメラ）
２０マイクロホン
３０表示装置（ディスプレイ）
４０スピーカ
１００送信装置
１１１映像取得部
１１２映像符号化部
１２１音声取得部
１２２音声符号化部
１３０撮像装置制御部
１５０データ会議通信制御部
１６０通信インターフェース
２００受信装置
２１０映像復号化部
２１１人物領域特定部
２１２データ会議通信制御部
２１３コンテンツ解析部
２１４合成部
２１５ディスプレイ制御部
２２０音声符号化部
２２１映像音声同期部
２２２音声バッファ
２９０通信インターフェース

Claims

グラフィック及びテキストの少なくとも一つを含む情報を映像に合成して表示する映像合成表示装置であって、
前記映像に含まれる人物の人物領域と、グラフィック及びテキストの少なくとも一つを含む情報の領域とを重複しないように表示する表示処理手段を有することを特徴とする映像合成表示装置。
前記映像に含まれる人物の人物領域を特定する人物領域特定手段と、
前記人物領域特定手段により特定された人物領域と重複しないように、前記人物領域と前記グラフィック及びテキストの少なくとも一つを含む情報の領域との表示レイアウトを決定する表示レイアウト決定手段とを更に有し、
前記表示処理手段は、前記表示レイアウト決定手段により決定された表示レイアウトに基づいて、前記グラフィック及びテキストの少なくとも一つを含む情報を表示することを特徴とする請求項１に記載の映像合成表示装置。
前記人物領域特定手段により特定された人物領域の位置及びサイズの少なくとも何れか一方を表示領域に対して電子的に変更する領域変更手段を更に有し、
前記表示処理手段は、前記領域変更手段により変更された人物領域と、前記グラフィック及びテキストの少なくとも一つを含む情報の領域とを重複しないように表示することを特徴とする請求項２に記載の映像合成表示装置。
前記人物領域特定手段により特定された人物領域の位置及びサイズの少なくとも何れか一方を表示領域に対して変更するために、前記映像を撮影する撮像装置のパン、チルト及びズームの少なくとも何れか１つの動作を制御する撮像装置制御手段を更に有し、
前記表示処理手段は、前記撮像装置制御手段により制御された撮像装置の動作によって、前記表示領域に対して変更された人物領域と、前記グラフィック及びテキストの少なくとも一つを含む情報の領域とを重複しないように表示することを特徴とする請求項２に記載の映像合成表示装置。
前記映像を撮影する撮像装置の制御権を取得したか否かを判定する取得判定手段を更に有し、
前記取得判定手段による判定結果に応じて、前記人物領域特定手段により特定された人物領域の位置及びサイズの少なくとも何れか一方を表示領域に対して変更する手段を選択することを特徴とする請求項３又は４に記載の映像合成表示装置。
前記映像に含まれる人物の顔又は上半身を検出する人物検出手段を更に有し、
前記人物領域特定手段は、前記人物検出手段により検出された単数又は複数の人物の顔又は上半身に基づいて、人物領域を特定することを特徴とする請求項２乃至５の何れか１項に記載の映像合成表示装置。
前記人物検出手段により検出された人物の顔の特徴データに基づいて、一致する特徴データを検索する検索手段と、
前記検索手段により検索された特徴データに関連付けて記憶された人物の識別情報を取得する識別情報取得手段とを更に有し、
前記表示処理手段は、前記映像に含まれる人物と共に、前記識別情報取得手段により取得された識別情報を表示することを特徴とする請求項６に記載の映像合成表示装置。
前記映像に含まれる人物領域を含む候補領域を設定する候補領域設定手段と、
前記候補領域設定手段により設定される候補領域を構成する画像要素ごとに、一定時間に人物として検出された検出回数を計測する計測手段と、
前記計測手段による計測結果に基づいて、一定確率以上の画像要素の領域を判定する領域判定手段とを更に有し、
前記人物領域特定手段は、前記領域判定手段により判定された領域を人物領域として特定することを特徴とする請求項２乃至７の何れか１項に記載の映像合成表示装置。
前記映像に含まれる人物を表示装置に表示するときの論理表示サイズを算出する論理表示サイズ算出手段と、
前記映像を表示する表示装置とユーザとの実配置に基づいて、前記人物を表示装置に表示するときの物理表示サイズを算出する物理表示サイズ算出手段と、
前記論理表示サイズと前記物理表示サイズとの下限を設定する下限設定手段とを更に有し、
前記表示処理手段は、前記下限設定手段により設定された下限以上で、前記映像に含まれる人物を表示することを特徴とする請求項１乃至８の何れか１項に記載の映像合成表示装置。
前記論理表示サイズ算出手段は、前記テキストを表示装置に表示するときの論理表示サイズを算出し、
前記物理表示サイズ算出手段は、前記テキストを表示する表示装置とユーザとの実配置に基づいて、前記テキストを表示装置に表示するときの物理表示サイズを算出し、
前記下限設定手段は、前記テキストの論理表示サイズと物理表示サイズとの下限を設定し、
前記表示処理手段は、前記テキストを前記表示装置に表示するときの物理表示サイズを得られない場合、前記人物の物理表示サイズを優先させて、表示することを特徴とする請求項９に記載の映像合成表示装置。
前記表示処理手段は、前記下限設定手段により設定されたテキストの下限以上で、前記テキストを拡大、縮小及び縦横スクロール処理の少なくとも一つを行うことにより、一部分を表示することを特徴とする請求項１０に記載の映像合成表示装置。
送信装置と受信装置とを有する映像表示システムであって、
前記送信装置は、映像を前記受信装置に送信する送信手段を有し、
前記受信装置は、前記送信手段により送信された映像に含まれる人物の人物領域と、グラフィック及びテキストの少なくとも一つを含む情報の領域とを重複しないように表示する表示処理手段を有することを特徴とする映像表示システム。
グラフィック及びテキストの少なくとも一つを含む情報を映像に合成して表示する映像合成表示装置における映像表示方法であって、
前記映像のコンテンツに含まれる人物の人物領域と、グラフィック及びテキストの少なくとも一つを含む情報とを重複しないように表示する表示処理ステップを有することを特徴とする映像表示方法。
グラフィック及びテキストの少なくとも一つの情報を映像に合成して表示させるためのプログラムであって、
コンピュータに
前記映像のコンテンツに含まれる人物の人物領域と、グラフィック及びテキストの少なくとも一つを含む情報とを重複しないように表示する表示処理ステップを実行させるためのプログラム。
請求項１４に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。