JP2010021991A

JP2010021991A - 情報提示装置および情報提示方法

Info

Publication number: JP2010021991A
Application number: JP2009132489A
Authority: JP
Inventors: Tetsujiro Kondo; 哲二郎近藤; Kazutaka Uchida; 和隆内田; Yoshihiro Hayashi; 良拓林
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-06-09
Filing date: 2009-06-01
Publication date: 2010-01-28
Anticipated expiration: 2029-06-01
Also published as: US8436941B2; JP4618384B2; US20090310021A1

Abstract

【課題】番組の少し先（将来）の展開が予測でき、取り逃がした情報を再度確認することができ、視聴者が提示された番組情報を余裕を持って視聴できるようにする。
【解決手段】入力された映像データから、当該映像データの一部を抽出し、複数のサムネイル画像（主画像）を生成する。また、映像データに対応づけられた情報から複数の字幕画像（副画像）を生成する。そして、複数のサムネイル画像を時系列に配置すると共に、複数の字幕画像の各々を前記サムネイル画像に対応させて時系列に配置した仮想空間（３次元）を生成、表示する。
【選択図】図２

Description

本発明は、情報提示装置及び情報提示方法に関し、特に映像とともに字幕を表示させる情報提示装置及び情報提示方法に関する。

従来、テレビジョン放送等において、映像の表示と同時に音声情報（もしくはその要約した内容）を文字として提供することが行われている。このような文字は、字幕やテロップ等と称されており、視聴者による映像コンテンツの理解を助ける役割を果たしている。

例えば特許文献１に、複数の画面上で複数の番組を表示する場合において、一方の画面においては音声出力を行い、もう一方の画面においては字幕表示を行うようにすることが記載されている。

特開２００７−１３７２５号公報

ところで、特許文献１に記載されたように表示画面に単に現在の番組映像と字幕の表示を行った場合、視聴者は現在提示されている情報しか取得することができない。視聴者は番組の少し先（将来）の展開が予測できず、余裕を持って番組を視聴することができなかった。そのため、番組の内容を整理する余裕が持てず、番組の内容をよく理解することができないという問題があった。
さらに、情報を取り逃がしてしまった場合には、取り逃がした情報を再度確認することができず、ますます番組を理解しにくくなってしまうという問題があった。

本発明は、このような状況に鑑みてなされたものであり、視聴者が提示された情報を余裕を持って視聴できるようにするものである。

本発明の第１の側面の情報提示装置は、入力部より入力された映像データから、当該映像データの一部を抽出し、複数の主画像を生成する第１の画像生成部と、前記映像データに対応づけられた情報から複数の副画像を生成する第２の画像生成部と、前記複数の主画像を時系列に配置するとともに、前記複数の副画像の各々を前記主画像に対応させて時系列に配置した表示画像を生成して出力する画像出力部とを含むことを特徴とする。

上述の情報提示装置において、画像出力部は一例として、複数の主画像のうち、注目されている主画像と、時間方向において先に位置する画像とが並べられる表示画像を生成する。ここで、時間方向において先に位置するとは、現在を基点として未来を指している。

また上述の情報提示装置において、画像出力部は一例として、複数の主画像のうち、注目されている主画像と、時間方向において先に位置する画像と、時間方向において後ろに位置する画像とが並べられる表示画像を生成する。ここで、時間方向において後ろに位置するとは、現在を基点として過去を指している。

また上述の情報提示装置において、画像出力部は一例として、複数の主画像のうち、注目されている主画像と、時間方向において後ろに位置する画像とが並べられる表示画像を生成する。

本発明の第１の側面の情報提示方法は、映像データから、当該映像データの一部を抽出し、複数の主画像を生成し、前記映像データに対応づけられた情報から複数の副画像を生成し、前記複数の主画像を時系列に配置すると共に、前記複数の副画像の各々を前記主画像に対応させて時系列に配置した表示画像を生成することを特徴とする。

本発明の第１の側面においては、再生対象の現在の情報に加え、未来の情報を予め画面に時系列に提示することができる。その結果、視聴者は、未来の主画像・副画像を見通しながら視聴できるようになり、提示された情報の先の展開を予測しつつ視聴することができる。それゆえ提示された情報、例えば番組展開を余裕を持って視聴できる。また、再生対象の現在の情報に加え、過去の情報を画面に時系列に提示することができる。その結果、視聴者は、過去の主画像・副画像を視聴できるようになり、過去の情報の内容や流れを確認することができる。それゆえ提示された情報について過去の情報を参照しつつ余裕を持って視聴できる。

以上のように、本発明によれば、視聴者が提示された情報を余裕を持って視聴することができる。

自動車の車窓からの景色を説明するための図である。本発明の第１の実施の形態に係る表示の概要を示した図である。本発明の第１の実施の形態に係る番組映像の表示例を示す図である。本発明の第１の実施の形態に係るシステムの内部構成例を示すブロック図である。本発明の第１の実施の形態に係る表示映像生成部の内部構成例を示すブロック図である。本発明の第１の実施の形態に係る表示映像生成部の処理例を示すフローチャートである。本発明の第１の実施の形態に係るサムネイル画像の説明に供する図である。本発明の第１の実施の形態に係るサムネイル生成部の処理例を示すフローチャートである。本発明の第１の実施の形態に係る字幕情報のテーブルの例を示す図である。本発明の第１の実施の形態に係る字幕画像の例を示す図である。本発明の第１の実施の形態に係る字幕画像生成部の処理例を示すフローチャートである。本発明の第１の実施の形態に係る仮想空間の３Ｄモデル（１）を示す図であり、Ａは側面図、Ｂは上面図である。本発明の第１の実施の形態に係る仮想空間の３Ｄモデル（２）を示す図である。本発明の第１の実施の形態に係る仮想空間の３Ｄモデル（３）を示す図である。本発明の第１の実施の形態に係る仮想空間生成部の処理例を示すフローチャートである。本発明の第１の実施の形態に係るレンダリング部の処理例を示すフローチャートである。本発明の第１の実施の形態に係るレンダリングの説明に供する図である。本発明の第１の実施の形態に係る表示映像生成部の内部構成の他の例を示すブロック図である。本発明の第１の実施の形態の第１変形例に係るテロップ検出部の処理例を示すフローチャートである。本発明の第１の実施の形態の第１変形例に係るテロップ用テーブルの例を示す図である。本発明の第１の実施の形態の第１変形例に係る顔検出部の処理例を示すフローチャートである。本発明の第１の実施の形態の第１変形例に係る顔用テーブルの例を示す図である。本発明の第１の実施の形態の第１変形例に係るＰｉｎＰ表示の例を示す図である。本発明の第１の実施の形態の第２変形例に係る２番組表示例を示す図である。本発明の第１の実施の形態の第３変形例に係るｎ番組表示例を示す図である。本発明の第１の実施の形態の第４変形例に係る複数個の表示装置による表示例を示す図である。本発明の第１の実施の形態の第４変形例に係る複数カメラによる仮想空間の３Ｄモデルを示す図である。本発明の第２の実施の形態に係る番組映像の表示例を示す図である。本発明の第２の実施の形態に係るシステムの内部構成例を示すブロック図である。本発明の第２の実施の形態に係る表示映像生成部の内部構成例を示すブロック図である。本発明の第２の実施の形態に係る表示映像生成部の処理例を示すフローチャートである。本発明の第２の実施の形態に係るサムネイル画像の座標を説明するための図である。本発明の第２の実施の形態に係るサムネイル生成部の処理例を示すフローチャートである。本発明の第２の実施の形態に係る字幕情報のテーブルの例を示す図である。本発明の第２の実施の形態に係る字幕画像の座標を説明するための図である。本発明の第２の実施の形態に係る字幕画像生成部の処理例を示すフローチャートである。本発明の第２の実施の形態に係る音声波形画像の座標を説明するための図である。本発明の第２の実施の形態に係る音声波形画像生成部の処理例を示すフローチャートである。本発明の第２の実施の形態に係る現在画像生成部の処理例を示すフローチャートである。本発明の第２の実施の形態に係る画像合成部の処理例を示すフローチャートである。本発明の第２の実施の形態に係る番組映像の表示例を示す図である。本発明の第２の実施の形態の第１変形例に係る２画面による表示例を示す図である。本発明の第２の実施の形態の第２変形例に係る６画面による表示例を示す図である。本発明の第２の実施の形態の第２変形例に係る２画面を用いたドラマ番組の表示例を示すブロック図である。本発明の第２の実施の形態の第３変形例に係る発話タイミング通知の説明に供する図である。本発明の第２の実施の形態の第３変形例に係る発話タイミング通知の表示例を示す図である。本発明の第２の実施の形態の第３変形例に係る人物登場通知の説明に供する図である。本発明の第２の実施の形態の第３変形例に係るトピック通知の内容通知の説明に供する図である。汎用コンピュータの内部構成例を示すブロック図である。

以下、本発明を実施するための形態の例について、添付図面を参照しながら説明する。説明は下記項目の順に行う。
１．第１の実施の形態（移動体の車窓に見立てた映像提示：再生対象の現在の情報に加え、未来の情報（映像）を予め画面に提示する例）
２．第２の実施の形態（移動体の車窓に見立てた映像提示：再生対象の現在の情報に加え、過去及び未来の情報（映像）を予め画面に提示する例）

以下に述べる実施の形態は、本発明を実施するための好適な形態の具体例であるから、技術的に好ましい種々の限定が付されている。ただし、本発明は、以下の実施の形態の説明において特に本発明を限定する旨の記載がない限り、これらの実施の形態に限られるものではない。したがって、例えば、以下の説明で挙げる使用材料とその使用量、処理時間、処理順序および各パラメータの数値的条件等は好適例に過ぎず、また、説明に用いた各図における寸法、形状および配置関係等も実施の形態の一例を示す概略的なものである。

［第１の実施の形態］
はじめに、本発明の第１の実施の形態の例について図１〜図２７を参照して説明する。
本実施の形態に係る情報提示装置は、コンテンツの先の展開を予測しながら視聴できるよう再生対象の現在の情報に加え、未来の情報（映像）を予め画面に提示しておくように構成したものである。その際、仮想空間内にコンテンツの要素（画像、字幕など）を配置し、空間配置のコンテンツの関連付けを行いやすくするとともに自然な物理運動を取り入れた映像提示を行うことで、視聴者のコンテンツの理解を助けるとともに脳や目への負担を減らすようにしている。本実施の形態では、自然な物理運動として自動車などの移動体に着目し、その移動体の車窓からの景色に見立てた映像提示を行うようにする。なお、以下の実施の形態では、コンテンツの一例として、テレビジョン放送番組（以下、単に「番組」という。）を例に説明するが、この例に限られるものではない。

図１は、自動車の車窓からの景色を説明するための図である。この図１を参照して、車を運転する時の状況を説明する。
自動車を運転する際、運転手は車窓１越しに見える車道の路面２Ｌ，２Ｒや道路標識４ａ，４ｂ、車道脇の街路樹３Ｌ，３Ｒを確認しながら進む自動車を運転する。このとき運転手は、進行方向５へ進みながら空間的に点在する非常に大量の情報を、並列かつ瞬時に処理する必要がある。このように大量の情報を瞬時に並列に処理する状況は、画面に表示された番組の映像を理解する場合と似ている。

しかし、番組を長い時間視聴する場合はすぐに疲労感を感じてしまう一方で、車の運転はあまり疲れずに比較的長時間続けることが可能である。この差の原因として、処理する視覚情報の違いが考えられる。つまり、自動車の運転のように自然な物理運動の視覚情報を処理する場合はあまり疲れない。これに対し、複数の番組が同時に提示されるなどのように、非常に人工的で不自然な視覚情報を処理する場合は、脳に大きな負荷がかかって容易に疲労してしまうということである。この考えに従えば、複数の番組映像を「自然な物理運動に則る映像」に変換することで、視聴者の疲労感を軽減することができると期待できる。

ここで、図２に示した表示例の概要を参照して、番組映像を「自然な物理運動に則る映像」に変換する手法を説明する。
提案する変換の手法は、まず「番組視聴」と「自動車の運転」との類似性を利用して、仮想空間にカメラ視点の進行方向ＤＣを設定する。そして、「路面」に相当する部分に番組映像のサムネイル画像一覧Ｉｍ０〜Ｉｍｎを、また「道路標識」に相当する部分に番組内の字幕画像Ｃ０，Ｃ１を表示画面１０に配置し、カメラ視点が前方（仮想空間の遠方）へ移動するような映像に変換する。すなわち、仮想空間を移動しながら、番組を視聴するという映像提示の手法である。このようにすることで、視聴者は番組（映像）の要素を自然な物理運動の視覚情報として捉えることができ、脳への負荷が少ない映像提示を実現することができる。

図３は、上記の変換方式を実際のテレビジョン放送番組に適用した例を示す図である。
この例は、二人のキャスターによって進行されているニュース番組の映像の表示例であり、番組映像のサムネイル画像Ｉｍ０〜Ｉｍ６の一覧と字幕画像Ｃ０〜Ｃ３が、仮想空間の奥から手前に向かって移動するようにして、各画像が時系列に表示されている。以下に、このような映像提示を実現するためのシステムについて説明する。なお、図２に示す符号ＩｍｂおよびＣｂはそれぞれ、サムネイル画像および字幕画像の背景色を表している。

図４は、上記映像提示を実現させる情報提示装置の内部構成例を示すブロック図である。
情報提示装置１００は、映像・字幕入力部２０、符号化・復号処理部３０、蓄積部４０、情報処理部５０、制御部８０、ユーザＩ／Ｆ９０を含むように構成される。

映像・字幕入力部２０は、映像データや音声データ、字幕情報等のメタデータの入力を受け付け、情報提示装置１００内に取り込む処理を行う。映像データや音声データ、字幕情報等は、例えばテレビジョン受像機のチューナや、ネットワークを介した通信の制御を行う通信制御部、映像コンテンツを記録した記録媒体とのインタフェース部分等から入力されるものとする。

符号化・復号処理部３０は、映像・字幕入力部２０から入力された映像データや音声データ、字幕情報等を符号化して蓄積部４０に蓄積する。また、蓄積部４０に蓄積された、符号化映像データや符号化音声データ等を読み出して復号し、復号して得た映像データ、音声データ、字幕情報等を情報処理部５０に出力する。

蓄積部４０は、例えばＨＤＤ（Hard Disc Drive）やＤＶＤ（Digital Versatile Disc）等で構成してあり、符号化・復号処理部３０で符号化された映像データや音声データ、字幕情報などを蓄積する。この蓄積部４０には、１つ又は複数の番組が蓄積されており、それらの番組の映像は、情報処理部５０によって「自然な物理運動に則る映像」に変換された後に表示装置へ出力される。

情報処理部５０は、表示映像生成部６０及び音声処理部７０から構成される。
表示映像生成部６０は、蓄積部４０から読み出された映像データと字幕情報、もしくは映像・字幕入力部２０を介して入力された映像データと字幕情報を用いて、表示装置に表示させる映像データ（表示画像）を生成し、１台又は複数台の表示装置へ出力する。このとき、表示映像生成部６０は、蓄積部４０に蓄積された番組の映像を「自然な物理運動に則る映像」に変換する。一方、音声処理部７０は、表示映像生成部６０から出力される映像データと同期した音声データを表示装置へ出力する。表示映像生成部６０及び音声処理部７０の詳細については後述する。

制御部８０は、ＭＰＵ（Micro Processing Unit）等で構成され、情報提示装置１００の各部の制御、表示映像生成部６０による映像レンダリング時におけるパラメータ設定、並びに、ユーザＩ／Ｆ９０との入出力の制御等を行う。

表示装置１１０−１〜１１０−ｎはそれぞれ、情報処理部５０から送られてくる映像データに基づいて表示画面を表示するものであり、ＬＣＤ（Liquid Crystal Display）等が適用される。

次に、図５を参照して、表示映像生成部６０の内部構成例について説明する。
表示映像生成部６０は、データメモリ６１、第１の画像生成部としてのサムネイル生成部６２、第２の画像生成部としての字幕画像生成部６３、仮想空間生成部６４、レンダリング部６５−１〜６５−ｎ（ｎは自然数）、画像合成部６６を含むようにして構成される。

データメモリ６１は、サムネイル生成部６２や字幕画像生成部６３、仮想空間生成部６４での処理を行う際に、蓄積部４０から読み出した映像データや音声データ、字幕情報を、一時的に蓄積するための領域であり、半導体メモリ等で構成される。

サムネイル生成部６２は、表示装置の表示画面に時系列に表示するサムネイル画像の一覧を生成し、仮想空間生成部６４に出力する。またサムネイル生成部６２は、サムネイル画像を一時的に蓄積しておく領域としての出力用画像メモリ６２ａを備える。サムネイル生成部６２の詳細については後述する。

字幕画像生成部６３は、映像・字幕入力部２０を介してメタデータとして入力された字幕情報を一連の字幕画像に変換し、仮想空間生成部６４へ出力する。また字幕画像生成部６３は、字幕情報を、字幕の内容や出現時間によって区分することにより生成した字幕情報テーブル６３ａと、字幕画像の生成に用いる字幕情報を一時的に蓄積しておく領域としての出力用画像メモリ６３ｂも備える。字幕画像生成部６３の詳細については後述する。

仮想空間生成部６４は、サムネイル生成部６２から供給されるサムネイル画像の一覧と字幕画像生成部６３から供給される字幕画像を利用して仮想空間（３次元モデル）を構築し、３次元データとして出力するものである。仮想空間を構築する方法の詳細は後述する。

レンダリング部６５−１〜６５−ｎは、仮想空間生成部６４により構築された仮想空間の所定の位置にカメラ（視点）を設定し、表示装置の画面に表示する画像を生成して出力する。

画像合成部６６は、レンダリング部６５−１〜６５−ｎのそれぞれから出力された画像を合成して、表示装置１１０−１〜１１０−ｎに表示させるための表示画像を生成する。また、画像合成部６６は、画像合成しない旨の指示を受けた場合、画像合成を行うことなく、各レンダリング部から供給された画像を対応する表示装置へ出力する。

このように構成された表示映像生成部６０による表示映像生成処理例を、図６のフローチャートを参照して説明する。
ステップＳ１において、表示映像生成部６０は、まず蓄積部４０（図４参照）からサムネイル画像や字幕画像の生成に必要なデータを取得し、取得したデータをデータメモリ６１に蓄積する。

次に、ステップＳ２において、データメモリ６１に蓄積されたデータを用いて、サムネイル生成部６２によりサムネイル画像の一覧（出力画像）が生成され、仮想空間生成部６４へ出力される。

また、ステップＳ３において、データメモリ６１に蓄積されたデータを用いて、字幕画像生成部６３により字幕画像が生成され、仮想空間生成部６４へ出力される。

続いて、ステップＳ４において、サムネイル生成部６２で生成されたサムネイル画像の一覧と字幕画像生成部６３で生成された字幕画像に基づいて、仮想空間生成部６４によって仮想空間（３次元モデル）が構築される。

さらに、ステップＳ５において、レンダリング部６５−１〜６５−ｎの各々では、仮想空間生成部６４で構築された仮想空間にカメラ（視点）を設定し、３次元グラフィックス画像を生成して出力する。

そして、ステップＳ６において、レンダリング部６５−１〜６５−ｎの各々から供給される３次元グラフィックス画像は、画像合成部６６によって適宜合成され、合成して生成された表示画像が、表示装置１１０−１〜１１０−ｎの各々に出力される。あるいは、レンダリング部６５−１〜６５−ｎの各々から供給される３次元グラフィックス画像は表示画像として、画像合成部６６を介して表示装置１１０−１〜１１０−ｎの各々の中から対応する表示装置に出力される。

最後に、ステップＳ７において、制御部８０は映像の提示を終了するか否か、すなわち映像データの入力が終了したか否か又は映像提示の終了指示があったか否かの判断が行われる。映像提示を終了する場合には一連の処理は終了となる。映像提示が継続している場合には、ステップＳ１に戻ってさらに処理が続けられる。

次に、図７及び図８を参照して、サムネイル生成部６２の詳細について説明する。
このサムネイル生成部６２は、入力される映像データから所定の間隔でサムネイル画像を順に１枚（１フレーム）ずつ生成するものである。

図７は、サムネイル生成部６２から出力されるサムネイル画像の構成を示す模式図である。
図７に示した例では、サムネイル画像の一覧としての出力画像Ｉｍに対し、時間にしてＳ間隔ごとの映像のサムネイル画像Ｉｍ０〜Ｉｍｎが原点１２０を始点にして縦間隔ＶＳごとに配置される。ここで、Ｖ（ｐｉｘｅｌ／ｓ）は後述するレンダリング用カメラ（視点）の移動速度（画素単位に変換したもの）である。また、Ｓはサムネイル時間間隔である。

このとき、隣接するサムネイル画像同士を接合した状態に配置すると、サムネイル画像が連続して切れ目なく表示され非常に見づらいものになる。したがって、実際に出力画像Ｉｍのサムネイル画像位置に貼り付けられるサムネイル画像の縦方向（視点移動方向）の長さ（ピクセル数）は、隣接するサムネイル画像間で所定のマージン(隙間)を持たせることが好適である。そのため、貼り付けられるサムネイル画像の視点移動方向の長さは、縦間隔ＶＳより短くすることが望ましい。

なお、サムネイル時間間隔ついては、予め１０秒などの適切な間隔に固定しておいてもよいし、ユーザＩ／Ｆ９０へのユーザ入力により視聴者が所望するサムネイル間隔を選択できるようにしてもよい。このようにした場合、視聴者は、好みの時間間隔でサムネイル画像を表示させることができるので、自身の情報取得能力に合わせて提示された情報を効率よく取得できる。

図８に、サムネイル生成部６２によるサムネイル画像生成処理の例をフローチャートで示してある。
ステップＳ１１において、サムネイル生成部６２は、まず出力画像Ｉｍのサムネイル画像の通し番号ｉを０とし、また、出力用画像メモリ６２ａを、表示画面１０の背景色Ｉｍｂ（図２参照）を適用して初期化する。この処理が終了後、ステップＳ１２の処理に進む。

ステップＳ１２において、サムネイル生成部６２は、通し番号ｉ（ｉは０以上の整数）のサムネイル画像の配置位置Ｐｉを計算する。配置位置Ｐｉは次式で表すことができる。
Ｐｉ＝ｉＶＳ
この計算式から理解できるように配置位置Ｐｉは原点１２０からの距離を表すものであり、具体的には通し番号ｉのサムネイル画像の下辺（下端）と原点１２０との距離である（図７参照）。ｉ＝０の場合、配置位置Ｐ０＝０となって原点１２０と一致する。この処理が終了後、ステップＳ１３の処理に進む。

ステップＳ１３において、サムネイル生成部６２は、データメモリ６１に蓄積された映像データの基準時刻からの時刻ｉＳ（再生開始からの経過時間）に対応する画像を取得する。なお、ｉ＝０のときは時刻ｉＳ＝０となり対応する画像がない。そこで、このような場合は、基準時刻（再生開始）からサムネイル時間間隔よりもずっと短い時間、例えば１．２秒後の画像を取得するようにしてもよい。この処理が終了後、ステップＳ１４の処理に進む。

ステップＳ１４において、サムネイル生成部６２は、取得した画像を縮小してサムネイル画像を作成する。この処理が終了後、ステップＳ１５の処理に進む。

ステップＳ１５において、サムネイル生成部６２は、作成したサムネイル画像を出力用画像メモリ６２ａの出力画像Ｉｍの座標（０，Ｐ）に相当する位置に貼り付ける。すなわち、作成した時刻ｉＳにおけるサムネイル画像の左下角の頂点が、出力画像Ｉｍの対応する座標（配置位置Ｐｉにおけるサムネイル画像Ｉｍｉの左下角の頂点）と重なるように貼り付ける。例えばｉ＝０のときは、取得したサムネイル画像の左下角の頂点を出力画像Ｉｍの座標（０,０）の位置に合わせて貼り付けるようにする。この処理が終了後、ステップＳ１６の処理に進む。

ステップＳ１６において、サムネイル生成部６２は、出力画像Ｉｍの先頭（原点１２０側）からｉ番目の配置位置Ｐｉへのサムネイル画像の貼り付けが終了した後、続いて、通し番号ｉ←ｉ＋１とする。すなわち、出力画像Ｉｍの先頭からｉ＋１番目の配置位置Ｐｉ＋１へのサムネイル画像の貼り付けを行う。例えば、通し番号ｉ＝０であった場合にはｉ←０＋１＝１とする。この処理が終了後、ステップＳ１７の処理に進む。

ステップＳ１７において、サムネイル生成部６２は、時刻ｉＳがデータメモリ６１に蓄積された映像データの再生時間の終了後の時刻であるか否かを判定する。時刻ｉＳが再生時間の終了後の時刻である場合には、ステップＳ１８の処理に進む。一方、時刻ｉＳが再生時間の終了後の時刻ではない、すなわち再生時間が残っている場合には、ステップＳ１２の処理に移行し、上記ステップＳ１２〜Ｓ１７の処理を繰り返す。このような手順を、通し番号ｉ＝ｎとなるまで繰り返すことにより、サムネイル画像の一覧が貼り付けられた出力画像Ｉｍを作成し、出力用画像メモリ６２ａに蓄積する。

最後にステップＳ１８において、サムネイル生成部６２は、出力用画像メモリ６２ａに蓄積された出力画像Ｉｍを仮想空間生成部６４へ出力する。この処理が終了後、サムネイル画像生成処理を終了する。

なお、本実施の形態の例では、図７に示した出力画像Ｉｍは１列（１レーン）であるが、後述するような１つの表示装置又は複数の表示装置を用いて複数の番組の映像を同時に表示する場合、図８のフローチャートに示す処理を複数の番組の映像に適用する。すなわち、表示する番組数に対応して複数の出力画像を生成する。

次に、図９〜図１１を参照して、字幕画像生成部６３の詳細について説明する。
この字幕画像生成部６３は、映像データが蓄積されたデータメモリ６１から字幕情報を順に一つずつ取り出して、その字幕内容を画像に変換するものである。

図９は、字幕画像生成部６３内に設けられた字幕情報テーブル６３ａの構成例を示す図である。
字幕情報テーブル６３ａは、例えば１つの番組中にメタデータとして含まれるすべての字幕情報を、字幕のひとまとまり毎に区切り、区切られた字幕のまとまり毎に、画面への表示開始時刻Ｔｓと、表示終了時刻Ｔｅと、字幕の内容を示したものである。表示開始時間Ｔｓと表示終了時刻Ｔｅとは、番組等のコンテンツが開始されてからの経過秒数で示してある。字幕Ｎｏとは、各字幕のまとまりに対して、表示開始時間の早いものから順に割り振った通し番号である。

図９に示した例では、字幕Ｎｏ０には、「お昼のニュースを」で始まる字幕のひとまとまりについての情報が記載されている。そしてこの記載の内容から、この字幕が、番組開始後１．２秒の時点（表示開始時刻Ｔｓ）で画面上に表示され、５．５秒を経過した時点（表示終了時刻Ｔｅ）で表示が終了となることが分かる。この次に表示される字幕の情報は、字幕Ｎｏ１として登録されている。字幕Ｎｏ１には、表示開始時刻Ｔｓが７．３秒、表示終了時刻Ｔｅは１２．１秒、字幕内容は「今日の午前、千葉県・・・」という字幕の情報が記述されている。つまり、番組開始後７．３秒が経過した時点から１２．１秒の時点までは「今日の午前、千葉県」で始まる字幕のひとまとまりが表示されることが分かる。

なお、字幕画像の時間間隔もしくは表示時間は、ユーザＩ／Ｆ９０へのユーザ入力により視聴者が所望する時間間隔又は表示時間を選択できるようにしてもよい。このようにした場合、視聴者は、好みの時間間隔又は表示時間で字幕画像を表示させることができるので、自身の情報取得能力に合わせて提示された情報を効率よく取得できる。

図１０は、図９に示す字幕情報テーブル６３ａの字幕情報を基に生成した字幕画像の例を示すものである。
字幕画像生成部６３では、一つの字幕のまとまりについて、字幕画像を１枚（１フレーム）生成する。この字幕画像は、字幕画像０，１，２・・・といったように字幕情報の通し番号に対応している。これらすべての字幕画像の画像サイズは固定されている。換言すれば字幕の長短にかかわらず一定の大きさ（長さ）ということであり、一つの字幕画像に表示できる字幕の長さに制限が設けられているということである。このように制限を設けることにより、字幕が長くなり過ぎることがなく、視聴者が適切かつ効率よく映像を視聴することが可能になる。

図１１に、字幕画像生成部６３による字幕画像生成処理の例をフローチャートで示してある。
ステップＳ２１において、字幕画像生成部６３は、まず対象とする字幕の通し番号ｉを０にする。この処理が終了後、ステップＳ２２の処理に進む。

ステップＳ２２において、字幕画像生成部６３は、出力用画像用メモリ６３ａを、任意色例えば透明色を適用することによって初期化する。この処理が終了後、ステップＳ２３の処理に進む。

ステップＳ２３において、字幕画像生成部６３は、データメモリ６１に蓄積された映像データからｉ番目の字幕情報を取得する。すなわち、図９に示した字幕情報テーブルからｉ番目の字幕情報を取得する。例えば通し番号ｉ＝０の場合、字幕Ｎｏ０の「お昼のニュースを・・・」という内容の字幕情報を抽出し、出力用画像メモリ６３ｂに保存する。この処理が終了後、ステップＳ２４の処理に進む。

ステップＳ２４において、字幕画像生成部６３は、取得すべき字幕情報が残っているかどうかを判定する。取得する字幕情報があると判定された場合、ステップＳ２５の処理に進む。一方、取得する字幕情報がないと判定された場合、ステップＳ２７の処理に進む。例えば通し番号ｉ＝０の場合、まだ取得すべき字幕情報ありと判定されてステップＳ２５の処理に移る。

ステップＳ２５において、字幕画像生成部６３は、該当通し番号の字幕情報における字幕内容を画像として、すなわち字幕画像として生成する。この処理が終了後、ステップＳ２６の処理に移行する。

ステップＳ２６において、字幕画像生成部６３は、対象とする通し番号ｉ←ｉ＋１とする。すなわち、字幕情報テーブルから抽出する字幕情報の通し番号をｉ＋１とする。例えば、通し番号ｉ＝０であった場合にはｉ←０＋１＝１とする。この処理が終了後、ステップＳ２３の処理に移行し、上記ステップＳ２３〜Ｓ２６の処理を繰り返す。このような手順を、通し番号ｉ＝ｎとなるまで繰り返すことにより、一連の字幕画像０〜ｎを出力用画像メモリ６３ａに蓄積する。

最後にステップＳ２７において、字幕画像生成部６３は、ステップＳ２４の判定処理においてこれ以上取得する字幕情報がないと判定された場合、出力用画像メモリ６３ｂに蓄積した一連の字幕画像０〜ｎを仮想空間生成部６４へ出力する。この処理が終了後、字幕画像生成処理を終了する。

なお、発言者ＩＤなど、発言者を識別できる情報が字幕情報に含まれている場合、発言者によって字幕の色を変えるなどしてもよい。

また、例えば情報提示装置本体又は遠隔操作装置にユーザ・インタフェースとして字幕ボタンを設け、視聴者が字幕ボタンを押下した場合にだけ字幕画像生成部６３が動作して、字幕画像が表示されるようにしてもよい。字幕ボタンなどの手段を用いて字幕画像表示のオン・オフを切り替えられるようにした場合、視聴者は自身の状況に合わせて視聴状態を切り替えることができる。例えば、映像の視聴に集中したい場合には字幕画像の表示をオフにするなどの利用形態が考えられる。

また、本実施の形態では、図７に示した出力画像Ｉｍは１列（１レーン）であるが、後述するような１つの表示装置又は複数の表示装置を用いて複数の番組（コンテンツ）の映像を同時に表示する場合、図１１のフローチャートに示す処理を複数の番組の映像に対応づけられた各々の字幕情報に適用する。すなわち、表示する番組数に対応して一連の字幕画像を複数生成する。

さらに、本実施の形態では、映像データに含まれて画像と対応づけられている字幕情報から字幕画像を生成し副画像として利用しているが、これに限られるものではない。例えば、テロップや登場人物の顔、ＰｉｎＰ画像を副画像として表示するようにしてもよい。テロップや顔、ＰｉｎＰの検出手法については後述する。

次に、図１２〜図１５を参照して、仮想空間生成部６４の詳細について説明する。

まず、図１２〜図１４を参照して仮想空間生成部６４により構築される仮想空間について簡単に説明する。図１２は、カメラが始点（再生開始位置）にある場合の仮想空間の３次元モデル（以下、「３Ｄモデル」という。）の例を示す図であり、Ａは側面図、Ｂは上面図である。図１３は、図１２に示す状態から所定時間経過後における仮想空間の３Ｄモデルの例を示す図である。さらに、図１４は、カメラが終点（再生終了位置）に到達した場合の仮想空間の３Ｄモデルの例を示す図である。

仮想空間は一つの番組（コンテンツ）につき一つの「サムネイル表示用オブジェクト」と、複数の「字幕表示用オブジェクト」で構成される。「サムネイル表示用オブジェクト」は出力画像Ｉｍ（図７参照）から、また「字幕表示用オブジェクト」は字幕画像（図１０参照）からそれぞれ作成される。この「サムネイル表示用オブジェクト」が図１に示した「路面」に、「字幕表示用オブジェクト」が「道路標識」に相当する。

図１２Ａ，Ｂに示すように、番組の映像の時間長をＬとすると、サムネイル表示用オブジェクト１３０の長さはＶＬである。ここでＶはレンダリング用カメラ（以下、「カメラ」と称する。）ＲＣの移動速度（ｐｉｘｅｌ／ｓ）である。また字幕表示用オブジェクトＣｏ０〜Ｃｏ５は、カメラＲＣが該当字幕表示用オブジェクトの下を通過する時刻と字幕の表示終了時刻Ｔｅが一致するように、各々の表示終了時刻Ｔｅに基づいたＶＴｅの位置に順に配置される。なお本実施の形態の例では、サムネイル表示用オブジェクト１３０から各字幕表示用オブジェクトＣｏ０〜Ｃｏ５の下辺（下端）までの距離（高さ）をｈとしてある。図１２Ａ，Ｂに示す例では、カメラＲＣが始点にあるため、最も近くかつ初めに見えるのは字幕表示用オブジェクトＣｏ０である。

図１３に示す例では、カメラＲＣが終点方向へ移動し、字幕表示用オブジェクトＣｏ０を通過して次の字幕表示用オブジェクトＣｏ１の手前に位置している状態を表している。

図１４に示す例では、再生動作を継続したときに、カメラＲＣが図１３に示した状態からさらに移動して仮想空間の終点に達した状態を表している。カメラＲＣが終点に到達すると、サムネイル表示用オブジェクト１３０及び字幕表示用オブジェクトＣｏ０〜Ｃｏ５の表示が終了する。なお、図１２〜図１４の示す例では、字幕表示用オブジェクトの数が字幕表示用オブジェクトＣｏ０〜Ｃｏ５の６個であるが、この例に限られるものではない。

上記仮想空間を生成するための、仮想空間生成部６４による仮想空間生成処理の例を図１５に示すフローチャートを参照して説明する。
ステップＳ３１において、仮想空間生成部６４は、まず対象とする通し番号ｉを０にして仮想空間を初期化する。この処理が終了後、ステップＳ３２の処理に進む。

ステップＳ３２において、仮想空間生成部６４は、字幕画像生成部６３から供給される各々の字幕画像に対応してそれぞれに字幕表示用オブジェクト（図１２〜図１３参照）を生成する。この処理が終了後、ステップＳ３３の処理に進む。

ステップＳ３３において、仮想空間生成部６４は、データメモリ６１に蓄積された映像データからｉ番目の字幕情報を取得する。例えばｉ＝０の場合、「お昼のニュースを・・・」という内容の字幕情報（図９，図１０参照）を抽出する。この処理が終了後、ステップＳ３４の処理に進む。

ステップＳ３４において、仮想空間生成部６４は、取得する字幕情報が残っているかどうかを判定する。取得する字幕情報があると判定された場合、ステップＳ３５の処理に進む。一方、取得する字幕情報がないと判定された場合、ステップＳ３８の処理に進む。例えば通し番号ｉ＝０の場合、まだ取得すべき字幕情報ありと判定されてステップＳ３５の処理に移る。

ステップＳ３５において、仮想空間生成部６４は、ステップＳ３２の処理で生成した字幕表示用オブジェクトの表面に、字幕画像生成部６３から受信した通し番号ｉの字幕画像をテクスチャとしてマッピングする。通し番号ｉの字幕画像は、映像データの再生開始時点からの経過時間（再生時間）に対応するものである。例えば通し番号ｉ＝０の場合、字幕Ｎｏ０の「お昼のニュースを・・・」という内容の字幕画像Ｃ０を字幕表示用オブジェクトの表面にマッピングする。この処理が終了後、ステップＳ３６の処理に進む。

ステップＳ３６において、仮想空間生成部６４はさらに、表面に字幕画像がマッピングされた字幕表示用オブジェクトを、仮想空間内の高さｈ、かつ、字幕情報の表示終了時刻Ｔｅに基づく奥行きＶＴｅに配置する（図１２Ａ，Ｂ参照）。例えば通し番号ｉ＝０の場合、字幕表示用オブジェクトＣｏ０を図１２Ｂに示す位置に配置する。この処理が終了後、ステップＳ３７の処理に進む。

ステップＳ３７において、仮想空間生成部６４は、対象とする通し番号ｉ←ｉ＋１とする。すなわち、データメモリ６１から受信する字幕情報の通し番号をｉ＋１とする。例えば、通し番号ｉ＝０であった場合にはｉ←０＋１＝１とする。この処理が終了後、ステップＳ３３の処理に移行し、上記ステップＳ３３〜Ｓ３７の処理を繰り返す。このような手順を、通し番号ｉ＝ｎとなるまで繰り返すことにより、一連の字幕画像０〜ｎを各字幕表示用オブジェクトにマッピングすることができる。

ステップＳ３８において、仮想空間生成部６４は、ステップＳ３４の判定処理においてこれ以上取得する字幕情報がないと判定された後、番組の映像の時間長Ｌ及びカメラＲＣの移動速度Ｖに基づき、長さＶＬのサムネイル表示用オブジェクト１３０（図１２Ｂ参照）を生成する。この処理が終了後、ステップＳ３９の処理に進む。

ステップＳ３９において、仮想空間生成部６４は、サムネイル生成部６２から受信したサムネイル画像の一覧を含む出力画像Ｉｍ（図７参照）を、サムネイル表示用オブジェクト１３０にテクスチャとしてマッピングする。この処理が終了後、仮想空間生成処理を終了する。

上述した処理を経て、映像データのサムネイル画像の一覧がテクスチャとしてマッピングされたサムネイル表示用オブジェクトと、映像データの字幕画像がテクスチャとしてマッピングされた字幕表示用オブジェクトを含む仮想空間が構築される。

次に、図１６及び図１７を参照して、レンダリング部６５−１〜６５−ｎの詳細について説明する。

レンダリング部６５−１〜６５−ｎは、制御部８０の指示に基づいて動作する。例えば表示する番組数が１つの場合は、仮想空間生成部６４から仮想空間のデータが１つのレンダリング部に供給される。あるいは、２つの番組を同時に表示する場合には、仮想空間生成部６４から仮想空間のデータが２つのレンダリング部に供給される。２番組以上を同時に表示する場合の詳細は後述する。なお、各レンダリング部６５−１〜６５−ｎの構成は同一であるから、レンダリング部６５−１についてのみ説明を行い、他のレンダリング部については説明を割愛する。

図１６は、レンダリング部６５−１によるレンダリング処理の例をフローチャートで示したものである。図１６に示したフローチャートについて、図１７を参照しながら説明する。

まずステップＳ５１において、レンダリング部６５−１は、制御部８０からパラメータを取得する。このパラメータには、例えば番組の種類、番組の開始時刻及び終了時刻、もしくは再生時間、視点（レンダリング用カメラＲＣ）の高さなどの設定値が含まれる。この処理が終了後、ステップＳ５２の処理に進む。

ステップＳ５２において、レンダリング部６５−１は、制御部８０から受信したパラメータに基づいて、仮想空間生成部６４で生成された仮想空間内の所定位置にカメラＲＣ（図１７参照）を配置する。この処理が終了後、ステップＳ５３の処理に進む。

ステップＳ５３において、レンダリング部６５−１は、カメラＲＣから仮想空間（三次元世界）を観測したときに得られる情報に基づいて仮想空間をレンダリング（投影処理）し、２次元の平面（表示画像）に描画する。図１７に示す例では、仮想空間１４０内のカメラＲＣのある瞬間における情報として、例えば仮想空間サムネイル表示用オブジェクト１３０上の観測点１４１，１４２、仮想空間１４０の天井部分の観測点１４３、字幕表示用オブジェクトＣｏ２の字幕画像上の観測点１４４の情報などが、カメラＲＣ前面の投影面に得られる。その投影面に得られた情報が、そのカメＲＣから見える情景や物体（あるいはその一部）ということになる。実際にはカメラＲＣで観測される無数の情報を利用してレンダリングが行われる。このような仮想空間（ワールド座標系）から２次元の平面（視点座標系）に変換するレンダリング技術は周知慣用の技術である。この処理が終了後、ステップＳ５４の処理に進む。

ステップＳ５４において、レンダリング部６５−１は、得られた画像を画像合成部６６へ出力する。この処理が終了後、ステップＳ５５の処理に進む。

ステップＳ５５において、レンダリング部６５−１は、制御部８０からの指示に基づいて番組の表示を終了するか否か、すなわち映像データの入力が終了したか否か又は映像提示の終了指示があったか否かを判定する。表示を終了しないと判定された場合、ステップＳ５１へ移行し、上述したステップＳ５１〜Ｓ５５の処理を繰り返して表示を継続する。一方、表示を終了すると判定された場合、レンダリング処理を終了する。

次に、画像合成部６６について説明する。
画像合成部６６は、制御部８０からの指示に基づいて動作するものである。例えば表示する番組数が１つの場合は、１つのレンダリング部から受信した画像を１つの表示装置へ出力する。また、２つの番組を同時に別々の表示装置で表示する場合には、別個のレンダリング部から受信した画像をそれぞれの表示装置へ出力する。一方、２つの番組を同一の表示装置で表示する場合には、２つのレンダリング部から受信した各番組の画像を並べた表示画面の画像を生成し、その画面を一つの表示装置へ出力する。３つ以上の番組についても同様の手法で処理できる。なお、２つ又はそれ以上の番組の表示例については後述する。

上述した実施の形態によれば、自然な物理運動として自動車などの移動体に着目し、その移動体の車窓からの景色に見立てた映像提示を行うことができる。具体的には表示画面に、車窓から見える路面に相当するサムネイル表示用オブジェクトに番組（コンテンツ）のサムネイル画像（主画像）を配し、道路標識に相当する字幕表示用オブジェクトに字幕画像（副画像）を表示する。

このような構成により、再生対象の現在の情報（手前の画像）に加え、未来の情報（遠方の画像）を予め画面に時系列に提示することができる。その結果、視聴者は、前方（未来の主画像・副画像）を見通しながら視聴できるようになり、番組の先の展開を予測しつつ視聴することができるため、番組展開を余裕を持って視聴できる。

また、上述した実施の形態によれば、車窓からの景色に見立てた自然な物理運動を取り入れた映像提示、すなわち自然な景色の流れを表現することにより、視聴者の番組（コンテンツ）の理解を助けるとともに脳や目への負担を軽減することができる。

また、上述した実施の形態によれば、字幕が近づいてくるという表示形態としたことによって、視聴者の字幕の見逃しを減少させることができる。

上述した実施の形態によれば、仮想空間内に番組（コンテンツ）の要素（画像、字幕など）を配置し、空間配置のコンテンツの関連付けを行いやすくなったので、２以上の番組を同時に表示した場合であっても内容の混同が減少する。

［第１の実施の形態の第１変形例］
次に、本発明の第１の実施の形態の第１変形例について、図１８〜図２３を参照して説明する。
番組の映像データにメタデータとして与えられる字幕情報以外にも、映像データから取得した情報を副画像として利用することができる。本実施の形態の変形例は、情報提示装置１００の表示映像生成部が、字幕画像生成部６３で生成された字幕画像の代わりに、映像から切り出したテロップ画像や顔画像、ＰｉｎＰ（Picture In Picture）の子画面を副画像として利用できるように構成したものである。以下では、図１８〜図２３において、上記既出図面に対応する部分には同一符号を付して示し、詳細な説明を省略する。

図１８は、第１の実施の形態の第１変形例における表示映像生成部６０Ａの内部構成を示した図である。
表示映像生成部６０Ａは、データメモリ６１、第１の画像生成部としてのサムネイル生成部６２、第２の画像生成部としてのテロップ検出部１５０、顔検出部１６０及びＰｉｎＰ検出部１７０、仮想空間生成部６４、レンダリング部６５−１〜６５−ｎ（ｎは自然数）、画像合成部６６とを有する。

次に、図１９及び図２０を参照して、テロップ検出部１５０について詳細に説明する。
テロップ検出部１５０は、データメモリ６１から受信する映像データからテロップを検出してテロップ画像（副画像）に変換し、仮想空間生成部６４へ出力する。テロップ検出の技術は周知であり、例えば特開２００６−３３１０５７号公報などに記載された技術を利用できる。またテロップ検出部１５０は、テロップの内容や出現時間によって区分することにより生成したテロップ用テーブル１５０ａと、テロップ画像の生成に用いるテロップ情報を一時的に蓄積しておく領域としての出力用画像メモリ１５０ｂも備える。

図１９のフローチャートを参照して、テロップ検出部１５０によるテロップ検出処理の例を説明する。
ステップＳ６１において、まずテロップ検出部１５０は、データメモリ６１から番組（コンテンツ）の映像データを取得する。この処理が終了後、ステップＳ６２の処理に進む。

ステップＳ６２において、テロップ検出部１５０は、テロップ番号を０に設定して初期化する。この処理が終了後、ステップＳ６３の処理に進む。

ステップＳ６３において、テロップ検出部１５０は、取得した映像データの最初のフレームについてテロップが出現したか否かを判定する。テロップが出現した場合はステップＳ６４へ進む。一方、テロップが出願しなかった場合はステップＳ６７へ進む。

ステップＳ６４において、テロップ検出部１５０は、検出したテロップの表示画面上での座標を取得する。この座標を取得する際にテロップのどの部分を基準とするかは任意であるが、通常はテロップの中心を基準にする。この処理が終了後、ステップＳ６５の処理に進む。

ステップＳ６５において、テロップ検出部１５０は、検出したテロップの位置を上記座標を用いて特定し、当該テロップを含む画像を切り出す。この処理が終了後、ステップＳ６６の処理に進む。

ステップＳ６６において、テロップ検出部１５０は、検出したテロップの出現時刻を取得する。この処理が終了後、ステップＳ６７の処理に進む。

ステップＳ６７において、テロップ検出部１５０は、検出したテロップが消滅したか否かを判定する。テロップが消滅した場合はステップＳ６８へ進む。一方、テロップが消滅しなかった場合は次のフレームについてテロップ検出処理を実施する。

上記ステップＳ６３〜ステップＳ７０の処理を映像の最初のフレームから最後のフレームまで実施する。

そして、テロップ検出部１５０は、映像データの最後のフレームについてのテロップ検出処理が終了した後、テロップ情報を記述したテロップ用テーブル１５０ａすなわちテロップ画像Ｔ０，Ｔ１，Ｔ２，Ｔ３，・・・を仮想空間生成部６４へ出力する。この処理が終了した後、一連のテロップ検出処理を終了する。

図２０は、テロップ情報が記述されたテロップ用テーブルの例を示す図である。
テロップ用テーブルは、上記の一連のテロップ検出処理によって生成される。例えば１つの番組の映像に含まれるすべてのテロップ画像毎に区切り、区切られたテロップ画像毎に、画面への表示開始時刻Ｔｓと、表示終了時刻Ｔｅと、テロップの内容を示したものである。つまり、検出したテロップ画像Ｔ０，Ｔ１，Ｔ２，Ｔ３，・・・が集められたテーブルである。表示開始時間Ｔｓと表示終了時刻Ｔｅとは、字幕の場合と同様に、番組等のコンテンツが開始されてからの経過秒数で示してある。テロップＮｏとは、各テロップ画像に対して、表示開始時間の早いものから順に割り振った通し番号である。

図２０に示した例では、テロップＮｏ０には、「お昼のニュース」のテロップ画像Ｔ０に関する情報が記載されている。そしてこの記載の内容から、このテロップ画像Ｔ０が、番組開始後１．２秒の時点（表示開始時刻Ｔｓ）で画面上に表示され、５．５秒を経過した時点（表示終了時刻Ｔｅ）で表示が終了となることが分かる。この次に表示されるテロップ画像Ｔ１は、テロップＮｏ１として登録されている。テロップＮｏ１には、表示開始時刻Ｔｓが７．３秒、表示終了時刻Ｔｅは１２．１秒、テロップ内容は「千葉通り魔」が記述されている。つまり、番組開始後７．３秒が経過した時点から１２．１秒の時点までは「千葉通り魔」のテロップ画像Ｔ１が表示されることが分かる。

上述のようにして、仮想空間生成部６４に出力されたテロップ画像Ｔ０，Ｔ１，Ｔ２，Ｔ３，・・・は、それぞれ字幕画像の代わりに仮想空間の各字幕表示用オブジェクトの表面にマッピングされる。さらに、レンダリング部においてレンダリング処理されることにより、２次元の平面（表示画像）に描画され、それら表示画像が画像合成部６６を介して適切な表示装置に送信され、表示装置の表示画面に表示される。このようにして、テロップ画像が字幕画像の代わりに仮想空間の各字幕表示用オブジェクトに副画像として表示される。

次に、図２１及び図２２を参照して、顔検出部１６０について詳細に説明する。
顔検出部１６０は、データメモリ６１から受信する映像データから登場人物の顔部分の画像を検出し、顔画像（副画像）として仮想空間生成部６４へ出力する。顔検出の技術は周知であり、例えば特開２００７−２４１４９６号公報などに記載された技術を利用できる。また顔検出部１６０は、顔の内容や出現時間によって区分することにより生成した顔用テーブル１６０ａと、顔画像の生成に用いる顔情報を一時的に蓄積しておく領域としての出力用画像メモリ１６０ｂも備える。

図２１のフローチャートを参照して、顔検出部１６０による顔検出処理の例を説明する。
ステップＳ８１において、まず顔検出部１６０は、データメモリ６１から番組（コンテンツ）の映像データを取得する。この処理が終了後、ステップＳ８２の処理に進む。

ステップＳ８２において、顔検出部１６０は、顔番号を０に設定して初期化する。この処理が終了後、ステップＳ８３の処理に進む。

ステップＳ８３において、顔検出部１６０は、取得した映像データの最初のフレームについて顔が出現したか否かを判定する。顔が出現した場合はステップＳ８４へ進む。一方、顔が出願しなかった場合はステップＳ８７へ進む。

ステップＳ８４において、顔検出部１６０は、検出した顔の表示画面上での座標を取得する。この座標を取得する際に顔のどの部分を基準とするかは任意である。この処理が終了後、ステップＳ８５の処理に進む。

ステップＳ８５において、顔検出部１６０は、検出した顔の位置を上記座標を用いて特定し、当該顔を含む画像を切り出す。この処理が終了後、ステップＳ８６の処理に進む。

ステップＳ８６において、顔検出部１６０は、検出した顔の出現時刻を取得する。この処理が終了後、ステップＳ８７の処理に進む。

ステップＳ８７において、顔検出部１６０は、検出した顔が消滅したか否かを判定する。顔が消滅した場合はステップＳ８８へ進む。一方、顔が消滅しなかった場合は次のフレームについて顔検出処理を実施する。

上記ステップＳ８３〜ステップＳ９０の処理を映像の最初のフレームから最後のフレームまで実施する。

そして、顔検出部１６０は、映像データの最後のフレームについての顔検出処理が終了した後、顔情報を記述した顔用テーブル１６０ａすなわち顔画像Ｆ０，Ｆ１，Ｆ２，Ｆ３，・・・を仮想空間生成部６４へ出力する。この処理が終了した後、一連の顔検出処理を終了する。

図２２は、顔情報が記述された顔用テーブルの例を示す図である。
顔用テーブルは、上記の一連の顔検出処理によって生成される。例えば１つの番組の映像に含まれるすべての顔画像毎に区切り、区切られた顔画像毎に、画面への表示開始時刻Ｔｓと、表示終了時刻Ｔｅと、顔の内容を示したものである。つまり、検出した顔画像Ｆ０，Ｆ１，Ｆ２，Ｆ３，・・・が集められたテーブルである。表示開始時間Ｔｓと表示終了時刻Ｔｅとは、字幕及びテロップの場合と同様に、番組等のコンテンツが開始されてからの経過秒数で示してある。顔Ｎｏとは、各顔画像に対して、表示開始時間の早いものから順に割り振った通し番号である。

図２２に示した例では、顔Ｎｏ０には、顔画像Ｆ０に関する情報が記載されている。そしてこの記載の内容から、この顔画像Ｆ０が、番組開始後３０．３秒の時点（表示開始時刻Ｔｓ）で画面上に表示され、４５．２秒を経過した時点（表示終了時刻Ｔｅ）で表示が終了となることが分かる。この次に表示される顔画像Ｆ１は、顔Ｎｏ１として登録されている。顔Ｎｏ１には、表示開始時刻Ｔｓが１２０．５秒、表示終了時刻Ｔｅは１３４．２秒、顔画像Ｆ２が記述されている。つまり、番組開始後１２０．５秒が経過した時点から１３４．２秒の時点までは顔画像Ｆ１が表示されることが分かる。

上述のようにして、仮想空間生成部６４に出力された顔画像Ｆ０，Ｆ１，Ｆ２，Ｆ３，・・・は、それぞれ字幕画像の代わりに仮想空間の各字幕表示用オブジェクトの表面にマッピングされる。さらに、レンダリング部においてレンダリング処理されることにより、２次元の平面（表示画像）に描画され、それら表示画像が画像合成部６６を介して適切な表示装置に送信され、表示装置の表示画面に表示される。このようにして、顔画像が字幕画像の代わりに仮想空間の各字幕表示用オブジェクトに副画像として表示される。

次に、ＰｉｎＰ検出部１７０について説明する。
ＰｉｎＰ検出部１７０は、映像データの通常の画像上に、ＰｉｎＰの子画面として重畳するように合成して表示されたＰｉｎＰ領域内の画像を検出及び抽出するものである。このＰｉｎＰ検出部１７０は、抽出した画像を縮小して小画像を生成し、その小画像（副画像）を仮想空間生成部６４へ出力する。また、ＰｉｎＰ検出部１７０は、ＰｉｎＰの子画面としての画像を一時的に蓄積しておく領域としての出力用画像メモリ１７０ａを備える。

図２３は、ＰｉｎＰ検出部１７０から出力された画像が表示された表示画面１０Ａの例を示す図である。
図２３に示す例は、表示画面１０Ａに、主画像としてのサムネイル画像Ｉｍ０〜Ｉｍ５と副画像としての字幕画像Ｃ０〜Ｃ５がそれぞれ、車窓から見た路面と道路標識に見たてて表示され、空いている任意の領域にＰｉｎＰによる子画面１８０が表示されている。すなわち、表示画像１０Ａは、図３に示した表示画面１０に子画面１８０を表示させたものである。このように子画面を表示することにより、視聴者はより多くの情報を取得することができる。

また、サムネイル表示用オブジェクト上のサムネイル画像の一覧に、テレビジョン番組を表示している場合などには、その時点で他の放送局で放映されている別のテレビジョン番組等を表示させるようにしてもよい。

上述した第１の実施の形態に係る第１変形例では、字幕画像生成部６３の代わりに、テロップ検出部１５０、顔検出部１６０、ＰｉｎＰ検出部１７０のいずれかを備えていればよい。また、字幕画像生成部６３を含まないこれらの組合せ、あるいは、字幕画像生成部６３を含んだ組合せから構成してもよい。

［第１の実施の形態の第２変形例］
次に、本発明の第１の実施の形態の第２変形例について、図２４を参照して説明する。
ここまでは１つの番組に関しての映像生成手順について説明したが、複数番組の映像も同様に生成することができる。この第１の実施の形態の第２変形例では、１つの表示装置の表示画面に２番組の映像を同時に表示するようにしている。つまり、表示画面の左右にそれぞれの番組のレーンを設置し、カメラ（視点）はその中央を移動しながら２番組を同時に視聴できるようにしたものである。

図２４は、第１の実施の形態の第２変形例に係る２番組表示の例を示す図である。
図２４において、表示画面１０Ｂに、第１番組用の第１レーン（サムネイル表示用オブジェクト）１９１と第２番組用の第２レーン（サムネイル表示用オブジェクト）１９２が並列に表示されている。第１番組については、例えば主画像としてサムネイル画像Ｉｍ１−０〜Ｉｍ１−４、副画像として字幕画像Ｃ１−０〜Ｃ１−４が表示してある。また第２番組については、例えば主画像としてサムネイル画像Ｉｍ２−０〜Ｉｍ２−４、副画像として字幕画像Ｃ２−０〜Ｃ２−４が表示してある。

このように１つの表示装置に２番組の映像を表示するには、表示映像生成部６０の仮想空間生成部６４において、２つの番組の映像データを基にして１つの仮想空間にそれぞれの番組映像のサムネイル表示用オブジェクトと字幕表示用オブジェクトを左右に並列に配置する。そして、この仮想空間を１つのレンダリング部例えばレンダリング６５−１でレンダリング処理し、画像合成部６６を経て表示装置１１０−１に表示画面１０Ｃを表示する。なお、仮想空間に配置するカメラＲＣ（図１２〜図１４参照）は２番組の映像の接合部分、すなわち左右のほぼ中央が好ましいが中央には限られない。

上述した第１の実施の形態の第２変形例によれば、視聴者は左右に隣接する２つの番組の空間配置（位置関係）がしっかり認識できるので、番組間で内容を混同しにくくなる。

また、先を見通しながら番組を視聴できるので、視聴者は同時に２番組を視聴しても余裕を持って視聴することができる。

また、サムネイル画像や字幕画像の提示方法を自動車の車窓からの景色に見立てた表示としていることにより、サムネイル画像や字幕画像の動きが自然であるため、視聴者は長時間視聴しても疲れにくい。

また、字幕が物理的に近づいて来る感覚があるので、無意識のうちに注目し、どちらか片方の番組の内容に集中しているときであっても、もう一方の番組の字幕を見落とすことが少なくなる。

［第１の実施の形態の第３変形例］
次に、本発明の第１の実施の形態の第３変形例について、図２５を参照して説明する。
この第１の実施の形態の第３変形例では、１つの表示装置の表示画面に３以上の複数の番組の映像を同時に並列に表示するようにしたものである。

図２５は、第１の実施の形態の第３変形例に係る複数番組表示の例を示す図である。
図２５に示す例では、表示画面１０Ｃに少なくとも第１〜第５の５番組のレーン（サムネイル表示用オブジェクト）２０１〜２０５が表示されている。また、各番組のレーンに対応して各字幕画像が表示される。この例では、第１レーン２０１に対応して字幕画像Ｃ１−０〜Ｃ１−２が、第２レーン２０２に対応してＣ２−０が、第３レーンに対応してＣ３−０が、第４レーンに対応してＣ４−０が、さらに第５レーンに対応してＣ５−０が表示されている。

このように１つの表示装置に複数の番組の映像を表示するには、表示映像生成部６０の仮想空間生成部６４において、表示対象の複数の番組の映像データを基にして１つの仮想空間にそれぞれの番組映像のサムネイル表示用オブジェクトと字幕表示用オブジェクトを含むレーンを隣り合わせて配置する。そして、この仮想空間を１つのレンダリング部例えばレンダリング６５−１でレンダリング処理し、画像合成部６６を経て表示装置１１０−１に表示画面１０Ｃを表示する。なお、仮想空間に配置するカメラＲＣ（図１２〜図１４参照）は複数番組のレーンの中央であって、かつ、視聴者が注目する番組を中央レーンに配置するのが好ましいと推測されるが、この例には限られない。

このような情報提示を行うことにより、複数の番組を同時に視聴したり、また、周囲を見渡す感覚で興味ある番組を探したりするという使い方が可能になる。この場合、カメラＲＣ（視点）の左右への動き方向に関する指示を視聴者がユーザＩ／Ｆ９０を介して制御部８０（図４）に対し入力することで、番組のレーンを変えながら、いろいろな番組を視聴できるようにする。さらに、複数の番組のなかから選択した番組のレーンを表示画面１０Ｃの中心に配置するようにすると、所望する番組を視聴しやすくなる。

［第１の実施の形態の第４変形例］
次に、本発明の第１の実施の形態の第４変形例について、図２６，図２７を参照して説明する。
この第１の実施の形態の第４変形例では、複数の表示装置を用いることによって、仮想空間の奥行き感を増長したり、遠方にある字幕を読みやすくしたりするものである。

図２６は、第１の実施の形態の第４変形例に係る複数個の表示装置による表示例を示す図である。
図２６に示す例では、複数の表示装置２１１〜２１４，２２１〜２２４が手前から奥にかけて上がるように段差を付けた階段状に配置してある。また左右方向の表示装置はレーンごとに分かれており、表示装置２１１〜２１４が同一番組を表示し、表示装置２２１〜２２４は別の同一番組を表示する。複数の表示装置２１１〜２１４，２２１〜２２４は、手前方向（下側）の表示装置には近距離（過去）の映像が、奥行き方向（上側）の表示装置には遠距離（未来）の映像が提示される。

図２７は、第１の実施の形態の第４変形例に係る複数カメラによる仮想空間の３Ｄモデルを示す図である。
図２７に示すように、表示装置２１１〜２１４に表示される番組映像の仮想空間に対して４個のカメラＲＣ１〜ＲＣ４を、それぞれ場所を変えて配置する。カメラＲＣ１の視点に基づいて生成される画像は手前方向（下側）の表示装置２１４に表示され、４個のカメラのうち最も進んだ位置にあるカメラＲＣ４の視点に基づいて生成される画像は奥行き方向（上側）の表示装置２１１に表示されるようにしてある。このようにすると、カメラＲＣ１から見て遠方にある字幕表示用オブジェクトＣｏ２は、カメラＲＣ２から見て近距離に位置する。そのため、表示装置２１４で見て遠距離にある字幕の文字が、表示装置２１１では大きく表示される。

なお、図２６，図２７に示した例では、表示装置とカメラが一対一に対応しており、２番組・８個の表示装置に対して８個のカメラ及び８個のレンダリング部（図５，図１８参照）が必要である。よって、仮想空間生成部６４で生成された２番組の映像の仮想空間の情報は、１番組につき４個のレンダリング部に出力される。そして、８個のレンダリング部から出力された画像が画像合成部６６を介して表示装置２１１〜２１４，２２１〜２２４にそれぞれ入力されて表示される。

このような情報提示を行うことによって、視聴者はより奥行き感を感じられるという利点がある。また１画面（例えば図３）の場合と比べて、遠距離にある字幕の文字が大きくなるので見やすくなる。

［音声の提示］
ここで、番組映像（コンテンツ）に付随する音声の提示方法について説明する。音声の提示方法には、以下のようなものが考えられる。

＜仮想空間での音声を提示＞
各番組のサムネイル画像の部分から音声が出ていると想定して、カメラ位置で聴こえる音をシミュレーションにより生成して提示する。これは、音声処理部７０において、映像データから分離された音声信号に対し表示時間（表示終了時刻Ｔｅ−表示開始時刻Ｔｓ）に比例して音量を大きくし、該音声信号を各表示装置のスピーカに供給することにより実現できる。

あるいは、情報処理部５０において符号化・復号処理部３０より受信した映像データに対し、表示映像生成部６０と音声処理部７０から出力される画像と音声の同期をとって各表示装置のスピーカへ出力するようにしてもよい。すなわち、音声処理部７０は、入力された映像データから分離された音声信号に対し所定の音声処理を実施し、その後に情報処理部５０が通常のとおり画像と音声を各表示装置のスピーカへ出力すればよい。サムネイル画像が遠方から近づいてくるので、音声を普通に再生しているだけでも視聴者はあたかもサムネイル画像から音声が出ているかのような感覚になるからである。

以上のような音声の提示を行うことにより、画面での見た目と音声の聴こえ方が一致するので、視聴者にとって違和感のない理解しやすいものとなる。

＜すべての音声を提示＞
すべての音声、例えばサムネイル画像に対応する音声と字幕に対応する音声（言葉）を同時に提示した場合、字幕についての音声は聞き取りにくくなる。しかし、字幕の提示と音声が同期しているので、視聴者が注意を向ければ、声質や調子などは聞き取ることができる。また背景音、効果音やＢＧＭなどは、比較的に音が混ざらずに聴けるので、番組の雰囲気を聞き取ることが可能である。

＜１つの音声を提示＞
複数の番組映像が提示されている場合、視聴者が選んだ番組や、カメラがある位置の番組の音声を提示する。または視聴者の視線を周知の視線検出センサで取得し、視線のある番組の音声を提示したりする。このようにした場合、視聴者の興味ある側の音声が聴けるので、視聴者の満足度が高い提示形態とすることができる。

＜無音＞
複数の番組の内容を理解するには、視聴者は集中を維持する必要がある。音声が提示されると集中を乱されることも多いので、音声は提示せずに映像だけを提示することの方がよい場合もある。

＜その他＞
上述したような複数の音声提示形態を用意しておき、制御部８０が視聴者の指示を検出したり視聴環境を検出したりすることによって音声提示方法を決定する。また、上述した実施の形態の例では、音声信号を各表示装置に設置されたスピーカに供給するようにしたが、図示しない音声出力端子と接続されたイヤホンに供給するようにしてもよい。

［第２の実施の形態］
以下、本発明の第２の実施の形態の例について図２８〜図４８を参照して説明する。
本実施の形態に係る情報提示装置は、コンテンツの先の展開を予測しながら視聴できるよう再生対象の現在の情報に加え、過去及び未来の情報（映像）を予め画面に提示しておくように構成するものである。

図２８は、本発明の第２の実施の形態に係る番組映像の表示例を示す図である。
図中の表示画面２３０において、番組（コンテンツ）の音声内容が字幕（過去）Ｃｐ及び字幕（未来）Ｃｆとして表示されている。また、画面右側に映像のサムネイル画像が、サムネイル画像２３１−１〜２３１−５のように縦方向に過去から未来にわたって提示されている。また、字幕については過去の字幕と未来の字幕で表示色を替えている。さらに、音声信号の波形が表示され、この音声波形においても、音声波形（過去）Ａｐ、音声波形（未来）Ａｆ、現在音声位置２３４といったように、過去から未来にわたって提示されている。そして、字幕の現在音声位置に対応する部分には、現在の再生時刻に対応する現在画像２３３が重畳して表示されている。

上記表示画面２３０の映像提示の特徴としては、以下のものがある。
（１）音声内容を字幕で表示している。そのため、現在の字幕位置が色の変化などで示され、どこを読むべきかがわかりやすい。
（２）映像のサムネイル画像が、過去から現在、そして未来にわたって提示されている。そのため、番組の次の展開や過去の話の流れが確認しやすい。
（３）字幕についても、過去から現在、そして未来にわたって提示されている。そのため、余裕をもって視聴することができる。
（４）字幕に対応する音声の波形が、過去から現在位置、そして未来にわたって表示されている。そのため、発言のタイミングを確認でき、視聴に余裕が生まれる。

情報提示装置に入力された番組（映像データ）を、上記のような特徴を持つ映像に変換して提示することにより、複数番組を同時視聴しても、視聴者は内容を理解することができるようになる。以下に、この映像提示を実現するためのシステムについて述べる。

図２９は、第２の実施の形態に係るシステムの内部構成例を示すブロック図である。
情報提示装置１００Ａは、第１の実施形態に係る情報提示装置１００と比較して、情報処理部２４０−１〜２４０−ｎが各表示装置１１０−１〜１１０−ｎと一対一に対応して設けられている点が相違し、その他については同一である。以下、第２の実施の形態についての説明に用いる図面において、既述した第１の実施の形態の説明に用いた図面に対応する部分には同一符号を付し、詳細な説明は割愛する。

図３０は、第２の実施の形態に係る情報処理部内の表示映像生成部の内部構成例を示すブロック図である。各情報処理部２４０−１〜２４０−ｎの構成は同一であるから、情報処理部２４０−１についてのみ説明を行い、他の情報処理部については説明を割愛する。

情報処理部２４０−１内の表示映像生成部２４１−１は、データメモリ６１、第１の画像生成部としてのサムネイル生成部６２Ａ、第２の画像生成部としての字幕画像生成部６３Ａ、音声波形画像生成部２５０、現在画像生成部２６０、画像合成部２７０とを含むようにして構成される。サムネイル生成部６２Ａは主画像（サムネイル画像）を作成し、他の生成部は副画像（字幕画像、音声波形画像、現在画像）を生成するものである。なお、副画像を生成する各部は、少なくともいずれか一つ備えていればよく、もしくはそれらの組合せでもよい。

データメモリ６１は、サムネイル生成部６２Ａや字幕画像生成部６３Ａ、音声波形画像生成部２５０、現在画像生成部２６０での処理を行う際に、蓄積部４０から読み出した映像データや音声データ、字幕情報を、一時的に蓄積するための領域であり、半導体メモリ等で構成される。

サムネイル生成部６２Ａは、表示装置の表示画面に時系列に表示するサムネイル画像の一覧を生成し、画像合成部２７０に出力する。またサムネイル生成部６２Ａは、サムネイル画像を一時的に蓄積しておく領域としての出力用画像メモリ６２ａを備える。サムネイル生成部６２Ａの詳細については後述する。

字幕画像生成部６３Ａは、映像・字幕入力部２０を介してメタデータとして入力された字幕情報を一連の字幕画像に変換し、画像合成部２７０へ出力する。また字幕画像生成部６３Ａは、字幕情報を、字幕の内容や出現時間によって区分することにより生成した字幕情報テーブル６３ａと、字幕画像の生成に用いる字幕情報を一時的に蓄積しておく領域としての出力用画像メモリ６３ｂも備える。字幕画像生成部６３Ａの詳細については後述する。

音声波形画像生成部２５０は、後述する方法により音声データに含まれる音声信号の波形を画像に変換して画像合成部２７０へ出力する。また、音声波形画像生成部２５０は、作成した音声波形を一時的に蓄積しておく領域としての出力用画像メモリ２５０ａを備える。

現在画像生成部２６０は、後述する方法により、現在の再生時刻に対応する番組映像を縮小した画像（以下、「現在画像」という。）に変換して画像合成部２７０へ出力する。また、現在画像生成部２６０は、作成した現在画像を一時的に蓄積しておく領域としての出力用画像メモリ２６０ａを備える。

上記各生成部の後段の画像合成部２７０は、各生成部で生成された各画像を合成して当該情報処理部２４０−１と対応づけられている表示装置１１０−１へ出力する。

次に、図３１に示すフローチャートを参照して、上記構成の表示映像生成部２４１−１による処理例を説明する。
ステップＳ１０１において、表示映像生成部２４１−１は、まず蓄積部４０（図４参照）からサムネイル画像や字幕画像等の生成に必要なデータを取得し、取得したデータをデータメモリ６１に蓄積する。

次に、ステップＳ１０２において、データメモリ６１に蓄積されたデータを用いて、サムネイル生成部６２Ａによりサムネイル画像の一覧が生成され、画像合成部２７０へ出力される。

また、ステップＳ１０３において、データメモリ６１に蓄積されたデータを用いて、字幕画像生成部６３Ａにより字幕画像が生成され、画像合成部２７０へ出力される。

また、ステップＳ１０４において、データメモリ６１に蓄積されたデータを用いて、音声波形画像生成部２５０により音声波形の画像が生成され、画像合成部２７０へ出力される。

また、ステップＳ１０５において、データメモリ６１に蓄積されたデータを用いて、現在画像生成部２６０により現在映像の画像が生成され、画像合成部２７０へ出力される。

また、ステップＳ１０６において、画像合成部２７０により、各生成部で作成された各画像を合成する。

そして、ステップＳ１０７において、画像合成部２７０より、合成した画像を対応づけられている表示装置へ出力する。

その後、ステップＳ１０８において、制御部８０は映像の提示を終了するか否かを判定する。すなわち映像データの入力が終了したか否か又はユーザＩ／Ｆ９０から映像提示の終了指示があったか否かの判定が行われる。映像提示を終了する場合には一連の処理は終了となる。映像提示が継続している場合には、ステップＳ１０１に戻ってさらに処理が続けられる。

次に、図３２及び図３３を参照して、サムネイル生成部６２Ａの詳細について説明する。
このサムネイル生成部６２Ａは、入力される映像データから所定の間隔でサムネイル画像を順に１枚（１フレーム）ずつ生成するものである。

図３２は、サムネイル画像の座標を説明するための図である。
ここで便宜上、「仮想メモリ」という画像メモリを想定する。この仮想メモリには、Ｓ（ｓ）間隔ごとのサムネイル画像２８２が開始位置（原点）から、横位置Ｗ（ｐｉｘｅｌ）に配置され、サムネイル画像ごとの縦間隔はＶＳ（ｐｉｘｅｌ）である。ここでＶ（ｐｉｘｅｌ／ｓ）は後述するスクロールの速さ（画面遷移速度）を表す。

また、この仮想メモリから出力される出力画像２８１は、開始位置（原点）からの距離が（ＶＴ−Ｈｐ）から（ＶＴ−Ｈｐ＋Ｈ）の間に含まれる部分に相当する。ここでＴは現在の再生時刻、Ｈｐは出力画像２８１の上辺から現在地点（破線部）の表示位置までの距離、Ｈは出力画像２８１の高さを表す。つまり出力画像２８１は、再生開始後、速さＶ（ｐｉｘｅｌ／ｓ）で仮想メモリの下方へ移動することになり、出力画像２８１を基準としてみると、サムネイル画像２８２は上方へ速度Ｖ（ｐｉｘｅｌ／ｓ）でスクロールすることになる。

図３３は、サムネイル生成部６２Ａの処理例を示すフローチャートである。
ステップＳ１１１において、サムネイル生成部６２Ａは、まず出力画像２８１のサムネイル画像２８２の通し番号ｉを０とし、出力用画像メモリ６２ａを初期化する。この処理が終了後、ステップＳ１１２の処理に進む。

ステップＳ１１２において、サムネイル生成部６２Ａは、開始位置（原点）から順に付けた通し番号ｉ（ｉは０以上の整数）のサムネイル画像の位置Ｐｉを計算する。位置Ｐｉは次式で表すことができる。
Ｐｉ＝ｉＶＳ−ＶＴ＋Ｈｐ
この計算式から理解できるように位置Ｐｉは開始位置からの距離を表す。この処理が終了後、ステップＳ１１３の処理に進む。なお、このサムネイル画像の位置を取得する際にサムネイル画像のどの部分を基準とするかは任意であるが、通常は画像中心を基準にする。

ステップＳ１１３において、サムネイル生成部６２Ａは、位置Ｐｉのサムネイル画像が出力画像２８１に表示されるか否かを判定する。位置Ｐｉが出力画像２８１にかかる場合には、ステップＳ１１４に進む。一方、位置Ｐｉが出力画像２８１にかからない場合には、ステップＳ１１８に進む。

ステップＳ１１４において、サムネイル生成部６２Ａは、データメモリ６１に蓄積された映像データから時刻ｉＳに対応する画像を取得する。この処理が終了後、ステップＳ１１５の処理に進む。

ステップＳ１１５において、サムネイル生成部６２Ａは、ステップＳ１１４の処理により取得した画像を縮小してサムネイル画像を作成する。この処理が終了後、ステップＳ１１６の処理に進む。

ステップＳ１１６において、サムネイル生成部６２Ａは、作成したサムネイル画像を出力用画像メモリ６２ａ上の仮想メモリ座標（Ｗ，Ｐｉ）に相当する位置に貼り付ける。この処理が終了後、ステップＳ１１８の処理に進む。

ステップＳ１１７において、サムネイル生成部６２Ａは、開始位置（原点）からｉ番目の位置Ｐｉへのサムネイル画像の貼り付けが終了した後、続いて、通し番号ｉ←ｉ＋１とする。すなわち、出力画像Ｉｍの先頭からｉ＋１番目の位置Ｐｉ＋１へのサムネイル画像の貼り付けを行う。例えば、通し番号ｉ＝０であった場合にはｉ←０＋１＝１とする。この処理が終了後、ステップＳ１１２の処理に移行し、少なくとも上記ステップＳ１１２，Ｓ１１３の処理を繰り返す。

ステップＳ１１８において、サムネイル生成部６２Ａは、時刻ｉＳがデータメモリ６１に蓄積された映像データの再生時間の終了後の時刻であるか否かを判定する。時刻ｉＳが再生時間の終了後の時刻である場合には、ステップＳ１１９の処理に進む。一方、時刻ｉＳが再生時間の終了後の時刻ではない、すなわち再生時間が残っている場合には、ステップＳ１１７の処理に移行し、少なくとも上記ステップＳ１１２，Ｓ１１３の処理を繰り返す。このような手順を、通し番号ｉ＝ｎとなるまで繰り返すことにより、サムネイル画像の一覧の画像を作成し、出力用画像メモリ６２ａに蓄積する。

最後にステップＳ１１９において、サムネイル生成部６２Ａは、出力用画像メモリ６２ａに蓄積されたサムネイル画像の一覧の画像を画像合成部２７０へ出力する。この処理が終了後、サムネイル画像生成処理を終了する。

次に、図３４〜図３６を参照して、字幕画像生成部６３Ａの詳細について説明する。

図３４は、字幕情報のテーブルの例を示す図である。
データメモリ６１から受信する字幕情報には少なくとも、字幕の通し番号、字幕の表示開始時刻Ｔｓと表示終了時刻Ｔｅ、及び字幕内容が含まれている。なお、この図３４に示した字幕情報テーブルの例は、図９に示した例と同じである。

図３５は、字幕にかかわる座標を説明するための図である。
ここでも上記サムネイル画像（図３２参照）の場合と同様に、便宜上、仮想メモリ２９０という画像メモリを想定する。図３５に示した例におけるそれぞれの記号（座標）の意味は、上記サムネイル画像の場合と同一の記号については同様の意味である。なお、Ｗｔは、字幕の出力画像２９１における現在の横位置を表す。図３５に示す例ではこのＷｔの位置が棒状の記号で表現されているが、実際の画面には表示しなくてもよい。

本実施の形態において、字幕を描画するフォントは少なくとも２種類用意し、現在地点（破線部）よりも以前（上方）にある字幕（過去）Ｃｐの場合には「過去フォント」で、一方、それ以降（下方）にある字幕（未来）Ｃｆの場合には「未来フォント」を使って描画する。例えば過去フォントとしては青色の文字フォント、未来フォントとしては黄色の文字フォント等を適用する。文字形式・字体を変えてもよい。このようにすることによって、どの字幕が過去、現在、未来のそれぞれに対応しているのかを一目で分かりやすくする。

図３６は、字幕画像生成部６３Ａによる処理例を示すフローチャートである。
ステップＳ１２１において、字幕画像生成部６３Ａは、まず対象とする字幕の通し番号ｉを０とし、出力用画像用メモリ６３ａを、任意色例えば透明色を適用することによって初期化する。この処理が終了後、ステップＳ１２２の処理に進む。

ステップＳ１２２において、字幕画像生成部６３Ａは、データメモリ６１に蓄積された映像データからｉ番目の字幕情報を取得する。すなわち、図３４に示した字幕情報テーブルからｉ番目の字幕情報を取得する。例えば通し番号ｉ＝０の場合、字幕Ｎｏ０の「お昼のニュースを・・・」という内容の字幕情報を抽出し、出力用画像メモリ６３ｂに保存する。この処理が終了後、ステップＳ１２３の処理に進む。

ステップＳ１２３において、字幕画像生成部６３Ａは、取得すべき字幕情報が残っているかどうかを判定する。取得する字幕情報があると判定された場合、ステップＳ１２４の処理に進む。一方、取得する字幕情報がないと判定された場合、ステップＳ１３７の処理に進む。例えば通し番号ｉ＝０の場合、まだ取得すべき字幕情報ありと判定されてステップＳ１２４の処理に移る。

ステップＳ１２４において、字幕画像生成部６３Ａは、字幕情報テーブルから取得したｉ番目の字幕情報が有する表示開始時刻Ｔｓと表示終了時刻Ｔｅを読み出す。この処理が終了後、ステップＳ１２５の処理に進む。

ステップＳ１２５において、字幕画像生成部６３Ａは、開始位置（原点）から順に付けた通し番号ｉの字幕の表示位置Ｐｉ（＝ｉＶＳ−ＶＴ＋Ｈｐ）を計算する。この処理が終了後、ステップＳ１２６の処理に進む。

ステップＳ１２６において、字幕画像生成部６３Ａは、表示位置Ｐｉの字幕が出力画像２９１に表示されるか否かを判定する。表示位置Ｐｉが出力画像２９１にかかる場合には、ステップＳ１２７に進む。一方、表示位置Ｐｉが出力画像２９１にかからない場合には、ステップＳ１３６に進む。

ステップＳ１３６において、字幕画像生成部６３Ａは、対象とする字幕の通し番号ｉ←ｉ＋１とする。例えば、通し番号ｉ＝０であった場合にはｉ←０＋１＝１とする。この処理が終了後、ステップＳ１２２の処理に移行し、少なくとも上記ステップＳ１２２，Ｓ１２３の処理を繰り返す。

一方、ステップＳ１２７において、字幕画像生成部６３Ａは、現在時刻Ｔより対象字幕の表示開始時刻Ｔｓが大きいか否か、すなわち再生時刻であるか否かを判定する。表示開始時刻Ｔｓの方が大きい場合はステップＳ１２８に進む。一方、表示開始時刻Ｔｓの方が小さい場合はステップＳ１２９に進む。

ステップＳ１２８において、字幕画像生成部６３Ａは、字幕の文字フォントとして未来フォントを選択する。この処理が終了後、ステップＳ１３２の処理に進む。

ステップＳ１２９において、字幕画像生成部６３Ａは、現在時刻Ｔが対象字幕の表示終了時刻Ｔｅより大きいか否か、すなわち再生時刻を過ぎているか否かを判定する。現在時刻Ｔの方が大きい場合はステップＳ１３０に進む。一方、現在時刻Ｔの方が小さい場合はステップＳ１３１に進む。

ステップＳ１３０において、字幕画像生成部６３Ａは、字幕の文字フォントとして過去フォントを選択する。この処理が終了後、ステップＳ１３２の処理に進む。

ステップＳ１３１において、字幕画像生成部６３Ａは、上述した過去フォントと未来フォントとを、読み出した字幕情報を構成する各字幕に適応させる処理を行う。具体的には、文字数×（現在時刻Ｔ−表示開始時刻Ｔｓ）／（表示終了時刻Ｔｅ−表示開始時刻Ｔｓ）の式で算出される位置よりも、前（左方向もしくは上方向）に配置されている文字には過去フォントを適用する。また、文字数×（現在時刻Ｔ−表示開始時刻Ｔｓ）／（表示終了時刻Ｔｅ−表示開始時刻Ｔｓ）の式で算出される位置よりも、後（右方向もしくは下方向）に配置されている文字には未来フォントを適用する処理を行う。この処理が終了後、ステップＳ１３２の処理に進む。

ステップＳ１３２において、字幕画像生成部６３Ａは、設定したフォントを用いて対象字幕の画像を作成する。この処理が終了後、ステップＳ１３３の処理に進む。

ステップＳ１３３において、字幕画像生成部６３Ａは、作成した字幕画像を出力用画像メモリ６３ｂ上の仮想メモリの座標（Ｗｔ，Ｐｉ）に貼り付ける。この処理が終了後、ステップＳ１３４の処理に進む。

ステップＳ１３４において、字幕画像生成部６３Ａは、字幕画像上の字幕の途中に現在地点があるか否かを判定する。現在地点がある場合にはステップＳ１３５の処理に進む。一方、現在地点がない場合にはステップＳ１３６の処理に進む。

ステップＳ１３５において、字幕画像生成部６３Ａは、現在地点の座標を現在画像生成部２６０に送信する。この処理が終了後、ステップＳ１３６の処理に進む。

最後にステップＳ１３７において、字幕画像生成部６３Ａは、ステップＳ１２３の判定処理においてこれ以上取得する字幕情報がないと判定された場合、出力用画像メモリ６３ｂに蓄積した字幕画像を画像合成部２７０へ出力する。この処理が終了後、字幕画像生成処理を終了する。

以上のとおり、本実施の形態の字幕画像生成処理において、字幕情報をデータメモリ６１から１つずつ取り出し、字幕表示開始時刻Ｔｓから字幕の表示位置Ｐｉを計算する。字幕が出力画像２９１にかかる場合は、字幕を描画する。このとき現在時刻よりも前の字幕は「過去フォント」で、後の字幕は「未来フォント」で描画するようにする。字幕途中に現在地点がある場合には、その位置に対応する出力画像上の座標を「現在画像生成部」へ送信する。これはユーザが字幕を目で追っている部分に、縮小した現在画像を提示するためである。

なお、発言者ＩＤなどの発言者を識別できる字幕情報に含まれている場合、発言者によって字幕の色を変えるなどしてもよい。これについては後述する。

次に、図３７，図３８を参照して、音声波形画像生成部２５０の詳細について説明する。

図３７は、音声波形画像の座標を説明するための図である。
ここでも上記サムネイル画像（図３２参照）及び字幕画像（図３７）の場合と同様に、便宜上、仮想メモリ３００という画像メモリを想定する。図３７に示した例におけるそれぞれの記号（座標）の意味は、上記サムネイル画像及び字幕画像の場合と同一の記号については同様の意味である。なお、Ｗｓは、音声波形の出力画像３０１における現在の横位置を表す。図３７に示す例ではこのＷｓの位置が棒状の記号で表現されているが、実際の画面には表示しなくてもよい。

本実施の形態において、音声波形を描画するラインの色は少なくとも２種類用意し、現在地点Ｗｓよりも以前（上方）にある音声波形（過去）Ｗｐの場合には「過去色」で、一方、それ以降（下方）にある音声波形（未来）Ｗｆの場合には「未来色」を使って描画する。例えば過去色としては青色、未来色としては黄色等を適用する。線種や太さなどを変えてもよい。このようにすることによって、どの音声波形が過去、現在、未来のそれぞれに対応しているのかを一目で分かりやすくする。

図３８は、音声波形画像生成部２５０による処理例を示すフローチャートである。
ステップＳ１４１において、音声波形画像生成部２５０は、まず対象とするサンプルの通し番号ｉを０とし、出力用画像用メモリ２５０ａを初期化する。このとき、音声波形画像生成部２５０は、当該情報提示装置１００Ａにおける音声処理のサンプリングレートを取得するとともに、現在位置を示す棒状の記号の位置（カーソル位置）を（Ｗｓ，０）に設定する。この処理が終了後、ステップＳ１４２の処理に進む。

ステップＳ１４２において、音声波形画像生成部２５０は、第ｉサンプル目の音声データがデータメモリ６１にあるか否かを判定する。音声データがある場合にはステップＳ１４３に進む。一方、音声データがない場合にはステップＳ１５０に進む。

第ｉサンプル目の音声が仮想メモリ３００上で対応する位置は、ｉＶ／Ｆｓの計算値より得られる。
そこで、ステップＳ１４３において、音声波形画像生成部２５０は、ｉＶ／Ｆｓ＞＝ＶＴ−ＨｐかつｉＶ／Ｆｓ＜＝ＶＴ−Ｈｐ＋Ｈの条件を満たすか否かを判定する。この条件を満たす場合には音声波形が出力画像３０１の範囲内に含まれる。ｉＶ／Ｆｓがこの条件を満たす場合にはステップＳ１４４に進む。一方、ｉＶ／Ｆｓがこの条件を満たさない場合にはステップＳ１４９に進む。

ステップＳ１４４において、音声波形画像生成部２５０は、データメモリ６１から音声波形の第ｉサンプル目の振幅Ａｉを取得する。この処理が終了後、ステップＳ１４５の処理に進む。

ステップＳ１４５において、音声波形画像生成部２５０は、ｉ／Ｆの計算値が現在時刻Ｔより小さいか否かを判定する。ｉ／Ｆｓが現在時刻Ｔより小さい場合にはステップＳ１４６に進む。一方、ｉ／Ｆｓが現在時刻Ｔより大きい場合にはステップＳ１４７に進む。

ステップＳ１４６において、音声波形画像生成部２５０は、音声波形のラインの色を過去色に設定する。この処理が終了後、ステップＳ１４８の処理に進む。

ステップＳ１４７において、音声波形画像生成部２５０は、音声波形のラインの色を未来色に設定する。この処理が終了後、ステップＳ１４８の処理に進む。

ステップＳ１４８において、音声波形画像生成部２５０は、座標（Ｗｓ＋αＡｉ，ｉＶ／Ｆｓ−ＶＴ＋Ｈｐ）まで音声波形のラインを引く。この処理が終了後、ステップＳ１４９の処理に進む。

ステップＳ１４９において、音声のサンプルの通し番号ｉをｉ＋１に設定する。この処理が終了後、ステップＳ１４２の処理に移行し、上述した処理を繰り返す。

最後にステップＳ１５０において、音声波形画像生成部２５０は、ステップＳ１４２の判定処理においてこれ以上取得する音声のサンプルがないと判定された場合、出力用画像メモリ２５０ａに蓄積した音声波形画像を画像合成部２７０へ出力する。この処理が終了後、音声波形画像生成処理を終了する。

以上のとおり、本実施の形態の音声波形画像生成処理において、音声データを１サンプルずつデータメモリ６１から取り出して処理する。音声のサンプリングレートをＦｓ（例えば４８ｋＨｚ）とすると、第ｉサンプル目の音声が仮想メモリ３００上で対応する位置はｉＶ／Ｆｓとなるので、これが出力画像３０１にかかるか否かを判定する。出力画像３０１にかかる場合、振幅データＡｉに適当な係数αを乗じて画像上での振幅を計算し、音声波形をラインで描画していく。またこのときラインの色は、前述の方法で設定する。最後に、生成した音声波形画像を画像合成部２７０へ出力する。

次に、図３９に示すフローチャートを参照して、現在画像生成部２６０の詳細について説明する。
ステップＳ１６１において、現在画像生成部２６０は、まず出力用画像メモリ２６０ａを透明色を適用して初期化する。この処理が終了後、ステップＳ１６２の処理に進む。

ステップＳ１６２において、現在画像生成部２６０は、まずデータメモリ６１に蓄積された映像データから現在時刻Ｔにおける画像を取得する。この処理が終了後、ステップＳ１６３の処理に進む。

ステップＳ１６３において、現在画像生成部２６０は、取得した現在画像を、予め設定した大きさに縮小し、出力用画像メモリ２６０ａに保存する。この処理が終了後、ステップＳ１６４の処理に進む。

ステップＳ１６４において、現在画像生成部２６０は、字幕画像生成部６３Ａから字幕の現在位置の座標が送信されてきたか否かを判定する。現在位置の座標が送信されてきた場合はステップＳ１６５の処理に進む。一方、現在位置の座標が送信されてこない場合はステップＳ１６６の処理に進む。

ステップＳ１６５において、現在画像生成部２６０は、送られてきた現在座標に縮小画像を配置する。この処理が終了後、ステップＳ１６７の処理に進む。

ステップＳ１６６において、現在画像生成部２６０は、座標（Ｗｔ，Ｈｐ）の位置に縮小画像を配置する。この操作により、視聴者が目で字幕を追っている位置に、現在画像の縮小画像を提示することができる。この処理が終了後、ステップＳ１６７の処理に進む。

最後にステップＳ１６７において、現在画像生成部２６０は、出力画像の所定の座標に配置された縮小画像を画像合成部２７０へ出力する。この処理が終了後、現在画像生成処理を終了する。

次に、図４０に示すフローチャートを参照して、画像合成部２７０の詳細について説明する。
ステップＳ１７１において、画像合成部２７０は、出力用画像メモリ２７０ａを初期化する。この処理が終了後、ステップＳ１７２の処理に進む。

ステップＳ１７２において、画像合成部２７０は、サムネイル生成部６２Ａから受信したサムネイル画像を出力用画像メモリ２７０ａの所定位置に配置する。この処理が終了後、ステップＳ１７３の処理に進む。

ステップＳ１７３において、画像合成部２７０は、音声波形画像生成部２５０から受信した音声波形画像を出力用画像メモリ２７０ａに配置する。この処理が終了後、ステップＳ１７４の処理に進む。

ステップＳ１７４において、画像合成部２７０は、現在画像生成部２６０から受信した縮小画像を現在画像として出力用画像メモリ２７０ａに配置する。この処理が終了後、ステップＳ１７５の処理に進む。

ステップＳ１７５において、画像合成部２７０は、字幕画像生成部６３Ａから受信した字幕画像を出力用画像メモリ２７０ａに配置する。この処理が終了後、ステップＳ１７６の処理に進む。

そしてステップＳ１７６において、画像合成部２７０は、出力用画像メモリ２７０ａに配置したサムネイル画像、音声波形画像、現在画像及び字幕画像を合成した合成画像を表示装置へ出力する。

その後ステップＳ１７７において、画像合成部２７０は、映像の提示を終了するか否かを判定する。すなわち表示すべき画像の入力が終了したか否か又は制御部８０から映像提示の終了指示があったか否かの判定が行われる。映像提示を終了する場合には画像合成処理は終了となる。映像提示が継続している場合には、ステップＳ１７１に戻ってさらに処理が続けられる。

以上のとおり、画像合成部２７０は、受信したサムネイル画像、音声波形画像、現在画像、字幕画像を次々に重畳していく。それぞれの画像の背景部分には、透明色が設定されているので、背後の画像を上書きすることなく重畳することができる。最後に、出力用画像メモリ２７０ａ上で合成した画像を表示装置へ出力する。以上の動作を映像が終了するまで繰り返す。

図４１は、上述した第２の実施の形態に係る番組映像の表示例を示す図である。
図４１の上段に示す表示画面２３０は、図２８に示した表示画面２３０と同一である。図４１の下段に示す表示画面２３０Ａは、上段の表示画面２３０の状態から僅かに時間が経過した後の表示例である。表示画面２３０Ａでは、字幕（過去）Ｃｐと字幕（未来）Ｃｆの接合部に配置される現在画像２３３が、再生時刻の進行とともに移動する様子が表されている。なおこの例では、サムネイル画像（静止画）は一例として７．５秒おきに作成され、画像が下から上にスクロールするようになっている。

［第２の実施の形態の第１変形例］
次に、本発明の第２の実施の形態の第１変形例について、図４２を参照して説明する。
この第２の実施の形態の第１変形例では、複数の番組を複数の表示装置で同時に視聴する場合について説明する。

図４２は、第２の実施の形態の第１変形例に係る２画面による表示例を示す図である。
左右に配置した２つの表示装置を用いて２番組を同時に提示している。これは情報処理部２４０−１，２４０−２にそれぞれ別の番組を入力し、各情報処理部２４０−１，２４０−２から出力される各々の画像をそれぞれ表示装置１１０−１，１１０−２へ出力することにより実現される。

左側の表示画面２３０は図２８に示した表示画面２３０と同一の表示内容である（符号は一部変更してあるが同一内容）。一方、右側の表示画面３１０は、番組（コンテンツ）の音声内容が字幕（過去）Ｃｐ２及び字幕（未来）Ｃｆ２として表示されている。また、画面左側に映像のサムネイル画像群３１１が過去から未来にわたって提示されている。また、字幕については過去の字幕と未来の字幕で表示色を替えている。さらに、音声信号の波形が表示され、この音声波形においても、音声波形（過去）Ａｐ２、音声波形（未来）Ａｆ２、現在音声位置３１４と、過去から未来にわたって提示されている。そして、字幕の現在音声位置３１４に対応する部分には、現在の再生時刻に対応する現在画像３１３が重畳して表示されている。

なお、２画面による表示の場合、左側の表示画面２３０と右側の表示画面３１０との間で画面配置を左右対称にし、双方のサムネイル画像群２３１，３１１が中央寄りとなるように画面を構成するとよい。そのようにすることにより、双方のサムネイル画像群が互いに近傍に表示され、かつ、双方のサムネイル画像群を対比したような状態で表示がなされるので、サムネイル画像群の一覧性を良くすることができる。

［第２の実施の形態の第２変形例］
次に、本発明の第２の実施の形態の第２変形例について、図４３を参照して説明する。
この第２の実施の形態の第２変形例は、複数の番組を当該番組数より多い表示装置で同時に視聴する場合の例である。

図４３は、第２の実施の形態の第２変形例に係る６画面による表示例を示す図である。
６つの表示装置を用いて２番組を同時に提示するようにしている。これは、基本的な提示は図４２と同様だが、さらにその上下にも表示装置を配置して、過去・未来の情報をより多く提示することを実現している。この例では、左側に３つの表示画面４１０，４２０，４３０を、右側に３つの表示画面４４０，４５０，４６０をそれぞれ縦方向に配設し、各々３つの表示画面の表示面全体を利用してそれぞれの番組の過去、現在、未来の情報を表している。

左側の表示画面４１０，４２０，４３０においては、中段の表示画面４２０に現在位置４２４と現在画像４２３があり、表示画面４２０に現在位置を含む現在に近いサムネイル画像群４２１を、表示画面４１０に過去のサムネイル画像群４１１を、そして表示画面４３０に過去のサムネイル画像群４３１を表示している。さらに、表示画面４１０，４２０にまたがって字幕（過去）Ｃｐ１−１〜Ｃｐ１−２を、また表示画面４２０，４３０にまたがって字幕（未来）Ｃｆ１−１〜Ｃｆ１−２を表示している。同様に、表示画面４１０，４２０にまたがって音声波形（過去）Ａｐ１−１〜Ａｐ１−２を、また表示画面４２０，４３０にまたがって音声波形（未来）Ａｆ１−１〜Ａｆ１−２を表示している。

右側の表示画面４４０，４５０，４６０も同様である。すなわち、中段の表示画面４５０に現在位置４５４と現在画像４５３があり、表示画面４５０に現在位置を含む現在に近いサムネイル画像群４５１を、表示画面４４０に過去のサムネイル画像群４４１を、そして表示画面４６０に過去のサムネイル画像群４６１を表示している。さらに、表示画面４４０，４６０にまたがって字幕（過去）Ｃｐ２−１〜Ｃｐ２−２を、また表示画面４５０，４６０にまたがって字幕（未来）Ｃｆ２−１〜Ｃｆ２−２を表示している。同様に、表示画面４４０，４５０にまたがって音声波形（過去）Ａｐ２−１〜Ａｐ２−２を、また表示画面４４０，４５０にまたがって音声波形（未来）Ａｆ２−１〜Ａｆ２−２を表示している。

以上のように、画面位置に応じて各画像パーツ（サムネイル画像、字幕画像、音声波形画像、現在画像）の配置を適宜設定し、視聴者が情報取得を行いやすくすることができる。
複数の表示装置を利用する主な利点としては、
・画面の自由な配置
・解像度の確保
が挙げられるが、以上の条件を満たせるのであれば、複数の画面を１つの表示装置に表示しても構わない。

［第２の実施の形態の第３変形例］
次に、本発明の第２の実施の形態の第３変形例について、図４４を参照して説明する。
この第２の実施の形態の第３変形例は、２画面を用いたドラマ番組の表示例であり、発言者ごとに字幕を色分けして情報の取得効率を向上させたものである。

図４４において、左側の表示画面４７０において、画面右側にサムネイル画像群４７１、画面左側に音声波形Ａｐ１，Ａｆ１が表示されている。また、現在位置４７４を分岐点として上に字幕（過去）Ｃｐ１−１〜Ｃｐ１−３が、下に字幕（未来）Ｃｆ１−１〜Ｃｆ１−２が表示されている。字幕の現在位置には、現在画像４７３が配置されている。

右側に表示画面４８０には別のドラマ番組が表示されており、画面左側にサムネイル画像群４８１、画面右側に音声波形Ａｐ２，Ａｆ２が表示されている。また、現在位置４８４を分岐点として上に字幕（過去）Ｃｐ２−１〜Ｃｐ２−４が、下に字幕（未来）Ｃｆ２−１〜Ｃｆ２−３が表示されている。字幕の現在位置には、現在画像４８３が配置されている。

本実施の形態においては、発言者ごとに字幕の表示色を変えるようにしたので、発言者の発言内容が他の発言者と混同することがない。よって、ドラマに登場する発言者を整理しやすい。したがって、効率の良い情報の取得が実現できる。

［第２の実施の形態の第４変形例］
次に、本発明の第２の実施の形態の第４変形例について、図４５〜ズ４８を参照して説明する。
この第２の実施の形態の第４変形例は、番組展開の予測に利用できる情報の表示形態として、字幕に関する情報を補助的に通知（表示）するようにしたものである。

図４５は、発話タイミング通知の説明に供する図である。
出力画像５０１〜５０３のそれぞれについて字幕の発言者を特定できる情報が表示される。この発話タイミング通知は、字幕画像生成部６３Ａにおいて生成する字幕の一部に、発言開始マークを表示させるようにして実現する。また字幕情報に発言者ＩＤが含まれている場合、誰の発言かも表示するとより効率のよい情報取得が可能である。

図４６は、発話タイミング通知の表示例を示す図である。
図４６に示す表示画面２３０Ｂは、基本の表示内容は図２８に示した表示画面２３０と同様であるが、発話タイミングが通知されている点で異なる。この例では、上段の字幕「お昼のニュースを・・・」に対してＡ氏が発言したという発話タイミング通知５１１、中段の字幕「今日午前、千葉県千葉市の・・・」に対してＡ氏が発言したという発話タイミング通知５１２が表示されている。さらに、下段の字幕「今日午前、千葉県千葉市の・・・」に対してＢ氏が発言したという発言タイミング通知５１３が表示されている。

図４７は、人物登場通知の説明に供する図である。
出力画像５０１〜５０３のそれぞれについて、新たに人物が登場する字幕箇所にマークを表示させる。字幕画像生成部６３Ａにおいて生成する字幕の一部に、人物登場開始マークを表示させるようにして実現する。新たな人物が登場したかどうかの情報は、放送からメタ情報として提供されたものを用いる。人物認識をできるモジュールを情報提示装置１００Ａに組み込む場合は、人物認識の結果を用いて表示に反映させる。

図４８は、トピックの内容通知の説明に供する図である。
出力画像５０１〜５０３のそれぞれについて、ニュース番組などにおいて、新しいトピックの開始位置のマークを表示させる。または番組の切り変わりなどの意味的な区切りを表示させる。字幕画像生成部６３Ａにおいて生成する字幕の一部に、トピック開始位置マークを表示させるようにして実現する。各トピックの始まりは放送からメタ情報として提供されたものを用いる。またＥＰＧ（電子番組ガイド）などで番組の開始が分かる場合は、その情報を利用してもよい。

上述した実施の形態によれば、再生対象の現在の情報（サムネイル画像、字幕画像、音声波形画像）に加え、過去の情報と未来の情報を予め画面に提示することができる。それにより、字幕を追っていても自然に現在映像の全体が目に入り、文字情報と映像情報を同時に理解することができる。

また、過去と未来の情報が豊富に表示されているので、複数番組（コンテンツ）を余裕を持って同時に視聴することができる。すなわち、視聴者は、未来の情報を確認しながら見られるので、番組展開を予測できる。また、過去の情報も確認しながら見られるため、番組の過去の展開をフォローすることができる。したがって、番組の先の展開を予測しつつかつ過去の展開を確認しつつ視聴できるため、番組展開を余裕を持って視聴できる。

＜１つの音声を提示＞
複数の番組映像が提示されている場合、視聴者が選んだ番組の音声を提示する。または視聴者の視線を周知の視線検出センサで取得し、視線のある番組の音声を提示したりする。このようにした場合、視聴者の興味ある側の音声が聴けるので、視聴者の満足度が高い提示形態とすることができる。

このように、上述した第１の実施の形態では、再生対象の現在、注目されている情報に加え、未来の情報を予め画面に提示することができる。上述した第２の実施の形態では、再生対象の現在、注目されている情報に加え、過去の情報と未来の情報を画面に提示することができる。更に、再生対象の現在、注目されている情報に加え、過去の情報のみを提示しても構わない。

なお、上述した情報処理装置で行われる一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。また、これらの処理を実行する機能はハードウェアとソフトウェアの組み合わせによっても実現できることは言うまでもない。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで各種の機能を実行することが可能な、例えば汎用のコンピュータなどに、プログラム記録媒体からインストールされる。

図４９は、上述した一連の処理をプログラムにより実行するコンピュータの構成例を示すブロック図である。このコンピュータ６００は、例えば一連の処理を実行するために高性能化した専用コンピュータの他、一定の性能を備えるパーソナルコンピュータなどでもよい。

コンピュータ６００のＣＰＵ（Central Processing Unit）６０１は、ＲＯＭ（Read Only Memory）６０２、または記録部６０８に記録されているプログラムに従って、上記一連の処理の他、各種の処理を実行する。ＲＡＭ（Random Access Memory）６０３には、ＣＰＵ６０１が実行するプログラムやデータなどが適宜記憶される。これらのＣＰＵ６０１、ＲＯＭ６０２、およびＲＡＭ６０３は、バス６１４により相互に接続されている。

ＣＰＵ６０１にはまた、バス６０４を介して入出力インタフェース６０５が接続されている。入出力インタフェース６０５には、キーボード、マウス、マイクロホンなどよりなる入力部６０６、ディスプレイ、スピーカなどよりなる出力部６０７が接続されている。ＣＰＵ６０１は、入力部６０６から入力される指令に対応して各種の処理を実行する。そして、ＣＰＵ６０１は、処理の結果を出力部６０７に出力する。

入出力インタフェース６０５に接続されている記録部６０８は、例えばハードディスクからなり、ＣＰＵ６０１が実行するプログラムや各種のデータを記録する。

通信部６０９は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。また通信部６０９を介してプログラムを取得し、記録部６０８に記録してもよい。

入出力インタフェース６０５に接続されているドライブ６１０は、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリなどのリムーバブルメディア６２０が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記録部６０８に転送され、記録される。

コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図４９に示すように、リムーバブルメディア６２０によりパッケージメディアとして提供される。リムーバブルメディア６２０としては、磁気ディスク（フレキシブルディスクを含む）、光ディスク（ＣＤ−ＲＯＭ（Compact Disc - Read Only Memory），ＤＶＤ（Digital Versatile Disc），光磁気ディスクを含む）、もしくは半導体メモリなどを適用することができる。あるいは、プログラム記録媒体は、プログラムが一時的もしくは永続的に格納（記録）されるＲＯＭ６０２や、記録部６０８を構成するハードディスクなどにより構成される。

このプログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部６０９を介して、ローカルエリアネットワーク(LAN：Local Area Network)、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。

なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述する処理ステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）をも含むものである。

また、プログラムは、一つのコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。

さらに、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１０…表示画面、２０…映像・字幕入力部、３０…符号化・復号処理部、４０…蓄積部、５０…情報処理部、６０，６０Ａ…表示映像生成部、６１…データメモリ、６２，６２Ａ…サムネイル生成部、６２ａ…出力用画像メモリ、６３，６３Ａ…字幕画像生成部、６３ａ…字幕情報テーブル、６３ｂ…出力用画像メモリ、６４…仮想空間生成部、６５−１〜３…レンダリング部、６６…画像合成部、７０…音声処理部、８０…制御部、１１０−１〜１００−３…表示装置、１１１−１〜１１１−３…スピーカ、１５０…テロップ検出部、１５０ａ…テロップ用テーブル、１５０ｂ…出力用画像メモリ、１６０…顔検出部、１６０ａ…顔用テーブル、１６０ｂ…出力用画像メモリ、１７０…ＰｉｎＰ検出部、１７０ａ…出力用画像メモリ、２３４…現在音声位置、２３１−１〜５…サムネイル画像、２３３…現在映像、２４１−１〜２４１−ｎ…表示映像生成部、２５０…音声波形生成部、２５０ａ…出力用画像生成部、２６０…現在画像生成部、２６０ａ…出力用画像メモリ、２７０…画像合成部、２７０ａ…出力用画像メモリ、Ａｐ…音声波形（過去）、Ａｆ…音声波形（未来）、Ｃ０〜Ｃ５…字幕画像、Ｃｏ０〜Ｃｏ５…字幕表示用オブジェクト、Ｃｐ…字幕（過去）、Ｃｆ…字幕(未来)、ＤＣ…カメラ視点進行方向、Ｉｍ０〜Ｉｍｎ…サムネイル画像、ＲＣ…レンダリング用カメラ

Claims

入力部より入力された映像データから、当該映像データの一部を抽出し、複数の主画像を生成する第１の画像生成部と、
前記映像データに対応づけられた情報から複数の副画像を生成する第２の画像生成部と、
前記複数の主画像を時系列に配置するとともに、前記複数の副画像の各々を前記主画像に対応させて時系列に配置した表示画像を生成して出力する画像出力部と、を含む
情報提示装置。
前記画像出力部は、
前記複数の主画像を車窓から見た場合の路面に見立てた第１の仮想オブジェクトを生成し、前記複数の副画像を前記車窓から見た場合の道路標識に見立てた第２の仮想オブジェクトを生成し、前記第１及び第２の仮想オブジェクトを含む仮想空間から前記表示画像を生成する
請求項１に記載の情報提示装置。
前記画像出力部は、
前記複数の主画像を時系列に配列した主画像オブジェクトを生成するとともに、各々の副画像から副画像オブジェクトを生成し、前記主画像オブジェクトの上方かつ前記主画像の配列方向と平行に前記複数の副画像オブジェクトを時系列に配置して前記仮想空間を生成する仮想空間生成部と、
前記主画像オブジェクトと前記複数の副画像オブジェクトの間に視点を設定し、前記視点を前記主画像の配列方向と平行、かつ、現在から未来の方向に移動させて前記仮想空間から前記表示画像を生成するレンダリング部と、を備える
請求項２に記載の情報提示装置。
前記第２の画像生成部は、
前記入力部に入力された映像データに含まれる字幕情報を基に、前記副画像として字幕画像を生成する字幕画像生成部、を備える
請求項３に記載の情報提示装置。
前記第２の画像生成部は、
前記入力部に入力された映像データによる画像から前記副画像としてテロップ画像を検出するテロップ検出部、を備える
請求項３に記載の情報提示装置。
前記第２の画像生成部は、
前記入力部に入力された映像データによる画像から前記副画像として顔画像を検出するする顔検出部、を備える
請求項３に記載の情報提示装置。
前記第２の画像生成部は、
前記入力部に入力された映像データから、前記副画像として前記映像データによる画像に重畳して合成されている子画面領域内で表示されている画像を検出する子画面画像検出部、を備える
請求項３に記載の情報提示装置。
前記レンダリング部を複数備え、
各レンダリング部から供給される、前記主画像オブジェクトと前記複数の副画像オブジェクトを含む画像を複数合成し、一つの表示画像を生成する画像合成部、をさらに備える
請求項３に記載の情報提示装置。
前記第２の画像生成部は、
前記入力部に入力された映像データに含まれる字幕情報を基に、第１副画像として字幕画像を生成するとともに、前記主画像中の発話内容と対応する前記字幕画像中の位置を現在位置として算出し、前記現在位置を基点に前記字幕画像を異なる形態で出力する字幕画像生成部と、
前記入力部に前記映像データとともに入力される音声データの音声波形画像を第２副画像として生成するとともに、前記主画像中の発話内容と対応する前記音声波形画像中の位置を現在位置として算出し、前記現在位置を基点に前記音声波形画像を異なる形態で出力する音声波形画像生成部、を備え、
前記画像出力部は、前記複数の主画像、前記字幕画像及び前記音声波形画像がそれぞれ、前記現在位置を基点に過去・現在・未来の時系列に配置されるように合成して前記表示画像を生成する
請求項１に記載の情報提示装置。
前記字幕画像生成部は、前記現在位置を基点として過去に相当する字幕と未来に相当する字幕の表示色を替え、
前記音声波形画像生成部は、前記現在位置を基点として過去に相当する音声波形と未来に相当する音声波形の表示色を替える
請求項９に記載の情報提示装置。
前記第２の画像生成部は、
前記第１の画像生成部が生成する主画像の表示サイズよりも小さな表示サイズの小画像を生成する現在画像生成部、を備え、
前記画像出力部は、前記現在画像生成部で生成された小画像を、前記字幕画像生成部より出力された前記字幕画像中の現在位置に配置する
請求項１０に記載の情報提示装置。
前記画像出力部は、
前記複数の主画像のうち、注目されている主画像と、時間方向において先に位置する画像とが並べられる表示画像を生成する
請求項１に記載の情報提示装置。
前記画像出力部は、
前記複数の主画像のうち、注目されている主画像と、時間方向において後ろに位置する画像とが並べられる表示画像を生成する
請求項１２に記載の情報提示装置。
前記画像出力部は、
前記複数の主画像のうち、注目されている主画像と、時間方向において後ろに位置する画像とが並べられる表示画像を生成する
請求項１に記載の情報提示装置。
映像データから、当該映像データの一部を抽出し、複数の主画像を生成し、
前記映像データに対応づけられた情報から複数の副画像を生成し、
前記複数の主画像を時系列に配置すると共に、前記複数の副画像の各々を前記主画像に対応させて時系列に配置した表示画像を生成する
情報提示方法。