JP2015065556A

JP2015065556A - 映像出力装置、映像出力方法および映像出力プログラム

Info

Publication number: JP2015065556A
Application number: JP2013197886A
Authority: JP
Inventors: 裕介本家; Yusuke Honke; 正史大穂; Masashi Oho; 輝彦山名; Teruhiko Yamana; 啓介高須; Keisuke Takasu
Original assignee: Sumitomo Electric Networks Inc
Current assignee: Sumitomo Electric Networks Inc
Priority date: 2013-09-25
Filing date: 2013-09-25
Publication date: 2015-04-09

Abstract

【課題】教材となる番組の選択の幅を広げ、かつ低コストで語学学習を効果的に行う。【解決手段】画像、前記画像に関連する音声、および前記音声に関連する字幕を出力可能な映像出力装置であって、前記画像と、前記音声と、前記字幕と、前記画像を出力すべき出力タイミングを示す画像タイミング情報と、前記音声を出力すべき出力タイミングを示す音声タイミング情報とを取得する番組情報取得部と、前記画像タイミング情報の示す前記出力タイミングおよび前記音声タイミング情報の示す前記出力タイミングに従って、前記番組情報取得部によって取得された前記画像および前記音声をそれぞれ出力する映像出力部と、前記番組情報取得部によって取得された前記字幕を、前記画像または前記音声に対応して出力すべき対応タイミングとは異なるタイミングで出力する字幕出力部とを備える、映像出力装置。【選択図】図１

Description

本発明は、映像出力装置、映像出力方法および映像出力プログラムに関し、特に、画像、当該画像に関連する音声、および当該音声に関連する字幕を出力可能な映像出力装置、映像出力方法および映像出力プログラムに関する。

“超字幕Ｗｉｎｄｏｗｓ（登録商標）版主な機能”、［ｏｎｌｉｎｅ］、［平成２５年８月３０日検索］、インターネット〈ＵＲＬ：ｈｔｔｐ：／／ｗｗｗ．ｓｏｕｒｃｅｎｅｘｔ．ｃｏｍ／ｐｒｏｄｕｃｔ／ｃｈｊ／ｐｃ／ｆｕｎｃｔｉｏｎ／〉（非特許文献１）には、「超字幕」の主な機能が記載されている。「超字幕」は、映画が丸ごと１本収録された、英語学習に用いる語学番組情報である。「超字幕」を視聴することにより、生きた表現、ナチュラル・スピードに触れながら、映画の多彩な人物設定で織りなされるストーリーに基づいて英語学習が行われる。”超字幕”の主な機能の１つに、日／英字幕が同時表示できる字幕切り替え機能がある。字幕切り替え機能により、英語のみ、日本語のみ、英語＋日本語、字幕なしの４タイプに切り替えすることが可能である。この機能により、通常のＤＶＤプレーヤではできない「英語＋日本語」の同時表示が可能となり、その場で対訳を確認することができる。

"超字幕Ｗｉｎｄｏｗｓ（登録商標）版主な機能"、［ｏｎｌｉｎｅ］、［平成２５年８月３０日検索］、インターネット〈ＵＲＬ：ｈｔｔｐ：／／ｗｗｗ．ｓｏｕｒｃｅｎｅｘｔ．ｃｏｍ／ｐｒｏｄｕｃｔ／ｃｈｊ／ｐｃ／ｆｕｎｃｔｉｏｎ／〉

しかしながら、非特許文献１に記載された語学番組情報では、ユーザが音声を聞き取るタイミングと字幕を見るタイミングとがほとんど同時であるため、ユーザは、音声を聞きながら字幕を目で追ってしまう。

この場合、ユーザの頭の中では、耳から入ってくる情報の処理と目から入ってくる情報の処理とが同時に行われるため、ユーザは、いずれの処理にも集中することができない。このため、リスニング能力を向上させるための訓練およびリーディング能力を向上させるための訓練を効果的に行うことができないという問題がある。

また、語学番組情報は、語学学習目的のために専用に制作されたストリームに記録される。このため、語学番組情報を購入するためのコストが発生し、また教材となる番組の選択の幅が制限されてしまう。

この発明は、上述の課題を解決するためになされたもので、その目的は、教材となる番組の選択の幅を広げ、かつ低コストで語学学習を効果的に行うことが可能な映像出力装置、映像出力方法および映像出力プログラムを提供することである。

（１）上記課題を解決するために、この発明のある局面に係わる映像出力装置は、画像、上記画像に関連する音声、および上記音声に関連する字幕を出力可能な映像出力装置であって、上記画像と、上記音声と、上記字幕と、上記画像を出力すべき出力タイミングを示す画像タイミング情報と、上記音声を出力すべき出力タイミングを示す音声タイミング情報とを取得する番組情報取得部と、上記画像タイミング情報の示す上記出力タイミングおよび上記音声タイミング情報の示す上記出力タイミングに従って、上記番組情報取得部によって取得された上記画像および上記音声をそれぞれ出力する映像出力部と、上記番組情報取得部によって取得された上記字幕を、上記画像または上記音声に対応して出力すべき対応タイミングとは異なるタイミングで出力する字幕出力部とを備える。

（１２）上記課題を解決するために、この発明のある局面に係わる映像出力方法は、画像、上記画像に関連する音声、および上記音声に関連する字幕を出力可能な映像出力装置における映像出力方法であって、上記画像と、上記音声と、上記字幕と、上記画像を出力すべき出力タイミングを示す画像タイミング情報と、上記音声を出力すべき出力タイミングを示す音声タイミング情報とを取得するステップと、上記画像タイミング情報の示す上記出力タイミングおよび上記音声タイミング情報の示す上記出力タイミングに従って、取得した上記画像および上記音声をそれぞれ出力するステップと、取得した上記字幕を、上記画像または上記音声に対応して出力すべき対応タイミングとは異なるタイミングで出力するステップとを含む。

（１３）上記課題を解決するために、この発明のある局面に係わる映像出力プログラムは、画像、上記画像に関連する音声、および上記音声に関連する字幕を出力可能な映像出力装置において用いられる映像出力プログラムであって、コンピュータに、上記画像と、上記音声と、上記字幕と、上記画像を出力すべき出力タイミングを示す画像タイミング情報と、上記音声を出力すべき出力タイミングを示す音声タイミング情報とを取得するステップと、上記画像タイミング情報の示す上記出力タイミングおよび上記音声タイミング情報の示す上記出力タイミングに従って、取得した上記画像および上記音声をそれぞれ出力するステップと、取得した上記字幕を、上記画像または上記音声に対応して出力すべき対応タイミングとは異なるタイミングで出力するステップとを実行させるためのプログラムである。

本発明は、このような特徴的な処理部を備える映像出力装置として実現することができるだけでなく、映像出力装置の一部または全部を実現する半導体集積回路として実現したり、映像出力装置を備える映像出力システムとして実現したりすることができる。

本発明によれば、教材となる番組の選択の幅を広げ、かつ低コストで語学学習を効果的に行うことができる。

図１は、本発明の実施の形態に係る映像出力システムの構成を示す図である。図２は、本発明の実施の形態に係る映像出力装置における制御部の構成を示す図である。図３は、本発明の実施の形態に係る映像出力装置における字幕情報書換部の構成を示す図である。図４は、本発明の実施の形態に係る映像出力装置が拡張字幕表示オンにおいて表示装置へ出力する画像、音声および字幕の一例を示す図である。図５は、本発明の実施の形態に係る映像出力装置が画像、音声および字幕を出力する際の動作手順を定めたフローチャートである。図６は、本発明の実施の形態に係る制御部が画像、音声および字幕の出力制御を行う際の動作手順を定めたフローチャートである。図７は、本発明の実施の形態に係る字幕処理部が字幕情報の書換を行う際の動作手順を定めたフローチャートである。図８は、本発明の実施の形態に係る制御部がリピート処理を行う際の動作手順を定めたフローチャートである。図９は、本発明の実施の形態に係る映像出力装置が表示装置へ出力する画像、音声および字幕の出力タイミングの一例を示す図である。図１０は、本発明の実施の形態に係る映像出力装置が表示装置へ出力する画像、音声および字幕の出力タイミングの一例を示す図である。図１１は、本発明の実施の形態に係る映像出力装置が表示装置へ出力する画像、音声および字幕の出力タイミングの一例を示す図である。図１２は、本発明の実施の形態に係る映像出力装置が表示装置へ出力する画像、音声および字幕の出力タイミングの一例を示す図である。

最初に、本発明の実施形態の内容を列記して説明する。

（１）本発明の実施の形態に係る映像出力装置は、画像、上記画像に関連する音声、および上記音声に関連する字幕を出力可能な映像出力装置であって、上記画像と、上記音声と、上記字幕と、上記画像を出力すべき出力タイミングを示す画像タイミング情報と、上記音声を出力すべき出力タイミングを示す音声タイミング情報とを取得する番組情報取得部と、上記画像タイミング情報の示す上記出力タイミングおよび上記音声タイミング情報の示す上記出力タイミングに従って、上記番組情報取得部によって取得された上記画像および上記音声をそれぞれ出力する映像出力部と、上記番組情報取得部によって取得された上記字幕を、上記画像または上記音声に対応して出力すべき対応タイミングとは異なるタイミングで出力する字幕出力部とを備える。

このような構成により、映像出力装置のユーザが音声を聞き取るタイミングと字幕を見るタイミングとを異なるタイミングにすることができるので、ユーザが音声を聞くことまたは字幕を見ることのいずれかに集中することができる。

これにより、ユーザの頭の中では、耳から入ってくる情報の処理または目から入ってくる情報の処理のいずれかの処理に集中することができるので、リスニング能力およびリーディング能力を向上させるための訓練を効果的に行うことができる。

また、映像出力装置では、語学学習目的のために専用に制作したストリームを用意することなくリスニング能力およびリーディング能力を向上させるための訓練を行うことができるので、番組情報に要するコストを抑制し、かつ教材となる番組の選択の幅を広げることができる。

（２）好ましくは、上記字幕出力部は、上記対応タイミングより時間的に後のタイミングで上記字幕を出力する。

このような構成により、映像出力装置のユーザは、学習対象とする言語で話された音声を聞き終わった後、当該音声についての字幕を見ることができるので、番組情報を視聴しながらディクテーションの訓練を行うことができる。これにより、ユーザは、上記言語のリスニング能力の向上を図ることができる。

（３）より好ましくは、上記字幕出力部は、時間的に連続する２つの上記字幕について、後の上記字幕の上記対応タイミングである次対応タイミングに基づいて、前の上記字幕を出力する。

このような構成により、前の字幕の対応タイミングにおいて出力される可能性が高い前の字幕に対応する音声、および次対応タイミングに基づいて出力される字幕が同時に出力される可能性を減ずることができるので、映像出力装置のユーザの集中力が分散してしまうことを回避することができる。

（４）より好ましくは、上記字幕出力部は、上記後の字幕の出力期間よりも短い期間、上記前の字幕を出力する。

このような構成により、時間的に連続する２つの字幕について、前の字幕および後の字幕が同時に出力される可能性の低減、または後の字幕の出力タイミングの遅延の抑制を行うことができる。

（５）より好ましくは、上記字幕出力部は、上記前の字幕の上記対応タイミングと上記次対応タイミングとの間隔が大きいとき、上記次対応タイミングの代わりに、上記前の字幕の上記対応タイミングと上記次対応タイミングとの間のタイミングで上記前の字幕を出力する。

このような構成により、大幅に遅れた次対応タイミングにおいて前の字幕が出力される場合と比べて、前の字幕に対応する音声を聞いてから前の字幕を見るまでの時間間隔をディクテーションの訓練として適正な時間間隔に近づけることができ、また、映像出力装置のユーザが感じる違和感を低減することができる。

（６）好ましくは、上記字幕出力部は、上記字幕に対応する上記音声の出力期間の終了タイミングに応答して、上記音声に対応する上記字幕の出力を開始する。

このような構成により、字幕に対応する音声を聞いてから当該字幕を見るまでの時間間隔をディクテーションの訓練として適正な時間間隔に近づけることができる。

（７）好ましくは、上記番組情報取得部は、さらに、上記字幕を出力すべき出力タイミングを示す字幕タイミング情報を取得し、上記字幕出力部は、上記字幕タイミング情報の示す上記字幕を出力すべき期間の終了に応答して、上記字幕の出力を開始する。

このように、字幕に対応する音声の出力期間と一致する可能性が高い上記期間に応答して、当該字幕の出力を開始する構成により、当該音声を聞いてから当該字幕を見るまでの時間間隔をディクテーションの訓練として適正な時間間隔に近づけることができる。

（８）好ましくは、上記映像出力部は、時間的に連続する２つの上記画像および上記音声について、前の上記画像および前の上記音声を出力し、上記字幕出力部によって上記前の音声に対応する上記字幕が出力された後、後の上記画像および後の上記音声の出力を保留または中断し、その後、保留または中断した上記後の画像および上記後の音声の出力を行うか、または再開する。

このような構成により、映像出力装置のユーザは、学習対象とする言語の音声を聞き終わった後、当該音声についての字幕をより長く見ることができるので、当該字幕の文章を読み終わる前に次の字幕の文章が出力されることを避けることができる。これにより、リスニング能力の低い初級者にとって好ましいディクテーションの訓練を行うことができる。

（９）好ましくは、上記映像出力装置は、さらに、上記字幕を表示するための字幕表示命令を受付ける受付け部を備え、上記字幕出力部は、上記受付け部が上記字幕表示命令を受付けると、上記字幕を出力しない状態から上記字幕を出力する状態へ切替える。

このように、映像出力装置のユーザによる操作に基づいて字幕が出力される構成により、ユーザは、内容を聞き取ることができた音声について字幕確認の作業を省略することができ、また、内容を聞き取ることができなかった音声については、字幕確認を行うことにより自己の弱点を把握することができる。これにより、リスニング能力の高い上級者にとって好ましいディクテーションの訓練を行うことができる。

（１０）好ましくは、上記番組情報取得部は、上記字幕を表示すべき位置を示す位置情報を取得し、上記字幕出力部は、上記番組情報取得部により取得された上記位置情報が示す位置と異なる位置に上記字幕を出力する。

このような構成により、画像における重要な表示と字幕とが重なってしまう可能性を減ずることができるので、画像における重要な表示が字幕により隠され、映像出力装置のユーザが重要な表示を見ることができなくなる状況を回避することができる。

（１１）好ましくは、上記映像出力装置は、さらに、上記音声および上記音声に対応する字幕をリピートするためのリピート命令を受付ける受付け部を備え、上記映像出力部は、上記受付け部が上記リピート命令を命令受付タイミングで受付けると、上記命令受付タイミングより前に出力された上記音声を再び出力し、上記字幕出力部は、上記音声に対応する上記字幕を、上記音声に対応して出力すべき対応タイミングとは異なるタイミングで再び出力する。

このような構成により、映像出力装置のユーザは、反復練習を行うことができるので、リスニング能力およびリーディング能力を向上させるための訓練をより効果的に行うことができる。

（１２）本発明の実施の形態に係る映像出力方法は、画像、上記画像に関連する音声、および上記音声に関連する字幕を出力可能な映像出力装置における映像出力方法であって、上記画像と、上記音声と、上記字幕と、上記画像を出力すべき出力タイミングを示す画像タイミング情報と、上記音声を出力すべき出力タイミングを示す音声タイミング情報とを取得するステップと、上記画像タイミング情報の示す上記出力タイミングおよび上記音声タイミング情報の示す上記出力タイミングに従って、取得した上記画像および上記音声をそれぞれ出力するステップと、取得した上記字幕を、上記画像または上記音声に対応して出力すべき対応タイミングとは異なるタイミングで出力するステップとを含む。

（１３）本発明の実施の形態に係る映像出力プログラムは、画像、上記画像に関連する音声、および上記音声に関連する字幕を出力可能な映像出力装置において用いられる映像出力プログラムであって、コンピュータに、上記画像と、上記音声と、上記字幕と、上記画像を出力すべき出力タイミングを示す画像タイミング情報と、上記音声を出力すべき出力タイミングを示す音声タイミング情報とを取得するステップと、上記画像タイミング情報の示す上記出力タイミングおよび上記音声タイミング情報の示す上記出力タイミングに従って、取得した上記画像および上記音声をそれぞれ出力するステップと、取得した上記字幕を、上記画像または上記音声に対応して出力すべき対応タイミングとは異なるタイミングで出力するステップとを実行させるためのプログラムである。

以下、本発明の実施の形態について図面を用いて説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰り返さない。また、以下に記載する実施の形態の少なくとも一部を任意に組み合わせてもよい。

［映像出力装置の構成］
図１は、本発明の実施の形態に係る映像出力システムの構成を示す図である。

図１を参照して、映像出力システム２０１は、映像出力装置１０１と、アンテナ１１と、蓄積部１２と、表示装置１３とを備える。映像出力装置１０１は、ストリーム取得部（番組情報取得部）２１と、制御部２２と、受付け部２３と、字幕処理部（字幕出力部）２４と、メディアチップ（映像出力部および字幕出力部）２５とを備える。ストリーム取得部２１は、ストリーム受信部３１と、ストリーム解析部３２と、読込部３３と、ストリーム処理部３４と、フィルタ処理部３５とを含む。字幕処理部２４は、ＰＩＤ管理部４１と、字幕解析部４２と、描画処理部４３と、字幕情報書換部４４とを含む。なお、蓄積部１２は、映像出力装置１０１に含まれていてもよい。表示装置１３は、映像出力装置１０１に含まれていてもよい。また、アンテナ１１は、映像出力装置１０１に含まれていてもよい。

アンテナ１１は、たとえば番組情報を送信する放送局からの電波を受信する。蓄積部１２は、たとえば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）装置、およびＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）またはブルーレイディスクのプレーヤ等であり、番組情報を蓄積する。表示装置１３は、映像出力装置１０１から受ける映像信号および音声信号に従って、それぞれ画面表示およびスピーカ出力を行う。

映像出力装置１０１は、たとえば、画像、音声および字幕等が多重化されたストリームを取得し、取得したストリームを処理することにより、画像を含む映像信号および音声を含む音声信号を生成し、表示装置１３へ出力する。また、映像出力装置１０１は、たとえば、画像および字幕を含む映像信号および音声を含む音声信号を生成し、表示装置１３へ出力することも可能である。

より詳細には、映像出力装置１０１における受付け部２３は、ユーザからの操作を受付け、受付けたユーザの操作に応じて、モード変更命令、字幕表示命令、表示変更命令、選択番組情報および処理命令等を制御部２２へ出力する。処理命令には、再生命令、字幕の一時表示命令およびリピート命令等が含まれる。

制御部２２は、たとえばメディアコントローラであり、ストリーム取得部２１、字幕処理部２４およびメディアチップ２５を総合的に制御する。

図２は、本発明の実施の形態に係る映像出力装置における制御部の構成を示す図である。

図２を参照して、制御部２２は、動作モード設定部５１と、ＳＴＣ（ＳｙｓｔｅｍＴｉｍｅＣｌｏｃｋ）５２と、再生制御部５３と、字幕表示切替部５４と、番組選択部５５とを含む。

具体的には、動作モード設定部５１は、受付け部２３から受けるモード変更命令に基づいて、自己の映像出力装置１０１の動作モードを設定する。

より詳細には、動作モード設定部５１は、たとえば通常の再生動作を行うための通常再生モード、または語学学習を行うための語学学習モードに自己の映像出力装置１０１を設定する。動作モード設定部５１は、語学学習モードにおいて、たとえばリスニング能力の低いユーザを対象とする初級者モード、またはリスニング能力の高いユーザを対象とする上級者モードに自己の映像出力装置１０１を設定する。

字幕表示切替部５４は、通常再生モードでは、受付け部２３から受ける字幕表示命令に基づいて、表示装置１３において字幕を表示する字幕表示オン、または字幕を表示しない字幕表示オフの切り替えを行う。

たとえば、語学学習における上級者にとっては、字幕に頼ることなく番組情報のほとんどの音声についてディクテーションを行うことが可能であるが、字幕を確認したい状況が発生する場合がたまにある。

これに対して、字幕表示切替部５４は、動作モード設定部５１により動作モードが語学学習モードの初級者モードに設定されると、字幕表示オンに切り替え、また、動作モードが語学学習モードの上級者モードに設定されると、字幕表示オフに切り替える。

そして、字幕表示切替部５４は、語学学習モードの上級者モードにおいて、受付け部２３から字幕の一時表示命令を受けると、字幕表示オフから字幕表示オンへ切替え、たとえば所定時間経過した後、字幕表示オフへ戻す。

これにより、上級者は、所定時間表示される字幕から音声の内容を確認することができる。

また、字幕表示切替部５４は、受付け部２３から受けた表示変更命令に基づいて、表示装置１３において通常の字幕表示を行う拡張字幕表示オフ、または通常より拡張された字幕表示を行う拡張字幕表示オンの切り替えを行う。字幕表示切替部５４は、字幕表示のオンオフおよび拡張字幕表示のオンオフについて字幕処理部２４およびメディアチップ２５に通知する。

ＳＴＣ５２は、たとえば自己の映像出力装置１０１が番組情報である画像、音声および字幕を処理する際の基準とすべき２７ＭＨｚのクロックであり、現在のシステム時間を示すカウント値を出力する。ストリーム取得部２１およびメディアチップ２５は、ＳＴＣ５２が出力するカウント値に基づいて、画像、音声および字幕を処理する。

再生制御部５３は、受付け部２３から受けた処理命令に基づいて、映像出力装置１０１の動作を制御する。具体的には、再生制御部５３は、受付け部２３から再生命令を受けると、ＳＴＣ５２のカウント値をたとえば再生開始位置に応じた値に設定する。そして、再生制御部５３は、ＳＴＣ５２を動作させることにより、番組情報が標準の速度で表示装置１３に表示されるようにストリーム取得部２１、字幕処理部２４およびメディアチップ２５を制御する再生処理を開始する。

また、再生制御部５３は、語学学習モードにおいて、受付け部２３からリピート命令を受けると、リピート処理を行う。具体的には、再生制御部５３は、たとえば、リピートを開始すべきカウント値を示す頭出しカウント値に基づいてＳＴＣ５２のカウント値を再設定することにより、番組情報の再生位置を戻す。

頭出しカウント値は、たとえば字幕処理部２４から受けるカウント値である。再生制御部５３は、たとえば、字幕処理部２４から受ける頭出しカウント値を配列として保持する。頭出しカウント値の詳細については後述する。

また、再生制御部５３は、語学学習モードの初級者モードにおいて、たとえば番組情報の再生を一時停止すべきカウント値であるポーズカウント値を字幕処理部２４から受け、受けたポーズカウント値をたとえば配列として保持する。再生制御部５３は、保持しているポーズカウント値に基づいてＳＴＣ５２の動作を所定時間Ｔｐ停止する一時停止処理を行う。再生制御部５３は、ＳＴＣ５２の動作を停止している間、一時停止命令をメディアチップ２５へ出力する。

番組選択部５５は、受付け部２３から受ける選択番組情報に含まれるユーザにより選択されたチャンネルまたは番組に基づいて、放送局からの電波に含まれる番組情報を識別するためのチャンネルＩＤまたは蓄積部１２に蓄積された番組ＩＤを特定する。番組選択部５５は、特定したチャンネルＩＤまたは番組ＩＤに基づいてストリーム取得部２１を制御する。

図１に示すストリーム取得部２１は、画像、音声および字幕、ならびに画像、音声および字幕を出力すべき出力タイミングをそれぞれ示す画像タイミング情報、音声タイミング情報および字幕タイミング情報を取得する。

より詳細には、ストリーム取得部２１におけるストリーム受信部３１は、番組選択部５５による制御に従って、たとえば１または複数の番組の画像、音声および字幕等が多重化されたＭＰＥＧ２−ＴＳ（ＴｒａｎｓｐｏｒｔＳｔｒｅａｍ）形式のＴＳストリームを含む電波をアンテナ１１経由で受信し、受信した電波からＴＳストリームを生成する。なお、ストリーム受信部３１は、たとえば、ＴＴＳ（ＴｉｍｅｓｔａｍｐｅｄＴＳ）パケットをネットワーク経由で受信し、受信したＴＴＳパケットからＴＳストリームを生成してもよい。ストリーム受信部３１は、生成したＴＳストリームをストリーム解析部３２へ出力する。

ここで、ＴＳストリームについて説明する。ＴＳストリームには複数のＴＳパケットが含まれる。各ＴＳパケットのペイロードには、たとえばＰＥＳ（ＰａｃｋｅｔｉｚｅｄＥｌｅｍｅｎｔａｒｙＳｔｒｅａｍ）の一部または全部が含まれる。

映像出力装置１０１において処理されるＰＥＳには、たとえば、画像を格納する画像ＰＥＳ、音声を格納する音声ＰＥＳおよび字幕を格納する字幕ＰＥＳ等がある。画像ＰＥＳ、音声ＰＥＳおよび字幕ＰＥＳのペイロードには、符号化された、画像、音声および字幕がそれぞれ含まれる。ＰＥＳのヘッダには、当該ＰＥＳの識別子であるストリームＩＤ、および当該ＰＥＳのペイロードに含まれる画像、音声または字幕を出力すべきタイミングを示すＰＴＳ（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅＳｔａｍｐ）等が含まれる。画像ＰＥＳ、音声ＰＥＳおよび字幕ＰＥＳの各々のヘッダにおけるＰＴＳは、それぞれ画像タイミング情報、音声タイミング情報および字幕タイミング情報に相当する。

各ＴＳパケットにおいて、ヘッダには、ペイロードに含まれる画像ＰＥＳ、音声ＰＥＳおよび字幕ＰＥＳに応じて異なる識別子すなわちＰＩＤ（ＰａｃｋｅｔＩｄｅｎｔｉｆｉｃａｔｉｏｎ）が含まれる。

ストリーム解析部３２は、ストリーム受信部３１から受けたＴＳストリームをＰＳＩ（ＰｒｏｇｒａｍＳｐｅｃｉｆｉｃＩｎｆｏｒｍａｔｉｏｎ）解析する。そして、ストリーム解析部３２は、ＰＳＩ解析結果とともに、ＴＳストリームをストリーム処理部３４へ出力する。

より詳細には、ストリーム解析部３２は、ＴＳストリームからＰＩＤがゼロであるＰＡＴ（ＰｒｏｇｒａｍＡｓｓｏｃｉａｔｉｏｎＴａｂｌｅ）パケットを取得する。そして、ストリーム解析部３２は、取得したＰＡＴパケットから、ＴＳストリームに含まれる１または複数の番組すなわち現在放送中である１または複数の番組の識別子であるチャンネルＩＤ、および各放送チャンネルの情報を含むＰＭＴ（ＰｒｏｇｒａｍＭａｐＴａｂｌｅ）パケットのＰＩＤ等のセクションデータを含むＰＡＴを生成する。

ストリーム解析部３２は、ＰＡＴを参照することにより、番組選択部５５により特定されたチャンネルＩＤに対応するＰＭＴパケットのＰＩＤを取得する。ストリーム解析部３２は、取得したＰＭＴパケットのＰＩＤを用いてＴＳストリームからＰＭＴパケットを特定し、特定したＰＭＴパケットからＰＭＴを生成する。

ＰＭＴは、たとえばチャンネルＩＤごとすなわち番組ごとに生成される。ＰＭＴには、対応の番組についての画像ＰＥＳ、音声ＰＥＳまたは字幕ＰＥＳに応じたＰＩＤが含まれる。ストリーム解析部３２は、生成したＰＭＴをストリーム処理部３４および字幕処理部２４におけるＰＩＤ管理部４１へ出力する。

読込部３３は、たとえば、番組選択部５５により特定された番組ＩＤに対応するＭＰＥＧ２−ＰＳ（ＰｒｏｇｒａｍＳｔｒｅａｍ）形式のＰＳストリームを蓄積部１２から読込む。ＰＳストリームには、画像ＰＥＳ、音声ＰＥＳおよび字幕ＰＥＳが含まれる。読込部３３は、ＰＳストリームを蓄積部１２から読込む際に、たとえば上記ＰＳストリームに含まれる画像ＰＥＳ、音声ＰＥＳおよび字幕ＰＥＳを識別するためのストリームＩＤを蓄積部１２から取得する。読込部３３は、ＰＳストリームをストリームＩＤとともにストリーム処理部３４へ出力する。

ストリーム処理部３４は、たとえばストリーム解析部３２からのＰＭＴに含まれるＰＩＤを用いて、画像ＰＥＳの一部または全部を含むＴＳパケット、および音声ＰＥＳの一部または全部を含むＴＳパケットをＴＳストリームから取得する。そして、ストリーム処理部３４は、取得したＴＳパケットから画像ＰＥＳおよび音声ＰＥＳを生成する。

また、ストリーム処理部３４は、たとえば読込部３３が取得したストリームＩＤを用いて、読込部３３からのＰＳストリームから画像ＰＥＳおよび音声ＰＥＳを取得する。

なお、ストリーム処理部３４は、たとえば画像ＰＥＳおよび音声ＰＥＳが暗号化されている場合、これらの画像ＰＥＳおよび音声ＰＥＳを復号する。

ストリーム処理部３４は、画像ＰＥＳおよび音声ＰＥＳをメディアチップ２５へ出力する。また、ストリーム処理部３４は、ＰＳストリームおよびストリームＩＤ、またはＴＳストリームをフィルタ処理部３５へ出力する。

［通常再生モードにおける字幕処理］
字幕処理部２４は、通常再生モードにおいて字幕表示オンに設定されている場合、字幕処理を行い、また、通常再生モードにおいて字幕表示オフに設定されている場合、字幕処理を行わない。なお、字幕処理部２４は、動作モードが語学学習モードに設定されている場合、初級者モードまたは上級者モードの設定に関わらず字幕処理を行う。以下、通常再生モードにおいて字幕表示オンが設定されている場合における字幕処理について説明する。

字幕処理部２４におけるＰＩＤ管理部４１は、たとえばストリーム解析部３２から受けるＰＭＴに基づいて、字幕ＰＥＳの一部または全部を含むＴＳパケットを示すＰＩＤを取得し、取得したＰＩＤをフィルタ処理部３５へ出力する。

フィルタ処理部３５は、ＰＩＤ管理部４１から受けたＰＩＤに基づいて、ストリーム処理部３４からのＴＳストリームから当該ＰＩＤをヘッダに含むＴＳパケットを取得し、取得したＴＳパケットから字幕ＰＥＳを生成する。

また、フィルタ処理部３５は、たとえば読込部３３が取得したストリームＩＤに基づいて、ストリーム処理部３４からのＰＳストリームから字幕ＰＥＳを取得する。フィルタ処理部３５は、字幕ＰＥＳをＰＩＤ管理部４１へ出力する。なお、フィルタ処理部３５は、たとえば字幕ＰＥＳが暗号化されている場合は、字幕ＰＥＳを復号する。

ＰＩＤ管理部４１は、フィルタ処理部３５から字幕ＰＥＳを受けると、受けた字幕ＰＥＳを字幕解析部４２へ出力する。

字幕解析部４２は、ＰＩＤ管理部４１から受ける字幕ＰＥＳのヘッダおよびペイロードからＰＴＳおよび字幕管理情報をそれぞれ取得する。字幕管理情報には、たとえば字幕の内容を示すテキストデータすなわち文章、字幕の字体を示すフォントデータ、画面において字幕を表示すべき位置を示す位置情報（以下、表示領域ＥＲとも称する）、および字幕表示を継続する時間を示すデュレーション時間等が含まれる。デュレーション時間は、ＰＴＳと同様に字幕タイミング情報に相当する。字幕解析部４２は、通常再生モードに設定されている場合、たとえば取得したＰＴＳおよび字幕管理情報を含む字幕情報を描画処理部４３へ出力する。

描画処理部４３は、拡張字幕表示オフに設定されている場合、字幕解析部４２からの字幕情報に含まれる字幕管理情報に基づいて字幕プレーンを生成する。ここで、プレーンとは、字幕または画像等のモノメディアを表示するための論理上の表示画面である。字幕プレーンには、フォントデータにより指定されたフォントを用いて作成された文章が、表示領域ＥＲにより指定された位置に字幕として描画される。描画処理部４３は、生成した字幕プレーンと当該字幕情報に含まれるＰＴＳおよびデュレーション時間とを対応付けてメディアチップ２５へ出力する。拡張字幕表示オンに設定されている場合における字幕プレーンについては後述する。

［拡張字幕表示オフに設定されている場合における出力処理］
メディアチップ２５は、たとえばＣＰＵであり、ＬＩＮＵＸ（登録商標）ＯＳ等のライブラリを用いてストリーム処理部３４から受ける画像ＰＥＳおよび音声ＰＥＳをデコードする。より詳細には、メディアチップ２５は、ストリーム処理部３４から受ける画像ＰＥＳに含まれるＰＴＳと制御部２２からのＳＴＣ５２のカウント値とがたとえば一致する画像出力タイミングに従って、当該ＰＥＳに含まれる符号化された画像をデコードすることにより画像プレーンを生成し、生成した画像プレーンの映像信号を表示装置１３へ出力する。

また、メディアチップ２５は、たとえば字幕表示オンに設定されている場合、字幕処理部２４から受けるＰＴＳ、デュレーション時間および対応の字幕プレーンに基づいて字幕を出力する。

具体的には、メディアチップ２５は、ＰＴＳとＳＴＣ５２のカウント値とが一致する字幕出力タイミングからデュレーション時間が経過するまで、字幕処理部２４から受ける対応の字幕プレーンを画像プレーンに重ねた合成プレーンを生成し、生成した合成プレーンの映像信号を表示装置１３へ出力する字幕出力処理を行う。

メディアチップ２５は、たとえば制御部２２から一時停止命令を受けた場合、一時停止命令を受けたタイミングにおける合成プレーンの映像信号の出力を、制御部２２から一時停止命令を受けなくなるまで継続する。

なお、メディアチップ２５は、たとえば字幕表示オフに設定されている場合、字幕出力処理を行わない。拡張字幕表示オンに設定されている場合における合成プレーンについては後述する。

メディアチップ２５は、ストリーム処理部３４から受ける音声ＰＥＳに含まれるＰＴＳとＳＴＣ５２のカウント値とが一致する音声出力タイミングに従って、当該ＰＥＳに含まれる符号化された音声をデコードすることにより音声信号を生成し、生成した音声信号を表示装置１３へ出力する。

［語学学習モードにおける字幕処理］
以下、語学学習モードにおける字幕処理について説明する。ＰＩＤ管理部４１、字幕解析部４２および描画処理部４３における処理は、通常再生モードにおける字幕処理と同様であるので詳細な説明は繰り返さない。

字幕解析部４２は、語学学習モードでは、たとえば取得したＰＴＳおよび字幕管理情報を含む字幕情報を字幕情報書換部４４へ出力する。

図３は、本発明の実施の形態に係る映像出力装置における字幕情報書換部の構成を示す図である。

図３を参照して、字幕情報書換部４４は、字幕情報バッファ６１と、字幕情報処理部６２とを含む。字幕情報バッファ６１は、先行字幕情報格納部６３と、後続字幕情報格納部６４とを含む。字幕情報処理部６２は、タイマ６５と、ＰＴＳ差分算出部６６と、字幕情報書換判断部６７とを含む。

字幕情報書換部４４は、字幕解析部４２から字幕情報を受けると、受けた字幕情報をバッファ６１に蓄積する。この際、字幕情報書換部４４は、最も古い字幕情報を先行字幕情報として先行字幕情報格納部６３に格納し、２番目以降に古い字幕情報を後続字幕情報格納部６４に格納する。

字幕情報処理部６２におけるＰＴＳ差分算出部６６は、先行字幕情報格納部６３に先行字幕情報が新たに格納されると、先行字幕情報に含まれるＰＴＳを第１ＰＴＳとして取得するとともに、タイマ６５を始動する。ここで、第１ＰＴＳは、後述する対応タイミングに相当する。

また、ＰＴＳ差分算出部６６は、先行字幕情報から生成される字幕に対応する頭出しカウント値として第１ＰＴＳを制御部２２へ出力する。

タイマ６５は、始動してから所定時間Ｔｍａｘ経過すると、タイマ満了通知を字幕情報書換判断部６７へ出力する。

ＰＴＳ差分算出部６６は、先行字幕情報格納部６３に先行字幕情報が格納された状態において、後続字幕情報格納部６４に字幕情報が新たに格納されると、後続字幕情報格納部６３において最も古い字幕情報すなわち先行字幕情報の次の字幕情報に含まれるＰＴＳを第２ＰＴＳとして取得するとともに、タイマ６５を停止する。ここで、第２ＰＴＳは、後述する次対応タイミングに相当する。

そして、ＰＴＳ差分算出部６６は、第２ＰＴＳから第１ＰＴＳを差し引いた値である差分ＰＴＳを字幕情報書換判断部６７へ出力する。

字幕情報書換判断部６７は、たとえば、差分ＰＴＳが大きいとき、先行字幕情報に含まれるＰＴＳを第１ＰＴＳと第２ＰＴＳとの間の値に書き換える。

後に図９において具体的に説明するが、字幕情報書換判断部６７は、たとえば、タイマ６５からタイマ満了通知を受ける前にＰＴＳ差分算出部６６から差分ＰＴＳを受けると、以下の処理を行う。すなわち、字幕情報書換判断部６７は、たとえば、差分ＰＴＳが所定のカウント値Ｃｍａｘ以下である場合、先行字幕情報に含まれるＰＴＳを第２ＰＴＳすなわち次の字幕情報に含まれるＰＴＳに書換える。

ここで、カウント値Ｃｍａｘは、たとえば所定時間ＴｍａｘをＳＴＣ５２におけるカウント値に換算した値である。

この際、字幕情報書換判断部６７は、たとえば、先行字幕情報に含まれるデュレーション時間Ｔｄ１が、次の字幕情報に含まれるデュレーション時間Ｔｄ２以上である場合、デュレーション時間Ｔｄ１をデュレーション時間Ｔｄ２より短い時間に書き換える。

一方、字幕情報書換判断部６７は、たとえば、差分ＰＴＳがカウント値Ｃｍａｘより大きい場合、先行字幕情報に含まれるＰＴＳを、第１ＰＴＳにカウント値Ｃｍａｘを加算した値に書換える。

また、字幕情報書換判断部６７は、たとえば、差分ＰＴＳよりタイマ満了通知を先に受ける場合、先行字幕情報に含まれるＰＴＳを、第１ＰＴＳにカウント値Ｃｍａｘを加算した値に書換える。

字幕情報書換判断部６７は、たとえば、内容が書き換えられた先行字幕情報に含まれるＰＴＳに所定値を加えたカウント値をポーズカウント値として制御部２２へ出力する。当該所定値は、たとえば、内容が書き換えられた先行字幕情報に含まれるデュレーション時間をＳＴＣ５２におけるカウント値に換算した値より小さい値に設定される。そして、字幕情報書換判断部６７は、内容が書き換えられた先行字幕情報を描画処理部４３へ出力する。

なお、本発明の実施の形態に係る字幕情報書換判断部６７は、差分ＰＴＳが所定のカウント値Ｃｍａｘ以下である場合、先行字幕情報に含まれるＰＴＳを第２ＰＴＳすなわち次の字幕情報に含まれるＰＴＳに書換える構成であるとしたが、これに限定するものではない。

字幕情報書換判断部６７は、たとえば、先行字幕情報に対応する字幕を出力すべき期間Ｔｏｒｇの終了に応答して、当該字幕の出力が開始されるように先行字幕情報に含まれるＰＴＳを書換える構成であってもよい。

具体的には、字幕情報書換判断部６７は、たとえば、先行字幕情報に含まれるデュレーション時間をＳＴＣ５２におけるカウント値に換算した値に先行字幕情報に含まれるＰＴＳを加えた値を期間Ｔｏｒｇの終了タイミングとして算出する。字幕情報書換判断部６７は、たとえば、先行字幕情報に含まれるＰＴＳを算出した終了タイミングに書き換える。

字幕情報バッファ６１では、内容が書き換えられた先行字幕情報が描画処理部４３へ出力された後、後続字幕情報格納部６４において最も古い字幕情報が新たな先行字幕情報として先行字幕情報格納部６３に格納されるバッファ更新処理が行われる。

描画処理部４３は、字幕情報書換判断部６７からの字幕情報に含まれる字幕管理情報に基づいて字幕プレーンを生成し、生成した字幕プレーンと当該字幕情報に含まれるＰＴＳおよびデュレーション時間とを対応付けてメディアチップ２５へ出力する。

［拡張字幕表示オンに設定されている場合における出力処理］
図４は、本発明の実施の形態に係る映像出力装置が拡張字幕表示オンにおいて表示装置へ出力する画像、音声および字幕の一例を示す図である。

図４を参照して、表示装置１３は、たとえば、ディスプレイＤＰＬと、スピーカＳＰとを含む。ディスプレイＤＰＬは、たとえばコーナｃ１，ｃ２，ｃ３，ｃ４により規定される画面ＳＣＲを有する。

メディアチップ２５は、たとえば、コーナｃ１からコーナｃ１，ｃ３間に位置する座標ｅ２までの１辺と、コーナｃ１からコーナｃ１，ｃ２間に位置する座標ｅ１までの１辺とを、隣り合う２辺とする長方形または正方形で指定される領域Ｒｓに画像を表示するための画像プレーンを生成する。

たとえば、画面ＳＣＲが４Ｋ解像度を有する場合、メディアチップ２５は、ＨＤ（ＨｉｇｈＤｅｆｉｎｉｔｉｏｎＶｉｄｅｏ）規格の画像を、解像度を落とすことなく領域Ｒｓに表示することが可能である。

描画処理部４３は、たとえば、表示領域ＥＲが示す位置と異なる位置に字幕を描画する。具体的には、描画処理部４３は、画面ＳＣＲにおいて、たとえば、領域Ｒｓ以外の領域において字幕が描画された字幕プレーンを生成する。より詳細には、描画処理部４３は、たとえば、領域Ｒｓの右側の領域において字幕が表示された字幕プレーンを生成する。なお、描画処理部４３は、たとえば、領域Ｒｓの下側の領域において字幕が表示された字幕プレーンを生成してもよい。

また、描画処理部４３は、語学学習モードでは、画面ＳＣＲにおいて、たとえば、領域Ｒｓ以外の領域において字幕の履歴を参照することが可能な字幕プレーンを生成する。

［動作］
図５は、本発明の実施の形態に係る映像出力装置が画像、音声および字幕を出力する際の動作手順を定めたフローチャートである。映像出力装置１０１は、コンピュータを備え、当該コンピュータにおけるＣＰＵ等の演算処理部は、以下のフローチャートの各ステップの一部または全部を含むプログラムを図示しないメモリから読み出して実行する。この装置のプログラムは、外部からインストールすることができる。この装置のプログラムは、記録媒体に格納された状態で流通する。

図５を参照して、まず、映像出力装置１０１における制御部２２は、受付け部２３から再生命令を受けると、たとえばＳＴＣ５２を動作させることにより、再生処理を開始する（ステップＳ１００）。

次に、受付け部２３がユーザによる操作を受付けていない場合（ステップＳ１０１でＮＯ）、ストリーム取得部２１は、ＴＳストリームまたはＰＳストリームを取得し、取得したストリームから画像ＰＥＳ、音声ＰＥＳおよび字幕ＰＥＳを取得する（ステップＳ１０４）。

一方、受付け部２３は、ユーザによる操作を受付けた場合（ステップＳ１０１でＹＥＳ）、受付けたユーザの操作に応じて、モード変更命令、字幕表示命令、表示変更命令、字幕の一時表示命令およびリピート命令等を制御部２２へ出力する。制御部２２は、受付け部２３から受けるモード変更命令、字幕表示命令および表示変更命令に応じて、通常再生モード、語学学習モードの初級者モード、または語学学習モードの上級者モードの設定、字幕表示オンまたは字幕表示オフの切り替え、および拡張字幕表示オンまたは拡張字幕表示オフの切り替えを行う（ステップＳ１０２）。

次に、ストリーム取得部２１は、ＴＳストリームまたはＰＳストリームを取得し、取得したストリームから画像ＰＥＳ、音声ＰＥＳおよび字幕ＰＥＳを取得する（ステップＳ１０４）。

次に、メディアチップ２５は、ストリーム取得部２１において取得された画像ＰＥＳおよび音声ＰＥＳをデコードすることにより、画像プレーンおよび音声信号をそれぞれ生成する（ステップＳ１０６）。

次に、字幕処理部２４は、語学学習モードでない場合すなわち通常再生モードである場合であって、字幕表示オンである場合（ステップＳ１０８でＮＯおよびステップＳ１１０でＹＥＳ）、ストリーム取得部２１において取得された字幕ＰＥＳを用いて字幕プレーンを生成する（ステップＳ１１２）。

次に、メディアチップ２５は、画像プレーンに字幕プレーンを重ねた合成プレーンを生成する（ステップＳ１１４）。

次に、メディアチップ２５は、生成した合成プレーンの映像信号、および音声信号を表示装置１３へ出力する（ステップＳ１１６）。

一方、メディアチップ２５は、通常再生モードである場合であって、字幕表示オフである場合（ステップＳ１０８でＮＯおよびステップＳ１１０でＮＯ）、生成した画像プレーンの映像信号、および音声信号を表示装置１３へ出力する（ステップＳ１１６）。

次に、受付け部２３は、ユーザによる操作を受付けたか否かを判断する（ステップＳ１０１）。

また、字幕処理部２４は、語学学習モードである場合（ステップＳ１０８でＹＥＳ）、ストリーム取得部２１において取得された字幕ＰＥＳの字幕情報について書換処理を行う（ステップＳ１１８）。

ここで、映像出力装置１０１は、デフォルトでは、語学学習モードの初級者モードである場合、字幕表示オンに設定され、また、語学学習モードの上級者モードである場合、字幕表示オフに設定されている。

次に、字幕処理部２４は、内容を書き換えた字幕情報を用いて、拡張字幕表示オンまたは拡張字幕表示オフの設定に応じた字幕プレーンを生成する（ステップＳ１２０）。

次に、メディアチップ２５は、字幕表示オンである場合（ステップＳ１２２でＹＥＳ）、拡張字幕表示オンまたは拡張字幕表示オフの設定に応じた、画像プレーンに字幕プレーンを重ねた合成プレーンを生成する（ステップＳ１２４）。

次に、メディアチップ２５は、生成した合成プレーンの映像信号、および音声信号を表示装置１３へ出力する（ステップＳ１２６）。

一方、メディアチップ２５は、字幕表示オフである場合（ステップＳ１２２でＮＯ）、生成した画像プレーンの映像信号および音声信号を表示装置１３へ出力する（ステップＳ１２６）。

次に、映像出力装置１０１は、ユーザによる操作に応じた語学学習モード向け処理を行う（ステップＳ１３０）。

図６は、本発明の実施の形態に係る制御部が画像、音声および字幕の出力制御を行う際の動作手順を定めたフローチャートである。

以下は、図５に示すステップＳ１３０におけるユーザによる操作に応じた語学学習モード向け処理の詳細な動作である。

図６を参照して、制御部２２は、初級者モードである場合（ステップＳ２０２でＹＥＳ）、一時停止処理を行う（ステップＳ２０４）。

次に、制御部２２は、受付け部２３からリピート命令を受けたか否かを判断する（ステップＳ２１０）。

一方、制御部２２は、上級者モードである場合（ステップＳ２０２でＮＯ）、受付け部２３から字幕の一時表示命令を受けたか否かを判断する（ステップＳ２０６）。

次に、制御部２２は、受付け部２３から字幕の一時表示命令を受けていないと判断する場合（ステップＳ２０６でＮＯ）、受付け部２３からリピート命令を受けたか否かを判断する（ステップＳ２１０）。

一方、制御部２２は、受付け部２３から字幕の一時表示命令を受けたと判断する場合（ステップＳ２０６でＹＥＳ）、たとえば所定時間字幕表示オフから字幕表示オンへ切り替える（ステップＳ２０８）。

次に、制御部２２は、受付け部２３からリピート命令を受けたと判断する場合（ステップＳ２１０でＹＥＳ）、リピート処理を行う（ステップＳ２１２）。

次に、制御部２２は、ユーザによる操作に応じた語学学習モード向け処理を終了する。

一方、制御部２２は、受付け部２３からリピート命令を受けていないと判断する場合（ステップＳ２１０でＮＯ）、ユーザによる操作に応じた語学学習モード向け処理を終了する。

図７は、本発明の実施の形態に係る字幕処理部が字幕情報の書換を行う際の動作手順を定めたフローチャートである。

以下は、図５に示すステップＳ１１８における字幕情報書換処理の詳細な動作である。映像出力装置１０１は語学学習モードに設定されている。また、字幕処理部２４における字幕情報書換部４４は字幕を格納していない状況を想定する。

図７を参照して、まず、字幕情報書換部４４は、ストリーム取得部２１から受ける先行の字幕情報を字幕情報バッファ６１に格納する（ステップＳ３０２）。

次に、字幕情報書換部４４における字幕情報処理部６２は、タイマ６５を始動する（ステップＳ３０４）。この際、字幕情報処理部６２は、先行の字幕情報に含まれるＰＴＳを第１ＰＴＳとして取得する。

次に、字幕情報処理部６２は、タイマ６５が満了するまでストリーム取得部２１からの次の字幕情報を待ち受け（ステップＳ３０６でＮＯおよびステップＳ３０８でＮＯ）、次の字幕情報が字幕情報バッファ６１に格納されないままタイマ６５が満了すると（ステップＳ３０６でＮＯおよびステップＳ３０８でＹＥＳ）、以下の処理を行う。

すなわち、字幕情報処理部６２は、先行の字幕情報に含まれるＰＴＳを、第１ＰＴＳにカウント値Ｃｍａｘを加算した値に書換える（ステップＳ３１０）。

一方、字幕情報処理部６２は、タイマ６５が満了する前に次の字幕情報が字幕情報バッファ６１に格納されると（ステップＳ３０６でＹＥＳ）、タイマ６５を停止する（ステップＳ３１２）。この際、字幕情報処理部６２は、次の字幕情報に含まれるＰＴＳを第２ＰＴＳとして取得する。

次に、字幕情報処理部６２は、第２ＰＴＳと第１ＰＴＳとの差である差分ＰＴＳを算出する（ステップＳ３１４）。

次に、字幕情報処理部６２は、差分ＰＴＳがカウント値Ｃｍａｘより大きい場合（ステップＳ３１６でＮＯ）、先行の字幕情報に含まれるＰＴＳを、第１ＰＴＳにカウント値Ｃｍａｘを加算した値に書換える（ステップＳ３１０）。

一方、字幕情報処理部６２は、差分ＰＴＳがカウント値Ｃｍａｘ以下である場合、先行の字幕情報に含まれるＰＴＳを第２ＰＴＳに書換える（ステップＳ３１８）。

図８は、本発明の実施の形態に係る制御部がリピート処理を行う際の動作手順を定めたフローチャートである。

以下は、図６に示すステップＳ２１２におけるリピート処理の詳細な動作である。映像出力装置１０１は語学学習モードに設定されており、また、制御部２２が、受付け部２３からリピート命令を受けたと判断する状況を想定する。

図８を参照して、まず、制御部２２は、ＳＴＣ５２における現在のカウント値を取得する（ステップＳ４０２）。

次に、制御部２２は、配列として保持する頭出しカウント値のうち、たとえば、現在のカウント値より小さい頭出しカウント値であって、現在のカウント値に最も近い頭出しカウント値を選択する（ステップＳ４０４）。

次に、制御部２２は、選択した頭出しカウント値にＳＴＣ５２のカウント値を再設定する（ステップＳ４０６）。

次に、制御部２２は、ＳＴＣ５２に再設定したカウント値から番組情報の再生処理を開始する（ステップＳ４０８）。この際、ストリーム取得部２１は、制御部２２により再設定されたカウント値に応じたストリームを取得する。

［字幕の出力タイミングを遅らせる場合の具体例］
図９は、本発明の実施の形態に係る映像出力装置が表示装置へ出力する画像、音声および字幕の出力タイミングの一例を示す図である。

図９を参照して、横軸は、システム時間すなわちＳＴＣ５２のカウント値を示す。以下、表示装置１３においてシーン１からシーン２が表示される状況を想定する。以下、シーン１，２の各々をシーンとも称する。なお、各シーンには、たとえば１または複数の画像が含まれる。各画像は、たとえば１または複数の画像ＰＥＳから生成される。

音声Ａ，Ｂの出力は、たとえばシーン１におけるカウント値ｃｓ１，ｃｓ２からそれぞれ開始される。音声Ｃ，Ｄ，Ｅの出力は、たとえばシーン２におけるカウント値ｃｓ５，ｃｓ６，ｃｓ７からそれぞれ開始される。以下、音声Ａ〜Ｅの各々を音声とも称する。各音声は、１または複数の音声ＰＥＳから生成される。

音声は、たとえば、シーンに関連する音である。具体的には、音声は、たとえば、シーンにおいて登場する人物の話し声および歌声等の人間が聞くことにより意味を理解することができる音である。また、音声は、たとえば、当該シーンを説明するためのナレーション等であってもよい。

音声は、英語および日本語等のいずれの言語であってもよい。また、１つの音声には、複数の人間により行われる会話が含まれてもよい。なお、映像出力装置１０１は、シーン１，２において音声Ａ〜Ｅ以外にも、音楽および物音等の背景音を出力する。

通常再生モードにおいて、字幕Ａ，Ｂの出力は、たとえばシーン１におけるカウント値ｃｓ１，ｃｓ２からそれぞれ開始される。字幕Ｃ，Ｄ，Ｅの出力は、たとえばシーン２におけるカウント値ｃｓ５，ｃｓ６，ｃｓ７からそれぞれ開始される。以下、字幕Ａ〜Ｅの各々を字幕とも称する。

字幕は、音声に対応する文章を表す。具体的には、字幕は、たとえば音声が話し声であるときは、当該話し声の文章を表す。字幕は、たとえば音声が英語であるときは、英語の文章を表す。なお、字幕は、音声が英語であるときは、たとえば当該音声の意味を示す日本語の文章を表してもよい。

通常再生モードにおいて、字幕は、たとえば、音声に対応して出力すべき対応タイミングにおいて出力される。具体的には、たとえば、字幕Ａは、音声Ａの出力開始カウント値ｃｓ１から音声Ａの出力終了カウント値ｃｓ１ｅまでの対応タイミングにおいて出力される。字幕Ｂ〜Ｄの各々についても同様に、音声Ｂ〜Ｅの出力開始カウント値ｃｓ２，ｃｓ５，ｃｓ６，ｃｓ７から音声Ｂ〜Ｅの出力終了カウント値ｃｓ２ｅ，ｃｓ３ｅ，ｃｓ４ｅ，ｃｓ５ｅまでの各対応タイミングにおいてそれぞれ出力される。

なお、ここでは簡単のため、音声が出力されるタイミングと字幕が出力される対応タイミングとが一致しているとしたが、これに限定するものではない。音声が出力されるタイミングと字幕が出力される対応タイミングとが概ね一致していればよい。

たとえば、映像出力装置１０１のユーザは、英語のリスニング能力の向上を目的として番組情報を視聴する場合、通常再生モードでは、英語の音声を聞きながら表示装置１３に表示された英文の字幕の文章を目で追うことになる。

英語の語学学習では、英語で話された音声を聞いた後、聞いた音声について文章で書き起こすディクテーションを行うことにより、リスニング能力の向上を図ることができるといわれている。実際には、聞いた音声を文章で書き起こす代わりに、たとえば頭の中で文章を組み立てることによっても、リスニング能力の向上に対する一定の効果が期待できる。このため、通常再生モードでは、ユーザは、英語のリスニング能力の向上を図ることが困難である。

一方、映像出力装置１０１の語学学習モードでは、字幕は、たとえば、音声に対応して出力すべき対応タイミングとは異なるタイミングにおいて出力される。たとえば、字幕は、通常再生モードにおける当該字幕の対応タイミングより後のタイミングにおいて出力される。具体的には、時間的に連続する２つの字幕について、後の字幕の対応タイミングである次対応タイミングに基づいて、前の字幕を出力する。

たとえば、図９に示すように、語学学習モードでは、通常再生モードにおける字幕Ａは、字幕Ｂの対応タイミングすなわち次対応タイミングに基づいて、カウント値ｃｓ２から出力が開始される。

このような構成により、映像出力装置１０１のユーザは、英語の音声Ａを聞き終わった後、音声Ａについての字幕Ａを見ることができるので、番組情報を視聴しながらディクテーションの訓練を行うことができる。これにより、ユーザは、英語のリスニング能力の向上を図ることができる。

また、映像出力装置１０１では、語学学習目的のために専用に制作したストリームを用意することなくディクテーションの訓練を行うことができるので、番組情報に要するコストを抑制し、かつ教材となる番組の選択の幅を広げることができる。

また、たとえば、図９に示すように、音声Ｂおよび音声Ｃがシーン１からシーン２への切り替わりの前後に位置する場合、音声Ｂの出力タイミングと音声Ｃの出力タイミングとの間隔が長くなるときがある。

字幕Ｃの対応タイミングの開始カウント値ｃｓ５と字幕Ｂの対応タイミングの開始カウント値ｃｓ２との差が図９に示すようにカウント値Ｃｍａｘより大きいとき、字幕Ｂは、語学学習モードにおいて、開始カウント値ｃｓ２からカウント値Ｃｍａｘを加えたカウント値ｃｓ４から出力される。

このような構成により、字幕Ｂが字幕Ｃの対応タイミングの開始カウント値ｃｓ５から出力される場合と比べて、音声Ｂを聞いてから字幕Ｂを見るまでの時間間隔をディクテーションの訓練として適正な時間間隔に近づけることができ、また、映像出力装置１０１のユーザが感じる違和感を低減することができる。

また、たとえば、字幕Ｃは、語学学習モードでは、字幕Ｄの対応タイミングに基づいて、カウント値ｃｓ６から出力が開始される。一方、図９に示すように、字幕Ｃが出力される期間Ｃｃが、字幕Ｅの対応タイミングの始点であるカウント値ｃｓ７、とカウント値ｃｓ６との差より大きい場合、語学学習モードでは、字幕Ｃと字幕Ｄとが重複して出力されたり、字幕Ｄの出力タイミングが遅延したりするときがある。

これに対して、字幕処理部２４は、たとえば、後の字幕の出力期間よりも短い期間、前の字幕を出力するように、前の字幕に対応する字幕管理情報におけるデュレーション時間を書き換える。

具体的には、字幕処理部２４は、たとえば、字幕Ｃに対応する字幕管理情報におけるデュレーション時間を、字幕Ｄに対応する字幕管理情報におけるデュレーション時間以下に書き換える。

このような構成により、語学学習モードにおいて、字幕が重複して出力されたり、字幕の出力タイミングが遅延したりすることを抑制することができる。

［初級者モードにおける一時停止処理の具体例］
語学学習における初級者にとっては、番組情報の通常の再生速度が速すぎる場合がある。具体的には、初級者が字幕の文章を読み終わる前に次の字幕の文章が出力される場合、初級者にとってのディクテーションの訓練として好ましくない。

これに対して、映像出力装置１０１では、図９に示すように、語学学習モードにおける字幕Ａ，Ｂ，Ｃ，Ｄの出力開始カウント値ｃｓ２，ｃｓ４，ｃｓ６，ｃｓ７の各々のカウント値に所定値が加えられたポーズカウント値ｃｓｐ１，ｃｓｐ２，ｃｓｐ３，ｃｓｐ４がそれぞれ設定される。

なお、ポーズカウント値ｃｓｐ１〜ｃｓｐ４の各々は、語学学習モードにおいて字幕Ａ〜Ｄがそれぞれ出力される期間内であればいずれのカウント値でもよい。

制御部２２は、たとえばＳＴＣ５２のカウント値とポーズカウント値ｃｓｐ１〜ｃｓｐ４とが一致する各タイミングで一時停止処理を行う。

図１０は、本発明の実施の形態に係る映像出力装置が表示装置へ出力する画像、音声および字幕の出力タイミングの一例を示す図である。

図１０を参照して、横軸は、実時間を示す。たとえば、映像出力装置１０１において一時停止処理等の再生速度を変更する処理が行われると、システム時間が進む速度すなわちカウント値が増加する速度と実時間が進む速度とが異なる期間が生ずるので、カウント値と実時間とが比例しなくなる。

メディアチップ２５は、図９に示すカウント値ｃｓ１すなわち実時間における時刻ｔｒ１において音声Ａの出力を開始する。その後、メディアチップ２５は、カウント値ｃｓ２すなわち実時間における時刻ｔｒ２において音声Ｂおよび字幕Ａの出力を開始する。

そして、制御部２２は、カウント値ｃｓｐ１すなわち実時間における時刻ｔｒｐ１において一時停止処理を開始する。この際、制御部２２は、たとえばＳＴＣ５２の動作を停止させ、一時停止命令をメディアチップ２５へ出力する。これにより、メディアチップ２５は、カウント値ｃｓｐ１において音声Ｂおよび音声Ｂに対応する画像の出力を中断する。そして、制御部２２は、たとえば所定時間Ｔｐ経過後、ＳＴＣ５２の動作を再開する。これにより、メディアチップ２５は、中断した音声Ｂおよび音声Ｂに対応する画像の出力を再開する。字幕Ｂ〜Ｄについても字幕Ａと同様である。

このような構成により、映像出力装置１０１のユーザは、英語の音声Ａを聞き終わった後、音声Ａについての字幕Ａを所定時間Ｔｐ分長く見ることができるので、字幕Ａの文章を読み終わる前に字幕Ｂの文章が出力されることを避けることができる。これにより、初級者にとって好ましいディクテーションの訓練を行うことができる。

なお、図１０に示す場合、音声Ｂの出力が時刻ｔｒ２において開始された後、時刻ｔｒｐ１において一時停止処理が行われるため、音声Ｂが連続的に出力されない。このため、ユーザが音声Ｂを正しく聞き取ることが困難となる場合がある。

これに対して、字幕処理部２４は、たとえば、字幕Ａが音声Ｂより先に表示されるように字幕ＡのＰＴＳ３００を設定し、かつ、字幕Ａについての一時停止処理が完了した後音声Ｂが出力されるようなポーズカウント値Ｃ３０１を設定する。

上記の設定により、メディアチップ２５がＰＴＳ３００において字幕Ａを出力した後、制御部２２は、ポーズカウント値Ｃ３０１において一時停止処理を開始する。メディアチップ２５は、ポーズカウント値Ｃ３０１において音声Ｂおよび音声Ｂに対応する画像の出力を保留する。そして、制御部２２は、たとえば所定時間Ｔｐ経過後、ＳＴＣ５２の動作を再開する。その後、メディアチップ２５は、カウント値ｃｓ２において音声Ｂおよび音声Ｂに対応する画像の出力を行う。

このような構成により、字幕Ａについての一時停止処理に起因して音声Ｂが途切れてしまうことを回避することができるので、ユーザが音声Ｂを正しく聞き取ることが困難となる状況を回避することができる。

なお、音声Ｂの出力が開始されるカウント値を把握することが困難である場合、字幕処理部２４は、たとえば、所定の繰上げ値を用いて一時停止処理が早めに行われるように語学学習モードにおける字幕ＡのＰＴＳおよび字幕Ａのポーズカウント値を設定してもよい。

具体的には、字幕処理部２４は、たとえば、通常再生モードにおける字幕ＢのＰＴＳであるカウント値ｃｓ２から繰上げ値を減じた値を語学学習モードにおける字幕ＡのＰＴＳに設定する。そして、字幕処理部２４は、たとえば、設定した字幕ＡのＰＴＳとカウント値ｃｓ２との間の値に字幕Ａのポーズカウント値を設定する。

これにより、音声Ｂの出力が開始されるカウント値を把握することが困難である場合であっても、音声Ｂの出力が開始された後のタイミングで一時停止処理が行われてしまう可能性を低減することができるので、音声Ｂが途切れてしまうことを回避することができる。

［上級者モードにおける字幕表示オンへの切替処理の具体例］
上述したように、語学学習における上級者にとっては、字幕に頼ることなく番組情報のほとんどの音声についてディクテーションを行うことが可能であるが、字幕を確認したい状況が発生する場合がたまにある。たとえば、字幕を確認したい状況において字幕を確認しないままにしておくと、語学学習における自己の弱点を把握することができないのでディクテーションの訓練として好ましくない。

図１１は、本発明の実施の形態に係る映像出力装置が表示装置へ出力する画像、音声および字幕の出力タイミングの一例を示す図である。

図１１を参照して、横軸は、システム時間すなわちＳＴＣ５２のカウント値を示す。シーン１，２および音声Ａ〜Ｅが出力されるタイミングは、図９に示す場合と同様である。

たとえば、映像出力装置１０１のユーザが、カウント値ｃｓ１から開始される音声Ａを聞いたけれども、十分に聞き取れなかった状況を想定する。語学学習モードの上級者モードでは、デフォルトで字幕表示オフであるため、字幕Ａの出力は、音声Ｂの対応タイミングであるカウント値ｃｓ２を経過しても開始されない。

たとえば、ユーザは、カウント値ｃｓｒ１において、字幕を一時表示させるための操作を受付け部２３に対して行う。制御部２２は、受付け部２３から字幕の一時表示命令を受けた場合、カウント値ｃｓｒ１からカウント値ｃｓｒ１に所定のカウント値Ｃｔｅｍｐを加えたカウント値ｃｓｒ２まで字幕表示オフから字幕表示オンへ切替える。

このような構成により、カウント値ｃｓｒ１からカウント値ｃｓｒ２まで字幕ＡまたはＢがメディアチップ２５から出力されるので、ユーザは、十分に聞き取れなかった音声Ａの内容について、字幕Ａを見ることにより確認することができる。

また、語学学習モードでは、字幕表示オフに設定されている場合においても字幕処理部２４において字幕処理が行われているので、ユーザの操作を受けてから字幕が出力されるまでのレスポンス期間を短くすることができ、ユーザの使用感を向上させることができる。

なお、Ｃｔｅｍｐが大きい場合、上記のように字幕Ａに続いて字幕Ｂも出力することがある。したがって、制御部２２は、たとえば、字幕Ａの出力が完了するカウント値ｃｓ３から字幕Ｂの出力開始カウント値ｃｓ４までの間のいずれかのカウント値において字幕表示オンから字幕表示オフへ切替えてもよい。

［表示領域変更処理の具体例］
字幕管理情報に含まれる表示領域ＥＲが指定する字幕の表示位置は、対応する画像において重要でない位置に設定される場合が多い。具体的には、たとえば、字幕Ａに対応する画像を画像Ａとする場合において、画像Ａにおいて重要でない位置が下側であるとき、字幕Ａに対応する字幕管理情報に含まれる表示領域ＥＲＡは、たとえば字幕Ａの表示位置を画像Ａの下側に指定する。

また、たとえば、字幕Ｂに対応する画像を画像Ｂとする場合において、画像Ｂにおいて重要でない位置が右側であるとき、字幕Ｂに対応する字幕管理情報に含まれる表示領域ＥＲＢは、たとえば字幕Ｂの表示位置を画像Ｂの右側に指定する。したがって、通常再生モードにおいて拡張字幕表示オフに設定されている場合、字幕Ａは、画像Ａの下側に重ねて描画され、また、字幕Ｂは、画像Ｂの右側に重ねて描画される。

一方、語学学習モードにおいて拡張字幕表示オフに設定されている場合、字幕Ａは、表示領域ＥＲＡの指示に従って画像Ｂに重ねて描画されるため、字幕Ａは、画像Ｂの下側に重ねて描画される。たとえば、画像Ｂの下側において重要な表示が行われる場合、字幕Ａは、ユーザが画像Ｂの重要な表示を見ることを妨げてしまうので好ましくない。

再び図４を参照して、これに対して、字幕処理部２４は、たとえば、領域Ｒｓの右側の領域において、図９に示すシーン１〜２が領域Ｒｓに描画された期間の字幕を履歴として参照可能なように字幕を描画する。具体的には、字幕処理部２４は、たとえば、字幕Ｄの下に，字幕Ａ〜Ｃを新しい順に描画する。

このような構成により、画像における重要な表示と字幕とが重なってしまうことを回避することができるので、画像における重要な表示が字幕により隠され、ユーザが重要な表示を見ることができなくなる状況を回避することができる。

なお、字幕処理部２４は、たとえば、画像が描画される領域Ｒｓの右側の領域に字幕を描画する構成であるとしたが、これに限定するものではない。字幕処理部２４は、たとえば、画像が描画される領域Ｒｓ内に字幕を描画する構成であってもよい。

具体的には、字幕処理部２４は、たとえば、次の字幕情報に含まれる表示領域ＥＲの指示に従って、先行字幕情報に対応する字幕を描画する。上記の例では、字幕Ａは、表示領域ＥＲＢの指示に従って、画像Ｂの右側に重ねて描画される。これにより、画像Ｂの下側における重要な表示を字幕Ａが妨げてしまうことを回避することができる。

［リピート処理の具体例］
映像出力装置１０１のユーザが、語学学習モードにおいて、音声を十分に聞き取れなかった状況が発生する場合がある。当該音声を再度聞くためには、ユーザは、巻戻し処理を行う必要があるが、当該音声の頭出しに要する時間が長くなることがある。音声の頭出しに時間がかかると、ユーザの使用感を損ねてしまうため好ましくない。

図１２は、本発明の実施の形態に係る映像出力装置が表示装置へ出力する画像、音声および字幕の出力タイミングの一例を示す図である。

図１２を参照して、横軸は、実時間を示す。たとえば、ユーザは、時刻ｔｒ１から開始される音声Ａを聞いた後、時刻ｔｒ２から表示される字幕Ａを見ながら音声Ａを十分に聞き取れなかったことに気づき、時刻ｔｒｍ１すなわち図９に示すカウント値ｃｓｍ１において、音声をリピートするための操作を行う。

一方、制御部２２は、時刻ｔｒ１において、たとえば頭出しカウント値として字幕処理部２４から受けるカウント値ｃｓ１を配列に加える。そして、制御部２２は、時刻ｔｒｍ１において、受付け部２３からリピート命令を受けると、たとえば最新の頭出しカウント値ｃｓ１にＳＴＣ５２のカウント値を再設定することにより、番組情報の再生位置を戻す。これにより、リピート処理に要する時間Ｔｗの経過後の時刻ｔｒｍ２から音声Ａが再び出力された後、時刻ｔｒｍ５２から字幕Ａが再び出力される。

この際、制御部２２は、音声Ａおよび字幕Ａに加えて、シーン１の対応する画像についてリピートしてもよい。

このように、字幕に対応する頭出しカウント値を用いて頭出しを行う構成により、字幕および対応する音声の単位で容易に巻き戻すことができるので、短時間で音声の頭出しを完了させることができる。これにより、映像出力装置１０１のユーザの使用感を損ねてしまうことを回避することができる。

なお、制御部２２は、たとえばユーザの操作に応じた頭出しカウント値を配列として保持する頭出しカウント値から抽出することにより、２つ以上前の音声、具体的には音声Ａより前の音声をリピートしてもよい。

また、本発明の実施の形態にかかる映像出力装置１０１は、画像タイミング情報、音声タイミング情報および字幕タイミング情報を含むストリームを処理する構成であるとしたが、これに限定するものではない。

映像出力装置１０１は、たとえば、字幕タイミング情報を含まないストリームを処理する構成であってもよい。具体的には、映像出力装置１０１は、たとえば、画像、音声および当該画像に対応付けられた字幕をストリームから取得し、当該画像を出力すべき出力タイミングに基づいて、当該字幕を出力すべき対応タイミングを設定する構成であってもよい。また、映像出力装置１０１は、たとえば、画像、音声および当該音声に対応付けられた字幕をストリームから取得し、当該音声を出力すべき出力タイミングに基づいて、当該字幕を出力すべき対応タイミングを設定する構成であってもよい。

また、映像出力装置１０１は、たとえば、音声タイミング情報を含まないストリームを処理する構成であってもよい。具体的には、映像出力装置１０１は、たとえば、画像、当該画像に対応付けられた音声および当該画像に対応付けられた字幕をストリームから取得し、当該画像を出力すべき出力タイミングに基づいて、当該音声を出力すべき出力タイミングおよび当該字幕を出力すべき対応タイミングを設定する構成であってもよい。

また、本発明の実施の形態にかかる映像出力装置１０１は、字幕を、画像または音声に対応して出力すべき対応タイミングとして字幕情報に含まれるＰＴＳおよびデュレーション時間を用いる構成であるとしたが、これに限定するものではない。

映像出力装置１０１は、たとえば、字幕に対応する音声の出力期間を認識可能である場合、当該出力期間を対応タイミングとして用いる構成であってもよい。具体的には、たとえば、字幕に対応する音声の出力期間についての情報がストリームに含まれる場合、映像出力装置１０１は、当該出力期間を対応タイミングとして用いることが可能である。

この場合、字幕情報書換部４４は、たとえば、字幕に対応する音声の出力期間の終了タイミングに応答して、当該音声に対応する字幕の出力が開始されるように当該字幕についてのＰＴＳを書換える構成であってもよい。

再び図９を参照して、具体的には、字幕情報書換部４４は、たとえば、字幕Ａに対応する音声Ａの出力期間の終了タイミングであるカウント値ｃｓ１ｅに応答して、字幕Ａの出力が開始されるように語学学習モードにおける字幕ＡについてのＰＴＳをカウント値ｃｓ１ｅに書換える構成であってもよい。音声Ｂ〜Ｅおよび字幕Ｂ〜Ｅについても、音声Ａおよび字幕Ａと同様である。

また、本発明の実施の形態にかかる映像出力装置１０１は、出力する音声の言語に対して、同じ言語の字幕を出力してもよいし、異なる言語の字幕を出力してもよい。具体的には、たとえば、ストリームに英語の音声と日本語および英語の字幕とが含まれている場合、映像出力装置１０１は、英語の音声を出力した後、当該音声を表す英語の文章の字幕を出力してもよいし、また、当該音声の翻訳を表す日本語の文章の字幕を出力してもよい。

また、本発明の実施の形態にかかる映像出力装置１０１は、対応タイミングより時間的に後のタイミングで字幕を出力する構成であるとしたが、これに限定するものではない。映像出力装置１０１は、たとえば、対応タイミングより時間的に前のタイミングで字幕を出力する構成であってもよい。

具体的には、字幕処理部２４は、たとえば、連続する２つの字幕情報について、後の字幕情報に含まれるＰＴＳを、前の字幕情報に含まれるＰＴＳに書き換える。

このような構成により、映像出力装置１０１のユーザは、学習対象とする言語の字幕を見た後、当該字幕についての音声を聞くことができるので、番組情報を視聴しながら文章を読む訓練を行うことができる。これにより、ユーザは、上記言語のリーディング能力の向上を図ることができる。

ところで、非特許文献１に記載された語学番組情報では、ユーザが音声を聞き取るタイミングと字幕を見るタイミングとがほとんど同時であるため、ユーザは、音声を聞きながら字幕を目で追ってしまう。

これに対して、本発明の実施の形態に係る映像出力装置では、ストリーム取得部２１は、画像と、音声と、字幕と、画像を出力すべき出力タイミングを示す画像タイミング情報と、音声を出力すべき出力タイミングを示す音声タイミング情報とを取得する。メディアチップ２５は、画像タイミング情報の示す出力タイミングおよび音声タイミング情報の示す出力タイミングに従って、ストリーム取得部２１によって取得された画像および音声をそれぞれ出力する。そして、字幕処理部２４およびメディアチップ２５は、ストリーム取得部２１によって取得された字幕を、画像または音声に対応して出力すべき対応タイミングとは異なるタイミングで出力する。

このような構成により、映像出力装置１０１のユーザが音声を聞き取るタイミングと字幕を見るタイミングとを異なるタイミングにすることができるので、ユーザが音声を聞くことまたは字幕を見ることのいずれかに集中することができる。

また、映像出力装置１０１では、語学学習目的のために専用に制作したストリームを用意することなくリスニング能力およびリーディング能力を向上させるための訓練を行うことができるので、番組情報に要するコストを抑制し、かつ教材となる番組の選択の幅を広げることができる。

一般に、語学学習では、学習対象とする言語で話された音声を聞いた後、聞いた音声について文章で書き起こすディクテーションを行うことにより、リスニング能力の向上を図ることができるといわれている。

しかしながら、非特許文献１に記載された語学番組情報では、音声と字幕とが時間的に並行して出力されるので、当該語学番組情報を用いてディクテーションを行うことが困難である。すなわち、ディクテーションによりリスニング能力の向上が図ることができない。

この問題に対して、本発明の実施の形態に係る映像出力装置では、字幕処理部２４およびメディアチップ２５は、対応タイミングより時間的に後のタイミングで字幕を出力する。

このような構成により、映像出力装置１０１のユーザは、学習対象とする言語で話された音声を聞き終わった後、当該音声についての字幕を見ることができるので、番組情報を視聴しながらディクテーションの訓練を行うことができる。これにより、ユーザは、上記言語のリスニング能力の向上を図ることができる。

また、本発明の実施の形態に係る映像出力装置では、字幕処理部２４およびメディアチップ２５は、時間的に連続する２つの字幕について、後の字幕の対応タイミングである次対応タイミングに基づいて、前の字幕を出力する。

このような構成により、前の字幕の対応タイミングにおいて出力される可能性が高い前の字幕に対応する音声、および次対応タイミングに基づいて出力される字幕が同時に出力される可能性を減ずることができるので、映像出力装置１０１のユーザの集中力が分散してしまうことを回避することができる。

また、本発明の実施の形態に係る映像出力装置では、字幕処理部２４およびメディアチップ２５は、後の字幕の出力期間よりも短い期間、前の字幕を出力する。

また、本発明の実施の形態に係る映像出力装置では、字幕処理部２４およびメディアチップ２５は、前の字幕の対応タイミングと次対応タイミングとの間隔が大きいとき、次対応タイミングの代わりに、前の字幕の対応タイミングと次対応タイミングとの間のタイミングで前の字幕を出力する。

このような構成により、大幅に遅れた次対応タイミングにおいて前の字幕が出力される場合と比べて、前の字幕に対応する音声を聞いてから前の字幕を見るまでの時間間隔をディクテーションの訓練として適正な時間間隔に近づけることができ、また、映像出力装置１０１のユーザが感じる違和感を低減することができる。

また、本発明の実施の形態に係る映像出力装置では、字幕処理部２４およびメディアチップ２５は、字幕に対応する音声の出力期間の終了タイミングに応答して、音声に対応する字幕の出力を開始する。

また、本発明の実施の形態に係る映像出力装置では、ストリーム取得部２１は、さらに、字幕を出力すべき出力タイミングを示す字幕タイミング情報を取得する。字幕処理部２４およびメディアチップ２５は、字幕タイミング情報の示す字幕を出力すべき期間の終了に応答して、当該字幕の出力を開始する。

また、本発明の実施の形態に係る映像出力装置では、メディアチップ２５は、時間的に連続する２つの画像および音声について、前の画像および前の音声を出力する。字幕処理部２４およびメディアチップ２５によって前の音声に対応する字幕が出力された後、メディアチップ２５は、後の画像および後の音声の出力を保留または中断する。その後、メディアチップ２５は、保留または中断した後の画像および後の音声の出力を行うか、または再開する。

このような構成により、映像出力装置１０１のユーザは、学習対象とする言語の音声を聞き終わった後、当該音声についての字幕をより長く見ることができるので、当該字幕の文章を読み終わる前に次の字幕の文章が出力されることを避けることができる。これにより、リスニング能力の低い初級者にとって好ましいディクテーションの訓練を行うことができる。

また、本発明の実施の形態に係る映像出力装置では、受付け部２３は、字幕を表示するための字幕表示命令を受付ける。メディアチップ２５は、受付け部２３が字幕表示命令を受付けると、字幕を出力しない状態から字幕を出力する状態へ切替える。

このように、映像出力装置１０１のユーザによる操作に基づいて字幕が出力される構成により、ユーザは、内容を聞き取ることができた音声について字幕確認の作業を省略することができ、また、内容を聞き取ることができなかった音声については、字幕確認を行うことにより自己の弱点を把握することができる。これにより、リスニング能力の高い上級者にとって好ましいディクテーションの訓練を行うことができる。

また、本発明の実施の形態に係る映像出力装置では、ストリーム取得部２１は、字幕を表示すべき位置を示す位置情報を取得する。字幕処理部２４およびメディアチップ２５は、ストリーム取得部２１により取得された位置情報が示す位置と異なる位置に字幕を出力する。

このような構成により、画像における重要な表示と字幕とが重なってしまう可能性を減ずることができるので、画像における重要な表示が字幕により隠され、映像出力装置１０１のユーザが重要な表示を見ることができなくなる状況を回避することができる。

また、本発明の実施の形態に係る映像出力装置では、受付け部２３は、音声および音声に対応する字幕をリピートするためのリピート命令を受付ける。メディアチップ２５は、受付け部２３がリピート命令を命令受付タイミングで受付けると、命令受付タイミングより前に出力された音声を再び出力する。そして、字幕処理部２４およびメディアチップ２５は、当該音声に対応する字幕を、当該音声に対応して出力すべき対応タイミングとは異なるタイミングで再び出力する。

このような構成により、映像出力装置１０１のユーザは、反復練習を行うことができるので、リスニング能力およびリーディング能力を向上させるための訓練をより効果的に行うことができる。

なお、本発明の実施の形態に係る映像出力装置は、ＭＰＥＧ２−ＴＳ規格またはＭＰＥＧ２−ＰＳ規格に従うストリームを取得する構成であるとしたが、これに限定するものではない。映像出力装置は、他の規格に従うストリームを取得する構成であってもよい。

上記実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記説明ではなく特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

以上の説明は、以下に付記する特徴を含む。

［付記１］
画像、前記画像に関連する音声、および前記音声に関連する字幕を出力可能な映像出力装置であって、
前記画像と、前記音声と、前記字幕と、前記画像を出力すべき出力タイミングを示す画像タイミング情報と、前記音声を出力すべき出力タイミングを示す音声タイミング情報とを取得する番組情報取得部と、
前記画像タイミング情報の示す前記出力タイミングおよび前記音声タイミング情報の示す前記出力タイミングに従って、前記番組情報取得部によって取得された前記画像および前記音声をそれぞれ出力する映像出力部と、
前記番組情報取得部によって取得された前記字幕を、前記画像または前記音声に対応して出力すべき対応タイミングとは異なるタイミングで出力する字幕出力部とを備え、
前記番組情報取得部は、ＭＰＥＧ２−ＴＳ形式またはＭＰＥＧ２−ＰＳ形式のストリームから前記画像と、前記音声と、前記字幕と、前記画像を出力すべき出力タイミングを示す画像タイミング情報と、前記音声を出力すべき出力タイミングを示す音声タイミング情報とを取得し、
前記画像タイミング情報および前記音声タイミング情報はＰＴＳであり、
前記画像または前記音声に対応して出力すべき対応タイミングは、前記画像または前記音声に対応する前記字幕のＰＴＳおよびデュレーション時間であり、
前記字幕出力部は、前記字幕を、前記字幕の次の字幕の前記対応タイミングに基づいて出力する、映像出力装置。

１１アンテナ
１２蓄積部
１３表示装置
２１ストリーム取得部（番組情報取得部）
２２制御部
２３受付け部
２４字幕処理部（字幕出力部）
２５メディアチップ（映像出力部および字幕出力部）
３１ストリーム受信部
３２ストリーム解析部
３３読込部
３４ストリーム処理部
３５フィルタ処理部
４１ＰＩＤ管理部
４２字幕解析部
４３描画処理部
４４字幕情報書換部
５１動作モード設定部
５２ＳＴＣ
５３再生制御部
５４字幕表示切替部
５５番組選択部
６１字幕情報バッファ
６２字幕情報処理部
６３先行字幕情報格納部
６４後続字幕情報格納部
６５タイマ
６６ＰＴＳ差分算出部
６７字幕情報書換判断部
１０１映像出力装置
２０１映像出力システム

Claims

画像、前記画像に関連する音声、および前記音声に関連する字幕を出力可能な映像出力装置であって、
前記画像と、前記音声と、前記字幕と、前記画像を出力すべき出力タイミングを示す画像タイミング情報と、前記音声を出力すべき出力タイミングを示す音声タイミング情報とを取得する番組情報取得部と、
前記画像タイミング情報の示す前記出力タイミングおよび前記音声タイミング情報の示す前記出力タイミングに従って、前記番組情報取得部によって取得された前記画像および前記音声をそれぞれ出力する映像出力部と、
前記番組情報取得部によって取得された前記字幕を、前記画像または前記音声に対応して出力すべき対応タイミングとは異なるタイミングで出力する字幕出力部とを備える、映像出力装置。
前記字幕出力部は、前記対応タイミングより時間的に後のタイミングで前記字幕を出力する、請求項１に記載の映像出力装置。
前記字幕出力部は、時間的に連続する２つの前記字幕について、後の前記字幕の前記対応タイミングである次対応タイミングに基づいて、前の前記字幕を出力する、請求項２に記載の映像出力装置。
前記字幕出力部は、前記後の字幕の出力期間よりも短い期間、前記前の字幕を出力する、請求項３に記載の映像出力装置。
前記字幕出力部は、前記前の字幕の前記対応タイミングと前記次対応タイミングとの間隔が大きいとき、前記次対応タイミングの代わりに、前記前の字幕の前記対応タイミングと前記次対応タイミングとの間のタイミングで前記前の字幕を出力する、請求項３または請求項４に記載の映像出力装置。
前記字幕出力部は、前記字幕に対応する前記音声の出力期間の終了タイミングに応答して、前記音声に対応する前記字幕の出力を開始する、請求項１から請求項５のいずれか１項に記載の映像出力装置。
前記番組情報取得部は、さらに、前記字幕を出力すべき出力タイミングを示す字幕タイミング情報を取得し、
前記字幕出力部は、前記字幕タイミング情報の示す前記字幕を出力すべき期間の終了に応答して、前記字幕の出力を開始する、請求項１から請求項５のいずれか１項に記載の映像出力装置。
前記映像出力部は、時間的に連続する２つの前記画像および前記音声について、前の前記画像および前の前記音声を出力し、前記字幕出力部によって前記前の音声に対応する前記字幕が出力された後、後の前記画像および後の前記音声の出力を保留または中断し、その後、保留または中断した前記後の画像および前記後の音声の出力を行うか、または再開する、請求項１から請求項５のいずれか１項に記載の映像出力装置。
前記映像出力装置は、さらに、
前記字幕を表示するための字幕表示命令を受付ける受付け部を備え、
前記字幕出力部は、前記受付け部が前記字幕表示命令を受付けると、前記字幕を出力しない状態から前記字幕を出力する状態へ切替える、請求項１から請求項８のいずれか１項に記載の映像出力装置。
前記番組情報取得部は、前記字幕を表示すべき位置を示す位置情報を取得し、
前記字幕出力部は、前記番組情報取得部により取得された前記位置情報が示す位置と異なる位置に前記字幕を出力する、請求項１から請求項９のいずれか１項に記載の映像出力装置。
前記映像出力装置は、さらに、
前記音声および前記音声に対応する字幕をリピートするためのリピート命令を受付ける受付け部を備え、
前記映像出力部は、前記受付け部が前記リピート命令を命令受付タイミングで受付けると、前記命令受付タイミングより前に出力された前記音声を再び出力し、
前記字幕出力部は、前記音声に対応する前記字幕を、前記音声に対応して出力すべき対応タイミングとは異なるタイミングで再び出力する、請求項１から請求項１０のいずれか１項に記載の映像出力装置。
画像、前記画像に関連する音声、および前記音声に関連する字幕を出力可能な映像出力装置における映像出力方法であって、
前記画像と、前記音声と、前記字幕と、前記画像を出力すべき出力タイミングを示す画像タイミング情報と、前記音声を出力すべき出力タイミングを示す音声タイミング情報とを取得するステップと、
前記画像タイミング情報の示す前記出力タイミングおよび前記音声タイミング情報の示す前記出力タイミングに従って、取得した前記画像および前記音声をそれぞれ出力するステップと、
取得した前記字幕を、前記画像または前記音声に対応して出力すべき対応タイミングとは異なるタイミングで出力するステップとを含む、映像出力方法。
画像、前記画像に関連する音声、および前記音声に関連する字幕を出力可能な映像出力装置において用いられる映像出力プログラムであって、
コンピュータに、
前記画像と、前記音声と、前記字幕と、前記画像を出力すべき出力タイミングを示す画像タイミング情報と、前記音声を出力すべき出力タイミングを示す音声タイミング情報とを取得するステップと、
前記画像タイミング情報の示す前記出力タイミングおよび前記音声タイミング情報の示す前記出力タイミングに従って、取得した前記画像および前記音声をそれぞれ出力するステップと、
取得した前記字幕を、前記画像または前記音声に対応して出力すべき対応タイミングとは異なるタイミングで出力するステップとを実行させるための、映像出力プログラム。