JP2017204695A

JP2017204695A - 字幕データ生成装置、コンテンツ表示装置、およびプログラム

Info

Publication number: JP2017204695A
Application number: JP2016094531A
Authority: JP
Inventors: 高登河村; Takato Kawamura; 克幸杉森; Katsuyuki Sugimori; 馨介塚口; Kyosuke Tsukaguchi; 浜口　斉周; Narichika Hamaguchi; 斉周浜口
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2016-05-10
Filing date: 2016-05-10
Publication date: 2017-11-16
Anticipated expiration: 2036-05-10
Also published as: JP6700957B2

Abstract

【課題】放送信号を基に、リアルタイムで配信可能な字幕データを生成するための字幕データ生成装置およびそのプログラムを提供する。【解決手段】字幕データ生成装置は、字幕抽出部と、字幕変換部と、記憶部と、データ生成部と、出力部とを備える。字幕抽出部は、外部から取得した放送信号から字幕データを抽出する。字幕変換部は、前記字幕データから字幕テキストと前記字幕テキストの提示時刻の情報とを取得し、前記字幕テキストを前記提示時刻と関連付けて出力する。記憶部は、前記放送信号に基づいてエンコードされた動画ファイルを記憶する。データ生成部は、前記記憶部が記憶する前記動画ファイルの提示時刻に同期するように、前記字幕テキストを含んだ字幕ファイルを生成する。出力部は、前記記憶部から読み出した前記動画ファイルと前記データ生成部が生成した前記字幕ファイルとを出力する。【選択図】図１

Description

本発明は、字幕データ生成装置、コンテンツ表示装置、およびプログラムに関する。

テレビの放送番組などの動画コンテンツを、通信回線（インターネット等）を介して放送と同時に配信するシステムの普及が望まれている。このようなシステムが広く利用可能となることにより、様々な放送受信環境において、良好な状態で番組が視聴可能となることが期待される。

放送番組などの動画コンテンツを通信回線経由で配信するためのシステムの構成要素の一つは、エンコーダー装置である。特に、テレビの放送信号を入力して、リアルタイムに配信可能な動画ファイル等を出力するエンコーダー装置が必要とされる。このようなエンコーダー装置は、「ライブエンコーダー」とも呼ばれる。通信回線経由で放送番組のコンテンツを配信する場合、映像（音声を含む）に関しては、上記のエンコーダー装置（ライブエンコーダー）によって、配信するファイルを生成することができる。

ＡＲＩＢ（一般社団法人電波産業会）によって定められた標準規格によると、テレビ放送の字幕データは、映像とは別に、テキストデータの形で放送信号に載せて、送信装置から送出される。テレビ受像機側では、放送信号から、映像と字幕テキストとをそれぞれ抽出し、定められた提示時刻にしたがってそれら両者を同期させながら表示を行う。字幕テキストは、定められた提示開始時刻と提示終了時刻によって提示制御される。

字幕の表示に関しては、次に挙げる文献に、それぞれ、技術が記載されている。
特許文献１には、現在の字幕と過去の字幕とを同時に表示する技術が記載されている。具体的には、同文献の技術では、表示部は２つの画面を持つ。そして、第１の画面（現在画面）には、受信した放送信号から抽出された番組の映像に同期した現在の字幕が表示される。一方、第２の画面（過去画面）には、現在画面に表示されている現在の映像および字幕よりも所定時間前のタイミングで表示された過去の字幕が表示される。

特許文献２には、過去に表示された字幕を利用してストリーム出力を制御する技術が記載されている。具体的には、記憶装置に記憶された、多重化された時間情報を有するストリームから情報を分離する。分離される情報は、字幕と、映像と、音声である。分離された情報が字幕ならば、その字幕は、字幕リスト保持用メモリに保持される。そして、その字幕は、時間情報が対応する映像と合成して表示出力される。そして、字幕リスト保持用メモリ内に記憶されている字幕履歴の特定の字幕を選択すると、その字幕に対応した時間情報を基に、上記ストリーム出力が制御される。なお、同文献の技術は、ＤＶＤプレイヤー装置やハードディスクレコーダー装置など、コンテンツが視聴者側の記録媒体に予め記録されていることが想定されている。

特開２００９−１７７７２０号公報特開２００３−０１８４９１号公報

前述の通り、放送信号を基に、エンコーダー装置（ライブエンコーダー）が映像および音声をエンコードして、ファイルとして出力することは、従来の技術において可能である。しかしながら、従来技術によるエンコーダー装置では、字幕データをリアルタイムにエンコードすることができない。したがって、放送と同時に、通信を介してテレビ番組を配信しようとしても、字幕のない映像しか配信することができないという問題がある。現在実施されている通信回線経由でのコンテンツ配信においても、字幕データは配信されていない。
特許文献１や特許文献２に記載されている技術は、視聴者側で、過去の字幕を見たり、過去の字幕に基づいて出力ストリームを制御したりすることを可能とするものであるが、配信可能な字幕データをリアルタイムに生成するものではない。
今後、通信回線を経由して放送番組のコンテンツを配信する場合にも、受信側（視聴者側）で字幕も見ることができるようにすることが望まれる。

本発明は、上記の課題認識に基づいて行なわれたものであり、放送信号を基に、リアルタイムで配信可能な字幕データを生成するための字幕データ生成装置およびそのプログラムを提供しようとするものである。また、そのような字幕データ生成装置またはプログラムによって生成された字幕データ等を表示するためのコンテンツ表示装置およびそのプログラムを提供しようとするものである。

［１］上記の課題を解決するため、本発明の一態様による字幕データ生成装置は、外部から取得した放送信号から抽出された字幕データから字幕テキストと前記字幕テキストの提示時刻の情報とを取得し、前記字幕テキストを前記提示時刻と関連付けて出力する字幕変換部と、前記放送信号に基づいてエンコードされた動画ファイルを記憶する記憶部と、前記記憶部が記憶する前記動画ファイルの提示時刻に同期するように、前記字幕テキストを含んだ字幕ファイルを生成するデータ生成部と、前記記憶部から読み出した前記動画ファイルと前記データ生成部が生成した前記字幕ファイルとを出力する出力部と、を具備する。

［２］また、本発明の一態様は、上記の字幕データ生成装置において、前記動画ファイルは、所定の長さの時間のセグメントごとに分割された複数の動画ファイルであり、前記記憶部は、前記複数の動画ファイルを適切な順に提示させるための各動画ファイルの提示時刻の情報を含んだプレイリストのデータである動画プレイリストファイルをさらに記憶しており、前記データ生成部は、前記動画プレイリストファイルを参照しながら前記複数の動画ファイルにそれぞれ対応する複数の前記字幕ファイルを生成するとともに、生成した前記字幕ファイルを適切な順に提示させるためのプレイリストのデータである字幕プレイリストファイルをさらに生成するものであり、前記出力部は、さらに前記動画プレイリストファイルと前記字幕プレイリストファイルとを出力する、ことを特徴とする。

［３］また、本発明の一態様は、上記の字幕データ生成装置において、前記字幕変換部は、前記字幕テキスト内に外字が含まれている場合には、前記外字に対応するフォントの所在情報を、当該外字に関連付けた形の字幕テキストを出力する、ことを特徴とする。

［４］また、本発明の一態様は、コンピューターを、外部から取得した放送信号から字幕データを抽出する字幕抽出部、前記字幕データから字幕テキストと前記字幕テキストの提示時刻の情報とを取得し、前記字幕テキストを前記提示時刻と関連付けて出力する字幕変換部、前記放送信号に基づいてエンコードされた動画ファイルを記憶する記憶部、前記記憶部が記憶する前記動画ファイルの提示時刻に同期するように、前記字幕テキストを含んだ字幕ファイルを生成するデータ生成部、前記記憶部から読み出した前記動画ファイルと前記データ生成部が生成した前記字幕ファイルとを出力する出力部、として機能させるためのプログラムである。

［５］また、本発明の一態様によるコンテンツ表示装置は、動画ファイルと前記動画ファイルに対応する字幕ファイルとを受信する通信部と、受信された前記動画ファイルをデコードすることによって映像と前記映像の提示時刻である映像提示時刻の情報とを出力するデコード部と、受信された前記字幕ファイルから、字幕テキストと前記字幕テキストの提示時刻である字幕提示時刻の情報とを出力する字幕処理部と、前記映像提示時刻の情報と前記字幕提示時刻の情報とに基づいて前記映像と前記字幕テキストの提示のタイミングを同期させながら、前記映像を表示するための領域である映像表示領域とは重ならない字幕表示領域に、前記字幕テキストを表示する提示制御部と、を具備する。

［６］また、本発明の一態様は、上記のコンテンツ表示装置において、前記字幕提示時刻の情報は、字幕提示開始時刻と字幕提示終了時刻との情報を含むものであり、前記提示制御部は、前記字幕提示開始時刻において当該字幕提示開始時刻に対応する前記字幕テキストの表示を開始するとともに、当該字幕テキストに対応する前記字幕提示終了時刻が到来しても当該字幕テキストの表示を終了させず、当該字幕テキストの表示位置とは異なる前記字幕表示領域内の位置に、以後の字幕テキストを表示させるよう制御する、ことを特徴とする。

［７］また、本発明の一態様は、上記のコンテンツ表示装置において、前記提示制御部は、表示済の前記字幕テキストが選択される操作を受け付けた場合、当該字幕テキストの提示時刻に対応する位置まで早戻しして、当該位置から前記動画ファイルの提示を再開するよう制御する、ことを特徴とする。

［８］また、本発明の一態様は、上記のコンテンツ表示装置において、前記提示制御部は、前記字幕ファイルから、前記字幕テキストに対応する話者を特定する話者特定情報を取得し、前記話者特定情報に関連付ける形で、前記字幕テキストを表示する、ことを特徴とする。

［９］また、本発明の一態様は、コンピューターを、通信で受信された動画ファイルをデコードすることによって映像と前記映像の提示時刻である映像提示時刻の情報とを出力するデコード部、通信で受信された字幕ファイルから、字幕テキストと前記字幕テキストの提示時刻である字幕提示時刻の情報とを出力する字幕処理部、前記映像提示時刻の情報と前記字幕提示時刻の情報とに基づいて前記映像と前記字幕テキストの提示のタイミングを同期させながら、前記映像を表示するための領域である映像表示領域とは重ならない字幕表示領域に、前記字幕テキストを表示する提示制御部、として機能させるためのプログラムである。

本発明によれば、放送番組をリアルタイムに通信回線で同時配信する場合に、字幕を配信することも可能となる。また、コンテンツ表示装置側で、字幕を時系列に表示することが可能となり、モバイルの環境等においても配信されるコンテンツを視聴しやすくなる。

本発明の実施形態による字幕データ生成装置の機能構成を示すブロック図である。同実施形態による字幕データ生成装置を含む配信システムの概略機能構成を示すブロック図である。同実施形態による字幕データ生成装置がエンコーダー装置から取得し記憶部に記憶するプレイリストファイル（動画ｍ３ｕ８）の例を示す概略図である。同実施形態による字幕データ生成装置がエンコーダー装置から取得し記憶部に記憶するプレイリストファイルのマスター（ｍａｓｔｅｒ．ｍ３ｕ８）の例を示す概略図である。同実施形態による字幕変換部によってリスト化された字幕データの構成を示す概略図である。同実施形態によるデータ生成部が生成する字幕ファイルの構成例を示す概略図である。同実施形態によるデータ生成部が生成する字幕のプレイリストファイル（字幕ｍ３ｕ８）の構成例を示す概略図である。同実施形態によるデータ生成部が生成するプレイリストファイルのマスター（ｍａｓｔｅｒ．ｍ３ｕ８）の構成例を示す概略図である。同実施形態によるクライアント装置の概略機能構成を示すブロック図である。同実施形態によるクライアント装置側におけるコンテンツ提示画面の構成例を示す概略図である。同実施形態によるクライアント装置が、前図とは異なるモードで字幕を表示させた例を示す概略図である。

次に、本発明の実施形態について、図面を参照しながら説明する。
図１は、本実施形態による字幕データ生成装置の機能構成を示すブロック図である。この図において、符号１は字幕データ生成装置である。図示するように、字幕データ生成装置１は、字幕抽出部１１と、字幕変換部１２と、データ生成部１３と、出力部１４と、記憶部２０とを含んで構成される。これら各部は電子回路を用いて実現され、情報を表す電気的な信号を処理する。なお、後述するように、コンピューターを用いて各部の機能を実現するようにしてもよい。以下で、各部の機能について説明する。

字幕抽出部１１は、外部から入力される放送信号を取り込み、取得した放送信号から字幕データを抽出する。放送信号は、ＳＤＩ（Serial Digital Interface，シリアル・ディジタル・インターフェース）で字幕データ生成装置１に伝送されてくる。ＳＤＩは、放送用機器に用いられる標準的なインターフェースである。放送信号の形式は、ＡＲＩＢ（Association of Radio Industries and Business，一般社団法人電波産業会）で策定された標準規格に基づくものである。字幕データも、ＡＲＩＢの規定にしたがって、入力される放送信号に重畳されている。字幕データは、ＨＤ−ＳＤＩまたはＳＤ−ＳＤＩの垂直ブランキング領域に格納されており、字幕抽出部１１はこの字幕データを抽出する。なお、字幕データが、放送信号の他の領域に格納されていてもよい。
字幕抽出部１１は、抽出した字幕データを、字幕変換部１２に渡す。
なお、字幕抽出部１１の機能が、字幕データ生成装置１の外部の装置に存在していてもよい。その場合、字幕データ生成装置１の外部に存在する字幕抽出部が、放送信号から字幕データを抽出し、抽出した字幕データを字幕データ生成装置１の字幕変換部１２に渡す。

字幕変換部１２は、抽出した字幕データをテキスト形式に変換した後、字幕文のテキストと、その付加情報とをリスト化する。付加情報には、提示時刻（提示開始時刻および提示終了時刻）に関する情報、画面上での字幕の表示位置に関する情報、文字装飾に関する情報が含まれる。つまり、字幕変換部１２は、字幕データから字幕テキストとその字幕テキストの提示時刻の情報とを取得し、字幕テキストと提示時刻とを関連付けて出力する。字幕変換部１２によってリスト化されたデータについては、後で、図５を参照しながら説明する。

また、抽出した字幕データのテキスト内に外字が含まれている場合、字幕変換部１２は、その外字を、ウェブで取得可能な外字フォント（「ウェブフォント」とも呼ばれる）の情報（その外字フォントを取得するためのＵＲＬ等）に変換する。なお、ＵＲＬは、Uniform Resource Locator（ユニフォーム・リソース・ロケーター）の略である。ここで、外字とは、標準的な規格として定められている文字セットに含まれない文字である。文字コードの標準的な規格の例は、ＪＩＳ（日本工業規格）コードやUnicode（ユニコード）等である。外字のコードとしては、標準的な文字コード体系の空き領域のコードが割り当てられる。なお、絵文字も、外字の一種として扱ってよい。字幕変換部１２は、個々の外字と、そのウェブフォントの所在情報（ＵＲＬ等）の対応関係のデータを予め保持しておき、字幕テキスト内に外字が存在するときには、その外字に、対応するウェブフォントの所在情報を関連付けて出力する。このような変換を行うことにより、字幕データの配信を受けたクライアント装置側では、適切なウェブフォントを取得し、外字を表示することが可能となる。
字幕変換部１２は、リスト化したデータを、データ生成部１３に渡す。

データ生成部１３は、字幕変換部１２によって変換された字幕データと、記憶部２０から読み出したプレイリストファイル２２とに基づいて、字幕ファイル２３を生成し、記憶部２０内に書き込む。また、データ生成部１３は、読み込んだプレイリストファイル２２に字幕に関する情報を追加することによって、プレイリストファイル２４を生成し、記憶部２０内に書き込む。なお、データ生成部１３は、読み込んだプレイリストファイル２２（動画プレイリストファイル）自体には手を加えない。つまり、データ生成部１３は、記憶部２０が記憶する動画ファイル２１の提示時刻に同期するように、字幕テキストを含んだ字幕ファイル２３を生成する。

なお、動画ファイル２１およびプレイリストファイル２２は、外部から取得されて記憶部２０に書き込まれているデータファイルである。動画ファイル２１およびプレイリストファイル２２は、字幕抽出部１１に入力される放送信号に対応するものである。つまり、動画ファイル２１およびプレイリストファイル２２は、その放送信号に基づいて、外部のエンコーダー装置（後述する）によって生成されたファイルである。具体的には、データ生成部１３は、後述する動画プレイリストファイルを参照しながら複数の動画ファイルにそれぞれ対応する複数の字幕ファイルを生成するとともに、生成した字幕ファイルを適切な順に提示させるためのプレイリストのデータである字幕プレイリストファイルをさらに生成する。

出力部１４は、配信用の動画ファイル２１と字幕ファイル２３とプレイリストファイル２４とを外部に出力する。具体的には、出力部１４は、これらの動画ファイル２１と字幕ファイル２３とプレイリストファイル２４を、外部のコンテンツ配信サーバー装置（後述する）に渡す。出力部１４が出力するプレイリストファイル２４には、動画プレイリストファイルと、字幕プレイリストファイルと、プレイリストのマスターとが含まれる。

記憶部２０は、動画ファイル２１と、プレイリストファイル２２と、字幕ファイル２３と、プレイリストファイル２４とを少なくとも一時的に記憶するものである。記憶部２０は、これらのファイルを記憶するために、ハードディスク装置や半導体ディスク装置などといった記憶媒体を内部に備えている。

ここで、記憶部２０が保持する各ファイルについてさらに説明する。
動画ファイル２１は、動画コンテンツ（映像と音声を含む）のファイルである。動画ファイル２１は、放送信号を基に、外部のエンコーダー装置でエンコードして得られた動画コンテンツを保持するものである。動画ファイル２１は、所定のセグメントの長さのファイルに分割されて存在している。セグメントの長さは適宜定められるが、例えば、５秒あるいは１０秒といった長さである。つまり、セグメント単位の動画ファイル２１が複数件存在する。
プレイリストファイル２２は、動画コンテンツの全体の構成を記述したファイルである。プレイリストファイル２２もまた外部のエンコーダー装置で生成されたファイルである。プレイリストファイル２２は、セグメントごとに複数存在する上記動画ファイル２１について、いつ（提示時刻）、どの順で再生すべきであるかを記述したデータを保持する。本実施形態では、プレイリストファイル２２は、動画ｍ３ｕ８ファイル（動画プレイリストファイル）と、ｍａｓｔｅｒ．ｍ３ｕ８ファイルとで構成される。ｍａｓｔｅｒ．ｍ３ｕ８ファイルは、マルチメディアコンテンツ全体の構成を示す基となるマスターのファイルである。動画ｍ３ｕ８ファイルは、複数の動画ファイルを適切な順に提示させるための各動画ファイルの提示時刻の情報を含んだプレイリストのデータである。
プレイリストファイル２２の具体例については図面を参照しながら後で説明する。

字幕ファイル２３とプレイリストファイル２４とは、データ生成部１３によって生成され、記憶部２０に書き込まれるものである。
字幕ファイル２３は、動画ファイル２１に対応する字幕テキストのデータを含むファイルである。字幕ファイル２３は、字幕抽出部１１が取得した放送信号から抽出された字幕テキストのデータを保持する。この放送信号は、動画ファイル２１の基となった放送信号と同一のものである。字幕ファイル２３もまた、前記のセグメントの長さのファイルに分割されて複数存在している。つまり、あるセグメントに関して、動画ファイル２１の１つに対応して、字幕ファイル２３の１つが存在する。
プレイリストファイル２４は、プレイリストファイル２２に、字幕に関する情報を付加したファイルである。本実施形態では、プレイリストファイル２４は、前述した動画ｍ３ｕ８ファイルと、字幕に関するプレイリストである字幕ｍ３ｕ８ファイルと、ｍａｓｔｅｒ．ｍ３ｕ８ファイルとを含む。ここで、ｍａｓｔｅｒ．ｍ３ｕ８ファイルには、字幕に関する情報が付加的に書き込まれている。

つまり、プレイリストファイル２４と動画ファイル２１と字幕ファイル２３とを受信した側では、プレイリストファイル２４を参照することにより、提示時刻に対応してセグメントごとに、動画ファイル２１と字幕ファイル２３とを提示していくことが可能となる。つまり、動画ファイル２１と字幕ファイル２３とは、相互に同期しながら提示される。

なお、動画ファイルの形式としては、ＨＬＳ（HTTP Live Streaming，ＨＴＴＰ・ライブ・ストリーミング）やＭＰＥＧ−ＤＡＳＨ（Dynamic Adaptive Streaming over HTTP，ダイナミック・アダプティブ・ストリーミング・オーバー・ＨＴＴＰ）を用いることができるが、これらには限定されない。また、字幕ファイルの形式としては、ＷｅｂＶＴＴ（Web Video Text Track，ウェブ・ビデオ・テキスト・トラック）や、ＴＴＭＬ（Timed Text Markup Language，タイムド・テキスト・マークアップ言語）、ＡＲＩＢ−ＴＴＭＬを用いることができるが、これらには限定されない。なお、ＡＲＩＢ−ＴＴＭＬは、ＡＲＩＢの規格として定められたＴＴＭＬである。
なお、以下の説明において、特定の形式を想定した説明をする場合があるが、その他のファイル形式によって動画や字幕を配信する場合にも、当然、本実施形態を適用することが可能である。

次に、字幕データ生成装置１を用いた配信システムについて説明する。
図２は、字幕データ生成装置１を含む配信システムの概略機能構成を示すブロック図である。つまり、同図は、字幕データ生成装置１とその周辺の装置との関係を表している。図示するように、配信システム１００は、字幕データ生成装置１と、タイムコード挿入器５１と、分配器５２と、エンコーダー装置５３と、コンテンツ配信サーバー装置６１と、クライアント装置７１とを含んで構成されるものである。なお、クライアント装置７１を「コンテンツ表示装置」と呼んでもよい。同図に示す各装置間では、データを含んだ信号のやりとりを行えるようになっている。特に、コンテンツ配信サーバー装置６１とクライアント装置７１との間は、インターネット等の通信回線により接続されている。同図では、クライアント装置７１を１台だけ示しているが、実際には、多数のクライアント装置７１を用いて配信システム１００を構成するようにしてもよい。

タイムコード挿入器５１は、入力される放送信号（ＳＤＩ）に、タイムコードを挿入する。タイムコード挿入器５１は、タイムコード挿入済の放送信号を、分配器５２に渡す。タイムコード挿入器５１と分配器５２との間においても、ＳＤＩによる伝送が行われる。

分配器５２は、タイムコード挿入器５１から渡された放送信号を、２系統に分配する。分配器５２から出力される第１の系統の放送信号は、エンコーダー装置５３に渡される。また、分配器５２から出力される第２の系統の放送信号は、字幕データ生成装置１の字幕抽出部１１に渡される。つまり、同一の放送信号が分配器５２で分配され、第１の系統の放送信号は動画のエンコーディングのために使用され、第２の系統の放送信号は字幕データの抽出のために使用される。

エンコーダー装置５３は、入力される放送信号に含まれる映像および音声を抽出し、動画ファイル（映像および音声を含む）を出力する。動画ファイルは、所定の長さにセグメント化されている。セグメントの長さは任意であるが、例えば、５秒あるいは１０秒といった所定の長さを有する。つまり、エンコーダー装置５３が出力する各々の動画ファイルは、セグメントに対応するものであり、定められたセグメント長を有するものである。
また、エンコーダー装置５３は、上記の動画ファイルについて記述したプレイリストファイルもまた出力する。
なお、放送信号を入力して映像および音声をエンコードする処理自体は、既存の技術を用いて行うことができる。つまり、エンコーダー装置５３自体は、既存技術によるものである。
エンコーダー装置５３によって生成された動画ファイルおよびプレイリストファイルは、字幕データ生成装置１に渡される。そして、これらのファイルは、字幕データ生成装置１内の記憶部２０に、動画ファイル２１およびプレイリストファイル２２として、書き込まれる。

字幕データ生成装置１は、エンコーダー装置５３から出力される動画ファイルとプレイリストファイルとを取得し、内部の記憶手段に一時的に記憶する。また、字幕データ生成装置１は、分配器５２から放送信号（ＳＤＩ）を直接取得し、その放送信号から字幕データを抽出する。そして、字幕データ生成装置１は、取得した動画ファイルに合わせた字幕ファイルを生成する。また、字幕データ生成装置１は、上記の動画ファイルと自らが生成した字幕ファイルとを同期して提示できるように、エンコーダー装置５３から取得したプレイリストファイルに、字幕ファイルに関する情報を追記し、出力する。そして、字幕データ生成装置１は、これらの動画ファイルと字幕ファイルとプレイリストファイルとを、コンテンツ配信サーバー装置６１に渡す。

コンテンツ配信サーバー装置６１は、クライアント装置７１に対してコンテンツデータを配信するものである。具体的には、コンテンツ配信サーバー装置６１は、クライアント装置７１からの要求に応じて、動画ファイルや字幕ファイルやプレイリストファイルをクライアント装置７１に対して送信する。

クライアント装置７１は、コンテンツ配信サーバー装置６１に対してコンテンツデータを要求し、コンテンツ配信サーバー装置６１から配信されるコンテンツデータを受信して視聴者に対して提示する。例えば、クライアント装置７１は、コンテンツ配信サーバー装置６１から動画ファイルと字幕ファイルとプレイリストファイルとを受信する。そして、クライアント装置７１は、受信したプレイリストファイルにしたがって、所定のタイミングで動画ファイルと字幕ファイルとを読み込み、動画および字幕を同期させながら画面上に表示する。また、クライアント装置７１は、動画ファイルに含まれる音声をスピーカーやイヤフォン端子等の音声出力手段から出力する。
なお、クライアント装置７１による字幕テキストの表示のしかたの詳細については、後で説明する。

以上の構成により、字幕データ生成装置１は、放送信号から字幕データを抽出し、抽出した字幕データを用いて字幕ファイルを出力する。字幕ファイルは、配信先のクライアント装置７１で利用しやすい形式のデータとして構成される。また、字幕データ生成装置１は、字幕データと動画ファイルとが同期するよう、プレイリストファイルを加工する。そして、字幕データ生成装置１は、配信用の動画ファイルおよび字幕ファイルとともに、プレイリストファィルを、コンテンツ配信サーバー装置６１に渡す。
コンテンツ配信サーバー装置６１はこれらのファイルを配信することが可能となる。また、配信を受けたクライアント装置７１側では、プレイリストファイルに基づいて、表示すべき動画ファイルと字幕ファイルを取得する。これにより、配信を受けたクライアント装置７１側では字幕を含むコンテンツを再生・表示させることが可能となる。

図３は、字幕データ生成装置１がエンコーダー装置５３から取得し、記憶部２０に記憶するプレイリストファイルの例を示す概略図である。具体的には、同図は、動画ｍ３ｕ８ファイルを示す。「ｍ３ｕ８」はマルチメディアプレイリストの形式の一つであり、「ｍ３ｕ８」ファイルは、テキストデータとして記述されている。なお、同図では便宜的に行番号を付している。以下、同図に示すデータ例について説明する。

第１行目の「＃ＥＸＴＭ３Ｕ」は、動画ｍ３ｕ８ファイルのヘッダーである。
第２行目の「＃ＥＸＴ−Ｘ−ＶＥＲＳＩＯＮ：３」は、動画ｍ３ｕ８ファイルの互換性バージョンが「３」であることを示す。
第３行目の「＃ＥＸＴ−Ｘ−ＴＡＲＧＥＴＤＵＲＡＴＩＯＮ：５」は、メディアファイル（動画ファイル等）の最大の長さ（時間長）を秒単位で示す。本例では「５」が指定されているため、メディアファイルの最大の長さが５秒であることを示している。
第４行目の「＃ＥＸＴ−Ｘ−ＭＥＤＩＡ−ＳＥＱＵＥＮＣＥ：０」は、このプレイリストファイル内に現れる最初のＵＲＬが、何番目のシーケンス番号のものであるかを示す。シーケンス番号は、メディアの各セグメントにシーケンシャルに付与される番号である。本例では、シーケンス番号として「０」が指定されているので、最初に現れるＵＲＬ（第７行目）のシーケンス番号が０であることを示している。

第５行目から第７行目までが、１つのセグメントに対応する。
第５行目の「＃ＥＸＴ−Ｘ−ＰＲＯＧＲＡＭ−ＤＡＴＥ−ＴＩＭＥ：２０１５−０６−０９Ｔ０８：４２：０５．６３５Ｚ」は、当該セグメントの開始部分に関連付けられる日時を示す。具体的には、本例では、本セグメントの開始部分は「２０１５年６月９日０８：４２：０５．６３５」であることを示す。なお、「Ｚ」は、協定世界時による時刻表記であることを示す。
第６行目の「＃ＥＸＴＩＮＦ：５．０」は、当該セグメントの長さを秒単位で示す。具体的には、本例では、当該セグメント長さは５．０秒である。
第７行目には、当該セグメントの動画ファイル（「チャンクファイル」あるいは「ＴＳファイル」とも呼ぶ）の所在を示すＵＲＬが記述されている。

以上、第５行目から第７行目までのセグメントについて説明した。
ファイルの以下の部分では、セグメントに関する記述が順次続く。第８行目から第１０行目までは、当該ファイル内の２番目のセグメントに関する記述である。第１１行目から第１３行目までは、当該ファイル内の３番目のセグメントに関する記述である。第１４行目から第１６行目までは、当該ファイル内の４番目のセグメントに関する記述である。
このように、同図に示す例では、長さ５秒のセグメントの連続として、コンテンツが配信される。
なお、本例では動画ｍ３ｕ８ファイルの行数は１６であるが、動画ｍ３ｕ８ファイルがさらに後続するセグメントに関する記述を含んでいてもよい。
なお、本例では動画ファイルの所在をＵＲＬで記載しているが、所在を示すものであればこれに限るものではなく、例えば相対パスで記載してもかまわない。

図４もまた、字幕データ生成装置１がエンコーダー装置５３から取得し、記憶部２０に記憶するプレイリストファイルの例を示す概略図である。同図は、プレイリストファイルのマスター（ｍａｓｔｅｒ．ｍ３ｕ８ファイル）を示す。なお、同図では便宜的に行番号を付している。以下、同図に示すデータ例について説明する。
第１行目の「＃ＥＸＴＭ３Ｕ」は、ファイルのヘッダーである。
第２行目および第４行目は、ストリーミングに関する情報を示す。「ＰＲＯＧＲＡＭ−ＩＤ＝」はプログラムを識別する情報を示している。また、「ＢＡＮＤＷＩＤＴＨ＝」は配信する際のストリーミングバンド幅を示している。
第３行目および第５行目は、動画ｍ３ｕ８ファイルの名前を示している。

図５は、字幕変換部１２によって変換され、リスト化された字幕データの構成を示す概略図である。
同図に示すデータは、表形式のデータであり、開始時刻、終了時刻、字幕テキスト、表示位置・文字装飾、といった項目を有する。
この表の各行が、図３に示したファイルで定義されているセグメントに対応している。つまり、字幕抽出部１１は、タイムコードを含んだ放送信号から、字幕テキストとタイムコードとを関連付けて抽出する。そして、字幕変換部１２は、記憶部２０に記憶されているプレイリストファイル２２（即ち、図３に示した動画ｍ３ｕ８ファイル）を参照しながら、抽出した字幕テキストをセグメントごとに分割し、振り分ける。

開始時刻は、各セグメントに対応した、字幕の提示開始時刻である。図５に示す各セグメントの開始時刻は、図３に示したプレイリストファイル（動画ｍ３ｕ８ファイル）に記述されている各セグメントの開始時刻に対応するものである。
終了時刻は、その字幕の提示終了時刻である。なお、終了時刻のデータを省略することもできる。終了時刻のデータを省略した場合には、次のセグメントの開始時刻が、当該セグメントの終了時刻として扱われるようにする。
字幕テキストは、そのセグメント内で提示される字幕のテキストである。この字幕のテキストは、放送信号から字幕抽出部１１によって抽出されたものである。
表示位置・文字装飾は、字幕テキストを表示する位置（画面上の座標情報）や、字幕テキストの文字を表示する際の装飾（文字サイズ、字体、下線等）の情報である。表示位置・文字装飾も、放送信号から抽出される情報である。
なお、その他のデータ項目をさらに含んでいてもよい。

図６は、データ生成部１３が生成する字幕ファイルの構成例を示す概略図である。データ生成部１３は、１セグメント分の字幕のデータを、１つの字幕ファイルとして生成する。つまり、データ生成部１３は、セグメントに対応する字幕ファイルを多数生成する。同図は、１セグメントに対応する字幕ファイルを示している。なお、同図では、便宜的に行番号を付している。以下、この字幕ファイルについて説明する。

第１行目の「ＷＥＢＶＴＴ」は、ヘッダー情報であり、本ファイルがＷＥＢＶＴＴ形式のファイルであることを表す。
第２行目の「Ｘ−ＴＩＭＥＳＴＡＭＰ−ＭＡＰ：ＭＰＥＧＴＳ＝１５２２２６０，ＬＯＣＡＬ：００：００：００．０００」は、時刻のマッピングを示す情報である。具体的には、本例では、「ＭＰＥＧＴＳ：１５２２２６０」は、動画ファイル（チャンクファイル）から取得された情報であり、動画ファイル内のタイムスタンプ「１５２２２６０」に対応している。また、「ＬＯＣＡＬ：００：００：００．０００」は、上記のタイムスタンプ「１５２２２６０」が、局所的（相対的）な時刻表記における「００：００：００．０００」（０時０分０秒０００）に対応することを表している。

第３行目のデータと第４行目のデータは対である。第３行目は、字幕提示の開始時刻（００：００：００．０００）と終了時刻（００：００：０２．２０３）とを示している。ここで表記されている時刻は、上記の相対的な時刻である。第４行目の「あいうえお」は、第３行目で示した開始時刻から終了時刻までの間に提示されるべきテキストである。この字幕テキスト「あいうえお」は、図５で示したデータの第４行目に対応するものである。
また、第５行目のデータと第６行目のデータは対である。第５行目は、字幕提示の開始時刻（００：００：０２．２０３）と終了時刻（００：００：０６．０４１）とを示している。ここで表記されている時刻は、上記の相対的な時刻である。第６行目の「かきくけこ」は、第５行目で示した開始時刻から終了時刻までの間に提示されるべきテキストである。この字幕テキスト「かきくけこ」は、図５で示したデータの第５行目に対応するものである。

図７は、データ生成部１３が生成する字幕のプレイリストファイルの構成例を示す概略図である。字幕のプレイリストファイルもまた、動画のプレイリストファイルと同様に、ｍ３ｕ８ファイルとして生成される。ここでは、字幕のプレイリストファイルを「字幕ｍ３ｕ８ファイル」とも呼ぶ。同図では、便宜上、行番号を付している。以下、同図に示すデータの各行について説明する。

第１行目の「＃ＥＸＴＭ３Ｕ」は、字幕ｍ３ｕ８ファイルのヘッダーである。
第２行目の「＃ＥＸＴ−Ｘ−ＶＥＲＳＩＯＮ：３」は、字幕ｍ３ｕ８ファイルの互換性バージョンが「３」であることを示す。
第３行目の「＃ＥＸＴ−Ｘ−ＴＡＲＧＥＴＤＵＲＡＴＩＯＮ：５」は、メディアファイルの最大の長さ（時間長）を秒単位で示す。本例では、動画ｍ３ｕ８ファイル（図３）に合わせて、最大の長さとして「５秒」が指定されている。
第４行目の「＃ＥＸＴ−Ｘ−ＭＥＤＩＡ−ＳＥＱＵＥＮＣＥ：０は、動画ｍ３ｕ８ファイル（図３）におけるシーケンス番号と同様に、このプレイリストファイル内に現れる最初のＵＲＬが、何番目のシーケンス番号のものであるかを示す。

第５行目と第６行目までが、１つのセグメントに対応する。
第５行目の「＃ＥＸＴＩＮＦ：５．０」は、当該セグメントの長さを秒単位で示す。具体的には、本例では、当該セグメント長さは５．０秒である。
第６行目には、当該セグメントの字幕ファイル（図６で説明したファイル。ファイルの拡張子名が「．ｖｔｔ」であるファイル。）の所在を示すＵＲＬが記述されている。
字幕ｍ３ｕ８ファイルに「＃ＥＸＴ−Ｘ−ＰＲＯＧＲＡＭ−ＤＡＴＥ−ＴＩＭＥ」属性の記述が含まれていない。動画ファイルのセグメントと字幕ファイルのセグメントとが１対１に対応し、また動画ファイルと字幕ファイルとの間でセグメントの開始時刻は同一である。したがって、動画ｍ３ｕ８ファイルに記述されている「＃ＥＸＴ−Ｘ−ＰＲＯＧＲＡＭ−ＤＡＴＥ−ＴＩＭＥ」属性の値が、対応する字幕ファイルの開始時刻をも表している。
なお、字幕ｍ３ｕ８ファイルに「＃ＥＸＴ−Ｘ−ＰＲＯＧＲＡＭ−ＤＡＴＥ−ＴＩＭＥ」属性の記述を含むようにしてもよい。

以上、第５行目から第６行目までのセグメントについて説明した。
字幕ｍ３ｕ８ファイルの以下の部分では、セグメントに関する記述が順次続く。第７行目から第８行目までは、当該ファイル内の２番目のセグメントに関する記述である。第９行目から第１０行目までは、当該ファイル内の３番目のセグメントに関する記述である。第１１行目から第１２行目までは、当該ファイル内の４番目のセグメントに関する記述である。
このように、同図に示す例では、長さ５秒のセグメントの連続として、動画ファイルに対応付く形で字幕ファイルが存在する。
なお、本例では字幕ｍ３ｕ８ファイルの行数は１２であるが、動画ｍ３ｕ８ファイルにあわせて、字幕ｍ３ｕ８ファイルがさらに後続するセグメントに関する記述を含んでいてもよい。
なお、本例では字幕ファイルの所在をＵＲＬで記載しているが、所在を示すものであればこれに限るものではなく、例えば相対パスで記載してもかまわない。

図８は、データ生成部１３が生成するプレイリストファイルのマスター（ｍａｓｔｅｒ．ｍ３ｕ８ファイル）の構成例を示す概略図である。データ生成部１３は、図４に示したプレイリストファイルのマスターを読み込み、このマスターに字幕に関する情報を付加することによって、図８のマスターを生成する。なお、図８に示すマスターは、記憶部２０に書き込まれるプレイリストファイル２４の一部である。同図では、便宜的に、行番号を付して示している。また、同図において下線を付して示している部分は、元のマスターには含まれない情報であり、データ生成部１３が付加した情報である。以下、このマスターの詳細について説明する。

第１行目の「＃ＥＸＴＭ３Ｕ」は、ファイルのヘッダーである。
第２行目の全体は、データ生成部１３によって付加された、字幕データに関する情報である。第２行目に含まれる記述は次の通りである。「＃ＥＸＴ−Ｘ−ＭＥＤＩＡ」は、メディアに関する定義であることを示す。
「ＴＹＰＥ＝ＳＵＢＴＩＴＬＥＳ」は、メディア種別が字幕（subtitles）であることを示す。「ＧＲＯＵＰ−ＩＤ＝"ｘｘｘ"」は、当該メディアのグループＩＤが「ｘｘｘ」であることを示す。「ＮＡＭＥ＝"Ｊａｐａｎｅｓｅ"」は、当該メディアの名称が「Ｊａｐａｎｅｓｅ」であることを示す。「ＤＥＦＡＵＬＴ＝ＹＥＳ」と「ＡＵＴＯＳＥＬＥＣＴ＝ＹＥＳ」と「ＦＯＲＣＥＤ＝ＮＯ」とは、それぞれ、当該メディアに関する設定値を記述したものである。「ＬＡＮＧＵＡＧＥ＝"ｊａ"」は、使用されている言語が日本語であることを示すものである。「ＵＲＩ＝"ｓｕｂ／ｊｐｎ／ｓｕｂ.ｍ３ｕ８"」は、字幕ｍ３ｕ８（プレイリストファイル）の所在を示すＵＲＩ（ユニフォーム・リソース・アイデンティファイアー）を記述したものである。このＵＲＩの指定によって、マスターから、字幕のプレイリストが関連付けられる。

第３行目および第５行目は、ストリーミングに関する情報を示す。キーワードパラメーター「ＰＲＯＧＲＡＭ−ＩＤ」および「ＢＡＮＤＷＩＤＴＨ」は、図４の第２行目と第４行目において説明したものと同様である。「ＳＵＢＴＩＴＬＥＳ＝"ｘｘｘ"」は、字幕に関する記述として、データ生成部１３によって追加されたものである。
第４行目および第６行目は、動画ｍ３ｕ８ファイルの名前を示しており、図４の第３行目と第５行目において説明したものと同様である。

図８に示したように、データ生成部１３は、自らが生成する字幕データに関する記述を、マスター（ｍａｓｔｅｒ．ｍ３ｕ８）にも追加して、出力する。このようなマスターが配信されることにより、配信を受けるクライアント装置７１の側では、各セグメントの動画ファイルに関連付けられた字幕ファイルを引き当てることが可能となる。

次に、配信を受けるクライアント装置側での字幕の提示等について説明する。
図９は、クライアント装置の概略機能構成を示すブロック図である。図示するように、クライアント装置７１は、通信部７９と、記憶部８０と、デコード部８１と、字幕処理部８２と、提示制御部８３と、出力部８４と、を含んで構成される。クライアント装置７１は、具体的には例えば、パーソナルコンピューター（ＰＣ）や、スマートフォン（スマホ）や、ウェアラブル端末などといった装置である。ウェアラブル端末は、例えば、腕時計型の端末や、眼鏡型の端末であるが、これらの形態には限られない。

通信部７９は、外部との通信を行う。通信部７９は、例えばインターネット経由で、コンテンツ配信サーバー装置６１との間の通信を行う。この通信により、通信部７９は、コンテンツ配信サーバー装置６１から配信されるコンテンツのデータを受信する。具体的には、通信部７９は、動画ファイル２１や字幕ファイル２３やプレイリストファイル２４を受信し、記憶部８０に書き込む。
記憶部８０は、データを記憶する。具体的には、記憶部８０は、動画ファイル２１と、字幕ファイル２３と、プレイリストファイル２４とを少なくとも一時的に記憶する。記憶部８０は、磁気ハードディスク装置や半導体ディスク装置などといった記憶媒体を内部に備えている。

デコード部８１は、提示制御部８３による制御にしたがって、記憶部８０から動画ファイル２１を読み出し、その動画ファイル２１をデコードする。デコード処理の結果、デコード部８１は、映像および音声を提示制御部８３に渡す。また、デコード部８１は、映像の提示時刻に関する情報を動画ファイルから取得し、提示制御部８３に渡す。
字幕処理部８２は、提示制御部８３による制御にしたがって、記憶部８０から字幕ファイル２３を読み出し、字幕ファイル２３から字幕テキスト等を取得する。字幕処理部８２は、また、字幕ファイル２３から取り出した字幕テキスト内に外字が含まれている場合、その外字のフォント（ウェブフォント）の所在を示すＵＲＬをあわせて字幕ファイル２３から読み出す。そして、字幕処理部８２は、通信部７９を介して、そのＵＲＬの場所にアクセスし、上記外字のフォントデータを取得する。そして、字幕処理部８２は、取得したフォントデータをその外字に関連付ける形で出力する。字幕処理部８２は、これらの字幕テキスト等のデータを、提示制御部８３に渡す。また、字幕処理部８２は、字幕テキストの提示時刻に関する情報を字幕ファイル２３から取り出し、提示制御部８３に渡す。

提示制御部８３は、動画コンテンツの提示を制御する。具体的には、提示制御部８３は、記憶部８０に記憶されているプレイリストファイル２４を参照しながら、所定のタイミングで、セグメントごとに動画ファイル２１をデコードするよう、デコード部８１を制御する。また、提示制御部８３は、同様にプレイリストファイル２４を参照しながら、セグメントごとの字幕ファイル２３を読み込んで処理するよう、字幕処理部８２を制御する。また、提示制御部８３は、適切な提示のタイミングで同期させながら、映像と字幕テキストとを、画面に表示するよう出力部８４に渡す。具体的には、提示制御部８３は、映像提示時刻の情報と字幕提示時刻の情報とに基づいて映像と字幕テキストの提示のタイミングを同期させながら、映像を表示するための領域である映像表示領域とは重ならない字幕表示領域に、字幕テキストを表示する。さらに、提示制御部８３が、字幕提示開始時刻において当該字幕提示開始時刻に対応する字幕テキストの表示を開始するとともに、当該字幕テキストに対応する字幕提示終了時刻が到来しても当該字幕テキストの表示を終了させず、当該字幕テキストの表示位置とは異なる字幕表示領域内の位置に、以後の字幕テキストを表示させるよう制御してもよい。なお、このときの画面の構成および配置については後述する。また、提示制御部８３は、映像等と同期させながら、動画ファイル２１から取得された音声を、音声出力手段（スピーカーやイヤフォン端子等）から出力するよう出力部８４に渡す。
出力部８４は、提示制御部８３から渡された画像（映像）を画面等に表示させる。また、出力部８４は、提示制御部８３から渡された音声を音声出力手段から出力する。

図１０は、クライアント装置側におけるコンテンツ提示画面の構成例を示す概略図である。図示するように、クライアント装置７１の表示面側には、表示部１０１が設けられている。表示部１０１としては、例えば、液晶ディスプレイ装置や有機ＥＬディスプレイ装置等を用いることができる。なお、「ＥＬ」は「エレクトロルミネッセンス（Electroluminescence）」の略である。図示する例では、表示部１０１を複数の領域に分割し、各領域に映像や字幕テキストを表示している。つまり、表示部１０１には、映像表示領域１０２と、字幕表示領域１０３とが設けられている。表示部１０１は多数の画素で構成されており、表示制御手段（不図示）が画素の領域を適宜分割することにより、これら複数の領域のそれぞれにおける制御が可能となる。同図において、映像表示領域１０２に表示されているものは、動画ファイル２１をデコードして得られた映像の１フレームである。また、字幕表示領域１０３に表示されているものは、現時点（そのフレームが提示される時点）までに提示された字幕テキストの履歴である。

つまり、図１０に示す表示方法の例では、提示制御部８３は、字幕テキストを、映像の画面（映像表示領域１０２）内に重ねて表示するのではなく、字幕専用の領域（字幕表示領域１０３）に表示する。また、提示制御部８３は、字幕テキストの提示終了時刻が到来しても、その字幕テキストを字幕表示領域１０３から消去せず、字幕テキストの履歴として表示し続ける。そして、提示開始時刻の到来した新たな字幕テキストを、追加的に順次表示していく。本例では、既に表示されていた字幕テキストの下に、新たな字幕テキストを追加的に表示していく。これにより、ユーザーは、現在再生されているシーンから時間的に遡って、字幕を視認することが可能となる。また、提示制御部８３は、ユーザーの操作によって字幕表示領域１０３を上下にスクロールできるような表示方法を行ってもよい。これにより、ユーザーは、時間的に更に広い範囲の字幕テキストの履歴を参照することが可能となる。

図１１は、クライアント装置が、前図とは異なるモードで字幕を表示させた例を示す概略図である。同図においても、字幕表示領域１０３に、字幕テキストが表示されている。ただし、同図の例では、提示制御部８３は、発話者に対応するアイコンに関連付ける形で字幕を表示している。本例では、２人の発話者のアイコンが表示されている。また、提示制御部８３は、字幕テキストを吹き出し図形内に表示するよう制御している。また、提示制御部８３は、本例では、画面の縦方向に時系列に字幕テキストを表示している。画面の上側に表示されているのが提示時刻のより古い（過去方向の）字幕テキストであり、画面の下側に表示されているのが提示時刻のより新しい字幕テキストである。また、同図に示す表示例では、字幕表示領域１０３内でユーザーの操作によって上下に移動できるように、スクロールバー１１１も表示されている。同図に示す字幕テキストの例は、次の通りである。まず、第１の話者のアイコン（左側）に関連付ける形で、字幕テキスト「あいうえお」が表示されている。次に、第２の話者のアイコン（右側）に関連付ける形で、字幕テキスト「かきくけこ」が表示されている。次に、第１の話者のアイコン（左側）に関連付ける形で、字幕テキスト「明日も見てね」が表示されている。次に、第２の話者のアイコン（右側）に関連付ける形で、字幕テキスト「明日も見てね」が表示されている。

図１１の表示を行うために、提示制御部８３は、コンテンツ配信サーバー装置６１側から送られてくるメタデータを利用する。例えば、このメタデータは、字幕テキストに付随し、その話者を識別するための話者識別情報を含む。また、このメタデータは、話者識別情報と関連付けて、アイコン画像のデータ、あるいはアイコン画像を取得することのできるＵＲＬのデータを含む。このメタデータは、字幕ファイル２３内に格納された状態で、コンテンツ配信サーバー装置６１からクライアント装置７１に送られてくる。また、このメタデータは元々の放送信号に含まれており、字幕データ生成装置１のデータ生成部１３は、そのメタデータを引き継ぐように字幕ファイル２３を生成する。
なお、メタデータとして、上記の話者識別情報の代わりに、字幕表示領域１０３内における表示位置を用いるようにしてもよい。

つまり、同図に示す表示方法を実現するために、提示制御部８３は、字幕ファイルに含まれる情報から、字幕テキストに対応する話者を特定する話者特定情報（話者ＩＤや、話者のアイコン画像や、話者のアイコン画像の所在情報等）を取得し、話者特定情報に関連付ける形で、字幕テキストを表示するよう、制御する。

次に、クライアント装置７１におけるコンテンツの早戻し操作を実現するための方法を説明する。
クライアント装置７１において、例えばユーザー（コンテンツの視聴者）が画面上に表示されている任意の字幕テキストを指示（選択）することにより、その字幕テキストの提示時刻の時点まで、映像を早戻しするようにしてもよい。なお、ユーザーが字幕テキストを指示するためには、例えばマウス等のポインティングデバイスを操作したり、タッチパネルにタッチする操作を行ったりできるようにする。ユーザーによるこれらの操作が行われると、提示制御部８３は、画面上における指示された位置の座標の情報を取得する。そして、提示制御部８３は、その座標から、どの字幕テキストが指示されたかを特定する。そして、提示制御部８３は、プレイリストファイル２４を参照することにより、指示された字幕テキストの提示時刻を取得するとともに、その字幕ファイルと同一のセグメントの動画ファイルを特定する。このようにして、提示制御部８３は、コンテンツを早戻しし、早戻しされた位置から、動画ファイル２１および字幕ファイル２３の提示を再開する。つまり、提示制御部８３は、表示済の字幕テキストが選択される操作を受け付けた場合、当該字幕テキストの提示時刻に対応する位置まで早戻しして、当該位置から動画ファイルの提示を再開するよう制御する。この場合、提示制御部８３は、早戻しした位置に対応する動画ファイルを再度デコードするよう、デコード部８１に指示してもよい。あるいは、デコード済みの映像を一時記憶手段に蓄積しておいて、その一時記憶手段から映像を再読出しすることによって早戻し再生を実現するようにしてもよい。
なお、ここで説明した早戻し操作は、図１０に示した形の字幕表示においても、図１１に示した形の字幕表示においても、行うことが可能である。

本実施形態のクライアント装置７１によれば、ユーザーは、過去に表示された字幕を後から読んで確認することができる。このとき、字幕表示領域を適宜スクロールさせて、提示時刻を遡ることができる。さらに、字幕テキストの部分から、その字幕テキストの位置に対応する動画の位置をリンクすることで、見逃したシーンの早戻し再生も可能となる。

なお、上述した実施形態における字幕データ生成装置、コンテンツ配信サーバー装置、クライアント装置等の機能をコンピューターで実現するようにしても良い。その場合、これらの機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

［変形例］
なお、上記実施形態では、動画ファイルや字幕ファイルとともにプレイリストファイルを生成し配信することとした。しかし、変形例として、プレイリストファイルを用いない形で実施してもよい。プレイリストファイルを用いない場合、動画ファイルの内部に、その動画ファイルのシーケンス番号を特定するための情報を格納する。また、字幕ファイルの内部に、その字幕ファイルのシーケンス番号を特定するための情報を格納する。このようなファイルを生成して、コンテンツ配信サーバー装置から配信することにより、クライアント装置側では、動画ファイルおよび字幕ファイルのそれぞれを、正しい順序によって提示することが可能となる。また、プレイリストファイルを用いない場合、動画ファイルおよび字幕ファイルの内部に、提示タイミングに関する情報を格納する。これにより、クライアント装置側では、動画ファイルと字幕ファイルとを同期させて適切なタイミングで提示することが可能となる。なお、この場合、字幕データ生成装置内のデータ生成部はプレイリストファイルを生成せず、また出力部はプレイリストファイルを出力しない。また、コンテンツ配信サーバー装置は、プレイリストファイルを配信しない。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明は、コンテンツを配信する事業や、そのための装置等を製造・販売する事業や、その他の事業において利用可能である。

１字幕データ生成装置
１１字幕抽出部
１２字幕変換部
１３データ生成部
１４出力部
２０記憶部
２１動画ファイル
２２プレイリストファイル
２３字幕ファイル
２４プレイリストファイル
５１タイムコード挿入器
５２分配器
５３エンコーダー装置
６１コンテンツ配信サーバー装置
７１クライアント装置（コンテンツ表示装置）
７９通信部
８０記憶部
８１デコード部
８２字幕処理部
８３提示制御部
８４出力部
１００配信システム

Claims

外部から取得した放送信号から抽出された字幕データから字幕テキストと前記字幕テキストの提示時刻の情報とを取得し、前記字幕テキストを前記提示時刻と関連付けて出力する字幕変換部と、
前記放送信号に基づいてエンコードされた動画ファイルを記憶する記憶部と、
前記記憶部が記憶する前記動画ファイルの提示時刻に同期するように、前記字幕テキストを含んだ字幕ファイルを生成するデータ生成部と、
前記記憶部から読み出した前記動画ファイルと前記データ生成部が生成した前記字幕ファイルとを出力する出力部と、
を具備することを特徴とする字幕データ生成装置。
前記動画ファイルは、所定の長さの時間のセグメントごとに分割された複数の動画ファイルであり、
前記記憶部は、前記複数の動画ファイルを適切な順に提示させるための各動画ファイルの提示時刻の情報を含んだプレイリストのデータである動画プレイリストファイルをさらに記憶しており、
前記データ生成部は、前記動画プレイリストファイルを参照しながら前記複数の動画ファイルにそれぞれ対応する複数の前記字幕ファイルを生成するとともに、生成した前記字幕ファイルを適切な順に提示させるためのプレイリストのデータである字幕プレイリストファイルをさらに生成するものであり、
前記出力部は、さらに前記動画プレイリストファイルと前記字幕プレイリストファイルとを出力する、
ことを特徴とする請求項１に記載の字幕データ生成装置。
前記字幕変換部は、前記字幕テキスト内に外字が含まれている場合には、前記外字に対応するフォントの所在情報を、当該外字に関連付けた形の字幕テキストを出力する、
ことを特徴とする請求項１または２のいずれかに記載の字幕データ生成装置。
コンピューターを、
外部から取得した放送信号から字幕データを抽出する字幕抽出部、
前記字幕データから字幕テキストと前記字幕テキストの提示時刻の情報とを取得し、前記字幕テキストを前記提示時刻と関連付けて出力する字幕変換部、
前記放送信号に基づいてエンコードされた動画ファイルを記憶する記憶部、
前記記憶部が記憶する前記動画ファイルの提示時刻に同期するように、前記字幕テキストを含んだ字幕ファイルを生成するデータ生成部、
前記記憶部から読み出した前記動画ファイルと前記データ生成部が生成した前記字幕ファイルとを出力する出力部、
として機能させるためのプログラム。
動画ファイルと前記動画ファイルに対応する字幕ファイルとを受信する通信部と、
受信された前記動画ファイルをデコードすることによって映像と前記映像の提示時刻である映像提示時刻の情報とを出力するデコード部と、
受信された前記字幕ファイルから、字幕テキストと前記字幕テキストの提示時刻である字幕提示時刻の情報とを出力する字幕処理部と、
前記映像提示時刻の情報と前記字幕提示時刻の情報とに基づいて前記映像と前記字幕テキストの提示のタイミングを同期させながら、前記映像を表示するための領域である映像表示領域とは重ならない字幕表示領域に、前記字幕テキストを表示する提示制御部と、
を具備することを特徴とするコンテンツ表示装置。
前記字幕提示時刻の情報は、字幕提示開始時刻と字幕提示終了時刻との情報を含むものであり、
前記提示制御部は、前記字幕提示開始時刻において当該字幕提示開始時刻に対応する前記字幕テキストの表示を開始するとともに、当該字幕テキストに対応する前記字幕提示終了時刻が到来しても当該字幕テキストの表示を終了させず、当該字幕テキストの表示位置とは異なる前記字幕表示領域内の位置に、以後の字幕テキストを表示させるよう制御する、
ことを特徴とする請求項５に記載のコンテンツ表示装置。
前記提示制御部は、表示済の前記字幕テキストが選択される操作を受け付けた場合、当該字幕テキストの提示時刻に対応する位置まで早戻しして、当該位置から前記動画ファイルの提示を再開するよう制御する、
ことを特徴とする請求項６に記載のコンテンツ表示装置。
前記提示制御部は、前記字幕ファイルから、前記字幕テキストに対応する話者を特定する話者特定情報を取得し、前記話者特定情報に関連付ける形で、前記字幕テキストを表示する、
ことを特徴とする請求項５から７までのいずれか一項に記載のコンテンツ表示装置。
コンピューターを、
通信で受信された動画ファイルをデコードすることによって映像と前記映像の提示時刻である映像提示時刻の情報とを出力するデコード部、
通信で受信された字幕ファイルから、字幕テキストと前記字幕テキストの提示時刻である字幕提示時刻の情報とを出力する字幕処理部、
前記映像提示時刻の情報と前記字幕提示時刻の情報とに基づいて前記映像と前記字幕テキストの提示のタイミングを同期させながら、前記映像を表示するための領域である映像表示領域とは重ならない字幕表示領域に、前記字幕テキストを表示する提示制御部、
として機能させるためのプログラム。