JP2017204695A - 字幕データ生成装置、コンテンツ表示装置、およびプログラム - Google Patents

字幕データ生成装置、コンテンツ表示装置、およびプログラム Download PDF

Info

Publication number
JP2017204695A
JP2017204695A JP2016094531A JP2016094531A JP2017204695A JP 2017204695 A JP2017204695 A JP 2017204695A JP 2016094531 A JP2016094531 A JP 2016094531A JP 2016094531 A JP2016094531 A JP 2016094531A JP 2017204695 A JP2017204695 A JP 2017204695A
Authority
JP
Japan
Prior art keywords
subtitle
file
caption
video
presentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016094531A
Other languages
English (en)
Other versions
JP6700957B2 (ja
Inventor
高登 河村
Takato Kawamura
高登 河村
克幸 杉森
Katsuyuki Sugimori
克幸 杉森
馨介 塚口
Kyosuke Tsukaguchi
馨介 塚口
浜口 斉周
Narichika Hamaguchi
斉周 浜口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2016094531A priority Critical patent/JP6700957B2/ja
Publication of JP2017204695A publication Critical patent/JP2017204695A/ja
Application granted granted Critical
Publication of JP6700957B2 publication Critical patent/JP6700957B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】放送信号を基に、リアルタイムで配信可能な字幕データを生成するための字幕データ生成装置およびそのプログラムを提供する。【解決手段】字幕データ生成装置は、字幕抽出部と、字幕変換部と、記憶部と、データ生成部と、出力部とを備える。字幕抽出部は、外部から取得した放送信号から字幕データを抽出する。字幕変換部は、前記字幕データから字幕テキストと前記字幕テキストの提示時刻の情報とを取得し、前記字幕テキストを前記提示時刻と関連付けて出力する。記憶部は、前記放送信号に基づいてエンコードされた動画ファイルを記憶する。データ生成部は、前記記憶部が記憶する前記動画ファイルの提示時刻に同期するように、前記字幕テキストを含んだ字幕ファイルを生成する。出力部は、前記記憶部から読み出した前記動画ファイルと前記データ生成部が生成した前記字幕ファイルとを出力する。【選択図】図1

Description

本発明は、字幕データ生成装置、コンテンツ表示装置、およびプログラムに関する。
テレビの放送番組などの動画コンテンツを、通信回線(インターネット等)を介して放送と同時に配信するシステムの普及が望まれている。このようなシステムが広く利用可能となることにより、様々な放送受信環境において、良好な状態で番組が視聴可能となることが期待される。
放送番組などの動画コンテンツを通信回線経由で配信するためのシステムの構成要素の一つは、エンコーダー装置である。特に、テレビの放送信号を入力して、リアルタイムに配信可能な動画ファイル等を出力するエンコーダー装置が必要とされる。このようなエンコーダー装置は、「ライブエンコーダー」とも呼ばれる。通信回線経由で放送番組のコンテンツを配信する場合、映像(音声を含む)に関しては、上記のエンコーダー装置(ライブエンコーダー)によって、配信するファイルを生成することができる。
ARIB(一般社団法人電波産業会)によって定められた標準規格によると、テレビ放送の字幕データは、映像とは別に、テキストデータの形で放送信号に載せて、送信装置から送出される。テレビ受像機側では、放送信号から、映像と字幕テキストとをそれぞれ抽出し、定められた提示時刻にしたがってそれら両者を同期させながら表示を行う。字幕テキストは、定められた提示開始時刻と提示終了時刻によって提示制御される。
字幕の表示に関しては、次に挙げる文献に、それぞれ、技術が記載されている。
特許文献1には、現在の字幕と過去の字幕とを同時に表示する技術が記載されている。具体的には、同文献の技術では、表示部は2つの画面を持つ。そして、第1の画面(現在画面)には、受信した放送信号から抽出された番組の映像に同期した現在の字幕が表示される。一方、第2の画面(過去画面)には、現在画面に表示されている現在の映像および字幕よりも所定時間前のタイミングで表示された過去の字幕が表示される。
特許文献2には、過去に表示された字幕を利用してストリーム出力を制御する技術が記載されている。具体的には、記憶装置に記憶された、多重化された時間情報を有するストリームから情報を分離する。分離される情報は、字幕と、映像と、音声である。分離された情報が字幕ならば、その字幕は、字幕リスト保持用メモリに保持される。そして、その字幕は、時間情報が対応する映像と合成して表示出力される。そして、字幕リスト保持用メモリ内に記憶されている字幕履歴の特定の字幕を選択すると、その字幕に対応した時間情報を基に、上記ストリーム出力が制御される。なお、同文献の技術は、DVDプレイヤー装置やハードディスクレコーダー装置など、コンテンツが視聴者側の記録媒体に予め記録されていることが想定されている。
特開2009−177720号公報 特開2003−018491号公報
前述の通り、放送信号を基に、エンコーダー装置(ライブエンコーダー)が映像および音声をエンコードして、ファイルとして出力することは、従来の技術において可能である。しかしながら、従来技術によるエンコーダー装置では、字幕データをリアルタイムにエンコードすることができない。したがって、放送と同時に、通信を介してテレビ番組を配信しようとしても、字幕のない映像しか配信することができないという問題がある。現在実施されている通信回線経由でのコンテンツ配信においても、字幕データは配信されていない。
特許文献1や特許文献2に記載されている技術は、視聴者側で、過去の字幕を見たり、過去の字幕に基づいて出力ストリームを制御したりすることを可能とするものであるが、配信可能な字幕データをリアルタイムに生成するものではない。
今後、通信回線を経由して放送番組のコンテンツを配信する場合にも、受信側(視聴者側)で字幕も見ることができるようにすることが望まれる。
本発明は、上記の課題認識に基づいて行なわれたものであり、放送信号を基に、リアルタイムで配信可能な字幕データを生成するための字幕データ生成装置およびそのプログラムを提供しようとするものである。また、そのような字幕データ生成装置またはプログラムによって生成された字幕データ等を表示するためのコンテンツ表示装置およびそのプログラムを提供しようとするものである。
[1]上記の課題を解決するため、本発明の一態様による字幕データ生成装置は、外部から取得した放送信号から抽出された字幕データから字幕テキストと前記字幕テキストの提示時刻の情報とを取得し、前記字幕テキストを前記提示時刻と関連付けて出力する字幕変換部と、前記放送信号に基づいてエンコードされた動画ファイルを記憶する記憶部と、前記記憶部が記憶する前記動画ファイルの提示時刻に同期するように、前記字幕テキストを含んだ字幕ファイルを生成するデータ生成部と、前記記憶部から読み出した前記動画ファイルと前記データ生成部が生成した前記字幕ファイルとを出力する出力部と、を具備する。
[2]また、本発明の一態様は、上記の字幕データ生成装置において、前記動画ファイルは、所定の長さの時間のセグメントごとに分割された複数の動画ファイルであり、前記記憶部は、前記複数の動画ファイルを適切な順に提示させるための各動画ファイルの提示時刻の情報を含んだプレイリストのデータである動画プレイリストファイルをさらに記憶しており、前記データ生成部は、前記動画プレイリストファイルを参照しながら前記複数の動画ファイルにそれぞれ対応する複数の前記字幕ファイルを生成するとともに、生成した前記字幕ファイルを適切な順に提示させるためのプレイリストのデータである字幕プレイリストファイルをさらに生成するものであり、前記出力部は、さらに前記動画プレイリストファイルと前記字幕プレイリストファイルとを出力する、ことを特徴とする。
[3]また、本発明の一態様は、上記の字幕データ生成装置において、前記字幕変換部は、前記字幕テキスト内に外字が含まれている場合には、前記外字に対応するフォントの所在情報を、当該外字に関連付けた形の字幕テキストを出力する、ことを特徴とする。
[4]また、本発明の一態様は、コンピューターを、外部から取得した放送信号から字幕データを抽出する字幕抽出部、前記字幕データから字幕テキストと前記字幕テキストの提示時刻の情報とを取得し、前記字幕テキストを前記提示時刻と関連付けて出力する字幕変換部、前記放送信号に基づいてエンコードされた動画ファイルを記憶する記憶部、前記記憶部が記憶する前記動画ファイルの提示時刻に同期するように、前記字幕テキストを含んだ字幕ファイルを生成するデータ生成部、前記記憶部から読み出した前記動画ファイルと前記データ生成部が生成した前記字幕ファイルとを出力する出力部、として機能させるためのプログラムである。
[5]また、本発明の一態様によるコンテンツ表示装置は、動画ファイルと前記動画ファイルに対応する字幕ファイルとを受信する通信部と、受信された前記動画ファイルをデコードすることによって映像と前記映像の提示時刻である映像提示時刻の情報とを出力するデコード部と、受信された前記字幕ファイルから、字幕テキストと前記字幕テキストの提示時刻である字幕提示時刻の情報とを出力する字幕処理部と、前記映像提示時刻の情報と前記字幕提示時刻の情報とに基づいて前記映像と前記字幕テキストの提示のタイミングを同期させながら、前記映像を表示するための領域である映像表示領域とは重ならない字幕表示領域に、前記字幕テキストを表示する提示制御部と、を具備する。
[6]また、本発明の一態様は、上記のコンテンツ表示装置において、前記字幕提示時刻の情報は、字幕提示開始時刻と字幕提示終了時刻との情報を含むものであり、前記提示制御部は、前記字幕提示開始時刻において当該字幕提示開始時刻に対応する前記字幕テキストの表示を開始するとともに、当該字幕テキストに対応する前記字幕提示終了時刻が到来しても当該字幕テキストの表示を終了させず、当該字幕テキストの表示位置とは異なる前記字幕表示領域内の位置に、以後の字幕テキストを表示させるよう制御する、ことを特徴とする。
[7]また、本発明の一態様は、上記のコンテンツ表示装置において、前記提示制御部は、表示済の前記字幕テキストが選択される操作を受け付けた場合、当該字幕テキストの提示時刻に対応する位置まで早戻しして、当該位置から前記動画ファイルの提示を再開するよう制御する、ことを特徴とする。
[8]また、本発明の一態様は、上記のコンテンツ表示装置において、前記提示制御部は、前記字幕ファイルから、前記字幕テキストに対応する話者を特定する話者特定情報を取得し、前記話者特定情報に関連付ける形で、前記字幕テキストを表示する、ことを特徴とする。
[9]また、本発明の一態様は、コンピューターを、通信で受信された動画ファイルをデコードすることによって映像と前記映像の提示時刻である映像提示時刻の情報とを出力するデコード部、通信で受信された字幕ファイルから、字幕テキストと前記字幕テキストの提示時刻である字幕提示時刻の情報とを出力する字幕処理部、前記映像提示時刻の情報と前記字幕提示時刻の情報とに基づいて前記映像と前記字幕テキストの提示のタイミングを同期させながら、前記映像を表示するための領域である映像表示領域とは重ならない字幕表示領域に、前記字幕テキストを表示する提示制御部、として機能させるためのプログラムである。
本発明によれば、放送番組をリアルタイムに通信回線で同時配信する場合に、字幕を配信することも可能となる。また、コンテンツ表示装置側で、字幕を時系列に表示することが可能となり、モバイルの環境等においても配信されるコンテンツを視聴しやすくなる。
本発明の実施形態による字幕データ生成装置の機能構成を示すブロック図である。 同実施形態による字幕データ生成装置を含む配信システムの概略機能構成を示すブロック図である。 同実施形態による字幕データ生成装置がエンコーダー装置から取得し記憶部に記憶するプレイリストファイル(動画m3u8)の例を示す概略図である。 同実施形態による字幕データ生成装置がエンコーダー装置から取得し記憶部に記憶するプレイリストファイルのマスター(master.m3u8)の例を示す概略図である。 同実施形態による字幕変換部によってリスト化された字幕データの構成を示す概略図である。 同実施形態によるデータ生成部が生成する字幕ファイルの構成例を示す概略図である。 同実施形態によるデータ生成部が生成する字幕のプレイリストファイル(字幕m3u8)の構成例を示す概略図である。 同実施形態によるデータ生成部が生成するプレイリストファイルのマスター(master.m3u8)の構成例を示す概略図である。 同実施形態によるクライアント装置の概略機能構成を示すブロック図である。 同実施形態によるクライアント装置側におけるコンテンツ提示画面の構成例を示す概略図である。 同実施形態によるクライアント装置が、前図とは異なるモードで字幕を表示させた例を示す概略図である。
次に、本発明の実施形態について、図面を参照しながら説明する。
図1は、本実施形態による字幕データ生成装置の機能構成を示すブロック図である。この図において、符号1は字幕データ生成装置である。図示するように、字幕データ生成装置1は、字幕抽出部11と、字幕変換部12と、データ生成部13と、出力部14と、記憶部20とを含んで構成される。これら各部は電子回路を用いて実現され、情報を表す電気的な信号を処理する。なお、後述するように、コンピューターを用いて各部の機能を実現するようにしてもよい。以下で、各部の機能について説明する。
字幕抽出部11は、外部から入力される放送信号を取り込み、取得した放送信号から字幕データを抽出する。放送信号は、SDI(Serial Digital Interface,シリアル・ディジタル・インターフェース)で字幕データ生成装置1に伝送されてくる。SDIは、放送用機器に用いられる標準的なインターフェースである。放送信号の形式は、ARIB(Association of Radio Industries and Business,一般社団法人電波産業会)で策定された標準規格に基づくものである。字幕データも、ARIBの規定にしたがって、入力される放送信号に重畳されている。字幕データは、HD−SDIまたはSD−SDIの垂直ブランキング領域に格納されており、字幕抽出部11はこの字幕データを抽出する。なお、字幕データが、放送信号の他の領域に格納されていてもよい。
字幕抽出部11は、抽出した字幕データを、字幕変換部12に渡す。
なお、字幕抽出部11の機能が、字幕データ生成装置1の外部の装置に存在していてもよい。その場合、字幕データ生成装置1の外部に存在する字幕抽出部が、放送信号から字幕データを抽出し、抽出した字幕データを字幕データ生成装置1の字幕変換部12に渡す。
字幕変換部12は、抽出した字幕データをテキスト形式に変換した後、字幕文のテキストと、その付加情報とをリスト化する。付加情報には、提示時刻(提示開始時刻および提示終了時刻)に関する情報、画面上での字幕の表示位置に関する情報、文字装飾に関する情報が含まれる。つまり、字幕変換部12は、字幕データから字幕テキストとその字幕テキストの提示時刻の情報とを取得し、字幕テキストと提示時刻とを関連付けて出力する。字幕変換部12によってリスト化されたデータについては、後で、図5を参照しながら説明する。
また、抽出した字幕データのテキスト内に外字が含まれている場合、字幕変換部12は、その外字を、ウェブで取得可能な外字フォント(「ウェブフォント」とも呼ばれる)の情報(その外字フォントを取得するためのURL等)に変換する。なお、URLは、Uniform Resource Locator(ユニフォーム・リソース・ロケーター)の略である。ここで、外字とは、標準的な規格として定められている文字セットに含まれない文字である。文字コードの標準的な規格の例は、JIS(日本工業規格)コードやUnicode(ユニコード)等である。外字のコードとしては、標準的な文字コード体系の空き領域のコードが割り当てられる。なお、絵文字も、外字の一種として扱ってよい。字幕変換部12は、個々の外字と、そのウェブフォントの所在情報(URL等)の対応関係のデータを予め保持しておき、字幕テキスト内に外字が存在するときには、その外字に、対応するウェブフォントの所在情報を関連付けて出力する。このような変換を行うことにより、字幕データの配信を受けたクライアント装置側では、適切なウェブフォントを取得し、外字を表示することが可能となる。
字幕変換部12は、リスト化したデータを、データ生成部13に渡す。
データ生成部13は、字幕変換部12によって変換された字幕データと、記憶部20から読み出したプレイリストファイル22とに基づいて、字幕ファイル23を生成し、記憶部20内に書き込む。また、データ生成部13は、読み込んだプレイリストファイル22に字幕に関する情報を追加することによって、プレイリストファイル24を生成し、記憶部20内に書き込む。なお、データ生成部13は、読み込んだプレイリストファイル22(動画プレイリストファイル)自体には手を加えない。つまり、データ生成部13は、記憶部20が記憶する動画ファイル21の提示時刻に同期するように、字幕テキストを含んだ字幕ファイル23を生成する。
なお、動画ファイル21およびプレイリストファイル22は、外部から取得されて記憶部20に書き込まれているデータファイルである。動画ファイル21およびプレイリストファイル22は、字幕抽出部11に入力される放送信号に対応するものである。つまり、動画ファイル21およびプレイリストファイル22は、その放送信号に基づいて、外部のエンコーダー装置(後述する)によって生成されたファイルである。具体的には、データ生成部13は、後述する動画プレイリストファイルを参照しながら複数の動画ファイルにそれぞれ対応する複数の字幕ファイルを生成するとともに、生成した字幕ファイルを適切な順に提示させるためのプレイリストのデータである字幕プレイリストファイルをさらに生成する。
出力部14は、配信用の動画ファイル21と字幕ファイル23とプレイリストファイル24とを外部に出力する。具体的には、出力部14は、これらの動画ファイル21と字幕ファイル23とプレイリストファイル24を、外部のコンテンツ配信サーバー装置(後述する)に渡す。出力部14が出力するプレイリストファイル24には、動画プレイリストファイルと、字幕プレイリストファイルと、プレイリストのマスターとが含まれる。
記憶部20は、動画ファイル21と、プレイリストファイル22と、字幕ファイル23と、プレイリストファイル24とを少なくとも一時的に記憶するものである。記憶部20は、これらのファイルを記憶するために、ハードディスク装置や半導体ディスク装置などといった記憶媒体を内部に備えている。
ここで、記憶部20が保持する各ファイルについてさらに説明する。
動画ファイル21は、動画コンテンツ(映像と音声を含む)のファイルである。動画ファイル21は、放送信号を基に、外部のエンコーダー装置でエンコードして得られた動画コンテンツを保持するものである。動画ファイル21は、所定のセグメントの長さのファイルに分割されて存在している。セグメントの長さは適宜定められるが、例えば、5秒あるいは10秒といった長さである。つまり、セグメント単位の動画ファイル21が複数件存在する。
プレイリストファイル22は、動画コンテンツの全体の構成を記述したファイルである。プレイリストファイル22もまた外部のエンコーダー装置で生成されたファイルである。プレイリストファイル22は、セグメントごとに複数存在する上記動画ファイル21について、いつ(提示時刻)、どの順で再生すべきであるかを記述したデータを保持する。本実施形態では、プレイリストファイル22は、動画m3u8ファイル(動画プレイリストファイル)と、master.m3u8ファイルとで構成される。master.m3u8ファイルは、マルチメディアコンテンツ全体の構成を示す基となるマスターのファイルである。動画m3u8ファイルは、複数の動画ファイルを適切な順に提示させるための各動画ファイルの提示時刻の情報を含んだプレイリストのデータである。
プレイリストファイル22の具体例については図面を参照しながら後で説明する。
字幕ファイル23とプレイリストファイル24とは、データ生成部13によって生成され、記憶部20に書き込まれるものである。
字幕ファイル23は、動画ファイル21に対応する字幕テキストのデータを含むファイルである。字幕ファイル23は、字幕抽出部11が取得した放送信号から抽出された字幕テキストのデータを保持する。この放送信号は、動画ファイル21の基となった放送信号と同一のものである。字幕ファイル23もまた、前記のセグメントの長さのファイルに分割されて複数存在している。つまり、あるセグメントに関して、動画ファイル21の1つに対応して、字幕ファイル23の1つが存在する。
プレイリストファイル24は、プレイリストファイル22に、字幕に関する情報を付加したファイルである。本実施形態では、プレイリストファイル24は、前述した動画m3u8ファイルと、字幕に関するプレイリストである字幕m3u8ファイルと、master.m3u8ファイルとを含む。ここで、master.m3u8ファイルには、字幕に関する情報が付加的に書き込まれている。
つまり、プレイリストファイル24と動画ファイル21と字幕ファイル23とを受信した側では、プレイリストファイル24を参照することにより、提示時刻に対応してセグメントごとに、動画ファイル21と字幕ファイル23とを提示していくことが可能となる。つまり、動画ファイル21と字幕ファイル23とは、相互に同期しながら提示される。
なお、動画ファイルの形式としては、HLS(HTTP Live Streaming,HTTP・ライブ・ストリーミング)やMPEG−DASH(Dynamic Adaptive Streaming over HTTP,ダイナミック・アダプティブ・ストリーミング・オーバー・HTTP)を用いることができるが、これらには限定されない。また、字幕ファイルの形式としては、WebVTT(Web Video Text Track,ウェブ・ビデオ・テキスト・トラック)や、TTML(Timed Text Markup Language,タイムド・テキスト・マークアップ言語)、ARIB−TTMLを用いることができるが、これらには限定されない。なお、ARIB−TTMLは、ARIBの規格として定められたTTMLである。
なお、以下の説明において、特定の形式を想定した説明をする場合があるが、その他のファイル形式によって動画や字幕を配信する場合にも、当然、本実施形態を適用することが可能である。
次に、字幕データ生成装置1を用いた配信システムについて説明する。
図2は、字幕データ生成装置1を含む配信システムの概略機能構成を示すブロック図である。つまり、同図は、字幕データ生成装置1とその周辺の装置との関係を表している。図示するように、配信システム100は、字幕データ生成装置1と、タイムコード挿入器51と、分配器52と、エンコーダー装置53と、コンテンツ配信サーバー装置61と、クライアント装置71とを含んで構成されるものである。なお、クライアント装置71を「コンテンツ表示装置」と呼んでもよい。同図に示す各装置間では、データを含んだ信号のやりとりを行えるようになっている。特に、コンテンツ配信サーバー装置61とクライアント装置71との間は、インターネット等の通信回線により接続されている。同図では、クライアント装置71を1台だけ示しているが、実際には、多数のクライアント装置71を用いて配信システム100を構成するようにしてもよい。
タイムコード挿入器51は、入力される放送信号(SDI)に、タイムコードを挿入する。タイムコード挿入器51は、タイムコード挿入済の放送信号を、分配器52に渡す。タイムコード挿入器51と分配器52との間においても、SDIによる伝送が行われる。
分配器52は、タイムコード挿入器51から渡された放送信号を、2系統に分配する。分配器52から出力される第1の系統の放送信号は、エンコーダー装置53に渡される。また、分配器52から出力される第2の系統の放送信号は、字幕データ生成装置1の字幕抽出部11に渡される。つまり、同一の放送信号が分配器52で分配され、第1の系統の放送信号は動画のエンコーディングのために使用され、第2の系統の放送信号は字幕データの抽出のために使用される。
エンコーダー装置53は、入力される放送信号に含まれる映像および音声を抽出し、動画ファイル(映像および音声を含む)を出力する。動画ファイルは、所定の長さにセグメント化されている。セグメントの長さは任意であるが、例えば、5秒あるいは10秒といった所定の長さを有する。つまり、エンコーダー装置53が出力する各々の動画ファイルは、セグメントに対応するものであり、定められたセグメント長を有するものである。
また、エンコーダー装置53は、上記の動画ファイルについて記述したプレイリストファイルもまた出力する。
なお、放送信号を入力して映像および音声をエンコードする処理自体は、既存の技術を用いて行うことができる。つまり、エンコーダー装置53自体は、既存技術によるものである。
エンコーダー装置53によって生成された動画ファイルおよびプレイリストファイルは、字幕データ生成装置1に渡される。そして、これらのファイルは、字幕データ生成装置1内の記憶部20に、動画ファイル21およびプレイリストファイル22として、書き込まれる。
字幕データ生成装置1は、エンコーダー装置53から出力される動画ファイルとプレイリストファイルとを取得し、内部の記憶手段に一時的に記憶する。また、字幕データ生成装置1は、分配器52から放送信号(SDI)を直接取得し、その放送信号から字幕データを抽出する。そして、字幕データ生成装置1は、取得した動画ファイルに合わせた字幕ファイルを生成する。また、字幕データ生成装置1は、上記の動画ファイルと自らが生成した字幕ファイルとを同期して提示できるように、エンコーダー装置53から取得したプレイリストファイルに、字幕ファイルに関する情報を追記し、出力する。そして、字幕データ生成装置1は、これらの動画ファイルと字幕ファイルとプレイリストファイルとを、コンテンツ配信サーバー装置61に渡す。
コンテンツ配信サーバー装置61は、クライアント装置71に対してコンテンツデータを配信するものである。具体的には、コンテンツ配信サーバー装置61は、クライアント装置71からの要求に応じて、動画ファイルや字幕ファイルやプレイリストファイルをクライアント装置71に対して送信する。
クライアント装置71は、コンテンツ配信サーバー装置61に対してコンテンツデータを要求し、コンテンツ配信サーバー装置61から配信されるコンテンツデータを受信して視聴者に対して提示する。例えば、クライアント装置71は、コンテンツ配信サーバー装置61から動画ファイルと字幕ファイルとプレイリストファイルとを受信する。そして、クライアント装置71は、受信したプレイリストファイルにしたがって、所定のタイミングで動画ファイルと字幕ファイルとを読み込み、動画および字幕を同期させながら画面上に表示する。また、クライアント装置71は、動画ファイルに含まれる音声をスピーカーやイヤフォン端子等の音声出力手段から出力する。
なお、クライアント装置71による字幕テキストの表示のしかたの詳細については、後で説明する。
以上の構成により、字幕データ生成装置1は、放送信号から字幕データを抽出し、抽出した字幕データを用いて字幕ファイルを出力する。字幕ファイルは、配信先のクライアント装置71で利用しやすい形式のデータとして構成される。また、字幕データ生成装置1は、字幕データと動画ファイルとが同期するよう、プレイリストファイルを加工する。そして、字幕データ生成装置1は、配信用の動画ファイルおよび字幕ファイルとともに、プレイリストファィルを、コンテンツ配信サーバー装置61に渡す。
コンテンツ配信サーバー装置61はこれらのファイルを配信することが可能となる。また、配信を受けたクライアント装置71側では、プレイリストファイルに基づいて、表示すべき動画ファイルと字幕ファイルを取得する。これにより、配信を受けたクライアント装置71側では字幕を含むコンテンツを再生・表示させることが可能となる。
図3は、字幕データ生成装置1がエンコーダー装置53から取得し、記憶部20に記憶するプレイリストファイルの例を示す概略図である。具体的には、同図は、動画m3u8ファイルを示す。「m3u8」はマルチメディアプレイリストの形式の一つであり、「m3u8」ファイルは、テキストデータとして記述されている。なお、同図では便宜的に行番号を付している。以下、同図に示すデータ例について説明する。
第1行目の「#EXTM3U」は、動画m3u8ファイルのヘッダーである。
第2行目の「#EXT−X−VERSION:3」は、動画m3u8ファイルの互換性バージョンが「3」であることを示す。
第3行目の「#EXT−X−TARGETDURATION:5」は、メディアファイル(動画ファイル等)の最大の長さ(時間長)を秒単位で示す。本例では「5」が指定されているため、メディアファイルの最大の長さが5秒であることを示している。
第4行目の「#EXT−X−MEDIA−SEQUENCE:0」は、このプレイリストファイル内に現れる最初のURLが、何番目のシーケンス番号のものであるかを示す。シーケンス番号は、メディアの各セグメントにシーケンシャルに付与される番号である。本例では、シーケンス番号として「0」が指定されているので、最初に現れるURL(第7行目)のシーケンス番号が0であることを示している。
第5行目から第7行目までが、1つのセグメントに対応する。
第5行目の「#EXT−X−PROGRAM−DATE−TIME:2015−06−09T08:42:05.635Z」は、当該セグメントの開始部分に関連付けられる日時を示す。具体的には、本例では、本セグメントの開始部分は「2015年6月9日 08:42:05.635」であることを示す。なお、「Z」は、協定世界時による時刻表記であることを示す。
第6行目の「#EXTINF:5.0」は、当該セグメントの長さを秒単位で示す。具体的には、本例では、当該セグメント長さは5.0秒である。
第7行目には、当該セグメントの動画ファイル(「チャンクファイル」あるいは「TSファイル」とも呼ぶ)の所在を示すURLが記述されている。
以上、第5行目から第7行目までのセグメントについて説明した。
ファイルの以下の部分では、セグメントに関する記述が順次続く。第8行目から第10行目までは、当該ファイル内の2番目のセグメントに関する記述である。第11行目から第13行目までは、当該ファイル内の3番目のセグメントに関する記述である。第14行目から第16行目までは、当該ファイル内の4番目のセグメントに関する記述である。
このように、同図に示す例では、長さ5秒のセグメントの連続として、コンテンツが配信される。
なお、本例では動画m3u8ファイルの行数は16であるが、動画m3u8ファイルがさらに後続するセグメントに関する記述を含んでいてもよい。
なお、本例では動画ファイルの所在をURLで記載しているが、所在を示すものであればこれに限るものではなく、例えば相対パスで記載してもかまわない。
図4もまた、字幕データ生成装置1がエンコーダー装置53から取得し、記憶部20に記憶するプレイリストファイルの例を示す概略図である。同図は、プレイリストファイルのマスター(master.m3u8ファイル)を示す。なお、同図では便宜的に行番号を付している。以下、同図に示すデータ例について説明する。
第1行目の「#EXTM3U」は、ファイルのヘッダーである。
第2行目および第4行目は、ストリーミングに関する情報を示す。「PROGRAM−ID=」はプログラムを識別する情報を示している。また、「BANDWIDTH=」は配信する際のストリーミングバンド幅を示している。
第3行目および第5行目は、動画m3u8ファイルの名前を示している。
図5は、字幕変換部12によって変換され、リスト化された字幕データの構成を示す概略図である。
同図に示すデータは、表形式のデータであり、開始時刻、終了時刻、字幕テキスト、表示位置・文字装飾、といった項目を有する。
この表の各行が、図3に示したファイルで定義されているセグメントに対応している。つまり、字幕抽出部11は、タイムコードを含んだ放送信号から、字幕テキストとタイムコードとを関連付けて抽出する。そして、字幕変換部12は、記憶部20に記憶されているプレイリストファイル22(即ち、図3に示した動画m3u8ファイル)を参照しながら、抽出した字幕テキストをセグメントごとに分割し、振り分ける。
開始時刻は、各セグメントに対応した、字幕の提示開始時刻である。図5に示す各セグメントの開始時刻は、図3に示したプレイリストファイル(動画m3u8ファイル)に記述されている各セグメントの開始時刻に対応するものである。
終了時刻は、その字幕の提示終了時刻である。なお、終了時刻のデータを省略することもできる。終了時刻のデータを省略した場合には、次のセグメントの開始時刻が、当該セグメントの終了時刻として扱われるようにする。
字幕テキストは、そのセグメント内で提示される字幕のテキストである。この字幕のテキストは、放送信号から字幕抽出部11によって抽出されたものである。
表示位置・文字装飾は、字幕テキストを表示する位置(画面上の座標情報)や、字幕テキストの文字を表示する際の装飾(文字サイズ、字体、下線等)の情報である。表示位置・文字装飾も、放送信号から抽出される情報である。
なお、その他のデータ項目をさらに含んでいてもよい。
図6は、データ生成部13が生成する字幕ファイルの構成例を示す概略図である。データ生成部13は、1セグメント分の字幕のデータを、1つの字幕ファイルとして生成する。つまり、データ生成部13は、セグメントに対応する字幕ファイルを多数生成する。同図は、1セグメントに対応する字幕ファイルを示している。なお、同図では、便宜的に行番号を付している。以下、この字幕ファイルについて説明する。
第1行目の「WEBVTT」は、ヘッダー情報であり、本ファイルがWEBVTT形式のファイルであることを表す。
第2行目の「X−TIMESTAMP−MAP:MPEGTS=1522260,LOCAL:00:00:00.000」は、時刻のマッピングを示す情報である。具体的には、本例では、「MPEGTS:1522260」は、動画ファイル(チャンクファイル)から取得された情報であり、動画ファイル内のタイムスタンプ「1522260」に対応している。また、「LOCAL:00:00:00.000」は、上記のタイムスタンプ「1522260」が、局所的(相対的)な時刻表記における「00:00:00.000」(0時0分0秒000)に対応することを表している。
第3行目のデータと第4行目のデータは対である。第3行目は、字幕提示の開始時刻(00:00:00.000)と終了時刻(00:00:02.203)とを示している。ここで表記されている時刻は、上記の相対的な時刻である。第4行目の「あいうえお」は、第3行目で示した開始時刻から終了時刻までの間に提示されるべきテキストである。この字幕テキスト「あいうえお」は、図5で示したデータの第4行目に対応するものである。
また、第5行目のデータと第6行目のデータは対である。第5行目は、字幕提示の開始時刻(00:00:02.203)と終了時刻(00:00:06.041)とを示している。ここで表記されている時刻は、上記の相対的な時刻である。第6行目の「かきくけこ」は、第5行目で示した開始時刻から終了時刻までの間に提示されるべきテキストである。この字幕テキスト「かきくけこ」は、図5で示したデータの第5行目に対応するものである。
図7は、データ生成部13が生成する字幕のプレイリストファイルの構成例を示す概略図である。字幕のプレイリストファイルもまた、動画のプレイリストファイルと同様に、m3u8ファイルとして生成される。ここでは、字幕のプレイリストファイルを「字幕m3u8ファイル」とも呼ぶ。同図では、便宜上、行番号を付している。以下、同図に示すデータの各行について説明する。
第1行目の「#EXTM3U」は、字幕m3u8ファイルのヘッダーである。
第2行目の「#EXT−X−VERSION:3」は、字幕m3u8ファイルの互換性バージョンが「3」であることを示す。
第3行目の「#EXT−X−TARGETDURATION:5」は、メディアファイルの最大の長さ(時間長)を秒単位で示す。本例では、動画m3u8ファイル(図3)に合わせて、最大の長さとして「5秒」が指定されている。
第4行目の「#EXT−X−MEDIA−SEQUENCE:0は、動画m3u8ファイル(図3)におけるシーケンス番号と同様に、このプレイリストファイル内に現れる最初のURLが、何番目のシーケンス番号のものであるかを示す。
第5行目と第6行目までが、1つのセグメントに対応する。
第5行目の「#EXTINF:5.0」は、当該セグメントの長さを秒単位で示す。具体的には、本例では、当該セグメント長さは5.0秒である。
第6行目には、当該セグメントの字幕ファイル(図6で説明したファイル。ファイルの拡張子名が「.vtt」であるファイル。)の所在を示すURLが記述されている。
字幕m3u8ファイルに「#EXT−X−PROGRAM−DATE−TIME」属性の記述が含まれていない。動画ファイルのセグメントと字幕ファイルのセグメントとが1対1に対応し、また動画ファイルと字幕ファイルとの間でセグメントの開始時刻は同一である。したがって、動画m3u8ファイルに記述されている「#EXT−X−PROGRAM−DATE−TIME」属性の値が、対応する字幕ファイルの開始時刻をも表している。
なお、字幕m3u8ファイルに「#EXT−X−PROGRAM−DATE−TIME」属性の記述を含むようにしてもよい。
以上、第5行目から第6行目までのセグメントについて説明した。
字幕m3u8ファイルの以下の部分では、セグメントに関する記述が順次続く。第7行目から第8行目までは、当該ファイル内の2番目のセグメントに関する記述である。第9行目から第10行目までは、当該ファイル内の3番目のセグメントに関する記述である。第11行目から第12行目までは、当該ファイル内の4番目のセグメントに関する記述である。
このように、同図に示す例では、長さ5秒のセグメントの連続として、動画ファイルに対応付く形で字幕ファイルが存在する。
なお、本例では字幕m3u8ファイルの行数は12であるが、動画m3u8ファイルにあわせて、字幕m3u8ファイルがさらに後続するセグメントに関する記述を含んでいてもよい。
なお、本例では字幕ファイルの所在をURLで記載しているが、所在を示すものであればこれに限るものではなく、例えば相対パスで記載してもかまわない。
図8は、データ生成部13が生成するプレイリストファイルのマスター(master.m3u8ファイル)の構成例を示す概略図である。データ生成部13は、図4に示したプレイリストファイルのマスターを読み込み、このマスターに字幕に関する情報を付加することによって、図8のマスターを生成する。なお、図8に示すマスターは、記憶部20に書き込まれるプレイリストファイル24の一部である。同図では、便宜的に、行番号を付して示している。また、同図において下線を付して示している部分は、元のマスターには含まれない情報であり、データ生成部13が付加した情報である。以下、このマスターの詳細について説明する。
第1行目の「#EXTM3U」は、ファイルのヘッダーである。
第2行目の全体は、データ生成部13によって付加された、字幕データに関する情報である。第2行目に含まれる記述は次の通りである。「#EXT−X−MEDIA」は、メディアに関する定義であることを示す。
「TYPE=SUBTITLES」は、メディア種別が字幕(subtitles)であることを示す。「GROUP−ID="xxx"」は、当該メディアのグループIDが「xxx」であることを示す。「NAME="Japanese"」は、当該メディアの名称が「Japanese」であることを示す。「DEFAULT=YES」と「AUTOSELECT=YES」と「FORCED=NO」とは、それぞれ、当該メディアに関する設定値を記述したものである。「LANGUAGE="ja"」は、使用されている言語が日本語であることを示すものである。「URI="sub/jpn/sub.m3u8"」は、字幕m3u8(プレイリストファイル)の所在を示すURI(ユニフォーム・リソース・アイデンティファイアー)を記述したものである。このURIの指定によって、マスターから、字幕のプレイリストが関連付けられる。
第3行目および第5行目は、ストリーミングに関する情報を示す。キーワードパラメーター「PROGRAM−ID」および「BANDWIDTH」は、図4の第2行目と第4行目において説明したものと同様である。「SUBTITLES="xxx"」は、字幕に関する記述として、データ生成部13によって追加されたものである。
第4行目および第6行目は、動画m3u8ファイルの名前を示しており、図4の第3行目と第5行目において説明したものと同様である。
図8に示したように、データ生成部13は、自らが生成する字幕データに関する記述を、マスター(master.m3u8)にも追加して、出力する。このようなマスターが配信されることにより、配信を受けるクライアント装置71の側では、各セグメントの動画ファイルに関連付けられた字幕ファイルを引き当てることが可能となる。
次に、配信を受けるクライアント装置側での字幕の提示等について説明する。
図9は、クライアント装置の概略機能構成を示すブロック図である。図示するように、クライアント装置71は、通信部79と、記憶部80と、デコード部81と、字幕処理部82と、提示制御部83と、出力部84と、を含んで構成される。クライアント装置71は、具体的には例えば、パーソナルコンピューター(PC)や、スマートフォン(スマホ)や、ウェアラブル端末などといった装置である。ウェアラブル端末は、例えば、腕時計型の端末や、眼鏡型の端末であるが、これらの形態には限られない。
通信部79は、外部との通信を行う。通信部79は、例えばインターネット経由で、コンテンツ配信サーバー装置61との間の通信を行う。この通信により、通信部79は、コンテンツ配信サーバー装置61から配信されるコンテンツのデータを受信する。具体的には、通信部79は、動画ファイル21や字幕ファイル23やプレイリストファイル24を受信し、記憶部80に書き込む。
記憶部80は、データを記憶する。具体的には、記憶部80は、動画ファイル21と、字幕ファイル23と、プレイリストファイル24とを少なくとも一時的に記憶する。記憶部80は、磁気ハードディスク装置や半導体ディスク装置などといった記憶媒体を内部に備えている。
デコード部81は、提示制御部83による制御にしたがって、記憶部80から動画ファイル21を読み出し、その動画ファイル21をデコードする。デコード処理の結果、デコード部81は、映像および音声を提示制御部83に渡す。また、デコード部81は、映像の提示時刻に関する情報を動画ファイルから取得し、提示制御部83に渡す。
字幕処理部82は、提示制御部83による制御にしたがって、記憶部80から字幕ファイル23を読み出し、字幕ファイル23から字幕テキスト等を取得する。字幕処理部82は、また、字幕ファイル23から取り出した字幕テキスト内に外字が含まれている場合、その外字のフォント(ウェブフォント)の所在を示すURLをあわせて字幕ファイル23から読み出す。そして、字幕処理部82は、通信部79を介して、そのURLの場所にアクセスし、上記外字のフォントデータを取得する。そして、字幕処理部82は、取得したフォントデータをその外字に関連付ける形で出力する。字幕処理部82は、これらの字幕テキスト等のデータを、提示制御部83に渡す。また、字幕処理部82は、字幕テキストの提示時刻に関する情報を字幕ファイル23から取り出し、提示制御部83に渡す。
提示制御部83は、動画コンテンツの提示を制御する。具体的には、提示制御部83は、記憶部80に記憶されているプレイリストファイル24を参照しながら、所定のタイミングで、セグメントごとに動画ファイル21をデコードするよう、デコード部81を制御する。また、提示制御部83は、同様にプレイリストファイル24を参照しながら、セグメントごとの字幕ファイル23を読み込んで処理するよう、字幕処理部82を制御する。また、提示制御部83は、適切な提示のタイミングで同期させながら、映像と字幕テキストとを、画面に表示するよう出力部84に渡す。具体的には、提示制御部83は、映像提示時刻の情報と字幕提示時刻の情報とに基づいて映像と字幕テキストの提示のタイミングを同期させながら、映像を表示するための領域である映像表示領域とは重ならない字幕表示領域に、字幕テキストを表示する。さらに、提示制御部83が、字幕提示開始時刻において当該字幕提示開始時刻に対応する字幕テキストの表示を開始するとともに、当該字幕テキストに対応する字幕提示終了時刻が到来しても当該字幕テキストの表示を終了させず、当該字幕テキストの表示位置とは異なる字幕表示領域内の位置に、以後の字幕テキストを表示させるよう制御してもよい。なお、このときの画面の構成および配置については後述する。また、提示制御部83は、映像等と同期させながら、動画ファイル21から取得された音声を、音声出力手段(スピーカーやイヤフォン端子等)から出力するよう出力部84に渡す。
出力部84は、提示制御部83から渡された画像(映像)を画面等に表示させる。また、出力部84は、提示制御部83から渡された音声を音声出力手段から出力する。
図10は、クライアント装置側におけるコンテンツ提示画面の構成例を示す概略図である。図示するように、クライアント装置71の表示面側には、表示部101が設けられている。表示部101としては、例えば、液晶ディスプレイ装置や有機ELディスプレイ装置等を用いることができる。なお、「EL」は「エレクトロルミネッセンス(Electroluminescence)」の略である。図示する例では、表示部101を複数の領域に分割し、各領域に映像や字幕テキストを表示している。つまり、表示部101には、映像表示領域102と、字幕表示領域103とが設けられている。表示部101は多数の画素で構成されており、表示制御手段(不図示)が画素の領域を適宜分割することにより、これら複数の領域のそれぞれにおける制御が可能となる。同図において、映像表示領域102に表示されているものは、動画ファイル21をデコードして得られた映像の1フレームである。また、字幕表示領域103に表示されているものは、現時点(そのフレームが提示される時点)までに提示された字幕テキストの履歴である。
つまり、図10に示す表示方法の例では、提示制御部83は、字幕テキストを、映像の画面(映像表示領域102)内に重ねて表示するのではなく、字幕専用の領域(字幕表示領域103)に表示する。また、提示制御部83は、字幕テキストの提示終了時刻が到来しても、その字幕テキストを字幕表示領域103から消去せず、字幕テキストの履歴として表示し続ける。そして、提示開始時刻の到来した新たな字幕テキストを、追加的に順次表示していく。本例では、既に表示されていた字幕テキストの下に、新たな字幕テキストを追加的に表示していく。これにより、ユーザーは、現在再生されているシーンから時間的に遡って、字幕を視認することが可能となる。また、提示制御部83は、ユーザーの操作によって字幕表示領域103を上下にスクロールできるような表示方法を行ってもよい。これにより、ユーザーは、時間的に更に広い範囲の字幕テキストの履歴を参照することが可能となる。
図11は、クライアント装置が、前図とは異なるモードで字幕を表示させた例を示す概略図である。同図においても、字幕表示領域103に、字幕テキストが表示されている。ただし、同図の例では、提示制御部83は、発話者に対応するアイコンに関連付ける形で字幕を表示している。本例では、2人の発話者のアイコンが表示されている。また、提示制御部83は、字幕テキストを吹き出し図形内に表示するよう制御している。また、提示制御部83は、本例では、画面の縦方向に時系列に字幕テキストを表示している。画面の上側に表示されているのが提示時刻のより古い(過去方向の)字幕テキストであり、画面の下側に表示されているのが提示時刻のより新しい字幕テキストである。また、同図に示す表示例では、字幕表示領域103内でユーザーの操作によって上下に移動できるように、スクロールバー111も表示されている。同図に示す字幕テキストの例は、次の通りである。まず、第1の話者のアイコン(左側)に関連付ける形で、字幕テキスト「あいうえお」が表示されている。次に、第2の話者のアイコン(右側)に関連付ける形で、字幕テキスト「かきくけこ」が表示されている。次に、第1の話者のアイコン(左側)に関連付ける形で、字幕テキスト「明日も見てね」が表示されている。次に、第2の話者のアイコン(右側)に関連付ける形で、字幕テキスト「明日も見てね」が表示されている。
図11の表示を行うために、提示制御部83は、コンテンツ配信サーバー装置61側から送られてくるメタデータを利用する。例えば、このメタデータは、字幕テキストに付随し、その話者を識別するための話者識別情報を含む。また、このメタデータは、話者識別情報と関連付けて、アイコン画像のデータ、あるいはアイコン画像を取得することのできるURLのデータを含む。このメタデータは、字幕ファイル23内に格納された状態で、コンテンツ配信サーバー装置61からクライアント装置71に送られてくる。また、このメタデータは元々の放送信号に含まれており、字幕データ生成装置1のデータ生成部13は、そのメタデータを引き継ぐように字幕ファイル23を生成する。
なお、メタデータとして、上記の話者識別情報の代わりに、字幕表示領域103内における表示位置を用いるようにしてもよい。
つまり、同図に示す表示方法を実現するために、提示制御部83は、字幕ファイルに含まれる情報から、字幕テキストに対応する話者を特定する話者特定情報(話者IDや、話者のアイコン画像や、話者のアイコン画像の所在情報等)を取得し、話者特定情報に関連付ける形で、字幕テキストを表示するよう、制御する。
次に、クライアント装置71におけるコンテンツの早戻し操作を実現するための方法を説明する。
クライアント装置71において、例えばユーザー(コンテンツの視聴者)が画面上に表示されている任意の字幕テキストを指示(選択)することにより、その字幕テキストの提示時刻の時点まで、映像を早戻しするようにしてもよい。なお、ユーザーが字幕テキストを指示するためには、例えばマウス等のポインティングデバイスを操作したり、タッチパネルにタッチする操作を行ったりできるようにする。ユーザーによるこれらの操作が行われると、提示制御部83は、画面上における指示された位置の座標の情報を取得する。そして、提示制御部83は、その座標から、どの字幕テキストが指示されたかを特定する。そして、提示制御部83は、プレイリストファイル24を参照することにより、指示された字幕テキストの提示時刻を取得するとともに、その字幕ファイルと同一のセグメントの動画ファイルを特定する。このようにして、提示制御部83は、コンテンツを早戻しし、早戻しされた位置から、動画ファイル21および字幕ファイル23の提示を再開する。つまり、提示制御部83は、表示済の字幕テキストが選択される操作を受け付けた場合、当該字幕テキストの提示時刻に対応する位置まで早戻しして、当該位置から動画ファイルの提示を再開するよう制御する。この場合、提示制御部83は、早戻しした位置に対応する動画ファイルを再度デコードするよう、デコード部81に指示してもよい。あるいは、デコード済みの映像を一時記憶手段に蓄積しておいて、その一時記憶手段から映像を再読出しすることによって早戻し再生を実現するようにしてもよい。
なお、ここで説明した早戻し操作は、図10に示した形の字幕表示においても、図11に示した形の字幕表示においても、行うことが可能である。
本実施形態のクライアント装置71によれば、ユーザーは、過去に表示された字幕を後から読んで確認することができる。このとき、字幕表示領域を適宜スクロールさせて、提示時刻を遡ることができる。さらに、字幕テキストの部分から、その字幕テキストの位置に対応する動画の位置をリンクすることで、見逃したシーンの早戻し再生も可能となる。
なお、上述した実施形態における字幕データ生成装置、コンテンツ配信サーバー装置、クライアント装置等の機能をコンピューターで実現するようにしても良い。その場合、これらの機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
[変形例]
なお、上記実施形態では、動画ファイルや字幕ファイルとともにプレイリストファイルを生成し配信することとした。しかし、変形例として、プレイリストファイルを用いない形で実施してもよい。プレイリストファイルを用いない場合、動画ファイルの内部に、その動画ファイルのシーケンス番号を特定するための情報を格納する。また、字幕ファイルの内部に、その字幕ファイルのシーケンス番号を特定するための情報を格納する。このようなファイルを生成して、コンテンツ配信サーバー装置から配信することにより、クライアント装置側では、動画ファイルおよび字幕ファイルのそれぞれを、正しい順序によって提示することが可能となる。また、プレイリストファイルを用いない場合、動画ファイルおよび字幕ファイルの内部に、提示タイミングに関する情報を格納する。これにより、クライアント装置側では、動画ファイルと字幕ファイルとを同期させて適切なタイミングで提示することが可能となる。なお、この場合、字幕データ生成装置内のデータ生成部はプレイリストファイルを生成せず、また出力部はプレイリストファイルを出力しない。また、コンテンツ配信サーバー装置は、プレイリストファイルを配信しない。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、コンテンツを配信する事業や、そのための装置等を製造・販売する事業や、その他の事業において利用可能である。
1 字幕データ生成装置
11 字幕抽出部
12 字幕変換部
13 データ生成部
14 出力部
20 記憶部
21 動画ファイル
22 プレイリストファイル
23 字幕ファイル
24 プレイリストファイル
51 タイムコード挿入器
52 分配器
53 エンコーダー装置
61 コンテンツ配信サーバー装置
71 クライアント装置(コンテンツ表示装置)
79 通信部
80 記憶部
81 デコード部
82 字幕処理部
83 提示制御部
84 出力部
100 配信システム

Claims (9)

  1. 外部から取得した放送信号から抽出された字幕データから字幕テキストと前記字幕テキストの提示時刻の情報とを取得し、前記字幕テキストを前記提示時刻と関連付けて出力する字幕変換部と、
    前記放送信号に基づいてエンコードされた動画ファイルを記憶する記憶部と、
    前記記憶部が記憶する前記動画ファイルの提示時刻に同期するように、前記字幕テキストを含んだ字幕ファイルを生成するデータ生成部と、
    前記記憶部から読み出した前記動画ファイルと前記データ生成部が生成した前記字幕ファイルとを出力する出力部と、
    を具備することを特徴とする字幕データ生成装置。
  2. 前記動画ファイルは、所定の長さの時間のセグメントごとに分割された複数の動画ファイルであり、
    前記記憶部は、前記複数の動画ファイルを適切な順に提示させるための各動画ファイルの提示時刻の情報を含んだプレイリストのデータである動画プレイリストファイルをさらに記憶しており、
    前記データ生成部は、前記動画プレイリストファイルを参照しながら前記複数の動画ファイルにそれぞれ対応する複数の前記字幕ファイルを生成するとともに、生成した前記字幕ファイルを適切な順に提示させるためのプレイリストのデータである字幕プレイリストファイルをさらに生成するものであり、
    前記出力部は、さらに前記動画プレイリストファイルと前記字幕プレイリストファイルとを出力する、
    ことを特徴とする請求項1に記載の字幕データ生成装置。
  3. 前記字幕変換部は、前記字幕テキスト内に外字が含まれている場合には、前記外字に対応するフォントの所在情報を、当該外字に関連付けた形の字幕テキストを出力する、
    ことを特徴とする請求項1または2のいずれかに記載の字幕データ生成装置。
  4. コンピューターを、
    外部から取得した放送信号から字幕データを抽出する字幕抽出部、
    前記字幕データから字幕テキストと前記字幕テキストの提示時刻の情報とを取得し、前記字幕テキストを前記提示時刻と関連付けて出力する字幕変換部、
    前記放送信号に基づいてエンコードされた動画ファイルを記憶する記憶部、
    前記記憶部が記憶する前記動画ファイルの提示時刻に同期するように、前記字幕テキストを含んだ字幕ファイルを生成するデータ生成部、
    前記記憶部から読み出した前記動画ファイルと前記データ生成部が生成した前記字幕ファイルとを出力する出力部、
    として機能させるためのプログラム。
  5. 動画ファイルと前記動画ファイルに対応する字幕ファイルとを受信する通信部と、
    受信された前記動画ファイルをデコードすることによって映像と前記映像の提示時刻である映像提示時刻の情報とを出力するデコード部と、
    受信された前記字幕ファイルから、字幕テキストと前記字幕テキストの提示時刻である字幕提示時刻の情報とを出力する字幕処理部と、
    前記映像提示時刻の情報と前記字幕提示時刻の情報とに基づいて前記映像と前記字幕テキストの提示のタイミングを同期させながら、前記映像を表示するための領域である映像表示領域とは重ならない字幕表示領域に、前記字幕テキストを表示する提示制御部と、
    を具備することを特徴とするコンテンツ表示装置。
  6. 前記字幕提示時刻の情報は、字幕提示開始時刻と字幕提示終了時刻との情報を含むものであり、
    前記提示制御部は、前記字幕提示開始時刻において当該字幕提示開始時刻に対応する前記字幕テキストの表示を開始するとともに、当該字幕テキストに対応する前記字幕提示終了時刻が到来しても当該字幕テキストの表示を終了させず、当該字幕テキストの表示位置とは異なる前記字幕表示領域内の位置に、以後の字幕テキストを表示させるよう制御する、
    ことを特徴とする請求項5に記載のコンテンツ表示装置。
  7. 前記提示制御部は、表示済の前記字幕テキストが選択される操作を受け付けた場合、当該字幕テキストの提示時刻に対応する位置まで早戻しして、当該位置から前記動画ファイルの提示を再開するよう制御する、
    ことを特徴とする請求項6に記載のコンテンツ表示装置。
  8. 前記提示制御部は、前記字幕ファイルから、前記字幕テキストに対応する話者を特定する話者特定情報を取得し、前記話者特定情報に関連付ける形で、前記字幕テキストを表示する、
    ことを特徴とする請求項5から7までのいずれか一項に記載のコンテンツ表示装置。
  9. コンピューターを、
    通信で受信された動画ファイルをデコードすることによって映像と前記映像の提示時刻である映像提示時刻の情報とを出力するデコード部、
    通信で受信された字幕ファイルから、字幕テキストと前記字幕テキストの提示時刻である字幕提示時刻の情報とを出力する字幕処理部、
    前記映像提示時刻の情報と前記字幕提示時刻の情報とに基づいて前記映像と前記字幕テキストの提示のタイミングを同期させながら、前記映像を表示するための領域である映像表示領域とは重ならない字幕表示領域に、前記字幕テキストを表示する提示制御部、
    として機能させるためのプログラム。
JP2016094531A 2016-05-10 2016-05-10 字幕データ生成装置、およびプログラム Active JP6700957B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016094531A JP6700957B2 (ja) 2016-05-10 2016-05-10 字幕データ生成装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016094531A JP6700957B2 (ja) 2016-05-10 2016-05-10 字幕データ生成装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2017204695A true JP2017204695A (ja) 2017-11-16
JP6700957B2 JP6700957B2 (ja) 2020-05-27

Family

ID=60322902

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016094531A Active JP6700957B2 (ja) 2016-05-10 2016-05-10 字幕データ生成装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP6700957B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019194742A1 (en) * 2018-04-04 2019-10-10 Nooggi Pte Ltd A method and system for promoting interaction during live streaming events
JP2020027984A (ja) * 2018-08-09 2020-02-20 日本放送協会 コンテンツ配信装置及びプログラム
JP2020080481A (ja) * 2018-11-13 2020-05-28 株式会社インターネットイニシアティブ インターネット経由で同時配信されるテレビ番組における字幕データの処理システム、処理方法およびプログラム
JP2022083357A (ja) * 2020-11-24 2022-06-03 株式会社インフォシティ アプリケーションエンジン、これを実装した情報通信端末装置、及び字幕表示制御方法並びに該方法を実行するためのコンピュータプログラム
JP2022098735A (ja) * 2020-12-22 2022-07-04 株式会社Play 字幕生成装置及び字幕生成プログラム
US11678023B2 (en) 2021-10-29 2023-06-13 Comcast Cable Communications, Llc Systems, methods, and apparatuses for captions data conversion

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250899A (ja) * 1999-03-04 2000-09-14 Ntt Communicationware Corp クライアントサーバ型マルチリンガル検索方法及びシステム装置
JP2003018491A (ja) * 2001-07-04 2003-01-17 Sony Corp 字幕表示装置および方法
JP2003179888A (ja) * 2001-12-11 2003-06-27 Nec Corp コンテンツ配信システム、コンテンツ配信システムの配信サーバ及び表示端末、コンテンツ配信プログラム
JP2005215915A (ja) * 2004-01-29 2005-08-11 Dainippon Printing Co Ltd 個人情報配信システム
JP2005229414A (ja) * 2004-02-13 2005-08-25 Daikin Ind Ltd 情報処理装置および情報処理方法、プログラム、並びに、情報処理システム
JP2008085663A (ja) * 2006-09-27 2008-04-10 Toshiba Corp 字幕送出装置および字幕送出方法
JP2009152753A (ja) * 2007-12-19 2009-07-09 Funai Electric Co Ltd 映像表示装置
JP2009177720A (ja) * 2008-01-28 2009-08-06 Sony Corp 表示制御装置、表示制御方法、およびプログラム
JP2009218741A (ja) * 2008-03-07 2009-09-24 Sharp Corp コンテンツ表示装置、コンテンツ表示方法、プログラム、および記録媒体
WO2014109321A1 (ja) * 2013-01-09 2014-07-17 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
JP2015220517A (ja) * 2014-05-15 2015-12-07 ソニー株式会社 受信装置、および送信装置、並びにデータ処理方法
JP2016006958A (ja) * 2014-05-30 2016-01-14 日本放送協会 送信装置および受信装置、ならびにプログラム
JP2016012930A (ja) * 2009-11-13 2016-01-21 サムスン エレクトロニクス カンパニー リミテッド データ提供方法及びその装置、並びにデータ受信方法及びその装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250899A (ja) * 1999-03-04 2000-09-14 Ntt Communicationware Corp クライアントサーバ型マルチリンガル検索方法及びシステム装置
JP2003018491A (ja) * 2001-07-04 2003-01-17 Sony Corp 字幕表示装置および方法
JP2003179888A (ja) * 2001-12-11 2003-06-27 Nec Corp コンテンツ配信システム、コンテンツ配信システムの配信サーバ及び表示端末、コンテンツ配信プログラム
JP2005215915A (ja) * 2004-01-29 2005-08-11 Dainippon Printing Co Ltd 個人情報配信システム
JP2005229414A (ja) * 2004-02-13 2005-08-25 Daikin Ind Ltd 情報処理装置および情報処理方法、プログラム、並びに、情報処理システム
JP2008085663A (ja) * 2006-09-27 2008-04-10 Toshiba Corp 字幕送出装置および字幕送出方法
JP2009152753A (ja) * 2007-12-19 2009-07-09 Funai Electric Co Ltd 映像表示装置
JP2009177720A (ja) * 2008-01-28 2009-08-06 Sony Corp 表示制御装置、表示制御方法、およびプログラム
JP2009218741A (ja) * 2008-03-07 2009-09-24 Sharp Corp コンテンツ表示装置、コンテンツ表示方法、プログラム、および記録媒体
JP2016012930A (ja) * 2009-11-13 2016-01-21 サムスン エレクトロニクス カンパニー リミテッド データ提供方法及びその装置、並びにデータ受信方法及びその装置
WO2014109321A1 (ja) * 2013-01-09 2014-07-17 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
JP2015220517A (ja) * 2014-05-15 2015-12-07 ソニー株式会社 受信装置、および送信装置、並びにデータ処理方法
JP2016006958A (ja) * 2014-05-30 2016-01-14 日本放送協会 送信装置および受信装置、ならびにプログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019194742A1 (en) * 2018-04-04 2019-10-10 Nooggi Pte Ltd A method and system for promoting interaction during live streaming events
US11277674B2 (en) 2018-04-04 2022-03-15 Nooggi Pte Ltd Method and system for promoting interaction during live streaming events
JP2020027984A (ja) * 2018-08-09 2020-02-20 日本放送協会 コンテンツ配信装置及びプログラム
JP7096732B2 (ja) 2018-08-09 2022-07-06 日本放送協会 コンテンツ配信装置及びプログラム
JP2020080481A (ja) * 2018-11-13 2020-05-28 株式会社インターネットイニシアティブ インターネット経由で同時配信されるテレビ番組における字幕データの処理システム、処理方法およびプログラム
JP2022083357A (ja) * 2020-11-24 2022-06-03 株式会社インフォシティ アプリケーションエンジン、これを実装した情報通信端末装置、及び字幕表示制御方法並びに該方法を実行するためのコンピュータプログラム
JP7288251B2 (ja) 2020-11-24 2023-06-07 株式会社インフォシティ アプリケーションエンジン、これを実装した情報通信端末装置、及び字幕表示制御方法並びに該方法を実行するためのコンピュータプログラム
JP2022098735A (ja) * 2020-12-22 2022-07-04 株式会社Play 字幕生成装置及び字幕生成プログラム
JP7201656B2 (ja) 2020-12-22 2023-01-10 株式会社Play 字幕生成装置及び字幕生成プログラム
US11678023B2 (en) 2021-10-29 2023-06-13 Comcast Cable Communications, Llc Systems, methods, and apparatuses for captions data conversion

Also Published As

Publication number Publication date
JP6700957B2 (ja) 2020-05-27

Similar Documents

Publication Publication Date Title
JP6700957B2 (ja) 字幕データ生成装置、およびプログラム
US11785289B2 (en) Receiving device, transmitting device, and data processing method
JP6570646B2 (ja) オーディオビデオファイルのライブストリーミング方法、システム及びサーバー
JP6081984B2 (ja) 受信装置、放送通信連携システムおよび放送通信連携方法
JP6462566B2 (ja) 送信装置、送信方法、受信装置および受信方法
JP6399726B1 (ja) テキストコンテンツ生成装置、送信装置、受信装置、およびプログラム
Van Deventer et al. Standards for multi-stream and multi-device media synchronization
US10341631B2 (en) Controlling modes of sub-title presentation
US11490169B2 (en) Events in timed metadata tracks
JP6883693B2 (ja) 受信装置およびプログラム
JPWO2016039285A1 (ja) 送信装置、送信方法、受信装置および受信方法
CN202231825U (zh) 一种实现个性化界面显示的iptv系统
JP6715910B2 (ja) インターネット経由で同時配信されるテレビ番組における字幕データの処理システム、処理方法およびプログラム
CN111835988B (zh) 字幕的生成方法、服务器、终端设备及系统
WO2019188406A1 (ja) 字幕生成装置及び字幕生成プログラム
CN112188256B (zh) 信息处理方法、信息提供方法、装置、电子设备及存储介质
JP4755717B2 (ja) 放送受信端末装置
JP2016048846A (ja) 情報表示装置、情報表示方法、情報表示プログラム、関連情報形成装置、及び配信システム
JP2015173444A (ja) 受信機
CN111837401B (zh) 信息处理设备、信息处理方法
CN112188256A (zh) 信息处理方法、信息提供方法、装置、电子设备及存储介质
KR20170044922A (ko) 멀티스크린 장치간 콘텐츠 동기화 재생 방법
JP2022083357A (ja) アプリケーションエンジン、これを実装した情報通信端末装置、及び字幕表示制御方法並びに該方法を実行するためのコンピュータプログラム
WO2016036012A1 (ko) 방송 신호 송수신 방법 및 장치
JP2016028471A (ja) 受信装置

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181026

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190402

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200407

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200501

R150 Certificate of patent or registration of utility model

Ref document number: 6700957

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250