JP7201656B2

JP7201656B2 - 字幕生成装置及び字幕生成プログラム

Info

Publication number: JP7201656B2
Application number: JP2020212304A
Authority: JP
Inventors: 大輔宮島; 顕也福本; 和秀 ▲高▼橋; 慶吾小渕
Original assignee: 株式会社Play
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2023-01-10
Anticipated expiration: 2040-12-22
Also published as: JP2022098735A

Description

本開示は、字幕生成装置及び字幕生成プログラムに関するものである。

映像及び字幕を含む番組の放送波から、映像を表示するための映像データ及び字幕を表示するための字幕データを得て、得られた映像データに係る映像、及び得られた字幕データに係る字幕を共に表示するための映像信号を出力する映像処理装置が知られている（例えば、特許文献１参照）。特に、特許文献１には、所定の表示領域に表示される字幕の文字数と次に得られた字幕データの字幕の文字数との加算結果が所定文字数以下であれば、次の字幕を連続配置して表示すること、及び、字幕を表示し続けるべき表示時間を放送波から抽出し、字幕の文字数に応じて表示時間を延長すること等が記載されている。

特開２０１０－２６８０７６号公報

このように、特許文献１に示されるような技術は、映像及び字幕を含む番組の放送波から、映像データ、字幕データ及び表示時間を抽出する。ここで、字幕データが映像データと重畳されたデータを受信してリアルタイムで字幕データをＷｅｂＶＴＴ形式の字幕ファイルとして出力する場合を考える。ＷｅｂＶＴＴ形式の字幕ファイルでは、字幕テキストについて表示開始時刻と表示終了時刻とが特定されている。表示開始時刻のみが特定され、表示終了時刻が特定されていない字幕テキストがＷｅｂＶＴＴ形式の字幕ファイルに含まれていた場合、一般的なプレイヤーでは、当該字幕テキストについて無視されてしまい、当該字幕テキストが表示されない。したがって、例えば、放送データをリアルタイムにエンコード及び変換して、インターネット等の電気通信回線で配信するような場合、ある字幕データを受信時には次の字幕データを受信していないために、字幕テキストの表示終了時間を確定できず、字幕データの受信と同時にリアルタイムで生成した字幕ファイルでは字幕テキストを適切に表示できなくなり、映像データと字幕データの同期がとれない。

本開示は、このような課題を解決するためになされたものである。その目的は、字幕データが映像データと重畳されたデータを受信し、リアルタイムで字幕データを電気通信回線で配信するための字幕ファイルとして出力する場合に、映像データと字幕データとを同期させて字幕テキストを適切に表示できる字幕ファイルを生成することが可能である字幕生成装置及び字幕生成プログラムを提供することにある。

本開示に係る字幕生成装置は、外部から取得した字幕データから、字幕テキストと前記字幕テキストの第１表示開始時刻とを抽出する字幕抽出部と、前記第１表示開始時刻よりも後の時刻である第１表示終了時刻を設定する終了時刻設定部と、前記字幕抽出部が抽出した前記字幕テキストに前記第１表示開始時刻と前記第１表示終了時刻とを対応付けた分割字幕データを生成する分割字幕生成部と、前記分割字幕生成部が生成した分割字幕データを出力するデータ出力部と、前記第１表示終了時刻を前記字幕テキストの第２表示開始時刻に設定する開始時刻設定部と、を備え、前記終了時刻設定部は、前記第２表示開始時刻よりも後の時刻である第２表示終了時刻を設定し、前記分割字幕生成部は、前記字幕抽出部が抽出した前記字幕テキストを複製した字幕テキストに前記第２表示開始時刻と前記第２表示終了時刻とを対応付けた分割字幕データを生成することで、同一の字幕テキストの表示を前記第１表示開始時刻から前記第２表示終了時刻まで継続させるための分割字幕データを生成する。

本開示に係る字幕生成プログラムは、字幕生成装置のコンピュータを、外部から取得した字幕データから、字幕テキストと前記字幕テキストの第１表示開始時刻とを抽出する字幕抽出部と、前記第１表示開始時刻よりも後の時刻である第１表示終了時刻を設定する終了時刻設定部と、前記字幕抽出部が抽出した前記字幕テキストに前記第１表示開始時刻と前記第１表示終了時刻とを対応付けた分割字幕データを生成する分割字幕生成部と、前記分割字幕生成部が生成した分割字幕データを出力するデータ出力部と、前記第１表示終了時刻を前記字幕テキストの第２表示開始時刻に設定する開始時刻設定部と、として機能させるとともに、前記終了時刻設定部に、前記第２表示開始時刻よりも後の時刻である第２表示終了時刻を設定させ、前記分割字幕生成部に、前記字幕抽出部が抽出した前記字幕テキストを複製した字幕テキストに前記第２表示開始時刻と前記第２表示終了時刻とを対応付けた分割字幕データを生成させることで、同一の字幕テキストの表示を前記第１表示開始時刻から前記第２表示終了時刻まで継続させるための分割字幕データを生成させる。

本開示に係る字幕生成装置及び字幕生成プログラムによれば、字幕データが映像データと重畳されたデータを受信し、リアルタイムで字幕データを電気通信回線で配信するための字幕ファイルとして出力する場合に、映像データと字幕データとを同期させて字幕テキストを適切に表示できる字幕ファイルを生成することが可能であるという効果を奏する。

実施の形態１に係る字幕生成装置の機能的な構成を示すブロック図である。ＷｅｂＶＴＴ形式の字幕ファイルの一例を説明する図である。実施の形態１に係る字幕生成装置が生成するＷｅｂＶＴＴ形式の字幕ファイルの一例を説明する図である。実施の形態１に係る字幕生成装置が生成するＷｅｂＶＴＴ形式の字幕ファイルの一例を説明する図である。実施の形態１に係る字幕生成装置の処理例を示すフロー図である。実施の形態１に係る字幕生成装置の処理例を示すフロー図である。実施の形態１に係る字幕生成装置の処理例を示すフロー図である。

本開示に係る字幕生成装置及び字幕生成プログラムを実施するための形態について添付の図面を参照しながら説明する。各図において、同一又は相当する部分には同一の符号を付して、重複する説明は適宜に簡略化又は省略する。以下の説明においては便宜上、図示の状態を基準に各構造の位置関係を表現することがある。なお、本開示は以下の実施の形態に限定されることなく、本開示の趣旨を逸脱しない範囲において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、又は各実施の形態の任意の構成要素の省略が可能である。

実施の形態１．
図１から図７を参照しながら、本開示の実施の形態１について説明する。図１は字幕生成装置の機能的な構成を示すブロック図である。図２はＷｅｂＶＴＴ形式の字幕ファイルの一例を説明する図である。図３及び図４は字幕生成装置が生成するＷｅｂＶＴＴ形式の字幕ファイルの一例を説明する図である。図５から図７は字幕生成装置の処理例を示すフロー図である。

この実施の形態に係る字幕生成装置１０は、図１に示すように、字幕抽出部１１、終了時刻設定部１２、開始時刻設定部１３、分割字幕生成部１４及びデータ出力部１５を備えている。これらの各部は電子回路を用いて実現され、情報を表す電気的な信号を処理する。

字幕生成装置１０は、ハードウェアとして、プロセッサ及びメモリを備えた１台以上のコンピュータから構成されていてもよい。プロセッサは、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータあるいはＤＳＰともいう。メモリには、例えば、ＲＡＭ、ＲＯＭ、フラッシュメモリー、ＥＰＲＯＭ及びＥＥＰＲＯＭ等の不揮発性または揮発性の半導体メモリ、又は、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク及びＤＶＤ等が該当する。

字幕生成装置１０のメモリには、ソフトウェアとしてのプログラムが記憶される。そして、字幕生成装置１０は、メモリに記憶されたプログラムをプロセッサが実行することによって予め設定された処理を実施し、ハードウェアとソフトウェアとが協働した結果として、以下に説明する各部の機能を実現する。すなわち、字幕生成装置１０のメモリに記憶されたプログラムは、字幕生成装置１０のコンピュータを、以下に説明する各部として機能させる字幕生成プログラムである。

字幕抽出部１１は、外部から入力される放送信号を取り込み、取得した放送信号から字幕データを抽出する。放送信号は、例えばＳＤＩ（ＳｅｒｉａｌＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ：シリアル・デジタル・インターフェース）で字幕生成装置１０に伝送されてくる。ＳＤＩは、放送用機器に用いられる標準的なインターフェースである。放送信号の形式は、ＡＲＩＢ（ＡｓｓｏｃｉａｔｉｏｎｏｆＲａｄｉｏＩｎｄｕｓｔｒｉｅｓａｎｄＢｕｓｉｎｅｓｓ：一般社団法人電波産業会）で策定された標準規格に基づくものである。字幕データも、ＡＲＩＢの規定にしたがって、入力される放送信号に重畳されている。字幕データは、ＨＤ－ＳＤＩ又はＳＤ－ＳＤＩの垂直ブランキング領域に格納されており、字幕抽出部１１はこの字幕データを抽出する。字幕データが、放送信号の他の領域に格納されていてもよい。

なお、字幕生成装置１０に入力される放送信号のインターフェースはＳＤＩに限られない。他に例えば、字幕生成装置１０に入力される放送信号は、ＲＴＰ（Ｒｅａｌ－ｔｉｍｅＴｒａｎｓｐｏｒｔＰｒｏｔｏｃｏｌ）等を用いてＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）ネットワーク上に送出されたものであってもよい。ＲＴＰを用いる場合、放送信号に含まれる映像及び音声データは、例えばリアルタイムエンコーダ等を用いてＭＰＥＧ２－ＴＳ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ２－ＴｒａｎｓｐｏｒｔＳｔｒｅａｍ）形式にエンコードされたものである。また、ＲＴＰを用いる場合も放送信号には、例えばＡＲＩＢで規定されている字幕データが重畳されている。この場合、字幕抽出部１１は、ＭＰＥＧ２－ＴＳのエレメンタリストリームから、字幕データを抽出する。

このようにして、字幕抽出部１１は、外部から字幕データを取得する。そして、字幕抽出部１１は、取得した字幕データから字幕テキストを抽出する。また、字幕データには、字幕テキストの表示を開始するタイミングを指定する情報も含まれている。字幕抽出部１１は、取得した字幕データから、字幕テキストの表示を開始するタイミングを指定する情報を当該字幕テキストの第１表示開始時刻として抽出する。換言すれば、字幕抽出部１１は、取得した字幕データから字幕テキストの第１表示開始時刻を抽出する。

終了時刻設定部１２は、字幕抽出部１１により抽出された字幕テキストについて、第１表示終了時刻を設定する。第１表示終了時刻は、字幕抽出部１１により抽出された第１表示開始時刻よりも後の時刻である。分割字幕生成部１４は、字幕抽出部１１が抽出した字幕テキストに、字幕抽出部１１により抽出された第１表示開始時刻と、終了時刻設定部１２により設定された第１表示終了時刻とを対応付けた分割字幕データを生成する。

開始時刻設定部１３は、字幕抽出部１１により抽出された字幕テキストについて、第２表示終了時刻を設定する。第２表示終了時刻は、終了時刻設定部１２により設定された第１表示終了時刻と同時刻である。終了時刻設定部１２は、字幕抽出部１１により抽出された字幕テキストについて、第２表示終了時刻を設定する。第２表示終了時刻は、開始時刻設定部１３により設定された第２表示開始時刻よりも後の時刻である。そして、分割字幕生成部１４は、字幕抽出部１１が抽出した字幕テキストに、開始時刻設定部１３により設定された第２表示開始時刻と、終了時刻設定部１２により設定された第２表示終了時刻とを対応付けた分割字幕データを生成する。

このようにして、分割字幕生成部１４は、字幕抽出部１１により抽出された字幕テキストの表示時間について、第１表示開始時刻から第１表示終了時刻までと、第２表示開始時刻から第２表示終了時刻までとに分割された分割字幕データを生成する。第１表示終了時刻と第２表示開始時刻とは同時刻である。したがって、字幕データは、字幕テキストの表示時間が途切れることがないようにして分割される。第２表示終了時刻以降も、同様にして、字幕テキストの表示時間が途切れることがないように分割が継続される。すなわち、１つ前の分割字幕データの表示終了時刻と、その直後の分割字幕データの表示開始時刻とは、同時刻である。

終了時刻設定部１２は、第１表示開始時刻と第１表示終了時刻との時間間隔を、例えば、字幕生成装置１０が備えるタイマー部１６の計時結果に基づいて設定する。同様に、終了時刻設定部１２は、第２表示開始時刻と第２表示終了時刻との時間間隔を、例えばタイマー部１６の計時結果に基づいて設定する。終了時刻設定部１２は、第１表示開始時刻から第１表示終了時刻までの間隔と、第２表示開始時刻から第２表示終了時刻までの間隔とが等しくなるように、第１表示終了時刻及び第２表示終了時刻を設定する。

この場合、それぞれの表示時間、すなわち、第１表示開始時刻から第１表示終了時刻までの間隔、及び第２表示開始時刻から第２表示終了時刻までの間隔は、例えば、字幕データが重畳される映像データのエンコード遅延、プレイヤーでの映像データのデコード遅延、及びプレイヤーでの映像データの描画遅延等を考慮して決定するとよい。このようにすることで、映像データと字幕データの表示タイミングを容易に合わせることが可能である。

データ出力部１５は、分割字幕生成部１４が生成した分割字幕データを出力する。すなわち、データ出力部１５は、字幕テキストに第１表示開始時刻と第１表示終了時刻とが対応付けられた分割字幕データを出力する。また、データ出力部１５は、字幕テキストに第２表示開始時刻と第２表示終了時刻とが対応付けられた分割字幕データを出力する。第２表示終了時刻以降についても同様に、分割字幕生成部１４が生成した分割字幕データがあれば、データ出力部１５は、当該分割字幕データを出力する。

この際の出力データのファイル形式は、例えばＷｅｂＶＴＴ（ＷｅｂＶｉｄｅｏＴｅｘｔＴｒａｃｋ：ウェブ・ビデオ・テキスト・トラック）形式である。次に、図２を参照しながらＷｅｂＶＴＴ形式の字幕ファイルの構成について説明する。同図に示すのは、ＷｅｂＶＴＴ形式の字幕ファイルの一例である。第１行目の「ＷＥＢＶＴＴ」は、ヘッダー情報であり、本ファイルがＷＥＢＶＴＴ形式のファイルであることを表す。第２行目は空白行である。

第３行目のデータと第４行目のデータは組になっている。第３行目は、字幕テキストの表示開始時刻及び表示終了時刻である。第４行目は、第３行目の表示開始時刻から表示終了時刻までの間に表示される字幕テキストの内容である。具体的には、第３行目の「－－＞」よりも行頭側の「００：００：０５．０００」は、表示開始時刻が０時０分５秒０００であることを示している。また、第３行目の「－－＞」よりも行末側の「００：００：１０．０００」は、表示終了時刻が０時０分１０秒０００であることを示している。なお、これらの時刻は相対的なものであり、例えば、当該字幕データが表示される映像の再生時刻を基準としている。そして、第４行目の「今日は晴れています。」は、０時０分５秒０００から０時０分１０秒０００の間に表示する字幕テキストである。

同様に、第５行目の空白行を挟んで、第６行目及び第７行目が組となったデータである。第６行目及び第７行目は、表示開始時刻０時０分１１秒０００から表示終了時刻０時０分１６秒０００の間に字幕テキスト「明日の天気は曇りでしょう。」を表示することを示している。また、第８行目の空白行を挟んで、第９行目及び第１０行目が組となったデータである。第９行目及び第１０行目は、表示開始時刻０時０分２０秒０００から表示終了時刻０時１分２０秒０００の間に字幕テキスト「♪（主題歌）」を表示することを示している。そして、第１１行目の空白行を挟んで、第１２行目及び第１３行目が組となったデータである。第１２行目及び第１３行目は、表示開始時刻０時１分２２秒０００から表示終了時刻０時１分２５秒０００の間に字幕テキスト「さて、次のニュースです。」を表示することを示している。

データ出力部１５は、２つ以上の分割字幕データを１つの字幕ファイルとして出力してもよいし、２つ以上の分割字幕データのそれぞれを別々の字幕ファイルとして出力してもよい。２つ以上の分割字幕データを１つの字幕ファイルとして出力する場合、データ出力部１５は、字幕テキストに第１表示開始時刻と第１表示終了時刻とを対応付けた分割字幕データと、字幕テキストに第２表示開始時刻と第２表示終了時刻とを対応付けた分割字幕データとが少なくとも含まれる１つの字幕ファイルを出力する。

図３に示すのは、データ出力部１５が、２つ以上の分割字幕データを１つの字幕ファイルとして出力した場合の一例である。同図の例は、ＷｅｂＶＴＴ形式の字幕ファイルの一部分である。この例では、まず、表示開始時刻０時０分１１秒０００から表示終了時刻０時０分１６秒０００の間に字幕テキスト「明日の天気は曇りでしょう。」を表示する。そして、図示の範囲では、字幕テキスト「♪（主題歌）」について、５秒毎に５つの分割字幕データに分割されている。

すなわち、まず、１つめの分割字幕データにおいて、表示開始時刻０時０分２０秒０００から表示終了時刻０時０分２５秒０００の間に字幕テキスト「♪（主題歌）」を表示する。次に、２つめの分割字幕データにおいては、表示開始時刻０時０分２５秒０００から表示終了時刻０時０分３０秒０００の間に、同一の字幕テキスト「♪（主題歌）」を表示する。また、３つめの分割字幕データにおいては、表示開始時刻０時０分３０秒０００から表示終了時刻０時０分３５秒０００の間に、同一の字幕テキスト「♪（主題歌）」を表示する。さらに、４つめの分割字幕データにおいては、表示開始時刻０時０分３５秒０００から表示終了時刻０時０分４０秒０００の間に、同一の字幕テキスト「♪（主題歌）」を表示する。そして、５つめの分割字幕データにおいては、表示開始時刻０時０分４０秒０００から表示終了時刻０時０分４５秒０００の間に、同一の字幕テキスト「♪（主題歌）」を表示する。なお、０時０分４５秒０００以降についても、同様に、表示時間５秒毎に分割字幕データが生成されている。

図４に示すのは、図３に示した１つのＷｅｂＶＴＴ形式の字幕ファイルを、複数のＷｅｂＶＴＴ形式の字幕ファイルに分割した一例である。この例では、ＨＬＳ（ＨＴＴＰＬｉｖｅＳｔｒｅａｍｉｎｇ：ＨＴＴＰ・ライブ・ストリーミング）規格により配信される動画に合わせて、字幕ファイルを分割している。ＥＸＴ－ＩＮＦは、ＨＬＳセグメントの長さを特定するタグである。図示の例では、ＥＸＴ－ＩＮＦは１０秒である。このＨＬＳセグメントの長さに合わせて、図３に示した１つのＷｅｂＶＴＴ形式の字幕ファイルを複数の字幕ファイルに分割している。図３の例では、１つの分割字幕データの表示時間は５秒である。そこで、ＨＬＳセグメントの長さ１０秒に合わせて、２つの分割字幕データ毎に１つのＷｅｂＶＴＴ形式字幕ファイルとなるようにファイルを分割している。

具体的には、１つめの字幕ファイルは、表示開始時刻０時０分２０秒０００から表示終了時刻０時０分２５秒０００の間に字幕テキスト「♪（主題歌）」を表示する１つめの分割字幕データと、表示開始時刻０時０分２５秒０００から表示終了時刻０時０分３０秒０００の間に字幕テキスト「♪（主題歌）」を表示する２つめの分割字幕データとからなる。また、２つめの字幕ファイルは、表示開始時刻０時０分３０秒０００から表示終了時刻０時０分３５秒０００の間に字幕テキスト「♪（主題歌）」を表示する３つめの分割字幕データと、表示開始時刻０時０分３５秒０００から表示終了時刻０時０分４０秒０００の間に字幕テキスト「♪（主題歌）」を表示する４つめの分割字幕データとからなる。そして、３つめの字幕ファイルは、表示開始時刻０時０分４０秒０００から表示終了時刻０時０分４５秒０００の間に字幕テキスト「♪（主題歌）」を表示する５つめの分割字幕データと、表示開始時刻０時０分４５秒０００から表示終了時刻０時０分５０秒０００の間に字幕テキスト「♪（主題歌）」を表示する６つめの分割字幕データとからなる。

なお、図示の例では、それぞれの字幕ファイルは、連番を含むファイル名が付けられている。具体的には、それぞれ、ｗｅｂｖｔｔ＿２．ｖｔｔ、ｗｅｂｖｔｔ＿３．ｖｔｔ及びｗｅｂｖｔｔ＿４．ｖｔｔである。

図２に例示したように、ＷｅｂＶＴＴ形式の字幕ファイルでは、字幕テキストについて表示開始時刻と表示終了時刻とが特定されている。ここで、表示開始時刻のみが特定され、表示終了時刻が特定されていない字幕テキストがＷｅｂＶＴＴ形式の字幕ファイルに含まれていた場合、一般的なプレイヤーでは、当該字幕テキストについて無視されてしまい、当該字幕テキストが表示されない。

ここで、字幕データが映像データと重畳され伝送されるケースにおいて、これらのデータを受信してリアルタイムで字幕データをＷｅｂＶＴＴ形式の字幕ファイルとして出力する場合を考える。このような場合、従来技術では、ある字幕データを受信した時点では、次の字幕データを受信していないために、字幕テキストの表示終了時間を確定できないことが起こり得る。したがって、字幕データの受信と同時にリアルタイムで生成したＷｅｂＶＴＴ形式の字幕ファイルにおいて、表示終了時刻が特定されていない字幕テキストが含まれることになり、当該字幕テキストを適切に表示できず、映像データと字幕データの同期がとれないおそれがある。

これに対し、以上のように構成された本開示に係る字幕生成装置１０によれば、字幕データの受信時に表示終了時刻が確定できない字幕テキストについて、表示終了時刻を設定し、さらに、当該字幕テキストについて、設定した表示終了時刻以後も再度表示を開始して表示が継続されるような分割字幕データを生成する。このため、字幕データの受信時に表示終了時刻が確定できない字幕テキストについても、表示終了時刻が特定されたＷｅｂＶＴＴ形式の字幕ファイルとして出力できる。したがって、字幕データが映像データと重畳され伝送されるケースにおいて、これらのデータを受信してリアルタイムで字幕データをインターネット等の電気通信回線で配信するためのＷｅｂＶＴＴ形式の字幕ファイルとして出力する場合に、映像データと字幕データとを同期させて字幕テキストを適切に表示できるようにすることが可能である。

また、２つ以上の分割字幕データを１つの字幕ファイルとして出力しておくことで、その後の必要性等に応じて、容易に複数の字幕ファイルに分割できる。したがって、例えば、ＨＬＳ形式のライブ配信の場合に映像データのＨＬＳセグメント長に合わせて、字幕データのセグメントファイルを容易に生成できる。

次に、以上のように構成された字幕生成装置１０の処理の流れの一例について、図５のフロー図を参照しながら説明する。まず、ステップＳ１１においては、字幕抽出部１１は、外部から字幕データを取得する。そして、字幕抽出部１１は、取得した字幕データから、字幕テキストを抽出する。また、字幕抽出部１１は、取得した字幕データから、字幕テキストの表示されるべき時間を抽出し、これを表示開始時刻とする。字幕テキストの表示されるべき時間とは、例えば、字幕データに含まれるＰＴＳ（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅＳｔａｍｐ）である。そして、字幕抽出部１１が次の字幕データを取得した場合には、次の字幕データの表示開始時刻を、今回の字幕データの表示終了時刻とする。ステップＳ１１の後、字幕生成装置１０はステップＳ１２の処理を行う。

ステップＳ１２においては、字幕抽出部１１は、取得した字幕データに制御コード「ＴＩＭＥ」又は「ＣＳ」（画面消去）があるか否かを確認する。そして、字幕データに制御コード「ＴＩＭＥ」及び「ＣＳ」のいずれもなければ、次に字幕生成装置１０はステップＳ１３の処理を行う。

ステップＳ１３においては、タイマー部１６による計時を開始する。なお、このステップＳ１３の処理の実行時に、既にタイマー部１６が計時を行っている場合には、一旦タイマー部１６による計時を停止し、タイマー部１６をリセットしてから、タイマー部１６による計時を開始する。

ステップＳ１３の後、字幕生成装置１０は、ステップＳ１１に戻って次の字幕データについて処理を続ける。また、この処理と並行して、終了時刻設定部１２は、タイマー部１６により計時された経過時間を監視している（ステップＳ１４）。そして、終了時刻設定部１２は、タイマー部１６により計時された経過時間が設定時間に達した（Ｅｘｐｉｒｅｄ）か否かを判定する。

タイマー部１６により計時された経過時間が設定時間に達した場合、終了時刻設定部１２は、表示終了時刻を設定する。この際、タイマー部１６により計時された経過時間が設定時間に達するまでの間に、次の字幕データが到着しない場合、字幕テキストを複製し、この複製した字幕テキストについて開始時刻設定部１３は表示開始時刻を再設定する。そして、字幕生成装置１０は、ステップＳ１３に戻って処理を続け、タイマー部１６による計時を開始する。

一方、ステップＳ１４で、タイマー部１６により計時された経過時間が設定時間に達するまでの間に、次の字幕データが到着した場合、その時点において、終了時刻設定部１２は、表示終了時刻を設定する。そして、字幕生成装置１０はステップＳ１５の処理を行う。

ステップＳ１５においては、分割字幕生成部１４は、ステップＳ１１で取得された字幕テキスト、表示開始時刻、並びに、ステップＳ１３及びＳ１４で設定された字幕テキスト、表示開始時刻及び表示終了時刻に基づいて、分割字幕データを生成する。そして、データ出力部１５は、分割字幕生成部１４が生成した分割字幕データを、字幕ファイルとして出力する。

一方、ステップＳ１２において、字幕データに制御コード「ＴＩＭＥ」がある場合、終了時刻設定部１２は、制御コード「ＴＩＭＥ」に従って字幕テキストの表示終了時刻を設定する。また、ステップＳ１２において、字幕データに制御コード「ＣＳ」がある場合、終了時刻設定部１２は、制御コード「ＣＳ」により画面が消去される時刻を字幕テキストの表示終了時刻として設定する。そして、次に字幕生成装置１０はステップＳ１５の処理を行う。ステップＳ１５の処理が完了すれば、一連の処理は終了となる。

なお、図５に示した処理例では、字幕データの受信処理タイミングにより、出力が保留される字幕データが同時に複数存在する状態になることがある。この場合、出力が保留された字幕データについて、ＦＩＦＯ（先入先出）により処理することで、順序を維持することができる。

以上で説明した構成例では、タイマー部１６による計時結果に基づいて、一定時間間隔で字幕テキストの表示終了時間を設定し、分割字幕データを生成している。すなわち、字幕テキストを取得した時点で、当該字幕テキストの表示終了時刻を確定できない場合にタイマー部１６による計時を開始し、このタイマー部１６が一定時間を計時したタイミングで、当該字幕テキストの表示終了時刻を設定している。しかし、分割字幕データの表示終了時間の設定方法は、これに限られない。

終了時刻設定部１２は、外部から入力されたキュー信号に基づいて、分割字幕データの表示終了時間の設定してもよい。すなわち、終了時刻設定部１２は、外部から入力されたキュー信号に基づいて、少なくとも、第１表示終了時刻及び第２表示終了時刻の一方又は両方を設定する。具体的に例えば、ＳＣＴＥ－３５信号をキュー信号として用いる。ＳＣＴＥ－３５信号は、番組の開始と終了、及び、広告の挿入開始と挿入終了を指定する信号である。なお、ＳＣＴＥは、ＳｏｃｉｅｔｙｏｆＣａｂｌｅａｎｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＥｎｇｉｎｅｅｒｓの略である。

この際、例えば、ＳＣＴＥ－３５信号のｓｐｌｉｃｅ＿ｉｎｓｅｒｔ（）メッセージに含まれるｕｎｉｑｕｅ＿ｐｒｏｇｒａｍ＿ｉｄフィールドの値を番組ＩＤとして利用することができる。この場合、例えば、ｕｎｉｑｕｅ＿ｐｒｏｇｒａｍ＿ｉｄフィールドの値すなわち番組ＩＤに変更がなければ、同一の番組内での広告挿入であると判定して、終了時刻設定部１２はＳＣＴＥ－３５信号のタイミングで字幕テキストの表示終了時間を設定し、分割字幕生成部１４は分割字幕データを生成する。一方、ｕｎｉｑｕｅ＿ｐｒｏｇｒａｍ＿ｉｄフィールドの値すなわち番組ＩＤが変更されれば、１つの番組が終了し、別の番組が開始されたと判定する。番組ＩＤが変更された場合、データ出力部１５による字幕ファイルの出力先（例えばディレクトリ及び字幕ファイル名）を番組に合わせて変更する。そして、データ出力部１５が出力する分割字幕ファイルのカウンタをリセットする。このような処理により、番組単位に合わせて字幕ファイルを出力することができる。

この場合の字幕生成装置１０の処理例について、図６のフロー図を参照しながら説明する。字幕生成装置１０に、外部からのキュー信号としてＳＣＴＥ－３５信号が入力されると、まず、ステップＳ２１において、字幕生成装置１０は、ＳＣＴＥ－３５信号のｕｎｉｑｕｅ＿ｐｒｏｇｒａｍ＿ｉｄフィールドの値すなわち番組ＩＤを取得する。

続くステップＳ２２において、ステップＳ２１で取得した番組ＩＤと、前回のＳＣＴＥ－３５信号の受信時に取得した番組ＩＤとを比較し、番組ＩＤに変更があったか否かを判定する。なお、例えば、字幕生成装置１０のメモリに、前回のＳＣＴＥ－３５信号の受信時に取得した番組ＩＤの値が保持されている。そして、番組ＩＤに変更がなければ、字幕生成装置１０は次にステップＳ２３の処理を行う。

ステップＳ２３においては、例えば図５のフロー図に示した処理により、外部から字幕データを取得し、ＷｅｂＶＴＴ形式の字幕ファイルを出力する。ステップＳ２３の後、字幕生成装置１０はステップＳ２１に戻って処理を続ける。

一方、ステップＳ２２で番組ＩＤに変更があれば、字幕生成装置１０は次にステップＳ２４の処理を行う。ステップＳ２４においては、データ出力部１５による字幕ファイルの出力先ディレクトリ及び字幕ファイル名を番組に合わせて変更する。そして、データ出力部１５が出力する分割字幕ファイルのカウンタをリセットする。ステップＳ２４の後、字幕生成装置１０はステップＳ２１に戻って処理を続ける。

なお、以上においては、番組ＩＤとしてＳＣＴＥ－３５信号のｕｎｉｑｕｅ＿ｐｒｏｇｒａｍ＿ｉｄフィールドの値を使用した場合について説明したが、番組ＩＤの特定方法はこれに限られない。他に例えば、ＳＣＴＥ－３５信号のｓｐｌｉｃｅ＿ｉｎｓｅｒｔ（）メッセージに含まれるｓｐｌｉｃｅ＿ｅｖｅｎｔ＿ｉｄフィールド等の他の識別子を番組ＩＤとして利用してもよい。また、１つの識別子だけでなく複数の識別子を組み合わせたものにより番組を一意に特定して、番組ＩＤとしてもよい。

字幕生成装置１０は、ＨＬＳセグメントに合わせて分割字幕ファイルを出力できるようにしてもよい。すなわち、取得した字幕データに、ＨＬＳセグメントの長さを超えて表示される字幕テキストが含まれている場合、当該字幕テキストの表示時間を分割した分割字幕データを生成し、ＷｅｂＶＴＴ形式の字幕ファイルを出力する。

この場合の字幕生成装置１０の処理例について、図７のフロー図を参照しながら説明する。まず、ステップＳ３１において、字幕抽出部１１は、外部から字幕データを取得する。そして、字幕抽出部１１は、取得した字幕データから、字幕テキスト及び当該字幕テキストの表示時間を抽出する。

続くステップＳ３２において、字幕生成装置１０は、ステップＳ３１で取得した字幕データについて、ＨＬＳセグメント時間内に、表示開始する又は表示終了する字幕テキストが存在するか否かを判定する。この判定結果は、３つの場合が考えられる。第１の場合は、当該ＨＬＳセグメント時間内に表示される字幕テキストが存在しない場合である。第２の場合は、当該ＨＬＳセグメント時間内に表示開始され、かつ、表示終了される字幕テキストが存在する場合である。

そして、第３の場合は、当該ＨＬＳセグメント時間内に表示開始され、かつ、表示終了されない、すなわち、当該ＨＬＳセグメント時間を超えて表示し続ける字幕テキストが存在する場合である。この第３の場合には、当該ＨＬＳセグメント時間が経過しても、次の字幕データが字幕生成装置１０に到着せず、字幕テキストの表示終了時間が確定できなかった場合も含まれる。

上記第１の場合、すなわち、当該ＨＬＳセグメント時間内に表示される字幕テキストが存在しない場合、字幕生成装置１０は次にステップＳ３３の処理を行う。ステップＳ３３においてデータ出力部１５は、内容が空のＷｅｂＶＴＴ形式字幕ファイルを出力する。ステップＳ３３の後、字幕生成装置１０はステップＳ３１に戻って処理を続ける。

ステップＳ３２で上記第２の場合、すなわち、当該ＨＬＳセグメント時間内に表示開始され、かつ、表示終了される字幕テキストが存在する場合、字幕生成装置１０は次にステップＳ３４の処理を行う。ステップＳ３４においては、分割字幕生成部１４は、ステップＳ３１で取得した字幕テキスト及び表示時間により、字幕データを生成する。そして、データ出力部１５は、生成された字幕データをＷｅｂＶＴＴ形式字幕ファイルとして出力する。なお、出力待ちの字幕ファイルが既に存在する場合には、データ出力部１５は、当該出力待ちの字幕ファイルに字幕データを追記する形で出力する。ステップＳ３４の後、字幕生成装置１０はステップＳ３５の処理を行う。

ステップＳ３５においては、データ出力部１５は、字幕用ｍ３ｕ８ファイルを生成する。字幕用ｍ３ｕ８ファイルは、字幕ファイルのプレイリストを定義するファイルである。なお、字幕用ｍ３ｕ８ファイルが既に存在する場合には、データ出力部１５は、字幕用ｍ３ｕ８ファイルに今回出力した字幕ファイルを追記する。ステップＳ３５の後、字幕生成装置１０はステップＳ３１に戻って処理を続ける。

一方、ステップＳ３２で上記第３の場合、すなわち、当該ＨＬＳセグメント時間を超えて表示し続ける字幕テキストが存在する場合、字幕生成装置１０は次にステップＳ３６の処理を行う。ステップＳ３６においては、まず、終了時刻設定部１２は、当該ＨＬＳセグメントの終了時間を字幕テキストの表示終了時間に設定する。そして、分割字幕生成部１４は、設定された表示終了時間により分割字幕データを生成する。また、開始時刻設定部１３は、当該ＨＬＳセグメントの終了時間を字幕テキストの表示開始時間に設定する。そして、終了時刻設定部１２は、例えば、次のＨＬＳセグメントの終了時間を字幕テキストの表示終了時間に設定する。分割字幕生成部１４は、設定された表示開始時間及び表示終了時間により分割字幕データを生成する。このようにして、字幕テキストが複製され、ＨＬＳセグメント時間に合わせて分割された分割字幕データが生成される。そして、ステップＳ３６の後、字幕生成装置１０はステップＳ３４の処理を行う。

このようにすることで、分割されたＷｅｂＶＴＴ形式字幕ファイルは、ＨＬＳセグメントに合わせて表示時間が分割されている。したがって、途中のＨＬＳセグメントから再生が開始された場合でも、適切に字幕の表示可能な字幕ファイルを生成できる。

なお、ステップＳ３３におけるデータ出力部１５による空のＷｅｂＶＴＴ形式字幕ファイルの出力は必ずしも行われなくともよい。より詳しくは、上記第１の場合、すなわち、当該ＨＬＳセグメント時間内に表示される字幕テキストが存在しない場合に空のＷｅｂＶＴＴ形式字幕ファイルを出力すべきか否かは、ステップＳ３５において生成される字幕用ｍ３ｕ８ファイルの仕様により決まる。すなわち、上記第１の場合にステップＳ３５で字幕用ｍ３ｕ８ファイルに空のＷｅｂＶＴＴ形式字幕ファイルが記載される場合には、ステップＳ３３で空のＷｅｂＶＴＴ形式字幕ファイルを出力しなければならない。一方、上記第１の場合にステップＳ３５で字幕用ｍ３ｕ８ファイルに空のＷｅｂＶＴＴ形式字幕ファイルが記載されないのであれば、ステップＳ３３で空のＷｅｂＶＴＴ形式字幕ファイルを出力してもしなくてもよい。

１０字幕生成装置
１１字幕抽出部
１２終了時刻設定部
１３開始時刻設定部
１４分割字幕生成部
１５データ出力部
１６タイマー部

Claims

外部から取得した字幕データから、字幕テキストと前記字幕テキストの第１表示開始時刻とを抽出する字幕抽出部と、
前記第１表示開始時刻よりも後の時刻である第１表示終了時刻を設定する終了時刻設定部と、
前記字幕抽出部が抽出した前記字幕テキストに前記第１表示開始時刻と前記第１表示終了時刻とを対応付けた分割字幕データを生成する分割字幕生成部と、
前記分割字幕生成部が生成した分割字幕データを出力するデータ出力部と、
前記第１表示終了時刻を前記字幕テキストの第２表示開始時刻に設定する開始時刻設定部と、を備え、
前記終了時刻設定部は、前記第２表示開始時刻よりも後の時刻である第２表示終了時刻を設定し、
前記分割字幕生成部は、前記字幕抽出部が抽出した前記字幕テキストを複製した字幕テキストに前記第２表示開始時刻と前記第２表示終了時刻とを対応付けた分割字幕データを生成することで、同一の字幕テキストの表示を前記第１表示開始時刻から前記第２表示終了時刻まで継続させるための分割字幕データを生成する字幕生成装置。
前記終了時刻設定部は、前記第１表示開始時刻から前記第１表示終了時刻までの間隔と、前記第２表示開始時刻から前記第２表示終了時刻までの間隔とが等しくなるように前記第１表示終了時刻及び前記第２表示終了時刻を設定する請求項１に記載の字幕生成装置。
前記終了時刻設定部は、タイマーによる計時により、前記第１表示終了時刻及び前記第２表示終了時刻の一方又は両方を設定する請求項１又は請求項２に記載の字幕生成装置。
前記終了時刻設定部は、外部から入力されたキュー信号に基づいて、前記第１表示終了時刻及び前記第２表示終了時刻の一方又は両方を設定する請求項１に記載の字幕生成装置。
前記データ出力部は、前記字幕テキストに前記第１表示開始時刻と前記第１表示終了時刻とを対応付けた分割字幕データと、前記字幕テキストに前記第２表示開始時刻と前記第２表示終了時刻とを対応付けた分割字幕データとが含まれる１つの字幕ファイルを出力する請求項１から請求項４のいずれか一項に記載の字幕生成装置。
字幕生成装置のコンピュータを、
外部から取得した字幕データから、字幕テキストと前記字幕テキストの第１表示開始時刻とを抽出する字幕抽出部と、
前記第１表示開始時刻よりも後の時刻である第１表示終了時刻を設定する終了時刻設定部と、
前記字幕抽出部が抽出した前記字幕テキストに前記第１表示開始時刻と前記第１表示終了時刻とを対応付けた分割字幕データを生成する分割字幕生成部と、
前記分割字幕生成部が生成した分割字幕データを出力するデータ出力部と、
前記第１表示終了時刻を前記字幕テキストの第２表示開始時刻に設定する開始時刻設定部と、として機能させるとともに、
前記終了時刻設定部に、前記第２表示開始時刻よりも後の時刻である第２表示終了時刻を設定させ、
前記分割字幕生成部に、前記字幕抽出部が抽出した前記字幕テキストを複製した字幕テキストに前記第２表示開始時刻と前記第２表示終了時刻とを対応付けた分割字幕データを生成させることで、同一の字幕テキストの表示を前記第１表示開始時刻から前記第２表示終了時刻まで継続させるための分割字幕データを生成させる字幕生成プログラム。