JP2012105234A

JP2012105234A - 字幕生成配信システム、字幕生成配信方法およびプログラム

Info

Publication number: JP2012105234A
Application number: JP2010254487A
Authority: JP
Inventors: Yasutaka Shinto; 安孝新堂
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2010-11-15
Filing date: 2010-11-15
Publication date: 2012-05-31

Abstract

【課題】映像の字幕を生成し、視聴端末で同期表示するように字幕と映像とを配信すること。
【解決手段】字幕生成配信システムは、音声を含む映像を取得する撮影装置１０と、撮影装置１０で取得された映像を所定時間遅延させる映像バッファ４１と、編集端末２０から受信した字幕情報とを視聴端末５０に配信する配信部４２を含む配信サーバ４０と、撮影装置１０で取得された映像に含まれる音声に対する音声認識結果を取得する音声認識サーバ３０と、音声認識サーバ３０で取得された音声認識結果をユーザが編集するための編集画面を表示し、編集画面から字幕を取得する編集部２２と、映像バッファ４１で映像を遅延させた所定時間と、音声認識サーバ３０および編集部２２での処理に要した時間とに応じて決定される時間、字幕を遅延させる字幕バッファ２３とを含む編集端末２０と、を備える。
【選択図】図１

Description

本発明は、字幕付き映像を生成し、視聴端末に配信する字幕生成配信システム、字幕生成配信方法およびプログラムに関し、特に、映像に含まれる音声に対応する字幕を生成し、視聴端末で同期表示されるように生成された字幕と映像とを配信する字幕生成配信システム、字幕生成配信方法およびプログラムに関する。

従来、字幕付き映像生成配信システムは、リアルタイムの字幕配信を目的とし、字幕が生成でき次第配信していた。このため、映像に対して字幕が数秒〜数十秒遅れ、映像と字幕との表示タイミングのズレが生じていた。さらに、この表示タイミングのズレの大きさは一定でないため、視聴者の字幕による映像の理解を阻害してしまうという問題点があった。

そこで、特許文献１には、音声認識方式にて字幕を生成する際に、音声認識結果の出力タイミングに合わせて音声を呈示することにより、音声認識結果の修正をスムーズにし、映像と字幕との表示タイミングのズレを少なくする装置が提案されている。

また、特許文献２には、予め用意された原稿を読み上げた音声に対応した字幕を生成する際に、音声認識処理を用いて、原稿における発話の位置を判断し、発話が開始された際に、原稿における発話に対応した部分を字幕として表示することにより、映像と字幕との表示タイミングのズレを少なくする装置が提案されている。

さらに、特許文献３には、テレビジョン放送の放送波に含まれる映像と音声とを所定時間遅延させ、映像または音声から抽出された文字情報と、放送波に含まれる字幕との相関に基づいて、字幕情報を表示するタイミングが決定することにより、映像と音声とに字幕を同期して表示する装置が提案されている。

特開２００１−１４２４８２号公報特開２００９−１８２８５９号公報特開２００１−８８９９０号公報

しかしながら、特許文献１および２に開示されている装置では、映像と字幕との表示タイミングのズレを少なくすることはできるが、映像と字幕との表示タイミングを一致させること、すなわち映像と字幕とを同期して表示することはできないという問題点があった。また、特許文献３に開示されている装置では、字幕との映像と字幕とを同期して表示することはできるが、専用の受信装置が必要であるという問題点があった。

また、従来のリアルタイムの字幕配信において、特許文献１に開示されているように音声を音声認識処理し、得られた音声認識結果を修正者が修正することにより字幕を生成する音声認識方式や、音声を入力オペレータが聞きながら同時に打ち込みを行うことにより字幕を生成するキーボード入力方式により字幕は生成されていた。そのため、字幕を生成するためには特別な技術を持つ人材を多数必要とし、容易に字幕生成および配信を行うことができないという問題点があった。

そこで、本発明は、上述の課題に鑑みてなされたものであり、音声認識処理を利用して字幕を生成し、映像の配信を所定時間遅延させることにより、映像と字幕とが同期して表示されるように、すなわち、生成された字幕の表示タイミングと映像の表示タイミングとが一致するように、字幕と映像とを視聴端末に配信する字幕生成配信システム、字幕生成配信方法およびプログラムを提供することを目的とする。

本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。

（１）本発明は、字幕付き映像を生成し、視聴端末に配信する字幕生成配信システムであって、音声を含む映像を取得する映像取得手段（例えば、図１の撮影装置１０）と、前記映像取得手段で取得された映像を、第１の所定時間遅延させる映像バッファ（例えば、図１の映像バッファ４１）と、前記映像取得手段で取得された映像に含まれる音声に対する音声認識結果を取得する音声認識手段（例えば、図１の音声認識サーバ３０）と、前記音声認識手段で取得された音声認識結果をユーザが編集するための編集画面を表示し、前記編集画面で編集された結果を字幕として取得する編集手段（例えば、図１の編集部２２）と、前記第１の所定時間と、前記音声認識手段および前記編集手段の処理で要した時間と、に応じて決定される時間、前記編集手段で取得された字幕を遅延させる字幕バッファ（例えば、図１の字幕バッファ２３）と、前記映像バッファで遅延させた映像と、前記字幕バッファで遅延させた字幕とを配信する配信手段（例えば、図１の配信部４２）と、を備えることを特徴とする字幕生成配信システムを提案している。

この発明によれば、映像取得手段は、音声を含む映像を取得する。映像バッファは、映像取得手段で取得された映像を、第１の所定時間遅延させる。音声認識手段は、映像取得手段で取得された映像に含まれる音声に対する音声認識結果を取得する。編集手段は、音声認識手段で取得された音声認識結果をユーザが編集するための編集画面を表示し、編集画面で編集された結果を字幕として取得する。字幕バッファは、第１の所定時間と、音声認識手段および編集手段の処理で要した時間と、に応じて決定される時間、編集手段で取得された字幕を遅延させる。配信手段は、映像バッファで遅延させた映像と、字幕バッファで遅延させた字幕とを配信する。したがって、音声認識処理を利用して字幕を生成しながら、映像の配信を所定時間遅延させ、映像の配信を遅延させる所定時間と音声認識手段および編集手段の処理で要した時間とに応じて決定される時間字幕を遅延させることにより、視聴端末で映像と字幕とが同期して表示されるように、すなわち、生成された字幕の表示タイミングと映像の表示タイミングとが一致するように、生成された字幕と映像とを視聴端末に配信することができる。また、音声認識処理により得られた音声認識結果をユーザが編集して字幕を生成することにより、特別な技術を持たず、かつ少ない人数によって容易に字幕を生成することができる。

（２）本発明は、（１）の字幕生成配信システムについて、前記映像取得手段で取得された映像を記憶する映像記憶手段（例えば、図１の映像記憶部２４）を備え、前記編集手段は、前記音声認識手段で取得された音声認識結果を前記編集画面に表示する際に、前記映像記憶手段に記憶された映像のうち、表示された音声認識結果に対応する音声部分の映像を表示することを特徴とする字幕生成配信システムを提案している。

この発明によれば、映像記憶手段は、映像取得手段で取得された映像を記憶する。編集手段は、音声認識手段で取得された音声認識結果を編集画面に表示する際に、映像記憶手段に記憶された映像のうち、表示された音声認識結果に対応する音声部分の映像を表示する。したがって、字幕を編集する際に、ユーザに字幕に対応する映像および音声を提供することにより、ユーザの字幕編集を支援することができる。

（３）本発明は、（１）または（２）の字幕生成配信システムについて、前記音声認識手段が前記映像取得手段で取得された映像の音声を受信した時から第２の所定時間経過前までに、前記編集手段が、前記音声認識手段が受信した音声に対応する音声認識結果を前記音声認識手段から受信しなかった場合には、前記音声認識手段が受信した音声は前記映像取得手段で取得された映像に含まれていなかったものとすることを特徴とする字幕生成配信システムを提案している。

この発明によれば、音声認識手段が映像取得手段で取得された映像を受信した時から第２の所定時間経過前までに、編集手段が、音声認識手段が受信した音声に対応する音声認識結果を音声認識手段から受信しなかった場合には、音声認識手段が受信した音声は映像取得手段で取得された映像に含まれていなかったものとする。したがって、編集手段が、音声認識結果を受信するまでのタイムリミットを設けることにより、映像に対し字幕が遅延することを防ぐことができる。

（４）本発明は、（１）から（３）の字幕生成配信システムについて、前記映像取得手段で取得された映像に音声がなく、前記音声認識手段から受信する前記音声認識結果がない時間において、前記編集手段は、前記ユーザが前記編集画面に入力した文字列を前記字幕として取得することを特徴とする字幕生成配信システムを提案している。

この発明によれば、映像取得手段で取得された映像に音声がなく、音声認識手段から受信する音声認識結果がない時間において、編集手段は、ユーザが編集画面に入力した文字列を字幕として取得する。したがって、ユーザが編集画面に入力した文字列を字幕とすることにより、ユーザは映像に含まれる音声以外の内容を字幕に追加することができる。

（５）本発明は、（１）から（４）の字幕生成配信システムについて、前記第１の所定時間は、ユーザにより任意に設定可能であることを特徴とする字幕生成配信システムを提案している。

この発明によれば、第１の所定時間は、ユーザにより任意に設定可能である。したがって、映像が取得されてから視聴端末に配信されるまでの映像の遅延時間をユーザが任意に設定することができる。

（６）本発明は、字幕付き映像を生成し、視聴端末に配信する字幕生成配信システムにおける字幕生成配信方法であって、音声を含む映像を取得する第１のステップ（例えば、図６のステップＳ１）と、前記第１のステップで取得された映像を、第１の所定時間遅延させる第２のステップ（例えば、図６のステップＳ２、Ｓ３）と、前記第１のステップで取得された映像に含まれる音声に対する音声認識結果を取得する第３のステップ（例えば、図６のステップＳ４、Ｓ５）と、前記第３のステップで取得された音声認識結果をユーザが編集するための編集画面を表示し、前記編集画面で編集された結果を字幕として取得する第４のステップ（例えば、図６のステップＳ６、Ｓ７）と、前記第１の所定時間と、前記第３のステップおよび前記第４のステップで要した時間と、に応じて決定される時間、前記第４のステップで取得された字幕を遅延させる第５のステップ（例えば、図６のステップＳ８）と、前記第２のステップで遅延させた映像と、前記第５のステップで遅延させた字幕とを配信する第６のステップ（例えば、図６のステップＳ９）と、を含むことを特徴とする字幕生成配信方法を提案している。

この発明によれば、まず、第１のステップにおいて、音声を含む映像を取得する。次に、第２のステップにおいて、第１のステップで取得された映像を、第１の所定時間遅延させる。次に、第３のステップにおいて、第１のステップで取得された映像に含まれる音声に対する音声認識結果を取得する。次に、第４のステップにおいて、第３のステップで取得された音声認識結果をユーザが編集するための編集画面を表示し編集画面で編集された結果を字幕として取得する。次に、第５のステップにおいて、第１の所定時間と、第３のステップおよび第４のステップで要した時間と、に応じて決定される時間、第４のステップで取得された字幕を遅延させる。次に、第６のステップにおいて、第４のステップで遅延させた映像と、第５のステップで遅延させた字幕とを配信する。したがって、音声認識処理を利用して字幕を生成しながら、映像の配信を所定時間遅延させ、映像の配信を遅延させる所定時間と音声認識手段および編集手段の処理で要した時間とに応じて決定される時間字幕を遅延させることにより、視聴端末で映像と字幕とが同期して表示されるように、すなわち、生成された字幕の表示タイミングと映像の表示タイミングとが一致するように、生成された字幕と映像とを視聴端末に配信することができる。また、音声認識処理により得られた音声認識結果をユーザが編集して字幕を生成することにより、特別な技術を持たず、かつ少ない人数によって容易に字幕を生成することができる。

（７）本発明は、字幕付き映像を生成し、視聴端末に配信する字幕生成配信システムにおける字幕生成配信方法をコンピュータに実行させるためのプログラムであって、音声を含む映像を取得する第１のステップ（例えば、図６のステップＳ１）と、前記第１のステップで取得された映像を、第１の所定時間遅延させる第２のステップ（例えば、図６のステップＳ２、Ｓ３）と、前記第１のステップで取得された映像に含まれる音声に対する音声認識結果を取得する第３のステップ（例えば、図６のステップＳ４、Ｓ５）と、前記第３のステップで取得された音声認識結果をユーザが編集するための編集画面を表示し、前記編集画面で編集された結果を字幕として取得する第４のステップ（例えば、図６のステップＳ６、Ｓ７）と、前記第１の所定時間と、前記第３のステップおよび前記第４のステップで要した時間と、に応じて決定される時間、前記第４のステップで取得された字幕を遅延させる第５のステップ（例えば、図６のステップＳ８）と、前記第２のステップで遅延させた映像と、前記第５のステップで遅延させた字幕とを配信する第６のステップ（例えば、図６のステップＳ９）と、をコンピュータに実行させるプログラムを提案している。

本発明によれば、音声認識処理を利用して字幕を生成し、映像の配信を所定時間遅延させることにより、映像と字幕とが同期して表示されるように、すなわち、生成された字幕の表示タイミングと映像の表示タイミングとが一致するように、字幕と映像とを視聴端末に配信することができる。

本発明の実施形態に係る字幕生成配信システムの構成図である。本発明の実施形態に係る編集画面の一例を示す図である。本発明の実施形態に係る映像が操作装置で撮影されてから視聴端末に字幕が表示されるまでの各処理が要する時間の一覧を示す。本発明の実施形態に係る映像が撮影装置で撮影されてから視聴端末に映像が表示されるまでの各処理が要する時間の一覧を示す。本発明の実施形態に係るシステム遅延時間における字幕生成処理のタイムチャート例を示す図である。本発明の実施形態に係る字幕生成配信システムの処理フローである。

以下、図面を用いて、本発明の実施形態について詳細に説明する。なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組み合わせを含むさまざまなバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。

＜字幕生成配信システムの構成＞
図１は、本発明の実施形態に係る字幕生成配信システム１の構成図である。字幕生成配信システム１は、音声を含む映像に対する字幕を自動的に生成し、視聴端末において映像と字幕とが同期して表示されるように、すなわち、字幕の表示タイミングと映像の表示タイミングとが一致するように、生成された字幕と映像とを視聴端末に配信するシステムである。図１に示すように、字幕生成配信システム１は、撮影装置１０、編集端末２０、音声認識サーバ３０、配信サーバ４０、および視聴端末５０を備える。撮影装置１０と編集端末２０、編集端末２０と音声認識サーバ３０、編集端末２０と配信サーバ４０、および配信サーバ４０と視聴端末５０とは、それぞれ通信ネットワークを介して接続されている。

撮影装置１０は、撮影および結像に必要なＣＣＤやＣＭＯＳ等のセンサーやカメラレンズ、音声の録音に必要なマイク等の部材によって構成され、これらの部材によって映像の撮影を行なう。なお、以下、単に映像といった場合には、音声を含むものとする。撮影装置１０は、撮影した映像を電気信号、無線信号または光信号に変換し、編集端末２０に送信する。なお、撮影した映像を磁気ディスク、磁気テープ、光ディスクおよび不揮発性メモリ等の記憶媒体に記録することもできる。

編集端末２０は、撮影装置１０から受信した映像に含まれる音声の字幕を生成する端末であって、字幕の編集者が使用し、通信部２１、編集部２２、字幕バッファ２３、および映像記憶部２４を備える。

通信部２１は、撮影装置１０から映像を受信する。通信部２１は、受信した映像の音声を後述する音声認識サーバ３０に送信する。そして、通信部２１は、音声認識サーバ３０から音声認識結果を取得し、編集部２２に送信する。また、通信部２１は、受信した映像を映像記憶部２４に送信するとともに、配信サーバ４０の映像バッファ４１に送信する。

編集部２２は、通信部２１を介して音声認識サーバ３０から受信した音声認識結果を、液晶ディスプレイ等の表示部（図示せず）に表示させる。なお、音声認識結果は、文字列である。編集部２２は、具体的には、音声認識結果を後述する図２に例示する編集画面１００に表示させる。編集者は、編集画面１００に表示された音声認識結果の文字列を、キーボード等の入力部（図示せず）を介して編集し、字幕とする文字列を生成する。そして、編集部２２は、編集画面１００で編集者により編集された文字列を字幕として確定する編集者操作を、入力部を介して受け付けると、編集画面１００に表示されている文字列を字幕として取得する。編集画面１００に表示された音声認識結果の文字列を、編集者が入力部を介して編集することにより、音声認識サーバ３０の音声認識の誤りを修正することができる。なお、編集画面１００に表示された音声認識結果の文字列を編集者が編集することなく、そのまま字幕とすることもできる。さらに、編集画面１００に入力部を介して編集者が入力した文字列を字幕とすることもできる。そして、編集部２２は、編集画面１００から取得した字幕を字幕バッファ２３に送信する。

図２は、本発明の実施形態に係る編集画面１００の一例を示す図である。図２に示すように、編集画面１００は、字幕表示領域１０１、編集領域１０２、編集待ち領域１０３、編集残り時間１０４、および字幕確定ボタン１０５を含んでいる。字幕表示領域１０１は、字幕として確定された文字列を表示する。編集領域１０２は、編集者が編集を行っている音声認識結果の文字列を表示する。なお、図に示すように、編集領域１０２は、編集領域１０２に表示された文字列の発話が完了しているか否かの表示も行う。編集待ち領域１０３は、編集領域１０２に編集中の文字列が表示されている時に、音声認識サーバ３０から受信した音声認識結果の文字列を表示する。編集待ち領域１０３に表示されている文字列は、編集領域１０２の文字列が字幕として確定され、字幕表示領域１０１に移ると、編集領域１０２に移る。

編集残り時間１０４は、編集領域１０２に表示されている文字列を編集できる残り時間を示している。字幕確定ボタン１０５は、編集領域１０２に表示されている文字列の編集が終わった際に、編集者により押下される。字幕確定ボタン１０５が押下されると、編集領域１０２に表示されていた文字列が字幕として確定され、字幕表示領域１０１に移る。なお、編集者により字幕確定ボタン１０５が押下されなくても、編集残り時間１０４が０（ゼロ）になると、自動的に、編集領域１０２に表示されている文字列は字幕として確定される。

図２の字幕表示領域１０１において、文字列の前に付されている［ＮＧ］は、字幕確定ボタン１０５が押下されずに、編集残り時間１０４が０（ゼロ）になったことにより、自動的に字幕として確定された文字列であることを示す。一方、文字列の前に付されている［ＯＫ］は、編集者により字幕確定ボタン１０５が押下されて、字幕として確定した文字列であることを示す。それにより、字幕の視聴者に編集が不完全な文字列か否かを知らせることができる。

図１に戻って、編集部２２は、音声認識サーバ３０から受信した音声認識結果を編集画面１００に表示する際に、後述する映像記憶部２４に記憶されている映像を表示部に表示するようにしてもよい。この場合、編集画面１００の編集領域１０２に表示される文字列と一致する音声部分の映像を表示部に表示する。それにより、音声認識サーバ３０の音声認識の誤りの修正や、不要な文字を削除するといった、音声認識結果の文字列の編集をしやすくすることができる。

映像記憶部２４は、通信部２１を介して受信した映像を記憶する。記憶された映像は、編集部２２からの要求に応じ、表示部に表示する。

字幕バッファ２３は、編集部２２から送信された字幕を一時的に記憶（バッファリング）し、配信サーバ４０の配信部４２に送信する。発話毎の字幕の編集にかかる時間の差を、字幕バッファ２３で吸収することにより、視聴端末５０にて、映像の表示タイミングと字幕の表示タイミングとを一致させることができる。字幕バッファ２３に字幕をバッファリングする時間については後述する。

音声認識サーバ３０は、編集端末２０の通信部２１から受信した音声を音声認識する。音声認識サーバ３０は、無音区間に挟まれた区間の音声を音声認識し、音声認識結果の文字列を取得する。音声認識の方法は、例えば、音響的な特徴を持つ音響（音素）モデルと言語的な特徴を持つ言語モデルを利用する方法を用いる。音響モデルとしては隠れマルコフモデル（ＨＭＭ）が広く利用されており、ＨＭＭを作成するツールとしてＨＴＫが有名である。また、ＨＭＭを用いるオープンソースの大語彙連続音声認識エンジンとしてＪｕｌｉｕｓが知られている。なお、音声認識の方法は、これに限定されることなく、従来周知な方法を用いるようにしてもよい。

配信サーバ４０は、撮影装置１０で撮影された映像と、編集端末２０で生成された字幕とを視聴端末５０に送信するサーバであって、映像バッファ４１、および配信部４２を備える。

映像バッファ４１は、編集端末２０の通信部２１を介して撮影装置１０から受信した映像を、予め設定された映像遅延時間の間保持し、後述する配信部４２に送信する。映像遅延時間は、映像データの長さや内容等により、編集者が任意に設定することができる。映像バッファ４１が映像遅延時間の間、映像を保持し、映像の配信を遅延させることにより、視聴端末５０にて、映像の表示タイミングと字幕の表示タイミングとを一致させることができる。

配信部４２は、映像バッファ４１から送信された映像と、編集端末２０の字幕バッファ２３から受信した字幕と、を視聴端末５０に送信する。

視聴端末５０は、受信した映像を表示部（図示せず）に表示する。また、視聴端末５０は、受信した字幕を予め設定された字幕バッファ時間遅延させて表示部に表示する。受信した字幕を予め設定された字幕バッファ時間遅延させることにより、字幕が途切れ途切れに表示されるのを防ぐことができる。字幕バッファ時間は、予めデフォルト値を編集者が設定するが、ネットワーク環境に依存するので、視聴端末５０の視聴者が調整するのが望ましい。

本発明の実施形態における映像が撮影装置１０で撮影されてから視聴端末５０に映像が表示されるまでの時間、および映像が撮影装置１０で撮影されてから視聴端末５０に字幕が表示されるまでの時間の調整について、図３および図４を用いて説明する。視聴端末５０において、映像の表示タイミングと字幕の表示タイミングとが一致するためには、映像が撮影装置１０で撮影されてから視聴端末５０に映像が表示されるまでの時間、および映像が撮影装置１０で撮影されてから視聴端末５０に字幕が表示されるまでの時間を調節して、同じにしなければならない。

まず、図３に、映像が撮影装置１０で撮影されてから視聴端末５０に字幕が表示されるまでの各処理が要する時間を示す。図３に示すように、撮影装置１０において映像の収録に要する時間（字幕Ｔ１）は、ほぼ０（ゼロ）である。次に、ネットワークを介したデータの送受信、具体的には、撮影装置１０から編集端末２０への映像の送受信に要する時間（字幕Ｔ２）、編集端末２０から音声認識サーバ３０への音声の送受信に要する時間（字幕Ｔ３）、音声認識サーバ３０から編集端末２０への音声認識結果の送受信に要する時間（字幕Ｔ５）、編集端末２０から配信サーバ４０への字幕の送受信に要する時間（字幕Ｔ８）、および配信サーバ４０から視聴端末５０への字幕の送受信に要する時間（字幕Ｔ９）は、それぞれのネットワーク構成に依存する。

次に、音声認識サーバ３０における音声認識に要する時間（字幕Ｔ４）は、音声認識サーバ３０の性能や音声認識処理の設定に依存する。次に、編集端末２０における編集者による編集作業に要する時間（字幕Ｔ６）は、通常は発話時間以上であり、編集者に依存する。次に、編集端末２０において字幕をバッファリングする時間（字幕Ｔ７）、および視聴端末５０において字幕をバッファリングする時間（字幕Ｔ１０）は、編集者または視聴者により任意に設定される。次に、視聴端末５０にて字幕の表示に要する時間（字幕Ｔ１１）は、ほぼ０（ゼロ）である。

以上より、映像が撮影装置１０で撮影されてから視聴端末５０に字幕が表示されるまでの時間（以下、字幕所要時間という）は、以下の（１）式に示すように、要する時間がほぼ０である字幕Ｔ１および字幕Ｔ１１を除いた、字幕Ｔ２から字幕Ｔ１０までを足し合わせた時間となる。

次に、図４に、映像が撮影装置１０で撮影されてから視聴端末５０に映像が表示されるまでの各処理が要する時間を示す。図４に示すように、撮影装置１０における映像の収録に要する時間（映像Ｔ１）は、ほぼ０である。次にネットワークを介したデータの送受信、具体的には、撮影装置１０から編集端末２０への映像の送受信に要する時間（映像Ｔ２）、編集端末２０から配信サーバ４０への映像の送受信に要する時間（映像Ｔ４）、および配信サーバ４０から視聴端末５０への映像の送受信に要する時間（映像Ｔ６）は、それぞれのネットワーク構成に依存する。

次に、編集端末２０の映像記憶部２４への映像の記憶に要する時間（映像Ｔ３）は、０である。編集端末２０の映像記憶部２４への映像の記憶は、視聴端末５０に映像を表示するための処理ではないからである。配信サーバ４０の映像バッファ４１において映像をバッファリングする映像遅延時間（映像Ｔ５）は、ユーザにより任意に設定される。視聴端末５０において映像の表示に要する時間（映像Ｔ７）は、映像を再生するアプリケーションの設定によるが、ほぼ１〜２秒である。

以上より、映像が撮影装置１０で撮影されてから視聴端末５０に映像が表示されるまでの時間（以下、映像所要時間という）は、以下の（２）式に示すように、要する時間がほぼ０である映像Ｔ１および映像Ｔ３を除いた、映像Ｔ２と、映像Ｔ４から映像Ｔ７までを足し合わせた時間となる。

（１）式で表される字幕所要時間と（２）式で表される映像所要時間とが同じになるように、各処理に要する時間を調整する。ところで、同一ネットワーク構成であるので、字幕Ｔ２と映像Ｔ２、字幕Ｔ８と映像Ｔ４、字幕Ｔ９と映像Ｔ６それぞれは、同じであるとみなすことができる。また、映像Ｔ７を２秒とすると、以下の式（３）が成り立つように各処理に要する時間を調整すればよい。なお、視聴端末５０における映像の表示に要する時間（映像Ｔ７）は無視してもよく、その場合、映像Ｔ７は０秒となる。

ここで、字幕生成に関係する処理に要する時間である字幕Ｔ３から字幕Ｔ７までをひとまとまりの固定値とし、システム遅延時間とする。視聴端末５０において字幕をバッファリングする時間である字幕Ｔ１０が予め設定されていて、配信サーバ４０において映像をバッファリングする映像遅延時間（映像Ｔ５）を編集者が決定すると、上述した（３）式からシステム遅延時間を決定することができる。例えば、字幕Ｔ１０のデフォルト値が１０秒であって、映像Ｔ５、すなわち映像遅延時間を編集者が３００秒と設定した場合には、（３）式からシステム遅延時間は２９２秒と決まる。

次に、配信サーバ４０において映像バッファ４１に映像をバッファリングする映像遅延時間（映像Ｔ５）を決定することにより決まるシステム遅延時間について説明する。上述したように、システム遅延時間は、字幕生成に関係する処理に要する時間である字幕Ｔ３から字幕Ｔ７までをひとまとまりとした固定値である。具体的には、編集端末２０の通信部２１が映像を受信してから、編集端末２０の字幕バッファ２３が字幕を送信するまでの時間である。

図５を用いて、システム遅延時間における字幕生成処理について説明する。図５に示すように、システム遅延時間２００は、発話Ａの音声が通信部２１に受信されたタイミングにて開始する。一方、システム遅延時間２００の中には、字幕の編集が完了した後に、編集部２２が形態素解析処理等の内部処理を行う字幕受領時間２０１を要する。そのため、通信部２１が受信した音声から字幕を生成する実質的な時間は、発話Ａの音声が通信部２１に受信された時刻ｔ１から字幕受領時間２０１が開始する時刻ｔ３までとなる。また、編集者が図２で示した編集画面１００に表示された音声認識結果を編集することができるのは、発話Ａの音声認識結果を音声認識サーバ３０から編集部２２が受信した時刻ｔ２以降である。但し、前の音声認識結果の編集中であれば、時刻ｔ２、または、前の音声認識結果の編集が完了した時刻ｔ２´のうち遅い方の時刻以降である。その結果、編集者が図２で示した編集画面１００に表示された音声認識結果を編集することができる編集猶予時間２０２は、時刻ｔ２またはｔ２´から時刻ｔ３までとなる。図５においては、時刻ｔ２よりも時刻ｔ２´の方が遅いので、編集猶予時間２０２は時刻ｔ２´から時刻ｔ３までとなる。

このようにして、予め設定された映像遅延時間から得られた固定値のシステム遅延時間に対し、音声認識に要した時間や前の音声認識結果の編集に要した時間に応じて編集猶予時間２０２を可変することにより、視聴端末５０にて映像の表示タイミングと字幕の表示タイミングとを一致させることができる。

なお、編集猶予時間２０２内に、図２の編集画面１００で編集者により編集された文字列を字幕として確定する字幕確定ボタン１０５が押下されなかった場合、すなわち、図２の字幕確定ボタン１０５が押下されずに、編集猶予時間２０２の残り時間を意味する編集残り時間１０４が０（ゼロ）になった場合には、上述したように、音声認識サーバ３０から受信した音声認識結果の文字列を字幕とすることにより、視聴端末５０にて、映像に対し字幕が遅延しないようにすることができる。

一方、編集猶予時間２０２内に、図２の編集画面１００で字幕確定ボタン１０５が押下された場合には、編集画面１００の編集領域１０２に表示されていた文字列が字幕として確定され、音声認識結果の編集が完了する。この場合、確定された字幕は、字幕バッファ２３に編集猶予時間２０２の残り時間バッファリングされる。それにより、全ての発話における字幕に関係する処理の時間（字幕Ｔ３から字幕Ｔ７）を予め決定されたシステム遅延時間に統一することができる。その結果、視聴端末５０にて、映像に対し字幕が遅延せず、映像の表示タイミングと字幕の表示タイミングとを一致させることが可能となる。

また、字幕確定ボタン１０５が押下された時に、次の発話の音声認識結果を編集部２２から受信している場合（編集待ち領域１０３に次の発話の音声認識結果の文字列が表示されている場合）には、この時から次の発話の編集が可能となり、編集猶予時間２０２が開始する。一方、字幕確定ボタン１０５が押下された時に、次の発話の音声認識結果を編集部２２から受信していない場合（編集待ち領域１０３に次の発話の音声認識結果の文字列が表示されていない場合）には、次の発話の音声認識結果を編集部２２から受信した時に、次の発話の編集が可能となり、この時から編集猶予時間２０２が開始する。

図５に戻って、編集者は、発話Ａの音声を通信部２１が受信してから、音声認識サーバ３０から発話Ａの音声認識結果の受信を待つ時間として認識結果受領時間２０３を設定することができる。認識結果受領時間２０３は、システム遅延時間２００より短く設定される。これにより、認識結果受領時間２０３が経過するまでに、音声認識サーバ３０から発話Ａの音声認識結果を取得できなかった場合には、発話Ａはなかったものとして処理することによって、映像に対し字幕が遅延しないようにすることができる。

さらに、音声と関係なく字幕を追加する場合には、直前の発話の編集猶予時間を音声と関係なく追加する字幕の編集猶予時間とする。なお、直前の発話がない場合には、システム遅延時間から字幕受領時間を引いた時間を編集猶予時間とする。

＜字幕生成配信システムの処理フロー＞
図６は、字幕生成配信システムの処理フローである。

まず、撮影装置１０は、映像を取得し、取得した映像を編集端末２０に送信する（ステップＳ１）。次に、編集端末２０の通信部２１は、撮影装置１０から受信した映像を配信サーバ４０の映像バッファ４１に送信する（ステップＳ２）。次に、配信サーバ４０の映像バッファ４１は、受信した映像を映像遅延時間の経過後、配信部４２に送信する（ステップＳ３）。

また、編集端末２０の通信部２１は、受信した映像に含まれる音声を音声認識サーバ３０に送信する（ステップＳ４）。なお、ステップＳ４は、ステップＳ２より先であっても、ステップＳ２と同時であってもよい。次に、音声認識サーバ３０は、音声を音声認識し、その結果得られた音声認識結果の文字列を編集端末２０に送信する（ステップＳ５）。次に、編集端末２０の編集部２２は、音声認識サーバ３０から受信した音声認識結果の文字列を編集画面に表示する（ステップＳ６）。次に、編集端末２０の編集部２２は、編集画面でユーザによって編集された文字列を字幕として取得する。なお、ユーザによって編集されなくても所定時間経過した音声認識結果の文字列を字幕として取得してもよい（ステップＳ７）。

次に、編集端末２０の字幕バッファ２３は、ステップＳ７で取得した字幕をバッファリングした後、配信サーバ４０の配信部４２に送信する（ステップＳ８）。次に、配信サーバ４０の配信部４２は、映像バッファ４１から受信した映像と、字幕バッファ２３から受信した字幕とを視聴端末５０に送信する。

以上説明したように、本実施形態によれば、音声認識処理を利用して字幕を生成しながら、映像の配信を所定時間遅延させ、映像の配信を遅延させる所定時間と音声認識手段および編集手段の処理で要した時間とに応じて決定される時間字幕を遅延させることにより、視聴端末で映像と字幕とが同期して表示されるように、すなわち、生成された字幕の表示タイミングと映像の表示タイミングとが一致するように、字幕と映像とを視聴端末に配信することができる。

なお、字幕生成配信システムの処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを、字幕生成配信システムを構成する各機器に読み込ませ、実行することによって本発明の字幕生成配信システムを実現することができる。ここでいうコンピュータシステムとは、ＯＳや周辺装置等のハードウェアを含む。

また、「コンピュータシステム」は、ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）システムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。

また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１字幕生成配信システム
１０撮影装置
２０編集端末
２１通信部
２２編集部
２３字幕バッファ
２４映像記憶部
３０音声認識サーバ
４０配信サーバ
４１映像バッファ
４２配信部
５０視聴端末

Claims

字幕付き映像を生成し、視聴端末に配信する字幕生成配信システムであって、
音声を含む映像を取得する映像取得手段と、
前記映像取得手段で取得された映像を、第１の所定時間遅延させる映像バッファと、
前記映像取得手段で取得された映像に含まれる音声に対する音声認識結果を取得する音声認識手段と、
前記音声認識手段で取得された音声認識結果をユーザが編集するための編集画面を表示し、前記編集画面で編集された結果を字幕として取得する編集手段と、
前記第１の所定時間と、前記音声認識手段および前記編集手段の処理で要した時間と、に応じて決定される時間、前記編集手段で取得された字幕を遅延させる字幕バッファと、
前記映像バッファで遅延させた映像と、前記字幕バッファで遅延させた字幕とを配信する配信手段と、
を備えることを特徴とする字幕生成配信システム。
前記映像取得手段で取得された映像を記憶する映像記憶手段を備え、
前記編集手段は、前記音声認識手段で取得された音声認識結果を前記編集画面に表示する際に、前記映像記憶手段に記憶された映像のうち、表示された音声認識結果に対応する音声部分の映像を表示することを特徴とする請求項１に記載の字幕生成配信システム。
前記音声認識手段が前記映像取得手段で取得された映像を受信した時から第２の所定時間経過前までに、前記編集手段が、前記音声認識手段が受信した音声に対応する音声認識結果を前記音声認識手段から受信しなかった場合には、前記音声認識手段が受信した音声は前記映像取得手段で取得された映像に含まれていなかったものとすることを特徴とする請求項１または２に記載の字幕生成配信システム。
前記映像取得手段で取得された映像に音声がなく、前記音声認識手段から受信する前記音声認識結果がない時間において、前記編集手段は、前記ユーザが前記編集画面に入力した文字列を前記字幕として取得することを特徴とする請求項１から３のいずれかに記載の字幕生成配信システム。
前記第１の所定時間は、ユーザにより任意に設定可能であることを特徴とする請求項１から４のいずれかに記載の字幕生成配信システム。
字幕付き映像を生成し、視聴端末に配信する字幕生成配信システムにおける字幕生成配信方法であって、
音声を含む映像を取得する第１のステップと、
前記第１のステップで取得された映像を、第１の所定時間遅延させる第２のステップと、
前記第１のステップで取得された映像に含まれる音声に対する音声認識結果を取得する第３のステップと、
前記第３のステップで取得された音声認識結果をユーザが編集するための編集画面を表示し、前記編集画面で編集された結果を字幕として取得する第４のステップと、
前記第１の所定時間と、前記第３のステップおよび前記第４のステップで要した時間と、に応じて決定される時間、前記第４のステップで取得された字幕を遅延させる第５のステップと、
前記第２のステップで遅延させた映像と、前記第５のステップで遅延させた字幕とを配信する第６のステップと、
を含むことを特徴とする字幕生成配信方法。
字幕付き映像を生成し、視聴端末に配信する字幕生成配信システムにおける字幕生成配信方法をコンピュータに実行させるためのプログラムであって、
音声を含む映像を取得する第１のステップと、
前記第１のステップで取得された映像を、第１の所定時間遅延させる第２のステップと、
前記第１のステップで取得された映像に含まれる音声に対する音声認識結果を取得する第３のステップと、
前記第３のステップで取得された音声認識結果をユーザが編集するための編集画面を表示し、前記編集画面で編集された結果を字幕として取得する第４のステップと、
前記第１の所定時間と、前記第３のステップおよび前記第４のステップで要した時間と、に応じて決定される時間、前記第４のステップで取得された字幕を遅延させる第５のステップと、
前記第２のステップで遅延させた映像と、前記第５のステップで遅延させた字幕とを配信する第６のステップと、
をコンピュータに実行させるプログラム。