JP2012105234A - 字幕生成配信システム、字幕生成配信方法およびプログラム - Google Patents

字幕生成配信システム、字幕生成配信方法およびプログラム Download PDF

Info

Publication number
JP2012105234A
JP2012105234A JP2010254487A JP2010254487A JP2012105234A JP 2012105234 A JP2012105234 A JP 2012105234A JP 2010254487 A JP2010254487 A JP 2010254487A JP 2010254487 A JP2010254487 A JP 2010254487A JP 2012105234 A JP2012105234 A JP 2012105234A
Authority
JP
Japan
Prior art keywords
video
editing
voice recognition
subtitle
acquired
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010254487A
Other languages
English (en)
Inventor
Yasutaka Shinto
安孝 新堂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2010254487A priority Critical patent/JP2012105234A/ja
Publication of JP2012105234A publication Critical patent/JP2012105234A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Studio Circuits (AREA)

Abstract

【課題】映像の字幕を生成し、視聴端末で同期表示するように字幕と映像とを配信すること。
【解決手段】字幕生成配信システムは、音声を含む映像を取得する撮影装置10と、撮影装置10で取得された映像を所定時間遅延させる映像バッファ41と、編集端末20から受信した字幕情報とを視聴端末50に配信する配信部42を含む配信サーバ40と、撮影装置10で取得された映像に含まれる音声に対する音声認識結果を取得する音声認識サーバ30と、音声認識サーバ30で取得された音声認識結果をユーザが編集するための編集画面を表示し、編集画面から字幕を取得する編集部22と、映像バッファ41で映像を遅延させた所定時間と、音声認識サーバ30および編集部22での処理に要した時間とに応じて決定される時間、字幕を遅延させる字幕バッファ23とを含む編集端末20と、を備える。
【選択図】図1

Description

本発明は、字幕付き映像を生成し、視聴端末に配信する字幕生成配信システム、字幕生成配信方法およびプログラムに関し、特に、映像に含まれる音声に対応する字幕を生成し、視聴端末で同期表示されるように生成された字幕と映像とを配信する字幕生成配信システム、字幕生成配信方法およびプログラムに関する。
従来、字幕付き映像生成配信システムは、リアルタイムの字幕配信を目的とし、字幕が生成でき次第配信していた。このため、映像に対して字幕が数秒〜数十秒遅れ、映像と字幕との表示タイミングのズレが生じていた。さらに、この表示タイミングのズレの大きさは一定でないため、視聴者の字幕による映像の理解を阻害してしまうという問題点があった。
そこで、特許文献1には、音声認識方式にて字幕を生成する際に、音声認識結果の出力タイミングに合わせて音声を呈示することにより、音声認識結果の修正をスムーズにし、映像と字幕との表示タイミングのズレを少なくする装置が提案されている。
また、特許文献2には、予め用意された原稿を読み上げた音声に対応した字幕を生成する際に、音声認識処理を用いて、原稿における発話の位置を判断し、発話が開始された際に、原稿における発話に対応した部分を字幕として表示することにより、映像と字幕との表示タイミングのズレを少なくする装置が提案されている。
さらに、特許文献3には、テレビジョン放送の放送波に含まれる映像と音声とを所定時間遅延させ、映像または音声から抽出された文字情報と、放送波に含まれる字幕との相関に基づいて、字幕情報を表示するタイミングが決定することにより、映像と音声とに字幕を同期して表示する装置が提案されている。
特開2001−142482号公報 特開2009−182859号公報 特開2001−88990号公報
しかしながら、特許文献1および2に開示されている装置では、映像と字幕との表示タイミングのズレを少なくすることはできるが、映像と字幕との表示タイミングを一致させること、すなわち映像と字幕とを同期して表示することはできないという問題点があった。また、特許文献3に開示されている装置では、字幕との映像と字幕とを同期して表示することはできるが、専用の受信装置が必要であるという問題点があった。
また、従来のリアルタイムの字幕配信において、特許文献1に開示されているように音声を音声認識処理し、得られた音声認識結果を修正者が修正することにより字幕を生成する音声認識方式や、音声を入力オペレータが聞きながら同時に打ち込みを行うことにより字幕を生成するキーボード入力方式により字幕は生成されていた。そのため、字幕を生成するためには特別な技術を持つ人材を多数必要とし、容易に字幕生成および配信を行うことができないという問題点があった。
そこで、本発明は、上述の課題に鑑みてなされたものであり、音声認識処理を利用して字幕を生成し、映像の配信を所定時間遅延させることにより、映像と字幕とが同期して表示されるように、すなわち、生成された字幕の表示タイミングと映像の表示タイミングとが一致するように、字幕と映像とを視聴端末に配信する字幕生成配信システム、字幕生成配信方法およびプログラムを提供することを目的とする。
本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。
(1) 本発明は、字幕付き映像を生成し、視聴端末に配信する字幕生成配信システムであって、音声を含む映像を取得する映像取得手段(例えば、図1の撮影装置10)と、前記映像取得手段で取得された映像を、第1の所定時間遅延させる映像バッファ(例えば、図1の映像バッファ41)と、前記映像取得手段で取得された映像に含まれる音声に対する音声認識結果を取得する音声認識手段(例えば、図1の音声認識サーバ30)と、前記音声認識手段で取得された音声認識結果をユーザが編集するための編集画面を表示し、前記編集画面で編集された結果を字幕として取得する編集手段(例えば、図1の編集部22)と、前記第1の所定時間と、前記音声認識手段および前記編集手段の処理で要した時間と、に応じて決定される時間、前記編集手段で取得された字幕を遅延させる字幕バッファ(例えば、図1の字幕バッファ23)と、前記映像バッファで遅延させた映像と、前記字幕バッファで遅延させた字幕とを配信する配信手段(例えば、図1の配信部42)と、を備えることを特徴とする字幕生成配信システムを提案している。
この発明によれば、映像取得手段は、音声を含む映像を取得する。映像バッファは、映像取得手段で取得された映像を、第1の所定時間遅延させる。音声認識手段は、映像取得手段で取得された映像に含まれる音声に対する音声認識結果を取得する。編集手段は、音声認識手段で取得された音声認識結果をユーザが編集するための編集画面を表示し、編集画面で編集された結果を字幕として取得する。字幕バッファは、第1の所定時間と、音声認識手段および編集手段の処理で要した時間と、に応じて決定される時間、編集手段で取得された字幕を遅延させる。配信手段は、映像バッファで遅延させた映像と、字幕バッファで遅延させた字幕とを配信する。したがって、音声認識処理を利用して字幕を生成しながら、映像の配信を所定時間遅延させ、映像の配信を遅延させる所定時間と音声認識手段および編集手段の処理で要した時間とに応じて決定される時間字幕を遅延させることにより、視聴端末で映像と字幕とが同期して表示されるように、すなわち、生成された字幕の表示タイミングと映像の表示タイミングとが一致するように、生成された字幕と映像とを視聴端末に配信することができる。また、音声認識処理により得られた音声認識結果をユーザが編集して字幕を生成することにより、特別な技術を持たず、かつ少ない人数によって容易に字幕を生成することができる。
(2) 本発明は、(1)の字幕生成配信システムについて、前記映像取得手段で取得された映像を記憶する映像記憶手段(例えば、図1の映像記憶部24)を備え、前記編集手段は、前記音声認識手段で取得された音声認識結果を前記編集画面に表示する際に、前記映像記憶手段に記憶された映像のうち、表示された音声認識結果に対応する音声部分の映像を表示することを特徴とする字幕生成配信システムを提案している。
この発明によれば、映像記憶手段は、映像取得手段で取得された映像を記憶する。編集手段は、音声認識手段で取得された音声認識結果を編集画面に表示する際に、映像記憶手段に記憶された映像のうち、表示された音声認識結果に対応する音声部分の映像を表示する。したがって、字幕を編集する際に、ユーザに字幕に対応する映像および音声を提供することにより、ユーザの字幕編集を支援することができる。
(3) 本発明は、(1)または(2)の字幕生成配信システムについて、前記音声認識手段が前記映像取得手段で取得された映像の音声を受信した時から第2の所定時間経過前までに、前記編集手段が、前記音声認識手段が受信した音声に対応する音声認識結果を前記音声認識手段から受信しなかった場合には、前記音声認識手段が受信した音声は前記映像取得手段で取得された映像に含まれていなかったものとすることを特徴とする字幕生成配信システムを提案している。
この発明によれば、音声認識手段が映像取得手段で取得された映像を受信した時から第2の所定時間経過前までに、編集手段が、音声認識手段が受信した音声に対応する音声認識結果を音声認識手段から受信しなかった場合には、音声認識手段が受信した音声は映像取得手段で取得された映像に含まれていなかったものとする。したがって、編集手段が、音声認識結果を受信するまでのタイムリミットを設けることにより、映像に対し字幕が遅延することを防ぐことができる。
(4) 本発明は、(1)から(3)の字幕生成配信システムについて、前記映像取得手段で取得された映像に音声がなく、前記音声認識手段から受信する前記音声認識結果がない時間において、前記編集手段は、前記ユーザが前記編集画面に入力した文字列を前記字幕として取得することを特徴とする字幕生成配信システムを提案している。
この発明によれば、映像取得手段で取得された映像に音声がなく、音声認識手段から受信する音声認識結果がない時間において、編集手段は、ユーザが編集画面に入力した文字列を字幕として取得する。したがって、ユーザが編集画面に入力した文字列を字幕とすることにより、ユーザは映像に含まれる音声以外の内容を字幕に追加することができる。
(5) 本発明は、(1)から(4)の字幕生成配信システムについて、前記第1の所定時間は、ユーザにより任意に設定可能であることを特徴とする字幕生成配信システムを提案している。
この発明によれば、第1の所定時間は、ユーザにより任意に設定可能である。したがって、映像が取得されてから視聴端末に配信されるまでの映像の遅延時間をユーザが任意に設定することができる。
(6) 本発明は、字幕付き映像を生成し、視聴端末に配信する字幕生成配信システムにおける字幕生成配信方法であって、音声を含む映像を取得する第1のステップ(例えば、図6のステップS1)と、前記第1のステップで取得された映像を、第1の所定時間遅延させる第2のステップ(例えば、図6のステップS2、S3)と、前記第1のステップで取得された映像に含まれる音声に対する音声認識結果を取得する第3のステップ(例えば、図6のステップS4、S5)と、前記第3のステップで取得された音声認識結果をユーザが編集するための編集画面を表示し、前記編集画面で編集された結果を字幕として取得する第4のステップ(例えば、図6のステップS6、S7)と、前記第1の所定時間と、前記第3のステップおよび前記第4のステップで要した時間と、に応じて決定される時間、前記第4のステップで取得された字幕を遅延させる第5のステップ(例えば、図6のステップS8)と、前記第2のステップで遅延させた映像と、前記第5のステップで遅延させた字幕とを配信する第6のステップ(例えば、図6のステップS9)と、を含むことを特徴とする字幕生成配信方法を提案している。
この発明によれば、まず、第1のステップにおいて、音声を含む映像を取得する。次に、第2のステップにおいて、第1のステップで取得された映像を、第1の所定時間遅延させる。次に、第3のステップにおいて、第1のステップで取得された映像に含まれる音声に対する音声認識結果を取得する。次に、第4のステップにおいて、第3のステップで取得された音声認識結果をユーザが編集するための編集画面を表示し編集画面で編集された結果を字幕として取得する。次に、第5のステップにおいて、第1の所定時間と、第3のステップおよび第4のステップで要した時間と、に応じて決定される時間、第4のステップで取得された字幕を遅延させる。次に、第6のステップにおいて、第4のステップで遅延させた映像と、第5のステップで遅延させた字幕とを配信する。したがって、音声認識処理を利用して字幕を生成しながら、映像の配信を所定時間遅延させ、映像の配信を遅延させる所定時間と音声認識手段および編集手段の処理で要した時間とに応じて決定される時間字幕を遅延させることにより、視聴端末で映像と字幕とが同期して表示されるように、すなわち、生成された字幕の表示タイミングと映像の表示タイミングとが一致するように、生成された字幕と映像とを視聴端末に配信することができる。また、音声認識処理により得られた音声認識結果をユーザが編集して字幕を生成することにより、特別な技術を持たず、かつ少ない人数によって容易に字幕を生成することができる。
(7) 本発明は、字幕付き映像を生成し、視聴端末に配信する字幕生成配信システムにおける字幕生成配信方法をコンピュータに実行させるためのプログラムであって、音声を含む映像を取得する第1のステップ(例えば、図6のステップS1)と、前記第1のステップで取得された映像を、第1の所定時間遅延させる第2のステップ(例えば、図6のステップS2、S3)と、前記第1のステップで取得された映像に含まれる音声に対する音声認識結果を取得する第3のステップ(例えば、図6のステップS4、S5)と、前記第3のステップで取得された音声認識結果をユーザが編集するための編集画面を表示し、前記編集画面で編集された結果を字幕として取得する第4のステップ(例えば、図6のステップS6、S7)と、前記第1の所定時間と、前記第3のステップおよび前記第4のステップで要した時間と、に応じて決定される時間、前記第4のステップで取得された字幕を遅延させる第5のステップ(例えば、図6のステップS8)と、前記第2のステップで遅延させた映像と、前記第5のステップで遅延させた字幕とを配信する第6のステップ(例えば、図6のステップS9)と、をコンピュータに実行させるプログラムを提案している。
この発明によれば、まず、第1のステップにおいて、音声を含む映像を取得する。次に、第2のステップにおいて、第1のステップで取得された映像を、第1の所定時間遅延させる。次に、第3のステップにおいて、第1のステップで取得された映像に含まれる音声に対する音声認識結果を取得する。次に、第4のステップにおいて、第3のステップで取得された音声認識結果をユーザが編集するための編集画面を表示し編集画面で編集された結果を字幕として取得する。次に、第5のステップにおいて、第1の所定時間と、第3のステップおよび第4のステップで要した時間と、に応じて決定される時間、第4のステップで取得された字幕を遅延させる。次に、第6のステップにおいて、第4のステップで遅延させた映像と、第5のステップで遅延させた字幕とを配信する。したがって、音声認識処理を利用して字幕を生成しながら、映像の配信を所定時間遅延させ、映像の配信を遅延させる所定時間と音声認識手段および編集手段の処理で要した時間とに応じて決定される時間字幕を遅延させることにより、視聴端末で映像と字幕とが同期して表示されるように、すなわち、生成された字幕の表示タイミングと映像の表示タイミングとが一致するように、生成された字幕と映像とを視聴端末に配信することができる。また、音声認識処理により得られた音声認識結果をユーザが編集して字幕を生成することにより、特別な技術を持たず、かつ少ない人数によって容易に字幕を生成することができる。
本発明によれば、音声認識処理を利用して字幕を生成し、映像の配信を所定時間遅延させることにより、映像と字幕とが同期して表示されるように、すなわち、生成された字幕の表示タイミングと映像の表示タイミングとが一致するように、字幕と映像とを視聴端末に配信することができる。
本発明の実施形態に係る字幕生成配信システムの構成図である。 本発明の実施形態に係る編集画面の一例を示す図である。 本発明の実施形態に係る映像が操作装置で撮影されてから視聴端末に字幕が表示されるまでの各処理が要する時間の一覧を示す。 本発明の実施形態に係る映像が撮影装置で撮影されてから視聴端末に映像が表示されるまでの各処理が要する時間の一覧を示す。 本発明の実施形態に係るシステム遅延時間における字幕生成処理のタイムチャート例を示す図である。 本発明の実施形態に係る字幕生成配信システムの処理フローである。
以下、図面を用いて、本発明の実施形態について詳細に説明する。なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組み合わせを含むさまざまなバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
<字幕生成配信システムの構成>
図1は、本発明の実施形態に係る字幕生成配信システム1の構成図である。字幕生成配信システム1は、音声を含む映像に対する字幕を自動的に生成し、視聴端末において映像と字幕とが同期して表示されるように、すなわち、字幕の表示タイミングと映像の表示タイミングとが一致するように、生成された字幕と映像とを視聴端末に配信するシステムである。図1に示すように、字幕生成配信システム1は、撮影装置10、編集端末20、音声認識サーバ30、配信サーバ40、および視聴端末50を備える。撮影装置10と編集端末20、編集端末20と音声認識サーバ30、編集端末20と配信サーバ40、および配信サーバ40と視聴端末50とは、それぞれ通信ネットワークを介して接続されている。
撮影装置10は、撮影および結像に必要なCCDやCMOS等のセンサーやカメラレンズ、音声の録音に必要なマイク等の部材によって構成され、これらの部材によって映像の撮影を行なう。なお、以下、単に映像といった場合には、音声を含むものとする。撮影装置10は、撮影した映像を電気信号、無線信号または光信号に変換し、編集端末20に送信する。なお、撮影した映像を磁気ディスク、磁気テープ、光ディスクおよび不揮発性メモリ等の記憶媒体に記録することもできる。
編集端末20は、撮影装置10から受信した映像に含まれる音声の字幕を生成する端末であって、字幕の編集者が使用し、通信部21、編集部22、字幕バッファ23、および映像記憶部24を備える。
通信部21は、撮影装置10から映像を受信する。通信部21は、受信した映像の音声を後述する音声認識サーバ30に送信する。そして、通信部21は、音声認識サーバ30から音声認識結果を取得し、編集部22に送信する。また、通信部21は、受信した映像を映像記憶部24に送信するとともに、配信サーバ40の映像バッファ41に送信する。
編集部22は、通信部21を介して音声認識サーバ30から受信した音声認識結果を、液晶ディスプレイ等の表示部(図示せず)に表示させる。なお、音声認識結果は、文字列である。編集部22は、具体的には、音声認識結果を後述する図2に例示する編集画面100に表示させる。編集者は、編集画面100に表示された音声認識結果の文字列を、キーボード等の入力部(図示せず)を介して編集し、字幕とする文字列を生成する。そして、編集部22は、編集画面100で編集者により編集された文字列を字幕として確定する編集者操作を、入力部を介して受け付けると、編集画面100に表示されている文字列を字幕として取得する。編集画面100に表示された音声認識結果の文字列を、編集者が入力部を介して編集することにより、音声認識サーバ30の音声認識の誤りを修正することができる。なお、編集画面100に表示された音声認識結果の文字列を編集者が編集することなく、そのまま字幕とすることもできる。さらに、編集画面100に入力部を介して編集者が入力した文字列を字幕とすることもできる。そして、編集部22は、編集画面100から取得した字幕を字幕バッファ23に送信する。
図2は、本発明の実施形態に係る編集画面100の一例を示す図である。図2に示すように、編集画面100は、字幕表示領域101、編集領域102、編集待ち領域103、編集残り時間104、および字幕確定ボタン105を含んでいる。字幕表示領域101は、字幕として確定された文字列を表示する。編集領域102は、編集者が編集を行っている音声認識結果の文字列を表示する。なお、図に示すように、編集領域102は、編集領域102に表示された文字列の発話が完了しているか否かの表示も行う。編集待ち領域103は、編集領域102に編集中の文字列が表示されている時に、音声認識サーバ30から受信した音声認識結果の文字列を表示する。編集待ち領域103に表示されている文字列は、編集領域102の文字列が字幕として確定され、字幕表示領域101に移ると、編集領域102に移る。
編集残り時間104は、編集領域102に表示されている文字列を編集できる残り時間を示している。字幕確定ボタン105は、編集領域102に表示されている文字列の編集が終わった際に、編集者により押下される。字幕確定ボタン105が押下されると、編集領域102に表示されていた文字列が字幕として確定され、字幕表示領域101に移る。なお、編集者により字幕確定ボタン105が押下されなくても、編集残り時間104が0(ゼロ)になると、自動的に、編集領域102に表示されている文字列は字幕として確定される。
図2の字幕表示領域101において、文字列の前に付されている[NG]は、字幕確定ボタン105が押下されずに、編集残り時間104が0(ゼロ)になったことにより、自動的に字幕として確定された文字列であることを示す。一方、文字列の前に付されている[OK]は、編集者により字幕確定ボタン105が押下されて、字幕として確定した文字列であることを示す。それにより、字幕の視聴者に編集が不完全な文字列か否かを知らせることができる。
図1に戻って、編集部22は、音声認識サーバ30から受信した音声認識結果を編集画面100に表示する際に、後述する映像記憶部24に記憶されている映像を表示部に表示するようにしてもよい。この場合、編集画面100の編集領域102に表示される文字列と一致する音声部分の映像を表示部に表示する。それにより、音声認識サーバ30の音声認識の誤りの修正や、不要な文字を削除するといった、音声認識結果の文字列の編集をしやすくすることができる。
映像記憶部24は、通信部21を介して受信した映像を記憶する。記憶された映像は、編集部22からの要求に応じ、表示部に表示する。
字幕バッファ23は、編集部22から送信された字幕を一時的に記憶(バッファリング)し、配信サーバ40の配信部42に送信する。発話毎の字幕の編集にかかる時間の差を、字幕バッファ23で吸収することにより、視聴端末50にて、映像の表示タイミングと字幕の表示タイミングとを一致させることができる。字幕バッファ23に字幕をバッファリングする時間については後述する。
音声認識サーバ30は、編集端末20の通信部21から受信した音声を音声認識する。音声認識サーバ30は、無音区間に挟まれた区間の音声を音声認識し、音声認識結果の文字列を取得する。音声認識の方法は、例えば、音響的な特徴を持つ音響(音素)モデルと言語的な特徴を持つ言語モデルを利用する方法を用いる。音響モデルとしては隠れマルコフモデル(HMM)が広く利用されており、HMMを作成するツールとしてHTKが有名である。また、HMMを用いるオープンソースの大語彙連続音声認識エンジンとしてJuliusが知られている。なお、音声認識の方法は、これに限定されることなく、従来周知な方法を用いるようにしてもよい。
配信サーバ40は、撮影装置10で撮影された映像と、編集端末20で生成された字幕とを視聴端末50に送信するサーバであって、映像バッファ41、および配信部42を備える。
映像バッファ41は、編集端末20の通信部21を介して撮影装置10から受信した映像を、予め設定された映像遅延時間の間保持し、後述する配信部42に送信する。映像遅延時間は、映像データの長さや内容等により、編集者が任意に設定することができる。映像バッファ41が映像遅延時間の間、映像を保持し、映像の配信を遅延させることにより、視聴端末50にて、映像の表示タイミングと字幕の表示タイミングとを一致させることができる。
配信部42は、映像バッファ41から送信された映像と、編集端末20の字幕バッファ23から受信した字幕と、を視聴端末50に送信する。
視聴端末50は、受信した映像を表示部(図示せず)に表示する。また、視聴端末50は、受信した字幕を予め設定された字幕バッファ時間遅延させて表示部に表示する。受信した字幕を予め設定された字幕バッファ時間遅延させることにより、字幕が途切れ途切れに表示されるのを防ぐことができる。字幕バッファ時間は、予めデフォルト値を編集者が設定するが、ネットワーク環境に依存するので、視聴端末50の視聴者が調整するのが望ましい。
本発明の実施形態における映像が撮影装置10で撮影されてから視聴端末50に映像が表示されるまでの時間、および映像が撮影装置10で撮影されてから視聴端末50に字幕が表示されるまでの時間の調整について、図3および図4を用いて説明する。視聴端末50において、映像の表示タイミングと字幕の表示タイミングとが一致するためには、映像が撮影装置10で撮影されてから視聴端末50に映像が表示されるまでの時間、および映像が撮影装置10で撮影されてから視聴端末50に字幕が表示されるまでの時間を調節して、同じにしなければならない。
まず、図3に、映像が撮影装置10で撮影されてから視聴端末50に字幕が表示されるまでの各処理が要する時間を示す。図3に示すように、撮影装置10において映像の収録に要する時間(字幕T1)は、ほぼ0(ゼロ)である。次に、ネットワークを介したデータの送受信、具体的には、撮影装置10から編集端末20への映像の送受信に要する時間(字幕T2)、編集端末20から音声認識サーバ30への音声の送受信に要する時間(字幕T3)、音声認識サーバ30から編集端末20への音声認識結果の送受信に要する時間(字幕T5)、編集端末20から配信サーバ40への字幕の送受信に要する時間(字幕T8)、および配信サーバ40から視聴端末50への字幕の送受信に要する時間(字幕T9)は、それぞれのネットワーク構成に依存する。
次に、音声認識サーバ30における音声認識に要する時間(字幕T4)は、音声認識サーバ30の性能や音声認識処理の設定に依存する。次に、編集端末20における編集者による編集作業に要する時間(字幕T6)は、通常は発話時間以上であり、編集者に依存する。次に、編集端末20において字幕をバッファリングする時間(字幕T7)、および視聴端末50において字幕をバッファリングする時間(字幕T10)は、編集者または視聴者により任意に設定される。次に、視聴端末50にて字幕の表示に要する時間(字幕T11)は、ほぼ0(ゼロ)である。
以上より、映像が撮影装置10で撮影されてから視聴端末50に字幕が表示されるまでの時間(以下、字幕所要時間という)は、以下の(1)式に示すように、要する時間がほぼ0である字幕T1および字幕T11を除いた、字幕T2から字幕T10までを足し合わせた時間となる。
Figure 2012105234
次に、図4に、映像が撮影装置10で撮影されてから視聴端末50に映像が表示されるまでの各処理が要する時間を示す。図4に示すように、撮影装置10における映像の収録に要する時間(映像T1)は、ほぼ0である。次にネットワークを介したデータの送受信、具体的には、撮影装置10から編集端末20への映像の送受信に要する時間(映像T2)、編集端末20から配信サーバ40への映像の送受信に要する時間(映像T4)、および配信サーバ40から視聴端末50への映像の送受信に要する時間(映像T6)は、それぞれのネットワーク構成に依存する。
次に、編集端末20の映像記憶部24への映像の記憶に要する時間(映像T3)は、0である。編集端末20の映像記憶部24への映像の記憶は、視聴端末50に映像を表示するための処理ではないからである。配信サーバ40の映像バッファ41において映像をバッファリングする映像遅延時間(映像T5)は、ユーザにより任意に設定される。視聴端末50において映像の表示に要する時間(映像T7)は、映像を再生するアプリケーションの設定によるが、ほぼ1〜2秒である。
以上より、映像が撮影装置10で撮影されてから視聴端末50に映像が表示されるまでの時間(以下、映像所要時間という)は、以下の(2)式に示すように、要する時間がほぼ0である映像T1および映像T3を除いた、映像T2と、映像T4から映像T7までを足し合わせた時間となる。
Figure 2012105234
(1)式で表される字幕所要時間と(2)式で表される映像所要時間とが同じになるように、各処理に要する時間を調整する。ところで、同一ネットワーク構成であるので、字幕T2と映像T2、字幕T8と映像T4、字幕T9と映像T6それぞれは、同じであるとみなすことができる。また、映像T7を2秒とすると、以下の式(3)が成り立つように各処理に要する時間を調整すればよい。なお、視聴端末50における映像の表示に要する時間(映像T7)は無視してもよく、その場合、映像T7は0秒となる。
Figure 2012105234
ここで、字幕生成に関係する処理に要する時間である字幕T3から字幕T7までをひとまとまりの固定値とし、システム遅延時間とする。視聴端末50において字幕をバッファリングする時間である字幕T10が予め設定されていて、配信サーバ40において映像をバッファリングする映像遅延時間(映像T5)を編集者が決定すると、上述した(3)式からシステム遅延時間を決定することができる。例えば、字幕T10のデフォルト値が10秒であって、映像T5、すなわち映像遅延時間を編集者が300秒と設定した場合には、(3)式からシステム遅延時間は292秒と決まる。
次に、配信サーバ40において映像バッファ41に映像をバッファリングする映像遅延時間(映像T5)を決定することにより決まるシステム遅延時間について説明する。上述したように、システム遅延時間は、字幕生成に関係する処理に要する時間である字幕T3から字幕T7までをひとまとまりとした固定値である。具体的には、編集端末20の通信部21が映像を受信してから、編集端末20の字幕バッファ23が字幕を送信するまでの時間である。
図5を用いて、システム遅延時間における字幕生成処理について説明する。図5に示すように、システム遅延時間200は、発話Aの音声が通信部21に受信されたタイミングにて開始する。一方、システム遅延時間200の中には、字幕の編集が完了した後に、編集部22が形態素解析処理等の内部処理を行う字幕受領時間201を要する。そのため、通信部21が受信した音声から字幕を生成する実質的な時間は、発話Aの音声が通信部21に受信された時刻t1から字幕受領時間201が開始する時刻t3までとなる。また、編集者が図2で示した編集画面100に表示された音声認識結果を編集することができるのは、発話Aの音声認識結果を音声認識サーバ30から編集部22が受信した時刻t2以降である。但し、前の音声認識結果の編集中であれば、時刻t2、または、前の音声認識結果の編集が完了した時刻t2´のうち遅い方の時刻以降である。その結果、編集者が図2で示した編集画面100に表示された音声認識結果を編集することができる編集猶予時間202は、時刻t2またはt2´から時刻t3までとなる。図5においては、時刻t2よりも時刻t2´の方が遅いので、編集猶予時間202は時刻t2´から時刻t3までとなる。
このようにして、予め設定された映像遅延時間から得られた固定値のシステム遅延時間に対し、音声認識に要した時間や前の音声認識結果の編集に要した時間に応じて編集猶予時間202を可変することにより、視聴端末50にて映像の表示タイミングと字幕の表示タイミングとを一致させることができる。
なお、編集猶予時間202内に、図2の編集画面100で編集者により編集された文字列を字幕として確定する字幕確定ボタン105が押下されなかった場合、すなわち、図2の字幕確定ボタン105が押下されずに、編集猶予時間202の残り時間を意味する編集残り時間104が0(ゼロ)になった場合には、上述したように、音声認識サーバ30から受信した音声認識結果の文字列を字幕とすることにより、視聴端末50にて、映像に対し字幕が遅延しないようにすることができる。
一方、編集猶予時間202内に、図2の編集画面100で字幕確定ボタン105が押下された場合には、編集画面100の編集領域102に表示されていた文字列が字幕として確定され、音声認識結果の編集が完了する。この場合、確定された字幕は、字幕バッファ23に編集猶予時間202の残り時間バッファリングされる。それにより、全ての発話における字幕に関係する処理の時間(字幕T3から字幕T7)を予め決定されたシステム遅延時間に統一することができる。その結果、視聴端末50にて、映像に対し字幕が遅延せず、映像の表示タイミングと字幕の表示タイミングとを一致させることが可能となる。
また、字幕確定ボタン105が押下された時に、次の発話の音声認識結果を編集部22から受信している場合(編集待ち領域103に次の発話の音声認識結果の文字列が表示されている場合)には、この時から次の発話の編集が可能となり、編集猶予時間202が開始する。一方、字幕確定ボタン105が押下された時に、次の発話の音声認識結果を編集部22から受信していない場合(編集待ち領域103に次の発話の音声認識結果の文字列が表示されていない場合)には、次の発話の音声認識結果を編集部22から受信した時に、次の発話の編集が可能となり、この時から編集猶予時間202が開始する。
図5に戻って、編集者は、発話Aの音声を通信部21が受信してから、音声認識サーバ30から発話Aの音声認識結果の受信を待つ時間として認識結果受領時間203を設定することができる。認識結果受領時間203は、システム遅延時間200より短く設定される。これにより、認識結果受領時間203が経過するまでに、音声認識サーバ30から発話Aの音声認識結果を取得できなかった場合には、発話Aはなかったものとして処理することによって、映像に対し字幕が遅延しないようにすることができる。
さらに、音声と関係なく字幕を追加する場合には、直前の発話の編集猶予時間を音声と関係なく追加する字幕の編集猶予時間とする。なお、直前の発話がない場合には、システム遅延時間から字幕受領時間を引いた時間を編集猶予時間とする。
<字幕生成配信システムの処理フロー>
図6は、字幕生成配信システムの処理フローである。
まず、撮影装置10は、映像を取得し、取得した映像を編集端末20に送信する(ステップS1)。次に、編集端末20の通信部21は、撮影装置10から受信した映像を配信サーバ40の映像バッファ41に送信する(ステップS2)。次に、配信サーバ40の映像バッファ41は、受信した映像を映像遅延時間の経過後、配信部42に送信する(ステップS3)。
また、編集端末20の通信部21は、受信した映像に含まれる音声を音声認識サーバ30に送信する(ステップS4)。なお、ステップS4は、ステップS2より先であっても、ステップS2と同時であってもよい。次に、音声認識サーバ30は、音声を音声認識し、その結果得られた音声認識結果の文字列を編集端末20に送信する(ステップS5)。次に、編集端末20の編集部22は、音声認識サーバ30から受信した音声認識結果の文字列を編集画面に表示する(ステップS6)。次に、編集端末20の編集部22は、編集画面でユーザによって編集された文字列を字幕として取得する。なお、ユーザによって編集されなくても所定時間経過した音声認識結果の文字列を字幕として取得してもよい(ステップS7)。
次に、編集端末20の字幕バッファ23は、ステップS7で取得した字幕をバッファリングした後、配信サーバ40の配信部42に送信する(ステップS8)。次に、配信サーバ40の配信部42は、映像バッファ41から受信した映像と、字幕バッファ23から受信した字幕とを視聴端末50に送信する。
以上説明したように、本実施形態によれば、音声認識処理を利用して字幕を生成しながら、映像の配信を所定時間遅延させ、映像の配信を遅延させる所定時間と音声認識手段および編集手段の処理で要した時間とに応じて決定される時間字幕を遅延させることにより、視聴端末で映像と字幕とが同期して表示されるように、すなわち、生成された字幕の表示タイミングと映像の表示タイミングとが一致するように、字幕と映像とを視聴端末に配信することができる。
なお、字幕生成配信システムの処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを、字幕生成配信システムを構成する各機器に読み込ませ、実行することによって本発明の字幕生成配信システムを実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
1 字幕生成配信システム
10 撮影装置
20 編集端末
21 通信部
22 編集部
23 字幕バッファ
24 映像記憶部
30 音声認識サーバ
40 配信サーバ
41 映像バッファ
42 配信部
50 視聴端末

Claims (7)

  1. 字幕付き映像を生成し、視聴端末に配信する字幕生成配信システムであって、
    音声を含む映像を取得する映像取得手段と、
    前記映像取得手段で取得された映像を、第1の所定時間遅延させる映像バッファと、
    前記映像取得手段で取得された映像に含まれる音声に対する音声認識結果を取得する音声認識手段と、
    前記音声認識手段で取得された音声認識結果をユーザが編集するための編集画面を表示し、前記編集画面で編集された結果を字幕として取得する編集手段と、
    前記第1の所定時間と、前記音声認識手段および前記編集手段の処理で要した時間と、に応じて決定される時間、前記編集手段で取得された字幕を遅延させる字幕バッファと、
    前記映像バッファで遅延させた映像と、前記字幕バッファで遅延させた字幕とを配信する配信手段と、
    を備えることを特徴とする字幕生成配信システム。
  2. 前記映像取得手段で取得された映像を記憶する映像記憶手段を備え、
    前記編集手段は、前記音声認識手段で取得された音声認識結果を前記編集画面に表示する際に、前記映像記憶手段に記憶された映像のうち、表示された音声認識結果に対応する音声部分の映像を表示することを特徴とする請求項1に記載の字幕生成配信システム。
  3. 前記音声認識手段が前記映像取得手段で取得された映像を受信した時から第2の所定時間経過前までに、前記編集手段が、前記音声認識手段が受信した音声に対応する音声認識結果を前記音声認識手段から受信しなかった場合には、前記音声認識手段が受信した音声は前記映像取得手段で取得された映像に含まれていなかったものとすることを特徴とする請求項1または2に記載の字幕生成配信システム。
  4. 前記映像取得手段で取得された映像に音声がなく、前記音声認識手段から受信する前記音声認識結果がない時間において、前記編集手段は、前記ユーザが前記編集画面に入力した文字列を前記字幕として取得することを特徴とする請求項1から3のいずれかに記載の字幕生成配信システム。
  5. 前記第1の所定時間は、ユーザにより任意に設定可能であることを特徴とする請求項1から4のいずれかに記載の字幕生成配信システム。
  6. 字幕付き映像を生成し、視聴端末に配信する字幕生成配信システムにおける字幕生成配信方法であって、
    音声を含む映像を取得する第1のステップと、
    前記第1のステップで取得された映像を、第1の所定時間遅延させる第2のステップと、
    前記第1のステップで取得された映像に含まれる音声に対する音声認識結果を取得する第3のステップと、
    前記第3のステップで取得された音声認識結果をユーザが編集するための編集画面を表示し、前記編集画面で編集された結果を字幕として取得する第4のステップと、
    前記第1の所定時間と、前記第3のステップおよび前記第4のステップで要した時間と、に応じて決定される時間、前記第4のステップで取得された字幕を遅延させる第5のステップと、
    前記第2のステップで遅延させた映像と、前記第5のステップで遅延させた字幕とを配信する第6のステップと、
    を含むことを特徴とする字幕生成配信方法。
  7. 字幕付き映像を生成し、視聴端末に配信する字幕生成配信システムにおける字幕生成配信方法をコンピュータに実行させるためのプログラムであって、
    音声を含む映像を取得する第1のステップと、
    前記第1のステップで取得された映像を、第1の所定時間遅延させる第2のステップと、
    前記第1のステップで取得された映像に含まれる音声に対する音声認識結果を取得する第3のステップと、
    前記第3のステップで取得された音声認識結果をユーザが編集するための編集画面を表示し、前記編集画面で編集された結果を字幕として取得する第4のステップと、
    前記第1の所定時間と、前記第3のステップおよび前記第4のステップで要した時間と、に応じて決定される時間、前記第4のステップで取得された字幕を遅延させる第5のステップと、
    前記第2のステップで遅延させた映像と、前記第5のステップで遅延させた字幕とを配信する第6のステップと、
    をコンピュータに実行させるプログラム。
JP2010254487A 2010-11-15 2010-11-15 字幕生成配信システム、字幕生成配信方法およびプログラム Pending JP2012105234A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010254487A JP2012105234A (ja) 2010-11-15 2010-11-15 字幕生成配信システム、字幕生成配信方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010254487A JP2012105234A (ja) 2010-11-15 2010-11-15 字幕生成配信システム、字幕生成配信方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2012105234A true JP2012105234A (ja) 2012-05-31

Family

ID=46395077

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010254487A Pending JP2012105234A (ja) 2010-11-15 2010-11-15 字幕生成配信システム、字幕生成配信方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2012105234A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160041433A (ko) * 2014-10-07 2016-04-18 주식회사 케이티 자막을 포함하는 재송출용 방송 데이터 생성 방법 및 서버
JP2018528730A (ja) * 2015-07-16 2018-09-27 ネイバー ビジネス プラットフォーム コーポレーション 動画提供装置、動画提供方法及びそのコンピュータプログラム
US11595731B2 (en) * 2020-02-12 2023-02-28 Shanghai Bilibili Technology Co., Ltd. Implementation method and system of real-time subtitle in live broadcast and device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160041433A (ko) * 2014-10-07 2016-04-18 주식회사 케이티 자막을 포함하는 재송출용 방송 데이터 생성 방법 및 서버
KR102200827B1 (ko) 2014-10-07 2021-01-11 주식회사 케이티 자막을 포함하는 재송출용 방송 데이터 생성 방법 및 서버
JP2018528730A (ja) * 2015-07-16 2018-09-27 ネイバー ビジネス プラットフォーム コーポレーション 動画提供装置、動画提供方法及びそのコンピュータプログラム
US11595731B2 (en) * 2020-02-12 2023-02-28 Shanghai Bilibili Technology Co., Ltd. Implementation method and system of real-time subtitle in live broadcast and device

Similar Documents

Publication Publication Date Title
US11699456B2 (en) Automated transcript generation from multi-channel audio
US10825480B2 (en) Automatic processing of double-system recording
US8311832B2 (en) Hybrid-captioning system
US20220343918A1 (en) Systems and methods for live broadcasting of context-aware transcription and/or other elements related to conversations and/or speeches
WO2019000721A1 (zh) 视频文件录制方法、音频文件录制方法及移动终端
JP2007027990A (ja) 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
JP2013521523A (ja) 聴覚障害者向けに音声言語を手話に翻訳するシステム
JP2008500573A (ja) メッセージを変更するための方法及びシステム
WO2013024704A1 (ja) 画像処理装置および方法、並びにプログラム
JP2005341015A (ja) 議事録作成支援機能を有するテレビ会議システム
CN101772949A (zh) 记录所捕获图像的音频元数据
JP2012100216A (ja) カメラおよび動画撮影プログラム
CN109600566A (zh) 一种视频配音方法
JP4725918B2 (ja) 番組画像配信システム、番組画像配信方法及びプログラム
KR101789221B1 (ko) 동영상 제공 장치, 동영상 제공 방법, 및 컴퓨터 프로그램
JP2012105234A (ja) 字幕生成配信システム、字幕生成配信方法およびプログラム
US8553855B2 (en) Conference support apparatus and conference support method
JP2005286969A (ja) 記録再生装置、表示装置、及び字幕放送の字幕表示遅れ補正方法
JP2019176375A (ja) 動画出力装置、動画出力方法および動画出力プログラム
CN115359796A (zh) 数字人手语播报方法、装置、设备及存储介质
CN114911448A (zh) 数据处理方法、装置、设备以及介质
JP2017146402A (ja) 学習支援装置及びプログラム
JP5389594B2 (ja) 画像ファイル生成方法、そのプログラム、その記録媒体および画像ファイル生成装置
JP2010219733A (ja) 会議記録装置、会議記録方法および会議記録プログラム
JP6543755B1 (ja) 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム