JP2020115626A

JP2020115626A - 字幕遅延制御装置、制御方法及びプログラム

Info

Publication number: JP2020115626A
Application number: JP2019006718A
Authority: JP
Inventors: 田中　隆; Takashi Tanaka; 隆田中; 敦篠田; Atsushi Shinoda; 遠藤　誠; Makoto Endo; 誠遠藤; 山本　順一; Junichi Yamamoto; 順一山本
Original assignee: LSI Japan Co Ltd
Current assignee: LSI Japan Co Ltd
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2020-07-30

Abstract

【課題】映像と字幕を時間軸上で同期させて再生することを可能とする。【解決手段】遅延制御装置は、受信部と、映像音声遅延部と、音声認識部と、字幕遅延部と、合成部とを備える。受信部は、字幕信号、映像信号、及び音声信号を含む多重信号を受信する。映像音声遅延部は、映像信号及び音声信号を所定の固定遅延時間で遅延させ、遅延映像信号及び遅延音声信号を生成する。音声認識部は、音声信号を音声認識したテキストを生成する。字幕遅延部は、字幕信号が示す字幕と対応する内容のテキストが検出された場合、当該テキストに対応する音声信号に同期するように字幕を示す字幕信号を可変遅延時間だけ遅延させ、遅延字幕信号を生成する。合成部は、遅延映像信号及び遅延字幕信号を合成した映像信号を生成する。【選択図】図６

Description

本発明は、字幕放送などの多重信号に基づいて、映像とその映像に対応する字幕とを時間的に同期させて再生する技術に関する。

ニュースなどの生のテレビ番組では、聴覚障害者向けサービスとして字幕を放送することが増えている。この「生」の字幕放送（「生字幕放送」、「リアルタイム字幕放送」などと呼ばれる。）では、時として映像に対して字幕が数秒〜数十秒遅れて放送され、視聴者が違和感を覚えることがある。これに対し、特許文献１には、生字幕放送において映像と字幕を時間軸上で同期させるため、放送側は、多重信号内に制御フラグを埋め込み、受信機側は、映像及び音声を固定時間遅延させつつ字幕を制御フラグの検出タイミングに基づいた可変時間だけ遅延させる技術が開示されている。

特開２００６−２１１６３６号公報

多重信号に制御フラグを埋め込む方式は、放送側が制御フラグを埋め込む必要があり、実現するには放送側及び受信機側の両方を調整する必要があった。

本発明は以上の点に鑑みてなされたものであり、映像と字幕を時間軸上で同期させて再生することを可能とする字幕遅延制御装置を提供することを目的とする。

本発明の１つの観点では、字幕遅延制御装置は、字幕信号、映像信号、及び音声信号を含む多重信号を受信する受信部と、前記映像信号及び前記音声信号を所定の固定遅延時間で遅延させ、遅延映像信号及び遅延音声信号を生成する映像音声遅延部と、前記音声信号を音声認識したテキストを生成する音声認識部と、前記字幕信号が示す字幕と対応する内容の前記テキストが検出された場合、当該テキストに対応する前記遅延音声信号に同期するように前記字幕を示す字幕信号を可変遅延時間だけ遅延させた遅延字幕信号を生成する字幕遅延部と、前記遅延映像信号及び前記遅延字幕信号を合成した映像信号を生成する合成部と、を備える。

上記の遅延制御装置は、放送局から送信される字幕放送を受信する環境に配置され、例えばＴＶ受信機や録画機などに内蔵してもよく、ＴＶ受信機に接続されるセットトップボックスとすることができる。遅延制御装置は、受信部と、映像音声遅延部と、音声認識部と、字幕遅延部と、合成部とを備える。受信部は、字幕信号、映像信号、及び音声信号を含む多重信号を受信する。映像音声遅延部は、映像信号及び音声信号を所定の固定遅延時間で遅延させ、遅延映像信号及び遅延音声信号を生成する。音声認識部は、音声信号を音声認識したテキストを生成する。字幕遅延部は、字幕信号が示す字幕と対応する内容のテキストが検出された場合、当該テキストに対応する音声信号に同期するように字幕を示す字幕信号を可変遅延時間だけ遅延させた遅延字幕信号を生成する。合成部は、遅延映像信号及び遅延字幕信号を合成した映像信号を生成する。この態様では、遅延制御装置は、字幕信号に基づく字幕に対応する音声信号を検出し、その音声信号を遅延させた遅延音声信号と同じタイミングで出力されるように遅延字幕信号を生成する。これにより、字幕遅延制御装置は、多重信号に対する放送側の仕様変更を必要とすることなく、映像及び音声と的確に同期させた字幕が表示される映像信号を好適に生成することができる。

上記字幕遅延制御装置の一態様では、前記字幕遅延部は、前記字幕と対応する内容の前記テキストが検出された場合、当該テキストに対応する音声信号に対する前記当該字幕を示す字幕信号の遅れ時間である字幕遅延時間に基づいて、前記可変遅延時間を決定する。ここで、映像と字幕との時間軸上の同期を確保する際には、字幕毎にその遅れ時間が異なる点が問題である。上記の字幕遅延制御装置では、映像信号は一律に固定遅延時間だけ遅延し、字幕データはその字幕データ毎の字幕遅延時間に応じた可変遅延時間で遅延させるので、字幕データ毎に字幕遅延時間が異なる場合でも、映像及び音声と字幕とを確実に同期させて再生することが可能となる。

上記字幕遅延制御装置の他の一態様では、前記字幕遅延部は、前記固定遅延時間から前記字幕遅延時間を減算することにより、前記可変遅延時間を算出する。この態様により、字幕遅延制御装置は、単純な処理で可変遅延時間を算出することができる。

上記字幕遅延制御装置の他の一態様では、前記固定遅延時間は、前記多重信号に含まれる前記字幕信号の最大の字幕遅延時間よりも大きく設定される。これにより、字幕データ毎の字幕遅延時間に応じた可変遅延時間で字幕を遅延させる場合であっても、映像及び音声と字幕とを好適に同期させて再生することが可能となる。

上記字幕遅延制御装置の他の一態様では、前記字幕遅延部は、前記字幕信号が示す字幕と対応する内容の前記テキストが検出できない場合、過去に算出した可変遅延時間の統計量を、前記字幕信号を遅延させる可変遅延時間として算出する。上述の統計量は、平均値、中央値、代表値、その他の任意の統計量であってもよい。この態様により、字幕遅延制御装置は、字幕信号が示す字幕と対応する内容のテキストが検出できない場合であっても、字幕信号に適用すべき可変遅延時間を好適に算出することができる。

上記字幕遅延制御装置の他の一態様では、字幕なし放送に対応する映像信号及び音声信号を含む多重信号を前記受信部が受信した場合、前記合成部は、前記遅延映像信号に前記テキストを合成した映像信号を生成する。この態様により、字幕遅延制御装置は、字幕なし放送の場合であっても、音声信号に基づき音声認識した字幕を映像に重畳した映像信号を好適に生成することができる。

上記字幕遅延制御装置の他の一態様では、字幕なし放送に対応する映像信号及び音声信号を含む多重信号を前記受信部が受信した場合、前記合成部は、前記遅延映像信号に所定時間だけ遅延させた前記テキストを合成した映像信号を生成する。この態様により、字幕遅延制御装置は、字幕なし放送の場合であっても、音声信号に基づき音声認識した字幕を映像に重畳した映像信号を、対応する音声に同期したタイミングで出力されるように好適に調整することができる。

上記字幕遅延制御装置の他の一態様では、字幕遅延制御装置は、前記字幕と対応する内容の前記テキストが検出された場合、前記字幕と前記テキストとの組合せを示す情報に基づき学習を行う学習部をさらに備え、字幕なし放送に対応する映像信号及び音声信号を含む多重信号を前記受信部が受信した場合、前記音声認識部は、前記学習部による学習データに基づき、前記テキストの生成を行い、前記合成部は、前記遅延映像信号に当該テキストを合成した映像信号を生成する。この態様では、字幕遅延制御装置は、字幕付き放送のときに得られる字幕と音声認識したテキストとを教師データとして学習部に供給して学習部に学習を実行させる。これにより、字幕遅延制御装置は、字幕なし放送の場合に、学習部が生成した学習データに基づき、字幕として出力するテキストを好適に生成することができる。

本発明の他の観点では、字幕遅延制御装置が実行する制御方法であって、字幕信号、映像信号、及び音声信号を含む多重信号を受信する受信工程と、前記映像信号及び前記音声信号を所定の固定遅延時間で遅延させ、遅延映像信号及び遅延音声信号を生成する映像音声遅延工程と、前記音声信号を音声認識したテキストを生成するテキスト生成工程と、前記字幕信号が示す字幕と対応する内容の前記テキストが検出された場合、当該テキストに対応する前記遅延音声信号に同期するように前記字幕を示す字幕信号を可変遅延時間だけ遅延させた遅延字幕信号を生成する字幕遅延工程と、前記遅延映像信号及び前記遅延字幕信号を合成した映像信号を生成する合成工程と、を有する。字幕遅延制御装置は、この制御方法を実行することで、映像及び音声と的確に同期させた字幕が表示される映像信号を好適に生成することができる。

本発明の他の観点では、コンピュータが実行するプログラムであって、字幕信号、映像信号、及び音声信号を含む多重信号を受信する受信部と、前記映像信号及び前記音声信号を所定の固定遅延時間で遅延させ、遅延映像信号及び遅延音声信号を生成する映像音声遅延部と、前記音声信号を音声認識したテキストを生成する音声認識部と、前記字幕信号が示す字幕と対応する内容の前記テキストが検出された場合、当該テキストに対応する前記遅延音声信号に同期するように前記字幕を示す字幕信号を可変遅延時間だけ遅延させた遅延字幕信号を生成する字幕遅延部と、前記遅延映像信号及び前記遅延字幕信号を合成した映像信号を生成する合成部として前記コンピュータを機能させる。上記のプログラムをコンピュータ上で実行することにより、上記の字幕遅延制御装置を好適に実現することが可能となる。

本発明によれば、字幕信号に基づく字幕に対応する音声信号を検出し、その音声信号を遅延させた遅延音声信号と同じタイミングで出力されるように遅延字幕信号を生成することができる。従って、映像及び音声と的確に同期させた字幕が表示される映像信号を好適に生成することができる。

放送システムの構成例を示す。字幕の遅延を説明する図である。ページごとの音声信号及び字幕信号の入力タイミングと、映像、音声及び字幕の出力タイミングとを表したタイミングチャートである。字幕遅延制御装置の構成例を示す。音声認識処理の時間を考慮したタイミングチャートを示す。字幕遅延制御装置が実行するフローチャートを示す。

以下、図面を参照しながら、本発明を実施するのに好適な実施形態について説明する。

［放送システムの概要］
図１は、本実施形態における放送システムの構成例を示す。図１では、放送局１０がユーザ環境５０に対してテレビ放送を行っている。

放送局１０内では、放送送出システム２０が映像信号及び音声信号に字幕信号を任意に含んだ信号を作成し、これを放送波４０に乗せて送出する。

ユーザ環境５０は、字幕遅延制御装置６０と、ＴＶ受信機５２とを含んでいる。字幕遅延制御装置６０は、放送波４０を受信し、映像と字幕とが時間軸上で同期した字幕付き映像信号（「字幕同期映像信号」とも呼ぶ。）と、音声信号とを含む信号５３を生成してＴＶ受信機５２へ供給する。字幕遅延制御装置６０は、字幕信号が含まれない放送波４０を受信した場合には、音声信号に基づき字幕を生成して映像信号に重畳させる。字幕遅延制御装置６０は、例えば、ＴＶ受信機５２に接続されるセットトップボックス、ＴＶ受信機５２に搭載されるＬＳＩ、ＨＤＤ（ＨａｒＤＤｉｓｋ）レコーダなどの録画機に搭載されるＬＳＩなどである。字幕遅延制御装置６０は、本発明における「字幕遅延制御装置」の一例である。

ＴＶ受信機５２は、字幕遅延制御装置６０から受信した信号５３に含まれる字幕同期映像信号及び音声信号を再生する。これにより、ユーザは、生字幕放送を、映像と字幕とが時間的に同期した状態で視聴することができる。

［字幕遅延の概要］
次に、生字幕放送において生じる字幕遅延の概要について説明する。

テレビ等の番組は、事前にＶＴＲなどに収録したパッケージ番組と、ニュースなどの様に生放送の番組に大別される。これらの番組に字幕を付与する場合、パッケージ番組では、映像信号などと字幕信号を一緒にＶＴＲなどに記録し放送する方法と、映像信号などをＶＴＲなどに記録し、放送時に字幕信号を付加する方法があり、それらは共にパッケージ字幕放送番組である。また、ニュース番組など生放送の放送時に、リアルタイムで字幕を付加する生字幕（リアルタイム字幕）放送番組がある。

生字幕放送番組の場合、ＴＶ映像の生放送中に、リアルタイムで字幕を生成し、ＴＶ映像に挿入して放送するため、字幕はＴＶ映像の放送に対して時間的に遅れて表示されることになる。パッケージ字幕放送番組ではあらかじめ字幕を制作しておき、映像と完全に合ったタイミングで字幕データをページ単位で送出できるが、リアルタイム字幕番組では、字幕の重畳タイミングがリアルタイムでなく、若干遅れたタイミングで行われる。

図２は、字幕の遅延を説明する図である。図２に示すように、字幕データの送出が映像より遅れる。図２において、字幕の入力開始タイミングと、対応する字幕データが重畳されるタイミングとのずれ（「字幕遅延時間」とも呼ぶ。）が「ΔＴ」で示されている。言い換えると、ΔＴは、字幕ページ毎の字幕遅延時間である。

図２に示すように、ページ単位ごとの放送局の字幕入力者が、放送される映像を見ながら字幕をキー入力し、漢字変換、誤変換訂正などを行って字幕データを作成した後で、始めて字幕データを重畳するため、字幕データの送出が映像より遅れる。なお、映像カット毎に字幕の内容が異なり、それに応じて字幕データの作成に要する時間が異なるため、字幕遅延時間ΔＴは映像カット毎に異なったものとなる（ΔＴ１〜ΔＴ３）。

このように、生字幕放送番組では、映像と字幕データとの間に字幕遅延時間ΔＴが存在する。よって、受信機側で映像と字幕データを時間的に同期させて再生するためには、字幕遅延時間ΔＴまたはこれに相当する時間を的確に受信機側（即ち字幕遅延制御装置６０）が特定し、字幕遅延を補償する制御を行うことが必要となる。以上を勘案し、本実施形態における字幕遅延制御装置６０は、字幕遅延を補償する制御を行う。これにより、字幕遅延制御装置６０は、ＴＶ受信機５２による映像と字幕データとの同期再生を実現する。

なお、字幕の出力タイミングの決定方法として、放送局１０が所定の制御信号を放送波４０に含めることで字幕の出力タイミング等を受信機側である字幕遅延制御装置６０に伝える方法と、字幕遅延制御装置６０が放送波４０に基づき字幕の出力タイミングを決定する方法とが考えられる。本実施形態では、後者の方法に基づき字幕の出力タイミングを決定する。これにより、放送局１０における変更を何ら必要とすることなく、ＴＶ受信機５２による映像と字幕データとの同期再生を実現する。

［字幕遅延制御］
次に、上述した字幕遅延を補償する制御である字幕遅延制御について説明する。

（１）概要
まず、字幕遅延制御装置６０による字幕遅延制御の概要について説明する。概略的には、字幕遅延制御装置６０は、映像信号と音声信号とを予め字幕の最大遅延を見込んだ固定遅延時間「Ｄｆｉｘ」を与え、字幕信号に対しては固定遅延時間Ｄｆｉｘより短い可変遅延時間「Ｄｖａｒ」を与える。このとき、字幕遅延制御装置６０は、音声信号から音声認識により得られたテキストと字幕信号に基づく字幕との対応付けを行い、対応付けができたこれらの信号の入力時刻の差に基づき字幕遅延時間ΔＴを算出し、算出した字幕遅延時間ΔＴに基づき可変遅延時間Ｄｖａｒを決定する。

図３は、ページごとの音声信号及び字幕信号の入力タイミングと、映像、音声及び字幕の出力タイミングとを表したタイミングチャートである。図３では、ページ単位の音声及び字幕として、「おはようございます。今日のニュースをお伝えします。」という内容の文章を出力する場合について例示している。

時刻ｔ０は、上記文章に相当する音声信号（及び映像信号）が入力される時刻を示す。字幕遅延制御装置６０は、入力された音声信号及び映像信号に基づく音声及び映像を直ちに出力させず、字幕の最大遅延を見込んだ固定遅延時間Ｄｆｉｘだけ、映像信号と音声信号との出力タイミングを遅延させる。従って、字幕遅延制御装置６０は、時刻ｔ０から固定遅延時間Ｄｆｉｘだけ経過した時刻ｔ２において、時刻ｔ０から入力された音声信号及び映像信号に基づく音声及び映像を出力する。よって、「おはようございます。今日のニュースをお伝えします。」は、時刻ｔ２から出力される。

時刻ｔ１は、上記文章を示す字幕を表示するための字幕信号が入力される時刻を示す。図３に示すように、字幕信号の入力タイミング（即ち、放送波４０から字幕信号の抽出を開始する時刻）は、［字幕遅延の概要］のセクションで述べた事情により、時刻ｔ０と時刻ｔ１との差に相当する字幕遅延時間ΔＴだけ遅れている。

このとき、字幕遅延制御装置６０は、時刻ｔ０から受信した音声信号を音声認識したテキスト（「音声認識テキスト」とも呼ぶ。）と、時刻ｔ１から受信する字幕信号に基づく字幕（「放送字幕」とも呼ぶ。）との照合を行い、対応付けを行う。そして、字幕遅延制御装置６０は、音声認識テキストと放送字幕との対応付けができた場合、対応付けができた音声認識テキストに対応する音声信号の入力開始時刻である時刻ｔ０と、対応付けができた放送字幕を示す字幕信号の入力開始時刻である時刻ｔ１との時間差を、字幕遅延時間ΔＴとして算出する。

ここで、図３に示されるように、字幕遅延時間Ｄと、字幕遅延時間ΔＴと、固定遅延時間Ｄｆｉｘとは、以下の式（１）の関係が成立する。
Ｄｖａｒ＝Ｄｆｉｘ − ΔＴ（１）

従って、字幕遅延制御装置６０は、式（１）に基づき、算出した字幕遅延時間ΔＴを固定遅延時間Ｄｆｉｘから減算することで、対応付けができた放送字幕に付与する可変遅延時間Ｄｖａｒを算出する。そして、字幕遅延制御装置６０は、算出した可変遅延時間Ｄｖａｒを対象の字幕信号に付与する。これにより、字幕遅延制御装置６０は、字幕信号の入力時刻と、予め定めた固定時間時間Ｄｆｉｘと音声信号の入力時刻とに基づき特定される発話開始時刻（即ち音声出力開始時刻）との時間差（図３ではｔ２−ｔ１）だけ字幕の出力タイミングを遅延させることができる。従って、字幕遅延制御装置６０は、音声の出力タイミングと、当該音声と対応関係を有する放送字幕の出力タイミングとを、ページごとに好適に同期させることができる。

（２）字幕遅延制御装置の機能構成
次に、上述した字幕遅延制御を含む機能を搭載した字幕遅延制御装置６０の具体的構成について説明する。ここでは、一例として、字幕遅延制御装置６０をセットトップボックスとした場合の構成について説明する。

図４は、字幕遅延制御装置６０のブロック構成図である。図４に示すように、字幕遅延制御装置６０は、受信部１１と、映像音声遅延部１２と、映像音声デコード部１３と、字幕抽出部１４と、音声抽出部１５と、音声認識部１６と、テキスト照合部１７と、リアルタイム学習部１８と、学習モデル記憶部１９と、字幕遅延部２１と、合成部２２とを含む。これらの各要素は、ＣＰＵ、ＤＳＰ、ＲＯＭ、ＲＡＭ、その他の専用ハードウェア等によって実現される。

受信部１１は、地上デジタルアンテナ、ＢＳ・ＣＳアンテナなどから供給される信号から選局処理、誤り訂正、Ｂキャスカードによるデスクランブル処理などを行い、ＴＳ（ＴｒａｎｓｐｏｒｔＳｔｒｅａｍ）信号を生成する。そして、受信部１１は、生成したＴＳ信号を、映像音声遅延部１２、字幕抽出部１４、音声抽出部１５へそれぞれ供給する。

映像音声遅延部１２は、字幕の最大遅延を見込んだ固定遅延時間Ｄｆｉｘだけ、ＴＳ信号に含まれる映像信号と音声信号を遅延させる制御を行う。そして、映像音声遅延部１２は、固定遅延時間Ｄｆｉｘだけ遅延させた遅延映像音声信号「Ｄｔｓｄ」を映像音声デコード部１３へ供給する。

映像音声デコード部１３は、映像音声遅延部１２から供給された遅延映像音声信号Ｄｔｓｄに含まれる遅延音声信号についてデコードを行い、デコードされた遅延音声信号「Ｄａｄ」をＴＶ受信機５２へ供給する。その後、遅延音声信号Ｄａｄは、図１に示した信号５３の一部として、ＴＶ受信機５２の音声回路へ供給される。また、映像音声デコード部１３は、映像音声遅延部１２から供給された遅延映像音声信号Ｄｔｓｄに含まれる遅延映像信号についてデコードを行い、デコードされた遅延映像信号「Ｄｖｄ」を合成部２２へ供給する。

字幕抽出部１４は、ＴＳ信号から字幕信号を抽出することで、生字幕データに相当する字幕信号「Ｄｃ」を生成する。そして、字幕抽出部１４は、字幕信号Ｄｃをテキスト照合部１７へ供給する。なお、ＡＲＩＢ標準規格では、字幕の伝送方法として、まずページ単位の字幕データを収容した字幕データユニットをデータグループとして構成し、これをデータバイトに収容したＰＥＳ（ＰａｃｋｅｔｉｚｅｄＥｌｅｍｅｎｔａｒｙＳｔｒｅａｍ）としてＴＳ信号に乗せて放送すると規定している。従って、１枚の字幕ページについて少なくとも１個のＰＥＳが生成されることになる。

音声抽出部１５は、ＴＳ信号から音声信号を抽出し、デコードした音声信号「Ｄａ」を音声認識部１６へ供給する。

音声認識部１６は、音声信号Ｄａを音声抽出部１５から供給された場合に、当該音声信号Ｄａに対して音声認識処理を実行することで、音声認識テキストＤｔを生成し、テキスト照合部１７へ音声認識テキストＤｔを供給する。また、音声認識部１６は、音声認識テキストＤｔをテキスト照合部１７へ供給するのに加えて、音声認識テキストＤｔを字幕遅延部２１に対しても供給する。これにより、字幕なし放送番組においても、自動生成した字幕を好適に付与することが可能となる。

ここで、音声認識部１６は、学習モデル記憶部１９を有するリアルタイム学習部１８と電気的に接続しており、音声信号Ｄａが供給された場合に、音声認識処理において、リアルタイム学習部１８から供給を受けた学習モデルに基づき、音声認識テキストＤｔを生成する。上述の学習モデルは、音声認識を実行するために用いられる学習器に対する学習パラメータ等であってもよく、音声信号Ｄａから認識した文章を字幕用の文章に修正するための対応テーブル等であってもよい。音声認識部１６は、この学習モデルを用いて、放送字幕と同様の音声認識テキストＤｔを好適に生成する。学習モデルは、本発明における「学習データ」の一例である。

テキスト照合部１７は、字幕抽出部１４から供給される字幕信号Ｄｃに基づくページごとの放送字幕と、音声認識部１６から供給される音声認識テキストＤｔとの対応付け（照合）を行う。この場合、例えば、テキスト照合部１７は、放送字幕と音声認識テキストＤｔとを部分（例えば文節）ごとに比較し、それぞれの部分ごとの類似度に基づき、放送字幕と音声認識テキストＤｔとの対応付けを試みる。そして、テキスト照合部１７は、放送字幕に対応する音声認識テキストＤｔを検出できた場合、可変遅延時間Ｄｖａｒを算出し、算出した可変遅延時間Ｄｖａｒと字幕信号Ｄｃとを字幕遅延部２１に供給する。なお、音声により出力される文章とこれに対応する放送字幕とは、完全一致するとは限らないため、テキスト照合部１７は、例えば、これらが実質的に同一内容を示していると判断される場合（所定値以上の類似度を有する場合）に、これらの対応関係が存在すると判定する。

ここで、テキスト照合部１７による可変遅延時間Ｄｖａｒの算出方法について補足説明する。テキスト照合部１７は、照合により対応関係があると判定した場合、可変遅延時間Ｄｖａｒを算出する。例えば、テキスト照合部１７は、字幕信号Ｄｃが入力された時刻を図３における時刻ｔ１、対応する音声認識テキストＤｔが入力された時刻を図３における時刻ｔ０とみなし、これらの時間差を字幕遅延時間ΔＴとして算出する。そして、テキスト照合部１７は、式（１）に基づき、予め記憶した固定遅延時間Ｄｆｉｘから、算出した字幕遅延時間ΔＴを減算することで、可変遅延時間Ｄｖａｒを算出する。なお、音声認識時間を考慮した可変遅延時間Ｄｖａｒの算出については、図５を参照して後述する。

また、テキスト照合部１７は、字幕信号Ｄｃが示す放送字幕に対応する音声認識テキストＤｔを検出できなかったこと等に起因して、可変遅延時間Ｄｖａｒを算出できなかった場合、過去に算出した可変遅延時間Ｄｖａｒを統計処理することで、今回使用すべき可変遅延時間Ｄｖａｒを算出する。この場合、テキスト照合部１７は、例えば、直前に算出した所定個分の可変遅延時間Ｄｖａｒの平均値、中央値、その他の統計量を、今回適用すべき可変遅延時間Ｄｖａｒとして算出する。これにより、テキスト照合部１７は、字幕信号Ｄｃが示す放送字幕に対応する音声認識テキストＤｔを検出できなかった場合であっても、音声と字幕とを同期させるために必要な可変遅延時間Ｄｖａｒを字幕遅延部２１に好適に供給することができる。

また、テキスト照合部１７は、対応付けができた字幕信号Ｄｃ及び音声認識テキストＤｔの組合せを示した照合データ「Ｄｍ」を、リアルタイム学習部１８に供給する。リアルタイム学習部１８は、テキスト照合部１７から受信した照合データＤｍに基づき、学習モデルの学習を行う。具体的には、リアルタイム学習部１８は、照合データＤｍを教師データとして、学習モデルを教師あり学習により生成する。この教師あり学習は、ニューラルネットワーク、サポートベクターマシーンなどの任意の手法を用いたものであってよい。これにより、リアルタイム学習部１８は、字幕なし放送番組において字幕として使用される音声認識テキストＤｔの生成に用いる学習モデルを好適に生成する。リアルタイム学習部１８は、例えば、機械学習用のプロセッサにより構成される。

学習モデル記憶部１９は、リアルタイム学習部１８が生成した学習モデルを格納するメモリ等である。なお、学習モデル記憶部１９は、リアルタイム学習部１８が生成した学習モデルの他、予め生成された学習モデルを字幕遅延制御装置６０の製造段階などにおいて記憶してもよい。

字幕遅延部２１は、テキスト照合部１７から供給される可変遅延時間Ｄｖａｒ及び字幕信号Ｄｃに基づき、字幕信号Ｄｃを可変遅延時間Ｄｖａｒだけ遅延させた遅延字幕信号「Ｄｃｄ」を生成し、合成部２２へ供給する。なお、字幕遅延部２１は、遅延字幕信号Ｄｃｄとして、可変遅延時間Ｄｖａｒだけ遅延させた字幕信号Ｄｃを表示した字幕画面データを生成し、当該字幕画面データを合成部２２に供給してもよい。

また、字幕遅延部２１は、字幕なしの放送番組の場合、テキスト照合部１７から可変遅延時間Ｄｖａｒ及び字幕信号Ｄｃの供給を受ける代わりに、音声認識部１６から音声認識テキストＤｔを受信する。この場合、字幕遅延部２１は、音声認識部１６から受信した音声認識テキストＤｔを所定時間だけ遅延させた遅延字幕信号「Ｄｃｄ」を生成し、合成部２２へ供給する。この場合の所定時間は、例えば、字幕抽出部１４による字幕信号Ｄｃの抽出時点から字幕遅延部２１の処理時点までの経過時間を固定遅延時間Ｄｆｉｘから差し引いた時間、言い換えると、固定遅延時間Ｄｆｉｘからテキスト照合部１７による処理時間を減算した時間に相当し、例えば予め定められた値に設定される。

合成部２２は、映像音声デコード部１３から供給される遅延映像信号Ｄｖｄと、字幕遅延部２１から供給される遅延字幕信号Ｄｃｄに基づき、遅延映像信号Ｄｖｄに基づく映像画面と遅延字幕信号Ｄｃｄに基づく字幕画面との合成画面を表示するための字幕同期映像信号Ｄｃｖｄを生成し、字幕同期映像信号ＤｃｖｄをＴＶ受信機５２に供給する。その後、字幕同期映像信号Ｄｃｖｄは、ＴＶ受信機５２の表示回路へ供給される。

ここで、音声認識時間に要する時間を考慮した可変遅延時間Ｄｖａｒの算出方法について補足説明する。

図５は、音声認識部１６による音声認識処理の時間を考慮したタイミングチャートを示す。図５の例において、音声認識処理に要する音声認識時間を「ａ」としている。ここで、時刻ｔ０ａは、音声認識テキストＤｔがテキスト照合部１７に入力される時刻に相当している。よって、この場合、例えば、テキスト照合部１７は、字幕信号Ｄｃが入力される時刻ｔ１と音声認識テキストＤｔが入力される時刻ｔ０ａとの時間差に音声認識時間ａを加算することで、字幕遅延時間ΔＴを算出する。音声認識処理に要した時間は、例えば、予め定めた固定値（例えば２秒）とみなしてもよい。これにより、テキスト照合部１７は、音声認識時間を考慮した字幕遅延時間ΔＴを好適に算出することができる。

同様に、テキスト照合部１７は、自身が実行する照合処理に要する時間をさらに考慮して可変遅延時間Ｄｖａｒを決定してもよい。この場合、テキスト照合部１７は、算出した可変遅延時間Ｄｖａｒに対して照合処理に要した時間を減算する。照合処理に要した時間は、例えば、予め定めた固定値とみなしてもよい。

（３）処理フロー
図６は、本実施形態における字幕遅延制御装置６０の処理手順を示すフローチャートの一例である。字幕遅延制御装置６０は、図６に示すフローチャートの処理を繰り返し実行する。以下では、図５に示す字幕遅延制御装置６０の構成例を参照して説明を行う。

まず、字幕遅延制御装置６０の受信部１１は、放送波４０を受信する各種アンテナから供給される信号に基づきＴＳ信号を取得する（ステップＳ１０１）。そして、映像音声遅延部１２は、受信部１１が取得したＴＳ信号に含まれる音声信号及び映像信号の出力を固定遅延時間Ｄｆｉｘだけ遅延させる制御を行う（ステップＳ１０２）。また、字幕遅延制御装置６０の音声認識部１６は、音声認識処理を実行することで、音声信号から音声認識テキストＤｔを生成する（ステップＳ１０３）。

次に、ＴＳ信号が字幕信号を含む場合（ステップＳ１０４；Ｙｅｓ）、即ち、字幕抽出部１４による字幕信号Ｄｃの抽出が実行できた場合、テキスト照合部１７は、字幕信号Ｄｃと音声認識テキストＤｔとの対応付けができたか否か判定する。そして、テキスト照合部１７は、字幕信号Ｄｃと音声認識テキストＤｔとの対応付けができた場合（ステップＳ１０５；Ｙｅｓ）、対応付けができた字幕信号Ｄｃと音声認識テキストＤｔの組合せを含む照合データＤｍをリアルタイム学習部１８に供給する（ステップＳ１０６）。これにより、リアルタイム学習部１８が学習モデル記憶部１９に記憶すべき学習モデルの生成に必要な教師データを好適にリアルタイム学習部１８に供給することができる。

そして、テキスト照合部１７は、字幕信号Ｄｃに付与すべき可変遅延時間Ｄｖａｒの算出を行う（ステップＳ１０７）。この場合、例えば、テキスト照合部１７は、字幕遅延時間ΔＴを算出し、算出した字幕遅延時間ΔＴから固定遅延時間Ｄｆｉｘを減算することで、可変遅延時間Ｄｖａｒを算出する。

一方、字幕信号Ｄｃと音声認識テキストＤｔとの対応付けができなかった場合（ステップＳ１０５；Ｎｏ）、テキスト照合部１７は、過去に算出した可変遅延時間Ｄｖａｒの統計処理に基づき、今回使用する可変遅延時間Ｄｖａｒを推定する（ステップＳ１０８）。これにより、音声と字幕とを同期させるのに好適な可変遅延時間Ｄｖａｒを推定することができる。

そして、ステップＳ１０７又はステップＳ１０８で可変遅延時間Ｄｖａｒが算出又は推定された後、合成部２２は、当該可変遅延時間Ｄｖａｒに基づき、音声と同期したタイミングにより字幕を映像に重畳した字幕同期映像信号Ｄｃｖｄを生成する（ステップＳ１０９）。この場合、まず、字幕遅延部２１は、可変遅延時間Ｄｖａｒに基づき遅延させた遅延字幕信号Ｄｃｄを生成して合成部２２に供給し、合成部２２は、映像音声デコード部１３から供給される遅延映像信号Ｄｖｄ及び字幕遅延部２１から供給される遅延字幕信号Ｄｃｄに基づき、字幕同期映像信号Ｄｃｖｄを生成する。

一方、ＴＳ信号が字幕信号を含まない場合（ステップＳ１０４；Ｎｏ）、即ち、字幕抽出部１４による字幕信号Ｄｃの抽出ができなかった場合、合成部２２は、音声認識テキストＤｔを所定時間だけ遅延させて映像に重畳した字幕同期映像信号Ｄｃｖｄを生成する（ステップＳ１１０）。この場合、まず、字幕遅延部２１は、上述の所定時間だけ音声認識テキストＤｔを遅延させた遅延字幕信号Ｄｃｄを生成して合成部２２に供給し、合成部２２は、映像音声デコード部１３から供給される遅延映像信号Ｄｖｄ及び字幕遅延部２１から供給される遅延字幕信号Ｄｃｄに基づき、字幕同期映像信号Ｄｃｖｄを生成する。

そして、ステップＳ１０９又はステップＳ１１０の実行後、字幕遅延制御装置６０は、字幕同期映像信号Ｄｃｖｄ及び遅延音声信号ＤａｄをＴＶ受信機５２に供給することで、ＴＶ受信機５２に映像及び音声を出力させる（ステップＳ１１０）。この場合、字幕付き放送においては、字幕と音声とがページごとに好適に同期したタイミングにより出力され、字幕なし放送においても、音声認識された字幕と音声とがページごとに好適に同期したタイミングにより出力されることになる。

１０放送局、
２０放送送出システム、
４０放送波、
５０ユーザ環境、
５２ＴＶ受信機、
６０字幕遅延制御装置

Claims

字幕信号、映像信号、及び音声信号を含む多重信号を受信する受信部と、
前記映像信号及び前記音声信号を所定の固定遅延時間で遅延させ、遅延映像信号及び遅延音声信号を生成する映像音声遅延部と、
前記音声信号を音声認識したテキストを生成する音声認識部と、
前記字幕信号が示す字幕と対応する内容の前記テキストが検出された場合、当該テキストに対応する前記遅延音声信号に同期するように前記字幕を示す字幕信号を可変遅延時間だけ遅延させた遅延字幕信号を生成する字幕遅延部と、
前記遅延映像信号及び前記遅延字幕信号を合成した映像信号を生成する合成部と、を備えることを特徴とする字幕遅延制御装置。
前記字幕遅延部は、前記字幕と対応する内容の前記テキストが検出された場合、当該テキストに対応する音声信号に対する前記当該字幕を示す字幕信号の遅れ時間である字幕遅延時間に基づいて、前記可変遅延時間を決定する請求項１に記載の字幕遅延制御装置。
前記字幕遅延部は、前記固定遅延時間から前記字幕遅延時間を減算することにより、前記可変遅延時間を算出する請求項２に記載の字幕遅延制御装置。
前記固定遅延時間は、前記多重信号に含まれる前記字幕信号の最大の字幕遅延時間よりも大きく設定される請求項１〜３のいずれか一項に記載の字幕遅延制御装置。
前記字幕遅延部は、前記字幕信号が示す字幕と対応する内容の前記テキストが検出できない場合、過去に算出した可変遅延時間の統計量を、前記字幕信号を遅延させる可変遅延時間として算出する請求項１〜４のいずれか一項に記載の字幕遅延制御装置。
字幕なし放送に対応する映像信号及び音声信号を含む多重信号を前記受信部が受信した場合、前記合成部は、前記遅延映像信号に前記テキストを合成した映像信号を生成する請求項１〜５のいずれか一項に記載の字幕遅延制御装置。
字幕なし放送に対応する映像信号及び音声信号を含む多重信号を前記受信部が受信した場合、前記合成部は、前記遅延映像信号に所定時間だけ遅延させた前記テキストを合成した映像信号を生成する請求項６に記載の字幕遅延制御装置。
前記字幕と対応する内容の前記テキストが検出された場合、前記字幕と前記テキストとの組合せを示す情報に基づき学習を行う学習部をさらに備え、
字幕なし放送に対応する映像信号及び音声信号を含む多重信号を前記受信部が受信した場合、
前記音声認識部は、前記学習部による学習データに基づき、前記テキストの生成を行い、
前記合成部は、前記遅延映像信号に当該テキストを合成した映像信号を生成する請求項１〜７のいずれか一項に記載の字幕遅延制御装置。
字幕遅延制御装置が実行する制御方法であって、
字幕信号、映像信号、及び音声信号を含む多重信号を受信する受信工程と、
前記映像信号及び前記音声信号を所定の固定遅延時間で遅延させ、遅延映像信号及び遅延音声信号を生成する映像音声遅延工程と、
前記音声信号を音声認識したテキストを生成するテキスト生成工程と、
前記字幕信号が示す字幕と対応する内容の前記テキストが検出された場合、当該テキストに対応する前記遅延音声信号に同期するように前記字幕を示す字幕信号を可変遅延時間だけ遅延させた遅延字幕信号を生成する字幕遅延工程と、
前記遅延映像信号及び前記遅延字幕信号を合成した映像信号を生成する合成工程と、
を有することを特徴とする制御方法。
コンピュータが実行するプログラムであって、
字幕信号、映像信号、及び音声信号を含む多重信号を受信する受信部と、
前記映像信号及び前記音声信号を所定の固定遅延時間で遅延させ、遅延映像信号及び遅延音声信号を生成する映像音声遅延部と、
前記音声信号を音声認識したテキストを生成する音声認識部と、
前記字幕信号が示す字幕と対応する内容の前記テキストが検出された場合、当該テキストに対応する前記遅延音声信号に同期するように前記字幕を示す字幕信号を可変遅延時間だけ遅延させた遅延字幕信号を生成する字幕遅延部と、
前記遅延映像信号及び前記遅延字幕信号を合成した映像信号を生成する合成部
として前記コンピュータを機能させることを特徴とするプログラム。