JP2020115626A - 字幕遅延制御装置、制御方法及びプログラム - Google Patents
字幕遅延制御装置、制御方法及びプログラム Download PDFInfo
- Publication number
- JP2020115626A JP2020115626A JP2019006718A JP2019006718A JP2020115626A JP 2020115626 A JP2020115626 A JP 2020115626A JP 2019006718 A JP2019006718 A JP 2019006718A JP 2019006718 A JP2019006718 A JP 2019006718A JP 2020115626 A JP2020115626 A JP 2020115626A
- Authority
- JP
- Japan
- Prior art keywords
- subtitle
- signal
- delayed
- unit
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【課題】映像と字幕を時間軸上で同期させて再生することを可能とする。【解決手段】遅延制御装置は、受信部と、映像音声遅延部と、音声認識部と、字幕遅延部と、合成部とを備える。受信部は、字幕信号、映像信号、及び音声信号を含む多重信号を受信する。映像音声遅延部は、映像信号及び音声信号を所定の固定遅延時間で遅延させ、遅延映像信号及び遅延音声信号を生成する。音声認識部は、音声信号を音声認識したテキストを生成する。字幕遅延部は、字幕信号が示す字幕と対応する内容のテキストが検出された場合、当該テキストに対応する音声信号に同期するように字幕を示す字幕信号を可変遅延時間だけ遅延させ、遅延字幕信号を生成する。合成部は、遅延映像信号及び遅延字幕信号を合成した映像信号を生成する。【選択図】図6
Description
本発明は、字幕放送などの多重信号に基づいて、映像とその映像に対応する字幕とを時間的に同期させて再生する技術に関する。
ニュースなどの生のテレビ番組では、聴覚障害者向けサービスとして字幕を放送することが増えている。この「生」の字幕放送(「生字幕放送」、「リアルタイム字幕放送」などと呼ばれる。)では、時として映像に対して字幕が数秒〜数十秒遅れて放送され、視聴者が違和感を覚えることがある。これに対し、特許文献1には、生字幕放送において映像と字幕を時間軸上で同期させるため、放送側は、多重信号内に制御フラグを埋め込み、受信機側は、映像及び音声を固定時間遅延させつつ字幕を制御フラグの検出タイミングに基づいた可変時間だけ遅延させる技術が開示されている。
多重信号に制御フラグを埋め込む方式は、放送側が制御フラグを埋め込む必要があり、実現するには放送側及び受信機側の両方を調整する必要があった。
本発明は以上の点に鑑みてなされたものであり、映像と字幕を時間軸上で同期させて再生することを可能とする字幕遅延制御装置を提供することを目的とする。
本発明の1つの観点では、字幕遅延制御装置は、字幕信号、映像信号、及び音声信号を含む多重信号を受信する受信部と、前記映像信号及び前記音声信号を所定の固定遅延時間で遅延させ、遅延映像信号及び遅延音声信号を生成する映像音声遅延部と、前記音声信号を音声認識したテキストを生成する音声認識部と、前記字幕信号が示す字幕と対応する内容の前記テキストが検出された場合、当該テキストに対応する前記遅延音声信号に同期するように前記字幕を示す字幕信号を可変遅延時間だけ遅延させた遅延字幕信号を生成する字幕遅延部と、前記遅延映像信号及び前記遅延字幕信号を合成した映像信号を生成する合成部と、を備える。
上記の遅延制御装置は、放送局から送信される字幕放送を受信する環境に配置され、例えばTV受信機や録画機などに内蔵してもよく、TV受信機に接続されるセットトップボックスとすることができる。遅延制御装置は、受信部と、映像音声遅延部と、音声認識部と、字幕遅延部と、合成部とを備える。受信部は、字幕信号、映像信号、及び音声信号を含む多重信号を受信する。映像音声遅延部は、映像信号及び音声信号を所定の固定遅延時間で遅延させ、遅延映像信号及び遅延音声信号を生成する。音声認識部は、音声信号を音声認識したテキストを生成する。字幕遅延部は、字幕信号が示す字幕と対応する内容のテキストが検出された場合、当該テキストに対応する音声信号に同期するように字幕を示す字幕信号を可変遅延時間だけ遅延させた遅延字幕信号を生成する。合成部は、遅延映像信号及び遅延字幕信号を合成した映像信号を生成する。この態様では、遅延制御装置は、字幕信号に基づく字幕に対応する音声信号を検出し、その音声信号を遅延させた遅延音声信号と同じタイミングで出力されるように遅延字幕信号を生成する。これにより、字幕遅延制御装置は、多重信号に対する放送側の仕様変更を必要とすることなく、映像及び音声と的確に同期させた字幕が表示される映像信号を好適に生成することができる。
上記字幕遅延制御装置の一態様では、前記字幕遅延部は、前記字幕と対応する内容の前記テキストが検出された場合、当該テキストに対応する音声信号に対する前記当該字幕を示す字幕信号の遅れ時間である字幕遅延時間に基づいて、前記可変遅延時間を決定する。ここで、映像と字幕との時間軸上の同期を確保する際には、字幕毎にその遅れ時間が異なる点が問題である。上記の字幕遅延制御装置では、映像信号は一律に固定遅延時間だけ遅延し、字幕データはその字幕データ毎の字幕遅延時間に応じた可変遅延時間で遅延させるので、字幕データ毎に字幕遅延時間が異なる場合でも、映像及び音声と字幕とを確実に同期させて再生することが可能となる。
上記字幕遅延制御装置の他の一態様では、前記字幕遅延部は、前記固定遅延時間から前記字幕遅延時間を減算することにより、前記可変遅延時間を算出する。この態様により、字幕遅延制御装置は、単純な処理で可変遅延時間を算出することができる。
上記字幕遅延制御装置の他の一態様では、前記固定遅延時間は、前記多重信号に含まれる前記字幕信号の最大の字幕遅延時間よりも大きく設定される。これにより、字幕データ毎の字幕遅延時間に応じた可変遅延時間で字幕を遅延させる場合であっても、映像及び音声と字幕とを好適に同期させて再生することが可能となる。
上記字幕遅延制御装置の他の一態様では、前記字幕遅延部は、前記字幕信号が示す字幕と対応する内容の前記テキストが検出できない場合、過去に算出した可変遅延時間の統計量を、前記字幕信号を遅延させる可変遅延時間として算出する。上述の統計量は、平均値、中央値、代表値、その他の任意の統計量であってもよい。この態様により、字幕遅延制御装置は、字幕信号が示す字幕と対応する内容のテキストが検出できない場合であっても、字幕信号に適用すべき可変遅延時間を好適に算出することができる。
上記字幕遅延制御装置の他の一態様では、字幕なし放送に対応する映像信号及び音声信号を含む多重信号を前記受信部が受信した場合、前記合成部は、前記遅延映像信号に前記テキストを合成した映像信号を生成する。この態様により、字幕遅延制御装置は、字幕なし放送の場合であっても、音声信号に基づき音声認識した字幕を映像に重畳した映像信号を好適に生成することができる。
上記字幕遅延制御装置の他の一態様では、字幕なし放送に対応する映像信号及び音声信号を含む多重信号を前記受信部が受信した場合、前記合成部は、前記遅延映像信号に所定時間だけ遅延させた前記テキストを合成した映像信号を生成する。この態様により、字幕遅延制御装置は、字幕なし放送の場合であっても、音声信号に基づき音声認識した字幕を映像に重畳した映像信号を、対応する音声に同期したタイミングで出力されるように好適に調整することができる。
上記字幕遅延制御装置の他の一態様では、字幕遅延制御装置は、前記字幕と対応する内容の前記テキストが検出された場合、前記字幕と前記テキストとの組合せを示す情報に基づき学習を行う学習部をさらに備え、字幕なし放送に対応する映像信号及び音声信号を含む多重信号を前記受信部が受信した場合、前記音声認識部は、前記学習部による学習データに基づき、前記テキストの生成を行い、前記合成部は、前記遅延映像信号に当該テキストを合成した映像信号を生成する。この態様では、字幕遅延制御装置は、字幕付き放送のときに得られる字幕と音声認識したテキストとを教師データとして学習部に供給して学習部に学習を実行させる。これにより、字幕遅延制御装置は、字幕なし放送の場合に、学習部が生成した学習データに基づき、字幕として出力するテキストを好適に生成することができる。
本発明の他の観点では、字幕遅延制御装置が実行する制御方法であって、字幕信号、映像信号、及び音声信号を含む多重信号を受信する受信工程と、前記映像信号及び前記音声信号を所定の固定遅延時間で遅延させ、遅延映像信号及び遅延音声信号を生成する映像音声遅延工程と、前記音声信号を音声認識したテキストを生成するテキスト生成工程と、前記字幕信号が示す字幕と対応する内容の前記テキストが検出された場合、当該テキストに対応する前記遅延音声信号に同期するように前記字幕を示す字幕信号を可変遅延時間だけ遅延させた遅延字幕信号を生成する字幕遅延工程と、前記遅延映像信号及び前記遅延字幕信号を合成した映像信号を生成する合成工程と、を有する。字幕遅延制御装置は、この制御方法を実行することで、映像及び音声と的確に同期させた字幕が表示される映像信号を好適に生成することができる。
本発明の他の観点では、コンピュータが実行するプログラムであって、字幕信号、映像信号、及び音声信号を含む多重信号を受信する受信部と、前記映像信号及び前記音声信号を所定の固定遅延時間で遅延させ、遅延映像信号及び遅延音声信号を生成する映像音声遅延部と、前記音声信号を音声認識したテキストを生成する音声認識部と、前記字幕信号が示す字幕と対応する内容の前記テキストが検出された場合、当該テキストに対応する前記遅延音声信号に同期するように前記字幕を示す字幕信号を可変遅延時間だけ遅延させた遅延字幕信号を生成する字幕遅延部と、前記遅延映像信号及び前記遅延字幕信号を合成した映像信号を生成する合成部として前記コンピュータを機能させる。上記のプログラムをコンピュータ上で実行することにより、上記の字幕遅延制御装置を好適に実現することが可能となる。
本発明によれば、字幕信号に基づく字幕に対応する音声信号を検出し、その音声信号を遅延させた遅延音声信号と同じタイミングで出力されるように遅延字幕信号を生成することができる。従って、映像及び音声と的確に同期させた字幕が表示される映像信号を好適に生成することができる。
以下、図面を参照しながら、本発明を実施するのに好適な実施形態について説明する。
[放送システムの概要]
図1は、本実施形態における放送システムの構成例を示す。図1では、放送局10がユーザ環境50に対してテレビ放送を行っている。
図1は、本実施形態における放送システムの構成例を示す。図1では、放送局10がユーザ環境50に対してテレビ放送を行っている。
放送局10内では、放送送出システム20が映像信号及び音声信号に字幕信号を任意に含んだ信号を作成し、これを放送波40に乗せて送出する。
ユーザ環境50は、字幕遅延制御装置60と、TV受信機52とを含んでいる。字幕遅延制御装置60は、放送波40を受信し、映像と字幕とが時間軸上で同期した字幕付き映像信号(「字幕同期映像信号」とも呼ぶ。)と、音声信号とを含む信号53を生成してTV受信機52へ供給する。字幕遅延制御装置60は、字幕信号が含まれない放送波40を受信した場合には、音声信号に基づき字幕を生成して映像信号に重畳させる。字幕遅延制御装置60は、例えば、TV受信機52に接続されるセットトップボックス、TV受信機52に搭載されるLSI、HDD(HarDDisk)レコーダなどの録画機に搭載されるLSIなどである。字幕遅延制御装置60は、本発明における「字幕遅延制御装置」の一例である。
TV受信機52は、字幕遅延制御装置60から受信した信号53に含まれる字幕同期映像信号及び音声信号を再生する。これにより、ユーザは、生字幕放送を、映像と字幕とが時間的に同期した状態で視聴することができる。
[字幕遅延の概要]
次に、生字幕放送において生じる字幕遅延の概要について説明する。
次に、生字幕放送において生じる字幕遅延の概要について説明する。
テレビ等の番組は、事前にVTRなどに収録したパッケージ番組と、ニュースなどの様に生放送の番組に大別される。これらの番組に字幕を付与する場合、パッケージ番組では、映像信号などと字幕信号を一緒にVTRなどに記録し放送する方法と、映像信号などをVTRなどに記録し、放送時に字幕信号を付加する方法があり、それらは共にパッケージ字幕放送番組である。また、ニュース番組など生放送の放送時に、リアルタイムで字幕を付加する生字幕(リアルタイム字幕)放送番組がある。
生字幕放送番組の場合、TV映像の生放送中に、リアルタイムで字幕を生成し、TV映像に挿入して放送するため、字幕はTV映像の放送に対して時間的に遅れて表示されることになる。パッケージ字幕放送番組ではあらかじめ字幕を制作しておき、映像と完全に合ったタイミングで字幕データをページ単位で送出できるが、リアルタイム字幕番組では、字幕の重畳タイミングがリアルタイムでなく、若干遅れたタイミングで行われる。
図2は、字幕の遅延を説明する図である。図2に示すように、字幕データの送出が映像より遅れる。図2において、字幕の入力開始タイミングと、対応する字幕データが重畳されるタイミングとのずれ(「字幕遅延時間」とも呼ぶ。)が「ΔT」で示されている。言い換えると、ΔTは、字幕ページ毎の字幕遅延時間である。
図2に示すように、ページ単位ごとの放送局の字幕入力者が、放送される映像を見ながら字幕をキー入力し、漢字変換、誤変換訂正などを行って字幕データを作成した後で、始めて字幕データを重畳するため、字幕データの送出が映像より遅れる。なお、映像カット毎に字幕の内容が異なり、それに応じて字幕データの作成に要する時間が異なるため、字幕遅延時間ΔTは映像カット毎に異なったものとなる(ΔT1〜ΔT3)。
このように、生字幕放送番組では、映像と字幕データとの間に字幕遅延時間ΔTが存在する。よって、受信機側で映像と字幕データを時間的に同期させて再生するためには、字幕遅延時間ΔTまたはこれに相当する時間を的確に受信機側(即ち字幕遅延制御装置60)が特定し、字幕遅延を補償する制御を行うことが必要となる。以上を勘案し、本実施形態における字幕遅延制御装置60は、字幕遅延を補償する制御を行う。これにより、字幕遅延制御装置60は、TV受信機52による映像と字幕データとの同期再生を実現する。
なお、字幕の出力タイミングの決定方法として、放送局10が所定の制御信号を放送波40に含めることで字幕の出力タイミング等を受信機側である字幕遅延制御装置60に伝える方法と、字幕遅延制御装置60が放送波40に基づき字幕の出力タイミングを決定する方法とが考えられる。本実施形態では、後者の方法に基づき字幕の出力タイミングを決定する。これにより、放送局10における変更を何ら必要とすることなく、TV受信機52による映像と字幕データとの同期再生を実現する。
[字幕遅延制御]
次に、上述した字幕遅延を補償する制御である字幕遅延制御について説明する。
次に、上述した字幕遅延を補償する制御である字幕遅延制御について説明する。
(1)概要
まず、字幕遅延制御装置60による字幕遅延制御の概要について説明する。概略的には、字幕遅延制御装置60は、映像信号と音声信号とを予め字幕の最大遅延を見込んだ固定遅延時間「Dfix」を与え、字幕信号に対しては固定遅延時間Dfixより短い可変遅延時間「Dvar」を与える。このとき、字幕遅延制御装置60は、音声信号から音声認識により得られたテキストと字幕信号に基づく字幕との対応付けを行い、対応付けができたこれらの信号の入力時刻の差に基づき字幕遅延時間ΔTを算出し、算出した字幕遅延時間ΔTに基づき可変遅延時間Dvarを決定する。
まず、字幕遅延制御装置60による字幕遅延制御の概要について説明する。概略的には、字幕遅延制御装置60は、映像信号と音声信号とを予め字幕の最大遅延を見込んだ固定遅延時間「Dfix」を与え、字幕信号に対しては固定遅延時間Dfixより短い可変遅延時間「Dvar」を与える。このとき、字幕遅延制御装置60は、音声信号から音声認識により得られたテキストと字幕信号に基づく字幕との対応付けを行い、対応付けができたこれらの信号の入力時刻の差に基づき字幕遅延時間ΔTを算出し、算出した字幕遅延時間ΔTに基づき可変遅延時間Dvarを決定する。
図3は、ページごとの音声信号及び字幕信号の入力タイミングと、映像、音声及び字幕の出力タイミングとを表したタイミングチャートである。図3では、ページ単位の音声及び字幕として、「おはようございます。今日のニュースをお伝えします。」という内容の文章を出力する場合について例示している。
時刻t0は、上記文章に相当する音声信号(及び映像信号)が入力される時刻を示す。字幕遅延制御装置60は、入力された音声信号及び映像信号に基づく音声及び映像を直ちに出力させず、字幕の最大遅延を見込んだ固定遅延時間Dfixだけ、映像信号と音声信号との出力タイミングを遅延させる。従って、字幕遅延制御装置60は、時刻t0から固定遅延時間Dfixだけ経過した時刻t2において、時刻t0から入力された音声信号及び映像信号に基づく音声及び映像を出力する。よって、「おはようございます。今日のニュースをお伝えします。」は、時刻t2から出力される。
時刻t1は、上記文章を示す字幕を表示するための字幕信号が入力される時刻を示す。図3に示すように、字幕信号の入力タイミング(即ち、放送波40から字幕信号の抽出を開始する時刻)は、[字幕遅延の概要]のセクションで述べた事情により、時刻t0と時刻t1との差に相当する字幕遅延時間ΔTだけ遅れている。
このとき、字幕遅延制御装置60は、時刻t0から受信した音声信号を音声認識したテキスト(「音声認識テキスト」とも呼ぶ。)と、時刻t1から受信する字幕信号に基づく字幕(「放送字幕」とも呼ぶ。)との照合を行い、対応付けを行う。そして、字幕遅延制御装置60は、音声認識テキストと放送字幕との対応付けができた場合、対応付けができた音声認識テキストに対応する音声信号の入力開始時刻である時刻t0と、対応付けができた放送字幕を示す字幕信号の入力開始時刻である時刻t1との時間差を、字幕遅延時間ΔTとして算出する。
ここで、図3に示されるように、字幕遅延時間Dと、字幕遅延時間ΔTと、固定遅延時間Dfixとは、以下の式(1)の関係が成立する。
Dvar = Dfix − ΔT (1)
Dvar = Dfix − ΔT (1)
従って、字幕遅延制御装置60は、式(1)に基づき、算出した字幕遅延時間ΔTを固定遅延時間Dfixから減算することで、対応付けができた放送字幕に付与する可変遅延時間Dvarを算出する。そして、字幕遅延制御装置60は、算出した可変遅延時間Dvarを対象の字幕信号に付与する。これにより、字幕遅延制御装置60は、字幕信号の入力時刻と、予め定めた固定時間時間Dfixと音声信号の入力時刻とに基づき特定される発話開始時刻(即ち音声出力開始時刻)との時間差(図3ではt2−t1)だけ字幕の出力タイミングを遅延させることができる。従って、字幕遅延制御装置60は、音声の出力タイミングと、当該音声と対応関係を有する放送字幕の出力タイミングとを、ページごとに好適に同期させることができる。
(2)字幕遅延制御装置の機能構成
次に、上述した字幕遅延制御を含む機能を搭載した字幕遅延制御装置60の具体的構成について説明する。ここでは、一例として、字幕遅延制御装置60をセットトップボックスとした場合の構成について説明する。
次に、上述した字幕遅延制御を含む機能を搭載した字幕遅延制御装置60の具体的構成について説明する。ここでは、一例として、字幕遅延制御装置60をセットトップボックスとした場合の構成について説明する。
図4は、字幕遅延制御装置60のブロック構成図である。図4に示すように、字幕遅延制御装置60は、受信部11と、映像音声遅延部12と、映像音声デコード部13と、字幕抽出部14と、音声抽出部15と、音声認識部16と、テキスト照合部17と、リアルタイム学習部18と、学習モデル記憶部19と、字幕遅延部21と、合成部22とを含む。これらの各要素は、CPU、DSP、ROM、RAM、その他の専用ハードウェア等によって実現される。
受信部11は、地上デジタルアンテナ、BS・CSアンテナなどから供給される信号から選局処理、誤り訂正、Bキャスカードによるデスクランブル処理などを行い、TS(Transport Stream)信号を生成する。そして、受信部11は、生成したTS信号を、映像音声遅延部12、字幕抽出部14、音声抽出部15へそれぞれ供給する。
映像音声遅延部12は、字幕の最大遅延を見込んだ固定遅延時間Dfixだけ、TS信号に含まれる映像信号と音声信号を遅延させる制御を行う。そして、映像音声遅延部12は、固定遅延時間Dfixだけ遅延させた遅延映像音声信号「Dtsd」を映像音声デコード部13へ供給する。
映像音声デコード部13は、映像音声遅延部12から供給された遅延映像音声信号Dtsdに含まれる遅延音声信号についてデコードを行い、デコードされた遅延音声信号「Dad」をTV受信機52へ供給する。その後、遅延音声信号Dadは、図1に示した信号53の一部として、TV受信機52の音声回路へ供給される。また、映像音声デコード部13は、映像音声遅延部12から供給された遅延映像音声信号Dtsdに含まれる遅延映像信号についてデコードを行い、デコードされた遅延映像信号「Dvd」を合成部22へ供給する。
字幕抽出部14は、TS信号から字幕信号を抽出することで、生字幕データに相当する字幕信号「Dc」を生成する。そして、字幕抽出部14は、字幕信号Dcをテキスト照合部17へ供給する。なお、ARIB標準規格では、字幕の伝送方法として、まずページ単位の字幕データを収容した字幕データユニットをデータグループとして構成し、これをデータバイトに収容したPES(Packetized Elementary Stream)としてTS信号に乗せて放送すると規定している。従って、1枚の字幕ページについて少なくとも1個のPESが生成されることになる。
音声抽出部15は、TS信号から音声信号を抽出し、デコードした音声信号「Da」を音声認識部16へ供給する。
音声認識部16は、音声信号Daを音声抽出部15から供給された場合に、当該音声信号Daに対して音声認識処理を実行することで、音声認識テキストDtを生成し、テキスト照合部17へ音声認識テキストDtを供給する。また、音声認識部16は、音声認識テキストDtをテキスト照合部17へ供給するのに加えて、音声認識テキストDtを字幕遅延部21に対しても供給する。これにより、字幕なし放送番組においても、自動生成した字幕を好適に付与することが可能となる。
ここで、音声認識部16は、学習モデル記憶部19を有するリアルタイム学習部18と電気的に接続しており、音声信号Daが供給された場合に、音声認識処理において、リアルタイム学習部18から供給を受けた学習モデルに基づき、音声認識テキストDtを生成する。上述の学習モデルは、音声認識を実行するために用いられる学習器に対する学習パラメータ等であってもよく、音声信号Daから認識した文章を字幕用の文章に修正するための対応テーブル等であってもよい。音声認識部16は、この学習モデルを用いて、放送字幕と同様の音声認識テキストDtを好適に生成する。学習モデルは、本発明における「学習データ」の一例である。
テキスト照合部17は、字幕抽出部14から供給される字幕信号Dcに基づくページごとの放送字幕と、音声認識部16から供給される音声認識テキストDtとの対応付け(照合)を行う。この場合、例えば、テキスト照合部17は、放送字幕と音声認識テキストDtとを部分(例えば文節)ごとに比較し、それぞれの部分ごとの類似度に基づき、放送字幕と音声認識テキストDtとの対応付けを試みる。そして、テキスト照合部17は、放送字幕に対応する音声認識テキストDtを検出できた場合、可変遅延時間Dvarを算出し、算出した可変遅延時間Dvarと字幕信号Dcとを字幕遅延部21に供給する。なお、音声により出力される文章とこれに対応する放送字幕とは、完全一致するとは限らないため、テキスト照合部17は、例えば、これらが実質的に同一内容を示していると判断される場合(所定値以上の類似度を有する場合)に、これらの対応関係が存在すると判定する。
ここで、テキスト照合部17による可変遅延時間Dvarの算出方法について補足説明する。テキスト照合部17は、照合により対応関係があると判定した場合、可変遅延時間Dvarを算出する。例えば、テキスト照合部17は、字幕信号Dcが入力された時刻を図3における時刻t1、対応する音声認識テキストDtが入力された時刻を図3における時刻t0とみなし、これらの時間差を字幕遅延時間ΔTとして算出する。そして、テキスト照合部17は、式(1)に基づき、予め記憶した固定遅延時間Dfixから、算出した字幕遅延時間ΔTを減算することで、可変遅延時間Dvarを算出する。なお、音声認識時間を考慮した可変遅延時間Dvarの算出については、図5を参照して後述する。
また、テキスト照合部17は、字幕信号Dcが示す放送字幕に対応する音声認識テキストDtを検出できなかったこと等に起因して、可変遅延時間Dvarを算出できなかった場合、過去に算出した可変遅延時間Dvarを統計処理することで、今回使用すべき可変遅延時間Dvarを算出する。この場合、テキスト照合部17は、例えば、直前に算出した所定個分の可変遅延時間Dvarの平均値、中央値、その他の統計量を、今回適用すべき可変遅延時間Dvarとして算出する。これにより、テキスト照合部17は、字幕信号Dcが示す放送字幕に対応する音声認識テキストDtを検出できなかった場合であっても、音声と字幕とを同期させるために必要な可変遅延時間Dvarを字幕遅延部21に好適に供給することができる。
また、テキスト照合部17は、対応付けができた字幕信号Dc及び音声認識テキストDtの組合せを示した照合データ「Dm」を、リアルタイム学習部18に供給する。リアルタイム学習部18は、テキスト照合部17から受信した照合データDmに基づき、学習モデルの学習を行う。具体的には、リアルタイム学習部18は、照合データDmを教師データとして、学習モデルを教師あり学習により生成する。この教師あり学習は、ニューラルネットワーク、サポートベクターマシーンなどの任意の手法を用いたものであってよい。これにより、リアルタイム学習部18は、字幕なし放送番組において字幕として使用される音声認識テキストDtの生成に用いる学習モデルを好適に生成する。リアルタイム学習部18は、例えば、機械学習用のプロセッサにより構成される。
学習モデル記憶部19は、リアルタイム学習部18が生成した学習モデルを格納するメモリ等である。なお、学習モデル記憶部19は、リアルタイム学習部18が生成した学習モデルの他、予め生成された学習モデルを字幕遅延制御装置60の製造段階などにおいて記憶してもよい。
字幕遅延部21は、テキスト照合部17から供給される可変遅延時間Dvar及び字幕信号Dcに基づき、字幕信号Dcを可変遅延時間Dvarだけ遅延させた遅延字幕信号「Dcd」を生成し、合成部22へ供給する。なお、字幕遅延部21は、遅延字幕信号Dcdとして、可変遅延時間Dvarだけ遅延させた字幕信号Dcを表示した字幕画面データを生成し、当該字幕画面データを合成部22に供給してもよい。
また、字幕遅延部21は、字幕なしの放送番組の場合、テキスト照合部17から可変遅延時間Dvar及び字幕信号Dcの供給を受ける代わりに、音声認識部16から音声認識テキストDtを受信する。この場合、字幕遅延部21は、音声認識部16から受信した音声認識テキストDtを所定時間だけ遅延させた遅延字幕信号「Dcd」を生成し、合成部22へ供給する。この場合の所定時間は、例えば、字幕抽出部14による字幕信号Dcの抽出時点から字幕遅延部21の処理時点までの経過時間を固定遅延時間Dfixから差し引いた時間、言い換えると、固定遅延時間Dfixからテキスト照合部17による処理時間を減算した時間に相当し、例えば予め定められた値に設定される。
合成部22は、映像音声デコード部13から供給される遅延映像信号Dvdと、字幕遅延部21から供給される遅延字幕信号Dcdに基づき、遅延映像信号Dvdに基づく映像画面と遅延字幕信号Dcdに基づく字幕画面との合成画面を表示するための字幕同期映像信号Dcvdを生成し、字幕同期映像信号DcvdをTV受信機52に供給する。その後、字幕同期映像信号Dcvdは、TV受信機52の表示回路へ供給される。
ここで、音声認識時間に要する時間を考慮した可変遅延時間Dvarの算出方法について補足説明する。
図5は、音声認識部16による音声認識処理の時間を考慮したタイミングチャートを示す。図5の例において、音声認識処理に要する音声認識時間を「a」としている。ここで、時刻t0aは、音声認識テキストDtがテキスト照合部17に入力される時刻に相当している。よって、この場合、例えば、テキスト照合部17は、字幕信号Dcが入力される時刻t1と音声認識テキストDtが入力される時刻t0aとの時間差に音声認識時間aを加算することで、字幕遅延時間ΔTを算出する。音声認識処理に要した時間は、例えば、予め定めた固定値(例えば2秒)とみなしてもよい。これにより、テキスト照合部17は、音声認識時間を考慮した字幕遅延時間ΔTを好適に算出することができる。
同様に、テキスト照合部17は、自身が実行する照合処理に要する時間をさらに考慮して可変遅延時間Dvarを決定してもよい。この場合、テキスト照合部17は、算出した可変遅延時間Dvarに対して照合処理に要した時間を減算する。照合処理に要した時間は、例えば、予め定めた固定値とみなしてもよい。
(3)処理フロー
図6は、本実施形態における字幕遅延制御装置60の処理手順を示すフローチャートの一例である。字幕遅延制御装置60は、図6に示すフローチャートの処理を繰り返し実行する。以下では、図5に示す字幕遅延制御装置60の構成例を参照して説明を行う。
図6は、本実施形態における字幕遅延制御装置60の処理手順を示すフローチャートの一例である。字幕遅延制御装置60は、図6に示すフローチャートの処理を繰り返し実行する。以下では、図5に示す字幕遅延制御装置60の構成例を参照して説明を行う。
まず、字幕遅延制御装置60の受信部11は、放送波40を受信する各種アンテナから供給される信号に基づきTS信号を取得する(ステップS101)。そして、映像音声遅延部12は、受信部11が取得したTS信号に含まれる音声信号及び映像信号の出力を固定遅延時間Dfixだけ遅延させる制御を行う(ステップS102)。また、字幕遅延制御装置60の音声認識部16は、音声認識処理を実行することで、音声信号から音声認識テキストDtを生成する(ステップS103)。
次に、TS信号が字幕信号を含む場合(ステップS104;Yes)、即ち、字幕抽出部14による字幕信号Dcの抽出が実行できた場合、テキスト照合部17は、字幕信号Dcと音声認識テキストDtとの対応付けができたか否か判定する。そして、テキスト照合部17は、字幕信号Dcと音声認識テキストDtとの対応付けができた場合(ステップS105;Yes)、対応付けができた字幕信号Dcと音声認識テキストDtの組合せを含む照合データDmをリアルタイム学習部18に供給する(ステップS106)。これにより、リアルタイム学習部18が学習モデル記憶部19に記憶すべき学習モデルの生成に必要な教師データを好適にリアルタイム学習部18に供給することができる。
そして、テキスト照合部17は、字幕信号Dcに付与すべき可変遅延時間Dvarの算出を行う(ステップS107)。この場合、例えば、テキスト照合部17は、字幕遅延時間ΔTを算出し、算出した字幕遅延時間ΔTから固定遅延時間Dfixを減算することで、可変遅延時間Dvarを算出する。
一方、字幕信号Dcと音声認識テキストDtとの対応付けができなかった場合(ステップS105;No)、テキスト照合部17は、過去に算出した可変遅延時間Dvarの統計処理に基づき、今回使用する可変遅延時間Dvarを推定する(ステップS108)。これにより、音声と字幕とを同期させるのに好適な可変遅延時間Dvarを推定することができる。
そして、ステップS107又はステップS108で可変遅延時間Dvarが算出又は推定された後、合成部22は、当該可変遅延時間Dvarに基づき、音声と同期したタイミングにより字幕を映像に重畳した字幕同期映像信号Dcvdを生成する(ステップS109)。この場合、まず、字幕遅延部21は、可変遅延時間Dvarに基づき遅延させた遅延字幕信号Dcdを生成して合成部22に供給し、合成部22は、映像音声デコード部13から供給される遅延映像信号Dvd及び字幕遅延部21から供給される遅延字幕信号Dcdに基づき、字幕同期映像信号Dcvdを生成する。
一方、TS信号が字幕信号を含まない場合(ステップS104;No)、即ち、字幕抽出部14による字幕信号Dcの抽出ができなかった場合、合成部22は、音声認識テキストDtを所定時間だけ遅延させて映像に重畳した字幕同期映像信号Dcvdを生成する(ステップS110)。この場合、まず、字幕遅延部21は、上述の所定時間だけ音声認識テキストDtを遅延させた遅延字幕信号Dcdを生成して合成部22に供給し、合成部22は、映像音声デコード部13から供給される遅延映像信号Dvd及び字幕遅延部21から供給される遅延字幕信号Dcdに基づき、字幕同期映像信号Dcvdを生成する。
そして、ステップS109又はステップS110の実行後、字幕遅延制御装置60は、字幕同期映像信号Dcvd及び遅延音声信号DadをTV受信機52に供給することで、TV受信機52に映像及び音声を出力させる(ステップS110)。この場合、字幕付き放送においては、字幕と音声とがページごとに好適に同期したタイミングにより出力され、字幕なし放送においても、音声認識された字幕と音声とがページごとに好適に同期したタイミングにより出力されることになる。
10 放送局、
20 放送送出システム、
40 放送波、
50 ユーザ環境、
52 TV受信機、
60 字幕遅延制御装置
20 放送送出システム、
40 放送波、
50 ユーザ環境、
52 TV受信機、
60 字幕遅延制御装置
Claims (10)
- 字幕信号、映像信号、及び音声信号を含む多重信号を受信する受信部と、
前記映像信号及び前記音声信号を所定の固定遅延時間で遅延させ、遅延映像信号及び遅延音声信号を生成する映像音声遅延部と、
前記音声信号を音声認識したテキストを生成する音声認識部と、
前記字幕信号が示す字幕と対応する内容の前記テキストが検出された場合、当該テキストに対応する前記遅延音声信号に同期するように前記字幕を示す字幕信号を可変遅延時間だけ遅延させた遅延字幕信号を生成する字幕遅延部と、
前記遅延映像信号及び前記遅延字幕信号を合成した映像信号を生成する合成部と、を備えることを特徴とする字幕遅延制御装置。 - 前記字幕遅延部は、前記字幕と対応する内容の前記テキストが検出された場合、当該テキストに対応する音声信号に対する前記当該字幕を示す字幕信号の遅れ時間である字幕遅延時間に基づいて、前記可変遅延時間を決定する請求項1に記載の字幕遅延制御装置。
- 前記字幕遅延部は、前記固定遅延時間から前記字幕遅延時間を減算することにより、前記可変遅延時間を算出する請求項2に記載の字幕遅延制御装置。
- 前記固定遅延時間は、前記多重信号に含まれる前記字幕信号の最大の字幕遅延時間よりも大きく設定される請求項1〜3のいずれか一項に記載の字幕遅延制御装置。
- 前記字幕遅延部は、前記字幕信号が示す字幕と対応する内容の前記テキストが検出できない場合、過去に算出した可変遅延時間の統計量を、前記字幕信号を遅延させる可変遅延時間として算出する請求項1〜4のいずれか一項に記載の字幕遅延制御装置。
- 字幕なし放送に対応する映像信号及び音声信号を含む多重信号を前記受信部が受信した場合、前記合成部は、前記遅延映像信号に前記テキストを合成した映像信号を生成する請求項1〜5のいずれか一項に記載の字幕遅延制御装置。
- 字幕なし放送に対応する映像信号及び音声信号を含む多重信号を前記受信部が受信した場合、前記合成部は、前記遅延映像信号に所定時間だけ遅延させた前記テキストを合成した映像信号を生成する請求項6に記載の字幕遅延制御装置。
- 前記字幕と対応する内容の前記テキストが検出された場合、前記字幕と前記テキストとの組合せを示す情報に基づき学習を行う学習部をさらに備え、
字幕なし放送に対応する映像信号及び音声信号を含む多重信号を前記受信部が受信した場合、
前記音声認識部は、前記学習部による学習データに基づき、前記テキストの生成を行い、
前記合成部は、前記遅延映像信号に当該テキストを合成した映像信号を生成する請求項1〜7のいずれか一項に記載の字幕遅延制御装置。 - 字幕遅延制御装置が実行する制御方法であって、
字幕信号、映像信号、及び音声信号を含む多重信号を受信する受信工程と、
前記映像信号及び前記音声信号を所定の固定遅延時間で遅延させ、遅延映像信号及び遅延音声信号を生成する映像音声遅延工程と、
前記音声信号を音声認識したテキストを生成するテキスト生成工程と、
前記字幕信号が示す字幕と対応する内容の前記テキストが検出された場合、当該テキストに対応する前記遅延音声信号に同期するように前記字幕を示す字幕信号を可変遅延時間だけ遅延させた遅延字幕信号を生成する字幕遅延工程と、
前記遅延映像信号及び前記遅延字幕信号を合成した映像信号を生成する合成工程と、
を有することを特徴とする制御方法。 - コンピュータが実行するプログラムであって、
字幕信号、映像信号、及び音声信号を含む多重信号を受信する受信部と、
前記映像信号及び前記音声信号を所定の固定遅延時間で遅延させ、遅延映像信号及び遅延音声信号を生成する映像音声遅延部と、
前記音声信号を音声認識したテキストを生成する音声認識部と、
前記字幕信号が示す字幕と対応する内容の前記テキストが検出された場合、当該テキストに対応する前記遅延音声信号に同期するように前記字幕を示す字幕信号を可変遅延時間だけ遅延させた遅延字幕信号を生成する字幕遅延部と、
前記遅延映像信号及び前記遅延字幕信号を合成した映像信号を生成する合成部
として前記コンピュータを機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019006718A JP2020115626A (ja) | 2019-01-18 | 2019-01-18 | 字幕遅延制御装置、制御方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019006718A JP2020115626A (ja) | 2019-01-18 | 2019-01-18 | 字幕遅延制御装置、制御方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020115626A true JP2020115626A (ja) | 2020-07-30 |
Family
ID=71778788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019006718A Pending JP2020115626A (ja) | 2019-01-18 | 2019-01-18 | 字幕遅延制御装置、制御方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020115626A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113766342A (zh) * | 2021-08-10 | 2021-12-07 | 安徽听见科技有限公司 | 字幕合成方法及相关装置、电子设备、存储介质 |
-
2019
- 2019-01-18 JP JP2019006718A patent/JP2020115626A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113766342A (zh) * | 2021-08-10 | 2021-12-07 | 安徽听见科技有限公司 | 字幕合成方法及相关装置、电子设备、存储介质 |
CN113766342B (zh) * | 2021-08-10 | 2023-07-18 | 安徽听见科技有限公司 | 字幕合成方法及相关装置、电子设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10785547B2 (en) | System and method for synchronizing metadata with audiovisual content | |
KR100965471B1 (ko) | 자막 첨부 정지 화상 컨텐츠 작성 장치, 자막 첨부 정지화상 컨텐츠 작성 프로그램 및 자막 첨부 정지 화상 컨텐츠작성 시스템 | |
JP4448477B2 (ja) | 字幕付き映像信号の遅延制御装置及び遅延制御プログラム | |
EP2356654B1 (en) | Method and process for text-based assistive program descriptions for television | |
US20160066055A1 (en) | Method and system for automatically adding subtitles to streaming media content | |
US7656947B2 (en) | Synchronization device and synchronization method in digital broadcast receiver | |
US20130219444A1 (en) | Receiving apparatus and subtitle processing method | |
US6775842B1 (en) | Method and arrangement for transmitting and receiving encoded images | |
KR20150021258A (ko) | 디스플레이장치 및 그 제어방법 | |
US9609179B2 (en) | Methods for processing multimedia flows and corresponding devices | |
JP2007324872A (ja) | 字幕付き映像信号の遅延制御装置及び遅延制御プログラム | |
KR20180119101A (ko) | 방송자막 제작 시스템 및 방법 | |
KR101741747B1 (ko) | 실시간 광고 삽입이 가능한 영상 광고 처리 장치 및 방법 | |
US11902632B2 (en) | Timely addition of human-perceptible audio to mask an audio watermark | |
JP2008199117A (ja) | デジタル放送受信機 | |
CN115766676A (zh) | 促进与内容相关的动作的系统、方法和数据存储器 | |
JP2003259314A (ja) | 映像音声同期方法及びそのシステム | |
JP2021090172A (ja) | 字幕データ生成装置、コンテンツ配信システム、映像再生装置、プログラム及び字幕データ生成方法 | |
JP2006270299A (ja) | Cm検出装置およびcm検出方法 | |
JP2020115626A (ja) | 字幕遅延制御装置、制御方法及びプログラム | |
JP2004207821A (ja) | 字幕放送受信装置、字幕放送受信方法及び字幕放送受信プログラム | |
JP2008147985A (ja) | ディジタル放送受信装置、ディジタル放送システム、制御プログラムおよび可読記録媒体 | |
KR101954880B1 (ko) | 스미스-워터만 알고리즘을 이용한 자동 자막 싱크 조절 장치 및 방법 | |
KR20160041433A (ko) | 자막을 포함하는 재송출용 방송 데이터 생성 방법 및 서버 | |
KR102152337B1 (ko) | 케이블 방송용 셋탑 박스 및 그를 포함하는 자막 동기화 시스템 |