JP2023077599A - 画面制御装置およびプログラム - Google Patents

画面制御装置およびプログラム Download PDF

Info

Publication number
JP2023077599A
JP2023077599A JP2021190935A JP2021190935A JP2023077599A JP 2023077599 A JP2023077599 A JP 2023077599A JP 2021190935 A JP2021190935 A JP 2021190935A JP 2021190935 A JP2021190935 A JP 2021190935A JP 2023077599 A JP2023077599 A JP 2023077599A
Authority
JP
Japan
Prior art keywords
caption
unit
recognition
display
open
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021190935A
Other languages
English (en)
Inventor
智康 小森
Tomoyasu Komori
庄衛 佐藤
Shoe Sato
吉彦 河合
Yoshihiko Kawai
貴裕 望月
Takahiro Mochizuki
剛 三島
Takeshi Mishima
裕明 佐藤
Hiroaki Sato
真綱 藤森
Naotsuna Fujimori
伶 遠藤
Rei Endo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Nippon Hoso Kyokai NHK
Priority to JP2021190935A priority Critical patent/JP2023077599A/ja
Publication of JP2023077599A publication Critical patent/JP2023077599A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Studio Circuits (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】少なくともオープンキャプションの有無に応じて、自動的に、音声認識結果に基づくクローズドキャプションの表示を制御することのできる画面制御装置を提供する。【解決手段】オープンキャプション検出部は、入力される画像フレーム内に含まれるオープンキャプションの領域を検出する。音声認識部は、入力される音声について認識処理を行うことによって認識結果であるテキストを出力する。字幕生成部は、前記音声認識部が出力した前記テキストに基づいてクローズドキャプション字幕を生成する。字幕表示制御部は、前記オープンキャプション検出部が、前記オープンキャプションの領域を検出したか否かに応じて、前記クローズドキャプション字幕を表示するか否か、または、前記クローズドキャプション字幕を表示する場合の表示位置、の少なくともいずれかを制御する。【選択図】図1

Description

本発明は、画面制御装置およびプログラムに関する。
放送やインターネット配信等によるコンテンツ提供事業において、音声認識結果を用いて自動的に字幕を生成し、映像に字幕を付加したいという動機がある。その背景として、例えば比較的規模の小さな放送局(日本全国をネットワークで結ぶ放送事業者の地方局等を含む)では、人手で字幕を生成するための設備や人員を確保することは困難である。また、リスピーク方式を利用して字幕を生成しようとしても、リスピーカーを確保することも困難である。一方で、例えば聴覚障碍者等には、精度が低くてもよいので、字幕放送があったほうがよいというニーズもある。映像に含まれる音声の認識処理を行って、オペレーター等による操作なしで、音声認識結果をそのまま用いた字幕を付与したいというニーズは、これらのような事情から生じる。
一般に、音声認識処理による認識率(認識結果として正解を出力する率)が所定値以上(例えば、90%以上)であれば、多少の誤認識を含んでいる字幕テキストであっても、その価値は高い。このような認識率が得られる場合には、非特許文献1によると、認識結果が誤りを含んでいる場合であっても、表示される字幕テキストを見る者がそのような誤りを脳内で正しい言葉に補完することが可能である。
逆に、音声認識率が低すぎると(例えば、70%程度、またはそれ以下であると)、字幕テキストを見た者が脳内で補完を行って正しい言葉として理解することも困難となる。例えば、アナウンサーが発話する部分の音声認識率は高い傾向があり、その他の人が発話する部分(街頭インタビューなど)の音声認識率は低い傾向がある。つまり、こういった街頭インタビューなどの音声認識率の低い部分で、字幕テキストを見ると、番組内容の理解が難しくなることがある。
つまり、音声認識率に応じて、字幕の表示を制御することが求められる。
特許文献1には、音声認識処理を行いながら、リアルタイムで音声認識率が低下しているか否かを推定する技術が記載されている。この技術により、音声認識率が低下している状況において、認識結果を出力(表示)しないように制御することが可能となっている。
特許文献2には、外部環境の騒音を検出して、検出結果に基づいて字幕(クローズドキャプション)の表示あるいは非表示を制御する技術が記載されている。
特開2020-187313号公報 特開2005-064599号公報
河原達也,「話し言葉の音声認識の進展-議会の会議録作成から講演・講義の字幕付与へ-」,メディア教育研究,第9巻,第1号,pp.S1-S8,2012年.
しかしながら、従来の技術には次のような課題が存在する。例えば放送局のアナウンサー以外の人による発話(例えば、街頭インタビュー等においてインタビューを受けている人による発話)では、音声認識率が低い傾向がある。また、そのような発話では、音声の収録環境や発声の違いなどにより、人が聞いても言葉を聞き取りづらい場合が多くある。そのような場合には、コンテンツの演出として、オープンキャプションが付与される場合がある。オープンキャプションは、表示/非表示を切り替えることのできない字幕である。つまり、オープンキャプションは、映像信号に含まれる情報である。比較的規模の小さな放送局のニュース番組等においても、時間率にして5%程度の時間帯でオープンキャプションが付けられている。このように、オープンキャプションは、よりわかりやすく発話内容を視聴者に伝えるために重要な役割を担っている情報である。
特許文献1に記載されている技術では、音声認識率のみに基づいて字幕(クローズドキャプション)の内容が制御されている。つまり、クローズドキャプションの内容とオープンキャプ本の内容とが相互に干渉する可能性がある。即ち、クローズドキャプションとオープンキャプションとが同時に表示されると、似ていながら異なる字幕が同時に画面上に表示されることとなり、視聴者による番組の理解を阻害する場合があり得る。
また、オープンキャプションを使用せずに特許文献1に記載された技術だけを使用した場合には、認識率が低下した場合に字幕情報が表示されなくなり、視聴者の満足度が低下してしまうという問題がある。
また、特許文献2に記載された技術では、オープンキャプションが表示されているか否かに基づいてクローズドキャプションの表示を制御することができないという問題がある。
本発明は、上記のような課題認識に基づいて為されたものであり、オープンキャプションの有無に応じて、自動的に、音声認識結果に基づく字幕(クローズドキャプション)の表示を制御することのできる画面制御装置およびプログラムを提供しようとするものである。
[1]上記の課題を解決するため、本発明の一態様による画面制御装置は、入力される画像フレーム内に含まれるオープンキャプションの領域を検出するオープンキャプション検出部と、入力される音声について認識処理を行うことによって認識結果であるテキストを出力する音声認識部と、前記音声認識部が出力した前記テキストに基づいてクローズドキャプション字幕を生成する字幕生成部と、前記オープンキャプション検出部が、前記オープンキャプションの領域を検出したか否かに応じて、前記クローズドキャプション字幕を表示するか否か、または、前記クローズドキャプション字幕を表示する場合の表示位置、の少なくともいずれかを制御する字幕表示制御部と、前記字幕表示制御部による制御にしたがって、前記クローズドキャプション字幕を表示する字幕表示部と、を備える。
[2]また、本発明の一態様は、上記の画面制御装置において、前記音声認識部における前記認識処理の状況を把握することによって前記認識処理における精度に関する情報を出力する認識精度判定部、をさらに備え、前記字幕表示制御部は、さらに、前記認識精度判定部から受け取る前記精度に関する情報に基づいて、前記クローズドキャプション字幕を表示するか否か、または、前記クローズドキャプション字幕に代えて特定パターンを表示するか否か、の少なくともいずれかを制御する、というものである。
[3]また、本発明の一態様は、上記の画面制御装置において、前記字幕表示制御部は、前記オープンキャプション検出部が前記オープンキャプションの領域を検出した場合には、前記オープンキャプションの領域との間での干渉が生じないような位置に前記クローズドキャプション字幕を表示するように制御する、というものである。
[4]また、本発明の一態様は、上記の画面制御装置において、前記字幕表示制御部は、前記画像フレームの表示と重なる位置に前記クローズドキャプション字幕を表示するように制御する、というものである。
[5]また、本発明の一態様は、上記の画面制御装置において、前記字幕表示制御部は、前記画像フレームの表示と重ならない位置に前記クローズドキャプション字幕を表示するように制御する、というものである。
[6]また、本発明の一態様は、上記の画面制御装置において、前記字幕表示制御部は、(1)前記オープンキャプション検出部が前記オープンキャプションの領域を検出しなかった場合においては、(1A)前記認識精度判定部から受け取る前記精度に関する情報に基づいて、前記精度が所定の第1閾値よりも悪い場合には前記クローズドキャプション字幕に代えて前記特定パターンが表示されるように制御し、(1B)前記認識精度判定部から受け取る前記精度に関する情報に基づいて、前記精度が前記第1閾値と同等または前記第1閾値よりも良い場合には前記クローズドキャプション字幕が表示されるように制御し、(2)前記オープンキャプション検出部が前記オープンキャプションの領域を検出した場合においては、(2A)前記認識精度判定部から受け取る前記精度に関する情報に基づいて、前記精度が所定の第2閾値よりも悪い場合には、前記クローズドキャプション字幕が表示されないように制御し、(2B)前記認識精度判定部から受け取る前記精度に関する情報に基づいて、前記精度が前記第2閾値と同等または前記第2閾値よりも良い場合には、前記オープンキャプションの領域との間での干渉が生じないような位置に前記クローズドキャプション字幕を表示するように制御する、というものであり、前記第2閾値は、前記第1閾値と同等または前記第1閾値よりも良い精度に対応するものである。
[7]また、本発明の一態様は、入力される画像フレーム内に含まれるオープンキャプションの領域を検出するオープンキャプション検出部と、入力される音声について認識処理を行うことによって認識結果であるテキストを出力する音声認識部と、前記音声認識部が出力した前記テキストに基づいてクローズドキャプション字幕を生成する字幕生成部と、前記オープンキャプション検出部が、前記オープンキャプションの領域を検出したか否かに応じて、前記クローズドキャプション字幕を表示するか否か、または、前記クローズドキャプション字幕を表示する場合の表示位置、の少なくともいずれかを制御する字幕表示制御部と、前記字幕表示制御部による制御にしたがって、前記クローズドキャプション字幕を表示する字幕表示部と、を備える画面制御装置、としてコンピューターを機能させるためのプログラムである。
本発明によれば、画面制御装置は、オープンキャプションを含んだ画像フレームで成る映像区間に関して、オープンキャプション字幕とクローズドキャプション字幕との干渉を回避することができる。
本発明の実施形態による画面制御装置の概略機能構成を示すブロック図である。 同実施形態による画面制御装置の音声認識部が持つ機能の一部のさらに詳細な構成を示すブロック図である。 同実施形態による画面制御装置を含んだコンテンツ供給システムの構成を示すブロック図である。 同実施形態による画面制御装置による処理の手順を示すフローチャート(1/2)である。 同実施形態による画面制御装置による処理の手順を示すフローチャート(2/2)である。 同実施形態によるオープンキャプション検出部がオープンキャプションを検出する対象の領域の位置の一例を示す概略図である。 同実施形態においてオープンキャプション検出部が検出したオープンキャプションの位置と、クローズドキャプションを表示する位置との関係の一例を示す概略図である。 同実施形態においてオープンキャプション検出部が検出したオープンキャプションの位置と、クローズドキャプションを表示する位置との関係の別の例を示す概略図である。 同実施形態における画面制御装置や映像供給装置や音声供給装置の各装置の内部構成の例を示すブロック図である。
次に、本発明の一実施形態について、図面を参照しながら説明する。本実施形態の画面制御装置1は、取得されるフレーム画像および音声を基に、クローズドキャプション字幕の画面上での表示のための制御を行う。クローズドキャプション字幕は、音声認識処理を行うことによって生成されるものである。
具体的には、画面制御装置1は、フレーム画像に含まれ得るオープンキャプション字幕の有無を判定するとともに、オープンキャプション字幕が含まれる場合には画面上でのその位置を検出する。また、画面制御装置1は、取得した音声の認識処理を行いながら、その認識処理における認識精度が低下しているか否かを判定する。なお、画面制御装置1は、音声認識の精度が低下しているか否かの判定をリアルタイムに行う。
画像中にオープンキャプション字幕が表示されていて、且つ認識精度が低下していると見込まれる状況において、画面制御装置1は、クローズドキャプション字幕の表示をしないための制御を行うようにしてよい。また、画像中にオープンキャプション字幕が表示されていて、認識精度が低下しているとは判断されない状況においては、画面制御装置1は、クローズドキャプション字幕の表示位置がオープンキャプション字幕の表示位置と異なる位置になるように制御する。つまり、画面制御装置1は、オープンキャプション字幕とクローズドキャプション字幕とが相互に干渉しないように、表示位置の制御を行う。また、画面制御装置1は、音声認識処理の結果に基づくクローズドキャプション字幕を表示する代わりに、音声認識が困難である(認識精度が低い)ことを示す特定パターンを出力してもよい。音声認識が困難であることを示す特定パターンとは、例えば「。。。」などといった特定の文字列等である。画面制御装置1は、例えば、テレビ番組やインターネット配信の映像から抽出される画像フレームおよび音声を処理対象としてよい。
図1は、本実施形態による画面制御装置の概略機能構成を示すブロック図である。図示するように、画面制御装置1は、画像フレーム取得部11と、オープンキャプション検出部12と、音声取得部21と、音声認識部22と、字幕生成部23と、認識精度判定部31と、字幕表示制御部32と、字幕表示部33とを含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ(SSD)といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。
画像フレーム取得部11は、外部から画像フレームを取得する。画像フレームは、映像(例えば放送番組等のコンテンツの映像)を構成する要素である。言い換えれば、映像は、所定のフレームレートによる画像フレームの系列である。個々の画像フレームは、提示時刻を表すタイムコードの情報を持っている。このタイムコード自体は外部から入力されるものであってもよいし、画面制御装置1自体が生成するものであっても良い。画像フレームが持つタイムコードは、下で説明する音声フレームのタイムコードと関連付けられる。
画像フレーム取得部11は、取得した画像フレームを、フレーム単位で処理することのできる形態で、オープンキャプション検出部12に渡す。画像フレームは、1秒あたりに例えば30フレームあるいは60フレームの頻度のものである。それぞれの場合において、画像フレームの周期は、約33ミリ秒(msec)あるいは約17ミリ秒である。なお、フレーム画像の頻度は、ここに例示したものに限定されず、他の頻度であってもよい。本実施形態は、1秒間に30フレーム(およそ33ミリ秒の長さを有するものである。なお、フレームの長さや周期は、ここに例示したものに限定される任意である。
オープンキャプション検出部12は、画像フレーム取得部11が取得した画像フレーム内のオープンキャプション字幕を検出する。オープンキャプション検出部12は、画像フレーム内にオープンキャプション字幕が含まれるか否かを、字幕表示制御部32に通知する。また、画像フレーム内にオープンキャプション字幕が含まれる場合には、オープンキャプション検出部12は、オープンキャプション字幕の位置の情報(オープンキャプション字幕の領域の位置を表す座標情報等)を、字幕表示制御部32に通知する。つまり、オープンキャプション検出部12は、入力される画像フレーム内に含まれるオープンキャプションの領域を検出する。
オープンキャプション検出部12は、具体的には、下記の方法によってオープンキャプション字幕を検出する。即ち、オープンキャプション検出部12は、対象とする画像フレーム内において、走査窓と呼ぶ小領域を設定するとともに、その走査窓の位置を少しずつ移動させながら走査窓領域がオープンキャプションの一部であるか否かを判定していく。走査窓の領域がオープンキャプション字幕の一部であるか否かの判定を行う手法としては、例えば、エッジに関する特徴量に基づいてSVM(support vector machine)等を利用して区別する方法がある。エッジに関する特徴量は、文字と背景画像(人物等を含んでもよい)とを区別するための量として有効である。そして、オープンキャプション検出部12は、オープンキャプションの一部であると判定された走査窓が所定数以上重なっている部分を抽出し、抽出された領域を求める。さらに、オープンキャプション検出部12は、誤検出の領域を取り除く。誤検出であるか否かの判定は、エッジに関する特徴量や、検出された領域のサイズに基づいて行われる。検出された領域が小さすぎる場合(所定の閾値よりも小さい場合)には、その領域を誤検出とする。これらの処理に基づいて、オープンキャプション検出部12は、オープンキャプション字幕の有無を判定する。また、オープンキャプション字幕が存在すると判定された場合には、オープンキャプション検出部12は、そのオープンキャプション字幕の位置の情報を出力する。オープンキャプション字幕の領域が矩形である場合、オープンキャプション字幕の位置の情報は、例えば、その矩形の頂点の座標値としてよい。また、その矩形の一部の頂点(例えば左上の頂点)の座標値としてよい。
なお、オープンキャプション検出部12は、他の方法でオープンキャプションの領域を検出するようにしてもよい。例えば、領域の画素値集合とオープンキャプションの有無との情報に基づいて学習した機械学習モデルを用いて、オープンキャプションの領域を検出してもよい。
音声取得部21は、音声の信号を取得する。音声取得部21が取得する音声の信号は、画像フレーム取得部11が取得する画像フレームと関連付く内容のものである。音声取得部21は、例えば、音声波形を表すアナログ信号を取得してもよい。また、音声取得部21は、音声を表すデジタルデータを取得してもよい。また、音声取得部21は、音声信号に関連するタイムコード信号を取得してもよい。タイムコード信号により、音声取得部21が取得する音声と画像フレーム取得部11が取得する画像フレームとの間の同期が可能となる。
音声取得部21は、外部から取得した音声の信号を、音声フレーム単位で処理することのできる形態で、音声認識部22に渡す。本実施形態では、1フレームは、25ミリ秒の長さを有するものであり、10ミリ秒毎に開始される。つまり、複数の音声フレームでオーバーラップし合う時間区間が存在する。なお、フレームの長さや周期は、ここに例示したものに限定されず、異なったものであってもよい。
音声認識部22は、音声取得部21が取得した音声についての認識処理を行う。音声認識部22は、入力される音声について認識処理を行うことによって認識結果であるテキストを出力する。音声認識部22は、取得される音声と、予め保持している音響モデルおよび言語モデルとに基づいて、音声認識結果についての仮説を生成する。また、音声認識部22は、認識結果に関する仮説に対して付与されるスコア(得点)に基づいて、仮説の探索を行う。そして、音声認識部22は、そのスコアに基づく最尤仮説を求め、認識結果として出力する。音声認識部22は、認識結果であるテキストを、字幕生成部23に渡す。なお、音声認識の処理自体は、既存技術により実現可能である。
音声認識部22は、音声認識の処理のために、内部に、音声認識仮説を探索する機能を持っている。この機能を、音声認識仮説探索機能と呼ぶ。音声認識仮説探索機能は、音声信号の時間区間ごとの音声認識結果に関する複数の音声認識仮説のスコアに基づいて音声認識仮説を探索する。そして、音声認識仮説探索機能は、探索された音声認識仮説の中から音声認識結果を決定し、その音声認識結果を出力する。つまり、音声認識仮説探索機能は、音声取得部21が取得した音声を基に、複数の音声認識仮説を生成し、各音声認識仮説のスコアを算出し、そのスコアに基づいて、音声認識仮説を探索する。さらに具体的には、音声認識仮説探索機能は、入力された音声のフレーム(時間区間)ごとの音響特徴量を算出する。また、音声認識仮説探索機能は、音声区間検出(Voice Activity Detection)の機能を有していてもよい。つまり、音声認識仮説探索機能は、音声区間検出の機能を用いて、リアルタイムに連続して入力される音声信号から、発話ごとの区間を抽出する。そして、音声認識仮説探索機能は、発話ごとに、次の手順による音声認識処理を行う。音声認識仮説探索機能は、発話の区間について、予め保持している音響モデルや言語モデルを用いて、音声認識仮説を生成する。ここで、音響モデルとは、音響特徴量と音素との間の確率的関係の情報を持つものである。また、言語モデルとは、音素列が言語であるか否かを表す確率の情報を持つものである。音声認識仮説は、入力された音声に対応するものとして考え得る単語列の候補である。音声認識仮説は、例えば、時間方向に確率的に状態が遷移するネットワークとして表現され得る。音声認識仮説探索機能は、各々の音声認識仮説について、入力された音声との対応関係に基づくスコアを算出する。
音声認識仮説探索機能は、スコアに基づいて上記のネットワークを探索し、最尤の認識結果を求める。上記の処理過程において、音声認識仮説探索機能は、適宜、枝刈り処理を行う。一般に、放送番組の字幕制作に用いるような大語彙の音声認識の処理において、音声と単語列のすべての認識仮説とをリアルタイムに照合することは困難である。そのため、音声の一部が入力されるごとに、最尤の仮説のスコアと各仮説のスコアを比較して、見込みの小さな仮説を枝刈りして切り捨てることが行われる。本実施形態の音声認識仮説探索機能は、仮説の枝刈りを行うことによって、リアルタイムに探索を終えるようにしている。この音声認識仮説探索機能の処理自体は、既存技術によって実現可能なものである。この枝刈りの方式はビームサーチと呼ばれる。ビームサーチの一例として、認識仮説探索機能は、探索のビーム幅をWとした場合、最尤の仮説のスコアSに対して、
|S-S|<W
を満たすスコアSを有する対立仮説iのみが生き残るような枝刈りを行う。
なお、仮説の生成と枝刈り(破棄)の結果として、ある時点(ある音声フレーム)における音声認識仮説の数は、可変である。ある時点における音声認識仮説の数が、例えば、数千個程度に達する場合もある。入力される音声の中で、明瞭度が高く、高い音声認識精度が得られる部分では、最尤仮説のスコアSに比べて他の対立仮説のスコアが十分に小さくなる。よって、この部分では、ビーム内に生き残る対立仮説の数は少ない。一方、明瞭度が低く、認識精度の低下が見込まれる部分では、最尤仮説と対立仮説のスコアとの間の十分な差が得られないため、ビーム内に候補として残る対立仮説の数は多くなる。
上記のような対立仮説が多くなる状況においては、例えば、探索処理時間がより多くかかるようになる。したがって、探索に要する処理時間を測定することにより、音声認識の精度の低下を推定することができる。つまり、探索処理時間が多くかかるほど、音声認識処理の精度が低下すると見なせる。あるいは、探索対象の仮説の数を測定することにより、音声認識の精度の低下を推定することができる。つまり、探索対象の仮説の数が多くなるほど、音声認識の精度が低下すると見なせる。
字幕生成部23は、音声認識部22が出力する音声認識の結果のテキストを用いて、クローズドキャプションの字幕のデータを生成する。字幕生成部23は、生成したクローズドキャプションの字幕を、字幕表示制御部32に渡す。これにより、字幕表示部33は、音声認識結果に基づくクローズドキャプションの字幕を表示できるようになる。つまり、字幕生成部23は、映像コンテンツが持つ音声に基づいて、当該映像コンテンツの字幕データを生成する。
認識精度判定部31は、音声認識部22による認識精度を判定する。認識精度判定部31は、音声認識部22における認識処理の状況を把握することによってその認識処理における精度に関する情報を出力する。認識精度判定部31は、さらに具体的には、音声認識部22による認識精度が低下している度合いを判定する。認識精度判定部31は、音声認識部22による認識精度に関する情報を、字幕表示制御部32に渡す。具体的には、認識精度判定部31は、音声認識部22における処理の状況を把握し、その状況に基づいて、音声認識処理の精度が低下したか否かを推定する。認識精度判定部31は、この判定を行う際、最尤認識仮説が他の仮説よりもどの程度尤もらしいかに基づく判断を行う。より具体的には、認識精度判定部31は、例えば、音声認識仮説の量が多いか否か、音声フレームの入力から処理までの時間の遅延が大きいか否か、音声1フレームあたりの処理時間が長いか否か、あるいは認識処理のためのプロセッサーの負荷(CPU負荷等)が大きいか否か、といった情報に基づいて、上記の判定を行う。つまり、認識精度判定部31は、音声認識仮説の量に関する情報を音声認識部22から取得し、音声認識仮説の量が多いほど音声認識精度が低下していると推定する。あるいは、認識精度判定部31は、音声フレームの入力から処理までの時間の遅延量を取得し、その遅延量が大きいほど音声認識精度が低下していると推定してもよい。あるいは、認識精度判定部31は、音声1フレームあたりの処理時間を取得し、1フレーム当たりの処理時間が長いほど音声認識精度が低下していると推定してもよい。また、認識精度判定部31は、音声認識部22による認識処理のためのプロセッサーの負荷の情報を取得し、このプロセッサーの負荷が高いほど音声認識精度が低下していると推定してもよい。
つまり、音声認識部22は、認識精度が低下しているか否かを表す情報、および認識精度が低下している度合いを表す情報を出力する。認識精度判定部31は、この音声認識部22からの情報に基づいて、認識精度の低下の度合いを判定する。認識精度判定部31は、音声認識処理の精度が低下したか否かを表す情報を、字幕表示制御部32に渡す。この情報は、音声認識処理の精度が低下している/低下していないという2値判定値であってもよい。また、この情報は、認識処理の精度が低下した度合いを表す数値情報であってもよい。また、認識精度判定部31が、その時点での認識精度自体を表す数値情報を字幕表示制御部32に渡すようにしてもよい。
字幕表示制御部32は、複数の要素に基づいて、字幕(クローズドキャプション)の表示に関する制御を行う。具体的には、字幕表示制御部32は、オープンキャプション検出部12がオープンキャプションの領域を検出したか否かに応じて、クローズドキャプション字幕を表示するか否か、または、クローズドキャプション字幕を表示する場合の表示位置、の少なくともいずれかを制御する。また、字幕表示制御部32は、さらに、前記認識精度判定部から受け取る前記精度に関する情報に基づいて、前記クローズドキャプション字幕を表示するか否か、または、前記クローズドキャプション字幕に代えて特定パターンを表示するか否か、の少なくともいずれかを制御してもよい。また、字幕表示制御部32は、前記オープンキャプション検出部が前記オープンキャプションの領域を検出した場合には、前記オープンキャプションの領域との間での干渉が生じないような位置に前記クローズドキャプション字幕を表示するように制御してもよい。
字幕表示制御部32の処理の詳細は次の通りである。字幕表示制御部32は、オープンキャプション検出部12が画像フレーム内においてオープンキャプションを検出したか否かに基づいて字幕の表示を制御する。また、字幕表示制御部32は、オープンキャプション検出部12が検出したオープンキャプションの画像フレーム内での位置(座標等)に基づいて、字幕の表示を制御する。また、字幕表示制御部32は、認識精度判定部31から渡される、音声認識部22による音声認識の精度の情報に基づいて、字幕の表示を制御する。
字幕表示制御部32は、上記の情報に基づいて、クローズドキャプションの字幕を表示するか非表示とするかを制御する。また、字幕表示制御部32は、字幕として、字幕生成部23から渡されるテキスト(音声認識の結果)を表示するか、あるいは特定パターンの情報を表示するかを制御する。特定パターンの情報の具体例については後述する。また、字幕表示制御部32は、クローズドキャプションの字幕を表示する位置を制御する。つまり、字幕表示制御部32は、画像フレーム内に含まれるオープンキャプションと、音声認識結果に基づくクローズドキャプションの字幕とが、相互に干渉し合うことのないように、クローズドキャプションの表示位置を決定する。
つまり、音声認識処理の精度の低下がない(精度が所定の閾値以上である)という判定結果の場合には、字幕表示制御部32は、字幕生成部23が生成するクローズドキャプション字幕をそのまま表示する。音声認識処理の精度の低下がある(精度が所定の閾値未満である)という判定結果の場合には、字幕表示制御部32は、認識精度の低下があることを表す特定パターン(予め定めたパターン)を表示する。この特定パターンとは、特定の文字列や、特定の画像等であってよい。一例として、特定パターンは、「。。。」という文字列であってもよい。
字幕表示制御部32は、前述の通り、クローズドキャプション字幕の表示位置を制御する場合がある。そのため、字幕表示制御部32は、字幕表示位置調整機能を持つ。字幕表示位置調整機能は、検出されたオープンキャプションの表示位置と、クローズドキャプション字幕の文字数とに応じて、クローズドキャプション字幕の表示位置を決定する。例えば、字幕表示位置調整機能は、オープンキャプション検出部12から渡されるオープンキャプションの表示位置と、表示すべきクローズドキャプション字幕のフォントサイズと、クローズドキャプション字幕の文字数とに基づいて、クローズドキャプション字幕の表示開始位置を算出することができる。オープンキャプション字幕の領域が画面の下部中央付近である場合には、字幕表示位置調整機能は、そのオープンドキャプション字幕の上に、クローズドキャプション字幕を表示するように、位置を求める。
字幕表示部33は、字幕表示制御部32による制御にしたがって、クローズドキャプション字幕を表示する。なお、字幕表示制御部32による制御として、クローズドキャプション字幕が表示されない場合もある。また、クローズドキャプション字幕の代わりに、前述の特定パターンが表示される場合もある。
画面制御装置1は、不図示の映像信号取得部を備えるものであってもよい。映像信号は、画像フレームの信号と音声の信号とを含む。映像信号は、例えばテレビ放送の規格にしたがった信号であってもよいし、例えば通信(インターネット等)を用いて配信するための標準的な符号化方式で符号化されたデータであってもよい。この映像信号取得部は、取得した映像信号からフレーム画像と音声とを抽出(分離)し、それぞれ、画像フレーム取得部11と音声取得部21とに渡す。映像信号取得部は、フレーム画像や音声とあわせてタイムコード信号を映像信号から抽出し、そのタイムコード信号を画像フレーム取得部11と音声取得部21とに渡してもよい。なお、映像信号取得部が取得する映像信号は、アナログ信号であってもよいし、デジタル信号であってもよい。映像信号がアナログ信号である場合にもデジタル信号である場合にも、映像信号取得部は、映像信号から、画像と、音声と、タイムコード情報とを取得する。映像信号は、MPEG等の方式で圧縮符号化されたものであってもよい。「MPEG」は、「moving picture experts group」の略である。MPEGデータは、画像フレームのストリームと、音声のストリームと、タイムコードのストリームとを含む。
上記のような機能構成を有する画面制御装置1の処理について、以下ではさらに詳細に説明する。
音声認識部22は、入力音声を音声フレームの単位で分析する。音声認識部22は、時刻tにおいて、その時点で生き残っている仮説集合Hに属する各仮説のスコアを算出する。音声認識部22は、音声認識仮説探索機能が行う探索処理の状況に応じた、認識精度の低下の有無を表す情報を認識精度判定部31に渡す。
認識精度の低下が起こっていない状況においては、字幕表示制御部32は、字幕生成部23が生成したクローズドキャプション字幕をそのまま表示するように制御する。認識精度の低下が起こっていると見込まれる状況においては、字幕表示制御部32は、例えば「。。。」などといった特定パターンを出力するよう制御することができる。このような場合にも、例えば次の発話が始まって認識精度が向上した場合には、字幕表示制御部32は字幕生成部23が生成したクローズドキャプション字幕の表示を行うように制御する。音声認識の精度の低下がないと見込まれる部分では、音声認識部22は、時刻tで確定可能な単語がある場合にはその単語を出力する。音声認識部22は、そのうえで、仮説集合を次の単語へと展開した仮説集合H´t+1を求める。そして、音声認識部22は、最もスコアが高い最尤仮説とのスコアの差に基づいて、この仮説集合H´t+1を枝刈りすることによって、時刻t+1で演算を行う仮説集合Ht+1を求める。そして、音声認識部22は、次の音声フレームの処理移る。音声認識部22は、時刻tを進めながら、順次、この処理を繰り返す。
図2は、音声認識部22が持つ機能の一部の構成を示すブロック図である。音声認識部22は、音声認識処理の状況を把握して認識精度判定部31に渡すための機能として、状況把握部220を持つ。図示するように、状況把握部220は、認識仮説量把握部221と、時刻差分把握部222と、処理時間把握部223と、CPU負荷把握部224とを含むように構成される。なお、「CPU」は、「中央処理装置」を表す。
状況把握部220を構成する上記の4つの機能部の各々は、音声認識部22による認識仮説探索処理の状況を把握する。なお、本実施形態では、状況把握部220は、認識仮説量把握部221と、時刻差分把握部222と、処理時間把握部223と、CPU負荷把握部224との4つを含むが、状況把握部220がここに列挙した4つの機能部のうちの一部のみを含む構成としてもよい。また、状況把握部220が、ここに列挙した4つの機能部以外の機能を有していてもよい。即ち、状況把握部220は、認識仮説を探索する処理の状況として、認識仮説量や、時刻差分や、処理時間や、CPU負荷といったもの以外の状況を把握するようにしてもよい。
認識仮説量把握部221は、音声認識部22が認識仮説を探索する処理において探索対象としている認識仮説の量に関する情報を把握する。具体的には、認識仮説量把握部221は、音声認識部22が持つ認識仮説探索機能から得られる情報により、時刻tにおける仮説集合H内の仮説数(アクティブノード数)N(H)を認識仮説量として把握する。あるいは、認識仮説量把握部221は、次の式(1)で表される値を、認識仮説量として把握してもよい。
Figure 2023077599000002
式(1)において、Tは、適宜定められる正整数である。つまり、この場合、認識仮説量把握部221は、時刻tよりTだけ遡った時刻(t-T)の音声フレームから、時刻tまでの音声フレームの、各フレームにおける仮説数の総和を、認識仮説量として把握する。
さらに、認識仮説量把握部221は、認識仮説の数と相関する他の数値を認識仮説量として把握してもよい。一例として、認識仮説量把握部221は、認識仮説探索機能の処理において仮説の情報を少なくとも一時的に保存すためのメモリー容量を、認識仮説量として把握してもよい。
状況把握部220は、認識仮説量把握部221によって把握された認識仮説量の情報を、認識精度判定部31に渡すことができる。認識精度判定部31は、この認識仮説量に基づいて、音声認識処理の精度低下があるか否かを推定する。認識精度判定部31は、認識仮説量が所定の閾値よりも大きい場合に認識精度が低下していると推定する。また、認識精度判定部31は、認識仮説量が所定の閾値以下である場合に認識精度は低下していないと推定する。
時刻差分把握部222は、音声フレームの本来の時刻と、その音声フレームに関する認識処理が実行される時刻との差分を把握する。音声フレームの本来の時刻とは、その音声フレームが画面制御装置1に入力される時刻である。つまり、時刻差分把握部222が把握する時刻の差分は、音声フレームの入力時点から処理時点(例えば、処理開始時点)までの時間の遅延に相当する。時刻差分把握部222が把握する時刻の差分の値は、その時点での認識仮説の量に応じた近似値として利用することができる。
一般に音声認識処理での仮説探索において、ビーム幅W大きくとることにより認識精度の向上が見込まれる。リアルタイム音声認識においては、認識処理の遅れが生じない程度においてビーム幅Wが大きくなるように設定が行われる。しかしながら、アクティブノード数がある程度の時間以上増大し続けているような時間区間においては、各音声フレームに関して、大量の仮説候補のスコアを計算することが必要となる。このため、認識のための演算処理が音声1フレームの時間内に収まらなくなり、フレームの処理時刻が遅延する。そこで、時刻差分把握部222は、時刻tのフレームの本来の時刻(例えば、当該フレームの音声が入力された時刻)と、そのフレームが処理される時刻との差分を把握する。なお、時刻差分把握部222は、画面制御装置1自身が持つ時計機能(不図示)から、現在時刻の情報を取得することができる。
状況把握部220は、時刻差分把握部222が把握した時刻差分の情報を、認識精度判定部31に渡すことができる。認識精度判定部31は、この時刻差分(遅延量)に基づいて、認識仮説探索機能による認識処理の精度低下があるか否かを推定する。例えば、認識精度判定部31は、時刻差分が所定の閾値よりも大きい場合に認識精度が低下していると推定する。また、認識精度判定部31は、時刻差分が所定の閾値以下である場合に認識精度は低下していないと推定する。
処理時間把握部223は、各音声フレームに関して認識処理のために要した時間の長さを把握する。この処理時間の長さは、認識仮説の量に応じた数値として認識精度の把握のために利用することができる。前述の通り、アクティブノード数が増加した状態の区間では、各フレームで、大量の仮説候補のスコアを計算することが必要となる。このため、認識のための演算に必要な処理時間が大きくなる。そこで、処理時間把握部223は、時刻tのフレームの処理に要した時間Pを、認識仮説探索機能から取得する。あるいは、処理時間把握部223は、次の式(2)で表される値を、処理時間として把握してもよい。
Figure 2023077599000003
式(2)において、Tは、適宜定められる正整数である。つまり、この場合、処理時間把握部223は、時刻tよりTだけ遡った時刻(t-T)のフレームから、時刻tまでのフレームの、処理時間の総和を把握する。
状況把握部220は、処理時間把握部223が把握した処理時間の情報を、認識精度判定部31に渡すことができる。認識精度判定部31は、この処理時間に基づいて、認識仮説探索機能による認識処理での精度低下があるか否かを推定する。例えば、認識精度判定部31は、処理時間が所定の閾値よりも大きい場合に認識精度が低下していると推定する。また、認識精度判定部31は、処理時間が所定の閾値以下である場合に認識精度は低下していないと推定する。
CPU負荷把握部224は、認識仮説探索機能の処理に対応するCPU負荷量の情報を把握する。CPU負荷の大きさは、認識仮説の量に応じた値として利用することができる。その前提として、画面制御装置1における音声認識の処理において、少なくとも認識仮説探索機能の処理は、CPUで実行されるプログラムとして実装される。具体的には、例えば、CPU負荷把握部224は、オペレーティングシステム(OS)内のプロセス管理機能から提供されるCPU負荷の数値を取得する。なお、CPU負荷把握部224は、認識仮説探索機能の処理に対応するCPU負荷の近似値として、当該CPU全体の負荷の情報や、当該CPU上で稼働するユーザープロセス全体の負荷の情報を取得するようにしてもよい。各々の音声フレームの認識のための処理がその音声フレーム内の時間に収まらない場合など、評価すべき仮説数(アクティブノード数)が多い場合には、認識仮説探索機能の処理のCPU負荷は非常に高く(場合によっては100%またはそれに近い値に)なる。つまり、CPUの負荷に基づいて、認識処理の精度低下があるか否かを推定することが可能である。
アクティブノード数と認識精度との関係は、次の通りである。時刻tにおける仮説集合をHとする。また、この仮説集合Hが持つ仮説数(アクティブノード数)をN(H)とする。高い認識精度が得られていると見込まれている区間(時間区間)において、アクティブノード数N(H)は概ね小さい。言い換えれば、高い認識精度が得られていると見込まれている区間において、最尤仮説と対立し得る他の仮説の数は概ね小さい。また、このように認識精度が高い状況においては、時刻tの変化に対して、仮説数N(H)は下限値付近で概ね一定である。一方で、認識精度の低下が見られる区間においては、認識精度の高い区間と比べてアクティブノード数N(H)は増加する。つまり、時刻tにおける仮説数N(H)に基づいて、認識精度が高く維持されている状態であるか低下している状態であるかを、推定することができる。
認識精度が高い状態のときに仮説数N(H)が相対的に少ない理由は、最尤仮説のスコアが他の仮説のスコアよりも抜きんでて高い(ピーク性が高い)ために、より多くの仮説が探索時の枝刈りによって破棄されるためである。逆に、認識精度が低い状態のときに仮説数N(H)が相対的に高い理由は、最尤仮説のスコアが他の仮説のスコアよりも抜きんでている度合いが低い(ピーク性が低い)ために、より多くの仮説が枝刈りされずに生き残るためである。
図3は、本実施形態によるコンテンツ供給システムの概略機能構成を示すブロック図である。図示するように、コンテンツ供給システム8は、画面制御装置1と、映像供給装置6と、音声供給装置7とを含んで構成される。
画面制御装置1は、既に説明したように、取得した音声に基づくクローズドキャプションの字幕の画面への表示に関する制御を行う。コンテンツ供給システム8においては、画面制御装置1は、映像供給装置6が供給する画像フレームを取得し、その画像フレーム内のオープンキャプションを検出する。画面制御装置1は、音声供給装置7が供給する音声のデータを取得し、その音声の認識処理を行う。また、画面制御装置1は、音声認識の結果のテキストを用いて生成されるクローズドキャプション字幕の表示についての制御を行う。つまり、画面制御装置1は、上記の画像フレーム内にオープンキャプションが検出されるか否かに応じて、クローズドキャプション字幕の表示を制御する。また、画面制御装置1は、上記の画像フレーム内において検出されるオープンキャプションの位置の情報(座標値等)に基づいて、クローズドキャプション字幕の表示を制御する。また、画面制御装置1は、音声供給装置7によって供給される音声の認識処理について推定される精度に応じて(精度が低下しているか否かに応じて)、クローズドキャプション字幕の表示を制御する。
映像供給装置6は、画面制御装置1に対して、画像フレームの系列を供給する。
音声供給装置7は、画面制御装置1に対して、音声のデータ(音声フレームの系列)を供給する。音声供給装置7が供給する音声は、時間領域の信号であってもよいし、周波数領域の信号であってもよい。
映像供給装置6が供給する画像フレームの系列と、音声供給装置7が供給する音声とは、同一の映像コンテンツを表すものである。これらの画像フレームと音声とは、共通のタイムコード情報等を用いて同期できるようになっている。画面制御装置1は、画像フレームの系列を出力する。これらの画像フレームには、クローズドキャプション字幕が含まれる場合がある。クローズドキャプション字幕の位置は、オープンキャプション字幕の位置に基づいて調整されている場合がある。画面制御装置1が出力する映像(画像フレームの系列)と、音声供給装置7が出力する音声とは、1つの映像コンテンツとして視聴され得るものである。
図4および図5は、画面制御装置1による処理の手順を示すフローチャートである。図4と図5とをあわせて1つの手順を示すフローチャートであり、これら両図に示す手順は、結合子を用いて接続されている。以下では、このフローチャートに沿って、画面制御装置1の処理手順を説明する。なお、この処理を開始するにあたって、時刻tは適宜初期化されている。また、本実施形態では音声フレームの更新の周期を10ms(ミリ秒)として説明するが、実際にはフレーム周期の長さは異なっていてもよい。
ステップS1において、画像フレーム取得部11は、時刻tにおいて、画像フレームの更新があるか否かを判断する。フレームレートが例えば30fps(フレーム毎秒)の場合、1秒間に30回の画像フレームの更新がある。よって、10ミリ秒でシフトする音声フレームが約3.33回更新される都度、画像フレームが1回更新される。画像フレームの更新がある場合(ステップS1:YES)には、次にステップS2の処理に移る。画像フレームの更新がない場合(ステップS1:NO)には、次にステップS5の処理に移る。
ステップS2に移った場合、同ステップにおいて、オープンキャプション検出部12は、現在の画像フレーム(ステップS1において更新が確認された画像フレーム)にオープンキャプションが存在するか否かを判定する。オープンキャプションの有無の判定のしかたについては、別途説明する通りである。画像フレーム内にオープンキャプションの字幕が有る場合(ステップS2:YES)には、次にステップS3の処理に移る。オープンキャプション字幕の無しの場合(ステップS2:NO)には、次にステップS5の処理に移る。
ステップS3に移った場合、同ステップにおいて、オープンキャプション検出部12は、検出されたオープンキャプションの位置を特定する。オープンキャプションが表示される領域の形状が矩形である場合には、例えば、画面上におけるその領域の左上の点の座標と右下の座標とによって位置が表わされる。その領域の形状が矩形以外の場合には、オープンキャプション検出部12は、その領域の形状に応じて、適宜、その領域の範囲を表す情報を特定するようにする。
次にステップS4において、オープンキャプション検出部12は、オープンキャプションを有する画像フレームに関する情報を、記憶領域に保存する。具体的には、オープンキャプション検出部12は、当該画像フレームの時刻tと関連付ける形で、オープンキャプション字幕の有無を表す情報と、オープンキャプション字幕の位置を表す情報とを保存する。本ステップの処理の後、ステップS5に移る。
ステップS5においては、音声認識部22は、時刻tの音声フレームのデータに基づいて、認識仮説の集合を特定し、当該集合に属する認識仮説の各々についてスコアを算出する。音声認識部22は、各々の認識仮説のスコアに基づいて最尤仮説を決定する。音声認識部22は、探索結果である最尤仮説に基づいて、音声認識結果のテキストを出力する。
次にステップS6において、認識精度判定部31は、音声認識部22の処理についての状態を把握する。具体的には、認識精度判定部31は、認識仮説量、音声フレームの入力から処理までの遅延時間、音声フレームの処理時間、あるいはCPU負荷の、少なくともいずれかを把握する。なお、認識精度判定部31は、ここに列挙したもの以外の情報に基づいて、音声認識部22による認識仮説の探索の処理の状況を把握してもよい。認識精度判定部31による処理の詳細については、別途説明している通りである。
次にステップS7において、字幕表示制御部32は、画面フレーム内にオープンキャプションの字幕が存在するか否かを判定する。ステップS7における判定は、ステップS2における判定の結果に基づいて行うようにしてよい。つまり、ステップS4において保存された情報に基づいて、字幕表示制御部32がオープンキャプションの有無を判定するようにしてよい。画像フレーム内にオープンキャプションが存在する場合(ステップS7:YES)には、次にステップS8の処理に移る。画像フレーム内にオープンキャプションが存在しないと判断された場合(ステップS7:NO)には、次にステップステップS11(図5)の処理に飛ぶ。
次にステップS8に進んだ場合、同ステップにおいて、認識精度判定部31は、認識精度が所定の閾値(閾値Aとする)よりも低下しているか否か(認識精度が閾値A未満であるか否か)を判定する。ステップS8での判定の結果として、認識精度が閾値A未満である場合(ステップS8:YES)には、ステップS9の処理に移る。認識精度が閾値A以上である場合(ステップS8:NO)には、ステップS10の処理に移る。
なお、認識精度判定部31は、具体的には、次の(1)から(4)までのように認識精度の大小(良悪)を判断する。ここでは、前提として、上で述べた認識精度、認識仮説量、時間遅延量、処理時間、CPU負荷は、いずれも、数値として表わされ得るものである。
(1)認識精度判定部31が認識仮説量を用いて認識精度の大小を判断する場合には、次の通りである。(1-a)認識精度が閾値(認識精度についての閾値)未満であることは、認識仮説量が閾値(認識仮説量についての閾値)よりも大きいことにあたる。(1-b)認識精度が上記の閾値(認識精度についての閾値)以上であることは、認識仮説量が上記の閾値(認識仮説量についての閾値)以下であることにあたる。
(2)認識精度判定部31が音声フレームの入力から処理までの時間遅延量を用いて認識精度の大小を判断する場合には、次の通りである。(2-a)認識精度が閾値(認識精度についての閾値)未満であることは、時間遅延量が閾値(時間遅延量についての閾値)よりも大きいことにあたる。(2-b)認識精度が上記の閾値(認識精度についての閾値)以上であることは時間遅延量が上記の閾値(時間遅延量についての閾値)以下であることにあたる。
(3)認識精度判定部31が音声フレームの処理時間を用いて認識精度の大小を判断する場合には、次の通りである。(3-a)認識精度が閾値(認識精度についての閾値)未満であることは、処理時間が閾値(処理時間についての閾値)よりも大きいことにあたる。(3-b)認識精度が上記の閾値(認識精度についての閾値)以上であることは処理時間が上記の閾値(処理時間についての閾値)以下であることにあたる。
(4)認識精度判定部31がCPU負荷を用いて認識精度の大小を判断する場合には、次の通りである。(4-a)認識精度が閾値(認識精度についての閾値)未満であることは、CPU負荷が閾値(CPU負荷についての閾値)よりも高いことにあたる。(4-b)認識精度が上記の閾値(認識精度についての閾値)以上であることはCPU負荷が上記の閾値(CPU負荷についての閾値)以下であることにあたる。
なお、上の(1)から(4)までのそれぞれでは認識精度判定部31が単一の尺度を用いて認識精度を評価する場合について説明したが、認識精度判定部31は、複数の尺度についての条件を組み合わせることによって認識精度を測ってもよい。
ステップS9に進んだ場合には、同ステップにおいて、字幕表示制御部32は、クローズドキャプション字幕を非表示とする制御を行う。この制御によって、字幕生成部23が生成したクローズドキャプション字幕は、画面には表示されなくなる。ステップS9の処理の後は、ステップS13(図5)に移る。
ステップS10に進んだ場合には、同ステップにおいて、字幕表示制御部32は、クローズドキャプション字幕の表示位置を算出するとともに、その位置にクローズドキャプション字幕が表示されるための制御を行う。具体例として、字幕表示制御部32は、オープンキャプション検出部12によって検出されたオープンキャプション字幕の位置よりも、2行分上側を、クローズドキャプション字幕の表示開始位置とする。また、具体例として、字幕表示制御部32は、画面セーフティゾーンの左端を、クローズドキャプション字幕の表示開始位置としてもよい。また、字幕表示制御部32は、他の位置を、クローズドキャプション字幕の表示開始位置としてもよい。いずれの場合も、字幕表示制御部32は、オープンキャプション字幕とクローズドキャプション字幕とが相互に干渉することのないように、クローズドキャプション字幕の表示位置を計算する。これにより、オープンキャプション字幕あるいはクローズドキャプション字幕の少なくともいずれかが視聴者によって視認されにくくなる状況を回避することができる。ステップS10の処理の後は、ステップS13(図5)に移る。
図5に移って、ステップS11に進んだ場合、認識精度判定部31は、認識精度が所定の閾値(閾値Bとする)よりも低下しているか否か(認識精度が閾値B未満であるか否か)を判定する。ステップS11での判定の結果として、認識精度が閾値B未満である場合(ステップS11:YES)には、ステップS12に進む。認識精度が閾値B以上である場合(ステップS11:NO)には、ステップS13の処理に飛ぶ。
ステップS12に進んだ場合には、同ステップにおいて、字幕表示制御部32は、特定パターンの表示が行われるように制御する。つまり、S12においては、その時点での音声認識部22からの認識結果の出力の有無に関わらず、言い換えれば字幕生成部23によって生成される字幕の有無に関わらず、特定パターンが外部に出力されるような制御が行われる。特定パターンは、適宜定められる任意のパターンである。特定パターンの一例は、「。。。」(句点の連続)といった文字列である。この特定パターンは、認識結果の出力がないこと(抑止されていること)を表している。なお、ここで例示したもの以外のパターン(文字列や画像等)を特定パターンとして用いてもよい。ステップS12の処理の後には、ステップS13の処理に移る。
なお、閾値Aと閾値Bとの関係を、閾値B<閾値Aとしてよい。つまり、閾値Bは、閾値Aよりもさらに認識精度が低下しているか否かを判定するための閾値である。ただし、閾値B=閾値Aとしてもよい。
閾値B<閾値Aである場合には、ステップS7、S8、およびS11での判定に関して、次の表1のように場合分けされて、それぞれ処理される。
Figure 2023077599000004
つまり、オープンキャプションが検出されない場合で、且つ認識精度が閾値B未満の場合には、字幕表示制御部32は、ステップS12の処理として、特定パターンの表示が行われるような制御を行う。
また、オープンキャプションが検出されない場合で、且つ認識精度が閾値B以上の場合には、字幕表示制御部32は、生成された字幕(クローズドキャプション)をそのまま画面に表示するような制御を行う。
また、オープンキャプションが検出された場合で、認識精度が閾値B未満の場合、あるいは認識精度が閾値B以上且つ閾値A未満の場合には、字幕表示制御部32は、ステップS9の処理としてクローズドキャプションの字幕を非表示とする(字幕生成部23が生成した字幕を表示しない)ような制御を行う。なお、クローズドキャプションの字幕を非表示とする場合に、オプションとして、「字幕を消している」ことを表す特定パターンを表示するようにしてもよい。
また、オープンキャプションが検出された場合で、認識精度が閾値A以上の場合には、字幕表示制御部32は、ステップS10の処理として、オープンキャプションの表示と相互に干渉しないような表示位置を算出したうえで、クローズドキャプションを表示させるような制御を行う。
閾値B=閾値Aである場合には、ステップS7、S8、およびS11での判定に関して、次の表2のように場合分けされて、それぞれ処理される。
Figure 2023077599000005
つまり、オープンキャプションが検出されない場合で、且つ認識精度が閾値B未満の場合(閾値Bは閾値Aに等しい)には、字幕表示制御部32は、ステップS12の処理として、特定パターンの表示が行われるような制御を行う。
また、オープンキャプションが検出されない場合で、且つ認識精度が閾値B以上の場合(閾値Bは閾値Aに等しい)には、字幕表示制御部32は、生成された字幕(クローズドキャプション)をそのまま画面に表示するような制御を行う。
また、オープンキャプションが検出された場合で、認識精度が閾値B未満(閾値Bは閾値Aに等しい)の場合には、字幕表示制御部32は、ステップS9の処理としてクローズドキャプションの字幕を非表示とする(字幕生成部23が生成した字幕を表示しない)ような制御を行う。なお、クローズドキャプションの字幕を非表示とする場合に、オプションとして、「字幕を消している」ことを表す特定パターンを表示するようにしてもよい。
また、オープンキャプションが検出された場合で、認識精度が閾値B以上の場合(閾値Bは閾値Aに等しい)には、字幕表示制御部32は、ステップS10の処理として、オープンキャプションの表示と相互に干渉しないような表示位置を算出したうえで、クローズドキャプションを表示させるような制御を行う。
ステップS13においては、その時点で確定した音声認識結果がある場合には、字幕表示部33は、その認識結果に基づく字幕(クローズドキャプション)を表示する。なお、クローズドキャプションの字幕は、字幕生成部23によって生成されるものである。
なお、字幕表示部33は、字幕表示制御部32による制御にしたがって字幕を表示する。つまり、字幕表示制御部32がクローズドキャプションの字幕を非表示とするよう制御した場合(ステップS9の処理)には、字幕表示部33はクローズドキャプションの字幕を表示しない。また、字幕表示制御部32が特定パターンを表示するよう制御した場合(ステップS12の処理)には、字幕表示部33は特定パターンの字幕(一例として、「。。。」といったパターン)を表示する。また、字幕表示制御部32が字幕位置を計算してその位置にクローズドキャプションの字幕を表示させるよう制御した場合(ステップS10の処理)には、字幕表示部33は字幕生成部23が生成したクローズドキャプションの字幕をその位置に表示する。
ただし、その時点で確定した認識結果がない場合には、字幕生成部23は字幕を生成しない。また、字幕表示部33は、特に何も行わない(クローズドキャプションの字幕を表示しない)。
ステップS13の終了後にはステップS14に移り、音声認識部22は認識仮説集合の枝刈りを行う。音声認識部22は、それぞれの仮説の尤度に基づいて、相対的に尤度の低い仮説を破棄する。具体的には、音声認識部22は、最尤仮説のスコアと各仮説のスコアとの差分に基づいて枝刈りを行う。つまり、この枝刈りの処理において、最尤仮説のスコア(相対的に高いスコア)との差が大きいスコア(相対的に低いスコア)を有する仮説ほど、破棄されやすい。仮説間でのスコアの一様性が比較的高い場合には、本ステップでの枝刈り処理の結果として相対的により多くの仮説が刈られずに生き残る。最尤仮説のスコアのピーク性が比較的高い場合には、本ステップでの枝刈り処理の結果として、相対的により少ない仮説が刈られずに生き残る。
次にステップS15において、画面制御装置1は、時刻tを次に進める。具体的には、時刻tが整数値をとる場合、t:=t+1となるように時刻tを更新する。
次にステップS16において、画面制御装置1は、終了条件が成立するか否かを判定する。終了条件の例は、外部から停止指示が入力されること、あるいは音声認識の対象となり得る発話のない状態が所定時間以上続くことなどである。終了条件が成立する場合(ステップS16:YES)には、画面制御装置1は、本フローチャート全体の処理を終了する。終了条件が成立しない場合(ステップS16:NO)には、画面制御装置1は、次の音声フレームについての処理を行うために、ステップS1(図4)の処理に戻る。
フローチャートを参照しながら説明した字幕表示の制御のしかたは、整理すると、次の通りである。即ち、字幕表示制御部32は、(1)オープンキャプション検出部12がオープンキャプションの領域を検出しなかった場合においては、(1A)認識精度判定部31から受け取る精度に関する情報に基づいて、精度が所定の第1閾値よりも悪い場合にはクローズドキャプション字幕に代えて特定パターンが表示されるように制御し、(1B)認識精度判定部31から受け取る精度に関する情報に基づいて、精度が第1閾値と同等または第1閾値よりも良い場合にはクローズドキャプション字幕が表示されるように制御する。また、字幕表示制御部32は、(2)オープンキャプション検出部12がオープンキャプションの領域を検出した場合においては、(2A)認識精度判定部31から受け取る精度に関する情報に基づいて、精度が所定の第2閾値よりも悪い場合には、クローズドキャプション字幕が表示されないように制御し、(2B)認識精度判定部31から受け取る精度に関する情報に基づいて、精度が第2閾値と同等または第2閾値よりも良い場合には、オープンキャプションの領域との間での干渉が生じないような位置にクローズドキャプション字幕を表示するように制御する。
なお、上記の第2閾値は、上記の第1閾値と同等または第1閾値よりも良い精度に対応する閾値である。また、第1閾値は、前の説明における閾値Bに対応する。また、第2閾値は、前の説明における閾値Aに対応する。
図6は、オープンキャプション検出部12がオープンキャプションを検出する対象の領域の位置の一例を示す概略図である。同図において、101は画面である。画面101内の下方に存在する領域102は、オープンキャプション検出部12がオープンキャプションを検出する対象とする領域である。つまり、オープンキャプション検出部12は、領域102内において、オープンキャプションらしさを有する画像特徴を持つ領域を、オープンキャプションが表示されている領域として特定する。領域102内に存在する領域103は、オープンキャプション検出部12が検出するオープンキャプションの領域の一例である。本例のように、オープンキャプションが表示される位置は、通常は、画面の下部中央付近である。オープンキャプション検出部12がオープンキャプションの領域として領域103を検出した場合には、オープンキャプション検出部12は、領域103の位置の情報(例えば、この矩形の4つの頂点の座標を表す情報)を、字幕表示制御部32に渡す。
図7は、検出されたオープンキャプションの位置と、クローズドキャプションを表示する位置との関係の一例を示す概略図である。画面101内において、領域201は、オープンキャプション検出部12によって検出されたオープンキャプションの領域である。オープンキャプション検出部12は、この領域201の位置の情報を、字幕表示制御部32に渡す。字幕表示制御部32は、領域201の位置情報に基づいて、クローズドキャプションが領域202内に表示されるように制御する。領域202は、領域201との間での重なりを持たない。つまり、クローズドキャプションが領域202内に表示されるような制御を字幕表示制御部32が行った場合には、そのクローズドキャプション(領域202)は、検出されているオープンキャプション(領域201)との間で相互に干渉しない。なお、字幕表示制御部32は、例えば、領域201の位置の情報と、表示すべきクローズドキャプション字幕の文字数と、使用するフォントのサイズとから、領域202のサイズおよび位置を決定する。
図8は、検出されたオープンキャプションの位置と、クローズドキャプションを表示する位置との関係の別例を示す概略図である。本例においては、字幕表示制御部32は、映像コンテンツを表示する領域の外に、クローズドキャプション字幕を表示するように制御する。この図において、画面101内の領域301は、映像コンテンツ(例えば、放送番組の映像)を表示するための領域である。領域301内における領域302は、オープンキャプション字幕が表示されている領域である。つまり、領域302は、オープンキャプション検出部12が検出したオープンキャプションの領域である。また、領域304は、映像コンテンツ以外の情報を表示するための領域である。この例において、領域303は、クローズドキャプション字幕を表示するための領域である。つまり、字幕表示制御部32は、クローズドキャプション字幕を領域303内に表示するよう制御する。本例のように、字幕表示制御部32は、映像を表示する領域(領域301)の外にクローズドキャプション字幕を表示するように表示位置の制御を行ってもよい。
複数の画面の例で説明したように、字幕表示制御部32は、画像フレームの表示と重なる位置にクローズドキャプション字幕を表示するように制御してもよい(例えば図7の場合)し、画像フレームの表示と重ならない位置にクローズドキャプション字幕を表示するように制御してもよい(例えば図8の場合)。つまり、図7に示す例の場合(クローズドキャプション字幕の表示位置は映像コンテンツと重なる領域)も図8に示す例の場合(クローズドキャプション字幕の表示位置は映像コンテンツと重ならない領域)も、字幕表示制御部32は、クローズドキャプション字幕の表示位置を制御する。
図9は、上記の実施形態における画面制御装置1や映像供給装置6や音声供給装置7の各装置の内部構成の例を示すブロック図である。各装置は、コンピューターを用いて実現され得る。図示するように、そのコンピューターは、中央処理装置901と、RAM902と、入出力ポート903と、入出力デバイス904や905等と、バス906と、を含んで構成される。コンピューター自体は、既存技術を用いて実現可能である。中央処理装置901は、RAM902等から読み込んだプログラムに含まれる命令を実行する。中央処理装置901は、各命令にしたがって、RAM902にデータを書き込んだり、RAM902からデータを読み出したり、算術演算や論理演算を行ったりする。RAM902は、データやプログラムを記憶する。RAM902に含まれる各要素は、アドレスを持ち、アドレスを用いてアクセスされ得るものである。なお、RAMは、「ランダムアクセスメモリー」の略である。入出力ポート903は、中央処理装置901が外部の入出力デバイス等とデータのやり取りを行うためのポートである。入出力デバイス904や905は、入出力デバイスである。入出力デバイス904や905は、入出力ポート903を介して中央処理装置901との間でデータをやりとりする。バス906は、コンピューター内部で使用される共通の通信路である。例えば、中央処理装置901は、バス906を介してRAM902のデータを読んだり書いたりする。また、例えば、中央処理装置901は、バス906を介して入出力ポートにアクセスする。
なお、上述した実施形態における画面制御装置1や映像供給装置6や音声供給装置7の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。つまり、「コンピューター読み取り可能な記録媒体」とは、非一過性の(non-transitory)コンピューター読み取り可能な記録媒体であってよい。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、実施形態を説明したが、本発明は、上記実施形態の変形例で実現される場合もある。また、装置等の具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。変形例の一例を次に説明する。
[変形例]
変形例として、画面制御装置1が、音声認識精度には基づかずにクローズドキャプション字幕の表示の制御をしてもよい。この場合、画面制御装置1は、認識精度判定部31を含まない機能構成としてもよい。あるいは、字幕表示制御部32が認識精度判定部31から認識精度に関する情報を受け取らないようにしてもよい。これらのいずれの場合においても、字幕表示制御部32は、認識精度に依らずにクローズドキャプション字幕の表示の制御を行う。この変形例においても、字幕表示制御部32は、オープンキャプション検出部12がオープンキャプションの領域を検出したか否かに応じて、クローズドキャプション字幕を表示するか否か、または、クローズドキャプション字幕を表示する場合の表示位置、の少なくともいずれかを制御する。また、この変形例において、字幕表示制御部32は、オープンキャプション検出部12がオープンキャプションの領域を検出した場合には、そのオープンキャプションの領域との間での干渉が生じないような位置にクローズドキャプション字幕を表示するように制御してもよい。
本発明は、例えば、コンテンツを制作したり配信したりするための事業(放送事業を含むがこれには限定されない)に利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。
1 画面制御装置
6 映像供給装置
7 音声供給装置
8 コンテンツ供給システム
11 画像フレーム取得部
12 オープンキャプション検出部
21 音声取得部
22 音声認識部
23 字幕生成部
31 認識精度判定部
32 字幕表示制御部
33 字幕表示部
220 状況把握部
221 認識仮説量把握部
222 時刻差分把握部
223 処理時間把握部
224 CPU負荷把握部
901 中央処理装置
902 RAM
903 入出力ポート
904,905 入出力デバイス
906 バス

Claims (7)

  1. 入力される画像フレーム内に含まれるオープンキャプションの領域を検出するオープンキャプション検出部と、
    入力される音声について認識処理を行うことによって認識結果であるテキストを出力する音声認識部と、
    前記音声認識部が出力した前記テキストに基づいてクローズドキャプション字幕を生成する字幕生成部と、
    前記オープンキャプション検出部が、前記オープンキャプションの領域を検出したか否かに応じて、前記クローズドキャプション字幕を表示するか否か、または、前記クローズドキャプション字幕を表示する場合の表示位置、の少なくともいずれかを制御する字幕表示制御部と、
    前記字幕表示制御部による制御にしたがって、前記クローズドキャプション字幕を表示する字幕表示部と、
    を備える画面制御装置。
  2. 前記音声認識部における前記認識処理の状況を把握することによって前記認識処理における精度に関する情報を出力する認識精度判定部、
    をさらに備え、
    前記字幕表示制御部は、さらに、前記認識精度判定部から受け取る前記精度に関する情報に基づいて、前記クローズドキャプション字幕を表示するか否か、または、前記クローズドキャプション字幕に代えて特定パターンを表示するか否か、の少なくともいずれかを制御する、
    請求項1に記載の画面制御装置。
  3. 前記字幕表示制御部は、前記オープンキャプション検出部が前記オープンキャプションの領域を検出した場合には、前記オープンキャプションの領域との間での干渉が生じないような位置に前記クローズドキャプション字幕を表示するように制御する、
    請求項1または2に記載の画面制御装置。
  4. 前記字幕表示制御部は、前記画像フレームの表示と重なる位置に前記クローズドキャプション字幕を表示するように制御する、
    請求項3に記載の画面制御装置。
  5. 前記字幕表示制御部は、前記画像フレームの表示と重ならない位置に前記クローズドキャプション字幕を表示するように制御する、
    請求項3に記載の画面制御装置。
  6. 前記字幕表示制御部は、
    (1)前記オープンキャプション検出部が前記オープンキャプションの領域を検出しなかった場合においては、
    (1A)前記認識精度判定部から受け取る前記精度に関する情報に基づいて、前記精度が所定の第1閾値よりも悪い場合には前記クローズドキャプション字幕に代えて前記特定パターンが表示されるように制御し、
    (1B)前記認識精度判定部から受け取る前記精度に関する情報に基づいて、前記精度が前記第1閾値と同等または前記第1閾値よりも良い場合には前記クローズドキャプション字幕が表示されるように制御し、
    (2)前記オープンキャプション検出部が前記オープンキャプションの領域を検出した場合においては、
    (2A)前記認識精度判定部から受け取る前記精度に関する情報に基づいて、前記精度が所定の第2閾値よりも悪い場合には、前記クローズドキャプション字幕が表示されないように制御し、
    (2B)前記認識精度判定部から受け取る前記精度に関する情報に基づいて、前記精度が前記第2閾値と同等または前記第2閾値よりも良い場合には、前記オープンキャプションの領域との間での干渉が生じないような位置に前記クローズドキャプション字幕を表示するように制御する、
    というものであり、
    前記第2閾値は、前記第1閾値と同等または前記第1閾値よりも良い精度に対応する、
    請求項2に記載の画面制御装置。
  7. 入力される画像フレーム内に含まれるオープンキャプションの領域を検出するオープンキャプション検出部と、
    入力される音声について認識処理を行うことによって認識結果であるテキストを出力する音声認識部と、
    前記音声認識部が出力した前記テキストに基づいてクローズドキャプション字幕を生成する字幕生成部と、
    前記オープンキャプション検出部が、前記オープンキャプションの領域を検出したか否かに応じて、前記クローズドキャプション字幕を表示するか否か、または、前記クローズドキャプション字幕を表示する場合の表示位置、の少なくともいずれかを制御する字幕表示制御部と、
    前記字幕表示制御部による制御にしたがって、前記クローズドキャプション字幕を表示する字幕表示部と、
    を備える画面制御装置、としてコンピューターを機能させるためのプログラム。
JP2021190935A 2021-11-25 2021-11-25 画面制御装置およびプログラム Pending JP2023077599A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021190935A JP2023077599A (ja) 2021-11-25 2021-11-25 画面制御装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021190935A JP2023077599A (ja) 2021-11-25 2021-11-25 画面制御装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2023077599A true JP2023077599A (ja) 2023-06-06

Family

ID=86622435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021190935A Pending JP2023077599A (ja) 2021-11-25 2021-11-25 画面制御装置およびプログラム

Country Status (1)

Country Link
JP (1) JP2023077599A (ja)

Similar Documents

Publication Publication Date Title
CN110709924B (zh) 视听语音分离
WO2021082941A1 (zh) 视频人物识别方法、装置、存储介质与电子设备
EP3226245B1 (en) System and method to insert visual subtitles in videos
CN110210310B (zh) 一种视频处理方法、装置和用于视频处理的装置
CN113035199B (zh) 音频处理方法、装置、设备及可读存储介质
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
CN112565885B (zh) 一种视频分割方法、系统、设备及存储介质
US11893813B2 (en) Electronic device and control method therefor
CN104205212A (zh) 听觉场景中的讲话者冲突
US20130218570A1 (en) Apparatus and method for correcting speech, and non-transitory computer readable medium thereof
US20190213998A1 (en) Method and device for processing data visualization information
US11600279B2 (en) Transcription of communications
CN111640452A (zh) 一种数据处理方法、装置和用于数据处理的装置
US9576587B2 (en) Example-based cross-modal denoising
CN113113040A (zh) 音频处理方法及装置、终端及存储介质
JP2023077599A (ja) 画面制御装置およびプログラム
EP4404574A1 (en) Video processing method and apparatus, and medium and program product
KR20140093459A (ko) 자동 통역 방법
CN113033357B (zh) 基于口型特征的字幕调整方法以及装置
CN107566863A (zh) 一种交流信息展示方法、装置及设备、机顶盒
CN113205797B (zh) 虚拟主播生成方法、装置、计算机设备及可读存储介质
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
CN117769739A (zh) 用于配音的辅助翻译和嘴唇匹配的系统和方法
CN114467141A (zh) 语音处理方法、装置、设备以及存储介质
CN113722513B (zh) 多媒体数据的处理方法及设备

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20240802