JP2023077599A

JP2023077599A - 画面制御装置およびプログラム

Info

Publication number: JP2023077599A
Application number: JP2021190935A
Authority: JP
Inventors: 智康小森; Tomoyasu Komori; 庄衛佐藤; Shoe Sato; 吉彦河合; Yoshihiko Kawai; 貴裕望月; Takahiro Mochizuki; 剛三島; Takeshi Mishima; 裕明佐藤; Hiroaki Sato; 真綱藤森; Naotsuna Fujimori; 伶遠藤; Rei Endo
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp; NHK Engineering System Inc
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2023-06-06

Abstract

【課題】少なくともオープンキャプションの有無に応じて、自動的に、音声認識結果に基づくクローズドキャプションの表示を制御することのできる画面制御装置を提供する。【解決手段】オープンキャプション検出部は、入力される画像フレーム内に含まれるオープンキャプションの領域を検出する。音声認識部は、入力される音声について認識処理を行うことによって認識結果であるテキストを出力する。字幕生成部は、前記音声認識部が出力した前記テキストに基づいてクローズドキャプション字幕を生成する。字幕表示制御部は、前記オープンキャプション検出部が、前記オープンキャプションの領域を検出したか否かに応じて、前記クローズドキャプション字幕を表示するか否か、または、前記クローズドキャプション字幕を表示する場合の表示位置、の少なくともいずれかを制御する。【選択図】図１

Description

本発明は、画面制御装置およびプログラムに関する。

放送やインターネット配信等によるコンテンツ提供事業において、音声認識結果を用いて自動的に字幕を生成し、映像に字幕を付加したいという動機がある。その背景として、例えば比較的規模の小さな放送局（日本全国をネットワークで結ぶ放送事業者の地方局等を含む）では、人手で字幕を生成するための設備や人員を確保することは困難である。また、リスピーク方式を利用して字幕を生成しようとしても、リスピーカーを確保することも困難である。一方で、例えば聴覚障碍者等には、精度が低くてもよいので、字幕放送があったほうがよいというニーズもある。映像に含まれる音声の認識処理を行って、オペレーター等による操作なしで、音声認識結果をそのまま用いた字幕を付与したいというニーズは、これらのような事情から生じる。

一般に、音声認識処理による認識率（認識結果として正解を出力する率）が所定値以上（例えば、９０％以上）であれば、多少の誤認識を含んでいる字幕テキストであっても、その価値は高い。このような認識率が得られる場合には、非特許文献１によると、認識結果が誤りを含んでいる場合であっても、表示される字幕テキストを見る者がそのような誤りを脳内で正しい言葉に補完することが可能である。

逆に、音声認識率が低すぎると（例えば、７０％程度、またはそれ以下であると）、字幕テキストを見た者が脳内で補完を行って正しい言葉として理解することも困難となる。例えば、アナウンサーが発話する部分の音声認識率は高い傾向があり、その他の人が発話する部分（街頭インタビューなど）の音声認識率は低い傾向がある。つまり、こういった街頭インタビューなどの音声認識率の低い部分で、字幕テキストを見ると、番組内容の理解が難しくなることがある。

つまり、音声認識率に応じて、字幕の表示を制御することが求められる。

特許文献１には、音声認識処理を行いながら、リアルタイムで音声認識率が低下しているか否かを推定する技術が記載されている。この技術により、音声認識率が低下している状況において、認識結果を出力（表示）しないように制御することが可能となっている。

特許文献２には、外部環境の騒音を検出して、検出結果に基づいて字幕（クローズドキャプション）の表示あるいは非表示を制御する技術が記載されている。

特開２０２０－１８７３１３号公報特開２００５－０６４５９９号公報

河原達也，「話し言葉の音声認識の進展－議会の会議録作成から講演・講義の字幕付与へ－」，メディア教育研究，第9巻，第1号，pp.S1-S8，２０１２年．

しかしながら、従来の技術には次のような課題が存在する。例えば放送局のアナウンサー以外の人による発話（例えば、街頭インタビュー等においてインタビューを受けている人による発話）では、音声認識率が低い傾向がある。また、そのような発話では、音声の収録環境や発声の違いなどにより、人が聞いても言葉を聞き取りづらい場合が多くある。そのような場合には、コンテンツの演出として、オープンキャプションが付与される場合がある。オープンキャプションは、表示／非表示を切り替えることのできない字幕である。つまり、オープンキャプションは、映像信号に含まれる情報である。比較的規模の小さな放送局のニュース番組等においても、時間率にして５％程度の時間帯でオープンキャプションが付けられている。このように、オープンキャプションは、よりわかりやすく発話内容を視聴者に伝えるために重要な役割を担っている情報である。

特許文献１に記載されている技術では、音声認識率のみに基づいて字幕（クローズドキャプション）の内容が制御されている。つまり、クローズドキャプションの内容とオープンキャプ本の内容とが相互に干渉する可能性がある。即ち、クローズドキャプションとオープンキャプションとが同時に表示されると、似ていながら異なる字幕が同時に画面上に表示されることとなり、視聴者による番組の理解を阻害する場合があり得る。

また、オープンキャプションを使用せずに特許文献１に記載された技術だけを使用した場合には、認識率が低下した場合に字幕情報が表示されなくなり、視聴者の満足度が低下してしまうという問題がある。

また、特許文献２に記載された技術では、オープンキャプションが表示されているか否かに基づいてクローズドキャプションの表示を制御することができないという問題がある。

本発明は、上記のような課題認識に基づいて為されたものであり、オープンキャプションの有無に応じて、自動的に、音声認識結果に基づく字幕（クローズドキャプション）の表示を制御することのできる画面制御装置およびプログラムを提供しようとするものである。

［１］上記の課題を解決するため、本発明の一態様による画面制御装置は、入力される画像フレーム内に含まれるオープンキャプションの領域を検出するオープンキャプション検出部と、入力される音声について認識処理を行うことによって認識結果であるテキストを出力する音声認識部と、前記音声認識部が出力した前記テキストに基づいてクローズドキャプション字幕を生成する字幕生成部と、前記オープンキャプション検出部が、前記オープンキャプションの領域を検出したか否かに応じて、前記クローズドキャプション字幕を表示するか否か、または、前記クローズドキャプション字幕を表示する場合の表示位置、の少なくともいずれかを制御する字幕表示制御部と、前記字幕表示制御部による制御にしたがって、前記クローズドキャプション字幕を表示する字幕表示部と、を備える。

［２］また、本発明の一態様は、上記の画面制御装置において、前記音声認識部における前記認識処理の状況を把握することによって前記認識処理における精度に関する情報を出力する認識精度判定部、をさらに備え、前記字幕表示制御部は、さらに、前記認識精度判定部から受け取る前記精度に関する情報に基づいて、前記クローズドキャプション字幕を表示するか否か、または、前記クローズドキャプション字幕に代えて特定パターンを表示するか否か、の少なくともいずれかを制御する、というものである。

［３］また、本発明の一態様は、上記の画面制御装置において、前記字幕表示制御部は、前記オープンキャプション検出部が前記オープンキャプションの領域を検出した場合には、前記オープンキャプションの領域との間での干渉が生じないような位置に前記クローズドキャプション字幕を表示するように制御する、というものである。

［４］また、本発明の一態様は、上記の画面制御装置において、前記字幕表示制御部は、前記画像フレームの表示と重なる位置に前記クローズドキャプション字幕を表示するように制御する、というものである。

［５］また、本発明の一態様は、上記の画面制御装置において、前記字幕表示制御部は、前記画像フレームの表示と重ならない位置に前記クローズドキャプション字幕を表示するように制御する、というものである。

［６］また、本発明の一態様は、上記の画面制御装置において、前記字幕表示制御部は、（１）前記オープンキャプション検出部が前記オープンキャプションの領域を検出しなかった場合においては、（１Ａ）前記認識精度判定部から受け取る前記精度に関する情報に基づいて、前記精度が所定の第１閾値よりも悪い場合には前記クローズドキャプション字幕に代えて前記特定パターンが表示されるように制御し、（１Ｂ）前記認識精度判定部から受け取る前記精度に関する情報に基づいて、前記精度が前記第１閾値と同等または前記第１閾値よりも良い場合には前記クローズドキャプション字幕が表示されるように制御し、（２）前記オープンキャプション検出部が前記オープンキャプションの領域を検出した場合においては、（２Ａ）前記認識精度判定部から受け取る前記精度に関する情報に基づいて、前記精度が所定の第２閾値よりも悪い場合には、前記クローズドキャプション字幕が表示されないように制御し、（２Ｂ）前記認識精度判定部から受け取る前記精度に関する情報に基づいて、前記精度が前記第２閾値と同等または前記第２閾値よりも良い場合には、前記オープンキャプションの領域との間での干渉が生じないような位置に前記クローズドキャプション字幕を表示するように制御する、というものであり、前記第２閾値は、前記第１閾値と同等または前記第１閾値よりも良い精度に対応するものである。

［７］また、本発明の一態様は、入力される画像フレーム内に含まれるオープンキャプションの領域を検出するオープンキャプション検出部と、入力される音声について認識処理を行うことによって認識結果であるテキストを出力する音声認識部と、前記音声認識部が出力した前記テキストに基づいてクローズドキャプション字幕を生成する字幕生成部と、前記オープンキャプション検出部が、前記オープンキャプションの領域を検出したか否かに応じて、前記クローズドキャプション字幕を表示するか否か、または、前記クローズドキャプション字幕を表示する場合の表示位置、の少なくともいずれかを制御する字幕表示制御部と、前記字幕表示制御部による制御にしたがって、前記クローズドキャプション字幕を表示する字幕表示部と、を備える画面制御装置、としてコンピューターを機能させるためのプログラムである。

本発明によれば、画面制御装置は、オープンキャプションを含んだ画像フレームで成る映像区間に関して、オープンキャプション字幕とクローズドキャプション字幕との干渉を回避することができる。

本発明の実施形態による画面制御装置の概略機能構成を示すブロック図である。同実施形態による画面制御装置の音声認識部が持つ機能の一部のさらに詳細な構成を示すブロック図である。同実施形態による画面制御装置を含んだコンテンツ供給システムの構成を示すブロック図である。同実施形態による画面制御装置による処理の手順を示すフローチャート（１／２）である。同実施形態による画面制御装置による処理の手順を示すフローチャート（２／２）である。同実施形態によるオープンキャプション検出部がオープンキャプションを検出する対象の領域の位置の一例を示す概略図である。同実施形態においてオープンキャプション検出部が検出したオープンキャプションの位置と、クローズドキャプションを表示する位置との関係の一例を示す概略図である。同実施形態においてオープンキャプション検出部が検出したオープンキャプションの位置と、クローズドキャプションを表示する位置との関係の別の例を示す概略図である。同実施形態における画面制御装置や映像供給装置や音声供給装置の各装置の内部構成の例を示すブロック図である。

次に、本発明の一実施形態について、図面を参照しながら説明する。本実施形態の画面制御装置１は、取得されるフレーム画像および音声を基に、クローズドキャプション字幕の画面上での表示のための制御を行う。クローズドキャプション字幕は、音声認識処理を行うことによって生成されるものである。

具体的には、画面制御装置１は、フレーム画像に含まれ得るオープンキャプション字幕の有無を判定するとともに、オープンキャプション字幕が含まれる場合には画面上でのその位置を検出する。また、画面制御装置１は、取得した音声の認識処理を行いながら、その認識処理における認識精度が低下しているか否かを判定する。なお、画面制御装置１は、音声認識の精度が低下しているか否かの判定をリアルタイムに行う。

画像中にオープンキャプション字幕が表示されていて、且つ認識精度が低下していると見込まれる状況において、画面制御装置１は、クローズドキャプション字幕の表示をしないための制御を行うようにしてよい。また、画像中にオープンキャプション字幕が表示されていて、認識精度が低下しているとは判断されない状況においては、画面制御装置１は、クローズドキャプション字幕の表示位置がオープンキャプション字幕の表示位置と異なる位置になるように制御する。つまり、画面制御装置１は、オープンキャプション字幕とクローズドキャプション字幕とが相互に干渉しないように、表示位置の制御を行う。また、画面制御装置１は、音声認識処理の結果に基づくクローズドキャプション字幕を表示する代わりに、音声認識が困難である（認識精度が低い）ことを示す特定パターンを出力してもよい。音声認識が困難であることを示す特定パターンとは、例えば「。。。」などといった特定の文字列等である。画面制御装置１は、例えば、テレビ番組やインターネット配信の映像から抽出される画像フレームおよび音声を処理対象としてよい。

図１は、本実施形態による画面制御装置の概略機能構成を示すブロック図である。図示するように、画面制御装置１は、画像フレーム取得部１１と、オープンキャプション検出部１２と、音声取得部２１と、音声認識部２２と、字幕生成部２３と、認識精度判定部３１と、字幕表示制御部３２と、字幕表示部３３とを含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ（ＳＳＤ）といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。

画像フレーム取得部１１は、外部から画像フレームを取得する。画像フレームは、映像（例えば放送番組等のコンテンツの映像）を構成する要素である。言い換えれば、映像は、所定のフレームレートによる画像フレームの系列である。個々の画像フレームは、提示時刻を表すタイムコードの情報を持っている。このタイムコード自体は外部から入力されるものであってもよいし、画面制御装置１自体が生成するものであっても良い。画像フレームが持つタイムコードは、下で説明する音声フレームのタイムコードと関連付けられる。

画像フレーム取得部１１は、取得した画像フレームを、フレーム単位で処理することのできる形態で、オープンキャプション検出部１２に渡す。画像フレームは、１秒あたりに例えば３０フレームあるいは６０フレームの頻度のものである。それぞれの場合において、画像フレームの周期は、約３３ミリ秒（ｍｓｅｃ）あるいは約１７ミリ秒である。なお、フレーム画像の頻度は、ここに例示したものに限定されず、他の頻度であってもよい。本実施形態は、1秒間に３０フレーム（およそ３３ミリ秒の長さを有するものである。なお、フレームの長さや周期は、ここに例示したものに限定される任意である。

オープンキャプション検出部１２は、画像フレーム取得部１１が取得した画像フレーム内のオープンキャプション字幕を検出する。オープンキャプション検出部１２は、画像フレーム内にオープンキャプション字幕が含まれるか否かを、字幕表示制御部３２に通知する。また、画像フレーム内にオープンキャプション字幕が含まれる場合には、オープンキャプション検出部１２は、オープンキャプション字幕の位置の情報（オープンキャプション字幕の領域の位置を表す座標情報等）を、字幕表示制御部３２に通知する。つまり、オープンキャプション検出部１２は、入力される画像フレーム内に含まれるオープンキャプションの領域を検出する。

オープンキャプション検出部１２は、具体的には、下記の方法によってオープンキャプション字幕を検出する。即ち、オープンキャプション検出部１２は、対象とする画像フレーム内において、走査窓と呼ぶ小領域を設定するとともに、その走査窓の位置を少しずつ移動させながら走査窓領域がオープンキャプションの一部であるか否かを判定していく。走査窓の領域がオープンキャプション字幕の一部であるか否かの判定を行う手法としては、例えば、エッジに関する特徴量に基づいてＳＶＭ（support vector machine）等を利用して区別する方法がある。エッジに関する特徴量は、文字と背景画像（人物等を含んでもよい）とを区別するための量として有効である。そして、オープンキャプション検出部１２は、オープンキャプションの一部であると判定された走査窓が所定数以上重なっている部分を抽出し、抽出された領域を求める。さらに、オープンキャプション検出部１２は、誤検出の領域を取り除く。誤検出であるか否かの判定は、エッジに関する特徴量や、検出された領域のサイズに基づいて行われる。検出された領域が小さすぎる場合（所定の閾値よりも小さい場合）には、その領域を誤検出とする。これらの処理に基づいて、オープンキャプション検出部１２は、オープンキャプション字幕の有無を判定する。また、オープンキャプション字幕が存在すると判定された場合には、オープンキャプション検出部１２は、そのオープンキャプション字幕の位置の情報を出力する。オープンキャプション字幕の領域が矩形である場合、オープンキャプション字幕の位置の情報は、例えば、その矩形の頂点の座標値としてよい。また、その矩形の一部の頂点（例えば左上の頂点）の座標値としてよい。

なお、オープンキャプション検出部１２は、他の方法でオープンキャプションの領域を検出するようにしてもよい。例えば、領域の画素値集合とオープンキャプションの有無との情報に基づいて学習した機械学習モデルを用いて、オープンキャプションの領域を検出してもよい。

音声取得部２１は、音声の信号を取得する。音声取得部２１が取得する音声の信号は、画像フレーム取得部１１が取得する画像フレームと関連付く内容のものである。音声取得部２１は、例えば、音声波形を表すアナログ信号を取得してもよい。また、音声取得部２１は、音声を表すデジタルデータを取得してもよい。また、音声取得部２１は、音声信号に関連するタイムコード信号を取得してもよい。タイムコード信号により、音声取得部２１が取得する音声と画像フレーム取得部１１が取得する画像フレームとの間の同期が可能となる。

音声取得部２１は、外部から取得した音声の信号を、音声フレーム単位で処理することのできる形態で、音声認識部２２に渡す。本実施形態では、１フレームは、２５ミリ秒の長さを有するものであり、１０ミリ秒毎に開始される。つまり、複数の音声フレームでオーバーラップし合う時間区間が存在する。なお、フレームの長さや周期は、ここに例示したものに限定されず、異なったものであってもよい。

音声認識部２２は、音声取得部２１が取得した音声についての認識処理を行う。音声認識部２２は、入力される音声について認識処理を行うことによって認識結果であるテキストを出力する。音声認識部２２は、取得される音声と、予め保持している音響モデルおよび言語モデルとに基づいて、音声認識結果についての仮説を生成する。また、音声認識部２２は、認識結果に関する仮説に対して付与されるスコア（得点）に基づいて、仮説の探索を行う。そして、音声認識部２２は、そのスコアに基づく最尤仮説を求め、認識結果として出力する。音声認識部２２は、認識結果であるテキストを、字幕生成部２３に渡す。なお、音声認識の処理自体は、既存技術により実現可能である。

音声認識部２２は、音声認識の処理のために、内部に、音声認識仮説を探索する機能を持っている。この機能を、音声認識仮説探索機能と呼ぶ。音声認識仮説探索機能は、音声信号の時間区間ごとの音声認識結果に関する複数の音声認識仮説のスコアに基づいて音声認識仮説を探索する。そして、音声認識仮説探索機能は、探索された音声認識仮説の中から音声認識結果を決定し、その音声認識結果を出力する。つまり、音声認識仮説探索機能は、音声取得部２１が取得した音声を基に、複数の音声認識仮説を生成し、各音声認識仮説のスコアを算出し、そのスコアに基づいて、音声認識仮説を探索する。さらに具体的には、音声認識仮説探索機能は、入力された音声のフレーム（時間区間）ごとの音響特徴量を算出する。また、音声認識仮説探索機能は、音声区間検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）の機能を有していてもよい。つまり、音声認識仮説探索機能は、音声区間検出の機能を用いて、リアルタイムに連続して入力される音声信号から、発話ごとの区間を抽出する。そして、音声認識仮説探索機能は、発話ごとに、次の手順による音声認識処理を行う。音声認識仮説探索機能は、発話の区間について、予め保持している音響モデルや言語モデルを用いて、音声認識仮説を生成する。ここで、音響モデルとは、音響特徴量と音素との間の確率的関係の情報を持つものである。また、言語モデルとは、音素列が言語であるか否かを表す確率の情報を持つものである。音声認識仮説は、入力された音声に対応するものとして考え得る単語列の候補である。音声認識仮説は、例えば、時間方向に確率的に状態が遷移するネットワークとして表現され得る。音声認識仮説探索機能は、各々の音声認識仮説について、入力された音声との対応関係に基づくスコアを算出する。

音声認識仮説探索機能は、スコアに基づいて上記のネットワークを探索し、最尤の認識結果を求める。上記の処理過程において、音声認識仮説探索機能は、適宜、枝刈り処理を行う。一般に、放送番組の字幕制作に用いるような大語彙の音声認識の処理において、音声と単語列のすべての認識仮説とをリアルタイムに照合することは困難である。そのため、音声の一部が入力されるごとに、最尤の仮説のスコアと各仮説のスコアを比較して、見込みの小さな仮説を枝刈りして切り捨てることが行われる。本実施形態の音声認識仮説探索機能は、仮説の枝刈りを行うことによって、リアルタイムに探索を終えるようにしている。この音声認識仮説探索機能の処理自体は、既存技術によって実現可能なものである。この枝刈りの方式はビームサーチと呼ばれる。ビームサーチの一例として、認識仮説探索機能は、探索のビーム幅をＷとした場合、最尤の仮説のスコアＳに対して、
｜Ｓ－Ｓ_ｉ｜＜Ｗ
を満たすスコアＳ_ｉを有する対立仮説iのみが生き残るような枝刈りを行う。

なお、仮説の生成と枝刈り（破棄）の結果として、ある時点（ある音声フレーム）における音声認識仮説の数は、可変である。ある時点における音声認識仮説の数が、例えば、数千個程度に達する場合もある。入力される音声の中で、明瞭度が高く、高い音声認識精度が得られる部分では、最尤仮説のスコアＳに比べて他の対立仮説のスコアが十分に小さくなる。よって、この部分では、ビーム内に生き残る対立仮説の数は少ない。一方、明瞭度が低く、認識精度の低下が見込まれる部分では、最尤仮説と対立仮説のスコアとの間の十分な差が得られないため、ビーム内に候補として残る対立仮説の数は多くなる。

上記のような対立仮説が多くなる状況においては、例えば、探索処理時間がより多くかかるようになる。したがって、探索に要する処理時間を測定することにより、音声認識の精度の低下を推定することができる。つまり、探索処理時間が多くかかるほど、音声認識処理の精度が低下すると見なせる。あるいは、探索対象の仮説の数を測定することにより、音声認識の精度の低下を推定することができる。つまり、探索対象の仮説の数が多くなるほど、音声認識の精度が低下すると見なせる。

字幕生成部２３は、音声認識部２２が出力する音声認識の結果のテキストを用いて、クローズドキャプションの字幕のデータを生成する。字幕生成部２３は、生成したクローズドキャプションの字幕を、字幕表示制御部３２に渡す。これにより、字幕表示部３３は、音声認識結果に基づくクローズドキャプションの字幕を表示できるようになる。つまり、字幕生成部２３は、映像コンテンツが持つ音声に基づいて、当該映像コンテンツの字幕データを生成する。

認識精度判定部３１は、音声認識部２２による認識精度を判定する。認識精度判定部３１は、音声認識部２２における認識処理の状況を把握することによってその認識処理における精度に関する情報を出力する。認識精度判定部３１は、さらに具体的には、音声認識部２２による認識精度が低下している度合いを判定する。認識精度判定部３１は、音声認識部２２による認識精度に関する情報を、字幕表示制御部３２に渡す。具体的には、認識精度判定部３１は、音声認識部２２における処理の状況を把握し、その状況に基づいて、音声認識処理の精度が低下したか否かを推定する。認識精度判定部３１は、この判定を行う際、最尤認識仮説が他の仮説よりもどの程度尤もらしいかに基づく判断を行う。より具体的には、認識精度判定部３１は、例えば、音声認識仮説の量が多いか否か、音声フレームの入力から処理までの時間の遅延が大きいか否か、音声１フレームあたりの処理時間が長いか否か、あるいは認識処理のためのプロセッサーの負荷（ＣＰＵ負荷等）が大きいか否か、といった情報に基づいて、上記の判定を行う。つまり、認識精度判定部３１は、音声認識仮説の量に関する情報を音声認識部２２から取得し、音声認識仮説の量が多いほど音声認識精度が低下していると推定する。あるいは、認識精度判定部３１は、音声フレームの入力から処理までの時間の遅延量を取得し、その遅延量が大きいほど音声認識精度が低下していると推定してもよい。あるいは、認識精度判定部３１は、音声１フレームあたりの処理時間を取得し、１フレーム当たりの処理時間が長いほど音声認識精度が低下していると推定してもよい。また、認識精度判定部３１は、音声認識部２２による認識処理のためのプロセッサーの負荷の情報を取得し、このプロセッサーの負荷が高いほど音声認識精度が低下していると推定してもよい。

つまり、音声認識部２２は、認識精度が低下しているか否かを表す情報、および認識精度が低下している度合いを表す情報を出力する。認識精度判定部３１は、この音声認識部２２からの情報に基づいて、認識精度の低下の度合いを判定する。認識精度判定部３１は、音声認識処理の精度が低下したか否かを表す情報を、字幕表示制御部３２に渡す。この情報は、音声認識処理の精度が低下している／低下していないという２値判定値であってもよい。また、この情報は、認識処理の精度が低下した度合いを表す数値情報であってもよい。また、認識精度判定部３１が、その時点での認識精度自体を表す数値情報を字幕表示制御部３２に渡すようにしてもよい。

字幕表示制御部３２は、複数の要素に基づいて、字幕（クローズドキャプション）の表示に関する制御を行う。具体的には、字幕表示制御部３２は、オープンキャプション検出部１２がオープンキャプションの領域を検出したか否かに応じて、クローズドキャプション字幕を表示するか否か、または、クローズドキャプション字幕を表示する場合の表示位置、の少なくともいずれかを制御する。また、字幕表示制御部３２は、さらに、前記認識精度判定部から受け取る前記精度に関する情報に基づいて、前記クローズドキャプション字幕を表示するか否か、または、前記クローズドキャプション字幕に代えて特定パターンを表示するか否か、の少なくともいずれかを制御してもよい。また、字幕表示制御部３２は、前記オープンキャプション検出部が前記オープンキャプションの領域を検出した場合には、前記オープンキャプションの領域との間での干渉が生じないような位置に前記クローズドキャプション字幕を表示するように制御してもよい。

字幕表示制御部３２の処理の詳細は次の通りである。字幕表示制御部３２は、オープンキャプション検出部１２が画像フレーム内においてオープンキャプションを検出したか否かに基づいて字幕の表示を制御する。また、字幕表示制御部３２は、オープンキャプション検出部１２が検出したオープンキャプションの画像フレーム内での位置（座標等）に基づいて、字幕の表示を制御する。また、字幕表示制御部３２は、認識精度判定部３１から渡される、音声認識部２２による音声認識の精度の情報に基づいて、字幕の表示を制御する。

字幕表示制御部３２は、上記の情報に基づいて、クローズドキャプションの字幕を表示するか非表示とするかを制御する。また、字幕表示制御部３２は、字幕として、字幕生成部２３から渡されるテキスト（音声認識の結果）を表示するか、あるいは特定パターンの情報を表示するかを制御する。特定パターンの情報の具体例については後述する。また、字幕表示制御部３２は、クローズドキャプションの字幕を表示する位置を制御する。つまり、字幕表示制御部３２は、画像フレーム内に含まれるオープンキャプションと、音声認識結果に基づくクローズドキャプションの字幕とが、相互に干渉し合うことのないように、クローズドキャプションの表示位置を決定する。

つまり、音声認識処理の精度の低下がない（精度が所定の閾値以上である）という判定結果の場合には、字幕表示制御部３２は、字幕生成部２３が生成するクローズドキャプション字幕をそのまま表示する。音声認識処理の精度の低下がある（精度が所定の閾値未満である）という判定結果の場合には、字幕表示制御部３２は、認識精度の低下があることを表す特定パターン（予め定めたパターン）を表示する。この特定パターンとは、特定の文字列や、特定の画像等であってよい。一例として、特定パターンは、「。。。」という文字列であってもよい。

字幕表示制御部３２は、前述の通り、クローズドキャプション字幕の表示位置を制御する場合がある。そのため、字幕表示制御部３２は、字幕表示位置調整機能を持つ。字幕表示位置調整機能は、検出されたオープンキャプションの表示位置と、クローズドキャプション字幕の文字数とに応じて、クローズドキャプション字幕の表示位置を決定する。例えば、字幕表示位置調整機能は、オープンキャプション検出部１２から渡されるオープンキャプションの表示位置と、表示すべきクローズドキャプション字幕のフォントサイズと、クローズドキャプション字幕の文字数とに基づいて、クローズドキャプション字幕の表示開始位置を算出することができる。オープンキャプション字幕の領域が画面の下部中央付近である場合には、字幕表示位置調整機能は、そのオープンドキャプション字幕の上に、クローズドキャプション字幕を表示するように、位置を求める。

字幕表示部３３は、字幕表示制御部３２による制御にしたがって、クローズドキャプション字幕を表示する。なお、字幕表示制御部３２による制御として、クローズドキャプション字幕が表示されない場合もある。また、クローズドキャプション字幕の代わりに、前述の特定パターンが表示される場合もある。

画面制御装置１は、不図示の映像信号取得部を備えるものであってもよい。映像信号は、画像フレームの信号と音声の信号とを含む。映像信号は、例えばテレビ放送の規格にしたがった信号であってもよいし、例えば通信（インターネット等）を用いて配信するための標準的な符号化方式で符号化されたデータであってもよい。この映像信号取得部は、取得した映像信号からフレーム画像と音声とを抽出（分離）し、それぞれ、画像フレーム取得部１１と音声取得部２１とに渡す。映像信号取得部は、フレーム画像や音声とあわせてタイムコード信号を映像信号から抽出し、そのタイムコード信号を画像フレーム取得部１１と音声取得部２１とに渡してもよい。なお、映像信号取得部が取得する映像信号は、アナログ信号であってもよいし、デジタル信号であってもよい。映像信号がアナログ信号である場合にもデジタル信号である場合にも、映像信号取得部は、映像信号から、画像と、音声と、タイムコード情報とを取得する。映像信号は、ＭＰＥＧ等の方式で圧縮符号化されたものであってもよい。「ＭＰＥＧ」は、「moving picture experts group」の略である。ＭＰＥＧデータは、画像フレームのストリームと、音声のストリームと、タイムコードのストリームとを含む。

上記のような機能構成を有する画面制御装置１の処理について、以下ではさらに詳細に説明する。

音声認識部２２は、入力音声を音声フレームの単位で分析する。音声認識部２２は、時刻tにおいて、その時点で生き残っている仮説集合Ｈ_ｔに属する各仮説のスコアを算出する。音声認識部２２は、音声認識仮説探索機能が行う探索処理の状況に応じた、認識精度の低下の有無を表す情報を認識精度判定部３１に渡す。

認識精度の低下が起こっていない状況においては、字幕表示制御部３２は、字幕生成部２３が生成したクローズドキャプション字幕をそのまま表示するように制御する。認識精度の低下が起こっていると見込まれる状況においては、字幕表示制御部３２は、例えば「。。。」などといった特定パターンを出力するよう制御することができる。このような場合にも、例えば次の発話が始まって認識精度が向上した場合には、字幕表示制御部３２は字幕生成部２３が生成したクローズドキャプション字幕の表示を行うように制御する。音声認識の精度の低下がないと見込まれる部分では、音声認識部２２は、時刻tで確定可能な単語がある場合にはその単語を出力する。音声認識部２２は、そのうえで、仮説集合を次の単語へと展開した仮説集合Ｈ´_ｔ＋１を求める。そして、音声認識部２２は、最もスコアが高い最尤仮説とのスコアの差に基づいて、この仮説集合Ｈ´_ｔ＋１を枝刈りすることによって、時刻ｔ＋１で演算を行う仮説集合Ｈ_ｔ＋１を求める。そして、音声認識部２２は、次の音声フレームの処理移る。音声認識部２２は、時刻ｔを進めながら、順次、この処理を繰り返す。

図２は、音声認識部２２が持つ機能の一部の構成を示すブロック図である。音声認識部２２は、音声認識処理の状況を把握して認識精度判定部３１に渡すための機能として、状況把握部２２０を持つ。図示するように、状況把握部２２０は、認識仮説量把握部２２１と、時刻差分把握部２２２と、処理時間把握部２２３と、ＣＰＵ負荷把握部２２４とを含むように構成される。なお、「ＣＰＵ」は、「中央処理装置」を表す。

状況把握部２２０を構成する上記の４つの機能部の各々は、音声認識部２２による認識仮説探索処理の状況を把握する。なお、本実施形態では、状況把握部２２０は、認識仮説量把握部２２１と、時刻差分把握部２２２と、処理時間把握部２２３と、ＣＰＵ負荷把握部２２４との４つを含むが、状況把握部２２０がここに列挙した４つの機能部のうちの一部のみを含む構成としてもよい。また、状況把握部２２０が、ここに列挙した４つの機能部以外の機能を有していてもよい。即ち、状況把握部２２０は、認識仮説を探索する処理の状況として、認識仮説量や、時刻差分や、処理時間や、ＣＰＵ負荷といったもの以外の状況を把握するようにしてもよい。

認識仮説量把握部２２１は、音声認識部２２が認識仮説を探索する処理において探索対象としている認識仮説の量に関する情報を把握する。具体的には、認識仮説量把握部２２１は、音声認識部２２が持つ認識仮説探索機能から得られる情報により、時刻ｔにおける仮説集合Ｈ_ｔ内の仮説数（アクティブノード数）Ｎ（Ｈ_ｔ）を認識仮説量として把握する。あるいは、認識仮説量把握部２２１は、次の式（１）で表される値を、認識仮説量として把握してもよい。

式（１）において、Ｔは、適宜定められる正整数である。つまり、この場合、認識仮説量把握部２２１は、時刻ｔよりＴだけ遡った時刻（ｔ－Ｔ）の音声フレームから、時刻ｔまでの音声フレームの、各フレームにおける仮説数の総和を、認識仮説量として把握する。

さらに、認識仮説量把握部２２１は、認識仮説の数と相関する他の数値を認識仮説量として把握してもよい。一例として、認識仮説量把握部２２１は、認識仮説探索機能の処理において仮説の情報を少なくとも一時的に保存すためのメモリー容量を、認識仮説量として把握してもよい。

状況把握部２２０は、認識仮説量把握部２２１によって把握された認識仮説量の情報を、認識精度判定部３１に渡すことができる。認識精度判定部３１は、この認識仮説量に基づいて、音声認識処理の精度低下があるか否かを推定する。認識精度判定部３１は、認識仮説量が所定の閾値よりも大きい場合に認識精度が低下していると推定する。また、認識精度判定部３１は、認識仮説量が所定の閾値以下である場合に認識精度は低下していないと推定する。

時刻差分把握部２２２は、音声フレームの本来の時刻と、その音声フレームに関する認識処理が実行される時刻との差分を把握する。音声フレームの本来の時刻とは、その音声フレームが画面制御装置１に入力される時刻である。つまり、時刻差分把握部２２２が把握する時刻の差分は、音声フレームの入力時点から処理時点（例えば、処理開始時点）までの時間の遅延に相当する。時刻差分把握部２２２が把握する時刻の差分の値は、その時点での認識仮説の量に応じた近似値として利用することができる。

一般に音声認識処理での仮説探索において、ビーム幅Ｗ大きくとることにより認識精度の向上が見込まれる。リアルタイム音声認識においては、認識処理の遅れが生じない程度においてビーム幅Ｗが大きくなるように設定が行われる。しかしながら、アクティブノード数がある程度の時間以上増大し続けているような時間区間においては、各音声フレームに関して、大量の仮説候補のスコアを計算することが必要となる。このため、認識のための演算処理が音声１フレームの時間内に収まらなくなり、フレームの処理時刻が遅延する。そこで、時刻差分把握部２２２は、時刻ｔのフレームの本来の時刻（例えば、当該フレームの音声が入力された時刻）と、そのフレームが処理される時刻との差分を把握する。なお、時刻差分把握部２２２は、画面制御装置１自身が持つ時計機能（不図示）から、現在時刻の情報を取得することができる。

状況把握部２２０は、時刻差分把握部２２２が把握した時刻差分の情報を、認識精度判定部３１に渡すことができる。認識精度判定部３１は、この時刻差分（遅延量）に基づいて、認識仮説探索機能による認識処理の精度低下があるか否かを推定する。例えば、認識精度判定部３１は、時刻差分が所定の閾値よりも大きい場合に認識精度が低下していると推定する。また、認識精度判定部３１は、時刻差分が所定の閾値以下である場合に認識精度は低下していないと推定する。

処理時間把握部２２３は、各音声フレームに関して認識処理のために要した時間の長さを把握する。この処理時間の長さは、認識仮説の量に応じた数値として認識精度の把握のために利用することができる。前述の通り、アクティブノード数が増加した状態の区間では、各フレームで、大量の仮説候補のスコアを計算することが必要となる。このため、認識のための演算に必要な処理時間が大きくなる。そこで、処理時間把握部２２３は、時刻ｔのフレームの処理に要した時間Ｐ_ｔを、認識仮説探索機能から取得する。あるいは、処理時間把握部２２３は、次の式（２）で表される値を、処理時間として把握してもよい。

式（２）において、Ｔは、適宜定められる正整数である。つまり、この場合、処理時間把握部２２３は、時刻ｔよりＴだけ遡った時刻（ｔ－Ｔ）のフレームから、時刻ｔまでのフレームの、処理時間の総和を把握する。

状況把握部２２０は、処理時間把握部２２３が把握した処理時間の情報を、認識精度判定部３１に渡すことができる。認識精度判定部３１は、この処理時間に基づいて、認識仮説探索機能による認識処理での精度低下があるか否かを推定する。例えば、認識精度判定部３１は、処理時間が所定の閾値よりも大きい場合に認識精度が低下していると推定する。また、認識精度判定部３１は、処理時間が所定の閾値以下である場合に認識精度は低下していないと推定する。

ＣＰＵ負荷把握部２２４は、認識仮説探索機能の処理に対応するＣＰＵ負荷量の情報を把握する。ＣＰＵ負荷の大きさは、認識仮説の量に応じた値として利用することができる。その前提として、画面制御装置１における音声認識の処理において、少なくとも認識仮説探索機能の処理は、ＣＰＵで実行されるプログラムとして実装される。具体的には、例えば、ＣＰＵ負荷把握部２２４は、オペレーティングシステム（ＯＳ）内のプロセス管理機能から提供されるＣＰＵ負荷の数値を取得する。なお、ＣＰＵ負荷把握部２２４は、認識仮説探索機能の処理に対応するＣＰＵ負荷の近似値として、当該ＣＰＵ全体の負荷の情報や、当該ＣＰＵ上で稼働するユーザープロセス全体の負荷の情報を取得するようにしてもよい。各々の音声フレームの認識のための処理がその音声フレーム内の時間に収まらない場合など、評価すべき仮説数（アクティブノード数）が多い場合には、認識仮説探索機能の処理のＣＰＵ負荷は非常に高く（場合によっては１００％またはそれに近い値に）なる。つまり、ＣＰＵの負荷に基づいて、認識処理の精度低下があるか否かを推定することが可能である。

アクティブノード数と認識精度との関係は、次の通りである。時刻ｔにおける仮説集合をＨ_ｔとする。また、この仮説集合Ｈ_ｔが持つ仮説数（アクティブノード数）をＮ（Ｈ_ｔ）とする。高い認識精度が得られていると見込まれている区間（時間区間）において、アクティブノード数Ｎ（Ｈ_ｔ）は概ね小さい。言い換えれば、高い認識精度が得られていると見込まれている区間において、最尤仮説と対立し得る他の仮説の数は概ね小さい。また、このように認識精度が高い状況においては、時刻ｔの変化に対して、仮説数Ｎ（Ｈ_ｔ）は下限値付近で概ね一定である。一方で、認識精度の低下が見られる区間においては、認識精度の高い区間と比べてアクティブノード数Ｎ（Ｈ_ｔ）は増加する。つまり、時刻ｔにおける仮説数Ｎ（Ｈ_ｔ）に基づいて、認識精度が高く維持されている状態であるか低下している状態であるかを、推定することができる。

認識精度が高い状態のときに仮説数Ｎ（Ｈ_ｔ）が相対的に少ない理由は、最尤仮説のスコアが他の仮説のスコアよりも抜きんでて高い（ピーク性が高い）ために、より多くの仮説が探索時の枝刈りによって破棄されるためである。逆に、認識精度が低い状態のときに仮説数Ｎ（Ｈ_ｔ）が相対的に高い理由は、最尤仮説のスコアが他の仮説のスコアよりも抜きんでている度合いが低い（ピーク性が低い）ために、より多くの仮説が枝刈りされずに生き残るためである。

図３は、本実施形態によるコンテンツ供給システムの概略機能構成を示すブロック図である。図示するように、コンテンツ供給システム８は、画面制御装置１と、映像供給装置６と、音声供給装置７とを含んで構成される。

画面制御装置１は、既に説明したように、取得した音声に基づくクローズドキャプションの字幕の画面への表示に関する制御を行う。コンテンツ供給システム８においては、画面制御装置１は、映像供給装置６が供給する画像フレームを取得し、その画像フレーム内のオープンキャプションを検出する。画面制御装置１は、音声供給装置７が供給する音声のデータを取得し、その音声の認識処理を行う。また、画面制御装置１は、音声認識の結果のテキストを用いて生成されるクローズドキャプション字幕の表示についての制御を行う。つまり、画面制御装置１は、上記の画像フレーム内にオープンキャプションが検出されるか否かに応じて、クローズドキャプション字幕の表示を制御する。また、画面制御装置１は、上記の画像フレーム内において検出されるオープンキャプションの位置の情報（座標値等）に基づいて、クローズドキャプション字幕の表示を制御する。また、画面制御装置１は、音声供給装置７によって供給される音声の認識処理について推定される精度に応じて（精度が低下しているか否かに応じて）、クローズドキャプション字幕の表示を制御する。

映像供給装置６は、画面制御装置１に対して、画像フレームの系列を供給する。

音声供給装置７は、画面制御装置１に対して、音声のデータ（音声フレームの系列）を供給する。音声供給装置７が供給する音声は、時間領域の信号であってもよいし、周波数領域の信号であってもよい。

映像供給装置６が供給する画像フレームの系列と、音声供給装置７が供給する音声とは、同一の映像コンテンツを表すものである。これらの画像フレームと音声とは、共通のタイムコード情報等を用いて同期できるようになっている。画面制御装置１は、画像フレームの系列を出力する。これらの画像フレームには、クローズドキャプション字幕が含まれる場合がある。クローズドキャプション字幕の位置は、オープンキャプション字幕の位置に基づいて調整されている場合がある。画面制御装置１が出力する映像（画像フレームの系列）と、音声供給装置７が出力する音声とは、１つの映像コンテンツとして視聴され得るものである。

図４および図５は、画面制御装置１による処理の手順を示すフローチャートである。図４と図５とをあわせて１つの手順を示すフローチャートであり、これら両図に示す手順は、結合子を用いて接続されている。以下では、このフローチャートに沿って、画面制御装置１の処理手順を説明する。なお、この処理を開始するにあたって、時刻ｔは適宜初期化されている。また、本実施形態では音声フレームの更新の周期を１０ｍｓ（ミリ秒）として説明するが、実際にはフレーム周期の長さは異なっていてもよい。

ステップＳ１において、画像フレーム取得部１１は、時刻tにおいて、画像フレームの更新があるか否かを判断する。フレームレートが例えば３０ｆｐｓ（フレーム毎秒）の場合、１秒間に３０回の画像フレームの更新がある。よって、１０ミリ秒でシフトする音声フレームが約３．３３回更新される都度、画像フレームが１回更新される。画像フレームの更新がある場合（ステップＳ１：ＹＥＳ）には、次にステップＳ２の処理に移る。画像フレームの更新がない場合（ステップＳ１：ＮＯ）には、次にステップＳ５の処理に移る。

ステップＳ２に移った場合、同ステップにおいて、オープンキャプション検出部１２は、現在の画像フレーム（ステップＳ１において更新が確認された画像フレーム）にオープンキャプションが存在するか否かを判定する。オープンキャプションの有無の判定のしかたについては、別途説明する通りである。画像フレーム内にオープンキャプションの字幕が有る場合（ステップＳ２：ＹＥＳ）には、次にステップＳ３の処理に移る。オープンキャプション字幕の無しの場合（ステップＳ２：ＮＯ）には、次にステップＳ５の処理に移る。

ステップＳ３に移った場合、同ステップにおいて、オープンキャプション検出部１２は、検出されたオープンキャプションの位置を特定する。オープンキャプションが表示される領域の形状が矩形である場合には、例えば、画面上におけるその領域の左上の点の座標と右下の座標とによって位置が表わされる。その領域の形状が矩形以外の場合には、オープンキャプション検出部１２は、その領域の形状に応じて、適宜、その領域の範囲を表す情報を特定するようにする。

次にステップＳ４において、オープンキャプション検出部１２は、オープンキャプションを有する画像フレームに関する情報を、記憶領域に保存する。具体的には、オープンキャプション検出部１２は、当該画像フレームの時刻ｔと関連付ける形で、オープンキャプション字幕の有無を表す情報と、オープンキャプション字幕の位置を表す情報とを保存する。本ステップの処理の後、ステップＳ５に移る。

ステップＳ５においては、音声認識部２２は、時刻ｔの音声フレームのデータに基づいて、認識仮説の集合を特定し、当該集合に属する認識仮説の各々についてスコアを算出する。音声認識部２２は、各々の認識仮説のスコアに基づいて最尤仮説を決定する。音声認識部２２は、探索結果である最尤仮説に基づいて、音声認識結果のテキストを出力する。

次にステップＳ６において、認識精度判定部３１は、音声認識部２２の処理についての状態を把握する。具体的には、認識精度判定部３１は、認識仮説量、音声フレームの入力から処理までの遅延時間、音声フレームの処理時間、あるいはＣＰＵ負荷の、少なくともいずれかを把握する。なお、認識精度判定部３１は、ここに列挙したもの以外の情報に基づいて、音声認識部２２による認識仮説の探索の処理の状況を把握してもよい。認識精度判定部３１による処理の詳細については、別途説明している通りである。

次にステップＳ７において、字幕表示制御部３２は、画面フレーム内にオープンキャプションの字幕が存在するか否かを判定する。ステップＳ７における判定は、ステップＳ２における判定の結果に基づいて行うようにしてよい。つまり、ステップＳ４において保存された情報に基づいて、字幕表示制御部３２がオープンキャプションの有無を判定するようにしてよい。画像フレーム内にオープンキャプションが存在する場合（ステップＳ７：ＹＥＳ）には、次にステップＳ８の処理に移る。画像フレーム内にオープンキャプションが存在しないと判断された場合（ステップＳ７：ＮＯ）には、次にステップステップＳ１１（図５）の処理に飛ぶ。

次にステップＳ８に進んだ場合、同ステップにおいて、認識精度判定部３１は、認識精度が所定の閾値（閾値Ａとする）よりも低下しているか否か（認識精度が閾値Ａ未満であるか否か）を判定する。ステップＳ８での判定の結果として、認識精度が閾値Ａ未満である場合（ステップＳ８：ＹＥＳ）には、ステップＳ９の処理に移る。認識精度が閾値Ａ以上である場合（ステップＳ８：ＮＯ）には、ステップＳ１０の処理に移る。

なお、認識精度判定部３１は、具体的には、次の（１）から（４）までのように認識精度の大小（良悪）を判断する。ここでは、前提として、上で述べた認識精度、認識仮説量、時間遅延量、処理時間、ＣＰＵ負荷は、いずれも、数値として表わされ得るものである。

（１）認識精度判定部３１が認識仮説量を用いて認識精度の大小を判断する場合には、次の通りである。（１－ａ）認識精度が閾値（認識精度についての閾値）未満であることは、認識仮説量が閾値（認識仮説量についての閾値）よりも大きいことにあたる。（１－ｂ）認識精度が上記の閾値（認識精度についての閾値）以上であることは、認識仮説量が上記の閾値（認識仮説量についての閾値）以下であることにあたる。

（２）認識精度判定部３１が音声フレームの入力から処理までの時間遅延量を用いて認識精度の大小を判断する場合には、次の通りである。（２－ａ）認識精度が閾値（認識精度についての閾値）未満であることは、時間遅延量が閾値（時間遅延量についての閾値）よりも大きいことにあたる。（２－ｂ）認識精度が上記の閾値（認識精度についての閾値）以上であることは時間遅延量が上記の閾値（時間遅延量についての閾値）以下であることにあたる。

（３）認識精度判定部３１が音声フレームの処理時間を用いて認識精度の大小を判断する場合には、次の通りである。（３－ａ）認識精度が閾値（認識精度についての閾値）未満であることは、処理時間が閾値（処理時間についての閾値）よりも大きいことにあたる。（３－ｂ）認識精度が上記の閾値（認識精度についての閾値）以上であることは処理時間が上記の閾値（処理時間についての閾値）以下であることにあたる。

（４）認識精度判定部３１がＣＰＵ負荷を用いて認識精度の大小を判断する場合には、次の通りである。（４－ａ）認識精度が閾値（認識精度についての閾値）未満であることは、ＣＰＵ負荷が閾値（ＣＰＵ負荷についての閾値）よりも高いことにあたる。（４－ｂ）認識精度が上記の閾値（認識精度についての閾値）以上であることはＣＰＵ負荷が上記の閾値（ＣＰＵ負荷についての閾値）以下であることにあたる。

なお、上の（１）から（４）までのそれぞれでは認識精度判定部３１が単一の尺度を用いて認識精度を評価する場合について説明したが、認識精度判定部３１は、複数の尺度についての条件を組み合わせることによって認識精度を測ってもよい。

ステップＳ９に進んだ場合には、同ステップにおいて、字幕表示制御部３２は、クローズドキャプション字幕を非表示とする制御を行う。この制御によって、字幕生成部２３が生成したクローズドキャプション字幕は、画面には表示されなくなる。ステップＳ９の処理の後は、ステップＳ１３（図５）に移る。

ステップＳ１０に進んだ場合には、同ステップにおいて、字幕表示制御部３２は、クローズドキャプション字幕の表示位置を算出するとともに、その位置にクローズドキャプション字幕が表示されるための制御を行う。具体例として、字幕表示制御部３２は、オープンキャプション検出部１２によって検出されたオープンキャプション字幕の位置よりも、２行分上側を、クローズドキャプション字幕の表示開始位置とする。また、具体例として、字幕表示制御部３２は、画面セーフティゾーンの左端を、クローズドキャプション字幕の表示開始位置としてもよい。また、字幕表示制御部３２は、他の位置を、クローズドキャプション字幕の表示開始位置としてもよい。いずれの場合も、字幕表示制御部３２は、オープンキャプション字幕とクローズドキャプション字幕とが相互に干渉することのないように、クローズドキャプション字幕の表示位置を計算する。これにより、オープンキャプション字幕あるいはクローズドキャプション字幕の少なくともいずれかが視聴者によって視認されにくくなる状況を回避することができる。ステップＳ１０の処理の後は、ステップＳ１３（図５）に移る。

図５に移って、ステップＳ１１に進んだ場合、認識精度判定部３１は、認識精度が所定の閾値（閾値Ｂとする）よりも低下しているか否か（認識精度が閾値Ｂ未満であるか否か）を判定する。ステップＳ１１での判定の結果として、認識精度が閾値Ｂ未満である場合（ステップＳ１１：ＹＥＳ）には、ステップＳ１２に進む。認識精度が閾値Ｂ以上である場合（ステップＳ１１：ＮＯ）には、ステップＳ１３の処理に飛ぶ。

ステップＳ１２に進んだ場合には、同ステップにおいて、字幕表示制御部３２は、特定パターンの表示が行われるように制御する。つまり、Ｓ１２においては、その時点での音声認識部２２からの認識結果の出力の有無に関わらず、言い換えれば字幕生成部２３によって生成される字幕の有無に関わらず、特定パターンが外部に出力されるような制御が行われる。特定パターンは、適宜定められる任意のパターンである。特定パターンの一例は、「。。。」（句点の連続）といった文字列である。この特定パターンは、認識結果の出力がないこと（抑止されていること）を表している。なお、ここで例示したもの以外のパターン（文字列や画像等）を特定パターンとして用いてもよい。ステップＳ１２の処理の後には、ステップＳ１３の処理に移る。

なお、閾値Ａと閾値Ｂとの関係を、閾値Ｂ＜閾値Ａとしてよい。つまり、閾値Ｂは、閾値Ａよりもさらに認識精度が低下しているか否かを判定するための閾値である。ただし、閾値Ｂ＝閾値Ａとしてもよい。

閾値Ｂ＜閾値Ａである場合には、ステップＳ７、Ｓ８、およびＳ１１での判定に関して、次の表１のように場合分けされて、それぞれ処理される。

つまり、オープンキャプションが検出されない場合で、且つ認識精度が閾値Ｂ未満の場合には、字幕表示制御部３２は、ステップＳ１２の処理として、特定パターンの表示が行われるような制御を行う。

また、オープンキャプションが検出されない場合で、且つ認識精度が閾値Ｂ以上の場合には、字幕表示制御部３２は、生成された字幕（クローズドキャプション）をそのまま画面に表示するような制御を行う。

また、オープンキャプションが検出された場合で、認識精度が閾値Ｂ未満の場合、あるいは認識精度が閾値Ｂ以上且つ閾値Ａ未満の場合には、字幕表示制御部３２は、ステップＳ９の処理としてクローズドキャプションの字幕を非表示とする（字幕生成部２３が生成した字幕を表示しない）ような制御を行う。なお、クローズドキャプションの字幕を非表示とする場合に、オプションとして、「字幕を消している」ことを表す特定パターンを表示するようにしてもよい。

また、オープンキャプションが検出された場合で、認識精度が閾値Ａ以上の場合には、字幕表示制御部３２は、ステップＳ１０の処理として、オープンキャプションの表示と相互に干渉しないような表示位置を算出したうえで、クローズドキャプションを表示させるような制御を行う。

閾値Ｂ＝閾値Ａである場合には、ステップＳ７、Ｓ８、およびＳ１１での判定に関して、次の表２のように場合分けされて、それぞれ処理される。

つまり、オープンキャプションが検出されない場合で、且つ認識精度が閾値Ｂ未満の場合（閾値Ｂは閾値Ａに等しい）には、字幕表示制御部３２は、ステップＳ１２の処理として、特定パターンの表示が行われるような制御を行う。

また、オープンキャプションが検出されない場合で、且つ認識精度が閾値Ｂ以上の場合（閾値Ｂは閾値Ａに等しい）には、字幕表示制御部３２は、生成された字幕（クローズドキャプション）をそのまま画面に表示するような制御を行う。

また、オープンキャプションが検出された場合で、認識精度が閾値Ｂ未満（閾値Ｂは閾値Ａに等しい）の場合には、字幕表示制御部３２は、ステップＳ９の処理としてクローズドキャプションの字幕を非表示とする（字幕生成部２３が生成した字幕を表示しない）ような制御を行う。なお、クローズドキャプションの字幕を非表示とする場合に、オプションとして、「字幕を消している」ことを表す特定パターンを表示するようにしてもよい。

また、オープンキャプションが検出された場合で、認識精度が閾値Ｂ以上の場合（閾値Ｂは閾値Ａに等しい）には、字幕表示制御部３２は、ステップＳ１０の処理として、オープンキャプションの表示と相互に干渉しないような表示位置を算出したうえで、クローズドキャプションを表示させるような制御を行う。

ステップＳ１３においては、その時点で確定した音声認識結果がある場合には、字幕表示部３３は、その認識結果に基づく字幕（クローズドキャプション）を表示する。なお、クローズドキャプションの字幕は、字幕生成部２３によって生成されるものである。

なお、字幕表示部３３は、字幕表示制御部３２による制御にしたがって字幕を表示する。つまり、字幕表示制御部３２がクローズドキャプションの字幕を非表示とするよう制御した場合（ステップＳ９の処理）には、字幕表示部３３はクローズドキャプションの字幕を表示しない。また、字幕表示制御部３２が特定パターンを表示するよう制御した場合（ステップＳ１２の処理）には、字幕表示部３３は特定パターンの字幕（一例として、「。。。」といったパターン）を表示する。また、字幕表示制御部３２が字幕位置を計算してその位置にクローズドキャプションの字幕を表示させるよう制御した場合（ステップＳ１０の処理）には、字幕表示部３３は字幕生成部２３が生成したクローズドキャプションの字幕をその位置に表示する。

ただし、その時点で確定した認識結果がない場合には、字幕生成部２３は字幕を生成しない。また、字幕表示部３３は、特に何も行わない（クローズドキャプションの字幕を表示しない）。

ステップＳ１３の終了後にはステップＳ１４に移り、音声認識部２２は認識仮説集合の枝刈りを行う。音声認識部２２は、それぞれの仮説の尤度に基づいて、相対的に尤度の低い仮説を破棄する。具体的には、音声認識部２２は、最尤仮説のスコアと各仮説のスコアとの差分に基づいて枝刈りを行う。つまり、この枝刈りの処理において、最尤仮説のスコア（相対的に高いスコア）との差が大きいスコア（相対的に低いスコア）を有する仮説ほど、破棄されやすい。仮説間でのスコアの一様性が比較的高い場合には、本ステップでの枝刈り処理の結果として相対的により多くの仮説が刈られずに生き残る。最尤仮説のスコアのピーク性が比較的高い場合には、本ステップでの枝刈り処理の結果として、相対的により少ない仮説が刈られずに生き残る。

次にステップＳ１５において、画面制御装置１は、時刻ｔを次に進める。具体的には、時刻ｔが整数値をとる場合、ｔ：＝ｔ＋１となるように時刻ｔを更新する。

次にステップＳ１６において、画面制御装置１は、終了条件が成立するか否かを判定する。終了条件の例は、外部から停止指示が入力されること、あるいは音声認識の対象となり得る発話のない状態が所定時間以上続くことなどである。終了条件が成立する場合（ステップＳ１６：ＹＥＳ）には、画面制御装置１は、本フローチャート全体の処理を終了する。終了条件が成立しない場合（ステップＳ１６：ＮＯ）には、画面制御装置１は、次の音声フレームについての処理を行うために、ステップＳ１（図４）の処理に戻る。

フローチャートを参照しながら説明した字幕表示の制御のしかたは、整理すると、次の通りである。即ち、字幕表示制御部３２は、（１）オープンキャプション検出部１２がオープンキャプションの領域を検出しなかった場合においては、（１Ａ）認識精度判定部３１から受け取る精度に関する情報に基づいて、精度が所定の第１閾値よりも悪い場合にはクローズドキャプション字幕に代えて特定パターンが表示されるように制御し、（１Ｂ）認識精度判定部３１から受け取る精度に関する情報に基づいて、精度が第１閾値と同等または第１閾値よりも良い場合にはクローズドキャプション字幕が表示されるように制御する。また、字幕表示制御部３２は、（２）オープンキャプション検出部１２がオープンキャプションの領域を検出した場合においては、（２Ａ）認識精度判定部３１から受け取る精度に関する情報に基づいて、精度が所定の第２閾値よりも悪い場合には、クローズドキャプション字幕が表示されないように制御し、（２Ｂ）認識精度判定部３１から受け取る精度に関する情報に基づいて、精度が第２閾値と同等または第２閾値よりも良い場合には、オープンキャプションの領域との間での干渉が生じないような位置にクローズドキャプション字幕を表示するように制御する。

なお、上記の第２閾値は、上記の第１閾値と同等または第１閾値よりも良い精度に対応する閾値である。また、第１閾値は、前の説明における閾値Ｂに対応する。また、第２閾値は、前の説明における閾値Ａに対応する。

図６は、オープンキャプション検出部１２がオープンキャプションを検出する対象の領域の位置の一例を示す概略図である。同図において、１０１は画面である。画面１０１内の下方に存在する領域１０２は、オープンキャプション検出部１２がオープンキャプションを検出する対象とする領域である。つまり、オープンキャプション検出部１２は、領域１０２内において、オープンキャプションらしさを有する画像特徴を持つ領域を、オープンキャプションが表示されている領域として特定する。領域１０２内に存在する領域１０３は、オープンキャプション検出部１２が検出するオープンキャプションの領域の一例である。本例のように、オープンキャプションが表示される位置は、通常は、画面の下部中央付近である。オープンキャプション検出部１２がオープンキャプションの領域として領域１０３を検出した場合には、オープンキャプション検出部１２は、領域１０３の位置の情報（例えば、この矩形の４つの頂点の座標を表す情報）を、字幕表示制御部３２に渡す。

図７は、検出されたオープンキャプションの位置と、クローズドキャプションを表示する位置との関係の一例を示す概略図である。画面１０１内において、領域２０１は、オープンキャプション検出部１２によって検出されたオープンキャプションの領域である。オープンキャプション検出部１２は、この領域２０１の位置の情報を、字幕表示制御部３２に渡す。字幕表示制御部３２は、領域２０１の位置情報に基づいて、クローズドキャプションが領域２０２内に表示されるように制御する。領域２０２は、領域２０１との間での重なりを持たない。つまり、クローズドキャプションが領域２０２内に表示されるような制御を字幕表示制御部３２が行った場合には、そのクローズドキャプション（領域２０２）は、検出されているオープンキャプション（領域２０１）との間で相互に干渉しない。なお、字幕表示制御部３２は、例えば、領域２０１の位置の情報と、表示すべきクローズドキャプション字幕の文字数と、使用するフォントのサイズとから、領域２０２のサイズおよび位置を決定する。

図８は、検出されたオープンキャプションの位置と、クローズドキャプションを表示する位置との関係の別例を示す概略図である。本例においては、字幕表示制御部３２は、映像コンテンツを表示する領域の外に、クローズドキャプション字幕を表示するように制御する。この図において、画面１０１内の領域３０１は、映像コンテンツ（例えば、放送番組の映像）を表示するための領域である。領域３０１内における領域３０２は、オープンキャプション字幕が表示されている領域である。つまり、領域３０２は、オープンキャプション検出部１２が検出したオープンキャプションの領域である。また、領域３０４は、映像コンテンツ以外の情報を表示するための領域である。この例において、領域３０３は、クローズドキャプション字幕を表示するための領域である。つまり、字幕表示制御部３２は、クローズドキャプション字幕を領域３０３内に表示するよう制御する。本例のように、字幕表示制御部３２は、映像を表示する領域（領域３０１）の外にクローズドキャプション字幕を表示するように表示位置の制御を行ってもよい。

複数の画面の例で説明したように、字幕表示制御部３２は、画像フレームの表示と重なる位置にクローズドキャプション字幕を表示するように制御してもよい（例えば図７の場合）し、画像フレームの表示と重ならない位置にクローズドキャプション字幕を表示するように制御してもよい（例えば図８の場合）。つまり、図７に示す例の場合（クローズドキャプション字幕の表示位置は映像コンテンツと重なる領域）も図８に示す例の場合（クローズドキャプション字幕の表示位置は映像コンテンツと重ならない領域）も、字幕表示制御部３２は、クローズドキャプション字幕の表示位置を制御する。

図９は、上記の実施形態における画面制御装置１や映像供給装置６や音声供給装置７の各装置の内部構成の例を示すブロック図である。各装置は、コンピューターを用いて実現され得る。図示するように、そのコンピューターは、中央処理装置９０１と、ＲＡＭ９０２と、入出力ポート９０３と、入出力デバイス９０４や９０５等と、バス９０６と、を含んで構成される。コンピューター自体は、既存技術を用いて実現可能である。中央処理装置９０１は、ＲＡＭ９０２等から読み込んだプログラムに含まれる命令を実行する。中央処理装置９０１は、各命令にしたがって、ＲＡＭ９０２にデータを書き込んだり、ＲＡＭ９０２からデータを読み出したり、算術演算や論理演算を行ったりする。ＲＡＭ９０２は、データやプログラムを記憶する。ＲＡＭ９０２に含まれる各要素は、アドレスを持ち、アドレスを用いてアクセスされ得るものである。なお、ＲＡＭは、「ランダムアクセスメモリー」の略である。入出力ポート９０３は、中央処理装置９０１が外部の入出力デバイス等とデータのやり取りを行うためのポートである。入出力デバイス９０４や９０５は、入出力デバイスである。入出力デバイス９０４や９０５は、入出力ポート９０３を介して中央処理装置９０１との間でデータをやりとりする。バス９０６は、コンピューター内部で使用される共通の通信路である。例えば、中央処理装置９０１は、バス９０６を介してＲＡＭ９０２のデータを読んだり書いたりする。また、例えば、中央処理装置９０１は、バス９０６を介して入出力ポートにアクセスする。

なお、上述した実施形態における画面制御装置１や映像供給装置６や音声供給装置７の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。つまり、「コンピューター読み取り可能な記録媒体」とは、非一過性の（non-transitory）コンピューター読み取り可能な記録媒体であってよい。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、実施形態を説明したが、本発明は、上記実施形態の変形例で実現される場合もある。また、装置等の具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。変形例の一例を次に説明する。

［変形例］
変形例として、画面制御装置１が、音声認識精度には基づかずにクローズドキャプション字幕の表示の制御をしてもよい。この場合、画面制御装置１は、認識精度判定部３１を含まない機能構成としてもよい。あるいは、字幕表示制御部３２が認識精度判定部３１から認識精度に関する情報を受け取らないようにしてもよい。これらのいずれの場合においても、字幕表示制御部３２は、認識精度に依らずにクローズドキャプション字幕の表示の制御を行う。この変形例においても、字幕表示制御部３２は、オープンキャプション検出部１２がオープンキャプションの領域を検出したか否かに応じて、クローズドキャプション字幕を表示するか否か、または、クローズドキャプション字幕を表示する場合の表示位置、の少なくともいずれかを制御する。また、この変形例において、字幕表示制御部３２は、オープンキャプション検出部１２がオープンキャプションの領域を検出した場合には、そのオープンキャプションの領域との間での干渉が生じないような位置にクローズドキャプション字幕を表示するように制御してもよい。

本発明は、例えば、コンテンツを制作したり配信したりするための事業（放送事業を含むがこれには限定されない）に利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。

１画面制御装置
６映像供給装置
７音声供給装置
８コンテンツ供給システム
１１画像フレーム取得部
１２オープンキャプション検出部
２１音声取得部
２２音声認識部
２３字幕生成部
３１認識精度判定部
３２字幕表示制御部
３３字幕表示部
２２０状況把握部
２２１認識仮説量把握部
２２２時刻差分把握部
２２３処理時間把握部
２２４ＣＰＵ負荷把握部
９０１中央処理装置
９０２ＲＡＭ
９０３入出力ポート
９０４，９０５入出力デバイス
９０６バス

Claims

入力される画像フレーム内に含まれるオープンキャプションの領域を検出するオープンキャプション検出部と、
入力される音声について認識処理を行うことによって認識結果であるテキストを出力する音声認識部と、
前記音声認識部が出力した前記テキストに基づいてクローズドキャプション字幕を生成する字幕生成部と、
前記オープンキャプション検出部が、前記オープンキャプションの領域を検出したか否かに応じて、前記クローズドキャプション字幕を表示するか否か、または、前記クローズドキャプション字幕を表示する場合の表示位置、の少なくともいずれかを制御する字幕表示制御部と、
前記字幕表示制御部による制御にしたがって、前記クローズドキャプション字幕を表示する字幕表示部と、
を備える画面制御装置。
前記音声認識部における前記認識処理の状況を把握することによって前記認識処理における精度に関する情報を出力する認識精度判定部、
をさらに備え、
前記字幕表示制御部は、さらに、前記認識精度判定部から受け取る前記精度に関する情報に基づいて、前記クローズドキャプション字幕を表示するか否か、または、前記クローズドキャプション字幕に代えて特定パターンを表示するか否か、の少なくともいずれかを制御する、
請求項１に記載の画面制御装置。
前記字幕表示制御部は、前記オープンキャプション検出部が前記オープンキャプションの領域を検出した場合には、前記オープンキャプションの領域との間での干渉が生じないような位置に前記クローズドキャプション字幕を表示するように制御する、
請求項１または２に記載の画面制御装置。
前記字幕表示制御部は、前記画像フレームの表示と重なる位置に前記クローズドキャプション字幕を表示するように制御する、
請求項３に記載の画面制御装置。
前記字幕表示制御部は、前記画像フレームの表示と重ならない位置に前記クローズドキャプション字幕を表示するように制御する、
請求項３に記載の画面制御装置。
前記字幕表示制御部は、
（１）前記オープンキャプション検出部が前記オープンキャプションの領域を検出しなかった場合においては、
（１Ａ）前記認識精度判定部から受け取る前記精度に関する情報に基づいて、前記精度が所定の第１閾値よりも悪い場合には前記クローズドキャプション字幕に代えて前記特定パターンが表示されるように制御し、
（１Ｂ）前記認識精度判定部から受け取る前記精度に関する情報に基づいて、前記精度が前記第１閾値と同等または前記第１閾値よりも良い場合には前記クローズドキャプション字幕が表示されるように制御し、
（２）前記オープンキャプション検出部が前記オープンキャプションの領域を検出した場合においては、
（２Ａ）前記認識精度判定部から受け取る前記精度に関する情報に基づいて、前記精度が所定の第２閾値よりも悪い場合には、前記クローズドキャプション字幕が表示されないように制御し、
（２Ｂ）前記認識精度判定部から受け取る前記精度に関する情報に基づいて、前記精度が前記第２閾値と同等または前記第２閾値よりも良い場合には、前記オープンキャプションの領域との間での干渉が生じないような位置に前記クローズドキャプション字幕を表示するように制御する、
というものであり、
前記第２閾値は、前記第１閾値と同等または前記第１閾値よりも良い精度に対応する、
請求項２に記載の画面制御装置。
入力される画像フレーム内に含まれるオープンキャプションの領域を検出するオープンキャプション検出部と、
入力される音声について認識処理を行うことによって認識結果であるテキストを出力する音声認識部と、
前記音声認識部が出力した前記テキストに基づいてクローズドキャプション字幕を生成する字幕生成部と、
前記オープンキャプション検出部が、前記オープンキャプションの領域を検出したか否かに応じて、前記クローズドキャプション字幕を表示するか否か、または、前記クローズドキャプション字幕を表示する場合の表示位置、の少なくともいずれかを制御する字幕表示制御部と、
前記字幕表示制御部による制御にしたがって、前記クローズドキャプション字幕を表示する字幕表示部と、
を備える画面制御装置、としてコンピューターを機能させるためのプログラム。