JP2013030963A

JP2013030963A - 映像字幕検出装置およびそのプログラム

Info

Publication number: JP2013030963A
Application number: JP2011165367A
Authority: JP
Inventors: Yoshihiko Kawai; 吉彦河合; Masahiro Shibata; 正啓柴田
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2011-07-28
Filing date: 2011-07-28
Publication date: 2013-02-07
Anticipated expiration: 2031-07-28
Also published as: JP5677229B2

Abstract

【課題】番組映像と字幕映像とを含む映像から、容易に字幕のテキストを検出する。
【解決手段】撮影映像データを取り込み、そのフレーム画像から検出した直線成分によって形成される矩形に基づいて、フレーム画像からテレビ画面領域を検出する幾何変換部１２と、テレビ画面領域から画像のエッジを検出し、これらエッジの分布に基づいて、フレーム画像から副画面領域を推定する副画面領域推定部１３と、副画面領域から時間方向の画素の変化を検出し、この画素の変化に基づいて字幕領域を推定する字幕領域推定部１４と、撮影映像データを取り込んでフレーム画像から副画面領域を検出する副画面領域検出部１７と、副画面領域から字幕領域を検出し、この字幕領域から字幕のテキストを抽出し、このテキストと現在時刻を示す時刻情報とを対応付けた字幕情報を生成して出力する字幕情報抽出部１８とを備える。
【選択図】図１

Description

本発明は、映像字幕検出装置およびそのプログラムに関する。

国政選挙や大規模災害等に関する情報をテレビ視聴者に提供するため、放送局の放送機器は、本来の番組映像のフレームの大きさを若干縮小し、縮小されたフレーム画像の周囲の表示領域のうち一部分を字幕表示領域とし、番組映像と字幕映像とを合成しエンコード処理して得たコンテンツを放送することがある。字幕映像によって提供される字幕情報のテキストは、スクロールされたり一画面分同時に切り替えられたりして表示されるため、視聴者は、これらテキストを見逃したり、見たとしても忘れてしまうことがある。

テレビ画面に映る上記の映像をビデオカメラにより撮影すれば、字幕映像を記録し後で確認することができる。しかし、このようにして得られる字幕情報はあくまでも映像としての情報である。よって、撮影した映像から所望の字幕を確認するには手間がかかるため、字幕の検索効率が悪い。

また、従来、カメラによって撮影された画像から、映っている文字を認識する技術が知られている（例えば、非特許文献１参照）。

黄瀬浩一、大町真一郎、内田誠一、岩村雅一、「カメラを用いた文字認識・文書画像解析の現状と課題」、電子情報通信学会技術研究報告、社団法人電子情報通信学会、２００５年３月、ＰＲＭＵ２００４−２４６、ｐ．８５−９０

しかしながら、上記技術では、前述したような番組映像に字幕映像が合成された映像、つまり、字幕以外にも様々な情報が多く含まれるテレビ画像から字幕のテキストを検出することができない。
本発明は、上記課題を解決するためになされたものであり、番組映像と字幕映像とを含む映像から、容易に字幕のテキストを検出することができる、映像字幕検出装置およびそのプログラムを提供することを目的とする。

［１］上記の課題を解決するため、本発明の一態様である映像字幕検出装置は、番組映像および字幕映像を含むテレビ映像を撮影して得られた撮影映像データを取り込み、前記撮影映像データのフレーム画像から直線成分を検出し、前記直線成分によって形成される矩形に基づいて、前記フレーム画像からテレビ画面領域を検出するテレビ画面領域検出部と、前記テレビ画面領域検出部が検出した前記テレビ画面領域から画像のエッジを検出し、前記画像のエッジの分布に基づいて、前記フレーム画像から前記字幕映像に対応する字幕画面領域を推定する字幕画面領域推定部と、前記字幕画面領域推定部が推定した前記字幕画面領域から時間方向の画素の変化を検出し、前記画素の変化に基づいて字幕のテキストを含む字幕領域を推定する字幕領域推定部と、前記撮影映像データを取り込み、前記字幕画面領域推定部が推定した前記字幕画面領域に基づいて、前記撮影映像データのフレーム画像から前記字幕画面領域を検出する字幕画面領域検出部と、前記字幕画面領域検出部が検出した前記字幕画面領域を含むフレーム画像における、前記字幕領域推定部が推定した前記字幕領域から字幕のテキストを抽出し、前記字幕のテキストと現在時刻を示す時刻情報とを対応付けた字幕情報を生成し、前記字幕情報を出力する字幕情報抽出部と、を備えることを特徴とする。

［２］上記［１］記載の映像字幕検出装置において、前記字幕情報抽出部は、前記字幕画面領域検出部が検出した前記字幕画面領域を含む第１のフレーム画像における、前記字幕領域推定部が推定した前記字幕領域と、前記第１のフレーム画像よりも前の時刻の第２のフレーム画像における前記字幕領域との比較に基づいて、前記第１のフレーム画像における前記字幕領域から字幕のテキストを抽出することを特徴とする。
［３］上記［２］記載の映像字幕検出装置において、前記字幕情報抽出部は、前記第１のフレーム画像における字幕領域と前記第２のフレーム画像における字幕領域との比較に基づいて、字幕のテキストが静止しているか否かを判定し、前記字幕のテキストが静止している場合に、前記第１のフレーム画像における前記字幕領域から字幕のテキストを抽出することを特徴とする。
［４］上記［２］記載の映像字幕検出装置において、前記字幕情報抽出部は、前記字幕画面領域検出部が検出した前記字幕画面領域から第１のテキストを抽出し、この第１のテキストと、既に抽出された第２のテキストとの差分を抽出し、この差分を前記第２のテキストに追加することによって前記字幕のテキストを取得することを特徴とする。

［５］上記の課題を解決するため、本発明の一態様であるプログラムは、コンピュータを、番組映像および字幕映像を含むテレビ映像を撮影して得られた撮影映像データを取り込み、前記撮影映像データのフレーム画像から直線成分を検出し、前記直線成分によって形成される矩形に基づいて、前記フレーム画像からテレビ画面領域を検出するテレビ画面領域検出部と、前記テレビ画面領域検出部が検出した前記テレビ画面領域から画像のエッジを検出し、前記画像のエッジの分布に基づいて、前記フレーム画像から前記字幕映像に対応する字幕画面領域を推定する字幕画面領域推定部と、前記字幕画面領域推定部が推定した前記字幕画面領域から時間方向の画素の変化を検出し、前記画素の変化に基づいて字幕のテキストを含む字幕領域を推定する字幕領域推定部と、前記撮影映像データを取り込み、前記字幕画面領域推定部が推定した前記字幕画面領域に基づいて、前記撮影映像データのフレーム画像から前記字幕画面領域を検出する字幕画面領域検出部と、前記字幕画面領域検出部が検出した前記字幕画面領域を含むフレーム画像における、前記字幕領域推定部が推定した前記字幕領域から字幕のテキストを抽出し、前記字幕のテキストと現在時刻を示す時刻情報とを対応付けた字幕情報を生成し、前記字幕情報を出力する字幕情報抽出部と、して機能させる。

本発明によれば、番組映像と字幕映像とを含む映像から、容易に字幕のテキストを検出することができる。

第１実施形態である映像字幕検出装置の機能構成を示すブロック図である。同実施形態において、幾何変換部が出力する、幾何変換されたフレーム画像を模式的に表した図である。図２に示したフレーム画像に基づいて、同実施形態におけるモデル生成部が生成したモデル画像を模式的に表した図である。同実施形態において、副画面領域推定部が実行する副画面領域の推定処理の手順を示すフローチャートである。同実施形態において、上部領域についての推定処理の手順を示すフローチャートである。同実施形態において、下部領域についての推定処理の手順を示すフローチャートである。同実施形態において、左部領域についての推定処理の手順を示すフローチャートである。同実施形態において、右部領域についての推定処理の手順を示すフローチャートである。同実施形態において、字幕領域推定部が実行する字幕領域推定処理の手順を示すフローチャートである。同実施形態において、副画面領域検出部が実行する副画面領域の検出処理の手順を示すフローチャートである。同実施形態において、文字情報抽出部が実行する、字幕情報の抽出処理の手順を示すフローチャートである。同実施形態において、文字情報抽出部が実行する、字幕情報の抽出処理の手順を示すフローチャートである。第２実施形態における文字情報抽出部が実行する、字幕情報の抽出処理の手順を示すフローチャートである。フレーム画像における主画面領域および副画面領域の構成についての他の例である。フレーム画像における主画面領域および副画面領域の構成についての他の例である。

以下、本発明を実施するための形態について、図面を参照して詳細に説明する。
［第１の実施の形態］
本発明の第１実施形態である映像字幕検出装置は、ビデオカメラから供給される撮影映像データを取り込み、この撮影映像データの画像処理を実行する。そのビデオカメラは、テレビジョン受像機に表示される、番組映像および字幕映像を含むテレビ映像（字幕付テレビ映像）を撮影する。映像字幕検出装置は、撮影映像データの画像処理を実行することによって字幕のテキストを含む字幕情報を生成し、この字幕情報を出力する。番組映像は、放送番組の映像である。字幕映像は、字幕のテキストの映像である。

映像字幕検出装置は、字幕領域推定モードに設定されて動作したのち、字幕情報抽出モードに設定されて動作する。映像字幕検出装置の内部の制御部が、これらのモード設定を行う。字幕領域推定モードに設定された映像字幕検出装置は、所定期間分、連続して撮影映像データを取り込み、フレーム画像において字幕のテキストが表示される領域（字幕領域）を推定する。また、字幕情報抽出モードに設定された映像字幕検出装置は、撮影映像データを取り込み、フレーム画像中の上記推定された字幕領域に出現するテキストを抽出してこのテキストを含む字幕情報を生成し、この字幕情報を出力する。

［１．映像字幕検出装置の構成］
図１は、第１実施形態である映像字幕検出装置の機能構成を示すブロック図である。同図に示すように、映像字幕検出装置１０は、超解像処理部１１と、幾何変換部（テレビ画面領域検出部）１２と、副画面領域推定部（字幕画面領域推定部）１３と、字幕領域推定部１４と、モデル画像生成部１５と、モデル画像記憶部１６と、副画面領域検出部（字幕画面領域検出部）１７と、字幕情報抽出部１８とを備える。
字幕領域推定モードに設定された映像字幕検出装置１０は、超解像処理部１１と、幾何変換部１２と、副画面領域推定部１３と、字幕領域推定部１４と、モデル画像生成部１５と、モデル画像記憶部１６とを動作させる。
また、字幕情報抽出モードに設定された映像字幕検出装置１０は、超解像処理部１１と、幾何変換部１２と、モデル画像記憶部１６と、副画面領域検出部１７と、字幕情報抽出部１８とを動作させる。

映像字幕検出装置１０は、字幕付テレビ映像を撮影する、ビデオカメラ、ビデオカメラ機能付携帯電話機、ビデオカメラ機能付携帯情報端末等に外部接続されるか、内蔵されるものである。

超解像処理部１１は、図示しない制御部から取り込み開始指示と取り込み終了指示とを受信する。超解像処理部１１は、取り込み開始指示を受信したときから取り込み終了指示を受信するときまで、供給される撮影映像データを受信する。超解像処理部１１は、撮影映像データを受信すると、この撮影映像データを構成する複数のフレーム画像を時系列に取り込み、各フレーム画像について超解像処理を実行し、画像の解像度を高めたフレーム画像である高解像度フレーム画像を生成する。超解像処理は、公知の超解像技術を適用した、フレーム画像の高解像度化処理である。超解像処理部１１は、フレーム画像に対して超解像処理を実行することにより、当該フレーム画像の水平方向および垂直方向またはいずれか一方の解像度を高くする。このように超解像処理１１を設けることによって、映像字幕検出装置１０は、画像における字幕の文字の認識率を高めることができる。
超解像処理部１１は、毎フレームまたはあらかじめ決定された複数フレームおきに、高解像度フレーム画像を幾何変換部１２に供給する。

幾何変換部１２は、超解像処理部１１から供給される高解像度フレーム画像（以下、必要な場合を除き、フレーム画像という）を取り込み、このフレーム画像からテレビ画面の領域（テレビ画面領域）を検出する。テレビ画面は、テレビ映像が表示される領域である。例えば、テレビ画面の形状は矩形（長方形および正方形を含む）であることを前提とし、幾何変換部１２は、例えば、ハフ変換による直線検出技術を適用してフレーム画像から複数の直線成分を検出し、これら直線成分によって形成される矩形（その相似形を含む）を検出し、この矩形の図形領域をテレビ画面領域とする。

そして、幾何変換部１２は、検出したテレビ画面領域の形状歪みや画像における傾きをなくすようまたは軽減するよう、フレーム画像の幾何変換処理を実行し、幾何変換されたフレーム画像を副画面領域推定部１３または副画面領域検出部１７に供給する。映像字幕検出装置１０が字幕領域推定モードに設定されている場合、幾何変換部１２は、幾何変換されたフレーム画像を副画面領域推定部１３に供給する。一報、映像字幕検出装置１０が字幕情報抽出モードに設定されている場合、幾何変換部１２は、幾何変換されたフレーム画像を副画面領域検出部１７に供給する。テレビ画面領域の形状歪みや画像における傾きは、テレビジョン受像機の画面に対するビデオカメラの撮影方向が正対していない場合に生じるものである。

副画面領域推定部１３は、幾何変換部１２から供給される、所定期間分の幾何変換されたフレーム画像を順次取り込み、これらのフレーム画像に基づいてテレビ画面における副画面領域（字幕画面領域）の位置および範囲を推定する。副画面領域は、テレビ画面において、放送番組に関する番組映像を表示する領域を主画面領域（番組画面領域）とした場合の、この主画面領域を除く領域である。副画面領域推定部１３は、内部に記憶部を備えている。副画面領域は、字幕領域を含む。主画面領域と副画面領域とを含むテレビ画面の具体例については後述する。また、副画面領域推定部１３が実行する副画面領域の推定処理についても後述する。

字幕領域推定部１４は、副画面領域推定部１３が推定した副画面領域から字幕領域の位置および範囲を推定する。字幕領域推定部１４は、内部に記憶部を備えている。
モデル画像生成部１５は、副画面領域推定部１３が推定した副画面領域と、字幕領域推定部１４が推定した字幕領域とに基づいてモデル画像を生成し、このモデル画像をモデル画像記憶部１６に記憶させる。モデル画像は、幾何変換されたフレーム画像において、副画面領域と字幕領域とを特定するための参照画像（テンプレート画像）である。
モデル画像記憶部１６は、モデル画像生成部１５が生成したモデル画像を記憶する。

副画面領域検出部１７は、モデル画像記憶部１６からモデル画像を読み込むとともに、幾何変換部１２から供給される幾何変換されたフレーム画像を取り込む。そして、副画面領域検出部１７は、モデル画像とフレーム画像とのマッチング処理を実行して、フレーム画像における副画面領域を検出する。
字幕情報抽出部１８は、副画面領域検出部１７が検出した副画面領域から字幕領域を検出し、この字幕領域から字幕のテキストを抽出するとともに現在時刻を計時し、テキストと現在時刻を示す時刻情報とを対応付けた字幕情報を生成し、この字幕情報を出力する。字幕情報抽出部１８は、内部にバッファ（記憶部）を備えている。

図２は、幾何変換部１２が出力する、幾何変換されたフレーム画像を模式的に表した図である。同図において、フレーム画像２０は、主画面領域２１と、副画面領域２２とを含んで構成される。主画面領域２１は、放送番組の番組映像を表示する領域である。副画面領域２２は、字幕のテキストが表示される字幕領域を含む領域である。副画面領域２２には、字幕のテキスト２２ａ，２２ｂが表示されている。フレーム画像２０を構成する画素の位置は、左上端に対応する画素の位置を座標（０，０）とし、ｘ軸方向（水平方向）とｙ軸方向（垂直方向）との二次元直交座標によって表わされる。同図に示すように、副画面領域２２は、主画面領域２１の周囲の一部分に設けられている。そして、副画面領域２２において字幕のテキスト２２ｂを含む上部領域と主画面領域２１との境は、ｘ軸に平行な境界線ａとなっている。また、副画面領域２２において字幕のテキスト２２ａを含む左部領域と主画面領域２１との境は、ｙ軸に平行な境界線ｂとなっている。

なお、本実施形態では、字幕のテキスト２２ｂは、ｘ軸の正方向とは反対方向、つまり左方向に１字幕領域分スクロールされたのち所定時間静止することが繰り返される。また、字幕のテキスト２２ａは、静止したままである。
また、図２において、フレーム画像２０の下部に、ｘ軸に平行でｙ軸方向にｄの幅を有する帯状の副画面領域の一部分があるが、この領域は、主画面領域２１に表示される番組映像のセーフティゾーンを確保するためのオフセット領域であり、字幕のテキストを表示させる領域ではない。

図３は、図２に示したフレーム画像２０に基づいて、モデル生成部１５が生成したモデル画像を模式的に表した図である。同図に示すように、モデル画像３０は、副画面領域２２における背景領域のテンプレート画像である背景領域参照画像３１と、字幕のテキスト２２ｂの字幕領域のテンプレート画像である字幕領域参照画像３２とを有している。

［２．副画面領域の推定処理］
次に、副画面領域推定部１３が実行する副画面領域の推定処理について説明する。副画面領域推定部１３は、幾何変換部１２から供給される、所定期間分の幾何変換されたフレーム画像を順次取り込み、各フレーム画像からエッジを検出する。例えば、副画面領域推定部１３は、ソーベル（Ｓｏｂｅｌ）フィルタを適用してフレーム画像からエッジを検出する。
副画面領域推定部１３は、取り込んだ全フレーム画像から検出したエッジに基づいて、エッジの分布を示すエッジ平均画像を生成する。エッジ平均画像ｆ^{ｅｄｇｅ＿ａｖｇ}における座標（ｘ，ｙ）の画素値は、下記の式（１）として表わされる。
ただし、ｉ_ｓは、字幕領域推定モードに設定されて動作する超解像処理部１１が撮像映像データを取り込み開始したときのフレーム画像の番号である。また、ｉ_ｅは、字幕領域推定モードに設定されて動作する超解像処理部１１が撮像映像データを取り込み終了するときのフレーム画像の番号である。また、ｆ^{ｅｄｇｅ＿ａｖｇ} _ｉは、ｉ番目のフレーム画像から検出されたエッジ画像である。

副画面領域推定部１３は、計算したエッジ平均画像ｆ^{ｅｄｇｅ＿ａｖｇ}を、例えば上部領域、下部領域、左部領域、および右部領域に区分し、領域ごとに画面領域を推定する。上部領域は、例えば、ｘ軸に平行で、エッジ平均画像ｆ^{ｅｄｇｅ＿ａｖｇ}の中心位置を含む境界線よりも上側の領域である。下部領域は、例えば、ｘ軸に平行で、エッジ平均画像ｆ^{ｅｄｇｅ＿ａｖｇ}の中心位置を含む境界線とこの境界線よりも下側との領域である。左部領域は、例えば、ｙ軸に平行で、エッジ平均画像ｆ^{ｅｄｇｅ＿ａｖｇ}の中心位置を含む境界線よりも左側の領域である。右部領域は、例えば、ｙ軸に平行で、エッジ平均画像ｆ^{ｅｄｇｅ＿ａｖｇ}の中心位置を含む境界線とこの境界線よりも右側との領域である。

副画面領域推定部１３が上部領域から副画面領域を推定する処理について説明する。
副画面領域推定部１３は、エッジ平均画像ｆ^{ｅｄｇｅ＿ａｖｇ}のｙ軸方向のエッジ強度分布ｓ_ｙを、下記の式（２）によって計算する。
ただし、Ｗはフレーム画像のｘ軸方向の幅、Ｈはフレーム画像のｙ軸方向の幅である。

副画面領域推定部１３は、エッジ強度分布ｓ_ｙ（０≦ｙ＜（Ｈ／２））から、エッジ強度の最大値である最大エッジ強度値ｓ_ｙｍａｘを抽出し、この最大エッジ強度値ｓ_ｙｍａｘに対応するｙ座標値ｙ_ｔを下記の式（３）によって計算する。

副画面領域推定部１３は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線がある場合は、上部領域を検出する。具体的には、副画面領域推定部１３は、最大エッジ強度値ｓ_ｙｍａｘがあらかじめ決定された閾値ｓ_{ｙｍａｘｔｈ}より大きく、且つ、最大エッジ強度値ｓ_ｙｍａｘに対応するｙ座標値ｙ_ｔがあらかじめ決定された閾値ｙ_ａｔｈよりも大きいか否かを判定する。副画面領域推定部１３は、最大エッジ強度値ｓ_ｙｍａｘが閾値ｓ_{ｙｍａｘｔｈ}より大きく、且つ、最大エッジ強度値ｓ_ｙｍａｘに対応するｙ座標値ｙ_ｔが閾値ｙ_ａｔｈよりも大きいと判定した場合、フレーム画像のｙ座標値が０からｙ_ｔまでの画像領域を上部領域として検出する。そして、副画面領域推定部１３は、検出した上部領域の位置情報を内部の記憶部に記憶させる。この位置情報とは、例えば、上部領域の４つの頂点の画素位置を示す座標値である。

次に、副画面領域推定部１３が下部領域から副画面領域を推定する処理について説明する。
副画面領域推定部１３は、エッジ平均画像ｆ^{ｅｄｇｅ＿ａｖｇ}のｙ軸方向のエッジ強度分布ｓ_ｙを、下記の式（４）によって計算する。

副画面領域推定部１３は、エッジ強度分布ｓ_ｙ（（Ｈ／２）≦ｙ＜Ｈ）から、最大エッジ強度値ｓ_ｙｍａｘを抽出し、この最大エッジ強度値ｓ_ｙｍａｘに対応するｙ座標値ｙ_ｔを下記の式（５）によって計算する。

副画面領域推定部１３は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線がある場合は、下部領域を検出する。具体的には、副画面領域推定部１３は、最大エッジ強度値ｓ_ｙｍａｘがあらかじめ決定された閾値ｓ_{ｙｍａｘｔｈ}より大きく、且つ、最大エッジ強度値ｓ_ｙｍａｘに対応するｙ座標値ｙ_ｔがあらかじめ決定された閾値ｙ_ｂｔｈよりも大きいか否かを判定する。副画面領域推定部１３は、最大エッジ強度値ｓ_ｙｍａｘが閾値ｓ_{ｙｍａｘｔｈ}より大きく、且つ、最大エッジ強度値ｓ_ｙｍａｘに対応するｙ座標値ｙ_ｔが閾値ｙ_ｂｔｈよりも大きいと判定した場合、フレーム画像のｙ座標値がｙ_ｔからＨまでの画像領域を下部領域として検出する。そして、副画面領域推定部１３は、検出した下部領域の位置情報を内部の記憶部に記憶させる。この位置情報とは、例えば、下部領域の４つの頂点の画素位置を示す座標値である。

次に、副画面領域推定部１３が左部領域から副画面領域を推定する処理について説明する。
副画面領域推定部１３は、エッジ平均画像ｆ^{ｅｄｇｅ＿ａｖｇ}のｘ軸方向のエッジ強度分布ｓ_ｘを、下記の式（６）によって計算する。

副画面領域推定部１３は、エッジ強度分布ｓ_ｘ（０≦ｘ＜（Ｗ／２））から、エッジ強度の最大値である最大エッジ強度値ｓ_ｘｍａｘを抽出し、この最大エッジ強度値ｓ_ｘｍａｘに対応するｘ座標値ｘ_ｔを下記の式（７）によって計算する。

副画面領域推定部１３は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線がある場合は、左部領域を検出する。具体的には、副画面領域推定部１３は、最大エッジ強度値ｓ_ｘｍａｘがあらかじめ決定された閾値ｓ_{ｘｍａｘｔｈ}より大きく、且つ、最大エッジ強度値ｓ_ｘｍａｘに対応するｘ座標値ｘ_ｔがあらかじめ決定された閾値ｘ_ａｔｈよりも大きいか否かを判定する。副画面領域推定部１３は、最大エッジ強度値ｓ_ｘｍａｘが閾値ｓ_{ｘｍａｘｔｈ}より大きく、且つ、最大エッジ強度値ｓ_ｘｍａｘに対応するｘ座標値ｘ_ｔが閾値ｘ_ａｔｈよりも大きいと判定した場合、フレーム画像のｘ座標値が０からｘ_ｔまでの画像領域を左部領域として検出する。そして、副画面領域推定部１３は、検出した左部領域の位置情報を内部の記憶部に記憶させる。この位置情報とは、例えば、左部領域の４つの頂点の画素位置を示す座標値である。

次に、副画面領域推定部１３が右部領域から副画面領域を推定する処理について説明する。
副画面領域推定部１３は、エッジ平均画像ｆ^{ｅｄｇｅ＿ａｖｇ}のｘ軸方向のエッジ強度分布ｓ_ｘを、下記の式（８）によって計算する。

副画面領域推定部１３は、エッジ強度分布ｓ_ｘ（（Ｗ／２）≦ｘ＜Ｗ）から、最大エッジ強度値ｓ_ｘｍａｘを抽出し、この最大エッジ強度値ｓ_ｘｍａｘに対応するｘ座標値ｘ_ｔを下記の式（９）によって計算する。

副画面領域推定部１３は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線がある場合は、右部領域を検出する。具体的には、副画面領域推定部１３は、最大エッジ強度値ｓ_ｘｍａｘがあらかじめ決定された閾値ｓ_{ｘｍａｘｔｈ}より大きく、且つ、最大エッジ強度値ｓ_ｘｍａｘに対応するｘ座標値ｘ_ｔがあらかじめ決定された閾値ｘ_ｂｔｈよりも大きいか否かを判定する。副画面領域推定部１３は、最大エッジ強度値ｓ_ｘｍａｘが閾値ｓ_{ｘｍａｘｔｈ}より大きく、且つ、最大エッジ強度値ｓ_ｘｍａｘに対応するｘ座標値ｘ_ｔが閾値ｘ_ｂｔｈよりも大きいと判定した場合、フレーム画像のｘ座標値がｘ_ｔからＷまでの画像領域を右部領域として検出する。そして、副画面領域推定部１３は、検出した右部領域の位置情報を内部の記憶部に記憶させる。この位置情報とは、例えば、上部領域の４つの頂点の画素位置を示す座標値である。

図４は、副画面領域推定部１３が実行する副画面領域の推定処理の手順を示すフローチャートである。ステップＳ１において、副画面領域推定部１３は、撮影映像データを取り込む所定期間内であるか否かを判別し、所定期間内である場合はステップＳ２の処理に移し、所定期間外である場合はステップＳ４の処理に移す。

ステップＳ２において、副画面領域推定部１３は、幾何変換部１２から供給される幾何変換されたフレーム画像を取り込む。
次に、ステップＳ３において、副画面領域推定部１３は、取り込んだフレーム画像からエッジを検出する。
次に、副画面領域推定部１３は、ステップＳ１の処理に戻す。

ステップＳ４において、副画面領域推定部１３は、取り込んだ全フレーム画像から検出したエッジに基づいてエッジ平均画像ｆ^{ｅｄｇｅ＿ａｖｇ}を生成する。
次に、ステップＳ５において、副画面領域推定部１３は、エッジ平均画像の上部領域についての副画面領域の推定処理を実行する。
次に、ステップＳ６において、副画面領域推定部１３は、エッジ平均画像ｆ^{ｅｄｇｅ＿ａｖｇ}の上部領域についての副画面領域の推定処理を実行する。
次に、ステップＳ７において、副画面領域推定部１３は、エッジ平均画像ｆ^{ｅｄｇｅ＿ａｖｇ}の上部領域についての副画面領域の推定処理を実行する。
次に、ステップＳ８において、副画面領域推定部１３は、エッジ平均画像ｆ^{ｅｄｇｅ＿ａｖｇ}の上部領域についての副画面領域の推定処理を実行する。

図５は、ステップＳ５の上部領域についての推定処理の手順を示すフローチャートである。
ステップＳ１１において、副画面領域推定部１３は、エッジ平均画像ｆ^{ｅｄｇｅ＿ａｖｇ}のｙ軸方向のエッジ強度分布ｓ_ｙを計算する。
次に、ステップＳ１２において、副画面領域推定部１３は、エッジ強度分布ｓ_ｙ（０≦ｙ＜（Ｈ／２））から、エッジ強度の最大値である最大エッジ強度値ｓ_ｙｍａｘを抽出し、この最大エッジ強度値ｓ_ｙｍａｘに対応するｙ座標値ｙ_ｔを計算する。
次に、ステップＳ１３において、副画面領域推定部１３は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線があると判定した場合（Ｓ１３：ＹＥＳ）はステップＳ１４の処理に移し、境界線がないと判定した場合（Ｓ１３：ＮＯ）は本フローチャートの処理を終了させる。
ステップＳ１４において、副画面領域推定部１３は、フレーム画像のｙ座標値が０からｙ_ｔまでの画像領域を上部領域として検出し、この上部領域の位置情報を内部の記憶部に記憶させる。

図６は、ステップＳ６の下部領域についての推定処理の手順を示すフローチャートである。
ステップＳ２１において、副画面領域推定部１３は、エッジ平均画像ｆ^{ｅｄｇｅ＿ａｖｇ}のｙ軸方向のエッジ強度分布ｓ_ｙを計算する。
次に、ステップＳ２２において、副画面領域推定部１３は、エッジ強度分布ｓ_ｙ（（Ｈ／２）≦ｙ＜Ｈ）から、エッジ強度の最大値である最大エッジ強度値ｓ_ｙｍａｘを抽出し、この最大エッジ強度値ｓ_ｙｍａｘに対応するｙ座標値ｙ_ｔを計算する。
次に、ステップＳ２３において、副画面領域推定部１３は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線があると判定した場合（Ｓ２３：ＹＥＳ）はステップＳ２４の処理に移し、境界線がないと判定した場合（Ｓ２３：ＮＯ）は本フローチャートの処理を終了させる。
ステップＳ２４において、副画面領域推定部１３は、フレーム画像のｙ座標値がｙ_ｔからＨまでの画像領域を下部領域として検出し、この下部領域の位置情報を内部の記憶部に記憶させる。

図７は、ステップＳ７の左部領域についての推定処理の手順を示すフローチャートである。
ステップＳ３１において、副画面領域推定部１３は、エッジ平均画像ｆ^{ｅｄｇｅ＿ａｖｇ}のｘ軸方向のエッジ強度分布ｓ_ｘを計算する。
次に、ステップＳ３２において、副画面領域推定部１３は、エッジ強度分布ｓ_ｘ（０≦ｘ＜（Ｗ／２））から、エッジ強度の最大値である最大エッジ強度値ｓ_ｘｍａｘを抽出し、この最大エッジ強度値ｓ_ｘｍａｘに対応するｘ座標値ｘ_ｔを計算する。
次に、ステップＳ３３において、副画面領域推定部１３は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線があると判定した場合（Ｓ３３：ＹＥＳ）はステップＳ３４の処理に移し、境界線がないと判定した場合（Ｓ３３：ＮＯ）は本フローチャートの処理を終了させる。
ステップＳ３４において、副画面領域推定部１３は、フレーム画像のｘ座標値が０からｘ_ｔまでの画像領域を左部領域として検出し、この上部領域の位置情報を内部の記憶部に記憶させる。

図８は、ステップＳ８の右部領域についての推定処理の手順を示すフローチャートである。
ステップＳ４１において、副画面領域推定部１３は、エッジ平均画像ｆ^{ｅｄｇｅ＿ａｖｇ}のｘ軸方向のエッジ強度分布ｓ_ｘを計算する。
次に、ステップＳ４２において、副画面領域推定部１３は、エッジ強度分布ｓ_ｘ（（Ｗ／２）≦ｘ＜Ｗ）から、エッジ強度の最大値である最大エッジ強度値ｓ_ｘｍａｘを抽出し、この最大エッジ強度値ｓ_ｘｍａｘに対応するｘ座標値ｘ_ｔを計算する。
次に、ステップＳ４３において、副画面領域推定部１３は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線があると判定した場合（Ｓ４３：ＹＥＳ）はステップＳ４４の処理に移し、境界線がないと判定した場合（Ｓ４３：ＮＯ）は本フローチャートの処理を終了させる。
ステップＳ４４において、副画面領域推定部１３は、フレーム画像のｘ座標値がｘ_ｔからＷまでの画像領域を右部領域として検出し、この右部領域の位置情報を内部の記憶部に記憶させる。

［３．字幕領域の推定処理］
次に、字幕領域推定部１４が実行する字幕領域の推定処理について説明する。字幕領域推定部１４は、副画面領域推定部１３が推定した副画面領域の上部領域、下部領域、左部領域、および右部領域それぞれ（以下、対象領域と呼ぶことがある）について、字幕領域が存在するか否か、ならびに、字幕領域が存在する場合に、その位置および範囲を推定する。例えば、字幕領域推定部１４は、上部領域、下部領域、左部領域、右部領域の順に推定処理を実行する。

字幕領域推定部１４は、対象領域における画素の時間方向についての変化を求める。例えば、字幕領域推定部１４は、対象領域における画素の時間方向についての画素値の変化のばらつきを、分散σ_ｘ，ｙを求める下記の式（１０）によって計算する。
ただし、ｉ_ｓは、字幕領域推定モードに設定されて動作する超解像処理部１１が撮像映像データを取り込み開始したときのフレーム画像の番号である。また、ｉ_ｅは、字幕領域推定モードに設定されて動作する超解像処理部１１が撮像映像データを取り込み終了するときのフレーム画像の番号である。また、ｆ_ｉ（ｘ，ｙ）は、対象領域である。また、μ_ｘ，ｙは、撮影映像データの取り込み期間における対象領域ｆ_ｉ（ｘ，ｙ）の平均値である。

字幕領域推定部１４は、式（１０）により計算した分散σ_ｘ，ｙに基づいて、対象領域を２つの領域に区分する。例えば、字幕領域推定部１４は、分散σ_ｘ，ｙに基づいて対象領域の全画素を、あらかじめ決定された閾値を基準にして二分し、さらに、判別分析法を適用してその閾値を最適化し、最終的に対象領域を２つの領域（背景領域およびテキスト領域）に区分する。判別分析法は、２クラス（背景領域のクラスおよびテキスト領域のクラス）に分離された対象領域について、各クラスのクラス内分散と２クラスについてのクラス間分散とを計算し、クラス内分散とクラス間分散との比に基づいて閾値を決定する方法である。

字幕領域推定部１４は、テキスト領域の面積とあらかじめ決定された面積閾値とを比較する。そして、字幕領域推定部１４は、推定したテキスト領域の面積が面積閾値よりも大きい場合は、その推定したテキスト領域を字幕領域として決定する。一方、字幕領域推定部１４は、推定したテキスト領域の面積が面積閾値以下である場合は、対象領域内に字幕領域が存在しないと決定する。そして、字幕領域推定部１４は、字幕領域の位置情報を内部の記憶部に記憶させる。この位置情報とは、例えば、字幕領域の４つの頂点の画素位置を示す座標値である。

図９は、字幕領域推定部１４が実行する字幕領域推定処理の手順を示すフローチャートである。字幕領域推定部１４は、副画面領域の上部領域、下部領域、左部領域、および右部領域それぞれについて、同図のフローチャートの処理を実行する。

ステップＳ５１において、字幕領域推定部１４は、副画面領域推定部１３によって内部の記憶部に記憶された対象領域の位置情報を読み込む。
次に、ステップＳ５２において、字幕領域推定部１４は、対象領域における画素の時間方向についての画素値の変化のばらつき（分散）を計算する。
次に、ステップＳ５３において、字幕領域推定部１４は、分散に基づいて、対象領域を２つの領域（背景領域およびテキスト領域）に区分する。

次に、ステップＳ５４において、字幕領域推定部１４は、テキスト領域の面積とあらかじめ決定された面積閾値とを比較し、テキスト領域の面積が面積閾値よりも大きい場合（ステップＳ５４：ＹＥＳ）は、テキスト領域を字幕領域として決定してステップＳ５５の処理に移し、テキスト領域の面積が面積閾値以下である場合（ステップＳ５４：ＮＯ）は、対象領域内に字幕領域が存在しないと決定して本フローチャートの処理を終了させる。
ステップＳ５５において、字幕領域推定部１４は、字幕領域の位置情報を内部の記憶部に記憶させる。

［４．副画面領域の検出処理］
次に、副画面領域検出部１７が実行する副画面領域の検出処理について説明する。副画面領域検出部１７は、モデル画像記憶部１６からモデル画像を読み込み、また、幾何変換部１２から供給される幾何変換されたフレーム画像を取り込む。副画面領域検出部１７は、モデル画像を参照画像として、テンプレートマッチングによりフレーム画像から副画面領域を検出する。例えば、副画面領域検出部１７は、フレーム画像と参照画像との一致度ｄ_ｂｇ（ｆ_ｉ，ｍ）を、下記の式（１１）の差分二乗和の計算によって求める。
ただし、ｆ_ｉはｉ番目のフレーム画像、ｍはモデル画像である。また、Ｌは、モデル画像に含まれる背景領域の画素集合である。

なお、テンプレートマッチングとして、上記の差分二乗和の他、絶対差分和、色ヒストグラム差分、ブロックマッチング差分等を用いてもよい。

副画面領域検出部１７は、一致度ｄ_ｂｇ（ｆ_ｉ，ｍ）とあらかじめ決定された閾値とを比較し、一致度ｄ_ｂｇ（ｆ_ｉ，ｍ）が閾値以下である場合、ｉ番目のフレーム画像に副画面領域が存在すると判定する。

図１０は、副画面領域検出部１７が実行する副画面領域の検出処理の手順を示すフローチャートである。
ステップＳ６１において、副画面領域検出部１７は、モデル画像記憶部１６からモデル画像を読み込む。
次に、ステップＳ６２において、副画面領域検出部１７は、幾何変換部１２から供給される幾何変換されたフレーム画像を取り込む。
次に、ステップＳ６３において、副画面領域検出部１７は、モデル画像を参照画像として、テンプレートマッチング法によりフレーム画像と副画面領域との一致度を計算する。
次に、ステップＳ６４において、一致度が閾値以下である場合（ステップＳ６４：ＹＥＳ）、副画面領域検出部１７は、フレーム画像に副画面領域が存在すると判定し、本フローチャートの処理を終了させる。一方、一致度が上記の閾値を超える場合（ステップＳ６４：ＮＯ）、副画面領域検出部１７は、ステップＳ６２の処理に戻す。

［５．字幕情報の抽出処理］
字幕情報抽出部１８は、副画面領域内の字幕領域において、字幕のテキストが所定時間静止しているか否かを判定する。例えば、字幕情報抽出部１８は、最新のフレーム画像（現フレーム画像、第１のフレーム画像）と前回取り込んだフレーム画像（前フレーム画像、第２のフレーム画像）との一致度ｄ_ｔｅｘｔ（ｆ_ｉ−１，ｆ_ｉ）を、下記の式（１２）の差分二乗和によって求める。
ただし、ｆ_ｉ−１は（ｉ−１）番目のフレーム画像（前フレーム画像）、ｆ_ｉはｉ番目のフレーム画像（現フレーム画像）である。また、Ｔは、モデル画像に含まれる字幕領域の画素集合である。

字幕情報抽出部１８は、一致度ｄ_ｔｅｘｔ（ｆ_ｉ−１，ｆ_ｉ）とあらかじめ決定された閾値とを比較し、一致度ｄ_ｔｅｘｔ（ｆ_ｉ−１，ｆ_ｉ）が所定時間分連続して閾値以下である場合、字幕領域内の字幕のテキストが静止していると判定する。

字幕情報抽出部１８は、字幕領域内の静止した字幕のテキストの内容が、前回抽出したテキストの内容と異なるか否かを判定する。例えば、字幕情報抽出部１８は、現フレーム画像と、前回、テキストを抽出したときのフレーム画像（テキスト有りフレーム画像）との一致度ｄ_ｔｅｘｔ（ｆ_ｐｒｅｖ，ｆ_ｉ）を、下記の式（１３）の差分二乗和によって求める。
ただし、ｆ_ｐｒｅｖは、テキスト有りフレーム画像である。

字幕情報抽出部１８は、一致度ｄ_ｔｅｘｔ（ｆ_ｐｒｅｖ，ｆ_ｉ）とあらかじめ決定された閾値とを比較し、一致度ｄ_ｔｅｘｔ（ｆ_ｐｒｅｖ，ｆ_ｉ）が閾値を超える場合、字幕のテキストの内容が、前回抽出したテキストの内容と異なると判定する。

文字情報抽出部１８は、最新のテキストが含まれる字幕領域について文字認識処理を実行し、その字幕領域から文字列データ（一文字の場合を含む）を抽出する。例えば、文字情報抽出部１８は、最新のテキストが含まれる字幕領域から文字単位で領域（文字領域）を抽出し、この文字領域について様々なテンプレート文字とのマッチングを試行することによって、文字を認識する。そして、文字情報抽出部１８は、その文字認識処理をテキスト内の全ての文字に対して実行し、文字列データを字幕のテキストとして抽出する。

文字情報抽出部１８は、字幕のテキストと現在時刻を示す時刻情報とを対応付け、字幕情報として出力する。

図１１および図１２は、文字情報抽出部１８が実行する、字幕情報の抽出処理の手順を示すフローチャートである。
図１１のステップＳ７１において、文字情報抽出部１８は、変数ｋを初期化する。この変数ｋは、字幕領域内のテキストが静止しているか否かを検出するために用いられるものである。
次に、ステップＳ７２において、文字情報抽出部１８は、幾何変換されたフレーム画像を取り込む。
次に、ステップＳ７３において、文字情報抽出部１８は、バッファから前フレーム画像を読み込む。
次に、ステップＳ７４において、文字情報抽出部１８は、テンプレートマッチング法によりフレーム画像と前フレーム画像との一致度を計算する。
次に、ステップＳ７５において、一致度が閾値以下である場合（ステップＳ７５：ＹＥＳ）、文字情報抽出部１８はステップＳ７７の処理に移し、一致度が上記の閾値を超える場合（ステップＳ７５：ＮＯ）、文字情報抽出部１８はステップＳ７６の処理に移す。

ステップＳ７６において、文字情報抽出部１８は、現フレーム画像をバッファに記憶させて、ステップＳ７２の処理に戻す。
一方、ステップＳ７７において、文字情報抽出部１８は、変数ｋに１を加算する。そして、ステップＳ７８において、文字情報抽出部１８は、変数ｋと閾値とを比較し、変数ｋがこの閾値よりも大きい場合は、図１２のステップＳ７９の処理に移し、変数ｋがその閾値以下である場合は、ステップＳ７２の処理に戻す。

図１２のステップＳ７９において、字幕情報抽出部１８は、バッファからテキスト有りフレーム画像を読み込む。
次に、ステップＳ８０において、字幕情報抽出部１８は、テンプレートマッチング法により現フレーム画像とテキスト有りフレーム画像との一致度を計算する。
次に、ステップＳ８１において、一致度が閾値を超える場合（ステップＳ８１：ＹＥＳ）、文字情報抽出部１８はステップＳ８２の処理に移し、一致度が上記の閾値以下である場合（ステップＳ８１：ＮＯ）、文字情報抽出部１８はステップＳ７１の処理に戻す。

ステップＳ８２において、文字情報抽出部１８は、字幕領域について文字認識処理を実行し、その字幕領域から文字列データ（一文字の場合を含む）を抽出する。
次に、ステップＳ８３において、文字情報抽出部１８は、字幕のテキストと現在時刻を示す時刻情報とを対応付け、字幕情報として出力する。
次に、文字情報抽出部１８は、ステップＳ７１の処理に戻す。

［第２の実施形態］
上述した第１の実施形態では、副画面領域の字幕領域に表示される字幕のテキストが、例えば、左方向に１字幕領域分スクロールされて所定時間静止することが繰り返されるものとした。本発明の第２実施形態は、字幕のテキストが静止することなく、連続してスクロールされる例である。

第２実施形態である映像字幕検出装置の機能構成は、第１実施形態である映像字幕検出装置１０と同一であるため、各構成の説明を省略する。
第２実施形態では、字幕情報抽出部１８の動作が第１実施形態と異なる。

図１３は、第２実施形態における文字情報抽出部１８が実行する、字幕情報の抽出処理の手順を示すフローチャートである。
Ｓ１０１において、文字情報抽出部１８は、幾何変換されたフレーム画像を所定フレーム（例えば、数秒間に相当するフレーム数）おきに取り込む。
次に、Ｓ１０２において、文字情報抽出部１８は、字幕領域について文字認識処理を実行する。

次に、Ｓ１０３において、文字情報抽出部１８は、文字認識処理の結果に基づいて、字幕領域から文字情報（一文字または文字列の情報）を抽出した場合（Ｓ１０３：ＹＥＳ）はステップＳ１０４の処理に移し、文字情報を抽出しなかった場合（Ｓ１０３：ＮＯ）はステップＳ１０１の処理に戻す。

ステップＳ１０４において、文字情報抽出部１８は、バッファに記憶されている文字情報を読み込む。
次に、ステップＳ１０５において、文字情報抽出部１８は、ステップＳ１０２の処理において抽出した文字情報と、ステップＳ１０４の処理においてバッファから読み込んだ文字情報との差分を抽出する。

次に、ステップＳ１０６において、文字情報抽出部１８は、差分の文字情報を、バッファの文字情報に追加して記憶させる。
次に、ステップＳ１０７において、文字情報抽出部１８は、所定文字数分の文字情報がバッファに記憶された場合はステップＳ１０８の処理に移し、所定文字数分の文字情報がバッファに記憶されていない場合はステップＳ１０１に戻す。所定文字数は、例えば、一字幕領域に表示される文字数である。

ステップＳ１０８において、文字情報抽出部１８は、字幕のテキストと現在時刻を示す時刻情報とを対応付け、字幕情報として出力する。
次に、ステップＳ１０９において、文字情報抽出部１８は、バッファの内容を削除し、ステップＳ１０１の処理に戻す。

以上、詳述したとおり、本発明の第１実施形態および第２実施形態による映像字幕検出装置１０は、テレビジョン受像機に表示される、番組映像と字幕映像とを含んだ字幕付テレビ映像を撮影したビデオカメラから供給される撮影映像データを取り込む。そして、映像字幕検出装置１０は、撮影映像データのフレーム画像から字幕領域の位置および範囲を推定し、この字幕領域に表示される字幕のテキストを検出する。そして、映像字幕検出装置１０は、字幕のテキストと現在時刻を示す時刻情報とを対応付けた字幕情報を生成し、この字幕情報を出力する。
このように構成したことにより、映像字幕検出装置１０によれば、番組映像と字幕映像とを含む映像から、容易に字幕を検出しそのテキスト情報を取得することができる。

また、第１実施形態による映像字幕検出装置１０は、副画面領域内の字幕領域において、字幕のテキストが所定時間静止しているか否かを判定し、テキストが静止していることを確認してテキストを抽出する。このように構成したことにより、映像字幕検出装置１０は、例えば、一方向（例えば左方向）に１字幕領域分スクロールされたのち所定時間静止することが繰り返される字幕について、字幕が静止するたびにテキストを抽出するため、字幕の文字を漏らさず抽出することができる。

また、第２実施形態による映像字幕検出装置１０は、所定フレームおきにフレーム画像を、取り込み文字認識処理を行って文字情報を取得し、この文字情報と既に取り込んである文字情報との差分を抽出する。そして、映像字幕検出装置１０は、取り込み済みである文字情報に差分を追加する。このように構成したことにより、映像字幕検出装置１０は、字幕のテキストが静止することなく、連続してスクロールされる字幕について、間欠的にテキストを抽出するため、字幕の文字を漏らさず抽出することができる。

なお、第１実施形態および第２実施形態では、フレーム画像における主画面領域および副画面領域の構成を、図２に示す構成とした。画面構成は、この例に限らず、例えば図１４（ａ）〜（ｉ）および図１５（ａ）〜（ｄ）に示すものとしてもよい。これら図１４および図１５の各図においては、オフセット領域の図示を省略している。
なお、図１４（ａ）に示す画面構成は、図２のものと同一である。

また、上述した実施形態である映像字幕検出装置１０の一部の機能をコンピュータで実現するようにしてもよい。この場合、その制御機能を実現するためのプログラム（映像字幕検出プログラム）をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませて、このコンピュータシステムが実行することによって実現してもよい。なお、このコンピュータシステムとは、オペレーティング・システム（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ；ＯＳ）や周辺装置のハードウェアを含むものである。また、コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、光ディスク、メモリカード等の可搬型記録媒体、コンピュータシステムに備えられる磁気ハードディスクやソリッドステートドライブ等の記憶装置のことをいう。さらに、コンピュータ読み取り可能な記録媒体とは、インターネット等のコンピュータネットワーク、および電話回線や携帯電話網を介してプログラムを送信する場合の通信回線のように、短時間の間、動的にプログラムを保持するもの、さらには、その場合のサーバ装置やクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持するものを含んでもよい。また上記のプログラムは、前述した機能の一部を実現するためのものであってもよく、さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。

以上、本発明の実施の形態について図面を参照して詳述したが、具体的な構成はその実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。

１０映像字幕検出装置
１１超解像処理部
１２幾何変換部（テレビ画面領域検出部）
１３副画面領域推定部（字幕画面領域推定部）
１４字幕領域推定部
１５モデル画像生成部
１６モデル画像記憶部
１７副画面領域検出部（字幕画面領域検出部）
１８字幕情報抽出部

Claims

番組映像および字幕映像を含むテレビ映像を撮影して得られた撮影映像データを取り込み、前記撮影映像データのフレーム画像から直線成分を検出し、前記直線成分によって形成される矩形に基づいて、前記フレーム画像からテレビ画面領域を検出するテレビ画面領域検出部と、
前記テレビ画面領域検出部が検出した前記テレビ画面領域から画像のエッジを検出し、前記画像のエッジの分布に基づいて、前記フレーム画像から前記字幕映像に対応する字幕画面領域を推定する字幕画面領域推定部と、
前記字幕画面領域推定部が推定した前記字幕画面領域から時間方向の画素の変化を検出し、前記画素の変化に基づいて字幕のテキストを含む字幕領域を推定する字幕領域推定部と、
前記撮影映像データを取り込み、前記字幕画面領域推定部が推定した前記字幕画面領域に基づいて、前記撮影映像データのフレーム画像から前記字幕画面領域を検出する字幕画面領域検出部と、
前記字幕画面領域検出部が検出した前記字幕画面領域を含むフレーム画像における、前記字幕領域推定部が推定した前記字幕領域から字幕のテキストを抽出し、前記字幕のテキストと現在時刻を示す時刻情報とを対応付けた字幕情報を生成し、前記字幕情報を出力する字幕情報抽出部と、
を備えることを特徴とする映像字幕検出装置。
前記字幕情報抽出部は、
前記字幕画面領域検出部が検出した前記字幕画面領域を含む第１のフレーム画像における、前記字幕領域推定部が推定した前記字幕領域と、前記第１のフレーム画像よりも前の時刻の第２のフレーム画像における前記字幕領域との比較に基づいて、前記第１のフレーム画像における前記字幕領域から字幕のテキストを抽出する
ことを特徴とする請求項１記載の映像字幕検出装置。
前記字幕情報抽出部は、
前記第１のフレーム画像における字幕領域と前記第２のフレーム画像における字幕領域との比較に基づいて、字幕のテキストが静止しているか否かを判定し、前記字幕のテキストが静止している場合に、前記第１のフレーム画像における前記字幕領域から字幕のテキストを抽出する
ことを特徴とする請求項２記載の映像字幕検出装置。
前記字幕情報抽出部は、
前記字幕画面領域検出部が検出した前記字幕画面領域から第１のテキストを抽出し、この第１のテキストと、既に抽出された第２のテキストとの差分を抽出し、この差分を前記第２のテキストに追加することによって前記字幕のテキストを取得する
ことを特徴とする請求項２記載の映像字幕検出装置。
コンピュータを、
番組映像および字幕映像を含むテレビ映像を撮影して得られた撮影映像データを取り込み、前記撮影映像データのフレーム画像から直線成分を検出し、前記直線成分によって形成される矩形に基づいて、前記フレーム画像からテレビ画面領域を検出するテレビ画面領域検出部と、
前記テレビ画面領域検出部が検出した前記テレビ画面領域から画像のエッジを検出し、前記画像のエッジの分布に基づいて、前記フレーム画像から前記字幕映像に対応する字幕画面領域を推定する字幕画面領域推定部と、
前記字幕画面領域推定部が推定した前記字幕画面領域から時間方向の画素の変化を検出し、前記画素の変化に基づいて字幕のテキストを含む字幕領域を推定する字幕領域推定部と、
前記撮影映像データを取り込み、前記字幕画面領域推定部が推定した前記字幕画面領域に基づいて、前記撮影映像データのフレーム画像から前記字幕画面領域を検出する字幕画面領域検出部と、
前記字幕画面領域検出部が検出した前記字幕画面領域を含むフレーム画像における、前記字幕領域推定部が推定した前記字幕領域から字幕のテキストを抽出し、前記字幕のテキストと現在時刻を示す時刻情報とを対応付けた字幕情報を生成し、前記字幕情報を出力する字幕情報抽出部と、
して機能させるためのプログラム。