JP2007274154A

JP2007274154A - 映像分割装置、テロップ抽出装置、方法およびプログラム

Info

Publication number: JP2007274154A
Application number: JP2006095057A
Authority: JP
Inventors: Koji Yamamoto; 晃司山本
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-03-30
Filing date: 2006-03-30
Publication date: 2007-10-18
Anticipated expiration: 2026-03-30
Also published as: JP4377887B2; CN100499751C; EP1845477A3; EP1845477A2; US20070230781A1; CN101047795A

Abstract

【課題】映像を意味のあるシーンへ精度よく分割する。
【解決手段】複数の映像フレームが時刻順に配置されている時空間画像を格納する格納手段１０１と、時空間画像の時間軸に平行な面での切断面に相当するスライス画像に含まれる、時間軸に平行な線分を少なくとも１つ抽出する抽出手段１０２，１０３と、線分の時間方向の区間に基づいて、時空間画像を複数のシーンに分割する分割手段１０３と、を具備する。
【選択図】図１

Description

本発明は、画面上で文字または画像が合成された映像データで、映像をシーンに分割、あるいは、映像に含まれるテロップを抽出するようにした、映像分割装置、テロップ抽出装置、方法およびプログラムに関する。

近年、放送の多チャンネル化等、情報インフラの発展により、多くの映像コンテンツが流通するようになっている。一方で、録画装置の側もハードディスク・レコーダーやチューナー搭載パソコンのような機器の普及によって、映像コンテンツをデジタルデータとして保存し、処理を行うことで、効率的な視聴が可能となっている。このような処理の１つとして１つの映像コンテンツを一定のまとまりのあるシーンに分割し、「頭出し」や「とばし見」ができる機能がある。これらのシーンの開始点はチャプタ点とも呼ばれ、機器が自動的にチャプタ点を検出して設定したり、ユーザが任意の箇所にチャプタ点を設定できる。

映像をシーンに分割する方法として、テロップの出現を検出し、同一のテロップが出現している区間を１つのシーンとする方法がある。例えば、テロップを検出するために、１フレーム内の画像をブロックに分割し、隣接する２フレーム間で輝度などが一定の条件を満たすブロックを抽出し、縦または横に連続するブロックをテロップ領域とする（例えば、特許文献１参照）。
特許第３０２４５７４号公報

テロップが出現している区間を１シーンとするには、そのテロップが出現している間、途切れることなくテロップを検出する必要がある。しかし、上述した技術では時間方向の連続性として隣接する２フレームの情報しか利用していない。そのため、背景の輝度変動により、検出されるテロップ領域の大きさが変化したり、テロップを検出できずにシーンが途切れてしまう問題がある。特に、映像を意味的なシーン分割するための重要なテロップは画面の隅に長時間表示されることが多いが、このようなテロップは、目立たないように色が薄かったり、半透明であったり、小さい文字で表示されたりするため、安定して検出することができない。

上述したように、従来技術では長時間表示される目立たないテロップが安定的に検出できないため、これらのテロップの出現区間に基づいてシーンを分割すると過剰に分割されたり、分割できずに精度が低下するという問題があった。

本発明は、上記の問題点を解決するためになされたものであって、映像を意味のあるシーンへ精度よく分割することが可能な、映像分割装置、テロップ抽出装置、方法およびプログラムを提供することを目的とする。

上述の課題を解決するため、本発明の映像分割装置は、複数の映像フレームが時刻順に複数配置されている時空間画像を格納する格納手段と、前記時空間画像の時間軸に平行な面での切断面に相当するスライス画像に含まれる時間軸に平行な線分を少なくとも１つ抽出する抽出手段と、前記線分の時間方向の区間に基づいて、前記時空間画像を複数のシーンに分割する分割手段と、を具備することを特徴とする。

本発明のテロップ抽出装置は、複数の映像フレームが時刻順に配置されている時空間画像を格納する格納手段と、前記時空間画像の時間軸に平行な面での切断面に相当するスライス画像に含まれる、時間軸に平行な線分を少なくとも１つ抽出する抽出手段と、抽出された線分間の距離が閾値以下である場合にはこれら線分をテロップ領域として統合する統合手段と、を具備することを特徴とする。

本発明の映像分割装置、テロップ抽出装置、方法およびプログラムによれば、映像を意味のあるシーンへ精度よく分割することが可能になる。

以下、図面を参照しながら本発明の実施形態に係る映像分割装置、テロップ抽出装置、方法およびプログラムについて詳細に説明する。
本発明の本実施形態の映像分割装置、テロップ抽出装置、方法およびプログラムは、画面上で文字または画像が合成された映像データのフレームを時刻順に時空間画像として蓄積し、時空間画像を時間軸に平行な面で切断したスライス画像から時間軸に平行な線分を抽出し、抽出された線分の区間あるいは統合された領域に基づいて、前記映像をシーンに分割、あるいは、前記映像に含まれるテロップを抽出する。なお、ここでテロップとは文字に限らず、画面上に合成された文字または画像を差す。文字を含まない画像だけのロゴマークのようなものもテロップと呼ぶこととする。また、シーンとは、開始時刻と終了時刻とで指定される複数の映像フレームを含む映像である。

本実施形態では、テロップの出現区間を時空間画像内での線分として検出することにより、映像の意味的なシーンへの分割を可能とする。また、線分の領域を統合することで、テロップの領域を抽出する。本実施形態によれば、背景の色が変化したり、テロップが半透明であったり、小さいテロップであったりするような映像に対しても、テロップの出現区間を安定して検出することにより、精度の高いシーンの分割やテロップ領域の抽出が可能となる。

（第１の実施形態）
本実施形態に係る映像分割装置について図１を参照して説明する。
本実施形態の映像分割装置は、時空間画像蓄積部１０１、線分検出部１０２、シーン分割部１０３を備えている。
時空間画像蓄積部１０１は、映像に含まれている複数の映像フレーム１００を入力し、複数の映像フレーム１００を１つの時空間画像として蓄積する。時空間画像蓄積部１０１は、複数の時空間画像を蓄積することができる。時空間画像蓄積部１０１は、例えば、メモリを有していてメモリに、映像フレーム、時空間画像を蓄積する。時空間画像蓄積部１０１の詳細は後に図１４、図１５、図１６、図１７を参照して説明する。

線分検出部１０２は、時空間画像蓄積部１０１に蓄積されている、少なくとも１つの時空間画像から線分を検出する。線分検出部１０２の詳細は後に図２、図３、図５から図９Ｂ、図１２Ａ、図１２Ｂを参照して説明する。

シーン分割部１０３は、線分検出部１０２で検出された線分に基づいて映像をシーンに分割し、シーン情報１０４を出力する。シーン分割部１０３の詳細は、後に図４Ａ、図４Ｂ、図１０、図１１、図１８、図１９Ａ、図１９Ｂ、図２０、図２１Ａ、図２１Ｂ、図２２、図２３を参照して説明する。

次に、図１の映像分割装置の動作について図２を参照して説明する。以下、既に説明した装置部分と同様なものは同一の番号を付してその説明を省略する。
まず、時空間画像蓄積部１０１は１枚の映像フレームをメモリに読み込む（ステップＳ２０１）。このとき、時空間画像蓄積部１０１は、過去に読み込んだ映像フレームを既に蓄積している場合は、映像フレームが時間順に並ぶように蓄積する。このステップＳ２０１の処理を、全映像フレームを読み込み終わるか、メモリが一杯になるまで繰り返す（ステップＳ２０２）。メモリが一杯になった場合には、時空間画像蓄積部１０１は線分検出部１０２に途中までの時空間画像を出力し、その後途中からの時空間画像を時空間画像蓄積部１０１から取得後、線分検出部１０２でそれらの時空間画像を合成して１つの時空間画像を得る。

次に、線分検出部１０２は、１つの時空間画像から複数のスライス画像を生成し、複数の線分を検出する（ステップＳ２０３）。スライス画像については後に図３を参照して説明する。線分検出部１０２は、例えば、シーンの開始時刻から終了時刻までの区間時刻情報と、シーンの開始位置から終了位置までの区間位置情報とを含む区間情報（または線分情報と呼ばれる）を検出することになる。終了位置ステップＳ２０２においてメモリが一杯になったために、未処理の映像フレームが残っている場合はステップＳ２０１に戻り、全映像フレームを処理するまで繰り返す（ステップＳ２０４）。

次に、シーン分割部１０３は、線分検出部１０２で検出された線分の区間情報を基にして映像をシーンに分割する（ステップＳ２０５）。シーン分割部１０３は、例えば、区間の開始時刻にシーンの開始を示すチャプタ点を設定する。チャプタ点の設定は区間の開始時刻そのものではなくて、その前後にずらした時刻を用いてもよい。例えば、開始時刻より一定の時刻、早い時刻をチャプタ点としたり、最寄りのカット点（編集などにより映像が不連続となる箇所）としたりする。
次に、時空間画像とスライス画像の関係について図３を参照して説明する。
３００は時空間画像を表しており、奥行き方向を時間軸として、時間順に並べられた映像フレームの集合である。すなわち、時空間画像は、時刻の小さい映像フレームから順に時間軸の対応する時刻上に映像フレームを並べた、複数の映像フレームからなる集合である。映像フレーム３０１は、時空間画像に含まれる１枚の映像フレームを抜き出したものを示す。
線分検出部１０２は時空間画像３００を時間軸に平行な１つ以上の面で切断する。面は水平な面（ｙ＝一定）でもよいし、垂直な面（ｘ＝一定）でもよいし、斜めの面でもよいし、曲面であってもよい。線分検出部１０２は、最初、時空間画像を曲面で切断し、テロップが存在しそうな位置を探り、その次ぎに、探った位置近辺を切断するような面で時空間画像を切断してもよい。また、テロップは通常、画面の端近辺に存在することが多いので、端近辺を切断するような面で時空間画像を切断することが望ましい。
切断面が複数あるときは複数のスライス画像が生成される。ｙを１ずつずらしながら水平な面で切断すれば、画像の高さと同じ数のスライス画像が生成される。図３では、例として、ｙ＝ｓ_１、ｓ_２、ｓ_３の３箇所の面で切断して３つのスライス画像を得ている。スライス画像３０２はｙ＝ｓ_３のスライス画像である。３０３のようなテロップを含む面で切断したスライス画像には、テロップと背景とのエッジ部分が３０４のような複数の線分の集合として現れる。線分検出部１０２はこれらの線分を検出する。検出方法については後に図５から図９Ｂを参照して説明する。

次に、図１のシーン分割部１０３が行う、テレビ番組のシーン分割例について図４Ａ、図４Ｂを参照して説明する。
映像フレーム４００では画面内にテロップ４０１やテロップ４０２が表示されている。図４Ａでは、格闘技番組を例にテロップ４０１が対戦カードを示すテロップを示し、テロップ４０２が試合時間を示すテロップを示している。図４Ｂに示すように、横軸を時間軸として、映像中のテロップの出現時間について、テロップ４０１が表示区間４０３、テロップ４０２が表示区間４０４であったとする。この表示区間４０４の開始時刻に黒丸で示すチャプタ点４０５を設定し、映像をシーンに分割すると、例えば、４０６のようなシーンの一覧表示が可能となる。チャプタ点４０５を設定することがシーン分割に対応する。このシーンは対戦カードが切り替わる時刻やラウンド開始後の試合時間が表示される時刻に設定されるため、単純な画面の切り替わりなどから得られるカット点と異なり、意味的なシーンとして分割することができる。

次に、図２のステップＳ２０３での線分の検出方法について図５、図６、図７Ａ、図７Ｂ、図８Ａ、図８Ｂ、図９Ａ、図９Ｂを参照して説明する。画像から線分を検出するには様々な方法があるが、ここではその一例を示す。
図５の線分５００は、図３のスライス画像３０２における線分集合３０４のうちの一本の線分付近を拡大した図である。５０１は注目画素５０２（太線内）を中心にした一部の画素の配置を示す。以下、注目画素５０２が線分の一部であるか否かを判定する方法について図６、図７Ａ、図７Ｂ、図８Ａ、図８Ｂ、図９Ａ、図９Ｂを参照して説明する。

まず、線分検出部１０２が、注目画素が一定以上の輝度であるか判定する（ステップＳ６０１）。これはテロップが背景に対して輝度が高い場合が多いためである。一定以上の輝度である場合はステップＳ６０２へ進む。そうでない場合は線分ではないとして処理を終了する。

次に、注目画素が時間軸方向に連続した色成分であるかを判定する（ステップＳ６０２）。図７Ａのように、注目画素と、注目画素と同じ時間軸上にある別の画素との距離をｄ_１とし、「ｄ_１＜閾値」を満たす場合、注目画素が時間軸方向に連続した色成分であると判定できる。ここでの距離には色や輝度などの特徴量の距離を用いる。色の距離としては、例えば、ＲＧＢ値またはＨＳＶ値のユークリッド距離がある。Ｈは色相、Ｓは彩度、Ｖは輝度を示す。また、別の方法として、図７Ｂのように注目画素の近傍のＮ個の画素との距離の平均＜ｄ_１＞＝Σｄ_１／Ｎを求め、「＜ｄ_１＞＜閾値」を満たす場合に注目画素が時間軸方向に連続した色成分であると判定してもよい。このＮは予め決定しておく。以後同様。注目画素が時間軸方向に連続した色成分である場合はステップＳ６０４へ進む。そうでない場合は線分ではないとして処理を終了する。

次に、注目画素のエッジの強度が一定以上であるかを判定する（ステップＳ６０４）。図８Ａのように、注目画素と、時間軸に直交する向きに隣接する画素との距離をｄ_２とし、「ｄ_２＞閾値」を満たす場合、注目画素のエッジの強度が一定以上であると判定する。また、別の方法として、図８Ｂに示すように、注目画素の近傍のＮ個の隣接画素の組の距離の平均＜ｄ_２＞＝Σｄ_２／Ｎを求め、「＜ｄ_２＞＞閾値」を満たす場合に注目画素のエッジの強度が一定以上であると判定してもよい。注目画素のエッジの強度が一定以上である場合は線分であるとして処理を終了する。そうでない場合は線分ではないとして処理を終了する。

次に、半透明の線分の検出を可能にするため、注目画素のエッジの強度から隣接画素の色成分を差し引いた差分が時間方向に連続しているかを判定する（ステップＳ６０３）。注目画素のエッジの強度から隣接画素の色成分を差し引いた差分が時間方向に連続していると判定された場合にはステップＳ６０４に進み、連続していないと判定された場合には線分ではないとして処理を終了する。図８Ａと同様に、注目画素と隣接する画素との組の距離色成分ごとの差分を求め、図９Ａのように時間軸方向に隣接する別の組との距離差分の差分距離ｄ_３を求める。「ｄ_３＜閾値」を満たす場合、注目画素のエッジの強度から隣接画素の色成分を差し引いた差分が時間方向に連続していると判定する。また、別の方法として、図９Ｂのように注目画素の近傍のＮ個の組との距離差分の差分距離の平均＜ｄ_３＞＝ Σｄ_３／Ｎを求め、「＜ｄ_３＞＜閾値」を満たす場合に注目画素のエッジの強度から隣接画素の色成分を差し引いた差分が時間方向に連続していると判定してもよい。

図６のフローチャートはあくまで一例を示したものであり、ステップＳ６０１〜Ｓ６０４の処理は必ずしもすべてが必要なわけではなく、一部の処理だけを含んだり、順番が入れ替わったり、他の処理を含んだフローを用いて判定してもよい。他の処理としては分断された微小な領域を結合したり除去するための線分の拡張や閾値処理なども含まれる。
線分の拡張は、図６のフローチャートの後の処理であり、例えば、注目画素の周りの９画素について５個以上が線分であるかどうかを判定する。５個以上が線分である場合にはその注目画素も線分に含まれ、５個以上が線分でない場合には注目画素は線分に含まれないとして、線分の拡張を行う。線分の閾値処理は、注目画素を他の線分と結合したり、注目画素を消去することである。例えば、注目画素が２つの線分の間に挟まれている場合には、２つの線分を１つの線分に結合して、その注目画素を新たな線分に含める。また、例えば、注目画素が線分から所定の距離以上離れている場合には、その線分を消去する。

次に、図１のシーン分割部１０３について図１０を参照して説明する。図１０はシーン分割部１０３の詳細な構成を示すブロック図である。
シーン分割部１０３は、線分統合部１００１、区間長判定部１００２、シーン決定部１００３を含んでいる。
線分統合部１００１は、線分検出部１０２によって得られた線分情報１０００を入力し、複数の線分を統合する。区間長判定部１００２は線分の区間長を判定する。シーン決定部１００３は、線分からチャプタ点を決定して、シーン情報８０４を出力するチャプタ点決定部８０３とを備えている。

次に、シーン分割部１０３の詳細な動作について図１１を参照して説明する。図１１はシーン分割部の動作を示すフローチャートである。
まず、線分統合部１００１が、線分ｉの時間方向の開始点と終了点との区間と、区間が重なる線分ｊを探索する（ステップＳ１１０１）。ただし、線分の総数をＮとし、ｉ，ｊ＝１，…，Ｎとする。区間が重なる線分ｊが存在する場合は、ステップＳ１１０２へ進む。そのような区間が存在しない場合はステップＳ１１０５へ進む。

線分統合部１００１が、線分ｉと区間が重なる線分ｊの距離が閾値以下であるかを判定する（ステップＳ１１０２）。ここでの距離には時空間画像内での線分ｉ及び線分ｊの空間的な距離を用い、時空間画像内で近傍に存在する場合に距離が小さくなる。例えば、画素数で距離を数える。また、色情報などを距離として用いてよい。これらの距離が閾値以下である場合はステップＳ１１０３へ進む。異なる場合はステップＳ１１０１へ戻り、次の線分ｊを探索する。

線分統合部１００１が、線分ｊの時空間画像における領域を線分ｉの領域に統合する（ステップＳ１１０３）。ここで言う領域とは、ｘ、ｙ、ｔ座標からなる３次元的な領域である。次に、ステップＳ１１０１へ戻り、次の線分ｊを探索する。次の線分ｊが存在しない場合は、ステップＳ１１０５へ進む。

線分統合部１００１が、あるスライス画像中の全てのｉ＝１，…，Ｎの線分ｉについて、処理が終了した場合はステップＳ１１０６へ進む（ステップＳ１１０５）。この処理が終了していない場合はｉを更新し（ステップＳ１１０４）、ステップＳ１１０１へ戻って処理を繰り返す。ここまでが、線分統合部１００１における処理であり、時空間画像内で一定の密度で存在している線分が統合される。

次に、区間長判定部１００２が、統合された線分の領域の時間方向の区間長が一定値（閾値）に満たない場合に、この線分を削除する（ステップＳ１１０６）。区間長には、例えば、統合された線分の領域の時間軸方向の最大値−最小値を用いる。

次に、シーン決定部１００３が、統合された線分の区間に基づきシーンを決定する（ステップＳ１１０７）。例えば、区間の開始時刻と区間の終了時刻との間を決定する。シーンの設定は区間の開始時刻、区間の終了時刻そのものからではなく、その時刻の前後にずらした時刻を使用して決定されてもよい。また、シーンではなく、チャプタ点を設定する場合もある。この場合は、例えば、区間の開始時刻にシーンの開始を示すチャプタ点を設定する。チャプタ点の設定は区間の開始時刻そのものではなくて、その前後にずらした時刻を用いてもよい。例えば、開始時刻より一定の時刻、早い時刻をチャプタ点としたり、最寄のカット点（編集などにより映像が不連続となる箇所）としたりする。

次に、線分が存在する否かの判定結果の信頼性が区間によって異なることがあり、その信頼性を考慮する場合の線分検出部１０２とシーン決定部１００３に取って代わるブロックについて図１２Ａ、図１２Ｂを参照して説明する。
図１の線分検出部１０２は、図１２Ａに示す１２０１のブロックに変更される。ブロック１２０１は、線分検出部１０２と評価値計算部１２０３を含んでいる。評価値計算部１２０３は、区間の評価値を計算する。評価値計算部１２０３は、画素ごとに評価値を計算する。評価値計算部１２０３は、例えば、時空間画像蓄積部１０１に蓄積されている時空間画像のあるスライス画像に含まれている画素ごとに評価値を計算する。評価値は、線分が存在するか否かの判定結果の信頼性を示し、評価値が低いほどこの判定結果の信頼性が低いことを示す。この評価値は、時空間画像内では背景の条件などにより変動する場合がある。信頼性が低くなる原因の例としては、テロップと背景の色や輝度が類似している場合が挙げられる。

図１０のシーン決定部１００３は、図１２Ｂに示す１２０２のブロックに変更される。ブロック１２０２は、シーン決定部１００３とシーン訂正部１２０４を含んでいる。シーン訂正部１２０４は、評価値計算部１２０３の計算結果のうち、評価値がある閾値よりも低い低信頼性区間にシーンの開始点またはシーンの終了点が付加されている場合には付加されている開始点または終了点を取除く。

次に、低信頼性区間が存在する場合の処理について図１３を参照して説明する。
評価値計算部１２０３が、区間１３０１が低信頼性区間であると計算したとし、線分検出部１０２がこの区間での線分１３０２の検出に失敗し、線分が２つの区間に分かれたとする。このように線分の途中に低信頼性区間が存在する場合は、シーン訂正部１２０４は、チャプタ点を高信頼性区間での線分の開始点１３０３だけに設定し、点１３０４には設定しない。この処理によって過剰な分割を抑制できる。このようなブロック１２０１、１２０２を用いることで、同じ区間に存在する線分情報を統合し、統合された線分の領域からカット点を決定することができる。

他の方法としては、シーン決定部１００３でシーンを決定する際に、低信頼性の区間に含まれている位置、もしくは、低信頼性の区間の近傍には、開始点および終了点を設定しないようにしてもよい。

次に、時空間画像蓄積部１０１が、映像フレームをそのまま入力するのではなく、時間的、空間的にサンプリングし、間引いたデータを入力することでメモリを削減する方法について図１４を参照して説明する。図２の動作では、映像フレーム１００をそのまま時空間画像蓄積部１０１に入力し、時空間画像を構成していた。このため、時空間画像蓄積部１０１は大量のメモリを必要としてしまう。
まず、時空間画像蓄積部１０１が映像を時間的にサンプリングする方法について説明する。最も簡単に時間的にサンプリングするには、一定の間隔で元映像から入力フレームを取り出せばよく、映像の形式を問わず有効である。

具体例として、ＭＰＥＧ−１やＭＰＥＧ−２等の圧縮符号化された映像を高速に時間的にサンプリングする方法について図１４を参照して説明する。
ＭＰＥＧ−１やＭＰＥＧ−２では映像データは１フレーム単位で符号化されたＩピクチャ１４０１、１４０３と他のフレームからの差分情報を符号化した、複数のＰピクチャおよびＢピクチャ１４０２から構成される。Ｉピクチャは一定の間隔で挿入され、その間にＰ、Ｂピクチャが並んでいる。そこで、時空間画像蓄積部１０１が、Ｉピクチャ１４０１、１４０３だけを抽出して入力映像フレームとすることで、時間的にサンプリングする。このように処理すれば、Ｉピクチャ１４０１、１４０３だけを復号すればよく、高速に処理できる。

次に、時空間画像蓄積部１０１が映像を時間的にサンプリングする別の方法について図１５を参照して説明する。
元映像から映像をつなぎ合わせた編集点など、映像が不連続となるカット点１５０１、１５０２を予め検出しておく。このカット点１５０１、１５０２の前後の映像だけを入力とする。時空間画像蓄積部１０１は、例えば、カット点の前後数秒の映像を入力映像フレームとして取得する。カット点の前後ではテロップの出現、消失が起きる可能性が高いので、この部分だけを処理することで、処理範囲を限定し効率よく処理できる。

次に、時空間画像蓄積部１０１が映像を空間的にサンプリングする方法について説明する。最も簡単に空間的にサンプリングするには元映像のフレームを縦方向、横方向に一定の間隔でダウンサンプリングしてサムネールを作成する。

具体例として、時空間画像蓄積部１０１がＭＰＥＧ−１やＭＰＥＧ−２等の圧縮符号化された映像を高速に空間的にサンプリングする方法について図１６を参照して説明する。
１６００はＭＰＥＧ−１やＭＰＥＧ−２の圧縮された映像フレームを表している。映像フレーム１６００はブロック１６０１のような複数の小ブロックに分割され、ブロック単位にＤＣＴを用いて色情報が周波数情報に変換されている。ＤＣＴ係数を１６０２のように左上から右下に向かって周波数成分が高くなるように配置すると、最も左上の１６０３の係数はＤＣ（直流）成分となる。このＤＣ成分はブロック１６０１の色情報の平均値と考えることができ、ＤＣ成分を１６０４のように元映像の１ブロックが１画素に対応する縮小画像を生成することができる。この方法はＤＣ成分だけを復号すればよく逆ＤＣＴが不要となるので、高速な処理が可能である。

次に、時空間画像蓄積部１０１が空間的にサンプリングする別の方法について図１７を参照して説明する。
映像フレーム４００のうち画面中央部１７０１を除く周辺部分だけを入力とする。区間開始点、区間終了点、チャプタ点の設定に用いられるテロップは長時間表示されるため邪魔にならないように画面の周辺部分に表示されることが多いので、この画面中央部１７０１だけを処理することで、効率よく処理できる。

以上に説明した時間的、空間的なサンプリング方法は単独で用いられるだけでなく、複数の手法を組み合わせて用いてもよい。このように、時間的、空間的にサンプリングされた映像フレームを入力とすることで、時空間画像蓄積部１０１はメモリの使用量を削減し、高速な処理を可能とする。

（変形例）
図４Ｂのシーンの分割例はシーン間の関係は考慮しない例である。しかし、実際の映像では大まかに分割されたシーンがさらに詳細に分割できる階層的なツリー構造を持ったり、シーンの意味によってグループにまとめたりできることが多い。
次に、図１０のシーン分割部１０３に、新たな構成を追加した、図１の変形例の映像分割装置について図１８を参照して説明する。シーン分割部１０３は、新たにシーン構成検出部１８０１を含む。シーン構成検出部１８０１は、シーン決定部１００３が決定したシーンについての情報を入力して、この情報に基づいてシーンの階層的構成やグループ構成などを検出する。

次に、図４のシーン分割例を用いて階層的なツリー構造の検出について図１９Ａ、図１９Ｂを参照して説明する。
１９０１はシーン分割によって得られたチャプタ点である。シーン構成検出部１８０１は、これを対戦カードごとのシーン１９０２と、その子ノードとなるラウンドごとシーン１９０３に再構成し、階層的なシーン構成とする。

シーン構成検出部１８０１は、テロップの表示区間の包含関係に基づいて、これらのシーンの階層関係を求める。つまり、ラウンドごとのシーンを決める試合時間のテロップの表示区間４０４が対戦カードごとのシーンを決める対戦カードのテロップの表示区間４０３に包含されている場合に子ノードとする。

次に、シーン構成検出部１８０１の動作について図２０を参照して説明する。図２０は、包含関係に基づいて、階層的なシーンを検出する動作のフローチャートである。表示区間は線分に対応するので、線分の包含関係を利用する。

まず、線分ｉの時間方向の開始点、時間方向の終了点の区間に包含される線分ｊを探索する（ステップＳ２００１）。ただし、線分の総数をＮとし、ｉ，ｊ＝１，…，Ｎとする。区間が包含される線分ｊが存在する場合は、ステップＳ２００２へ進む。存在しない場合はステップＳ２００４へ進む。
線分ｊを線分ｉの子ノードとして追加する（ステップＳ２００２）。次に、ステップＳ２００１へ戻り、次の線分ｊを探索する。次の線分ｊが存在しない場合は、ステップＳ２００４へ進む。
ステップＳ２００４で、全てのｉ＝１，…，Ｎの線分ｉについて、処理が終了した場合は処理を終了する。処理が終了していない場合はｉを更新し（ステップＳ２００３）、ステップＳ２００１へ戻って処理を繰り返す。
シーン構成検出部１８０１がこのように線分の包含関係から階層的なツリー構造を構築することで、大まかなシーンと詳細なシーンの切り替え表示などが可能になる。

次に、図４のシーン分割例を用いて、シーンのグルーピングについて図２１Ａ、図２１Ｂを参照して説明する。
１６００はシーン分割によって得られたチャプタ点である。シーン構成検出部１８０１は、これを対戦カードごとのシーン２１０１と、ラウンドごとシーン２１０２にグルーピングする。シーン構成検出部１８０１は、シーンのグルーピングを、テロップの位置や色などの特徴量の類似度に基づくクラスタリングにより行う。

次に、グルーピング結果に基づいて映像を本編とそれ以外に分ける例について図２２Ａ、図２２Ｂを参照して説明する。
映像には複数のテロップが含まれており、グルーピングによって別々のグループに分かれている。そのうち、例えばテロップ２２００を特定のテロップとし、その表示区間２２０１を本編と決定する。テロップ２２００は、例えば、放送局名である。

次に、シーン構成検出部１８０１が、シーンのグルーピングを行い、そのうちの特定のグループを本編として再生させるための処理について図２３を参照して説明する。
まず、線分の領域から特徴量を抽出し、線分の特徴量ベクトルを求める（ステップＳ２３０１）。特徴量とは画面内での表示位置や大きさ、色情報などである。
次に、各線分間の特徴量ベクトルの距離に基づいて、線分のクラスタリングを行う（ステップＳ２３０２）。ここで得られたクラスタがグループとなる。シーン構成検出部１８０１は、例えば、線分ごとに、画像フレーム内での線分の表示位置、線分の大きさ、線分の色情報の少なくともいずれかを含む特徴量を有し、この特徴量の類似度が閾値以上の線分同士を同一グループに属すると判定する。
次に、各グループが再生条件を満たすかを調べ、再生条件を満たすグループを本編として、グループに含まれる線分の区間を再生するように設定する（ステップＳ２３０３）。再生条件は、例えば、線分と同様な特徴量、具体的なテロップの形状、テロップの位置、テロップの大きさがある。例えば、放送局ごとに決まったロゴマークのようなもの（例えば、テロップ２２００）が本編だけに表示される場合、それを再生条件としてそのロゴマークが表示された区間だけを再生する。
他の再生条件の例としては、図２１Ｂのように取得した複数のシーンにおいて、シーン２１０１の２つのシーンでそれらのシーン区間の時間をそれぞれｔ_１、ｔ_２、シーン２１０２の６つのシーンでそれらのシーン区間の時間をそれぞれｔ_３、ｔ_４、ｔ_５、ｔ_６、ｔ_７、ｔ_８とすると、「ｔ_１＋ｔ_２＞ｔ_３＋ｔ_４＋ｔ_５＋ｔ_６＋ｔ_７＋ｔ_８」がある。この再生条件を満たした場合には、例えば、ｔ_１、ｔ_２を本編とする。すなわち、グルーピングの結果、最大（最長）のグループを本編とする。

このように映像を本編とそれ以外に分割し、本編だけを再生することで短時間での視聴を可能にする。
また、図２３のフローチャートではグルーピング結果から再生条件を満たすグループを検索し、そのグループだけを再生するとしたが、グルーピングをせずに全ての線分と再生条件を比較して、条件を満たす線分の区間を本編としてもよい。
次に、シーン構成検出部１８０１がグルーピング結果を使用した階層構造を修正することについて図２４を参照して説明する。
シーンの階層的な関係の構築とグルーピングとは組み合わせて用いることもできる。例えば、図２４のように階層的なツリー構造２４００が既に得られているとする。線分の包含関係に基づいて構築された場合、各階層のシーンは必ずしも同じ意味を持つとは限らない。そこで、下図の２４０１のようにグルーピング結果に基づいて、各階層のグループが同じになるようにツリーを再構成する。

次に、シーン構成検出部１８０１が行う、ＣＭ区間が含まれる映像のシーン分割について図２５を参照して説明する。この例は、入力映像にＣＭ（広告・宣伝）の区間が含まれる場合である。
ＣＭ区間２５００が存在する映像の中で、同一のシーンとする区間（例：番組のコーナー）が２５０１のように続いているとする。通常、テロップはＣＭ区間では表示されないので、検出される表示区間は２５０２のように分割され、チャプタ点２５０３、２５０４が設定される。しかし、番組をコーナー単位に分割するなど、同一のシーンとする区間１９０１に対して、１つだけチャプタ点が設定される方が望ましい場合もある。このような場合、シーン構成検出部１８０１は、ＣＭ区間情報を取得し、ＣＭ区間を挟む場合にはチャプタ点を設定しない。つまり、ＣＭ区間直後のチャプタ点２５０４は破棄する。ＣＭ区間情報は、従来から使用されているＣＭ検出技術を用いることで生成可能である。

以上に説明した第１の実施形態の映像分割装置によれば、映像からテロップの存在する区間を線分として検出し、その区間に基づいて区間区切り点（例えば、チャプタ点）を設定することによって、映像をシーンに精度よく分割することが可能となる。

なお、この映像分割装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、時空間画像蓄積部１０１、線分検出部１０２およびシーン分割部１０３は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、映像分割装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。

（第２の実施形態）
本発明の第２の実施形態に係るテロップ抽出装置について図２６を参照して説明する。
本実施形態のテロップ抽出装置は、時空間画像蓄積部１０１、線分検出部１０２、テロップ領域抽出部２６０１を備えている。テロップ領域抽出部２６０１は、線分検出部１０２で検出された線分に基づいてテロップを抽出し、テロップ領域情報２６０２を出力する。

次に、図２６のテロップ抽出装置の動作について図２７を参照して説明する。図２７は、本発明の第２の実施形態に係るテロップ抽出装置の動作を示すフローチャートである。第２の実施形態のテロップ抽出装置は第１の実施形態の映像分割装置のシーン分割部をテロップ領域抽出部に変更したものであり、該当部分以外の処理は第１の実施形態と同様である。以下、既に説明したステップと同様なものは同一の番号を付してその説明を省略する。

テロップ領域抽出部２６０１が、検出された線分の領域を統合する（ステップＳ２７０１）。ここで言う領域とはｘ、ｙ、ｔ座標からなる３次元的な領域である。時空間画像内でテロップが存在する部分は複数の線分が高い密度で存在しているので、線分間の区間の重なりや空間的な距離に基づき、これらの線分の領域を統合する。

次に、テロップ領域抽出部２６０１が、ステップＳ２７０１で統合された線分の領域に基づいて、テロップの領域を含むテロップ情報を出力する（ステップＳ２７０２）。テロップ情報は、図２８を参照して説明するように、２次元的な領域であり、テロップが存在する領域を示す。

次に、図２７のステップＳ２７０２での処理である、統合された線分の領域からテロップの領域を求める方法について図２８を参照して説明する。
ステップＳ２７０１で統合された線分の領域２８００はｘ、ｙ、ｔ空間内の３次元的な領域である。テロップ領域抽出部２６０１は、これをｘ、ｙ平面に射影し、ｘ、ｙ平面内での２次元的な領域をテロップの領域２８０１を求め、この領域を示す座標をテロップ情報とする。また、テロップ領域抽出部２６０１は、射影されたテロップ領域を囲む矩形領域２８０２を求め、これの座標をテロップ情報として出力する。

テロップ領域抽出部２６０１は、ｘ、ｙ、ｔ空間からｘ、ｙ平面に射影するとき、統合領域２８００の各ｘ、ｙ座標における時間方向の長さが一定値、あるいは統合領域全体に対する一定割合に満たない場合はｘ、ｙ平面に射影せずに無視してもよい。

以上に説明した第２の実施形態に係るテロップ抽出装置によれば、映像からテロップの存在する区間を線分として検出し、その時空間画像内での領域に基づいてテロップ領域を抽出することが可能となる。

なお、このテロップ抽出装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、時空間画像蓄積部１０１、線分検出部１０２およびテロップ領域抽出部２６０１は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、テロップ抽出装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。

また、上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の映像分割装置、テロップ抽出装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の映像分割装置、テロップ抽出装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記憶媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーションシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本願発明における記憶媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
また、記憶媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本発明における記憶媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本願発明におけるコンピュータまたは組み込みシステムは、記憶媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本願発明の実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の実施形態における機能を実現することが可能な機器、装置を総称している。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の第１の実施形態に係る映像分割装置のブロック図。図１の映像分割装置の動作の一例を示すフローチャート。時空間画像とスライス画像の関係を示す図。図１のシーン分割部が行う処理を説明するための図。図４Ａに対応するシーン分割例を示す図。図３の線分集合のうちの一本の線分付近を拡大した図。図２のステップＳ２０３の線分検出方法の一例を示すフローチャート。注目画素と、注目画素と同じ時間軸上にある別の画素との距離を示す図。注目画素の近傍のＮ個の画素との距離の平均を示す図。注目画素と、時間軸に直交する向きに隣接する画素との距離を示す図。注目画素の近傍のＮ個の隣接画素の組の距離の平均を示す図。時間軸方向に隣接する別の組との距離の差分を示す図。注目画素の近傍のＮ個の組との距離の差分の平均を示す図。図１のシーン分割部のブロック図。図１０のシーン分割部の動作の一例を示すフローチャート。図１の線分検出部が変更されるブロック図。図１のシーン決定部が変更されるブロック図。低信頼性区間が存在する場合の処理を説明するための図。圧縮符号化された映像を高速に時間的にサンプリングする方法について説明するための図。時間的にサンプリングする別の方法について説明するための図。圧縮符号化された映像を高速に空間的にサンプリングする方法について説明するための図。空間的にサンプリングする別の方法について説明するための図。図１のシーン分割部のブロック図。図１のシーン分割部が行う階層的なツリー構造を検出する処理を説明するための図。図１９Ａに対応するシーン分割例を示す図。図１８のシーン構成検出部の動作の一例を示すフローチャート。図１のシーン分割部が行うシーンのグルーピング処理を説明するための図。図２１Ａに対応するシーン分割例を示す図。図１のシーン分割部が行う映像を本編とそれ以外に分ける処理を説明するための図。図２２Ａに対応するシーン分割例を示す図。図１８のシーン構成検出部の動作を含むフローチャート。図１８のシーン構成検出部が階層構造を修正することを説明するための図。図１８のシーン構成検出部が行うＣＭ区間が含まれる映像のシーン分割処理について説明するための図。本発明の第２の実施形態に係るテロップ抽出装置のブロック図。図２６のテロップ抽出装置の動作の一例を示すフローチャート。図２７のステップＳ２７０２を説明するための図。

符号の説明

１００，３０１，４００，１６００…映像フレーム、１０１…時空間画像蓄積部、１０２…線分検出部、１０３…シーン分割部、１０４…シーン情報、３００…時空間画像、３０２…スライス画像、３０４…線分集合、４０１，４０２…テロップ、４０３，４０４，２２０１…表示区間、４０５，２５０３，２５０４…チャプタ点、５００，１３０２…線分、５０２…注目画素、８０３…チャプタ点決定部、８０４…シーン情報、１０００…線分情報、１００１…線分統合部、１００２…区間長判定部、１００３…シーン決定部、１２０１，１２０２…ブロック、１２０３…評価値計算部、１２０４…シーン訂正部、１３０１，１９０１，２５００…区間、１３０３…開始点、１４０１，１４０２…ピクチャ、１５０１…カット点、１６０１…ブロック、１７０１…画面中央部、１８０１…シーン構成検出部、１９０２，１９０３，２１０１，２１０２…シーン、２２００…テロップ、２４００…ツリー構造、２６０１…テロップ領域抽出部、２６０２…テロップ領域情報、２８００…統合領域、２８０１…テロップ領域、２８０２…矩形領域。

Claims

複数の映像フレームが時刻順に配置されている時空間画像を格納する格納手段と、
前記時空間画像の時間軸に平行な面での切断面に相当するスライス画像に含まれる、時間軸に平行な線分を少なくとも１つ抽出する抽出手段と、
前記線分の時間方向の区間に基づいて、前記時空間画像を複数のシーンに分割する分割手段と、
を具備することを特徴とする映像分割装置。
前記抽出手段は、前記線分の時間方向の区間長が閾値未満の場合は、該線分を削除することを特徴とする請求項１に記載の映像分割装置。
前記分割手段は、抽出された線分のうち線分間の距離が閾値以下であるものを一つの線分に統合する統合手段を含み、
前記分割手段は、前記統合手段で前記線分を統合してから、前記時空間画像を複数のシーンに分割する、
ことを特徴とする請求項１または請求項２に記載の映像分割装置。
前記抽出手段は、前記時空間画像のあるスライス画像に含まれている画素ごとに、線分が含まれているか否かの判定結果の信頼性を示す評価値を計算する計算手段を含み、
前記分割手段は、前記評価値が閾値よりも低い時間方向の区間では、シーンに分割しないことを特徴とする請求項１に記載の映像分割装置。
前記格納手段は、複数の前記映像フレームから時間的に間引かれた一部の映像フレームを入力することを特徴とする請求項１から請求項４のいずれか１項に記載の映像分割装置。
前記格納手段は、前記映像フレームごとに大きさを縮小して入力する、または、映像フレームごとに映像フレーム内の一部の領域だけを入力することを特徴とする請求項１から請求項４のいずれか１項に記載の映像分割装置。
前記分割手段は、線分ごとに、時間方向の第１の線分の開始点から時間方向の第１の線分の終了点までの表示区間に含まれる第２の線分を、第１の線分の階層の下の階層に属すると判定する判定手段を含むことを特徴とする請求項１から請求項６のいずれか１項に記載の映像分割装置。
前記分割手段は、線分ごとに、画像フレーム内での線分の表示位置、線分の大きさ、線分の色情報の少なくともいずれかを含む特徴量を有し、該特徴量の類似度が閾値以上の線分同士を同一グループに属する判定する判定手段を含むことを特徴とする請求項１から請求項７のいずれか１項に記載の映像分割装置。
前記分割手段は、複数の前記グループのうち、時間方向の区間が最大のグループに対応する区間を本編とし、該本編とそれ以外に分割することを特徴とする請求項８に記載の映像分割装置。
前記分割手段は、特定の文字に対応する線分または特定の画像に対応する線分が検出される時間方向の区間を本編とし、該本編とそれ以外に分割することを特徴とする請求項１から請求項６のいずれか１項に記載の映像分割装置。
複数の映像フレームが時刻順に配置されている時空間画像を格納する格納手段と、
前記時空間画像の時間軸に平行な面での切断面に相当するスライス画像に含まれる、時間軸に平行な線分を少なくとも１つ抽出する抽出手段と、
抽出された線分間の距離が閾値以下である場合にはこれら線分をテロップ領域として統合する統合手段と、
を具備することを特徴とするテロップ抽出装置。
複数の映像フレームが時刻順に配置されている時空間画像を格納する格納手段を用意し、
前記時空間画像の時間軸に平行な面での切断面に相当するスライス画像に含まれる、時間軸に平行な線分を少なくとも１つ抽出し、
前記線分の時間方向の区間に基づいて、前記時空間画像を複数のシーンに分割することを特徴とする映像分割方法。
複数の映像フレームが時刻順に配置されている時空間画像を格納する格納手段を用意し、
前記時空間画像の時間軸に平行な面での切断面に相当するスライス画像に含まれる、時間軸に平行な線分を少なくとも１つ抽出し、
抽出された線分間の距離が閾値以下である場合にはこれら線分をテロップ領域として統合することを特徴とするテロップ抽出方法。
コンピュータを、
複数の映像フレームが時刻順に配置されている時空間画像を格納する格納手段と、
前記時空間画像の時間軸に平行な面での切断面に相当するスライス画像に含まれる、時間軸に平行な線分を少なくとも１つ抽出する抽出手段と、
前記線分の時間方向の区間に基づいて、前記時空間画像を複数のシーンに分割する分割手段として機能させるための映像分割プログラム。
コンピュータを、
複数の映像フレームが時刻順に配置されている時空間画像を格納する格納手段と、
前記時空間画像の時間軸に平行な面での切断面に相当するスライス画像に含まれる時間軸に平行な線分を少なくとも１つ抽出する抽出手段と、
抽出された線分間の距離が閾値以下である場合にはこれら線分をテロップ領域として統合する統合手段として機能させるためのテロップ抽出プログラム。