JP4215681B2

JP4215681B2 - 動画像処理装置及びその方法

Info

Publication number: JP4215681B2
Application number: JP2004156809A
Authority: JP
Inventors: 恒青木
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2004-05-26
Filing date: 2004-05-26
Publication date: 2009-01-28
Anticipated expiration: 2024-05-26
Also published as: EP1600973A1; JP2005341180A; CN1703083A; US20050264703A1

Description

本発明は、動画像の内容が切り替わる画像変化点で分割された動画像である部分動画像を複数含むメタショットを生成する動画像処理装置、動画像処理方法及び動画像処理プログラムに関するものである。

高性能なパーソナルコンピュータ（ＰＣ）やハードディスクレコーダーの普及により、映像・動画像をデジタル化して保存する技術が発達してきている。この技術は、ハードウェア、ソフトウェアの形態で実現されており、また、業務用に限らず家庭用のハードウェアにおいても実現されている。

具体的には、例えばＰＣ内、またはレコーダー内のハードディスク（ＨＤＤ）に電磁的に映像を記録する。したがって、目的の番組を少ない待ち時間で再生開始できる、不要番組の限定的削除が容易であるなど、従来のビデオテープにはなかったメリットがある。このような利便性の向上により、録画などの操作をもより簡単に行うことができるようになってきている。

その一方で、大量の映像などが記録されると、所望の場面の検索が困難になるという問題が生じる。早送り機能などを用いて番組を、いわゆる「飛ばし見」することにより検索時間を短縮することでこのような問題に対処可能である。

しかし、このような「飛ばし見」は、例えば数秒に１フレームといったように番組内容の構造と無関係な物理的な単位で表示フレームを間引きするため、興味ある場面を行き過ぎてしまうという新たな問題が生じる。

このような問題を解決するために、画像処理技術を用い、動画像中の画像が切り替わる画像変化点（以下、「カット点」と称す）によって動画像を部分動画像に分割し、部分動画像（以下、「ショット」と称す）毎に飛ばし見を可能とする技術研究や製品開発がなされてきている。

上記のように生成されたショットには、再生される時間長が数秒程度と短いものが多い。このように１つのショットの時間長が極端に短い場合には、検索時間を短縮できるという効果も期待できない。

この問題を解決するために、番組中のコマーシャルとコマーシャル以外（以下、「番組本編」と称す）を自動的に区別して属性を付与したり、あるいは利用者が区別しやすいように境界を自動的に定義する手法の提案や製品開発がすでになされている（例えば、特許文献１、２、３参照）。

これらは、放送番組を録画する際にステレオ放送・音声多重放送・モノラル放送などの音声モード切り替わりを利用し、ステレオ部分をコマーシャルと自動判別するもの、あるいはコマーシャルはその始端、終端に一定時間長の無音部分があることを利用して、無音部分をコマーシャル同士またはコマーシャルと番組本編の境界として利用、提示するもの、あるいはコマーシャルは１５秒の倍数などの長さを持つことを利用し、Ｎ秒の倍数となるカット点の組み合わせをコマーシャル同士またはコマーシャルと番組本編の境界として利用、提示するものである。これにより利用者は番組本編あるいはコマーシャルを選択的に視聴することが容易になる。
特開平３−１７７１７５号公報特開平３−１８４４８３号公報特開平８−３１７３４２号公報

上記文献の方法によれば、番組本編とコマーシャルが同一の音声モード（例えばステレオ）で放送されている場合には境界が発見できなかったり、番組本編中に無音部分が存在する場合に不要な境界を定義してしまったり、番組本編中に１５秒の倍数となる間隔でカットが存在した場合に、誤ってその区間をコマーシャルと判定してしまったりするという問題点がある。

本発明は、上記問題点に鑑みてなされたものであって、より高い精度で番組本編とコマーシャルを判別できる動画像処理装置及びその方法を提供することを目的とする。

本発明は、動画像の内容が切り替わる画像変化点で分割された単一の部分動画像または複数の部分動画像の集合であるメタショットを同一の属性を有するものに分類する動画像処理装置において、動画像の内容が切り替わる画像変化点で分割された複数の部分動画像同士の類似度を計測する類似度計測手段と、前記計測した前記類似度に基づいて、互いに類似する部分動画像同士を特定する類似ショット特定手段と、前記特定された類似する部分動画像に対して同一のグループ属性を付与するグループ化手段と、前記メタショットの境界候補となりうる前記動画像内時刻の入力を外部から受け付け、この受け付けたメタショット境界候補時刻によって前記動画像を複数の区間である仮メタショットに分割するメタショット境界候補時刻入力手段と、前記分割された仮メタショットであって、かつ、同一のグループ属性が付与された部分動画像を含む仮メタショットに対して、同一の属性を付与することにより、複数の部分動画像を同一の属性を有する仮メタショット属性付与手段と、前記仮メタショット属性付与手段によって付与された属性に基づき、同一の属性を持ち、かつ、時間的に連続した複数の仮メタショットを結合して一つのメタショットとして生成するか、または、同一の属性を持つ仮メタショットが連続しない場合には単一の仮メタショットそのものを一つのメタショットとして生成するメタショット生成手段と、を備えたことを特徴とする動画像処理装置である。

本発明にかかる動画像処理装置は、上記特許文献などの方法によって仮に定義された番組本編及びコマーシャル（仮メタショット）区間に対し、類似ショットの出現傾向を用いて番組本編、またはコマーシャルいずれに属するのかという属性を付与するので、従来の手法よりも高精度で番組本編及びコマーシャルの判別が可能になるという効果を奏する。

以下に、本発明に係る動画像処理装置、動画像処理方法及び動画像処理プログラムの実施例を図面に基づいて詳細に説明する。

なお、実施例においては時間的に連続するショットの集合（または単一のショット）の総称として「メタショット」という用語を用いる。また、外部から入力したメタショットの境界候補（時刻情報）によって分割された動画像の区間を「仮メタショット」と称する。

また、実施例においては民間放送局が放送するいわゆる「コマーシャル」の他に、公共放送局や有料放送局などが放送する番組予告編やキャンペーン告知など、番組本編と直接関係のない１分程度未満のメタショットのことも「コマーシャル」という用語の定義に含める。

さらに、以下の実施例においては、一例としてメタショットの属性に「コマーシャルでない（すなわち、番組本編である）」「コマーシャルである（すなわち、番組本編ではない）」のいずれかを付与する場合の処理について説明する。

図１は、実施例１に係る動画像処理装置１０の機能構成を示すブロック図である。

動画像処理装置１０は、動画像取得部１０１と、カット検出部１０２と、ショット区間定義部１０３と、類似ショット検出部１０４と、仮メタショット属性付与部１０５と、メタショット生成部１０７と、メタショット情報出力部１０８と、メタショット境界候補時刻入力部１０９とを備えている。

（１）動画像取得部１０１
動画像取得部１０１は、例えば当該動画像処理装置１０に接続された放送番組受信機（チューナー）などを介して外部から動画像を取得する。

動画像取得部１０１は、非圧縮の動画像を取得してもよい。また、ＤＶ形式や動画像圧縮の標準形式であるＭＰＥＧ−１，２，４などのデジタルデータに変換された動画像を取得してもよい。

動画像取得部１０１は、取得した動画像をカット検出部１０２が処理するのに好適な形式に変換し、変換後の動画像をカット検出部１０２に渡す。ここで、好適な形式への変換とは、例えば圧縮（エンコード）されている動画像を伸長（デコード）する処理である。またカット検出部１０２による処理において必要十分な画像サイズに大きさを変換する処理である。

（２）カット検出部１０２
カット検出部１０２は、１枚毎に入力された画像フレームに対し、直前に入力された画像フレームとの類似度を計算し、画像の内容が切り替わる画像変化点、すなわちカット点を検出する。また、ＭＰＥＧ−２のように画像圧縮に予測符号化を用いている動画像を取得した場合には、予測符号量の変動を用いることによってカット点を検出してもよい。

なお、カット検出部１０２がカット点を検出する方法は実施例に限定されるものではなく、既に知られている様々な手法によって実現されてもよい。こうした手法は本願出願人によって出願された特許文献４（特開平９−９３５８８号公報）などにも述べられている。

（３）ショット区間定義部１０３
ショット区間定義部１０３は、カット検出部１０２によって検出された、時間的に最も近い位置に並ぶ２つのカット点に囲まれた時間区間に属する画像フレームの集合を「ショット」と定義する。例えば、再生時刻が３分１５秒２０フレームの直前にカット点が検出され、かつ３分２１秒１２フレームの直前に次のカット点が検出された場合に、３分１５秒２０フレームから３分２１秒１１フレームまでを１つのショットと定義する。ここで、再生時刻とは、映像を再生させた場合に、映像開始から所定のフレームが再生されるまでに要する時間である。

（４）類似ショット検出部１０４
類似ショット検出部１０４は、ショット区間定義部１０３が定義したショットを１単位として、類似するショットを検出する。具体的には、ショットに含まれる１または２以上のフレームを対象とするそれぞれのショットから選択する。そしてこれらのフレーム同士を比較することによって類似度を計測する。

ショット自体の類似比較については本願出願人によって出願された特許文献５（特開平９−２７０００６号公報）の方法などを用いることができる。この方法によれば、対象となる２つのフレームのそれぞれにおいて特徴量を算出する。そして、これら２つの特徴量の距離を計算する。例えば角度ヒストグラムを用いた特徴量を利用する場合には、３６次元空間における２特徴量点の距離を計算する。この距離が類似度に対応する値であって、距離の値が小さいほど類似度が高い。

ショットの類似比較の方法は前記の特許文献５に挙げた方法の他に、対象となる２つのフレームのそれぞれから顔領域を抽出し、抽出された顔領域同士の画像の類似性を比較することによっても実現できる。

また、対象となる２つのフレームそれぞれから上記同様に顔領域を抽出し、抽出された顔領域内の画像から人物を識別し、識別された人物が２つのフレームにおいて同一であるかどうかを根拠にすることによっても実現できる。

これらの方法によってカメラアングルなどや撮影場所が異なるために上記の方法では類似ショットと判定できなかったような２ショットも、「同じ出演者が出演しているショット」という理由で類似ショットに判定することができる。

なお、上記に示したのはショットの類似比較方法の例であり、本発明の動画像処理装置１０において利用することのできる類似ショット検出方法は上記の例に限定されるものではない。

こうして計測した類似度が予め定められた値以上である場合に、これら２つのショットを互いに類似するショットとして検出する。このように、ショット同士の類似度に基づいて類似ショットを検出する。

なお、類似ショット検出部１０４は、１つの動画像に含まれる１つのショットに対して、当該動画像に含まれる他の全てのショットと類似度を計測するが、他の例としては、１つのショットに対して、当該ショットと時間的に近傍にある所定の数のショットに限定して、類似度を計測してもよい。

（５）メタショット境界候補時刻入力部１０９
一方、メタショット境界候補時刻入力部１０９は当該動画像中でメタショットの境界（一例としてはコマーシャルである連続ショット群とコマーシャルではない連続ショット群の境界）の時刻情報を外部から入力する。

外部から与えられる時刻情報は、例えば以下のような方法で生成されることが想定できる。なお、第１の生成例から第３の生成例は、本明細書の「技術分野」に記載した特許文献や既出の製品などで技術的に提案、実現済みのものである。

（５−１）時刻情報の第１の生成例
第１の生成例は、放送電波に重畳される音声信号モード（ステレオ放送、音声多重放送＝二カ国語放送など、モノラル放送）の切り替わりがあった時刻が挙げられる。これはアナログ・ビデオ・テープ・レコーダーのコマーシャル検出機能としてすでに実現しているものである。

（５−２）時刻情報の第２の生成例
第２の生成例は、動画像に含まれる音声信号を観察し、一定時間（例えば０．５秒など）に渡って音声レベル（波形データの２乗）が一定値以下であった場合を「無音区間」と称すとしたときに、無音区間の開始時刻、終了時刻、または中間などの任意の時刻が挙げられる。これもデジタル・ビデオ・レコーダにおいて無音部自動分割機能として実現しているものである。

（５−３）時刻情報の第３の生成例
第３の生成例は、コマーシャルは通常１５秒、３０秒、６０秒など、規定の時間長を持っていることを利用して、上述のような方法でカット検出を行った結果、カット点が１５秒の倍数となるような組み合わせを探し出し、そのような組み合わせが見つかった場合にそれをコマーシャルと番組本編の境界、その組み合わせが囲む、時間的に短い側の時間区間をコマーシャルとしてメタショット定義する方法が挙げられる。

（５−４）時刻情報の第４の生成例
第４の生成例としては、ＭＰＥＧ−２などを用いたデジタル放送の場合、コマーシャルと番組本編で送信方式が異なる場合も想定できる。

例えば、映画などを放送する番組の場合、元々の映画はフィルムで製作されているために毎秒２４コマ（フレーム）であるが、これをテレビ放送の方式である３０フレーム（６０フィールド）に変換するために「３−２プルダウン」という方法で符号化される。この「３−２プルダウン」の存在有無をＭＰＥＧ−２映像ストリームデータ中で観察することにより、「３−２プルダウン」が行われていないコマーシャル部分と、行われている番組本編（映画）部分との境界を定義する方法が挙げられる。

（５−５）時刻情報の第５の生成例
第５の生成例は、番組途中、または番組本編とコマーシャルとの間で解像度などを切り替えることも規格上は可能である。つまり、コマーシャル部分はハイビジョンで放送し、番組本編は通常テレビの解像度で放送する、あるいはその逆、といったことも可能であるため、これら解像度などの変化点をメタショット境界候補とする方法も挙げられる。

（５−６）時刻情報の第６の生成例
第６の生成例は、動画像処理装置１０の利用者、または放送局、または、そのいずれでもない第三者が、手作業によってコマーシャルと番組本編の境界を入力してもよい。この場合、例えば作業者がテレビ画面を見ながらコマーシャルと番組本編との境界と感じたときにボタンを押して、動画像処理装置１０にメタショット境界候補時刻として入力する方法などが考えられる。

（５−７）仮メタショットの例
上記のようにしてメタショット境界候補時刻に基づいて動画像取得部１０１に入力した動画像を仮メタショットに分割した例を図２に示す。図２は実施例１に係る動画像処理装置１０の動作を説明するイメージ図である。

仮メタショット２０１〜２１３は、上記のようにメタショット境界候補時刻入力部１０９から入力された仮メタショットの定義である。図２では時間進行は左から右に流れ、左方向が番組の先頭方向、右方向が番組の終端方向である。図２の例では、無音検出によって仮メタショットが定義されたことを想定している。

仮メタショット２０３〜２０６及び２０９〜２１２は、いずれも３０秒のコマーシャルであるが、この段階では動画像処理装置１０はこの仮メタショットがコマーシャルであるかどうかの判定は行っていない。この仮メタショットがコマーシャルであるかどうかの判定は以下に説明する方法で行われる。

図２において２５１〜２５７は仮メタショット中の一部のショットを表現したものであり、類似ショット検出部１０４においてショット２５１とショット２５４、ショット２５２とショット２５３、ショット２５５とショット２５６とショット２５７はそれぞれ類似ショットであると判定され、それぞれ同一のグループ属性が付与されたものとする。つまり、ショット２５１とショット２５４がショットパターン「Ａ」、ショット２５２とショット２５３がショットパターン「Ｂ」、ショット２５５とショット２５６とショット２５７がショットパターン「Ｃ」などである。

（６）仮メタショット属性付与部１０５
仮メタショット属性付与部１０５は、この類似ショットのグループ属性を利用して仮メタショットに属性を付与する。

つまり、ショットパターン「Ａ」に属するショットが含まれる仮メタショット２０１と２０７にメタショットパターン「ａ」という属性をまず付与する。

次に、ショットパターン「Ｂ」に属するショットが含まれる仮メタショット２０２と２０７に同じ属性を付与しようとするが、仮メタショット２０７にはすでにメタショットパターン「ａ」の属性が付与されているので、これに倣い、仮メタショット２０２にも「ａ」の属性を付与する。

次にショットパターン「Ｃ」に属するショットが含まれる仮メタショット２０７と２０８、及び２１３に同じ属性を付与しようとするが、仮メタショット２０７にはすでに属性「ａ」が付与されているので、やはり仮メタショット２０８及び２１３にも属性「ａ」を付与する。

このようにして、図２に示した例では、仮メタショット２０１、２０２、２０７、２０８、２１３に同じメタショットパターン「ａ」が付与される。

（７）メタショット生成部１０７
メタショット生成部１０７は、上記で仮メタショット属性付与部１０５が付与した属性が同じであり、時間的に連続する仮メタショットを結合することでメタショット定義する。つまり、同じメタショットパターン「ａ」が連続する区間として仮メタショット２０１と２０２、２０７と２０８が結合される。

一方、属性が何も付与されていない仮メタショット２０３〜２０６、２０９〜２１２については、そのまま結合せずに別々のメタショットとしてもよいし、結合してもかまわない。ここでは「属性なし」をも一つの属性として結合したとすると最終的なメタショットは２０１〜２０２（属性ａ）、２０３〜２０６（属性なし）、２０７〜２０８（属性ａ）、２０９〜２１２（なし）、２１３（属性ａ）となる。

（８）メタショット情報出力部１０８
メタショット情報出力部１０８は、こうして定義されたメタショットに関する情報を出力する。

上記のようにして何らかの属性が定義されたメタショットを番組本編、それ以外の部分をコマーシャルとすることにより、無音検出のみでは番組本編の途中をも分割されてしまっていたものを再統合することが可能であるばかりでなく、コマーシャルと番組本編を区別した属性付けも実現する。

（９）属性付与の変更例
上記では番組本編部分にすべて同じ属性が付与された例を示したが、必ずしも同じ属性を持つことが番組本編の必須要件ではない。

例えば図３のような場合、仮メタショット３０１、３０２、３０７にはメタショットパターン「ａ」が、仮メタショット３０８及び３１３には「ｂ」が付与されることになるが、前々段落及び前段落で述べたように、何らかの属性が定義されたメタショットを統合することにより、上記と同様にメタショット統合及び番組本編とコマーシャルを区別した属性付けを行うことができる。

なお、このような場合でも、当然メタショットパターン「ａ」と「ｂ」を結合せずにメタショット定義することも可能である。

（１０）動画像処理の内容
図４は、動画像処理装置１０における動画像処理を示すフローチャートである。

動画像処理は、主に、ショット区間定義処理、グループ化処理及びメタショット生成処理の３つの処理を含んでいる。

（１０−１）ショット区間定義処理
まず、ショット区間定義処理が行われる。

すなわち、カット検出部１０２は、画像フレームを１フレームずつ取得する入力する（ステップＳ４０２）。

そして、カット検出部１０２は、ステップＳ４０２において取得した画像フレームの直前に取得した画像フレームと、ステップＳ４０２において取得した画像フレームとの類似度を計算し、類似度に基づいてカット点を検出する。

取得した画像フレームがカット点である場合（ステップＳ４０３，Ｙｅｓ）、ショット区間定義部１０３は、当該カット点から直前のカット点までの間をショット区間として定義する（ステップＳ４０４）。

以上ステップＳ４０２からステップＳ４０４の処理を繰り返す。映像（番組）全体についてのショット区間の定義が完了すると（ステップＳ４０１，Ｙｅｓ）、ショット区間定義処理が完了し、グループ化処理に進む。

（１０−２）グループ化処理
類似ショット検出部１０４は、所定のショットを基準ショットとして選択し、当該ショットと比較すべき対象ショットとの類似度を判定する（ステップＳ４０７）。

そして、対象ショットが基準ショットと類似していると判断した場合には（ステップＳ４０８，Ｙｅｓ）、類似ショット検出部１０４は、当該対象ショットと基準ショットに対して同一のグループを識別するラベルを付与する。すなわち、対象ショットと基準ショットとをグループ化する（ステップＳ４０９）。

以上のステップＳ４０７及びステップＳ４０８の処理を、１つの基準ショットに対する全ての対象ショットについて繰り返す。全ての対象ショットに対して処理が完了すると（ステップＳ４０６，Ｙｅｓ）、基準ショットを替えて、再度ステップＳ４０７及びステップＳ４０８の処理を繰り返す。

そして、映像全体について基準ショットと対象ショットとの類似度判定処理が完了すると（ステップＳ４０５，Ｙｅｓ）、グループ化処理が完了し、次のメタショット生成処理に進む。

（１０−３）メタショット生成処理
メタショット境界候補時刻入力部１０９は、外部からメタショットの境界候補となる時刻情報を入力する（ステップＳ４１３）。ここで入力された時刻の境界によって動画像取得部１０１に入力した動画像を分割し、その分割した区間が「仮メタショット」である。

次に仮メタショット属性付与部１０５が類似ショット検出部１０４が付与したラベル（属性）に基づいて、同じラベルを持つ類似ショットが存在する複数の仮メタショットに同一の属性ラベルを付与する（ステップＳ４１４）。

次に、メタショット生成部１０７は上記によって仮メタショットに付与された属性ラベルを用い、連続する仮メタショットであって同一の属性ラベルを持つ（あるいは、属性ラベルを持つか否か）を基準にして（ステップＳ４１１）、仮メタショットを結合し、メタショットとする（Ｓ４１２）。

以上ステップＳ４１１及びステップ４１２を繰り返す。映像全体についてメタショットの生成が完了すると（ステップＳ４１０，Ｙｅｓ）、メタショット生成処理が完了し、結果がメタショット情報出力部１０８から出力されて動画像処理が完了する。

以上のように、実施例１に係る動画像処理装置１０は、類似ショットの登場パターンに基づいて仮メタショットを結合するので、過剰に検出された仮メタショットを効率的に結合できる。また、メタショットの属性として、類似ショットを含むか（番組本編であるか）、含まないか（コマーシャルであるか）などを自動推定することも可能になる。これにより、ユーザによる所定のシーンの検索などを容易にすることができる。

（１１）動画処理の変更例
動画像処理装置１０における動画像処理は、（１）ショット区間定義処理、（２）グループ化処理、（３）メタショット生成処理の３つの処理（図４の破線で囲まれた部分）で構成されている。実施例においては、動画像に含まれる全てのショットに対して（１）ショット区間定義処理が完了した後に、（２）グループ化処理に移行した。同様に、動画像に含まれる全てのショットに対して（２）グループ化処理が完了した後に、（３）メタショット生成処理に移行した。これに代えて、他の例としては、動画像処理装置１０に一時記憶領域（図示せず）を設けることにより、映像の入力を行いながら上記３つの処理を並行して実行してもよい。

例えば、新しいカットが検出され、ショット区間が定義されるたびに、そのショット区間と過去のショット区間に対する類似ショットの判定を行い、そこまでの類似ショット判定結果及び外部から入力されたメタショット境界候補時刻情報に基づいて当座のメタショット生成を行ってもよい。このように、並列に処理を実行することにより番組録画の終了後、きわめて短い時間で処理結果を得ることができる。

（１２）動画像処理装置１０のハードウェア構成
図５は、本実施例の動画像処理装置１０のハードウェア構成を示す図である。

動画像処理装置１０は、ハードウェア構成として、動画像処理装置１０における動画像処理を実行するプログラムなどが格納されているＲＯＭ５２、ＲＯＭ５２内のプログラムに従って動画像処理装置１０の各部を制御し、動画像処理などを実行するＣＰＵ５１、ワークエリアが形成され、動画像処理装置１０の制御に必要な種々のデータが記憶されているＲＡＭ５３、ネットワークに接続して、通信を行う通信Ｉ／Ｆ５７、及び各部を接続するバス６２を備えている。

先に述べた動画像処理装置１０における動画像処理を実行する動画像処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＤＶＤなどのコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、本実施例の動画像処理プログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。

この場合には、動画像処理プログラムは、動画像処理装置１０において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。

次に、実施例２に係る動画像処理装置１０について説明する。

図６は、実施例２に係る動画像処理装置１０の機能構成を示すブロック図である。

実施例２は上記の実施例１に加えて境界候補時刻補正部１０６を備えたものであり、それ以外は実施例１及び図１と同様である。したがって、以下では実施例１と共通する部分の説明を省略し、実施例１から拡張された分についてのみ説明する。

仮メタショット属性付与部１０５によって、同一の類似ショットグループに属するショットを含むことを利用し、メタショットラベル（属性）が付与されるところまでは実施例１と同様である。

（１）仮メタショットの境界とショットの単位が不一致の発生の可能性
メタショット境界候補時刻入力部１０９から入力された時刻によって定義される仮メタショットの境界と、類似ショット検出部１０４が類似ショット検出に用いたショットの単位が異なる可能性について、図７及び図８を用いて説明する。

図７は、動画像処理装置１０において境界候補時刻補正部１０６の作用を示すためのイメージ図である。図７では例としてＭＰＥＧ−２形式の動画像データをフレーム単位で表している。縦長の長方形が一枚のフレームを意味し、時間進行は左から右である。

カット検出部１０２によるカット検出は、高さの大きい「I-picture」と呼ばれるフレームのみを用いて行われる場合がある。これは、カット検出、及び類似ショット検出をI-pictureに限定して行うことにより、計算量の軽減が計れるからである。

このようにカット検出部１０２がI-pictureごとにカット検出を行う場合、ショット区間定義部１０３が行うショット定義、及び類似ショット検出部１０４が行う類似ショット検出も当然I-pictureの間隔になる。図７の７０２は、このような場合にカット検出部１０２が定義したカット点、すなわち前後のショットの境界である。

一方、メタショット境界候補時刻入力部１０９から入力された時刻は任意の時刻をとりうる。図７の７０１はこのようにして入力されたメタショット境界候補時刻であるが、これが必ずしもカット検出部１０２が定義したカット点７０２と合致するとは限らない。

このような不一致の例は、例えばメタショット境界候補入力部１０９から入力された仮メタショットの境界が無音検出によるものであるような場合に生じうる。カメラがない場面で出演者が沈黙した場合など、映像のカット点は生じないが無音区間は生じているため、仮メタショットの境界は存在することになる。

（２）仮メタショットの再定義の説明
図７のように７０１と７０２が不一致の場合、境界候補時刻補正部１０６は次のうち予め規定された方法で仮メタショットの再定義を行う。

第１の方法は、メタショット境界候補入力部１０９から入力された仮メタショット境界のみを有効とし、カット検出部１０２が検出したカット点（境界）は破棄する方法である。この場合、図７において７０１は有効となり、７０２は破棄される。

第２の方法は、カット検出部１０２が検出したカット点のうち、メタショット境界候補入力部１０９から入力された仮メタショット境界から最も近いものを探索し、仮メタショット境界を探索結果の位置に変更する方法である。この場合、図７においては７０１は破棄され、７０２が有効となる。

第３の方法は、メタショット境界候補入力部１０９から入力された仮メタショット境界、カット検出部１０２が検出したカット点の双方を新しい仮メタショット境界とする方法である。この場合、図７においては７０１も７０２も有効となり、７０１から７０２までの間は短いショット、かつ短い仮メタショットとなる。

（３）仮メタショットの再定義の他の説明
上記の３つの方法について、図８を用いて別の視点で説明する。

図８は動画像処理装置１０において境界候補時刻補正部１０６の作用を示すためのイメージ図である。

図８においてa)の段にある長方形はショット区間定義部１０３が定義したショットを表している。一方、８０１はメタショット境界候補入力部１０９から入力された仮メタショット境界である。

上記で図７を用いて説明した３つの方法は、それぞれb)、c)、d)に相当する。このように境界候補時刻補正部１０６は仮メタショットの境界を再定義し、その結果を用いてメタショット生成部１０７はメタショットを生成する。以降は実施例１と同様である。

（４）動画像処理
図９は、動画像処理装置１０における動画像処理を示すフローチャートである。

これについても実施例１で図４を用いて説明した部分と共通・重複するステップが多いので、共通・重複する部分を割愛し、実施例１と異なる部分だけを説明する。

仮メタショット属性付与部１０５が類似ショット検出部１０４が付与したラベル（属性）に基づいて、同じラベルを持つ類似ショットが存在する複数の仮メタショットに同一の属性ラベルを付与する（ステップＳ４１４）ところまでは実施例１と同様である。

ここで境界候補時刻補正部１０６が上述のような方法を用いて仮メタショット境界を再定義する（ステップＳ４１５）。

以下、メタショット生成部１０７は上記によって仮メタショットに付与された属性ラベルを用い、連続する仮メタショットであって同一の属性ラベルを持つ（あるいは、属性ラベルを持つか否か）を基準にして（ステップＳ４１１）、仮メタショットを結合し、メタショットとする（Ｓ４１２）以降の処理は実施例１と同様である。

以上のように、実施例２に係る動画像処理装置１０は、類似ショットの登場パターンに基づいて仮メタショットを結合するので、過剰に検出された仮メタショットを効率的に結合できる。また、メタショットの属性として、類似ショットを含むか（番組本編であるか）、含まないか（コマーシャルであるか）などを自動推定することも可能になる。これにより、ユーザによる所定のシーンの検索などを容易にすることができる。

（５）動画処理の変更例
動画像処理装置１０における動画像処理は、（１）ショット区間定義処理、（２）グループ化処理、（３）メタショット生成処理の３つの処理（図４の破線で囲まれた部分）で構成されている。

実施例においては、動画像に含まれる全てのショットに対して（１）ショット区間定義処理が完了した後に、（２）グループ化処理に移行した。同様に、動画像に含まれる全てのショットに対して（２）グループ化処理が完了した後に、（３）メタショット生成処理に移行した。これに代えて、他の例としては、動画像処理装置１０に一時記憶領域（図示せず）を設けることにより、映像の入力を行いながら上記３つの処理を並行して実行してもよい。

（６）動画像処理装置１０のハードウェア構成
実施例１と同様に、図５は、動画像処理装置１０のハードウェア構成を示す図である。

次に実施例３に係る動画像処理装置１０について説明する。

本実施例の機能構成、処理フロー、機器構成は、いずれも上述の実施例１または実施例２と同様であるため省略する。

（１）誤った属性付けの可能性について
まず、実施例３が解決しようとする問題点について説明する。

図１０は、動画像処理装置１０の仮メタショット属性付与部１０５が類似ショット検出部１０４の結果を利用して仮メタショットに属性を付与する際の手順の拡張を示すイメージ図である。

図１０中の長方形はショットを、逆三角形はコマーシャル同士の境界を示している。長方形上部で曲線によって結ばれている部分はそれぞれが類似ショットであることを示している。

区間１００２、１００３、１００４はそれぞれ同じ会社のコマーシャルである。また、区間１００２と１００３は同じ製品のコマーシャルであり、中程のショットのみが異なる以外は同じカット割りになっている。

このような場合、コマーシャルの終端では会社のロゴマークなどを示す画面１００１が表示されることが多く、これらは類似ショット検出部１０４で類似ショットとして検出される。しかしながら区間１００２、１００３、１００４が外部で定義された仮メタショットであったとき、仮メタショット属性付与部１０５がこれらをそのまま利用して同じメタショットパターン（属性）を付与すると、番組本編と同様の属性付けが行われてしまう問題点がある。

また、区間１００２と１００３のように、全く同じコマーシャルが２回続けて放送されたり、一部だけが異なるシリーズ・コマーシャルの場合も、メタショットをまたぐ類似ショットが存在するために、上記と同様の問題点が発生しうる。

（２）解決方法
そこで仮メタショット属性付与部１０５は、仮メタショット間で類似ショットが存在する場合、その相対位置を計算して属性付与に用いるかどうかを判定する。

例えば、図１０のＡの類似ショットの対については、いずれも開始時刻が仮メタショットの先頭（０秒）であり、終了時刻が仮メタショットの先頭から２．５秒だったとする。このような場合、類似ショットでありながら仮メタショット中の相対的な位置が厳密に一致すると判定し、同一のメタショットパターン（属性）付与の根拠に、この類似ショットの対（Ａ）を利用しない。

具体的には、比較対象としている類似ショットの対について「仮メタショット中で先頭から計測した開始時刻が０．５秒以内の誤差で合致しており」かつ「仮メタショット中で先頭から計測した終了時刻が０．５秒以内の誤差で合致している」場合、などといった条件を用いる。この手法により、会社のロゴマークなどであるＢの類似ショット対も除外することができる。

（３）解決方法の変更例１
上記では、類似ショットをメタショットパターン（属性）付与の根拠から除外するかどうかの判定を仮メタショット先頭からの相対位置を用いて行ったが、以下のように拡張することで時間長の異なるコマーシャル中の会社ロゴなどを正しく除外することができる。

例えば、同じ会社のコマーシャルでも１５秒のものと３０秒のものが放送されることがあり、いずれもコマーシャルの終端に１秒の会社ロゴが挿入されるとする。このような場合に対応するために、上記で用いた条件に加えて、「仮メタショット中で終端から計測した開始時刻が０．５秒以内の誤差で合致しており」かつ「仮メタショット中で終端から計測した終了時刻が０．５秒以内の誤差で合致しており」場合も、類似ショットの対をメタショットパターン（属性）付与の根拠としない、などである。

（４）解決方法の変更例２
さらに、上記では対象となる類似ショットの開始時刻と終了時刻の双方が合致していることを条件としたが、単に対象となる類似ショットが「仮メタショットの先頭から開始している場合」、あるいは、対象となる類似ショットが「仮メタショットの終端で終了している場合」など、片方の条件のみを用いることにより、会社ロゴなどの類似ショット検出により複数のコマーシャルをまたいで同一のメタショットパターン（属性）が付与されるのを抑制することができる。

（５）解決方法の変更例３
加えて、同じ番組で離れた時間に同一のコマーシャルや同じ会社のコマーシャルが放送されることもあり、これらのように離れた時間のコマーシャルから類似ショットが検出されると、番組本編と同様の属性付けがなされる恐れもある。これを防ぐため、類似ショット検出部１０４に類似ショット探索範囲を規定してもよい。

例えば、「類似ショットの探索は１０分以内の範囲」という設定を予め行っておくことにより、１０分より時間的に離れた類似ショットは検出されない。すなわち、コマーシャルと次のコマーシャルの間に１０分以上の番組本編があった場合には、仮に両側のコマーシャル区間において同じコマーシャルが放送された場合でも、そもそも類似ショットが検出されず、メタショットパターン（属性）付与の根拠となるものがないために、番組本編と正しく識別できる可能性が高まる。

（６）解決方法の変更例４
また、上記では同一動画像内での類似ショット検出を例として説明してきたが、同じ番組を複数回録画した動画像を用いて上記のような処理を行ってもよい。

この場合、例えば５つのコーナーで構成されている番組であるが、それぞれのコーナータイトル画面は異なるため、１放送回のみの動画像ではコーナータイトルが類似ショットとして検出されないような場合でも、同番組の複数回録画データを用いて類似ショット検出を行えば、放送回をまたいでコーナータイトルが類似ショットとなるため、仮メタショットにメタショットパターン（属性）付与ができ、番組本編とコマーシャルとの弁別性能が高まる可能性がある。

なお、本発明は上記各実施例に限らず、その主旨を逸脱しない限り種々に変更することができる。

以上のように、本発明は、メタショットを生成するのに有用であり、特に、メタショットに属性（番組本編かコマーシャルか）を付与するのに適している。

実施例１に係る本発明の動画像処理装置の機能構成を示すブロック図である。実施例１に係る本発明の動画像処理装置の動作を説明する模式図である。実施例１に係る本発明の動画像処理装置の動作を説明する模式図である。実施例１に係る本発明の動画像処理装置における動画像処理を示すフローチャートである。実施例１に係る本発明の動画像処理装置のハードウェア構成を示す図である。実施例２に係る本発明の動画像処理装置の機能構成を示すブロック図である。実施例２に係る本発明の動画像処理装置の動作を説明する模式図である。実施例２に係る本発明の動画像処理装置の動作を説明する模式図である。実施例２に係る本発明の動画像処理装置における動画像処理を示すフローチャートである。実施例３に係る本発明の動画像処理装置の動作を説明する模式図である。

符号の説明

１０動画像処理装置
１０１動画像取得部
１０２カット検出部
１０３ショット区間定義部
１０４類似ショット検出部
１０５仮メタショット属性付与部
１０６境界候補時刻補正部
１０７メタショット生成部
１０８メタショット情報出力部
１０９メタショット境界候補時刻入力部

Claims

動画像の内容が切り替わる画像変化点で分割された単一の部分動画像または複数の部分動画像の集合であるメタショットを同一の属性を有するものに分類する動画像処理装置において、
動画像の内容が切り替わる画像変化点で分割された複数の部分動画像同士の類似度を計測する類似度計測手段と、
前記計測した前記類似度に基づいて、互いに類似する部分動画像同士を特定する類似ショット特定手段と、
前記特定された類似する部分動画像に対して同一のグループ属性を付与するグループ化手段と、
前記メタショットの境界候補となりうる前記動画像内時刻の入力を外部から受け付け、この受け付けたメタショット境界候補時刻によって前記動画像を複数の区間である仮メタショットに分割するメタショット境界候補時刻入力手段と、
前記分割された仮メタショットであって、かつ、前記同一のグループ属性が付与された部分動画像を含む仮メタショットに対して、同一の属性を付与する仮メタショット属性付与手段と、
前記仮メタショット属性付与手段によって付与された属性に基づき、同一の属性を持ち、かつ、時間的に連続した複数の仮メタショットを結合して一つのメタショットとして生成するか、または、同一の属性を持つ仮メタショットが連続しない場合には単一の仮メタショットそのものを一つのメタショットとして生成するメタショット生成手段と、
を備えたことを特徴とする動画像処理装置。
前記メタショット境界候補時刻入力手段によって入力された前記メタショット境界候補時刻と、前記動画像の内容が切り替わる画像変化点で分割された部分動画像の分割時刻との間に時間的なずれがある場合に、前記メタショット境界候補時刻、または、前記画像変化点を基準にして新たな仮メタショット境界を定義する境界候補時刻補正手段をさらに備え、
前記メタショット生成手段は、前記定義された新たな仮メタショット境界に基づいてメタショットを生成する
ことを特徴と請求項１記載の動画像処理装置。
前記メタショット境界候補時刻入力手段が受け付けるメタショット境界候補時刻は、利用者の操作によって生成された時刻情報である
ことを特徴とする請求項１または２記載の動画像処理装置。
前記メタショット境界候補時刻入力手段が受け付けるメタショット境界候補時刻は、前記動画像内で一定時間以上に渡って音声レベルが一定値以下であった時間区間の先頭または中間または終端のいずれか一つまたは複数の時刻情報である
ことを特徴とする請求項１または２記載の動画像処理装置。
前記メタショット境界候補時刻入力手段が受け付けるメタショット境界候補時刻は、前記動画像内で音声の送信形式が切り替わる時刻情報である
ことを特徴とする請求項１または２記載の動画像処理装置。
前記メタショット境界候補時刻入力手段が受け付けるメタショット境界候補時刻は、前記動画像内で動画像の送信形式が切り替わる時刻情報である
ことを特徴とする請求項１または２記載の動画像処理装置。
前記メタショット境界候補時刻入力手段が受け付けるメタショット境界候補時刻は、前記動画像の内容が切り替わる画像変化点のうち、画像変化点の間隔が一定時間であることを条件に選択された時刻情報である
ことを特徴とする請求項１または２記載の動画像処理装置。
前記仮メタショット属性付与手段は、
前記仮メタショットに同一の属性を付与する際には、同一のグループに属し、かつ、異なる仮メタショットに属す二つの部分動画像の開始時刻または終了時刻またはそれら両方について、それぞれの仮メタショット中の相対的な時刻が一致または近傍である場合には、それぞれの仮メタショットに同一の属性を付与しない
ことを特徴とする請求項１から７のいずれか一項に記載の動画像処理装置
前記類似度計測手段が類似度を計測し、前記類似ショット特定手段が類似であることを特定する対象となる部分動画像は、異なる複数の動画像の部分動画像である
ことを特徴とする請求項１から８のいずれか一項に記載の動画像処理装置。
動画像の内容が切り替わる画像変化点で分割された単一の部分動画像または複数の部分動画像の集合であるメタショットを同一の属性を有するものに分類する動画像処理方法において、
動画像から画像の内容が切り替わる画面変化点を検出するカット検出ステップと、
前記検出された画像変化点で分割された複数の部分動画像同士の類似度を計測する類似度計測ステップと、
前記計測した前記類似度に基づいて、互いに類似する部分動画像同士を特定する類似ショット特定ステップと、
前記特定された類似する部分動画像に対して同一のグループ属性を付与するグループ化ステップと、
前記メタショットの境界候補となりうる前記動画像内時刻の入力を外部から受け付け、この受け付けたメタショット境界候補時刻によって前記動画像を複数の区間である仮メタショットに分割するメタショット境界候補時刻入力ステップと、
前記分割された仮メタショットであって、かつ、同一のグループ属性が付与された部分動画像を含む仮メタショットに対して、同一の属性を付与することにより、複数の部分動画像を同一の属性を有する仮メタショットに分類する仮メタショット属性付与ステップと、
前記仮メタショット属性付与ステップにおいて付与された属性に基づき、同一の属性を持ち、かつ、時間的に連続した複数の仮メタショットを結合して一つのメタショットとして生成するか、または、同一の属性を持つ仮メタショットが連続しない場合には単一の仮メタショットそのものを一つのメタショットとして生成するメタショット生成ステップと、
を有することを特徴とする動画像処理方法。
動画像の内容が切り替わる画像変化点で分割された単一の部分動画像または複数の部分動画像の集合であるメタショットを同一の属性を有するものに分類する動画像処理方法をコンピュータによって実現するプログラムにおいて、
動画像から画像の内容が切り替わる画面変化点を検出するカット検出機能と、
前記検出された画像変化点で分割された複数の部分動画像同士の類似度を計測する類似度計測機能と、
前記計測した前記類似度に基づいて、互いに類似する部分動画像同士を特定する類似ショット特定機能と、
前記特定された類似する部分動画像に対して同一のグループ属性を付与するグループ化機能と、
前記メタショットの境界候補となりうる前記動画像内時刻の入力を外部から受け付け、この受け付けたメタショット境界候補時刻によって前記動画像を複数の区間である仮メタショットに分割するメタショット境界候補時刻入力機能と、
前記分割された仮メタショットであって、かつ、同一のグループ属性が付与された部分動画像を含む仮メタショットに対して、同一の属性を付与することにより、複数の部分動画像を同一の属性を有する仮メタショットに分類する仮メタショット属性付与機能と、
前記仮メタショット属性付与機能において付与された属性に基づき、同一の属性を持ち、かつ、時間的に連続した複数の仮メタショットを結合して一つのメタショットとして生成するか、または、同一の属性を持つ仮メタショットが連続しない場合には単一の仮メタショットそのものを一つのメタショットとして生成するメタショット生成機能と、
をコンピュータによって実現することを特徴とする動画像処理方法のプログラム。