JP2004361988A

JP2004361988A - シーン切替検出システム及びシーン切替検出プログラム、並びにシーン切替検出方法

Info

Publication number: JP2004361988A
Application number: JP2003155887A
Authority: JP
Inventors: Toshinori Nagahashi; 敏則長橋; Atsuji Nagahara; 敦示永原; Takashi Hiuga; 崇日向
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2003-05-30
Filing date: 2003-05-30
Publication date: 2004-12-24
Anticipated expiration: 2023-05-30
Also published as: JP4111065B2

Abstract

【課題】利用者の希望に添ったシーンの切り替わりを検出するのに好適なシーン切替検出システムを提供する。
【解決手段】動画像登録ＤＢ１０の動画像をフレーム単位に分割して複数の静止画像を生成し、各静止画像ごとにその静止画像から注目領域を抽出し、抽出した注目領域に基づいて各静止画像ごとにその静止画像の特徴ベクトルを生成する。そして、再生時間軸上に連続する複数の静止画像のうち再生時間軸上先頭のものを基準静止画像とし、複数の静止画像のうち基準静止画像以外の各静止画像を比較静止画像として、各比較静止画像ごとに、その比較静止画像の特徴ベクトルと基準静止画像の特徴ベクトルとのベクトル間距離を算出し、算出したベクトル間距離が所定以上となったときは、その比較静止画像の再生時点をシーンの切り替わりとして検出する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、動画像のなかからシーンの切り替わりを検出するシステムおよびプログラム、並びに方法に係り、特に、利用者の希望に添ったシーンの切り替わりを検出するのに好適なシーン切替検出システムおよびシーン切替検出プログラム、並びにシーン切替検出方法に関する。
【０００２】
【従来の技術】
従来、動画像のなかからシーンの切り替わりを検出する技術としては、例えば、特許文献１に開示されている画像データ符号化方法（以下、第１の従来例という。）、および特許文献２に開示されている映像特徴処理方法（以下、第２の従来例という。）があった。
【０００３】
第１の従来例では、端子ａは、動画の画像データを入力する。符号化部は、動画像データをフレーム単位で符号化する。符号バッファは、符号化により得られた１フレーム当たりの符号量を格納する。検出条件設定部は、端子ｂから入力される検出指定データにより指定される検出条件（差分符号量の基準値）を設定する。シーン判定部は、符号バッファから入力される現フレームの符号量と前フレームの符号量との差分を算出し、その差分値が、上記検出条件（差分符号量の基準値）以上のとき変化シーンであることを示すＣＯＳ符号とともにセレクト信号をアクティブにする。スイッチは、セレクト信号の入力により現フレームの符号データに変化シーンのフレームであることを示す符号データを付加し、出力端子ｃを介して外部に出力する。
【０００４】
これにより、動画像のシーン変化を自動的に抽出して動画像を符号化・復元することができる。
第２の従来例は、まず、原画像の各フレームＲＧＢデータを色変換し、少なくとも色相の値にする。この色相値から、色相ヒストグラムを計測し、その色相ヒストグラムから各フレームの色相代表値を選択することにより、自動的に特徴量を取り出す。この色相代表値を特徴量とする色特徴空間にその色相代表値を展開し、各フレームをそれぞれ空間内での位置として表す。そして、各フレーム間の距離を計算し、近いもの同士をクラスタリングし、各クラスタごとに分類することで、各フレームのかたまり即ち映像シーンを自動的に分類する。また、このときのクラスタリング条件パラメータによって全体映像を記述する。
【０００５】
これにより、映像から自動的に特徴量を取り出し、映像を自動的に分類することができるとともに、映像から取り出した特徴量により映像全体を記述することができる。
【０００６】
【特許文献１】
特開平６−１３３３０５号公報
【特許文献２】
特開平６−２５１１４７号公報
【０００７】
【発明が解決しようとする課題】
利用者が動画像のなかでシーンの切り替わりを認識するのは、動画像のなかで利用者が注目する箇所が大きく変化したときである。例えば、利用者が画面右下の特定画像を注目している場合に、次の瞬間、画面右下の特定画像が消え、画面中央に特定の人物画像が出現したときは、利用者の注目がその人物画像に移動する可能性が高いので、この瞬間をシーンの切り替わりとして検出すべきである。したがって、シーンの切り替わりは、利用者が注目する箇所を考慮して検出するのが望ましい。
【０００８】
しかしながら、第１の従来例にあっては、符号バッファから入力される現フレームの符号量と前フレームの符号量との差分を算出し、その差分値が検出条件以上のときシーンの切り替わりであると判定するため、利用者が注目する箇所を考慮してシーンの切り替わりを検出していない。したがって、検出結果に利用者の主観を十分に反映できず、利用者の希望に添ったシーンの切り替わりを検出しにくいという問題があった。
【０００９】
また、第２の従来例にあっては、各フレーム間の距離を計算し、近いもの同士をクラスタリングし、各クラスタごとに分類することで、各フレームのかたまり即ち映像シーンを自動的に分類するため、利用者が注目する箇所を考慮してシーンの切り替わりを検出していない。したがって、検出結果に利用者の主観を十分に反映できず、利用者の希望に添ったシーンの切り替わりを検出しにくいという問題があった。
【００１０】
そこで、本発明は、このような従来の技術の有する未解決の課題に着目してなされたものであって、利用者の希望に添ったシーンの切り替わりを検出するのに好適なシーン切替検出システムおよびシーン切替検出プログラム、並びにシーン切替検出方法を提供することを目的としている。
【００１１】
【課題を解決するための手段】
〔発明１〕
上記目的を達成するために、発明１のシーン切替検出システムは、
動画像のなかからシーンの切り替わりを検出するシステムであって、
前記動画像をその再生時間軸上に区分して構成した複数の静止画像のそれぞれについて、当該静止画像から注目領域を抽出し、抽出した注目領域に基づいて当該静止画像の特徴を示す特徴ベクトルを生成し、
生成した特徴ベクトルに基づいて、前記動画像のなかからシーンの切り替わりを検出するようになっていることを特徴とする。
【００１２】
このような構成であれば、動画像をその再生時間軸上に区分して構成した複数の静止画像のそれぞれについて、その静止画像から注目領域が抽出され、抽出された注目領域に基づいてその静止画像の特徴を示す特徴ベクトルが生成される。そして、生成された特徴ベクトルに基づいて、動画像のなかからシーンの切り替わりが検出される。
【００１３】
これにより、利用者が注目する箇所を考慮してシーンの切り替わりが検出されるので、利用者の主観が検出結果に反映しやすくなる。したがって、従来に比して、利用者の希望に比較的添ったシーンの切り替わりを検出することができるという効果が得られる。
ここで、注目領域とは、静止画像のなかで利用者が注目すると思われる領域をいう。以下、発明２のシーン切替検出システム、発明６のシーン切替検出プログラム、および発明７のシーン切替検出方法において同じである。
【００１４】
また、本システムは、単一の装置、端末その他の機器として実現するようにしてもよいし、複数の装置、端末その他の機器を通信可能に接続したネットワークシステムとして実現するようにしてもよい。後者の場合、各構成要素は、それぞれ通信可能に接続されていれば、複数の機器等のうちいずれに属していてもよい。以下、発明２のシーン切替検出システムにおいて同じである。
〔発明２〕
さらに、発明２のシーン切替検出システムは、
動画像のなかからシーンの切り替わりを検出するシステムであって、
前記動画像を記憶するための動画像記憶手段と、前記動画像記憶手段の動画像をその再生時間軸上に区分して複数の静止画像を構成する静止画像構成手段と、前記静止画像構成手段で構成した各静止画像ごとに当該静止画像から注目領域を抽出する注目領域抽出手段と、前記注目領域抽出手段で抽出した注目領域に基づいて前記各静止画像ごとに当該静止画像の特徴を示す特徴ベクトルを生成する特徴ベクトル生成手段と、前記特徴ベクトル生成手段で生成した特徴ベクトルに基づいて前記動画像のなかからシーンの切り替わりを検出するシーン切替検出手段とを備えることを特徴とする。
【００１５】
このような構成であれば、静止画像構成手段により、動画像記憶手段の動画像がその再生時間軸上に区分されて複数の静止画像が構成される。次いで、各静止画像ごとに、注目領域抽出手段により、その静止画像から注目領域が抽出され、特徴ベクトル生成手段により、抽出された注目領域に基づいてその静止画像の特徴を示す特徴ベクトルが生成される。そして、シーン切替検出手段により、生成された特徴ベクトルに基づいて動画像のなかからシーンの切り替わりが検出される。
【００１６】
これにより、利用者が注目する箇所を考慮してシーンの切り替わりが検出されるので、利用者の主観が検出結果に反映しやすくなる。したがって、従来に比して、利用者の希望に比較的添ったシーンの切り替わりを検出することができるという効果が得られる。
ここで、注目領域抽出手段は、各静止画像ごとにその静止画像から注目領域を抽出するようになっていればよい。例えば、各静止画像ごとに、その静止画像に基づいて誘目度を算出し、算出した誘目度に基づいて注目領域を抽出することができる。以下、発明６のシーン切替検出プログラムにおいて同じである。
【００１７】
また、静止画像構成手段は、動画像記憶手段の動画像をその再生時間軸上に区分して複数の静止画像を構成するようになっていればどのような構成であってもよく、例えば、動画像が連続した映像データまたは映像信号からなる場合は、映像データまたは映像信号に基づいて表示される映像を所定時間ごとにキャプチャして複数の静止画像を生成するようになっていてもよいし、動画像がフレーム単位の静止画像を複数集合したものからなる場合は、動画像をフレーム単位に分割して複数の静止画像を生成・抽出するようになっていてもよい。静止画像の構成には、静止画像の生成、抽出および組立が含まれる。以下、発明６のシーン切替検出プログラムにおいて同じである。
【００１８】
また、動画像記憶手段は、動画像をあらゆる手段でかつあらゆる時期に記憶するものであり、動画像をあらかじめ記憶してあるものであってもよいし、動画像をあらかじめ記憶することなく、本システムの動作時に外部からの入力等によって動画像を記憶するようになっていてもよい。
〔発明３〕
さらに、発明３のシーン切替検出システムは、発明２のシーン切替検出システムにおいて、
前記シーン切替検出手段は、前記再生時間軸上に連続する複数の静止画像のうち前記再生時間軸上先頭のものを基準静止画像とし、前記複数の静止画像のうち前記基準静止画像以外の各静止画像を比較静止画像として、前記各比較静止画像ごとに、当該比較静止画像の特徴ベクトルと前記基準静止画像の特徴ベクトルとのベクトル間距離を算出し、算出したベクトル間距離が所定以上となったときは、当該比較静止画像の再生時点またはその近傍をシーンの切り替わりとして検出するようになっていることを特徴とする。
【００１９】
このような構成であれば、シーン切替検出手段により、各比較静止画像ごとに、その比較静止画像の特徴ベクトルと基準静止画像の特徴ベクトルとのベクトル間距離が算出され、算出されたベクトル間距離が所定以上となると、その比較静止画像の再生時点がシーンの切り替わりとして検出される。
静止画像の特徴ベクトル同士のベクトル間距離は、それら静止画像の注目領域の変化の大きさに比例するので、ベクトル間距離が所定以上となる点をシーンの切り替わりとして検出すれば、利用者が注目する箇所が大きく変化したところをシーンの切り替わりとして検出することができる。したがって、利用者の希望にさらに添ったシーンの切り替わりを検出することができるという効果も得られる。
【００２０】
ここで、比較静止画像の再生時点またはその近傍とは、該当の比較静止画像の再生時点、該当の比較静止画像の再生時間軸上前の静止画像の再生時点、または該当の比較静止画像および前の静止画像の再生時点の間を含むものである。
〔発明４〕
さらに、発明４のシーン切替検出システムは、発明２および３のいずれかのシーン切替検出システムにおいて、
さらに、前記各静止画像ごとに当該静止画像に含まれる人物画像の顔情報を判定する顔情報判定手段を備え、
前記特徴ベクトル生成手段は、前記顔情報判定手段で判定した顔情報に基づいて、前記各静止画像ごとに、当該静止画像の特徴を示す特徴ベクトルを生成するようになっていることを特徴とする。
【００２１】
このような構成であれば、各静止画像ごとに、顔情報判定手段により、その静止画像に含まれる人物画像の顔情報が判定され、特徴ベクトル生成手段により、判定された顔情報に基づいて、その静止画像の特徴を示す特徴ベクトルが生成される。
これにより、人物画像の顔情報を考慮してシーンの切り替わりが検出されるので、静止画像に含まれる人物画像の顔を考慮した検出結果を得ることができるという効果も得られる。
〔発明５〕
さらに、発明５のシーン切替検出システムは、発明２ないし４のいずれかのシーン切替検出システムにおいて、
さらに、前記各静止画像ごとに当該静止画像に含まれる人物画像の顔と特定画像に含まれる人物画像の顔との類似度を判定する類似度判定手段を備え、
前記特徴ベクトル生成手段は、前記類似度判定手段の判定結果に基づいて、前記各静止画像ごとに、当該静止画像の特徴を示す特徴ベクトルを生成するようになっていることを特徴とする。
【００２２】
このような構成であれば、各静止画像ごとに、類似度判定手段により、その静止画像に含まれる人物画像の顔と特定画像に含まれる人物画像の顔との類似度が判定され、特徴ベクトル生成手段により、その判定結果に基づいて、その静止画像の特徴を示す特徴ベクトルが生成される。
これにより、人物画像の顔同士の類似度を考慮してシーンの切り替わりが検出されるので、特定画像に含まれる人物画像の顔に類似する人物画像が含まれているところをシーンの切り替わりとして検出することができるという効果も得られる。
〔発明６〕
一方、上記目的を達成するために、発明６のシーン切替検出プログラムは、
動画像のなかからシーンの切り替わりを検出するプログラムであって、
前記動画像を記憶するための動画像記憶手段を利用可能なコンピュータに対して、
前記動画像記憶手段の動画像をその再生時間軸上に区分して複数の静止画像を構成する静止画像構成手段、前記静止画像構成手段で構成した各静止画像ごとに当該静止画像から注目領域を抽出する注目領域抽出手段、前記注目領域抽出手段で抽出した注目領域に基づいて前記各静止画像ごとに当該静止画像の特徴を示す特徴ベクトルを生成する特徴ベクトル生成手段、および前記特徴ベクトル生成手段で生成した特徴ベクトルに基づいて前記動画像のなかからシーンの切り替わりを検出するシーン切替検出手段として実現される処理を実行させるためのプログラムであることを特徴とする。
【００２３】
このような構成であれば、コンピュータによってプログラムが読み取られ、読み取られたプログラムに従ってコンピュータが処理を実行すると、発明２のシーン切替検出システムと同等の作用および効果が得られる。
〔発明７〕
一方、上記目的を達成するために、発明７のシーン切替検出方法は、
動画像のなかからシーンの切り替わりを検出する方法であって、
前記動画像をその再生時間軸上に区分して複数の静止画像を構成する静止画像構成ステップと、
前記静止画像から注目領域を抽出する注目領域抽出ステップと、
前記注目領域抽出ステップで抽出した注目領域に基づいて前記静止画像の特徴を示す特徴ベクトルを生成する特徴ベクトル生成ステップと、
前記静止画像構成ステップで構成した各静止画像ごとに前記注目領域抽出ステップおよび前記特徴ベクトル生成ステップを繰り返し行う繰返ステップと、
前記特徴ベクトル生成ステップで生成した特徴ベクトルに基づいて前記動画像のなかからシーンの切り替わりを検出するシーン切替検出ステップとを含むことを特徴とする。
【００２４】
これにより、発明２のシーン切替検出システムと同等の効果が得られる。
ここで、注目領域抽出ステップは、各静止画像ごとにその静止画像から注目領域を抽出すればよい。例えば、各静止画像ごとに、その静止画像に基づいて誘目度を算出し、算出した誘目度に基づいて注目領域を抽出することができる。
また、静止画像構成ステップは、動画像をその再生時間軸上に区分して複数の静止画像を構成すればどのような方法であってもよく、例えば、動画像が連続した映像データまたは映像信号からなる場合は、映像データまたは映像信号に基づいて表示される映像を所定時間ごとにキャプチャして複数の静止画像を生成してもよいし、動画像がフレーム単位の静止画像を複数集合したものからなる場合は、動画像をフレーム単位に分割して複数の静止画像を生成・抽出してもよい。静止画像の構成には、静止画像の生成、抽出および組立が含まれる。
【００２５】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照しながら説明する。図１ないし図７は、本発明に係るシーン切替検出システムおよびシーン切替検出プログラム、並びにシーン切替検出方法の実施の形態を示す図である。
本実施の形態は、本発明に係るシーン切替検出システムおよびシーン切替検出プログラム、並びにシーン切替検出方法を、利用者が注目する箇所を考慮して動画像のなかからシーン切り替わりを検出する場合について適用したものである。
【００２６】
本実施の形態では、画像のなかで利用者が注目すると思われる箇所（以下、注目領域という。）の抽出基準として「誘目度」という概念を用いる。誘目度の算出方法は、例えば、「特開２００１−１２６０７０号公報（注目領域抽出装置およびそれを用いた自動構図決定装置）に詳細に開示されている。
誘目度について簡単に説明する。
【００２７】
注目領域の抽出のために、原画像の物理的特徴に従って誘目度を評価する。ここで、誘目度とは、人間の主観に合ったパラメータをいう。注目領域の抽出は、評価結果から一番目立つ領域を注目領域として抽出する。つまり、注目領域の評価の際は、物理的特徴に従って人間の主観に合った評価をするので、人間の主観に適合した注目領域を抽出することができる。
【００２８】
例えば、物理的特徴が色の異質度を含む場合、各領域の色の違いに基づいて誘目度を評価することができる。
また、物理的特徴が、色の異質度に加えて、形の異質度、面積の異質度およびテクスチャ（模様）の異質度をさらに含むので、この４つの異質度の少なくとも１つの異質度に基づいて誘目度を評価すれば、原画像の特徴に応じて的確に誘目度を評価することができる。
【００２９】
また、色の３要素（色相、彩度、明度）についても評価する場合であれば、人間の主観による目立つ色（赤色）に近い領域を最も目立つ領域と評価することができる。
さらに、空間周波数や原画像における各領域の面積についても評価すれば、最も目立つ領域の評価をさらに的確に判定することができる。
【００３０】
また、誘目度の評価は、以下の手順により行う。
（１）最初に原画像を領域分割する。この場合、原画像を図領域と絵領域に分割する。領域分割の方法には、１９９７ＩＥＥＥにおいてＷ．Ｙ．ＭａやＢ．Ｓ．Ｍａｎｊｕｎａｔｈらが「ＥｄｇｅＦｌｏｗ：ＡＦｒａｍｅｗｏｒｋｏｆＢｏｕｎｄａｒｙＤｅｔｅｃｔｉｏｎａｎｄＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎ」に記載した”ｅｄｇｅｆｌｏｗ”に基づく境界検出方法が適用される。
（２）次に、分割した図領域を抽出し、領域の誘目度を評価する。
【００３１】
誘目度の評価は、概略以下のようにして行う。
最初に、各領域の異質性誘目度を求める。この場合、色の異質度、テクスチャの異質度、形の異質度および面積の異質度を各々求め、それぞれに重み係数を付与して線形結合し、各領域の異質性誘目度を求める。
次に、各領域における特徴誘目度を求める。この場合、色の誘目度、空間周波数の誘目度、面積の誘目度を求め、それぞれに重み係数を付与して線形結合し、各領域の特徴誘目度を求める。
【００３２】
次に、各領域の異質性誘目度と特徴誘目度を加算し、特徴量統合値を求め、特徴量統合値を所定のベータ関数により評価して、誘目度を算出する。
（３）また、原画像から誘目度を評価したパターン図を生成する。
次に、本発明に係るシーン切替検出装置１００の構成を図１を参照しながら説明する。
【００３３】
図１は、本発明に係るシーン切替検出装置１００の構成を示す機能ブロック図である。
シーン切替検出装置１００は、図１に示すように、動画像を登録した動画像登録データベース（以下、データベースのことを単にＤＢと略記する。）１０と、動画像登録ＤＢ１０の動画像をフレーム単位に分割して複数の静止画像を生成する静止画像生成部１４と、静止画像生成部１４で生成した静止画像から注目領域を抽出する注目領域抽出部１６と、静止画像生成部１４で生成した静止画像に含まれる人物画像の顔情報および類似度を判定する顔画像処理部１８とを有して構成されている。さらに、注目領域抽出部１６で抽出した注目領域および顔画像処理部１８の判定結果に基づいて静止画像の特徴を示す特徴ベクトルを生成する特徴ベクトル生成部２０と、シーン切替の検出条件を入力する検出条件入力部２２と、検出条件入力部２２で入力した検出条件および特徴ベクトル生成部２０で生成した特徴ベクトルに基づいて動画像のなかからシーンの切り替わりを検出するシーン切替検出部２４とを有して構成されている。さらに、シーン切替検出部２４の検出結果に基づいてシーンの切り替わり時点を特定するためのシーン切替情報を生成するシーン切替情報生成部２６と、シーン切替部の静止画像を表示する静止画像表示部２８と、シーン切替部の静止画像を印刷する静止画像印刷部３０と、シーン切替部から動画像を再生する動画像再生部３２とを有して構成されている。
【００３４】
顔画像処理部１８は、静止画像生成部１４で生成した静止画像に人物画像の顔に相当する領域（以下、顔領域という。）が含まれているか否かを判定する顔領域判定部３８と、顔領域判定部３８の判定結果に基づいて静止画像に含まれる人物画像の顔の向き、大きさおよび重心位置を判定する顔情報判定部４０と、顔領域判定部３８の判定結果に基づいて静止画像に含まれる人物画像の顔と特定画像に含まれる人物画像の顔との類似度を判定する類似度判定部４２とを有して構成されている。
【００３５】
具体的に、シーン切替検出装置１００は、図２に示すように、コンピュータ２００およびこれに実行させるプログラムとして実現することができる。コンピュータ２００の構成を図２を参照しながら説明する。
図２は、コンピュータ２００の構成を示すブロック図である。
コンピュータ２００は、図２に示すように、制御プログラムに基づいて演算およびシステム全体を制御するＣＰＵ５０と、所定領域にあらかじめＣＰＵ５０の制御プログラム等を格納しているＲＯＭ５２と、ＲＯＭ５２等から読み出したデータやＣＰＵ５０の演算過程で必要な演算結果を格納するためのＲＡＭ５４と、外部装置に対してデータの入出力を媒介するＩ／Ｆ５８とで構成されており、これらは、データを転送するための信号線であるバス５９で相互にかつデータ授受可能に接続されている。
【００３６】
Ｉ／Ｆ５８には、外部装置として、動画像登録ＤＢ１０と、ヒューマンインターフェースとしてデータの入力が可能なキーボードやマウス等からなる入力装置６０と、画像信号に基づいて画面を表示する表示装置６４と、印刷データに基づいて印刷を行う印刷装置６６とが接続されている。
ＣＰＵ５０は、マイクロプロセッシングユニット（ＭＰＵ）等からなり、ＲＯＭ５２の所定領域に格納されている所定のプログラムを起動させ、そのプログラムに従って、図３のフローチャートに示すシーン切替検出処理を実行するようになっている。
【００３７】
図３は、シーン切替検出処理を示すフローチャートである。
シーン切替検出処理は、入力装置６０から検出要求の入力を受けて実行される処理であって、ＣＰＵ５０において実行されると、図３に示すように、まず、ステップＳ１００に移行するようになっている。
ステップＳ１００では、シーン切替の検出条件を入力装置６０から入力する。シーン切替の検出条件としては、シーンの切り替わりを検出する動画像の指定、シーンの切り替わりを検出する時間間隔、シーンの切り替わりを検出する長さ（再生時間）、並びに静止画像に含まれる人物画像の顔情報および類似度を特徴ベクトルの要素として含めるか否かを入力することができる。
【００３８】
次いで、ステップＳ１０２に移行して、シーン切替の検出条件として指定された動画像をフレーム単位に分割して複数の静止画像を生成し、ステップＳ１０４に移行して、生成した静止画像を動画像登録ＤＢ１０に登録し、ステップＳ１０６に移行して、動画像登録ＤＢ１０のなかから先頭の静止画像を読み出し、ステップＳ１０８に移行する。
【００３９】
ステップＳ１０８では、読み出した静止画像に基づいて誘目度を算出し、算出した誘目度に基づいて注目領域を抽出する。注目領域の抽出は、上記方法により行う。誘目度の絶対値は、静止画像に影響を受けることがあるので、すべての静止画像を等しく評価するためには、誘目度を正規化して注目領域の注目度合いを所定段階（例えば、１０段階）に区分する。以下、静止画像を構成する各画素について算出した誘目度をｅ’_ｘｙとする。ｘ，ｙは、静止画像における画素のＸ座標およびＹ座標を示す。
【００４０】
図４は、縦向きの静止画像の一例を示す図である。
図４（ａ）の例では、表示向きが縦方向となっており、右下に花の画像が配置されている。この場合、注目領域を算出すると、例えば、図４（ｂ）に示すように、花の画像のうち花の部分およびその近傍に相当する領域が最も注目度合いの高い注目領域Ａとして抽出され、花の画像のうち茎および葉の部分並びにその近傍に相当する領域が２番目に注目度合いの高い注目領域Ｂとして抽出される。その他の領域は、注目度合いの低い領域Ｃとして抽出される。
【００４１】
図５は、横向きの静止画像の一例を示す図である。
図５（ａ）の例では、表示向きが横方向となっており、右下に花の画像が配置されている。この場合、注目領域を算出すると、例えば、図５（ｂ）に示すように、花の画像のうち花の部分およびその近傍に相当する領域が最も注目度合いの高い注目領域Ａとして抽出され、花の画像のうち茎および葉の部分並びにその近傍に相当する領域が２番目に注目度合いの高い注目領域Ｂとして抽出される。その他の領域は、注目度合いの低い領域Ｃとして抽出される。このように、図４の静止画像とほぼ同様の領域が同様の注目の度合いで抽出されることが分かる。
【００４２】
次いで、ステップＳ１１０に移行して、読み出した静止画像に顔領域が含まれているか否かを判定し、ステップＳ１１８に移行する。
ステップＳ１１８では、ステップＳ１１０の判定結果に基づいて、静止画像に含まれる人物画像の顔の向き、大きさおよび重心位置を判定する。具体的には、静止画像内に複数の顔領域が含まれていることを想定し、それらを検出顔領域群とすると、検出顔領域群の静止画像内に占める面積の総和ｆ１、検出顔領域群の静止画像内に占める面積の平均値ｆ２、検出顔領域群の静止画像内に占める面積の分散ｆ３、検出顔領域群の各顔が水平方向どれぐらい正面を向いているかの水平方向正面向度合の平均値ｆ４（−π／２〜π／２）、検出顔領域群の各顔の水平方向正面向度合の分散ｆ５、検出顔領域群の各顔が垂直方向どれぐらい正面を向いているかの垂直方向正面向度合の平均値ｆ６（−π／２〜π／２）、検出顔領域群の各顔の垂直向方向正面度合の分散ｆ７、検出顔領域群の各重心位置の平均値ｆ８、および検出顔領域群の各重心位置の分散ｆ９をそれぞれ算出する。静止画像内に１つの顔領域しか含まれていない場合は、ｆ１およびｆ２は、その顔領域の面積を、ｆ４およびｆ６は、その顔領域の水平方向正面向度合および垂直方向正面向度合をそれぞれ算出する。なお、水平方向正面向度合は、検出顔領域の顔が正面を基準として水平方向に傾いているほど小さい値となり、垂直方向正面度合は、検出顔領域の顔が正面を基準として垂直方向に傾いているほど小さい値となる。以下、特に区別する場合を除き、水平方向正面向度合および垂直方向正面向度合を総称して正面向度合という。また、顔領域の面積は、静止画像の大きさで正規化して算出する。
【００４３】
次いで、ステップＳ１２０に移行して、静止画像に含まれる人物画像の顔と特定画像に含まれる人物画像の顔との類似度を判定する。例えば、特定画像に被写体Ａ，Ｂ，Ｃの人物画像が含まれている場合、静止画像に含まれる各顔領域ごとに、被写体Ａの顔領域の顔との類似度、被写体Ｂの顔領域の顔との類似度、および被写体Ｃの顔領域の顔との類似度をそれぞれ判定する。
【００４４】
次いで、ステップＳ１２４に移行して、ステップＳ１０８で抽出した注目領域、およびステップＳ１１８，Ｓ１２０の判定結果に基づいて静止画像の特徴ベクトルＶを生成する。特徴ベクトルＶは、大別して、注目領域の誘目度に応じた第１要素群と、顔情報ｆ１〜ｆ９に応じた第２要素群と、類似度に応じた第３要素群とからなる。
【００４５】
特徴ベクトルＶの第１要素群は、静止画像を複数の領域（例えば、水平方向Ｎ個および垂直方向Ｍ個の矩形領域）に区分し、下式（１）により、各区分領域ごとにその区分領域（ｉ，ｊ）の誘目度の平均値ｅ_ｉｊを算出し、誘目度の平均値ｅ_ｉｊに基づいて決定する。区分領域（ｉ，ｊ）は、静止画像において水平方向ｉ（ｉ＝１〜Ｎ）番目でかつ垂直方向ｊ（ｊ＝１〜Ｍ）番目の領域を示す。
【００４６】
【数１】

【００４７】
上式（１）は、各区分領域を２ｓ×２ｓの画素からなる正方形の領域とした場合に、区分領域（ｉ，ｊ）の誘目度の平均値ｅ_ｉｊを算出している。上式（１）において、ｘｉは、区分領域（ｉ，ｊ）の中心点のｘ座標であり、ｘｊは、区分領域（ｉ，ｊ）の中心点のｙ座標である。
したがって、特徴ベクトルＶの第１要素群は、下式（２）により、各区分領域の誘目度の平均値ｅ_ｉｊにそれぞれ独立の係数Ｅ_ｉｊを乗算し、それらを各要素として羅列したものとなる。静止画像を水平方向Ｎ個および垂直方向Ｍ個の領域に区分した場合、特徴ベクトルＶの第１要素群は、Ｎ×Ｍ個の要素から構成される。
【００４８】
【数２】

【００４９】
特徴ベクトルＶの第２要素群は、下式（３）により、ステップＳ１１８で判定した顔情報ｆ１〜ｆ９にそれぞれ独立の係数Ｆ_１〜Ｆ_９を乗算し、それらを各要素として羅列したものとなる。
【００５０】
【数３】

【００５１】
特徴ベクトルＶの第３要素群は、下式（４）により、ステップＳ１２０で判定した類似度ｐ_ｋにそれぞれ独立の係数Ｐ_ｋを乗算し、それらを各要素として羅列したものとなる。例えば、特定画像にＫ個の人物画像が含まれている場合、静止画像に含まれる各顔領域ごとに、特定画像に含まれる顔領域ｋ（ｋ＝１〜Ｋ）の顔との類似度を算出する。このとき、顔領域ｋの顔と類似しているとき（類似度が所定値以上であるとき）は、ｐ_ｋ＝１とし、顔領域ｋの顔と類似していないとき（類似度が所定値未満であるとき）は、ｐ_ｋ＝０とする。
【００５２】
【数４】

【００５３】
以上により、特徴ベクトルＶは、下式（５）により、第１要素群、第２要素群および第３要素群の各要素を羅列したものして表される。
【００５４】
【数５】

【００５５】
次いで、ステップＳ１２６に移行して、動画像登録ＤＢ１０のすべての静止画像についてステップＳ１０８〜Ｓ１２４の処理が終了したか否かを判定し、すべての静止画像について処理が終了したと判定したとき（Ｙｅｓ）は、ステップＳ１２８に移行する。
ステップＳ１２８では、入力したシーン切替の検出条件に基づいて動画像のなかからシーンの切り替わりを検出する。具体的には、動画像の再生時間軸上に連続する複数の静止画像のうち再生時間軸上先頭のものを基準静止画像とし、複数の静止画像のうち基準静止画像以外の各静止画像を比較静止画像として、各比較静止画像ごとに、下式（６）により、その比較静止画像の特徴ベクトルと基準静止画像の特徴ベクトルとのベクトル間距離を算出し、算出したベクトル間距離が所定以上となったときは、その比較静止画像の再生時点をシーンの切り替わりとして検出する。下式（６）は、特徴ベクトルＶ_Ａと特徴ベクトルＶ_Ｂとのベクトル間距離を算出している。
Ｓ＝｜Ｖ_Ａ−Ｖ_Ｂ｜ …（６）
図６は、再生時間軸上に連続する複数の静止画像について基準静止画像からみたベクトル間距離の推移を示すグラフである。
【００５６】
図６の例では、フレーム番号「０」の静止画像を基準静止画像とし、フレーム番号「１」〜「５」の静止画像を比較静止画像として、各比較静止画像ごとに、その比較静止画像の特徴ベクトルと基準静止画像の特徴ベクトルとのベクトル間距離が示されている。ここで、比較静止画像０（比較静止画像ｎは、フレーム番号ｎの比較静止画像を示す。以下、同じ。）および基準静止画像のベクトル間距離、並びに比較静止画像１および基準静止画像のベクトル間距離がいずれも所定値（図６中、点線で示す水平線の位置）以下となり、比較静止画像３および基準静止画像のベクトル間距離、比較静止画像４および基準静止画像のベクトル間距離、並びに比較静止画像５および基準静止画像のベクトル間距離がいずれも所定値以上となっている。この場合、比較静止画像３の再生時点をシーンの切り替わりとして検出する。
【００５７】
図７は、再生時間軸上に連続する複数の静止画像について基準静止画像からみたベクトル間距離の推移を示すグラフである。
図７の例では、図６の例で比較静止画像３の再生時点をシーンの切り替わりとして検出した場合、次に、フレーム番号「３」の静止画像を基準静止画像とし、フレーム番号「４」，「５」の静止画像を比較静止画像として、各比較静止画像ごとに、その比較静止画像の特徴ベクトルと基準静止画像の特徴ベクトルとのベクトル間距離が示されている。ここで、比較静止画像４および基準静止画像のベクトル間距離、並びに比較静止画像５および基準静止画像のベクトル間距離がいずれも所定値以下となっている。この場合、比較静止画像３の再生時点から比較静止画像５の再生時点までの間には、シーンの切り替わりが存在しないことを意味している。
【００５８】
次いで、ステップＳ１３０に移行して、ステップＳ１２８の検出結果に基づいてシーン切替情報を生成し、ステップＳ１３２に移行して、生成したシーン切替情報に基づいてシーン切替部の静止画像（図６の例では、比較静止画像３）を表示装置６４に表示し、ステップＳ１３４に移行する。
ステップＳ１３４では、生成したシーン切替情報に基づいてシーン切替部の静止画像を印刷装置６６で印刷し、ステップＳ１３６に移行して、生成したシーン切替情報に基づいてシーン切替部から動画像を表示装置６４で再生し、一連の処理を終了して元の処理に復帰させる。
【００５９】
一方、ステップＳ１２６で、動画像登録ＤＢ１０のすべての静止画像についてステップＳ１０８〜Ｓ１２４の処理が終了していないと判定したとき（Ｎｏ）は、ステップＳ１３４に移行して、動画像登録ＤＢ１０のなかから次の静止画像を読み込み、ステップＳ１０８に移行する。
次に、本実施の形態の動作を説明する。
【００６０】
シーンの切り替わりを検出する場合、利用者は、検出要求を入力し、シーン切替の検出条件を入力する。シーン切替の検出条件としては、動画像の指定、検出時間間隔、検出時間、並びに顔情報および類似度を特徴ベクトルの要素として含めるか否かを入力する。
シーン切替検出装置１００では、シーン切替の検出条件が入力されると、ステップＳ１０２，Ｓ１０４を経て、指定された動画像がフレーム単位に分割されて複数の静止画像が生成され、生成された静止画像が動画像登録ＤＢ１０に登録される。次いで、ステップＳ１０６〜Ｓ１１０を経て、動画像登録ＤＢ１０のなかから先頭の静止画像が読み出され、読み出された静止画像から注目領域が抽出されるととともに静止画像に顔領域が含まれているか否かが判定される。次いで、ステップＳ１１８，Ｓ１２０を経て、ステップＳ１１０の判定結果に基づいて、静止画像に含まれる人物画像の顔の向き、大きさおよび重心位置が判定され、静止画像に含まれる人物画像の顔と特定画像に含まれる人物画像の顔との類似度が判定される。静止画像に複数の被写体の人物画像が含まれている場合は、ステップＳ１１０〜Ｓ１２０を繰り返し経て、各顔領域ごとに顔情報および類似度が判定される。
【００６１】
次いで、静止画像のすべての顔領域について顔情報および類似度が判定されると、ステップＳ１２４を経て、抽出された注目領域、並びに判定された顔情報および類似度に基づいて静止画像の特徴ベクトルＶが生成される。
このような処理が動画像登録ＤＢ１０のすべての静止画像について行われると、ステップＳ１２８を経て、動画像の再生時間軸上に連続する複数の静止画像のうち再生時間軸上先頭のものを基準静止画像とし、複数の静止画像のうち基準静止画像以外の各静止画像を比較静止画像として、各比較静止画像ごとに、その比較静止画像の特徴ベクトルと基準静止画像の特徴ベクトルとのベクトル間距離が算出される。そして、算出されたベクトル間距離が所定以上となると、その比較静止画像の再生時点がシーンの切り替わりとして検出される。
【００６２】
次いで、ステップＳ１３０〜Ｓ１３４を経て、シーン切替の検出結果に基づいてシーン切替情報が生成され、生成されたシーン切替情報に基づいて、シーン切替部の静止画像が表示されるとともに印刷される。そして、ステップＳ１３６を経て、生成されたシーン切替情報に基づいてシーン切替部から動画像が再生される。
【００６３】
このようにして、本実施の形態では、動画像登録ＤＢ１０の動画像をフレーム単位に分割して複数の静止画像を生成し、各静止画像ごとにその静止画像から注目領域を抽出し、抽出した注目領域に基づいて各静止画像ごとにその静止画像の特徴ベクトルを生成し、生成した特徴ベクトルに基づいて動画像のなかからシーンの切り替わりを検出するようになっている。
【００６４】
これにより、利用者が注目する箇所を考慮してシーンの切り替わりが検出されるので、利用者の主観が検出結果に反映しやすくなる。したがって、従来に比して、利用者の希望に比較的添ったシーンの切り替わりを検出することができる。さらに、本実施の形態では、再生時間軸上に連続する複数の静止画像のうち再生時間軸上先頭のものを基準静止画像とし、複数の静止画像のうち基準静止画像以外の各静止画像を比較静止画像として、各比較静止画像ごとに、その比較静止画像の特徴ベクトルと基準静止画像の特徴ベクトルとのベクトル間距離を算出し、算出したベクトル間距離が所定以上となったときは、その比較静止画像の再生時点をシーンの切り替わりとして検出するようになっている。
【００６５】
静止画像の特徴ベクトル同士のベクトル間距離は、それら静止画像の注目領域の変化の大きさに比例するので、ベクトル間距離が所定以上となる点をシーンの切り替わりとして検出すれば、利用者が注目する箇所が大きく変化したところをシーンの切り替わりとして検出することができる。したがって、利用者の希望にさらに添ったシーンの切り替わりを検出することができる。
【００６６】
さらに、本実施の形態では、各静止画像ごとにその静止画像に含まれる人物画像の顔の向き、大きさまたは重心位置を判定し、判定した顔の向き、大きさまたは重心位置に基づいて、各静止画像ごとに、その静止画像の特徴ベクトルを生成するようになっている。
これにより、人物画像の顔の向き、大きさまたは重心位置を考慮してシーンの切り替わりが検出されるので、静止画像に含まれる人物画像の顔を考慮した検出結果を得ることができる。
【００６７】
さらに、本実施の形態では、各静止画像ごとにその静止画像に含まれる人物画像の顔と特定画像に含まれる人物画像の顔との類似度を判定し、判定した類似度に基づいて、各静止画像ごとに、その静止画像の特徴ベクトルを生成するようになっている。
これにより、人物画像の顔同士の類似度を考慮してシーンの切り替わりが検出されるので、特定画像に含まれる人物画像の顔に類似する人物画像が含まれているところをシーンの切り替わりとして検出することができる。
【００６８】
上記実施の形態において、動画像登録ＤＢ１０は、発明２または６の動画像記憶手段に対応し、ステップＳ１０２および静止画像生成部１２は、発明２若しくは６の静止画像構成手段、または発明７の静止画像構成ステップに対応し、ステップＳ１０８および注目領域抽出部１６は、発明２若しくは６の注目領域抽出手段、または発明７の注目領域抽出ステップに対応している。また、ステップＳ１１８および顔情報判定部４０は、発明４の顔情報判定手段に対応し、ステップＳ１２０および類似度判定部４２は、発明５の類似度判定手段に対応し、ステップＳ１２４および特徴ベクトル生成部２０は、発明２、４ないし６の特徴ベクトル生成手段、または発明７の特徴ベクトル生成ステップに対応している。
【００６９】
また、上記実施の形態において、ステップＳ１２８およびシーン切替検出部２４は、発明２、３若しくは６のシーン切替検出手段、または発明７のシーン切替検出ステップに対応している。
なお、上記実施の形態においては、静止画像のアスペクト比について特に説明しなかったが、静止画像のアスペクト比が異なる場合は、次のように画像の類否を判定する。
【００７０】
図８は、アスペクト比が異なる静止画像Ａ，Ｂを重ね合わせた場合を示す図である。
アスペクト比が異なる静止画像Ａ，Ｂの類否を判定する場合は、図８に示すように、静止画像Ａ，Ｂとを重ね合わせ、静止画像Ａのうち重複領域について静止画像Ａの特徴ベクトルＶ_Ａを生成し、静止画像Ｂのうち重複領域について静止画像Ｂの特徴ベクトルＶ_Ｂを生成し、生成した特徴ベクトルＶ_Ａ，Ｖ_Ｂに基づいて静止画像Ａ，Ｂの類否を判定する。
【００７１】
この場合、さらに、重複領域が異なるように静止画像Ａ，Ｂの重ね合わせ方を変えて静止画像Ａ，Ｂを重ね合わせ、各組み合わせごとに算出した静止画像Ａの特徴ベクトルＶ_Ａｉ（ｉ＝１〜Ｎ、Ｎは組み合わせ総数）の平均値を静止画像Ａの特徴ベクトルＶ_Ａとして生成し、各組み合わせごとに算出した静止画像Ｂの特徴ベクトルＶ_Ｂｉの平均値を静止画像Ｂの特徴ベクトルＶ_Ｂとして生成してもよい。
【００７２】
これにより、アスペクト比が異なる静止画像同士であっても、比較的正確に類否を判定することができるので、利用者の希望にさらに添ったシーンの切り替わりを検出することができる。
また、上記実施の形態においては、特徴ベクトルＶの第１要素群を、上式（２）により、各区分領域の誘目度の平均値ｅ_ｉｊにそれぞれ独立の係数Ｅ_ｉｊを乗算し、それらを各要素として羅列したものとして生成するように構成したが、これに限らず、注目領域の算出に誘目度を用いる場合、分割された領域では誘目度は一定となるのでステップＳ１０８では、次のように生成することもできる。まず、静止画像のなかから誘目度の高い順にＨ個の注目領域を選択する。次いで、下式（７）により、注目領域ｈ（ｈ＝１〜Ｈ）の水平方向の中心座標ｘ_ｈに係数Ｘを乗算し、注目領域ｈの垂直方向の中心座標ｙ_ｈに係数Ｙ_ｈを乗算する。また、注目領域ｈの誘目度ｅ_ｈに係数Ｅを乗算し、注目領域ｈの面積ｓ_ｈに係数Ｓを乗算する。そして、それらＸｘ_ｈ、Ｙｙ_ｈ、Ｅｅ_ｈ、Ｓｓ_ｈを各要素として羅列したものを特徴ベクトルＶの第１要素群として生成する。
【００７３】
【数６】

【００７４】
この場合、抽出した注目領域の個数ｈが所定数（例えば、１０個）に満たない場合は、特徴ベクトルＶの第１要素群をすべて「０」とする。
また、上記実施の形態において、図３のフローチャートに示す処理を実行するにあたっては、ＲＯＭ５２にあらかじめ格納されている制御プログラムを実行する場合について説明したが、これに限らず、これらの手順を示したプログラムが記憶された記憶媒体から、そのプログラムをＲＡＭ５４に読み込んで実行するようにしてもよい。
【００７５】
ここで、記憶媒体とは、ＲＡＭ、ＲＯＭ等の半導体記憶媒体、ＦＤ、ＨＤ等の磁気記憶型記憶媒体、ＣＤ、ＣＤＶ、ＬＤ、ＤＶＤ等の光学的読取方式記憶媒体、ＭＯ等の磁気記憶型／光学的読取方式記憶媒体であって、電子的、磁気的、光学的等の読み取り方法のいかんにかかわらず、コンピュータで読み取り可能な記憶媒体であれば、あらゆる記憶媒体を含むものである。
【００７６】
また、上記実施の形態においては、本発明に係るシーン切替検出システムおよびシーン切替検出プログラム、並びにシーン切替検出方法を、利用者が注目する箇所を考慮して動画像のなかからシーン切り替わりを検出する場合について適用したが、これに限らず、本発明の主旨を逸脱しない範囲で他の場合にも適用可能である。
【図面の簡単な説明】
【図１】本発明に係るシーン切替検出装置１００の構成を示す機能ブロック図である。
【図２】コンピュータ２００の構成を示すブロック図である。
【図３】シーン切替検出処理を示すフローチャートである。
【図４】縦向きの静止画像の一例を示す図である。
【図５】横向きの静止画像の一例を示す図である。
【図６】再生時間軸上に連続する複数の静止画像について基準静止画像からみたベクトル間距離の推移を示すグラフである。
【図７】再生時間軸上に連続する複数の静止画像について基準静止画像からみたベクトル間距離の推移を示すグラフである。
【図８】アスペクト比が異なる静止画像Ａ，Ｂを重ね合わせた場合を示す図である。
【符号の説明】
１００…シーン切替検出装置，２００…コンピュータ，１０…動画像登録ＤＢ，１２…静止画像生成部，１６…注目領域抽出部，１８…顔画像処理部，２０…特徴ベクトル生成部，２２…検出条件入力部，２４…シーン切替検出部，２６…シーン切替情報生成部，２８…静止画像表示部，３０…静止画像印刷部，３２…動画像再生部，３８…顔領域判定部，４０…顔情報判定部，４２…類似度判定部，５０…ＣＰＵ，５２…ＲＯＭ，５４…ＲＡＭ，５８…Ｉ／Ｆ，６０…入力装置，６４…表示装置，６６…印刷装置

Claims

動画像のなかからシーンの切り替わりを検出するシステムであって、
前記動画像をその再生時間軸上に区分して構成した複数の静止画像のそれぞれについて、当該静止画像から注目領域を抽出し、抽出した注目領域に基づいて当該静止画像の特徴を示す特徴ベクトルを生成し、
生成した特徴ベクトルに基づいて、前記動画像のなかからシーンの切り替わりを検出するようになっていることを特徴とするシーン切替検出システム。
動画像のなかからシーンの切り替わりを検出するシステムであって、
前記動画像を記憶するための動画像記憶手段と、前記動画像記憶手段の動画像をその再生時間軸上に区分して複数の静止画像を構成する静止画像構成手段と、前記静止画像構成手段で構成した各静止画像ごとに当該静止画像から注目領域を抽出する注目領域抽出手段と、前記注目領域抽出手段で抽出した注目領域に基づいて前記各静止画像ごとに当該静止画像の特徴を示す特徴ベクトルを生成する特徴ベクトル生成手段と、前記特徴ベクトル生成手段で生成した特徴ベクトルに基づいて前記動画像のなかからシーンの切り替わりを検出するシーン切替検出手段とを備えることを特徴とするシーン切替検出システム。
請求項２において、
前記シーン切替検出手段は、前記再生時間軸上に連続する複数の静止画像のうち前記再生時間軸上先頭のものを基準静止画像とし、前記複数の静止画像のうち前記基準静止画像以外の各静止画像を比較静止画像として、前記各比較静止画像ごとに、当該比較静止画像の特徴ベクトルと前記基準静止画像の特徴ベクトルとのベクトル間距離を算出し、算出したベクトル間距離が所定以上となったときは、当該比較静止画像の再生時点又はその近傍をシーンの切り替わりとして検出するようになっていることを特徴とするシーン切替検出システム。
請求項２及び３のいずれかにおいて、
さらに、前記各静止画像ごとに当該静止画像に含まれる人物画像の顔情報を判定する顔情報判定手段を備え、
前記特徴ベクトル生成手段は、前記顔情報判定手段で判定した顔情報に基づいて、前記各静止画像ごとに、当該静止画像の特徴を示す特徴ベクトルを生成するようになっていることを特徴とするシーン切替検出システム。
請求項２乃至４のいずれかにおいて、
さらに、前記各静止画像ごとに当該静止画像に含まれる人物画像の顔と特定画像に含まれる人物画像の顔との類似度を判定する類似度判定手段を備え、
前記特徴ベクトル生成手段は、前記類似度判定手段の判定結果に基づいて、前記各静止画像ごとに、当該静止画像の特徴を示す特徴ベクトルを生成するようになっていることを特徴とするシーン切替検出システム。
動画像のなかからシーンの切り替わりを検出するプログラムであって、
前記動画像を記憶するための動画像記憶手段を利用可能なコンピュータに対して、
前記動画像記憶手段の動画像をその再生時間軸上に区分して複数の静止画像を構成する静止画像構成手段、前記静止画像構成手段で構成した各静止画像ごとに当該静止画像から注目領域を抽出する注目領域抽出手段、前記注目領域抽出手段で抽出した注目領域に基づいて前記各静止画像ごとに当該静止画像の特徴を示す特徴ベクトルを生成する特徴ベクトル生成手段、及び前記特徴ベクトル生成手段で生成した特徴ベクトルに基づいて前記動画像のなかからシーンの切り替わりを検出するシーン切替検出手段として実現される処理を実行させるためのプログラムであることを特徴とするシーン切替検出プログラム。
動画像のなかからシーンの切り替わりを検出する方法であって、
前記動画像をその再生時間軸上に区分して複数の静止画像を構成する静止画像構成ステップと、
前記静止画像から注目領域を抽出する注目領域抽出ステップと、
前記注目領域抽出ステップで抽出した注目領域に基づいて前記静止画像の特徴を示す特徴ベクトルを生成する特徴ベクトル生成ステップと、
前記静止画像構成ステップで構成した各静止画像ごとに前記注目領域抽出ステップ及び前記特徴ベクトル生成ステップを繰り返し行う繰返ステップと、
前記特徴ベクトル生成ステップで生成した特徴ベクトルに基づいて前記動画像のなかからシーンの切り替わりを検出するシーン切替検出ステップとを含むことを特徴とするシーン切替検出方法。