このように、様々な側面を持つ本発明では、映像コンテンツが対象とされている。ここに、コンテンツとは、広く、人間の創造的活動により生み出されるものである。例えば、映画、音楽、演劇、文芸、写真、漫画、アニメーション、コンピュータゲームその他の文字、図形、色彩、音声、動作若しくは映像若しくはこれらを組み合わせたもの又はこれらに係る情報を電子計算機を介して提供するためのプログラムが、コンテンツの一例である。これらのうちの主に映像を含むコンテンツを、ここでは映像コンテンツと称している。映像コンテンツは、主に静止画像を含む静止画コンテンツと、主に動画像を含む動画コンテンツをとに大別できる。以下においては、動画コンテンツに着目して説明を行っていく。
ただし、本明細書では、いわゆるコンテンツデータ、即ち、人間の創造的活動により生み出されたものが装置によって処理可能な形態とされたもの、例えば電気信号とされたものや、メモリに固定されたもの等も、特に区別せずにまとめて、コンテンツと称する。即ち、ここでは、動画像を構成する各フレーム又はフィールドのデータ等の集合体もまた、動画コンテンツと称する。
また、本発明では、動画コンテンツに対する各種画像処理をアクセスユニット単位で実行するとする。アクセスユニットとは、フレームやフィールドといった動画像の単位を指し、具体的には例えば、動画像を構成する各静止画像全体(フレーム等)またはその一部分(フィールド等)を指す。ただし、以下、説明の簡略上、動画コンテンツに対する各種画像処理はフレーム単位で実行されるとする。
また、本発明による様々な画像処理の対象となった画像の具体例が幾つか図面に示されている。しかしながら、著作権保護等の観点から、画像処理の対象となった実際の画像そのものが図面に示されている訳ではなく、適宜マスクが施された画像であったり、線図化された画像が図面に示されている。例えば、後述する図3の画像21,22とは、画像処理の対象となった実際の画像ではなく、その実際の画像のうちの、実世界の観客席の柵に対応する領域と得点表示に対応する領域が白マスクされた後の画像となっている。即ち、図3は、後述する注目領域24が検出された具体例を示しているが、図3に示される白マスクの画像21から注目領域24が検出された訳ではなく、その画像21の元の実際の画像から注目領域24が検出されていることに注意を要する。同様に、例えば後述する図4の例は、フレーム31から選手の顔41が検出されたことを示す例であるが、線図化された図4のフレーム31に対して画像処理が施されて顔41が検出されたわけではなく、実際には、図4のフレーム31の線図化前の実写データに対してかかる画像処理が施されて、顔41に対応する実写データとしての顔が検出されている。
図1は、本発明が適用される画像処理装置の機能的構成例を示している。
図1の例の画像処理装置は、注目領域抽出部11乃至ハイライト検出部15を含むように構成されている。
図2は、かかる図1の例の画像処理装置が実行する画像処理の一例を説明するフローチャートである。
ステップS1において、注目領域抽出部11は、注目領域をフレーム毎に抽出する。
ここに、注目領域とは、実世界の被写体が撮影された結果得られる静止画像(ここでは1フレーム)に含まれる領域のうちの、実世界の1以上の背景のうちの、注目すべき背景に対応する領域をいう。
例えば、ここで動画コンテンツとして、サッカーの試合の映像が利用された場合を考える。この場合、動画コンテンツの実世界の被写体は、選手等のサッカーに関連する人物や、ボール等のサッカーの試合に関連する物体であり、実世界の背景としては、サッカーの試合が行われるプレイフィールド(主に芝生が生えている場所)と、それ以外の観客席等とに大別できる。この場合、サッカーの試合であることを考慮すると、プレイフィールドが注目すべき背景となる。従って、注目領域抽出部11は、所定のフレームに含まれる領域のうちの、実世界のプレイフィールドに対応する領域(以下、プレイフィールド領域と称する)を注目領域として抽出することができる。
例えば、図3のフレーム21は、サッカーの試合の一場面の画像であって、領域23がプレイフィ−ルド領域である。注目領域抽出部11は、このプレイフィールド領域23を注目領域24として抽出する。即ち、プレイフィールド領域が注目領域24として抽出された結果として、画像22が得られている。
詳細については図12乃至図16を用いて後述するが、注目領域抽出部11は、予め学習によって得られたプレイフィールド領域の画像特徴モデル(例えば後述するHSVヒストグラムモデル)を利用して、処理の対象として注目すべきフレーム(以下、注目フレームと称する)にプレイフィールド領域が含まれているか否かを判定し、含まれていると判定した場合、そのプレイフィールド領域を注目領域として抽出する。
なお、プレイフィールド領域は、サッカー等のスポーツの映像が動画コンテンツとして採用された場合の注目領域の例示であり、その他、例えば放送局内のスタジオにて所定のセットを用いて撮影される放送番組の映像が動画コンテンツと採用された場合には、そのセットが注目背景となり、そのセットに対応する領域が注目領域として検出され得る。また例えば、音楽のコンサートの映像が動画コンテンツとして採用された場合には、そのステージが注目背景となり、そのステージに対応する領域が注目領域として検出され得る。即ち、色について特徴がある実世界の背景が撮影された結果として、後述するHSVヒストグラムが特徴的となる画像領域であれば、何れの画像領域も注目領域として検出され得る。
ステップS2において、オブジェクト特徴抽出部12は、オブジェクト特徴をフレーム毎に抽出する。
ここに、オブジェクト特徴とは、注目領域の内部または隣接する領域に存在するオブジェクトの特徴を示す画像情報をいう。また、注目領域と他の領域の境界線や2以上の境界線の交差点もまたオブジェクトとみなし、かかるオブジェクトの特徴を示す画像情報もまたオブジェクト特徴に含めるとする。画像情報とは、オブジェクトの色情報の他、オブジェクトの位置情報等を含む広義な概念である。
例えば、ここで動画コンテンツとして、サッカーの試合の映像が利用された場合を考える。この場合、プレイフィールド領域が注目領域となるので、プレイフィールド領域内に存在する人物、例えば選手等の特徴を示す画像情報が検出され得る。具体的には例えば図4の例では、フレーム31から選手の顔41がオブジェクト特徴のひとつとして検出されている。また例えば、プレイフィールド領域の内部や隣接する領域に存在する人物以外についてのオブジェクト特徴情報として、図5の例では、フレーム32からゴールゲート42が検出されている。また例えば、図6の例では、フレーム33から、コーナ位置43やボール44が検出されており、図7の例では、プレイフィールドの境界45自体も、オブジェクト特徴の1つとして検出されている。その他、図示はしないが、白線等もオブジェクト特徴の1つとして検出され得る。
なお、オブジェクト特徴の検出の詳細については、図17乃至図27を参照して後述する。
図2に戻り、ステップS3において、ショットカット検出部13は、動画コンテンツ中の各ショットカットを検出する処理(以下、ショットカット検出処理と称する)を実行する。換言すると、各ショットカット間のショットが検出されることになる。
例えば、図8の例では、サッカーの試合の映像である動画コンテンツのうちの、「Frame25302」と「Frame25303」と記述された2つのフレームの間がショットカットとして検出されている。即ち、図8において、「Frame25215」乃至「Frame25339」と記述された各画像は、そのフレーム番号を有する各フレームを示している。この場合、図8の例では、番号25215乃至25302までのフレームが第1のショットとして検出され、番号25303乃至25339までのフレームが第1のショットとは別の第2のショットとして検出されている。
なお、ショットカット検出処理の詳細については、図28,図29を参照して後述する。
図2に戻り、ステップS4において、ショット分類部14は、動画コンテンツ中の各ショットのそれぞれを、予め定義されている複数種類のうちの何れかに分類する処理(以下、ショット分類処理と称する)を実行する。
例えば、図9の例では、各画像が1つのショットを示しており、時間方向を示す矢印で示されるように、サッカーの試合の映像である動画コンテンツのうちの8つの連続するショットのそれぞれが、「Long」,「Close-up」,「Close-Up」,「Medium」,「Long」,「Medium」,「Long」,「Medium」のそれぞれに分類されている。
なお、かかる「Long」等とは如何なる種類であるのかについては、図30等を参照して後述する。また、ショット分類処理の詳細については、図31乃至図36を参照して後述する。
図2に戻り、ステップS5において、ハイライト検出部15は、例えばステップS2の処理で抽出された各オブジェクト特徴や、ステップS4の処理で分類された各ショットの種類等に基づいて、即ち、例えば各ショットに属する各フレーム間の特徴量変化や各ショット間の時系列特徴等に基づいて、動画コンテンツの中からハイライトを検出する処理(以下、かかる処理をハイライト検出処理と称する)を実行する。なお、ハイライト検出部15は、さらに、必要に応じて、そのハイライトによるダイジェスト作成を行うこともできる。
例えば、サッカーの試合の映像である動画コンテンツのうちの、コーナキックに相当する一連のシーンがハイライトして検出された場合に利用される情報の例が、図10と図11に示されている。
例えば図10は、各ショットに属する各フレーム間の特徴量変化によって、ハイライトが検出された例を示している。即ち、図10の例では、所定のショットに属する各フレーム間の特徴量(後述するフレームタイプ)が、「Upper Corner」→「Unknown」→「Goal Box」→「Goal Box」と遷移しており、かかる特徴量の遷移の仕方が、これまでに他のサッカーの試合の様々な映像で学習してきた結果(後述する図37のLayer2についての統計的モデル)から判断して、コーナキックの遷移の仕方であると認定でき、その認定結果よりハイライトとして検出されたことを意味している。なお、「Upper Corner」等の各特徴量の意味については、図42を参照して後述する。
また例えば、図11は、各ショット間の時系列特徴としてショットの種類の推移の仕方によって、ハイライトが検出された例を示している。即ち、図11の例では、各ショット種類が、「Close-up」→「Medium」→「Long Shot」→「Close-up」と推移しており、かかる各ショットの推移の仕方が、これまでに他のサッカーの試合の様々な映像で学習してきた結果(後述する図37のLayer1についての統計モデル)から判断して、コーナキックの遷移の仕方であると認定でき、その認定結果によりハイライトとして検出されたことを意味している。なお、「Long」等の各種類については、図30を参照して後述する。
この場合、図10の例または図11の例の何れか一方のみの認定結果から、コーナキックのハイライトが検出されるときもあるし、図10の例と図11の例との両者の認定結果、または、その両者の認定結果に加えてさらに他の情報も加味して総合的に判断されて、コーナキックのハイライトが検出されるときもある。
なお、ハイライト検出処理の詳細については、図37乃至図44を参照して後述する。
以下、図1の画像処理装置を構成する注目領域抽出部11乃至ハイライト検出部15のそれぞれの詳細について、その順番に個別に説明していく。その際、本発明の理解を容易なものとするために、以下、動画コンテンツの具体例を挙げる必要がある場合、図3乃至図11の例にならい、サッカーの試合の映像が採用されているとする。
はじめに、図12乃至図16を参照して、図1の画像処理装置のうちの注目領域抽出部11の詳細例について説明する。
図12は、注目領域抽出部11の機能的構成の詳細例を示している。
図12の例の注目領域抽出部11は、HSVヒストグラムモデル保持部51乃至ポストプロセシング部56を含むように構成されている。
HSVヒストグラムモデル保持部51は、注目フレームから注目領域、即ち本実施の形態ではプレイフィールド領域を検出するために用いられるHSVヒストグラムモデルを保持している。
ここで、HSVヒストグラムモデルについて説明する。
図13には、サッカーの試合の映像の一場面に対応する代表的なサンプル画像61乃至63のそれぞれについて、3D HSV(3-Dimensions Hue Saturation Value)ヒストグラムをそれぞれの1Dに射影した結果獲られるグラフ71乃至73のそれぞれが示されている。
グラフ71乃至73からわかるように、サッカーの試合の映像は、主に芝生の映像を含むプレイフィールド領域が多く含まれているため、そのHSVのヒストグラムの特徴(以下、3D HSVヒストグラム特徴と称する)には各フレーム相互に一定の関連性が存在する。
そこで、本発明人は、上述したサンプル画像61乃至63を含めて様々なサッカー試合映像から集められた数多くの画像、即ち、日中,夕方,夜といった様々な時間帯の画像や、晴れ,曇り,雨といった様々な天気での画像等の各3D HSVヒストグラム特徴を解析し、統計処理を施すことによって、次のような統計データの結果を得た。
即ち、注目されるプレイフィールド領域を含む画像でのHSVの可変範囲は、それぞれH[22, 68], S[32, 255], V[64, 175]となり、また、そのレンジ幅は最大でそれぞれH: 16, S: 128, V: 64になる、といった結果を得た。換言すると、サッカーの試合の時間帯や気候などによって、プレイフィールド領域を含む画像でのHSVの各成分の平均値はそれぞれ変わるが、各成分の分散幅のそれぞれはほぼH: 16, S: 128, V: 64の中に抑えられることが判明した。従って、このようなH,S,Vの各分散幅等のHSV特徴を利用することで、プレイフィールド領域をロバストに検出することが可能となる。
そこで本実施の形態では例えば、かかる分散範囲がHSVヒストグラムモデルとして、図12のHSVヒストグラムモデル保持部51に保持されているのである。
なお、このようなHSVヒストグラムモデルを学習で求めるためのトレーニング用サンプル画像として、例えば図14に示される画像71乃至74のように、目視でも分かるような色特徴が違う様々な画像を採用することもできる。
図12に戻り、ダウンサンプリング部52は、注目フレームに対して、解像度を低くするための第1の処理を施し、また、HSVのそれぞれの成分の解像度を8Bitから2−3Bitに圧縮するための第2の処理を施した上で、HSV成分ピーク検出部53と注目領域検出部55に提供する。なお、第1の処理とは、処理速度向上と画像内ノイズ除去を主目的に行われる処理である。また、第2の処理とは、照明変化の影響の低減による、検出処理のロバスト性の向上を主目的に行われる処理である。
HSV成分ピーク検出部53は、ダウンサンプリング部52からの注目フレームについての3D HSVヒストグラム(図13のグラフ71乃至73のようなグラフ等)を演算し、その3D HSVヒストグラムからH,S,Vの各成分のピークをそれぞれ検出し、各ピークを,H,S,Vの各中心値(各平均値)として、注目領域範囲決定部54に通知する。
注目領域範囲決定部54は、H,S,V成分の各中心値(各ピーク)のそれぞれに対して、HSVヒストグラムモデル保持部51にHSVヒストグラムモデルとして保持されている上述したH,S,Vの各分散幅をそれぞれ持たせたH,S,Vの各範囲を決定し、それを注目領域範囲として注目領域検出部55に通知する。
具体的には例えば本実施の形態では、上述したように、H成分のレンジ幅として「16」が、S成分のレンジ幅として「128」が、V成分のレンジ幅として「64」が、HSVヒストグラムモデル保持部51にHSVヒストグラムモデルとして保持されている。従って、H成分の中心値(H成分のピーク)を中心として16のレンジ幅を有するHの範囲、S成分の中心値(S成分のピーク)を中心として128のレンジ幅を有するSの範囲、および、V成分の中心値(V成分のピーク)を中心として64のレンジ幅を有するVの範囲が、注目領域範囲として決定されて、注目領域検出部55に提供される。
注目領域検出部55は、ダウンサンプリング部52からの注目フレームを構成する各画素のそれぞれを順次処理の対象として注目すべき画素(以下、注目画素)として、その注目画素に対して次のような処理を順次施していくことにより、注目領域、即ち本実施の形態ではプレイフィールド領域を検出する。
即ち、注目領域検出部55は、注目画素の各H,S,Vの成分値が、注目領域範囲決定部54から通知された注目領域範囲に含まれるか否かを判定し、含まれると判定した場合には、注目画素はプレイフィールド領域の画素であると検出する一方、含まれないと判定した場合には、注目画素はプレイフィールド領域以外の画素であると検出する。
例えば、図15の例では、画像81が注目フレームとされてプレイフィールド領域が検出された結果として、画像82が得られている。即ち、画像82のうちの黒い領域91−1が、検出されたプレイフィールド領域である。同様に、図16の例では、画像84が注目フレームとしてプレイフィールド領域が検出された結果として、画像85が得られている。即ち、画像85のうちの黒い領域92−1が、検出されたプレイフィールド領域である。
このようにして、プレイフィールド領域が検出された注目フレームは、図12の注目領域検出部55からポストプロセシング部56に提供される。
ポストプロセシング部56は、注目フレームに対して、ポストプロセシング、即ちノイズ除去のためのフィルタリング処理を施すことで、プレイフィールド領域内の直線等を除去することができる。換言すると、プレイフィールド領域内に存在する画素ではあるが、注目領域検出部55によってはプレイフィールド領域の画素ではないと判定された画素を、改めてプレイフィールド領域の画素であると判定し直す処理が、ポストプロセシング部56により実行される、と把握することもできる。
例えば、図15の例では、上述した画像82に対してポストプロセシングが施された結果として、画像83が得られている。即ち、画像83のうちの黒い領域91−2が、領域91−1から白い線や選手等が除去された後のプレイフィールド領域である。同様に、図16の例では、上述した画像85に対してポストプロセシングが施された結果として、画像86が得られている。即ち、画像86のうちの黒い領域92−2が、領域92−1から白い線や選手等が除去された後のプレイフィールド領域である。
以上説明したように、図12の注目領域抽出部11は、サッカーの試合の様々な映像を学習することによって得られる色分布特徴、即ち、HSVヒストグラムモデル保持部51に保持されているHSVヒストグラムモデルを利用して、サッカーの実世界のプレイフィールドにおける芝の色を有する画像領域、即ち、プレイフィールド領域をロバストでリアルタイムに検出することができる。これにより、サッカーの試合の自動解析を行うことが可能となる。
換言すると、上述したように、プレイフィールド領域は、サッカーの試合の映像を動画コンテンツとして採用した場合における注目領域の単なる例示であり、採用される動画コンテンツの種類に応じた注目色を多く含む画像領域を、注目領域とすることができる。従って、所定の種類の動画コンテンツから注目領域を検出した場合には、その所定の種類の動画コンテンツの様々な映像を学習することによって、その所定の種類に適したHSVヒストグラムモデルを生成して、そのHSVヒストグラムモデルをHSVヒストグラムモデル保持部51に保持させればよい。この場合も、その所定の種類の動画コンテンツが注目領域抽出部11に入力されれば、全く同様に、その所定の種類についての注目領域がロバストかつリアルタイムに検出される。これにより、所定の種類の動画コンテンツの自動解析を行うことが可能となる。
また、詳細については後述するが、注目領域が抽出されれば、その注目領域内部またはそれに接する領域でのオブジェクト特徴の抽出も容易に可能となる。これにより、スポーツ映像等の様々な種類の動画コンテンツの解析におけるメタ情報の自動付与も可能となる。
さらにまた、詳細については後述するが、注目領域内とその隣接領域でのオブジェクト特徴の抽出ができれば、映像解析における高精度なショット検出やショット分類も可能となり、最終的には、動画コンテンツ内のハイライト抽出やダイジェスト映像の自動作成も可能となる。
以上、図12乃至図16を参照して、図1の画像処理装置のうちの注目領域抽出部11の詳細例について説明した。
次に、図17乃至図27を参照して、図1の画像処理装置のうちのオブジェクト特徴抽出部12の詳細例について説明する。即ち、以下、動画コンテンツとしてサッカーの試合が採用された場合における、オブジェクト特徴抽出部12により抽出可能なオブジェクト特徴とその抽出手法について、幾つかの具体例を説明する。
図17は、注目フレームのプレイフィールド領域内部でオブジェクトが存在する場合に、そのオブジェクトの大小、即ち、プレイフィールド領域内に占めるオブジェクトの割合の大小をオブジェクト特徴として抽出する場合における、その抽出手法例を説明する図である。
ここで、注目フレームのプレイフィールド領域における、プレイフィールドに対応する画素M(i,j)を、式(1)で表すとする。
プレイフィールドに対応する画素M(i,j)とは、図12の注目領域検出部55によりプレイフィールド領域の画素であると検出された画素、即ち、ポストプロセンシング部56によるポストプロセンシングが行われて選手やボール等のオブジェクトが除去される前の画素をいう。換言すると、プレイフィールド領域を構成する画素のうちの、そのプレイフィールド領域内に存在する選手やボール等のオブジェクトを示す画素を除いた画素が、画素M(I,j)である。即ち、実世界上のプレイフィールド(芝生)の色特徴を有する画素が、画素M(I,j)である。具体的には例えば、上述した図15のプレイフィールド領域91−1や図16のプレイフィールド領域92−1のうちの黒色の画素が、画素M(I,J)に相当する。
式(1)において、HとWのそれぞれは、注目フレームの垂直方向(Y方向)と水平方向(X方向)のそれぞれのサイズを示している。
この場合、オブジェクトの大小の特徴を示す特徴量(以下、投影特徴量と称する)として、式(2)に示される垂直方向投影特徴量Ph(i)と、水平方向投影特徴量Pv(j)とのそれぞれを利用することができる。
例えば、図17には、注目フレームとして画像101が採用された場合における、垂直方向投影特徴量Ph(i)の推移を表すグラフ111−Hと、水平方向投影特徴量Pv(j)の推移を表すグラフ111−Vとが示されている。
詳細については図32等を用いて後述するが、水平方向投影特徴量Pv(j)の変化が大きく、垂直方向投影特徴量Ph(i)の変化が小さい場合、プレイフィールド領域内部に大きなオブジェクトが存在すること、即ち例えば選手等のオブジェクトが大きく写っていることを意味する。一方、水平方向投影特徴量Pv(j)の変化が小さい場合、または垂直方向投影特徴量Ph(i)の変化が大きい場合、プレイフィールド領域内部に小さなオブジェクトが存在すること、即ち例えば選手等のオブジェクトが小さく写っていることを意味する。
このように、オブジェクト特徴抽出部12は、注目フレームについて、垂直方向投影特徴量Ph(i)と水平方向投影特徴量Pv(j)とを演算し、垂直方向投影特徴量Ph(i)と水平方向投影特徴量Pv(j)との各変化の度合いに基づいて、プレイフィールド領域内部に存在するオブジェクトの大小を、オブジェクト特徴のひとつとして抽出することができる。
図18は、注目フレームのプレイフィールド領域と他の領域との境界、若しくはその境界に関する情報、例えば境界線の角度や他の境界線との交差位置をオブジェクト特徴として抽出する場合における、その抽出手法例を説明する図である。
即ち、図18には、注目フレームとして画像121が採用された場合における、黒色のプレイフィールド領域122の境界として、直線123,124が抽出された場合の例が示されている。
オブジェクト特徴抽出部12は、注目フレームのプレイフィールド領域の境界の位置を画素単位で検出する。以下、このようにして検出された境界の位置を、式(3)に示されるように、B(i)と記述する。
この場合、境界の各位置B(i)は水平方向のW画素分の各位置を示しているので、オブジェクト特徴抽出部12は、水平方向で30分割とする低解像度化処理を行い、即ち、境界の各位置B(i)の水平方向の個数を30個分に減縮して、境界の各位置B(i)における境界線の各角度A(i)、即ち、例えば各位置B(i)とその前後の各位置B(i-1),B(i+1)等とを結ぶ直線の各角度A(i)を求める。なお、低解像度化の目的は、境界に接する人物やグラフィック等の影響(ノイズ)を低減するため、即ち、境界の位置B(i)として検出された中には実際の境界ではなく人物やグラフィックスの位置が含まれている場合がありこれらを除去するためである。
その後、オブジェクト特徴抽出部12は、水平方向に30分割したうちの左側n個分(nは1乃至30の間の整数値)の角度Al(n)を式(4)に従って演算し、また、それよりも右側の角度Ar(n)を式(5)に従って演算する。
また、オブジェクト特徴抽出部12は、式(6),式(7)のそれぞれに従って、左右両側の角度の分散値Dl(n),Dr(n)のそれぞれを演算する。
そして、オブジェクト特徴抽出部12は、式(8)で示される画素位置Nを、左右両直線の交差位置とする。
最後に、オブジェクト特徴抽出部12は、画素位置Nでの左右両側の角度Al(n),Ar(n)との角度差が10度以上となる場合(即ち、式(9)の場合)、左右両側の角度Al(n),Ar(n)をそれぞれ有する各直線を、異なる2つの境界線としてそれぞれ検出する。例えば図18の例では、直線123,124が2つの境界線として検出されている。なお、画素位置Nでの左右両側の角度Al(n),Ar(n)との角度差が10度未満の場合には、1つの境界線とみなされる。
また、2つの境界線が検出された場合、後述する図21に示されるように、それらの2つの境界線の交差位置を、サッカーのフィールドにおけるコーナ位置として抽出することもできる。
このようにして、オブジェクト特徴抽出部12は、注目フレームのプレイフィールド領域と他の領域との境界、若しくはその境界に関する情報、例えば境界線の角度や他の境界線との交差位置をオブジェクト特徴として抽出することができる。
さらに、オブジェクト特徴抽出部12は、プレイフィールド領域の境界の検出後、次のようにして、サッカーのフィールドに存在するゴール(以下、適宜ゴールゲート、ゴールボックス等称する)を、オブジェクト特徴のひとつとして抽出することもできる。
即ち、オブジェクト特徴抽出部12は、注目フレームの各境界線に接する略垂直方向の白線を検出する。ここに、略垂直と記載したのは、実世界上のゴールゲートの白い構造体(鉄筋等)のうちの垂直方向の部分は、注目フレーム内で白線画像として含まれる場合には必ずしも正確な注目フレーム内で垂直方向となっていないからである。即ち、オブジェクト特徴抽出部12は、各境界線に接し、かつ、注目フレームにおける垂直方向に対して左右α度(αは0乃至90度のうちの任意の値)の猶予範囲の角度を有する白線を検出する。また、ここでいう白線とは、真の白の線を意味するわけではなく、白とみなすことができる範囲内の色で構成される線を意味する。
そして、オブジェクト特徴抽出部12は、略垂直方向の2本以上の白線が検出された場合、2本以上の白線のうちの所定の2本の組を選択し、その組の2本の白線で囲む領域内に略水平方向の白線が存在するか否を確認する。なお、ここで略水平方向としたのは、上述した略垂直方向とした趣旨と同一である。また、係る確認は、組合せ可能な全ての組について行われる。オブジェクト特徴抽出部12は、略垂直方向の2本の白線の組のうちの、略水平方向の白線が存在する組を1組以上検出した場合、それらの組をゴールゲートの候補として取り扱う。
そして、オブジェクト特徴抽出部12は、図19に示されるゴールゲート131のポスト高さ133とクロスバー長さ132との関係や、クロスバー長さ132とプレイフィールド幅との比例関係等の寸法の規定、即ち、ゴールゲートのセマンティックルールを用いて、正しいゴールゲートを抽出する。即ち、オブジェクト特徴抽出部12は、1以上のゴールゲートの候補の中から、セマンティックルールを満たす候補をゴールゲートであるとして選抜する。
図20には、このような手法によって検出されたゴールゲートの具体例が示されている。即ち、図20には、注目フレームとして画像141が採用された場合における、黒色のプレイフィールド領域143の境界線に接する、2本の略垂直方向の白線分とそれらの間の1本の略水平方向の白線分とで囲まれる領域144が、ゴールゲートとして抽出された場合の例が示されている。図20からは、画像141が複雑な背景を有しているにもかかわらず、ゴールゲート144がロバストに検出できていることがわかる。
図21は、注目フレームのプレイフィールド領域におけるコーナ位置をオブジェクト特徴として抽出する場合における、その抽出手法例を説明する図である。
即ち、図21には、注目フレームとして画像151が採用された場合における、黒色のプレイフィールド領域161の2つの境界線162,163の交差位置164がコーナ位置として抽出された場合の例が示されている。
なお、コーナ位置の検出手法は、図18を用いて上述した境界線の検出手法と基本的に同様の手法である。即ち、オブジェクト特徴抽出部12は、注目フレームについて、上述した式(3)乃至式(9)を演算することで、コーナ位置をオブジェクト特徴のひとつとして抽出することができる。
その他、抽出手法の具体例については冗長になるので説明を省くが、既知の手法等を利用することで、オブジェクト特徴抽出部12は、様々なオブジェクト特徴を抽出することができる。
具体的なオブジェクト特徴の抽出結果の例が図22乃至図27に示されている。
即ち、図22の例では、プレイフィールド領域に存在する選手171がオブジェクト特徴のひとつとして抽出されている。図23の例では、プレイフィールド領域の上に合成される得点表示等のグラフィック領域172がオブジェクト特徴のひとつとして抽出されている。図24の例では、プレイフィールド領域に存在するボール173がオブジェクト特徴のひとつとして抽出されている。図25の例では、例えば選手と審判官との服の色の差異を利用して、選手ではなく、審判官174がオブジェクト特徴のひとつとして抽出されている。図26の例では、プレイフィールド領域に存在する選手の動き、即ち、所定の方向に選手が所定の速度で走っている等の動きがオブジェクト特徴のひとつとして抽出されている。図27の例では、選手の顔175がオブジェクト特徴のひとつとして抽出されている。
以上、図17乃至図27を参照して、図1の画像処理装置のうちのオブジェクト特徴抽出部12の詳細例について説明した。
次に、図28と図29を参照して、図1の画像処理装置のうちのショットカット検出部13の詳細例について説明する。
ショットカットとは、ショットとショットとの切り替り、即ちショット変化をいい、一般的には、ハードカット、フェードイン/フエードアウトカット、グラフィックスワイパーカットといった3種類に大別される。ハードカットでは、1乃至2フレームの間にショットが切り替るので、そのショット変化は検出しやすいが、フェードイン/フエードアウトカットやグラフィックスワイパーカットは、10乃至30フレーム程度の間にショットが切り替るので、そのショット変化を自動的に検出するのが容易ではない。
そこで、本発明人は、ハードカットのみならず、フェードイン/フエードアウトカットやグラフィックスワイパーカットまで容易にかつ正確に検出すべく、次のようなショットカット検出手法を発明した。
即ち、本発明人は、ショットカットの容易かつ正確な検出には、カメラの移動やフレーム内のオブジェクト移動に対するロバスト性を保つという第1の条件と、フレーム内の色特徴分布の変化に対して敏感に検出できるという第2の条件とを同時に満たす必要がある。
この場合、第1の条件と第2の条件とを満たすために、フレーム内のオブジェクトの動きの支配的な方向に対して、2以上の画像領域に分割して次のような各種演算を行うとよいと、本発明人は思想した。
フレーム内のオブジェクトの動きの支配的な方向としては、本実施の形態のように動画コンテンツがサッカーの試合の映像である場合では、フレームの水平方向を採用することができる。即ち、サッカーの試合のオブジェクトとは選手やボール等であり、これらの選手やボールはフレームに対して水平方向に動くことが多いからである。
具体的には例えば本実施の形態では、図28に示されるように、各フレーム181乃至183のそれぞれについて、水平方向に画像領域が上から2:5:3という割合で3分割された上で、次のような各種演算を行うとした。なお、以下、図28の記載にあわせて、2:5:3に3分割された画像領域のそれぞれを、領域R1,R2,R3のそれぞれと称する。
ここに、2:5:3に3分割した理由は、サッカーの試合の一場面を構成する様々なフレームを解析したところ、プレイフィールド領域が一番多く含まれる領域は総合的に判断すると領域R2となるからである。即ち、分割数や分割割合として、2:5:3の3分割を必ずしも採用する必要が無く、ショットカットを検出したい動画コンテンツの種類の特徴に応じて任意に変更可能である。
以上説明したように、ショットカット検出部13は、はじめに、注目フレームを領域R1乃至R3に3分割する。
次に、ショットカット検出部13は、注目フレームの領域R1乃至R3のそれぞれについて、色特徴分布として上述した3D HSVヒストグラム(図13のグラフ71乃至73参照)をそれぞれ演算する。また、ショットカット検出部13は、フレーム内のノイズなどに対するロバスト性を向上させるために、3D HSVヒストグラムの各H,S,Vの成分をそれぞれ2Bitsで表し、それらの3成分の2Bitsの集合データである6Bitsのデータを、色特徴分布を示す特徴量として生成する。なお、以下、かかる特徴量を、色特徴量HRkと記述する。ここに、kは、1乃至3のうちの何れかを示す。即ち、色特徴量HR1とは、領域R1についての色特徴量であり、色特徴量HR2とは、領域R2についての色特徴量であり、色特徴量HR3とは、領域R3についての色特徴量である。
そして、ショットカット検出部13は、フレーム間の違いを示す特徴の一つとして、注目フレームの領域R1乃至R3のそれぞれについて、次の式(10)の特徴量△Hkをそれぞれ演算する。以下、特徴量△Hkを色差分特徴量△Hkと称する。
式(10)において、Htk(i)は、注目フレームの領域kについての色特徴量を示している。Htk-△(i)は、注目フレームから何フレームか前のフレームのの領域kについての色特徴量を示している。即ち、Δは何フレーム前の特徴量との違いを求めるかを示す定数である。
以上の結果として、領域R1についての色差分特徴量△HR1、領域R2についての色差分特徴量△HR2、および、領域R3についての色差分特徴量△HR3が得られることになる。
そこで、ショットカット検出部13は、次の式(11)を演算することで、フレーム全体としての色差分特徴量△Hを演算する。なお、以下、かかる色差分特徴量△Hを、総合色差分特徴量△Hと称する。
式(11)において、α,β,γのそれぞれは、領域R1についての色差分特徴量△HR1、領域R2についての色差分特徴量△HR2、および、領域R3についての色差分特徴量△HR3のそれぞれに対して重み付けを与えるための所定のパラメータ値である。ここに、α,β,γの具体的な値は特に限定されないが、本実施の形態のようにサッカーの試合について言えば、βを一番大きな値とすると好適である。上述したように領域R2が、プレイフィールド領域が一番多く含まれることから、ショットカット検出にとって一番重要な領域であり、かかる領域R2に大きな重み付けを与えるのが適切だからである。
そして、ショットカット検出部13は、この総合色差分特徴量△Hと、予め設定された閾値T1とを比較して、総合色差分特徴量△Hが閾値T1より大きい場合(△H>T1の場合)、注目フレームはショットカットであると検出する。なお、閾値T1は、特に限定されないが、サッカーの試合等の映像から統計的に求めた値を採用すると好適である。
以上のショットカット検出部13により実行される一連の処理に対応する手法が、本発明人により発明されたショットカット検出手法のひとつである。以下、かかる手法を、総合色特徴差分ショットカット検出手法と称する。
さらに、本発明人は、次のようなショットカット検出手法も発明した。
即ち、サッカーの試合のようなスポーツ映像では、注目領域の特徴を利用することによって、ショットカットをよりロバストに検出することが可能である。即ち、サッカーの試合の注目領域とはプレイフィールド領域であり、かかるプレイフィールド領域が一番多く含まれるフレーム内の領域が、上述した領域R2である。
そこで、領域R2内の注目色の特徴を利用して、ショットカットの検出も行える。ここに、注目色とは、注目領域における支配的な色であって、注目領域がプレイフィールド領域である場合には芝の色、即ち、いわゆる緑色である。換言すると、注目色の領域とは、図12のポストプロセシング部56によるポストプロセシングが行われる前のプレイフィールド領域、即ち、選手やボールや白線等のオブジェクトを含まない、実世界上の芝に対応する領域である。
具体的には、ショットカット検出部13は、領域R2における注目色の領域が占める割合、即ち、領域R2を構成する画素の総数に対する注目色の画素の個数の比を演算する。以下、かかる割合を、注目色率DCRと称する。
次に、ショットカット検出部13は、注目色率DCRが50%を超えるか否かを判定し、超えると判定した場合には、注目フレームはショットカットの可能性があるとして、次の式(12)の演算を行う。即ち、式(12)も、フレーム間の違いを示す特徴の一つである特徴量△DCRを演算するための式である。以下、かかる特徴量△DCRを、注目色差分特徴量△DCRと称する。
式(12)において、DCRt(i)は、注目フレームについての注目色率を示している。DCRt-△は、注目フレームから何フレームか前のフレームの注目色率を示している。即ち、Δは、上述した式(10)と同様に、何フレーム前の特徴量との違いを求めるかを示す定数である。
そして、ショットカット検出部13は、この注目色差分特徴量△DCRと、予め設定された閾値T2とを比較して、注目色差分特徴量△DCRが閾値T2より大きい場合(△DCR>T2の場合)、注目フレームはショットカットであると検出する。なお、閾値T2は、特に限定されないが、サッカーの試合等の映像から統計的に求めた値を採用すると好適である。
以上のショットカット検出部13により実行される一連の処理に対応する手法が、本発明人により発明されたショットカット検出手法のひとつである。以下、かかる手法を、注目色差分ショットカット検出手法と称する。
なお、総合色特徴差分ショットカット検出手法と、注目色差分ショットカット検出手法とはそれぞれ独立した手法であるため、何れか一方のみを利用してショットカットを検出することも可能である。ただし、総合色特徴差分ショットカット検出手法と、注目色差分ショットカット検出手法とを組み合わせることで、より一段と正確なショットカットの検出が可能になる。
例えば図29には、総合色特徴差分ショットカット検出手法と、注目色差分ショットカット検出手法とを組み合わせて適用した場合のショットカット検出処理、即ち、図2のステップS3の詳細な処理の一例を説明するフローチャートが示されている。
ステップS21において、ショットカット検出部13は、入力されたフレームを注目フレームに決定する。
ステップS22において、ショットカット検出部13は、上述した式(11)の演算等により、注目フレームにつていの色差分特徴量△Hを算出する。
ステップS23において、ショットカット検出部13は、色差分特徴量△Hは閾値T1より大きいか否か(△H>T1であるか否か)を判定する。
色差分特徴量△Hが閾値T1を超えている場合、ステップS23の処理でYESであると判定されて、処理はステップS24に進む。ステップS24において、ショットカット検出部13は、注目フレームは、ショットカットであると検出する。これにより、処理はステップS30に進む。ただし、ステップS30以降の処理については後述する。
これに対して、色差分特徴量△Hが閾値T1以下の場合、ステップS23の処理でNOであると判定されて、処理はステップS25に進む。ステップS25において、ショットカット検出部13は、注目フレームにつていの注目色率DCRを算出する。
ステップS26において、ショットカット検出部13は、注目色率DCRは50%を超えているか否か(DCR>50%であるか否か)を判定する。
注目色率DCRが50%以下の場合、ステップS26の処理でNOであると判定されて、処理はステップS27に進む。ステップS27において、ショットカット検出部13は、注目フレームは、ショットカットではないと検出する。これにより、処理はステップS30に進む。ただし、ステップS30以降の処理については後述する。
これに対して、注目色率DCRが50%を超えている場合、ステップS26の処理でYESであると判定されて、処理はステップS28に進む。ステップS28において、ショットカット検出部13は、上述した式(12)の演算等により、注目色差分特徴量△DCRを算出する。
ステップS29において、ショットカット検出部13は、注目色差分特徴量△DCRが閾値T2より大きいか否か(△DCR>T2であるか否か)を判定する。
注目色差分特徴量△DCRが閾値T2より大きい場合には、ステップS29の処理でYESであると判定されて、ステップS24の処理で、注目フレームはショットカットであると検出される。
これに対して、注目色差分特徴量△DCRが閾値T2以下の場合には、ステップS29の処理でNOであると判定されて、ステップS27の処理で、注目フレームはショットカットではないと検出される。
このようにして、ステップS24またはS27の処理が終了すると、即ち、注目フレームがショットカットであるか否かの検出が終了すると、処理はステップS30に進む。ステップS30において、ショットカット検出部13は、注目フレームは最後のフレームであるか否かを判定する。
ステップS30において、注目フレームは最後のフレームではないと判定されると、処理はステップS21に戻されて、それ以降の処理が繰り返される。
即ち、動画コンテンツを構成する各フレームのそれぞれについて、上述したステップS21乃至S30のループ処理が繰り返されて、ショットカットであるか否かの検出がフレーム毎に行われていく。そして、最後のフレームについてショットカットであるか否かの検出が行われると、ステップS30の処理でYESであると判定されて、ショットカット検出処理は終了する。即ち、図2のステップS3の処理は終了し、ステップS4のショット分類処理が引き続き実行される。
以上、図28と図29を参照して、図1の画像処理装置のうちのショットカット検出部13の詳細例について説明した。かかるショットカット検出部13を採用することで、画像(フレーム)全体を、カメラの水平運動や人物の水平動きに対してロバストな特徴量で記述できる複数の領域にそれぞれ分割し、それぞれの領域内の色分布特徴や注目色の領域特徴を用いることによって高精度なショットカット検出が可能となり、その結果、スポーツ映像等の解析におけるメタ情報の自動付与が可能となる。
次に、図30乃至図36を参照して、図1の画像処理装置のうちのショット分類部14の詳細例について説明する。
即ち、上述したショットカット検出部13のショットカット検出処理の結果として、動画コンテンツは複数のショットに区分されることになる。そこで、ショット分類部14は、これらの複数のショットのそれぞれを、予め定義されている1以上の種類のうちの所定の種類に1つずつ分類していく。なお、かかる種類は、後述するようにショットタイプとも称される。
本実施の形態では、動画コンテンツとしてサッカーの試合の映像が採用された場合に好適なショットの種類として、例えば図30に示されるような「Long」,「Medium」,「Close-up」,「Out」の4種類が定義されているとする。
図30の各サンプル画像からわかるように、「Long」とは、サッカーの試合の全体状況が分かるようなショット、即ち、プレイフィールド領域と選手等の全体的ビューからなるショットの種類をいう。「Medium」は、カメラがズームした状態で数人の選手等がプレイフィールド領域に存在するショットの種類をいう。「Close-up」とは、1乃至2の選手等がフォーカスされ、その顔の識別ができるようなショットの種類をいう。「Out」とは、プレイフィールド領域が含まれないショットの種類をいう。
このような4種類のうちの何れかに分類されるショット分類処理、即ち、図2のステップS4の処理の詳細例を説明するフローチャートが、図31に示されている。
ステップS51において、ショット分類部14は、入力されたショットを注目ショットに設定する。
ステップS52において、ショット分類部14は、注目ショットに注目領域は含まれているか否か、即ち本実施の形態ではプレイフィールド領域は含まれるか否かを判定する。
ステップS52において、注目ショットに注目領域は含まれていないと判定した場合、ショット分類部14は、ステップS53において、注目ショットの種類は、「Out」またはフィールド外「Close-up」であると決定する。その後、処理はステップS62に進む。ただし、ステップS62以降の処理については後述する。
なお、フィールド外「Close-up」とは、1乃至2の選手等がフォーカスされ、その顔の識別ができるようなショットであって、プレイフィールド領域がほぼ検出されていないショットの種類をいう。その意味で、フィールド外「Close-up」とは、「Out」に含めることもできるが、後述するハイライト検出において、フィールド外「Close-up」から識別した顔を利用する等も可能であるので、ここでは「Out」とは区別して記述している。
これに対して、注目ショットにプレイフィールド領域が含まれている場合、ステップS52の処理でYESであると判定されて、処理はステップS54に進む。
ステップS54において、ショット分類部14は、注目ショットの注目領域についての投影特徴量Ph,Pvを算出する。
具体的には例えば、ショット分類部14は、上述した式(2)を利用して、垂直方向のH画素分の各垂直方向投影特徴量Ph(i)と、水平方向のW画素分の各水平方向投影特徴量Pv(j)とを算出する。
さらに、ショット分類部14は、ノイズの影響を低減させるために、垂直方向のH画素分の各垂直方向投影特徴量Ph(i)に対して低解像度処理を施し、10個分の各垂直方向投影特徴量Ph(i)とし、また、水平方向のW画素分の各水平方向投影特徴量Pv(j)に対して低解像度処理を施し、30個分の各水平方向投影特徴量Pv(j)とする。
そして、このような処理の結果として、注目ショットの注目領域についての投影特徴量Ph,Pvのそれぞれとして、10個分の各垂直方向投影特徴量Ph(i)の分布を示す特徴量と、30個分の各水平方向投影特徴量Pv(j)の分布を示す特徴量とが得られることになる。
即ち、上述した図17のグラフ111−Hに示されるような各垂直方向投影特徴量Ph(i)の分布を示す特徴量が、垂直方向投影特徴量Phの一例である。換言すると、プレイフィールド領域を構成する画素のうちのプレイフィールドの色特徴を有する画素(オブジェクトを除く画素)を垂直方向の1ラインに投影した場合におけるその1ライン上の分布を示す特徴量が、垂直方向投影特徴量Phである。
また、上述した図17のグラフ111−Vに示されるような各水平方向投影特徴量Pv(j)の分布を示す特徴量が、水平方向投影特徴量Pvの一例である。換言すると、プレイフィールド領域を構成する画素のうちのプレイフィールドの色特徴を有する画素(オブジェクトを除く画素)を水平方向の1ラインに投影した場合におけるその1ライン上の分布を示す特徴量が、水平方向投影特徴量Pvである。
ステップS55において、ショット分類部14は、注目ショットの注目領域についての投影特徴量Ph,Pvに基づく特徴が、「Close-up」or「Medium」型であるか否かを判定する。
注目ショットの注目領域についての投影特徴量Ph,Pvに基づく特徴とは、ショットの種類を分類可能な特徴であれば特に限定されないが、ここでは、図32のテーブルで示される特徴が採用されているとする。
また、「Close-up」or「Medium」型とは、注目ショットの型が「Close-up」または「Medium」に分類される型であることをいう。なお、後述する他の型も、基本的に同様である。
即ち、図32は、ショットの注目領域についての投影特徴量Ph,Pvと、ショットの種類の関係を示したものである。
図32の横軸のVertical Projection Featureとは、所定のショットについて上述したステップS54の処理と同様の処理が施された結果得られる30個分の各水平方向投影特徴量Pv(j)のうちの、最大値と最小値との差分値を示している。即ち、水平方向投影特徴量Pvで示される分布の最大値と最小値との差分値が、Vertical Projection Featureである。
一方、図32の縦軸のHorizontal Projection Featureとは、所定のショットについて上述したステップS54の処理と同様の処理が施された結果得られる10個分の各垂直方向投影特徴量Ph(i)のうちの、最大値と最小値との差分値を示している。即ち、垂直方向投影特徴量Phで示される分布の最大値と最小値との差分値が、Horizontal Projection Featureである。
また、図32において、小さな*印の点は、「Long」であることが既知の1つのショットに対して、上述したステップS54の処理と同様の処理を施し、その処理結果をプロットしたものを示している。小さな○印の点は、「Medium」であることが既知の1つのショットに対して、上述したステップS54の処理と同様の処理を施し、その処理結果をプロットしたものを示している。小さな□印の点は、「Close-up」であることが既知の1つのショットに対して、上述したステップS54の処理と同様の処理を施し、その処理結果をプロットしたものを示している。
なお、上述したステップS54の処理と同様の処理の結果を図32のテーブル上にプロットするとは、ステップS54の処理と同様の処理が行われた結果それぞれ得られる投影特徴量Pv,Phを利用してプロットすること、具体的には、水平方向投影特徴量Pvで示される分布の最大値と最小値との差分値を横軸の座標として、垂直方向投影特徴量Phで示される分布の最大値と最小値との差分値を縦軸の座標として、図32のテーブル上に点をプロットすることをいう。
このような種類が既知である複数のショットについての各プロットの結果として、領域191には、「Long」または「Medium」のショットの点が含まれることとなった。これにより、上述したステップS54の処理の結果を図32のテーブル上にプロットした場合に、そのプロットされた点が領域191に含まれるときには、注目ショットは「Long」または「Medium」に分類できることがわかる。
なお、上述したステップS54の処理の結果を図32のテーブル上にプロットするとは、上述したステップS54の処理の結果それぞれ得られる投影特徴量Pv,Phを利用してプロットすること、具体的には、水平方向投影特徴量Pvで示される分布の最大値と最小値との差分値を横軸の座標として、垂直方向投影特徴量Phで示される分布の最大値と最小値との差分値を縦軸の座標として、図32のテーブル上に点をプロットすることをいう。
以下同様に、種類が既知である複数のショットについての各プロットの結果として、領域192には、「Long」のショットの点が含まれることとなった。これにより、上述したステップS54の処理の結果を図32のテーブル上にプロットした場合に、そのプロットされた点が領域192に含まれるときには、注目ショットは「Long」に分類できることがわかる。
種類が既知である複数のショットについての各プロットの結果として、領域193には、「Long」,「Medium」,「Close-up」のショットの点が何れも含まれることとなった。即ち、上述したステップS54の処理の結果を図32のテーブル上にプロットした場合に、そのプロットされた点が領域193に含まれるときには、注目ショットの分類は困難であることがわかる。換言すると、領域193とは、いわゆるグレーゾーンであるといえる。
種類が既知である複数のショットについての各プロットの結果として、領域194には、「Close-up」または「Medium」のショットの点が含まれることとなった。これにより、上述したステップS54の処理の結果を図32のテーブル上にプロットした場合に、そのプロットされた点が領域194に含まれるときには、注目ショットは「Close-up」または「Medium」に分類できることがわかる。
なお、領域193は、「Long」,「Medium」,「Close-up」の何れに分類することも困難なグレーゾーンであるとはいったが、実際には、「Long」に分類されることは稀であり、領域194に近い領域であるといえる。そこで、ここではショットの種類の分類を簡便にするために、上述したステップS54の処理の結果を図32のテーブル上にプロットした場合に、そのプロットされた点が領域193または領域194に含まれるときには、注目ショットは「Close-up」または「Medium」に分類されるとする。
即ち、上述したステップS54の処理の結果を図32のテーブル上にプロットした場合に、そのプロットされた点が領域193または領域194に含まれるときには、ステップS55の処理でYESであると判定されて、即ち、注目ショットの注目領域についての投影特徴量Ph,Pvに基づく特徴が、「Close-up」or「Medium」型であると判定されて、処理はステップS56に進む。
ステップS56において、ショット分類部14は、オブジェクト特徴が「Close-up」型であるか否かを判定する。
ステップS56において、オブジェクト特徴が「Close-up」型であると判定した場合、ショット分類部14は、ステップS57において、注目ショットの種類は「Close-up」であると決定する。その後、処理はステップS62に進む。ただし、ステップS62以降の処理については後述する。
これに対して、ステップS56において、オブジェクト特徴が「Close-up」型ではないと判定した場合、即ち、オブジェクト特徴が「Medium」型であると判定した場合、ショット分類部14は、ステップS58において、注目ショットの種類は「Medium」であると決定する。その後、処理はステップS62に進む。ただし、ステップS62以降の処理については後述する。
即ち、ステップS55の処理でYESであると判定された場合とは、注目ショットが「Close-up」または「Medium」に分類できる場合である。
そこで、このような場合には、本実施の形態では、上述した図1のオブジェクト特徴抽出部12により抽出されたオブジェクト特徴に基づいて、注目ショットを「Close-up」または「Medium」に分類するようにしたのである。
この場合、オブジェクト特徴抽出部12により抽出されるオブジェクト特徴は様々な種類が存在し、何れの種類を利用することもできるし、また、1以上の種類を組み合わせて利用することもできる。
例えば図33の例では、オブジェクト特徴として顔領域が利用されている。即ち、画像201からは顔領域211,212が検出されている一方、画像202から顔領域213が検出されている。顔領域211,212と、顔領域213とを比較するに、大きさがそれぞれ違うことがわかる。そこで、顔領域の大きさを特徴量として、その特徴量が閾値を超えている型を「Close-up」型であるとして、その特徴量が閾値以下の型を「Medium」型であると定義することができる。即ち、ショット分類部14は、閾値を超える大きさの顔領域を含む注目ショットについては、「Close-Up」であると決定する一方、閾値以下の大きさの顔領域を含む注目ショットについては「Medium」であると決定することができる。
また、仮にオブジェクト特徴抽出部12により顔領域の抽出がなされていなかった場合でも、例えば、選手のユニフォームの色等を用いて選手の領域が抽出されていれば、ショット分類部14は、その領域の幅を特徴量として利用して「Medium」または「Close-up」の分類を行うことができる。
このようにして、上述したステップS54の処理の結果を図32のテーブル上にプロットした場合に、そのプロットされた点が領域193または領域194に含まれるときには、ステップS55の処理でYESであると判定されて、ステップS56乃至S58の処理により、注目ショットの種類が「Close-Up」または「Medium」に決定される。
これに対して、上述したステップS54の処理の結果を図32のテーブル上にプロットした場合に、そのプロットされた点が領域191または領域192に含まれるときには、ステップS55の処理でNOであると判定されて、次のようなステップS59以降の処理が実行されて、注目ショットの種類が「Medium」または「Long」に決定される。
即ち、ステップS59において、ショット分類部14は、注目ショットの注目領域のうちの背景除外領域についての投影特徴量Ph1,Pv1を算出する。
ここに、背景除外領域とは、サッカーの試合の画像では、観客席部分等を示す背景領域を除いた領域である。具体的には例えば、図34の例では、サッカーの試合の画像231については、プレイフィールド領域241以外が背景領域である。従って、サッカーの試合の画像231における背景除外領域とは、実線251の下方であって、点線252,253に挟まれた範囲が背景除外領域として採用される。同様に、サッカーの試合の画像232については、プレイフィールド領域242以外が背景領域である。従って、サッカーの試合の画像232における背景除外領域とは、実線254の下方であって、点線255,256に挟まれた範囲が背景除外領域として採用される。
そこで、ショット分類部14は、このような背景除外領域について、上述した式(2)を利用して、垂直方向のH画素分の各垂直方向投影特徴量Ph(i)と、水平方向のW画素分の各水平方向投影特徴量Pv(j)とを算出する。
さらに、ショット分類部14は、ノイズの影響を低減させるために、垂直方向のH画素分の垂直方向投影特徴量Ph(i)に対して低解像度処理を施し、10個分の各垂直方向投影特徴量Ph1(i)とし、また、水平方向のW画素分の水平方向投影特徴量Pv(j)に対して低解像度処理を施し、30個分の各水平方向投影特徴量Pv1(j)とする。
そして、このような処理の結果として、背景除外領域についての投影特徴量Ph1,Pv1として、10個分の各垂直方向投影特徴量Ph1(i)の分布を示す特徴量と、30個分の各水平方向投影特徴量Pv1(j)の分布を示す特徴量とが得られることになる。
そこで、ステップS60において、ショット分類部14は、背景除外領域についての投影特徴量Ph1,Pv1に基づく特徴が、「Medium」型であるか否かを判定する。
即ち、図32の領域191にプロットされた複数のショットのそれぞれについて、各背景除外領域を用いて再プロットすると、「Long」の背景除外領域の点は、図36に示されるように領域191のうちの領域271に含まれる一方、「Medium」の背景除外領域の点は、領域191のうちの領域272に含まれることとなった。
これにより、上述したステップS59の処理結果を図32と図36のテーブル上にプロットした場合に、そのプロットされた点が領域272に含まれるときには、ステップS60の処理でYESであると判定されて、即ち、背景除外領域についての投影特徴量Ph1,Pv1に基づく特徴が、「Medium」型であると判定されて、ステップS58において、注目ショットの種類は「Medium」であると決定される。
これに対して、上述したステップS59の処理の結果を図32と図36のテーブル上にプロットした場合に、そのプロットされた点が領域192(図32)または領域271(図36)に含まれるときには、ステップS60の処理でNOであると判定されて、即ち、背景除外領域についての投影特徴量Ph1,Pv1に基づく特徴が「Long」型であると判定されて、処理はステップS61に進む。ステップS61において、ショット分類部14は、注目ショットの種類は「Long」であると決定する。
以上のようにして、ステップS53、S57、S58、またはS61の処理が終了すると、即ち、注目ショットの種類が、「Out」、フィールド外「Close-up」、「Close-up」、「Medium」、または「Long」であると決定されると、処理はステップS62に進む。
ステップS62において、ショット分類部14は、注目ショットは最後のショットであるか否かを判定する。
ステップS62において、注目ショットは最後のショットではないと判定されると、処理はステップS51に戻されて、それ以降の処理が繰り返される。
即ち、動画コンテンツにおける各ショットのそれぞれについて、上述したステップS51乃至S62のループ処理が繰り返されて、各ショットの種類が決定されていく。そして、最後のショットの種類が決定されると、ステップS62の処理でYESであると判定されて、ショット分類処理は終了する。即ち、図2のステップS4の処理は終了し、ステップS5のハイライト検出処理が引き続き実行される。
以上、図30乃至図36を参照して、図1の画像処理装置のうちのショット分類部14の詳細例について説明した。このようなショット分類部14を採用することで、様々なショットタイプに対して、注目領域内の射影特徴(例えば上述した投影特徴量Ph,PV等)やその注目領域内や隣接領域でのオブジェクト特徴を用いることができ、その結果、高精度なショット分類が可能となる
次に、図37乃至図44を参照して、図1の画像処理装置のうちのハイライト検出部15の詳細例について説明する。
図37は、ハイライト検出部15によるハイライト抽出のためのフレームワークを示している。ハイライト抽出は、図37に示されるように、基本的に3つのレイヤLayer1乃至Layer3で行われる。
Layer1とは、ショット間のショットタイプの時間的な関連性ルール、或いは、そのような関連性ルールについての統計的モデルを表すレイヤである。ここで、ショットタイプとは、ショット分類部14により分類された各ショットの種類をいい、例えばサッカーの試合についての本実施の形態では、上述した図30に示される「Long」,「Medium」,「Close-up」,「Out」の4種類が存在する。
例えば、ハイライトとして抽出すべきサッカーのコーナキックのシーンであることが既知のショット群を学習用画像として複数用意し、それらの複数の学習用画像からショットタイプの時間推移のルールが学習され、その学習の結果得られるルールを示す統計的モデルが予め存在するとすれば、ハイライト検出部14は、新たに入力された動画コンテンツについてのショットタイプの時間推移を認識して、例えば図11に示されるようなショットタイプの時間推移を認識して、そのショットタイプの時間推移が、統計的モデルと合致または類似しているショット群を発見した場合には、そのショット群をハイライトとして抽出することができる。
Layer2とは、所定の1ショットを構成するフレームのうちの意味を持つフレーム間の時間的な関連性ルール、或いは、そのような関連性ルールについての統計的モデルを表すレイヤである。
例えば、ハイライトとして抽出すべきサッカーのコーナキックのシーンであることが既知のショットを学習用画像として複数用意し、それらの複数の学習用画像から、1ショットを構成する各フレームのフレームタイプの時間推移のルールが学習され、その学習の結果得られるルールを示す統計的モデルが予め存在するとすれば、ハイライト検出部14は、動画コンテンツについての各ショット内のフレームタイプの時間推移を認識して、例えば図10に示されるようなフレームタイプの時間推移を認識して、統計的モデルと合致または類似しているショットを発見した場合、そのショットをハイライトの少なくとも一部分として抽出することができる。なお、図10に示される「Upper Corner」等のフレームタイプについては、図42を参照して後述する。
Layer3とは、フレーム内の特徴量によって、そのフレームに対して意味付けを行うレイヤである。即ち、このLayer3により意味づけられたフレームを用いて得られたルール、即ち、フレーム間の時間的な関連性ルールを表すレイヤが、Layer2となる。ここに、フレーム内の特徴量としては、例えば本実施の形態ではサッカーの試合に関する特徴量、例えば図17乃至図27を用いて上述した各種オブジェクト特徴、即ち、図1のオブジェクト特徴抽出部12により抽出される各種オブジェクト特徴を採用することができる。或いは、Layer2として上述した例のようにフレームタイプ推移が利用される場合には、フレームタイプをフレーム内の特徴量として捉えることができる。なお、フレームタイプは、図1のオブジェクト特徴抽出部12により抽出されるオブジェクト特徴に基づいて決定され得るが、このことについては、図42を参照して後述する。
図38は、ハイライト検出部15の詳細な機能的構成例を示している。
図38の例のハイライト検出部15は、学習部301乃至ハイライト抽出部306を含むように構成されている。
学習部301は、上述したLayer1やLayer2についてのルールを学習し、その学習の結果得られる統計的モデルをモデル保持部302に保持させる。なお、学習部301の詳細については、図40乃至図44を参照して後述する。
Layer1特徴量生成部303とLayer3特徴量生成部304には、図1のショットタイプ分類部14からの動画コンテンツが入力される。即ち、Layer1特徴量生成部303とLayer3特徴量生成部304に入力される動画コンテンツとは、図1において、注目領域抽出部11とオブジェクト特徴抽出部12によりオブジェクト特徴がフレーム毎に抽出され、ショットカット検出部13により複数のショットに区分され、さらに、かかる複数のショットのそれぞれのショットタイプがショット分類部14により決定された動画コンテンツである。
そこで、Layer1特徴量生成部303は、Layer1でのハイライト抽出を行うための特徴量(以下、Layer1特徴量と称する)を生成し、ハイライト抽出部306に提供する。
なお、Layer1特徴量は、モデル保持部302に保持されているLayer1の統計的モデルの形態に応じて、様々な特徴量を採用することができる。
具体的には例えば、Layer1の統計的モデルとしてショットタイプの時間推移の順番や、各ショットタイプを各状態とする状態遷移図等が与えられている場合には、図11に示されるようなショットタイプの時間推移を、Layer1特徴量として採用することができる。
また例えば、Layer1の統計的モデルとして、「1)「Long」ショット前の非「Long」ショット数が所定の範囲内の個数存在する、2」非「Long」ショットのトータル期間(長さ)が所定の範囲内の長さであるといった条件を満たす場合、サッカーのコーナキックのシーンである」、といったモデルが与えられている場合には、かかる条件1),2)を満たすか否かを特定できる情報、即ち、処理の対象として注目すべき「Long」ショット(以下、注目「Long」ショットと称する)前の非「Long」ショット数、および、非Longショットのトータル期間(長さ)といった情報を、Layer1特徴量として採用することができる。
Layer3特徴量生成部304は、上述したように、フレーム内のオブジェクト特徴や、フレームタイプといった情報を、Layer3特徴量として生成し、Layer2特徴量生成部305に提供する。
Layer2特徴量生成部305は、Layer2でのハイライト抽出を行うための特徴量(以下、Layer2特徴量と称する)を生成し、ハイライト抽出部306に提供する。
なお、Layer2特徴量は、モデル保持部302に保持されているLayer2の統計的モデルの形態に応じて、様々な特徴量を採用することができる。
具体的には例えば、Layer2の統計的モデルとしてフレームタイプの時間推移の順番や、後述する図44のような状態遷移図等が与えられている場合には、図10に示されるようなフレームタイプの時間推移を、Layer2特徴量として採用することができる。
また例えば、Layer2の統計的モデルとして、「1)数フレームに渡ってゴールボックスが観測される、2)ゴールボックスの前には中央線が観測されない、3)ゴールボックスは画面の両側から中央に動くようにフレームが推移していく、および、4)ショットの初めにコーナが観測されないといった条件を満たす場合、サッカーのコーナキックのシーンを形成する1ショットである」といったモデルが与えられている場合には、かかる1)至4)のそれぞれを満たすか否かを特定できる情報を、Layer2特徴量として採用することができる。
ハイライト抽出部306は、モデル保持部302に保持されているLayer1についての統計的モデルと、Layer1生成部303からのLayer1特徴量とを比較し、また、モデル保持部302に保持されているLayer2についての統計的モデルと、Layer2生成部305からのLayer2特徴量とを比較し、それらの比較を総合的に判断することによって、ハイライトを抽出する。
図39は、かかる図38の機能的構成を有するハイライト検出部15の処理の一例、即ち、図2のステップS5のハイライト検出処理の詳細例を示すフローチャートである。
ただし、図39の例では、モデル保持部302に保持されているLayer1とLayer2とのそれぞれの統計的モデルとして、「第1の条件を満たす場合、ハイライトである」、および、「第2の条件を満たす場合、ハイライトである」といった内容のモデルが採用されているとする。
具体的には例えばサッカーのコーナキックがハイライトとして抽出される場合には、上述したように、1)「Long」ショット前の非「Long」ショット数が所定の範囲内の個数存在する、2)非「Long」ショットのトータル期間(長さ)が所定の範囲内の長さであるといった条件を、第1の条件として採用できる。
また例えば上述したように、1)数フレームに渡ってゴールボックスが観測される、2)ゴールボックスの前には中央線が観測されない、3)ゴールボックスは画面の両側から中央に動くようにフレームが推移していく、4)ショットの初めにコーナが観測されないといった条件を、第2の条件として採用できる。
このような場合、ステップS71において、Layer1特徴量生成部303は、動画コンテンツについてのLayer1特徴量を生成する。
ステップS72において、Layer3特徴量生成部304は、動画コンテンツ中のショット毎に、ショット中の各フレームについてのLayer3特徴量を生成する。
ステップS73において、Layer2特徴量生成部305は、動画コンテンツ中のショット毎に、Layer2特徴量を生成する。
なお、図39の例では便宜上、ステップS72およびS73の処理は、ステップS71の処理の後に実行されているが、その処理の順番は特に限定されない。図38の例から明らかなように、Layer1特徴量生成部303によるステップS71の処理と、Layer3特徴量生成部304によるステップS72の処理およびLayer2特徴量生成部305によるステップS73の処理とは、それぞれ独立して並列的に実行されるからである。
ステップS74において、ハイライト抽出部306は、動画コンテンツの所定のショットを注目ショットに決定する。
ステップS75において、ハイライト抽出部306は、注目ショットについて、Layer1特徴量が第1の条件を満たすか否かを判定する。
ステップS75において、注目ショットについて、Layer1特徴量が第1の条件を満たすと判定した場合、ハイライト抽出部306は、ステップS78において、注目ショットはハイライトの少なくとも一部であると認定する。その後、処理はステップS79に進む。ただし、ステップS79以降の処理については後述する。
これに対して、ステップS75において、注目ショットについて、Layer1特徴量が第1の条件を満たしていないと判定した場合、ハイライト抽出部306は、ステップS76において、注目ショットについて、Layer2特徴量が第2の条件を満たすか否かを判定する。
ステップS76において、注目ショットについて、Layer2特徴量が第2の条件を満たすと判定した場合、ハイライト抽出部306は、ステップS78において、注目ショットはハイライトの少なくとも一部であると認定する。その後、処理はステップS79に進む。ただし、ステップS79以降の処理については後述する。
これに対して、ステップS76において、注目ショットについて、Layer2特徴量が第2の条件を満たしていないと判定した場合、ハイライト抽出部306は、ステップS77において、注目ショットはハイライトではないと認定する。その後、処理はステップS79に進む。
以上まとめると、ステップS77またはS78の処理が終了すると、即ち、注目ショットがハイライトであるか否かの認定が終了すると、処理はステップS79に進む。
ステップS79において、ハイライト抽出部306は、注目ショットは、最後のショットであるか否かを判定する。
ステップS79において、注目ショットは最後のショットではないと判定されると、処理はステップS74に戻されて、それ以降の処理が繰り返される。
即ち、動画コンテンツを構成する各ショットの幾つかについて適宜、上述したステップS74乃至S79のループ処理が繰り返されて、ハイライトであるか否かの認定が行われていく。そして、最後のショットまでの認定処理が行われると、ステップS79の処理でYESであると判定されて、処理はステップS80に進む。
ステップS80において、ハイライト抽出部306は、上述した認定結果に基づいてハイライトを抽出する。
このように、図39の例では、Layer1特徴量が第1の条件を満たした場合、または、Layer2特徴量が第2の条件を満たした場合に、ハイライトであると認定される。即ち、ハイライトの認定条件として、図39の例ではいわゆるOR条件が採用されている。ただし、図39の例はあくまでも例示であり、その他の認定条件、例えばいわゆるAND条件、即ち、Layer1特徴量が第1の条件を満たし、かつ、Layer2特徴量が第2の条件を満たした場合に、ハイライトであると認定するという条件を採用してもよい。
以上、図38と図39を参照して、統計的モデルがモデル保持部302に保持されていることを前提として、新たな動画コンテンツからハイライトを検出するハイライト検出処理について主に説明した。
次に、図40乃至図44を参照して、かかる統計的モデルの生成/更新処理に着目して説明していく。
かかる統計的モデルの生成/更新処理は、図38のハイライト検出部15のうちの学習部301によってなされる。図40は、かかる学習部301の詳細な構成例を示している。
図40の例では、学習部301は、注目領域抽出部351乃至ハイライト学習部358を含むように構成されている。
注目領域抽出部351乃至ショット分類部354のそれぞれは、図1の注目領域抽出部11乃至ショット分類部14のそれぞれと基本的に同様の構成と機能を有している。また、Layer1特徴量生成部355乃至Layer2特徴量生成部357のそれぞれは、図1のハイライト検出部15のうちの図38のLayer1特徴量生成部303乃至Layer2特徴量生成部305のそれぞれと基本的に同様の構成と機能を有している。
即ち、学習部301には、ハイライトとすべきシーン、例えばサッカーのコーナキックのシーンの様々な映像がそれぞれ学習用映像として、学習部301の注目領域抽出部351に入力される。すると、注目領域抽出部351乃至Layer2特徴量生成部357のそれぞれは、上述した一連の処理を実行する。その結果として、学習用映像についてのLayer1特徴量とLayer2特徴量とがハイライト学習部358に入力される。
そこで、ハイライト学習部358は、様々な学習用映像についての各Layer1特徴量を学習することで、Layer1についての統計的モデルを生成/更新し、モデル保持部302に保持させる。
具体的には例えば、ハイライト学習部358は、各ショット間のショットタイプの関連性ルールを解析して、態遷移確率モデル、例えば図41に示されるようなHMM(Hidden Markov Model)を求め、それをLayer1についての統計的モデルとしてモデル保持部302に保持させることができる。なお、図41において、S1k(Kは1乃至4のうちの何れかの整数値)は、HMMの各状態を示し、それぞれ所定の1つのショットタイプ、即ち、本実施の形態では図30の「Long」,「Medium」,「Close-up」,「Out」のうちの何れかに対応する。即ち、各状態の遷移(ショットタイプ遷移)の確率やその状態(対応するショットタイプ)の発生の確率が、上述した様々な学習用映像についての各Layer1特徴量を学習することで得られることになる。
同様に、ハイライト学習部358は、様々な学習用映像についての各Layer2特徴量を学習することで、Layer2についての統計的モデルを生成/更新し、モデル保持部302に保持させる。
この場合のLayer2についての統計的モデルとしてもHMMを採用することができ、また、かかるHMMの各状態に対応するものとして、フレームタイプを採用することができる。いかなるフレームタイプを採用するのかについては、特に限定されず、ハイライトとすべきシーンに応じて設計者等が自由な思想で決定できる。
例えば、上述したサッカーのコーナキックがハイライトとして抽出される場合には、図42に示されるような7つのフレームタイプ、即ち、「Middle」,「Goal Box」, 「Upper Corner」,「Lower Corner」,「Unknown」,「Upper Goal」,「Lower Goal」を採用すると好適である。
「Middle」とは、中央白線371を含むフレームタイプをいう。「Goal Box」とは、ゴールゲート372を含み、かつ、コーナ位置373を含まないフレームタイプをいう。「Upper Corner」とは、ゴールゲート372を含まず、かつ、コーナ位置373が上方領域に存在するフレームタイプをいう。「Lower Corner」とは、ゴールゲート372を含まず、かつ、コーナ位置373が下方領域に存在するフレームタイプをいう。「Unknown」とは、中央白線371、ゴールゲート372、および、コーナ位置373を何れも含まないフレームタイプをいう。「Upper Goal」とは、ゴールゲート372を含み、かつ、コーナ位置373が上方領域に存在するフレームタイプをいう。「Lower Goal」とは、ゴールゲート372を含み、かつ、コーナ位置373が下方領域に存在するフレームタイプをいう。
このような7つのフレームタイプは、図40のLayer3特徴量生成部356によりフレーム毎に決定される。
具体的には例えば、オブジェクト特徴抽出部352は、学習用映像を構成する各フレームのそれぞれから、中央白線371、ゴールゲート372、およびコーナ位置373をオブジェクト特徴としてそれぞれ抽出することを試みる。「試みる」と記述したのは、フレームによっては、抽出されないこともあるからである。例えば「Upper Corner」と分類されるフレームからは、ゴールゲート372は抽出されないからである。
Layer3特徴量生成部356は、学習用映像を構成する各フレームのそれぞれについて、オブジェクト特徴抽出部352の抽出結果に基づいて、7つのフレームタイプのうちの何れかにそれぞれ分類し、それらの分類結果をLayer3特徴量としてLayer2特徴量生成部357に通知する。
なお、Layer3特徴量生成部304は、各フレームのフレームタイプの検出する認識器、例えば、SVM(Support Vector Machine)などの分類学習や、ニューラルネットワーク等を用いた認識器として構成することができる。この場合、認識器のパラメータは、それぞれの画像サンプルを用いる統計的な学習によって求めることができる。
Layer2特徴量生成部357は、サッカーのコーナキックのシーンの少なくとも一部を形成するショット内の各フレームのフレームタイプの時間推移を、Layer2特徴量として生成し、ハイライト学習部358に提供する。
ハイライト学習部358は、例えば図43に示されるようなHMMを求め、それをLayer2についての統計的モデルとしてモデル保持部302に保持させることができる。なお、図43において、S2m(mは1乃至8のうちの何れかの整数値)は、HMMの各状態を示し、それぞれ所定の1つのフレームタイプ、即ち、本実施の形態では図42に示される「Middle」,「Goal Box」, 「Upper Corner」,「Lower Corner」,「Unknown」,「Upper Goal」,「Lower Goal」のうちの何れかに対応する。即ち、各状態の遷移(フレームタイプ遷移)の確率やその状態(対応するフレームタイプ)の発生の確率は、上述した様々な学習用映像についての各Layer2特徴量を学習することで得られることになる。
具体的には例えば、ハイライト学習部358の学習の結果として、図44に示されるような状態遷移図が得られた場合には、かかる状態遷移図をLayer2についての統計的モデルとしてモデル保持部302に保持させることができる。
以上、図37乃至図44を参照して、図1の画像処理装置のうちのハイライト検出部15の詳細例について説明する。このようなハイライト検出部15を採用することで、ショットタイプ間の関連性やフレーム間の関連性のルール解析に基づいて設計されたハイライト検出手法が実現でき、その結果、動画コンテンツ内の様々なシーンをハイライトとして抽出することが容易に可能となる。
ところで、上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図45は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成の例を示すブロック図である。即ち、図1の画像処理装置の全部または一部分、例えば幾つかの機能ブロックを、図45のように構成することもできる。
図45において、CPU(Central Processing Unit)401は、ROM(Read Only Memory)402、または記憶部408に記憶されているプログラムに従って各種の処理を実行する。RAM(Random Access Memory)403には、CPU401が実行するプログラムやデータなどが適宜記憶される。これらのCPU401、ROM402、およびRAM403は、バス404により相互に接続されている。
CPU401にはまた、バス404を介して入出力インタフェース405が接続されている。入出力インタフェース405には、キーボード、マウス、マイクロホンなどよりなる入力部406、ディスプレイ、スピーカなどよりなる出力部407が接続されている。CPU401は、入力部406から入力される指令に対応して各種の処理を実行する。そして、CPU401は、処理の結果を出力部407に出力する。
入出力インタフェース405に接続されている記憶部408は、例えばハードディスクからなり、CPU401が実行するプログラムや各種のデータを記憶する。通信部409は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。
また、通信部409を介してプログラムを取得し、記憶部408に記憶してもよい。
入出力インタフェース405に接続されているドライブ410は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア411が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部408に転送され、記憶される。
コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図45に示されるように、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア411、または、プログラムが一時的もしくは永続的に格納されるROM402や、記憶部408を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部409を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。
なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムとは、複数の装置または回路により構成される装置または回路全体を表すものである。
11 注目領域抽出部, 12 オブジェクト特徴抽出部, 13 ショットカット検出部, 14 ショット分類部, 15 ハイライト検出部, 51 HSVヒストグラムモデル保持部, 52 ダウンサンプリング部, 53 HSV成分ピーク検出部, 54 注目領域範囲決定部, 55 注目領域検出部, 56 ポストプロセシング部, 301 学習部, 302 モデル保持部, 303 Layer1特徴量生成部, 304 Layer3特徴量生成部, 305 Layer2特徴量生成部, 306 ハイライト抽出部, 351 注目領域抽出部, 352 オブジェクト特徴抽出部, 353 ショットカット検出部, 354 ショット分類部, 355 Layer1特徴量生成部, 356 Layer3特徴量生成部, 357 Layer2特徴量生成部, 358 ハイライト学習部, 401 CPU, 402 ROM, 408 記憶部, 411 リムーバブルメディア