JP2011505601A

JP2011505601A - 映像処理方法および映像処理装置

Info

Publication number: JP2011505601A
Application number: JP2009514296A
Authority: JP
Inventors: 晃司山本; 恒青木
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-11-29
Filing date: 2008-11-28
Publication date: 2011-02-24
Anticipated expiration: 2028-11-28
Also published as: WO2009069831A1; JP5166409B2; US20100272365A1

Abstract

【課題】一部のショット区間において顔を検出できない人物が含まれる映像であっても、登場人物の順位付け・選択を可能とし、テレビ番組において実際の番組内容に即した主要人物の顔を選択することができる映像処理装置を提供する。
【解決手段】類似ショットの集合であるショット群から顔領域が含まれるとともに所定の基準を満足するショット群を選択し、同一ショット群に含まれる顔領域を特徴量に従って分類し、分類された同一ショット群に含まれる顔領域群を同一の人物と推定して、主要な登場人物の顔領域群として選択する。これにより、映像を構成するショットの類似性と顔領域検出とを組み合わせて主要な登場人物の選択を行うことにより、一部のショット区間において顔を検出できない人物が含まれる映像であっても、登場人物の順位付け・選択が可能となり、テレビ番組において従来技術よりも実際の番組内容に即した主要人物の顔を選択することができる。
【選択図】図１２

Description

本発明は、映像処理方法および映像処理装置に関する。

近年、テレビ番組等の映像を解析してその内容を視聴者に掲示する技術として、番組に登場した人物を一覧表示することができる番組録画装置等が開発されている。登場人物を一覧表示する技術としては、映像のショット毎に検出した顔を同一人物毎に分類し、その登場回数に従って主要な人物を一覧表示するようにした技術が開示されている（特許文献１参照）。

また、特許文献２では、検出した顔を同一人物ごとに分類して、登場人物ごとの代表顔画像を抽出するようにした技術が開示されている。

さらに、特許文献３では、顔画像数を基に、最も登場頻度の高い人物を主人公として特定するようにした技術が開示されている。

上述した技術は、いずれも検出した顔を特徴量に基づいて人物ごとに分類するものである。このような分類処理においては、まず画像中の顔領域を検出し、つぎに領域中の画像の照明条件や３次元形状を補正してから特徴量空間での類似性を比較し、２つの顔が同一人物であるか否かを判定する方法が用いられている。例えば、非特許文献１には、前段にて顔領域検出処理を行い、続いて顔特徴点検出、顔領域画像の正規化、既登録済みの顔辞書との類似度比較による識別（同一人物か否かの同定）という処理構成を採っている映像処理装置が開示されている。

特許第３３１５８８８号公報特開２００１−１６７１１０号公報特開２００６−２４４２７９号公報

山口修ほか１名：「顔向きや表情の変化にロバストな顔認識システム "SmartFace"」、電子情報通信学会論文誌Ｄ−ＩＩ、Ｖｏｌ．Ｊ８４−Ｄ−ＩＩ、Ｎｏ．６、２００１年６月、ｐｐ．１０４５−１０５２

ところで、上述した技術はいずれも映像から検出された顔をもとにして処理を行っているため、顔が正常に検出されない環境では、正しい結果を得ることはできない。

しかしながら、テレビ番組では顔が見えないほど横を向いていたり、後ろを向いていたりすることが少なくない。そのため、上述した技術によれば、映像中の人物の顔を検出することができずに、登場時間や回数を正しく数えることができない、という問題がある。

また、検出できた映像中の人物の顔についても、顔認証を目的とした画像と違い、様々な向きや大きさ、表情の顔が存在するので、分類のための正規化や特徴点検出に処理時間がかかってしまう、という問題がある。

加えて、これらの正規化を行ったとしても、横顔と正面顔を同一人物として分類することは困難である。

本発明は、上記に鑑みてなされたものであって、一部のショット区間において顔を検出できない人物が含まれる映像であっても、登場人物の順位付け・選択を可能とし、テレビ番組において実際の番組内容に即した主要人物の顔を選択することができる映像処理方法および映像処理装置を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明の映像処理方法は、映像処理装置で実行される映像処理方法であって、前記映像処理装置は、制御部と記憶部を備え、前記制御部において実行される、特徴量抽出手段が、映像の構成要素となるフレームの特徴量を抽出するステップと、カット検出手段が、時間的に連続する前記フレーム間での画面の切り替わりであるカット点を、前記特徴量を用いて検出するステップと、類似ショット検出手段が、前記フレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって前記カット点によって分割される時間区間の前記フレームの集合体であるショットについて、同一のショット属性値を付与した類似ショットとして検出するステップと、ショット選択手段が、前記類似ショットの集合であるショット群から所定の基準を満足するショット群を選択するステップと、顔領域検出手段が、選択された前記ショット群に含まれる１つ以上のショット内から人物の顔と推定される画像領域である顔領域を検出するステップと、顔領域追跡手段が、連続する前記フレーム間の前記顔領域の座標群が同一と看做される場合、同一と看做される前記各顔領域に対して同一の顔属性値を付与するステップと、顔領域選択手段が、前記顔領域追跡手段から同一の顔属性を付与された前記顔領域の座標群を受け取り、同一ショット群に含まれる前記顔領域を特徴量に従って分類し、分類された同一ショット群に含まれる前記顔領域群を同一の人物と推定して、主要な登場人物の顔領域群として選択するステップと、を含むことを特徴とする。

また、本発明の映像処理方法は、映像処理装置で実行される映像処理方法であって、前記映像処理装置は、制御部と記憶部を備え、前記制御部において実行される、顔領域検出手段が、映像の構成要素となるフレームから人物の顔と推定される画像領域である顔領域を検出するステップと、顔領域追跡手段が、連続する前記フレーム間の前記顔領域の座標群が同一と看做される場合、同一と看做される前記各顔領域に対して同一の顔属性値を付与するステップと、特徴量抽出手段が、前記フレームの特徴量を抽出するステップと、カット検出手段が、時間的に連続する前記フレーム間での画面の切り替わりであるカット点を、前記特徴量を用いて検出するステップと、類似ショット検出手段が、前記フレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって前記カット点によって分割される時間区間の前記フレームの集合体であるショットについて、同一のショット属性値を付与した類似ショットとして検出するステップと、ショット選択手段が、前記顔領域検出手段から前記顔領域が検出された前記フレームを示す情報を受け取るとともに、前記類似ショット検出手段から前記類似ショットの情報を受け取り、前記類似ショットの集合であるショット群から前記顔領域が含まれるとともに所定の基準を満足するショット群を選択するステップと、顔領域選択手段が、前記顔領域追跡手段から同一の顔属性を付与された前記顔領域の座標群を受け取るとともに、前記ショット選択手段から前記顔領域が含まれるショット群を受け取り、同一ショット群に含まれる前記顔領域を特徴量に従って分類し、分類された同一ショット群に含まれる前記顔領域群を同一の人物と推定して、主要な登場人物の顔領域群として選択するステップと、を含むことを特徴とする。

また、本発明の映像処理装置は、映像の構成要素となるフレームの特徴量を抽出する特徴量抽出手段と、時間的に連続する前記フレーム間での画面の切り替わりであるカット点を、前記特徴量を用いて検出するカット検出手段と、前記フレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって前記カット点によって分割される時間区間の前記フレームの集合体であるショットについて、同一のショット属性値を付与した類似ショットとして検出する類似ショット検出手段と、前記類似ショットの集合であるショット群から所定の基準を満足するショット群を選択するショット選択手段と、選択された前記ショット群に含まれる１つ以上のショット内から人物の顔と推定される画像領域である顔領域を検出する顔領域検出手段と、連続する前記フレーム間の前記顔領域の座標群が同一と看做される場合、同一と看做される前記各顔領域に対して同一の顔属性値を付与する顔領域追跡手段と、前記顔領域追跡手段から同一の顔属性を付与された前記顔領域の座標群を受け取り、同一ショット群に含まれる前記顔領域を特徴量に従って分類し、分類された同一ショット群に含まれる前記顔領域群を同一の人物と推定して、主要な登場人物の顔領域群として選択する顔領域選択手段と、を備えることを特徴とする。

本発明によれば、類似ショットの集合であるショット群から所定の基準を満足するショット群を選択し、選択されたショット群に含まれる１つ以上のショット内から人物の顔と推定される画像領域である顔領域を検出し、連続するフレーム間の顔領域の座標群が同一と看做される場合、同一と看做される各顔領域に対して同一の顔属性値を付与する。そして、同一ショット群に含まれる顔領域を特徴量に従って分類し、分類された同一ショット群に含まれる顔領域群を同一の人物と推定して、主要な登場人物の顔領域群として選択することにより、映像を構成するショットの類似性と顔領域検出とを組み合わせて主要な登場人物の選択を行うことにより、一部のショット区間において顔を検出できない人物が含まれる映像であっても、登場人物の順位付け・選択が可能となり、テレビ番組において従来技術よりも実際の番組内容に即した主要人物の顔を選択することができる、という効果を奏する。また、画面全体の大局的な類似度に基づいて分類するため、顔の向きや大きさ、表情が異なっていても正規化や特徴点検出を行う必要がなく、高速・高精度に分類することができる、という効果を奏する。

また、本発明によれば、類似ショットの集合であるショット群から顔領域が含まれるとともに所定の基準を満足するショット群を選択し、同一ショット群に含まれる顔領域を特徴量に従って分類し、分類された同一ショット群に含まれる顔領域群を同一の人物と推定して、主要な登場人物の顔領域群として選択することにより、映像を構成するショットの類似性と顔領域検出とを組み合わせて主要な登場人物の選択を行うことにより、一部のショット区間において顔を検出できない人物が含まれる映像であっても、登場人物の順位付け・選択が可能となり、テレビ番組において従来技術よりも実際の番組内容に即した主要人物の顔を選択することができる、という効果を奏する。また、画面全体の大局的な類似度に基づいて分類するため、顔の向きや大きさ、表情が異なっていても正規化や特徴点検出を行う必要がなく、高速・高精度に分類することができる、という効果を奏する。

図１は、本発明の第１の実施の形態にかかる映像処理装置の構成を示すブロック図である。図２は、映像処理装置の概略構成を示すブロック図である。図３は、顔領域追跡の一例を示す模式図である。図４は、領域追跡の例を示す模式図である。図５は、顔属性値の付与例を示す模式図である。図６は、顔領域の選択の一例を示す模式図である。図７は、その顔領域の分類の一例を示す模式図である。図８は、第１の選択基準の例を示す模式図である。図９は、第２の選択基準の例を示す模式図である。図１０は、第３の選択基準の例を示す模式図である。図１１は、顔検出処理の流れを示すフローチャートである。図１２は、顔検出の一例を示す模式図である。図１３は、本発明の第２の実施の形態にかかる映像処理装置の概略構成を示すブロック図である。図１４は、顔検出処理の流れを示すフローチャートである。図１５は、本発明の第３の実施の形態にかかる映像処理装置の概略構成を示すブロック図である。図１６は、同一人物に別の人物を示す属性が付与される例を示す模式図である。図１７は、顔領域除去処理の流れを示すフローチャートである。図１８は、特徴量抽出手法を示す模式図である。

以下に添付図面を参照して、この発明にかかる映像処理方法および映像処理装置の最良な実施の形態を詳細に説明する。

本発明の第１の実施の形態を図１ないし図１２に基づいて説明する。本実施の形態は映像処理装置としてパーソナルコンピュータを適用した例である。

図１は、本発明の第１の実施の形態にかかる映像処理装置１の構成を示すブロック図である。映像処理装置１は、情報処理を行うＣＰＵ（Central Processing Unit）１０１、ＢＩＯＳなどを記憶した読出し専用メモリであるＲＯＭ（Read Only Memory）１０２、各種データを書換え可能に記憶するＲＡＭ（Random Access Memory）１０３、各種データベースとして機能するとともに各種のプログラムを格納するＨＤＤ（Hard Disk Drive）１０４、記憶媒体１１０を用いて情報を保管したり外部に情報を配布したり外部から情報を入手するためのＤＶＤドライブ等の媒体駆動装置１０５、ネットワーク２を介して外部の他のコンピュータと通信により情報を伝達するための通信制御装置１０６、処理経過や結果等を操作者に表示するＬＣＤ（Liquid Crystal Display）等の表示部１０７、並びに操作者がＣＰＵ１０１に命令や情報等を入力するためのキーボードやマウス等の入力部１０８等から構成されており、これらの各部間で送受信されるデータをバスコントローラ１０９が調停して動作する。

このような映像処理装置１では、ユーザが電源を投入するとＣＰＵ１０１がＲＯＭ１０２内のローダーというプログラムを起動させ、ＨＤＤ１０４よりＯＳ（Operating System）というコンピュータのハードウェアとソフトウェアとを管理するプログラムをＲＡＭ１０３に読み込み、このＯＳを起動させる。このようなＯＳは、ユーザの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。ＯＳのうち代表的なものとしては、Ｗｉｎｄｏｗｓ（登録商標）等が知られている。これらのＯＳ上で走る動作プログラムをアプリケーションプログラムと呼んでいる。なお、アプリケーションプログラムは、所定のＯＳ上で動作するものに限らず、後述の各種処理の一部の実行をＯＳに肩代わりさせるものであってもよいし、所定のアプリケーションソフトやＯＳなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。

ここで、映像処理装置１は、アプリケーションプログラムとして、映像処理プログラムをＨＤＤ１０４に記憶している。この意味で、ＨＤＤ１０４は、映像処理プログラムを記憶する記憶媒体として機能する。

また、一般的には、映像処理装置１のＨＤＤ１０４にインストールされるアプリケーションプログラムは、ＤＶＤなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク、半導体メモリ等の各種方式のメディア等の記憶媒体１１０に記録され、この記憶媒体１１０に記録された動作プログラムがＨＤＤ１０４にインストールされる。このため、ＤＶＤ等の光情報記録メディアやＦＤ等の磁気メディア等の可搬性を有する記憶媒体１１０も、アプリケーションプログラムを記憶する記憶媒体となり得る。さらには、アプリケーションプログラムは、例えば通信制御装置１０６を介して外部のネットワーク２から取り込まれ、ＨＤＤ１０４にインストールされても良い。

映像処理装置１は、ＯＳ上で動作する映像処理プログラムが起動すると、この映像処理プログラムに従い、ＣＰＵ１０１が各種の演算処理を実行して各部を集中的に制御する。映像処理装置１のＣＰＵ１０１が実行する各種の演算処理のうち、本実施の形態の特長的な処理について以下に説明する。

図２は、映像処理装置１の概略構成を示すブロック図である。図２に示すように、映像処理装置１は、映像処理プログラムに従うことにより、顔領域検出手段１１と、顔領域追跡手段１２と、特徴量抽出手段１３と、カット検出手段１４と、類似ショット検出手段１５と、ショット選択手段１６と、顔領域選択手段１７と、を備えている。なお、符号２１は映像入力端子、符号２２は属性情報出力端子である。

顔領域検出手段１１は、映像入力端子２１を介して入力された写真など単一の静止画像、または、再生時刻と対応づけられて動画像の構成要素となるべき静止画像（１フレーム）から、人間の顔と推定される画像領域（以下、顔領域という）を検出する。顔と推定される画像領域の存在有無や、その画像を特定する方法としては、例えばMitaらによる「Joint Haar-like Features for Face Detection」（Proceedings of the Tenth IEEE International Conference on Computer Vision （ICCV’05）,2005）などの方法を用いることができる。なお、顔検出手法は上述したものに限定されるものではなく、他の顔検出手法を用いるようにしても良い。

顔領域追跡手段１２は、対象フレームおよびその前後のフレームを対象として顔領域検出手段１１で検出した顔領域の座標群が所定の誤差範囲内で同一と看做されるかどうかを追跡する。

ここで、図３は顔領域追跡の一例を示す模式図である。動画像中の第ｉ番目のフレームからＮ_ｉ個の顔領域が検出されたとする。以下、ｉ番目のフレームに含まれる顔領域の集合をＦ_ｉと示す。これを中心座標（ｘ，ｙ）と幅（ｗ）、高さ（ｈ）からなる矩形領域として表現し、このフレーム中のｊ番目の顔領域に係る座標群をｘ（ｆ），ｙ（ｆ），ｗ（ｆ），ｈ（ｆ）と記す。ただし、ｆはＦ_ｉの要素である（ｆ∈Ｆ_ｉ）。顔領域を追跡するに際しては、一例として「２フレーム間の中心座標の変動が距離ｄｃ以内」かつ「幅の変動がｄｗ以内」かつ「高さの変動がｄｈ以内」であることを条件とする。このとき、「（ｘ（ｆ）−ｘ（ｇ））^２＋（ｙ（ｆ）−ｙ（ｇ））^２≦ｄｃ^２」かつ「｜ｗ（ｆ）−ｗ（ｇ）｜≦ｄｗ」かつ「｜ｈ（ｆ）−ｈ（ｇ）｜≦ｄｈ」であるとき、顔領域ｆおよびｇは同一人物の顔であると推定される。ここで、「｜…｜」は絶対値記号である。上記の計算は、ｆ∈Ｆ_ｉである顔領域ｆと、ｇ∈Ｆ_ｊである顔領域ｇのすべてに対して実行される。

なお、顔領域追跡手法は上述したものに限定されるものではなく、他の顔領域追跡手法を用いるようにしても良い。例えば、ある人物とカメラの間を別の人物が横切るような場面では、上述した顔領域追跡手法は誤検出を生じさせる場合がある。この問題を解決するために、図４に示すように、追跡対象としているフレームから２フレーム以上前の情報から個々の顔領域の動きの傾向を推測し、横切り（オクルージョン）を考慮した領域追跡を行ってもよい。

また、上述した顔領域追跡手法では、顔領域として矩形領域を例としたが、多角形、楕円形等の領域形状をとっても構わない。

また、顔領域追跡手段１２は、後述するカット検出手段１４と接続されており、追跡対象としている２フレーム間にカットがある場合には、図５に示すように、上記の追跡を打ち切り、２フレーム間には同一の属性を付与すべき顔領域の対はないと判定する。

そして、顔領域追跡手段１２は、上記のように２つのフレームから同一人物と推定される顔領域の対が発見されたとき、対となった顔領域に対して同一の顔属性値（ＩＤ）を付与する。

特徴量抽出手段１３は、映像入力端子２１を介して入力された写真など単一の静止画像、または、再生時刻と対応づけられて動画像の構成要素となるべき静止画像（１フレーム）から、その内容構成の理解処理（顔検出やオブジェクト検出など）を施すことなく、後段のカット検出手段１４のカット検出および類似ショット検出手段１５の類似ショット検出に用いられるフレームの特徴量を算出する。フレームの特徴量としては、フレーム内に含まれる画素（ピクセル）の輝度や色の平均値やそれらのヒストグラム、画面全体または画面を機械的に分割した小領域におけるオプティカルフロー（動きベクトル）などが挙げられる。

カット検出手段１４は、特徴量抽出手段１３によって算出されたフレームの特徴量を用いて、連続するフレーム間でそれらの一つあるいは複数が大きく変化した点を検出するカット検出を実行する。カット検出とは、時間的に連続する２フレーム間にカメラの切り替えがあったかどうかを検出することを指しており、「シーンチェンジ検出」と称されることもある。カットとは、テレビ放送等の場合、放送波に乗せて送出するための画面を撮影しているカメラを別のカメラに切り替えたり、カメラから事前録画した映像に切り替えたり、２つの異なる事前録画映像を編集によって時間的に接続した瞬間のことである。ＣＧ（コンピュータグラフィックス）やアニメーション等を用いた人工的な映像制作においても、上記の自然画像を用いた映像制作と同様の意図を持って切り替えられている点をカットという。本実施の形態においては、このような画面切り替わりの瞬間をカット、あるいはカット点と呼ぶことにし、カットによって分割される時間区間の映像をショットと称する。

一般的にカット検出はフレーム内に含まれる画素（ピクセル）の輝度や色の平均値やそれらのヒストグラム、あるいはオプティカルフロー（動きベクトル）を画面全体、または画面を機械的に分割した小領域から特徴量を算出し、連続するフレーム間でそれらの一つあるいは複数が大きく変化した点をもってカットと判定する方法が用いられる。

カット検出の手法には様々な提案があり、例えば、長坂らによる「ビデオ作品の場面変わりの自動判別法」（情報処理学会第４０回全国大会論文集ｐｐ．６４２−６４３。１９９０年）によって開示されている方法を用いることができる。なお、カット検出手法は上述したものに限定されるものではなく、他のカット検出手法を用いるようにしても良い。

このようにしてカット検出手段１４によって検出されたカット点は顔属性付与手段１２に送られ、カット検出手段１４によって時間分割されたショットは類似ショット検出手段１５に送られる。

類似ショット検出手段１５は、カット検出手段１４から送られた時間分割されたショットの類似ショットを検出する。ここで、ショットは「港の倉庫で刑事が犯人を追いつめる」「クイズの第１問に対する回答を制限時間内に回答者が考える」といった「場面」や「シーン」よりも細かい時間単位である。場面やシーン、あるいはコーナーは、複数のショットから構成されるが、同一のカメラから撮影されたショットは、そのカメラの位置移動やズーミング（クローズアップ）の度合い、カメラがとらえる方向など「カメラアングル」が大きく異ならない限り、時間的に離れていても画面としては類似した映像となる。本実施の形態においては、このような類似した映像を「類似ショット」と称する。ＣＧやアニメーション等による人工的な映像制作においても同様の制作意図をもち、同じ被写体を同じ方向から撮影したかのように合成されたショットを類似ショットということができる。

ここで、類似ショット検出手段１５による類似ショットの検出方法について詳述する。類似ショット検出においても、上述したカット検出手段１４におけるカット検出と同様の特徴量が用いられ、比較対象とする２つのショットからそれぞれ１枚または複数枚取り出されたフレーム間での特徴量の比較を行い、それらの差が所定の範囲内にある場合に、フレームを取り出した元となっている２つのショットを類似ショットと判定する。また、ＭＰＥＧなどの動画像符号化方式では、同じ符号化器（エンコーダ）を用いて符号化を行った場合に、全く同一、またはきわめて類似したショットにおいて、同一または類似度の高い符号データを保持する可能性もある。このため、符号化データを複合することなく比較することにより、類似ショットを見つけても良い。

類似ショット検出の手法としては、例えば、特開平９−２７０００６号公報に開示されている手法を用いることができる。また、他の類似ショット検出手法の一例としては、高速に実行可能である、青木「映像対話検出によるテレビ番組コーナー構成高速解析システム」（電子情報通信学会誌Ｄ−ＩＩ，Ｖｏｌ．Ｊ８８−Ｄ−ＩＩ，Ｎｏ．１，２００５年１月，ｐｐ．１７−２７）に開示されている手法を用いることができる。なお、類似ショット検出は上述したものに限定されるものではなく、他の類似ショット検出手法を用いるようにしても良い。

以上の処理を全ての入力画像に対して行うことにより、映像中の登場人物の顔については、その登場の時間的連続性から複数のフレームにわたって同一の属性を持った顔領域の座標群として同一の属性値が付与される。また、映像そのものについては、カット検出によって分割された各ショットに類似のものがある場合には、類似ショット同士に同一の属性が付与された状態となっている。

ところで、上述した処理では、顔画像について、その画像中で目や鼻に相当する部分がどこであるかといった特徴点検出を行ったり、他の顔領域とのマッチングを行ったり、あるいは顔画像と判定された領域画像を辞書に登録したり、辞書との比較を行ったりといった、従来の顔認識システムにおける処理は行われていない。背景技術で説明した非特許文献１の図１における（２）「FaceDetection」までの処理を行ったにすぎない。このような処理は、前述したMitaらの論文に一例として開示されているように、高速に実行可能であり、本実施の形態においては、顔認識処理としてより時間を要する非特許文献１の図１における（３）移行の処理を省略している。

次に、上述のような問題を解決すべく、本実施の形態の映像処理装置１が備える特徴的な機能について説明する。

ショット選択手段１６は、どの入力フレームにおいて顔領域が検出されたかを示す情報を顔領域検出手段１１から受け取るとともに、画面全体の類似性に基づき付与された属性を含むショットの情報を類似ショット検出手段１５から受け取り、下記に述べる方法によって映像中の主要な人物が登場すると推定されるショットの選択を行う。

映像中の主要な人物が登場すると推定されるショットの選択手法について説明する。まず、ショット選択手段１６は、同一の属性を付与された類似ショットの集合をショット群とし、ショット群単位に顔領域が含まれるか否かを判別する。ただし、他に同一の属性を付与されたショットが存在しないショットについては、単独でショット群を構成するとする。なお、判定はショット群のいずれかのショットに顔領域が含まれていればよい。次いで、ショット選択手段１６は、後述する所定の基準を満足している顔領域が含まれるショット群を選択する。このような処理は、所定の数のショットを選択するか、または、全てのショットを処理するまで行われる。

ここで、ショットの選択基準の例について、いくつか具体的に説明する。

第１の選択基準は、ショット群に含まれるショットの数が予め与えられた閾値を超えるか否かを基準とするものである。これは、主要な人物であれば多くのショットに登場することが推定されるためである。なお、ショット群に含まれるショットの数に限るものではなく、ショットの数の代わりにショット群に含まれるショットの合計時間の長さを用いるようにしてもよい。また、ショットの数およびショットの合計時間の両者を用いて、何れか一方が閾値を超えることを基準にしてもよいし、両方が閾値を超えることを基準にしてもよい。

第２の選択基準は、予め全てのショット群について、ショット群に含まれるショットの数を基準にして並べておき、上位より所定の数だけ選択するものである。なお、ショット群に含まれるショットの数に限るものではなく、ショット群に含まれるショットの合計時間の長さを用いるようにしてもよい。また、ショットの数およびショットの合計時間の両者を用いるようにしてもよい。ショットの数およびショットの合計時間の両者を用いるには、一旦、ショット数で並び替えた後、同順位のものを合計時間でさらに並び替えたり、それぞれを重み付けして加算した新たな指標を作る方法などがある。

ところで、主要な登場人物は何度も映像中に登場するため、類似ショットとならない複数のショット群に渡って登場することも予想される。このような場合、同じ人物を含んだショット群が何度も選択されてしまう可能性がある。そこで、より多様なショットの選択を可能にする第３，第４の選択基準について説明する。

第３の選択基準は、既に選択されているショット群と当該ショット群の特徴量の類似度が予め与えられた閾値を下回るか否かを基準とする。このような基準により選択を行うことで、同じような内容のショットばかりとならず、多様なショット群の選択が可能である。なお、ショット群間の類似度には、例えば類似ショット検出手段１５で求めた類似度を用いて、各ショット群に属するショットのうち最も類似度の大きなショットの組み合わせにより得られる類似度を採用する。最大類似度を得る組み合わせは、全部の組み合わせについて算出することによって探索を行えばよい。なお、類似度の算出法はこれに限定されるものではなく、別の特徴量を用いて類似度を算出しても構わない。

第４の選択基準は、選択された全ショット群の相互の特徴量の類似度の総和が最小、あるいは所定の誤差範囲内でそれに準じるようにとなるように選択する。選択されたｎ個のショット群の第ｉ番目のショット群と第ｊ番目のショット群の類似度をｓｉｍ（ｉ，ｊ）とすると、類似度の総和は以下に示す式（１）で表される。すなわち、全ショット群の組み合わせについて類似度の総和Ｓを算出し、類似度の総和Ｓが最小となるショット群の組み合わせを用いることで、最適な解を求めることができる。

なお、山登り法等の適当な最適化手法により、準最適な解を求めてもよい。また、類似度の総和に代えてエントロピー（乱雑さを示す指標）を用いて、エントロピーが最大となるように選択してもよい。

以上、ショットの選択基準についての具体例を説明したが、選択基準は上述の例に限られるものではなく、適宜最適な基準を用いて選択することができる。

顔領域選択手段１７は、時間的に連続して近傍座標に存在していることのみを理由に同一人物と推定され、同一の顔属性を付与された顔領域の座標群を顔領域追跡手段１２から受け取るとともに、主要な登場人物が含まれると推定されて選択されたショット群の情報をショット選択手段１６から受け取り、下記に述べる方法により主要な登場人物の顔領域を選択する。

主要な登場人物の顔領域の選択手法について説明する。まず、顔領域選択手段１７は、同一ショット群に含まれる顔領域を、特徴量に従って分類する。顔領域の特徴量には、例えば、顔領域座標群を用いる。

ところで、顔領域の属性は、異なるショット間において、同一人物であるか否かの推定はなされていない。ショット内の人物が一人であれば、類似ショットには同一の人物が登場するという前提のもとに同一人物であると推定することができるが、ショットに複数の人物が存在する場合には、同一人物ごとに分類する必要が生じることになる。ここで、図６は複数の人物が登場する場合における顔領域の選択の一例を示す模式図、図７はその顔領域の分類の一例を示す模式図である。図６および図７に示すように、顔領域選択手段１７は、ショット間で最も中心座標の距離が近い位置にある顔領域を同一人物として分類する。第i番目のショット群の第ｊ番目のショットに含まれる顔領域群の集合をＦＳ_ｉｊとする。ただし、顔領域群とは同一の属性が付与された一連の顔領域のことを言う。各顔領域群の中から１つの顔領域（例えば、先頭、中央、終端や最も正面を向いたもの）をその顔領域群の代表とする。図６においては、ショット群の中から顔領域群対を取り出し、それぞれの代表の顔領域の中心座標を（ｘ（ａ），ｙ（ａ））および（ｘ（ｂ），ｙ（ｂ））として表現している（ａ∈ＦＳ_ｉｊ，ｂ∈ＦＳ_ｉｋ）。ＦＳ_ｉｊおよびＦＳ_ｉｋ間で全ての顔領域群の組み合わせについて距離を求め、最も距離が短くなるものを対応付ける。距離は一例として（ｘ（ａ）−ｘ（ａ））^２＋（ｙ（ｂ）−ｙ（ｂ））^２として算出できる。また、同一人物であるにもかかわらず顔が検出できずにショット内で顔領域群が分割された場合についても、ショット内で同様に最も近い位置の顔領域群を対応づける。以上の処理により対応付けられた顔領域群は、同一の人物と推定されるため、図７に示すように、新しく同一の属性を付与する。このとき付与される属性はもとの属性を修正したものでもよいし、もとの属性を残したまま別に付与したものでもよい。なお、上記の例では、顔領域群の比較において、各顔領域群の中から１つの顔領域をその顔領域群の代表としたが、各顔領域群内での平均値を用いても良い。また、上記の例では、顔領域の特徴量として顔領域座標群を用いたが、顔領域座標群に対応する時刻の静止画より顔画像を抽出して算出される画像的な特徴量を用いることもできる。

次に、顔領域選択手段１７は、分類された同一ショット群に含まれる同一の属性が付与された一連の顔領域である顔領域群を同一の人物と推定して、後述する基準を満たす場合に、主要な登場人物の顔領域群として選択する。

このような処理は、所定の数の顔領域群を選択するか、または、全てのショットを処理するまで行われる。

ここで、顔領域群の選択基準の例について、いくつか具体的に説明する。

第１の選択基準は、図８に示すように、選択されたショット群に含まれる全ての顔領域群を主要な登場人物の顔領域群として選択する。

第２の選択基準は、図９に示すように、ショット群に順位が付与されている場合に、ショット群ごとに同一の属性が付与された顔領域群の集合を並び替えて、上位のものを選択する。この選択をショット群の順位に基づいて行う。ショット内の並び替えは、例えば，顔領域群の集合に含まれる顔領域の数が多いものから降順に並べる。また、ショット群の順位は、ショット選択手段１６でショット群を選択した順位に従って行う。

第３の選択基準は、図１０に示すように、選択された全ショット群に含まれる顔領域群の集合を並び替えて、その中から上位のものから選択する。ショット内の並び替えは、例えば、顔領域群の集合に含まれる顔領域の数が多いものから降順に並べる。

顔領域選択手段１７は、以上のようにして選択された主要な登場人物と推定される顔領域を、出力端子２２より出力する。なお，このときの出力は顔領域群の集合であってもよいし、顔領域群の集合の中から選ばれた顔領域群であってもよいし、顔領域群の中から選ばれた顔領域であってもよい。これらの選択基準は、例えば、時間的に先頭のものを選んだり、顔検出の際に最も正面を向いていると推定されたものを選んだりすればよい。

次に、映像処理装置１のＣＰＵ１０１が実行する顔検出処理の流れを図１１のフローチャートを参照しつつ説明する。

図１１に示すように、映像入力端子２１に写真など単一の静止画像、または、再生時刻と対応づけられて動画像の構成要素となるべき静止画像（１フレーム）が入力されると（ステップＳ１のＹｅｓ）、入力された静止画像は顔領域検出手段１１に送られ、人物の顔と推定される画像領域（顔領域）が存在するか否かを判定する（ステップＳ２）。顔領域検出手段１１において顔と推定される画像領域（顔領域）が存在していると判定した場合には（ステップＳ２のＹｅｓ）、顔領域検出手段１１はその顔領域の座標群を計算する（ステップＳ３）。一方、顔領域検出手段１１において顔と推定される画像領域（顔領域）が存在していないと判定した場合には（ステップＳ２のＮｏ）、ステップＳ１に戻り、次の静止画像の入力に待機する。

続くステップＳ４においては、対象フレームおよびその前後のフレームを対象として顔領域検出手段１１によって得られた顔領域の座標群が所定の誤差範囲内で同一と看做されるかどうかが顔領域追跡手段１２において検定される。

顔領域の座標群が所定の誤差範囲内で同一と看做されない場合には（ステップＳ４のＮｏ）、ステップＳ６に進み、２フレーム間には同一の属性を付与すべき顔領域の対はないと判定し、顔領域追跡手段１２によってそれぞれ新しい顔属性が付与される。

顔領域の座標群が所定の誤差範囲内で同一と看做される場合には（ステップＳ４のＹｅｓ）、ステップＳ５に進み、追跡対象としている２フレーム間にカットがあるか否かを判定する。追跡対象としている２フレーム間にカットがある場合には（ステップＳ５のＹｅｓ）、顔領域追跡手段１２による追跡を打ち切り、２フレーム間には同一の属性を付与すべき顔領域の対はないと判定し、顔領域追跡手段１２によってそれぞれ新しい顔属性が付与される（ステップＳ６）。

一方、追跡対象としている２フレーム間にカットがない場合には（ステップＳ５のＮｏ）、対となった顔領域には顔領域追跡手段１２によって同一の属性値（ＩＤ）が付与される（ステップＳ７）。

以上のようなステップＳ１〜Ｓ７の処理は、すべての入力画像について実行されるまで（ステップＳ８のＹｅｓ）、繰り返される。

以上の過程において、映像中の登場人物の顔については、その登場の時間的連続性から複数のフレームにわたって同一の属性を持った顔領域の座標群として同一の属性値が付与される。

一方、映像入力端子２１に写真など単一の静止画像、または、再生時刻と対応づけられて動画像の構成要素となるべき静止画像（１フレーム）が入力されると（ステップＳ９のＹｅｓ）、特徴量抽出手段１３において、画像全体からその内容構成の理解処理（顔検出やオブジェクト検出など）を施すことなくカット検出および類似ショット検出に用いられる特徴量を抽出するとともに（ステップＳ１０）、特徴量抽出手段１３によって抽出されたフレームの特徴量を用いてカット検出手段１４においてカット検出を行う（ステップＳ１１）。

次いで、カット検出手段１４によって時間分割されたショットについて、類似ショット検出手段１５によって類似ショットの存在を検定し（ステップＳ１２）、類似ショットが存在する場合には（ステップＳ１２のＹｅｓ）、類似ショット検出手段１５によって類似と判定された双方のショットに同一の属性値（ＩＤ）を付与する（ステップＳ１３）。一方、類似ショットが存在しない場合には（ステップＳ１２のＮｏ）、ステップＳ９に戻り、次の静止画像（１フレーム）の入力に待機する。

以上のようなステップＳ９〜Ｓ１３の処理は、すべての入力画像について実行されるまで（ステップＳ１４のＹｅｓ）、繰り返される。

以上の過程において、映像については、カット検出によって分割された各ショットに、類似のものがあれば類似ショット同士に同一の属性が付与された状態となる。

なお、ステップＳ１〜Ｓ８の処理とステップＳ９〜Ｓ１４の処理は同時に処理を行っても良いし、一方から先に順次処理を行ってもよい。ただし、ステップＳ５においてカットを用いて属性の付与を行う場合には、カットを用いて属性の付与を行う時点までにカット検出手段１４によって該当するカットを得られるように処理を行う必要があり、該当するカットはカット検出手段１４によってカットを用いて属性の付与を行う時点までに得られる。同時に行う場合は、ステップＳ１とステップＳ９とは統合して、取得した静止画を顔領域検出手段１１と特徴量抽出手段１３に同時に送るようにしてもよい。

続いて、ショット選択手段１６は、同一の属性を付与されたショットの集合をショット群とし、ショット群単位に顔領域が含まれるか否かを判別する（ステップＳ１５）。ショット選択手段１６は、顔領域が含まれる場合は（ステップＳ１５のＹｅｓ）、ショット群が所定の基準を満足しているか否かをさらに判定する（ステップＳ１６）。ショット選択手段１６は、ショット群が所定の基準を満足している場合は（ステップＳ１６のＹｅｓ）、当該ショット群を選択する（ステップＳ１７）。一方、ショット群が所定の基準を満足していない場合は（ステップＳ１６のＮｏ）、ステップＳ１５に戻り、次のショット群について処理する。

以上のようなステップＳ１５〜Ｓ１７の処理は、所定の数のショットを選択するか、全てのショットを処理するまで（ステップＳ１８のＹｅｓ）、繰り返される。

続いて、同一ショット群に含まれる顔領域を特徴量に従って分類し（ステップＳ１９）、顔領域が所定の基準を満たすか否かを判定する（ステップＳ２０）。顔領域が所定の基準を満たす場合には（ステップＳ２０のＹｅｓ）、顔領域を主要な登場人物として選択する（ステップＳ２１）。一方、顔領域が所定の基準を満たさない場合には（ステップＳ２０のＮｏ）、次の顔領域について処理する。

以上のようなステップＳ２０〜Ｓ２１の処理は、所定の数の顔領域群を選択するか、全てのショットを処理するまで（ステップＳ２２のＹｅｓ）、繰り返される。

所定の数の顔領域群を選択するか、全てのショットを処理すると（ステップＳ２２のＹｅｓ）、以上のようにして選択された主要な登場人物と推定される顔領域を出力端子２２より出力して（ステップＳ２３）、処理を終了する。

このように本実施の形態によれば、類似ショットの集合であるショット群から顔領域が含まれるとともに所定の基準を満足するショット群を選択し、同一ショット群に含まれる顔領域を特徴量に従って分類し、分類された同一ショット群に含まれる顔領域群を同一の人物と推定して、主要な登場人物の顔領域群として選択する。このように映像を構成するショットの類似性と顔領域検出とを組み合わせて主要な登場人物の選択を行うことにより、図１２に示すように、一部のショット区間において顔を検出できない人物が含まれる映像であっても、登場人物の順位付け・選択が可能となり、テレビ番組において従来技術よりも実際の番組内容に即した主要人物の顔を選択することができる。また、画面全体の大局的な類似度に基づいて分類するため、顔の向きや大きさ、表情が異なっていても正規化や特徴点検出を行う必要がなく、高速・高精度に分類することができる。

このように顔の登場頻度や時間ではなく、その人物が含まれると推定されるショットを基準に登場人物の分類及び主要人物の特定を行うようにしたのは、一般的にテレビ番組では同じカメラアングルで撮影された類似ショットには同じ人物が登場する可能性が高いからである。

次に、本発明の第２の実施の形態を図１３および図１４に基づいて説明する。なお、前述した第１の実施の形態と同じ部分は同じ符号で示し説明も省略する。

本実施の形態は、第１の実施の形態とは処理の流れが異なるものである。図１３は、本発明の第２の実施の形態にかかる映像処理装置１の概略構成を示すブロック図である。図１３に示すように、映像処理装置１は、映像処理プログラムに従うことにより、顔領域検出手段１１と、顔領域追跡手段１２と、特徴量抽出手段１３と、カット検出手段１４と、類似ショット検出手段１５と、ショット選択手段１６と、顔領域選択手段１７と、を備えている。なお、符号２１は映像入力端子、符号２２は属性情報出力端子である。

第１の実施の形態と異なる点は、所定の基準を満足しているショット群を、ショット選択手段１６から顔領域検出手段１１に渡すようにしている点である。すなわち、顔領域検出手段１１は、ショット選択手段１６から渡された所定の基準を満足しているショット群を用いて、静止画像（１フレーム）から顔領域を検出する。

次に、第２の実施の形態にかかる映像処理装置１のＣＰＵ１０１が実行する顔検出処理の流れを図１４のフローチャートを参照しつつ説明する。第１の実施の形態において図１１に示したフローチャートによる動作との違いは、入力された一部の静止画像についてのみ顔検出および追跡を行うことであり、これによって処理量の削減が期待できる。また、削減できた処理量を顔の特徴点検出や正規化を伴うより高精度な顔検出や追跡の処理にまわすことで、図１１の処理量と同等な処理量で精度の高い処理が可能である。なお、図１４のフローチャートの大部分は図１１のフローチャートにおける各ステップの処理の順番を入れ替えて踏襲したものとなっているため、重複する部分については簡単な説明にとどめる。

図１４に示すように、映像入力端子２１に写真など単一の静止画像、または、再生時刻と対応づけられて動画像の構成要素となるべき静止画像（１フレーム）が入力されると（ステップＳ３１のＹｅｓ）、特徴量抽出手段１３において、画像全体からその内容構成の理解処理（顔検出やオブジェクト検出など）を施すことなくカット検出および類似ショット検出に用いられる特徴量を抽出するとともに（ステップＳ３２）、特徴量抽出手段１３によって抽出されたフレームの特徴量を用いてカット検出手段１４においてカット検出を行う（ステップＳ３３）。

次いで、カット検出手段１４によって時間分割されたショットについて、類似ショット検出手段１５によって類似ショットの存在を検定し（ステップＳ３４）、類似ショットが存在する場合には（ステップＳ３４のＹｅｓ）、類似ショット検出手段１５によって類似と判定された双方のショットに同一の属性値（ＩＤ）を付与する（ステップＳ３５）。一方、類似ショットが存在しない場合には（ステップＳ３４のＮｏ）、ステップＳ３１に戻り、次の静止画像（１フレーム）の入力に待機する。

以上のようなステップＳ３１〜Ｓ３５の処理は、すべての入力画像について実行されるまで（ステップＳ３６のＹｅｓ）、繰り返される。

続いて、ショット選択手段１６は、ショット群が所定の基準を満足しているか否かをさらに判定する（ステップＳ３７）。ショット選択手段１６は、ショット群が所定の基準を満足している場合は（ステップＳ３７のＹｅｓ）、当該ショット群を選択して（ステップＳ３８）、ステップＳ３９に進む。一方、ショット群が所定の基準を満足していない場合は（ステップＳ３７のＮｏ）、次のショット群について判定する。

ステップＳ３９では、顔領域検出手段１１が、選択されたショット群に含まれる１つ以上のショット内に人物の顔と推定される画像領域（顔領域）が存在するか否かを判定する。顔領域検出手段１１において顔と推定される画像領域（顔領域）が存在していると判定した場合には（ステップＳ３９のＹｅｓ）、顔領域検出手段１１はその顔領域の座標群を計算する（ステップＳ４０）。一方、顔領域検出手段１１において顔と推定される画像領域（顔領域）が存在していないと判定した場合には（ステップＳ３９のＮｏ）、ステップＳ３７に戻り、次のショットの入力に待機する。

続くステップＳ４１においては、対象フレームおよびその前後のフレームを対象として顔領域検出手段１１によって得られた顔領域の座標群が所定の誤差範囲内で同一と看做されるかどうかが顔領域追跡手段１２において検定される。

顔領域の座標群が所定の誤差範囲内で同一と看做されない場合には（ステップＳ４１のＮｏ）、ステップＳ４２に進み、顔領域追跡手段１２による追跡を打ち切り、２フレーム間には同一の属性を付与すべき顔領域の対はないと判定し、顔領域追跡手段１２によってそれぞれ新しい顔属性が付与される。

顔領域の座標群が所定の誤差範囲内で同一と看做される場合には（ステップＳ４１のＹｅｓ）、ステップＳ４３に進み、対となった顔領域には顔領域追跡手段１２によって同一の属性値（ＩＤ）が付与される。

以上のようなステップＳ４１〜Ｓ４３の処理は、ショット内のすべての画像について実行されるまで（ステップＳ４４のＹｅｓ）、繰り返される。

また、ステップＳ３７〜Ｓ４４の処理は、所定の数の顔領域あるいは顔領域を含むショットが得られるか、全部のショットを処理するまで（ステップＳ４５のＹｅｓ）、繰り返す。

続いて、顔領域選択手段１７が、顔領域の属性は異なるショット間（ステップＳ３９においてショット群の複数のショットを用いた場合）あるいは同一のショット内の離れた時間に顔領域について、同一人物であるか否かの推定はなされていないので、まず、同一ショット群に含まれる顔領域を座標群に従って分類し（ステップＳ４６）、顔領域が所定の基準を満たすか否かを判定する（ステップＳ４７）。顔領域が所定の基準を満たす場合には（ステップＳ４７のＹｅｓ）、顔領域を主要な登場人物として選択する（ステップＳ４８）。一方、顔領域が所定の基準を満たさない場合には（ステップＳ４７のＮｏ）、次の顔領域について処理する。

以上のようなステップＳ４７〜Ｓ４８の処理は、所定の数の顔領域群を選択するか、全てのショットを処理するまで（ステップＳ４９のＹｅｓ）、繰り返される。

所定の数の顔領域群を選択するか、全てのショットを処理すると（ステップＳ４９のＹｅｓ）、以上のようにして選択された主要な登場人物と推定される顔領域を出力端子２２より出力して（ステップＳ５０）、処理を終了する。

このように本実施の形態によれば、類似ショットの集合であるショット群から所定の基準を満足するショット群を選択し、選択されたショット群に含まれる１つ以上のショット内から人物の顔と推定される画像領域である顔領域を検出し、連続するフレーム間の顔領域の座標群が同一と看做される場合、同一と看做される各顔領域に対して同一の顔属性値を付与する。そして、同一ショット群に含まれる顔領域を特徴量に従って分類し、分類された同一ショット群に含まれる顔領域群を同一の人物と推定して、主要な登場人物の顔領域群として選択する。このように映像を構成するショットの類似性と顔領域検出とを組み合わせて主要な登場人物の選択を行うことにより、図１２に示すように、一部のショット区間において顔を検出できない人物が含まれる映像であっても、登場人物の順位付け・選択が可能となり、テレビ番組において従来技術よりも実際の番組内容に即した主要人物の顔を選択することができる。また、画面全体の大局的な類似度に基づいて分類するため、顔の向きや大きさ、表情が異なっていても正規化や特徴点検出を行う必要がなく、高速・高精度に分類することができる。

次に、本発明の第３の実施の形態を図１５ないし図１８に基づいて説明する。なお、前述した第１の実施の形態と同じ部分は同じ符号で示し説明も省略する。

図１５は、本発明の第３の実施の形態にかかる映像処理装置１の概略構成を示すブロック図である。図１５に示すように、映像処理装置１は、映像処理プログラムに従うことにより、顔領域検出手段１１と、顔領域追跡手段１２と、特徴量抽出手段１３と、カット検出手段１４と、類似ショット検出手段１５と、ショット選択手段１６と、顔領域選択手段１７と、顔領域除去手段１８と、を備えている。なお、符号２１は映像入力端子、符号２２は属性情報出力端子である。

図１５に示すように、本実施の形態は、第１の実施の形態の映像処理装置１に対して、顔領域除去手段１８を加えた構成である。顔領域除去手段１８に係わる動作以外は第１の実施の形態を踏襲するので、説明を割愛する。

図１５に示すように、顔領域選択手段１７において主要な登場人物と推定された顔領域の情報が顔領域除去手段１８に送られる。

ところで、同一の人物と推定された顔領域には同一の属性が付与されるが、この判定は類似ショット検出手段１５によって得られた類似ショットの情報に基づいて行われている。しかしながら、同一人物が同じような向きから撮影されているにも係わらず画角の違いなどにより、類似ショット検出手段１５において類似ショットと判定されず、図１６に示すように、別の人物を示す属性が付与される可能性がある。ところが、このようなショットの場合、顔領域の近傍に注目すると両者は類似している。そこで、以下に述べる顔領域除去手段１８における処理により、類似ショット検出手段１５では類似ショットとしては検出されていないが顔領域近傍の画像が類似することで同一人物と推定された顔領域を、顔領域選択手段１７で選択された顔領域から除去する。

図１７は、顔領域除去手段１８における顔領域除去処理の流れを示すフローチャートである。図１７に示すように、まず、顔領域の座標群に基づき、時間的に対応する静止画像より顔領域を含む顔画像を作成し（ステップＳ６１）、顔画像から特徴量を抽出する（ステップＳ６２）。特徴量は、一例として、図１８に示すように、顔画像を縦横のブロックに分割し、各ブロックより得られる色成分のヒストグラム分布を用い、類似度としてブロックごとにヒストグラムインターセクションと呼ばれるヒストグラムの重なる部分の割合を求めて、全てのブロックについて加算する。なお、加算する際には、ブロックによって重みを変えるようにしてもよい。例えば、顔の部分を多く含む中央部の重みを周辺よりも高くする。

次に、別の顔領域群から得られた顔画像と特徴量から類似度を算出し、所定の類似度であるか否かを判定する（ステップＳ６３）。類似度が所定の類似度である、つまり、顔画像が類似する場合は（ステップＳ６３のＹｅｓ）、一方の顔領域群を除去する（ステップＳ６４）。一方、顔画像が類似しない場合は（ステップＳ６３のＮｏ）、ステップＳ６１に戻る。以上説明したようなステップＳ６１〜Ｓ６４の処理は、全ての顔領域群の対について実行するまで（ステップＳ６５のＹｅｓ）、繰り返される。

このように本実施の形態によれば、同一人物が同じような向きから撮影されているにも係わらず画角の違いなどにより、類似ショット検出手段において類似ショットと判定されず、別の人物を示す属性が付与されている顔領域群を排除することができるので、高精度に分類することができる。

１映像処理装置
１１顔領域検出手段
１２顔領域追跡手段
１３特徴量抽出手段
１４カット検出手段
１５類似ショット検出手段
１６ショット選択手段
１７顔領域選択手段
１８顔領域除去手段

Claims

映像処理装置で実行される映像処理方法であって、前記映像処理装置は、制御部と記憶部を備え、前記制御部において実行される、
特徴量抽出手段が、映像の構成要素となるフレームの特徴量を抽出するステップと、
カット検出手段が、時間的に連続する前記フレーム間での画面の切り替わりであるカット点を、前記特徴量を用いて検出するステップと、
類似ショット検出手段が、前記フレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって前記カット点によって分割される時間区間の前記フレームの集合体であるショットについて、同一のショット属性値を付与した類似ショットとして検出するステップと、
ショット選択手段が、前記類似ショットの集合であるショット群から所定の基準を満足するショット群を選択するステップと、
顔領域検出手段が、選択された前記ショット群に含まれる１つ以上のショット内から人物の顔と推定される画像領域である顔領域を検出するステップと、
顔領域追跡手段が、連続する前記フレーム間の前記顔領域の座標群が同一と看做される場合、同一と看做される前記各顔領域に対して同一の顔属性値を付与するステップと、
顔領域選択手段が、前記顔領域追跡手段から同一の顔属性を付与された前記顔領域の座標群を受け取り、同一ショット群に含まれる前記顔領域を特徴量に従って分類し、分類された同一ショット群に含まれる前記顔領域群を同一の人物と推定して、主要な登場人物の顔領域群として選択するステップと、
を含むことを特徴とする映像処理方法。
映像処理装置で実行される映像処理方法であって、前記映像処理装置は、制御部と記憶部を備え、前記制御部において実行される、
顔領域検出手段が、映像の構成要素となるフレームから人物の顔と推定される画像領域である顔領域を検出するステップと、
顔領域追跡手段が、連続する前記フレーム間の前記顔領域の座標群が同一と看做される場合、同一と看做される前記各顔領域に対して同一の顔属性値を付与するステップと、
特徴量抽出手段が、前記フレームの特徴量を抽出するステップと、
カット検出手段が、時間的に連続する前記フレーム間での画面の切り替わりであるカット点を、前記特徴量を用いて検出するステップと、
類似ショット検出手段が、前記フレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって前記カット点によって分割される時間区間の前記フレームの集合体であるショットについて、同一のショット属性値を付与した類似ショットとして検出するステップと、
ショット選択手段が、前記顔領域検出手段から前記顔領域が検出された前記フレームを示す情報を受け取るとともに、前記類似ショット検出手段から前記類似ショットの情報を受け取り、前記類似ショットの集合であるショット群から前記顔領域が含まれるとともに所定の基準を満足するショット群を選択するステップと、
顔領域選択手段が、前記顔領域追跡手段から同一の顔属性を付与された前記顔領域の座標群を受け取るとともに、前記ショット選択手段から前記顔領域が含まれるショット群を受け取り、同一ショット群に含まれる前記顔領域を特徴量に従って分類し、分類された同一ショット群に含まれる前記顔領域群を同一の人物と推定して、主要な登場人物の顔領域群として選択するステップと、
を含むことを特徴とする映像処理方法。
前記ショット選択手段は、前記ショット群に含まれるショットの数と前記ショット群に含まれるショットの合計時間の長さとの少なくとも何れか一方が予め与えられた閾値を超えることを基準とする、
ことを特徴とする請求項１に記載の映像処理方法。
前記ショット選択手段は、予め全ての前記ショット群について、前記ショット群に含まれるショットの数と前記ショット群に含まれるショットの合計時間の長さとの少なくとも何れか一方を基準にして並び替え、上位から所定の位置に位置することを基準とする、
ことを特徴とする請求項１に記載の映像処理方法。
前記ショット選択手段は、前記ショット群と既に選択されている前記ショット群との特徴量の類似度が予め与えられた閾値を下回るか否かを基準とする、
ことを特徴とする請求項１に記載の映像処理方法。
前記ショット選択手段は、選択された全ての前記ショット群の相互の特徴量の類似度の総和が最小、あるいは所定の誤差範囲内でそれに準じるようになることを基準とする、
ことを特徴とする請求項１に記載の映像処理方法。
前記顔領域選択手段は、前記ショット群の順位に従って、前記ショット群ごとに同一の属性が付与された前記顔領域群の集合を並び替えて、上位のものを選択する、
ことを特徴とする請求項１に記載の映像処理方法。
前記顔領域選択手段は、前記ショット選択手段によって選択された前記ショット群の順位に従う、
ことを特徴とする請求項７に記載の映像処理方法。
前記顔領域選択手段は、前記ショット選択手段によって選択された全ての前記ショット群に含まれる前記顔領域群の集合を並び替えて、上位のものを選択する、
ことを特徴とする請求項１に記載の映像処理方法。
前記顔領域選択手段は、前記顔領域群の集合に含まれる前記顔領域の数が多いものから降順に、前記顔領域群の集合を並び替える、
ことを特徴とする請求項９に記載の映像処理方法。
前記顔領域選択手段は、分類された同一ショット群に複数の前記顔領域が存在する場合には、前記ショット間で最も中心座標の距離が近い位置にある前記顔領域を同一の人物として推定する、
ことを特徴とする請求項１に記載の映像処理方法。
前記類似ショット検出手段では前記類似ショットとしては検出されていないが顔領域近傍の画像が類似することで同一人物と推定される複数の前記顔領域群について、一の前記顔領域群のみを残し、他の前記画像領域群を前記顔領域選択手段で選択された前記顔領域群から除去する顔領域除去手段をさらに備える、
ことを特徴とする請求項１に記載の映像処理方法。
映像の構成要素となるフレームの特徴量を抽出する特徴量抽出手段と、
時間的に連続する前記フレーム間での画面の切り替わりであるカット点を、前記特徴量を用いて検出するカット検出手段と、
前記フレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって前記カット点によって分割される時間区間の前記フレームの集合体であるショットについて、同一のショット属性値を付与した類似ショットとして検出する類似ショット検出手段と、
前記類似ショットの集合であるショット群から所定の基準を満足するショット群を選択するショット選択手段と、
選択された前記ショット群に含まれる１つ以上のショット内から人物の顔と推定される画像領域である顔領域を検出する顔領域検出手段と、
連続する前記フレーム間の前記顔領域の座標群が同一と看做される場合、同一と看做される前記各顔領域に対して同一の顔属性値を付与する顔領域追跡手段と、
前記顔領域追跡手段から同一の顔属性を付与された前記顔領域の座標群を受け取り、同一ショット群に含まれる前記顔領域を特徴量に従って分類し、分類された同一ショット群に含まれる前記顔領域群を同一の人物と推定して、主要な登場人物の顔領域群として選択する顔領域選択手段と、
を備えることを特徴とする映像処理装置。