JP2009048490A

JP2009048490A - 類似ショット検出装置、プログラムおよび方法

Info

Publication number: JP2009048490A
Application number: JP2007215143A
Authority: JP
Inventors: Hisashi Aoki; 恒青木; Koji Yamamoto; 晃司山本; Osamu Yamaguchi; 修山口; Kenichi Tanabe; 謙一田部
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-08-21
Filing date: 2007-08-21
Publication date: 2009-03-05
Also published as: US20090052783A1

Abstract

【課題】類似ショット検出の精度を向上させることができる類似ショット検出装置を提供する。
【解決手段】フレーム間における各特徴量の差が所定の誤差範囲内にある場合にショットから１枚または複数枚の対象フレームをフレーム選択手段３１によりそれぞれ選択し、対象フレーム内の顔領域に基づいて対象フレームの特徴量を類似ショット検出用特徴量算出手段３３により算出し、ショット属性付与手段３５は対象フレーム間における各特徴量の差が所定の誤差範囲内にある場合に、類似であると判定された各対象フレームを取り出した元となっている各ショットに同一のショット属性値を付与して類似ショットとする。これにより、同じカメラアングルで撮影されたショットであっても比較対象となるフレーム間にて登場人物の移動やズーミングなどのカメラワークなどが生じている場合における対象フレームの特徴量を正しく検出することができる。
【選択図】図５

Description

本発明は、同じカメラアングルから撮影されたショットを同定する類似ショット検出装置、プログラムおよび方法に関する。

近年、映像から登場人物を同定し検索に供することができる番組録画装置等が開発されている。

このような番組録画装置等においては、同じカメラアングルから撮影されたショットを同定（類似ショット検出）し検索や内容に即した時間分割を行うために、被写体を考慮しない色相ヒストグラム等の特徴量などによって２つのショットの類似性を検定する方法が用いられている。例えば、特許文献１には、画面全体から少ない情報量たる画像特徴量（色相ヒストグラムなど）を求め、当該画像特徴量に基づいて画面全体の類似度を求めて映像または映像区間（ショット）を分類し属性付与し関連づけることによって、対となる映像または映像区間の分類を高速・軽量の計算処理にて行うことができる動画像処理方法が開示されている。

特開平９−２７０００６号公報

しかしながら、特許文献１に開示されている類似ショット検出では、同じカメラアングルで撮影されたショットであっても、画像特徴量を比較する対となる画像相互にて登場人物の移動や、ズーミングなどのカメラワークなどが生じている場合には、類似の映像または映像区間として検出されるべきものが正しく検出されず、検出精度が十分に得られないという問題がある。

本発明は、上記に鑑みてなされたものであって、類似ショット検出の精度を向上させることができる類似ショット検出装置、プログラムおよび類似ショット検出方法を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明の類似ショット検出装置は、映像の構成要素となるフレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって時間的に連続する前記フレーム間での画面の切り替わりであるカット点によって分割される時間区間の前記フレームの集合体であるショットから、１枚または複数枚の対象フレームをそれぞれ選択するフレーム選択手段と、前記対象フレーム内の前記顔領域に基づいて前記対象フレームの特徴量を算出する類似ショット検出用特徴量算出手段と、前記対象フレーム間における前記各特徴量の比較を行う特徴量比較手段と、前記対象フレーム間における前記各特徴量の差が所定の誤差範囲内にある場合に、類似であると判定された前記各対象フレームを取り出した元となっている前記各ショットに同一の前記ショット属性値を付与して類似ショットとするショット属性付与手段と、を備える。

また、本発明のプログラムは、映像の構成要素となるフレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって時間的に連続する前記フレーム間での画面の切り替わりであるカット点によって分割される時間区間の前記フレームの集合体であるショットから、１枚または複数枚の対象フレームをそれぞれ選択するフレーム選択機能と、前記対象フレーム内の前記顔領域に基づいて前記対象フレームの特徴量を算出する類似ショット検出用特徴量算出機能と、前記対象フレーム間における前記各特徴量の比較を行う特徴量比較機能と、前記対象フレーム間における前記各特徴量の差が所定の誤差範囲内にある場合に、類似であると判定された前記各対象フレームを取り出した元となっている前記各ショットに同一の前記ショット属性値を付与して類似ショットとするショット属性付与機能と、をコンピュータに実行させる。

また、本発明の類似ショット検出方法は、映像の構成要素となるフレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって時間的に連続する前記フレーム間での画面の切り替わりであるカット点によって分割される時間区間の前記フレームの集合体であるショットから、１枚または複数枚の対象フレームをそれぞれ選択するフレーム選択工程と、前記対象フレーム内の前記顔領域に基づいて前記対象フレームの特徴量を算出する類似ショット検出用特徴量算出工程と、前記対象フレーム間における前記各特徴量の比較を行う特徴量比較工程と、前記対象フレーム間における前記各特徴量の差が所定の誤差範囲内にある場合に、類似であると判定された前記各対象フレームを取り出した元となっている前記各ショットに同一の前記ショット属性値を付与して類似ショットとするショット属性付与工程と、を含む。

本発明によれば、フレーム間における各特徴量の差が所定の誤差範囲内にある場合にショットから１枚または複数枚の対象フレームをそれぞれ選択し、対象フレーム内の顔領域に基づいて対象フレームの特徴量を算出し、対象フレーム間における各特徴量の差が所定の誤差範囲内にある場合に、類似であると判定された各対象フレームを取り出した元となっている各ショットに同一のショット属性値を付与して類似ショットとすることにより、同じカメラアングルで撮影されたショットであっても比較対象となるフレーム間にて登場人物の移動やズーミングなどのカメラワークなどが生じている場合における対象フレームの特徴量を正しく検出することができるので、類似ショット検出の精度を向上させ、類似ショット検出に基づいたショットクラスタリング、ひいては、番組録画装置に搭載される自動分割機能の精度を向上させることができる、という効果を奏する。

以下に添付図面を参照して、この発明にかかる類似ショット検出装置、プログラムおよび方法の最良な実施の形態を詳細に説明する。

本発明の実施の形態を図１ないし図１３に基づいて説明する。本実施の形態は映像処理装置（類似ショット検出装置）としてパーソナルコンピュータを適用した例である。

図１は、本発明の実施の一形態にかかる映像処理装置１の構成を示すブロック図である。映像処理装置１は、情報処理を行うＣＰＵ（Central Processing Unit）１０１、ＢＩＯＳなどを記憶した読出し専用メモリであるＲＯＭ（Read Only Memory）１０２、各種データを書換え可能に記憶するＲＡＭ（Random Access Memory）１０３、各種データベースとして機能するとともに各種のプログラムを格納するＨＤＤ（Hard Disk Drive）１０４、記憶媒体１１０を用いて情報を保管したり外部に情報を配布したり外部から情報を入手するためのＤＶＤドライブ等の媒体駆動装置１０５、ネットワーク２を介して外部の他のコンピュータと通信により情報を伝達するための通信制御装置１０６、処理経過や結果等を操作者に表示するＬＣＤ（Liquid Crystal Display）等の表示部１０７、並びに操作者がＣＰＵ１０１に命令や情報等を入力するためのキーボードやマウス等の入力部１０８等から構成されており、これらの各部間で送受信されるデータをバスコントローラ１０９が調停して動作する。

このような映像処理装置１では、ユーザが電源を投入するとＣＰＵ１０１がＲＯＭ１０２内のローダーというプログラムを起動させ、ＨＤＤ１０４よりＯＳ（Operating System）というコンピュータのハードウェアとソフトウェアとを管理するプログラムをＲＡＭ１０３に読み込み、このＯＳを起動させる。このようなＯＳは、ユーザの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。ＯＳのうち代表的なものとしては、Ｗｉｎｄｏｗｓ（登録商標）等が知られている。これらのＯＳ上で走る動作プログラムをアプリケーションプログラムと呼んでいる。なお、アプリケーションプログラムは、所定のＯＳ上で動作するものに限らず、後述の各種処理の一部の実行をＯＳに肩代わりさせるものであってもよいし、所定のアプリケーションソフトやＯＳなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。

ここで、映像処理装置１は、アプリケーションプログラムとして、映像処理プログラムをＨＤＤ１０４に記憶している。この意味で、ＨＤＤ１０４は、映像処理プログラムを記憶する記憶媒体として機能する。

また、一般的には、映像処理装置１のＨＤＤ１０４にインストールされるアプリケーションプログラムは、ＤＶＤなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク、半導体メモリ等の各種方式のメディア等の記憶媒体１１０に記録され、この記憶媒体１１０に記録された動作プログラムがＨＤＤ１０４にインストールされる。このため、ＤＶＤ等の光情報記録メディアやＦＤ等の磁気メディア等の可搬性を有する記憶媒体１１０も、アプリケーションプログラムを記憶する記憶媒体となり得る。さらには、アプリケーションプログラムは、例えば通信制御装置１０６を介して外部のネットワーク２から取り込まれ、ＨＤＤ１０４にインストールされても良い。

映像処理装置１は、ＯＳ上で動作する映像処理プログラムが起動すると、この映像処理プログラムに従い、ＣＰＵ１０１が各種の演算処理を実行して各部を集中的に制御する。映像処理装置１のＣＰＵ１０１が実行する各種の演算処理のうち、本実施の形態の特長的な処理について以下に説明する。

図２は、映像処理装置１の概略構成を示すブロック図である。図２に示すように、映像処理装置１は、映像処理プログラムに従うことにより、顔領域検出手段１１と、顔属性付与手段１２と、特徴量算出手段１３と、カット検出手段１４と、類似ショット検出手段１５と、顔属性再付与手段１６とを備えている。なお、符号２１は映像入力端子、符号２２は属性情報出力端子である。

顔領域検出手段１１は、映像入力端子２１を介して入力された写真など単一の静止画像、または、再生時刻と対応づけられて動画像の構成要素となるべき静止画像（１フレーム）から、人間の顔と推定される画像領域（以下、顔領域という）を検出する。顔と推定される画像領域の存在有無や、その画像を特定する方法としては、例えばMitaらによる「Joint Haar-like Features for Face Detection」（Proceedings of the Tenth IEEE International Conference on Computer Vision （ICCV’05）,2005）などの方法を用いることができる。なお、顔検出手法は上述したものに限定されるものではなく、他の顔検出手法を用いるようにしても良い。

顔属性付与手段１２は、顔領域検出手段１１で検出した顔領域の座標群が所定の誤差範囲内で同一とみなされるかどうかを追跡する。

ここで、図３は顔領域追跡の一例を示す模式図である。動画像中の第ｉ番目のフレームからＮ_ｉ個の顔領域が検出されたとする。以下、ｉ番目のフレームに含まれる顔領域の集合をＦ_ｉと示す。これを中心座標（ｘ，ｙ）と幅（ｗ）、高さ（ｈ）からなる矩形領域として表現し、このフレーム中のｊ番目の顔領域に係る座標群をｘ（ｆ），ｙ（ｆ），ｗ（ｆ），ｈ（ｆ）と記す。ただし、ｆはＦ_ｉの要素である（ｆ∈Ｆ_ｉ）。顔領域を追跡するに際しては、一例として「２フレーム間の中心座標の変動が距離ｄｃ以内」かつ「幅の変動がｄｗ以内」かつ「高さの変動がｄｈ以内」であることを条件とする。このとき、「（ｘ（ｆ）−ｘ（ｇ））^２＋（ｙ（ｆ）−ｙ（ｇ））^２≦ｄｃ^２」かつ「｜ｗ（ｆ）−ｗ（ｇ）｜≦ｄｗ」かつ「｜ｈ（ｆ）−ｈ（ｇ）｜≦ｄｈ」であるとき、顔領域ｆおよびｇは同一人物の顔であると推定される。ここで、「｜…｜」は絶対値記号である。上記の計算は、ｆ∈Ｆ_ｉである顔領域ｆと、ｇ∈Ｆ_ｊである顔領域ｇのすべてに対して実行される。

なお、顔領域追跡手法は上述したものに限定されるものではなく、他の顔領域追跡手法を用いるようにしても良い。例えば、ある人物とカメラの間を別の人物が横切るような場面では、上述した顔領域追跡手法は誤検出を生じさせる場合がある。この問題を解決するために、図４に示すように、追跡対象としているフレームから２フレーム以上前の情報から個々の顔領域の動きの傾向を推測し、横切り（オクルージョン）を考慮した領域追跡を行ってもよい。

また、上述した顔領域追跡手法では、顔領域として矩形領域を例としたが、多角形、楕円形等の領域形状をとっても構わない。

そして、顔属性付与手段１２は、上記のように２つのフレームから同一人物と推定される顔領域の対が発見されたとき、対となった顔領域に対して同一の顔属性値（ＩＤ）を付与する。

特徴量算出手段１３は、映像入力端子２１を介して入力された写真など単一の静止画像、または、再生時刻と対応づけられて動画像の構成要素となるべき静止画像（１フレーム）から、その内容構成の理解処理（顔検出やオブジェクト検出など）を施すことなく、後段のカット検出手段１４のカット検出に用いられるフレームの特徴量を算出する。フレームの特徴量としては、フレーム内に含まれる画素（ピクセル）の輝度や色の平均値やそれらのヒストグラム、画面全体または画面を機械的に分割した小領域におけるオプティカルフロー（動きベクトル）などが挙げられる。

カット検出手段１４は、特徴量算出手段１３によって算出されたフレームの特徴量を用いて、連続するフレーム間でそれらの一つあるいは複数が大きく変化した点を検出するカット検出を実行する。カット検出とは、時間的に連続する２フレーム間にカメラの切り替えがあったかどうかを検出することを指しており、「シーンチェンジ検出」と称されることもある。カットとは、テレビ放送等の場合、放送波に乗せて送出するための画面を撮影しているカメラを別のカメラに切り替えたり、カメラから事前録画した映像に切り替えたり、２つの異なる事前録画映像を編集によって時間的に接続した瞬間のことである。ＣＧ（コンピュータグラフィックス）やアニメーション等を用いた人工的な映像制作においても、上記の自然画像を用いた映像制作と同様の意図を持って切り替えられている点をカットという。本実施の形態においては、このような画面切り替わりの瞬間をカット、あるいはカット点と呼ぶことにし、カットによって分割される時間区間の映像をショットと称する。

カット検出の手法には様々な提案があり、例えば、長坂らによる「ビデオ作品の場面変わりの自動判別法」（情報処理学会第４０回全国大会論文集ｐｐ．６４２−６４３。１９９０年）によって開示されている方法を用いることができる。なお、カット検出手法は上述したものに限定されるものではなく、他のカット検出手法を用いるようにしても良い。

このようにしてカット検出手段１４によって検出されたカット点は顔属性付与手段１２に送られ、カット検出手段１４によって時間分割されたショットは類似ショット検出手段１５に送られる。

顔属性付与手段１２は、カット検出手段１４から送られたカット点が追跡対象としている２フレーム間にある場合には、上述した顔領域の追跡を打ち切り、２フレーム間には同一の属性を付与すべき顔領域の対はないと判定する。

類似ショット検出手段１５は、カット検出手段１４から送られた時間分割されたショットの類似ショットを検出する。ここで、ショットは「港の倉庫で刑事が犯人を追いつめる」「クイズの第１問に対する回答を制限時間内に回答者が考える」といった「場面」や「シーン」よりも細かい時間単位である。場面やシーン、あるいはコーナーは、複数のショットから構成されるが、同一のカメラから撮影されたショットは、そのカメラの位置移動やズーミング（クローズアップ）の度合い、カメラがとらえる方向など「カメラアングル」が大きく異ならない限り、時間的に離れていても画面としては類似した映像となる。本実施の形態においては、このような類似した映像を「類似ショット」と称する。ＣＧやアニメーション等による人工的な映像制作においても同様の制作意図をもち、同じ被写体を同じ方向から撮影したかのように合成されたショットを類似ショットということができる。

ここで、類似ショット検出手段１５による類似ショットの検出方法について詳述する。本実施の形態の類似ショット検出手段１５は、顔検出結果およびカット検出結果を複合して類似ショット検出を行うものである。

ここで、図５は類似ショット検出手段１５の構成を示す機能ブロック図である。図５に示すように、類似ショット検出手段１５は、フレーム選択手段３１と、類似ショット検出用特徴量算出手段３３と、特徴量比較手段３４と、ショット属性付与手段３５と、を備えている。また、類似ショット検出用特徴量算出手段３３は、特徴量計算領域決定手段３２を有している。

フレーム選択手段３１は、類似ショットか否かを判定しようとする２つのショットから、１枚または複数枚の静止画像をそれぞれ選択する。ここで、静止画像の選択方法は、各ショットの前端、中央、終端などの任意の位置でよく、また前端から数枚、終端から数枚などでもよい。

特徴量計算領域決定手段３２は、顔領域検出手段１１および顔属性付与手段１２によって動画像の全てのフレームに対する顔検出と顔追跡を行った結果である顔領域に基づき、後段の類似ショット検出用特徴量算出手段３３にて用いるべきフレーム中の特徴量計算領域を決定づける。

ここで、特徴量の計算を行うフレーム内の領域の決定方法について詳述する。

例えば、図６に示すように、類似判定の対象となる両フレームにおいて顔領域Ｘが検出されている場合、それぞれの顔領域Ｘの座標群から一定の計算方法によって拡張される領域を、それぞれの特徴量計算領域Ｙとする。例えば、顔領域Ｘと中心座標は同一で、幅、高さをそれぞれ所定の定数倍した範囲を特徴量計算領域Ｙとする、等である。この方法によれば、図６に示すように、同一のカメラによるズーミングが行われた際に、画像の周辺部に存在していた画素が画面全体の画像特徴量から除外されてしまうことによって、類似ショットではないと判定されるリスクを軽減し、結果的に類似ショット検出の精度を向上させる効果がある。

別の例としては、図７に示すように、類似判定の対象となる両フレームにおいて顔領域Ｘが検出されている場合、それぞれの顔領域Ｘの座標群から一定の計算方法によって拡張される領域を、合成して（足し合わせて）合成領域（人物領域）Ｚとし、その合成領域Ｚを両フレームから除外した領域を特徴量計算領域Ｙとする。例えば、顔領域Ｘの中心位置から画像の縦方向に顔領域の高さの定数倍だけ下げた位置を中心とし、幅、高さをそれぞれ所定の定数倍した範囲を特徴量計算から除外した領域を特徴量計算領域Ｙとする、等である。この合成領域Ｚは、顔の位置や大きさを基準に、平均的にその人物が写っている領域を意図している。この方法によれば、図７に示すように、カメラアングルは全く変わっていないにもかかわらず、画像中の登場人物が大きく移動したために、その人物によって隠されていた背景が表示され、あるいは表示されていた背景が隠され、新しく表示された背景、および新しく隠された背景領域の画素によって生成される画像特徴量によって、類似ショットではないと判定されるリスクを軽減し、結果的に類似ショット検出の精度を向上させる効果がある。

また別の例としては、類似判定の対象となる両フレームにおいて顔領域が検出されている場合、その顔領域Ｘの座標群そのものを類似ショット検出用特徴量算出手段３３が算出する特徴量の一部または全部として用いてもよい（この場合、特徴量計算領域決定手段３２は動作しなくてもよい）。例えば、それぞれのフレームに存在する顔領域が１つであった場合、第１の実施の形態で例示したような顔領域座標群（ｘ，ｙ，ｗ，ｈ）を、フレーム全体から算出される色相ヒストグラム（算出方法は、例えば特開平９−２７０００６号公報を参照）の各成分から形成される特徴ベクトルの次元数を増やす形で加える、などの方法が考えられる。

また、フレーム全体から算出される画像特徴量は全く用いず、顔領域の座標群のみを特徴量として類似ショット検出を行っても良い。例えば、図８に示すように、複数の人物が別々のショットに捕らえられている場合、全ての人物の位置や大きさが２つのフレーム間で全く異なる方向に大きく変動しなかった（対応する顔領域Ｘの変動が微小）と判定される場合には、これら２つのフレームは同一のカメラアングルから捕らえられたもの、すなわちこれら２つのフレームを輩出したショットは類似ショットであると判定してもよい。

類似ショット検出用特徴量算出手段３３は、特徴量計算領域決定手段３２による決定に基づいて限定された領域に対し、フレームの特徴量を算出する。特徴量としては、フレーム内に含まれる画素（ピクセル）の輝度や色の平均値やそれらのヒストグラム、画面全体または画面を機械的に分割した小領域におけるオプティカルフロー（動きベクトル）などが挙げられる。

特徴量比較手段３４は、両フレームの特徴量の比較を行う。

ショット属性付与手段３５は、特徴量比較手段３４で両フレームが類似であると判定した場合に、類似であると判定された両フレームを輩出した双方のショットに同一のショット属性値（ＩＤ）を付与する。

以上により、類似ショット検出手段１５は、カット検出手段１４から送られた時間分割されたショットの類似ショットを検出する。

顔属性再付与手段１６は、顔領域検出手段１１および顔属性付与手段１２によって動画像の全てのフレームに対する顔検出と顔追跡を完了し、類似ショット検出手段１５によって全てのショットに対する類似ショット検出を完了した後、異なるショット中で異なる顔属性値が付与された顔領域に対し、それらが同一人物の顔と判定されるべきであるかどうかの判定を行う。このような処理を実行するのは、次の理由による。顔属性付与手段１２においては時間的に連続して近傍座標に存在していることのみを理由に同一人物と推定されており、動画像中で時間的に離れたフレームに存在する顔領域は、顔属性付与手段１２によって追跡が行われず、たとえそれが真に同一人物の顔画像であっても、ここまでの処理では同一の顔属性を付与することができないためである。

ここで、顔属性再付与手段１６における顔領域検出手法について図９および図１０を参照しつつ説明する。顔属性再付与手段１６における顔領域検出手法については、顔属性付与手段１２において説明したものと同様の方法により行うことができる。図９に示すように、前後に連続している２つのフレームに関して、前側のフレーム（時刻ｔ_ａ−１）の顔検出結果（×印）と、次フレーム（時刻ｔ_ａ）における顔検出結果（×印）が近傍である、すなわち、同一人物の顔と判断すべきである、とする条件を、時刻ｔ_ａ−１における顔の領域の中心位置ｘ_ａ−１（ｘはｘｙ座標によるベクトル）を中心とした半径Δｘの範囲に時刻ｔ_ａにおける顔の中心位置が存在すること、と定義する。このとき時間的に離れており、時刻ｔ_ａ−１およびｔ_ａにおけるフレームが含まれていたのと類似である類似ショット中の時刻ｔ_ｂのフレームにある顔（△印）が、既出の×印の顔度同一人物であるかどうかを判定するのに、係数ｋ＝（ｔ_ｂ−ｔ_ａ）／（ｔ_ａ−ｔ_ａ−１）とし、位置ｘ_ａ＋ｋ（ｘ_ａ−ｘ_ａ−１）を中心とする半径ｋΔｘの範囲に“△”が存在するかどうかを判断基準とすることができる。

図１０は、複数の顔領域が検出されているときの顔追跡の例を示すものである。図１０に示すように、前側の類似ショットに“○”と“×”の２つの顔領域が検出されており、これと類似ショットであると判定され、後側にあるショットの先頭に“△”と“□”の２つの顔領域が検出されていたとする。これらの対応付けを行う手法について例示する。上記と同様に“×”を追跡するために時刻にｔ_ｂおける中心位置ｘ_ａ＋ｋ（ｘ_ａ−ｘ_ａ−１）を求めるが、ここで、この点を中心とし、半値幅がｋΔｘの正規分布を確率分布として設定する。このΔｘは上記と同様に予め規定されるものである。位置“△”における確率分布の値を計算すると、“×”によって生成されるもののほうが“○”によって生成されるものよりも高い数値を示す。これにより、“△”は“×”と同一人物であると類推することができる。“○”と“□”の関係も同様である。

このように本実施の形態では、類似ショットであることが予めわかっている場合には、その前後のショットの時間的な距離によって、フレーム単位で顔追跡を行った場合のしきい値（この場合はΔｘ）を乗算することによって、時間的に離れたフレーム間、すなわちショット間での顔領域のマッチングをとることができる。

なお、顔領域の座標群の比較においては、時間推移に伴って１つの属性をもった顔領域の座標群がショット内で変化（移動）する可能性があるが、この場合、ショット内での各座標の平均値を用いても良いし、ショット、あるいは、その顔領域が登場している時間の前端、中央、終端における座標群を用いても良い。また、一つの属性をもった顔領域に対する時間的推移をもった座標群全てについて、対象となる２つの顔領域間での変動を比較しても良い。

次に、映像処理装置１のＣＰＵ１０１が実行する顔属性付与処理の流れを図１１のフローチャートを参照しつつ説明する。

図１１に示すように、映像入力端子２１に写真など単一の静止画像、または、再生時刻と対応づけられて動画像の構成要素となるべき静止画像（１フレーム）が入力されると（ステップＳ１のＹｅｓ）、入力された静止画像は顔領域検出手段１１に送られ、人物の顔と推定される画像領域が存在するか否かを判定する（ステップＳ２）。顔領域検出手段１１において顔と推定される画像領域が存在していると判定した場合には（ステップＳ２のＹｅｓ）、顔領域検出手段１１はその顔領域の座標群を計算する（ステップＳ３）。一方、顔領域検出手段１１において顔と推定される画像領域が存在していないと判定した場合には（ステップＳ２のＮｏ）、ステップＳ１に戻り、次の静止画像の入力に待機する。

検出対象となる静止画像中に顔領域が存在し、入力された静止画像が動画像の構成要素（すなわち１フレーム）である場合には、対象フレームおよびその前後のフレームを対象として顔領域検出手段１１によって得られた顔領域の座標群が所定の誤差範囲内で同一とみなされるかどうかを顔属性付与手段１２において追跡する（ステップＳ４）。

顔属性付与手段１２において対象フレームの前後のフレームから同一人物と推定される顔領域の対が発見され（ステップＳ４のＹｅｓ）、かつ、カット検出手段１４から送られたカット点（後述するステップＳ１０参照）が追跡対象としている２フレーム間にない場合には（ステップＳ５のＮｏ）、対となった顔領域に対して顔属性付与手段１２によって同一の顔属性値（ＩＤ）を付与する（ステップＳ６）。

一方、顔属性付与手段１２において対象フレームの前後のフレームから同一人物と推定される顔領域の対が発見されない場合（ステップＳ４のＮｏ）、または、顔属性付与手段１２において対象フレームの前後のフレームから同一人物と推定される顔領域の対が発見されても（ステップＳ４のＹｅｓ）、カット検出手段１４から送られたカット点が追跡対象としている２フレーム間にある場合には（ステップＳ５のＹｅｓ）、顔領域の追跡を打ち切り、２フレーム間には同一の属性値を付与すべき顔領域の対はないと判定し、顔領域に対して顔属性付与手段１２によって新しい顔属性値（ＩＤ）を付与する（ステップＳ７）。

ここで、図１２はカット点が追跡対象としている２フレーム間にある場合における顔属性値（ＩＤ）の付与例である。図１２に示すように、カット検出手段１４から送られたカット点において、顔属性値（ＩＤ）が変更されていることがわかる。

以上説明したようなステップＳ２〜Ｓ７の処理は、全ての画像（動画像のフレーム）に対する処理が終了するまで（ステップＳ８のＹｅｓ）、繰り返される。

一方、静止画像（１フレーム）が映像入力端子２１に入力されると（ステップＳ１のＹｅｓ）、入力された静止画像は特徴量算出手段１３にも送られる。特徴量算出手段１３は、画像全体からその内容構成の理解処理（顔検出やオブジェクト検出など）を施すことなく、後述のカット検出および類似ショット検出に用いられる特徴量を算出し（ステップＳ９）、特徴量算出手段１３によって算出されたフレームの特徴量を用いてカット検出手段１４においてカット検出を行う（ステップＳ１０）。

次いで、カット検出手段１４によって時間分割されたショットについて、類似ショット検出手段１５によって類似ショットを検出する（ステップＳ１１）。類似ショットを検出した場合には（ステップＳ１１のＹｅｓ）、類似ショット検出手段１５は、類似と判定された双方のショットに同一のショット属性値（ＩＤ）を付与する（ステップＳ１２）。一方、類似ショットを検出しなかった場合には（ステップＳ１１のＮｏ）、ステップＳ１に戻り、次の静止画像の入力に待機する。

以上説明したようなステップＳ９〜Ｓ１２の処理は、全ての画像（動画像のフレーム）に対する処理が終了するまで（ステップＳ１３のＹｅｓ）、繰り返される。

以上の過程において、映像中の登場人物の顔については、その登場の時間的連続性から複数のフレームにわたって同一の属性を持った顔領域の座標群として同一の顔属性値が付与され、映像そのものはカット検出によって分割された各ショットに、類似のものがあれば類似ショット同士に同一のショット属性が付与された状態となる。

次いで、顔属性再付与手段１６により、異なるショット中で異なる顔属性値が付与された顔領域に対し、それらが同一人物の顔と判定されるべきであるかどうかの判定を行う。具体的には、顔属性再付与手段１６は、所定の２つのショットの組合せ、本実施の形態では類似ショットの組合せであるショット対を特定し（ステップＳ１４）、２つの類似ショットに存在している顔領域の座標群を比較し、２つの類似ショットの両方の近似した位置に近似した大きさの顔領域が検出されているかどうかを判別する（ステップＳ１５）。

比較を行う２つの類似ショットのいずれか一方に顔領域が存在していない、または比較を行う２つの類似ショットの両方の近似した位置に近似した大きさの顔領域が検出されない場合には（ステップＳ１５のＮｏ）、ステップＳ１４に戻り、次の２つの類似ショットの組み合わせであるショット対を特定する。

一方、比較を行う２つの類似ショットの両方の近似した位置に近似した大きさの顔領域が検出された場合には（ステップＳ１５のＹｅｓ）、それら顔領域に付与されていた異なる顔属性値を同一の顔属性値に修正する（ステップＳ１６）。図１３は、顔属性値の修正例である。

以上説明したようなステップＳ１４〜Ｓ１６の処理は、映像全体における全ての類似ショットに対する処理が終了するまで（ステップＳ１７のＹｅｓ）、繰り返される。

ＣＰＵ１０１は、上述のようにして顔領域について統合・修正された属性値を、属性情報出力端子２２から出力する（ステップＳ１８）。

なお、顔領域検出手段１１、顔属性付与手段１２、特徴量算出手段１３、カット検出手段１４、類似ショット検出手段１５、顔属性再付与手段１６において一時的に保持しなければならない前段処理からの入力、後段処理への出力、または、遡ってデータ処理を行う必要上保持すべき処理済みまたは処理途中の経過の情報等は、ＲＡＭ１０３やＨＤＤ１０４などの一次記憶装置を用いて、蓄積、交換される。

このように本実施の形態によれば、フレーム間における各特徴量の差が所定の誤差範囲内にある場合にショットから１枚または複数枚の対象フレームをそれぞれ選択し、対象フレーム内の顔領域に基づいて対象フレームの特徴量を算出し、対象フレーム間における各特徴量の差が所定の誤差範囲内にある場合に、類似であると判定された各対象フレームを取り出した元となっている各ショットに同一のショット属性値を付与して類似ショットとすることにより、同じカメラアングルで撮影されたショットであっても比較対象となるフレーム間にて登場人物の移動やズーミングなどのカメラワークなどが生じている場合における対象フレームの特徴量を正しく検出することができるので、類似ショット検出の精度を向上させ、類似ショット検出に基づいたショットクラスタリング、ひいては、番組録画装置に搭載される自動分割機能の精度を向上させることができる。

なお、本実施の形態においては、動画像の全てのフレームに対する顔検出と顔追跡を完了し、また全てのショットに対する類似ショット検出が完了してから、再度動画像の先頭ショットから顔領域の属性再付与を行う例の説明を行ったが、これに限るものではない。例えば、入力された画像および処理結果を一定バッファリングし、それまでに入力された画像を用いて「顔検出および顔追跡」、「カット検出と類似ショット検出」、「それらを用いた顔領域属性の再付与」を逐次行っていくこともできる。この場合、画像の入力が完了すると直ちに、あるいは非常に短い時間の後に、その動画像に係る処理全体を完了することができる。

また、本実施の形態の変形例として、カット検出と顔領域追跡を行わないことも可能である。この場合、上記で説明した処理過程は、「動画像全体が１フレームからなるショットによって構成されている」と考えれば同様の処理として実現することができる。

さらに、本実施の形態の変形例として、入力される映像が動画像の一部ではなく、写真等、もともと相互に時間的な連続の必然性がないものである場合もある。この場合も、１枚１枚が１つのショットであったと考えれば上述の「カット検出と顔領域追跡を行わない」例と同様に処理可能である。例えば２枚の写真について、それらの被写体である顔が同一人物であるかどうかの対応をとろうとする際、画像全体から抽出される特徴量が類似（すなわち類似ショットであったのと同等）である場合には、それぞれに存在する顔領域の座標群を比較し、近傍である対が存在すれば、それらに同一の顔領域属性を付与、すなわち、同一人物の顔であろうと推定することが可能である。このようなケースは記念撮影において、被写体の表情に満足いかないものがある場合などをおそれて複数の写真を続けて撮影するような場合に、それぞれの写真間での顔画像の対応付けをするのにも用いることができる。

また、本実施の形態においては、顔属性付与手段１２が機能した場合について説明したが、顔属性付与手段１２は機能しない、あるいは存在しなくても上記の効果は限定的に得られる。顔属性付与手段１２が存在して機能した場合には、フレーム選択手段３１が２つのショットからそれぞれ２枚以上のフレームを選択し、複数のフレーム対の情報を用いて類似ショット検出を行う場合に、ショット内で同じ登場人物と判定されている顔領域を対応付け、顔領域に基づく類似度計算の重み付けを変化させることができる点で精度向上を望むことができる。

本発明の実施の一形態にかかる映像処理装置の構成を示すブロック図である。映像処理装置の概略構成を示すブロック図である。顔領域追跡の一例を示す模式図である。横切りを考慮した領域追跡の例を示す模式図である。類似ショット検出手段の構成を示す機能ブロック図である。特徴量計算領域の決定方法の一例を示す模式図である。特徴量計算領域の決定方法の一例を示す模式図である。特徴量計算領域の決定方法の一例を示す模式図である。顔領域検出手法を示す模式図である。顔領域検出手法を示す模式図である。顔属性付与処理の流れを示すフローチャートである。顔属性値の付与例を示す模式図である。顔属性値の修正例を示す模式図である。

符号の説明

１５類似ショット検出装置
３１フレーム選択手段
３２特徴量計算領域決定手段
３３類似ショット検出用特徴量算出手段
３４特徴量比較手段
３５ショット属性付与手段

Claims

映像の構成要素となるフレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって時間的に連続する前記フレーム間での画面の切り替わりであるカット点によって分割される時間区間の前記フレームの集合体であるショットから、１枚または複数枚の対象フレームをそれぞれ選択するフレーム選択手段と、
前記対象フレーム内の前記顔領域に基づいて前記対象フレームの特徴量を算出する類似ショット検出用特徴量算出手段と、
前記対象フレーム間における前記各特徴量の比較を行う特徴量比較手段と、
前記対象フレーム間における前記各特徴量の差が所定の誤差範囲内にある場合に、類似であると判定された前記各対象フレームを取り出した元となっている前記各ショットに同一の前記ショット属性値を付与して類似ショットとするショット属性付与手段と、
を備えることを特徴とする類似ショット検出装置。
前記類似ショット検出用特徴量算出手段は、前記対象フレーム内の前記顔領域の座標群を前記対象フレームの特徴量の一部とし、前記対象フレーム全体から算出される画像特徴量に加えて特徴量とする、
ことを特徴とする請求項１記載の類似ショット検出装置。
前記類似ショット検出用特徴量算出手段は、前記対象フレーム内の前記顔領域の座標群を前記対象フレームの特徴量とする、
ことを特徴とする請求項１記載の類似ショット検出装置。
前記類似ショット検出用特徴量算出手段は、前記顔領域に基づいて前記対象フレーム中の特徴量計算領域を決定する特徴量計算領域決定手段を備えており、
前記類似ショット検出用特徴量算出手段は、前記特徴量計算領域から前記対象フレームの特徴量を算出する、
ことを特徴とする請求項１記載の類似ショット検出装置。
前記特徴量計算領域決定手段は、類似判定の対象となる前記各対象フレームにおける前記顔領域の座標群から所定の倍率で拡張される領域を、それぞれの特徴量計算領域とする、
ことを特徴とする請求項４記載の類似ショット検出装置。
前記特徴量計算領域決定手段は、類似判定の対象となる前記各対象フレームにおける前記顔領域の座標群から人物像と推定される画像領域である人物領域を生成し、前記各人物領域を合成した領域を前記各対象フレームから除外した領域を特徴量計算領域とする、
ことを特徴とする請求項４記載の類似ショット検出装置。
映像の構成要素となるフレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって時間的に連続する前記フレーム間での画面の切り替わりであるカット点によって分割される時間区間の前記フレームの集合体であるショットから、１枚または複数枚の対象フレームをそれぞれ選択するフレーム選択機能と、
前記対象フレーム内の前記顔領域に基づいて前記対象フレームの特徴量を算出する類似ショット検出用特徴量算出機能と、
前記対象フレーム間における前記各特徴量の比較を行う特徴量比較機能と、
前記対象フレーム間における前記各特徴量の差が所定の誤差範囲内にある場合に、類似であると判定された前記各対象フレームを取り出した元となっている前記各ショットに同一の前記ショット属性値を付与して類似ショットとするショット属性付与機能と、
をコンピュータに実行させることを特徴とするプログラム。
映像の構成要素となるフレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって時間的に連続する前記フレーム間での画面の切り替わりであるカット点によって分割される時間区間の前記フレームの集合体であるショットから、１枚または複数枚の対象フレームをそれぞれ選択するフレーム選択工程と、
前記対象フレーム内の前記顔領域に基づいて前記対象フレームの特徴量を算出する類似ショット検出用特徴量算出工程と、
前記対象フレーム間における前記各特徴量の比較を行う特徴量比較工程と、
前記対象フレーム間における前記各特徴量の差が所定の誤差範囲内にある場合に、類似であると判定された前記各対象フレームを取り出した元となっている前記各ショットに同一の前記ショット属性値を付与して類似ショットとするショット属性付与工程と、
を含むことを特徴とする類似ショット検出方法。