JP2009048490A - 類似ショット検出装置、プログラムおよび方法 - Google Patents

類似ショット検出装置、プログラムおよび方法 Download PDF

Info

Publication number
JP2009048490A
JP2009048490A JP2007215143A JP2007215143A JP2009048490A JP 2009048490 A JP2009048490 A JP 2009048490A JP 2007215143 A JP2007215143 A JP 2007215143A JP 2007215143 A JP2007215143 A JP 2007215143A JP 2009048490 A JP2009048490 A JP 2009048490A
Authority
JP
Japan
Prior art keywords
frames
shot
similar
target
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007215143A
Other languages
English (en)
Inventor
Hisashi Aoki
恒 青木
Koji Yamamoto
晃司 山本
Osamu Yamaguchi
修 山口
Kenichi Tanabe
謙一 田部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007215143A priority Critical patent/JP2009048490A/ja
Priority to US12/050,588 priority patent/US20090052783A1/en
Publication of JP2009048490A publication Critical patent/JP2009048490A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/147Scene change detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7328Query by example, e.g. a complete video frame or video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】類似ショット検出の精度を向上させることができる類似ショット検出装置を提供する。
【解決手段】フレーム間における各特徴量の差が所定の誤差範囲内にある場合にショットから1枚または複数枚の対象フレームをフレーム選択手段31によりそれぞれ選択し、対象フレーム内の顔領域に基づいて対象フレームの特徴量を類似ショット検出用特徴量算出手段33により算出し、ショット属性付与手段35は対象フレーム間における各特徴量の差が所定の誤差範囲内にある場合に、類似であると判定された各対象フレームを取り出した元となっている各ショットに同一のショット属性値を付与して類似ショットとする。これにより、同じカメラアングルで撮影されたショットであっても比較対象となるフレーム間にて登場人物の移動やズーミングなどのカメラワークなどが生じている場合における対象フレームの特徴量を正しく検出することができる。
【選択図】 図5

Description

本発明は、同じカメラアングルから撮影されたショットを同定する類似ショット検出装置、プログラムおよび方法に関する。
近年、映像から登場人物を同定し検索に供することができる番組録画装置等が開発されている。
このような番組録画装置等においては、同じカメラアングルから撮影されたショットを同定(類似ショット検出)し検索や内容に即した時間分割を行うために、被写体を考慮しない色相ヒストグラム等の特徴量などによって2つのショットの類似性を検定する方法が用いられている。例えば、特許文献1には、画面全体から少ない情報量たる画像特徴量(色相ヒストグラムなど)を求め、当該画像特徴量に基づいて画面全体の類似度を求めて映像または映像区間(ショット)を分類し属性付与し関連づけることによって、対となる映像または映像区間の分類を高速・軽量の計算処理にて行うことができる動画像処理方法が開示されている。
特開平9−270006号公報
しかしながら、特許文献1に開示されている類似ショット検出では、同じカメラアングルで撮影されたショットであっても、画像特徴量を比較する対となる画像相互にて登場人物の移動や、ズーミングなどのカメラワークなどが生じている場合には、類似の映像または映像区間として検出されるべきものが正しく検出されず、検出精度が十分に得られないという問題がある。
本発明は、上記に鑑みてなされたものであって、類似ショット検出の精度を向上させることができる類似ショット検出装置、プログラムおよび類似ショット検出方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の類似ショット検出装置は、映像の構成要素となるフレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって時間的に連続する前記フレーム間での画面の切り替わりであるカット点によって分割される時間区間の前記フレームの集合体であるショットから、1枚または複数枚の対象フレームをそれぞれ選択するフレーム選択手段と、前記対象フレーム内の前記顔領域に基づいて前記対象フレームの特徴量を算出する類似ショット検出用特徴量算出手段と、前記対象フレーム間における前記各特徴量の比較を行う特徴量比較手段と、前記対象フレーム間における前記各特徴量の差が所定の誤差範囲内にある場合に、類似であると判定された前記各対象フレームを取り出した元となっている前記各ショットに同一の前記ショット属性値を付与して類似ショットとするショット属性付与手段と、を備える。
また、本発明のプログラムは、映像の構成要素となるフレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって時間的に連続する前記フレーム間での画面の切り替わりであるカット点によって分割される時間区間の前記フレームの集合体であるショットから、1枚または複数枚の対象フレームをそれぞれ選択するフレーム選択機能と、前記対象フレーム内の前記顔領域に基づいて前記対象フレームの特徴量を算出する類似ショット検出用特徴量算出機能と、前記対象フレーム間における前記各特徴量の比較を行う特徴量比較機能と、前記対象フレーム間における前記各特徴量の差が所定の誤差範囲内にある場合に、類似であると判定された前記各対象フレームを取り出した元となっている前記各ショットに同一の前記ショット属性値を付与して類似ショットとするショット属性付与機能と、をコンピュータに実行させる。
また、本発明の類似ショット検出方法は、映像の構成要素となるフレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって時間的に連続する前記フレーム間での画面の切り替わりであるカット点によって分割される時間区間の前記フレームの集合体であるショットから、1枚または複数枚の対象フレームをそれぞれ選択するフレーム選択工程と、前記対象フレーム内の前記顔領域に基づいて前記対象フレームの特徴量を算出する類似ショット検出用特徴量算出工程と、前記対象フレーム間における前記各特徴量の比較を行う特徴量比較工程と、前記対象フレーム間における前記各特徴量の差が所定の誤差範囲内にある場合に、類似であると判定された前記各対象フレームを取り出した元となっている前記各ショットに同一の前記ショット属性値を付与して類似ショットとするショット属性付与工程と、を含む。
本発明によれば、フレーム間における各特徴量の差が所定の誤差範囲内にある場合にショットから1枚または複数枚の対象フレームをそれぞれ選択し、対象フレーム内の顔領域に基づいて対象フレームの特徴量を算出し、対象フレーム間における各特徴量の差が所定の誤差範囲内にある場合に、類似であると判定された各対象フレームを取り出した元となっている各ショットに同一のショット属性値を付与して類似ショットとすることにより、同じカメラアングルで撮影されたショットであっても比較対象となるフレーム間にて登場人物の移動やズーミングなどのカメラワークなどが生じている場合における対象フレームの特徴量を正しく検出することができるので、類似ショット検出の精度を向上させ、類似ショット検出に基づいたショットクラスタリング、ひいては、番組録画装置に搭載される自動分割機能の精度を向上させることができる、という効果を奏する。
以下に添付図面を参照して、この発明にかかる類似ショット検出装置、プログラムおよび方法の最良な実施の形態を詳細に説明する。
本発明の実施の形態を図1ないし図13に基づいて説明する。本実施の形態は映像処理装置(類似ショット検出装置)としてパーソナルコンピュータを適用した例である。
図1は、本発明の実施の一形態にかかる映像処理装置1の構成を示すブロック図である。映像処理装置1は、情報処理を行うCPU(Central Processing Unit)101、BIOSなどを記憶した読出し専用メモリであるROM(Read Only Memory)102、各種データを書換え可能に記憶するRAM(Random Access Memory)103、各種データベースとして機能するとともに各種のプログラムを格納するHDD(Hard Disk Drive)104、記憶媒体110を用いて情報を保管したり外部に情報を配布したり外部から情報を入手するためのDVDドライブ等の媒体駆動装置105、ネットワーク2を介して外部の他のコンピュータと通信により情報を伝達するための通信制御装置106、処理経過や結果等を操作者に表示するLCD(Liquid Crystal Display)等の表示部107、並びに操作者がCPU101に命令や情報等を入力するためのキーボードやマウス等の入力部108等から構成されており、これらの各部間で送受信されるデータをバスコントローラ109が調停して動作する。
このような映像処理装置1では、ユーザが電源を投入するとCPU101がROM102内のローダーというプログラムを起動させ、HDD104よりOS(Operating System)というコンピュータのハードウェアとソフトウェアとを管理するプログラムをRAM103に読み込み、このOSを起動させる。このようなOSは、ユーザの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。OSのうち代表的なものとしては、Windows(登録商標)等が知られている。これらのOS上で走る動作プログラムをアプリケーションプログラムと呼んでいる。なお、アプリケーションプログラムは、所定のOS上で動作するものに限らず、後述の各種処理の一部の実行をOSに肩代わりさせるものであってもよいし、所定のアプリケーションソフトやOSなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。
ここで、映像処理装置1は、アプリケーションプログラムとして、映像処理プログラムをHDD104に記憶している。この意味で、HDD104は、映像処理プログラムを記憶する記憶媒体として機能する。
また、一般的には、映像処理装置1のHDD104にインストールされるアプリケーションプログラムは、DVDなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク、半導体メモリ等の各種方式のメディア等の記憶媒体110に記録され、この記憶媒体110に記録された動作プログラムがHDD104にインストールされる。このため、DVD等の光情報記録メディアやFD等の磁気メディア等の可搬性を有する記憶媒体110も、アプリケーションプログラムを記憶する記憶媒体となり得る。さらには、アプリケーションプログラムは、例えば通信制御装置106を介して外部のネットワーク2から取り込まれ、HDD104にインストールされても良い。
映像処理装置1は、OS上で動作する映像処理プログラムが起動すると、この映像処理プログラムに従い、CPU101が各種の演算処理を実行して各部を集中的に制御する。映像処理装置1のCPU101が実行する各種の演算処理のうち、本実施の形態の特長的な処理について以下に説明する。
図2は、映像処理装置1の概略構成を示すブロック図である。図2に示すように、映像処理装置1は、映像処理プログラムに従うことにより、顔領域検出手段11と、顔属性付与手段12と、特徴量算出手段13と、カット検出手段14と、類似ショット検出手段15と、顔属性再付与手段16とを備えている。なお、符号21は映像入力端子、符号22は属性情報出力端子である。
顔領域検出手段11は、映像入力端子21を介して入力された写真など単一の静止画像、または、再生時刻と対応づけられて動画像の構成要素となるべき静止画像(1フレーム)から、人間の顔と推定される画像領域(以下、顔領域という)を検出する。顔と推定される画像領域の存在有無や、その画像を特定する方法としては、例えばMitaらによる「Joint Haar-like Features for Face Detection」(Proceedings of the Tenth IEEE International Conference on Computer Vision (ICCV’05),2005)などの方法を用いることができる。なお、顔検出手法は上述したものに限定されるものではなく、他の顔検出手法を用いるようにしても良い。
顔属性付与手段12は、顔領域検出手段11で検出した顔領域の座標群が所定の誤差範囲内で同一とみなされるかどうかを追跡する。
ここで、図3は顔領域追跡の一例を示す模式図である。動画像中の第i番目のフレームからN個の顔領域が検出されたとする。以下、i番目のフレームに含まれる顔領域の集合をFと示す。これを中心座標(x,y)と幅(w)、高さ(h)からなる矩形領域として表現し、このフレーム中のj番目の顔領域に係る座標群をx(f),y(f),w(f),h(f)と記す。ただし、fはFの要素である(f∈F)。顔領域を追跡するに際しては、一例として「2フレーム間の中心座標の変動が距離dc以内」かつ「幅の変動がdw以内」かつ「高さの変動がdh以内」であることを条件とする。このとき、「(x(f)−x(g))+(y(f)−y(g))≦dc」かつ「|w(f)−w(g)|≦dw」かつ「|h(f)−h(g)|≦dh」であるとき、顔領域fおよびgは同一人物の顔であると推定される。ここで、「|…|」は絶対値記号である。上記の計算は、f∈Fである顔領域fと、g∈Fである顔領域gのすべてに対して実行される。
なお、顔領域追跡手法は上述したものに限定されるものではなく、他の顔領域追跡手法を用いるようにしても良い。例えば、ある人物とカメラの間を別の人物が横切るような場面では、上述した顔領域追跡手法は誤検出を生じさせる場合がある。この問題を解決するために、図4に示すように、追跡対象としているフレームから2フレーム以上前の情報から個々の顔領域の動きの傾向を推測し、横切り(オクルージョン)を考慮した領域追跡を行ってもよい。
また、上述した顔領域追跡手法では、顔領域として矩形領域を例としたが、多角形、楕円形等の領域形状をとっても構わない。
そして、顔属性付与手段12は、上記のように2つのフレームから同一人物と推定される顔領域の対が発見されたとき、対となった顔領域に対して同一の顔属性値(ID)を付与する。
特徴量算出手段13は、映像入力端子21を介して入力された写真など単一の静止画像、または、再生時刻と対応づけられて動画像の構成要素となるべき静止画像(1フレーム)から、その内容構成の理解処理(顔検出やオブジェクト検出など)を施すことなく、後段のカット検出手段14のカット検出に用いられるフレームの特徴量を算出する。フレームの特徴量としては、フレーム内に含まれる画素(ピクセル)の輝度や色の平均値やそれらのヒストグラム、画面全体または画面を機械的に分割した小領域におけるオプティカルフロー(動きベクトル)などが挙げられる。
カット検出手段14は、特徴量算出手段13によって算出されたフレームの特徴量を用いて、連続するフレーム間でそれらの一つあるいは複数が大きく変化した点を検出するカット検出を実行する。カット検出とは、時間的に連続する2フレーム間にカメラの切り替えがあったかどうかを検出することを指しており、「シーンチェンジ検出」と称されることもある。カットとは、テレビ放送等の場合、放送波に乗せて送出するための画面を撮影しているカメラを別のカメラに切り替えたり、カメラから事前録画した映像に切り替えたり、2つの異なる事前録画映像を編集によって時間的に接続した瞬間のことである。CG(コンピュータグラフィックス)やアニメーション等を用いた人工的な映像制作においても、上記の自然画像を用いた映像制作と同様の意図を持って切り替えられている点をカットという。本実施の形態においては、このような画面切り替わりの瞬間をカット、あるいはカット点と呼ぶことにし、カットによって分割される時間区間の映像をショットと称する。
カット検出の手法には様々な提案があり、例えば、長坂らによる「ビデオ作品の場面変わりの自動判別法」(情報処理学会第40回全国大会論文集pp.642−643。1990年)によって開示されている方法を用いることができる。なお、カット検出手法は上述したものに限定されるものではなく、他のカット検出手法を用いるようにしても良い。
このようにしてカット検出手段14によって検出されたカット点は顔属性付与手段12に送られ、カット検出手段14によって時間分割されたショットは類似ショット検出手段15に送られる。
顔属性付与手段12は、カット検出手段14から送られたカット点が追跡対象としている2フレーム間にある場合には、上述した顔領域の追跡を打ち切り、2フレーム間には同一の属性を付与すべき顔領域の対はないと判定する。
類似ショット検出手段15は、カット検出手段14から送られた時間分割されたショットの類似ショットを検出する。ここで、ショットは「港の倉庫で刑事が犯人を追いつめる」「クイズの第1問に対する回答を制限時間内に回答者が考える」といった「場面」や「シーン」よりも細かい時間単位である。場面やシーン、あるいはコーナーは、複数のショットから構成されるが、同一のカメラから撮影されたショットは、そのカメラの位置移動やズーミング(クローズアップ)の度合い、カメラがとらえる方向など「カメラアングル」が大きく異ならない限り、時間的に離れていても画面としては類似した映像となる。本実施の形態においては、このような類似した映像を「類似ショット」と称する。CGやアニメーション等による人工的な映像制作においても同様の制作意図をもち、同じ被写体を同じ方向から撮影したかのように合成されたショットを類似ショットということができる。
ここで、類似ショット検出手段15による類似ショットの検出方法について詳述する。本実施の形態の類似ショット検出手段15は、顔検出結果およびカット検出結果を複合して類似ショット検出を行うものである。
ここで、図5は類似ショット検出手段15の構成を示す機能ブロック図である。図5に示すように、類似ショット検出手段15は、フレーム選択手段31と、類似ショット検出用特徴量算出手段33と、特徴量比較手段34と、ショット属性付与手段35と、を備えている。また、類似ショット検出用特徴量算出手段33は、特徴量計算領域決定手段32を有している。
フレーム選択手段31は、類似ショットか否かを判定しようとする2つのショットから、1枚または複数枚の静止画像をそれぞれ選択する。ここで、静止画像の選択方法は、各ショットの前端、中央、終端などの任意の位置でよく、また前端から数枚、終端から数枚などでもよい。
特徴量計算領域決定手段32は、顔領域検出手段11および顔属性付与手段12によって動画像の全てのフレームに対する顔検出と顔追跡を行った結果である顔領域に基づき、後段の類似ショット検出用特徴量算出手段33にて用いるべきフレーム中の特徴量計算領域を決定づける。
ここで、特徴量の計算を行うフレーム内の領域の決定方法について詳述する。
例えば、図6に示すように、類似判定の対象となる両フレームにおいて顔領域Xが検出されている場合、それぞれの顔領域Xの座標群から一定の計算方法によって拡張される領域を、それぞれの特徴量計算領域Yとする。例えば、顔領域Xと中心座標は同一で、幅、高さをそれぞれ所定の定数倍した範囲を特徴量計算領域Yとする、等である。この方法によれば、図6に示すように、同一のカメラによるズーミングが行われた際に、画像の周辺部に存在していた画素が画面全体の画像特徴量から除外されてしまうことによって、類似ショットではないと判定されるリスクを軽減し、結果的に類似ショット検出の精度を向上させる効果がある。
別の例としては、図7に示すように、類似判定の対象となる両フレームにおいて顔領域Xが検出されている場合、それぞれの顔領域Xの座標群から一定の計算方法によって拡張される領域を、合成して(足し合わせて)合成領域(人物領域)Zとし、その合成領域Zを両フレームから除外した領域を特徴量計算領域Yとする。例えば、顔領域Xの中心位置から画像の縦方向に顔領域の高さの定数倍だけ下げた位置を中心とし、幅、高さをそれぞれ所定の定数倍した範囲を特徴量計算から除外した領域を特徴量計算領域Yとする、等である。この合成領域Zは、顔の位置や大きさを基準に、平均的にその人物が写っている領域を意図している。この方法によれば、図7に示すように、カメラアングルは全く変わっていないにもかかわらず、画像中の登場人物が大きく移動したために、その人物によって隠されていた背景が表示され、あるいは表示されていた背景が隠され、新しく表示された背景、および新しく隠された背景領域の画素によって生成される画像特徴量によって、類似ショットではないと判定されるリスクを軽減し、結果的に類似ショット検出の精度を向上させる効果がある。
また別の例としては、類似判定の対象となる両フレームにおいて顔領域が検出されている場合、その顔領域Xの座標群そのものを類似ショット検出用特徴量算出手段33が算出する特徴量の一部または全部として用いてもよい(この場合、特徴量計算領域決定手段32は動作しなくてもよい)。例えば、それぞれのフレームに存在する顔領域が1つであった場合、第1の実施の形態で例示したような顔領域座標群(x,y,w,h)を、フレーム全体から算出される色相ヒストグラム(算出方法は、例えば特開平9−270006号公報を参照)の各成分から形成される特徴ベクトルの次元数を増やす形で加える、などの方法が考えられる。
また、フレーム全体から算出される画像特徴量は全く用いず、顔領域の座標群のみを特徴量として類似ショット検出を行っても良い。例えば、図8に示すように、複数の人物が別々のショットに捕らえられている場合、全ての人物の位置や大きさが2つのフレーム間で全く異なる方向に大きく変動しなかった(対応する顔領域Xの変動が微小)と判定される場合には、これら2つのフレームは同一のカメラアングルから捕らえられたもの、すなわちこれら2つのフレームを輩出したショットは類似ショットであると判定してもよい。
類似ショット検出用特徴量算出手段33は、特徴量計算領域決定手段32による決定に基づいて限定された領域に対し、フレームの特徴量を算出する。特徴量としては、フレーム内に含まれる画素(ピクセル)の輝度や色の平均値やそれらのヒストグラム、画面全体または画面を機械的に分割した小領域におけるオプティカルフロー(動きベクトル)などが挙げられる。
特徴量比較手段34は、両フレームの特徴量の比較を行う。
ショット属性付与手段35は、特徴量比較手段34で両フレームが類似であると判定した場合に、類似であると判定された両フレームを輩出した双方のショットに同一のショット属性値(ID)を付与する。
以上により、類似ショット検出手段15は、カット検出手段14から送られた時間分割されたショットの類似ショットを検出する。
顔属性再付与手段16は、顔領域検出手段11および顔属性付与手段12によって動画像の全てのフレームに対する顔検出と顔追跡を完了し、類似ショット検出手段15によって全てのショットに対する類似ショット検出を完了した後、異なるショット中で異なる顔属性値が付与された顔領域に対し、それらが同一人物の顔と判定されるべきであるかどうかの判定を行う。このような処理を実行するのは、次の理由による。顔属性付与手段12においては時間的に連続して近傍座標に存在していることのみを理由に同一人物と推定されており、動画像中で時間的に離れたフレームに存在する顔領域は、顔属性付与手段12によって追跡が行われず、たとえそれが真に同一人物の顔画像であっても、ここまでの処理では同一の顔属性を付与することができないためである。
ここで、顔属性再付与手段16における顔領域検出手法について図9および図10を参照しつつ説明する。顔属性再付与手段16における顔領域検出手法については、顔属性付与手段12において説明したものと同様の方法により行うことができる。図9に示すように、前後に連続している2つのフレームに関して、前側のフレーム(時刻ta−1)の顔検出結果(×印)と、次フレーム(時刻t)における顔検出結果(×印)が近傍である、すなわち、同一人物の顔と判断すべきである、とする条件を、時刻ta−1における顔の領域の中心位置xa−1(xはxy座標によるベクトル)を中心とした半径Δxの範囲に時刻tにおける顔の中心位置が存在すること、と定義する。このとき時間的に離れており、時刻ta−1およびtにおけるフレームが含まれていたのと類似である類似ショット中の時刻tのフレームにある顔(△印)が、既出の×印の顔度同一人物であるかどうかを判定するのに、係数k=(t−t)/(t−ta−1)とし、位置x+k(x−xa−1)を中心とする半径kΔxの範囲に“△”が存在するかどうかを判断基準とすることができる。
図10は、複数の顔領域が検出されているときの顔追跡の例を示すものである。図10に示すように、前側の類似ショットに“○”と“×”の2つの顔領域が検出されており、これと類似ショットであると判定され、後側にあるショットの先頭に“△”と“□”の2つの顔領域が検出されていたとする。これらの対応付けを行う手法について例示する。上記と同様に“×”を追跡するために時刻にtおける中心位置x+k(x−xa−1)を求めるが、ここで、この点を中心とし、半値幅がkΔxの正規分布を確率分布として設定する。このΔxは上記と同様に予め規定されるものである。位置“△”における確率分布の値を計算すると、“×”によって生成されるもののほうが“○”によって生成されるものよりも高い数値を示す。これにより、“△”は“×”と同一人物であると類推することができる。“○”と“□”の関係も同様である。
このように本実施の形態では、類似ショットであることが予めわかっている場合には、その前後のショットの時間的な距離によって、フレーム単位で顔追跡を行った場合のしきい値(この場合はΔx)を乗算することによって、時間的に離れたフレーム間、すなわちショット間での顔領域のマッチングをとることができる。
なお、顔領域の座標群の比較においては、時間推移に伴って1つの属性をもった顔領域の座標群がショット内で変化(移動)する可能性があるが、この場合、ショット内での各座標の平均値を用いても良いし、ショット、あるいは、その顔領域が登場している時間の前端、中央、終端における座標群を用いても良い。また、一つの属性をもった顔領域に対する時間的推移をもった座標群全てについて、対象となる2つの顔領域間での変動を比較しても良い。
次に、映像処理装置1のCPU101が実行する顔属性付与処理の流れを図11のフローチャートを参照しつつ説明する。
図11に示すように、映像入力端子21に写真など単一の静止画像、または、再生時刻と対応づけられて動画像の構成要素となるべき静止画像(1フレーム)が入力されると(ステップS1のYes)、入力された静止画像は顔領域検出手段11に送られ、人物の顔と推定される画像領域が存在するか否かを判定する(ステップS2)。顔領域検出手段11において顔と推定される画像領域が存在していると判定した場合には(ステップS2のYes)、顔領域検出手段11はその顔領域の座標群を計算する(ステップS3)。一方、顔領域検出手段11において顔と推定される画像領域が存在していないと判定した場合には(ステップS2のNo)、ステップS1に戻り、次の静止画像の入力に待機する。
検出対象となる静止画像中に顔領域が存在し、入力された静止画像が動画像の構成要素(すなわち1フレーム)である場合には、対象フレームおよびその前後のフレームを対象として顔領域検出手段11によって得られた顔領域の座標群が所定の誤差範囲内で同一とみなされるかどうかを顔属性付与手段12において追跡する(ステップS4)。
顔属性付与手段12において対象フレームの前後のフレームから同一人物と推定される顔領域の対が発見され(ステップS4のYes)、かつ、カット検出手段14から送られたカット点(後述するステップS10参照)が追跡対象としている2フレーム間にない場合には(ステップS5のNo)、対となった顔領域に対して顔属性付与手段12によって同一の顔属性値(ID)を付与する(ステップS6)。
一方、顔属性付与手段12において対象フレームの前後のフレームから同一人物と推定される顔領域の対が発見されない場合(ステップS4のNo)、または、顔属性付与手段12において対象フレームの前後のフレームから同一人物と推定される顔領域の対が発見されても(ステップS4のYes)、カット検出手段14から送られたカット点が追跡対象としている2フレーム間にある場合には(ステップS5のYes)、顔領域の追跡を打ち切り、2フレーム間には同一の属性値を付与すべき顔領域の対はないと判定し、顔領域に対して顔属性付与手段12によって新しい顔属性値(ID)を付与する(ステップS7)。
ここで、図12はカット点が追跡対象としている2フレーム間にある場合における顔属性値(ID)の付与例である。図12に示すように、カット検出手段14から送られたカット点において、顔属性値(ID)が変更されていることがわかる。
以上説明したようなステップS2〜S7の処理は、全ての画像(動画像のフレーム)に対する処理が終了するまで(ステップS8のYes)、繰り返される。
一方、静止画像(1フレーム)が映像入力端子21に入力されると(ステップS1のYes)、入力された静止画像は特徴量算出手段13にも送られる。特徴量算出手段13は、画像全体からその内容構成の理解処理(顔検出やオブジェクト検出など)を施すことなく、後述のカット検出および類似ショット検出に用いられる特徴量を算出し(ステップS9)、特徴量算出手段13によって算出されたフレームの特徴量を用いてカット検出手段14においてカット検出を行う(ステップS10)。
次いで、カット検出手段14によって時間分割されたショットについて、類似ショット検出手段15によって類似ショットを検出する(ステップS11)。類似ショットを検出した場合には(ステップS11のYes)、類似ショット検出手段15は、類似と判定された双方のショットに同一のショット属性値(ID)を付与する(ステップS12)。一方、類似ショットを検出しなかった場合には(ステップS11のNo)、ステップS1に戻り、次の静止画像の入力に待機する。
以上説明したようなステップS9〜S12の処理は、全ての画像(動画像のフレーム)に対する処理が終了するまで(ステップS13のYes)、繰り返される。
以上の過程において、映像中の登場人物の顔については、その登場の時間的連続性から複数のフレームにわたって同一の属性を持った顔領域の座標群として同一の顔属性値が付与され、映像そのものはカット検出によって分割された各ショットに、類似のものがあれば類似ショット同士に同一のショット属性が付与された状態となる。
次いで、顔属性再付与手段16により、異なるショット中で異なる顔属性値が付与された顔領域に対し、それらが同一人物の顔と判定されるべきであるかどうかの判定を行う。具体的には、顔属性再付与手段16は、所定の2つのショットの組合せ、本実施の形態では類似ショットの組合せであるショット対を特定し(ステップS14)、2つの類似ショットに存在している顔領域の座標群を比較し、2つの類似ショットの両方の近似した位置に近似した大きさの顔領域が検出されているかどうかを判別する(ステップS15)。
比較を行う2つの類似ショットのいずれか一方に顔領域が存在していない、または比較を行う2つの類似ショットの両方の近似した位置に近似した大きさの顔領域が検出されない場合には(ステップS15のNo)、ステップS14に戻り、次の2つの類似ショットの組み合わせであるショット対を特定する。
一方、比較を行う2つの類似ショットの両方の近似した位置に近似した大きさの顔領域が検出された場合には(ステップS15のYes)、それら顔領域に付与されていた異なる顔属性値を同一の顔属性値に修正する(ステップS16)。図13は、顔属性値の修正例である。
以上説明したようなステップS14〜S16の処理は、映像全体における全ての類似ショットに対する処理が終了するまで(ステップS17のYes)、繰り返される。
CPU101は、上述のようにして顔領域について統合・修正された属性値を、属性情報出力端子22から出力する(ステップS18)。
なお、顔領域検出手段11、顔属性付与手段12、特徴量算出手段13、カット検出手段14、類似ショット検出手段15、顔属性再付与手段16において一時的に保持しなければならない前段処理からの入力、後段処理への出力、または、遡ってデータ処理を行う必要上保持すべき処理済みまたは処理途中の経過の情報等は、RAM103やHDD104などの一次記憶装置を用いて、蓄積、交換される。
このように本実施の形態によれば、フレーム間における各特徴量の差が所定の誤差範囲内にある場合にショットから1枚または複数枚の対象フレームをそれぞれ選択し、対象フレーム内の顔領域に基づいて対象フレームの特徴量を算出し、対象フレーム間における各特徴量の差が所定の誤差範囲内にある場合に、類似であると判定された各対象フレームを取り出した元となっている各ショットに同一のショット属性値を付与して類似ショットとすることにより、同じカメラアングルで撮影されたショットであっても比較対象となるフレーム間にて登場人物の移動やズーミングなどのカメラワークなどが生じている場合における対象フレームの特徴量を正しく検出することができるので、類似ショット検出の精度を向上させ、類似ショット検出に基づいたショットクラスタリング、ひいては、番組録画装置に搭載される自動分割機能の精度を向上させることができる。
なお、本実施の形態においては、動画像の全てのフレームに対する顔検出と顔追跡を完了し、また全てのショットに対する類似ショット検出が完了してから、再度動画像の先頭ショットから顔領域の属性再付与を行う例の説明を行ったが、これに限るものではない。例えば、入力された画像および処理結果を一定バッファリングし、それまでに入力された画像を用いて「顔検出および顔追跡」、「カット検出と類似ショット検出」、「それらを用いた顔領域属性の再付与」を逐次行っていくこともできる。この場合、画像の入力が完了すると直ちに、あるいは非常に短い時間の後に、その動画像に係る処理全体を完了することができる。
また、本実施の形態の変形例として、カット検出と顔領域追跡を行わないことも可能である。この場合、上記で説明した処理過程は、「動画像全体が1フレームからなるショットによって構成されている」と考えれば同様の処理として実現することができる。
さらに、本実施の形態の変形例として、入力される映像が動画像の一部ではなく、写真等、もともと相互に時間的な連続の必然性がないものである場合もある。この場合も、1枚1枚が1つのショットであったと考えれば上述の「カット検出と顔領域追跡を行わない」例と同様に処理可能である。例えば2枚の写真について、それらの被写体である顔が同一人物であるかどうかの対応をとろうとする際、画像全体から抽出される特徴量が類似(すなわち類似ショットであったのと同等)である場合には、それぞれに存在する顔領域の座標群を比較し、近傍である対が存在すれば、それらに同一の顔領域属性を付与、すなわち、同一人物の顔であろうと推定することが可能である。このようなケースは記念撮影において、被写体の表情に満足いかないものがある場合などをおそれて複数の写真を続けて撮影するような場合に、それぞれの写真間での顔画像の対応付けをするのにも用いることができる。
また、本実施の形態においては、顔属性付与手段12が機能した場合について説明したが、顔属性付与手段12は機能しない、あるいは存在しなくても上記の効果は限定的に得られる。顔属性付与手段12が存在して機能した場合には、フレーム選択手段31が2つのショットからそれぞれ2枚以上のフレームを選択し、複数のフレーム対の情報を用いて類似ショット検出を行う場合に、ショット内で同じ登場人物と判定されている顔領域を対応付け、顔領域に基づく類似度計算の重み付けを変化させることができる点で精度向上を望むことができる。
本発明の実施の一形態にかかる映像処理装置の構成を示すブロック図である。 映像処理装置の概略構成を示すブロック図である。 顔領域追跡の一例を示す模式図である。 横切りを考慮した領域追跡の例を示す模式図である。 類似ショット検出手段の構成を示す機能ブロック図である。 特徴量計算領域の決定方法の一例を示す模式図である。 特徴量計算領域の決定方法の一例を示す模式図である。 特徴量計算領域の決定方法の一例を示す模式図である。 顔領域検出手法を示す模式図である。 顔領域検出手法を示す模式図である。 顔属性付与処理の流れを示すフローチャートである。 顔属性値の付与例を示す模式図である。 顔属性値の修正例を示す模式図である。
符号の説明
15 類似ショット検出装置
31 フレーム選択手段
32 特徴量計算領域決定手段
33 類似ショット検出用特徴量算出手段
34 特徴量比較手段
35 ショット属性付与手段

Claims (8)

  1. 映像の構成要素となるフレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって時間的に連続する前記フレーム間での画面の切り替わりであるカット点によって分割される時間区間の前記フレームの集合体であるショットから、1枚または複数枚の対象フレームをそれぞれ選択するフレーム選択手段と、
    前記対象フレーム内の前記顔領域に基づいて前記対象フレームの特徴量を算出する類似ショット検出用特徴量算出手段と、
    前記対象フレーム間における前記各特徴量の比較を行う特徴量比較手段と、
    前記対象フレーム間における前記各特徴量の差が所定の誤差範囲内にある場合に、類似であると判定された前記各対象フレームを取り出した元となっている前記各ショットに同一の前記ショット属性値を付与して類似ショットとするショット属性付与手段と、
    を備えることを特徴とする類似ショット検出装置。
  2. 前記類似ショット検出用特徴量算出手段は、前記対象フレーム内の前記顔領域の座標群を前記対象フレームの特徴量の一部とし、前記対象フレーム全体から算出される画像特徴量に加えて特徴量とする、
    ことを特徴とする請求項1記載の類似ショット検出装置。
  3. 前記類似ショット検出用特徴量算出手段は、前記対象フレーム内の前記顔領域の座標群を前記対象フレームの特徴量とする、
    ことを特徴とする請求項1記載の類似ショット検出装置。
  4. 前記類似ショット検出用特徴量算出手段は、前記顔領域に基づいて前記対象フレーム中の特徴量計算領域を決定する特徴量計算領域決定手段を備えており、
    前記類似ショット検出用特徴量算出手段は、前記特徴量計算領域から前記対象フレームの特徴量を算出する、
    ことを特徴とする請求項1記載の類似ショット検出装置。
  5. 前記特徴量計算領域決定手段は、類似判定の対象となる前記各対象フレームにおける前記顔領域の座標群から所定の倍率で拡張される領域を、それぞれの特徴量計算領域とする、
    ことを特徴とする請求項4記載の類似ショット検出装置。
  6. 前記特徴量計算領域決定手段は、類似判定の対象となる前記各対象フレームにおける前記顔領域の座標群から人物像と推定される画像領域である人物領域を生成し、前記各人物領域を合成した領域を前記各対象フレームから除外した領域を特徴量計算領域とする、
    ことを特徴とする請求項4記載の類似ショット検出装置。
  7. 映像の構成要素となるフレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって時間的に連続する前記フレーム間での画面の切り替わりであるカット点によって分割される時間区間の前記フレームの集合体であるショットから、1枚または複数枚の対象フレームをそれぞれ選択するフレーム選択機能と、
    前記対象フレーム内の前記顔領域に基づいて前記対象フレームの特徴量を算出する類似ショット検出用特徴量算出機能と、
    前記対象フレーム間における前記各特徴量の比較を行う特徴量比較機能と、
    前記対象フレーム間における前記各特徴量の差が所定の誤差範囲内にある場合に、類似であると判定された前記各対象フレームを取り出した元となっている前記各ショットに同一の前記ショット属性値を付与して類似ショットとするショット属性付与機能と、
    をコンピュータに実行させることを特徴とするプログラム。
  8. 映像の構成要素となるフレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって時間的に連続する前記フレーム間での画面の切り替わりであるカット点によって分割される時間区間の前記フレームの集合体であるショットから、1枚または複数枚の対象フレームをそれぞれ選択するフレーム選択工程と、
    前記対象フレーム内の前記顔領域に基づいて前記対象フレームの特徴量を算出する類似ショット検出用特徴量算出工程と、
    前記対象フレーム間における前記各特徴量の比較を行う特徴量比較工程と、
    前記対象フレーム間における前記各特徴量の差が所定の誤差範囲内にある場合に、類似であると判定された前記各対象フレームを取り出した元となっている前記各ショットに同一の前記ショット属性値を付与して類似ショットとするショット属性付与工程と、
    を含むことを特徴とする類似ショット検出方法。
JP2007215143A 2007-08-21 2007-08-21 類似ショット検出装置、プログラムおよび方法 Pending JP2009048490A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007215143A JP2009048490A (ja) 2007-08-21 2007-08-21 類似ショット検出装置、プログラムおよび方法
US12/050,588 US20090052783A1 (en) 2007-08-21 2008-03-18 Similar shot detecting apparatus, computer program product, and similar shot detecting method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007215143A JP2009048490A (ja) 2007-08-21 2007-08-21 類似ショット検出装置、プログラムおよび方法

Publications (1)

Publication Number Publication Date
JP2009048490A true JP2009048490A (ja) 2009-03-05

Family

ID=40382219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007215143A Pending JP2009048490A (ja) 2007-08-21 2007-08-21 類似ショット検出装置、プログラムおよび方法

Country Status (2)

Country Link
US (1) US20090052783A1 (ja)
JP (1) JP2009048490A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013142930A (ja) * 2012-01-06 2013-07-22 Canon Inc 画像処理装置、その制御方法、及びプログラム

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0809631D0 (en) * 2008-05-28 2008-07-02 Mirriad Ltd Zonesense
US8811771B2 (en) * 2008-08-22 2014-08-19 Adobe Systems Incorporated Content aware slideshows
JP2010055194A (ja) * 2008-08-26 2010-03-11 Sony Corp 画像処理装置および方法、学習装置および方法、並びにプログラム
US8811747B2 (en) * 2011-10-28 2014-08-19 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US9008436B2 (en) * 2011-10-28 2015-04-14 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US8938100B2 (en) 2011-10-28 2015-01-20 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US20130108119A1 (en) * 2011-10-28 2013-05-02 Raymond William Ptucha Image Recomposition From Face Detection And Facial Features
US9025835B2 (en) 2011-10-28 2015-05-05 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US9025836B2 (en) * 2011-10-28 2015-05-05 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US20130108170A1 (en) * 2011-10-28 2013-05-02 Raymond William Ptucha Image Recomposition From Face Detection And Facial Features
JP2014107641A (ja) * 2012-11-26 2014-06-09 Sony Corp 情報処理装置および方法、並びにプログラム
US9426356B2 (en) * 2013-03-07 2016-08-23 Nokia Technologies Oy Method, apparatus and computer program for selecting images
US9449216B1 (en) * 2013-04-10 2016-09-20 Amazon Technologies, Inc. Detection of cast members in video content
CN104463903B (zh) * 2014-06-24 2017-12-05 中海网络科技股份有限公司 一种基于目标行为分析的行人图像实时检测方法
US10498932B2 (en) * 2014-12-08 2019-12-03 Sharp Kabushiki Kaisha Video processing device
CN106682591B (zh) * 2016-12-08 2020-04-07 广州视源电子科技股份有限公司 人脸识别方法及装置
CN109165540B (zh) * 2018-06-13 2022-02-25 深圳市感动智能科技有限公司 一种基于先验候选框选择策略的行人搜索方法和装置
US20230226454A1 (en) * 2020-06-12 2023-07-20 Blaster Digital, LLC Method for managing and controlling target shooting session and system associated therewith

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3279913B2 (ja) * 1996-03-18 2002-04-30 株式会社東芝 人物認証装置、特徴点抽出装置及び特徴点抽出方法
JP3534368B2 (ja) * 1996-04-03 2004-06-07 株式会社東芝 動画像処理方法及び動画像処理装置
JP4226730B2 (ja) * 1999-01-28 2009-02-18 株式会社東芝 物体領域情報生成方法及び物体領域情報生成装置並びに映像情報処理方法及び情報処理装置
JP2000222584A (ja) * 1999-01-29 2000-08-11 Toshiba Corp 映像情報記述方法、映像検索方法及び映像検索装置
KR100612842B1 (ko) * 2004-02-28 2006-08-18 삼성전자주식회사 앵커 샷 결정방법 및 결정장치
US7715598B2 (en) * 2006-07-25 2010-05-11 Arsoft, Inc. Method for detecting facial expressions of a portrait photo by an image capturing electronic device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013142930A (ja) * 2012-01-06 2013-07-22 Canon Inc 画像処理装置、その制御方法、及びプログラム

Also Published As

Publication number Publication date
US20090052783A1 (en) 2009-02-26

Similar Documents

Publication Publication Date Title
JP4909840B2 (ja) 映像処理装置、プログラムおよび方法
JP2009048490A (ja) 類似ショット検出装置、プログラムおよび方法
JP5166409B2 (ja) 映像処理方法および映像処理装置
CN110147702B (zh) 一种实时视频的目标检测与识别方法和系统
CN106663196B (zh) 用于识别主体的方法、系统和计算机可读存储介质
US9762775B2 (en) Method for producing a blended video sequence
Verma et al. Face detection and tracking in a video by propagating detection probabilities
JP4765732B2 (ja) 動画編集装置
US8705810B2 (en) Detecting and indexing characters of videos by NCuts and page ranking
US7376270B2 (en) Detecting human faces and detecting red eyes
US9336583B2 (en) Systems and methods for image editing
Venkatesh et al. Efficient object-based video inpainting
US8971585B2 (en) Image processing apparatus for retrieving object from moving image and method thereof
US8879894B2 (en) Pixel analysis and frame alignment for background frames
Li et al. Structuring lecture videos by automatic projection screen localization and analysis
US20130322758A1 (en) Image processing apparatus, image processing method, and program
Xiong et al. Snap angle prediction for 360 panoramas
Wang et al. Taxonomy of directing semantics for film shot classification
JP2007072789A (ja) 映像構造化方法及び装置及びプログラム
WO1999005865A1 (en) Content-based video access
Gigonzac et al. Electronic slide matching and enhancement of a lecture video
Nigam et al. EgoTracker: Pedestrian tracking with re-identification in egocentric videos
Arbués-Sangüesa et al. Multi-Person tracking by multi-scale detection in Basketball scenarios
Wang et al. Robust alignment of presentation videos with slides
Truong et al. Film grammar based refinements to extracting scenes in motion pictures