JP2011505601A - 映像処理方法および映像処理装置 - Google Patents

映像処理方法および映像処理装置 Download PDF

Info

Publication number
JP2011505601A
JP2011505601A JP2009514296A JP2009514296A JP2011505601A JP 2011505601 A JP2011505601 A JP 2011505601A JP 2009514296 A JP2009514296 A JP 2009514296A JP 2009514296 A JP2009514296 A JP 2009514296A JP 2011505601 A JP2011505601 A JP 2011505601A
Authority
JP
Japan
Prior art keywords
shot
face area
face
group
same
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009514296A
Other languages
English (en)
Other versions
JP5166409B2 (ja
Inventor
晃司 山本
恒 青木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2009514296A priority Critical patent/JP5166409B2/ja
Publication of JP2011505601A publication Critical patent/JP2011505601A/ja
Application granted granted Critical
Publication of JP5166409B2 publication Critical patent/JP5166409B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/37Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying segments of broadcast information, e.g. scenes or extracting programme ID
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/59Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/61Arrangements for services using the result of monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/65Arrangements for services using the result of monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 for using the result on users' side
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/147Scene change detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】一部のショット区間において顔を検出できない人物が含まれる映像であっても、登場人物の順位付け・選択を可能とし、テレビ番組において実際の番組内容に即した主要人物の顔を選択することができる映像処理装置を提供する。
【解決手段】類似ショットの集合であるショット群から顔領域が含まれるとともに所定の基準を満足するショット群を選択し、同一ショット群に含まれる顔領域を特徴量に従って分類し、分類された同一ショット群に含まれる顔領域群を同一の人物と推定して、主要な登場人物の顔領域群として選択する。これにより、映像を構成するショットの類似性と顔領域検出とを組み合わせて主要な登場人物の選択を行うことにより、一部のショット区間において顔を検出できない人物が含まれる映像であっても、登場人物の順位付け・選択が可能となり、テレビ番組において従来技術よりも実際の番組内容に即した主要人物の顔を選択することができる。
【選択図】図12

Description

本発明は、映像処理方法および映像処理装置に関する。
近年、テレビ番組等の映像を解析してその内容を視聴者に掲示する技術として、番組に登場した人物を一覧表示することができる番組録画装置等が開発されている。登場人物を一覧表示する技術としては、映像のショット毎に検出した顔を同一人物毎に分類し、その登場回数に従って主要な人物を一覧表示するようにした技術が開示されている(特許文献1参照)。
また、特許文献2では、検出した顔を同一人物ごとに分類して、登場人物ごとの代表顔画像を抽出するようにした技術が開示されている。
さらに、特許文献3では、顔画像数を基に、最も登場頻度の高い人物を主人公として特定するようにした技術が開示されている。
上述した技術は、いずれも検出した顔を特徴量に基づいて人物ごとに分類するものである。このような分類処理においては、まず画像中の顔領域を検出し、つぎに領域中の画像の照明条件や3次元形状を補正してから特徴量空間での類似性を比較し、2つの顔が同一人物であるか否かを判定する方法が用いられている。例えば、非特許文献1には、前段にて顔領域検出処理を行い、続いて顔特徴点検出、顔領域画像の正規化、既登録済みの顔辞書との類似度比較による識別(同一人物か否かの同定)という処理構成を採っている映像処理装置が開示されている。
特許第3315888号公報 特開2001−167110号公報 特開2006−244279号公報
山口修ほか1名:「顔向きや表情の変化にロバストな顔認識システム "SmartFace"」、電子情報通信学会論文誌D−II、Vol.J84−D−II、No.6、2001年6月、pp.1045−1052
ところで、上述した技術はいずれも映像から検出された顔をもとにして処理を行っているため、顔が正常に検出されない環境では、正しい結果を得ることはできない。
しかしながら、テレビ番組では顔が見えないほど横を向いていたり、後ろを向いていたりすることが少なくない。そのため、上述した技術によれば、映像中の人物の顔を検出することができずに、登場時間や回数を正しく数えることができない、という問題がある。
また、検出できた映像中の人物の顔についても、顔認証を目的とした画像と違い、様々な向きや大きさ、表情の顔が存在するので、分類のための正規化や特徴点検出に処理時間がかかってしまう、という問題がある。
加えて、これらの正規化を行ったとしても、横顔と正面顔を同一人物として分類することは困難である。
本発明は、上記に鑑みてなされたものであって、一部のショット区間において顔を検出できない人物が含まれる映像であっても、登場人物の順位付け・選択を可能とし、テレビ番組において実際の番組内容に即した主要人物の顔を選択することができる映像処理方法および映像処理装置を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の映像処理方法は、映像処理装置で実行される映像処理方法であって、前記映像処理装置は、制御部と記憶部を備え、前記制御部において実行される、特徴量抽出手段が、映像の構成要素となるフレームの特徴量を抽出するステップと、カット検出手段が、時間的に連続する前記フレーム間での画面の切り替わりであるカット点を、前記特徴量を用いて検出するステップと、類似ショット検出手段が、前記フレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって前記カット点によって分割される時間区間の前記フレームの集合体であるショットについて、同一のショット属性値を付与した類似ショットとして検出するステップと、ショット選択手段が、前記類似ショットの集合であるショット群から所定の基準を満足するショット群を選択するステップと、顔領域検出手段が、選択された前記ショット群に含まれる1つ以上のショット内から人物の顔と推定される画像領域である顔領域を検出するステップと、顔領域追跡手段が、連続する前記フレーム間の前記顔領域の座標群が同一と看做される場合、同一と看做される前記各顔領域に対して同一の顔属性値を付与するステップと、顔領域選択手段が、前記顔領域追跡手段から同一の顔属性を付与された前記顔領域の座標群を受け取り、同一ショット群に含まれる前記顔領域を特徴量に従って分類し、分類された同一ショット群に含まれる前記顔領域群を同一の人物と推定して、主要な登場人物の顔領域群として選択するステップと、を含むことを特徴とする。
また、本発明の映像処理方法は、映像処理装置で実行される映像処理方法であって、前記映像処理装置は、制御部と記憶部を備え、前記制御部において実行される、顔領域検出手段が、映像の構成要素となるフレームから人物の顔と推定される画像領域である顔領域を検出するステップと、顔領域追跡手段が、連続する前記フレーム間の前記顔領域の座標群が同一と看做される場合、同一と看做される前記各顔領域に対して同一の顔属性値を付与するステップと、特徴量抽出手段が、前記フレームの特徴量を抽出するステップと、カット検出手段が、時間的に連続する前記フレーム間での画面の切り替わりであるカット点を、前記特徴量を用いて検出するステップと、類似ショット検出手段が、前記フレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって前記カット点によって分割される時間区間の前記フレームの集合体であるショットについて、同一のショット属性値を付与した類似ショットとして検出するステップと、ショット選択手段が、前記顔領域検出手段から前記顔領域が検出された前記フレームを示す情報を受け取るとともに、前記類似ショット検出手段から前記類似ショットの情報を受け取り、前記類似ショットの集合であるショット群から前記顔領域が含まれるとともに所定の基準を満足するショット群を選択するステップと、顔領域選択手段が、前記顔領域追跡手段から同一の顔属性を付与された前記顔領域の座標群を受け取るとともに、前記ショット選択手段から前記顔領域が含まれるショット群を受け取り、同一ショット群に含まれる前記顔領域を特徴量に従って分類し、分類された同一ショット群に含まれる前記顔領域群を同一の人物と推定して、主要な登場人物の顔領域群として選択するステップと、を含むことを特徴とする。
また、本発明の映像処理装置は、映像の構成要素となるフレームの特徴量を抽出する特徴量抽出手段と、時間的に連続する前記フレーム間での画面の切り替わりであるカット点を、前記特徴量を用いて検出するカット検出手段と、前記フレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって前記カット点によって分割される時間区間の前記フレームの集合体であるショットについて、同一のショット属性値を付与した類似ショットとして検出する類似ショット検出手段と、前記類似ショットの集合であるショット群から所定の基準を満足するショット群を選択するショット選択手段と、選択された前記ショット群に含まれる1つ以上のショット内から人物の顔と推定される画像領域である顔領域を検出する顔領域検出手段と、連続する前記フレーム間の前記顔領域の座標群が同一と看做される場合、同一と看做される前記各顔領域に対して同一の顔属性値を付与する顔領域追跡手段と、前記顔領域追跡手段から同一の顔属性を付与された前記顔領域の座標群を受け取り、同一ショット群に含まれる前記顔領域を特徴量に従って分類し、分類された同一ショット群に含まれる前記顔領域群を同一の人物と推定して、主要な登場人物の顔領域群として選択する顔領域選択手段と、を備えることを特徴とする。
本発明によれば、類似ショットの集合であるショット群から所定の基準を満足するショット群を選択し、選択されたショット群に含まれる1つ以上のショット内から人物の顔と推定される画像領域である顔領域を検出し、連続するフレーム間の顔領域の座標群が同一と看做される場合、同一と看做される各顔領域に対して同一の顔属性値を付与する。そして、同一ショット群に含まれる顔領域を特徴量に従って分類し、分類された同一ショット群に含まれる顔領域群を同一の人物と推定して、主要な登場人物の顔領域群として選択することにより、映像を構成するショットの類似性と顔領域検出とを組み合わせて主要な登場人物の選択を行うことにより、一部のショット区間において顔を検出できない人物が含まれる映像であっても、登場人物の順位付け・選択が可能となり、テレビ番組において従来技術よりも実際の番組内容に即した主要人物の顔を選択することができる、という効果を奏する。また、画面全体の大局的な類似度に基づいて分類するため、顔の向きや大きさ、表情が異なっていても正規化や特徴点検出を行う必要がなく、高速・高精度に分類することができる、という効果を奏する。
また、本発明によれば、類似ショットの集合であるショット群から顔領域が含まれるとともに所定の基準を満足するショット群を選択し、同一ショット群に含まれる顔領域を特徴量に従って分類し、分類された同一ショット群に含まれる顔領域群を同一の人物と推定して、主要な登場人物の顔領域群として選択することにより、映像を構成するショットの類似性と顔領域検出とを組み合わせて主要な登場人物の選択を行うことにより、一部のショット区間において顔を検出できない人物が含まれる映像であっても、登場人物の順位付け・選択が可能となり、テレビ番組において従来技術よりも実際の番組内容に即した主要人物の顔を選択することができる、という効果を奏する。また、画面全体の大局的な類似度に基づいて分類するため、顔の向きや大きさ、表情が異なっていても正規化や特徴点検出を行う必要がなく、高速・高精度に分類することができる、という効果を奏する。
図1は、本発明の第1の実施の形態にかかる映像処理装置の構成を示すブロック図である。 図2は、映像処理装置の概略構成を示すブロック図である。 図3は、顔領域追跡の一例を示す模式図である。 図4は、領域追跡の例を示す模式図である。 図5は、顔属性値の付与例を示す模式図である。 図6は、顔領域の選択の一例を示す模式図である。 図7は、その顔領域の分類の一例を示す模式図である。 図8は、第1の選択基準の例を示す模式図である。 図9は、第2の選択基準の例を示す模式図である。 図10は、第3の選択基準の例を示す模式図である。 図11は、顔検出処理の流れを示すフローチャートである。 図12は、顔検出の一例を示す模式図である。 図13は、本発明の第2の実施の形態にかかる映像処理装置の概略構成を示すブロック図である。 図14は、顔検出処理の流れを示すフローチャートである。 図15は、本発明の第3の実施の形態にかかる映像処理装置の概略構成を示すブロック図である。 図16は、同一人物に別の人物を示す属性が付与される例を示す模式図である。 図17は、顔領域除去処理の流れを示すフローチャートである。 図18は、特徴量抽出手法を示す模式図である。
以下に添付図面を参照して、この発明にかかる映像処理方法および映像処理装置の最良な実施の形態を詳細に説明する。
本発明の第1の実施の形態を図1ないし図12に基づいて説明する。本実施の形態は映像処理装置としてパーソナルコンピュータを適用した例である。
図1は、本発明の第1の実施の形態にかかる映像処理装置1の構成を示すブロック図である。映像処理装置1は、情報処理を行うCPU(Central Processing Unit)101、BIOSなどを記憶した読出し専用メモリであるROM(Read Only Memory)102、各種データを書換え可能に記憶するRAM(Random Access Memory)103、各種データベースとして機能するとともに各種のプログラムを格納するHDD(Hard Disk Drive)104、記憶媒体110を用いて情報を保管したり外部に情報を配布したり外部から情報を入手するためのDVDドライブ等の媒体駆動装置105、ネットワーク2を介して外部の他のコンピュータと通信により情報を伝達するための通信制御装置106、処理経過や結果等を操作者に表示するLCD(Liquid Crystal Display)等の表示部107、並びに操作者がCPU101に命令や情報等を入力するためのキーボードやマウス等の入力部108等から構成されており、これらの各部間で送受信されるデータをバスコントローラ109が調停して動作する。
このような映像処理装置1では、ユーザが電源を投入するとCPU101がROM102内のローダーというプログラムを起動させ、HDD104よりOS(Operating System)というコンピュータのハードウェアとソフトウェアとを管理するプログラムをRAM103に読み込み、このOSを起動させる。このようなOSは、ユーザの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。OSのうち代表的なものとしては、Windows(登録商標)等が知られている。これらのOS上で走る動作プログラムをアプリケーションプログラムと呼んでいる。なお、アプリケーションプログラムは、所定のOS上で動作するものに限らず、後述の各種処理の一部の実行をOSに肩代わりさせるものであってもよいし、所定のアプリケーションソフトやOSなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。
ここで、映像処理装置1は、アプリケーションプログラムとして、映像処理プログラムをHDD104に記憶している。この意味で、HDD104は、映像処理プログラムを記憶する記憶媒体として機能する。
また、一般的には、映像処理装置1のHDD104にインストールされるアプリケーションプログラムは、DVDなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク、半導体メモリ等の各種方式のメディア等の記憶媒体110に記録され、この記憶媒体110に記録された動作プログラムがHDD104にインストールされる。このため、DVD等の光情報記録メディアやFD等の磁気メディア等の可搬性を有する記憶媒体110も、アプリケーションプログラムを記憶する記憶媒体となり得る。さらには、アプリケーションプログラムは、例えば通信制御装置106を介して外部のネットワーク2から取り込まれ、HDD104にインストールされても良い。
映像処理装置1は、OS上で動作する映像処理プログラムが起動すると、この映像処理プログラムに従い、CPU101が各種の演算処理を実行して各部を集中的に制御する。映像処理装置1のCPU101が実行する各種の演算処理のうち、本実施の形態の特長的な処理について以下に説明する。
図2は、映像処理装置1の概略構成を示すブロック図である。図2に示すように、映像処理装置1は、映像処理プログラムに従うことにより、顔領域検出手段11と、顔領域追跡手段12と、特徴量抽出手段13と、カット検出手段14と、類似ショット検出手段15と、ショット選択手段16と、顔領域選択手段17と、を備えている。なお、符号21は映像入力端子、符号22は属性情報出力端子である。
顔領域検出手段11は、映像入力端子21を介して入力された写真など単一の静止画像、または、再生時刻と対応づけられて動画像の構成要素となるべき静止画像(1フレーム)から、人間の顔と推定される画像領域(以下、顔領域という)を検出する。顔と推定される画像領域の存在有無や、その画像を特定する方法としては、例えばMitaらによる「Joint Haar-like Features for Face Detection」(Proceedings of the Tenth IEEE International Conference on Computer Vision (ICCV’05),2005)などの方法を用いることができる。なお、顔検出手法は上述したものに限定されるものではなく、他の顔検出手法を用いるようにしても良い。
顔領域追跡手段12は、対象フレームおよびその前後のフレームを対象として顔領域検出手段11で検出した顔領域の座標群が所定の誤差範囲内で同一と看做されるかどうかを追跡する。
ここで、図3は顔領域追跡の一例を示す模式図である。動画像中の第i番目のフレームからN個の顔領域が検出されたとする。以下、i番目のフレームに含まれる顔領域の集合をFと示す。これを中心座標(x,y)と幅(w)、高さ(h)からなる矩形領域として表現し、このフレーム中のj番目の顔領域に係る座標群をx(f),y(f),w(f),h(f)と記す。ただし、fはFの要素である(f∈F)。顔領域を追跡するに際しては、一例として「2フレーム間の中心座標の変動が距離dc以内」かつ「幅の変動がdw以内」かつ「高さの変動がdh以内」であることを条件とする。このとき、「(x(f)−x(g))+(y(f)−y(g))≦dc」かつ「|w(f)−w(g)|≦dw」かつ「|h(f)−h(g)|≦dh」であるとき、顔領域fおよびgは同一人物の顔であると推定される。ここで、「|…|」は絶対値記号である。上記の計算は、f∈Fである顔領域fと、g∈Fである顔領域gのすべてに対して実行される。
なお、顔領域追跡手法は上述したものに限定されるものではなく、他の顔領域追跡手法を用いるようにしても良い。例えば、ある人物とカメラの間を別の人物が横切るような場面では、上述した顔領域追跡手法は誤検出を生じさせる場合がある。この問題を解決するために、図4に示すように、追跡対象としているフレームから2フレーム以上前の情報から個々の顔領域の動きの傾向を推測し、横切り(オクルージョン)を考慮した領域追跡を行ってもよい。
また、上述した顔領域追跡手法では、顔領域として矩形領域を例としたが、多角形、楕円形等の領域形状をとっても構わない。
また、顔領域追跡手段12は、後述するカット検出手段14と接続されており、追跡対象としている2フレーム間にカットがある場合には、図5に示すように、上記の追跡を打ち切り、2フレーム間には同一の属性を付与すべき顔領域の対はないと判定する。
そして、顔領域追跡手段12は、上記のように2つのフレームから同一人物と推定される顔領域の対が発見されたとき、対となった顔領域に対して同一の顔属性値(ID)を付与する。
特徴量抽出手段13は、映像入力端子21を介して入力された写真など単一の静止画像、または、再生時刻と対応づけられて動画像の構成要素となるべき静止画像(1フレーム)から、その内容構成の理解処理(顔検出やオブジェクト検出など)を施すことなく、後段のカット検出手段14のカット検出および類似ショット検出手段15の類似ショット検出に用いられるフレームの特徴量を算出する。フレームの特徴量としては、フレーム内に含まれる画素(ピクセル)の輝度や色の平均値やそれらのヒストグラム、画面全体または画面を機械的に分割した小領域におけるオプティカルフロー(動きベクトル)などが挙げられる。
カット検出手段14は、特徴量抽出手段13によって算出されたフレームの特徴量を用いて、連続するフレーム間でそれらの一つあるいは複数が大きく変化した点を検出するカット検出を実行する。カット検出とは、時間的に連続する2フレーム間にカメラの切り替えがあったかどうかを検出することを指しており、「シーンチェンジ検出」と称されることもある。カットとは、テレビ放送等の場合、放送波に乗せて送出するための画面を撮影しているカメラを別のカメラに切り替えたり、カメラから事前録画した映像に切り替えたり、2つの異なる事前録画映像を編集によって時間的に接続した瞬間のことである。CG(コンピュータグラフィックス)やアニメーション等を用いた人工的な映像制作においても、上記の自然画像を用いた映像制作と同様の意図を持って切り替えられている点をカットという。本実施の形態においては、このような画面切り替わりの瞬間をカット、あるいはカット点と呼ぶことにし、カットによって分割される時間区間の映像をショットと称する。
一般的にカット検出はフレーム内に含まれる画素(ピクセル)の輝度や色の平均値やそれらのヒストグラム、あるいはオプティカルフロー(動きベクトル)を画面全体、または画面を機械的に分割した小領域から特徴量を算出し、連続するフレーム間でそれらの一つあるいは複数が大きく変化した点をもってカットと判定する方法が用いられる。
カット検出の手法には様々な提案があり、例えば、長坂らによる「ビデオ作品の場面変わりの自動判別法」(情報処理学会第40回全国大会論文集pp.642−643。1990年)によって開示されている方法を用いることができる。なお、カット検出手法は上述したものに限定されるものではなく、他のカット検出手法を用いるようにしても良い。
このようにしてカット検出手段14によって検出されたカット点は顔属性付与手段12に送られ、カット検出手段14によって時間分割されたショットは類似ショット検出手段15に送られる。
類似ショット検出手段15は、カット検出手段14から送られた時間分割されたショットの類似ショットを検出する。ここで、ショットは「港の倉庫で刑事が犯人を追いつめる」「クイズの第1問に対する回答を制限時間内に回答者が考える」といった「場面」や「シーン」よりも細かい時間単位である。場面やシーン、あるいはコーナーは、複数のショットから構成されるが、同一のカメラから撮影されたショットは、そのカメラの位置移動やズーミング(クローズアップ)の度合い、カメラがとらえる方向など「カメラアングル」が大きく異ならない限り、時間的に離れていても画面としては類似した映像となる。本実施の形態においては、このような類似した映像を「類似ショット」と称する。CGやアニメーション等による人工的な映像制作においても同様の制作意図をもち、同じ被写体を同じ方向から撮影したかのように合成されたショットを類似ショットということができる。
ここで、類似ショット検出手段15による類似ショットの検出方法について詳述する。類似ショット検出においても、上述したカット検出手段14におけるカット検出と同様の特徴量が用いられ、比較対象とする2つのショットからそれぞれ1枚または複数枚取り出されたフレーム間での特徴量の比較を行い、それらの差が所定の範囲内にある場合に、フレームを取り出した元となっている2つのショットを類似ショットと判定する。また、MPEGなどの動画像符号化方式では、同じ符号化器(エンコーダ)を用いて符号化を行った場合に、全く同一、またはきわめて類似したショットにおいて、同一または類似度の高い符号データを保持する可能性もある。このため、符号化データを複合することなく比較することにより、類似ショットを見つけても良い。
類似ショット検出の手法としては、例えば、特開平9−270006号公報に開示されている手法を用いることができる。また、他の類似ショット検出手法の一例としては、高速に実行可能である、青木「映像対話検出によるテレビ番組コーナー構成高速解析システム」(電子情報通信学会誌D−II,Vol.J88−D−II,No.1,2005年1月,pp.17−27)に開示されている手法を用いることができる。なお、類似ショット検出は上述したものに限定されるものではなく、他の類似ショット検出手法を用いるようにしても良い。
以上の処理を全ての入力画像に対して行うことにより、映像中の登場人物の顔については、その登場の時間的連続性から複数のフレームにわたって同一の属性を持った顔領域の座標群として同一の属性値が付与される。また、映像そのものについては、カット検出によって分割された各ショットに類似のものがある場合には、類似ショット同士に同一の属性が付与された状態となっている。
ところで、上述した処理では、顔画像について、その画像中で目や鼻に相当する部分がどこであるかといった特徴点検出を行ったり、他の顔領域とのマッチングを行ったり、あるいは顔画像と判定された領域画像を辞書に登録したり、辞書との比較を行ったりといった、従来の顔認識システムにおける処理は行われていない。背景技術で説明した非特許文献1の図1における(2)「FaceDetection」までの処理を行ったにすぎない。このような処理は、前述したMitaらの論文に一例として開示されているように、高速に実行可能であり、本実施の形態においては、顔認識処理としてより時間を要する非特許文献1の図1における(3)移行の処理を省略している。
次に、上述のような問題を解決すべく、本実施の形態の映像処理装置1が備える特徴的な機能について説明する。
ショット選択手段16は、どの入力フレームにおいて顔領域が検出されたかを示す情報を顔領域検出手段11から受け取るとともに、画面全体の類似性に基づき付与された属性を含むショットの情報を類似ショット検出手段15から受け取り、下記に述べる方法によって映像中の主要な人物が登場すると推定されるショットの選択を行う。
映像中の主要な人物が登場すると推定されるショットの選択手法について説明する。まず、ショット選択手段16は、同一の属性を付与された類似ショットの集合をショット群とし、ショット群単位に顔領域が含まれるか否かを判別する。ただし、他に同一の属性を付与されたショットが存在しないショットについては、単独でショット群を構成するとする。なお、判定はショット群のいずれかのショットに顔領域が含まれていればよい。次いで、ショット選択手段16は、後述する所定の基準を満足している顔領域が含まれるショット群を選択する。このような処理は、所定の数のショットを選択するか、または、全てのショットを処理するまで行われる。
ここで、ショットの選択基準の例について、いくつか具体的に説明する。
第1の選択基準は、ショット群に含まれるショットの数が予め与えられた閾値を超えるか否かを基準とするものである。これは、主要な人物であれば多くのショットに登場することが推定されるためである。なお、ショット群に含まれるショットの数に限るものではなく、ショットの数の代わりにショット群に含まれるショットの合計時間の長さを用いるようにしてもよい。また、ショットの数およびショットの合計時間の両者を用いて、何れか一方が閾値を超えることを基準にしてもよいし、両方が閾値を超えることを基準にしてもよい。
第2の選択基準は、予め全てのショット群について、ショット群に含まれるショットの数を基準にして並べておき、上位より所定の数だけ選択するものである。なお、ショット群に含まれるショットの数に限るものではなく、ショット群に含まれるショットの合計時間の長さを用いるようにしてもよい。また、ショットの数およびショットの合計時間の両者を用いるようにしてもよい。ショットの数およびショットの合計時間の両者を用いるには、一旦、ショット数で並び替えた後、同順位のものを合計時間でさらに並び替えたり、それぞれを重み付けして加算した新たな指標を作る方法などがある。
ところで、主要な登場人物は何度も映像中に登場するため、類似ショットとならない複数のショット群に渡って登場することも予想される。このような場合、同じ人物を含んだショット群が何度も選択されてしまう可能性がある。そこで、より多様なショットの選択を可能にする第3,第4の選択基準について説明する。
第3の選択基準は、既に選択されているショット群と当該ショット群の特徴量の類似度が予め与えられた閾値を下回るか否かを基準とする。このような基準により選択を行うことで、同じような内容のショットばかりとならず、多様なショット群の選択が可能である。なお、ショット群間の類似度には、例えば類似ショット検出手段15で求めた類似度を用いて、各ショット群に属するショットのうち最も類似度の大きなショットの組み合わせにより得られる類似度を採用する。最大類似度を得る組み合わせは、全部の組み合わせについて算出することによって探索を行えばよい。なお、類似度の算出法はこれに限定されるものではなく、別の特徴量を用いて類似度を算出しても構わない。
第4の選択基準は、選択された全ショット群の相互の特徴量の類似度の総和が最小、あるいは所定の誤差範囲内でそれに準じるようにとなるように選択する。選択されたn個のショット群の第i番目のショット群と第j番目のショット群の類似度をsim(i,j)とすると、類似度の総和は以下に示す式(1)で表される。すなわち、全ショット群の組み合わせについて類似度の総和Sを算出し、類似度の総和Sが最小となるショット群の組み合わせを用いることで、最適な解を求めることができる。
Figure 2011505601
なお、山登り法等の適当な最適化手法により、準最適な解を求めてもよい。また、類似度の総和に代えてエントロピー(乱雑さを示す指標)を用いて、エントロピーが最大となるように選択してもよい。
以上、ショットの選択基準についての具体例を説明したが、選択基準は上述の例に限られるものではなく、適宜最適な基準を用いて選択することができる。
顔領域選択手段17は、時間的に連続して近傍座標に存在していることのみを理由に同一人物と推定され、同一の顔属性を付与された顔領域の座標群を顔領域追跡手段12から受け取るとともに、主要な登場人物が含まれると推定されて選択されたショット群の情報をショット選択手段16から受け取り、下記に述べる方法により主要な登場人物の顔領域を選択する。
主要な登場人物の顔領域の選択手法について説明する。まず、顔領域選択手段17は、同一ショット群に含まれる顔領域を、特徴量に従って分類する。顔領域の特徴量には、例えば、顔領域座標群を用いる。
ところで、顔領域の属性は、異なるショット間において、同一人物であるか否かの推定はなされていない。ショット内の人物が一人であれば、類似ショットには同一の人物が登場するという前提のもとに同一人物であると推定することができるが、ショットに複数の人物が存在する場合には、同一人物ごとに分類する必要が生じることになる。ここで、図6は複数の人物が登場する場合における顔領域の選択の一例を示す模式図、図7はその顔領域の分類の一例を示す模式図である。図6および図7に示すように、顔領域選択手段17は、ショット間で最も中心座標の距離が近い位置にある顔領域を同一人物として分類する。第i番目のショット群の第j番目のショットに含まれる顔領域群の集合をFSijとする。ただし、顔領域群とは同一の属性が付与された一連の顔領域のことを言う。各顔領域群の中から1つの顔領域(例えば、先頭、中央、終端や最も正面を向いたもの)をその顔領域群の代表とする。図6においては、ショット群の中から顔領域群対を取り出し、それぞれの代表の顔領域の中心座標を(x(a),y(a))および(x(b),y(b))として表現している(a∈FSij,b∈FSik)。FSijおよびFSik間で全ての顔領域群の組み合わせについて距離を求め、最も距離が短くなるものを対応付ける。距離は一例として(x(a)−x(a))+(y(b)−y(b))として算出できる。また、同一人物であるにもかかわらず顔が検出できずにショット内で顔領域群が分割された場合についても、ショット内で同様に最も近い位置の顔領域群を対応づける。以上の処理により対応付けられた顔領域群は、同一の人物と推定されるため、図7に示すように、新しく同一の属性を付与する。このとき付与される属性はもとの属性を修正したものでもよいし、もとの属性を残したまま別に付与したものでもよい。なお、上記の例では、顔領域群の比較において、各顔領域群の中から1つの顔領域をその顔領域群の代表としたが、各顔領域群内での平均値を用いても良い。また、上記の例では、顔領域の特徴量として顔領域座標群を用いたが、顔領域座標群に対応する時刻の静止画より顔画像を抽出して算出される画像的な特徴量を用いることもできる。
次に、顔領域選択手段17は、分類された同一ショット群に含まれる同一の属性が付与された一連の顔領域である顔領域群を同一の人物と推定して、後述する基準を満たす場合に、主要な登場人物の顔領域群として選択する。
このような処理は、所定の数の顔領域群を選択するか、または、全てのショットを処理するまで行われる。
ここで、顔領域群の選択基準の例について、いくつか具体的に説明する。
第1の選択基準は、図8に示すように、選択されたショット群に含まれる全ての顔領域群を主要な登場人物の顔領域群として選択する。
第2の選択基準は、図9に示すように、ショット群に順位が付与されている場合に、ショット群ごとに同一の属性が付与された顔領域群の集合を並び替えて、上位のものを選択する。この選択をショット群の順位に基づいて行う。ショット内の並び替えは、例えば,顔領域群の集合に含まれる顔領域の数が多いものから降順に並べる。また、ショット群の順位は、ショット選択手段16でショット群を選択した順位に従って行う。
第3の選択基準は、図10に示すように、選択された全ショット群に含まれる顔領域群の集合を並び替えて、その中から上位のものから選択する。ショット内の並び替えは、例えば、顔領域群の集合に含まれる顔領域の数が多いものから降順に並べる。
顔領域選択手段17は、以上のようにして選択された主要な登場人物と推定される顔領域を、出力端子22より出力する。なお,このときの出力は顔領域群の集合であってもよいし、顔領域群の集合の中から選ばれた顔領域群であってもよいし、顔領域群の中から選ばれた顔領域であってもよい。これらの選択基準は、例えば、時間的に先頭のものを選んだり、顔検出の際に最も正面を向いていると推定されたものを選んだりすればよい。
次に、映像処理装置1のCPU101が実行する顔検出処理の流れを図11のフローチャートを参照しつつ説明する。
図11に示すように、映像入力端子21に写真など単一の静止画像、または、再生時刻と対応づけられて動画像の構成要素となるべき静止画像(1フレーム)が入力されると(ステップS1のYes)、入力された静止画像は顔領域検出手段11に送られ、人物の顔と推定される画像領域(顔領域)が存在するか否かを判定する(ステップS2)。顔領域検出手段11において顔と推定される画像領域(顔領域)が存在していると判定した場合には(ステップS2のYes)、顔領域検出手段11はその顔領域の座標群を計算する(ステップS3)。一方、顔領域検出手段11において顔と推定される画像領域(顔領域)が存在していないと判定した場合には(ステップS2のNo)、ステップS1に戻り、次の静止画像の入力に待機する。
続くステップS4においては、対象フレームおよびその前後のフレームを対象として顔領域検出手段11によって得られた顔領域の座標群が所定の誤差範囲内で同一と看做されるかどうかが顔領域追跡手段12において検定される。
顔領域の座標群が所定の誤差範囲内で同一と看做されない場合には(ステップS4のNo)、ステップS6に進み、2フレーム間には同一の属性を付与すべき顔領域の対はないと判定し、顔領域追跡手段12によってそれぞれ新しい顔属性が付与される。
顔領域の座標群が所定の誤差範囲内で同一と看做される場合には(ステップS4のYes)、ステップS5に進み、追跡対象としている2フレーム間にカットがあるか否かを判定する。追跡対象としている2フレーム間にカットがある場合には(ステップS5のYes)、顔領域追跡手段12による追跡を打ち切り、2フレーム間には同一の属性を付与すべき顔領域の対はないと判定し、顔領域追跡手段12によってそれぞれ新しい顔属性が付与される(ステップS6)。
一方、追跡対象としている2フレーム間にカットがない場合には(ステップS5のNo)、対となった顔領域には顔領域追跡手段12によって同一の属性値(ID)が付与される(ステップS7)。
以上のようなステップS1〜S7の処理は、すべての入力画像について実行されるまで(ステップS8のYes)、繰り返される。
以上の過程において、映像中の登場人物の顔については、その登場の時間的連続性から複数のフレームにわたって同一の属性を持った顔領域の座標群として同一の属性値が付与される。
一方、映像入力端子21に写真など単一の静止画像、または、再生時刻と対応づけられて動画像の構成要素となるべき静止画像(1フレーム)が入力されると(ステップS9のYes)、特徴量抽出手段13において、画像全体からその内容構成の理解処理(顔検出やオブジェクト検出など)を施すことなくカット検出および類似ショット検出に用いられる特徴量を抽出するとともに(ステップS10)、特徴量抽出手段13によって抽出されたフレームの特徴量を用いてカット検出手段14においてカット検出を行う(ステップS11)。
次いで、カット検出手段14によって時間分割されたショットについて、類似ショット検出手段15によって類似ショットの存在を検定し(ステップS12)、類似ショットが存在する場合には(ステップS12のYes)、類似ショット検出手段15によって類似と判定された双方のショットに同一の属性値(ID)を付与する(ステップS13)。一方、類似ショットが存在しない場合には(ステップS12のNo)、ステップS9に戻り、次の静止画像(1フレーム)の入力に待機する。
以上のようなステップS9〜S13の処理は、すべての入力画像について実行されるまで(ステップS14のYes)、繰り返される。
以上の過程において、映像については、カット検出によって分割された各ショットに、類似のものがあれば類似ショット同士に同一の属性が付与された状態となる。
なお、ステップS1〜S8の処理とステップS9〜S14の処理は同時に処理を行っても良いし、一方から先に順次処理を行ってもよい。ただし、ステップS5においてカットを用いて属性の付与を行う場合には、カットを用いて属性の付与を行う時点までにカット検出手段14によって該当するカットを得られるように処理を行う必要があり、該当するカットはカット検出手段14によってカットを用いて属性の付与を行う時点までに得られる。同時に行う場合は、ステップS1とステップS9とは統合して、取得した静止画を顔領域検出手段11と特徴量抽出手段13に同時に送るようにしてもよい。
続いて、ショット選択手段16は、同一の属性を付与されたショットの集合をショット群とし、ショット群単位に顔領域が含まれるか否かを判別する(ステップS15)。ショット選択手段16は、顔領域が含まれる場合は(ステップS15のYes)、ショット群が所定の基準を満足しているか否かをさらに判定する(ステップS16)。ショット選択手段16は、ショット群が所定の基準を満足している場合は(ステップS16のYes)、当該ショット群を選択する(ステップS17)。一方、ショット群が所定の基準を満足していない場合は(ステップS16のNo)、ステップS15に戻り、次のショット群について処理する。
以上のようなステップS15〜S17の処理は、所定の数のショットを選択するか、全てのショットを処理するまで(ステップS18のYes)、繰り返される。
続いて、同一ショット群に含まれる顔領域を特徴量に従って分類し(ステップS19)、顔領域が所定の基準を満たすか否かを判定する(ステップS20)。顔領域が所定の基準を満たす場合には(ステップS20のYes)、顔領域を主要な登場人物として選択する(ステップS21)。一方、顔領域が所定の基準を満たさない場合には(ステップS20のNo)、次の顔領域について処理する。
以上のようなステップS20〜S21の処理は、所定の数の顔領域群を選択するか、全てのショットを処理するまで(ステップS22のYes)、繰り返される。
所定の数の顔領域群を選択するか、全てのショットを処理すると(ステップS22のYes)、以上のようにして選択された主要な登場人物と推定される顔領域を出力端子22より出力して(ステップS23)、処理を終了する。
このように本実施の形態によれば、類似ショットの集合であるショット群から顔領域が含まれるとともに所定の基準を満足するショット群を選択し、同一ショット群に含まれる顔領域を特徴量に従って分類し、分類された同一ショット群に含まれる顔領域群を同一の人物と推定して、主要な登場人物の顔領域群として選択する。このように映像を構成するショットの類似性と顔領域検出とを組み合わせて主要な登場人物の選択を行うことにより、図12に示すように、一部のショット区間において顔を検出できない人物が含まれる映像であっても、登場人物の順位付け・選択が可能となり、テレビ番組において従来技術よりも実際の番組内容に即した主要人物の顔を選択することができる。また、画面全体の大局的な類似度に基づいて分類するため、顔の向きや大きさ、表情が異なっていても正規化や特徴点検出を行う必要がなく、高速・高精度に分類することができる。
このように顔の登場頻度や時間ではなく、その人物が含まれると推定されるショットを基準に登場人物の分類及び主要人物の特定を行うようにしたのは、一般的にテレビ番組では同じカメラアングルで撮影された類似ショットには同じ人物が登場する可能性が高いからである。
次に、本発明の第2の実施の形態を図13および図14に基づいて説明する。なお、前述した第1の実施の形態と同じ部分は同じ符号で示し説明も省略する。
本実施の形態は、第1の実施の形態とは処理の流れが異なるものである。図13は、本発明の第2の実施の形態にかかる映像処理装置1の概略構成を示すブロック図である。図13に示すように、映像処理装置1は、映像処理プログラムに従うことにより、顔領域検出手段11と、顔領域追跡手段12と、特徴量抽出手段13と、カット検出手段14と、類似ショット検出手段15と、ショット選択手段16と、顔領域選択手段17と、を備えている。なお、符号21は映像入力端子、符号22は属性情報出力端子である。
第1の実施の形態と異なる点は、所定の基準を満足しているショット群を、ショット選択手段16から顔領域検出手段11に渡すようにしている点である。すなわち、顔領域検出手段11は、ショット選択手段16から渡された所定の基準を満足しているショット群を用いて、静止画像(1フレーム)から顔領域を検出する。
次に、第2の実施の形態にかかる映像処理装置1のCPU101が実行する顔検出処理の流れを図14のフローチャートを参照しつつ説明する。第1の実施の形態において図11に示したフローチャートによる動作との違いは、入力された一部の静止画像についてのみ顔検出および追跡を行うことであり、これによって処理量の削減が期待できる。また、削減できた処理量を顔の特徴点検出や正規化を伴うより高精度な顔検出や追跡の処理にまわすことで、図11の処理量と同等な処理量で精度の高い処理が可能である。なお、図14のフローチャートの大部分は図11のフローチャートにおける各ステップの処理の順番を入れ替えて踏襲したものとなっているため、重複する部分については簡単な説明にとどめる。
図14に示すように、映像入力端子21に写真など単一の静止画像、または、再生時刻と対応づけられて動画像の構成要素となるべき静止画像(1フレーム)が入力されると(ステップS31のYes)、特徴量抽出手段13において、画像全体からその内容構成の理解処理(顔検出やオブジェクト検出など)を施すことなくカット検出および類似ショット検出に用いられる特徴量を抽出するとともに(ステップS32)、特徴量抽出手段13によって抽出されたフレームの特徴量を用いてカット検出手段14においてカット検出を行う(ステップS33)。
次いで、カット検出手段14によって時間分割されたショットについて、類似ショット検出手段15によって類似ショットの存在を検定し(ステップS34)、類似ショットが存在する場合には(ステップS34のYes)、類似ショット検出手段15によって類似と判定された双方のショットに同一の属性値(ID)を付与する(ステップS35)。一方、類似ショットが存在しない場合には(ステップS34のNo)、ステップS31に戻り、次の静止画像(1フレーム)の入力に待機する。
以上のようなステップS31〜S35の処理は、すべての入力画像について実行されるまで(ステップS36のYes)、繰り返される。
以上の過程において、映像については、カット検出によって分割された各ショットに、類似のものがあれば類似ショット同士に同一の属性が付与された状態となる。
続いて、ショット選択手段16は、ショット群が所定の基準を満足しているか否かをさらに判定する(ステップS37)。ショット選択手段16は、ショット群が所定の基準を満足している場合は(ステップS37のYes)、当該ショット群を選択して(ステップS38)、ステップS39に進む。一方、ショット群が所定の基準を満足していない場合は(ステップS37のNo)、次のショット群について判定する。
ステップS39では、顔領域検出手段11が、選択されたショット群に含まれる1つ以上のショット内に人物の顔と推定される画像領域(顔領域)が存在するか否かを判定する。顔領域検出手段11において顔と推定される画像領域(顔領域)が存在していると判定した場合には(ステップS39のYes)、顔領域検出手段11はその顔領域の座標群を計算する(ステップS40)。一方、顔領域検出手段11において顔と推定される画像領域(顔領域)が存在していないと判定した場合には(ステップS39のNo)、ステップS37に戻り、次のショットの入力に待機する。
続くステップS41においては、対象フレームおよびその前後のフレームを対象として顔領域検出手段11によって得られた顔領域の座標群が所定の誤差範囲内で同一と看做されるかどうかが顔領域追跡手段12において検定される。
顔領域の座標群が所定の誤差範囲内で同一と看做されない場合には(ステップS41のNo)、ステップS42に進み、顔領域追跡手段12による追跡を打ち切り、2フレーム間には同一の属性を付与すべき顔領域の対はないと判定し、顔領域追跡手段12によってそれぞれ新しい顔属性が付与される。
顔領域の座標群が所定の誤差範囲内で同一と看做される場合には(ステップS41のYes)、ステップS43に進み、対となった顔領域には顔領域追跡手段12によって同一の属性値(ID)が付与される。
以上のようなステップS41〜S43の処理は、ショット内のすべての画像について実行されるまで(ステップS44のYes)、繰り返される。
また、ステップS37〜S44の処理は、所定の数の顔領域あるいは顔領域を含むショットが得られるか、全部のショットを処理するまで(ステップS45のYes)、繰り返す。
続いて、顔領域選択手段17が、顔領域の属性は異なるショット間(ステップS39においてショット群の複数のショットを用いた場合)あるいは同一のショット内の離れた時間に顔領域について、同一人物であるか否かの推定はなされていないので、まず、同一ショット群に含まれる顔領域を座標群に従って分類し(ステップS46)、顔領域が所定の基準を満たすか否かを判定する(ステップS47)。顔領域が所定の基準を満たす場合には(ステップS47のYes)、顔領域を主要な登場人物として選択する(ステップS48)。一方、顔領域が所定の基準を満たさない場合には(ステップS47のNo)、次の顔領域について処理する。
以上のようなステップS47〜S48の処理は、所定の数の顔領域群を選択するか、全てのショットを処理するまで(ステップS49のYes)、繰り返される。
所定の数の顔領域群を選択するか、全てのショットを処理すると(ステップS49のYes)、以上のようにして選択された主要な登場人物と推定される顔領域を出力端子22より出力して(ステップS50)、処理を終了する。
このように本実施の形態によれば、類似ショットの集合であるショット群から所定の基準を満足するショット群を選択し、選択されたショット群に含まれる1つ以上のショット内から人物の顔と推定される画像領域である顔領域を検出し、連続するフレーム間の顔領域の座標群が同一と看做される場合、同一と看做される各顔領域に対して同一の顔属性値を付与する。そして、同一ショット群に含まれる顔領域を特徴量に従って分類し、分類された同一ショット群に含まれる顔領域群を同一の人物と推定して、主要な登場人物の顔領域群として選択する。このように映像を構成するショットの類似性と顔領域検出とを組み合わせて主要な登場人物の選択を行うことにより、図12に示すように、一部のショット区間において顔を検出できない人物が含まれる映像であっても、登場人物の順位付け・選択が可能となり、テレビ番組において従来技術よりも実際の番組内容に即した主要人物の顔を選択することができる。また、画面全体の大局的な類似度に基づいて分類するため、顔の向きや大きさ、表情が異なっていても正規化や特徴点検出を行う必要がなく、高速・高精度に分類することができる。
このように顔の登場頻度や時間ではなく、その人物が含まれると推定されるショットを基準に登場人物の分類及び主要人物の特定を行うようにしたのは、一般的にテレビ番組では同じカメラアングルで撮影された類似ショットには同じ人物が登場する可能性が高いからである。
次に、本発明の第3の実施の形態を図15ないし図18に基づいて説明する。なお、前述した第1の実施の形態と同じ部分は同じ符号で示し説明も省略する。
図15は、本発明の第3の実施の形態にかかる映像処理装置1の概略構成を示すブロック図である。図15に示すように、映像処理装置1は、映像処理プログラムに従うことにより、顔領域検出手段11と、顔領域追跡手段12と、特徴量抽出手段13と、カット検出手段14と、類似ショット検出手段15と、ショット選択手段16と、顔領域選択手段17と、顔領域除去手段18と、を備えている。なお、符号21は映像入力端子、符号22は属性情報出力端子である。
図15に示すように、本実施の形態は、第1の実施の形態の映像処理装置1に対して、顔領域除去手段18を加えた構成である。顔領域除去手段18に係わる動作以外は第1の実施の形態を踏襲するので、説明を割愛する。
図15に示すように、顔領域選択手段17において主要な登場人物と推定された顔領域の情報が顔領域除去手段18に送られる。
ところで、同一の人物と推定された顔領域には同一の属性が付与されるが、この判定は類似ショット検出手段15によって得られた類似ショットの情報に基づいて行われている。しかしながら、同一人物が同じような向きから撮影されているにも係わらず画角の違いなどにより、類似ショット検出手段15において類似ショットと判定されず、図16に示すように、別の人物を示す属性が付与される可能性がある。ところが、このようなショットの場合、顔領域の近傍に注目すると両者は類似している。そこで、以下に述べる顔領域除去手段18における処理により、類似ショット検出手段15では類似ショットとしては検出されていないが顔領域近傍の画像が類似することで同一人物と推定された顔領域を、顔領域選択手段17で選択された顔領域から除去する。
図17は、顔領域除去手段18における顔領域除去処理の流れを示すフローチャートである。図17に示すように、まず、顔領域の座標群に基づき、時間的に対応する静止画像より顔領域を含む顔画像を作成し(ステップS61)、顔画像から特徴量を抽出する(ステップS62)。特徴量は、一例として、図18に示すように、顔画像を縦横のブロックに分割し、各ブロックより得られる色成分のヒストグラム分布を用い、類似度としてブロックごとにヒストグラムインターセクションと呼ばれるヒストグラムの重なる部分の割合を求めて、全てのブロックについて加算する。なお、加算する際には、ブロックによって重みを変えるようにしてもよい。例えば、顔の部分を多く含む中央部の重みを周辺よりも高くする。
次に、別の顔領域群から得られた顔画像と特徴量から類似度を算出し、所定の類似度であるか否かを判定する(ステップS63)。類似度が所定の類似度である、つまり、顔画像が類似する場合は(ステップS63のYes)、一方の顔領域群を除去する(ステップS64)。一方、顔画像が類似しない場合は(ステップS63のNo)、ステップS61に戻る。以上説明したようなステップS61〜S64の処理は、全ての顔領域群の対について実行するまで(ステップS65のYes)、繰り返される。
このように本実施の形態によれば、同一人物が同じような向きから撮影されているにも係わらず画角の違いなどにより、類似ショット検出手段において類似ショットと判定されず、別の人物を示す属性が付与されている顔領域群を排除することができるので、高精度に分類することができる。
1 映像処理装置
11 顔領域検出手段
12 顔領域追跡手段
13 特徴量抽出手段
14 カット検出手段
15 類似ショット検出手段
16 ショット選択手段
17 顔領域選択手段
18 顔領域除去手段

Claims (13)

  1. 映像処理装置で実行される映像処理方法であって、前記映像処理装置は、制御部と記憶部を備え、前記制御部において実行される、
    特徴量抽出手段が、映像の構成要素となるフレームの特徴量を抽出するステップと、
    カット検出手段が、時間的に連続する前記フレーム間での画面の切り替わりであるカット点を、前記特徴量を用いて検出するステップと、
    類似ショット検出手段が、前記フレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって前記カット点によって分割される時間区間の前記フレームの集合体であるショットについて、同一のショット属性値を付与した類似ショットとして検出するステップと、
    ショット選択手段が、前記類似ショットの集合であるショット群から所定の基準を満足するショット群を選択するステップと、
    顔領域検出手段が、選択された前記ショット群に含まれる1つ以上のショット内から人物の顔と推定される画像領域である顔領域を検出するステップと、
    顔領域追跡手段が、連続する前記フレーム間の前記顔領域の座標群が同一と看做される場合、同一と看做される前記各顔領域に対して同一の顔属性値を付与するステップと、
    顔領域選択手段が、前記顔領域追跡手段から同一の顔属性を付与された前記顔領域の座標群を受け取り、同一ショット群に含まれる前記顔領域を特徴量に従って分類し、分類された同一ショット群に含まれる前記顔領域群を同一の人物と推定して、主要な登場人物の顔領域群として選択するステップと、
    を含むことを特徴とする映像処理方法。
  2. 映像処理装置で実行される映像処理方法であって、前記映像処理装置は、制御部と記憶部を備え、前記制御部において実行される、
    顔領域検出手段が、映像の構成要素となるフレームから人物の顔と推定される画像領域である顔領域を検出するステップと、
    顔領域追跡手段が、連続する前記フレーム間の前記顔領域の座標群が同一と看做される場合、同一と看做される前記各顔領域に対して同一の顔属性値を付与するステップと、
    特徴量抽出手段が、前記フレームの特徴量を抽出するステップと、
    カット検出手段が、時間的に連続する前記フレーム間での画面の切り替わりであるカット点を、前記特徴量を用いて検出するステップと、
    類似ショット検出手段が、前記フレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって前記カット点によって分割される時間区間の前記フレームの集合体であるショットについて、同一のショット属性値を付与した類似ショットとして検出するステップと、
    ショット選択手段が、前記顔領域検出手段から前記顔領域が検出された前記フレームを示す情報を受け取るとともに、前記類似ショット検出手段から前記類似ショットの情報を受け取り、前記類似ショットの集合であるショット群から前記顔領域が含まれるとともに所定の基準を満足するショット群を選択するステップと、
    顔領域選択手段が、前記顔領域追跡手段から同一の顔属性を付与された前記顔領域の座標群を受け取るとともに、前記ショット選択手段から前記顔領域が含まれるショット群を受け取り、同一ショット群に含まれる前記顔領域を特徴量に従って分類し、分類された同一ショット群に含まれる前記顔領域群を同一の人物と推定して、主要な登場人物の顔領域群として選択するステップと、
    を含むことを特徴とする映像処理方法。
  3. 前記ショット選択手段は、前記ショット群に含まれるショットの数と前記ショット群に含まれるショットの合計時間の長さとの少なくとも何れか一方が予め与えられた閾値を超えることを基準とする、
    ことを特徴とする請求項1に記載の映像処理方法。
  4. 前記ショット選択手段は、予め全ての前記ショット群について、前記ショット群に含まれるショットの数と前記ショット群に含まれるショットの合計時間の長さとの少なくとも何れか一方を基準にして並び替え、上位から所定の位置に位置することを基準とする、
    ことを特徴とする請求項1に記載の映像処理方法。
  5. 前記ショット選択手段は、前記ショット群と既に選択されている前記ショット群との特徴量の類似度が予め与えられた閾値を下回るか否かを基準とする、
    ことを特徴とする請求項1に記載の映像処理方法。
  6. 前記ショット選択手段は、選択された全ての前記ショット群の相互の特徴量の類似度の総和が最小、あるいは所定の誤差範囲内でそれに準じるようになることを基準とする、
    ことを特徴とする請求項1に記載の映像処理方法。
  7. 前記顔領域選択手段は、前記ショット群の順位に従って、前記ショット群ごとに同一の属性が付与された前記顔領域群の集合を並び替えて、上位のものを選択する、
    ことを特徴とする請求項1に記載の映像処理方法。
  8. 前記顔領域選択手段は、前記ショット選択手段によって選択された前記ショット群の順位に従う、
    ことを特徴とする請求項7に記載の映像処理方法。
  9. 前記顔領域選択手段は、前記ショット選択手段によって選択された全ての前記ショット群に含まれる前記顔領域群の集合を並び替えて、上位のものを選択する、
    ことを特徴とする請求項1に記載の映像処理方法。
  10. 前記顔領域選択手段は、前記顔領域群の集合に含まれる前記顔領域の数が多いものから降順に、前記顔領域群の集合を並び替える、
    ことを特徴とする請求項9に記載の映像処理方法。
  11. 前記顔領域選択手段は、分類された同一ショット群に複数の前記顔領域が存在する場合には、前記ショット間で最も中心座標の距離が近い位置にある前記顔領域を同一の人物として推定する、
    ことを特徴とする請求項1に記載の映像処理方法。
  12. 前記類似ショット検出手段では前記類似ショットとしては検出されていないが顔領域近傍の画像が類似することで同一人物と推定される複数の前記顔領域群について、一の前記顔領域群のみを残し、他の前記画像領域群を前記顔領域選択手段で選択された前記顔領域群から除去する顔領域除去手段をさらに備える、
    ことを特徴とする請求項1に記載の映像処理方法。
  13. 映像の構成要素となるフレームの特徴量を抽出する特徴量抽出手段と、
    時間的に連続する前記フレーム間での画面の切り替わりであるカット点を、前記特徴量を用いて検出するカット検出手段と、
    前記フレーム間における各特徴量の差が所定の誤差範囲内にある場合に、前記各フレームを取り出した元となっているものであって前記カット点によって分割される時間区間の前記フレームの集合体であるショットについて、同一のショット属性値を付与した類似ショットとして検出する類似ショット検出手段と、
    前記類似ショットの集合であるショット群から所定の基準を満足するショット群を選択するショット選択手段と、
    選択された前記ショット群に含まれる1つ以上のショット内から人物の顔と推定される画像領域である顔領域を検出する顔領域検出手段と、
    連続する前記フレーム間の前記顔領域の座標群が同一と看做される場合、同一と看做される前記各顔領域に対して同一の顔属性値を付与する顔領域追跡手段と、
    前記顔領域追跡手段から同一の顔属性を付与された前記顔領域の座標群を受け取り、同一ショット群に含まれる前記顔領域を特徴量に従って分類し、分類された同一ショット群に含まれる前記顔領域群を同一の人物と推定して、主要な登場人物の顔領域群として選択する顔領域選択手段と、
    を備えることを特徴とする映像処理装置。
JP2009514296A 2007-11-29 2008-11-28 映像処理方法および映像処理装置 Expired - Fee Related JP5166409B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009514296A JP5166409B2 (ja) 2007-11-29 2008-11-28 映像処理方法および映像処理装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007308687 2007-11-29
JP2007308687 2007-11-29
PCT/JP2008/072108 WO2009069831A1 (en) 2007-11-29 2008-11-28 Picture processing method and picture processing apparatus
JP2009514296A JP5166409B2 (ja) 2007-11-29 2008-11-28 映像処理方法および映像処理装置

Publications (2)

Publication Number Publication Date
JP2011505601A true JP2011505601A (ja) 2011-02-24
JP5166409B2 JP5166409B2 (ja) 2013-03-21

Family

ID=40678712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009514296A Expired - Fee Related JP5166409B2 (ja) 2007-11-29 2008-11-28 映像処理方法および映像処理装置

Country Status (3)

Country Link
US (1) US20100272365A1 (ja)
JP (1) JP5166409B2 (ja)
WO (1) WO2009069831A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012230501A (ja) * 2011-04-25 2012-11-22 Canon Inc 画像処理装置、画像処理方法

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4560805B2 (ja) * 2008-02-29 2010-10-13 カシオ計算機株式会社 撮像装置及びそのプログラム
KR101268520B1 (ko) 2009-12-14 2013-06-04 한국전자통신연구원 영상 인식 장치 및 방법
CN102111535B (zh) * 2009-12-23 2012-11-21 华晶科技股份有限公司 提高人脸辨识率的方法
JP5576384B2 (ja) * 2010-01-29 2014-08-20 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ データ処理装置
US8811747B2 (en) 2011-10-28 2014-08-19 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US9025836B2 (en) 2011-10-28 2015-05-05 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US20130108119A1 (en) * 2011-10-28 2013-05-02 Raymond William Ptucha Image Recomposition From Face Detection And Facial Features
US8938100B2 (en) 2011-10-28 2015-01-20 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US9008436B2 (en) 2011-10-28 2015-04-14 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US9025835B2 (en) 2011-10-28 2015-05-05 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
JP2013164834A (ja) * 2012-01-13 2013-08-22 Sony Corp 画像処理装置および方法、並びにプログラム
JP5959923B2 (ja) * 2012-04-26 2016-08-02 キヤノン株式会社 検出装置、その制御方法、および制御プログラム、並びに撮像装置および表示装置
US10150028B2 (en) * 2012-06-04 2018-12-11 Sony Interactive Entertainment Inc. Managing controller pairing in a multiplayer game
JP2014067333A (ja) * 2012-09-27 2014-04-17 Sony Corp 画像処理装置、画像処理方法、およびプログラム
KR102065362B1 (ko) * 2013-05-14 2020-01-13 삼성전자주식회사 연속 촬영 이미지에서의 고조점 이미지 추출 장치 및 방법
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
JP7172224B2 (ja) 2018-07-19 2022-11-16 昭和電工マテリアルズ株式会社 導体形成用組成物、及び、導体層を有する物品の製造方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09270006A (ja) * 1996-04-03 1997-10-14 Toshiba Corp 動画像処理方法
JPH10234004A (ja) * 1997-02-18 1998-09-02 Toshiba Corp 動画像表示装置および表示方法
JP2007213170A (ja) * 2006-02-07 2007-08-23 Omron Corp 画像処理装置および方法、並びにプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7080392B1 (en) * 1991-12-02 2006-07-18 David Michael Geshwind Process and device for multi-level television program abstraction
US6195497B1 (en) * 1993-10-25 2001-02-27 Hitachi, Ltd. Associated image retrieving apparatus and method
KR100636910B1 (ko) * 1998-07-28 2007-01-31 엘지전자 주식회사 동영상검색시스템
JP4154400B2 (ja) * 2004-04-01 2008-09-24 キヤノン株式会社 撮像装置及びその制御方法及びプログラム
JP4618166B2 (ja) * 2006-03-07 2011-01-26 ソニー株式会社 画像処理装置、画像処理方法、およびプログラム
US7668867B2 (en) * 2006-03-17 2010-02-23 Microsoft Corporation Array-based discovery of media items
US7916971B2 (en) * 2007-05-24 2011-03-29 Tessera Technologies Ireland Limited Image processing method and apparatus

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09270006A (ja) * 1996-04-03 1997-10-14 Toshiba Corp 動画像処理方法
JPH10234004A (ja) * 1997-02-18 1998-09-02 Toshiba Corp 動画像表示装置および表示方法
JP2007213170A (ja) * 2006-02-07 2007-08-23 Omron Corp 画像処理装置および方法、並びにプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012230501A (ja) * 2011-04-25 2012-11-22 Canon Inc 画像処理装置、画像処理方法

Also Published As

Publication number Publication date
WO2009069831A1 (en) 2009-06-04
JP5166409B2 (ja) 2013-03-21
US20100272365A1 (en) 2010-10-28

Similar Documents

Publication Publication Date Title
JP5166409B2 (ja) 映像処理方法および映像処理装置
JP4909840B2 (ja) 映像処理装置、プログラムおよび方法
US20090052783A1 (en) Similar shot detecting apparatus, computer program product, and similar shot detecting method
US11386284B2 (en) System and method for improving speed of similarity based searches
US10452893B2 (en) Method, terminal, and storage medium for tracking facial critical area
Cotsaces et al. Video shot detection and condensed representation. a review
CN106663196B (zh) 用于识别主体的方法、系统和计算机可读存储介质
US9047376B2 (en) Augmenting video with facial recognition
JP5106271B2 (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム
CN106446015A (zh) 一种基于用户行为偏好的视频内容访问预测与推荐方法
WO2016085667A1 (en) Fast object tracking framework for sports video recognition
Sreeja et al. Towards genre-specific frameworks for video summarisation: A survey
CN113766330A (zh) 基于视频生成推荐信息的方法和装置
Obeso et al. Comparative study of visual saliency maps in the problem of classification of architectural images with Deep CNNs
WO1999005865A1 (en) Content-based video access
e Souza et al. Survey on visual rhythms: A spatio-temporal representation for video sequences
Wei et al. Omni-face detection for video/image content description
Barhoumi Detection of highly articulated moving objects by using co-segmentation with application to athletic video sequences
Arbués-Sangüesa et al. Multi-Person tracking by multi-scale detection in Basketball scenarios
Dhamecha et al. Video summarization using feature vector clustering
Li et al. Ultra high definition video saliency database
WO2004068414A1 (ja) 注目物体の出現位置表示装置
Mariappan et al. A study of low-complexity tools for semantic classification of mobile video
Merler Multimodal Indexing of Presentation Videos
Yang Automatic video categorization for massively large corpora: A paradigm shift for applications in lane tracking

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120731

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121220

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151228

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151228

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees