JP6527421B2

JP6527421B2 - 人物認識装置及びそのプログラム

Info

Publication number: JP6527421B2
Application number: JP2015153923A
Authority: JP
Inventors: 吉彦河合; 秀樹三ツ峰
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2015-08-04
Filing date: 2015-08-04
Publication date: 2019-06-05
Anticipated expiration: 2035-08-04
Also published as: JP2017033372A

Description

本願発明は、人物の顔を認識する人物認識装置及びそのプログラムに関する。

従来から、セキュリティ分野において、人物の顔を識別する技術が提案されている（例えば、特許文献１参照）。この従来技術は、顔特徴量として、顔特徴位置（例えば、目の両端、鼻先、眉間、眉毛の両端）における局所特徴ベクトルを算出し、この局所特徴ベクトルに基づいて、人物の顔を識別するものである。

特開２０１０−３０２１号公報

しかし、前記した従来技術は、顔特徴位置を正確に検出できない場合、以下で述べるように認識精度が大幅に低下する。この顔特徴位置の検出処理は、入力画像の品質に大きく左右される。そして、入力画像の品質は、例えば、撮影時の照明位置や明るさが一定であるか、顔が正面を向いているか、撮影画像にノイズがないか、撮影画像の解像度が十分であるか等の撮影条件に左右される。つまり、前記した従来技術は、これら撮影条件が変動すると、顔特徴位置の検出位置も変動することになり、人物の顔を精度よく認識できない。

そこで、本願発明は、撮影条件の変動に関わらず、認識精度が高い人物認識装置及びそのプログラムを提供することを課題とする。

前記した課題に鑑みて、本願発明に係る人物認識装置は、人物の顔領域が含まれる顔領域画像を分割し、分割された前記顔領域画像を用いて、前記人物の顔を認識する人物認識装置であって、領域分割部と、勾配ヒストグラム算出部と、変換部と、統合部と、集計部と、顔認識部と、を備える構成とした。

かかる構成によれば、人物認識装置は、エッジ検出部によって、前記顔領域画像にエッジ検出処理を施すことでエッジ画像を生成する。
人物認識装置は、領域分割部によって、前記顔領域画像及び前記エッジ画像をそれぞれ小さくした分割領域に分割する。
人物認識装置は、勾配ヒストグラム算出部によって、前記顔領域画像及び前記エッジ画像の分割領域に特徴点を設定し、前記特徴点を中心とした一定範囲の勾配ヒストグラムを算出する。

人物認識装置は、変換部によって、前記勾配ヒストグラムを前記特徴点毎の特徴ベクトルに変換する。
人物認識装置は、統合部によって、前記特徴点毎に、前記特徴点と当該特徴点に近傍する予め設定された範囲内の他の特徴点との特徴ベクトルを統合する。
人物認識装置は、集計部によって、統合された前記特徴ベクトルを重み付けて集計することで、前記顔領域の画像特徴量を算出する。
人物認識装置は、顔認識部によって、前記顔領域の画像特徴量に基づいて、前記人物の顔を認識する認識処理を行う。
このように、人物認識装置は、分割領域ベースで特徴量（勾配ヒストグラム）を算出するので、従来技術のように顔特徴位置を検出する必要がない。

本願発明は、以下のような優れた効果を奏する。
本願発明によれば、分割領域ベースで特徴量（勾配ヒストグラム）を算出するので、顔特徴位置を検出する必要がなくなり、撮影条件の変動に関わらず、認識精度を高くすることができる。

本願発明の実施形態に係る人物映像検索装置の構成を示すブロック図である。顔領域画像を説明する説明図である。図１の特徴量算出部の構成を示すブロック図である。（ａ）及び（ｂ）は勾配ヒストグラムの算出を説明する説明図である。重みの設定を説明する説明図である。図１の人物映像検索装置の動作を示すフローチャートである。図７の顔モデル生成処理を示すフローチャートである。図７の映像登録処理を示すフローチャートである。図８の代表フレーム画像検出処理を示すフローチャートである。本願発明の実施例の実験結果を示す表である。本願発明の比較例の実験結果を示す表である。

以下、本願発明の実施形態について、適宜図面を参照しながら詳細に説明する。なお、各実施形態において、同一の機能を有する手段には同一の符号を付し、説明を省略した。

（実施形態）
［人物映像検索装置１の構成］
図１を参照し、本願発明の実施形態に係る人物映像検索装置（人物認識装置）１の構成について説明する。
人物映像検索装置１は、番組映像から特定の出演者を検索するものである。
まず、人物映像検索装置１は、検索対象者（認識対象者）の顔領域が映った顔領域画像を入力し、入力された顔領域画像から検索対象者の顔モデルを生成する（顔モデル生成処理）。
次に、人物映像検索装置１は、入力された番組映像をカットに分割し、各カットから抽出した代表フレーム画像に含まれる出演者（人物）の顔領域を検出し、検出された出演者毎に顔領域の画像特徴量を算出する（映像登録処理）。
そして、人物映像検索装置１は、検索対象者の顔モデルと出演者の顔領域の画像特徴量との適合率を算出し、算出した適合率順のリストを検索結果として出力する（認識処理）。

図１のように、人物映像検索装置１は、カット点検出部１０と、代表フレーム画像検出部２０と、顔領域検出部３０と、特徴量算出部４０と、学習データ生成部５０と、顔モデル生成部６０と、顔認識部７０と、検索結果出力部８０とを備える。

カット点検出部１０は、入力された番組映像からカット点を検出するものである。例えば、カット点検出部１０は、特開２００９−３０２７８０号等に記載された一般的なカット点検出手法を利用できる。そして、カット点検出部１０は、検出したカット点で番組映像を分割し、分割された各カットを代表フレーム画像検出部２０に出力する。
なお、カット点とは、番組映像におけるカメラの切り替え点、又は、編集点のことである。

代表フレーム画像検出部２０は、カット点検出部１０より入力されたカットから、そのカットを代表する代表フレーム画像を検出するものである。例えば、代表フレーム画像検出部２０は、後記する顔領域検出部３０を利用し、出演者が含まれている可能性が高いフレーム画像を代表フレーム画像として検出する。そして、代表フレーム画像検出部２０は、検出した代表フレーム画像を顔領域検出部３０に出力する。

顔領域検出部３０は、代表フレーム画像検出部２０より入力された代表フレーム画像から、出演者の顔領域を検出するものである。図２のように、顔領域検出部３０は、各出演者の顔部分が含まれる矩形領域を顔領域として検出する。ここで、顔領域検出部３０は、代表フレーム画像に複数の出演者が含まれる場合、各出演者の顔領域を検出する。例えば、顔領域検出部３０は、特開２０１０−１４６２１１号等に記載された一般的な顔領域検出手法を利用できる。

このとき、顔領域検出部３０は、検出した顔領域画像９０を所定の大きさに正規化してもよい。例えば、正規化された顔領域画像は、縦横９６画素の正方画像となる（α＝９６画素）。
その後、顔領域検出部３０は、正規化した顔領域画像９０を特徴量算出部４０に出力する。

＜特徴量算出部４０の構成＞
以下、図３を参照し、特徴量算出部４０の構成を詳細に説明する（適宜図１参照）。
特徴量算出部４０は、顔領域検出部３０より入力された顔領域画像９０から、顔領域の画像特徴量を算出するものである。具体的には、特徴量算出部４０は、顔領域の画像特徴量として、エッジ勾配特徴量（勾配ヒストグラム）と、色・テクスチャ特徴量とを算出する。

図３のように、特徴量算出部４０は、エッジ検出部４１０と、領域分割部４１１と、勾配ヒストグラム算出部４１２と、符号化部（変換部）４１３と、統合部４１４と、集計部４１５と、重み推定部４１６と、色・テクスチャ特徴量算出部４２０と、特徴連結部４３０とを備える。

エッジ検出部４１０は、顔領域検出部３０から入力された顔領域画像９０にエッジ検出処理を施すことでエッジ画像を生成するものである。例えば、エッジ検出部４１０は、ＳｏｂｅｌフィルタやＰｒｅｗｉｔｔフィルタ等のエッジ検出処理を施して、エッジ画像を生成する。そして、エッジ検出部４１０は、生成したエッジ画像及び顔領域画像９０を領域分割部４１１に出力し、エッジ画像を重み推定部４１６に出力する。

領域分割部４１１は、図２のように、エッジ検出部４１０から入力された顔領域画像９０を、この顔領域画像９０よりも小さな矩形状の分割領域９１に分割するものである。このとき、領域分割部４１１は、分割領域９１の形状及び大きさを任意に設定できる。
例えば、領域分割部４１１は、顔領域画像９０を３６個の分割領域９１に分割する（β＝１６画素）。
また、例えば、領域分割部４１１は、顔領域画像９０と同様、エッジ検出部４１０から入力されたエッジ画像を１６個の分割領域に分割する。この場合、エッジ画像の分割領域は、縦横それぞれ２４画素となる。

ここで、領域分割部４１１は、分割領域９１が互いに重なるように顔領域画像９０を分割してもよい。これにより、人物映像検索装置１は、出演者の顔の位置がずれた場合でも、精度よく検索することができる。
その後、領域分割部４１１は、分割された顔領域画像９０及びエッジ画像を勾配ヒストグラム算出部４１２に出力する。

なお、図２では、分割領域９１の境界を点線で図示した。また、図２では、左上の分割領域９１のみ後記する特徴点をドットで図示し、他の分割領域９１では特徴点の図示を省略した。
また、図２では、分割領域９１を正方形で図示したが、縦横の比率を変えて長方形状にしてもよい。

勾配ヒストグラム算出部４１２は、領域分割部４１１から入力された顔領域画像９０及びエッジ画像の分割領域９１に特徴点を設定し、特徴点を中心とした一定範囲の勾配ヒストグラムを算出するものである。

まず、勾配ヒストグラム算出部４１２は、図２のように、顔領域画像９０の分割領域９１において、一定の画素間隔で特徴点をサンプリングする。例えば、特徴点の間隔は、縦横それぞれ４画素となる（γ＝４画素）。そして、勾配ヒストグラム算出部４１２は、各特徴点の周囲から勾配ヒストグラムを算出する。

具体的には、勾配ヒストグラム算出部４１２は、図４（ａ）のように、各特徴点を中心とした所定サイズ（例えば、縦横１６画素）の小領域９２を分割領域９１に設定し、各小領域９２の画素毎にエッジ方向を算出する。そして、勾配ヒストグラム算出部４１２は、図４（ｂ）のように、エッジ方向毎の頻度ヒストグラムを算出することで、勾配ヒストグラムｄ_ｍを求める。例えば、勾配ヒストグラムｄ_ｍは、エッジ方向を８方向とし、小領域９２を縦４×横４の部分領域９３に分割し、各部分領域９３から頻度ヒストグラムを求めた場合、８×４×４＝１２８次元となる。
なお、図４（ａ）では、図２で左上に位置する分割領域９１を拡大したものであり、部分領域９３に含まれる各画素のエッジ方向を矢印で図示した。また、図面を見やすくするため、特徴点及びエッジ方向を表す矢印を一部のみ図示した。

また、勾配ヒストグラム算出部４１２は、顔領域画像９０と同様、エッジ画像の分割領域についても、特徴点の周囲から勾配ヒストグラムを算出する。例えば、エッジ画像における特徴点の間隔は、縦横それぞれ６画素となる。

ここで、顔領域画像９０及びエッジ画像の全分割領域９１から求めた勾配ヒストグラムｄ_１，…，ｄ_Ｍの集合Ｍは、下記式（１）で表される。なお、Ｉ_ｍはｍ番目の特徴点の座標を表し、ｄ_ｍはｍ番目の特徴点の勾配ヒストグラム（特徴量）を表す（但し、１≦ｍ≦Ｍ）。

その後、勾配ヒストグラム算出部４１２は、座標Ｉ_ｍ及び勾配ヒストグラムｄ_ｍの集合Ｍを符号化部４１３に出力する。

符号化部４１３は、勾配ヒストグラム算出部４１２から入力された集合Ｍに含まれる勾配ヒストグラムｄ_ｍを特徴ベクトルに変換するものである。例えば、符号化部４１３は、下記参考文献１に記載された局所制約線形符号化を用いて、勾配ヒストグラムｄ_ｍをＢ次元の特徴ベクトルｖ_ｍに量子化する。そして、符号化部４１３は、算出した特徴点毎の特徴ベクトルｖ_ｍを統合部４１４に出力する。
参考文献１：Wang,et al.”Locality-constrained linear coding for image classification”,Proc.IEEE CVPR,pp.3360-3367,2010

なお、Ｂは、局所制約線形符号化に用いるコードブックのサイズを表す（例えば、Ｂ＝２０４８）。また、コードブックは、後記する学習データから算出した画像特徴量をｋ平均法でクラスタリングすることで求められる。

統合部４１４は、特徴点毎に、特徴点とその特徴点に近傍する他の特徴点との特徴ベクトルｖ_ｍを統合するものである。この統合部４１４は、座標Ｉ_ｍの特徴点に近傍するＫ個の特徴点に対応する特徴ベクトルｖ_ｍ，ｋをｍａｘｐｏｏｌｉｎｇで統合し、周辺領域を考慮した特徴ベクトルｗ_ｍ，ｋを生成する（例えば、Ｋ＝２０）。

ここで、特徴ベクトルｗ_ｍ，ｋは、下記の式（２）で表される。また、式（２）では、ｍａｘがベクトルの要素単位の最大値演算を表す。また、ｓ_ｋは、座標Ｉ_ｍからの距離に基づく重みを表す。例えば、ｓ_ｋは、下記の式（３）のように、ガウス分布に基づいて定義される。この式（３）では、σ_ｗが重みを調整するためのパラメータであり、“|| ||₂”がＬ２ノルムを表す。

つまり、統合部４１４は、式（２）のように、特徴ベクトルｖ_ｍと重みｓ_ｋで重み付けた特徴ベクトルｖ_ｍ，ｋとの和を算出する。そして、統合部４１４は、Ｋ近傍の特徴点のうち、その和が最大となるものを特徴ベクトルｗ_ｍとして集計部４１５に出力する。

集計部４１５は、統合部４１４から入力された特徴ベクトルｗ_ｍを重み付けて集計することで、顔領域の画像特徴量を算出するものである。
例えば、集計部４１５は、下記の式（４）のように、集合Ｍに含まれる特徴ベクトルｗ_ｍを重み推定部４１６から入力された重みｔ_ｍで重み付ける。そして、集計部４１５は、集合Ｍのうち、重み付け特徴ベクトルｗ_ｍ・ｔ_ｍの最大値を顔領域の画像特徴量ｗとして算出する。
その後、集計部４１５は、算出した顔領域の画像特徴量ｗを特徴連結部４３０に出力する。

重み推定部４１６は、重みｔ_ｍを推定し、推定した重みｔ_ｍを集計部４１５に出力するものである。
本実施形態では、重み推定部４１６は、顔領域のうち、顔特徴部分に対応する特徴ベクトルｗ_ｍの重みｔ_ｍを大きくし、残りの特徴ベクトルｗ_ｍの重みｔ_ｍを小さくする。具体的には、重み推定部４１６は、図５にハッチングで図示した顔特徴部分（例えば、目、鼻、口）において、重みｔ_ｍを大きくする。一方、重み推定部４１６は、図５のハッチング以外の部分において、重みｔ_ｍを小さくする。このとき、重み推定部４１６は、エッジ検出部４１０から入力されたエッジ画像にぼかしフィルタ処理を施すことで、顔特徴部分を求めることができる。

色・テクスチャ特徴量算出部４２０は、色・テクスチャ特徴量を算出するものであり、図３のように、色モーメント特徴量算出部４２１と、ウェーブレット特徴量算出部４２３と、ローカルバイナリパターン算出部４２５とを備える。

色モーメント特徴量算出部４２１は、色・テクスチャ特徴量として、色モーメント特徴量を算出するものである。
具体的には、色モーメント特徴量算出部４２１は、顔領域検出部３０から入力された顔領域画像を、ＨＳＶ色空間及びＬ＊ａ＊ｂ＊色空間に変換する。そして、色モーメント特徴量算出部４２１は、色モーメント特徴量として、下記の式（５）〜式（７）を用いて、コンポーネントｃ（｛ｈ，ｓ，ｖ，ｌ，ａ，ｂ｝毎に、画素値の平均μ_ｃ、画素値の標準偏差σ_ｃ、歪度の平方根ｓ_ｃを算出する。
なお、ＨＳＶ色空間では、ｈが色相、ｓが彩度、ｖが明度を表す。また、Ｌ＊ａ＊ｂ＊色空間では、Ｌ＊が明度、ａ＊，ｂ＊が色度を表す。

ここで、顔領域画像をＲ、コンポーネントｃの値をｆ_ｃ、顔領域画像の各画素の座標をｘ，ｙとする。
その後、色モーメント特徴量算出部４２１は、算出した色モーメント特徴量を特徴連結部４３０に出力する。

ウェーブレット特徴量算出部４２３は、顔領域検出部３０から入力された顔領域画像にウェーブレット変換を適用し、各サブバンド領域の画素値の分散を算出するものである。例えば、ウェーブレット特徴量算出部４２３は、３段階のＨａａｒウェーブレット変換を顔領域画像に施す。そして、ウェーブレット特徴量算出部４２３は、算出した各サブバンド領域の画素値を特徴連結部４３０に出力する。

ローカルバイナリパターン算出部４２５は、顔領域検出部３０より入力された顔領域画像から、ローカルバイナリパターンのヒストグラムを算出するものである。例えば、ローカルバイナリパターン算出部４２５は、下記参考文献２に記載された手法を用いて、顔領域画像の全画素からローカルバイナリパターンを算出し、その頻度ヒストグラムを求める。そして、ローカルバイナリパターン算出部４２５は、算出した頻度ヒストグラムを特徴連結部４３０に出力する。
参考文献２：T.Ojala,et al.“Muliresolution gray-scale and rotaton invariant texture classification with local binary patterns”IEEE Trans.Pattern Analysis and Machine Intelligence,vol.24,no.7,pp.971-987,2002

特徴連結部４３０は、集計部４１５から入力された画像特徴量を表すベクトルに、色・テクスチャ特徴量算出部４２０から入力された色・テクスチャ特徴量を表すベクトルを連結するものである。言い換えるなら、特徴連結部４３０は、勾配ヒストグラムと、色モーメント特徴量と、各サブバンド領域の画素値の分散と、ローカルバイナリパターンとを表すベクトルを連結する。そして、特徴連結部４３０は、両ベクトルが連結された顔領域の画像特徴量を顔認識部７０に出力する。

なお、特徴量算出部４０は、後記する学習データ生成部５０から入力された学習データについても、同様の手順で顔領域の画像特徴量を算出する。この場合、特徴量算出部４０は、算出した顔領域の画像特徴量を顔モデル生成部６０に出力する。

図１に戻り、人物映像検索装置１の構成について説明を続ける。
学習データ生成部５０は、検索対象者の顔領域画像に回転、平滑化、鮮鋭化又はノイズ付加の何れか１以上を施すことで、学習データを生成するものである。つまり、学習データ生成部５０は、認識対象者の顔領域画像を少しずつ変化させた学習データを生成し、学習データの種類を増やす。

ここで、学習データ生成部５０は、回転、平滑化、鮮鋭化又はノイズ付加の何れかを施してもよい。
一方、学習データ生成部５０は、回転、平滑化、鮮鋭化又はノイズ付加の２以上を組わせて施してもよい。例えば、学習データ生成部５０は、認識対象者の顔領域画像を時計回りに５度回転させた後、ノイズを付加する。
その後、学習データ生成部５０は、生成した学習データを特徴量算出部４０に出力する。

顔モデル生成部６０は、特徴量算出部４０より入力された顔領域の画像特徴量を機械学習することで、検索対象者の顔モデルを生成するものである。例えば、顔モデル生成部６０は、サポートベクターマシン、ニューラルネットワーク等の機械学習を行って、検索対象者の顔モデルを生成する。そして、顔モデル生成部６０は、生成した検索対象者の顔モデルを顔認識部７０に出力する。
なお、顔モデル生成部６０は、新たな検索対象者を追加した際に一度だけ顔モデルを生成すればよく、検索のたびに顔モデルを生成しなくともよい。

顔認識部７０は、顔領域の画像特徴量に基づいて、出演者の顔を認識する認識処理を行うものである。本実施形態では、顔認識部７０は、認識処理として、特徴量算出部４０より入力された画像特徴量（番組映像に含まれる各出演者の顔領域の画像特徴量）と、検索対象者の顔モデルとの適合率を算出する。ここで、顔認識部７０は、各出演者が番組映像に映っている可能性を示す適合率を算出する。そして、顔認識部７０は、算出した出演者毎の適合率を検索結果出力部８０に出力する。

検索結果出力部８０は、顔認識部７０から入力された出演者毎の適合率を出力するものである。例えば、検索結果出力部８０は、各出演者の適合率が高い順にソートし、出演者とその出演者の適合率とをディスプレイ（不図示）に表示する。

ここで、検索結果出力部８０は、表示された検索結果に対して、ユーザが正解又は不正解の正誤情報を入力することとしてもよい。この場合、検索結果出力部８０は、入力されたた正誤情報を用いて、検索対象者の顔モデルを再学習してもよい。

［人物映像検索装置１の動作］
図６を参照し、人物映像検索装置１の動作について説明する（適宜図１，図３参照）。
図６のように、人物映像検索装置１は、図７に示す顔モデル生成処理を行う（ステップＳ１）。
人物映像検索装置１は、図８に示す映像登録処理を行う（ステップＳ２）。

人物映像検索装置１は、顔認識部７０によって、顔認識処理を行う。つまり、顔認識部７０は、検索対象者の顔モデルと、各出演者の顔領域の画像特徴量との適合率を算出する。
人物映像検索装置１は、検索結果出力部８０によって、各出演者の適合率が高い順にソートし、出演者とその出演者の適合率とを検索結果としてディスプレイに表示し（ステップＳ３）、処理を終了する。

＜顔モデル生成処理＞
図７を参照し、顔モデル生成処理について説明する。
図７のように、人物映像検索装置１は、検索対象者の顔領域画像を学習データ生成部５０に入力する（ステップＳ１０）。
人物映像検索装置１は、学習データ生成部５０によって、検索対象者の顔領域画像に回転、平滑化、鮮鋭化又はノイズ付加の何れか１以上を施すことで、学習データを生成する（ステップＳ１１）。

人物映像検索装置１は、特徴量算出部４０によって、学習データから、検索対象者の顔領域の画像特徴量を算出する（ステップＳ１２）。
人物映像検索装置１は、顔モデル生成部６０によって、顔領域の画像特徴量を機械学習することで、検索対象者の顔モデルを生成し（ステップＳ１３）、顔モデル生成処理を終了する。

＜映像登録処理＞
図８を参照し、映像登録処理について説明する。
人物映像検索装置１は、カット点検出部１０によって、入力された番組映像からカット点を検出し、番組映像をカットに分割する（ステップＳ２０）。
人物映像検索装置１は、カット点検出部１０によって、全カットの映像登録処理が終了したか否かを判定する（ステップＳ２１）。
全カット終了した場合（ステップＳ２１でＹｅｓ）、人物映像検索装置１は、映像登録処理を終了する。

全カット終了していない場合（ステップＳ２１でＮｏ）、人物映像検索装置１は、図９に示す代表フレーム画像検出処理を行う（ステップＳ２２）。
人物映像検索装置１は、顔領域検出部３０によって、代表フレーム画像に含まれる出演者の顔領域を検出する（ステップＳ２３）。
人物映像検索装置１は、特徴量算出部４０によって、代表フレーム画像に含まれる出演者毎に、顔領域の画像特徴量を算出する（ステップＳ２４）。

＜代表フレーム画像検出処理＞
図９を参照し、代表フレーム画像検出処理について説明する。
代表フレーム画像検出部２０は、検出対象フレーム画像ｆを、カットの中で先頭となる初期位置のフレーム画像ｆ＿０に設定する（ステップＳ２２０）。

代表フレーム画像検出部２０は、検出対象フレーム画像ｆが、カットの中で最終フレーム画像であるか否かを判定する（ステップＳ２２１）。
最終フレーム画像の場合（ステップＳ２２１でＹｅｓ）、代表フレーム画像検出部２０は、代表フレーム画像検出処理を終了する。

最終フレーム画像でない場合（ステップＳ２２１でＮｏ）、顔領域検出部３０は、検出対象フレーム画像ｆから顔領域を検出する（ステップＳ２２２）。
代表フレーム画像検出部２０は、検出対象フレーム画像ｆから顔領域が検出されたか否かを判定する（ステップＳ２２３）。

顔領域が検出された場合（ステップＳ２２３でＹｅｓ）、代表フレーム画像検出部２０は、検出対象フレーム画像ｆを代表フレーム画像として出力し、代表フレーム画像検出処理を終了する。

顔領域が検出されない場合（ステップＳ２２３でＮｏ）、代表フレーム画像検出部２０は、検出対象フレーム画像ｆをΔｆフレームだけ移動させ（ステップＳ２２４）、ステップＳ２２１の処理に戻る。

[作用・効果]
本願発明の実施形態に係る人物映像検索装置１は、分割領域９１毎に勾配ヒストグラムを算出するので、従来技術のように顔特徴位置を検出する必要がなく、撮影条件の変動に関わらず、認識精度を高くすることができる。これにより、人物映像検索装置１は、放送番組に含まれる出演者を正確に検索することができる。

さらに、人物映像検索装置１は、学習データ生成部５０が学習データの種類を増やすことで、より撮影条件の変動に頑健な顔モデルの生成が可能となる。
さらに、人物映像検索装置１は、検索結果に対する正誤情報をユーザが入力し、この正誤情報に基づいて検索対象者の顔モデルを再学習できるので、その運用を行いながら、顔モデルの精度を向上させることができる。

以上、本願発明の実施形態を詳述してきたが、本願発明は前記した実施形態に限られるものではなく、本願発明の要旨を逸脱しない範囲の設計変更等も含まれる。

前記した実施形態では、代表フレーム画像検出部が顔領域検出部を利用して代表フレーム画像を検出することとして説明したが、本願発明は、これに限定されない。
例えば、代表フレーム画像検出部は、カットの先頭フレーム画像、中間フレーム画像又は最終フレーム画像の何れかなど、予め設定したフレーム画像を代表フレーム画像として検出できる。また、代表フレーム画像検出部は、カットの先頭からｎ秒後のフレーム画像を代表フレーム画像として検出してもよい。さらに、代表フレーム画像検出部は、カメラがズームイン又はズームアウトしている場合、カメラが静止した時点のフレーム画像を代表フレーム画像として検出してもよい。

この他、代表フレーム画像検出部は、カットに含まれる各フレーム画像を解析し、人物が含まれている可能性が高いフレーム画像を代表フレーム画像として検出してもよい。この場合、代表フレーム画像検出部は、顕著性マップを利用して、フレーム画像の中心部分に視覚的に顕著な領域が集中しているかを判定する手法、又は、色や周波数の特徴に基づいて判定する手法を用いることができる。

前記した実施形態では、重み推定部が顔特徴部分に対応する特徴ベクトルの重みを大きくすることとして説明したが、本願発明は、これに限定されない。
具体的には、重み推定部は、フレーム画像の隅よりも中央側の特徴ベクトルの重みを大きくしてもよい。また、重み推定部は、学習データを用いて、ある特徴ベクトルが主要な被写体の一部となる確率を求め、その確率を重みとしてもよい。

前記した実施形態では、色・テクスチャ特徴量算出部が、色・テクスチャ特徴量として、色モーメント特徴量と、顔領域画像の画素値の分散と、ローカルバイナリパターンの輝度ヒストグラムとを求めることとして説明したが、本願発明は、これに限定されない。
具体的には、色・テクスチャ特徴量算出部は、色モーメント特徴量、顔領域画像の画素値の分散、又は、ローカルバイナリパターンの輝度ヒストグラムの何れか１以上を色・テクスチャ特徴量として求めてもよい。

前記した実施形態では、番組映像に含まれる人物の検索に利用する例を説明したが、本願発明は、これに限定されない。つまり、本願発明は、番組映像だけでなく、番組映像以外の映像に含まれる人物の認識にも利用できる。

前記した実施形態では、人物映像検索装置を独立したハードウェアとして説明したが、本願発明は、これに限定されない。例えば、本願発明は、コンピュータが備えるＣＰＵ、メモリ、ハードディスク等のハードウェア資源を、人物映像検索装置として協調動作させる人物映像検索プログラムで実現することもできる。このプログラムは、通信回線を介して配布してもよく、ＣＤ−ＲＯＭやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。

（実施例）
以下、本願発明の実施例として、図１の人物映像検索装置１の検索精度について説明する。
この実施例では、４０時間分のドラマを番組映像とした。この番組映像は、俳優の表情や顔の向き、照明の明るさといった撮影条件の変動が大きいものである。

まず、番組映像から俳優１７名の顔領域を切り出して、その顔領域画像を人物映像検索装置１に入力した。そして、人物映像検索装置１は、入力された顔領域画像から学習データを生成し、その学習データから俳優１７名の顔モデルを生成した。
そして、顔モデルを生成した後、人物映像検索装置１に番組映像を入力し、検索精度を確認する実験を行った。このとき、人物映像検索装置１は、番組映像から４１２６９カット検出した。

また、同一の番組映像を用いて、下記参考文献３に記載の従来手法による実験も行った。以後、この従来手法を比較例とする。
参考文献３：Simon Clippingdale, Mahito Fujii,“Video Face Tracking and Recognition with Skin Region Extraction and Deformable Template Matching”,International Journal of Multimedia Data Engineering and Management,3(1),36-48,2012

ここで、実施例及び比較例の評価には、検索結果の上位ｎ件の平均適合率を用いた。この平均適合率ＡＰは、下記の式（８）及び式（９）で表される。

図１０に実施例の実験結果として、俳優１７名の平均適合率ＡＰと、その平均適合率のＭＡＰ（Mean Average Precision）とを図示した。
実施例では、ＭＡＰは、図１０のように、上位１００件が９２．３％、上位３００件が８４．６％、上位５００件が８０．５％であり、非常に良好な実験結果が得られた。

図１０と同様、図１１に比較例の実験結果を図示した。
比較例では、ＭＡＰは、図１１のように、上位１００件が５１．３％、上位３００件が４０．８％、上位５００件が３５．８％である。このように、比較例は、撮影条件の変動に弱いことから、実施例よりもＭＡＰが大幅に低下した。

１人物映像検索装置（人物認識装置）
１０カット点検出部
２０代表フレーム画像検出部
３０顔領域検出部
４０特徴量算出部
５０学習データ生成部
６０顔モデル生成部
７０顔認識部
８０検索結果出力部
４１０エッジ検出部
４１１領域分割部
４１２勾配ヒストグラム算出部
４１３符号化部（変換部）
４１４統合部
４１５集計部
４１６重み推定部
４２０色・テクスチャ特徴量算出部
４２１色モーメント特徴量算出部
４２３ウェーブレット特徴量算出部
４２５ローカルバイナリパターン算出部
４３０特徴連結部

Claims

人物の顔領域が含まれる顔領域画像を分割し、分割された前記顔領域画像を用いて、前記人物の顔を認識する人物認識装置であって、
前記顔領域画像にエッジ検出処理を施すことでエッジ画像を生成するエッジ検出部と、
前記顔領域画像及び前記エッジ画像をそれぞれ分割領域に分割する領域分割部と、
前記顔領域画像及び前記エッジ画像の分割領域に特徴点を設定し、前記特徴点を中心とした一定範囲の勾配ヒストグラムを算出する勾配ヒストグラム算出部と、
前記勾配ヒストグラムを前記特徴点毎の特徴ベクトルに変換する変換部と、
前記特徴点毎に、前記特徴点と当該特徴点に近傍する他の特徴点との特徴ベクトルを統合する統合部と、
統合された前記特徴ベクトルを重み付けて集計することで、前記顔領域の画像特徴量を算出する集計部と、
前記顔領域の画像特徴量に基づいて、前記人物の顔を認識する認識処理を行う顔認識部と、
を備えることを特徴とする人物認識装置。
前記顔領域画像の色モーメント特徴量、画素値の分散、又は、ローカルバイナリパターンのヒストグラムの何れか１以上を色・テクスチャ特徴量として算出する色・テクスチャ特徴量算出部と、
前記統合された特徴ベクトルに前記色・テクスチャ特徴量を表すベクトルを連結し、前記顔領域の画像特徴量として前記顔認識部に出力する特徴連結部と、
をさらに備えることを特徴とする請求項１に記載の人物認識装置。
認識対象者の顔領域画像に回転、平滑化、鮮鋭化又はノイズ付加の何れか１以上を施すことで、学習データを生成する学習データ生成部と、
前記学習データから算出した認識対象者の顔領域の画像特徴量を機械学習することで、前記認識対象者の顔モデルを生成する顔モデル生成部と、をさらに備え、
前記顔認識部は、前記認識処理として、前記人物の顔領域画像から算出した画像特徴量と、前記認識対象者の顔モデルとの適合率を算出することを特徴とする請求項１又は請求項２に記載の人物認識装置。
コンピュータを、請求項１から請求項３の何れか一項に記載の人物認識装置として機能させるための人物認識プログラム。