JP6527421B2 - 人物認識装置及びそのプログラム - Google Patents

人物認識装置及びそのプログラム Download PDF

Info

Publication number
JP6527421B2
JP6527421B2 JP2015153923A JP2015153923A JP6527421B2 JP 6527421 B2 JP6527421 B2 JP 6527421B2 JP 2015153923 A JP2015153923 A JP 2015153923A JP 2015153923 A JP2015153923 A JP 2015153923A JP 6527421 B2 JP6527421 B2 JP 6527421B2
Authority
JP
Japan
Prior art keywords
image
feature
face
unit
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015153923A
Other languages
English (en)
Other versions
JP2017033372A (ja
Inventor
吉彦 河合
吉彦 河合
秀樹 三ツ峰
秀樹 三ツ峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2015153923A priority Critical patent/JP6527421B2/ja
Publication of JP2017033372A publication Critical patent/JP2017033372A/ja
Application granted granted Critical
Publication of JP6527421B2 publication Critical patent/JP6527421B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本願発明は、人物の顔を認識する人物認識装置及びそのプログラムに関する。
従来から、セキュリティ分野において、人物の顔を識別する技術が提案されている(例えば、特許文献1参照)。この従来技術は、顔特徴量として、顔特徴位置(例えば、目の両端、鼻先、眉間、眉毛の両端)における局所特徴ベクトルを算出し、この局所特徴ベクトルに基づいて、人物の顔を識別するものである。
特開2010−3021号公報
しかし、前記した従来技術は、顔特徴位置を正確に検出できない場合、以下で述べるように認識精度が大幅に低下する。この顔特徴位置の検出処理は、入力画像の品質に大きく左右される。そして、入力画像の品質は、例えば、撮影時の照明位置や明るさが一定であるか、顔が正面を向いているか、撮影画像にノイズがないか、撮影画像の解像度が十分であるか等の撮影条件に左右される。つまり、前記した従来技術は、これら撮影条件が変動すると、顔特徴位置の検出位置も変動することになり、人物の顔を精度よく認識できない。
そこで、本願発明は、撮影条件の変動に関わらず、認識精度が高い人物認識装置及びそのプログラムを提供することを課題とする。
前記した課題に鑑みて、本願発明に係る人物認識装置は、人物の顔領域が含まれる顔領域画像を分割し、分割された前記顔領域画像を用いて、前記人物の顔を認識する人物認識装置であって、領域分割部と、勾配ヒストグラム算出部と、変換部と、統合部と、集計部と、顔認識部と、を備える構成とした。
かかる構成によれば、人物認識装置は、エッジ検出部によって、前記顔領域画像にエッジ検出処理を施すことでエッジ画像を生成する。
人物認識装置は、領域分割部によって、前記顔領域画像及び前記エッジ画像をそれぞれ小さくした分割領域に分割する。
人物認識装置は、勾配ヒストグラム算出部によって、前記顔領域画像及び前記エッジ画像の分割領域に特徴点を設定し、前記特徴点を中心とした一定範囲の勾配ヒストグラムを算出する。
人物認識装置は、変換部によって、前記勾配ヒストグラムを前記特徴点毎の特徴ベクトルに変換する。
人物認識装置は、統合部によって、前記特徴点毎に、前記特徴点と当該特徴点に近傍する予め設定された範囲内の他の特徴点との特徴ベクトルを統合する。
人物認識装置は、集計部によって、統合された前記特徴ベクトルを重み付けて集計することで、前記顔領域の画像特徴量を算出する。
人物認識装置は、顔認識部によって、前記顔領域の画像特徴量に基づいて、前記人物の顔を認識する認識処理を行う。
このように、人物認識装置は、分割領域ベースで特徴量(勾配ヒストグラム)を算出するので、従来技術のように顔特徴位置を検出する必要がない。
本願発明は、以下のような優れた効果を奏する。
本願発明によれば、分割領域ベースで特徴量(勾配ヒストグラム)を算出するので、顔特徴位置を検出する必要がなくなり、撮影条件の変動に関わらず、認識精度を高くすることができる。
本願発明の実施形態に係る人物映像検索装置の構成を示すブロック図である。 顔領域画像を説明する説明図である。 図1の特徴量算出部の構成を示すブロック図である。 (a)及び(b)は勾配ヒストグラムの算出を説明する説明図である。 重みの設定を説明する説明図である。 図1の人物映像検索装置の動作を示すフローチャートである。 図7の顔モデル生成処理を示すフローチャートである。 図7の映像登録処理を示すフローチャートである。 図8の代表フレーム画像検出処理を示すフローチャートである。 本願発明の実施例の実験結果を示す表である。 本願発明の比較例の実験結果を示す表である。
以下、本願発明の実施形態について、適宜図面を参照しながら詳細に説明する。なお、各実施形態において、同一の機能を有する手段には同一の符号を付し、説明を省略した。
(実施形態)
[人物映像検索装置1の構成]
図1を参照し、本願発明の実施形態に係る人物映像検索装置(人物認識装置)1の構成について説明する。
人物映像検索装置1は、番組映像から特定の出演者を検索するものである。
まず、人物映像検索装置1は、検索対象者(認識対象者)の顔領域が映った顔領域画像を入力し、入力された顔領域画像から検索対象者の顔モデルを生成する(顔モデル生成処理)。
次に、人物映像検索装置1は、入力された番組映像をカットに分割し、各カットから抽出した代表フレーム画像に含まれる出演者(人物)の顔領域を検出し、検出された出演者毎に顔領域の画像特徴量を算出する(映像登録処理)。
そして、人物映像検索装置1は、検索対象者の顔モデルと出演者の顔領域の画像特徴量との適合率を算出し、算出した適合率順のリストを検索結果として出力する(認識処理)。
図1のように、人物映像検索装置1は、カット点検出部10と、代表フレーム画像検出部20と、顔領域検出部30と、特徴量算出部40と、学習データ生成部50と、顔モデル生成部60と、顔認識部70と、検索結果出力部80とを備える。
カット点検出部10は、入力された番組映像からカット点を検出するものである。例えば、カット点検出部10は、特開2009−302780号等に記載された一般的なカット点検出手法を利用できる。そして、カット点検出部10は、検出したカット点で番組映像を分割し、分割された各カットを代表フレーム画像検出部20に出力する。
なお、カット点とは、番組映像におけるカメラの切り替え点、又は、編集点のことである。
代表フレーム画像検出部20は、カット点検出部10より入力されたカットから、そのカットを代表する代表フレーム画像を検出するものである。例えば、代表フレーム画像検出部20は、後記する顔領域検出部30を利用し、出演者が含まれている可能性が高いフレーム画像を代表フレーム画像として検出する。そして、代表フレーム画像検出部20は、検出した代表フレーム画像を顔領域検出部30に出力する。
顔領域検出部30は、代表フレーム画像検出部20より入力された代表フレーム画像から、出演者の顔領域を検出するものである。図2のように、顔領域検出部30は、各出演者の顔部分が含まれる矩形領域を顔領域として検出する。ここで、顔領域検出部30は、代表フレーム画像に複数の出演者が含まれる場合、各出演者の顔領域を検出する。例えば、顔領域検出部30は、特開2010−146211号等に記載された一般的な顔領域検出手法を利用できる。
このとき、顔領域検出部30は、検出した顔領域画像90を所定の大きさに正規化してもよい。例えば、正規化された顔領域画像は、縦横96画素の正方画像となる(α=96画素)。
その後、顔領域検出部30は、正規化した顔領域画像90を特徴量算出部40に出力する。
<特徴量算出部40の構成>
以下、図3を参照し、特徴量算出部40の構成を詳細に説明する(適宜図1参照)。
特徴量算出部40は、顔領域検出部30より入力された顔領域画像90から、顔領域の画像特徴量を算出するものである。具体的には、特徴量算出部40は、顔領域の画像特徴量として、エッジ勾配特徴量(勾配ヒストグラム)と、色・テクスチャ特徴量とを算出する。
図3のように、特徴量算出部40は、エッジ検出部410と、領域分割部411と、勾配ヒストグラム算出部412と、符号化部(変換部)413と、統合部414と、集計部415と、重み推定部416と、色・テクスチャ特徴量算出部420と、特徴連結部430とを備える。
エッジ検出部410は、顔領域検出部30から入力された顔領域画像90にエッジ検出処理を施すことでエッジ画像を生成するものである。例えば、エッジ検出部410は、SobelフィルタやPrewittフィルタ等のエッジ検出処理を施して、エッジ画像を生成する。そして、エッジ検出部410は、生成したエッジ画像及び顔領域画像90を領域分割部411に出力し、エッジ画像を重み推定部416に出力する。
領域分割部411は、図2のように、エッジ検出部410から入力された顔領域画像90を、この顔領域画像90よりも小さな矩形状の分割領域91に分割するものである。このとき、領域分割部411は、分割領域91の形状及び大きさを任意に設定できる。
例えば、領域分割部411は、顔領域画像90を36個の分割領域91に分割する(β=16画素)。
また、例えば、領域分割部411は、顔領域画像90と同様、エッジ検出部410から入力されたエッジ画像を16個の分割領域に分割する。この場合、エッジ画像の分割領域は、縦横それぞれ24画素となる。
ここで、領域分割部411は、分割領域91が互いに重なるように顔領域画像90を分割してもよい。これにより、人物映像検索装置1は、出演者の顔の位置がずれた場合でも、精度よく検索することができる。
その後、領域分割部411は、分割された顔領域画像90及びエッジ画像を勾配ヒストグラム算出部412に出力する。
なお、図2では、分割領域91の境界を点線で図示した。また、図2では、左上の分割領域91のみ後記する特徴点をドットで図示し、他の分割領域91では特徴点の図示を省略した。
また、図2では、分割領域91を正方形で図示したが、縦横の比率を変えて長方形状にしてもよい。
勾配ヒストグラム算出部412は、領域分割部411から入力された顔領域画像90及びエッジ画像の分割領域91に特徴点を設定し、特徴点を中心とした一定範囲の勾配ヒストグラムを算出するものである。
まず、勾配ヒストグラム算出部412は、図2のように、顔領域画像90の分割領域91において、一定の画素間隔で特徴点をサンプリングする。例えば、特徴点の間隔は、縦横それぞれ4画素となる(γ=4画素)。そして、勾配ヒストグラム算出部412は、各特徴点の周囲から勾配ヒストグラムを算出する。
具体的には、勾配ヒストグラム算出部412は、図4(a)のように、各特徴点を中心とした所定サイズ(例えば、縦横16画素)の小領域92を分割領域91に設定し、各小領域92の画素毎にエッジ方向を算出する。そして、勾配ヒストグラム算出部412は、図4(b)のように、エッジ方向毎の頻度ヒストグラムを算出することで、勾配ヒストグラムdを求める。例えば、勾配ヒストグラムdは、エッジ方向を8方向とし、小領域92を縦4×横4の部分領域93に分割し、各部分領域93から頻度ヒストグラムを求めた場合、8×4×4=128次元となる。
なお、図4(a)では、図2で左上に位置する分割領域91を拡大したものであり、部分領域93に含まれる各画素のエッジ方向を矢印で図示した。また、図面を見やすくするため、特徴点及びエッジ方向を表す矢印を一部のみ図示した。
また、勾配ヒストグラム算出部412は、顔領域画像90と同様、エッジ画像の分割領域についても、特徴点の周囲から勾配ヒストグラムを算出する。例えば、エッジ画像における特徴点の間隔は、縦横それぞれ6画素となる。
ここで、顔領域画像90及びエッジ画像の全分割領域91から求めた勾配ヒストグラムd,…,dの集合Mは、下記式(1)で表される。なお、Iはm番目の特徴点の座標を表し、dはm番目の特徴点の勾配ヒストグラム(特徴量)を表す(但し、1≦m≦M)。
Figure 0006527421
その後、勾配ヒストグラム算出部412は、座標I及び勾配ヒストグラムdの集合Mを符号化部413に出力する。
符号化部413は、勾配ヒストグラム算出部412から入力された集合Mに含まれる勾配ヒストグラムdを特徴ベクトルに変換するものである。例えば、符号化部413は、下記参考文献1に記載された局所制約線形符号化を用いて、勾配ヒストグラムdをB次元の特徴ベクトルvに量子化する。そして、符号化部413は、算出した特徴点毎の特徴ベクトルvを統合部414に出力する。
参考文献1:Wang,et al.”Locality-constrained linear coding for image classification”,Proc.IEEE CVPR,pp.3360-3367,2010
なお、Bは、局所制約線形符号化に用いるコードブックのサイズを表す(例えば、B=2048)。また、コードブックは、後記する学習データから算出した画像特徴量をk平均法でクラスタリングすることで求められる。
統合部414は、特徴点毎に、特徴点とその特徴点に近傍する他の特徴点との特徴ベクトルvを統合するものである。この統合部414は、座標Iの特徴点に近傍するK個の特徴点に対応する特徴ベクトルvm,kをmax poolingで統合し、周辺領域を考慮した特徴ベクトルwm,kを生成する(例えば、K=20)。
ここで、特徴ベクトルwm,kは、下記の式(2)で表される。また、式(2)では、maxがベクトルの要素単位の最大値演算を表す。また、sは、座標Iからの距離に基づく重みを表す。例えば、sは、下記の式(3)のように、ガウス分布に基づいて定義される。この式(3)では、σが重みを調整するためのパラメータであり、“|| ||2”がL2ノルムを表す。
Figure 0006527421
Figure 0006527421
つまり、統合部414は、式(2)のように、特徴ベクトルvと重みsで重み付けた特徴ベクトルvm,kとの和を算出する。そして、統合部414は、K近傍の特徴点のうち、その和が最大となるものを特徴ベクトルwとして集計部415に出力する。
集計部415は、統合部414から入力された特徴ベクトルwを重み付けて集計することで、顔領域の画像特徴量を算出するものである。
例えば、集計部415は、下記の式(4)のように、集合Mに含まれる特徴ベクトルwを重み推定部416から入力された重みtで重み付ける。そして、集計部415は、集合Mのうち、重み付け特徴ベクトルw・tの最大値を顔領域の画像特徴量wとして算出する。
その後、集計部415は、算出した顔領域の画像特徴量wを特徴連結部430に出力する。
Figure 0006527421
重み推定部416は、重みtを推定し、推定した重みtを集計部415に出力するものである。
本実施形態では、重み推定部416は、顔領域のうち、顔特徴部分に対応する特徴ベクトルwの重みtを大きくし、残りの特徴ベクトルwの重みtを小さくする。具体的には、重み推定部416は、図5にハッチングで図示した顔特徴部分(例えば、目、鼻、口)において、重みtを大きくする。一方、重み推定部416は、図5のハッチング以外の部分において、重みtを小さくする。このとき、重み推定部416は、エッジ検出部410から入力されたエッジ画像にぼかしフィルタ処理を施すことで、顔特徴部分を求めることができる。
色・テクスチャ特徴量算出部420は、色・テクスチャ特徴量を算出するものであり、図3のように、色モーメント特徴量算出部421と、ウェーブレット特徴量算出部423と、ローカルバイナリパターン算出部425とを備える。
色モーメント特徴量算出部421は、色・テクスチャ特徴量として、色モーメント特徴量を算出するものである。
具体的には、色モーメント特徴量算出部421は、顔領域検出部30から入力された顔領域画像を、HSV色空間及びL*a*b*色空間に変換する。そして、色モーメント特徴量算出部421は、色モーメント特徴量として、下記の式(5)〜式(7)を用いて、コンポーネントc({h,s,v,l,a,b}毎に、画素値の平均μ、画素値の標準偏差σ、歪度の平方根sを算出する。
なお、HSV色空間では、hが色相、sが彩度、vが明度を表す。また、L*a*b*色空間では、L*が明度、a*,b*が色度を表す。
Figure 0006527421
Figure 0006527421
Figure 0006527421
ここで、顔領域画像をR、コンポーネントcの値をf、顔領域画像の各画素の座標をx,yとする。
その後、色モーメント特徴量算出部421は、算出した色モーメント特徴量を特徴連結部430に出力する。
ウェーブレット特徴量算出部423は、顔領域検出部30から入力された顔領域画像にウェーブレット変換を適用し、各サブバンド領域の画素値の分散を算出するものである。例えば、ウェーブレット特徴量算出部423は、3段階のHaarウェーブレット変換を顔領域画像に施す。そして、ウェーブレット特徴量算出部423は、算出した各サブバンド領域の画素値を特徴連結部430に出力する。
ローカルバイナリパターン算出部425は、顔領域検出部30より入力された顔領域画像から、ローカルバイナリパターンのヒストグラムを算出するものである。例えば、ローカルバイナリパターン算出部425は、下記参考文献2に記載された手法を用いて、顔領域画像の全画素からローカルバイナリパターンを算出し、その頻度ヒストグラムを求める。そして、ローカルバイナリパターン算出部425は、算出した頻度ヒストグラムを特徴連結部430に出力する。
参考文献2:T.Ojala,et al.“Muliresolution gray-scale and rotaton invariant texture classification with local binary patterns”IEEE Trans.Pattern Analysis and Machine Intelligence,vol.24,no.7,pp.971-987,2002
特徴連結部430は、集計部415から入力された画像特徴量を表すベクトルに、色・テクスチャ特徴量算出部420から入力された色・テクスチャ特徴量を表すベクトルを連結するものである。言い換えるなら、特徴連結部430は、勾配ヒストグラムと、色モーメント特徴量と、各サブバンド領域の画素値の分散と、ローカルバイナリパターンとを表すベクトルを連結する。そして、特徴連結部430は、両ベクトルが連結された顔領域の画像特徴量を顔認識部70に出力する。
なお、特徴量算出部40は、後記する学習データ生成部50から入力された学習データについても、同様の手順で顔領域の画像特徴量を算出する。この場合、特徴量算出部40は、算出した顔領域の画像特徴量を顔モデル生成部60に出力する。
図1に戻り、人物映像検索装置1の構成について説明を続ける。
学習データ生成部50は、検索対象者の顔領域画像に回転、平滑化、鮮鋭化又はノイズ付加の何れか1以上を施すことで、学習データを生成するものである。つまり、学習データ生成部50は、認識対象者の顔領域画像を少しずつ変化させた学習データを生成し、学習データの種類を増やす。
ここで、学習データ生成部50は、回転、平滑化、鮮鋭化又はノイズ付加の何れかを施してもよい。
一方、学習データ生成部50は、回転、平滑化、鮮鋭化又はノイズ付加の2以上を組わせて施してもよい。例えば、学習データ生成部50は、認識対象者の顔領域画像を時計回りに5度回転させた後、ノイズを付加する。
その後、学習データ生成部50は、生成した学習データを特徴量算出部40に出力する。
顔モデル生成部60は、特徴量算出部40より入力された顔領域の画像特徴量を機械学習することで、検索対象者の顔モデルを生成するものである。例えば、顔モデル生成部60は、サポートベクターマシン、ニューラルネットワーク等の機械学習を行って、検索対象者の顔モデルを生成する。そして、顔モデル生成部60は、生成した検索対象者の顔モデルを顔認識部70に出力する。
なお、顔モデル生成部60は、新たな検索対象者を追加した際に一度だけ顔モデルを生成すればよく、検索のたびに顔モデルを生成しなくともよい。
顔認識部70は、顔領域の画像特徴量に基づいて、出演者の顔を認識する認識処理を行うものである。本実施形態では、顔認識部70は、認識処理として、特徴量算出部40より入力された画像特徴量(番組映像に含まれる各出演者の顔領域の画像特徴量)と、検索対象者の顔モデルとの適合率を算出する。ここで、顔認識部70は、各出演者が番組映像に映っている可能性を示す適合率を算出する。そして、顔認識部70は、算出した出演者毎の適合率を検索結果出力部80に出力する。
検索結果出力部80は、顔認識部70から入力された出演者毎の適合率を出力するものである。例えば、検索結果出力部80は、各出演者の適合率が高い順にソートし、出演者とその出演者の適合率とをディスプレイ(不図示)に表示する。
ここで、検索結果出力部80は、表示された検索結果に対して、ユーザが正解又は不正解の正誤情報を入力することとしてもよい。この場合、検索結果出力部80は、入力されたた正誤情報を用いて、検索対象者の顔モデルを再学習してもよい。
[人物映像検索装置1の動作]
図6を参照し、人物映像検索装置1の動作について説明する(適宜図1,図3参照)。
図6のように、人物映像検索装置1は、図7に示す顔モデル生成処理を行う(ステップS1)。
人物映像検索装置1は、図8に示す映像登録処理を行う(ステップS2)。
人物映像検索装置1は、顔認識部70によって、顔認識処理を行う。つまり、顔認識部70は、検索対象者の顔モデルと、各出演者の顔領域の画像特徴量との適合率を算出する。
人物映像検索装置1は、検索結果出力部80によって、各出演者の適合率が高い順にソートし、出演者とその出演者の適合率とを検索結果としてディスプレイに表示し(ステップS3)、処理を終了する。
<顔モデル生成処理>
図7を参照し、顔モデル生成処理について説明する。
図7のように、人物映像検索装置1は、検索対象者の顔領域画像を学習データ生成部50に入力する(ステップS10)。
人物映像検索装置1は、学習データ生成部50によって、検索対象者の顔領域画像に回転、平滑化、鮮鋭化又はノイズ付加の何れか1以上を施すことで、学習データを生成する(ステップS11)。
人物映像検索装置1は、特徴量算出部40によって、学習データから、検索対象者の顔領域の画像特徴量を算出する(ステップS12)。
人物映像検索装置1は、顔モデル生成部60によって、顔領域の画像特徴量を機械学習することで、検索対象者の顔モデルを生成し(ステップS13)、顔モデル生成処理を終了する。
<映像登録処理>
図8を参照し、映像登録処理について説明する。
人物映像検索装置1は、カット点検出部10によって、入力された番組映像からカット点を検出し、番組映像をカットに分割する(ステップS20)。
人物映像検索装置1は、カット点検出部10によって、全カットの映像登録処理が終了したか否かを判定する(ステップS21)。
全カット終了した場合(ステップS21でYes)、人物映像検索装置1は、映像登録処理を終了する。
全カット終了していない場合(ステップS21でNo)、人物映像検索装置1は、図9に示す代表フレーム画像検出処理を行う(ステップS22)。
人物映像検索装置1は、顔領域検出部30によって、代表フレーム画像に含まれる出演者の顔領域を検出する(ステップS23)。
人物映像検索装置1は、特徴量算出部40によって、代表フレーム画像に含まれる出演者毎に、顔領域の画像特徴量を算出する(ステップS24)。
<代表フレーム画像検出処理>
図9を参照し、代表フレーム画像検出処理について説明する。
代表フレーム画像検出部20は、検出対象フレーム画像fを、カットの中で先頭となる初期位置のフレーム画像f_0に設定する(ステップS220)。
代表フレーム画像検出部20は、検出対象フレーム画像fが、カットの中で最終フレーム画像であるか否かを判定する(ステップS221)。
最終フレーム画像の場合(ステップS221でYes)、代表フレーム画像検出部20は、代表フレーム画像検出処理を終了する。
最終フレーム画像でない場合(ステップS221でNo)、顔領域検出部30は、検出対象フレーム画像fから顔領域を検出する(ステップS222)。
代表フレーム画像検出部20は、検出対象フレーム画像fから顔領域が検出されたか否かを判定する(ステップS223)。
顔領域が検出された場合(ステップS223でYes)、代表フレーム画像検出部20は、検出対象フレーム画像fを代表フレーム画像として出力し、代表フレーム画像検出処理を終了する。
顔領域が検出されない場合(ステップS223でNo)、代表フレーム画像検出部20は、検出対象フレーム画像fをΔfフレームだけ移動させ(ステップS224)、ステップS221の処理に戻る。
[作用・効果]
本願発明の実施形態に係る人物映像検索装置1は、分割領域91毎に勾配ヒストグラムを算出するので、従来技術のように顔特徴位置を検出する必要がなく、撮影条件の変動に関わらず、認識精度を高くすることができる。これにより、人物映像検索装置1は、放送番組に含まれる出演者を正確に検索することができる。
さらに、人物映像検索装置1は、学習データ生成部50が学習データの種類を増やすことで、より撮影条件の変動に頑健な顔モデルの生成が可能となる。
さらに、人物映像検索装置1は、検索結果に対する正誤情報をユーザが入力し、この正誤情報に基づいて検索対象者の顔モデルを再学習できるので、その運用を行いながら、顔モデルの精度を向上させることができる。
以上、本願発明の実施形態を詳述してきたが、本願発明は前記した実施形態に限られるものではなく、本願発明の要旨を逸脱しない範囲の設計変更等も含まれる。
前記した実施形態では、代表フレーム画像検出部が顔領域検出部を利用して代表フレーム画像を検出することとして説明したが、本願発明は、これに限定されない。
例えば、代表フレーム画像検出部は、カットの先頭フレーム画像、中間フレーム画像又は最終フレーム画像の何れかなど、予め設定したフレーム画像を代表フレーム画像として検出できる。また、代表フレーム画像検出部は、カットの先頭からn秒後のフレーム画像を代表フレーム画像として検出してもよい。さらに、代表フレーム画像検出部は、カメラがズームイン又はズームアウトしている場合、カメラが静止した時点のフレーム画像を代表フレーム画像として検出してもよい。
この他、代表フレーム画像検出部は、カットに含まれる各フレーム画像を解析し、人物が含まれている可能性が高いフレーム画像を代表フレーム画像として検出してもよい。この場合、代表フレーム画像検出部は、顕著性マップを利用して、フレーム画像の中心部分に視覚的に顕著な領域が集中しているかを判定する手法、又は、色や周波数の特徴に基づいて判定する手法を用いることができる。
前記した実施形態では、重み推定部が顔特徴部分に対応する特徴ベクトルの重みを大きくすることとして説明したが、本願発明は、これに限定されない。
具体的には、重み推定部は、フレーム画像の隅よりも中央側の特徴ベクトルの重みを大きくしてもよい。また、重み推定部は、学習データを用いて、ある特徴ベクトルが主要な被写体の一部となる確率を求め、その確率を重みとしてもよい。
前記した実施形態では、色・テクスチャ特徴量算出部が、色・テクスチャ特徴量として、色モーメント特徴量と、顔領域画像の画素値の分散と、ローカルバイナリパターンの輝度ヒストグラムとを求めることとして説明したが、本願発明は、これに限定されない。
具体的には、色・テクスチャ特徴量算出部は、色モーメント特徴量、顔領域画像の画素値の分散、又は、ローカルバイナリパターンの輝度ヒストグラムの何れか1以上を色・テクスチャ特徴量として求めてもよい。
前記した実施形態では、番組映像に含まれる人物の検索に利用する例を説明したが、本願発明は、これに限定されない。つまり、本願発明は、番組映像だけでなく、番組映像以外の映像に含まれる人物の認識にも利用できる。
前記した実施形態では、人物映像検索装置を独立したハードウェアとして説明したが、本願発明は、これに限定されない。例えば、本願発明は、コンピュータが備えるCPU、メモリ、ハードディスク等のハードウェア資源を、人物映像検索装置として協調動作させる人物映像検索プログラムで実現することもできる。このプログラムは、通信回線を介して配布してもよく、CD−ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。
(実施例)
以下、本願発明の実施例として、図1の人物映像検索装置1の検索精度について説明する。
この実施例では、40時間分のドラマを番組映像とした。この番組映像は、俳優の表情や顔の向き、照明の明るさといった撮影条件の変動が大きいものである。
まず、番組映像から俳優17名の顔領域を切り出して、その顔領域画像を人物映像検索装置1に入力した。そして、人物映像検索装置1は、入力された顔領域画像から学習データを生成し、その学習データから俳優17名の顔モデルを生成した。
そして、顔モデルを生成した後、人物映像検索装置1に番組映像を入力し、検索精度を確認する実験を行った。このとき、人物映像検索装置1は、番組映像から41269カット検出した。
また、同一の番組映像を用いて、下記参考文献3に記載の従来手法による実験も行った。以後、この従来手法を比較例とする。
参考文献3:Simon Clippingdale, Mahito Fujii,“Video Face Tracking and Recognition with Skin Region Extraction and Deformable Template Matching”,International Journal of Multimedia Data Engineering and Management,3(1),36-48,2012
ここで、実施例及び比較例の評価には、検索結果の上位n件の平均適合率を用いた。この平均適合率APは、下記の式(8)及び式(9)で表される。
Figure 0006527421
Figure 0006527421
図10に実施例の実験結果として、俳優17名の平均適合率APと、その平均適合率のMAP(Mean Average Precision)とを図示した。
実施例では、MAPは、図10のように、上位100件が92.3%、上位300件が84.6%、上位500件が80.5%であり、非常に良好な実験結果が得られた。
図10と同様、図11に比較例の実験結果を図示した。
比較例では、MAPは、図11のように、上位100件が51.3%、上位300件が40.8%、上位500件が35.8%である。このように、比較例は、撮影条件の変動に弱いことから、実施例よりもMAPが大幅に低下した。
1 人物映像検索装置(人物認識装置)
10 カット点検出部
20 代表フレーム画像検出部
30 顔領域検出部
40 特徴量算出部
50 学習データ生成部
60 顔モデル生成部
70 顔認識部
80 検索結果出力部
410 エッジ検出部
411 領域分割部
412 勾配ヒストグラム算出部
413 符号化部(変換部)
414 統合部
415 集計部
416 重み推定部
420 色・テクスチャ特徴量算出部
421 色モーメント特徴量算出部
423 ウェーブレット特徴量算出部
425 ローカルバイナリパターン算出部
430 特徴連結部

Claims (4)

  1. 人物の顔領域が含まれる顔領域画像を分割し、分割された前記顔領域画像を用いて、前記人物の顔を認識する人物認識装置であって、
    前記顔領域画像にエッジ検出処理を施すことでエッジ画像を生成するエッジ検出部と、
    前記顔領域画像及び前記エッジ画像をそれぞれ分割領域に分割する領域分割部と、
    前記顔領域画像及び前記エッジ画像の分割領域に特徴点を設定し、前記特徴点を中心とした一定範囲の勾配ヒストグラムを算出する勾配ヒストグラム算出部と、
    前記勾配ヒストグラムを前記特徴点毎の特徴ベクトルに変換する変換部と、
    前記特徴点毎に、前記特徴点と当該特徴点に近傍する他の特徴点との特徴ベクトルを統合する統合部と、
    統合された前記特徴ベクトルを重み付けて集計することで、前記顔領域の画像特徴量を算出する集計部と、
    前記顔領域の画像特徴量に基づいて、前記人物の顔を認識する認識処理を行う顔認識部と、
    を備えることを特徴とする人物認識装置。
  2. 前記顔領域画像の色モーメント特徴量、画素値の分散、又は、ローカルバイナリパターンのヒストグラムの何れか1以上を色・テクスチャ特徴量として算出する色・テクスチャ特徴量算出部と、
    前記統合された特徴ベクトルに前記色・テクスチャ特徴量を表すベクトルを連結し、前記顔領域の画像特徴量として前記顔認識部に出力する特徴連結部と、
    をさらに備えることを特徴とする請求項1に記載の人物認識装置。
  3. 認識対象者の顔領域画像に回転、平滑化、鮮鋭化又はノイズ付加の何れか1以上を施すことで、学習データを生成する学習データ生成部と、
    前記学習データから算出した認識対象者の顔領域の画像特徴量を機械学習することで、前記認識対象者の顔モデルを生成する顔モデル生成部と、をさらに備え、
    前記顔認識部は、前記認識処理として、前記人物の顔領域画像から算出した画像特徴量と、前記認識対象者の顔モデルとの適合率を算出することを特徴とする請求項1又は請求項2に記載の人物認識装置。
  4. コンピュータを、請求項1から請求項3の何れか一項に記載の人物認識装置として機能させるための人物認識プログラム。
JP2015153923A 2015-08-04 2015-08-04 人物認識装置及びそのプログラム Active JP6527421B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015153923A JP6527421B2 (ja) 2015-08-04 2015-08-04 人物認識装置及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015153923A JP6527421B2 (ja) 2015-08-04 2015-08-04 人物認識装置及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2017033372A JP2017033372A (ja) 2017-02-09
JP6527421B2 true JP6527421B2 (ja) 2019-06-05

Family

ID=57986224

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015153923A Active JP6527421B2 (ja) 2015-08-04 2015-08-04 人物認識装置及びそのプログラム

Country Status (1)

Country Link
JP (1) JP6527421B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018142074A (ja) * 2017-02-27 2018-09-13 三菱重工業株式会社 特徴量算出装置、画像類似度判定装置、画像検索装置、特徴量算出方法及びプログラム
JP7208479B2 (ja) * 2018-10-09 2023-01-19 富士通株式会社 情報処理装置、情報処理方法、及びプログラム
CN109753921A (zh) * 2018-12-29 2019-05-14 上海交通大学 一种人脸特征向量隐私保护识别方法
CN109812941B (zh) * 2019-01-18 2020-01-03 曲阜师范大学 人脸识别式驱动机构
JP7423310B2 (ja) 2019-12-27 2024-01-29 セコム株式会社 データ処理装置、データ処理方法及び学習済みモデル
JP2022032133A (ja) * 2020-08-11 2022-02-25 オムロン株式会社 画像処理装置および画像処理方法
CN117689556A (zh) * 2024-02-02 2024-03-12 深圳市欧冶半导体有限公司 直方图编码方法、直方图解码方法、装置、设备和介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3577908B2 (ja) * 1997-09-04 2004-10-20 富士通株式会社 顔画像認識システム
JP5500024B2 (ja) * 2010-09-27 2014-05-21 富士通株式会社 画像認識方法及び装置並びにプログラム
JP2013015891A (ja) * 2011-06-30 2013-01-24 Canon Inc 画像処理装置、画像処理方法及びプログラム
JP5913940B2 (ja) * 2011-12-01 2016-05-11 キヤノン株式会社 画像認識装置、画像認識装置の制御方法、およびプログラム

Also Published As

Publication number Publication date
JP2017033372A (ja) 2017-02-09

Similar Documents

Publication Publication Date Title
JP6527421B2 (ja) 人物認識装置及びそのプログラム
US20230117712A1 (en) Feature density object classification, systems and methods
US9449230B2 (en) Fast object tracking framework for sports video recognition
Makhmudkhujaev et al. Facial expression recognition with local prominent directional pattern
US20090290791A1 (en) Automatic tracking of people and bodies in video
KR102462818B1 (ko) 모션벡터 및 특징벡터 기반 위조 얼굴 검출 방법 및 장치
US8615108B1 (en) Systems and methods for initializing motion tracking of human hands
US20160358035A1 (en) Saliency information acquisition device and saliency information acquisition method
US20160314345A1 (en) System and method for identifying faces in unconstrained media
US8625859B2 (en) Information processing apparatus, information processing method, and program
US8401250B2 (en) Detecting objects of interest in still images
US20190311191A1 (en) Hierarchical differential image filters for skin analysis
US20060115157A1 (en) Image processing device, image device, image processing method
JP2004199669A (ja) 顔検出
JP2004192637A (ja) 顔検出
KR101279561B1 (ko) 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법
Asi et al. A coarse-to-fine approach for layout analysis of ancient manuscripts
MX2013002904A (es) Aparato de proceso de imagenes de personas y metodo para procesar imagenes de personas.
KR101700818B1 (ko) 얼굴 영상을 이용하여 나이 또는 성별을 추정하는 방법 및 장치
Bauckhage et al. Automatic detection of abnormal gait
Zhao et al. Applying contrast-limited adaptive histogram equalization and integral projection for facial feature enhancement and detection
JP2021503139A (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP2018124689A (ja) 移動物体検出装置、移動物体検出システム、及び移動物体検出方法
Song et al. Visual-context boosting for eye detection
JP2017084006A (ja) 画像処理装置およびその方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180704

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190510

R150 Certificate of patent or registration of utility model

Ref document number: 6527421

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250