JP6527421B2 - 人物認識装置及びそのプログラム - Google Patents
人物認識装置及びそのプログラム Download PDFInfo
- Publication number
- JP6527421B2 JP6527421B2 JP2015153923A JP2015153923A JP6527421B2 JP 6527421 B2 JP6527421 B2 JP 6527421B2 JP 2015153923 A JP2015153923 A JP 2015153923A JP 2015153923 A JP2015153923 A JP 2015153923A JP 6527421 B2 JP6527421 B2 JP 6527421B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- feature
- face
- unit
- person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 claims description 52
- 239000013598 vector Substances 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 16
- 238000003708 edge detection Methods 0.000 claims description 14
- 230000010354 integration Effects 0.000 claims description 9
- 238000004220 aggregation Methods 0.000 claims description 8
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 description 60
- 238000000034 method Methods 0.000 description 20
- 230000000052 comparative effect Effects 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000012447 hatching Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000003601 intercostal effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Description
人物認識装置は、領域分割部によって、前記顔領域画像及び前記エッジ画像をそれぞれ小さくした分割領域に分割する。
人物認識装置は、勾配ヒストグラム算出部によって、前記顔領域画像及び前記エッジ画像の分割領域に特徴点を設定し、前記特徴点を中心とした一定範囲の勾配ヒストグラムを算出する。
人物認識装置は、統合部によって、前記特徴点毎に、前記特徴点と当該特徴点に近傍する予め設定された範囲内の他の特徴点との特徴ベクトルを統合する。
人物認識装置は、集計部によって、統合された前記特徴ベクトルを重み付けて集計することで、前記顔領域の画像特徴量を算出する。
人物認識装置は、顔認識部によって、前記顔領域の画像特徴量に基づいて、前記人物の顔を認識する認識処理を行う。
このように、人物認識装置は、分割領域ベースで特徴量(勾配ヒストグラム)を算出するので、従来技術のように顔特徴位置を検出する必要がない。
本願発明によれば、分割領域ベースで特徴量(勾配ヒストグラム)を算出するので、顔特徴位置を検出する必要がなくなり、撮影条件の変動に関わらず、認識精度を高くすることができる。
[人物映像検索装置1の構成]
図1を参照し、本願発明の実施形態に係る人物映像検索装置(人物認識装置)1の構成について説明する。
人物映像検索装置1は、番組映像から特定の出演者を検索するものである。
まず、人物映像検索装置1は、検索対象者(認識対象者)の顔領域が映った顔領域画像を入力し、入力された顔領域画像から検索対象者の顔モデルを生成する(顔モデル生成処理)。
次に、人物映像検索装置1は、入力された番組映像をカットに分割し、各カットから抽出した代表フレーム画像に含まれる出演者(人物)の顔領域を検出し、検出された出演者毎に顔領域の画像特徴量を算出する(映像登録処理)。
そして、人物映像検索装置1は、検索対象者の顔モデルと出演者の顔領域の画像特徴量との適合率を算出し、算出した適合率順のリストを検索結果として出力する(認識処理)。
なお、カット点とは、番組映像におけるカメラの切り替え点、又は、編集点のことである。
その後、顔領域検出部30は、正規化した顔領域画像90を特徴量算出部40に出力する。
以下、図3を参照し、特徴量算出部40の構成を詳細に説明する(適宜図1参照)。
特徴量算出部40は、顔領域検出部30より入力された顔領域画像90から、顔領域の画像特徴量を算出するものである。具体的には、特徴量算出部40は、顔領域の画像特徴量として、エッジ勾配特徴量(勾配ヒストグラム)と、色・テクスチャ特徴量とを算出する。
例えば、領域分割部411は、顔領域画像90を36個の分割領域91に分割する(β=16画素)。
また、例えば、領域分割部411は、顔領域画像90と同様、エッジ検出部410から入力されたエッジ画像を16個の分割領域に分割する。この場合、エッジ画像の分割領域は、縦横それぞれ24画素となる。
その後、領域分割部411は、分割された顔領域画像90及びエッジ画像を勾配ヒストグラム算出部412に出力する。
また、図2では、分割領域91を正方形で図示したが、縦横の比率を変えて長方形状にしてもよい。
なお、図4(a)では、図2で左上に位置する分割領域91を拡大したものであり、部分領域93に含まれる各画素のエッジ方向を矢印で図示した。また、図面を見やすくするため、特徴点及びエッジ方向を表す矢印を一部のみ図示した。
参考文献1:Wang,et al.”Locality-constrained linear coding for image classification”,Proc.IEEE CVPR,pp.3360-3367,2010
例えば、集計部415は、下記の式(4)のように、集合Mに含まれる特徴ベクトルwmを重み推定部416から入力された重みtmで重み付ける。そして、集計部415は、集合Mのうち、重み付け特徴ベクトルwm・tmの最大値を顔領域の画像特徴量wとして算出する。
その後、集計部415は、算出した顔領域の画像特徴量wを特徴連結部430に出力する。
本実施形態では、重み推定部416は、顔領域のうち、顔特徴部分に対応する特徴ベクトルwmの重みtmを大きくし、残りの特徴ベクトルwmの重みtmを小さくする。具体的には、重み推定部416は、図5にハッチングで図示した顔特徴部分(例えば、目、鼻、口)において、重みtmを大きくする。一方、重み推定部416は、図5のハッチング以外の部分において、重みtmを小さくする。このとき、重み推定部416は、エッジ検出部410から入力されたエッジ画像にぼかしフィルタ処理を施すことで、顔特徴部分を求めることができる。
具体的には、色モーメント特徴量算出部421は、顔領域検出部30から入力された顔領域画像を、HSV色空間及びL*a*b*色空間に変換する。そして、色モーメント特徴量算出部421は、色モーメント特徴量として、下記の式(5)〜式(7)を用いて、コンポーネントc({h,s,v,l,a,b}毎に、画素値の平均μc、画素値の標準偏差σc、歪度の平方根scを算出する。
なお、HSV色空間では、hが色相、sが彩度、vが明度を表す。また、L*a*b*色空間では、L*が明度、a*,b*が色度を表す。
その後、色モーメント特徴量算出部421は、算出した色モーメント特徴量を特徴連結部430に出力する。
参考文献2:T.Ojala,et al.“Muliresolution gray-scale and rotaton invariant texture classification with local binary patterns”IEEE Trans.Pattern Analysis and Machine Intelligence,vol.24,no.7,pp.971-987,2002
学習データ生成部50は、検索対象者の顔領域画像に回転、平滑化、鮮鋭化又はノイズ付加の何れか1以上を施すことで、学習データを生成するものである。つまり、学習データ生成部50は、認識対象者の顔領域画像を少しずつ変化させた学習データを生成し、学習データの種類を増やす。
一方、学習データ生成部50は、回転、平滑化、鮮鋭化又はノイズ付加の2以上を組わせて施してもよい。例えば、学習データ生成部50は、認識対象者の顔領域画像を時計回りに5度回転させた後、ノイズを付加する。
その後、学習データ生成部50は、生成した学習データを特徴量算出部40に出力する。
なお、顔モデル生成部60は、新たな検索対象者を追加した際に一度だけ顔モデルを生成すればよく、検索のたびに顔モデルを生成しなくともよい。
図6を参照し、人物映像検索装置1の動作について説明する(適宜図1,図3参照)。
図6のように、人物映像検索装置1は、図7に示す顔モデル生成処理を行う(ステップS1)。
人物映像検索装置1は、図8に示す映像登録処理を行う(ステップS2)。
人物映像検索装置1は、検索結果出力部80によって、各出演者の適合率が高い順にソートし、出演者とその出演者の適合率とを検索結果としてディスプレイに表示し(ステップS3)、処理を終了する。
図7を参照し、顔モデル生成処理について説明する。
図7のように、人物映像検索装置1は、検索対象者の顔領域画像を学習データ生成部50に入力する(ステップS10)。
人物映像検索装置1は、学習データ生成部50によって、検索対象者の顔領域画像に回転、平滑化、鮮鋭化又はノイズ付加の何れか1以上を施すことで、学習データを生成する(ステップS11)。
人物映像検索装置1は、顔モデル生成部60によって、顔領域の画像特徴量を機械学習することで、検索対象者の顔モデルを生成し(ステップS13)、顔モデル生成処理を終了する。
図8を参照し、映像登録処理について説明する。
人物映像検索装置1は、カット点検出部10によって、入力された番組映像からカット点を検出し、番組映像をカットに分割する(ステップS20)。
人物映像検索装置1は、カット点検出部10によって、全カットの映像登録処理が終了したか否かを判定する(ステップS21)。
全カット終了した場合(ステップS21でYes)、人物映像検索装置1は、映像登録処理を終了する。
人物映像検索装置1は、顔領域検出部30によって、代表フレーム画像に含まれる出演者の顔領域を検出する(ステップS23)。
人物映像検索装置1は、特徴量算出部40によって、代表フレーム画像に含まれる出演者毎に、顔領域の画像特徴量を算出する(ステップS24)。
図9を参照し、代表フレーム画像検出処理について説明する。
代表フレーム画像検出部20は、検出対象フレーム画像fを、カットの中で先頭となる初期位置のフレーム画像f_0に設定する(ステップS220)。
最終フレーム画像の場合(ステップS221でYes)、代表フレーム画像検出部20は、代表フレーム画像検出処理を終了する。
代表フレーム画像検出部20は、検出対象フレーム画像fから顔領域が検出されたか否かを判定する(ステップS223)。
本願発明の実施形態に係る人物映像検索装置1は、分割領域91毎に勾配ヒストグラムを算出するので、従来技術のように顔特徴位置を検出する必要がなく、撮影条件の変動に関わらず、認識精度を高くすることができる。これにより、人物映像検索装置1は、放送番組に含まれる出演者を正確に検索することができる。
さらに、人物映像検索装置1は、検索結果に対する正誤情報をユーザが入力し、この正誤情報に基づいて検索対象者の顔モデルを再学習できるので、その運用を行いながら、顔モデルの精度を向上させることができる。
例えば、代表フレーム画像検出部は、カットの先頭フレーム画像、中間フレーム画像又は最終フレーム画像の何れかなど、予め設定したフレーム画像を代表フレーム画像として検出できる。また、代表フレーム画像検出部は、カットの先頭からn秒後のフレーム画像を代表フレーム画像として検出してもよい。さらに、代表フレーム画像検出部は、カメラがズームイン又はズームアウトしている場合、カメラが静止した時点のフレーム画像を代表フレーム画像として検出してもよい。
具体的には、重み推定部は、フレーム画像の隅よりも中央側の特徴ベクトルの重みを大きくしてもよい。また、重み推定部は、学習データを用いて、ある特徴ベクトルが主要な被写体の一部となる確率を求め、その確率を重みとしてもよい。
具体的には、色・テクスチャ特徴量算出部は、色モーメント特徴量、顔領域画像の画素値の分散、又は、ローカルバイナリパターンの輝度ヒストグラムの何れか1以上を色・テクスチャ特徴量として求めてもよい。
以下、本願発明の実施例として、図1の人物映像検索装置1の検索精度について説明する。
この実施例では、40時間分のドラマを番組映像とした。この番組映像は、俳優の表情や顔の向き、照明の明るさといった撮影条件の変動が大きいものである。
そして、顔モデルを生成した後、人物映像検索装置1に番組映像を入力し、検索精度を確認する実験を行った。このとき、人物映像検索装置1は、番組映像から41269カット検出した。
参考文献3:Simon Clippingdale, Mahito Fujii,“Video Face Tracking and Recognition with Skin Region Extraction and Deformable Template Matching”,International Journal of Multimedia Data Engineering and Management,3(1),36-48,2012
実施例では、MAPは、図10のように、上位100件が92.3%、上位300件が84.6%、上位500件が80.5%であり、非常に良好な実験結果が得られた。
比較例では、MAPは、図11のように、上位100件が51.3%、上位300件が40.8%、上位500件が35.8%である。このように、比較例は、撮影条件の変動に弱いことから、実施例よりもMAPが大幅に低下した。
10 カット点検出部
20 代表フレーム画像検出部
30 顔領域検出部
40 特徴量算出部
50 学習データ生成部
60 顔モデル生成部
70 顔認識部
80 検索結果出力部
410 エッジ検出部
411 領域分割部
412 勾配ヒストグラム算出部
413 符号化部(変換部)
414 統合部
415 集計部
416 重み推定部
420 色・テクスチャ特徴量算出部
421 色モーメント特徴量算出部
423 ウェーブレット特徴量算出部
425 ローカルバイナリパターン算出部
430 特徴連結部
Claims (4)
- 人物の顔領域が含まれる顔領域画像を分割し、分割された前記顔領域画像を用いて、前記人物の顔を認識する人物認識装置であって、
前記顔領域画像にエッジ検出処理を施すことでエッジ画像を生成するエッジ検出部と、
前記顔領域画像及び前記エッジ画像をそれぞれ分割領域に分割する領域分割部と、
前記顔領域画像及び前記エッジ画像の分割領域に特徴点を設定し、前記特徴点を中心とした一定範囲の勾配ヒストグラムを算出する勾配ヒストグラム算出部と、
前記勾配ヒストグラムを前記特徴点毎の特徴ベクトルに変換する変換部と、
前記特徴点毎に、前記特徴点と当該特徴点に近傍する他の特徴点との特徴ベクトルを統合する統合部と、
統合された前記特徴ベクトルを重み付けて集計することで、前記顔領域の画像特徴量を算出する集計部と、
前記顔領域の画像特徴量に基づいて、前記人物の顔を認識する認識処理を行う顔認識部と、
を備えることを特徴とする人物認識装置。 - 前記顔領域画像の色モーメント特徴量、画素値の分散、又は、ローカルバイナリパターンのヒストグラムの何れか1以上を色・テクスチャ特徴量として算出する色・テクスチャ特徴量算出部と、
前記統合された特徴ベクトルに前記色・テクスチャ特徴量を表すベクトルを連結し、前記顔領域の画像特徴量として前記顔認識部に出力する特徴連結部と、
をさらに備えることを特徴とする請求項1に記載の人物認識装置。 - 認識対象者の顔領域画像に回転、平滑化、鮮鋭化又はノイズ付加の何れか1以上を施すことで、学習データを生成する学習データ生成部と、
前記学習データから算出した認識対象者の顔領域の画像特徴量を機械学習することで、前記認識対象者の顔モデルを生成する顔モデル生成部と、をさらに備え、
前記顔認識部は、前記認識処理として、前記人物の顔領域画像から算出した画像特徴量と、前記認識対象者の顔モデルとの適合率を算出することを特徴とする請求項1又は請求項2に記載の人物認識装置。 - コンピュータを、請求項1から請求項3の何れか一項に記載の人物認識装置として機能させるための人物認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015153923A JP6527421B2 (ja) | 2015-08-04 | 2015-08-04 | 人物認識装置及びそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015153923A JP6527421B2 (ja) | 2015-08-04 | 2015-08-04 | 人物認識装置及びそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017033372A JP2017033372A (ja) | 2017-02-09 |
JP6527421B2 true JP6527421B2 (ja) | 2019-06-05 |
Family
ID=57986224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015153923A Active JP6527421B2 (ja) | 2015-08-04 | 2015-08-04 | 人物認識装置及びそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6527421B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018142074A (ja) * | 2017-02-27 | 2018-09-13 | 三菱重工業株式会社 | 特徴量算出装置、画像類似度判定装置、画像検索装置、特徴量算出方法及びプログラム |
JP7208479B2 (ja) * | 2018-10-09 | 2023-01-19 | 富士通株式会社 | 情報処理装置、情報処理方法、及びプログラム |
CN109753921A (zh) * | 2018-12-29 | 2019-05-14 | 上海交通大学 | 一种人脸特征向量隐私保护识别方法 |
CN109812941B (zh) * | 2019-01-18 | 2020-01-03 | 曲阜师范大学 | 人脸识别式驱动机构 |
JP7423310B2 (ja) | 2019-12-27 | 2024-01-29 | セコム株式会社 | データ処理装置、データ処理方法及び学習済みモデル |
JP2022032133A (ja) * | 2020-08-11 | 2022-02-25 | オムロン株式会社 | 画像処理装置および画像処理方法 |
CN117689556A (zh) * | 2024-02-02 | 2024-03-12 | 深圳市欧冶半导体有限公司 | 直方图编码方法、直方图解码方法、装置、设备和介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3577908B2 (ja) * | 1997-09-04 | 2004-10-20 | 富士通株式会社 | 顔画像認識システム |
JP5500024B2 (ja) * | 2010-09-27 | 2014-05-21 | 富士通株式会社 | 画像認識方法及び装置並びにプログラム |
JP2013015891A (ja) * | 2011-06-30 | 2013-01-24 | Canon Inc | 画像処理装置、画像処理方法及びプログラム |
JP5913940B2 (ja) * | 2011-12-01 | 2016-05-11 | キヤノン株式会社 | 画像認識装置、画像認識装置の制御方法、およびプログラム |
-
2015
- 2015-08-04 JP JP2015153923A patent/JP6527421B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017033372A (ja) | 2017-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6527421B2 (ja) | 人物認識装置及びそのプログラム | |
US20230117712A1 (en) | Feature density object classification, systems and methods | |
US9449230B2 (en) | Fast object tracking framework for sports video recognition | |
Makhmudkhujaev et al. | Facial expression recognition with local prominent directional pattern | |
US20090290791A1 (en) | Automatic tracking of people and bodies in video | |
KR102462818B1 (ko) | 모션벡터 및 특징벡터 기반 위조 얼굴 검출 방법 및 장치 | |
US8615108B1 (en) | Systems and methods for initializing motion tracking of human hands | |
US20160358035A1 (en) | Saliency information acquisition device and saliency information acquisition method | |
US20160314345A1 (en) | System and method for identifying faces in unconstrained media | |
US8625859B2 (en) | Information processing apparatus, information processing method, and program | |
US8401250B2 (en) | Detecting objects of interest in still images | |
US20190311191A1 (en) | Hierarchical differential image filters for skin analysis | |
US20060115157A1 (en) | Image processing device, image device, image processing method | |
JP2004199669A (ja) | 顔検出 | |
JP2004192637A (ja) | 顔検出 | |
KR101279561B1 (ko) | 깊이정보 기반 고속 고정밀 얼굴 검출 및 추적 방법 | |
Asi et al. | A coarse-to-fine approach for layout analysis of ancient manuscripts | |
MX2013002904A (es) | Aparato de proceso de imagenes de personas y metodo para procesar imagenes de personas. | |
KR101700818B1 (ko) | 얼굴 영상을 이용하여 나이 또는 성별을 추정하는 방법 및 장치 | |
Bauckhage et al. | Automatic detection of abnormal gait | |
Zhao et al. | Applying contrast-limited adaptive histogram equalization and integral projection for facial feature enhancement and detection | |
JP2021503139A (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
JP2018124689A (ja) | 移動物体検出装置、移動物体検出システム、及び移動物体検出方法 | |
Song et al. | Visual-context boosting for eye detection | |
JP2017084006A (ja) | 画像処理装置およびその方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180704 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190510 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6527421 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |