JP4448304B2 - 顔検知装置 - Google Patents

顔検知装置 Download PDF

Info

Publication number
JP4448304B2
JP4448304B2 JP2003320477A JP2003320477A JP4448304B2 JP 4448304 B2 JP4448304 B2 JP 4448304B2 JP 2003320477 A JP2003320477 A JP 2003320477A JP 2003320477 A JP2003320477 A JP 2003320477A JP 4448304 B2 JP4448304 B2 JP 4448304B2
Authority
JP
Japan
Prior art keywords
image
face
value
head candidate
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003320477A
Other languages
English (en)
Other versions
JP2005092262A5 (ja
JP2005092262A (ja
Inventor
秀行 青木
拓也 光信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Secom Co Ltd
Original Assignee
Secom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Secom Co Ltd filed Critical Secom Co Ltd
Priority to JP2003320477A priority Critical patent/JP4448304B2/ja
Publication of JP2005092262A publication Critical patent/JP2005092262A/ja
Publication of JP2005092262A5 publication Critical patent/JP2005092262A5/ja
Application granted granted Critical
Publication of JP4448304B2 publication Critical patent/JP4448304B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像中に顔が映っていることを、画像処理により検知する顔検知装置に関する。
従来、画像中に顔が映っていることを、画像処理により検知する技術として特許文献1が知られている。この技術では、画像から顔の特徴部分(例えば目や鼻)を検出し、各特徴部分の検出度合いから画像中における顔の有無を判定する。
しかし、特許文献1記載の技術では、顔の特徴部分を検出するために、顔の各部分が精細に映っている必要があり、高精細なカメラを必要とし、撮影画角を狭くする必要があった。
更に、特徴部分を抽出する画像処理には多くの計算量が必要となるため、リアルタイム処理には不向きであった。
そのため、このような技術を組み込んだ製品は非常に高価となり、また、処理効率が悪いという問題を抱えていた。
そこで、画像中に顔が映っていることを、効率的に検知する技術として特許文献2が開示されている。特許文献2記載の技術は、撮影された画像において肌色画素が密集する領域を肌領域として検出し、検出した肌領域の大きさ、縦横の長さの比に基づいて当該肌領域が人物の顔領域か否か判定する。
特許第2648054号公報 特開平8−153197号公報
しかしながら、特許文献2記載の技術では、肌色画素の密集度合いに基づき顔領域を判定するために、人物の手を含む領域と人物の顔を含む領域とを区別することが困難であった。このため、人物の手を含む領域を誤って顔領域と判定してしまうというおそれがあり、判定精度が低いという問題があった。
また、特許文献2記載の技術では、単に顔領域の有無を判定することしかできず、顔領域中の画像が正常なる顔の画像であるか否かを判定することができなかった。
すなわち、手で顔を覆って人相を隠しているような場合であっても、肌色画素の密集度合いに基づき顔領域が存在すると判定して、顔領域の情報として出力する。そのため、出力される情報には、人相を判別できる情報と判別できない情報とが混在してしまうという問題があった。
また、撮影された画像中に、覆面などで人相を隠している顔が含まれている場合に、このような不審な行為を検知することができない上に、画像中に顔領域が存在することをも判定できず、何らの情報も出力できないという問題があった。
本発明は、人物の手と人物の顔を誤って抽出することがなく、正常なる顔の画像と不審な画像とを判別でき、画像中から顔の有無を効率よく高精度に検知することが可能な顔検知装置を得ることを目的とする。
本発明は、上記目的を達成するためになされたものである。本発明の顔検知装置は、撮影された画像が人相の判別でき得る顔の画像を含んでいるか否かを判定する顔検知装置であって、顔の画像を入力する画像入力部と、前記画像入力部より入力された画像の肌色画素の分布特徴に基づき顔らしさ度合を算出する顔検出手段と、前記画像入力部より入力された画像のエッジ強度の分布特徴に基づき手らしさ度合を算出する手検出手段と、前記顔らしさ度合及び手らしさ度合に基づき人相の判別でき得る顔画像の有無を判定する判定部とを具備することを特徴としている。
また、好ましくは、前記エッジ強度の分布特徴は、横エッジ強度の重心座標及び縦エッジ強度と横エッジ強度との相関値に基づく値とする。
本発明によれば、手や覆面などで顔が隠されている場合であっても、撮影された画像が人相の判別でき得る顔の画像であるか否かを高速に判定できる顔検知装置を得ることができる。
以下、本発明の顔検知装置をインターホン装置(以下インターホンと称す)に適用した例について説明する。
図1を用いて、顔検知装置を備えるインターホンの横成を説明する。
インターホンは、玄関近辺の屋外に設置されたインターホン子機150と、屋内に設置されたインターホン親機100により構成される。インターホン子機150とインターホン親機100は通信線140にて接続される。
インターホン子機150の横成を説明する。
制御部160は、CPUなどにより構成され、各部の動作や信号の流れを制御する。制御部160には、画像入力部152、マイク154、スピーカ156、呼び出し釦158、通信部162が接続される。
画像入力部152は、CCDカメラ、増幅器、A/D変換器などで構成される。画像入力部152は、訪問者の顔画像を含む画像を撮像し、入力された映像をデジタル化し、画像データ(以下、入力画像データと称する)として出力する。
マイク154は、訪問者の音声を集音して音声信号として出力する。
スピーカ156は、インターホン親機100から送信された音声信号を訪問者に報知する。
呼び出し釦158は、訪問者が操作(押し下げ)することにより起動信号を出力する。
通信部162は、インターホン親機100へ、画像信号、音声信号、起動信号を送信し、インターホン親機100から、音声信号を受信する。
図2に、インターホン子機150の外観を示す。
正面に、画像入力部152、マイク154、スピーカ156、呼び出し釦158が配置される。更に、画像入力部152の近傍に穿設孔が設けられ、この穿設孔の内部にLED604が配置される。
LED604は穿設孔内部に配置されるため、画像入力部152と対面する箇所からのみ認識することができる。 このLED604を認識できる箇所に訪問者が位置することにより、画像入力部152に、訪問者を正面から撮像した画像が入力されることになる。
図1に戻り、インターホン親機100の構成を説明する。
制御部124は、CPU、マイコン、DSPなどのプロセッサ及びSRAM、DRAMなどのメモリなどを用いて構成され、各処理部の動作及び、各信号の流れを制御する。
制御部124には、楕円領域抽出部102、環境評価値算出部104、包含判定部106、特徴画像生成部108、特徴量抽出部110、距離算出部112、画像記憶部114、テンプレート記憶部116、信頼度判定部118、顔判定部120、動き領域抽出部126が接続される。
これら各部は、画像入力部152からの入力画像データに基づき画像中に正常なる顔の画像が含まれるか否かを判定する。
なお、本実施形態において、正常なる顔とは、顔表面を手などで覆って人相を隠したり、顔が画角外へ隠れたりしていない画像のことであり、人物を特定でき得る画像のことである。
また、制御部124には、更に、記憶部136、スピーカ132、表示部130、通話部134、通信部138が接続される。
記憶部136は、音声ガイダンスや呼び出し音といった音データを記憶する。
スピーカ132は、インターホン子機150から入力される起動信号に基づき発生された呼び出し音を鳴動させる。記憶部136に記憶された音データを再生することで、複数種類の呼び出し音を鳴動させることができる。
表示部130は、画像入力部152から送られてきた画像を可視化して利用者に提示する手段であり、液晶モニタあるいはCRTなどで構成される。
通話部134は送受話器であり、インターホン子機150のマイク154、スピーカ156を介して、訪問者との通話を可能とする。
インターホン親機100の応対者(家人)は、呼び出し音が出力されると、表示画像を参照し、訪問者に応対するか否かを判断する。応対をする場合は、送受話器としての通話部134を使用して、訪問者と通話をする。本実施形態では、入力画像データ中の顔画像の有無、または顔画像の状態に応じ呼び出し音の種類を変更することにより、応対者の利便性を向上させている。
図1に示したインターホンの各部の詳細な動作を説明する。
特徴画像生成部108は、入力画像データの輝度情報を用い輝度エッジ画像として縦エッジ画像及び横エッジ画像を生成し、また、色情報を用いて肌色度合い画像を生成し出力する。(以下、これらの画像を総称して特徴画像データと呼ぶ)
輝度情報から計算したエッジは、輝度値の明るい部分と暗い部分の境界を示す。輝度エッジ画像とは、入力された画像における画素毎に、明るさの境界であるかどうかを周辺の画素との比較によりその度合い(明るさの変化度合い=エッジ強度)を計算し、全画素についての計算結果を画像として示したものである。
境界の明るさの差が大きい場合(境界である場合)には、輝度エッジ画像の画素の値(=エッジ強度)が大きくなり、差が小さい場合(境界でない場合)には、輝度エッジ画像の画素の値は小さくなる。
通常、この明るさの境界に方向(どちらの方向に明るくなっているか)を持たせることが多い。一般的には、縦方向と横方向に分けて上記の計算を行う。左から右(または右から左)にどの程度明るさが変化しているかを計算した結果を縦エッジ画像といい、上から下(または下から上)にどの程度明るさが変化しているかを計算した結果を横エッジ画像という。
一般的に、下記のような3×3のPrewittフィルタを用いてそのエッジ強度を算出する。
−1 0 +1 −1 −1 −1
−1 0 +1 0 0 0
−1 0 +1 +1 +1 +1
縦エッジ計算用フィルタ 横エッジ計算用フィルタ
この他にもガウシアンフィルタを用いたエッジ抽出手法なども知られている。
肌色度合い画像は、画像中の各画素において肌色らしさを計算した結果を画像として示すものであり、肌色度合いが強いほど、その画素値を高くする。例えば、肌色らしさは次のようにして計算する。
入力画像がRGB表色系(各RGBの値は0〜255)の場合では、下記のような公知の式により各画素をHSV表色系に変換(各HSVの値は0〜255)すると、その色相(H)成分が30付近にある場合に肌色であることが知られている。
したがって、(255−2×|H−30|)の絶対値をその肌色度合いの計算値としても良いし、
20≦H≦40の場合:肌色度合い=255
それ以外の場合:肌色度合い=(255−2×|H−30|)の絶対値
等のようにしてもよい。
以下に、RGBからHSVへの変換式(式1)〜(式3)を示す。
画像記憶部114は、画像入力部152が出力する入力画像データ、動き領域抽出部126が生成する背景画像及び、特徴画像生成部108が生成する特徴画像データを記憶する。
動き領域抽出部126は、画像記憶部114から入力画像と背景画像を読み出し、背景差分法によって人物などの動きのある領域を抽出し、抽出結果を出力する。
また、動き領域抽出部126は、抽出した動き領域の面積を予め定めたしきい値と比較し、動き領域の面積がしきい値より小さい場合はその旨を出力する。この出力により、入力画像内に人物が存在しないという判断がなされる。また、動き領域抽出部126は、入力画像と背景画像とを加重平均して新たな背景画像を生成し、この新たな背景画像で画像記憶部114に記憶されている背景画像を更新する。
環境評価値算出部104は、入力画像を基に、順光、逆光、日陰、夕暮れ、夜間などといった環境評価値を出力する。本例では、環境評価値として、輝度値の分布に基づき逆光度合いe1、暗闇度合いe2、低照度度合いe3の3つの値を算出する。
まず、環境評価値算出部104は、入力画像中の所定領域から動き領域抽出部126が抽出した動き領域を除いた領域を、環境評価領域として切り出す。環境変動として最も重要である日照が適切に反映され、かつ、影などの影響を受けにくいように、前記所定領域を空に相当する領域に設定するのが望ましく、例えば入力画像の上部4分の1などとする。動き領域を除くことは、環境評価値算出の精度を向上させる。
次に、環境評価値算出部104は、前記環境評価領域において輝度が所定の値以上となる画素の割合を求めることで逆光度合いe1を算出する。同様に、環境評価値算出部104は、前記環境評価領域において輝度が所定の値以下となる画素が占める割合を求めることで暗闇度合いe2を算出する。
また、環境評価値算出部104は、画像のノイズの多さに基づき、低照度度合いe3を算出する。低照度状態では、カメラの自動感度調整が働いた結果感度が高くなり、信号を増幅する。このため、低照度状態で撮像した画像はノイズが多くなる。そこで、撮像された画像からノイズ成分を抽出し、ノイズの多さを評価することで低照度度合いe3とする。
楕円領域抽出部102は、画像記憶部114に記憶された縦エッジ画像および横エッジ画像から楕円形状の特徴を有する領域を抽出し、抽出した楕円領域の個数、各位置、各大きさを出力する。頭部の輪郭形状は略楕円形状であることから、ここで抽出する楕円領域は頭部候補領域を意味する。楕円領域抽出部102が抽出する楕円領域の数は、0個であっても1個であっても複数個であっても良い。
ただし、動き領域抽出部126によって一定以上の面積の動き領域が抽出されたにもかかわらず、楕円領域抽出部102が抽出した楕円の数が0個の場合は異常であるとの判断がなされる。
前記抽出処理は例えば、楕円形状の参照パターンを用いて前記エッジ画像内を探索することで実現可能である。
この場合、エッジ画像内に参照パターンと同じ大きさの候補領域を設定して、参照パターンと該候補領域の類似度を計算するという処理を、候補領域を移動させながら行い、計算された類似度が予め定めたしきい値より大きい場合に、処理対象となった候補領域を楕円領域とする。
ここで探索する範囲は、動き領域抽出部126が柚出した動き領域に限定する。こうすることで、計算量を少なくすることができる上に背景に含まれる楕円形状を誤って抽出することがなくなる。なお、前記抽出処理はHough変換で実現することもできる。
図3に示すように、抽出された楕円領域200には外接矩形が設定され、この外接矩形を頭部候補領域202とする。これは、楕円領域よりも矩形領域の方がCPUなどの処理に適しており、処理を高速化できる利点があるという知見に基づくものである。
特徴量抽出部110では、楕円領域抽出部102から入力される各頭部候補領域202の画像を分析し、顔検知のために後述する特徴量を算出し出力する。
まず、頭部候補領域202(図3)の中央部に顔候補領域204を設定する。顔候補領域204は、頭部候補領域202を示す矩形領域を予め定めた比率でX方向、Y方向に縮小した矩形領域などとする。
頭部候補領域202から顔候補領域204を切り出す際に、上下左右の一部分を切り捨てるが、左右で切り捨てる部分の幅X1と、頭部候補領域202の横幅X0との比、上側で切り捨てる部分の高さY1と頭部候補領域202の高さY0の比、下側で切り捨てる部分の高さY2と頭部候補領域202の高さY0の比は、それぞれあらかじめ決めておけば良く、例えばX1/X0=0.05,Y1/Y0=0.2,Y2/Y0=0.1などとすれば良い。
次に、特徴量抽出部110は、頭部候補領域202と顔候補領域204の縦エッジ強度、横エッジ強度、輝度、肌色度合いを用いて、平均値、標準偏差などの統計量に基づいて画像の特徴量を計算し、これらの特徴量を要素とする特徴ベクトルCを出力する。
特徴ベクトルCは例えば、以下に示すような16種類の特徴量により構成される。
C=〔c1,c2,…,c16〕 (式4)
c1 :頭部候補領域202内の縦エッジ強度の平均値
c2 :頭部候補領域202内の横エッジ強度の平均値
c3 :頭部候補領域202内の輝度の平均値
c4 :頭部候補領域202内の輝度の標準偏差
c5 :頭部候補領域202内の肌色度合いの平均値
c6 :頭部候補領域202内の横エッジ強度の平均値と縦エッジ強度の平均値の比
c7 :頭部候補領域202内の肌色度合いが所定値以上である画素数と全画素数の比
c8 :頭部候補領域202内の肌色度合いが所定値以上である画素数が所定値以上存在する横ライン数と全横ライン数の比
c9 :頭部候補領域202内の横エッジ強度が頭部候補領域202内の横エッジ強度の平均値より大きい画素数と全画素数の比
c10:顔候補領域204内の縦エッジ強度の平均値
c11:顔候補領域204内の横エッジ強度の平均値
c12:顔候補領域204内の輝度の平均値
c13:顔候補領域204内の輝度の標準偏差
c14:顔候補領域204内の肌色度合いの平均値
c15:顔候補領域204内の肌色度合いの平均値と頭部候補領域202内の肌色度合いの平均値の比
c16:顔候補領域204内の輝度の標準偏差と頭部候補領域202内の輝度の標準偏差の比
テンプレート記憶部116は、顔検知の基準となるテンプレートを記憶する記憶手段である。
図4に、テンプレートの作成方法を示す。
テンプレートは順光、逆光、日陰、夕暮れ、夜間などの想定される代表的な撮影環境ごとに用意し、各テンプレートは、前述の特徴ベクトルCと同じ大きさの平均ベクトルA(j)と標準偏差ベクトルS(j)とからなる。ただし、jは前記環境を識別する変数である。
A(j)=〔a1(j),a2(j),…,a16(j)〕 (式5)
S(j)=〔s1(j),s2(j),…,s16(j)〕 (式6)
テンプレートは、顔(正常なる顔)が映っている領域の画像特徴としてあらかじめ作成して記憶しておく。各環境下ごとに、多数収集した頭部領域サンプルから前述の特徴ベクトルCを算出し、これら特徴ベクトルの各要素の平均値から平均ベクトルA(j)を、各要素の標準偏差から標準偏差ベクトルS(j)を作成する。
また、テンプレート記憶部116は、テンプレートごとに環境評価値E1(j),E2(j),E3(j)、重みベクトルW(j)をも記憶する。環境評価値は、輝度値の分布に基づき環境jを表現するパラメータであり、E1(j)は逆光度合い、E2(j)は暗闇度合い、E3(j)は低照度度合いである。順光、逆光、日陰、夕暮れ、夜間などの代表的な環境下で、前述のe1,e2,e3と同様の計算方法で計算しておく。
顔検知に用いる特徴量は、撮影環境によって顔検知に適したものと適さないものとがあり、これらが特徴ベクトルCに混在しているため、各テンプレートと共に記憶されている重みベクトルW(j)によって各特徴量の重みを変えることにより、特徴量を環境に応じた最適な配分で顔判定に用いる必要がある。
テンプレート作成時には、前述のように、前記各環境下で顔を撮影した頭部領域サンプルを多数用意し、前記平均ベクトルA(j)と標準偏差ベクトルS(j)を算出する。また、このとき、同じ環境で顔(正常なる顔)以外の部位を頭部領域サンプルと見立てた画像を多数用意し、これら画像と前記頭部領域サンプルとの差異に基づき、各環境下で顔(正常なる顔)と顔以外のサンプルとを最適に区別できるように重みベクトルW(j)を設定しておく。
重みベクトルW(j)は、A(j)やS(j)と同じ大きさのベクトルであり、後述の距離計算によって得られる距離値の分布が顔検知に適したものとなるように設定しておく。
W(j)=〔w1(j),w2(j),…,w16(j)〕 (式7)
一例として順光の環境では顔の肌色が正しく撮影されるので、特徴ベクトルCのうち肌色に関わる特徴量c5(j),c7(j),c8(j),c14(j),c15(j)の係数として重みベクトルw(j)はw5(j)、w7(j)、w8(j)、w14(j)、w15(j)が相対的に大きな値をとる。一方、逆光や夜間の環境では、顔に当る光が弱いため、色が正しく再現されず、肌色を正しく撮影できない場合が多いので、肌色に関わる特徴量の係数は相対的に小さな値となり、特徴ベクトルCのうちエッジに関わる特徴量の係数w1(j)、w2(j)、w6(j)、w9(j)、w10(j)、w11(j)が相対的に大きな値となる。
距離算出部112は、頭部候補領域毎に環境評価値算出部104、特徴量抽出部110で算出した特徴量とテンプレート記憶部116に記憶されているテンプレートとを比較して顔検知のための距離値Dを計算し出力する。距離値Dは頭部候補領域とテンプレートとの差異を表す尺度である。
すなわち、距離値Dは頭部候補領域内に正常なる顔が存在する場合に小さな値となり、正常なる顔が存在しない場合に大きな値となる。
テンプレート記憶部116から読み出すテンプレートには、図4に示すように、c1からc16の各特徴量に対応する平均値a1からa16と、標準偏差s1からs16と重み係数w1からw16とが含まれている。距離算出部112は、c1からc16の各特徴量を、a1からa16、s1からs16で規定される変換関数fによって変換し、変換結果のw1からw16による重み付け和として、次式によって距離値Dを計算する。この距離値Dは環境j毎に算出される。
D(j)=w1(j)・f(c1,a1(j),s1(j))
+w2(j)・f(c2,a2(j),s2(j))+…
+w16(j)・f(c16,a16(j),s16(j)) (式8)
図5は、c1に関する変換の様子を示すものである。このときの変換関数f(c,a1,s1)は、図5に示すようにテンプレート作成に用いた多数のサンプルによるc1の分布を適切に表現し、かつ、c1がa1と等しい場合に0を算出し、c1とa1との差が大きいほど1に近い値を算出するような非線形変換関数として構成する。前記分布はガウス分布とする。c2からc16に関する変換処理もc1と同様である。
次に、距離算出部112は、特徴量以外の情報を基にして、前記距離値を補正する以下の処理を行う。ここでは距離値に対して補正値となるペナルティを与える三つの処理を説明する。
第一の処理は、環境評価値を基に行う処理である。入力画像について環境評価値算出部104で算出した環境評価値e1,e2,e3と環境j毎にテンプレート記憶部116に記憶された環境評価値E1(j),E2(j),E3(j)との差が大きいほど大きな値のペナルティを算出するような関数g1を定義しておき、前記距離値Dにg1(e1,e2,e3,E1,E2,E3)を加算する。関数g1は例えば(式9)に示す数式で表される。
(式8)による距離値Dは、正常なる顔が存在しない頭部候補領域であっても、入力画像の撮像環境と異なる環境で作成したテンプレートに対して、小さな値となる場合がある。例えば、頭部候補領域が、明るい環境で撮影した黒い覆面をかぶった頭部である場合に、頭部候補領域の輝度値が低いことから夜間の環境で作成したテンプレートとの距離値Dが小さくなる。このような場合でも、g1による環境のペナルティを与えることで、撮影環境である明るい環境を表す環境評価値と、テンプレート作成時の環境である暗い環境を表す環境評価値との違いによって距離値Dを大きくすることができ、黒い覆面をかぶった頭部を正常なる顔として検出しないようにすることができる。
第二の処理は、頭部候補領域に人物の手にあたる画像が含まれているか否かを判定する処理である。手の特徴量は顔の特徴量と似ているために、楕円形状に類する形状で手が映っている場合や顔を手で隠している場合に、正常なる顔の画像でないにも拘らずテンプレートとの距離値Dが小さくなる場合がある。そのため、この第二の処理によって頭部候補領域と手との類似度を算出し、この類似度が高い場合に出力されるペナルティgh1、gh2、gh3を定義しておき、前記距離値Dにgh1、gh2、gh3を加算する。
頭部候補領域と手との類似度は、横向きの手、縦向きの手、斜め向きの手についてそれぞれ求められる。そして、この類似度が所定しきい値以上となる場合に、横向きの手が存在するペナルティgh1、縦向きの手が存在するペナルティgh2、斜め向きの手が存在するペナルティgh3が各々出力される。この、ペナルティgh1〜gh3は各々距離値Dに加算される。
なお、ペナルティgh1〜gh3の値は、何れか一つでも距離値Dに加算されると加算後の距離値Dが正常なる顔と判定されない大きな値として設定されることが好ましいが、複数のペナルティが加算されることにより距離値Dが正常なる顔と判定されないような値に設定されてもよい。
この処理によって、手が映っている領域や顔を手で隠している場合等に、頭部候補領域内の手を検出してgh1〜gh3によるペナルティを与えて距離値Dを大きくすることができ、手が含まれる頭部候補領域を正常なる顔として検出しないようにすることができる。
以下、まず、横向きの手が存在するペナルティgh1を出力する処理を図6を参照して説明する。
手の画像は、手の甲・手のひら側に比べ指側に多くのエッジが抽出される。そのため、図6(b),(c)に示すように、頭部候補領域202に手が横向きに写っている場合、横エッジ画像中において手の指側は横エッジが多く、手の甲・手のひらの側は横エッジが少なくなる。したがって、横エッジの重心は指側に位置することとなる。
また同様に、頭部候補領域202に手が横向きに写っている場合、手の甲・手のひら側に比較して、指側では指の間が暗い線で映るために相対的に指側の平均輝度値が低くなる。そのため、輝度の重心は手の甲・手のひら側によることになる。
一方で、図6(a)に示すように、頭部候補領域202に顔が写っている場合、この顔の画像が正常なる顔のものであれば、横エッジの重心及び輝度重心は、X座標に関してはほぼ中央付近に位置するため、差異が小さい。また、顔に横から光が当たっている場合、光の当たっている側のエッジ強度が強くなり、輝度重心、横エッジ重心ともに近接する位置となるため差異は小さい。
したがって、頭部候補領域202中に横向きの手があるか否かは、頭部候補領域202の横エッジ強度の重心と輝度の重心とのX座標の差に基づき判別することができる。
各画素(x,y)の横エッジ強度XE(x,y)に基づく横エッジ強度の重心のX座標GXEx、及び、各画素(x,y)の輝度値I(x,y)に基づく輝度の重心のX座標GIxは、例えば次の(式10)(式11)にて算出できる。
そして、横エッジ強度の重心のX座標GXExと輝度の重心のX座標GIxとの差が所定のしきい値以上となる場合に、頭部候補領域内に横向きの手が存在すると判定して、距離値Dに横向きの手が存在するペナルティgh1を加算する。
なお、上述の処理において、輝度重心に代えて、肌色度合いの重心を用いて判別を行ってもよい。顔や手の画像は肌色度合いが略均一であるため、肌色度合の重心となるX座標は、顔の略中心、手の略中心に位置する。また、横エッジ強度の重心のX座標GXExは、上述したように横向きの手においては指先側に位置し、顔の画像では略中心に位置する。
したがって、肌色度合の重心のX座標と、横エッジ強度の重心のX座標GXExとの差に注目することによって、上述の輝度の重心のX座標GIxを用いた処理と同様にして、横向きの手の有無を判別することができる。
次に、縦向きの手が存在するペナルティgh2を出力する処理を図7を参照して説明する。
頭部候補領域202内の肌色画素にて、横エッジ強度の平均(XEAve)と、縦エッジ強度の平均(YEAve)に基づき、これらエッジ強度の平均の比(XEAve/YEAve)を求めた場合、頭部候補領域202内の画像が正常なる顔であればエッジ強度の平均の比(XEAve/YEAve)は1以上の値として得られる。
これは、図7に示すように、顔の構成パーツは、特に肌色領域内において、縦エッジよりも横エッジの方が多く抽出され(図7(a)参照)、縦向きの手では横エッジよりも縦エッジの方が多く抽出される(図7(b)、(c)参照)という知見に基づいている。
そこで、この処理では、肌色領域内エッジ強度の平均の比(XEAve/YEAve)に基づき縦向きの手の有無を判定する。すなわち、エッジ強度平均の比(XEAve/YEAve)が所定しきい値以下の場合、頭部候補領域202内に縦向きの手が存在すると判定して、距離値Dに縦向きの手が存在するペナルティgh2を加算する。
なお、この判定に用いるしきい値は、例えば1.0などに設定することが好ましい。
次に、斜め向きの手が存在するペナルティgh3を出力する処理を図8を参照して説明する。
一般に、斜めのエッジ成分が多いと、縦エッジ画像と横エッジ画像の相関は高くなる。したがって、図8(b),(c)に示すように、頭部候補領域202内に斜め向きの手が存在する場合、縦エッジ画像と横エッジ画像の相関は高くなる。他方、図8(a)に示すように、顔の画像は斜めのエッジ成分が少ないため相関は高くなりにくい。そこで、この処理では、頭部候補領域の縦エッジ強度画像と横エッジ強度画像の正規化相関ZNに基づき斜め向きの手の有無を判定する。
縦エッジ強度画像と横エッジ強度画像の正規化相関ZNは、画素(x,y)の横エッジ強度XEdge(x,y)、画素(x,y)の縦エッジ強度YEdge(x,y)、横エッジ強度平均XEdgeAve、縦エッジ強度平均YEdgeAveに基づき(式12)により算出できる。
そして、(式12)にて算出された正規化相関ZNが所定のしきい値以上であれば、頭部候補領域202内に斜め向きの手が存在すると判定して、距離値Dに斜め向きの手が存在するペナルティgh3を加算する。
なお、本実施形態では上記のような処理により、頭部候補領域内に手が含まれているか否かを検出する例について説明したが、これに限定されるものではない。
例えば、頭部候補領域の縦エッジ画像及び横エッジ画像のエッジ画素に細線化処理を施して、各々細線化する前と後のエッジ画素数の比を求めて、このエッジ画像の比に基づき手の有無を判定する構成としてもよい。これは、顔の画像は太い直線成分は多いが長い直線成分が少なく、手の画像は長い直線成分は多いが太い直線成分が少ないという知見に基づくものである。
すなわち、顔の画像は細線化前後でエッジ画素の数が大きく変化し、手の画像を含んでいる場合は細線化前後でエッジ画素の数が変化する割合が少ない。
この場合、しきい値処理にて細線化前のエッジ画素の数が略固定値となるようにしておくことが好ましく、また、長い直線成分を強調して検出できるように横長(例えばPrewittフィルタを7×3に拡張したもの)及び縦長(例えばPrewittフィルタを3×7に拡張したもの)のエッジフィルターを用いて横エッジ画像及び縦エッジ画像を生成することが好ましい。
次に、距離算出部112が行う第三の処理について図9を参照して説明する。
この第三の処理は、頭部候補領域202に含まれる画像が、覆面等の不審な画像であるか否かを判定する処理である。この第三の処理により、画像入力部152付近の撮影環境によって、仮に、前述の特徴ベクトルCによる判定精度が低くなるような場合があっても、特に注意すべき不審な画像の有無を判定して距離値Dを補正する。そのため、この第三の処理によって頭部候補領域202と特定の不審な画像との類似度を算出し、この類似度が高い場合に出力される不審な画像のペナルティgd1、gd2を定義しておき、前記距離値Dにgd1、gd2を加算する。本実施形態では、不審な画像として、特に、サングラスとマスクを装着している顔の画像(以下サングラス+マスク画像と称す)、目出し帽を被っている顔の画像(以下、目出し帽画像と称す)について判定する。
この第三の処理では、頭部候補領域202とサングラス+マスク画像との類似度、頭部候補領域202と目出し帽画像との類似度をそれぞれ求める。そして、この類似度が所定しきい値以上となる場合に、サングラスとマスクが存在するペナルティgd1、目出し帽が存在するペナルティgd2が各々出力される。この、ペナルティgd1、gd2は各々距離値Dに加算される。
なお、ペナルティgd1、gd2の値は、何れか一つでも距離値Dに加算されると加算後の距離値Dが正常なる顔と判定されない大きな値として設定されることが好ましいが、複数のペナルティが加算されることにより距離値Dが顔と判定されないような値に設定されてもよい。
以下、まず、サングラスとマスクが存在するペナルティgd1を出力する処理を説明する。
サングラス+マスク画像(図9(b)参照)は、正常なる顔の画像(図9(a))に比べて、上方に暗い画素が集中するため縦方向の輝度重心が中心より低い位置となる。また、横方向に見たライン毎の輝度値の分散は小さいのに対し縦方向に見たライン毎の輝度値の分散は大きい。さらに、サングラスの部分により輝度値が極端に低いという性質がある。
そこで、この処理では、サングラスとマスクを装着した顔を判別するために、頭部候補領域202内の輝度重心のY座標GIyと、頭部候補領域202内のX方向の標準偏差とY方向の標準偏差の比SDxyと、頭部候補領域202内の特に輝度値が低い画素の割合DPとを算出する。ここで、例えば、頭部候補領域202内において、輝度値が前記特徴量c3の値以下の画素数NFと輝度値が(c3−c4)の値以下の画素数NSとの比をDPとする。そして、輝度重心のY座標GIyが頭部候補領域202の中心より下方にあり、更に、X方向の標準偏差とY方向の標準偏差の比SDxyが所定しきい値より小さく、更に、輝度値の低い画素の割合DPがしきい値以上となる場合に、頭部候補領域202内の画像はサングラスとマスクを装着した顔の画像であると判定して、ペナルティgd1を距離値Dに加算する。
次に、目出し帽が存在するペナルティgd2を出力する処理を説明する。
目出し帽画像(図9(c)参照)は、正常なる顔の画像(図9(a))に比べて、特定の色彩が多く含まれるという性質がある。そこで、この処理では、頭部候補領域202内の各画素を彩度Sで判定して目出し帽の判定を行う。なお、彩度Sは(式2)によって算出する。
頭部候補領域202内で、輝度及び彩度Sがしきい値より小さい画素の割合を算出し、この割合が所定の値を超える場合に、頭部候補領域202内の画像は暗色の目出し帽であると判定して、目出し帽が存在するペナルティgd2を距離値Dに加算する。なお、このとき、頭部候補領域202全体の彩度Sの平均値がしきい値よりも低い場合は、照明の影響で正常なる顔の彩度Sが低くなっている可能性もあるので、このペナルティ加算処理は適応しない。
また、頭部候補領域202内で、彩度Sがしきい値より大きい画素の割合を算出し、この割合が所定の値を超える場合に、目出し帽だと判定し、頭部候補領域202内の画像は赤や青等の原色の色合いを持つ目出し帽であると判定して、目出し帽が存在するペナルティgd2を距離値Dに加算する。
前述のように、テンプレート記憶部116には、代表的な環境ごとにテンプレートが記憶されている。距離算出部112は記憶されている全てのテンプレートに対して上記処理を行って距離値Dを算出し、これらの距離値Dの最小値D´を頭部候補領域202とテンプレートとの距離値D´として出力する。
包含判定部106は、重複した位置に複数の頭部候補領域202が設定されているか否かを判定する。
楕円領域抽出部102による、楕円領域(頭部候補領域)200の抽出処理は、前述したように輝度エッジ画像から楕円形状の領域を抽出するが、このとき、図10(a)に示すように、重複した位置に複数の楕円領域200a,200bを抽出する場合がある。
この場合、重複した位置に、他の頭部候補領域を包含する頭部候補領域202a(以下、包含頭部候補領域と称す)と、包含される頭部候補領域202b(以下、被包含頭部候補領域と称す)とが設定されることとなる。頭部候補領域の包含関係は、例えば、各頭部候補領域の左下及び右上の座標を検出することで判別できる。
このとき、互いに包含関係にある頭部候補領域202a,202bにおいて、包含頭部候補領域202aの距離値Dが被包含頭部候補領域202bの距離値Dよりも大きい場合、包含頭部候補領域202aは正常なる顔でないと判定されていても、被包含頭部候補領域202bは正常なる顔であると判定されることがある。
例えば、目出し帽を被っている顔の画像(図10(b)参照)などにおいては、頭部の外接領域となる包含頭部候補領域202aと、目出し帽の目の周りや口周りの領域となる被包含頭部候補領域202bとが設定される場合がある。この場合、包含頭部候補領域202aは、前述の距離算出部112の処理によって正常なる顔ではないと判定されていても、被包含頭部候補領域202bが、その特徴量によっては正常なる顔であると判定される可能性がある。
そこで、包含判定部106は、互いに包含関係にある頭部候補領域202a,202bにおいて、包含頭部候補領域202aの距離値Dが被包含頭部候補領域202bの距離値Dよりも大きく、かつ、包含頭部候補領域202aの距離値Dに不審な画像のペナルティgd1又はgd2が加算されている場合に、このペナルティgd1又はgd2を被包含頭部候補領域202bの距離値Dに加算する。
顔判定部120は、距離算出部112で頭部候補領域ごとに計算された距離値Dの最小値D´を予め定めたしきい値と比較し、前記距離値D´が前記しきい値より小さかった場合に、入力画像中に正常なる顔が存在すると判定する。
顔判定部120は、存在の有無と前記最小の距離値を算出した頭部候補領域の位置と大きさを特定する情報とを出力する。
信頼度判定部118は、顔判定部120の顔判定結果が信頼できるものであるかを検証して、その度合いを表す信頼度を出力する。具体的には、頭部領域候補と輝線ノイズとの画像上の位置関係から信頼度を算出する。信頼できる場合は信頼度1、信頼できない場合は信頼度0と表す。
まず、信頼度判定部118は、画像記憶部114から縦エッジ画像を読み出して輝線ノイズとなるスミアやブルーミングの有無を検出する。
スミアとは、CCD撮像素子を使用して撮像する際に、画像中に例えば太陽など、特に明るい光源が映っている場合に、その上下に明るい直線が発生する現象である。この現象は、極端に強い光があたることによってCCD撮像素子の電荷があふれだし、CCDの電荷転送方向である縦方向に輝度が飽和した明るい画素が直線上にあらわれるものである。また、このようなときには、光源の周囲に大きく円形状、又は放射状に白く光る領域が発生することもあり、この現象はブルーミングと呼ばれる。
スミアやブルーミングが発生している領域では、本来映っている被写体像を塗りつぶしているため、顔領域にスミアやブルーミングが影響している場合には、正しく顔検知ができない可能性が高い。そこで、本例では、スミアやブルーミングの影響で顔判定が正しくできない状態を検知した場合に信頼度0を出力する。
ここでは、説明の為にスミアが縦方向に生じるものとして説明しているが、CCD撮像素子を例えば90度傾けて設置すればスミアは横方向に生じることになる。この場合、信頼度判定部118は画像記憶部114から横エッジ画像を読み出してスミアを検出すればよい。
信頼度判定部118は、画像記億部114の輝度値画像と、縦エッジ画像を用いてスミアを検知する。画面内で一つの縦のラインに注目すると、縦エッジ強度が第1のしきい値を超えた画素が、縦方向に第2のしきい値以上ある場合に、このラインはスミアエッジ候補となる。次に、このラインで縦エッジ強度が第1のしきい値を超えた画素の数と、左右両隣の画素の輝度がいずれも第3のしきい値を超えた画素の数を合算し、この値が第4のしきい値以上であれば、このラインをスミアエッジと判断する。ただし、第2のしきい値<第4のしきい値であり、スミアが生じていても周囲が明るい場合は縦エッジが検出されない場合もあるため、上記のような2段階の判定を行う。
以上の処理でスミアエッジが検知されるが、スミアが発生していれば、スミアの左右両端に同じようにスミアエッジが検出されるので、同様な処理を継続し、スミアエッジが2本検出された時点でスミアが検出されたものとする。
また、ここでは、スミア検出に、各ラインで縦方向にエッジ強度の高い画素を数える手法を説明したが、例えばHough変換により縦エッジ強度の強い直線を検出するなどの手法を用いることも可能である。
前記処理によりスミアが検出された場合、信頼度判定部118は、頭部候補領域とスミアとの位置関係を基に信頼度を求める。このときに顔判判定部120で顔が含まれると判定された頭部候補領域の有無によって、信頼度の算出の仕方は異なる。顔が存在すると判定した場合は、顔の含まれる頭部候補領域とスミアとの画像上の距離が所定値以下であれば信頼度を0とする。顔が含まれると判定された頭部候補領域が存在しない場合であっても、スミアとの画像上の距離が所定値以下の頭部候補領域が1つでも存在すれば信頼度を0とする。それ以外の場合は信頼度を1とする。
顔判定部120において、正常なる顔が存在しないと判定したが信頼度が0である場合、スミアやブルーミングの影響により顔判定が正しく行われなかったことが考えられるため、実際には正常なる顔が存在している可能性がある。このことを考慮して信頼度0の場合顔判定結果を顔が存在するという結果に書き換えて出力する。
記憶部136は、音声ガイダンス、呼び出し音といった音データを記憶する。これらの音データは、必要に応じて読み出され、スピーカ132で再生され、また、インターホン子機150のスピーカ156で再生される。呼び出し音の音データは、少なくとも、通常の呼び出し音、異常を意味する呼び出し音、判定不能を意味する呼び出し音などがあらかじめ用意される。
以下、顔検知装置を備えるインターホンの動作についてフローチャートを用いて説明するが、その前に、本例の概略の動作を説明する。
本例は、頭部候補領域として画像中から楕円領域を抽出し、この楕円領域を画像処理して、正常なる顔の存在を判定することにより、異なる出力を行うものである。
楕円領域200の外接矩形領域を頭部候補領域202とし、頭部候補領域の内側に顔候補領域204として別途矩形領域を設定し、これら2つの候補領域内を画像処理して複数の種類の特徴量を算出し、これらの特徴量を要素とする特徴ベクトルCと予め記憶しているテンプレートとを比較する。
また、テンプレートを作成した際の撮影環境を表す環境評価値を各テンプレートに対応付けて保持し、該環境評価値と入力画像の環境評価値との差によって重み付け距離Dを補正することでテンプレート作成時の撮影環境との違いを吸収する。
環境評価値のうち、逆光度合いと暗闇度合いの算出では、画面の上部からある一定の割合の領域中で、かつ背景差分法で求められた領域内において算出することを特徴とする。
また、頭部候補領域内の画像が人物の手を含んでいるか否かを判定し、手が映っている領域や顔を手で隠している状態を検知して距離Dを補正することにより誤判定を防止する。
さらに、頭部候補領域内の画像が覆面等の不審な画像であるか否かを判定して、注意すべき不審な画像であった場合は距離Dを補正する。これにより、画像入力部152付近の撮影環境によって、仮に、前述の特徴ベクトルCによる判定精度が低くなるような状況であっても、不審な画像の有無を精度よく判定できる。
また、複数の頭部候補領域が互いに包含関係をなす場合であっても、不審な顔の一部分を抽出して正常なる顔の存在を誤判定することを防止する。
そして、最も距離が小さくなるテンプレートとの距離値Dに基づき顔検知判定を行う。
また、画像にスミアが発生していることを検出し、スミア検出結果と、顔検知結果と、頭部候補楕円領域とスミアの画像上での位置関係とから、顔検知結果の信頼度を判定し、顔検知結果に信頼度を考慮した出力を生成する。したがって、スミアの影響により顔検知に失敗しても、利用者に確認を促すことを可能とする
図11のフローチャートを用いて、顔検知装置を備えるインターホンの動作を説明する。
呼び出し釦158が操作されるまでの間、呼び出し釦158の操作を監視する(S700)。同時に、一定時間間隔で背景画像の更新を行う。この間の動作は次のようなものである。
画像入力部152により生成された入力画像データが、通信線140を介してインターホン親機100に送られる。特徴画像生成部108は、送られてきた入力画像からエッジ画像を生成する。動き領域抽出部102が、該エッジ画像を用いて背景画像の更新を行う。
呼び出し釦158が操作される(S700―Yes)と、起動信号が通信線140を介してインターホン親機100の制御部124に送られる。このときに、画像入力部152が出力する入力画像データが画像記憶部114に記憶され、以下に示す顔検知処理と応答動作が実行される。
まず、特徴画像生成部108が、画像記憶部114に記憶された入力画像データを読み出して、縦エッジ画像と横エッジ画像を生成する。そして、動き領域抽出部126が、前記エッジ画像と画像記憶部114から背景画像とを用いて背景差分法によって動き領域を抽出する(S702)。
このときに抽出された動き領域が、予め定められたしきい値以上であるか否かが判定される(S704)。ここでしきい値より小さい場合(S704−No)、制御部124は入力画像中に人物画像が存在しないものと判断する。また、この場合は、親機100のスピーカ156は無音のまま(S732)で、家人に、応答を要求したり戸外の状況を確認させる作業が発生しないようにする。
なお、この人物不在と判定された場合、家人の好みによって、所定の呼び出し音を鳴動するよう設定しても良い。
このとき、インターホン親機100の制御部124は記憶部136から「LEDが見える位置で操作してください」という音声データを読み出して、該音声データを通信線140を介してインターホン子機150に送る。
インターホン子機150の制御部160では、送られてきた音声データをスピーカ156によって再生する。この動作により、いたずらなどを行う者に対する牽制をする。
S704で動き領域がしきい値以上の場合(S704−Yes)、楕円領域抽出部102は、エッジ画像中の動き領域から楕円領域を抽出して頭部候補領域を設定する(S706)。このとき、楕円領域抽出部102は頭部候補領域に通し番号を与える。
次に、頭部候補領域数が0であるか否かが判定される(S708)。頭部候補領域数が0の場合(S708−No)、制御部124は、記憶部136から異常を意味する呼び出し音の音データを読み出して、スピーカ132で再生し、表示部130に入力画像を表示する(S738)。
ここでの動作は、呼び出し釦158が操作され、人物程度の面積を持つ領域が抽出されたにもかかわらず、頭部領域候補(楕円領域)が存在しないという異常を検出したことを家人に知らせることを意味する。
更に、インターホン子機150において、S732と同様に、「LEDが見える位置で操作してください」という音声データをスピーカ156に再生する。
S708で、頭部候補領域が存在する場合(S708−Yes)、処理はS710へと進む。
環境評価値算出部104は、画像記憶部114から入力画像データを読み出し、入力画像中の背景領域上方部分を用いて、暗闇度合いと逆光度合いを算出し、また前述の処理によって低照度度合いを計算する(S710)。
特徴量抽出部110は、画像記憶部114に記憶された頭部候補領域の縦エッジ画像、横エッジ画像、肌色度合い画像を読み出して、前述のc1からc16の特徴量を計算する。
距離算出部112は、前記特徴量に基づき、頭部候補領域とテンプレート記憶部116に記憶されている複数のテンプレートとを比較して各テンプレート毎に距離値Dを算出する(S712)。
次に、距離算出部112は、距離値Dに対応するテンプレートと前記環境評価値とに基づき、環境のペナルティg1を距離値Dに加算する(S714)。
次に、距離算出部112は、頭部候補領域に手が含まれるか否かを判定して、手のペナルティgh1、gh2、gh3を距離値Dに加算する(S716)。
次に、距離算出部112は、頭部候補領域に特に注意すべき不審な画像が含まれるか否かを判定して、不審な画像のペナルティgd1、gd2を距離値Dに加算する(S718)。
距離算出部112は、テンプレート記憶部116に記憶されている複数のテンプレートごとにS712〜S718の処理を行い距離値Dを算出する。そして、全てのテンプレートに対する処理を終えるとS720へと進む。
ここで、S706において設定された全ての頭部候補領域に対して距離値Dの算出処理が終了したか否かを判定する(S720)。全ての頭部候補領域に対して処理が終了していない場合、再びS712へ処理を戻し、新たな頭部候補領域に対して処理を行う(S720−No)。
他方、全ての頭部候補領域に対して距離値Dの算出処理が終了した場合(S720−Yes)、S722へと進む。
S722では、各頭部候補領域の包含関係が判定される。包含判定部106は、各頭部候補領域の包含関係が判定して、包含頭部候補領域の距離値Dに不審な画像のペナルティgd1又はgd2が加算されている場合は、該当する被包含頭部候補領域の距離値Dに不審な画像のペナルティgd1又はgd2を加算する(S722)。
これにより、複数の頭部候補領域が互いに包含関係をなす場合であっても、不審な顔の一部分を抽出し、誤って正常なる顔の存在を判定してしまうことを防止する。
顔判定部120は、算出した距離値Dの最小値D´を予め定めたしきい値Tと比較し、画像中に顔が存在するか否かを判定する(S724)。ここで、D´<Tであれば、入力画像中の距離値D´を算出した頭部候補領域内に正常なる顔が存在すると判定する(S726−Yes)。
正常なる顔が存在すると判定された場合(S726−Yes)及び存在しないと判定された場合(S726−No)、いずれも、信頼度判定部118は、画像記憶部114に記憶された入力画像データと縦エッジ画像とを読み出し、スミアの存在の有無とその画像中に占める位置を検出し、顔判定結果と頭部候補領域の位置情報を合わせて信頼度を算出する(S728)。
顔判定結果と信頼度判定結果が算出されると、制御部124は、これらの結果に基づいた以下のような動作を行う。
正常なる顔が存在し信頼度が1であるか否かが判定される(S730)。正常なる顔が存在し信頼度が1である場合(S730−Yes)、制御部124は、記憶部136から通常の呼び出し音の音データを読み出してスピーカ132で再生すると共に、表示部130に入力画像データを表示する(S736)。
顔が存在せず信頼度が1である場合(S731−Yes)、制御部124は、前述の頭部候補領域が存在しない場合と同様にして、スピーカ132で異常を意味する呼び出し音の音データを再生し、表示部130に入力画像データを表示し、インターホン子磯150のスピーカ156で「LEDが見える位置で操作してください」という音声データを再生する(S738)。この動作は、動き領域及び頭部候補領域が抽出されたにも拘らず正常なる顔が検出できないという判定結果に基づくものであり、顔を隠蔽するなどした不審者の来訪の可能性を家人に知らせることを意味する。
なお、この場合、家人の好みによって、異常の場合に呼び出し音が鳴動しないように設定してもよい。
信頼度が0である場合は(S730−No、S731−No)、制御部124は、記憶部136から通常の呼び出し音の音デー夕を読み出してスピーカ132で再生すると共に、表示部130に入力画像データを表示する(S736)。この動作は、顔の検出漏れを防ぐためのものである。スミアやブルーミングの影響で実際には正常なる顔が存在するにもかかわらず顔が存在しないと判定され出力されてしまうような不具合を防止する。
なお、この場合、家人の好みによって、呼び出し音を通常のものと区別して、特定の判定不能呼び出し音が鳴動するようにしてもよい。また、表示部130に判定不能である旨を表示するようにしても良い。
また、本実施形態では、複数の代表的な撮影環境毎に特徴量と環境評価値とを用意しておく例について説明したが、照明点灯時や日中など、ある特定の一つの撮影環境のときのみ顔画像の存在を判定したい場合等においては、特定の撮影環境における特徴量と環境評価値のみを用意しておく構成としてもよい。これにより、特定の撮影環境と異なる環境時には顔画像が存在すると判定されることがない。
また、本実施形態では、頭部候補領域が存在しない場合と正常なる顔が判定されなかった場合とで同じ出力形態(図11中S738)として説明したが、算出した距離値Dの最小値D´に、手が存在するペナルティgh1、gh2、gh3、又は不審な画像のペナルティgd1、gd2が加算されていた場合は、スピーカ132より特殊な呼び出し音を出力して警戒を促すようにしてもよい。
さらに、本実施形態では、本発明の顔検知装置をインターホンに組み込んだ例について説明したが、これは、限定されるものではなく、例えば、銀行ATMの監視用システムとして用いてもよい。この場合、利用者の顔を撮影できるよう画像入力部をATM機近傍に設置して、利用者の顔が正常なる顔であるか否かを判定し、遠隔の監視センタなどに判定結果を送信する。
以上説明した実施形態の効果を列挙すると以下のようになる。
従来装置のように、目、口、耳などといった顔の部位ではなく、頭部候補領域と該頭部候補領域内に設定した顔候補領域との各領域の統計量を特徴量として用いて顔検知を行うので、高精細なカメラや高性能のプロセッサを必要とせず、安価に装置を構成することができる。これにより、手や覆面などで顔が隠されている場合であっても、頭部領域の有無及び正常なる顔の画像であるか否かを高速に検知できる。
また、抽出された頭部候補領域内に手が含まれているか否かを判定することができ、顔を手で隠しているような場合であっても、正常なる顔か否かを精度よく判別することができる。
さらに、特に注意すべき不審な画像については、個別にその存在を判定することができ、正常なる顔の画像と不審な画像とを高精度に判別できるため、利用者に警戒を促すことができる。
これにより、顔検知結果に基づいて出力を変化させることによって、不審人物の有無を確認することが可能とある。
また、複数の頭部候補領域が互いに包含関係をなす場合であっても、不審な顔の一部分を抽出し、誤って正常なる顔の存在を判定してしまうことを防止でき、判定精度を向上させることができる。
また、想定される代表的な撮影環境ごとに特徴量を用意するので、最も近い特徴量を用いて顔検知を行うことができると共に、環境を表す評価値そのものの違いを考慮して顔検知を行うので、環境変化に強い顔検知が可能である。
さらに、信頼度を算出し、顔検知結果と信頼度とから出力を生成するので、スミアやブルーミングの影響によって顔検知が正しく行われなかった場合にも、利用者に確認を促すことが可能となる。
本発明を適用した顔検知機能を有するインターホン装置の概略の構成を表す図である。 図1のインターホン子機の外観を示す図である。 図1の楕円領域抽出部102が行う処理を示す図である。 図1の装置で使用されるテンプレートの作成方法を示す図である。 本発明における特徴ベクトルの変換方法を示す図である。 横向きの手の判別処理を示す図である。 縦向きの手の判別処理を示す図である。 斜め向きの手の判別処理を示す図である。 不審な画像の例を示す図である。 重複して設定される頭部候補領域を示す図である。 図1のインターホン装置の動作を示すフローチャートである。
符号の説明
100…インターホン親機
102…楕円領域抽出部
104…環境評価値算出部
106…包含判定部
108…特徴画像生成部
110…特徴量抽出部
112…距離算出部
114…画像記憶部
116…テンプレート記憶部
118…信頼度判定部
120…顔判定部
I24…制御部
126…動き領域抽出部
130…表示部
132…スピーカ
134…通話部
136…記憶部
138…通信部
140…通信線
150…インターホン子機
152…画像入力部
154…マイク
156…スピーカ
158…呼び出し釦
160…制御部
162…通信部
200…楕円領域
202…頭部候補領域
204…顔候補領域
604…LED

Claims (2)

  1. 撮影された画像が人相の判別でき得る顔の画像を含んでいるか否かを判定する顔検知装置であって、
    顔の画像を入力する画像入力部と、
    前記画像入力部より入力された画像の肌色画素の分布特徴に基づき顔らしさ度合を算出する顔検出手段と、
    前記画像入力部より入力された画像のエッジ強度の分布特徴に基づき手らしさ度合を算出する手検出手段と、
    前記顔らしさ度合及び手らしさ度合に基づき人相の判別でき得る顔画像の有無を判定する判定部と、を具備することを特徴とした顔検知装置。
  2. 前記エッジ強度の分布特徴は、横エッジ強度の重心座標及び縦エッジ強度画像と横エッジ強度画像との相関値に基づく値である請求項1
    記載の顔検知装置。
JP2003320477A 2003-09-11 2003-09-11 顔検知装置 Expired - Fee Related JP4448304B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003320477A JP4448304B2 (ja) 2003-09-11 2003-09-11 顔検知装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003320477A JP4448304B2 (ja) 2003-09-11 2003-09-11 顔検知装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009281309A Division JP4825909B2 (ja) 2009-12-11 2009-12-11 顔検知装置

Publications (3)

Publication Number Publication Date
JP2005092262A JP2005092262A (ja) 2005-04-07
JP2005092262A5 JP2005092262A5 (ja) 2006-10-26
JP4448304B2 true JP4448304B2 (ja) 2010-04-07

Family

ID=34452420

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003320477A Expired - Fee Related JP4448304B2 (ja) 2003-09-11 2003-09-11 顔検知装置

Country Status (1)

Country Link
JP (1) JP4448304B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010097619A (ja) * 2009-12-11 2010-04-30 Secom Co Ltd 顔検知装置

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4580307B2 (ja) * 2005-08-12 2010-11-10 富士フイルム株式会社 検出画像領域決定装置および対象画像の特徴量算出装置ならびにそれらの制御方法およびそれらの制御プログラム
JP4814616B2 (ja) * 2005-10-31 2011-11-16 富士通株式会社 パターン認識装置及びパターン認識プログラム
JP5171351B2 (ja) * 2008-03-31 2013-03-27 セコム株式会社 画像監視装置
JP5390943B2 (ja) * 2008-07-16 2014-01-15 キヤノン株式会社 画像処理装置及び画像処理方法
JP5339942B2 (ja) * 2009-01-30 2013-11-13 セコム株式会社 取引監視装置
JP5482080B2 (ja) * 2009-10-14 2014-04-23 富士通株式会社 手認識装置
JP5757708B2 (ja) * 2010-08-30 2015-07-29 セコム株式会社 通報装置
JP5611729B2 (ja) * 2010-08-30 2014-10-22 セコム株式会社 監視装置
JP5598182B2 (ja) * 2010-09-03 2014-10-01 富士ゼロックス株式会社 画像処理装置、及び、画像処理プログラム
JP5752976B2 (ja) * 2011-03-30 2015-07-22 セコム株式会社 画像監視装置
JP5752977B2 (ja) * 2011-03-30 2015-07-22 セコム株式会社 画像監視装置
JP5851108B2 (ja) * 2011-03-30 2016-02-03 セコム株式会社 画像監視装置
JP5752975B2 (ja) * 2011-03-30 2015-07-22 セコム株式会社 画像監視装置
US20140009588A1 (en) 2012-07-03 2014-01-09 Kabushiki Kaisha Toshiba Video display apparatus and video display method
TWI532620B (zh) * 2013-06-24 2016-05-11 Utechzone Co Ltd Vehicle occupancy number monitor and vehicle occupancy monitoring method and computer readable record media
JP6318535B2 (ja) * 2013-10-09 2018-05-09 株式会社ニコン 撮像装置
KR101652022B1 (ko) * 2014-09-03 2016-08-29 재단법인 실감교류인체감응솔루션연구단 이미지에서 제1 객체에 중첩된 제2 객체를 분리하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
JP6495705B2 (ja) 2015-03-23 2019-04-03 株式会社東芝 画像処理装置、画像処理方法、画像処理プログラムおよび画像処理システム
JP6686565B2 (ja) 2016-03-11 2020-04-22 富士ゼロックス株式会社 制御装置、処理装置及びプログラム
US20230013424A1 (en) * 2019-12-18 2023-01-19 Sony Semiconductor Solutions Corporation Information processing apparatus, information processing method, program, imaging apparatus, and imaging system
CN113191227B (zh) * 2021-04-20 2024-07-19 上海东普信息科技有限公司 柜门状态的检测方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010097619A (ja) * 2009-12-11 2010-04-30 Secom Co Ltd 顔検知装置

Also Published As

Publication number Publication date
JP2005092262A (ja) 2005-04-07

Similar Documents

Publication Publication Date Title
JP4448304B2 (ja) 顔検知装置
US9939909B2 (en) Gesture manipulation device and method, program, and recording medium
JP4825909B2 (ja) 顔検知装置
CN114842397B (zh) 一种基于异常检测的实时老人跌倒检测方法
US20060078224A1 (en) Image combination device, image combination method, image combination program, and recording medium containing the image combination program
US20090002509A1 (en) Digital camera and method of controlling same
JP5127531B2 (ja) 画像監視装置
US20120027305A1 (en) Apparatus to provide guide for augmented reality object recognition and method thereof
JPH11288459A (ja) 顔のような領域を検出する方法および装置、ならびに観察者トラッキングディスプレイ
JP3018914B2 (ja) 階調補正装置
JP2005157906A (ja) 物体検出装置、物体検知方法、およびコンピュータプログラム
US10013632B2 (en) Object tracking apparatus, control method therefor and storage medium
JP4412929B2 (ja) 顔検知装置
JP5510907B2 (ja) タッチ位置入力装置及びタッチ位置入力方法
CN111277751B (zh) 拍照方法、装置、存储介质及电子设备
CN112272292A (zh) 投影校正方法、装置和存储介质
JP2010186274A (ja) サングラス着用検出装置
CN110290349A (zh) 灯具及侦测使用者的坐姿状态的方法
CN111182208B (zh) 拍照方法、装置、存储介质及电子设备
JP2009123081A (ja) 顔検出方法及び撮影装置
JP4741019B2 (ja) インターホン装置
WO2022091577A1 (ja) 情報処理装置および情報処理方法
JP2011134117A (ja) 被写体領域抽出装置およびその制御方法、被写体追跡装置、並びにプログラム
JP2005025568A (ja) 頭部領域抽出装置
JP6971788B2 (ja) 画面表示制御方法および画面表示制御システム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060911

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060911

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100119

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100122

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130129

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4448304

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130129

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees