JP2008123400A - 画像認識装置、電子機器、画像認識方法、制御プログラム及び記録媒体 - Google Patents

画像認識装置、電子機器、画像認識方法、制御プログラム及び記録媒体 Download PDF

Info

Publication number
JP2008123400A
JP2008123400A JP2006308728A JP2006308728A JP2008123400A JP 2008123400 A JP2008123400 A JP 2008123400A JP 2006308728 A JP2006308728 A JP 2006308728A JP 2006308728 A JP2006308728 A JP 2006308728A JP 2008123400 A JP2008123400 A JP 2008123400A
Authority
JP
Japan
Prior art keywords
image
face
function
field
induction field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006308728A
Other languages
English (en)
Inventor
Michihiro Nagaishi
道博 長石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2006308728A priority Critical patent/JP2008123400A/ja
Publication of JP2008123400A publication Critical patent/JP2008123400A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】照明や色等の画像条件に左右されずに容易に画像をパターン認識可能な画像認識
装置、電子機器、画像認識方法、制御プログラム及び記録媒体を提供する。
【解決手段】画像の周囲に分布する「場」であって、その強さが画像からの距離に依存し
、画像に近いほど大きな値を持つ視覚の誘導場を求め、この誘導場から等ポテンシャル線
の閉曲面の複雑度を求め、この複雑度とポテンシャル値との対応関係である関数を、誘導
場の分布情報として取得し、この関数に基づいて画像をパターン認識するようにした。
【選択図】図9

Description

本発明は、画像をパターン認識する技術に関し、例えば、顔画像の認識に好適な画像認
識装置、電子機器、画像認識方法、制御プログラム及び記録媒体に関する。
従来、画像データをパターン認識する画像認識装置には、入力された画像の中に人物の
顔が含まれるか否かを判定するものものがある。この種の画像認識装置には、顔画像が肌
色であることを利用して顔画像か否かを判定する肌色利用方式(例えば、特許文献1乃至
3)と、顔部品を検出することによって顔画像か否かを判定する顔部品検出方式(例えば
、特許文献4乃至6)とを採用したものが知られている。
特開2006−107037号公報 特開2005−190435号公報 特開2004−206665号公報 特開2006−65640号公報 特開2006−146922号公報 特開2005−56124号公報
しかし、肌色利用方式は、照明、人種、撮像系の色空間の違い等により色合いが変わる
と、正しく判定できない場合が生じてしまう。このため、大まかに顔らしい領域を第1候
補として抽出できても、色情報だけでその領域が顔か否かを正確に判定するのは難しい場
合があった。
また、顔部品検出方式は、照明の影響や顔が横を向いているときに顔部品のエッジがそ
の影響を受けて安定的に顔部品を検出できない場合があり、顔か否かを判定できない場合
が生じてしまう。
以上のような問題があるため、実際には肌色利用方式と顔部品検出方式とを組み合わせ
たり、色々な条件を想定して顔判定の分岐条件を多数用意する等の工夫を施す必要があり
、システム構築作業が膨大になっている。
本発明は、上述した事情に鑑みてなされたものであり、照明や色等の画像条件に左右さ
れずに容易に画像をパターン認識可能な画像認識装置、電子機器、画像認識方法、制御プ
ログラム及び記録媒体を提供することにある。
上述課題を解決するため、本発明は、画像認識装置において、画像を入力する入力手段
と、前記画像の周囲に分布する「場」であって、その強さが画像からの距離に依存し、画
像に近いほど大きな値を持つ視覚の誘導場を求め、前記誘導場の分布情報に基づいて前記
画像をパターン認識するパターン認識手段とを備えることを特徴とする。この発明によれ
ば、画像の視覚の誘導場を求め、誘導場の分布情報に基づいて画像をパターン認識するの
で、我々の物の見方、感じ方に近い形でパターン認識することができ、かつ、認識対象の
画像か否かを定量的に判定することができ、照明や色等の画像条件に左右されずに容易に
パターン認識することができる。
上記構成において、
前記パターン認識手段は、前記画像の視覚の誘導場から等ポテンシャル線の閉曲面の複雑
度を求め、前記複雑度とポテンシャル値との対応関係である曲線情報を、前記誘導場の分
布情報として取得し、前記曲線情報に基づいて前記画像をパターン認識することが好まし
い。この構成によれば、複雑度とポテンシャル値との対応関係である曲線情報を、誘導場
の分布情報として取得するので、誘導場の分布を数値化した情報を容易に得ることができ
る。
また、上記構成において、前記パターン認識手段は、前記曲線情報を近似する関数を算
出する関数算出手段と、前記関数に基づいて前記画像が予め設定した認識対象物か否かを
判定する画像判定手段とを有することが好ましい。誘導場の分布情報である曲線情報を近
似する関数を算出するので、この関数に基づいて認識対象物か否かをより定量的に判定す
ることができる。
また、上記構成において、
前記関数算出手段は、顔画像の前記誘導場の分布情報を近似する顔画像用関数を算出し、
前記画像判定手段は、前記顔画像用関数による近似結果に基づいて顔画像か否かを判定
することが好ましい。この構成によれば、顔画像の誘導場の分布情報を近似する顔画像用
関数による近似結果に基づいて顔画像か否かを判定するので、顔画像か否かの判定精度の
向上を図ることができる。
この場合、前記顔画像用関数はシグモイド関数が好ましい。この構成によれば、顔画像
の視覚の誘導場の分布を示すのに好適なシグモイド関数で近似するので、顔画像か否かの
判定精度の向上を図ることができる。
さらに、前記シグモイド関数は、複雑度をC、ポテンシャル値をpとし、レンジをa、
オフセット値をb、パラメータをT、p0とした場合に、
Figure 2008123400
で定義されるシグモイド関数であり、前記画像判定手段は、前記シグモイド関数により
近似する際の誤差、若しくは、前記シグモイド関数のパラメータに基づいて顔画像か否か
を判定することが好ましい。この構成によれば、シグモイド関数により近似する際の誤差
、若しくは、シグモイド関数のパラメータに基づいて顔画像か否かを容易に判定すること
ができる。
また、上記構成において、前記画像判定手段は、前記シグモイド関数により近似する際
の誤差に基づいて顔画像か否かを判定する第1判定処理と、前記シグモイド関数のパラメ
ータの少なくともいずれかに基づいて顔画像か否かを判定する第2判定処理とを行い、前
記第1判定処理及び前記第2判定処理の判定結果に基づいて顔画像か否かを判定すること
が好ましい。この構成によれば、シグモイド関数により近似する際の誤差に基づいて顔画
像か否かを判定する第1判定処理と、近似したシグモイド関数のパラメータのいずれかに
基づいて顔画像か否かを判定する第2判定処理とを両方行うことによって、顔画像か否か
をより定量的に判定することが可能になる。
また、上記構成において、前記画像は二値画像であることが好ましい。この構成によれ
ば、多値画像をパターン認識する場合に比して計算量を低減することができ、パターン認
識の高速化を図ることができる。また、本発明は、画像認識装置を備える電子機器に広く
適用可能である。
また、本発明は、画像認識方法において、画像の周囲に分布する「場」であって、その
強さが画像からの距離に依存し、画像に近いほど大きな値を持つ視覚の誘導場を求め、前
記誘導場の分布情報に基づいて前記画像をパターン認識することを特徴とする。この発明
によれば、画像の視覚の誘導場を求め、誘導場の分布情報に基づいて画像をパターン認識
するので、我々の物の見方、感じ方に近い形でパターン認識することができ、かつ、認識
対象の画像か否かを定量的に判定することができ、照明や色等の画像条件に左右されずに
容易にパターン認識することができる。
また、本発明は、以上説明した画像認識装置、電子機器及び画像認識方法に適用する他
、この発明を実施するための制御プログラムを電気通信回線を介してダウンロード可能に
したり、そのようなプログラムを、磁気記録媒体、光記録媒体、半導体記録媒体といった
、コンピュータに読み取り可能な記録媒体に記憶して配布する、といった態様でも実施さ
れ得る。
本発明に係る画像認識装置、電子機器、画像認識方法、制御プログラム及び記録媒体に
よれば、画像の視覚の誘導場を求め、誘導場の分布情報に基づいて画像をパターン認識す
るので、照明や色等の画像条件に左右されずに容易にパターン認識することができる。
以下、図面を参照して本発明の実施形態を詳述する。本実施形態では、本発明を顔画像
をパターン認識する画像認識装置に適用した場合を例に説明する。この画像認識装置10
では、「視覚の誘導場」という概念を用いて画像を認識するため、まず、視覚の誘導場に
ついて説明する。
視覚の誘導場は、図形の周りに静電場のような場を仮定し、パターン認知などの視知覚
現象を説明する心理学的概念であり、横瀬善正著の“形の心理学”(名古屋大学出版会(
1986))に記載されている(以下、これを参考論文という)。
この参考論文では、視覚の誘導場(以下、単に誘導場と表記する)の分布の仕方が、例
えば、文字の類似性、錯視図形の解釈など、我々の物の見方、感じ方と関連するとしてい
る。この参考論文では、直線・円弧で構成された図形を対象としているため、任意のディ
ジタル画像の誘導場は求められない。ここでは、最初に白黒2値のディジタル画像(以下
、二値画像という)における誘導場の計算方法を示す。
誘導場は基本的にクーロンポテンシャルと解釈できることから、パターンの外郭を構成
する画素を点電荷と仮定し、それらが作るクーロンポテンシャルの集積から、ディジタル
画像における誘導場の分布を計算する。
図1はディジタル画像の画素配列を示す図である。図1に示すように、n個の点列から
構成される曲線f(s)によって、任意の点Pに誘導場が形成されるとする。この曲線f
(s)は線図形の線分や画図形の輪郭線に相当する。そして、曲線f(s)を構成する各
点p1,p2,・・・,pi,・・・,pnを正電荷1の点電荷と仮定し、点Pから曲線
f(s)上を走査して、曲線f(s)を構成するn個の点p1,p2,・・・,pi,・
・・,pnが見つかり、走査して見つかった曲線f(s)上の各点までの距離をriとす
ると、点Pにおける誘導場の強さMpは次のように定義される。
Figure 2008123400
この式(2)を用いることにより、任意のディジタル画像の誘導場を求めることができ
る。また、曲線が複数ある場合、点Pにおける誘導場の強さは個々の曲線が点Pにつくる
誘導場の和になる。なお、式(2)は点Pから発した光が直接当たる部分のみ和をとると
いう制約条件がつく。例えば、点Pに対して、曲線f1(s),f2(s),f3(s)
が図2に示すように存在しているとすると、点Pから見えない部分、つまり、この場合、
曲線f1(s)に遮蔽されて点Pから見えない範囲Zに存在する部分の和はとらない。こ
の図2の例では、曲線f3(s)のすべてと曲線f2(s)の一部の和はとらないことに
なる。これを、ここでは遮蔽条件という。
図3(A)は「A」という文字について、画素全てを電荷1の点電荷と仮定し、前述の
式(1)で計算した誘導場の例を示すものである。図3(A)の文字「A」周辺に地図の
等高線状に分布している細い線が誘導場における等ポテンシャル値を結んで描かれる等ポ
テンシャル線であり、中央から外に行くほど誘導場の強さ(ポテンシャル値)は弱くなり
、やがて0(零)に近づく。
図3(A)の誘導場の分布の形状・強さにおける特徴、特に「A」の頂点付近の分布が
他より鋭角な特徴は、前述の参考論文による四角形や三角形など、図形の角付近に関する
誘導場の分布の心理実験結果と一致する。
また、図3(B)は、前述した遮蔽条件(任意の点Pから見えない範囲Zに存在する部
分の和はとらない)がなく、画素全てを電荷1の点電荷と仮定した誘導場の例であるが、
誘導場の分布は全体的に丸くなり、前述の参考論文による心理実験結果と異なったものと
なる。このように、遮蔽条件は誘導場を特徴づける上で重要なものとなる。
このようにして、ある図形についての視覚の誘導場を得ることができる。なお、このよ
うな視覚の誘導場を用いた技術の例としては、例えば、「長石道博:“視覚の誘導場を用
いた読みやすい和文プロポーショナル表示”、映像メディア学会誌、Vol.52,No
.12,pp.1865−1872(1998」(以下、第1の論文という)や、「三好
正純、下塩義文、古賀広昭、井手口健:“視覚の誘導場理論を用いた感性にもとづく文字
配置の設計”、電子情報通信学会論文誌、82−A,9,1465−1473(1999
)」(以下、第2の論文という)がある。ちなみに、上述の第1の論文の著者は本発明の
発明者である。
本実施形態では、このような視覚の誘導場を利用することによって、今まで人間の直感
や手作業に頼っていた画像の感性評価が可能となり、より具体的には、視覚の誘導場の分
布を評価することで、照明や色等の画像条件に左右されにくい顔領域の検出の自動化を図
るものである。
詳述すると、本実施形態では、パターン認識対象の画像(以下、対象画像という。)の
誘導場から等ポテンシャル線の閉曲面の凹凸の度合いを示す複雑度を求める。この複雑度
は、等ポテンシャル値がiの閉曲線の複雑度をCiで表せば、次式(3)で求められる。
Figure 2008123400
ここで、Liは、等ポテンシャル値iの等ポテンシャル面の周囲長であり、Siは面積
である。なお、周囲長Liは、等ポテンシャル面の輪郭を構成するドット数と考えること
ができ、面積Siは、等ポテンシャル面に存在するドット数と考えることができる。
この式(3)によれば、周囲長Liが長く、面積Siが小さいほど、複雑度Ciの値が
大きくなり、つまり、等ポテンシャル線の凹凸が多い程、複雑度Ciの値が大きくなる。
そして、複雑度Ciと等ポテンシャル値i(以下、等ポテンシャル値iに限定されない
ポテンシャル値をpと表記する)とをグラフにして特性曲線を示すことによって、「対象
画像の視覚の誘導場の分布」、つまり、誘導場の分布情報を図表化することができる。
顔画像の場合、「顔画像の視覚の誘導場の分布」(分布情報)である特性曲線は、おお
よそ単調増加関数になり、この関数、すなわち、「顔画像の視覚の誘導場の分布」を示す
曲線は、シグモイド関数で近似することができる。
図4は、シグモイド関数の一例を示している。シグモイド関数は、特に、同図に符号α
で示す立ち上がり部分に特徴があり、この立ち上がり部分を含めたほぼ全体が、顔画像の
場合の複雑度Cとポテンシャル値pとの対応関係を示す特性曲線の傾向と良く似ている。
このため、本実施形態では、複雑度Cとポテンシャル値pとの対応関係である曲線情報
として、つまり、「顔画像の視覚の誘導場の分布」(分布情報)としてシグモイド関数を
得ることによって、「顔画像の視覚の誘導場の分布」を数値化した情報を容易に得ること
ができる。また、本実施形態では、「対象画像の視覚の誘導場の分布」をシグモイド関数
で近似し、この近似結果と照らし合わせることで、対象画像に顔画像があるかどうかを誘
導場の分布から容易に推定することが可能になる。
次に、「顔以外の画像の視覚の誘導場の分布」について説明する。
図5(A)(B)(C)は、顔以外の画像の誘導場における複雑度Cとポテンシャル値
pとの対応関係をそれぞれ示している。詳述すると、図5(A)は、形に意味のない図形
(図中右側に一例を示す)の場合を示しており、この場合の「視覚の誘導場の分布」は、
より具体的には、複雑度Cとポテンシャル値pとの対応関係を示す特性曲線は、やや傾き
の強い単調増加曲線になる。
また、図5(B)は、角張った図形の場合を示しており、この場合の「視覚の誘導場の
分布」は、ステップ状の形状になる。これは角や線分の先端で誘導場の分布が急激に変化
するため、その周辺の等ポテンシャル面の形状が複雑になるためである。
また、図5(C)は、文字(例えば、アルファベット小文字のa,b,c,d)の場合
を示しており、この場合の「視覚の誘導場の分布」は、立ち上がった後にやや平坦な部分
が続く単調増加曲線になる。
このように、「顔以外の画像の視覚の誘導場の分布」は、シグモイド関数で近似するこ
とが困難であり、シグモイド関数で近似した場合、近似誤差が極めて大きいものになる。
また、「顔画像の視覚の誘導場の分布」を示すシグモイド関数と比較すれば、シグモイド
関数のパラメータ(レンジa,オフセット値b,パラメータp0,T)についても異なる
ことが明らかである。
次に、顔画像のシグモイド関数の具体的な算出方法について説明する。
対象画像となる顔画像の二値画像のデータは、元画像となる撮影時の画像データ(カラ
ー画像又はグレースケール画像等の複数色、複数階調を有する画像)に対し、エッジを取
り出して、各画素を白と黒とに二値化した二値化画像のデータが使用される。
図6(A)(B)は、元画像を異なるしきい値で二値化した顔画像を示している。具体
的には、上記二値化の際には、顔の眼、鼻、口等の主要な顔部品が欠落しない程度のしき
い値に設定され、図6(B)に示すように、主要な顔部品を除く部分ができるだけ除去さ
れた二値画像に変換することが好ましい。この二値化画像は更にノイズ除去処理と孤立点
の除去処理とが施され、最終的に、図6(C)に示すように、眉、眼、鼻、口だけが抽出
された二値画像に変換される。なお、二値画像は、眼と鼻と口だけが判別可能な画像であ
ってもよい。これによって、主要な顔部品を抽出した二値画像を得ている。
この二値画像(顔画像)のシグモイド関数を計算するには、前述したように誘導場を計
算し、等ポテンシャル値i毎に複雑度Ciを求め、これら複雑度Cとポテンシャル値pの
関係を最小二乗法を用いて、次式(4)で示すシグモイド曲線で近似することによって得
られる。
Figure 2008123400
ここで、aはレンジであり、p0及びTはパラメータであり、bはオフセット値である
このようにして得られた顔画像のシグモイド関数の一例を図7に示す。この図7におい
て、曲線g1(p)は、眉、眼、鼻、口が精度良く抽出された顔画像(完全に近い顔画像
(図7の右側に簡略的に示す))の典型的なシグモイド関数を示しており、上述のパラメ
ータTが0.04近辺の値となり、上述のレンジaが200〜300以上の値となる。
また、曲線g2(p)は、一部の顔部品がうまく抽出できなかった顔画像(一部不完全
な顔画像)のシグモイド関数例を示しており、一部の顔部品が不完全になると、シグモイ
ド関数が少し崩れるものの、この場合も、パラメータTが0.04近辺の値となり、レン
ジaが200〜300以上の値となる。
また、曲線g3(p)は、眼や口等が点や線となった顔画像、つまり、顔なのか単なる
点や線なのかが不明な画像(不完全な顔画像)のシグモイド関数例を示している。この場
合、シグモイド関数で近似した際の近似誤差が大きいものとなり、シグモイド関数で近似
した場合でも、その係数やパラメータは曲線g1(p)や曲線g2(p)の場合と比較し
て著しく異なるものとなる。
このように、顔らしいほど、「完全に近い顔画像」のシグモイド関数の係数やパラメー
タとほぼ同じ値に近づき、顔らしくないほど、シグモイド関数の近似誤差が大きくなると
共に、「完全に近い顔画像」のシグモイド関数の係数やパラメータと大きく異なる値とな
る。すなわち、シグモイド関数の近似誤差によって顔がどうかを判断することができ、さ
らに、係数やパラメータでどのくらい顔らしいかを判別することが可能である。
図8は、本実施形態に係る画像認識装置10の機能構成を示すブロック図である。この
画像認識装置10は、電子化された画像の誘導場を計算し、誘導場の分布に基づいて顔画
像があるかどうかを判定し、その結果を表示する装置である。
詳述すると、この画像認識装置10は、判定対象となる電子化された画像を入力する顔
画像入力部(入力手段)11と、この顔画像入力部11に入力された画像から判定領域を
抽出する領域分離部(領域分離手段)12と、領域分離部12で抽出された判定領域をパ
ターン認識するパターン認識部(パターン認識手段)13と、パターン認識部13の認識
結果を表示する表示部(出力手段)14とを備えている。
顔画像入力部11は、複数色及び複数階調の画像(以下、多値画像という)を入力し、
顔の眼、鼻、口等の主要な顔部品が欠落しない程度のしきい値で二値化する前述の二値化
処理等を施して二値画像に変換するものである。この顔画像入力部11への画像の入力方
法は、無線又は有線による通信で入力してもよいし、記録媒体に記録された画像データを
読み取って入力してもよい。また、この顔画像入力部11が、撮影機能を有し、撮影によ
り得た画像データを直接入力するものであってもよい。
なお、顔画像入力部11が、顔の眼、鼻、口等の主要な顔部品が欠落しない程度のしき
い値で二値化された二値画像を直接入力するものであってもよい。
領域分離部12は、入力した画像の領域を、色の分布やエッジなどを基準に、顔がある
らしい一又は複数の領域を抽出する前処理を行うものであり、例えば、顔の肌色として頻
度の高い色のある領域を判定領域として抽出する。なお、入力した画像の領域全てを判定
領域にすると、後述する誘導場の計算が膨大になってしまうが、本実施形態では、色やエ
ッジの情報に基づいて顔があるらしい領域を絞るので、後述する誘導場の計算量を低減す
ることが可能である。
パターン認識部13は、誘導場計算部(計算手段)21と、誘導場分布評価部22と、
判定部(判定手段)23とを備えている。誘導場計算部21は、領域分離部12で抽出さ
れた判定領域毎に誘導場を計算するものである。
誘導場分布評価部22は、誘導場計算部21で計算された誘導場毎に、「視覚の誘導場
の分布」を評価するものである。具体的には、この誘導場分布評価部22は、視覚の誘導
場毎に、式(3)により等ポテンシャル値i毎に複雑度Ciを求め、複雑度Cとポテンシ
ャル値pの関係を近似するシグモイド関数をそれぞれ計算により求める。これによって、
誘導場分布評価部22は、「視覚の誘導場の分布」を示すシグモイド関数(顔画像用関数
)を算出する関数算出手段として機能する。
判定部23は、誘導場計算部21で計算された各シグモイド関数、つまり、「視覚の誘
導場の分布」を評価して、認識対象の顔画像か否かを判定する画像判定手段として機能す
る。なお、この判定内容の詳細は、後述の処理フローで説明する。
このように、パターン認識部13を構成する誘導場計算部21、誘導場分布評価部22
及び判定部23は、上述した演算処理を行う演算部で構成することができる。このため、
実際には、パターン認識部13の各部は、上記演算処理をハードウェア処理で行う一又は
複数の半導体集積回路で構成してもよいし、若しくは、ソフトウェア処理で行うCPUや
ROMやRAMといった汎用のコンピュータで構成してもよいし、又は、視覚の誘導場の
計算処理等の比較的重い演算処理はハードウェア処理で行い、顔画像か否か等の比較的軽
い演算処理はソフトウェア処理で行うように構成してもよい。
次に、画像認識装置10の処理フローを図9に示すフローチャートを参照しながら説明
する。ここでは、領域分離部12で抽出された一部の画像領域についてパターン認識する
場合を詳述する。まず、入力した二値画像の一部の画像について、誘導場計算部21によ
り誘導場が計算されると(ステップS1)、誘導場分布評価部22は、計算された誘導場
の等ポテンシャル面毎の複雑度Cを計算する処理を開始する。
ここで、上述した式(2)に定めた誘導場の計算定義式は、最小の画素距離が1の場合
、場の強さは0(零)から1の範囲となる。複雑度Cを計算するポテンシャル値pの範囲
は、多いほど後のシグモイド関数の近似精度が高まるが、計算時間の短縮化の観点から、
顔領域を決定するのに有益な最小限の範囲に留めることが好ましい。
そこで、本実施形態では、複雑度Cの計算に際し、ポテンシャル値pは、0(零)以上
、かつ、1未満の区間で適当な範囲、例えば、ポテンシャル値pの最小値p1を0.03
とし、最大値pmaxを0.4とし、分解能の値Δpを0.01ステップとすることによ
って計算量を低減している。
具体的には、誘導場分布評価部22は、まず、ポテンシャル値pを最小値p1に設定し
(ステップS2)、このポテンシャル値p(=p1)の等ポテンシャル面を抽出し(ステ
ップS3)、等ポテンシャル値i(=p1)の閉曲面の周囲長Li及び面積Siを求め、
式(3)により複雑度Ciを計算する(ステップS4)。
続いて、誘導場分布評価部22は、ポテンシャル値pが最大値pmax未満であれば(
ステップS5:YES)、ポテンシャル値pに分解能の値Δpを加算し(ステップS6)
、上述したステップS3の等ポテンシャル面の抽出処理と、ステップS4の複雑度Cの計
算処理とを繰り返すことにより、ポテンシャル値pが最小値p1から最大値pmaxの範
囲で分解能Δp単位で複雑度Cを計算する。
そして、ポテンシャル値pが最大値pmaxに達すると(ステップS5:NO)、誘導
場分布評価部22は、得られた複数の複雑度Cと、各複雑度Cに対応するポテンシャル値
pとから、最小二乗法を用いて式(4)で示すシグモイド関数を決めるパラメータ(レン
ジa、オフセット値b、パラメータp0、T)を各々決定し、近似するシグモイド関数を
求める(ステップS7)。このステップS7の処理の際には、理論値からの誤差(残差)
の平方和を計算することにより、誤差の分散、つまり、近似誤差が求められる。
この場合、近似誤差が、顔らしい画像か否かを示す情報に相当する。このため、近似誤
差が大きく、つまり、関数の相関が非常に低く、シグモイド関数で近似するのが困難な場
合は、対象が顔でない、或いは、非常に画像が劣化して顔画像と認識できない状態と考え
られる。
例えば、近似誤差が、「顔画像の視覚の誘導場の分布」を実験的にシグモイド関数で近
似した場合に得られた近似誤差((以下、「顔画像の近似誤差」)の範囲内にあれば、或
いは、「顔以外の画像の視覚の誘導場の分布」を実験的にシグモイド関数で近似した場合
に得られた近似誤差(以下、「非顔画像の近似誤差」という)の下限値より低い範囲内に
あれば、顔らしい画像と判断することができ、上記条件を満たさない場合、顔らしい画像
でないと判断することができる。なお、具体的な近似誤差の閾値は、実サンプルを使って
実験的に決定すればよい。
また、近似したシグモイド関数のパラメータ(レンジa、オフセット値b、パラメータ
p0、T)と、「顔画像の視覚の誘導場の分布」を示すシグモイド関数のパラメータとの
ずれ量が、顔らしさの確度を示す情報に相当する。このため、例えば、近似したシグモイ
ド関数のパラメータTが0.04近辺の値であり、かつ、レンジaが200〜300以上
の値であれば、顔の確度が高いと判断することができ、この条件を満たさない場合、顔の
確度が低いと判断することができる。
従って、顔に当たる照明の関係で、例えば、口に影ができてやや不鮮明でも、一応シグ
モイド関数で近似されて顔と判別できるが、不鮮明なためにパラメータ(パラメータTや
レンジa)がずれるので、これは不鮮明な顔画像であると推定することができる。
判定部23は、前述のようにシグモイド関数の近似誤差に基づいて顔画像か否かを判定
し(ステップS8)、この判定結果を表示部14に表示することにより顔画像か否かを使
用者に通知することができる。
また、判定部23は、シグモイド関数の近似誤差に基づいて顔画像か否かを判定する前
述の判定処理(第1判定処理という)と、近似したシグモイド関数のパラメータに基づい
て顔画像か否かを判定する第2判定処理とを両方行うことによって、顔画像か否かをより
定量的に判定することができる。
この場合、判定部23は、第1判定処理にて顔画像でないと判定したときは、顔画像で
ない旨の判定結果を出力し、第1判定処理にて顔画像であると判定したときだけ第2判定
処理を実行することにより、第2判定処理で顔の確度が高いと判定したときは顔の確度が
高い旨の判定結果を出力する。一方、判定部23は、第2判定処理で顔の確度が低いと判
定したときは、顔らしい画像ではあるが顔でない可能性があるといったような中間的な判
定結果を出力することができる。このように、顔画像か否かを定量的に判断することがで
きるので、顔画像の可能性がやや低い場合(前述の中間的な判定結果の場合)には、表示
部14に、顔らしさがやや怪しい領域である旨のメッセージやその旨の画像を表示する等
の処理を行うことで、使用者に注意や確認を促すこともできる。
以上説明したように、本実施形態によれば、パターン認識対象の画像の視覚の誘導場を
求め、この誘導場の分布情報をシグモイド関数で近似し、この近似結果に基づいて顔画像
か否かを判定するので、画像を直接パターン認識するものに比して、我々の物の見方、感
じ方に近い形で顔画像か否かをパターン認識することが可能になり、しかも、顔画像か否
かを定量的に判定することが可能になる。
このため、従来の肌色利用方式や顔部品検出方式のみを適用するものに比して、照明、
人種、個人差、撮像系の色空間の違い等の画像条件の影響を推定することができ、色々な
条件を想定して顔判定の分岐条件を多数用意しなくても、画像条件に左右されにくい判定
結果を得ることができ、システム構築作業も簡易で済む。
従って、パターン認識に要する計算量を低減してパターン認識の高速化を図ることがで
きると共に、パターン認識に要する識別用辞書についても、「顔画像の視覚の誘導場の分
布」を示すシグモイド関数の情報で済むので、識別用辞書の簡略化も可能になる。
また、顔画像の視覚の誘導場の分布情報を示すのに好適なシグモイド関数で近似するの
で、顔画像か否かの判定精度の向上を図ることができる。
さらに、シグモイド関数の近似誤差に基づいて顔画像か否かを判定する第1判定処理と
、近似したシグモイド関数のパラメータに基づいて顔画像か否かを判定する第2判定処理
とを両方行うことによって、顔画像か否かをより定量的に判定することが可能になる。
なお、本発明は上述の実施形態に限定されるものではなく、本発明の目的を達成できる
範囲での変形、改良などは本発明に含まれるものである。例えば、上述の実施形態では、
本発明を、二値画像から顔画像をパターン認識する場合に適用する場合を説明したが、こ
れに限らず、多値画像から顔画像をパターン認識する場合にも適用可能である。
以下、多値画像から顔画像をパターン認識する場合を説明する。一般にディジタル機器
は基本的な色としてR(赤)・G(緑)・B(青)を採用しているものが多いので、色は
これのRGBの組み合わせで表現されるものとする。なお、RGBはそれぞれが0から2
55まで変化するものとし、これらの組み合わせで色を表現するものとする。ちなみに、
黒はR=G=B=255の組み合わせ、白はR=G=B=0の組み合わせであり、それら
の中間の値を有するR=G=Bの組み合わせは無彩色(グレー)である。このように、R
GBにより色だけではなく階調も表現することができる。
この場合、特開2004−171115号公報(以下、これを参考技術文献という)の
技術を適用して以下のように計算される。詳述すると、図1において、各点p1,p2,
・・・,pi,・・・,pnの電荷はR,G,Bの階調(例えば、0から255)の影響
を受けるため、各電荷をQiとすると、点Pにおける誘導場の強さMpは式(5)のよう
に定義される。
Figure 2008123400
ここで、Qi(R,G,B)は、RGBそれぞれの独立の関数(Qi(R),Qi(G
),Qi(B))の線形結合であり、二値画像の場合、Qi(R=0,G=0,B=0)
=1であり、多値画像の場合、Qi(R,G,B)は1よりも大(Qi>1)となる。こ
れらQi(R),Qi(G),Qi(B)は、前述の参考技術文献によれば、階調(濃度
)が大きくなってある値に達すると飽和するほぼS字カーブを描く曲線となり、また、階
調(濃度)の変化に対してR(赤)が最も敏感であり、続いてB(青)、G(緑)の順と
なることが知られている。
これは、例えば、交通標識などにおいては注意を促す表示を行う際、色としては赤、青
の順で用いられ、緑はあまり用いられないことが多いことと一致している。このような注
意を促す度合いの大きさは誘導場の強さやエネルギであると考えられるが、それを根拠に
すると、Qiの色による変化の違いは、上述の交通標識の事例と一致している。したがっ
て、この式(5)で用いられるQiを得るための関数は心理実験などによって決定するこ
とができる。
従って、式(5)を用いることにより、多値画像の誘導場を計算することができる。そ
して、この誘導場が決まれば、上述の実施形態とほぼ同様の処理で、複雑度Cを計算し、
得られた複数の複雑度Cとポテンシャル値pとの対応関係をシグモイド関数で近似し、近
似誤差やパラメータ(レンジa、オフセット値b、パラメータp0、T)に基づいて顔画
像か否かを判定することができる。
このように、多値画像から顔画像をパターン認識する場合は、多値画像から二値画像に
変換する必要がないため、かかる変換時の情報落ちがない分、判定精度を向上させること
ができる。
但し、多値画像から顔画像をパターン認識する場合は、計算量が増えて計算時間が長く
なってしまう。このため、判定速度(例えば、顔画像の領域特定の速度)を優先する場合
は、二値画像から顔画像をパターン認識し、判定精度を優先する場合は、多値画像から顔
画像をパターン認識するというように、いずれのパターン認識を行うかを選択可能にして
もよい。
また、上述の実施形態では、顔画像の視覚の誘導場の分布を示す顔画像用関数として、
シグモイド関数を用いる場合について説明したが、これに限らず、顔画像の視覚の誘導場
の分布を表現可能な他の関数を適用してもよい。
また、上述の実施形態では、本発明を顔画像をパターン認識する画像認識装置に適用す
る場合について説明したが、これに限らず、顔画像以外のパターン認識を行う画像認識装
置に広く適用することができる。この場合、顔画像以外の対象物に対し、事前にその対象
物の複雑度Cとポテンシャル値pとの対応関係を示す曲線情報、例えば、「対象物の視覚
の誘導場」を示す対象物用の関数を予め算出しておき、認識対象の画像の視覚の誘導場の
分布を、その対象物用関数で近似することによって、顔画像以外の対象物をパターン認識
することが可能である。
また、本発明は、以上説明した本発明を実施するための処理手順が記述された制御プロ
グラムを作成し、この制御プログラムを電気通信回線を介してダウンロード可能にしたり
、そのようなプログラムを、磁気記録媒体、光記録媒体、半導体記録媒体といった、コン
ピュータに読み取り可能な記録媒体に記憶して配布する、といった態様でも実施され可能
である。
なお、本実施形態に係る画像認識装置をカメラ、スキャナ、プロジェクタ、テレビ、プ
リンタ等のあらゆる電子機器が備える形態で実施することも可能である。例えば、上述し
た画像認識装置を備えるカメラは、撮影対象の顔を認識し、カメラのピントや露出を自動
設定することが可能となる。また、上述した画像認識装置を備えるプリンタは、印刷対象
画像に含まれる顔画像を認識し、認識した顔画像に対して肌色補正を施すといったことが
可能となる。
視覚の誘導場を説明するためのディジタル画像の画素配列を示す図である。 視覚の誘導場の強さを求める際の遮蔽条件を説明する図である。 (A)は文字「A」の視覚の誘導場を遮蔽条件を考慮して求めた場合を示す図であり、(B)は視覚の誘導場を遮蔽条件を考慮せずに求めた場合を示す図である。 シグモイド関数の一例を示す図である。 (A)は形に意味のない図形の視覚の誘導場を示す図であり、(B)は角張った図形の視覚の誘導場を示す図であり、(C)は文字の視覚の誘導場を示す図である。 (A)は主要な顔部品を除く部分があまり除去されていない顔の二値画像を示す図であり、(B)は主要な顔部品を除く部分ができるだけ除去された顔の二値画像を示す図であり、(C)は(B)の図から主要な顔部品を抽出した二値画像を示す図である。 顔画像のシグモイド関数の一例を示す図である。 本実施形態に係る画像認識装置の機能構成を示すブロック図である。 画像認識装置の処理フローを示すフローチャートである。
符号の説明
10…画像認識装置、11…顔画像入力部(入力手段)、12…領域分離部(領域分離
手段)、13…パターン認識部(パターン認識手段)、14…表示部(出力手段)、21
…誘導場計算部(計算手段)、22…誘導場分布評価部(関数算出手段)、23…判定部
(判定手段)。

Claims (12)

  1. 画像を入力する入力手段と、
    前記画像の周囲に分布する「場」であって、その強さが画像からの距離に依存し、画像
    に近いほど大きな値を持つ視覚の誘導場を求め、前記誘導場の分布情報に基づいて前記画
    像をパターン認識するパターン認識手段と
    を備えることを特徴とする画像認識装置。
  2. 請求項1に記載の画像認識装置において、
    前記パターン認識手段は、前記画像の視覚の誘導場から等ポテンシャル線の閉曲面の複
    雑度を求め、前記複雑度とポテンシャル値との対応関係である曲線情報を、前記誘導場の
    分布情報として取得し、前記曲線情報に基づいて前記画像をパターン認識することを特徴
    とする画像認識装置。
  3. 請求項2に記載の画像認識装置において、
    前記パターン認識手段は、
    前記曲線情報を近似する関数を算出する関数算出手段と、
    前記関数に基づいて前記画像が予め設定した認識対象物か否かを判定する画像判定手段
    とを有することを特徴とする画像認識装置。
  4. 請求項3に記載の画像認識装置において、
    前記関数算出手段は、顔画像の前記誘導場の分布情報を近似する顔画像用関数を算出し

    前記画像判定手段は、前記顔画像用関数による近似結果に基づいて顔画像か否かを判定
    することを特徴とする画像認識装置。
  5. 請求項4に記載の画像認識装置において、
    前記顔画像用関数は、シグモイド関数であることを特徴とする画像認識装置。
  6. 請求項5に記載の画像認識装置において、
    前記シグモイド関数は、複雑度をC、ポテンシャル値をpとし、レンジをa、オフセッ
    ト値をb、パラメータをT、p0とした場合に、
    Figure 2008123400
    で定義されるシグモイド関数であり、
    前記画像判定手段は、前記シグモイド関数により近似する際の誤差、若しくは、前記シ
    グモイド関数のパラメータに基づいて顔画像か否かを判定することを特徴とする画像認識
    装置。
  7. 請求項6に記載の画像認識装置において、
    前記画像判定手段は、前記シグモイド関数により近似する際の誤差に基づいて顔画像か
    否かを判定する第1判定処理と、前記シグモイド関数のパラメータの少なくともいずれか
    に基づいて顔画像か否かを判定する第2判定処理とを行い、前記第1判定処理及び前記第
    2判定処理の判定結果に基づいて顔画像か否かを判定することを特徴とする画像認識装置
  8. 請求項1乃至7のいずれかに記載の画像認識装置において、
    前記画像は二値画像であることを特徴とする画像認識装置。
  9. 請求項1に記載の画像認識装置を備えることを特徴とする電子機器。
  10. 画像の周囲に分布する「場」であって、その強さが画像からの距離に依存し、画像に近
    いほど大きな値を持つ視覚の誘導場を求め、前記誘導場の分布情報に基づいて前記画像を
    パターン認識することを特徴とする画像認識方法。
  11. コンピュータを、
    画像を入力する入力手段と、
    前記画像の周囲に分布する「場」であって、その強さが画像からの距離に依存し、画像
    に近いほど大きな値を持つ視覚の誘導場を求め、前記誘導場の分布情報に基づいて前記画
    像をパターン認識するパターン認識手段として機能させるための制御プログラム。
  12. コンピュータを、
    画像を入力する入力手段と、
    前記画像の周囲に分布する「場」であって、その強さが画像からの距離に依存し、画像
    に近いほど大きな値を持つ視覚の誘導場を求め、前記誘導場の分布情報に基づいて前記画
    像をパターン認識するパターン認識手段として機能させるための制御プログラムが記録さ
    れたコンピュータ読み取り可能な記録媒体。
JP2006308728A 2006-11-15 2006-11-15 画像認識装置、電子機器、画像認識方法、制御プログラム及び記録媒体 Withdrawn JP2008123400A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006308728A JP2008123400A (ja) 2006-11-15 2006-11-15 画像認識装置、電子機器、画像認識方法、制御プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006308728A JP2008123400A (ja) 2006-11-15 2006-11-15 画像認識装置、電子機器、画像認識方法、制御プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2008123400A true JP2008123400A (ja) 2008-05-29

Family

ID=39508068

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006308728A Withdrawn JP2008123400A (ja) 2006-11-15 2006-11-15 画像認識装置、電子機器、画像認識方法、制御プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2008123400A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107263468A (zh) * 2017-05-23 2017-10-20 陕西科技大学 一种利用数字图像处理技术的scara机器人装配方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107263468A (zh) * 2017-05-23 2017-10-20 陕西科技大学 一种利用数字图像处理技术的scara机器人装配方法
CN107263468B (zh) * 2017-05-23 2020-08-11 陕西科技大学 一种利用数字图像处理技术的scara机器人装配方法

Similar Documents

Publication Publication Date Title
US6389155B2 (en) Image processing apparatus
US8331670B2 (en) Method of detection document alteration by comparing characters using shape features of characters
JP6493991B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP4825473B2 (ja) 顔向き判別装置
JP2009211179A (ja) 画像処理方法、パターン検出方法、パターン認識方法及び画像処理装置
EP2104059B1 (en) Apparatus and method for processing image
JP2009535899A (ja) 走査されたカラー画像からの複調画像の生成
CN103530625A (zh) 一种基于数字图像处理的光学字符识别方法
US10348932B2 (en) Image processing apparatus, method of controlling the same, and non-transitory computer-readable storage medium that decrease the lightness of pixels, except for a highlight region, based on a generated lightness histogram
KR101557271B1 (ko) 영상 내 원 형상 검출에 따른 검출 원 형상의 근사화 방법
JP2007188407A (ja) 画像処理装置及び画像処理プログラム
KR101408344B1 (ko) 얼굴 검출 장치
JP2008123399A (ja) 感情認識装置、電子機器、感情認識方法、制御プログラム及び記録媒体
JP2008123400A (ja) 画像認識装置、電子機器、画像認識方法、制御プログラム及び記録媒体
JPH11306325A (ja) 対象物検出装置及び対象物検出方法
CN107316281B (zh) 图像处理方法、装置和终端设备
JP2015176252A (ja) 画像処理装置および画像処理方法
JP2009258770A (ja) 画像処理方法、画像処理装置、画像処理プログラム、撮像装置
JP2005184787A (ja) 画像処理方法及び画像処理装置
JP2005165983A (ja) 人物顔のあご検出方法及びあご検出システム並びにあご検出プログラム
JP2014225753A (ja) マーカ検出装置、マーカ検出方法、及びプログラム
RU2520407C1 (ru) Способ и система улучшения текста при цифровом копировании печатных документов
JP2004180000A (ja) 画像の2値化装置および方法
JP5172995B2 (ja) 顔向き判別装置およびコンピュータプログラム
JP6303458B2 (ja) 画像処理装置及び画像処理方法

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100202