JP2018106720A - 画像処理装置及びその方法 - Google Patents
画像処理装置及びその方法 Download PDFInfo
- Publication number
- JP2018106720A JP2018106720A JP2017251720A JP2017251720A JP2018106720A JP 2018106720 A JP2018106720 A JP 2018106720A JP 2017251720 A JP2017251720 A JP 2017251720A JP 2017251720 A JP2017251720 A JP 2017251720A JP 2018106720 A JP2018106720 A JP 2018106720A
- Authority
- JP
- Japan
- Prior art keywords
- image
- image processing
- processing apparatus
- face
- wavelength band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/12—Details of acquisition arrangements; Constructional details thereof
- G06V10/14—Optical characteristics of the device performing the acquisition or on the illumination arrangements
- G06V10/143—Sensing or illuminating at different wavelengths
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/12—Details of acquisition arrangements; Constructional details thereof
- G06V10/14—Optical characteristics of the device performing the acquisition or on the illumination arrangements
- G06V10/147—Details of sensors, e.g. sensor lenses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/467—Encoded features or binary features, e.g. local binary patterns [LBP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Vascular Medicine (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Image Input (AREA)
- Image Analysis (AREA)
- Collating Specific Patterns (AREA)
Abstract
【課題】 物体の属するクラスを精度よく識別する。【解決手段】 画像処理装置に、対象とする物体の表面に存在する複数の物質のうち特定の物質と他の物質とで分光透過率の異なる所定の波長帯の信号で当該物体を撮像する撮像手段と、前記撮像手段で撮像された画像に基づいて前記物体の表面における前記特定の物質の分布状態を判定する判定手段と、前記特定の物質の分布状態に基づいて前記物体の属するクラスを識別する識別手段とを備える。【選択図】 図1
Description
本発明は、撮影された画像データ内に写るオブジェクトの画像から、そのオブジェクトが属するカテゴリを判定する技術に関するものである。
撮影された画像データ内に写るオブジェクトの画像を高度に処理して有用な情報を抽出する技術が多く提案されており、その中でも人間の顔画像を認識して、顔に関する様々な情報を判定する顔認識と呼ばれる技術がある。顔認識の例として、顔から人物の性別・年齢・人種を推定するものや、表情を推定する技術がある。例えば性別推定では、男女の顔のテンプレートを予め用意しておき、認識すべき顔がそのどちらに似ているかで性別を判定する。
また顔認識の中でも、2つの顔画像が同じ人物であるか否かを判定する顔識別という技術もある。顔識別では2つの顔画像を照合し、その2つの顔画像が同一人物であるか否かを表す値である類似度を求める。その類似度が予め定められた閾値以上であれば2つの顔画像が同一人物であると判定することができる。顔識別では、入力された顔画像と、予め登録されている複数人物の顔画像とをそれぞれ照合すれば、入力された顔画像が誰であるか判定することも可能であり、その場合、顔認証と呼ばれる。顔認証では、入力された顔画像を登録済みの各人物の顔画像と照合し、得られた類似度が閾値以上で最大となる人物であると判定する。
人間の顔は、撮影する向きの違いや照明の当たり方の違いによって同じ人物でも大きく見た目が異なる。その人物内の見た目のバリエーションが顔識別の大きな課題になることが知られている(非特許文献1参照)。顔識別では、この課題を解決する手段として、顔画像から個人差を表す見た目の特徴だけを取り出す方法が知られている(非特許文献2参照)。この方法では、顔画像の隣り合う画素同士の画素値の大小関係を比べることで、明暗や照明に影響されにくい特徴量が得られることが知られている。ところで、上記の従来技術は人間の視覚に近い特性を持つ従来のカメラで顔を撮影することを前提としているが、そのいっぽう、人間にとって不可視の波長も含めた特定の波長帯で、顔を撮影して分析する手法も提案されている。例えば、特許文献1では、近赤外線で顔を撮影して顔領域のうち肌と髪の領域を区別する。かかる区別を、特定の近赤外線の波長が肌で吸収され髪で反射される性質を持ち、また別の近赤外線では逆の性質を持つことを利用して実現する。
Face Recognition Across Pose-Review:X.Zhang,Y Gao:2009
Face recognition with local binary patterns:T Ahonen,A Hadid,M Pietikainen:2004
Active Shape Models−Their Training and Application:T.F. Cootes,C.J.Taylor,D.Cooper,and J.Graham:1998
An Associate Predict Model for Face Recognition:Q.Yin.X.Tang,J.Sun:2011
Robust face recognition via sparse representation:J.Wrightほか:2009
Rapid object detection using a boosted cascade of simple features:P.Viola,M.Jones:2001
Facial feature point extraction method based on combination of shape extraction and pattern matching:K.Fukui,O.Yamaguchi:1998
The optics of human skin Aspects important for human health:K.P.Nielsenら:2008
DeepFace:Closing the Gap to Human−Level Performance in Face Verification:Yaniv Taigman,Ming Yang,Marc‘Aurelio Ranzato,Lior Wolf:2014
肌の質感をコントロールする化粧品の研究開発: 五十嵐崇訓:2014
人間が顔を識別しようとする場合、個人差を表す顔の主要な部分として着目されているのは、目・鼻・口などの顔器官である。顔器官と肌との境界には明確な色の違いがあるため位置や形を検出しやすく、なおかつ人によって器官の大きさや形が異なるため、個人差を認識しやすいからである。そのため、顔画像から顔器官の位置を検出する技術が、非特許文献3を初めとして盛んに研究されており、顔器官を積極的に使って顔識別する方法も数多く提案されている。例えば、非特許文献4がそのひとつである。
この顔器官を使う方法の課題は、顔器官の一部がマスク・眼鏡・サングラスなどの装着物で隠されている状態だと、顔を識別しにくいということである。しかしながら、マスクやサングラスなどを日常で装着することは一般的であり、装着物がある顔に対しても十分識別できる手法が求められる。しかし顔器官以外の、隠れにくい肌の領域が顔識別に用いられる例は少ない。なぜなら通常の撮像装置では肌はほぼ一様な面として写り、個人差を表すような部位の位置や形を検出することは難しいからである。器官が隠れている顔を識別する技術として、装着物がない元々の顔の見えを推定する非特許文献5がある。ただしこの方法は、顔画像を撮影した向きや照明などの撮影条件が既知である場合の実験的なものであり、実用化するのは難しいと考えられる。
本発明の1態様によれば、画像処理装置に、対象とする物体の表面に存在する複数の物質のうち特定の物質と他の物質とで分光透過率の異なる所定の波長帯の信号で当該物体を撮像する撮像手段と、前記撮像手段で撮像された画像に基づいて前記物体の表面における前記特定の物質の分布状態を判定する判定手段と、前記特定の物質の分布状態に基づいて前記物体の属するクラスを識別する識別手段とを備える。
本発明によれば、物体の属するクラスを精度よく識別することができる。例えば、物体として人物の顔を対象とする場合、マスク・眼鏡・サングラスなどで顔が一部隠されている状態でも顔を識別できる。
以下、図面を参照しながら本発明の実施形態について詳細に説明する。
(第1の実施形態)
第1の実施形態ではオブジェクトとして人間の顔を扱い、入力された人物の顔か誰であるか判定する顔認証に本発明を適用する例を説明する。
第1の実施形態ではオブジェクトとして人間の顔を扱い、入力された人物の顔か誰であるか判定する顔認証に本発明を適用する例を説明する。
<全体の構成>
図1は、第1の実施形態における顔認証装置1000の機能構成を示すブロック図である。図1に示すように、顔認証装置1000は、処理すべき画像を入力する画像入力部1100、登録済み人物の顔画像を保持する画像保持部1200、顔画像同士を識別する画像識別部1300を有する。顔認証装置1000は、更に、出力すべき結果を最終判定する最終判定部1400、結果を出力する外部出力部1500を有する。
図1は、第1の実施形態における顔認証装置1000の機能構成を示すブロック図である。図1に示すように、顔認証装置1000は、処理すべき画像を入力する画像入力部1100、登録済み人物の顔画像を保持する画像保持部1200、顔画像同士を識別する画像識別部1300を有する。顔認証装置1000は、更に、出力すべき結果を最終判定する最終判定部1400、結果を出力する外部出力部1500を有する。
画像入力部1100は、光学レンズと映像センサを備えた撮像装置である。画像入力部1100はその他の構成部と物理的に離れた場所に置かれていてもよく、映像をネットワーク越しにその他の構成部に転送するような構成でもよい。画像入力部1100の詳細な構成については後述する。画像保持部1200は、予め登録された認証すべき人物の顔画像を保持する。画像保持部1200は、例えば大容量のフラッシュメモリであり、複数の顔画像を保持できるようなものが望ましい。なお画像保持部1200は、顔画像そのものではなく、画像識別部1300での識別に利用される特徴量などの形式で顔画像のデータを保持するようにしても良い。画像識別部1300および最終判定部1400は、入力された顔画像が誰であるかを判定する。
この画像識別部1300および最終判定部1400の詳細な構成に関しては後述する。画像識別部1300および最終判定部1400は、専用回路(ASIC)、プロセッサ(リコンフィギュラブルプロセッサ、DSP、CPUなど)であってもよい。あるいは単一の専用回路および汎用回路(PC用CPU)内部において実行されるプログラムとして存在してもよい。最後に外部出力部1500は、最終判定部1400の出力、つまり認証すべき顔画像が誰であるかを適切な形で外部に出力する。外部出力部1500は典型的には液晶モニタであり、たとえば画像入力部1100から取得した画像データを表示した上で、画像データに最終判定部1400の出力を重畳表示する。また、誰であるかの判定結果が特定の登録人物の場合には、スピーカーから音を鳴らして周囲に報知する形でもよい。これら出力の手段は上に挙げた限りではなく、さらに複数の手段を同時に利用してもよい。
図2は、本実施形態における顔認証全体の処理手順を示すフローチャートである。この図2を参照しながら、このオブジェクト識別装置が、顔画像を識別する実際の処理について説明する。なお、本実施形態では説明の簡便のために、画像入力部1100から取得する画像には、顔がひとつだけ写っていることとする。もちろん実際に装置を運用する際には1枚の画像に複数の顔が写ることも考えられる。その場合は、図2のS1102以降の処理を顔それぞれについて繰り返せばよい。
初めに、画像入力部1100から処理すべき画像を取得する(S1101)。続いて、画像に写る人物の顔を検出(S1102)して、画像中の顔の位置を明らかにする。続いて、登録画像を画像保持部1200からひとつ取得する(S1103)。入力画像と登録画像を識別する(S1104)。そして入力画像と全ての登録画像を識別した(S1105)時点で、入力画像が誰であるかを最終的に判定(S1106)し、外部出力部1500に結果を表示する(S1107)。図2における識別(S1104)と、人物最終判定(S1106)については、のちほどそれぞれ詳しく述べる。なお、S1102の顔検出は公知の技術を用いればよく、例えば非特許文献6記載のような技術が利用できる。
<画像入力部>
図1における画像入力部1100について詳細を述べる。画像入力部1100は、光学レンズと映像センサを備えた撮像装置である。センサの物理的構成と、センサが受光した信号を画像化する現像処理の構成について、本実施形態で人物の顔を撮影する場合を例に、以下のように構成する。
図1における画像入力部1100について詳細を述べる。画像入力部1100は、光学レンズと映像センサを備えた撮像装置である。センサの物理的構成と、センサが受光した信号を画像化する現像処理の構成について、本実施形態で人物の顔を撮影する場合を例に、以下のように構成する。
一般にデジタルカメラなどで普及している映像センサとして代表的なCMOSイメージセンサは、各フォトダイオード前面に異なる分光透過率を持つカラーフィルタを持つ。一般的にはRGBの3種類で、それぞれ人間が見ることができる赤・緑・青の3色に対応している。これらカラーフィルタのうち全てまたは一部を、所定の波長帯に対応するフィルタ、例えば波長700nmを中心に半値全幅が100nm以下、好適には50nm程度の分光透過率を持つものに交換する。
画像入力部1100で撮影した信号から画像を実際に得る現像処理では、以下のようにすればよい。センサ中全ての画素のカラーフィルタを上記のものに置き換えた場合、単色のカメラとして扱うことができる。センサ信号をそのまま取り出して画像化すれば、上記700nmを中心に半値全幅50nm程度の波長帯で見える映像が得られる。その一方、センサ中一部の画素を上記のものに置き換えた場合、歯抜けの状態で上記波長帯の画素が配置されており、上記波長帯の見えを表す画像を取り出すために補完(デモザイク)しなければならない。
その補完の方法は任意であるが、例えばガウシアンフィルタのような畳み込みフィルタを用いればよい。取り出したままの歯抜け画像にガウシアンフィルタを適用すれば、抜けている画素の値を補完した画像を得ることができる。または、各色単独では画素の数が少なく解像度が足りない場合は、分光透過率が近い色の画素同士を組み合わせて相補的に補完してもよい。さらに例えば、補完と同時にエッジ成分を強調して解像感を高めてもよい。特性が異なる二つのガウシアンフィルタをそれぞれ歯抜け画像に適用した結果の差分を取ることで、エッジ成分だけを取り出すことができる。これを別途補完した画像に足し合わせることで、所望の画像が得られる。この方法はアンシャープマスクフィルタとしてよく知られている方法である。
本実施形態では、顔表面のホクロ・しみ・毛穴などに存在するメラニンを人間の視覚より強調して写すことができる。複数種類の物質が持つ分光反射率が特定の波長帯で異なる場合、その特定の波長帯でのみ物質を見ると、物質の反射輝度の違いにより物質の違いを可視化できる性質を利用している。さきほど説明した700nm付近が、メラニン色素とそれ以外の肌領域で分光反射率に違いがある特定の波長帯であり、非特許文献8がこのことを示している。
なお補足であるが、屋内光源、特に蛍光灯やLED照明は、本実施形態で述べた波長700nm付近をほとんど照射しないものも存在する。本装置は光源が物体表面で反射した光を受光するものであるので、そういった光源下では全く画像が得られない可能性がある。その場合、波長に対応する補助光源を用いるか、撮影する波長を選択するのがよい。本実施形態でさきほど述べたように、イメージセンサ前面のRGBカラーフィルタのうち一部分だけを波長700nmに対応するカラーフィルタに換装している場合、通常のRGB画像の撮影も可能である。赤に対応するRセンサは600nm付近を中心に受光する。600nm付近の光は多くの光源に含まれており、光の性質が本実施形態の700nmと似ているため、代用になる可能性がある。
なお、本実施例で述べた700nm中心の狭い波長帯などの特殊なセンサではなく、広く一般的に普及している通常のRGBセンサでも、本実施形態はある程度同様に実現可能であることを付け加えておく。一般的なRGBのうちRセンサの中心波長はおよそ620nmであり、上で述べた700nmと比較的近い光学的性質を持つため、同様の撮影ができることが期待できる。またはRだけではなく通常のRGB画像を利用してもよい。RGB画像であっても肌表面の特徴はある程度抽出できるため、個人を識別しうる特徴を取り出せる。ただしRGBのうち、GまたはBのセンサを単独で用いることは望ましくない。なぜならRと比べて短波長であり、肌内部に吸収されて再反射する割合が少なく、表面反射する光の量の割合が相対的に多いため、光源の位置によっては肌表面がギラギラして写ることがある。したがって、肌表面の特徴を観測する用途には適していない。
<識別処理:概要>
図2における識別処理(S1104)についての概要を述べる。図3は、画像識別部1300の機能構成を示すブロック図を示す。まず、取得した入力画像と登録画像それぞれから、特徴抽出部1310で個人を識別しうる顔の特徴を抽出する。次にふたつの入力画像から得られた特徴量を類似度算出部1320で比較し、ふたつの顔画像が同一人物であるかどうかを表す値である類似度を算出する。それぞれの各工程については、次から詳細に説明する。なお本実施形態では、画像保持部1200に保持されている登録画像も、入力画像と同様に画像入力部1100で撮影されたものであるとする。さらに、登録画像は、後述する特徴抽出処理で変換された特徴量の状態で保持されていてもよい。
図2における識別処理(S1104)についての概要を述べる。図3は、画像識別部1300の機能構成を示すブロック図を示す。まず、取得した入力画像と登録画像それぞれから、特徴抽出部1310で個人を識別しうる顔の特徴を抽出する。次にふたつの入力画像から得られた特徴量を類似度算出部1320で比較し、ふたつの顔画像が同一人物であるかどうかを表す値である類似度を算出する。それぞれの各工程については、次から詳細に説明する。なお本実施形態では、画像保持部1200に保持されている登録画像も、入力画像と同様に画像入力部1100で撮影されたものであるとする。さらに、登録画像は、後述する特徴抽出処理で変換された特徴量の状態で保持されていてもよい。
<識別処理:特徴抽出>
図3に示した特徴抽出部1310について説明する。ここでは顔画像から、個人の識別に必要な特徴量を抽出する。方法は任意で良いが、本実施形態では以下のように特徴量を抽出する。本実施形態では、特徴抽出すべき顔がマスクとサングラス等の遮蔽物に覆われていて、目と口が見えない前提で説明する。ただしこれから説明する方法は、目と口が見えている顔に対しても同様に適用可能である。また、遮蔽物は、帽子、眼帯、包帯、絆創膏などの場合も同様である。
図3に示した特徴抽出部1310について説明する。ここでは顔画像から、個人の識別に必要な特徴量を抽出する。方法は任意で良いが、本実施形態では以下のように特徴量を抽出する。本実施形態では、特徴抽出すべき顔がマスクとサングラス等の遮蔽物に覆われていて、目と口が見えない前提で説明する。ただしこれから説明する方法は、目と口が見えている顔に対しても同様に適用可能である。また、遮蔽物は、帽子、眼帯、包帯、絆創膏などの場合も同様である。
まず、先ほど挙げた非特許文献6の方法で、入力画像から顔が存在する領域を検出する。検出された領域に対して顔が収まる割合と向きがほぼ一定になるよう調整されており、顔領域の大きさと天地の情報を得ることができる。そこから、特徴量を抽出する矩形領域を、顔全体からの相対的な位置関係で顔画像に設定する。図4は、顔画像に設定する矩形領域を示す図である。この領域の大きさと場所は任意であるが、具体的には、例えばマスクとサングラスの両方で隠れないと期待できる頬であり、図4(A)のうち(a)と(b)のような領域を設定する。
続いて、個人を識別するための特徴量を矩形領域から取り出す。特徴量とは多次元量であり、特徴ベクトルとして表される。その抽出方法は任意であるが、例えば以下のようにすればよい。最も簡単な方法は、矩形領域内の画素値を左上から右下に向かって順に取り出し、一列につなげた数値列をベクトルとする方法である。あるいは画素値を取り出す前に、非特許文献2で挙げた方法を使うことにしてもよい。隣り合う画素の大小関係だけに変換すれば、撮影環境で変化する画像全体での輝度値の大きさの変動を取り除くことができる。さらにその他各種の画像処理フィルタを前処理として組み合わせることも可能である。
但し、上述のような画素値をそのまま並べて取り出す方法は、肌領域全体が特徴量となっているため冗長であるかもしれない。人間の顔で個人差といえば目・鼻・口であるが、それらが見えない状況では、隠れていない肌のホクロ・しみ・毛穴・血管・産毛・傷跡などの局所的なパターンが重要な手かがりであるといえる。
具体的には、どの程度の大きさ・濃さのパターンが肌のどこにいくつ存在するかである。例えば非特許文献7の方法で、その情報だけを取り出すことができる。非特許文献7の方法は、特定の大きさ・形状のパターンが入力画像のどこに存在するかを求めるフィルタ演算である。例えば、顔のホクロが大体円形であると仮定すれば、様々な大きさの円形に対応するフィルタを用意することで、各種大きさのホクロの位置を求めることができる。またこの方法ではホクロの濃さに対応して存在の確度も得られる。したがって、どの程度の大きさ・濃さのホクロが頬のどこに存在するかを特徴量とすることで、個人を識別し得る特徴とすることができる。フィルタの形状を任意に変えることで、別の形状のパターンも同様の方法で取り出すことができる。
ところで、上で述べた波長700nmでの撮影画像は肌の特徴を強調するためのものである。顔にマスクやサングラスなどの装着物がなく顔器官が見えている場合には、顔器官の部位を別の波長で撮影してもよい。本実施形態でさきほど述べたように、イメージセンサ前面のRGBカラーフィルタのうち一部分だけを波長700nmに対応するカラーフィルタに換装している場合、通常のRGB画像の撮影も可能である。例えば図4(B)のように、顔の領域に合わせて撮影する波長を切り替える。図4(B)の網掛け(C)の領域は肌であり、波長700nmに対応する画像を得る。それ以外の(d)の領域は通常のRGB画像を得る。(C)の領域からは上で述べたような特徴抽出を行い、顔器官の領域(d)については、先行文献で挙げたような手法を適用して特徴を取り出せばよい。顔器官が見えているかどうか判定する方法は、非特許文献6の技術を応用して実現すればよい。非特許文献6では、画像から顔を見つける例で検出器を学習していたが、同様に、顔の中から目を見つけるように検出器を学習することができる。
<識別処理:類似度算出>
図3に示した類似度算出部1320について説明する。ここでは、入力画像の特徴量と登録画像の特徴量を照合し、類似度を算出する。その方法は任意であるが、類似度が大きいほど、特徴量が似ている、つまり入力画像と登録画像が本人同士であることを表すような方法を選ぶ。例として、特徴量のベクトル同士が成す角度のコサインをとる方法、または特徴量のベクトル間のユークリッド距離の逆数をとったものが挙げられる。
図3に示した類似度算出部1320について説明する。ここでは、入力画像の特徴量と登録画像の特徴量を照合し、類似度を算出する。その方法は任意であるが、類似度が大きいほど、特徴量が似ている、つまり入力画像と登録画像が本人同士であることを表すような方法を選ぶ。例として、特徴量のベクトル同士が成す角度のコサインをとる方法、または特徴量のベクトル間のユークリッド距離の逆数をとったものが挙げられる。
<人物最終判定>
ここでは、入力画像に写る人物が誰であるか最終的に判定する、図1の最終判定部1400および図2の人物最終判定(S1106)について詳細を述べる。この処理の直前の時点で、入力画像に対する、各登録画像との類似度がそれぞれ得られているとする。ここでは、入力画像に写る人物が登録済みの人物のうち誰であるか、あるいは、登録済み人物ではないかを判定する。
ここでは、入力画像に写る人物が誰であるか最終的に判定する、図1の最終判定部1400および図2の人物最終判定(S1106)について詳細を述べる。この処理の直前の時点で、入力画像に対する、各登録画像との類似度がそれぞれ得られているとする。ここでは、入力画像に写る人物が登録済みの人物のうち誰であるか、あるいは、登録済み人物ではないかを判定する。
まず、得られた類似度の中で、最大の類似度を求める。そして最大の類似度が予め定めている閾値より大きいか否かを判定する。その結果、登録人物間で最大の類似度が閾値より大きい場合には、入力画像に写る人物が、その最も大きい類似度が得られた登録人物であると判定する。もしさきほどの類似度が閾値より小さかった場合、入力画像に写る人物は、登録済みの人物のうち誰でもない、つまり未登録者であると判定する。
この閾値は予め調整しておく必要がある。顔認証では未認証と誤認証はトレードオフの関係にあり、閾値を変更することで優先して低減したい認証誤りの種類を選ぶことができる。閾値が低いと同一人物を正しく同一人物と判定できない、つまり未認証する可能性は減るが、そのいっぽうで別人物も誤って同一人物と判定する、つまり誤認証する可能性も高まる。逆に閾値を高めると、誤認証する可能性は減るが、未認証する可能性が高まる。
<本実施形態の要点>
本実施形態の構成の説明は以上である。ここでは、本実施形態の要点を述べる。本実施形態で実現したいことは、顔の主要な個人差である目・鼻・口が見えていない場合でも、顔を識別することである。本実施形態では、人間の視覚特性とは異なる撮像装置、具体的には波長700nmを中心に主要な幅50nmのごく狭い波長帯のみを受光することで、表層部である肌のうちメラニンが集中している部分を、人間の視覚で見えているよりも浮き立たせる。そして、マスクやサングラスなどで隠されていない頬などの肌から、メラニンが集中している部分のパターンを、個人差を表す固有のパターンとして取り出して識別することである。
本実施形態の構成の説明は以上である。ここでは、本実施形態の要点を述べる。本実施形態で実現したいことは、顔の主要な個人差である目・鼻・口が見えていない場合でも、顔を識別することである。本実施形態では、人間の視覚特性とは異なる撮像装置、具体的には波長700nmを中心に主要な幅50nmのごく狭い波長帯のみを受光することで、表層部である肌のうちメラニンが集中している部分を、人間の視覚で見えているよりも浮き立たせる。そして、マスクやサングラスなどで隠されていない頬などの肌から、メラニンが集中している部分のパターンを、個人差を表す固有のパターンとして取り出して識別することである。
肌のメラニンを強調して撮影できる理由は以下の2つである。1つめの理由は、非特許文献8が示すように、肌のメラニン含有率が異なると、上記の波長帯の光の反射率が異なることである。複数種類の物質が持つ分光反射率が特定の波長域で異なる場合、その特定の波長域でのみ撮影すると、物質の反射輝度の違いを可視化できると述べた。これは、メラニンが多く含まれている部分は、人間の視覚で見えているよりも暗く、メラニンが少ない部分は、より明るく写るということである。人間の視覚は可視光帯(およそ400−800nm)の波長帯を受光する。このため、肌のメラニン含有率によって反射率が異なる波長帯での見え方と反射率に違いがない波長帯での見え方とを足し合わせた状態で、人間は知覚するからである。
つまり、繰り返しになるが、本実施形態の方法は、人間の視覚に近い従来の撮像装置を使うよりも、メラニンが集中している部分とそれ以外の部分の明暗のコントラストを強調して撮影できる。
2つ目の理由は、本実施形態で受光する波長帯は可視光の中でも長波長の側に含まれ、その光は肌表面を透過して内側で反射してくる性質があることである。特許文献2に代表されるような指静脈認証の装置では、本実施形態よりもこの内部を透過する性質を明確に利用している。特許文献2では本実施形態よりさらに長波長である近赤外線を撮影して、完全に指の内部にある静脈を浮き立たせることができる。つまり本実施形態では、可視光の中でも長波長であり近赤外線よりも短波長である光だけを受光することで、肌の肌理に代表されるような肌表面の凹凸を透過させ、肌のメラニン有無だけを撮影することができる。
(第2の実施形態)
第1の実施形態では、入力画像を得る撮像装置の波長帯として、特定のひとつの狭い波長帯を用いていたが、本発明はその限りではない。本実施形態では複数の波長帯を用いて顔を撮影することで効果を増強できる例を説明する。なお重複を避けるため、以下の説明においては、前実施形態と同じ部分は省略している。本実施形態に記されていない各部の機能は第1の実施形態と同一であるため、各部の説明は省略する。第1の実施形態を参照されたい。
第1の実施形態では、入力画像を得る撮像装置の波長帯として、特定のひとつの狭い波長帯を用いていたが、本発明はその限りではない。本実施形態では複数の波長帯を用いて顔を撮影することで効果を増強できる例を説明する。なお重複を避けるため、以下の説明においては、前実施形態と同じ部分は省略している。本実施形態に記されていない各部の機能は第1の実施形態と同一であるため、各部の説明は省略する。第1の実施形態を参照されたい。
<画像入力部>
図1の画像入力部1100について、第1の実施形態との差異を述べる。第1の実施形態では、イメージセンサの全画素について、フォトダイオード前面に設けるカラーフィルタを、単一の分光透過率を持つものに置き換える例を説明した。本実施形態では二種類のカラーフィルタを配置する。図5は、本実施形態における画像入力部のセンサ配列を示す図である。具体的には、縦横に配列した画素について、市松模様で二種類のカラーフィルタを配置する。ひとつは波長600nmを中心に半値全幅50nm程度の波長帯の分光透過率を持つフィルタ(a)であり、もうひとつは第1の実施形態と同様に700nmを中心に半値全幅50nm程度の波長帯の分光透過率を持つフィルタ(b)を用いる。
図1の画像入力部1100について、第1の実施形態との差異を述べる。第1の実施形態では、イメージセンサの全画素について、フォトダイオード前面に設けるカラーフィルタを、単一の分光透過率を持つものに置き換える例を説明した。本実施形態では二種類のカラーフィルタを配置する。図5は、本実施形態における画像入力部のセンサ配列を示す図である。具体的には、縦横に配列した画素について、市松模様で二種類のカラーフィルタを配置する。ひとつは波長600nmを中心に半値全幅50nm程度の波長帯の分光透過率を持つフィルタ(a)であり、もうひとつは第1の実施形態と同様に700nmを中心に半値全幅50nm程度の波長帯の分光透過率を持つフィルタ(b)を用いる。
ただし図5の配置はあくまでも例であり、これに限ったものではない。カラーフィルタの分光透過率の絶対的な大きさに応じて、どちらか片方のカラーフィルタに対応する画素の数を多めまたは少なめに配置してもよい。また補足であるが、単一のイメージセンサで一度に二種類の波長帯を撮影する必要はない。物理的に近い位置に二つの撮像装置を用意して、それぞれのイメージセンサでそれぞれの波長帯を同時に撮影する方法も考えられる。あるいは、単一のイメージセンサ前のカラーフィルタ(a)と(b)を可動式で交換可能にして、はじめに(a)を撮影したあと次に(b)を撮影する方法もあり得る。
第2の実施形態での画像入力部1100の装置の構成の説明は以上であるが、これ以降、入力画像を得る手順を説明する。なおこれ以降、簡便のために上記600nmの波長帯を波長帯(a)、および700nmの波長帯を波長帯(b)と呼ぶこととする。まず初めに、両波長帯の光を受光する。図5のように単一イメージセンサ上に両波長帯に対応する画素があれば、同時に受光することができるのは言うまでもない。そのあと、波長帯(a)および(b)で受光した信号それぞれを画像化する。それぞれの波長帯でのセンサ信号をそのまま取り出しただけの画像では、画素がない位置には信号がない市松模様の歯抜け状態である。そこで抜けている画素の値を補完(デモザイク)する。その補完の方法は任意であるが、第1の実施形態と同じ方法を用いればよい。本実施形態では、波長帯(a)および波長帯(b)の、2チャンネルから成る入力画像を得る。本実施形態で用いる600nmの波長帯は、非特許文献8で示されている通り、肌のメラニン色素の多少に対して、分光反射率があまり変化しない波長帯である。
<識別処理:特徴抽出>
図3に示した特徴抽出部1310について、第1の実施形態との差異を述べる。本実施形態では矩形領域を設定したあと、波長帯(a)および波長帯(b)のチャンネルのゲインを調整したのち、チャンネル間で輝度値を減算した差分画像を演算結果として求める。
図3に示した特徴抽出部1310について、第1の実施形態との差異を述べる。本実施形態では矩形領域を設定したあと、波長帯(a)および波長帯(b)のチャンネルのゲインを調整したのち、チャンネル間で輝度値を減算した差分画像を演算結果として求める。
まず、両波長帯で得られたチャンネルの輝度値をゲインで乗算して、図6で示す状態になるようにするよう試みる。それは両波長帯で肌を撮影した際のセンサ信号値つまり輝度値の大きさが、両波長帯で略一致する状態である。本実施形態を運用する環境の光源を固定できる場合、ゲインは予め求めておくことができる。波長帯(a)に対応するチャンネルの肌の輝度値Brightness(a)は、下記A(a)×B(a)×C(a)で求めることができる。波長帯(b)でも同様である。
Brightness(a)=A(a)×B(a)×C(a)
A(a):環境光源に含まれる波長帯(a)の強度
B(a):波長帯(a)に対応する肌の反射率
C(a):波長帯(a)に対応するカラーフィルタの透過率
Brightness(a)とBrightness(b)の大きさが等しくなるように、予めゲインを定めておくことが望ましい。またここで用いる肌の反射率B(a)およびB(b)は、メラニンが中程度含まれる肌であるFitzpatrickスケール3の顔を基準とするとよい。それは典型的には色白な日本人である。その一方、本発明を持ち運び可能なカメラなど固定されていない環境で運用する場合、光源A(a)およびA(b)を仮定できない。そこで撮像したその場でゲインを求める。第1の実施形態で設定した矩形領域内の平均輝度を両チャンネルで求め、それぞれBrightness(a)〜とBrightness(b)〜とする。この両方の値が等しくなるようゲインを定めることが望ましい。
A(a):環境光源に含まれる波長帯(a)の強度
B(a):波長帯(a)に対応する肌の反射率
C(a):波長帯(a)に対応するカラーフィルタの透過率
Brightness(a)とBrightness(b)の大きさが等しくなるように、予めゲインを定めておくことが望ましい。またここで用いる肌の反射率B(a)およびB(b)は、メラニンが中程度含まれる肌であるFitzpatrickスケール3の顔を基準とするとよい。それは典型的には色白な日本人である。その一方、本発明を持ち運び可能なカメラなど固定されていない環境で運用する場合、光源A(a)およびA(b)を仮定できない。そこで撮像したその場でゲインを求める。第1の実施形態で設定した矩形領域内の平均輝度を両チャンネルで求め、それぞれBrightness(a)〜とBrightness(b)〜とする。この両方の値が等しくなるようゲインを定めることが望ましい。
そして両チャンネルのゲインを調整したあと、波長帯(a)に対応するチャンネルから波長帯(b)に対応するチャンネルの輝度値を減算した差分画像を求める。そのあとは差分画像に対して第1の実施形態で述べたような方法で特徴量となるベクトルを求めればよい。
<本実施形態の要点>
本実施形態の構成の説明は以上である。ここでは、第1の実施形態に加えて本実施形態の要点を述べる。本実施形態での構成の特徴は、複数の波長帯で撮影することである。それにより、前の実施形態で述べた方法に対して、肌のうちメラニンが集中する部分をより検出しやすくする効果がある。
本実施形態の構成の説明は以上である。ここでは、第1の実施形態に加えて本実施形態の要点を述べる。本実施形態での構成の特徴は、複数の波長帯で撮影することである。それにより、前の実施形態で述べた方法に対して、肌のうちメラニンが集中する部分をより検出しやすくする効果がある。
前の実施形態では、単一の狭い波長帯を用いて顔を撮影すると述べた。その波長帯はメラニンの有無に応じて肌の反射率が特に異なる波長帯であり、人間の視覚よりも、肌のメラニンがある部分はより暗く、肌のメラニンがない部分はより明るく撮影できる。つまりメラニンがある部分とない部分のコントラストを強調して画像化できる。それに対して本実施形態では、先の<識別処理:特徴抽出>で得られる差分画像上で、肌でメラニンが集中する部分の画素は正の値を持ちうる。
逆にメラニンが含まれない肌の部分は差分画像上で負の値を持ちうる。そのため、肌でメラニンが集中する部分を符号の正負から明確に判断できる。図6は、実施形態における差分画像の生成を説明する図である。そのような差分画像が得られる理由を、図6で、顔のホクロを撮影する例を用いて説明する。先の説明では、画像入力部1100で、メラニン色素の有無に対して分光反射率があまり変化しない波長帯である600nmの波長帯(a)と、分光反射率が大きく変化する波長帯(b)で撮影すると述べた。
図6において、それぞれの波長帯で顔のホクロを横一列で撮影した画像を画像(A)と画像(B)とする。波長帯(a)で撮影した画像(A)は、メラニン色素の有無にかかわらず、輝度値が大きく変わらない状態で撮影できる。それに対して波長帯(b)で撮影した画像(B)は、メラニン色素の有無に応じて、輝度値のコントラストが大きい状態で撮影できることをそれぞれ示している。そして画像(A)から画像(B)を減算した差分画像を、図6の一番下に示す。この差分画像が示すとおり、メラニンが多く含まれる肌の部分の画素は差分画像上では正の値を持ちうる。それにより、肌のどこにメラニンが多く含まれているかを正負の値で示すことができる。
図7は、実施形態における画像処理装置のハードウェア構成を示すブロック図である。同図において、CPU701は、バス706を介して接続する各デバイスを統括的に制御する。CPU701は、読み出し専用メモリ(ROM)702に記憶された処理ステップやプログラムを読み出して実行する。オペレーティングシステム(OS)をはじめ、本実施形態に係る各処理プログラム、デバイスドライバ等はROM702に記憶されており、ランダムアクセスメモリ(RAM)703に一時記憶され、CPU701によって適宜実行される。また、RAM703は、各種データの一時保存領域として用いることができる。特に、後述する画像変形処理において参照するパラメータやテーブルを記憶するメモリとしては、SRAMが好適である。また、入力I/F704は、外部の装置(表示装置や操作装置など)から画像処理装置で処理可能な形式で入力信号を入力する。また、出力I/F705は、外部の装置(表示装置など)へその装置が処理可能な形式で出力信号を出力する。
(第3の実施形態)
実施例1では、特定のひとつの狭い波長帯を用いて、物体表面の特徴を強調して撮影していたが、本発明はその限りではない。本実施例では、別の波長帯および装置を併用することで、物体表面を透過して内部の特徴を強調し撮影する例を述べる。実施例2以降と同様に、前実施形態と同じ部分は省略している。
実施例1では、特定のひとつの狭い波長帯を用いて、物体表面の特徴を強調して撮影していたが、本発明はその限りではない。本実施例では、別の波長帯および装置を併用することで、物体表面を透過して内部の特徴を強調し撮影する例を述べる。実施例2以降と同様に、前実施形態と同じ部分は省略している。
<画像入力部>
実施例1と同様に、複数種類の物質が持つ分光反射率が特定の波長帯で異なる性質を利用して、その特定の波長帯でのみ物質を見ることは同じであるが、図1における画像入力部1100について実施例1との差異を詳細に述べる。
実施例1と同様に、複数種類の物質が持つ分光反射率が特定の波長帯で異なる性質を利用して、その特定の波長帯でのみ物質を見ることは同じであるが、図1における画像入力部1100について実施例1との差異を詳細に述べる。
ひとつの例として、肌表面を覆って特徴を隠してしまうファンデーションなどの化粧を透過させて肌を撮影する方法を説明する。一部のファンデーションでは、赤より短波長は吸収して肌の欠点をカバーする効果を狙い、それより長波長では透過させて健康的な血色と肌の透明感を演出するような設計がなされている。(「肌の質感をコントロールする化粧品の研究開発」五十嵐崇訓、2014参照)。したがって、可視光の赤より長波長帯かつ狭い範囲の波長帯で撮影することで、ファンデーションを通過しつつ本来の肌表面を撮影することができる。典型的には、実施例1で述べた波長700nmから波長880nmまでのいずれかの波長を用いればよい。
もうひとつの例として、肌内部にある血管を透過させて撮影する方法を説明する。具体的には、静脈を流れる血液中の還元ヘモグロビンの吸収帯である波長880nm付近を利用すればよい。物体の透過性が高い近赤外線であるため、表面から数mmより深い位置にある静脈を黒く可視化することができる。ただし静脈を撮影して個人を識別するための特徴とする場合、撮影する部位に注意されたい。顔には一般的には太い静脈は存在しないため、肌と画像入力部1100がほぼ接触するように高解像度で接写する必要がある。それが難しい条件では、腕・足・首などの他の部位を検討することが望ましい。
上記の透過をより強める補足的な装置の構成についても説明しておく。それは撮影と同時に光源を併用して、肌内部にいったん潜って反射してきた光源の光を撮影する方法である。具体的なひとつの方法は、肌表面のごく狭い範囲、例えば一点に光を照射すると、その周囲の肌は内部にいったん潜って反射してきた光で内側から照らされ、皮下組織の影が浮かび上がる。それを肌の特徴として撮影すればよい。照射する一点を徐々にずらしながら撮影を繰り返すことで、広範囲の皮下組織を透視できる。もうひとつの方法は、光源と撮像装置それぞれに、互いに直行する偏光フィルタを取り付けて撮影するものである。肌内部に潜らず表面で反射した光が偏光フィルタで取り除かれ、いったん肌内部に潜って偏光した光のみを選択的に撮影することができる。
(第4の実施形態)
第3の実施形態では、物体表面を透過して内部の特徴を強調し撮影する例を述べた。本実施例では、同様の考え方で遮蔽物を透過して撮影する例を説明する。実施例2以降と同様に、前実施形態と同じ部分は省略している。
第3の実施形態では、物体表面を透過して内部の特徴を強調し撮影する例を述べた。本実施例では、同様の考え方で遮蔽物を透過して撮影する例を説明する。実施例2以降と同様に、前実施形態と同じ部分は省略している。
<画像入力部>
実施例1と同様に、複数種類の物質が持つ分光反射率が特定の波長帯で異なる性質を利用して、その特定の波長帯でのみ物質を見ることは同じであるが、サングラスなどの色つきメガネを透過して肌を撮影する方法を説明する。具体的には、1400nm前後の短波長赤外線を用いて撮影すればよい。一般的な可視光センサでは感光しない波長帯であるため、センサとしてインジウム・ガリウム・ヒ素(InGaAs)系のセンサを使うことが望ましい。その際、撮影に用いる波長帯は、ある程度幅を持たせたものか、あるいは複数の異なる波長帯を組み合わせることがよい。なぜなら色つきレンズの材質は多岐にわたり、それに応じて適した波長も異なるため、確実に透過して撮影できるものではないためである。
実施例1と同様に、複数種類の物質が持つ分光反射率が特定の波長帯で異なる性質を利用して、その特定の波長帯でのみ物質を見ることは同じであるが、サングラスなどの色つきメガネを透過して肌を撮影する方法を説明する。具体的には、1400nm前後の短波長赤外線を用いて撮影すればよい。一般的な可視光センサでは感光しない波長帯であるため、センサとしてインジウム・ガリウム・ヒ素(InGaAs)系のセンサを使うことが望ましい。その際、撮影に用いる波長帯は、ある程度幅を持たせたものか、あるいは複数の異なる波長帯を組み合わせることがよい。なぜなら色つきレンズの材質は多岐にわたり、それに応じて適した波長も異なるため、確実に透過して撮影できるものではないためである。
特定の遮蔽物を確実に透過して撮影するために、例えば次のようにすればよい。図8のそれぞれ(a)(b)(c)は、正確な分光吸収率が不明の、とあるサングラスを装着した顔を、中心波長1400nm前後の複数の異なる波長帯の短波長赤外線で撮影した画像を表しているものとする。その中の(a)は、このレンズを構成する材質での吸収率が低い波長帯で撮影した画像であり、レンズの向こう側を透過できたことを表しているものとする。撮影した時点ではどの波長帯でレンズを透過したか不明であっても、レンズを透過した顔画像を得ることができる。その方法の例として、各波長帯の画像を合成して図中(d)のような画像を得る。
撮影した(a)(b)(c)の画像上の同じ位置の画素値で、その中の最大値を採用して新しい画像をつくればよい。レンズの位置に対応する位置の画像(a)の画素は他の(b)(c)の画像より明るく写るため、レンズがある位置では画像(a)を自動的に採用して、レンズを透過した顔画像を得ることができる。あるいは、撮影した(a)(b)(c)の画像から一枚を選択してもよい。レンズがあると思われる領域の画素値の平均輝度を求め、もっとも高い画像を選択するなどの方法が考えられる。
(第5の実施形態)
第1の実施形態では、図4に示すように顔の肌のうち約3cm角で個人を識別する例を述べたが、本発明はその限りではない。本実施例では、形・大きさ・位置が異なる領域で個人を識別する具体例を述べる。第2の実施形態以降と同様に、それまでの実施形態と同じ部分の説明は省略する。
第1の実施形態では、図4に示すように顔の肌のうち約3cm角で個人を識別する例を述べたが、本発明はその限りではない。本実施例では、形・大きさ・位置が異なる領域で個人を識別する具体例を述べる。第2の実施形態以降と同様に、それまでの実施形態と同じ部分の説明は省略する。
<識別処理:特徴抽出>
図3に示した特徴抽出部1310について説明する。第1の実施形態では、頬から特徴を抽出したが、頬に限らず、抽出する領域の位置・大きさ・形はある程度任意でよい。図9の(a)や(b)に示すような、顎や首など数センチメートル角の露出している領域でも、個人を識別しうる肌のパターンを取り出すことができる。第1の実施形態ではおよそ3cm角の領域を取り出すと説明したが、図中(a)のように、さらに小さい1cm角の領域を取り出すようにしてもよい。あるいは、逆に肌の一部ではなく図9の(c)や(d)に示すような、顔の上半分や下半分の大きな領域を用いてもよい。領域(a)から(d)の位置は実施例1と同様に、顔の位置関係から相対的に求めればよい。
図3に示した特徴抽出部1310について説明する。第1の実施形態では、頬から特徴を抽出したが、頬に限らず、抽出する領域の位置・大きさ・形はある程度任意でよい。図9の(a)や(b)に示すような、顎や首など数センチメートル角の露出している領域でも、個人を識別しうる肌のパターンを取り出すことができる。第1の実施形態ではおよそ3cm角の領域を取り出すと説明したが、図中(a)のように、さらに小さい1cm角の領域を取り出すようにしてもよい。あるいは、逆に肌の一部ではなく図9の(c)や(d)に示すような、顔の上半分や下半分の大きな領域を用いてもよい。領域(a)から(d)の位置は実施例1と同様に、顔の位置関係から相対的に求めればよい。
図9の(a)に示すような小さな領域を用いる場合には、小さな領域から個人を識別しうるのに十分な情報を取り出す必要がある。それは具体的にはシワや毛穴などの肌の微細なパターンであり、より高解像度で撮影して取り出す必要がある。具体的には、画像上の両目幅が200ピクセル以上あれば望ましい。その一方、図中(c)(d)を用いる場合には、具体的にはアザやシミなどの、肌の目立つ特徴を識別に用いることができる。撮影する解像度は比較的低くしてよく、ある程度遠くから撮影してもよい。具体的には、画像上の両目幅が100ピクセル以上あれば十分である。実際に運用する設置条件に応じて領域の位置・大きさ・形を適宜調整するとよい。
(第6の実施形態)
実施例1では、特徴抽出部1310で簡易な特徴抽出の方法の例を述べたが、肌の特徴をより効率的に抽出しうる方法の具体例を述べる。実施例2以降と同様に、前実施形態と同じ部分は省略している。
実施例1では、特徴抽出部1310で簡易な特徴抽出の方法の例を述べたが、肌の特徴をより効率的に抽出しうる方法の具体例を述べる。実施例2以降と同様に、前実施形態と同じ部分は省略している。
<識別処理:特徴抽出>
図3に示した特徴抽出部1310について説明する。特徴抽出部1310を実装するもうひとつの方法として、畳み込みニューラルネットワーク(CNN)がある。CNNとは、画像に畳み込み演算をした結果にさらに別の畳み込み演算を行う処理を連結することで、画像が持つ情報を徐々に縮約していく非線形の画像変換器である。近年、CNNの階層を深くしたものがDeepNetと呼ばれ、顔の認証でも高精度を達成している。(DeepFace:Closing the Gap to Human−Level Performance in Face Verification:Yaniv Taigman,Ming Yang,Marc’Aurelio Ranzato,Lior Wolf:2014)。CNNの詳細は文献に譲るが、非常に簡単に述べるとCNNは次の処理の繰り返しである。CNNの1階層の処理とは、入力画像をfとして、畳み込み演算結果の画像gを次の式(1)および(2)で得る。CNNの次の階層では、前の階層で得た畳み込み演算結果の画像gが、入力画像fとなる。これを繰り返していく。*は畳み込み演算オペレータであり、詳細を式(2)に示す。
図3に示した特徴抽出部1310について説明する。特徴抽出部1310を実装するもうひとつの方法として、畳み込みニューラルネットワーク(CNN)がある。CNNとは、画像に畳み込み演算をした結果にさらに別の畳み込み演算を行う処理を連結することで、画像が持つ情報を徐々に縮約していく非線形の画像変換器である。近年、CNNの階層を深くしたものがDeepNetと呼ばれ、顔の認証でも高精度を達成している。(DeepFace:Closing the Gap to Human−Level Performance in Face Verification:Yaniv Taigman,Ming Yang,Marc’Aurelio Ranzato,Lior Wolf:2014)。CNNの詳細は文献に譲るが、非常に簡単に述べるとCNNは次の処理の繰り返しである。CNNの1階層の処理とは、入力画像をfとして、畳み込み演算結果の画像gを次の式(1)および(2)で得る。CNNの次の階層では、前の階層で得た畳み込み演算結果の画像gが、入力画像fとなる。これを繰り返していく。*は畳み込み演算オペレータであり、詳細を式(2)に示す。
g=γ(f*w) (1)
式(2)は、縦横の幅がそれぞれu,vの畳み込みカーネルwを入力fの座標x,yに対して適用することを全てのx,yについて行うことを意味する。また、式(1)および(2)中の関数γ()は非線形の活性化関数であり、シグモイド関数やアークタンジェント関数が用いられることが多い。本実施例では、肌領域の画像を入力として、畳み込み演算を繰り返して徐々に画像を縮約していき、最終的に、個人の特徴を表す数百次元の値を取り出せばよい。
ネットワークの階層数、カーネルwの縦横幅などは人手で設定することになり、各階層のカーネルwの値は事前に機械学習で求めておく。カーネルwを求める方法は誤差逆伝搬法が一般的である。誤差逆伝搬法とは、ニューラルネットワークを教師ありで学習する手法である。学習画像と、その学習画像が属するクラス(正解値)をペアで持ち、学習画像をCNNに入力して得られた出力値と正解値を比較して、出力値と正解値の差をもとに最終層のカーネルを修正する。減衰した誤差をさらに前段の層に逆伝搬させてカーネルを修正することを繰り返すことから、この名前で呼ばれている。
本実施形態の学習画像とは、事前に集めた多人数の肌領域の画像であり、画像のクラスとは個人である。また、撮影する波長によって異なるカーネルwの特性が学習されることが予想されるため、画像入力部1100で使用する波長帯で学習画像を撮影しておくことがよい。特にさきほど述べたように、状況に応じて波長帯を使い分ける場合には、それぞれの波長帯に対応するCNNを用意しておくことが望ましい。
(他の実施形態)
上述した実施形態では、物体として人間の顔を例に、顔のクラスとして、その顔が誰の顔であるか判定する顔認証に本発明を用いる例を説明した。しかしながら顔認証以外の顔認識の例として、例えば、顔のクラスとして、年齢などを推定することもできる。例えば、先の実施形態で述べた特徴抽出の方法で肌のシミの分布状態としてシミの数を検出し、肌のシミの数を検出し、そのシミの数に応じた年代を出力することができる。さらに本発明が適用できる対象は、人間の顔の画像に限らない。また、上述した技術は、物体表面に局所的に存在する構成物質の配置をパターンとして物体の属性を判定する技術であるので、例えば野菜や果実などの個体識別し、トレーサビリティなどに応用することもできる。もちろん、他の物体に応用する際には、その物体に適合する撮影波長帯を予め求めておくことが必要なのは、言うまでもない。
上述した実施形態では、物体として人間の顔を例に、顔のクラスとして、その顔が誰の顔であるか判定する顔認証に本発明を用いる例を説明した。しかしながら顔認証以外の顔認識の例として、例えば、顔のクラスとして、年齢などを推定することもできる。例えば、先の実施形態で述べた特徴抽出の方法で肌のシミの分布状態としてシミの数を検出し、肌のシミの数を検出し、そのシミの数に応じた年代を出力することができる。さらに本発明が適用できる対象は、人間の顔の画像に限らない。また、上述した技術は、物体表面に局所的に存在する構成物質の配置をパターンとして物体の属性を判定する技術であるので、例えば野菜や果実などの個体識別し、トレーサビリティなどに応用することもできる。もちろん、他の物体に応用する際には、その物体に適合する撮影波長帯を予め求めておくことが必要なのは、言うまでもない。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
1000 顔認証装置
1100 画像入力部
1200 画像保持部
1300 画像識別部
1400 最終判定部
1500 外部出力部
1100 画像入力部
1200 画像保持部
1300 画像識別部
1400 最終判定部
1500 外部出力部
Claims (17)
- 対象とする物体の表面に存在する複数の物質のうち特定の物質と他の物質とで分光透過率の異なる所定の波長帯の信号で当該物体を撮像する撮像手段と、
前記撮像手段で撮像された画像に基づいて前記物体の表面における前記特定の物質の分布状態を判定する判定手段と、
前記特定の物質の分布状態に基づいて前記物体の属するクラスを識別する識別手段と
を備えることを特徴とする画像処理装置。 - 前記撮像手段は、前記所定の波長帯として異なる複数の波長帯の信号で前記物体を撮影し、
前記判定手段は、前記複数の波長帯の信号で撮像された複数の画像を用いた演算結果に基づいて前記物体の表面における前記特定の物質の分布状態を判定することを特徴とする請求項1に記載の画像処理装置。 - 前記所定の波長帯は、可視光の波長帯の中で長波長の側に含まれることを特徴とする請求項1または2に記載の画像処理装置。
- 前記所定の波長帯は半値全幅が100nm以下であることを特徴とする請求項1ないし3のいずれか1項に記載の画像処理装置。
- 前記撮像手段は、複数の波長から選択した波長の信号で前記物体を撮像することを特徴とする請求項1に記載の画像処理装置。
- 前記撮像手段は、前記物体の部位に応じて撮像に用いる波長を選択することを特徴とする請求項5に記載の画像処理装置。
- 前記物体は人間の顔であることを特徴とする請求項1に記載の画像処理装置。
- 前記物体の表面とは、前記顔のうち遮蔽物で隠れていない領域であることを特徴とする、請求項7に記載の画像処理装置。
- 前記遮蔽物は、帽子、サングラス、マスク、眼帯、包帯、絆創膏の少なくとも1つを含むことを特徴とする請求項8に記載の画像処理装置。
- 前記特定の物質はメラニンを含むことを特徴とする請求項7に記載の画像処理装置。
- 前記特定の物質の分布状態は、前記メラニンの存在する部位の配置を含むことを特徴とする請求項7に記載の画像処理装置。
- 前記特定の物質の分布状態は、前記メラニンの存在する部位の量を含むことを特徴とする請求項7に記載の画像処理装置。
- 前記物体の属するクラスは、人種、性別、年齢、個人、表情の少なくとも1つを含むことを特徴とする請求項7に記載の画像処理装置。
- 予め人物の顔のデータを保持する保持手段を備え、
前記識別手段は、前記撮像された画像における前記特定の物質の分布状態と前記保持手段に保持された顔のデータにおける前記特定の物質の分布状態とを照合して、当該撮像された画像に含まれる人物が誰であるかを識別することを特徴とする請求項7に記載の画像処理装置。 - 特定の波長帯で物体を撮影する撮像手段と、
前記特定の波長帯で撮影された物体の表層部の固有のパターンを抽出する抽出手段と、
前記固有のパターンの特徴に基づいて物体のクラスを判定する判定手段と
を備えることを特徴とする画像処理装置。 - 対象とする物体の表面に存在する複数の物質のうち特定の物質と他の物質とで分光透過率の異なる所定の波長帯の信号で当該物体を撮像する撮像工程と、
前記撮像手段で撮像された画像に基づいて前記物体の表面における前記特定の物質の分布状態を判定する判定工程と、
前記特定の物質の分布状態に基づいて前記物体の属するクラスを識別する識別工程と
を備えることを特徴とする画像処理方法。 - 特定の波長帯で物体を撮影する撮像工程と、
前記特定の波長帯で撮影された物体の表層部の固有のパターンを抽出する抽出工程と、
前記固有のパターンの特徴に基づいて物体のクラスを判定する判定工程と
を備えることを特徴とする画像処理方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016253866 | 2016-12-27 | ||
JP2016253866 | 2016-12-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018106720A true JP2018106720A (ja) | 2018-07-05 |
Family
ID=62629835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017251720A Pending JP2018106720A (ja) | 2016-12-27 | 2017-12-27 | 画像処理装置及びその方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10650225B2 (ja) |
JP (1) | JP2018106720A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7228822B1 (ja) | 2022-07-13 | 2023-02-27 | パナソニックIpマネジメント株式会社 | 認証システムおよび認証方法 |
WO2024075550A1 (ja) * | 2022-10-05 | 2024-04-11 | Necソリューションイノベータ株式会社 | 処理装置 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108389875A (zh) * | 2017-02-03 | 2018-08-10 | 松下知识产权经营株式会社 | 摄像装置 |
US10853624B2 (en) * | 2017-10-17 | 2020-12-01 | Sony Corporation | Apparatus and method |
CN109919876B (zh) * | 2019-03-11 | 2020-09-01 | 四川川大智胜软件股份有限公司 | 一种三维真脸建模方法及三维真脸照相系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5725480A (en) * | 1996-03-06 | 1998-03-10 | Abbott Laboratories | Non-invasive calibration and categorization of individuals for subsequent non-invasive detection of biological compounds |
US8154612B2 (en) * | 2005-08-18 | 2012-04-10 | Qualcomm Incorporated | Systems, methods, and apparatus for image processing, for color classification, and for skin color detection |
JP5018653B2 (ja) | 2008-06-04 | 2012-09-05 | 株式会社豊田中央研究所 | 画像識別装置 |
RU2616653C2 (ru) * | 2012-06-05 | 2017-04-18 | Хайпермед Имэджинг, Инк. | Способы и устройство для соосного формирования изображения с множеством длин волн |
US10546189B2 (en) * | 2015-03-13 | 2020-01-28 | Nec Corporation | Living body detection device, living body detection method, and recording medium |
KR102541829B1 (ko) * | 2016-01-27 | 2023-06-09 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
-
2017
- 2017-12-12 US US15/839,675 patent/US10650225B2/en active Active
- 2017-12-27 JP JP2017251720A patent/JP2018106720A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7228822B1 (ja) | 2022-07-13 | 2023-02-27 | パナソニックIpマネジメント株式会社 | 認証システムおよび認証方法 |
JP2024010872A (ja) * | 2022-07-13 | 2024-01-25 | パナソニックIpマネジメント株式会社 | 認証システムおよび認証方法 |
WO2024075550A1 (ja) * | 2022-10-05 | 2024-04-11 | Necソリューションイノベータ株式会社 | 処理装置 |
Also Published As
Publication number | Publication date |
---|---|
US20180181795A1 (en) | 2018-06-28 |
US10650225B2 (en) | 2020-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6312714B2 (ja) | 陰影検出および減衰のためのマルチスペクトル撮像システム | |
US10643087B2 (en) | Systems and methods of biometric analysis to determine a live subject | |
JP2018106720A (ja) | 画像処理装置及びその方法 | |
US11612350B2 (en) | Enhancing pigmentation in dermoscopy images | |
US20160019421A1 (en) | Multispectral eye analysis for identity authentication | |
Steiner et al. | Design of an active multispectral SWIR camera system for skin detection and face verification | |
US20170091550A1 (en) | Multispectral eye analysis for identity authentication | |
US20160019420A1 (en) | Multispectral eye analysis for identity authentication | |
CN105426843B (zh) | 一种单镜头下掌静脉和掌纹图像采集装置及图像增强和分割方法 | |
CN111524080A (zh) | 脸部皮肤特征的识别方法、终端及计算机设备 | |
JP6273640B2 (ja) | 撮影画像表示装置 | |
KR102679397B1 (ko) | 생체 인증 장치 및 생체 인증 방법 | |
Sharma et al. | Hyperspectral reconstruction from RGB images for vein visualization | |
JP7002348B2 (ja) | 生体認証装置 | |
WO2023210081A1 (ja) | 生体認証システムおよび認証方法 | |
Wu et al. | Privacy protection and beautification of cornea images | |
Ratnasingam et al. | A biologically motivated double-opponency approach to illumination invariance | |
JP2020160490A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
Bellini | A pilot study on discriminative power of features of superficial venous pattern in the hand | |
Cash | Using Domain-Specific Information in Image Processing Applied Mathematics Scientific Computing (AMSC) |