JP2019185557A - 画像解析装置、方法およびプログラム - Google Patents

画像解析装置、方法およびプログラム Download PDF

Info

Publication number
JP2019185557A
JP2019185557A JP2018077885A JP2018077885A JP2019185557A JP 2019185557 A JP2019185557 A JP 2019185557A JP 2018077885 A JP2018077885 A JP 2018077885A JP 2018077885 A JP2018077885 A JP 2018077885A JP 2019185557 A JP2019185557 A JP 2019185557A
Authority
JP
Japan
Prior art keywords
frame
face
image
detection
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018077885A
Other languages
English (en)
Other versions
JP6973258B2 (ja
Inventor
大樹 七條
Daiki SHICHIJO
大樹 七條
相澤 知禎
Chitei Aizawa
知禎 相澤
初美 青位
Hatsumi Aoi
初美 青位
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP2018077885A priority Critical patent/JP6973258B2/ja
Priority to CN201910179600.1A priority patent/CN110378181B/zh
Priority to DE102019106277.2A priority patent/DE102019106277A1/de
Priority to US16/358,765 priority patent/US20190318151A1/en
Publication of JP2019185557A publication Critical patent/JP2019185557A/ja
Application granted granted Critical
Publication of JP6973258B2 publication Critical patent/JP6973258B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/223Analysis of motion using block-matching
    • G06T7/231Analysis of motion using block-matching using full search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/446Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering using Haar-like filters, e.g. using integral image techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Geometry (AREA)
  • Ophthalmology & Optometry (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】検出対象物の一時的な変化が発生しても検出対象物の誤検出を生じ難くし、これにより検出動作の安定性の向上を図る。【解決手段】トラッキングフラグがオンになっている状態で、探索制御部6が、前フレームに対し、現フレームの顔の特徴点の位置座標の変化量が所定の範囲内であるか、顔向きの変化量が所定の角度の範囲内であるか、視線の方向変化量が所定の範囲内であるかをそれぞれ判定する。そして、これらの全ての判定において条件が満たされれば、前フレームに対する現フレームの検出結果の変化は許容範囲内であると見なし、後続フレームにおいても引き続きトラッキング情報記憶部7に保存された顔画像領域に応じて顔画像の検出処理を行う。【選択図】図1

Description

この発明の実施形態は、例えば撮像された画像から人の顔を検出するために使用される画像解析装置、方法およびプログラムに関する。
例えば、ドライバモニタリング等の監視分野において、カメラにより撮像された画像から人の顔が含まれる画像領域を検出し、検出された顔画像領域から目や鼻、口などの複数の器官の位置や顔の向き、視線等を検出する技術が提案されている。
撮像画像から人の顔が含まれる画像領域を検出する手法としては、例えばテンプレートマッチング等の公知の画像処理技術が知られている。この技術は、例えば、撮像画像に対し予め用意された顔の基準テンプレートの位置を所定数の画素間隔でステップ的に移動させながら、上記撮像画像からテンプレートの画像との一致の度合いが閾値以上となる画像領域を検出し、この検出された画像領域を例えば矩形の枠により抽出することにより、人の顔を検出するものである。
また、検出された顔画像領域から器官の位置や顔の向きを検出する技術としては、例えば検出対象とする顔の複数の器官を顔形状モデルを用いて探索する技術が知られている。この技術は、例えば、学習等により予め作成された顔形状モデルを用いて、顔画像領域から上記顔の各器官の位置を表す特徴点を探索し、この探索結果の信頼度が閾値を超えた場合にこのときの上記特徴点を含む領域を顔画像とするものである(例えば特許文献1を参照)。
特開2010−191592号公報
ところが、一般に従来の顔検出技術は、特許文献1に記載されているように、顔の特徴点の探索結果の信頼度が閾値を閾値に満たない場合、無条件で上記特徴点の検出に失敗したと判断し、顔領域の検出からやり直すようにしている。このため、例えば手や髪の毛により顔の一部が一時的に隠れることで特徴点の検出結果の信頼度が一時的に低下した場合にも、上記特徴点の検出結果が失敗と判定され、顔検出が初めからやり直しになる。またこのとき、撮像画像中から同時に検出された背景画像の中に、例えば後部座席の人の顔やシートの模様等の検出対象の顔の特徴と類似する画像パターンが含まれ、かつその信頼度が閾値より高いと、本来の検出対象の顔に代わって上記背景画像が検出対象として誤検出されることがあり、顔検出の処理が不安定になるという問題があった。
この発明は上記事情に着目してなされたもので、検出対象物の一時的な変化が発生しても検出対象物の誤検出を生じ難くし、これにより検出動作の安定性の向上を図った技術を提供しようとするものである。
上記課題を解決するためにこの発明の第1の態様は、探索部において、時系列的に入力される画像からフレーム単位で検出対象物が含まれる画像領域を検出し、当該検出された画像領域に基づいて前記検出対象物の状態を推定する探索部を備える画像解析装置において、前記推定された前記検出対象物の状態の確からしさを表す信頼度を検出する信頼度検出部と、この検出された信頼度に基づいて前記探索部の処理を制御する探索制御部をさらに備えている。
そして、探索制御部において、第1フレームにおいて検出された信頼度が信頼度条件を満たすと判定された場合に、第1フレームにおいて上記探索部により検出された画像領域の位置をメモリに保存し、第1フレームに続く第2フレームにおける上記検出対象物の状態の推定が前記保存された画像領域の位置を基準にして行われるように前記探索部を制御する。
また探索制御部において、前記第2フレームにおいて前記探索部により推定された前記検出対象物の状態の前記第1フレームからの変化が、予め設定された判定条件を満たしているか否かを判定する。そして、変化が判定条件を満たしていると判定された場合には、上記第2フレームに続く第3フレームにおける上記検出対象物の状態の推定処理が上記保存された画像領域の位置を基準にして行われる。
これに対し上記検出対象物の状態の上記第1フレームからの変化が上記判定条件を満たさないと判定された場合には、探索制御部において、上記メモリに保存されている画像領域の位置を消去し、上記第2フレームに続く第3フレームにおける探索部の処理を、画像フレーム全体を対象として上記画像領域の検出処理から行うようにしたものである。
従って、第1の態様によれば、画像の第1フレームにおいて探索部により推定された検出対象物の状態の信頼度が所定の信頼度条件を満たすと、例えばトラッキングモードと呼ばれる探索モードが設定される。トラッキングモードでは、上記第1フレームにおいて上記探索部により検出された画像領域の位置がメモリに保存される。そして、探索部では、上記第1フレームに続く第2フレームにおいて上記検出対象物の状態を推定する際に、上記保存された画像領域の位置を基準にして検出対象物が含まれる画像領域が検出され、この画像領域をもとに上記検出対象物の状態を推定する処理が行われる。このため、全てのフレームにおいて常に初期状態から検出対象物が含まれる画像領域を検出して検出対象物の状態を推定する処理を行う場合に比べ、画像領域の検出を効率良く行うことができる。
また第1の態様によれば、上記トラッキングモードが設定された状態で、探索部で推定された検出対象物の状態のフレーム間変化量が所定の判定条件を満たすか否かが判定される。そして、満たしていれば、第2フレームで推定された検出対象物の状態の変化は許容範囲内であると見なされ、続く第3フレームにおいても引き続き上記トラッキングモードによる画像領域の検出および検出対象物の状態を推定する処理が行われる。
このため、例えばドライバモニタリングの分野において、ドライバの顔の一部が手や髪の毛等により一時的に隠れたり、ドライバの体動に伴い顔の一部が顔画像領域の基準位置から一時的に外れた場合には、トラッキングモードが維持され、後続フレームにおいては引き続きトラッキングモードによる画像領域の検出処理と検出対象物の状態の推定処理が行われる。このため、検出対象物の画像領域の検出および検出対象物の状態の推定処理の安定性を高めることができる。
さらに第1の態様によれば、検出対象物の状態のフレーム間変化量が所定の判定条件を満たさなければトラッキングモードは解除され、次フレームからは再び画像の全領域を探索範囲として検出対象物が含まれる画像領域が検出され、検出対象物の状態の推定が行われる。このため、トラッキングモード設定中において、検出対象物の状態の推定結果の信頼性が上記判定条件以下に低下した場合には、次フレームでは初期状態から画像領域を検出し検出対象物の状態を推定する処理が行われる。従って、信頼度が低下した状態では、速やかにトラッキングモードは解除され、これにより検出対象物の状態を高精度に把握することができる。
この発明に係る装置の第2の態様は、前記第1の態様において、前記探索部が、前記検出対象物を人の顔とし、当該人の顔を構成する複数の器官に対応して予め設定された複数の特徴点の位置、前記顔の向きおよび前記顔の視線方向の少なくとも1つを推定するようにしたものである。
第2の態様によれば、例えば、ドライバモニタリングの分野においてドライバの顔の状態を信頼性高くかつ安定的に推定することが可能となる。
この発明に係る装置の第3の態様は、前記第2の態様において、前記探索部が、前記画像領域における、前記人の顔を構成する複数の器官に対応して予め設定された複数の特徴点の位置を推定する処理を行い、前記第2の判定部が、前記判定条件として、前記特徴点の位置のフレーム間変化の許容量を定義した第1の閾値を有し、前記探索部により推定された前記特徴点の位置の前記第1のフレームと前記第2フレームとの間の変化量が、前記第1の閾値を超えているか否かを判定するようにしたものである。
第3の態様によれば、例えば、ドライバの顔の特徴点位置の推定結果の信頼度が低下した場合、上記特徴点位置のフレーム間変化量が第1の閾値以下であれば、このときの特徴点位置の変化は許容範囲内であると見なされ、トラッキングモードが継続される。したがって、顔の特徴点の推定結果の信頼度が一時的に低下した場合には、トラッキングモードに従い、効率のよい処理を継続することができる。
この発明に係る装置の第4の態様は、前記第2の態様において、前記探索部が、前記画像領域から前記人の顔の基準方向に対する向きを推定する処理を行い、前記第2の判定部が、前記判定条件として、前記人の顔の向きのフレーム間変化の許容量を定義した第2の閾値を有し、前記探索部により推定された前記人の顔の向きの前記第1フレームと第2フレームとの間における変化量が、前記第2の閾値を超えているか否かを判定するようにしたものである。
第4の態様によれば、例えば、ドライバの顔の向きの推定結果の信頼度が低下した場合、上記顔向きのフレーム間変化量が第2の閾値以下であれば、このときの顔向きの変化は許容範囲内であると見なされ、トラッキングモードが継続される。したがって、顔の向きの推定結果の信頼度が一時的に低下した場合には、トラッキングモードに従い、効率のよい処理を継続することができる。
この発明に係る装置の第5の態様は、前記第2の態様において、前記探索部が、前記画像領域から前記人の顔の視線を推定する処理を行い、前記第2の判定部が、前記判定条件として、前記検出対象物の視線方向のフレーム間変化の許容量を定義した第3の閾値を有し、前記探索部により推定された前記人の顔の視線方向の前記第1フレームと前記第2フレームとの間の変化量が、前記第3の閾値を超えているか否かを判定するようにしたものである。
第5の態様によれば、例えば、ドライバの視線の方向の推定結果の信頼度が低下した場合、上記視線の方向のフレーム間変化量が第3の閾値以下であれば、このときの視線の方向の変化は許容範囲内であると見なされ、トラッキングモードが継続される。したがって、視線方向の推定結果の信頼度が一時的に低下した場合には、トラッキングモードに従い、効率のよい処理を継続することができる。
すなわちこの発明の各態様によれば、検出対象物の一時的な変化が発生しても検出対象物の誤検出を生じ難くし、これにより検出動作の安定性の向上を図った技術を提供することができる。
図1は、この発明の一実施形態に係る画像解析装置の一適用例を示すブロック図である。 図2は、この発明の一実施形態に係る画像解析装置のハードウェアの構成の一例を示すブロック図である。 図3は、この発明の一実施形態に係る画像解析装置のソフトウェアの構成の一例を示すブロック図である。 図4は、図3に示した画像解析装置による学習処理の手順と処理内容の一例を示すフローチャートである。 図5は、図3に示した画像解析装置による画像解析処理の全体の処理手順と処理内容の一例を示すフローチャートである。 図6は、図5に示した画像解析処理のサブルーチンの1つを示すフローチャートである。 図7は、図5に示した画像解析処理のうち特徴点探索処理の処理手順と処理内容の一例を示すフローチャートである。 図8は、図5に示した顔領域検出処理により検出された顔領域の一例を示す図である。 図9は、図5に示した特徴点探索処理により検出された顔特徴点の一例を示す図である。 図10は、顔領域の一部が手により隠された例を示す図である。 図11は、顔画像から抽出された特徴点の一例を示す図である。 図12は、顔画像から抽出された特徴点を三次元表示した例を示す図である。
以下、図面を参照してこの発明に係わる実施形態を説明する。
[適用例]
先ず、この発明の実施形態に係る画像解析装置の一適用例について説明する。
この発明の実施形態に係る画像解析装置は、例えば、ドライバの顔を構成する複数の器官(目や、鼻、口、頬骨等)に対応して予め設定した複数の特徴点の位置や、ドライバの顔の向き、視線の方向等を監視するドライバモニタリングシステムに使用されるもので、以下のように構成される。
図1は、ドライバモニタリングシステムで使用される画像解析装置の機能構成を示すブロック図である。画像解析装置2はカメラ1に接続される。カメラ1は、例えば運転席と対向する位置に設置され、運転席に着座しているドライバの顔を含む所定の範囲を一定のフレーム周期で撮像し、その画像信号を出力する。
画像解析装置2は、画像取得部3と、顔検出部4と、信頼度検出部5と、探索制御部(単に制御部とも云う)6と、トラッキング情報記憶部7とを備えている。
画像取得部3は、例えば、上記カメラ1から時系列で出力される画像信号を受信し、受信した画像信号をそのフレームごとにデジタル信号からなる画像データに変換して画像メモリに保存する。
顔検出部4は、顔領域検出部4aと、探索部4bとを有する。
顔領域検出部4aは、上記画像取得部3により取得された画像データをフレームごとに上記画像メモリから読み出し、当該画像データからドライバの顔を含む画像領域(部分画像)を抽出する。例えば、顔領域検出部4aは、テンプレートマッチング法を使用する。そして、画像データに対し顔の基準テンプレートの位置を所定数の画素間隔でステップ的に移動させながら、上記画像データから基準テンプレートの画像との一致の度合いが閾値以上となる画像領域を検出し、この検出された画像領域を抽出する。この顔画像領域の抽出には、例えば矩形枠が使用される。
探索部4bは、その機能として、顔の特徴点の位置を検出する位置検出部4b1と、顔向き検出部4b2と、視線検出部4b3とを有する。探索部4bは、例えば、顔の複数の角度の各々に対応して用意された複数の三次元顔形状モデルを用いる。三次元顔形状モデルは、検出対象となる複数の特徴点に対応する顔の複数の器官(例えば目や鼻、口、頬骨)の三次元位置を特徴点配置ベクトルにより定義したものである。
探索部4bは、例えば上記抽出された顔画像領域に対し上記複数の三次元顔形状モデルを順次射影することにより、上記顔領域検出部4aにより検出された顔画像領域から上記各器官の特徴量を取得する。そして、取得された特徴量の正解値に対する誤差量と、当該誤差量が閾値以内となるときの三次元顔形状モデルとに基づいて、上記顔画像領域における各特徴点の三次元位置座標を推定し、さらにこの推定された各特徴点の三次元位置座標をもとに顔の向きと視線の方向をそれぞれ推定する。
なお、探索部4bでは、先ず粗探索により顔の代表的な特徴点の位置を推定し、続いて詳細探索により多数の特徴点の位置を推定するというように、探索処理を二段階で行うことも可能である。粗探索と詳細探索との違いは、例えば、検出対象とする特徴点の数と、それに対応する三次元顔形状モデルの特徴点配置ベクトルの次元数と、特徴量の正解値に対する誤差量を判定するための判定条件にある。
詳細探索では、顔画像領域から顔を精度良く検出するために、例えば検出対象の特徴点を多く設定して三次元顔形状モデルの特徴点配置ベクトルの次元数を多次元とし、さらに顔画像領域から取得した特徴量の正解値に対する誤差量の判定条件を厳しく設定する。例えば、判定閾値を小さい値に設定する。これに対し粗探索では、顔の特徴点を短時間に検出するために、検出対象の特徴点を限定して三次元顔形状モデルの特徴点配置ベクトルの次元数を少なくし、さらに誤差量の判定条件が詳細探索の場合より緩くなるように、判定閾値を大きめの値に設定する。
信頼度検出部5は、上記探索部4bにより得られた特徴点の位置の推定結果についてその確からしさを表す信頼度を算出する。信頼度の算出方法としては、例えば、予め記憶された顔画像の特徴と、探索部4bにより検出された顔画像領域の特徴とを比較して、検出した顔領域の画像が被写体の画像である確率を求め、この確率から信頼度を算出する方法が用いられる。また、別の検出方法として、予め記憶された顔画像の特徴と、探索部4bにより検出された顔領域の画像の特徴との差を算出し、その差の大きさから信頼度を算出する方法を使用することもできる。
探索制御部6は、上記信頼度検出部5により検出された信頼度に基づいて、上記顔検出部4の動作を制御する。
例えば、探索制御部6は、画像の現フレームにおいて、上記探索部4bにより得られた推定結果の信頼度が閾値を超えた場合に、トラッキングフラグをオンに設定し、このとき顔領域検出部4aにより検出された顔画像領域をトラッキング情報記憶部7に保存する。つまり、トラッキングモードを設定する。そして、上記保存された顔画像領域を、後続のフレームにおいて顔画像領域を検出するための基準位置とするように顔領域検出部4aに提供する。
また探索制御部6は、上記トラッキングモードが設定されている状態で、前フレームの推定結果に対する現フレームの推定結果の変化の状況が、予め設定された判定条件を満たしているか否かを判定する。
ここで、上記判定条件としては以下の3種類が使用される。
(a) 顔の特徴点の位置座標の変化量が所定の範囲内であること。
(b) 顔の向きの変化量が所定の角度の範囲内であること。
(c) 視線の方向の変化量が所定の範囲内であること。
そして探索制御部6は、上記前フレームの推定結果に対する現フレームの推定結果の変化量が、上記3種類の判定条件(a) 〜(c) の全てを満たすと判定すると、トラッキングフラグをオンに維持したまま、つまりトラッキングモードを維持したまま、トラッキング情報記憶部7に保存されている顔画像領域を保持し続ける。そして、顔領域検出部4aに対し上記保存された顔画像領域の座標を顔検出部4に引き続き提供し、この顔画像領域を当該顔画像領域を後続フレームにおいて上記顔領域を検出するための基準位置として使用できるようにする。
これに対し、上記前フレームにおける推定結果に対する現フレームにおける推定結果の変化が、上記3種類の判定条件のいずれか1つでも満たさない場合、探索制御部6はトラッキングフラグをオフにリセットし、上記トラッキング情報記憶部7に保存されている顔画像領域の座標を消去する。つまり、トラッキングモードを解除する。そして、顔領域検出部112に対し、後続フレームにおいては顔画像領域の検出処理を、フレーム全体を対象にして初期状態からやり直すように指示する。
以上のような機能構成を備えることで、この適用例によれば、ある画像フレームにおいて探索部4bによる推定結果の信頼度が閾値を超えると、顔の特徴点が高い信頼度で推定されたと判断されてトラッキングフラグがオンになり、当該フレームにおいて推定された顔画像領域の座標がトラッキング情報記憶部7に保存される。そして、次フレームでは、上記トラッキング情報記憶部7に保存された顔画像領域の座標を基準位置として顔画像領域の検出が行われる。このため、各フレームにおいて常に初期状態から顔画像領域を検出する場合に比べ、顔画像領域の検出を効率良く行うことができる。
一方、上記トラッキングフラグがオンになっている状態で、つまりトラッキングモード設定されている状態で、探索制御部6では、顔の特徴点の位置座標のフレーム間の変化量が所定の範囲内であるか、顔の向きのフレーム間の変化量が所定の角度の範囲内であるか、視線の方向のフレーム間の変化量が所定の範囲内であるかがそれぞれ判定される。そして、これらの全ての判定において判定条件が満たされれば、上記前フレームに対し現フレームの推定結果が変化したとしても、その変化は許容範囲内であると見なされ、後続フレームにおいても引き続きトラッキング情報記憶部7に保存された顔画像領域の位置座標を基準位置として顔画像領域の検出処理が行われる。
従って、例えば、ドライバの顔の一部が手や髪の毛等により一時的に隠れたり、ドライバの体動に伴い顔の一部がトラッキング中の顔画像領域から一時的に外れた場合にも、トラッキングモードは維持され、後続フレームにおいては引き続きトラッキング情報記憶部7に保存された顔画像領域の座標を基準位置として顔画像領域の検出処理が行われる。このため、探索部4bによる顔の特徴点の位置、顔の向きおよび視線の方向を推定する処理の安定性を高めることができる。
なお、上記判定条件を用いてトラッキングモードを維持するか否かを判定する際に、上記3つの判定条件を全て満たさなくても、これらの判定条件のうちの1つまたは2つを満たせば、トラッキングモードが継続されるようにしてもよい。
[一実施形態]
(構成例)
(1)システム
この発明の一実施形態に係る画像解析装置は、適用例においても述べたように、例えば、ドライバの顔の状態を監視するドライバモニタリングシステムにおいて使用される。ドライバモニタリングシステムは、例えば、カメラ1と、画像解析装置2とを備える。
カメラ1は、例えば、ダッシュボード上の運転者(ドライバ)と正対する位置に配置される。カメラ1は、撮像デバイスとして例えば近赤外光を受光可能なCMOS(Complementary MOS)イメージセンサを使用する。カメラ1は、ドライバの顔を含む所定の範囲を撮像し、その画像信号を例えば信号ケーブルを介して画像解析装置2へ送出する。なお、撮像デバイスとしては、CCD(Charge Coupled Device)等のその他の固体撮像素子を用いてもよい。またカメラ1の設置位置は、フロントガラスやルームミラー等のようにドライバと正対する場所であれば、どこに設定されてもよい。
(2)画像解析装置
画像解析装置2は、上記カメラ1により得られた画像信号からドライバの顔画像領域を検出し、この顔画像領域からドライバの顔の状態、例えば、顔の複数の器官(例えば目や鼻、口、頬骨)に対応して予め設定された複数の特徴点の位置、顔の向き、視線の方向を検出するものである。
(2−1)ハードウェア構成
図2は、画像解析装置2のハードウェア構成の一例を示すブロック図である。
画像解析装置2は、例えば、CPU(Central Processing Unit)等のハードウェアプロセッサ11Aを有する。そして、このハードウェアプロセッサ11Aに対し、プログラムメモリ11B、データメモリ12、カメラインタフェース(カメラI/F)13、外部インタフェース(外部I/F)14を、バス15を介して接続したものとなっている。
カメラI/F13は、上記カメラ1から出力された画像信号を、例えば信号ケーブルを介して受信する。外部I/F14は、顔の状態の検出結果を表す情報を、例えば脇見や眠気を判定するドライバ状態判定装置や、車両の動作を制御する自動運転制御装置等の外部装置へ出力する。
なお、車内にLAN(Local Area Network)等の車内有線ネットワークや、Bluetooth(登録商標)等の小電力無線データ通信規格を採用した車内無線ネットワークが備えられている場合には、上記カメラ1とカメラI/F13との間、および外部I/F14と外部装置との間の信号伝送を、上記ネットワークを用いて行ってもよい。
プログラムメモリ11Bは、記憶媒体として、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)等の随時書込みおよび読出しが可能な不揮発性メモリと、ROM等の不揮発性メモリとを使用したもので、一実施形態に係る各種制御処理を実行するために必要なプログラムが格納されている。
データメモリ12は、例えば、HDDまたはSSD等の随時書込みおよび読出しが可能な不揮発性メモリと、RAM等の揮発性メモリとを組み合わせたものを記憶媒体として備え、一実施形態に係る各種処理を実行する過程で取得、検出および算出された各種データや、テンプレートデータ等を記憶するために用いられる。
(2−2)ソフトウェア構成
図3は、この発明の一実施形態に係る画像解析装置2のソフトウェア構成を示したブロック図である。
データメモリ12の記憶領域には、画像記憶部121と、テンプレート記憶部122と、検出結果記憶部123と、トラッキング情報記憶部124が設けられている。画像記憶部121は、カメラ1から取得した画像データを一時保存するために用いられる。
テンプレート記憶部122は、画像データからドライバの顔が映っている画像領域を検出するための顔の基準テンプレートや、三次元顔形状モデルを記憶する。三次元顔画像モデルは、上記検出された顔画像領域から検出対象となる複数の器官(例えば目や鼻、口、頬骨)に対応する複数の特徴点を検出するためのもので、想定される顔の向きに応じて複数のモデルが用意される。
検出結果記憶部123は、顔画像領域から推定された顔の各器官に対応する複数の特徴点の三次元位置座標、顔の向きおよび視線の方向を表す情報を記憶するために用いられる。トラッキング情報記憶部124は、トラッキングフラグと、トラッキング中の顔画像領域の位置座標を保存するために用いられる。
制御ユニット11は、上記ハードウェアプロセッサ11Aと、上記プログラムメモリ11Bとから構成され、ソフトウェアによる処理機能部として、画像取得制御部111と、顔領域検出部112と、探索部113と、信頼度検出部115と、探索制御部116と、出力制御部117とを備えている。これらの処理機能部は、いずれもプログラムメモリ11Bに格納されたプログラムを、上記ハードウェアプロセッサ11Aに実行させることにより実現される。
上記カメラ1から時系列で出力された画像信号はカメラI/F13で受信され、フレームごとにデジタル信号からなる画像データに変換される。画像取得制御部111は、上記カメラI/F13から、上記画像データをフレームごとに取り込んでデータメモリ12の画像記憶部121に保存する処理を行う。
顔領域検出部112は、上記画像記憶部121から画像データをフレームごとに読み出す。そして、テンプレート記憶部122に記憶されている顔の基準テンプレートを用いて、上記読み出した画像データから、ドライバの顔が映っている画像領域を検出する。例えば、顔領域検出部112は、画像データに対し顔の基準テンプレートを予め設定した複数の画素間隔(例えば8画素)でステップ的に移動させ、この移動ごとに上記基準テンプレートと画像データとの輝度の相関値を算出する。そして、算出された相関値を予め設定されている閾値と比較し、算出された相関値が閾値以上のステップ位置に対応する画像領域を、ドライバの顔が映っている顔領域として、矩形枠により抽出する処理を行う。矩形枠のサイズは、撮像画像に写るドライバの顔のサイズに応じて予め設定されている。
なお、上記顔の基準テンプレート画像としては、例えば、顔全体の輪郭に対応した基準テンプレートや、一般的な顔の各器官(目、鼻、口、頬骨等)に基づくテンプレートを用いることができる。また、テンプレートマッチングによる顔検出方法としては、例えば、クロマキー処理によって頭部などの頂点を検出しこの頂点に基づいて顔を検出する方法や、肌の色に近い領域を検出してその領域を顔として検出する方法等も用いることができる。さらに顔領域検出部112は、ニューラルネットワークを使って教師信号による学習を行い、顔らしい領域を顔として検出するように構成されてもよい。また、顔領域検出部112による顔画像領域の検出処理は、その他、既存のどのような技術を適用することによって実現されてもよい。
探索部113は、位置検出部1131と、顔向き検出部1132と、視線検出部1133とを有する。
位置検出部1131は、例えば、上記顔領域検出部112により検出された顔画像領域から、テンプレート記憶部122に記憶された三次元顔形状モデルを用いて、目、鼻、口、頬骨等の顔の各器官に対応して設定された複数の特徴点を探索し、その位置座標を推定する。三次元顔形状モデルは、先に適用例等でも述べたように、ドライバの顔の複数の向きに対応して複数用意される。例えば、顔の正面方向、斜め右方向、斜め左方向、斜め上方向、斜め下方向等の代表的な顔の向きに対応するモデルが用意される。なお、顔向きをヨー方向とピッチ方向の2つの軸方向にそれぞれ一定の角度おきに定義し、これらの各軸の全ての角度の組み合わせに対応する三次元顔形状モデルを用意するようにしてもよい。三次元顔形状モデルは、例えばドライバの実際の顔に応じて学習処理により生成されるのがよいが、一般的な顔画像から取得される平均的な初期パラメータが設定されたモデルであってもよい。
顔向き検出部1132は、例えば、上記特徴点の探索により正解値に対する誤差が最も小さくなるときの各特徴点の位置座標と、当該位置座標の検出に使用した三次元顔形状モデルに基づいてドライバの顔の向きを推定する。視線検出部1133は、例えば、上記位置検出部1131により推定される複数の特徴点の位置のうち、眼球の輝点の三次元位置と瞳孔の二次元位置とに基づいて、ドライバの視線の方向を算出する。
信頼度検出部115は、上記探索部113により推定された特徴点の位置の信頼度αを算出する。信頼度の検出方法としては、例えば、予め記憶された顔画像の特徴と、探索部113により検出された顔画像領域の特徴とを比較して、検出した顔領域の画像が被写体の画像である確率を求め、この確率から信頼度を算出する方法が用いられる。
探索制御部116は、上記信頼度検出部115により検出された信頼度αと、上記位置検出部1131により推定された特徴点の位置座標と、上記顔向き検出部1132により推定された顔の向きと、上記視線検出部1133により推定された視線の方向とに基づいて、以下のような探索制御を実行する。
(1) 画像データの現フレームにおいて、上記探索部113による推定結果の信頼度αが予め設定された閾値を超えた場合に、トラッキングフラグをオンに設定し、かつ上記フレームにおいて検出された顔画像領域の座標をトラッキング情報記憶部7に保存する。つまり、トラッキングモードを設定する。そして、上記保存された顔画像領域の位置座標を、画像データの後続フレームにおいて顔画像領域を検出する際の基準位置として使用するように顔領域検出部112に対し指示を与える。
(2) 上記トラッキングモードが設定されている状態で、
(a) 前フレームの推定結果に対する現フレームで検出された顔の特徴点座標の変化量が、所定の範囲内であるか否か、
(b) 前フレームの推定結果に対する現フレームで検出された顔の向きの変化量が、所定の角度の範囲内であるか否か、
(c) 前フレームの推定結果に対する現フレームで検出された視線方向の変化量が、所定の範囲内であるか否か、
をそれぞれ判定する。
探索制御部116は、上記各判定条件(a)〜(c) の全てを満たすと判定すると、トラッキングモードを維持する。すなわち、トラッキングフラグをオンのまま維持し、かつ上記トラッキング情報記憶部7に保存されている顔画像領域の座標も保持し続ける。そして、顔領域検出部112に対し上記保存された顔画像領域の座標を引き続き提供し、これにより当該顔画像領域の座標を後続フレームにおいて上記顔領域を検出するための基準位置として使用できるようにする。
(3) これに対し、上記前フレームにおける推定結果に対する現フレームにおける推定結果の変化量が、上記3種類の判定条件(a)〜(c) のいずれか1つでも満たさない場合には、探索制御部6はトラッキングフラグをオフにリセットすると共に、上記トラッキング情報記憶部7に保存されている顔画像領域の座標を消去する。すなわち、トラッキングモードを解除する。そして、顔領域検出部112に対し、後続フレームにおいては、新たにトラッキングモードが設定されるまで、顔画像領域の検出処理を画像フレームの全領域を対象として初期状態からやり直すように制御する。
出力制御部117は、上記探索部113により得られた、顔画像領域における各特徴点の三次元位置座標、顔の向きを表す情報、および視線の方向を表す情報を、検出結果記憶部123から読み出して、外部I/F14から外部装置に向け送信する。送信対象となる外部装置としては、例えば脇見警報装置や自動運転制御装置などが考えられる。
(動作例)
次に、以上のように構成された画像解析装置2の動作例を説明する。
なお、この例では、撮像された画像データから顔が含まれる画像領域を検出する処理に使用する顔の基準テンプレートが、予めテンプレート記憶部122に記憶されているものとして説明を行う。
(1)学習処理
先ず、画像解析装置2を動作させるために必要となる学習処理について説明する。
学習処理は、画像解析装置2によって画像データから特徴点の位置を検出するために予め実施しておく必要がある。
学習処理は、画像解析装置2に事前にインストールされた学習処理プログラム(図示省略)により実行される。なお、学習処理を、画像解析装置2以外の、例えばネットワーク上に設けられたサーバ等の情報処理装置において実行し、その学習結果を画像解析装置2にネットワークを介してダウンロードし、テンプレート記憶部122に格納するようにしてもよい。
学習処理は、例えば、三次元顔形状モデルの取得処理、三次元顔形状モデルの画像平面への射影処理、特徴量サンプリング処理、および誤差検出行列の取得処理により構成される。
学習処理では、複数の学習用顔画像(以下、学習処理の説明において「顔画像」と呼ぶ)と、各顔画像における特徴点の三次元座標が用意される。特徴点は、例えば、レーザスキャナやステレオカメラなどの技術によって取得することができるが、その他どのような技術を用いてもよい。この特徴点抽出処理は、学習処理の精度を高めるためにも、人間の顔を対象として実施されることが望ましい。
図12は顔の検出対象の特徴点の位置を二次元平面で例示した図、図13は上記特徴点を三次元座標として示した図である。図12および図13の例では、目の両端(目頭と目尻)および中心、左右のほお骨部分(眼窩底部分)、鼻の頂点と左右の端点、左右の口角、口の中心、鼻の左右端点と左右の口角との中間点が、特徴点としてそれぞれ設定された場合を示している。
図4は、画像解析装置2により実行される学習処理の処理手順と処理内容の一例を示すフローチャートである。
(1−1)三次元顔形状モデルの取得
画像解析装置2は、先ずステップS01により変数iを定義し、これに1を代入する。次にステップS02において、予め特徴点の三次元位置が取得されている学習用の顔画像のうち、i番目のフレームの顔画像(Img_i)を画像記憶部121から読み込む。ここでは、iに1が代入されているため1番目のフレームの顔画像(Img_1)が読み込まれる。続いてステップS03により、顔画像Img_iの特徴点の正解座標の集合を読み出し、正解モデルパラメータkoptを取得して三次元顔形状モデルの正解モデルを作成する。次に画像解析装置2は、ステップS04により、正解モデルパラメータkoptに基づいてずれ配置モデルパラメータkdifを作成し、ずれ配置モデルを作成する。このずれ配置モデルの作成は乱数を発生させて所定の範囲内で正解モデルからずらすことが好ましい。
以上の処理を具体的に説明する。先ず、各特徴点piの座標を、pi(xi,yi,zi)とする。このとき、iは、1からn(nは特徴点の数を示す)の値を示す。次に、各顔画像についての特徴点配置ベクトルXを[数1]のように定義する。ある顔画像jについての特徴点配置ベクトルは、Xjと記す。なお、Xの次元数は3nである。
この発明の一実施形態で使用される三次元顔形状モデルは、例えば図12および図13に例示したように目、鼻、口、頬骨に関する多数の特徴点を探索するために使用されるため、特徴点配置ベクトルXの次元数Xは上記多数の特徴点の数に対応するものとなる。
次に画像解析装置2は、取得された全ての特徴点配置ベクトルXを、適当な基準に基づき正規化する。このときの正規化の基準は、設計者によって適宜決定されてよい。
以下、正規化の具体例について説明する。例えば、ある顔画像jについての特徴点配置ベクトルXjについて、点p1〜pnの重心座標をpとするとき、重心pを原点とする座標系に各点を移動させた後、[数2]によって定義されるLmを用いて、その大きさを正規化することができる。具体的には、Lmによって移動後の座標値を割ることにより、大きさを正規化することができる。ここで、Lmは、重心から各点までの直線距離の平均値である。
また、回転に対しては、例えば両目の中心を結ぶ直線が一定方向を向くように特徴点座標に対して回転変換を行うことにより、正規化することができる。以上の処理は、回転、拡大・縮小の組み合わせで表現できるため、正規化後の特徴点配置ベクトルxは[数3]のように表すことができる(相似変換)。
次に画像解析装置2は、上記正規化特徴点配置ベクトルの集合に対し、主成分分析を行う。主成分分析は例えば以下のように行うことができる。先ず[数4]に示される式に従って、平均ベクトル(平均ベクトルはxの上部に水平線を記すことにより示される)を取得する。なお、数4において、Nは、顔画像の数、即ち特徴点配置ベクトルの数を示す。
そして、[数5]に示されるように、全ての正規化特徴点配置ベクトルから平均ベクトルを差し引くことにより、差分ベクトルx’を取得する。画像jについての差分ベクトルは、x’jと示される。
上記した主成分分析の結果、固有ベクトルと固有値との組が3n個得られる。任意の正規化特徴点配置ベクトルは、[数6]に示される式によって表すことができる。
ここで、Pは固有ベクトル行列を示し、bは形状パラメータベクトルを示す。それぞれの値は[数7]に示される通りである。なお、eiは、固有ベクトルを示す。
実際には、固有値の大きい上位k次元までの値を用いることにより、任意の正規化特徴点配置ベクトルxは[数8]のように近似して表すことができる。以下、固有値の大きい順に、eiを第i主成分と呼ぶ。
なお、実際の顔画像に顔形状モデルを当てはめる(フィッティングさせる)際には、正規化特徴点配置ベクトルxに対して相似変換(平行移動,回転)を行う。相似変換のパラメータをsx,sy,sz,sθ,sφ,sψとすると、形状パラメータとあわせて、モデルパラメータkを[数9]のように表すことができる。
このモデルパラメータkによって表される三次元顔形状モデルが、ある顔画像上の特徴点位置にほぼ正確に一致する場合に、そのパラメータをその顔画像における三次元正解モデルパラメータと呼ぶ。正確に一致しているか否かは、設計者により設定される閾値や基準に基づいて判断される。
(1−2)射影処理
画像解析装置2は、次にステップS05において、ずれ配置モデルを学習画像上に射影する。
三次元顔形状モデルは、二次元平面に射影することにより二次元画像上での処理が可能になる。三次元形状を二次元平面に射影する方法としては、平行投影法、透視投影法などの各種の手法が存在する。ここでは、透視投影法のうち単点透視投影を例に説明する。尤も、他のどのような手法を使用しても同様の効果を得ることができる。z=0平面への単点透視投影行列は、[数10]に示す通りである。
ここで、r=−1/zであり、zcはz軸上の投影中心を表す。これにより、三次元座標[x,y,z]は[数11]に示すように変換され、z=0平面上の座標系で[数12]のように表される。
以上の処理により、三次元顔形状モデルは二次元平面に射影される。
(1−3)特徴量サンプリング
画像解析装置2は、次にステップS06において、上記ずれ配置モデルが射影された二次元顔形状モデルに基づいてレティナ構造を用いたサンプリングを実行し、サンプリング特徴量f_iを取得する。
特徴量のサンプリングは、画像上に射影された顔形状モデルに対し可変レティナ構造を組み合わせることによって行われる。レティナ構造とは、ある着目したい特徴点(ノード)の周囲に放射状に離散的に配置されたサンプリング点の構造のことである。レティナ構造によるサンプリングを実施することにより、特徴点周りの情報を、低次元で効率的にサンプリングすることが可能となる。この学習処理では、三次元顔形状モデルから二次元平面に射影された顔形状モデル(以下、二次元顔形状モデルという)の各ノードの射影点(各点p)において、レティナ構造によるサンプリングが実施される。なお、レティナ構造によるサンプリングとは、レティナ構造に従って定められたサンプリング点においてサンプリングを実施することを云う。
レティナ構造は、i番目のサンプリング点の座標をqi(xi,yi)とすると、[数13]のように表すことができる。
従って、例えばある点p(xp,yp)について、レティナ構造によるサンプリングを行うことにより得られるレティナ特徴量fpは、[数14]のように表すことができる。
但し、f(p)は、点p(サンプリング点p)での特徴量を示す。また、レティナ構造における各サンプリング点の特徴量は、例えば、画像の輝度、Sovelフィルタ特徴量、Harr Wavelet特徴量、Gabor Wavelet特徴量、これらを複合した値として求められる。詳細探索を行う場合のように、特徴量が多次元の場合、レティナ特徴量は[数15]のように表すことができる。
ここで、Dは特徴量の次元数、fd(p)は、点pでの第d次元の特徴量を表す。また、qi(d)は第d次元に対するレティナ構造の、i番目のサンプリング座標を示す。
なお、レティナ構造は、顔形状モデルのスケールに応じてその大きさを変化させることができる。例えば、平行移動パラメータszに反比例させて、レティナ構造の大きさを変化させることができる。このとき、レティナ構造rは[数16]のように表すことができる。なお、ここで云うαは適当な固定値であり、探索結果の信頼度α(n) とは別の値である。またレティナ構造は、顔形状モデルにおける他のパラメータに応じて回転や形状変化させてもよい。またレティナ構造は、顔形状モデルの各ノードによってその形状(構造)が異なるように設定されてもよい。またレティナ構造は中心点一点のみの構造であってもよい。すなわち、特徴点(ノード)のみをサンプリング点とする構造もレティナ構造に含まれる。
あるモデルパラメータによって定まる三次元顔形状モデルにおいて、射影平面上に射影された各ノードの射影点ごとに上記のサンプリングを行って得られたレティナ特徴量を一列に並べたベクトルを、その三次元顔形状モデルにおけるサンプリング特徴量fと呼ぶ。サンプリング特徴量fは[数17]のように表すことができる。[数17]において、nは顔形状モデルにおけるノードの数を示す。
なお、サンプリング時には、各ノードに対し正規化が行われる。例えば、特徴量が0から1の範囲に収まるようにスケール変換を行うことにより正規化が行われる。また、一定の平均や分散をとるように変換を行うことによって正規化を行ってもよい。なお、特徴量によっては正規化を行わなくても良い場合がある。
(1−4)誤差検出行列の取得
画像解析装置2は、次にステップS07において、正解モデルパラメータkoptと、ずれ配置モデルパラメータkdifとに基づいて、形状モデルの誤差(ずれ)dp_iを取得する。ここで、全ての学習用の顔画像について処理が完了したか否かを、ステップS08で判定する。この判定は、例えば、iの値と学習用の顔画像の数とを比較することにより判断することができる。未処理の顔画像がある場合、画像解析装置2はステップS09でiの値をインクリメントし、インクリメントされた新たなiの値に基づいてステップS02以降の処理を実行する。
一方、全ての顔画像について処理が完了したと判定した場合、画像解析装置2はステップS10において、各顔画像について得られたサンプリング特徴量f_iと三次元顔形状モデルとの誤差dp_iの集合について、正準相関分析(Canonical Correlation Analysis)を実行する。そして、予め定められた閾値よりも小さい固定値に対応する不要な相関行列をステップS11で削除し、ステップS12において最終的な誤差検出行列を得る。
誤差検出行列の取得は、正準相関分析を用いることにより実施される。正準相関分析は、二つの次元の異なる変量間の相関関係を求める手法の一つである。正準相関分析により、顔形状モデルの各ノードが誤った位置(検出すべき特徴点と異なる位置)に配置されてしまった場合に、どの方向に修正すべきかを表す相関関係についての学習結果を得ることができる。
画像解析装置2は、先ず学習用の顔画像の特徴点の三次元位置情報から三次元顔形状モデルを作成する。または、学習用の顔画像の二次元正解座標点から三次元顔形状モデルを作成する。そして、三次元顔形状モデルから正解モデルパラメータを作成する。この正解モデルパラメータを、乱数などにより一定範囲内でずらすことにより、少なくともいずれかのノードが特徴点の三次元位置からずれているずれ配置モデルを作成する。そして、ずれ配置モデルに基づいて取得したサンプリング特徴量と、ずれ配置モデルと正解モデルとの差とを組として、相関関係についての学習結果を取得する。以下、その具体的な処理を説明する。
画像解析装置2は、先ず二組の変量ベクトルxとyを[数18]のように定義する。xは、ずれ配置モデルに対するサンプリング特徴量を示す。yは、正解モデルパラメータ(kopt)とずれ配置モデルパラメータ(ずれ配置モデルを示すパラメータ:kdif)との差を示す。
二組の変量ベクトルは、予め次元ごとに平均“0”、分散“1”に正規化される。正規化に用いたパラメータ(各次元の平均、分散)は、後述する特徴点の検出処理において必要となる。以下、それぞれをxave,xvar,yave,yvarとし、正規化パラメータと呼ぶ。
次に、二つの変量に対する線形変換を[数19]のように定義した場合、u,v間の相関を最大にするようなa,bを求める。
上記aとbとは、x,yの同時分布を考え、その分散共分散行列Σを[数20]のように定義した場合に、[数21]に示す一般固有値問題を解いたときの最大固有値に対する固有ベクトルとして得られる。
これらのうち、次元の低い方の固有値問題を先に解く。例えば、1番目の式を解いて得られる最大固有値がλ1、対応する固有ベクトルがa1であった場合、ベクトルb1は、[数22]に表される式によって得られる。
このようにして求められたλ1を第1正準相関係数と呼ぶ。また、[数23]によって表されるu1,v1を第1正準変量と呼ぶ。
以下、2番目に大きい固有値に対応する第2正準変量、3番目に大きい固有値に対応する第3正準変量というように、固有値の大きさに基づいて正準変量を順に求めていく。なお、後述する特徴点の検出処理に用いるベクトルは、固有値がある一定以上の値(閾値)を有する第M正準変量までのベクトルとする。このときの閾値は、設計者によって適宜決定されてよい。以下、第M正準変量までの変換ベクトル行列を、A′,B′とし、誤差検出行列と呼ぶ。A’,B’は、[数24]のように表すことができる。
B′は、一般に正方行列とはならない。しかし、特徴点の検出処理において逆行列が必要となるため、B′に対し擬似的に0ベクトルを追加し、正方行列B″とする。正方行列B″は[数25]のように表すことができる。
なお、誤差検出行列を求めることは、線形回帰、線形重回帰、または非線形重回帰等の分析手法を用いることによっても可能である。しかし、正準相関分析を用いることにより、小さな固有値に対応する変量の影響を無視することが可能となる。従って、誤差検出に影響しない要素の影響を排除することが可能となり、より安定した誤差検出が可能となる。よって、係る効果を必要としないのであれば、正準相関分析ではなく上記した他の分析手法を用いて誤差検出行列の取得を実施することも可能である。また、誤差検出行列は、SVM(Support Vector Machine)などの手法によって取得することも可能である。
以上述べた学習処理では、各学習用顔画像に対してずれ配置モデルが1つしか作成されないが、複数個のずれ配置モデルが作成されてもよい。これは、学習用の画像に対して上記ステップS03〜ステップS07の処理を複数回(例えば10〜100回)繰り返すことにより実現される。なお、以上述べた学習処理は、特許第4093273号公報に詳しく記載されている。
(2)ドライバの顔状態の検出
上記学習処理が終了すると、画像解析装置2は、顔の基準テンプレートと、上記学習処理により得られた三次元顔形状モデルとを用いて、ドライバの顔状態を検出するための処理を以下のように実行する。この例では、顔状態として、顔の各器官に対応して設定された複数の特徴点の位置と、顔の向きと、視線の方向がそれぞれ検出される。
図5および図6は、上記顔の状態を検出する際に制御ユニット11において実行される処理の手順と処理内容の一例を示すフローチャートである。
(2−1)ドライバの顔を含む画像データの取得
例えば、運転中のドライバの姿はカメラ1により正面から撮像され、これにより得られた画像信号はカメラ1から画像解析装置2へ送られる。画像解析装置2は、上記画像信号をカメラI/F13により受信し、フレームごとにデジタル信号からなる画像データに変換する。
画像解析装置2は、画像取得制御部111の制御の下、上記画像データをフレームごとに取り込み、データメモリ12の画像記憶部121に順次記憶させる。なお、画像記憶部121に記憶する画像データのフレーム周期は任意に設定可能である。
(2−2)顔の検出(未トラッキング時)
(2−2−1)顔領域の検出
画像解析装置2は、次に顔領域検出部112の制御の下、ステップS20でフレーム番号nを1にセットした後、ステップS21により上記画像記憶部121から画像データの第1フレームを読み込む。そして、顔領域検出部112の制御の下、ステップS22において、先ずテンプレート記憶部122に予め記憶されている顔の基準テンプレートを用いて、上記読み込んだ画像データからドライバの顔が映っている画像領域を検出し、当該顔画像領域を矩形枠を用いて抽出する。
図9は、この顔領域検出処理により抽出された顔画像領域の一例を示すもので、FCはドライバの顔を示している。
(2−2−2)探索処理
画像解析装置2は、次に探索部113の制御の下、ステップS22において、上記顔領域検出部112により矩形枠により抽出された顔画像領域から、先の学習処理により作成された三次元顔形状モデルを用いて、検出対象となる顔の器官、例えば目、鼻、口、頬骨に対し設定された複数の特徴点の位置を推定する。
以下、三次元顔形状モデルを用いた特徴点の位置の推定処理の一例を説明する。図8はその処理手順と処理内容の一例を示すフローチャートである。
探索部113は、先ずステップS60において、上記データメモリ12の画像記憶部121から、上記顔領域検出部112の制御の下で、矩形枠により抽出された顔画像領域の座標を読み込む。続いてステップS61において、上記顔画像領域の初期位置に対し、初期パラメータkinitに基づいた三次元顔形状モデルを配置する。そして、ステップS62により、変数iを定義してこれに“1”を代入すると共に、kiを定義してこれに初期パラメータkinitを代入する。
例えば、探索部113は、上記矩形枠により抽出された顔画像領域から初めて特徴量を取得する場合には、先ず三次元顔形状モデルにおける各特徴点の三次元位置を決定し、この三次元顔形状モデルのパラメータ(初期パラメータ)kinitを取得する。この三次元顔形状モデルは、例えば、矩形枠の任意の頂点(例えば左上の角)から所定の位置に、三次元顔形状モデルに設定された目、鼻、口、頬骨等の器官(ノード)に対し限定された少数の特徴点が配置されるような形状となるように設定されている。なお、三次元顔形状モデルは、当該モデルの中心と矩形枠により抽出された顔画像領域の中心とが一致するような形状であってもよい。
初期パラメータkinitとは、[数9]によって表されるモデルパラメータkのうち、初期値によって表されるモデルパラメータをいう。初期パラメータkinitには、適当な値が設定されてもよい。但し、一般的な顔画像から得られる平均的な値を初期パラメータkinitに設定することにより、様々な顔の向きや表情変化などに対応することが可能となる。従って、例えば、相似変換のパラメータsx,sy,sz,sθ,sφ,sψについては、学習処理の際に用いた顔画像の正解モデルパラメータの平均値を用いてもよい。また、例えば、形状パラメータbについては、ゼロとしてもよい。また、顔領域検出部112によって顔の向きの情報が得られる場合には、この情報を用いて初期パラメータを設定してもよい。その他、設計者が経験的に得た他の値をもって初期パラメータとしてもよい。
次に探索部113は、ステップS63において、kiで表される三次元顔形状モデルを処理対象の上記顔画像領域上に射影する。そして、ステップS64において、上記射影された顔形状モデルを用いて、レティナ構造に基づいたサンプリングを実行し、サンプリング特徴量fを取得する。続いてステップS65において、上記サンプリング特徴量fを使用して誤差検出処理を実行する。なお、特徴量をサンプリングする際には、必ずしもレティナ構造を使用しなくてもよい。
一方、探索部113は、顔領域検出部112によって抽出された顔画像領域についてサンプリング特徴量を取得するのが二度目以降の場合には、誤差検出処理によって得られた新たなモデルパラメータk(すなわち、正解モデルパラメータの検出値ki+1)によって表される顔形状モデルについて、サンプリング特徴量fを取得する。そして、この場合も、ステップS65において、上記得られたサンプリング特徴量fを使用して誤差検出処理を実行する。
誤差検出処理では、上記取得されたサンプリング特徴量f、およびテンプレート記憶部122に記憶されている誤差検出行列や正規化パラメータなどに基づいて、三次元顔形状モデルkiと正解モデルパラメータとの検出誤差kerrが算出される。また、この検出誤差kerrに基づいて、ステップS66により正解モデルパラメータの検出値ki+1が算出される。さらに、ステップS67において、Δkをki+1とkiとの差として算出され、ステップS68によりΔkの二乗としてEが算出される。
また誤差検出処理では、探索処理の終了判定が行われる。誤差量を検出する処理が実行され、これにより新たなモデルパラメータkが取得される。以下、誤差検出処理の具体的な処理例について説明する。
先ず、正規化パラメータ(xave,xvar)を用いて、上記取得されたサンプリング特徴量fが正規化され、正準相関分析を行うためのベクトルxが求められる。そして、[数26]に示される式に基づいて第1〜第M正準変量が算出され、これにより変量uが取得される。
次に、[数27]に示される式を用いて、正規化誤差検出量yが算出される。なお、[数27]において、B′が正方行列でない場合には、B′T−1はB′の擬似逆行列である。
続いて、上記算出された正規化誤差検出量yに対し、正規化パラメータ(yave,yvar)を用いて復元処理が行われ、これにより誤差検出量kerrが取得される。誤差検出量kerrは、現在の顔形状モデルパラメータkiから正解モデルパラメータkoptまでの誤差検出量である。
従って、正解モデルパラメータの検出値ki+1は、現在のモデルパラメータkiに誤差検出量kerrを加算することにより取得できる。但し、kerrは誤差を含んでいる可能性がある。このため、より安定した検出を行うために、[数28]に表される式によって正解モデルパラメータの検出値ki+1を取得する。[数28]において、σは適当な固定値であり、設計者によって適宜決定されてよい。また、σは、例えばiの変化に従って変化してもよい。
誤差検出処理では、上記の特徴量のサンプリング処理と、誤差検出処理とを繰り返し正解モデルパラメータの検出値kiを正解パラメータに近づけていくことが好ましい。このような繰り返し処理を行う場合には、検出値kiが得られる度に終了判定が行われる。
終了判定では、ステップS69において、先ず取得されたki+1の値が正常範囲内であるか否かが判定される。この判定の結果、ki+1の値が正常範囲内でなければ、画像解析装置2は探索処理を終了する。
これに対し、上記ステップS69による判定の結果、ki+1の値が正常範囲内だったとする。この場合は、ステップS70において、上記ステップS68により算出されたEの値が閾値εを超えているか否かが判定される。そして、Eが閾値εを超えていない場合には、処理が収束したものと判断され、ステップS73によりkest が出力される。このkest の出力後、画像解析装置2は画像データの第1フレームに基づいた顔状態の検出処理を終了する。
一方、Eが閾値εを超えている場合には、ステップS71により上記ki+1の値に基づいて新たな三次元顔形状モデルを作成する処理が行われる。この後、ステップS72においてiの値がインクリメントされ、ステップS63に戻る。そして、次のフレームの画像データを処理対象画像とし、新たな三次元顔形状モデルに基づいてステップS63以降の一連の処理が繰り返し実行される。
なお、例えばiの値が閾値を超えた場合には、処理が終了する。また、例えば[数29]によって表されるΔkの値が閾値以下になった場合にも、処理を終了するようにしてもよい。さらに、誤差検出処理では、取得されたki+1の値が正常範囲内であるか否かに基づいて終了判定するようにしてもよい。例えば、取得されたki+1の値が、明らかに人の顔の画像における正解位置を示すものでない場合には、処理を終了する。また、取得されたki+1によって表されるノードの一部が、処理対象の画像からはみでてしまった場合にも、処理を終了する。
上記誤差検出処理では、処理を続行すると判定した場合、取得された正解モデルパラメータの検出値ki+1が特徴量サンプリング処理に渡される。一方、処理を終了すると判定した場合、その時点で得られている正解モデルパラメータの検出値ki(またはki+1であってもよい)が、ステップS73により最終検出パラメータkestとして出力される。
図10は、上記探索処理により検出された特徴点の一例を示すもので、PTが特徴点の位置を示している。
なお、以上述べた顔の特徴点の探索処理は、特許第4093273号公報に詳しく記載されている。
また、探索部113では、上記検出された各特徴点の位置座標と、この位置座標を検出するときに用いた三次元顔形状モデルがどの顔向きに対応して作成されたものかにより、ドライバの顔向きが検出される。
さらに、探索部113では、上記検出された特徴点の位置をもとに顔画像領域中の目の画像が特定され、この目の画像から眼球の角膜反射による輝点と瞳孔がそれぞれ検出される。そして、この検出された眼球の角膜反射による輝点の位置に対する瞳孔の位置座標の位置ずれ量と、カメラ1から眼球の角膜反射による輝点位置までの距離Dとから、視線の方向が算出される。
(2−2−3)探索部113により得られた推定結果の信頼度の検出
上記探索処理により顔画像領域から検出対象となる複数の特徴点の位置が検出されると、続いて画像解析装置2は、信頼度検出部115の制御の下、ステップS23において、上記探索部113により推定された各特徴点の位置に関する信頼度α(n) (nはフレーム番号で、ここではn=1)を算出する。この信頼度α(n) は、例えば、予め記憶された顔画像の特徴と、探索部113により検出された顔画像領域の特徴とを比較して、検出した顔領域の画像が被写体の画像である確率を求め、この確率から算出することができる。
(2−2−4)トラッキングモードの設定
次に画像解析装置2は、探索制御部116の制御の下、ステップS24においてトラッキング中か否かを判定する。この判定は、トラッキングフラグがオンになっているか否かにより行われる。現在の第1フレームでは、まだトラッキングモードが設定されていないので、探索制御部116は図6に示すステップS30に移行する。そして、上記信頼度検出部115により算出された信頼度α(n) を閾値と比較する。この閾値は、事前に適当な値に設定される。
上記比較の結果、信頼度α(n) が閾値を超えていれば、探索制御部116は、ドライバの顔画像を確実に検出できたものと判断し、ステップS31に移行してここでトラッキングフラグをオンにすると共に、上記顔領域検出部112により検出された顔画像領域の座標をトラッキング情報記憶部124に保存する。かくして、トラッキングモードが設定される。
なお、上記ステップS30による比較の結果、詳細探索結果の信頼度α(n) が閾値以下であれば、第1フレームではドライバの顔を品質良く検出できなかったと判断し、ステップS43において顔画像領域の検出処理を継続する。すなわち、画像解析装置2はステップS31によりフレーム番号nをインクリメントした後、図5のステップS20に戻り、後続の第2フレームに対し上記したステップS20〜S24および図6に示すステップS30〜S32による一連の顔検出処理を実行する。
(2−3)顔の状態の検出(トラッキングモードの設定中)
(2−3−1)顔領域の検出
トラッキングモードになると、画像解析装置2は次のように顔状態の検出処理を実行する。すなわち、画像解析装置2は、顔領域検出部112の制御の下、ステップS22において、画像データの次のフレームからドライバの顔領域を検出する際に、探索制御部116から通知されたトラッキング情報に従い、前フレームで検出された顔画像領域の座標を基準位置として、当該領域に含まれる画像を矩形枠により抽出する。なお、この場合、上記基準位置のみから画像を抽出してもよいが、当該基準位置から所定ビット分だけ上下左右方向にシフトされた周辺の複数の領域から、それぞれ画像を抽出するようにしてもよい。
(2−3−2)探索結果の信頼度の算出
画像解析装置2は、続いて探索部113の制御の下、ステップS22において、上記抽出された顔画像領域から、検出対象の顔の特徴点の位置を探索する。ここで行われる探索処理は先に第1フレームに対し行われた探索処理と同じである。そして、画像解析装置2は、信頼度検出部115の制御の下、ステップS23において上記探索結果の信頼度α(n) (例えば第2フレームについて顔の検出が行われているとすれば、n=2)を算出する。
(2−3−3)トラッキングモードの継続
続いて画像解析装置2は、探索制御部116の制御の下、ステップS24において、トラッキングフラグをもとにトラッキングモード設定中か否かを判定する。そして、いまはトラッキングモード設定中なので、探索制御部116はステップS25に移行する。ステップS2において探索制御部116は、前フレームn−1の推定結果に対する現フレームnの推定結果の変化の状況が、予め設定された判定条件を満たしているか否かを判定する。
すなわち、この例では、前フレームn−1の推定結果に対する現フレームnの推定結果の変化量が、
(a) 顔の特徴点の位置座標の変化量が所定の範囲内であること。
(b) 顔の向きの変化量が所定の角度の範囲内であること。
(c) 視線の方向の変化量が所定の範囲内であること。
をそれぞれ満足するか否かを判定する。
そして探索制御部116は、上記前フレームn−1の推定結果に対する現フレームnの推定結果の変化量が、上記3種類の判定条件(a) 〜(c) の全てを満たすと判定すると、上記推定結果の変化量は許容範囲内と見なし、ステップS26に移行する。ステップS26において探索制御部116は、現フレームで検出された顔画像領域の位置座標をトラッキング情報としてトラッキング情報記憶部124に保存する。すなわち、トラッキング情報を更新する。そして、後続のフレームに対しトラッキングモード設定中における顔検出処理を継続する。
従って、探索制御部116から顔領域検出部112に対し、上記保存された顔画像領域の位置座標が引き続き提供され、顔領域検出部112ではこの提供された顔画像領域を後続フレームにおいて上記顔領域を検出するための基準位置として使用する。このため、後続のフレームに対する顔領域の検出処理では、上記トラッキング情報を基準位置として行われる。
図10は、このトラッキングモードを継続する場合の一例を示したもので、ドライバの顔FCの一部が手HDにより一時的に隠れた場合を示している。トラッキングモードを継続する場合の他の例としては、例えば顔FCの一部が髪の毛により一時的に隠れた場合や、ドライバの姿勢の変化に応じて顔の一部がトラッキング中の顔画像領域から一時的に外れた場合が挙げられる。
(2−3−4)トラッキングモードの解除
これに対し、上記ステップS25において、上記前フレームn−1の推定結果に対する現フレームnの推定結果の変化量が、上記3種類の判定条件(a) 〜(c) の全てを満たさないと判定されると、上記推定結果の変化量は許容範囲を超えていると判断される。この場合探索制御部116は、ステップS27において、トラッキングフラグをオフにリセットすると共に、トラッキング情報記憶部124に記憶されているトラッキング情報を削除する。従って、顔領域検出部112は、後続フレームにおいて、トラッキング情報を用いずに初期状態から顔領域を検出する処理を実行する。
(効果)
以上詳述したように一実施形態では、トラッキングフラグがオンになっている状態で、探索制御部6が、前フレームに対し、現フレームの顔の特徴点の位置座標の変化量が所定の範囲内であるか、顔向きの変化量が所定の角度の範囲内であるか、視線の方向変化量が所定の範囲内であるかをそれぞれ判定する。そして、これらの全ての判定において条件が満たされれば、前フレームに対する現フレームの推定結果の変化は許容範囲内であると見なし、後続フレームにおいても引き続きトラッキング情報記憶部7に保存された顔画像領域に応じて、顔の状態を表す、特徴点の位置、顔向きおよび視線方向の推定結果をそれぞれ推定する処理を行うようにしている。
従って、例えば、ドライバの顔の一部が手や髪の毛等により一時的に隠れたり、ドライバの体動に伴い顔の一部が顔画像領域の基準位置から一時的に外れた場合にも、トラッキングモードは維持され、後続フレームにおいては引き続きトラッキング情報記憶部7に保存された顔画像領域の座標を基準位置として顔画像の検出処理が行われる。このため、顔の特徴点の検出処理の安定度を高めることができる。
[変形例]
(1)一実施形態では、前フレームの推定結果に対する現フレームの推定結果の変化が、
(a) 顔の特徴点の座標の変化量が所定の範囲内であること。
(b) 顔の向きの変化量が所定の角度の範囲内であること。
(c) 視線の方向の変化量が所定の範囲内であること。
の全てを満たす場合に、フレームにおける推定結果の信頼度の低下は許容範囲内と見なし、トラッキングモードを維持するようにしている。
しかし、これに限るものではなく、上記(a) 、(b) 、(c) の判定条件のうち、何れか1つまたは2つを満足している場合に、トラッキングモードを維持するようにしてもよい。
またこの場合、満足する判定条件に対応する推定結果のみを有効として外部装置へ出力可能とし、それ以外の推定結果は無効として外部装置へ出力しないようにしてもよい。
(2)一実施形態では、一旦トラッキングモードに移行すると、以後顔の推定結果の信頼度が大幅に変化しない限りトラッキングモードが維持される。しかし、装置が、例えばポスタの顔画像やシートの模様等の静止模様を誤って検出してしまうと、以後半永久的にトラッキングモードが解除されなくなる心配がある。そこで、例えばトラッキングモードに移行してから一定のフレーム数に相当する時間が経過してもトラッキングモードが継続されている場合には、上記時間経過後にトラッキングモードを強制的に解除する。このようにすると、誤った対象物にトラッキングされても、この誤ったトラッキングモードから確実に離脱することができる。
(3)一実施形態では、入力された画像データから、ドライバの顔における複数の器官に係る複数の特徴点の位置を推定する場合を例にとって説明した。しかし、それに限らず、検出対象物は形状モデルを設定できるものであればどのような対象物であってもよい。例えば、検出対象物としては、人の全身像や、レントゲン画像またはCT(Computed Tomography)等の断層像撮像装置により得られた臓器画像等であってもよい。言い換えれば、大きさの個人差がある対象物や基本的な形が変わらずに変形する検出対象物について本技術は適用可能である。また、車両、電気製品、電子機器、回路基板などの工業製品のように変形しない剛体の検出対象物であっても、形状モデルを設定することができるため本技術を適用することができる。
(4)一実施形態では画像データのフレームごとに顔状態を検出する場合を例にとって説明したが、予め設定された複数フレームおきに顔状態を検出するようにしてもよい。その他、画像解析装置の構成や検出対象物の特徴点の探索処理の手順と処理内容、抽出枠の形状とサイズ等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
(5)一実施形態では、顔領域検出部において画像データから顔が存在する画像領域を検出した後、この検出された顔画像領域について探索部により特徴点探索等を行って、特徴点の位置座標の変化、顔向きの変化、および視線方向の変化を検出する場合を例にとって説明した。しかし、これに限らず、顔領域検出部において画像データから顔が存在する画像領域を検出する過程において、例えば三次元顔形状モデル等を用いて顔の特徴点の位置を推定する探索方式を用いる場合には、この顔領域検出過程において検出された特徴点の位置座標のフレーム間変化量を検出するようにしてもよい。そして、この顔領域検出過程において検出された特徴点の位置座標のフレーム間変化量に基づいて、トラッキング状態を維持するか否かを判定し、トラッキング状態を制御するようにしてもよい。
以上、この発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。
要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
[付記]
上記各実施形態の一部または全部は、特許請求の範囲のほか以下の付記に示すように記載することも可能であるが、これに限られない。
(付記1)
ハードウェアプロセッサ(11A)とメモリ(11B)とを有する画像解析装置であって、
前記ハードウェアプロセッサ(11A)が、前記メモリ(11B)に記憶されたプログラムを実行することにより、
時系列的に入力される画像からフレーム単位で検出対象物が含まれる画像領域を検出し(4a)、当該検出された画像領域に基づいて前記検出対象物の状態を推定する処理(4b)を行い、
前記推定された前記検出対象物の状態の確からしさを表す信頼度を検出し(5)、
前記検出された信頼度に基づいて前記探索部の処理を制御する(6)
ように構成され、かつ
前記画像の第1フレームにおいて前記検出された信頼度が、予め設定された信頼度条件を満たすか否かを判定し(6)、
前記第1フレームにおいて検出された信頼度が前記信頼度条件を満たすと判定された場合に、前記第1フレームにおいて前記検出された画像領域の位置をメモリ(7)に保存し、前記第1フレームに続く第2フレームにおける前記検出対象物の状態の推定が前記保存された画像領域の位置を基準にして行われるように前記探索部を制御し(6)、
前記第2フレームにおいて前記推定された前記検出対象物の状態の前記第1フレームからの変化が、予め設定された判定条件を満たしているか否かを判定し(6)、
前記検出対象物の状態の前記第1フレームからの変化が前記判定条件を満たしていると判定された場合に、前記第2フレームに続く第3フレームにおける前記検出対象物の状態の推定処理が前記保存された画像領域の位置を基準にして行われるように、前記検出対象物が含まれる画像領域の検出および前記検出対象物の状態の推定を制御し(6)、
前記検出対象物の状態の前記第1フレームからの変化が前記判定条件を満たさないと判定された場合に、前記メモリに保存されている前記画像領域の位置を消去し、前記第2フレームに続く第3フレームにおける前記探索部の処理が前記画像領域の検出処理から行われるように、前記検出対象物が含まれる画像領域の検出および前記検出対象物の状態の推定を制御する(6)
ように構成される、画像解析装置。
(付記2)
ハードウェアプロセッサ(11A)と、当該ハードウェアプロセッサ(11A)を実行させるプログラムを格納したメモリ(11B)とを有する装置が実行する画像解析方法であって、
前記ハードウェアプロセッサ(11A)が、前記時系列的に入力される画像からフレーム単位で検出対象物が含まれる画像領域を検出し、当該検出された画像領域に基づいて前記検出対象物の状態を推定する処理を行う探索過程と(S22)、
前記ハードウェアプロセッサ(11A)が、前記探索過程により推定された前記検出対象物の状態の確からしさを表す信頼度を検出する信頼度検出過程と(23)、
前記ハードウェアプロセッサ(11A)が、前記画像の第1フレームにおいて前記信頼度検出過程により検出された信頼度が、予め設定された信頼度条件を満たすか否かを判定する第1の判定過程(S25)と、
前記ハードウェアプロセッサ(11A)が、前記第1フレームにおいて検出された信頼度が前記信頼度条件を満たすと判定された場合に、前記第1フレームにおいて前記探索過程により検出された画像領域の位置をメモリ(7)に保存し、前記第1フレームに続く第2フレームにおける前記検出対象物の状態の推定が前記保存された画像領域の位置を基準にして行われるように前記探索過程の処理を制御する第1の制御過程と(S31)、
前記ハードウェアプロセッサ(11A)が、前記第2フレームにおいて前記探索過程(S22)により推定された前記検出対象物の状態の前記第1フレームからの変化が、予め設定された判定条件を満たしているか否かを判定する第2の判定過程と(S25)、
前記ハードウェアプロセッサ(11A)が、前記検出対象物の状態の前記第1フレームからの変化が前記判定条件を満たしていると判定された場合に、前記第2フレームに続く第3フレームにおける前記検出対象物の状態の推定処理が前記保存された画像領域の位置を基準にして行われるように前記探索過程(S22)の処理を制御する第2の制御過程と(S26)、
前記ハードウェアプロセッサ(11A)が、前記検出対象物の状態の前記第1フレームからの変化が前記判定条件を満たさないと判定された場合に、前記メモリ(7)に保存されている前記画像領域の位置を消去し、前記第2フレームに続く第3フレームにおける前記探索過程の処理が前記画像領域の検出処理から行われるように前記探索過程(S22)を制御する第3の制御過程と(S27)
を具備する画像解析方法。
1…カメラ、2…画像解析装置、3…画像取得部、4…顔検出部、
4a…顔領域検出部、4b…探索部、5…信頼度検出部、6…探索制御部、
7…トラッキング情報記憶部、11…制御ユニット、
11A…ハードウェアプロセッサ、11B…プログラムメモリ、
12…データメモリ、13…カメラI/F、14…外部I/F、
111…画像取得制御部、112…顔領域検出部、113…探索部、
115…信頼度検出部、116…探索制御部、117…出力制御部、
121…画像記憶部、122…テンプレート記憶部、123…検出結果記憶部、
124…トラッキング情報記憶部、1131…位置検出部、
1132…顔向き検出部、1133…視線検出部。

Claims (7)

  1. 時系列的に入力される画像からフレーム単位で検出対象物が含まれる画像領域を検出し、当該検出された画像領域に基づいて前記検出対象物の状態を推定する処理を行う探索部と、
    前記探索部により推定された前記検出対象物の状態の確からしさを表す信頼度を検出する信頼度検出部と、
    前記信頼度検出部により検出された信頼度に基づいて前記探索部の処理を制御する探索制御部と
    を具備し、
    前記探索制御部は、
    前記画像の第1フレームにおいて前記信頼度検出部により検出された信頼度が、予め設定された信頼度条件を満たすか否かを判定する第1の判定部と、
    前記第1フレームにおいて検出された信頼度が前記信頼度条件を満たすと判定された場合に、前記第1フレームにおいて前記探索部により検出された画像領域の位置をメモリに保存し、前記第1フレームに続く第2フレームにおける前記検出対象物の状態の推定処理が前記保存された画像領域の位置を基準にして行われるように前記探索部を制御する第1の制御部と、
    前記第2フレームにおいて、前記探索部により推定された前記検出対象物の状態の前記第1フレームからの変化が、予め設定された判定条件を満たしているか否かを判定する第2の判定部と、
    前記検出対象物の状態の前記第1フレームからの変化が前記判定条件を満たしていると判定された場合に、前記第2フレームに続く第3フレームにおける前記検出対象物の状態の推定処理が前記保存された画像領域の位置を基準にして行われるように前記探索部を制御する第2の制御部と、
    前記検出対象物の状態の前記第1フレームからの変化が前記判定条件を満たさないと判定された場合に、前記メモリに保存されている前記画像領域の位置を消去し、前記第2フレームに続く第3フレームにおける前記探索部の処理が前記画像領域の検出処理から行われるように前記探索部の処理を制御する第3の制御部と
    を備える画像解析装置。
  2. 前記探索部は、前記検出対象物を人の顔とし、当該人の顔を構成する複数の器官に対応して予め設定された複数の特徴点の位置、前記顔の向きおよび前記顔の視線方向の少なくとも1つを推定する請求項1記載の画像解析装置。
  3. 前記探索部は、前記画像領域における、前記人の顔を構成する複数の器官に対応して予め設定された複数の特徴点の位置を推定する処理を行い、
    前記第2の判定部は、前記判定条件として、前記特徴点の位置のフレーム間変化の許容量を定義した第1の閾値を有し、前記探索部により推定された前記特徴点の位置の前記第1フレームと前記第2フレームとの間の変化量が、前記第1の閾値を超えているか否かを判定する、請求項2に記載の画像解析装置。
  4. 前記探索部は、前記画像領域から、前記人の顔の基準方向に対する向きを推定する処理を行い、
    前記第2の判定部は、前記判定条件として、前記人の顔の向きのフレーム間変化の許容量を定義した第2の閾値を有し、前記探索部により推定された前記人の顔の向きの前記第1フレームと第2フレームとの間における変化量が、前記第2の閾値を超えているか否かを判定する、請求項2に記載の画像解析装置。
  5. 前記探索部は、前記画像領域から、前記人の顔の視線を推定する処理を行い、
    前記第2の判定部は、前記判定条件として、前記検出対象物の視線方向のフレーム間変化の許容量を定義した第3の閾値を有し、前記探索部により推定された前記人の顔の視線方向の前記第1フレームと前記第2フレームとの間の変化量が、前記第3の閾値を超えているか否かを判定する、請求項2に記載の画像解析装置。
  6. 時系列的に入力される画像をもとに検出対象物の状態を推定する装置が実行する画像解析方法であって、
    前記時系列的に入力される画像からフレーム単位で検出対象物が含まれる画像領域を検出し、当該検出された画像領域に基づいて前記検出対象物の状態を推定する処理を行う探索過程と、
    前記探索過程により推定された前記検出対象物の状態の確からしさを表す信頼度を検出する信頼度検出過程と、
    前記画像の第1フレームにおいて前記信頼度検出過程により検出された信頼度が、予め設定された信頼度条件を満たすか否かを判定する第1の判定過程と、
    前記第1フレームにおいて検出された信頼度が前記信頼度条件を満たすと判定された場合に、前記第1フレームにおいて前記探索過程により検出された画像領域の位置をメモリに保存し、前記第1フレームに続く第2フレームにおける前記検出対象物の状態の推定が前記保存された画像領域の位置を基準にして行われるように前記探索過程の処理を制御する第1の制御過程と、
    前記第2フレームにおいて、前記探索過程により推定された前記検出対象物の状態の前記第1フレームからの変化が、予め設定された判定条件を満たしているか否かを判定する第2の判定過程と、
    前記検出対象物の状態の前記第1フレームからの変化が前記判定条件を満たしていると判定された場合に、前記第2フレームに続く第3フレームにおける前記検出対象物の状態の推定処理が前記保存された画像領域の位置を基準にして行われるように前記探索過程の処理を制御する第2の制御過程と、
    前記検出対象物の状態の前記第1フレームからの変化が前記判定条件を満たさないと判定された場合に、前記メモリに保存されている前記画像領域の位置を消去し、前記第2フレームに続く第3フレームにおける前記探索過程の処理が前記画像領域の検出処理から行われるように前記探索過程を制御する第3の制御過程と
    を具備する画像解析方法。
  7. 請求項1乃至5のいずれかに記載の画像解析装置が備える前記各部による処理を、前記画像解析装置が備えるハードウェアプログラムに実行させるプログラム。
JP2018077885A 2018-04-13 2018-04-13 画像解析装置、方法およびプログラム Active JP6973258B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2018077885A JP6973258B2 (ja) 2018-04-13 2018-04-13 画像解析装置、方法およびプログラム
CN201910179600.1A CN110378181B (zh) 2018-04-13 2019-03-11 图像解析装置、图像解析方法及记录介质
DE102019106277.2A DE102019106277A1 (de) 2018-04-13 2019-03-12 Bildanalysevorrichtung, -verfahren und -programm
US16/358,765 US20190318151A1 (en) 2018-04-13 2019-03-20 Image analysis apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018077885A JP6973258B2 (ja) 2018-04-13 2018-04-13 画像解析装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2019185557A true JP2019185557A (ja) 2019-10-24
JP6973258B2 JP6973258B2 (ja) 2021-11-24

Family

ID=68053176

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018077885A Active JP6973258B2 (ja) 2018-04-13 2018-04-13 画像解析装置、方法およびプログラム

Country Status (4)

Country Link
US (1) US20190318151A1 (ja)
JP (1) JP6973258B2 (ja)
CN (1) CN110378181B (ja)
DE (1) DE102019106277A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021210041A1 (ja) * 2020-04-13 2021-10-21 三菱電機株式会社 顔検出装置および顔検出方法
JP2022077281A (ja) * 2020-11-11 2022-05-23 株式会社コムテック 検出システム
JP2022077282A (ja) * 2020-11-11 2022-05-23 株式会社コムテック 警報システム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11100615B2 (en) * 2018-06-15 2021-08-24 Casio Computer Co., Ltd. Image processing device, image processing method, and image processing program
CN111460871B (zh) * 2019-01-18 2023-12-22 北京市商汤科技开发有限公司 图像处理方法及装置、存储介质
CN111104846B (zh) * 2019-10-16 2022-08-30 平安科技(深圳)有限公司 数据检测方法、装置、计算机设备和存储介质
US11023730B1 (en) * 2020-01-02 2021-06-01 International Business Machines Corporation Fine-grained visual recognition in mobile augmented reality
CN112541434B (zh) * 2020-12-14 2022-04-12 无锡锡商银行股份有限公司 一种基于中心点跟踪模型的人脸识别方法
CN112668553B (zh) * 2021-01-18 2022-05-13 东莞先知大数据有限公司 一种司机间断瞭望行为检测方法、装置、介质及设备
CN112837340B (zh) * 2021-02-05 2023-09-29 Oppo广东移动通信有限公司 属性的跟踪方法、装置、电子设备以及存储介质
WO2022185436A1 (ja) * 2021-03-03 2022-09-09 日本電気株式会社 情報処理装置、情報処理方法及び記録媒体

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003216951A (ja) * 2001-12-03 2003-07-31 Microsoft Corp 複数のキューを使用する複数の個人の自動検出および追跡の方法、システムおよびコンピュータ可読媒体
JP2008199549A (ja) * 2007-02-15 2008-08-28 Hitachi Ltd 監視画像処理方法、監視システム及び監視画像処理プログラム
JP2016201756A (ja) * 2015-04-14 2016-12-01 ソニー株式会社 画像処理装置、画像処理方法、および画像処理システム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6545706B1 (en) * 1999-07-30 2003-04-08 Electric Planet, Inc. System, method and article of manufacture for tracking a head of a camera-generated image of a person
CA2359269A1 (en) * 2001-10-17 2003-04-17 Biodentity Systems Corporation Face imaging system for recordal and automated identity confirmation
JP4093273B2 (ja) 2006-03-13 2008-06-04 オムロン株式会社 特徴点検出装置、特徴点検出方法および特徴点検出プログラム
JP4789825B2 (ja) * 2007-02-20 2011-10-12 キヤノン株式会社 撮像装置及びその制御方法
US8139817B2 (en) * 2007-04-27 2012-03-20 Telewatch Inc. Face image log creation
JP4863937B2 (ja) * 2007-06-25 2012-01-25 株式会社ソニー・コンピュータエンタテインメント 符号化処理装置および符号化処理方法
US20090290791A1 (en) * 2008-05-20 2009-11-26 Holub Alex David Automatic tracking of people and bodies in video
TWI401963B (zh) * 2009-06-25 2013-07-11 Pixart Imaging Inc Dynamic image compression method for face detection
JP5488076B2 (ja) * 2010-03-15 2014-05-14 オムロン株式会社 対象物追跡装置、対象物追跡方法、および制御プログラム
EP2712541B1 (en) * 2012-09-27 2015-12-30 SensoMotoric Instruments Gesellschaft für innovative Sensorik mbH Tiled image based scanning for head and/or eye position for eye tracking
EP2790126B1 (en) * 2013-04-08 2016-06-01 Cogisen SRL Method for gaze tracking
US9892315B2 (en) * 2013-05-10 2018-02-13 Sension, Inc. Systems and methods for detection of behavior correlated with outside distractions in examinations
CN104036250B (zh) * 2014-06-16 2017-11-10 上海大学 视频行人检测与跟踪方法
JP2016009453A (ja) * 2014-06-26 2016-01-18 オムロン株式会社 顔認証装置および顔認証方法
US9442564B1 (en) * 2015-02-12 2016-09-13 Amazon Technologies, Inc. Motion sensor-based head location estimation and updating
JP2018077885A (ja) 2017-11-29 2018-05-17 利仁 曽根 ショッピングカート投入ボタン方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003216951A (ja) * 2001-12-03 2003-07-31 Microsoft Corp 複数のキューを使用する複数の個人の自動検出および追跡の方法、システムおよびコンピュータ可読媒体
JP2008199549A (ja) * 2007-02-15 2008-08-28 Hitachi Ltd 監視画像処理方法、監視システム及び監視画像処理プログラム
JP2016201756A (ja) * 2015-04-14 2016-12-01 ソニー株式会社 画像処理装置、画像処理方法、および画像処理システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021210041A1 (ja) * 2020-04-13 2021-10-21 三菱電機株式会社 顔検出装置および顔検出方法
JP2022077281A (ja) * 2020-11-11 2022-05-23 株式会社コムテック 検出システム
JP2022077282A (ja) * 2020-11-11 2022-05-23 株式会社コムテック 警報システム
JP7081844B2 (ja) 2020-11-11 2022-06-07 株式会社コムテック 検出システム

Also Published As

Publication number Publication date
CN110378181B (zh) 2023-06-02
JP6973258B2 (ja) 2021-11-24
CN110378181A (zh) 2019-10-25
US20190318151A1 (en) 2019-10-17
DE102019106277A1 (de) 2019-10-17

Similar Documents

Publication Publication Date Title
JP6973258B2 (ja) 画像解析装置、方法およびプログラム
JP4093273B2 (ja) 特徴点検出装置、特徴点検出方法および特徴点検出プログラム
JP6695503B2 (ja) 車両の運転者の状態を監視するための方法及びシステム
JP6919619B2 (ja) 画像解析装置、方法およびプログラム
JP4501937B2 (ja) 顔特徴点検出装置、特徴点検出装置
JP4728432B2 (ja) 顔姿勢推定装置、顔姿勢推定方法、及び、顔姿勢推定プログラム
US11298050B2 (en) Posture estimation device, behavior estimation device, storage medium storing posture estimation program, and posture estimation method
JP2007310707A (ja) 姿勢推定装置及びその方法
WO2019137215A1 (en) Head pose and distraction estimation
JP5001930B2 (ja) 動作認識装置及び方法
EP3154407B1 (en) A gaze estimation method and apparatus
JP2016173313A (ja) 視線方向推定システム、視線方向推定方法及び視線方向推定プログラム
EP3506149A1 (en) Method, system and computer program product for eye gaze direction estimation
JP2013156680A (ja) フェーストラッキング方法、フェーストラッカおよび車両
JP2020513629A (ja) 被験者の頭部の追跡
JP6922821B2 (ja) 画像解析装置、方法およびプログラム
JP6288770B2 (ja) 顔検出方法、顔検出システム、および顔検出プログラム
JP2006215743A (ja) 画像処理装置及び画像処理方法
US20220084244A1 (en) Information processing apparatus, information processing method, and program
WO2020261403A1 (ja) 身長推定装置、身長推定方法及びプログラムが格納された非一時的なコンピュータ可読媒体
JP2006227739A (ja) 画像処理装置及び画像処理方法
JP2020035290A (ja) 検出器生成装置、モニタリング装置、検出器生成方法及び検出器生成プログラム
US20240087353A1 (en) Image processing apparatus, image processing method, and non-transitory computer readable medium storing image processing program
JP2020173504A (ja) 位置推定システム、位置推定装置、位置推定方法、及びプログラム
JP2021022185A (ja) 画像処理装置、画像処理プログラム、及び画像処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210609

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211018

R150 Certificate of patent or registration of utility model

Ref document number: 6973258

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150