JP7345436B2 - 顔構造推定装置、顔構造推定方法、および顔構造推定プログラム - Google Patents

顔構造推定装置、顔構造推定方法、および顔構造推定プログラム Download PDF

Info

Publication number
JP7345436B2
JP7345436B2 JP2020106443A JP2020106443A JP7345436B2 JP 7345436 B2 JP7345436 B2 JP 7345436B2 JP 2020106443 A JP2020106443 A JP 2020106443A JP 2020106443 A JP2020106443 A JP 2020106443A JP 7345436 B2 JP7345436 B2 JP 7345436B2
Authority
JP
Japan
Prior art keywords
unit
facial
estimation
facial structure
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020106443A
Other languages
English (en)
Other versions
JP2022002004A (ja
Inventor
ジェチョル キム
陽平 船津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Corp
Original Assignee
Kyocera Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Corp filed Critical Kyocera Corp
Priority to JP2020106443A priority Critical patent/JP7345436B2/ja
Priority to EP21825288.0A priority patent/EP4170584A4/en
Priority to CN202180043264.3A priority patent/CN115699106A/zh
Priority to PCT/JP2021/021274 priority patent/WO2021256289A1/ja
Priority to US18/000,795 priority patent/US20230222815A1/en
Publication of JP2022002004A publication Critical patent/JP2022002004A/ja
Application granted granted Critical
Publication of JP7345436B2 publication Critical patent/JP7345436B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、顔構造推定装置、顔構造推定方法、および顔構造推定プログラムに関するものである。
例えば、眠気のある乗員に対して休息を促したり、自動運転に移行するなど、車内の運転手の状態に応じて、多様な機能を実行させる装置などが検討されている。このような装置においては、乗員の状態を簡易に認識することが求められている。乗員のように人の状態は、状態に応じた顔構造を推定することにより把握することが検討されている。例えば、深層学習により、顔画像から顔構造を推定することが知られている(特許文献1参照)。
国際公開2019-176994号
深層学習を用いた顔画像に基づいて推定する顔構造の精度の向上には、多量の学習データそれぞれに正解ラベルを付けて学習させる教師あり学習を行うことが考えられる。しかし、多量の学習データそれぞれに正解ラベルを付けるには、アノテーションコストの増加を招く。
従って、上記のような従来技術の問題点に鑑みてなされた本開示の目的は、アノテーションコストの増加を低減させながら、顔画像に基づく顔構造の推定の精度を向上する顔構造推定装置、顔構造推定方法、および顔構造推定プログラムを提供することにある。
上述した諸課題を解決すべく、第1の観点による顔構造推定装置は、
顔画像を取得する取得部と、
前記顔画像の顔構造を出力する制御部と、を備え、
前記制御部は、
前記取得部が取得した顔画像に基づき該顔画像の個人を識別する識別部と、前記取得部が取得した顔画像に基づき該顔画像の顔構造を推定する推定部と、前記推定部が推定する顔構造の妥当性を算出し且つ該妥当性が閾値以上である前記顔構造および前記顔画像を前記推定部の学習に適用させる評価部と、して機能し、
前記妥当性が閾値以上である顔構造および前記顔画像の前記推定部の学習への適用を、前記識別部による前記個人の識別結果に基づかせる。
第2の観点による顔構造推定方法は、
顔画像を取得する取得工程と、
前記顔画像の顔構造を出力する出力工程と、を備え、
前記出力工程は、
前記取得工程において取得した顔画像に基づき該顔画像の個人を識別する識別工程と、
前記取得工程において取得した顔画像に基づき該顔画像の顔構造を推定する推定工程と、
前記推定工程において推定する顔構造の妥当性を算出し且つ該妥当性が閾値以上である前記顔構造および前記顔画像を前記推定工程の学習に適用させる評価工程と、
前記妥当性が閾値以上である顔構造および前記顔画像の前記推定工程の学習への適用を前記識別工程による前記個人の識別結果に基づかせる適用工程と、を含む。
第2の観点による顔構造推定プログラムは、
コンピュータを、
顔画像を取得する取得部と、
前記顔画像の顔構造を出力する制御部と、として機能させ、
前記制御部は、
前記取得部が取得した顔画像に基づき該顔画像の個人を識別する識別部と、前記取得部が取得した顔画像に基づき該顔画像の顔構造を推定する推定部と、前記推定部が推定する顔構造の妥当性を算出し且つ該妥当性が閾値以上である前記顔構造および前記顔画像を前記推定部の学習に適用させる評価部と、して機能し、
前記妥当性が閾値以上である顔構造および前記顔画像の前記推定部の学習への適用を、前記識別部による前記個人の識別結果に基づかせる。
上記のように構成された本開示に係る顔構造推定装置、顔構造推定方法、および顔構造推定プログラムによれば、アノテーションコストの増加を低減させながら、顔画像に基づく顔構造の推定精度が向上する。
本実施形態に係る顔構造推定装置の概略構成を示すブロック図である。 図1の汎用推定部を一次的に構築するための学習を説明する概念図である。 図1の汎用推定部による顔構造とラベル付き顔構造に基づく、正解となる妥当性の算出方法を説明する概念図である。 図1の評価部を一次的に構築するための学習を説明する概念図である。 図1の汎用推定部を二次的に構築するための顔画像と疑似的なラベル付き顔構造の組の生成を説明する概念図である。 図1の汎用推定部を二次的に構築するための学習を説明する概念図である。 図1の汎用推定部による顔構造と疑似的なラベル付き顔構造に基づく、正解となる妥当性の算出方法を説明する概念図である。 図1の評価部を二次的に構築するための学習を説明する概念図である。 図1の識別部を構築するための学習を説明する概念図である。 図1の個人用推定部を構築するための顔画像と疑似的なラベル付き顔構造の組の生成を説明する概念図である。 図1の個人用推定部を構築するための学習を説明する概念図である。 図1の制御部が実行する構築処理を説明するためのフローチャートである。 図1の制御部が実行する推定処理を説明するためのフローチャートである。 特定以外抽出部の生成する特徴を用いた特定抽出部による二次的な特徴の生成を説明する概念図である。 不特定抽出部の生成する特徴を用いた特定抽出部による二次的な特徴の生成を説明する概念図である。 特定以外抽出部を用いた特定抽出部の学習を説明する概念図である。 不特定抽出部を用いた特定抽出部の学習を説明する概念図である。
以下、本開示を適用した顔構造推定装置の実施形態について、図面を参照して説明する。なお、以下の本開示を適用した顔構造推定装置の実施形態の説明は、本開示を適用した、顔構造推定方法、および顔構造推定プログラムの実施形態の説明を兼ねる。
本開示の一実施形態に係る顔構造推定装置は、例えば、移動体に設けられる。移動体は、例えば車両、船舶、および航空機等を含んでよい。車両は、例えば自動車、産業車両、鉄道車両、生活車両、および滑走路を走行する固定翼機等を含んでよい。自動車は、例えば乗用車、トラック、バス、二輪車、およびトロリーバス等を含んでよい。産業車両は、例えば農業および建設向けの産業車両等を含んでよい。産業車両は、例えばフォークリフトおよびゴルフカート等を含んでよい。農業向けの産業車両は、例えばトラクター、耕耘機、移植機、バインダー、コンバイン、および芝刈り機等を含んでよい。建設向けの産業車両は、例えばブルドーザー、スクレーバー、ショベルカー、クレーン車、ダンプカー、およびロードローラ等を含んでよい。車両は、人力で走行するものを含んでよい。車両の分類は、上述した例に限られない。例えば、自動車は、道路を走行可能な産業車両を含んでよい。複数の分類に同じ車両が含まれてよい。船舶は、例えばマリンジェット、ボート、およびタンカー等を含んでよい。航空機は、例えば固定翼機および回転翼機等を含んでよい。
図1に示すように、本開示の一実施形態に係る顔構造推定装置10は、取得部11、メモリ12、および制御部13を含んで構成される。
取得部11は、例えば、カメラ14が撮像した乗員の顔の画像である顔画像を取得する。なお、カメラ14は、例えば、運転席などの移動体の特定の位置にいる乗員の顔周辺を撮像可能な位置に取付けられる。また、カメラ14は、例えば、30fpsで顔画像を撮像する。
メモリ12は、例えば、RAM(Random Access Memory)およびROM(Read Only Memory)など、任意の記憶デバイスを含む。メモリ12は、制御部13を機能させる多様なプログラム、および制御部13が用いる多様な情報を記憶する。
制御部13は、1以上のプロセッサおよびメモリを含む。プロセッサは、特定のプログラムを読み込ませて特定の機能を実行する汎用のプロセッサ、および特定の処理に特化した専用のプロセッサを含んでよい。専用のプロセッサは、特定用途向けIC(ASIC;Application Specific Integrated Circuit)を含んでよい。プロセッサは、プログラマブルロジックデバイス(PLD;Programmable Logic Device)を含んでよい。PLDは、FPGA(Field-Programmable Gate Array)を含んでよい。制御部13は、1つまたは複数のプロセッサが協働するSoC(System-on-a-Chip)、およびSiP(System In a Package)のいずれかであってもよい。制御部13は、顔構造推定装置10の各構成要素の動作を制御する。
制御部13は、取得部11が取得した顔画像の顔構造を外部機器20に出力する。顔構造は、人の状態に応じて変化する表情などを特定する特徴であって、例えば、顎先などのように顔の輪郭上において定義づけられる点の集合体、目頭および目じりのように目の輪郭上において定義づけられる点の集合体、鼻尖から鼻根までの鼻梁において定義づけられる点の集合体などである。制御部13による顔構造の出力について、以下に詳細に説明する。制御部13は、識別部15、推定部16、および評価部17として機能する。
識別部15は、取得部11が取得した画像に基づき当該顔画像の個人を識別する。識別部15は、例えば、多層構造のニューラルネットワークにより構成されている。識別部15は、後述するように、教師あり学習を実施することにより構築される。
推定部16は、取得部11が取得した顔画像に基づき、当該顔画像の構造を推定する。推定部16は、例えば、汎用推定部18および個人用推定部19を含む。汎用推定部18は、識別部15が識別できない不特定の個人の顔画像に基づいて、顔構造を推定する。個人用推定部19は、識別部15が識別した個人に対応するように選択され、識別部15が識別した当該個人の顔画像に基づいて、当該個人の顔構造を推定する。個人用推定部19が推定した顔構造が、制御部13から出力される。汎用推定部18および個人用推定部19は、例えば、多層構造のニューラルネットワークにより構成されている。汎用推定部18および個人用推定部19は、後述するように、教師あり学習を実施することにより構築される。
評価部17は、推定部16が推定する顔構造の妥当性を判別する。評価部17は、妥当性が閾値以上である顔構造および顔画像を推定部16の学習に適用させる。後述するように、妥当性が閾値以上である顔構造および顔画像の推定部16の学習への適用は、識別部15による個人の識別結果に基づく。評価部17は、例えば、多層構造のニューラルネットワークにより構成されている。評価部17は、教師あり学習を実施することにより構築される。
以下に、識別部15、推定部16、および評価部17の教師あり学習について説明する。汎用推定部18および評価部17の構築には、顔構造推定装置10の製造時に、教師あり学習が実行される。したがって、顔構造推定装置10の使用時に、汎用推定部18および評価部17は学習済みである。識別部15および個人用推定部19の構築には、顔構造推定装置10の使用中に、教師あり学習が実行される。
汎用推定部18および評価部17の構築について、以下に説明する。機械学習による汎用推定部18および評価部17の構築には、顔画像、および当該顔画像に対するラベル付き顔構造の複数の組が用いられる。ラベル付き顔構造は、顔画像に対する正解である顔構造である。ラベル付き顔構造は、例えば、前述のような定義に基づいて、人の判断により作成される。
図2に示すように、一次的な汎用推定部18aは、ラベル付き顔構造lFSを顔画像FIに対する正解として用いて、教師あり学習を行うことにより構築される。図3に示すように、構築された一次的な汎用推定部18は、当該複数の組CB1に含まれる顔画像FIから顔構造gFSを推定する。
制御部13は、推定された顔構造gFSの妥当性を、顔構造gGSの推定に用いた顔画像FIに対応するラベル付き顔構造lFSを用いて算出する。妥当性は、推定された顔構造gFSのラベル付き顔構造lFSとの一致性であり、例えば、推定された顔構造gFSを構成する点とラベル付き顔構造lFSを構成する点との距離が大きくなるほど低く、ゼロに近づくほど高くなるように算出される。
図4に示すように、顔画像FI、ラベル付き顔構造lFS、および妥当性の複数の組CB2が一次的な評価部17aの構築に用いられる。妥当性を顔画像FIおよびラベル付き顔構造lFSの正解として用いて、教師あり学習を行うことにより一次的な評価部17aが構築される。
一次的な汎用推定部18aに対してさらに機械学習が進められてもよい。一次的な汎用推定部18aのさらなる機械学習には、ラベル付き顔構造lFSのない、単なる顔画像FIが用いられる。
図5に示すように、さらなる機械学習のために、一次的な汎用推定部18aは、顔画像FIに基づいて、当該顔画像FIの顔構造gFSを推定する。評価部17は、顔画像FIおよび推定された顔構造gFSに基づいて、推定された顔構造gFSの妥当性を算出する。算出された妥当性が閾値以上である場合、推定された顔構造gFSは疑似的なラベル付き顔構造vlFSとして、顔画像FIと組合せられる。真のラベル付き顔構造lFSのある顔画像FIよりも多数の顔画像FIを用いて顔構造gFSの推定が行われ、疑似的なラベル付き顔構造vlFSと顔画像FIの組CB3が生成される。
図6に示すように、顔画像FIおよび疑似的なラベル付き顔構造vlFSの複数の組CB3を用いて、一次的な汎用推定部18aに対して教師あり学習が進められ、二次的な汎用推定部18bが構築される。二次的な汎用推定部18bが構築された場合、当該二次的な汎用推定部18bを構成するためのデータが生成され、制御部13は当該データに基づいて汎用推定部18として機能する。二次的な汎用推定部18bが構築されない場合、一次的な汎用推定部18aを構成するためのデータが生成され、制御部13は当該データに基づいて汎用推定部18として機能する。
一次的な評価部17aに対してさらに機械学習が進められてもよい。一次的な評価部17aのさらなる機械学習には、顔画像FIおよび疑似的なラベル付き顔構造vlFSの組CB3が用いられる。図7に示すように、さらなる機械学習のために、二次的な汎用推定部18bは、疑似的なラベル付き顔構造vlFSと組合された顔画像FIに基づいて、当該顔画像FIの顔構造gFSを推定する。推定された顔構造gFSの妥当性が、顔画像FIに対応する疑似的なラベル付き顔構造vlFSを用いて算出される。
図8に示すように、顔画像FI、疑似的なラベル付き顔構造vlFS、および妥当性の複数の組CB4を用いて、一次的な評価部17aに対して教師あり学習が進められ、二次的な評価部17bが構築される。二次的な評価部17bが構築された場合、当該二次的な評価部17bを構成するためのデータが生成され、制御部13は当該データに基づいて評価部17として機能する。二次的な評価部17bが構築されない場合、一次的な評価部17aを構成するためのデータが生成され、制御部13は当該データに基づいて評価部17として機能する。
識別部15の構築について、以下に説明する。例えば、新規な乗員がカメラ14により撮像される場合、識別部15を構築するための機械学習が行われる。制御部13は、識別部15が顔画像FIから個人を特定できないとき、または顔構造推定装置10の入力部が新規な乗員であることの入力を検出するときに、カメラ14により撮像された顔画像FIが新規な乗員であると判別して、機械学習を行う。図9に示すように、識別部15は、カメラ14が例えば30fpsで撮像する特定の個人の複数の顔画像sFIに対して新規に作成する識別名を正解として機械学習を行うことにより、当該個人を識別可能な識別部15として構築される。識別部15は、新規な乗員がカメラ14により撮像される度に、教師あり学習が進められ、学習済みの複数の個人を特定可能に構築される。識別部15が構築されるたびに、識別部15を構成するためのデータが生成され、制御部13は当該データに基づいて識別部15として機能する。
個人用推定部19の構築について、以下に説明する。前述のように、新規な乗員である個人を特定可能な識別部15が構築された後、当該個人に対応する個人用推定部19の新規な構築が開始される。図10に示すように、個人用推定部19の構築のために、汎用推定部18は、当該個人の顔画像sFIに基づいて、当該顔画像sFIの顔構造gFSを推定する。評価部17は、当該個人の顔画像sFIおよび推定された顔構造fFSに基づいて、推定された顔構造gFSの妥当性を算出する。算出された妥当性が閾値以上である場合、評価部17は、顔画像sFIおよび顔構造gFSを、識別部15が識別可能となった個人に対応する個人用推定部19を構築するための学習に適用する。言い換えると、識別部15による個人の識別結果に基づいて、妥当性が閾値以上である顔構造gFSおよび顔画像sFIが推定部16の学習に適用される。評価部17は、疑似的なラベル付き顔構造vlFSとして妥当性が閾値以上である顔構造gFSと顔画像sFIとの複数の組CB5を生成する。図11に示すように、生成された複数の組CB5それぞれにおいて、顔構造vlFSを顔画像sFIに対する正解として用いて教師あり学習を行うことにより、個人用推定部19が構築される。特定の個人に対応した個人用推定部19が構築される場合、当該個人用推定部19を構成するためのデータが生成され、制御部13は当該データに基づいて個人用推定部19として機能する。
次に、本実施形態において制御部13が実行する、構築処理について、図12のフローチャートを用いて説明する。構築処理は、上述のように新規な乗員がカメラ14により撮像されるときに開始する。
ステップS100において、制御部13は、新規な乗員の識別名を正解として特定の個人の顔画像sFIの教師あり学習を実行する。教師あり学習の実行後、プロセスはステップS101に進む。
ステップS101では、制御部13は、ステップS100における教師あり学習により構築される、新規な個人を識別可能な識別部15を構成するためのデータをメモリ12に格納する。格納後、プロセスはステップS102に進む。
ステップS102では、制御部13は、1フレームの特定の個人の顔画像sFIに基づく当該個人の顔構造gFSの推定を汎用推定部18に実行させる。推定後、プロセスはステップS103に進む。
ステップS103では、制御部13は、ステップS102において推定した顔構造gFSの妥当性の算出を、評価部17に実行させる。算出後、プロセスはステップS104に進む。
ステップS104では、制御部13は、ステップS103において算出した妥当性が閾値以上であるか否かを判別する。閾値以上である場合、プロセスはステップS105に進む。閾値以上でない場合、プロセスはステップS106に進む。
ステップS105では、制御部13は、ステップS102において顔構造gFSの推定に用いた特定の個人の顔画像sFIと当該顔構造gFSとを組合せる。組合せ後、プロセスはステップS107に進む。
ステップS106では、制御部13は、ステップS102において顔構造gFSの特定に用いた、1フレームの特定の個人の顔画像sFIおよび当該顔構造gFSを廃棄する。廃棄後、プロセスはステップS107に進む。
ステップS107では、制御部13は、特定の個人の顔画像sFIおよび顔構造gFSの組CB4が十分に蓄積されているか否かを判別する。十分に蓄積されているか否かは、例えば、組CB4の数が閾値を超えるか否かによって判別されてよい。十分に蓄積されていない場合、プロセスはステップS102に戻る。十分に蓄積されている場合、プロセスはステップS108に進む。なお、本実施形態において、ステップS107を実行することなく、ステップS108に進んでもよい。
ステップS108では、制御部13は、組CB4における顔構造gFSを疑似的なラベル付き顔構造vlFSとする正解として、特定の個人の顔画像sFIの教師あり学習を実行する。教師あり学習の実行後、プロセスはステップS109に進む。
ステップS109では、制御部13は、ステップS108における教師あり学習により構築される、新規な個人に対応する個人用推定部19を構成するためのデータをメモリ12に格納する。格納後、構築処理は終了する。
次に、本実施形態において制御部13が実行する、推定処理について、図13のフローチャートを用いて説明する。推定処理は、新規でない乗員がカメラ14により撮像されるときに開始する。
ステップS200において、制御部13は、カメラ14により撮像された顔画像FIに基づいた個人の識別を、識別部15に実行させる。識別後、プロセスはステップS201に進む。
ステップS201では、制御部13は、ステップS200で識別した個人に対応する個人用推定部19を選択する。選択後、プロセスはステップS202に進む。
ステップS202では、制御部13は、ステップS200において個人の識別に用いた顔画像FIに基づいた顔構造gFSの推定を、ステップS201において選択した個人用推定部19に実行させる。推定後、プロセスはステップS203に進む。
ステップS203では、制御部13は、ステップS202において推定した顔構造gFSを外部機器20に出力する。出力後、推定処理は終了する。
以上のような構成の本実施形態の顔構造推定装置10は、妥当性が閾値以上である顔構造gFSおよび顔画像FIの推定部16への学習への適用を識別部15による個人の識別結果に基づかせる。このような構成により、顔構造推定装置10は、学習に適した顔画像sFIおよび顔構造gFSを選別して、推定部16を学習させ得るので、顔画像FIに基づく顔構造gFSの推定精度を向上し得る。また、顔構造推定装置10は、学習に適した顔画像sFIおよび顔構造gFSの選別を、評価部17が算出する妥当性に基づくので、多数の学習データそれぞれに正解ラベルの付与が不要となるのでアノテーションコストの増加を低減し得る。
本発明を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本発明の範囲に含まれることに留意されたい。
例えば、本実施形態において、個人用推定部19は、特定の個人の顔画像sFIおよび疑似的なラベル付き顔構造vlFSを用いて学習することにより独立して構築されるが、このような構成に限定されない。個人用推定部19は、他の個人に対応する個人用推定部19に基づいて構築されてよい。
例えば、個人用推定部19は、特徴抽出部および推論部を含んでよい。特徴抽出部は、例えば、CNN(Convolutional Neural Network)であり、取得した顔画像sFIにおいて、特徴抽出を行う。特徴抽出部は、例えば、顔画像sFIの輝度に基づいて、特徴を抽出する。抽出する特徴は、例えば、特徴マップである。特徴抽出部は、例えば、顔画像sFIの輝度に基づいて特徴抽出を行う。推論部は特徴抽出部が抽出した特徴に基づいて、顔構造gFSを推定する。
図14に示すように、特定の個人に対応する特徴抽出部(以後、「特定抽出部」と呼ぶ。)21は、当該特定抽出部21に対応する特定の個人以外の個人に対応する個人用推定部19の特徴抽出部(以後、「特定以外抽出部」と呼ぶ。)22から特徴を取得してよい。特定以外抽出部22は、特定抽出部21に対応する特定の個人の顔画像sFIに基づいて抽出する特徴Fを、特定抽出部21に付与する。特定抽出部21は、当該特定抽出部21が一次的に抽出する特徴、および特定以外抽出部22から取得した特徴Fに基づいて、出力用の二次的な特徴を生成してよい。推論部23は、出力用の特徴に基づいて、特定の個人の顔構造gFSを推定してよい。
特定抽出部21は、例えば、平均化などにより、二次的な特徴を生成する。特定以外抽出部22は、特定以外抽出部22のlayer毎に生成する特徴Fを、特定抽出部21に付与してよい。特定抽出部22は、layer毎に取得する特徴Fと、特定抽出部21の対応するlayerにおいて生成する特徴とに基づいて、特定抽出部21の次のlayerで用いる特徴を生成してよい。
または、図15に示すように、特定抽出部21は、不特定の個人に対応する個人用推定部19または汎用推定部18の特徴抽出部(以下、「不特定抽出部」と呼ぶ。)24から特徴を取得してよい。不特定抽出部24は、特定抽出部21に対応する特定の個人の顔画像sFIに基づいて抽出する特徴Fを、特定抽出部21に付与する。特定抽出部21は、当該特定抽出部21が一次的に抽出する特徴、および不特定抽出部24から取得した特徴Fに基づいて、出力用の二次的な特徴を生成してよい。推論部23は、出力用の特徴マップに基づいて、特定の個人の顔構造gFSを推定してよい。
特定抽出部21は、例えば、平均化などにより二次的な特徴を生成する。不特定抽出部24は、不特定抽出部24のlayer毎に生成する特徴Fを、特定抽出部21に付与してよい。特定抽出部22は、layer毎に取得する特徴Fと、特定抽出部21の対応するlayerにおいて生成する特徴とに基づいて、特定抽出部21の次のlayerで用いる特徴を生成してよい。
新規に個人用推定部19を構築する場合、特定抽出部21は、既に構築済みの特定以外抽出部22の抽出結果に基づいて学習される。特徴抽出部の学習について、以下に詳細に説明する。
前述の個人用推定部19の構築時と同じく、特定抽出部21および推論部23は、特定の個人に対する疑似的なラベル付き顔構造vlFSとして妥当性が閾値以上である顔構造gFSと顔画像sFIとの複数の組CB5を用いて、学習することにより構築される。
図16に示すように、特定抽出部21を構築する際に、対応する特定の個人以外の個人用に構築済みである個人用推定部19は、当該特定の個人に対する複数の組CB5中の顔画像sFIに基づいて、顔構造gFSを推定する。また、当該個人用推定部19の特徴抽出部、すなわち特定以外抽出部22は、当該顔画像sFIに基づいて特徴Fを生成する。特定以外抽出部22は、layer毎に特徴Fを生成してよい。
学習中の特定抽出部25は、当該学習中の特定抽出部25が顔画像sFIに基づいて一次的に抽出する特徴、および特定以外抽出部22から取得した特徴Fに基づいて、出力用の二次的な特徴を生成する。学習中の特定抽出部25は、例えば、平均化などにより、二次的な特徴を生成する。学習中の推論部26は、学習中の特定抽出部25から取得する特徴に基づいて、学習中の顔構造tgFSを推定する。
制御部13は、学習中の顔構造tgFSと、複数の組CB5中の疑似的なラベル付き顔構造vlFSとの第1の差分losstargetを算出する。また、制御部13は、学習中の顔構造tgFSと、構築済みである個人用推定部19それぞれが推定した顔構造gFSとの第2の差分lossassistanceを算出する。制御部13は、第1の差分losstargetと、それぞれに重みづけをした第2の差分lossassistanceとを合計することにより、(1)式に示す、全体差分lossfinalを算出する。
Figure 0007345436000001
(1)式において、γ、βは重みづけ係数である。γ、βは、1未満であってよく、さらには、0.5以下であってよく、さらには、重みづけ係数の合計値が0.5以下であってよい。
制御部13は、全体差分lossfinalが最小化するように、学習することにより、特定抽出部21および推論部23を構築する。なお、上述の特定抽出部21および推論部23の構築において、特定抽出部21に対応する特定の個人の顔画像sFIおよび疑似的なラベル付き顔構造vlFSの複数の組CB5に加えて、当該特定の個人以外の個人の顔画像sFIおよび疑似的なラベル付き顔構造vlFSも学習に用いられてよい。
または、新規に個人用推定部19を構築する場合、特定抽出部21は、既に構築済みの不特定抽出部24の抽出結果に基づいて学習される。特徴抽出部の学習について、以下に詳細に説明する。
前述の個人用推定部19の構築時と同じく、特定抽出部21および推論部23は、特定の個人に対する疑似的なラベル付き顔構造vlFSとして妥当性が閾値以上である顔構造gFSと顔画像sFIとの複数の組CB5を用いて、学習することにより構築される。
図17に示すように、特定抽出部21を構築する際に、不特定の個人用に構築済みである個人用推定部19、または汎用推定部18は、当該特定の個人に対する複数の組CB5中の顔画像sFIに基づいて、顔構造gFSを推定する。また、当該個人用推定部19または汎用推定部18の特徴抽出部、すなわち不特定抽出部24は、当該顔画像sFIに基づいて特徴Fを生成する。不特定抽出部24は、layer毎に特徴Fを生成してよい。
学習中の特定抽出部25は、当該学習中の特定抽出部25が顔画像sFIに基づいて一次的に抽出する特徴、および不特定抽出部24から取得した特徴Fに基づいて、出力用の二次的な特徴を生成する。学習中の特定抽出部25は、例えば、平均化などにより、二次的な特徴を生成する。学習中の推論部26は、学習中の特定抽出部25から取得する特徴に基づいて、学習中の顔構造tgFSを推定する。
制御部13は、学習中の顔構造tgFSと、複数の組CB5中の疑似的なラベル付き顔構造vlFSとの第1の差分losstargetを算出する。また、制御部13は、学習中の顔構造tgFSと、構築済みである個人用推定部19または汎用推定部18が推定した顔構造gFSとの第2の差分lossassistanceを算出する。制御部13は、第1の差分losstargetと、重みづけをした第2の差分lossassistanceとを合計することにより、(2)式に示す、全体差分lossfinalを算出する。
Figure 0007345436000002
(2)式において、γは重みづけ係数である。γは、1未満であってよく、さらには、0.5以下であってよい。
制御部13は、全体差分lossfinalが最小化するように、学習することにより、特定抽出部21および推論部23を構築する。
なお、不特定の個人に対応する個人用推定部19は、公開されている顔画像および当該顔画像に対するラベル付き顔構造の複数の組を用いた学習により構築されていてよい。不特定の個人に対応する個人用推定部19は、汎用推定部18とは別に構築されていてよい。汎用推定部18とは別に構築されている不特定の個人に対応する個人用推定部19には、特定の個人に対する疑似的なラベル付き顔構造vlFSとして妥当性が閾値以上である顔構造gFSと顔画像sFIとの複数の組CB5を用いて、さらに学習が進められてよい。
以上のような、個人用推定部19が、他の個人に対応する個人用推定部19に基づいて構築されることにより、顔構造gFSの推定精度がさらに向上する。
10 顔構造推定装置
11 取得部
12 メモリ
13 制御部
14 カメラ
15 識別部
16 推定部
17 評価部
18 汎用推定部
18a 一次的な汎用推定部
19 個人用推定部
20 外部機器
21 特定抽出部
22 特定以外抽出部
23 推論部
24 不特定抽出部
25 学習中の特定抽出部
26 学習中の推論部
CB1 顔画像およびラベル付き顔構造の組
CB2 顔画像、ラベル付き顔構造、および妥当性の組
CB3 顔画像および疑似的なラベル付き顔構造の組
CB4 顔画像、疑似的なラベル付き顔構造、および妥当性の組
CB5 特定の個人の顔画像および疑似的なラベル付き顔構造の組
F 特徴
FI 顔画像 gFS 推定された顔構造
lFS ラベル付き顔構造
sFI 特定の個人の顔画像
tgFS 学習中の顔構造
vlFS 疑似的なラベル付き顔構造

Claims (6)

  1. 顔画像を取得する取得部と、
    前記顔画像の顔構造を出力する制御部と、を備え、
    前記制御部は、
    前記取得部が取得した顔画像に基づき該顔画像の個人を識別する識別部と、前記取得部が取得した顔画像に基づき該顔画像の顔構造を推定する推定部と、前記推定部が推定する顔構造の妥当性を算出し且つ該妥当性が閾値以上である前記顔構造および前記顔画像を前記推定部の学習に適用させる評価部と、して機能し、
    前記妥当性が閾値以上である顔構造および前記顔画像の前記推定部の学習への適用を、前記識別部による前記個人の識別結果に基づかせる
    顔構造推定装置。
  2. 請求項1に記載の顔構造推定装置において、
    前記推定部は、複数の個人用推定部を有し、
    前記取得部が取得した顔画像に対して、前記識別部により識別された個人に対して学習された前記個人用推定部により顔構造が推定される
    顔構造推定装置。
  3. 請求項2に記載の顔構造推定装置において、
    前記推定部は、学習済みの汎用推定部を有し、
    前記個人用推定部は、前記汎用推定部が推定する顔構造に対する評価部による妥当性が閾値以上である顔構造および顔画像を用いて学習する
    顔構造推定装置。
  4. 請求項2または3に記載の顔構造推定装置において、
    前記個人用推定部は特徴抽出部を有し、該特徴抽出部は該個人用推定部に対応する個人以外の人に対応する特徴抽出部の抽出結果に基づいて前記顔画像の特徴点を抽出する
    顔構造推定装置。
  5. 顔画像を取得する取得工程と、
    前記顔画像の顔構造を出力する出力工程と、を備え、
    前記出力工程は、
    前記取得工程において取得した顔画像に基づき該顔画像の個人を識別する識別工程と、
    前記取得工程において取得した顔画像に基づき該顔画像の顔構造を推定する推定工程と、
    前記推定工程において推定する顔構造の妥当性を算出し且つ該妥当性が閾値以上である前記顔構造および前記顔画像を前記推定工程の学習に適用させる評価工程と、
    前記妥当性が閾値以上である顔構造および前記顔画像の前記推定工程の学習への適用を前記識別工程による前記個人の識別結果に基づかせる適用工程と、を含む
    顔構造推定方法。
  6. コンピュータを、
    顔画像を取得する取得部と、
    前記顔画像の顔構造を出力する制御部と、として機能させ、
    前記制御部は、
    前記取得部が取得した顔画像に基づき該顔画像の個人を識別する識別部と、前記取得部が取得した顔画像に基づき該顔画像の顔構造を推定する推定部と、前記推定部が推定する顔構造の妥当性を算出し且つ該妥当性が閾値以上である前記顔構造および前記顔画像を前記推定部の学習に適用させる評価部と、して機能し、
    前記妥当性が閾値以上である顔構造および前記顔画像の前記推定部の学習への適用を、前記識別部による前記個人の識別結果に基づかせる
    顔構造推定プログラム。
JP2020106443A 2020-06-19 2020-06-19 顔構造推定装置、顔構造推定方法、および顔構造推定プログラム Active JP7345436B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2020106443A JP7345436B2 (ja) 2020-06-19 2020-06-19 顔構造推定装置、顔構造推定方法、および顔構造推定プログラム
EP21825288.0A EP4170584A4 (en) 2020-06-19 2021-06-03 FACIAL STRUCTURE ESTIMATION DEVICE, FACIAL STRUCTURE ESTIMATION METHOD, AND FACIAL STRUCTURE ESTIMATION PROGRAM
CN202180043264.3A CN115699106A (zh) 2020-06-19 2021-06-03 脸部构造推定装置、脸部构造推定方法以及脸部构造推定程序
PCT/JP2021/021274 WO2021256289A1 (ja) 2020-06-19 2021-06-03 顔構造推定装置、顔構造推定方法、および顔構造推定プログラム
US18/000,795 US20230222815A1 (en) 2020-06-19 2021-06-03 Facial structure estimating device, facial structure estimating method, and facial structure estimating program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020106443A JP7345436B2 (ja) 2020-06-19 2020-06-19 顔構造推定装置、顔構造推定方法、および顔構造推定プログラム

Publications (2)

Publication Number Publication Date
JP2022002004A JP2022002004A (ja) 2022-01-06
JP7345436B2 true JP7345436B2 (ja) 2023-09-15

Family

ID=79244739

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020106443A Active JP7345436B2 (ja) 2020-06-19 2020-06-19 顔構造推定装置、顔構造推定方法、および顔構造推定プログラム

Country Status (5)

Country Link
US (1) US20230222815A1 (ja)
EP (1) EP4170584A4 (ja)
JP (1) JP7345436B2 (ja)
CN (1) CN115699106A (ja)
WO (1) WO2021256289A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018156451A (ja) 2017-03-17 2018-10-04 株式会社東芝 ネットワーク学習装置、ネットワーク学習システム、ネットワーク学習方法およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3469031B2 (ja) * 1997-02-18 2003-11-25 株式会社東芝 顔画像登録装置及びその方法
JP6760318B2 (ja) 2018-03-14 2020-09-23 オムロン株式会社 顔画像識別システム、識別器生成装置、識別装置、画像識別システム、及び識別システム
JP7273505B2 (ja) 2018-12-28 2023-05-15 スタンレー電気株式会社 路面状態検知システム及び路面状態検知方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018156451A (ja) 2017-03-17 2018-10-04 株式会社東芝 ネットワーク学習装置、ネットワーク学習システム、ネットワーク学習方法およびプログラム

Also Published As

Publication number Publication date
WO2021256289A1 (ja) 2021-12-23
JP2022002004A (ja) 2022-01-06
CN115699106A (zh) 2023-02-03
EP4170584A4 (en) 2024-03-27
EP4170584A1 (en) 2023-04-26
US20230222815A1 (en) 2023-07-13

Similar Documents

Publication Publication Date Title
US11455538B2 (en) Correctness preserving optimization of deep neural networks
US11783541B2 (en) System and method for estimating depth uncertainty for self-supervised 3D reconstruction
JP7465738B2 (ja) 電子機器、情報処理装置、覚醒度算出方法および覚醒度算出プログラム
US20210192345A1 (en) Method for generating labeled data, in particular for training a neural network, by using unlabeled partitioned samples
US11526724B2 (en) Virtual sensor for estimating online unmeasurable variables via successive time derivatives
JP7345436B2 (ja) 顔構造推定装置、顔構造推定方法、および顔構造推定プログラム
US11756219B2 (en) Multi-scale recurrent decoder for monocular depth estimation
JP6992099B2 (ja) 情報処理装置、車両、車両の制御方法、プログラム、情報処理サーバ、情報処理方法
JP7345435B2 (ja) 顔構造推定装置、顔構造推定方法、および顔構造推定プログラム
JP7224550B2 (ja) 顔構造推定装置、顔構造推定方法、および顔構造推定プログラム
JP7160867B2 (ja) 電子機器、情報処理装置、推定方法、および推定プログラム
JP2022088962A (ja) 電子機器、情報処理装置、集中度算出プログラム、及び集中度算出方法
JP7433155B2 (ja) 電子機器、情報処理装置、推定方法、および推定プログラム
JP6561869B2 (ja) 車両形状推定装置
CN114639125B (zh) 基于视频图像的行人意图预测方法、装置及电子设备
JP7318352B2 (ja) 画像処理装置、モニタリング装置、制御システム、画像処理方法、及びプログラム
US20240331410A1 (en) Visual Detection of Hands on Steering Wheel
EP4332885A1 (en) Electronic device, control method for electronic device, and program
GB2605754A (en) A method for estimating the height of a person inside of a motor vehicle by a height estimation device
JP2022169359A (ja) 電子機器、電子機器の制御方法、及びプログラム
CN115578720A (zh) 人体动作识别的方法、装置、存储介质和车辆

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230905

R150 Certificate of patent or registration of utility model

Ref document number: 7345436

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150