JP7474553B2

JP7474553B2 - 対象物の領域画像毎に異なる入力中間層を用いてラベルを推定するプログラム、装置及び方法

Info

Publication number: JP7474553B2
Application number: JP2021005217A
Authority: JP
Inventors: 剣明呉; 博楊; 元服部
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2024-04-25
Anticipated expiration: 2041-01-15
Also published as: JP2022109742A

Description

本発明は、複数の対象物が映り込む画像から、総合的に評価されたラベルを推定する機械学習エンジンの技術に関する。特に、人の顔に例えばマスクのような装着物が着用された顔画像から、その表情を推定する用途に適する。

撮影画像から人や対象物を認識する機械学習エンジンの技術が発展してきている。特に、顔画像からその本人を認識する顔認識の精度は、深層学習(Deep Learning)技術の発展と共に、急激に向上している。例えばfacebook社は、深層学習を用いた顔認識技術DeepFace（登録商標）の精度が97.35%に達したと発表した（例えば非特許文献１参照）。
また、機械学習エンジンの学習モデルを訓練するために、大量の教師画像を使用する必要があるが、例えばAffectiva社は、世界87か国以上から収集された約70億の感情特徴量を用いて、感情認識技術を実現している（例えば非特許文献２参照）。

従来、感情毎に大量の顔画像の特徴量を予め学習しており、顔画像から感情を認識する技術がある（例えば特許文献１参照）。具体的には、Ekman 7分類表情モデル（ニュートラル、喜び、嫌悪、怒り、サプライズ、悲しみ、恐怖）や、ポジティブ・ネガティブ・ニュートラルの３分類感情モデルなどがある。

また、対象人物の状態に基づく複数の認識モード毎に認識器を有し、顔認識時に、認識モードに応じたいずれか１つの認識器を適用する技術もある（例えば特許文献２参照）。対象人物の顔の状態としては、マスク、メガネ、サングラス、帽子等の着用の有無がある。この技術によれば、対象人物の顔の閉鎖領域から認識モードを選択し、その認識モードに基づく認識器が認証の成否を判定する。即ち、各認識器は、閉鎖領域が異なる教師画像から訓練されたものである。

更に、マスクで覆われていない目の周辺の特徴点を抽出し且つ照合する「マスク着用に特化した」顔認証エンジンの技術もある（例えば非特許文献３参照）。この技術によれば、マスク着用時の1：1認証で99.9％以上という認証率を達成したとしている。

更に、本願の出願人によって開発された表情認識ＡＩ(Artificial Intelligence)の技術もある（例えば非特許文献４参照）。顔認識技術の用途としては、一般的に、認証成功によるロック解除がある。これに対して、顔表情認識技術の用途としては、笑顔検出による写真の自動撮影機能や、テレビ番組の視聴者の表情解析に基づく受容度のマーケティング調査がある。

特開２０１１－１５０３８１号公報特開２０１８－１６５９８３号公報

Taigman, Yaniv, et al. "Deepface: Closing the gap to human-level performance in face verification." Proceedings of the IEEE conference on computer vision and pattern recognition. 2014. affectiva、[online]、［令和３年１月４日検索］、インターネット＜URL:https://affectiva.jp/reason.html＞「NEC、マスク着用に特化した顔認証エンジンを開発--認証率は99.9％以上」、[online]、［令和３年１月４日検索］、インターネット＜URL: https://japan.cnet.com/article/35160036/＞「アングルフリーな表情認識ＡＩ」、[online]、［令和３年１月４日検索］、インターネット＜URL:https://www.kddi-research.jp/newsrelease/2018/080201.html＞「対象物検出、セグメンテーションをMask R-CNNで理解してみる」、[online]、［令和３年１月４日検索］、インターネット＜URL:https://qiita.com/shtmr/items/4283c851bc3d9721ed96＞

近年、新型コロナウイルス感染症が流行して以来、顔にマスクやゴーグルを着用することが一般的になっている。このような装着物を顔に着用した場合、顔の面積の最大70％が覆われてしまう。そのために、顔や表情を十分に認識できないという課題が生じてきた。一般的な顔認識アルゴリズムによれば、顔画像から目、鼻、口、頬、顔面の筋肉など、可能な限り多くの特徴量を取り込む必要がある。
例えば非特許文献３に記載の技術によれば、顔認識の機械学習エンジンに対して、マスクやゴーグルを着用した顔や表情の教師画像を大量に訓練させている。

しかしながら、顔表情認識の用途の場合、例えば顔にマスクを着用することによって、鼻・口のほとんど、及び、頬・顔面の筋肉の大半から、特徴量を抽出できなくなる。そのために、顔表情の認識精度が大きく低下することとなった。また、顔表情認識技術は、1：1で本人を認証する顔認識技術と違って、目の周辺の特徴点だけでは、万人に適用可能であって汎用的な学習モデルを構築することができないという問題も生じた。

これに対し、本願の発明者らは、人の顔画像から、顔露出領域とそれ以外の領域とを別々に分析し、それらを総合的に評価して顔表情を推定することができないか、と考えた。これには、対象画像から物体の領域画像毎に別々に分析し、それらを総合的に評価したラベルを推定する技術が必要になる、と考えた。

そこで、本発明は、対象画像から物体の領域画像毎に別々に分析し、それらを総合的に評価したラベルを推定するプログラム、装置及び方法を提供することを目的とする。

本発明によれば、装着物が着用された人の顔が映り込む対象画像から、人の顔の表情に基づくラベルを推定するようにコンピュータを機能させるプログラムにおいて、
対象画像から人の顔領域画像を検出する顔領域検出手段と、
人の顔領域画像を、顔露出領域画像及び装着物領域画像の異なる領域種別の領域画像に分割する領域分割手段と、
領域種別毎に複数備えられ、領域画像を入力し、予め訓練されたモデルを用いて中間特徴量を出力する入力中間層と、
複数の入力中間層から出力された中間特徴量を融合して、融合中間特徴量を出力する中間特徴量融合層と、
融合中間特徴量を入力し、予め訓練されたモデルを用いてラベルを推定する出力層と
してコンピュータを機能させることを特徴とする。

本発明のプログラムにおける他の実施形態によれば、
中間特徴量融合層は、入力中間層毎に異なる重み付けによって複数の中間特徴量を融合する
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
装着物は、マスク、メガネ、ゴーグル又はサングラスである
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
教師ラベルが付与された教師画像を用いて、
領域分割手段は、教師画像を、異なる領域種別の領域画像に分割し、
入力中間層は、ニューラルネットワークにおける入力層及び中間層からなり、教師画像に基づく各領域画像を入力し且つ出力層から教師ラベルが出力されるように訓練したモデルを有し、
中間特徴量融合層は、各入力中間層から出力された中間特徴量を入力し且つ出力層から教師ラベルが出力されるように訓練した、入力中間層毎に異なる重み付けを導出し、
出力層は、教師画像に基づく融合中間特徴量を入力し且つ教師ラベルを出力するように訓練したモデルを有する
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
領域分割手段は、入力された画像の画素毎に領域種別を推定し、領域画像の境界線（セグメンテーション）に基づく領域画像を検出する
ようにコンピュータを機能させることも好ましい。

本発明によれば、装着物が着用された人の顔が映り込む対象画像から、人の顔の表情に基づくラベルを推定する推定装置において、
対象画像から人の顔領域画像を検出する顔領域検出手段と、
人の顔領域画像を、顔露出領域画像及び装着物領域画像の異なる領域種別の領域画像に分割する領域分割手段と、
領域種別毎に複数備えられ、領域画像を入力し、予め訓練されたモデルを用いて中間特徴量を出力する入力中間層と、
複数の入力中間層から出力された中間特徴量を融合して、融合中間特徴量を出力する中間特徴量融合層と、
融合中間特徴量を入力し、予め訓練されたモデルを用いてラベルを推定する出力層と
を有することを特徴とする。

本発明によれば、装着物が着用された人の顔が映り込む対象画像から、人の顔の表情に基づくラベルを推定する装置の推定方法において、
装置は、
対象画像から人の顔領域画像を検出し、人の顔領域画像を顔露出領域画像及び装着物領域画像の異なる領域種別の領域画像に分割する第１のステップと、
領域種別毎に備えられた入力中間層を用いて、領域画像を入力し、予め訓練されたモデルを用いて中間特徴量を出力する第２のステップと、
複数の入力中間層から出力された中間特徴量を融合して、融合中間特徴量を出力する第３のステップと、
融合中間特徴量を入力し、予め訓練されたモデルを用いてラベルを推定する第４のステップと
を実行することを特徴とする。

本発明のプログラム、装置及び方法によれば、対象画像から物体の領域画像毎に別々に分析し、それらを総合的に評価したラベルを推定することができる。

本発明における顔表情認識装置の訓練段階の機能構成図である。顔領域検出部及び領域分割部の処理を表す説明図である。本発明における顔表情認識装置の推定段階の機能構成図である。本発明のプログラムにおける基本的な訓練段階の機能構成図である。本発明のプログラムにおける基本的な推定段階の機能構成図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

本願の発明者らは、例えばマスクを着用した人の顔画像から、高精度に表情を認識するために、顔露出領域の特徴量だけでなく、マスク着用領域の特徴量も利用して、表情を認識した方がよいのではないか、と考えた。
その際、顔露出領域から認識された表情と、マスク着用領域から認識された表情との相関関係も考慮すべきではないか、と考えた。
顔露出領域については、マスクに覆われていない目の周辺領域に表情が表れやすい。特に、表情は眉間のシワなどに表れやすい。一方で、マスク着用領域についても、顔全体、特に鼻・口・頬における筋肉の変化によって、マスク自体にシワが生じて変形することとなる。本願の発明者らは、顔露出領域の特徴量と、マスク着用領域の特徴量とを別々に推定しながら、両者の相関関係を考慮して、表情を認識すべきと考えた。

尚、以下では、図１～図３については、顔に装着物が着用された顔画像から、顔表情を認識する用途に適する技術を説明する。
その後、図４及び図５については、顔表情認識技術に限られず、一般的な物体認識の用途に適する技術を説明する。

図１は、本発明における顔表情認識装置の訓練段階の機能構成図である。

顔表情認識装置１は、人の顔画像（対象画像）を入力することによって、表情（ラベル）を推定することができる。
図１によれば、顔表情認識装置１は、＜訓練段階＞として、教師画像蓄積部２と、顔領域検出部１０と、領域分割部１１と、顔露出領域入力中間層（第１の入力中間層）１２１と、マスク着用領域入力中間層（第２の入力中間層）１２２と、中間特徴量融合層１３と、出力層１４とを有する。これら機能構成部は、顔表情認識装置１に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、装置の推定方法としても理解できる。

［教師画像蓄積部２］
教師画像蓄積部２は、人の顔が映り込む顔画像（教師画像）と、人の表情ラベル（教師ラベル）とを対応付けた教師データを、予め大量に蓄積したものである。
顔画像（教師画像） <-> 表情ラベル（教師ラベル）
顔画像は、映り込む人の顔に、例えばマスクのような装着物が着用されているものとする。勿論、用途によっては、例えばメガネ、ゴーグル又はサングラスのような装着物が着用されたものであってもよい。
表情ラベルは、例えばポジティブ、ネガティブ、ニュートラルであってもよい。勿論、４つ以上の表情が用意されていてもよい。

教師画像蓄積部２は、顔画像及び表情ラベルのセット毎に出力する。顔画像は、顔領域検出部１０に入力され、出力層１４から表情ラベルが出力されるように、各機能構成部の学習モデルが訓練される。具体的には、教師データの顔画像によって、顔露出領域入力中間層１２１と、マスク着用領域入力中間層１２２と、中間特徴量融合層１３と、出力層１４とが、当該出力層１４からその表情ラベルを出力するように訓練される。

図２は、顔領域検出部及び領域分割部の処理を表す説明図である。

［顔領域検出部１０］
顔領域検出部１０は、入力された顔画像から、人の顔領域（例えばバウンディングボックス）を検出する。＜訓練段階＞で入力される顔画像は、教師画像である。
検出された顔領域は、領域分割部１１へ出力される。

顔領域検出部１０には、具体的には、Ｒ－ＣＮＮ(Regions with Convolutional Neural Networks)やＳＳＤ(Single Shot Multibox Detector)を用いる。
Ｒ－ＣＮＮは、四角形の顔領域を畳み込みニューラルネットワークの特徴と組み合わせて、顔領域のサブセットを検出する（領域提案）。次に、領域提案からＣＮＮ特徴量を抽出する。そして、ＣＮＮ特徴量を用いて予め学習したサポートベクタマシンによって、領域提案のバウンディングボックスを調整する。
ＳＳＤは、機械学習を用いた一般対象物検知のアルゴリズムであって、デフォルトボックス(default boxes)という長方形のバウンディングボックスを決定する。１枚の画像上に、大きさの異なるデフォルトボックスを多数重畳させ、そのボックス毎に予測値を計算する。各デフォルトボックスについて、自身が対象物からどのくらい離れていて、どのくらい大きさが異なるのか、とする位置を予測することができる。

［領域分割部１１］
領域分割部１１は、顔領域検出部１０によって検出された顔領域画像を入力し、異なる領域種別の領域画像に分割する。
領域分割部１１は、入力された画像の画素(pixel)毎に領域種別を推定し、領域画像の境界線（セグメンテーション）に基づく領域画像を検出する。ここで、異なる領域種別の領域画像とは、具体的には以下のようになる。
第１の領域種別：顔露出領域画像
第２の領域種別：マスク着用領域画像（装着物領域画像）
そして、顔露出領域画像は、顔露出領域入力中間層１２１へ出力され、マスク着用領域画像は、マスク着用領域入力中間層１２２へ出力される。

領域分割部１１は、対象物画像及びクラスからなる大量のデータセットによって予め訓練された機械学習エンジンである。
具体的には、例えばmask rcnn（登録商標）、YOLACT（登録商標）、BlendMAS（登録商標）などの既存技術を適用することができる。mask rcnnによれば、画素単位でクラス分類をし、画像全体からクラスに基づく境界領域を検出する。そして、画像から「対象物らしき領域」を大量に検出する。それらの中から、「人の顔らしさ」が閾値以上の領域と、「マスクらしさ」が閾値以上の領域とを絞り込んでいき、最終的に「顔露出領域」及び「マスク着用領域」が得られる。
mask rcnnのネットワーク構造は、例えばFaster R-CNNをベースに改善されたものである（例えば非特許文献５参照）。

［顔露出領域入力中間層１２１及びマスク着用領域入力中間層１２２］
入力中間層１２は、「入力層」及び「中間層」からなり、出力層と共に、一般的なニューラルネットワークに基づくものである。特に、中間層は、出力層から正解の教師ラベルが得られるように、画像のどの部分を特徴としてとらえるかを繰り返し訓練したものである。

本発明によれば、入力中間層１２は、教師画像に基づく各領域画像を入力し且つ出力層１４から教師ラベルが出力されるように訓練したモデルを有する。
入力中間層１２は、入力された画像に基づく領域特徴量を抽出するべく機能する。特に、中間層の最終段の第Ｎ－１層を可視化（ヒートマップ）すると、それぞれの領域画像の特徴量を認識したものとなる。

また、入力中間層１２は、領域種別毎に予め複数備えられる。図１によれば、領域分割部１１が２つの領域画像に分割し、各領域画像がそれぞれの入力中間層１２に入力される。ここでは、以下の２つを備える。
顔領域種別の画像を訓練する顔露出領域入力中間層１２１
マスク着用領域種別の画像を訓練するマスク着用領域入力中間層１２２
勿論、領域分割部１１が３つの領域画像に分割し、３つの入力中間層を有するものであってもよい。
そして、顔露出領域入力中間層１２１及びマスク着用領域入力中間層１２２は、それぞれ中間特徴量を、中間特徴量融合層１３へ出力する。

［中間特徴量融合層１３］
中間特徴量融合層１３は、複数の入力中間層１２から出力された中間特徴量を融合して、融合中間特徴量を出力層１４へ出力する。
このとき、中間特徴量融合層１３は、出力層１４から教師ラベルが出力されるべく、入力中間層１２毎に異なる重みを導出しておく。

中間特徴量融合層１３の重みは、ニューラルネットワークにおける出力層１４から見て、各入力中間層１２からの特徴量の重要度を数値化したものである。
一般的なニューラルネットワークによれば、後段の各ニューロンは、前段の複数のニューロンそれぞれに対して重みを訓練する。一般的な重みは、ニューロンとニューロンの繋がりが情報の伝わりやすさを変えるべく、シナプスの結合の強さを表す。
これに対し、本発明の中間特徴量融合層１３は、前段の各入力中間層１２単位で、重みを訓練している。本発明の重みは、顔露出領域入力中間層１２１及びマスク着用領域入力中間層１２２それぞれと、出力層１４との結合の強さを表す。
顔露出領域入力中間層１２１に対する重み：β
マスク着用領域入力中間層１２２に対する重み：１－β
ここで、顔表情を認識する場合、β＞（１－β）となると想定される。顔表情認識について、例えば、顔露出領域からの顔表情認識にβ＝０．９の重みが付与され、マスク着用領域からの顔表情推定に１－β＝０．１の重みが付与されるように想定する。

これに対し、本発明では、第１の入力中間層と出力層との情報の伝わりやすさβと、第２の入力中間層と出力層との情報の伝わりやすさβ－１とを、出力層によって推定されるラベルの精度から訓練したものである。

［出力層１４］
出力層１４は、教師画像に基づく融合中間特徴量を入力し且つ教師ラベルを出力するようにモデルを訓練したものである。これも、一般的なニューラルネットワークにおける出力層と同じ機能のものである。

図３は、本発明における顔表情認識装置の推定段階の機能構成図である。

図３によれば、基本的に、図１と同じ機能構成を有する。
顔表情認識装置１は、＜推定段階＞として、人の顔が映り込む対象画像から、顔表情を推定することができる。ここで、対象画像は、装着物としてマスクを着用した顔画像を想定するが、勿論、装着物が着用されていない顔画像が混在していてもよい。
顔領域検出部１０は、対象画像を入力し、人の顔領域画像を検出する。
領域分割部１１は、対象画像における人の顔領域画像から、異なる領域種別の領域画像として、顔露出領域画像及びマスク着用領域画像に分割する。そして、顔露出領域画像を顔露出領域入力中間層１２１へ出力し、マスク着用領域画像をマスク着用領域入力中間層１２２へ出力する。
顔露出領域入力中間層１２１及びマスク着用領域入力中間層１２２はそれぞれ、領域画像を入力し、予め訓練されたモデルを用いて中間特徴量を出力する。顔露出領域の画像の中間特徴量と、マスク着用領域の画像の中間特徴量と別々に抽出される。
中間特徴量融合層１３は、複数の入力中間層から出力された中間特徴量を融合して、融合中間特徴量を出力する。これによって、顔露出領域（例えば眉間のシワなど）及びマスク着用領域（例えば顔の筋肉変化に基づくマスクのシワ）のそれぞれの画像の中間特徴量の傾向を残しながら融合することができる。特に、顔露出領域の中間特徴量の重みβを、マスク着用領域の中間特徴量の重み１－βよりも重くすることによって、顔露出領域からの表情認識の結果を強く反映することができる。
出力層１４は、最終的に、融合中間特徴量を入力し、予め訓練されたモデルを用いて表情ラベルを推定する。

尚、本発明における他の実施形態として、領域分割部１１が、例えば布製マスク、不織布製マスク、平型マスク、ブリーツ型マスク、立体型マスクのように、マスク種別毎に領域画像を分割するものであってもよい。その場合、マスク種別に応じてマスク着用領域入力中間層１２２を備えておく。訓練段階では、教師画像に応じて、顔に着用されたマスクに対応する入力中間層が訓練される。推定段階では、対象画像に応じて、顔に着用されたマスクに対応する入力中間層によって推定される。

図４は、本発明のプログラムにおける基本的な訓練段階の機能構成図である。
図５は、本発明のプログラムにおける基本的な推定段階の機能構成図である。

図４及び図５は、人の顔画像から顔表情を認識する用途に限定しない、基本的な機能構成図である。
領域分割部１１は、対象画像を、異なる領域種別の領域画像に分割する。
入力中間層１２は、領域種別毎に複数備えられ、領域画像を入力し、予め訓練されたモデルを用いて中間特徴量を出力する。
中間特徴量融合層１３は、複数の入力中間層１２から出力された中間特徴量を融合して、融合中間特徴量を出力する。このとき、入力中間層１２毎に異なる重みが付与されることも好ましい。
出力層１４は、融合中間特徴量を入力し、予め訓練されたモデルを用いてラベルを推定する。

図４及び図５における機能構成は、様々な用途に利用することができる。例えば室内カメラで撮影された画像であれば、人の領域画像と家具の領域画像とを別々に中間特徴量を抽出することによって、室内全体を総合的に評価したラベルを推定することができるかもしれない。また、例えば車載カメラで撮影された画像であれば、道路上の領域画像と道路側面上の領域画像とを別々に中間特徴量を抽出することによって、交通全体を総合的に評価したラベルを推定することができるかもしれない。

以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、対象画像から物体の領域画像毎に別々に分析し、それらを総合的に評価したラベルを推定することができる。
特に、本発明によれば、顔表情認識の用途に適用することができ、顔に装着物を着用した人の顔画像であっても、その顔表情を推定することができる。

尚、これにより、コロナ禍にあっても「顔にマスクを装着したユーザは、そのマスクを取り外すことなく、その表情を推定することができる」ことから、国連が主導する持続可能な開発目標（ＳＤＧｓ）の目標３「あらゆる年齢のすべての人々の健康的な生活を確保し、福祉を推進する」に貢献することが可能となる。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１顔表情認識装置
１０顔領域検出部
１１領域分割部
１２入力中間層
１２１顔露出領域入力中間層、第１の入力中間層
１２２マスク着用領域入力中間層、第２の入力中間層
１３中間特徴量融合層
１４出力層
２教師画像蓄積部

Claims

装着物が着用された人の顔が映り込む対象画像から、人の顔の表情に基づくラベルを推定するようにコンピュータを機能させるプログラムにおいて、
対象画像から人の顔領域画像を検出する顔領域検出手段と、
人の顔領域画像を、顔露出領域画像及び装着物領域画像の異なる領域種別の領域画像に分割する領域分割手段と、
領域種別毎に複数備えられ、領域画像を入力し、予め訓練されたモデルを用いて中間特徴量を出力する入力中間層と、
複数の入力中間層から出力された中間特徴量を融合して、融合中間特徴量を出力する中間特徴量融合層と、
融合中間特徴量を入力し、予め訓練されたモデルを用いてラベルを推定する出力層と
してコンピュータを機能させることを特徴とするプログラム。
中間特徴量融合層は、入力中間層毎に異なる重み付けによって複数の中間特徴量を融合する
ようにコンピュータを機能させることを特徴とする請求項１に記載のプログラム。
装着物は、マスク、メガネ、ゴーグル又はサングラスである
ようにコンピュータを機能させることを特徴とする請求項１又は２に記載のプログラム。
教師ラベルが付与された教師画像を用いて、
領域分割手段は、教師画像を、異なる領域種別の領域画像に分割し、
入力中間層は、ニューラルネットワークにおける入力層及び中間層からなり、教師画像に基づく各領域画像を入力し且つ出力層から教師ラベルが出力されるように訓練したモデルを有し、
中間特徴量融合層は、各入力中間層から出力された中間特徴量を入力し且つ出力層から教師ラベルが出力されるように訓練した、入力中間層毎に異なる重み付けを導出し、
出力層は、教師画像に基づく融合中間特徴量を入力し且つ教師ラベルを出力するように訓練したモデルを有する
ようにコンピュータを機能させることを特徴とする請求項１から３のいずれか１項に記載のプログラム。
領域分割手段は、入力された画像の画素毎に領域種別を推定し、領域画像の境界線（セグメンテーション）に基づく領域画像を検出する
ようにコンピュータを機能させることを特徴とする請求項１から４のいずれか１項に記載のプログラム。
装着物が着用された人の顔が映り込む対象画像から、人の顔の表情に基づくラベルを推定する推定装置において、
対象画像から人の顔領域画像を検出する顔領域検出手段と、
人の顔領域画像を、顔露出領域画像及び装着物領域画像の異なる領域種別の領域画像に分割する領域分割手段と、
領域種別毎に複数備えられ、領域画像を入力し、予め訓練されたモデルを用いて中間特徴量を出力する入力中間層と、
複数の入力中間層から出力された中間特徴量を融合して、融合中間特徴量を出力する中間特徴量融合層と、
融合中間特徴量を入力し、予め訓練されたモデルを用いてラベルを推定する出力層と
を有することを特徴とする推定装置。
装着物が着用された人の顔が映り込む対象画像から、人の顔の表情に基づくラベルを推定する装置の推定方法において、
装置は、
対象画像から人の顔領域画像を検出し、人の顔領域画像を、顔露出領域画像及び装着物領域画像の異なる領域種別の領域画像に分割する第１のステップと、
領域種別毎に備えられた入力中間層を用いて、領域画像を入力し、予め訓練されたモデルを用いて中間特徴量を出力する第２のステップと、
複数の入力中間層から出力された中間特徴量を融合して、融合中間特徴量を出力する第３のステップと、
融合中間特徴量を入力し、予め訓練されたモデルを用いてラベルを推定する第４のステップと
を実行することを特徴とする装置の推定方法。