JP7474553B2 - 対象物の領域画像毎に異なる入力中間層を用いてラベルを推定するプログラム、装置及び方法 - Google Patents
対象物の領域画像毎に異なる入力中間層を用いてラベルを推定するプログラム、装置及び方法 Download PDFInfo
- Publication number
- JP7474553B2 JP7474553B2 JP2021005217A JP2021005217A JP7474553B2 JP 7474553 B2 JP7474553 B2 JP 7474553B2 JP 2021005217 A JP2021005217 A JP 2021005217A JP 2021005217 A JP2021005217 A JP 2021005217A JP 7474553 B2 JP7474553 B2 JP 7474553B2
- Authority
- JP
- Japan
- Prior art keywords
- region
- image
- face
- input
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 9
- 230000008921 facial expression Effects 0.000 claims description 51
- 230000004927 fusion Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 239000011521 glass Substances 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 9
- 230000001815 facial effect Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000008451 emotion Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 210000001097 facial muscle Anatomy 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000037303 wrinkles Effects 0.000 description 3
- 208000025721 COVID-19 Diseases 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- GRHBODILPPXVKN-UHFFFAOYSA-N 2-[2-(3-butoxyphenyl)ethylamino]-n,n-dimethylacetamide Chemical compound CCCCOC1=CC=CC(CCNCC(=O)N(C)C)=C1 GRHBODILPPXVKN-UHFFFAOYSA-N 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000036642 wellbeing Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Description
また、機械学習エンジンの学習モデルを訓練するために、大量の教師画像を使用する必要があるが、例えばAffectiva社は、世界87か国以上から収集された約70億の感情特徴量を用いて、感情認識技術を実現している(例えば非特許文献2参照)。
例えば非特許文献3に記載の技術によれば、顔認識の機械学習エンジンに対して、マスクやゴーグルを着用した顔や表情の教師画像を大量に訓練させている。
対象画像から人の顔領域画像を検出する顔領域検出手段と、
人の顔領域画像を、顔露出領域画像及び装着物領域画像の異なる領域種別の領域画像に分割する領域分割手段と、
領域種別毎に複数備えられ、領域画像を入力し、予め訓練されたモデルを用いて中間特徴量を出力する入力中間層と、
複数の入力中間層から出力された中間特徴量を融合して、融合中間特徴量を出力する中間特徴量融合層と、
融合中間特徴量を入力し、予め訓練されたモデルを用いてラベルを推定する出力層と
してコンピュータを機能させることを特徴とする。
中間特徴量融合層は、入力中間層毎に異なる重み付けによって複数の中間特徴量を融合する
ようにコンピュータを機能させることも好ましい。
装着物は、マスク、メガネ、ゴーグル又はサングラスである
ようにコンピュータを機能させることも好ましい。
教師ラベルが付与された教師画像を用いて、
領域分割手段は、教師画像を、異なる領域種別の領域画像に分割し、
入力中間層は、ニューラルネットワークにおける入力層及び中間層からなり、教師画像に基づく各領域画像を入力し且つ出力層から教師ラベルが出力されるように訓練したモデルを有し、
中間特徴量融合層は、各入力中間層から出力された中間特徴量を入力し且つ出力層から教師ラベルが出力されるように訓練した、入力中間層毎に異なる重み付けを導出し、
出力層は、教師画像に基づく融合中間特徴量を入力し且つ教師ラベルを出力するように訓練したモデルを有する
ようにコンピュータを機能させることも好ましい。
領域分割手段は、入力された画像の画素毎に領域種別を推定し、領域画像の境界線(セグメンテーション)に基づく領域画像を検出する
ようにコンピュータを機能させることも好ましい。
対象画像から人の顔領域画像を検出する顔領域検出手段と、
人の顔領域画像を、顔露出領域画像及び装着物領域画像の異なる領域種別の領域画像に分割する領域分割手段と、
領域種別毎に複数備えられ、領域画像を入力し、予め訓練されたモデルを用いて中間特徴量を出力する入力中間層と、
複数の入力中間層から出力された中間特徴量を融合して、融合中間特徴量を出力する中間特徴量融合層と、
融合中間特徴量を入力し、予め訓練されたモデルを用いてラベルを推定する出力層と
を有することを特徴とする。
装置は、
対象画像から人の顔領域画像を検出し、人の顔領域画像を顔露出領域画像及び装着物領域画像の異なる領域種別の領域画像に分割する第1のステップと、
領域種別毎に備えられた入力中間層を用いて、領域画像を入力し、予め訓練されたモデルを用いて中間特徴量を出力する第2のステップと、
複数の入力中間層から出力された中間特徴量を融合して、融合中間特徴量を出力する第3のステップと、
融合中間特徴量を入力し、予め訓練されたモデルを用いてラベルを推定する第4のステップと
を実行することを特徴とする。
その際、顔露出領域から認識された表情と、マスク着用領域から認識された表情との相関関係も考慮すべきではないか、と考えた。
顔露出領域については、マスクに覆われていない目の周辺領域に表情が表れやすい。特に、表情は眉間のシワなどに表れやすい。一方で、マスク着用領域についても、顔全体、特に鼻・口・頬における筋肉の変化によって、マスク自体にシワが生じて変形することとなる。本願の発明者らは、顔露出領域の特徴量と、マスク着用領域の特徴量とを別々に推定しながら、両者の相関関係を考慮して、表情を認識すべきと考えた。
その後、図4及び図5については、顔表情認識技術に限られず、一般的な物体認識の用途に適する技術を説明する。
図1によれば、顔表情認識装置1は、<訓練段階>として、教師画像蓄積部2と、顔領域検出部10と、領域分割部11と、顔露出領域入力中間層(第1の入力中間層)121と、マスク着用領域入力中間層(第2の入力中間層)122と、中間特徴量融合層13と、出力層14とを有する。これら機能構成部は、顔表情認識装置1に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、装置の推定方法としても理解できる。
教師画像蓄積部2は、人の顔が映り込む顔画像(教師画像)と、人の表情ラベル(教師ラベル)とを対応付けた教師データを、予め大量に蓄積したものである。
顔画像(教師画像) <-> 表情ラベル(教師ラベル)
顔画像は、映り込む人の顔に、例えばマスクのような装着物が着用されているものとする。勿論、用途によっては、例えばメガネ、ゴーグル又はサングラスのような装着物が着用されたものであってもよい。
表情ラベルは、例えばポジティブ、ネガティブ、ニュートラルであってもよい。勿論、4つ以上の表情が用意されていてもよい。
顔領域検出部10は、入力された顔画像から、人の顔領域(例えばバウンディングボックス)を検出する。<訓練段階>で入力される顔画像は、教師画像である。
検出された顔領域は、領域分割部11へ出力される。
R-CNNは、四角形の顔領域を畳み込みニューラルネットワークの特徴と組み合わせて、顔領域のサブセットを検出する(領域提案)。次に、領域提案からCNN特徴量を抽出する。そして、CNN特徴量を用いて予め学習したサポートベクタマシンによって、領域提案のバウンディングボックスを調整する。
SSDは、機械学習を用いた一般対象物検知のアルゴリズムであって、デフォルトボックス(default boxes)という長方形のバウンディングボックスを決定する。1枚の画像上に、大きさの異なるデフォルトボックスを多数重畳させ、そのボックス毎に予測値を計算する。各デフォルトボックスについて、自身が対象物からどのくらい離れていて、どのくらい大きさが異なるのか、とする位置を予測することができる。
領域分割部11は、顔領域検出部10によって検出された顔領域画像を入力し、異なる領域種別の領域画像に分割する。
領域分割部11は、入力された画像の画素(pixel)毎に領域種別を推定し、領域画像の境界線(セグメンテーション)に基づく領域画像を検出する。ここで、異なる領域種別の領域画像とは、具体的には以下のようになる。
第1の領域種別:顔露出領域画像
第2の領域種別:マスク着用領域画像(装着物領域画像)
そして、顔露出領域画像は、顔露出領域入力中間層121へ出力され、マスク着用領域画像は、マスク着用領域入力中間層122へ出力される。
具体的には、例えばmask rcnn(登録商標)、YOLACT(登録商標)、BlendMAS(登録商標)などの既存技術を適用することができる。mask rcnnによれば、画素単位でクラス分類をし、画像全体からクラスに基づく境界領域を検出する。そして、画像から「対象物らしき領域」を大量に検出する。それらの中から、「人の顔らしさ」が閾値以上の領域と、「マスクらしさ」が閾値以上の領域とを絞り込んでいき、最終的に「顔露出領域」及び「マスク着用領域」が得られる。
mask rcnnのネットワーク構造は、例えばFaster R-CNNをベースに改善されたものである(例えば非特許文献5参照)。
入力中間層12は、「入力層」及び「中間層」からなり、出力層と共に、一般的なニューラルネットワークに基づくものである。特に、中間層は、出力層から正解の教師ラベルが得られるように、画像のどの部分を特徴としてとらえるかを繰り返し訓練したものである。
入力中間層12は、入力された画像に基づく領域特徴量を抽出するべく機能する。特に、中間層の最終段の第N-1層を可視化(ヒートマップ)すると、それぞれの領域画像の特徴量を認識したものとなる。
顔領域種別の画像を訓練する顔露出領域入力中間層121
マスク着用領域種別の画像を訓練するマスク着用領域入力中間層122
勿論、領域分割部11が3つの領域画像に分割し、3つの入力中間層を有するものであってもよい。
そして、顔露出領域入力中間層121及びマスク着用領域入力中間層122は、それぞれ中間特徴量を、中間特徴量融合層13へ出力する。
中間特徴量融合層13は、複数の入力中間層12から出力された中間特徴量を融合して、融合中間特徴量を出力層14へ出力する。
このとき、中間特徴量融合層13は、出力層14から教師ラベルが出力されるべく、入力中間層12毎に異なる重みを導出しておく。
一般的なニューラルネットワークによれば、後段の各ニューロンは、前段の複数のニューロンそれぞれに対して重みを訓練する。一般的な重みは、ニューロンとニューロンの繋がりが情報の伝わりやすさを変えるべく、シナプスの結合の強さを表す。
これに対し、本発明の中間特徴量融合層13は、前段の各入力中間層12単位で、重みを訓練している。本発明の重みは、顔露出領域入力中間層121及びマスク着用領域入力中間層122それぞれと、出力層14との結合の強さを表す。
顔露出領域入力中間層121に対する重み :β
マスク着用領域入力中間層122に対する重み:1-β
ここで、顔表情を認識する場合、β>(1-β)となると想定される。顔表情認識について、例えば、顔露出領域からの顔表情認識にβ=0.9の重みが付与され、マスク着用領域からの顔表情推定に1-β=0.1の重みが付与されるように想定する。
出力層14は、教師画像に基づく融合中間特徴量を入力し且つ教師ラベルを出力するようにモデルを訓練したものである。これも、一般的なニューラルネットワークにおける出力層と同じ機能のものである。
顔表情認識装置1は、<推定段階>として、人の顔が映り込む対象画像から、顔表情を推定することができる。ここで、対象画像は、装着物としてマスクを着用した顔画像を想定するが、勿論、装着物が着用されていない顔画像が混在していてもよい。
顔領域検出部10は、対象画像を入力し、人の顔領域画像を検出する。
領域分割部11は、対象画像における人の顔領域画像から、異なる領域種別の領域画像として、顔露出領域画像及びマスク着用領域画像に分割する。そして、顔露出領域画像を顔露出領域入力中間層121へ出力し、マスク着用領域画像をマスク着用領域入力中間層122へ出力する。
顔露出領域入力中間層121及びマスク着用領域入力中間層122はそれぞれ、領域画像を入力し、予め訓練されたモデルを用いて中間特徴量を出力する。顔露出領域の画像の中間特徴量と、マスク着用領域の画像の中間特徴量と別々に抽出される。
中間特徴量融合層13は、複数の入力中間層から出力された中間特徴量を融合して、融合中間特徴量を出力する。これによって、顔露出領域(例えば眉間のシワなど)及びマスク着用領域(例えば顔の筋肉変化に基づくマスクのシワ)のそれぞれの画像の中間特徴量の傾向を残しながら融合することができる。特に、顔露出領域の中間特徴量の重みβを、マスク着用領域の中間特徴量の重み1-βよりも重くすることによって、顔露出領域からの表情認識の結果を強く反映することができる。
出力層14は、最終的に、融合中間特徴量を入力し、予め訓練されたモデルを用いて表情ラベルを推定する。
図5は、本発明のプログラムにおける基本的な推定段階の機能構成図である。
領域分割部11は、対象画像を、異なる領域種別の領域画像に分割する。
入力中間層12は、領域種別毎に複数備えられ、領域画像を入力し、予め訓練されたモデルを用いて中間特徴量を出力する。
中間特徴量融合層13は、複数の入力中間層12から出力された中間特徴量を融合して、融合中間特徴量を出力する。このとき、入力中間層12毎に異なる重みが付与されることも好ましい。
出力層14は、融合中間特徴量を入力し、予め訓練されたモデルを用いてラベルを推定する。
特に、本発明によれば、顔表情認識の用途に適用することができ、顔に装着物を着用した人の顔画像であっても、その顔表情を推定することができる。
10 顔領域検出部
11 領域分割部
12 入力中間層
121 顔露出領域入力中間層、第1の入力中間層
122 マスク着用領域入力中間層、第2の入力中間層
13 中間特徴量融合層
14 出力層
2 教師画像蓄積部
Claims (7)
- 装着物が着用された人の顔が映り込む対象画像から、人の顔の表情に基づくラベルを推定するようにコンピュータを機能させるプログラムにおいて、
対象画像から人の顔領域画像を検出する顔領域検出手段と、
人の顔領域画像を、顔露出領域画像及び装着物領域画像の異なる領域種別の領域画像に分割する領域分割手段と、
領域種別毎に複数備えられ、領域画像を入力し、予め訓練されたモデルを用いて中間特徴量を出力する入力中間層と、
複数の入力中間層から出力された中間特徴量を融合して、融合中間特徴量を出力する中間特徴量融合層と、
融合中間特徴量を入力し、予め訓練されたモデルを用いてラベルを推定する出力層と
してコンピュータを機能させることを特徴とするプログラム。 - 中間特徴量融合層は、入力中間層毎に異なる重み付けによって複数の中間特徴量を融合する
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。 - 装着物は、マスク、メガネ、ゴーグル又はサングラスである
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。 - 教師ラベルが付与された教師画像を用いて、
領域分割手段は、教師画像を、異なる領域種別の領域画像に分割し、
入力中間層は、ニューラルネットワークにおける入力層及び中間層からなり、教師画像に基づく各領域画像を入力し且つ出力層から教師ラベルが出力されるように訓練したモデルを有し、
中間特徴量融合層は、各入力中間層から出力された中間特徴量を入力し且つ出力層から教師ラベルが出力されるように訓練した、入力中間層毎に異なる重み付けを導出し、
出力層は、教師画像に基づく融合中間特徴量を入力し且つ教師ラベルを出力するように訓練したモデルを有する
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。 - 領域分割手段は、入力された画像の画素毎に領域種別を推定し、領域画像の境界線(セグメンテーション)に基づく領域画像を検出する
ようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載のプログラム。 - 装着物が着用された人の顔が映り込む対象画像から、人の顔の表情に基づくラベルを推定する推定装置において、
対象画像から人の顔領域画像を検出する顔領域検出手段と、
人の顔領域画像を、顔露出領域画像及び装着物領域画像の異なる領域種別の領域画像に分割する領域分割手段と、
領域種別毎に複数備えられ、領域画像を入力し、予め訓練されたモデルを用いて中間特徴量を出力する入力中間層と、
複数の入力中間層から出力された中間特徴量を融合して、融合中間特徴量を出力する中間特徴量融合層と、
融合中間特徴量を入力し、予め訓練されたモデルを用いてラベルを推定する出力層と
を有することを特徴とする推定装置。 - 装着物が着用された人の顔が映り込む対象画像から、人の顔の表情に基づくラベルを推定する装置の推定方法において、
装置は、
対象画像から人の顔領域画像を検出し、人の顔領域画像を、顔露出領域画像及び装着物領域画像の異なる領域種別の領域画像に分割する第1のステップと、
領域種別毎に備えられた入力中間層を用いて、領域画像を入力し、予め訓練されたモデルを用いて中間特徴量を出力する第2のステップと、
複数の入力中間層から出力された中間特徴量を融合して、融合中間特徴量を出力する第3のステップと、
融合中間特徴量を入力し、予め訓練されたモデルを用いてラベルを推定する第4のステップと
を実行することを特徴とする装置の推定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021005217A JP7474553B2 (ja) | 2021-01-15 | 2021-01-15 | 対象物の領域画像毎に異なる入力中間層を用いてラベルを推定するプログラム、装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021005217A JP7474553B2 (ja) | 2021-01-15 | 2021-01-15 | 対象物の領域画像毎に異なる入力中間層を用いてラベルを推定するプログラム、装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022109742A JP2022109742A (ja) | 2022-07-28 |
JP7474553B2 true JP7474553B2 (ja) | 2024-04-25 |
Family
ID=82560615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021005217A Active JP7474553B2 (ja) | 2021-01-15 | 2021-01-15 | 対象物の領域画像毎に異なる入力中間層を用いてラベルを推定するプログラム、装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7474553B2 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007052733A (ja) | 2005-08-19 | 2007-03-01 | Glory Ltd | 顔画像判定装置および顔画像判定方法 |
JP2015035172A (ja) | 2013-08-09 | 2015-02-19 | 日本放送協会 | 表情解析装置及び表情解析プログラム |
-
2021
- 2021-01-15 JP JP2021005217A patent/JP7474553B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007052733A (ja) | 2005-08-19 | 2007-03-01 | Glory Ltd | 顔画像判定装置および顔画像判定方法 |
JP2015035172A (ja) | 2013-08-09 | 2015-02-19 | 日本放送協会 | 表情解析装置及び表情解析プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2022109742A (ja) | 2022-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pigou et al. | Gesture and sign language recognition with temporal residual networks | |
Zheng et al. | Attention-based spatial-temporal multi-scale network for face anti-spoofing | |
Al-Modwahi et al. | Facial expression recognition intelligent security system for real time surveillance | |
Tautkutė et al. | Classifying and visualizing emotions with emotional DAN | |
Cimmino et al. | M2FRED: Mobile masked face REcognition through periocular dynamics analysis | |
Kondo et al. | Siamese-structure deep neural network recognizing changes in facial expression according to the degree of smiling | |
Kukla et al. | Facial emotion recognition based on cascade of neural networks | |
Sara et al. | A deep learning facial expression recognition based scoring system for restaurants | |
Yamamoto et al. | Fashion style recognition using component-dependent convolutional neural networks | |
Tanchotsrinon et al. | Facial expression recognition using graph-based features and artificial neural networks | |
Gantayat et al. | Study of algorithms and methods on emotion detection from facial expressions: a review from past research | |
JP7474553B2 (ja) | 対象物の領域画像毎に異なる入力中間層を用いてラベルを推定するプログラム、装置及び方法 | |
Kantharia et al. | Facial behavior recognition using soft computing techniques: A survey | |
Morshed et al. | Customer’s spontaneous facial expression recognition | |
Hossain et al. | Real time facial expression recognition for nonverbal communication. | |
Bhaumik et al. | Analysis and detection of human faces by using minimum distance classifier for surveillance | |
Sarath Chandran et al. | Facial Emotion Recognition System for Unusual Behaviour Identification and Alert Generation | |
Vineetha et al. | Face expression detection using Microsoft Kinect with the help of artificial neural network | |
Riaz et al. | Model based analysis of face images for facial feature extraction | |
Esmaeili et al. | Automatic micro-expression recognition using LBP-SIPl and FR-CNN | |
Asawa et al. | Recognition of emotions using energy based bimodal information fusion and correlation | |
Upadhyay et al. | Face Mask Detection Using Convolutional Neural Network (CNN) | |
Chaugule et al. | Product review based on optimized facial expression detection | |
Paulose et al. | Recurrent neural network for human action recognition using star skeletonization | |
Singh et al. | Real-Time Face Recognition Under Different Environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240412 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240412 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7474553 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |