JP7344023B2 - 顔認識装置、学習装置及びプログラム - Google Patents

顔認識装置、学習装置及びプログラム Download PDF

Info

Publication number
JP7344023B2
JP7344023B2 JP2019123188A JP2019123188A JP7344023B2 JP 7344023 B2 JP7344023 B2 JP 7344023B2 JP 2019123188 A JP2019123188 A JP 2019123188A JP 2019123188 A JP2019123188 A JP 2019123188A JP 7344023 B2 JP7344023 B2 JP 7344023B2
Authority
JP
Japan
Prior art keywords
image
input
neural network
unit
grayscale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019123188A
Other languages
English (en)
Other versions
JP2021009571A (ja
Inventor
吉彦 河合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2019123188A priority Critical patent/JP7344023B2/ja
Publication of JP2021009571A publication Critical patent/JP2021009571A/ja
Application granted granted Critical
Publication of JP7344023B2 publication Critical patent/JP7344023B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、ニューラルネットワーク(NN:Neural Network)を用いて、画像に含まれる人物の顔を分析することで人物を認識する顔認識装置、ニューラルネットワークを学習する学習装置、及びプログラムに関する。
従来、ニューラルネットワークを用いて、特定のオブジェクトを認識する技術が提案されている(例えば、非特許文献1,2を参照)。
ニューラルネットワークは、オブジェクト認識等のタスクで広く利用されている技術で ある。例えば、ニューラルネットワークを用いて人物を認識する場合、顔認識装置は、カラーの顔画像を入力画像としてニューラルネットワークに入力し、顔画像の特徴ベクトルを算出し、特徴ベクトルに基づいて、その顔の人物が誰であるかを認識する。
図11は、従来の顔認識装置の構成を示すブロック図である。この顔認識装置101は、特徴ベクトル算出部(ニューラルネットワーク)110及び判定部111を備えている。
2枚の顔画像は、それぞれ入力画像として特徴ベクトル算出部110に入力される。特徴ベクトル算出部110は、2つ入力画像を入力データとしてニューラルネットワークの演算を行い、2枚の入力画像のそれぞれに対応する特徴ベクトルを求める。
入力画像のサイズはW×H×3とする。「W」は入力画像の幅、「H」は入力画像の高さを示す。「3」はチャンネル(成分)の数を示し、具体的にはRGBの色成分を3チャンネル有することを示している。つまり、入力画像は、幅W及び高さHからなるRのチャンネルの画像、幅W及び高さHからなるGのチャンネルの画像、及び幅W及び高さHからなるBのチャンネルの画像により構成される。
特徴ベクトルのサイズは1×Vであり、1行V列の行列にて構成される。「V」は、次元数である特徴データの数を示す。ニューラルネットワークとしては、CNN(Convolution Neural Network:畳み込みニューラルネットワーク)、AlexNet、ResNet、Inception等の様々なネットワークが用いられる。
特徴ベクトル算出部110により求めた2つの特徴ベクトルは、判定部111に入力される。判定部111は、2つの特徴ベクトルの間の距離を算出し、閾値処理にて、当該距離が十分に近い場合、2枚の顔画像の人物は同一人物であると判定する。一方、判定部111は、当該距離が遠い場合、2枚の顔画像の人物は異なるものと判定する。判定部111は、2枚の入力画像の人物が同一であるか、または異なるかを示す判定結果を出力する。
図12は、図11に示した従来技術において、特徴ベクトル算出部110のニューラルネットワークとしてCNNを用いた場合の入力画像に対する畳み込み処理を説明する図である。図12には、CNNを構成する入力層、隠れ層及び出力層のうち、入力層、及び隠れ層における畳み込み層のみが示されている。
入力層は、CNNの入力データである入力画像(W×H×3)を入力する層である。隠れ層は、複数の畳み込み層、複数のプーリング層及び複数の全結合層から構成され、入力画像(W×H×3)から特徴ベクトル(1×V)(図示せず)を抽出する層である。出力層は、隠れ層により抽出された特徴ベクトル(1×V)を出力する層である(図示せず)。
図12に示すとおり、幅W及び高さHからなる3チャンネルの入力画像(W×H×3)が入力層に入力される。そして、畳み込み層において、例えば64個のフィルタを用いて、入力画像(W×H×3)に対して畳み込み処理が行われ、画像(W’×H’×64)が生成される。尚、64個のフィルタは説明のための例示であり、実際は、複数の畳み込み処理において、段階的にフィルタの数を多くして画像のサイズを小さくする等の処理が行われる。
64個のフィルタを用いた畳み込み処理により、幅W及び高さHからなる3チャンネルの入力画像から、幅W’及び高さH’からなる64チャンネルの画像が生成される。幅W’は幅Wよりも小さく、高さH’も高さHよりも小さい。そして、プーリング層及び全結合層を含めた隠れ層の処理により、特徴ベクトル(1×V)が抽出され、出力層から特徴ベクトル(1×V)が出力される(図示せず)。
図11に示した顔認識装置101の特徴ベクトル算出部110には、特徴ベクトル(1×V)を演算するための重みパラメータが定義されている。この重みパラメータは、後述する学習装置において、特徴ベクトル算出部110に相当するニューラルネットワークが学習されることで得られる最適なパラメータである。
図13は、従来の学習装置の構成を示すブロック図である。この学習装置102は、ニューラルネットワーク処理部112を備えている。ニューラルネットワーク処理部112は、ニューラルネットワーク113、ラベル付与ニューラルネットワーク114及び減算部115を備えている。ニューラルネットワーク113は、図11に示した特徴ベクトル算出部110のニューラルネットワークに相当し、ラベル付与ニューラルネットワーク114は、人物名のラベルを出力する出力層のニューラルネットワークである。
学習装置102は、予め用意された顔画像である入力画像及び正解ラベル(人物名)を用いて、ニューラルネットワーク113及びラベル付与ニューラルネットワーク114を学習する。つまり、ニューラルネットワーク113及びラベル付与ニューラルネットワーク114は、入力画像及びこれに対応する正解ラベル(人物名)を教師データとして、教師あり学習が行われる。
入力画像はニューラルネットワーク処理部112に入力される。そうすると、ニューラルネットワーク113は、入力画像を入力データとしてニューラルネットワークの演算を行い、特徴ベクトルを求める。
ニューラルネットワーク113により求めた特徴ベクトルは、ラベル付与ニューラルネットワーク114に入力される。ラベル付与ニューラルネットワーク114は、特徴ベクトルを入力データとしてニューラルネットワークの演算を行い、人物名のラベルを求める。
ラベル付与ニューラルネットワーク114により求めた人物名のラベルは、減算部115に入力される。減算部115は、ラベル付与ニューラルネットワーク114により求めた人物名のラベルと、正解ラベル(人物名)である人物名の正解ラベルとの間の誤差を求め、当該誤差をラベル付与ニューラルネットワーク114へ出力する。
ラベル付与ニューラルネットワーク114は、減算部115から誤差を入力する。ラベル付与ニューラルネットワーク114及びニューラルネットワーク113は、例えば誤差逆伝播法(バックプロパゲーション: Backpropagation)を用いて、誤差をラベル付与ニューラルネットワーク114からニューラルネットワーク113の入力層へ伝搬させる。そして、ラベル付与ニューラルネットワーク114及びニューラルネットワーク113は、誤差が最小となるように、重みパラメータを更新する。
このような学習処理を、多くの入力画像及びこれに対応する正解ラベル(人物名)を用いて繰り返すことにより、ラベル付与ニューラルネットワーク114により出力される人物名のラベルと、正解ラベル(人物名)とが一致するようになる。そして、最適化したニューラルネットワーク113及びラベル付与ニューラルネットワーク114の重みパラメータを得ることができる。学習処理にて最適化された重みパラメータは、図11に示した顔認識装置101の特徴ベクトル算出部110に設定されることで、顔認識装置101による顔認識処理を実現することができる。
Q.V.Le,"Building High-level Features Using Large Scale Unsupervised Learning",ICASSP,2013 A.Krizhevsky,I.Sutskever and G.E.Hinton,"ImageNet Classification with Deep Convolutional Neural Networks",NIPS,2012
前述のとおり、従来の顔認識装置101は、特徴ベクトル算出部110を用いて、入力画像である顔画像から有用な特徴ベクトルを直接算出する。
しかしながら、顔画像から有用な特徴ベクトルを算出することは、解決が困難な計算問題であり、必ずしも顔の詳細な特徴を十分に反映した特徴ベクトルを得ることができるとは限らず、人物を正しく認識することができない場合があるという問題があった。また、学習装置102により、有効な重みパラメータを得ることが容易ではないという問題もあった。
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、顔画像から人物を認識する際に、その認識精度を向上させることが可能な顔認識装置、学習装置及びプログラムを提供することにある。
前記課題を解決するために、請求項1の顔認識装置は、人物の顔を含む画像を、所定の幅及び高さからなる所定数のチャンネルの入力画像として、当該入力画像に基づきニューラルネットワークを用いて前記人物を認識する顔認識装置において、前記入力画像に対して所定の画像変換処理を施し、前記入力画像を微分することで得られたエッジ検出画像、前記入力画像をグレースケール化することで得られたグレースケール画像、及び前記グレースケール画像の色を反転することで得られたネガポジ反転画像を生成すると共に、前記入力画像の顔部分から所定箇所の部分を欠落させた欠落画像を生成する画像変換部と、前記入力画像に対し、前記画像変換部により生成された前記エッジ検出画像、前記グレースケール画像、前記ネガポジ反転画像及び前記欠落画像を、前記チャンネルの方向に連結し、連結画像を生成する画像連結部と、前記画像連結部により生成された前記連結画像を入力データとして、前記ニューラルネットワークの演算を行い、前記連結画像の特徴ベクトルを算出する特徴ベクトル算出部と、前記特徴ベクトル算出部により算出された前記特徴ベクトルに基づいて、前記人物を判定する判定部と、を備えたことを特徴とする。
また、請求項2の顔認識装置は、人物の顔を含む画像を、所定の幅及び高さからなる所定数のチャンネルの入力画像として、当該入力画像に基づきニューラルネットワークを用いて前記人物を認識する顔認識装置において、前記入力画像に対して所定の画像変換処理を施し、前記入力画像を微分することで得られたエッジ検出画像、前記入力画像をグレースケール化することで得られたグレースケール画像、及び前記グレースケール画像の色を反転することで得られたネガポジ反転画像を生成すると共に、前記入力画像、前記エッジ検出画像、前記グレースケール画像及び前記ネガポジ反転画像に対して左右反転処理を施し、左右反転画像を生成し、さらに、前記入力画像の顔部分から所定箇所の部分を欠落させた欠落画像を生成する画像変換部と、前記入力画像に対し、前記画像変換部により生成された前記エッジ検出画像、前記グレースケール画像、前記ネガポジ反転画像、前記左右反転画像及び前記欠落画像を、前記チャンネルの方向に連結し、連結画像を生成する画像連結部と、前記画像連結部により生成された前記連結画像を入力データとして、前記ニューラルネットワークの演算を行い、前記連結画像の特徴ベクトルを算出する特徴ベクトル算出部と、前記特徴ベクトル算出部により算出された前記特徴ベクトルに基づいて、前記人物を判定する判定部と、を備えたことを特徴とする。
さらに、請求項3の学習装置は、人物の顔を含む画像を、所定の幅及び高さからなる所定数のチャンネルの入力画像として、当該入力画像及び人物名の正解ラベルを入力し、ニューラルネットワークを学習する学習装置において、前記入力画像に対して所定の画像変換処理を施し、前記入力画像を微分することで得られたエッジ検出画像、前記入力画像をグレースケール化することで得られたグレースケール画像、及び前記グレースケール画像の色を反転することで得られたネガポジ反転画像を生成すると共に、前記入力画像の顔部分から所定箇所の部分を欠落させた欠落画像を生成する学習用画像変換部と、前記入力画像に対し、前記学習用画像変換部により生成された前記エッジ検出画像、前記グレースケール画像、前記ネガポジ反転画像及び前記欠落画像を、前記チャンネルの方向に連結し、連結画像を生成する学習用画像連結部と、前記学習用画像連結部により生成された前記連結画像及び前記人物名の前記正解ラベルを教師データとして、前記連結画像から当該連結画像の特徴ベクトルを求め、当該特徴ベクトルから前記人物名のラベルを求める前記ニューラルネットワークを学習し、請求項1に記載の顔認識装置に備えたニューラルネットワークにて用いる重みパラメータを生成するニューラルネットワーク処理部と、を備えたことを特徴とする。
また、請求項4の学習装置は、人物の顔を含む画像を、所定の幅及び高さからなる所定数のチャンネルの入力画像として、当該入力画像及び人物名の正解ラベルを入力し、ニューラルネットワークを学習する学習装置において、前記入力画像に対して所定の画像変換処理を施し、前記入力画像を微分することで得られたエッジ検出画像、前記入力画像をグレースケール化することで得られたグレースケール画像、及び前記グレースケール画像の色を反転することで得られたネガポジ反転画像を生成すると共に、前記入力画像、前記エッジ検出画像、前記グレースケール画像及び前記ネガポジ反転画像に対して左右反転処理を施し、左右反転画像を生成し、さらに、前記入力画像の顔部分から所定箇所の部分を欠落させた欠落画像を生成する学習用画像変換部と、前記入力画像に対し、前記学習用画像変換部により生成された前記エッジ検出画像、前記グレースケール画像、前記ネガポジ反転画像、前記左右反転画像及び前記欠落画像を、前記チャンネルの方向に連結し、連結画像を生成する学習用画像連結部と、前記学習用画像連結部により生成された前記連結画像及び前記人物名の前記正解ラベルを教師データとして、前記連結画像から当該連結画像の特徴ベクトルを求め、当該特徴ベクトルから前記人物名のラベルを求める前記ニューラルネットワークを学習し、請求項2に記載の顔認識装置に備えたニューラルネットワークにて用いる重みパラメータを生成するニューラルネットワーク処理部と、を備えたことを特徴とする。
さらに、請求項5のプログラムは、コンピュータを、請求項1または2に記載の顔認識装置として機能させることを特徴とする。
また、請求項6のプログラムは、コンピュータを、請求項3または4に記載の学習装置として機能させることを特徴とする。
以上のように、本発明によれば、顔画像から人物を認識する際に、その認識精度を向上させることができる。
本発明の実施形態による顔認識装置の概要を説明する図である。 本発明の実施形態による顔認識装置の構成例を示すブロック図である。 顔認識装置の処理例を示すフローチャートである。 CNNを用いた場合の連結画像に対する畳み込み処理を説明する図である。 画像変換部及び画像連結部の第1構成例を示すブロック図である。 画像変換部及び画像連結部の第2構成例を示すブロック図である。 画像変換部及び画像連結部の第3構成例を示すブロック図である。 本発明の実施形態による学習装置の構成例を示すブロック図である。 学習装置の処理例を示すフローチャートである。 実験結果を説明する図である。 従来の顔認識装置の構成を示すブロック図である。 従来技術において、CNNを用いた場合の入力画像に対する畳み込み処理を説明する図である。 従来の学習装置の構成を示すブロック図である。
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、通常の顔画像に、これを加工した画像を連結することで連結画像を生成し、連結画像をニューラルネットワークの入力データとして用いることを特徴とする。
これにより、ニューラルネットワークにて、顔の詳細な特徴を一層反映した特徴ベクトルを求めることができ、人物の認識精度を向上させることができる。
〔本発明の概要〕
まず、本発明の概要について説明する。本発明者らは、顔画像から人物を認識する顔認識装置において、人物の認識精度を向上させるために鋭意検討を行った。その結果、過去の経験的な知見として有用性が高いと思われる画像変換処理を、顔画像である入力画像に適用し、入力画像と変換処理後の画像とを連結し、連結画像をニューラルネットワーク の入力データとして用いることで、人物の認識精度を向上させることができることを見出した。
図1は、本発明の実施形態による顔認識装置の概要を説明する図である。この顔認識装置は、顔画像である入力画像に対して画像変換処理を施し、変換画像を生成し、入力画像及び変換画像を連結して連結画像を生成し、ニューラルネットワークにて特徴ベクトルを求め、特徴ベクトルに基づいて人物の顔を認識する。
入力画像(W×H×3)、すなわち幅W及び高さHからなる3チャンネルの入力画像は、1または複数の画像変換処理にて変換され、1または複数の画像変換処理毎の変換画像(W×H×n1)、変換画像(W×H×n2)、・・・が生成される。入力画像(W×H×3)は、人物の顔を含む画像である。
入力画像(W×H×3)、変換画像(W×H×n1)、変換画像(W×H×n2)、・・・は、チャンネルの方向(成分の方向)の連結処理にて連結され、連結画像(W×H×n)が生成される。また、連結画像(W×H×n)は、ニューラルネットワークの入力データとして用いられ、ニューラルネットワークにより特徴ベクトル(1×V)が生成される。
ここで、n=3+n1+n2+・・・であり、n,n1,n2,・・・は、1以上の整数である。それぞれの画像変換処理にて用いるパラメータは固定であり、ニューラルネットワークにて用いる重みパラメータは、後述する学習装置2により生成される。
〔顔認識装置〕
次に、本発明の実施形態による顔認識装置について説明する。図2は、本発明の実施形態による顔認識装置の構成例を示すブロック図である。この顔認識装置1は、画像変換部10、画像連結部11、特徴ベクトル算出部(ニューラルネットワーク)12及び判定部111を備えている。顔認識装置1は、顔画像である入力画像を入力し、2枚の入力画像(W×H×3)の人物が同一であるか、または異なるかを判定する装置である。以下、顔認識装置1が入力する顔画像を入力画像として説明する。
図3は、図2に示した顔認識装置1の処理例を示すフローチャートである。以下、図2及び図3を参照して、顔認識装置1について説明する。
画像変換部10は、入力画像(W×H×3)を入力する(ステップS301)。そして、画像変換部10は、予め設定された数の画像変換処理にて入力画像(W×H×3)を変換し、幅W及び高さHが同一(縦横サイズが同一)の所定数の変換画像を生成する(ステップS302)。画像変換部10は、所定数の変換画像を画像連結部11に出力する。
ここで、所定数の変換画像のそれぞれにおいて、チャンネル数は、画像変換処理に応じた数となる。
画像連結部11は、入力画像(W×H×3)を入力すると共に、画像変換部10から所定数の変換画像を入力し、これらの画像をチャンネル方向に連結し、連結画像(W×H×16)を生成する(ステップS303)。これにより、入力画像(W×H×3)よりもチャンネル数が増加した連結画像(W×H×16)が生成される。つまり、チャンネル数3がチャンネル数16に増加する。そして、画像連結部11は、連結画像(W×H×16)を特徴ベクトル算出部12に出力する。
ここで、連結画像(W×H×16)は一例であり、後述する図5の第1構成例に対応したものである。後述する図5を参照して、入力画像(W×H×3)は、幅W及び高さHの3チャンネルの画像からなり、第1の変換画像であるエッジ検出画像(W×H×3)は、幅W及び高さHの3チャンネルの画像からなる。また、第2の変換画像であるグレースケール画像(W×H×1)は、幅W及び高さHの1チャンネルの画像からなり、第3の変換画像であるネガポジ反転画像(W×H×1)は、幅W及び高さHの1チャンネルの画像からなる。
また、第4,5,6,7の変換画像である入力画像(W×H×3)、エッジ検出画像(W×H×3)、グレースケール画像(W×H×1)及びネガポジ反転画像(W×H×1)の左右反転画像は、それぞれ幅W及び高さHの3,3,1,1チャンネルの画像からなる。入力画像(W×H×3)及び第1~7の変換画像のチャンネル数を加算すると16となる。したがって、連結画像(W×H×16)は、幅W及び高さHの16チャンネルの画像からなる。
特徴ベクトル算出部12は、画像連結部11から連結画像(W×H×16)を入力し、連結画像(W×H×16)を入力データとして、ニューラルネットワークの演算を行い、連結画像(W×H×16)の特徴ベクトル(1×V)を算出する(ステップS304)。そして、特徴ベクトル算出部12は、特徴ベクトル(1×V)を判定部111に出力する。
ニューラルネットワークの重みパラメータとしては、後述する図8に示す学習装置2により学習されるニューラルネットワーク33の重みパラメータが設定される。
判定部111は、特徴ベクトル算出部12から特徴ベクトル(1×V)を入力する。判定部111は、図11に示した判定部111と同様の処理を行う(ステップS305)。
具体的には、判定部111は、判定対象の2枚の入力画像(W×H×3)における特徴ベクトル(1×V)の間の距離を算出し、距離が所定の閾値以下である場合、2枚の入力画像(W×H×3)の人物は同一人物であると判定する。一方、判定部111は、距離が所定の閾値よりも大きい場合、2枚の入力画像(W×H×3)の人物は異なるものと判定する。判定部111は、2枚の入力画像(W×H×3)の人物が同一であるか、または異なるかを示す判定結果を出力する(ステップS306)。
例えば判定部111は、2つの特徴ベクトル(1×V)における各要素の大きさの差分を合計した値、若しくは差分の2乗値を合計した値、または2つの特徴ベクトル(1×V)の間の角度を、距離として算出する。
〔特徴ベクトル算出部12〕
図4は、特徴ベクトル算出部12のニューラルネットワークとしてCNNを用いた場合の連結画像に対する畳み込み処理を説明する図である。図4には、図12と同様に、CNNを構成する入力層、隠れ層及び出力層のうち、入力層、及び隠れ層における畳み込み層のみが示されている。
入力層は、CNNの入力データである連結画像(W×H×16)を入力する層である。隠れ層は、複数の畳み込み層、複数のプーリング層及び複数の全結合層から構成され、連結画像(W×H×16)から特徴ベクトル(1×V)(図示せず)を抽出する層である。出力層は、隠れ層により抽出された特徴ベクトル(1×V)を出力する層である(図示せず)。
図4に示すとおり、連結画像(W×H×16)である幅W及び高さHからなる16チャンネルの画像が入力層に入力される。そして、畳み込み層において、例えば64個のフィルタを用いて、連結画像(W×H×16)に対して畳み込み処理が行われ、画像(W’×H’×64)が生成される。尚、図12と同様に、64個のフィルタは説明のための例示であり、実際は、複数の畳み込み処理において、段階的にフィルタの数を多くして画像のサイズを小さくする等の処理が行われる。
64個のフィルタを用いた畳み込み処理により、幅W及び高さHからなる16チャンネルの連結画像(W×H×16)から、幅W’及び高さH’からなる64チャンネルの画像が生成される。幅W’は幅Wよりも小さく、高さH’も高さHよりも小さい。そして、プーリング層及び全結合層を含めた隠れ層の処理により、特徴ベクトル(1×V)が抽出され、出力層から特徴ベクトル(1×V)が出力される(図示せず)。
図12に示した従来の畳み込み処理と、図4に示した畳み込み処理とは、CNNの入力データである両画像のチャンネル数が異なる。図12に示した従来の畳み込み処理では、入力画像のチャンネル数は3であるが、図4に示した畳み込み処理では、連結画像のチャンネル数は16である。
また、図12に示した従来の畳み込み処理と、図4に示した畳み込み処理とは、フィルタの行列サイズが異なる。図4に示した畳み込み処理に用いるフィルタの行列サイズは、図12に示した畳み込み処理に用いるフィルタよりも大きい。
尚、特徴ベクトル算出部12の全体の構造は、単一のニューラルネットワークで構成することもできる。
〔第1構成例/画像変換部10及び画像連結部11〕
次に、図2に示した画像変換部10及び画像連結部11について、具体的な構成例について説明する。図5は、画像変換部10及び画像連結部11の第1構成例を示すブロック図である。
第1構成例は、入力画像(W×H×3)に対し、エッジ検出画像(W×H×3)、グレースケール画像(W×H×1)、ネガポジ反転画像(W×H×1)、入力画像の左右反転画像(W×H×3)、エッジ検出画像の左右反転画像(W×H×3)、グレースケール画像の左右反転画像(W×H×1)、及びネガポジ反転画像の左右反転画像(W×H×1)を連結することで、連結画像(W×H×16)を生成する例である。
この画像変換部10は、微分処理部20,21、エッジ検出部22、グレースケール化部23、ネガポジ反転部24、連結部25及び左右反転部26,27を備えている。画像連結部11は、連結部28を備えている。
微分処理部20は、入力画像(W×H×3)を入力し、x成分(幅W方向の成分)の微分値(dx)を求め、x成分の微分値をエッジ検出部22に出力する。また、微分処理部21は、入力画像(W×H×3)を入力し、y成分(高さH方向の成分)の微分値(dy)を求め、y成分の微分値をエッジ検出部22に出力する。
エッジ検出部22は、微分処理部20からx成分の微分値を入力すると共に、微分処理部21からy成分の微分値を入力する。そして、エッジ検出部22は、x成分の微分値を2乗すると共に(dx2)、y成分の微分値を2乗し(dy2)、これらの2乗値を加算することで(dx2+dy2)、エッジ検出画像(W×H×3)を生成する。エッジ検出部22は、エッジ検出画像(W×H×3)を連結部25に出力する。
エッジ検出画像(W×H×3)は、入力画像(W×H×3)を微分することで得られた画像である。尚、微分処理部20,21及びエッジ検出部22の処理は既知であるため、詳細な説明については省略する。
グレースケール化部23は、入力画像(W×H×3)を入力し、入力画像(W×H×3)に対してグレースケール化処理を施し、グレースケール画像(W×H×1)を生成する。そして、グレースケール化部23は、グレースケール画像(W×H×1)をネガポジ反転部24及び連結部25に出力する。
グレースケール画像(W×H×1)とは、白、黒、及びその中間の所定段階の灰色のみで表した画像、すなわち明るさのみを白から黒までの多階調の灰色で表現した画像である。尚、グレースケール化部23の処理は既知であるため、詳細な説明については省略する。
ネガポジ反転部24は、グレースケール化部23からグレースケール画像(W×H×1)を入力し、グレースケール画像(W×H×1)に対してネガポジ反転処理を施し、ネガポジ反転画像(W×H×1)を生成する。そして、ネガポジ反転部24は、ネガポジ反転画像(W×H×1)を連結部25に出力する。
ネガポジ反転画像(W×H×1)は、入力画像(W×H×3)における各ピクセルの輝度の最大値からピクセル値を減算することで得られた画像であり、グレースケール画像(W×H×1)の色を反転させた画像である。尚、ネガポジ反転部24の処理は既知であるため、詳細な説明については省略する。
連結部25は、エッジ検出部22からエッジ検出画像(W×H×3)を入力すると共に、グレースケール化部23からグレースケール画像(W×H×1)を入力し、さらに、ネガポジ反転部24からネガポジ反転画像(W×H×1)を入力する。そして、連結部25は、エッジ検出画像(W×H×3)、グレースケール画像(W×H×1)及びネガポジ反転画像(W×H×1)をチャンネル方向に連結し、連結画像(W×H×5)を生成する。連結部25は、連結画像(W×H×5)を左右反転部27及び画像連結部11の連結部28に出力する。
左右反転部26は、入力画像(W×H×3)を入力し、入力画像(W×H×3)に対して左右反転処理を施し、入力画像の左右反転画像(W×H×3)を生成する。そして、左右反転部26は、入力画像の左右反転画像(W×H×3)を画像連結部11の連結部28に出力する。
例えば、左右反転部26は、入力画像(W×H×3)から顔領域を抽出し、顔領域から両目の画像領域を抽出する。そして、左右反転部26は、両目の黒目(瞳孔)の中心点を結んだ直線に直交し、かつ2つの中心点の間の中央点を通る線を基準にして、入力画像(W×H×3)の左右を反転させることで、入力画像の左右反転画像(W×H×3)を生成する。尚、左右反転部26の処理は既知であるため、詳細な説明については省略する。
左右反転部27は、連結部25から連結画像(W×H×5)を入力し、連結画像(W×H×5)に対して左右反転処理を施し、連結画像の左右反転画像(W×H×5)を生成する。そして、左右反転部27は、連結画像の左右反転画像(W×H×5)を画像連結部11の連結部28に出力する。左右反転部27の処理は既知であるため、詳細な説明については省略する。
画像連結部11の連結部28は、入力画像(W×H×3)を入力し、連結部25から連結画像(W×H×5)を入力し、左右反転部26から入力画像の左右反転画像(W×H×3)を入力し、左右反転部27から連結画像の左右反転画像(W×H×5)を入力する。そして、連結部28は、入力画像(W×H×3)、連結画像(W×H×5)、入力画像の左右反転画像(W×H×3)及び連結画像の左右反転画像(W×H×5)をチャンネル方向に連結し、連結画像(W×H×16)を生成する。連結部28は、連結画像(W×H×16)を特徴ベクトル算出部12に出力する。
尚、図5に示した第1構成例では、画像変換部10は、連結部25を備えているが、連結部25を備えていなくてもよい。この場合、画像変換部10は、左右反転部27に代えて、エッジ検出画像の左右反転画像(W×H×3)を生成するための左右反転部、グレースケール画像の左右反転画像(W×H×1)を生成するための左右反転部、及びネガポジ反転画像の左右反転画像(W×H×1)を生成するための左右反転部を備える。これらの左右反転部は、エッジ検出画像の左右反転画像(W×H×3)、グレースケール画像の左右反転画像(W×H×1)、及びネガポジ反転画像の左右反転画像(W×H×1)を画像連結部11の連結部28に出力する。
〔第2構成例/画像変換部10及び画像連結部11〕
図6は、画像変換部10及び画像連結部11の第2構成例を示すブロック図である。
第2構成例は、入力画像(W×H×3)に対し、エッジ検出画像(W×H×3)を連結することで、連結画像(W×H×6)を生成する例である。
この画像変換部10は、微分処理部20,21及びエッジ検出部22を備えている。画像連結部11は、連結部28を備えている。微分処理部20,21及びエッジ検出部22は、図5と同様であるため、ここでは説明を省略する。
画像連結部11の連結部28は、入力画像(W×H×3)を入力すると共に、エッジ検出部22からエッジ検出画像(W×H×3)を入力し、入力画像(W×H×3)及びエッジ検出画像(W×H×3)をチャンネル方向に連結し、連結画像(W×H×6)を生成する。連結部28は、連結画像(W×H×6)を特徴ベクトル算出部12に出力する。
尚、図6に示した第2構成例は、入力画像(W×H×3)に対し、エッジ検出画像(W×H×3)を連結することで、連結画像(W×H×6)を生成するようにしたが、エッジ検出画像(W×H×3)の代わりに、グレースケール画像(W×H×1)またはネガポジ反転画像(W×H×1)を連結することで、連結画像(W×H×4)を生成するようにしてもよい。また、他の構成例として、入力画像(W×H×3)に対し、エッジ検出画像の左右反転画像(W×H×3)を連結することで、連結画像(W×H×6)を生成するようにしてもよい。また、他の構成例として、入力画像(W×H×3)に対し、グレースケール画像の左右反転画像(W×H×1)またはネガポジ反転画像の左右反転画像(W×H×1)を連結することで、連結画像(W×H×4)を生成するようにしてもよい。さらに、他の構成例として、入力画像(W×H×3)に対し、エッジ検出画像(W×H×3)等の2以上の画像を連結するようにしてもよい。
〔第3構成例/画像変換部10及び画像連結部11〕
図7は、画像変換部10及び画像連結部11の第3構成例を示すブロック図である。
第3構成例は、入力画像(W×H×3)に対し、エッジ検出画像(W×H×3)、グレースケール画像(W×H×1)及びネガポジ反転画像(W×H×1)を連結することで、連結画像(W×H×8)を生成する例である。
この画像変換部10は、微分処理部20,21、エッジ検出部22、グレースケール化部23、ネガポジ反転部24及び連結部25を備えている。画像連結部11は、連結部28を備えている。
微分処理部20,21、エッジ検出部22、グレースケール化部23、ネガポジ反転部24及び連結部25は、図5と同様であるため、ここでは説明を省略する。
画像連結部11の連結部28は、入力画像(W×H×3)を入力すると共に、連結部25から連結画像(W×H×5)を入力し、入力画像(W×H×3)及び連結画像(W×H×5)をチャンネル方向に連結し、連結画像(W×H×8)を生成する。連結部28は、連結画像(W×H×8)を特徴ベクトル算出部12に出力する。
以上のように、本発明の実施形態の顔認識装置1によれば、画像変換部10は、所定数の画像変換処理にて顔画像である入力画像(W×H×3)を変換し、幅W及び高さHが同一の所定数の変換画像を生成する。
画像連結部11は、入力画像(W×H×3)及び所定数の変換画像をチャンネル方向に連結し、連結画像(W×H×16)を生成する。
特徴ベクトル算出部12は、連結画像(W×H×16)を入力データとして、ニューラルネットワークの演算を行い、連結画像(W×H×16)の特徴ベクトル(1×V)を算出する。
判定部111は、判定対象の2枚の入力画像(W×H×3)における特徴ベクトル(1×V)の間の距離を算出し、距離に基づいて人物は同一であるか、または異なるかを判定する。
このように、通常の顔画像に、これを加工した画像(変換画像)を連結することで連結画像(W×H×16)を生成し、連結画像(W×H×16)を特徴ベクトル算出部12のニューラルネットワークの入力データとして用いるようにした。
これにより、ニューラルネットワークにて、顔の詳細な特徴を一層反映した特徴ベクトル(1×V)を求めることができ、顔画像から人物を認識する際に、その認識精度を向上させることができる。
また、変換画像としてエッジ検出画像(W×H×3)が生成され、エッジ検出画像(W×H×3)を含む連結画像(W×H×16)がニューラルネットワークに入力されることにより、例えば顔のシワまたは/及びヒゲの影響を受けない人物認識を実現することができる。
また、変換画像としてグレースケール画像(W×H×1)が生成され、グレースケール画像(W×H×1)を含む連結画像(W×H×16)がニューラルネットワークに入力されることにより、例えば顔の色または/及び輝度の影響を受けない人物認識を実現することができる。
〔学習装置〕
次に、本発明の実施形態による学習装置について説明する。図8は、本発明の実施形態による学習装置の構成例を示すブロック図である。この学習装置2は、画像変換部(学習用画像変換部)30、画像連結部(学習用画像連結部)31及びニューラルネットワーク処理部32を備えている。ニューラルネットワーク処理部32は、ニューラルネットワーク33、ラベル付与ニューラルネットワーク114及び減算部115を備えている。
図9は、図8に示した学習装置2の処理例を示すフローチャートである。以下、図8及び図9を参照して、学習装置2について説明する。
学習装置2は、学習データである入力画像(W×H×3)及び正解レベル(人物名)を入力する(ステップS901)。
画像変換部30は、図2に示した画像変換部10と同様の処理を行う。具体的には、画像変換部30は、入力画像(W×H×3)を入力し、所定数の画像変換処理にて入力画像(W×H×3)を変換し、幅W及び高さHが同一(縦横サイズが同一)の所定数の変換画像を生成する(ステップS902)。画像変換部30は、所定数の変換画像を画像連結部31に出力する。
画像連結部31は、図2に示した画像連結部11と同様の処理を行う。具体的には、画像連結部31は、入力画像(W×H×3)を入力すると共に、画像変換部30から所定数の変換画像を入力し、これらの画像をチャンネル方向に連結し、連結画像(W×H×16)を生成する(ステップS903)。そして、画像連結部31は、連結画像(W×H×16)をニューラルネットワーク処理部32に出力する。
ニューラルネットワーク処理部32のニューラルネットワーク33は、図2に示した特徴ベクトル算出部12であるニューラルネットワークに相当し、ラベル付与ニューラルネットワーク114は、図13に示したラベル付与ニューラルネットワーク114と同様に、人物名のラベルを出力する出力層である。
ニューラルネットワーク処理部32は、画像連結部31から連結画像(W×H×16)を入力すると共に、正解レベル(人物名)を入力する。そして、ニューラルネットワーク処理部32は、連結画像(W×H×16)及び正解レベル(人物名)を教師データとして、ニューラルネットワーク33及びラベル付与ニューラルネットワーク114を学習する(ステップS904)。
具体的には、ニューラルネットワーク33は、画像連結部31から連結画像(W×H×16)を入力し、連結画像(W×H×16)を入力データとしてニューラルネットワークの演算を行い、特徴ベクトル(1×V)を求める。そして、ニューラルネットワーク33は、特徴ベクトル(1×V)をラベル付与ニューラルネットワーク114に出力する。
ラベル付与ニューラルネットワーク114は、ニューラルネットワーク33から特徴ベクトル(1×V)を入力し、特徴ベクトル(1×V)を入力データとしてニューラルネットワークの演算を行い、人物名のラベルを求める。そして、ラベル付与ニューラルネットワーク114は、人物名のラベルを減算部115に出力する。
減算部115は、ラベル付与ニューラルネットワーク114から人物名のラベルを入力すると共に、正解ラベル(人物名)を入力する。そして、減算部115は、人物名のラベルと、正解ラベル(人物名)である人物名の正解ラベルとの間の誤差を求め、当該誤差をラベル付与ニューラルネットワーク114へ出力する。
ラベル付与ニューラルネットワーク114は、減算部115から誤差を入力する。ラベル付与ニューラルネットワーク114及びニューラルネットワーク33は、例えば誤差逆伝播法を用いて、誤差をラベル付与ニューラルネットワーク114からニューラルネットワーク33の入力層へ伝搬させる。そして、ラベル付与ニューラルネットワーク114及びニューラルネットワーク33は、誤差が最小となるように、重みパラメータを更新する。
このような学習処理を、多くの入力画像(W×H×3)及びこれに対応する正解ラベル(人物名)を用いて繰り返すことにより、ラベル付与ニューラルネットワーク114により出力される人物名のラベルと、正解ラベル(人物名)とが一致するようになり、最適化したニューラルネットワーク33及びラベル付与ニューラルネットワーク114の重みパラメータを得ることができる。そして、学習処理にて最適化された重みパラメータが、図2に示した顔認識装置1の特徴ベクトル算出部12に設定されることで、顔認識装置1による精度の高い顔認識処理を実現することができる。
以上のように、本発明の実施形態の学習装置2によれば、学習データとして顔画像である入力画像(W×H×3)及び正解ラベル(人物名)を入力する。画像変換部30は、図2に示した画像変換部10と同様に、所定数の画像変換処理にて顔画像である入力画像(W×H×3)を変換し、幅W及び高さHが同一の所定数の変換画像を生成する。
画像連結部31は、図2に示した画像連結部11と同様に、入力画像(W×H×3)及び所定数の変換画像をチャンネル方向に連結し、連結画像(W×H×16)を生成する。
ニューラルネットワーク処理部32は、連結画像(W×H×16)及び正解ラベル(人物名)を教師データとして、例えば誤差逆伝播法を用いて、ニューラルネットワーク33及びラベル付与ニューラルネットワーク114を学習することで、最適な重みパラメータを生成する。
このようにして生成された重みパラメータは、図2に示した顔認識装置1の特徴ベクトル算出部12に用いられる。
これにより、図2に示した顔認識装置1の特徴ベクトル算出部12のニューラルネットワークにて、顔の詳細な特徴を一層反映した特徴ベクトル(1×V)を求めることができ、顔画像から人物を認識する際に、その認識精度を向上させることができる。
〔実験結果〕
次に、実験結果について説明する。図10は、実験結果を説明する図であり、図2に示した本発明の実施形態による顔認識装置1において、特徴ベクトル算出部12のニューラルネットワークとしてInceptionResNetV2を用いた場合のデータである。
図10(1)は、顔認識装置1において、画像変換部10及び画像連結部11を備えていない場合の結果を示す。図10(2)は、図7に示した第3構成例を用いた場合の結果を示し、図10(3)は、図5に示した第1構成例を用いた場合の結果である。
入力画像(W×H×3)には、顔認識分野の性能比較に広く利用されているLFWデータセットを用いるようにした。このLFWデータセットは、2枚の画像が同一人物か、または異なる人物かを判定するタスクとなっており、用意されている全ぺアのうち、正しく判定できた割合を認識精度と定義している。
LFWデータセットの詳細については以下を参照されたい。
[非特許文献] Christian Szegedy,Sergey Ioffe,Vincent Vanhoucke,Alex Alemi、“Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning”、[online]、2016年8月23日、[令和1年6月15日検索]、インターネット<URL:https://arxiv.org/abs/1602.07261>
図10(1)は、画像変換なしの手法の場合に、認識精度は99.37%であることを示している。画像変換なしの手法とは、図2に示した顔認識装置1において画像変換部10及び画像連結部11を備えていない場合を示し、入力画像(W×H×3)がそのまま特徴ベクトル算出部12に入力される。すなわち図11に示した従来技術の場合の手法である。
図10(2)は、変換画像として、エッジ検出画像(W×H×3)、グレースケール画像(W×H×1)及びネガポジ反転画像(W×H×1)を用いた手法の場合に、認識精度が99.42%であることを示している。この手法の画像変換部10及び画像連結部11は、図7に示した第3構成例によるものである。
図10(3)は、変換画像として、エッジ検出画像(W×H×3)、グレースケール画像(W×H×1)、ネガポジ反転画像(W×H×1)及びこれらの左右反転画像(W×H×3,W×H×1,W×H×1)を用いた手法の場合に、認識精度が99.45%であることを示している。この手法の画像変換部10及び画像連結部11は、図5に示した第1構成例によるものである。
図10(1)~(3)から、本発明の実施形態の結果(図10(2)(3))の方が従来技術の結果(図10(1))よりも認識精度が向上していることがわかる。また、図10(2)(3)から、左右反転画像を追加して変換画像の数を増やすことで、認識精度が向上していることがわかる。
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。
例えば前記実施形態では、顔認識装置1の画像変換部10及び画像連結部11の構成として、図5の第1構成例、図6の第2構成例、及び図7の第3構成例を示した。これに対し、本発明における画像変換部10及び画像連結部11の構成は、これらの構成例に限定されるものではなく、他の構成であってもよい。要するに、画像変換部10及び画像連結部11の構成は、変換画像として、図5に示したエッジ検出画像(W×H×3)等及び他の変換画像のうち1以上の所定数の画像を用いる構成であればよい。
例えば図5の第1構成例では、画像変換部10は、エッジ検出画像(W×H×3)、グレースケール画像(W×H×1)及びネガポジ反転画像(W×H×1)に加え、入力画像の左右反転画像(W×H×3)、エッジ検出画像の左右反転画像(W×H×3)、グレースケール画像の左右反転画像(W×H×1)、及びネガポジ反転画像の左右反転画像(W×H×1)を生成するようにした。
これに対し、画像変換部10は、エッジ検出画像(W×H×3)、グレースケール画像(W×H×1)及びネガポジ反転画像(W×H×1)に加え、入力画像の左右反転画像(W×H×3)のみを生成するようにしてもよい。この場合、エッジ検出画像の左右反転画像(W×H×3)、グレースケール画像の左右反転画像(W×H×1)、及びネガポジ反転画像の左右反転画像(W×H×1)は生成されない。
また、例えば前記実施形態では、顔認識装置1の画像変換部10は、図5の第1構成例に示したとおり、入力画像(W×H×3)を、エッジ検出画像(W×H×3)、グレースケール画像(W×H×1)、ネガポジ反転画像(W×H×1)、入力画像の左右反転画像(W×H×3)、エッジ検出画像の左右反転画像(W×H×3)、グレースケール画像の左右反転画像(W×H×1)、及びネガポジ反転画像の左右反転画像(W×H×1)に変換するようにした。
これに対し、画像変換部10は、入力画像(W×H×3)を、前述のエッジ検出画像(W×H×3)等以外の画像に変換するようにしてもよい。例えば、画像変換部10は、入力画像(W×H×3)の顔部分から所定の特徴部分を抽出し、当該特徴部分に点印を付加した特徴点抽出画像を生成するようにしてもよい。また、画像変換部10は、入力画像(W×H×3)の顔部分に所定のゴマシオノイズを付加し、ノイズ付加画像を生成するようにしてもよい。
また、画像変換部10は、入力画像(W×H×3)の顔部分から所定箇所の部分(例えば目の部分、口の部分)を欠落させた欠落画像を生成するようにしてもよい。これにより、変換画像として例えば顔部分から目の部分を欠落させた欠落画像が生成され、欠落画像を含む連結画像(W×H×19)がニューラルネットワークに入力されることにより、本実施形態を、サングラスを掛けた顔の入力画像(W×H×3)に適用することができ、サングラスの影響を受けない人物認識を実現することができる。また、変換画像として例えば顔部分から口の部分を欠落させた欠落画像が生成され、欠落画像を含む連結画像(W×H×19)がニューラルネットワークに入力されることにより、本実施形態を、口にマスクを掛けた顔の入力画像(W×H×3)に適用することができ、マスクの影響を受けない人物認識を実現することができる。
また、例えば前記実施形態では、顔認識装置1は、人物の顔を認識するようにしたが、動物等の生き物の顔を認識するようにしてもよい。また、顔認識装置1に代わる認識装置は、顔以外のオブジェクト(例えば車)を認識するようにしてもよい。
尚、本発明の実施形態による顔認識装置1及び学習装置2のハードウェア構成としては、通常のコンピュータを使用することができる。顔認識装置1及び学習装置2は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。
顔認識装置1に備えた画像変換部10、画像連結部11、特徴ベクトル算出部12及び判定部111の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、学習装置2に備えた画像変換部30、画像連結部31及びニューラルネットワーク処理部32(ニューラルネットワーク33、ラベル付与ニューラルネットワーク114及び減算部115)の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
1,101 顔認識装置
2,102 学習装置
10 画像変換部
11 画像連結部
12,110 特徴ベクトル算出部(ニューラルネットワーク)
20,21 微分処理部
22 エッジ検出部
23 グレースケール化部
24 ネガポジ反転部
25,28 連結部
26,27 左右反転部
30 画像変換部(学習用画像変換部)
31 画像連結部(学習用画像連結部)
32,112 ニューラルネットワーク処理部
33,113 ニューラルネットワーク
111 判定部
114 ラベル付与ニューラルネットワーク
115 減算部

Claims (6)

  1. 人物の顔を含む画像を、所定の幅及び高さからなる所定数のチャンネルの入力画像として、当該入力画像に基づきニューラルネットワークを用いて前記人物を認識する顔認識装置において、
    前記入力画像に対して所定の画像変換処理を施し、前記入力画像を微分することで得られたエッジ検出画像、前記入力画像をグレースケール化することで得られたグレースケール画像、及び前記グレースケール画像の色を反転することで得られたネガポジ反転画像を生成すると共に、
    前記入力画像の顔部分から所定箇所の部分を欠落させた欠落画像を生成する画像変換部と、
    前記入力画像に対し、前記画像変換部により生成された前記エッジ検出画像、前記グレースケール画像、前記ネガポジ反転画像及び前記欠落画像を、前記チャンネルの方向に連結し、連結画像を生成する画像連結部と、
    前記画像連結部により生成された前記連結画像を入力データとして、前記ニューラルネットワークの演算を行い、前記連結画像の特徴ベクトルを算出する特徴ベクトル算出部と、
    前記特徴ベクトル算出部により算出された前記特徴ベクトルに基づいて、前記人物を判定する判定部と、
    を備えたことを特徴とする顔認識装置。
  2. 人物の顔を含む画像を、所定の幅及び高さからなる所定数のチャンネルの入力画像として、当該入力画像に基づきニューラルネットワークを用いて前記人物を認識する顔認識装置において、
    前記入力画像に対して所定の画像変換処理を施し、前記入力画像を微分することで得られたエッジ検出画像、前記入力画像をグレースケール化することで得られたグレースケール画像、及び前記グレースケール画像の色を反転することで得られたネガポジ反転画像を生成すると共に、
    前記入力画像、前記エッジ検出画像、前記グレースケール画像及び前記ネガポジ反転画像に対して左右反転処理を施し、左右反転画像を生成し、
    さらに、前記入力画像の顔部分から所定箇所の部分を欠落させた欠落画像を生成する画像変換部と、
    前記入力画像に対し、前記画像変換部により生成された前記エッジ検出画像、前記グレースケール画像、前記ネガポジ反転画像、前記左右反転画像及び前記欠落画像を、前記チャンネルの方向に連結し、連結画像を生成する画像連結部と、
    前記画像連結部により生成された前記連結画像を入力データとして、前記ニューラルネットワークの演算を行い、前記連結画像の特徴ベクトルを算出する特徴ベクトル算出部と、
    前記特徴ベクトル算出部により算出された前記特徴ベクトルに基づいて、前記人物を判定する判定部と、
    を備えたことを特徴とする顔認識装置。
  3. 人物の顔を含む画像を、所定の幅及び高さからなる所定数のチャンネルの入力画像として、当該入力画像及び人物名の正解ラベルを入力し、ニューラルネットワークを学習する学習装置において、
    前記入力画像に対して所定の画像変換処理を施し、前記入力画像を微分することで得られたエッジ検出画像、前記入力画像をグレースケール化することで得られたグレースケール画像、及び前記グレースケール画像の色を反転することで得られたネガポジ反転画像を生成すると共に、
    前記入力画像の顔部分から所定箇所の部分を欠落させた欠落画像を生成する学習用画像変換部と、
    前記入力画像に対し、前記学習用画像変換部により生成された前記エッジ検出画像、前記グレースケール画像、前記ネガポジ反転画像及び前記欠落画像を、前記チャンネルの方向に連結し、連結画像を生成する学習用画像連結部と、
    前記学習用画像連結部により生成された前記連結画像及び前記人物名の前記正解ラベルを教師データとして、前記連結画像から当該連結画像の特徴ベクトルを求め、当該特徴ベクトルから前記人物名のラベルを求める前記ニューラルネットワークを学習し、請求項1に記載の顔認識装置に備えたニューラルネットワークにて用いる重みパラメータを生成するニューラルネットワーク処理部と、
    を備えたことを特徴とする学習装置。
  4. 人物の顔を含む画像を、所定の幅及び高さからなる所定数のチャンネルの入力画像として、当該入力画像及び人物名の正解ラベルを入力し、ニューラルネットワークを学習する学習装置において、
    前記入力画像に対して所定の画像変換処理を施し、前記入力画像を微分することで得られたエッジ検出画像、前記入力画像をグレースケール化することで得られたグレースケール画像、及び前記グレースケール画像の色を反転することで得られたネガポジ反転画像を生成すると共に、
    前記入力画像、前記エッジ検出画像、前記グレースケール画像及び前記ネガポジ反転画像に対して左右反転処理を施し、左右反転画像を生成し、
    さらに、前記入力画像の顔部分から所定箇所の部分を欠落させた欠落画像を生成する学習用画像変換部と、
    前記入力画像に対し、前記学習用画像変換部により生成された前記エッジ検出画像、前記グレースケール画像、前記ネガポジ反転画像、前記左右反転画像及び前記欠落画像を、前記チャンネルの方向に連結し、連結画像を生成する学習用画像連結部と、
    前記学習用画像連結部により生成された前記連結画像及び前記人物名の前記正解ラベルを教師データとして、前記連結画像から当該連結画像の特徴ベクトルを求め、当該特徴ベクトルから前記人物名のラベルを求める前記ニューラルネットワークを学習し、請求項2に記載の顔認識装置に備えたニューラルネットワークにて用いる重みパラメータを生成するニューラルネットワーク処理部と、
    を備えたことを特徴とする学習装置。
  5. コンピュータを、請求項1または2に記載の顔認識装置として機能させるためのプログラム。
  6. コンピュータを、請求項3または4に記載の学習装置として機能させるためのプログラム。
JP2019123188A 2019-07-01 2019-07-01 顔認識装置、学習装置及びプログラム Active JP7344023B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019123188A JP7344023B2 (ja) 2019-07-01 2019-07-01 顔認識装置、学習装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019123188A JP7344023B2 (ja) 2019-07-01 2019-07-01 顔認識装置、学習装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2021009571A JP2021009571A (ja) 2021-01-28
JP7344023B2 true JP7344023B2 (ja) 2023-09-13

Family

ID=74199428

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019123188A Active JP7344023B2 (ja) 2019-07-01 2019-07-01 顔認識装置、学習装置及びプログラム

Country Status (1)

Country Link
JP (1) JP7344023B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024057543A1 (ja) * 2022-09-16 2024-03-21 日本電信電話株式会社 画像データ生成装置、画像データ生成方法、および、画像データ生成プログラム
JP7458538B1 (ja) 2023-07-05 2024-03-29 PayPay株式会社 プログラム、情報処理装置、および情報処理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000187733A (ja) 1998-12-22 2000-07-04 Canon Inc 画像処理装置及び方法並びに記憶媒体
WO2019073312A1 (en) 2017-10-13 2019-04-18 Sigtuple Technologies Private Limited METHOD AND DEVICE FOR INTEGRATING IMAGE CHANNELS IN A DEEP LEARNING MODEL FOR CLASSIFICATION
US20190147227A1 (en) 2017-11-10 2019-05-16 Samsung Electronics Co., Ltd. Facial verification method and apparatus

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2903923B2 (ja) * 1993-01-19 1999-06-14 株式会社日立製作所 車番認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000187733A (ja) 1998-12-22 2000-07-04 Canon Inc 画像処理装置及び方法並びに記憶媒体
WO2019073312A1 (en) 2017-10-13 2019-04-18 Sigtuple Technologies Private Limited METHOD AND DEVICE FOR INTEGRATING IMAGE CHANNELS IN A DEEP LEARNING MODEL FOR CLASSIFICATION
US20190147227A1 (en) 2017-11-10 2019-05-16 Samsung Electronics Co., Ltd. Facial verification method and apparatus

Also Published As

Publication number Publication date
JP2021009571A (ja) 2021-01-28

Similar Documents

Publication Publication Date Title
Liu et al. Hard negative generation for identity-disentangled facial expression recognition
JP7097801B2 (ja) 表情認識方法、オブジェクト認識方法、表情認識装置及び表情トレーニング方法
US11093734B2 (en) Method and apparatus with emotion recognition
Ngiam et al. Multimodal deep learning.
CN111444881A (zh) 伪造人脸视频检测方法和装置
CN110084193B (zh) 用于面部图像生成的数据处理方法、设备和介质
CN112507990A (zh) 视频时空特征学习、抽取方法、装置、设备及存储介质
CN111984772B (zh) 一种基于深度学习的医疗影像问答方法及系统
CN113140020B (zh) 一种基于伴随监督生成对抗网络的文本生成图像的方法
CN112861945B (zh) 一种多模态融合谎言检测方法
JP7344023B2 (ja) 顔認識装置、学習装置及びプログラム
CN115512368B (zh) 一种跨模态语义生成图像模型和方法
CN114550057A (zh) 一种基于多模态表示学习的视频情绪识别方法
KR20230102496A (ko) 적대적 생성 신경망 기반의 자기 지도 학습형 판별자 네트워크를 이용한 텍스트 투 이미지 생성 장치 및 방법
CN116385604B (zh) 视频生成及模型训练方法、装置、设备、存储介质
CN112949707A (zh) 一种基于多尺度语义信息监督的跨模态人脸图像生成方法
Gorijala et al. Image generation and editing with variational info generative AdversarialNetworks
Baffour et al. A survey on deep learning algorithms in facial Emotion Detection and Recognition
CN117150320B (zh) 对话数字人情感风格相似度评价方法及系统
US20230262293A1 (en) Video synthesis via multimodal conditioning
Birara et al. Augmenting machine learning for Amharic speech recognition: a paradigm of patient’s lips motion detection
JP2021082068A (ja) 情報処理装置、情報処理方法、及びプログラム
CN116110378A (zh) 模型训练方法、语音识别方法、装置和电子设备
CN112990123B (zh) 图像处理方法、装置、计算机设备和介质
KR20110057595A (ko) 상호 정보 최대화 기반의 국부 이진 패턴 코드를 이용한 패턴 인식 방법, 장치 및 그 기록 매체

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220601

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230411

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230901

R150 Certificate of patent or registration of utility model

Ref document number: 7344023

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150