JP7344023B2 - 顔認識装置、学習装置及びプログラム - Google Patents
顔認識装置、学習装置及びプログラム Download PDFInfo
- Publication number
- JP7344023B2 JP7344023B2 JP2019123188A JP2019123188A JP7344023B2 JP 7344023 B2 JP7344023 B2 JP 7344023B2 JP 2019123188 A JP2019123188 A JP 2019123188A JP 2019123188 A JP2019123188 A JP 2019123188A JP 7344023 B2 JP7344023 B2 JP 7344023B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- input
- neural network
- unit
- grayscale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
まず、本発明の概要について説明する。本発明者らは、顔画像から人物を認識する顔認識装置において、人物の認識精度を向上させるために鋭意検討を行った。その結果、過去の経験的な知見として有用性が高いと思われる画像変換処理を、顔画像である入力画像に適用し、入力画像と変換処理後の画像とを連結し、連結画像をニューラルネットワーク の入力データとして用いることで、人物の認識精度を向上させることができることを見出した。
次に、本発明の実施形態による顔認識装置について説明する。図2は、本発明の実施形態による顔認識装置の構成例を示すブロック図である。この顔認識装置1は、画像変換部10、画像連結部11、特徴ベクトル算出部(ニューラルネットワーク)12及び判定部111を備えている。顔認識装置1は、顔画像である入力画像を入力し、2枚の入力画像(W×H×3)の人物が同一であるか、または異なるかを判定する装置である。以下、顔認識装置1が入力する顔画像を入力画像として説明する。
図4は、特徴ベクトル算出部12のニューラルネットワークとしてCNNを用いた場合の連結画像に対する畳み込み処理を説明する図である。図4には、図12と同様に、CNNを構成する入力層、隠れ層及び出力層のうち、入力層、及び隠れ層における畳み込み層のみが示されている。
次に、図2に示した画像変換部10及び画像連結部11について、具体的な構成例について説明する。図5は、画像変換部10及び画像連結部11の第1構成例を示すブロック図である。
図6は、画像変換部10及び画像連結部11の第2構成例を示すブロック図である。
図7は、画像変換部10及び画像連結部11の第3構成例を示すブロック図である。
次に、本発明の実施形態による学習装置について説明する。図8は、本発明の実施形態による学習装置の構成例を示すブロック図である。この学習装置2は、画像変換部(学習用画像変換部)30、画像連結部(学習用画像連結部)31及びニューラルネットワーク処理部32を備えている。ニューラルネットワーク処理部32は、ニューラルネットワーク33、ラベル付与ニューラルネットワーク114及び減算部115を備えている。
次に、実験結果について説明する。図10は、実験結果を説明する図であり、図2に示した本発明の実施形態による顔認識装置1において、特徴ベクトル算出部12のニューラルネットワークとしてInceptionResNetV2を用いた場合のデータである。
[非特許文献] Christian Szegedy,Sergey Ioffe,Vincent Vanhoucke,Alex Alemi、“Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning”、[online]、2016年8月23日、[令和1年6月15日検索]、インターネット<URL:https://arxiv.org/abs/1602.07261>
2,102 学習装置
10 画像変換部
11 画像連結部
12,110 特徴ベクトル算出部(ニューラルネットワーク)
20,21 微分処理部
22 エッジ検出部
23 グレースケール化部
24 ネガポジ反転部
25,28 連結部
26,27 左右反転部
30 画像変換部(学習用画像変換部)
31 画像連結部(学習用画像連結部)
32,112 ニューラルネットワーク処理部
33,113 ニューラルネットワーク
111 判定部
114 ラベル付与ニューラルネットワーク
115 減算部
Claims (6)
- 人物の顔を含む画像を、所定の幅及び高さからなる所定数のチャンネルの入力画像として、当該入力画像に基づきニューラルネットワークを用いて前記人物を認識する顔認識装置において、
前記入力画像に対して所定の画像変換処理を施し、前記入力画像を微分することで得られたエッジ検出画像、前記入力画像をグレースケール化することで得られたグレースケール画像、及び前記グレースケール画像の色を反転することで得られたネガポジ反転画像を生成すると共に、
前記入力画像の顔部分から所定箇所の部分を欠落させた欠落画像を生成する画像変換部と、
前記入力画像に対し、前記画像変換部により生成された前記エッジ検出画像、前記グレースケール画像、前記ネガポジ反転画像及び前記欠落画像を、前記チャンネルの方向に連結し、連結画像を生成する画像連結部と、
前記画像連結部により生成された前記連結画像を入力データとして、前記ニューラルネットワークの演算を行い、前記連結画像の特徴ベクトルを算出する特徴ベクトル算出部と、
前記特徴ベクトル算出部により算出された前記特徴ベクトルに基づいて、前記人物を判定する判定部と、
を備えたことを特徴とする顔認識装置。 - 人物の顔を含む画像を、所定の幅及び高さからなる所定数のチャンネルの入力画像として、当該入力画像に基づきニューラルネットワークを用いて前記人物を認識する顔認識装置において、
前記入力画像に対して所定の画像変換処理を施し、前記入力画像を微分することで得られたエッジ検出画像、前記入力画像をグレースケール化することで得られたグレースケール画像、及び前記グレースケール画像の色を反転することで得られたネガポジ反転画像を生成すると共に、
前記入力画像、前記エッジ検出画像、前記グレースケール画像及び前記ネガポジ反転画像に対して左右反転処理を施し、左右反転画像を生成し、
さらに、前記入力画像の顔部分から所定箇所の部分を欠落させた欠落画像を生成する画像変換部と、
前記入力画像に対し、前記画像変換部により生成された前記エッジ検出画像、前記グレースケール画像、前記ネガポジ反転画像、前記左右反転画像及び前記欠落画像を、前記チャンネルの方向に連結し、連結画像を生成する画像連結部と、
前記画像連結部により生成された前記連結画像を入力データとして、前記ニューラルネットワークの演算を行い、前記連結画像の特徴ベクトルを算出する特徴ベクトル算出部と、
前記特徴ベクトル算出部により算出された前記特徴ベクトルに基づいて、前記人物を判定する判定部と、
を備えたことを特徴とする顔認識装置。 - 人物の顔を含む画像を、所定の幅及び高さからなる所定数のチャンネルの入力画像として、当該入力画像及び人物名の正解ラベルを入力し、ニューラルネットワークを学習する学習装置において、
前記入力画像に対して所定の画像変換処理を施し、前記入力画像を微分することで得られたエッジ検出画像、前記入力画像をグレースケール化することで得られたグレースケール画像、及び前記グレースケール画像の色を反転することで得られたネガポジ反転画像を生成すると共に、
前記入力画像の顔部分から所定箇所の部分を欠落させた欠落画像を生成する学習用画像変換部と、
前記入力画像に対し、前記学習用画像変換部により生成された前記エッジ検出画像、前記グレースケール画像、前記ネガポジ反転画像及び前記欠落画像を、前記チャンネルの方向に連結し、連結画像を生成する学習用画像連結部と、
前記学習用画像連結部により生成された前記連結画像及び前記人物名の前記正解ラベルを教師データとして、前記連結画像から当該連結画像の特徴ベクトルを求め、当該特徴ベクトルから前記人物名のラベルを求める前記ニューラルネットワークを学習し、請求項1に記載の顔認識装置に備えたニューラルネットワークにて用いる重みパラメータを生成するニューラルネットワーク処理部と、
を備えたことを特徴とする学習装置。 - 人物の顔を含む画像を、所定の幅及び高さからなる所定数のチャンネルの入力画像として、当該入力画像及び人物名の正解ラベルを入力し、ニューラルネットワークを学習する学習装置において、
前記入力画像に対して所定の画像変換処理を施し、前記入力画像を微分することで得られたエッジ検出画像、前記入力画像をグレースケール化することで得られたグレースケール画像、及び前記グレースケール画像の色を反転することで得られたネガポジ反転画像を生成すると共に、
前記入力画像、前記エッジ検出画像、前記グレースケール画像及び前記ネガポジ反転画像に対して左右反転処理を施し、左右反転画像を生成し、
さらに、前記入力画像の顔部分から所定箇所の部分を欠落させた欠落画像を生成する学習用画像変換部と、
前記入力画像に対し、前記学習用画像変換部により生成された前記エッジ検出画像、前記グレースケール画像、前記ネガポジ反転画像、前記左右反転画像及び前記欠落画像を、前記チャンネルの方向に連結し、連結画像を生成する学習用画像連結部と、
前記学習用画像連結部により生成された前記連結画像及び前記人物名の前記正解ラベルを教師データとして、前記連結画像から当該連結画像の特徴ベクトルを求め、当該特徴ベクトルから前記人物名のラベルを求める前記ニューラルネットワークを学習し、請求項2に記載の顔認識装置に備えたニューラルネットワークにて用いる重みパラメータを生成するニューラルネットワーク処理部と、
を備えたことを特徴とする学習装置。 - コンピュータを、請求項1または2に記載の顔認識装置として機能させるためのプログラム。
- コンピュータを、請求項3または4に記載の学習装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019123188A JP7344023B2 (ja) | 2019-07-01 | 2019-07-01 | 顔認識装置、学習装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019123188A JP7344023B2 (ja) | 2019-07-01 | 2019-07-01 | 顔認識装置、学習装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021009571A JP2021009571A (ja) | 2021-01-28 |
JP7344023B2 true JP7344023B2 (ja) | 2023-09-13 |
Family
ID=74199428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019123188A Active JP7344023B2 (ja) | 2019-07-01 | 2019-07-01 | 顔認識装置、学習装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7344023B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024057543A1 (ja) * | 2022-09-16 | 2024-03-21 | 日本電信電話株式会社 | 画像データ生成装置、画像データ生成方法、および、画像データ生成プログラム |
JP7458538B1 (ja) | 2023-07-05 | 2024-03-29 | PayPay株式会社 | プログラム、情報処理装置、および情報処理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000187733A (ja) | 1998-12-22 | 2000-07-04 | Canon Inc | 画像処理装置及び方法並びに記憶媒体 |
WO2019073312A1 (en) | 2017-10-13 | 2019-04-18 | Sigtuple Technologies Private Limited | METHOD AND DEVICE FOR INTEGRATING IMAGE CHANNELS IN A DEEP LEARNING MODEL FOR CLASSIFICATION |
US20190147227A1 (en) | 2017-11-10 | 2019-05-16 | Samsung Electronics Co., Ltd. | Facial verification method and apparatus |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2903923B2 (ja) * | 1993-01-19 | 1999-06-14 | 株式会社日立製作所 | 車番認識装置 |
-
2019
- 2019-07-01 JP JP2019123188A patent/JP7344023B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000187733A (ja) | 1998-12-22 | 2000-07-04 | Canon Inc | 画像処理装置及び方法並びに記憶媒体 |
WO2019073312A1 (en) | 2017-10-13 | 2019-04-18 | Sigtuple Technologies Private Limited | METHOD AND DEVICE FOR INTEGRATING IMAGE CHANNELS IN A DEEP LEARNING MODEL FOR CLASSIFICATION |
US20190147227A1 (en) | 2017-11-10 | 2019-05-16 | Samsung Electronics Co., Ltd. | Facial verification method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP2021009571A (ja) | 2021-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Hard negative generation for identity-disentangled facial expression recognition | |
JP7097801B2 (ja) | 表情認識方法、オブジェクト認識方法、表情認識装置及び表情トレーニング方法 | |
US11093734B2 (en) | Method and apparatus with emotion recognition | |
Ngiam et al. | Multimodal deep learning. | |
CN111444881A (zh) | 伪造人脸视频检测方法和装置 | |
CN110084193B (zh) | 用于面部图像生成的数据处理方法、设备和介质 | |
CN112507990A (zh) | 视频时空特征学习、抽取方法、装置、设备及存储介质 | |
CN111984772B (zh) | 一种基于深度学习的医疗影像问答方法及系统 | |
CN113140020B (zh) | 一种基于伴随监督生成对抗网络的文本生成图像的方法 | |
CN112861945B (zh) | 一种多模态融合谎言检测方法 | |
JP7344023B2 (ja) | 顔認識装置、学習装置及びプログラム | |
CN115512368B (zh) | 一种跨模态语义生成图像模型和方法 | |
CN114550057A (zh) | 一种基于多模态表示学习的视频情绪识别方法 | |
KR20230102496A (ko) | 적대적 생성 신경망 기반의 자기 지도 학습형 판별자 네트워크를 이용한 텍스트 투 이미지 생성 장치 및 방법 | |
CN116385604B (zh) | 视频生成及模型训练方法、装置、设备、存储介质 | |
CN112949707A (zh) | 一种基于多尺度语义信息监督的跨模态人脸图像生成方法 | |
Gorijala et al. | Image generation and editing with variational info generative AdversarialNetworks | |
Baffour et al. | A survey on deep learning algorithms in facial Emotion Detection and Recognition | |
CN117150320B (zh) | 对话数字人情感风格相似度评价方法及系统 | |
US20230262293A1 (en) | Video synthesis via multimodal conditioning | |
Birara et al. | Augmenting machine learning for Amharic speech recognition: a paradigm of patient’s lips motion detection | |
JP2021082068A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN116110378A (zh) | 模型训练方法、语音识别方法、装置和电子设备 | |
CN112990123B (zh) | 图像处理方法、装置、计算机设备和介质 | |
KR20110057595A (ko) | 상호 정보 최대화 기반의 국부 이진 패턴 코드를 이용한 패턴 인식 방법, 장치 및 그 기록 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220601 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230411 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230530 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230901 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7344023 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |