JP7396509B2 - 機械学習プログラム、機械学習方法および推定装置 - Google Patents
機械学習プログラム、機械学習方法および推定装置 Download PDFInfo
- Publication number
- JP7396509B2 JP7396509B2 JP2022551068A JP2022551068A JP7396509B2 JP 7396509 B2 JP7396509 B2 JP 7396509B2 JP 2022551068 A JP2022551068 A JP 2022551068A JP 2022551068 A JP2022551068 A JP 2022551068A JP 7396509 B2 JP7396509 B2 JP 7396509B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- model
- machine learning
- subject
- intensity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010801 machine learning Methods 0.000 title claims description 35
- 210000001097 facial muscle Anatomy 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 19
- 238000000034 method Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 15
- 238000005259 measurement Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 description 98
- 230000006870 function Effects 0.000 description 65
- 230000010365 information processing Effects 0.000 description 37
- 238000013528 artificial neural network Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 15
- 230000008921 facial expression Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 4
- 208000008589 Obesity Diseases 0.000 description 3
- 210000000988 bone and bone Anatomy 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 235000020824 obesity Nutrition 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/175—Static expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Description
以下で説明する第1、第2、第3および第4の実施形態(まとめて本実施形態)では、AU推定エンジンの機械学習において、学習用の学習データセット(訓練データ)の中からIntensityの境界基準について、変化の影響を受けている情報を除外して学習を行う。
図2は、第1の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図2に示すように、情報処理装置1は、ペアデータセット作成部10、順序スコア学習部11、変換データセット作成部12、変換関数学習部13、順序スコア推定部30および変換処理部31を有する。
第2の実施形態では、訓練データの付与される正解フラグについて、コーダのものだけでなく、被写体の表情筋の動きを計測した計測装置の計測結果(Intensityもしくは表情筋移動量)を含めるものとする。
第3の実施形態では、コーダが正解フラグを付与した訓練データを用いず、計測装置の計測結果が正解フラグとして付与された訓練データを用いて第1段階の学習を行うものとする。なお、第2段階の学習(変換関数の学習)については、コーダが正解フラグを付与した訓練データを用いるものとする。
第4の実施形態では、学習フェーズ(S1)において、画像を一フレーム画像として含む、動画像の特徴量を含めた機械学習により変換関数を機械学習する。また、推定フェーズ(S2)では、推定対象の画像50を一フレーム画像として含む元動画の特徴量をもとに、変換関数によりラベル51を推定する。
なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、情報処理装置1、1a、1b、1cにおける学習フェーズ(S1)を行う機能構成と、推定フェーズ(S2)を行う機能構成とは、分離した構成であってもよく、それぞれが独立した装置構成で実現してもよい。
ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施形態と同様の機能を有するプログラムを実行するコンピュータ構成(ハードウエア)の一例を説明する。図9は、コンピュータ構成の一例を示すブロック図である。
10、10a…ペアデータセット作成部
11…順序スコア学習部
12、12a…変換データセット作成部
13、13a…変換関数学習部
20…学習モデルDB
21…変換モデルDB
22…LSTM
23…VGG
24…全結合ニューラルネットワーク
25…Intensity
30…順序スコア推定部
31、31a…変換処理部
40、40a…画像・ラベルDB
41…事前学習モデルDB
42…画像
43…動画像
50…画像
50a…元動画
51…ラベル
200…コンピュータ
201…CPU
202…入力装置
203…モニタ
204…スピーカー
205…媒体読取装置
206…インタフェース装置
207…通信装置
208…RAM
209…ハードディスク装置
210…バス
211…プログラム
212…各種データ
a…被写体
D1…学習データセット
F1…loss関数
L1…正解ラベル
M1、M2…事前学習モデル
NN…ニューラルネットワーク
Claims (8)
- 第1の画像と第2の画像との組と、前記第1の画像と前記第2の画像とのうちどちらの画像が被写体の表情筋の動きが大きいかを示す第1のラベルとを含む訓練データの入力に応じて、前記第1の画像を第1のモデルに入力して得られる第1の出力値と、前記第2の画像を前記第1のモデルとパラメータを共有する第2のモデルに入力して得られる第2の出力値と、前記第1のラベルとに基づいた前記第1のモデルの機械学習を実行することによって、訓練済みモデルを生成し、
第3の画像を前記訓練済みモデルに入力して得られた第3の出力値と、前記第3の画像に含まれる被写体の表情筋の動きの発生強度もしくは発生の有無を示す第2のラベルとに基づいた機械学習によって第3のモデルを生成する、
処理をコンピュータに実行させることを特徴とする機械学習プログラム。 - 前記第1の画像と前記第2の画像との組は、同じ被写体の画像の組である、
ことを特徴とする請求項1に記載の機械学習プログラム。 - 前記第1のラベルは、前記被写体の表情筋の動きを計測した計測装置の計測結果に基づいて付与される、
ことを特徴とする請求項1に記載の機械学習プログラム。 - 前記第1の画像と前記第2の画像との組は、互いの画像における前記被写体の表情筋の動きの差が特定値以上の画像の組である、
ことを特徴とする請求項1に記載の機械学習プログラム。 - 前記第3のモデルを生成する処理は、前記第3の画像を含む動画像に基づく特徴量を含めた機械学習によって前記第3のモデルを生成する、
ことを特徴とする請求項1に記載の機械学習プログラム。 - 前記特徴量は、前記動画像に含まれる画像群を前記訓練済みモデルに入力して得られた出力値の時系列データ、当該時系列データの分布に関する特徴量、前記時系列データの分布に基づいて前記画像群より選択した1または複数の画像、および、当該1または複数の画像の特徴量の少なくとも1つである、
ことを特徴とする請求項5に記載の機械学習プログラム。 - 第1の画像と第2の画像との組と、前記第1の画像と前記第2の画像とのうちどちらの画像が被写体の表情筋の動きが大きいかを示す第1のラベルとを含む訓練データの入力に応じて、前記第1の画像を第1のモデルに入力して得られる第1の出力値と、前記第2の画像を前記第1のモデルとパラメータを共有する第2のモデルに入力して得られる第2の出力値と、前記第1のラベルとに基づいた前記第1のモデルの機械学習を実行することによって、訓練済みモデルを生成し、
第3の画像を前記訓練済みモデルに入力して得られた第3の出力値と、前記第3の画像に含まれる被写体の表情筋の動きの発生強度もしくは発生の有無を示す第2のラベルとに基づいた機械学習によって第3のモデルを生成する、
処理をコンピュータが実行することを特徴とする機械学習方法。 - 第1の画像と第2の画像との組と、前記第1の画像と前記第2の画像とのうちどちらの画像が被写体の表情筋の動きが大きいかを示す第1のラベルとを含む訓練データに基づいた機械学習によって生成された第1の機械学習モデルに第3の画像を入力し、第1の出力結果を取得し、
第4の画像を前記機械学習モデルに入力して得られた第2の出力結果と、前記第4の画像に含まれる被写体の表情筋の動きの発生強度を示す第2のラベルとを含む訓練データに基づいた機械学習によって生成された第2の機械学習モデルに、前記第1の出力結果を入力し、前記第3の画像に含まれる被写体の表情筋の動きの発生強度もしくは発生の有無を推定する、
処理を実行する制御部を有する推定装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/036456 WO2022064660A1 (ja) | 2020-09-25 | 2020-09-25 | 機械学習プログラム、機械学習方法および推定装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2022064660A1 JPWO2022064660A1 (ja) | 2022-03-31 |
JPWO2022064660A5 JPWO2022064660A5 (ja) | 2023-05-15 |
JP7396509B2 true JP7396509B2 (ja) | 2023-12-12 |
Family
ID=80846435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022551068A Active JP7396509B2 (ja) | 2020-09-25 | 2020-09-25 | 機械学習プログラム、機械学習方法および推定装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230237845A1 (ja) |
EP (1) | EP4220546A4 (ja) |
JP (1) | JP7396509B2 (ja) |
CN (1) | CN116018613A (ja) |
WO (1) | WO2022064660A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014119879A (ja) | 2012-12-14 | 2014-06-30 | Nippon Hoso Kyokai <Nhk> | 顔表情評価結果平滑化装置および顔表情評価結果平滑化プログラム |
CN109657586A (zh) | 2018-12-10 | 2019-04-19 | 华中师范大学 | 一种基于排序卷积神经网络的人脸表情分析方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3465615A4 (en) | 2016-06-01 | 2020-05-06 | The Ohio State Innovation Foundation | SYSTEM AND METHOD FOR RECOGNIZING AND ANNOTATING FACE EXPRESSIONS |
JP2018036734A (ja) | 2016-08-29 | 2018-03-08 | 日本放送協会 | 表情変化検出装置及びプログラム |
KR102564854B1 (ko) * | 2017-12-29 | 2023-08-08 | 삼성전자주식회사 | 정규화된 표현력에 기초한 표정 인식 방법, 표정 인식 장치 및 표정 인식을 위한 학습 방법 |
JP2020057111A (ja) | 2018-09-28 | 2020-04-09 | パナソニックIpマネジメント株式会社 | 表情判定システム、プログラム及び表情判定方法 |
CN110765873B (zh) * | 2019-09-19 | 2022-08-16 | 华中师范大学 | 一种基于表情强度标签分布的面部表情识别方法与装置 |
-
2020
- 2020-09-25 EP EP20955254.6A patent/EP4220546A4/en active Pending
- 2020-09-25 WO PCT/JP2020/036456 patent/WO2022064660A1/ja unknown
- 2020-09-25 JP JP2022551068A patent/JP7396509B2/ja active Active
- 2020-09-25 CN CN202080105040.6A patent/CN116018613A/zh active Pending
-
2023
- 2023-03-09 US US18/119,342 patent/US20230237845A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014119879A (ja) | 2012-12-14 | 2014-06-30 | Nippon Hoso Kyokai <Nhk> | 顔表情評価結果平滑化装置および顔表情評価結果平滑化プログラム |
CN109657586A (zh) | 2018-12-10 | 2019-04-19 | 华中师范大学 | 一种基于排序卷积神经网络的人脸表情分析方法及系统 |
Non-Patent Citations (2)
Title |
---|
SU Lumei, et al.,Early Facial Expression Recognition using Early RankBoost,2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG),米国,2013年,Retrieved from the Internet:<URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6553740> |
YANG Peng, et al.,RankBoost with l1 regularization for Facial Expression Recognition and Intensity Estimation,2009 IEEE 12th International Conference on Computer Vision (ICCV),米国,2009年,pp.1018-1025,Retrieved from the Internet:<URL:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5459371&tag=1> |
Also Published As
Publication number | Publication date |
---|---|
JPWO2022064660A1 (ja) | 2022-03-31 |
US20230237845A1 (en) | 2023-07-27 |
WO2022064660A1 (ja) | 2022-03-31 |
EP4220546A4 (en) | 2023-10-25 |
CN116018613A (zh) | 2023-04-25 |
EP4220546A1 (en) | 2023-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sathiyamoorthi et al. | A deep convolutional neural network based computer aided diagnosis system for the prediction of Alzheimer's disease in MRI images | |
Takagi et al. | High-resolution image reconstruction with latent diffusion models from human brain activity | |
JP7014100B2 (ja) | 拡張装置、拡張方法及び拡張プログラム | |
US10482352B2 (en) | Information processing device and non-transitory computer readable medium | |
Zhang et al. | Age progression/regression by conditional adversarial autoencoder | |
JP6889728B2 (ja) | 畳み込みニューラルネットワークにおける構造学習 | |
US10691971B2 (en) | Method and apparatus for recognizing object | |
Panwar et al. | Modeling EEG data distribution with a Wasserstein generative adversarial network to predict RSVP events | |
EP3364868B1 (en) | Generating natural language representations of mental content from functional brain images | |
JP6270182B2 (ja) | 属性要因分析方法、装置、およびプログラム | |
Xiang et al. | Towards interpretable skin lesion classification with deep learning models | |
JP7276018B2 (ja) | 学習方法、推定方法および学習プログラム | |
CN110263880A (zh) | 脑疾病分类模型的构建方法、装置及智能终端 | |
US20190228302A1 (en) | Learning method, learning device, and computer-readable recording medium | |
Wismüller et al. | Large-scale nonlinear Granger causality: A data-driven, multivariate approach to recovering directed networks from short time-series data | |
Whig et al. | Gan for augmenting cardiac MRI segmentation | |
JP7396509B2 (ja) | 機械学習プログラム、機械学習方法および推定装置 | |
Anwaar et al. | Face image synthesis with weight and age progression using conditional adversarial autoencoder | |
US20230046705A1 (en) | Storage medium, determination device, and determination method | |
JP6947460B1 (ja) | プログラム、情報処理装置、及び方法 | |
CN116152645A (zh) | 一种融合多种表征平衡策略的室内场景视觉识别方法及系统 | |
JP7161111B2 (ja) | 重みマスク生成装置、重みマスク生成方法及びプログラム | |
Atallah et al. | NEURAL NETWORK WITH AGNOSTIC META-LEARNING MODEL FOR FACE-AGING RECOGNITION | |
Guo et al. | Age transformation based on deep learning: a survey | |
US20200294669A1 (en) | Learning method, estimating method, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230220 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231031 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231113 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7396509 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |