JP2024068400A

JP2024068400A - 機械学習プログラム、機械学習方法および機械学習装置

Info

Publication number: JP2024068400A
Application number: JP2022178823A
Authority: JP
Inventors: 亮介川村; 紀子池本（武村）; 一長原
Original assignee: Fujitsu Ltd; Osaka University NUC
Current assignee: Fujitsu Ltd; Osaka University NUC
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2024-05-20
Also published as: US20240153248A1

Abstract

【課題】汎化性能を向上する。【解決手段】記憶部１１は、顔画像の入力に応じた第１の推論結果を出力する第１のモデル２０により出力される、複数の顔画像それぞれに対応する第１の推論結果を記憶する。処理部１２は、複数の顔画像のうち、それぞれの第１の推論結果４１，４２に応じた距離が閾値を超える第１の顔画像３１と第２の顔画像３２とを選択する。処理部１２は、第１の顔画像３１と第２の顔画像３２とを合成した第３の顔画像５１を用いて、顔画像の入力に応じて第２の推論結果を出力する第２のモデル６０の機械学習を実行する。【選択図】図１

Description

本発明は機械学習プログラム、機械学習方法および機械学習装置に関する。

現在、カメラにより人間の顔を撮像した画像（顔画像）を基に人間の表情を認識するシステムが開発されている。表情の認識では、コンピュータが、機械学習によって生成されたモデルを用いて、顔画像から人間の喜び、怒り、恐怖、驚きなどの感情を推定することがある。モデルは、例えば、深層学習（ＤＬ：Deep Learning）によって生成されるニューラルネットワークである。

なお、物体認識タスクに用いられるモデルの機械学習において、ランダムな割合で２つの画像を透過合成処理するとともに、ラベルも同様の割合で加重平均をとるＭｉｘＵｐと呼ばれる処理により、擬似的に新たな訓練データを生成する方法が提案されている。

Hongyi Zhang、他３名、"mixup: Beyond Empirical Risk Minimization"、［online］、２０１７年１０月２５日、arXiv:1710.09412［cs.LG］、［令和４年８月１６日検索］、インターネット＜ＵＲＬ：ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１７１０．０９４１２．ｐｄｆ＞

顔画像を訓練データとする機械学習では、アノテーションにコストがかかり、訓練データの大規模化が難しい。訓練データが少量であるほど、過学習が起きる可能性が高くなり、構築されるモデルの汎化性能が低下する。

そこで、上記提案のように、例えばランダムに選択された２つの顔画像の合成により新たな訓練データを生成し、訓練データの量を増やすことが考えられる。しかし、モデルのタスクによっては、顔画像の分類先となるクラスが少ないことがある。例えば表情認識タスクの場合、喜びや怒りなどの感情の種類は比較的少ない。また、顔画像によっては、「恐怖による驚き」のように、主クラス以外のクラスの成分が混ざっていることがある。

このため、例えば２つの顔画像をランダムに選択して合成する方法では、クラス分類の観点から似通った顔画像が合成対象として選択される可能性があり、結果的に元の訓練データと似た訓練データが生成されることがある。しかし、一様な訓練データを増やしても、モデルの汎化性能の向上を図ることはできない。

１つの側面では、本発明は、汎化性能を向上することを目的とする。

１つの態様では、コンピュータに以下の処理を実行させる機械学習プログラムが提供される。コンピュータは、顔画像の入力に応じて第１の推論結果を出力する第１のモデルにより出力される、複数の顔画像それぞれに対応する第１の推論結果を取得する。コンピュータは、複数の顔画像のうち、それぞれの第１の推論結果に応じた距離が閾値を超える第１の顔画像と第２の顔画像とを選択する。コンピュータは、第１の顔画像と第２の顔画像とを合成した第３の顔画像を用いて、顔画像の入力に応じて第２の推論結果を出力する第２のモデルの機械学習を実行する。

また、１つの態様では、コンピュータが実行する機械学習方法が提供される。また、１つの態様では、記憶部と処理部とを有する機械学習装置が提供される。

１つの側面では、汎化性能を向上できる。

第１の実施の形態の機械学習装置の例を説明する図である。第２の実施の形態の機械学習装置のハードウェア例を示す図である。機械学習装置の機能例を示すブロック図である。顔動画に対応する感情要素の分布の例を示す図である。機械学習の例を示す図である。事前モデルの出力の例を示す図である。事前モデルのモデル構造の例を示す図である。事前モデルの処理例を示す図である。２つの画像の透過合成の例を示す図である。感情要素の分布の合成例を示す図である。顔動画のペアの第１の選択例を示す図である。顔動画における表情変化の例を示す図である。顔動画のペアの第２の選択例を示す図である。機械学習の手順例を示すフローチャートである。第３の実施の形態の機械学習装置の機能例を示すブロック図である。機械学習の手順例を示すフローチャートである。

以下、本実施の形態について図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

図１は、第１の実施の形態の機械学習装置の例を説明する図である。
第１の実施の形態の機械学習装置１０は、顔画像の入力に応じて、顔画像に対応する感情などの推論結果を出力するモデルを機械学習によって生成する。機械学習装置１０を、情報処理装置やコンピュータなどと言うこともできる。機械学習装置１０は、クライアント装置でもよいしサーバ装置でもよい。

機械学習装置１０は、記憶部１１および処理部１２を有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性の半導体メモリでもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性ストレージでもよい。処理部１２は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）などのプロセッサである。ただし、処理部１２は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの特定用途の電子回路を含んでもよい。プロセッサは、ＲＡＭなどのメモリ（記憶部１１でもよい）に記憶されたプログラムを実行する。複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うことがある。

記憶部１１は、第１のモデル２０、顔画像群３０および推論結果群４０を記憶する。第１のモデル２０は、機械学習により事前に作成済のモデルである。モデルは、推論モデル、学習済モデルまたは認識モデルなどと言われてもよい。第１のモデル２０は、顔画像の入力に応じて第１の推論結果を出力する。第１のモデル２０には、例えばニューラルネットワークが用いられる。顔画像群３０は、第１のモデル２０に入力される顔画像のセットである。顔画像は静止画像でもよいし、動画像でもよい。推論結果群４０は、顔画像に対して第１のモデル２０が出力する第１の推論結果のセットである。

第１の推論結果は、入力された顔画像から推定される、喜怒哀楽などの複数の感情要素それぞれが含まれる確率の分布、すなわち、複数の感情要素それぞれの確率を示すクラス分類結果を含んでもよい。この場合、第１の推論結果は、各感情要素の確率を要素として含むベクトルで表される。第１の推論結果は、顔画像が所定数のフレームを含む動画像である場合に、各フレームの重みを示すアテンション（attention）を含んでもよい。アテンションは注意度や注目度などと言われてもよい。アテンションは、どのフレームがどの程度推論に寄与しているかを示す指標である。一例では、アテンションは表情変化の度合いの大きさを示す。感情は表情に表出される。このため、表情変化の度合いが大きいフレームほど、感情に関する推論への寄与が大きい。アテンションが用いられる場合、第１の推論結果は、例えば各フレームにおける表情変化の度合いを要素として含むベクトルで表される。

処理部１２は、推論結果群４０を取得する。処理部１２は、第１のモデル２０に顔画像群３０に含まれる各顔画像を入力することで、推論結果群４０を取得してもよい。処理部１２は、顔画像群３０および推論結果群４０を予め記憶する記憶装置から推論結果群４０を取得してもよい。後者の場合、第１のモデル２０は、記憶部１１に記憶されなくてもよい。第１のモデル２０は、機械学習装置１０の外部の記憶装置に記憶されてもよい。

処理部１２は、顔画像群３０のうち、それぞれの第１の推論結果に応じた距離が閾値を超える第１の顔画像と第２の顔画像とを選択する。閾値は予め設定される。閾値をＬ０とする。距離は、２つのベクトルに対して計算されるユークリッド距離である。

例えば、顔画像群３０は顔画像３１，３２，３３を含む。推論結果群４０は推論結果４１，４２，４３を含む。推論結果４１は、顔画像３１に対応する第１のモデル２０の推論結果である。推論結果４２は、顔画像３２に対応する第１のモデル２０の推論結果である。推論結果４３は、顔画像３３に対応する第１のモデル２０の推論結果である。

例えば、処理部１２は推論結果４１，４２に応じた距離Ｌ１を計算する。距離Ｌ１は、閾値Ｌ０より大きい。この場合、処理部１２は、顔画像３１，３２のペアを合成対象として選択する。

また、処理部１２は推論結果４１，４３に応じた距離Ｌ２を計算する。距離Ｌ２は、閾値Ｌ０以下である。この場合、処理部１２は、顔画像３１，３３のペアを合成対象として選択しない。同様に、処理部１２は、推論結果４２，４３に基づく距離と閾値Ｌ０との比較に応じて、顔画像３２，３３のペアを合成対象として選択し得る。

処理部１２は、第１の顔画像と第２の顔画像とを合成した第３の顔画像を用いて、顔画像の入力に応じて第２の推論結果を出力する第２のモデル６０の機械学習を実行する。例えば、処理部１２は、選択した顔画像３１，３２を合成することで、顔画像５１を生成する。そして、処理部１２は、顔画像５１を用いて第２のモデル６０の機械学習を実行する。第２のモデル６０の機械学習には、顔画像群３０に含まれる各顔画像も利用される。第２のモデル６０には、例えばニューラルネットワークが用いられる。第２のモデル６０のモデル構造は、第１のモデル２０と同じでもよいし、異なってもよい。第２のモデル６０による第２の推論結果は、顔画像に対して推定された感情を示す情報を含み得る。

顔画像３１，３２の合成には、透過合成が用いられてもよい。１つ目の画像の画素値のベクトルをＸ１、２つ目の画像の画素値のベクトルをＸ２とし、透過合成における１つ目の画像の画素値の割合をλ（０＜λ＜１）とする。すると、透過合成は、λＸ１＋（１－λ）Ｘ２と表される。１つ目の画像のラベルをｙ１、２つ目の画像のラベルをｙ２とすると、合成された画像のラベルｙは、ｙ＝λｙ１＋（１－λ）ｙ２と計算される。ラベルは、機械学習において、顔画像と共に訓練データとして用いられる情報である。ラベルは、各顔画像に対して予め与えられる。ラベルは、第１のモデル２０が出力する感情要素の分布でもよいし、当該感情要素とは異なる感情要素の分布でもよい。

第１の実施の形態の機械学習装置１０によれば、顔画像の入力に応じた第１の推論結果を出力する第１のモデルにより出力される、複数の顔画像それぞれに対応する第１の推論結果が取得される。複数の顔画像のうち、それぞれの第１の推論結果に応じた距離が閾値を超える第１の顔画像と第２の顔画像とが選択される。第１の顔画像と第２の顔画像とを合成した第３の顔画像を用いて、顔画像の入力に応じて第２の推論結果を出力する第２のモデルの機械学習が行われる。

これにより、モデルの汎化性能を向上できる。第１の推論結果に応じた距離がある程度離れた顔画像のペアを選択して合成することで、似通った顔画像のペアが合成されることを抑制できる。このため、訓練データの多様性を効率的に向上できる。訓練データの多様性が向上することで、機械学習により生成されるモデルの、訓練データに含まれないデータに対する識別性能、すなわち、汎化性能を向上することができる。

なお、第１の推論結果は、顔画像に対して推定された複数の感情要素それぞれの確率を示すクラス分類結果を含んでもよい。これにより、複数の感情要素のクラス分類結果が異なる顔画像同士を合成対象にでき、訓練データの多様性を効率的に向上できる。その結果、第２のモデルの汎化性能を向上できる。

また、顔画像は表情の変化を示す動画像でもよい。第１の推論結果は、顔画像に含まれる複数のフレームそれぞれの重みを示すアテンションを含んでもよい。これにより、各フレームの時系列変化が異なる顔画像同士を合成対象にでき、訓練データの多様性を効率的に向上できる。その結果、第２のモデルの汎化性能を向上できる。

また、第１の推論結果は、顔画像が表情の変化を示す動画像である場合に、顔画像に対して推定された複数の感情要素それぞれの確率を示すクラス分類結果を含んでもよい。この場合、処理部１２は、当該クラス分類結果に基づく第１の距離が第１の閾値を超え、かつ、アテンションの値（アテンション値）に基づく第２の距離が第２の閾値を超える第１の顔画像と第２の顔画像とを合成対象として選択してもよい。これにより、訓練データの多様性を効率的に向上できる。その結果、第２のモデルの汎化性能を向上できる。

更に、処理部１２は、第１の顔画像の第１の重みと第２の顔画像の第２の重みとを用いて第１の顔画像と第２の顔画像とを透過合成することで第３の顔画像を生成してもよい。処理部１２は、第１の重みと第２の重みとを用いて第１の顔画像の第１のラベルと第２の顔画像の第２のラベルとの加重平均を計算することで第３の顔画像の第３のラベルを生成してもよい。そして、処理部１２は、第３の顔画像と第３のラベルとを含む訓練データを用いて、第２のモデルの機械学習を実行してもよい。これにより、訓練データを効率的に拡張し、第２のモデルの汎化性能を向上できる。

［第２の実施の形態］
次に、第２の実施の形態を説明する。
図２は、第２の実施の形態の機械学習装置のハードウェア例を示す図である。

機械学習装置１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、ＧＰＵ１０４、入力インタフェース１０５、媒体リーダ１０６および通信インタフェース１０７を有する。機械学習装置１００が有するこれらのユニットは、機械学習装置１００の内部でバスに接続されている。ＣＰＵ１０１は、第１の実施の形態の処理部１２に対応する。ＲＡＭ１０２またはＨＤＤ１０３は、第１の実施の形態の記憶部１１に対応する。

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムやデータの少なくとも一部をＲＡＭ１０２にロードし、プログラムを実行する。なお、ＣＰＵ１０１は複数のプロセッサコアを含んでもよい。また、機械学習装置１００は複数のプロセッサを有してもよい。以下で説明する処理は複数のプロセッサまたはプロセッサコアを用いて並列に実行されてもよい。また、複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うことがある。

ＲＡＭ１０２は、ＣＰＵ１０１が実行するプログラムやＣＰＵ１０１が演算に用いるデータを一時的に記憶する揮発性の半導体メモリである。なお、機械学習装置１００は、ＲＡＭ以外の種類のメモリを備えてもよく、複数個のメモリを備えてもよい。

ＨＤＤ１０３は、ＯＳ（Operating System）やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性の記憶装置である。なお、機械学習装置１００は、フラッシュメモリやＳＳＤ（Solid State Drive）などの他の種類の記憶装置を備えてもよく、複数の不揮発性の記憶装置を備えてもよい。

ＧＰＵ１０４は、ＣＰＵ１０１からの命令に従って、機械学習装置１００に接続されたディスプレイ１１１に画像を出力する。ディスプレイ１１１としては、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）、プラズマディスプレイ、有機ＥＬ（ＯＥＬ：Organic Electro-Luminescence）ディスプレイなど、任意の種類のディスプレイを用いることができる。

入力インタフェース１０５は、機械学習装置１００に接続された入力デバイス１１２から入力信号を取得し、ＣＰＵ１０１に出力する。入力デバイス１１２としては、マウス、タッチパネル、タッチパッド、トラックボールなどのポインティングデバイス、キーボード、リモートコントローラ、ボタンスイッチなどを用いることができる。また、機械学習装置１００に、複数の種類の入力デバイスが接続されていてもよい。

媒体リーダ１０６は、記録媒体１１３に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体１１３として、例えば、磁気ディスク、光ディスク、光磁気ディスク（ＭＯ：Magneto-Optical disk）、半導体メモリなどを使用できる。磁気ディスクには、フレキシブルディスク（ＦＤ：Flexible Disk）やＨＤＤが含まれる。光ディスクには、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）が含まれる。

媒体リーダ１０６は、例えば、記録媒体１１３から読み取ったプログラムやデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、例えば、ＣＰＵ１０１によって実行される。なお、記録媒体１１３は可搬型記録媒体であってもよく、プログラムやデータの配布に用いられることがある。また、記録媒体１１３やＨＤＤ１０３を、コンピュータ読み取り可能な記録媒体と言うことがある。

通信インタフェース１０７は、ネットワーク１１４に接続され、ネットワーク１１４を介して他の情報処理装置と通信する。通信インタフェース１０７は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。

図３は、機械学習装置の機能例を示すブロック図である。
機械学習装置１００は、人物の顔を撮像した動画像の入力に応じて、人物の感情を推定するモデルを機械学習によって生成する。人物の顔を撮像した動画像は顔動画と言われる。顔動画のフレーム数は、予め定められる。１つの顔動画に含まれるフレーム数は、例えば８～２０程度である。例えば、顔動画は、人物の表情の変化を一定時間撮像した動画の各フレームから、幾つかのフレームを間引くことで予め作成される。顔動画は、第１の実施の形態の顔画像の一例である。

機械学習装置１００は、事前モデルＤＢ（DataBase）１２０、入力部１３０、顔領域抽出部１４０、モデル出力取得部１５０、分布間距離算出部１６０、アテンション距離算出部１６０ａ、ペア生成部１７０、データ拡張部１８０および学習実行部１９０を有する。
事前モデルＤＢ１２０は、例えば、ＲＡＭ１０２またはＨＤＤ１０３の記憶領域を用いて実現される。入力部１３０、顔領域抽出部１４０、モデル出力取得部１５０、分布間距離算出部１６０、アテンション距離算出部１６０ａ、ペア生成部１７０、データ拡張部１８０および学習実行部１９０は、例えば、ＣＰＵ１０１が実行するプログラムを用いて実現される。

事前モデルＤＢ１２０は、事前モデルを保持する。事前モデルは、機械学習によって事前に作成された表情認識用の認識モデルである。事前モデルは、入力された顔動画における表情の変化に応じた喜怒哀楽などの感情要素の分布を出力する。また、事前モデルは、入力された顔動画の各フレームに対するアテンションを示すアテンション情報を出力する。前述のように、アテンションは、どのフレームがどの程度推論に寄与しているかを示す指標である。アテンションは表情変化の度合いの大きさを示す。表情変化の度合いが大きいほど、該当のフレームの推論への寄与は大きい。感情は表情に表出される。このため、表情変化が大きいほど、表情認識や表情認識に基づく感情の推論に寄与し易い。

なお、事前モデルは、予め用意された顔動画とラベルとのセットを用いて、機械学習装置１００により作成されたものでもよい。
入力部１３０は、新たな認識モデルの訓練データとして用いる顔動画の入力を受け付け、顔領域抽出部１４０に出力する。入力部１３０は、予め用意された複数の顔動画を取得して、顔領域抽出部１４０に出力する。複数の顔動画は、外部から入力されてもよいし、ＲＡＭ１０２またはＨＤＤ１０３に予め記憶されてもよい。

顔領域抽出部１４０は、入力された顔動画の各フレームに対して人物の顔の領域、すなわち、顔領域を抽出する。例えば、顔領域抽出部１４０は、画像における顔領域を認識する顔認識モデルを用いて実現される。顔領域抽出部１４０は、顔領域以外の情報を顔動画の各フレームから除去する加工を行う。顔領域抽出部１４０は、入力された複数の顔動画それぞれに対して当該加工を行い、加工後の顔動画をモデル出力取得部１５０およびペア生成部１７０に出力する。

モデル出力取得部１５０は、事前モデルＤＢ１２０に含まれる事前モデルに、顔動画を入力することで、事前モデルの出力である推論結果を取得する。推論結果は、感情要素の分布およびアテンション情報を含む。感情要素の分布は、喜び、怒りなどの各感情要素が存在する確率を要素とするベクトルで表される。アテンション情報は、各フレームの表情変化の度合いを要素とするベクトルで表される。モデル出力取得部１５０は、顔動画ごとに取得される感情要素の分布を分布間距離算出部１６０に出力する。モデル出力取得部１５０は、顔動画ごとに取得されるアテンション情報をアテンション距離算出部１６０ａに出力する。

分布間距離算出部１６０は、複数の顔動画それぞれに対して事前モデルにより取得された感情要素の分布を基に、任意の２つの顔動画に対する分布間距離を算出する。分布間距離は、２つの顔動画に対応する２つの感情要素の分布の間の距離である。分布間距離は、２つの感情要素の分布を示す２つのベクトルにより計算されるユークリッド距離である。分布間距離算出部１６０は、算出した分布間距離をペア生成部１７０に出力する。

アテンション距離算出部１６０ａは、複数の顔動画それぞれに対して事前モデルにより取得されたアテンション情報を基に、任意の２つの顔動画に対するアテンション距離を算出する。アテンション距離は、２つの顔動画に対応する２つのアテンション情報の間の距離である。アテンション距離は、２つのアテンション情報を示す２つのベクトルにより計算されるユークリッド距離である。アテンション距離算出部１６０ａは、算出したアテンション距離をペア生成部１７０に出力する。

ペア生成部１７０は、２つの顔動画に対して算出される分布間距離およびアテンション距離に基づいて、合成対象とする顔動画のペアを生成する。具体的には、ペア生成部１７０は、分布間距離およびアテンション距離の両方がそれぞれに対して予め定められる閾値を超える２つの顔動画を、合成対象のペアとする。なお、ペア生成部１７０は、分布間距離およびアテンション距離の少なくとも一方がそれぞれに対して予め定められる閾値を超える２つの顔動画を、合成対象のペアとしてもよい。ペア生成部１７０は、合成対象のペアである２つの顔動画をデータ拡張部１８０に出力する。

ペア生成部１７０による顔動画のペアの取得は、次のように説明することができる。事前モデルによる認識結果の分布をベクトルｙとする。また、顔動画のアテンション情報（フレームアテンション）をベクトルａとする。事前モデルにより、顔動画ｘ_１に対してベクトルｙ_１，ａ_１が得られる。事前モデルにより、顔動画ｘ_２に対してベクトルｙ_２，ａ_２が得られる。

ペア生成部１７０は、（ｘ_１，ｙ_１，ａ_１）に対して、Ｄ_ｔｈ１ ^ｕ＞ｄ（ｙ_１，ｙ_２）＞Ｄ_ｔｈ１ ^ｂ、および、Ｄ_ｔｈ２ ^ｕ＞ｄ（ａ_１，ａ_２）＞Ｄ_ｔｈ２ ^ｂの少なくとも一方を満たす（ｘ_２，ｙ_２，ｂ_２）を選択する。ここで、Ｄ_ｔｈ１ ^ｂは、分布間距離に対し予め定められる閾値である。Ｄ_ｔｈ１ ^ｕは、分布間距離に対し予め定められる上限値である。ただし、Ｄ_ｔｈ１ ^ｕは設定されなくてもよい。また、Ｄ_ｔｈ２ ^ｂは、アテンション距離に対し予め定められる閾値である。Ｄ_ｔｈ２ ^ｕは、アテンション距離に対し予め定められる上限値である。ただし、Ｄ_ｔｈ２ ^ｕは設定されなくてもよい。更に、ｄ（ｙ_１，ｙ_２）は、ベクトルｙ_１，ｙ_２間のユークリッド距離を示す。ｄ（ａ_１，ａ_２）は、ベクトルａ_１，ａ_２間のユークリッド距離を示す。

データ拡張部１８０は、合成対象のペアである２つの顔動画を合成することで、訓練データを拡張する。顔動画の合成にはＭｉｘＵｐの手法による透過合成を用いることができる。合成により得られた顔動画のラベルも合成元の各顔動画のラベルを透過合成と同じ比率λ（０＜λ＜１）で加重平均したものが用いられる。

学習実行部１９０は、顔領域抽出部１４０により出力された顔動画と、データ拡張部１８０の合成により得られた顔動画とを用いて、表情認識を行う新たな認識モデルの機械学習を行う。新たな認識モデルのモデル構造は、事前モデルと同じでもよいし、異なってもよい。新たな認識モデルは、顔動画を入力とし、当該顔動画に対して推定された感情を示す情報を出力とする。

次に、顔動画に対応する感情要素の分布について説明する。
図４は、顔動画に対応する感情要素の分布の例を示す図である。
顔動画７０は、ある人物の表情の変化を表す動画像である。分布３００は、顔動画７０に対応する感情要素の分布の例を示す。分布３００は、複数の感情要素それぞれの確率を示すクラス分類結果である。感情要素には、例えば、恐怖（Fear）、驚き（Surprise）、喜び（Enjoyment）、怒り（Anger）、悲哀（Sadness）、嫌悪（Disgust）、軽蔑（Contempt）がある。分布３００の横軸は、これらの感情要素を示す。分布３００の縦軸は、該当の感情要素が含まれる確率を示す。顔動画７０および分布３００の例では、驚きの感情要素が含まれる確率が最も高く、２番目に恐怖の感情要素が含まれる確率が高く、３番目に嫌悪の感情要素が含まれる確率が高いことを示す。例えば、上記の７つの感情要素に対応するクラス（表情クラス）に顔動画７０を分類する場合、顔動画７０は、分布３００を基に「驚き」という表情クラスに分類される。

次に、機械学習装置１００による表情認識のための機械学習について説明する。
図５は、機械学習の例を示す図である。
機械学習装置１００は、顔動画８０と顔動画８０に対するラベルとを含む訓練データを用いて、認識モデル２００の機械学習を行う。ラベルは、顔動画８０に対して予め付与される。ラベルは、顔動画８０に対して認識モデル２００が出力すべき真値を示す。顔動画８０にラベルを付与する作業は、アノテーションと言われる。また、アノテーションの作業者は、アノテーターと言われる。ラベルは、ソフトラベルでもよいし、ハードラベルでもよい。ソフトラベルでは、分類先の各感情要素が含まれる割合が与えられる。ハードラベルでは、分類先の感情要素が何れであるかがｏｎｅ－ｈｏｔのベクトルで与えられる。訓練データは、教師データと言われてもよい。

１つの顔動画に対するアノテーションは、複数人のアノテーターによる投票結果に基づいて行われる。このため、表情認識用のモデルの構築ではアノテーションにコストがかかる。

次に、事前モデルＤＢ１２０に保持される事前モデルを説明する。
図６は、事前モデルの出力の例を示す図である。
事前モデル２１０は、顔動画８０を入力とし、感情要素の分布４００およびアテンション情報５００を出力とする。図中、感情要素の分布４００では、縦軸および感情要素の名称の記述を省略し、感情要素に対応する割合（確率）の値を横軸に記載することがある。横軸に並ぶ数値は、左から右へ向かう順に、例えば恐怖、驚き、喜び、怒り、…などの感情要素に対応する。

アテンション情報５００は、顔動画８０の各フレームのアテンションを示す。アテンション情報５００の横軸は時間である。アテンション情報５００の縦軸はアテンション、すなわち、顔動画８０における各フレームの変化の度合いを示す。

次に、事前モデル２１０のモデル構造を説明する。
図７は、事前モデルのモデル構造の例を示す図である。
事前モデル２１０は、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）２１１、ＬＳＴＭ（Long Short Term Memory）２１２および全結合（ＦＣ：Fully Connected）層２１３，２１４を有する。事前モデル２１０は、顔動画に含まれる各フレームに相当する画像をフレーム順に処理する。図中、フレーム番号をｔとする。

ＣＮＮ２１１は、入力されたフレームに対して畳み込み処理を行い、ＬＳＴＭ２１２に出力する。
ＬＳＴＭ２１２は、現フレームｔの畳み込み処理結果に基づいてｍ次元特徴量ｆ_ｔを出力する。ＬＳＴＭ２１２により、ｆ_ｔには過去フレームの影響が反映される。ＬＳＴＭ２１２は、ｆ_ｔを出力する。

ＦＣ層２１３は、ｍ次元特徴量であるｆ_ｔを１次元の値に変換する。ＦＣ層２１３は、変換後の値をシグモイド（sigmoid）関数に入力し、フレームｔでの１次元の重み値（アテンション）α_ｔを得る。ＦＣ層２１３は、α_ｔを出力する。

ＦＣ層２１４は、特徴量ｆ_ｔをフレームｔでのアテンションα_ｔで重み付けした特徴量α_ｔｆ_ｔを顔動画の全フレームに亘り合算した結果が入力される。そして、ＦＣ層２１４は、感情要素の分布４００を出力する。

図８は、事前モデルの処理例を示す図である。
顔動画に含まれるフレームの総数をｎとする。ＣＮＮ２１１で用いられる重みは、各フレームで共通である。事前モデル２１０は、ＣＮＮ２１１、ＬＳＴＭ２１２およびＦＣ層２１３を各フレームに対して用いて、α_ｔｆ_ｔを計算する。そして、事前モデル２１０は、α_ｔｆ_ｔをｔ＝１～ｎに亘って合算してＦＣ層２１４に入力し、最終的な出力として感情要素の分布４００を出力する。また、事前モデル２１０は、各フレームのアテンションα_ｔも出力する。

なお、前述のように学習実行部１９０により生成される新たな認識モデルの構造は、事前モデル２１０と同じでもよいし、異なってもよい。例えば、学習実行部１９０により生成される認識モデルは、ＣＮＮやＬＳＴＭを有するが、ＦＣ層２１３やＦＣ層２１４に相当する構造を有さなくてもよい。

次に、データ拡張部１８０による顔動画の合成を説明する。
図９は、２つの画像の透過合成の例を示す図である。
データ拡張部１８０は、２つの顔動画における同じフレーム番号のフレーム同士を透過合成する。ここで、１つ目の顔動画におけるフレーム６１０の各画素値のセットをＸ１とする。また、２つ目の顔動画におけるフレーム６２０の各画素値のセットをＸ２とする。更に、透過合成におけるフレーム６１０の重みをλ（０＜λ＜１）とする。この場合、フレーム６２０の重みは１－λとなる。λの値は、予め定められてもよいし、合成する顔動画のペアに対してランダムに決定されてもよい。透過合成は、λ・Ｘ１＋（１－λ）・Ｘ２の演算式で表される。データ拡張部１８０は、当該演算式に基づくフレーム６１０，６２０の透過合成により、該当のフレーム番号における合成後のフレーム６３０を得る。

データ拡張部１８０は、２つの顔動画に含まれる同じフレーム番号のフレーム同士の透過合成を、各フレーム番号に対して行うことで、２つの顔動画を合成する。合成により得られる顔動画のラベルｙは、１つ目の顔動画のラベルｙ１と、２つ目の顔動画のラベルｙ２との重みλによる加重平均となる。すなわち、ｙ＝λ・ｙ１＋（１－λ）・ｙ２である。

図１０は、感情要素の分布の合成例を示す図である。
分布４００ａ，４００ｂは、２つの顔動画に対して事前モデル２１０により得られる感情要素の分布を例示する。分布４００ａは、「恐怖による驚き」の表情の感情要素の分布である。分布４００ｂは、「恐怖」の表情の感情要素の分布の例である。

分布４００ｃは、分布４００ａ，４００ｂを合成した結果の例である。「恐怖による驚き」と「恐怖」とは感情の種類としては似通っている。このため、分布４００ｃは、分布４００ａ，４００ｂと似た分布となってしまっている。

このように、表情には様々な感情要素が混在しており、表情クラスに対して感情要素が独立しているわけではない。このため、異なる表情クラスの顔動画同士を選択して合成したとしても、合成元のデータと似た訓練データが生成されてしまう可能性がある。

そこで、機械学習装置１００は、合成する顔動画のペアを、感情要素の分布間距離に基づいて決定する。
図１１は、顔動画のペアの第１の選択例を示す図である。

ベース動画６００は、ある顔動画である。感情要素の分布４０１は、ベース動画６００の入力に対して事前モデル２１０により出力される推論結果である。候補動画７００，８００は、ベース動画６００とのペア候補の顔動画である。感情要素の分布４０２，４０３は、それぞれ候補動画７００，８００の入力に対して事前モデル２１０により出力される推論結果である。

分布間距離算出部１６０は、分布４０１，４０２を表す各ベクトルに基づいて、分布間距離を算出する。例えば、分布４０１，４０２に対する分布間距離は０．１である。同様に、分布間距離算出部１６０は、分布４０１，４０３を表す各ベクトルに基づいて、分布間距離を算出する。例えば、分布４０１，４０３に対する分布間距離は０．９である。

ペア生成部１７０は、２つの顔動画に対応する分布間距離と閾値との比較に応じて、当該２つの顔動画を合成対象のペアとするか否かを判定する。例えば、閾値＝０．５とする。この場合、ペア生成部１７０は、ベース動画６００および候補動画７００を合成対象のペアとしない。一方、ペア生成部１７０は、ベース動画６００および候補動画８００を合成対象のペアとする。

このように、機械学習装置１００は、分布間距離が閾値よりも離れている顔動画同士を合成することで、合成元のデータと似た訓練データが生成される可能性を低減できる。
また、機械学習装置１００は、合成する顔動画のペアを、アテンション距離に基づいて決定することもできる。

図１２は、顔動画における表情変化の例を示す図である。
図１２（Ａ）は、ある顔動画に対して事前モデル２１０により出力されるアテンション情報５００ａを例示する。アテンション情報５００ａは、最初は笑っていて真顔になる顔動画の各フレームのアテンション（表情変化の度合い）を示す。図１２（Ｂ）は、別の顔動画に対して事前モデル２１０により出力されるアテンション情報５００ｂを例示する。アテンション情報５００ｂは、徐々に笑顔になる顔動画の各フレームのアテンション（表情変化の度合い）を示す。

機械学習装置１００は、アテンション情報５００ａ，５００ｂに基づいて、表情の時間的な変化の仕方が異なる顔動画のペアを特定することができる。
図１３は、顔動画のペアの第２の選択例を示す図である。

アテンション情報５０１は、ベース動画６００の入力に対して事前モデル２１０により出力される、ベース動画６００の各フレームのアテンションを示す。アテンション情報５０２は、候補動画７００の入力に対して事前モデル２１０により出力される、候補動画７００の各フレームのアテンションを示す。アテンション情報５０３は、候補動画８００の入力に対して事前モデル２１０により出力される、候補動画８００の各フレームのアテンションを示す。

アテンション距離算出部１６０ａは、アテンション情報５０１，５０２を表す各ベクトルに基づいて、アテンション距離を算出する。例えば、アテンション情報５０１，５０２に対するアテンション距離は０．１である。同様に、アテンション距離算出部１６０ａは、アテンション情報５０１，５０３を表す各ベクトルに基づいて、アテンション距離を算出する。例えば、アテンション情報５０１，５０３に対するアテンション距離は０．７５である。

ペア生成部１７０は、２つの顔動画に対応するアテンション距離と閾値との比較に応じて、当該２つの顔動画を合成対象のペアとするか否かを判定する。例えば、閾値＝０．５とする。この場合、ペア生成部１７０は、ベース動画６００および候補動画７００を合成対象のペアとしない。一方、ペア生成部１７０は、ベース動画６００および候補動画８００を合成対象のペアとする。なお、アテンション距離に対する閾値は、分布間距離に対する閾値とは異なってもよい。

このように機械学習装置１００は、アテンション距離が閾値よりも離れている顔動画同士を合成することで、合成元のデータと似た訓練データが生成される可能性を低減できる。

なお、ペア生成部１７０は、２つの顔動画に関し、分布間距離およびアテンション距離の両方を用いて、合成対象のペアとするか否かを判定することができる。すなわち、ペア生成部１７０は、分布間距離およびアテンション距離の両方が閾値を超える２つの顔動画を合成対象のペアとする。一方、ペア生成部１７０は、分布間距離およびアテンション距離の少なくとも一方が閾値以下である２つの顔動画を合成対象のペアとしない。

図１４は、機械学習の手順例を示すフローチャートである。
（Ｓ１０）入力部１３０は、複数の顔動画を顔領域抽出部１４０に入力する。顔領域抽出部１４０は、顔動画から顔領域を抽出し、顔動画に対して顔領域以外の情報を除去する加工を行う。顔領域抽出部１４０は、加工後の顔動画をモデル出力取得部１５０およびペア生成部１７０に入力する。

（Ｓ１１）モデル出力取得部１５０は、事前モデルＤＢ１２０から事前モデル２１０を読み込む。
（Ｓ１２）モデル出力取得部１５０は、各顔動画を事前モデル２１０に出力し、事前モデル２１０での感情要素の確率とフレームごとのアテンションとを取得する。これにより、モデル出力取得部１５０は、顔動画に対応する感情要素の分布およびアテンション情報を得る。モデル出力取得部１５０は、顔動画ごとの感情要素の分布を分布間距離算出部１６０に出力する。モデル出力取得部１５０は、顔動画ごとのアテンション情報をアテンション距離算出部１６０ａに出力する。

（Ｓ１３）分布間距離算出部１６０は、データ間の感情要素の分布間距離を算出する。具体的には、分布間距離算出部１６０は、２つの顔動画の全ての組合せに対して、各顔動画の感情要素の分布を表すベクトルを基にユークリッド距離を算出し、当該２つの顔動画に対応する分布間距離とする。

（Ｓ１４）アテンション距離算出部１６０ａは、データ間のアテンション距離を算出する。具体的には、アテンション距離算出部１６０ａは、２つの顔動画の全ての組合せに対して、各顔動画のアテンション情報を表すベクトルを基にユークリッド距離を算出し、当該２つの顔動画に対応するアテンション距離とする。

（Ｓ１５）ペア生成部１７０は、ステップＳ１３，Ｓ１４における２つの顔動画の組合せのうち、分布間距離およびアテンション距離の両方が閾値を超えるペアを選択する。
（Ｓ１６）データ拡張部１８０は、ステップＳ１５で選択されたペアで合成処理を行い、データ拡張を行う。データ拡張部１８０は、前述のＭｉｘＵｐの手法により２つの顔動画の合成処理を行う。データ拡張部１８０は、合成により生成された顔動画のラベルを、合成元の２つの顔動画のラベルに基づいて計算する。

（Ｓ１７）学習実行部１９０は、拡張されたデータで機械学習を実行する。すなわち、学習実行部１９０は、ステップＳ１０で入力された複数の顔動画と、ステップＳ１６で２つの顔動画のペアごとに生成された顔動画とを含む訓練データを用いて、表情を認識する新たな認識モデルの機械学習を行う。そして、機械学習が終了する。

なお、ステップＳ１５では、ペア生成部１７０は、分布間距離およびアテンション距離の少なくとも一方がそれぞれに対して予め定められる閾値を超える２つの顔動画を、合成対象のペアとして選択してもよい。

以上説明したように、第２の実施の形態の機械学習装置１００によれば、表情の認識モデルの汎化性能を向上できる。機械学習装置１００は、分布間距離およびアテンション距離の少なくとも一方がある程度離れた顔動画のペアを選択して合成することで、似通った顔動画のペアが合成されることを抑制できる。このため、訓練データの多様性を効率的に向上できる。訓練データの多様性が向上することで、機械学習により生成される認識モデルの汎化性能を向上することができる。

［第３の実施の形態］
次に、第３の実施の形態を説明する。前述の第２の実施の形態と相違する事項を主に説明し、共通する事項の説明を省略する。第３の実施の形態の機械学習装置は、図２に示した第２の実施の形態のハードウェア構成と同様のハードウェア構成によって実現できる。

図１５は、第３の実施の形態の機械学習装置の機能例を示すブロック図である。
第３の実施の形態の機械学習装置１００ａは、アテンション距離を用いずに合成対象とする顔動画のペアを選択する点が、第２の実施の形態の機械学習装置１００と異なる。

機械学習装置１００ａは、事前モデルＤＢ１２０、入力部１３０、顔領域抽出部１４０、モデル出力取得部１５０、分布間距離算出部１６０、ペア生成部１７０、データ拡張部１８０および学習実行部１９０を有する。これらの機能は、機械学習装置１００の同名の機能と同様である。ただし、ペア生成部１７０は、分布間距離算出部１６０により算出される分布間距離と閾値との比較に応じて、合成対象とする顔動画のペアを生成する。

図１６は、機械学習の手順例を示すフローチャートである。
第３の実施の形態の機械学習の手順は、図１４で例示した手順のうちのステップＳ１２，Ｓ１５に代えて、それぞれステップＳ１２ａ，Ｓ１５ａが実行される点が第２の実施の形態の機械学習の手順と異なる。また、第３の実施の形態の機械学習の手順は、図１４で例示した手順のうちのステップＳ１４が省略されて、ステップＳ１３の次にステップＳ１５ａが実行される点が第２の実施の形態の機械学習の手順と異なる。それ以外のステップは、第２の実施の形態の機械学習の手順と同じである。そこで、以下では、ステップＳ１２ａ，Ｓ１５ａを説明し、他のステップの説明を省略する。

（Ｓ１２ａ）モデル出力取得部１５０は、顔動画を事前モデル２１０に出力し、事前モデル２１０での感情要素の確率を取得する。これにより、モデル出力取得部１５０は、顔動画に対応する感情要素の分布を得る。モデル出力取得部１５０は、顔動画ごとの感情要素の分布を分布間距離算出部１６０に出力する。そして、ステップＳ１３に処理が進む。ステップＳ１３が実行されると、ステップＳ１５ａに処理が進む。

（Ｓ１５ａ）ペア生成部１７０は、ステップＳ１３における２つの顔動画の組合せのうち、分布間距離が閾値を超えるペアを選択する。そして、ステップＳ１６に処理が進む。
このように、機械学習装置１００ａは、分布間距離がある程度離れた顔動画のペアを選択して合成することで、似通った顔動画のペアが合成されることを抑制できる。このため、第２の実施の形態と同様に、訓練データの多様性を効率的に向上できる。訓練データの多様性が向上することで、機械学習により生成される認識モデルの汎化性能を向上することができる。

ところで、近年の画像処理技術の発達により、人間の心理状態の機微な変化を表情から検知し、心理状態の変化に応じた処理を行うシステムの開発が進んでいる。例えば、ロボットに搭載されたカメラから、応対する人間の表情の変化を認識して、感情の変化を検知し、適切な対応を行うシステムなどがある。

表情の変化を記述する代表的な手法の１つとして、感情に関する表情（例えばhappy、angry、sad、disgust、fear、surprise、contemptなど）を認識する方法がある。このような表情認識では、アノテーションにコストがかかるためデータの大規模化が難しく、少量のデータから認識モデルを構築する必要があった。しかし、少量のデータでは訓練データに過学習してしまう可能性が高く、汎化性能（訓練データ以外に対する認識性能）が低下する。

これに対し、前述のＭｉｘＵｐにより、擬似的に新たな訓練データを生成する方法が考えられる。ＭｉｘＵｐの混ぜ合わせにより疑似的にデータの多様性が向上し、正則化のような効果が生まれ、中間の状態のような画像も識別できるようになる。また、より「異なる」種類のデータが混じることで多様なデータが生成され、データ拡張の効果がより向上し、汎化性能の向上に効果的になると考えられる。

一方、異なるデータが混じることが望ましいが、識別対象の種類の少ない表情認識の場合、ランダムに選択するアルゴリズムでは同じ種類の表情クラスのデータを選択してしまう可能性が高い。また、表情には様々な感情の要素が混じっており、独立しているわけではない。単純に異なるクラスの表情を選択してくるだけでは異なる種類のデータの選択としては不十分であり、元と同じような種類のデータが生成されてしまう可能性がある。例えば、前述の「驚き」の感情の例のように、「恐怖による驚き」と「恐怖」などが混ざってしまい元のデータと似たような感情要素の分布のデータが生成され得る。

更に、表情変化の仕方は様々なパターンがあり顔動画の中でどのような変化しているかは様々である。異なる種類のデータをミックスする、という観点からは、時間的な変化の仕方が異なるデータを混ぜるのが好ましいと考えられる。しかし、顔動画に予め付与されるラベルの情報からは時間的な変化の仕方を判断できず、同じようなデータが選択される可能性がある。

このように、従来の方法では、合成対象のペアとして、似たデータが選択されることがあり、元のデータと同じような種類のデータが生成されてしまうため、汎化性能向上に寄与しにくい。

そこで、上記の機械学習装置１００，１００ａは、既存のモデルや事前学習したモデルによる出力を利用して、２種類のデータ（顔動画）に対する出力に関して、それぞれの間の距離が遠いものを選択して合成する。これにより、多様な擬似データが生成され、汎化性能の向上に効果的なデータ拡張が行われるようになる。また、こうして拡張された訓練データを用いて既存のモデルや新たなモデルの機械学習を行うことで、当該モデルの汎化性能を向上することができる。例えば、顔動画における比較的小さな表情変化に対しても、感情の推定の精度を向上させることができる。

なお、第１の実施の形態の情報処理は、処理部１２にプログラムを実行させることで実現できる。また、第２の実施の形態の情報処理は、ＣＰＵ１０１にプログラムを実行させることで実現できる。プログラムは、コンピュータ読み取り可能な記録媒体１１３に記録できる。

例えば、プログラムを記録した記録媒体１１３を配布することで、プログラムを流通させることができる。また、プログラムを他のコンピュータに格納しておき、ネットワーク経由でプログラムを配布してもよい。コンピュータは、例えば、記録媒体１１３に記録されたプログラムまたは他のコンピュータから受信したプログラムを、ＲＡＭ１０２やＨＤＤ１０３などの記憶装置に格納し（インストールし）、当該記憶装置からプログラムを読み込んで実行してもよい。

１０機械学習装置
１１記憶部
１２処理部
２０第１のモデル
３０顔画像群
３１，３２，３３，５１顔画像
４０推論結果群
４１，４２，４３推論結果
６０第２のモデル

Claims

コンピュータに、
顔画像の入力に応じて第１の推論結果を出力する第１のモデルにより出力される、複数の顔画像それぞれに対応する前記第１の推論結果を取得し、
前記複数の顔画像のうち、それぞれの前記第１の推論結果に応じた距離が閾値を超える第１の顔画像と第２の顔画像とを選択し、
前記第１の顔画像と前記第２の顔画像とを合成した第３の顔画像を用いて、前記顔画像の入力に応じて第２の推論結果を出力する第２のモデルの機械学習を実行する、
処理を実行させる機械学習プログラム。
前記第１の推論結果は、前記顔画像に対して推定された複数の感情要素それぞれの確率を示すクラス分類結果を含む、請求項１記載の機械学習プログラム。
前記顔画像は表情の変化を示す動画像であり、
前記第１の推論結果は、前記顔画像に含まれる複数のフレームそれぞれの重みを示すアテンション値を含む、
請求項１記載の機械学習プログラム。
前記第１の推論結果は、前記顔画像に対して推定された複数の感情要素それぞれの確率を示すクラス分類結果を含み、
前記第１の顔画像と前記第２の顔画像との選択では、前記クラス分類結果に基づく第１の距離が第１の閾値を超え、かつ、前記アテンション値に基づく第２の距離が第２の閾値を超える前記第１の顔画像と前記第２の顔画像とを選択する、
請求項３記載の機械学習プログラム。
前記コンピュータに更に、
前記第１の顔画像の第１の重みと前記第２の顔画像の第２の重みとを用いて前記第１の顔画像と前記第２の顔画像とを透過合成することで前記第３の顔画像を生成し、前記第１の重みと前記第２の重みとを用いて前記第１の顔画像の第１のラベルと前記第２の顔画像の第２のラベルとの加重平均を計算することで前記第３の顔画像の第３のラベルを生成し、
前記第３の顔画像と前記第３のラベルとを含む訓練データを用いて、前記第２のモデルの機械学習を実行する、
請求項１記載の機械学習プログラム。
コンピュータが、
顔画像の入力に応じて第１の推論結果を出力する第１のモデルにより出力される、複数の顔画像それぞれに対応する前記第１の推論結果を取得し、
前記複数の顔画像のうち、それぞれの前記第１の推論結果に応じた距離が閾値を超える第１の顔画像と第２の顔画像とを選択し、
前記第１の顔画像と前記第２の顔画像とを合成した第３の顔画像を用いて、前記顔画像の入力に応じて第２の推論結果を出力する第２のモデルの機械学習を実行する、
機械学習方法。
顔画像の入力に応じて第１の推論結果を出力する第１のモデルにより出力される、複数の顔画像それぞれに対応する前記第１の推論結果を記憶する記憶部と、
前記複数の顔画像のうち、それぞれの前記第１の推論結果に応じた距離が閾値を超える第１の顔画像と第２の顔画像とを選択し、前記第１の顔画像と前記第２の顔画像とを合成した第３の顔画像を用いて、前記顔画像の入力に応じて第２の推論結果を出力する第２のモデルの機械学習を実行する処理部と、
を有する機械学習装置。