JP7472471B2

JP7472471B2 - 推定システム、推定装置および推定方法

Info

Publication number: JP7472471B2
Application number: JP2019206384A
Authority: JP
Inventors: 青郁; 祥孝牛久; 敦史橋本
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2024-04-23
Anticipated expiration: 2039-11-14
Also published as: JP2021081795A; WO2021095509A1

Description

本発明は、実用環境に適合可能な推定モデルの推定方法に関する。

近年のコンピューティング能力の飛躍的な向上によって、様々な分野に、コンピューティング能力を利用したＡＩ（Artificial Intelligence）と称されるソリューションが実現されつつある。

このようなソリューションは、入力された画像に含まれる物体の種類を認識するタスクや、入力された画像に含まれる物体が存在する領域を認識するタスクなどを含む。このような認識タスクを実現するためには、様々な要素技術が必要であるが、その一つに教師なしドメイン適応（ＵＤＡ：Unsupervised Domain Adaptation）が知られている。教師なしドメイン適応を実用環境で（in the wild）実現する場合には、OpenSet問題、ノイズ問題、データ不均衡問題などの問題が生じ得ることが知られている。

OpenSet問題に対する解決手段として、「OpenSet DA」という手法が提案されている（非特許文献１など参照）。ノイズ問題に対する解決手段として、「Weakly-Supervised DA」という手法が提案されている（非特許文献２など参照）。データ不均衡問題に対する解決手段として、「Partial DA」という手法が提案されている（非特許文献３など参照）。

Hong Liu1, Zhangjie Cao1, Mingsheng Long1, Jianmin Wang1, Qiang Yang, "Separate to Adapt: Open Set Domain Adaptation via Progressive Separation," Conference on Computer Vision and Pattern Recognition (CVPR), 2019, [2019年11月11日検索], インターネット<URL: http://openaccess.thecvf.com/content_CVPR_2019/papers/Liu_Separate_to_Adapt_Open_Set_Domain_Adaptation_via_Progressive_Separation_CVPR_2019_paper.pdf> Feng Liu, Jie Lu, Bo Han, Gang Niu, Guangquan Zhang, Masashi Sugiyama, "Butterfly: Robust One-step Approach towards Wildly-unsupervised Domain Adaptation," arXiv:1905.07720v1, 19 May 2019, [2019年11月11日検索], インターネット<URL: https://arxiv.org/abs/1905.07720v1> Jin Chen, Xinxiao Wu, Lixin Duan, Shenghua Gao, "Domain Adversarial Reinforcement Learning for Partial Domain Adaptation," arXiv:1905.04094v1 10 May 2019, [2019年11月11日検索], インターネット<URL: https://arxiv.org/abs/1905.04094v1> Kuniaki Saito, Kohei Watanabe, Yoshitaka Ushiku, Tatsuya Harada, "Maximum Classifier Discrepancy for Unsupervised Domain Adaptation," The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, pp. 3723-3732, [2019年11月11日検索], インターネット<URL: http://openaccess.thecvf.com/content_cvpr_2018/html/Saito_Maximum_Classifier_Discrepancy_CVPR_2018_paper.html> Kuniaki Saito, Yoshitaka Ushiku, Tatsuya Harada, Kate Saenko, "Adversarial Dropout Regularization," arXiv:1711.01575v3 [cs.CV] 2 Mar 2018, [2019年11月11日検索], インターネット<URL: https://arxiv.org/abs/1711.0157> Bo Han, Quanming Yao, Xingrui Yu1, Gang Niu, Miao Xu, Weihua Hu, Ivor W. Tsang, Masashi Sugiyama, "Co-teaching: Robust Training of Deep Neural Networks with Extremely Noisy Labels," arXiv:1804.06872v3 [cs.LG] 30 Oct 2018, [2019年11月11日検索], インターネット<URL: https://arxiv.org/abs/1804.06872> Yaroslav Ganin, Evgeniya Ustinova, Hana Ajakan, Pascal Germain, Hugo Larochelle, et al., "Domain-Adversarial Training of Neural Networks," Journal of Machine Learning Research 17 (2016) 1-35, 2016, [2019年11月11日検索], インターネット<URL: http://www.jmlr.org/papers/volume17/15-239/15-239.pdf> Eric Tzeng, Judy Hoffman, Kate Saenko, Trevor Darrell, "Adversarial Discriminative Domain Adaptation," The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 7167-7176, 2017, [2019年11月11日検索], インターネット<URL: http://openaccess.thecvf.com/content_cvpr_2017/html/Tzeng_Adversarial_Discriminative_Domain_CVPR_2017_paper.html> Yang Shu, Zhangjie Cao, Mingsheng Long, Jianmin Wang, "Transferable Curriculum for Weakly-Supervised Domain Adaptation," Proceedings of the Thirty-Third AAAI Conference on Artificial Intelligence Vol 33 (2019), 2019-07-17, [2019年11月11日検索], インターネット<URL: https://aaai.org/ojs/index.php/AAAI/article/view/4425> Kuniaki Saito, Shohei Yamamoto, Yoshitaka Ushiku, Tatsuya Harada, "Open Set Domain Adaptation by Backpropagation," The European Conference on Computer Vision (ECCV), 2018, pp. 153-168, 2018, [2019年11月11日検索], インターネット<URL: http://openaccess.thecvf.com/content_ECCV_2018/html/Kuniaki_Saito_Adversarial_Open_Set_ECCV_2018_paper.html>

上述したような各解決手段は、特定の問題に注目したものであり、複数の問題を総合的に考慮した解決手段は提案されていない。

本発明は、上述したような複数の問題を総合的に考慮した解決手段を提供できる教師なしドメイン適応に関する技術を提供することを一つの目的とする。

本発明の一例に従う推定システムは、クラスが付与された複数のデータからなる第１のデータセット、および、クラスが付与されていない複数のデータからなる第２のデータセットを用いて、機械学習により推定モデルを生成する学習部と、第２のデータセットに属し得る推定対象データを推定モデルに入力して、推定結果を決定する推定部とを含む。推定モデルは、入力されたデータから特徴量を算出するエンコーダと、特徴量に基づいて、入力されたデータが第１のクラスである第１の確率を出力する第１の識別器と、特徴量に基づいて、入力されたデータが第２のクラスである第２の確率を出力する第２の識別器とを含む。学習部は、第１のデータセットおよび第２のデータセットのいずれかに含まれるデータを推定モデルに入力したときに出力される第１の確率および第２の確率に基づいて、識別の不一致を算出する算出手段と、算出された識別の不一致の大きさに応じて、当該入力されたデータについての学習の優先度を決定する決定手段とを含む。

この構成によれば、上述したような問題が生じても、それらの問題の影響を受けていないと考えられるデータを優先して学習に用いることができるので、クラスが付与されていない第２のデータセットも活用して、推定モデルの推定精度を維持または向上できる。

学習部は、エンコーダのモデルパラメータを固定した状態で、識別の不一致を最大化することを目的として、第１の識別器および第２の識別器のモデルパラメータを更新する第１のパラメータ更新手段をさらに含んでいてもよい。決定手段は、第１のパラメータ更新手段に関して、算出される識別の不一致がより小さいデータに対して、より高い学習の優先度を決定するようにしてもよい。この構成によれば、より高い精度で、第１の識別器および第２の識別器のモデルパラメータを更新できる。

学習部は、第１の識別器および第２の識別器のモデルパラメータを固定した状態で、識別の不一致を最大化することを目的として、エンコーダのモデルパラメータを更新する第２のパラメータ更新手段をさらに含んでいてもよい。決定手段は、第２のパラメータ更新手段に関して、算出される識別の不一致がより大きいデータに対して、より高い学習の優先度を決定するようにしてもよい。この構成によれば、より高い精度で、エンコーダのモデルパラメータを更新できる。

決定手段は、学習の優先度として、識別の不一致の大きさに応じて、推定モデルを逆伝搬させる誤差に乗じる重み係数を決定するようにしてもよい。この構成によれば、モデルパラメータの更新幅を決定する重み係数を調整できるので、モデルパラメータをより高い精度で更新できる。

決定手段は、算出される識別の不一致の大きさが予め定められた条件を満たすデータのみを、モデルパラメータの更新に用いるデータとして決定するようにしてもよい。この構成によれば、予め定められた条件を満たすデータにより生じた誤差のみがモデルパラメータの調整に用いられるので、モデルパラメータをより高い精度で更新できる。

決定手段は、複数のデータについてそれぞれ算出される識別の不一致をランキングした上で、予め定められた範囲にあるデータのみを、モデルパラメータの更新に用いるデータとして選択するようにしてもよい。この構成によれば、予め定められたしきい値などの条件を設定しなくても、全体の分布の上位に存在するデータのみがモデルパラメータの調整に用いられるので、モデルパラメータをより高い精度で更新できる。

学習部は、第１のデータセットに含まれるデータに基づいて、エンコーダのモデルパラメータ、第１の識別器のモデルパラメータ、および第２の識別器のモデルパラメータを更新する第３のパラメータ更新手段をさらに含んでいてもよい。第３のパラメータ更新手段は、推定モデルにデータを入力して第１の識別器および第２の識別器のうち一方から出力される誤差に基づいて、第１の識別器および第２の識別器のうち他方のモデルパラメータを更新するようにしてもよい。この構成によれば、共通の誤差の情報に基づいて、第１の識別器および第２の識別器のモデルパラメータを更新できるので、モデルパラメータをより高い精度で更新できる。

推定部は、推定対象データを推定モデルに入力したときに出力される第１の確率および第２の確率が互いに整合するか否かに応じて、推定結果を出力する推定結果出力部を含んでいてもよい。この構成によれば、未知クラスに分類されるデータなどの推定も可能となる。

本発明の別の一例に従う推定装置は、クラスが付与された複数のデータからなる第１のデータセット、および、クラスが付与されていない複数のデータからなる第２のデータセットを用いた機械学習により生成された推定モデルを保持する記憶部と、第２のデータセットに属し得る推定対象データを推定モデルに入力して、推定結果を決定する推定部とを含む。推定モデルは、入力されたデータから特徴量を算出するエンコーダと、特徴量に基づいて、入力されたデータが第１のクラスである第１の確率を出力する第１の識別器と、特徴量に基づいて、入力されたデータが第２のクラスである第２の確率を出力する第２の識別器とを含む。推定モデルは、第１のデータセットおよび第２のデータセットのいずれかに含まれるデータを推定モデルに入力したときに出力される第１の確率および第２の確率に基づいて算出される識別の不一致の大きさに応じて、当該入力されたデータについて決定された学習の優先度に基づいて学習されている。

本発明のさらに別の一例に従う推定方法は、クラスが付与された複数のデータからなる第１のデータセット、および、クラスが付与されていない複数のデータからなる第２のデータセットを用いて、機械学習により推定モデルを生成する学習ステップと、第２のデータセットに属し得る推定対象データを推定モデルに入力して、推定結果を決定する推定ステップとを含む。推定モデルは、入力されたデータから特徴量を算出するエンコーダと、特徴量に基づいて、入力されたデータが第１のクラスである第１の確率を出力する第１の識別器と、特徴量に基づいて、入力されたデータが第２のクラスである第２の確率を出力する第２の識別器とを含む。学習ステップは、第１のデータセットおよび第２のデータセットのいずれかに含まれるデータを推定モデルに入力したときに出力される第１の確率および第２の確率に基づいて、識別の不一致を算出するステップと、算出された識別の不一致の大きさに応じて、当該入力されたデータについての学習の優先度を決定するステップとを含む。

本発明によれば、上述したような複数の問題を総合的に考慮した解決手段を提供できる。

本実施の形態に係る適用例を示す模式図である。本実施の形態に係る教師なしドメイン適応のアプリケーション例を示す模式図である。本実施の形態に係る推定モデルの生成および運用に係る処理手順を示す模式図である。図２に示す画像処理システムのハードウェア構成例を示す模式図である。ＭＣＤ（Maximum Classifier Discrepancy）手法に従う教師なしドメイン適応（ＵＤＡ）の解決手段の基本的な考え方を説明するための図である。ＭＣＤ（Maximum Classifier Discrepancy）手法に従う学習方法を説明するための図である。ＭＣＤ（Maximum Classifier Discrepancy）手法に従う学習方法を説明するための図である。ＭＣＤ（Maximum Classifier Discrepancy）手法に従う学習方法を説明するための図である。本実施の形態に係る学習方法に用いられる学習用ネットワークの一例を示す模式図である。本実施の形態に係る学習方法の実装例を示す模式図である。本実施の形態に係る学習方法の概略の処理手順を示すフローチャートである。図６をベースとしてＬｏｓｓ２の値が小さい入力データを説明するための概念図である。図７をベースとしてＬｏｓｓ２の値が小さい入力データを説明するための概念図である。図１１に示す学習方法のステップＳ３におけるモデルパラメータの更新処理の一例を概略する図である。本実施の形態に係る推定モデルの運用時の実装例を示す模式図である。本実施の形態に係る学習方法のアプリケーションでの実装例を示す模式図である。

本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。

＜Ａ．適用例＞
まず、本発明が適用される場面の一例について説明する。

図１は、本実施の形態に係る学習方法およびその学習方法によって生成される推定モデルの適用例を示す模式図である。図１を参照して、学習用ネットワーク１０を用いて、推定モデル６０が機械学習により生成される。

推定モデル６０は、典型的には、エンコーダ７０と、識別器７２および識別器７４とを含む。エンコーダ７０は、入力されたデータ（データｘ_ｓ，データｘ_ｔ）から特徴量を算出する。識別器７２は、エンコーダ７０からの特徴量に基づいて、入力されたデータが第１のクラスである確率ｐ_１（ｙ｜ｘ）を出力する。識別器７４は、入力されたデータが第２のクラスである確率ｐ_２（ｙ｜ｘ）を出力する。

推定モデル６０の学習においては、ソースデータセットおよびターゲットデータセットのいずれかに含まれるデータ（データｘ_ｓ，データｘ_ｔ）を推定モデル６０に入力したときに出力される確率ｐ_１（ｙ｜ｘ）および確率ｐ_２（ｙ｜ｘ）に基づいて、識別の不一致（Classifier Discrepancy）が算出される。そして、算出された識別の不一致の大きさに応じて、当該入力されたデータについての学習の優先度が決定される。

最終的に、決定された学習の優先度に応じて、識別器７２または識別器７４から出力された誤差を逆伝搬させて、学習用ネットワーク１０（エンコーダ７０、識別器７２、および識別器７４の少なくとも一つ）を規定するモデルパラメータを更新する。

本実施の形態に係る学習方法においては、識別の不一致の大きさに応じて、学習の優先度が決定されるので、上述したような問題が生じても、推定精度を維持または向上できる。

＜Ｂ．アプリケーション例＞
次に、本実施の形態に係る教師なしドメイン適応のアプリケーション例について説明する。

図２は、本実施の形態に係る教師なしドメイン適応のアプリケーション例を示す模式図である。図２には、アプリケーション例として画像処理システム１を示す。

図２を参照して、画像処理システム１は、ロボット２のアームの先端に配置されたカメラ２０によりワーク８を撮像して、撮像によって得られた画像を用いてワーク８の外観検査（例えば、欠陥の有無および欠陥の種類の認識）を行う。

ロボット２は、一例として、多関節型ロボットであり、関節に相当する複数の軸４を有しており、それぞれの軸４が回転または移動することによって、先端に配置されたカメラ２０を任意の位置および任意の姿勢に配置できる。

画像処理システム１では、後述するような機械学習によって事前に生成された学習済みモデルである認識処理を実現するための推定モデルが用いられる。推定モデルの推定精度を高めるためには、多数の教師データを含む学習用データセットを用いて機械学習を行う必要がある。

一方で、教師データには正解（例えば、欠陥の種類を示すラベル）を予め付与しておく必要がある。典型的には、アノテーションにより用意される。より具体的には、任意の方法で収集された画像に対して、人手で正解（ラベル）を付与する操作によって、教師データを生成できる。画像を収集する方法としては、任意の装置を用いて実際に撮像する方法でもよいし、シミュレータ上で仮想的に撮像する方法でもよい。さらに、ウェブサイトなどから必要な画像を収集するようにしてもよい。ウェブサイトから画像を収集する場合には、収集される画像には予め正解が付与されている場合もある。

このような予め正解が付与された多数の教師データを用いて、推定モデルを生成することで、推定精度を高めることができる。

しかしながら、実用環境においては、カメラ２０でワーク８が撮像される。任意の手段で収集された画像とカメラ２０で実際に撮像された画像とは、撮像条件などが全く同一ではない。そのため、事前に特定の環境で収集されたデータと、アノテーションなどにより取得された多数の教師データを用いて生成した推定モデルを、そのまま実用環境で用いることはできない場合が多い。そこで、教師なしドメイン適応を用いて、実用環境において運用可能な推定モデルを生成可能な手法を提供する。

図３は、本実施の形態に係る推定モデルの生成および運用に係る処理手順を示す模式図である。図３を参照して、まず、情報処理装置２００により収集された画像からなるデータセット（以下、「ソースデータセット３０」とも称す。）を用意する。また、カメラ２０で実際に撮像することにより、実運用で用いられる画像からなるデータセット（以下、「ターゲットデータセット５０」とも称す。）を用意する。

ソースデータセット３０およびターゲットデータセット５０を用いて、機械学習４０により推定モデル６０を生成する。実運用では、この生成された推定モデル６０に対して、データ（以下、「推定対象データ６２」とも称す。）を入力することで、推定結果６４を得る。なお、推定対象データ６２は、ターゲットデータセット５０に属し得るデータに相当する。

次に、図２に示す画像処理システム１のハードウェア構成の一例について説明する。

図４は、図２に示す画像処理システム１のハードウェア構成例を示す模式図である。図４を参照して、画像処理システム１は、ロボット２およびロボット２を制御する画像処理装置１００を含む。

ロボット２は、カメラ２０に加えて、サーボドライバ１２およびモータ１４のセットを軸の数だけ有している。

画像処理装置１００は、本実施の形態に係る推定システムを構成する装置であり、カメラ２０で撮像された画像に基づいて、画像認識処理を行う。より具体的には、画像処理装置１００は、カメラ２０から撮像されたワーク８を被写体とする画像に対して画像認識処理を行い、ワーク２に欠陥が存在しているか否か、および、存在している場合には欠陥の種類を特定する。画像処理装置１００は、ワーク８の到着に応じて、カメラ２０を所定の位置および姿勢に位置付けるための指令を１または複数のサーボドライバ１２へ出力する。サーボドライバ１２の各々が指令に従って電力を供給することで、対応付けられているモータ１４が回転駆動され、モータ１４と機械的に結合されているロボット２の関節あるいはアームが動作する。

画像処理装置１００は、典型的には、汎用的なアーキテクチャに従うコンピュータ（例えば、汎用パソコンをベースとした産業用パソコン）を用いて実現される。

画像処理装置１００は、コンポーネントとして、プロセッサ１０２と、メインメモリ１０４と、ストレージ１１０と、通信インターフェイス１２２と、入力部１２４と、出力部１２６と、カメラインターフェイス１２８と、モータインターフェイス１３０とを含む。

プロセッサ１０２は、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）などで構成される。プロセッサ１０２としては、複数のコアを有する構成を採用してもよいし、プロセッサ１０２を複数配置してもよい。

メインメモリ１０４は、ＤＲＡＭ（Dynamic Random Access Memory）やＳＲＡＭ（Static Random Access Memory）などの揮発性記憶装置などで構成される。ストレージ１１０は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）などの不揮発性記憶装置などで構成される。プロセッサ１０２は、ストレージ１１０に格納された各種プログラムを読出して、メインメモリ１０４に展開して実行することで、後述するような各種処理を実現する。

ストレージ１１０には、基本的な機能を実現するためのＯＳ１１２に加えて、機械学習プログラム１１４と、推定モデル６０を規定するモデルパラメータ１１６と、画像認識処理を行うための認識アプリケーション１１８とが格納されている。ストレージ１１０は、推定モデル６０を保持する記憶部に相当する。また、ストレージ１１０には、ソースデータセット３０が格納されることもある。

プロセッサ１０２が機械学習プログラム１１４を実行することで、学習処理により推定モデル６０を生成する。また、プロセッサ１０２が認識アプリケーション１１８を実行することで、推定対象データ６２を推定モデル６０に入力して、推定結果を決定する推定部として機能する。

通信インターフェイス１２２は、任意のネットワークを介して他の装置との間のデータの遣り取りを仲介する。

入力部１２４は、キーボードやマウスなどで構成され、ユーザ操作を受け付ける。出力部１２６は、ディスプレイ、各種インジケータ、プリンタなどで構成され、プロセッサ１０２からの処理結果などを出力する。

カメラインターフェイス１２８は、カメラ２０により撮像された画像を受信するとともに、カメラ２０に対して必要な指令を出力する。

モータインターフェイス１３０は、プロセッサ１０２からの指示に従って、サーボドライバ１２へ必要な指令を出力する。

画像処理装置１００のプログラムは、コンピュータ読み出し可能な記録媒体（例えば、ＤＶＤ（Digital Versatile Disc）などの光学記録媒体）を介してインストールされてもよいが、ネットワーク上のサーバ装置などからダウンロードする形でインストールするようにしてもよい。また、本実施の形態に係る画像処理装置１００が提供する機能は、ＯＳが提供するモジュールの一部を利用する形で実現される場合もある。

図４には、プロセッサ１０２がプログラムを実行することで、画像処理装置１００として必要な機能が提供される構成例を示したが、これらの提供される機能の一部または全部を、専用のハードウェア回路（例えば、ＡＳＩＣ（Application Specific Integrated Circuit）またはＦＰＧＡ（Field-Programmable Gate Array）など）を用いて実装してもよい。

＜Ｃ．教師なしドメイン適応＞
次に、教師なしドメイン適応の概要および課題などについて説明する。

教師なしドメイン適応は、互いに異なるバイアス（傾向）をもつ複数のデータセットについて、一方のソースデータセット３０（クラスが付与された複数のデータからなる）がもつ正解の情報を、他方のターゲットデータセット５０（クラスが付与されていない複数のデータからなる）に対しても利用できるようにする手法である。ここで、バイアスとは、典型的には、ソースデータセット３０が取得された環境（以下、「ソースドメイン」とも称す。）と、ターゲットデータセット５０が取得された環境（以下、「ターゲットドメイン」とも称す。）との相違などによるものである。

上述の図２および図３に示すアプリケーション例においては、人手によるアノーテーションなどにより生成するという環境がソースドメインであり、カメラ２０により実際に撮像するという環境がターゲットドメインに相当する。

ソースドメインのデータは（ｘ_ｓ，ｙ_ｓ）の組で与えられ、ターゲットドメインのデータは（ｘ_ｔ）のみで与えられるとする。ここで、ｘ_ｓおよびｘ_ｔは、ソースドメインおよびターゲットドメインに含まれるデータの入力ベクトルをそれぞれ示し、ｙ_ｓは、対応するｘ_ｓに付与された正解（クラス）を意味する。

このような前提において、ターゲットドメインに属するデータｘ_ｔに付与されるべき正解ｙ_ｔを推定できる学習済みモデルを生成することが、教師なしドメイン適応の目標である。

教師なしドメイン適応を実用環境で（in the wild）実現する場合には、OpenSet問題、ノイズ問題、データ不均衡問題などの問題が生じ得ることが知られている。

１番目のOpenSet問題は、ソースドメインに含まれていたデータに付与されているクラス以外のクラス（未知クラス）に分類されるデータがターゲットドメインに含まれることにより生じる推定精度の低下を意味する。

２番目のノイズ問題は、様々な理由で生じる誤りや劣化による推定精度の低下を意味する。ノイズ問題で対象とするノイズは、典型的には、ラベルノイズおよび特徴ノイズである。ラベルノイズは、ソースドメインに含まれるデータに付与される正解に発生する誤りである。すなわち、間違ったクラスが正解として付与されてしまう問題である。また、特徴ノイズは、観測時に他のデータに生じたものとは異なるデータ劣化（ブラーなど）である。すなわち、データセットに含まれる一部のデータの対してのみ、他とは異なるデータ劣化が生じてしまう問題である。

３番目のデータ不均衡問題は、データセットに含まれるデータの数の不均衡による推定精度の低下を意味する。データ不均衡問題は、典型的には、ソースドメインに含まれるデータの数と、ターゲットドメインに含まれるデータの数とが不均衡である状態と、ターゲットドメインに含まれるクラスごとのデータ間が不均衡である状態とがある。前者については、非特許文献４に開示されるＭＣＤ（Maximum Classifier Discrepancy）という手法において影響が大きい。また、後者については、ＭＣＤおよび特徴量の生成分布を一致させる手法において影響が大きい。

本実施の形態に係る学習方法およびその学習方法によって生成される推定モデルは、上述した複数の問題を総合的に考慮した解決手段を提供する。より具体的には、本実施の形態に係る学習方法およびその学習方法によって生成される推定モデルは、基本的には、識別モデルベースの教師なしドメイン適応手法をベースとする。識別モデルベースの教師なしドメイン適応手法の典型例としては、非特許文献４に開示されるＭＣＤ（Maximum Classifier Discrepancy）という手法や、非特許文献５に開示されるＡＤＲ（Adversarial Dropout Regularization）という手法などが挙げられる。

以下では、識別モデルベースの教師なしドメイン適応手法の一例として、非特許文献４に開示されるＭＣＤをベースとした手法について説明する。但し、本発明の技術的範囲は、ＭＣＤおよびＡＤＲといった手法に限定されるものではなく、以下の説明と同様の技術的思想に基づく手法を含むものである。

図５は、ＭＣＤ（Maximum Classifier Discrepancy）手法に従う教師なしドメイン適応（ＵＤＡ）の解決手段の基本的な考え方を説明するための図である。図５を参照して、適応前の状態として、ソースデータセット３０およびターゲットデータセット５０を想定する。

ソースデータセット３０は、正解として第１のクラスに分類される１または複数のデータ３２と、正解として第２のクラスに分類される１または複数のデータ３４とを含むものとする。

一方、ターゲットデータセット５０は、第１のクラスに分類されるべき１または複数のデータ５２と、第２のクラスに分類されるべき１または複数のデータ５４とを含むものとする。但し、ターゲットデータセット５０に含まれるデータがいずれのクラスに分類されるのかは未知である。

任意の特徴量空間において、ソースデータセット３０およびターゲットデータセット５０に含まれるデータに対して、第１のクラスに分類されるデータを識別するための第１のクラス識別面４２と、第２のクラスに分類されるデータを識別するための第２のクラス識別面４４とが存在するものとする。

ＭＣＤなどの識別モデルベースの教師なしドメイン適応においては、ソースデータセット３０とターゲットデータセット５０との間でドメイン全体の分布を一致させることを目的に学習するのではなく、ソースデータセット３０とターゲットデータセット５０との間でクラス識別面を一致させることを目的に学習する。

より具体的には、共通のクラス識別面を利用できるように、ソースデータセット３０およびターゲットデータセット５０から特徴量を抽出するようなエンコーダを学習により生成するとともに、共通に利用できるようなクラス識別面についても学習により生成する。

図６～図８は、ＭＣＤ（Maximum Classifier Discrepancy）手法に従う学習方法を説明するための図である。図６～図８においては、ソースデータセット３０に含まれる第１のクラスに分類されるデータ３２からなる第１のソースデータ群３０１と、第２のクラスに分類されるデータ３４からなる第２のソースデータ群３０２とを想定する。同様に、ターゲットデータセット５０に含まれる第１のクラスに分類されるべきデータ５２からなる第１のターゲットデータ群５０１と、第２のクラスに分類されるべきデータ５４からなる第２のターゲットデータ群５０２とを想定する。

ＭＣＤ手法に従う学習方法においては、クラス識別面の学習と、特徴量を抽出するエンコーダの学習とが交互に行われる。

まず、ソースデータセット３０を用いた学習により、第１のクラス識別面４２および第２のクラス識別面４４が決定される。図６に示すように、第１のクラス識別面４２は、第１のソースデータ群３０１を横切ることはなく、第２のクラス識別面４４は、第２のソースデータ群３０２を横切ることはない。

しかしながら、第１のクラス識別面４２が第１のターゲットデータ群５０１を横切ることもあるし、第２のクラス識別面４４が第２のターゲットデータ群５０２を横切ることもある。すなわち、ソースデータセット３０により決定された第１のクラス識別面４２および／または第２のクラス識別面４４は、ターゲットデータセット５０に対して、不一致領域（Discrepancy Region）を生じる場合ある。

図６において、不一致領域５３は、第１のクラスに分類されるべきデータ５２が第１のクラスには分類されないと誤って判断される領域を意味し、不一致領域５５は、第２のクラスに分類されるべきデータ５４が第２のクラスには分類されないと誤って判断される領域を意味する。

そこで、不一致領域５３および５５を最小化することを目的として、第１のクラス識別面４２および第２のクラス識別面４４を更新する。このとき、エンコーダのモデルパラメータは固定される。図６には、更新前の第１のクラス識別面４２’と更新後の第１のクラス識別面４２、ならびに、更新前の第２のクラス識別面４４’と更新後の第２のクラス識別面４４を模式的に示す。

続いて、図７に示すように、特徴量空間において、第１のクラスに分類されるデータ３２からなる第１のソースデータ群３０１と、第１のクラスに分類されるべきデータ５２からなる第１のターゲットデータ群５０１との間の分布は、可能な限り一致させることが好ましい。同様に、特徴量空間において、第２のクラスに分類されるデータ３４からなる第２のソースデータ群３０２と、第２のクラスに分類されるべきデータ５４からなる第２のターゲットデータ群５０２との間の分布は、可能な限り一致させることが好ましい。

すなわち、特徴量空間において、同じクラスに分類されるデータ同士の不一致（Discrepancy）を最小化することを目的として、エンコーダのモデルパラメータを更新する。

図６には、更新前の第１のターゲットデータ群５０１’と更新後の第１のターゲットデータ群５０１、ならびに、更新前の第２のターゲットデータ群５０２’と更新後の第２のターゲットデータ群５０２を模式的に示す。

図６に示されるクラス識別面の更新、および、図７に示されるエンコーダの更新が繰り返し実行されることで、図８に示されるように、エンコーダおよびクラス識別面のモデルを決定できる。

＜Ｄ．解決手段＞
本実施の形態においては、OpenSet問題、ノイズ問題、データ不均衡問題などが存在する場合でも、推定精度を維持または向上できる学習方法を提供する。

図９は、本実施の形態に係る学習方法に用いられる学習用ネットワーク１０の一例を示す模式図である。図９を参照して、学習用ネットワーク１０は、敵対的ネットワークの一種であり、典型的には、エンコーダ７０と、識別器７２および識別器７４とを含む。

エンコーダ７０は、特徴量の生成部（Ｇ）に相当し、ソースデータセット３０に含まれるデータｘ_ｓ（ベクトル）、および／または、ターゲットデータセット５０に含まれるデータｘ_ｔ（ベクトル）から特徴量を算出する。なお、エンコーダ７０には、複数のデータをまとめたミニバッチの形で入力が与えられることもある。

識別器７２および識別器７４は、エンコーダ７０から出力される特徴量に対して、クラス識別面を規定する。識別器７２は、エンコーダ７０に入力されたデータｘの推定値ｙが第１のクラスである確率ｐ_１（ｙ｜ｘ）を推定結果として出力し、識別器７４は、エンコーダ７０に入力されたデータｘの推定値ｙが第２のクラスである確率ｐ_２（ｙ｜ｘ）を推定結果として出力する。このように、識別器７２は識別関数Ｆ１として機能し、識別器７４は識別関数Ｆ２として機能する。

図１０は、本実施の形態に係る学習方法の実装例を示す模式図である。図１０に示す構成は、典型的には、プロセッサ１０２が機械学習プログラム１１４を実行することにより実現される。

図１０を参照して、学習用ネットワーク１０の入力側に、入力データ選択部１１４１が配置されるとともに、学習用ネットワーク１０の出力側に、Ｌｏｓｓ１演算部１１４２と、Ｌｏｓｓ２演算部１１４３と、誤差バッファ１１４４と、カリキュラム決定部１１４５と、パラメータ更新部１１４６とが配置される。

入力データ選択部１１４１は、ソースデータセット３０およびターゲットデータセット５０に含まれるデータをサンプリングして、学習用ネットワーク１０（エンコーダ７０）に入力する１または複数のデータ（ミニバッチ）を生成する。入力データ選択部１１４１は、選択したデータの情報を誤差バッファ１１４４へ出力してもよい。また、入力データ選択部１１４１は、カリキュラム決定部１１４５からの指示に従って、選択するデータを決定してもよい。

Ｌｏｓｓ１演算部１１４２は、識別器７２および識別器７４による識別誤差をＬｏｓｓ１として算出する。なお、Ｌｏｓｓ１は、正解が付与されているソースデータセット３０に含まれるデータｘ_ｓについてのみ算出可能である。

Ｌｏｓｓ２演算部１１４３は、識別器７２による推定結果と識別器７４による推定結果との間の誤差をＬｏｓｓ２として算出する。Ｌｏｓｓ２は、識別の不一致（Classifier Discrepancy）を意味する。Ｌｏｓｓ２の算出方法としては、典型的には、ＭＡＥ（Mean Absolute Error）やＲＭＳＥ（Root Mean Squared Error）などを用いることができる。

誤差バッファ１１４４は、Ｌｏｓｓ１演算部１１４２およびＬｏｓｓ２演算部１１４３により算出される誤差（Ｌｏｓｓ１およびＬｏｓｓ２）を一時的に格納する。誤差バッファ１１４４は、エンコーダ７０に入力されるデータの情報と関連付けて、算出される誤差を格納してもよい。

カリキュラム決定部１１４５は、Ｌｏｓｓ１演算部１１４２および／またはＬｏｓｓ２演算部１１４３により算出される誤差に基づいて、学習用ネットワーク１０に対する学習のカリキュラムを決定する。より具体的には、カリキュラム決定部１１４５は、入力するデータの種類および順序、ならびに、学習用ネットワーク１０（エンコーダ７０、識別器７２、および識別器７４）を規定するモデルパラメータの更新対象および更新順序などを決定する。

パラメータ更新部１１４６は、Ｌｏｓｓ１演算部１１４２および／またはＬｏｓｓ２演算部１１４３により算出される誤差を逆伝搬させて、学習用ネットワーク１０（エンコーダ７０、識別器７２、および識別器７４）を規定するモデルパラメータを更新する。

本実施の形態に係る学習方法においては、図９に示す学習用ネットワーク１０に対して、順学習および敵対的学習を交互に繰り返し実行する。

順学習においては、エンコーダ７０のモデルパラメータは固定した状態で、識別器７２および識別器７４のモデルパラメータを最適化する。より具体的には、Ｌｏｓｓ２（識別器７２による推定結果と識別器７４による推定結果との間の誤差：識別の不一致）を最大化することを目的として、識別器７２および識別器７４のモデルパラメータを更新する。

一方、敵対的学習においては、識別器７２および識別器７４のモデルパラメータは固定した状態で、エンコーダ７０のモデルパラメータを最適化する。より具体的には、Ｌｏｓｓ２を最小化することを目的として、エンコーダ７０のモデルパラメータを更新する。

本実施の形態に係る学習方法においては、順学習および敵対的学習の少なくとも一方において、入力されるデータに対して算出されるＬｏｓｓ２の大きさに応じて、学習の優先度を調整することにより、上述したような各種問題（OpenSet問題、ノイズ問題、データ不均衡問題など）よる推定精度の低下を防止する。

図１１は、本実施の形態に係る学習方法の概略の処理手順を示すフローチャートである。図１１に示す処理は、典型的には、プロセッサ１０２が機械学習プログラム１１４を実行することにより実現される。

図１１を参照して、ソースデータセット３０およびターゲットデータセット５０が用意される（ステップＳ１）。

まず、プロセッサ１０２は、エンコーダ７０、識別器７２、および識別器７４のモデルパラメータを初期化する（ステップＳ２）。

プロセッサ１０２は、ソースデータセット３０に含まれる正解が付与された複数のデータに基づいて、エンコーダ７０、識別器７２、および識別器７４のモデルパラメータを更新する（ステップＳ３）。このとき、Ｌｏｓｓ１（識別器７２および識別器７４による識別誤差）を最小化するように、エンコーダ７０、識別器７２、および識別器７４のモデルパラメータを更新する。

続いて、プロセッサ１０２は、ソースデータセット３０およびターゲットデータセット５０から順学習に用いるデータ（あるいは、複数のデータからなるミニバッチ）を選択する（ステップＳ４）。そして、プロセッサ１０２は、ステップＳ４において選択したデータを学習用ネットワーク１０に入力して推定結果を算出する（ステップＳ５）とともに、算出した推定結果に基づいてＬｏｓｓ２を算出する（ステップＳ６）。

そして、プロセッサ１０２は、算出したＬｏｓｓ２に基づいて学習の優先度を決定する（ステップＳ７）。最終的に、プロセッサ１０２は、ステップＳ７において決定した学習の優先度に基づいて、Ｌｏｓｓ２を最大化することを目的として、識別器７２および識別器７４のモデルパラメータを更新する（ステップＳ８）。ここで、エンコーダ７０のモデルパラメータは固定される。

プロセッサ１０２は、ステップＳ４～ステップＳ８の順学習の終了条件が成立したか否かを判断する（ステップＳ９）。ステップＳ４～ステップＳ８の順学習の終了条件が成立していなければ（ステップＳ９においてＮＯ）、プロセッサ１０２は、ステップＳ４以下の処理を再度実行する。

ステップＳ４～ステップＳ８の順学習の終了条件が成立していれば（ステップＳ９においてＹＥＳ）、プロセッサ１０２は、ソースデータセット３０およびターゲットデータセット５０から敵対的学習に用いるデータ（あるいは、複数のデータからなるミニバッチ）を選択する（ステップＳ１０）。そして、プロセッサ１０２は、ステップＳ１０において選択したデータを学習用ネットワーク１０に入力して推定結果を算出する（ステップＳ１１）とともに、算出した推定結果に基づいてＬｏｓｓ２を算出する（ステップＳ１２）。

そして、プロセッサ１０２は、算出したＬｏｓｓ２に基づいて学習の優先度を決定する（ステップＳ１３）。最終的に、プロセッサ１０２は、ステップＳ１３において決定した学習の優先度に基づいて、Ｌｏｓｓ２を最小化することを目的として、エンコーダ７０のモデルパラメータを更新する（ステップＳ１４）。ここで、識別器７２および識別器７４のモデルパラメータは固定される。

プロセッサ１０２は、ステップＳ１０～ステップＳ１４の敵対的学習の終了条件が成立したか否かを判断する（ステップＳ１５）。ステップＳ１０～ステップＳ１４の敵対的学習の終了条件が成立していなければ（ステップＳ１５においてＮＯ）、プロセッサ１０２は、ステップＳ１０以下の処理を再度実行する。

ステップＳ１０～ステップＳ１４の敵対的学習の終了条件が成立していれば（ステップＳ１５においてＹＥＳ）、プロセッサ１０２は、学習処理の収束条件が成立したか否かを判断する（ステップＳ１６）。学習処理の収束条件が成立していなければ（ステップＳ１６においてＮＯ）、プロセッサ１０２は、ステップＳ４以下の処理を再度実行する。

学習処理の収束条件が成立していれば（ステップＳ１６においてＹＥＳ）、プロセッサ１０２は、現在のモデルパラメータによって規定されるエンコーダ７０、識別器７２および識別器７４を含む推定モデルを学習結果として出力する（ステップＳ１７）。そして、学習処理は終了する。

なお、ステップＳ３を順学習の処理の一部に組み入れてもよい。

＜Ｅ．学習の優先度の調整＞
次に、本実施の形態に係る学習方法の詳細について説明する。

（ｅ１：基本的な考え方）
上述の順学習（識別器７２および識別器７４のモデルパラメータの更新）は、Ｌｏｓｓ２を最大化することを目的として、モデルパラメータの更新が行われる。そのため、Ｌｏｓｓ２の値が小さい入力データほど、学習の優先度を高めるように設定することが好ましい。すなわち、順学習に関して、算出されるＬｏｓｓ２（識別の不一致）がより小さいデータに対して、より高い学習の優先度が決定される。

Ｌｏｓｓ２は、識別器７２による推定結果と識別器７４による推定結果との間の誤差であり、Ｌｏｓｓ２の値が小さい入力データは、識別器７２および識別器７４により規定されるそれぞれのクラス識別面に対する距離に差がないことを意味する。

図１２は、図６をベースとしてＬｏｓｓ２の値が小さい入力データを説明するための概念図である。図１２を参照して、Ｌｏｓｓ２の値が小さいデータは、例えば、第１のクラス識別面４２までの距離と、第２のクラス識別面４４までの距離との間の差が小さい領域５６に存在する。領域５６は、第１のターゲットデータ群５０１と第２のターゲットデータ群５０２との境界の近傍に位置しており、いずれのクラスに分類されるのかを識別するのが相対的に難しい領域である。このような領域５６にあるデータを優先的に学習に用いることで、第１のクラス識別面４２（識別器７２）および第２のクラス識別面４４（識別器７４）を効率的に学習できる。

上述の敵対的学習（エンコーダ７０のモデルパラメータの更新）は、Ｌｏｓｓ２を最小化することを目的として、モデルパラメータの更新が行われる。そのため、Ｌｏｓｓ２の値が大きい入力データほど、学習の優先度を高めるように設定することが好ましい。すなわち、敵対的学習に関して、算出されるＬｏｓｓ２（識別の不一致）がより大きいデータに対して、より高い学習の優先度が決定される。

Ｌｏｓｓ２は、識別器７２による推定結果と識別器７４による推定結果との間の誤差であり、Ｌｏｓｓ２の値が大きい入力データは、識別器７２および識別器７４により規定されるそれぞれのクラス識別面に対する距離の差が大きいことを意味する。

図１３は、図７をベースとしてＬｏｓｓ２の値が小さい入力データを説明するための概念図である。図１３を参照して、Ｌｏｓｓ２の値が大きいデータは、例えば、第１のクラス識別面４２までの距離と、第２のクラス識別面４４までの距離との間の差が大きい領域５７および領域５８に存在する。領域５７は、第１のクラス識別面４２の近傍に位置しており、第１のクラスに分類されるのかを識別するのが相対的に難しい領域である。同様に、領域５８は、第２のクラス識別面４４の近傍に位置しており、第２のクラスに分類されるのかを識別するのが相対的に難しい領域である。このような領域５７および領域５８にあるデータを優先的に学習に用いることで、第１のターゲットデータ群５０１および第２のターゲットデータ群５０２が射影される領域（エンコーダ７０）を効率的に学習できる。

本実施の形態に係る「学習の優先度を調整する」あるいは「優先的に学習に用いる」ことは、各入力されるデータに対して割り当てられる重みの大きさを変化させることだけではなく、全く重みを割り当てない、すなわち算出された誤差を学習に使用しないことも含み得る。「学習の重みを調整する」方法のいくつかの実装例について以下説明する。

（ｅ２：Ｌｏｓｓ２の大きさに依存した重み係数）
学習の重みを調整する方法の一例として、学習用ネットワーク１０を逆伝搬させる誤差に乗じる重み係数を、Ｌｏｓｓ２の大きさに依存させて決定するようにしてもよい。すなわち、学習の優先度として、Ｌｏｓｓ２（識別の不一致）の大きさに応じて、推定モデル６０を逆伝搬させる誤差に乗じる重み係数を決定するようにしてもよい。

例えば、順学習（識別器７２および識別器７４のモデルパラメータの更新）においては、Ｌｏｓｓ２の値が小さい入力データほど、学習の優先度を高めるように設定することが好ましい。そのため、モデルパラメータの更新に用いられる誤差に乗じられる重み係数を、Ｌｏｓｓ２に反比例させるなどして決定してもよい。すなわち、重み係数∝１／Ｌｏｓｓ２として決定してもよい。

但し、Ｌｏｓｓ２に反比例させる場合に限らず、任意の方法で、Ｌｏｓｓ２の値が小さいほど重み係数を大きくするように決定すればよい。

一方、敵対的学習に（エンコーダ７０のモデルパラメータの更新）においては、Ｌｏｓｓ２の値が大きい入力データほど、学習の優先度を高めるように設定することが好ましい。そのため、モデルパラメータの更新に用いられる誤差に乗じられる重み係数を、Ｌｏｓｓ２に比例させるなどして決定してもよい。すなわち、重み係数∝Ｌｏｓｓ２として決定してもよい。

但し、Ｌｏｓｓ２に比例させる場合に限らず、任意の方法で、Ｌｏｓｓ２の値が大きいほど重み係数を大きくするように決定すればよい。

以上のように、学習の重みを調整する方法として、学習用ネットワーク１０を逆伝搬させる誤差に乗じる重み係数を、Ｌｏｓｓ２の大きさに依存させて決定するようにしてもよい。

（ｅ３：学習の有効／無効）
上述したように、学習用ネットワーク１０を逆伝搬させる誤差に乗じる重み係数を、Ｌｏｓｓ２の大きさに依存させて決定する方法の拡張として、優先度の大きさまたはランクに応じて、対象の誤差を学習に用いるか否かを決定するようにしてもよい。すなわち、算出されるＬｏｓｓ２（識別の不一致）の大きさが予め定められた条件を満たすデータのみを、モデルパラメータの更新に用いるデータとして決定するようにしてもよい。

例えば、順学習（識別器７２および識別器７４のモデルパラメータの更新）においては、Ｌｏｓｓ２の値が小さい入力データほど、学習の優先度を高めるように設定することが好ましい。そのため、算出されるＬｏｓｓ２の値が予め定められたしきい値より小さい場合に限って、対応する誤差を用いてモデルパラメータを更新するようにしてもよい。逆に言えば、算出されるＬｏｓｓ２の値が予め定められたしきい値以上である場合には、対応する誤差は学習には用いないようにしてもよい。

一方、敵対的学習に（エンコーダ７０のモデルパラメータの更新）においては、Ｌｏｓｓ２の値が大きい入力データほど、学習の優先度を高めるように設定することが好ましい。そのため、算出されるＬｏｓｓ２の値が予め定められたしきい値以上である場合に限って、対応する誤差を用いてモデルパラメータを更新するようにしてもよい。逆に言えば、算出されるＬｏｓｓ２の値が予め定められたしきい値より小さい場合には、対応する誤差は学習には用いないようにしてもよい。

このように、算出されるＬｏｓｓ２の値の大きさが予め定められた条件に適合する場合に限って、対応する誤差をモデルパラメータの学習に用いるようにしてもよい。

（ｅ４：ランキング）
上述したような算出されるＬｏｓｓ２の値の大きさをそのまま評価するのではなく、分布として評価した上で、いずれの入力データについて優先度を高めるのかを決定してもよい。

例えば、所定数の入力データ（あるいは、ミニバッチ）を学習用ネットワーク１０に入力して得られる推定結果からそれぞれ算出されたＬｏｓｓ２の集合に対して、値の大きい方からランキング、あるいは、値の小さい方からランキングして、ランキング上位から予め定められた割合（例えば、数～数１０％）のＬｏｓｓ２に対応する誤差のみを学習に用いるようにしてもよい。ランキングにより学習に用いる誤差を決定することで、算出されるＬｏｓｓ２の分布に応じて、学習に用いるべき誤差（すなわち、入力データ）を適切に決定できる。

このように、複数のデータについてそれぞれ算出されるＬｏｓｓ２（識別の不一致）をランキングした上で、予め定められた範囲にあるデータのみを、モデルパラメータの更新に用いるデータとして選択するようにしてもよい。

（ｅ５：カリキュラム）
上述したような手法の１または複数を任意に組み合わせた任意のカリキュラムを決定してもよい。例えば、所定数の入力データ（あるいは、ミニバッチ）を学習用ネットワーク１０に入力して得られる推定結果からそれぞれ算出されたＬｏｓｓ２の集合（例えば、１００エポック分）に基づいて、第１回目の学習では、集合の上位５％の誤差を用いてモデルパラメータを更新するとともに、第２回目の学習では、集合の上位１０％の誤差を用いてモデルパラメータを更新するといったように、学習に用いる対象の誤差および順序などを予めスケジューリングしてもよい。このようなカリキュラムを予め決定することで、モデルパラメータを効率的に学習することができる。

（ｅ６：その他）
なお、「学習の重みを調整する」方法の実装は、上述の形態に限らず、どのような形態を採用してもよい。

＜Ｆ．ソースデータセットによる推定モデルの最適化＞
図１１に示す学習方法のステップＳ３におけるエンコーダ７０、識別器７２、および識別器７４のモデルパラメータを更新する処理においては、Ｌｏｓｓ１（識別器７２および識別器７４による識別誤差）を最小化することを目的とするので、２つの識別器７２および識別器７４のうち一方からの推定結果を利用して、他方を学習するようにしてもよい。

図１４は、図１１に示す学習方法のステップＳ３におけるモデルパラメータの更新処理の一例を概略する図である。図１４を参照して、ソースデータセット３０に含まれるデータをエンコーダ７０に入力し、識別器７２から出力される推定結果についての識別誤差を算出し、算出した識別誤差から算出される誤差を他方の識別器７４に逆伝搬させることで、識別器７４のモデルパラメータを更新するようにしてもよい。

同様に、ソースデータセット３０に含まれるデータをエンコーダ７０に入力し、識別器７４から出力される推定結果についての識別誤差を算出し、算出した識別誤差から算出される誤差を他方の識別器７２に逆伝搬させることで、識別器７２のモデルパラメータを更新するようにしてもよい。

すなわち、図１４に示す学習手順においては、推定モデルにデータを入力して識別器７２および識別器７４のうち一方から出力される誤差に基づいて、識別器７２および識別器７４のうち他方のモデルパラメータが更新される。このように、共通の誤差の情報に基づいて、識別器７２および識別器７４のモデルパラメータを更新することで、ノイズが多い状況であっても、Ｌｏｓｓ１（識別器７２および識別器７４による識別誤差）を最小化できる。なお、図１４に示される学習方法の詳細については、非特許文献６を参照されたい。

＜Ｇ．変形例＞
学習用ネットワーク１０および学習方法については、上述した実施の形態に限らず，以下に示すような様々な変形が可能である。

（ｇ１：学習用ネットワーク）
図９に示す学習用ネットワーク１０においては、共通のエンコーダ７０に対して、ソースデータセット３０およびターゲットデータセット５０からデータが入力されるようになっているが、ソースデータセット３０用のエンコーダおよびターゲットデータセット５０用のエンコーダをそれぞれ配置するようにしてもよい。

図９に示す学習用ネットワーク１０においては、２つの識別器を用いる構成を例示するが、これに限られることなく、３つ以上の識別器を用いるようにしてもよい。また、ＤｒｏｐＯｕｔなどによるランダム選択要素を導入してもよい。ＤｒｏｐＯｕｔの導入によって、仮想的に無数の識別器を配置したのと同様の効果を奏する。

（ｇ２：学習方法）
順学習および敵対的学習においては、ソースデータセット３０およびターゲットデータセット５０の両方から選択されたデータを用いてもよいし、いずれか一方のデータセットから選択されたデータのみを用いるようにしてもよい。すなわち、順学習のみ、敵対的学習のみ、順学習および敵対的学習のいずれかにおいて、ソースデータセット３０およびターゲットデータセット５０のうちいずれか一方のみを用いるようにしてもよい。このとき、順学習において用いるデータセットと、敵対的学習において用いるデータセットとを異ならせてもよい。

＜Ｈ．推定モデルの運用＞
次に、上述の学習方法によって生成された推定モデル６０の運用時（推定フェーズ）の構成例について説明する。

図１５は、本実施の形態に係る推定モデル６０の運用時の実装例を示す模式図である。図１５に示す構成は、典型的には、プロセッサ１０２が認識アプリケーション１１８を実行することにより実現される。

図１５を参照して、推定対象データ６２（データｘ_ｔ）が推定モデル６０に入力されることで、識別器７２からは第１のクラスである確率ｐ_１（ｙ｜ｘ_ｔ）が出力され、識別器７４からは第２のクラスである確率ｐ_２（ｙ｜ｘ）が出力される。

識別器７２および識別器７４から出力される確率は、推定結果出力部８４に入力される。推定結果出力部８４は、それぞれの識別器からの確率が互いに整合した結果を示している場合には、その整合した結果を推定結果６４として出力する。すなわち、推定結果出力部８４は、推定対象データ６２を推定モデル６０に入力したときに出力される確率ｐ_１（ｙ｜ｘ_ｔ）および確率ｐ_２（ｙ｜ｘ_ｔ）が互いに整合するか否かに応じて、推定結果を出力する。

それぞれの識別器からの確率が互いに整合するとは、例えば、同一のデータｘ_ｔに対して、第１のクラスである確率が高く、かつ、第２のクラスである確率が低い場合、あるいは、第１のクラスである確率が低く、かつ、第２のクラスである確率が高い場合などが相当する。

一方、同一のデータｘ_ｔに対して、第１のクラスである確率および第２のクラスである確率の両方が高いあるいは低い場合には、互いに整合しない。

推定結果出力部８４は、それぞれの識別器からの確率が互いに整合する場合には、その整合した結果に対応するクラスを推定結果６４として出力する。一方、推定結果出力部８４は、それぞれの識別器からの確率が互いに整合しない場合には、入力されたデータｘ_ｔが未知クラスであるといった推定結果を出力するようにしてもよい。

さらに、推定結果の信頼度を算出するための信頼度算出部８６を配置してもよい。より具体的には、信頼度算出部８６は、それぞれの識別器からの確率に基づいて算出される、識別の不一致（Ｌｏｓｓ２に相当）の大きさから信頼度を算出するようにしてもよい。

このような信頼度を算出することで、推定モデル６０の推定結果をそのまま利用できるか否かを容易に判断できる。

＜Ｉ．性能評価の実験例＞
次に、本実施の形態に係る学習方法により生成された推定モデルの性能評価の実験例について説明する。本実験例では、数字の認識タスクに関する教師なしドメイン適応を行った。

ソースドメインとして、ＳＶＨＮ（Street View House Numbers）データセットを用いた。ＳＶＨＮデータセットから５つのクラス（０，１，２，３，４，５）毎に任意に選択した２５０サンプル（２５０サンプル×５クラス）をソースデータセット３０とした。

ターゲットドメインとしてＭＮＩＳＴ（Mixed National Institute of Standards and Technology database）データセットを用いた。より具体的には、１０のクラス（０，１，２，３，４，５，６，７，８，９）毎に［２００，２００，５００，５００，１０００，１０００，２０００，２０００，５０００，５０００］個のサンプルをターゲットデータセット５０とした。

すなわち、ソースドメインとターゲットドメインとの間では、それぞれのドメインに含まれるデータ数の不均衡（ソースドメインが１０００サンプルであるのに対して、ターゲットドメインは１７４００サンプル）であることに加えて、ターゲットドメインに含まれるクラスごとのデータ間が不均衡（２００サンプルしかないクラスと、５０００サンプルあるクラスとが混在）になっている。さらに、ターゲットドメインには、ソースドメインには含まれないクラス（未知クラス）が存在している。

さらに、ソースドメインに付与されるラベル（クラス）には、ＰｘｘおよびＳｘｘで示されるノイズを意図的に付加している。

Ｐ２０：サンプル全体の２０％のラベルをランダムに別のものに変更する
Ｐ４５：サンプル全体の４５％のラベルをランダムに別のものに変更する
Ｓ２０：サンプル全体の２０％のラベルを他のサンプルとランダムに入れ替える
Ｓ４５：サンプル全体の４５％のラベルを他のサンプルとランダムに入れ替える
また、以下の５つの手法を性能比較の対象とした。

・ＤＡＮＮ（Domain Adaptation Network）（非特許文献７参照）
・ＡＤＤＡ（Adversarial Discriminative Domain Adaptation）（非特許文献８参照）
・ＭＣＤ（Maximum Classifier Discrepancy）（非特許文献４参照）
・ＴＣＬ（Transferable Curriculum for Weakly-Supervised Domain Adaptation）（非特許文献９参照）
・ＯＳＢＰ（Open Set Domain Adaptation by Backpropagation）（非特許文献１０参照）
さらに、比較の基準として、ソースデータセット３０のみを用いた場合の性能についても示す（Source Only）。

以下の表に示す各値は、各手法に従う推定モデルによる正答率を示す。

このように、本実施の形態に係る学習方法およびその学習方法によって生成される推定モデルを採用することによって、関連技術に比較して、OpenSet問題、ノイズ問題、データ不均衡問題などの問題が生じている状況においても、より高い推定性能を実現できていることが分かる。

＜Ｊ．アプリケーションでの実装例＞
次に、本実施の形態に係る学習方法をアプリケーションに実装する場合の構成例について説明する。

図１６は、本実施の形態に係る学習方法のアプリケーションでの実装例を示す模式図である。図１６には、上述の画像処理装置１００（図４）に実装する例を示す。

図１６（Ａ）には、画像処理装置１００がソースデータセット３０およびターゲットデータセット５０を収集するデータ収集処理１５０と、推定モデル６０を生成するための機械学習４０と、推定モデル６０を用いた推定処理とを実行する構成例を示す。

図１６（Ｂ）には、画像処理装置１００とサーバなどの外部装置２５０とが連係する構成例を示す。この構成例においては、画像処理装置１００がソースデータセット３０およびターゲットデータセット５０を収集するデータ収集処理１５０と、推定モデル６０を用いた推定処理とを実行し、外部装置２５０が推定モデル６０を生成する機械学習４０を実行する。

図１６（Ｃ）にも、画像処理装置１００とサーバなどの外部装置２５０とが連係する構成例を示す。この構成例においては、外部装置２５０がソースデータセット３０およびターゲットデータセット５０を収集するデータ収集処理１５０と、推定モデル６０を生成するための機械学習４０とを実行し、画像処理装置１００が推定モデル６０を用いた推定処理を実行する。

なお、図１６には典型的ないくつかの実装例を示すものであり、本発明の技術的範囲は、これらの実装例に限定されるものではない。要求される要件、仕様および目的などに応じて、任意の実装形態を採用できる。

＜Ｋ．アプリケーション例＞
上述の説明においては、アプリケーション例として、任意の方法で収集された画像に対してアノテーションにより生成した画像とカメラで実際に撮像された画像（実写画像）との間のバイアス差を吸収する例について説明したが、本実施の形態に係る推定モデルは、この実装例に限らず任意のアプリケーションに適用可能である。すなわち、「環境」あるいは「ドメイン」は、可能な限り広く解釈できる。

任意のセンシングデバイスで観測される任意の情報は、観測条件や観測環境が異なっていても、本実施の形態に係る手法により適用が可能である。例えば、ＦＡ（Factory Automation）の技術分野においては、本実施の形態に係る学習方法を適用することで、適用先の工場や設備などの環境差を埋め合わせることができる。

さらに、センシングデバイスで観測される物理的な情報だけではなく、例えば、ＥＣ（electronic commerce）サイトでの販売実績といった人為的な情報にも適用可能である。例えば、あるＥＣサイトでの販売実績に基づいて、他のＥＣサイトでの販売実績を推定するといったアプリケーションが想定される。

さらに、生活習慣病であるか否かを判定する装置などにおいては、年齢差、性別差、地域差などによる生活習慣の差を埋め合わせるようにしてもよい。また、個人差によって生じる各種のバイアスを埋め合わせるようにしてもよい。

このように、本実施の形態に係る学習方法およびその学習方法により生成される推定モデルの応用先は、現実の世界に存在する様々な観測可能な情報に適用できる。

＜Ｌ．付記＞
上述したような本実施の形態は、以下のような技術思想を含む。
［構成１］
推定システム（１）であって、
クラスが付与された複数のデータからなる第１のデータセット（３０）、および、クラスが付与されていない複数のデータからなる第２のデータセット（５０）を用いて、機械学習（４０）により推定モデル（６０）を生成する学習部（４０；１１４）と、
前記第２のデータセットに属し得る推定対象データ（６２）を前記推定モデルに入力して、推定結果（６４）を決定する推定部（１１８）とを備え、
前記推定モデルは、
入力されたデータから特徴量を算出するエンコーダ（７０）と、
前記特徴量に基づいて、前記入力されたデータが第１のクラスである第１の確率を出力する第１の識別器（７２）と、
前記特徴量に基づいて、前記入力されたデータが第２のクラスである第２の確率を出力する第２の識別器（７４）とを含み、
前記学習部は、
前記第１のデータセットおよび前記第２のデータセットのいずれかに含まれるデータを前記推定モデルに入力したときに出力される第１の確率および第２の確率に基づいて、識別の不一致を算出する算出手段（１１４３）と、
算出された識別の不一致の大きさに応じて、当該入力されたデータについての学習の優先度を決定する決定手段（１１４５）とを含む、推定システム。
［構成２］
前記学習部は、前記エンコーダのモデルパラメータを固定した状態で、識別の不一致を最大化することを目的として、前記第１の識別器および前記第２の識別器のモデルパラメータを更新する第１のパラメータ更新手段（Ｓ４～Ｓ８）をさらに含み、
前記決定手段は、前記第１のパラメータ更新手段に関して、算出される識別の不一致がより小さいデータに対して、より高い学習の優先度を決定する、構成１に記載の推定システム。
［構成３］
前記学習部は、前記第１の識別器および前記第２の識別器のモデルパラメータを固定した状態で、識別の不一致を最大化することを目的として、前記エンコーダのモデルパラメータを更新する第２のパラメータ更新手段（Ｓ１０～Ｓ１４）をさらに含み、
前記決定手段は、前記第２のパラメータ更新手段に関して、算出される識別の不一致がより大きいデータに対して、より高い学習の優先度を決定する、構成１または２に記載の推定システム。
［構成４］
前記決定手段は、学習の優先度として、識別の不一致の大きさに応じて、前記推定モデルを逆伝搬させる誤差に乗じる重み係数を決定する、構成１～３のいずれか１項に記載の推定システム。
［構成５］
前記決定手段は、算出される識別の不一致の大きさが予め定められた条件を満たすデータのみを、モデルパラメータの更新に用いるデータとして決定する、構成１～４のいずれか１項に記載の推定システム。
［構成６］
前記決定手段は、複数のデータについてそれぞれ算出される識別の不一致をランキングした上で、予め定められた範囲にあるデータのみを、モデルパラメータの更新に用いるデータとして選択する、構成１～５のいずれか１項に記載の推定システム。
［構成７］
前記学習部は、前記第１のデータセットに含まれるデータに基づいて、前記エンコーダのモデルパラメータ、前記第１の識別器のモデルパラメータ、および前記第２の識別器のモデルパラメータを更新する第３のパラメータ更新手段（Ｓ４）をさらに含み、
前記第３のパラメータ更新手段は、前記推定モデルにデータを入力して前記第１の識別器および前記第２の識別器のうち一方から出力される誤差に基づいて、前記第１の識別器および前記第２の識別器のうち他方のモデルパラメータを更新する、構成１～６のいずれか１項に記載の推定システム。
［構成８］
前記推定部は、推定対象データを推定モデルに入力したときに出力される第１の確率および第２の確率が互いに整合するか否かに応じて、推定結果を出力する推定結果出力部（８４）を含む、構成１～７のいずれか１項に記載の推定システム。
［構成９］
クラスが付与された複数のデータからなる第１のデータセット（３０）、および、クラスが付与されていない複数のデータからなる第２のデータセット（５０）を用いた機械学習（４０）により生成された推定モデルを保持する記憶部（１１０）と、
前記第２のデータセットに属し得る推定対象データ（６２）を前記推定モデルに入力して、推定結果（６４）を決定する推定部（１１８）とを備え、
前記推定モデルは、
入力されたデータから特徴量を算出するエンコーダ（７０）と、
前記特徴量に基づいて、前記入力されたデータが第１のクラスである第１の確率を出力する第１の識別器（７２）と、
前記特徴量に基づいて、前記入力されたデータが第２のクラスである第２の確率を出力する第２の識別器（７４）とを含み、
前記推定モデルは、前記第１のデータセットおよび前記第２のデータセットのいずれかに含まれるデータを前記推定モデルに入力したときに出力される第１の確率および第２の確率に基づいて算出される識別の不一致の大きさに応じて、当該入力されたデータについて決定された学習の優先度に基づいて学習されている、推定システム。
［構成１０］
クラスが付与された複数のデータからなる第１のデータセット（３０）、および、クラスが付与されていない複数のデータからなる第２のデータセット（５０）を用いて、機械学習（４０）により推定モデルを生成する学習ステップと、
前記第２のデータセットに属し得る推定対象データ（６２）を前記推定モデルに入力して、推定結果（６４）を決定する推定ステップ（１１８）とを備え、
前記推定モデルは、
入力されたデータから特徴量を算出するエンコーダ（７０）と、
前記特徴量に基づいて、前記入力されたデータが第１のクラスである第１の確率を出力する第１の識別器（７２）と、
前記特徴量に基づいて、前記入力されたデータが第２のクラスである第２の確率を出力する第２の識別器（７４）とを含み、
前記学習ステップは、
前記第１のデータセットおよび前記第２のデータセットのいずれかに含まれるデータを前記推定モデルに入力したときに出力される第１の確率および第２の確率に基づいて、識別の不一致を算出するステップ（Ｓ６，Ｓ１２）と、
算出された識別の不一致の大きさに応じて、当該入力されたデータについての学習の優先度を決定するステップ（Ｓ７，Ｓ１３）とを含む、推定方法。

＜Ｍ．効果＞
本実施の形態に係る学習方法によれば、識別の不一致（Classifier Discrepancy）の大きさに応じて、入力されたデータについての学習の優先度を決定し、その決定された優先度に応じて、モデルパラメータを更新する。

本実施の形態に係る学習方法によれば、それぞれのクラス用の識別器が設けられており、それぞれの識別器から確率を評価することで、ソースドメインに含まれていたデータに付与されているクラス以外のクラス（未知クラス）に分類されるデータがターゲットドメインに含まれる場合（OpenSet問題）であっても、クラスについての推定を誤る可能性を低減できる。

本実施の形態に係る学習方法によれば、順学習および敵対的学習におけるモデルパラメータの更新において、識別の不一致がより小さいデータ、あるいは、識別の不一致がより大きいデータを優先的に用いるので、ノイズが含まれるデータ（ノイズ問題）を相対的に除外でき、これによって、様々な理由で生じる誤りや劣化による推定精度の低下を防止できる。

本実施の形態に係る学習方法によれば、順学習および敵対的学習におけるモデルパラメータの更新において、識別の不一致がより小さいデータ、あるいは、識別の不一致がより大きいデータを優先的に用いるので、データが不均衡であっても、学習処理への影響が少ない。すなわち、データの不均衡による推定精度の低下を防止できる。

このように、本実施の形態に係る学習方法およびその学習方法により生成された推定モデルを用いることで、教師なしドメイン適応を実用環境で（in the wild）より確実に実現できる。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した説明ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１画像処理システム、２ロボット、４軸、８ワーク、１０学習用ネットワーク、１２サーボドライバ、１４モータ、２０カメラ、３０ソースデータセット、３２，３４，５２，５４データ、４０機械学習、４２第１のクラス識別面、４４第２のクラス識別面、５０ターゲットデータセット、５３，５５不一致領域、５６，５７，５８領域、６０推定モデル、６２推定対象データ、６４推定結果、７０エンコーダ、７２，７４識別器、８４推定結果出力部、８６信頼度算出部、１００画像処理装置、１０２プロセッサ、１０４メインメモリ、１１０ストレージ、１１４機械学習プログラム、１１６モデルパラメータ、１１８認識アプリケーション、１２２通信インターフェイス、１２４入力部、１２６出力部、１２８カメラインターフェイス、１３０モータインターフェイス、１５０データ収集処理、２００情報処理装置、２５０外部装置、３０１第１のソースデータ群、３０２第２のソースデータ群、５０１第１のターゲットデータ群、５０２第２のターゲットデータ群、１１４１入力データ選択部、１１４２，１１４３演算部、１１４４誤差バッファ、１１４５カリキュラム決定部、１１４６パラメータ更新部。

Claims

推定システムであって、
クラスが付与された複数のデータからなる第１のデータセット、および、クラスが付与されていない複数のデータからなる第２のデータセットを用いて、機械学習により推定モデルを生成する学習部と、
前記第２のデータセットに属し得る推定対象データを前記推定モデルに入力して、推定結果を決定する推定部とを備え、
前記推定モデルは、
入力されたデータから特徴量を算出するエンコーダと、
前記特徴量に基づいて、前記入力されたデータが第１のクラスである第１の確率を出力する第１の識別器と、
前記特徴量に基づいて、前記入力されたデータが第２のクラスである第２の確率を出力する第２の識別器とを含み、
前記学習部は、
前記第１のデータセットおよび前記第２のデータセットのいずれかに含まれるデータを前記推定モデルに入力したときに出力される第１の確率および第２の確率に基づいて、識別の不一致を算出する算出手段と、
算出された識別の不一致の大きさに応じて、当該入力されたデータについての学習の優先度を決定する決定手段とを含む、推定システム。
前記学習部は、前記エンコーダのモデルパラメータを固定した状態で、識別の不一致を最大化することを目的として、前記第１の識別器および前記第２の識別器のモデルパラメータを更新する第１のパラメータ更新手段をさらに含み、
前記決定手段は、前記第１のパラメータ更新手段に関して、算出される識別の不一致がより小さいデータに対して、より高い学習の優先度を決定する、請求項１に記載の推定システム。
前記学習部は、前記第１の識別器および前記第２の識別器のモデルパラメータを固定した状態で、識別の不一致を最大化することを目的として、前記エンコーダのモデルパラメータを更新する第２のパラメータ更新手段をさらに含み、
前記決定手段は、前記第２のパラメータ更新手段に関して、算出される識別の不一致がより大きいデータに対して、より高い学習の優先度を決定する、請求項１または２に記載の推定システム。
前記決定手段は、学習の優先度として、識別の不一致の大きさに応じて、前記推定モデルを逆伝搬させる誤差に乗じる重み係数を決定する、請求項１～３のいずれか１項に記載の推定システム。
前記決定手段は、算出される識別の不一致の大きさが予め定められた条件を満たすデータのみを、モデルパラメータの更新に用いるデータとして決定する、請求項１～４のいずれか１項に記載の推定システム。
前記決定手段は、複数のデータについてそれぞれ算出される識別の不一致をランキングした上で、予め定められた範囲にあるデータのみを、モデルパラメータの更新に用いるデータとして選択する、請求項１～５のいずれか１項に記載の推定システム。
前記学習部は、前記第１のデータセットに含まれるデータに基づいて、前記エンコーダのモデルパラメータ、前記第１の識別器のモデルパラメータ、および前記第２の識別器のモデルパラメータを更新する第３のパラメータ更新手段をさらに含み、
前記第３のパラメータ更新手段は、前記推定モデルにデータを入力して前記第１の識別器および前記第２の識別器のうち一方から出力される誤差に基づいて、前記第１の識別器および前記第２の識別器のうち他方のモデルパラメータを更新する、請求項１～６のいずれか１項に記載の推定システム。
前記推定部は、推定対象データを推定モデルに入力したときに出力される第１の確率および第２の確率が互いに整合するか否かに応じて、推定結果を出力する推定結果出力部を含む、請求項１～７のいずれか１項に記載の推定システム。
クラスが付与された複数のデータからなる第１のデータセット、および、クラスが付与されていない複数のデータからなる第２のデータセットを用いた機械学習により生成された推定モデルを保持する記憶部と、
前記第２のデータセットに属し得る推定対象データを前記推定モデルに入力して、推定結果を決定する推定部とを備え、
前記推定モデルは、
入力されたデータから特徴量を算出するエンコーダと、
前記特徴量に基づいて、前記入力されたデータが第１のクラスである第１の確率を出力する第１の識別器と、
前記特徴量に基づいて、前記入力されたデータが第２のクラスである第２の確率を出力する第２の識別器とを含み、
前記推定モデルは、前記第１のデータセットおよび前記第２のデータセットのいずれかに含まれるデータを前記推定モデルに入力したときに出力される第１の確率および第２の確率に基づいて算出される識別の不一致の大きさに応じて、当該入力されたデータについて決定された学習の優先度に基づいて学習されている、推定装置。
コンピュータが実行する推定方法であって、前記推定方法は、
クラスが付与された複数のデータからなる第１のデータセット、および、クラスが付与されていない複数のデータからなる第２のデータセットを用いて、機械学習により推定モデルを生成する学習ステップと、
前記第２のデータセットに属し得る推定対象データを前記推定モデルに入力して、推定結果を決定する推定ステップとを備え、
前記推定モデルは、
入力されたデータから特徴量を算出するエンコーダと、
前記特徴量に基づいて、前記入力されたデータが第１のクラスである第１の確率を出力する第１の識別器と、
前記特徴量に基づいて、前記入力されたデータが第２のクラスである第２の確率を出力する第２の識別器とを含み、
前記学習ステップは、
前記第１のデータセットおよび前記第２のデータセットのいずれかに含まれるデータを前記推定モデルに入力したときに出力される第１の確率および第２の確率に基づいて、識別の不一致を算出するステップと、
算出された識別の不一致の大きさに応じて、当該入力されたデータについての学習の優先度を決定するステップとを含む、推定方法。