JP2022046210A

JP2022046210A - 学習装置、処理装置、学習方法、姿勢検出モデル、プログラム、及び記憶媒体

Info

Publication number: JP2022046210A
Application number: JP2020152140A
Authority: JP
Inventors: 保男浪岡; Yasuo Namioka; 崇哲吉井; Takanori Yoshii; 篤和田; Atsushi Wada
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2022-03-23
Anticipated expiration: 2040-09-10
Also published as: JP7480001B2

Abstract

【課題】姿勢の検出精度を向上可能な、学習装置、処理装置、学習方法、姿勢検出モデル、プログラム、及び記憶媒体を提供する。
【解決手段】実施形態に係る学習装置は、第１モデル及び第２モデルを学習させる。前記第１モデルは、実際の人物を写した実写画像又は仮想の人体モデルを用いて描画された描画画像が入力されると、前記実写画像又は前記描画画像に含まれる人体の姿勢を示す姿勢データを出力する。前記第２モデルは、前記姿勢データが入力されると、前記姿勢データが前記実写画像と前記描画画像のいずれに基づくか判定する。前記学習装置は、前記第２モデルによる判定の精度が低下するように前記第１モデルを学習させる。前記学習装置は、前記第２モデルによる判定の精度が向上するように前記第２モデルを学習させる。
【選択図】図１

Description

本発明の実施形態は、学習装置、処理装置、学習方法、姿勢検出モデル、プログラム、及び記憶媒体に関する。

画像から人体の姿勢を検出する技術がある。この技術について、姿勢の検出精度の向上が求められている。

特開２０１７－０９１２４９号公報

本発明が解決しようとする課題は、姿勢の検出精度を向上可能な、学習装置、処理装置、学習方法、姿勢検出モデル、プログラム、及び記憶媒体を提供することである。

実施形態に係る学習装置は、第１モデル及び第２モデルを学習させる。前記第１モデルは、実際の人物を写した実写画像又は仮想の人体モデルを用いて描画された描画画像が入力されると、前記実写画像又は前記描画画像に含まれる人体の姿勢を示す姿勢データを出力する。前記第２モデルは、前記姿勢データが入力されると、前記姿勢データが前記実写画像と前記描画画像のいずれに基づくか判定する。前記学習装置は、前記第２モデルによる判定の精度が低下するように前記第１モデルを学習させる。前記学習装置は、前記第２モデルによる判定の精度が向上するように前記第２モデルを学習させる。

第１実施形態に係る学習システムの構成を表す模式図である。第１実施形態に係る学習方法を表すフローチャートである。描画画像の一例である。アノテーションを例示する画像である。第１モデルの構成を例示する概略図である。第２モデルの構成を例示する概略図である。第１モデル及び第２モデルの学習方法を表す模式図である。第１実施形態の第１変形例に係る学習システムの構成を示す模式的ブロック図である。第２実施形態に係る分析システムの構成を表す模式的ブロック図である。第２実施形態に係る分析システムによる処理を説明するための図である。第２実施形態に係る分析システムによる処理を説明するための図である。第２実施形態に係る分析システムによる処理を説明するための図である。第２実施形態に係る分析システムによる処理を説明するための図である。第２実施形態に係る分析システムによる処理を表すフローチャートである。システムのハードウェア構成を表すブロック図である。

以下に、本発明の各実施形態について図面を参照しつつ説明する。
本願明細書と各図において、既に説明したものと同様の要素には同一の符号を付して詳細な説明は適宜省略する。

（第１実施形態）
図１は、第１実施形態に係る学習システムの構成を表す模式図である。
第１実施形態に係る学習システム１０は、画像中の人物の姿勢を検出するモデルの学習に用いられる。学習システム１０は、学習装置１、入力装置２、表示装置３、及び記憶装置４を含む。

学習装置１は、モデルの学習に使用される学習データを生成する。また、学習装置１は、モデルを学習させる。学習装置１は、汎用又は専用のコンピュータである。複数のコンピュータにより、学習装置１の機能が実現されても良い。

入力装置２は、ユーザが学習装置１に情報を入力する際に用いられる。入力装置２は、例えば、マウス、キーボード、マイク（音声入力）、及びタッチパッドから選択される少なくともいずれかを含む。

表示装置３は、学習装置１から送信された情報をユーザに向けて表示する。表示装置３は、例えば、モニタ及びプロジェクタから選択される少なくともいずれかを含む。タッチパネルのように、入力装置２と表示装置３の両方の機能を備えた機器が用いられても良い。

記憶装置４は、学習システム１０に関するデータ及びモデルを記憶する。記憶装置４は、例えば、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、及びネットワーク接続ハードディスク（ＮＡＳ）から選択される少なくともいずれかを含む。

学習装置１、入力装置２、表示装置３、及び記憶装置４は、無線通信、有線通信、ネットワーク（ローカルエリアネットワーク又はインターネット）などにより、相互に接続される。

学習システム１０について、より具体的に説明する。
学習装置１は、第１モデル及び第２モデルの２つのモデルを学習させる。第１モデルは、実写画像又は描画画像が入力されると、実写画像又は描画画像に含まれる人体の姿勢を検出する。実写画像は、実際の人物を写した得られる画像である。描画画像は、仮想の人体モデルを用いて、コンピュータプログラムにより描画された画像である。描画画像は、学習装置１により生成される。

第１モデルは、検出結果として、姿勢データを出力する。姿勢データは、人物の姿勢を示す。姿勢は、人体の複数の部位の位置により表される。姿勢は、部位同士の関連性により表されても良い。姿勢は、人体の複数の部位の位置と部位同士の関連性の両方により表されても良い。以下では、複数の部位及び部位同士の関連性によって表される情報を、骨格ともいう。又は、姿勢は、人体の複数の関節の位置により表されても良い。部位は、目、耳、鼻、頭、肩、上腕、前腕、手、胸、腹、太腿、下腿、足などの、身体の一部分を指す。関節は、首、肘、手首、腰、膝、足首などの、部位の少なくとも一部同士を繋げる可動性の接合部を指す。

第２モデルは、第１モデルから出力された姿勢データが入力される。第２モデルは、その姿勢データが実写画像と描画画像のいずれから得られたか判定する。

図２は、第１実施形態に係る学習方法を表すフローチャートである。
図２に表したように、第１実施形態に係る学習方法は、学習データの準備（ステップＳ１）と、第１モデルの準備（ステップＳ２）と、第２モデルの準備（ステップＳ３）と、第１モデル及び第２モデルの学習（ステップＳ４）と、を含む。

＜学習データの準備＞
実写画像の準備では、実空間に存在する人物をカメラ等で撮影し、画像を取得する。画像には、人物の全体が写っていても良いし、人物の一部のみが写っていても良い。また、画像には、複数の人物が写っていても良い。画像は、少なくとも人物の輪郭が大まかに認識できる程度に、鮮明であることが好ましい。準備した実写画像は、記憶装置４に保存される。

学習データの準備では、描画画像の準備及びアノテーションが行われる。描画画像の準備では、モデリング、骨格作成、テクスチャマッピング、及びレンダリングが実行される。例えば、ユーザは、学習装置１を用いてこれらの処理を実行する。

モデリングでは、人体を模した３次元の人体モデルが作成される。人体モデルは、オープンソースの３ＤＣＧソフトウェアであるＭａｋｅＨｕｍａｎを用いて作成できる。ＭａｋｅＨｕｍａｎでは、年齢や、性別、筋肉量、体重などを指定することにより、人体の３Ｄモデルを容易に作成できる。

人体モデルに加えて、人体の周りの環境を模した環境モデルがさらに作成されても良い。環境モデルは、例えば、物品（設備、備品、製作物等）や、床、壁などを模して生成される。環境モデルは、実際の物品や、床、壁などを撮影し、その動画を用いてＢｌｅｎｄｅｒにより作成できる。Ｂｌｅｎｄｅｒは、オープンソースの３ＤＣＧソフトウェアであり、３Ｄモデルの作成、レンダリング、アニメーションなどの機能を備える。Ｂｌｅｎｄｅｒにより、作成した環境モデル上に、人体モデルを配置する。

骨格作成では、モデリングで作成された人体モデルに、骨格が追加される。ＭａｋｅＨｕｍａｎには、Ａｒｍａｔｕｒｅと呼ばれる人型の骨格が用意されている。これを用いることで、人体モデルに対して容易に骨格データを追加できる。人体モデルに骨格データを追加し、骨格を動作させることにより、人体モデルを動作させることができる。

人体モデルの動作には、実際の人体の動作（モーション）を示すモーションデータが用いられても良い。モーションデータは、モーションキャプチャデバイスにより取得される。モーションキャプチャデバイスには、Ｎｏｉｔｏｍ社のＰＥＲＣＥＰＴＩＯＮＮＥＵＲＯＮ２を用いることができる。モーションデータを用いることで、人体モデルに、実際の人体のモーションを再現させることができる。

テクスチャマッピングでは、人体モデル及び環境モデルに質感を与える。例えば、人体モデルに対しては、衣類を付与する。人体モデルに付与する衣類の画像を用意し、人体モデルのサイズに合うように画像を調整する。調整した画像を人体モデルに貼り付ける。環境モデルに対しては、実際の物品、床、壁などの画像が貼り付けられる。

レンダリングでは、質感を付与した人体モデル及び環境モデルを用いて描画画像を生成する。生成された描画画像は、記憶装置４に保存される。例えば、環境モデル上で人体モデルを動作させる。例えば、人体モデルを動作させながら、複数の視点から見た人体モデル及び環境モデルを所定間隔でレンダリングする。これにより、複数の描画画像が生成される。

図３（ａ）及び図３（ｂ）は、描画画像の一例である。
図３（ａ）に表した描画画像では、背を向けた人体モデル９１が写っている。図３（ｂ）に表した描画画像では、人体モデル９１が上方から写されている。また、環境モデルとして、棚９２ａ、壁９２ｂ、及び床９２ｃが写っている。人体モデル及び環境モデルには、テクスチャマッピングにより、質感が付与されている。テクスチャマッピングにより人体モデル９１には、実際の作業で使用される制服が付与されている。棚９２ａの上面には、作業に使用される部品、道具、治具などが付与されている。壁９２ｂには、細かな形状、色の変化、微小な汚れなどが付与されている。

図３（ａ）に表した描画画像では、人体モデル９１の足は、画像の端で見切れている。図３（ｂ）に表した描画画像では、人体モデル９１の胸、腹、下半身などは写っていない。図３（ａ）及び図３（ｂ）に表したように、複数の方向から人体モデル９１の少なくとも一部を見たときの描画画像が準備される。

アノテーションでは、実写画像及び描画画像に対して、姿勢に関するデータを付与する。アノテーションの形式は、例えば、ＣＯＣＯＫｅｙｐｏｉｎｔＤｅｔｅｃｔｉｏｎＴａｓｋに準ずる。アノテーションでは、画像に含まれる人体に対して、姿勢を示すデータが付与される。例えば、アノテーションにより、人体の複数の部位、各部位の座標、部位同士の接続関係などが示される。また、部位ごとに、「画像内に存在する」、「画像外に存在する」、又は「画像内に存在するが何かに隠れている」のいずれかの情報が付与される。描画画像に対するアノテーションには、人体モデルの作成の際に追加したＡｒｍａｔｕｒｅを用いることができる。

図４（ａ）及び図４（ｂ）は、アノテーションを例示する画像である。
図４（ａ）は、人体モデル９１を含む描画画像を表す。図４（ａ）の例では、環境モデルが含まれていない。アノテーションされる画像は、図３（ａ）及び図３（ｂ）に表したように、環境モデルを含んでも良い。図４（ａ）の描画画像に含まれる人体モデル９１に対して、図４（ｂ）に表したように、身体の各部位をアノテーションする。図４（ｂ）の例では、人体モデル９１の頭９１ａ、左肩９１ｂ、左上腕９１ｃ、左前腕９１ｄ、左手９１ｅ、右肩９１ｆ、右上腕９１ｇ、右前腕９１ｈ、及び右手９１ｉが示されている。

以上の処理により、実写画像、実写画像に対するアノテーション、描画画像、及び描画画像に対するアノテーションを含む学習データが準備される。

＜第１モデルの準備＞
準備した学習データを用いて初期状態のモデルを学習し、第１モデルを準備する。実写画像を用いた学習済みのモデルを用意し、描画画像を用いて当該モデルを学習させることで、第１モデルを準備しても良い。この場合、ステップＳ１において、実写画像の準備及び実写画像に対するアノテーションを省略できる。例えば、実写画像を用いた学習済みのモデルとして、姿勢検出モデルであるＯｐｅｎＰｏｓｅを利用できる。

図５は、第１モデルの構成を例示する概略図である。
第１モデルは、複数のニューラルネットワークを含む。具体的には、図５に表したように、第１モデル１００は、ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（ＣＮＮ）１０１、第１ブロック（ブランチ１）１１０、及び第２ブロック（ブランチ２）１２０を含む。

まず、第１モデル１００に入力された画像ＩＭは、ＣＮＮ１０１に入力される。画像ＩＭは、実写画像又は描画画像である。ＣＮＮ１０１は、特徴マップＦを出力する。特徴マップＦは、第１ブロック１１０及び第２ブロック１２０のそれぞれに入力される。

第１ブロック１１０は、人体の部位の存在確率をピクセルごとに表したＰａｒｔＣｏｎｆｉｄｅｎｃｅＭａｐ（ＰＣＭ）を出力する。第２ブロック１２０は、部位間の関連性を表すベクトルであるＰａｒｔＡｆｆｉｎｉｔｙＦｉｅｌｄｓ（ＰＡＦ）を出力する。第１ブロック１１０及び第２ブロック１２０は、例えばＣＮＮを含む。第１ブロック１１０と第２ブロック１２０を含むステージが、ステージ１からステージｔ（ｔ≧２）まで複数設けられている。

ＣＮＮ１０１、第１ブロック１１０、及び第２ブロック１２０の具体的な構成については、それぞれ特徴マップＦ、ＰＣＭ、及びＰＡＦを出力できれば任意である。ＣＮＮ１０１、第１ブロック１１０、及び第２ブロック１２０の構成については、公知のものを適用可能である。

第１ブロック１１０は、ＰＣＭであるＳを出力する。第１ステージの第１ブロック１１０による出力を、Ｓ^１とする。ρ^１を、ステージ１の第１ブロック１１０から出力された推論とする。Ｓ^１は、以下の数式１で表される。

第２ブロック１２０は、ＰＡＦであるＬを出力する。第１ステージの第２ブロック１２０による出力を、Ｌ^１とする。φ^１を、ステージ１の第２ブロック１２０から出力された推論とする。Ｌ^１は、以下の数式２で表される。

ステージ２以降では、直前のステージの出力と特徴マップＦを用いて検出が行われる。ステージ２以降のＰＣＭ及びＰＡＦは、以下の数式３及び４で表される。

第１モデル１００は、ＰＣＭ及びＰＡＦのそれぞれについて、正解値と検出値の平均二乗誤差が最小となるように学習される。部位ｊにおけるＰＣＭの検出値をＳ_ｊとし、正解値をＳ^＊ _ｊとすると、ステージｔでの損失関数は、以下の数式５で表される。

Ｐは、画像内のピクセルｐの集合である。Ｗ（ｐ）は、バイナリマスクを表す。ピクセルｐにおいてアノテーションが欠落している場合は、Ｗ（Ｐ）＝０である。それ以外の場合は、Ｗ（ｐ）＝１である。このマスクを使用することで、アノテーションの欠落に起因して正しい検出がなされた場合に、損失関数が増加することを防止できる。

ＰＡＦについて、部位間の接続ｃにおけるＰＡＦの検出値をＬ_ｃとし、正解値をＬ^＊ _Ｃとすると、ステージｔでの損失関数は、以下の数式６で表される。

数式５及び６から、全体の損失関数は、以下の数式７で表される。数式７において、Ｔは、ステージの総数を表す。例えば、Ｔ＝６に設定される。

損失関数の計算を行うために、ＰＣＭとＰＡＦの正解値が定義される。ＰＣＭの正解値の定義について説明する。ＰＣＭは、人体の部位が二次元平面状に存在する確率を表す。特定の部位が画像に写っている場合に、ＰＣＭは極値をとる。ＰＣＭは、それぞれの部位について１枚生成される。画像内に複数の人体が写っている場合、それぞれの人体の部位が同一マップ内に記述される。

まず、画像内のそれぞれの人体のＰＣＭの正解値を作成する。ｘ_ｊ、ｋ∈Ｒ^２を画像内に含まれるｋ番目の人の部位ｊの座標とする。画像内のピクセルｐにおけるｋ番目の人体の部位ｊのＰＣＭの正解値は、以下の数式８で表される。σは、極値の分散を調整するために定義される定数である。

ＰＣＭの正解値は、数式８で得られた各人体のＰＣＭの正解値を最大値関数で集約したものと定義される。よって、ＰＣＭの正解値は、以下の数式９で定義される。数式９において平均ではなく最大を用いるのは、極値同士が近くのピクセルに存在する場合に、極値を明確に保つためである。

ＰＡＦの正解値の定義について説明する。ＰＡＦは、部位と部位の関連度を表す。特定の部位と部位の間にあるピクセルは、単位ベクトルｖを有する。その他のピクセルは、ゼロベクトルを持つ。ＰＡＦは、これらのベクトルの集合であると定義される。ｋ番目の人の部位ｊ_１から部位ｊ_２への部位間の接続をｃとすると、画像内のピクセルｐにおけるｋ番目の人の接続ｃのＰＡＦの正解値は、以下の数式１０で表される。

単位ベクトルｖは、ｘ_ｊ１、ｋからｘ_ｊ２、ｋへ向かうベクトルであり、以下の数式１１で定義される。

ｐがｋ番目の人の接続ｃにあることは、閾値σ１を用いて以下の数式１２で定義される。垂直記号が付されたｖは、ｖに垂直な単位ベクトルである。

ＰＡＦの正解値は、数式１０で得られた各人のＰＡＦの正解値の平均をとった値と定義される。よって、ＰＡＦの正解値は、以下の数式１３で表される。ｎ_ｃ（ｐ）は、はピクセルｐにおける非ゼロベクトルの数である。

実写画像を用いて学習済みのモデルに対して、描画画像を用いて学習させる。学習には、ステップＳ１で準備された描画画像及びアノテーションが用いられる。例えば、再急降下法が用いられる。再急降下法は、関数の傾きから関数の最小値を探索する最適化アルゴリズムの１つである。描画画像を用いた学習により、第１モデルが準備される。

＜第２モデルの準備＞
図６は、第２モデルの構成を例示する概略図である。
第２モデル２００は、図６に表したように、畳み込み層２１０、最大値プーリング２２０、ドロップアウト層２３０、平坦化層２４０、及び全結合層２５０を含む。畳み込み層２１０に記載された数字は、チャネル数を表す。全結合層２５０に記載された数字は、出力の次元を表す。第１モデルの出力であるＰＣＭとＰＡＦを第２モデル２００に入力する。第２モデル２００は、第１モデル１００から、姿勢を示すデータが入力されると、そのデータが実写画像と描画画像のどちらに基づくかの判定結果を出力する。

例えば、第１モデル１００から出力されるＰＣＭは、１９のチャネルを有する。第１モデル１００から出力されるＰＡＦは、３８のチャネルを有する。ＰＣＭとＰＡＦを第２モデル２００へ入力する際、入力データが０から１の範囲の値となるように、正規化が行われる。正規化では、ＰＣＭとＰＡＦの各ピクセルの値が、とりうる最大値で除算される。ＰＣＭの最大値とＰＡＦの最大値は、学習に用いるデータセットとは別に実写画像と描画画像をそれぞれ複数枚用意し、第１モデル１００から出力されるＰＣＭとＰＡＦから取得される。

正規化されたＰＣＭとＰＡＦは、第２モデル２００へ入力される。第２モデル２００は、畳み込み層２１０を含む多層ニューラルネットワークを備える。ＰＣＭとＰＡＦは、それぞれ、２つの畳み込み層２１０へ入力される。畳み込み層２１０の出力情報は、活性化関数に通される。活性化関数として、ランプ関数（正規化線形関数）が用いられる。ランプ関数の出力は、平坦化層２４０に入力され、全結合層２５０に入力できるように処理される。

過学習を抑制するために、平坦化層２４０の前には、ドロップアウト層２３０が設けられている。平坦化層２４０の出力情報は、全結合層２５０に入力され、それぞれ２５６次元の情報として出力される。出力情報は、活性化関数としてのランプ関数に通され、５１２次元の情報として結合される。結合された情報を、もう１度、ランプ関数を活性化関数とした全結合層２５０に入力する。出力された６４次元の情報は、全結合層２５０へ入力される。最後に、全結合層２５０の出力情報は、活性化関数であるシグモイド関数に通され、第１モデル１００への入力が実写画像である確率を出力する。学習装置１は、出力された確率が０．５以上の場合、第１モデル１００への入力が実写画像であると判定する。学習装置１は、出力された確率が０．５未満の場合、第１モデル１００への入力が描画画像であると判定する。

いずれかのモデルの学習では、バイナリクロスエントロピーを損失関数として用いる。ある画像ｎにおける第１モデル１００への入力が実写画像である確率をＰ_{ｒｅａｌｎ}としたとき、第２モデル２００の損失関数Ｆｄは、以下の数式１４で定義される。Ｎは、データセット内の全ての画像を表す。ｔ_ｎは、入力画像ｎに付与される正解ラベルである。ｎが実写画像であれば、ｔ_ｎ＝１である。ｎが描画画像であれば、ｔ_ｎ＝０である。

数式１４で定義される損失関数が、最小となるように学習を行う。最適化手法には、例えばＡｄａｍが用いられる。再急降下法では、全てのパラメータに同じ学習率が用いられる。これに対し、Ａｄａｍでは、勾配の二乗平均及び平均を考慮することで、パラメータごとに適切な重みの更新を行える。学習の結果、第２モデル２００が準備される。

＜第１モデル及び第２モデルの学習＞
準備した第２モデル２００を用いて、第１モデル１００を学習させる。また、準備した第１モデル１００を用いて、第２モデル２００を学習させる。第１モデル１００の学習と第２モデル２００の学習は、交互に実行される。

図７は、第１モデル及び第２モデルの学習方法を表す模式図である。
第１モデル１００には、画像ＩＭが入力される。画像ＩＭは、実写画像又は描画画像である。第１モデル１００は、ＰＣＭ及びＰＡＦを出力する。ＰＣＭ及びＰＡＦのそれぞれは、第２モデル２００に入力される。第２モデル２００へ入力される際、ＰＡＭ及びＰＡＦは、上述した通り正規化される。

第１モデル１００の学習について説明する。第１モデル１００は、第２モデル２００による判定の精度が低下するように学習される。すなわち、第１モデル１００は、第２モデル２００を欺くように学習される。例えば、第１モデル１００は、描画画像が入力されたときに、第２モデル２００が実写画像と判定する姿勢データを出力するように、学習される。

第１モデル１００の学習では、第２モデル２００の学習が行われないように、第２モデル２００の重みの更新を停止させる。例えば、第１モデル１００への入力には、描画画像のみを用いる。もともと検出可能であった実写画像の検出精度を低下させることにより、第１モデル１００が第２モデル２００を欺くように学習されることを防止するためである。第２モデル２００を欺くように第１モデル１００を学習させるため、ＰＣＭ及びＰＡＦが第２モデル２００へ入力される際には、正解ラベルを反転させる。

第１モデル１００は、第１モデル１００と第２モデル２００の損失関数が最小となるように学習される。第２モデル２００の損失関数と第１モデル１００の損失関数を同時に用いることによって、第１モデル１００が、入力に拘わらず姿勢検出を行えないようにして第２モデル２００を欺くように学習されることを防止できる。数式７及び１４より、第１モデル１００の学習フェーズの損失関数ｆ_ｇは、以下の数式１５で表される。λは、第１モデル１００の損失関数と第２モデル２００の損失関数のトレードオフを調整するためのパラメータである。例えば、λとして、０．５が設定される。

第２モデル２００の学習について説明する。第２モデル２００は、判定の精度が向上するように学習される。すなわち、第１モデル１００は、学習の結果、第２モデル２００を欺くような姿勢データを出力する。第２モデル２００は、その姿勢データが実写画像と描画画像のどちらに基づくか、正しく判定できるように学習される。

第２モデル２００の学習では、第１モデル１００の学習が行われないように、第１モデル１００の重みの更新が停止される。例えば、第１モデル１００には、実写画像と描画画像の両方が入力される。第２モデル２００は、数式１４で定義された損失関数が最小となるように学習される。第２モデル２００の作成時と同様に、最適化手法にはＡｄａｍを用いることができる。

上述した第１モデル１００の学習と第２モデル２００の学習が交互に実行される。学習装置１は、学習させた第１モデル１００及び第２モデル２００を、記憶装置４に保存する。

第１実施形態の効果を説明する。
近年、ビデオカメラなどで撮影されたＲＧＢ画像、深度カメラで撮影された深度画像などから、人体の姿勢を検出する方法が研究されている。また、姿勢検出は、生産性改善に向けた取り組みへの利用が試みられている。しかし、製造現場等では、作業者の姿勢、作業の環境によって、姿勢の検出精度が大きく低下しうるという課題があった。

製造現場で撮影される画像は、画角や解像度などに制限が課される場合が多い。例えば、製造現場において、作業の障害とならないようにカメラを配置する場合、カメラは、作業者よりも上方に設けられることが好ましい。また、製造現場では、設備、製品などが置かれており、作業者の一部が写らないことが多い。ＯｐｅｎＰｏｓｅなどの従来の方法では、上方から人体を写した画像や、作業者の一部しか映っていない画像などについては、姿勢の検出が大きく低下しうる。また、製造現場では、設備、製品、治具などが存在する。これらが人体として誤検出される場合もある。

上方から作業者を写した画像や、作業者の一部が写っていない画像について、姿勢の検出精度を向上させるために、モデルを十分に学習させることが望ましい。しかし、モデルの学習には、多くの学習データが必要となる。作業者を上方から実際に撮影して画像を準備し、それぞれの画像に対してアノテーションを実行すると、膨大な時間が必要となる。

学習データの準備に必要な時間を短縮するために、仮想の人体モデルを用いることが有効である。仮想の人体モデルを用いることで、作業者を任意の方向から写した画像を、容易に生成（描画）できる。また、人体モデルに対応した骨格データを用いることで、描画画像に対するアノテーションを容易に完了できる。

一方、描画画像は、実写画像に比べて、ノイズが少ない。ノイズは、画素値のゆらぎ、欠陥などである。例えば、人体モデルをレンダリングしただけの描画画像は、ノイズを全く含まず、実写画像に比べて過度に鮮明である。テクスチャマッピングにより描画画像に質感を付与できるが、その場合でも、描画画像は、実写画像に比べてより鮮明である。このため、描画画像を用いて学習させたモデルに実写画像を入力すると、実写画像の姿勢の検出精度が低いという課題が存在する。

この課題について、第１実施形態では、姿勢を検出するための第１モデル１００が、第２モデル２００を用いて学習される。第２モデル２００は、姿勢データが入力されると、その姿勢データが実写画像と描画画像のいずれに基づくか判定する。第１モデル１００は、第２モデル２００による判定の精度が低下するように学習される。第２モデル２００は、判定の精度が向上するように学習される。

例えば、第１モデル１００は、実写画像が入力されると、第２モデル２００が描画画像に基づく姿勢データと判定するように、学習される。また、第１モデル１００は、描画画像が入力されると、第２モデル２００が実写画像に基づく姿勢データと判定するように、学習される。これにより、第１モデル１００は、実写画像が入力された際に、学習に用いた描画画像と同様に、精度良く姿勢データを検出できるようになる。また、第２モデル２００は、学習により、判定の精度が向上する。第１モデル１００の学習と第２モデル２００の学習を交互に実行することで、第１モデル１００は、実写画像に含まれる人体の姿勢データを、より精度良く検出できるようになる。

第２モデル２００の学習には、人体の複数の部位の位置を示すデータであるＰＣＭと、部位間の関連性を示すデータであるＰＡＦと、を用いることが好ましい。ＰＣＭとＰＡＦは、画像中の人物の姿勢との関連性が高い。第１モデル１００の学習が不十分な場合、第１モデル１００は、描画画像に基づくＰＣＭとＰＡＦを適切に出力できない。この結果、第２モデル２００は、第１モデル１００から出力されたＰＣＭとＰＡＦが描画画像に基づくと、容易に判定できる。第２モデル２００による判定の精度を低下させるために、第１モデル１００は、実写画像だけではなく描画画像からも、より適切なＰＣＭとＰＡＦを出力できるように学習される。これにより、姿勢の検出に好適なＰＣＭとＰＡＦが、より適切に出力されるようになる。この結果、第１モデル１００による姿勢検出の精度を向上できる。

第１モデル１００の学習に用いられる描画画像の少なくとも一部は、人体モデルを上方から写したものであることが好ましい。上述した通り、製造現場では、作業の障害とならないように、カメラは作業者よりも配置されうるためである。人体モデルを上方から写した描画画像が、第１モデル１００の学習に用いられることで、実際の製造現場の作業者を写した画像に対して、姿勢をより精度良く検出できる。なお、「上方」は、人体モデルの直上だけでは無く、人体モデルよりも高い位置を指す。

（第１変形例）
図８は、第１実施形態の第１変形例に係る学習システムの構成を示す模式的ブロック図である。
第１変形例に係る学習システム１１は、図８に表したように、演算装置５及び検出器６をさらに備える。検出器６は、実空間上の人物に装着され、その人物の動作を検出する。演算装置５は、検出された動作に基づいて、人体の各部位の各時刻における位置を算出し、算出結果を記憶装置４に記憶する。

例えば、検出器６は、加速度センサ及び角速度センサの少なくともいずれかを含む。検出器６は、人物の各部位の加速度又は角速度を検出する。演算装置５は、加速度又は角速度の検出結果に基づいて、各部位の位置を算出する。

検出器６の数は、区別したい部位の数に応じて適宜選択される。例えば、図４に表したように、上方から撮影した人物の頭、両肩、両上腕、両前腕、及び両手にそれぞれ印付けする場合、１０個の検出器６が用いられる。１０個の検出器を、それぞれ、実空間上の人物の各部位の安定して取り付けられる部分に取り付ける。例えば、比較的形状の変化が小さい、手の甲、前腕の中間部分、上腕の中間部分、肩、首の裏、頭の周囲に検出器をそれぞれ取り付け、これらの部位の位置データを取得する。

学習装置１は、記憶装置４に記憶された各部位の位置データを参照し、人体モデルに、実空間上の人物と同じ姿勢をとらせる。学習装置１は、姿勢を設定した人体モデルを用いて描画画像を生成する。例えば、検出器６を装着した人物が、実際の作業と同じ姿勢を取る。これにより、描画画像に写る人体モデルの姿勢が、実際の作業時の姿勢に近くなる。

この方法によれば、人体モデルの各部位の位置を人が指定する必要が無くなる。また、人体モデルの姿勢が、実際の作業時の人物の姿勢と全く異なる姿勢となることを回避できる。人体モデルの姿勢を実際の作業時の姿勢に近づけることで、第１モデルによる姿勢の検出精度を向上させることができる。

（第２実施形態）
図９は、第２実施形態に係る分析システムの構成を表す模式的ブロック図である。
図１０～図１３は、第２実施形態に係る分析システムによる処理を説明するための図である。
第２実施形態に係る分析システム２０は、第１実施形態に係る学習システムによって学習された姿勢検出モデルとしての第１モデルを用いて、人物の動作を分析する。分析システム２０は、図９に表したように、処理装置７及び撮像装置８をさらに含む。

撮像装置８は、実空間における作業中の人物（第１人物）を撮影し、画像を生成する。以降では、撮像装置８により撮影された作業中の人物を、作業者とも呼ぶ。撮像装置８は、静止画を取得しても良いし、動画を取得しても良い。動画を取得する場合、撮像装置８は、動画から静止画を切り出す。撮像装置８は、作業者が写った画像を記憶装置４に保存する。

作業者は、所定の第１作業を繰り返し実行する。撮像装置８は、１回の第１作業の開始から終了までの間に、作業者を繰り返し撮影する。撮像装置８は、繰り返しの撮影により得られた複数の画像を記憶装置４に保存する。例えば、撮像装置８は、複数の第１作業を繰り返す作業者を撮影する。これにより、複数の第１作業の様子を撮影した複数の画像が記憶装置４に保存される。

処理装置７は、記憶装置４にアクセスし、作業者が写った画像（実写画像）を第１モデルに入力する。第１モデルは、画像中の作業者の姿勢データを出力する。例えば、姿勢データは、複数の部位の位置及び部位同士の関連性を含む。処理装置７は、第１作業中の作業者を写した複数の画像を第１モデルに順次入力する。これにより、各時刻における作業者の姿勢データが得られる。

一例として、処理装置７は、第１モデルに画像を入力し、図１０に表した姿勢データを取得する。姿勢データは、頭の重心９７ａ、左肩の重心９７ｂ、左肘９７ｃ、左手首９７ｄ、左手の重心９７ｅ、右肩の重心９７ｆ、右肘９７ｇ、右手首９７ｈ、右手の重心９７ｉ、及び背骨９７ｊのそれぞれの位置を含む。また、姿勢データは、これらを結ぶ骨のデータを含む。

処理装置７は、複数の姿勢データを用いて、時間の経過に伴う部位の動作を示す時系列データを生成する。例えば、処理装置７は、各姿勢データから、頭の重心の位置を抽出する。処理装置７は、姿勢データの基となった画像が取得された時刻に従って、頭の重心の位置を整理する。例えば、時刻と位置を紐づけて１レコードとするデータを作成し、複数のデータを時刻順にソートすることで、時間の経過に伴う頭の動作を示す時系列データが得られる。処理装置７は、少なくとも１つの部位について、時系列データを生成する。

処理装置７は、生成した時系列データに基づいて、第１作業の周期を推定する。又は、処理装置７は、時系列データにおいて、１つの第１作業の動作に基づく範囲を推定する。

処理装置７は、処理により得られた情報を記憶装置４に保存する。処理装置７は、上方を外部へ出力しても良い。例えば、出力される情報は、算出された周期を含む。情報は、周期を用いた計算により得られた値を含んでも良い。情報は、周期に加えて、時系列データ、周期の計算に用いた各画像の時刻などを含んでも良い。情報は、１つの第１作業の動作を示す時系列データの一部を含んでも良い。

処理装置７は、情報を表示装置３に出力しても良い。又は、処理装置７は、情報を含むファイルを、ＣＳＶなどの所定の形式で出力しても良い。処理装置７は、ＦＴＰ（File Transfer Protocol）などを用いて外部のサーバへデータを送信しても良い。又は、処理装置７は、データベース通信を行い、ＯＤＢＣ（Open Database Connectivity）などを用いて外部のデータベースサーバへデータを挿入してもよい。

図１１（ａ）、図１１（ｂ）、図１２（ｂ）、および図１２（ｃ）において、横軸は時間を表し、縦軸は鉛直方向における位置（深度）を表している。
図１１（ｃ）、図１１（ｄ）、図１２（ｄ）、および図１３（ａ）において、横軸は時間を表し、縦軸は距離を表している。これらの図では、距離の値が大きいほど、２つの対象の間の距離が近く、相関が強いことを示している。
図１２（ａ）および図１３（ｂ）は、横軸は時間を表し、縦軸はスカラー値を表している。

図１１（ａ）は、処理装置７により生成された時系列データの一例である。例えば図１１（ａ）は、作業者の左手の動作を示す時間長Ｔの時系列データである。まず、処理装置７は、図１１（ａ）に表した時系列データから、時間長Ｘの部分データを抽出する。

時間長Ｘは、例えば、作業者又は分析システム２０の管理者などによってあらかじめ設定される。時間長Ｘとしては、第１作業の大凡の周期に対応する値が設定される。時間長Ｔは、予め設定されても良いし、時間長Ｘに基づいて決定されても良い。例えば、処理装置７は、時間長Ｔの間に撮影された複数の画像をそれぞれ第１モデルに入力し、姿勢データを得る。処理装置７は、それらの姿勢データを用いて、時間長Ｔの時系列データを生成する。

処理装置７は、部分データとは別に、時間長Ｔの時系列データから、時刻ｔ_０からｔ_ｎまで、所定の時間間隔で時間長Ｘのデータを抽出する。具体的には、処理装置７は、図１１（ｂ）の矢印で表すように、時系列データから、時間長Ｘのデータを、時刻ｔ_０からｔ_ｎまで全体に亘って、例えば１フレームごとに抽出する。図１１（ｂ）では、抽出されるデータの一部の時間幅のみが矢印で表されている。以降では、図１１（ｂ）に表すステップによって抽出されたそれぞれの情報を、第１比較データと呼ぶ。

処理装置７は、図１１（ａ）に表すステップで抽出された部分データと、図１１（ｂ）に表すステップで抽出された各々の第１比較データと、の間の距離を順次計算する。処理装置７は、例えば、部分データと第１比較データとの間のＤＴＷ（ＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇ）距離を算出する。ＤＴＷ距離を用いることで、繰り返される動作の時間の長短に拘わらず、相関の強度を求めることができる。この結果、それぞれの時刻における、部分データに対する時系列データの距離の情報が得られる。これを表したものが、図１１（ｃ）である。以降では、図１１（ｃ）に表す、各時刻における距離を含む情報を第１相関データと呼ぶ。

次に、処理装置７は、作業者Ｍによる作業時間の周期を推定するために、時系列データにおける仮類似点の設定を行う。具体的には、処理装置７は、図１１（ｃ）に表す第１相関データにおいて、時刻ｔ_０から時間μが経過した後の時刻を基準として、ばらつき時間Ｎの範囲内に複数の候補点α_１～α_ｍをランダムに設定する。図１１（ｃ）に表す例では、３つの候補点がランダムに設定されている。時間μおよびばらつき時間Ｎは、例えば、作業者又は管理者などによって予め設定される。

処理装置７は、ランダムに設定された候補点α_１～α_ｍのそれぞれにおいてピークを有する正規分布のデータを作成する。そして、それぞれの正規分布と、図１１（ｃ）に表す第１相関データと、の間の相互相関係数（第２相互相関係数）を求める。処理装置７は、相互相関係数が最も高い候補点を、仮類似点として設定する。例えば、図１１（ｃ）に表した候補点α_２が仮類似点に設定されるとする。

処理装置７は、仮類似点（候補点α_２）を基に、再度、時間μが経過した後の時刻を基準として、ばらつき時間Ｎの範囲内に複数の候補点α_１～α_ｍをランダムに設定する。このステップを、時刻ｔ_ｎまで繰り返し行うことで、図１１（ｄ）に表すように、時刻ｔ_０～ｔ_ｎの間に、複数の仮類似点β_１～β_ｋが設定される。

処理装置７は、図１２（ａ）に表すように、それぞれの仮類似点β_１～β_ｋにピークを有する複数の正規分布を含んだデータを作成する。以降では、図１２（ａ）に表す複数の正規分布を含む情報を第２比較データと呼ぶ。処理装置７は、図１１（ｃ）および図１１（ｄ）に表す第１相関データと、図１２（ａ）に表す第２比較データと、の間の相互相関係数（第１相互相関係数）を算出する。

処理装置７は、図１１（ａ）～図１２（ａ）と同様のステップを、図１２（ｂ）～図１２（ｄ）、図１３（ａ）、及び図１３（ｂ）に表すように、他の部分データに対して行う。図１２（ｂ）～図１３（ｂ）では、時刻ｔ１以降の情報のみを表している。

例えば、処理装置７は、図１２（ｂ）に表すように、時刻ｔ_１からｔ_２までの間の、時間長Ｘの部分データを抽出する。続いて、処理装置７は、図１２（ｃ）に表すように、時間長Ｘの複数の第１比較データを抽出する。処理装置７は、部分データと、それぞれの第１比較データと、の間の距離を計算することで、図１２（ｄ）に表すように、第１相関データを作成する。

処理装置７は、図１２（ｄ）に表すように、時刻ｔ_０から時間μが経過した後の時刻を基準として、複数の候補点α_１～α_ｍをランダムに設定し、仮類似点βを抽出する。これを繰り返すことで、図１３（ａ）に表すように、複数の仮類似点β_１～β_ｋが設定される。そして、処理装置７は、図１３（ｂ）に表すように、仮類似点β_１～β_ｋに基づく第２比較データを作成し、図１２（ｄ）および図１３（ａ）に表す第１相関データと、図１３（ｂ）に表す第２比較データと、の間の相互相関係数を算出する。

処理装置７は、上述したステップを、時刻ｔ２以降も繰り返すことで、それぞれの部分データについて相互相関係数を算出する。その後、処理装置７は、最も高い相互相関係数が得られた仮類似点β_１～β_ｋを、真の類似点として抽出する。処理装置７は、真の類似点同士の時間間隔を算出することで、作業者の第１作業の周期を得る。処理装置７は、例えば、時間軸上隣り合う真の類似点間の時間の平均を求め、この平均時間を第１作業の周期とすることができる。又は、処理装置７は、真の類似点同士の間の時系列データを、１つの第１作業の動作を示す時系列データとして抽出する。

ここでは、第２実施形態に係る分析システム２０により、作業者の第１作業の周期を分析する例について説明した。第２実施形態に係る分析システム２０の用途は、この例に限定されない。例えば、所定の動作を繰り返し行う人物に対して、その周期の分析、１回の動作を示す時系列データの抽出などに広く適用することが可能である。

図１４は、第２実施形態に係る分析システムによる処理を表すフローチャートである。
撮像装置８は、人物を撮影し、画像を生成する（ステップＳ１１）。処理装置７は、画像を第１モデルに入力し（ステップＳ１２）、姿勢データを取得する（ステップＳ１３）。処理装置７は、姿勢データを用いて、部位に関する時系列データを生成する（ステップＳ１４）。処理装置７は、時系列データに基づき、人物の動作の周期を算出する（ステップＳ１５）。処理装置７は、算出された周期に基づく情報を外部へ出力する（ステップＳ１６）。

分析システム２０によれば、繰り返し実行される所定の動作の周期を自動で分析できる。例えば、製造現場においては、作業者の第１作業の周期を自動的に分析できる。このため、作業者自身による記録や申告、業務改善のための技術者による作業の観察や周期の計測などが不要となる。作業の周期を容易に分析することが可能となる。また、分析結果が、分析する者の経験や知識、判断などに依らないため、周期をより高精度に求めることが可能となる。

また、分析システム２０は、分析する際に、第１実施形態に係る学習システムによって学習された第１モデルを用いる。この第１モデルによれば、撮影された人物の姿勢を高精度に検出できる。第１モデルから出力された姿勢データを用いることで、分析の精度を向上できる。例えば、周期の推定の精度を向上させることができる。

図１５は、システムのハードウェア構成を表すブロック図である。
例えば、学習装置１は、コンピュータであり、ＲＯＭ(Read Only Memory)１ａ、ＲＡＭ(Random Access Memory)１ｂ、ＣＰＵ(Central Processing Unit)１ｃ、およびＨＤＤ(Hard Disk Drive)１ｄを有する。

ＲＯＭ１ａは、コンピュータの動作を制御するプログラムを格納している。ＲＯＭ１ａには、上述した各処理をコンピュータに実現させるために必要なプログラムが格納されている。

ＲＡＭ１ｂは、ＲＯＭ１ａに格納されたプログラムが展開される記憶領域として機能する。ＣＰＵ１ｃは、処理回路を含む。ＣＰＵ１ｃは、ＲＯＭ１ａに格納された制御プログラムを読み込み、当該制御プログラムに従ってコンピュータの動作を制御する。また、ＣＰＵ１ｃは、コンピュータの動作によって得られた様々なデータをＲＡＭ１ｂに展開する。ＨＤＤ１ｄは、読み取りに必要な情報や、読み取りの過程で得られた情報を記憶する。ＨＤＤ１ｄは、例えば、図１に表した記憶装置４として機能する。

学習装置１は、ＨＤＤ１ｄに代えて、ｅＭＭＣ（embedded Multi Media Card）、ＳＳＤ（Solid State Drive）、ＳＳＨＤ（Solid State Hybrid Drive）などを有していても良い。

また、学習システム１１における演算装置５、分析システム２０における処理装置７についても、図１５と同様のハードウェア構成を適用できる。又は、学習システム１１において、１つのコンピュータが学習装置１及び演算装置５として機能しても良い。分析システム２０において、１つのコンピュータが学習装置１及び処理装置７として機能しても良い。

以上で説明した、学習装置、学習システム、学習方法、学習された第１モデルを用いることで、画像中の人体の姿勢をより高精度に検出できる。また、コンピュータを、学習装置として動作させるためのプログラムを用いることで、同様の効果を得ることができる。
また、以上で説明した処理装置、分析システム、分析方法を用いることで、時系列データをより高精度に分析できる。例えば、人物の動作の周期をより高精度に求めることができる。コンピュータを、処理装置として動作させるためのプログラムを用いることで、同様の効果を得ることができる。

上記の種々のデータの処理は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク及びハードディスクなど）、光ディスク（ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－ＲＷ、ＤＶＤ－ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷなど）、半導体メモリ、または、他の記録媒体に記録されても良い。

例えば、記録媒体に記録された情報は、コンピュータ（または組み込みシステム）により読み出されることが可能である。記録媒体において、記録形式（記憶形式）は任意である。例えば、コンピュータは、記録媒体からプログラムを読み出し、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させる。コンピュータにおいて、プログラムの取得（または読み出し）は、ネットワークを通じて行われても良い。

以上、本発明のいくつかの実施形態を例示したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更などを行うことができる。これら実施形態やその変形例は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。また、前述の各実施形態は、相互に組み合わせて実施することができる。

１：学習装置、２：入力装置、３：表示装置、４：記憶装置、５：演算装置、６：検出器、７：処理装置、８：撮像装置、１０，１１：学習システム、２０：分析システム、９１：人体モデル、１００：第１モデル、１１０：第１ブロック、１２０：第２ブロック、２００：第２モデル、２１０：畳み込み層、２２０：最大値プーリング、２３０：ドロップアウト層、２４０：平坦化層、２５０：全結合層

Claims

実際の人物を写した実写画像又は仮想の人体モデルを用いて描画された描画画像が入力されると、前記実写画像又は前記描画画像に含まれる人体の姿勢を示す姿勢データを出力する第１モデルと、
前記姿勢データが入力されると、前記姿勢データが前記実写画像と前記描画画像のいずれに基づくか判定する第２モデルと、
を学習させる学習装置であって、
前記第２モデルによる判定の精度が低下するように前記第１モデルを学習させ、
前記第２モデルによる判定の精度が向上するように前記第２モデルを学習させる、学習装置。
前記第１モデルの学習中には、前記第２モデルの更新を停止し、
前記第２モデルの学習中には、前記第１モデルの更新を停止する、請求項１記載の学習装置。
前記第１モデルの学習と前記第２モデルの学習を交互に実行する、請求項１又は２に記載の学習装置。
複数の前記描画画像を用いて前記第１モデルを学習させ、
前記複数の描画画像の少なくとも一部は、前記人体モデルの一部を上方から描画した画像である、請求項１～３のいずれか１つに記載の学習装置。
前記姿勢データは、人体の複数の部位の位置を示すデータと、部位間の関連性を示すデータと、を含む、請求項１～４のいずれか１つに記載の学習装置。
請求項１～５のいずれか１つに記載の学習装置により学習された前記第１モデルに、作業中の人物を写した複数の作業画像を入力し、時間に対する姿勢の変化を示す時系列データを取得する、処理装置。
実際の人物を写した実写画像又は仮想の人体モデルを用いて描画された描画画像が入力されると、前記実写画像又は前記描画画像に含まれる人体の姿勢を示す姿勢データを出力する第１モデルと、
前記姿勢データが入力されると、前記姿勢データが前記実写画像と前記描画画像のいずれに基づくか判定する第２モデルと、
を学習させる学習方法であって、
前記第２モデルによる判定の精度が低下するように前記第１モデルを学習させ、
前記第２モデルによる判定の精度が向上するように前記第２モデルを学習させる、学習方法。
請求項７記載の学習方法により学習された前記第１モデルを含む姿勢検出モデル。
コンピュータに、
実際の人物を写した実写画像又は仮想の人体モデルを用いて描画された描画画像が入力されると、前記実写画像又は前記描画画像に含まれる人体の姿勢を示す姿勢データを出力する第１モデルと、
前記姿勢データが入力されると、前記姿勢データが前記実写画像と前記描画画像のいずれに基づくか判定する第２モデルと、
を学習させるプログラムであって、
前記第２モデルによる判定の精度が低下するように前記第１モデルを学習させ、
前記第２モデルによる判定の精度が向上するように前記第２モデルを学習させる、プログラム。
請求項９記載のプログラムを記憶した記憶媒体。