JP7315929B2

JP7315929B2 - 学習装置、学習済みモデルの生成方法および学習プログラム

Info

Publication number: JP7315929B2
Application number: JP2020117942A
Authority: JP
Inventors: 誠明松村; 良規草地; 健太秋田; 哲丸山; 有紀森本; 玲治鶴野
Original assignee: Kyushu University NUC; Nippon Telegraph and Telephone Corp
Current assignee: Kyushu University NUC; Nippon Telegraph and Telephone Corp
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2023-07-27
Anticipated expiration: 2040-07-08
Also published as: JP2022015236A

Description

本開示は、学習装置、学習済みモデルの生成方法および学習プログラムに関する。

被写体にセンサを取り付けることなく、モーションキャプチャを実現するマーカーレスモーションキャプチャという技術が知られている。マーカーレスモーションキャプチャは、複数地点に設置した時間同期カメラで撮影した映像に基づいて、二次元姿勢推定と三角測量とを用いることで被写体の関節回転角を推定する技術である。

一方で、被写体とカメラとの距離が遠い場合など、二次元姿勢推定において推定誤差が大きくなると、三角測量で求める被写体の関節座標がフレームごとに大きく振動し、被写体のモーションにノイズが生じる。非特許文献１、２には、このノイズを除去する技術が開示されている。

T. Ohashi, Y. Ikegami, K. Yamamoto, W. Takano and Y. Nakamura, "Video Motion Capture from the Part Confidence Maps of Multi-Camera Images by Spatiotemporal Filtering Using the Human Skeletal Model," 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Madrid, 2018, pp. 4226-4231. U Mall, GR Lal, S Chaudhuri, P Chaudhuri, "A deep recurrent framework for cleaning motion capture data", arXiv preprint arXiv:1712.03380, 2017.

非特許文献１に記載の手法は、関節座標に対してローパスフィルタを適用することでノイズ除去を行うものである。しかしながら、非特許文献１に記載の手法では、ローパスフィルタの強度を強めると、ノイズのみならず、実際の微細な動作まで除去されてしまう可能性がある。
非特許文献２に記載の手法は、ノイズが激しい環境においてもモーションの再現性を高めるために、機械学習技術を用いてノイズを除去するものである。しかしながら、非特許文献２に記載の手法に係る機械学習モデルの出力は被写体の関節ごとの回転角であるため、正解データとの誤差を平均損失として最小化するよう学習すると、学習に膨大な時間を要することとなる。

本開示の目的は、対象物の変位に係る量を出力する機械学習モデルの学習に要する時間を短縮することができる学習装置、学習済みモデルの生成方法および学習プログラムを提供することにある。

本発明の第１の態様によれば、学習装置は、所定の時間幅における対象物の変位に係る量の時系列を入力し、前記時間幅の少なくとも一部の時刻における前記対象物の変位に係る量を出力する機械学習モデルを用いて、対象物の変位に係る量の時系列を示す入力サンプルから、前記対象物の変位に係る量の推定値を算出する推論実行部と、前記推定値と前記入力サンプルに対応する出力サンプル（正解データ）との差分である第１差分を算出する第１差分算出部と、前記推定値を１階以上微分した値と前記出力サンプルを１階以上微分した値との差分である第２差分を算出する第２差分算出部と、前記第１差分および前記第２差分に対して出力が単調増加する損失関数を用いて、損失値を算出する損失算出部と、前記損失値に基づいて、前記機械学習モデルのパラメータを更新する更新部とを備える。

本発明の第２の態様によれば、学習済みモデルの生成方法は、所定の時間幅における対象物の変位に係る量の時系列を入力し、前記時間幅の少なくとも一部の時刻における前記対象物の変位に係る量を出力する機械学習モデルを用いて、対象物の変位に係る量の時系列を示す入力サンプルから、前記対象物の変位に係る量の推定値を算出する推論実行ステップと、前記推定値と前記入力サンプルに対応する出力サンプルとの差分である第１差分を算出する第１差分算出ステップと、前記推定値を１階以上微分した値と前記出力サンプルを１階以上微分した値との差分である第２差分を算出する第２差分算出ステップと、前記第１差分および前記第２差分に対して出力が単調増加する損失関数を用いて、損失値を算出する損失算出ステップと、前記損失値に基づいて、前記機械学習モデルのパラメータを更新する更新ステップと、前記パラメータが更新された前記機械学習モデルを学習済みモデルとして出力する出力ステップとを有する。

本発明の第３の態様によれば、学習プログラムは、コンピュータを、上述の学習装置として機能させる。

上記態様のうち少なくとも１つの態様によれば、対象物の変位に係る量を出力する機械学習モデルの学習に要する時間を短縮することができる。

モーションキャプチャシステムの構成を示す概略図である。第１の実施形態に係る学習装置の構成を示す概略ブロック図である。第１の実施形態に係る学習装置の動作を示すフローチャートである。学習装置のハードウェア構成を示す概略ブロック図である。

〈第１の実施形態〉
《学習済みモデルを用いたマーカーレスモーションキャプチャについて》
以下、図面を参照しながら実施形態について詳しく説明する。
第１の実施形態に係る学習装置１０は、マーカーレスモーションキャプチャに用いられる学習済みモデルを生成する。本実施形態において学習済みモデルとは、ニューラルネットワークなどのモデル構造に適用されるパラメータであって、学習用データセットを用いた訓練によって更新されたものである。

図１は、モーションキャプチャシステム５０の構成を示す概略図である。
マーカーレスモーションキャプチャを実現するモーションキャプチャシステム５０について説明する。モーションキャプチャシステム５０は、複数の時間同期カメラ５１と、演算装置５２と、学習装置１０とを備える。複数の時間同期カメラ５１は、それぞれ異なる方向から対象物Ｏを撮影するように設置される。複数の時間同期カメラ５１は、互いに内部時計の時刻が同期されている。

演算装置５２は、複数の時間同期カメラ５１から映像データを取得し、各映像データのフレームごとに対象物Ｏの姿勢を推定する。これにより、演算装置５２は、各映像データの各フレームに映る対象物Ｏの関節の位置を推定する。演算装置５２は、複数の映像データの同時刻に係るフレームにおける関節の位置と、現実空間における複数の時間同期カメラ５１の設置位置および姿勢に基づいて、三角測量により、対象物Ｏの関節の現実空間における位置を推定する。演算装置５２は、例えば非特許文献１に記される骨格構造のフィッティング手法を用いることで、各関節の三軸回転角を推定する。ただし、姿勢推定の誤差により、推定された関節の現実空間における位置にはノイズが重畳されている可能性があるため、各関節の三軸回転角にもノイズが重畳されている可能性がある。そのため、演算装置５２は、目的フレームを含む所定数のフレームにおける各関節の三軸回転角の時系列から、ノイズを除去した目的フレームにおける各関節の三軸回転角を算出する。これにより、モーションキャプチャシステム５０は、ノイズを除去した対象物Ｏの関節の三軸回転角の時系列を生成することができる。
このノイズ除去の演算において、学習装置１０によって学習された学習済みモデルが用いられる。

《学習装置の構成》
図２は、第１の実施形態に係る学習装置１０の構成を示す概略ブロック図である。
学習装置１０は、構造記憶部１０１、パラメータ記憶部１０２、学習用データセット記憶部１０３、初期値生成部１０４、サンプル抽出部１０５、推論実行部１０６、第１差分算出部１０７、第２差分算出部１０８、損失算出部１０９、損失記憶部１１０、更新部１１１、出力部１１２を備える。

構造記憶部１０１は、機械学習モデルであるノイズ除去モデルの構造データを記憶する。第１の実施形態に係る構造データは、入力層および出力層のノード数を回転軸数３×関節数ｊ×フレーム数ｎであるＤＮＮ（Deep Neural Network）を表す。つまり、ノイズ除去モデルは、ノイズ除去対象の目的フレームを含む連続するｎ個のフレームに係る対象物Ｏのｊ個の関節それぞれの三軸の回転角の時系列を、入力し、また出力する。
パラメータ記憶部１０２は、機械学習モデルに適用するパラメータを記憶する。パラメータの例としては、ニューロンの重み、活性化関数の係数などが挙げられる。

学習用データセット記憶部１０３は、パラメータの学習に用いる学習用データセットを記憶する。学習用データセットは、ノイズを含む対象物Ｏの関節の回転角の時系列と、実際の回転角の時系列とを含む。ノイズを含む回転角の時系列は、演算装置５２によって演算されたノイズ除去前の回転角の時系列であってよい。また、ノイズを含む回転角の時系列は、実際の回転角の時系列にランダムノイズ、スパイクノイズ、またはオフセットノイズを重畳させたものであってよい。ランダムノイズは、振幅や周波数が不規則に変化するノイズである。スパイクノイズは、間欠的に発生する比較的振幅の大きいノイズである。オフセットノイズは、すべての信号が一律に増加するノイズである。
また、他の実施形態においては、学習用データセット記憶部１０３は実際の各関節の回転角の時系列のみを記憶し、学習装置１０がこれにノイズを重畳させることでノイズを含む各関節の回転角の時系列を生成してもよい。

初期値生成部１０４は、構造記憶部１０１が記憶する機械学習モデルの構造データに基づいて、当該機械学習モデルのパラメータの初期値を生成する。初期値生成部１０４は、例えば乱数に基づいてパラメータの初期値を生成する。初期値生成部１０４は、生成した初期値をパラメータ記憶部１０２に記録する。

サンプル抽出部１０５は、学習用データセット記憶部１０３が記憶するノイズを含む回転角の時系列から、連続するｎフレーム相当の部分時系列を切り出すことで、入力サンプルを生成する。サンプル抽出部１０５は、学習用データセット記憶部１０３が記憶する実際の回転角の時系列から、生成した入力サンプルに対応する部分時系列を切り出すことで、出力サンプルを生成する。

推論実行部１０６は、構造記憶部１０１が記憶する構造データとパラメータ記憶部１０２が記憶するパラメータとによって構成される機械学習モデルに、サンプル抽出部１０５が抽出した入力サンプルを入力することで、回転角の時系列の推定値を得る。

第１差分算出部１０７は、推論実行部１０６が得た推定値とサンプル抽出部１０５が抽出した出力サンプルとの差分である第１差分を算出する。差分は、絶対誤差、二乗誤差などによって表される。すなわち、第１差分算出部１０７は、回転角の差を算出する。
第２差分算出部１０８は、推論実行部１０６が得た推定値を１階以上微分した値とサンプル抽出部１０５が抽出した出力サンプルを１階以上微分した値との差分である第２差分を算出する。例えば、第２差分算出部１０８は、回転角の１階微分である回転角速度の差分、回転角の２階微分である回転角加速度の差分、回転角の３階微分である回転角躍度の差分などを算出する。

損失算出部１０９は、損失関数に第１差分算出部１０７が算出した第１差分および第２差分算出部１０８が算出した第２差分を代入し、平均損失を算出する。第１の実施形態に係る損失関数は、回転角の差分、回転角速度の差分、回転角加速度の差分、および回転角躍度の差分を、説明変数とする。
損失記憶部１１０は、損失算出部１０９が算出した平均損失の履歴を記憶する。

更新部１１１は、損失記憶部１１０が記憶する平均損失に基づいて、平均損失を最小化するように、パラメータ記憶部１０２が記憶する機械学習モデルのパラメータを更新する。
出力部１１２は、パラメータ記憶部１０２が記憶する機械学習モデルのパラメータを学習済みモデルとして演算装置５２に出力する。学習済みモデルの出力は、通信によってなされてもよいし、記録媒体を介してなされてもよい。

《学習装置の動作》
図３は、第１の実施形態に係る学習装置の動作を示すフローチャートである。
まず、初期値生成部１０４は、構造記憶部１０１が記憶する機械学習モデルの構造データに基づいて、当該機械学習モデルのパラメータの初期値を生成する（ステップＳ１）。初期値生成部１０４は、生成した初期値をパラメータ記憶部１０２に記録する。

次に、学習装置１０は、学習の終了条件を満たすまで、以下のステップＳ３からステップＳ１１の処理を繰り返し実行する（ステップＳ２）。終了条件の例としては、更新部１１１によるパラメータの更新回数が所定回数に達することや、平均損失の勾配が所定値未満となることなどが挙げられる。

サンプル抽出部１０５は、学習用データセット記憶部１０３から所定数の入力サンプルと出力サンプルのペアを抽出する（ステップＳ３）。推論実行部１０６は、構造記憶部１０１が記憶する構造データとパラメータ記憶部１０２が記憶するパラメータとによって構成される機械学習モデルに、ステップＳ３で抽出した複数の入力サンプルを入力することで、回転角の時系列の複数の推定値を得る（ステップＳ４）。

第１差分算出部１０７は、ステップＳ４で得られた複数の推定値それぞれと、ステップＳ３で抽出された当該推定値に対応する出力サンプルとの差分（第１差分）を算出する（ステップＳ５）。第２差分算出部１０８は、推論実行部１０６が得た推定値およびステップＳ３で抽出された出力サンプルについて、１階微分値、２階微分値、および３階微分値をそれぞれ求める（ステップＳ６）。第２差分算出部１０８は、ステップＳ６で求めた１階微分値、２階微分値、および３階微分値に基づいて、回転角速度の差分、回転角加速度の差分、および回転角躍度の差分（第２差分）を算出する（ステップＳ７）。

損失算出部１０９は、ステップＳ５およびステップＳ７で算出した差分を損失関数に代入することで、平均損失を算出する（ステップＳ８）。具体的には、損失算出部１０９は、推定値に係る第１差分および第２差分と、出力サンプルに係る第１差分および第２差分とを、それぞれ対応関係が崩れないようにラスタスキャンし、一次元配列に変換する。そして、損失算出部１０９は、推定値に係る一次元配列と出力サンプルに係る一次元配列の要素同士の絶対値の総和を、要素数で除算することで、平均損失を算出する。
損失算出部１０９は、算出した平均損失を損失記憶部１１０に記録する（ステップＳ９）。

更新部１１１は、損失記憶部１１０から直近の所定回数分の平均損失を読み出し、当該平均損失の勾配を求める。更新部１１１は、平均損失の勾配に基づいて、平均損失を最小化するように、機械学習モデルのパラメータを補正する（ステップＳ１０）。更新部１１１は、補正したパラメータをパラメータ記憶部１０２に上書き記録する（ステップＳ１１）。

学習装置１０が学習の終了条件を満たすと、出力部１１２は、パラメータ記憶部１０２が記憶する機械学習モデルのパラメータとを演算装置５２に出力する（ステップＳ１２）。

《作用・効果》
このように、第１の実施形態に係る学習装置１０は、機械学習モデルによって算出された推定値を１階以上微分した値と出力サンプルを１階以上微分した値との差分である第２差分を用いて平均損失を算出し、当該平均損失に基づいて、機械学習モデルのパラメータを更新する。これにより、学習装置１０は、ランダムノイズやスパイクノイズなど、時間的に変化するノイズを、時間的な変化を伴わないオフセットノイズと比較して優先的に除去するように学習することができる。

マーカーレスモーションキャプチャにおいては、カメラキャリブレーションの誤差や関節座標推定の誤差から、演算結果にランダムノイズやスパイクノイズが重畳しやすい。また、ランダムノイズやスパイクノイズのように急な変化を与えるノイズは、視覚的な違和感を生じやすい。そのため、第１の実施形態に係る学習済みモデルによって補正されたモーションデータは、回転角の差分のみに基づく平均損失を用いて同じ繰返し回数だけ学習されたモデルによって補正されたモーションデータと比較して、視覚的な違和感が少ない。つまり、第１の実施形態に係る学習装置１０は、ランダムノイズやスパイクノイズが重畳しやすいというマーカーレスモーションキャプチャの特性に鑑みてこのようなノイズに強く反応する微分値を損失関数に組み込むことで、ノイズの除去に係る学習の効率を向上させたものである。

第１の実施形態に係る損失関数は、第２差分および回転角の差分である第１差分の平均損失を求めるものである。これにより、学習装置１０は、ランダムノイズやスパイクノイズと比較して優先度は下がるが、オフセットノイズも除去するように機械学習モデルのパラメータを学習することができる。

第１の実施形態に係る機械学習モデルは、目標フレームの回転角だけでなく、当該目標フレームを含む所定フレーム数の回転角の時系列を出力する。これにより、学習装置１０は、平均損失の算出範囲を目標フレームのみならず、その近傍のフレームにも拡大することで、精度を向上させることができる。なお、第１の実施形態に係る機械学習モデルは、入力された時系列と同じ時間幅に係る時系列を出力するが、これに限られない。他の実施形態に係る機械学習モデルは、入力された時系列の少なくとも一部に係る回転角を出力するものであればよい。

第１の実施形態に係る学習装置１０は、ランダムノイズおよびスパイクノイズを含む学習用データセットを用いて機械学習モデルのパラメータを学習する。これにより、学習装置１０は、マーカーレスモーションキャプチャにおいて発生しやすいランダムノイズやスパイクノイズの影響を、効率的に抑止するように機械学習モデルのパラメータを学習することができる。

〈その他の実施形態〉
以上、図面を参照して一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、様々な設計変更等をすることが可能である。すなわち、他の実施形態においては、上述の処理の順序が適宜変更されてもよい。また、一部の処理が並列に実行されてもよい。
上述した実施形態に係る学習装置１０は、単独のコンピュータによって構成されるものであってもよいし、学習装置１０の構成を複数のコンピュータに分けて配置し、複数のコンピュータが互いに協働することで学習装置１０として機能するものであってもよい。また、学習装置１０と演算装置５２とが同一のコンピュータによって実現されるものであってもよい。

上述した実施形態に係る機械学習モデルは、対象物Ｏの関節の三軸回転角を補正するためのものであるが、これに限られない。例えば、他の実施形態に係る機械学習モデルは、対象物Ｏの関節の回転速度などの関節の角度に係る他の量を補正するものであってもよい。また、他の実施形態に係る機械学習モデルは、関節の三次元直交座標系における位置や速度を補正するものなど、関節の変位に係る他の量を補正するものであってもよい。また、他の実施形態に係る機械学習モデルは、対象物の中心の位置や速度を補正するものであってもよい。すなわち、機械学習モデルは、対象物Ｏの変位に係る量を補正するものであればよい。

上述した実施形態に係る損失関数は、平均損失を求めるものであるが、これに限られない。例えば、他の実施形態に係る損失関数は、平均二乗誤差を算出するものなど、第２差分に対して損失値が単調増加する他の関数であってよい。

〈コンピュータ構成〉
図４は、学習装置１０のハードウェア構成を示す概略ブロック図である。
学習装置１０は、バスで接続されたプロセッサ１１、メモリ１２、ストレージ１３、インタフェース１４などを備え、学習プログラムを実行することによって、初期値生成部１０４、サンプル抽出部１０５、推論実行部１０６、第１差分算出部１０７、第２差分算出部１０８、損失算出部１０９、損失記憶部１１０、更新部１１１、出力部１１２を備える装置として機能する。すなわち、学習プログラムを実行するプロセッサ１１は、初期値生成部１０４、サンプル抽出部１０５、推論実行部１０６、第１差分算出部１０７、第２差分算出部１０８、損失算出部１０９、損失記憶部１１０、更新部１１１、出力部１１２として機能する。そして、学習プログラムを実行するプロセッサ１１は、ストレージ１３を、構造記憶部１０１、パラメータ記憶部１０２、および学習用データセット記憶部１０３として機能させる。学習装置１０は、インタフェース１４を介して演算装置５２、外部記憶媒体、ネットワークに接続される。

プロセッサ１１の例としては、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、マイクロプロセッサなどが挙げられる。
学習プログラムは、ストレージ１３などのコンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えば磁気ディスク、光磁気ディスク、光ディスク、半導体メモリ等の記憶装置である。学習プログラムは、電気通信回線を介して送信されてもよい。
なお、学習装置１０の各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）等のカスタムＬＳＩ（Large Scale Integrated Circuit）を用いて実現されてもよい。ＰＬＤの例としては、ＰＡＬ(Programmable Array Logic)、ＧＡＬ(Generic Array Logic)、ＣＰＬＤ(Complex Programmable Logic Device)、ＦＰＧＡ（Field Programmable Gate Array）が挙げられる。このような集積回路も、プロセッサ１１の一例に含まれる。

１０学習装置
１０１構造記憶部
１０２パラメータ記憶部
１０３学習用データセット記憶部
１０４初期値生成部
１０５サンプル抽出部
１０６推論実行部
１０７第１差分算出部
１０８第２差分算出部
１０９損失算出部
１１０損失記憶部
１１１更新部
１１２出力部
５０モーションキャプチャシステム
５１時間同期カメラ
５２演算装置
Ｏ対象物

Claims

所定の時間幅における対象物の変位に係る量の時系列を入力し、前記時間幅の少なくとも一部の時刻における前記対象物の変位に係る量を出力する機械学習モデルを用いて、対象物の変位に係る量の時系列を示す入力サンプルから、前記対象物の変位に係る量の推定値を算出する推論実行部と、
前記推定値を１階以上微分した値と前記入力サンプルに対応する出力サンプルを１階以上微分した値との差分である第２差分を算出する第２差分算出部と、
前記第２差分に対して出力が単調増加する損失関数を用いて、損失値を算出する損失算出部と、
前記損失値に基づいて、前記機械学習モデルのパラメータを更新する更新部と
を備える学習装置。
前記推定値と前記出力サンプルとの差分である第１差分を算出する第１差分算出部を備え、
前記損失算出部は、前記第１差分および前記第２差分に対して出力が単調増加する損失関数を用いて、損失値を算出する、
請求項１に記載の学習装置。
前記機械学習モデルは、入力された前記時系列と同じ時間幅に係る変位に係る量の時系列を出力する
請求項１または請求項２に記載の学習装置。
前記入力サンプルは、前記出力サンプルにランダムノイズまたはスパイクノイズを加えたものである
請求項１から請求項３の何れか１項に記載の学習装置。
前記対象物の変位に係る量は、前記対象物が有する関節の直交する三軸の回転角である
請求項１から請求項４のいずれか１項に記載の学習装置。
所定の時間幅における対象物の変位に係る量の時系列を入力し、前記時間幅の少なくとも一部の時刻における前記対象物の変位に係る量を出力する機械学習モデルを用いて、対象物の変位に係る量の時系列を示す入力サンプルから、前記対象物の変位に係る量の推定値を算出するステップと、
前記推定値を１階以上微分した値と前記入力サンプルに対応する出力サンプルを１階以上微分した値との差分である第２差分を算出するステップと、
前記第２差分に対して出力が単調増加する損失関数を用いて、損失値を算出するステップと、
前記損失値に基づいて、前記機械学習モデルのパラメータを更新するステップと、
前記パラメータが更新された前記機械学習モデルを学習済みモデルとして出力するステップと
を有する学習済みモデルの生成方法。
コンピュータを、請求項１から請求項５の何れか１項に記載の学習装置として機能させるための学習プログラム。