JP2020087483A

JP2020087483A - データ補正装置およびプログラム

Info

Publication number: JP2020087483A
Application number: JP2020021712A
Authority: JP
Inventors: 伸也北岡; Shinya Kitaoka; 優理小田桐; Yuri Odagiri
Original assignee: Dwango Co Ltd
Current assignee: Dwango Co Ltd
Priority date: 2020-02-12
Filing date: 2020-02-12
Publication date: 2020-06-04

Abstract

【課題】機械学習に用いられる学習データの規模を抑制しつつ、学習モデルにより動体の複数の部位の位置データを高精度に補正する。【解決手段】実施形態によれば、データ補正装置は、取得部と、分類部と、第１の補正部と、第２の補正部とを含む。取得部は、動体の複数の部位の位置データを取得する。分類部は、複数の部位のうちの少なくとも一部の位置データの各々を、当該位置データに対応する部位に依存して、第１のグループおよび第２のグループを含む複数のグループのうちの少なくとも１つに属するように分類する。第１の補正部は、第１の学習モデルによって、第１のグループの位置データを補正し、第１のグループの補正済み位置データを生成する。第２の補正部は、第２の学習モデルによって、第２のグループの位置データを補正し、第２のグループの補正済み位置データを生成する。【選択図】図１

Description

本発明は、データの補正に関する。

近年、例えばＨＭＤ（ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ）を装着した演者の身体の動きから生成したモーションキャプチャ（ＭＣ：ＭｏｔｉｏｎＣａｐｔｕｒｅ）データを利用して、演者に追随して動くアバターのアニメーションを生成し、観客の端末へインターネットで生配信することが知られている。このＭＣデータは、例えば、演者の身体に取り付けられたマーカーを複数のカメラにより撮影することで得られた複数の画像からマーカーの３次元位置を検出することで生成されたり（光学式）、演者が装着するＨＭＤなどに搭載されたジャイロセンサおよび／または加速度センサなどの慣性センサの計測値に基づいて、それぞれのセンサの位置姿勢を算出することで生成されたりする（慣性センサ式）。ＭＣデータは、ノイズ（例えば、高周波ノイズ、ジッター、など）、遮蔽などによる欠測、および／または検出されたマーカーの位置とそのマーカーの識別ラベルとの対応付けの不一致（ラベリングミス）、などのエラーを伴い得る。

かかる生のＭＣデータの持つエラーを放置したままアバターのアニメーションを生成すると、アバターの姿勢や動きが、演者の実際の姿勢や動きから乖離したり、不自然なものとなったりするおそれがある。従来、かかるエラーは、人間により手作業で補正されてきた。しかしながら、手作業によるエラーの補正は、煩雑かつ高コストである。

特許文献１には、骨格情報のうち注目部位に対応する位置を示す位置情報を補正すること（［０００６］）、および位置情報を補正するにあたり、学習アルゴリズムを使用することが（［００５５］）が記載されている。

また、非特許文献１には、生の光学ＭＣデータに含まれるエラーを補正する技法が開示されている。具体的には、非特許文献１では、入力姿勢（ボーンデータ）に基づいて算出された後に模擬的なエラーを付加されたマーカー位置データから、この入力姿勢に近い姿勢を生成するように学習されたニューラルネットワークが開示されている。

特開２０１７−１０７５０３号公報

ＤａｎｉｅｌＨｏｌｄｅｎ， "Ｒｏｂｕｓｔｓｏｌｖｉｎｇｏｆｏｐｔｉｃａｌｍｏｔｉｏｎｃａｐｔｕｒｅｄａｔａｂｙｄｅｎｏｉｓｉｎｇ"，［ｏｎｌｉｎｅ］ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ（ＴＯＧ）．Ｖｏｌｕｍｅ３７，Ｉｓｓｕｅ４，Ａｕｇｕｓｔ２０１８．ＡｒｔｉｃｌｅＮｏ．１６５．平成３０年９月３０日検索，＜ＵＲＬ：ｈｔｔｐｓ：／／ｄｌ．ａｃｍ．ｏｒｇ／ｃｉｔａｔｉｏｎ．ｃｆｍ？ｉｄ＝３１９７５１７．３２０１３０２＞

特許文献１に記載の技法は、全身の位置情報ではなく限られた注目部位の位置情報を補正するものである。加えて、この技法では、注目部位の位置情報の補正において、注目部位以外の部位の位置情報は参照されない、すなわちラベリングミスがないことを前提としている。故に、この技法によれば、ラベリングミスが生じていたとしてもこれを検知することはできず、例えば、注目部位以外の部位に対応するはずの位置情報が注目部位の位置情報として補正されることで、かえって誤差が大きくなる可能性がある。

また、非特許文献１に記載の技法は、学習済みのニューラルネットワークにより、ノイズを伴うマーカー位置データからこのノイズが補正されたボーンデータを生成する。すなわち、この技法では、マーカー位置データそのものの補正結果を直接的に得ることはできない。加えて、この技法により高精度な補正を実現するためには、人間の全身のマーカー位置データとボーンデータとの相関を学習する必要があるので、大規模な学習データが必要となるとであろう。

本発明は、機械学習に用いられる学習データの規模を抑制しつつ、学習モデルにより動体の複数の部位の位置データを高精度に補正することを目的とする。

実施形態によれば、データ補正装置は、取得部と、分類部と、第１の補正部と、第２の補正部とを含む。取得部は、動体の複数の部位の位置データを取得する。分類部は、複数の部位のうちの少なくとも一部の位置データの各々を、当該位置データに対応する部位に依存して、第１のグループおよび第２のグループを含む複数のグループのうちの少なくとも１つに属するように分類する。第１の補正部は、第１の学習モデルによって、第１のグループの位置データを補正し、第１のグループの補正済み位置データを生成する。第２の補正部は、第２の学習モデルによって、第２のグループの位置データを補正し、第２のグループの補正済み位置データを生成する。

本発明によれば、機械学習に用いられる学習データの規模を抑制しつつ、学習モデルにより動体の複数の部位の位置データを高精度に補正することができる。

実施形態に係るデータ補正装置を例示するブロック図。図１のデータ補正装置を適用可能なコンテンツ共有システムを例示するブロック図。図２のクライアントによって生成されるＭＣデータおよびその分類例の説明図。グループの構造の一例を示す図。図４のグループ構造に適したデータ補正部を例示するブロック図。図５の各要素によって利用される学習モデルを作成するために用いられる学習データを例示する図。グループの構造の別の例を示す図。図７のグループ構造に適したデータ補正部を例示するブロック図。図１のデータ補正装置の動作を例示するフローチャート。

以下、図面を参照しながら実施形態の説明を述べる。なお、以降、説明済みの要素と同一または類似の要素には同一または類似の符号を付し、重複する説明については基本的に省略する。例えば、複数の同一または類似の要素が存在する場合に、各要素を区別せずに説明するために共通の符号を用いることがあるし、各要素を区別して説明するために当該共通の符号に加えて枝番号を用いることもある。

（実施形態）
実施形態に係るデータ補正装置は、例えば動体の複数の部位（光学ＭＣデータの場合には、動体の複数の部位に取り付けられたマーカー）の３次元位置データを有するＭＣデータを補正する。なお、このデータ補正装置は、ＭＣデータに限らず複数の位置データを含むデータセットを補正可能であるが、以降の説明では便宜的にＭＣデータを補正することを前提とする。また、このデータ補正装置は、２次元などの３次元以外の位置データにも適用可能である。

ＭＣデータは、例えば、ＭＣスタジオにおいて本格的に生成されてもよいし（第１の例）、例えばコンテンツ共有システムによって共有されることになるコンテンツ、例えば動画、またはＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ）、ＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）、ＭＲ（ＭｉｘｅｄＲｅａｌｉｔｙ）などの仮想的コンテンツの演者（配信者）の自宅などで簡易に生成されてもよい（第２の例）。

第１の例では、演者はマーカー付きの全身タイツなどを装着することで、その身体の複数の部位の動きをマーカーを介して補足できるようにする。そして、スタジオ内に設置された複数のカメラが、異なるアングルから演者を撮影する。クライアント（例えば、スタジオ内に設置されたコンピュータ、または複数の画像データを収集可能にネットワーク、例えばインターネットに接続された遠隔コンピュータ）が、複数の画像からマーカーの３次元位置を検出することにより、ＭＣデータを生成する。

第２の例では、演者は、例えば慣性センサなどのセンサを内蔵したＨＭＤを頭部に装着し、および／またはセンサを内蔵したコントローラ（操作スティックとも呼ぶ）を把持する。そして、クライアントは、これらのセンサの計測結果であるセンシングデータを収集し、これらのセンシングデータに基づいて、演者の身体の複数の部位、例えば頭部および／または手の動きを計算することで、ＭＣデータを生成する。第２の例において、クライアントは、例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、スマートフォンであってもよいし、または複数のセンシングデータを収集可能にネットワーク、例えばインターネットに接続された遠隔コンピュータであってもよい。

ＭＣデータに基づいてアバター画像を生成（レンダリング）することで、演者の挙動に併せて身体を動かすアバターが登場する動画または仮想的コンテンツを作成することが可能となる。この場合に、ＭＣデータは、動画または仮想的コンテンツの１フレーム毎に生成され得る。かかる動画または仮想的コンテンツの共有を可能とするコンテンツ共有システムが図２に例示される。

図２のシステムは、クライアント２００と、サーバ３００と、観客端末４００−１，４００−２，・・・とを含む。

クライアント２００は、例えば演者の居るＭＣスタジオ、家庭内などにあるコンピュータであってもよいし、演者から得られた画像データ、センシングデータなどをネットワーク、例えばインターネット経由で収集する遠隔コンピュータであってもよい。クライアント２００は、演者から得られた画像データ、センシングデータなどに基づいて、生のＭＣデータを生成する。ＭＣデータは、図３に例示されるように、演者の身体の複数の部位に取り付けられたマーカー（白丸）それぞれの３次元位置データを含み得る。なお、図３の例では、マーカーがグループ１およびグループ２に分類されているが、グループの詳細は後述する。クライアント２００は、生のＭＣデータを補正してからサーバ３００へ送信してもよいし、生のＭＣデータをそのままサーバ３００へ送信してもよい。クライアント２００が生のＭＣデータを補正する場合には、実施形態に係るデータ補正装置はクライアント２００に含まれることになる。なお、クライアント２００および配信者端末が異なる場合には、生のＭＣデータまたは補正済みＭＣデータは、配信者端末経由でサーバ３００へ送信されてもよい。

サーバ３００は、ネットワーク、例えばインターネットに接続されたコンピュータである。サーバ３００は、クライアント２００からネットワーク経由でＭＣデータを受信する。このＭＣデータは、生のＭＣデータであるかもしれないし、補正済みＭＣデータであるかもしれない。サーバ３００は、受信した生のＭＣデータを補正し得る。この場合に、実施形態に係るデータ補正装置はサーバ３００に含まれることになる。サーバ３００は、クライアント２００から受信した補正済みＭＣデータ、または自ら生成した補正済みＭＣデータを観客端末４００（および配信者端末）へ配信する。

なお、サーバ３００は、補正済みＭＣデータそのものではなく、当該データに基づいてアバター画像、またはこれを含む動画もしくは仮想的コンテンツを生成し、これを観客端末４００（および配信者端末）へ配信してもよい。或いは、クライアント２００または配信者端末が、補正済みＭＣデータに基づいて、アバター画像、またはこれを含む動画もしくは仮想的コンテンツを生成し、これをサーバ３００へ送信してもよい。すなわち、アバター画像は、サーバ３００によって生成されてもよいし、観客端末４００（および配信者端末）によって生成されてもよい。ここでは、１つのサーバ３００がＭＣデータの補正、補正済みＭＣデータに基づくアバター画像、および／またはこれを含む動画または仮想的コンテンツの生成、ならびにアバター画像、動画または仮想的コンテンツの配信を行うこととしているが、これらは別個のサーバによって分担されてもよい。

アバター画像をサーバ３００によって生成すれば、観客端末４００（および配信者端末）がアバター画像を生成するための十分なマシンパワーを有していなかったとしても、観客（および配信者）が同一の動画または仮想的コンテンツを楽しむことができるという利点がある。他方、アバター画像を観客端末４００（およびクライアント２００または配信者端末）によって生成すれば、画像データに比べてサイズの小さなＭＣデータが伝送されるので通信量を抑制することができる、サーバ３００の処理負荷を軽減できる、さらに観客（および配信者）が個別に好みの外観（キャラクター、ファッション、など）のアバターを設定可能とすることで観客（および配信者）が挙動は同じだがアバターの外観は異なる動画または仮想的コンテンツを楽しむことができる、などの利点がある。

なお、配信者端末は補正済みＭＣデータまたはこれに基づくアバター画像の宛先から除外されてもよい。また、配信者端末およびクライアント２００は互いに別の装置であってもよいし、両者が同一の装置であってもよい。ここで、配信者端末は、例えば、ＰＣ、モバイル端末（例えば、タブレット、ファブレット、スマートフォン、ラップトップ、ウェアラブルデバイス、ポータブルゲーム機、など）、据え置き型ゲーム機、などのネットワーク、例えばインターネット接続可能な電子デバイスであってよく、配信者がＨＭＤにより動画または仮想的コンテンツを体験する場合には配信者端末はこのＨＭＤの制御装置として機能し得る。

観客端末４００は、図２のシステムによって共有されるコンテンツの受け手である観客にこのコンテンツを体験させる。観客端末４００は、配信者端末と同様にネットワーク、例えばインターネット接続可能な電子デバイスであってよい。観客端末４００は、観客がＨＭＤにより動画または仮想的コンテンツを体験する場合には観客端末４００はこのＨＭＤの制御装置として機能し得る。観客端末４００は、サーバ３００からネットワーク経由で、補正済みＭＣデータ、またはこれに基づくアバター画像、またはこれを含む動画もしくは仮想的コンテンツを受信する。観客端末４００は、受信したＭＣデータに基づいてアバター画像を含む動画または仮想的コンテンツを生成、出力したり、受信したアバター画像に基づいて当該アバター画像を含む動画または仮想的コンテンツを生成、出力したり、受信した動画または仮想的コンテンツを出力したりする。動画または仮想的コンテンツは、観客端末４００に内蔵、外付けまたは無線接続された表示デバイス、例えば液晶ディスプレイ、有機ＥＬ（ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、ＨＭＤなどによって出力（表示）され得る。

なお、図２のシステムでは、Ｃ／Ｓ（Ｃｌｉｅｎｔ／Ｓｅｒｖｅｒ）型のネットワーク経由でＭＣデータなどが伝送されているが、かかるデータはＰ２Ｐ（ＰｅｅｒｔｏＰｅｅｒ）型のネットワーク経由で、すなわちクライアント２００に相当するＭＣデータ生成装置から観客端末４００へ直接伝送されてもよい。Ｐ２Ｐ型のネットワークの例では、ＭＣデータ生成装置が生のＭＣデータを観客端末４００へ送信し、観客端末４００が生のＭＣデータを補正することもあり得る。この場合に、実施形態に係るデータ補正装置は、観客端末４００に含まれることになる。すなわち、実施形態に係るデータ補正装置は、クライアント２００、サーバ３００、または観客端末４００のいずれに含まれることもあり得る。

次に、実施形態に係るデータ補正装置を説明する。このデータ補正装置は、データ補正を含む処理を行うプロセッサを含む。ここで、プロセッサは、典型的にはＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）および／またはＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）であるが、マイコン、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、またはその他の汎用または専用のプロセッサなどであってもよい。

また、データ補正装置は、かかる処理を実現するためにプロセッサによって実行されるプログラムおよび当該プロセッサによって使用されるデータ、例えば、生のＭＣデータ、補正済みＭＣデータ、両者の中間的なＭＣデータ、および後述される分類規則を一時的に格納し得るメモリを含んでいる。メモリは、かかるプログラム／データが展開されるワークエリアを有するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を含み得る。

なお、データ補正装置１００は、全てのデータをオンメモリの状態で扱ってもよいし、一部のデータが補助記憶装置に退避されていてもよい。補助記憶装置は、例えば、データ補正装置１００に内蔵または外付けされたＨＤＤ（ＨａｒｄＤｉｓｃＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、フラッシュメモリなどであってもよいし、データ補正装置１００からアクセス可能なデータベースサーバであってもよい。

図１は、実施形態に係るデータ補正装置１００を例示する。このデータ補正装置１００は、データ取得部１０１と、データ分類部１０２と、分類規則記憶部１０３と、データ補正部１１０とを含む。

データ取得部１０１は、クライアント２００によって生成された補正前の、例えば生のＭＣデータを取得する。データ取得部１０１は、取得したＭＣデータをデータ分類部１０２へ送る。データ取得部１０１は、例えば前述のプロセッサに相当し得る。

このＭＣデータは、典型的には人間（演者）の複数の部位の３次元位置データに相当するが、人間に限らず動物などの他の生体、または機械などの他の動体の複数の部位の３次元位置データにも相当し得る。ここで、部位とは、ＭＣデータの計測点を意味しており、例えばマーカーの装着点であり得る。

データ補正装置１００がクライアント２００に含まれる場合には、ＭＣデータは当該クライアント２００において作成され、データ補正装置１００に渡され得る。他方、データ補正装置１００がサーバ３００または観客端末４００に含まれる場合には、ＭＣデータは当該サーバ３００または観客端末４００によってクライアント２００からネットワーク経由で受信され、データ補正装置１００に渡され得る。

データ分類部１０２は、データ取得部１０１からＭＣデータを受け取る。データ分類部１０２は、ＭＣデータに含まれる複数の部位の３次元位置データの各々を、その対応する部位に依存して、予め定義されている複数のグループ（一次的な補正が行われるグループ）のうちの少なくとも１つに属するように分類する。ここで、データ分類部１０２によって行われる分類は、図３に例示されるように重複を許容する。故に、ある部位の３次元位置データがあるグループと別のグループとの両方に属することもあり得る。図３の例では、腰部を含む上半身の部位の３次元位置データはグループ１に分類され、腰部を含む下半身の部位の３次元位置データはグループ２に分類されるので、腰部にある部位の３次元位置データはグループ１にもグループ２にも属している。グループの構造は、分類規則記憶部１０３に保存された分類規則によって定義されている。データ分類部１０２は、グループ毎に、（補正前の）３次元位置データをデータ補正部１１０へ送る。データ分類部１０２は、例えば前述のプロセッサに相当し得る。

なお、データ分類部１０２は、データ取得部１０１からのＭＣデータに含まれる全要素を分類する必要はなく、ＭＣデータに含まれる複数の部位のうちの少なくとも一部の３次元データについて分類すればよい。データ分類部１０２は、例えば、補正に使用されない部位、または最終的な補正済みのＭＣデータに含まれない部位の３次元位置データを分類しなくてもよい。

分類規則記憶部１０３は、分類規則を保存する。分類規則は、グループの構造、例えばそれぞれのグループに対応する部位、言い換えると当該グループに分類されるべき３次元位置データに対応する部位を定める。分類規則記憶部１０３に保存された分類規則は、データ分類部１０２によって参照され得る。分類規則記憶部１０３は、前述のメモリおよび／または補助記憶装置に相当し得る。

動体が骨格を有している場合には、この骨格の構造、例えば動体の部位の動きのメカニズム、に基づいてグループの構造が分類規則において定義されてもよい。例えば、動体の持つ可動関節の一部または全部がグループ間の境界として定められてもよく、境界となる可動関節よりも末端側に位置する部位（およびこの可動関節）と、当該可動関節よりも中心側に位置する部位（およびこの可動関節）とが異なるグループに対応すると定義されてもよい。

また、グループは、例えば、手（手首および指を含み得る）、前腕（手首および肘を含み得る）、上腕（肘および胸部を含み得る）、頭部（頸部を含み得る）、胴部（頸部、胸部および腰部を含み得る）、大腿（腰部および膝を含み得る）、下腿（膝および足首を含み得る）、足（足首および指を含み得る）のように身体のパーツ別に定義されてもよい。なお、手のように左右一対存在するパーツについては、左右で異なるグループに対応するように定義されてよい。

さらに、グループは、上述のいくつかのパーツをマージするように定義されてもよい。例えば、手、前腕および上腕は上肢としてマージされてもよいし、大腿、下腿および足は下肢としてマージされてもよい。或いは、上半身（手、前腕、上腕、頭部および胴部）および下半身（大腿、下腿、および足）がそれぞれ異なるグループに対応するように定義されてもよいし、左半身（左手、左前腕、左上腕、頭部（右側が除かれてもよい）、胴部（右側が除かれてもよい）、左大腿、左下腿、および左足）および右半身（右手、右前腕、右上腕、頭部（左側が除かれてもよい）、胴部（左側が除かれてもよい）、右大腿、右下腿、および右足）がそれぞれ異なるグループに対応するように定義されてもよい。

なお、複数のグループは、階層的に定義されてもよい。例えば図４に示されるように、複数の部位の３次元位置データ（丸印）の一次的な分類先として第１のグループおよび第２のグループが定義され、この第１のグループと第２のグループとを包含する第３のグループが定義されてもよい。また、第３のグループは、第１のグループの３次元位置データの少なくとも一部と第２のグループの３次元位置データの少なくとも一部とを包含する、というように完全でない包含関係が定義されてもよい。さらに、階層は、２層に限らず３層以上であってもよい。例えば図７に示されるように、複数の部位の３次元位置データ（丸印）の一次的な分類先として第１のグループ、第２のグループおよび第３のグループが定義され、この第１のグループと第２のグループとを包含する第４のグループ、それからこの第３のグループと第４のグループとを包含する第５のグループがさらに定義されてもよい。この場合に、第５のグループは、第１のグループおよび第２のグループから見て２つ上の階層に位置する。

複数の部位の３次元位置データをこのように分類することにより、各グループから空間的に遠く相関が低いと予想される部位の３次元位置データが排除されるので、当該グループに対応する部位の３次元位置データ同士の相関を効率的に学習し、高精度な補正をすることができる。例えば、通常は左手の動きと右足の動きとの相関は低く、右足の動きと右下腿および右大腿の相関は高いと予想されるが、例えば右下肢を左手とは異なるグループに対応するように定義すれば、左手の３次元位置データに影響されることなく、右下腿および右大腿の３次元位置データと右足の３次元位置データとの相関を効率的に学習して右足の３次元位置データを補正することが可能となる。

データ補正部１１０は、データ分類部１０２から、グループ毎に、（補正前の）３次元位置データを受け取る。データ補正部１１０は、分類規則において定義されるグループ構造に従って、グループ毎に、機械学習済みの学習モデルによって当該グループの３次元位置データを補正する。図４および図７に例示されるように、複数のグループが階層的に定義されている場合には、二次、または三次以上の補正が行われてもよい。データ補正部１１０は、最終的に、複数の部位の補正済み３次元位置データを生成し、出力する。

ここで、データ補正装置１００がクライアント２００またはサーバ３００に含まれる場合には、複数の部位の補正済み３次元位置データは当該クライアント２００またはサーバ３００それぞれに渡され、サーバ３００（もしくは観客端末４００）または観客端末４００へそれぞれネットワーク経由で送信され得る。他方、データ補正装置１００が観客端末４００に含まれる場合には、複数の部位の補正済み３次元位置データは当該観客端末４００に渡され、例えばアバター画像の生成に利用され得る。データ補正部１１０は、例えば前述のプロセッサに相当し得る。

一般に、学習モデルは、例えば学習データの規模が不十分であるなどの原因で、本来は相関が低いであろうデータ同士の相関が過剰に高いと学習されたり、逆に本来は相関が高いであろうデータ同士の相関が過剰に低いと学習されたりすることがあり得る。しかしながら、データ分類部１０２によって位置データは、例えば互いに空間的に近い、すなわち相関が高いと予想される位置データ同士が同一グループに属するように分類され得るし、後述するように、データ補正部１１０によって利用される学習モデルは、それぞれグループ毎の機械学習の学習結果、例えばニューラルネットワーク重み、が設定される。この機械学習によれば、本来は相関が低いであろう位置データ同士の相関は学習されないので、各グループ向けの学習モデルにおいて当該グループに属する位置データ同士の相関が適切に学習されやすくなる。故に、全部位の位置データの相関を学習する場合に比べて使用する学習データを減らしたとしても、位置データを高精度に補正することができる。

例えば図４のグループ構造が採用されている場合には、データ補正部１１０は図５に例示されるようにグループ１補正部１１１と、グループ２補正部１１２と、グループ３補正部１１３とを含み得る。

グループ１補正部１１１は、データ分類部１０２からグループ１に対応する複数の部位の３次元位置データ（以降、単にグループ１の３次元位置データと称する）を受け取る。グループ１補正部１１１は、第１の学習モデルによって、グループ１の３次元位置データを補正し、グループ１に対応する複数の部位の補正済み３次元位置データ（以降、単にグループ１の補正済み３次元位置データと称する）を生成する。グループ１補正部１１１は、グループ１の補正済み３次元位置データをグループ３補正部１１３へ送る。

同様に、グループ２補正部１１２は、データ分類部１０２からグループ２に対応する複数の部位の３次元位置データ（以降、単にグループ２の３次元位置データと称する）を受け取る。グループ２補正部１１２は、第２の学習モデルによって、グループ２の３次元位置データを補正し、グループ２に対応する複数の部位の補正済み３次元位置データ（以降、単にグループ２の補正済み３次元位置データと称する）を生成する。グループ２補正部１１２は、グループ２の補正済み３次元位置データをグループ３補正部１１３へ送る。

ここで、第１の学習モデルおよび第２の学習モデルのうちの少なくとも１つは、ＤＡＥ（Ｄｅ−ｎｏｉｓｉｎｇＡｕｔｏｅｎｃｏｄｅｒ）に類似した機能を有する。この学習モデルには、学習対象となるグループ（第１の学習モデルではグループ１であり、第２の学習モデルではグループ２である）に対応する複数の部位のクリーンな３次元位置データを目標ベクトル（または教師データ）とし、学習対象となるグループに対応する複数の部位の、エラー（ノイズ、欠測、フリップ）を伴う３次元位置データを入力ベクトル（または入力データ）とする学習データを用いた機械学習（教師あり学習）の学習結果が設定され得る。

上記クリーンな３次元位置データは、生のＭＣデータに含まれる生の３次元位置データを手作業で補正することで用意されてもよいし、人工的にエラーを伴わない３次元位置データを生成することで用意されてもよいし、かかる３次元位置データまたは人工的に生成された３次元位置データに変換、例えば、平行移動、回転、拡大／縮小、せん断写像などを適用することで用意されてもよい。他方、エラーを伴う３次元位置データは、生のＭＣデータに含まれる生の３次元位置データであってもよいし、上記クリーンな３次元位置データの少なくとも１つの要素に（人工的に）エラーを付加することで用意されてもよいし、かかる生の３次元位置データまたはエラー付加された３次元位置データに変換を適用することで用意されてもよい。

グループ３補正部１１３は、グループ１補正部１１１およびグループ２補正部１１２からグループ１の補正済み３次元位置データおよびグループ２の補正済み３次元位置データをそれぞれ受け取る。グループ３補正部１１３は、グループ１の（一次的な）補正済み３次元位置データおよびグループ２の（一次的な）補正済み３次元位置データを補正し、グループ３に対応する複数の部位の（二次的な）補正済み３次元位置データ（以降、単にグループ３の補正済み３次元位置データと称する）を生成する。図４および図５の例では、このグループ３の補正済み３次元位置データが最終的な補正済みＭＣデータに相当する。

例えば、グループ３補正部１１３は、第３の学習モデルによって、グループ１の補正済み３次元位置データおよびグループ２の補正済み３次元位置データを補正し、グループ３の補正済み３次元位置データを生成してもよい。第１のグループおよび第２のグループの間に重複する要素がない場合には、第３の学習モデルは、第１の学習モデルおよび第２の学習モデルと同様の機械学習により作成可能であり、ＤＡＥに類似した機能を有する。他方、図４および図５に例示されるように第１のグループおよび第２のグループの間に重複する要素がある場合には、第３の学習モデルは、グループ３に対応する複数の部位のクリーンな位置データを含む目標ベクトルと、グループ１に対応する複数の部位のクリーンな位置データおよびグループ２に対応する複数の部位のクリーンな位置データとを結合して得られるベクトルの少なくとも１つの要素にエラーを付加して得られる入力ベクトルとを含む学習データを用いて実行された機械学習の学習結果が設定され得る。

なお、この入力ベクトルは、同一の（エラーを伴う）ＭＣデータに含まれる第１のグループおよび第２のグループの３次元位置データを第１の学習モデルおよび第２の学習モデルによってそれぞれ補正してから結合することで生成されてもよい。ここでの第１の学習モデルおよび第２の学習モデルは、学習済みであってもよいし、学習途中であってもよい。

図５のグループ１補正部１１１、グループ２補正部１１２およびグループ３補正部１１３によってそれぞれ利用される学習モデル、すなわち第１の学習モデル、第２の学習モデルおよび第３の学習モデルを作成するために実施される機械学習における学習データを図６に例示する。

図６の例では、全部で５３個の部位の３次元位置データが補正の対象となる。グループ１には３６個の部位が対応し、グループ２には２４個の部位が対応する。故に、両グループで重複する要素は７個（＝３６＋２４−５３）である。便宜的に、グループ１に対応する部位のラベルを「１」〜「３６」とし、グループ２に対応するラベルを「３０」〜「５３」としている。

第１の学習モデルのための学習データは、ラベル「１」〜「３６」に対応する３６個の部位のクリーンな３次元位置データである目標ベクトル（ｍ_１＝（ｐ_１，ｐ_２，・・・，ｐ_３５，ｐ_３６））と、この目標ベクトルの少なくとも１つの要素にエラーを付加した入力ベクトルと（ｍ’_１＝（ｐ’_１，ｐ’_２，・・・，ｐ’_３５，ｐ’_３６）を含む。すなわち、ｐ_１≠ｐ’_１，ｐ_２≠ｐ’_２，・・・，ｐ_３５≠ｐ’_３５，ｐ_３６≠ｐ’_３６の少なくとも１つが成り立つ。

同様に、第２の学習モデルのための学習データは、ラベル「３０」〜「５３」に対応する２４個の部位のクリーンな３次元位置データである目標ベクトル（ｍ_２＝（ｐ_３０，ｐ_３１，・・・，ｐ_５２，ｐ_５３））と、この目標ベクトルの少なくとも１つの要素にエラーを付加した入力ベクトルと（ｍ’_２＝（ｐ’’_３０，・・・，ｐ’’_３６，ｐ’_３７，・・・，ｐ’_５２，ｐ’_５３）を含む。すなわち、ｐ_３０≠ｐ’’_３０，ｐ_３６≠ｐ’’_３６，ｐ_３７≠ｐ’_３７，・・・，ｐ_５２≠ｐ’_５２，ｐ_５３≠ｐ’_５３の少なくとも１つが成り立つ。

他方、第３の学習モデルのための学習データは、全ラベル「１」〜「５３」に対応する５３個の部位のクリーンな３次元位置データである目標ベクトル（ｍ_３＝（ｐ_１，ｐ_２，・・・，ｐ_５２，ｐ_５３））と、上記ｍ１およびｍ２を結合して得られるベクトル（ｐ_１，ｐ_２，・・・，ｐ_３０，・・・，ｐ_３６，ｐ_３０，・・・，ｐ_３６，ｐ_３７，・・・，ｐ_５２，ｐ_５３）の少なくとも１つの要素にエラーを付加した入力ベクトルと（ｍ’_３＝（ｐ’’_１，ｐ’’_２，・・・，ｐ’’_２９，ｐ’’’_３０，・・・ｐ’’’_３６，ｐ’’’’_３０，・・・ｐ’’’’_３６，ｐ’’_３７，・・・，ｐ’’_５２，ｐ’’_５３）を含む。すなわち、ｐ_１≠ｐ’’_１，ｐ_２≠ｐ’’_２，・・・，ｐ_２９≠ｐ’’_２９，ｐ_３０≠ｐ’’’_３０，・・・，ｐ_３６≠ｐ’’’_３６，ｐ_３０≠ｐ’’’’_３０，・・・，ｐ_３６≠ｐ’’’’_３６，ｐ_３７≠ｐ’’_３７，・・・，ｐ_５２≠ｐ’’_５２，ｐ_５３≠ｐ’’_５３の少なくとも１つが成り立つ。

或いは、グループ３補正部１１３は、グループ１の補正済み３次元位置データおよびグループ２の補正済み３次元位置データを統合するように補正し、グループ３の補正済み３次元位置データを生成してもよい。

例えば、グループ３補正部１１３は、グループ１の補正済み３次元位置データおよびグループ２の補正済み３次元位置データの間で重複する要素を例えばグループ１およびグループ２間に亘る（より一般化すれば、異なるグループ間に亘る）同一要素の平均化、最頻値抽出、中央値抽出、最大値抽出、最小値抽出、四分位数抽出、などの統計処理により決定してもよい。さらに、グループ３補正部１１３は、この重複要素に対する補正に基づいて、グループ１の補正済み３次元位置データのうちの当該重複要素を除いた要素と、グループ２の補正済み３次元位置データのうちの当該重複要素を除いた要素とをそれぞれ補正してもよい。具体的には、グループ３補正部１１３は、グループ１の補正済み３次元位置データのうちの重複要素に例えばｄ_１の変位を加えたならば、グループ１の補正済み３次元位置データのうちの重複要素以外の要素にもｄ_１の変位を加えてよい。同様に、グループ３補正部１１３は、グループ２の補正済み３次元位置データのうちの重複要素に例えばｄ_２の変位を加えたならば、グループ２の補正済み３次元位置データのうちの重複要素以外の要素にもｄ_２の変位を加えてよい。

なお、前述のように、グループ３は、グループ１の３次元位置データの少なくとも一部とグループ２の３次元位置データの少なくとも一部とを包含するようにも定義され得る。かかる場合に、グループ３補正部１１３は、以下のように変形され得る。

グループ３補正部１１３は、グループ１補正部１１１およびグループ２補正部１１２からグループ１の補正済み３次元位置データの少なくとも一部（グループ３に対応する部位の３次元位置データ）およびグループ２の補正済み３次元位置データの少なくとも一部（グループ３に対応する部位の３次元位置データ）をそれぞれ受け取る。グループ３補正部１１３は、グループ１の補正済み３次元位置データの少なくとも一部およびグループ２の補正済み３次元位置データの少なくとも一部を補正し、グループ３の補正済み３次元位置データを生成する。

例えば、グループ３補正部１１３は、学習モデルによって、グループ１の補正済み３次元位置データの少なくとも一部およびグループ２の補正済み３次元位置データの少なくとも一部を補正し、グループ３の補正済み３次元位置データを生成してもよい。この学習モデルは、グループ１に対応する部位の一部（グループ３に対応しない部位）と、グループ２に対応する部位の一部（グループ３に対応しない部位）とが学習の対象とならない点を除けば、前述の第３の学習モデルと同様の機械学習により作成可能である。或いは、グループ３補正部１１３は、グループ１の補正済み３次元位置データおよびグループ２の補正済み３次元位置データを統合するように補正し、このグループ３の補正済み３次元位置データを生成してもよい。

他方、例えば図７のグループ構造が採用されている場合には、データ補正部１１０は図８に例示されるようにグループ１補正部１２１と、グループ２補正部１２２と、グループ３補正部１２３と、グループ４補正部１２４と、グループ５補正部１２５とを含み得る。

グループ１補正部１２１は、データ分類部１０２からグループ１の３次元位置データを受け取る。グループ１補正部１２１は、学習モデルによって、グループ１の３次元位置データを補正し、グループ１の補正済み３次元位置データを生成する。グループ１補正部１２１は、グループ１の補正済み３次元位置データをグループ４補正部１２４へ送る。

同様に、グループ２補正部１２２は、データ分類部１０２からグループ２の３次元位置データを受け取る。グループ２補正部１２２は、学習モデルによって、グループ２の３次元位置データを補正し、グループ２の補正済み３次元位置データを生成する。グループ２補正部１２２は、グループ２の補正済み３次元位置データをグループ４補正部１２４へ送る。

同様に、グループ３補正部１２３は、データ分類部１０２からグループ３の３次元位置データを受け取る。グループ３補正部１２３は、学習モデルによって、グループ３の３次元位置データを補正し、グループ３の補正済み３次元位置データを生成する。グループ３補正部１２３は、グループ３の補正済み３次元位置データをグループ５補正部１２５へ送る。

グループ１補正部１２１、グループ２補正部１２２およびグループ３補正部１２３によって利用される学習モデルは、前述の第１の学習モデルおよび第２の学習モデルの例と同様の機械学習により作成可能である。

グループ４補正部１２４は、グループ１補正部１２１およびグループ２補正部１２２からグループ１の補正済み３次元位置データおよびグループ２の補正済み３次元位置データをそれぞれ受け取る。グループ４補正部１２４は、グループ１の（一次的な）補正済み３次元位置データおよびグループ２の（一次的な）補正済み３次元位置データを補正し、グループ４に対応する複数の部位の（二次的な）補正済み３次元位置データ（以降、単にグループ４の補正済み３次元位置データと称する）を生成する。

例えば、グループ４補正部１２４は、学習モデルによって、グループ１の補正済み３次元位置データおよびグループ２の補正済み３次元位置データを補正し、グループ４の補正済み３次元位置データを生成してもよい。この学習モデルは、前述の第３の学習モデルと同様の機械学習により作成可能である。或いは、グループ４補正部１２４は、前述のグループ３補正部１１３と同様に、グループ１の補正済み３次元位置データおよびグループ２の補正済み３次元位置データを統合するように補正し、このグループ４の補正済み３次元位置データを生成してもよい。

グループ５補正部１２５は、グループ３補正部１２３およびグループ４補正部１２４からグループ３の補正済み３次元位置データおよびグループ４の補正済み３次元位置データをそれぞれ受け取る。グループ５補正部１２５は、グループ３の（一次的な）補正済み３次元位置データおよびグループ４の（二次的な）補正済み３次元位置データを補正し、グループ５に対応する複数の部位の（二次的または三次的な）補正済み３次元位置データ（以降、単にグループ５の補正済み３次元位置データと称する）を生成する。図７および図８の例では、このグループ５の補正済み３次元位置データが最終的な補正済みＭＣデータに相当する。

例えば、グループ５補正部１２５は、学習モデルによって、グループ３の補正済み３次元位置データおよびグループ４の補正済み３次元位置データを補正し、グループ５の補正済み３次元位置データを生成してもよい。この学習モデルは、前述の第３の学習モデルと同様の機械学習により作成可能である。或いは、グループ５補正部１２５は、前述のグループ３補正部１１３と同様に、グループ３の補正済み３次元位置データおよびグループ４の補正済み３次元位置データを統合するように補正し、このグループ５の補正済み３次元位置データを生成してもよい。

以下、図９を用いて、データ補正装置１００の動作を説明する。
まず、データ取得部１０１は、クライアント２００、サーバ３００、または観客端末４００などからＭＣデータを取得する（ステップＳ５０１）。

データ分類部１０２は、分類規則記憶部１０３に保存された分類規則を参照し、ステップＳ５０１において取得されたＭＣデータに含まれる複数の部位の３次元位置データを、当該３次元位置データに対応する部位に依存して、複数のグループのうちの少なくとも１つに属するように分類する（ステップＳ５０２）。ステップＳ５０２の後に、処理はステップＳ５０３へ進む。

ステップＳ５０３において、データ補正部１１０は、補正が完了していないグループ、すなわち残存するグループのうちの最も下位のグループの各々について３次元位置データを補正する。ここで、例えば、グループＡがグループＢを包含する場合に、グループＡはグループＢよりも上位であると定義され、グループＢはグループＡよりも下位であると定義される。図４および図５の例では、データ補正部１１０は最初にグループ１およびグループ２についてそれぞれ３次元位置データを補正する。他方、図７および図８の例では、データ補正部１１０は最初に、グループ１、グループ２およびグループ３についてそれぞれ３次元位置データを補正する。

ステップＳ５０３に続くステップＳ５０４では、当該ステップＳ５０３により全てのグループについての補正が完了すれば、データ補正部１１０は当該ステップＳ５０３において生成した補正済み３次元位置データを最終的な補正済みＭＣデータとして出力し、図９の処理は終了する。他方、ステップＳ５０４の直前のステップＳ５０３によっても全てのグループについての補正が完了していなければ、すなわち補正が完了していないグループが残存していれば、より上位のグループについて補正を行う必要があるので、処理はステップＳ５０３に戻る。

以上説明したように、実施形態に係るデータ補正装置は、動体の複数の部位の位置データの各々を複数のグループのうちの少なくとも１つに属するように分類し、グループ毎に機械学習済みの学習モデルによって位置データを補正する。位置データは、例えば互いに空間的に近い、すなわち相関が高いと予想される位置データ同士が同一グループに属するように分類され得る。これにより、例えば空間的に離れた、すなわち相関が低いと予想される位置データの影響を排除した機械学習により作成された学習モデルを利用して、位置データを高精度に補正することができる。一般に、学習モデルは、例えば学習データの規模が不十分であるなどの原因で、本来は相関が低いであろうデータ同士の相関が過剰に高いと学習されたり、逆に本来は相関が高いであろうデータ同士の相関が過剰に低いと学習されたりすることがあり得る。しかしながら、このデータ補正装置によって利用される学習モデルは、それぞれグループ毎の機械学習の学習結果、例えばニューラルネットワーク重み、が設定される。この機械学習によれば、本来は相関が低いであろう位置データ同士の相関は学習されないので、各グループ向けの学習モデルにおいて当該グループに属する位置データ同士の相関が適切に学習されやすくなる。故に、全部位の位置データの相関を学習する場合に比べて使用する学習データを減らしたとしても、位置データを高精度に補正することができる。

上述の実施形態は、本発明の概念の理解を助けるための具体例を示しているに過ぎず、本発明の範囲を限定することを意図されていない。実施形態は、本発明の要旨を逸脱しない範囲で、様々な構成要素の付加、削除または転換をすることができる。

上述の実施形態では、いくつかの機能部を説明したが、これらは各機能部の実装の一例に過ぎない。例えば、１つの装置に実装されると説明された複数の機能部が複数の別々の装置に亘って実装されることもあり得るし、逆に複数の別々の装置に亘って実装されると説明された機能部が１つの装置に実装されることもあり得る。

上記各実施形態において説明された種々の機能部は、回路を用いることで実現されてもよい。回路は、特定の機能を実現する専用回路であってもよいし、プロセッサのような汎用回路であってもよい。

上記各実施形態の処理の少なくとも一部は、例えば汎用のコンピュータに搭載されたプロセッサを基本ハードウェアとして用いることでも実現可能である。上記処理を実現するプログラムは、コンピュータで読み取り可能な記録媒体に格納して提供されてもよい。プログラムは、インストール可能な形式のファイルまたは実行可能な形式のファイルとして記録媒体に記憶される。記録媒体としては、磁気ディスク、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ等）、光磁気ディスク（ＭＯ等）、半導体メモリなどである。記録媒体は、プログラムを記憶でき、かつ、コンピュータが読み取り可能であれば、何れであってもよい。また、上記処理を実現するプログラムを、インターネットなどのネットワークに接続されたコンピュータ（サーバ）上に格納し、ネットワーク経由でコンピュータ（クライアント）にダウンロードさせてもよい。

１０１・・・データ取得部
１０２・・・データ分類部
１０３・・・分類規則記憶部
１１０・・・データ補正部
１１１，１２１・・・グループ１補正部
１１２，１２２・・・グループ２補正部
１１３，１２３・・・グループ３補正部
１２４・・・グループ４補正部
１２５・・・グループ５補正部
２００・・・クライアント
３００・・・サーバ
４００・・・観客端末

Claims

動体の複数の部位の位置データを取得する取得部と、
前記複数の部位のうちの少なくとも一部の位置データの各々を、当該位置データに対応する部位に依存して、第１のグループおよび第２のグループを含む複数のグループのうちの少なくとも１つに属するように分類する分類部と、
第１の学習モデルによって、前記第１のグループの位置データを補正し、前記第１のグループの補正済み位置データを生成する第１の補正部と、
第２の学習モデルによって、前記第２のグループの位置データを補正し、前記第２のグループの補正済み位置データを生成する第２の補正部と
を具備する、データ補正装置。
前記動体は骨格を有しており、
前記複数のグループのそれぞれに対応する部位は、前記骨格の構造に基づいて定義されている、
請求項１に記載のデータ補正装置。
前記動体の骨格は、第１の可動関節を含み、
前記第１のグループは、少なくとも前記第１の可動関節よりも前記動体の末端側にある第１の部位に対応し、かつ、前記第１の可動関節よりも前記動体の中心側にあるいずれの部位にも対応しないように定義されていて、
前記第２のグループは、少なくとも前記第１の可動関節よりも前記動体の中心側にある第２の部位に対応し、かつ、前記第１の可動関節よりも前記動体の末端側にあるいずれの部位にも対応しないように定義されている、
請求項２に記載のデータ補正装置。
前記動体は、上半身および下半身を有し、
前記第１のグループは、前記動体の下半身に対応するように定義されていて、
前記第２のグループは、前記動体の上半身に対応するように定義されている、
請求項２に記載のデータ補正装置。
前記第１の学習モデルは、前記第１のグループに対応する複数の部位のクリーンな位置データを含む目標ベクトルと、前記目標ベクトルの少なくとも１つの要素にエラーを付加して得られる入力ベクトルとを含む学習データを用いて実行された機械学習の学習結果が設定されている、請求項１に記載のデータ補正装置。
前記第１のグループの補正済み位置データの少なくとも一部と、前記第２のグループの補正済み位置データの少なくとも一部とを補正し、前記第１のグループの位置データの少なくとも一部および前記第２のグループの位置データの少なくとも一部を包含する第３のグループの補正済み位置データを生成する第３の補正部をさらに具備する、請求項１に記載のデータ補正装置。
前記第３の補正部は、第３の学習モデルによって、前記第１のグループの補正済み位置データの少なくとも一部および前記第２のグループの補正済み位置データの少なくとも一部を補正し、前記第３のグループの補正済み位置データを生成する、請求項６に記載のデータ補正装置。
前記第３の学習モデルは、前記第３のグループに対応する複数の部位のクリーンな位置データを含む目標ベクトルと、前記第１のグループに対応する複数の部位の少なくとも一部のクリーンな位置データおよび前記第２のグループに対応する複数の部位の少なくとも一部のクリーンな位置データとを結合して得られるベクトルの少なくとも１つの要素にエラーを付加して得られる入力ベクトルとを含む学習データを用いて実行された機械学習の学習結果が設定されている、請求項７に記載のデータ補正装置。
前記第３の補正部は、前記第１のグループの補正済み位置データの少なくとも一部と、前記第２のグループの補正済み位置データの少なくとも一部とを統合し、前記第３のグループの補正済み位置データを生成する、請求項６に記載のデータ補正装置。
コンピュータを、
動体の複数の部位の位置データを取得する手段、
前記複数の部位のうちの少なくとも一部の位置データの各々を、当該位置データに対応する部位に依存して、第１のグループおよび第２のグループを含む複数のグループのうちの少なくとも１つに属するように分類する手段、
第１の学習モデルによって、前記第１のグループの位置データを補正し、前記第１のグループの補正済み位置データを生成する手段、
第２の学習モデルによって、前記第２のグループの位置データを補正し、前記第２のグループの補正済み位置データを生成する手段
として機能させるデータ補正プログラム。