JP2022532772A

JP2022532772A - ポーズ類似度判別モデル生成方法及びポーズ類似度判別モデル生成装置

Info

Publication number: JP2022532772A
Application number: JP2021568548A
Authority: JP
Inventors: ウィ，ドンユン; カン，ミョング; オ，クァンジン; パク，ジンヨン; ペ，スンミン
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2019-05-17
Filing date: 2020-03-31
Publication date: 2022-07-19
Anticipated expiration: 2040-03-31
Also published as: KR20200132469A; WO2020235804A1; JP7373589B2; KR102194282B1

Abstract

本出願は、ポーズ類似度判別モデル生成方法及びポーズ類似度判別モデル生成装置に関し、本発明の一実施例に係るポーズ類似度判別モデル生成方法は、収集した複数のサンプル映像を同期化させる段階；前記サンプル映像からそれぞれのフレームイメージを抽出し、前記フレームイメージ内に表された客体のポーズ（ｐｏｓｅ）に対応するポーズイメージを生成する段階；前記ポーズイメージの類似又は非類似をそれぞれ設定し、三重対（ｔｒｉｐｌｅｔ）の学習データセット（ｔｒａｉｎｉｎｇｄａｔａｓｅｔ）を生成する段階；及び、前記学習データセットで機械学習（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）を行い、映像中の客体が取るポーズの類似度を判別するポーズ類似度判別モデルを生成する段階を含むことができる。【選択図】図１

Description

本出願は、異なる映像内に含まれているユーザのポーズ（ｐｏｓｅ）に対する類似度を演算することができるポーズ類似度判別モデルの生成方法及び生成装置に関する。

顔や手などの身体の一部を検出するために、特徴又はテンプレートや色相などの信号成分を用いてターゲット部位を検出する技術が映像認識分野において様々に開発され、用いられている。例えば、ＳＩＦＴ（ＳｃａｌｅＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）ベースの特徴を用いた検出器やアダブーストなどの分類器を用いて顔を検出したり、マスクテンプレートなどを用いて顔を検出したりするなど、様々な身体のターゲット部位を検出する技術が開発され、用いられている。

一方、近年、ディープラーニングモデル（ＤｅｅｐＬｅａｒｎｉｎｇＭｏｄｅｌ）は、コンピュータビジョン（Ｖｉｓｉｏｎ）の様々な分野において目覚ましい性能向上を見せ、研究パラダイムを変えている。既存のコンピュータビジョン研究がＳＩＦＴ、ＨＯＧ（ＨｉｓｔｏｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔ）のように人の知識に基づいて有用な特徴を設計するのに集中したとすれば、ディープラーニングは、多層人工ニューラルネットワークを用いて有用な特徴をデータから直接学習する方法を取る。

このような学習ベースの方法は、人がまだ気づかない有用な特徴をデータから直接探し出すことができるため、より大きい性能向上に特徴がある。そこで、映像内でユーザのポーズなどを認識するために、ディープラーニングなどの機械学習を活用する方案などが提示されている。

本出願は、ユーザの体型やカメラの角度の変化に堅牢なポーズ類似度判別モデルを生成することができる、ポーズ類似度判別モデル生成方法及びポーズ類似度判別モデル生成装置を提供しようとする。

本出願は、少ない数のサンプル映像を用いて効率的に学習データセットを形成することができるポーズ類似度判別モデル生成方法及びポーズ類似度判別モデル生成装置を提供しようとする。

本発明の一実施例に係るポーズ類似度判別モデル生成方法は、収集した複数のサンプル映像を同期化させる段階；前記サンプル映像からそれぞれのフレームイメージを抽出し、前記フレームイメージ内に表された客体のポーズ（ｐｏｓｅ）に対応するポーズイメージを生成する段階；前記ポーズイメージの類似又は非類似をそれぞれ設定し、三重対（ｔｒｉｐｌｅｔ）の学習データセット（ｔｒａｉｎｉｎｇｄａｔａｓｅｔ）を生成する段階；及び、前記学習データセットで機械学習（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）を行い、映像中の客体が取るポーズの類似度を判別するポーズ類似度判別モデルを生成する段階を含むことができる。

本発明の一実施例に係るポーズ類似度判別モデル生成装置は、収集した複数のサンプル映像を前処理して前記サンプル映像を同期化させる前処理部；前記サンプル映像からそれぞれのフレームイメージを抽出し、前記フレームイメージ内に表された客体のポーズ（ｐｏｓｅ）に対応するポーズイメージを生成するポーズイメージ生成部；前記ポーズイメージの類似又は非類似をそれぞれ設定し、三重対（ｔｒｉｐｌｅｔ）の学習データセット（ｔｒａｉｎｉｎｇｄａｔａｓｅｔ）を生成する学習データセット生成部；及び、前記学習データセットで機械学習（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）を行い、映像中の客体が取るポーズの類似度を判別するポーズ類似度判別モデルを生成するモデルトレーニング部を含むことができる。

本発明の一実施例に係るポーズ類似度判別方法は、ユーザの動作を撮影した対象映像を受信すると、前記対象映像を前処理して基準映像と同期化させる段階；前記対象映像からそれぞれのフレームイメージを抽出し、前記フレームイメージ内に表されたユーザのポーズに対応するユーザポーズイメージを生成する段階；及び、前記ユーザポーズイメージをポーズ類似度判別モデルに適用して前記ユーザポーズイメージと基準映像に対応する基準ポーズイメージを比較し、それぞれのユーザポーズイメージと基準ポーズイメージ間の類似度を演算する段階を含むことができる。

なお、上述の課題を解決するための手段は、本発明の特徴を全て列挙したものではない。本発明の様々な特徴とそれによる長所及び効果は、以下の具体的な実施形態を参照してより詳細に理解されるであろう。

本発明の一実施例に係るポーズ類似度判別モデル生成方法及びポーズ類似度判別モデル生成装置によれば、サンプル映像のフレームイメージの替わりにポーズイメージを生成して活用するので、ユーザの体型やカメラの角度の変化に堅牢なポーズ類似度判別モデルを生成することが可能である。

本発明の一実施例に係るポーズ類似度判別モデル生成方法及びポーズ類似度判別モデル生成装置によれば、少ない数のサンプル映像を用いて効率的に学習データセットを形成することが可能である。

ただし、本発明の実施例に係るポーズ類似度判別モデル生成方法及びポーズ類似度判別モデル生成装置が達成できる効果は、以上で言及したものに制限されず、言及していない別の効果は、以下の記載から、本発明の属する技術の分野における通常の知識を有する者に明確に理解されるであろう。

本発明の一実施例に係るポーズ類似度判別モデル生成装置を示すブロック図である。本発明の一実施例に係るポーズイメージ生成を示す概略図である。本発明の一実施例に係る学習データセット生成を示す概略図である。本発明の一実施例に係る学習データセット生成を示す概略図である。本発明の一実施例に係るメトリックラーニングを示す概略図である。本発明の一実施例に係るポーズ類似度判別モデル生成方法を示すフローチャートである。本発明の一実施例に係るポーズ類似度判別モデル生成方法を示すフローチャートである。本発明の一実施例に係るポーズ類似度判別装置を示す概略図である。本発明の一実施例に係るポーズ類似度判別方法を示すフローチャートである。

以下、添付の図面を参照して、本明細書に開示の実施例を詳細に説明するが、図面に関係なく同一又は類似の構成要素には同一の参照番号を付し、それに関する重複説明は省略するものとする。以下の説明で使われる構成要素に対する接尾辞“モジュール”及び“部”は、明細書作成上の容易さだけを考慮して付与又は混用されるもので、それ自体で互いに区別される意味又は役割を有するものではない。すなわち、本発明で使われる‘部’という用語は、ソフトウェア、ＦＰＧＡ又はＡＳＩＣのようなハードウェア構成要素を意味し、‘部’はいずれかの役割を担う。しかし、‘部’がソフトウェア又はハードウェアに限定される意味ではない。‘部’は、アドレシングできる記憶媒体に含まれるように構成されてもよく、一つ又はそれ以上のプロセッサを再生させるように構成されてもよい。したがって、例えば、‘部’は、ソフトウェア構成要素、客体指向ソフトウェア構成要素、クラス構成要素及びタスク構成要素のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバー、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ及び変数を含む。構成要素と‘部’内で提供される機能は、より少ない数の構成要素及び‘部’に結合してもよく、追加の構成要素と‘部’に分離されてもよい。

また、本明細書に開示の実施例を説明するに当たって、関連する公知技術に関する具体的な説明が本明細書に開示の実施例の要旨を曖昧にさせ得ると判断される場合、その詳細な説明を省略する。また、添付の図面は、単に、本明細書に開示の実施例を容易に理解させるためのものであり、添付の図面によって本明細書に開示の技術的思想は制限されず、本発明の思想及び技術範囲に含まれるあらゆる変更、均等物又は代替物を含むものとして理解されるべきである。

図１は、本発明の一実施例に係るポーズ類似度判別モデル生成装置を示すブロック図である。

図１を参照すると、本発明の一実施例に係るポーズ類似度判別モデル生成装置は、前処理部１１０、ポーズイメージ生成部１２０、学習データセット生成部１３０及びモデルトレーニング部１４０を含むことができる。

以下、図１を参照して、本発明の一実施例に係るポーズ類似度判別モデル生成装置を説明する。

前処理部１１０は、サンプル映像ｖｉｄｅｏ_１，ｖｉｄｅｏ_２，．．．，ｖｉｄｅｏ_ｎに対する前処理（ｐｒｅｐｒｏｃｅｓｓｉｎｇ）を行うことができる。複数のサンプル映像は、あらかじめ収集されていてよく、前処理部１１０は、サンプル映像を活用するための前処理を行うことができる。前処理部１１０は、本発明の実施例に係るポーズ類似度判別モデル生成装置の性能を高めるための様々な方法を含むことができる。本発明の実施例によれば、前処理部１１０は、サンプル映像が同一時点に同一又は類似のポーズを表すように同期化させる作業を行うことができる。

具体的に、前処理部１１０は、サンプル映像のＦＰＳ（ｆｒａｍｅｐｅｒｓｅｃｏｎｄ）を調節するか、或いは基準映像とのオフセットタイム（ｏｆｆｓｅｔｔｉｍｅ）などを計算してサンプル映像を同期化させることができ、この時、あらかじめ設定された基準映像又は予め設定された規則に基づき、それぞれのサンプル映像に対する同期化を行うことができる。

例えば、それぞれの人々が同一音楽に対して同一振りつけの踊りを踊る複数個の映像に対して、それらの映像は、同一の音楽部分で同一のポーズを取っていると仮定することができる。したがって、当該映像の音源を分析して基準映像とのオフセットを計算することにより、映像間の同一時点で同一ポーズを表すように同期化をさせることができる。具体的に、オーディオの波形を分析し、基準映像と対象映像とのオーディオ波形間の差が最も小さいオフセットを同期化オフセットとして設定できる。

追加的に、人々の動作の拍子ずれによる誤差が発生することもあるので、設定区間内で映像間の動作類似性を比較して追加補正オフセットを計算してもよい。この場合、同期化の正確度をさらに高めることができる。

また、映像内に一つ以上の客体が含まれている場合、客体検出及びトラッキングアルゴリズムを用いて複数個の客体に分離した後、それぞれに対する動作類似度を計算することができる。

ここで、ポーズ類似度判別モデルは、ユーザが取るポーズ（ｐｏｓｅ）に類似するポーズを探したり、ユーザの取ったポーズが特定ポーズとどれくらい類似しているかを演算するためのものであり、複数のサンプル映像を学習させる方式で生成することができる。したがって、ポーズ類似度判別モデルを用いて判別しようとするユーザのポーズの種類によって、異なるサンプル映像を選択することができる。

実施例によっては、人物が特定の踊りを踊るダンス映像などをサンプル映像として選択でき、このとき、それぞれのサンプル映像を撮影したカメラの角度又は踊っている人物の体型などは互いに異なってよい。すなわち、異なる体型やカメラ角度で撮影した様々なサンプル映像を用いるので、体型やカメラ角度の変化に堅牢なポーズ類似度判別モデルを生成することが可能である。

また、サンプル映像は、ダンス映像の他にも、ゴルフスイング姿勢などのように運動種目における特定姿勢を撮影した映像などであってもよく、人体のポーズを含むものであれば、いずれもサンプル映像として活用できる。さらに、人体のポーズの他、動物や車両、ロボットなどの動作やポーズをサンプル映像として活用することも可能である。

ポーズイメージ生成部１２０は、サンプル映像からそれぞれのフレームイメージを抽出し、フレームイメージ内に表された客体のポーズ（ｐｏｓｅ）に対応するポーズイメージを生成することができる。サンプル映像は複数のフレームイメージを含むことができ、図２に示すように、それぞれのフレームイメージｆ１，ｆ２には客体のポーズ（ｐｏｓｅ）が表されていてよい。

ここで、ポーズイメージ生成部１２０は、フレームイメージから客体のポーズを認識でき、認識した客体のポーズをポーズイメージとして示すことができる。すなわち、図２に示すように、フレームイメージｆ１，ｆ２に表された客体のポーズを、関節などの特徴点と、それぞれの特徴点間の連結関係で表示し、ポーズイメージｐｏｓｅ１，ｐｏｓｅ２を生成することができる。

ポーズイメージｐｏｓｅ１，ｐｏｓｅ２は、客体のポーズを、特徴点と、各特徴点間の連結関係で単純化して表示するので、体型の異なる客体であっても、特徴点の位置と連結関係などを用いて同一のポーズに当該するか否かが判別しやすくなる。ここで、フレームイメージからポーズイメージに変換する際には、公知のポーズ推定モデルなどを用いることができる。

学習データセット生成部１３０は、ポーズイメージ間の類似又は非類似をそれぞれ設定し、三重対（ｔｒｉｐｌｅｔ）の学習データセット（ｔｒａｉｎｉｎｇｄａｔａｓｅｔ）を生成することができる。

例えば、アンカー（ａｎｃｈｏｒ）として設定した任意のポーズイメージに対して、アンカーと類似するポーズイメージは類似サンプル（ｐｏｓｉｔｉｖｅｅｘａｍｐｌｅ）に、非類似するポーズイメージは非類似サンプル（ｎｅｇａｔｉｖｅｅｘａｍｐｌｅ）にそれぞれ設定して学習データセットを生成することができる。ここで、一つのアンカーに対して類似サンプルと非類似サンプルがそれぞれ関連付けられるので、学習データセット生成部１３０は、三重対の形態で学習データセットを具現することができる。また、三重対形態の学習データセットでは、それぞれのアンカーイメージとそれに対する類似・非類似が設定されているので、以降の機械学習時に教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を行うことが可能である。

一方、学習データセット生成部１３０は、実施例によって様々な方式で学習データセットを生成することができる。

まず、第１実施例によれば、学習データセット生成部１３０は、複数のサンプル映像の時点を用いて学習データセットを生成することができる。

具体的に、図３に示すように、前処理された複数のサンプル映像ｖｉｄｅｏ_１，ｖｉｄｅｏ_２，．．．，ｖｉｄｅｏ_ｎが存在してよく、それぞれのサンプル映像は同期化されていてよい。ここで、サンプル映像は、同一音楽に対してそれぞれ異なるユーザが踊るダンス映像であってよく、それぞれのサンプル映像は同期化されているので、同一時点では、サンプル映像内に含まれている客体は同一又は類似のポーズを取っていると見なすことができる。すなわち、各サンプル映像ごとに客体の体型やカメラ角度などは互いに異なっても、いずれも同一又は類似のポーズに当該すると判別できる。一方、同一サンプル映像における異なる時点では踊りの動作が互いに異なるので、同一サンプル映像であっても異なる時点Ｔ＋１，Ｔ＋２，Ｔ＋３では異なるポーズを取ると判別できる。

したがって、図３に示すように、学習データセット生成部１３０は、まず、複数のサンプル映像のうち、ｖｉｄｅｏ_１を選択映像として設定でき、選択映像のＴ時点に対応するポーズイメージをアンカーａとして設定できる。その後、選択映像以外のサンプル映像ｖｉｄｅｏ_２，ｖｉｄｅｏ_３，．．．，ｖｉｄｅｏ_ｎの同一時点（ｔ＝Ｔ）に対応するポーズイメージを、アンカーａに対する類似サンプルｐ１，ｐ２，．．．，ｐｎとして設定できる。一方、選択映像のうち、Ｔ時点以外の時点Ｔ＋１，Ｔ＋２，Ｔ＋３に対応するポーズイメージは、アンカーと異なるポーズを含むものであるから、それぞれのポーズイメージをアンカーａに対する非類似サンプルｎ１，ｎ２，ｎ３として設定できる。この場合、アンカーに対する類似サンプルは、サンプル映像の個数であるｎ個分だけ生成でき、非類似サンプルは、選択映像内に含まれているフレームイメージの個数分だけ生成することができる。さらに、学習の効率性のために、非類似サンプルは、できるだけアンカーａと類似するポーズが選択されないようにすることが好ましい。そのために、アンカーａの時点Ｔから遠く離れたポーズイメージを選択するか、或いは背景音楽などの付加要素をさらに考慮して選択することができる。例えば、サンプル映像中の背景音楽の雰囲気やテンポが異なる部分を選択することができる。また、非類似サンプルｎ１，ｎ２，ｎ３間に多様性を保つために、それぞれの非類似サンプルを選択する時点間の時間間隔を一定期間以上に設定することが好ましい。

その後、学習データセット生成部１３０は、時点を、選択映像ｖｉｄｅｏ_１の開始時点から終了時点まで順次に又は任意に変更してアンカーａを設定することができ、設定されたアンカーａを用いて、選択映像ｖｉｄｅｏ_１に含まれている全体又は一部のポーズイメージに対応する学習データセットを生成することができる。

また、一つの選択映像に対する学習データセットの生成を完了した後には、選択映像を変更し、変更された選択映像に同一の方式を適用して学習データセットを生成することができる。この時、複数のサンプル映像全体を順次に選択映像として選択して学習データセットを生成するか、或いは、実施例によっては、設定個数分だけのサンプル映像を選択映像として選択して学習データセットを生成することができる。

一方、第２実施例では、学習データセット生成部１３０が、客体のポーズに対する３次元ポーズ座標を用いて学習データセットを生成することができる。具体的に、図４（ａ）に示すように、一つの選択映像ｖｉｄｅｏ_１の各フレームイメージｆ１，ｆ２，ｆ３，ｆ４に対して、当該フレームイメージ内の客体に対する３次元ポーズ座標を生成することができる。すなわち、図４（ｂ）に示すように、２次元のポーズイメージから３次元のポーズを生成することができる。この時、２次元から３次元ポーズ座標への変換は、公知の変換モデルなどを用いて容易に行うことができる。

その後、図４（ｃ）に示すように、選択映像ｖｉｄｅｏ_１のＴ時点に対応する３次元ポーズ座標を設定角度で投影（ｐｒｏｊｅｃｔｉｏｎ）して２次元イメージを生成でき、この時に生成した２次元イメージをアンカーａとして設定できる。また、図４（ｃ）に示すように、Ｔ時点に対応する３次元ポーズ座標を設定角度以外の複数の角度で投影して２次元イメージをさらに生成でき、この時に生成された２次元イメージをそれぞれ類似サンプルｐ１，ｐ２，ｐ３として設定できる。すなわち、同一の３次元ポーズ座標に対して投影する角度のみを変更させるので、それぞれの２次元イメージは実質的に同じポーズを表すものに当該する。したがって、３次元ポーズ座標を異なる複数の角度で投影した２次元イメージを、類似サンプルｐ１，ｐ２，ｐ３として設定できる。

一方、Ｔ時点以外の時点Ｔ＋１，Ｔ＋２，Ｔ＋３に対応するフレームイメージは、アンカーとは異なるポーズを表すものと判別できる。したがって、学習データセット生成部１３０は、それぞれのフレームイメージに対する３次元ポーズ座標を設定角度で投影して生成した２次元イメージに対しては、非類似サンプルとして設定できる。

ここで、学習データセット生成部１３０は、時点を選択映像の開始時点から終了時点まで変更しながら学習データセットを生成することができる。また、一つの選択映像に対する学習データセットの生成が完了すると、複数のサンプル映像を順次に選択映像として選択し、それぞれの選択映像に対応する学習データを生成することができる。

第３実施例によれば、学習データセット生成部１３０は、複数のサンプル映像の時点、及び３次元ポーズ座標を同時に用いて学習データセットを生成することができる。

具体的に、学習データセット生成部１３０は、サンプル映像のいずれか一つを選択映像として設定し、選択映像の特定時点Ｔに対応するポーズイメージをアンカーとして設定できる。

その後、選択映像以外のサンプル映像のＴ時点に対応するポーズイメージを、まず、アンカーに対する類似サンプルとして設定できる。また、Ｔ時点に対応するポーズイメージに対する３次元ポーズ座標を生成でき、３次元ポーズ座標を複数の角度で投影する方式により、類似サンプルをさらに追加することができる。

一方、非類似サンプルは、選択映像のうち、Ｔ時点以外の時点に対応するポーズイメージを、アンカーに対する非類似サンプルとして設定でき、その後、それぞれのポーズイメージの３次元ポーズ座標を生成した後、それを複数の角度で投影する方式により、非類似サンプルを追加することができる。

モデルトレーニング部１４０は、学習データセットで機械学習（Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）を行い、映像間の客体が取るポーズの類似度を判別するポーズ類似度判別モデルを生成することができる。具体的に、モデルトレーニング部１４０は、学習データセットを、メトリックラーニングモデル（ｍｅｔｒｉｃｌｅａｒｎｉｎｇｍｏｄｅｌ）で機械学習でき、学習データセットに含まれているそれぞれのポーズイメージの類似度を特徴マップ（ｆｅａｔｕｒｅｍａｐ）上の距離を用いて示すことができる。

このとき、モデルトレーニング部１４０は、三重対損失関数（ｔｒｉｐｌｅｔｌｏｓｓｆｕｎｃｔｉｏｎ）を用いることができる。具体的に、三重対損失関数は、

であり、ここで、ｆ（＊）は特徴マップ関数、δはマージン（ｍａｒｇｉｎ）、ｘａｉはアンカー、ｘ＋ｉは類似サンプル、ｘ－ｉは非類似サンプルに当該する。

三重対損失関数を用いて、特徴マップ上で類似サンプルとアンカー間の距離は近づき、非類似サンプルとアンカー間の距離は遠ざかるように学習させることができる。すなわち、図５（ａ）に示すように、初期特徴マップ（ｆｅａｔｕｒｅｍａｐ）上に位置するアンカーａ、類似サンプルｐ及び非類似サンプルｎは、以降、図５（ｂ）に示すように、類似サンプルｐはアンカーａに近づくように移動し、非類似サンプルｎはアンカーから遠ざかるように学習されてよい。これにより、それぞれのポーズイメージ間の距離からイメージの類似度を判別することが可能である。

モデルトレーニング部１４０では、学習されたＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いてポーズイメージを受信して特徴を抽出でき、それぞれのポーズイメージに対応するアンカー、類似サンプル、非類似サンプルを特徴マップ上に位置させることができる。

図６及び図７は、本発明の一実施例に係るポーズ類似度判別モデル生成方法を示すフローチャートである。

図６及び図７を参照すると、本発明の一実施例に係るポーズ類似度判別モデル生成方法は、前処理段階（Ｓ１１０）、ポーズイメージ生成段階（Ｓ１２０）、学習データセット生成段階（Ｓ１３０）、及びポーズ類似度判別モデル生成段階（Ｓ１４０）を含むことができる。ここで、各段階はポーズ類似度判別モデル生成装置によって行われてよい。

以下、図６及び図７を参照して、本発明の一実施例に係るポーズ類似度判別モデル生成方法を説明する。

ポーズ類似度判別モデルは、ユーザの取るポーズ（ｐｏｓｅ）と類似するポーズを探したり、或いはユーザの取るポーズが特定ポーズとどれくらい類似しているかを判別するためのものであり、サンプル映像には、特定客体が一定のポーズを取る場面が含まれていてよい。例えば、サンプル映像は、人物が特定の踊りを踊るダンス映像であるか、ゴルフのスイング姿勢などのように運動種目における特定姿勢を撮影した映像などであってよい。

前処理段階（Ｓ１１０）では、収集した複数のサンプル映像を前処理することができる。前処理段階（Ｓ１１０）では、類似度判別モデル生成の効率を上げるための種々の方法を行うことができる。本発明の実施例によれば、前処理段階（Ｓ１１０）においてサンプル映像が同一時点に同一又は類似のポーズを表すように同期化させる作業を含むことができる。具体的に、基準映像と比較してサンプル映像のＦＰＳ（ｆｒａｍｅｐｅｒｓｅｃｏｎｄ）を調節するか、基準映像とのオフセットタイム（ｏｆｆｓｅｔｔｉｍｅ）などを計算する方式により、サンプル映像を同期化させることができる。実施例によっては、サンプル映像に共通に含まれる音楽や場面などを用いることができる。

ポーズイメージ生成段階（Ｓ１２０）では、サンプル映像からそれぞれのフレームイメージを抽出し、フレームイメージ内に表された客体のポーズ（ｐｏｓｅ）に対応するポーズイメージを生成することができる。ここで、ポーズイメージは、フレームイメージに表された客体のポーズを、客体に含まれている特徴点、及び特徴点間の連結関係により単純化して生成したものであってよい。例えば、人の関節を示す部分が特徴点になってよく、ポーズイメージは、このような特徴点及び特徴点間の連結を１と、それ以外の部分を０と示したバイナリイメージ形態になってよい。又は、特徴点やその連結部分がどこであるかを確認するために、各連結部分によってラベリングされた値を使用するイメージであってもよい。

ここで、フレームイメージそのままではなく、ポーズのみを示すポーズイメージを使用することによって、映像における照明やノイズなどの歪みに対して堅牢になり得る効果があり、イメージ形態のデータで学習を進行するので、体型が互いに異なる客体や角度などに対して堅牢な学習が可能である。

一方、フレームイメージを用いてポーズイメージに変換する際には、公知のポーズ推定モデルなどを用いることができる。

学習データセット生成段階（Ｓ１３０）では、ポーズイメージの類似又は非類似をそれぞれ設定し、三重対（ｔｒｉｐｌｅｔ）の学習データセット（ｔｒａｉｎｉｎｇｄａｔａｓｅｔ）を生成することができる。すなわち、任意のポーズイメージをアンカー（ａｎｃｈｏｒ）として設定した後、アンカーと類似するポーズイメージは類似サンプル（ｐｏｓｉｔｉｖｅｅｘａｍｐｌｅ）、非類似するポーズイメージは非類似サンプル（ｎｅｇａｔｉｖｅｅｘａｍｐｌｅ）としてそれぞれ設定し、学習データセットを生成することができる。また、学習データセットは、それぞれのポーズイメージに対して、アンカーとの類似、非類似を決定し、類似サンプルと非類似サンプルとに区分されているので、学習データセットを用いて教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を行うことが可能である。

一方、学習データセットは、実施例によって種々の方法で生成可能である。

図７（ａ）を参照すると、複数のサンプル映像のいずれか一つを選択映像として設定でき、選択映像のＴ時点に対応するポーズイメージをアンカーとして設定できる（Ｓ１３１ａ）。その後、選択映像以外のサンプル映像のＴ時点に対応するポーズイメージを、アンカーに対する類似サンプルとして設定できる（Ｓ１３２ａ）。一方、選択映像のうち、Ｔ時点以外の時点に対応するポーズイメージは、アンカーと異なるポーズを含むものであるから、それぞれのポーズイメージを非類似サンプルとして設定できる（Ｓ１３３ａ）。

その後、Ｔ時点を選択映像の開始時点から終了時点まで順次に変更し、選択映像に含まれている全体ポーズイメージに対応する学習データセットを生成したり、或いは、予め定められた個数分だけ、任意に選択した時点に対する学習データセットを生成することができる。

また、一つの選択映像に対する学習データセットの生成を完了した後には、選択映像を変更し、変更された選択映像に同じ方式を適用して学習データセットを生成することができる。この時、複数のサンプル映像全体を順次に選択映像として選択して学習データセットを生成するか、或いは、実施例によっては、設定個数分だけのサンプル映像を選択映像として選択して学習データセットを生成することができる。また、選択映像１個ずつ学習データセットを生成するのではなく、複数の選択映像から並列に学習データセットを生成することも可能である。

図７（ｂ）を参照すると、複数のサンプル映像のいずれか一つを選択映像として設定でき、選択映像のポーズイメージに対してそれぞれの３次元ポーズ座標を生成することができる（Ｓ１３１ｂ）。すなわち、２次元のポーズイメージから３次元ポーズ座標を生成することが可能であり、この時、３次元ポーズ座標への変換は、公知の変換モデルを用いて容易に行うことができる。

その後、選択映像のＴ時点に対応する３次元ポーズ座標を設定角度で投影（ｐｒｏｊｅｃｔｉｏｎ）して２次元イメージを生成でき、この時に生成した２次元イメージをアンカーとして設定できる（Ｓ１３２ｂ）。また、Ｔ時点に対応する３次元ポーズ座標を設定角度以外の複数の角度で投影して２次元イメージをさらに生成でき、この時に生成された２次元イメージをそれぞれ類似サンプルとして設定できる（Ｓ１３３ｂ）。

一方、Ｔ時点以外の時点に対応する３次元ポーズ座標の場合、それぞれ異なるポーズを表すものと判別できる。したがって、それぞれの３次元ポーズ座標を設定角度で投影して生成した２次元イメージは非類似サンプルとして設定できる（Ｓ１３４ｂ）。

ここで、Ｔ時点を選択映像の開始時点から終了時点まで変更しながら学習データセットを生成することができる。また、一つの選択映像に対する学習データセットの生成が完了すると、複数のサンプル映像を順次に選択映像として選択し、それぞれの選択映像に対応する学習データを生成することができる。

図示しないが、複数のサンプル映像のポーズイメージ出力時点と３次元ポーズ座標を同時に用いて学習データセットを生成することも可能である。

この場合、まず、サンプル映像のいずれか一つを選択映像として設定し、選択映像のＴ時点に対応するポーズイメージをアンカーとして設定できる。

その後、選択映像以外のサンプル映像のＴ時点に対応するポーズイメージを、アンカーに対する類似サンプルとして設定できる。また、Ｔ時点に対応するポーズイメージに対する３次元ポーズ座標を生成し、３次元ポーズ座標を複数の角度で投影する方式により類似サンプルをさらに追加することができる。

非類似サンプルの場合、選択映像のうち、Ｔ時点以外の時点に対応するポーズイメージを、アンカーに対する非類似サンプルとして設定でき、その後、それぞれのポーズイメージの３次元ポーズ座標を生成し、これを複数の角度で投影する方式により非類似サンプルを追加することができる。

ポーズ類似度判別モデル生成段階（Ｓ１４０）では、学習データセットで機械学習（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）を行い、映像中の客体が取るポーズの類似度を判別するポーズ類似度判別モデルを生成することができる。すなわち、学習データセットをメトリックラーニングモデル（ｍｅｔｒｉｃｌｅａｒｎｉｎｇｍｏｄｅｌ）で機械学習でき、学習データセットに含まれているそれぞれのポーズイメージの類似度を、特徴マップ（ｆｅａｔｕｒｅｍａｐ）上の距離を用いて示すことができる。

このとき、三重対損失関数（ｔｒｉｐｌｅｔｌｏｓｓｆｕｎｃｔｉｏｎ）を用いて機械学習を行うことができる。具体的に、三重対損失関数は、

であり、ここで、ｆ（＊）は特徴マップ関数、δはマージン（ｍａｒｇｉｎ）、ｘａｉはアンカー、ｘ＋ｉは類似サンプル、ｘ－ｉは非類似サンプルである。

すなわち、三重対損失関数を用いて、特徴マップ上で類似サンプルとアンカー間の距離は近づき、非類似サンプルとアンカー間の距離は遠ざかるように学習させることができる。これにより、それぞれのポーズイメージ間の特徴マップにおける距離からイメージの類似度を判別することができる。

図８は、本発明の一実施例に係るポーズ類似度判別装置を示すブロック図である。

図８を参照すると、本発明の一実施例に係るポーズ類似度判別装置２００は、前処理部２１０、ポーズイメージ生成部２２０及び演算部２３０を含むことができる。

以下、図８を参照して本発明の一実施例に係るポーズ類似度判別装置を説明する。

前処理部２１０は、ユーザｕの動作を撮影した対象映像を受信することができ、受信した対象映像を前処理して基準映像と同期化させることができる。実施例によっては、ポーズ類似度判別装置２００にカメラなどの撮影装置ｃがさらに含まれてよく、撮影装置ｃを用いてユーザｕの動作を撮影した対象映像を生成することができる。ここで、対象映像は、ユーザｕのゴルフスイング姿勢を撮影した映像でよいが、これに限定されるものではなく、実施例によって、ユーザの様々なポーズを含むことができる。

一方、対象映像がダンス映像である場合には、前処理部２１０が、ダンス映像に含まれている音楽の開始時点を基準にして同期化でき、対象映像がゴルフスイング姿勢である場合には、最初準備姿勢などを基準にして同期化させることができる。ただし、これに限定されず、様々な方式を用いて対象映像と基準映像を同期化させることができる。

ポーズイメージ生成部２２０は、対象映像からそれぞれのフレームイメージを抽出し、フレームイメージ内に表されたユーザのポーズに対応するユーザポーズイメージを生成することができる。対象映像は、複数のフレームイメージを含むことができ、それぞれのフレームイメージにはユーザｕのポーズ（ｐｏｓｅ）が表されていてよい。

ここで、ポーズイメージ生成部２２０は、フレームイメージからユーザｕのポーズを認識してユーザポーズイメージを生成することができる。すなわち、フレームイメージに表されたユーザのポーズを、関節などの特徴点と、それぞれの特徴点間の連結関係で表示するユーザポーズイメージを生成することができる。

さらに、実施例によっては、対象映像のフレームイメージ内に複数のユーザが存在する場合があり得る。この場合、ポーズイメージ生成部２２０は、それぞれのユーザを区別でき、それぞれのユーザに対応するユーザポーズイメージを個別に生成することができる。その後、外部の入力によって、複数のユーザのいずれか一つに対するポーズ類似度判別結果を提供することも可能である。

また、実施例によっては、対象映像のフレームイメージ内に含まれているユーザの身体部位別に区別してユーザポーズイメージを生成することも可能である。例えば、ユーザの頭、腕、脚、胴などをそれぞれ分離し、それぞれに対するユーザポーズイメージを生成することができる。

演算部２３０は、ユーザポーズイメージをポーズ類似度判別モデルに適用して、類似度を演算することができる。すなわち、ポーズ類似度判別モデルを用いて、ユーザポーズイメージと基準映像に対応する基準ポーズイメージを比較でき、それぞれのユーザポーズイメージと基準ポーズイメージ間の類似度を演算することができる。

ここで、基準映像は、ユーザが比較するために選択したものであってよい。例えば、対象映像がゴルフスイング姿勢を撮影したものであれば、ユーザが習おうとする有名ゴルファーのゴルフスイング姿勢などであってよい。ここで、ユーザは、複数の有名ゴルファーのうち、自身が所望するゴルファーのゴルフスイング姿勢を基準映像として選択できる。その後、自身のゴルフスイング姿勢と有名ゴルファーのゴルフスイング姿勢間の類似度を確認する方式により、自身の姿勢を矯正することができる。実施例によっては、それぞれのフレームイメージ別に類似度を提供したり、或いは、ユーザの身体部位別に類似度を提供することも可能である。ここで、ユーザの身体部位別類似度を提供する場合には、ユーザポーズイメージ生成時に、それぞれの身体部位別に区別して別途のポーズイメージを生成することができる。

図９は、本発明の一実施例に係るポーズ類似度判別方法を示すフローチャートである。

図９を参照すると、本発明の一実施例に係るポーズ類似度判別方法は、前処理段階（Ｓ２１０）、ポーズイメージ生成段階（Ｓ２２０）及び演算段階（Ｓ２３０）を含むことができる。

以下、図９を参照して本発明の一実施例に係るポーズ類似度判別方法を説明する。

前処理段階（Ｓ２１０）では、ユーザの動作を撮影した対象映像を受信することができ、受信した対象映像を基準映像と同期化させることができる。例えば、対象映像は、ユーザのダンス又はゴルフスイング姿勢などを撮影した映像であってよい。

ポーズイメージ生成段階（Ｓ２２０）では、対象映像からそれぞれのフレームイメージを抽出し、フレームイメージ内に表されたユーザのポーズに対応するユーザポーズイメージを生成することができる。対象映像は、複数のフレームイメージを含むことができ、それぞれのフレームイメージには、ユーザのポーズが表されていてよい。したがって、フレームイメージからユーザのポーズを認識してユーザポーズイメージを生成することが可能である。具体的に、フレームイメージに表されたユーザのポーズを、関節などの特徴点と、それぞれの特徴点間の連結関係で表示してユーザポーズイメージを生成することができる。

さらに、実施例によっては、対象映像のフレームイメージ内に複数のユーザが存在する場合があり得る。この場合、それぞれのユーザを区別してユーザ別ユーザポーズイメージを生成することができる。その後、外部の入力によって、複数のユーザのいずれか一つに対するポーズ類似度判別結果を提供することができる。

演算段階（Ｓ２３０）では、ユーザポーズイメージをポーズ類似度判別モデルに適用して類似度を演算することができる。すなわち、ポーズ類似度判別モデルを用いて、ユーザポーズイメージと基準映像に対応する基準ポーズイメージとを比較でき、それぞれのユーザポーズイメージと基準ポーズイメージ間の類似度を演算することができる。

ここで、基準映像は、ユーザが自身の対象映像と比較するために選択したものであり、対象映像がゴルフスイング姿勢を撮影したものである場合、基準映像は、ユーザが習おうとする有名ゴルファーのゴルフスイング姿勢であってよい。ユーザは、有名ゴルファーのうち、自身が所望するゴルファーのゴルフスイング姿勢を基準映像として選択でき、自身のゴルフスイング姿勢と有名ゴルファーのゴルフスイング姿勢間の類似度を確認する方式で自身の姿勢を矯正することができる。また、本発明の一実施例によれば、現在の姿勢から、基準映像の姿勢とより類似となる方向にポーズの動きを提案してガイドするＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）をさらに提供することができる。

実施例によっては、対象映像のフレームイメージ別に基準映像との類似度を提供することができ、対象映像に含まれているユーザの身体部位別に類似度を提供することも可能である。

前述した本発明は、プログラムの記録された媒体にコンピュータ可読コードとして具現することが可能である。コンピュータ可読媒体は、コンピュータで実行可能なプログラムを継続保存するか、実行又はダウンロードのために臨時保存するものであってよい。また、媒体は、単一又は数個のハードウェアが結合した形態の様々な記録手段又は保存手段であり得るが、あるコンピュータシステムに直接接続される媒体に限定されず、ネットワーク上に分散して存在するものであってもよい。媒体の例示は、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ及びＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気－光媒体（ｍａｇｎｅｔｏ－ｏｐｔｉｃａｌｍｅｄｉｕｍ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリーなどを含め、プログラム命令語が保存されるように構成されたものであってよい。また、他の媒体の例示として、アプリケーションを流通するアプリケーションストアやその他様々なソフトウェアを供給又は流通するサイト、サーバーなどで管理する記録媒体又は保存媒体も挙げることができる。したがって、上述の詳細な説明はいずれの面においても制限的に解釈されてはならず、例示的なものとして考慮されるべきである。本発明の範囲は、添付する請求項の合理的解析によって決定されるべきであり、本発明の等価的範囲内における変更はいずれも本発明の範囲に含まれる。

本発明は、前述の実施例及び添付の図面によって限定されるものではない。本発明の属する技術の分野における通常の知識を有する者にとって、本発明の技術的思想から逸脱しない範囲内で、本発明に係る構成要素を置換、変形及び変更できるということは明らかであろう。

Claims

ポーズ類似度判別モデルを生成する装置によって実行される方法であって、
前記装置の前処理部が、収集した複数のサンプル映像を同期化させる段階；
前記装置のポーズイメージ生成部が、前記サンプル映像からそれぞれのフレームイメージを抽出し、前記フレームイメージ内に表された客体のポーズに対応するポーズイメージを生成する段階；
前記装置の学習データセット生成部が、前記ポーズイメージの類似又は非類似をそれぞれ設定し、三重対の学習データセットを生成する段階；及び
前記装置のモデルトレーニング部が、前記学習データセットで機械学習を行い、映像中の客体が取るポーズの類似度を判別するポーズ類似度判別モデルを生成する段階を含む、ポーズ類似度判別モデル生成方法。
前記同期化させる段階は、
基準映像と比較し、前記サンプル映像のＦＰＳを調節するか、前記基準映像とのオフセットタイムを計算することを特徴とする、請求項１に記載のポーズ類似度判別モデル生成方法。
前記ポーズイメージを生成する段階は、
前記フレームイメージに表された前記客体のポーズを、前記客体に含まれている特徴点及び前記特徴点間の連結関係で単純化して前記ポーズイメージを生成することを特徴とする、請求項１に記載のポーズ類似度判別モデル生成方法。
前記学習データセットを生成する段階は、
前記サンプル映像のいずれか一つを選択映像として設定し、前記選択映像のＴ時点に対応するポーズイメージをアンカーとして設定する段階；
前記選択映像以外のサンプル映像のＴ時点に対応するポーズイメージを、前記アンカーに対する類似サンプルとして設定する段階；及び
前記選択映像のうち、前記Ｔ時点以外の時点に対応するポーズイメージを、前記アンカーに対する非類似サンプルとして設定する段階をさらに含むことを特徴とする、請求項１に記載のポーズ類似度判別モデル生成方法。
前記学習データセットを生成する段階は、
前記Ｔ時点を前記選択映像の開始時点から終了時点まで順次に変更し、前記選択映像に含まれている全体ポーズイメージに対応する学習データセットを生成することを特徴とする、請求項４に記載のポーズ類似度判別モデル生成方法。
前記学習データセットを生成する段階は、
前記複数のサンプル映像のうち少なくとも設定個数以上のサンプル映像を前記選択映像として選択して前記学習データセットを生成することを特徴とする、請求項４に記載のポーズ類似度判別モデル生成方法。
前記学習データセットを生成する段階は、
前記複数のサンプル映像のいずれか一つを選択映像として設定し、前記選択映像のポーズイメージに対応するそれぞれの３次元ポーズ座標を生成する段階；
前記選択映像のＴ時点に対応する３次元ポーズ座標を設定角度で投影して２次元イメージを生成し、生成した２次元イメージをアンカーとして設定する段階；
前記Ｔ時点における３次元ポーズ座標を前記設定角度以外の複数の角度で投影して２次元イメージを生成し、生成した２次元イメージを前記アンカーに対する類似サンプルとして設定する段階；及び
前記Ｔ時点以外の時点に対応する３次元ポーズ座標を前記設定角度で投影して２次元イメージを生成し、生成した２次元イメージを前記アンカーに対する非類似サンプルとして設定する段階をさらに含むことを特徴とする、請求項１に記載のポーズ類似度判別モデル生成方法。
前記類似サンプルとして設定する段階は、
前記選択映像以外のサンプル映像のＴ時点に対応するポーズイメージを抽出し、前記抽出したポーズイメージに対する３次元ポーズ座標を生成する段階；及び
前記３次元ポーズ座標を複数の角度で投影して２次元イメージを生成し、前記生成した２次元イメージを前記類似サンプルとして追加する段階をさらに含むことを特徴とする、請求項４に記載のポーズ類似度判別モデル生成方法。
前記非類似サンプルとして設定する段階は、
前記選択映像のうち、前記Ｔ時点以外の時点に対応するポーズイメージを抽出し、前記ポーズイメージに対する３次元ポーズ座標を生成する段階；及び
前記３次元イメージを複数の角度で投影して２次元イメージを生成し、前記生成した２次元イメージを前記非類似サンプルとして追加する段階をさらに含むことを特徴とする、請求項４に記載のポーズ類似度判別モデル生成方法。
前記ポーズ類似度判別モデルを生成する段階は、
前記学習データセットをメトリックラーニングモデルで機械学習して前記ポーズ類似度判別モデルを生成し、前記ポーズ類似度判別モデルは、前記ポーズイメージ間の類似度を特徴マップ上の距離を用いて示すことを特徴とする、請求項１に記載のポーズ類似度判別モデル生成方法。
ハードウェアと結合し、請求項１～１０のいずれか一項に記載のポーズ類似度測定モデル生成方法を実行させるために媒体に保存されたコンピュータプログラム。
収集した複数のサンプル映像を前処理し、前記サンプル映像を同期化させる前処理部；
前記サンプル映像からそれぞれのフレームイメージを抽出し、前記フレームイメージ内に表された客体のポーズに対応するポーズイメージを生成するポーズイメージ生成部；
前記ポーズイメージの類似又は非類似をそれぞれ設定し、三重対の学習データセットを生成する学習データセット生成部；及び
前記学習データセットで機械学習を行い、映像中の客体が取るポーズの類似度を判別するポーズ類似度判別モデルを生成するモデルトレーニング部を含む、ポーズ類似度判別モデル生成装置。
ポーズ類似度を判別する装置によって実行される方法であって、
前記装置の前処理部が、ユーザの動作を撮影した対象映像を受信すると、前記対象映像を基準映像と同期化させる段階；
前記装置の学習データセット生成部が、前記対象映像からそれぞれのフレームイメージを抽出し、前記フレームイメージ内に表されたユーザのポーズに対応するユーザポーズイメージを生成する段階；及び
前記装置の演算部が、前記ユーザポーズイメージをポーズ類似度判別モデルに適用して前記ユーザポーズイメージと基準映像に対応する基準ポーズイメージとを比較し、それぞれのユーザポーズイメージと基準ポーズイメージ間の類似度を演算する段階を含むポーズ類似度判別方法。
前記ユーザポーズイメージを生成する段階は、前記対象映像のフレームイメージ内に複数のユーザが存在する場合、それぞれのユーザ別に前記ユーザポーズイメージを生成することを特徴とする、請求項１１に記載のポーズ類似度判別方法。