JP2021092891A - Information processor, information processing method, image processing system, and program - Google Patents
Information processor, information processing method, image processing system, and program Download PDFInfo
- Publication number
- JP2021092891A JP2021092891A JP2019222034A JP2019222034A JP2021092891A JP 2021092891 A JP2021092891 A JP 2021092891A JP 2019222034 A JP2019222034 A JP 2019222034A JP 2019222034 A JP2019222034 A JP 2019222034A JP 2021092891 A JP2021092891 A JP 2021092891A
- Authority
- JP
- Japan
- Prior art keywords
- person object
- estimation
- distance image
- human body
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本開示は、距離画像から人体の部位の位置を推定する技術に関する。 The present disclosure relates to a technique for estimating the position of a part of the human body from a distance image.
近年、スポーツのスキル向上などを目的として、選手の体の動きを取得・解析することが行われている。またサッカーやラグビーなどのチーム競技においては、選手個々の動きに加え、全体のフォーメーションを解析することが求められている。選手の動きを解析する技術としては、いわゆるデプスカメラによって被写体(選手)の距離画像を取得し、予め学習した関節位置等を推定するための学習済みモデルを用いて、選手の関節位置等を推定する手法が提案されている(特許文献1)。 In recent years, the movement of a player's body has been acquired and analyzed for the purpose of improving sports skills. In team competitions such as soccer and rugby, it is required to analyze the overall formation in addition to the movement of each player. As a technique for analyzing the movement of a player, a distance image of a subject (player) is acquired by a so-called depth camera, and a trained model for estimating a joint position learned in advance is used to estimate the joint position of the player. A method has been proposed (Patent Document 1).
特許文献1に示す手法の場合、関節位置等の推定精度が、デプスカメラに搭載された撮像センサの性能や撮像可能距離、解像度によって大きく影響を受けることになる。また、一般的なデプスカメラの有効撮像範囲は数cmから十数mであるところ、撮像範囲がより広大なサッカーやラグビーといったフィールド競技を対象として各選手の関節位置等の推定を行おうとすれば、フィールド内にもデプスカメラの設置が必要となる。しかしながら、広大なフィールド内に多数のデプスカメラを設置するというのは実際には実現困難である。 In the case of the method shown in Patent Document 1, the estimation accuracy of the joint position and the like is greatly affected by the performance of the image sensor mounted on the depth camera, the imageable distance, and the resolution. In addition, the effective imaging range of a general depth camera is several cm to a dozen meters, but if you try to estimate the joint position of each player for field competitions such as soccer and rugby, which have a wider imaging range. , It is necessary to install a depth camera in the field as well. However, it is actually difficult to install a large number of depth cameras in a vast field.
本発明は、簡便な構成で、被写体である人体の部位の推定を精度よく行うようにすることを目的とする。 An object of the present invention is to make it possible to accurately estimate a part of the human body that is a subject with a simple configuration.
本開示に係る情報処理装置は、人物オブジェクトを複数の方向から撮像して得られた複数の撮像画像を用いて生成された、前記人物オブジェクトの三次元形状を示す形状データを取得する取得手段と、前記取得手段が取得した前記形状データに基づき、所定の視点条件に従った場合の前記人物オブジェクトまでの距離を示す距離画像を生成する生成手段と、予め学習を行って得られた人体の部位の位置を推定するための学習済みモデルを用いて、前記生成手段が生成した前記距離画像に基づき、前記人物オブジェクトにおける人体部位の位置を推定する部位推定手段と、を備えたことを特徴とする。 The information processing apparatus according to the present disclosure is an acquisition means for acquiring shape data indicating a three-dimensional shape of the person object, which is generated by using a plurality of captured images obtained by imaging the person object from a plurality of directions. , A generation means for generating a distance image showing a distance to the person object when a predetermined viewpoint condition is followed based on the shape data acquired by the acquisition means, and a part of the human body obtained by performing learning in advance. It is characterized in that it includes a part estimation means for estimating the position of a human body part in the person object based on the distance image generated by the generation means using a trained model for estimating the position of. ..
本発明によれば、簡便な構成で、被写体である人体の部位の推定を精度よく行うことができる。 According to the present invention, it is possible to accurately estimate a part of the human body that is a subject with a simple configuration.
以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. It should be noted that the following embodiments do not limit the present invention, and not all combinations of features described in the present embodiment are essential for the means for solving the present invention. The same configuration will be described with the same reference numerals.
[実施形態1]
(基本的なシステム構成と動作)
図1は、被写体の関節位置等の推定を行う画像処理システムの構成の一例を示す図である。画像処理システム100は、撮像モジュール110a〜110p、データベース(DB)250、サーバ270、制御装置300、スイッチングハブ180、及びエンドユーザ端末190を有する。すなわち、画像処理システム100は、映像収集ドメイン、データ保存ドメイン、及び映像生成ドメインという3つの機能ドメインを有する。映像収集ドメインは撮像モジュール110a〜110pを含み、データ保存ドメインはDB250とサーバ270を含み、映像生成ドメインは制御装置300及びエンドユーザ端末190を含む。
[Embodiment 1]
(Basic system configuration and operation)
FIG. 1 is a diagram showing an example of a configuration of an image processing system that estimates the joint position of a subject and the like. The
制御装置300は、画像処理システム100を構成するそれぞれのブロックに対してネットワークを通じて動作状態の管理及びパラメータ設定制御などを行う。
The
最初に、撮像モジュール110a〜110pの16セット分の撮像画像を撮像モジュール110pからサーバ270へ送信する動作を説明する。撮像モジュール110a〜110pは、それぞれ1台ずつのカメラ112a〜112pを有する。以下では、撮像モジュール110a〜110pまでの16セットのシステムを区別せず、単に「撮像モジュール110」と記載する場合がある。各撮像モジュール110内の装置についても同様に、「カメラ112」、「カメラアダプタ120」と記載する場合がある。カメラ112a〜112pは制御装置300からの同期信号に基づいて互いに高精度に同期して撮像を行う。各撮像モジュール110a〜110pは、例えば、図2に示すように、グラウンド等を囲むように設置される。なお、撮像モジュール110の台数を16セットとしているが、あくまでも一例でありこれに限定されない。
First, an operation of transmitting 16 sets of captured images of the
撮像モジュール110a〜110pはデイジーチェーンにより接続される。なお、接続形態は任意であり、例えば撮像モジュール110a〜110pがスイッチングハブ180にそれぞれ接続されて、スイッチングハブ180を経由して撮像モジュール110間のデータ送受信を行うスター型のネットワーク構成としてもよい。
The
本実施形態では、カメラ112とカメラアダプタ120とが分離された構成となっているが、同一筺体で一体化されていてもよい。撮像モジュール110a内のカメラ112aにて得られた撮像画像は、カメラアダプタ120aにおいて前景背景分離等の所定の画像処理が施された後、撮像モジュール110bのカメラアダプタ120bに伝送される。同様に撮像モジュール110bは、カメラ112bにて得られた撮像画像を、撮像モジュール110aから取得した撮像画像と合わせて撮像モジュール110cに伝送する。このような動作を続けることにより、16セット分の撮像画像(前景画像を含む)が、撮像モジュール110pからスイッチングハブ180に伝わり、その後、サーバ270へ伝送される。なお、以下の説明においては、被写体を「人物オブジェクト」と表記することとする。
In the present embodiment, the camera 112 and the camera adapter 120 are separated from each other, but they may be integrated in the same housing. The captured image obtained by the
(サーバの機能構成)
図3は、本実施形態に係る、人物オブジェクトの関節位置等を推定する情報処理装置としての、サーバ270の機能構成を示すブロック図である。サーバ270は、三次元形状導出部271、オブジェクト分離部272、推定用画像生成部273、人体部位推定部274及び学習部275を有する。また、サーバ270は一般的なコンピュータが備える各種ハードウェア、すなわち、CPU、RAM、ROM、外部I/F、大容量記憶領域などを有している。そして、CPUがRAMやROMに格納されている所定のプログラムを実行することで図3に示す各部の機能を実現する。なお、本実施形態では、1台のサーバ270にて上記各部の機能を実現する構成とするが、複数台のサーバによって上記各部の機能が分散して実現されるような構成でもよい。例えば、三次元形状導出部271とオブジェクト分離部272の2つの機能を担うサーバと、推定用画像生成部273、人体部位推定部274及び学習部275の3つの機能を担うサーバとに分けてもよい。
(Functional configuration of server)
FIG. 3 is a block diagram showing a functional configuration of the
サーバ270に入力された複数の撮像画像(同期撮影による複数の視点に対応した撮像画像)のデータは、まず、三次元形状導出部271に入力される。三次元形状導出部271は、視点の異なる各撮像画像に対し人物オブジェクトのシルエット抽出を行い、得られたシルエット画像を用いて視体積交差法などによって人物オブジェクトの三次元形状を表す形状データを生成する。このような形状データは、一般に三次元モデルとも呼ばれる。本実施形態では、撮影シーンとして複数の選手が広大なフィールド上を動き回るサッカーやラグビーの試合を想定し、各撮像画像のそれぞれには複数の選手が含まれているものとする。すなわち、三次元形状導出部271で生成される形状データには、複数の人物オブジェクトそれぞれの三次元形状を表す部分が含まれている。図4(a)に、三次元形状導出部271で生成される形状データの一例を示す。図4(a)に示すとおり、形状データにおいては、人物オブジェクトそれぞれの三次元形状が、例えばボクセルと呼ばれる単位立方体の集合(塊)として表現される。つまり、三次元形状導出部271で生成される形状データには、複数の選手に対応する複数のボクセル群が含まれることになる。なお、三次元形状の表現形式には、ボクセル形式の代わりに点群形式やポリゴン形式など他の形式を用いてもよい。
The data of the plurality of captured images (captured images corresponding to a plurality of viewpoints by synchronous shooting) input to the
オブジェクト分離部272は、三次元形状導出部271で生成された形状データから、選手一人一人に対応する領域を切り出す分離処理を行って、人物オブジェクト単位の三次元形状を表す個別の形状データ(以下、「個別形状データ」と呼ぶ。)を生成する。図5は、形状データに対する分離処理を説明する図である。図5において一点鎖線の矩形501は、三次元形状導出部271で生成された分離処理前の形状データを示している。いま、形状データ501には二人の選手に対応するボクセル群502及び503が存在する。このときボクセル間には関連付けがなされておらず、どのボクセルがどの人物オブジェクトのボクセルかの区別は存在しない。そこで、各ボクセルについて他のボクセルとの間の距離を求め、接している(すなわち、距離がゼロ)或いは所定距離以内にあるボクセル同士を、同一の人物オブジェクトに属するボクセルであると特定する判別処理を行う。例えば、図5の例において、注目ボクセルをボクセル504とした場合には、ボクセル群503を構成する各ボクセルは同一の人物オブジェクトに属すると判定されることになる。一方、ボクセル群503を構成するどのボクセルからも距離が一定以上離れているボクセル群502を構成する各ボクセルに関しては、異なる人物オブジェクトに属するとは判定されることになる。このような分離処理を行うことによって、各人物オブジェクトに対応した個別形状データが生成される。なお、分離手法は上述の例に限定されない。例えば、形状データを仮想的な視点に投影した二次元画像上にて各ボクセル群に対応する領域間の距離を求め、当該距離が一定距離離れている場合に分離するといった手法でもよい。図4(b)に、上述の図4(a)に示す形状データにおけるボクセル群401の部分を分離することで生成された個別形状データの一例を示す。こうして得られた人物オブジェクト単位の個別形状データは、推定用画像生成部273に送られる。
The
推定用画像生成部273は、オブジェクト分離部272から受け取った個別形状データに基づき、所定の視点条件に従った場合の人物オブジェクトまでの距離を示す、人体部位の位置を推定するための距離画像(推定用距離画像)を生成する。図6(a)に、図4(b)の個別形状データから生成した推定用距離画像の一例を示す。図6(a)の距離画像の場合、白に近いほど距離が近く(手前側)、黒に近いほど距離が遠い(奥側)ことを示している。生成する推定用距離画像の数が多いほど(すなわち、視点の数が多いほど)、後の人体部位の推定フェーズにおける推定精度が高くなる。なお、所定の「視点条件」については後述する。人物オブジェクト単位で生成された1又は複数の推定用距離画像のデータは、人体部位推定部274に送られる。
The estimation
人体部位推定部274は、推定用画像生成部273から受け取った1又は複数の推定用距離画像を入力として、学習部275から提供される人体の各部位の位置を推定するための学習済みモデルを用いて、各人物オブジェクトについての関節位置等を推定する。人体部位推定部274による推定結果は、例えば上述した肩、肘、膝、腰、手首、足首といった人体の各部位の位置を、三次元座標上の点でそれぞれ表した情報(以下、「人体部位情報」と呼ぶ。)として得られる。図6(b)に、図6(a)の推定用距離画像に基づく推定結果として出力される人体部位情報の一例を示す。なお、人体部位推定部274を複数設け、人物オブジェクト単位で切り出された複数の個別形状データを並列処理する構成とすることで処理の高速化を図ってもよい。
The human body
学習部275は、CG等で予め作成した各人物オブジェクトまでの距離を表す学習用距離画像を入力データとして、図7の(a)及び(b)に示すような、人体の部位毎に色分けした画像(色分け画像)を教師データとして用いた機械学習を行う。機械学習に使用するアルゴリズムには特に限定はなく、非特許文献1に記載のランダムフォレストや非特許文献2に記載のCNNなどを適用可能である。この機械学習によって人物オブジェクトの関節位置等の推定に用いる学習済みモデルを生成する。生成された学習済みモデルは人体部位推定部274に提供される。
The
なお、本実施形態では、サーバ270内に学習部275を設けているが、機械学習までをシステム外の外部装置にて行い、学習結果としての学習済みモデルを人体部位推定部274で保持しておくような構成でもよい。
In the present embodiment, the
(学習と推定)
図8(a)は、本実施形態の学習フェーズにおける入出力の説明図である。入力データX_tは、学習部275で生成された学習用距離画像のデータである。そして、学習モデルにおいては、学習用距離画像から抽出可能な情報、例えば画素値の分布や人物オブジェクトの形状などに着目して、人体の各部位の予測が行われる。具体的には、特許文献2に記載されているように、まず、人体部位の色分け画像を用いて、入力された学習用距離画像に映っている人物オブジェクトにおける人体のパーツを判別する学習を行う。次に、判別されたパーツ毎にピクセルの三次元的な重心を求めることで肘や肩といった関節位置等を予測する学習を行なう。そして、予測された関節位置等と、教師データTとしての色分け画像で特定される人体の各部位とのずれ量Lが最小となるように繰り返し学習が行われる。
(Learning and estimation)
FIG. 8A is an explanatory diagram of input / output in the learning phase of the present embodiment. The input data X_t is the data of the learning distance image generated by the
図8(b)は、本実施形態の推定フェーズにおける入出力の説明図である。入力データX_iは、推定用画像生成部273で生成された推定用距離画像のデータである。学習部275から提供された学習済モデルを用いた推定の結果として得られる出力データY_iが、上述の人体部位情報である。
FIG. 8B is an explanatory diagram of input / output in the estimation phase of the present embodiment. The input data X_i is the data of the estimation distance image generated by the estimation
(推定用距離画像生成時の「視点条件」について)
距離画像生成部273が推定用距離画像を生成する際に適用する所定の「視点条件」は、不図示の操作部を介したユーザ入力によって或いは予め用意しておいた視点情報を読み込むことによって設定される。そして、このときの視点条件は、学習フェーズで用いた学習用距離画像の作成時に採用した視点となるべく一致させることが望ましい。以下、その理由を説明する。
(About "viewpoint conditions" when generating a distance image for estimation)
The predetermined "viewpoint condition" applied when the distance
具体的な説明に入る前に、従来のデプスカメラを用いて距離画像を取得し、得られた距離画像から関節位置等の推定を行う場合について確認しておく。図9(a)は、従来のデプスカメラによる撮影によって距離画像を得る様子を説明する図である。図9(a)では、選手901を、それぞれ異なる位置に設置された2台のデプスカメラ902及び903によって撮影する様子が示されている。そして、選手901に近い位置に設置されたデプスカメラ902によって得られた距離画像904には選手901の上半身の部分だけが現れている。一方、選手901から離れた高い位置に設置されたデプスカメラ903によって得られた距離画像905には、選手901の全身が小さく現れている。このように、従来のデプスカメラを用いた距離画像においては、人物オブジェクトとの距離、カメラの設置高さ、人物オブジェクトの向いている方向、カメラの光学特性といった様々な要因により、得られる距離画像の内容が大きく異なる。つまり、デプスカメラの性能や設置環境等に、距離画像に移る人物オブジェクトの大きさや見え方などが大きく依存することになる。そして、設置環境等が異なる状況下で得られた様々な内容の距離画像に基づいて関節位置等を推定するための学習を行なって信頼性の高い学習済みモデルを得ようとすると、そのために必要な学習用データは膨大な量になる。
Before going into a specific explanation, it is confirmed that a distance image is acquired using a conventional depth camera and the joint position and the like are estimated from the obtained distance image. FIG. 9A is a diagram illustrating how a distance image is obtained by taking a picture with a conventional depth camera. FIG. 9A shows a state in which the
上記のような問題を踏まえ、本実施形態においては、学習フェーズにおける入力データとしての距離画像をCG等で作成する際の視点条件について一定の制限を設ける。図9(b)は、本実施形態に係る学習用距離画像の作成時の概要を説明する図である。図9(b)の場合、人物オブジェクト910から5m離れた位置で、地上1.5mの高さから水平な位置に疑似的なカメラ911があるとの想定で、そこから画角45度で見た場合の距離画像をCGで作成する場合の図になっている。さらには、解像度などの光学特性も予め決定しておく。そして、人物オブジェクト910を中心として、360度を等分した複数の方向(例えば12等分の場合であれば30度刻みの12通りの方向)から学習用距離画像を作成する。このように、CG等で作成する際の疑似的な視点を固定化した上で例えば外部装置(PC等)にて学習用距離画像を作成し、学習部275に対し入力データとして提供する。このように固定化した視点条件に従って作成した学習用距離画像を使って学習を行うことで、精度の良い学習済みモデルが得られることになる。
Based on the above problems, in the present embodiment, certain restrictions are set on the viewpoint conditions when creating a distance image as input data in the learning phase by CG or the like. FIG. 9B is a diagram illustrating an outline at the time of creating a learning distance image according to the present embodiment. In the case of FIG. 9B, it is assumed that there is a
本実施形態では、学習用距離画像作成時の視点条件を固定化することで、学習フェーズにおいて、距離や高さを異ならせたあらゆる視点から見たときの学習済みモデルのバリエーションを作成する手間を省いている。つまり、上述の図9(b)に示したような一定の視点条件下にて人物オブジェクトを見たときの学習用距離画像でのみ学習を行えばよいようにしている。これにより、学習用データの準備及び学習に要する時間などの学習コストを抑制することができる。また、視点条件を固定化しているため最終的に得られる学習済みモデルもノイズの少ない高精度のものが得られる。よって、当該学習済みモデルを用いた推定フェーズにおける精度の向上にも繋がる。 In the present embodiment, by fixing the viewpoint condition at the time of creating the distance image for learning, it takes time and effort to create a variation of the trained model when viewed from all viewpoints with different distances and heights in the learning phase. I'm omitting it. That is, learning needs to be performed only with the learning distance image when the person object is viewed under a certain viewpoint condition as shown in FIG. 9B described above. As a result, it is possible to suppress learning costs such as preparation of learning data and time required for learning. Further, since the viewpoint condition is fixed, the trained model finally obtained can be a highly accurate model with less noise. Therefore, it also leads to improvement of accuracy in the estimation phase using the trained model.
<変形例>
本実施形態では、複数の人物オブジェクトのボクセル群を含んだ形状データから各人物オブジェクトに対応する個別形状データ切り出す分離処理を行っているが、分離処理を独立に行うことは必須の構成ではない。三次元形状導出部271において、複数の人物オブジェクトの三次元形状を含んだ形状データから人物オブジェクト毎の個別形状データを分離・生成するまでの処理をまとめて行うような構成でもよい。
<Modification example>
In the present embodiment, the separation process of cutting out the individual shape data corresponding to each person object from the shape data including the voxel group of a plurality of person objects is performed, but it is not essential to perform the separation process independently. The three-dimensional
また、必ずしも人物オブジェクト単位の個別形状データに分離しなくてもよい。例えば、学習フェーズにおいて、複数の人物オブジェクトを含んだ状態の学習用距離画像を用いて機械学習を行なうようにしてもよい。この場合、複数の人物オブジェクトを含む推定用距離画像と、複数の人物オブジェクトに対応した学習済みモデルとを用いて、複数の人物オブジェクトそれぞれについて同時に人体部位の位置推定を行うことになる。 Further, it is not always necessary to separate the individual shape data for each person object. For example, in the learning phase, machine learning may be performed using a learning distance image including a plurality of person objects. In this case, the position of the human body part is estimated at the same time for each of the plurality of person objects by using the estimation distance image including the plurality of person objects and the trained model corresponding to the plurality of person objects.
本実施形態では、通常の撮像手段を用いて取得した複数の撮像画像から生成した人物オブジェクトの三次元形状を表す形状データに基づき高精度な距離画像を生成する。そして、予め機械学習を行って得た人体部位の位置推定のための学習済みモデルを用いて、撮像画像に映っている人物オブジェクトの関節位置を推定する。これにより、専用のデプスカメラを適切に設置することが困難な、複数の選手等が広い範囲で自由に移動するような撮影シーンにおいても、選手等の人体各部位の位置推定を高精度に行うことが可能となる。 In the present embodiment, a highly accurate distance image is generated based on shape data representing a three-dimensional shape of a person object generated from a plurality of captured images acquired by using a normal imaging means. Then, the joint position of the human object shown in the captured image is estimated by using the learned model for estimating the position of the human body part obtained by performing machine learning in advance. As a result, even in a shooting scene where it is difficult to properly install a dedicated depth camera and multiple athletes move freely over a wide range, the position of each part of the human body such as athletes can be estimated with high accuracy. It becomes possible.
[実施形態2]
次に、人物オブジェクトの向いている方向を先ず特定して、特定された向きに応じた推定用距離画像を生成することで、人体部位の位置推定精度を高める態様を、実施形態2として説明する。なお、画像処理システムの基本構成など実施形態1と共通する内容については省略し、以下では差異点であるサーバ270の機能構成について説明を行うものとする。
[Embodiment 2]
Next, a mode for improving the position estimation accuracy of the human body part by first specifying the direction in which the person object is facing and generating an estimation distance image according to the specified direction will be described as the second embodiment. .. The contents common to the first embodiment such as the basic configuration of the image processing system will be omitted, and the functional configuration of the
(サーバの機能構成)
図10は、本実施形態に係る、人物オブジェクトの関節位置等を推定する情報処理装置としてのサーバ270’の機能構成を示すブロック図である。実施形態1との大きな違いは、まず、人物オブジェクトの向きの推定を行うオブジェクト向き推定部1001と、そのための機械学習を行って学習済みモデルを生成する第2学習部1002を有している点である。さらには、第2推定用画像生成部1002を有している点も実施形態1と異なる点である。なお、実施形態1のサーバ270と共通する同一名称のブロックは同様の機能・動作を行うので、その説明を省略する。また、図10における第1推定用画像生成部273及び第1学習部275の機能・動作は、実施形態1の推定用画像生成部273及び学習部275と同じであるため同じ符号を付している。
(Functional configuration of server)
FIG. 10 is a block diagram showing a functional configuration of the server 270'as an information processing device for estimating joint positions and the like of a person object according to the present embodiment. The major difference from the first embodiment is that it has an object
オブジェクト向き推定部1001は、第1推定用画像生成部273で生成された推定用距離画像と第2学習部1002から提供された学習済みモデルとを用いて、各人物オブジェクトの体が向いている方向を推定する。図11は、撮像空間がサッカーのフィールドである場合における、選手の向いている方向の識別方法を説明する図である。図11の例では、x−yの二次元平面で示すフィールド中央(z軸)を中心軸としたときの回転角によって選手の体の向きを識別する。いま、x方向を基準角度(0度)とし、例えば右側にあるゴールの方向を選手が向いている場合は“0度を向いている”となり、左側にあるゴールの方向を選手が向いている場合は“180度を向いている”となる。
The object
なお、ここでは2次元平面上で向きを識別する例を説明したが、z軸を含めた3次元空間における向きを識別してもよい。このような回転角の情報が、人物オブジェクトの体の向いている方向を示す情報(以下、「身体方向情報」と呼ぶ。)として、第2推定用画像生成部1003に出力される。なお、向きを推定する方法は、個別形状データから生成した推定用距離画像に基づくものに限定されない。例えば、現在の個別形状データと過去のある時刻の個別形状データとの差分から人物オブジェクトの移動方向を求め、当該移動方向を人体オブジェクトの向いている方向と推定する構成でもよい。また、個別形状データから生成した推定用距離画像を用いるのに代えて、撮像画像データから人物オブジェクトの向いている方向を推定するような学習済みモデルを用いて向きの推定を行ってもよい。
Although the example of identifying the orientation on the two-dimensional plane has been described here, the orientation in the three-dimensional space including the z-axis may be identified. Such rotation angle information is output to the second estimation
第2学習部1002は、予め異なる姿勢・方向を向いた人物オブジェクトの距離画像を入力データとし、人物オブジェクトの体の向く方向の情報を教師データとした機械学習を行い、人体の向きを推定するための学習済みモデルを生成する。この機械学習を行う際の入力データとしての距離画像には、実施形態1の第1学習部275と同様に、人体の向いている方向が推定しやすい、所定の視点条件に従った距離画像のみを用いるのが望ましい。
The
第2推定用画像生成部1003は、オブジェクト向き推定部1001から受け取った身体方向情報に基づき、オブジェクト分離部272から入力された個別形状データを用いて、特定方向からみた場合の推定用距離画像(以下、「特定距離画像」と呼ぶ。)を生成する。具体的には、処理対象の人物オブジェクトを正面から見た場合或いは右側面から見た場合といった具合に、予め決めておいた特定の方向から見た場合の特定距離画像を、身体方向情報によって示される人物オブジェクトの体の向きを基準として生成する。例えば、身体方向情報によって人物オブジェクトの向きが0度である場合において、当該人物オブジェクトを正面から捉えた特定距離画像を生成するとき、疑似的なカメラの視線方向は180度を向くことになる。そして、人体部位推定部274において、人物オブジェクトの体の向き基準で生成された特定距離画像と上述の学習済みモデルとに基づき、各人物オブジェクトの人体部位の位置推定が実行されることになる。
The second estimation
本実施形態の場合、第1学習部275で学習を行う際の入力データが、前述の所望の方向から捉えた距離画像だけで済むことになる。すなわち、実施形態1の場合は、固定化した視点条件ではあるものの、高精度の学習済みモデルを得るには人物オブジェクトを360度様々な方向から捉えた学習用距離画像が必要となる。これに対し本実施形態の手法であれば、予め定めた特定方向のみから捉えた学習用距離画像を用意すればよく、人体部位の位置推定の学習フェーズに要するコストを削減できる。なお、人物オブジェクトの向く方向を推定するための学習済みモデルを作成するための学習コストが追加となるが、上記特定方向以外の方向での学習を行わないことから、推定フェーズにおける人体部位の位置推定精度の向上が期待できる。
In the case of the present embodiment, the input data for learning by the
<変形例>
上述の例では特定方向を一方向としたが、複数方向であってもよい。図12は、特定方向を2個設ける場合のサーバ270”の機能構成を示すブロック図である。それぞれ異なる方向に対応した2つの第2推定用画像生成部1002a及び1002bと、2つの人体部位推定部274a及び274bが存在している。このような構成の下、例えば第2推定用画像生成部1002aと人体部位推定部274aを正面用、第2推定用画像生成部1002bと人体部位推定部274bを右側面用といった具合に、ユーザが所望する特定方向と各機能部とにそれぞれ対応付ければよい。この場合、第1学習部275’は、正面用と右側面用の2種類の機械学習をそれぞれ行って、正面用の学習済みモデルを人体部位推定部274aに提供し、右側面用の学習済みモデルを人体部位推定部274bに提供する。
<Modification example>
In the above example, the specific direction is one direction, but it may be a plurality of directions. FIG. 12 is a block diagram showing a functional configuration of the
上記のような構成において、第2推定用画像生成部1002aは、オブジェクト向き推定部1001から受け取った身体方向情報に基づき、人物オブジェクトを正面から見た場合の特定距離画像を生成する。同様に、第2推定用画像生成部1002bは、入力された身体方向情報に基づき、人物オブジェクトを右側面から見た場合の特定距離画像を生成する。
In the above configuration, the second estimation
そして、人体部位推定部274a及び274bは、上述のようにして得られたそれぞれの特定方向に対応する推定用距離画像と、第1学習部275’からそれぞれ提供された学習済みモデルを用いて、人物オブジェクトの人体部位の位置推定を行う。そして、それぞれの特定方向における推定結果が補完処理部1004に出力される。
Then, the human body
補完処理部1004は、受け取った複数の推定結果を用いて、個々の特定方向からでは見えない部分をそれぞれ補い合う補完処理を行って最終的な推定結果としての人体部位情報を出力する。これにより、より信頼性が向上した人体部位情報が得られることになる。なお、補完補正処理を追加的に行うことになるが、360度様々な方向からの学習を行うよりは学習コストは少なくて済む。また、各学習済みモデルは一方向からの学習を行ったモデルであるので、推定精度の向上も同様に期待できる。
The
[仮想視点映像への応用]
各実施形態で説明した内容は、いわゆる仮想視点映像生成システム(特許文献3を参照)にも応用できる。例えば、予め人物オブジェクト毎の三次元形状データをポリゴン等で作成しておき、上述の実施形態によって得られた人体部位情報に基づいて人物オブジェクトの形状を変形させることで選手の動きを再現することができる。この場合、従来の生成手法と比較してデータ量を大幅に削減した仮想視点映像を生成することが可能となる。本応用手法の場合、選手の表情といった細部の表現については再現困難であるが、選手間のフォーメーションや選手個々の動きなどを確認するには十分な情報を得ることができ、タブレットPCなどの携帯型端末にて仮想視点映像を視聴・確認するのに向いているといえる。
[Application to virtual viewpoint video]
The contents described in each embodiment can also be applied to a so-called virtual viewpoint video generation system (see Patent Document 3). For example, three-dimensional shape data for each person object is created in advance with polygons or the like, and the movement of the player is reproduced by deforming the shape of the person object based on the human body part information obtained by the above-described embodiment. Can be done. In this case, it is possible to generate a virtual viewpoint video in which the amount of data is significantly reduced as compared with the conventional generation method. In the case of this applied method, it is difficult to reproduce detailed expressions such as facial expressions of athletes, but sufficient information can be obtained to check formations between athletes and individual movements of athletes, and mobile phones such as tablet PCs can be obtained. It can be said that it is suitable for viewing and checking virtual viewpoint images on a tablet terminal.
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other embodiments)
The present invention supplies a program that realizes one or more functions of the above-described embodiment to a system or device via a network or storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by the processing to be performed. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
270 サーバ
271 三次元形状導出部
272 オブジェクト分離部
273 推定用画像生成部
274 人体部位推定部
275 学習部
270
Claims (13)
前記取得手段が取得した前記形状データに基づき、所定の視点条件に従った場合の前記人物オブジェクトまでの距離を示す距離画像を生成する生成手段と、
予め学習を行って得られた人体の部位の位置を推定するための学習済みモデルを用いて、前記生成手段が生成した前記距離画像に基づき、前記人物オブジェクトにおける人体部位の位置を推定する部位推定手段と、
を備えたことを特徴とする情報処理装置。 An acquisition means for acquiring shape data indicating the three-dimensional shape of the person object, which is generated by using a plurality of captured images obtained by imaging the person object from a plurality of directions.
Based on the shape data acquired by the acquisition means, a generation means for generating a distance image showing a distance to the person object when a predetermined viewpoint condition is followed, and a generation means.
Part estimation that estimates the position of the human body part in the person object based on the distance image generated by the generation means using a trained model for estimating the position of the human body part obtained by pre-learning. Means and
An information processing device characterized by being equipped with.
前記生成手段は、前記個別形状データに基づいて前記距離画像を生成し、
前記部位推定手段は、人物オブジェクト単位で学習を行って得られた学習済みモデルを用いて、前記推定を行う、
ことを特徴とする請求項1に記載の情報処理装置。 When the shape data acquired by the acquisition means includes three-dimensional shapes of a plurality of person objects, it further has a separation means for separating the individual shape data for each person object.
The generation means generates the distance image based on the individual shape data, and generates the distance image.
The part estimation means performs the estimation using a trained model obtained by training for each person object.
The information processing apparatus according to claim 1.
前記分離手段は、各ボクセルについて他のボクセルとの間の距離を求め、接している或いは所定距離以内にあるボクセル同士を、同一の人物オブジェクトに属するボクセルであると特定する判別処理を行って、前記個別形状データに分離する、
ことを特徴とする請求項2に記載の情報処理装置。 The shape data is data in which the three-dimensional shape of the person object is represented by voxels.
The separation means obtains the distance between each voxel and another voxel, and performs a discrimination process for identifying voxels that are in contact with each other or within a predetermined distance as voxels belonging to the same person object. Separate into the individual shape data,
The information processing apparatus according to claim 2.
前記生成手段は、前記方向推定手段が推定した方向に基づき、特定方向から前記人物オブジェクトを捉えた特定距離画像を生成し、
前記部位推定手段は、前記特定距離画像を用いて、前記推定を行う、
ことを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。 A direction estimating means for estimating the direction in which the person object is facing, and
The generation means generates a specific distance image that captures the person object from a specific direction based on the direction estimated by the direction estimation means.
The site estimation means uses the specific distance image to perform the estimation.
The information processing apparatus according to any one of claims 1 to 5, wherein the information processing device is characterized by the above.
前記複数の前記部位推定手段による推定結果を用いて、1つの特定方向からでは見えない部分を補完した推定結果を生成する補完処理部と、
を備えたことを特徴とする請求項6乃至10のいずれか1項に記載の情報処理装置。 A plurality of the site estimation means corresponding to different specific directions, and
A complement processing unit that generates an estimation result that complements a part that cannot be seen from one specific direction by using the estimation results by the plurality of the site estimation means.
The information processing apparatus according to any one of claims 6 to 10, further comprising.
取得された前記形状データに基づき、所定の視点条件に従った場合の前記人物オブジェクトまでの距離を示す距離画像を生成するステップと、
予め学習を行って得られた人体の部位の位置を推定するための学習済みモデルを用いて、生成された前記距離画像に基づき、前記人物オブジェクトにおける人体の部位の位置を推定するステップと、
を含むことを特徴とする情報処理方法。 A step of acquiring shape data showing a three-dimensional shape of the person object, which is generated by using a plurality of captured images obtained by imaging the person object from a plurality of directions, and
Based on the acquired shape data, a step of generating a distance image showing a distance to the person object when a predetermined viewpoint condition is followed, and a step of generating a distance image.
Using a trained model for estimating the position of a human body part obtained by pre-learning, a step of estimating the position of a human body part in the person object based on the generated distance image, and a step of estimating the position of the human body part in the person object.
An information processing method characterized by including.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019222034A JP2021092891A (en) | 2019-12-09 | 2019-12-09 | Information processor, information processing method, image processing system, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019222034A JP2021092891A (en) | 2019-12-09 | 2019-12-09 | Information processor, information processing method, image processing system, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021092891A true JP2021092891A (en) | 2021-06-17 |
Family
ID=76312414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019222034A Pending JP2021092891A (en) | 2019-12-09 | 2019-12-09 | Information processor, information processing method, image processing system, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021092891A (en) |
-
2019
- 2019-12-09 JP JP2019222034A patent/JP2021092891A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110874864B (en) | Method, device, electronic equipment and system for obtaining three-dimensional model of object | |
Alexiadis et al. | An integrated platform for live 3D human reconstruction and motion capturing | |
CN110544301A (en) | Three-dimensional human body action reconstruction system, method and action training system | |
CN113706699B (en) | Data processing method and device, electronic equipment and computer readable storage medium | |
RU2744699C1 (en) | Generating apparatus, method of generation and program for a three-dimensional model | |
CN113239797B (en) | Human body action recognition method, device and system | |
CN111353355B (en) | Motion tracking system and method | |
JP7164045B2 (en) | Skeleton Recognition Method, Skeleton Recognition Program and Skeleton Recognition System | |
CN105912991A (en) | Behavior identification method based on 3D point cloud and key bone nodes | |
US20200057778A1 (en) | Depth image pose search with a bootstrapped-created database | |
CN114119739A (en) | Binocular vision-based hand key point space coordinate acquisition method | |
US11373329B2 (en) | Method of generating 3-dimensional model data | |
CN113449570A (en) | Image processing method and device | |
CN115035546A (en) | Three-dimensional human body posture detection method and device and electronic equipment | |
US11521411B2 (en) | System and method for providing multi-camera 3D body part labeling and performance metrics | |
Kornilova et al. | Smartportraits: Depth powered handheld smartphone dataset of human portraits for state estimation, reconstruction and synthesis | |
CN116523962A (en) | Visual tracking method, device, system, equipment and medium for target object | |
JP2021092891A (en) | Information processor, information processing method, image processing system, and program | |
Zhang et al. | A multiple camera system with real-time volume reconstruction for articulated skeleton pose tracking | |
CN113724176A (en) | Multi-camera motion capture seamless connection method, device, terminal and medium | |
Wang et al. | Research and implementation of the sports analysis system based on 3D image technology | |
JP2020188914A (en) | Data processing device, image distribution system, image analysis method, and image analysis program | |
Moliner et al. | Better prior knowledge improves human-pose-based extrinsic camera calibration | |
Xing et al. | Markerless motion capture of human body using PSO with single depth camera | |
Bériault | Multi-camera system design, calibration and three-dimensional reconstruction for markerless motion capture |