JP2024525148A - キーポイント検出のためのトレーニング・データセットを生成するための方法及びシステム、並びにマーカーなし対象上の仮想マーカーの3dロケーションを予測するための方法及びシステム - Google Patents

キーポイント検出のためのトレーニング・データセットを生成するための方法及びシステム、並びにマーカーなし対象上の仮想マーカーの3dロケーションを予測するための方法及びシステム Download PDF

Info

Publication number
JP2024525148A
JP2024525148A JP2023577120A JP2023577120A JP2024525148A JP 2024525148 A JP2024525148 A JP 2024525148A JP 2023577120 A JP2023577120 A JP 2023577120A JP 2023577120 A JP2023577120 A JP 2023577120A JP 2024525148 A JP2024525148 A JP 2024525148A
Authority
JP
Japan
Prior art keywords
marker
images
color video
camera
cameras
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023577120A
Other languages
English (en)
Inventor
ジャテシクタット、プラヨーク
テック アン、ウェイ
セン リム、ウィー
セルヴァラージ、バラタ
Original Assignee
ナンヤン・テクノロジカル・ユニバーシティー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ナンヤン・テクノロジカル・ユニバーシティー filed Critical ナンヤン・テクノロジカル・ユニバーシティー
Publication of JP2024525148A publication Critical patent/JP2024525148A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/60Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18143Extracting features based on salient regional features, e.g. scale invariant feature transform [SIFT] keypoints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • G06T2207/20044Skeletonization; Medial axis transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Studio Devices (AREA)

Abstract

本発明の実施例によれば、キーポイント検出のためのトレーニング・データセットを生成するための方法及びシステムが提供される。本システムは、3D軌跡としてマーカーをキャプチャするための光学マーカーベース・モーション・キャプチャ・システムと、2D画像のシーケンスを同時にキャプチャするためのビデオ・カメラとを含む。各マーカーは対象の骨ランドマーク又はキーポイント上に配置される。システム中のコンピュータによって実行される本方法は、各マーカーについて2Dロケーションを決定するために各画像に各軌跡を投影することと、そこから3D位置を補間することと、対象の周りにバウンディング・ボックスを生成することと、その中に少なくとも1つの画像と各マーカーの決定された2Dロケーションとバウンディング・ボックスとを含むトレーニング・データセットを生成することとを含む。さらなる実施例によれば、生成されたトレーニング・データセットによってトレーニングされたニューラル・ネットワークを使用して、マーカーなし対象上の仮想マーカーの3Dロケーションを予測するための方法及びシステムも提供される。

Description

本出願は、それの内容がすべての目的でその全体が参照により本明細書に組み込まれる、2021年6月14日に出願されたシンガポール特許出願第10202106342T号の優先権の利益を主張する。
様々な実施例は、キーポイント検出のためのトレーニング・データセットを生成するための方法及びシステム、並びに生成されたトレーニング・データセットによってトレーニングされるニューラル・ネットワークを使用するマーカーなし対象(たとえば、人間、動物又は物体)上の仮想マーカーの3Dロケーションを予測する方法及びシステムに関する。
人間の動きのキネマティクスを感知し、デジタル化する能力は、スポーツ科学における運動解析、リハビリテーションにおける異常診断、映画産業におけるキャラクタ・アニメーションなど多くの領域において研究及び用途を解放したか、又はそのような能力は、ビデオ・ゲーム、対話型技術、又は異なる種類のコンピュータ・アプリケーションにおいて人間とコンピュータとの対話の目的に役立つことができる。そのような能力を与える技術は様々な形態であり得る。今日に至るまで依然として広く使用されている1つの初期の既製の技術はマルチカメラ・マーカーベース・モーション・キャプチャ形態である。この技術では、対象の骨ランドマークが、アクティブな赤外光源をもつ赤外線カメラによって見られる逆反射(retro-reflective)マーカーを用いて取り付けられる。1つのマーカーが2つ以上の赤外線カメラによって見られるとき、それらの赤外線カメラが較正され、同期させられることを所与として、マーカーの3次元(3D)位置が三角測量から計算される。次いで、これらの3D位置のシーケンスが後続のアプリケーションにおいて使用される。
画像分類のための2012年におけるディープ畳み込みニューラル・ネットワーク(AlexNet)の導入以来、さらに多くの複雑なコンピュータ・ビジョン問題が、その後のデータ駆動型パラダイムの下で同様の方法でアプローチされてきた。遭遇した課題のうちの1つは、人間姿勢推定又は人間キーポイント検出である。この分野におけるニューラル・ネットワーク・モデルは、モデル中心のアプローチの人気によりこの10年間に急速に発展した。科学者は、通常、利用可能な公開データセットをダウンロードし、既存のモデルよりもテスト精度を改善し得る新しいニューラル・ネットワーク・アーキテクチャ又は新しいトレーニング方法を提案した。この傾向はモデルへの多くの顕著な貢献につながったが、データセット及びデータ品質になされた貢献はあまり多くなかった。人間キーポイント検出の分野において、2つの最大のデータ収集の取り組みは、それぞれ118K画像及び40K画像をもつCOCOデータセット及びMPIIデータセットからのものである。これらのデータセットは、データセット中のあらゆる人間についての手作業で注釈を付けられた2次元(2D)関節位置を含んでいる。たとえば、COCOデータセットでは、すべてのキーポイントがクラウドソーシングを通して手作業によって注釈を付けられる。発明者らが知る限りでは、すべての先行技術のデータ駆動型の人間キーポイント検出モデルは、注釈付け精度にかかわらず、学習のために、これらの手作業で注釈を付けられたデータセットに依拠する。
関節中心を表す高解像度画像上のピクセルを選ぶタスクは、様々なあり得る問題により、人間によって正確に実行することが困難である。主な理由は、各関節中心が実際の人間骨ランドマークに対して厳密にどこにあるかの定義についての明らかな合意が注釈付け労働者の間にないことである。定義が与えられた場合でも、2D画像はそれらの骨ランドマークについての十分な手がかりを与えないことがあるので、定義は見つけることが著しく困難なままである。したがって、注釈を付けられた位置は、ピクセル・レベルへのピンポイント・ロケーションというよりはむしろぼけた2Dエリアのようである。これらのデータセットを使用することは、トレーニングされたモデルがどのくらい正確であり得るかを確実に制限する。このレベルの品質は、ビデオ・ゲーム・コントロール又は対話型技術などのエンターテインメント目的のためには十分であり得る。しかしながら、スポーツ科学、生体力学解析、又はリハビリテーション解析のようなより議論が起きやすい適用例では、そのようなレベルの品質は好適又は十分であるとは考えられない場合が多くなる。
別の既存のアプローチでは、Kinect骨格追跡システムが深度画像を用いて動作する。ランダムな姿勢の人間モデルが3Dで作成され得る。あらゆる人間の部分を決定するために1つ1つのピクセルを予測するために、ランダム・フォレスト回帰が使用される。しかしながら、使用される制約は現実的でないことがあるので、そのような合成モデルの精度は素晴らしくない。
したがって、少なくとも上述の問題に対処するための方法及び/又はシステム、より詳細には、システムが複数のRGBカメラの使用を伴い、システム及び/又は方法が3Dマーカー位置出力を生成するが、いかなるマーカー又はセンサーも対象の本体上に配置されない、方法及び/又はシステムが必要である。マーカーなしであることの1つの明らかな利益は、モーション・キャプチャ(mocap:motion capture)ワークフローを医学的診断など予見不能な適用例のためにより実際的なものにする、対象作成における時間とマンパワーとの低減である。本方法及び/又はシステムはまた、過度に限定的な制約を伴わない。
さらに、モデル中心の傾向を継続する代わりに、本方法及び/又は本システムは、その分野のプレーヤによって認められる最良の先行技術のキーポイント検出モデルと、可能な限り高い品質の注釈をもつデータセットを生成するデータ中心の態様とを伴い得る。そのような注釈は、人間による決定に由来するものではなく、マーカーベース・モーション・キャプチャ・システムからのマーカー位置のような正確なセンサーに由来するものでなければならない。マーカーが骨ランドマーク上に正しく配置され、マーカーベース・モーション・キャプチャ・システムがそのマーカーの3D軌跡を正確に取り出すことができる場合、そのマーカーは、今度は、キーポイント検出のトレーニングのためのピクセル精度の2Dグランド・トゥルースを取得するためにビデオ・フレームに投影され得る。比較的少ない予算の下ですべての較正及び同期が働くことを保証するために、データ収集インフラストラクチャも基礎から設計されている。さらに、これは、投影後に著しく大きい誤差を不必要に引き起こすことがある同様のタイプの既存のデータセットを取得する際に使用されるカメラ較正パラメータと時間同期との一貫性のない品質を極めてうまく回避するか又は少なくとも低減し得る。たとえば、2Dにおけるマーカー投影を用いたMoViデータセットからのクロップされた画像に基づいて、不十分なカメラ較正及び同期により、投影はマーカーと整合しないことがわかる。
P.Liangら、「An asian-centric human movement database capturing activities of daily living」、Scientific Data、vol.7、no.1、1~13頁、2020年
一実施例によれば、キーポイント検出のためのトレーニング・データセットを生成するための方法が提供される。本方法は、それぞれ3D軌跡として光学マーカーベース・モーション・キャプチャ・システムによってキャプチャされた複数のマーカーに基づき得、各マーカーは、人間若しくは動物対象の骨ランドマーク、又は物体のキーポイント上に配置され、人間若しくは動物対象又は物体は2D画像のシーケンスとして時間期間にわたって複数のカラー・ビデオ・カメラによって実質的に同時にキャプチャされる。本方法は、各マーカーについて、各2D画像中の2Dロケーションを決定するために2D画像の各々に3D軌跡を投影することと、各マーカーについて、2D画像のシーケンス中のそれぞれの2Dロケーションと、複数のカラー・ビデオ・カメラの露出関係時間とに基づいて、2D画像の各々のための3D位置を補間することと、各2D画像について、複数のマーカーのそれぞれの補間された3D位置と、互いとの解剖学的又は機能的関係を有するマーカーのうちの2つ又はそれ以上から導出された拡張されたボリュームとに基づいて、人間若しくは動物対象又は物体の周りに2Dバウンディング・ボックスを生成することと、2D画像のシーケンスと、選択された少なくとも1つの2D画像中の各マーカーの決定された2Dロケーションと、選択された少なくとも1つの2D画像のための生成された2Dバウンディング・ボックスとから選択される少なくとも1つの2D画像を含むトレーニング・データセットを生成することとを含み得る。
一実施例によれば、マーカーなし人間若しくは動物対象又はマーカーなし物体上の仮想マーカーの3Dロケーションを予測するための方法が提供される。本方法は、2D画像のシーケンスとして複数のカラー・ビデオ・カメラによってキャプチャされたマーカーなし人間若しくは動物対象又はマーカーなし物体に基づいて、各カラー・ビデオ・カメラによってキャプチャされた各2D画像について、トレーニングされたニューラル・ネットワークを使用して、2Dバウンディング・ボックスを予測することと、各2D画像について、トレーニングされたニューラル・ネットワークによって、信頼性スコアをもつ複数のヒートマップを生成することと、各ヒートマップについて、最も高い信頼性スコアをもつピクセルを選択することと、選択されたピクセルを仮想マーカーに関連付け、それによって仮想マーカーの2Dロケーションを決定することと、複数のカラー・ビデオ・カメラによってキャプチャされた2D画像のシーケンスに基づいて、仮想マーカーの3Dロケーションのシーケンスを予測するために各決定された2Dロケーションを三角測量することとを含み得る。各ヒートマップはマーカーなし人間若しくは動物対象又はマーカーなし物体の仮想マーカーの2Dローカリゼーションのためのものであり、各ヒートマップについて、信頼性スコアは、予測された2Dバウンディング・ボックス中の異なる2Dロケーション中に関連する仮想マーカーを有する確率を示す。トレーニングされたニューラル・ネットワークは、上記の一実施例によれば、少なくともキーポイント検出のためのトレーニング・データセットを生成するための方法によって生成されたトレーニング・データセットを使用してトレーニングされる。
一実施例によれば、上記の様々な実施例による、キーポイント検出のためのトレーニング・データセットを生成するための方法、及び/又はマーカーなし人間若しくは動物対象又はマーカーなし物体上の仮想マーカーの3Dロケーションを予測するための方法を実行するように適応されたコンピュータ・プログラムが提供される。
一実施例によれば、コンピュータ上で実行されたときに、コンピュータに、上記の様々な実施例による、キーポイント検出のためのトレーニング・データセットを生成するための方法、及び/又はマーカーなし人間若しくは動物対象又はマーカーなし物体上の仮想マーカーの3Dロケーションを予測するための方法を実行させる命令を含む非一時的コンピュータ可読媒体が提供される。
一実施例によれば、上記の様々な実施例による、キーポイント検出のためのトレーニング・データセットを生成するための方法、及び/又はマーカーなし人間若しくは動物対象又はマーカーなし物体上の仮想マーカーの3Dロケーションを予測するための方法を実行するための手段を備えるデータ処理装置が提供される。
一実施例によれば、キーポイント検出のためのトレーニング・データセットを生成するためのシステムが提供される。本システムは、時間期間にわたって複数のマーカーをキャプチャするように構成された光学マーカーベース・モーション・キャプチャ・システムであって、各マーカーが、人間若しくは動物対象の骨ランドマーク、又は物体のキーポイント上に配置され、3D軌跡としてキャプチャされる、光学マーカーベース・モーション・キャプチャ・システムと、2D画像のシーケンスとして時間期間にわたって人間若しくは動物対象又は物体をキャプチャするように構成された複数のカラー・ビデオ・カメラと、コンピュータとを含み得る。コンピュータは、複数のカラー・ビデオ・カメラによってキャプチャされた2D画像のシーケンスと、光学マーカーベース・モーション・キャプチャ・システムによってキャプチャされたそれぞれの3D軌跡とを受信することと、各マーカーについて、各2D画像中の2Dロケーションを決定するために2D画像の各々に3D軌跡を投影することと、各マーカーについて、2D画像のシーケンス中のそれぞれの2Dロケーションと、複数のカラー・ビデオ・カメラの露出関係時間とに基づいて、2D画像の各々のための3D位置を補間することと、各2D画像について、複数のマーカーのそれぞれの補間された3D位置と、互いとの解剖学的又は機能的関係を有するマーカーのうちの2つ又はそれ以上から導出された拡張されたボリュームとに基づいて、人間若しくは動物対象又は物体の周りに2Dバウンディング・ボックスを生成することと、2D画像のシーケンスと、選択された少なくとも1つの2D画像中の各マーカーの決定された2Dロケーションと、選択された少なくとも1つの2D画像のための生成された2Dバウンディング・ボックスとから選択された少なくとも1つの2D画像を含むトレーニング・データセットを生成することとを行うように構成され得る。
一実施例によれば、マーカーなし人間若しくは動物対象又はマーカーなし物体上の仮想マーカーの3Dロケーションを予測するためのシステムが提供される。本システムは、2D画像のシーケンスとしてマーカーなし人間若しくは動物対象又はマーカーなし物体をキャプチャするように構成された複数のカラー・ビデオ・カメラと、コンピュータとを含み得る。コンピュータは、複数のカラー・ビデオ・カメラによってキャプチャされた2D画像のシーケンスを受信することと、各カラー・ビデオ・カメラによってキャプチャされた各2D画像について、トレーニングされたニューラル・ネットワークを使用して、2Dバウンディング・ボックスを予測することと、各2D画像について、トレーニングされたニューラル・ネットワークを使用して、信頼性スコアをもつ複数のヒートマップを生成することと、各ヒートマップについて、最も高い信頼性スコアをもつピクセルを選択することと、仮想マーカーの2Dロケーションを決定するために選択されたピクセルを仮想マーカーに関連付けることと、複数のカラー・ビデオ・カメラによってキャプチャされた2D画像のシーケンスに基づいて仮想マーカーの3Dロケーションのシーケンスを予測するために、それぞれの決定された2Dロケーションを三角測量することとを行うように構成され得る。各ヒートマップは、マーカーなし人間若しくは動物対象又はマーカーなし物体の仮想マーカーの2Dローカリゼーションのためのものであり、各ヒートマップについて、信頼性スコアは、予測された2Dバウンディング・ボックス中の異なる2Dロケーション中に関連する仮想マーカーを有する確率を示す。トレーニングされたニューラル・ネットワークは、上記の様々な実施例によれば、少なくともキーポイント検出のためのトレーニング・データセットを生成するためのシステム及び/又は方法によって生成されたトレーニング・データセットを使用してトレーニングされる。
図面では、異なる図全体にわたって同様の参照符号は一般に同様の部分を指す。図面は必ずしも一定の縮尺でなく、代わりに、一般に、本発明の原理を示すことに強調が置かれている。以下の説明において、以下の図面を参照しながら本発明の様々な実施例について説明する。
様々な実施例による、キーポイント検出のためのトレーニング・データセットを生成するための方法を示すフロー・チャートを示す図である。 様々な実施例による、マーカーなし人間若しくは動物対象又はマーカーなし物体上の仮想マーカーの3Dロケーションを予測するための方法を示すフロー・チャートを示す図である。 様々な実施例による、キーポイント検出のためのトレーニング・データセットを生成するためのシステムの概略図を示す図である。 様々な実施例による、マーカーなし人間若しくは動物対象又はマーカーなし物体上の仮想マーカーの3Dロケーションを予測するためのシステムの概略図を示す図である。 図1Cのシステムの例示的なセットアップを示す図である。 図1Dのシステムの例示的なセットアップを示す図である。 様々な実例による、異なるツールからの12個の関節からの全体的な精度プロファイルを示すプロットを示す図である。 一実施例による、較正プロセスにおいてのみ使用されるべき3つの可視LEDをもつカメラ・プロトタイプの概略斜視図を示す図である。 一実施例による、ローリング・シャッター・モデルの図式表現を示す図である。 トリガ時間における2Dマーカー軌跡の補間を示す、図6のローリング・シャッター・モデルの図式表現を示す図である。 一実施例による、カメラに投影されるマーカーベース・モーション・キャプチャ・システムからの3Dマーカー軌跡の図式表現を示す図である。 一実施例による、図1Dのシステムを較正するためのチェックボードを含む機器の写真を示す図である。
以下の詳細な説明は、本発明が実施され得る具体的な詳細及び実施例を例として示す添付の図面に関する。当業者が本発明を実施することを可能にするために、これらの実施例について十分詳細に説明する。本発明の範囲から逸脱することなく、他の実施例が利用され得、構造的、論理的、及び電気的変更が行われ得る。新しい実施例を形成するためにいくつかの実施例を1つ又は複数の他の実施例と組み合わせることができるので、様々な実施例は必ずしも相互に排他的であるとは限らない。
本方法又はデバイスのうちの1つのコンテキストにおいて説明する実施例は他の方法又はデバイスについて類似的に有効である。同様に、方法のコンテキストにおいて説明する実施例はデバイスについて類似的に有効であり、その逆も同様である。
一実施例のコンテキストにおいて説明する特徴は、相応して、他の実施例における同じ又は同様の特徴に適用可能であり得る。一実施例のコンテキストにおいて説明する特徴は、他の実施例において明示的に説明していない場合でも、相応して、これらの他の実施例に適用可能であり得る。さらに、一実施例のコンテキストにおいて特徴について説明する追加及び/又は組合せ及び/又は代替は、相応して、他の実施例における同じ又は同様の特徴に適用可能であり得る。
様々な実施例のコンテキストにおいて、特徴又は要素に関して使用される冠詞「a」、「an」及び「the」は特徴又は要素のうちの1つ又は複数への参照を含む。
様々な実施例のコンテキストにおいて、「少なくとも実質的に」というフレーズは「厳密に」及び妥当な相違を含み得る。
様々な実施例のコンテキストにおいて、数値に適用される「約」又は「ほぼ」という用語は厳密な値及び妥当な相違を包含する。
本明細書で使用する際、「及び/又は」という用語は、関連する記載された項目のうちの1つ又は複数のありとあらゆる組合せを含む。
本明細書で使用する際、「A又はBのうちの少なくとも1つ」の形態のフレーズはA又はB、或いはAとBの両方を含み得る。相応して、「A又はB又はCのうちの少なくとも1つ」の形態の、又はさらなる記載された項目を含むフレーズは、関連する記載された項目のうちの1つ又は複数のありとあらゆる組合せを含み得る。
本明細書で使用する際、「ように構成される」という表現は「ように構築される」又は「ように配置される」を意味し得る。
様々な実施例はデータ駆動型のマーカーなしマルチカメラ人間モーション・キャプチャ・システムを提供し得る。そのようなシステムがデータ駆動型であり得るためには、好適で正確なトレーニング・データセットを使用することが重要である。
図1Aは、様々な実施例による、キーポイント検出のためのトレーニング・データセットを生成するための方法100を示すフロー・チャートを示す。先行するステップ102において、複数のマーカーが、それぞれ3D軌跡として光学マーカーベース・モーション・キャプチャ・システムによってキャプチャされる。各マーカーは、人間若しくは動物対象の骨ランドマーク、又は物体のキーポイント上に配置され得る。人間若しくは動物対象又は物体は、2D画像のシーケンスとして時間期間にわたって複数のカラー・ビデオ・カメラによって実質的に同時にキャプチャされる。時間期間は、対象の動きをキャプチャするためにどのくらいの時間が必要とされ得るかに応じて変動し得る。物体は、移動する物体、たとえば、テニス・ラケットなど、使用しているときに追跡され得るスポーツ用品であり得る。方法100は以下のアクティブ・ステップを含む。ステップ104において、各マーカーについて、各2D画像中の2Dロケーションを決定するために、3D軌跡が2D画像の各々に投影される。ステップ106において、各マーカーについて、2D画像のシーケンス中のそれぞれの2Dロケーションと複数のカラー・ビデオ・カメラの露出関係時間とに基づいて、2D画像の各々のための3D位置が補間される。ステップ108において、各2D画像について、複数のマーカーのそれぞれの補間された3D位置と、互いとの解剖学的又は機能的関係を有するマーカーのうちの2つ又はそれ以上から導出された拡張されたボリュームとに基づいて、2Dバウンディング・ボックスが人間若しくは動物対象又は物体の周りに生成される。ステップ110において、トレーニング・データセットが生成され、トレーニング・データセットは、2D画像のシーケンスと、選択された少なくとも1つの2D画像中の各マーカーの決定された2Dロケーションと、選択された少なくとも1つの2D画像のための生成された2Dバウンディング・ボックスとから選択された少なくとも1つの2D画像を含む。たとえば、人間若しくは動物対象の場合、拡張されたボリュームを導出するための2つ又はそれ以上のマーカーは、互いとの解剖学的関係又は機能的関係のうちの少なくとも1つを有し得る。物体の別の例示的なケースでは、拡張されたボリュームを導出するための2つ又はそれ以上のマーカーは互いとの機能的(及び/又は構造的)関係を有し得る。
言い換えれば、方法100は、手作業で注釈を付けられたデータの代わりにマーカー・データから学習することに焦点を当てる。マーカーベース・モーション・キャプチャ・システムから収集されたトレーニング・データを用いると、データ収集の精度及び効率が著しく向上する。位置精度に関して、手作業による注釈付けは、しばしば、関節中心を数センチメートル単位で逃し得るが、マーカー位置精度は数ミリメートルの範囲内である。データ生成効率に関して、たとえば既存の技法において行われる手作業による注釈付けには画像当たり少なくとも20秒かかり得る。一方、方法100は、(手作業によるデータ・クリーンアップ時間を含む)80画像毎秒の平均レートでデータを生成し、注釈を付け得る。これは、有利には、データ収集を数百万画像まで効率的にスケーリングすることを可能にする。より大きいデータセットとともに、より正確なトレーニング・データは、このタスクのためのいかなる並みの機械学習モデルの精度をも向上させる。
様々な実施例では、先行するステップ102において、それぞれ3D軌跡としてキャプチャされた複数のマーカーと、時間期間にわたって2D画像のシーケンスとして実質的に同時にキャプチャされた人間若しくは動物対象又は物体とは、光学マーカーベース・モーション・キャプチャ・システムによって複数のカラー・ビデオ・カメラに通信される同期信号を使用して協調させられ得る。様々な実施例のコンテキストにおいて、「先行するステップ」というフレーズは、このステップが先行する又はあらかじめ行われることを指す。先行するステップは本方法の非アクティブ・ステップであり得る。
方法100は、ステップ104において3D軌跡を投影するステップの前に、マーカーがそれの上に配置された骨ランドマーク又はキーポイントを表すラベルを用いて、キャプチャされた3D軌跡を識別することをさらに含み得る。各マーカーについて、ラベルは、生成されたトレーニング・データセット中で、各マーカーの各決定された2Dロケーションが対応するラベルを含んでいるように、各決定された2Dロケーションとともに伝搬されるように構成され得る。
方法100は、ステップ104において各2D画像中の2Dロケーションを決定するために2D画像の各々に3D軌跡を投影するステップの後に、各2D画像中で及び各マーカーについて、囲まれたエリアを形成するために(その特定の(各)2D画像をキャプチャした)カラー・ビデオ・カメラとマーカーとの間の事前定義されたマージンをもつ距離に応じて、決定された2Dロケーション上で2D半径を描くことと、また、2Dロケーションからマーカー・ブロブ(marker blob)を削除するために、囲まれたエリアに学習ベース・コンテキストアウェア画像インペインティング(inpainting)技法を適用することとをさらに含み得る。たとえば、学習ベース・コンテキストアウェア画像インペインティング技法は敵対的生成ネットワーク(GAN:Generative Adversarial Network)ベース・コンテキストアウェア画像インペインティング技法を含み得る。
様々な実施例では、複数のカラー・ビデオ・カメラ(又はRGBカメラ)は複数のグローバル・シャッター・カメラを含み得る。露出関係時間は、各グローバル・シャッター・カメラを使用して各2D画像をキャプチャするための、露出期間の中間にある、露出時間の中間であり得る。各グローバル・シャッター・カメラは、ワンド(wand)に結合された逆反射マーカーが検出可能な明るいスポットとして知覚されることを容易にするように動作可能な少なくとも1つの可視発光ダイオード(LED:light emitting diode)を含み得る。たとえば、可視LEDは白色LEDを含み得る。
様々な実施例のコンテキストにおいて、「ワンド」という用語は、逆反射マーカーの波状の動きを容易にする、逆反射マーカーがそれに結合可能である、細長い物体を指す。
複数のグローバル・シャッター・カメラは次のように事前較正され得る。ワンドが連続的な波状であり、ターゲット・キャプチャ・ボリューム(又はターゲット・モーション・キャプチャ・ボリューム)をカバーする3D軌跡として光学マーカーベース・モーション・キャプチャ・システムによってキャプチャされた逆反射マーカーと、時間期間の間2D較正画像のシーケンスとして各グローバル・シャッター・カメラによって実質的に同時にキャプチャされた逆反射マーカーとに基づいて、各2D較正画像について、逆反射マーカーの2D較正位置は、明るいピクセルを探索し、明るいピクセルの2Dロケーションを識別するために2D較正画像全体にわたって走査することによって抽出され得る。事前較正におけるキャプチャのための時間期間は、2分よりも短いか、又は軌跡がキャプチャ・ボリュームをカバーするために十分な量であり得る。2Dロケーションを明るいピクセル・クラスタの重心において収束させるために、探索された明るいピクセルの2Dロケーションにおいて反復アルゴリズムが適用され得る。さらに、各2D較正画像中の、互換的に露出期間の中間時間又は中間露出タイミングと呼ばれる、露出時間の中間と、ターゲット・キャプチャ・ボリュームをカバーする3D軌跡とに基づいて、2D較正画像の各々から露出時間の中間において3D較正位置が線形補間され得る。複数の2D較正画像の少なくとも一部のために、複数の2D-3D対応ペアが形成され得る。各2D-3D対応ペアは、複数の2D較正画像の少なくとも一部の各々のための、収束させられた2Dロケーションと、補間された3D較正位置とを含み得る。外因性カメラ・パラメータを決定し、複数のグローバル・シャッター・カメラの内因性カメラ・パラメータを微調整するために、複数の2D-3D対応ペアにカメラ較正関数が適用され得る。
市場における既存のモーション・キャプチャ・システムでは、計算における厄介な問題を低減するので、ほとんど常に、カメラ・システムがグローバル・シャッター・センサー(又はグローバル・シャッター・カメラ)を使用する必要がある。
他の実施例では、複数のカラー・ビデオ・カメラは複数のローリング・シャッター・カメラであり得る。ローリングシャッター・アーティファクトに関係するさらなる誤差が生じ得るので、グローバル・シャッター・カメラをローリングシャッター・カメラと交換することはプラグアンドプレイ・プロセスではない。ローリングシャッター・カメラを方法100において使用される種類のモーション・キャプチャ・システムに適合させるには、ローリングシャッター効果による誤差を最小にするためにカメラのタイミング、同期、及び較正の入念なモデリングが必要である。しかしながら、ローリングシャッター・カメラはグローバル・シャッター・カメラよりもかなり安価であるので、この適合性の利益はシステム・コストの低減である。
これらの他の実施例では、ステップ104における2D画像の各々に3D軌跡を投影するステップは、各ローリング・シャッター・カメラによってキャプチャされた各2D画像について、2D画像の各ピクセル行をキャプチャするために、時間期間にわたって投影された3D軌跡を接続する第1のラインと、露出時間の移動中間を表す第2のラインとの間の交差点から交差時間を決定することと、各ローリング・シャッター・カメラによってキャプチャされた各2D画像について、2D画像のシーケンスから3D補間された軌跡を取得するために、交差時間に基づいて、3D中間位置を補間することと、各マーカーについて、各2D画像中の2Dロケーションを決定するために2D画像の各々に3D補間された軌跡を投影することとをさらに含み得る。複数のローリング・シャッター・カメラを使用するときの露出関係時間は交差時間である。
グローバル・シャッター・カメラを伴う実施例と同様に、ここでの各ローリング・シャッター・カメラは、ワンドに結合された逆反射マーカーが検出可能な明るいスポットとして知覚されることを容易にするように動作可能な少なくとも1つの可視発光ダイオードを含み得る。
複数のローリング・シャッター・カメラは、次のように事前較正され得る。ワンドが連続的な波状であり、ターゲット・キャプチャ・ボリュームをカバーする3D軌跡として光学マーカーベース・モーション・キャプチャ・システムによってキャプチャされた逆反射マーカーと、時間期間の間2D較正画像のシーケンスとして各ローリング・シャッター・カメラによって実質的に同時にキャプチャされた逆反射マーカーとに基づく。各2D較正画像について、逆反射マーカーの2D較正位置は、明るいピクセルを探索し、明るいピクセルの2Dロケーションを識別するために2D較正画像全体にわたって走査することによって抽出され得る。2Dロケーションを明るいピクセル・クラスタの2D重心において収束させるために、探索された明るいピクセルの2Dロケーションにおいて反復アルゴリズムが適用され得る。さらに、複数のローリング・シャッター・カメラからの2D重心の観測時間に基づいて、ターゲット・キャプチャ・ボリュームをカバーする3D軌跡から3D較正位置が補間され得る。各2D較正画像からの各明るいピクセル・クラスタの各2D重心の観測時間は、
+b-e/2+dv、式1
によって計算され、
ここで、Tは2D較正画像のトリガ時間であり、
bはローリング・シャッター・カメラのトリガ読出し間遅延であり、
eはローリング・シャッター・カメラのために設定される露出時間であり、
dはローリング・シャッター・カメラのライン遅延であり、
vは明るいピクセル・クラスタの2D重心のピクセル行である。
複数の2D較正画像の少なくとも一部のために、複数の2D-3D対応ペアが形成され得る。各2D-3D対応ペアは、複数の2D較正画像の少なくとも一部の各々のための収束させられたロケーションと、補間された3D較正位置とを含み得る。外因性カメラ・パラメータを決定し、複数のローリング・シャッター・カメラの内因性カメラ・パラメータを微調整するために、複数の2D-3D対応ペアにカメラ較正機能が適用され得る。
複数のカラー・ビデオ・カメラを事前較正する際、反復アルゴリズムは平均シフト・アルゴリズムであり得る。光学マーカーベース・モーション・キャプチャ・システムによってターゲット・キャプチャ・ボリュームをカバーする3D軌跡としてキャプチャされた逆反射マーカーと、2D較正画像のシーケンスとして実質的に同時にキャプチャされた逆反射マーカーとは、光学マーカーベース・モーション・キャプチャ・システムによって複数のカラー・ビデオ・カメラに通信される同期信号を使用して協調させられ得る。
一般に、モーション・キャプチャ・システムのハードウェア・レイヤでは、ローリング・シャッター・カメラが受ける上部ピクセル行と下部ピクセル行との間の検知遅延の影響を回避するために、カメラがグローバル・シャッター・センサーを使用する必要がある。しかしながら、グローバル・シャッター・カメラの実装は、すべてのピクセルの露出の同時開始及び停止を実行するためにより複雑な電子回路を必要とする。これにより、グローバル・シャッター・カメラは同じ解像度におけるローリング・シャッター・カメラよりもかなり高価になる。人間の動きは、ローリングシャッター効果によって過度にひずむほど十分に速くはないので、誤差を補償するためにローリングシャッター効果の入念なモデリングを伴うローリング・シャッター・カメラを使用することによってシステム・コストを低減することが可能であり得る。このローリングシャッター・モデルは、以下でさらに説明する、カメラ較正から始まり、データ収集、並びに3Dキーポイントの三角測量に至るワークフロー全体に統合され得る。したがって、有利には、カメラの選定におけるさらなるフレキシビリティが得られる。
様々な実施例では、方法100に関して言及されるマーカーは逆反射マーカーを含む。
図1Bは、様々な実施例による、マーカーなし人間若しくは動物対象又はマーカーなし物体上の仮想マーカーの3Dロケーションを予測するための方法120を示すフロー・チャートを示す。先行するステップ122において、マーカーなし人間若しくは動物対象又はマーカーなし物体は2D画像のシーケンスとして複数のカラー・ビデオ・カメラによってキャプチャされる。方法120は以下のアクティブ・ステップを含む。ステップ125において、各カラー・ビデオ・カメラによってキャプチャされた各2D画像について、トレーニングされたニューラル・ネットワークを使用して2Dバウンディング・ボックスが予測される。ステップ124において、各2D画像について、信頼性スコアをもつ複数のヒートマップが、トレーニングされたニューラル・ネットワークによって生成される。各ヒートマップは、マーカーなし人間若しくは動物対象又はマーカーなし物体の仮想マーカーの2Dローカリゼーションのためのものである。様々な実施例のコンテキストにおいて、2Dローカリゼーションは、仮想マーカーの2Dロケーション又は2D位置を識別するプロセスを指し、したがって、各ヒートマップは1つの仮想マーカーに関連付けられる。トレーニングされたニューラル・ネットワークは、少なくとも方法100によって生成されたトレーニング・データセットを使用してトレーニングされ得る。ステップ126において、各ヒートマップについて、最も高い信頼性スコアをもつピクセルが選択又は選定され、選択されたピクセルは仮想マーカーに関連付けられ、それにより仮想マーカーの2Dロケーションが決定される。各ヒートマップについて、信頼性スコアは、予測された2Dバウンディング・ボックス中の異なる2Dロケーション中に関連する仮想マーカーを有する確率を示す。ステップ128において、複数のカラー・ビデオ・カメラによってキャプチャされた2D画像のシーケンスに基づいて、仮想マーカーの3Dロケーションのシーケンスを予測するために、それぞれの決定された2Dロケーションが三角測量される。随意に、ステップ128における三角測量するステップは、三角測量のための重みとしてのそれぞれの信頼性スコアに基づく、仮想マーカーのそれぞれの2Dロケーションの重み付けされた三角測量を含み得る。たとえば、重み付けされた三角測量は、公式(Σ-1(Σ)を使用する仮想マーカーの各予測される3Dロケーションの導出を含み得、ここで、iは1、2、…、Nであり(Nはカラー・ビデオ・カメラの総数である)、wは、三角測量のための重み、又はi番目のカラー・ビデオ・カメラからのi番目の光線の信頼度スコアであり、Cは、i番目の光線に関連するi番目のカラー・ビデオ・カメラの3Dロケーションであり、Uは、i番目の光線に関連する逆投影される方向を表す3D単位ベクトルであり、Iは3×3単位行列であることを所与として

である。
三角測量は、それの投影が2つ又はそれ以上の画像に与えられる、3D空間中のポイントを決定するプロセスである。三角測量は再構成又は交差と呼ばれることもある。
言い換えれば、方法120は関節中心の代わりに仮想マーカー位置を出力する。一般的な生体力学解析ワークフローは3Dマーカー位置から計算を始めるので、方法120が既存のワークフローに適合することを確かめるために、方法120の出力中のマーカー位置(より詳細には、仮想マーカー位置)を保つことが重要である。関節中心の手作業による注釈付けから学習する既存のシステムとは異なり、マーカー位置を予測するための学習により、計算可能な関節位置だけでなく、体節の向きも生成される。これらの体節の向きは、姿勢ごとの関節中心のセットから復元することはできない。たとえば、肩、肘、及び手首がほぼ一直線にあるとき、この腕姿勢の特異性により、上腕及び前腕節の向きを復元することが不可能になる。しかしながら、これらの向きは、肩マーカー、肘マーカー、及び手首マーカーから計算され得る。したがって、機械学習モデルが関節中心位置の代わりにマーカー位置(より詳細には、仮想マーカー位置)を予測することを可能にすることは、より議論が起きやすい適用例では必須である。直接線形変換(DLT:Direct Linear Transformation)は、2つ以上のカメラによって観測される複数の2D位置から3D位置を取得するために三角測量を実行するための確立された方法である。本出願について、各予測される2Dロケーションについてのニューラル・ネットワーク・モデルによって与えられる追加の情報である、信頼性スコア(又は同義で信頼度スコアと呼ばれる)を利用することによって三角測量精度を改善するために、新しい三角測量公式が導出された。(たとえば、1つの画像上の2Dロケーションを表す)各光線について、信頼度スコアはこの新しい三角測量公式中に重みとして含まれ得る。方法120はDLT方法に対して三角測量精度を大きく改善し得る。
様々な実施例では、複数のカラー・ビデオ・カメラは複数のグローバル・シャッター・カメラを含み得る。
他の実施例では、複数のカラー・ビデオ・カメラは複数のローリング・シャッター・カメラであり得る。これらの他の実施例では、方法120は、ステップ128における仮想マーカーの3Dロケーションのシーケンスを予測するためのそれぞれの2Dロケーションを三角測量するステップの前に、2つの連続する2D画像中の決定された2Dロケーションに基づいて各ローリング・シャッター・カメラについての観測時間を決定することをさらに含み得る。観測時間は、式1を使用して計算され得、この場合、Tは、2つの連続する2D画像の各々のトリガ時間を指し、vは、2つの連続する2D画像の各々中の2Dロケーションのピクセル行である。観測時間に基づいて、仮想マーカーの2Dロケーションがトリガ時間において補間される。ステップ128においてそれぞれの2Dロケーションを三角測量するステップは、複数のローリング・シャッター・カメラから導出されたそれぞれの補間された2Dロケーションを三角測量することを含み得る。
一実施例では、複数のカラー・ビデオ・カメラは以下のように外因的に較正され得る。複数のカラー・ビデオ・カメラによって同時にキャプチャされる1つ又は複数のチェッカーボードに基づいて、複数のカラー・ビデオ・カメラの2つごとに、その2つのカラー・ビデオ・カメラ間の相対変換を計算する。複数のカラー・ビデオ・カメラがそれぞれの計算された相対変換を有するとき、すべての存在するカメラが相対変換によってリンクされると、複数のカラー・ビデオ・カメラの外因性カメラ・パラメータを微調整するために最適化アルゴリズムを適用する。より詳細には、最適化アルゴリズムは、Levenberg-Marquardtアルゴリズム、及び2Dチェッカーボード観測と初期相対変換とに適用されているそれのcv2関数である。1つ又は複数のチェックボードは一意のマーキングを含み得る。
別の実施例では、複数のカラー・ビデオ・カメラは、代替的に、以下のように外因的に較正され得る。各カラー・ビデオ・カメラは、ワンドに結合された複数の逆反射マーカーが検出可能な明るいスポットとして知覚されることを容易にするように動作可能な少なくとも1つの可視発光ダイオード(LED)を含み得る。ワンドが連続的な波状であり、2D較正画像のシーケンスとして複数のカラー・ビデオ・カメラによってキャプチャされた逆反射マーカーに基づいて、複数のカラー・ビデオ・カメラの外因性カメラ・パラメータを微調整するために、キャプチャされた2D較正画像に最適化関数を適用する。最適化アルゴリズムは、上記で説明したように、Levenberg-Marquardtアルゴリズム、及びそれのcv2関数であり得る。
上記で説明した方法について一連のステップ又はイベントとして例示し、説明したが、そのようなステップ又はイベントのいかなる順序付けも限定的な意味で解釈されるべきでないことが諒解されよう。たとえば、いくつかのステップは、本明細書で例示及び/又は説明した順序とは別に、異なる順序で、及び/又は他のステップ又はイベントと同時に行われ得る。さらに、本明細書で説明する1つ又は複数の態様又は実施例を実装するために、すべての例示されているステップが必要とされ得るとは限らない。また、本明細書で示されているステップのうちの1つ又は複数は1つ又は複数の別個の行為及び/又は段階において実行され得る。
様々な実施例はまた、様々な実施例による方法100及び/又は方法120を実行するように適応されたコンピュータ・プログラムを提供し得る。
様々な実施例は、さらに、コンピュータ上で実行されたときに、コンピュータに様々な実施例による方法100及び/又は方法120を実行させる命令を含む非一時的コンピュータ可読媒体を提供し得る。
様々な実施例は、またさらに、様々な実施例による方法100及び/又は方法120を実行するための手段を備えるデータ処理装置を提供し得る。
図1Cは、様々な実施例による、キーポイント検出のためのトレーニング・データセットを生成するためのシステム140の概略図を示す。システム140は、時間期間にわたって複数のマーカーをキャプチャするように構成された光学マーカーベース・モーション・キャプチャ・システム142と、時間期間にわたって2D画像のシーケンスとして人間若しくは動物対象又は物体をキャプチャするように構成された複数のカラー・ビデオ・カメラ144とを含み得る。各マーカーは、人間若しくは動物対象の骨ランドマーク、又は物体のキーポイント上に配置され得、3D軌跡としてキャプチャされ得る。システム140はまた、点線152、150によって示されているように、複数のカラー・ビデオ・カメラ144によってキャプチャされた2D画像のシーケンスと、光学マーカーベース・モーション・キャプチャ・システム142によってキャプチャされたそれぞれの3D軌跡とを受信するように構成されたコンピュータ146を含み得る。時間期間は、対象又は物体の動きをキャプチャするためにどのくらいの時間が必要とされ得るかに応じて変動し得る。コンピュータ146は、さらに、各マーカーについて、各2D画像中の2Dロケーションを決定するために2D画像の各々に3D軌跡を投影することと、各マーカーについて、2D画像のシーケンス中のそれぞれの2Dロケーションと複数のカラー・ビデオ・カメラ144の露出関係時間とに基づいて、2D画像の各々のための3D位置を補間することと、各2D画像について、複数のマーカーのそれぞれの補間された3D位置と、互いとの解剖学的又は機能的関係を有するマーカーのうちの2つ又はそれ以上から導出された拡張されたボリュームとに基づいて、人間若しくは動物対象又は物体の周りに2Dバウンディング・ボックスを生成することと、2D画像のシーケンスと、選択された少なくとも1つの2D画像中の各マーカーの決定された2Dロケーションと、選択された少なくとも1つの2D画像のための生成された2Dバウンディング・ボックスとから選択された少なくとも1つの2D画像を含むトレーニング・データセットを生成することとを行うように構成され得る。一実施例では、コンピュータ146は、それぞれのデータを記録するために複数のカラー・ビデオ・カメラ144及び光学マーカーベース・モーション・キャプチャ・システム142と通信している同じコンピュータであり得る。異なる実施例では、コンピュータ146は、それぞれのデータを記録するために複数のカラー・ビデオ・カメラ144及び光学マーカーベース・モーション・キャプチャ・システム142と通信しているコンピュータとは別個の処理コンピュータであり得る。
システム140は、光学マーカーベース・モーション・キャプチャ・システム142及び複数のカラー・ビデオ・カメラ144と通信している同期パルス生成器をさらに含み得、同期パルス生成器は、ライン148によって示されているように、複数のカラー・ビデオ・カメラ144によって実質的に同時にキャプチャされるように人間若しくは動物対象又は物体を協調させるために光学マーカーベース・モーション・キャプチャ・システム142からの同期信号を受信するように構成され得る。たとえば、複数のカラー・ビデオ・カメラ144は少なくとも2つのカラー・ビデオ・カメラ、好ましくは8つのカラー・ビデオ・カメラを含み得る。
様々な実施例では、光学モーション・キャプチャ・システム142は複数の赤外線カメラを含み得る。たとえば、異なるビューから対象をキャプチャするために互いから離間して構成された少なくとも2つの赤外線カメラがあり得る。
複数のカラー・ビデオ・カメラ144と複数の赤外線カメラとは、互いから離間して、及び少なくとも人間若しくは動物対象又は物体によって取られる経路に沿って、又は人間若しくは動物対象の又は物体のキャプチャ・ボリュームを少なくとも実質的に囲んで構成される。
3D軌跡は、マーカーがそれの上に配置された骨ランドマーク又はキーポイントを表すラベルを用いて識別可能であり得る。各マーカーについて、ラベルは、生成されたトレーニング・データセット中で、各マーカーの各決定された2Dロケーションが対応するラベルを含んでいるように、各決定された2Dロケーションとともに伝搬されるように構成され得る。
いくつかの例では、コンピュータ146は、さらに、各2D画像中で、囲まれたエリアを形成するために(その特定の(各)2D画像をキャプチャした)カラー・ビデオ・カメラ144とマーカーとの間の事前定義されたマージンをもつ距離に応じて、各マーカーについて決定された2Dロケーション上で2D半径を描き、また、2Dロケーションからマーカー・ブロブを削除するために、囲まれたエリアに学習ベース・コンテキストアウェア画像インペインティング技法を適用するように構成され得る。たとえば、学習ベース・コンテキストアウェア画像インペインティング技法は敵対的生成ネットワーク(GAN)ベース・コンテキストアウェア画像インペインティング技法を含み得る。
様々な実施例では、複数のカラー・ビデオ・カメラ144は複数のグローバル・シャッター・カメラであり得る。
他の実施例では、複数のカラー・ビデオ・カメラ144は複数のローリング・シャッター・カメラであり得る。これらの他の実施例では、コンピュータ146は、さらに、各ローリング・シャッター・カメラによってキャプチャされた各2D画像について、2D画像の各ピクセル行をキャプチャするために、時間期間にわたって投影された3D軌跡を接続する第1のラインと、露出時間の移動中間を表す第2のラインとの間の交差点から交差時間を決定することと、各ローリング・シャッター・カメラによってキャプチャされた各2D画像について、2D画像のシーケンスから3D補間された軌跡を取得するために、交差時間に基づいて、3D中間位置を補間することと、各マーカーについて、各2D画像中の2Dロケーションを決定するために2D画像の各々に3D補間された軌跡を投影することとを行うように構成され得る。
システム140は、方法100の実行を容易にするために使用され得る。したがって、システム140は、図1Aの方法100の要素又は構成要素と同じ又は同様の要素又は構成要素を含み得、したがって、同様の要素は図1Aの方法100のコンテキストにおいて説明したものであり得、したがって、対応する説明はここでは省略され得る。
システム140の例示的なセットアップ200が図2に概略的に示されている。図2に見られるように、複数のカラー(RGB:red-green-blue)ビデオ・カメラ144及び赤外(IR:infrared)カメラ203は、骨ランドマーク又はキーポイント上に配置された逆反射マーカーをもつ対象205の周りに構成される。(図2に示されていない)異なる構成も可能であり得る。対象205が移動すると、逆反射マーカーもキャプチャ・ボリューム中で移動する。同期パルス生成器201は、同期信号211を用いて光学モーション・キャプチャ・システム142と、同期チャネル207を介してカラー・ビデオ・カメラ144と、またコンピュータ146と通信し得る。コンピュータ146とカラー・ビデオ・カメラ144とは、データ・チャネル209を使用して通信し得る。
図1Dは、様々な実施例による、マーカーなし人間若しくは動物対象又はマーカーなし物体上の仮想マーカーの3Dロケーションを予測するためのシステム160の概略図を示す。システム160は、点線168によって示されているように、2D画像のシーケンスとしてマーカーなし人間若しくは動物対象又はマーカーなし物体をキャプチャするように構成された複数のカラー・ビデオ・カメラ164と、複数のカラー・ビデオ・カメラ164によってキャプチャされた2D画像のシーケンスを受信するように構成されたコンピュータ166とを含み得る。コンピュータ166は、さらに、各カラー・ビデオ・カメラ164によってキャプチャされた各2D画像について、トレーニングされたニューラル・ネットワークを使用して2Dバウンディング・ボックスを予測することと、各2D画像について、トレーニングされたニューラル・ネットワークを使用して、信頼性スコアをもつ複数のヒートマップを生成することと、各ヒートマップについて、最も高い信頼性スコアをもつピクセルを選択することと、仮想マーカーの2Dロケーションを決定するために、選択されたピクセルを仮想マーカーに関連付けることと、複数のカラー・ビデオ・カメラ164によってキャプチャされた2D画像のシーケンスに基づいて、仮想マーカーの3Dロケーションのシーケンスを予測するために、それぞれの決定された2Dロケーションを三角測量することとを行うように構成され得る。各ヒートマップはマーカーなし人間若しくは動物対象又はマーカーなし物体の仮想マーカーの2Dローカリゼーションのためのものであり得る。各ヒートマップについて、信頼性スコアは、予測された2Dバウンディング・ボックス中の異なる2Dロケーション中に関連する仮想マーカーを有する確率を示す。トレーニングされたニューラル・ネットワークは、少なくとも方法100によって生成されたトレーニング・データセットを使用してトレーニングされ得る。一実施例では、コンピュータ166は、データを記録するために複数のカラー・ビデオ・カメラ164と通信している同じコンピュータであり得る。異なる実施例では、コンピュータ166は、データを記録するために複数のカラー・ビデオ・カメラ164と通信しているコンピュータとは別個の処理コンピュータであり得る。
随意に、仮想マーカーのそれぞれの2Dロケーションは、三角測量のための重みとしてのそれぞれの信頼性スコアに基づいて三角測量され得る。たとえば、三角測量は、iは1、2、…、Nであり(Nはカラー・ビデオ・カメラの総数である)、wは、三角測量のための重み、又はi番目のカラー・ビデオ・カメラからのi番目の光線の信頼度スコアであり、Cは、i番目の光線に関連するi番目のカラー・ビデオ・カメラの3Dロケーションであり、Uは、i番目の光線に関連する逆投影される方向を表す3D単位ベクトルであり、Iは3×3単位行列であることを所与として

である、公式(Σ-1(Σ)を使用する仮想マーカーの各予測される3Dロケーションの導出を含み得る。
様々な実施例では、複数のカラー・ビデオ・カメラ164は複数のグローバル・シャッター・カメラであり得る。
他の実施例では、複数のカラー・ビデオ・カメラ164は複数のローリング・シャッター・カメラであり得る。これらの他の実施例では、コンピュータ166は、さらに、2つの連続する2D画像中の決定された2Dロケーションに基づいて各ローリング・シャッター・カメラについての観測時間を決定し、観測時間に基づいて、トリガ時間において仮想マーカーの2Dロケーションを補間するように構成され得る。観測時間は、式1を使用して計算され得、ここで、Tは2つの連続する2D画像の各々のトリガ時間であり、vは、2つの連続する2D画像の各々中の2Dロケーションのピクセル行である。複数のローリング・シャッター・カメラから導出されるそれぞれの補間された2Dロケーションは、仮想マーカーの3Dロケーションのシーケンスを予測するために三角測量され得る。
図3に概略的に示されたシステム160の例示的なセットアップ300から見られるように、マーカーなし人間若しくは動物対象(たとえば、患者305)が、矢印315によって示されているように通路又はキャプチャ・ボリューム313に沿って医師の部屋の中に歩いて入るときに、マーカーなし人間若しくは動物対象上の仮想マーカーの3Dロケーションを予測するために、複数のカラー・ビデオ・カメラ164によってキャプチャされた2D画像のシーケンスがシステム160によって処理され得るように、複数のカラー・ビデオ・カメラ164は、互いから離間して、医師の部屋への通路又は(診療所/病院中の廊下の一部であり得る)キャプチャ・ボリューム313の少なくとも一部に沿って動作可能に構成され得る。言い換えれば、患者305が医師に会うために通路又はキャプチャ・ボリューム313を介して医師の部屋の中に歩いて入った後に、システム160は患者305上の仮想マーカーの3Dロケーションを予測しており、これらの3Dロケーションは、患者305の動きを示す(デジタル化された形態の)アニメーションなどの情報を促進するために使用され得る。コンピュータ166は、医師の部屋又は他の場所の、複数のカラー・ビデオ・カメラ164近くに位置し得る。後者の場合、予測された/処理された情報は、医師の部屋に位置する計算デバイス又はディスプレイ・デバイスに、又は処理/表示のためのモバイル・デバイスにリモートで送信され得る。ポイントD、Eは、単に、(図3の左側に見られる)コンピュータ166への(図3の右側に見られる)いくつかのカラー・ビデオ・カメラ164の電気的結合を表す。カラー・ビデオ・カメラ164の他の構成が可能であり得る。たとえば、複数のカラー・ビデオ・カメラ164はすべて通路313の片側に沿って構成され得る。
システム160は、方法120の実行を容易にするために使用され得る。したがって、システム160は、図1Bの方法120の要素又は構成要素と同じ又は同様の要素又は構成要素を含み得、したがって、同様の要素は図1Bの方法120のコンテキストにおいて説明したものであり得、したがって、対応する説明はここでは省略され得る。システム160はまた、図1Cのシステム140の要素又は構成要素と同じ又は同様の要素又は構成要素のうちのいくつかを含み得、したがって、同じ末尾の数字が割り当てられ、同様の要素は図1Cのシステム140のコンテキストにおいて説明したものであり得、したがって、対応する説明はここでは省略され得る。たとえば、様々な実施例のコンテキストにおいて、複数のカラー・ビデオ・カメラ164は図1Cの複数のカラー・ビデオ・カメラ144と同じである。
方法100、120及びシステム140、160の実例について以下でより詳細に説明する。
i.利点及び改善点
様々な実施例による方法100、120及びシステム140、160のいくつかの利点及び改善点は既存の方法/システムに勝ると評価される。
非光学モーション・キャプチャ・システムに対する利点
非光学モーション・キャプチャ・システムは様々な形態であり得る。市場において最も普及している種類のうちの1つは、センサーの向きと位置と軌跡とを概算するために加速度と角速度と環境磁界とを測定するために適する慣性測定ユニット(IMU:inertial measurement unit)を使用する。より良いローカリゼーションのために超広帯域技術も統合され得る。別の既存の追跡技術は、66cmの小さい半径をもつ球形のキャプチャ・ボリューム内でセンサーを追跡するために電磁送信機を使用し得る。そのようなシステム間の1つの共通の欠点は対象の身体上のセンサーが目障りであることである。対象上にセンサーを取り付けることは、対象準備に時間がかかるだけでなく、不自然な動きを引き起こし、及び/又は動きを妨害し得る。本出願において説明するマーカーなしモーション・キャプチャ・システム(たとえば、システム160)を用いると、対象身体上に追加のアイテムは不要であり、これにより、プロセス中の人間の関与/介入が少なくなるので、モーション・キャプチャ・ワークフローがより円滑になる。
商用マーカーベース・システムに対する利点
熟練者による全身モーション・キャプチャのための慎重なマーカー配置には通常少なくとも30分かかる。ワークフローからマーカーが除かれた場合、ワークフローから1人の人間(熟練者)が除かれ得、新しい対象ごとに少なくとも30分が節約され得る。記録の後に、既存のマーカーベース・モーション・キャプチャ・システムは、データがマーカー・ラベル付けとギャップ充填を用いて後処理されるまで、いかなる分析のためにも使用可能でない、ラベルなしマーカーの軌跡のみを与える。このプロセスは、通常、わずか1分の記録時間を処理するために約1人時かかる半自動的な形で行われる。マーカーなしモーション・キャプチャ・システム(たとえば、システム160)を用いると、システム160は本質的にラベルをもつ仮想マーカー位置を出力するので、手作業による後処理ステップはもはや適用可能でない。すべての仮想マーカー処理は完全に自動化されているので、1人時毎分の記録が節約され、約20機械分毎分の記録時間によって置き換えられ、さらにはより高い計算能力を用いると一層速い記録時間と置き換えられ得る。コストの観点から、商用マーカーベース・システムは100,000~500,000シンガポール・ドルの範囲であるが、しかしながら、マーカーなしシステム160中のすべての材料は、ローエンドのマーカーベース・システムの約10%であるわずか約10,000シンガポール・ドルかかり得る。マーカーベース・システムに対してデータ駆動型のマーカーなしシステム(たとえば、システム160)が有する1つの技術的利点は、マークレス・システムが遮蔽を回避する方法である。発明者らが知る限りでは、マーカーベース・システム中で遮蔽を回避するための唯一の方法は、少なくとも2つのカメラが常に1つのマーカーを同時に見ていることを確実にするために、より多くのカメラを追加することである。しかしながら、マーカーなしシステム(たとえば、システム160)は、遮蔽された領域中の仮想マーカーを推論し得、したがって、それは、それほど多くのカメラを必要とせず、マーカー軌跡中にはるかに少ないギャップしか生成しない。その上、マーカーの使用は、不自然な動き、記録中のマーカー落下、又は時々皮膚炎を引き起こし得る。マーカーの使用を除くことは、ただ少なくとも上述のこれらの問題を取り除くだけである。
単一の深度カメラ・システムに対する利点
深度カメラは、カラー値の代わりに各ピクセル中の深度値を与えるカメラである。したがって、ただ1つのカメラが対象の3D表面を片側から見る。この情報は、モーション・キャプチャ目的のための人間の姿勢を推定するために使用され得る。しかしながら、既製の深度カメラの解像度はカラー・カメラと比較して比較的低く、深度値は通常ノイズが多い。これにより、単一の深度カメラからのモーション・キャプチャ結果は遮蔽による特別の問題に伴って比較的正確でなくなる。たとえば、Kinect SDK及びKinect2.0からの手首位置の誤差は、遮蔽なしでも通常3~7cmの範囲である。マーカーなしシステム(たとえば、システム160)は、2cm未満の平均誤差でより正確な結果を生成する。
自由に利用可能なオープンソースの人間追跡ソフトウェアに対する利点
とりわけ、GoogleからのMediaPipe、IntelからのOpenVINO、及びFacebookからのDetectron2など、2D人間キーポイント検出ソフトウェアを無料で共有する多くのオープンソース・プロジェクトがある。これらのプロジェクトはデータ駆動様式でも働くが、それらは、トレーニング・データとしての人間によって注釈を付けられたデータセットに依拠する。手作業による注釈付けに対する、(たとえば、方法100及び/又はシステム140において使用されるような)マーカーベース注釈付けM-BA(marker-based annotation)を使用することの利点を証明するために、以下の表Iにおいて並びに図4において比較のために予備結果のセットが作成されている。
図4は、異なるツール、すなわちM-BA 402、Thia Markerless 404、FacebookのDetectron2 406、OpenVINO 408及びMediaPipe 410からの12個の関節(たとえば、肩、肘、手首、尻、膝、及び足首)からの全体的な精度プロファイルを示すプロットを示す。図4に記載されているように、方法100、120のための基礎として働くM-BA 402は距離しきい値全体にわたって最も高い精度を生じる。
表1及び図4における結果を得るために、ランダムな行為のリストを実行している、1人の男性テスト対象と1人の女性テスト対象とから(各フレームが8つの視点を含んでいる)50,000個以上のフレームを撮影するための(マーカーなし人間若しくは動物対象160上の仮想マーカーの3Dロケーションを予測するためのシステム、及び複数のカラー・ビデオ・カメラ164と同様のコンテキストにおいて説明する)8カメラ・システム。同時に、(光学マーカーベース・モーション・キャプチャ・システム142と同様のコンテキストにおいて説明する)マーカーベース・モーション・キャプチャ・システム(Qualisys)が、精度比較のためのグランドトゥルース位置を記録するために使用される。本システム(たとえば、160)について、以下のii.技術説明セクションにおいて、データ作成、トレーニング、推論、及び三角測量方法について説明する。この実験において使用されるトレーニング・データは27個の対象からの約216万個の画像を含んでいるが、2つのテスト対象はトレーニング・データ中に含まれない。MediaPipe、OpenVINO、及びDetectron2について、これらのツールから出力された2D関節位置が三角測量され、本システム(たとえば、160)のために実行されるものと同じ様式でマーカーベース・モーション・キャプチャ・システムからの絶対基準測定値と比較される。MediaPipeの場合、MediaPipeは、対象サイズが画像サイズに対して比較的小さいとうまく動作しないので、画像は、2D関節位置の推論の前にグランドトゥルース対象バウンディング・ボックスを用いてクロップされる。実験結果は、本方法(たとえば、120)が、すべての6つの関節においてそれらのオープンソースのツールよりも低い平均誤差を生じることを示す。Detectron2と本方法(たとえば、120)とはまったく同じニューラル・ネットワーク・アーキテクチャを使用することを知っていることが重要である。これは、ここでの焦点は、平均誤差を約28%直接低減するより良いトレーニング・データを設計することにあることを意味する。
商用マーカーなしモーション・キャプチャ・システムに対する利点
比較された1つの既存の商用マーカーなしモーション・キャプチャ・システムはTheia Markerlessである。Theia Markerlessは、2つのカメラ・システム、QualisysのMiqus VideoとソニーのRX0M2とのみからのビデオを厳密にサポートするソフトウェア・システムである。これらの2つのカメラ・システムのためのハードウェア・レイヤは、すでに、ソフトウェア・コストのための追加の28,000シンガポール・ドルとともに(8つのカメラ+コンピュータのために)それぞれ約63,000シンガポール・ドル又は28,000シンガポール・ドルかかる。対照的に、システム160のためのハードウェア・レイヤ全体における材料費は約10,000シンガポール・ドルしかかからない。精度を評価するために、Theia Markerlessに対しても同様のテストを実行した。Theia Markerlessの評価のために使用されたビデオは、高価なMiqus Videoグローバル・シャッター・カメラ・システム(8つのカメラのすべてが複数のカラー・ビデオ・カメラ164と横並びに位置している)によって記録されることに留意されたい。すべての追跡及び三角測量アルゴリズムは、実行可能なソフトウェアにおいて行われ、明らかにされない。Theia Markerlessのために使用されるより高価なハードウェアにもかかわらず、システム160は、評価においてあらゆる関節において性能が上である(表I及び図4参照)。Theia Markerlessの1つのマイナス面は関節抽出からのデータ・ギャップである。ソフトウェアが特定のフレーム中の特定の関節について確かでないとき、ソフトウェアはその関節からの答えを与えないことを決定する。ギャップのこの比較的高いパーセンテージ(0.6~2.4%)は後続の分析においてさらなる問題を容易に引き起こし得る。一方、システム160は、様々な実施例によれば、常に結果を予測する。
ii.技術説明
このセクションでは、(システム140、160と同様のコンテキストにおいて説明する)システムを動作させる重要な構成要素、技法、及びアイデアについて説明する。アブレーション研究が行われていないので、各アイデアが最終精度にどのくらい寄与するかは依然として不明瞭である。しかしながら、設計のあらゆる部分についての理由は与えられている。
検知ハードウェア及びカメラ構成
(キーポイント検出のためのトレーニング・データセットを生成するための方法100と同様のコンテキストにおいて説明する)トレーニング・データを収集するために、1つのマーカーベース・モーション・キャプチャ・システム(たとえば、142)と複数のカラー・ビデオ・カメラ(たとえば、144)とが必要とされる。モーション・キャプチャ・システム142は、同期信号を生成することが可能であり、ビデオ・カメラ144は、同期パルスが受信されたときにショットを撮影することが可能である。通常のビデオ・カメラは、通常、モーション・キャプチャ・システムよりもはるかに低いフレーム・レートで動作するので、2つの異なるフレーム・レートにおいて同期を可能にするために、ハードウェア・クロック乗算器及び除算器が使用され得る。
すべてのビデオ・カメラは、地面から約170cm上方に設定され、中央キャプチャ・エリアのほうを向く。トレーニング及びシステム展開中に制御可能であるデータの変動を最小にするために、実質的に同じ高さから撮影されたトレーニング画像を有することが重要である。さらに、170cmは、カメラを取り付けるための枠組みを構築する必要なしに一般的な三脚が達する高さであり得る。
正確な較正又は事前較正をサポートするために、各ビデオ・カメラ(たとえば、144)には、3つの可視(白色)LEDが与えられ得る、図5に示された実例と同様に少なくとも1つのそのようなLED500が装備される。これらのLED500により、可視スペクトル中の光のみを感知する通常のビデオ・カメラは、円形の逆反射マーカーを、撮影された(キャプチャされた)画像上の検出可能な明るいスポットとして見ることが可能になる。マーカーベース・モーション・キャプチャ・システム142が3D空間中のこのマーカーを見、ビデオ・カメラ144が同時に2Dでも画像上のこのマーカーを見るとき、それらは2D-3D対応ペアを形成する。キャプチャ・ボリューム全体にわたるこれらの対応ペアの十分な収集は、正確なカメラ姿勢(外因性パラメータ)を計算し、内因性カメラ・パラメータを微調整するために使用され得る。1つの重要なカメラ設定は露出時間である。露出は、動きぶれを最小にするために十分に短い必要がある。ビデオ記録の間、ターゲット対象は人間である。したがって、露出時間は、2-8秒又は約3.9msになるように選定される。このタイミングにおいて、極めて速い動きの間の人間のシルエットのエッジは依然として鋭い。較正の間、ターゲット物体は、人体よりも速く移動し得る逆反射マーカーである。したがって、露出時間は、2-10秒又は約1msになるように選定される。この露出において、キャプチャ環境は著しく暗いが、マーカーからの反射は、検出されるためには依然として十分明るい。ビデオ・カメラ144はグローバル・シャッター・センサー又はローリング・シャッター・センサーの両方を使用し得る。グローバル・シャッターの種類は一般にこの種類の適用例のために使用されるので、ローリングシャッター・カメラは追加のモデリング及び計算を必要とするので、以下の説明では本出願におけるローリングシャッター・カメラの統合により多く焦点を当てる。
ローリングシャッター・カメラ・モデル
このセクションでは、e-con SystemからのFSCAM_CU135カメラのために開発されたローリングシャッター・モデルについて説明する。しかしながら、大部分のローリングシャッター・カメラは同様の様式で動作するので、このモデルは大部分のローリングシャッター・カメラに適用可能であり得る。FSCAMのハードウェア・トリガ・モードにおいて、画像キャプチャをトリガするために立上がりエッジ・パルスが使用される。トリガ・パルスを受信すると、カメラ・センサーは、読出しを開始する前にb秒の遅延を受ける。カメラ・センサーは、次いで、上部から始めてピクセルを行単位で読み取り、最後の行に達するまで行当たりd秒のライン遅延がある。次のフレームのための露出は、前のトリガに対する所定のタイミングに基づいて自動的に開始される。次の画像のための読出しは、次の立上りエッジ・パルスから同じ様式で始まる。トリガ読出し間遅延(b)及びライン遅延(d)はカメラ・モデル及び構成に依存する。1920×1440解像度で動作するFSCAMの場合、b及びdはそれぞれ約5.76×10-4秒及び1.07×10-5秒である。FSCAM_CU135カメラのために開発されたこのローリングシャッター・モデル600は図6に示されている。このモデル600では、同じ行中のすべてのピクセルは常に同時に動作すると仮定する。図6によれば、露出ゾーンの中心線(中間露出ライン)はピクセル行と時間との間の直線関係を表す。これは、特定のビデオ・フレームの特定のピクセル行において物体が観測された場合、その物体をキャプチャする厳密な時間(t)を計算することができることを意味する。
この関係は、式1
t=T+b-e/2+dv、式1
と同様に公式化することができ、
ここで、Tはビデオ・フレーム(i)のトリガ時間であり、
eは露出時間であり、
vはピクセル行である。
図6に見られるように、グレー・エリアは、ピクセル行が光に露光された時間である。画像の第1の行は最上行から始まることに留意されたい。このモデル600は以下のようにして使用される。
トリガ時間における2Dマーカー軌跡の補間:複数のローリングシャッター・カメラが同じ物体(マーカーなど)を観測するとき、物体は、すべてのカメラにわたって同じピクセル行に投影しないので、それらの観測時間は通常一致しない。この時間の不一致は、プロセスが複数のカメラからの観測を必要とするときに大きい誤差を生じる。たとえば、複数のカメラからの2D観測の三角測量は、それらの観測が同じ瞬間からのものであると仮定するが、そうでない場合、特に物体が速く移動しているときに、その三角測量は大きい誤差を与え得る。結果の三角測量中のプロセスを向上させるために、ローリングシャッター・モデルは、すべてのカメラにわたって厳密に同じタイミングで起こる観測が取得され得るように、トリガ時間において、観測されたマーカー又は物体の2D位置を概算するために使用され得る。ローリングシャッター・モデル600からの計算は図7の図式表現700に示されている。図7において、各黒いドットは1つのビデオ・フレーム上の観測ポイントを表す。これらのドットは常にローリングシャッター・モデル600による中間露出ライン上に留まる。1つの特定のフレーム中の各観測について、式1から観測時間(t)について解くために、知られているピクセル行(v)が使用され得る。観測時間が2つの連続するビデオ・フレーム(t及びt)中で知られているときは、中間のトリガの時間における2D位置の線形補間が容易に行われ得る。言い換えれば、トリガ時間(T)における観測された2D軌跡の位置を概算するために、最初に観測行(v及びv)から観測時間(t及びt)が計算される。t及びtを用いて、Tにおける2D位置の補間が行われ得る。補間された値は、それがグローバル・シャッター・カメラからのものであるかのように三角測量において使用される。
2D画像への3Dマーカー軌跡の投影:トレーニング・データ生成において、1つの決定的なステップは、ビデオ・フレームごとに40個の身体マーカーの2Dロケーションを生成することである。カメラがグローバル・シャッター・センサーを使用する場合、観測時間は画像全体について厳密に知られている。その時間は、マーカー軌跡から3D位置を補間し、それをビデオ・カメラに直接投影するために使用され得る。対照的に、ローリングシャッターからの観測時間は、投影が行われるまで知られない投影の結果(行)に依存する。したがって、図8に示された新しい投影方法800が開発される。
最初に、マーカーベースmocapシステム(たとえば、光学モーション・キャプチャ・システム142)からのターゲット3D軌跡がサンプルごとにターゲット・カメラ(たとえば、複数のカラー・ビデオ・カメラ144の各々)に直接投影される。言い換えれば、マーカーベースmocapシステムからの3Dマーカー軌跡がカメラに投影されるとき、それは、各ポイントが1つのサンプルを表している図8に示されているようにプロットされ得る。各サンプルについて、投影はピクセル行(v)を与え、そのサンプルの時間も知られている。マーカーベースmocapシステムのサンプル頻度が比較的より高いので、投影のドットが図8のようなプロットにおいて接続される場合、(式1からの)中間露出ラインと交差するいくつかのライン又は隣接するペアがある。いずれの2つの連続するサンプルも一次方程式(2つのドットを接続するライン)を形成し得るので、この方程式がそれ自体の時間セクション中で式1からのいずれかの中間露出ラインと交差する場合、これらの2つの一次方程式の解は補間の厳密な時間を告げる。この交差時間は、軌跡から3D位置を補間するために使用される。次いで、補間された3D位置は、観測と一致する正確な投影を取得するためにカメラ(又は画像)に投影され得、トレーニングにおいて使用され得る。
ビデオ・カメラ較正
カメラ内因性パラメータの初期化:各ビデオ・カメラについて、カメラ内因性パラメータを概算するために、OpenCVライブラリをもつ標準プロセスが使用される。35mmブロックをもつ10×7チェッカーボードは、30個の異なる画像を撮影するために、カメラの前で30個の異なる姿勢で静止状態に保たれている。次いで、各画像上の2Dチェッカーボードのコーナーを見つけるためにcv2.findChessboardCornersが使用される。次いで、内因性行列とひずみ係数との概算を得るためにcv2.calibrateCameraが使用される。これらの値は較正の次の段階において微調整される。
トレーニング・データ収集のためのカメラ較正:後続の較正からの外因性パラメータ解がマーカーベースmocap参照フレーム中にあるので、この較正、より詳細には、事前較正プロセスでは、マーカーベースmocapシステム(たとえば、光学モーション・キャプチャ・システム142)はすでに較正されていると仮定する。この較正は、キャプチャ・ボリューム全体にわたって先端に1つの逆反射マーカーをもつワンドを約2~3分間波動させることによって行われる。このマーカーは、マーカーベース・モーション・キャプチャ・システムと、白色LEDが付いているビデオ・カメラ(たとえば、複数のカラー・ビデオ・カメラ144)の両方によってキャプチャされる。マーカーベース・モーション・キャプチャ・システムの観点から、それはマーカーの3D軌跡を記録する。ビデオ・カメラの観点から、それは、各画像上の2D位置として抽出され得る、明るいスポットをもつ一連の暗い画像を見る。
この2D位置を抽出するために、アルゴリズムは、ロケーションを明るいピクセル・クラスタの重心において収束させるために、明るいピクセルを探索し、そのロケーションに平均シフト・アルゴリズムを適用するために、画像全体にわたって走査する。
カメラがグローバル・シャッター・センサーを使用する場合、単に、ビデオ・カメラ・フレームの露出間隔の中間の時間を使用して3Dマーカー軌跡からの3D位置を線形補間することによって、2D-3D対応ペアが収集される。次いで、対応ペアのそのセットにcv2.calibrateCamera関数を適用することにより、外因性カメラ・パラメータを与え、また内因性カメラ・パラメータを微調整する。
しかしながら、すべてのピクセル行が同時にはキャプチャされないので、これはローリングシャッター・カメラ上で直接行うことができない。ビデオ・フレーム上の観測された2Dマーカーの時間は、それが見られるピクセルの行に応じて変化する。式1は、2Dマーカー観測の時間を計算するために使用され、この時間は、1つの2D-3D対応的(又は対応)ペアを形成するために3Dマーカー軌跡から3D位置を線形補間するために使用される。次いで、対応ペアのそのセットにcv2.calibrateCamera関数を適用することにより、外因性カメラ・パラメータを与え、また内因性カメラ・パラメータを微調整する。
説明した方法は、カメラ視野中に他の明るい又は反射性のアイテムがない場合にうまく働く。しかしながら、モーション・キャプチャ環境は、通常、多くの光源と、コンピュータ・スクリーンと、反対側のビデオ・カメラからのLEDとを含んでいるので、その仮定はあまり実際的ではない。したがって、これらのノイズを処理するために追加のプロシージャが必要とされる。
たとえば、画像中の明るいピクセルを見つけ、ワンド波動記録中のマーカーを探索する前にあらゆるフレーム中でそれらの明るいピクセルをマスキングするために、ワンド波動ステップの直前に5秒のビデオ記録が行われる。これによりカメラ視野中の静的な明るいエリアが除去されるが、時計又は眼鏡などの移動する光沢のある物体からのダイナミック・ノイズは2D-3D対応プール中に含まれる。2D-3D対応のプールからそれらのダイナミック・ノイズを除去するために、モデル適合から外れ値(outlier)を除くためのランダム・サンプル・コンセンサス(RANSAC:Random Sample Consensus)の発想に基づく方法が開発された。この方法では、大部分がコンセンサスを正しく形成することができるように、ノイズはすべての2D-3D対応ペアのサンプルから5%未満起こると仮定している。
この方法は以下のように説明される。
(a)プールから100個の2D-3D対応ペアをランダムにサンプリングする。
(b)cv2.calibrateCameraを用いてカメラ・パラメータを計算するために、その100個の対応ペアを使用する。
(c)投影と2D観測との間のユークリッド誤差を観測するために、プール中のすべてのペアからのすべての3Dポイントを投影するために、計算されたカメラ・パラメータを使用する。10ピクセル未満の誤差をもつペアは良好なペアとして分類される。
(d)分類の最新ラウンドからのすべての良好なペアは、この場合もcv2.calibrateCameraを用いてカメラ・パラメータを計算するために使用される。
(e)良好なポイントのセットが後続の反復において同じ状態を保つまで、すなわち、モデルが収束するまで、ステップ(c)及びステップ(d)を繰り返す。
最初の100個のサンプルが多数のノイズの多いペアを含んでいる場合、計算されたカメラ・パラメータは不正確になり、プール中の多数の対応ペアと一致しない。この場合、モデルは少数の良好なペアを用いて収束する。
一方、最初の100個のサンプルが有効なペアのみを含んでいる場合、計算されたカメラ・パラメータはかなり正確になり、プール中の多数の有効なペアと一致する。この場合、良好なペアの数は、すべての有効なポイントをカバーするように拡大するが、ノイズの多いペアは、それらが有効なコンセンサスと一致しないとして除外されたままになる。
後者のケースを実現させるために、プロセス(a)~(e)は、最大数の良好なペアをもつ最終モデルを選択するために200回繰り返される。評価により、ノイズ除去のこの方法は、データ収集のために理想的であるサブピクセル・レベルまで平均投影誤差を低減し得る。
システム展開のための外因性カメラ較正:システム(たとえば、システム160)の実際の展開では、カメラ較正のための2D-3D対応を収集するためにマーカー軌跡の3D情報を与えるためのマーカーベース・モーション・キャプチャ・システムはない。したがって、代替の外因性較正方法が使用され得る。カメラにLEDが装備されていない場合、cv2.StereoCalibrate方法を用いて2つのカメラの間の相対変換を計算するために、チェッカーボードが2つのカメラによって同時にキャプチャされ得る。システム中のすべてのカメラ間の相対変換が知られているとき、それらの外因性パラメータは、最終結果を取得するために、この場合もLevenberg-Marquardt最適化を用いて微調整される。(マーカーなし人間若しくは動物対象120上の仮想マーカーの3Dロケーションを予測するための方法においてカラー・ビデオ・カメラを外因的に較正することと同様のコンテキストにおいて説明する)この較正プロセスを容易にするために、図9においてCharucoボードとして見られるチェッカーボード900中に一意のArucoマーカーを追加することによって、複数のチェッカーボードが同じ環境において使用され得る。これらのCharucoボードは、cv2.aruco.estimatePoseCharucoBoard関数を使用してそれらのボード識別情報を用いて検出され得る。
カメラにLEDが装備されている場合、反射性マーカーをもつワンドとバンドル調整最適化技法とを使用して、より大きいボリュームにおいてより正確であるように較正を拡張することが可能である。
トレーニング・データ収集及び前処理
このセクションは、キーポイント検出のためのトレーニング・データセットを生成するための方法100と同様のコンテキストにおいて説明され得、データセットがトレーニング前にどのように収集され、前処理されるかについて説明する。トレーニング・データ(又はトレーニング・データセット)は、3つの重要な要素、すなわち、ビデオ・カメラからの画像と、各画像上の2Dキーポイントの位置と、ターゲット対象のバウンディング・ボックスとを含んでいる。
マーカーセット:40個のマーカーのセットが、RRISのAbility Dataプロトコル中のマーカーセットから選定される(P.Liangら、「An asian-centric human movement database capturing activities of daily living」、Scientific Data、vol.7、no.1、1~13頁、2020年参照)。すべてのクラスタの配置は複数の対象にわたって一貫しておらず、それらの大きいサイズは後でインペインティング・ステップにおいて困難を生じるので、すべてのクラスタは削除される。頭部上の4つのマーカー(RTEMP、RHEAD、LHEAD、LTEMP)と、胴体上の4つのマーカー(STER、XPRO、C7、T10)と、骨盤上の4つのマーカー(RASIS、LASIS、LPSIS、RPSIS)と、各上肢上の7つのマーカー(ACR、HLE、HME、RSP、USP、CAP、HMC2)と、各下肢上の7つのマーカー(FLE、FME、TAM、FAL、FCC、FMT1、FMT5)とがある。マーカー配置タスクは、骨ランドマークに従って標準化され、最も好ましくは、トレーニングされた人々によって行われる。
ローリングシャッター・カメラのためのマーカー投影:すべての3Dマーカー軌跡は、ローリング・シャッター・カメラ・モデルの下での2D画像への3Dマーカー軌跡の投影を説明する上記セクションにおいて説明した投影方法を用いて、各ビデオ・カメラに投影される。2D投影からの結果はトレーニングのための2Dキーポイントである。たとえば、方法100のステップ104を参照する。
マーカー削除:ビデオ・カメラから撮影された画像は、推論中に学習されたモデルに対して問題を引き起こし得る可視マーカー・ブロブを常に含んでいる。モデルが、キーポイントの予想される位置が常に可視マーカーからのグレー・ブロブに着地するパターンを見るとき、モデルは、このパターンを記憶しており、マーカー自体の位置を特定するために、重要な特徴としてグレー・ブロブを常に探す。この過剰適合は、身体上にもはやマーカーがないときの実際のマーカーなし使用における性能を低下させ得る。したがって、ビデオ・データは、対象上にマーカーがないかのように作成される。敵対的生成ネットワーク(GAN)を使用する画像インペインティング技法は、周囲のコンテキストに気付くことによってターゲット・エリア中のピクセル・カラーを置き換えるので、これは、そのような画像インペインティング技法を使用することによって行われ得る。この場合、マーカーを削除するためにDeepFillv2が使用される。マーカーを削除するために、マーカーによって占有されるピクセルはリストから外される。これは、2D投影を撮影すること(たとえば、方法100のステップ104)と、マーカーのベースと影とをカバーするために何らかの追加のマージンをもつカメラとマーカーとの間の距離に応じて2D半径を描くこととによって自動的に行われ得る。
非対象の削除:複数のビデオ・カメラがすべての方向を向いている状態で、視野中の非対象人間を避けることは困難である。それらの非対象人間はマーカーを装着していないので、非対象人間は、ラベル付けされず、トレーニング・プロセス中に背景として解釈され、それによりモデル中に混乱が生じ得る。したがって、それらの非対象人間は、Detectron2からのデフォルトの人間検出によって自動的に検出され、スムーズ・エッジにより不鮮明になる。
バウンディング・ボックス・フォーミュレーション:トレーニング・プロセスが必要とする1つの重要な情報は、各人間対象の周りの2Dバウンディング・ボックスである。単純な矩形の形態のこの2Dバウンディング・ボックスは、すべての投影されたマーカー位置だけでなく、すべての身体部位の完全なシルエットをもカバーする。したがって、フォーミュレーションは、各マーカーのカバレージが隣接する身体部位をカバーするポイントまで、そのカバレージを異なる量だけ拡大することによって開発される。たとえば、指の上にはマーカーがない、したがって、指が届く可能なボリュームを概算するために、肘マーカー、手首マーカー、及び手マーカーが使用される。次いで、バウンディング・ボックスを概算するために、そのボリュームの表面上のそれらの3Dポイントが各カメラに投影される。たとえば、方法100のステップ108を参照する。
ニューラル・ネットワーク・アーキテクチャ及びトレーニング・フレームワーク
特徴抽出バックボーンとしてフィーチャ・ピラミッド・ネットワーク(FPN:Feature Pyramid Network)をもつMask-RCNNのキーポイント検出バージョンがニューラル・ネットワーク・アーキテクチャとして使用される。ネットワークはDetectron2投影リポジトリ上にPyTorchをすでに実装されているので、(トレーニング・データ収集及び前処理のセクションにおいて上記で説明したように、また方法120のステップ125及び124参照)関節中心からのキーポイントのセットを40個のマーカーのセットに変更し、トレーニング画像がビデオ・ファイルからロードされることを可能にするための改変が行われ得る。メモリ利用における冗長性を低減し、トレーニング・データのサイズをはるかに大きくすることを可能にするために、データ・ローダ・モジュールもすべてのワーク・プロセスにわたって共有メモリを使用するように改変される。
戦略的三角測量
トレーニングが行われた後に、モデルは、マーカーなし対象の画像からすべての40個のマーカーの2Dロケーションを予測することが可能である。たとえば、方法120のステップ126を参照する。対象がカメラ視野によってハーフクロップされるなど、いくつかの特定の状況において、マーカーのうちのいくつかは、信頼性レベルが低すぎるので、ロケーション出力を与えないことがある。ローリングシャッター・カメラの場合、ローリング・シャッター・カメラ・モデルの下でトリガ時間における2Dマーカー軌跡の補間を説明する上記セクションによって説明したように、三角測量のために使用される2Dロケーションは、トリガ時間においてロケーションを取得するための2つの連続するフレーム間の補間された結果である。隣接するフレームのうちの1つからのマーカーが補間のために利用可能でない場合、そのカメラは、そのフレーム中のそのマーカーのために利用不可能であるとして処理されるべきである。
すべての利用可能なカメラから出力される予測がかなり正確である理想的な状況では、すべてのカメラからの結果の三角測量は直接線形変換を用いて行われ得る。1つのカメラからの画像上の1つの2Dロケーションは、カメラ原点からポイントアウトする3D光線によって表され得る。直接線形変換は、すべてのそれらの光線の仮想交差ポイントである3Dポイントを直接計算する。この理想的なケースでは、3Dポイントとあらゆる光線との間の距離は大きくなりそうになく(すなわち、10cm未満)、解は容易に受け入れられ得る。
しかしながら、実際には、少数のカメラにおける予測は間違い得る。時々、たとえば胴が妨害しているので、いくつかのカメラは手首の厳密な位置を見ないことがある。時々、いくつかのカメラは身体の左側と右側との間で混乱し得る。三角測量をより強固にするために、本方法は、コンセンサスと一致しないカメラからの寄与を拒否するものである。
1つの特定のフレーム中の1つのマーカーを三角測量するための方法は以下のように行われ得る。
(a)すべての利用可能なカメラ(ターゲット・マーカーの2Dロケーションを与えることが可能であるカメラ)をリストにする。
(b)3Dロケーションを得るためにすべての利用可能なカメラを三角測量する。三角測量は、一般的に使用されるDLT方法を用いて行われ得る。随意に、各2Dマーカー予測の信頼度スコアが与えられる場合、三角測量方法は、新しい重み付き三角測量に関するセクションにおいて以下で説明する、重み付き三角測量公式(式2参照)を用いて著しく向上し得る。
(c)利用可能なリスト中のカメラの間で、三角測量される3Dポイントとそのカメラからの光線との間の最大距離を与えるカメラを識別する。最大距離が10cm未満である場合、三角測量されたものが受け入れられる。そうでない場合、そのカメラは利用可能なカメラのリストから削除される。
(d)解が受け入れられるまでステップ(b)及びステップ(c)を繰り返す。リスト中のカメラの数が2つを下回る場合、このフレーム中にそのマーカーのための解はない。
この方法を用いると、フレームごとにマーカーごとに実行される三角測量の最大数はちょうどn-1個であり、ここでnはカメラの数である。このn-1個の計算は、2-n-1個の計算を必要とする三角測量のすべての可能な組合せを試みるよりもはるかに速い。
新しい重み付き三角測量
2Dキーポイント・ローカリゼーションを実行するニューラル・ネットワークでは、各2Dロケーション出力に関連する信頼度スコアをも生成することが一般的であり得る。たとえば、Mark-RCNNのキーポイント検出バージョンは、各キーポイントについてバウンディング・ボックスの内側に信頼性のヒートマップを生成する。次いで、ヒートマップ中の最も高い信頼性をもつ2Dロケーションが答えとして選択される。この場合、ピークにおける信頼度スコアは、その2Dキーポイント予測のための関連するスコアである。通常の三角測量において、その信頼度スコアは通常無視される。しかしながら、重み付き三角測量公式は、以下で説明するように、三角測量の精度を向上させるための三角測量の重みとしてのスコアの利用を可能にする。
重み付き三角測量公式:三角測量された3D位置(P)は、
P=(Σ-1(Σ)、式2
として導出され得、ここで、
は、重み、又はi番目のカメラからのi番目の光線の信頼度スコアであり、
は、i番目の光線に関連する3Dカメラ・ロケーションであり、
は、i番目の光線に関連する逆投影される方向を表す3D単位ベクトルであり、
は3×3単位行列であること
を所与として

である。
各逆投影される光線の方向ベクトル(Ui)は、
1)正規化された座標にcv2.undistortPointsIterを使用して2D観測をひずみ解除することと、
2)カメラ参照フレーム中に3D方向ベクトルを形成すること[x_undistorted,y_undistorted,1]と、
3)カメラ方位の現在の推定値を使用して方向をグローバル参照フレームに回転することと、
4)単位ベクトル(Ui)を得るためにベクトルを正規化することと
によって計算される。
この公式は、三角測量されるポイントとすべての光線との間の距離の加重平方和を最小にすることによって導出されるので、予測の信頼性が低いと三角測量における影響がより小さくなり、三角測量されるポイントをより高い予測信頼性をもつ光線に近づけることが可能になり、その結果、全体的精度が改善する。
iii.商用適用例
本発明の潜在顧客は非リアルタイム・マーカーなし人間モーション・キャプチャ・システムを求める人である。潜在顧客は、人間の動きを研究しようとする科学者、人間の動きからアニメーションを作成しようとするアニメーター、又は患者の動きから客観的診断を生成しようとする病院/診療所であり得る。
モーション・キャプチャ・システムを実行するために使用される時間及びマンパワーの低減における利点は、患者が短いモーション・キャプチャを実行し、同じ時間以内に分析結果をもつ医師に会う機会を得ることが可能であるので、臨床医が患者の動きからの客観的診断/分析のためにこの技術を採用する機会を開く。
具体的な実施例を参照しながら本発明を詳細に図示し、説明したが、添付の特許請求の範囲によって定義されている本発明の趣旨及び範囲から逸脱することなく、形態及び詳細の様々な変更がそれの中で行われ得ることが当業者によって理解されるべきである。本発明の範囲は、したがって、添付の特許請求の範囲によって示され、特許請求の範囲の等価物の意味及び範囲内に入るすべての変更は、したがって、包含されるものである。
本出願は、それの内容がすべての目的でその全体が参照により本明細書に組み込まれる、2021年6月14日に出願されたシンガポール特許出願第10202106342T号の優先権の利益を主張する。
様々な実施例は、キーポイント検出のためのトレーニング・データセットを生成するための方法及びシステム、並びに生成されたトレーニング・データセットによってトレーニングされるニューラル・ネットワークを使用するマーカーなし対象(たとえば、人間、動物又は物体)上の仮想マーカーの3Dロケーションを予測する方法及びシステムに関する。
人間の動きのキネマティクスを感知し、デジタル化する能力は、スポーツ科学における運動解析、リハビリテーションにおける異常診断、映画産業におけるキャラクタ・アニメーションなど多くの領域において研究及び用途を解放したか、又はそのような能力は、ビデオ・ゲーム、対話型技術、又は異なる種類のコンピュータ・アプリケーションにおいて人間とコンピュータとの対話の目的に役立つことができる。そのような能力を与える技術は様々な形態であり得る。今日に至るまで依然として広く使用されている1つの初期の既製の技術はマルチカメラ・マーカーベース・モーション・キャプチャ形態である。この技術では、対象の骨ランドマークが、アクティブな赤外光源をもつ赤外線カメラによって見られる逆反射(retro-reflective)マーカーを用いて取り付けられる。1つのマーカーが2つ以上の赤外線カメラによって見られるとき、それらの赤外線カメラが較正され、同期させられることを所与として、マーカーの3次元(3D)位置が三角測量から計算される。次いで、これらの3D位置のシーケンスが後続のアプリケーションにおいて使用される。
画像分類のための2012年におけるディープ畳み込みニューラル・ネットワーク(AlexNet)の導入以来、さらに多くの複雑なコンピュータ・ビジョン問題が、その後のデータ駆動型パラダイムの下で同様の方法でアプローチされてきた。遭遇した課題のうちの1つは、人間姿勢推定又は人間キーポイント検出である。この分野におけるニューラル・ネットワーク・モデルは、モデル中心のアプローチの人気によりこの10年間に急速に発展した。科学者は、通常、利用可能な公開データセットをダウンロードし、既存のモデルよりもテスト精度を改善し得る新しいニューラル・ネットワーク・アーキテクチャ又は新しいトレーニング方法を提案した。この傾向はモデルへの多くの顕著な貢献につながったが、データセット及びデータ品質になされた貢献はあまり多くなかった。人間キーポイント検出の分野において、2つの最大のデータ収集の取り組みは、それぞれ118K画像及び40K画像をもつCOCOデータセット及びMPIIデータセットからのものである。これらのデータセットは、データセット中のあらゆる人間についての手作業で注釈を付けられた2次元(2D)関節位置を含んでいる。たとえば、COCOデータセットでは、すべてのキーポイントがクラウドソーシングを通して手作業によって注釈を付けられる。発明者らが知る限りでは、すべての先行技術のデータ駆動型の人間キーポイント検出モデルは、注釈付け精度にかかわらず、学習のために、これらの手作業で注釈を付けられたデータセットに依拠する。
関節中心を表す高解像度画像上のピクセルを選ぶタスクは、様々なあり得る問題により、人間によって正確に実行することが困難である。主な理由は、各関節中心が実際の人間骨ランドマークに対して厳密にどこにあるかの定義についての明らかな合意が注釈付け労働者の間にないことである。定義が与えられた場合でも、2D画像はそれらの骨ランドマークについての十分な手がかりを与えないことがあるので、定義は見つけることが著しく困難なままである。したがって、注釈を付けられた位置は、ピクセル・レベルへのピンポイント・ロケーションというよりはむしろぼけた2Dエリアのようである。これらのデータセットを使用することは、トレーニングされたモデルがどのくらい正確であり得るかを確実に制限する。このレベルの品質は、ビデオ・ゲーム・コントロール又は対話型技術などのエンターテインメント目的のためには十分であり得る。しかしながら、スポーツ科学、生体力学解析、又はリハビリテーション解析のようなより議論が起きやすい適用例では、そのようなレベルの品質は好適又は十分であるとは考えられない場合が多くなる。
別の既存のアプローチでは、Kinect骨格追跡システムが深度画像を用いて動作する。ランダムな姿勢の人間モデルが3Dで作成され得る。あらゆる人間の部分を決定するために1つ1つのピクセルを予測するために、ランダム・フォレスト回帰が使用される。しかしながら、使用される制約は現実的でないことがあるので、そのような合成モデルの精度は素晴らしくない。
したがって、少なくとも上述の問題に対処するための方法及び/又はシステム、より詳細には、システムが複数のRGBカメラの使用を伴い、システム及び/又は方法が3Dマーカー位置出力を生成するが、いかなるマーカー又はセンサーも対象の本体上に配置されない、方法及び/又はシステムが必要である。マーカーなしであることの1つの明らかな利益は、モーション・キャプチャ(mocap:motion capture)ワークフローを医学的診断など予見不能な適用例のためにより実際的なものにする、対象作成における時間とマンパワーとの低減である。本方法及び/又はシステムはまた、過度に限定的な制約を伴わない。
さらに、モデル中心の傾向を継続する代わりに、本方法及び/又は本システムは、その分野のプレーヤによって認められる最良の先行技術のキーポイント検出モデルと、可能な限り高い品質の注釈をもつデータセットを生成するデータ中心の態様とを伴い得る。そのような注釈は、人間による決定に由来するものではなく、マーカーベース・モーション・キャプチャ・システムからのマーカー位置のような正確なセンサーに由来するものでなければならない。マーカーが骨ランドマーク上に正しく配置され、マーカーベース・モーション・キャプチャ・システムがそのマーカーの3D軌跡を正確に取り出すことができる場合、そのマーカーは、今度は、キーポイント検出のトレーニングのためのピクセル精度の2Dグランド・トゥルースを取得するためにビデオ・フレームに投影され得る。比較的少ない予算の下ですべての較正及び同期が働くことを保証するために、データ収集インフラストラクチャも基礎から設計されている。さらに、これは、投影後に著しく大きい誤差を不必要に引き起こすことがある同様のタイプの既存のデータセットを取得する際に使用されるカメラ較正パラメータと時間同期との一貫性のない品質を極めてうまく回避するか又は少なくとも低減し得る。たとえば、2Dにおけるマーカー投影を用いたMoViデータセットからのクロップされた画像に基づいて、不十分なカメラ較正及び同期により、投影はマーカーと整合しないことがわかる。
P.Liangら、「An asian-centric human movement database capturing activities of daily living」、Scientific Data、vol.7、no.1、1~13頁、2020年
一実施例によれば、キーポイント検出のためのトレーニング・データセットを生成するための方法が提供される。本方法は、それぞれ3D軌跡として光学マーカーベース・モーション・キャプチャ・システムによってキャプチャされた複数のマーカーに基づき得、各マーカーは、人間若しくは動物対象の骨ランドマーク、又は物体のキーポイント上に配置され、人間若しくは動物対象又は物体は2D画像のシーケンスとして時間期間にわたって複数のカラー・ビデオ・カメラによって実質的に同時にキャプチャされる。本方法は、各マーカーについて、各2D画像中の2Dロケーションを決定するために2D画像の各々に3D軌跡を投影することと、各マーカーについて、2D画像のシーケンス中のそれぞれの2Dロケーションと、複数のカラー・ビデオ・カメラの露出関係時間とに基づいて、2D画像の各々のための3D位置を補間することと、各2D画像について、複数のマーカーのそれぞれの補間された3D位置と、互いとの解剖学的又は機能的関係を有するマーカーのうちの2つ又はそれ以上から導出された拡張されたボリュームとに基づいて、人間若しくは動物対象又は物体の周りに2Dバウンディング・ボックスを生成することと、2D画像のシーケンスと、選択された少なくとも1つの2D画像中の各マーカーの決定された2Dロケーションと、選択された少なくとも1つの2D画像のための生成された2Dバウンディング・ボックスとから選択される少なくとも1つの2D画像を含むトレーニング・データセットを生成することとを含み得る。
一実施例によれば、マーカーなし人間若しくは動物対象又はマーカーなし物体上の仮想マーカーの3Dロケーションを予測するための方法が提供される。本方法は、2D画像のシーケンスとして複数のカラー・ビデオ・カメラによってキャプチャされたマーカーなし人間若しくは動物対象又はマーカーなし物体に基づいて、各カラー・ビデオ・カメラによってキャプチャされた各2D画像について、トレーニングされたニューラル・ネットワークを使用して、2Dバウンディング・ボックスを予測することと、各2D画像について、トレーニングされたニューラル・ネットワークによって、信頼性スコアをもつ複数のヒートマップを生成することと、各ヒートマップについて、最も高い信頼性スコアをもつピクセルを選択することと、選択されたピクセルを仮想マーカーに関連付け、それによって仮想マーカーの2Dロケーションを決定することと、複数のカラー・ビデオ・カメラによってキャプチャされた2D画像のシーケンスに基づいて、仮想マーカーの3Dロケーションのシーケンスを予測するために各決定された2Dロケーションを三角測量することとを含み得る。各ヒートマップはマーカーなし人間若しくは動物対象又はマーカーなし物体の仮想マーカーの2Dローカリゼーションのためのものであり、各ヒートマップについて、信頼性スコアは、予測された2Dバウンディング・ボックス中の異なる2Dロケーション中に関連する仮想マーカーを有する確率を示す。トレーニングされたニューラル・ネットワークは、上記の一実施例によれば、少なくともキーポイント検出のためのトレーニング・データセットを生成するための方法によって生成されたトレーニング・データセットを使用してトレーニングされる。
一実施例によれば、上記の様々な実施例による、キーポイント検出のためのトレーニング・データセットを生成するための方法、及び/又はマーカーなし人間若しくは動物対象又はマーカーなし物体上の仮想マーカーの3Dロケーションを予測するための方法を実行するように適応されたコンピュータ・プログラムが提供される。
一実施例によれば、コンピュータ上で実行されたときに、コンピュータに、上記の様々な実施例による、キーポイント検出のためのトレーニング・データセットを生成するための方法、及び/又はマーカーなし人間若しくは動物対象又はマーカーなし物体上の仮想マーカーの3Dロケーションを予測するための方法を実行させる命令を含む非一時的コンピュータ可読媒体が提供される。
一実施例によれば、上記の様々な実施例による、キーポイント検出のためのトレーニング・データセットを生成するための方法、及び/又はマーカーなし人間若しくは動物対象又はマーカーなし物体上の仮想マーカーの3Dロケーションを予測するための方法を実行するための手段を備えるデータ処理装置が提供される。
一実施例によれば、キーポイント検出のためのトレーニング・データセットを生成するためのシステムが提供される。本システムは、時間期間にわたって複数のマーカーをキャプチャするように構成された光学マーカーベース・モーション・キャプチャ・システムであって、各マーカーが、人間若しくは動物対象の骨ランドマーク、又は物体のキーポイント上に配置され、3D軌跡としてキャプチャされる、光学マーカーベース・モーション・キャプチャ・システムと、2D画像のシーケンスとして時間期間にわたって人間若しくは動物対象又は物体をキャプチャするように構成された複数のカラー・ビデオ・カメラと、コンピュータとを含み得る。コンピュータは、複数のカラー・ビデオ・カメラによってキャプチャされた2D画像のシーケンスと、光学マーカーベース・モーション・キャプチャ・システムによってキャプチャされたそれぞれの3D軌跡とを受信することと、各マーカーについて、各2D画像中の2Dロケーションを決定するために2D画像の各々に3D軌跡を投影することと、各マーカーについて、2D画像のシーケンス中のそれぞれの2Dロケーションと、複数のカラー・ビデオ・カメラの露出関係時間とに基づいて、2D画像の各々のための3D位置を補間することと、各2D画像について、複数のマーカーのそれぞれの補間された3D位置と、互いとの解剖学的又は機能的関係を有するマーカーのうちの2つ又はそれ以上から導出された拡張されたボリュームとに基づいて、人間若しくは動物対象又は物体の周りに2Dバウンディング・ボックスを生成することと、2D画像のシーケンスと、選択された少なくとも1つの2D画像中の各マーカーの決定された2Dロケーションと、選択された少なくとも1つの2D画像のための生成された2Dバウンディング・ボックスとから選択された少なくとも1つの2D画像を含むトレーニング・データセットを生成することとを行うように構成され得る。
一実施例によれば、マーカーなし人間若しくは動物対象又はマーカーなし物体上の仮想マーカーの3Dロケーションを予測するためのシステムが提供される。本システムは、2D画像のシーケンスとしてマーカーなし人間若しくは動物対象又はマーカーなし物体をキャプチャするように構成された複数のカラー・ビデオ・カメラと、コンピュータとを含み得る。コンピュータは、複数のカラー・ビデオ・カメラによってキャプチャされた2D画像のシーケンスを受信することと、各カラー・ビデオ・カメラによってキャプチャされた各2D画像について、トレーニングされたニューラル・ネットワークを使用して、2Dバウンディング・ボックスを予測することと、各2D画像について、トレーニングされたニューラル・ネットワークを使用して、信頼性スコアをもつ複数のヒートマップを生成することと、各ヒートマップについて、最も高い信頼性スコアをもつピクセルを選択することと、仮想マーカーの2Dロケーションを決定するために選択されたピクセルを仮想マーカーに関連付けることと、複数のカラー・ビデオ・カメラによってキャプチャされた2D画像のシーケンスに基づいて仮想マーカーの3Dロケーションのシーケンスを予測するために、それぞれの決定された2Dロケーションを三角測量することとを行うように構成され得る。各ヒートマップは、マーカーなし人間若しくは動物対象又はマーカーなし物体の仮想マーカーの2Dローカリゼーションのためのものであり、各ヒートマップについて、信頼性スコアは、予測された2Dバウンディング・ボックス中の異なる2Dロケーション中に関連する仮想マーカーを有する確率を示す。トレーニングされたニューラル・ネットワークは、上記の様々な実施例によれば、少なくともキーポイント検出のためのトレーニング・データセットを生成するためのシステム及び/又は方法によって生成されたトレーニング・データセットを使用してトレーニングされる。
図面では、異なる図全体にわたって同様の参照符号は一般に同様の部分を指す。図面は必ずしも一定の縮尺でなく、代わりに、一般に、本発明の原理を示すことに強調が置かれている。以下の説明において、以下の図面を参照しながら本発明の様々な実施例について説明する。
様々な実施例による、キーポイント検出のためのトレーニング・データセットを生成するための方法を示すフロー・チャートを示す図である。 様々な実施例による、マーカーなし人間若しくは動物対象又はマーカーなし物体上の仮想マーカーの3Dロケーションを予測するための方法を示すフロー・チャートを示す図である。 様々な実施例による、キーポイント検出のためのトレーニング・データセットを生成するためのシステムの概略図を示す図である。 様々な実施例による、マーカーなし人間若しくは動物対象又はマーカーなし物体上の仮想マーカーの3Dロケーションを予測するためのシステムの概略図を示す図である。 図1Cのシステムの例示的なセットアップを示す図である。 図1Dのシステムの例示的なセットアップを示す図である。 様々な実例による、異なるツールからの12個の関節からの全体的な精度プロファイルを示すプロットを示す図である。 一実施例による、較正プロセスにおいてのみ使用されるべき3つの可視LEDをもつカメラ・プロトタイプの概略斜視図を示す図である。 一実施例による、ローリング・シャッター・モデルの図式表現を示す図である。 トリガ時間における2Dマーカー軌跡の補間を示す、図6のローリング・シャッター・モデルの図式表現を示す図である。 一実施例による、カメラに投影されるマーカーベース・モーション・キャプチャ・システムからの3Dマーカー軌跡の図式表現を示す図である。 一実施例による、図1Dのシステムを較正するためのチェッカーボードを含む機器の写真を示す図である。
以下の詳細な説明は、本発明が実施され得る具体的な詳細及び実施例を例として示す添付の図面に関する。当業者が本発明を実施することを可能にするために、これらの実施例について十分詳細に説明する。本発明の範囲から逸脱することなく、他の実施例が利用され得、構造的、論理的、及び電気的変更が行われ得る。新しい実施例を形成するためにいくつかの実施例を1つ又は複数の他の実施例と組み合わせることができるので、様々な実施例は必ずしも相互に排他的であるとは限らない。
本方法又はデバイスのうちの1つのコンテキストにおいて説明する実施例は他の方法又はデバイスについて類似的に有効である。同様に、方法のコンテキストにおいて説明する実施例はデバイスについて類似的に有効であり、その逆も同様である。
一実施例のコンテキストにおいて説明する特徴は、相応して、他の実施例における同じ又は同様の特徴に適用可能であり得る。一実施例のコンテキストにおいて説明する特徴は、他の実施例において明示的に説明していない場合でも、相応して、これらの他の実施例に適用可能であり得る。さらに、一実施例のコンテキストにおいて特徴について説明する追加及び/又は組合せ及び/又は代替は、相応して、他の実施例における同じ又は同様の特徴に適用可能であり得る。
様々な実施例のコンテキストにおいて、特徴又は要素に関して使用される冠詞「a」、「an」及び「the」は特徴又は要素のうちの1つ又は複数への参照を含む。
様々な実施例のコンテキストにおいて、「少なくとも実質的に」というフレーズは「厳密に」及び妥当な相違を含み得る。
様々な実施例のコンテキストにおいて、数値に適用される「約」又は「ほぼ」という用語は厳密な値及び妥当な相違を包含する。
本明細書で使用する際、「及び/又は」という用語は、関連する記載された項目のうちの1つ又は複数のありとあらゆる組合せを含む。
本明細書で使用する際、「A又はBのうちの少なくとも1つ」の形態のフレーズはA又はB、或いはAとBの両方を含み得る。相応して、「A又はB又はCのうちの少なくとも1つ」の形態の、又はさらなる記載された項目を含むフレーズは、関連する記載された項目のうちの1つ又は複数のありとあらゆる組合せを含み得る。
本明細書で使用する際、「ように構成される」という表現は「ように構築される」又は「ように配置される」を意味し得る。
様々な実施例はデータ駆動型のマーカーなしマルチカメラ人間モーション・キャプチャ・システムを提供し得る。そのようなシステムがデータ駆動型であり得るためには、好適で正確なトレーニング・データセットを使用することが重要である。
図1Aは、様々な実施例による、キーポイント検出のためのトレーニング・データセットを生成するための方法100を示すフロー・チャートを示す。先行するステップ102において、複数のマーカーが、それぞれ3D軌跡として光学マーカーベース・モーション・キャプチャ・システムによってキャプチャされる。各マーカーは、人間若しくは動物対象の骨ランドマーク、又は物体のキーポイント上に配置され得る。人間若しくは動物対象又は物体は、2D画像のシーケンスとして時間期間にわたって複数のカラー・ビデオ・カメラによって実質的に同時にキャプチャされる。時間期間は、対象の動きをキャプチャするためにどのくらいの時間が必要とされ得るかに応じて変動し得る。物体は、移動する物体、たとえば、テニス・ラケットなど、使用しているときに追跡され得るスポーツ用品であり得る。方法100は以下のアクティブ・ステップを含む。ステップ104において、各マーカーについて、各2D画像中の2Dロケーションを決定するために、3D軌跡が2D画像の各々に投影される。ステップ106において、各マーカーについて、2D画像のシーケンス中のそれぞれの2Dロケーションと複数のカラー・ビデオ・カメラの露出関係時間とに基づいて、2D画像の各々のための3D位置が補間される。ステップ108において、各2D画像について、複数のマーカーのそれぞれの補間された3D位置と、互いとの解剖学的又は機能的関係を有するマーカーのうちの2つ又はそれ以上から導出された拡張されたボリュームとに基づいて、2Dバウンディング・ボックスが人間若しくは動物対象又は物体の周りに生成される。ステップ110において、トレーニング・データセットが生成され、トレーニング・データセットは、2D画像のシーケンスと、選択された少なくとも1つの2D画像中の各マーカーの決定された2Dロケーションと、選択された少なくとも1つの2D画像のための生成された2Dバウンディング・ボックスとから選択された少なくとも1つの2D画像を含む。たとえば、人間若しくは動物対象の場合、拡張されたボリュームを導出するための2つ又はそれ以上のマーカーは、互いとの解剖学的関係又は機能的関係のうちの少なくとも1つを有し得る。物体の別の例示的なケースでは、拡張されたボリュームを導出するための2つ又はそれ以上のマーカーは互いとの機能的(及び/又は構造的)関係を有し得る。
言い換えれば、方法100は、手作業で注釈を付けられたデータの代わりにマーカー・データから学習することに焦点を当てる。マーカーベース・モーション・キャプチャ・システムから収集されたトレーニング・データを用いると、データ収集の精度及び効率が著しく向上する。位置精度に関して、手作業による注釈付けは、しばしば、関節中心を数センチメートル単位で逃し得るが、マーカー位置精度は数ミリメートルの範囲内である。データ生成効率に関して、たとえば既存の技法において行われる手作業による注釈付けには画像当たり少なくとも20秒かかり得る。一方、方法100は、(手作業によるデータ・クリーンアップ時間を含む)80画像毎秒の平均レートでデータを生成し、注釈を付け得る。これは、有利には、データ収集を数百万画像まで効率的にスケーリングすることを可能にする。より大きいデータセットとともに、より正確なトレーニング・データは、このタスクのためのいかなる並みの機械学習モデルの精度をも向上させる。
様々な実施例では、先行するステップ102において、それぞれ3D軌跡としてキャプチャされた複数のマーカーと、時間期間にわたって2D画像のシーケンスとして実質的に同時にキャプチャされた人間若しくは動物対象又は物体とは、光学マーカーベース・モーション・キャプチャ・システムによって複数のカラー・ビデオ・カメラに通信される同期信号を使用して協調させられ得る。様々な実施例のコンテキストにおいて、「先行するステップ」というフレーズは、このステップが先行する又はあらかじめ行われることを指す。先行するステップは本方法の非アクティブ・ステップであり得る。
方法100は、ステップ104において3D軌跡を投影するステップの前に、マーカーがそれの上に配置された骨ランドマーク又はキーポイントを表すラベルを用いて、キャプチャされた3D軌跡を識別することをさらに含み得る。各マーカーについて、ラベルは、生成されたトレーニング・データセット中で、各マーカーの各決定された2Dロケーションが対応するラベルを含んでいるように、各決定された2Dロケーションとともに伝搬されるように構成され得る。
方法100は、ステップ104において各2D画像中の2Dロケーションを決定するために2D画像の各々に3D軌跡を投影するステップの後に、各2D画像中で及び各マーカーについて、囲まれたエリアを形成するために(その特定の(各)2D画像をキャプチャした)カラー・ビデオ・カメラとマーカーとの間の事前定義されたマージンをもつ距離に応じて、決定された2Dロケーション上で2D半径を描くことと、また、2Dロケーションからマーカー・ブロブ(marker blob)を削除するために、囲まれたエリアに学習ベース・コンテキストアウェア画像インペインティング(inpainting)技法を適用することとをさらに含み得る。たとえば、学習ベース・コンテキストアウェア画像インペインティング技法は敵対的生成ネットワーク(GAN:Generative Adversarial Network)ベース・コンテキストアウェア画像インペインティング技法を含み得る。
様々な実施例では、複数のカラー・ビデオ・カメラ(又はRGBカメラ)は複数のグローバル・シャッター・カメラを含み得る。露出関係時間は、各グローバル・シャッター・カメラを使用して各2D画像をキャプチャするための、露出期間の中間にある、露出時間の中間であり得る。各グローバル・シャッター・カメラは、ワンド(wand)に結合された逆反射マーカーが検出可能な明るいスポットとして知覚されることを容易にするように動作可能な少なくとも1つの可視発光ダイオード(LED:light emitting diode)を含み得る。たとえば、可視LEDは白色LEDを含み得る。
様々な実施例のコンテキストにおいて、「ワンド」という用語は、逆反射マーカーの波状の動きを容易にする、逆反射マーカーがそれに結合可能である、細長い物体を指す。
複数のグローバル・シャッター・カメラは次のように事前較正され得る。ワンドが連続的な波状であり、ターゲット・キャプチャ・ボリューム(又はターゲット・モーション・キャプチャ・ボリューム)をカバーする3D軌跡として光学マーカーベース・モーション・キャプチャ・システムによってキャプチャされた逆反射マーカーと、時間期間の間2D較正画像のシーケンスとして各グローバル・シャッター・カメラによって実質的に同時にキャプチャされた逆反射マーカーとに基づいて、各2D較正画像について、逆反射マーカーの2D較正位置は、明るいピクセルを探索し、明るいピクセルの2Dロケーションを識別するために2D較正画像全体にわたって走査することによって抽出され得る。事前較正におけるキャプチャのための時間期間は、2分よりも短いか、又は軌跡がキャプチャ・ボリュームをカバーするために十分な量であり得る。2Dロケーションを明るいピクセル・クラスタの重心において収束させるために、探索された明るいピクセルの2Dロケーションにおいて反復アルゴリズムが適用され得る。さらに、各2D較正画像中の、互換的に露出期間の中間時間又は中間露出タイミングと呼ばれる、露出時間の中間と、ターゲット・キャプチャ・ボリュームをカバーする3D軌跡とに基づいて、2D較正画像の各々から露出時間の中間において3D較正位置が線形補間され得る。複数の2D較正画像の少なくとも一部のために、複数の2D-3D対応ペアが形成され得る。各2D-3D対応ペアは、複数の2D較正画像の少なくとも一部の各々のための、収束させられた2Dロケーションと、補間された3D較正位置とを含み得る。外因性カメラ・パラメータを決定し、複数のグローバル・シャッター・カメラの内因性カメラ・パラメータを微調整するために、複数の2D-3D対応ペアにカメラ較正関数が適用され得る。
市場における既存のモーション・キャプチャ・システムでは、計算における厄介な問題を低減するので、ほとんど常に、カメラ・システムがグローバル・シャッター・センサー(又はグローバル・シャッター・カメラ)を使用する必要がある。
他の実施例では、複数のカラー・ビデオ・カメラは複数のローリング・シャッター・カメラであり得る。ローリングシャッター・アーティファクトに関係するさらなる誤差が生じ得るので、グローバル・シャッター・カメラをローリングシャッター・カメラと交換することはプラグアンドプレイ・プロセスではない。ローリングシャッター・カメラを方法100において使用される種類のモーション・キャプチャ・システムに適合させるには、ローリングシャッター効果による誤差を最小にするためにカメラのタイミング、同期、及び較正の入念なモデリングが必要である。しかしながら、ローリングシャッター・カメラはグローバル・シャッター・カメラよりもかなり安価であるので、この適合性の利益はシステム・コストの低減である。
これらの他の実施例では、ステップ104における2D画像の各々に3D軌跡を投影するステップは、各ローリング・シャッター・カメラによってキャプチャされた各2D画像について、2D画像の各ピクセル行をキャプチャするために、時間期間にわたって投影された3D軌跡を接続する第1のラインと、露出時間の移動中間を表す第2のラインとの間の交差点から交差時間を決定することと、各ローリング・シャッター・カメラによってキャプチャされた各2D画像について、2D画像のシーケンスから3D補間された軌跡を取得するために、交差時間に基づいて、3D中間位置を補間することと、各マーカーについて、各2D画像中の2Dロケーションを決定するために2D画像の各々に3D補間された軌跡を投影することとをさらに含み得る。複数のローリング・シャッター・カメラを使用するときの露出関係時間は交差時間である。
グローバル・シャッター・カメラを伴う実施例と同様に、ここでの各ローリング・シャッター・カメラは、ワンドに結合された逆反射マーカーが検出可能な明るいスポットとして知覚されることを容易にするように動作可能な少なくとも1つの可視発光ダイオードを含み得る。
複数のローリング・シャッター・カメラは、次のように事前較正され得る。ワンドが連続的な波状であり、ターゲット・キャプチャ・ボリュームをカバーする3D軌跡として光学マーカーベース・モーション・キャプチャ・システムによってキャプチャされた逆反射マーカーと、時間期間の間2D較正画像のシーケンスとして各ローリング・シャッター・カメラによって実質的に同時にキャプチャされた逆反射マーカーとに基づく。各2D較正画像について、逆反射マーカーの2D較正位置は、明るいピクセルを探索し、明るいピクセルの2Dロケーションを識別するために2D較正画像全体にわたって走査することによって抽出され得る。2Dロケーションを明るいピクセル・クラスタの2D重心において収束させるために、探索された明るいピクセルの2Dロケーションにおいて反復アルゴリズムが適用され得る。さらに、複数のローリング・シャッター・カメラからの2D重心の観測時間に基づいて、ターゲット・キャプチャ・ボリュームをカバーする3D軌跡から3D較正位置が補間され得る。各2D較正画像からの各明るいピクセル・クラスタの各2D重心の観測時間は、
+b-e/2+dv、式1
によって計算され、
ここで、Tは2D較正画像のトリガ時間であり、
bはローリング・シャッター・カメラのトリガ読出し間遅延であり、
eはローリング・シャッター・カメラのために設定される露出時間であり、
dはローリング・シャッター・カメラのライン遅延であり、
vは明るいピクセル・クラスタの2D重心のピクセル行である。
複数の2D較正画像の少なくとも一部のために、複数の2D-3D対応ペアが形成され得る。各2D-3D対応ペアは、複数の2D較正画像の少なくとも一部の各々のための収束させられたロケーションと、補間された3D較正位置とを含み得る。外因性カメラ・パラメータを決定し、複数のローリング・シャッター・カメラの内因性カメラ・パラメータを微調整するために、複数の2D-3D対応ペアにカメラ較正機能が適用され得る。
複数のカラー・ビデオ・カメラを事前較正する際、反復アルゴリズムは平均シフト・アルゴリズムであり得る。光学マーカーベース・モーション・キャプチャ・システムによってターゲット・キャプチャ・ボリュームをカバーする3D軌跡としてキャプチャされた逆反射マーカーと、2D較正画像のシーケンスとして実質的に同時にキャプチャされた逆反射マーカーとは、光学マーカーベース・モーション・キャプチャ・システムによって複数のカラー・ビデオ・カメラに通信される同期信号を使用して協調させられ得る。
一般に、モーション・キャプチャ・システムのハードウェア・レイヤでは、ローリング・シャッター・カメラが受ける上部ピクセル行と下部ピクセル行との間の検知遅延の影響を回避するために、カメラがグローバル・シャッター・センサーを使用する必要がある。しかしながら、グローバル・シャッター・カメラの実装は、すべてのピクセルの露出の同時開始及び停止を実行するためにより複雑な電子回路を必要とする。これにより、グローバル・シャッター・カメラは同じ解像度におけるローリング・シャッター・カメラよりもかなり高価になる。人間の動きは、ローリングシャッター効果によって過度にひずむほど十分に速くはないので、誤差を補償するためにローリングシャッター効果の入念なモデリングを伴うローリング・シャッター・カメラを使用することによってシステム・コストを低減することが可能であり得る。このローリングシャッター・モデルは、以下でさらに説明する、カメラ較正から始まり、データ収集、並びに3Dキーポイントの三角測量に至るワークフロー全体に統合され得る。したがって、有利には、カメラの選定におけるさらなるフレキシビリティが得られる。
様々な実施例では、方法100に関して言及されるマーカーは逆反射マーカーを含む。
図1Bは、様々な実施例による、マーカーなし人間若しくは動物対象又はマーカーなし物体上の仮想マーカーの3Dロケーションを予測するための方法120を示すフロー・チャートを示す。先行するステップ122において、マーカーなし人間若しくは動物対象又はマーカーなし物体は2D画像のシーケンスとして複数のカラー・ビデオ・カメラによってキャプチャされる。方法120は以下のアクティブ・ステップを含む。ステップ125において、各カラー・ビデオ・カメラによってキャプチャされた各2D画像について、トレーニングされたニューラル・ネットワークを使用して2Dバウンディング・ボックスが予測される。ステップ124において、各2D画像について、信頼性スコアをもつ複数のヒートマップが、トレーニングされたニューラル・ネットワークによって生成される。各ヒートマップは、マーカーなし人間若しくは動物対象又はマーカーなし物体の仮想マーカーの2Dローカリゼーションのためのものである。様々な実施例のコンテキストにおいて、2Dローカリゼーションは、仮想マーカーの2Dロケーション又は2D位置を識別するプロセスを指し、したがって、各ヒートマップは1つの仮想マーカーに関連付けられる。トレーニングされたニューラル・ネットワークは、少なくとも方法100によって生成されたトレーニング・データセットを使用してトレーニングされ得る。ステップ126において、各ヒートマップについて、最も高い信頼性スコアをもつピクセルが選択又は選定され、選択されたピクセルは仮想マーカーに関連付けられ、それにより仮想マーカーの2Dロケーションが決定される。各ヒートマップについて、信頼性スコアは、予測された2Dバウンディング・ボックス中の異なる2Dロケーション中に関連する仮想マーカーを有する確率を示す。ステップ128において、複数のカラー・ビデオ・カメラによってキャプチャされた2D画像のシーケンスに基づいて、仮想マーカーの3Dロケーションのシーケンスを予測するために、それぞれの決定された2Dロケーションが三角測量される。随意に、ステップ128における三角測量するステップは、三角測量のための重みとしてのそれぞれの信頼性スコアに基づく、仮想マーカーのそれぞれの2Dロケーションの重み付けされた三角測量を含み得る。たとえば、重み付けされた三角測量は、公式(Σ-1(Σ)を使用する仮想マーカーの各予測される3Dロケーションの導出を含み得、ここで、iは1、2、…、Nであり(Nはカラー・ビデオ・カメラの総数である)、wは、三角測量のための重み、又はi番目のカラー・ビデオ・カメラからのi番目の光線の信頼度スコアであり、Cは、i番目の光線に関連するi番目のカラー・ビデオ・カメラの3Dロケーションであり、Uは、i番目の光線に関連する逆投影される方向を表す3D単位ベクトルであり、Iは3×3単位行列であることを所与として

である。
三角測量は、それの投影が2つ又はそれ以上の画像に与えられる、3D空間中のポイントを決定するプロセスである。三角測量は再構成又は交差と呼ばれることもある。
言い換えれば、方法120は関節中心の代わりに仮想マーカー位置を出力する。一般的な生体力学解析ワークフローは3Dマーカー位置から計算を始めるので、方法120が既存のワークフローに適合することを確かめるために、方法120の出力中のマーカー位置(より詳細には、仮想マーカー位置)を保つことが重要である。関節中心の手作業による注釈付けから学習する既存のシステムとは異なり、マーカー位置を予測するための学習により、計算可能な関節位置だけでなく、体節の向きも生成される。これらの体節の向きは、姿勢ごとの関節中心のセットから復元することはできない。たとえば、肩、肘、及び手首がほぼ一直線にあるとき、この腕姿勢の特異性により、上腕及び前腕節の向きを復元することが不可能になる。しかしながら、これらの向きは、肩マーカー、肘マーカー、及び手首マーカーから計算され得る。したがって、機械学習モデルが関節中心位置の代わりにマーカー位置(より詳細には、仮想マーカー位置)を予測することを可能にすることは、より議論が起きやすい適用例では必須である。直接線形変換(DLT:Direct Linear Transformation)は、2つ以上のカメラによって観測される複数の2D位置から3D位置を取得するために三角測量を実行するための確立された方法である。本出願について、各予測される2Dロケーションについてのニューラル・ネットワーク・モデルによって与えられる追加の情報である、信頼性スコア(又は同義で信頼度スコアと呼ばれる)を利用することによって三角測量精度を改善するために、新しい三角測量公式が導出された。(たとえば、1つの画像上の2Dロケーションを表す)各光線について、信頼度スコアはこの新しい三角測量公式中に重みとして含まれ得る。方法120はDLT方法に対して三角測量精度を大きく改善し得る。
様々な実施例では、複数のカラー・ビデオ・カメラは複数のグローバル・シャッター・カメラを含み得る。
他の実施例では、複数のカラー・ビデオ・カメラは複数のローリング・シャッター・カメラであり得る。これらの他の実施例では、方法120は、ステップ128における仮想マーカーの3Dロケーションのシーケンスを予測するためのそれぞれの2Dロケーションを三角測量するステップの前に、2つの連続する2D画像中の決定された2Dロケーションに基づいて各ローリング・シャッター・カメラについての観測時間を決定することをさらに含み得る。観測時間は、式1を使用して計算され得、この場合、Tは、2つの連続する2D画像の各々のトリガ時間を指し、vは、2つの連続する2D画像の各々中の2Dロケーションのピクセル行である。観測時間に基づいて、仮想マーカーの2Dロケーションがトリガ時間において補間される。ステップ128においてそれぞれの2Dロケーションを三角測量するステップは、複数のローリング・シャッター・カメラから導出されたそれぞれの補間された2Dロケーションを三角測量することを含み得る。
一実施例では、複数のカラー・ビデオ・カメラは以下のように外因的に較正され得る。複数のカラー・ビデオ・カメラによって同時にキャプチャされる1つ又は複数のチェッカーボードに基づいて、複数のカラー・ビデオ・カメラの2つごとに、その2つのカラー・ビデオ・カメラ間の相対変換を計算する。複数のカラー・ビデオ・カメラがそれぞれの計算された相対変換を有するとき、すべての存在するカメラが相対変換によってリンクされると、複数のカラー・ビデオ・カメラの外因性カメラ・パラメータを微調整するために最適化アルゴリズムを適用する。より詳細には、最適化アルゴリズムは、Levenberg-Marquardtアルゴリズム、及び2Dチェッカーボード観測と初期相対変換とに適用されているそれのcv2関数である。1つ又は複数のチェッカーボードは一意のマーキングを含み得る。
別の実施例では、複数のカラー・ビデオ・カメラは、代替的に、以下のように外因的に較正され得る。各カラー・ビデオ・カメラは、ワンドに結合された複数の逆反射マーカーが検出可能な明るいスポットとして知覚されることを容易にするように動作可能な少なくとも1つの可視発光ダイオード(LED)を含み得る。ワンドが連続的な波状であり、2D較正画像のシーケンスとして複数のカラー・ビデオ・カメラによってキャプチャされた逆反射マーカーに基づいて、複数のカラー・ビデオ・カメラの外因性カメラ・パラメータを微調整するために、キャプチャされた2D較正画像に最適化関数を適用する。最適化アルゴリズムは、上記で説明したように、Levenberg-Marquardtアルゴリズム、及びそれのcv2関数であり得る。
上記で説明した方法について一連のステップ又はイベントとして例示し、説明したが、そのようなステップ又はイベントのいかなる順序付けも限定的な意味で解釈されるべきでないことが諒解されよう。たとえば、いくつかのステップは、本明細書で例示及び/又は説明した順序とは別に、異なる順序で、及び/又は他のステップ又はイベントと同時に行われ得る。さらに、本明細書で説明する1つ又は複数の態様又は実施例を実装するために、すべての例示されているステップが必要とされ得るとは限らない。また、本明細書で示されているステップのうちの1つ又は複数は1つ又は複数の別個の行為及び/又は段階において実行され得る。
様々な実施例はまた、様々な実施例による方法100及び/又は方法120を実行するように適応されたコンピュータ・プログラムを提供し得る。
様々な実施例は、さらに、コンピュータ上で実行されたときに、コンピュータに様々な実施例による方法100及び/又は方法120を実行させる命令を含む非一時的コンピュータ可読媒体を提供し得る。
様々な実施例は、またさらに、様々な実施例による方法100及び/又は方法120を実行するための手段を備えるデータ処理装置を提供し得る。
図1Cは、様々な実施例による、キーポイント検出のためのトレーニング・データセットを生成するためのシステム140の概略図を示す。システム140は、時間期間にわたって複数のマーカーをキャプチャするように構成された光学マーカーベース・モーション・キャプチャ・システム142と、時間期間にわたって2D画像のシーケンスとして人間若しくは動物対象又は物体をキャプチャするように構成された複数のカラー・ビデオ・カメラ144とを含み得る。各マーカーは、人間若しくは動物対象の骨ランドマーク、又は物体のキーポイント上に配置され得、3D軌跡としてキャプチャされ得る。システム140はまた、点線152、150によって示されているように、複数のカラー・ビデオ・カメラ144によってキャプチャされた2D画像のシーケンスと、光学マーカーベース・モーション・キャプチャ・システム142によってキャプチャされたそれぞれの3D軌跡とを受信するように構成されたコンピュータ146を含み得る。時間期間は、対象又は物体の動きをキャプチャするためにどのくらいの時間が必要とされ得るかに応じて変動し得る。コンピュータ146は、さらに、各マーカーについて、各2D画像中の2Dロケーションを決定するために2D画像の各々に3D軌跡を投影することと、各マーカーについて、2D画像のシーケンス中のそれぞれの2Dロケーションと複数のカラー・ビデオ・カメラ144の露出関係時間とに基づいて、2D画像の各々のための3D位置を補間することと、各2D画像について、複数のマーカーのそれぞれの補間された3D位置と、互いとの解剖学的又は機能的関係を有するマーカーのうちの2つ又はそれ以上から導出された拡張されたボリュームとに基づいて、人間若しくは動物対象又は物体の周りに2Dバウンディング・ボックスを生成することと、2D画像のシーケンスと、選択された少なくとも1つの2D画像中の各マーカーの決定された2Dロケーションと、選択された少なくとも1つの2D画像のための生成された2Dバウンディング・ボックスとから選択された少なくとも1つの2D画像を含むトレーニング・データセットを生成することとを行うように構成され得る。一実施例では、コンピュータ146は、それぞれのデータを記録するために複数のカラー・ビデオ・カメラ144及び光学マーカーベース・モーション・キャプチャ・システム142と通信している同じコンピュータであり得る。異なる実施例では、コンピュータ146は、それぞれのデータを記録するために複数のカラー・ビデオ・カメラ144及び光学マーカーベース・モーション・キャプチャ・システム142と通信しているコンピュータとは別個の処理コンピュータであり得る。
システム140は、光学マーカーベース・モーション・キャプチャ・システム142及び複数のカラー・ビデオ・カメラ144と通信している同期パルス生成器をさらに含み得、同期パルス生成器は、ライン148によって示されているように、複数のカラー・ビデオ・カメラ144によって実質的に同時にキャプチャされるように人間若しくは動物対象又は物体を協調させるために光学マーカーベース・モーション・キャプチャ・システム142からの同期信号を受信するように構成され得る。たとえば、複数のカラー・ビデオ・カメラ144は少なくとも2つのカラー・ビデオ・カメラ、好ましくは8つのカラー・ビデオ・カメラを含み得る。
様々な実施例では、光学モーション・キャプチャ・システム142は複数の赤外線カメラを含み得る。たとえば、異なるビューから対象をキャプチャするために互いから離間して構成された少なくとも2つの赤外線カメラがあり得る。
複数のカラー・ビデオ・カメラ144と複数の赤外線カメラとは、互いから離間して、及び少なくとも人間若しくは動物対象又は物体によって取られる経路に沿って、又は人間若しくは動物対象の又は物体のキャプチャ・ボリュームを少なくとも実質的に囲んで構成される。
3D軌跡は、マーカーがそれの上に配置された骨ランドマーク又はキーポイントを表すラベルを用いて識別可能であり得る。各マーカーについて、ラベルは、生成されたトレーニング・データセット中で、各マーカーの各決定された2Dロケーションが対応するラベルを含んでいるように、各決定された2Dロケーションとともに伝搬されるように構成され得る。
いくつかの例では、コンピュータ146は、さらに、各2D画像中で、囲まれたエリアを形成するために(その特定の(各)2D画像をキャプチャした)カラー・ビデオ・カメラ144とマーカーとの間の事前定義されたマージンをもつ距離に応じて、各マーカーについて決定された2Dロケーション上で2D半径を描き、また、2Dロケーションからマーカー・ブロブを削除するために、囲まれたエリアに学習ベース・コンテキストアウェア画像インペインティング技法を適用するように構成され得る。たとえば、学習ベース・コンテキストアウェア画像インペインティング技法は敵対的生成ネットワーク(GAN)ベース・コンテキストアウェア画像インペインティング技法を含み得る。
様々な実施例では、複数のカラー・ビデオ・カメラ144は複数のグローバル・シャッター・カメラであり得る。
他の実施例では、複数のカラー・ビデオ・カメラ144は複数のローリング・シャッター・カメラであり得る。これらの他の実施例では、コンピュータ146は、さらに、各ローリング・シャッター・カメラによってキャプチャされた各2D画像について、2D画像の各ピクセル行をキャプチャするために、時間期間にわたって投影された3D軌跡を接続する第1のラインと、露出時間の移動中間を表す第2のラインとの間の交差点から交差時間を決定することと、各ローリング・シャッター・カメラによってキャプチャされた各2D画像について、2D画像のシーケンスから3D補間された軌跡を取得するために、交差時間に基づいて、3D中間位置を補間することと、各マーカーについて、各2D画像中の2Dロケーションを決定するために2D画像の各々に3D補間された軌跡を投影することとを行うように構成され得る。
システム140は、方法100の実行を容易にするために使用され得る。したがって、システム140は、図1Aの方法100の要素又は構成要素と同じ又は同様の要素又は構成要素を含み得、したがって、同様の要素は図1Aの方法100のコンテキストにおいて説明したものであり得、したがって、対応する説明はここでは省略され得る。
システム140の例示的なセットアップ200が図2に概略的に示されている。図2に見られるように、複数のカラー(RGB:red-green-blue)ビデオ・カメラ144及び赤外(IR:infrared)カメラ203は、骨ランドマーク又はキーポイント上に配置された逆反射マーカーをもつ対象205の周りに構成される。(図2に示されていない)異なる構成も可能であり得る。対象205が移動すると、逆反射マーカーもキャプチャ・ボリューム中で移動する。同期パルス生成器201は、同期信号211を用いて光学モーション・キャプチャ・システム142と、同期チャネル207を介してカラー・ビデオ・カメラ144と、またコンピュータ146と通信し得る。コンピュータ146とカラー・ビデオ・カメラ144とは、データ・チャネル209を使用して通信し得る。
図1Dは、様々な実施例による、マーカーなし人間若しくは動物対象又はマーカーなし物体上の仮想マーカーの3Dロケーションを予測するためのシステム160の概略図を示す。システム160は、点線168によって示されているように、2D画像のシーケンスとしてマーカーなし人間若しくは動物対象又はマーカーなし物体をキャプチャするように構成された複数のカラー・ビデオ・カメラ164と、複数のカラー・ビデオ・カメラ164によってキャプチャされた2D画像のシーケンスを受信するように構成されたコンピュータ166とを含み得る。コンピュータ166は、さらに、各カラー・ビデオ・カメラ164によってキャプチャされた各2D画像について、トレーニングされたニューラル・ネットワークを使用して2Dバウンディング・ボックスを予測することと、各2D画像について、トレーニングされたニューラル・ネットワークを使用して、信頼性スコアをもつ複数のヒートマップを生成することと、各ヒートマップについて、最も高い信頼性スコアをもつピクセルを選択することと、仮想マーカーの2Dロケーションを決定するために、選択されたピクセルを仮想マーカーに関連付けることと、複数のカラー・ビデオ・カメラ164によってキャプチャされた2D画像のシーケンスに基づいて、仮想マーカーの3Dロケーションのシーケンスを予測するために、それぞれの決定された2Dロケーションを三角測量することとを行うように構成され得る。各ヒートマップはマーカーなし人間若しくは動物対象又はマーカーなし物体の仮想マーカーの2Dローカリゼーションのためのものであり得る。各ヒートマップについて、信頼性スコアは、予測された2Dバウンディング・ボックス中の異なる2Dロケーション中に関連する仮想マーカーを有する確率を示す。トレーニングされたニューラル・ネットワークは、少なくとも方法100によって生成されたトレーニング・データセットを使用してトレーニングされ得る。一実施例では、コンピュータ166は、データを記録するために複数のカラー・ビデオ・カメラ164と通信している同じコンピュータであり得る。異なる実施例では、コンピュータ166は、データを記録するために複数のカラー・ビデオ・カメラ164と通信しているコンピュータとは別個の処理コンピュータであり得る。
随意に、仮想マーカーのそれぞれの2Dロケーションは、三角測量のための重みとしてのそれぞれの信頼性スコアに基づいて三角測量され得る。たとえば、三角測量は、iは1、2、…、Nであり(Nはカラー・ビデオ・カメラの総数である)、wは、三角測量のための重み、又はi番目のカラー・ビデオ・カメラからのi番目の光線の信頼度スコアであり、Cは、i番目の光線に関連するi番目のカラー・ビデオ・カメラの3Dロケーションであり、Uは、i番目の光線に関連する逆投影される方向を表す3D単位ベクトルであり、Iは3×3単位行列であることを所与として

である、公式(Σ-1(Σ)を使用する仮想マーカーの各予測される3Dロケーションの導出を含み得る。
様々な実施例では、複数のカラー・ビデオ・カメラ164は複数のグローバル・シャッター・カメラであり得る。
他の実施例では、複数のカラー・ビデオ・カメラ164は複数のローリング・シャッター・カメラであり得る。これらの他の実施例では、コンピュータ166は、さらに、2つの連続する2D画像中の決定された2Dロケーションに基づいて各ローリング・シャッター・カメラについての観測時間を決定し、観測時間に基づいて、トリガ時間において仮想マーカーの2Dロケーションを補間するように構成され得る。観測時間は、式1を使用して計算され得、ここで、Tは2つの連続する2D画像の各々のトリガ時間であり、vは、2つの連続する2D画像の各々中の2Dロケーションのピクセル行である。複数のローリング・シャッター・カメラから導出されるそれぞれの補間された2Dロケーションは、仮想マーカーの3Dロケーションのシーケンスを予測するために三角測量され得る。
図3に概略的に示されたシステム160の例示的なセットアップ300から見られるように、マーカーなし人間若しくは動物対象(たとえば、患者305)が、矢印315によって示されているように通路又はキャプチャ・ボリューム313に沿って医師の部屋の中に歩いて入るときに、マーカーなし人間若しくは動物対象上の仮想マーカーの3Dロケーションを予測するために、複数のカラー・ビデオ・カメラ164によってキャプチャされた2D画像のシーケンスがシステム160によって処理され得るように、複数のカラー・ビデオ・カメラ164は、互いから離間して、医師の部屋への通路又は(診療所/病院中の廊下の一部であり得る)キャプチャ・ボリューム313の少なくとも一部に沿って動作可能に構成され得る。言い換えれば、患者305が医師に会うために通路又はキャプチャ・ボリューム313を介して医師の部屋の中に歩いて入った後に、システム160は患者305上の仮想マーカーの3Dロケーションを予測しており、これらの3Dロケーションは、患者305の動きを示す(デジタル化された形態の)アニメーションなどの情報を促進するために使用され得る。コンピュータ166は、医師の部屋又は他の場所の、複数のカラー・ビデオ・カメラ164近くに位置し得る。後者の場合、予測された/処理された情報は、医師の部屋に位置する計算デバイス又はディスプレイ・デバイスに、又は処理/表示のためのモバイル・デバイスにリモートで送信され得る。ポイントD、Eは、単に、(図3の左側に見られる)コンピュータ166への(図3の右側に見られる)いくつかのカラー・ビデオ・カメラ164の電気的結合を表す。カラー・ビデオ・カメラ164の他の構成が可能であり得る。たとえば、複数のカラー・ビデオ・カメラ164はすべて通路313の片側に沿って構成され得る。
システム160は、方法120の実行を容易にするために使用され得る。したがって、システム160は、図1Bの方法120の要素又は構成要素と同じ又は同様の要素又は構成要素を含み得、したがって、同様の要素は図1Bの方法120のコンテキストにおいて説明したものであり得、したがって、対応する説明はここでは省略され得る。システム160はまた、図1Cのシステム140の要素又は構成要素と同じ又は同様の要素又は構成要素のうちのいくつかを含み得、したがって、同じ末尾の数字が割り当てられ、同様の要素は図1Cのシステム140のコンテキストにおいて説明したものであり得、したがって、対応する説明はここでは省略され得る。たとえば、様々な実施例のコンテキストにおいて、複数のカラー・ビデオ・カメラ164は図1Cの複数のカラー・ビデオ・カメラ144と同じである。
方法100、120及びシステム140、160の実例について以下でより詳細に説明する。
i.利点及び改善点
様々な実施例による方法100、120及びシステム140、160のいくつかの利点及び改善点は既存の方法/システムに勝ると評価される。
非光学モーション・キャプチャ・システムに対する利点
非光学モーション・キャプチャ・システムは様々な形態であり得る。市場において最も普及している種類のうちの1つは、センサーの向きと位置と軌跡とを概算するために加速度と角速度と環境磁界とを測定するために適する慣性測定ユニット(IMU:inertial measurement unit)を使用する。より良いローカリゼーションのために超広帯域技術も統合され得る。別の既存の追跡技術は、66cmの小さい半径をもつ球形のキャプチャ・ボリューム内でセンサーを追跡するために電磁送信機を使用し得る。そのようなシステム間の1つの共通の欠点は対象の身体上のセンサーが目障りであることである。対象上にセンサーを取り付けることは、対象準備に時間がかかるだけでなく、不自然な動きを引き起こし、及び/又は動きを妨害し得る。本出願において説明するマーカーなしモーション・キャプチャ・システム(たとえば、システム160)を用いると、対象身体上に追加のアイテムは不要であり、これにより、プロセス中の人間の関与/介入が少なくなるので、モーション・キャプチャ・ワークフローがより円滑になる。
商用マーカーベース・システムに対する利点
熟練者による全身モーション・キャプチャのための慎重なマーカー配置には通常少なくとも30分かかる。ワークフローからマーカーが除かれた場合、ワークフローから1人の人間(熟練者)が除かれ得、新しい対象ごとに少なくとも30分が節約され得る。記録の後に、既存のマーカーベース・モーション・キャプチャ・システムは、データがマーカー・ラベル付けとギャップ充填を用いて後処理されるまで、いかなる分析のためにも使用可能でない、ラベルなしマーカーの軌跡のみを与える。このプロセスは、通常、わずか1分の記録時間を処理するために約1人時かかる半自動的な形で行われる。マーカーなしモーション・キャプチャ・システム(たとえば、システム160)を用いると、システム160は本質的にラベルをもつ仮想マーカー位置を出力するので、手作業による後処理ステップはもはや適用可能でない。すべての仮想マーカー処理は完全に自動化されているので、1人時毎分の記録が節約され、約20機械分毎分の記録時間によって置き換えられ、さらにはより高い計算能力を用いると一層速い記録時間と置き換えられ得る。コストの観点から、商用マーカーベース・システムは100,000~500,000シンガポール・ドルの範囲であるが、しかしながら、マーカーなしシステム160中のすべての材料は、ローエンドのマーカーベース・システムの約10%であるわずか約10,000シンガポール・ドルかかり得る。マーカーベース・システムに対してデータ駆動型のマーカーなしシステム(たとえば、システム160)が有する1つの技術的利点は、マークレス・システムが遮蔽を回避する方法である。発明者らが知る限りでは、マーカーベース・システム中で遮蔽を回避するための唯一の方法は、少なくとも2つのカメラが常に1つのマーカーを同時に見ていることを確実にするために、より多くのカメラを追加することである。しかしながら、マーカーなしシステム(たとえば、システム160)は、遮蔽された領域中の仮想マーカーを推論し得、したがって、それは、それほど多くのカメラを必要とせず、マーカー軌跡中にはるかに少ないギャップしか生成しない。その上、マーカーの使用は、不自然な動き、記録中のマーカー落下、又は時々皮膚炎を引き起こし得る。マーカーの使用を除くことは、ただ少なくとも上述のこれらの問題を取り除くだけである。
単一の深度カメラ・システムに対する利点
深度カメラは、カラー値の代わりに各ピクセル中の深度値を与えるカメラである。したがって、ただ1つのカメラが対象の3D表面を片側から見る。この情報は、モーション・キャプチャ目的のための人間の姿勢を推定するために使用され得る。しかしながら、既製の深度カメラの解像度はカラー・カメラと比較して比較的低く、深度値は通常ノイズが多い。これにより、単一の深度カメラからのモーション・キャプチャ結果は遮蔽による特別の問題に伴って比較的正確でなくなる。たとえば、Kinect SDK及びKinect2.0からの手首位置の誤差は、遮蔽なしでも通常3~7cmの範囲である。マーカーなしシステム(たとえば、システム160)は、2cm未満の平均誤差でより正確な結果を生成する。
自由に利用可能なオープンソースの人間追跡ソフトウェアに対する利点
とりわけ、GoogleからのMediaPipe、IntelからのOpenVINO、及びFacebookからのDetectron2など、2D人間キーポイント検出ソフトウェアを無料で共有する多くのオープンソース・プロジェクトがある。これらのプロジェクトはデータ駆動様式でも働くが、それらは、トレーニング・データとしての人間によって注釈を付けられたデータセットに依拠する。手作業による注釈付けに対する、(たとえば、方法100及び/又はシステム140において使用されるような)マーカーベース注釈付けM-BA(marker-based annotation)を使用することの利点を証明するために、以下の表において並びに図4において比較のために予備結果のセットが作成されている。
図4は、異なるツール、すなわちM-BA 402、Thia Markerless 404、FacebookのDetectron2 406、OpenVINO 408及びMediaPipe 410からの12個の関節(たとえば、肩、肘、手首、尻、膝、及び足首)からの全体的な精度プロファイルを示すプロットを示す。図4に記載されているように、方法100、120のための基礎として働くM-BA 402は距離しきい値全体にわたって最も高い精度を生じる。
表1及び図4における結果を得るために、ランダムな行為のリストを実行している、1人の男性テスト対象と1人の女性テスト対象とから(各フレームが8つの視点を含んでいる)50,000個以上のフレームを撮影するための(マーカーなし人間若しくは動物対象160上の仮想マーカーの3Dロケーションを予測するためのシステム、及び複数のカラー・ビデオ・カメラ164と同様のコンテキストにおいて説明する)8カメラ・システム。同時に、(光学マーカーベース・モーション・キャプチャ・システム142と同様のコンテキストにおいて説明する)マーカーベース・モーション・キャプチャ・システム(Qualisys)が、精度比較のためのグランドトゥルース位置を記録するために使用される。本システム(たとえば、160)について、以下のii.技術説明セクションにおいて、データ作成、トレーニング、推論、及び三角測量方法について説明する。この実験において使用されるトレーニング・データは27個の対象からの約216万個の画像を含んでいるが、2つのテスト対象はトレーニング・データ中に含まれない。MediaPipe、OpenVINO、及びDetectron2について、これらのツールから出力された2D関節位置が三角測量され、本システム(たとえば、160)のために実行されるものと同じ様式でマーカーベース・モーション・キャプチャ・システムからの絶対基準測定値と比較される。MediaPipeの場合、MediaPipeは、対象サイズが画像サイズに対して比較的小さいとうまく動作しないので、画像は、2D関節位置の推論の前にグランドトゥルース対象バウンディング・ボックスを用いてクロップされる。実験結果は、本方法(たとえば、120)が、すべての6つの関節においてそれらのオープンソースのツールよりも低い平均誤差を生じることを示す。Detectron2と本方法(たとえば、120)とはまったく同じニューラル・ネットワーク・アーキテクチャを使用することを知っていることが重要である。これは、ここでの焦点は、平均誤差を約28%直接低減するより良いトレーニング・データを設計することにあることを意味する。
商用マーカーなしモーション・キャプチャ・システムに対する利点
比較された1つの既存の商用マーカーなしモーション・キャプチャ・システムはTheia Markerlessである。Theia Markerlessは、2つのカメラ・システム、QualisysのMiqus VideoとソニーのRX0M2とのみからのビデオを厳密にサポートするソフトウェア・システムである。これらの2つのカメラ・システムのためのハードウェア・レイヤは、すでに、ソフトウェア・コストのための追加の28,000シンガポール・ドルとともに(8つのカメラ+コンピュータのために)それぞれ約63,000シンガポール・ドル又は28,000シンガポール・ドルかかる。対照的に、システム160のためのハードウェア・レイヤ全体における材料費は約10,000シンガポール・ドルしかかからない。精度を評価するために、Theia Markerlessに対しても同様のテストを実行した。Theia Markerlessの評価のために使用されたビデオは、高価なMiqus Videoグローバル・シャッター・カメラ・システム(8つのカメラのすべてが複数のカラー・ビデオ・カメラ164と横並びに位置している)によって記録されることに留意されたい。すべての追跡及び三角測量アルゴリズムは、実行可能なソフトウェアにおいて行われ、明らかにされない。Theia Markerlessのために使用されるより高価なハードウェアにもかかわらず、システム160は、評価においてあらゆる関節において性能が上である(表及び図4参照)。Theia Markerlessの1つのマイナス面は関節抽出からのデータ・ギャップである。ソフトウェアが特定のフレーム中の特定の関節について確かでないとき、ソフトウェアはその関節からの答えを与えないことを決定する。ギャップのこの比較的高いパーセンテージ(0.6~2.4%)は後続の分析においてさらなる問題を容易に引き起こし得る。一方、システム160は、様々な実施例によれば、常に結果を予測する。
ii.技術説明
このセクションでは、(システム140、160と同様のコンテキストにおいて説明する)システムを動作させる重要な構成要素、技法、及びアイデアについて説明する。アブレーション研究が行われていないので、各アイデアが最終精度にどのくらい寄与するかは依然として不明瞭である。しかしながら、設計のあらゆる部分についての理由は与えられている。
検知ハードウェア及びカメラ構成
(キーポイント検出のためのトレーニング・データセットを生成するための方法100と同様のコンテキストにおいて説明する)トレーニング・データを収集するために、1つのマーカーベース・モーション・キャプチャ・システム(たとえば、142)と複数のカラー・ビデオ・カメラ(たとえば、144)とが必要とされる。モーション・キャプチャ・システム142は、同期信号を生成することが可能であり、ビデオ・カメラ144は、同期パルスが受信されたときにショットを撮影することが可能である。通常のビデオ・カメラは、通常、モーション・キャプチャ・システムよりもはるかに低いフレーム・レートで動作するので、2つの異なるフレーム・レートにおいて同期を可能にするために、ハードウェア・クロック乗算器及び除算器が使用され得る。
すべてのビデオ・カメラは、地面から約170cm上方に設定され、中央キャプチャ・エリアのほうを向く。トレーニング及びシステム展開中に制御可能であるデータの変動を最小にするために、実質的に同じ高さから撮影されたトレーニング画像を有することが重要である。さらに、170cmは、カメラを取り付けるための枠組みを構築する必要なしに一般的な三脚が達する高さであり得る。
正確な較正又は事前較正をサポートするために、各ビデオ・カメラ(たとえば、144)には、3つの可視(白色)LEDが与えられ得る、図5に示された実例と同様に少なくとも1つのそのようなLED500が装備される。これらのLED500により、可視スペクトル中の光のみを感知する通常のビデオ・カメラは、円形の逆反射マーカーを、撮影された(キャプチャされた)画像上の検出可能な明るいスポットとして見ることが可能になる。マーカーベース・モーション・キャプチャ・システム142が3D空間中のこのマーカーを見、ビデオ・カメラ144が同時に2Dでも画像上のこのマーカーを見るとき、それらは2D-3D対応ペアを形成する。キャプチャ・ボリューム全体にわたるこれらの対応ペアの十分な収集は、正確なカメラ姿勢(外因性パラメータ)を計算し、内因性カメラ・パラメータを微調整するために使用され得る。1つの重要なカメラ設定は露出時間である。露出は、動きぶれを最小にするために十分に短い必要がある。ビデオ記録の間、ターゲット対象は人間である。したがって、露出時間は、2-8秒又は約3.9msになるように選定される。このタイミングにおいて、極めて速い動きの間の人間のシルエットのエッジは依然として鋭い。較正の間、ターゲット物体は、人体よりも速く移動し得る逆反射マーカーである。したがって、露出時間は、2-10秒又は約1msになるように選定される。この露出時間において、キャプチャ環境は著しく暗いが、マーカーからの反射は、検出されるためには依然として十分明るい。ビデオ・カメラ144はグローバル・シャッター・センサー又はローリング・シャッター・センサーを使用し得る。グローバル・シャッターの種類は一般にこの種類の適用例のために使用されるので、ローリングシャッター・カメラは追加のモデリング及び計算を必要とするので、以下の説明では本出願におけるローリングシャッター・カメラの統合により多く焦点を当てる。
ローリングシャッター・カメラ・モデル
このセクションでは、e-con SystemからのFSCAM_CU135カメラのために開発されたローリングシャッター・モデルについて説明する。しかしながら、大部分のローリングシャッター・カメラは同様の様式で動作するので、このモデルは大部分のローリングシャッター・カメラに適用可能であり得る。FSCAMのハードウェア・トリガ・モードにおいて、画像キャプチャをトリガするために立上がりエッジ・パルスが使用される。トリガ・パルスを受信すると、カメラ・センサーは、読出しを開始する前にb秒の遅延を受ける。カメラ・センサーは、次いで、上部から始めてピクセルを行単位で読み取り、最後の行に達するまで行当たりd秒のライン遅延がある。次のフレームのための露出は、前のトリガに対する所定のタイミングに基づいて自動的に開始される。次の画像のための読出しは、次の立上りエッジ・パルスから同じ様式で始まる。トリガ読出し間遅延(b)及びライン遅延(d)はカメラ・モデル及び構成に依存する。1920×1440解像度で動作するFSCAMの場合、b及びdはそれぞれ約5.76×10-4秒及び1.07×10-5秒である。FSCAM_CU135カメラのために開発されたこのローリングシャッター・モデル600は図6に示されている。このモデル600では、同じ行中のすべてのピクセルは常に同時に動作すると仮定する。図6によれば、露出ゾーンの中心線(中間露出ライン)はピクセル行と時間との間の直線関係を表す。これは、特定のビデオ・フレームの特定のピクセル行において物体が観測された場合、その物体をキャプチャする厳密な時間(t)を計算することができることを意味する。
この関係は、式1
t=T+b-e/2+dv、式1
と同様に公式化することができ、
ここで、Tはビデオ・フレーム(i)のトリガ時間であり、
eは露出時間であり、
vはピクセル行である。
図6に見られるように、グレー・エリアは、ピクセル行が光に露光された時間である。画像の第1の行は最上行から始まることに留意されたい。このモデル600は以下のようにして使用される。
トリガ時間における2Dマーカー軌跡の補間:複数のローリングシャッター・カメラが同じ物体(マーカーなど)を観測するとき、物体は、すべてのカメラにわたって同じピクセル行に投影しないので、それらの観測時間は通常一致しない。この時間の不一致は、プロセスが複数のカメラからの観測を必要とするときに大きい誤差を生じる。たとえば、複数のカメラからの2D観測の三角測量は、それらの観測が同じ瞬間からのものであると仮定するが、そうでない場合、特に物体が速く移動しているときに、その三角測量は大きい誤差を与え得る。結果の三角測量中のプロセスを向上させるために、ローリングシャッター・モデルは、すべてのカメラにわたって厳密に同じタイミングで起こる観測が取得され得るように、トリガ時間において、観測されたマーカー又は物体の2D位置を概算するために使用され得る。ローリングシャッター・モデル600からの計算は図7の図式表現700に示されている。図7において、各黒いドットは1つのビデオ・フレーム上の観測ポイントを表す。これらのドットは常にローリングシャッター・モデル600による中間露出ライン上に留まる。1つの特定のフレーム中の各観測について、式1から観測時間(t)について解くために、知られているピクセル行(v)が使用され得る。観測時間が2つの連続するビデオ・フレーム(t及びt)中で知られているときは、中間のトリガの時間における2D位置の線形補間が容易に行われ得る。言い換えれば、トリガ時間(T)における観測された2D軌跡の位置を概算するために、最初に観測行(v及びv)から観測時間(t及びt)が計算される。t及びtを用いて、Tにおける2D位置の補間が行われ得る。補間された値は、それがグローバル・シャッター・カメラからのものであるかのように三角測量において使用される。
2D画像への3Dマーカー軌跡の投影:トレーニング・データ生成において、1つの決定的なステップは、ビデオ・フレームごとに40個の身体マーカーの2Dロケーションを生成することである。カメラがグローバル・シャッター・センサーを使用する場合、観測時間は画像全体について厳密に知られている。その時間は、マーカー軌跡から3D位置を補間し、それをビデオ・カメラに直接投影するために使用され得る。対照的に、ローリングシャッターからの観測時間は、投影が行われるまで知られない投影の結果(行)に依存する。したがって、図8に示された新しい投影方法800が開発される。
最初に、マーカーベースmocapシステム(たとえば、光学モーション・キャプチャ・システム142)からのターゲット3D軌跡がサンプルごとにターゲット・カメラ(たとえば、複数のカラー・ビデオ・カメラ144の各々)に直接投影される。言い換えれば、マーカーベースmocapシステムからの3Dマーカー軌跡がカメラに投影されるとき、それは、各ポイントが1つのサンプルを表している図8に示されているようにプロットされ得る。各サンプルについて、投影はピクセル行(v)を与え、そのサンプルの時間も知られている。マーカーベースmocapシステムのサンプル頻度が比較的より高いので、投影のドットが図8のようなプロットにおいて接続される場合、(式1からの)中間露出ラインと交差するいくつかのライン又は隣接するペアがある。いずれの2つの連続するサンプルも一次方程式(2つのドットを接続するライン)を形成し得るので、この方程式がそれ自体の時間セクション中で式1からのいずれかの中間露出ラインと交差する場合、これらの2つの一次方程式の解は補間の厳密な時間を告げる。この交差時間は、軌跡から3D位置を補間するために使用される。次いで、補間された3D位置は、観測と一致する正確な投影を取得するためにカメラ(又は画像)に投影され得、トレーニングにおいて使用され得る。
ビデオ・カメラ較正
カメラ内因性パラメータの初期化:各ビデオ・カメラについて、カメラ内因性パラメータを概算するために、OpenCVライブラリをもつ標準プロセスが使用される。35mmブロックをもつ10×7チェッカーボードは、30個の異なる画像を撮影するために、カメラの前で30個の異なる姿勢で静止状態に保たれている。次いで、各画像上の2Dチェッカーボードのコーナーを見つけるためにcv2.findChessboardCornersが使用される。次いで、内因性行列とひずみ係数との概算を得るためにcv2.calibrateCameraが使用される。これらの値は較正の次の段階において微調整される。
トレーニング・データ収集のためのカメラ較正:後続の較正からの外因性パラメータ解がマーカーベースmocap参照フレーム中にあるので、この較正、より詳細には、事前較正プロセスでは、マーカーベースmocapシステム(たとえば、光学モーション・キャプチャ・システム142)はすでに較正されていると仮定する。この較正は、キャプチャ・ボリューム全体にわたって先端に1つの逆反射マーカーをもつワンドを約2~3分間波動させることによって行われる。このマーカーは、マーカーベース・モーション・キャプチャ・システムと、白色LEDが付いているビデオ・カメラ(たとえば、複数のカラー・ビデオ・カメラ144)の両方によってキャプチャされる。マーカーベース・モーション・キャプチャ・システムの観点から、それはマーカーの3D軌跡を記録する。ビデオ・カメラの観点から、それは、各画像上の2D位置として抽出され得る、明るいスポットをもつ一連の暗い画像を見る。
この2D位置を抽出するために、アルゴリズムは、ロケーションを明るいピクセル・クラスタの重心において収束させるために、明るいピクセルを探索し、そのロケーションに平均シフト・アルゴリズムを適用するために、画像全体にわたって走査する。
カメラがグローバル・シャッター・センサーを使用する場合、単に、ビデオ・カメラ・フレームの露出間隔の中間の時間を使用して3Dマーカー軌跡からの3D位置を線形補間することによって、2D-3D対応ペアが収集される。次いで、対応ペアのそのセットにcv2.calibrateCamera関数を適用することにより、外因性カメラ・パラメータを与え、また内因性カメラ・パラメータを微調整する。
しかしながら、すべてのピクセル行が同時にはキャプチャされないので、これはローリングシャッター・カメラ上で直接行うことができない。ビデオ・フレーム上の観測された2Dマーカーの時間は、それが見られるピクセルの行に応じて変化する。式1は、2Dマーカー観測の時間を計算するために使用され、この時間は、1つの2D-3D対応的(又は対応)ペアを形成するために3Dマーカー軌跡から3D位置を線形補間するために使用される。次いで、対応ペアのそのセットにcv2.calibrateCamera関数を適用することにより、外因性カメラ・パラメータを与え、また内因性カメラ・パラメータを微調整する。
説明した方法は、カメラ視野中に他の明るい又は反射性のアイテムがない場合にうまく働く。しかしながら、モーション・キャプチャ環境は、通常、多くの光源と、コンピュータ・スクリーンと、反対側のビデオ・カメラからのLEDとを含んでいるので、その仮定はあまり実際的ではない。したがって、これらのノイズを処理するために追加のプロシージャが必要とされる。
たとえば、画像中の明るいピクセルを見つけ、ワンド波動記録中のマーカーを探索する前にあらゆるフレーム中でそれらの明るいピクセルをマスキングするために、ワンド波動ステップの直前に5秒のビデオ記録が行われる。これによりカメラ視野中の静的な明るいエリアが除去されるが、時計又は眼鏡などの移動する光沢のある物体からのダイナミック・ノイズは2D-3D対応プール中に含まれる。2D-3D対応のプールからそれらのダイナミック・ノイズを除去するために、モデル適合から外れ値(outlier)を除くためのランダム・サンプル・コンセンサス(RANSAC:Random Sample Consensus)の発想に基づく方法が開発された。この方法では、大部分がコンセンサスを正しく形成することができるように、ノイズはすべての2D-3D対応ペアのサンプルから5%未満起こると仮定している。
この方法は以下のように説明される。
(a)プールから100個の2D-3D対応ペアをランダムにサンプリングする。
(b)cv2.calibrateCameraを用いてカメラ・パラメータを計算するために、その100個の対応ペアを使用する。
(c)投影と2D観測との間のユークリッド誤差を観測するために、プール中のすべてのペアからのすべての3Dポイントを投影するために、計算されたカメラ・パラメータを使用する。10ピクセル未満の誤差をもつペアは良好なペアとして分類される。
(d)分類の最新ラウンドからのすべての良好なペアは、この場合もcv2.calibrateCameraを用いてカメラ・パラメータを計算するために使用される。
(e)良好なポイントのセットが後続の反復において同じ状態を保つまで、すなわち、モデルが収束するまで、ステップ(c)及びステップ(d)を繰り返す。
最初の100個のサンプルが多数のノイズの多いペアを含んでいる場合、計算されたカメラ・パラメータは不正確になり、プール中の多数の対応ペアと一致しない。この場合、モデルは少数の良好なペアを用いて収束する。
一方、最初の100個のサンプルが有効なペアのみを含んでいる場合、計算されたカメラ・パラメータはかなり正確になり、プール中の多数の有効なペアと一致する。この場合、良好なペアの数は、すべての有効なポイントをカバーするように拡大するが、ノイズの多いペアは、それらが有効なコンセンサスと一致しないとして除外されたままになる。
後者のケースを実現させるために、プロセス(a)~(e)は、最大数の良好なペアをもつ最終モデルを選択するために200回繰り返される。評価により、ノイズ除去のこの方法は、データ収集のために理想的であるサブピクセル・レベルまで平均投影誤差を低減し得る。
システム展開のための外因性カメラ較正:システム(たとえば、システム160)の実際の展開では、カメラ較正のための2D-3D対応を収集するためにマーカー軌跡の3D情報を与えるためのマーカーベース・モーション・キャプチャ・システムはない。したがって、代替の外因性較正方法が使用され得る。カメラにLEDが装備されていない場合、cv2.StereoCalibrate方法を用いて2つのカメラの間の相対変換を計算するために、チェッカーボードが2つのカメラによって同時にキャプチャされ得る。システム中のすべてのカメラ間の相対変換が知られているとき、それらの外因性パラメータは、最終結果を取得するために、この場合もLevenberg-Marquardt最適化を用いて微調整される。(マーカーなし人間若しくは動物対象120上の仮想マーカーの3Dロケーションを予測するための方法においてカラー・ビデオ・カメラを外因的に較正することと同様のコンテキストにおいて説明する)この較正プロセスを容易にするために、図9においてCharucoボードとして見られるチェッカーボード900中に一意のArucoマーカーを追加することによって、複数のチェッカーボードが同じ環境において使用され得る。これらのCharucoボードは、cv2.aruco.estimatePoseCharucoBoard関数を使用してそれらのボード識別情報を用いて検出され得る。
カメラにLEDが装備されている場合、反射性マーカーをもつワンドとバンドル調整最適化技法とを使用して、より大きいボリュームにおいてより正確であるように較正を拡張することが可能である。
トレーニング・データ収集及び前処理
このセクションは、キーポイント検出のためのトレーニング・データセットを生成するための方法100と同様のコンテキストにおいて説明され得、データセットがトレーニング前にどのように収集され、前処理されるかについて説明する。トレーニング・データ(又はトレーニング・データセット)は、3つの重要な要素、すなわち、ビデオ・カメラからの画像と、各画像上の2Dキーポイントの位置と、ターゲット対象のバウンディング・ボックスとを含んでいる。
マーカーセット:40個のマーカーのセットが、RRISのAbility Dataプロトコル中のマーカーセットから選定される(P.Liangら、「An sian-centric human movement database capturing activities of daily living」、Scientific Data、vol.7、no.1、1~13頁、2020年参照)。すべてのクラスタの配置は複数の対象にわたって一貫しておらず、それらの大きいサイズは後でインペインティング・ステップにおいて困難を生じるので、すべてのクラスタは削除される。頭部上の4つのマーカー(RTEMP、RHEAD、LHEAD、LTEMP)と、胴体上の4つのマーカー(STER、XPRO、C7、T10)と、骨盤上の4つのマーカー(RASIS、LASIS、LPSIS、RPSIS)と、各上肢上の7つのマーカー(ACR、HLE、HME、RSP、USP、CAP、HMC2)と、各下肢上の7つのマーカー(FLE、FME、TAM、FAL、FCC、FMT1、FMT5)とがある。マーカー配置タスクは、骨ランドマークに従って標準化され、最も好ましくは、トレーニングされた人々によって行われる。
ローリングシャッター・カメラのためのマーカー投影:すべての3Dマーカー軌跡は、ローリング・シャッター・カメラ・モデルの下での2D画像への3Dマーカー軌跡の投影を説明する上記セクションにおいて説明した投影方法を用いて、各ビデオ・カメラに投影される。2D投影からの結果はトレーニングのための2Dキーポイントである。たとえば、方法100のステップ104を参照する。
マーカー削除:ビデオ・カメラから撮影された画像は、推論中に学習されたモデルに対して問題を引き起こし得る可視マーカー・ブロブを常に含んでいる。モデルが、キーポイントの予想される位置が常に可視マーカーからのグレー・ブロブに着地するパターンを見るとき、モデルは、このパターンを記憶しており、マーカー自体の位置を特定するために、重要な特徴としてグレー・ブロブを常に探す。この過剰適合は、身体上にもはやマーカーがないときの実際のマーカーなし使用における性能を低下させ得る。したがって、ビデオ・データは、対象上にマーカーがないかのように作成される。敵対的生成ネットワーク(GAN)を使用する画像インペインティング技法は、周囲のコンテキストに気付くことによってターゲット・エリア中のピクセル・カラーを置き換えるので、これは、そのような画像インペインティング技法を使用することによって行われ得る。この場合、マーカーを削除するためにDeepFillv2が使用される。マーカーを削除するために、マーカーによって占有されるピクセルはリストから外される。これは、2D投影を撮影すること(たとえば、方法100のステップ104)と、マーカーのベースと影とをカバーするために何らかの追加のマージンをもつカメラとマーカーとの間の距離に応じて2D半径を描くこととによって自動的に行われ得る。
非対象の削除:複数のビデオ・カメラがすべての方向を向いている状態で、視野中の非対象人間を避けることは困難である。それらの非対象人間はマーカーを装着していないので、非対象人間は、ラベル付けされず、トレーニング・プロセス中に背景として解釈され、それによりモデル中に混乱が生じ得る。したがって、それらの非対象人間は、Detectron2からのデフォルトの人間検出によって自動的に検出され、スムーズ・エッジにより不鮮明になる。
バウンディング・ボックス・フォーミュレーション:トレーニング・プロセスが必要とする1つの重要な情報は、各人間対象の周りの2Dバウンディング・ボックスである。単純な矩形の形態のこの2Dバウンディング・ボックスは、すべての投影されたマーカー位置だけでなく、すべての身体部位の完全なシルエットをもカバーする。したがって、フォーミュレーションは、各マーカーのカバレージが隣接する身体部位をカバーするポイントまで、そのカバレージを異なる量だけ拡大することによって開発される。たとえば、指の上にはマーカーがない、したがって、指が届く可能なボリュームを概算するために、肘マーカー、手首マーカー、及び手マーカーが使用される。次いで、バウンディング・ボックスを概算するために、そのボリュームの表面上のそれらの3Dポイントが各カメラに投影される。たとえば、方法100のステップ108を参照する。
ニューラル・ネットワーク・アーキテクチャ及びトレーニング・フレームワーク
特徴抽出バックボーンとしてフィーチャ・ピラミッド・ネットワーク(FPN:Feature Pyramid Network)をもつMask-RCNNのキーポイント検出バージョンがニューラル・ネットワーク・アーキテクチャとして使用される。ネットワークはDetectron2投影リポジトリ上にPyTorchをすでに実装されているので、(トレーニング・データ収集及び前処理のセクションにおいて上記で説明したように、また方法120のステップ125及び124参照)関節中心からのキーポイントのセットを40個のマーカーのセットに変更し、トレーニング画像がビデオ・ファイルからロードされることを可能にするための改変が行われ得る。メモリ利用における冗長性を低減し、トレーニング・データのサイズをはるかに大きくすることを可能にするために、データ・ローダ・モジュールもすべてのワーク・プロセスにわたって共有メモリを使用するように改変される。
戦略的三角測量
トレーニングが行われた後に、モデルは、マーカーなし対象の画像からすべての40個のマーカーの2Dロケーションを予測することが可能である。たとえば、方法120のステップ126を参照する。対象がカメラ視野によってハーフクロップされるなど、いくつかの特定の状況において、マーカーのうちのいくつかは、信頼性レベルが低すぎるので、ロケーション出力を与えないことがある。ローリングシャッター・カメラの場合、ローリング・シャッター・カメラ・モデルの下でトリガ時間における2Dマーカー軌跡の補間を説明する上記セクションによって説明したように、三角測量のために使用される2Dロケーションは、トリガ時間においてロケーションを取得するための2つの連続するフレーム間の補間された結果である。隣接するフレームのうちの1つからのマーカーが補間のために利用可能でない場合、そのカメラは、そのフレーム中のそのマーカーのために利用不可能であるとして処理されるべきである。
すべての利用可能なカメラから出力される予測がかなり正確である理想的な状況では、すべてのカメラからの結果の三角測量は直接線形変換を用いて行われ得る。1つのカメラからの画像上の1つの2Dロケーションは、カメラ原点からポイントアウトする3D光線によって表され得る。直接線形変換は、すべてのそれらの光線の仮想交差ポイントである3Dポイントを直接計算する。この理想的なケースでは、3Dポイントとあらゆる光線との間の距離は大きくなりそうになく(すなわち、10cm未満)、解は容易に受け入れられ得る。
しかしながら、実際には、少数のカメラにおける予測は間違い得る。時々、たとえば胴が妨害しているので、いくつかのカメラは手首の厳密な位置を見ないことがある。時々、いくつかのカメラは身体の左側と右側との間で混乱し得る。三角測量をより強固にするために、本方法は、コンセンサスと一致しないカメラからの寄与を拒否するものである。
1つの特定のフレーム中の1つのマーカーを三角測量するための方法は以下のように行われ得る。
(a)すべての利用可能なカメラ(ターゲット・マーカーの2Dロケーションを与えることが可能であるカメラ)をリストにする。
(b)3Dロケーションを得るためにすべての利用可能なカメラを三角測量する。三角測量は、一般的に使用されるDLT方法を用いて行われ得る。随意に、各2Dマーカー予測の信頼度スコアが与えられる場合、三角測量方法は、新しい重み付き三角測量に関するセクションにおいて以下で説明する、重み付き三角測量公式(式2参照)を用いて著しく向上し得る。
(c)利用可能なリスト中のカメラの間で、三角測量される3Dポイントとそのカメラからの光線との間の最大距離を与えるカメラを識別する。最大距離が10cm未満である場合、三角測量されたものが受け入れられる。そうでない場合、そのカメラは利用可能なカメラのリストから削除される。
(d)解が受け入れられるまでステップ(b)及びステップ(c)を繰り返す。リスト中のカメラの数が2つを下回る場合、このフレーム中にそのマーカーのための解はない。
この方法を用いると、フレームごとにマーカーごとに実行される三角測量の最大数はちょうどn-1個であり、ここでnはカメラの数である。このn-1個の計算は、2-n-1個の計算を必要とする三角測量のすべての可能な組合せを試みるよりもはるかに速い。
新しい重み付き三角測量
2Dキーポイント・ローカリゼーションを実行するニューラル・ネットワークでは、各2Dロケーション出力に関連する信頼度スコアをも生成することが一般的であり得る。たとえば、Mark-RCNNのキーポイント検出バージョンは、各キーポイントについてバウンディング・ボックスの内側に信頼性のヒートマップを生成する。次いで、ヒートマップ中の最も高い信頼性をもつ2Dロケーションが答えとして選択される。この場合、ピークにおける信頼度スコアは、その2Dキーポイント予測のための関連するスコアである。通常の三角測量において、その信頼度スコアは通常無視される。しかしながら、重み付き三角測量公式は、以下で説明するように、三角測量の精度を向上させるための三角測量の重みとしてのスコアの利用を可能にする。
重み付き三角測量公式:三角測量された3D位置(P)は、
P=(Σ-1(Σ)、式2
として導出され得、ここで、
は、重み、又はi番目のカメラからのi番目の光線の信頼度スコアであり、
は、i番目の光線に関連する3Dカメラ・ロケーションであり、
は、i番目の光線に関連する逆投影される方向を表す3D単位ベクトルであり、
は3×3単位行列であること
を所与として

である。
各逆投影される光線の方向ベクトル(Ui)は、
1)正規化された座標にcv2.undistortPointsIterを使用して2D観測をひずみ解除することと、
2)カメラ参照フレーム中に3D方向ベクトルを形成すること[x_undistorted,y_undistorted,1]と、
3)カメラ方位の現在の推定値を使用して方向をグローバル参照フレームに回転することと、
4)単位ベクトル(Ui)を得るためにベクトルを正規化することと
によって計算される。
この公式は、三角測量されるポイントとすべての光線との間の距離の加重平方和を最小にすることによって導出されるので、予測の信頼性が低いと三角測量における影響がより小さくなり、三角測量されるポイントをより高い予測信頼性をもつ光線に近づけることが可能になり、その結果、全体的精度が改善する。
iii.商用適用例
本発明の潜在顧客は非リアルタイム・マーカーなし人間モーション・キャプチャ・システムを求める人である。潜在顧客は、人間の動きを研究しようとする科学者、人間の動きからアニメーションを作成しようとするアニメーター、又は患者の動きから客観的診断を生成しようとする病院/診療所であり得る。
モーション・キャプチャ・システムを実行するために使用される時間及びマンパワーの低減における利点は、患者が短いモーション・キャプチャを実行し、同じ時間以内に分析結果をもつ医師に会う機会を得ることが可能であるので、臨床医が患者の動きからの客観的診断/分析のためにこの技術を採用する機会を開く。
具体的な実施例を参照しながら本発明を詳細に図示し、説明したが、添付の特許請求の範囲によって定義されている本発明の趣旨及び範囲から逸脱することなく、形態及び詳細の様々な変更がそれの中で行われ得ることが当業者によって理解されるべきである。本発明の範囲は、したがって、添付の特許請求の範囲によって示され、特許請求の範囲の等価物の意味及び範囲内に入るすべての変更は、したがって、包含されるものである。

Claims (40)

  1. キーポイント検出のためのトレーニング・データセットを生成するための方法であって、前記方法は、
    それぞれ3D軌跡として光学マーカーベース・モーション・キャプチャ・システムによってキャプチャされた複数のマーカーであって、各マーカーが、人間若しくは動物対象の骨ランドマーク、又は物体のキーポイント上に配置され、前記人間若しくは動物対象又は前記物体が2D画像のシーケンスとして時間期間にわたって複数のカラー・ビデオ・カメラによって実質的に同時にキャプチャされる、複数のマーカーに基づいて、
    各マーカーについて、各2D画像中の2Dロケーションを決定するために前記2D画像の各々に前記3D軌跡を投影することと、
    各マーカーについて、2D画像の前記シーケンス中の前記それぞれの2Dロケーションと、前記複数のカラー・ビデオ・カメラの露出関係時間とに基づいて、前記2D画像の各々のための3D位置を補間することと、
    各2D画像について、前記複数のマーカーの前記それぞれの補間された3D位置と、互いとの解剖学的又は機能的関係を有する前記マーカーのうちの2つ又はそれ以上から導出された拡張されたボリュームとに基づいて、前記人間若しくは動物対象又は前記物体の周りに2Dバウンディング・ボックスを生成することと、
    2D画像の前記シーケンスと、前記選択された少なくとも1つの2D画像中の各マーカーの前記決定された2Dロケーションと、前記選択された少なくとも1つの2D画像のための前記生成された2Dバウンディング・ボックスとから選択される少なくとも1つの2D画像を含む前記トレーニング・データセットを生成することと
    を含む、方法。
  2. それぞれ前記3D軌跡としてキャプチャされた前記複数のマーカーと、前記時間期間にわたって2D画像の前記シーケンスとして実質的に同時にキャプチャされた前記人間若しくは動物対象又は前記物体とが、前記光学マーカーベース・モーション・キャプチャ・システムによって前記複数のカラー・ビデオ・カメラに通信される同期信号を使用して協調させられる、請求項1に記載の方法。
  3. 前記3D軌跡を投影する前記ステップの前に、前記マーカーがそれの上に配置された、前記骨ランドマーク又はキーポイントを表すラベルをもつ前記キャプチャされた3D軌跡を識別することであって、各マーカーについて、前記ラベルは、前記生成されたトレーニング・データセット中で、各マーカーの各決定された2Dロケーションが対応するラベルを含んでいるように、各決定された2Dロケーションとともに伝搬されるように構成された、前記キャプチャされた3D軌跡を識別することをさらに含む、請求項1又は2に記載の方法。
  4. 各2D画像中の前記2Dロケーションを決定するために前記2D画像の各々に前記3D軌跡を投影する前記ステップの後に、
    各2D画像中で、各マーカーについて、囲まれたエリアを形成するために、前記カラー・ビデオ・カメラと前記マーカーとの間の事前定義されたマージンをもつ距離に応じて前記決定された2Dロケーション上に2D半径を描くことと、前記2Dロケーションからマーカー・ブロブを削除するために、前記囲まれたエリアに学習ベース・コンテキストアウェア画像インペインティング技法を適用することとをさらに含む、請求項1から3までのいずれか一項に記載の方法。
  5. 前記学習ベース・コンテキストアウェア画像インペインティング技法が敵対的生成ネットワークベース・コンテキストアウェア画像インペインティング技法を含む、請求項4に記載の方法。
  6. 前記複数のカラー・ビデオ・カメラが複数のグローバル・シャッター・カメラである、請求項1から5までのいずれか一項に記載の方法。
  7. 前記露出関係時間が、各グローバル・シャッター・カメラを使用して各2D画像をキャプチャするための露出時間の中間である、請求項6に記載の方法。
  8. 各グローバル・シャッター・カメラは、ワンドに結合された逆反射マーカーが検出可能な明るいスポットとして知覚されることを容易にするように動作可能な少なくとも1つの可視発光ダイオードを備え、前記複数のグローバル・シャッター・カメラは、
    前記ワンドが連続的な波状であり、ターゲット・キャプチャ・ボリュームをカバーする3D軌跡として前記光学マーカーベース・モーション・キャプチャ・システムによってキャプチャされた前記逆反射マーカーと、時間期間の間2D較正画像のシーケンスとして各グローバル・シャッター・カメラによって実質的に同時にキャプチャされた前記逆反射マーカーとに基づいて、
    各2D較正画像について、明るいピクセルを探索し、前記明るいピクセルの2Dロケーションを識別するために前記2D較正画像全体にわたって走査することによって前記逆反射マーカーの2D較正位置を抽出することと、前記2Dロケーションを明るいピクセル・クラスタの重心において収束させるために、前記探索された明るいピクセルの前記2Dロケーションにおいて反復アルゴリズムを適用することと、
    各2D較正画像中の露出時間の前記中間と前記3D軌跡とに基づいて、前記2D較正画像の各々についての3D較正位置を線形補間することと、
    前記複数の2D較正画像の少なくとも一部のための複数の2D-3D対応ペアを形成することであって、各2D-3D対応ペアが、前記複数の2D較正画像の前記少なくとも一部の各々のための前記収束させられた2Dロケーションと前記補間された3D較正位置とを含む、複数の2D-3D対応ペアを形成することと、
    外因性カメラ・パラメータを決定し、前記複数のグローバル・シャッター・カメラの内因性カメラ・パラメータを微調整するために、前記複数の2D-3D対応ペアにカメラ較正機能を適用することと
    によって事前較正される、請求項7に記載の方法。
  9. 前記複数のカラー・ビデオ・カメラが複数のローリング・シャッター・カメラであり、前記2D画像の各々に前記3D軌跡を投影する前記ステップが、
    各ローリング・シャッター・カメラによってキャプチャされた各2D画像について、前記2D画像の各ピクセル行をキャプチャするために、前記時間期間にわたって前記投影された3D軌跡を接続する第1のラインと、露出時間の移動中間を表す第2のラインとの間の交差点から交差時間を決定することと、
    各ローリング・シャッター・カメラによってキャプチャされた各2D画像について、2D画像の前記シーケンスから3D補間された軌跡を取得するために、前記交差時間に基づいて、3D中間位置を補間することと、
    各マーカーについて、各2D画像中の前記2Dロケーションを決定するために前記2D画像の各々に前記3D補間された軌跡を投影することと
    をさらに含む、請求項1から5までのいずれか一項に記載の方法。
  10. 前記露出関係時間が前記交差時間である、請求項9に記載の方法。
  11. 各ローリング・シャッター・カメラは、ワンドに結合された逆反射マーカーが検出可能な明るいスポットとして知覚されることを容易にするように動作可能な少なくとも1つの可視発光ダイオードを備え、前記複数のローリング・シャッター・カメラは、
    前記ワンドが連続的な波状であり、ターゲット・キャプチャ・ボリュームをカバーする3D軌跡として前記光学マーカーベース・モーション・キャプチャ・システムによってキャプチャされた前記逆反射マーカーと、時間期間の間2D較正画像のシーケンスとして各ローリング・シャッター・カメラによって実質的に同時にキャプチャされた前記逆反射マーカーとに基づいて、
    各2D較正画像について、明るいピクセルを探索し、前記明るいピクセルの2Dロケーションを識別するために前記2D較正画像全体にわたって走査することによって前記逆反射マーカーの2D較正位置を抽出することと、前記2Dロケーションを明るいピクセル・クラスタの2D重心において収束させるために、前記探索された明るいピクセルの前記2Dロケーションにおいて反復アルゴリズムを適用することと、
    前記複数のローリング・シャッター・カメラからの前記2D重心の観測時間に基づいて、前記ターゲット・キャプチャ・ボリュームをカバーする前記3D軌跡から3D較正位置を補間することであって、各2D較正画像iからの各明るいピクセル・クラスタの各2D重心の前記観測時間が、
    +b-e/2+dv
    によって計算され、
    ここで、Tはi番目の2D較正画像のトリガ時間であり、
    bは、前記ローリング・シャッター・カメラによって受けるトリガ読出し間遅延であり、
    eは前記ローリング・シャッター・カメラのために設定される露出時間であり、
    dは、前記ローリング・シャッター・カメラによって受けるライン遅延であり、
    vは前記明るいピクセル・クラスタの前記2D重心のピクセル行である、
    3D較正位置を補間することと、
    前記複数の2D較正画像の少なくとも一部のための複数の2D-3D対応ペアを形成することであって、各2D-3D対応ペアが、前記複数の2D較正画像の前記少なくとも一部の各々のための前記収束させられた2Dロケーションと前記補間された3D較正位置とを含む、複数の2D-3D対応ペアを形成することと、
    外因性カメラ・パラメータを決定し、前記複数のローリング・シャッター・カメラの内因性カメラ・パラメータを微調整するために、前記複数の2D-3D対応ペアにカメラ較正機能を適用することと
    によって事前較正される、請求項9又は10に記載の方法。
  12. 前記反復アルゴリズムが平均シフト・アルゴリズムである、請求項8又は11に記載の方法。
  13. 前記ターゲット・キャプチャ・ボリュームをカバーする前記3D軌跡としてキャプチャされた前記逆反射マーカーと、2D較正画像の前記シーケンスとして実質的に同時にキャプチャされた前記逆反射マーカーとが、前記光学マーカーベース・モーション・キャプチャ・システムによって前記複数のカラー・ビデオ・カメラに通信される同期信号を使用して協調させられる、請求項8又は11に記載の方法。
  14. 前記マーカーが逆反射マーカーを含む、請求項1から13までのいずれか一項に記載の方法。
  15. マーカーなし人間若しくは動物対象又はマーカーなし物体上の仮想マーカーの3Dロケーションを予測するための方法であって、前記方法は、
    2D画像のシーケンスとして複数のカラー・ビデオ・カメラによってキャプチャされた前記マーカーなし人間若しくは動物対象又は前記マーカーなし物体に基づいて、
    各カラー・ビデオ・カメラによってキャプチャされた各2D画像について、トレーニングされたニューラル・ネットワークを使用して、2Dバウンディング・ボックスを予測することと、
    各2D画像について、前記トレーニングされたニューラル・ネットワークによって、信頼性スコアをもつ複数のヒートマップを生成することであって、
    各ヒートマップが前記マーカーなし人間若しくは動物対象又は前記マーカーなし物体の仮想マーカーの2Dローカリゼーションのためのものであり、
    前記トレーニングされたニューラル・ネットワークが、少なくとも請求項1から14までのいずれか一項に記載の方法によって生成された前記トレーニング・データセットを使用してトレーニングされる、
    信頼性スコアをもつ複数のヒートマップを生成することと、
    各ヒートマップについて、最も高い信頼性スコアをもつピクセルを選択することと、前記選択されたピクセルを前記仮想マーカーに関連付け、それによって前記仮想マーカーの2Dロケーションを決定することであって、各ヒートマップについて、前記信頼性スコアが、前記予測された2Dバウンディング・ボックス中の異なる2Dロケーション中に関連する仮想マーカーを有する確率を示す、前記仮想マーカーの前記2Dロケーションを決定することと、
    前記複数のカラー・ビデオ・カメラによってキャプチャされた2D画像の前記シーケンスに基づいて、前記仮想マーカーの3Dロケーションのシーケンスを予測するために前記各決定された2Dロケーションを三角測量することと
    を含む、方法。
  16. 三角測量する前記ステップが、三角測量のための重みとしての前記それぞれの信頼性スコアに基づく、前記仮想マーカーの前記それぞれの2Dロケーションの重み付けされた三角測量を含む、請求項15に記載の方法。
  17. 前記重み付けされた三角測量が、公式
    (Σ-1(Σ
    を使用する前記仮想マーカーの各予測される3Dロケーションの導出を含み、
    ここで、
    Nがカラー・ビデオ・カメラの総数であるとして、
    iは1、2、…、Nであり、
    は、前記三角測量のための重み、又はi番目のカラー・ビデオ・カメラからのi番目の光線の信頼性スコアであり、
    は、前記i番目の光線に関連する前記i番目のカラー・ビデオ・カメラの3Dロケーションであり、
    は、前記i番目の光線に関連する逆投影される方向を表す3D単位ベクトルであり、
    は3×3単位行列であること
    を所与として、

    である、請求項16に記載の方法。
  18. 前記複数のカラー・ビデオ・カメラが複数のグローバル・シャッター・カメラである、請求項15から17までのいずれか一項に記載の方法。
  19. 前記複数のカラー・ビデオ・カメラが複数のローリング・シャッター・カメラであり、前記方法は、前記仮想マーカーの3Dロケーションの前記シーケンスを予測するために前記それぞれの2Dロケーションを三角測量する前記ステップの前に、
    2つの連続する2D画像中の前記決定された2Dロケーションに基づいて各ローリング・シャッター・カメラについての観測時間を決定することであって、前記観測時間が、
    +b-e/2+dv
    によって計算され、
    ここで、Tは前記2つの連続する2D画像の各々のトリガ時間であり、
    bは前記ローリング・シャッター・カメラのトリガ読出し間遅延であり、
    eは前記ローリング・シャッター・カメラのために設定される露出時間であり、
    dは前記ローリング・シャッター・カメラのライン遅延であり、
    vは前記2つの連続する2D画像の各々中の前記2Dロケーションのピクセル行である、
    各ローリング・シャッター・カメラについての観測時間を決定することと、
    前記観測時間に基づいて、前記トリガ時間において前記仮想マーカーの2Dロケーションを補間することであって、前記それぞれの2Dロケーションを三角測量する前記ステップが、前記複数のローリング・シャッター・カメラから導出された前記それぞれの補間された2Dロケーションを三角測量することを含む、前記仮想マーカーの2Dロケーションを補間することと
    をさらに含む、請求項15から17までのいずれか一項に記載の方法。
  20. 前記複数のカラー・ビデオ・カメラによって同時にキャプチャされた1つ又は複数のチェッカーボードに基づいて、
    前記複数のカラー・ビデオ・カメラのうちの2つごとに、前記2つのカラー・ビデオ・カメラ間の相対変換を計算することと、
    前記複数のカラー・ビデオ・カメラが前記それぞれの計算された相対変換を有するときに、前記複数のカラー・ビデオ・カメラの外因性カメラ・パラメータを微調整するために最適化関数を適用することと
    によって、前記複数のカラー・ビデオ・カメラを外因的に較正することをさらに含む、請求項15から19までのいずれか一項に記載の方法。
  21. 1つ又は複数のチェックボードが一意のマーキングを含む、請求項20に記載の方法。
  22. 各カラー・ビデオ・カメラが、ワンドに結合された逆反射マーカーが検出可能な明るいスポットとして知覚されることを容易にするように動作可能な少なくとも1つの可視発光ダイオードを備え、前記方法は、
    前記ワンドが連続的な波状であり、2D較正画像のシーケンスとして前記複数のカラー・ビデオ・カメラによってキャプチャされた前記逆反射マーカーに基づいて、
    前記複数のカラー・ビデオ・カメラの外因性カメラ・パラメータを微調整するために前記キャプチャされた2D較正画像に最適化関数を適用すること
    によって、前記複数のカラー・ビデオ・カメラを外因的に較正することをさらに含む、請求項15から19までのいずれか一項に記載の方法。
  23. 請求項1から22までのいずれか一項に記載の方法を実行するように適応されたコンピュータ・プログラム。
  24. コンピュータ上で実行されたときに、前記コンピュータに請求項1から22までのいずれか一項に記載の方法を実行させる命令を含む、非一時的コンピュータ可読媒体。
  25. 請求項1から22までのいずれか一項に記載の方法を実行するための手段を含むデータ処理装置。
  26. キーポイント検出のためのトレーニング・データセットを生成するためのシステムであって、前記システムは、
    時間期間にわたって複数のマーカーをキャプチャするように構成された光学マーカーベース・モーション・キャプチャ・システムであって、各マーカーが、人間若しくは動物対象の骨ランドマーク又は物体のキーポイント上に配置され、3D軌跡としてキャプチャされる、光学マーカーベース・モーション・キャプチャ・システムと、
    2D画像のシーケンスとして前記時間期間にわたって前記人間若しくは動物対象又は前記物体をキャプチャするように構成された複数のカラー・ビデオ・カメラと、
    コンピュータと
    を備え、前記コンピュータが、
    前記複数のカラー・ビデオ・カメラによってキャプチャされた2D画像の前記シーケンスと、前記光学マーカーベース・モーション・キャプチャ・システムによってキャプチャされた前記それぞれの3D軌跡とを受信することと、
    各マーカーについて、各2D画像中の2Dロケーションを決定するために前記2D画像の各々に前記3D軌跡を投影することと、
    各マーカーについて、2D画像の前記シーケンス中の前記それぞれの2Dロケーションと、前記複数のカラー・ビデオ・カメラの露出関係時間とに基づいて、前記2D画像の各々のための3D位置を補間することと、
    各2D画像について、前記複数のマーカーの前記それぞれの補間された3D位置と、互いとの解剖学的関係又は機能的関係を有する前記マーカーのうちの2つ又はそれ以上から導出された拡張されたボリュームとに基づいて、前記人間若しくは動物対象又は前記物体の周りに2Dバウンディング・ボックスを生成することと、
    2D画像の前記シーケンスと、前記選択された少なくとも1つの2D画像中の各マーカーの前記決定された2Dロケーションと、前記選択された少なくとも1つの2D画像のための前記生成された2Dバウンディング・ボックスとから選択される少なくとも1つの2D画像を含む前記トレーニング・データセットを生成することと
    を行うように構成された、システム。
  27. 前記光学マーカーベース・モーション・キャプチャ・システム及び前記複数のカラー・ビデオ・カメラと通信している同期パルス生成器をさらに備え、前記同期パルス生成器が、前記複数のカラー・ビデオ・カメラによって実質的に同時にキャプチャされるように前記人間若しくは動物対象又は前記物体を協調させるために前記光学マーカーベース・モーション・キャプチャ・システムからの同期信号を受信するように構成された、請求項26に記載のシステム。
  28. 前記光学マーカーベース・モーション・キャプチャ・システムが複数の赤外線カメラを備える、請求項26又は27に記載のシステム。
  29. 前記複数のカラー・ビデオ・カメラと前記複数の赤外線カメラとが、互いから離間して、及び少なくとも前記人間若しくは動物対象又は前記物体によって取られるべき経路に沿って、又は前記人間若しくは動物対象又は前記物体のキャプチャ・ボリュームを少なくとも実質的に囲んで構成された、請求項28に記載のシステム。
  30. 前記3D軌跡は、前記マーカーがそれの上に配置された前記骨ランドマーク又はキーポイントを表すラベルを用いて識別可能であり、各マーカーについて、前記ラベルは、前記生成されたトレーニング・データセット中で、各マーカーの各決定された2Dロケーションが対応するラベルを含んでいるように、各決定された2Dロケーションとともに伝搬されるように構成された、請求項26から29までのいずれか一項に記載のシステム。
  31. 前記コンピュータが、さらに、各2D画像中で、囲まれたエリアを形成するために前記カラー・ビデオ・カメラと前記マーカーとの間の事前定義されたマージンをもつ距離に応じて、各マーカーについて前記決定された2Dロケーション上で2D半径を描き、また、前記2Dロケーションからマーカー・ブロブを削除するために、前記囲まれたエリアに学習ベース・コンテキストアウェア画像インペインティング技法を適用するように構成された、請求項26から30までのいずれか一項に記載のシステム。
  32. 前記学習ベース・コンテキストアウェア画像インペインティング技法が敵対的生成ネットワークベース・コンテキストアウェア画像インペインティング技法を含む、請求項31に記載のシステム。
  33. 前記複数のカラー・ビデオ・カメラが複数のグローバル・シャッター・カメラである、請求項26から32までのいずれか一項に記載のシステム。
  34. 前記複数のカラー・ビデオ・カメラが複数のローリング・シャッター・カメラであり、前記コンピュータが、さらに、
    各ローリング・シャッター・カメラによってキャプチャされた各2D画像について、前記2D画像の各ピクセル行をキャプチャするために、前記時間期間にわたって前記投影された3D軌跡を接続する第1のラインと、露出時間の移動中間を表す第2のラインとの間の交差点から交差時間を決定することと、
    各ローリング・シャッター・カメラによってキャプチャされた各2D画像について、2D画像の前記シーケンスから3D補間された軌跡を取得するために、前記交差時間に基づいて、3D中間位置を補間することと、
    各マーカーについて、前記各2D画像中の2Dロケーションを決定するために前記2D画像の各々に前記3D補間された軌跡を投影することと
    を行うように構成された、請求項26から32までのいずれか一項に記載のシステム。
  35. マーカーなし人間若しくは動物対象又はマーカーなし物体上の仮想マーカーの3Dロケーションを予測するためのシステムであって、前記システムは、
    2D画像のシーケンスとして前記マーカーなし人間若しくは動物対象又は前記マーカーなし物体をキャプチャするように構成された複数のカラー・ビデオ・カメラと、
    コンピュータと
    を備え、前記コンピュータが、
    前記複数のカラー・ビデオ・カメラによってキャプチャされた2D画像の前記シーケンスを受信することと、
    各カラー・ビデオ・カメラによってキャプチャされた各2D画像について、トレーニングされたニューラル・ネットワークを使用して、2Dバウンディング・ボックスを予測することと、
    各2D画像について、前記トレーニングされたニューラル・ネットワークを使用して、信頼性スコアをもつ複数のヒートマップを生成することであって、
    各ヒートマップが仮想マーカーの前記マーカーなし人間若しくは動物対象又は前記マーカーなし物体の2Dローカリゼーションのためのものであり、
    前記トレーニングされたニューラル・ネットワークが、少なくとも請求項1から14までのいずれか一項に記載の方法によって生成された前記トレーニング・データセットを使用してトレーニングされる、複数のヒートマップを生成することと、
    各ヒートマップについて、前記最も高い信頼性スコアをもつピクセルを選択することと、前記仮想マーカーの前記2Dロケーションを決定するために前記選択されたピクセルを前記仮想マーカーに関連付けることとであって、各ヒートマップについて、前記信頼性スコアが、前記予測された2Dバウンディング・ボックス中の異なる2Dロケーション中に前記関連する仮想マーカーを有する確率を示す、前記選択されたピクセルを前記仮想マーカーに関連付けることと、
    前記複数のカラー・ビデオ・カメラによってキャプチャされた2D画像の前記シーケンスに基づいて、前記仮想マーカーの3Dロケーションのシーケンスを予測するために前記それぞれの決定された2Dロケーションを三角測量することと
    を行うように構成された、システム。
  36. 前記仮想マーカーの前記それぞれの2Dロケーションが、三角測量のための重みとしての前記それぞれの信頼性スコアに基づいて三角測量されるべきである、請求項35に記載のシステム。
  37. 前記三角測量が、公式
    (Σ-1(Σ
    を使用する前記仮想マーカーの各予測される3Dロケーションの導出を含み、
    ここで、
    Nがカラー・ビデオ・カメラの総数であるとして、
    iは1、2、…、Nであり、
    は、前記三角測量のための重み、又はi番目のカラー・ビデオ・カメラからのi番目の光線の信頼性スコアであり、
    は、前記i番目の光線に関連する前記i番目のカラー・ビデオ・カメラの3Dロケーションであり、
    は、前記i番目の光線に関連する逆投影される方向を表す3D単位ベクトルであり、
    は3×3単位行列であること
    を所与として、

    である、請求項36に記載のシステム。
  38. 前記複数のカラー・ビデオ・カメラが複数のグローバル・シャッター・カメラである、請求項35から37までのいずれか一項に記載のシステム。
  39. 前記複数のカラー・ビデオ・カメラが複数のローリング・シャッター・カメラであり、前記コンピュータが、さらに、
    2つの連続する2D画像中の前記決定された2Dロケーションに基づいて各ローリング・シャッター・カメラについての観測時間を決定することであって、前記観測時間が、
    +b-e/2+dv、
    によって計算され、
    ここで、Tは前記2つの連続する2D画像の各々のトリガ時間であり、
    bは前記ローリング・シャッター・カメラのトリガ読出し間遅延であり、
    eは前記ローリング・シャッター・カメラのために設定される露出時間であり、
    dは前記ローリング・シャッター・カメラのライン遅延であり、
    vは、前記2つの連続する2D画像の各々中の前記2Dロケーションのピクセル行である、
    各ローリング・シャッター・カメラについての観測時間を決定することと、
    前記観測時間に基づいて、前記トリガ時間において前記仮想マーカーの2Dロケーションを補間することであって、前記複数のローリング・シャッター・カメラから導出される前記それぞれの補間された2Dロケーションが、前記仮想マーカーの3Dロケーションのシーケンスを予測するために三角測量されるべきである、前記仮想マーカーの2Dロケーションを補間することと
    を行うように構成された、請求項35から37までのいずれか一項に記載のシステム。
  40. 前記複数のカラー・ビデオ・カメラは、前記マーカーなし人間若しくは動物対象が通路に沿って医師の部屋の中に歩いて入ったときに、前記マーカーなし人間若しくは動物対象上の前記仮想マーカーの前記3Dロケーションを予測するために、前記複数のカラー・ビデオ・カメラによってキャプチャされた2D画像の前記シーケンスが前記システムによって処理されるように、互いから離間して、前記医師の部屋への前記通路の少なくとも一部に沿って動作可能に構成された、請求項35から39までのいずれか一項に記載のシステム。
JP2023577120A 2021-06-14 2022-06-10 キーポイント検出のためのトレーニング・データセットを生成するための方法及びシステム、並びにマーカーなし対象上の仮想マーカーの3dロケーションを予測するための方法及びシステム Pending JP2024525148A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SG10202106342T 2021-06-14
SG10202106342T 2021-06-14
PCT/SG2022/050398 WO2022265575A2 (en) 2021-06-14 2022-06-10 Method and system for generating a training dataset for keypoint detection, and method and system for predicting 3d locations of virtual markers on a marker-less subject

Publications (1)

Publication Number Publication Date
JP2024525148A true JP2024525148A (ja) 2024-07-10

Family

ID=84527674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023577120A Pending JP2024525148A (ja) 2021-06-14 2022-06-10 キーポイント検出のためのトレーニング・データセットを生成するための方法及びシステム、並びにマーカーなし対象上の仮想マーカーの3dロケーションを予測するための方法及びシステム

Country Status (5)

Country Link
US (1) US20240169560A1 (ja)
EP (1) EP4356354A2 (ja)
JP (1) JP2024525148A (ja)
CN (1) CN117836819A (ja)
WO (1) WO2022265575A2 (ja)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096929A (zh) * 2018-01-30 2019-08-06 微软技术许可有限责任公司 基于神经网络的目标检测
US10445930B1 (en) * 2018-05-17 2019-10-15 Southwest Research Institute Markerless motion capture using machine learning and training with biomechanical data
JP7209333B2 (ja) * 2018-09-10 2023-01-20 国立大学法人 東京大学 関節位置の取得方法及び装置、動作の取得方法及び装置
US10936902B1 (en) * 2018-11-27 2021-03-02 Zoox, Inc. Training bounding box selection
CN110020611B (zh) * 2019-03-17 2020-12-08 浙江大学 一种基于三维假设空间聚类的多人动作捕捉方法
JP7427188B2 (ja) * 2019-12-26 2024-02-05 国立大学法人 東京大学 3dポーズ取得方法及び装置
CN111476883B (zh) * 2020-03-30 2023-04-07 清华大学 多视角无标记动物的三维姿态轨迹重建方法及装置
US11475577B2 (en) * 2020-11-01 2022-10-18 Southwest Research Institute Markerless motion capture of animate subject with prediction of future motion
JP7468871B2 (ja) * 2021-03-08 2024-04-16 国立大学法人 東京大学 3d位置取得方法及び装置

Also Published As

Publication number Publication date
WO2022265575A2 (en) 2022-12-22
CN117836819A (zh) 2024-04-05
WO2022265575A3 (en) 2023-03-02
US20240169560A1 (en) 2024-05-23
EP4356354A2 (en) 2024-04-24

Similar Documents

Publication Publication Date Title
US9330307B2 (en) Learning based estimation of hand and finger pose
Hesse et al. Computer vision for medical infant motion analysis: State of the art and rgb-d data set
JP7427188B2 (ja) 3dポーズ取得方法及び装置
Klein et al. Parallel tracking and mapping for small AR workspaces
US9330470B2 (en) Method and system for modeling subjects from a depth map
US9235753B2 (en) Extraction of skeletons from 3D maps
Ye et al. A depth camera motion analysis framework for tele-rehabilitation: Motion capture and person-centric kinematics analysis
CN108926355A (zh) 用于站立对象的x射线系统和方法
Van der Aa et al. Umpm benchmark: A multi-person dataset with synchronized video and motion capture data for evaluation of articulated human motion and interaction
Dimas et al. Intelligent visual localization of wireless capsule endoscopes enhanced by color information
CN106471523B (zh) 使用红外成像的颜色标识
US8712177B2 (en) Motion compensated overlay
JP2021060868A (ja) 情報処理装置、情報処理方法、およびプログラム
JP7318814B2 (ja) データ生成方法、データ生成プログラムおよび情報処理装置
JP7498404B2 (ja) 被写体の3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
CN117238031A (zh) 一种虚拟人的动作捕捉方法与系统
Nguyen et al. Vision-based global localization of points of gaze in sport climbing
JP2024525148A (ja) キーポイント検出のためのトレーニング・データセットを生成するための方法及びシステム、並びにマーカーなし対象上の仮想マーカーの3dロケーションを予測するための方法及びシステム
El-Sallam et al. A low cost 3D markerless system for the reconstruction of athletic techniques
Biasi et al. Garment-based motion capture (GaMoCap): high-density capture of human shape in motion
WO2005125210A1 (en) Methods and apparatus for motion capture
Ahmad et al. 3D reconstruction of gastrointestinal regions using shape-from-focus
Gozlan et al. OpenCapBench: A Benchmark to Bridge Pose Estimation and Biomechanics
Jatesiktat et al. Anatomical-Marker-Driven 3D Markerless Human Motion Capture
JP7499345B2 (ja) 複数の姿勢推定エンジンを用いた手のマーカレス運動捕捉

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240329

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240329