JP2023505987A - 人間関節を用いた無人航空機上のカメラの校正 - Google Patents

人間関節を用いた無人航空機上のカメラの校正 Download PDF

Info

Publication number
JP2023505987A
JP2023505987A JP2022534839A JP2022534839A JP2023505987A JP 2023505987 A JP2023505987 A JP 2023505987A JP 2022534839 A JP2022534839 A JP 2022534839A JP 2022534839 A JP2022534839 A JP 2022534839A JP 2023505987 A JP2023505987 A JP 2023505987A
Authority
JP
Japan
Prior art keywords
camera
anchor
group
human
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022534839A
Other languages
English (en)
Other versions
JP7527546B2 (ja
Inventor
大資 田原
アレクサンダー ベレストフ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JP2023505987A publication Critical patent/JP2023505987A/ja
Application granted granted Critical
Publication of JP7527546B2 publication Critical patent/JP7527546B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • G06T7/85Stereo camera calibration
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64CAEROPLANES; HELICOPTERS
    • B64C39/00Aircraft not otherwise provided for
    • B64C39/04Aircraft not otherwise provided for having multiple fuselages or tail booms
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64UUNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
    • B64U10/00Type of UAV
    • B64U10/10Rotorcrafts
    • B64U10/13Flying platforms
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/246Calibration of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64UUNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
    • B64U2101/00UAVs specially adapted for particular uses or applications
    • B64U2101/30UAVs specially adapted for particular uses or applications for imaging, photography or videography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Mechanical Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Automation & Control Theory (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

無人航空機(UAV)上のカメラを校正するシステム及び方法を提供する。システムは、アンカーカメラの組から人間被写体のアンカー画像の組を受け取り、一群のUAV上の一群のカメラから3次元(3D)空間内の複数の地点からの人間被写体の一群の画像を受け取る。システムは、アンカー画像の組から人間関節の第1の2次元(2D)位置の組を決定し、一群の画像から人間関節の第2の2D位置の組を決定する。システムは、第1の2D位置の組を使用した三角測量に基づいて人間関節の3D位置を3Dキーポイントとして計算し、3Dキーポイントと第2の2D位置との間の2D再投影誤差を決定する。その後、システムは、2D再投影誤差を最小化することによって一群のカメラの各カメラを校正する。【選択図】 図1

Description

〔関連出願との相互参照/引用による組み入れ〕
なし
本開示の様々な実施形態はカメラ校正に関する。具体的には、本開示の様々な実施形態は、無人航空機(UAV)に搭載又は一体化されたカメラを人間関節を使用して校正するシステム及び方法に関する。
カメラ校正には、チェッカーボードパターンなどの様々な2次元パターンが使用される。このようなパターンの使用によるカメラ校正は正確な校正結果をもたらすことができるが、これらの技術には時間がかかるとともに、かなり多くの手動労力が必要になることもある。例えば、このようなカメラ校正技術を適用すると、ポイントマッチング問題(point-matching problem)が生じやすくなる場合もある。
当業者には、説明したシステムと、本出願の残り部分において図面を参照しながら示す本開示のいくつかの態様とを比較することにより、従来の慣習的な手法のさらなる限界及び不利点が明らかになるであろう。
実質的に少なくとも1つの図に関連して図示及び/又は説明し、特許請求の範囲にさらに完全に示すような、無人航空機(UAV)に搭載又は一体化されたカメラを人間関節を使用して校正するシステム及び方法を提供する。
全体を通じて同じ要素を同じ参照符号によって示す添付図面を参照しながら本開示の以下の詳細な説明を検討することにより、本開示のこれらの及びその他の特徴及び利点を理解することができる。
本開示の実施形態による、一群のUAVに搭載又は一体化された一群のカメラを人間関節を使用して校正する例示的なネットワーク環境を示すブロック図である。 本開示の実施形態による、一群のUAVに搭載又は一体化された一群のカメラを校正する例示的なシステムを示すブロック図である。 本開示の実施形態による例示的なUAVを示すブロック図である。 本開示の実施形態による、人間被写体の画像を取得するためのUAVに搭載又は一体化されたカメラ及びアンカーカメラ装置の例示的な実装を説明する図である。 本開示の実施形態による、人間被写体の画像を取得するためのUAVに搭載又は一体化されたカメラ及びアンカーカメラ装置の例示的な実施態様を示す図である。 本開示の実施形態による、人間関節に基づいてUAV上のカメラを校正する例示的な動作を示す図である。 本開示の実施形態による、UAVに搭載又は一体化された一群のカメラを校正する例示的な動作を示すフローチャートである。
無人航空機(UAV)に搭載又は一体化された一群のカメラの人間関節を用いた自動校正のための開示するシステム及び方法では、後述する実装を見出すことができる。本開示の例示的な態様は、3D空間内で特定の既知の位置及び向きに予め校正して固定できるアンカーカメラの組を提供する。さらに、一群のカメラは、一群のUAVの各UAVに搭載又は一体化することができる。一群のカメラは、並進パラメータ及び回転パラメータなどの外部カメラパラメータについて予め校正されていないこともある。アンカーカメラの組及び一群のUAVは、3D空間内で人間被写体を取り囲むことができる。アンカーカメラの組によって取り込まれた人間被写体のアンカー画像の組から、人間関節の第1の2次元(2D)位置の組を決定することができる。さらに、複数の3次元(3D)地点から一群のカメラによって取り込まれた人間被写体の一群の画像から、人間関節の第2の2D位置の組を決定することができる。システムは、決定された第1の2D位置の組の三角測量に基づいて、人間関節の3D位置としての3Dキーポイントを計算し、3Dキーポイントと第2の2D位置の組との間の2D再投影誤差を最小化することによってアンカーカメラの組又はゲージに関して一群のカメラの各々(すなわち、外部及び/又は内部パラメータ)を校正することができる。
人間関節をカメラ校正に使用することで、チェッカーボードなどの2Dパターンを使用する従来の校正方法で典型的に発生するポイントマッチング問題を発生しにくくすることができる。また、人間関節を校正に使用することで、未校正カメラの前にチェッカーボードなどの校正パターンを手動で配置する必要性を排除することもできる。
図1は、本開示の実施形態による、一群のUAVに搭載又は一体化された一群のカメラを人間関節を使用して校正する例示的なネットワーク環境を示すブロック図である。図1にはネットワーク環境100を示す。ネットワーク環境100は、システム102と、システム102に含めることができる機械学習(ML)モデル104とを含むことができる。ネットワーク環境100は、アンカーカメラ装置の組106と、一群のUAV108と、通信ネットワーク110とをさらに含むことができる。例えば、図示のように、アンカーカメラ装置の組106は、第1のアンカーカメラ装置106a及び第2のアンカーカメラ装置106bを含むことができる。同様に、一群のUAV108は、第1のUAV108a及び第2のUAV108bを含むことができ、これらの両方には、第1のUAV108aのための第1のカメラ112a及び第2のUAV108bのための第2のカメラ112bなどのカメラを取り付けることができる。第1のカメラ112a及び第2のカメラ112bは、集合的に一群のカメラ112と呼ぶことができる。システム102は、アンカーカメラ装置の組106及び一群のUAV108に通信ネットワーク110を介して通信可能に結合することができる。
さらに、アンカーカメラ装置の組及び一群のUAV108を配置できる3D環境の一部としての3次元(3D)空間114も示す。3D空間114内には、アンカーカメラ装置の組106及び一群のUAV108によって取り囲まれた人間被写体116も示す。アンカーカメラ装置の組106及び一群のUAV108は、3D空間114内の複数の地点に(例えば、まばらに)配置することができ、人間被写体116の身体の少なくとも前側又は後側をカバーできる複合視野(FoV)を有するマルチスキャナネットワークを集合的に形成することができる。人間被写体116は、他の物体を含むこともできるシーンの前景の一部とすることができ、本開示では簡潔さのためにこれらの物体の詳細及び図については省略する。
なお、図1のアンカーカメラ装置の組106及び一群のUAV108に関連するカメラの位置、向き、配置及び数は一例として示すものにすぎず、本開示を限定するものとして解釈すべきではない。本開示は、その範囲から逸脱することなく、他の位置、向き、配置、並びにこれより多くの又は少ない数のアンカーカメラ装置及びUAVにも適用可能である。
システム102は、一群のUAV108のそれぞれのUAVに搭載又は一体化されたそれぞれのカメラを人間被写体116の人間関節に関連する情報を使用して校正するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。システム102の実装例としては、以下に限定するわけではないが、ビデオ放送システム、拡張現実ベースの装置、ゲーム装置、ビデオ処理装置、ビデオ編集システム、メディア制作システム、コンピュータワークステーション、メインフレームコンピュータ、携帯電話機、スマート家電、ビデオプレーヤ、デジタルカメラ、ビデオカメラ、サーバ、消費者電子(CE)装置、及び/又は画像処理能力を有する他のいずれかのコンピュータ装置を挙げることができる。
MLモデル104は、2D人間関節検出タスクに基づいて訓練できるニューラルネットワークなどの人間関節検出フレームワークに対応することができる。例えば、MLモデル104は、人間被写体116の画像を受け取ってこの画像から各人間関節について一定の信頼度スコアで人間関節を検出する訓練済みニューラルネットワークを含むことができる。MLモデル104は、例えばソフトウェアコンポーネントとして実装されてコードデータベース、ライブラリ、外部スクリプト、或いはシステム102などのコンピュータシステムによるMLアルゴリズムの実行のためのその他のロジック又は命令に依拠することができる電子データを含むことができる。MLモデル104は、システム102などのコンピュータシステムが人間被写体116の画像から人間関節検出を実行することを可能にするように構成されたコード及びルーチンとして実装することができる。これに加えて又はこれに代えて、MLモデル104は、プロセッサ、(例えば、1又は2以上の動作の実行又はその性能の制御を行う)マイクロプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、又は特定用途向け集積回路(ASIC)を含むハードウェアを使用して実装することもできる。他のいくつかの事例では、ハードウェア及びソフトウェアの両方の組み合わせを使用してMLモデル104を実装することができる。
ある実施形態によれば、MLモデル104をニューラルネットワークモデルとすることができる。ニューラルネットワークモデルの例としては、以下に限定するわけではないが、ディープニューラルネットワーク(DNN)、畳み込みニューラルネットワーク(CNN)、再帰型ニューラルネットワーク(RNN)、CNN-再帰型ニューラルネットワーク(CNN-RNN)、R-CNN、Fast R-CNN、Faster R-CNN、人工ニューラルネットワーク(ANN)、(You Only Look Once)YOLOネットワーク、長・短期記憶(LSTM)ネットワークベースのRNN、CNN+ANN、LSTM+ANN、ゲート付き再帰型ユニット(GRU)ベースのRNN、全結合ニューラルネットワーク、Connectionist Temporal Classification(CTC)ベースのRNN、ディープベイズニューラルネットワーク、敵対的生成ネットワーク(GAN)、及び/又はこれらのネットワークの組み合わせなどを挙げることができる。いくつかの実施形態では、ニューラルネットワークモデルが、複数のディープニューラルネットワーク(DNN)のハイブリッドアーキテクチャに基づくことができる。
アンカーカメラ装置の組106の各々は、人間被写体116を含むことができる画像又は複数の画像を取り込むように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。各アンカーカメラ装置は、3D空間114内の一定の位置に固定することができる。例えば、アンカーカメラ装置は、壁又は屋根の所定の位置に固定することができる。アンカーカメラ装置の実装例としては、以下に限定するわけではないが、3D空間114内の予め校正された固定カメラ、3D空間114内の固定姿勢を維持するように構成できる、UAVに搭載又は一体化された予め校正されたカメラ、又は遠隔制御式カメラ移動アセンブリに移動可能に結合できる予め校正されたカメラなどを挙げることができる。
一群のUAV108の各UAVは、(最初は校正されていない)カメラを取り付けることができるUAVを含むことができる。さらに、各UAVは、遠隔システムによって制御することも、又は予めプログラムされたルート又は経路に基づいて自律飛行可能なものとすることもできる。少なくとも1つの実施形態では、各UAVが、3D空間114内で自機を位置合わせして、それぞれのUAVに取り付けられたカメラのFOV領域内に常に人間被写体116が存在するように人間被写体116を追跡する人間追跡法を実装することができる。少なくとも1つの実施形態では、各UAVを、システム102の一部とすることができる中央制御ステーションから人間のパイロットが制御することができる。
ある実施形態によれば、一群のUAV108の各々(例えば、第1のUAV108a及び第2のUAV108b)は、通信ネットワーク110を介してシステム102から制御命令を受け取ることができる。制御命令は、一群のUAV108のうちの1つ又は2つ以上が3D空間114内で移動できる3D位置(X軸、Y軸又はZ軸)又は3D経路を含むことができる。いくつかの実施形態では、このような命令が、3D空間114内の各UAVの3D姿勢に関連することができる傾斜又は配向情報を含むことができる。一群のUAV108は、システム102から受け取られた制御命令に基づいて、自機の傾斜角又は向き、及び垂直配列又は水平配列を制御することができる。UAVの例としては、以下に限定するわけではないが、カメラドローン、カメラ付きスマートプレーン、又は(システム102などによって)予めプログラムされた飛行計画及び/又は自動化システムに基づいて制御できる他の飛行車両を挙げることができる。UAVの例は、フレームタイプ及びモータの数に基づいて、以下に限定するわけではないが、3つのアーム及び1つのモータを有するトライコプター、4つのアーム及び1つのモータを有するクアッドコプター、6つのアーム及び1つのモータを有するヘキサコプター、6つのアーム及び6つのモータを有するY6コプター、8つのアーム及び1つのモータを有するオクトコプター、及び/又は8つのアーム及び8つのモータを有するX8コプターなどを含むことができる。
第1のカメラ112a及び第2のカメラ112bの各々は、人間被写体116を含むことができる1又は複数の画像を取り込むように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。第1のカメラ112a及び第2のカメラ112bの各々は、UAVに搭載又は一体化することができる。第1のカメラ112a及び第2のカメラ112bの例としては、以下に限定するわけではないが、一眼レフカメラ、デジタル一眼レフカメラ、スタジオ又は放送グレードカメラ、高速カメラ、広角カメラ、アクションカメラ、閉回路テレビ(CCTV)カメラ、カムコーダ、デジタルカメラ、カメラ電話、飛行時間カメラ(ToFカメラ)、暗視カメラ、及び/又はその他の画像取り込み装置を挙げることができる。
通信ネットワーク110は、システム102、アンカーカメラ装置の組106及び一群のUAV108が互いに通信できるようにする通信媒体を含むことができる。通信ネットワーク110の例としては、以下に限定するわけではないが、インターネット、クラウドネットワーク、ワイヤレスフィデリティ(Wi-Fi)ネットワーク、パーソナルエリアネットワーク(PAN)、ローカルエリアネットワーク(LAN)、又はメトロポリタンエリアネットワーク(MAN)を挙げることができる。ネットワーク環境100内の様々な装置は、様々な有線及び無線通信プロトコルに従って通信ネットワーク110に接続するように構成することができる。このような有線及び無線通信プロトコルの例としては、以下に限定するわけではないが、伝送制御プロトコル・インターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキスト転送プロトコル(HTTP)、ファイル転送プロトコル(FTP)、Zig Bee、EDGE、IEEE 802.11、ライトフィデリティ(Li-Fi)、802.16、IEEE 802.11s、 IEEE 802.11g、マルチホップ通信、無線アクセスポイント(AP)、装置間通信、セルラー通信プロトコル、及びBluetooth(BT)通信プロトコルなどを挙げることができる。
説明する実施形態では、3D空間114を、人間被写体116の画像を複数の地点から取り込むことができる構築環境(例えば、屋内、屋外又はスタジオ空間)又は自然環境とすることができる。
システム102は、動作時にシステム102のユーザインターフェイスを通じてユーザ(人間被写体116又は別の人間オペレータなど)からユーザ入力を受け取ることができる。ユーザ入力は、一群のUAV108に搭載又は一体化された(第1のカメラ112a及び第2のカメラ112bなどの)各カメラを校正するようにシステム102に命令することができる。
一群のUAV108上のこのようなカメラの校正プロセスを初期化するために、アンカーカメラ装置の組106及び一群のUAV108に搭載又は一体化されたカメラ(第1のカメラ112a及び第2のカメラ112b)から画像を取得することができる。その後、システム102は、アンカーカメラ装置の組106から人間被写体116のアンカー画像の組を受け取ることができる。また、システム102は、一群のUAV108に搭載又は一体化されたカメラから人間被写体116の一群の画像を受け取ることもできる。受け取られる一群の画像は、3D空間114内の複数の地点から取得することができる。例えば、一群の画像のうちの第1の数の画像を第1のカメラ112aが取り込み、残りの数の画像を第2のカメラ112bが取り込むことができる。
システム102は、受け取られたアンカー画像の組の各アンカー画像内の人間被写体116の人間関節の第1の2D位置の組を決定することができる。アンカーカメラ装置の各々は、予め校正して3D空間114内の既知の位置に固定しておくことができるので、アンカーカメラ装置の組106によって取り込まれたアンカー画像の組は、物体のキーポイントの正確な位置(例えば、人間関節の2D位置)を含むことができる。本開示では、人間関節の位置を、3D空間114内の剛直で明確な点(rigid and articulate points)として取り扱うことができる。また、実験結果に基づいて人間関節間の距離を設定することもできる。システム102は、受け取られた一群の画像の各画像内の人間被写体116の人間関節の第2の2D位置の組をさらに決定することができる。ある実施形態では、システム102が、MLモデル104を使用してアンカー画像の組から第1の2D位置の組を決定し、一群の画像から第2の2D位置の組を決定することができる。MLモデル104の実装例としては、以下に限定するわけではないが、Open Pose、Alpha Pose、及びマスク領域-畳み込みニューラルネットワーク(R-CNN)を挙げることができる。
システム102は、決定された人間関節の第1の2D位置の組を使用した(例えば、幾何学的三角測量法を使用した)三角測量に基づいて、3D空間114内の人間関節の3D位置を3Dキーポイントとしてさらに計算することができる。さらに、システム102は、3Dキーポイントと決定された第2の2D位置の組との間の2D再投影誤差を決定することができる。システム102は、決定された2D再投影誤差を最小化することによって一群のUAV108のそれぞれのUAV上の各カメラを校正することができる。例えば、第1のカメラ112aを校正するには、第1のUAV108aに搭載又は一体化された第1のカメラ112aの画像平面上に3Dキーポイントを再投影することができる。その後、各再投影された3Dキーポイントと対応する人間関節の2D位置との間の再投影誤差を決定することができる。再投影誤差を最小化するために、目的関数を定式化して解くことができる。同様に、第2のカメラ112bについても上述した方法を繰り返すことができる。一群のUAV108の各UAV上のカメラは最初に校正されていないことがあるので、カメラの3Dキーポイントベースのカメラ校正の結果、一群のUAV108のそれぞれのUAVに取り付けられた各カメラの外部校正パラメータの値(すなわち、3D姿勢)を推定することができる。
MLモデル104に基づく人間被写体116の人間関節の2D位置の検出は、誤差が少なく手動入力を必要としないことができる。さらに、システム102は、チェッカーボードパターンなどの従来の2Dパターンを使用する従来のカメラ校正技術に基づいて計算できるキーポイントの数と比べて多くの3Dキーポイントを計算することができる。このようなカメラ校正技術は、数多くの3Dキーポイントに対する1又は2以上の統計的手法の使用によって、ポイントミスマッチエラーが存在してもこれが抑制されるため、ポイントミスマッチ問題を発生しにくくすることができる。また、人間関節を校正に使用することで、チェッカーボードなどの校正パターンを手動で配置する必要性を排除することもできる。
図2は、本開示の実施形態による、一群のUAVに搭載又は一体化された一群のカメラを校正する例示的なシステムを示すブロック図である。図2の説明は図1の要素に関連して行う。図2にはシステム102のブロック図200を示す。システム102は、回路202、メモリ204、入力/出力(I/O)装置206、及びネットワークインターフェイス208を含むことができる。回路202は、メモリ204、I/O装置206及びネットワークインターフェイス208に通信可能に結合することができる。また、回路202は、通信ネットワーク110を通じてアンカーカメラ装置の組106、及び一群のUAV108に搭載又は一体化された一群のカメラ112に通信可能に結合することができる。図2に示すように、一群のUAV108は、第1のカメラ112aを有することができる第1のUAV108aと、及び第2のカメラ112bを有することができる第2のUAV108bとを含むことができる。また、図示のアンカーカメラ装置の組106は、第1のアンカーカメラ装置106a及び第2のアンカーカメラ装置106bを含む。
回路202は、メモリ204に記憶された命令を実行するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。実行される命令は、一群のUAV108に搭載又は一体化された(第1のカメラ112a及び第2のカメラ112bなどの)一群のカメラ112の各カメラを校正するための一連の制御動作に対応することができる。回路202は、当業で周知のプロセッサ技術に基づいて実装することができる。回路202の例としては、以下に限定するわけではないが、グラフィックプロセッサユニット(GPU)、コプロセッサ、中央処理装置(CPU)、x86ベースのプロセッサ、縮小命令セットコンピューティング(RISC)プロセッサ、特定用途向け集積回路(ASIC)プロセッサ、複合命令セットコンピューティング(CISC)プロセッサ、及びこれらの組み合わせを挙げることができる。
メモリ204は、回路202が実行できる命令を記憶するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。また、メモリ204は、アンカー画像の組及び人間被写体116の一群の画像を記憶するように構成することができる。メモリ204は、アンカー画像の組から人間関節の第1の2D位置の組を決定し、一群の画像から人間関節の第2の2D位置の組を決定するために使用できるMLモデル104を記憶するようにさらに構成することができる。また、メモリ204は、計算された3DキーポイントのX、Y及びZ座標を記憶することもできる。メモリ204の実装例としては、以下に限定するわけではないが、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、電気的に消去可能なプログラマブルリードオンリーメモリ(EEPROM)、ハードディスクドライブ(HDD)、固体ドライブ(SSD)、CPUキャッシュ、及び/又はセキュアデジタル(SD)カードなどを挙げることができる。
I/O装置206は、ユーザから入力を受け取り、受け取った入力に基づいてユーザに出力を提供するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。I/O装置206は、回路202と通信するように構成できる様々な入力装置及び出力装置を含むことができる。入力装置の例としては、限定するわけではないが、タッチ画面、キーボード及び/又はマウスを挙げることができる。出力装置の例としては、限定するわけではないが、ディスプレイ及びオーディオ装置を挙げることができる。
ネットワークインターフェイス208は、通信ネットワーク110を介してシステム102、アンカーカメラ装置の組106、一群のカメラ112及び一群のUAV108間の通信を確立するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。ネットワークインターフェイス208は、システム102による通信ネットワーク110を介した有線又は無線通信をサポートする様々な既知の技術の使用によって実装することができる。ネットワークインターフェイス208は、以下に限定するわけではないが、アンテナ、無線周波数(RF)トランシーバ、1又は2以上の増幅器、チューナ、1又は2以上の発振器、デジタルシグナルプロセッサ、コーダーデコーダ(CODEC)チップセット、加入者アイデンティティモジュール(SIM)カード、及び/又はローカルバッファを含むことができる。
ネットワークインターフェイス208は、インターネット、イントラネット、及び/又は携帯電話ネットワーク、無線ローカルエリアネットワーク(LAN)及び/又はメトロポリタンエリアネットワーク(MAN)などの無線ネットワークなどのネットワークと無線通信を介して通信することができる。無線通信は、グローバルシステムフォーモバイルコミュニケーションズ(GSM)、拡張データGSM環境(EDGE)、広帯域符号分割多重アクセス(W-CDMA)、ロングタームエボリューション(LTE)、符号分割多重アクセス(CDMA)、時分割多重アクセス(TDMA)、Bluetooth、(IEEE802.11a、IEEE802.11b、IEEE802.11g及び/又はIEEE802.11nなどの)ワイヤレスフィデリティ(WiFi)、ボイスオーバーインターネットプロトコル(VoIP)、ライトフィデリティ(Li-Fi)、Wi-MAX、電子メール、インスタントメッセージング及び/又はショートメッセージサービス(SMS)のためのプロトコルなどの複数の通信標準、プロトコル及び技術のうちのいずれかを使用することができる。
図1で説明したようなシステム102によって実行される機能又は動作は、回路202によって実行することができる。回路202によって実行される動作については、例えば図4、図5及び図6で詳細に説明する。
図3は、本開示の実施形態による例示的なUAVのブロック図である。図3の説明は図1及び図2の要素に関連して行う。図3には、一群のUAV108のうちの1つのUAVとすることができる第1のUAV108aのブロック図300を示す。第1のUAV108aは、回路302、メモリ304、I/O装置306、位置センサ308、推進システム310、及びネットワークインターフェイス312を含むことができる。推進システム310は、モータ314、プロペラ316、電子速度コントローラ(ESC)318、及びバッテリ320を含むことができる。当業者であれば、第1のUAV108aは、本開示の機能及び動作を説明するために本明細書に示すコンポーネント又はシステムに加えて他の好適なコンポーネント又はシステムを含むこともできると理解するであろう。第1のUAV108aの他のコンポーネント又はシステムに関する詳細な説明については、簡潔さのために本開示からは省略する。
第1のUAV108a及びシステム102は、通信ネットワーク110を介して互いに通信可能に結合することができる。第1のカメラ112aは、3D空間114内で6自由度(DOF)などの様々なDOFを有することができるように第1のUAV308aに搭載又は一体化されるように構成することができる。第1のUAV108aのブロック図300に示す回路302、メモリ304、I/O装置306及びネットワークインターフェイス312の機能は、例えば図2で説明した回路202メモリ204、I/O装置206及びネットワークインターフェイス208の機能と同じものであることができる。従って、回路302、メモリ304、I/O装置306及びネットワークインターフェイス312の説明については、簡潔さのために本開示からは省略する。
位置センサ308は、3D空間114内の第1のUAV108aの現在位置を決定するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。少なくとも1つの実施形態では、位置センサ308が、3D空間114内の(ピッチ軸、ロール軸又はヨー軸に沿った)向きを決定することもできる。位置センサ308は、第1のUAV108aの現在の位置及び/又は向きを回路302及び/又はシステム102に伝えることができる。回路302及び/又はシステム102は、伝えられた第1のUAV108aの現在の位置及び/又は向きに基づいて第1のUAV108aの位置及び/又は向きを制御することができる。位置センサ308の例としては、以下に限定するわけではないが、全地球的航法衛星システム(GNSS)受信機、モーションセンサ、チルトセンサ、加速度計、ジャイロセンサ、慣性測定ユニット(IMU)又は感知カメラを挙げることができる。
ある実施形態では、位置センサ308を赤外線(IR)マーカセンサ又はパターンコードスキャナとして実装することができる。IRマーカセンサの場合には、3D空間114内の所定の位置にIR光の光源を取り付けることができる。光源は、周期的点滅で又は連続的にIR光を放出することができ、第1のUAV108aに搭載又は一体化された第1のカメラ112aは、放出されたIR光を1又は2以上のIR画像として追跡して取り込むことができる。その後、回路302は、1又は2以上のIR画像に3D姿勢推定技術(例えば、Pose from Orthography and Scaling with Iteration(POSIT)法)を適用して、IR光の光源に対する第1のUAV108aの位置及び/又は向きを決定することができる。いくつかのシナリオでは、予め決定されたIR光の光源の位置が既知であり、これを第1のUAV108aのメモリ304に記憶することができる。このようなシナリオでは、回路302が、予め決定されたIR光の光源の位置と、決定された第1のUAV108aの位置及び/又は向きとに基づいて、第1のUAV108aの絶対位置及び/又は絶対的な向きを決定することができる。
パターンコードスキャナの場合には、3D空間114内の所定の位置にQRコードマーカ又はバーコードマーカなどのパターンコードマーカを配置することができる。第1のカメラ112aは、パターンコードマーカを追跡してパターンコードマーカの画像を取り込むことができる。メモリ304は、パターンコードマーカの参照画像及びパターンコードマーカの所定の位置を記憶することができる。回路302は、取り込まれた画像を参照画像と比較して、パターンコードマーカに対する第1のUAV108aの位置及び/又は向きを決定することができる。また、回路302は、パターンコードマーカの所定の位置と、決定された第1のUAV108aの位置及び/又は向きとに基づいて、第1のUAV108aの絶対位置及び/又は絶対的な向きを決定することができる。
推進システム310は、3D空間114内の2つの位置間で第1のUAV108aを動かすための揚力及び推力を生成できる機械、電気又は燃料ベースの一連のコンポーネントを含むことができる。推進システム310は、回路302又はシステム102から受け取られた1又は2以上の制御命令に基づいて第1のUAV108aの動きを制御することができる。推進システム310は、モータ314、プロペラ316、ESC318及びバッテリ320をさらに含むことができる。
(回路302などの)回路、(メモリ304などの)メモリ、(I/O装置306などの)I/O装置、(位置センサ308など)の位置センサ、(推進システム310などの)推進システム及び(ネットワークインターフェイス312などの)ネットワークインターフェイスは、一群のUAV108の他のUAVにも含めることができる。ある実施形態では、第1のUAV108aがマスターUAVとして機能することができ、他のUAVが、マスターUAVから1又は2以上の制御命令を受け取ることができるスレーブUAVとして機能することができる。
図4は、本開示の実施形態による、人間被写体の画像を取得するためのUAVに搭載又は一体化されたカメラ及びアンカーカメラ装置の例示的な実装を説明する図である。図4の説明は図1、図2又は図3の要素に関連して行う。図4には、人間被写体116の後面に向くことができる第1のアンカーカメラ402a及び第2のアンカーカメラ402b(集合的にアンカーカメラ402の組と呼ぶ)の配置を示す図400を示す。図400には、第1のUAV406a及び第2のUAV406bにそれぞれ搭載又は一体化された第1のカメラ404a及び第2のカメラ404b(集合的に一群のカメラ404と呼ぶ)の配置も示す。第1のUAV406a及び第2のUAV406bは、集合的に一群のUAV406と呼ぶことができ、人間被写体116の前面に向くことができる。
アンカーカメラ402の組の各々は、1つの位置(例えば、天井、床又は壁又は静止構造などの特定の表面)に固定できる予め校正されたカメラに対応することができる。第1のアンカーカメラ402a及び第2のアンカーカメラ402bは、人間被写体116の第1のアンカー画像及び第2のアンカー画像(集合的にアンカー画像の組と呼ぶ)をそれぞれ取得するように構成することができる。システム102は、アンカー画像の組を取得するために、通信ネットワーク110を介して共有される制御命令に基づいてアンカーカメラの組402を制御することができる。
また、システム102は、一群のUAV406を3D空間114内の複数の地点において動くように制御するとともに、一群のUAV406に搭載又は一体化された一群のカメラ404をこのような地点から人間被写体116の一群の画像を取得するように制御することができる。少なくとも1つの実施形態では、システム102が、一群のカメラ404の各々のFOV領域が人間被写体116の身体の一部を取り込んだ後でここから最低限必要な数の人間関節を検出できるようにこのような地点を選択することができる。アンカーカメラ402の組及び一群のUAV406に搭載又は一体化された一群のカメラ404は、アンカー画像の組及び人間被写体116の一群の画像を取り込むと、これらをそれぞれシステム102に送信することができる。アンカー画像の組及び一群の画像に基づく第1のカメラ404a及び第2のカメラ404bの校正については、例えば図6において詳細に説明する。
図5は、本開示の実施形態による、人間被写体の画像を取得するためのUAVに搭載又は一体化されたカメラ及びアンカーカメラ装置の例示的な実装を示す図である。図5の説明は図1、図2及び図3の要素に関連して行う。図5には、3D空間114内の第1のカメラ502a、第2のカメラ502b及び第3のカメラ502cを示す図500を示す。第1のカメラ502a、第2のカメラ502b及び第3のカメラ502cは、それぞれ第1のUAV504a、第2のUAV504b及び第3のUAV504cに搭載又は一体化することができる。
第1のUAV504aは、3D空間114内で固定姿勢を維持することができる。本明細書では、固定姿勢が、3D空間114内の第1のUAV504aの静止位置及び静止配向(ロール、ヨー、ピッチ)に対応することができる。このような事例では、第1のカメラ502a及び第1のUAV504aのアセンブリを、固定姿勢を保ちながら第1のカメラ502aを使用して人間被写体116のアンカー画像の組を取り込むことができるアンカーカメラ装置として指定することができる。また、第1のカメラ502aは、第1のUAV504aの固定姿勢に関して予め校正することができる。残りのUAV(すなわち、第2のUAV504b及び第3のUAV504c、集合的に一群のUAVと呼ぶ)は、固定姿勢に対して動いて複数の地点から人間被写体116の一群の画像を取得するように制御することができる。
システム102は、第2のUAV504b及び第3のUAV504cの各々を3D空間114内でこのような地点に移動してこのような地点から一群の画像を取り込むように制御することができる。第1のUAV504a又は第1のUAV504a上の第1のカメラ502aは、人間被写体116のアンカー画像の組を取り込むと、これをシステム102に送信することができる。また、一群のカメラ(すなわち、第2のカメラ502b及び第3のカメラ502c)も、人間被写体116の一群の画像をシステム102に送信することができる。第2のカメラ502b及び第3のカメラ502c(集合的に一群のカメラと呼ぶ)の校正は、例えば図6で詳細に説明するようにアンカー画像の組及び一群の画像に基づくことができる。
図6は、本開示の実施形態による、人間関節に基づいてUAV上のカメラを校正する例示的な動作を示す図である。図6の説明は図1、図2、図3、図4又は図5の要素に関連して行う。図6には、第1のUAV406aに搭載又は一体化された第1のカメラ404a、及び第2のUAV406bに搭載又は一体化された第2のカメラ404bを校正する例示的な動作602~610を示す図600を示す。図600に示す例示的な動作は602から開始することができ、図1のシステム102又は図3の回路302などのいずれかのコンピュータシステム、装置又はデバイスによって実行することができる。図600の1又は2以上のブロックに関連する動作については離散ブロックで示しているが、これらは特定の実装に応じてさらなるブロックに分割し、より少ないブロックに結合し、又は削除することもできる。
602において、データ取得を実行することができる。回路202は、データ取得のために、(第1のアンカーカメラ402a及び第2のアンカーカメラ402bを含む)アンカーカメラ402の組を人間被写体116のアンカー画像の組を取り込むように制御することができる。アンカーカメラの組402は、アンカー画像の組を取り込むことができる3D空間114内の特定の位置に固定することができる。また、回路202は、一群のUAV406を3D空間114内の複数の地点において動くように制御することができる。その後、一群のUAV406に搭載又は一体化された一群のカメラ404を、これらの複数の地点から人間被写体116の一群の画像を取得するように制御することができる。図6には、一群のカメラ404のうちの1つのカメラから取得されたアンカー画像602a及び画像602bの例を示す。アンカー画像602a及び画像602bは、いずれも人間被写体116を含む。回路202は、通信ネットワーク110を介して、アンカーカメラの組402からアンカー画像の組を受け取り、一群のUAV406に搭載又は一体化された一群のカメラ404から一群の画像を受け取ることができる。
604において、アンカー画像の組から人間関節の第1の2D位置の組を決定することができる。回路202は、アンカー画像の組(例えば、アンカー画像602a)から人間被写体116の人間関節の第1の2D位置の組を決定するように構成することができる。このような決定のために、回路202は、アンカー画像の組の(アンカー画像602aなどの)各アンカー画像にMLモデル104を適用することができる。MLモデル104は、人間関節検出タスクに基づいて訓練されたニューラルネットワークを含むことができる人間関節検出フレームワークに対応することができる。人間関節の2D位置(すなわち、第1の2D位置の組)は、以下のように与えられる方程式(1)によって表すことができ、
Figure 2023505987000002
(1)
ここで、
Figure 2023505987000003
は、i番目の検出された人間関節の2D位置であり、
Figure 2023505987000004
は、i番目の検出された人間関節の信頼値であり、
Figure 2023505987000005
は、i番目の検出された人間関節のタイプ(例えば、左手首、右ひじ)であり、
Mは、検出された人間関節の総数である。
図示のように、アンカー画像602aは、人間被写体116の後方ビューから取り込むことができる。人間関節位置612a及び612bは、アンカー画像602a内の人間被写体116の頭部及び頸部にそれぞれ対応することができる。さらに、人間関節位置612c、612d及び612eは、アンカー画像602a内の人体被写体116の左肩関節、左肘関節及び左手首関節に対応することができる。人間関節位置612f、612g及び612hは、アンカー画像602a内の人体被写体116の右肩関節、右肘関節及び右手首関節に対応することができる。さらに、人間関節位置612i、612j及び612kは、アンカー画像602a内の人体被写体116の左腰関節、左膝関節及び左足首関節に対応することができ、人間関節位置612l、612m及び612nは、アンカー画像602a内の人体被写体116の右腰関節、右膝関節及び右足首関節に対応することができる。
606において、一群の画像から人間関節の第2の2D位置の組を検出することができる。回路202は、一群の画像(例えば、画像602b)から人間被写体116の人間関節の第2の2D位置の組を検出するように構成することができる。回路202は、第2の2D位置の組を検出するために、一群の画像からの各画像(例えば、画像602b)にMLモデル104を適用することができる。第2の2D位置の組も方程式(1)によって与えることができる。
図示のように、回路202は、画像602bからの人間被写体116の人間関節の第2の2D位置の組を人間関節位置614a~614nとして決定することができる。画像602bは、人間被写体116の前方部分から取り込むことができる。人間関節位置614a及び614bは、画像602b内の人間被写体116の頭部及び頸部に対応することができる。さらに、人間関節位置614c、614d及び614eは、画像602b内の人間被写体116の右肩関節、右肘関節及び右手首関節に対応することができる。人間関節位置614f、614g及び614hは、画像602b内の人体被写体116の左肩関節、左肘関節及び左手首関節に対応することができる。さらに、人間関節位置614i、616j及び614kは、画像602b内の人体被写体116の右腰関節、右膝関節及び右足首関節に対応することができ、人間関節位置614l、614m及び614nは、画像602b内の人体被写体116の左腰関節、左膝関節及び左足首関節に対応することができる。
608において、3Dキーポイント618を計算することができる。回路202は、決定された人間関節の第1の2D位置の組を使用する三角測量に基づいて人間被写体116の人間関節の3D位置を計算することができる。回路202は、3D座標系620に関する計算された人間被写体116の人間関節の3D位置として3Dキーポイント618を指定することができる。3Dキーポイント618の計算については本明細書において説明する。人間関節位置値を2D画像平面から3D実空間に変換するには、単純な透視カメラモデルを採用することができる。このようなシナリオでは、所定の内部カメラパラメータと、3次元における特殊ユークリッド群(すなわち、se(3)パラメータ)とを使用することによって、検出された各人間関節点の(重み及びラベルを有する)透視投影射線(erspective projection-rays)を取得することができる。上記シナリオによる透視カメラモデルは以下のように表すことができ、
Figure 2023505987000006
(2)
ここで、
Figure 2023505987000007
は、3D内のn番目のカメラからのi番目の人間関節の正規化方向ベクトルであり、
Figure 2023505987000008
は、3D内のn番目のカメラ位置である。
回路202は、校正されたカメラ(例えば、第1のアンカーカメラ402a)の既知の又は校正された光学中心を使用することにより、3D線(すなわち、線束(ray))に沿った人間関節の第1の2D位置の組を使用して三角測量を実行することができる。校正された光学中心を通る3D線に沿った特定の人間関節の(第1の2D位置の組からの)2D位置に関連する正規化された3D方向ベクトルを「e」とみなす。「e」は、校正されたカメラからの3D線に沿った特定の人間関節の正規化された3D方向ベクトルを表すことができる。さらに、この校正された光学中心を通る3D線上の3D点を「a」とみなす。本明細書では、3D線上の3D点「a」が、既知の姿勢の内部的に校正されたカメラ(例えば、第1のアンカーカメラ402a)のカメラ位置を表すことができる。3D線と3D点との間の距離は、以下のような方程式(3.1)及び(3.2)によって与えることができ、
Figure 2023505987000009
(3.1)
Figure 2023505987000010
(3.2)
ここで、
θは、正規化された3Dベクトルeと3D線との間の角度を表すことができ、
xは、3Dベクトル「e」に垂線を落とすことができる3D線上の点を表すことができ、
lは、3D点「a」と点「x」との間の距離を表すことができる。
1つの実施形態では、回路202が、(第1のアンカーカメラ402aなどの)アンカーカメラの異なる位置についての人間関節の複数の3D線とそれぞれの複数の正規化された3Dベクトル「en」との重み付き最小二乗を決定することができる。本明細書では、これら複数の3D線の各々が、アンカーカメラの異なる位置を表す複数の3D点「an」のそれぞれの3D点を通過する。重み付き最小二乗は、以下のような方程式(4.1)及び(4.2)で表され、
Figure 2023505987000011
(4.1)
Figure 2023505987000012
(4.2)
ここで、
nは、n番目の3D線の重みを表し、
nは、3D点「an」とn番目の3D線との間の距離を表すことができる。
方程式(4.2)は、3D線に沿った3D点のx軸座標について展開することができる。方程式(4.2)の展開式は、以下のような方程式(5)によって与えられ、
Figure 2023505987000013
(5)
ここで、iは、3D線に沿った3D点のx軸座標のインデックスを表すことができる。
回路202は、方程式(5)に対して偏微分演算を適用して以下のような方程式(6)を得ることができ、
Figure 2023505987000014
(6)
ここで、jは、3D線に沿った3D点のy軸座標のインデックスを表すことができる。静止状態:
Figure 2023505987000015
を仮定すると、以下のような方程式(7.1)及び(7.2)を得ることができる。
Figure 2023505987000016
(7.1)
Figure 2023505987000017
(7.2)
方程式(7.2)から、線形システムAx=Bを得ることができる。線形システムAx=Bのための線形方程式(8.1)、(8.2)が以下のように与えられる。
Figure 2023505987000018
(8.1)
Figure 2023505987000019
(8.2)
回路202は、方程式(8.1)及び(8.2)の線形方程式の解{xi}に基づいて3Dキーポイント618の第1の3Dキーポイントを計算することができる。第1の3Dキーポイントは、人間関節のうちの1つに関連することができる。同様に、回路202は、上述した方法に従って決定された第1の2D位置の組からのそれぞれの2D位置を使用して、残りの人間関節に関連する残りの3Dキーポイントを計算することができる。
610において、一群のUAV406に搭載又は一体化された一群のカメラ404を校正することができる。回路202は、第1のカメラ404a及び第2のカメラ404bの各々の3D姿勢(位置及び向き)を推定することによって第1のカメラ404a及び第2のカメラ404bを校正することができる。複数のカメラ(例えば、第1のカメラ404a及び第2のカメラ404b)のカメラ位置及び向き、6自由度(DoF)を含むカメラ校正のための標的パラメータを推定するために、方程式9のような特殊ユークリッドse(3)のリー代数的なパラメータ化(Special Euclidean se(3) Lie algebraic parameterization)を使用することができ、
Figure 2023505987000020
(9)
ここで、
Nはカメラの総数である。
特殊ユークリッドリー代数se(3)は、6つの要素を有することができる。最初の3つの要素:
Figure 2023505987000021
は、特殊直交リー代数(すなわち、so(3))を表すことができ、後の3つの要素:
Figure 2023505987000022
は、それぞれ3D空間における変換要素T(3)∈R3を表すことができる。実作業では、行列表現を得るために指数写像se(3)→SE(3)を採用することができる。
ある実施形態では、(第1のアンカーカメラ402a、第2のアンカーカメラ402b、第1のカメラ404a及び第2のカメラ404bを含む)複数のカメラの各々の内部校正パラメータの値を予め決定し、又は与えることができる。
ある実施形態では、回路202を、各カメラ(例えば、第1のカメラ404a及び第2のカメラ404b)の3D姿勢を推定するためのグローバルゲージ(global gauge)を設定するように構成することができる。回路202は、グローバルゲージを設定するために、0番目のカメラ(例えば、第1のアンカーカメラ402a)の位置及び向きを所定の3D点及び方向として設定して以下のように表すことができる。
Figure 2023505987000023
(10)
回路202は、0番目のカメラ(例えば、第1のアンカーカメラ402a)と1番目のカメラ(例えば、第2のアンカーカメラ402b)との間の相対的なx-距離を以下のように設定することができる。
Figure 2023505987000024
(11)
回路202は、方程式(10)及び(11)を使用することにより、バンドル調整ベースの技術における「トリビアルゲージ固定(trivial gauge fixing)」を使用して、一群のカメラ404(例えば、第1のカメラ404a及び第2のカメラ404b)を校正するためのグローバルゲージを設定することができる。
回路202は、一群のカメラ404の各カメラの3D姿勢(すなわち、位置(すなわち、並進パラメータ)及び向き(すなわち、回転パラメータ)などの外部カメラパラメータ)の推定によって一群のカメラ404(例えば、第1のカメラ404a及び第2のカメラ404b)を校正するように構成することができる。このようなカメラ校正のために、2D再投影誤差に関する最適化問題を定式化することができる。回路202は、3Dキーポイント618と決定された人間関節の第2の2D位置の組との間の2D再投影誤差を決定することができる。その後、定式化された最適化問題を使用して、決定された2D再投影誤差を最小化することによって校正を実行することができる。
例えば、第1のカメラ404aの校正では、3Dキーポイント618を第1のカメラ404aの画像平面上に再投影することができる。その後、再投影された各3Dキーポイントと対応する人間関節の2D位置との間の再投影誤差を決定することができる。再投影誤差を最小化するために、最適化問題の目的関数を定式化して解くことができる。同様に、第2のカメラ404bについても上述した方法を繰り返すことができる。一群のUAV406の各UAV上のカメラは最初に校正されていないことがあるので、カメラの3Dキーポイントベースのカメラ校正の結果、一群のUAV108のそれぞれのUAVに取り付けられた各カメラの外部校正パラメータの値(すなわち、3D姿勢)を推定することができる。2D再投影誤差は、透視カメラモデルビューに基づいて投影された点と、3D座標系620における点の測定位置との間の幾何学的誤差に対応することができる。2D再投影誤差は、点の作用投影(action projection)(例えば、決定された人間関節の第2の2D位置の組)に対する3Dキーポイントの推定値の近接度を定量化することができる。
例えば、人間関節の3Dキーポイント(目標点)が3D座標系620の座標(X、Y、Z)によって表されると考える。3Dキーポイントは、(一群のカメラ404のうちの1つなどの)カメラの光学中心に関連する画像平面上の2D点として再投影することができる。2D点は、(xp/zp,yp/zp)によって表すことができる。ここで、xp、yp、zpは、それぞれ画像平面上に再投影された3D点の透視投影のx軸、y軸及びz軸座標とすることができる。一群のカメラ404によって取得された一群の画像内の人間関節の第2の2D位置の組から、カメラの画像平面上の人間関節の2D位置を2D点(xd,yd)によって表すことができる。2D点(xp/zp,yp/zp)と2D点(xd,yd)との間の2D再投影誤差δは、以下のような方程式(12)によって表すことができ、
Figure 2023505987000025
(12)
ここで、xp、yp及びzpは以下のような方程式(13)によって与えられ、
Figure 2023505987000026
(13)
ここで、Mは、カメラの内部パラメータを含む4×4のカメラ投影行列である。
上述した一群のカメラ404の校正のための技術は、フレーム毎の校正技術と呼ぶことができる。このようなプロセスは、複数の電子装置、又はコンピュータ装置の複数のプロセッサ上で処理されるように並列化することができる。本開示は、時間蓄積ベースのカメラ校正法などの、一群のカメラ404の校正のための他の技術にも適用可能である。
ある実施形態では、一群のUAV406のうちの少なくとも1つのUAV(例えば、第1のUAV406a)が位置センサを含むことができる。位置センサは、全地球航法衛星システム(GNSS)受信機、慣性測定ユニット(IMU)、感知カメラ、赤外線マーカセンサ又はパターンコードスキャナのうちの1つとすることができる。ある実施形態では、システム102の回路202又は(第1のUAV406aの)回路302を、対応するUAV(例えば、第1のUAV406a)の位置センサから取得された絶対位置情報にさらに基づいて、一群のUAV406の残りのUAV(例えば、第2のUAV406b)に搭載又は一体化された各カメラを校正するように構成することができる。
別の実施形態では、一群のカメラ404の各カメラ(例えば、第1のカメラ404a及び第2のカメラ404b)を、一群のUAV406に搭載又は一体化された一群のカメラ404の内部校正パラメータの値にさらに基づいて校正することができる。このような内部校正パラメータの例としては、以下に限定するわけでないが、視野角(すなわち、カメラに関連する焦点距離及び画面サイズ)、アスペクト比、及び歪みパラメータを挙げることができる。
図7は、本開示の実施形態による、一群のUAVに搭載又は一体化された一群のカメラを校正する例示的な動作を示すフローチャートである。図7にはフローチャート700を示す。フローチャート700の説明は図1、図2、図3、図4、図5及び図6に関連して行う。702~716の方法は、図1のシステム102又は図3の回路302などのいずれかのコンピュータシステムによって実行することができる。フローチャート700の動作は702から開始して704に進むことができる。
704において、アンカーカメラ装置の組106から人間被写体116のアンカー画像の組を受け取ることができる。少なくとも1つの実施形態では、回路202を、アンカーカメラ装置の組106からアンカー画像の組を受け取るように構成することができる。
706において、一群のUAV108に搭載又は一体化された一群のカメラ112から、3D空間114内の複数の地点からの人間被写体116の一群の画像を受け取ることができる。少なくとも1つの実施形態では、回路202を、一群のカメラから一群の画像を受け取るように構成することができる。
708において、受け取られたアンカー画像の組の各アンカー画像内の人間被写体116について人間関節の第1の2D位置の組を決定することができる。少なくとも1つの実施形態では、回路202が、アンカー画像の組の各アンカー画像内の人間被写体116の人間関節の第1の2D位置の組を決定することができる。
710において、受け取られた一群の画像の各画像内の人間被写体116について人間関節の第2の2D位置の組を決定することができる。少なくとも1つの実施形態では、回路202が、一群の画像の各画像内の人間被写体116の人間関節の第2の2D位置の組を決定することができる。
712において、決定された人間関節の第1の2D位置の組を使用する三角測量に基づいて、3D空間(例えば、3D空間114)内の人間関節の3D位置を3Dキーポイントとして計算することができる。少なくとも1つの実施形態では、回路202が、決定された人間関節の第1の2D位置の組を使用することによる三角測量に基づいて、3D空間114内の人間関節の3D位置を3Dキーポイントとして計算することができる。
714において、3Dキーポイントと決定された第2の2D位置の組との間の2D再投影誤差を決定することができる。少なくとも1つの実施形態では、回路202が、3Dキーポイントと決定された第2の2D位置の組との間の2D再投影誤差を決定することができる。
716において、決定された2D再投影誤差を最小化することによって一群のカメラ112の各カメラを校正することができる。少なくとも1つの実施形態では、回路202が、決定された2D再投影誤差を最小化することによって一群のカメラ112の各カメラを校正することができる。制御は終了に進むことができる。
フローチャート700については、704、706、708、710、712、714及び716などの離散的な動作として示しているが、いくつかの実施形態では、開示する実施形態の本質を損なうことなく、特定の実装に応じてこのような離散的動作をさらなる動作にさらに分割し、より少ない動作に結合し、又は削除することもできる。
本開示の様々な実施形態は、1又は2以上の回路を含む機械及び/又はコンピュータによって実行可能な命令セットを記憶した非一時的コンピュータ可読媒体及び/又は記憶媒体、及び/又は非一時的機械可読媒体及び/又は記憶媒体を提供することができる。命令セットは、機械及び/又はコンピュータによって、アンカーカメラ装置の組から人間被写体のアンカー画像の組を受け取ることを含む動作を実行するように実行可能とすることができる。動作は、一群のUAVに搭載又は一体化された一群のカメラから、3次元(3D)空間内の複数の地点からの人間被写体の一群の画像を受け取ることをさらに含む。さらに、動作は、受け取られたアンカー画像の組の各アンカー画像内の人間被写体について人間関節の第1の2次元(2D)位置の組を決定することを含む。動作は、受け取られた一群の画像の各画像内の人間被写体について人間関節の第2の2D位置の組を決定することをさらに含む。動作は、決定された人間関節の第1の2D位置の組を使用した三角測量に基づいて、人間関節の3D位置を3D空間内の3Dキーポイントとして計算することをさらに含む。動作は、3Dキーポイントと決定された第2の2D位置の組との間の2D再投影誤差を決定し、決定された2D再投影誤差を最小化することによって一群のカメラの各カメラを校正することをさらに含む。
本開示のいくつかの実施形態は、UAVに搭載又は一体化されたカメラの校正のためのシステム及び方法において見出すことができる。本開示の様々な実施形態は、(回路202(図2)などの)回路を含むことができる(システム102(図1)などの)システムを提供することができる。回路202は、(アンカーカメラ装置の組106(図1)などの)アンカーカメラ装置の組から人間被写体(例えば、人間被写体116(図1))のアンカー画像の組を受け取るように構成することができる。さらに、回路202は、(一群のUAV108(図1)などの)一群のUAV上の一群のカメラ(例えば、第1のカメラ112a及び第2のカメラ112b(図1))から、3D空間(例えば、3D空間114(図1))内の複数の地点からの人間被写体116の一群の画像を受け取るように構成することができる。回路202は、受け取られたアンカー画像の組の各アンカー画像内の人間被写体116について人間関節の第1の2D位置の組を決定することができる。さらに、回路202は、受け取られた一群の画像の各画像内の人間被写体116について人間関節の第2の2D位置の組を決定することができる。また、回路202は、決定された人間関節の第1の2D位置の組を使用した三角測量に基づいて、3D空間内の人間関節の3D位置を3Dキーポイントとして計算することができる。回路202は、3Dキーポイントと決定された第2の2D位置の組との間の2D再投影誤差を決定することができる。さらに、回路202は、決定された2D再投影誤差を最小化することによって一群のカメラの各カメラ(例えば、第1のカメラ112a及び第2のカメラ112b)を校正することができる。
ある実施形態では、3D空間114が、屋外空間、屋内空間、又はボリュメトリックキャプチャのためのスタジオ環境のうちの1つに関連することができる。回路202は、一群のUAV108を3D空間114内の複数の地点において動くように制御するようさらに構成することができる。回路202は、一群のカメラ(例えば、第1のカメラ112a及び第2のカメラ112b)を複数の地点から人間被写体116の一群の画像を取得するようにさらに制御することができる。ある実施形態では、アンカーカメラ装置の組が、(第1のUAV504a(図5)などの)UAVに搭載又は一体化されて、(第2のUAV504b及び第3のUAV504c(図5)を含むことができる一群のUAVなどの)一群のUAVが固定姿勢に対して動いて一群の画像を取得するように制御されている間に固定姿勢を維持するように構成できる、少なくとも1つのカメラ(例えば、第1のカメラ502a(図5))を含むことができる。
ある実施形態では、アンカーカメラ装置の組が、一群のUAV(例えば、第1のUAV406a及び第2のUAV406bを含む一群のUAV)が一群の画像を取得するように制御されている間に3D空間114内の位置に固定できる少なくとも1つの予め校正された(第1のアンカーカメラ402a(図4)などの)カメラを含むことができる。アンカーカメラ装置の組は、遠隔制御式カメラ移動アセンブリに移動可能に結合された少なくとも1つの予め校正されたカメラを含むことができる。回路202は、3D空間114内のアンカーカメラ装置の組をアンカー画像の組を取得するように制御するようさらに構成することができる。
回路202は、受け取られたアンカー画像の組の各アンカー画像に機械学習(ML)モデル(例えば、MLモデル104(図1))を適用することによって人間関節の第1の2D位置の組を決定するように構成することができる。MLモデル104は、人間関節検出フレームワークとして、2D人間関節検出タスクに基づいて訓練されたニューラルネットワークを含むことができる。回路202は、受け取られた一群の画像の各画像にMLモデル104を適用することによって人間関節の第2の2D位置の組を決定するようにさらに構成することができる。
ある実施形態では、各UAV(例えば、第1のUAV406a及び第2のUAV406b)の校正が、対応するカメラ(例えば、第1のカメラ404a及び第2のカメラ404b)の3D姿勢の推定に対応することができる。3D姿勢は、3D空間114内の対応するカメラの3D位置及び向きを含むことができる。
ある実施形態では、一群のUAV406のうちの少なくとも1つのUAV(例えば、第1のUAV406a(図4))が位置センサを含むことができる。位置センサの例としては、以下に限定するわけではないが、全地球航法衛星システム(GNSS)受信機、慣性測定ユニット(IMU)、感知カメラ、赤外線マーカセンサ、又はパターンコードスキャナを挙げることができる。回路202は、対応するUAV(例えば、第1のUAV406a)の位置センサから取得された絶対位置情報にさらに基づいて一群のカメラの各カメラ(例えば、図4の第2のカメラ404b)を校正するように構成することができる。ある実施形態では、回路202を、対応するカメラの内部校正パラメータの値にさらに基づいて一群のカメラの各カメラ(例えば、第1のカメラ404a及び第2のカメラ404b)を校正するように構成することができる。
本開示は、ハードウェアで実現することも、又はハードウェアとソフトウェアの組み合わせで実現することもできる。本開示は、少なくとも1つのコンピュータシステム内で集中方式で実現することも、又は異なる要素を複数の相互接続されたコンピュータシステムにわたって分散できる分散方式で実現することもできる。本明細書で説明した方法を実行するように適合されたコンピュータシステム又はその他の装置が適することができる。ハードウェアとソフトウェアとの組み合わせは、ロードされて実行された時に本明細書で説明した方法を実行するようにコンピュータシステムを制御することができるコンピュータプログラムを含む汎用コンピュータシステムとすることができる。本開示は、他の機能も実行する集積回路の一部を含むハードウェアで実現することができる。
本開示は、本明細書で説明した方法の実装を可能にする全ての特徴を含み、コンピュータシステムにロードされた時にこれらの方法を実行できるコンピュータプログラム製品に組み込むこともできる。本文脈におけるコンピュータプログラムは、情報処理能力を有するシステムに特定の機能を直接的に、或いはa)別の言語、コード又は表記法への変換、b)異なる内容形態での複製、のいずれか又は両方を行った後に実行させるように意図された命令セットの、いずれかの言語、コード又は表記法におけるいずれかの表現を意味する。
いくつかの実施形態を参照しながら本開示を説明したが、当業者であれば、本開示の範囲から逸脱することなく様々な変更を行うことができ、同等物を代用することもできると理解するであろう。また、本開示の範囲から逸脱することなく、特定の状況又は内容を本開示の教示に適合させるように多くの修正を行うこともできる。従って、本開示は、開示した特定の実施形態に限定されるものではなく、添付の特許請求の範囲内に収まる全ての実施形態を含むように意図される。
102 システム
104 MLモデル
106 アンカーカメラ装置の組
106a 第1のアンカーカメラ装置
106b 第2のアンカーカメラ装置
108 一群のUAV
108a 第1のUAV
108b 第2のUAV
110 通信ネットワーク
112 一群のカメラ
112a 第1のカメラ
112b 第2のカメラ
114 3D空間
116 人間被写体

Claims (20)

  1. アンカーカメラ装置の組と、一群の無人航空機(UAV)に搭載又は一体化された一群のカメラとに通信可能に結合された回路を備えたシステムであって、前記回路は、
    前記アンカーカメラ装置の組から人間被写体のアンカー画像の組を受け取り、
    前記一群のカメラから、3次元(3D)空間における複数の地点からの前記人間被写体の一群の画像を受け取り、
    前記受け取られたアンカー画像の組の各アンカー画像における前記人間被写体について人間関節の第1の2次元(2D)位置の組を決定し、
    前記受け取られた一群の画像の各画像における前記人間被写体について前記人間関節の第2の2D位置の組を決定し、
    前記決定された前記人間関節の第1の2D位置の組を使用した三角測量に基づいて、前記3D空間における前記人間関節の3D位置を3Dキーポイントとして計算し、
    前記3Dキーポイントと前記決定された第2の2D位置の組との間の2D再投影誤差を決定し、
    前記決定された2D再投影誤差を最小化することによって前記一群のカメラの各カメラを校正する、
    ように構成される、
    ことを特徴とするシステム。
  2. 前記3D空間は、屋外空間、屋内空間、又はボリュメトリックキャプチャのためのスタジオ環境のうちの1つに関連する、
    請求項1に記載のシステム。
  3. 前記回路は、
    前記一群のUAVを前記3D空間における前記複数の地点において動くように制御し、
    前記一群のUAVに搭載又は一体化された前記一群のカメラを前記複数の地点から前記人間被写体の前記一群の画像を取得するように制御する、
    ようにさらに構成される、請求項1に記載のシステム。
  4. 前記アンカーカメラ装置の組は、前記UAVに搭載又は一体化されて、前記一群のカメラが固定姿勢に対して動いて前記一群の画像を取得するように制御されている間に前記固定姿勢を維持するように構成された、少なくとも1つのカメラを含む、
    請求項3に記載のシステム。
  5. 前記アンカーカメラ装置の組は、前記一群のカメラが前記一群の画像を取得するように制御されている間に前記3D空間における位置に固定される少なくとも1つの予め校正されたカメラを含む、
    請求項3に記載のシステム。
  6. 前記アンカーカメラ装置の組は、遠隔制御式カメラ移動アセンブリに移動可能に結合された少なくとも1つの予め校正されたカメラを含む、
    請求項3に記載のシステム。
  7. 前記回路は、前記3D空間における前記アンカーカメラ装置の組を、前記アンカー画像の組を取得するように制御するようさらに構成される、
    請求項1に記載のシステム。
  8. 前記回路は、前記受け取られたアンカー画像の組の各アンカー画像に機械学習(ML)モデルを適用することによって前記人間関節の前記第1の2D位置の組を決定するように構成され、前記MLモデルは、人間関節検出フレームワークとして、2D人間関節検出タスクに基づいて訓練されたニューラルネットワークを含む、
    請求項1に記載のシステム。
  9. 前記回路は、前記受け取られた一群の画像の各画像にMLモデルを適用することによって前記人間関節の前記第2の2D位置の組を決定するように構成され、前記MLモデルは、前記人間関節検出フレームワークとして、2D人間関節検出タスクに基づいて訓練されたニューラルネットワークを含む、
    請求項1に記載のシステム。
  10. 前記一群のカメラの各カメラの前記校正は、前記対応するカメラの3D姿勢の推定に対応し、
    前記3D姿勢は、前記3D空間における前記対応するカメラの3D位置及び向きを含む、
    請求項1に記載のシステム。
  11. 前記一群のUAVのうちの少なくとも1つのUAVは位置センサを含み、
    前記位置センサは、全地球的航法衛星システム(GNSS)受信機、慣性測定装置(IMU)、感知カメラ、赤外線マーカセンサ、又はパターンコードスキャナのうちの1つである、
    請求項1に記載のシステム。
  12. 前記回路は、対応するUAVの前記位置センサから取得された絶対位置情報にさらに基づいて前記一群のカメラの各カメラを校正するように構成される、
    請求項11に記載のシステム。
  13. 前記回路は、前記対応するカメラの内部校正パラメータの値にさらに基づいて前記一群のカメラの各カメラを校正するように構成される、
    請求項1に記載のシステム。
  14. アンカーカメラ装置の組から人間被写体のアンカー画像の組を受け取るステップと、
    一群のUAVに搭載又は一体化された一群のカメラから、3次元(3D)空間における複数の地点からの前記人間被写体の一群の画像を受け取るステップと、
    前記受け取られたアンカー画像の組の各アンカー画像における前記人間被写体について人間関節の第1の2次元(2D)位置の組を決定するステップと、
    前記受け取られた一群の画像の各画像における前記人間被写体について前記人間関節の第2の2D位置の組を決定するステップと、
    前記決定された前記人間関節の第1の2D位置の組を使用した三角測量に基づいて、前記3D空間における前記人間関節の3D位置を3Dキーポイントとして計算するステップと、
    前記3Dキーポイントと前記決定された第2の2D位置の組との間の2D再投影誤差を決定するステップと、
    前記決定された2D再投影誤差を最小化することによって前記一群のカメラの各カメラを校正するステップと、
    を含むことを特徴とする方法。
  15. 前記一群のUAVを前記3D空間における前記複数の地点において動くように制御するステップと、
    前記一群のUAVに搭載又は一体化された前記一群のカメラを前記複数の地点から前記人間被写体の前記一群の画像を取得するように制御するステップと、
    をさらに含む請求項14に記載の方法。
  16. 前記受け取られたアンカー画像の組の各アンカー画像に機械学習(ML)モデルを適用することによって前記人間関節の前記第1の2D位置の組を決定するステップと、
    前記受け取られた一群の画像の各画像に前記MLモデルを適用することによって前記人間関節の前記第2の2D位置の組を決定するステップと、
    をさらに含み、前記MLモデルは、人間関節検出フレームワークとして、2D人間関節検出タスクに基づいて訓練されたニューラルネットワークを含む、
    請求項14に記載の方法。
  17. 各カメラの前記校正は、前記対応するUAVの3D姿勢の推定に対応し、
    前記3D姿勢は、前記3D空間における前記対応するUAVの3D位置及び向きを含む、
    請求項14に記載の方法。
  18. 前記一群のUAVのうちの少なくとも1つのUAVは位置センサを含み、
    前記位置センサは、全地球的航法衛星システム(GNSS)受信機、慣性測定装置(IMU)、感知カメラ、赤外線マーカセンサ、又はパターンコードスキャナのうちの1つである、
    請求項14に記載の方法。
  19. 前記対応するカメラ付きUAVの前記位置センサから取得された絶対位置情報にさらに基づいて前記一群のUAVの各UAVを校正するステップをさらに含む、
    請求項18に記載の方法。
  20. システム内のコンピュータによって実行された時に前記システムに動作を実行させるコンピュータ実装命令を記憶した非一時的コンピュータ可読媒体であって、前記動作は、
    アンカーカメラ装置の組から人間被写体のアンカー画像の組を受け取ることと、
    一群のUAVに搭載又は一体化された一群のカメラから、3次元(3D)空間における複数の地点からの前記人間被写体の一群の画像を受け取ることと、
    前記受け取られたアンカー画像の組の各アンカー画像における前記人間被写体について人間関節の第1の2次元(2D)位置の組を決定することと、
    前記受け取られた一群の画像の各画像における前記人間被写体について前記人間関節の第2の2D位置の組を決定することと、
    前記決定された前記人間関節の第1の2D位置の組を使用した三角測量に基づいて、前記3D空間における前記人間関節の3D位置を3Dキーポイントとして計算することと、
    前記3Dキーポイントと前記決定された第2の2D位置の組との間の2D再投影誤差を決定することと、
    前記決定された2D再投影誤差を最小化することによって前記一群のカメラの各カメラを校正することと、
    を含む、ことを特徴とする非一時的コンピュータ可読媒体。
JP2022534839A 2020-04-23 2021-04-23 人間関節を用いた無人航空機上のカメラの校正 Active JP7527546B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/856,511 2020-04-23
US16/856,511 US11095870B1 (en) 2020-04-23 2020-04-23 Calibration of cameras on unmanned aerial vehicles using human joints
PCT/US2021/028762 WO2021216948A1 (en) 2020-04-23 2021-04-23 Calibration of cameras on unmanned aerial vehicles using human joints

Publications (2)

Publication Number Publication Date
JP2023505987A true JP2023505987A (ja) 2023-02-14
JP7527546B2 JP7527546B2 (ja) 2024-08-05

Family

ID=77274121

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022534839A Active JP7527546B2 (ja) 2020-04-23 2021-04-23 人間関節を用いた無人航空機上のカメラの校正

Country Status (6)

Country Link
US (1) US11095870B1 (ja)
EP (1) EP4094226A4 (ja)
JP (1) JP7527546B2 (ja)
KR (1) KR20220104025A (ja)
CN (1) CN114667541A (ja)
WO (1) WO2021216948A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11475595B2 (en) * 2020-03-19 2022-10-18 Sony Corporation Extrinsic calibration of multi-camera system
CN113658337B (zh) * 2021-08-24 2022-05-03 哈尔滨工业大学 一种基于车辙线的多模态里程计方法
US12026917B2 (en) * 2022-03-23 2024-07-02 Sony Group Corporation Method of 3D reconstruction of dynamic objects by mobile cameras
CN118047064B (zh) * 2024-04-12 2024-06-11 国网江苏省电力工程咨询有限公司 一种具有偏航角自动纠偏机构的无人机倾斜摄影测量装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018083848A1 (ja) * 2016-11-07 2018-05-11 ソニー株式会社 画像処理装置、キャリブレーション用チャート、及びキャリブレーションシステム
JP2019079487A (ja) * 2017-10-25 2019-05-23 日本電信電話株式会社 パラメータ最適化装置、パラメータ最適化方法、プログラム
JP2019109200A (ja) * 2017-12-20 2019-07-04 オムロン株式会社 校正用データ生成装置、校正用データ生成方法、キャリブレーションシステム、及び制御プログラム
JP2019205066A (ja) * 2018-05-23 2019-11-28 シャープ株式会社 カメラ調整装置
WO2020038720A1 (en) * 2018-08-23 2020-02-27 Eth Zurich Apparatus, method and computer program for detecting the form of a deformable object
JP2020507436A (ja) * 2017-02-14 2020-03-12 アトラクシス エス・アー・エール・エル 圧縮および/またはcmosウィンドウイングを用いた高速光学追跡

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7642953B2 (en) * 2007-07-19 2010-01-05 The Boeing Company Method and apparatus for three dimensional tomographic image reconstruction of objects
US11699247B2 (en) 2009-12-24 2023-07-11 Cognex Corporation System and method for runtime determination of camera miscalibration
WO2014053158A1 (en) 2012-10-01 2014-04-10 Telefonaktiebolaget L M Ericsson (Publ) 3d camera calibration
US9852238B2 (en) * 2014-04-24 2017-12-26 The Board Of Trustees Of The University Of Illinois 4D vizualization of building design and construction modeling with photographs
US20160349746A1 (en) * 2015-05-29 2016-12-01 Faro Technologies, Inc. Unmanned aerial vehicle having a projector and being tracked by a laser tracker
EP3408848A4 (en) * 2016-01-29 2019-08-28 Pointivo Inc. SYSTEMS AND METHOD FOR EXTRACTING INFORMATION ON OBJECTS FROM SCENE INFORMATION
US10416667B2 (en) * 2016-02-03 2019-09-17 Sony Corporation System and method for utilization of multiple-camera network to capture static and/or motion scenes
US10860014B2 (en) * 2016-09-09 2020-12-08 Ecole polytechnique fédérale de Lausanne (EPFL) Jacket for embodied interaction with virtual or distal robotic device
CN107239728B (zh) * 2017-01-04 2021-02-02 赛灵思电子科技(北京)有限公司 基于深度学习姿态估计的无人机交互装置与方法
US9986233B1 (en) * 2017-03-16 2018-05-29 Amazon Technologies, Inc. Camera calibration using fixed calibration targets
JP7054803B2 (ja) * 2017-07-21 2022-04-15 パナソニックIpマネジメント株式会社 カメラパラメタセット算出装置、カメラパラメタセット算出方法及びプログラム
IL309433A (en) * 2017-11-13 2024-02-01 Carmel Haifa Univ Economic Corporation Ltd Motion tracking using 3D cameras
CN108989686B (zh) * 2018-09-05 2021-02-19 深圳技威时代科技有限公司 基于人形追踪的实时拍摄装置及控制方法
CN110264530A (zh) * 2019-06-27 2019-09-20 深圳市道通智能航空技术有限公司 一种相机标定方法、装置和无人机

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018083848A1 (ja) * 2016-11-07 2018-05-11 ソニー株式会社 画像処理装置、キャリブレーション用チャート、及びキャリブレーションシステム
JP2020507436A (ja) * 2017-02-14 2020-03-12 アトラクシス エス・アー・エール・エル 圧縮および/またはcmosウィンドウイングを用いた高速光学追跡
JP2019079487A (ja) * 2017-10-25 2019-05-23 日本電信電話株式会社 パラメータ最適化装置、パラメータ最適化方法、プログラム
JP2019109200A (ja) * 2017-12-20 2019-07-04 オムロン株式会社 校正用データ生成装置、校正用データ生成方法、キャリブレーションシステム、及び制御プログラム
JP2019205066A (ja) * 2018-05-23 2019-11-28 シャープ株式会社 カメラ調整装置
WO2020038720A1 (en) * 2018-08-23 2020-02-27 Eth Zurich Apparatus, method and computer program for detecting the form of a deformable object

Also Published As

Publication number Publication date
WO2021216948A1 (en) 2021-10-28
CN114667541A (zh) 2022-06-24
JP7527546B2 (ja) 2024-08-05
EP4094226A4 (en) 2023-08-02
EP4094226A1 (en) 2022-11-30
KR20220104025A (ko) 2022-07-25
US11095870B1 (en) 2021-08-17

Similar Documents

Publication Publication Date Title
JP7527546B2 (ja) 人間関節を用いた無人航空機上のカメラの校正
US11042723B2 (en) Systems and methods for depth map sampling
US11263761B2 (en) Systems and methods for visual target tracking
US11120560B2 (en) System and method for real-time location tracking of a drone
US10339387B2 (en) Automated multiple target detection and tracking system
CN106529495B (zh) 一种飞行器的障碍物检测方法和装置
US11205283B2 (en) Camera auto-calibration with gyroscope
EP3825954A1 (en) Photographing method and device and unmanned aerial vehicle
CN108605098B (zh) 用于卷帘快门校正的系统和方法
US11906983B2 (en) System and method for tracking targets
CN112567201A (zh) 距离测量方法以及设备
CN112037260B (zh) 一种跟踪目标的位置估计方法、装置及无人飞行器
CN109792543A (zh) 根据可移动物捕获的图像数据创建视频抽象的方法和系统
WO2020019175A1 (zh) 图像处理方法和设备、摄像装置以及无人机
JP2018009918A (ja) 自己位置検出装置、移動体装置及び自己位置検出方法
CN116952229A (zh) 无人机定位方法、装置、系统和存储介质
US20210256732A1 (en) Image processing method and unmanned aerial vehicle
US20220018950A1 (en) Indoor device localization
CN115147495A (zh) 一种针对车载系统的标定方法、装置以及系统
Sulaj et al. Examples of real-time UAV data processing with cloud computing
Cheng et al. Positioning method research for unmanned aerial vehicles based on meanshift tracking algorithm
US20220383515A1 (en) Digital video computing system for vehicle
Kuhnert et al. Absolute high-precision localisation of an unmanned ground vehicle by using real-time aerial video imagery for geo-referenced orthophoto registration
CN115790581A (zh) 基于在轨特因环境的高速vslam增强现实头盔自主定位方法
CN116148883A (zh) 基于稀疏深度图像的slam方法、装置、终端设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230703

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231225

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240624

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240707

R150 Certificate of patent or registration of utility model

Ref document number: 7527546

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150