JP2022166872A - 認識装置、認識方法及びプログラム - Google Patents
認識装置、認識方法及びプログラム Download PDFInfo
- Publication number
- JP2022166872A JP2022166872A JP2021072234A JP2021072234A JP2022166872A JP 2022166872 A JP2022166872 A JP 2022166872A JP 2021072234 A JP2021072234 A JP 2021072234A JP 2021072234 A JP2021072234 A JP 2021072234A JP 2022166872 A JP2022166872 A JP 2022166872A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- image
- recognition target
- sensor
- lidar sensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012937 correction Methods 0.000 claims abstract description 142
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000001514 detection method Methods 0.000 claims abstract description 14
- 230000033001 locomotion Effects 0.000 claims description 10
- 238000005259 measurement Methods 0.000 description 27
- 238000005516 engineering process Methods 0.000 description 19
- 238000003384 imaging method Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 230000003190 augmentative effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 210000000707 wrist Anatomy 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 210000001145 finger joint Anatomy 0.000 description 2
- 210000004247 hand Anatomy 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 101000911772 Homo sapiens Hsc70-interacting protein Proteins 0.000 description 1
- 101001139126 Homo sapiens Krueppel-like factor 6 Proteins 0.000 description 1
- 101000710013 Homo sapiens Reversion-inducing cysteine-rich protein with Kazal motifs Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000004579 marble Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007920 subcutaneous administration Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01B—MEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
- G01B11/00—Measuring arrangements characterised by the use of optical techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/521—Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Optics & Photonics (AREA)
- Image Processing (AREA)
- Length Measuring Devices By Optical Means (AREA)
- Image Analysis (AREA)
Abstract
Description
本技術は、認識対象物の認識に係る認識装置、認識方法及びプログラムに関する。
特許文献1には、カメラ画像に仮想オブジェクトを重畳した拡張現実画像に対して、ユーザが仮想オブジェクトに手を伸ばしている画像をユーザに提供することが記載されている。
例えば、仮想オブジェクトを重畳した拡張現実画像に対して、ユーザが仮想オブジェクトに手を伸ばしている画像を生成する場合、手の認識精度が低いと、手の上に仮想オブジェクトが重畳されて手が見えなくなるなど不自然な拡張現実画像になることがあった。
以上のような事情に鑑み、本技術の目的は、認識対象物の認識精度を向上することが可能な認識装置、認識方法及びプログラムを提供することにある。
本技術に係る認識装置は、処理部を具備する。
上記処理部は、認識対象物に光を照射する発光部と、上記認識対象物から反射される光を受光する受光部とを有するLiDAR(Light Detection and Ranging)センサと上記認識対象物を撮像するイメージセンサとを備える機器の、上記LiDARセンサで取得される上記認識対象物のデプス値を、上記LiDARセンサのセンシング結果及び上記イメージセンサのセンシング結果を用いて生成されるデプス補正情報を参照して補正する。
上記処理部は、認識対象物に光を照射する発光部と、上記認識対象物から反射される光を受光する受光部とを有するLiDAR(Light Detection and Ranging)センサと上記認識対象物を撮像するイメージセンサとを備える機器の、上記LiDARセンサで取得される上記認識対象物のデプス値を、上記LiDARセンサのセンシング結果及び上記イメージセンサのセンシング結果を用いて生成されるデプス補正情報を参照して補正する。
このような構成によれば、LiDARセンサに由来する計測誤差を補正することができ、認識対象物の認識精度を向上させることができる。
上記デプス補正情報は、上記LiDARセンサのセンシング結果に基づく上記認識対象物のデプス値と、上記認識対象物の実際のデプス値との差分情報を含んでもよい。
上記機器は、複数の上記イメージセンサと、1つの上記LiDARセンサを備え、
上記デプス補正情報は、複数の上記イメージセンサそれぞれのセンシング結果から検出される上記認識対象物の位置情報を用いて三角測量により算出される上記認識対象物のデプス値と、上記LiDARセンサのセンシング結果としてのデプス画像に基づく上記認識対象物のデプス値との差分情報を含んでもよい。
上記デプス補正情報は、複数の上記イメージセンサそれぞれのセンシング結果から検出される上記認識対象物の位置情報を用いて三角測量により算出される上記認識対象物のデプス値と、上記LiDARセンサのセンシング結果としてのデプス画像に基づく上記認識対象物のデプス値との差分情報を含んでもよい。
上記機器は、少なくとも1つの上記イメージセンサと、1つの上記LiDARセンサを備え、
上記デプス補正情報は、1つの上記イメージセンサのセンシング結果から検出される上記認識対象物の位置情報と上記LiDARセンサのセンシング結果としての信頼度画像から検出される上記認識対象物の位置情報とを用いて三角測量により算出される上記認識対象物のデプス値、上記LiDARセンサのセンシング結果としてのデプス画像に基づく上記認識対象物のデプス値との差分情報を含んでもよい。
上記デプス補正情報は、1つの上記イメージセンサのセンシング結果から検出される上記認識対象物の位置情報と上記LiDARセンサのセンシング結果としての信頼度画像から検出される上記認識対象物の位置情報とを用いて三角測量により算出される上記認識対象物のデプス値、上記LiDARセンサのセンシング結果としてのデプス画像に基づく上記認識対象物のデプス値との差分情報を含んでもよい。
上記認識対象物は半透明体であってもよい。
上記認識対象物は人間の肌であってもよい。
上記認識対象物は人間の手であってもよい。
上記処理部は、上記認識対象物である人間のジェスチャ動作を認識してもよい。
上記認識対象物は人間の肌であってもよい。
上記認識対象物は人間の手であってもよい。
上記処理部は、上記認識対象物である人間のジェスチャ動作を認識してもよい。
上記処理部は、上記LiDARセンサのセンシング結果及び上記イメージセンサのセンシング結果を用いて上記デプス補正情報を生成してもよい。
上記機器は表示部を備え、
上記処理部は、補正した上記認識対象物のデプス値を用いて、上記表示部に表示する画像を生成してもよい。
上記処理部は、補正した上記認識対象物のデプス値を用いて、上記表示部に表示する画像を生成してもよい。
本技術に係る認識方法は、認識対象物に光を照射する発光部と、上記認識対象物から反射される光を受光する受光部とを有するLiDAR(Light Detection and Ranging)センサと上記認識対象物を撮像するイメージセンサとを備える機器の、上記LiDARセンサで取得される上記認識対象物のデプス値を、上記LiDARセンサのセンシング結果及び上記イメージセンサのセンシング結果を用いて生成されるデプス補正情報を参照して補正する。
本技術に係るプログラムは、
認識対象物に光を照射する発光部と、上記認識対象物から反射される光を受光する受光部とを有するLiDAR(Light Detection and Ranging)センサと上記認識対象物を撮像するイメージセンサとを備える機器の、上記LiDARセンサで取得される上記認識対象物のデプス値を、上記LiDARセンサのセンシング結果及び上記イメージセンサのセンシング結果を用いて生成されるデプス補正情報を参照して補正するステップ
を認識装置に実行させる。
認識対象物に光を照射する発光部と、上記認識対象物から反射される光を受光する受光部とを有するLiDAR(Light Detection and Ranging)センサと上記認識対象物を撮像するイメージセンサとを備える機器の、上記LiDARセンサで取得される上記認識対象物のデプス値を、上記LiDARセンサのセンシング結果及び上記イメージセンサのセンシング結果を用いて生成されるデプス補正情報を参照して補正するステップ
を認識装置に実行させる。
以下、本技術に係る実施形態を、図面を参照しながら説明する。以下の説明において、同様の構成については同様の符号を付し、既出の構成については説明を省略する場合がある。
<第1実施形態>
[認識装置の外観構成]
図1は認識装置としての携帯端末1の外観図である。図1(A)は携帯端末1を表示部34のある正面1a側から見た平面図であり、図1(B)は携帯端末1を背面1b側から見た平面図である。
本明細書において、図に示す互いに直交するXYZ座標方向は、略直方体の携帯端末1の横、縦、高さに対応する。正面1a及び背面1bと平行な面をXY平面として、高さ方向に相当する携帯端末1の厚み方向をZ軸とする。本明細書において、該Z軸方向がデプス方向に対応する。
本実施形態において、携帯端末1は、認識対象物を認識する認識装置として機能する。また、携帯端末1は、イメージセンサである第1カメラ2A及び第2カメラ2Bと、LiDARセンサ3と、表示部34を有する機器である。携帯端末1は多眼カメラを有する機器である。
[認識装置の外観構成]
図1は認識装置としての携帯端末1の外観図である。図1(A)は携帯端末1を表示部34のある正面1a側から見た平面図であり、図1(B)は携帯端末1を背面1b側から見た平面図である。
本明細書において、図に示す互いに直交するXYZ座標方向は、略直方体の携帯端末1の横、縦、高さに対応する。正面1a及び背面1bと平行な面をXY平面として、高さ方向に相当する携帯端末1の厚み方向をZ軸とする。本明細書において、該Z軸方向がデプス方向に対応する。
本実施形態において、携帯端末1は、認識対象物を認識する認識装置として機能する。また、携帯端末1は、イメージセンサである第1カメラ2A及び第2カメラ2Bと、LiDARセンサ3と、表示部34を有する機器である。携帯端末1は多眼カメラを有する機器である。
図1(A)及び(B)に示すように、携帯端末1は、筐体4と、表示部34と、第1カメラ2Aと、第2カメラ2Bと、LiDARセンサ3と、を有する。携帯端末1は、筐体4に、表示部34を構成する表示パネル、第1カメラ2A、第2カメラ2B、LiDARセンサ3、その他の各種センサ、及び、駆動回路等が保持されて構成される。
携帯端末1は、正面1aと、該正面1aの反対側に位置する背面1bと、を有する。
図1(A)に示すように、正面1a側には表示部34が配置される。表示部34は、例えば液晶ディスプレイ、有機ELディスプレイ(Organic Electro-Luminescence Display)等の表示パネル(画像表示手段)により構成される。表示部34は、後述する通信部41を通して外部機器から送受信される画像、後述する表示画像生成部54で生成された画像、入力操作用のボタン、第1カメラ2Aや第2カメラ2Bにより撮影されたスルー画像等を表示可能に構成される。画像には静止画及び動画が含まれる。
図1(B)に示すように、背面1b側には第1カメラ2Aの撮像レンズ、第2カメラ2Bの撮像レンズ、LiDARセンサ3の撮像レンズが位置する。
図1(A)に示すように、正面1a側には表示部34が配置される。表示部34は、例えば液晶ディスプレイ、有機ELディスプレイ(Organic Electro-Luminescence Display)等の表示パネル(画像表示手段)により構成される。表示部34は、後述する通信部41を通して外部機器から送受信される画像、後述する表示画像生成部54で生成された画像、入力操作用のボタン、第1カメラ2Aや第2カメラ2Bにより撮影されたスルー画像等を表示可能に構成される。画像には静止画及び動画が含まれる。
図1(B)に示すように、背面1b側には第1カメラ2Aの撮像レンズ、第2カメラ2Bの撮像レンズ、LiDARセンサ3の撮像レンズが位置する。
第1カメラ2A、第2カメラ2B、及び、LiDARセンサ3は、撮影空間においてセンシングされる同一の認識対象物(被写体)の座標値が同じになるように、それぞれ予めキャリブレーションされる。これにより、第1カメラ2A、第2カメラ2B、及び、LiDARセンサ3によりセンシングされたRGB情報(RGB画像データ)及びデプス情報(デプス画像データ)を統合することにより、ポイントクラウド(各ポイントが三次元座標を持つような情報の集合)を構成することが可能である。
第1カメラ2A、第2カメラ2B、及び、LiDARセンサ3の構成については後述する。
第1カメラ2A、第2カメラ2B、及び、LiDARセンサ3の構成については後述する。
[認識装置の全体構成及び各部の構成]
図2は携帯端末1の概略構成図である。図3は携帯端末1の機能構成ブロックを含む構成図である。
図2は携帯端末1の概略構成図である。図3は携帯端末1の機能構成ブロックを含む構成図である。
図2に示すように、携帯端末1は、センサ部10と、通信部41と、CPU(Central Processing Unit)42と、表示部34と、GNSS受信部44と、メインメモリ45と、フラッシュメモリ46と、オーディオデバイス部47と、バッテリー48と、を有する。
センサ部10は、第1カメラ2A、第2カメラ2B、LiDARセンサ3といった撮像デバイスやタッチセンサ43等の各種センサを含む。タッチセンサ43は、典型的には表示部34を構成する表示パネル上に配置される。タッチセンサ43は、表示部34上でユーザによって行われる設定等の入力操作等をうけつける。
通信部41は、外部機器と通信可能に構成される。
CPU42は、オペレーティングシステムを実行することにより携帯端末1の全体を制御する。CPU42はまた、リムーバブル記録媒体から読みだされてメインメモリ45にロードされた、あるいは通信部41を介してダウンロードされた各種プログラムを実行する。
GNSS受信部44は、全球測位衛星システム(Global Navigation Satellite System:GNSS)信号受信機である。GNSS受信部44は携帯端末1の位置情報を取得する。
メインメモリ45は、RAM(Random Access Memory)により構成され、処理に必要なプログラムやデータを記憶する。
フラッシュメモリ46は、補助記憶装置である。
オーディオデバイス部47は、マイクロフォン及びスピーカを含む。
バッテリー48は、携帯端末1の駆動電源である。
通信部41は、外部機器と通信可能に構成される。
CPU42は、オペレーティングシステムを実行することにより携帯端末1の全体を制御する。CPU42はまた、リムーバブル記録媒体から読みだされてメインメモリ45にロードされた、あるいは通信部41を介してダウンロードされた各種プログラムを実行する。
GNSS受信部44は、全球測位衛星システム(Global Navigation Satellite System:GNSS)信号受信機である。GNSS受信部44は携帯端末1の位置情報を取得する。
メインメモリ45は、RAM(Random Access Memory)により構成され、処理に必要なプログラムやデータを記憶する。
フラッシュメモリ46は、補助記憶装置である。
オーディオデバイス部47は、マイクロフォン及びスピーカを含む。
バッテリー48は、携帯端末1の駆動電源である。
図3に示すように、携帯端末1は、センサ部10と、処理部50と、記憶部56と、表示部34と、を有する。図3のセンサ部10において、本技術に主に係る主要なセンサについてのみ図示している。
センサ部10に含まれる第1カメラ2A、第2カメラ2B、LiDARセンサ3でのセンシング結果は処理部50に出力される。
(カメラ)
第1カメラ2Aと第2カメラ2Bは同様の構成を有する。以下、第1カメラ2A、第2カメラ2Bというように両者を特に区別する必要がない場合は、カメラ2という。
カメラ2は、画像データとして、被写体のカラー二次元画像(RGB画像ということもある。)を撮像することが可能なRGBカメラである。RGB画像は、カメラ2のセンシング結果である。
カメラ2は、認識対象物(被写体)を撮像するイメージセンサである。イメージセンサは、例えばCCD(Charge-Coupled Device)センサ又はCMOS(Complementary Metal Oxide Semiconductor)センサ等である。イメージセンサは、受光部であるフォトダイオードと、信号処理回路を有する。イメージセンサでは、受光部で受光した光が信号処理回路により信号処理され、受光部への入射光の光量に応じた画像データが取得される。
第1カメラ2Aと第2カメラ2Bは同様の構成を有する。以下、第1カメラ2A、第2カメラ2Bというように両者を特に区別する必要がない場合は、カメラ2という。
カメラ2は、画像データとして、被写体のカラー二次元画像(RGB画像ということもある。)を撮像することが可能なRGBカメラである。RGB画像は、カメラ2のセンシング結果である。
カメラ2は、認識対象物(被写体)を撮像するイメージセンサである。イメージセンサは、例えばCCD(Charge-Coupled Device)センサ又はCMOS(Complementary Metal Oxide Semiconductor)センサ等である。イメージセンサは、受光部であるフォトダイオードと、信号処理回路を有する。イメージセンサでは、受光部で受光した光が信号処理回路により信号処理され、受光部への入射光の光量に応じた画像データが取得される。
(LiDARセンサ)
LiDARセンサ3は、認識対象物(被写体)のデプス画像(距離画像ともいう。)を撮像する。デプス画像は、LiDARセンサ3のセンシング結果である。デプス画像は、認識対象物のデプス値を含むデプス情報である。
LiDARセンサ3は、レーザ光を用いたリモートセンシング技術(LiDAR:Light Detection and Ranging)を用いた測距センサである。
LiDARセンサには、ToF(Time of flight)方式及びFMCW(Frequency Modulated Continuous Wave)方式があり、いずれの方式のものを用いてもよいが、ToF方式を好適に用いることができる。本実施形態では、ToF方式のLiDARセンサ(以下、ToFセンサという。)を用いる例をあげる。
ToFセンサには、「直接(Direct)方式」と「間接(In Direct)方式」があり、いずれの方式のToFセンサを用いてもよい。「直接方式」は、短時間発光する光パルスを被写体に照射し、その反射光がToFセンサに届くまでの時間を実測する。「間接方式」は、周期的に点滅する光を用いて、その光が被写体との間を往復するときの時間遅れを位相差として検出する。高画素化の観点から間接方式のToFセンサを用いることがより好ましい。
LiDARセンサ3は、認識対象物(被写体)のデプス画像(距離画像ともいう。)を撮像する。デプス画像は、LiDARセンサ3のセンシング結果である。デプス画像は、認識対象物のデプス値を含むデプス情報である。
LiDARセンサ3は、レーザ光を用いたリモートセンシング技術(LiDAR:Light Detection and Ranging)を用いた測距センサである。
LiDARセンサには、ToF(Time of flight)方式及びFMCW(Frequency Modulated Continuous Wave)方式があり、いずれの方式のものを用いてもよいが、ToF方式を好適に用いることができる。本実施形態では、ToF方式のLiDARセンサ(以下、ToFセンサという。)を用いる例をあげる。
ToFセンサには、「直接(Direct)方式」と「間接(In Direct)方式」があり、いずれの方式のToFセンサを用いてもよい。「直接方式」は、短時間発光する光パルスを被写体に照射し、その反射光がToFセンサに届くまでの時間を実測する。「間接方式」は、周期的に点滅する光を用いて、その光が被写体との間を往復するときの時間遅れを位相差として検出する。高画素化の観点から間接方式のToFセンサを用いることがより好ましい。
LiDARセンサ3は、発光部、受光部であるフォトダイオード、及び、信号処理回路を有する。発光部は、レーザ光、典型的には近赤外光(NIR光)を発光する。受光部は、発光部から発光されたNIR光が認識対象物(被写体)で反射したときの戻り光(反射光)を受光する。LiDARセンサ3では、信号処理回路によって受光した戻り光が信号処理され、被写体に対応したデプス画像が取得される。発光部は、例えば発光ダイオード(LED)等の発光部材とそれを発光させるためのドライバ回路を含んで構成される。
ここで、LiDARセンサを用いて認識対象物(被写体)のデプス情報を得る際、認識対象物が半透明体であると、認識対象物での表面下散乱やセンサデバイスの個体差によって、計測値と実際の値(以下、実際値という。)との誤差(測距誤差)が生じるという問題があった。言い換えると、認識対象物の材質の反射特性やセンサデバイスの個体差によって、認識対象物の三次元計測精度が悪化するという問題があった。
LiDARセンサにおいて、人間の肌のような半透明体が認識対象物である場合、表面下散乱(皮下散乱ともいう。)の影響で、発光部から発光した光が認識対象物で反射して戻ってくるまでの時間が余計にかかる。このため、LiDARセンサでは、実際値よりも少し奥のデプス値として計測される。例えば、認識対象物が人の肌である場合、計測値と実際値のデプス値における誤差が20mm程度生じる場合がある。
半透明体の例としては、人間の肌、大理石、牛乳等が知られている。半透明体は、その内部で光の透過と散乱が生じる物体である。
LiDARセンサにおいて、人間の肌のような半透明体が認識対象物である場合、表面下散乱(皮下散乱ともいう。)の影響で、発光部から発光した光が認識対象物で反射して戻ってくるまでの時間が余計にかかる。このため、LiDARセンサでは、実際値よりも少し奥のデプス値として計測される。例えば、認識対象物が人の肌である場合、計測値と実際値のデプス値における誤差が20mm程度生じる場合がある。
半透明体の例としては、人間の肌、大理石、牛乳等が知られている。半透明体は、その内部で光の透過と散乱が生じる物体である。
これに対し、本技術では、LiDARセンサ3で取得されるデプス値を、デプス補正情報である補正マップを参照して補正している。これにより、認識対象物の三次元計測精度を高精度なものとし、認識対象物の認識精度を向上させることができる。
本実施形態において、上記補正マップは、第1カメラ2A、第2カメラ2B、及び、LiDARセンサ3それぞれのセンシング結果を用いて生成することができる。補正マップの詳細については後述する。
本実施形態において、上記補正マップは、第1カメラ2A、第2カメラ2B、及び、LiDARセンサ3それぞれのセンシング結果を用いて生成することができる。補正マップの詳細については後述する。
以下、認識対象物が、半透明体である肌が露出した状態の人間の手であり、手を認識する例を用いて説明する。
(処理部)
処理部50は、補正マップを用いて、LiDARセンサ3で取得されるデプス値を補正する。
処理部50は、補正マップを生成してもよい。
処理部50は、取得部51と、認識部52と、補正部53と、表示画像生成部54と、補正マップ生成部55と、を有する。
処理部50は、補正マップを用いて、LiDARセンサ3で取得されるデプス値を補正する。
処理部50は、補正マップを生成してもよい。
処理部50は、取得部51と、認識部52と、補正部53と、表示画像生成部54と、補正マップ生成部55と、を有する。
((取得部))
取得部51は、第1カメラ2A、第2カメラ2B、及び、LiDARセンサ3それぞれでのセンシング結果、すなわちRGB画像、デプス画像を取得する。
取得部51は、第1カメラ2A、第2カメラ2B、及び、LiDARセンサ3それぞれでのセンシング結果、すなわちRGB画像、デプス画像を取得する。
((認識部))
認識部52は、取得部51で取得したデプス画像やRGB画像から手の領域を検出する。認識部52は、検出した手領域を切り出した画像領域から、手の特徴点位置を検出する。手の位置を認識するための手の特徴点としては、指先、指の関節、手首等がある。指先、指の関節、手首は、手を構成する部位である。
認識部52は、取得部51で取得したデプス画像やRGB画像から手の領域を検出する。認識部52は、検出した手領域を切り出した画像領域から、手の特徴点位置を検出する。手の位置を認識するための手の特徴点としては、指先、指の関節、手首等がある。指先、指の関節、手首は、手を構成する部位である。
より詳細には、認識部52は、第1カメラ2A及び第2カメラ2Bそれぞれで取得されたRGB画像の手領域から手の二次元特徴点位置を検出する。検出された二次元特徴点位置は補正マップ生成部55に出力される。以下、「二次元特徴点位置」を「二次元位置」ということがある。
また、認識部52は、LiDARセンサ3で取得したデプス画像の手領域から、手の三次元特徴点位置を推定し検出する。このLiDARセンサ3のデプス画像に基づいて検出された認識対象物の三次元特徴点位置は、補正部53に出力される。以下、「三次元特徴点位置」を「三次元位置」ということがある。三次元位置は、デプス値の情報を含む。
また、認識部52は、LiDARセンサ3で取得したデプス画像の手領域から、手の三次元特徴点位置を推定し検出する。このLiDARセンサ3のデプス画像に基づいて検出された認識対象物の三次元特徴点位置は、補正部53に出力される。以下、「三次元特徴点位置」を「三次元位置」ということがある。三次元位置は、デプス値の情報を含む。
上記手領域の検出、特徴点位置の検出は、既知の手法により行うことができる。例えば、ディープニューラルネットワーク(DNN:Deep Neural Network)、Hand Pose Detection、Hand Pose Estimation、Hand segmentationなどの人体の手認識技術、HOG(Histogram of Oriented Gradient)、SIFT(Scale Invariant Feature Transform)などの特徴点抽出方法、Boosting、SVM(Support Vector Machine)などのパターン認識による被写体認識方法、Graph Cutなどによる領域抽出方法、などにより、画像中における手の位置を認識することができる。
((補正部))
補正部53は、認識部52により認識対象物の領域が手等の人間の肌であると認識されると、LiDARセンサ3のデプス画像に基づいて検出された認識対象物(本実施形態では手である。)の三次元特徴点位置のデプス値(Z軸方向の位置)を、補正マップを参照して補正する。
補正部53は、認識部52により認識対象物の領域が手等の人間の肌であると認識されると、LiDARセンサ3のデプス画像に基づいて検出された認識対象物(本実施形態では手である。)の三次元特徴点位置のデプス値(Z軸方向の位置)を、補正マップを参照して補正する。
これにより、認識対象物が人の肌のような半透明体であっても、表面下散乱によるLiDARセンサ3による計測値と実際値のずれ(誤差)が解消されるように、デプス値が補正される。
すなわち、補正マップを用いる補正により、LiDARセンサ3のセンシング結果から、実際の認識対象物の三次元位置情報を得ることができ、認識対象物を高精度に認識することができる。
補正部53によって補正された認識対象物のデプス値は、表示画像生成部54に出力される。
すなわち、補正マップを用いる補正により、LiDARセンサ3のセンシング結果から、実際の認識対象物の三次元位置情報を得ることができ、認識対象物を高精度に認識することができる。
補正部53によって補正された認識対象物のデプス値は、表示画像生成部54に出力される。
((表示画像生成部))
表示画像生成部54は、表示部34に出力する画像信号を生成する。該画像信号は、表示部34に出力され、表示部34では、画像信号に基づいて画像が表示される。
表示画像生成部54は、表示部34に出力する画像信号を生成する。該画像信号は、表示部34に出力され、表示部34では、画像信号に基づいて画像が表示される。
表示画像生成部54は、カメラ2で取得されたスルー画像(カメラ画像)に、仮想オブジェクトが重畳された画像を生成してもよい。該仮想オブジェクトは、後述する補正マップ生成時に用いる仮想オブジェクトであってよい。また、仮想オブジェクトは、例えばゲームアプリケーションによる拡張現実画像を構成する仮想オブジェクトであってもよい。
ここで、カメラ画像に壁の仮想オブジェクトを重畳した拡張現実画像に対して、ユーザが仮想オブジェクトである壁に手で触れる画像を、表示部34に表示する例をあげる。
表示画像生成部54は、該表示画像を生成するにあたり、補正された認識対象物である手のデプス値を用いて、手と仮想オブジェクトである壁の位置関係が適切な拡張現実画像を生成することができる。
これにより、例えば、仮想オブジェクトである壁の表面を手で触れるという画像が表示されるべきところ、手の一部に壁の仮想オブジェクトが重畳されて手の一部が見えなくなり、壁に指が突っ込まれた画像になってしまう、といったことがない。
表示画像生成部54は、該表示画像を生成するにあたり、補正された認識対象物である手のデプス値を用いて、手と仮想オブジェクトである壁の位置関係が適切な拡張現実画像を生成することができる。
これにより、例えば、仮想オブジェクトである壁の表面を手で触れるという画像が表示されるべきところ、手の一部に壁の仮想オブジェクトが重畳されて手の一部が見えなくなり、壁に指が突っ込まれた画像になってしまう、といったことがない。
((補正マップ生成部))
補正マップ生成部55は、第1カメラ2Aと第2カメラ2Bそれぞれのセンシング結果と、LiDARセンサ3のセンシング結果を用いて、デプス補正情報である補正マップを生成する。
補正マップ生成部55は、第1カメラ2Aと第2カメラ2Bそれぞれのセンシング結果と、LiDARセンサ3のセンシング結果を用いて、デプス補正情報である補正マップを生成する。
より具体的には、補正マップ生成部55は、認識部52で各カメラ2のRGB画像から検出された認識対象物(手)の二次元特徴点位置を用いて、三角測量により認識対象物の三次元特徴点位置を算出する。この三角測量を用いて算出した認識対象物の三次元特徴点位置は、実際の認識対象物の三次元特徴点位置に相当するものとし、実際の認識対象物のデプス値を含むものとする。
補正マップ生成部55は、三角測量により算出された認識対象物のデプス値と、認識部52により検出されたLiDARセンサ3のデプス画像に基づく認識対象物のデプス値との差分情報を用いて、補正マップを生成する。
補正マップの生成方法については後述する。
補正マップ生成部55は、三角測量により算出された認識対象物のデプス値と、認識部52により検出されたLiDARセンサ3のデプス画像に基づく認識対象物のデプス値との差分情報を用いて、補正マップを生成する。
補正マップの生成方法については後述する。
(記憶部)
記憶部56は、RAM等のメモリデバイス、及びハードディスクドライブ等の不揮発性の記録媒体を含み、認識対象物の認識処理や補正マップ(デプス補正情報)生成処理等を、携帯端末1に実行させるためのプログラムを記憶する。
記憶部56は、RAM等のメモリデバイス、及びハードディスクドライブ等の不揮発性の記録媒体を含み、認識対象物の認識処理や補正マップ(デプス補正情報)生成処理等を、携帯端末1に実行させるためのプログラムを記憶する。
記憶部56に記憶される、認識対象物の認識処理のプログラムは、以下のステップを認識装置(本実施形態では携帯端末1)に実行させるためのものである。
上記ステップは、LiDARセンサとイメージセンサとを備える機器(本実施形態では携帯端末1)の、LiDARセンサで取得される認識対象物のデプス値を、LiDARセンサのセンシング結果及びイメージセンサのセンシング結果を用いて生成されるデプス補正情報(補正マップ)を参照して補正するステップである。
上記ステップは、LiDARセンサとイメージセンサとを備える機器(本実施形態では携帯端末1)の、LiDARセンサで取得される認識対象物のデプス値を、LiDARセンサのセンシング結果及びイメージセンサのセンシング結果を用いて生成されるデプス補正情報(補正マップ)を参照して補正するステップである。
記憶部56に記憶される、補正マップ(デプス補正情報)の生成処理のプログラムは、以下のステップを認識装置(本実施形態では携帯端末1)に実行させるためのものである。
上記ステップは、複数のカメラそれぞれのRGB画像から検出された認識対象物の二次元位置から三角測量により認識対象物の三次元位置を算出するステップと、LiDARセンサのデプス画像から認識対象物の三次元位置を検出するステップと、三角測量により算出された認識対象物の三次元位置とLiDARセンサのデプス画像に基づく認識対象物の三次元位置との差分情報を用いて補正マップ(デプス補正情報)を生成するステップ、である。
上記ステップは、複数のカメラそれぞれのRGB画像から検出された認識対象物の二次元位置から三角測量により認識対象物の三次元位置を算出するステップと、LiDARセンサのデプス画像から認識対象物の三次元位置を検出するステップと、三角測量により算出された認識対象物の三次元位置とLiDARセンサのデプス画像に基づく認識対象物の三次元位置との差分情報を用いて補正マップ(デプス補正情報)を生成するステップ、である。
また、記憶部56は、予め生成された補正マップを格納していてもよい。補正部53はこの予め準備された補正マップを参照して、LiDARセンサ3で取得されたデプス値を補正してもよい。
[認識方法]
図4は、認識対象物の認識方法のフロー図である。
図4に示すように、認識処理がスタートすると、取得部51により、LiDARセンサ3のセンシング結果(デプス画像)が取得される(ST1)。
図4は、認識対象物の認識方法のフロー図である。
図4に示すように、認識処理がスタートすると、取得部51により、LiDARセンサ3のセンシング結果(デプス画像)が取得される(ST1)。
次に、認識部52により、取得部51で取得したデプス画像を用いて手の領域が検出される(ST2)。
認識部52により、デプス画像から認識対象物である手の三次元特徴点位置が推定、検出される(ST3)。検出された認識対象物の三次元特徴点位置情報は補正部53に出力される。
認識部52により、デプス画像から認識対象物である手の三次元特徴点位置が推定、検出される(ST3)。検出された認識対象物の三次元特徴点位置情報は補正部53に出力される。
次に、補正部53により、補正マップを用いて、検出された認識対象物の三次元特徴点位置のZ位置が補正される(ST4)。補正された認識対象物の三次元特徴点位置は、実際の認識対象物の三次元特徴点位置に相当する。
補正された認識対象物の三次元特徴点位置情報は表示画像生成部54に出力される(ST5)。
補正された認識対象物の三次元特徴点位置情報は表示画像生成部54に出力される(ST5)。
このように、本実施形態の認識方法では、認識対象物が半透明体である人間の肌であっても、LiDARセンサ3のセンシング結果を、補正マップを用いて補正することにより、認識対象物の認識精度が向上する。
[補正マップ]
補正マップは、LiDARセンサ3で検出される認識対象物のデプス値(Z値)を補正するためのデプス補正情報である。LiDARセンサ3での計測値は、認識対象物である肌での表面下散乱やLiDARセンサ3の個体差によって、実際値との誤差が生じる。補正マップは、この誤差を補正する。
補正マップは、LiDARセンサ3で検出される認識対象物のデプス値(Z値)を補正するためのデプス補正情報である。LiDARセンサ3での計測値は、認識対象物である肌での表面下散乱やLiDARセンサ3の個体差によって、実際値との誤差が生じる。補正マップは、この誤差を補正する。
図5を用いて補正マップについて説明する。
図5(A)に示すように、LiDARセンサ3で取得され得る撮影領域8の実空間に対して、三次元のグリッド9を配置する。三次元のグリッド9は、均一な間隔で配置される複数のX軸に平行なグリッド線、均一な間隔で配置される複数のY軸に平行なグリッド線、均一な間隔で配置される複数のZ軸に平行なグリッド線で分割されて構成される。
図5(B)は、図5(A)をY軸方向からみたときの模式図である。
図5(A)及び(B)において、符号30は、LiDARセンサ3の中心を示す。
図5(A)に示すように、LiDARセンサ3で取得され得る撮影領域8の実空間に対して、三次元のグリッド9を配置する。三次元のグリッド9は、均一な間隔で配置される複数のX軸に平行なグリッド線、均一な間隔で配置される複数のY軸に平行なグリッド線、均一な間隔で配置される複数のZ軸に平行なグリッド線で分割されて構成される。
図5(B)は、図5(A)をY軸方向からみたときの模式図である。
図5(A)及び(B)において、符号30は、LiDARセンサ3の中心を示す。
補正マップは、三次元のグリッド9の各格子点上で、デプスに関するオフセット値を保持したマップである。「デプスに関するオフセット値」とは、LiDARセンサ3で取得されるデプス値(計測値)が、実際のデプス値(実際値)に対して、+又は-でZ軸方向にどの程度ずれているかを示す値である。
「デプスに関するオフセット値」について説明する。
図5(B)に示す例において、格子点A上に位置する、中が黒い黒丸はLiDARセンサ3で取得されたデプス画像に基づく認識対象物の三次元位置13を示す。中が白い白丸は実際の認識対象物の三次元位置12を示す。認識対象物の三次元位置には、デプス値の情報が含まれる。換言すると、符号13はLiDARセンサ3による計測位置を示し、符号12は実際の位置を示す。
LiDARセンサ3のデプス画像に基づく認識対象物の三次元位置13のデプス値と、実際の認識対象物の三次元位置12のデプス値との差分aが、格子点Aにおける「デプスに関するオフセット値」となる。図5(B)に示す例では、格子点Aにおける「デプスに関するオフセット値」は+である。
補正マップでは、撮影領域8に配置される三次元のグリッド9の全ての格子点毎に「デプスに関するオフセット値」が設定される。
このような補正マップを参照して、LiDARセンサ3で取得された認識対象物のデプス値を補正することにより、認識対象物の三次元計測精度を高精度なものとし、認識対象物の認識精度を向上させることができる。
図5(B)に示す例において、格子点A上に位置する、中が黒い黒丸はLiDARセンサ3で取得されたデプス画像に基づく認識対象物の三次元位置13を示す。中が白い白丸は実際の認識対象物の三次元位置12を示す。認識対象物の三次元位置には、デプス値の情報が含まれる。換言すると、符号13はLiDARセンサ3による計測位置を示し、符号12は実際の位置を示す。
LiDARセンサ3のデプス画像に基づく認識対象物の三次元位置13のデプス値と、実際の認識対象物の三次元位置12のデプス値との差分aが、格子点Aにおける「デプスに関するオフセット値」となる。図5(B)に示す例では、格子点Aにおける「デプスに関するオフセット値」は+である。
補正マップでは、撮影領域8に配置される三次元のグリッド9の全ての格子点毎に「デプスに関するオフセット値」が設定される。
このような補正マップを参照して、LiDARセンサ3で取得された認識対象物のデプス値を補正することにより、認識対象物の三次元計測精度を高精度なものとし、認識対象物の認識精度を向上させることができる。
[補正マップを用いた補正方法]
上述の補正マップを用いたデプス値の補正方法について説明する。以下、「デプスに関するオフセット値」を単に「オフセット値」という。LiDARセンサ3で取得された認識対象物の三次元位置を「計測位置」という。「計測位置」は、補正前三次元位置であり、補正前のデプス値の情報を含む。
上述の補正マップを用いたデプス値の補正方法について説明する。以下、「デプスに関するオフセット値」を単に「オフセット値」という。LiDARセンサ3で取得された認識対象物の三次元位置を「計測位置」という。「計測位置」は、補正前三次元位置であり、補正前のデプス値の情報を含む。
上述のように、補正マップでは、三次元のグリッド9の格子点毎にオフセット値が設定されている。計測位置が格子点上にある場合は、当該格子点に設定されるオフセット値を用いて、計測位置のデプス値が補正される。
一方、計測位置が格子点上にない場合は、例えばBilinear補間処理等を用いて、計測位置におけるオフセット値を算出し、該オフセット値を用いて、計測位置のデプス値の補正を行うことができる。
Bilinear補間処理では、例えば次のように計測位置におけるオフセット値が算出される。
X軸方向に隣り合って延在する2つのグリッド線とY軸方向に隣り合って延在する2つのグリッド線が交差してなる4つの格子点が通るXY平面内に計測位置がある場合を例にあげて説明する。
計測位置におけるオフセット値は、上記4つの格子点それぞれにおけるオフセット値と、上記4つの格子点のうちX軸方向に隣接する2つの格子点と計測位置とのX軸方向における距離値の比に基づく重み係数と、上記4つの格子点のうちY軸方向に隣接する2つの格子点と計測位置とのY軸方向における距離値の比に基づく重み係数と、を用いて算出される。すなわち、計測位置におけるオフセット値は、上記4つの格子点それぞれにおけるオフセット値と、上記4つの格子点と計測位置との各XY軸方向における距離値の加重平均に基づいて算出される。
X軸方向に隣り合って延在する2つのグリッド線とY軸方向に隣り合って延在する2つのグリッド線が交差してなる4つの格子点が通るXY平面内に計測位置がある場合を例にあげて説明する。
計測位置におけるオフセット値は、上記4つの格子点それぞれにおけるオフセット値と、上記4つの格子点のうちX軸方向に隣接する2つの格子点と計測位置とのX軸方向における距離値の比に基づく重み係数と、上記4つの格子点のうちY軸方向に隣接する2つの格子点と計測位置とのY軸方向における距離値の比に基づく重み係数と、を用いて算出される。すなわち、計測位置におけるオフセット値は、上記4つの格子点それぞれにおけるオフセット値と、上記4つの格子点と計測位置との各XY軸方向における距離値の加重平均に基づいて算出される。
尚、ここでは、便宜的に、計測位置が4つの格子点が通る平面内に位置する場合を例にあげて説明したが、該平面内に計測位置がない場合は、次のように計測位置におけるオフセット値を算出することができる。
すなわち、三次元のグリッド9において、グリッド線により区画された最小単位の三次元空間内に計測位置がある場合、該最小の三次元空間を構成する8つの格子点それぞれにおけるオフセット値と、該8つの格子点と計測位置との各XYZ軸方向における距離値の加重平均に基づいて、計測位置におけるオフセット値を算出することができる。
すなわち、三次元のグリッド9において、グリッド線により区画された最小単位の三次元空間内に計測位置がある場合、該最小の三次元空間を構成する8つの格子点それぞれにおけるオフセット値と、該8つの格子点と計測位置との各XYZ軸方向における距離値の加重平均に基づいて、計測位置におけるオフセット値を算出することができる。
[補正マップの生成方法]
(補正マップの生成方法の概略)
補正マップは、第1カメラ2Aと第2カメラ2Bそれぞれのセンシング結果、LiDARセンサ3のセンシング結果を用いて、生成することができる。以下、図6及び図7を用いて補正マップの生成方法の概略について説明する。
(補正マップの生成方法の概略)
補正マップは、第1カメラ2Aと第2カメラ2Bそれぞれのセンシング結果、LiDARセンサ3のセンシング結果を用いて、生成することができる。以下、図6及び図7を用いて補正マップの生成方法の概略について説明する。
図6は、2つのカメラと1つのLiDARセンサを備える携帯端末1を用いた補正マップの生成例を説明する模式図である。携帯端末1の撮影領域内に、認識対象物であるユーザUの手が位置した状態で、補正マップの生成は行われる。
図6において、ユーザUの手に重なって示される複数の中が白い小さな白丸は、ユーザUの手の特徴点位置6を示すものであり、関節位置、指先位置、手首位置等を示す。
ここでは、人差し指の指先位置を認識する場合について説明する。
図6において、ユーザUの手に重なって示される複数の中が白い小さな白丸は、ユーザUの手の特徴点位置6を示すものであり、関節位置、指先位置、手首位置等を示す。
ここでは、人差し指の指先位置を認識する場合について説明する。
図6において、符号120が付された白丸は、第1カメラ2Aと第2カメラ2Bそれぞれで取得されたRGB画像から検出された二次元特徴点位置を用いて三角測量により算出された人差し指の指先の三次元特徴点位置を示す。この三角測量を用いて算出した指先位置120は、実際の指先位置に相当するとし、実際の認識対象物のデプス値の情報を含むものとする。
図6において、符号130は、LiDARセンサ3で取得されたデプス画像に基づく人差し指の指先の三次元特徴点位置を示す。LiDARセンサ3で取得される人差し指の指先位置130は、LiDARセンサ3での計測時の表面下散乱により、実際の認識対象物の指先位置120とデプス値がずれている。
三角測量を用いて算出した指先位置120と、LiDARセンサ3のデプス画像に基づく人差し指の指先位置130との差分が誤差成分となる。この誤差成分が、補正マップにおける「デプスに関するオフセット値」となる。
このような誤差成分のデータを、撮影領域全体で取得することによって、携帯端末1における認識対象が人の肌である場合のLiDARセンサ3に由来する計測誤差を補正するための補正マップを生成することができる。
このような誤差成分のデータを、撮影領域全体で取得することによって、携帯端末1における認識対象が人の肌である場合のLiDARセンサ3に由来する計測誤差を補正するための補正マップを生成することができる。
図7を用いて、処理部50での補正マップ生成の処理の流れを説明する。
図7に示すように、LiDARセンサ3のデプス画像から認識対象物の三次元特徴点位置が検出される(ST11)。このデプス画像に基づく三次元特徴点位置は、図6における符号130に対応する。
また、第1カメラ2A及び第2カメラ2BそれぞれのRGB画像から二次元特徴点位置が検出される(ST12)。検出された二次元特徴点位置を用いて三角測量により認識対象物の三次元特徴点位置が算出される(ST13)。この三角測量によって算出される三次元特徴点位置は、認識対象物の実際の三次元特徴点位置である。三角測量によって算出される三次元特徴点位置は、図6における符号120に対応する。
図7に示すように、LiDARセンサ3のデプス画像から認識対象物の三次元特徴点位置が検出される(ST11)。このデプス画像に基づく三次元特徴点位置は、図6における符号130に対応する。
また、第1カメラ2A及び第2カメラ2BそれぞれのRGB画像から二次元特徴点位置が検出される(ST12)。検出された二次元特徴点位置を用いて三角測量により認識対象物の三次元特徴点位置が算出される(ST13)。この三角測量によって算出される三次元特徴点位置は、認識対象物の実際の三次元特徴点位置である。三角測量によって算出される三次元特徴点位置は、図6における符号120に対応する。
次に、ST23で算出された複数のカメラ(第1カメラ2A及び第2カメラ2B)それぞれのRGB画像に基づいて算出された三次元特徴点位置に対する、ST21で推定されたLiDARセンサ3のデプス画像に基づく三次元特徴点位置の差分が、誤差成分として算出される(ST14)。
このような誤差成分のデータが撮影領域全体で取得されることにより、補正マップが生成される。
このような誤差成分のデータが撮影領域全体で取得されることにより、補正マップが生成される。
このように、補正マップは、LiDARセンサ3のセンシング結果に基づく認識対象物のデプス値と実際の認識対象物のデプス値との差分情報を含む。
図8は、補正マップ生成時に表示部34に表示される基本的な画像を説明する図である。
補正マップの生成時、図8(A)及び(B)に示すように、携帯端末1の表示部34には、第1カメラ2A又は第2カメラ2Bにより取得されたスルー画像に、補正マップ生成のための仮想オブジェクトであるターゲット球7が重畳表示された画像が表示される。尚、補正マップ生成のための仮想オブジェクトは、球状に限られず、種々の形状とすることができる。
ユーザUは、例えば一方の手で携帯端末1を持ち、他方の手を撮影領域内に位置させて表示部34に他方の手が映し出される体勢をとる。ユーザUが、表示部34に表示される画像を見て、他方の手を動かすことによって、補正マップの生成が行われる。
ターゲット球7は、撮影領域内でその位置が変化可能に表示される。ユーザUは、表示部34に映し出されるターゲット球7の動きに応じて、ターゲット球7を追いかけるように他方の手を動かす。このように、ターゲット球7の動きに応じて手を動かすことにより、撮影領域全体における誤差成分のデータを取得することができ、該データを用いて補正マップを生成することができる。
補正マップの生成時、図8(A)及び(B)に示すように、携帯端末1の表示部34には、第1カメラ2A又は第2カメラ2Bにより取得されたスルー画像に、補正マップ生成のための仮想オブジェクトであるターゲット球7が重畳表示された画像が表示される。尚、補正マップ生成のための仮想オブジェクトは、球状に限られず、種々の形状とすることができる。
ユーザUは、例えば一方の手で携帯端末1を持ち、他方の手を撮影領域内に位置させて表示部34に他方の手が映し出される体勢をとる。ユーザUが、表示部34に表示される画像を見て、他方の手を動かすことによって、補正マップの生成が行われる。
ターゲット球7は、撮影領域内でその位置が変化可能に表示される。ユーザUは、表示部34に映し出されるターゲット球7の動きに応じて、ターゲット球7を追いかけるように他方の手を動かす。このように、ターゲット球7の動きに応じて手を動かすことにより、撮影領域全体における誤差成分のデータを取得することができ、該データを用いて補正マップを生成することができる。
より具体的な補正マップの生成方法について、以下に説明する。
(補正マップの具体的な生成方法例)
図9及び図10を用いて、より具体的な補正マップの生成方法について説明する。
図9は、補正マップ生成時の表示部34に表示される画像を説明する図である。
図10は、補正マップ生成時に表示部34に表示される画像の表示に係るフロー図である。
(補正マップの具体的な生成方法例)
図9及び図10を用いて、より具体的な補正マップの生成方法について説明する。
図9は、補正マップ生成時の表示部34に表示される画像を説明する図である。
図10は、補正マップ生成時に表示部34に表示される画像の表示に係るフロー図である。
上述したように、補正マップの生成処理の際、ユーザUは、一方の手で携帯端末1を持ち、他方の手をカメラ2の視野領域に入るように位置させた体勢をとる。
ユーザUは、表示部34を見ながら、表示部34に表示されるターゲット球の移動方向や大きさに応じて、他方の手を動かす。この手の動きの情報に基づいて補正マップが生成される。
ユーザUは、表示部34を見ながら、表示部34に表示されるターゲット球の移動方向や大きさに応じて、他方の手を動かす。この手の動きの情報に基づいて補正マップが生成される。
図10のフローに従い、図9を参照して補正マップ生成時に表示される画像について説明する。
補正マップの生成処理がスタートすると、図9(A)に示すように、携帯端末1の表示部34に、第1カメラ2A又は第2カメラ2Bで撮影されたスルー画像が表示される(ST21)。さらに、図9(A)に示すように、スルー画像に重畳して、目標場所にターゲット球7が表示され(ST22)、該ターゲット球7を追うユーザUの手の認識結果としてユーザ認識結果の球11が表示される(ST23)。以下、「ユーザ認識結果の球」を「ユーザ球」という。
補正マップの生成処理がスタートすると、図9(A)に示すように、携帯端末1の表示部34に、第1カメラ2A又は第2カメラ2Bで撮影されたスルー画像が表示される(ST21)。さらに、図9(A)に示すように、スルー画像に重畳して、目標場所にターゲット球7が表示され(ST22)、該ターゲット球7を追うユーザUの手の認識結果としてユーザ認識結果の球11が表示される(ST23)。以下、「ユーザ認識結果の球」を「ユーザ球」という。
ターゲット球7及びユーザ球11はいずれも仮想オブジェクトである。ターゲット球7は例えば黄色、ユーザ球11は例えば青色というように、互いに異なる色で表示され、両者は識別可能となっている。
ターゲット球7の大きさは変化することなく、常に一定の大きさで表示される。
ユーザ球11は、認識されたユーザUの手の所定の位置に表示される。例えば、図8に示す例では、ユーザ球11の中心が中指の付け根付近に位置するようにユーザ球11は表示される。ユーザ球11は、LiDARセンサ3でのセンシング結果に基づく認識結果を示す。ユーザ球11は、表示部34に表示される画像において、ユーザUのXY平面内での手の動きに追従して移動するように表示される。更に、ユーザ球11は、ユーザUのZ軸方向における手の動きに応じて大きさが変化する。言い換えると、ユーザ球11の大きさは、ユーザUの手のZ軸方向における位置(デプス値)に応じて変化する。
ターゲット球7の大きさは変化することなく、常に一定の大きさで表示される。
ユーザ球11は、認識されたユーザUの手の所定の位置に表示される。例えば、図8に示す例では、ユーザ球11の中心が中指の付け根付近に位置するようにユーザ球11は表示される。ユーザ球11は、LiDARセンサ3でのセンシング結果に基づく認識結果を示す。ユーザ球11は、表示部34に表示される画像において、ユーザUのXY平面内での手の動きに追従して移動するように表示される。更に、ユーザ球11は、ユーザUのZ軸方向における手の動きに応じて大きさが変化する。言い換えると、ユーザ球11の大きさは、ユーザUの手のZ軸方向における位置(デプス値)に応じて変化する。
携帯端末1により、例えば音声等によって、ユーザに対して、図9(B)に示すように、ターゲット球7にユーザ球11が合致するように手を動かすよう誘導が行われる(ST24)。ここで、ターゲット球7とユーザ球11が合致するとは、両者の位置及び両者の球の大きさがほぼ同じとなることをいう。ターゲット球7とユーザ球11との合致の誘導は、音声の他、文章で表示部34に表示されてもよい。
次に、図9(C)に示すように、ターゲット球7とユーザ球11の合致が認められると、図9(D)に示すようにターゲット球7が移動する。携帯端末1により、音声等によって、ユーザUに対して、ターゲット球7の動きにユーザUの手を追従させるように誘導が行われる。ターゲット球7は、撮影領域全体を移動する。
補正マップ生成部55により、撮影領域全体を移動するターゲット球7を追うように移動するユーザUの手の動き情報が取得される。すなわち、補正マップ生成部55により、撮影領域全体のLiDARセンサ3による認識対象物(手)の三次元位置情報が取得される(ST25)。
更に、上述のST11~ST15の補正マップ生成処理では、補正マップ生成部55により、LiDARセンサ3による認識対象物の三次元位置情報の取得と平行して、三角測量により算出される三次元位置情報も取得される。
すなわち、補正マップ生成部55により、2つのカメラ2A及び2BのRGB画像が取得され、各カメラのRGB画像から検出された認識対象物の二次元位置情報を用いて三角測量により認識対象物の三次元位置が算出される。この三角測量により算出される三次元位置情報も、撮影領域全体に亘って取得される。
すなわち、補正マップ生成部55により、2つのカメラ2A及び2BのRGB画像が取得され、各カメラのRGB画像から検出された認識対象物の二次元位置情報を用いて三角測量により認識対象物の三次元位置が算出される。この三角測量により算出される三次元位置情報も、撮影領域全体に亘って取得される。
そして、図7のフロー図を用いて説明したように、LiDARセンサ3のデプス画像(センシング結果)に基づく認識対象物の三次元位置情報と、2つのカメラ2A及び2BそれぞれのRGB画像(センシング結果)に基づく三次元位置情報との誤差が算出される。補正マップ生成部55により、撮影領域全体における誤差成分のデータを用いて補正マップが生成される。
このように、ユーザにより、携帯端末1毎に、LiDARセンサ3による計測誤差(測距誤差)を補正する補正マップを生成することができ、搭載されているLiDARセンサ3に適した調整が可能となる。
このように、ユーザにより、携帯端末1毎に、LiDARセンサ3による計測誤差(測距誤差)を補正する補正マップを生成することができ、搭載されているLiDARセンサ3に適した調整が可能となる。
尚、補正マップは、上述のように、携帯端末1毎にユーザにより生成されてもよいし、予め準備されていてもよい。LiDARセンサ及びカメラを備える機器(本実施形態における携帯端末)において、機器の種類毎に搭載されるセンサの種類は予めわかるので、機種やセンサ毎に、認識対象物が人の肌である場合の補正マップが予め生成され準備されていてもよい。後述する第2実施形態においても同様のことがいえる。
<第2実施形態>
第1実施形態では、2つのカメラと1つのLiDARセンサそれぞれのセンシング結果を用いて補正マップを生成する例をあげたが、これに限定されない。
本実施形態では、機器(本実施形態では携帯端末)に搭載される1つのカメラと1つのLiDARセンサそれぞれのセンシング結果を用いて補正マップを生成する例をあげる。
本実施形態における機器としての携帯端末は、カメラの数が異なる点で第1実施形態の携帯端末と異なり、その他の基本構成は同様であり、処理部50の構成はほぼ同様である。第1実施形態における携帯端末は複眼カメラを搭載しているのに対し、第2に実施形態における携帯端末は単眼カメラを搭載している。以下、異なる点について主に説明する。
第1実施形態では、2つのカメラと1つのLiDARセンサそれぞれのセンシング結果を用いて補正マップを生成する例をあげたが、これに限定されない。
本実施形態では、機器(本実施形態では携帯端末)に搭載される1つのカメラと1つのLiDARセンサそれぞれのセンシング結果を用いて補正マップを生成する例をあげる。
本実施形態における機器としての携帯端末は、カメラの数が異なる点で第1実施形態の携帯端末と異なり、その他の基本構成は同様であり、処理部50の構成はほぼ同様である。第1実施形態における携帯端末は複眼カメラを搭載しているのに対し、第2に実施形態における携帯端末は単眼カメラを搭載している。以下、異なる点について主に説明する。
第2実施形態において、認識装置としても機能する携帯端末1の記憶部56に記憶される補正マップ(デプス補正情報)の生成処理のプログラムは、以下のステップを認識装置(本実施形態では携帯端末1)に実行させるためのものである。
上記ステップは、1つのカメラのRGB画像(センシング結果)から認識対象物の二次元位置を検出するステップと、LiDARセンサの信頼度画像(センシング結果)から認識対象物の二次元位置を検出するステップと、カメラのRGB画像に基づく認識対象物の二次元位置とLiDARセンサの信頼度画像に基づく認識対象物の二次元位置を用いて三角測量により認識対象物の三次元位置を算出するステップと、LiDARセンサのデプス画像から認識対象物の三次元位置を検出するステップと、三角測量により算出された認識対象物の三次元位置とLiDARセンサのデプス画像に基づく認識対象物の三次元位置との差分を用いてデプス補正情報(補正マップ)を生成するステップ、である。
上記ステップは、1つのカメラのRGB画像(センシング結果)から認識対象物の二次元位置を検出するステップと、LiDARセンサの信頼度画像(センシング結果)から認識対象物の二次元位置を検出するステップと、カメラのRGB画像に基づく認識対象物の二次元位置とLiDARセンサの信頼度画像に基づく認識対象物の二次元位置を用いて三角測量により認識対象物の三次元位置を算出するステップと、LiDARセンサのデプス画像から認識対象物の三次元位置を検出するステップと、三角測量により算出された認識対象物の三次元位置とLiDARセンサのデプス画像に基づく認識対象物の三次元位置との差分を用いてデプス補正情報(補正マップ)を生成するステップ、である。
図11及び図12を用いて、本実施形態における補正マップの生成方法について説明する。
図11は、携帯端末1を用いた補正マップの生成例を説明する模式図である。
図11において、ユーザUの手に重なって示される複数の中が白い小さな白丸は、ユーザUの手の特徴点位置6を示す。ここでは、人差し指の指先位置を認識する場合について説明する。
図12は、本実施形態における補正マップ生成方法のフロー図である。
尚、補正マップ生成時の表示部に表示される画像は、第1実施形態と同様である。
図11は、携帯端末1を用いた補正マップの生成例を説明する模式図である。
図11において、ユーザUの手に重なって示される複数の中が白い小さな白丸は、ユーザUの手の特徴点位置6を示す。ここでは、人差し指の指先位置を認識する場合について説明する。
図12は、本実施形態における補正マップ生成方法のフロー図である。
尚、補正マップ生成時の表示部に表示される画像は、第1実施形態と同様である。
図11において、符号121は、カメラ2のRGB画像から検出された二次元特徴点位置とLiDARセンサ3の信頼度画像から検出された二次元特徴点位置とを用いて、三角測量により算出した人差し指の指先位置を示す。三角測量を用いて算出した指先位置121は、実際の指先位置に相当するものとし、実際の認識対象物のデプス値の情報を含むものとする。指先位置121は、認識対象物の三次元特徴点位置である。
信頼度画像は、LiDARセンサ3で取得されるデプス情報の信頼度を画素毎に表す信頼度情報である。該信頼度は、LiDARセンサ3でデプス情報を取得する際に、同時に算出される。信頼度は、デプス情報算出に用いた画像の輝度情報やコントラスト情報を用いて算出される。信頼度は実数値で画素毎に決定され、最終的に信頼度を輝度値とするグレースケールの画像として信頼度画像が生成される。
図11において、符号131は、LiDARセンサ3で取得されたデプス画像に基づく人差し指の指先の三次元特徴点位置を示す。LiDARセンサ3で取得される人差し指の指先位置131は、LiDARセンサ3での計測時の表面下散乱により、実際の認識対象物の指先位置121とデプス値がずれている。
三角測量を用いて算出した指先位置121と、LiDARセンサ3のデプス画像に基づく人差し指の指先位置131との差分が誤差成分となる。この誤差成分が、補正マップにおける「デプスに関するオフセット値」となる。
このような誤差成分のデータを、撮影領域全体で取得することによって、携帯端末1における認識対象が人の肌である場合のLiDARセンサ3に由来する計測誤差を補正するための補正マップを生成することができる。
このような誤差成分のデータを、撮影領域全体で取得することによって、携帯端末1における認識対象が人の肌である場合のLiDARセンサ3に由来する計測誤差を補正するための補正マップを生成することができる。
このように、補正マップは、LiDARセンサ3のセンシング結果に基づく認識対象物のデプス値と実際の認識対象物のデプス値との差分情報を含む。
本実施形態の補正マップ生成処理では、補正マップ生成部55により、LiDARセンサ3のデプス画像(センシング結果)に基づく認識対象物の三次元位置情報と、1つのカメラ2のRGB画像(センシング結果)とLiDARセンサ3の信頼度画像(センシング結果)とに基づく認識対象物の三次元位置情報とを用いて、補正マップが生成される。
以下、図12を用いて処理部50での補正マップ生成の処理の流れを説明する。
以下、図12を用いて処理部50での補正マップ生成の処理の流れを説明する。
図12に示すように、LiDARセンサ3のデプス画像から認識対象物の三次元特徴点位置が検出される(ST31)。このデプス画像に基づく三次元特徴点位置は、図11における符号131に対応する。
また、LiDARセンサ3の信頼度画像から二次元特徴点が検出される(ST32)。
また、カメラ2のRGB画像から二次元特徴点位置が検出される(ST33)。
また、LiDARセンサ3の信頼度画像から二次元特徴点が検出される(ST32)。
また、カメラ2のRGB画像から二次元特徴点位置が検出される(ST33)。
次に、信頼度画像から検出された二次元特徴点位置と、カメラ2のRGB画像から検出された二次元特徴点位置を用いて、三角測量により認識対象物の三次元特徴点位置が算出される(ST34)。この三角測量を用いて算出される三次元特徴点位置は、認識対象物の実際の三次元特徴点位置に相当するものである。三角測量によって算出される三次元特徴点位置は、図11における符号121に対応する。
次に、ST34で三角測量を用いて算出された認識対象物の三次元特徴点位置に対する、ST31で推定されたLiDARセンサ3のデプス画像に基づく三次元特徴点位置の差分が、誤差成分として算出される(ST35)。
このような誤差成分のデータが撮影領域全体で取得されることにより、補正マップが生成される。
このような誤差成分のデータが撮影領域全体で取得されることにより、補正マップが生成される。
以上の各実施形態のように、本技術は、LiDARセンサとカメラ(イメージセンサ)を備える機器の、LiDARセンサで取得されるデプス値を、LiDARセンサのセンシング結果とカメラのセンシング結果を用いて生成された補正マップ(デプス補正情報)を参照して補正している。これにより、LiDARセンサの個体差に応じたLiDARセンサのセンシング結果のデプス値における誤差の補正が可能となり、認識対象物の認識精度を向上させることができる。
本技術は、認識対象物が、人間の肌のように半透明体である場合に特に好ましく適用される。本技術においては、認識対象物が半透明体であっても、補正マップを用いてLiDARセンサで取得されるデプス値を補正することにより、認識対象物での表面下散乱やセンサデバイスの個体差によるLiDARセンサの計測値と実際値とのずれ(誤差)が補正される。これにより、安定した高精度な認識対象物の計測が可能となり、認識対象物の認識精度を向上させることができる。
このため、本技術は、上述の説明のように、肌が露出される状態の多い人間の手の認識に、特に好ましく適用することができる。
また、本技術は、ユーザが実行するジェスチャ動作を認識するジェスチャ認識にも適用され得る。ゲームや家電機器等のコントローラやリモートコントローラの代替として、ユーザが実行する手によるジェスチャ動作のジェスチャ認識結果を用い、ゲームや家電機器の操作入力等を行うことができる。本技術では、認識対象物の高精度な認識が可能であるので、安定かつ正確な操作入力が可能となる。
このため、本技術は、上述の説明のように、肌が露出される状態の多い人間の手の認識に、特に好ましく適用することができる。
また、本技術は、ユーザが実行するジェスチャ動作を認識するジェスチャ認識にも適用され得る。ゲームや家電機器等のコントローラやリモートコントローラの代替として、ユーザが実行する手によるジェスチャ動作のジェスチャ認識結果を用い、ゲームや家電機器の操作入力等を行うことができる。本技術では、認識対象物の高精度な認識が可能であるので、安定かつ正確な操作入力が可能となる。
<他の構成例>
本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、上述の第1及び第2実施形態では、それぞれ別々のデバイスであるRGBカメラとLiDARセンサを用いる例をあげたが、RGB画像とデプス画像(NIR画像)を同時に撮影可能な1つのデバイスであるRGB-Dカメラを用いてもよい。
第1実施形態において、2つのカメラと1つのLiDARセンサの代わりに、1つのカメラと、1つのRGB-Dカメラを用いてもよい。
第2実施形態において、1つのカメラと1つのLiDARセンサの代わりに、1つのRGB-Dカメラを用いてもよい。
第1実施形態において、2つのカメラと1つのLiDARセンサの代わりに、1つのカメラと、1つのRGB-Dカメラを用いてもよい。
第2実施形態において、1つのカメラと1つのLiDARセンサの代わりに、1つのRGB-Dカメラを用いてもよい。
また、例えば、上述の実施形態においては、イメージセンサ及びLiDARセンサを備える機器である携帯端末が、認識対象物を認識する認識装置として機能する例をあげた。これに対し、認識対象物を認識する認識装置が、イメージセンサ及びLiDARセンサを備える機器とは別の外部機器であってもよい。例えば、図3に示す処理部50の一部又は全てが、イメージセンサ及びLiDARセンサを備える機器とは別のサーバ等の外部機器によって構成されていてもよい。
本技術は、以下の構成をとることもできる。
(1) 認識対象物に光を照射する発光部と、前記認識対象物から反射される光を受光する受光部とを有するLiDAR(Light Detection and Ranging)センサと前記認識対象物を撮像するイメージセンサとを備える機器の、前記LiDARセンサで取得される前記認識対象物のデプス値を、前記LiDARセンサのセンシング結果及び前記イメージセンサのセンシング結果を用いて生成されるデプス補正情報を参照して補正する処理部
を具備する認識装置。
(2) 上記(1)に記載の認識装置であって、
前記デプス補正情報は、前記LiDARセンサのセンシング結果に基づく前記認識対象物のデプス値と、前記認識対象物の実際のデプス値との差分情報を含む
認識装置。
(3) 上記(1)又は(2)に記載の認識装置であって、
前記機器は、複数の前記イメージセンサと、1つの前記LiDARセンサを備え、
前記デプス補正情報は、複数の前記イメージセンサそれぞれのセンシング結果から検出される前記認識対象物の位置情報を用いて三角測量により算出される前記認識対象物のデプス値と、前記LiDARセンサのセンシング結果としてのデプス画像に基づく前記認識対象物のデプス値との差分情報を含む
認識装置。
(4) 上記(1)又は(2)に記載の認識装置であって、
前記機器は、少なくとも1つの前記イメージセンサと、1つの前記LiDARセンサを備え、
前記デプス補正情報は、1つの前記イメージセンサのセンシング結果から検出される前記認識対象物の位置情報と前記LiDARセンサのセンシング結果としての信頼度画像から検出される前記認識対象物の位置情報とを用いて三角測量により算出される前記認識対象物のデプス値と、前記LiDARセンサのセンシング結果としてのデプス画像に基づく前記認識対象物のデプス値との差分情報を含む
認識装置。
(5) 上記(1)~(4)のいずれか1つに記載の認識装置であって、
前記認識対象物は半透明体である
認識装置。
(6) 上記(5)に記載の認識装置であって、
前記認識対象物は人間の肌である
認識装置。
(7) 上記(6)に記載の認識装置であって、
前記認識対象物は人間の手である
認識装置。
(8) 上記(1)~(7)のうちいずれか1つに記載の認識装置であって、
前記処理部は、前記認識対象物である人間のジェスチャ動作を認識する
認識装置。
(9) 上記(1)~(8)のうちいずれか1つに記載の認識装置であって、
前記処理部は、前記LiDARセンサのセンシング結果及び前記イメージセンサのセンシング結果を用いて前記デプス補正情報を生成する
認識装置。
(10) 上記(1)~(9)のうちいずれか1つに記載の認識装置であって、
前記機器は表示部を備え、
前記処理部は、補正した前記認識対象物のデプス値を用いて、前記表示部に表示する画像を生成する
認識装置。
(11) 認識対象物に光を照射する発光部と、前記認識対象物から反射される光を受光する受光部とを有するLiDAR(Light Detection and Ranging)センサと前記認識対象物を撮像するイメージセンサとを備える機器の、前記LiDARセンサで取得される前記認識対象物のデプス値を、前記LiDARセンサのセンシング結果及び前記イメージセンサのセンシング結果を用いて生成されるデプス補正情報を参照して補正する
認識方法。
(12) 認識対象物に光を照射する発光部と、前記認識対象物から反射される光を受光する受光部とを有するLiDAR(Light Detection and Ranging)センサと前記認識対象物を撮像するイメージセンサとを備える機器の、前記LiDARセンサで取得される前記認識対象物のデプス値を、前記LiDARセンサのセンシング結果及び前記イメージセンサのセンシング結果を用いて生成されるデプス補正情報を参照して補正するステップ
を認識装置に実行させるプログラム。
(1) 認識対象物に光を照射する発光部と、前記認識対象物から反射される光を受光する受光部とを有するLiDAR(Light Detection and Ranging)センサと前記認識対象物を撮像するイメージセンサとを備える機器の、前記LiDARセンサで取得される前記認識対象物のデプス値を、前記LiDARセンサのセンシング結果及び前記イメージセンサのセンシング結果を用いて生成されるデプス補正情報を参照して補正する処理部
を具備する認識装置。
(2) 上記(1)に記載の認識装置であって、
前記デプス補正情報は、前記LiDARセンサのセンシング結果に基づく前記認識対象物のデプス値と、前記認識対象物の実際のデプス値との差分情報を含む
認識装置。
(3) 上記(1)又は(2)に記載の認識装置であって、
前記機器は、複数の前記イメージセンサと、1つの前記LiDARセンサを備え、
前記デプス補正情報は、複数の前記イメージセンサそれぞれのセンシング結果から検出される前記認識対象物の位置情報を用いて三角測量により算出される前記認識対象物のデプス値と、前記LiDARセンサのセンシング結果としてのデプス画像に基づく前記認識対象物のデプス値との差分情報を含む
認識装置。
(4) 上記(1)又は(2)に記載の認識装置であって、
前記機器は、少なくとも1つの前記イメージセンサと、1つの前記LiDARセンサを備え、
前記デプス補正情報は、1つの前記イメージセンサのセンシング結果から検出される前記認識対象物の位置情報と前記LiDARセンサのセンシング結果としての信頼度画像から検出される前記認識対象物の位置情報とを用いて三角測量により算出される前記認識対象物のデプス値と、前記LiDARセンサのセンシング結果としてのデプス画像に基づく前記認識対象物のデプス値との差分情報を含む
認識装置。
(5) 上記(1)~(4)のいずれか1つに記載の認識装置であって、
前記認識対象物は半透明体である
認識装置。
(6) 上記(5)に記載の認識装置であって、
前記認識対象物は人間の肌である
認識装置。
(7) 上記(6)に記載の認識装置であって、
前記認識対象物は人間の手である
認識装置。
(8) 上記(1)~(7)のうちいずれか1つに記載の認識装置であって、
前記処理部は、前記認識対象物である人間のジェスチャ動作を認識する
認識装置。
(9) 上記(1)~(8)のうちいずれか1つに記載の認識装置であって、
前記処理部は、前記LiDARセンサのセンシング結果及び前記イメージセンサのセンシング結果を用いて前記デプス補正情報を生成する
認識装置。
(10) 上記(1)~(9)のうちいずれか1つに記載の認識装置であって、
前記機器は表示部を備え、
前記処理部は、補正した前記認識対象物のデプス値を用いて、前記表示部に表示する画像を生成する
認識装置。
(11) 認識対象物に光を照射する発光部と、前記認識対象物から反射される光を受光する受光部とを有するLiDAR(Light Detection and Ranging)センサと前記認識対象物を撮像するイメージセンサとを備える機器の、前記LiDARセンサで取得される前記認識対象物のデプス値を、前記LiDARセンサのセンシング結果及び前記イメージセンサのセンシング結果を用いて生成されるデプス補正情報を参照して補正する
認識方法。
(12) 認識対象物に光を照射する発光部と、前記認識対象物から反射される光を受光する受光部とを有するLiDAR(Light Detection and Ranging)センサと前記認識対象物を撮像するイメージセンサとを備える機器の、前記LiDARセンサで取得される前記認識対象物のデプス値を、前記LiDARセンサのセンシング結果及び前記イメージセンサのセンシング結果を用いて生成されるデプス補正情報を参照して補正するステップ
を認識装置に実行させるプログラム。
1…携帯端末(認識装置、機器)
2…カメラ(イメージセンサ)
2A…第1カメラ(イメージセンサ)
2B…第2カメラ(イメージセンサ)
3…LiDARセンサ
12、120、121…実際の指先位置、三角測量により算出された指先位置(実際のデプス値を含む認識対象物の三次元位置)
13、130、131…LiDARセンサのセンシング結果に基づく指先位置(LiDARセンサのセンシング結果に基づくデプス値を含む認識対象物の三次元位置)
34…表示部
50…処理部
2…カメラ(イメージセンサ)
2A…第1カメラ(イメージセンサ)
2B…第2カメラ(イメージセンサ)
3…LiDARセンサ
12、120、121…実際の指先位置、三角測量により算出された指先位置(実際のデプス値を含む認識対象物の三次元位置)
13、130、131…LiDARセンサのセンシング結果に基づく指先位置(LiDARセンサのセンシング結果に基づくデプス値を含む認識対象物の三次元位置)
34…表示部
50…処理部
Claims (12)
- 認識対象物に光を照射する発光部と、前記認識対象物から反射される光を受光する受光部とを有するLiDAR(Light Detection and Ranging)センサと前記認識対象物を撮像するイメージセンサとを備える機器の、前記LiDARセンサで取得される前記認識対象物のデプス値を、前記LiDARセンサのセンシング結果及び前記イメージセンサのセンシング結果を用いて生成されるデプス補正情報を参照して補正する処理部
を具備する認識装置。 - 請求項1に記載の認識装置であって、
前記デプス補正情報は、前記LiDARセンサのセンシング結果に基づく前記認識対象物のデプス値と、前記認識対象物の実際のデプス値との差分情報を含む
認識装置。 - 請求項2に記載の認識装置であって、
前記機器は、複数の前記イメージセンサと、1つの前記LiDARセンサを備え、
前記デプス補正情報は、複数の前記イメージセンサそれぞれのセンシング結果から検出される前記認識対象物の位置情報を用いて三角測量により算出される前記認識対象物のデプス値と、前記LiDARセンサのセンシング結果としてのデプス画像に基づく前記認識対象物のデプス値との差分情報を含む
認識装置。 - 請求項2に記載の認識装置であって、
前記機器は、少なくとも1つの前記イメージセンサと、1つの前記LiDARセンサを備え、
前記デプス補正情報は、1つの前記イメージセンサのセンシング結果から検出される前記認識対象物の位置情報と前記LiDARセンサのセンシング結果としての信頼度画像から検出される前記認識対象物の位置情報とを用いて三角測量により算出される前記認識対象物のデプス値と、前記LiDARセンサのセンシング結果としてのデプス画像に基づく前記認識対象物のデプス値との差分情報を含む
認識装置。 - 請求項1に記載の認識装置であって、
前記認識対象物は半透明体である
認識装置。 - 請求項5に記載の認識装置であって、
前記認識対象物は人間の肌である
認識装置。 - 請求項6に記載の認識装置であって、
前記認識対象物は人間の手である
認識装置。 - 請求項1に記載の認識装置であって、
前記処理部は、前記認識対象物である人間のジェスチャ動作を認識する
認識装置。 - 請求項1に記載の認識装置であって、
前記処理部は、前記LiDARセンサのセンシング結果及び前記イメージセンサのセンシング結果を用いて前記デプス補正情報を生成する
認識装置。 - 請求項1に記載の認識装置であって、
前記機器は表示部を備え、
前記処理部は、補正した前記認識対象物のデプス値を用いて、前記表示部に表示する画像を生成する
認識装置。 - 認識対象物に光を照射する発光部と、前記認識対象物から反射される光を受光する受光部とを有するLiDAR(Light Detection and Ranging)センサと前記認識対象物を撮像するイメージセンサとを備える機器の、前記LiDARセンサで取得される前記認識対象物のデプス値を、前記LiDARセンサのセンシング結果及び前記イメージセンサのセンシング結果を用いて生成されるデプス補正情報を参照して補正する
認識方法。 - 認識対象物に光を照射する発光部と、前記認識対象物から反射される光を受光する受光部とを有するLiDAR(Light Detection and Ranging)センサと前記認識対象物を撮像するイメージセンサとを備える機器の、前記LiDARセンサで取得される前記認識対象物のデプス値を、前記LiDARセンサのセンシング結果及び前記イメージセンサのセンシング結果を用いて生成されるデプス補正情報を参照して補正するステップ
を認識装置に実行させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021072234A JP2022166872A (ja) | 2021-04-22 | 2021-04-22 | 認識装置、認識方法及びプログラム |
PCT/JP2022/000218 WO2022224498A1 (ja) | 2021-04-22 | 2022-01-06 | 認識装置、認識方法及びプログラム |
CN202280028267.4A CN117178293A (zh) | 2021-04-22 | 2022-01-06 | 识别装置、识别方法以及程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021072234A JP2022166872A (ja) | 2021-04-22 | 2021-04-22 | 認識装置、認識方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022166872A true JP2022166872A (ja) | 2022-11-04 |
Family
ID=83722279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021072234A Pending JP2022166872A (ja) | 2021-04-22 | 2021-04-22 | 認識装置、認識方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP2022166872A (ja) |
CN (1) | CN117178293A (ja) |
WO (1) | WO2022224498A1 (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000261617A (ja) * | 1999-03-09 | 2000-09-22 | Minolta Co Ltd | 画像読み取り装置 |
JP6526955B2 (ja) * | 2014-10-27 | 2019-06-05 | 株式会社日立製作所 | センサ情報統合方法、及びその装置 |
JP2021051347A (ja) * | 2019-09-20 | 2021-04-01 | いすゞ自動車株式会社 | 距離画像生成装置及び距離画像生成方法 |
-
2021
- 2021-04-22 JP JP2021072234A patent/JP2022166872A/ja active Pending
-
2022
- 2022-01-06 WO PCT/JP2022/000218 patent/WO2022224498A1/ja active Application Filing
- 2022-01-06 CN CN202280028267.4A patent/CN117178293A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022224498A1 (ja) | 2022-10-27 |
CN117178293A (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11928838B2 (en) | Calibration system and method to align a 3D virtual scene and a 3D real world for a stereoscopic head-mounted display | |
US11215711B2 (en) | Using photometric stereo for 3D environment modeling | |
EP3788403B1 (en) | Field calibration of a structured light range-sensor | |
US9646384B2 (en) | 3D feature descriptors with camera pose information | |
US9208566B2 (en) | Speckle sensing for motion tracking | |
US20190179146A1 (en) | Selective tracking of a head-mounted display | |
JP5443134B2 (ja) | シースルー・ディスプレイに現実世界の対象物の位置をマークする方法及び装置 | |
US20170374342A1 (en) | Laser-enhanced visual simultaneous localization and mapping (slam) for mobile devices | |
US8780183B2 (en) | Computer-readable storage medium, image display apparatus, image display system, and image display method | |
US10091489B2 (en) | Image capturing device, image processing method, and recording medium | |
CN106871878A (zh) | 利用手持测距装置创建空间模型的方法 | |
US8625898B2 (en) | Computer-readable storage medium, image recognition apparatus, image recognition system, and image recognition method | |
US10019839B2 (en) | Three-dimensional object scanning feedback | |
JP2011123071A (ja) | 撮像装置、オクルージョン領域の探索方法、及びプログラム | |
US20120219177A1 (en) | Computer-readable storage medium, image processing apparatus, image processing system, and image processing method | |
EP2531980A2 (en) | Depth camera compatibility | |
CN107145822B (zh) | 偏离深度相机的用户体感交互标定的方法和系统 | |
US20150379369A1 (en) | Color identification using infrared imaging | |
US11093031B2 (en) | Display apparatus for computer-mediated reality | |
WO2022224498A1 (ja) | 認識装置、認識方法及びプログラム | |
CN113474819A (zh) | 信息处理装置、信息处理方法和程序 | |
CN112424641A (zh) | 使用用于立体图像处理的飞行时间技术 | |
CN113961068B (zh) | 一种基于增强现实头盔的近距离实物眼动交互方法 | |
WO2021253308A1 (zh) | 图像采集装置 | |
CN114449069A (zh) | 电子设备、方法和存储介质 |