JP2024503389A

JP2024503389A - 物体認識方法および飛行時間型物体認識回路

Info

Publication number: JP2024503389A
Application number: JP2023541742A
Authority: JP
Inventors: マルテアール; ゾットデイビッドダル; バルンアローラ
Original assignee: Sony Semiconductor Solutions Corp
Current assignee: Sony Semiconductor Solutions Corp
Priority date: 2021-01-15
Filing date: 2022-01-13
Publication date: 2024-01-25
Also published as: US20240071122A1; CN116710971A; WO2022152792A1; EP4278330A1

Abstract

本開示は概して、飛行時間型カメラデータの物体認識方法に関する。この飛行時間型カメラデータの物体認識方法は、予め訓練されたアルゴリズムに基づいて実際の物体を認識し、前記予め訓練されたアルゴリズムは、飛行時間型訓練データに基づいて訓練され、前記飛行時間型訓練データは、背景を示す実際の飛行時間型データと、シミュレートされた物体を表す合成オーバーレイ画像データに対して当該合成オーバーレイ画像データに基づいて生成されるマスクを適用することによって生成されるシミュレートされた飛行時間型データとの組み合わせに基づいて生成されることによって、マスクおよびシミュレートされた物体を生成する。【選択図】図７

Description

本開示は、概して、飛行時間型カメラデータの物体認識方法、および、飛行時間型カメラデータ上の物体を認識する飛行時間型物体認識回路に関する。

一般的に、奥行き画像に基づいて物体を認識する方法が知られている。

係る物体認識方法では、畳み込みニューラルネットワーク（ＣＮＮ）等のニューラルネットワーク（ＮＮ）が訓練データによって訓練される場合がある。物体を認識するためにＮＮによって生成されるアルゴリズムのロバスト性を確保するために、訓練データは多様なものとする必要があり得る。

例えば、人物を認識する場合、訓練データは、複数の異なる人物または複数の異なる姿勢を表すべきであり、常に同一人物を表すとは限らない。

訓練データは、さらに、広範なものとすることで、所定量（大量）の訓練データが訓練に用いられ、その結果、効率的且つロバストな訓練を実行することができる。

奥行き画像に基づいて物体を認識する場合、飛行時間型（ＴｏＦ）カメラの奥行きデータを用いることができる。

ＴｏＦカメラは、（シーン（例えば、物体）により反射する）出射光の奥行き、すなわち、当該シーンに対する距離を示すことができるラウンドトリップ遅延を測定することができる。

このラウンドトリップ遅延は、タイミングヒストグラムに基づいてラウンドトリップ遅延の時間を直接測定する直接的な飛行時間型（ｄＴｏＦ）等の様々な手法によって算出することができる。ｄＴｏＦは、一般的に知られているように、ＳＰＡＤ（Single Photon Avalanche Diode）技術に基づくものとすることができる。

また、飛行時間型奥行き画像は、変調された出射光とその反射光間の位相偏移を算出する直接的なＴｏＦ（ｉＴｏＦ）に基づくものとすることができる。ここで、当該光は、画像センサで（典型的には、複数のＣＡＰＤ（Current Assisted Photonic Demodulator）に基づいて）復調することができる。

Zanuttigh Pietro著「Time-of-Flight and Structured Light Depth Cameras: Technology and Applications」, page 99-１07, 0１ January 20１6（20１6-0１-0１）, Springer PLANCHE BENJAMIN他著「DepthSynth: Real-Time Realistic Synthetic Data Generation from CAD Models for 2.5D Recognition」, 20１7 INTERNATIONAL CONFERENCE ON ３ＤVISION（3DV）, IEEE,１0 October 20１7（20１7-１0-１0）, page １-１0

物体を認識する手法は既に複数存在しているが、新たな物体認識方法および物体認識回路を提供することが一般的に望ましい。

本発明の第１の態様によれば、本開示は、飛行時間型カメラデータの物体認識方法であって、予め訓練されたアルゴリズムに基づいて実際の物体を認識し、前記予め訓練されたアルゴリズムは、飛行時間型訓練データに基づいて訓練され、前記飛行時間型訓練データは、背景を示す実際の飛行時間型データと、シミュレートされた物体を表す合成オーバーレイ画像データに対して当該合成オーバーレイ画像データに基づいて生成されるマスクを適用することによって生成されるシミュレートされた飛行時間型データとの組み合わせに基づいて生成されることによって、マスクおよびシミュレートされた物体を生成する飛行時間型カメラデータの物体認識方法を提供する。

本発明の第２の態様によれば、本開示は、飛行時間型カメラデータ上の物体を認識する飛行時間型物体認識回路であって、予め訓練されたアルゴリズムに基づいて実際の物体を認識するように構成され、前記予め訓練されたアルゴリズムは、飛行時間型訓練データに基づいて訓練され、前記飛行時間型訓練データは、背景を示す実際の飛行時間型データと、シミュレートされた物体を表す合成オーバーレイ画像データに対して当該合成オーバーレイ画像データに基づいて生成されるマスクを適用することによって生成されるシミュレートされた飛行時間型データとの組み合わせに基づいて生成されることによって、マスクおよびシミュレートされた物体を生成する飛行時間型物体認識回路を提供する。

さらなる複数の態様が、従属請求項、以下の説明および図面に示されている。

本開示における実施形態は、添付の図面を参照して例として説明される。

シミュレートされた物体をマスクする方法に関する方法の本開示の一実施形態を示す。本開示の飛行時間型訓練データを生成する方法を示す。運転手または搭乗者によって行われるミュートジェスチャを認識する２値ＣＮＮ分類器を訓練するのに用いられる飛行時間型奥行き画像を示す。運転手または搭乗者によって行われるミュートジェスチャを認識する２値ＣＮＮ分類器を訓練するのに用いられる飛行時間型奥行き画像を示す。正しく装着されたシートベルトを検出する２値ＣＮＮ分類器を訓練するのに用いられる飛行時間型信頼度画像を示す。正しく装着されたシートベルトを検出する２値ＣＮＮ分類器を訓練するのに用いられる飛行時間型信頼度画像を示す。本開示の物体認識訓練回路の実施形態をブロック図で示す。本開示の物体認識訓練方法をブロック図で示す。本開示の飛行時間型カメラデータの物体認識方法をブロック図で示す。本開示の飛行時間型カメラデータの物体認識方法のさらなる実施形態をブロック図で示す。本開示に係るＴｏＦ撮像装置の一実施形態を示す。車両制御システムの概略構成の一例を示すブロック図である。車外情報検出部および撮像部の設置位置の一例を説明する際のアシストの図である。本開示の物体認識訓練方法をブロック図で示す。

図１を参照して実施形態を詳細に説明する前に、一般的な説明をする。

上述したように、飛行時間型データに基づいて物体認識を行うことが一般的に知られている。

また、上述したように、訓練データは、十分に多様且つ広範なものとする必要があり得る。例えば、ジェスチャを認識する場合、十分なダイバーシティを有するデータセットを生成するのに一定数の人材が必要とされ得る。さらに、データは、手動でラベル付けされる必要があり得る。

したがって、既存の方法は、時間がかかり、非効率的であるとされている。

しかし、多様且つ広範な訓練データセットは、物体認識を正常に実行する上で（またはロバストな物体認識アルゴリズム／モデルを生成する上で）必要不可欠なものと考えられ得る。

新たなデータセットを（例えば、手で何らかのジェスチャしている間に踏み込まれるペダルを用いて、または手指、手、腕、頭部等に対する位置センサを有するより進んだハードウェアシステムを用いて）生成するために、ラベル付けを簡略化することができるハードウェア機器を用いることが知られている。

しかし、係る機器は、セットアップに手間暇がかかり、高価であり、且つ入手や共有、持ち運びが困難な場合がある（つまり、在宅勤務に望ましくない場合がある）。したがって、訓練データは、合成（シミュレートされた）物体データの組み合わせに基づいて、且つ、実際のＴｏＦ（カメラ）データに基づいて生成することができ、合成データは、訓練データに対して高いダイバーシティおよび拡張性を実現するために作為的に変更することができるとされている。

また、既知の方法は、バイアスによって制限され得るとされている。例えば、訓練データセットが黄色いサバンナを背景にしたシマウマしか含まず、緑の草原を背景としたシマウマは、既知の物体認識方法によって上手く検出／認識できない場合がある。

本開示は、この例に限定されない。同様に、シートベルト検出器の訓練用の実際のＴｏＦデータが、シートベルトに干渉するまたはシートベルトを調節する自動車のユーザの情報を含む場合、当該ユーザの胸元の手に締められたシートベルトを示し得ることが学習され得る。しかし、このような方法では、ユーザが例えば上着を脱ぎ着するために胸元に手をやるだけでも、その都度、シートベルトとして検出してしまう。合成訓練データを用いれば、このような学習ミスを回避することが可能である。

したがって、合成データを用いる場合、任意の背景を背にした任意の対象物（例えば、緑、黄色、または他の任意の背景を背にしたシマウマ）を生成することができ、ロバストな物体認識を実現することができるとされている。

それゆえ、いくつかの実施形態は、飛行時間型カメラデータの物体認識方法であって、予め訓練されたアルゴリズムに基づいて実際の物体を認識し、予め訓練されたアルゴリズムは、飛行時間型訓練データに基づいて訓練され、飛行時間型訓練データ背景を示す実際の飛行時間型データと、シミュレートされた物体を表す合成オーバーレイ画像データに、合成オーバーレイ画像データに基づいて生成されるマスクを適用することによって生成されるシミュレートされた飛行時間型データとの組み合わせに基づいて生成されることによって、マスクおよびシミュレートされた物体を生成する、飛行時間型カメラデータの物体認識方法に関する。

以下で詳述するように、当該物体認識方法は、本開示の物体認識回路を用いて実行することができる。

飛行時間型カメラデータは、ｄＴｏＦ、ｉＴｏＦ等の飛行時間型取得処理において飛行時間型カメラから取得されるデータを含んでもよい。したがって、飛行時間型カメラデータは、シーン（例えば、物体）の奥行きを示し得る。

本開示の物体認識方法によれば、任意の所定の対象物を認識することができる。例えば、当該物体認識方法を、運転手がシートベルトをしているか否か等の１つの対象物（すなわち、この対象物は、安全ベルト等と組み合わされた人物と定義することができる）を認識するためだけに用いてもよい。いくつかの実施形態において、手の様々なジェスチャ等の複数の所定の対象物を互いに区別するのに当該物体認識方法を用いてもよい。例えば、様々なジェスチャは、（例えば、ホームオートメーション、ゲームのプレイ、戦略または軍事等のコンテキストで）様々な所定のコマンドを示し得る。

当該物体認識方法は、実際の物体を認識してもよい。この実際の物体は、上述したように任意の対象物としてもよく、飛行時間型カメラデータによって表してもよい。

上述の認識することは、予め訓練されたアルゴリズムに基づいてもよく、これは、飛行時間型訓練データに基づいてもよい。

この飛行時間型訓練データは、機械学習処理等において、例えば、人工知能によって予め訓練されたアルゴリズムを訓練するのに用いられるデータを指し得る。したがって、予め訓練されたアルゴリズムは、異なるシーンおよび物体に基づいて物体認識が訓練されるように、認識対象である異なるシーンおよび物体の複数の組み合わせを有することによって算出されてもよい。

飛行時間型訓練データは、実際の飛行時間型データとシミュレートされた飛行時間型データとの組み合わせに基づいて生成されてもよい。例えば、実際の飛行時間型データは、実際の飛行時間型取得から導出され、実際のシーンを表してもよい。いくつかの実施形態において、実際の飛行時間型データは、飛行時間型訓練データで表される画像の背景として用いられてもよく、または当該画像の背景を示してもよい。

実際の飛行時間型データを背景として用いる場合、当該実際の飛行時間型データは、（ＴｏＦカメラ等のハードウェア撮像（vision）機器による）背景（奥行き）画像の記録にしか必要とされず、当該背景（奥行き）画像は、新たなＴｏＦ訓練データに再利用することができる。さらに、既存の（奥行き）画像を用いてもよい。したがって、本開示によれば、必要な人的資源およびハードウェアが削減されるため、物体検出アルゴリズムを訓練するための安価な手段を提供することができる。

シミュレートされた飛行時間型データは、シミュレートされた飛行時間型測定値から導出され、実際の飛行時間型データに適合するように純粋にシミュレートおよび生成されてもよい。シミュレートされた飛行時間型データは、例えば、飛行時間型訓練データで表されるシーンの前景におけるシミュレートされた物体を示してもよい。

また、いくつかの実施形態において、シミュレートされた飛行時間型データは、シミュレートされた物体を表す合成オーバーレイ画像データにマスクを適用することによって生成される。

この合成オーバーレイ画像データは、当該シミュレートされた物体の、すなわち、理想的な物体を表し得るシミュレートされた生の奥行きデータに基づいた第１のインスタンスに関することができる合成オーバーレイを表すものとすることができる。理想的な物体を用いると物体認識アルゴリズムにエラーが生じ得ることが認められているため、この合成オーバーレイ画像データに対してマスクを適用することができる。

一般的に、マスクは、シミュレートされた物体がよりリアルに見えるようにしてもよく、シミュレートされた物体は、マスクに基づいて適応可能であってもよい。

これによって、マスクおよびシミュレートされた物体が生成されてもよい。

また、マスクは、合成オーバーレイ画像データに基づいてもよい。合成オーバーレイ画像データは、マスクを生成することができるように、且つ、シミュレートされた物体／合成オーバーレイの特徴（例えば、エッジ、距離／奥行き、輪郭等）に基づいて合成オーバーレイを変更または修正することができるように、適応させてもよい。

マスクは、合成オーバーレイ（例えば、認識される可能性があるまたは認識される必要があるジェスチャ、シートベルト、または、他の任意の対象物）が良好に背景画像に埋め込まれ、且つ、合成オーバーレイのテクスチャが依然として保持されることを可能とすることができる。

例えば、２値化画像（２値化マスク）は、例えば、２値のうち０（例えば、黒色で表示され得る）に（合成オーバーレイの）背景を割り当て、且つ２値のうち１（例えば、白色で表示され得る）に前景（すなわち、シミュレートされた物体）を割り当てることによって生成（演算）することができる。これによって、２値化合成オーバーレイを生成することができる。

別の例では、収縮（erosion）（例えば、エッジ除去、平滑化等）が合成オーバーレイ（これにより、収縮された合成オーバーレイが生成される）に対して、またはマスクされた２値化合成オーバーレイ（これにより、収縮およびマスクされた２値化合成オーバーレイが生成される）に対して適用されてもよい。

さらなる例では、合成オーバーレイ、２値化合成オーバーレイ、収縮された合成オーバーレイ、または、収縮された２値化合成オーバーレイのぼかし（例えば、ガウシアンぼかし、平均ぼかし、ボックスぼかし、レンズぼかし、動き放射状ぼかし、シェイプぼかし、詳細ぼかし、表面ぼかし、フィールドぼかし、虹彩絞りぼかし、チルトシフト等）が適用されてもよい。

したがって、互いに組み合わせることができるそれぞれ異なるマスク方法を想定してもよい。さらに、当該それぞれ異なるマスク方法の適用の順序付けによって、それぞれ異なるマスクおよびシミュレートされた物体を生成してもよい。例えば、先に収縮を行ってから２値化することで、２値化してから収縮するのとは異なるマスクおよびシミュレートされた物体を生成してもよい。

したがって、いくつかの実施形態において、マスクは、シミュレートされた物体の２値化、シミュレートされた物体の収縮、およびシミュレートされた物体のぼかしのうちの少なくとも１つに基づく。

マスクは、付加的または代替的に、ランダム明るさ変化、均一な明るさノイズ、および背景に基づく合成オーバーレイ画像データのバランシングのうちの少なくとも１つのシミュレートされた物体に対する適用に基づいてもよい。いくつかの実施形態において、ランダム明るさ変化、均一な明るさノイズ、および／またはバランシングは、マスク処理の任意の段階で、すなわち、合成オーバーレイに直接、２値化合成オーバーレイ等に対して適用されてもよい。

ランダム明るさ変化は、当業者に既知の任意のランダム処理に基づいてもよい。

また、均一な明るさノイズは、一般的に知られているように、１／fノイズ（ピンクノイズ）、１／Fノイズ（ブラウニアンノイズ）、ホワイトノイズ等の任意のノイズ、または、任意のノイズパワースペクトルによって表される他の任意の種類のノイズに基づいてもよい。

上述したように、マスク（例えば、ぼかし処理後のマスク）を用いて、合成オーバーレイのテクスチャを保持しながら、結果として得られる（飛行時間型訓練データの）（出力）画像の画素毎に背景画像および合成オーバーレイの「量」のバランスを調整してもよい。

本開示によると、背景および合成オーバーレイの奥行きおよび／またはテクスチャ情報がマスクの生成によって改ざんされるまたは劣化することがないようにすることができる。

また、合成オーバーレイの奥行きがランダムに変更される場合、ＴｏＦカメラに対して異なる距離に存在する各物体を検出することができるようにモデルを訓練してもよい。

合成オーバーレイにを適用する場合、ＴｏＦカメラの奥行きチャンネル画像にノイズが含まれる場合であっても物体を検出することができるようにモデルを訓練してもよい。

いくつかの実施形態において、予め訓練されたアルゴリズムは、敵対的生成ネットワーク、畳み込みニューラルネットワーク、回帰型ニューラルネットワーク、および、長・短期記憶を有するニューラルネットワークと組み合わせた畳み込みニューラルネットワークのうちの少なくとも１つに基づく。

したがって、予め訓練されたアルゴリズムは、人工知能の適用によって訓練されてもよい。

敵対的生成ネットワーク（ＧＡＮ）の場合、生成ネットワーク部は、飛行時間型訓練データセット（アルゴリズムを訓練するのに用いることができる）をさらに増加させるのに用いられてもよい。一般的に知られているように、ＧＡＮは、生成ネットワークと、識別ネットワークとを有することができる。これらのネットワークは両方とも同時ループで訓練されてもよく、生成ネットワークは、新たなＴｏＦ訓練データを生成するように学習し、識別ネットワークは、生成ネットワークによって生成されたデータを拒否するように学習することができる。各訓練ループにおいて、生成ネットワークは、新たに生成された画像または実際の画像のいずれか一方を識別ネットワークに提供することができる。これらのネットワークの両方が向上しなくなった場合、当該訓練は停止され、この生成ネットワークを用いて、当該訓練前より良好な（合成）ＴｏＦ訓練データを生成することができ、ＴｏＦ訓練データは、本開示のアルゴリズムを訓練するのに用いることができる。畳み込みニューラルネットワーク（ＣＮＮ）の場合、（実際の飛行時間型tデータの）奥行きチャンネル画像は、１つのステレオカメラの１枚の視差画像を用いるＣＮＮ検出部を訓練するために、複数のステレオカメラからの視差マップに置き換えてもよい。

いくつかの実施形態において、ＣＮＮを用いる場合、画像シークエンスは、含まれる動き情報を用いて３Ｄ畳み込みによって当該ＣＮＮを訓練するために、単一画像ではなく、明確には画像シークエンスとして記憶され得る。係る処理は、回帰型ニューラルネットワーク（ＲＮＮ）によって、または、連続画像から動き情報を用いるのに適したＣＮＮまたは他の任意の種類の人工知能と組み合わせた長・短期記憶（ＬＳＴＭ）を有するネットワーク上で同様に実行されてもよい。

いくつかの実施形態において、飛行時間型訓練データは、さらに、バウンディングボックス情報および画素精密マスキング（pixel precise masking）情報のうちの少なくとも１つを含む。

係る飛行時間型訓練データは、オブジェクト位置決め用のバウンディングボックスおよび／またはオブジェクトセグメンテーション用のオブジェクトマスクを予測するようにニューラルネットワークを訓練するのに用いられてもよい。

いくつかの実施形態において、飛行時間型訓練データは、飛行時間型画像データおよび飛行時間型信頼度データのうちの少なくとも一方を表す。

一般的に知られているように、信頼度データは、飛行時間型（奥行き）画像（飛行時間型画像データによって表される）とは異なる情報を含み得る信頼度画像を示すことができる。例えば、ｉＴｏＦにおいて、信頼度は、Ｉ値およびＱ値（当該Ｉ値およびＱ値はそれぞれ、それ自体が当業者に既知である）の（単純な）加算、ピタゴラス加算、二乗加算（squared addition）等に基づいて算出されてもよい。

したがって、画像データではなく、信頼度データが複数の異なる物体を認識するのに用いられてもよい。これは、実際の使用例に依り得る。例えば、奥行きコントラストが低いシーンでは、信頼度データが実際の物体を認識するのにより適している場合があり、これらのデータは、係るシーンを訓練するのに用いることができる。

例えば、車両のユーザがシートベルトを装着しているか否かを認識する場合、シートベルトはユーザの衣類と概ね同一の奥行きを有するため、信頼度データがより適している場合がある。つまり、ＴｏＦ装置の奥行き分解能では、ユーザがシートベルトを装着しているか否かを認識するのに不十分である場合がある。

十分な奥行き分解能が見込まれる他の実施形態では、例えば、ジェスチャ認識の場合等は画像データを用いてもよい。

一般的に、本開示によると、飛行時間型訓練データに基づいてニューラルネットワークを訓練して、飛行時間型カメラデータに適用するためにモデルを良好に汎用化してもよい。この訓練を実行するために、いくつかの実施形態では、ラベル付き奥行きチャンネル検証群が想定される。

奥行きチャンネル検証群は、奥行きチャンネル画像群（実際の飛行時間型データおよび／または飛行時間型カメラデータに基づく）を指し得る。これには、本開示の物体認識方法によって検出されることになっている画像（すなわち、実際の物体）の内容に関する情報が（例えば、手動または自動で）付される。

奥行きチャンネル検証群のラベル付けは、予測に誤りがない（すなわち、理想的なケースの）完璧なモデル出力を指し得る。

訓練の際、飛行時間型カメラデータに対してロバストな推論が実現されるように、適した構成およびパラメータの選択を予め選択または確定してもよい。

したがって、いくつかの実施形態において、飛行時間型訓練データは、さらに、ランダムデータ拡張およびハイパーパラメータチューニングのうちの少なくとも一方に基づくものである。

ニューラルネットワークを最適化するためにランダムデータ拡張が想定され得る。これは、例えば、確率的勾配降下法（ＳＧＤ：Stochastic Gradient Descent）、適応学習率最適化アルゴリズム（Ａｄａｍ：Adaptive Learning Rate Optimization）等の最適化アルゴリズムに基づいて選択される。

確率的勾配降下法アルゴリズムが、勾配降下法を実行するために、飛行時間型訓練データの小サイズのサブセット（当該小サイズのサブセットを「バッチ」と称する）を選択してもよい。

ランダムデータ拡張では、結果的に、最適化アルゴリズムによって要求されるバッチの各画像が、当該最適化アルゴリズムが当該画像を用いて勾配降下法を実行する前に変換されることになる。したがって、ランダムデータ拡張は、最適化アルゴリズムが飛行時間型訓練データを処理する前に飛行時間型訓練データに対して適用される処理を指し得る。換言すると、ランダムデータ拡張は、勾配降下法を実行するための画像変換演算を指し得る。

いくつかの実施形態において、ランダムデータ拡張は、（新たな飛行時間型訓練データを生成することができるような、飛行時間型訓練データによって表される訓練画像の）水平シフト、垂直シフト、回転、および拡大／縮小のうちの少なくとも１つを含む。

ランダムデータ拡張によって、訓練画像の不定形な空き空間がもたらされ得る。この空間は、例えば、画素を反復する処理によって埋め合わせることができる。

ランダムデータ拡張は、例示的に、係数０．３の垂直および水平シフト、４５度の回転範囲、および倍率１．５の拡大／縮小とすることができる。

いくつかの実施形態において、ランダムデータ拡張を実行する場合、合成オーバーレイは処理対象の画像の中央位置に生成される。いくつかの実施形態において、ランダムデータ拡張は、飛行時間型訓練データが既に生成された後に新たな飛行時間型訓練データが生成されるように適用されてもよい。いくつかの実施形態において、ランダムデータ拡張は、訓練中に飛行時間型訓練データに対して適用される。

予め訓練されたアルゴリズムのパラメータは、ハイパーパラメータと称される場合があり、これらは、以下に係るハイパーパラメータチューニングにおいてチューニングすることができる。

ＣＮＮが訓練に用いられる場合、第１の２つの畳み込みレイヤのカーネルサイズ、Denseレイヤのサイズ、および／または、最適化アルゴリズムが使用する学習率が、飛行時間型カメラデータに対する予め訓練されたアルゴリズムの適用のロバスト性に影響を及ぼし得るとされている。

このロバスト性を向上させるために、学習済みハイパーパラメータを変更してもよい。

例えば、同一のモデル（すなわち、同一のアルゴリズム）についての異なるバージョン群が、所定の範囲の所定のハイパーパラメータから異なる値を選択することによって生成される、多腕バンディットアルゴリズム等のグローバルサーチアルゴリズムを用いてもよい。

訓練時において、当該モデルの或るバージョンが一定のエポック数の間訓練されるように選択されてもよい、または、訓練を再開するために当該モデルの予め選択されたバージョンを選択してもよい。

係る方法によれば、奥行きチャンネル検証群を用いるメトリックが算出されてもよい。

換言すると、ハイパーパラメータチューニング部は、当該訓練を続行するためにいずれのモデルを選択するかを決定するために目標またはフィードバック機能を必要とする場合がある。メトリックとして、各モデルの検証精度は、フィードバック機能についてのメトリックとして用いることができる（本開示はこれに限定されない）。検証精度を算出する場合、検証群が必要とされる場合がある。この検証群は、実際のＴｏＦデータに対して良好に作用するモデルを優先させるための、記録された実際のＴｏＦ画像に基づくものとすることができる。

ハイパーパラメータチューニングは、さらに、（以下で詳述するように、）同一のメトリックおよび同一の奥行きチャンネル検証群を用いてアーリーストッピングを用いてもよい。

本開示に基づき、奥行き画像だけでなく、信頼度画像（上述）、グレイスケール画像、カラー画像、ステレオカメラからの視差マップ、およびＴｏＦセンサの異なる波長（複数の光源を用いる場合）で受信された画像を訓練することができる。

いくつかの実施形態において、予め訓練されたアルゴリズムは、さらに、アーリーストッピングに基づいて訓練される。

アーリーストッピングの場合、ラベル付き奥行きチャンネル検証群（上述）が必要とされ得る。訓練時において、モデルの性能は、メトリックを用いて奥行きチャンネル検証群に対して検証することができる。奥行きチャンネル検証群に対するモデルの性能が所定の閾値内で向上しなかった場合、当該訓練は停止され、その時点で最良の性能を実現しているモデルのバージョンを最終的なモデルとして用いることができる。

したがって、飛行時間型カメラデータに対するロバストな推論を実現することができる。

いくつかの実施形態において、本明細書で説明するように、実際の物体には、手が含まれる。

いくつかの実施形態において、本明細書で説明するように、当該方法は、さらに、手のジェスチャを認識する。

本開示によると、組み込まれるシステム（例えば、ＣＰＵ）上で十分な性能を発揮することができる（既知の物体認識モデルと比較して）少ない数のレイヤおよびパラメータを有する小サイズのモデルを提供することが可能である。

訓練時において、合成オーバーレイおよび背景画像は、入力データのダイバーシティが出力データセットにおいて確実に良好に得られるように、入力データセット全体（すなわち、ＴｏＦ訓練データ）にわたってランダムに選択されてもよい。

また、訓練済モデル（すなわち、アルゴリズム）のロバスト性がさらに向上されるように、少なくとも１つの勾配フィルタが、合成オーバーレイに対するランダム深度変化の適用、または、合成オーバーレイに対する均一な深度ノイズの適用のうちの少なくとも一方に適用されることが想定され得る。

また、合成オーバーレイは、既に実際のデータおよび合成データの組み合わせ（例えば、馬を示す実際のデータと鞍を示す合成／シミュレートされたデータ）であるため、純粋合成物（例えば、純粋に人工的に生成された画像／物体データ）に限定されない。いくつかの実施形態では、ＴｏＦ訓練データは、ラベル付けされた実際のＴｏＦデータを用いて拡張させることができる。

いくつかの実施形態は、本明細書で説明するように、飛行時間型カメラデータ上の物体を認識する飛行時間型物体認識回路であって、予め訓練されたアルゴリズムに基づいて実際の物体を認識するように構成され、予め訓練されたアルゴリズムは、飛行時間型訓練データに基づいて訓練され、飛行時間型訓練データ背景を示す実際の飛行時間型データと、シミュレートされた物体を表す合成オーバーレイ画像データに、合成オーバーレイ画像データに基づいて生成されるマスクを適用することによって生成されるシミュレートされた飛行時間型データとの組み合わせに基づいて生成されることによって、マスクおよびシミュレートされた物体を生成する、飛行時間型物体認識回路に関する。

回路は、プロセッサ（例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit））、ＦＰＧＡ（フィールド・プログラマブル・ゲート・アレイ）、カメラ（例えば、飛行時間型カメラ）、コンピュータ、サーバ等の論理要素間の任意の有線または無線接続に関するものとすることができる。本開示は、飛行時間型カメラデータを取得するカメラで物体認識を行う例に限定されず、（例えば、携帯電話、自動車等の）外部プロセッサ、（遠隔）サーバ等、外部で物体認識を行うこともできる。

いくつかの実施形態において、本明細書で説明するように、マスクは、シミュレートされた物体の２値化、シミュレートされた物体の収縮、およびシミュレートされた物体のぼかしのうちの少なくとも１つに基づく。いくつかの実施形態において、本明細書で説明するように、マスクは、ランダム明るさ変化、均一な明るさノイズ、および背景に基づく合成オーバーレイ画像データのバランシングのうちの少なくとも１つのシミュレートされた物体に対する適用に基づく。いくつかの実施形態において、本明細書で説明するように、予め訓練されたアルゴリズムは、敵対的生成ネットワーク、畳み込みニューラルネットワーク、回帰型ニューラルネットワーク、および、長・短期記憶を有するニューラルネットワークと組み合わせた畳み込みニューラルネットワークのうちの少なくとも１つに基づく。いくつかの実施形態において、本明細書で説明するように、飛行時間型訓練データは、さらに、バウンディングボックス情報および画素精密マスキング情報のうちの少なくとも一方を含む。いくつかの実施形態において、本明細書で説明するように、飛行時間型訓練データは、飛行時間型画像データおよび飛行時間型信頼度データのうちの少なくとも一方を表す。いくつかの実施形態において、本明細書で説明するように、飛行時間型訓練データは、さらに、ランダムデータ拡張およびハイパーパラメータチューニングのうちの少なくとも一方に基づくものである。いくつかの実施形態において、本明細書で説明するように、予め訓練されたアルゴリズムは、さらに、アーリーストッピングに基づいて訓練される。いくつかの実施形態において、本明細書で説明するように、実際の物体には、手が含まれる。いくつかの実施形態において、本明細書で説明するように、物体認識回路は、さらに、手のジェスチャを認識するように構成される。

いくつかの実施形態は、本明細書で説明するように、飛行時間型カメラデータの物体認識訓練方法であって、背景を示す実際の飛行時間型データと、シミュレートされた物体を表す合成オーバーレイ画像データに、合成オーバーレイ画像データに基づいて生成されるマスクを適用することによって生成されるシミュレートされた飛行時間型データとの組み合わせに基づいて飛行時間型訓練データを生成することによって、マスクおよびシミュレートされた物体を生成する、物体認識訓練方法に関する。

上述の生成することは、任意の種類のプロセッサ、サーバ、コンピュータ等、人工知能の訓練を実行するのに適した任意の回路で実行してもよい。当該生成することは、外部エンティティにおいて、また、アルゴリズムを訓練する同一のエンティティで実行してもよい。当該生成することは、分けて行うこともできる。例えば、合成オーバーレイ画像データを１つのエンティティで生成し、マスキングを別のエンティティで実行してもよい。

いくつかの実施形態において、当該方法は、さらに、実際の飛行時間型データを取得する。一般的に、本開示のデータは、例えば、プロセッサ、記憶部、飛行時間型カメラ、サーバから取得してもよいし、本開示の方法を実施する回路で生成してもよく、または、上述したものの任意の組み合わせに基づくものとしてもよい。

これによって、いくつかの実施形態において、本明細書で説明するように、物体認識訓練方法は、さらに、合成オーバーレイ画像データを取得する。いくつかの実施形態において、本明細書で説明するように、物体認識は、さらに、合成オーバーレイ画像データに基づいてマスクを生成する。いくつかの実施形態において、本明細書で説明するように、物体認識訓練方法は、さらにシミュレートされた物体の２値化、シミュレートされた物体の収縮、およびシミュレートされた物体のぼかしのうちの少なくとも１つに基づいてマスクを生成する。いくつかの実施形態において、本明細書で説明するように、物体認識訓練方法は、さらに、ランダム明るさ変化、均一な明るさノイズ、および背景に基づく合成オーバーレイ画像データのバランシングのうちの少なくとも１つのシミュレートされた物体に対する適用に基づいてマスクを生成する。いくつかの実施形態において、本明細書で説明するように、物体認識訓練方法は、さらに、マスクを合成オーバーレイ画像データに適用することで、シミュレートされた飛行時間型データを生成する。いくつかの実施形態において、本明細書で説明するように、物体認識訓練方法は、さらに、実際の飛行時間型データとシミュレートされた飛行時間型データとを組み合わせることによって、飛行時間型訓練データを生成する。いくつかの実施形態において、本明細書で説明するように、物体認識訓練方法は、さらに、敵対的生成ネットワーク、畳み込みニューラルネットワーク、回帰型ニューラルネットワーク、および、長・短期記憶を有するニューラルネットワークと組み合わせた畳み込みニューラルネットワークのうちの少なくとも１つに基づいて、飛行時間型訓練データに基づいて実際の物体を認識するアルゴリズムを生成する。いくつかの実施形態において、本明細書で説明するように、飛行時間型訓練データは、さらに、バウンディングボックス情報および画素精密マスキング情報のうちの少なくとも一方を含む。いくつかの実施形態において、本明細書で説明するように、飛行時間型訓練データは、飛行時間型画像データおよび飛行時間型信頼度データのうちの少なくとも一方を表す。いくつかの実施形態において、本明細書で説明するように、物体認識訓練方法は、さらに、さらに、ランダムデータ拡張およびハイパーパラメータチューニングのうちの少なくとも一方に基づいて飛行時間型訓練データを生成する。いくつかの実施形態において、本明細書で説明するように、物体認識訓練方法は、さらに、アーリーストッピングに基づいて、実際の物体を認識するアルゴリズムを生成する。いくつかの実施形態において、本明細書で説明するように、実際の物体には、手が含まれる。いくつかの実施形態において、本明細書で説明するように、物体認識訓練方法は、さらに、手のジェスチャを認識する。

いくつかの実施形態は、三次元物体または奥行き画像を、例えば、３Ｄアニメーションソフトウェアを用いて作成する飛行時間型訓練データ生成方法に関する。係る方法において、さらに、３Ｄ物体を様々な視点で視聴するために、例えば、３Ｄアニメーションソフトウェアのバーチャルカメラを用いてアニメーションシークエンスが作成されてもよい。

アニメーションシークエンスは、アルファチャンネルからの黒背景を有する奥行きチャンネルフォーマットの単一画像として記憶されてもよい。

これらの単一画像は、「合成オーバーレイ」と称することができる。

実際のＴｏＦカメラの場合、奥行きチャンネル画像（背景用）を記録してもよい。この場合、これらの画像が、アプリケーションコンテキストに関する多様性を表すために色々な内容を確実に有するようにすることができる。

一般的に、いくつかの実施形態において、全ての訓練データは、シミュレートされたデータに基づくものとされてもよい。すなわち、背景もシミュレートされたものとしてもよく、必ずしも実際の飛行時間型データを用いる必要はない。他方、オーバーレイ画像は、同様に、実際のＴｏＦ取得物に基づくものとしてもよく、その結果、訓練データは、純粋に実際のＴｏＦデータに基づくものとすることができる。係る実施形態では、実際のオーバーレイは、合成オーバーレイ（例えば、２値化、収縮等）について上述したものと同様に変更してもよい。

また本明細書に記載する方法は、コンピュータおよび/またはプロセッサに、この方法を実施させるコンピュータプログラムとして、コンピュータおよび/またはプロセッサ上で実行されるときに、いくつかの実施形態において実装される。いくつかの実施形態では、上述のプロセッサのようなプロセッサによって実行されると、本明細書に記載の方法を実施させるコンピュータプログラム製品を記憶する非一時的なコンピュータ可読記録媒体も提供される。

図１に戻ると、合成オーバーレイ画像データに基づくシミュレートされた物体２（合成（奥行き）オーバーレイとも称する）をマスクする方法、すなわち、マスクおよびシミュレートされた物体を生成する方法、または、マスクを生成する方法についての本開示の方法の一実施形態が示されている。

本明細書で説明するように、シミュレートされた物体２は２値化され、２値化マスク３（または２値化シミュレートされた物体）が生成される。本明細書で説明するように、２値化マスク２は、収縮され、収縮マスク４が生成される（収縮された２値化シミュレートされた物体とも称する）。収縮マスク４は、ガウシアンぼかしを用いてぼかし処理され、ぼかし処理済マスク５が生成される（ぼかし処理済の収縮された２値化シミュレートされた物体とも称する）。

図２は、本開示の飛行時間型訓練データを生成する方法１０を示す。合成オーバーレイ画像データに基づく合成オーバーレイ１１が処理されて、深度がランダムに変更される（１２）。さらに、均一な深度ノイズが適用され（１３）、ぼかし処理済マスク１４が生成される。本明細書で説明するように、ぼかし処理済マスク１４は合成オーバーレイ１１（図示せず）に適用され、シミュレートされた飛行時間型データが生成される。

また、実際の飛行時間型データに基づく背景画像１５がマスクおよびシミュレートされた物体１４と合成されることによって、実際の飛行時間型データとシミュレートされた飛行時間型データとが合成される。

これによって、飛行時間型訓練データが生成される。当該飛行時間型訓練データは、飛行時間型画像１６として図２に示されている。

図３ａは、運転手または搭乗者によって実行されるミュートジェスチャを認識する２値ＣＮＮ分類器を訓練するのに用いられる飛行時間型奥行き画像２０を示す。

ミュートジェスチャは、或る人物が自然な会話の中で相手に話を止めるように合図するときに行うようなジェスチャに基づく。

本実施形態では、ＴｏＦカメラが車内天井に設置される。ＣＮＮは、ＴｏＦカメラの奥行きチャンネル画像を用いて、ユーザがラジオの音楽を止めるためにミュートジェスチャを行ったか否かを検出する。

一般的に知られているように、画像２０は、PositiveクラスおよびNegativeクラスに分割される。

クラス毎に、合成オーバーレイが生成される。本明細書で説明するように、合成オーバーレイに基づいて飛行時間型訓練データ（または飛行時間型訓練画像）が生成される。

訓練については、検証データが存在し、当該検証データに対して、オブジェクト（本実施形態では、所定のジェスチャ）が認識される（Positiveクラス）または示されていないものとして（Negativeクラス）認識される。

図３ｂは、図３ａの奥行き画像２０に対応する奥行き画像２５の概略図であるため、重複する説明は省略する。

図４ａは、正しく装着されたシートベルトを検出する２値ＣＮＮ分類器を訓練するのに用いられる飛行時間型信頼度画像３０を示す。

図３ａおよび３ｂと同様に、画像３０は、PositiveクラスおよびNegativeクラスに分割される。

クラス毎に、合成オーバーレイ（例えば、シートベルトありのコート（Positiveクラス）およびシートベルトなしのコート（Negativeクラス）等の様々なファブリック）が生成される。本明細書で説明するように、合成オーバーレイに基づいて飛行時間型訓練データ（または飛行時間型訓練画像）が生成される。

合成オーバーレイに関する数値を示すために、以下に非制限的な例を挙げる。

４０種類の合成ファブリックを用いて、シートベルトがある場合とない場合の異なるアセンブリで１１２００枚の合成オーバーレイを生成してもよい。これらの合成オーバーレイを用いて、実際のＴｏＦ画像を背景として、クラス毎に４２０００枚の合成画像を生成してもよい。Negativeクラスでは、オーバーレイがないこれらの画像のうち５０％を用いて、得られるモデルのロバスト性を向上させてもよい。さらに、８０００枚の実際のＴｏＦ画像を各クラスに付加してもよく、その結果、クラス毎に５万枚の画像が存在する、すなわち、合計１０万枚の画像がＴｏＦ訓練データを構成することができる。さらに、クラス毎の８０００枚の実際のＴｏＦ画像（ラベル付き）を検証に用いてもよい。しかし、これらの検証画像は、訓練画像としては用いることはできず、例えば、事前に当該ＴｏＦ訓練データに対して付加された他方の８０００枚の画像とは異なる複数の人物およびファブリックを含む異なる環境（例えば、異なる自動車）から導出されてもよい。

図４ａに戻ると、本実施形態では、図４ａの検証データは、車両のユーザがシートベルトを締めている車内の飛行時間型画像を表す。当該飛行時間型画像に対して、物体（本実施形態では、ユーザに重なったシートベルト）が認識される（Positiveクラス）または存在しないものとして（Negativeクラス）認識される。

本実施形態では、信頼度チャンネル画像を用いて、ＴｏＦカメラ用のＣＮＮベースのシートベルト検出器が図示されている。このＴｏＦカメラは車内天井に設置される。

ＣＮＮ（すなわち、アルゴリズム）は、当該カメラの信頼度チャンネル画像を用いて、運転手または搭乗者がシートベルトを正しく装着しているか否かを検出する。

図４ｂは、図３ａの信頼度画像３０に対応する信頼度画像３５の概略図であるため、重複する説明は省略する。

図５は、本開示の物体認識訓練回路４０の一実施形態をブロック図で示す。

この物体認識回路は、訓練対象であるニューラルネットワーク（ＮＮ）４１を有する。

当該ニューラルネットワークのレイヤ４２が、合成データ（すなわち、シミュレートされたＴｏＦデータ）を生成するように構成される合成データ生成モジュール４３と、本明細書で説明するようにランダムデータ拡張を適用するように構成されるランダムデータ拡張モジュール４４と、本明細書で説明するようにアーリーストッピングを実行するように構成されるアーリーストッピングモジュール４５と、本明細書で説明するようにハイパーパラメータチューニングを実行するように構成されるハイパーパラメータチューニングモジュールとを有する。本明細書で説明するように、アーリーストッピングモジュール４５およびハイパーパラメータチューニングモジュール４６によって、ラベル付き奥行きチャンネル検証群４７が構成される。

ＮＮ４１の出力として、検証された訓練済モデル４８が生成される。

図６は、本開示の物体認識訓練方法５０のブロック図であり、当該物体認識訓練方法５０は、物体認識訓練回路４０によって実行される。

５１において、本明細書で説明するように、シミュレートされた物体がマスクされることによって合成データ（すなわち、シミュレートされたＴｏＦデータ）が生成される。

５２において、本明細書で説明するように、ランダムデータ拡張が実行される。

５３において、本明細書で説明するように、適宜、アーリーストッピングが実行される。

５４において、本明細書で説明するように、適宜、ハイパーパラメータチューニングが実行される。

これによって、５５において、ラベル付き奥行きチャンネル検証群が取得され、５６において訓練用モデルが取得される。

５７において、検証された訓練済モデルが生成される。

図７は、本開示の飛行時間型カメラデータの物体認識方法６０をブロック図で示す。

６１において、実際の物体が、予め訓練されたアルゴリズムに基づいて認識される。この予め訓練されたアルゴリズムは、飛行時間型訓練データに基づいて訓練される。本明細書で説明するように、当該飛行時間型訓練データは、背景を示す実際の飛行時間型データと、シミュレートされた物体を表す合成オーバーレイ画像データに、合成オーバーレイ画像データに基づいて生成されたマスクを適用することによって生成されるシミュレートされた飛行時間型データとの組み合わせに基づいて生成されることによって、マスクおよびシミュレートされた物体を生成する。

図８は、本開示の飛行時間型カメラデータの物体認識方法７０のさらなる実施形態をブロック図で示す。

７１において、本明細書で説明するように、手のジェスチャ（オブジェクト）が、予め訓練されたアルゴリズムに基づいて認識される。

図１１を参照すると、奥行き感知または距離測定の提供に使用可能な飛行時間型（ＴｏＦ）撮像装置８０の一実施形態が図示されており、特に、本明細書で論じられるような技術のために、ＴｏＦ撮像装置８０がｉＴｏＦカメラとして構成される。
ＴｏＦ撮像装置８０は、本明細書に記載する方法を実施するように構成され、ＴｏＦ撮像装置８０の制御を構成する飛行時間型物体認識回路１４７を有する（そして、図示しないが、当業者には一般的に知られているような、対応するプロセッサ、メモリおよび記憶装置を含む）。

このＴｏＦ撮像装置８０は、変調光源８１と、発光素子（レーザダイオードに基づく）とを備えており、本実施形態では、発光素子は狭帯域レーザ素子である。

光源８１は、光を反射するシーン８２（注目領域またはオブジェクト）に対して、本明細書で説明するように、光、すなわち変調された光を発する。反射された光は、光学スタック８３によって光検出器８４に集束される。

光検出器８４は、飛行時間型撮像部分を有し、これは、ピクセルのアレイに形成された複数のＣＡＰＤ（Current Assisted Photonic Demodulator）と、シーン８２から反射された光を飛行時間型撮像部分８５に（イメージセンサ８５の各画素に）集束させるマイクロレンズアレイ８６と、に基づいて実装される。

この光発光時間および変調情報は、飛行時間型計測部８８を含む飛行時間型物体認識回路または制御部８７に送られ、これはまた飛行時間型撮像部８５からそれぞれの情報を受信し、この光がシーン８２から反射されて検出される。光源８１から受光された変調光に基づいて、飛行時間計測部８８は、光源８１から出射され、シーン８２で反射された受光変調光の位相シフトを計算し、それに基づいて、イメージセンサ８５とシーン８２との距離ｄ（奥行き情報）を計算する。

奥行き情報は、飛行時間計測部８８から飛行時間型イメージセンサ回路８７の３Ｄ画像再構成ユニット８９に供給され、奥行きデータに基づいてシーン８２の３Ｄ画像を再構成（生成）する。さらに、本明細書で説明するように、オブジェクトＲＯＩ検出、画像ラベル付け、モルフォロジー演算の適用、および携帯電話認識が実行される。

本開示の一実施形態による技術は、様々な製品に適用可能である。例えば、本開示の一実施形態に係る技術は、自動車、電気自動車、ハイブリッド電気自動車、自動二輪車、自転車、パーソナルモビリティービークル、飛行機、ドローン、船舶、ロボット、建設機械、農業機械（トラクタ）等の任意の種類である移動体に含まれる装置として実施することができる。

図１０は、本開示の一実施形態に係る技術を適用可能な移動体制御システムの一例としての車両制御システム７０００の概略構成例を示すブロック図である。
車両制御システム７０００は、通信ネットワーク７０１０を介して接続された複数の電子制御ユニットを備える。図１０に示した例では、車両制御システム７０００は、駆動系制御ユニット７１００、ボディ系制御ユニット７２００、バッテリ制御ユニット７３００、車外情報検出ユニット７４００、車内情報検出ユニット７５００、および統合制御ユニット７６００を備える。これらの複数の制御ユニットを接続する通信ネットワーク７０１０は、例えば、ＣＡＮ（Controller Area Network）、ＬＩＮ（Local Interconnect Network）、ＬＡＮ（Local Area Network）またはFlexRay（登録商標）等の任意の規格に準拠した車載通信ネットワークであってよい。

各制御ユニットは、各種プログラムにしたがって演算処理を行うマイクロコンピュータと、マイクロコンピュータにより実行されるプログラムまたは各種演算に用いられるパラメータ等を記憶する記憶部と、各種制御対象の装置を駆動する駆動回路とを備える。
各制御ユニットは、通信ネットワーク７０１０を介して他の制御ユニットとの間で通信を行うためのネットワークＩ／Ｆを備えるとともに、車内外の装置またはセンサ等との間で、有線通信または無線通信により通信を行うための通信Ｉ／Ｆを備える。
図１０では、統合制御ユニット７６００の機能構成として、マイクロコンピュータ７６１０、汎用通信Ｉ／Ｆ７６２０、専用通信Ｉ／Ｆ７６３０、測位部７６４０、ビーコン受信部７６５０、車内機器Ｉ／Ｆ７６６０、音声画像出力部７６７０、車載ネットワークＩ／Ｆ７６８０および記憶部７６９０が図示されている。他の制御ユニットも同様に、マイクロコンピュータ、通信Ｉ／Ｆおよび記憶部等を備える。

駆動系制御ユニット７１００は、各種プログラムにしたがって車両の駆動系に関連する装置の動作を制御する。例えば、駆動系制御ユニット７１００は、内燃機関または駆動用モータ等の車両の駆動力を発生させるための駆動力発生装置、駆動力を車輪に伝達するための駆動力伝達機構、車両の舵角を調節するステアリング機構、および、車両の制動力を発生させる制動装置等の制御装置として機能する。
駆動系制御ユニット７１００は、ＡＢＳ（Antilock Brake System）またはＥＳＣ（Electronic Stability Control）等の制御装置としての機能を有してもよい。

駆動系制御ユニット７１００には、車両状態検出部７１１０が接続される。車両状態検出部７１１０には、例えば、車体の軸回転運動の角速度を検出するジャイロセンサ、車両の加速度を検出する加速度センサ、あるいは、アクセルペダルの操作量、ブレーキペダルの操作量、ステアリングホイールの操舵角、エンジン回転または車輪の回転速度等を検出するためのセンサのうちの少なくとも一つが含まれる。
駆動系制御ユニット７１００は、車両状態検出部７１１０から入力される信号を用いて演算処理を行い、内燃機関、駆動用モータ、電動パワーステアリング装置またはブレーキ装置等を制御する。

ボディ系制御ユニット７２００は、各種プログラムにしたがって車体に装備された各種装置の動作を制御する。例えば、ボディ系制御ユニット７２００は、キーレスエントリシステム、スマートキーシステム、パワーウィンドウ装置、あるいは、ヘッドランプ、バックランプ、ブレーキランプ、ウィンカーまたはフォグランプ等の各種ランプの制御装置として機能する。
この場合、ボディ系制御ユニット７２００には、鍵を代替する携帯機から発信される電波または各種スイッチの信号が入力され得る。ボディ系制御ユニット７２００は、これらの電波または信号の入力を受け付け、車両のドアロック装置、パワーウィンドウ装置、ランプ等を制御する。

バッテリ制御ユニット７３００は、各種プログラムにしたがって駆動用モータの電力供給源である二次バッテリ７３１０を制御する。例えば、バッテリ制御ユニット７３００には、二次バッテリ７３１０を備えたバッテリ装置から、バッテリ温度、バッテリ出力電圧またはバッテリの残存容量等の情報が入力される。バッテリ制御ユニット７３００は、これらの信号を用いて演算処理を行い、二次バッテリ７３１０の温度調節制御またはバッテリ装置に備えられた冷却装置等の制御を行う。

車外情報検出ユニット７４００は、車両制御システム７０００を搭載した車両の外部の情報を検出する。例えば、車外情報検出ユニット７４００には、撮像部７４１０および車外情報検出部７４２０のうちの少なくとも一方が接続される。撮像部７４１０は、ＴｏＦ（ｔｉｍｅ－ｏｆ－ｆｌｉｇｈｔ）カメラ、ステレオカメラ、単眼カメラ、赤外線カメラ、その他のカメラのうちの少なくとも１つを含む。
車外情報検出部７４２０には、例えば、現在の天候または気象を検出するための環境センサ、もしくは、車両制御システム７０００を搭載した車両の周囲の他の車両、障害物または歩行者等を検出するための周囲情報検出センサのうちの少なくとも１つが含まれる。

環境センサは、例えば、雨天を検出する雨滴センサ、霧を検出する霧センサ、日照度合いを検出する日照センサ、および降雪を検出する雪センサのうちの少なくとも一つであってよい。周囲情報検出センサは、超音波センサ、レーダ装置およびＬＩＤＡＲ（Light detection and Ranging deviceまたはLaser imaging detection and ranging device）装置のうちの少なくとも１であってよい。これらの撮像部７４１０および車外情報検出部７４２０は、それぞれ独立したセンサないし装置として備えられてもよいし、複数のセンサないし装置が統合された装置として備えられてもよい。

図１１は、撮像部７４１０および車外情報検出部７４２０の設置位置の例を示す。
撮像部７９１０、７９１２、７９１４、７９１６、および７９１８は、例えば、前ノーズ、サイドビューミラー、リアバンパ、および車両７９００のバックドア上の位置と、車両内部のフロントガラスの上部分の位置とのうちの少なくとも１つに配置される。フロントノーズに備えられる撮像部７９１０および車室内のフロントガラスの上部に備えられる撮像部７９１８は、主として車両７９００の前方の画像を取得する。
サイドミラーに備えられる撮像部７９１２，７９１４は、主として車両７９００の側方の画像を取得する。リアバンパまたはバックドアに備えられる撮像部７９１６は、主として車両７９００の後方の画像を取得する。車室内のフロントガラスの上部に備えられる撮像部７９１８は、主として先行車両、歩行者、障害物、信号機、交通標識または車線等の検出に用いられる。

なお、図１１には、それぞれの撮像部７９１０，７９１２，７９１４，７９１６の撮影範囲の一例が示されている。撮像範囲ａは、フロントノーズに設けられた撮像部７９１０の撮像範囲を示し、撮像範囲ｂ，ｃは、それぞれサイドミラーに設けられた撮像部７９１２，７９１４の撮像範囲を示し、撮像範囲ｄは、リアバンパまたはバックドアに設けられた撮像部７９１６の撮像範囲を示す。
例えば、撮像部７９１０，７９１２，７９１４，７９１６で撮像された画像データが重ね合わせられることにより、車両７９００を上方から見た俯瞰画像が得られる。

車両７９００のフロント、リア、サイド、コーナおよび車室内のフロントガラスの上部に設けられる車外情報検出部７９２０，７９２２，７９２４，７９２６，７９２８，７９３０は、例えば超音波センサまたはレーダ装置であってよい。車両７９００のフロントノーズ、リアバンパ、バックドアおよび車室内のフロントガラスの上部に設けられる車外情報検出部７９２０，７９２６，７９３０は、例えばＬＩＤＡＲ装置であってよい。これらの車外情報検出部７９２０～７９３０は、主として先行車両、歩行者または障害物等の検出に用いられる。

図１０に戻って説明を続ける。車外情報検出ユニット７４００は、撮像部７４１０に車外の画像を撮像させるとともに、撮像された画像データを受信する。また、車外情報検出ユニット７４００は、接続されている車外情報検出部７４２０から検出情報を受信する。車外情報検出部７４２０が超音波センサ、レーダ装置またはＬＩＤＡＲ装置である場合には、車外情報検出ユニット７４００は、超音波または電磁波等を発信させるとともに、受信された反射波の情報を受信する。
車外情報検出ユニット７４００は、受信した情報に基づいて、人、車、障害物、標識または路面上の文字等の物体検出処理または距離検出処理を行ってもよい。車外情報検出ユニット７４００は、受信した情報に基づいて、降雨、霧または路面状況等を認識する環境認識処理を行ってもよい。車外情報検出ユニット７４００は、受信した情報に基づいて、車外の物体までの距離を算出してもよい。

また、車外情報検出ユニット７４００は、受信した画像データに基づいて、人、車、障害物、標識または路面上の文字等を認識する画像認識処理または距離検出処理を行ってもよい。車外情報検出ユニット７４００は、受信した画像データに対して歪補正または位置合わせ等の処理を行うとともに、異なる撮像部７４１０により撮像された画像データを合成して、俯瞰画像またはパノラマ画像を生成してもよい。車外情報検出ユニット７４００は、異なる撮像部７４１０により撮像された画像データを用いて、視点変換処理を行ってもよい。

車両情報検出部７５００は、車内の情報を検出する。さらに、車載情報検出部７５００には、例えば、ドライバの状態を検出するドライバ状態検出部７５１０が接続されている。運転者状態検出部７５１０は、運転者を撮像するカメラ、運転者の生体情報を検出する生体センサまたは車室内の音声を集音するマイク等を含んでもよい。
生体センサは、例えば、座面またはステアリングホイール等に設けられ、座席に座った搭乗者またはステアリングホイールを握る運転者の生体情報を検出する。車内情報検出ユニット７５００は、運転者状態検出部７５１０から入力される検出情報に基づいて、運転者の疲労度合いまたは集中度合いを算出してもよいし、運転者が居眠りをしていないかを判別してもよい。
車内情報検出ユニット７５００は、集音された音声信号に対してノイズキャンセリング処理等の処理を行ってもよい。

統合制御ユニット７６００は、各種プログラムにしたがって車両制御システム７０００内の動作全般を制御する。統合制御ユニット７６００には、入力部７８００が接続されている。入力部７８００は、例えば、タッチパネル、ボタン、マイクロフォン、スイッチまたはレバー等、搭乗者によって入力操作され得る装置によって実現される。統合制御ユニット７６００には、マイクロフォンにより入力される音声を音声認識することにより得たデータが入力されてもよい。
入力部７８００は、例えば、赤外線または他の電波を使用する遠隔制御装置、あるいは、移動電話、携帯情報端末（ＰＤＡ）などの外部接続装置であって、車両制御システム７０００の動作をサポートするものであってもよい。入力部７８００は、例えばカメラであってもよく、その場合搭乗者はジェスチャにより情報を入力することができる。あるいは、搭乗者が装着したウェアラブル装置の動きを検出することで得られたデータが入力されてもよい。
また、入力部７８００は、例えば、の入力部７８００を用いて搭乗者等により入力された情報に基づいて入力信号を生成し、統合制御ユニット７６００に出力する入力制御回路などを含んでもよい。搭乗者等は、この入力部７８００を操作することにより、車両制御システム７０００に対して各種のデータを入力したり処理動作を指示したりする。

記憶部７６９０は、マイクロコンピュータによって実行される様々な種類のプログラムを記憶する読み出し専用メモリと、様々な種類のパラメータ、動作結果、センサ値等を記憶するランダムアクセスメモリとを備えてもよい。また、記憶部７６９０は、ＨＤＤ（Hard Disc Drive）のような磁気記憶デバイス、半導体記憶デバイス、光記憶デバイスまたは光磁気記憶デバイス等によって実現してもよい。

汎用通信Ｉ／Ｆ７６２０は、外部環境７７５０に存在する様々な機器との間の通信を仲介する汎用的な通信Ｉ／Ｆである。汎用通信Ｉ／Ｆ７６２０は、モバイル通信のためのグローバル・システム（ＧＳＭ（登録商標））、マイクロ波アクセスのための世界規模の相互運用性（ＷｉＭＡＸ（登録商標））、長期進化（ＬＴＥ（登録商標））、ＬＴＥ－ａｄｖａｎｃｅｄ（ＬＴＥ－Ａ）などのセルラ通信プロトコル、または、無線ＬＡＮ（無線フィデリティ（Wi-Fi（登録商標）とも呼ばれる）、Bluetooth（登録商標）などの別の無線通信プロトコルを実装してもよい。
汎用通信Ｉ／Ｆ７６２０は、例えば、基地局またはアクセスポイントを介して、外部ネットワーク（例えば、インターネット、クラウドネットワークまたは事業者固有のネットワーク）上に存在する機器（例えば、アプリケーションサーバまたは制御サーバ）へ接続してもよい。また、汎用通信Ｉ／Ｆ７６２０は、例えばＰ２Ｐ（Peer to Peer）技術を用いて、車両の近傍に存在する端末（例えば、運転者、歩行者若しくは店舗の端末、またはＭＴＣ（Machine Type Communication）端末）と接続してもよい。

専用通信Ｉ／Ｆ７６３０は、車両における使用を目的として策定された通信プロトコルをサポートする通信Ｉ／Ｆである。専用通信Ｉ／Ｆ７６３０は、例えば、車両環境における無線アクセス（ＷＡＶＥ）のような標準プロトコルを実装してもよく、これは、下レイヤとしての電気・電子技術者研究所（ＩＥＥＥ）８０２．１１ｐと、上位レイヤとしてのＩＥＥＥ１６０９、専用短距離通信（ＤＳＲＣ）、またはセルラ通信プロトコルの組み合わせである。
専用通信Ｉ／Ｆ７６３０は、典型的には、車車間（Vehicle to Vehicle）通信、路車間（Vehicle to Infrastructure）通信、車両と家との間（Vehicle to Home）の通信および歩車間（Vehicle to Pedestrian）通信のうちの１つ以上を含む概念であるＶ２Ｘ通信を遂行する。

測位部７６４０は、例えば、ＧＮＳＳ（Global Navigation Satellite System）衛星からのＧＮＳＳ信号（例えば、ＧＰＳ（Global Positioning System）衛星からのＧＰＳ信号）を受信して測位を実行し、車両の緯度、経度および高度を含む位置情報を生成する。なお、測位部７６４０は、無線アクセスポイントとの信号の交換により現在位置を特定してもよく、もしくは測位機能を有する携帯電話、ＰＨＳまたはスマートフォンといった端末から位置情報を取得してもよい。

ビーコン受信部７６５０は、例えば、道路上に設置された無線局から発信される電波あるいは電磁波を受信し、現在位置、渋滞、通行止めまたは所要時間等の情報を取得する。なお、ビーコン受信部７６５０の機能は、上述した専用通信Ｉ／Ｆ７６３０に含まれてもよい。

車内機器Ｉ／Ｆ７６６０は、マイクロコンピュータ７６１０と車内に存在する様々な車内機器７７６０との間の接続を仲介する通信インターフェースである。車内機器Ｉ／Ｆ７６６０は、無線ＬＡＮ、Bluetooth（登録商標）、ＮＦＣ（Near Field Communication）またはＷＵＳＢ（Wireless ＵＳＢ）といった無線通信プロトコルを用いて無線接続を確立してもよい。
また、車内機器Ｉ／Ｆ７６６０は、図示しない接続端子（および、必要であればケーブル）を介して、ＵＳＢ（Universal Serial Bus）、ＨＤＭＩ（登録商標）（High-Definition Multimedia Interface、またはＭＨＬ（Mobile High-Definition Link）等の有線接続を確立してもよい。車内機器７７６０は、例えば、搭乗者が有するモバイル機器またはウェアラブル機器、もしくは車両に搬入されまたは取り付けられる情報機器のうちの少なくとも１つを含んでいてもよい。
また、車内機器７７６０は、任意の目的地までの経路探索を行うナビゲーション装置を含んでいてもよい。車内機器Ｉ／Ｆ７６６０は、これらの車内機器７７６０との間で、制御信号またはデータ信号を交換する。

車載ネットワークＩ／Ｆ７６８０は、マイクロコンピュータ７６１０と通信ネットワーク７０１０との間の通信を仲介するインターフェースである。車載ネットワークＩ／Ｆ７６８０は、通信ネットワーク７０１０によりサポートされる所定のプロトコルに則して、信号等を送受信する。

統合制御ユニット７６００のマイクロコンピュータ７６１０は、汎用通信Ｉ／Ｆ７６２０、専用通信Ｉ／Ｆ７６３０、測位部７６４０、ビーコン受信部７６５０、車内機器Ｉ／Ｆ７６６０および車載ネットワークＩ／Ｆ７６８０のうちの少なくとも１つを介して取得される情報に基づき、各種プログラムにしたがって、車両制御システム７０００を制御する。
例えば、マイクロコンピュータ７６１０は、取得される車内外の情報に基づいて、駆動力発生装置、ステアリング機構または制動装置の制御目標値を演算し、駆動系制御ユニット７１００に対して制御指令を出力してもよい。例えば、マイクロコンピュータ７６１０は、車両の衝突回避または衝撃緩和、車間距離に基づく追従走行、車速維持走行、車両の衝突警告、もしくは車両のレーン逸脱警告等を含むＡＤＡＳ（Advanced Driver Assistance System）の機能実現を目的とした協調制御を行ってもよい。
また、マイクロコンピュータ７６１０は、取得される車両の周囲の情報に基づいて駆動力発生装置、ステアリング機構または制動装置等を制御することにより、運転者の操作に拠らずに自律的に走行する自動運転等を目的とした協調制御を行ってもよい。

マイクロコンピュータ７６１０は、汎用通信Ｉ／Ｆ７６２０、専用通信Ｉ／Ｆ７６３０、測位部７６４０、ビーコン受付部７６５０、車載装置Ｉ／Ｆ７６６０、車両搭載ネットワークＩ／Ｆ７６８０の少なくとも１つを介して取得した情報に基づいて、車両と周囲構造や人物などの物体との間の三次元距離情報を生成し、車両の現在位置に関する情報を含むローカルマップ情報を生成してもよい。
また、マイクロコンピュータ７６１０は、取得される情報に基づき、車両の衝突、歩行者等の近接または通行止めの道路への進入等の危険を予測し、警告用信号を生成してもよい。警告用信号は、例えば、警告音を発生させたり、警告ランプを点灯させたりするための信号であってよい。

音声画像出力部７６７０は、車両の搭乗者または車外に対して、視覚的または聴覚的に情報を通知することが可能な出力装置へ音声および画像のうちの少なくとも一方の出力信号を送信する。図１０の例では、出力装置として、オーディオスピーカ７７１０、表示部７７２０およびインストルメントパネル７７３０が例示されている。
表示部７７２０は、例えば、オンボードディスプレイおよびヘッドアップディスプレイの少なくとも１つを含んでいてもよい。表示部７７２０は、ＡＲ（Augmented Reality）表示機能を有していてもよい。出力装置は、これらの装置以外の、ヘッドホン、搭乗者が装着する眼鏡型ディスプレイのようなウェアラブルデバイス、プロジェクタまたはランプ等の他の装置であってもよい。
出力装置が表示装置の場合、表示装置は、マイクロコンピュータ７６１０が行った各種処理により得られた結果または他の制御ユニットから受信された情報を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。また、出力装置が音声出力装置の場合、音声出力装置は、再生された音声データまたは音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。

なお、図１０に示した例の通信ネットワーク７０１０を介して互いに接続された少なくとも２つの制御部を１つの制御部に統合してもよい。あるいは、個々の制御ユニットが、複数の制御ユニットにより構成されてもよい。さらに、車両制御システム７０００が、図示されていない別の制御ユニットを備えてもよい。
また、の説明において、いずれかの制御ユニットが担う機能の一部または全部を、他の制御ユニットに持たせてもよい。つまり、通信ネットワーク７０１０を介して情報の送受信がされるようになっていれば、所定の演算処理が、いずれかの制御ユニットで行われるようになってもよい。同様に、いずれかの制御ユニットに接続されているセンサまたは装置が、他の制御ユニットに接続されるとともに、複数の制御ユニットが、通信ネットワーク７０１０を介して相互に検出情報を送受信してもよい。

なお、本開示に係る物体認識回路または物体認識訓練回路の機能を実現するためのコンピュータプログラムは、いずれかの制御部等に実装することができる。また、このようなコンピュータプログラムを記憶したコンピュータ読み取り可能な記録媒体も設けることができる。
記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上述したコンピュータプログラムを、例えば記録媒体を使用せずに、ネットワークを介して配布してもよい。

なお、上述した車両制御システム７０００において、本開示に係る物体認識回路は、図１０に示した応用例における統合制御ユニット７６００に適用することができる。

また、物体認識回路の構成要素の少なくとも一部を、図１０に示す統合制御ユニット７６００用のモジュール（例えば、単一のダイで構成された集積回路モジュール）に実装することができる。あるいは、物体認識回路は、図１０に示す車両制御システム７０００の複数の制御ユニットによって実現されてもよい。図１２は、本開示の物体認識訓練方法１００をブロック図で示す。

１０１において、複数の奥行き画像を記憶した記憶部から実際のＴｏＦデータを取得する。

１０２において、シミュレートされた物体を示す合成オーバーレイ画像データを記憶した記憶部から合成オーバーレイ画像データ１０２を取得する

１０３において、本明細書で説明するように、２値化、収縮、およびぼかしに基づいてマスクを生成する。さらに、本明細書で説明するように、ランダム明るさ変化、均一な明るさノイズの適用に基づいて、且つ、背景に基づく合成オーバーレイ画像データのバランシングに基づいてマスクを生成する。

１０４において、このマスクを合成オーバーレイ画像データに適用する。

１０５において、本明細書で説明するように、結果として得られるＴｏＦデータが、（シミュレートされたＴｏＦデータに基づいて）認識対象の物体と、（実際のＴｏＦデータに基づいて）背景とを示すように、実際のＴｏＦデータと合成ＴｏＦデータとを合成する。

これによって、１０６において、ＴｏＦ訓練データが生成される。当該ＴｏＦ訓練データは、バウンディングボックス情報と画素精密マスキング情報とをさらに含む。当該ＴｏＦ訓練データは、奥行き画像データと信頼度データの両方を含む。

１０６において、本明細書で説明するように、ランダムデータ拡張およびハイパーパラメータチューニングに基づいてＴｏＦ訓練データをさらに生成する。ここでは、アーリーストッピングを適用する。

１０７において、本明細書で説明するように、ＣＮＮにおいてＴｏＦ訓練データに基づいて実際の物体を認識するためにアルゴリズムを生成する。このアルゴリズムを、本明細書で説明するように、アーリーストッピングに基づいてさらに生成する。

１０８において、実際の物体としての手のジェスチャを認識し、当該アルゴリズムが検証される。

上述した実施形態は、方法ステップの例示的な順序付けを伴う方法を説明していることを理解されたい。しかしながら、方法ステップの特定の順序付けは、例示のみを目的として与えられており、結合力のあるものとして解釈されるべきではない。例えば、図２の実施形態における１２と１３の順序付けを交換してもよい。また、図１２の実施形態における１０１と１０２の順序付けを交換してもよい。方法ステップの順序の他の変更も、当業者には明らかであろう。

なお、物体検出回路８７を各部８８および８９に分割するのは、例示の目的のみであり、本開示は特定のユニットにおける機能の特定の分割に限定されない。例えば、物体検出回路８７は、それぞれのプログラムされたプロセッサ、フィールド・プログラマブル・ゲート・アレイ等によって実現されてもよい。本明細書に記載され、添付の特許請求の範囲に請求されるすべてのユニットおよびエンティティは別段の記載がない限り、例えばチップ上の集積回路ロジックとして実装することができ、そのようなユニットおよびエンティティによって提供される機能は、別段の記載がない限り、ソフトウェアによって実装することができる。

上述の開示の実施形態が少なくとも部分的に、ソフトウェア制御されたデータ処理装置を使用して実施される限り、そのようなソフトウェア制御を提供するコンピュータプログラム、およびそのようなコンピュータプログラムが提供される伝送、記憶、または他の媒体が、本開示の態様として想定されることが理解される。

なお、本技術は以下のような構成も取ることができる。

（１）飛行時間型カメラデータの物体認識方法であって、予め訓練されたアルゴリズムに基づいて実際の物体を認識し、
前記予め訓練されたアルゴリズムは、飛行時間型訓練データに基づいて訓練され、
前記飛行時間型訓練データは、背景を示す実際の飛行時間型データと、シミュレートされた物体を表す合成オーバーレイ画像データに対して当該合成オーバーレイ画像データに基づいて生成されるマスクを適用することによって生成されるシミュレートされた飛行時間型データとの組み合わせに基づいて生成されることによって、マスクおよびシミュレートされた物体を生成する
物体認識方法。

（２）（１）に記載の物体認識方法であって、
前記マスクは、前記シミュレートされた物体の２値化、前記シミュレートされた物体の収縮、および前記シミュレートされた物体のぼかしのうちの少なくとも１つに基づく
物体認識方法。

（３）（１）または（２）に記載の物体認識方法であって、
前記マスクは、ランダム明るさ変化、均一な明るさノイズ、および前記背景に基づく前記合成オーバーレイ画像データのバランシングのうちの少なくとも１つの前記シミュレートされた物体に対する適用に基づく
物体認識方法。

（４）（１）～（３）のいずれか１つに記載の物体認識方法であって、
前記予め訓練されたアルゴリズムは、敵対的生成ネットワーク、畳み込みニューラルネットワーク、回帰型ニューラルネットワーク、および、長・短期記憶を有するニューラルネットワークと組み合わせた畳み込みニューラルネットワークのうちの少なくとも１つに基づく
物体認識方法。

（５）（１）～（４）のいずれか１つに記載の物体認識方法であって、
前記飛行時間型訓練データは、さらに、バウンディングボックス情報および画素精密マスキング情報のうちの少なくとも一方を含む
物体認識方法。

（６）（１）～（５）のいずれか１つに記載の物体認識方法であって、
前記飛行時間型訓練データは、飛行時間型画像データおよび飛行時間型信頼度データのうちの少なくとも一方を表す
物体認識方法。

（７）（１）～（６）のいずれか１つに記載の物体認識方法であって、
前記飛行時間型訓練データは、さらに、ランダムデータ拡張およびハイパーパラメータチューニングのうちの少なくとも一方に基づくものである
物体認識方法。
（８）（１）～（７）のいずれか１つに記載の物体認識方法であって、
前記予め訓練されたアルゴリズムは、さらに、アーリーストッピングに基づいて訓練される
物体認識方法。

（９）（１）～（８）のいずれか１つに記載の物体認識方法であって、
前記実際の物体には、手が含まれる
物体認識方法。

（１０）（１）～（９）のいずれか１つに記載の物体認識方法であって、さらに、
前記手のジェスチャを認識する
物体認識方法。

（１１）コンピュータ上で実行されるときに、コンピュータに（１）～（１０）のいずれか１つに記載の方法を実施させるプログラムコードを具備するコンピュータプログラム。

（１２）コンピュータプログラム製品を記憶し、プロセッサによって実行されると、（１）～（１０）のいずれか１つに記載の方法を実施させる非一時的なコンピュータ読取可能な記録媒体。

（１３）飛行時間型カメラデータ上の物体を認識する飛行時間型物体認識回路であって、予め訓練されたアルゴリズムに基づいて実際の物体を認識するように構成され、
前記予め訓練されたアルゴリズムは、飛行時間型訓練データに基づいて訓練され、
前記飛行時間型訓練データは、背景を示す実際の飛行時間型データと、シミュレートされた物体を表す合成オーバーレイ画像データに対して当該合成オーバーレイ画像データに基づいて生成されるマスクを適用することによって生成されるシミュレートされた飛行時間型データとの組み合わせに基づいて生成されることによって、マスクおよびシミュレートされた物体を生成する
飛行時間型物体認識回路。

（１４）（１３）に記載の飛行時間型物体認識回路であって、
前記マスクは、前記シミュレートされた物体の２値化、前記シミュレートされた物体の収縮、および前記シミュレートされた物体のぼかしのうちの少なくとも１つに基づく
飛行時間型物体認識回路。

（１５）（１３）または（１４）に記載の飛行時間型物体認識回路であって、
前記マスクは、ランダム明るさ変化、均一な明るさノイズ、および前記背景に基づく前記合成オーバーレイ画像データのバランシングのうちの少なくとも１つの前記シミュレートされた物体に対する適用に基づく
飛行時間型物体認識回路。

（１６）（１３）～（１５）のいずれか１つに記載の飛行時間型物体認識回路であって、
前記予め訓練されたアルゴリズムは、敵対的生成ネットワーク、畳み込みニューラルネットワーク、回帰型ニューラルネットワーク、および、長・短期記憶を有するニューラルネットワークと組み合わせた畳み込みニューラルネットワークのうちの少なくとも１つに基づく
飛行時間型物体認識回路。

（１７）（１３）～（１６）のいずれか１つに記載の飛行時間型物体認識回路であって、
前記飛行時間型訓練データは、さらに、バウンディングボックス情報および画素精密マスキング情報のうちの少なくとも一方を含む
飛行時間型物体認識回路。
（１８）（１３）～（１７）のいずれか１つに記載の飛行時間型物体認識回路であって、
前記飛行時間型訓練データは、飛行時間型画像データおよび飛行時間型信頼度データのうちの少なくとも一方を表す
飛行時間型物体認識回路。

（１９）（１３）～（１８）のいずれか１つに記載の飛行時間型物体認識回路であって、
前記飛行時間型訓練データは、さらに、ランダムデータ拡張およびハイパーパラメータチューニングのうちの少なくとも一方に基づくものである
飛行時間型物体認識回路。

（２０）（１３）～（１９）のいずれか１つに記載の飛行時間型物体認識回路であって、
前記予め訓練されたアルゴリズムは、さらに、アーリーストッピングに基づいて訓練される
飛行時間型物体認識回路。

（２１）（１３）～（２０）のいずれか１つに記載の飛行時間型物体認識回路であって、
前記実際の物体には、手が含まれる
飛行時間型物体認識回路。

（２２）（２１）に記載の飛行時間型物体認識回路であって、さらに、
前記手のジェスチャを認識するように構成される
飛行時間型物体認識回路。

（２３）飛行時間型カメラデータの物体認識訓練方法であって、
背景を示す実際の飛行時間型データと、シミュレートされた物体を表す合成オーバーレイ画像データに対して当該合成オーバーレイ画像データに基づいて生成されるマスクを適用することによって生成されるシミュレートされた飛行時間型データとの組み合わせに基づいて飛行時間型訓練データを生成することによって、マスクおよびシミュレートされた物体を生成する
物体認識訓練方法。

（２４）（２３）に記載の物体認識訓練方法であって、さらに、
前記実際の飛行時間型データを取得する
物体認識訓練方法。

（２５）（２３）または（２４）に記載の物体認識方法であって、さらに、
合成オーバーレイ画像データを取得する
物体認識訓練方法。

（２６）（２５）に記載の物体認識訓練方法であって、さらに、
前記合成オーバーレイ画像データに基づいてマスクを生成する
物体認識訓練方法。

（２７）（２６）に記載の物体認識訓練方法であって、さらに、
前記シミュレートされた物体の２値化、前記シミュレートされた物体の収縮、および前記シミュレートされた物体のぼかしのうちの少なくとも１つに基づいて前記マスクを生成する
物体認識訓練方法。

（２８）（２６）または（２７）に記載の物体認識訓練方法であって、さらに、
ランダム明るさ変化、均一な明るさノイズ、および前記背景に基づく前記合成オーバーレイ画像データのバランシングのうちの少なくとも１つの前記シミュレートされた物体に対する適用に基づいて前記マスクを生成する
物体認識訓練方法。

（２９）（２６）～（２８）のいずれか１つに記載の物体認識訓練方法であって、さらに、
前記マスクを前記合成オーバーレイ画像データに適用することで、前記シミュレートされた飛行時間型データを生成する
物体認識訓練方法。

（３０）（２３）～（２９）のいずれか１つに記載の物体認識訓練方法であって、さらに、
前記実際の飛行時間型データと前記シミュレートされた飛行時間型データとを組み合わせることによって、前記飛行時間型訓練データを生成する
物体認識訓練方法。

（３１）（２３）～（３０）のいずれか１つに記載の物体認識訓練方法であって、さらに、
敵対的生成ネットワーク、畳み込みニューラルネットワーク、回帰型ニューラルネットワーク、および、長・短期記憶を有するニューラルネットワークと組み合わせた畳み込みニューラルネットワークのうちの少なくとも１つに基づいて、前記飛行時間型訓練データに基づいて前記実際の物体を認識するアルゴリズムを生成する
物体認識訓練方法。

（３２）（２３）～（３１）のいずれか１つに記載の物体認識訓練方法であって、
前記飛行時間型訓練データは、さらに、バウンディングボックス情報および画素精密マスキング情報のうちの少なくとも一方を含む
物体認識訓練方法。

（３３）（２３）～（３２）のいずれか１つに記載の物体認識訓練方法であって、
前記飛行時間型訓練データは、飛行時間型画像データおよび飛行時間型信頼度データのうちの少なくとも一方を表す
物体認識訓練方法。

（３４）（２３）～（３３）のいずれか１つに記載の物体認識訓練方法であって、さらに、
ランダムデータ拡張およびハイパーパラメータチューニングのうちの少なくとも一方にさらに基づいて前記飛行時間型訓練データを生成する
物体認識訓練方法。

（３５）（２３）～（３４）のいずれか１つに記載の物体認識訓練方法であって、さらに、
アーリーストッピングに基づいて、前記実際の物体を認識するアルゴリズムを生成する
物体認識訓練方法。

（３６）（２３）～（３５）のいずれか１つに記載の物体認識訓練方法であって、
前記実際の物体には、手が含まれる
物体認識訓練方法。

（３７）（３６）に記載の物体認識訓練方法であって、さらに、
前記手のジェスチャを認識する
物体認識訓練方法。

（３８）コンピュータ上で実行されるときに、コンピュータに（２１）～（３７）のいずれか１つに記載の方法を実施させるプログラムコードを具備するコンピュータプログラム。

（３９）コンピュータプログラム製品を記憶し、プロセッサによって実行されると、（２１）～（３７）のいずれか１つに記載の方法を実施させる非一時的なコンピュータ読取可能な記録媒体。

Claims

飛行時間型カメラデータの物体認識方法であって、
予め訓練されたアルゴリズムに基づいて実際の物体を認識し、
前記予め訓練されたアルゴリズムは、飛行時間型訓練データに基づいて訓練され、
前記飛行時間型訓練データは、背景を示す実際の飛行時間型データと、シミュレートされた物体を表す合成オーバーレイ画像データに対して当該合成オーバーレイ画像データに基づいて生成されるマスクを適用することによって生成されるシミュレートされた飛行時間型データとの組み合わせに基づいて生成されることによって、マスクおよびシミュレートされた物体を生成する
物体認識方法。
請求項１に記載の物体認識方法であって、
前記マスクは、前記シミュレートされた物体の２値化、前記シミュレートされた物体の収縮、および前記シミュレートされた物体のぼかしのうちの少なくとも１つに基づく
物体認識方法。
請求項１に記載の物体認識方法であって、
前記マスクは、ランダム明るさ変化、均一な明るさノイズ、および前記背景に基づく前記合成オーバーレイ画像データのバランシングのうちの少なくとも１つの前記シミュレートされた物体に対する適用に基づく
物体認識方法。
請求項１に記載の物体認識方法であって、
前記予め訓練されたアルゴリズムは、敵対的生成ネットワーク、畳み込みニューラルネットワーク、回帰型ニューラルネットワーク、および、長・短期記憶を有するニューラルネットワークと組み合わせた畳み込みニューラルネットワークのうちの少なくとも１つに基づく
物体認識方法。
請求項１に記載の物体認識方法であって、
前記飛行時間型訓練データは、さらに、バウンディングボックス情報および画素精密マスキング情報のうちの少なくとも一方を含む
物体認識方法。
請求項１に記載の物体認識方法であって、
前記飛行時間型訓練データは、飛行時間型画像データおよび飛行時間型信頼度データのうちの少なくとも一方を表す
物体認識方法。
請求項１に記載の物体認識方法であって、
前記飛行時間型訓練データは、さらに、ランダムデータ拡張およびハイパーパラメータチューニングのうちの少なくとも一方に基づくものである
物体認識方法。
請求項１に記載の物体認識方法であって、
前記予め訓練されたアルゴリズムは、さらに、アーリーストッピングに基づいて訓練される
物体認識方法。
請求項１に記載の物体認識方法であって、
前記実際の物体には、手が含まれる
物体認識方法。
請求項９に記載の物体認識方法であって、さらに、
前記手のジェスチャを認識する
物体認識方法。
飛行時間型カメラデータ上の物体を認識する飛行時間型物体認識回路であって、予め訓練されたアルゴリズムに基づいて実際の物体を認識するように構成され、
前記予め訓練されたアルゴリズムは、飛行時間型訓練データに基づいて訓練され、
前記飛行時間型訓練データは、背景を示す実際の飛行時間型データと、シミュレートされた物体を表す合成オーバーレイ画像データに対して当該合成オーバーレイ画像データに基づいて生成されるマスクを適用することによって生成されるシミュレートされた飛行時間型データとの組み合わせに基づいて生成されることによって、マスクおよびシミュレートされた物体を生成する
飛行時間型物体認識回路。
請求項１１に記載の飛行時間型物体認識回路であって、
前記マスクは、前記シミュレートされた物体の２値化、前記シミュレートされた物体の収縮、および前記シミュレートされた物体のぼかしのうちの少なくとも１つに基づく
飛行時間型物体認識回路。
請求項１１に記載の飛行時間型物体認識回路であって、
前記マスクは、ランダム明るさ変化、均一な明るさノイズ、および前記背景に基づく前記合成オーバーレイ画像データのバランシングのうちの少なくとも１つの前記シミュレートされた物体に対する適用に基づく
飛行時間型物体認識回路。
請求項１１に記載の飛行時間型物体認識回路であって、
前記予め訓練されたアルゴリズムは、敵対的生成ネットワーク、畳み込みニューラルネットワーク、回帰型ニューラルネットワーク、および、長・短期記憶を有するニューラルネットワークと組み合わせた畳み込みニューラルネットワークのうちの少なくとも１つに基づく
飛行時間型物体認識回路。
請求項１１に記載の飛行時間型物体認識回路であって、
前記飛行時間型訓練データは、さらに、バウンディングボックス情報および画素精密マスキング情報のうちの少なくとも一方を含む
飛行時間型物体認識回路。
請求項１１に記載の飛行時間型物体認識回路であって、
前記飛行時間型訓練データは、飛行時間型画像データおよび飛行時間型信頼度データのうちの少なくとも一方を表す
飛行時間型物体認識回路。
請求項１１に記載の飛行時間型物体認識回路であって、
前記飛行時間型訓練データは、さらに、ランダムデータ拡張およびハイパーパラメータチューニングのうちの少なくとも一方に基づくものである
飛行時間型物体認識回路。
請求項１１に記載の飛行時間型物体認識回路であって、
前記予め訓練されたアルゴリズムは、さらに、アーリーストッピングに基づいて訓練される
飛行時間型物体認識回路。
請求項１１に記載の飛行時間型物体認識回路であって、
前記実際の物体には、手が含まれる
飛行時間型物体認識回路。
請求項１９に記載の飛行時間型物体認識回路であって、さらに、
前記手のジェスチャを認識するように構成される
飛行時間型物体認識回路。