JP2022516288A

JP2022516288A - 階層型機械学習ネットワークアーキテクチャ

Info

Publication number: JP2022516288A
Application number: JP2021538780A
Authority: JP
Inventors: ゴエルクラタース; タリクサラ
Original assignee: ズークスインコーポレイテッド
Priority date: 2019-01-02
Filing date: 2019-12-19
Publication date: 2022-02-25
Also published as: US11450117B2; WO2020142247A1; US20210216793A1; EP3906501A1; US20200210721A1; CN113261009A; US10963709B2

Abstract

本明細書で説明される技術は、センサデータ内に表されていると検出された物体の分類を精密化することを含み得る。例えば、分類を精密化することは、物体のサブ分類を決定することを含み得る。

Description

本発明は階層型機械学習ネットワークアーキテクチャに関する。

コンピュータビジョンは、自律車両の操作、セキュリティ目的での個人の識別など、さまざまなアプリケーションにおいて使用される。コンピュータビジョン技術は、画像から顕著な部分を識別するソフトウェアコンポーネントを構築することと、コンピュータがさらなる操作を実行するために使用できる形式でコンピュータに画像の顕著な部分を表すことと、および／または物体を追跡することと、を含み得る。しかしながら、比較的稀な物体および／または動作がコンピュータビジョンシステムを混乱させ、コンピュータビジョンシステムが物体を誤って分類するおよび／または検出に失敗する結果を引き起こし得る。例えば、稀な物体は、大きな物体を押すまたは運ぶ歩行者、スケートボーダー、支柱（ｓｔｉｌｔｓ）を使用する歩行者、車椅子を使用する個人など、を含み得る。

詳細な説明は添付の図面を参照して説明される。図において、参照番号の左端の数字は、その参照番号が最初に現れる図を識別する。異なる図における同じ参照番号は、同様のまたは同等の項目を示す。

図１は、センサデータで表される環境内の複数の物体を検出する自律車両を示す例示的なシナリオを示している。図２は、第１の機械学習モデルの例示的なアーキテクチャのブロック図を示している。図３は、コンピュータビジョンの精度を改善する、および／または知覚システムのトレーニング性を改善するための例示的な機械学習モデルアーキテクチャのブロック図を示している。図４は、センサデータで表される物体のサブ分類を決定するための例示的なプロセスのフロー図を示す。図５は、サブクラスの機械学習（ＭＬ）モデルをトレーニングおよび／または使用するための例示的なシステムのブロック図を示している。

本明細書で説明される技術は、例えば、物体検出の精度を高めること、および／または機械学習（ＭL）モデルのトレーニング性を高めることによって、コンピュータビジョンを改善し得る。トレーニング性は、ＭＬモデルがどの程度高い信頼性（例えば、ＭＬモデルの出力が現実世界を正確にモデル化する、および／またはグラウンドトゥルースと一致する可能性を示す、ＭＬモデルによって決定される、確率）で現実世界をモデル化できる、ならびに／または、正確および高い信頼性で現実世界をモデル化するためにＭＬモデルをトレーニングするのがどの程度難しいかを示す。

本明細書で説明される技術は、ＭＬモデルの精度を高める、およびＭＬモデルのトレーニング性を高める（例えば、閾値、例えば、９８％、９９％、９９．９９９％、を満たすまた超える精度および／または信頼性を達成するトレーニング方法の複雑さを軽減する）ＭＬモデル構造を含み得る。この技術は、第１のＭＬモデルを使用して、センサデータ（例えば、画像、光検出および測距（ＬＩＤＡＲ）センサデータ、ＲＡＤＡＲセンサデータ）から物体を検出することを含み得る。第１のＭＬモデルは、センサデータを受信し、物体に関連付けられた分類および／または物体の表現によって占められるセンサデータの一部に関連付けられた関心領域（ＲＯＩ）を出力し得る。分類は、例えば、「歩行者」、「車両」、「自転車」、「標識」、「動物」、「交通障害物」（例えば、コーン、バリア）などの物体の一般的な分類を示し得る。ＲＯＩは、ＭＬモデルが物体の存在に対応するとして示すセンサデータの一部を識別する任意の方法であり得る。例えば、ＲＯＩは、検出された物体（例えば、「境界ボックス」）に関連付けられていると識別されたピクセルを示す座標、検出された物体に対応するピクセルを識別するマスク、ＬＩＤＡＲポイントクラウドのポイントなどを含み得る。

技術は、分類を受信することと、複数のサブクラスＭＬモデルの中から１つのサブクラスＭＬモデルを、分類に少なくとも部分的に基づいて選択することと、を含み得る。サブクラスＭＬモデルを選択することは、入力としてサブクラスＭＬモデルに提供する１つまたは複数の特徴マップのサブセットを決定することを含み得る。いくつかの例では、各サブクラスＭＬモデルが異なる分類に関連付けられ得るが、追加または代替の例では、２つのサブクラスＭＬモデルが共通の分類を共有し得ることが理解される。例えば、第１のサブクラスＭＬモデルは「歩行者」分類に関連付けられ得、第２のサブクラスＭＬモデルは「車両」分類に関連付けられ得る。したがって、第１のＭＬモデルが「歩行者」分類を出力する場合、この技術は、第１のサブクラスＭＬモデルを選択することを含み得る。いくつかの例では、選択コンポーネントは、第１の分類に少なくとも部分的に基づいて、第１のサブクラスＭＬモデルに第１のサブセットを提供し、第２の分類に少なくとも部分的に基づいて、第２のサブクラスＭＬモデルに第２のサブセットを提供し得る。このような選択は、モデル内のプーリング計算の一部として、別のサブネットワークとして、またはその他のやり方で、論理ステートメント（例えば、ｓｗｉｔｃｈ、ｉｆ－ｔｈｅｎなど）により得る。

いくつかの例では、第１のＭＬモデルは、追加的または代替的に、１つまたは複数の特徴マップを出力し得る。例えば、１つまたは複数の特徴マップは、インスタンスセグメンテーション特徴マップ、セマンティックセグメンテーション特徴マップ、検出特徴マップなどを含み得る。インスタンスセグメンテーション特徴マップは、画像内の異なる物体の個別の表現を識別し得、および／またはセマンティックセグメンテーションは、画像内の物体の表現に関連付けられたセマンティックラベルを識別し、および同じセマンティック分類の２つの物体間を区別するための固有の識別子を提供し得る。「セグメンテーション」は、センサデータの離散部分のマスクおよび／または他の識別を含み得る。例えば、センサデータが画像を含む場合、セグメンテーションは、検出、ラベルなどに関連付けられた画像のピクセルを識別し得、センサデータがＬＩＤＡＲポイントクラウドを含む場合、セグメンテーションは、ポイントクラウドのポイントの少なくともサブセットの識別子を含み得る。

サブクラスＭＬモデルを選択することに少なくとも部分的に基づいて、技術は、追加的または代替的に、第１のＭＬモデルの出力の少なくとも一部を、選択されたサブクラスＭＬモデルへの入力として提供することを含み得る。例えば、技術は、第１のモデルによって生成されたＲＯＩに少なくとも部分的に基づいて、１つまたは複数の特徴マップおよび／または第１のモデルへの入力をクロッピングすること、およびクロッピングされた特徴マップおよび／またはＲＯＩを選択されたサブクラスＭＬモデルに提供することを含み得る。次に、選択されたサブクラスＭＬモデルは、クロッピングされた特徴マップおよび／またはＲＯＩに少なくとも部分的に基づいてサブクラスＭＬモデルを評価し得、それによって、センサデータで検出された物体に関連付けられたサブ分類および／または確率を生成する。

例えば、第１のＭＬモデルが、センサデータで検出された物体に伴って、一般的な分類「歩行者」を生成した場合、技術は、分類「歩行者」に関連付けられた第１のサブクラスＭＬモデルを選択することを含み得る。このサブクラスＭＬモデルは、物体に関連付けられた「歩行者」のサブ分類の識別を試みようとするように構成され得る。例えば、「歩行者」の潜在的なサブクラスは、「物体を押す／引く歩行者」、「物体を保持している歩行者」、「車輪付き歩行者」、「車椅子の個人」などのサブクラスを含み得る。

いくつかの例では、分類および第１の確率は第１のＭＬモデルから受信され得る、および第２の確率および／またはサブ分類は選択されたサブクラスＭＬモデルから受信され得る。技術は、第２の確率が確率閾値を満たすまたは超えるかどうかを決定することを含み得る。第２の確率が確率閾値を満たすまたは超える場合、技術は、物体に関連付けられた出力に伴って、サブ分類を出力することを含み得る（例えば、出力は、知覚システムが、知覚システムにて受信されたセンサデータから物体を検出したことを示し得る）。いくつかの例では、出力は、１つまたは複数の特徴マップ、ＲＯＩなどの少なくとも一部を含み得る。

第２の確率が確率閾値よりも小さい場合、技術は、第１の確率が確率閾値を満たすまたは超えるかどうかを決定することと、第１の確率が確率閾値を満たすまたは超えると決定すると物体の検出に伴って、分類を出力することと、を含み得る。いくつかの例では、第１の確率が確率閾値よりも小さい場合、サブクラスＭＬモデルがそもそも選択されず、第１の確率が確率閾値を満たすまたは超えるかどうかを決定する必要がなくなる場合がある。そのような例では、技術は、第２の確率が確率閾値よりも小さいことを決定することと、物体の検出に伴って分類を出力することと、を含み得る。

追加または代替の例では、技術は、第１のＭＬモデルに関連付けられた第１の確率閾値と、サブクラスＭＬモデルに関連付けられた第２の確率閾値とを含み得る。いくつかの例では、第１の確率閾値は、第２の確率閾値よりも大きい場合があるが、追加または代替の例では、第１の確率閾値は、第２の確率閾値と等しいまたは小さい場合がある。

いくつかの例では、技術は、追加的または代替的に、サブクラスＭＬモデルおよび／または第１のＭＬモデルを介して損失を逆伝播することによって、選択されたサブクラスＭＬモデルおよび／または第１のＭＬモデルをトレーニングすること（例えば、サブクラスＭＬモデルに関連付けられた分類のために）を含み得る。いくつかの例では、損失は、サブクラスＭＬモデルおよび／または分類によって生成されたサブ分類および／または確率、第１のＭＬモデルによって生成された、確率、１つまたは複数の特徴マップ、および／またはＲＯＩに対して逆伝播され得る。いくつかの例では、第１の損失は、第１のＭＬモデルについて計算され得る（例えば、ＲＯＩおよび／または分類を指定するグラウンドトゥルースに少なくとも部分的に基づいて）、および第２の損失は、サブクラスＭＬモデルについて計算され得る（例えば、分類および／またはサブ分類を指定するグラウンドトゥルースに少なくとも部分的に基づいて）。複数のモデルが使用される例では、サブクラスＭＬモデルは第２の損失を使用してトレーニングされ得る、および／または第１のＭＬモデルは、第１の損失および／または第２の損失の逆伝播に少なくとも部分的に基づいてトレーニングされ得る（すなわち、エンドツーエンドでモデルをトレーニングする）。第２の損失を逆伝播して第１のＭＬモデルをトレーニングすることは、第１のＭＬモデルの精度をさらに精密化し得る。単一のモデル（ニューラルネットワークなど）が使用される他の例では、モデルは１つまたは複数の損失を使用し、その損失を精密化のために逆伝播し得る。

本明細書に記載の技術は、物体を分類し得る特異性を高めること、および／または物体検出に伴って第１のＭＬモデルおよび／またはサブクラスＭＬモデルによって生成される信頼性スコアを高めることによって、物体の検出の精度を改善し得る。さらに、本明細書で説明される技術は、本明細書で説明される技術なしでは達成可能ではない場合がある手段で、第１のＭＬモデルのトレーニングを微調整する。例えば、サブクラスＭＬモデルから第１のＭＬモデルを介して損失を逆伝播することは、第１のＭＬモデルによって決定された分類の信頼性および／または精度をさらに改善し得る（同時に、サブクラスＭＬモードの信頼性および／または精度を改善する）。さらに、本明細書で説明される技術は、まばらなトレーニングデータが利用可能な場合でも、「稀な」タイプの物体に対して十分な精度（例えば、９５％または９８％を超える精度）を達成し得る。例えば、乗用車両に対して利用可能なトレーニングデータの量は、車椅子の個人、支柱（ｓｔｉｌｔｓ）を使用する個人などに対して利用可能なトレーニングデータの量をはるかに超え得る。

本明細書で説明される技術は、本明細書で説明される技術を統合するシステムの安全性を改善し得る。例えば、自律車両のサブシステムとして本明細書で説明される技術を実装することにより、自律車両はより安全におよび／または効率的に操作し得る。技術は、サブクラスに関連付けられた確率が確率閾値より少ない場合、サブクラスに少なくとも部分的に基づいて、および／または一般的な分類に少なくとも部分的に基づいて自律車両の制御に復帰することによって、自律車両の操作を制御することを含み得る。

［例示的なシナリオ］
図１は、１つまたは複数のセンサによって収集されたセンサデータから自律車両を取り巻く環境内の複数の物体を検出する自律車両１０２を含む例示的なシナリオ１００を示している。いくつかの例では、自律車両１０２は、米国運輸省道路交通安全局によって発行されたレベル５分類に従って操作するように構成された自律車両であり得、これは、ドライバー（または乗員）が常に車両を制御することを期待することなく、全体行程のすべての安全上重要な機能を実行可能な車両について説明している。しかしながら、他の例では、自律車両１０２は、他のレベルまたは分類を有する完全なまたは部分的な自律車両であり得る。本明細書で説明される技術は、自律車両用などのロボット制御以外に対して適用され得ることが企図される。例えば、本明細書で説明される技術は、ビデオゲーム、製造、拡張現実などに適用され得る。

本明細書で説明される技術によれば、自律車両１０２は、自律車両１０２のセンサ１０４からセンサデータを受信し得る。例えば、センサデータは、位置信号（例えば、ＧＰＳ信号）、慣性信号（例えば、加速度計信号、ジャイロスコープ信号など）、磁気計信号、ホイールエンコーダ信号、速度計信号、蓄積されたＬＩＤＡＲおよび／またはＲＡＤＡＲポイントのポイントクラウド、１つの画像（または複数の画像）、音声信号、および／またはバリアトリックまたはその他の環境信号などを含み得る。例えば、自律車両１０２は、センサ１０４から画像１０６を受信し得る。本明細書の説明は、簡単にするために主に画像について説明するが、技術は、物体を個別に表す任意のセンサデータ（例えば、物体を表すポイントを含むＬＩＤＡＲおよび／またはＲＡＤＡＲポイントクラウド）に適用し得ることが企図される。

いくつかの例では、自律車両は、知覚エンジン１１０および／またはプランナ１１２を含み得るコンピューティングデバイス１０８を含み得る。知覚エンジン１１０は、自律車両１０２の環境から収集されたセンサデータから物体を検出、識別、セグメント化、分類、および／または追跡するための１つまたは複数のＭＬモデルおよび／または他のコンピュータ実行可能命令を含み得る。いくつかの例では、知覚エンジン１１０は、自律車両１０２のセンサ１０４からセンサデータを受信し、センサデータから知覚データを決定し、グローバルマップおよび／またはローカルマップ上の自律車両１０２の位置を推定し、１つまたは複数の軌道を決定し、経路またはルートを走行する自律車両１０２の動きを制御し、および／またはそうでなければ自律車両１０２の操作を制御するプランナ１１２によって使用させるために、プランナ１１２に知覚データを送信し得るが、このような操作は、様々な他のコンポーネントにおいて実行され得る（例えば、位置測定は不図示の位置測定エンジンによって実行され得る）。いくつかの例では、知覚データは、センサデータから検出された物体に関連付けられたＲＯＩおよび／または一般的な分類を含み得る。

図示の例では、自律車両１０２は、車両１１６、複数の自転車、複数の歩行者、複数の標識物体、および様々な異なる環境物体（例えば、車道、歩道、木、建物）の表現を含む画像１０６（および／または他のセンサデータ）を受信し得る。知覚エンジン１１０は、画像１０６に表されているように車両１１６を検出することに少なくとも部分的に基づいて、ＲＯＩ１１８を生成し得る。図示の例では、ＲＯＩ１１８はバウンディングボックスであるが、ＲＯＩを識別するための他の技術が企図されている。図１はさらに、知覚エンジン１１０によって検出され得る異なる物体に対して知覚エンジン１１０によって生成され得る他の様々なＲＯＩを示しているが、単純化および明確化のために、それらはすべてラベル付けされていない。例えば、他のＲＯＩは、自転車、別の車両、および交通標識を識別するが、画像（および／または他のセンサデータ）の追加または代替部分が、知覚エンジン１１０によって検出され得ることが理解される。

いくつかの例では、知覚エンジン１１０は、物体の一般的な分類を、第１のＭＬモデルによって追加的または代替的に決定し得る。例えば、第１のＭＬモデルは、ＭＬモデルによって決定される最も高い確率に対応する、複数の一般的な分類の中から、１つの分類の表示（ｉｎｄｉｃａｔｉｏｎ）を出力するようにトレーニングされ得る。いくつかの例では、一般的な分類は、階層の最上位に関連付けられたラベルを含み得る。一般的な分類は、例えば、「自転車」、「車両」、「歩行者」、「動物」、「環境物体」などの分類を含み得る。示されている例では、これらの一般的な分類は、一般的な分類１２０「自転車」、一般的な分類１２２「車両」、一般的な分類１２４「歩行者」および一般的な分類１２６「標識」を含む。明確にするために、一般的な分類のサンプリングのみが図１に示されているが、知覚エンジン１１０の第１のＭＬモデルは、センサデータから検出された１つまたは複数のＲＯＩおよび／または物体に対する一般的な分類を決定し得ることが理解される。

本明細書で説明される技術は、追加的または代替的に、第１のＭＬモデルおよび１つまたは複数のサブクラスＭＬモデルを含む構造を含み得る。構造は、第１のＭＬモデルの出力が、１つまたは複数のサブクラスＭＬモデルのうちの少なくとも１つに対応し得るように構成され得る。いくつかの例では、第１のＭＬモデルは、複数の候補分類の中から一般的な分類を出力し得、これを使用して、サブクラスＭＬモデルの少なくとも１つを選択し得る。例えば、候補分類は「自転車」、「歩行者」、「標識」などを含み得るが、第１のＭＬモデルは、ＲＯＩ１１８に関連付けられたピクセルに対応して、一般的な分類１２２「車両」を出力するようにトレーニングされる。少なくともいくつかの例では、第１のＭＬモデルおよび追加のサブクラスＭＬモデルとして説明されているが、単一のＭＬモデルは、第１のＭＬモデルおよびサブクラスＭＬモデルを含み得る。つまり、モデルの１つの層からの出力は一般的な分類を含み得、そのようなモデルの他の層はサブ分類を出力し得る。

サブクラスＭＬモデルは、第１のモデルの複数の候補分類の特定の分類に関連付けられ得る。例えば、第１のサブクラスＭＬモデルは「歩行者」に関連付けられ得、第２のサブクラスＭＬモデルは「車両」に関連付けられ得る。第１のＭＬモデルの出力に少なくとも部分的に基づいて、構造は、サブクラスＭＬを選択し、第１のＭＬモデルの１つまたは複数の出力をサブクラスＭＬモデルに入力として提供し得る。サブクラスＭＬモデルは、複数の候補分類の中から物体に関連付けられたサブ分類を決定し得る。

いくつかの例では、プランナ１１２は、ＲＯＩ、一般的な分類、サブ分類、および／または特徴マップを含む知覚データを使用して、自律車両１０２の操作を制御するための命令を生成し得る。例えば、プランナ１１２は、第１の場所から第２の場所への自律車両１０２のルートを決定し、ｒｅｃｅｄｉｎｇｈｏｒｉｚｏｎｔｅｃｈｎｉｑｕｅ（例えば、１マイクロ秒、０．５秒、数秒など）に従って、ならびに、ＲＯＩ、一般的な分類、サブ分類、および／または特徴マップに少なくとも部分的に基づいて、自律車両１０２の動きを制御するための複数の潜在的な軌道を、実質的に、同時に生成し、ルートを走行するように車両を制御し、自律車両１０２の駆動コンポーネントに送信され得る駆動制御信号を生成するために使用され得る自律車両１０２の軌道として、潜在的な軌道のうちの１つを選択し得る。

［例示的な第１のＭＬモデルアーキテクチャ］
図２は、第１のＭＬモデル２０２の例示的なアーキテクチャ２００に関する追加の詳細を示している。いくつかの例では、第１のＭＬモデル２０２は、１つまたは複数のセンサからセンサデータ２０４を受信し得る。いくつかの例では、センサデータ２０４は、例えば、画像２０６および／またはＬＩＤＡＲデータ、ＲＡＤＡＲデータ、生体測定データ、環境データなどのような画像を含み得る。画像２０６は、例えば、二次元空間に投影された、グレースケール画像、赤－緑－青（ＲＧＢ）画像、飛行時間画像（ａｔｉｍｅｏｆｆｌｉｇｈｔｉｍａｇｅ）、深度画像、赤外線画像、ＬＩＤＡＲポイント（および／または他の三次元センサデータポイント）の画像、および／またはそれらの任意の組み合わせなどの画像を含み得る。第１のＭＬモデル２０２は、追加的または代替的に、１つまたは複数のセンサ（例えば、ＬＩＤＡＲセンサおよび／またはＲＡＤＡＲセンサからのポイントクラウド）から他のタイプのセンサデータを受信することを含み得ることが理解される。

第１のＭＬモデル２０２は、例えば、畳み込みニューラルネットワーク（ＣＮＮ）などのニューラルネットワークを含み得る。いくつかの例では、第１のＭＬモデル２０２は、複数の層を含み得、その１つまたは複数が出力を生成し得る。いくつかの例では、第１のＭＬモデルは、１つまたは複数の層の出力を集約するためのコンポーネント、同じ検出に対応する特徴マップの部分をプールするためのコンポーネントなどを含み得る。

第１のＭＬモデル２０２は、少なくとも、第１のＭＬモデルがニューラルネットワークで構成される例において、センサデータ２０４に少なくとも部分的に基づいて、第１のＭＬモデル２０２の様々な層に関連付けられた、およびトレーニング時に学習された重みに従って、１つまたは複数の特徴マップ（「特徴マップ２０８」）、１つまたは複数のＲＯＩ（「ＲＯＩ２１０」）、および／または１つまたは複数の分類および／または確率（「分類および／または確率２１２」）を出力し得る。例えば、第１のＭＬモデル２０２は、第１のＭＬモデル２０２の層に関連付けられた、センサデータ２０４および重みに少なくとも部分的に基づく、インスタンスセグメンテーション特徴マップ、セマンティックセグメンテーション特徴マップ、高密度深度特徴マップ、物体方向特徴マップ（例えば、検出された物体の推定方向を識別する特徴マップ）、および／または検出特徴マップ、を生成し得る。インスタンスセグメンテーション特徴マップは、物体に関連付けられたピクセル（および／またはセンサデータの他の離散部分）および／または、モデルによって決定される際にそれに関連付けられた追加のデータを識別するマスクを含み得る。本明細書の説明は、いくつかの特徴マップのコンテンツを説明しようとするが、特徴マップ２０８は、センサデータ２０４のコンピュータおよび／またはニューラルネットワーク変換であり得る第１のＭＬモデル２０２の出力を含み得るため、特徴マップ２０８の１つまたは複数は、人間的に理解可能な用語で記述されない場合があることが理解される。少なくともいくつかの例では、そのような特徴マップ２０８は、同じモデルからである必要はなく、物体に関する追加情報（例えば、センサデータ上で実行され、物体に関連付けられている、セグメンテーション、分類、検出など）を提供する任意の数のモデルからである。

いくつかの例では、物体に関連付けられた（ＲＯＩ２１０の）ＲＯＩは、例えば、歩行者２１４などの物体に対応するものとして、画像２０６（および／または他のセンサデータ）の一部および／または特徴マップ２０８の一部を識別し得る。例えば、ＲＯＩは、長方形（すなわち、バウンディングボックス）などの形状の中心および寸法、および／または物体に起因する画像の一部のいずれかの他の識別、および／またはそれに関連付けられた不確実性を含み得る。いくつかの例では、物体に関連付けられているセンサデータ２０４の離散部分を識別する、および／または複数の検出された物体を区別するために物体に一意の識別子を提供し得るインスタンスセグメンテーションとは対照的に、ＲＯＩは、物体に関連付けられたセンサデータ２０４の一部のより「大まかな」識別とし得る（例えば、ＲＯＩは、検出された各物体に対して同じ形状を含み得、物体がＲＯＩ内に収まるようにサイズ設定され得る、言い換えれば、ＲＯＩは、いくつかの例では、物体以外を識別し得る）。

追加または代替の例では、第１のＭＬモデル２０２は、分類および／または確率２１２を生成し得る。第１のＭＬモデル２０２は、ＲＯＩおよび／またはインスタンスセグメンテーションに関連付けられたセンサデータ２０４の一部に少なくとも部分的に基づいて、分類および／または確率を生成し得る。これにより、第１のＭＬモデル２０２は、センサデータ２０４の一部を分類に関連付けられているとして識別し、いくつかの例では、分類がセンサデータ２０４の部分に正しく関連付けられている可能性（確率）を識別し得る。いくつかの例では、第１のＭＬモデル２０２は、分類および／または確率として、歩行者２１４などの物体に関連付けられた確率分布を生成し得る。図示の例は、歩行者２１４に関連付けられた確率分布２１６を示している。例えば、第１のＭＬモデル２０２は、第１のＭＬモデル２０２の層によって生成され、歩行者２１４の表現に関連付けられたＲＯＩおよび／またはインスタンスセグメンテーションに少なくとも部分的に基づいて、確率分布２１６を生成し得る。いくつかの例では、第１のＭＬモデル２０２は、センサデータ２０４自体、特徴マップ２０８のサブセット、および／またはＲＯＩ２１０などに少なくとも部分的に基づいて、確率分布２１６を生成し得る。

確率分布２１６は、一般的な分類に関連付けられた確率を識別し得、確率は、センサデータの一部が分類によって識別されたタイプの物体に対応する可能性を示す。図２は、ｘ軸上の候補分類（２１８）およびｙ軸上の各候補分類について決定された対応する確率（２２０）をプロットする棒グラフとして、確率分布２１６を示している。例えば、図示の例では、候補分類「歩行者」２２２は、候補分類「車両」２２４よりもはるかに高い確率に関連付けられている（図示の例では、確率分布２１６は、歩行者２１４に関連付けられたセンサデータ２０４および／または特徴マップ２０８の一部に少なくとも部分的に基づいて、第１のＭＬモデル２０２によって生成された）

いくつかの例では、第１のＭＬモデル２０２は、特徴マップ２０８、ＲＯＩ２１０、ならびに／または、分類および／もしくは確率２１２を精密化ＭＬモデル２２６に出力する（例えば、連結、またはその他によって）。精密化ＭＬモデル２１６は、図３でより詳細に論じられるように、１つまたは複数のサブクラスＭＬモデルを含み得る。異なるＭＬモデルとして示されているが、精密化ＭＬモデル２１６および第１のＭＬモデル２０２は、単一のＭＬモデルの一部であってもよい（例えば、第１のＭＬモデル２０２および／または精密化ＭＬモデル２２６がニューラルネットワークを含む例におけるニューラルネットワークの異なる層のセット）。

［例示的なアーキテクチャ］
図３は、コンピュータビジョンの精度を改善する、および／または知覚システムのトレーニング性を改善するための例示的なアーキテクチャ３００のブロック図を示している。いくつかの例では、例示的なアーキテクチャ３００は、知覚エンジン１１０などの知覚エンジンの一部を表し得る。

図示の例では、例示的なアーキテクチャ３００は、第１のＭＬモデル２０２、選択コンポーネント３０２、および／または１つまたは複数のサブクラスＭＬモデル３０４（１）～３０４（ｐ）（総称して「サブクラスＭＬモデル３０４」）を含み得る。いくつかの例では、選択コンポーネント３０２および／またはサブクラスＭＬモデル３０４は、精密化ＭＬモデル２２６の一部であり得る。第１のＭＬモデル２１２は、センサデータ２０４を受信し得、センサデータ２０４に少なくとも部分的に基づいて、総称して特徴データ３０６として表される、特徴マップ２０８、ＲＯＩ２１０、ならびに／または、分類および／もしくは確率２１２を生成し得る。いくつかの例では、特徴データ３０６は、センサデータ２０４から検出された物体に関連付けられたデータのセットを含み得る。例えば、特徴データ３０６は、第１の物体に関連付けられた第１の特徴マップ、第１のＲＯＩ、ならびに／または第１の分類および／もしくは第１の確率、第２の物体に関連付けられた第２の特徴マップ、第２のＲＯＩ、ならびに／または第２の分類および／もしくは第２の確率を含み得る。

いくつかの例では、特徴データ３０６は、選択コンポーネント３０２によって受信され得る。選択コンポーネント３０２は、第１のＭＬモデル２０２から受信した分類に少なくとも部分的に基づいて、サブクラスＭＬモデル３０４のうちの少なくとも１つを選択し得る。いくつかの例では、選択は、論理ステートメント（ｓｗｉｔｃｈ、ｉｆ－ｔｈｅｎなど）、分類出力に関連付けられたプーリング操作、サブクラスＭＬモデル内のサブモデル、第１のＭＬモデル、または学習された異なるモデルなどによって実行され得る。いくつかの例では、個々のサブクラスＭＬモデル、例えば、サブクラスＭＬモデル３０４（ｐ）は、第１のＭＬモデル２０２に関連付けられている候補分類（例えば、第１のＭＬモデル２０２から出力されることが可能である分類）の１つまたは複数に関連付けられ得る。少なくとも１つの例では、ｐは、第１のＭＬモデルに関連付けられた候補分類の数に等しい整数であり得るが、追加のまたは代替の例では、ｐは、候補分類の数より少ないまたは多い整数であり得る。

例えば、選択コンポーネントが、第１のＭＬモデル（例えば、「車両」）からの第１の分類を含む第１のデータセットを含む特徴データ３０６を受信する場合、選択コンポーネント３０２は、第１の分類に関連付けられた第１のサブクラスＭＬモデルを選択し得、特徴データ３０６が、第２の分類（例えば、「歩行者」）を含む第２のデータセットをさらに含む場合、選択コンポーネント３０２は、第２の分類に関連付けられた第２のサブクラスＭＬモデルを選択し得る。いくつかの例では、選択コンポーネント３０２は、特徴データ３０６内に含まれる各セットを送信する先のサブクラスＭＬモデル３０４のどのサブクラスＭＬモデルかを決定してもよい。言い換えれば、特徴データ３０６は、第１のＭＬモデル２０２によって検出された各物体の特徴データのセットを含み得、選択コンポーネント３０２は、特徴データのセットに関連付けられた分類に少なくとも部分的に基づいて、適切なサブクラスＭＬモデルに、異なる物体に関連付けられた特徴データのセットをルーティングするためのハードウェアおよび／またはソフトウェアスイッチを含み得る。

図示の例では、サブクラスＭＬモデル３０４（ｐ）は、分類「歩行者」に関連付けられ得る。第１のＭＬモデル２０２からの分類「歩行者」を含む特徴データ３０６のセットを受信することに少なくとも部分的に基づいて、選択コンポーネント３０２は、サブクラスＭＬモデル３０４（ｐ）を選択して、サブクラスを決定、および／またはセットをさらに処理し得る。選択コンポーネント３０２は、分類「歩行者」に関連付けられた特徴データ３０６のセットのいずれかを、「歩行者」セット３０８として、サブクラスＭＬモデル３０４（ｐ）に、送信し得る。例えば、「歩行者」特徴セット３０８は、歩行者２１４に関連付けられた第１のＭＬモデル２０２によって生成された１つまたは複数の特徴マップ（分類特徴マップ、セグメンテーション特徴マップ、検出特徴マップ、他の特徴マップなど）の少なくとも一部を含み得る。追加または代替の例では、「歩行者」特徴セット３０８は、追加または代替として、ＲＯＩ、分類、および／または確率を含み得るが、いくつかの例では、ＲＯＩを使用し、検出された物体に関連付けられた特徴マップの部分を決定し得、および分類を使用し、その部分を送信する先のサブクラスＭＬモデルを決定し得る。

追加または代替の例では、選択コンポーネント３０２は特徴マップの一部を決定し、選択されたサブクラスＭＬモデル、例えば、図示の例のサブクラスＭＬモデル３０４（ｐ）への入力として、提供し得る。例えば、選択コンポーネント３０２は、第１のＭＬモデル２０２から受信したＲＯＩに少なくとも部分的に基づいて、１つまたは複数の特徴マップの一部をクロッピングおよび／またはそうでなければ識別して、選択されたサブクラスＭＬモデルに提供し得る。

いくつかの例では、個々のサブクラスＭＬモデル３０４（ｐ）は、サブクラスＭＬモデル３０４（ｐ）が関連付けられている、一般的な分類に関連付けられている、１つまたは複数の候補サブ分類の中から、サブ分類および／または確率を出力（３１０）するようにトレーニングされ得る。例えば、サブクラスＭＬモデル３０４（ｐ）が分類「歩行者」に関連付けられている場合、サブクラスＭＬモデル３０４（ｐ）に関連付けられた候補サブ分類は、「物体を保持している歩行者」３１２、「車輪付き歩行者」３１４（例、スケートボード、スクーター、Ｓｅｇｗａｙ^TM、その他の個人用交通機関に乗る個人）、「物体を押す／引く歩行者」３１６、「車椅子の個人」、「支柱（ｓｔｉｌｔｓ）を使用する個人」、「子供」、「建設作業員」、「公安職員」などを含み得る。いくつかの例では、出力３１０は、サブクラスＭＬモデル３０４（ｐ）に関連付けられた候補サブ分類にわたる確率分布３１８を含み得る。確率分布３１８が、ｘ軸上の例示的な候補サブ分類３２０およびｙ軸上の確率３２２を含む棒グラフとして、図３に示されている。

さらに説明するために、分類「標識」に関連付けられた別のサブクラスＭＬモデルは、候補サブ分類「交通標識」、「ビルボード」、「ポスター」、「その他の広告」などに関連付けられ得る。さらに、サブクラスモデルは、サブクラスＭＬモデルの追加（および／またはそれ以下）レベルの親になり得る。例えば、第１のＭＬモデルは、一般的な分類、「車両」、「歩行者」、「標識」などに関連付けられ得、第１のサブクラスＭＬモデルは、分類「標識」に関連付けられ得、および、親として、サブ分類「交通標識」に関連付けられる第２のサブクラスＭＬモデルに関連付けられ得る。「交通標識」は、第１のサブクラスＭＬモデルの候補クラスであり得、その子である第２のサブクラスＭＬモデルは、候補サブ分類「停止標識」、「イールド標識（ｙｉｅｌｄｓｉｇｎ）」、「速度標識」、「車線合流標識」などに関連付けられ得る。

言い換えれば、例示的なアーキテクチャ３００は、分類によって関連付けられた親ＭＬモデルおよび子ＭＬモデルの階層構造を含み得、子ＭＬモデルは、親ＭＬモデルによって生成された分類に関連付けられたサブ分類を出力するようにトレーニングされる。本明細書で説明するＭＬモデルによって生成される分類および／またはサブ分類は、ＭＬモデルの階層構造を反映し得る。例えば、「イールド標識（ｙｉｅｌｄｓｉｇｎ）」は、「標識：交通標識：イールド標識（ｙｉｅｌｄｓｉｇｎ）」として、第２のサブクラスＭＬモデルによって示され得る。

図示の例に戻ると、選択コンポーネント３０２から受信した特徴データのセット（例えば、物体、いくつかの例では、追加的または代替的に、ＲＯＩ、ならびに／または分類および／もしくは確率に関連付けられた１つまたは複数の特徴マップの少なくとも一部を含み得る）に少なくとも部分的に基づいて、サブクラスＭＬモデル３０４（ｐ）は、確率分布３１６を生成し得る。いくつかの例では、サブクラスＭＬモデル３０４（ｐ）は、出力３１０の一部として、サブ分類および／または確率を出力する。例えば、サブクラスＭＬモデル３０４（ｐ）は、確率閾値３２４を満たすまたは超える確率に関連付けられる、および／または確率分布３１８を超える最大の確率である候補サブ分類を決定し得る。

いくつかの例では、出力するサブ分類の１つを決定することに少なくとも部分的に基づいて、サブクラスＭＬモデル３０４（ｐ）は、出力サブ分類が確率閾値３２４を満たすまたは超えるかどうかを決定し得る。例えば、サブ分類が確率分布３２０内のすべての確率の最大確率に関連付けられ得る場合でも、確率が低すぎて信頼し得ない（例えば、９５％未満、９０％未満、８０％未満、７０％未満）。出力サブ分類に関連付けられた確率が確率閾値３２４よりも小さい場合、サブクラスＭＬモデル３０４（ｐ）は、サブ分類の代わりに、第１のＭＬモデル２０２から受信した分類を出力し得る。しかしながら、確率が確率閾値を満たすまたは超える場合、サブクラスＭＬモデル３０４（ｐ）は、サブ分類を出力し得る。追加または代替の例では、サブクラスＭＬモデル３０４（ｐ）は、サブ分類が確率閾値を下回る確率に関連付けられている場合でも、一般的な分類に加えてサブ分類を出力し得るが、いくつかの例では、サブクラスＭＬモデル３０４（ｐ）は、サブ分類が確率閾値３２４未満の確率に関連付けられているという表示を追加または代替的に出力し得る。

図示の例では、サブクラスＭＬモデル３０４（ｐ）は、サブ分類「物体を保持している歩行者」３１４が確率閾値３２６を満たすまたは超える確率に関連付けられていると、および／または確率が確率分布３１８の複数の確率の最大確率であると、決定することに少なくとも部分的に基づいて、サブ分類「物体を保持している歩行者」３１４および／またはそれに関連付けられた確率を出力し得る。しかしながら、サブ分類「物体を保持している歩行者」３１４が確率閾値３２６未満の確率に関連付けられていたとしても、サブクラスＭＬモデル３０４（ｐ）がそれを決定することになった場合、サブクラスＭＬモデル３０４（ｐ）は「物体を保持している歩行者」３１４の代わりに「歩行者」を出力し得る。

サブクラスＭＬモデル３０４（ｐ）が追加のサブクラスＭＬモデル（不図示）（例えば、一般的な分類「標識」に関連付けられたサブクラスモデル、サブ分類「交通標識」に関連付けられた追加のサブクラスモデル）の親である例では、サブクラスＭＬモデル３０４（ｐ）によって決定されたサブ分類が確率閾値３２６を満たすまたは超えるという決定に少なくとも部分的に基づいて、サブクラスＭＬモデル３０４（ｐ）は、サブ分類を追加の子サブクラスＭＬモデルに送信し得、これはサブ分類（サブ分類の）および／または確率を決定し得る。しかしながら、サブクラスＭＬモデル３０４（ｐ）が、サブ分類が確率閾値３２４よりも小さいと決定した場合、サブクラスＭＬモデル３０４（ｐ）は、追加のサブクラスＭＬモデルをバイパスして、代わりに一般的な分類を出力し得る。

いくつかの例では、分類およびサブ分類は、階層的に関連する分類を区別するためのセマンティックラベルおよび／またはデータ構造を含み得る。例えば、第１のＭＬモデル２０２によって決定された一般的な分類から２階層下の構造のＭＬモデルのサブクラスＭＬモデルによって生成されたセマンティックラベルは、「標識：交通：停止標識」として表され得る。

いくつかの例では、異なるＭＬモデルのトレーニングデータは、一般的な分類（すなわち、サブクラスＭＬモデルが関連付けられている親の候補分類）および／またはそれらが関連付けられている候補分類に応じて変化し得る。例えば、一般的な分類「標識」に関連付けられた第１のサブクラスＭＬモデルは、さまざまな標識を含むトレーニングデータ上でトレーニングされ得る。いくつかの例では、第１のサブクラスＭＬモデルのためのトレーニングデータは、少なくとも１つの記号を含むトレーニングデータのみを含み得るが、追加または代替の例では、トレーニングデータは、サブクラスＭＬモデルをネガティブにトレーニングする記号（例えば、標識ではない）を含まないデータを含み得る。一方、一般的な分類「歩行者」に関連付けられた第２のサブクラスＭＬモデルは、標識を含んでもよく含まなくてもよいが、「車椅子の個人」などの稀な分類に関連する物体が含まれるトレーニングデータにおいてトレーニングされ得る。第１のＭＬモデルは、より広くトレーニングされ一般的なクラスを区別し得るが、いくつかの例では、サブクラスを区別しない。例えば、第１のＭＬモデルは、「歩行者」、「車両」、「標識」などを示すが、「物体を保持している歩行者」、「車椅子の個人」、「四輪車両」、「停止標識」、「イールド標識（ｙｉｅｌｄｓｉｇｎ）」、「速度標識」などは示さないグラウンドトゥルースを使用してトレーニングされ得る。

追加または代替の例では、第１の損失は、第１のトレーニングデータ（例えば、グラウンドトゥルースを含み得る）と比較した第１のＭＬモデル２０２の出力に少なくとも部分的に基づいて、第１のＭＬモデル２０２について計算され得、第２の損失は、第１のＭＬモデル２０２の候補分類に関連付けられたサブクラスＭＬモデルについて計算され得る。第２の損失は、サブクラスＭＬモデルの出力と、第１のトレーニングデータおよび／または第２のトレーニングデータによって示されるグラウンドトゥルースとの差に、少なくとも部分的に基づき得る。サブクラスＭＬモデルに関連付けられたパラメータは、第２の損失を最小化するように変更され得る。第１のＭＬモデル２０２に関連付けられたパラメータは、第１の損失および／または第２の損失を最小化するように変更され得る。いくつかの例では、トレーニングデータによって示されるグラウンドトゥルースは、分類の正しい階層を示すタグを含み得る。例えば、グラウンドトゥルースは、「車両：四輪車両：セダン」または「標識：交通標識：イールド標識（ｙｉｅｌｄｓｉｇｎ）」などのタグを含み得る。いくつかの例では、第１のＭＬモデル２０２および／または１つまたは複数のサブクラスＭＬモデルについて計算された損失は、そのような階層的タグに少なくとも部分的に基づき得る。そのような第１および第２の損失は、第１のＭＬモデル２０２によって実行される分類、検出、および／またはセグメンテーション（インスタンスセグメンテーションであり得る）に関連付けられた第３の損失に追加または代替であり得る。

トレーニングは、階層の最上位（例えば、第１のＭＬモデル２０２）から、特徴データを受信した最下位のニューラルネットワークまで、ニューラルネットワークのパラメータを変更することを含み得る。例えば、分類「標識：交通標識：イールド標識（ｙｉｅｌｄｓｉｇｎ）」が最終的に出力された場合、第１のＭＬモデル２０２および少なくとも２つのサブクラスＭＬモデルは、ＭＬモデルに対して計算された損失に少なくとも部分的に基づいてトレーニングされ得る。追加または代替の例では、分類「標識：交通標識」が最終的に出力された場合、第１のＭＬモデル２０２、第１のサブクラスＭＬモデル（「交通標識」に関連付けられた）、および／またはさらなるサブクラスＭＬモデルがトレーニングされ得る。例えば、さらなるサブクラスＭＬモデルは、第１のサブクラスＭＬモデルから特徴データを受信した可能性があるが、確率閾値を満たすまたは超える確率に関連付けられた分類を生成しなかった可能性がある。

いくつかの例では、第１のＭＬモデル２０２が最初にトレーニングされ得、第１のＭＬモデル２０２が十分な精度に達した後、サブクラスＭＬモデルがトレーニングされ得る。例えば、第１のＭＬモデル２０２は、第１のＭＬモデル２０２が確率閾値を満たすまたは超える分類を出力するまで、トレーニングされ得る。追加または代替の例では、第１のＭＬモデル２０２は、サブクラスＭＬモデルの１つまたは複数の層と同時にトレーニングされ得る。

いくつかの例では、サブ分類ＭＬモデルに対して計算された損失は、サブ分類および／または第１のＭＬモデルまでのおよび第１のＭＬモデルを含む任意の親ＭＬモデルを介して逆伝播され得る。例えば、１つまたは複数のモデルが使用されている場合、モデルは「エンドツーエンド」でトレーニングされていると呼ばれ得る。

本明細書の説明は、いくぶん連続的なアーキテクチャおよびプロセスについて説明しているが、例示的なアーキテクチャ３００は、並列パイプラインを含み得る。本明細書で説明されるコンポーネントのいずれかが、操作を順次および／または並行して達成し得る。例えば、異なるＲＯＩ、分類、および／または確率は、異なるサブクラスＭＬモデルおよび／または選択コンポーネントによって並行して処理され得る

いくつかの例では、本明細書で説明されるコンポーネントの１つまたは複数は、ニューラルネットワークとして、全体的または部分的に実装され得る。本明細書に記載されるように、例示的なニューラルネットワークは、入力データを一連の接続された層に通して出力を生成する生物学的に着想を得たアルゴリズムである。ニューラルネットワークの各層は別のニューラルネットワークを含み得る、または任意の数の層（畳み込みかどうかに関係なく）を含み得る。本開示のコンテキストで理解し得るように、ニューラルネットワークは機械学習を利用し得、これは、学習されたパラメータに基づいて出力が生成されるようなアルゴリズムの広範なクラスを指し得る。

ニューラルネットワークのコンテキストで論じたが、任意のタイプの機械学習を本開示と一致させて使用し得る。例えば、機械学習アルゴリズムは、限定しないが、回帰アルゴリズム、インスタンスベースのアルゴリズム、ベイジアンアルゴリズム、相関ルール学習アルゴリズム、深層学習アルゴリズムなどを含み得る。ニューラルネットワークアーキテクチャの追加または代替の例は、ＲｅｓＮｅｔ５０、ＲｅｓＮｅｔ１０１、ＶＧＧ、ＤｅｎｓｅＮｅｔ、ＰｏｉｎｔＮｅｔなどのニューラルネットワークを含み得る。

［例示的なプロセス］
図４は、センサデータで表される物体のサブ分類を決定するための例示的なプロセス４００を示している。いくつかの例では、例示的なプロセス４００は、例示的なアーキテクチャ３００のコンポーネントによって達成され得る。

オペレーション４０２にて、例示的なプロセス４００は、本明細書で説明される技術のいずれかに従って、センサデータを受信することを含み得る。

オペレーション４０４にて、例示的なプロセス４００は、第１のＭＬモデルによって、本明細書で説明される技術のいずれかに従って、ＲＯＩ、物体に関連付けられた分類、および／または１つまたは複数の特徴マップを生成することを含み得る。いくつかの例では、本明細書で説明されるアーキテクチャによれば、第１のＭＬモデルは、１つまたは複数の子ＭＬモデル（異なるＭＬモデルおよび／または第１のＭＬモデルと同じＭＬモデルの追加のサブネットワークであり得る）の親（および／またはサブネットワーク）であり得、各子ＭＬモデル（つまり、サブクラスＭＬモデル）は、第１のＭＬモデルが確率分布を生成するようにトレーニングされた異なる候補分類に対応する。追加または代替の例では、子ＭＬモデルが関連付けられている分類が重複し得、その結果、２以上のサブクラスモデルは、第１のＭＬモデルによって出力された分類に少なくとも部分的に基づいて、サブクラスおよび／または分類確率を生成し得る。いくつかの例では、分類は、ＲＯＩに関連付けられ、および／またはそうでなければ、センサデータ内の物体の表現に関連付けられ得る。

オペレーション４０６にて、例示的なプロセス４００は、第１のＭＬモデルによって生成された分類に少なくとも部分的に基づいて、本明細書で説明された技術のいずれかに従って、複数のサブクラスＭＬモデルの中からサブクラスＭＬモデルを選択することを含み得る。いくつかの例では、オペレーション４０６は、どのサブクラスＭＬモデルが第１のＭＬモデルの子として関連付けられているかを識別することをさらに含み得る。しかしながら、追加のまたは代替の例では、サブクラスＭＬモデルは、第１のＭＬモデルの出力が、第１のＭＬモデルの出力によって示される分類に対応するサブクラスＭＬモデルに直接送信されるように、第１のＭＬモデルに（例えば、ハードウェアおよび／またはソフトウェアスイッチによって）通信可能に結合され得る。それにもかかわらず、サブクラスＭＬモデルを選択することは、サブクラスＭＬモデルが第１のＭＬモデルによって生成された分類に関連付けられていることを決定することを含み得る。追加または代替の例では、第１のＭＬモデルおよびサブクラスＭＬモデルは、同じニューラルネットワークのサブ部分であり得る。このような例において、オペレーション４０６は省略され得る。

いくつかの例では、オペレーション４０６は、追加的または代替的に、第１のＭＬモデルによって生成されたデータの一部を決定し、選択されたサブクラスＭＬモデルに提供することを含み得る。例えば、第１のＭＬモデルは、ＲＯＩおよび／または分類を生成することに加えて、またはその代わりに、第１のＭＬモデルは、例えば、インスタンスセグメンテーション、セマンティックセグメンテーション、高密度深度特徴マップ、物体指向特徴マップ、検出特徴マップなどのような１つまたは複数の特徴マップを生成し得る。オペレーション４０６にて、例示的なプロセス４００は、１つまたは複数の特徴マップの部分を決定し、センサデータで表される物体に対応する選択されたサブクラスＭＬモデルに提供することを含み得る。これは、ＲＯＩに対応する特徴マップおよび／もしく物体に対応するセンサデータの離散部分の他の表示の一部分をクロッピングするならびに／またはそうでなければ選択すること、を含み得る。一部分が決定されると、一部分、第１のＭＬモデルによって決定されたＲＯＩ、および／または第１のＭＬモデルによって決定された分類が、サブクラスＭＬモデルに提供され得る。いくつかの例では、これは、センサデータから検出された１つまたは複数の物体に対して繰り返され得る（例えば、検出された各物体に対して、サブクラスＭＬモデルを選択し、１つまたは複数の特徴マップの少なくとも一部を決定し、その部分を選択したサブクラスＭＬモデルに提供し得る）。

いくつかの例では、第１のＭＬモデルは、ｑチャネルを含み得、ｑは、ＭＬモデルによって受信されたセンサデータの次元に対応するように選択された整数であり得る。いくつかの例では、サブクラスＭＬモデルは、ｒチャネルを含み得、ｒは、ＲＯＩおよび／または特徴マップを生成する第１のＭＬモデルの出力層の次元に対応する整数であり得る。

オペレーション４０８において、例示的なプロセス４００は、選択されたサブクラスＭＬモデルによって、本明細書で説明される技術のいずれかに従って、物体に関連付けられたサブ分類および／またはサブ分類確率を生成することを含み得る。例えば、サブ分類および／または確率を生成することは、上記で決定された特徴マップの部分および／もしくは第１のＭＬモデルへの入力、第１のＭＬモデルによって決定されたＲＯＩ、ならびに／または第１のＭＬモデルによって決定された分類に、少なくとも部分的に基づき得る。ただし、サブクラスＭＬモデルは、物体に対応すると決定された特徴マップの部分に少なくとも部分的に基づいて、サブ分類および／または確率を生成するようにトレーニングされ得るため、トレーニングが完了すると、いくつかの例では、サブクラスＭＬモデルは第１のＭＬモデルによって決定された分類および／またはＲＯＩを受信し得ない。いくつかの例では、選択コンポーネントは、部分が第１のＭＬモデルによって生成された分類に対応する正しいサブクラスＭＬモデルにルーティングされることを確実にし得る。例えば、選択コンポーネントは、親ＭＬモデルの出力ノードから子ＭＬモデルの入力ノードならびに／またはハードウェアおよび／もしくはソフトウェアスイッチにデータを送信するように設計されたニューラルネットワークの層を含み得る。

いくつかの例では、サブクラスＭＬモデルは、サブクラスＭＬモデルがトレーニングされた候補サブ分類全体の確率分布を決定し得る。いくつかの例では、サブクラスＭＬモデルは、他の候補分類よりも高い確率に関連付けられている候補サブ分類の１つを決定し得る。このサブ分類は、極大値、最大値、上位四分位数よりも大きい確率などに関連付けられ得る。

オペレーション４１０において、例示的なプロセス４００は、本明細書で説明される技術のいずれかによって、サブクラスＭＬモデルによって生成されたサブ分類に関連付けられた確率が確率閾値を満たすかどうか（例えば、確率が確率閾値を満たすまたは超えるかどうか）を決定することを含み得る。確率閾値は、例えば、９９％、９８％、９５％、９０％、８０％、７５％などの値を含み得る。オペレーション４１０は、追加的または代替的に、確率分布の他の確率よりも大きい確率から２番目に大きい確率までの間に差があるかどうかを決定することと、差が識別閾値を満たすまたは超えるかどうかを決定することを含み得る。例えば、第１の確率が９５％、第２の確率が９２％であり、識別閾値が５％の場合、第１の確率と第２の確率の差は、その差が３％であるため、識別閾値を満たしていないまたは超えていない。これは、モデルが、分類を十分に識別しておらず、物体が同時に２つの異なる分類であると強く確信していること、を示し得る。いくつかの例では、特定の分類が同時出力され得、および／または他の分類が識別閾値に関連付けられ得る。例えば、サブ分類「物体を引っ張る／押す個人」は、サブ分類「子」と同時出力され得るが、「物体を引っ張る／押す個人」は、サブ分類「車輪付き歩行者」に関連する識別閾値に関連付けられ得る。

サブ分類に関連付けられた確率が確率閾値よりも小さい場合、例示的なプロセス４００は、オペレーション４１２に進み得る。いくつかの例では、第１のＭＬモデルおよび／またはサブクラスＭＬモデルの出力は、追加的または代替的に、それぞれ第１のＭＬモデルおよび／またはサブクラスＭＬモデルの最後の層を介して出力され得る。オペレーション４１２において、例示的なプロセス４００は、本明細書で説明される技術のいずれかに従って、分類を物体に関連付けることを含み得る。例えば、これは、サブクラスＭＬモデルによって生成されたサブ分類を物体に関連付ける代わりに、第１のＭＬモデルによって生成された分類を物体に関連付けることを含み得る。サブクラスＭＬモデルが親から子のサブクラスＭＬモデルに関連付けられている例では、これらのサブクラスＭＬモデルはスキップされ得、分類が出力され得る。追加または代替の例では、確率が確率閾値を満たさないと決定することに少なくとも部分的に基づいて、部分、ＲＯＩ、および／または分類を代替のサブクラスＭＬモデルに提供し得る。例えば、代替のサブクラスＭＬモデルは、分類に追加的に関連付けられ得るか、または追加または代替の例において、サブクラスＭＬモデルは、分類に関連付けられた確率よりも低い確率に関連付けられた第１のＭＬモデルによって決定された第２の分類に関連付けられ得る。例えば、第２の分類は２番目に高い確率に関連付けられ得る。説明のために、第１のサブクラスＭＬモデルは、親候補分類「交通標識」に関連付けられ得、第２のサブクラスＭＬモデルは、親候補分類「ビルボード」に関連付けられ得る。

サブ分類に関連付けられた確率が確率閾値を満たすまたは超える場合、例示的なプロセス４００は、オペレーション４１４に進み得る。オペレーション４１４において、例示的なプロセス４００は、本明細書で説明される技術のいずれかに従って、サブ分類を物体に関連付けることを含み得る。サブ分類を物体に関連付けることは、チャネルにサブスクライブする（例えば、パブリッシュ／サブスクライブアーキテクチャを介して）コンポーネント（例えば、プランナ、位置測定およびマッピングコンポーネント）に、チャネルを介して、知覚エンジンによって公開された検出メッセージの一部としてサブ分類を出力することを含み得る。

追加または代替の例では、サブクラスＭＬモデルが他のサブクラスＭＬモデルに親として関連している場合、サブクラスＭＬモデルは、サブ分類に対応する子サブクラスＭＬモデルに、特徴マップのサブ分類および／または部分を送信し得る。上記のオペレーション４０８～４１４でのプロセスは、子サブクラスＭＬモデルで繰り返され得る。ただし、子サブクラスＭＬモデルによって生成されたサブ分類が、第２の確率閾値よりも小さい場合（例えば、確率閾値に等しい、超える、または小さい可能性がある）、分類を物体に関連付ける代わりに、例示的なプロセス４００は、サブクラスＭＬモデルのサブ分類を物体に関連付けることを含み得る。いくつかの例では、ＲＯＩ、分類、および／または確率は、第１のＭＬモデルによって出力され得、サブ分類および／または確率は、特徴データが到達する（例えば、選択／転送によって）任意のサブクラスＭＬモデルによって追加的または代替的に出力され得る。

［例示的なシステム］
図５は、本明細書で説明される技術を実施する例示的なシステムのブロック図を示す。いくつかの例では、システム５００は、図１の自律車両１０２に対応し得る車両５０２を含み得る。いくつかの例では、車両５０２は、米国運輸省道路交通安全局によって発行されたレベル５分類に従って操作するように構成された自律車両であり得、これは、ドライバー（または乗員）が車両を常に制御することを期待することなく、全体行程のすべての安全上重要な機能を実行可能な車両について説明している。しかしながら、他の例では、車両５０２は、他のレベルまたは分類を有する完全なまたは部分的な自律車両であり得る。さらに、いくつかの例では、本明細書に記載の技術は、非自律車両によっても使用可能であり得る。本明細書で説明される技術は、自律車両などのロボット制御以外に対しても適用され得ることが企図される。例えば、本明細書で説明される技術は、ビデオゲーム、製造、拡張現実などに適用され得る。

車両５０２は、車両コンピューティングデバイス５０４、１つまたは複数のセンサ５０６、１つまたは複数のエミッタ５０８、１つまたは複数のネットワークインターフェース５１０、および／または１つまたは複数の駆動コンポーネント５１２を含み得る。

いくつかの例では、センサ５０６は、ＬＩＤＡＲセンサ、ＲＡＤＡＲセンサ、超音波トランスデューサー、ｓｏｎａｒセンサ、位置センサ（例えば、全地球測位システム（ＧＰＳ）、コンパスなど）、慣性センサ（例えば、慣性測定ユニット（ＩＭＵｓ）、加速度計、磁気計、ジャイロスコープなど）、画像センサ（例えば、赤－緑－青（ＲＧＢ）、赤外線（ＩＲ）、強度、深度、飛行時間カメラ（ｔｉｍｅｏｆｆｌｉｇｈｔｃａｍｅｒａｓ）など）、マイク、ホイールエンコーダ、環境センサ（例えば、温度センサ、湿度センサ、光センサ、圧力センサなど）などを含み得る。センサ５０６は、これらまたは他のタイプのセンサのそれぞれの複数の実例を含み得る。例えば、ＬＩＤＡＲセンサは、車両５０２のコーナー、フロント、バック、サイド、および／またはトップに設置された個々のＬＩＤＡＲセンサを含み得る。別の例として、カメラは、車両５０２の外部および／または内部の周りの様々な場所に配置された複数のカメラを含み得る。センサ５０６は、車両コンピューティングデバイス５０４に入力を提供し得る。

車両５０２はまた、上記のように、光および／または音を放出するエミッタ５０８を含み得る。この例におけるエミッタ５０８は、車両５０２の乗客と通信するための内部オーディオおよびビジュアルエミッタを含み得る。限定ではなく例として、内部エミッタは、スピーカー、ライト、サイン、ディスプレイスクリーン、タッチスクリーン、触覚エミッタ（例えば、振動および／またはフォースフィードバック）、機械式アクチュエータ（例えば、シートベルトテンショナー、シートポジショナー、ヘッドレストポジショナーなど）などを含み得る。この例におけるエミッタ５０８はまた、外部エミッタを含み得る。限定ではなく例として、この例示の外部エミッタは、走行の方向または車両のアクションの他のインジケータ（例えば、インジケータライト、サイン、ライトアレイなど）を信号で送るためのライト、および音響ビームステアリング技術を備える１つまたは複数の歩行者または他の近くの車両と音声で通信するための１つまたは複数のオーディオエミッタ（例えば、スピーカー、スピーカーアレイ、ホーンなど）を含む。

車両５０２はまた、車両５０２と１つまたは複数の他のローカルまたはリモートコンピューティングデバイスとの間の通信を可能にするネットワークインターフェース５１０を含み得る。例えば、ネットワークインターフェース５１０は、車両５０２および／または駆動コンポーネント５１２上の他のローカルコンピューティングデバイスとの通信を容易にし得る。また、ネットワークインターフェース５１０は、追加的または代替的に、車両が他の近くのコンピューティングデバイス（例えば、他の近くの車両、交通標識など）と通信することを可能にし得る。ネットワークインターフェース５１０は、追加的または代替的に、車両５０２がコンピューティングデバイス５１４と通信することを可能にし得る。いくつかの例では、コンピューティングデバイス５１４は分散コンピューティングシステム（例えば、クラウドコンピューティングアーキテクチャ）の１つまたは複数のノードを含み得る。

ネットワークインターフェース５１０は、車両コンピューティングデバイス５０４を別のコンピューティングデバイスまたはネットワーク５１６などのネットワークに接続するための物理的および／または論理的インターフェースを含み得る。例えば、ネットワークインターフェース５１０は、ＩＥＥＥ５００．１１規格によって定義された周波数を介するようなＷｉ－Ｆｉベースの通信、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの短距離無線周波数、セルラー通信（例えば、２Ｇ、３Ｇ、４Ｇ、４ＧＬＴＥ、５Ｇなど）、またはそれぞれのコンピューティングデバイスが他のコンピューティングデバイスとインターフェースで接続することを可能にする任意の適切な有線または無線通信プロトコルを可能にし得る。いくつかの例では、車両コンピューティングデバイス５０４および／またはセンサ５０６は、特定の周波数で、所定の期間の経過後、ほぼ実時間などで、コンピューティングデバイス５１４に、ネットワーク５１６を介して、センサデータを送信し得る。

いくつかの例では、車両５０２は１つまたは複数の駆動コンポーネント５１２を含み得る。いくつかの例では、車両５０２は、単一の駆動コンポーネント５１２を有し得る。いくつかの例では、駆動コンポーネント５１２は、駆動コンポーネント５１２および／または車両５０２の周囲の状態を検出する１つまたは複数のセンサを含み得る。限定ではなく例として、駆動コンポーネント５１２のセンサは、駆動コンポーネントのホイールの回転を感知するための１つまたは複数のホイールエンコーダ（例えばロータリーエンコーダ）、駆動コンポーネントの向きと加速度を測定するための慣性センサ（例えば、慣性測定ユニット、加速度計、ジャイロスコープ、磁力計など）、カメラまたはその他の画像センサ、駆動コンポーネントの周囲の物体を音響的に検出するための超音波センサ、ＬＩＤＡＲセンサ、ＲＡＤＡＲセンサなど、を含み得る。ホイールエンコーダなどの一部のセンサは、駆動コンポーネント５１２に固有であり得る。場合によっては、駆動コンポーネント５１２上のセンサは、車両５０２の対応するシステム（例えば、センサ５０６）と重複または補足し得る。

駆動コンポーネント５１２は、高電圧バッテリー、車両を推進するモーター、バッテリーからの直流を他の車両システムで使用する交流に変換するインバーター、ステアリングモーターおよびステアリングラック（電動とし得る）を含むステアリングシステム、油圧または電気アクチュエータを含むブレーキシステム、油圧および／または空気圧コンポーネントを含むサスペンションシステム、トラクションの損失を軽減し制御を維持するブレーキ力分散用の安定性制御システム、ＨＶＡＣシステム、照明（例えば車両の外部環境を照らすヘッド／テールライトなどの照明）、および１つまたは複数の他のシステム（例えば冷却システム、安全システム、車載充電システム、ＤＣ／ＤＣコンバーター、高電圧ジャンクション、高電圧ケーブル、充電システム、充電ポートなどのその他の電装コンポーネント）を含む多くの車両システムを含み得る。さらに、駆動コンポーネント５１２は、センサからデータを受信し事前処理し、様々な車両システムの操作を制御し得る駆動コンポーネントコントローラを含み得る。いくつかの例では、駆動コンポーネントコントローラは、１つまたは複数のプロセッサおよび１つまたは複数のプロセッサと通信可能に結合されたメモリを含み得る。メモリは１つまたは複数のコンポーネントを格納し、駆動コンポーネント５１２の様々な機能を実行し得る。さらに、駆動コンポーネント５１２はまた、それぞれの駆動コンポーネントによる１つまたは複数の他のローカルまたはリモートコンピューティングデバイスとの通信を可能にする１つまたは複数の通信接続部を含み得る。

車両コンピューティングデバイス５０４は、１つまたは複数のプロセッサ５１８と、１つまたは複数のプロセッサ５１８に通信可能に結合されたメモリ５２０と、を含み得る。コンピューティングデバイス５１４は、追加的または代替的に、プロセッサ５２２、および／またはメモリ５２４を含み得る。プロセッサ５１８および／または５２２は、データを処理し、本明細書に記載されるような操作を実行するための命令を実行することが可能な任意の適切なプロセッサであり得る。限定ではなく例として、プロセッサ５１８および５２２は、１つまたは複数の中央処理装置（ＣＰＵ）、グラフィック処理装置（ＧＰＵ）、集積回路（例えば、特定用途向け集積回路（ＡＳＩＣ）など）、ゲートアレイ（例えば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）など）、および／または電子データを処理して、レジスタまたはメモリに格納し得る他の電子データに、その電子データを変換する他の任意のデバイスまたはデバイスの一部、を備え得る。

メモリ５２０および／または５２４は、非一時的コンピュータ可読媒体の例であり得る。メモリ５２０および／または５２４は、オペレーティングシステムおよび１つまたは複数のソフトウェアアプリケーション、命令、プログラム、および／またはデータを格納して、本明細書に記載の方法および様々なシステムに起因する機能を実装し得る。様々な実装では、メモリを、スタティックランダムアクセスメモリ（ＳＲＡＭ）、シンクロナスダイナミックＲＡＭ（ＳＤＲＡＭ）、不揮発性／フラッシュタイプメモリ、または情報を格納可能な他の任意のタイプのメモリなど、適切なメモリ技術を用いて実装し得る。本明細書に記載されるアーキテクチャ、システム、および個々の要素は、他の多くの論理的、プログラム的、および物理的なコンポーネントを含み得、それらの添付図面に示されるものは、本明細書の説明に関連する単なる例にすぎない。

いくつかの例では、メモリ５２０および／またはメモリ５２４は、ＭＬアーキテクチャ５２８、プランナ５３０、および／またはシステムコントローラ５３２を含み得る知覚エンジン５２６を格納し得る。知覚エンジン５２６は、知覚エンジン１１０を表し得、ＭＬアーキテクチャ５２８は、例示的なアーキテクチャ３００を含み、および／または表し得、プランナ５３０は、プランナ１１２を表し得る。いくつかの例では、知覚エンジン５２６は、一次知覚システム、二次知覚システム、予測システム、および／または位置測定システムを含み得る。メモリ５２０および／または５２４は、追加的または代替的に、マッピングシステム、計画システム、乗車管理システムなどを格納し得る。知覚エンジン５２６およびＭＬアーキテクチャ５２８はメモリ５２０に格納されるように示されているが、知覚エンジン５２６および／またはＭＬアーキテクチャ５２８はメモリ５２４に格納され得る、および／またはプロセッサ実行可能命令、機械学習モデル、および／またはハードウェアを含み得る。

本明細書に記載されるように、例示的なニューラルネットワークは、入力データを一連の接続された層に通して出力を生成する生物学的に着想を得たアルゴリズムである。ニューラルネットワークの各層はまた、別のニューラルネットワークを含むことができる、または任意の数の層（畳み込みかどうかに関係なく）を含むこともできる。本開示のコンテキストで理解できるように、ニューラルネットワークは機械学習を利用でき、これは学習されたパラメータに基づいて出力が生成されるようなアルゴリズムの広範なクラスを指すことができる。

ニューラルネットワークのコンテキストで論じたが、任意のタイプの機械学習をこの開示と一致させて使用できる。機械学習アルゴリズムは、例えば限定しないが、回帰アルゴリズム（例えば、通常の最小二乗回帰（ＯＬＳＲ）、線形回帰、ロジスティック回帰、ステップワイズ回帰、多変量適応回帰スプライン（ＭＡＲＳ）、局所的に推定されたスカープロット平滑化（ＬＯＥＳＳ））、インスタンスベースのアルゴリズム（例えば、リッジ回帰、最小絶対収縮および選択演算子（ＬＡＳＳＯ）、弾性ネット、最小角度回帰（ＬＡＲＳ））、決定木アルゴリズム（例えば、分類および回帰木（ＣＡＲＴ）、反復二分法３（ＩＤ３）、カイ二乗自動相互作用検出（ＣＨＡＩＤ）、決定切り株、条件付き決定木））、ベイジアンアルゴリズム（例えば、単純ベイズ、ガウス単純ベイズ、多項単純ベイズ、平均１依存推定量（ＡＯＤＥ）、ベイジアン信念ネットワーク（ＢＮＮ）、ベイジアンネットワーク）、クラスタリングアルゴリズム（例えば、ｋ平均、ｋ中央値、期待値最大化（ＥＭ）、階層的クラスタリング）、相関ルール学習アルゴリズム（例えば、パーセプトロン、バックプロパゲーション、ホップフィールドネットワーク、動径基底関数ネットワーク（ＲＢＦＮ））、ディープラーニングアルゴリズム（例えばディープボルツマンマシーン（ＤＢＭ）、ディープブリーフネットワーク（ＤＢＮ）、重畳型ニューラルネットワーク（ＣＮＮ）、スタック・オートエンコーダ）、次元数削減アルゴリズム（例えば主成分分析（ＰＣＡ）、主成分回帰（ＰＣＲ）、部分最小二乗回帰（ＰＬＳＲ）、サモンマッピング、多次元スケーリング（ＭＤＳ）、射影追跡、線形判別分析（ＬＤＡ）、混合判別分析（ＭＤＡ）、二次判別分析（ＱＤＡ）、柔軟判別分析（ＦＤＡ））、アンサンブルアルゴリズム（例えば、ブースティング、ブートストラップ集計（バギング）、アダブースト、スタック一般化（ブレンディング）、勾配ブースティングマシン（ＧＢＭ）、勾配ブースティング回帰ツリー（ＧＢＲＴ）、ランダムフォレスト）、ＳＶＭ（サポートベクターマシン）、教師あり学習、教師なし学習、半教師あり学習などを含むことができる。アーキテクチャの追加の例は、ＲｅｓＮｅｔ６０、ＲｅｓＮｅｔ１０１、ＶＧＧ、ＤｅｎｓｅＮｅｔ、ＰｏｉｎｔＮｅｔなどのニューラルネットワークを含む。

メモリ５２０は、追加的または代替的に、１つまたは複数のシステムコントローラ５３２（追加的または代替的にハードウェアとして実装され得る）を格納し得、これは、車両５０２のステアリング、推進、ブレーキ、安全、エミッタ、通信、およびその他のシステムを制御するように構成され得る。これらのシステムコントローラ５３２は、駆動コンポーネント５１２および／または車両５０２の他のコンポーネントの対応するシステムと通信および／または制御し得る。例えば、プランナ５３０は、知覚エンジン５２６によって生成された分類、サブ分類、および／またはＲＯＩに少なくとも部分的に基づいて命令を生成し、命令に少なくとも部分的に基づいて車両５０２の操作を制御し得るシステムコントローラ５３２に命令を送信し得る。

図５は分散システムとして示されているが、代替の例では、車両５０２のコンポーネントはコンピューティングデバイス５１４に関連付けられ得る、および／またはコンピューティングデバイス５１４のコンポーネントは車両５０２に関連付けられ得る、という事に留意すべきである。すなわち、車両５０２は、コンピューティングデバイス５１４に関連付けられた機能の１つまたは複数を実行し得、逆もまた同様である。

［例示的な請求内容］
Ａ．画像を自律車両のセンサから受信することと、前記画像を第１のニューラルネットワークへの入力として提供することと、前記画像内に表現される物体に関連付けられた特徴マップ、関心領域、分類、第１の確率を、前記第１のニューラルネットワークから受信することと、前記関心領域に対応する前記特徴マップの少なくとも一部分を第２のニューラルネットワークへの入力として提供することと、サブ分類およびそれに関連付けられた第２の確率を、前記第２のニューラルネットワークから受信することと、前記分類または前記サブ分類の少なくとも１つに少なくとも部分的に基づいて前記自律車両の操作を制御することと、を含む、方法。

Ｂ．前記第１の確率が第１の確率閾値を満たすまたは超えると決定することに少なくとも部分的に基づいて、前記関心領域に関連付けられた前記分類を出力することと、前記第２の確率が第２の確率閾値を満たすまたは超えると決定することに少なくとも部分的に基づいて、前記関心領域に関連付けられた前記分類または前記サブ分類の少なくとも１つを出力することと、をさらに含む、段落Ａに記載の方法。

Ｃ．前記方法は、前記第１のニューラルネットワークから受信した少なくとも追加の特徴マップを前記ニューラルネットワークの前記第２の部分への追加の入力として提供することをさらに含み、前記第１のニューラルネットワークは、インスタンスセグメンテーションまたはセマンティックセグメンテーションの少なくとも１つを出力するようにトレーニングされている、段落Ａまたは段落Ｂのいずれかに記載の方法。

Ｄ．前記分類を受信することに少なくとも部分的に基づいて、前記特徴マップの前記部分を前記第２のニューラルネットワークへ送信することであって、前記分類は前記第２のニューラルネットワークに関連付けられている、送信することと、第２の分類を受信することに少なくとも部分的に基づいて第２の特徴マップの第２の部分を第３のニューラルネットワークへ送信することであって、前記第２の分類は前記第３のニューラルネットワークに関連付けられている、送信することと、をさらに含む、段落Ａから段落Ｃのいずれか１つに記載の方法。

Ｅ．前記候補分類は、歩行者分類、車両分類、自転車分類、標識分類、動物分類、交通障害分類の少なくとも２つを含む、段落Ａから段落Ｄのいずれか１つに記載の方法。

Ｆ．１つまたは複数のプロセッサと、前記１つまたは複数のプロセッサによって実行されると、センサデータを受信することと、前記センサデータを第１の機械学習（ＭＬ）モデルへの入力として提供することと、前記センサデータ内の物体の表現に関連付けられた分類、前記分類に関連付けられた第１の確率、特徴マップ、前記物体の前記表現に関連付けられた前記センサデータの関心領域を、前記第１のＭＬモデルから受信することと、サブ分類および前記サブ分類に関連付けられた第２の確率を、サブクラスＭＬモデルから受信することと、を含む操作をシステムに実行させる、プロセッサ実行可能命令を格納するメモリと、を備える、システム。

Ｇ．前記操作は、前記第１のＭＬモデルの第１の部分から受信した第１の特徴マップの少なくとも第１の部分、および前記第１のＭＬモデルの第２の部分から受信した第２の特徴マップの少なくとも第２の部分を、前記サブクラスＭＬモデル内へ入力することをさらに備える、段落Ｆに記載のシステム。

Ｈ．前記第１の部分および前記第２の部分は前記関心領域に少なくとも部分的に基づいている、段落Ｆまたは段落Ｇのいずれかに記載のシステム。

Ｉ．前記第２の特徴マップは、セマンティックセグメンテーション特徴マップ、インスタンスセグメンテーション特徴マップ、高密度深度特徴マップまたは物体方向特徴マップの少なくとも１つを含む、段落Ｆから段落Ｈのいずれか１つに記載のシステム。

Ｊ．前記操作は、前記第１の確率が第１の確率閾値を満たすまたは超えると決定することに少なくとも部分的に基づいて、前記物体に関連付けられた前記分類を、出力することと、前記第２の確率が第２の確率閾値を満たすまたは超えると決定することに少なくとも部分的に基づいて、前記物体に伴って前記サブ分類を、出力することと、前記分類または前記サブ分類の少なくとも１つに少なくとも部分的に基づいて、自律車両を、制御することと、
をさらに備える、段落Ｆから段落Ｉのいずれか１つに記載のシステム。

Ｋ．前記操作は、前記第１のＭＬモデルまたは前記サブクラスＭＬモデルの少なくとも１つへグラウンドトゥルースセンサデータを提供することであって、前記グラウンドトゥルースセンサデータはグラウンドトゥルース分類ラベルおよびグラウンドトゥルースサブ分類ラベルに関連付けられている、提供することと、前記第１のＭＬモデルの第１の出力とグラウンドトゥルース分類ラベルとの間の差に少なくとも部分的に基づいて、第１の損失を決定することと、前記サブクラスＭＬモデルの第２の出力と前記グラウンドトゥルースサブ分類ラベルとの間の差に少なくとも部分的に基づいて、第２の損失を決定することと、前記第１のＭＬモデルの１つまたは複数の第１のパラメータまたは前記サブクラスＭＬモデルの１つまたは複数の第２のパラメータの少なくとも１つを変更して、前記第１の損失または前記第２の損失の少なくとも１つを最小化することと、さらに備える、段落Ｆから段落Ｊのいずれか１つに記載のシステム。

Ｌ．前記ＭＬモデルの前記第２の部分は第１の分類に関連付けられていて、前記ＭＬモデルの第３の部分は第２の分類に関連付けられていて、前記第１の分類および前記第２の分類は前記ＭＬモデルの前記第１の部分に関連付けられている候補分類である、段落Ｆから段落Ｋのいずれか１つに記載のシステム。

Ｍ．前記第１の分類および前記第２の分類は複数の分類のうちの２つであり、前記複数の分類は、歩行者分類、車両分類、自転車分類、標識分類、動物分類、交通障害分類、の少なくとも２つを含む、段落Ｆから段落Ｌのいずれか１つに記載のシステム。

Ｎ．前記第１のＭＬモデルは複数の第１の層を含む第１のニューラルネットワークを含み、前記サブクラスＭＬモデルは複数の第２の層を含む第２のニューラルネットワークを含む、段落Ｆから段落Ｍのいずれか１つに記載のシステム。

Ｏ．前記第１のＭＬモデルは、複数の第１の層を含むニューラルネットワークの第１の部分を含み、前記サブクラスＭＬモデルは、複数の第２の層を含む前記ニューラルネットワークの第２の部分を含む、段落Ｆから段落Ｎのいずれか１つに記載のシステム。

Ｐ．１つまたは複数のプロセッサによって実行されると、センサデータを受信すること、前記センサデータを第１の機械学習（ＭＬ）モデルの入力として提供することと、前記センサデータ内の物体の表現に関連付けられた分類、および前記分類に関連付けられた第１の確率を含む第１の出力を前記第１のＭＬモデルから、受信することと、サブ分類および前記サブ分類に関連付けられた第２の確率をサブクラスＭＬモデルから、受信することと、を備える操作を前記１つまたは複数のプロセッサに実行させる、プロセッサ実行可能命令を格納する非一時的コンピュータ可読媒体。

Ｑ．前記操作は、第１の特徴マップを前記第１のＭＬモデルの第１の部分から受信することと、第２の特徴マップを前記第１のＭＬモデルの第２の部分から受信することと、前記第１の特徴マップの少なくとも一部分および前記第２の特徴マップの少なくとも一部分を、前記サブクラスＭＬモデル内へ、入力することと、さらに備える、前記第１の特徴マップまたは前記第２の特徴マップの少なくとも１つは、前記センサデータ内の前記物体の前記表現に関連付けられた関心領域に関連付けられている、段落Ｐに記載の非一時的コンピュータ可読媒体。

Ｒ．ＭＬモデルは、少なくとも前記第１のＭＬモデルおよび前記サブクラスＭＬモデルを含み、ニューラルネットワークは、前記第１のＭＬモデルまたは前記サブクラスＭＬモデルの少なくとも１つへグラウンドトゥルースセンサデータを提供することであって、前記グラウンドトゥルースセンサデータはグラウンドトゥルース分類ラベルおよびグラウンドトゥルースサブ分類ラベルに関連付けられている、提供することと、前記第１のＭＬモデルの第１の出力とグラウンドトゥルース分類ラベルとの間の差に少なくとも部分的に基づいて、第１の損失を、決定することと、前記サブクラスＭＬモデルの第２の出力と前記グラウンドトゥルースサブ分類ラベルとの間の差に少なくとも部分的に基づいて、第２の損失を、決定することと、前記第１のＭＬモデルの１つまたは複数の第１のパラメータまたは前記サブクラスＭＬモデルの１つまたは複数の第２のパラメータの少なくとも１つを変更して、前記第１の損失または前記第２の損失の少なくとも１つを最小化することと、に少なくとも部分的に基づいて、トレーニングされる、段落Ｐまたは段落Ｑのいずれかに記載の非一時的コンピュータ可読媒体。

Ｓ．前記操作は、前記第１の確率が第１の確率閾値よりも大きいまたは等しいと決定することに少なくとも部分的に基づいて、前記物体に伴って前記分類を出力すること、前記第２の確率が第２の確率閾値よりも大きいまたは等しいと決定することに少なくとも部分的に基づいて、前記サブ分類を出力すること、または前記分類および前記サブ分類に少なくとも部分的に基づいて、自律車両を制御すること、の少なくとも１つをさらに備える、段落Ｐから段落Ｒに記載のいずれか１つに記載の非一時的コンピュータ可読媒体。

Ｔ．前記サブクラスＭＬモデルは第１のサブクラスＭＬモデルであり、前記分類は第１の分類であり、前記操作は、前記第１の分類に関連付けられた第１の特徴マップを、前記第１のＭＬモデルから、受信することと、第２の分類に関連付けられた第２の特徴マップを、前記第１のＭＬモデルから、受信することと、前記第１のサブクラスＭＬモデルに関連付けられている前記第１の分類に少なくとも部分的に基づいて、前記第１の特徴マップの第１の部分を、前記第１のサブクラスＭＬモデルへの入力として、提供することと、第２のサブクラスＭＬモデルに関連付けられている前記第２の分類に少なくとも部分的に基づいて、前記第２の特徴マップの第２の部分を、前記第２のサブクラスＭＬモデルへの入力として、提供することと、をさらに備える、段落Ｐから段落Ｓのいずれか１つに記載の非一時的コンピュータ可読媒体。

主題は、構造的特徴および／または方法論的行為に固有の言語で説明されてきたが、添付の特許請求の範囲で定義される主題は、必ずしも説明された特定の特徴または行為に限定されないことを理解されたい。むしろ、特定の特徴および行為は、特許請求の範囲を実施する例示的な形態として開示されている。

本明細書に記載の構成要素は、任意のタイプのコンピュータ可読媒体に格納され得る、ならびにソフトウェアおよび／またはハードウェアに実装され得る命令を表す。上記のすべての方法およびプロセスは、ソフトウェアコードコンポーネントおよび／または１つまたは複数のコンピュータまたはプロセッサ、ハードウェア、またはそれらのいくつかの組み合わせによって実行されるコンピュータ実行可能命令で具体化され、それらを介して完全に自動化され得る。あるいは、いくつかまたはすべての方法は、専用のコンピュータハードウェアにおいて具体化され得る。

特に明記されていない限り、「可能性がある（ｍａｙ）」、「可能性がある（ｃｏｕｌｄ）」、「可能性がある（ｍａｙ）」、または「可能性がある（ｍｉｇｈｔ）」などの条件付きの言葉は、コンテキスト上、特定の例が、特定の特徴、要素、および／またはステップを含むが、他の例がそれらを含まないことを示すと理解される。したがって、このような条件付き言語は、一般的には、特定の特徴、要素、および／またはステップが、１つまたは複数の例に任意のやり方において必要となること、または、１つまたは複数の例が、ユーザーの入力もしくはプロンプトの有無にかかわらず、特定の特徴、要素、ステップが含まれているかどうか、もしくは任意の特定の例で実行されるかどうか、を決めるためのロジックを必然的に含むこと、を意味することを意図していない。

「Ｘ、Ｙ、またはＺの少なくとも１つ」という句などの接続詞は、特に明記されていない限り、項目、用語などがＸ、Ｙ、またはＺのいずれか、またはそれらの任意の組み合わせであり、各要素の倍数を含むことを示すと理解されるべきである。単数形として明示的に説明されていない限り、「ａ」は単数形および複数形を意味する。

本明細書に記載されている、および／または添付の図に示されているフロー図のいずれかのルーチンの説明、要素、またはブロックは、ルーチンに特定の論理関数または要素を実装するための１つまたは複数のコンピュータ実行可能命令を含む、モジュール、セグメント、またはコードの一部を表す可能性があるとして、理解されるべきである。代替の実装は、当業者によって理解されるように、実質的に同時に、逆の順序で、追加の操作を含む、もしくは操作を省略する、関与する機能に依存する、要素もしくは機能が削除される、または、表示もしくは説明されたものとは異なる順序で実行され得る、本明細書に記載される例の範囲内に含まれる。

上記の例には多くの変形および修正を加え得、その要素は他の許容可能な例の中にあると理解されるべきである。そのようなすべての修正および変形は、本開示の範囲内で本明細書に含まれ、以下の特許請求の範囲によって保護されることが意図されている。

Claims

１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサによって実行されると、
センサデータを受信することと、
前記センサデータを第１の機械学習（ＭＬ）モデルへの入力として提供することと、
前記センサデータ内の物体の表現に関連付けられた分類、前記分類に関連付けられた第１の確率、特徴マップ、前記物体の前記表現に関連付けられた前記センサデータの関心領域を、前記第１のＭＬモデルから受信することと、
サブ分類および前記サブ分類に関連付けられた第２の確率を、サブクラスＭＬモデルから受信することと、
を含む操作をシステムに実行させる、プロセッサ実行可能命令を格納するメモリと、
を備える、システム。
前記操作は、前記第１のＭＬモデルの第１の部分から受信した第１の特徴マップの少なくとも第１の部分、および前記第１のＭＬモデルの第２の部分から受信した第２の特徴マップの少なくとも第２の部分を、前記サブクラスＭＬモデル内へ入力することをさらに備える、請求項１に記載のシステム。
前記第１の部分および前記第２の部分は前記関心領域に少なくとも部分的に基づいている、請求項２に記載のシステム。
前記第２の特徴マップは、セマンティックセグメンテーション特徴マップ、インスタンスセグメンテーション特徴マップ、高密度深度特徴マップまたは物体方向特徴マップの少なくとも１つを含む、請求項２に記載のシステム。
前記操作は、
前記第１のＭＬモデルまたは前記サブクラスＭＬモデルの少なくとも１つへグラウンドトゥルースセンサデータを提供することであって、前記グラウンドトゥルースセンサデータはグラウンドトゥルース分類ラベルおよびグラウンドトゥルースサブ分類ラベルに関連付けられている、提供することと、
前記第１のＭＬモデルの第１の出力とグラウンドトゥルース分類ラベルとの間の差に少なくとも部分的に基づいて、第１の損失を決定することと、
前記サブクラスＭＬモデルの第２の出力と前記グラウンドトゥルースサブ分類ラベルとの間の差に少なくとも部分的に基づいて、第２の損失を決定することと、
前記第１のＭＬモデルの１つまたは複数の第１のパラメータまたは前記サブクラスＭＬモデルの１つまたは複数の第２のパラメータの少なくとも１つを変更して、前記第１の損失または前記第２の損失の少なくとも１つを最小化することと、
さらに備える、請求項１から請求項４のいずれか１項に記載のシステム。
前記ＭＬモデルの前記第２の部分は第１の分類に関連付けられていて、
前記ＭＬモデルの第３の部分は第２の分類に関連付けられていて、
前記第１の分類および前記第２の分類は前記ＭＬモデルの前記第１の部分に関連付けられている候補分類である、
請求項１から請求項５のいずれか１項に記載のシステム。
前記第１の分類および前記第２の分類は複数の分類のうちの２つであり、前記複数の分類は
歩行者分類、
車両分類、
自転車分類、
標識分類、
動物分類、
交通障害分類、
の少なくとも２つを含む、請求項６に記載のシステム。
前記第１のＭＬモデルは複数の第１の層を含む第１のニューラルネットワークを含み、
前記サブクラスＭＬモデルは複数の第２の層を含む第２のニューラルネットワークを含む、
請求項１から請求項７のいずれか１項に記載のシステム。
前記第１のＭＬモデルは、複数の第１の層を含むニューラルネットワークの第１の部分を含み、
前記サブクラスＭＬモデルは、複数の第２の層を含む前記ニューラルネットワークの第２の部分を含む、
請求項１から請求項８のいずれか１項に記載のシステム。
前記操作は、
前記第１の確率が第１の確率閾値を満たすまたは超えると決定することに少なくとも部分的に基づいて、前記物体に関連付けられた前記分類を出力することと、
前記第２の確率が第２の確率閾値を満たすまたは超えると決定することに少なくとも部分的に基づいて、前記物体に伴って前記サブ分類を出力することと、
前記分類または前記サブ分類の少なくとも１つに少なくとも部分的に基づいて、自律車両を制御することと、
をさらに備える、請求項１から請求項９のいずれか１項に記載のシステム。
前記自律車両は前記システムを含む、請求項１０に記載のシステム。
１つまたは複数のプロセッサによって実行されると、
センサデータを受信すること、
前記センサデータを第１の機械学習（ＭＬ）モデルの入力として提供することと、
前記センサデータ内の物体の表現に関連付けられた分類、および前記分類に関連付けられた第１の確率を含む第１の出力を、前記第１のＭＬモデルから、受信することと、
サブ分類および前記サブ分類に関連付けられた第２の確率を、サブクラスＭＬモデルから、受信することと、
を備える操作を前記１つまたは複数のプロセッサに実行させる、プロセッサ実行可能命令を格納する非一時的コンピュータ可読媒体。
前記操作は、
第１の特徴マップを前記第１のＭＬモデルの第１の部分から受信することと、
第２の特徴マップを前記第１のＭＬモデルの第２の部分から受信することと、
前記第１の特徴マップの少なくとも一部分および前記第２の特徴マップの少なくとも一部分を、前記サブクラスＭＬモデル内へ、入力することと、
さらに備え、
前記第１の特徴マップまたは前記第２の特徴マップの少なくとも１つは、前記センサデータ内の前記物体の前記表現に関連付けられた関心領域に関連付けられている、請求項１２に記載の非一時的コンピュータ可読媒体。
ＭＬモデルは、少なくとも前記第１のＭＬモデルおよび前記サブクラスＭＬモデルを含み、
ニューラルネットワークは、
前記第１のＭＬモデルまたは前記サブクラスＭＬモデルの少なくとも１つへグラウンドトゥルースセンサデータを提供することであって、前記グラウンドトゥルースセンサデータはグラウンドトゥルース分類ラベルおよびグラウンドトゥルースサブ分類ラベルに関連付けられている、提供することと、
前記第１のＭＬモデルの第１の出力とグラウンドトゥルース分類ラベルとの間の差に少なくとも部分的に基づいて、第１の損失を、決定することと、
前記サブクラスＭＬモデルの第２の出力と前記グラウンドトゥルースサブ分類ラベルとの間の差に少なくとも部分的に基づいて、第２の損失を、決定することと、
前記第１のＭＬモデルの１つまたは複数の第１のパラメータまたは前記サブクラスＭＬモデルの１つまたは複数の第２のパラメータの少なくとも１つを変更して、前記第１の損失または前記第２の損失の少なくとも１つを最小化することと、
に少なくとも部分的に基づいて、トレーニングされる、
請求項１２または請求項１３に記載の非一時的コンピュータ可読媒体。
前記サブクラスＭＬモデルは第１のサブクラスＭＬモデルであり、
前記分類は第１の分類であり、
前記操作は、
前記第１の分類に関連付けられた第１の特徴マップを、前記第１のＭＬモデルから、受信することと、
第２の分類に関連付けられた第２の特徴マップを、前記第１のＭＬモデルから、受信することと、
前記第１のサブクラスＭＬモデルに関連付けられている前記第１の分類に少なくとも部分的に基づいて、前記第１の特徴マップの第１の部分を、前記第１のサブクラスＭＬモデルへの入力として、提供することと、
第２のサブクラスＭＬモデルに関連付けられている前記第２の分類に少なくとも部分的に基づいて、前記第２の特徴マップの第２の部分を、前記第２のサブクラスＭＬモデルへの入力として、提供することと、
をさらに備える、請求項１２から請求項１４のいずれか１項に記載の非一時的コンピュータ可読媒体。