JP2023021912A

JP2023021912A - システム・オン・チップの分離式ルックアップ・テーブル・アクセラレータを使用してテーブルのルックアップを高速化すること

Info

Publication number: JP2023021912A
Application number: JP2022088299A
Authority: JP
Inventors: ピーシンラヴィ; P Singh Ravi; －ユーハンチン; Han Chin-Yuu; サンカランジャガディーシュ; Sankaran Jagadeesh; イタニアーマド; Itani Ahmad; －テシーイェン; Yen-Te Shih
Original assignee: Nvidia Corp
Current assignee: Nvidia Corp
Priority date: 2021-08-02
Filing date: 2022-05-31
Publication date: 2023-02-14
Also published as: US11836527B2; US20240045722A1; US20230050902A1

Abstract

【課題】ＶＰＵの性能及びスループットを高めるために最適化されたＶＰＵ及び関連する構成要素を提供する。【解決手段】ＶＰＵは、最小／最大収集器、自動ストア・プレディケーション機能、レーン間共有を可能にするＳＩＭＤデータ・パス構成、ストライド・パラメータ機能を含む転置ロード／ストア、並べ替え及びゼロ挿入機能を含むロード、２ポイント及び２×２ポイントのルックアップを可能にする、ハードウェア、論理機構、及びメモリのレイアウト機能、並びにメモリ・バンクごとのロード・キャッシングの能力を含む。分離式アクセラレータが、ＶＰＵの処理タスクをオフロードするために使用され、ハードウェア・シーケンサが、ＤＭＡシステムに含まれ、ＤＭＡ及びＶＰＵは、動的領域ベースのデータ移動動作を実行するための処理コントローラなしに動作することを可能にするＶＰＵ設定モードを実行する。【選択図】図９Ａ

Description

ベクトル処理ユニット（ＶＰＵ：ｖｅｃｔｏｒｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）は、単一命令複数データ（ＳＩＭＤ：ｓｉｎｇｌｅｉｎｓｔｒｕｃｔｉｏｎｍｕｌｔｉｐｌｅｄａｔａ）演算を並列に実行するために使用される。ＶＰＵの一般的な用途には、画像処理、コンピュータ・ビジョン、信号処理、深層学習（たとえば、畳込み演算に対して）及び／又は類似のものなどの演算が含まれる。

いくつかのコンピュータ・ビジョンのアプリケーションでは、たとえば、中間値のダイナミック・レンジが、よく理解されている。したがって、異常を検出するために、計算された値が、このダイナミック・レンジと比較され得る。ただし、この最小値及び最大値を検出及び分析する従来の解決策には、すべての値をメモリに書き込み、その後、メモリ内の値の分析を実行することが含まれ、追加の処理サイクルが必要となる。さらに、ロードから使用するまでレイテンシがあるにもかかわらず、高スループットを達成するために、クロック・レートの高いプロセッサに、ソフトウェア・パイプライン及び／又はループ展開を実行させる場合がある。しかし、元の反復回数が展開ファクタで割り切れない場合、展開されたループの完了後に何回かの反復が残り得ることにより、最終の反復での値を計算するために、追加の剰余分のループが必要となる。この剰余のループは、たとえば、展開されて最適な性能を実現することができないので、剰余のループが、システムのコード・サイズ及びレイテンシを増加させる。従来の単一命令複数データ（ＳＩＭＤ）の演算では、各ＳＩＭＤユニットは、ＳＩＭＤユニット自体のデータ・レーンで並列に、互いに独立して演算することができる。いくつかのアーキテクチャは、隣り合う隣接物間での共有を可能にし得るが、この制限された共有は限定的であり、演算の実施態様では、多くの場合、処理のために各データ・レーンに同じオペランドをコピーする必要がある。加えて、ベクトルＳＩＭＤプロセッサでは、すべてのメモリ読取り動作で、たとえばベクトル処理幅に等しい、標準の又は一貫した単位を使用する必要があり得るが、これは、メモリ・バンクがワイドである場合に非効率的であり得る。たとえば、６４バイトのメモリ幅を有する要素４から６７までを読み取る場合、たとえば、１回は０から６３まで、もう１回は６４から６７までの、２回のメモリ読取りが必要となり得る。しかし、これは、多くの追加の値、たとえば値０～３及び値６８～１２７が、現在の演算にこれらの値が必要ない場合でさえも読み取られるということになる。従来の命令セットでは、追加のデータ操作が必要な場合、データが読み出されてレジスタにストアされた後、追加の命令を使用して、レジスタ内のメモリ・データに対して演算することができる。たとえば、これには、データをロードし、データに対して置換を実行し、次いで再構成されたデータを使用して演算を実行する必要があり得る。したがって、データ操作に追加のサイクルが必要となり、レイテンシが増加する。既存のＶＰＵを使用してテーブルのルックアップを実行する場合、それぞれのただ１つの値が複製されたテーブルから引き出され得るように、テーブルが複製され得るか、又は同じバンク内の同じテーブルから複数の値を読み取ることができるように、追加の読取りポートが、各メモリ・バンクに追加され得る。しかし、値ごとにテーブルを複製するには、追加のメモリ及び処理が必要であり、さらなる読取りポートを追加するには、チップ上に追加のスペースが必要である。従来のＶＰＵでは、ＶＰＵが、高度に最適化されたコードのより小さなセットを実行するようプログラミングされるため、プログラマは、ローカル・データ・メモリの中身を管理できるので、データ・キャッシュが実装されない場合がある。しかし、そうすることにより、次の反復のデータに、１つ又は複数の以前に読み取られた演算とのオーバラップが含まれている場合でさえも、各アクセスで、各メモリ・バンクから値を読み取る必要がある。

ＶＰＵなどのプロセッサの性能を最適化するために、命令セット・アーキテクチャ（ＩＳＡ：ｉｎｓｔｒｕｃｔｉｏｎｓｅｔａｒｃｈｉｔｅｃｔｕｒｅ）を拡張して、テーブルのルックアップ、畳込み演算、及び／又は類似のものなどの、よく行われる演算を高速化する、カスタム命令を作成することができる。しかし、このようにＩＳＡを使用するには、プロセッサ自体もこうした演算を実行する必要があり、これは、この拡張命令の実行中に、プロセッサがビジー状態になることを意味する。

加えて、ＶＰＵは、ダイレクト・メモリ・アクセス（ＤＭＡ：ｄｉｒｅｃｔｍｅｍｏｒｙａｃｃｅｓｓ）システムを使用して、ＶＰＵで処理するデータを取得することができる。したがって、ＤＭＡシステムは、データ移動エンジンとして動作することができるが、画像のパディング、アドレス操作、オーバラップするデータの管理、走査順序管理、フレーム・サイズ管理、及び／又は類似のものなどの、追加の動作を実行することもできる。しかし、ＤＭＡシステム及びＶＰＵをプログラミングするためのプログラミングの複雑度は、ＤＭＡリソース、たとえば記述子、チャネル、トリガなどが増加するにつれて高まる。フレームのタイルに、空間的又は時間的な依存関係が含まれている場合、ＤＭＡリソースの動的な更新は、システムの処理の負荷となる。従来のＤＭＡシステムでは、未知の、又はデータ依存のデータをフェッチするとき、次の処理の反復を指示する更新された情報を判断するために、処理サイクルに介入する処理コントローラ（たとえば、Ｒ５又はＡＲＭ処理コア）が必要であった。たとえば、対象物又は特徴追跡では、ＶＰＵが、対象物又は特徴の次の位置を計算でき、次いで、処理コントローラが介入してメモリ・アドレス指定情報を更新し、次いで、ＤＭＡシステムをトリガして更新された情報を使用することになる。しかし、処理コントローラの介入により、レイテンシが増加し、領域に依存するデータ移動アルゴリズムによる演算には、より複雑なプログラミングが必要となる。

さらに、自律型及び半自律型機械アプリケーションなどの安全性が重要なアプリケーションにおいて、恒久的障害の検出及び切離しには、厳格な要件がある。たとえば、深層学習、コンピュータ・ビジョン、センサ処理、及び／又は他のアプリケーションを機械で実行する場合、正確なテストを可能にするためだけでなく、アプリケーションが、たとえば、短いレイテンシで適切に実行することも可能にするために、恒久的障害の検出が、定期的且つ割り当てられた時間予算内で実行される必要がある。これを行うために、短いレイテンシで、それぞれの特定のアプリケーションが実行する時間予算を満たしながらも、１００パーセントの網羅率が必要となり得る。従来の手法では、内蔵自己テスト（ＢＩＳＴ：ｂｕｉｌｔ－ｉｎｓｅｌｆ－ｔｅｓｔ）を使用して障害を識別するが、こうしたＢＩＳＴの技法は、網羅率が十分でなく、システムに長すぎるレイテンシをもたらし、且つ／又は特定のアプリケーションを実行する時間予算を満たしていない。

米国特許出願第１５／１４１，７０３号米国特許出願第１６／１０１，２３２号

本開示の実施例は、ベクトル処理ユニット（ＶＰＵ）、ＶＰＵからオフロードされる処理を扱うために使用され得る分離式（ｄｅｃｏｕｐｌｅｄ）アクセラレータ、及びメモリとＶＰＵとの間のデータ移動をサポートするダイレクト・メモリ・アクセス（ＤＭＡ）システムの改善に関する。従来の又は既存の解決策の様々な欠点を考慮して、本開示のＶＰＵには、ＶＰＵからメモリへのデータ・パスに含まれ、これにより最小値／最大値がメモリにストアされる前にストアされ得る、最小／最大ハードウェア収集器が含まれ得る。このようにして、最小値／最大値は、メモリ書込み動作が完了するとすぐに利用可能となり、これにより、値がメモリにストアされた後に最小／最大を判断することによるレイテンシを短縮することができる。加えて、ＶＰＵには、最終の反復を超える反復で計算される値ごとにプレディケーション・ビットをセットすることによって、プレディケーション・フラグを使用できる自動プレディケーション機能が含まれ得る。その結果、反復の各セットには、実行される同じ数の反復が含まれ得るが、プレディケーション・フラグのおかげで、反復の最終セットからの１つ又は複数の値が、メモリに書き出されない場合がある。既存の解決策のデータ・レーン間での共有における制限を考慮して、本開示のＳＩＭＤアーキテクチャは、それぞれが複数のレーンを含むプロセッサ内のスライスを規定でき、レーンのそれぞれが、互いに通信するよう設定され得る。したがって、あるレーンからのオペランドが、他のレーンによって使用され得、これにより、オペランドのそれぞれを、処理のために各レーンにコピーする必要がなくなる。ただ１つのワイド・メモリ・バンクからのロードの非効率性を考慮して、ＶＰＵには、より小さなビットの位置合わせ、たとえば、メモリ・バンクがそれぞれ１６ビットである場合に、１６ビットの位置合わせを可能にする、複数のより小さなメモリ・バンクが含まれ得る。このようにして、値４から６７を読み取る実例は、０～６３及び６４～１２７の２回のメモリ読取りではなく、ただ１回のメモリ読取りで実行され得る。このメモリ・バンク構成に加えて、ＶＰＵには、バンクの競合が起こらず、サイクルごとにより多くのデータを読取り又は書込みできるように、メモリ・バンク内でストアされた値をオフセットできる、転置ロード（ｔｒａｎｓｐｏｓｅｄｌｏａｄ）及び／又はストア機能が含まれ得る。従来の命令セットのデータ操作の欠点を考慮して、並べ替え又はデータ操作パターンに従ってメモリからデータを取得するために、並べ替え命令を含むロードを使用して、メモリ・アドレスと共に並べ替えパターンをローカル・メモリに送信することができる。したがって、データ操作及びデータのロードが同じサイクルで実行され得、これによりレイテンシが短縮される。値ごとにテーブルを複製すること、又はテーブル・ルックアップのために読取りポートを追加することの欠点に対処するために、テーブルごと且つサイクルごとに、２ポイント又は４ポイントがそれぞれルックアップされ得るように、２ポイント又は２×２ポイントのルックアップが実行され得る。これを実現するために、テーブルのオフセット記憶パターン、メモリごとのバンク・アドレス・バス、並びに関連する論理機構及びルーティングを使用して、２ポイント又は４ポイントの並列ルックアップが可能であり得る。実施例では、各メモリ・バンクには、所与の動作に応じてイネーブル又はディスエーブルされ得る、関連するデータ・キャッシュが含まれ得る。たとえば、反復間に多くのデータのオーバラップが存在する場合のフィルタ処理動作では、データ・キャッシュを使用して、各バンクから最小限の読取りだけが要求されるように、１つ又は複数の以前のルックアップからの値をストアすることができ、これによりシステムのエネルギー及び電力を節約する。

ＶＰＵ又は他のプロセッサ・タイプでの従来のＩＳＡの欠点に対処するために、本開示のシステム及び方法は、共有メモリを介してＶＰＵによって設定され且つＶＰＵと通信できる、分離式アクセラレータを使用することができるが、ＶＰＵが、アクセラレータと並行して他のタスクの処理を続行するのを可能にするために、ＶＰＵとは無関係に特定のタスクを実行することができる。たとえば、分離式ルックアップ・テーブル（ＤＬＵＴ：ｄｅｃｏｕｐｌｅｄｌｏｏｋｕｐｔａｂｌｅ）アクセラレータを使用して、テーブルのルックアップを実行するときに、システムの性能を高めることができる。このようにして、ＶＰＵが、メモリ・バンクの、ライン内の競合検出及び解決を実行するのではなく、ＤＬＵＴ用アクセラレータが、競合を識別し、競合を回避し、システムのスループットを向上させることができる。

従来のＤＭＡシステムの欠点を考慮して、本開示のシステム及び方法には、ハードウェア・シーケンサ用の一連のコマンドを含む、フレーム・データに対して演算するハードウェア・シーケンサが含まれ得る。たとえば、ハードウェア・シーケンサは、タイル・レベルではなくフレーム・レベルで演算することができ、ＤＭＡエンジンのためのシーケンスを実行し、ＤＭＡエンジンをプログラミングしてパディング、アドレス操作などの、同じ演算を実行するプログラミングの複雑さを、取り除くことができる。いくつかの実施例では、ＤＭＡシステムには、ＤＭＡエンジンが、次のタイルをロードするためにＤＭＡをトリガするようＶＰＵに要求するのではなく、ベクトル・メモリ（ＶＭＥＭ：ｖｅｃｔｏｒｍｅｍｏｒｙ）へのタイルの移動を制御する、ＤＭＡトリガ・モードが含まれ得る。したがって、コマンド・シーケンスが逆になり、ＤＭＡがＶＰＵのトリガになる。ＤＭＡシステムにおける領域依存のデータの移動動作の欠点を考慮して、ＤＭＡシステムは、ＤＭＡ及びＶＰＵを使用して、処理コントローラの介入を必要とせずに、密結合型のループで動作することができる。たとえば、ＶＰＵは、追跡されている様々な特徴及び／又は対象物について、ＶＭＥＭ内の位置情報を更新することができ、ＤＭＡは、この更新された情報を使用して、処理するためにＶＰＵに供給される次のデータが、特徴又は対象物の次の位置に対応するように、記述子メモリ内の記述子を更新することができる。このプロセスは、処理が完了するまで繰り返され、これにより、処理コントローラの介入が不要になり、システムのレイテンシが短縮され得る。

加えて、ＢＩＳＴに対する従来の手法の欠陥を考慮して、本システム及び方法は、たとえば、システム・オン・チップ（ＳｏＣ：ｓｙｓｔｅｍｏｎａｃｈｉｐ）のプログラム可能なビジョン・アクセラレータ（ＰＶＡ：ｐｒｏｇｒａｍｍａｂｌｅｖｉｓｉｏｎａｃｃｅｌｅｒａｔｏｒ）の障害検出を実行するために、多入力シグネチャ・レジスタ（ＭＩＳＲ：ｍｕｌｔｉｐｌｅｉｎｐｕｔｓｉｇｎａｔｕｒｅｒｅｇｉｓｔｅｒ）でのＢＩＳＴを実行することができる。たとえば、本開示の様々な実施例では、ＰＶＡには、１つ又は複数のＤＭＡシステム、並びにＲ５プロセッサ、ＡＲＭプロセッサ、ＣＰＵ、及び／又は類似のものなどの、１つ又は複数の処理コントローラ（又は制御プロセッサ）を使用して制御される、１つ又は複数のＶＰＵが含まれ得る。したがって、ＰＶＡの各構成要素にテストが必要であり得、本システム及び方法は、ＭＩＳＲでのＢＩＳＴを実行して、恒久的な障害を１００パーセント検出する。このようにして、恒久的な障害検出を実行して、制御論理機構とデータ論理機構との両方のブロックを１００パーセント網羅し、レイテンシを減らすために、安全プロセッサに直接エラーを報告し、特定のアプリケーションをカスタマイズして関連する実行時間予算を満たすことができる。

ベクトル処理ユニット（ＶＰＵ）を改善する本システム及び方法は、添付図面の以下の図を参照して、下記で詳細に説明される。

本開示のいくつかの実施例による、例示的な最小／最大収集システムの図である。本開示のいくつかの実施例による、最小／最大収集方法を示す流れ図である。本開示のいくつかの実施例による、自動プレディケーション機能を備えたアドレス生成ユニットを有するプロセッサを含む、例示的なシステムの図である。本開示のいくつかの実施例による、経時的な状態変化のシーケンスを示す表である。本開示のいくつかの実施例による、自動ストア・プレディケーションの方法を示す流れ図である。本開示のいくつかの実施例による、例示的な単一命令複数データ（ＳＩＭＤ）データ・パス構成の説明図である。本開示のいくつかの実施例による、フィルタ処理演算のための、ＳＩＭＤアーキテクチャのスライス間でのオペランドの共有を示す図である。本開示のいくつかの実施例による、ドット積演算のための、ＳＩＭＤアーキテクチャのスライス間でのオペランドの共有を示す図である。本開示のいくつかの実施例による、ペイロードをソートする演算のための、ＳＩＭＤアーキテクチャのスライス間でのオペランドの共有を示す図である。本開示のいくつかの実施例による、ＳＩＭＤアーキテクチャのレーンにわたって共有されるオペランドを使用して、出力を計算する方法の流れ図である。本開示のいくつかの実施例による、メモリからの読取り及びメモリへの書込みのための転置ロードの論理図、及び論理図に対応する転置ロードのメモリ・バンクの図である。本開示のいくつかの実施例による、メモリからの読取り及びメモリへの書込みのための、様々なライン・ピッチ及びストライド・パラメータを有する転置ロードの論理図、及び論理図に対応する転置ロードのメモリ・バンクの図である。本開示のいくつかの実施例による、ストライド・パラメータを有する転置ロードの、書込み動作を設定する方法を示す流れ図である。本開示のいくつかの実施例による、ストライド・パラメータを有する転置ロードの、書込み動作を実行する方法を示す流れ図である。本開示のいくつかの実施例による、ＳＩＭＤアーキテクチャにおける、様々な機能のためのデータ及び係数のレイアウトの表である。本開示のいくつかの実施例による、ＳＩＭＤアーキテクチャにおける、様々な機能のためのデータ及び係数のレイアウトの表である。本開示のいくつかの実施例による、並べ替え及びゼロ挿入を含むロードを実行するための、ハードウェア・アーキテクチャを示す図である。本開示のいくつかの実施例による、図５Ｃのハードウェア・アーキテクチャの例示的な使用法を示す図である。本開示のいくつかの実施例による、並べ替えを含むロードの方法を示す流れ図である。本開示のいくつかの実施例による、１ポイントのルックアップのための、１６ウェイ並列テーブル構成を示す図である。本開示のいくつかの実施例による、２ポイントのルックアップのための、８ウェイ並列テーブル構成を示す図である。本開示のいくつかの実施例による、２×２ポイントのルックアップのための、２ウェイ並列ワード・タイプ・テーブルの論理図である。本開示のいくつかの実施例による、図６Ｃの２×２ポイントのルックアップのための、２ウェイ並列ワード・タイプ・テーブルのメモリの図である。本開示のいくつかの実施例による、レーンのペアを、データのインタリーブ動作を含む水平ブレンディングを使用して処理するための、レイアウトを示す図である。本開示のいくつかの実施例による、データのインタリーブ動作を含む水平ブレンディングの、中間及び最終結果を示す図である。本開示のいくつかの実施例による、複数ポイントのルックアップを実行する方法の流れ図である。本開示のいくつかの実施例による、データ及び係数の配列の要素を示す図である。本開示のいくつかの実施例による、メモリ・バンク用のデータ・キャッシュを使用する、データ・オペランドに必要な読取り動作を示す図である。本開示のいくつかの実施例による、メモリ・バンク用のデータ・キャッシュを使用する、係数オペランドに必要な読取り動作を示す図である。本開示のいくつかの実施例による、ロード・キャッシュと共に使用するメモリ・バンクの構成を示す図である。本開示のいくつかの実施例による、メモリ・バンクのデータ・キャッシュを使用するためのハードウェア・アーキテクチャを示す図である。本開示のいくつかの実施例による、メモリ・バンク用データ・キャッシュを使用する方法の流れ図である。本開示のいくつかの実施例による、１つ又は複数の分離式アクセラレータを含むシステムを示す図である。本開示のいくつかの実施例による、１つ又は複数の演算を実行するために、分離式アクセラレータを使用する方法の流れ図である。本開示のいくつかの実施例による、分離式ルックアップ・テーブルのアクセラレータを含むシステムを示す図である。本開示のいくつかの実施例による、様々な演算を実行するときの、分離式ルックアップ・テーブルのアクセラレータの、様々な構成要素が行う措置を示す表である。本開示のいくつかの実施例による、１つ又は複数の演算を実行するために、分離式ルックアップ・テーブルのアクセラレータを使用する方法の流れ図である。本開示のいくつかの実施例による、パディングされる値を用いてフレームをパディングすることを示す、視覚化した図である。本開示のいくつかの実施例による、フレームの記述子に対するアドレス操作を示す、視覚化した図である。本開示のいくつかの実施例による、フレームのタイル間でオーバラップするデータを示す、視覚化した図である。本開示のいくつかの実施例による、様々なラスタ走査順序を示す、視覚化した図である。本開示のいくつかの実施例による、立方体の走査順序を示す、視覚化した図である。本開示のいくつかの実施例による、様々な垂直マイニング走査順序を示す、視覚化した図である。本開示のいくつかの実施例による、ピラミッド型の設定における様々な画像サイズを示す、視覚化した図である。本開示のいくつかの実施例による、ハードウェア・シーケンサを含むダイレクト・メモリ・アクセス（ＤＭＡ）システムの図である。本開示のいくつかの実施例による、図１０ＨのＤＭＡシステムのハードウェア・シーケンサ制御のための、シーケンス処理（ｓｅｑｕｅｎｃｉｎｇ）コマンドをストアするフレーム・フォーマットの図である。本開示のいくつかの実施例による、ラスタ・スキャン・シーケンスのための、図１０Ｉのフレーム・フォーマットの実例の図である。本開示のいくつかの実施例による、ラスタ・スキャン・シーケンスにおいてハードウェアでシーケンス処理し、図１０Ｊの例示的なフレーム・フォーマットを使用してフレーム・アドレスを処理する、例示的なタイル構造体の図である。本開示のいくつかの実施例による、ＤＭＡシステムにおいてハードウェア・シーケンサを使用する方法の流れ図である。本開示のいくつかの実施例による、ベクトル処理ユニット（ＶＰＵ）を使用してダイレクト・メモリ・アクセス（ＤＭＡ）システムを設定するプロセスに関する、データ・フローの図である。本開示のいくつかの実施例による、ＶＰＵによってベクトル・メモリ（ＶＭＥＭ）に書き込まれ、ＤＭＡシステムによって読み取られる、ＶＰＵ設定フォーマットを示す表である。本開示のいくつかの実施例による、ＶＰＵを使用してＤＭＡシステムを設定する方法の流れ図である。本開示のいくつかの実施例による、プログラム可能なビジョン・アクセラレータ（ＰＶＡ）の巡回冗長検査（ＣＲＣ：ｃｙｃｌｉｃｒｅｄｕｎｄａｎｃｙｃｈｅｃｋ）計算を実行する、内蔵自己テスト（ＢＩＳＴ）システムの図である。本開示のいくつかの実施例による、ＰＶＡの並列チャネルＣＲＣ計算のための、ＢＩＳＴシステムの図である。本開示のいくつかの実施例による、ＰＶＡでの恒久的な障害を検出するための、ＢＩＳＴを実行する方法の流れ図である。本開示のいくつかの実施例による、例示的な自律型車両の図である。本開示のいくつかの実施例による、図１３Ａの例示的な自律型車両の、カメラ位置及び視野の実例の図である。本開示のいくつかの実施例による、図１３Ａの例示的な自律型車両の、例示的なシステム・アーキテクチャのブロック図である。本開示のいくつかの実施例による、クラウド・ベースのサーバと図１３Ａの例示的な自律型車両との間で通信するシステムの図である。本開示のいくつかの実施例を実施する際に使用するのに好適な、例示的なコンピュータ処理デバイスのブロック図である。本開示のいくつかの実施例を実施する際に使用するのに好適な、例示的なデータ・センタのブロック図である。

ベクトル処理ユニット（ＶＰＵ）、ダイレクト・メモリ・アクセス（ＤＭＡ）コントローラ、及びハードウェア・アクセラレータ（たとえば、ＶＰＵ及びＤＭＡの１つ又は複数のペアを含むＰＶＡなどの、プログラム可能なビジョン・アクセラレータ（ＰＶＡ））などの、システム・オン・チップ（ＳｏＣ）の様々な構成要素に関する、システム及び方法が開示される。たとえば、本開示の様々な実施例では、ＰＶＡには、１つ又は複数のＤＭＡシステム、並びにＲ５プロセッサ、ＡＲＭプロセッサ、ＣＰＵ、及び／又は類似のものなどの、１つ又は複数の処理コントローラ（又は制御プロセッサ）を使用して制御される、１つ又は複数のＶＰＵが含まれ得る。ＳｏＣの様々な構成要素を含む本開示では、例示的な自律型車両１３００（或いは、本明細書では「車両１３００」又は「自我車両１３００」と呼ばれ、その実例が、図１３Ａ～図１３Ｄに関連して説明される）に関連して説明され得るが、これは限定することを意図するものではない。たとえば、本明細書で説明されるシステム及び方法は、非自律型車両、半自律型車両（たとえば、１つ又は複数の高度運転者支援システム（ＡＤＡＳ：ａｄｖａｎｃｅｄｄｒｉｖｅｒａｓｓｉｓｔａｎｃｅｓｙｓｔｅｍ）における）、操縦式及び非操縦式ロボット若しくはロボットのプラットフォーム、倉庫車両、オフロード車両、１台若しくは複数台のトレーラに連結された車両、飛行船、ボート、シャトル、緊急対応車両、オートバイ、電気若しくは電動自転車、航空機、建設車両、水中クラフト、ドローン、並びに／又は他の車両タイプで使用され得るが、これらに限定されるものではない。加えて、本開示は、コンピュータ・ビジョン、機械学習、人工知能、画像処理、及び／又は類似のものに関連して説明され得るが、これは限定することを意図するものではなく、本明細書で説明されるシステム及び方法は、拡張現実、仮想現実、混合現実、ロボット工学、セキュリティ及び監視、自律型又は半自律型機械アプリケーション、並びに／或いはベクトル処理ユニット（ＶＰＵ）、ダイレクト・メモリ・アクセス（ＤＭＡ）システム、命令セット・アーキテクチャ（ＩＳＡ）、プログラム可能なビジョン・アクセラレータ（ＰＶＡ）、分離式アクセラレータ、分離式ルックアップ・テーブル、ハードウェア・シーケンサ、単一入力複数データ（ＳＩＭＤ）アーキテクチャ、及び／又はＳｏＣの他の１つ若しくは複数の構成要素が使用され得る、他の任意の技術スペースで使用され得る。さらに、本明細書で説明される構成要素及び関連するプロセスは、ＳｏＣに関して説明され得るが、これは限定することを意図するものではなく、この構成要素は、独立型の構成要素として、システムの個別の構成要素として、及び／又はＳｏＣ上に統合された構成要素として実装され得る。いくつかの実施例では、本開示のシステム、構成要素、特徴、機能、及び／又は方法は、図１３Ａ～図１３Ｄの例示的な自律型車両１３００、図１４の例示的なコンピュータ処理デバイス１４００、及び／又は図１５の例示的なデータ・センタ１５００に統合され得る。

異常検出のための最小／最大ハードウェア収集器
たとえば、コンピュータ・ビジョンのアプリケーションにおいて、また特に、安全性が重要なビジョン・アプリケーションにおいて、中間結果のダイナミック・レンジを計算することは、重要なタスクである。たとえば、中間計算でノイズ又はエラーを検出するために、値の既知又は予想されるダイナミック・レンジの値を使用して、この範囲外にある値を識別することができる。かかる実例では、値が、既知又は予想されるダイナミック・レンジ外にある場合、この値は、ノイズ、エラー、及び／又は別の問題に相当するものとして、フラグが立てられ得る。したがって、データの異常を検出するために、中間結果の最小値（最小）及び最大値（最大）を収集することが望ましい場合がある。実際には、この異常は、イメージ・センサのノイズ、アルゴリズムのコーナ・ケース、又はメモリ若しくは相互接続でのデータ破損によって引き起こされる可能性があるが、これらに限定されるものではない。これらの問題を考慮して、このデータの異常値を検出するために、最小値／最大値の収集は効果的な方法である。最小／最大は、特定のアルゴリズムでも使用される。

特定の実例では、自立型車両のアプリケーションにおいて、無限大又は数値でないなど、実行時の例外が、無効な値になるか、又はエラーを生じさせ、障害か、さもなければ望ましからざる結果を引き起こす可能性がある。これを考慮して、自立型車両プラットフォームの一部として実行されるアルゴリズムは、評価され、処理中に得られる可能性のある値、すなわち中間値又はその他の、範囲が判断され得る。値の範囲が既知になると、実際に計算された値が既知の範囲と比較され、最小又は最大閾値外の値が、エラーとして、フラグを立てられ得る。エラーがフラグを立てられた場合、所与の反復に関してデータを無視する、問題を識別して修正するなど、処理の変更が実行され得る。このようにして、起こり得る実行時の例外は、自律型車両が考慮し、依拠はしないので、実行時の例外は許されない。

別の実例として、最小／最大収集を特定のアルゴリズムで使用して、中間結果を特定の数値範囲に正規化し、処理、たとえば、ブロック浮動小数点の精度をより高めることができる。この正規化プロセスには、配列の最小値及び／又は最大値を収集する、ダイナミック・レンジ収集ステップと、配列にスケーリング・ファクタを適用する調整ステップとが含まれ得る。しかし、従来のプロセスでは、最小／最大値を収集するには、すべての値をメモリに書き出し、次いで、値を最小／最大について分析し、スケーリングするよう調整する必要がある。

したがって、最小／最大を評価するこうした従来の手法は、ソフトウェアで実行され、追加の処理サイクルを必要とする。たとえば、アルゴリズム自体が稼働して値を計算することができ、次いでソフトウェアが実行されて最小値／最大値を判断し、最小／最大を値の既知の範囲と比較して、異常を識別することができる。このソフトウェアでは、中間結果の配列の要素を読み取り、次いで最小／最大演算を実行する、追加の命令を実行する必要がある。その結果、アルゴリズムが完了するまで実行され、次いで、アルゴリズムの出力の最小／最大を計算する追加のプロセスが実行されるので、異常を検出するためのシステムの実行時間が長くなる。これにより、最小値／最大値が計算されて閾値と比較されるまで、下流の処理が遅延し得るか、又は最小／最大の評価が行われている間に、下流のタスクが、エラーを含むデータの計算を実行開始する可能性がある。これにより、この追加サイクルが異常データを識別するために実行されるので、実行時間が長くなるだけでなく、システムの処理要件及びエネルギー消費量も増加する。

図１Ａを参照すると、図１Ａは、本開示のいくつかの実施例による、最小／最大収集のための例示的なプロセッサ・アーキテクチャ１００である。本明細書で説明されるこの配置及び他の配置は、単に実例として示されていることを理解されたい。図示されているものに加えて、又は図示されているものの代わりに、他の配置及び要素（たとえば、機械、インタフェース、機能、順序、機能のグループ化など）が使用されてもよく、一部の要素が完全に省略されてもよい。さらに、本明細書で説明される要素の多くは、個別の若しくは分散された構成要素として、又は他の構成要素と組み合わせて、任意の好適な組合せ及び位置で実施され得る、機能的なエンティティである。エンティティによって実行される、本明細書に説明されている様々な機能は、ハードウェア、ファームウェア、及び／又はソフトウェアによって実行され得る。たとえば、様々な機能が、メモリにストアされた命令を実行するプロセッサによって実行され得る。いくつかの実施例では、アーキテクチャ１００には、図１３Ａ～図１３Ｄの例示的な自律型車両１３００、図１４の例示的なコンピュータ処理デバイス１４００、及び／又は図１５の例示的なデータ・センタ１５００のものと同様の構成要素、特徴、及び／又は機能が含まれ得る。

本明細書で説明されているような従来の最小／最大評価プロセスの欠陥を考慮して、本開示には、ハードウェアを使用する最小／最大収集のシステム及び方法が含まれる。たとえば、計算の際に、計算した値が、メモリ１０６、たとえばローカル・メモリに書き出され、同じアルゴリズム又は別のアルゴリズム内の下流の計算に使用され得る。実行時間及び処理を減らすために、最小／最大収集ハードウェア（たとえば、最小／最大収集器１０４）を使用して、たとえば、値がメモリ１０６から読み出されるのを待ち、次いで最小値／最大値を分析するのではなく、最小値／最大値がメモリ１０６に書き出される前又は書き出されるときに、最小値／最大値を取り込むことができる。たとえば、イネーブル・ビットを使用して、最小／最大収集器１０４の最小／最大収集機能をイネーブルすることができ、最小／最大収集器１０４は、イネーブルされると、プロセッサ１０２を使用して値が計算され、メモリ１０６に書き出されるときに（たとえば、メモリ１０６に記憶する前、又はメモリ１０６に記憶すると同時に）、最小値／最大値を更新することができる。実施例では、イネーブル・ビットは、最小／最大収集器１０４が、特定のタイプの配列の最小／最大を収集するよう設定されるように、計算されている配列のタイプ、たとえば、符号付き又は符号なしを、示すことができる。たとえば、イネーブル・ビット又は別のタイプの制御フィーチャを使用して、最小／最大収集器１０４をディスエーブルし、且つ／又は符号なし最小値／最大値を収集するか、若しくは符号付き最小値／最大値を収集するよう、最小／最大収集器１０４を設定することができる。データをストアするデータ・パスには、最小値／最大値を更新又は維持するために、プロセッサ１０２を使用して計算され、レジスタ・ファイルに記憶されるように、値を読み取る、最小／最大収集器１０４の最小／最大収集論理機構が含まれ得る。

たとえば、演算中、現在の最小値及び／又は現在の最大値は、最小／最大収集器１０４内に維持され得、また現在の最小及び／又は現在の最大は、新しい、より小さい最小値及び／又は新しい、より大きい最大値がメモリ１０６に書き出されたときに、更新され得る。新しく計算された値が最小より大きく、且つ／又は最大より小さい場合、現在の最小及び／又は最大は、最小／最大収集器１０４によって維持され得る。このようにして、最小／最大収集器１０４は、各値が完全に計算全体にわたって計算されるときに、現在の最小値及び／又は最大値を維持することができる。所与の反復にわたる計算が完了すると、最小値／最大値は、最小／最大収集器１０４ですぐに使用可能となり、ソフトウェア及び／又はハードウェアを使用して、これらのストアされた値を、異常が存在するかどうかを判断するために実行される、特定のアルゴリズム又は計算に関連する最小及び／又は最大閾値と比較することができる。たとえば、収集された最小値／最大値を評価するために読み取ることを可能にする仕組みが含まれ得る。したがって、以前の手法と比較すると、アルゴリズムが完全に実行された後、最小値／最大値はすぐに使用可能なので、最小／最大を演算するための別のサイクルは不要である。さらに、実施例では、最小／最大収集器１０４（たとえば、ハードウェア及び／又は論理機構を含む）は、特定のデータ項目が、たとえば、レーンごとのストア・プレディケーションによってメモリ１０６へのストアが禁止されている場合に、最小／最大収集がその特定のデータ項目を除外することができるように、ストア・プレディケーションを認識することができる。たとえば、アドレス生成器からのアドレスがストア・プレディケーション・フラグを含んでいる場合、計算された値は、メモリ１０６にストアすることだけでなく、最小／最大収集器１０４を更新することも取り消され得る。

いくつかの実施例では、最小／最大収集器１０４は、２０１６年４月２８日に出願され、その全体が参照により本明細書に組み込まれる、米国特許出願第１５／１４１，７０３号で説明されているアドレス生成器などのアドレス生成器を含む、システムのフィーチャとして実装され得る。アドレス生成器は、ベクトル処理ユニット（ＶＰＵ）、中央処理ユニット（ＣＰＵ：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、グラフィックス処理ユニット（ＧＰＵ：ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、デジタル信号プロセッサ（ＤＳＰ：ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、データ処理ユニット（ＤＰＵ：ｄａｔａｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、及び／又は別の処理ユニット・タイプ（図１３Ａ～図１３Ｄ、図１４、及び／又は図１５に関して説明されているものなど）など、任意のタイプのプロセッサ又は他の処理ユニットに含まれ得る。いくつかの実施例では、１つ又は複数のＶＰＵが、プログラム可能なビジョン・アクセラレータ（ＰＶＡ）に、及び／又はシステム・オン・チップ（ＳｏＣ）の一部として含まれ得る。

非限定的な実例として、特定のセンサ・タイプ又はアルゴリズムの入力は、１６ビット単位に制限され得る。この特定のセンサ及び／又はアルゴリズムのダイナミック・レンジを判断するために、センサ入力を処理するアルゴリズムに関連する演算が評価され得る。かかる実例では、最初の演算が２つの１６ビットの数値を加算することであると仮定すると、最初の中間結果は１７ビットの数値となる。次いで、１７ビットの数値に５ビットの数値を掛けて、２２ビットの数値を生成することができる。これがアルゴリズムの終わりである場合、出力が２２ビットを超えてはならないと判断され得る。同様に、最小値が評価され得る。したがって、展開中に、最小値／最大値がこの既知の範囲（たとえば２２ビット）外となる場合、出力にフラグが立てられ得る。

いくつかの実施例では、ストア・データのパス（たとえば、プロセッサ１０２とメモリ１０６との間）には、メモリ１０６にストアされた値を、ある上限と下限との間若しくは閾値にするか、又は何らかの特定の規則に基づいて丸める、飽和及び／又は丸め論理機構１０８が含まれ得る。したがって、従来の手法では、最小／最大の評価は、飽和及び／又は丸めの後に行われ得る。異常が存在する場合、飽和及び／又は丸めによって異常が隠される可能性がある、たとえば、低い値及び／又は高い値が、飽和論理機構が設定されている上限と下限との間で飽和している可能性があるので、こうした従来の手法では異常が検出されない場合がある。

しかし、特定の実施態様では、たとえば飽和した最小値／最大値に加えて、又は飽和した最小値／最大値の代わりに、飽和していない、丸められていない、又は絶対的な最小値／最大値が、価値があるか、又は望ましい場合がある。したがって、本開示の最小／最大収集器１０４は、異常検出で使用するために、生又は不飽和データから（たとえば、飽和／丸め論理機構１０８を使用して値が操作される前に）、最小値／最大値を収集することができる。実施例では、データの平均値、又はデータの平均絶対値の収集が実行され得る。平均値は、たとえば、要素を合計し、アドレス生成器の設定レジスタから合計を読み戻し、ストアされたデータ項目の数（アプリケーションが知っている可能性がある）で除算を実行することによって、計算され得る。このようにして、絶対値の最小／最大、値の合計、及び／又は絶対値の合計が、プロセッサのストア・データ・パスに追加され得、その結果得られた統計値の設定及び収集が、実行され得る。たとえば、アドレス生成器の設定フィーチャ・セットに追加され得るか、又は別個に管理され得る。いくつかの実施例では、最小／最大収集器１０４は、飽和、丸め、又は飽和／丸め論理機構１０８を使用する他の計算の前及び／又は後に、値を収集することができる。

ここで図１Ｂを参照すると、本明細書で説明される方法１１０の各ブロックは、ハードウェア、ファームウェア、及び／又はソフトウェアの任意の組合せを使用して実行され得る、コンピュータ処理プロセスを含む。たとえば、様々な機能は、メモリにストアされた命令を実行するプロセッサによって実行され得る。方法１１０はまた、コンピュータ記憶媒体にストアされた、コンピュータが使用可能な命令として具現化され得る。方法１１０は、いくつか例を挙げると、独立型アプリケーション、サービス若しくはホステッド・サービス（独立型、又は別のホステッド・サービスとの組合せ）、又は別の製品へのプラグインによって提供され得る。方法１１０は、図１Ａのアーキテクチャ１００に関して説明されているが、任意の１つのシステム又はシステムの任意の組合せによって実行され得、本明細書で説明されているものを含むが、これに限定されるものではない。

図１Ｂは、本開示のいくつかの実施例による、最小／最大収集方法１１０を示す流れ図である。方法１１０は、ブロックＢ１０２において、１つ又は複数の値を計算するステップを含む。たとえば、１つ又は複数のアルゴリズム、たとえば、ニューラル・ネットワーク、コンピュータ・ビジョン・アルゴリズム、フィルタ処理アルゴリズムなどを実行する場合、１つ又は複数の値が、プロセッサ１０２を使用して計算され得る。

方法１１０は、ブロックＢ１０４において、１つ又は複数の値のうちの値を、現在ストアされている最小値及び現在ストアされている最大値と比較するステップを含む。たとえば、最小／最大収集器１０４は、メモリ１０６にストアされるべき任意の数の値のうちの各値、たとえば、レジスタ・ファイルにある値を、現在ストアされている最小値及び現在ストアされている最大値（たとえば、現在、ハードウェアの最小／最大収集器１０４でストアされている）と、比較することができる。かかる実例では、値が計算され、値がメモリにストアされる前又は同時に、最小／最大収集器は、値を、現在ストアされている最小値及び／又は最大値と比較することができる。１つ又は複数の実施例では、最小／最大収集器は、１つ又は複数の値を計算するハードウェア・ユニットと、１つ又は複数の値をストアするメモリ・ユニットとの間の、データ・パスの途中に含まれ得る。

方法１１０は、ブロックＢ１０６において、値が、現在ストアされている最大値よりも大きい、又は現在ストアされている最小値よりも小さい、のいずれかであるかどうかを判断するステップを含む。たとえば、システム（たとえば、ハードウェア最小／最大収集器１０４）は、ブロックＢ１０４での比較に基づいて、メモリにストアされるべき各値が、現在ストアされている最大値よりも大きいか、又は現在ストアされている最小値よりも小さいかを、判断することができる。

方法１１０は、ブロックＢ１０８において、現在ストアされている最小値よりも小さい値に基づいて、現在ストアされている最小値をこの値に更新するステップを含む。たとえば、メモリにストアされるべき計算値が、ハードウェアの最小／最大収集器に現在ストアされている最小値より小さい場合、ハードウェアの最小／最大収集器は、現在ストアされている最小値を計算値に更新することができる。

方法１１０は、ブロックＢ１１０において、現在ストアされている最大値よりも大きい値に基づいて、現在ストアされている最大値をこの値に更新するステップを含む。たとえば、メモリにストアされるべき計算値が、ハードウェアの最小／最大収集器に現在ストアされている最大値より大きい場合、ハードウェアの最小／最大収集器は、現在ストアされている最大値を計算値に更新することができる。

このようにして、いくつかの数（たとえば、すべて）の値がストアされると、最小／最大が、最小／最大収集器の現在ストアされている値から最小／最大を読み出すことによってすぐに使用可能になるように、最小／最大は、値をストアしている間に動的に更新され得る。

自動ストア・プレディケーション
高いクロック・レートのプロセッサの中でも、一般的な実施態様は、プロセッサを複数のパイプラインのステージに設定することである。その結果、ローカル・メモリからレジスタをロードする命令が発行されてから、レジスタが別の命令を演算するのに使用可能となるまでの間に、レイテンシ、たとえば、ロードから使用するまでのレイテンシが生じる可能性がある。ロードから使用するまでレイテンシがあるにもかかわらず、高スループットを達成するために、プロセッサのコンパイラ及びアプリケーション開発では、ソフトウェア・パイプライン及び／又はループ展開が使用され得る。たとえば、ソフトウェア・パイプラインを使用して、ループの複数の反復の実行をオーバラップさせることができ、またループ展開を使用して、ループ本体の中身を何度も繰り返すことによって、ループ本体を拡張することができる。また、これらの技法により、スケジュール内のアイドル・サイクルがより少なく、理想的にはゼロになるように、ループの中身の複数の反復を同時に実行することが可能となり得る。ループ展開を実行する場合、コンパイラは、ループ相互作用の回数を展開ファクタで除算することができる。たとえば、コンパイラは、元の反復回数が展開ファクタの倍数であると仮定することができ、これにより、展開されるループは、同等の機能的挙動で実行され得る。かかる実例では、元の反復回数が６０回で、ループが６倍で展開されるべき場合、展開されるループは、１０回の反復で実行され得る。しかし、元のループの反復回数が６４回で、通常の整数除算の場合、６４／６も１０になるため、ループが十分な回数実行されないことになり（たとえば、余りの４回の反復は実行され得ない）、展開後に異なるコードの挙動が生じ、アプリケーションで障害を引き起こす可能性がある。いくつかの技法では、反復回数を実際に、確実に展開ファクタの倍数にするために、アサーション・ステートメントが追加される。

ループ本体におけるステップ又は演算の集合は、狭い範囲の最適な又は所望の展開ファクタを有することができる。たとえば、展開ファクタは、様々なレイテンシによるギャップを埋めて最高性能を実現させるために、スケジューリングするループのコードの最小数のコピーで下限が定められ得、さらに、たとえば、余分なレジスタの溢流（ｒｅｇｉｓｔｅｒｓｐｉｌｌｉｎｇ）（スタックへの保存及びスタックからの復元）を引き起こし、スケジューリングが最適化されない可能性がある、レジスタ・ファイルの能力の限界により、スケジューリングする最大数のコピーで、上限が定められる得る。さらなる実例として、２のいくつかの累乗（たとえば、２、４、８など）の反復回数が可能となる、タイルの幅とタイルの高さとの組合せの選択が実行可能であることにより、２の累乗での展開が、多くのアプリケーションで受入可能である。しかし、実施例では、ループ本体はまた、最適に６回又は７回展開され得るが、４回又は８回での展開は、それほど効率的ではない可能性がある。いずれにせよ、最適なスケジューリングを実現させるためのループ展開により、反復回数に不都合な制限が生じる場合がある。したがって、この問題に対処するための従来の技法は、性能低下及びコード・サイズの増加を引き起こす場合がある。

たとえば、反復回数の制限は不都合なため、プログラマは、反復回数にかかる制限があってはならない場合に、２種類のループ、たとえば、「倍数」ループ及び「剰余」ループを書くことができる。実例として、以下の、説明に役立つ例示的なコード・セグメントは、下記を示している。コード１－ループ展開なしのベクトル加算ループ。コード２－反復回数が６の倍数である場合にのみ機能し得る、６によるループ展開を伴う同じループ。コード３－任意の反復回数で機能する２種類ループの解決策であるが、剰余のループは展開されないため、より効率が低く、また追加のループ及び反復回数の算出により、コード・サイズもより大きくなる。

コード１

コード２

コード３

本開示のベクトル処理ユニット（ＶＰＵ）を使用して、コード１は、反復ごとに６サイクルを達成することができ、コード２は、反復ごとに１サイクルを達成することができ、コード３の性能は、反復回数によって異なり得る。反復回数（ｎｉｔｅｒ）が、ｎｉｔｅｒ＝６０（６の倍数であるため、剰余分は実行されない）の場合、コード３は、反復ごとに１．０サイクルを達成することができ、ｎｉｔｅｒ＝６４（剰余のループが４回実行される）の場合、コード３は平均して、反復ごとに１．３１２５サイクル（たとえば、（６０＊１＋４＊６）／６４＝８４／６４＝１．３１２５）を達成することができる。

図２Ａを参照すると、図２Ａは、本開示のいくつかの実施例による、自動プレディケーション能力を有するアドレス生成ユニットを含む、プロセッサ２０２（ＶＰＵなど）を含む例示的なシステム２００である。本明細書で説明されるこの配置及び他の配置は、単に実例として示されていることを理解されたい。図示されているものに加えて、又は図示されているものの代わりに、他の配置及び要素（たとえば、機械、インタフェース、機能、順序、機能のグループ化など）が使用されてもよく、一部の要素が完全に省略されてもよい。さらに、本明細書で説明される要素の多くは、個別の若しくは分散された構成要素として、又は他の構成要素と組み合わせて、任意の好適な組合せ及び位置で実施され得る、機能的なエンティティである。本明細書で説明される、エンティティによって実行される様々な機能は、ハードウェア、ファームウェア、及び／又はソフトウェアによって実行され得る。たとえば、様々な機能は、メモリにストアされた命令を実行するプロセッサによって実行され得る。いくつかの実施例では、プロセッサ２０２は、図１３Ａ～図１３Ｄの例示的な自律型車両１３００、図１４の例示的なコンピュータ処理デバイス１４００、及び／若しくは図１５の例示的なデータ・センタ１５００のものと同様の構成要素、特徴、及び／若しくは機能に含まれ得るか、且つ／又はこれらを含むことができる。

本開示の実施例では、コード・セグメント内のロード及びストアは、プロセッサ２０２（たとえば、ＶＰＵ）のアドレス生成器２０４を使用することができる。たとえば、各ロード及びストアにおいて、アドレス生成器（ａｇｅｎ）の引数（ａｇｅｎ＿ａ，ａｇｅｎ＿ｂ，ａｇｅｎ＿ｃ）が、ロード／ストア関数に供給され得る。引数は、特定のロード及び／又はストア動作のアドレス算出に使用され得るパラメータ、たとえば、アドレス・ポインタ、反復回数、現在のループ変数値などを含む、アドレス生成器のレジスタを識別することができる。いくつかの実施例では、ＶＰＵは、各アドレス生成器のレジスタが、６つ（又は他の値）のアドレス指定の次元をサポートし、したがって６回（又は他の値）の反復回数及び６つ（又は他の値）のループ変数を含むよう設計され得る。

ループ展開を伴う反復回数の制限を考慮して、本開示のシステム及び方法には、アドレス生成器２０４によるストアの自動プレディケーション用論理機構（たとえば、プレディケーション・フラグ又はビット２０８）を有する、アドレス生成器２０４が含まれ得る。たとえば、プレディケーションを使用して、何かを実行するか（否か）などの、条件付き実行の指示を提供することができる。プレディケーション・ビット２０８の値（たとえば、ストアする場合は０、若しくはストアを止める場合は１、又はその逆）を使用して、命令が実行されるかどうかを示すことができる。実行は、実際の反復の実行を参照することはできないが、反復の実行によって得られた値がメモリにストアされるかどうかを参照することができる。したがって、実施例では、プレディケーション・フラグのために実行されていない命令が、実行はされているが、実行の結果により、メモリ２０６の状態を変化させることを止められているか又は妨げられている、命令又は反復を参照することができる。プレディケーションには、命令レベルのプレディケーション及びレーン・レベルのプレディケーションが含まれ得る。命令レベルのプレディケーションは、命令全体を実行する必要があるかどうかを示すために使用され得、一方レーン・レベルのプレディケーションは、データのどのレーンを実行する必要があるかどうかを示すために使用され得る。

いくつかの実施例では、ループ変数が反復回数をゼロにした後、その後のどんなストア命令の実行も自動的にプレディケーションがオフされて、メモリ２０６へのさらなる書込みを禁止する。このように、自動ストア・プレディケーションのフィーチャは、たとえば６の倍数（又は別の展開ファクタ）ではない反復回数を、次の６の倍数に切り上げて、６の倍数（又は別の展開ファクタ）ではない反復回数を変更しないことにより、コードを明確に書くことを可能にし得る。ファクタ６が使用されているが、これは限定することを意図するものではなく、本開示の範囲から逸脱することなく、任意の展開ファクタが使用され得る。下記のコード４には、自動ストア・プレディケーションを使用したベクトル加算の実例が含まれている。

コード４

コード４は、元の反復回数（ｎｉｔｅｒ）が６４回の場合、展開されたループを反復ごとに１．０３１２５サイクル（たとえば、１１×６／６４＝１．０３１２５）で、１１回実行することができる。展開ファクタの倍数である反復回数の制限を考慮する別のやり方は、ループでの必要なプレディケーション・フラグを算出し、ストア命令においてプレディケーション・フラグを供給することである。たとえば、下記に示すコード５は、プレディケーション・フラグ算出の例示的な実施態様を示している。

コード５

コード５は、本開示のＶＰＵで反復ごとに１．５サイクルにコンパイルされ得るので、自動プレディケーションには、ループで算出されたプレディケーションに勝る、性能上の利点が含まれ得る。実施例では、ＶＰＵには、７ウェイ超長命令語（ＶＬＩＷ：ｖｅｒｙｌｏｎｇｉｎｓｔｒｕｃｔｉｏｎｗｏｒｄ）の命令方式が含まれ得、プレディケーションの算出に必要なスカラ演算のために、サイクルごとに２つのスカラ・スロットが含まれ得る。ループに、反復ごとにより多くのベクトル演算がある場合、プレディケーションの算出が、使用可能なスロット内に収まり、性能劣化を引き起こし得ないように、十分なスカラ・スロットが含まれ得る。リアルタイムでプレディケーションを算出するのに性能への影響がない計算ループでも、自動プレディケーションを使用すると、依然としてコード・サイズ及びエネルギー消費における利点があり得る。

したがって、ソフトウェアを使用して、何回かの反復（たとえば、Ｎ１～Ｎ６）を設定することができ、ソフトウェアは、アドレス生成器ベースのロード／ストアの実行を、通常はループで生じさせることができる。アドレス生成器のハードウェアは、ループ変数（たとえば、変数Ｉ１～Ｉ６）を維持することができ、またアドレス・ポインタを適切に進めることができる。アドレス生成器ベースのロード／ストアが、事前設定された反復回数にわたって実行されたとき、アドレス・ポインタは、最後の有効なアドレスで動かなくなり得、自動プレディケーションをオフにして（たとえば、プレディケーション・フラグをセットすることにより）、後続のメモリへのストアを阻止することができる。したがって、アドレス生成器２０４には、「自動プレディケーション・オフ」の内部ブール状態が含まれ得、ループ変数反復論理機構は、自動プレディケーションがオフになることをサポートするよう設定され得る。たとえば、図２Ｂに関して、アドレス発生器が初期化されると、ループ変数Ｉ１～Ｉ６に加えて、パラメータ自動プレディケーション・オフ（「ａｕｔｏ＿ｐｒｅｄ＿ｏｆｆ」）（たとえば、プレディケーション・ビット２０８）の値が初期化又は「０」にリセットされ得る。ループ変数が、プログラミングされた反復回数をゼロにした後、ａｕｔｏ＿ｐｒｅｄ＿ｏｆｆは、「１」に更新され得る。次いで、どの後続のストア命令の実行も、プレディケーション・ビットが「１」である結果として自動的にプレディケーションがオフされ得、メモリへのこれ以上の書込みが止められ得る。

図２Ｂの実例では、アドレス生成器の、レジスタＮ１～Ｎ６の反復回数は、Ｎ１＝４、Ｎ２＝２、Ｎ３＝Ｎ４＝Ｎ５＝Ｎ６＝１とプログラミングされ得る。したがって、プログラミングされた反復回数の合計は４＊２＊１＊１＊１＊１＝８であり得、その結果、図２Ｂに示されているシーケンスが実行され得る。図示されているように、初期状態及び続く７回の実行（たとえば、最初の８回の反復）は、ａｕｔｏ＿ｐｒｅｄ＿ｏｆｆビット値０に対応することができ、８回目及び９回目の実行（たとえば、最後の２回の反復）は、ａｕｔｏ＿ｐｒｅｄ＿ｏｆｆビット値１に対応する、したがって、９回目及び１０回目の実行の結果がメモリにストアされるのを阻止することができる。

実際には、ＶＰＵは、同時に機能するいくつかの数の、たとえば８個、１６個などのベクトル・ユニットを処理するよう設定され得、したがって、ＶＰＵは、配列が、ベクトル・ユニットの数の倍数であることを必要とし得る。配列がベクトル・ユニットの数の倍数である場合、このセット・アップは適切に機能する。しかし、一般的に、配列はベクトル単位の倍数ではない可能性があり（たとえば、同じサイズの配列に従ってデータが計算される保証がないので）、その結果、処理が常に同じサイズのバッチに対して実行されるように、配列がパディングされる。たとえば、残りの反復には値「０」がパディングされ得るが、これには、依然として、パディングされた値を処理するために、ソフトウェアでの追加のサイクルが必要となる。したがって、追加されたデータは無駄な計算となり、また、単一命令複数データ（ＳＩＭＤ）のソフトウェアでよく見られる問題であるが、ソフトウェアが複雑になるので、パディングは非効率的であり得る。したがって、この問題を考慮して、自動ストア・プレディケーションが使用され得る。

非限定的な実例では、１６個のバッチが使用される場合、１６個のうちの多くのバッチは配列から生成され得、残りの値は、プレディケーション・フラグを使用してプレディケーションがオフされた１６個のバッチ内の残余又は残りのスペースと共に、最終バッチに含まれ得る。具体的な実例では、配列サイズが８２の場合、１６個の完全な５セットが生成され得、最後の反復に残りの２つの要素が含まれ得、他の１４個は自動的にプレディケーションがオフされ得るため、１４個の値でバッチをパディングする無駄な計算、及びパディングされたデータの不要な計算の実行が最小限に抑えられる。さらなる実例として、ベクトル処理の粒度に３２の幅が含まれ、配列に１００個の要素がある場合、３つの完全な３２要素のベクトルが処理され得、残りの４つの要素は、３２レーンのうちの４つで処理され得（たとえば、プレディケーション・フラグがオンになり得る）、他の２８レーンは、プレディケーションがオフになり得る。このようにして、プログラマは、サンプル内のユニット数の倍数ではない配列を、ベクトル化することができ得る。たとえば、ハードウェアは、すべてのストアについて、実際にメモリに書き込む要素の数を計算し、この情報をストア・ユニットに通知することができる。したがって、パディングされた又は追加の要素に対して数学を実行し、ストアできる場合でも、この余分な計算及び記憶は非効率的である。これによって、余分な読取りが不要となり、パディングされた値からメモリへの計算値の書込みが行われない（たとえば、止められるか又は妨げられる）ように、プレディケーション・フラグがセットされ得る。この自動プレディケーションは、命令レベルで行われ得、さらにレーン・レベルのプレディケーションを実行するよう、ソフトウェアが追加され得る。

加えて、自動プレディケーションについて、アドレス生成器がいくつかの反復をプログラムすることができるので、追加情報は不要であり得、したがってアドレス生成器は、自動プレディケーションをサポートするためのメモリを有し、ストアのプレディケーション及びプレディケーション・オフを自動的に動かすためのソフトウェア命令が追加され得る。このように、ハードウェアは、最後の反復で、たとえばプレディケーションが、オフになっているか、さもなければ信号通知オフになっていることにより、いつ完全な結果をストアするか、又はいつ完全な結果より少ない結果をストアするかを判断することができ、これは、性能を維持しながらも、コストがゼロで実行され得る。ソフトウェアしか使用されない場合、プロセスには余分なサイクルが必要になり、したがってプロセスが遅くなる。

いくつかの実施例では、プレディケーションは、レーンごとのレベルで使用され得、その結果、これらの実施態様は、ループ展開ファクタの倍数ではない反復回数を使うことができるばかりでなく、ベクトル幅の倍数ではないどんな課題のサイズも効率的に扱われ得る。かかる実施例では、レーンごとのプレディケーションは、情報がリアルタイムで計算されるという利点を提供できるベクトル・レジスタを使用して駆動され得、ベクトル・レジスタを使用することにより、ベクトル・レジスタからスカラ・プレディケーション・レジスタにコピーし、次いでスカラ・プレディケーション・レジスタを使用することで、レーンごとにプレディケーション・フラグを使用する必要性がなくなるという、ショートカットが実現され得る。たとえば、レーンごとのプレディケーションは、レーンごとのプレディケーション情報がループで計算されるときに有益であり得る、ベクトル・レジスタによって実行され得、計算はベクトル化され得る。

たとえば、１００を超える任意の値の９９９との置き換えなど、配列内の特定の値の置き換えが実行されるべき場合、コードは、下記のように書かれ得る。

このコードは機能的には正しいものであり得るが、性能低下を引き起こす可能性がある。したがって、コードは、たとえば、以下のコードを組み込むことによって、レーンごとのプレディケーションでベクトル化され得る。

プレディケーションの算出がこのようにベクトル化され、レーンごとのプレディケーションがスカラ・プレディケーション・レジスタを介してのみ伝達され得る場合、プレディケーション情報をベクトル・レジスタからスカラ・プレディケーション・レジスタにコピーする必要があるため、実行時間が長くなる。

しかし、下記のコードに示されているように、本明細書で説明されているベクトル・レジスタのフィーチャによって直接駆動されるレーンごとのプレディケーションを使用し、この実例では、ビットパッキングを実行して、ベクトル・レーン０からスカラ・レジスタにプレディケーション・マスクを移動させるよりも、優れた性能を実現させることができる。

ここで図２Ｃを参照すると、本明細書で説明される方法２２０の各ブロックは、ハードウェア、ファームウェア、及び／又はソフトウェアの任意の組合せを使用して実行され得る、コンピュータ処理プロセスを含む。たとえば、様々な機能は、メモリにストアされた命令を実行するプロセッサによって実行され得る。方法２２０はまた、コンピュータ記憶媒体にストアされた、コンピュータが使用可能な命令として具現化され得る。方法２２０は、いくつか例を挙げると、独立型アプリケーション、サービス若しくはホステッド・サービス（独立型の、又は別のホステッド・サービスとの組合せ）、又は別の製品へのプラグインによって提供され得る。方法２２０は、図２Ａのシステム２００に関して説明されているが、本明細書で説明されているものを含むが、これに限定されるものではない任意の１つのシステム又はシステムの任意の組合せによって実行され得る。

図２Ｃは、本開示のいくつかの実施例による、自動ストア・プレディケーションの方法２２０を示す流れ図である。方法２２０は、ブロックＢ２０２において、反復の総数を判断するステップを含む。たとえば、アドレス生成器２０４は、所与の命令に対して実行されるべき反復の総数を、判断することができる。

方法２２０は、ブロックＢ２０４において、反復の総数を、複数の反復のセットに分けるステップを含む。たとえば、アドレス生成器２０４は、ループの反復回数を含むループ本体を生成するために、展開ファクタで反復を分けることができる。

方法２２０は、ブロックＢ２０６において、複数の反復のセットのうちのある反復のセットが、複数の反復のセットのうちの他の反復のセットに対応する第２の反復回数よりも少ない、第１の反復回数を含むことを判断するステップを含み、たとえば、アドレス生成器２０４は、展開ファクタで反復を分けた後、ある反復のセットが、他のセットよりも少ない反復を含むことを、判断することができる。たとえば、展開ファクタが６で、反復回数が６２回の場合、１１セットの反復が存在し得る。すなわち、１０セットが６回の反復を含み、１セットが２回の反復を含む。したがって、アドレス生成器２０４は、残りの２回の反復を含む反復のセットの、２回の反復が実行する必要があり、他の４回はプレディケーションをオフする必要があると判断することができる。

方法２２０は、ブロックＢ２０８において、反復のセットの実行中に、反復のセットの少なくとも１回の反復に対応する、プレディケーション・フラグを生成するステップを含む。たとえば、反復のセットが、他の反復のセットと同じ回数の反復の完全なセットを含まないと判断すると、アドレス生成器２０４は、プレディケーション・フラグをイネーブルして（プレディケーション・オフ・ビット２０８の値を変更する）、余りの反復の結果をメモリにストア又は書き込む必要があることを示すことができる。

方法２２０は、ブロックＢ２１０において、少なくとも部分的にプレディケーション・フラグに基づいて、反復のセットの少なくとも１つの反復に対応する値を、メモリに書き込むことを止めるステップを含む。たとえば、プレディケーション・フラグがセットされていることに基づいて、計算された値が、メモリに書き込まれるのが止められるか、又は計算され得る。

ベクトル・プロセッサ用に改善されたＳＩＭＤデータ・パス構成
従来の単一命令複数データ（ＳＩＭＤ）アーキテクチャでは、各ＳＩＭＤ処理ユニットは並列に、ＳＩＭＤユニット自体のデータ・レーンで互いに独立して演算する。一部の機械では、各ＳＩＭＤ処理ユニットが、近傍の隣接物（たとえば、線形配列の処理ユニットのときの左の隣接物及び右の隣接物、又は２次元（２Ｄ：ｔｗｏ－ｄｉｍｅｎｓｉｏｎａｌ）配列又は処理ユニットの際の、北、南、東、及び西の隣接物）と、直接通信することが可能である。ただし、隣接するデータ・パス間だけの通信は制限があり、少なくない数の入力オペランドを必要とする演算の実施態様にはコストがかかる。一実例として、畳込みは、画像処理、コンピュータ・ビジョン、機械学習などにおける一般的な演算である。畳込み中に、非限定的な実例では、３つのデータ・オペランド及び３つの係数オペランドを必要とする、３タップの１次元（１Ｄ：ｏｎｅ－ｄｉｍｅｎｓｉｏｎａｌ）フィルタ処理など、様々なフィルタが、隣接するピクセルに施され得る。これらのオペランドをＳＩＭＤアーキテクチャのデータ・レーン間で共有できない場合、その特定のレーンの結果を作り出すには、６つのオペランドを各データ・レーンに持ってくる必要がある。これを考慮すると、いくつかの一般的な手法では、レジスタ・ファイルに複数の読取りポートを実装するが、これには、ＳＩＭＤアーキテクチャ用の追加の表面積ばかりでなく、演算するための追加の電力も必要である。

従来のＳＩＭＤアーキテクチャの欠陥を考慮して、本開示のＳＩＭＤアーキテクチャは、グループとしての複数のレーンで構成される、ベクトル処理ユニット（ＶＰＵ）などのプロセッサで、スライスを規定することにより、レーン間の通信を可能にし得る。非限定的な実例では、プロセッサにおいて、ＳＩＭＤレーン構成には、たとえば、４８ビット（拡張ワード）の８レーン、２４ビット（拡張ハーフワード）の１６レーン、又は１２ビット（拡張バイト）の３２レーンに分割され得る、３８４ビットのデータ・パスを含む階層的構成が含まれ得る。かかる実例では、各バイトは、４ビットだけ拡張され得る。個々のレーン上の通信の第１の層は、ＳＩＭＤスライスと呼ばれる場合があり、（たとえば、これに限定されるものではないが）９６ビット幅であり得、２つの拡張ワード・レーン（たとえば、２つの４８ビット・レーン）、４つの拡張ハーフワード・レーン（たとえば、４つの２４ビット・レーン）、又は８つの拡張バイト・レーン（たとえば、８つの１２ビット・レーン）からなる。非限定的な実施例では、プロセッサ・データ・パス全体に４つのＳＩＭＤスライスが含まれ得、通信の第２の層は、４つ（又は他の数の）すべてのＳＩＭＤスライスとすべてのレーンとの間で、グローバルであり得る。このようにして、各スライスのレーン間でオペランドの共有が実現され得、これは、フィルタ処理、ドット積、ペイロードのソートなどの命令で、有用であり得る。ＳＩＭＤアーキテクチャは、図１３Ａ～図１３Ｄの例示的な自律型車両１３００のプロセッサ、図１４の例示的なコンピュータ処理デバイス１４００、及び／又は図１５の例示的なデータ・センタ１５００などの、ＶＰＵ又は他のプロセッサ・タイプに含まれ得る。

ＳＩＭＤの命令セット・アーキテクチャ（ＩＳＡ）は、ＳＩＭＤアーキテクチャの物理的ルーティングにより、スライス内のいくつかの数（たとえば、８つ）のレーン間の共有を可能にし得る。たとえば、図３Ａに示されているように、各スライス内で、３２ビットのワード・データ・タイプ、１６ビットのハーフワード・データ・タイプ、及び８ビットのバイト・データ・タイプ間の通信が可能であり得る。結果として、図３Ｂに示されているフィルタ処理演算などの実例では、４つの入力オペランド及び４つの係数がある場合、８ビット×８ビットの乗算及び累積がハーフワードで実行され得、係数は、相異なるレーンからのデータと共に共有され得る。本開示のＳＩＭＤアーキテクチャでは、わずか３つの入力オペランドを使用して実行できる、同じ計算を実行するのに、従来のＳＩＭＤアーキテクチャでは、各レーンは８つのオペランドすべてをロードする必要があろう。その結果、そして各読取りポートが、表面積及びエネルギー消費の増加に関連しているので、３つの読み取りポートだけで済ますことにより、かかる命令を実行するためのスペース及びエネルギーが節約される。演算中は、スライス内のレーン間で共有されるため、４つのアキュムレータ、たとえば０、１、２、及び３には、下記の計算結果が入力され得る。
ＡＣＣ［０］＋＝Ｄ［０］＊Ｃ［０］＋Ｄ［１］＊Ｃ［１］＋Ｄ［２］＊Ｃ［２］＋Ｄ［３］＊Ｃ［３］
ＡＣＣ［１］＋＝Ｄ［１］＊Ｃ［０］＋Ｄ［２］＊Ｃ［１］＋Ｄ［３］＊Ｃ［２］＋Ｄ［４］＊Ｃ［３］
ＡＣＣ［２］＋＝Ｄ［２］＊Ｃ［０］＋Ｄ［３］＊Ｃ［１］＋Ｄ［４］＊Ｃ［２］＋Ｄ［５］＊Ｃ［３］
ＡＣＣ［３］＋＝Ｄ［３］＊Ｃ［０］＋Ｄ［４］＊Ｃ［１］＋Ｄ［５］＊Ｃ［２］＋Ｄ［６］＊Ｃ［３］

例示されているように、たとえば、ＡＣＣ［０］は、Ｄ［１］、Ｄ［２］、及びＤ［３］を含む、ｓｒｃ１ａの他のレーンにアクセスすることができ、またＣ［１］、Ｃ［２］、及びＣ［３］を含む、ｓｒｃ２の他のレーンにもアクセスすることができる。同様に、他のアキュムレータ（ＡＣＣ：ａｃｃｕｍｕｌａｔｏｒ）は、ｓｒｃ１及びｓｒｃ２の様々なレーンにアクセスすることができる。レーン間の共有が制限されているか又は最小限である従来のベクトル・プロセッサでは、このタイプの演算は不可能であろう。これらの計算には、たとえば、各アキュムレータが、前のアキュムレータに対してスライディング・ウィンドウを動かした結果を含む、スライディング・ウィンドウ手法が含まれ得る。たとえば、第１のアキュムレータは、Ｄ［０］、Ｄ［１］、Ｄ［２］、及びＤ［３］に対して演算し、第２のアキュムレータは、Ｄ［１］、Ｄ［２］、Ｄ［３］、及びＤ［４］に対して演算し、以下同様である。各アキュムレータは、同じ係数Ｃ［０］、Ｃ［１］、Ｃ［２］、及びＣ［３］を使用する。これは、ＳＩＭＤアーキテクチャのスライスのレーン間で共有される、物理的ルーティングのおかげで可能となる。

本開示のＳＩＭＤアーキテクチャの別の例示的な実施態様として、図３Ｃに関して、ベクトル乗算の演算におけるドット積が、レーン共有を使用して実行され得る。かかる実例では、２つのインデックス、たとえばＤ［０］［０］は、データがどのレーンに属するか、及びデータが何の出力のセットに属するか、を示している。ドット積の計算では、各レーンは、独自のレーンからのデータ・オペランドだけを使用するが、係数はレーン間で共有される。したがって、各レーンからの出力は、ドット積演算中のある時点で、４つの係数すべてを使用することができる。演算中は、スライス内のレーン間で共有されるため、４つのアキュムレータ、たとえば０、１、２、及び３には、下記の計算結果が入力され得る。
ＡＣＣ［０］＋＝Ｄ［０］［０］＊Ｃ［０］＋Ｄ［１］［０］＊Ｃ［１］＋Ｄ［２］［０］＊Ｃ［２］＋Ｄ［３］［０］＊Ｃ［３］
ＡＣＣ［１］＋＝Ｄ［０］［１］＊Ｃ［０］＋Ｄ［１］［１］＊Ｃ［１］＋Ｄ［２］［１］＊Ｃ［２］＋Ｄ［３］［１］＊Ｃ［３］
ＡＣＣ［２］＋＝Ｄ［０］［２］＊Ｃ［０］＋Ｄ［１］［２］＊Ｃ［１］＋Ｄ［２］［２］＊Ｃ［２］＋Ｄ［３］［２］＊Ｃ［３］
ＡＣＣ［３］＋＝Ｄ［０］［３］＊Ｃ［０］＋Ｄ［１］［３］＊Ｃ［１］＋Ｄ［２］［３］＊Ｃ［２］＋Ｄ［３］［３］＊Ｃ［３］

本開示のＳＩＭＤアーキテクチャから恩恵を受けることができる別の例示的な演算として、図３Ｄの２ポイント・ソート演算が実行され得る。２ポイント・ソートでは、２つの値を使用してペイロードをソートする。この２ポイント・ソートは、スライス内のレーンのペア間の通信を利用し、たとえば、様々なコンピュータ・ビジョンのアプリケーションで有用である。たとえば、レーン０にはアイテム０のキーがあり、またレーン１には対応するペイロードがある、などで、ペイロードは、たとえば下記のコードのように、キー／ペイロードのペアごとに、キーの比較に従ってソートされ得る。

ここで図３Ｅを参照すると、本明細書で説明される方法３００の各ブロックは、ハードウェア、ファームウェア、及び／又はソフトウェアの任意の組合せを使用して実行され得る、コンピュータ処理プロセスを含む。たとえば、様々な機能は、メモリにストアされた命令を実行するプロセッサによって実行され得る。方法３００はまた、コンピュータ記憶媒体にストアされた、コンピュータが使用可能な命令として具現化され得る。方法３００は、いくつか例を挙げると、独立型アプリケーション、サービス若しくはホステッド・サービス（独立型の、又は別のホステッド・サービスとの組合せ）、又は別の製品へのプラグインによって提供され得る。方法３００は、本開示のＳＩＭＤアーキテクチャに関して説明されているが、本明細書で説明されているものを含むが、これに限定されるものではない任意の１つのシステム又はシステムの任意の組合せによって実行され得る。

図３Ｅは、本開示のいくつかの実施例による、ＳＩＭＤアーキテクチャのレーンにわたって共有されるオペランドを使用して、出力を計算する方法３００の流れ図を含む。方法３００は、ブロックＢ３０２において、プロセッサのビット幅を、それぞれが第１のビット幅よりも小さい第２のビット幅を含む、複数のデータ・スライスに分割するステップを含み、複数のデータ・スライスのうちの各データ・スライスは、それぞれが第２のビット幅よりも小さい第３のビット幅を含む、複数のレーンを含む。たとえば、ベクトル・プロセッサは、いくつかの数（たとえば、４つ）のスライスに分割され得、各スライスには、いくつかの数のレーンが含まれ得る。

方法３００は、ブロックＢ３０４において、複数のレーンのうちの第１のレーンが、第１のベクトルの第１のオペランドを含み、複数のレーンのうちの第２のレーンが、第１のベクトルの第２のオペランドを含むように、第１のベクトルを第１のベクトル・レジスタにロードするステップを含む。たとえば、図３Ｂに関して、第１のベクトルの第１のデータ・オペランドＤ［０］が、第１のレーンにロードされ得、第１のベクトルに対応する第２のデータ・オペランドＤ［１］が、第２のレーンにロードされ得る。

方法３００は、ブロックＢ３０６において、複数のレーンのうちの第１のレーンが、第２のベクトルの第３のオペランドを含み、複数のレーンのうちの第２のレーンが、第２のベクトルの第４のオペランドを含むように、第２のベクトルを第２のベクトル・レジスタにロードするステップを含む。たとえば、図３Ｂに関して、第３の第１の係数オペランドＣ［０］が、第１のレーンにロードされ得、第３のベクトルに対応する第２の係数オペランドＣ［１］が、第２のレーンにロードされ得る。

方法３００は、ブロックＢ３０８において、命令を使用して、第１のオペランド、第２のオペランド、第３のオペランド、及び第４のオペランドに少なくとも部分的に基づいて、出力を計算するステップを含む。たとえば、図３Ｂに関して、第１のアキュムレータ（ＡＣＣ［０］）は、他のものに加えて、Ｄ［０］、Ｄ［１］、Ｃ［０］、及びＣ［１］の値が含まれる、ＡＣＣ［０］＋＝Ｄ［０］＊Ｃ［０］＋Ｄ［１］＊Ｃ［１］＋Ｄ［２］＊Ｃ［２］＋Ｄ［３］＊Ｃ［３］の計算結果を受信することができる。この計算は、各スライスのレーン間の内部共有及びルーティングのおかげで行われ得る。

方法３００は、ブロックＢ３１０において、出力をレジスタにストアするステップを含む。たとえば、図３Ｂに関して、計算された出力は、アキュムレータ・レジスタＡＣＣ［０］にストアされ得、次いで、メモリにストアされ得る。

ストライド・パラメータを用いた転置ロード及びストア動作
従来のベクトル単一命令多重データ（ＳＩＭＤ）プロセッサでは、ローカル・データ・メモリは、ベクトル処理幅に一致するようサイズ決めされ得る。たとえば、８ビットの３２レーン、１６ビットの１６レーン、又は３２ビットの８レーンを処理できる２５６ビットのベクトルＳＩＭＤプロセッサの場合、ローカル・データ・メモリには、たとえば、２５６ビットの幅のメモリ又は５１２ビットの幅（たとえば、処理ビット幅の２倍の幅）のメモリが含まれ得る。かかる実例では、ローカル・データ・メモリは、全幅のメモリ・ワードを有するただ１つのメモリ・バンクとして構成される。しかし、全幅のメモリ・ワードのただ１つのバンクを有するワイド・ベクトルＳＩＭＤプロセッサは、特にメモリ・アクセスの位置がずれている場合に、非効率的であり得る。たとえば、バイト・アドレスが４から６７である、１６要素の３２ビット配列について配列をロードするために、プロセッサは、２回のメモリ読取り、たとえば、１つの読取りアドレス０から６３（現在の演算には必要のないデータを含むアドレス０から３を含む）及び２つ目の読取りアドレス６４から１２７（現在の演算には必要のないデータを含むアドレス６８から１２７を含む）のメモリ読取りを必要とし得る。したがって、本開示のバンク構成のメモリ・アーキテクチャがなければ、アクセス・パターンは、複数回のロード又はストアによって達成される場合があり、その結果、計算カーネルの速度が低下し、性能が低下し、且つ電力消費が増加する可能性がある。

これを考慮して、その代わりに、ただ１つのワイド・メモリ・バンクが、１６ビットのメモリ・バンク（たとえば、クロック・サイクル当たり５１２ビットのメモリ帯域幅を提供する、３２バンクの１６ビット・メモリ）など、複数のメモリ・バンクとして構成され得る。このようにして、読取り及び／又は書込み動作は、任意の１６ビットの位置合わせの範囲内で行われ、これにより、上記の実例で説明されたような、余分な読取り／書込み動作の量を減らすことができる。かかるメモリ構成では、アドレス４から６７の読取りに必要なメモリの読取りはただ１回だけであり得る。より小さな個々のメモリ・バンクを含むメモリ・バンク構成に加えて、転置ロード及び／又はストア機能が実装され得る。たとえば、レーン・オフセット・パラメータＫを使用して、メモリの後続の各レーンに適用される、行アドレスのオフセットを規定することができる。レーン・サイズは、データ要素のサイズ、たとえば８ビット、１６ビット、３２ビットなどに対応することができる。２Ｄ配列が、Ｗ＊Ｋ＋１個の要素のライン・ピッチでメモリにストアされている場合、ずらされたアクセス・パターンは、垂直パターンに変換され得、ここでＫは、オフセット・パラメータであり、Ｗは、６４／レーン・サイズ（又はデータ要素のサイズ）である。たとえば、３２ビットのデータ要素では、ライン・ピッチは１６＊Ｋ＋１となり得る。いくつかの実施例では、ＳＩＭＤプロセッサは、図１３Ａ～図１３Ｄの例示的な自律型車両１３００、図１４の例示的なコンピュータ処理デバイス１４００、及び／若しくは図１５の例示的なデータ・センタ１５００のものと同様の構成要素、特徴、及び／若しくは機能のうちの１つの構成要素として含まれ得るか、且つ／又はこれらを含むことができる。

実例として、図４Ａに関して、表４００には、転置ロードの論理図、及び２５６ビットを超える１７のライン・ピッチを有する転置ロードのメモリ・バンクの図の例示が含まれ得る。メモリ・バンクは、メモリ・バンクの図で１８個の個別の１６ビット・バンクで終了しているが、これは、例示を目的としているにすぎない。たとえば、メモリ・バンクは、たとえば、各メモリ・バンクが１６ビット幅であり得る場合、合計２５６ビット、合計５１２ビット、又は他のいくつかの数の合計ビットであり得る。１７のライン・ピッチの転置されたロードを使用するメモリ・バンクの図では、配列の強調表示された値のそれぞれを取得するために、ただ１回のロード動作が実行され得る。

この技法を使用する転置ロードは、多くの演算に有益であるが、一部のコンピュータ・ビジョン・アルゴリズムなどの特定のアルゴリズムは、図４Ａに関して説明された転置ロード技法を用いても、ただ１回の読取り及び／又は書込みでは達成できないデータ・パターンへのアクセスが必要な場合がある。実例として、高さ１６の垂直ベクトルをロードするのではなく、高さ８×２要素幅のサブマトリックス、高さ４×４要素幅のマトリックス、又は別のマトリックス若しくはサブマトリックスのサイズのロードが必要な場合がある、インスタンスがあり得る。ドット積演算では、たとえば累積が、１度に１６ビットずつ、１６要素の２行に向けられ得、したがってストアするときに、２行が１回のメモリ書込みトランザクションとして書き出され得るような、適切なライン・ピッチのＴ１６転置ストアのオプションが望ましい場合がある。これを考慮して、ストライド・パラメータが、転置ロード及び／又はストアで使用され得る。いくつかの実施例では、ストライド・パラメータには、Ｔ２、Ｔ４、Ｔ８、Ｔ３２などと呼ばれ得る、２、４、８、３２などのストライドなど、２の累乗のストライド（これは、制限することを意図するものではないが）が含まれ得る。ストライド・パラメータを用いた様々な転置ロードの実例が、転置ロードの論理図及びメモリ・バンクの図を含む図４Ｂの表４１０に例示されている。図４Ｂに反映された図４Ａの実例には、ストライド・パラメータ１が含まれているが、他のストライド・パラメータは２の倍数である。たとえば、ライン・ピッチが１８のＴ２では、ただ１回のロード・トランザクションを使用して値のそれぞれを取得できるように、２要素幅×高さ８のマトリックスを転置ロードとしてストアすることが可能である。同様に、ライン・ピッチが２０でストライドが４のＴ４では、ただ１回のロード・トランザクションを使用して値のそれぞれを取得できるように、４要素幅×高さ４のマトリックスがストアされ得、以下同様である。ロード・トランザクションとして説明されているが、このタイプのフォーマットは、転置及びストライド・パラメータに従ってデータをメモリにストアする、ストア・トランザクションにも同様に使用され得る。

かかる実例では、ライン・ピッチの制約は、ストライドに応じて調整され得る。ワード・タイプＴの転置アクセスでは、ライン・ピッチは１６Ｋ＋１であり得、ワード・タイプＴ２の転置アクセスでは（たとえば、ストライド２では）、ライン・ピッチは１６Ｋ＋２であり得、ワード・タイプＴ４の転置アクセスでは（たとえば、ストライド４では）、ライン・ピッチは１６Ｋ＋４であり得、以下同様である。したがって、ライン・ピッチは１６Ｋ＋ストライド値、又は１６Ｋ＋１＋（Ｔ－１）に等しくなり得、ここで、Ｔはストライド・パラメータである。

演算中、ＶＰＵのＶＭＥＭのアーキテクチャ及びＶＰＵの命令セット・アーキテクチャ（ＩＳＡ）は、データの読取り又は書込みが、ただ１回の読取り動作で論理図の列に構成されることを可能にするために、ストライド・パラメータの有無にかかわらず、転置ロード及び／又はストア動作を実行するよう設定され得る。たとえば、ＩＳＡは、書込みタイプ（たとえば、ストライド・パラメータの有無にかかわらず、転置書込み動作）、ライン・ピッチの値（たとえば、１６＊Ｋ＋１のＫの値）、及び／又はストライド・パラメータ値の指示からデータを読み取るか又は指示へデータを書き込むために（たとえば、レジスタ・ファイルからデータを読み取るか又は書き込むために）、開始アドレスを示す情報を受信するよう設定され得る。値１６は、特定の実施態様のデータ要素の数に対応するが、値１６（又はＷ）は、様々な実施例において異なる場合があることに留意されたい。したがって、ＩＳＡは、転置書込み動作に従ってデータをメモリに書き込むときに、ＶＭＥＭに書き込む開始アドレス、ライン・ピッチ、及び／又はストライド・パラメータを受信することができる。結果として、値を書き込むときに、値を単一のメモリ・バンクの、データのただ１つの列に書き出すのではなく、データは、たとえば図４Ａ及び図４Ｂに例示されているように、転置又はオフセットに従って書き出され得る。ストライド・パラメータが使用される場合、ストライドの最初の値が、続いてストライドに対応する数の次の要素がメモリに書き込まれ得、次いで、値のそれぞれがただ１つのサイクルでメモリに書き込まれ得るように、次の値のセットをメモリ・バンクに書き込むのに、ライン・ピッチが適用され得る。同様に、読取り動作中に、データが転置ストアに従って構成又は書き出されている場合、ＩＳＡは、開始アドレス、ロード・タイプ（たとえば、ストライド・パラメータの有無にかかわらず、転置ロード）、ライン・ピッチの値（たとえば、Ｋの値）、及びストライド・パラメータ値（たとえば、バイト、ハーフワードなどのデータ・タイプのインジケータ）を受信することができる。ＩＳＡは、次いで、ただ１つの読取りサイクルでデータの１つの列（又は複数の列）を取得するために、転置ロード命令（及び／又はストライド・パラメータ）に従って、様々なメモリ・バンクからデータにアクセスすることができる。このようにして、各メモリ・バンクから１つの要素を取得することにより、ただ１回の読取り動作によって、シングル・ベクトルが戻され得る。

ここで図４Ｃ～図４Ｄを参照すると、本明細書で説明される方法４２０及び４３０の各ブロックは、ハードウェア、ファームウェア、及び／又はソフトウェアの任意の組合せを使用して実行され得る、コンピュータ処理プロセスを含む。たとえば、様々な機能は、メモリにストアされた命令を実行するプロセッサによって実行され得る。方法４２０及び４３０はまた、コンピュータ記憶媒体にストアされた、コンピュータが使用可能な命令として具現化され得る。方法４２０及び４３０は、いくつか例を挙げると、独立型アプリケーション、サービス若しくはホステッド・サービス（独立型の、又は別のホステッド・サービスとの組合せ）、又は別の製品へのプラグインによって提供され得る。方法４２０及び４３０は、本開示のＳＩＭＤアーキテクチャに関して説明されているが、本明細書で説明されているものを含むが、これに限定されるものではない任意の１つのシステム又はシステムの任意の組合せによって実行され得る。

図４Ｃは、本開示のいくつかの実施例による、ストライド・パラメータを使用して転置ストア動作を設定する方法４２０の流れ図を含む。方法４２０は、ブロックＢ４０２において、マトリックスの大きさを判断するステップを含む。たとえば、マトリックスの幅が判断され得る。

方法４２０は、ブロックＢ４０４において、大きさに基づいて、マトリックスをストアするためのストライド・パラメータ及びライン・ピッチを判断するステップを含む。たとえば、ライン・ピッチは、１６Ｋ＋ストライド値を使用して判断され得、ストライド値は、マトリックスの幅に基づいて判断され得る。

方法４２０は、ブロックＢ４０６において、ストライド・パラメータ及びライン・ピッチを使用して、マトリックスの値をメモリにストアするステップを含む。たとえば、ライン・ピッチ及びストライドが判断されると、メモリからマトリックスの値を読み取るときに、ライン・ピッチ及びストライド・パラメータ値がバンクの競合をもたらすことのないように、マトリックスの値がメモリにストアされ得る。

ここで図４Ｄを参照すると、図４Ｄは、本開示のいくつかの実施例による、ストライド・パラメータを使用して転置ストア動作を設定する方法４３０の流れ図を含む。方法４３０は、ブロックＢ４０８において、複数のメモリ・バンクのうちの１つのメモリ・バンク内の、ライン・ピッチ及び開始メモリ・アドレスを表すデータを受信するステップを含み、開始メモリ・アドレスは、配列の列に対応する、複数の要素のうちの１つの要素に対応する。

方法４３０は、ブロックＢ４１０において、ただ１回の読取り動作で、複数のメモリ・バンクから複数の要素を読み取るステップを含み、複数の要素のうちの各要素は、少なくとも部分的にライン・ピッチに基づいて、複数のメモリ・バンクのうちのそれぞれのメモリ・バンクから読み取られる。

ただ１つの命令での、並べ替え（ｐｅｒｍｕｔｅ）及びゼロ挿入を含むロード
従来のプロセッサ命令セットでは、ロード命令は、何らかのインデックスづけ計算によってメモリ・アドレスを形成し、ローカル・メモリから要求されたメモリ・データを読み取り、メモリ・データをレジスタに置くことができる。アプリケーションで追加のデータ操作が必要な場合、追加の命令を使用して、レジスタ内のメモリ・データに対して演算することができる。場合によっては、データ演算に、単純なデータ再構成が含まれ得る。従来のプロセッサでは、レジスタ・ファイルでの、この単純なデータ操作でさえ、追加の命令が必要であり、そうするとレイテンシが増える。たとえば、従来のシステムでは、データをロードし、ロードされたデータに対して置換を実行し、次いで再構成されたデータを使用して１つ又は演算を実行することができる。このデータを再構成する能力によってロード命令が強化されると、処理時間がいくらか節約され得、計算カーネルがより高い性能及びより低い電力消費で実行され得る。

これらの欠点を考慮して、本開示のシステム及び方法は、ローカル・メモリにメモリ・アドレスと共に並べ替えパターンを送信する、並べ替え命令を含むロードを追加する。その結果、位置がずれているロードを扱うために使用される、既存のデータのルーティング及び多重化を使用して、大量の追加の論理機構なしに、置換を実行することができる。さもなければ費やされるはずである命令、たとえば、ダブル・ベクトル入力及びダブル・ベクトル出力の並べ替えを実行するのに用いられる、５つの命令を節約することに加えて、並べ替え演算の全体的なレイテンシが低減され得る。たとえば、ロードから使用するまでのレイテンシ及び計算のレイテンシ（たとえば、置換を実行するため）ではなく、ロードから使用するまでのレイテンシが、唯一のレイテンシである。いくつかの実施例では、本明細書で説明される並べ替え及び／又はゼロ挿入を含むロードは、図１３Ａ～図１３Ｄの例示的な自律型車両１３００、図１４の例示的なコンピュータ処理デバイス１４００、及び／若しくは図１５の例示的なデータ・センタ１５００の構成要素、特徴、及び／若しくは機能に含まれ得るか又はそれらと同様であり得る。

したがって、置換フィーチャを含むロードは、メモリからロードされたデータを、演算するために、所望のフォーマットへ操作するのに有用であり得る。実例として、様々なフィルタ処理及びドット積命令に必要な係数データには、ロード及び置換によって実施され得る特定の繰返しパターンが含まれ得る。図３Ｃに関して説明されたようなフィルタ処理演算に関して、係数０、１、２、及び３は、たとえば、図５Ａに例示されているように、ベクトル幅（たとえば、１６ビット）にわたって繰り返され得る。かかる実例では、最初のレジスタへの書き出しはＤ［０］～Ｄ［１５］で開始でき、次いで、スライディング・ウィンドウ４を使用して、次のレジスタをＤ［０］～Ｄ［１９］で開始することができ、以下同様である。このフィルタ処理の実例では、係数Ｃ［０］～Ｃ［３］がベクトル幅にわたって繰り返され得るため、置換を含むロードは、データのすべてをロードし、次いで、置換を実行し、次いで、ベクトルをレジスタに書き込むのではなく、ロードから直接この順序で係数を書き込むときに有用であり得る。したがって、この実例では、係数データの置換パターンには、｛０，１，２，３，０，１，２，３，０，１，２，３，０，１，２，３）が含まれ得る。この同じ実例では、データ・オペランドの置換パターンは、｛０，１，２，３，４，５，６，７，８，９，１０，１１，１２，１３，１４，１５，４，５，６，７，８，９，１０，１１，１２，１３，１４，１５，１６，１７，１８，１９｝であり得る。したがって、データ・オペランド及び係数オペランドは、順番に読み出されて、次いで計算するためにレジスタに書き込まれる前に並べ替えられるのではなく、置換順序に従って読み出され得る。図５Ｂに例示されているような別の実例として、フィルタ処理命令には、ダブル・ベクトルの係数オペランドが含まれ得、したがって、｛０，１，２，３，０，１，２，３，０，１，２，３，０，１，２，３，４，５，６，７，４，５，６，７，４，５，６，７，４，５，６，７｝などの置換パターンが含まれ得る。並べ替えパターンは、静的若しくは固定であってもよく、又は並べ替えパターンを柔軟且つ動的にすることが可能となるように、動作中にアルゴリズム的に計算されてもよい。パターンが、繰り返されるパターンである場合、繰り返される要素の第１のインスタンスがロードされ、次いで、複製され、実施例では次いで、ＳＩＭＤユニットのＳＩＭＤレーンに書き出され得る。

場合によっては、メモリ・データの特定の部分をゼロの値にマスクすることが好ましい場合がある。たとえば、ソフトウェア開発における視覚化をより容易にするため、又は消費エネルギーをより少なくするために（たとえば、不規則なデータ値を残す場合と比較して）、未使用のエントリにゼロが挿入され得る。他の実例では、データの各チャンクの長さが固定されていない場合など、データ構造体のデータのチャンクを画定するために、ゼロが挿入され得る。かかる実例では、ゼロの値は、２つのデータ・チャンク間のギャップを示すことができる。一定サイズの画像パッチを処理するときに、たとえば、各画像パッチからいくつかの可変長情報（たとえば、特徴点の位置）が抽出される場合、ゼロを使用して、抽出された情報に対応しないデータの残りをパディングすることができる。

実際には、置換インデックスには通常、読み出される情報に、たとえば、０～３１又は０～１５の範囲においてそれぞれ、３２個又は１６個の要素が含まれ得る。読み出される情報にゼロの値を含めるために、デスティネーション・レジスタの対応するレーンにゼロを書き込むために、負のインデックス値が、並べ替え演算を含むロードに含まれ得る。したがって、書込み動作中に、たとえば、ＳＩＭＤアーキテクチャの対応するレーンに、ゼロではなくて負の値が書き込まれ得る。

一実例として、幅３０×高さ３０の画像パッチは、１度に１６個の連続したエントリを使用するベクトル演算によって処理され得る。幅３０は１６で割り切れないので、各行は、２回のベクトル演算で処理され、１回目は１６エントリの完全なベクトル幅を処理し、２回目は１４エントリの部分的なベクトル幅を処理し得る。かかる実例において、２回目の１４エントリのベクトルのロードが、現在メモリに存在し得る不規則なデータ値の代わりに、最後の２つのベクトル・レーンを埋めるためにゼロでパディングされることは、有益であり得る。

１つ又は複数の実施例では、ＳＩＭＤアーキテクチャの所望のレーン位置に、たとえば、さもなければこのレーン位置にゼロを書き込むのに必要な処理時間を節約するために、パディングされるゼロが挿入され得る。１６レーンが存在する場合、通常の置換パターンは１６レーンのインデックス、たとえば０～１５で構成され得る。かかる実例では、｛１００，１０１，１０２，１０３，１０４，１０５，１０６，１０７，１０８，１０９，１１０，１１１，１１２，１１３，１１４，１１５｝の値が存在し、置換パターンとして与えられるインデックスは｛０，１，２，３，４，５，６，７，８，９，１０，１１，１２，１３，－１，－１｝である場合、最終的にデスティネーション・レジスタにロードされる値は｛１００，１０１，１０２，１０３，１０４，１０５，１０６，１０７，１０８，１０９，１１０，１１１，１１２，１１３，０，０｝となる。したがって、２つの－１の値は、負の値を含む置換パターンに基づいて、デスティネーション・レジスタで自動的に０に変換される。以前の手法では、－１、－１にはそれぞれ１４、１５が含まれ、メモリの１４、１５の値が、レジスタに書き出されることになる。しかしこれには、０の値を含む場合と比較して追加の処理時間が必要となる可能性がある、不規則な値が含まれ得る。

置換フィーチャを含むロードを実施するために、メモリ論理機構でのルーティング及び多重化、たとえば、位置合わせされていないメモリのロードを実行するために使用されるのと同様のルーティング及び論理機構が、使用され得る。たとえば、任意の１６ビット・アドレスからの全メモリ幅（たとえば、３２×１６ビット）（又は任意の３２ビット・アドレスからの１６×３２ビット・レーン）のロードをサポートするために、メモリ論理機構には、任意のデスティネーション・レジスタ・レーンにルーティングするために、メモリ・データの３２レーンのいずれかを選択する、多重化論理機構が含まれ得る。たとえば、位置が合っていないメモリのロードでは、論理機構は、下記のように駆動され得る。

実施例では、レーンの総数は、モジュロ演算子（％）を使用してラップ・アラウンドされ得る。したがって、たとえば、開始レーンがレーン３である場合、レーン３，４，５，・・・，３１，０，１，２が、レジスタ・レーンへの出力として使用されることになる。

置換フィーチャを含むロードでは、この同じ論理機構が実質的に再利用され得るが、置換演算を実行するために、修正された論理機構が含まれ得る。修正された論理機構の実例が、下記に含まれる。

一実例として、図５Ｃに関して、クロスバー５１０（たとえば、クロスバー・スイッチ）を備えたハードウェア構造体５００（ＶＰＵ、ＳＩＭＤユニット、ＳｏＣ、又は他のデバイス・タイプの一部として含まれ得る）を使用して、メモリ５１２の任意の位置からデータを取り出し、それぞれのマルチプレクサ（ｍｕｘ）５１４Ａ～５１４Ｎを介して、ＳＩＭＤ内の任意のレーンにデータを駆動することができる。このようにして、１６個の入力（又は他の幅のメモリ又はレジスタ）のいずれかを、１６個の出力位置又はレーンのいずれかに書き込むことが可能であり得る。これは、位置が合っていないアクセスのときに役立つ場合があり、これによりロード動作は、任意のアドレスから開始し、次いで下流で整列され得る。たとえば、メモリ内のデータが位置２～１８から読み取られる場合、データは２～１８から読み出されるが、レーン０～１６に位置合わせされ得る（たとえば、２がレーン０へ行き、３がレーン１へ行き、以下同様である）。これは、０、１６、３２などの１６の倍数の位置でベクトルのロードを開始する必要がある、従来のシステムでは不可能であった。任意のメモリのインデックスからのデータが、図５Ｃのこの構造体内では、たとえばＶＰＵのＳＩＭＤユニットの任意のレーンに出力され得るときに、置換も完了され得る。マルチプレクサ５１８を使用して、レーンごとに並べ替え制御を導入又は挿入し、開始位置（位置合わせされているか、又は位置がずれている場合がある）及び並べ替えパターンに基づいて、どのメモリ位置からデータを読み取るかを、クロスバー５１０のマルチプレクサ５１４に通知することができる。したがって、位置合わせされた位置から単にデータを引き出すのではなく、並べ替えパターンを使用して、各マルチプレクサ５１４が適切なデータをＳＩＭＤユニットのレーンのそれぞれに送信するように、メモリ読取り位置を更新することができる。加えて、マルチプレクサ５１６を使用して、並べ替えパターンに対して、負の値又はゼロ挿入を示す他の値（たとえば、負の値以外の値を使用して、ゼロ挿入が行われる場合）を含む、ゼロを挿入することができる。したがって、メモリ・アクセス位置がマルチプレクサ５１８からクロスバー５１０に送信され、メモリ・アクセスからの値がゼロ挿入のためにマルチプレクサ５１６に送信されると、並べ替えパターンの負の値に相当する値が、それぞれのＳＩＭＤレーン用の値をパディングするために、ゼロの値に変換され得る。図５Ｃには４セットのレーン、マルチプレクサ、及びメモリ・インデックスしか示されていないが、これは限定することを意図するものではなく、本開示の範囲から逸脱することなく任意の数のセットが含まれ得る。

図５Ｄは、ハードウェア・アーキテクチャ５００の例示的な使用法を示している。たとえば、図５Ｄの例示は、以下の情報に基づき得る。

加えて、以下のＣのコードは、図５Ｃ及び図５Ｄのハードウェア・アーキテクチャの論理回路を表すことができる。

したがって、図５Ｄの実例では、マルチプレクサ５１８のビット値１は、ロード並べ替えの値を選択する必要があることを示すことができ、これらの値｛３，１，３，・・・，２｝は、クロスバー５１０のそれぞれのマルチプレクサ５１４に伝送され得る。したがって、｛１０３，１０１，１０３，・・・，１０２｝の値は、メモリから読み出されてマルチプレクサ５１６に送信され得、並べ替えパターンには３番目の値に－１が含まれ得るので、１０３の値が、ゼロ挿入によって０に変換され得る。したがって、最終値｛１０３，１０１，０，・・・，１０２｝が、ベクトル・レジスタに読み戻され得る。

ここで図５Ｅを参照すると、本明細書で説明される方法５５０の各ブロックは、ハードウェア、ファームウェア、及び／又はソフトウェアの任意の組合せを使用して実行され得る、コンピュータ処理プロセスを含む。たとえば、様々な機能は、メモリにストアされた命令を実行するプロセッサによって実行され得る。方法５５０はまた、コンピュータ記憶媒体にストアされた、コンピュータが使用可能な命令として具現化され得る。方法５５０は、いくつか例を挙げると、独立型アプリケーション、サービス若しくはホステッド・サービス（独立型の、又は別のホステッド・サービスとの組合せ）、又は別の製品へのプラグインによって提供され得る。加えて、方法５５０は、実例として、図５Ｃのハードウェア構造体に関して説明されている。しかし、この方法５５０は、追加的又は代替的に、本明細書に説明されているものを含むがこれに限定されるものではない、任意のシステム、構造体、若しくは構成要素、又はシステム、構造体、若しくは構成要素の任意の組合せによって実行され得る。

図５Ｅは、本開示のいくつかの実施例による、並べ替え演算を含むロードを実行する方法５５０を示す流れ図である。方法５５０は、ブロックＢ５０２において、メモリからデータをロードする並べ替えパターンを判断するステップを含む。たとえば、並べ替えパターンは静的であってもよく、又は動的に計算されてもよい。並べ替えパターンは、位置合わせされた（たとえば、０から１６又は０から３２）、位置がずれている（たとえば、２から１８）、繰り返す（たとえば、０，１，２，３，０，１，２，３，・・・以下同様）、及び／又は別のパターン・タイプであり得る。

方法５５０は、ブロックＢ５０４において、少なくとも部分的に並べ替えパターンに基づいて、複数のレーンのうちの各レーンのメモリ・アドレス位置を判断するを含む。たとえば、並べ替えパターンは、特定のレーン又はレジスタに向けたデータを、どのメモリ・アドレス位置からロードする必要があるかを示すことができる。並べ替えパターンは、並べ替えパターンに従って適切なメモリ・アドレスがクロスバー５１２に送信されるように、マルチプレクサ５１８を使用して実装され得る。

方法５５０は、ブロックＢ５０６において、メモリ・アドレス位置に少なくとも部分的に基づいて、複数のレーンのうちの各レーンに値をロードするステップを含む。たとえば、メモリ・アドレス位置に基づいて、クロスバー５１２におけるマルチプレクサ５１４は、１つ又は複数のベクトル・レジスタ内の１つ又は複数のレーンに書き込むために、メモリから対応する値を取得することができる。いくつかの実施例では、マルチプレクサ５１６はまた、並べ替えパターンの負の値（又はゼロでパディングすることを示す他の値）に関連する値を、ゼロに変換するために使用され得る。したがって、１つ又は複数の負の値が並べ替えパターンに含まれている場合、メモリからロードされた値は、ベクトル・レジスタに書き込まれる前に、ゼロに変換され得る。

方法５５０は、ブロックＢ５０８において、値及び少なくとも１つの命令を使用して、複数のレーンのうちの各レーン内で、１つ又は複数の演算を実行するステップを含む。たとえば、ＳＩＭＤユニットのベクトル・レジスタ又は処理レーンが入力されると、１つ又は複数の演算、たとえば算術命令、論理命令、シフト／回転命令、ビット演算命令、比較命令、変換命令、定数生成命令、及び／又は類似のものが、１つ又は複数の処理レーンに対応する１つ又は複数の処理ユニットを使用して、実行され得る。

テーブル・ルックアップを実行する、ブレンディングを含む複数ポイント・ルックアップ
ベクトルＳＩＭＤ計算する従来のプロセッサでは、ローカル・メモリに、ベクトルＳＩＭＤのビット幅と一致するビット幅が含まれ得る。結果として、こうしたプロセッサは、一般に、ビット幅に対応する読取り及び／又は書込みの位置合わせ及び粒度しか、サポートすることができない。しかし、テーブル・ルックアップは、たとえば、デジタル信号処理（ＤＳＰ）、及び様々な非線形関数を実装するような、組込み環境のコンピュータ・ビジョンにおいて、一般的な技法である。たとえば、平方根、対数、正弦関数及び余弦関数では、テーブル・ルックアップを実行する必要があり得る。これらの機能を実行するために、入力空間が、１次元（１Ｄ）グリッドで均等にサンプリングされ得、出力が、これらの入力ポイントで１Ｄのテーブルに記録され得る。しかし、非線形関数がテーブル・ルックアップで実施される場合、テーブルのサイズ（たとえば、テーブルのエントリ数）と精度との間に、トレードオフが生じることが多い。大きなテーブル・サイズを必要とせずに精度を向上させるために、補間ルックアップが実行され得、線形補間では、２ポイントを小数インデックスの周囲でルックアップし、又は２次補間では、３ポイントを分数インデックスの周囲でルックアップする。

実例として、正弦関数がルックアップ・テーブルを使用して実施され、正弦の値が整数の度数で表にされる場合、ｔａｂｌｅ［０］＝ｓｉｎ（０度）、ｔａｂｌｅ［１］＝ｓｉｎ（１度）、ｔａｂｌｅ［２］＝ｓｉｎ（２ｄｅｇ）であり、以下同様である。かかる実例では、評価がｓｉｎ（１．７度）である場合、ｔａｂｌｅ［１］＊０．３＋ｔａｂｌｅ［２］＊０．７として小数を使用して、２つの整数の度数のエントリ間で線形に補間が行われ得る。この実例では、ｔａｂｌｅ［２］である第２のエントリは、小数を重みとして受け取り、第１のエントリは１から小数を引いたものを受け取り、したがって、小数が１．０に、すなわち第２のエントリが対応する位置により近いほど、第２のエントリは一層大きく重みづけされる。

別の実例として、画像又は画像のパッチが再サンプリングされ得、これは、ある小数のピクセル座標の周囲の利用可能なピクセルをルックアップし、次いで、補間ルックアップを実行することを必要とし得る。かかる実例では、テーブルには、画像パッチが含まれ得、２次元であり得る。この場合、双１次補間を実行して、２次元で、それぞれ線形に補間することができる。実例として、位置Ｙ＝５．１、Ｘ＝７．６でのパッチは、下記の計算に従って補間され得る。
（ｐａｔｃｈ［５］［７］＊０．４＋ｐａｔｃｈ［５］［８］＊０．６）＊０．９＋（ｐａｔｃｈ［６］［７］＊０．４＋ｐａｔｃｈ［６］［８］＊０．６）＊０．１
しかし、従来のプロセッサでこのタイプの補間ルックアップを実行すると、各テーブルの値ごとに個別のルックアップを実行する必要があるので、コストがかかる。このプロセスをスピード・アップするために、テーブルの相異なるインスタンスを使用して、同時に任意の数のルックアップを可能にするように、テーブルが複製され得る。たとえば、上記の実例では、５、６、７、及び８でパッチをルックアップする場合、４つのテーブルでの並列ルックアップを可能にするために、テーブルは、少なくとも４回複製され得る。たとえば、ＶＰＵなどのプロセッサが、３２ウェイの並列処理をサポートしている場合、テーブルは、３２回複製され得る。しかし、テーブルを複製するとサイクル当たりのスループットが向上し得る一方で、複製には追加のメモリ容量及び使用量も必要であり、特定の実施態様では使用できないか、又は最適ではない場合がある。

これを考慮して、本明細書で説明されるシステム及び方法は、２ポイント及び／又はツー・バイ・ツー（２×２）ポイントのルックアップ演算を使用して、メモリ空間を節約しながらも、スループットを高める（又は、たとえば、３２ウェイ並列処理のスループットに一致させる）。たとえば、メモリ・バンクごとのアドレス・バス、並びに関連する論理機構及びルーティングを使用して、２ポイント又は２×２ポイント（たとえば、４ポイント）の並列ルックアップが、より少ないメモリ使用量で実行され得る。したがって、テーブルへのただ１回のルックアップで、２ポイント・ルックアップにおける２ポイント、又は２×２ポイント・ルックアップにおける４ポイントが得られ得る。これは、ハードウェアのセット・アップ、たとえば、バンク・アドレス、論理機構、ルーティングなど、及びバンクの競合なしに複数のデータを読み出すことを可能にする、メモリに記憶するパターンに基づいて、実現され得る。上記のような、これらのフィーチャがなければ、たとえば３２ウェイの並列ルックアップを実現させるために、テーブルを３２回複製する必要があろう。たとえば、この３２ウェイの並列ルックアップは、下記のＣのコードを使用して実行され得る。

この実例では、ループのルックアップ部分は、２サイクルの間（ルックアップ及びブレンディングがそれぞれ、メモリ及びベクトルの数学スロット（ｍａｔｈｓｌｏｔ）で実行され、反復ごとに２サイクルにパイプラインされる）、サイクルごとに３２回のルックアップを実行し、３２個の出力を生成するよう補間され得る。したがって、全体にわたるルックアップ／補間は、１サイクル当たり１６出力であり、テーブルを３２回複製する必要がある。

さらなる実例として、図６Ａに関して、インデックス・ベクトル｛０，１，２，３，４，５，４，３，・・・｝で１ポイントのルックアップを実行するための、１６ウェイの並列テーブル構成が示されている。かかる実例では、従来のアーキテクチャ及びメモリ・レイアウト技法を使用して、各メモリ・バンクから２つのエントリを読み取るために、第１のルックアップ及び第２のルックアップを、順番に実行する必要があろう。たとえば、第１のメモリ・バンクＴ０には、ルックアップ演算で読み出されるべきＴ０［０］及びＴ０［１］の値が含まれるが、これらの値は両方とも同じメモリ・バンクＴ０（ただ１つの読取りポートだけを含み得る）にあるので、第１の値Ｔ０［０］が最初のパスで読み取られ、第２の値Ｔ０［１］が続いて起こる２回目のパスで読み取られる。かかるメモリ・レイアウトでは、同じメモリ・バンクで２回の読取りが行われると、バンクの競合が生じ、処理の遅延がもたらされ、且つ／又はアルゴリズム若しくは他の計算が間違って実行される可能性がある。

しかし、本開示のアーキテクチャを使用すると、同じ３２回のルックアップに必要なテーブルの複製が、２ポイントのルックアップではわずか１６回、又は２×２ポイントのルックアップではわずか８回であり得る。たとえば、２ポイントのルックアップでは、わずか１６回のテーブルの複製により、クロック・サイクル当たり１６個の出力の、同じ性能が実現され、したがって、メモリの占有領域が２分の１に低減され得る。命令の１６ウェイ並列の変形例では、第１のエントリがシングル・ベクトルの下位に、第２のエントリがシングル・ベクトルの上位にある、ダブル・ベクトルを返すことができる。Ｃのコードでは、この１６ウェイ並列ルックアップ及び補間は、下記のように表され得る。

かかる実例では、ループのルックアップ及び補間の部分は、ただ１つのクロック・サイクルしか必要とせず（ルックアップ及びブレンディングがそれぞれ、メモリ及びベクトルの数学スロットで実行され、反復ごとに１サイクルにパイプラインされる）、１６個の出力を生成するよう補間され得る。したがって、ルックアップ／補間は、１サイクル当たり１６個の出力である。実例として、図６Ｂに関して、インデックス・ベクトル｛０，１，２，３，４，５，４，３，・・・｝で２ポイントのルックアップを実行するための、８ウェイ並列テーブル構成が示されている。かかる実例では、各メモリ・バンクＴ０、Ｔ１、Ｔ２などに、ルックアップ演算中に読み出されるべき値がただ１つしか含まれていないので、バンクの競合の可能性があるため、２回のパスのそれぞれで、８つの値しか読み出され得ない図６Ａの実例とは違って、１６個の値すべてが、ただ１回のパスで読み出され得る。これを行うために、実施例では、ルックアップのための命令には、インデックス、及びインデックスばかりでなく、インデックスに加えてさらに１つの位置も取得することを含む、パターンが含まれ得る。したがって、命令が、２ポイントのルックアップのための２つの値を読み取らせ、この値が、このフォーマットでルックアップ・テーブルに書き込まれ、バンクの競合なしに、このただ１回の読取りが実行されることを可能にし得る。

一実例として、ベクトル演算を実行するとき、ＶＰＵの各レーンは、メモリから取得されるピクセル値のセットを処理することができる。場合によっては、レーンが、同じメモリ・バンクからの複数の値を処理することがあり、これは、メモリ・バンクにただ１つの読取りポートしか含まれ得ないので、バンクが競合するという結果になり得る。したがって、本開示の方法及びシステムは、バンクの競合が起きないように、メモリ・バンクにわたって値を分散し、たとえば、ＶＰＵのただ１つの処理レーンの値のそれぞれが、ただ１つの読取りサイクルで、対応する各値にアクセスすることができる。

２Ｄの双１次補間ルックアップが実行される従来のシステムでは、テーブルの３２回のコピーにより、クロック・サイクル当たり８個の出力の最適スループットを可能にする、４回のルックアップ（たとえば、２×２）が、出力ごとに必要である。２×２ポイントのルックアップでは、８回のテーブルの複製によって１サイクル当たり８個の出力を実現し（３２回と比較して）、したがって、並列サブテーブルに必要なメモリの占有領域を４分の１に低減することができる。たとえば、２×２ポイントのルックアップでは、２Ｄテーブルの１つの行から２つのエントリが、次いで次の行から２つのエントリが、読み取られ得る。どんなメモリ・バンク内でのメモリ・バンクの競合をも回避するために、２Ｄテーブルのライン・ピッチは、ｍ＊ｋ＋２に制限され得、ここでｍは、水平方向にストアされる各サブテーブルのエントリ数であり、ｋは、テーブルの１つの行にストアするのに十分な任意の整数である。８ウェイ並列１６ビット・テーブルでは、ｍ＝３２（１６ビット・メモリ・ワード）／８（並列処理）＝４である。２ウェイ並列３２ビット・テーブルでは、ｍ＝１６（３２ビット・メモリ・ワード）／２（並列処理）＝８である。

実例として、図６Ｃ～図６Ｄに関して、ライン・ピッチの制限を使用して、メモリの競合を回避することができる。かかる実例では、２×２ポイントのルックアップ用の２ウェイ並列ワード・タイプのテーブルが、ライン・ピッチ１０で示されている。サブテーブル内の連続する要素の数（ｍ）は８で、Ａ［０］［０・・・７］がサブテーブル内に連続して配置され、８ｋ＋２の式に準拠し、ここで、ｋは任意の整数であり得る。したがって、どのインデックス値を使用して開始する場合でも、取得されるべき２×２ポイントは、相異なるバンクに配置され得、これは、数学で保証される。たとえば、サブテーブルに対する２×２ポイントのバンク番号が、下記に概説されている。

全体的に、サブテーブルに対する、ｉｎｄｅｘ％ｍ、（ｉｎｄｅｘ＋１）％ｍ、（ｉｎｄｅｘ＋２）％ｍ、（ｉｎｄｅｘ＋３）％ｍであるバンク番号での、２×２ルックアップによって取得されるべきエントリは４つある。ｍ＞＝４である限り、バンクの競合は生じないはずである。図６Ｃ～図６Ｄの実例では、ルックアップには、ピクセルを行の主たる順序でストアする従来例として、Ｙ、次いでＸを使用する、（０，１）及び（１，３）の２Ｄインデックスが含まれ得る。図６Ｃには、２つの２Ｄテーブルの論理図が例示され、図６Ｄには、テーブルからの値のメモリ・レイアウト図が例示されている。論理図では、例示されているように、ルックアップは２×２であり、メモリ・レイアウト図は、これらの値のそれぞれが、ただ１つのサイクル又はパスで読み出され得るように、それぞれ相異なるメモリ・バンク（又は説明図の相異なる列）にある、４つのポイントを例示している。テーブルからの値は、このようにして、インデックス（たとえば、（０，１）及び（１，３））を使用する命令、及びメモリからただ１回のパスで値のそれぞれを読み取るための読取りパターンに基づいて、メモリにストアされ得る。したがって、このメモリ・レイアウト及び読取り命令を使用すると、サブテーブルごとに４つのエントリが、各サイクルで以下のフォーマットで返され得る。
Ｄｅｓｔｉｎａｔｉｏｎｌｏｗｅｒｓｉｎｇｌｅｖｅｃｔｏｒ：Ａ［０］［１］，Ａ［０］［２］，Ｂ［１］［３］，Ｂ［１］［４］，（ｒｅｓｔｆｉｌｌｅｄｗｉｔｈｚｅｒｏ）
Ｄｅｓｔｉｎａｔｉｏｎｈｉｇｈｅｒｓｉｎｇｌｅｖｅｃｔｏｒ：Ａ［１］［１］，Ａ［１］［２］，Ｂ［２］［３］，Ｂ［２］［４］，（ｒｅｓｔｆｉｌｌｅｄｗｉｔｈｚｅｒｏ）

図６Ｃでは、幅１０要素×高さ３の２つの２Ｄテーブル、たとえば、Ａテーブル及びＢテーブルとして示されているが、これは限定することを意図するものではなく、テーブルは、実施例に応じて、任意の幅及び／又は高さであり得る。同様に、図６Ｄのメモリ・レイアウトには、幅１６要素×高さ３のレイアウトが含まれているが、これは限定することを意図するものではなく、メモリの幅及び／又は高さは、実施例に応じて任意の設定であり得る。

画像パッチをサンプリングするときなどのいくつかの実施態様では、小数のピクセル間の補間が実行され得る。いくつかの実施例では、データを操作するための追加の命令なしにルックアップされた値を補間するために、インタリーブを含むベクトル水平ブレンディング（ＶＨＢｌｅｎｄ＿Ｉ）命令が実行され得、これには、レーンのペアの中でブレンディングするようデータをインタリーブする、水平ブレンディングが含まれ得る。たとえば、この命令によって、ルックアップ後の双１次補間が、同じループ内で実行され得る。この命令は、図６Ｅの表のレイアウトに従って、各レーンのペアを処理することができる。このようにして、Ｙ０及びＹ１の計算は、下記のように計算され得る。
Ｙ０＝ｘ＊（１－ａｌｐｈａ０）＋ｙ＊ａｌｐｈａ０
Ｙ１＝ｚ＊（１－ａｌｐｈａ１）＋ｗ＊ａｌｐｈａ１

したがって、この命令は、レーンのペアｘとｙとの間、及びｚとｗとの間で、水平方向にブレンディングさせることができ、出力を、デスティネーション・レジスタ内で、インタリーブさせることができる。たとえば、以下のＣのコード・セグメントを使用して、２×２ポイントのルックアップを使用した８ウェイ並列テーブルについての、最適な性能を実現させることができる。

サブテーブルがＡ，Ｂ，・・・，Ｈと指定されている、この８ウェイ並列テーブル構成では、ループが、ルックアップ及び補間を実行することができ、反復ごとに１６個の出力が得られる。かかる実例では、入力は、下記のように構成され得る。

この命令の中間及び最終結果の例示的な説明図が、図６Ｆに示されており、これには、データのブレンディング及びインタリーブ・パターンを示す矢印が含まれている。

ここで図６Ｇを参照すると、本明細書で説明される方法６００の各ブロックは、ハードウェア、ファームウェア、及び／又はソフトウェアの任意の組合せを使用して実行され得る、コンピュータ処理プロセスを含む。たとえば、様々な機能は、メモリにストアされた命令を実行するプロセッサによって実行され得る。方法６００はまた、コンピュータ記憶媒体にストアされた、コンピュータが使用可能な命令として具現化され得る。方法６００は、いくつか例を挙げると、独立型アプリケーション、サービス若しくはホステッド・サービス（独立型の、又は別のホステッド・サービスとの組合せ）、又は別の製品へのプラグインによって提供され得る。加えて、方法６００は、本明細書に説明されているものを含むがこれに限定されるものではない、任意の１つのシステム、構造体、若しくは構成要素、又はシステム、構造体、若しくは構成要素の任意の組合せによって実行され得る。

図６Ｇは、本開示のいくつかの実施例による、複数ポイントのルックアップ（たとえば、図９Ａ～図９Ｃに関して説明されるような、分離式ルックアップ・テーブル（ＤＬＵＴ）用アクセラレータでの、ただ１つのクロック・サイクルにおける）を実行する方法６００を示す、流れ図である。方法６００は、ブロックＢ６０２において、第１のメモリ・バンクの第１の物理アドレスの第１の値及び第２のメモリ・バンクの第２の物理アドレスの第２の値を含み、第１の値及び第２の値が、テーブルの論理メモリ図の同じ列に含まれるように、テーブルをメモリに複製するステップを含む。たとえば、テーブルは、システムのメモリ・アクセスの並列処理を利用するために、メモリに何回でも複製され得る。テーブルには、第１の論理アドレスの第１の値、及び第１の値と同じ列の第２の論理アドレスの第２の値が含まれ得、この設定でメモリにストアされると、２つの値が同じメモリ・バンクにストアされ得るので、バンクの競合を引き起こす場合がある。したがって、テーブルをメモリに複製するときに、書込み命令は、２つの値が同じサイクルで取得され得るように、第１の値を、隣り合う、たとえば別のメモリ・バンクの、第１の物理アドレスに、第２の値として書き込むことができる。

方法６００は、ブロックＢ６０４で、メモリ内の第１の物理アドレスに対応する第１のインデックスを判断するステップを含む。たとえば、読取り動作は、値の読取りを開始する、メモリ内の第１の位置を示すインデックスを使用することができる。

方法６００は、ブロックＢ６０６において、複数ポイントのルックアップに対応する読取り命令に少なくとも部分的に基づいて、ただ１つのサイクルの間に、第１の物理アドレスに位置する第１の値及び第２の物理アドレスの第２の値を読み取るステップを含む。たとえば、テーブルをメモリに複製するときに、テーブルは、同じ列又はテーブルにあるポイントのペア（たとえば、同じピクセル列の中のピクセルに対応する）が、別々のメモリ・バンクにストアされるように複製され得る。したがって、相異なるメモリ・バンクにストアされている第１のポイント及び隣り合う第２のポイントを読み取るために、ポイントのペアのうちの第１のポイントのインデックスを使用する、２ポイント・ルックアップの読出し命令を使用して、第１の値及び第２の値が、ただ１つのサイクルで、第１の値をストアする第１のメモリ・バンク及び第２の値をストアする第２のメモリ・バンクから読み取られ得る。この演算は、各テーブルの第１の値を含む高位ベクトル、及び各テーブルの第２の値を含む低位ベクトルを生成するために、複製された各テーブルの値のペアごとに実行され得、これらのベクトルは、出力を生成する命令（たとえば、補間など）に加えて、ＶＰＵのベクトル・レジスタとして使用され得る。

方法６００は、ブロックＢ６０８において、第１の値及び第２の値を使用して、１つ又は複数の演算を実行するステップを含む。たとえば、第１の値及び第２の値は、ＶＰＵの１つ又は複数のレーンにロードされ得、平方根、対数、正弦及び余弦関数が実行され得、線形又は双１次補間が実行され得、及び／又は別の演算タイプが実行され得る。実例として、補間が実行され、テーブルが１６回複製される場合、１６個の２ポイント・ルックアップ演算が実行され、３２個の値、すなわち、ＶＰＵのベクトル・レーンごとに２つの値を生成することができ、各レーンで補間が実行され、１６個の結果を出力することができる。したがって、テーブルのわずか１６回の複製を使用して、サイクルごとに、１６個の補間出力が生成され得る。これは、値を含むテーブルを、従来のただ１ポイントのルックアップ演算のときの半分の回数（たとえば、３２回ではなく１６回）しか複製する必要がなく、半分のメモリ占有領域を使って、同じ３２個の値のスループットを可能にし得る、２ポイント・ルックアップを使用した結果であり得る。

ベクトル・メモリ内のメモリ・バンクごとのロード・キャッシュ
従来のプロセッサでは、データ・キャッシュの幅は、たとえば、キャッシュ・ライン当たり３２バイトであり得る。キャッシュ・ラインは、ハードウェアが追跡し続けるデータの単位である。たとえば、ハードウェアは、すべてのシステム・アドレス、キャッシュ・ラインが書き込まれたかどうか、いつキャッシュ・ラインを削除するかを判断するための、他のキャッシュ・ラインと比較した、そのキャッシュ・ラインが最後に読み取られた時間、などを含む、タグ・メモリ内の、キャッシュ・ラインの使用情報を追跡し続けることができる。いくつかの実施態様では、データ・キャッシュは、ローカル・メモリ又はローカル・メモリの一部であり、外部メモリに一時的にストアされている、より大きなデータ構造体をローカル・メモリにマッピングし、これによりデータを、直接外部メモリを処理すると生じる、長いメモリ・レイテンシを被ることなく処理することができる。従来のデスクトップ又はラップトップ・コンピュータでは、このタイプのデータ・キャッシュが使用されることが多い。

非限定的な実例として、プログラム可能なビジョン・アクセラレータ及び／又はＶＰＵには、高度に最適化されたコードのより小さなセットの実行に向けた、組込み型プロセッサが含まれる。かかるプロセッサのタイプでは、プログラマが、ローカル・データ・メモリの中身を管理できるように、データ・キャッシュが実装されない場合がある。本開示のシステム及び方法には、キャッシュされるのではなく、プログラマが管理するローカル・メモリが含まれ得るが、１つ又は複数の、たとえばそれぞれのメモリ・バンクに、追加のデータ・キャッシングの能力も含まれ得る。このデータ・キャッシュは、たとえば３２バイトを含む、より従来型のデータ・キャッシュと比較して、これに限定されるものではないが１６ビット幅など、狭い場合がある。このデータ・キャッシュは、レイテンシを減らすという従来のデータ・キャッシュの主な目標とは違って、主に電力消費を削減するために使用され得る。

コンピュータ・ビジョン処理において、たとえば、データ・アクセス・パターンは、ある程度の局所性を有することが多い（たとえば、次の近隣に移動する前に、ある近隣にしばらく留まる）。たとえば、本明細書で説明されるＶＦｉｌｔ４ＨＨＷ命令（１度に４タップを計算する）を使用して、７×７の２Ｄフィルタ処理を実行する場合、データ読取りストリームは、３回のメモリ読取りについて近隣から読み取り、次いで、別の近隣に移動してさらに３回読み取り、以下同様であり得る。演算の係数読取りでは、ゼロをパディングされた値の同じ配列が使用され得（たとえば、７＊２＊４＝５６ハーフワード）、４つのハーフワードの最後のグループが読み取られるまで、１度に４つのハーフワードを進め、次いで、フィルタ処理カーネルが完了するまで、再び戻って５６ハーフワード配列の先頭から開始する。

したがって、こうしたローカル・アクセス・パターンを利用し、メモリ・アクセスによる電力消費を減らすために、各メモリ・バンクで、２ウェイのセット・アソシアティブ方式（たとえば、合計６４個のハーフワードを保持する）の、ロード・データ・キャッシングが実施され得る。ロード・キャッシュがイネーブルされると、最後に読み取られた読取りデータのセット（たとえば、最後、最後の２つ、最後の３つ、など）が、行アドレス、及びタグ・メモリで最後に読み取られたエントリと共に、キャッシュに記録され得る。その結果、同じメモリ・アドレスが再度読み取られると、キャッシュ・ヒットする可能性があり、ローカル・メモリからデータを再度読み取る必要がなく、キャッシュがデータを供給することができる。実施例では、ロード・キャッシュは、メモリ・ロギング論理機構とメモリ自体との間の位置にあり得、その結果、キャッシュ・ヒットするときはいつでも、電力を浪費しないために、その特定のアドレス又は値のメモリ読取りが停止されるか、又は行われないようになる。

このキャッシュ構造を使用すると、上記の７×７の２Ｄフィルタ処理の実例に関して、ロード・キャッシュにより、システムが、データ読取りのほぼ３分の２、及び定常状態での係数読取りのほとんどすべてをとばすことが、可能となり得る。各バンクでのデータ・キャッシュの使用法の例示が、図７Ａ～図７Ｃに示されている。たとえば、ＶＦｉｌｔ４ＨＨＷ命令は、場合によってはより大きい、４タップのフィルタ処理タスクを実行することができ、データの２つの単一ハーフワード・ベクトル、たとえば、データ［０～１５］及びデータ［４～１９］と、１６要素のシングル・ベクトルを埋めるために４回繰り返される、係数の１つの単一ハーフワード・ベクトル、たとえばｃｏｅｆ［０～３］とを使い得る。両方のベクトル数学スロットにおいて、ＶＦｉｌｔ４ＨＨＷ命令を使用する７×７の２Ｄフィルタの実施態様では、図７Ａのデータ要素及び係数配列が使用され得る。本開示のＶＰＵは、ダブル・ベクトルを読み取るよう設定され得るので、データ［ｙ］［０～１５］及びデータ［ｙ］［１６～３１］が、ダブル・ベクトルとして読み取られ得る。同様に、ｄａｔａ［ｙ］［４～１９］及びｄａｔａ［ｙ］［２０～３５］、並びにｄａｔａ［ｙ］［８～２３］及びｄａｔａ［ｙ］［２４～３９］が、ダブル・ベクトルとして読み取られ得る。したがって、データ及び係数の読取りパターンはそれぞれ、データのライン・ピッチが１００であり、係数のライン・ピッチが８であると仮定して、図７Ｂ～図７Ｃのものに対応することができる。

図７Ｄは、メモリ・バンクの構成を例示している。たとえば、２エントリのフル・アソシアティブ方式のキャッシングは、任意のスーパーバンク内のデータの２箇所分を保持し、データ及び係数が、相異なるスーパーバンクに配置され、キャッシングを効果的に機能させることができる。係数読取りにおいて、バンク０～３は、最初に係数要素０～３を保持することができ、要素３２～３５を追加し、次いで、要素６４～６７を読み取ることで、要素０～３が削除されることになり、パターンが繰り返されるので、要素０～３は、次の係数読取りのときに、再度読み取らなければならない。ロード・キャッシュがイネーブルされている定常状態では、係数読取りパターンのスィープごとに、４つのバンクだけが読み取られ得る。その結果、データにロード・キャッシュを使用することにより、メモリ・バンクの読取りは、（３＊３２－（３２＋４＋４））／（３＊３２）＝５８．３％の節約となり得、係数では、（１４＊１６－４）／（１４＊１６）＝９８．２％の節約となり得る。

したがって、スライディング・ウィンドウを用いるコンピュータ・ビジョンのアルゴリズムなど、特定のアルゴリズムでは、ロード・キャッシュが、電力を浪費しないようにするのに有用であり得る。たとえば、ロード・キャッシュがない場合、データの多くが同じであるにも関わらず、各バンクを各サイクルで読み取る必要があろう。各反復で５１２ビットが読み出される実例では、最初の５１２ビットが読み出され得、次いで、別の５１２ビットが読み取られ得、以下同様である。たとえば、スライディング・ウィンドウがわずか８バイトしかない場合、各反復で新しいのは６４ビットだけで、残りの４４８ビットは同じである。データ・キャッシュがない場合、この４４８ビットをデータ・バンクから再度読み出す必要があろう。しかし、メモリ・バンクごとにデータ・キャッシュを使用すると、この４４８ビットはロード・キャッシュから引き出すことができ、新しい６４ビットだけを、他のメモリ・バンクから読み出す必要があろう。したがって、メモリ・バンクから４４８ビットを読み取るのに必要な電力が、節約される。ロード・キャッシュの使用によって恩恵を受け得るアルゴリズムの実例は、空間フィルタ処理演算、深層学習推論演算（畳込み演算など）、及び／又は類似のものである。

図７Ｅに関して、ロード・キャッシュを備えたメモリ・バンクのハードウェア・アーキテクチャ又は論理機構が例示されている。たとえば、メモリ（たとえば、ベクトル・メモリ（ＶＭＥＭ））の位置ずれアクセスのサポートに関して、スライディング・ウィンドウでのデータ・アクセスが高速化され得る。これは、フィルタ処理及び畳込みを含む、多くのコンピュータ・ビジョンのアルゴリズムの、重要なメモリ・アクセス・パターンである。スライディング・ウィンドウでのベクトル・ロードでは、ランダム・アクセス・メモリ（ＲＡＭ：ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）バンク７０２からのデータのほとんどが、同じままである。かかる実例では、６４Ｂのベクトル・ロードにおいて４Ｂだけスライドする場合、データのうちの４Ｂだけが変化するので、新しいデータの４Ｂ分だけがＲＡＭバンク７０２から読み取られる。ＶＭＥＭＲＡＭの電力を最適化するために、「ロード・キャッシュ」と呼ばれる小さなキャッシュが、スーパーバンクごとに、各バンクに取り付けられ得、合計３つのスーパーバンク×３２個のバンク＝ＶＭＥＭごとに９６個のロード・キャッシュとなる。ロード・キャッシュのそれぞれの設定には、非限定的な実施例では、２ライン（２×２Ｂ＝４Ｂ）の容量、フル・アソシアティブ方式、及び疑似の最近最も使用されていない（ｐＬＲＵ：ｐｓｅｕｄｏｌｅａｓｔｒｅｃｅｎｔｌｙｕｓｅｄ）置き換えポリシが含まれ得る。

データ・キャッシュが最新のアクセスをストアする場所は、タグ記憶部７０６及びデータ記憶部７０４の２つの部分に分割される。タグ記憶部７０６では、以前のアクセスに対応するキャッシュされたアドレス及び制御情報がストアされ得、データ記憶部７０４では、以前のアクセスによるデータがストアされ得る。タグ記憶部７０６の制御情報には、有効フラグ（たとえば、エントリが有効であるかどうか）、ダーティ・フラグ（たとえば、エントリが修正されており、メモリに書き戻す必要があるかどうか）、及び／又は最終使用フラグ（たとえば、エントリが最近最も使用されていないポリシと置き換えられるべき場合に、どのエントリを置き換えるかを示す）が含まれ得る。キャッシュはロード・キャッシュであるので、書込みデータはキャッシュを更新しない場合があるが、有効フラグ及び最終使用フラグが、タグ記憶部７０６に含められ得る。有効フラグ又はビットを使用して、アドレスの一致に条件を加えることができ、どんな書込みも、エントリを無効にするはずである。アクセスするたびに、最終使用フラグが更新され得る。

本明細書で説明されているように、効果的なキャッシング方式の場合、アクセス時間を削減し、電力を節約するために、ロード・キャッシュの記憶能力は、メモリ又はＲＡＭバンク７０２の記憶能力よりもはるかに低い。一実施例では、各ロード・キャッシュは、ただ１つのＲＡＭバンク７０２に対応することができ、ＲＡＭバンク７０２は、それぞれ、２０４８×１６ビット・メモリであり得、ロード・キャッシュは、それぞれ、２３ビットのタグ記憶部７０６（たとえば、２エントリ×（１１ビットのアドレス＋１ビットの有効）＋１ビットの最終使用））を備えた２×１６ビットのデータ記憶部７０４であり得る。

演算中、オフセット７２２、ライン・アドレス７２４、及び刻み幅７２６を使用して、メモリ・アクセスのためのメモリ・アドレスを生成することができる。このメモリ・アドレスは、タグ記憶部７０６と比較するために、たとえば、いくつかの以前にアクセスしたアドレス（たとえば、２つの以前のアクセス）と比較するために、取り出され得る。タグ記憶部７０６の上部への矢印は、メモリ・アドレスを表すことができる。いくつかの実施例では、タグ記憶部７０６は、以前のアクセスによってストアされたメモリ・アドレスと比較するために、メモリ・アドレス全体を使用することができる。他の実施例では、メモリ・アドレスからのアドレス・ビットのサブセットを使用して、タグのサブセットをアドレス指定することができるので、タグのサブセットだけが、メモリ・アドレスと比較される。たとえば、より多くの以前のアクセス・タグがタグ記憶部７０６にストアされる場合、面積を削減し、電力を節約するために、メモリ・アドレス・ビットのサブセットを使用して、タグのサブセットだけが比較され得る。２つの以前のアクセスに対応するタグなど、タグがより少ないロード・キャッシュ設計では、以前のエントリのタグ全体が、メモリ・アドレス全体と比較され得る。「＝＝？」判断ブロック７２０は、ＲＡＭバンク７０２の現在のメモリ・アドレスを、タグ記憶部７０６にストアされているアドレスと比較する。ミスがあった（たとえば、タグとメモリ・アドレスとが一致しない）場合、ＲＡＭバンク７０２の読取りは、読取りイネーブル７０８を使用してイネーブルされ得、読取りデータ・マルチプレクサ（ｒｄｄａｔａｍｕｘ）７１２、ＲＡＭバンク７０２は、多段化フロップ（ｓｔａｇｉｎｇｆｌｏｐ）７１６に送信するために、選択されて読み出され得る。ヒットがあった場合（たとえば、タグとメモリ・アドレスとが一致した場合）、データ記憶部７０４は、ヒットが、どの事前のアクセスに対応するかを示すために、０又は１（２つのエントリの実施例では）を使ってアドレス指定され得る。データ・メモリの対応するエントリは、ｒｄｄａｔａｍｕｘ７１２を介して多段化フロップ７１６に送信され得る。多段化フロップ７１６は、読戻しデータをプロセッサ・パイプラインに返し、最終的にロード命令のデスティネーション・スカラ又はベクトル・レジスタにルーティングされ得る。

多段化フロップ７１４は、パリティ・チェックに対応することができる。たとえば、エラー検出及び／又はエラー訂正を可能にする、パリティ・ビット（たとえば、パリティ・ターミナル７１０の）を有するために、十分な大きさのメモリが必要となり得る。メモリ（たとえば、ＶＭＥＭ）において、エラー検出が使用され得、及び／又はエラー訂正の論理が、読戻しデータ上で実施され得る。

したがって、ロード・キャッシュには、ウェイ０及びウェイ１のタグ記憶部７０６のタグ・ビットが含まれ得、タグ・ビットのそれぞれには、１１ビットのアドレス及び１ビットの有効ビットが含まれ得る。ロード・キャッシュには、１ビットのｐＬＲＵ、及びそれぞれが１６ビットのデータ及び２ビットのパリティを含む、ウェイ０及びウェイ１のデータ記憶部７０４のデータ・ビットがさらに含まれ得る。ロード・キャッシュは、イネーブルされると、Ｄ１ステージにおいてルックアップされ得る。電力消費量を最小限に抑えるために、ロードに関与しているＲＡＭバンク７０２のロード・キャッシュだけが、イネーブルされ得る。たとえば、単一のベクトルのロードでは、３２個のロード・キャッシュのうちの１６個だけがルックアップされ得る。ロードのヒット時には（たとえば、ロード・キャッシュが、アクセスされるべきデータを含んでいる場合）、所与のＲＡＭバンク７０２の読取りイネーブルが抑制され、これによりＲＡＭバンク７０２の立上げを止めることができる。ｐＬＲＵ７２０はまた、Ｄ１ステージで更新され得る。Ｄ２ステージでは、データ及びパリティ・ビットがロード・キャッシュのヒットしたウェイから読み取られ、ＲＡＭの結果と多重化され得る。

ロード・キャッシュのミスの場合、Ｄ１ステージで、ビクティムが生じるウェイにおいて、新しいエントリ用の空きを作るために削除されるべき既存のエントリが、有効なビット及びｐＬＲＵに基づいて判断され得る。次いで、ビクティムが生じるウェイのタグが、ミスのアドレスで更新され得、ＲＡＭバンク７０２の読取りイネーブル７０８は、抑制され得ない。Ｄ２ステージでは、ＲＡＭバンク７０２からのデータ／パリティが、読取りデータのクロスバーに送信されるばかりでなく、データを、削除されたキャッシュ・ラインに埋める。ストアは、イネーブルされて関与しているときに、ロード・キャッシュをルックアップすることもできる。ストアのヒットにより、ヒットされたウェイは無効となり得、ストアのミスは、無視され得る。

ロード・キャッシュがヒットすると、ＲＡＭバンク７０２を読み取るための電力が節約される。一方、ロード・キャッシュのミスは、ＲＡＭバンク７０２を読み取ることで生じる電力をもたらすだけでなく、ビクティムが生じたウェイを埋めるためにロード・キャッシュをルックアップする電力も消費する。すべてのタイプのメモリ・アクセス・パターンが、特に、インデックス付きアドレス指定モードでスーパーバンクにアクセスする場合に、ロード・キャッシュで高いヒット率を得るわけではないので、ベクトル線形ロードだけが、ロード・キャッシュでルックアップされ得る。

すべてのストアが、イネーブルされると、ロード・キャッシュでルックアップされ、ロード・キャッシュが確実に、たとえばＶＭＥＭＲＡＭバンク７０２のデータと、同期が外れないようにすることができる。所与のスーパーバンクについて、ロード・キャッシュの低いヒット率が予測されるアプリケーションでは、ストアのルックアップによる電力を最小限に抑えるために、下記でより詳細に説明されるように、ソフトウェアを使用して、そのスーパーバンクのＲＡＭバンク７０２のロード・キャッシュを、無効にすることができる。

たとえば、いくつかの実施例では、データ・キャッシュの使用が恩恵を与えない場合がある。たとえば、アクセス・パターンが繰り返されない演算では、データ・キャッシュが有用でない場合があり、読取り前にキャッシュをチェックする余分なタスクを実行すると、適切なデータにアクセスするために、データ・バンクを読み取る必要があり得るので、時間及び／又はエネルギーを浪費する可能性がある。したがって、ロード・キャッシングをイネーブル又はディスエーブルすることができ、これにより、ロード・キャッシュのミス率が高いアクセス・パターンによる電力ペナルティを低減させることができるが、データ・キャッシュが電力を節約するために使用され得るアクセス・パターンに対して、ロード・キャッシュを使用することもできる。いくつかの実施例では、イネーブル又はディスエーブルは、アプリケーション・コードを使用してプログラミングされ得るので、プログラマは、所望のときにデータ・キャッシュをイネーブルし、望ましくないときにデータ・キャッシュをディスエーブルするように、コードをプログラミングすることができる。他の実施例では、イネーブル又はディスエーブルは、読取りパターンを分析し、オーバラップするパターンを検出するハードウェアによって実行され得る。たとえば、ハードウェアが、連続する読取り動作間のオーバラップの閾値量に関して、ロード・キャッシュをイネーブルすることができる。しかし、オーバラップが閾値よりも少ない場合は、ロード・キャッシュはディスエーブルされ得る。閾値は、非限定的な実例として、２５％、４０％、５０％、７５％、又は読取り間の様々なオーバラップの閾値量であり得る。

図７Ｅに関して、ロード・キャッシュがディスエーブルされているとき、タグ記憶部７０６にアクセスすることはできず、読取りイネーブル７０８は、読取りごとに、ＲＡＭバンク７０２への読取りがイネーブルされるように、セットされ得る。同様に、データ記憶部７０４にアクセスすることはできず、読取りデータ・マルチプレクサ７１２は、常にＲＡＭバンク７０２のデータを、多段化フロップ７１６まで通過させることができる。

さらに、いくつかの実施例では、メモリ・バンク構造体には、複数のスーパーバンク、たとえば、３つのスーパーバンクが含まれ得、個々のスーパーバンクは、各スーパーバンク内の特定のアクセス・パターンに応じて、ロード・キャッシュをイネーブル又はディスエーブルすることができる。たとえば、３つのスーパーバンクが使用される場合、各スーパーバンクには３２個のＲＡＭメモリ・バンクが含まれ得、メモリ・バンクごとのデータ・キャッシュには、各エントリが１ワード、すなわち１６ビットである場合、２つのエントリが含まれ得る。２つ以上のスーパーバンクが使用される場合、スーパーバンクは、任意のサイズ、様々なサイズ、同じサイズ、又はこれらの組合せであり得る。たとえば、第１のスーパーバンクは１２８ＫＢであってもよく、第２のスーパーバンクは２５６ＫＢであってもよく、第３のスーパーバンクは５１２ＫＢであってもよい。

ここで図７Ｆを参照すると、本明細書で説明される方法７５０の各ブロックは、ハードウェア、ファームウェア、及び／又はソフトウェアの任意の組合せを使用して実行され得る、コンピュータ処理プロセスを含む。たとえば、様々な機能は、メモリにストアされた命令を実行するプロセッサによって実行され得る。方法７５０はまた、コンピュータ記憶媒体にストアされた、コンピュータが使用可能な命令として具現化され得る。方法７５０は、いくつか例を挙げると、独立型アプリケーション、サービス若しくはホステッド・サービス（独立型の、又は別のホステッド・サービスとの組合せ）、又は別の製品へのプラグインによって提供され得る。加えて、この方法７５０は、本明細書に説明されているものを含むがこれに限定されるものではない、任意の１つのシステム、構造体、若しくは構成要素、又はシステム、構造体、若しくは構成要素の任意の組合せによって実行され得る。

図７Ｆは、本開示のいくつかの実施例による、読取り動作のためにデータ・キャッシュを使用する方法７５０を示す流れ図である。方法７５０は、ブロックＢ７０２において、メモリ読取りアドレスを表すデータを受信するステップを含む。たとえば、いくつかのメモリ・バンクを使用する第１の読取り動作後に、１つ又は複数の追加の又は他のメモリ・バンクに加えて、メモリ・バンクのうちの１つ又は複数を含む、第２の読取り動作が実行され得る。第１の読取り動作には、それぞれのメモリ・バンクに対応するデータ・キャッシュに、読取り出力をストアすることが含まれていた可能性があるので、メモリ・バンクの別の読取りを要求するのではなく、この値が再利用され得る。したがって、次の読取り動作に対応してメモリ読取りアドレスが受信され得、ロード・キャッシュが、イネーブルされている場合に、データのいずれかがロード・キャッシュにストアされているかどうかを判断するために、アクセスされ得る。

方法７５０は、ブロックＢ７０４において、メモリ読取りアドレスを、ロード・キャッシュにストアされた、以前のメモリ読取りに対応したロード・キャッシュのメモリ・アドレスと、比較するステップを含む。たとえば、以前のメモリ読取り後に、メモリ読取りによるデータが、特定のＲＡＭバンク７０２に対応するロード・キャッシュにストアされ得る。この情報を記憶するために、タグ記憶部７０６には、ＲＡＭバンク７０２からの１つ又は複数の以前の読取りに対応する、メモリ・アドレスが含まれ得る。

方法７５０は、ブロックＢ７０６において、メモリ読取りアドレスが、ロード・キャッシュのメモリ・アドレスと、少なくとも部分的にオーバラップすることを判断するステップを含む。たとえば、メモリ読取りアドレスは、タグ記憶部７０６にストアされた以前の読取りの、以前のメモリ読取りアドレスと比較され得る。ヒットした場合、ロード・キャッシュを使用して、現在のメモリ読取りの、メモリ読取りアドレスに対応するデータの少なくとも一部を、読み出すことができる。

方法７５０は、ブロックＢ７０８において、ロード・キャッシュからのメモリ読取りアドレスに対応するデータの、少なくとも一部を読み取るステップを含む。たとえば、タグ記憶部７０６によって判断されたロード・キャッシュのヒットにより、オーバラップするメモリ・アドレスからのデータの一部分が、ロード・キャッシュから読み出され得、残りのデータがある場合は、ＲＡＭバンク７０２から読み出され得る。

分離式の設定可能なアクセラレータ
リアルタイムのアプリケーションなどの特定のアプリケーションでの、プロセッサの性能を最適化するために、命令セット・アーキテクチャ（ＩＳＡ）を拡張して、よく行われる演算を高速化する、カスタム命令を作成することができる。これにより、プロセッサは、特定のタスクを実行するのに必要なサイクル数を減らすことができる。ＩＳＡをカスタマイズするプロセスは、システムの性能目標が達成されるまで実行される。しかし、こうした新しい命令は、データを演算するために、プロセッサのレジスタ・ファイル内に、又はオペランドとしてメモリに直接追加され、既存のプロセッサ・コントローラばかりでなく、既存のメモリ・アドレス指定及びアクセス用ハードウェアも使用して実行される。かかる実例では、新しい命令が、プロセッサのレジスタ・ファイルの読取り／書込みオペランドの総数内に収まり（たとえば、既存のポートを再使用して）、レジスタ・ファイルの幅に収まり（たとえば、プロセッサのデータ・タイプ内に収まり）、プロセッサのパイプライン・ステージ内に収まることが望ましい。ＩＳＡに命令を首尾よく追加するためのこれらの要件によって、新しい命令を追加するための柔軟性の程度が制限される。加えて、多くのステージ（たとえば、３０、４０、５０ステージなど）があるパイプラインを処理するＩＳＡを作成する場合、ＩＳＡの設定は複雑になる。

さらに、プロセッサは、電力損失を犠牲にして高度の柔軟性を可能にする。というのは、追加されるすべての命令が、フェッチ、デコード／ディスパッチ、レジスタ・ファイル及び／又はメモリからの読取り／への書込みなどを必要とするからである。したがって、こうしたカスタム命令を実施する、追加の機能ユニットを追加すると、レジスタ・ファイルの読取り／書込みポートが圧迫され、結果的に、必要な面積（たとえば、追加の読取り／書込みポートが必要な場合がある）、及び電力が増加する（たとえば、レジスタ・ファイルへの余分なロードが実施される場合がある）。また、組込みアプリケーションの処理パイプラインには、通常、あるステージからの出力が次のステージに入力を供給する、複数のステージがある。プロセッサで複数のスレッド（たとえば、様々な処理ステージでの）を実行するような技法により、延長時間が低減され、これによりレイテンシの短縮が実現され得る。しかし、マルチスレッドは、ハードウェアを犠牲にする。すなわちマルチスレッドにより、複数のスレッドから命令をフェッチ／デコード／ディスパッチし、各スレッドの状態ごとの状態情報（たとえば、レジスタ・ファイルでの）を保持するだけでなく、プロセッサの複数のスレッドを扱う制御ロジックを含める必要がある。これにより、プロセッサの検証及びプログラミングがより複雑になる一方で、面積及び電力の要件が増加する。したがって、処理パイプラインのレイテンシを減らすための様々な方法が存在するが、既存の方法では、プロセッサのハードウェアに追加の表面積が必要となり、追加のハードウェアによる追加の電力消費が必要となり、様々なタスクを実行するためのプロセッサのプログラミングの複雑度が増す。

１次プロセッサの設定での制限、及びマルチスレッド・プロセッサの欠陥を考慮して、本開示のシステム及び方法は、主プロセッサから分離され、ベクトル・メモリ（ＶＭＥＭ）などの共有メモリを介して主プロセッサと通信する、ドメイン固有のアクセラレータ又はコプロセッサに加えて、ＶＰＵのような単一スレッド・プロセッサなどの、１次又は主プロセッサの１つ又は複数のユニットを使用する。したがって、アクセラレータは、主プロセッサのサブユニットとして演算することができるが、アクセラレータは、プロセッサへ命令の実行を要求するのではなく、１度設定されると、主プロセッサの命令とは関係なしに実行することができる。たとえば、アクセラレータのアクセス命令を使用して、主プロセッサが、アクセラレータを設定及びシーケンス処理することを可能にし得、また共有メモリが、ステージ間のデータ構造体を、主プロセッサとアクセラレータとの間で共有することを可能にし得る。主プロセッサが、アクセラレータをキック・オフ又は開始させると（たとえば、共通のアクセラレータのインタフェースを介して、且つ１つ又は複数のロード／ストア命令を使用して）、主プロセッサは、自由に、別のステージを処理する（これにより、実行時間を短縮しながら、処理パイプラインの複数のステージで同時に作業する機能を実現する）か、又はアクセラレータが処理を完了するのを待つ、低電力又は最小電力状態に遷移する（たとえば、アクティブに処理していないときの電力使用を最小限に抑える）。したがって、１つ又は複数のアクセラレータのそれぞれは、主プロセッサによって設定されると、独立して、主プロセッサと同時に演算することができる。主プロセッサ及びアクセラレータは、処理中にハンドシェイク・インタフェースを介して同期することができるため、主プロセッサは、アクセラレータが、いつ処理を終了したか、且つ／又は新しいタスクの準備ができたかを認識し、逆も同様である。共有メモリは、設定メッセージ（たとえば、サイズの制約に起因して、設定命令がアクセラレータ・インタフェースを介して効率的に送信されない場合に、アクセラレータを設定する）、入力バッファ（たとえば、アクセラレータで処理するためのデータをストアする）、及び／又はアクセラレータの出力結果（たとえば、処理が完了した後、アクセラレータのたとえばレジスタ・ファイルからのデータが、共有メモリの、主プロセッサからの設定命令で示された位置に、ストアして戻され得る）をストアすることができる。したがって、アクセラレータは、トリガされると、設定パラメータ及び／又は入力データ構造体を、共有メモリから読み取ることができ、また出力結果のデータ構造体を、共有メモリに書き込むことができる。

結果として、主プロセッサ、共有メモリ、及び分離式アクセラレータのこの組み合わされたシステムは、機能の固定したハードウェアの電力消費レベルを達成しながら（たとえば、処理パイプラインの大きい計算量の処理ステージが、アクセラレータとして実装される場合があるので）、主プロセッサの複雑度を大幅に高める必要なしに（たとえば、主プロセッサは、アクセラレータをプログラムするための、追加のアクセラレータ設定又はアクセス命令しか必要としない場合があるので）、柔軟性のあるプログラム可能な主プロセッサを可能にする。たとえば、アクセラレータのパイプライン及びデータ・タイプ（たとえば、データ幅）は、主プロセッサのパイプライン及びデータ・タイプとは無関係であり得、これにより、プロセッサのレジスタ・ファイルの読取り／書込みオペランドの総数、レジスタ・ファイル幅、及びパイプラインのステージ内に収まる命令を必要とする、主プロセッサだけでは不可能な場合がある、さらなるカスタマイズ及び最適化が可能となる。

いくつかの実施例では、命令実行時に、アクセラレータの若干の電力節約を実現し、一方で、実行を主プロセッサのパイプラインに結合するために、アクセラレータと主プロセッサとが結合され得る。しかし、かかる実施例では、命令がアクセラレータと主プロセッサとの間でインタリーブされることになるので、パイプラインの相異なるステージを同時に処理する機能は低下するであろう。１つ又は複数の実施例では、アクセラレータ及び主プロセッサは、共有メモリを介して接続されるのではなく、より上位レベルの第２レベル（Ｌ２）メモリを介して結合され得る。しかし、かかる実施例では、より上位レベルの分離（たとえば、共有メモリを介した、より上位レベルとの結合の解除）は、主プロセッサとの通信のオーバヘッドを増加させる可能性がある。

分離式アクセラレータは、非限定的な実例では、特徴追跡、対象物追跡、画像ワーピング、ピラミッド作成、及び／若しくは類似のものなどのコンピュータ・ビジョンのアルゴリズムに向けた、ライダ・データ、レーダ・データ、及び／若しくは類似のものに対するマトリックス乗算若しくは他の演算などのセンサ処理に向けた、並びに／又は機械学習若しくは深層学習アプリケーションに向けた、分離式ルックアップ・テーブルのアクセラレータとして、バンクの競合を検出及び解決するための、１Ｄ、２Ｄなどのルックアップの実行、１Ｄ／２Ｄ補間の実行、及び／又は類似のものなど、任意のドメイン内の任意のタスクに使用され得る。したがって、本明細書で説明されている形態は、処理の一部がアクセラレータにオフロードされ得る、任意の処理パイプラインに適用され得る。

実施態様に応じて、共有メモリを介して主プロセッサと通信するチップ上に、任意の数の分離式アクセラレータが存在し得る。たとえば、システム・オン・チップ（ＳｏＣ）又は他の集積回路（ＩＣ：ｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）には、主プロセッサと１つ又は複数のアクセラレータが含まれ得、プログラマは、様々なアクセラレータを認識し、システムの様々なタスクのいずれかの性能を高めることができるアクセラレータを使用する、命令又はコードを書くことができる。主プロセッサは主にＶＰＵとして説明されているが、これは限定することを意図したものではなく、主プロセッサには、本開示の範囲から逸脱することなく、ＣＰＵ、ＧＰＵ、ＤＰＵ、又は他のプロセッサなどの、任意のプロセッサ・タイプが含まれ得る。

ここで図８Ａを参照すると、図８Ａは、本開示のいくつかの実施例による、１つ又は複数の分離式アクセラレータを含むシステム８００を例示している。本明細書で説明されるこの配置及び他の配置は、単に実例として示されていることを理解されたい。図示されているものに加えて、又は図示されているものの代わりに、他の配置及び要素（たとえば、機械、インタフェース、機能、順序、機能のグループ化など）が使用されてもよく、一部の要素が完全に省略されてもよい。さらに、本明細書で説明される要素の多くは、個別の若しくは分散された構成要素として、又は他の構成要素と組み合わせて、任意の好適な組合せ及び位置で実施され得る、機能的なエンティティである。エンティティによって実行されるものとして本明細書に説明されている様々な機能は、ハードウェア、ファームウェア、及び／又はソフトウェアによって実行され得る。たとえば、様々な機能は、メモリにストアされた命令を実行するプロセッサによって実行され得る。いくつかの実施例では、システム８００は、図１３Ａ～図１３Ｄの例示的な自律型車両１３００、図１４の例示的なコンピュータ処理デバイス１４００、及び／若しくは図１５の例示的なデータ・センタ１５００のものと同様の構成要素、特徴、及び／若しくは機能に含まれ得るか、且つ／又はそれらを含むことができる。

システム８００には、ＶＰＵ、ＣＰＵ、ＧＰＵ、ＤＰＵなどのプロセッサ８０２（たとえば、主プロセッサ）、分離式アクセラレータ８０４、及び／又は共有メモリ８０６（たとえば、ベクトル・メモリ又はＶＭＥＭ）が含まれ得る。プロセッサ８０２は、プロセッサ８０２が実行する命令をキャッシュすることができる、命令キャッシュ（Ｉキャッシュ）８１０に結合され得る。プロセッサ８０２には、汎用入力／出力（ＧＰＩＯ：ｇｅｎｅｒａｌｐｕｒｐｏｓｅｉｎｐｕｔ／ｏｕｔｐｕｔ）８０８（たとえば、入力、出力、又はその両方として使用され得、実行時に制御可能であり得る、ＩＣ上のデジタル信号ピン）、及びＩＣコンフィギュレータ８１２が含まれ得る。いくつかの実施例では、図示されているように、プロセッサ８０２は、２５６ビット高度拡張可能インタフェース（ＡＸＩ：ａｄｖａｎｃｅｄｅｘｔｅｎｓｉｂｌｅｉｎｔｅｒｆａｃｅ）などであるがこれに限定されるものではない、ＡＸＩインタフェースを使用して、オンチップで通信することができる。ＩＣコンフィギュレータ８１２を使用して、システム８００を設定することができる。

プロセッサ８０２は、たとえば、高度周辺バス（ＡＰＢ：ａｄｖａｎｃｅｄｐｅｒｉｐｈｅｒａｌｂｕｓ）インタフェースなどの、コプロセッサ若しくはアクセラレータ・インタフェース、及び／又はハンドシェイク、プログラミング、若しくはイベント・インタフェースを介して、分離式アクセラレータ８０４と直接通信することができる。たとえば、プロセッサ８０２は、アクセラレータ・インタフェース（又は設定バス）を使用して、アクセラレータ８０４を設定し、イベント・インタフェースを使用して、アクセラレータ８０４の処理をキック・オフ又はトリガし、ハンドシェイク又はイベント・インタフェースを使用して、アクセラレータ８０４と同期することができる。したがって、各アクセラレータ８０４には、それぞれのアクセラレータ・インタフェース又は設定バスを介して、プロセッサ８０２と通信するよう設定されるべき仕組みが含まれ得る。たとえば、アクセラレータ８０４が、処理が完了するときに、ハンドシェイクの仕組みを介してプロセッサ８０２に処理の完了を示すことができるか、又はプロセッサ８０２が、アクセラレータ８０４の処理終了を待っているときに、プロセッサ８０２は、アクセラレータ８０４を定期的にポーリングして、ステータス又は終了時間を要求することができる。いくつかの実施例では、アクセラレータ・インタフェースには、設定命令がアクセラレータ８０４に伝送され得るように、３２ビット・インタフェース（又は他の、より小さなサイズのインタフェース）が含まれ得る。しかし、いくつかの実施例では、設定メッセージはより大きくてもよく（たとえば、３２ビットより大きい、又は３２ビットのいくつかの倍数）、その代わりに、設定メッセージは、共有メモリ８０６にストアされ得、設定情報をどこで取得するかを示すために、メモリ８０６内の設定情報の位置が、アクセラレータ・インタフェースを介してアクセラレータ８０４に送信され得る。

したがって、設定バスは、アクセラレータ８０４を設定することができ、イベント（又はプログラミング・インタフェース）を使用して、プロセッサ８０２が、アクセラレータ８０４による処理をトリガ又は開始することを可能にし得る。アクセラレータ８０４は、トリガ又はキック・オフされると、独自に演算することができ、プロセッサ８０２は、処理が完了するか、且つ／又は別の処理タスク若しくはステージを実行するのを待つ。たとえば、アプリケーションのプログラマは、プロセッサ８０２及びアクセラレータ８０４を、それぞれが何をできるかについての知識を用いて、プログラミングすることができ、その結果、アプリケーションのプログラムは、部分に、すなわち、ある部分はプロセッサ８０２用に、またある部分はアクセラレータ８０４用に、分割され得る。したがって、処理は、実施例では、プロセッサ８０２とアクセラレータ８０４との間で並列に実行され、実行時間を短縮し、効率を高めることができる。アクセラレータ・インタフェースを介して、及び／又は共有メモリ８０６を介して共有される設定メッセージは、プロセッサ８０２によって生成され、処理するデータが共有メモリ８０６のどこから開始し、どれだけの量のデータを処理し、結果を共有メモリ８０６のどこに書き戻すかを、アクセラレータ８０４に示すために使用され得る。プロセッサ８０２は、共有メモリ８０６内の、アクセラレータ８０４が続けて演算するデータを含む指定された位置に、入力バッファを生成することができる。設定メッセージが伝送され、入力バッファが共有メモリ８０６にストアされると、アクセラレータ８０４は、イベント・インタフェース（たとえば、プログラミング・インタフェース）を介してプロセッサ８０２からトリガ信号を受信することができ、アクセラレータ８０４は、データ処理に入ることができる。アクセラレータ８０４がトリガされると、プロセッサ８０２は次いで、他の作業を実行するか、又は低電力状態に入ることができ、アクセラレータ８０４が処理を終了すると、アクセラレータ８０４は、プロセッサ８０２に処理の終了を示すことができ、追加の作業を待つことができる。

プロセッサ８０２は、アクセラレータ８０４が処理するための入力バッファ又は入力データ構造体をセット・アップし、入力バッファ又は入力データ構造体を、メモリ８０６にストアすることができる。プロセッサ８０２は、特にアクセラレータ８０４を設定し、アクセラレータ８０４と通信するために、ロード／ストア動作を使用してアクセラレータ８０４を設定することができる。設定メッセージは、アクセラレータ８０４の様々なレジスタ（たとえば、実施例では、２５６個の３２ビット・レジスタ）を設定することができる。たとえば、分離式ルックアップ・テーブルのアクセラレータ（本明細書で、より詳細に説明される）では、設定情報は、ルックアップが補間を伴う１Ｄルックアップ、双１次補間を伴う２Ｄルックアップ、及び／又は別のタイプのルックアップであるかどうかを示すことができる。アクセラレータ８０４は、特定のモード又は機能を認識すると、適切にメモリ８０６からデータを読み取り、処理し、データをメモリ８０６に書き戻すように、レジスタを設定することができる。

いくつかの実施例では、プロセッサ８０２は、効率を高めるために、１度に複数のタスクを実行するように、アクセラレータ８０４を設定することができる。たとえば、アクセラレータ８０４が、様々なより小さいタスクを実行するべきである場合、アクセラレータ８０４を個別に設定することにより、各タスクが迅速に完了し得るので実行時間が増え、その結果プロセッサ８０２に対して、処理を停止すること、アクセラレータ８０４を別のタスク用に設定すること、などが要求され得る。これを行うために、第１のタスク・メッセージには、複数のタスクの自己連鎖を可能にする、第２のタスク・メッセージのアドレスが含まれ得る。したがって、プロセッサ８０２は、アクセラレータ８０４が、処理を完了し、アクセラレータ８０４がさらなる作業を受け入れる準備ができていることをプロセッサ８０２に示す前に、様々なタスクを連続して実行できるように、複数のタスクの設定メッセージを直ちに生成し、各タスクの設定情報及び入力バッファを生成することができる。さらに、アクセラレータ８０４は、効率を高めるために、アクセラレータ８０４が、第１のタスクが完了に近づいたときに、次のタスクのデコード及び次のタスクのためのレジスタ設定を開始できるように、タスクをオーバラップするよう設定され得る。最終的に、アクセラレータ８０４は、プロセッサ８０２及びアクセラレータ８０４用の別個の命令を含めることによって、プロセッサ８０２が通常サポートするものとは相異なるデータ・フォーマット又はタイプに対して、演算することが可能であり得る。これは、異なっている、特定の処理タスクに特化された、アクセラレータ８０４のレジスタのアーキテクチャ及びレイアウトの結果であり得る。

実施例では、プロセッサ８０２は、任意の数のメモリ・インタフェース（たとえば、５１２ビットの静的ランダム・アクセス・メモリ（ＳＲＡＭ：ｓｔａｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）インタフェース）を介して、共有メモリ８０６と通信することができる。同様に、図示のように、アクセラレータ８０４は、任意の数のメモリ・インタフェース（たとえば、５１２ビットのＳＲＡＭインタフェース）を介して、共有メモリ８０６と通信することができる。アービタ８１４は、サイクルごとに、プロセッサ８０２及び／又はアクセラレータ８０４のうちのどちらが共有メモリ８０６にアクセスすることを許可されるかを、判断することができる。

ここで図８Ｂを参照すると、本明細書で説明される方法８５０の各ブロックは、ハードウェア、ファームウェア、及び／又はソフトウェアの任意の組合せを使用して実行され得る、コンピュータ処理プロセスを含む。たとえば、様々な機能は、メモリにストアされた命令を実行するプロセッサによって実行され得る。方法８５０はまた、コンピュータ記憶媒体にストアされた、コンピュータが使用可能な命令として具現化され得る。方法８５０は、いくつか例を挙げると、独立型アプリケーション、サービス若しくはホステッド・サービス（独立型の、又は別のホステッド・サービスとの組合せ）、又は別の製品へのプラグインによって提供され得る。加えて、方法８５０は、図８Ａのシステム８００に関して説明されており、この方法８５０は、本明細書に説明されているものを含むがこれに限定されるものではない、任意の１つのシステム、構造体、若しくは構成要素、又はシステム、構造体、若しくは構成要素の任意の組合せによって実行され得る。

図８Ｂは、本開示のいくつかの実施例による、分離式アクセラレータを使用する方法８５０を示す流れ図である。方法８５０は、ブロックＢ８０２において、処理パイプラインの１つ又は複数の第１の処理タスクの設定情報を受信するステップステップを含む。たとえば、アクセラレータ８０４は、プロセッサ８０２から設定情報を受信することができる（たとえば、設定メッセージを、アクセラレータ・インタフェースを介して）。

方法８５０は、ブロックＢ８０４において、設定情報に少なくとも部分的に基づいて、アクセラレータの１つ又は複数のレジスタを設定するステップを含む。たとえば、アクセラレータ８０４は、設定情報に基づいて、１つ又は複数のレジスタを設定することができる。

方法８５０は、ブロックＢ８０６において、設定情報に含まれる入力バッファの開始位置の指示に少なくとも部分的に基づいて、メモリ内の入力バッファからデータを読み取るステップを含む。たとえば、設定情報には、メモリ８０６のどこに入力バッファがストアされているかの指示が含まれ得、アクセラレータ８０４は、入力バッファからレジスタ内へデータを読み取ることができる。

方法８５０は、ブロックＢ８０８において、出力データを計算するために入力バッファからのデータを処理するステップを含む。たとえば、アクセラレータ８０４は、入力バッファからのデータを処理して、出力を生成又は計算することができる。

方法８５０は、ブロックＢ８１０において、メモリの、設定情報に少なくとも部分的に基づいて判断された位置に、出力データを書き込むステップを含む。たとえば、アクセラレータ８０４は、計算の結果をメモリ８０６に書き出すことができ、プロセッサ８０２へ、処理が完了したことを示すことができる。次いで、プロセッサ８０２は、出力データを使用して、処理パイプラインの１つ又は複数の第２の処理タスクを実行することができる。

分離式ルックアップ・テーブル用アクセラレータ
並列処理は、コンピュータ・ビジョンのアプリケーション、深層学習アプリケーション、センサ処理アプリケーション、及び／又は並列処理によって恩恵を受ける他のアプリケーション（たとえば、処理タスクが他の処理タスクとは無関係である場合）を含むが、これらに限定されるものではない、多くの計算タスクを高速化するために使用される。たとえば、ベクトル・プロセッサは、同じ演算の中で複数の要素を演算し、低消費電力でありながら、こうしたタイプの並列処理アルゴリズムをリアルタイムで実行するのに必要な効率を得ることができる。たとえば、コンピュータ・ビジョン又は深層学習タスクで共通する演算は、ルックアップ・テーブル、画像パッチ、又はインデックス若しくは座標位置に基づく面からのルックアップを実行することである。これを行うために、シングル・ベクトルのロード又はストア動作を使用して、複数の要素からのデータがアクセスされ得る。ルックアップされているインデックスが規則的（たとえば、水平、垂直、又は深さ方向の、連続した又は固定の整数のストライド）でない場合、メモリからの不規則なインデックス付きアクセスを引き起こす。

プロセッサは、メモリからの規則的な、しかし位置が合っていないベクトル・アクセスをサポートするために、ＲＡＭのより小さなバンクを使用して、ベクトル・メモリを構築することができる。このようにして、ハードウェアは、ＲＡＭバンクのそれぞれに対して個別に、一意のアドレスを生成することにより、ベクトル・メモリの関心アドレス指定パターンを作成することができる。メモリからの不規則なインデックス付きベクトルのロード動作では、相異なるベクトル要素のインデックスは互いに無関係であり得るので、これは、ＲＡＭの１つ又は複数のバンクで、バンクの競合を引き起こす可能性がある。バンクの競合はデータに依存しているので、静的に判断されない場合があり、これにより、コンパイラは、バンクの競合を回避したスケジューリングができない。

いくつかの従来のシステムでは、不規則なインデックス付きベクトルのロード動作をサポートするために、様々なアーキテクチャ設計が実装され得る。たとえば、複数の読取りポートが、ＲＡＭバンクに追加され得る。かかる実例では、ハードウェアが３２個のベクトルを処理できる場合、各バンクに３２個の読取りポートが必要となり、これにより、コスト、面積、及び電力が増加するばかりでなく、ＲＡＭバンク周辺の場所及びルートの密集度も増加することになる。別の実例には、インデックス付きルックアップのスループットを低くして、ロードごとにただ１回のスカラ・ルックアップを実行することが含まれる。しかし、これは、ベクトル実行のボトルネックを作り出し、実行時間の制限要因になる。さらなる実例には、各ベクトル・レーンが、ただ１つのバンクからデータにアクセスできるように、メモリ内でデータ構造体の多極コピー（ｍｕｌｔｉｐｏｌｅｃｏｐｙ）を作ることが含まれる。この実例は、他の手法の一部のスループットの問題を解決する可能性があるが、メモリ容量は、データ構造体用にＮ倍（ここでＮは、アクセスされるべきエントリの数）のスペースを占有することによって制限され、これは、コピーを作るオーバヘッドに加えて、関連するアルゴリズムの全体的な性能劣化を引き起こす可能性がある。しかし、データ構造体が小さい場合は、この方法が好適である。いくつかの実例では、競合を動的に検出し、競合しているルックアップを順番に行うことによって解決することができる。しかし、これは、バンクの競合を動的に検出して解決する必要があるので、ハードウェアの複雑度が増すという結果をもたらし得る。さらに、これらの追加のステージは、こうした演算のロードから使用までのレイテンシを増加させ、これにより、コンパイラの、コードを効率的にスケジューリングする機能に影響を与える。加えて、データに依存する実行のレイテンシがもたらされ得、これは、コンパイラが効率的にスケジューリングするためには問題となる。いくつかの実例では、これらの方法の組合せが実行され得る。

他のアーキテクチャのこれらの欠点を考慮して、本開示のシステム及び方法には、不規則なインデックス付きベクトルのロード動作をサポートするよう設定された、分離式ルックアップ・テーブル用アクセラレータが含まれる。分離式ルックアップ・テーブル用アクセラレータは、システム８００のアクセラレータ８０４として含まれ得、共有メモリ８０６を介して、ＶＰＵなどのプロセッサ８０２と通信することができる。分離式ルックアップ・テーブル（ＤＬＵＴ）は、テーブルのルックアップを実行する、１Ｄルックアップ・モード、２Ｄルックアップ・モード、２Ｄの競合のないルックアップ・モード、補間モードを含む１Ｄルックアップ、補間モードを含む２Ｄルックアップ、テーブル再フォーマット・モード、及び／又は他のモードなどの、複数のモードをサポートすることができる。ＤＬＵＴは、どのルックアップ・モードにおいても、１Ｄ（ｘ）フォーマット又は２Ｄ（ｘ，ｙ）フォーマットであり得る、ＶＭＥＭのインデックスの配列を受け取ることができる。各要素には、たとえば、符号なしであり得る、１６ビット又は３２ビットが含まれ得る。次いで、ＤＬＵＴは、非限定的な実例として、２Ｄから１Ｄへのマッピング、切り捨て／丸め、整数／小数分割、及び／又は有効範囲の検出が含まれ得る、所定のインデックス算出を実行することができる。たとえば、ＤＬＵＴは、重複した読取りを検出又は統合し、インデックス内のバンクの競合を検出し、要求されたテーブルのエントリをルックアップするために、ＶＭＥＭに読取り要求を発行することができる。各要素には、８ビット、１６ビット、又は３２ビットが含まれ得、これらは符号付き又は符号なしのいずれでもよい。次いで、ＤＬＵＴは、補間後の処理を、設定された通りに実行することができ、また出力を、ＶＭＥＭに書き戻すことができる。これらの処理演算のそれぞれが、スループットを向上させ、レイテンシを低減し、且つ電力消費を低減するために、パイプラインで実行され得る。

結果として、ＤＬＵＴ用アクセラレータは、プロセッサのパイプラインでの動的な競合検出及び解決を実施する上での欠陥を克服し、コンパイラが、ラインの競合検出を行うための複雑さを回避しながら、すべてのメモリ演算での決定論的な実行レイテンシについて、効率的にスケジューリングすることを可能にする。アクセラレータは、たとえば、ＶＰＵと共有するＶＭＥＭを介する、密結合アクセラレータとして動作するので、プロセッサは、処理パイプライン又はアルゴリズムの他の別個の部分又はステージを処理し続けながら、アクセラレータを設定及びキック・オフすることができる。いくつかの実施例では、アクセラレータには、特定のルックアップ・パターンを有するパッチ用のインデックス生成をオフロードすること、ルックアップするデータに対して、オプションの１Ｄブレンディング及び２Ｄ補間を実行すること、及び／又はルックアップ若しくは補間なしに、テーブル再フォーマットのサポートを提供することなど、主プロセッサの負荷をさらに低減するための追加フィーチャが含まれ得る。実際には、ルックアップを実行するためのプロセッサ８０２及びアクセラレータ８０４を含むシステム全体が、様々なコンピュータ・ビジョン・アルゴリズム（たとえば、特徴追跡、対象物追跡、画像ワーピング、ピラミッド作成など）の処理を、２倍に高速化し、一方で、アルゴリズム全体をまったく主プロセッサだけで実行する場合と比較して、エネルギー消費量の５０％超削減を達成することが、実証されている。

ここで図９Ａを参照すると、図９Ａは、本開示のいくつかの実施例による、分離式ルックアップ・テーブル（ＤＬＵＴ）用アクセラレータを含むシステム９００を示している。本明細書で説明されるこの配置及び他の配置は、単に実例として示されていることを理解されたい。図示されているものに加えて、又は図示されているものの代わりに、他の配置及び要素（たとえば、機械、インタフェース、機能、順序、機能のグループ化など）が使用されてもよく、一部の要素が完全に省略されてもよい。さらに、本明細書で説明される要素の多くは、個別の若しくは分散された構成要素として、又は他の構成要素と組み合わせて、任意の好適な組合せ及び位置で実施され得る、機能的なエンティティである。エンティティによって実行されるものとして本明細書に説明されている様々な機能は、ハードウェア、ファームウェア、及び／又はソフトウェアによって実行され得る。たとえば、様々な機能は、メモリにストアされた命令を実行するプロセッサによって実行され得る。いくつかの実施例では、システム９００は、図８Ａのシステム８００、図１３Ａ～図１３Ｄの例示的な自律型車両１３００、図１４の例示的なコンピュータ処理デバイス１４００、及び／若しくは図１５の例示的なデータ・センタ１５００のものと同様の構成要素、特徴、及び／若しくは機能に含まれ得るか、且つ／又はそれらを含むことができる。

システム９００には、１つ又は複数のプロセッサ９０２（図８Ａのプロセッサ８０２に相当し得る）、メモリ９０４（図８Ａの共有メモリ８０６に相当し得る）、及び分離式ルックアップ・テーブル（ＤＬＵＴ）用アクセラレータ９０６（図８Ａのアクセラレータ８０４のうちの１つのアクセラレータ８０４として含まれ得る）が含まれ得る。プロセッサ９０２には、実施例では、ＶＰＵが含まれ得、メモリ９０４には、ＶＭＥＭが含まれ得る。ＤＬＵＴ用アクセラレータ９０６（又は「ＤＬＵＴ９０６」）には、プロセッサ９０２と通信するための処理ユニット（ＰＵ：ｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）インタフェース（Ｉ／Ｆ：ｉｎｔｅｒｆａｃｅ）９０８、プロセッサ９０２と通信するためのコントローラ９１２、並びにプロセッサ９０２からの、ＰＵインタフェース９０８を介して共有される情報に基づいて、及び／又はメモリ９０４からの、設定メッセージ又は情報がストアされているメモリ９０４内の場所についてのプロセッサ９０２による指示に基づいて、ＤＬＵＴ９０６を設定するためのコンフィギュレータ９１０が含まれ得る。たとえば、ＰＵインタフェース９０８及びコントローラ９１２は、それぞれ、システム８００の高度周辺バス（ＡＰＢ）及びイベント又はプログラミング・インタフェースに、対応することができる。コントローラ９１２は、プロセッサ９０２をＤＬＵＴ９０６と同期させるのを助けるために、プロセッサ９０２から、ＤＬＵＴ９０６が処理を開始できること、及び／又はプロセッサ９０２からポーリング信号を受信できることを示す、キック・オフ又はトリガのコマンド又は信号を、（たとえば、「開始」とラベルづけされた矢印を介して）受信することができる。さらに、ＤＬＵＴ９０６が、１つ又は複数の割り当てられたタスクの処理を終了したときに、プロセッサ９０２が、ＤＬＵＴ９０６の次のタスクのための設定を開始できるように、プロセッサ９０２への（たとえば、「完了」とラベルづけされた矢印を介して）信号を生成することができる。

設定する際に、プロセッサ９０２は、ＰＵインタフェース９０８を介して直接、及び／又はＰＵインタフェース９０８を介してメモリ９０４内の設定情報の位置を示すことによって間接的に、ＤＬＵＴ９０６を設定することができる。後者の実例では、ＤＬＵＴ９０６は、たとえば、共有読取りポートｓｔｒｍ１＿ｄｍ＿ｒｄを介して、メモリから設定情報を取得することができ、１つ又は複数のタスクを実行するために、ストアされた設定情報を使用して、ＤＬＵＴ９０６を設定する（たとえば、サブユニット（たとえば、ＩＡＵ、ＣＤＲＵ、ＰＰＵなど）、及び／又はＤＬＵＴ９０６の他の構成要素を設定する）ことができる。たとえば、プロセッサ９０２は、ＤＬＵＴ９０６が１つ又は複数のタスクを実行するのに必要なデータ構造体を、メモリ９０４内にセット・アップすることができる。たとえば、１０００個の座標のルックアップでは、プロセッサ９０２は、１０００個の座標のそれぞれに応じたデータ構造体を、メモリ９０４内にセット・アップすることができ、さらに、ＤＬＵＴ９０６が出力を書き込むべきバッファを、メモリ９０４内に割り当てることができる。プロセッサ９０２はまた、たとえば、補間、テーブル再フォーマットなどの有無にかかわらず、１Ｄ又は２Ｄルックアップなど、どの演算がＤＬＵＴ９０６によって実行されるべきかを示すこともでき、ＤＬＵＴ９０６は、この情報を使用して、サブユニットを設定することができる。プロセッサ９０２によってセット・アップされる設定情報には、座標インデックスのビット幅、及びテーブルのエントリのビット幅などの指示も含まれ得る。したがって、入力バッファ及び出力バッファがメモリ９０４内にセット・アップされ、ビット幅、演算タイプなどの設定情報がＤＬＵＴ９０６に送信されると、プロセッサ９０２は、処理を開始するために、ＤＬＵＴ９０６をキック・オフ又はトリガすることができる。結果として、プロセッサ９０２だけに依存するシステムとは対照的に、プロセッサ９０２は、ＤＬＵＴ９０６がルックアップ、補間、テーブル再フォーマット、及び／又は類似のものを実行している間に、他のタスクを実行することができ、これにより、実行時間が短縮され、効率が向上する。

演算中、ＤＬＵＴ９０６は、座標に対応するインデックスのリストをメモリ９０４から受信することができ、ＤＬＵＴ９０６は、インデックスに対応するテーブルから値を引き出すことができ（たとえば、値が整数値である場合）、且つ／又は小数値の周囲の値（たとえば、１Ｄルックアップの場合、左右の値、又は２Ｄルックアップの場合、左上、左下、右上、及び右下の値）を引き出して、周囲の値に関する補間又は他の演算を実行することができる。最終値が判断されると（たとえば、後処理が実行されない場合、ルックアップによって直接、又は後処理ユニット（ＰＰＵ：ｐｏｓｔ－ｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）９３０による処理の後に）、その値は、メモリ９０４内の、入力バッファからのインデックスに１対１で対応する、出力バッファに書き込まれ得る。これらのタスクを効率的に実行するために、実施例では、インデックス・アドレス・ユニット（ＩＡＵ：ｉｎｄｅｘａｄｄｒｅｓｓｕｎｉｔ）９２２、競合検出及び解決ユニット（ＣＤＲＵ：ｃｏｎｆｌｉｃｔｄｅｔｅｃｔｉｏｎａｎｄｒｅｓｏｌｕｔｉｏｎｕｎｉｔ）９２４、制御（ＣＴＬ：ｃｏｎｔｒｏｌ）先入れ先出し（ＦＩＦＯ：ｆｉｒｓｔｉｎｆｉｒｓｔｏｕｔ）９２８、小数（ＦＲＡＣ：ｆｒａｃｔｉｏｎａｌ）ＦＩＦＯ９２６、後処理ユニット（ＰＰＵ）９３０、データ合体ユニット（ＤＣＵ：ｄａｔａｃｏａｌｅｓｃｅｕｎｉｔ）９３２、及び／又は他の構成要素が使用され得る。

たとえば、インデックス（ＩＤＸ：ｉｎｄｅｘ）ストリーム９１６には、１つ又は複数のルックアップ・テーブルでルックアップされるべき、メモリ９０４から（たとえば、読取りポート、ｓｔｒｍ１＿ｄｍ＿ｒｄを介して）読み出されるインデックスのストリームが含まれ得、インデックスに対応する値は、メモリ９０４から（たとえば、読み取りポート、ｓｔｒｍ０＿ｄｍ＿ｒｄを介して）、ルックアップ・テーブル（ＬＵＴ：ｌｏｏｋｕｐｔａｂｌｅ）ストリーム９１８を通して読み出され得る。出力（ＯＵＴ：ｏｕｔｐｕｔ）ストリーム９２０は、ＤＬＵＴ９０６を使用して処理した後、メモリ９０４に書き戻される（たとえば、書込みポート、ｓｔｒｍ０＿ｄｍ＿ｗｒを介して）値であり得る。

プロセッサ９０２は、設定する際に、インデックスに関するデータ構造体にどのようにしてアクセスするかを、ＩＤＸストリーム９１６に示すことができる。たとえば、メモリ９０４とのインタフェースが６４バイト幅である１Ｄルックアップの場合、各サイクルで６４バイトが読み出され得る。１Ｄルックアップが実行される場合、インデックス値ごとにただ１つの座標（たとえば、１つの（ｘ）値）が読み出され得、２Ｄルックアップの場合、インデックスごとに２つの座標インデックス（たとえば、１つの（ｘ，ｙ）値）が読み出され得る。非限定的な実施例では、各インデックスは、１６ビット又は３２ビットであり得るので、それぞれ６４バイトの読取りで、ＩＤＸストリーム９１６から８個、１６個、又は３２個の座標が得られる可能性がある。

ＩＤＸストリーム９１６のデータは、生のフォーマットで、生のインデックスとしてＩＡＵ９２２に送信され得、各座標は、整数値又は小数値であり得る。ＩＡＵ９２２は、インデックスが小数値の場合、小数値を分割して、小数ビットをＦＲＡＣＦＩＦＯ９２６に供給し、ＰＰＵ９３０を使用してテーブル内でルックアップされた周囲の値をブレンディングするのを、助けることができる。ＩＡＵ９２２は、次いで、ＣＤＲＵ９２４に送信するインデックスのセットを判断することができ、ここで送信されるインデックスの数は、ＬＵＴストリーム９１８がただ１つのサイクルで実行できるルックアップの回数に相当し得る。たとえば、ＬＵＴストリーム９１８が、たとえば１サイクルに３２回のルックアップを実行できる場合（ルックアップ・テーブルの各値のビット幅に基づいて）、ＩＡＵ９２２は、各反復において、３２個のインデックスをＣＤＲＵ９２４に送信することができる。ＩＤＸストリーム９１６からＩＡＵ９２２への値が整数値である場合などの、いくつかの実例では、ＩＡＵ９２２は、どんな処理もなしに、インデックスの各セットを送信することができる。しかし、ＩＤＸストリーム９１６からの値が小数値である場合、ＩＡＵ９２２は、小数値に対応するブレンディングされた値を得るために、補間又は別の演算を実行するのに必要な周囲の値のそれぞれを得るのに、どのインデックスがルックアップ・アップである必要があるか（たとえば、１Ｄ補間では２個のインデックス、又は２Ｄ補間では４個のインデックス）を判断することができる。たとえば、２Ｄルックアップ及び補間のための、（ｘ，ｙ）座標に対応する小数値が（５．３，６．２）である場合、ＩＡＵ９２２は、ルックアップが（５，６）、（５，７）、（６，６）、及び（６，７）で行われるべきであると判断でき、次いでＰＰＵ９３０は、値をブレンディングして、インデックス（５．３，６．２）に対応する最終値を生成することができる。たとえば、値は均等に重みづけされてブレンディングされることがあり、又は（６，７）ではなく（５，６）により近い値が、（５．３，６．２）の最終値を計算するためにより重く重みづけされるように、双１次補間を使用してブレンディングされることがある。

ルックアップのセット（たとえば、ＬＵＴストリーム９１８が、各読取りサイクルに３２個の値を読み取ることができる場合は、３２個のルックアップ・インデックス）は、ＩＤＸストリーム９１６を使用して読み取られた、メモリ９０４の入力バッファ内のインデックスの順序に対応する適切な順序で、ＣＤＲＵ９２４に送信され得る。ＣＤＲＵ９２４は、次いで、ＬＵＴストリーム９１８でのルックアップ・テーブルの読取りが、ＩＡＵ９２２から受信した順序で行われる場合に生じる、バンクの競合を識別し、インデックスの順序を変更してバンクの競合を回避することで、バンクの競合を解決することにより、競合検出及び解決を実行する。たとえば、インデックスのセットをルックアップすると、バンクの競合を引き起こし、別の（たとえば、後の又は前の）インデックスのセットが、別のルックアップ・サイクルで使用可能である場合、ＣＤＲＵ９２４は、他のルックアップ・サイクルから競合しないルックアップを見つけて、競合しないルックアップを、そのサイクルで競合するルックアップと取り替えることができる。その結果、１つ又は複数のバンクの競合が回避され、これにより、スループットを高めることができる。実例では、ＩＡＵが各サイクルに３２個のインデックスを送信し、所与のサイクルに、インデックスのうちの６個にバンクの競合がある場合、ＣＤＲＵ９２４は、現在のルックアップで競合を引き起こさない別のルックアップから、最大６個のインデックスを判別でき、この３２回のルックアップ、たとえば、元の３２個から２６回のルックアップ、及びＩＡＵ９２２から送信された別のセットからの６回のルックアップを、実行することができる。ルックアップのセットが決定されると（たとえば、競合を考慮した代置の有無にかかわらず）、ルックアップのセットは、ＬＵＴストリーム９１８を使用してメモリ９０４から読み出され得る。

順序が乱れたルックアップを考慮して、代置が行われる場合に、ＣＤＲＵ９２４は、ＣＴＬＦＩＦＯ９２８を使用して、ＩＡＵ９２２からのルックアップの各セットのルックアップの順序を、データ合体ユニットに示すことができる。たとえば、ＤＣＵは、３２回のルックアップの初期セットについて、最初のサイクルで８回、次いで別のサイクルで８回、次いで別のサイクルで１６回実行されたと判断することができ、次いで３２回のセット全体が処理されたと判断することができ、次いで、該当する場合、３２回のルックアップを、後処理のためにＰＰＵ９３０へ押し出すことができるか、又はメモリ９０４の出力バッファに書き込むために、ＯＵＴストリーム９２０へ直接押し出すことができる。ＣＤＲＵ９２４によって判断され、ＬＵＴストリーム９１８に読み出された、ルックアップの実際の順序を示すこの追加情報は、ＣＴＬＦＩＦＯ９２８を介してＤＣＵ９３２に伝達され得る。したがって、ＣＤＲＵ９２４が、ＩＡＵ９２２から受信したインデックスの順序にどのような変更を加えても、ＤＣＵ９３２は、考慮することができる。ＣＴＬＦＩＦＯ９２８は、ＩＡＵ９２２、ＣＤＲＵ９２４などを通過するサイクル数が、決定論的ではなく、データに依存するので、有用であり得る。たとえば、競合は、事前にはわからず（たとえば、データが、決定論的であり得ないので）、プログラミングの結果であるので、競合を完全に回避する解決策はなく、ＣＴＬＦＩＦＯ９２８は、競合解決の結果としてのルックアップの構成を、ＤＣＵ９３２に示すのに役立つ。

ＰＰＵ９３０は、ルックアップ・テーブル値について追加の演算を実行する必要がある場合など、必要に応じて、メモリ９０４に読み出され得るインデックスごとの最終値を計算することができる。後処理が不要な場合、ＰＰＵ９３０は、結果を収集する以外は、不要であり得る。たとえば、通常の１Ｄ又は２Ｄルックアップが、ルックアップ・テーブル内の位置に直接マッピングする整数値であるインデックスに対して実行される場合、ＰＰＵ９３０及びＦＲＡＣＦＩＦＯ９２６は、追加の処理を実行するために使用されることはない。たとえば、１Ｄルックアップでの線形補間若しくは２Ｄルックアップでの双１次補間、及び／又は他の演算が実行される場合、ＰＰＵ９３０及びＦＲＡＣＦＩＦＯ９２６を使用して、収集された結果をメモリ９０４に書き出すために、更新された結果又は値に変換することができる。

いくつかの実施例において、ＤＬＵＴ９０６は、テーブル再フォーマット・モードで使用され得る。たとえば、ＩＤＸストリーム９１６及びＯＵＴストリーム９２０は、アクセス及び／又は転置のために、アドレスを更新するよう使用され得る。かかる実例では、メモリ９０４内にバッファがあり、バッファ内のインデックスが転置されるべきである場合に、この演算は、ＤＬＵＴ９０６にオフロードされ得る（プロセッサ９０２のアドレス生成ユニットに転置を実行させるのではなく）。プロセッサ９０２からの、たとえば、アドレス生成ユニットからの設定情報は、メモリ９０４内のバッファから読み取るための読取りパターンと、アドレスを別のパターンでメモリ９０４に書き戻すための書込みパターンとを示すことができる。たとえば、プログラマが、特定のアクセス・パターンによって多くの衝突が生じることを知っている場合、プログラマは、衝突があまり生じ得ない又はまったく生じ得ないように、テーブルの再フォーマットを実行してデータをシャッフルするために、ＤＬＵＴ９０６を設定するようプロセッサ９０２をプログラムすることができる。

さらなる実例として、ＤＬＵＴ９０６は、範囲外の検出によるセンチネル戻り値、又は範囲外のプレディケーション・オフでの出力書込みに使用され得る。したがって、たとえば、ＩＤＸストリーム９１６内の座標が所与の画像パッチの外側にあり、対応する値が書き込まれてはならない場合、ＤＬＵＴ９０６は、その代わりに、センチネル値を書き出すことができ、これは、出力バッファ内の情報を処理するときに、処理において、センチネル値は信頼又は使用されるべきではないことを、プロセッサ９０２に示すことができる。いくつかの実施例では、このセンチネル値は、値がメモリに書き込まれるべきではないことを、プロセッサ９０２に示すことができ、エラー値として識別された値は、ストアされ得ない。

したがって、ＤＬＵＴ９０６は、特定のタスク又は演算を実行するために一体に機能する、サブユニットのパイプラインとして実装され得る。各サブユニットは独立して演算し、共有インタフェースを介して他のサブユニットと通信することができる。図９Ｂに関して、表９４０は、特定の演算を処理中の、ＤＬＵＴ９０６の様々なサブユニットのタスクを示している。

本明細書で説明されているＤＬＵＴ用アクセラレータの結果として、プロセッサ・パイプラインは、動的な競合検出及び解決を、分離式アクセラレータにオフロードすることにより、決定論的な状態で保持される。加えて、アクセラレータは、主プロセッサ（たとえば、ＶＰＵ）と無関係に、且つ主プロセッサと同時に演算できるため、実行時間が短縮される。ＤＬＵＴ用アクセラレータはさらに、競合の検出／解決により、１つの共通テーブルからの１Ｄ及び／又は２Ｄルックアップを可能にし得る。アクセラレータは、線形補間を含む１Ｄルックアップ、双１次補間を含む２Ｄルックアップ、範囲外の検出によるセンチネル戻り（１Ｄと２Ｄとの両方）、及び／又は範囲外のプレディケーション・オフでの出力書込み（１Ｄと２Ｄとの両方）など、様々な後処理演算を実行することができる。ＤＬＵＴ用アクセラレータは、設定可能な数の小数ビットで補間を実行するよう設定され得、８、１６、及び３２ビットの符号付き及び符号なしデータ・フォーマット、並びに１６及び３２ビットの、インデックス・フォーマットに対する１Ｄ及び２Ｄ座標など、様々なインデックス及びデータ・フォーマットをサポートすることができる。ＤＬＵＴ用アクセラレータは、設定可能なＸ／Ｙオフセットを使用して、グローバル座標とローカル座標との間を変換することも可能であり得る。ＤＬＵＴ用アクセラレータはさらに、データ・ストリーム・ユニットをサポートし、ＶＭＥＭからインデックス・バッファを読み取り、ＶＭＥＭからルックアップを実行し、結果（又はルックアップ若しくは補間）をＶＭＥＭに書き込むことができる。データ・ストリーム・ユニットは、線形アクセス及び転置アクセスの、最大２Ｄのアドレス指定をサポートすることができる。ルックアップのインデックスは、ルックアップ／補間に必要なサイクル数を最適化するために、バンクの競合を最小限に抑える、たとえば、ＶＭＥＭがＮ回のルックアップをサポートしている場合、アクセラレータが、Ｍ×Ｎ個のインデックスを使用して、競合検出を切り抜けることができるインデックスの数を最大化できるように、順序が乱れている場合があり、また、確実に競合を生み出す重複インデックスを除外するために、重複検出が実行され得る。さらに、ＤＬＵＴ用アクセラレータの２Ｄルックアップ及び補間モードには、プログラマが１組のインデックス・データを与えるのではなく、アクセラレータ内でいくつかのパラメータから自動生成されるインデックスが含まれ得る（自動インデックス・モードと呼ばれる）。これにより、インデックスの準備が、主プロセッサからアクセラレータにオフロードされる。

ここで図９Ｃを参照すると、本明細書で説明される方法９５０の各ブロックは、ハードウェア、ファームウェア、及び／又はソフトウェアの任意の組合せを使用して実行され得る、コンピュータ処理プロセスを含む。たとえば、様々な機能は、メモリにストアされた命令を実行するプロセッサによって実行され得る。方法９５０はまた、コンピュータ記憶媒体にストアされた、コンピュータが使用可能な命令として具現化され得る。方法９５０は、いくつか例を挙げると、独立型アプリケーション、サービス若しくはホステッド・サービス（独立型の、又は別のホステッド・サービスとの組合せ）、又は別の製品へのプラグインによって提供され得る。加えて、方法９５０は、図９Ａのシステム９００に関して説明されており、方法９５０は、本明細書に説明されているものを含むがこれに限定されるものではない、任意の１つのシステム、構造体、若しくは構成要素、又はシステム、構造体、若しくは構成要素の任意の組合せによって実行され得る。

図９Ｃは、本開示のいくつかの実施例による、分離式ルックアップ・テーブル用アクセラレータを使用する方法９５０を示す流れ図である。方法９５０は、ブロックＢ９０２において、プロセッサを使用して生成される設定情報に少なくとも部分的に基づいて、ＤＬＵＴ用アクセラレータの１つ又は複数のサブユニットを設定するステップを含む。たとえば、ＤＬＵＴ９０６は、プロセッサ９０２から受信した、且つ／又はメモリ９０４から取得した情報を使用して、ＤＬＵＴ９０６のサブユニットを設定することができる。

方法９５０は、ブロックＢ９０４において、メモリから読み取られたインデックスのストリームの、インデックスの第１のセットから、バンクの競合がないインデックスの第１のサブセットを判断するステップを含む。たとえば、ＩＡＵ９２２は、競合を処理するために、ＣＤＲＵ９２４向けのインデックスのセットを生成でき、またＣＤＲＵ９２４は、バンクの競合がないセットの、インデックスのサブセットを判断することができる。

方法９５０は、ブロックＢ９０６において、メモリから読み取られたインデックスのストリームの、インデックスの第２のセットから、インデックスの第１のサブセットとのバンクの競合がないインデックスの第２のサブセットを、判断するステップを含む。たとえば、ＩＡＵ９２２は、競合を処理するために、ＣＤＲＵ９２４向けの別のインデックスのセットを生成でき、ＣＤＲＵ９２４は、第１のセットからの競合があるインデックスのうちの１つ又は複数を、第１のインデックスのセットとの競合が生じない、インデックスの第２のセットからの１つ又は複数のインデックスと、置き換えることを判断できる。

方法９５０は、ブロックＢ９０８において、インデックスの第１のサブセット及びインデックスの第２のサブセットを使用して、メモリから、ただ１回の読取りサイクルで複数の値を取得するために、１つ又は複数のルックアップ・テーブルのルックアップを実行するステップを含む。たとえば、ＤＬＵＴ９０６は、インデックスのセットからの値のサブセット、及びインデックスの第１のセットからの値のサブセットと競合しないと判断された、インデックスの第２のセットからの値を使用して、値をメモリ９０４から、ＬＵＴストリーム９１８へ読み取ることができる。

方法９５０は、ブロックＢ９１０において、複数の値をメモリに書き込むステップを含む。たとえば、ＬＵＴストリーム９１８からの値は、出力ストリーム９２０で、メモリ９０４に書き込まれ得る。ＤＣＵ９３２は、書き出される前に、データが、ＩＤＸストリーム９１６で入力バッファから読み出されたインデックスと１対１の順序になるように、データを再構成することができる。いくつかの実施例では、ＰＰＵ９３０は、ＯＵＴストリーム９２０でメモリ９０４へ最終値を書き出す前に、取得された値に対して、補間などの１つ又は複数の演算を実行することができる。

ダイレクト・メモリ・アクセス・システム用ハードウェア・シーケンサ
ダイレクト・メモリ・アクセス（ＤＭＡ）システムを使用して、中央処理ユニット（ＣＰＵ）を必要とせずに、相異なるメモリ位置からデータを移動することができる。たとえば、ＤＭＡは、データをソースからデスティネーションへ、たとえば、外部メモリ（たとえば、ＤＲＡＭ）、又はＬ２バッファ若しくはベクトル処理ユニット（ＶＰＵ）のベクトル・メモリ（ＶＭＥＭ）などの内部メモリなどのソースから、ＶＰＵなどのデスティネーションへ移動する、データ移動エンジンとして動作することができる。ＤＭＡシステムは、実際には、これらに限定されるものではないが、フレーム・データをパディングすること、アドレスを操作すること、オーバラップするデータを管理すること、相異なる走査順序を管理すること、及び相異なるフレーム・サイズを考慮することなど、追加の動作を実行することができる。

デジタル信号処理では、複数のＤＭＡリソースを使用して、外部メモリとＶＰＵなどのプロセッサとの間で、構造化されたタイル・データの移動を記述することができる。たとえば、このＤＭＡリソースには、記述子、チャネル、トリガ、及び／又はレジスタが含まれ得る。記述子は、たとえば、ソース位置、デスティネーション位置、ライン・ピッチ、タイル幅、タイル高さ、循環バッファ配置、及び／又は類似のものなどの、タイルの移動を記述することができる。しかし、空間的及び時間的な依存関係を有する像面のタイル・データの移動は、ユーザに、余分なプログラミング・モデルの課題をもたらし、また、様々な多くのＤＭＡ設定リソースを必要とする。こうしたタイル・データの依存関係はまた、プロセッサ（たとえば、ＶＰＵ）のコードの、制御コード及び制御シーケンスを複雑にする場合もある。たとえば、代表的な処理演算には、３×３フィルタ処理などのフィルタ処理が含まれ得る。このタイプの演算は、すべての出力ピクセルが、出力ピクセルの周囲の３×３ピクセルの対応する値に依存することになるので、空間依存性をもたらす。かかる演算では、値の３×３マトリックスを使用してフィルタ処理を実行でき、この演算は、空間依存演算と呼ばれ得る。実際には、プログラミングの課題を軽減するために、フレームのすべてのタイルを、同じサイズ、たとえば６４×６４にすることができる。しかし、６４×６４のタイルで３×３フィルタが使用される場合、たとえば図１０Ｃの影付きの領域に示されているように、隣り合うタイルから上下に追加のピクセルが必要となろう。したがって、タイル全体にわたってデータを適切にフェッチできるようにするには、この情報が、ＤＭＡリソースでエンコードされる必要があり、これにより、完全なものにするために余分なプログラミングの負担が生じる。

図１０Ａ～図１０Ｇを参照すると、図１０Ａ～図１０Ｇは、ＤＭＡシステムを使用する場合の、データ移動に関する様々な課題を示している。たとえば、図１０Ａの視覚化した図１０００は、フレーム・データのパディングに対応することができる。視覚化した図１０００では、左上のセクション、上のセクション、右上のセクション、左のセクション、中央のセクション、右のセクション、左下のセクション、下のセクション、及び右下のセクションの、９つのセクションがあり得る。かかる実例では、各セクションに、１つ又は複数のタイルが含まれ得る。たとえば、左上のセクションには、１つのタイルが含まれ得、一方上部のセクションには、たとえば４つのタイルが含まれ得る。したがって、このセクショニングを正確に規定するために、既存の手法では、このフレームは、９つの記述子（たとえば、セクションごとに１つ）、３つのチャネル（たとえば、左の列に１つ、中央の列に１つ、及び右の列に１つ）、及び３つのトリガ（たとえば、チャネルごとに１つ）を使用して記述され得る。

パディングについて、たとえば、空間依存性のために、タイル又はフレームのセクションの境界近くのデータに対して演算を実行するとき、ＤＭＡシステムは、画像の境界の外側にあるピクセルの値をパディングするか、又は値を作り上げることがある。これは、特定の実施態様では、画像のメモリ領域の外側のデータを要求すると、障害を引き起こす可能性があるためであり得る。したがって、ＤＭＡを使用して、対応するメモリ領域から画像データをフェッチした後に、値をパディング又は作り上げて、障害が起きるのを回避することができる。パディングしないと、たとえば、フィルタ処理演算を実行する場合に、データの構造がカーネル・サイズと一致しない可能性がある。追加のパディングされた値を含むフェッチされたデータは、次いで、デスティネーション、たとえばＶＰＵに送信され得、これによりＶＰＵは、フェッチされたデータの設定に従ってデータを処理することが可能であり、（パディングされた）フレーム全体にわたって、同じやり方でデータを処理することができる。パディングするとき、ゼロ・パディングが使用されてもよく（たとえば、新しい各データ・ポイントが値ゼロを含む場合）、複製された値が使用されてもよく（たとえば、フェッチされたデータから、隣り合うピクセルのピクセル値を複製する）、及び／又は別のパディングの仕組みが使用されてもよい。加えて、パディングは、フレームの任意の側部に追加でき、且つ相異なる側部に様々に追加されてもよい。たとえば、図１０Ａでは、パディングされる領域１００２は、フレームの左側、上側、又は下側よりも、右側でより大きくなり得る。パディングは、データを、メモリからＶＭＥＭなど、ソースからデスティネーションに移動する場合の、ＤＭＡプログラミングの複雑度を増加させ、より大きなパディングされたフレームを処理する場合の、ＶＰＵプログラミングの複雑度も増加させる。

ここで図１０Ｂを参照すると、図１０Ｂの視覚化した図１０１０は、ＤＭＡシステムによるアドレス操作に対応する。たとえば、連続するフレーム・データをフェッチするために、様々な記述子のアドレスが操作及びプログラミングされ得る。ＤＭＡを効果的に実行するために、データ移動のアドレスの記述は連続し得る。したがって、各記述子のアドレスが操作され得、この操作は、１つの記述子から別の記述子に引き継がれる必要がある。たとえば、図示されているように、値をパディングする場合、記述子ごとの開始アドレスが、フェッチされたデータにパディングされる値が含まれるように、操作され得る。これを行うために、プログラマは、開始アドレス及びタイル幅、並びに各セクションのタイルの数を使用し、またこの情報を使用して、次の記述子のアドレスを生成する。たとえば、第１の記述子は、図１０Ｂの矢印で示されるように、左上で開始し、次いで上、次いで右上、次いで左、次いで中央、などというように、データをフェッチさせることができる。しかし、記述子の開始アドレスにより、データをＶＭＥＭなどのデスティネーションに移動する場合に、ＤＭＡプログラミングの複雑度が増す。

別の実例として、図１０Ｃに関して、ＤＭＡシステムは、連続したデータ処理を確実にするために、隣り合うタイルから、垂直方向及び水平方向にオーバラップしたデータを読み取る必要があり得る。たとえば、図１０Ｃの影付きの領域で示されるように、左上のセクションのタイル及び隣り合う上のセクションのタイルからのオーバラップするデータは、同じ演算で読み取られる必要があり得る。同様に、左上のセクションのタイル及び隣り合う左のセクションのタイルからのオーバラップするデータは、同じ演算で読み取られる必要があり得る。これを実現するには、オーバラップする部分を含めるように、記述子を更新又は移動する必要がある。たとえば、ベースの記述子には、上のセクションの先頭のアドレスが含まれ得るが、隣り合う左上のセクションのタイルからのデータを取り込むために、上のセクションの記述子を更新して（たとえば、左に移動して）、左上のタイルからのデータを取り込む必要がある。この更新により、特に記述子の数が増えるほど、さらに複雑なプログラミングが必要となる。

加えて、図１０Ｄ～図１０Ｆに関して、ＤＭＡシステムは、連続してメモリからデータを読み取るために、様々な走査順序をサポートする必要があり得る。たとえば、フィルタ処理、畳込み、マトリックス乗算、及び／又は別の演算を実行するかどうかにかかわらず、関連する走査順序は異なり得る。これを考慮して、左上から始まるラスタ走査順序（視覚化した図１０３０）、右上から始まるラスタ走査順序（視覚化した図１０３２）、左下から始まるラスタ走査順序（視覚化した図１０３４）、及び／又は右下から始まるラスタ走査順序（視覚化した図１０３６）を含む、図１０Ｄに示されるものなど、様々な走査順序がサポートされ得る。同様に、図１０Ｅの視覚化した図１０３８に関して、立方体画像のために、様々な立方体の走査順序がＤＭＡシステムによってサポートされ得る。図１０Ｆは、左上から始まる垂直マイニング走査順序（視覚化した図１０４０）、右上から始まる垂直マイニング走査順序（視覚化した図１０４２）、左下から始まる垂直マイニング走査順序（視覚化した図１０４６）、及び／又は右下から始まる垂直マイニング走査順序（視覚化した図１０４８）など、ＤＭＡシステムによってサポートされ得る様々な垂直マイニング走査順序を示している。これらの様々な走査順序のそれぞれをサポートして、データをメモリ（ＶＭＥＭなど）に移動するために、ＤＭＡプログラミングの複雑度が増す。

図１０Ｇに関して、ＤＭＡシステムはまた、様々なサイズを有する複数のフレーム（たとえば、ルマ／クロマの複合体又は様々なピラミッド・レベル）の移動など、様々なフレーム・サイズをサポートする必要があり得る。たとえば、ＶＰＵなどのプロセッサは、様々なサイズのフレームを処理して、最終の所望の出力を生成することができる。図１０Ａは、オプティカル・フロー推定演算のための、フレームのピラミッド処理に対応する例示的な視覚化した図１０４８を示している。かかる実例では、ピクセルの移動は、最初に、より小さいフレーム・サイズが、次いで、より小さいフレーム・サイズの出力からのキューを使用して、より大きいフレーム・サイズが、次いで、より大きいフレーム・サイズからのキューを使用して、さらにより大きいフレーム・サイズが計算され得、以下同様である。したがって、ＤＭＡシステムは、様々なフレーム・サイズのフレーム・データのフェッチをサポートできるが、この機能は、ＤＭＡシステムのさらに複雑なプログラミングを必要とする。たとえば、記述子は、相異なるフレーム・サイズごとに、プログラミング又は更新する必要がある。

ＤＭＡシステムがサポートするこれらの様々な演算のプログラミングを簡略化するために、本開示のＤＭＡシステム及び方法は、データ移動を考慮して、ＤＭＡエンジンと組み合わせてハードウェア・シーケンサを使用することができる。たとえば、画像全体のデータ移動は、タイルのシーケンス処理（トリガ）、パディング、オーバラップ（オフセット）、走査順序、及び相異なるフレーム・サイズを扱う、簡略化されたプログラミング・モデル（たとえば、図１０Ｉで示されるような、フレームの画像構造）を用いる、ハードウェア・シーケンス処理モードで明示的且つ完全に記述され得る。ハードウェア・シーケンサは、ＤＭＡリソースの使用量を減らし（たとえば、必要な記述子、トリガ、チャネルなどの数を減らす）、ＶＰＵ制御処理のためのＶＰＵからの制御をオフロードし、ＤＭＡプログラミングの複雑度を軽減することができる。これは、プログラム可能なローカル・メモリからの一連のコマンドの形で、画像又はフレーム記述子の図（たとえば、図１０Ｉに示されるような）をロードすることによって実現され得る。このハードウェア・シーケンス・コマンドは、本明細書で説明されている、画像のパディング、タイルのオーバラップ又はオフセット、フレームのオフセット、画像の走査順序、及びタイルの粒度単位での画像サイズを含む、プログラミングの複雑度を増加させる演算のそれぞれを、組み込むことができる。ハードウェア・シーケンサは、記述子情報（たとえば、画像コマンドから、又は別個の記述子メモリ又はＳＲＡＭからの）に加えて、メモリから画像コマンドを読み取り、タイルの移動をシーケンス処理し、フレーム全体を走査し、塗りつぶすことができる。

ここで図１０Ｈを参照すると、図１０Ｈは、本開示のいくつかの実施例による、ハードウェア・シーケンサを含むＤＭＡシステム１０５０を示している。本明細書で説明されるこの配置及び他の配置は、単に実例として示されていることを理解されたい。図示されているものに加えて、又は図示されているものの代わりに、他の配置及び要素（たとえば、機械、インタフェース、機能、順序、機能のグループ化など）が使用されてもよく、一部の要素が完全に省略されてもよい。さらに、本明細書で説明される要素の多くは、個別の若しくは分散された構成要素として、又は他の構成要素と組み合わせて、任意の好適な組合せ及び位置で実施され得る、機能的なエンティティである。エンティティによって実行されるものとして本明細書に説明されている様々な機能は、ハードウェア、ファームウェア、及び／又はソフトウェアによって実行され得る。たとえば、様々な機能は、メモリにストアされた命令を実行するプロセッサによって実行され得る。いくつかの実施例では、システム１０５０は、図１３Ａ～図１３Ｄの例示的な自律型車両１３００、図１４の例示的なコンピュータ処理デバイス１４００、及び／若しくは図１５の例示的なデータ・センタ１５００のものと同様の構成要素、特徴、及び／若しくは機能に含まれ得るか、且つ／又はこれらを含むことができる。

システム１０５０には、ＤＭＡエンジン１０５６、レジスタ制御部１０５８、ハードウェア（ＨＷ：ｈａｒｄｗａｒｅ）シーケンサ・コントローラ１０６０、記述子ＳＲＡＭ１０５２、及び／又はハードウェア（ＨＷ）シーケンサ・コマンドＳＲＡＭ１０５４が含まれ得る。既存のシステムには、ＤＭＡエンジン１０５６及びフレームの記述子をストアする記述子ＳＲＡＭ１０５２しか含まれていない場合がある。したがって、本明細書で説明されているように、ＤＭＡエンジン１０５６は、以前は、ソースからデスティネーションにデータを送信するときに、パディング、アドレス操作などの演算のすべてを実行する必要があり、またＶＰＵ又は他のソースは、ＤＭＡシステムを用いた（たとえば、プライマリ・ノードであるＶＰＵ及びセカンダリ・ノードであるＤＭＡを用いた）ハンドシェイクによるシーケンス処理を実行する必要があった。かかる実例では、ＤＭＡエンジン１０５６は、タイルを１度に１つずつ取得してデスティネーションに送信するために、それぞれが１つ又は複数のタイルを含む、フレームの様々なセクションの記述子を使用して、タイル・レベルで処理することになり、後続のタイルは、次のタイルを取得するための、ＶＰＵからの指示に基づく記述子に従って取得されることになる。

しかし、図１０Ｈのシステム１０５０を使用して、フレームは、フレーム・レベルで処理され得る。たとえば、以前には９つの記述子を必要とした、図１０Ｃに示されているフレームに、ただ１つの記述子が使用され得る。したがって、実際には、ＤＭＡエンジン１０５６が、記述子ＳＲＡＭ１０５２（又は、より一般的には、記述子メモリ１０５２）から記述子をロードしようとすると、ＨＷシーケンサ制御部１０６０は、記述子のロードを途中で捕らえ、複数のフレーム、タイルの行／列、及び複数の記述子を扱うために、コマンド・シーケンス処理構造体を使用することができる。これを行うために、タイル・レベルではなく、ハードウェアでタイルの行／列（走査順序に応じた）を処理することにより、より上位レベルでフレームを記述する、フレーム・フォーマット１０７０（図１０Ｉ）が使用され得る。たとえば、タイルをパディングするのではなく、フレーム・フォーマット１０７０を使用してフレーム全体をパディングできるため、ただ１回のパディング・コマンドで、多くのフレームをパディングする。したがって、どこにパディングするか、どこをオーバラップするか、どのようにアドレスを自動的に操作するか、など、フレーム全体が理解され得る。加えて、ＤＭＡエンジン１０５６は、ＨＷシーケンサ制御部１０６０の介入なしに、記述子ＳＲＡＭ１０５２から直接記述子を引き出すことができるので、従来のフォーマットは、ＨＷシーケンサ制御部１０６０の恩恵を受けることができない場合がある演算について、引き続きサポートされ得る。

ＨＷシーケンサ制御部１０６０は、たとえば、シーケンス処理コマンドを含むフレーム・フォーマット１０７０がストアされている、ＨＷシーケンサ・コマンドＳＲＡＭ１０５４（又はより一般的には、ＨＷシーケンサ・コマンド・メモリ１０５４）を読み取る、ステート・マシンとして動作することができる。Ｒ５プロセッサ、ＣＰＵ、ＡＲＭプロセッサなどの処理コントローラは、プログラミングされたコード及び／又はより上位レベルのエンジンからのセッティングを使用して、ＨＷシーケンサ・コマンドＳＲＡＭ１０５４及び記述子ＳＲＡＭ１０５２をプログラミング又は設定することができる。

記述子ＳＲＡＭ１０５４には、タイル寸法（たとえば、タイル幅ｄｘ、及びタイル高さｄｙ）、画像又はフレームの開始点（たとえば、左上、右下など）、トリガのタイプ、及び／又は記述子のスキャン・タイプに関する他のマイクロ情報を規定できる、１つ又は複数の記述子が含まれ得る。

ＨＷシーケンサ・コマンドＳＲＡＭ１０５４は、フレーム全体、フレームのサイズ、フレームのパディングなどを規定する、フレーム・フォーマット１０７０をストアすることができる。たとえば、フレーム・フォーマット１０７０には、ヘッダ制御、オフセット制御、及びパディング制御のためのフレーム・ヘッダが含まれ得、またフレームの列又は行の、列ヘッダ及び／又は行ヘッダ（たとえば、垂直スキャン・パターンのための列ヘッダ、及びラスタ・スキャン・パターンのための行ヘッダ）が含まれ得る。フレーム・ヘッダ制御には、特定のフレームが何回繰り返されるべきかを識別するための、フレーム繰返しファクタばかりでなく、記述子の行及び／又は記述子の列の数も含まれ得る。フレーム・ヘッダ・オフセット制御には、フレーム・タイル・オフセット（たとえば、タイルからタイルへのオフセット）及びフレーム・オフセット（たとえば、３つの別個の面を含むＹＵＶフレームが処理され得る場合など、ただ１つのチャネルを使用して読み出され得る、２つ以上のフレーム間のオフセット）が含まれ得る。フレーム・パディング・ヘッダは、フレームの左側部、フレームの上部、フレームの右側部、及び／又はフレームの下部のパディングなど、フレーム・レベルで（以前の手法でのタイルごとのレベルではなく）追加する、パディングのライン数又はピクセル数を示すことができ、これにより、タイル・レベルでフレームの各セクション内の各タイルをパディングするのではなく、フレーム全体がパディングされる。

列ヘッダは、走査順序が垂直の場合に使用され得、行ヘッダは、走査順序がラスタ又は水平の場合に使用され得る。列ヘッダ及び／又は行ヘッダには、列又は行のオフセット（たとえば、各列又は各行間のオフセットの大きさ）、列又は行の繰返しファクタ（たとえば、Ｎ－１回など、フレームにわたって、同じ列又は行の処理タイプを繰り返す回数であって、ここでＮは、列又は行が処理される回数）、及び列又は行ごとに使用される記述子の数（たとえば、ただ１つの記述子を使用して、行若しくは列にわたって、同じタイルを繰り返すことができるか、又は第１の記述子を使用して行の一部を走査でき、第２の記述子を使用して行の別の部分を走査できる、など）が含まれ得る。記述子ＩＤは、たとえば、記述子ＳＲＡＭ１０５２にストアされている記述子が引き出され、行又は列を記述するために使用され得るように、記述され得る。たとえば、記述子ＩＤは、どの記述子を特定の列及び／又は行に使用するか、並びに何回記述子が繰り返されるか（たとえば、Ｎ－１回、ここでＮは、記述子が合計で使用される回数）を示すことができる。実施例では、セットされた数（たとえば、６４個）の記述子があり得、記述子ＩＤを使用して、特定の列及び／又は行に、どの記述子が使用されるべきかを判断することができる。このようにして、ハードウェア・シーケンサ・コントローラ１０６０は、記述子ＳＲＡＭ１０５２からの基本の記述子の上にある、フレームの高次の構造を調べ、これにより、同じデータ転送を実施するためにＤＭＡエンジン１０５６が必要とするリソースの簡略化が可能になる。加えて、ＨＷシーケンサ制御部１０６０は、レイテンシを短縮するために、たとえば、レジスタ制御部１０５８を使用して、前もってタイルをプリフェッチすることができ、ＤＭＡエンジン１０５６からの要求に応じて、タイルのデータは、即座に利用可能となり得る。

演算中、ＨＷシーケンサ制御部１０６０は、記述子ＳＲＡＭ１０５２からの記述子情報と共に、ＨＷシーケンサ・コマンドＳＲＡＭ１０５４から画像の構造（たとえば、フレーム・フォーマット１０７０）を読み取ることができ、ＤＭＡエンジン１０５６用に、フレームにわたってシーケンス処理するために、情報を組み合わせることができる。したがって、それぞれの記述子、トリガ、チャネルなどについて、ＤＭＡエンジン１０５６の個別のコーディングを必要とするのではなく、ＨＷシーケンサ制御部１０６０が、画像構造を読み取り、記述子を取り込み、ＤＭＡエンジン１０５６用に、フレームにわたって、適切な記述子フォーマットでシーケンス処理することができる。レジスタ制御部１０５８は、実施例では、走査順序、プリフェッチ、及び／又は他のフレーム・アドレス指定制御を、制御するのを助けることができる。ＨＷシーケンサ制御部１０６０は、ＶＰＵのコードをさらに簡略化し、その結果ＶＰＵは、複数のチャネルを考慮する必要がない。その代わりに、ＶＰＵは、タイル、次いで次のタイル、次いで次のタイル、などというように、要求することができる。ＨＷシーケンサ制御部１０６０は、フレーム内の現在の位置を理解しているので、ＤＭＡエンジン１０５６のためにフェッチされるべき次のタイルを理解し、ＤＭＡエンジン１０５６は、この情報を内部で追跡し続ける必要はない。

したがって、システム１０５０は、システムが、依然として様々な記述子、トリガ、チャネルなどの使用をサポートできるが、また複雑度を軽減するために、フレーム・レベルで理解できるので、以前の手法と後方互換性があり得る。システム１０５０は、フレームのすべてのコーナでの、様々なピクセルのパディング・サイズでの画像のパディング、タイルの境界に沿って処理するために、ＶＰＵの、隣り合うタイルへのアクセスを可能にする、垂直方向及び／又は水平方向のタイルのオーバラップ、並びに相異なる走査順序でのフレームの走査を、サポートすることができる。加えて、システム１０５０は、デスティネーションであるＶＭＥＭでの、ＨＷシーケンサ制御部１０６０による自動タイル・オフセット調整をサポートすることができる。フレームの記述子は、ハードウェアを介してリンクされているので、ユーザは、記述子を一体にリンクするか又はつなぎ合わせる必要がない。ＨＷシーケンサ制御部１０６０は、プログラミングの複雑度をさらに増すことなしに、フレームにわたる記述子／タイル全体のアドレスのシーケンス処理を管理でき、またＨＷシーケンサ制御部１０６０は、性能を改善するために、タイルをプリフェッチすることができる。

いくつかの実施例では、記述子は、記述子ＳＲＡＭ１０５２に別個にストアされるのではなく、画像又はフレーム構造体に含まれ得る。たとえば、従来品との互換性が実装されていない場合、シーケンス処理構造体及びタイル構造体の全部が、フレーム構造体内に記述され得る。かかる実例では、図１０Ｉのフレーム・フォーマットには、タイル幅、トリガ・タイプなどの記述子の追加情報が含まれ得、その結果、ＨＷシーケンサ制御部１０６０は、記述子が記述子ＳＲＡＭ１０５２に別個にストアされている場合と同じ情報を使用可能である。

図１０Ｊを参照すると、図１０Ｊは、本開示のいくつかの実施例による、ラスタ・スキャン・シーケンス用に実装された場合の、図１０Ｉのフレーム・フォーマット１０７０の実例である。たとえば、フレーム・フォーマット１０７０Ａは、ただ１つのチャネル、ただ１つのトリガ、及びただ１つの記述子を使用し、ラスタ・モードでフレーム・アドレス処理する、フレーム・フォーマットの一実例である。この実例では、タイル構造は１６×８であり得る。図１０Ｋは、本開示のいくつかの実施例による、ラスタ・スキャン・シーケンスにおいてハードウェアでシーケンス処理し、例示的なフレーム・フォーマット１０７０Ａを使用してフレーム・アドレス処理する、このタイル構造体の実例である。たとえば、タイルの行ごとに、同じ記述子（たとえば、タイルの寸法）が使用され得（視覚化した図１０７２において、「Ｄ１」で示されている）、これにより、同じタイルが、各行に沿って１６回（Ｃ１からＣ１６まで）用いられ、上から下まで８行（Ｒ１からＲ８まで）繰り返される。シーケンスには、フレーム・フォーマット１０７０Ａに示されているように、２０バイトが含まれ得、各行は、Ｎ＊２＋バイトを有することができ、ここで、Ｎは、行当たりのエントリ数を表す（図１０Ｊに示されているように）。したがって、視覚化した図１０７２に示されているようにフレームをシーケンス処理するために、フレーム・フォーマット１０７０Ａには、フレームの繰返しが含まれ得ず、記述子行の数はゼロであり得、タイル・オフセットなし、フレーム・オフセットなし、左側ピクセル（ＰＬ）、右側ピクセル（ＰＲ）、上ピクセル（ＰＴ）、及び下ピクセル（ＰＢ）の３行をフレーム・パディング、行は７回繰り返され得（合計８行に対して）、各行のオフセットはタイルの高さ（Ｔｙ）（各行がタイルの高さだけオフセットされるように）、記述子ＩＤがＤ１の１つの記述子が使用され得、記述子は、各行に１５回（合計１６回）繰り返され得る。したがって、実際には、ＨＷシーケンサ制御部は、記述子ＳＲＡＭ１０５２からのＤ１（タイルの高さ及びタイル幅を含む）に対応する記述子を使用することができ、ＨＷシーケンサ制御ＳＲＡＭ１０５４にストアされた、フレーム・フォーマット１０７２の画像構造体を使用して、デスティネーションプロセッサ（たとえば、ＶＰＵ）向けに、画像タイルごとに（１行当たり１６個のタイル）、行ごとに（Ｒ１からＲ８）シーケンス処理することができる。このようにして、ただ１つの記述子、ただ１つのトリガ、及びただ１つのチャネルが使用され得、これにより、プログラミングの複雑度を低減しながらも、ＤＭＡシステム１０５０を、ＤＭＡシステム１０５０とＶＰＵとの相互作用で、主要な又は制御する構成要素にすることも可能である。

いくつかの実施例では、ＨＷシーケンサ制御部１０６０の拡張として、ＤＭＡトリガ・モードを使用して、ＤＭＡシステム１０５０に記述子のシーケンスを命令させることによって、ＶＰＵをプログラミングする際のソフトウェアの介入を減らすことができる。たとえば、ＤＭＡシステム１０５０は、外部メモリから画像を読み取り、画像をタイル状に並べ、ＶＰＵ向けに、タイルをシーケンス処理することができる。ＶＰＵは、これを容易にするために、開始信号及び完了信号をアクセス可能にし得る。ＶＰＵの開始は、ＤＭＡシステム１０５０によって駆動され得、ＶＰＵが命令ブロックの処理を終了したとき、ＶＰＵは、完了信号をＤＭＡシステム１０５０に送信することができる。したがって、ＤＭＡシステム１０５０（たとえば、ＨＷシーケンサ制御部１０６０）及びＶＰＵは、ＤＭＡシステム１０５０が１次ノードであり、ＶＰＵが２次ノードである場合、ハンドシェイクの仕組みにかかわることができる。このＤＭＡトリガ・モードは、ＶＰＵのタイル制御のオーバヘッドを最小限に抑え、ＤＭＡエンジン１０５６用のプログラミング・モデルを、簡略化することができる。たとえば、ＤＭＡデータの移動をダブルバッファリングする、特定のコードは必要ない場合があり、ＤＭＡのカーネル・コードは、ＶＰＵのカーネル・コードとは無関係であり得る。したがって、タイルのシーケンス処理は、ＨＷシーケンサ制御部１０６０を使用するＤＭＡシステムが扱うので、ＤＭＡトリガ・モードは、ＶＰＵのコードを簡略化する。下記の例示的なコードは、ＤＭＡトリガを追加する前後の、ＶＰＵのコードを示している。

前

後

その結果、以前は、ＶＰＵが、タイルのＶＭＥＭへの移動を要求していたが、今は、ＨＷシーケンサ制御部１０６０がシーケンス処理を制御するので、ＤＭＡシステム１０５０が、ＶＰＵをターゲットとして、タイルのＶＭＥＭへの移動をトリガすることができる。このようにして、ＤＭＡシステム１０５０は、ＶＰＵによって処理されるべきデータを前もってフェッチすることができ、ＶＰＵが、処理が完了したことを示すと、ＤＭＡシステム１０５０は、処理されるべき次のデータを、直ちに使用可能にすることができ（たとえば、ＶＭＥＭで）、ＶＰＵにもこれを示すことができる。

フレームの処理を実行するとき、ＨＷシーケンサ制御部１０６０は、記述子ＳＲＡＭ１０５２から記述子（タイルの寸法、トリガ・タイプなどを示すことができる）を取得することができ、またＨＷシーケンサ・コマンドＳＲＡＭ１０５４から、画像構造体を取得することができる。次いで、ＨＷシーケンサ・コマンド１０６０は、レジスタ制御部１０５８と共に、走査順序に従って、また第１の（実施例では唯一の）記述子を使用して、第１の行又は列の走査を開始することができ、次いで、２つ以上の記述子が使用されている場合は、繰返しの数（たとえば、１－Ｎ）が満たされるのに基づいて、第２の記述子に移動することができ、以下同様である。各タイルが決定されると、ＤＭＡエンジン１０５６は、ソース・データからタイルのデータを取得し、タイルのデータをデスティネーション・データ（たとえば、ＶＭＥＭ内の）に書き込むことができる。データがデータのデスティネーションに書き込まれると、プロセッサ（たとえば、ＶＰＵ）は、プロセッサが処理を開始するためにデータを使用可能であることを、ＨＷシーケンサ制御部１０６０から通知され得る。次いで、ＤＭＡシステム１０５０は、処理中に、ＨＷシーケンサ制御部１０６０からのシーケンスに基づいて、データの次のタイルをフェッチし、データをデータのデスティネーションに書き込むことができ、この結果、プロセッサが、処理が完了したことを示すとき、ＨＷシーケンサ制御部１０６０は、処理すべき次のデータが使用可能であることなどをＶＰＵに示すことができ（ハンドシェイクの仕組みを介して）、以下、処理が完了するまで同様である。

ここで図１０Ｌを参照すると、本明細書で説明される方法１０８０の各ブロックは、ハードウェア、ファームウェア、及び／又はソフトウェアの任意の組合せを使用して実行され得る、コンピュータ処理プロセスを含む。たとえば、様々な機能は、メモリにストアされた命令を実行するプロセッサによって実行され得る。方法１０８０はまた、コンピュータ記憶媒体にストアされた、コンピュータが使用可能な命令として具現化され得る。方法１０８０は、いくつか例を挙げると、独立型アプリケーション、サービス若しくはホステッド・サービス（独立型の、又は別のホステッド・サービスとの組合せ）、又は別の製品へのプラグインによって提供され得る。加えて、方法１０８０は、図１０Ｈのシステムに関して説明されており、方法１０８０は、本明細書に説明されているものを含むがこれに限定されるものではない、任意の１つのシステム、構造体、若しくは構成要素、又はシステム、構造体、若しくは構成要素の任意の組合せによって実行され得る。

図１０Ｌは、本開示のいくつかの実施例による、ハードウェア・シーケンサを含むＤＭＡシステムのための方法１０８０の流れ図である。方法１０８０は、ブロックＢ１００２において、記述子メモリからタイル構造体、及びＨＷシーケンサ・コマンド・メモリからフレームに対応するフレーム構造体を、取得するステップを含む。たとえば、ＨＷシーケンサ制御部１０６０は、記述子ＳＲＡＭ１０５２から記述子を取得することができる。

方法１０８０は、ブロックＢ１００４において、ソース・メモリからのフレームのタイルの取得を、シーケンス処理するステップを含む。たとえば、ハードウェア・シーケンサ制御部１０６０は、実施例では、レジスタ制御部１０５８と共に、フレーム（又は画像）構造体及び記述子からのタイルの記述に従って、ＤＭＡエンジン１０５６によるソース・メモリからのタイルの取得を、シーケンス処理することができる。

方法１０８０は、ブロックＢ１００６において、取得したタイルに対応するデータを、デスティネーションのメモリに書き込むステップを含む。たとえば、ＤＭＡエンジン１０５６は、取得したタイルに対応するデータを、デスティネーション・プロセッサ（たとえば、ＶＰＵ）で処理するために、デスティネーションのメモリ（たとえば、ＶＭＥＭ）に書き込むことができる。

方法１０８０は、ブロックＢ１００８において、取得したデータがデスティネーションのメモリにストアされたという指示を、デスティネーションのメモリに関連するプロセッサに供給するステップを含む。たとえば、ＨＷシーケンサ制御部１０６０は、次のタイルのデータが処理するために準備されていることを、プロセッサに示すことができる。

方法１０８０は、ブロックＢ１０１０において、取得したデータの処理が完了したという指示を受信するステップを含む。たとえば、処理が完了すると、プロセッサは、処理が完了したことをＤＭＡシステム１０５０に示すことができ、その時点で、データの次のタイルがデスティネーションのメモリにロードされ得（又はプリロードされていてもよい）、ＤＭＡシステム１０５０は、プロセッサにこれを示すことができる。

ＶＰＵを使用して、領域に依存するデータの移動のためにＤＭＡシステムを設定する
処理コントローラは、既知のデータ・パターンをフェッチするとき、ダイレクト・メモリ・アクセス（ＤＭＡ）システムを設定することができ、プロセッサ（たとえば、ベクトル処理ユニット（ＶＰＵ））は、ＤＭＡをトリガ及びシーケンス処理することができる。しかし、不規則な又は未知のデータ・パターンについて、様々なデータ・ポイント又は特徴を処理する場合、特徴又は対象物の位置を動的に計算するので、データ移動の再設定に課題が生じることがある。たとえば、対象物追跡アルゴリズム、特徴追跡アルゴリズム、対象物検出アルゴリズム、可変サイズの関心領域（ＲＯＩ：ｒｅｇｉｏｎｓｏｆｉｎｔｅｒｅｓｔ）を使用する深層学習アルゴリズム、及び／又は他の領域依存のデータ移動アルゴリズムでは、ＤＭＡシステムは、ＶＰＵなどのプロセッサが、処理するための適切な情報を取得できるように、アドレスとデータとのペアを動的に調整する必要がある。従来のシステムでは、対象物追跡などにおいて、未知のデータ・パターンをフェッチする場合、処理コントローラ（たとえば、プログラム可能なビジョン・アクセラレータ（ＰＶＡ）を制御する、Ｒ５プロセッサ・コア）は、プロセッサ（たとえば、ＶＰＵ）によって計算された、更新された情報を判断して、次の反復に向けてＤＭＡを再設定するための、処理サイクルに介入する割込みを必要とし得る。このため、処理コントローラは、たとえば、短い応答時間が必要な追跡アルゴリズムに、余分なレイテンシをもたらす。

処理コントローラによる介入を必要とする従来のシステムの欠点を考慮して、本開示のシステム及び方法は、ＤＭＡ及びプロセッサ（たとえば、ＶＰＵ）を使用して、ＤＭＡが、プロセッサの出力に基づいて、ＤＭＡの記述子の再設定を可能にする、密結合型の処理ループを設定することができる。したがって、ＤＭＡは、実行時に動的に再プログラミングされ、領域に依存するデータの移動を必要とする、特定のアルゴリズムを扱うことができる。このＶＰＵ設定モードを使用して、ＤＭＡの記述子を更新し、実行時のＶＰＵの計算に基づいて、位置を含む特徴データを追跡することができる。このため、ＶＰＵは、ＶＭＥＭなどのメモリ内の、アドレスとデータとのペアのリストを指定し、次いでＤＭＡをトリガしてＤＭＡ自体の記述子を更新し、新しく計算されたアドレスを有する領域からデータを収集することができる。ＶＰＵとＤＭＡとの間のインタフェースに依存することにより、処理コントローラ（たとえば、Ｒ５又はＡＲＭ処理コア）が、処理を開始するために最初にＶＰＵ及びＤＭＡを設定すると、処理コントローラの介入は不要となり得る。したがって、機能記述子を更新するための、このバルクの高速な同期ＭＭＩＯアクセスにより、対象物追跡、特徴追跡、対象物検出、深層学習、及び／又は領域に依存するデータの移動を伴う他のアルゴリズムのレイテンシが減少する。

ここで図１１Ａを参照すると、図１１Ａは、本開示のいくつかの実施例による、ベクトル処理ユニット（ＶＰＵ）を使用してダイレクト・メモリ・アクセス（ＤＭＡ）システムを設定するプロセスの、データ・フロー図１１００を示している。本明細書に説明されるこの配置及び他の配置は、単に実例として示されていることを理解されたい。図示されているものに加えて、又は図示されているものの代わりに、他の配置及び要素（たとえば、機械、インタフェース、機能、順序、機能のグループ化など）が使用されてもよく、一部の要素が完全に省略されてもよい。さらに、本明細書で説明される要素の多くは、個別の若しくは分散された構成要素として、又は他の構成要素と組み合わせて、任意の好適な組合せ及び位置で実施され得る、機能的なエンティティである。エンティティによって実行されるものとして本明細書に説明されている様々な機能は、ハードウェア、ファームウェア、及び／又はソフトウェアによって実行され得る。たとえば、様々な機能は、メモリにストアされた命令を実行するプロセッサによって実行され得る。いくつかの実施例では、処理１１００は、図１３Ａ～図１３Ｄの例示的な自律型車両１３００、図１４の例示的なコンピュータ処理デバイス１４００、及び／又は図１５の例示的なデータ・センタ１５００のものと同様の構成要素、特徴、及び／又は機能を含むシステムによって実行され得る。

プロセス１１００を実行するシステムには、処理コントローラ１１０２（たとえば、Ｒ５プロセッサ、ＡＲＭ処理コア、命令セット・アーキテクチャ（ＩＳＡ）、Ｘ８６アーキテクチャなど）、ダイレクト・メモリ・アクセス（ＤＭＡ）システム１１０４、ベクトル処理ユニット（ＶＰＵ）１１０８（又は別のプロセッサ・タイプ）、ベクトル・メモリ（ＶＭＥＭ）１１１０（又は別のメモリ・タイプ）、及び記述子ＲＡＭ１１０６が含まれ得る。実際には、ＶＰＵ設定モードは、非連続のアドレス／データのペアのシーケンスを、ＤＭＡ記述子ＳＲＡＭに書き込むことによって、ＤＭＡ記述子を設定することができる。プロセス１１００は、例示的な特徴又は対象物追跡アルゴリズムに関して説明され得る。しかし、これは限定することを意図するものではなく、プロセス１１００及び基礎となるシステムを使用して、領域に依存するデータの移動を伴うような、任意のタイプのアルゴリズムを実行することができる。

たとえば、第１の動作には、一部のデータに対して処理を実行するようにＤＭＡ１１０４及びＶＰＵ１１０８を設定し、次いでＤＭＡ１１０４及びＶＰＵ１１０８の両方が処理を行うようトリガする、処理コントローラ１１０２が含まれ得る。たとえば、処理コントローラ１１０２は、処理のために、記述子ＲＡＭ１１０６にメモリの開始点をロードすることができ、また、ＶＰＵ１１０８がデータに対して実行する特定のタイプの動作のために、ＶＰＵ１１０８のレジスタを設定することができる。

第２の動作では、ＶＰＵ１１０８は、ＤＭＡ１１０４をトリガして、ＶＭＥＭ１１１０内の初期特徴データ・ポイントを、読み取ることができる。たとえば、ＶＰＵ１１０８は、作業を開始するために、ＤＭＡ１１０４からのデータを必要とするので、ＶＰＵ１１０８は、処理データを取得するために、ＶＭＥＭ１１１０のＶＰＵ１１０８が知っている位置にデータ・ポイントをロードするように、ＤＭＡ１１０４を設定する。

第３の動作において、ＶＰＵ１１０８は、現在の特徴データ・セットを処理し、次に追跡される対象物又は特徴の位置を計算することができる。その結果、ＶＰＵ１１０８はこの時点で、追跡される特徴又は対象物の、計算された新しい、すなわち更新された位置を有することができる。

第４の動作において、ＶＰＵ１１０８は、ＶＰＵ設定フォーマット（図１１Ｂに関連して説明される）を使用して更新された位置で、ＶＭＥＭ１１１０をアップデーテッドすることができ、次いで、ＤＭＡ１１０４をトリガして、記述子ＲＡＭ１１０６内のＤＭＡの記述子を更新することができる。たとえば、図１１Ｂは、本開示のいくつかの実施例による、ＶＰＵによってベクトル・メモリ（ＶＭＥＭ）に書き込まれ、ＤＭＡシステムによって読み取られる、ＶＰＵ設定フォーマットを示す表１１２０である。たとえば、フォーマットには、アドレス／データのペアごとに、アドレス用に４バイト、及びデータ用に４バイトが含まれ得る。

第５の動作において、ＤＭＡ１１０４は、ＶＰＵ１１０８による処理の次の反復に向けて、適切なデータを取得するために、記述子ＲＡＭ１１０６内の記述子を更新することができる。たとえば、ＤＭＡ１１０４は、アドレス／データのペア形式ＶＰＵ設定フォーマットを読み取り、更新された位置で動作記述子にパッチを当てることができる。実施例では、特徴点と記述子との間が１対１の対応であり得、したがって、追跡される各特徴、対象物、又はポイントには、関連する記述子が含まれ得る。このようにして、追跡される特徴、対象物、又はポイントごとのアドレス／データのペアは、個々の記述子を使用して、経時的に更新され得る。

第６の動作において、ＤＭＡ１１０４は、記述子ＲＡＭ１１０６内の新しく更新された記述子を使用して、位置に対する新しい特徴データをフェッチすることができる。たとえば、ＤＭＡ１１０４は、記述子が更新されたことをＶＰＵ１１０８に示すことができ、またＶＰＵ１１０８は、ＤＭＡ１１０４をトリガし、ＶＭＥＭ１１１０に対して、新しいデータを読み取ることができ、以下同様である。

結果として、処理コントローラによる第１の設定動作の後、動作２から６が繰り返されて、処理コントローラの介入を必要としない緊密に同期したＶＰＵ設定ループを形成し、これにより、追跡又は検出アルゴリズムで必要となる短い応答時間を考慮して、レイテンシを短縮することができる。加えて、ＤＭＡ１１０４が、メモリ内のアドレスを、新しい更新されたアドレスで上書きしているので、ＤＭＡ１１０４は、ＤＭＡ１１０４が、次に何をフェッチすべきかを理解するために調べる必要のあるコードを更新している。こうすることより、アドレス及びデータに応じてレジスタを更新するのに制御バスに依存していた従来のシステムとは違って、スループットが向上する。したがって、アドレス／データのプロトコルを規定することの利点は、アドレス／データのペアが更新される方法と共に、可変量のデータを有する可変量のアドレス位置が更新され得る場合に、実現される。これにより、制御バスの幅よりも広い幅（たとえば、それぞれ５１２ビット対３２ビット）を有することができるＤＭＡ１１０４は、１度に（たとえば、これに限定されるものではないが）最大８つのアドレス／データのペアまで、更新することができる（各アドレス／データペアが、図１１Ｂのように、８バイトを使用して規定されている場合）。

さらに、ＤＭＡが、プロセス１１００のＶＰＵ設定モードを使用して更新されるように示されているが、システムの追加又は代替の要素又は構成要素が更新されてもよい。たとえば、ＶＰＵ１１０８の命令キャッシュが、ＶＰＵを使用し、同様の手法を使用して更新されてもよい。別の実例として、更新されるハードウェア・シーケンサのプログラムが、アドレス・データを与えることによってハードウェア・シーケンサ・メモリを更新するように、書かれてもよい。これには、本質的に、図１０Ｈのハードウェア・シーケンス・コントローラ１０６０用のハードウェア・シーケンサ・ＲＡＭ１０５４などの、ハードウェア・シーケンサＲＡＭに、新しいプログラムを書き込むことが含まれるであろう。

ここで図１１Ｃを参照すると、本明細書で説明される方法１１５０の各ブロックは、ハードウェア、ファームウェア、及び／又はソフトウェアの任意の組合せを使用して実行され得る、コンピュータ処理プロセスを含む。たとえば、様々な機能は、メモリにストアされた命令を実行するプロセッサによって実行され得る。方法１１５０はまた、コンピュータ記憶媒体にストアされた、コンピュータが使用可能な命令として具現化され得る。方法１１５０は、いくつか例を挙げると、独立型アプリケーション、サービス若しくはホステッド・サービス（独立型の、又は別のホステッド・サービスとの組合せ）、又は別の製品へのプラグインによって提供され得る。加えて、方法１１５０は、図１１Ａのシステムに関して説明されており、方法１１５０は、本明細書に説明されているものを含むがこれに限定されるものではない、任意の１つのシステム、構造体、若しくは構成要素、又はシステム、構造体、若しくは構成要素の任意の組合せによって実行され得る。

図１１Ｃは、本開示のいくつかの実施例による、ＶＰＵを使用してＤＭＡシステムを設定する方法１１５０の流れ図である。方法１１５０は、ブロックＢ１１０２において、プロセッサを使用して、またＤＭＡシステムを使用してメモリに書き込まれた第１のデータに少なくとも部分的に基づいて、追跡される特徴の１つ又は複数の第１の更新された位置に対応する、第１の出力を計算するステップを含む。たとえば、ＶＰＵ１１０８は、ＤＭＡ１１０４を使用して、ＶＭＥＭ１１１０に書き込まれたＶＭＥＭ１１１０からのデータにアクセスすることができ、追跡される特徴、対象物、ポイントなどに対応する、１つ又は複数の対象物の位置を計算するために、データを処理することができる。

方法１１５０は、ブロックＢ１１０４において、プロセッサを使用して、１つ又は複数の第１の更新された位置に対応する、１つ又は複数のアドレス／データのペアを表す第２のデータを含むように、メモリを更新するステップを含む。たとえば、ＶＰＵ１１０８は、１つ又は複数の位置を計算した後、ＶＭＥＭ１１１０の、図１１Ｂに関連して説明されたフォーマットなどのフォーマットにおけるアドレス／データのペアを、更新することができる。

方法１１５０は、ブロックＢ１１０６において、ＤＭＡシステムを使用して、また１つ又は複数のアドレス／データのペアに少なくとも部分的に基づいて、追跡される特徴に対応する１つ又は複数の記述子を更新するステップを含む。たとえば、ＤＭＡ１１０４は、ＶＭＥＭ１１１０のアドレス／データのペアにアクセスし、アドレス／データペアを使用して、次の読み取り動作のために、記述子ＲＡＭ１１０６内の記述子を更新することができる。

方法１１５０は、ブロックＢ１１０８において、ＤＭＡシステムを使用して、また１つ又は複数の記述子に少なくとも部分的に基づいて、第３のデータをメモリに書き込むステップを含む。たとえば、ＤＭＡ１１０４は、記述子を使用して識別された、アドレス／データのペアに対応する更新されたデータを、ＶＭＥＭ１１１０に書き込むことができる。

方法１１５０は、ブロックＢ１１１０において、プロセッサを使用して、また第３のデータに少なくとも部分的に基づいて、追跡される特徴の１つ又は複数の第２の更新された位置に対応する、第２の出力を計算するステップを含む。たとえば、ＶＰＵ１１０８は、更新されたデータがＶＭＥＭ１１１０内に入ると、追跡される特徴、対象物、ポイントなどに対応する、更新されたアドレス／データのペアの次のセットを計算することができ、このプロセスは、処理が完了するまで繰り返すことができる。

プログラム可能なビジョン・アクセラレータ（ＰＶＡ）における恒久的障害の検出
自律型及び半自律型機械アプリケーションなどの安全性が重要なアプリケーションにおいて、恒久的障害の検出及び切離しには、厳格な要件がある。たとえば、深層学習、コンピュータ・ビジョン、センサ処理、及び／又は他の機械でのアプリケーションを実行する場合、正確なテストを可能にするためだけでなく、アプリケーションの、たとえば、短いレイテンシでの適切な実行を可能にするために、恒久的障害の検出を、定期的且つ割り当てられた時間予算内で実行する必要がある。自動車安全性水準（ＡＳＩＬ：ａｕｔｏｍｏｔｉｖｅｓａｆｅｔｙｉｎｔｅｇｒｉｔｙｌｅｖｅｌ）Ｄに関して、自律型又は半自律型の機械で実行されるアプリケーションは、恒久的障害の９０％以上の網羅率（ｃｏｖｅｒａｇｅ）が必要であり得る。これを行うために、短いレイテンシで、それぞれの特定のアプリケーションが実行する時間予算を満たしながらも、１００パーセントの網羅率が必要となり得る。従来の手法では、内蔵自己テスト（ＢＩＳＴ）を使用して障害を識別するが、こうしたＢＩＳＴの技法は、十分な網羅率を含んでいない、システムに長すぎるレイテンシをもたらす、且つ／又は特定のアプリケーションを実行する時間予算を満たしていない。

こうした従来の手法の欠陥を考慮して、本システム及び方法は、たとえば、システム・オン・チップ（ＳｏＣ）のプログラム可能なビジョン・アクセラレータ（ＰＶＡ）の障害検出を実行するために、多入力シグネチャ・レジスタ（ＭＩＳＲ）でのＢＩＳＴを実行することができる。たとえば、本開示の様々な実施例では、ＰＶＡには、１つ又は複数のＤＭＡシステム、並びにＲ５プロセッサ、ＡＲＭプロセッサ、ＣＰＵ、及び／又は類似のものなどの、１つ又は複数の処理コントローラ（又は制御プロセッサ）を使用して制御される、１つ又は複数のＶＰＵが含まれ得る。そのため、ＰＶＡの各構成要素にテストが必要な場合があり、本システム及び方法は、ＭＩＳＲでのＢＩＳＴを実行して、恒久的な障害を１００パーセント検出する。このようにして、制御論理機構とデータ論理機構との両方のブロックを１００パーセント網羅し、レイテンシを減らすために安全プロセッサに直接エラーを報告し、特定のアプリケーションをカスタマイズして関連する実行時間予算を満たす、恒久的な障害検出が実行され得る。

様々な実施例において、ＭＩＳＲは、恒久的な障害検出のためのソフトウェア論理機構のＢＩＳＴを実施するために、ＰＶＡで使用され得る。図１２Ａ及び／又は図１２Ｂに関して本明細書で説明されるＭＩＳＲハードウェアには、処理コントローラを使用して、たとえば、既知のシード値で初期化される巡回冗長検査（ＣＲＣ）ハードウェアが含まれ得る。ＰＶＡアプリケーションを実行すると、処理コントローラは、タイミング予算の一部、たとえば、タイミング予算の約１０％以下を割り当てて、正しいシグネチャ又は黄金値の、決定論的な事前計算された出力を有する、既知の入力を用いた既知のソフトウェアＭＩＳＲテストを実行することができる。たとえば、タイミング予算が毎秒３０フレームに対応する場合、３フレーム以下に相当するタイミング予算が、ＭＩＳＲテストに割り当てられ得る。処理コントローラは、割り当てられた時間に、ＭＩＳＲテストを開始し、テストの完了を待って、ＭＩＳＲＣＲＣ計算を終了することができる。テストが完了すると、ＭＩＳＲハードウェアは最終的なＣＲＣ値を読み戻し、事前に計算された黄金値に対して最終的なＣＲＣ値をチェックすることができる。不一致の場合、ＭＩＳＲハードウェアは、エラーをＳｏＣの安全プロセッサに直接報告し、たとえば、アプリケーションの出力を無視させる、恒久的な障害に対処するか又は回避するなど、安全エラーを扱うためのさらなる措置をとることができる。

したがって、ＤＭＡブロック内のＭＩＳＲハードウェアは、ＰＶＡの高度拡張可能インタフェース（ＡＸＩ）マスタ・ポートのうちの１つ又は複数（たとえば、実施例ではすべて）でのトランザクションのうちの１つ又は複数（たとえば、実施例ではすべて）を監視することができる。実施例では、ＰＶＡからのすべての出力ステージを検査することにより、ＰＶＡの安全の完全性が、アプリケーションの実行時に、場合によってはＰＶＡ及び／又は別のエンジンによって使い果たされる可能性がある出力ステージ、たとえば出力情報を、破損する可能性のある恒久的な不具合に対して、チェックされ得る。したがって、ＭＩＳＲハードウェアは、ＰＶＡの様々なブロック（たとえば、処理コントローラ、ＶＰＵ、及びＤＭＡシステム）にわたってエラーを検出することができる。というのは、出力ステージを作り出すことに関して、これらの構成要素すべてが協働し、相互作用するからである。ＭＩＳＲハードウェアで計算されたシグネチャは、ＭＩＳＲテストの期間中ずっと、ＰＶＡのこれらの様々なブロックの状態を表すことができる。

実施例では、ＭＩＳＲ方式には、ＡＸＩマスタ・ポートを離れる書込みアドレス（たとえば、４０ビット制御）と書込みデータ（たとえば、５１２ビット・データ）との両方に対するＣＲＣチェックが含まれ得る。このフィーチャが、制御パスの障害（たとえば、アドレス指定エラー）をデータ・パスの障害（たとえば、計算エラー）から切り離すことを可能にし得る。本明細書で説明されるＭＩＳＲハードウェアの設定により、各ＤＭＡのＡＸＩポートをチェックすることが可能であり得る。実施例では、制御ビットを使用して、メモリ・サブシステムの、メモリ割当て中の帯域幅の消費量を節約するために、ＭＩＳＲ計算に関与しているすべてのチャネルのアドレス及びデータ出力の書込みを、ディスエーブルすることができる。さらに、ＭＩＳＲ方式には、ＭＩＳＲ計算から特定のチャネルを除外又はマスクするために、たとえば、非安全チャネルを切り離すために、制御レジスタ・ビットがチャネルごとに含まれ得る。ＤＭＡは、実施例では、ＩＥＥＥ８０２及びＭＰＥＧＣＲＣ－３２原始多項式を使用して、ＭＩＳＲＣＲＣ：Ｘ^３２＋Ｘ^２６＋Ｘ^２３＋Ｘ^２２＋Ｘ^１６＋Ｘ^１２＋Ｘ^１１＋Ｘ^１０＋Ｘ^８＋Ｘ^７＋Ｘ^５＋Ｘ^４＋Ｘ^２＋Ｘ＋１を計算することができる。ＭＩＳＲＳＥＴレジスタを使用して、アドレスとデータとの両方のＣＲＣ計算の、ＣＲＣ初期値（たとえば、シード値）をセットすることができる。ＭＩＳＲＲＥＦレジスタを使用して、アドレスとデータとの両方のＣＲＣ計算での、ＣＲＣ値を比較することができる。

５１２ビット・データのＭＩＳＲをサポートするために、８：１ビット・データ圧縮が適用され得る。たとえば、各データ・バイトが、８＞１排他的論理和（ＸＯＲ：ｅｘｃｌｕｓｉｖｅＯＲ）演算を通して１データ・ビットに圧縮され、２×３２ビットのメッセージ・データを形成することができる。ＭＩＳＲの４０ビット・アドレスをサポートするために、９つの最上位ビットが圧縮され得る。たとえば、９つの最上位アドレス・ビットが、９＞１ＸＯＲ演算を通して圧縮され、３２ビットのメッセージ・アドレスを形成することができる。テスト・パターン及び命令の多様性を使用して、圧縮に関係するエイリアシングをカバーすることができる。出力画像のあるバイトに偶数のエラー（ｅｖｅｎｎｕｍｂｅｒｏｆｅｒｒｏｒｓ）がある場合、エラーによる障害がアドレスＣＲＣエラーを生じさせることはないので、エイリアシングが発生する確率は低くなり得る。加えて、ＭＩＳＲテストの全期間にわたって、同じ偶数エラー・ビットの場所に同じパターンを有する出力画像に対して、参照ＣＲＣが計算され得るので、エイリアシングの可能性は低くなり得る。エイリアシングは、試験中、網羅率において、平均０．２５％のロスを引き起こすことが示された。かかる低いエイリアシングでのデータ圧縮は、バスの幅が、たとえば、実施例において５１２ビットであるので価値があり、圧縮がなければ、ＭＩＳＲテストは、システムのレイテンシ又は実行時間予算を満たさない可能性がある。

ＭＩＳＲタイマ・レジスタを使用して、ＭＩＳＲの計算をタイム・アウトにすることができ、ＭＩＳＲタイマ・レジスタは、ＡＸＩのクロックごとに減算され得る。タイム・アウトのフィーチャは、ＭＩＳＲテストがハングアップの原因となって、ＭＩＳＲハードウェアが、エラーを報告するのを阻止する可能性がある障害の場合に、役立ち得る。処理コントローラは、ＭＩＳＲテストが終了したときにＭＩＳＲ計算を停止するために、ソフトウェア・イベントを使用することができる。ＤＭＡシステムは、ＭＩＳＲＲＥＦ値を、ＭＩＳＲテストのデータ出力とアドレス出力との両方のＭＩＳＲＶＡＬ値と比較することができ、ＤＭＡハードウェアは、比較した結果に基づいて、ＭＩＳＲステータス・レジスタを更新することができる。たとえば、ＭＩＳＲステータス・レジスタには以下の値のうちの１つが含まれ得る。０：アイドル、１：完了、データ不合格、３：ビジー、４：完了、アドレスとデータとの両方が不合格、５：完了、タイム・アウトによる不合格、６：予備、及び７：完了、合格。ＭＩＳＲタイム・アウト・エラーの場合、ＤＭＡは、安全プロセッサへのタイム・アウト信号を生成することができ、データ及び／又はアドレスのＣＲＣチェック・エラーの場合、ＤＭＡは、安全プロセッサに対して安全エラーをアサートすることができる。

図１２Ａを参照すると、図１２Ａは、本開示のいくつかの実施例による、プログラム可能なビジョン・アクセラレータ（ＰＶＡ）の巡回冗長検査（ＣＲＣ）計算を実行する、内蔵自己テスト（ＢＩＳＴ）システムの図である。本明細書に説明されるこの配置及び他の配置は、単に実例として示されていることを理解されたい。図示されているものに加えて、又は図示されているものの代わりに、他の配置及び要素（たとえば、機械、インタフェース、機能、順序、機能のグループ化など）が使用されてもよく、一部の要素が完全に省略されてもよい。さらに、本明細書で説明される要素の多くは、個別の若しくは分散された構成要素として、又は他の構成要素と組み合わせて、任意の好適な組合せ及び位置で実施され得る、機能的なエンティティである。エンティティによって実行されるものとして本明細書に説明されている様々な機能は、ハードウェア、ファームウェア、及び／又はソフトウェアによって実行され得る。たとえば、様々な機能は、メモリにストアされた命令を実行するプロセッサによって実行され得る。いくつかの実施例では、ＭＩＳＲハードウェア１２５０は、図１０ＨのＤＭＡシステム１０５０、図１３Ａ～図１３Ｄの例示的な自律型車両１３００、図１４の例示的なコンピュータ処理デバイス１４００、及び／又は図１５の例示的なデータ・センタ１５００のものと同様の構成要素、特徴、及び／又は機能を含むことができる。たとえば、ＭＩＳＲハードウェア１２００は、図１０Ｈに示されているような、ＰＶＡのＤＭＡブロックに含まれ得る。したがって、ＭＩＳＲハードウェア１２００は、データ移動の出力ステージで動作することができ、アドレス指定（又は制御）は、ＤＭＡエンジン１０５６の出力を利用する（ｔａｐｐｉｎｇｉｎｔｏ）ことができる。図１２Ａの実例では、１６個のＡＸＩデータ・チャネル及び１６個のＡＸＩアドレス（又は制御）チャネルがあり得る。しかし、これは限定することを意図するものではなく、実施例に応じて、任意の数（及び／又はタイプ）のデータ及び／又はアドレス・チャネルが使用され得る。

動作中、処理コントローラは、ＤＭＡシステム１０５０及びＭＩＳＲハードウェア１２００、並びにＶＰＵなどのシステムの１つ又は複数の処理構成要素を制御することができる。ＤＭＡシステム１０５０のＭＩＳＲテストを実行する場合、実施例では、テスト・コードには、すべて０、すべて１、０及び１が交互、並びに／又は不規則なコード・シーケンスが含まれ得る。このようにして、ＤＭＡシステム１０５０について、高い網羅率が達成され得る。たとえば、ＶＰＵをテストする場合、テスト・コードには、アプリケーション固有の又はカスタマイズされたコードが含まれ得る。たとえば、特定のアプリケーションに対する網羅率でのテスト中に、使用されるＶＰＵの構成要素又は部分（たとえば、レジスタ、論理機構など）が判断され得、そうしたＶＰＵの特定の構成要素又は部分が、テスト・コードを実行する際に含まれるように、テスト・コードが生成され得る。たとえば、ＶＰＵの論理機構の様々なエリアを使用するために、様々な命令によってテストがシーケンス処理されるように、様々な命令に応じたこの不規則データが、テスト・コードに含まれ得る。このようにして、ＶＰＵ全般についての、具体的には、ＶＰＵで実行する特定のアプリケーションについての網羅率が高まる。このようにしてＤＭＡ及びＶＰＵテストを実行することにより、また処理コントローラが、様々な構成要素（たとえば、ＤＭＡシステム１０５０及びＶＰＵ）間の制御及び相互作用に関与するので、処理コントローラは、データの移動及びアドレス指定の出力が、処理コントローラの相互作用の影響を受けているために、高い網羅率を有することができる。

テスト中、様々なコード・パターンが使用される場合、コード・パターンは、交互のパターンで使用され得るか、又は１つのコードが第１の時間枠（たとえば、３０ｆｐｓに相当する時間）に使用され得、別のコードが第２の時間枠（たとえば、３０ｆｐｓに相当する時間）に使用され得、別のコードが第３の時間枠（たとえば、３０ｆｐｓに相当する時間）で使用され得、以下同様である。たとえば、ＤＭＡコードの実例では、０のコードが第１の時間枠に使用され得、次いで、１のコードが第２の時間枠に使用され得、次いで、０及び１を交互に繰り返すコード（たとえば、０１０１０１０１０１・・・）が第３の時間枠に使用され得、次いで、不規則なコード（たとえば、０１１１００１０００１０・・・）が第４の時間枠に使用され得、次いで、これらの４つのコードが繰り返され得、以下同様である。

実際には、たとえば、ＤＭＡをテストするとき、処理コントローラは、ＭＩＳＲ制御部１２０６と相互作用して、ＭＩＳＲデータ・セット・レジスタ１２１０及びＭＩＳＲアドレス・セット・レジスタ１２１６に、セットされた参照値を書き込むことができる。これらの値は、データ及びアドレスに対して異なり得、ＣＲＣ計算のシード値と呼ばれる得る。処理コントローラは、次いで、ＤＭＡエンジン１０５６内でデータ移動を実行しているチャネルを初期化することができ、メモリ内のテスト・コードの位置を処理コントローラが知っているので、記述子（たとえば、記述子ＳＲＡＭ１０５２内で、処理コントローラによって設定された）を使用して、ＭＩＳＲテストのためのデータによってＤＭＡエンジン１０５６をシーケンス処理することができる。処理コントローラは、ＭＩＳＲハードウェア１２００に対してタイマ１２２６をセットして、ＭＩＳＲテストをイネーブルすることができ、次いで、ＤＭＡエンジン１０５６のチャネルをトリガして、ソース・デスティネーションからのテスト・データの読取りを開始し、データを、ＭＩＳＲテストのために、ＭＩＳＲハードウェア１２００へ出力することができる。したがって、ＤＭＡをテストするとき、データ移動がテストされている（たとえば、適切なアドレス指定及びアドレス指定位置における正確なデータ）ので、ＭＩＳＲハードウェア１２００は、テスト・コードのデータ移動を実行するときに、ＤＭＡエンジン１０５６の出力を利用することができる。この出力ステージの利用は、外部メモリとして図１２Ａに示され得、これは、処理コントローラによってシーケンス処理されると、１度に１つのデータ・チャネル及び１度に１つのアドレス・チャネルに送り込まれ得る。たとえば、データ・チャネルでは、処理コントローラは、たとえば、１６個のデータ・チャネルのそれぞれを通じてシーケンス処理することができ、チャネルごとに対応するＡＸＩ書込みデータ（ｗｄａｔａ）は、ＣＨ０～ＣＨ１６のデータＣＲＣ計算部１２０２を通って、たとえば連続して、供給され得る。たとえば、処理コントローラは、処理コントローラによって設定されたシーケンスに従って、チャネルを通して１度に１つずつシーケンス処理するように、チャネル出力レジスタ１２２０を設定することができる。実施例では、チャネル・マスク・レジスタ１２０８（たとえば、処理コントローラとの相互作用に基づいて、ＭＩＳＲ制御部１２０６によってプログラミングされる）は、様々なチャネル、たとえば、テストされていないチャネルを、ＣＲＣ計算からマスク・アウト又は排除するように、処理コントローラによって設定され得る。このマスキングは、実施例では、ＡＮＤゲートを使用して実行され得る。１つ又は複数のチャネルがマスク・アウトされる場合、ＭＩＳＲデータ参照レジスタ１２２２内の黄金値（処理コントローラによって、ＭＩＳＲ制御部１２０６に供給され得る）は、マスクされていないチャネルのＣＲＣ計算にしか対応し得ない。マスクされていないチャネルごとに、メモリから読み取られたテスト・コードを使用して生成されたチャネルのデータが（たとえば、圧縮の有無にかかわらず）、ＣＲＣデータ計算部１２０２の多項式に適用され、そのチャネルのＭＩＳＲデータ値１２１４を生成することができる。チャネルの計算が終了すると、処理コントローラは、指示を受信することができ、データの次のチャネルをＣＲＣ計算部１２０２に送信させ、次のＭＩＳＲデータ値１２１４を計算することができ、マスクされていないチャネルのそれぞれが、対応するＭＩＳＲデータ値１２１４を有するまで、以下同様である。特定の反復についての、ＭＩＳＲデータ値１２１４のそれぞれが計算されると、これらの値１２１４が組み合わされ、ＭＩＳＲデータ参照レジスタ１２２２内の黄金値と比較され得る、最終のＭＩＳＲデータ値を生成し、（たとえば、上記の０～７の値に対応するステータスが含まれ得る）確定したＭＩＳＲデータ・ステータスを生成することができる。

別の実例として、アドレス・チャネルについて、処理コントローラは、たとえば、１６個のアドレス又は制御チャネルのそれぞれを通じてシーケンス処理することができ、チャネルごとに対応するＡＸＩ書込みアドレス（ｗａｄｄｒｅｓｓ）は、ＣＨ０～ＣＨ１６のアドレスＣＲＣ計算部１２０４を通って、たとえば連続して、供給され得る。実施例では、チャネル・マスク・レジスタ１２０８は、様々なチャネル、たとえば、テストされていないチャネルを、ＣＲＣ計算からマスク・アウト又は排除するように、処理コントローラによって設定され得る。このマスキングは、実施例では、ＡＮＤゲートを使用して実行され得る。１つ又は複数のチャネルがマスク・アウトされる場合、ＭＩＳＲデータ参照レジスタ１２２４内の黄金値は、マスクされていないチャネルのＣＲＣ計算にしか対応し得ない。マスクされていないチャネルごとに、メモリから読み取られたテスト・コードを使用して生成されたチャネルのアドレスが（たとえば、圧縮の有無にかかわらず）、ＣＲＣアドレス計算部１２０４の多項式に適用され、そのチャネルのＭＩＳＲアドレス値１２１８を生成することができる。チャネルの計算が終了すると、処理コントローラは、指示を受信することができ、アドレス・データの次のチャネルをＣＲＣ計算部１２０４に送信させ、次のＭＩＳＲアドレス値１２１８を計算することができ、マスクされていないチャネルのそれぞれが、対応するＭＩＳＲアドレス値１２１８を有するまで、以下同様である。特定の反復についての、ＭＩＳＲアドレス値１２１８のそれぞれが計算されると、これらの値１２１８が組み合わされ、ＭＩＳＲアドレス参照レジスタ１２２４内の黄金値と比較され得る、最終のＭＩＳＲアドレス値を生成し、（たとえば、上記の０～７の値に対応するステータスが含まれ得る）確定したＭＩＳＲアドレス・ステータスを生成することができる。

いくつかの実施例では、ＭＩＳＲテストは、最初のコードが処理され得、出力がテストされ得、次いで、出力が、テストされ得る次の反復に使用され得、以下同様となるような、反復型であり得る。かかる実施例では、ＭＩＳＲテストには、複数のステージが含まれ得、ＭＩＳＲテストの完了には、各ステージを実行することが含まれ得る。

ＭＩＳＲハードウェア１２００が、特にＶＰＵをテストするのに使用される場合、たとえば、ＤＭＡシステム１０５０は、テスト・コードをＶＭＥＭに移動することができ、ＶＰＵは、テスト・コードを処理し、結果をＶＭＥＭに書き戻すことができ、ＤＭＡエンジン１０５６は、ＶＭＥＭから結果を読み取り、デスティネーションの位置に戻すことができる。結果をデスティネーションの位置に書き戻すとき、ＭＩＳＲハードウェア１２００は、ＤＭＡ出力を利用して、データ（たとえば、データ及びアドレスを含む）に対してＭＩＳＲを実行し、本明細書で論じられるのと同様のＭＩＳＲを実行することができる。このようにして、ＶＰＵとテスト・コードとの相互作用は、ＭＩＳＲハードウェア１２００を使用してテストされ得る。

ＭＩＳＲテストの完了後、処理コントローラは、割込みを受信することができる。たとえば、処理コントローラは完了割込みを受信することができ、エラーがない場合は、次のＭＩＳＲテスト・サイクルを待つことができる。割込みがエラー割込みである場合、エラーのタイプ、たとえば、データ不合格、アドレス不合格、両方不合格などが判別され得、安全エラーが安全プロセッサにアサートされ得る。いくつかの実施例では、ＭＩＳＲハードウェア１２００が、ハングアップ又はアイドル状態になる（たとえば、タイム・アウト・エラーとなる）場合、たとえば、ＤＭＡは、ＳｏＣの安全プロセッサへのタイム・アウト信号を生成することができる。

いくつかの実施例では、ＭＩＳＲ算出をスピード・アップし、チャネル－ＭＩＳＲ計算を順番に並べることも多段化することもなく、１つ又は複数（たとえば、実施例では、１６個などすべて）のチャネルでＣＲＣを計算するために、チャネルは、ＡＸＩのＩＤフィールドに存在するチャネルＩＤに基づいて多重分離され、チャネル計算を並列化することができる。たとえば、ＣＲＣ計算が様々な速度で完了するため、図１２Ａの手法は、チャネルの、次々に連続する処理を含んでいた。しかし、下記で説明される図１２Ｂのシステムを使用して、こうした計算は並行して完了され得る。たとえば、処理コントローラがＭＩＳＲ計算を終了すると、ＭＩＳＲコントローラは、すべてのチャネル出力をシーケンス処理して、アドレス出力とデータ出力との両方の参照値又は黄金値と比較され得る、最終的なシグネチャを計算することができる。このフィーチャは、たとえば、すべてのチャネルに対して同じ制御レジスタが使用され得るので、追加のプログラマ・レジスタ・インタフェースの必要なしに、恒久的な障害の検出をスピード・アップすることができる。

したがって、図１２Ｂを参照すると、図１２Ｂは、本開示のいくつかの実施例による、プログラム可能なビジョン・アクセラレータ（ＰＶＡ）の並列チャネル巡回冗長検査（ＣＲＣ）計算のための、内蔵自己テスト（ＢＩＳＴ）システムの図である。本明細書に説明されるこの配置及び他の配置は、単に実例として示されていることを理解されたい。図示されているものに加えて、又は図示されているものの代わりに、他の配置及び要素（たとえば、機械、インタフェース、機能、順序、機能のグループ化など）が使用されてもよく、一部の要素が完全に省略されてもよい。さらに、本明細書で説明される要素の多くは、個別の若しくは分散された構成要素として、又は他の構成要素と組み合わせて、任意の好適な組合せ及び位置で実施され得る、機能的なエンティティである。エンティティによって実行されるものとして本明細書に説明されている様々な機能は、ハードウェア、ファームウェア、及び／又はソフトウェアによって実行され得る。たとえば、様々な機能は、メモリにストアされた命令を実行するプロセッサによって実行され得る。いくつかの実施例では、ＭＩＳＲハードウェア１２５０は、図１０ＨのＤＭＡシステム１０５０、図１３Ａ～図１３Ｄの例示的な自律型車両１３００、図１４の例示的なコンピュータ処理デバイス１４００、及び／又は図１５の例示的なデータ・センタ１５００のものと同様の構成要素、特徴、及び／又は機能を含むことができる。たとえば、ＭＩＳＲハードウェア１２５０は、図１０Ｈに示されているような、ＰＶＡのＤＭＡブロックに含まれ得る。したがって、ＭＩＳＲハードウェア１２５０は、データ移動の出力ステージで動作することができ、アドレス指定（又は制御）は、ＤＭＡエンジン１０５６の出力を利用することができる。図１２Ａの実例では、１６個のＡＸＩデータ・チャネル及び１６個のＡＸＩアドレス（又は制御）チャネルがあり得る。しかし、これは限定的することを意図するものではなく、実施例に応じて、任意の数（及び／又はタイプ）のデータ及び／又はアドレス・チャネルが使用され得る。

ＭＩＳＲハードウェア１２５０は、ＭＩＳＲハードウェア１２５０が並列データ・チャネル及び並列アドレス・チャネルのＣＲＣ計算用に設定され得ることを除いて、図１２ＡのＭＩＳＲハードウェア１２００と同様に動作することができる。たとえば、処理コントローラは、データのＣＲＣ計算部１２６０Ａ～１２６０Ｎごとに（それぞれ、ＡＸＩデータ・チャネル０～１５に対応する）シード値又は参照値をセットするために、ＭＩＳＲデータ・セット・レジスタ１２５６を設定することができ、またアドレスのＣＲＣ計算部１２６２Ａ～１２６２Ｎごとに（それぞれ、ＡＸＩアドレス・チャネル０～１５に対応する）シード値又は参照値をセットするために、ＭＩＳＲアドレス・セット・レジスタ１２５８を設定することができる。次いで、図１２Ａに関して説明されたのと同様の処理コントローラは、ＤＭＡシステム１０５０がデータをあちこちに移動させるための、データ移動（たとえば、ＤＭＡテストのための）及び／又はＶＰＵ処理（たとえば、ＶＰＵ固有のテストのための）をトリガすることができ、ＭＩＳＲハードウェア１２５０は、テストされるべき出力ステージを利用することができる。

そのため、処理コントローラは、１６チャネルのデータをマルチプレクサ（ｍｕｘ）１２５２に送信させ、１６チャネルのアドレス・データをマルチプレクサ（ｍｕｘ）１２５４に送信させることができる。次いで、ｍｕｘ１２５２は、対応するチャネルのデータを、対応するＣＲＣ計算部１２６０Ａ～１２６０Ｎに供給することができ（たとえば、チャネル０のＡＸＩデータをチャネル０のＣＲＣ計算部１２６０に、チャネル１のデータをチャネル１のＣＲＣ計算部１２６０Ｂに、以下同様）、各ＣＲＣ計算部１２６０は、データ及び参照値を用いたＣＲＣ多項式を使用して、ＭＩＳＲデータ値１２８４Ａ～１２８４Ｎを計算することができる（たとえば、チャネル０のＣＲＣ計算部１２６０Ａは、ＭＩＳＲデータ０の値１２８４Ａを計算することができ、チャネル１のＣＲＣ計算部１２６０Ｂは、ＭＩＳＲデータ１の値１２８４Ｂを計算することができ、以下同様である）。次いで、ＭＩＳＲデータ値１２８４Ａ～１２８４Ｎは、処理コントローラによって設定されたＭＩＳＲ制御部１２７０からのＭＩＳＲシーケンスに従って、マルチプレクサ（ｍｕｘ）１２６４からシーケンス処理されて出ることができる。図１２Ａに関して説明されているような実施例では、１つ又は複数のチャネルが、特定のＭＩＳＲテストに含まれない場合があるので、チャネル・マスク・レジスタ１２６８が、ＭＩＳＲシーケンスを更新するために、処理コントローラによって設定され得、したがって、１つ又は複数のマスクされたチャネルに対応するＭＩＳＲデータ値１２８４は、最終のＣＲＣ値を計算するのに、チャネル０～１６のデータＣＲＣ計算部１２７４に供給されない。マスクされていないチャネルでは、ＭＩＳＲデータ値１２８４は、ＭＩＳＲシーケンスに従って、ｍｕｘ１２６４から出力され得る。このようにして、ＭＩＳＲデータ値１２８４は、ＣＲＣ計算が完了されるタイミングに応じて、ＣＲＣ計算部１２７４に送信されるのではなく、ＭＩＳＲシーケンスに従って、強制的に出力されるので、様々なチャネル及びＣＲＣ計算部１２６０の様々な計算時間が考慮される。ＭＩＳＲデータ値１２８４のＭＩＳＲシーケンスが、ｍｕｘ１２６４からＣＲＣ計算部１２７４に出力されると、ＣＲＣ計算部１２７４は、最終のＣＲＣ値を計算し、最終のＣＲＣ値をＶＡＬレジスタ１２７６にストアすることができる。次いで、ＶＡＬレジスタ１２７６内の最終のＣＲＣ値が、ＭＩＳＲデータ参照レジスタ１２７２（ＭＩＳＲ制御部１２７０によって、処理コントローラから設定される）内の黄金値と比較され、ＭＩＳＲデータのステータスを判断することができる。

同様に、処理コントローラは、アドレスの１６チャネルをマルチプレクサ（ｍｕｘ）１２５４に送信させることができ、次いで、ｍｕｘ１２５４は、対応するアドレスのチャネルを、対応するＣＲＣ計算部１２６２Ａ～１２６２Ｎに供給することができ（たとえば、チャネル０のＡＸＩアドレスをチャネル０のＣＲＣ計算部１２６２に、チャネル１のアドレスをチャネル１のＣＲＣ計算部１２６２Ｂに、以下同様）、各ＣＲＣ計算部１２６２は、アドレス及び参照値を用いたＣＲＣ多項式を使用して、ＭＩＳＲアドレス値１２８６Ａ～１２８６Ｎを計算することができる（たとえば、チャネル０のＣＲＣ計算部１２６２Ａは、ＭＩＳＲアドレス０の値１２８６Ａを計算することができ、チャネル１のＣＲＣ計算部１２６２Ｂは、ＭＩＳＲアドレス１の値１２８６Ｂを計算することができ、以下同様である）。次いで、ＭＩＳＲアドレス値１２８６Ａ～１２８６Ｎは、処理コントローラによって設定されたＭＩＳＲ制御部１２７０からのＭＩＳＲシーケンスに従って、マルチプレクサ（ｍｕｘ）１２６６からシーケンス処理されて出ることができる。図１２Ａに関して説明されているような実施例では、１つ又は複数のチャネルは、特定のＭＩＳＲテストに含まれ得ないので、チャネル・マスク・レジスタ１２６８が、ＭＩＳＲシーケンスを更新するために、処理コントローラによって設定され得、その結果、１つ又は複数のマスクされたチャネルに対応するＭＩＳＲアドレス値１２８６は、最終のＣＲＣ値を計算するのに、チャネル０～１６のアドレスＣＲＣ計算部１２８０に供給されない。マスクされていないチャネルでは、ＭＩＳＲアドレス値１２８６は、ＭＩＳＲシーケンスに従って、マルチプレクサ１２６６から出力され得る。このようにして、ＭＩＳＲアドレス値１２８６は、ＣＲＣ計算が完了されるタイミングに応じて、ＣＲＣ計算部１２８０に送信されるのではなく、ＭＩＳＲシーケンスに従って、強制的に出力されるので、様々なチャネル及びＣＲＣ計算部１２６２の様々な計算時間が考慮される。ＭＩＳＲアドレス値１２８６のＭＩＳＲシーケンスが、マルチプレクサ１２６６からＣＲＣ計算部１２８０に出力されると、ＣＲＣ計算部１２８０は、最終のＣＲＣ値を計算し、最終のＣＲＣ値をＶＡＬレジスタ１２８２にストアすることができる。次いで、ＶＡＬレジスタ１２８２内の最終のＣＲＣ値が、ＭＩＳＲアドレス参照レジスタ１２７８（ＭＩＳＲ制御部１２７０によって、処理コントローラから設定される）内の黄金値と比較され、ＭＩＳＲアドレスのステータスを判断することができる。

ＭＩＳＲデータのステータス及びＭＩＳＲアドレスのステータスは、図１２Ａに関する上記の説明と同様に、チェック及び使用され得る。

ここで図１２Ｃを参照すると、本明細書で説明される方法１２９０の各ブロックは、ハードウェア、ファームウェア、及び／又はソフトウェアの任意の組合せを使用して実行され得る、コンピュータ処理プロセスを含む。たとえば、様々な機能は、メモリにストアされた命令を実行するプロセッサによって実行され得る。方法１２９０はまた、コンピュータ記憶媒体にストアされた、コンピュータが使用可能な命令として具現化され得る。方法１２９０は、いくつか例を挙げると、独立型アプリケーション、サービス若しくはホステッド・サービス（独立型の、又は別のホステッド・サービスとの組合せ）、又は別の製品へのプラグインによって提供され得る。加えて、方法１２９０は、図１２Ａのシステムに関して説明されており、方法１２９０は、本明細書に説明されているものを含むがこれに限定されるものではない、任意の１つのシステム、構造体、若しくは構成要素、又はシステム、構造体、若しくは構成要素の任意の組合せによって実行され得る。

図１２Ｃは、本開示のいくつかの実施例による、ＰＶＡでの恒久的な障害を検出するための、実行（ＢＩＳＴ）方法１２９０の流れ図である。方法１２９０は、ブロックＢ１２０２において、処理コントローラのシーケンス処理に基づいて、ＤＭＡシステムからの複数のチャネルのデータを、１度に１チャネル受信するステップを含む。たとえば、ＭＩＳＲハードウェア１２００は、処理コントローラによって判断されたシーケンス処理に従って、１度に１つのチャネルのデータ（又は１つのチャネルのアドレス・データ）を受信することができる。

方法１２９０は、ブロックＢ１２０４において、ＭＩＳＲ値を計算するために、チャネルごとに、ＣＲＣ計算の多項式及びチャネルに対応するそれぞれのデータを使用してＣＲＣ計算を実行することにより、複数のＭＩＳＲ値を計算するステップを含む。たとえば、チャネルごとに、ＣＲＣ計算部１２０２（又はアドレスの場合は１２０４）は、チャネルからのデータ（又はアドレス）及びＣＲＣ計算部１２０２の多項式を使用して、ＭＩＳＲデータ値１２１４（又はアドレスの場合はＭＩＳＲアドレス値１２１６）を計算することができる（ＣＲＣＭＩＳＲデータ・セット・レジスタ１２１０又はＭＩＳＲアドレス・セット・レジスタ１２１６から、シード値を用いて開始する）。

方法１２９０は、ブロックＢ１２０６において、複数のＭＩＳＲ値を使用して、最終のＭＩＳＲ値を計算するステップを含む。たとえば、各チャネルからのＭＩＳＲデータ値１２１４（又は各チャネルからのＭＩＳＲアドレス値）が組み合わされ、最終のＭＩＳＲ値を生成することができる。

方法１２９０は、ブロックＢ１２０８において、最終のＭＩＳＲ値をシグネチャの値と比較するステップを含む。たとえば、個々のＭＩＳＲ値１２１４（又はアドレス値１２１６）から生成された最終のＭＩＳＲ値は、ＭＩＳＲデータ参照レジスタ１２２２（又はアドレスの場合は、ＭＩＳＲアドレス参照レジスタ１２２４）のシグネチャ又は黄金値と比較され得る。

方法１２９０は、ブロックＢ１２１０において、比較に少なくとも部分的に基づいて、ＭＩＳＲステータスを出力するステップを含む。たとえば、ブロックＢ１２０８での比較に基づいて、ステータス、たとえば、データ不合格、アドレス不合格、両方不合格、完了などが判断され得、このステータスを使用して、ＳｏＣの安全プロセッサに、エラー・ステータスが生成された場所を通知することができる。

例示的な自律型車両
図１３Ａは、本開示のいくつかの実施例による、例示的な自律型車両１３００の図である。自律型車両１３００（或いは、本明細書では「車両１３００」と呼ばれる）には、これらに限定されるものではないが、自動車、トラック、バス、緊急対応車両、シャトル、電気若しくは電動自転車、オートバイ、消防車、警察車両、救急車、ボート、建設車両、水中航空機、ドローン、トレーラに連結された車両、及び／又は別のタイプの車両（たとえば、無人の、及び／又は１人又は複数の乗客を収容する）などの乗用車が含まれ得る。自律型車両は、一般に、米国運輸省の一部門である米国運輸省道路交通安全局（ＮＨＴＳＡ：ＮａｔｉｏｎａｌＨｉｇｈｗａｙＴｒａｆｆｉｃＳａｆｅｔｙＡｄｍｉｎｉｓｔｒａｔｉｏｎ）及び自動車技術者協会（ＳＡＥ：ＳｏｃｉｅｔｙｏｆＡｕｔｏｍｏｔｉｖｅＥｎｇｉｎｅｅｒｓ）によって規定された、「ＴａｘｏｎｏｍｙａｎｄＤｅｆｉｎｉｔｉｏｎｓｆｏｒＴｅｒｍｓＲｅｌａｔｅｄｔｏＤｒｉｖｉｎｇＡｕｔｏｍａｔｉｏｎＳｙｓｔｅｍｓｆｏｒＯｎ－ＲｏａｄＭｏｔｏｒＶｅｈｉｃｌｅｓ」（２０１８年６月１５日に公開された規格番号Ｊ３０１６－２０１８０６、２０１６年９月３０日に公開された規格番号Ｊ３０１６－２０１６０９、並びにこの規格の以前のバージョン及び将来のバージョン）で、自動化レベルに関して説明されている。車両１３００は、自律運転レベルのレベル３～レベル５のうちの１つ又は複数に従って、機能することが可能であり得る。たとえば、車両１３００は、実施例に応じて、条件付き自動化（レベル３）、高自動化（レベル４）、及び／又は完全自動化（レベル５）が可能であり得る。

車両１３００には、シャーシ、車体、車輪（たとえば、２、４、６、８、１８輪など）、タイヤ、車軸、及び車両の他の構成要素などの、構成要素が含まれ得る。車両１３００には、内燃機関、ハイブリッド発電機、全電気エンジン、及び／又は別の推進システム・タイプなどの推進システム１３５０が含まれ得る。推進システム１３５０は、車両１３００の推進を可能にする、トランスミッションが含まれ得る、車両１３００の駆動列に連結され得る。推進システム１３５０は、スロットル／アクセラレータ１３５２からの信号の受信に応答して制御され得る。

ハンドルが含まれ得るステアリング・システム１３５４を使用して、推進システム１３５０が動作しているとき（たとえば、車両が動いているとき）に、車両１３００を（たとえば、所望の経路又はルートに沿って）動かすことができる。ステアリング・システム１３５４は、ステアリング・アクチュエータ１３５６から信号を受信することができる。完全自動化（レベル５）機能では、ハンドルはオプションであり得る。

ブレーキ・センサ・システム１３４６を使用して、ブレーキ・アクチュエータ１３４８及び／又はブレーキ・センサからの信号を受信するのに応答して、車両ブレーキを作動させることができる。

１つ又は複数のシステム・オン・チップ（ＳｏＣ）１３０４（図１３Ｃ）及び／又はＧＰＵが含まれ得るコントローラ１３３６は、車両１３００の１つ又は複数の構成要素及び／又はシステムに、信号（たとえば、コマンドを表す）を供給することができる。たとえば、コントローラは、信号を送信して、１つ又は複数のブレーキ・アクチュエータ１３４８を使って、車両ブレーキを作動させ、１つ又は複数のステアリング・アクチュエータ１３５６を使って、ステアリング・システム１３５４を作動させ、１つ又は複数のスロットル／アクセラレータ１３５２を使って、推進システム１３５０を作動させることができる。コントローラ１３３６には、センサ信号を処理する、１つ又は複数のオンボード（たとえば、一体型）コンピュータ処理デバイス（たとえば、スーパーコンピュータ）が含まれ、自律運転を可能にし、且つ／又は車両１３００を運転する際の人間の運転手を支援するための、動作コマンド（たとえば、コマンドを表す信号）を出力することができる。コントローラ１３３６には、自律運転機能用の第１のコントローラ１３３６、実用的安全機能用の第２のコントローラ１３３６、人工知能機能（たとえば、コンピュータ・ビジョン）用の第３のコントローラ１３３６、インフォテインメント機能用の第４のコントローラ１３３６、緊急状態での冗長性のための第５のコントローラ１３３６、及び／又は他のコントローラが含まれ得る。いくつかの実例では、ただ１つのコントローラ１３３６が、上記の機能のうちの２つ以上を扱ってもよく、２つ以上のコントローラ１３３６が、ただ１つの機能を扱ってもよく、且つ／又はこれらの機能の任意の組合せであってもよい。

コントローラ１３３６は、１つ又は複数のセンサから受信したセンサ・データ（たとえば、センサ入力）に応答して、車両１３００の１つ又は複数の構成要素及び／又はシステムを制御する信号を供給することができる。センサ・データは、たとえば、これらに限定されるものではないが、全地球航法衛星システム用センサ１３５８（たとえば、全地球測位システム用センサ）、レーダ・センサ１３６０、超音波センサ１３６２、ライダ・センサ１３６４、慣性測定ユニット（ＩＭＵ：ｉｎｅｒｔｉａｌｍｅａｓｕｒｅｍｅｎｔｕｎｉｔ）センサ１３６６（たとえば、加速度計、ジャイロスコープ、磁気コンパス、磁気計など）、マイク１３９６、ステレオ・カメラ１３６８、広視野カメラ１３７０（たとえば、魚眼カメラ）、赤外線カメラ１３７２、サラウンド・カメラ１３７４（たとえば、３６０度カメラ）、遠距離及び／又は中距離カメラ１３９８、スピード・センサ１３４４（たとえば、車両１３００のスピードを測定するための）、振動センサ１３４２、ステアリング・センサ１３４０、ブレーキ・センサ（たとえば、ブレーキ・センサ・システム１３４６の一部として）、及び／又は他のセンサ・タイプから受信され得る。

１つ又は複数のコントローラ１３３６は、車両１３００の計器クラスタ１３３２から入力（たとえば、入力データによって表される）を受信し、マンマシン・インタフェース（ＨＭＩ：ｈｕｍａｎ－ｍａｃｈｉｎｅｉｎｔｅｒｆａｃｅ）ディスプレイ１３３４、可聴型アナンシエータ、ラウドスピーカを介して、及び／又は車両１３００の他の構成要素を介して、出力（たとえば、出力データ、表示データなどによって表される）を供給することができる。出力には、車両速度、スピード、時間、地図データ（たとえば、図１３ＣのＨＤ地図１３２２）、位置データ（たとえば、地図上のなどの車両１３００の位置）、方向、他の車両の位置（たとえば、占有格子）、コントローラ１３３６によって知覚される対象物及び対象物のステータスに関する情報、などの情報が含まれ得る。たとえば、ＨＭＩディスプレイ１３３４は、１つ又は複数の対象物の存在に関する情報（たとえば、道路標識、注意標識、交通信号が変わる、など）、及び／又は車両が行った、行っている、若しくは行うと予想される運転操作に関する情報（たとえば、ここで車線を変更する、３．２２ｋｍ（２マイル）先で３４Ｂ出口を出る、など）を表示することができる。

車両１３００には、１つ又は複数のネットワークを介して通信するために、１つ又は複数の無線アンテナ１３２６及び／又はモデムを使用することができる、ネットワーク・インタフェース１３２４がさらに含まれる。たとえば、ネットワーク・インタフェース１３２４は、ＬＴＥ、ＷＣＤＭＡ（登録商標）、ＵＭＴＳ、ＧＳＭ、ＣＤＭＡ２０００などを介して、通信が可能であり得る。無線アンテナ１３２６はまた、ブルートゥース（登録商標）、ブルートゥース（登録商標）ＬＥ、Ｚ－Ｗａｖｅ、ＺｉｇＢｅｅなどの構内ネットワーク、及び／又はＬｏＲａＷＡＮ、ＳｉｇＦｏｘなどの低電力広域ネットワーク（ＬＰＷＡＮ：ｌｏｗｐｏｗｅｒｗｉｄｅ－ａｒｅａｎｅｔｗｏｒｋ）を使用して、環境内の物体（たとえば、車両、携帯型デバイスなど）間の通信も、可能にし得る。

図１３Ｂは、本開示のいくつかの実施例による、図１３Ａの例示的な自律型車両１３００のカメラ位置及び視野の実例である。図のカメラ及びそれぞれの視野は、１つの例示的な実施例であり、限定することを意図するものではない。たとえば、追加及び／又は代替のカメラが含まれてもよく、及び／又はカメラが、車両１３００の別の位置に配置されてもよい。

カメラのカメラ・タイプには、車両１３００の構成要素及び／又はシステムと共に使用するように適合させ得るデジタルカメラが含まれ得るが、これに限定されるものではない。カメラは、自動車安全性水準（ＡＳＩＬ）Ｂ及び／又は別のＡＳＩＬで動作することができる。カメラ・タイプは、実施例に応じて、毎秒６０フレーム（ｆｐｓ：ｆｒａｍｅｓｐｅｒｓｅｃｏｎｄ）、１２０ｆｐｓ、２４０ｆｐｓなどの、任意の画像取込みレートが可能であり得る。カメラは、ローリング・シャッタ、グローバル・シャッタ、別のタイプのシャッタ、又はこれらの組合せを使用可能であり得る。いくつかの実例では、カラー・フィルタの配列には、赤、透明、透明、透明（ＲＣＣＣ）カラー・フィルタ配列、赤、透明、透明、青（ＲＣＣＢ）カラー・フィルタ配列、赤、青、緑、透明（ＲＢＧＣ）カラー・フィルタ配列、ＦｏｖｅｏｎＸ３カラー・フィルタ配列、ベイヤ・センサ（ＲＧＧＢ）カラー・フィルタ配列、単色センサ・カラー・フィルタ配列、及び／又は別のタイプのカラー・フィルタ配列が含まれ得る。いくつかの実施例では、ＲＣＣＣ、ＲＣＣＢ、及び／又はＲＢＧＣカラー・フィルタ配列を備えたカメラなどの透明ピクセル・カメラが、光感度を高めるために使用され得る。

いくつかの実例では、１つ又は複数のカメラを使用して、高度運転者支援システム（ＡＤＡＳ）機能を、（たとえば、冗長又はフェイルセーフ設計の一部として）実行することができる。たとえば、多機能モノ・カメラが設置され、車線逸脱警報、交通標識支援、及び知的ヘッドランプ制御を含む機能を備えることができる。カメラのうちの１台又は複数台（たとえば、すべてのカメラ）が、画像データ（たとえば、ビデオ）を、同時に記録及び提供することができる。

カメラの画像データ取込み機能を妨害する可能性がある、車内からの迷光及び反射（たとえば、フロントガラスのミラーで反射された、計器盤からの反射）を遮断するために、カメラのうちの１台又は複数台が、カスタム設計された（３Ｄ印刷された）組立体などの取付け組立体に取り付けられ得る。ドアミラー取付け組立体に関しては、カメラ取付けプレートがドアミラーの形状と一致するように、ドアミラー組立体が、カスタム３Ｄ印刷され得る。いくつかの実例では、カメラは、ドアミラーに統合されてもよい。サイドビュー・カメラでは、カメラは、キャビンの各コーナにある４本の支柱内に、やはり統合されてもよい。

車両１３００の前の環境の一部を含む視野を有するカメラ（たとえば、前面カメラ）は、前方の経路及び障害物を識別するのを助け、さらに、１つ又は複数のコントローラ１３３６及び／又は制御ＳｏＣの助けを借りて、占有格子を生成し、且つ／又は好ましい車両経路を判断するのに重要な情報を提供するのを補助する、サラウンド・ビューを得るために使用され得る。前面カメラを使用して、緊急制動、歩行者検出、及び衝突回避を含む、ライダと同じＡＤＡＳ機能の多くを実行することができる。前面カメラはまた、車線逸脱警報（ＬＤＷ：ＬａｎｅＤｅｐａｒｔｕｒｅＷａｒｎｉｎｇｓ）、自律クルーズ制御（ＡＣＣ：ＡｕｔｏｎｏｍｏｕｓＣｒｕｉｓｅＣｏｎｔｒｏｌ）、及び／又は交通標識認識などの他の機能を含む、ＡＤＡＳ機能及びシステムにも使用され得る。

たとえば、ＣＭＯＳ（相補型金属酸化膜半導体：ｃｏｍｐｌｅｍｅｎｔａｒｙｍｅｔａｌｏｘｉｄｅｓｅｍｉｃｏｎｄｕｃｔｏｒ）カラー撮像素子を含む、単眼カメラ・プラットフォームを含む様々なカメラが、正面設定で使用され得る。別の実例は、周辺から視界に入ってくる物体（たとえば、歩行者、横断歩道、又は自転車）を知覚するために使用され得る、広視野カメラ１３７０であり得る。図１３Ｂには１つの広視野カメラしか示されていないが、車両１３００には、任意の数の広視野カメラ１３７０が存在し得る。加えて、遠距離カメラ１３９８（たとえば、ロングビュー・ステレオ・カメラのペア）が、深度ベースの物体検出、特にニューラル・ネットワークがまだ訓練されていない物体に使用され得る。遠距離カメラ１３９８はまた、物体検出及び分類、並びに基本的な対象物追跡にも使用され得る。

１台又は複数台のステレオ・カメラ１３６８もまた、前面の設定に含まれ得る。ステレオ・カメラ１３６８には、プログラム可能な論理回路（ＦＰＧＡ）、及びただ１つのチップ上に統合されたＣＡＮ又はイーサネット（登録商標）・インタフェースを備えた、マルチコア型マイクロプロセッサを備えることができる、拡張性のある処理ユニットを備える、一体型制御ユニットが含まれ得る。かかるユニットを使用して、画像内のすべてのポイントの距離推定を含む、車両の環境の３Ｄマップを生成することができる。代替のステレオ・カメラ１３６８には、２つのカメラ・レンズ（左右にそれぞれ１つ）が含まれ得る小型の立体視センサ、及び車両からターゲットとなる対象物までの距離を測定し、生成された情報（たとえば、メタデータ）を使用して、自律緊急制動及び車線逸脱警告機能を作動できる、画像処理チップが含まれ得る。本明細書で説明されているものに加えて、又は本明細書で説明されているものの代わりに、他のタイプのステレオ・カメラ１３６８が使用され得る。

車両１３００の側部に環境の一部を含む視野を有するカメラ（たとえば、サイドビュー・カメラ）は、サラウンド・ビュー用に使用され得、占有格子を作成及び更新するためばかりでなく、側面衝突警告を生成するためにも使用される情報を提供する。たとえば、サラウンド・カメラ１３７４（たとえば、図１３Ｂに示されている４台のサラウンド・カメラ１３７４）が、車両１３００に配置され得る。サラウンド・カメラ１３７４には、広視野カメラ１３７０、魚眼カメラ、３６０度カメラ、及び／又は類似のものが含まれ得る。４台の実例では、４台の魚眼カメラが、車両の前部、後部、及び側部に配置され得る。代替の配置では、車両は３台のサラウンド・カメラ１３７４（たとえば、左、右、及び後部）を使用することができ、１台又は複数台の他のカメラ（たとえば、前面カメラ）を第４のサラウンド・ビュー・カメラとして活用することができる。

車両１３００の後方の環境の一部を含む視野を有するカメラ（たとえば、後方視野カメラ）が、駐車支援、周囲視野、追突警告、並びに占有格子の作成及び更新に使用され得る。本明細書で説明されている、前面カメラとしても好適なカメラ（たとえば、遠距離及び／又は中距離カメラ１３９８、ステレオ・カメラ１３６８、赤外線カメラ１３７２など）を含むがこれらに限定されるものではない、多種多様なカメラが使用され得る。

図１３Ｃは、本開示のいくつかの実施例による、図１３Ａの例示的な自律型車両１３００の、例示的なシステム・アーキテクチャのブロック図である。本明細書で説明されるこの配置及び他の配置は、単に実例として示されていることを理解されたい。図示されているものに加えて、又は図示されているものの代わりに、他の配置及び要素（たとえば、機械、インタフェース、機能、順序、機能のグループ化など）が使用されてもよく、一部の要素が完全に省略されてもよい。さらに、本明細書で説明される要素の多くは、個別の若しくは分散された構成要素として、又は他の構成要素と組み合わせて、任意の好適な組合せ及び位置で実施され得る、機能的なエンティティである。エンティティによって実行されるものとして本明細書に説明されている様々な機能は、ハードウェア、ファームウェア、及び／又はソフトウェアによって実行され得る。たとえば、様々な機能は、メモリにストアされた命令を実行するプロセッサによって実行され得る。

図１３Ｃの車両１３００の構成要素、特徴、及びシステムのそれぞれは、バス１３０２を介して接続されているものとして示されている。バス１３０２には、コントローラ・エリア・ネットワーク（ＣＡＮ：ＣｏｎｔｒｏｌｌｅｒＡｒｅａＮｅｔｗｏｒｋ）データ・インタフェース（或いは、本明細書では「ＣＡＮバス」と呼ばれる）が含まれ得る。ＣＡＮは、ブレーキの作動、加速、制動、ステアリング、フロントガラスのワイパなど、車両１３００の様々なフィーチャ及び機能の制御を支援するのに使用される、車両１３００内部のネットワークであり得る。ＣＡＮバスは、それぞれが独自の一意の識別子（たとえば、ＣＡＮＩＤ）を有する、数十のノード又は数百のノードすら有するよう設定され得る。ハンドルの角度、地面のスピード、１分当たりのエンジン回転数（ＲＰＭ：ｒｅｖｏｌｕｔｉｏｎｓｐｅｒｍｉｎｕｔｅ）、釦位置、及び／又は他の車両ステータス・インジケータを調べるために、ＣＡＮバスが読み取られ得る。ＣＡＮバスは、ＡＳＩＬＢ準拠であり得る。

バス１３０２は、本明細書ではＣＡＮバスであると説明されているが、これは限定することを意図するものではない。たとえば、ＣＡＮバスに加えて、又はＣＡＮバスの代わりに、ＦｌｅｘＲａｙ及び／又はイーサネット（登録商標）が使用されてもよい。さらに、バス１３０２を表すためにただ１本の線が使用されているが、これは限定することを意図するものではない。たとえば、任意の本数のバス１３０２が存在してもよく、１本又は複数本のＣＡＮバス、１本又は複数本のＦｌｅｘＲａｙバス、１本又は複数本のイーサネット（登録商標）バス、及び／又は別のプロトコルを使用する１本又は複数本の他のタイプのバスが含まれ得る。いくつかの実例では、２本以上のバス１３０２が、相異なる機能を実行するために使用され得、且つ／又は冗長性のために使用され得る。たとえば、第１のバス１３０２は、衝突回避機能のために使用され得、第２のバス１３０２は、作動制御のために使用され得る。任意の実例において、各バス１３０２は、車両１３００の構成要素のいずれかと通信でき、２本以上のバス１３０２が、同じ構成要素と通信することができる。いくつかの実例では、車両内の各ＳｏＣ１３０４、各コントローラ１３３６、及び／又は各コンピュータは、同じ入力データ（たとえば、車両１３００のセンサからの入力）にアクセスでき、ＣＡＮバスなどの共通バスに接続され得る。

車両１３００には、図１３Ａに関して本明細書で説明されたような、１つ又は複数のコントローラ１３３６が含まれ得る。コントローラ１３３６は、様々な機能のために使用され得る。コントローラ１３３６は、車両１３００の様々な他の構成要素及びシステムのいずれかに結合され得、車両１３００の制御、車両１３００の人工知能、車両１３００用のインフォテインメント、及び／又は類似のものに使用され得る。

車両１３００には、システム・オン・チップ（ＳｏＣ）１３０４が含まれ得る。ＳｏＣ１３０４には、ＣＰＵ１３０６、ＧＰＵ１３０８、プロセッサ１３１０、キャッシュ１３１２、アクセラレータ１３１４、データ・ストア１３１６、及び／又は図示されていない他の構成要素及びフィーチャが含まれ得る。様々なプラットフォーム及びシステムにおいて、ＳｏＣ１３０４を使用して、車両１３００を制御することができる。たとえば、ＳｏＣ１３０４は、システム（たとえば、車両１３００のシステム）において、１台又は複数台のサーバ（たとえば、図１３Ｄのサーバ１３７８）から、ネットワーク・インタフェース１３２４を介してマップのリフレッシュ及び／又は更新を取得できる、ＨＤマップ１３２２と組み合わされ得る。

ＣＰＵ１３０６には、ＣＰＵクラスタ又はＣＰＵ複合体（或いは、本明細書では「ＣＣＰＬＥＸ（：ＣＰＵｃｏｍｐｌｅｘ）」と呼ばれる）が含まれ得る。ＣＰＵ１３０６には、複数のコア及び／又はＬ２キャッシュが含まれ得る。たとえば、いくつかの実施例では、ＣＰＵ１３０６には、コヒーレント・マルチプロセッサ設定で、８つのコアが含まれ得る。いくつかの実施例では、ＣＰＵ１３０６には、各クラスタが専用のＬ２キャッシュ（たとえば、２ＭＢのＬ２キャッシュ）を有する、４つのデュアルコア・クラスタが含まれ得る。ＣＰＵ１３０６（たとえば、ＣＣＰＬＥＸ）は、ＣＰＵ１３０６のクラスタの任意の組合せが、任意の所与の時間にアクティブになることを可能にする、同時クラスタ動作をサポートするよう設定され得る。

ＣＰＵ１３０６は、以下のフィーチャのうちの１つ又は複数を含む、電力管理機能を実施することができる。アイドル時に、動的な電力節約のために、個々のハードウェア・ブロックが自動的にクロックゲーティングされ得る。ＷＦＩ／ＷＦＥ命令を実行していることにより、コアがアクティブに命令を実行していないときに、各コアのクロックがゲーティングされ得る。各コアは、別個にパワーゲーティングされ得る。各コア・クラスタは、すべてのコアがクロックゲーティング又はパワーゲーティングされているときに、別個にクロックゲーティングされ得る。及び／又は各コア・クラスタは、すべてのコアがパワーゲーティングされているときに、別個にパワーゲーティングされ得る。ＣＰＵ１３０６はさらに、電力状態を管理するために、許容電力状態及び予想されるウェイクアップ時間が指定され、ハードウェア／マイクロコードが、コア、クラスタ、及びＣＣＰＬＥＸが入る最適な電力状態を判断する、拡張アルゴリズムを実施することができる。処理コアは、作業がマイクロコードにオフロードされる、ソフトウェアでの簡略化された電力状態に入るシーケンスを、サポートすることができる。

ＧＰＵ１３０８には、一体型ＧＰＵ（或いは、本明細書では「ｉＧＰＵ（：ｉｎｔｅｇｒａｔｅｄＧＰＵ）」と呼ばれる）が含まれ得る。ＧＰＵ１３０８は、プログラム可能であり得、並列の作業負荷に関して効率的であり得る。いくつかの実例では、ＧＰＵ１３０８は、拡張されたテンソル命令セットを使用することができる。ＧＰＵ１３０８には、１つ又は複数のストリーミング・マイクロプロセッサが含まれ得、各ストリーミング・マイクロプロセッサには、Ｌ１キャッシュ（たとえば、少なくとも９６ＫＢの記憶容量を有するＬ１キャッシュ）が含まれ得、ストリーミング・マイクロプロセッサのうちの２つ以上が、Ｌ２キャッシュ（たとえば、５１２ＫＢの記憶容量を有するＬ２キャッシュ）を共有することができる。いくつかの実施例では、ＧＰＵ１３０８には、少なくとも８つのストリーミング・マイクロプロセッサが含まれ得る。ＧＰＵ１３０８は、計算アプリケーション・プログラミング・インタフェース（ＡＰＩ：ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍｍｉｎｇｉｎｔｅｒｆａｃｅ）を使用することができる。加えて、ＧＰＵ１３０８は、１つ又は複数の並列コンピュータ処理プラットフォーム及び／又はプログラミング・モデル（たとえば、ＮＶＩＤＩＡのＣＵＤＡ）を使用することができる。

ＧＰＵ１３０８は、自動車及び組込み用途の場合に、最高性能を発揮するよう電力最適化され得る。たとえば、ＧＰＵ１３０８は、フィン電界効果トランジスタ（ＦｉｎＦＥＴ：Ｆｉｎｆｉｅｌｄ－ｅｆｆｅｃｔｔｒａｎｓｉｓｔｏｒ）に基づいて製造され得る。しかし、これは限定することを意図するものではなく、ＧＰＵ１３０８は、他の半導体製造プロセスを使用して製造されてもよい。各ストリーミング・マイクロプロセッサには、複数のブロックに分割された、いくつかの精度が混在する処理コアが組み込まれ得る。たとえば、これに限定されるものではないが、６４個のＰＦ３２コア及び３２個のＰＦ６４コアが、４つの処理ブロックに分割され得る。かかる実例では、各処理ブロックに、１６個のＦＰ３２コア、８個のＦＰ６４コア、１６個のＩＮＴ３２コア、深層学習マトリックス演算用の２個の精度混在ＮＶＩＤＩＡＴＥＮＳＯＲＣＯＲＥ、Ｌ０命令キャッシュ、ワープ・スケジューラ、ディスパッチ・ユニット、及び／又は６４ＫＢのレジスタ・ファイルが割り当てられ得る。加えて、ストリーミング・マイクロプロセッサには、計算とアドレス算出とを組み合わせて、作業負荷の効率的な実行を可能にする、別個の並列整数及び浮動小数点データ・パスが含まれ得る。ストリーミング・マイクロプロセッサには、並列スレッド間のよりきめ細かい同期及び連携を可能にする、別個のスレッド・スケジューリング機能が含まれ得る。ストリーミング・マイクロプロセッサには、プログラミングを簡略化しながらも性能を向上させるために、Ｌ１データ・キャッシュと共有メモリ・ユニットとの組合せが含まれ得る。

ＧＰＵ１３０８には、いくつかの実例では、約９００ＧＢ／秒のピーク・メモリ帯域幅を可能にする、広帯域幅メモリ（ＨＢＭ：ｈｉｇｈｂａｎｄｗｉｄｔｈｍｅｍｏｒｙ）及び／又は１６ＧＢＨＢＭ２メモリ・サブシステムが含まれ得る。いくつかの実例では、ＨＢＭメモリに加えて、又はＨＢＭメモリの代わりに、グラフィックス・ダブル・データ・レート・タイプ５同期ランダム・アクセス・メモリ（ＧＤＤＲ５：ｇｒａｐｈｉｃｓｄｏｕｂｌｅｄａｔａｒａｔｅｔｙｐｅｆｉｖｅｓｙｎｃｈｒｏｎｏｕｓｒａｎｄｏｍ－ａｃｃｅｓｓｍｅｍｏｒｙ）などの、同期グラフィックス・ランダム・アクセス・メモリ（ＳＧＲＡＭ：ｓｙｎｃｈｒｏｎｏｕｓｇｒａｐｈｉｃｓｒａｎｄｏｍ－ａｃｃｅｓｓｍｅｍｏｒｙ）が使用され得る。

ＧＰＵ１３０８には、メモリ・ページを、このメモリ・ページに最も頻繁にアクセスするプロセッサへ、より正確に移送することを可能にし、これによりプロセッサ間で共有されるメモリ範囲の効率を高める、アクセス・カウンタを含む統合メモリ技術が含まれ得る。いくつかの実例では、ＧＰＵ１３０８がＣＰＵ１３０６のページ・テーブルに直接アクセスするのを可能にするために、アドレス変換サービス（ＡＴＳ：ａｄｄｒｅｓｓｔｒａｎｓｌａｔｉｏｎｓｅｒｖｉｃｅ）のサポートが使用され得る。かかる実例では、ＧＰＵ１３０８のメモリ管理ユニット（ＭＭＵ：ｍｅｍｏｒｙｍａｎａｇｅｍｅｎｔｕｎｉｔ）でミスが生じると、ＣＰＵ１３０６にアドレス変換要求が伝送され得る。これに応答して、ＣＰＵ１３０６は、仮想アドレスから物理アドレスへマッピングする、ＣＰＵ１３０６のページ・テーブルを調べて、この変換をＧＰＵ１３０８に送り返すことができる。したがって、統合メモリ技術は、ＣＰＵ１３０６とＧＰＵ１３０８との両方のメモリに、ただ１つの統合仮想アドレス空間を許可し、これにより、ＧＰＵ１３０８のプログラミング及びＧＰＵ１３０８へのアプリケーションのポーティングを簡略化することができる。

加えて、ＧＰＵ１３０８には、他のプロセッサのメモリへのＧＰＵ１３０８のアクセス頻度を追跡し続けることができる、アクセス・カウンタが含まれ得る。アクセス・カウンタは、メモリ・ページが、このページに最も頻繁にアクセスしているプロセッサの物理メモリへ、確実に移動されるようにするのに役立つことができる。

ＳｏＣ１３０４には、本明細書で説明されているものを含む、任意の数のキャッシュ１３１２が含まれ得る。たとえば、キャッシュ１３１２には、ＣＰＵ１３０６とＧＰＵ１３０８との両方が利用可能である（たとえば、ＣＰＵ１３０６とＧＰＵ１３０８との両方に接続されている）Ｌ３キャッシュが含まれ得る。キャッシュ１３１２には、キャッシュ・コヒーレンス・プロトコル（たとえば、ＭＥＩ、ＭＥＳＩ、ＭＳＩなど）を使用することなどによって、ラインの状態を追跡し続けることができる、ライトバック・キャッシュが含まれ得る。Ｌ３キャッシュには、実施例に応じて、４ＭＢ以上が含まれ得るが、より小さなキャッシュ・サイズが使用されてもよい。

ＳｏＣ１３０４には、ＤＮＮを処理するなどの、車両１３００の様々なタスク又は演算のいずれかに関して、処理を実行する際に活用され得る、算術論理演算ユニット（ＡＬＵ：ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）が含まれ得る。加えて、ＳｏＣ１３０４には、システム内で数学演算を実行するための浮動小数点ユニット（ＦＰＵ：ｆｌｏａｔｉｎｇｐｏｉｎｔｕｎｉｔ）、又は他の数学コプロセッサ若しくは数値コプロセッサ・タイプが含まれ得る。たとえば、ＳｏＣ１０４には、ＣＰＵ１３０６及び／又はＧＰＵ１３０８内に実行ユニットとして統合された、１つ又は複数のＦＰＵが含まれ得る。

ＳｏＣ１３０４には、１つ又は複数のアクセラレータ１３１４（たとえば、ハードウェア・アクセラレータ、ソフトウェア・アクセラレータ、又はそれらの組合せ）が含まれ得る。たとえば、ＳｏＣ１３０４には、最適化されたハードウェア・アクセラレータ及び／又は大容量のオンチップ・メモリが含まれ得る、ハードウェア高速化クラスタが含まれ得る。大容量のオンチップ・メモリ（たとえば、４ＭＢのＳＲＡＭ）が、ハードウェア高速化クラスタによる、ニューラル・ネットワーク及び他の算出の高速化を可能にし得る。ハードウェア高速化クラスタを使用して、ＧＰＵ１３０８を補完し、ＧＰＵ１３０８のタスクの一部をオフロードする（たとえば、他のタスクを実行するために、ＧＰＵ１３０８のより多くのサイクルを解放する）ことができる。一実例として、アクセラレータ１３１４は、十分に安定して高速化に適している、対象となる作業負荷（たとえば、知覚、畳込みニューラル・ネットワーク（ＣＮＮ：ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）など）に使用され得る。本明細書で使用されている「ＣＮＮ」という用語には、領域ベース又は領域畳込みニューラル・ネットワーク（ＲＣＮＮ：ｒｅｇｉｏｎａｌｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）及び高速ＲＣＮＮ（たとえば、物体検出に使用される）を含む、すべてのタイプのＣＮＮが含まれ得る。

アクセラレータ１３１４（たとえば、ハードウェア高速化クラスタ）には、深層学習アクセラレータ（ＤＬＡ：ｄｅｅｐｌｅａｒｎｉｎｇａｃｃｅｌｅｒａｔｏｒ）が含まれ得る。ＤＬＡには、深層学習アプリケーション及び推論用に、１秒当たり、さらに１０兆回の演算を可能にするよう設定され得る、１つ又は複数のテンソル処理ユニット（ＴＰＵ：Ｔｅｎｓｏｒｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）が含まれ得る。ＴＰＵは、画像処理機能を実行するように（たとえば、ＣＮＮ、ＲＣＮＮ用などに）設定され、最適化された、アクセラレータであり得る。ＤＬＡは、特定のニューラル・ネットワーク・タイプ及び浮動小数点演算のセット、並びに推論用に、さらに最適化され得る。ＤＬＡの設計は、汎用ＧＰＵよりもミリメートル当たりの性能がより高く、ＣＰＵの性能を大幅に上回ることを可能にし得る。ＴＰＵは、たとえば、フィーチャと重みとの両方について、データ・タイプＩＮＴ８、ＩＮＴ１６、及びＦＰ１６をサポートする、単一インスタンス畳込み関数ばかりでなく、ポストプロセッサ関数も含む、いくつかの関数を実行することができる。

ＤＬＡは、たとえば、以下を含むがこれらに限定されるものではない、様々な機能のいずれかのために、処理されたデータ又は未処理のデータに対して、ニューラル・ネットワーク、特にＣＮＮを、迅速且つ効率的に実行することができる。カメラ・センサからのデータを使用した、物体識別及び検出のためのＣＮＮ、カメラ・センサからのデータを使用した、距離推定のためのＣＮＮ、マイクからのデータを使用した、緊急車両の検出、識別、及び検出のためのＣＮＮ、カメラ・センサからのデータを使用した、顔認識及び車両所有者識別のためのＣＮＮ、並びに／又はセキュリティ及び／若しくは安全関連のイベントのためのＣＮＮ。

ＤＬＡは、ＧＰＵ１３０８の任意の機能を実行することができ、設計者は、任意の機能について、たとえば、推論アクセラレータを使用することによって、ＤＬＡ又はＧＰＵ１３０８のいずれかをターゲットとすることができる。たとえば、設計者は、ＣＮＮの処理及び浮動小数点演算をＤＬＡに集中させ、他の機能をＧＰＵ１３０８及び／又は他のアクセラレータ１３１４に任せることができる。

アクセラレータ１３１４（たとえば、ハードウェア高速化クラスタ）には、本明細書では、代わりにコンピュータ・ビジョン・アクセラレータとも呼ばれ得る、プログラム可能なビジョン・アクセラレータ（ＰＶＡ）が含まれ得る。ＰＶＡは、高度運転者支援システム（ＡＤＡＳ）、自律運転、並びに／又は拡張現実（ＡＲ：ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ）及び／若しくは仮想現実（ＶＲ：ｖｉｒｔｕａｌｒｅａｌｉｔｙ）アプリケーションのための、コンピュータ・ビジョン・アルゴリズムを高速化するよう設計及び設定され得る。ＰＶＡは、性能と柔軟性との間のバランスをとることができる。たとえば、各ＰＶＡには、たとえば、これらに限定されるものではないが、任意の数の縮小命令セット・コンピュータ（ＲＩＳＣ：ｒｅｄｕｃｅｄｉｎｓｔｒｕｃｔｉｏｎｓｅｔｃｏｍｐｕｔｅｒ）コア、ダイレクト・メモリ・アクセス（ＤＭＡ）、及び／又は任意の数のベクトル・プロセッサが含まれ得る。

ＲＩＳＣコアは、画像センサ（たとえば、本明細書で説明されているカメラのいずれかの画像センサ）、画像信号プロセッサ、及び／又は類似のものと、相互作用することができる。ＲＩＳＣコアのそれぞれには、任意の容量のメモリが含まれ得る。ＲＩＳＣコアは、実施例に応じて、いくつかのプロトコルのうちのいずれかを使用することができる。いくつかの実例では、ＲＩＳＣコアは、リアルタイム・オペレーティング・システム（ＲＴＯＳ：ｒｅａｌ－ｔｉｍｅｏｐｅｒａｔｉｎｇｓｙｓｔｅｍ）を実行することができる。ＲＩＳＣコアは、１つ又は複数の集積回路デバイス、特定用途向け集積回路（ＡＳＩＣ：ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）、及び／又はメモリ・デバイスを使用して、実装され得る。たとえば、ＲＩＳＣコアには、命令キャッシュ及び／又は密結合ＲＡＭが含まれ得る。

ＤＭＡは、ＰＶＡの構成要素が、ＣＰＵ１３０６とは無関係に、システム・メモリにアクセスすることを可能にし得る。ＤＭＡは、多次元アドレス指定及び／又は巡回アドレス指定を、サポートすることを含むがこれに限定されるものではない、ＰＶＡを最適化するために使用される任意の数の機能を、サポートすることができる。いくつかの実例では、ＤＭＡは、ブロック幅、ブロック高さ、ブロック深さ、水平ブロック・ステッピング、垂直ブロック・ステッピング、及び／又は深さステッピングが含まれ得る、最大６次元以上のアドレス指定をサポートすることができる。

ベクトル・プロセッサは、コンピュータ・ビジョン・アルゴリズムのプログラミングを効率的且つ柔軟に実行し、信号処理機能を実現するよう設計され得る、プログラム可能なプロセッサであり得る。いくつかの実例では、ＰＶＡには、ＰＶＡコア及び２つのベクトル処理サブシステムのパーティションが含まれ得る。ＰＶＡコアには、プロセッサ・サブシステム、ＤＭＡエンジン（たとえば、２つのＤＭＡエンジン）、及び／又は他の周辺デバイスが含まれ得る。ベクトル処理サブシステムは、ＰＶＡの１次処理エンジンとして動作することができ、ベクトル処理ユニット（ＶＰＵ）、命令キャッシュ、及び／又はベクトル・メモリ（たとえば、ＶＭＥＭ）が含まれ得る。ＶＰＵコアには、たとえば、単一命令複数データ（ＳＩＭＤ）、超長命令語（ＶＬＩＷ）デジタル信号プロセッサなどの、デジタル信号プロセッサが含まれ得る。ＳＩＭＤとＶＬＩＷとの組合せにより、スループット及びスピードが高まり得る。

ベクトル・プロセッサのそれぞれには、命令キャッシュが含まれ得、専用メモリに結合され得る。結果として、いくつかの実例では、ベクトル・プロセッサのそれぞれが、他のベクトル・プロセッサとは無関係に実行するよう設定され得る。他の実例では、特定のＰＶＡに含まれるベクトル・プロセッサは、データ並列性を利用するよう設定され得る。たとえば、いくつかの実施例では、ただ１つのＰＶＡに含まれる複数のベクトル・プロセッサは、同じコンピュータ・ビジョン・アルゴリズムを、ただし画像の別の領域で、実行することができる。他の実例では、特定のＰＶＡに含まれるベクトル・プロセッサは、同じ画像上で別のコンピュータ・ビジョン・アルゴリズムを同時に実行することができるか、又は連続する画像若しくは画像の一部に対して、別のアルゴリズムを実行することさえできる。とりわけ、任意の数のＰＶＡが、ハードウェア高速化クラスタに含まれ得、任意の数のベクトル・プロセッサが、ＰＶＡのそれぞれに含まれ得る。加えて、ＰＶＡには、システム全体の安全性を高めるために、追加のエラー訂正コード（ＥＣＣ：ｅｒｒｏｒｃｏｒｒｅｃｔｉｎｇｃｏｄｅ）メモリが含まれ得る。

アクセラレータ１３１４（たとえば、ハードウェア高速化クラスタ）には、オンチップのコンピュータ・ビジョン・ネットワーク、及びアクセラレータ１３１４用の広帯域幅でレイテンシの短いＳＲＡＭを実現する、ＳＲＡＭが含まれ得る。いくつかの実例では、オンチップ・メモリには、たとえば、これに限定されるものではないが、ＰＶＡとＤＬＡとの両方からアクセス可能であり得る、８つのフィールド設定可能なメモリ・ブロックからなる、少なくとも４ＭＢのＳＲＡＭが含まれ得る。メモリ・ブロックの各ペアには、高度周辺バス（ＡＰＢ）インタフェース、設定回路、コントローラ、及びマルチプレクサが含まれ得る。任意のタイプのメモリが使用され得る。ＰＶＡ及びＤＬＡは、ＰＶＡ及びＤＬＡのメモリへの高速アクセスを提供する基幹回線を介して、メモリにアクセスすることができる。基幹回線には、ＰＶＡ及びＤＬＡをメモリに相互接続する（たとえば、ＡＰＢを使用して）、オンチップのコンピュータ・ビジョン・ネットワークが含まれ得る。

オンチップのコンピュータ・ビジョン・ネットワークには、ＰＶＡとＤＬＡとの両方が、任意の制御信号／アドレス／データを伝送する前に、準備完了且つ有効な信号を供給することを判断する、インタフェースが含まれ得る。かかるインタフェースは、制御信号／アドレス／データを伝送するための別個のフェーズ及び別個のチャネル、並びに連続データ転送するバースト・タイプの通信を、提供することができる。このタイプのインタフェースは、ＩＳＯ２６２６２又はＩＥＣ６１５０８規格に準拠し得るが、他の規格及びプロトコルが使用されてもよい。

いくつかの実例では、ＳｏＣ１３０４には、２０１８年８月１０日に出願された米国特許出願第１６／１０１，２３２号で説明されているような、リアルタイム光線追跡ハードウェア・アクセラレータが含まれ得る。リアルタイム光線追跡ハードウェア・アクセラレータを使用して、レーダ信号解釈用、音の伝播合成及び／若しくは分析用、ソナー・システムのシミュレーション用、一般的な波動伝播シミュレーション用、自己位置推定及び／若しくは他の機能を目的としたライダ・データとの比較用、並びに／又は他の用途に向けて、対象物の場所及び範囲（たとえば、世界モデル（ｗｏｒｌｄｍｏｄｅｌ）の範囲内での）を迅速且つ効率的に判断し、リアルタイムの視覚化シミュレーションを生成することができる。いくつかの実施例では、１つ又は複数の光線追跡関連の動作を実行するために、１つ又は複数の木の走査ユニット（ＴＴＵ：ｔｒｅｅｔｒａｖｅｒｓａｌｕｎｉｔ）が使用され得る。

アクセラレータ１３１４（たとえば、ハードウェア・アクセラレータ・クラスタ）は、自律運転のための多様な用途を有する。ＰＶＡは、ＡＤＡＳ及び自律型車両の主要な処理ステージに使用され得る、プログラム可能なビジョン・アクセラレータであり得る。ＰＶＡの機能は、低電力及び短いレイテンシで、予測可能な処理を必要とするアルゴリズム・ドメインと相性が良い。言い換えると、ＰＶＡは、半密又は密の規則的な計算を、短いレイテンシ及び低電力で予測可能な実行時間を必要とする小さなデータ・セットに対してですら、良好に実行する。したがって、自律車両向けプラットフォームに関して、ＰＶＡは、物体検出及び整数数学に関する演算において効率的なので、典型的なコンピュータ・ビジョン・アルゴリズムを実行するよう設計されている。

たとえば、技術の一実施例によれば、ＰＶＡは、コンピュータ立体視を実行するために使用される。セミグローバル・マッチング・ベースのアルゴリズムが、いくつかの実例で使用され得るが、これは、制限することを意図したものではない。レベル３～５の自律運転の多くのアプリケーションでは、動作中の動き推定／ステレオ・マッチングが必要である（たとえば、動きを基にした３次元復元（ｓｔｒｕｃｔｕｒｅｆｒｏｍｍｏｔｉｏｎ）、歩行者認識、車線検出など）。ＰＶＡは、２台の単眼カメラからの入力に対して、コンピュータ立体視機能を実行することができる。

いくつかの実例では、ＰＶＡを使用して、密なオプティカル・フローを実行することができる。処理されたレーダを提供するために、生のレーダ・データの処理に従って（たとえば、４Ｄ高速フーリエ変換を使用して）。他の実例では、ＰＶＡは、たとえば、生の飛行時間データを処理して、処理された飛行時間データを提供することによって、飛行時間深度を処理するために使用される。

ＤＬＡを使用して、たとえば、物体検出ごとに信頼度の測定値を出力するニューラル・ネットワークを含む、制御及び運転の安全性を高めるための、任意のタイプのネットワークを実行することができる。かかる信頼度の値は、確率、又は他の検出と比較した、各検出の相対的な「重み」を提示するものと解釈することができる。この信頼度の値により、システムはさらに、どの検出が、偽陽性検出ではなく真陽性検出と見なされるべきかに関して、判断を下すことが可能となる。たとえば、システムは、信頼度の閾値をセットし、閾値を超える検出だけを真陽性を検出したと見なすことができる。自動緊急制動（ＡＥＢ：ａｕｔｏｍａｔｉｃｅｍｅｒｇｅｎｃｙｂｒａｋｉｎｇ）システムでは、偽陽性検出によって車両が自動的に緊急制動を実行することになるが、これは明らかに望ましくない。したがって、最も信頼性の高い検出だけが、ＡＥＢのトリガと見なされるべきである。ＤＬＡは、信頼度の値を回帰するために、ニューラル・ネットワークを実行することができる。ニューラル・ネットワークは、ニューラル・ネットワークの入力として、とりわけ、バウンディング・ボックスの寸法、（たとえば別のサブシステムから）得られた地上面推定値、ニューラル・ネットワーク及び／又は他のセンサ（たとえば、ライダ・センサ１３６４又はレーダ・センサ１３６０）から得られた車両１３００の向き、距離、物体の３Ｄ位置の推定値と相関する、慣性測定ユニット（ＩＭＵ：ｉｎｅｒｔｉａｌｍｅａｓｕｒｅｍｅｎｔｕｎｉｔ）センサ１３６６の出力など、パラメータの少なくとも一部のサブセットを受け取ることができる。

ＳｏＣ１３０４には、データ・ストア１３１６（たとえば、メモリ）が含まれ得る。データ・ストア１３１６は、ＧＰＵ及び／又はＤＬＡで実行されるべきニューラル・ネットワークをストアすることができる、ＳｏＣ１３０４のオンチップ・メモリであり得る。いくつかの実例では、データ・ストア１３１６は、冗長性及び安全性のために、ニューラル・ネットワークの複数のインスタンスをストアするのに十分大きい容量であり得る。データ・ストア１３１２は、Ｌ２又はＬ３キャッシュ１３１２を備えることができる。データ・ストア１３１６への参照には、本明細書で説明されるように、ＰＶＡ、ＤＬＡ、及び／又は他のアクセラレータ１３１４に関連するメモリへの参照が含まれ得る。

ＳｏＣ１３０４には、１つ又は複数のプロセッサ１３１０（たとえば、組込み型プロセッサ）が含まれ得る。プロセッサ１３１０には、ブート電力及び管理機能、並びに関連するセキュリティの強制実施を扱う専用プロセッサ及びサブシステムであり得る、ブート及び電力管理プロセッサが含まれ得る。ブート及び電力管理プロセッサは、ＳｏＣ１３０４のブート・シーケンスの一部であり得、実行時の電力管理サービスを提供することができる。ブート電力及び管理プロセッサは、クロック及び電圧プログラミング、システムの低電力状態遷移の支援、ＳｏＣ１３０４の熱及び温度センサ管理、並びに／又はＳｏＣ１３０４の電力状態管理を可能にし得る。各温度センサは、出力周波数が温度に比例するリング発振器として実装され得、ＳｏＣ１３０４は、リング発振器を使用して、ＣＰＵ１３０６、ＧＰＵ１３０８、及び／又はアクセラレータ１３１４の温度を検出することができる。温度が閾値を超えると判断された場合、ブート及び電力管理プロセッサは、温度障害ルーチンに入り、ＳｏＣ１３０４を、より低電力の状態にして、且つ／又は車両１３００を、安全停止モードに至るまでの運転手にする（たとえば、車両１３００を安全停止させる）ことができる。

プロセッサ１３１０には、音声処理エンジンとして機能できる、組込み型プロセッサのセットがさらに含まれ得る。音声処理エンジンは、複数のインタフェースを介した多チャネル音声用の完全なハードウェアのサポート、及び幅広く柔軟な範囲にわたる音声Ｉ／Ｏインタフェースを可能にする、音声サブシステムであり得る。いくつかの実例では、音声処理エンジンは、専用ＲＡＭを備えるデジタル信号プロセッサを備えた、専用プロセッサ・コアである。

プロセッサ１３１０には、低電力センサ管理及びウェイクを使用するケースをサポートするのに必要な、ハードウェアのフィーチャを実現することができる、常時オン・プロセッサ・エンジンがさらに含まれ得る。常時オン・プロセッサ・エンジンには、プロセッサ・コア、密結合ＲＡＭ、サポート周辺デバイス（たとえば、タイマ及び割込みコントローラ）、様々なＩ／Ｏコントローラ周辺デバイス、及びルーティング論理機構が含まれ得る。

プロセッサ１３１０には、自動車アプリケーションの安全管理を扱うための、専用プロセッサ・サブシステムを含む、安全クラスタ・エンジンがさらに含まれ得る。安全クラスタ・エンジンは、２つ以上のプロセッサ・コア、密結合ＲＡＭ、サポート周辺デバイス（たとえば、タイマ、割込みコントローラなど）、及び／又はルーティング論理機構が含まれ得る。安全モードでは、２つ以上のコアが、ロックステップ・モードで動作し、コアの動作間のあらゆる違いを検出する比較論理機構によって、ただ１つのコアのように機能することができる。

プロセッサ１３１０には、リアルタイムでのカメラ管理を扱うための専用プロセッサ・サブシステムが含まれ得る、リアルタイム・カメラ・エンジンがさらに含まれ得る。

プロセッサ１３１０には、カメラ処理パイプラインの一部である、ハードウェア・エンジンである画像信号プロセッサが含まれ得る、ハイ・ダイナミック・レンジ信号プロセッサがさらに含まれ得る。

プロセッサ１３１０には、ビデオ再生アプリケーションが、プレーヤのウィンドウの最終画像を生成するために必要とする、ビデオ後処理機能を実施する処理ブロック（たとえば、マイクロプロセッサに実装される）であり得る、ビデオ画像合成器が含まれ得る。ビデオ画像合成器は、広視野カメラ１３７０、サラウンド・カメラ１３７４、及び／又はキャビン内監視カメラ・センサの、レンズ歪み補正を実行することができる。キャビン内監視カメラ・センサは、好ましくは、キャビン内でのイベントを識別し、これに応答するよう設定された、高度ＳｏＣの別のインスタンスで実行されるニューラル・ネットワークによって監視される。キャビン内システムは、読唇術を実行して、移動体通信サービスをアクティブ化して電話をかけるか、電子メールを口述するか、車両の目的地を変更するか、車両のインフォテインメント・システム及びセッティングをアクティブ化若しくは変更するか、又は声で起動するＷｅｂサーフィンを提供することができる。運転者は、特定の機能を、車両が自律モードで動作している場合にしか利用できず、それ以外の場合は無効である。

ビデオ画像合成器には、空間ノイズと時間ノイズとの両方を低減するための、強化された時間ノイズ・リダクションが含まれ得る。たとえば、ビデオに動きが存在する場合、ノイズ・リダクションは、空間情報に適切な重みづけを行い、隣り合うフレームから供給される情報の重みを減らす。画像又は画像の一部に動きが含まれていない場合、ビデオ画像合成器が実行する時間ノイズ・リダクションは、以前の画像からの情報を使用して、現在の画像のノイズを低減することができる。

ビデオ画像合成器はまた、入力したステレオ・レンズのフレームに対して、ステレオ平行化処理（ｓｔｅｒｅｏｒｅｃｔｉｆｉｃａｔｉｏｎ）を実行するよう設定され得る。ビデオ画像合成器はさらに、デスクトップ向けオペレーティング・システムが使用されている場合に、ユーザ・インタフェースの合成に使用され得、新しい面を継続的にレンダリングするのに、ＧＰＵ１３０８は不要である。ＧＰＵ１３０８が、電源オンで、３Ｄレンダリングをアクティブに実行している場合でさえも、ビデオ画像合成器を使用して、ＧＰＵ１３０８をオフロードし、性能及び応答性を向上させることができる。

ＳｏＣ１３０４には、カメラからビデオ及び入力を受信するための、モバイル業界プロセッサ・インタフェース（ＭＩＰＩ：ｍｏｂｉｌｅｉｎｄｕｓｔｒｙｐｒｏｃｅｓｓｏｒｉｎｔｅｒｆａｃｅ）のカメラ・シリアル・インタフェース、高速インタフェース、並びに／又はカメラに使用され得るビデオ入力ブロック及び関係するピクセル入力機能が、さらに含まれ得る。ＳｏＣ１３０４には、ソフトウェアによって制御され得、特定の役割に拘束されていないＩ／Ｏ信号を受信するために使用され得る、入力／出力コントローラがさらに含まれ得る。

ＳｏＣ１３０４には、周辺デバイス、音声コーデック、電力管理部、及び／又は他のデバイスとの通信を可能にする、広範囲の周辺デバイス・インタフェースがさらに含まれ得る。ＳｏＣ１３０４を使用して、カメラ（たとえば、ギガビット・マルチメディア・シリアル・リンク及びイーサネット（登録商標）を介して接続される）、センサ（たとえば、イーサネット（登録商標）を介して接続され得る、ライダ・センサ１３６４、レーダ・センサ１３６０など）からのデータ、バス１３０２からのデータ（たとえば、車両１３００のスピード、ハンドルの場所など）、ＧＮＳＳセンサ１３５８からのデータ（たとえば、イーサネット（登録商標）又はＣＡＮバスを介して接続される）を処理することができる。ＳｏＣ１３０４には、独自のＤＭＡエンジンが含まれ得、ＣＰＵ１３０６をルーチン・データ管理タスクから解放するために使用され得る、専用の高性能大容量記憶部コントローラがさらに含まれ得る。

ＳｏＣ１３０４は、自動化レベル３～５に及ぶ柔軟なアーキテクチャを有するエンドツーエンドのプラットフォームであり、これにより、多様性及び冗長性のために、コンピュータ・ビジョン及びＡＤＡＳ技法を活用し、効率的に使用する、包括的な機能的安全アーキテクチャを提供し、深層学習ツールと共に、柔軟で信頼性の高い運転ソフトウェア・スタックのプラットフォームを提供することができる。ＳｏＣ１３０４は、従来のシステムよりも高速で、より信頼性が高く、さらにエネルギー効率及び空間効率がより高い可能性がある。たとえば、アクセラレータ１３１４は、ＣＰＵ１３０６、ＧＰＵ１３０８、及びデータ・ストア１３１６と組み合わせると、レベル３～５の自律型車両用の、高速で効率的なプラットフォームを提供することができる。

したがって、この技術は、従来のシステムでは達成され得ない能力及び機能を提供する。たとえば、コンピュータ・ビジョン・アルゴリズムは、ＣＰＵで実行され得、Ｃプログラミング言語などの高級プログラミング言語を使用して設定され、多種多様な視覚データにわたって多種多様な処理アルゴリズムを実行することができる。しかし、ＣＰＵは、多くの場合、たとえば実行時間及び電力消費に関係するような、多くのコンピュータ・ビジョン・アプリケーションの性能要件を満たすことができない。具体的には、多くのＣＰＵは、車載ＡＤＡＳアプリケーションの要件であり、実用的なレベル３～５の自律型車両の要件でもある、複雑な物体検出アルゴリズムを、リアルタイムで実行することができない。

従来のシステムとは対照的に、本明細書で説明されている技術は、ＣＰＵ複合体、ＧＰＵ複合体、及びハードウェア高速化クラスタを備えることにより、複数のニューラル・ネットワークを同時に及び／又は順次実行し、結果を互いに組み合わせて、レベル３～５の自律運転機能を使用可能にすることができる。たとえば、ＤＬＡ又はｄＧＰＵ（たとえば、ＧＰＵ１３２０）で実行されるＣＮＮには、スーパーコンピュータが、ニューラル・ネットワークが特別に訓練されていない標識を含む、交通標識を読み取って理解することを可能にする、テキスト及び単語認識が含まれ得る。ＤＬＡには、標識の意味論的理解を識別、解釈、及び提供して、その意味論的理解を、ＣＰＵ複合体で実行されている経路計画モジュールに渡すことができる、ニューラル・ネットワークがさらに含まれ得る。

別の実例として、レベル３、４、又は５の運転が必要とされるときに、複数のニューラル・ネットワークが、同時に実行され得る。たとえば、電光を使った「注意：点滅する信号は凍結状態を示す」からなる警告標識は、いくつかのニューラル・ネットワークによって、独立して又は集合的に解釈され得る。標識自体は、第１の展開されるニューラル・ネットワーク（たとえば、訓練されたニューラル・ネットワーク）によって交通標識と識別され得、「点滅する信号は凍結状態を示す」というテキストは、第２の展開されるニューラル・ネットワークによって解釈され得、第２の展開されるニューラル・ネットワークが、車両の経路計画ソフトウェア（好ましくは、ＣＰＵ複合体で実行されている）に、点滅する信号が検出される場合は凍結状態が存在することを通知する。点滅する信号は、複数のフレームにわたって第３の展開されるニューラル・ネットワークを動作させることによって識別され得、第３の展開されるニューラル・ネットワークが、点滅する信号があること（又はないこと）を車両の経路計画ソフトウェアに通知する。３つのニューラル・ネットワークはすべて、ＤＬＡ内及び／又はＧＰＵ１３０８などで、同時に実行することができる。

いくつかの実例では、顔認識及び車両所有者識別のためのＣＮＮは、カメラ・センサからのデータを使用して、車両１３００の許可された運転者及び／又は所有者の存在を識別することができる。常時オン・センサ処理エンジンを使用して、所有者が運転席のドアに近づいてライトをオンにしたときに車両のロックを解除し、セキュリティ・モードのときは、所有者が車両を離れるときに車両を動作不能にすることができる。このようにして、ＳｏＣ１３０４は、盗難及び／又はカージャックに対するセキュリティを実現する。

別の実例では、緊急車両の検出及び識別のためのＣＮＮは、マイク１３９６からのデータを使用して、緊急車両のサイレンを検出及び識別することができる。汎用の分類器を使用してサイレンを検出し、特徴を手動で抽出する従来のシステムとは対照的に、ＳｏＣ１３０４は、ＣＮＮを使用して、環境音と都会音とを分類するばかりでなく、視覚データも分類する。好ましい実施例では、ＤＬＡで実行されるＣＮＮは、緊急車両の相対的な接近スピードを識別するよう訓練される（たとえば、ドップラ効果を使用することによって）。ＣＮＮはまた、ＧＮＳＳセンサ１３５８によって識別される、車両が動作している局所的なエリアに特有の緊急車両を識別するよう訓練され得る。したがって、たとえば、欧州で動作する場合、ＣＮＮは、欧州のサイレンを検出しようとし、米国では、ＣＮＮは、北米のサイレンだけを識別しようとするであろう。緊急車両が検出されると、制御プログラムを使用して、超音波センサ１３６２の助けを借りて、緊急車両が通過するまで緊急車両安全ルーチンを実行し、車両を減速し、道路の脇に寄って、車両を駐車し、且つ／又は車両をアイドリングすることができる。

車両には、高速相互接続（たとえば、ＰＣＩｅ）を介してＳｏＣ１３０４に結合され得る、ＣＰＵ１３１８（たとえば、個別のＣＰＵ又はｄＣＰＵ）が含まれ得る。ＣＰＵ１３１８には、たとえば、Ｘ８６プロセッサが含まれ得る。ＣＰＵ１３１８を使用して、ＡＤＡＳセンサとＳｏＣ１３０４との間の、場合によっては矛盾する結果を調停すること、並びに／又は、たとえば、コントローラ１３３６及び／若しくはインフォテインメントＳｏＣ１３３０の状態及び健全性を監視することを含む、様々な機能のいずれかを実行することができる。

車両１３００には、高速相互接続（たとえば、ＮＶＩＤＩＡのＮＶＬＩＮＫ）を介してＳｏＣ１３０４に結合され得る、ＧＰＵ１３２０（たとえば、個別のＧＰＵ又はｄＧＰＵ）が含まれ得る。ＧＰＵ１３２０は、冗長な、及び／又は別のニューラル・ネットワークを実行することなどによって、追加の人工知能の機能を提供することができ、車両１３００のセンサからの入力（たとえば、センサ・データ）に基づいて、ニューラル・ネットワークを訓練及び／又は更新するために使用され得る。

車両１３００には、１本又は複数本の無線アンテナ１３２６（たとえば、移動体通信用アンテナ、ブルートゥース（登録商標）用アンテナなどの、様々な通信プロトコル用の１本又は複数本の無線アンテナ）が含まれ得る、ネットワーク・インタフェース１３２４がさらに含まれ得る。ネットワーク・インタフェース１３２４を使用して、インターネットを介したクラウドとの（たとえば、サーバ１３７８及び／若しくは他のネットワーク・デバイスとの）、他の車両との、及び／又はコンピュータ処理デバイス（たとえば、同乗者のクライアント・デバイス）との、無線接続が可能となり得る。他の車両と通信するために、２台の車両間に直接リンクが確立され得、及び／又は間接リンクが確立され得る（たとえば、ネットワークをわたって、及びインターネットを介して）。直接リンクは、車車間通信リンクを使用して提供され得る。車車間通信リンクは、車両１３００に近接する車両（たとえば、車両１３００の前、横、及び／又は後ろの車両）に関する情報を、車両１３００に提供することができる。この機能は、車両１３００の協調適応型クルーズ制御機能の一部であり得る。

ネットワーク・インタフェース１３２４には、変調及び復調機能を提供し、コントローラ１３３６が、無線ネットワークを介して通信することを可能にする、ＳｏＣが含まれ得る。ネットワーク・インタフェース１３２４には、ベースバンドから無線周波数へのアップコンバージョン、及び無線周波数からベースバンドへのダウン・コンバージョンのための無線周波数フロント・エンドが含まれ得る。周波数変換は、よく知られたプロセスによって実行され得、且つ／又はスーパーヘテロダイン・プロセスを使用して実行され得る。いくつかの実例では、無線周波数フロント・エンド機能は、別個のチップによって提供され得る。ネットワーク・インタフェースには、ＬＴＥ、ＷＣＤＭＡ（登録商標）、ＵＭＴＳ、ＧＳＭ、ＣＤＭＡ２０００、ブルートゥース（登録商標）、ブルートゥース（登録商標）ＬＥ、Ｗｉ－Ｆｉ、Ｚ－Ｗａｖｅ、ＺｉｇＢｅｅ、ＬｏＲａＷＡＮ、及び／又は他の無線プロトコルを介して通信する、無線機能が含まれ得る。

車両１３００には、オフチップ（たとえば、ＳｏＣ１３０４から離れた）記憶部が含まれ得る、データ・ストア１３２８がさらに含まれ得る。データ・ストア１３２８には、ＲＡＭ、ＳＲＡＭ、ＤＲＡＭ、ＶＲＡＭ、フラッシュ、ハード・ディスク、並びに／又は少なくとも１ビットのデータをストアできる他の構成要素及び／若しくはデバイスを含む、１つ又は複数の記憶要素が含まれ得る。

車両１３００には、ＧＮＳＳセンサ１３５８がさらに含まれ得る。ＧＮＳＳセンサ１３５８（たとえば、ＧＰＳ、アシストＧＰＳセンサ、ディファレンシャルＧＰＳ（ＤＧＰＳ：ｄｉｆｆｅｒｅｎｔｉａｌＧＰＳ）センサなど）は、マッピング、知覚、占有格子生成、及び／又は経路計画機能を支援する。たとえば、イーサネット（登録商標）からシリアル（ＲＳ－２３２）へのブリッジを備える、ＵＳＢコネクタを使用するＧＰＳを含むが、これに限定されるものではない、任意の数のＧＮＳＳセンサ１３５８が使用され得る。

車両１３００には、レーダ・センサ１３６０がさらに含まれ得る。レーダ・センサ１３６０は、暗闇及び／又は厳しい気象条件においてさえ、遠距離の車両を検出するために、車両１３００によって使用され得る。レーダ機能の安全レベルは、ＡＳＩＬＢであり得る。レーダ・センサ１３６０は、いくつかの実例では、生データにアクセスするためのイーサネット（登録商標）へのアクセスを含む、制御及び対象物追跡データへのアクセスのために、ＣＡＮ及び／又はバス１３０２を使用することができる（たとえば、レーダ・センサ１３６０によって生成されたデータを伝送する）。多種多様なレーダ・センサ・タイプが使用され得る。たとえば、これに限定されるものではないが、レーダ・センサ１３６０は、前部、後部、及び側部でのレーダの使用に好適であり得る。いくつかの実例では、パルス・ドップラ・レーダ・センサが使用される。

レーダ・センサ１３６０には、視野が狭い遠距離、視野が広い短距離、側方もカバーする短距離など、様々な設定が含まれ得る。いくつかの実例では、遠距離レーダが、適応型クルーズ制御機能に使用され得る。遠距離レーダ・システムは、２つ以上の別個のスキャンによって実現される、２５０ｍの範囲内などの、広い視野を提供することができる。レーダ・センサ１３６０は、静止物体と移動物体とを区別するのに役立ち得、緊急ブレーキ・アシスト及び前方衝突警告のために、ＡＤＡＳシステムによって使用され得る。遠距離レーダ・センサには、複数（たとえば、６本以上）の固定レーダ・アンテナ、並びに高速ＣＡＮ及びＦｌｅｘＲａｙインタフェースを備えた、モノスタティック・マルチモーダル・レーダが含まれ得る。６本のアンテナを使った実例では、中央の４本のアンテナが、隣り合う車線の交通による干渉を最小限に抑えながら、車両の１３００の周囲をより高速に記録するよう設計された、集束されたビーム・パターンを作成することができる。他の２本のアンテナは、視野を拡大することができ、車両１３００の車線に出入りする車両の迅速な検出を可能にする。

中距離レーダ・システムには、実例として、最大１３６０ｍ（前部）又は８０ｍ（後部）の範囲、及び最大４２度（前部）又は１３５０度（後部）の視野が含まれ得る。短距離レーダ・システムには、これに限定されるものではないが、後部バンパの両端に設置されるよう設計された、レーダ・センサが含まれ得る。かかるレーダ・センサ・システムは、後部バンパの両端に設置されると、車両の後部及び隣の死角を絶え間なく監視する、２本のビームを作成することができる。

短距離レーダ・システムは、死角検出及び／又は車線変更支援のために、ＡＤＡＳシステムで使用され得る。

車両１３００には、超音波センサ１３６２がさらに含まれ得る。超音波センサ１３６２は、車両１３００の前部、後部、及び／又は側部に配置され得、駐車支援のために、並びに／又は占有格子を作成及び更新するために使用され得る。多種多様な超音波センサ１３６２が使用され得、様々な超音波センサ１３６２が、様々な検出範囲（たとえば、２．５ｍ、４ｍ）に使用され得る。超音波センサ１３６２は、ＡＳＩＬＢの機能的安全レベルで動作することができる。

車両１３００には、ライダ・センサ１３６４が含まれ得る。ライダ・センサ１３６４は、物体及び歩行者の検出、緊急制動、衝突回避、及び／又は他の機能に使用され得る。ライダ・センサ１３６４は、機能的安全レベルＡＳＩＬＢであり得る。いくつかの実例では、車両１３００には、イーサネット（登録商標）を使用できる（たとえば、ギガビット・イーサネット（登録商標）・スイッチへデータを供給するため）、複数のライダ・センサ１３６４（たとえば、２個、４個、６個など）が含まれ得る。

いくつかの実例では、ライダ・センサ１３６４は、３６０度視野での物体、及び物体の距離のリストを提供可能であり得る。市販のライダ・センサ１３６４は、宣伝されている範囲が約１３００ｍ、精度が２ｃｍ～３ｃｍであり得、たとえば１３００Ｍｂｐｓイーサネット（登録商標）接続をサポートする。いくつかの実例では、１つ又は複数の突出部のない（ｎｏｎ－ｐｒｏｔｒｕｄｉｎｇ）ライダ・センサ１３６４が使用され得る。かかる実例では、ライダ・センサ１３６４が、車両１３００の前部、後部、側部、及び／又はコーナに埋め込まれ得る、小さなデバイスとして実装され得る。ライダ・センサ１３６４は、かかる実例では、最大１２０度の水平及び３５度の垂直視野を、低反射率の物体に対してですら２００ｍの範囲で、実現することができる。前部に取り付けられたライダ・センサ１３６４は、４５度から１３５度の間の水平視野に設定され得る。

いくつかの実例では、３Ｄフラッシュ型ライダなどのライダ技術も使用され得る。３Ｄフラッシュ型ライダは、レーザのフラッシュを送信源として使用し、最大約２００ｍの車両の周囲を照射する。フラッシュ型ライダ・ユニットには、レーザ・パルスの通過時間及び各ピクセルの反射光を記録し、次々に車両から物体までの範囲に対応する、レセプタが含まれる。フラッシュ型ライダは、レーザのフラッシュごとに、極めて正確且つ歪みのない周囲の画像を生成することを可能にし得る。いくつかの実例では、４つのフラッシュ型ライダ・センサが、車両１３００の各側部に１つずつ配備され得る。利用可能な３Ｄフラッシュ型ライダ・システムには、ファン以外の可動部品がない、固体３Ｄスターリング配列ライダ・カメラ（たとえば、非スキャン型ライダ・デバイス）が含まれる。フラッシュ型ライダ・デバイスは、フレームごとに５ナノ秒のクラスＩ（眼に安全な）レーザ・パルスを使用でき、反射されたレーザ光を、３Ｄ範囲の点群及び位置合わせされた強度データの形で、取り込むことができる。フラッシュ型ライダを使用することにより、またフラッシュ型ライダは可動部品のない固体デバイスなので、ライダ・センサ１３６４は、動きボケ、振動、及び／又は衝撃の影響をあまり受けない可能性がある。

車両には、ＩＭＵセンサ１３６６がさらに含まれ得る。ＩＭＵセンサ１３６６は、いくつかの実例では、車両１３００の後輪車軸の中央に配置され得る。ＩＭＵセンサ１３６６は、たとえば、これらに限定されるものではないが、加速度計、磁力計、ジャイロスコープ、磁気コンパス、及び／又は他のセンサ・タイプが含まれ得る。６軸アプリケーションなどのいくつかの実例では、ＩＭＵセンサ１３６６には、加速度計及びジャイロスコープが含まれ得るが、９軸アプリケーションでは、ＩＭＵセンサ１３６６には、加速度計、ジャイロスコープ、及び磁力計が含まれ得る。

いくつかの実施例では、ＩＭＵセンサ１３６６は、微小電気機械システム（ＭＥＭＳ：ｍｉｃｒｏ－ｅｌｅｃｔｒｏ－ｍｅｃｈａｎｉｃａｌｓｙｓｔｅｍ）慣性センサ、高感度ＧＰＳ受信機、並びに場所、速度、及び姿勢の推定値を提供する高度カルマン・フィルタ処理アルゴリズムを組み合わせた、小型で高性能のＧＰＳ支援慣性航法システム（ＧＰＳ／ＩＮＳ：ＧＰＳ－ＡｉｄｅｄＩｎｅｒｔｉａｌＮａｖｉｇａｔｉｏｎＳｙｓｔｅｍ）として実装され得る。したがって、いくつかの実例では、ＩＭＵセンサ１３６６は、ＧＰＳからＩＭＵセンサ１３６６への速度の変化を直接観察して関係づけることによって、車両１３００が、磁気センサからの入力を必要とせずに、進行方向を推定することを可能にし得る。いくつかの実例では、ＩＭＵセンサ１３６６及びＧＮＳＳセンサ１３５８は、ただ１つの一体型ユニットに組み合わされ得る。

車両には、車両１３００内及び／又は車両１３００の周囲に配置される、マイク１３９６が含まれ得る。マイク１３９６は、とりわけ、緊急車両の検出及び識別に使用され得る。

車両には、ステレオ・カメラ１３６８、広視野カメラ１３７０、赤外線カメラ１３７２、サラウンド・カメラ１３７４、遠距離及び／若しくは中距離カメラ１３９８、並びに／又は他のカメラ・タイプを含む、任意の数のカメラ・タイプがさらに含まれ得る。カメラを使用して、車両１３００の全周辺の画像データを取り込むことができる。使用されるカメラのタイプは、車両１３００の実施例及び要件によって異なり、カメラ・タイプの任意の組合せを使用して、車両１３００の周囲の必要な範囲を提供することができる。加えて、カメラの数は、実施例に応じて異なり得る。たとえば、車両には、６台のカメラ、７台のカメラ、１０台のカメラ、１２台のカメラ、及び／又は別の数のカメラが含まれ得る。カメラは、一実例として、ギガビット・マルチメディア・シリアル・リンク（ＧＭＳＬ：ＧｉｇａｂｉｔＭｕｌｔｉｍｅｄｉａＳｅｒｉａｌＬｉｎｋ）及び／又はギガビット・イーサネット（登録商標）をサポートすることができるが、これらに限定されるものではない。カメラのそれぞれが、図１３Ａ及び図１３Ｂについて、本明細書でより詳細に説明されている。

車両１３００には、振動センサ１３４２がさらに含まれ得る。振動センサ１３４２は、車軸などの車両の構成要素の振動を測定することができる。たとえば、振動の変化は、路面の変動を示している場合がある。別の実例では、２つ以上の振動センサ１３４２が使用される場合、振動間の差を使用して、路面の摩擦又は滑り具合を判断することができる（たとえば、動力駆動車軸と自由回転車軸との間に振動の差がある場合）。

車両１３００には、ＡＤＡＳシステム１３３８が含まれ得る。ＡＤＡＳシステム１３３８には、いくつかの実例では、ＳｏＣが含まれ得る。ＡＤＡＳシステム１３３８には、自律／適応型／自動クルーズ制御（ＡＣＣ）、協調適応型クルーズ制御（ＣＡＣＣ：ｃｏｏｐｅｒａｔｉｖｅａｄａｐｔｉｖｅｃｒｕｉｓｅｃｏｎｔｒｏｌ）、前方クラッシュ警告（ＦＣＷ：ｆｏｒｗａｒｄｃｒａｓｈｗａｒｎｉｎｇ）、自動緊急制動（ＡＥＢ）、車線逸脱警告（ＬＤＷ）、車線維持支援（ＬＫＡ：ｌａｎｅｋｅｅｐａｓｓｉｓｔ）、死角警告（ＢＳＷ：ｂｌｉｎｄｓｐｏｔｗａｒｎｉｎｇ）、後方クロストラフィック警告（ＲＣＴＷ：ｒｅａｒｃｒｏｓｓ－ｔｒａｆｆｉｃｗａｒｎｉｎｇ）、衝突警告システム（ＣＷＳ：ｃｏｌｌｉｓｉｏｎｗａｒｎｉｎｇｓｙｓｔｅｍ）、車線中央維持（ＬＣ：ｌａｎｅｃｅｎｔｅｒｉｎｇ）、並びに／又は他のフィーチャ及び機能が含まれ得る。

ＡＣＣシステムは、レーダ・センサ１３６０、ライダ・センサ１３６４、及び／又はカメラを使用することができる。ＡＣＣシステムには、長手方向ＡＣＣ及び／又は横方向ＡＣＣが含まれ得る。長手方向ＡＣＣは、車両１３００の直前の車両までの距離を監視及び制御し、車両のスピードを自動的に調整して、前方の車両からの安全な距離を維持する。横方向ＡＣＣは、距離保持を実行し、必要に応じて、車線を変更するように車両１３００に助言する。横方向ＡＣＣは、ＬＣＡ及びＣＷＳなどの、他のＡＤＡＳアプリケーションと関係している。

ＣＡＣＣは、ネットワーク・インタフェース１３２４及び／若しくは無線アンテナ１３２６を介して、他の車両から無線リンクによって、又は間接的にネットワーク接続を介して（たとえば、インターネットを介して）受信され得る、他の車両からの情報を使用する。直接リンクは、車車間（Ｖ２Ｖ：ｖｅｈｉｃｌｅ－ｔｏ－ｖｅｈｉｃｌｅ）通信リンクによって提供され得、一方間接リンクは、インフラと車両との間（Ｉ２Ｖ：ｉｎｆｒａｓｔｒｕｃｔｕｒｅ－ｔｏ－ｖｅｈｉｃｌｅ）の通信リンクであり得る。概して、Ｖ２Ｖ通信の概念は、すぐ近くを先行する車両（たとえば、車両１３００の直前の車両、及び車両１３００と同じ車線にある車両）に関する情報を提供し、一方、Ｉ２Ｖ通信の概念は、さらに前方の交通に関する情報を提供する。ＣＡＣＣシステムには、Ｉ２Ｖ情報源及びＶ２Ｖ情報源のいずれか又は両方が含まれ得る。車両１３００の前の車両の情報があるとすると、ＣＡＣＣは、より信頼性が高くなり得、交通の流れの円滑さを改善し、道路の混雑を減らす可能性を有している。

ＦＣＷシステムは、運転者に危険を警告するよう設計されているので、運転者は、是正措置を講じることができる。ＦＣＷシステムは、ディスプレイ、スピーカ、及び／又は振動部品など、運転者へのフィードバックに電気的に結合された、専用プロセッサ、ＤＳＰ、ＦＰＧＡ、及び／又はＡＳＩＣに結合された、前面カメラ及び／又はレーダ・センサ１３６０を使用する。ＦＣＷシステムは、音、視覚的警告、振動、及び／又は素早いブレーキ・パルスなどの形の、警告を与えることができる。

ＡＥＢシステムは、別の車両又は他の物体との切迫した前方衝突を検出し、運転者が特定の時間又は距離パラメータ内に是正措置を講じない場合、自動的にブレーキをかけることができる。ＡＥＢシステムは、専用プロセッサ、ＤＳＰ、ＦＰＧＡ、及び／又はＡＳＩＣに結合された、前面カメラ及び／又はレーダ・センサ１３６０を使用することができる。ＡＥＢシステムは、危険を検出すると、通常、最初に運転者に衝突を回避するための是正措置を講じるよう警告し、運転者が是正措置を講じない場合、ＡＥＢシステムは、予測される衝突の影響を阻止するか、又は少なくとも軽減するために、自動的にブレーキをかけることができる。ＡＥＢシステムには、動的ブレーキ・サポート及び／又はクラッシュ切迫による制動などの技法が含まれ得る。

ＬＤＷシステムは、車両１３００が車線のマーキングを横切ったときに運転者に警告するために、ハンドル又は座席の振動などの、視覚的、聴覚的、及び／又は触覚的警告を与える。運転者が方向指示器を作動させて意図的な車線逸脱を示したときには、ＬＤＷシステムは作動しない。ＬＤＷシステムは、ディスプレイ、スピーカ、及び／又は振動部品など、運転者へのフィードバックに電気的に結合された、専用プロセッサ、ＤＳＰ、ＦＰＧＡ、及び／又はＡＳＩＣに結合された、前側に向くカメラを使用することができる。

ＬＫＡシステムは、ＬＤＷシステムの変形形態である。ＬＫＡシステムは、車両１３００が車線を出始めた場合に、車両１３００を補正するために、ステアリング入力又は制動を提供する。

ＢＳＷシステムは、自動車の死角にある車両の運転者を検出して警告する。ＢＳＷシステムは、合流又は車線変更が安全でないことを示すために、視覚的、聴覚的、及び／又は触覚的警告を与えることができる。システムは、運転者が方向指示器を使用するとき、追加の警告を与えることができる。ＢＳＷシステムは、ディスプレイ、スピーカ、及び／又は振動部品など、運転者へのフィードバックに電気的に結合された、専用プロセッサ、ＤＳＰ、ＦＰＧＡ、及び／又はＡＳＩＣに結合された、後側面カメラ及び／又はレーダ・センサ１３６０を使用することができる。

ＲＣＴＷシステムは、車両１３００が後退しているときに、物体が後部カメラの範囲の外側で検出されると、視覚的、聴覚的、及び／又は触覚的通知を与えることができる。一部のＲＣＴＷシステムには、クラッシュを回避するために、車両のブレーキが確実にかかるように、ＡＥＢが含まれる。ＲＣＴＷシステムは、ディスプレイ、スピーカ、及び／又は振動部品など、運転者へのフィードバックに電気的に結合された、専用プロセッサ、ＤＳＰ、ＦＰＧＡ、及び／又はＡＳＩＣに結合された、１つ又は複数の後面レーダ・センサ１３６０を使用することができる。

従来のＡＤＡＳシステムは、運転者を困らせ、気を散らす場合がある、偽陽性の結果を招きやすい可能性があるが、通常は、ＡＤＡＳシステムは、運転者に警告し、これにより運転者が、安全条件が本当に存在するかどうかを判断し、これに応じて行動できるので、致命的なわけではない。しかし、自律型車両１３００において、車両１３００自体は、結果が矛盾する場合に、１次コンピュータ又は２次コンピュータ（たとえば、第１のコントローラ１３３６又は第２のコントローラ１３３６）からの結果を配慮するかどうかを判断しなければならない。たとえば、いくつかの実施例では、ＡＤＡＳシステム１３３８は、予備コンピュータ合理性モジュールに知覚情報を供給する、予備及び／又は２次コンピュータであり得る。予備コンピュータの合理性モニタは、ハードウェア構成要素上で、冗長で多様なソフトウェアを実行して、知覚及び動的運転タスクの障害を検出することができる。ＡＤＡＳシステム１３３８からの出力は、監視ＭＣＵに供給され得る。１次コンピュータからの出力と２次コンピュータからの出力とが競合する場合、監視ＭＣＵは、安全な操作を保証するために、どのようにして競合を調整するかを判断しなければならない。

いくつかの実例では、１次コンピュータは、選択された結果における１次コンピュータの信頼度を示す、信頼スコアを監視ＭＣＵに供給するよう設定され得る。信頼スコアが閾値を超えると、監視ＭＣＵは、２次コンピュータが競合する又は矛盾する結果を供給するかどうかに関係なく、１次コンピュータの指示に従うことができる。信頼スコアが閾値を満たしておらず、且つ１次コンピュータと２次コンピュータとが相異なる結果（たとえば、競合）を示している場合、監視ＭＣＵは、コンピュータ間を調停して、適切な結果を判断することができる。

監視ＭＣＵは、１次コンピュータ及び２次コンピュータからの出力に基づいて、２次コンピュータが誤警報を供給する条件を判断するよう訓練及び設定された、ニューラル・ネットワークを実行するよう設定され得る。したがって、監視ＭＣＵのニューラル・ネットワークは、２次コンピュータの出力が信頼できる場合とできない場合とを、学習することができる。たとえば、２次コンピュータがレーダ・ベースのＦＣＷシステムである場合、監視ＭＣＵのニューラル・ネットワークは、ＦＣＷシステムが、警報をトリガする排水格子又はマンホールの蓋などの、実際には危険でない金属製の物体を識別する場合を、学習することができる。同様に、２次コンピュータがカメラ・ベースのＬＤＷシステムである場合、監視ＭＣＵのニューラル・ネットワークは、自転車又は歩行者が存在し、車線逸脱が実際には最も安全な操作である場合に、ＬＤＷを無効にすることを、学習することができる。監視ＭＣＵで実行されるニューラル・ネットワークを含む実施例では、監視ＭＣＵには、ニューラル・ネットワークを実行するのに好適な、関連するメモリを備えた、ＤＬＡ又はＧＰＵのうちの少なくとも一方が含まれ得る。好ましい実施例では、監視ＭＣＵは、ＳｏＣ１３０４の構成要素を備え、且つ／又はＳｏＣ１３０４の構成要素として含まれ得る。

他の実例では、ＡＤＡＳシステム１３３８には、コンピュータ・ビジョンの従来のルールを使用して、ＡＤＡＳ機能を実行する２次コンピュータが含まれ得る。そのため、２次コンピュータは、典型的なコンピュータ・ビジョンのルール（ｉｆ－ｔｈｅｎ）を使用することができ、監視ＭＣＵのニューラル・ネットワークの存在により、信頼性、安全性、及び性能を向上させることができる。たとえば、多様な実施態様及び意図的な非同一性により、システム全体が、特にソフトウェア（又はソフトウェアとハードウェアとのインタフェース）機能によって引き起こされる障害に対して、耐障害性がより強くなる。たとえば、１次コンピュータで実行されているソフトウェアにソフトウェア・バグ又はエラーがあり、２次コンピュータで実行されている同一でないソフトウェア・コードが、同じ全体的な結果を提示する場合、監視ＭＣＵは、全体的な結果が正しく、且つ１次コンピュータのソフトウェア又はハードウェアのバグが重大なエラーを引き起こしていないという、より高い信頼度を有することができる。

いくつかの実例では、ＡＤＡＳシステム１３３８の出力は、１次コンピュータの知覚ブロック及び／又は１次コンピュータの動的運転タスク・ブロックに供給され得る。たとえば、ＡＤＡＳシステム１３３８が、直前の物体による前方クラッシュの警告を示した場合、知覚ブロックは、物体を識別するときに、この情報を使用することができる。他の実例では、２次コンピュータは、本明細書で説明されているように、訓練され、これにより偽陽性のリスクを低減する、２次コンピュータ自体のニューラル・ネットワークを有することができる。

車両１３００には、インフォテインメントＳｏＣ１３３０（たとえば、車載インフォテインメント・システム（ＩＶＩ：ｉｎ－ｖｅｈｉｃｌｅｉｎｆｏｔａｉｎｍｅｎｔｓｙｓｔｅｍ））がさらに含まれ得る。インフォテインメント・システムは、ＳｏＣとして図示及び説明されているが、ＳｏＣではなくてもよく、２つ以上の個別の構成要素が含まれていてもよい。インフォテインメントＳｏＣ１３３０には、車両１３００に、音声（たとえば、音楽、パーソナル・デジタル・アシスタント、ナビゲーションの指示、ニュース、ラジオなど）、ビデオ（たとえば、テレビ、映画、ストリーミングなど）、電話（たとえば、ハンズフリー通話）、ネットワーク接続（たとえば、ＬＴＥ、Ｗｉ－Ｆｉなど）、及び／又は情報サービス（たとえば、ナビゲーション・システム、後方駐車支援、無線データ・システム、燃料レベル、総走行距離、ブレーキ燃料レベル、オイル・レベル、ドア開／閉、エア・フィルタ情報などの車両関連情報）を提供するために使用され得る、ハードウェア及びソフトウェアの組合せが含まれ得る。インフォテインメントＳｏＣ１３３０には、たとえば、ラジオ、ディスク・プレーヤ、ナビゲーション・システム、ビデオ・プレーヤ、ＵＳＢ及びブルートゥース（登録商標）接続、カーピュータ、車載エンターテインメント、Ｗｉ－Ｆｉ、ハンドル音声制御、手を使わない声による制御、ヘッドアップ・ディスプレイ（ＨＵＤ：ｈｅａｄｓ－ｕｐｄｉｓｐｌａｙ）、ＨＭＩディスプレイ１３３４、テレマティクス・デバイス、制御パネル（たとえば、様々な構成要素、フィーチャ、及び／若しくはシステムを制御及び／又はこれらと相互作用するための）、並びに／又は他の構成要素の場合がある。インフォテインメントＳｏＣ１３３０を使用して、さらに、ＡＤＡＳシステム１３３８からの情報、計画された車両操作、軌道、周囲の環境情報（交差点情報、車両情報、道路情報など）、及び／又は他の情報などの、自律運転情報などの情報（たとえば、視覚的及び／又は聴覚的）を、車両のユーザへ提供することができる。

インフォテインメントＳｏＣ１３３０には、ＧＰＵ機能が含まれ得る。インフォテインメントＳｏＣ１３３０は、バス１３０２（たとえば、ＣＡＮバス、イーサネット（登録商標）など）を介して、車両１３００の他のデバイス、システム、及び／又は構成要素と通信することができる。いくつかの実例では、インフォテインメントＳｏＣ１３３０は、１次コントローラ１３３６（たとえば、車両１３００の１次及び／又は予備コンピュータ）が機能しなくなった場合に、インフォテインメント・システムのＧＰＵが、いくつかの自走機能を実行できるように、監視ＭＣＵに結合され得る。かかる実例では、インフォテインメントＳｏＣ１３３０は、本明細書で説明されているように、車両１３００を、安全停止モードに至るまでの運転手にすることができる。

車両１３００には、計器クラスタ１３３２（たとえば、デジタル計器盤、電子計器クラスタ、デジタル計器パネルなど）がさらに含まれ得る。計器クラスタ１３３２には、コントローラ及び／又はスーパーコンピュータ（たとえば、個別のコントローラ又はスーパーコンピュータ）が含まれ得る。計器クラスタ１３３２には、スピードメータ、燃料レベル、油圧、タコメータ、走行距離計、方向指示灯、ギアシフト・ポジション・インジケータ、シートベルト警告灯、駐車ブレーキ警告灯、エンジン故障灯、エアバッグ（ＳＲＳ）システム情報、照明制御、安全システム制御、ナビゲーション情報などの、計器のセットが含まれ得る。いくつかの実例では、情報は、表示され、且つ／又はインフォテインメントＳｏＣ１３３０と計器クラスタ１３３２との間で共有され得る。言い換えれば、計器クラスタ１３３２は、インフォテインメントＳＯＣ１３３０の一部として含まれるか、又はその逆であり得る。

図１３Ｄは、本開示のいくつかの実施例による、クラウド・ベースのサーバと図１３Ａの例示的な自律型車両１３００との間で通信するためのシステム図である。システム１３７６には、サーバ１３７８、ネットワーク１３９０、及び車両１３００を含む車両が含まれ得る。サーバ１３７８には、複数のＧＰＵ１３８４（Ａ）～１３８４（Ｈ）（本明細書では総称してＧＵＰ１３８４と呼ばれる）、ＰＣＩｅスイッチ１３８２（Ａ）～１３８２（Ｈ）（本明細書では総称してＰＣＩｅスイッチ１３８２と呼ばれる）、及び／又はＣＰＵ１３８０（Ａ）～１３８０（Ｂ）（本明細書では総称してＣＰＵ１３８０と呼ばれる）が含まれ得る。ＧＰＵ１３８４、ＣＰＵ１３８０、及びＰＣＩｅスイッチは、たとえば、これらに限定されるものではないが、ＮＶＩＤＩＡによって開発されたＮＶＬｉｎｋインタフェース１３８８及び／又はＰＣＩｅ接続１３８６などの高速相互接続と、相互接続され得る。いくつかの実例では、ＧＰＵ１３８４は、ＮＶＬｉｎｋを介して接続され、並びに／又はＮＶＳｗｉｔｃｈＳｏＣ、ＧＰＵ１３８４、及びＰＣＩｅスイッチ１３８２は、ＰＣＩｅ相互接続を介して接続されている。８つのＧＰＵ１３８４、２つのＣＰＵ１３８０、及び２つのＰＣＩｅスイッチが図示されているが、これは制限することを意図するものではない。実施例に応じて、サーバ１３７８のそれぞれには、任意の数のＧＰＵ１３８４、ＣＰＵ１３８０、及び／又はＰＣＩｅスイッチが含まれ得る。たとえば、サーバ１３７８には、それぞれ、８個、１６個、３２個、及び／又はそれ以上のＧＰＵ１３８４が含まれ得る。

サーバ１３７８は、ネットワーク１３９０を介して車両から、最近開始された道路工事などの、予期しない又は変化した道路状況を示す画像を表す、画像データを受信することができる。サーバ１３７８は、ネットワーク１３９０を介して車両へ、ニューラル・ネットワーク１３９２、更新されたニューラル・ネットワーク１３９２、並びに／又は交通及び道路状況に関する情報を含む地図情報１３９４を、伝送することができる。マップ情報１３９４の更新には、建設現場、窪み、迂回路、洪水、及び／又は他の障害物に関する情報など、ＨＤマップ１３２２の更新が含まれ得る。いくつかの実例では、ニューラル・ネットワーク１３９２、更新されたニューラル・ネットワーク１３９２、及び／又はマップ情報１３９４は、環境内の任意の数の車両から受信したデータで表される、及び／又はデータ・センタで実行された訓練（たとえば、サーバ１３７８及び／又は他のサーバを使用して）に基づく、新しい訓練及び／又は経験によって生じた可能性がある。

サーバ１３７８を使用して、訓練データに基づいて、機械学習モデル（たとえば、ニューラル・ネットワーク）を訓練することができる。訓練データは、車両によって生成され得、且つ／又はシミュレーションで生成され得る（たとえば、ゲーム・エンジンを使用して）。いくつかの実例では、訓練データは、タグづけされ（たとえば、ニューラル・ネットワークが教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）から恩恵を受ける場合）、且つ／又は他の前処理を受けるが、他の実例では、訓練データは、タグづけ及び前処理の一方又は両方が行われない（たとえば、ニューラル・ネットワークが教師あり学習を必要としない場合）。訓練は、教師あり訓練、半教師あり訓練、教師なし訓練、自己学習、強化学習、連合学習、転移学習、特徴表現学習（ｆｅａｔｕｒｅｌｅａｒｎｉｎｇ）（主成分分析及びクラスタ分析を含む）、マルチリニア部分空間学習、多様体学習（ｍａｎｉｆｏｌｄｌｅａｒｎｉｎｇ）、表現学習（スペア辞書学習を含む）、ルールベースの機械学習、異常検出、及びこれらの任意の変形又は組合せなどのクラスを含むが、これらに限定されるものではない、機械学習技法の任意の１つ又は複数のクラスに従って実行され得る。機械学習モデルが訓練されると、車両は、機械学習モデルを使用することができ（たとえば、ネットワーク１３９０を介して車両に伝送される）、及び／又は機械学習モデルは、車両を遠隔で監視するために、サーバ１３７８によって使用され得る。

いくつかの実例では、サーバ１３７８は、車両からデータを受信し、そのデータを、リアルタイムでの知的推論のために、最新のリアルタイム・ニューラル・ネットワークに適用することができる。サーバ１３７８には、ＮＶＩＤＩＡによって開発されたＤＧＸ及びＤＧＸステーション・マシンなどの、ＧＰＵ１３８４を利用した深層学習スーパーコンピュータ及び／又は専用ＡＩコンピュータが含まれ得る。しかし、いくつかの実例では、サーバ１３７８には、ＣＰＵを利用したデータ・センタだけを使用する、深層学習インフラが含まれ得る。

サーバ１３７８の深層学習インフラは、リアルタイムでの高速推論が可能であり得、その能力を使用して、車両１３００のプロセッサ、ソフトウェア、及び／又は関連するハードウェアの健全性を評価及び検証することができる。たとえば、深層学習インフラは、車両１３００から、一連の画像、及び／又はその一連の画像内で車両１３００が位置を特定した物体（たとえば、コンピュータ・ビジョン及び／又は他の機械学習による物体分類技法によって）などの、定期的な更新を受信することができる。深層学習インフラは、インフラ自体のニューラル・ネットワークを実行して、物体を識別し、識別した物体を、車両１３００が識別した物体と比較することができ、結果が一致せず、インフラが、車両１３００のＡＩが故障していると結論づけた場合、サーバ１３７８は、車両１３００のフェイルセーフ・コンピュータに、制御を引き受け、乗客に通知し、安全な駐車操作を完了するよう命令する信号を、車両１３００に伝送することができる。

サーバ１３７８には、推論するために、ＧＰＵ１３８４及び１つ又は複数のプログラム可能な推論アクセラレータ（たとえば、ＮＶＩＤＩＡのＴｅｎｓｏｒＲＴ）が含まれ得る。ＧＰＵを利用したサーバと推論高速化との組合せにより、リアルタイムの応答性が可能になり得る。性能があまり重要ではない場合などの、他の実例では、ＣＰＵ、ＦＰＧＡ、及び他のプロセッサを利用したサーバが、推論に使用され得る。

例示的なコンピュータ処理デバイス
図１４は本開示のいくつかの実施例を実施する際に使用するのに好適な、例示的なコンピュータ処理デバイス１４００のブロック図である。コンピュータ処理デバイス１４００には、以下のデバイスを直接的又は間接的に結合する、相互接続システム１４０２が含まれ得る。メモリ１４０４、１つ又は複数の中央処理ユニット（ＣＰＵ）１４０６、１つ又は複数のグラフィックス処理ユニット（ＧＰＵ）１４０８、通信インタフェース１４１０、入力／出力（Ｉ／Ｏ：ｉｎｐｕｔ／ｏｕｔｐｕｔ）ポート１４１２、入力／出力構成要素１４１４、電源１４１６、１つ又は複数の表示構成要素１４１８（たとえば、ディスプレイ）、及び１つ又は複数の論理演算ユニット１４２０。少なくとも１つの実施例では、コンピュータ処理デバイス１４００は、１つ又は複数の仮想マシン（ＶＭ：ｖｉｒｔｕａｌｍａｃｈｉｎｅ）を備えることができ、及び／又はコンピュータ処理デバイス１４００の構成要素のいずれかが、仮想構成要素（たとえば、仮想ハードウェア構成要素）を備えることができる。非限定的な実例では、ＧＰＵ１４０８のうちの１つ若しくは複数が、１つ若しくは複数のｖＧＰＵを備えることができ、ＣＰＵ１４０６のうちの１つ若しくは複数が、１つ若しくは複数のｖＣＰＵを備えることができ、及び／又は論理演算ユニット１４２０のうちの１つ若しくは複数が、１つ若しくは複数の仮想論理演算ユニットを備えることができる。したがって、コンピュータ処理デバイス１４００には、個別の構成要素（たとえば、コンピュータ処理デバイス１４００専用の完全なＧＰＵ）、仮想構成要素（たとえば、コンピュータ処理デバイス１４００専用のＧＰＵの一部）、又はこれらの組合せが含まれ得る。

図１４の様々なブロックは、相互接続システム１４０２を介して線で接続されるよう示されているが、これは限定するのではなく、明確にすることだけを意図している。たとえば、いくつかの実施例では、ディスプレイ・デバイスなどの表示構成要素１４１８は、Ｉ／Ｏ構成要素１４１４と見なされ得る（たとえば、ディスプレイがタッチ画面である場合）。別の実例として、ＣＰＵ１４０６及び／又はＧＰＵ１４０８には、メモリが含まれ得る（たとえば、メモリ１４０４は、ＧＰＵ１４０８、ＣＰＵ１４０６、及び／又は他の構成要素のメモリに加えて、記憶デバイスを表すことができる）。言い換えれば、図１４のコンピュータ処理デバイスは、単なる例示である。「ワークステーション」、「サーバ」、「ラップトップ」、「デスクトップ」、「タブレット」、「クライアント・デバイス」、「携帯型デバイス」、「ハンドヘルド・デバイス」、「ゲーム・コンソール」、「電子制御ユニット（ＥＣＵ：ｅｌｅｃｔｒｏｎｉｃｃｏｎｔｒｏｌｕｎｉｔ）」、「仮想現実システム」、及び／又は他のデバイス若しくはシステム・タイプなどのカテゴリは、すべてが、図１４のコンピュータ処理デバイスの範囲内にあると企図されているので、区別されるものではない。

相互接続システム１４０２は、アドレス・バス、データ・バス、制御バス、又はこれらの組合せなどの、１つ又は複数のリンク又はバスを表すことができる。相互接続システム１４０２には、業界標準アーキテクチャ（ＩＳＡ）バス、拡張業界標準アーキテクチャ（ＥＩＳＡ：ｅｘｔｅｎｄｅｄｉｎｄｕｓｔｒｙｓｔａｎｄａｒｄａｒｃｈｉｔｅｃｔｕｒｅ）バス、ビデオ・エレクトロニクス標準化協会（ＶＥＳＡ：ｖｉｄｅｏｅｌｅｃｔｒｏｎｉｃｓｓｔａｎｄａｒｄｓａｓｓｏｃｉａｔｉｏｎ）バス、周辺構成要素相互接続（ＰＣＩ：ｐｅｒｉｐｈｅｒａｌｃｏｍｐｏｎｅｎｔｉｎｔｅｒｃｏｎｎｅｃｔ）バス、周辺構成要素相互接続エクスプレス（ＰＣＩｅ：ｐｅｒｉｐｈｅｒａｌｃｏｍｐｏｎｅｎｔｉｎｔｅｒｃｏｎｎｅｃｔｅｘｐｒｅｓｓ）バス、及び／又は別のタイプのバス若しくはリンクなどの、１つ又は複数のバス又はリンク・タイプが含まれ得る。いくつかの実施例では、構成要素間は、直接接続されている。一実例として、ＣＰＵ１４０６は、メモリ１４０４に直接接続され得る。さらに、ＣＰＵ１４０６は、ＧＰＵ１４０８に直接接続され得る。構成要素間が直接接続又はポイントツーポイント接続である場合、相互接続システム１４０２には、接続を実行するためのＰＣＩｅリンクが含まれ得る。これらの実例では、ＰＣＩバスを、コンピュータ処理デバイス１４００に含める必要はない。

メモリ１４０４には、様々なコンピュータ可読媒体のいずれかが含まれ得る。コンピュータ可読媒体は、コンピュータ処理デバイス１４００によってアクセスされ得る、任意の利用可能な媒体であり得る。コンピュータ可読媒体には、揮発性媒体と不揮発性媒体との両方、及び取外し可能な媒体と取外し不可の媒体との両方が含まれ得る。限定するのではなく実例として、コンピュータ可読媒体には、コンピュータ記憶媒体及び通信媒体が含まれ得る。

コンピュータ記憶媒体には、コンピュータ可読命令、データ構造体、プログラム・モジュール、及び／又は他のデータ・タイプなどの情報を記憶するための、任意の方法又は技術で実装される、揮発性媒体と不揮発性媒体との両方、及び／又は取外し可能な媒体と取外し不可の媒体との両方が含まれ得る。たとえば、メモリ１４０４は、コンピュータ可読命令（たとえば、プログラム及び／又はオペレーティング・システムなどのプログラム要素を表す）をストアすることができる。コンピュータ記憶媒体には、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュ・メモリ若しくは他のメモリ技術、ＣＤ－ＲＯＭ、デジタル多用途ディスク（ＤＶＤ：ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ）若しくは他の光学ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置、若しくは他の磁気記憶デバイス、又は所望の情報をストアするために使用され得、コンピュータ処理デバイス１４００によってアクセスされ得る、他の任意の媒体が含まれ得るが、これらに限定されるものではない。コンピュータ記憶媒体は、本明細書で使用されるとき、信号自体を含まない。

コンピュータ記憶媒体は、コンピュータ可読命令、データ構造体、プログラム・モジュール、及び／又は搬送波若しくは他の搬送の仕組みなどの変調データ信号内の他のデータ・タイプを具現化し、任意の情報配信媒体を含むことができる。「変調データ信号」という用語は、信号内の情報をエンコードするなどのやり方でセット又は変更された、変調データの１つ又は複数の特性を有する信号を指すことができる。実例として、コンピュータ記憶媒体には、これらに限定されるものではないが、有線ネットワーク又は直接配線接続などの有線媒体、並びに音響、ＲＦ、赤外線、及び他の無線媒体などの無線媒体が含まれ得る。上記のいずれかの組合せもまた、コンピュータ可読媒体の範囲内に含める必要がある。

ＣＰＵ１４０６は、コンピュータ可読命令のうちの少なくともいくつかを実行して、コンピュータ処理デバイス１４００の１つ又は複数の構成要素を制御し、本明細書で説明されている方法及び／又はプロセスのうちの１つ又は複数を実行するよう設定され得る。ＣＰＵ１４０６は、それぞれに、多くのソフトウェア・スレッドを同時に扱うことができる、１個又は複数個のコア（たとえば、１個、２個、４個、８個、２８個、７２個など）が含まれ得る。ＣＰＵ１４０６には、任意のタイプのプロセッサが含まれ得、実装されるコンピュータ処理デバイス１４００のタイプに応じて、様々なタイプのプロセッサが含まれ得る（たとえば、より少数のコアを備える携帯型デバイス用プロセッサ、及びより多数のコアを備えるサーバ用プロセッサ）。たとえば、プロセッサは、コンピュータ処理デバイス１４００のタイプに応じて、縮小命令セット・コンピュータ処理（ＲＩＳＣ）を使用して実装された高度ＲＩＳＣマシン（ＡＲＭ：ＡｄｖａｎｃｅｄＲＩＳＣＭａｃｈｉｎｅｓ）プロセッサ、又は複雑な命令セット・コンピュータ処理（ＣＩＳＣ：ＣｏｍｐｌｅｘＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｉｎｇ）を使用して実装されたｘ８６プロセッサであり得る。コンピュータ処理デバイス１４００には、１つ又は複数のマイクロプロセッサ、又は数学コプロセッサなどの補助コプロセッサに加えて、１つ又は複数のＣＰＵ１４０６が含まれ得る。

ＣＰＵ１４０６に加えて、又はＣＰＵ１４０６の代わりに、ＧＰＵ１４０８が、コンピュータ可読命令のうちの少なくともいくつかを実行して、コンピュータ処理デバイス１４００の１つ又は複数の構成要素を制御し、本明細書で説明されている方法及び／又はプロセスのうちの１つ又は複数を実行するよう設定され得る。ＧＰＵ１４０８のうちの１つ若しくは複数は、（たとえば、ＣＰＵ１４０６のうちの１つ又は複数と統合されたＧＰＵであり得、及び／又はＧＰＵ１４０８のうちの１つ若しくは複数は、個別のＧＰＵであり得る。実施例では、ＧＰＵ１４０８のうちの１つ又は複数は、ＣＰＵ１４０６のうちの１つ又は複数のコプロセッサであり得る。ＧＰＵ１４０８は、グラフィックス（たとえば、３Ｄグラフィックス）をレンダリングするか、又は汎用の計算を実行するために、コンピュータ処理デバイス１４００によって使用され得る。たとえば、ＧＰＵ１４０８は、ＧＰＵでの汎用コンピュータ処理（ＧＰＧＰＵ：Ｇｅｎｅｒａｌ－ＰｕｒｐｏｓｅｃｏｍｐｕｔｉｎｇｏｎＧＰＵ）に使用され得る。ＧＰＵ１４０８には、数百又は数千のソフトウェア・スレッドを同時に扱うことができる、数百又は数千のコアが含まれ得る。ＧＰＵ１４０８は、レンダリング・コマンド（たとえば、ＣＰＵ１４０６から、ホスト・インタフェースを介して受信されたレンダリング・コマンド）に応答して、出力画像のためのピクセル・データを生成することができる。ＧＰＵ１４０８には、ピクセル・データ又はＧＰＧＰＵデータなどの他の任意の好適なデータをストするための、ディスプレイ・メモリなどのグラフィック・メモリが含まれ得る。ディスプレイ・メモリは、メモリ１４０４の一部として含まれ得る。ＧＰＵ１４０８には、並列に動作する（たとえば、リンクを介して）、２つ以上のＧＰＵが含まれ得る。リンクは、ＧＰＵを直接接続してもよく（たとえば、ＮＶＬＩＮＫを使用して）、又はスイッチを介してＧＰＵを接続してもよい（たとえば、ＮＶＳｗｉｔｃｈを使用して）。各ＧＰＵ１４０８は、互いに組み合わされると、出力の相異なる部分又は相異なる出力の、ピクセル・データ又はＧＰＧＰＵデータを生成することができる（たとえば、第１の画像用の第１のＧＰＵ及び第２の画像用の第２のＧＰＵ）。各ＧＰＵには、ＧＰＵ自体のメモリが含まれてもよく、又は他のＧＰＵとメモリを共有してもよい。

ＣＰＵ１４０６及び／若しくはＧＰＵ１４０８に加えて、又はＣＰＵ１４０６及び／若しくはＧＰＵ１４０８の代わりに、論理演算ユニット１４２０が、コンピュータ可読命令のうちの少なくともいくつかを実行して、コンピュータ処理デバイス１４００の１つ又は複数の構成要素を制御し、本明細書で説明されている方法及び／又はプロセスのうちの１つ又は複数を実行するよう設定され得る。実施例では、ＣＰＵ１４０６、ＧＰＵ１４０８、及び／又は論理演算ユニット１４２０は、方法、プロセス、及び／又はその一部の任意の組合せを、個別に又は共同で実行することができる。論理演算ユニット１４２０のうちの１つ又は複数は、ＣＰＵ１４０６及び／若しくはＧＰＵ１４０８のうちの１つ若しくは複数の一部であってもよく、且つ／又は統合されてもよく、並びに／或いは論理演算ユニット１４２０のうちの１つ若しくは複数は、個別の構成要素であってもよく、又はさもなければＣＰＵ１４０６及び／若しくはＧＰＵ１４０８の外部にあってもよい。実施例では、論理演算ユニット１４２０のうちの１つ又は複数は、ＣＰＵ１４０６のうちの１つ若しくは複数及び／又はＧＰＵ１４０８のうちの１つ若しくは複数の、コプロセッサであり得る。

論理演算ユニット１４２０の実例には、データ処理ユニット（ＤＰＵ）、テンソル・コア（ＴＣ：ＴｅｎｓｏｒＣｏｒｅ）、テンソル処理ユニット（ＴＰＵ）、ピクセル・ビジュアル・コア（ＰＶＣ：ＰｉｘｅｌＶｉｓｕａｌＣｏｒｅ）、ビジョン処理ユニット（ＶＰＵ：ＶｉｓｉｏｎＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、グラフィックス処理クラスタ（ＧＰＣ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＣｌｕｓｔｅｒ）、テクスチャ処理クラスタ（ＴＰＣ：ＴｅｘｔｕｒｅＰｒｏｃｅｓｓｉｎｇＣｌｕｓｔｅｒ）、ストリーミング・マルチプロセッサ（ＳＭ：ＳｔｒｅａｍｉｎｇＭｕｌｔｉｐｒｏｃｅｓｓｏｒ）、木の走査ユニット（ＴＴＵ）、人工知能アクセラレータ（ＡＩＡ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＡｃｃｅｌｅｒａｔｏｒ）、深層学習アクセラレータ（ＤＬＡ）、算術論理演算ユニット（ＡＬＵ）、特定用途向け集積回路（ＡＳＩＣ）、浮動小数点ユニット（ＦＰＵ）、入力／出力（Ｉ／Ｏ）要素、周辺構成要素相互接続（ＰＣＩ）若しくは周辺構成要素相互接続エクスプレス（ＰＣＩｅ）要素、及び／又は類似のものなど、１つ又は複数の処理コア及び／又は処理コアの構成要素が含まれる。

通信インタフェース１４１０には、コンピュータ処理デバイス１４００が、有線及び／又は無線通信を含む電子通信ネットワークを介して、他のコンピュータ処理デバイスと通信することを可能にする、１つ又は複数の受信機、送信機、及び／又は送受信機が含まれ得る。
通信インタフェース１４１０には、無線ネットワーク（たとえば、Ｗｉ－Ｆｉ、Ｚ－Ｗａｖｅ、ブルートゥース（登録商標）、ブルートゥース（登録商標）ＬＥ、ＺｉｇＢｅｅなど）、有線ネットワーク（たとえば、イーサネット（登録商標）又はＩｎｆｉｎｉＢａｎｄを介した通信）、低電力広域ネットワーク（たとえば、ＬｏＲａＷＡＮ、ＳｉｇＦｏｘなど）、及び／又はインターネットなどの、いくつかの相異なるネットワークのいずれかを介した通信を可能にする、構成要素及び機能が含まれ得る。１つ又は複数の実施例では、論理演算ユニット１４２０及び／又は通信インタフェース１４１０には、ネットワークを介して、及び／又は相互接続システム１４０２を通じて受信したデータを、１つ又は複数のＧＰＵ１４０８（たとえば、ＧＰＵ１４０８のメモリ）に直接伝送する、１つ又は複数のデータ処理ユニット（ＤＰＵ）が含まれ得る。

Ｉ／Ｏポート１４１２により、コンピュータ処理デバイス１４００が、Ｉ／Ｏ構成要素１４１４、表示構成要素１４１８、及び／又は他の構成要素を含む他のデバイスと、論理的に結合されることが可能となり得、他のデバイスの一部がコンピュータ処理デバイス１４００に組み込まれ得る（たとえば、統合される）。例示的なＩ／Ｏ構成要素１４１４には、マイク、マウス、キーボード、ジョイスティック、ゲーム・パッド、ゲーム・コントローラ、衛星放送受信用アンテナ、スキャナ、プリンタ、無線デバイスなどが含まれる。Ｉ／Ｏ構成要素１４１４は、手振り動作、声、又はユーザが作り出す他の生理学的入力を処理する、自然なユーザ・インタフェース（ＮＵＩ：ｎａｔｕｒａｌｕｓｅｒｉｎｔｅｒｆａｃｅ）を提供することができる。入力は、場合によっては、さらなる処理のために適切なネットワーク要素に伝送され得る。ＮＵＩは、スピーチ認識、スタイラス認識、顔認識、生体認識、画面上と画面の近隣との両方でのジェスチャ認識、手振り動作、頭及び目の追跡、並びにコンピュータ処理デバイス１４００のディスプレイと関連づけられたタッチ認識（下記でより詳細に説明される）の、任意の組合せを実施することができる。コンピュータ処理デバイス１４００には、ジェスチャを検出及び認識するための、立体カメラ・システム、赤外線カメラ・システム、ＲＧＢカメラ・システム、タッチ画面技術、及びこれらの組合せなどの、深度カメラが含まれ得る。さらに、コンピュータ処理デバイス１４００には、動き検出を可能にする、加速度計又はジャイロスコープ（たとえば、慣性測定ユニット（ＩＭＵ）の一部として）が含まれ得る。いくつかの実例では、加速度計又はジャイロスコープの出力は、没入型拡張現実又は仮想現実をレンダリングするために、コンピュータ処理デバイス１４００によって使用され得る。

電源１４１６には、有線接続された電源、バッテリ電源、又はこれらの組合せが含まれ得る。電源１４１６は、コンピュータ処理デバイス１４００に電力を供給して、コンピュータ処理デバイス１４００の構成要素を動作可能にし得る。

表示構成要素１４１８には、ディスプレイ（たとえば、モニタ、タッチ画面、テレビ画面、ヘッドアップ・ディスプレイ（ＨＵＤ）、他のディスプレイ・タイプ、又はこれらの組合せ）、スピーカ、及び／又は他の表示構成要素が含まれ得る。表示構成要素１４１８は、他の構成要素（たとえば、ＧＰＵ１４０８、ＣＰＵ１４０６、ＤＰＵなど）からデータを受信し、（たとえば、画像、ビデオ、音声などである）データを出力することができる。

例示的なデータ・センタ
図１５は、本開示の少なくとも１つの実施例で使用され得る、例示的なデータ・センタ１５００を示している。データ・センタ１５００には、データ・センタ・インフラ層１５１０、フレームワーク層１５２０、ソフトウェア層１５３０、及び／又はアプリケーション層１５４０が含まれ得る。

図１５に示されているように、データ・センタ・インフラ層１５１０には、リソース・オーケストレータ１５１２、グループ化されたコンピュータ処理リソース１５１４、及びノード・コンピュータ処理リソース（「ノードＣ．Ｒ．」：ｎｏｄｅｃｏｍｐｕｔｉｎｇｒｅｓｏｕｒｃｅ）１５１６（１）～１５１６（Ｎ）が含まれ得、ここで「Ｎ」は、すべての正の整数全体を表す。少なくとも１つの実施例では、ノードＣ．Ｒ．１５１６（１）～１５１６（Ｎ）には、任意の数の中央処理ユニット（ＣＰＵ）若しくは他のプロセッサ（ＤＰＵ、アクセラレータ、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ：ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、グラフィック・プロセッサ又はグラフィック処理ユニット（ＧＰＵ）などを含む）、メモリ・デバイス（たとえば、動的読取り専用メモリ）、記憶デバイス（たとえば、固体又はディスク・ドライブ）、ネットワーク入力／出力（ＮＷＩ／Ｏ：ｎｅｔｗｏｒｋｉｎｐｕｔ／ｏｕｔｐｕｔ）デバイス、ネットワーク・スイッチ、仮想マシン（ＶＭ）、電力モジュール、及び／又は冷却モジュールなどが含まれ得るが、これらに限定されるものではない。いくつかの実施例では、ノードＣ．Ｒ．１５１６（１）～１５１６（Ｎ）のうちの１つ又は複数のノードＣ．Ｒ．は、上記のコンピュータ処理リソースのうちの１つ又は複数を有する、サーバに対応することができる。加えて、いくつかの実施例では、ノードＣ．Ｒ．１５１６（１）～１５１６１（Ｎ）には、ｖＧＰＵ、ｖＣＰＵ、及び／若しくは類似のものなどの、１つ若しくは複数の仮想構成要素が含まれ得、及び／又はノードＣ．Ｒ．１５１６（１）～１５１６（Ｎ）のうちの１つ若しくは複数は、仮想マシン（ＶＭ）に対応することができる。

少なくとも１つの実施例では、グループ化されたコンピュータ処理リソース１５１４には、１つ若しくは複数のラック（図示せず）、又は様々な地理的位置のデータ・センタに収容された多くのラック（やはり、図示せず）内に収容された、別個にグループ化したノードＣ．Ｒ．１５１６が含まれ得る。グループ化されたコンピュータ処理リソース１５１４内の、別個にグループ化したノードＣ．Ｒ．１５１６には、１つ又は複数の作業負荷をサポートするように設定又は割り当てられ得る、グループ化された計算部、ネットワーク、メモリ、又は記憶リソースが含まれ得る。少なくとも１つの実施例では、ＣＰＵ、ＧＰＵ、ＤＰＵ、及び／又は他のプロセッサを含むいくつかのノードＣ．Ｒ．１５１６は、１つ又は複数のラック内にグループ化され、１つ又は複数の作業負荷をサポートするための計算リソースを提供することができる。１つ又は複数のラックにはまた、任意の数の電力モジュール、冷却モジュール、及び／又はネットワーク・スイッチも、任意の組合せで含まれ得る。

リソース・オーケストレータ１５１２は、１つ又は複数のノードＣ．Ｒ．１５１６（１）～１５１６（Ｎ）、及び／又はグループ化されたコンピュータ処理リソース１５１４を設定するか、さもなければ制御することができる。少なくとも１つの実施例では、リソース・オーケストレータ１５１２には、データ・センタ１５００のためのソフトウェア設計インフラ（ＳＤＩ：ｓｏｆｔｗａｒｅｄｅｓｉｇｎｉｎｆｒａｓｔｒｕｃｔｕｒｅ）管理エンティティが含まれ得る。リソース・オーケストレータ１５１２には、ハードウェア、ソフトウェア、又はこれらの何らかの組合せが含まれ得る。

少なくとも１つの実施例では、図１５に示されているように、フレームワーク層１５２０には、ジョブ・スケジューラ１５３２、設定マネージャ１５３４、リソース・マネージャ１５３６、及び／又は分散ファイル・システム１５３８が含まれ得る。フレームワーク層１５２０には、ソフトウェア層１５３０のソフトウェア１５３２、及び／又はアプリケーション層１５４０の１つ若しくは複数のアプリケーション１５４２をサポートする、フレームワークが含まれ得る。ソフトウェア１５３２又はアプリケーション１５４２には、それぞれ、アマゾン・ウェブ・サービス、グーグル・クラウド、及びマイクロソフト・アズールが提供するものなどの、ウェブベースのサービス・ソフトウェア又はアプリケーションが含まれ得る。フレームワーク層１５２０は、大規模なデータ処理（たとえば、「ビッグ・データ」）用に分散ファイル・システム１５３８を利用できる、ＡｐａｃｈｅＳｐａｒｋ（登録商標）（これ以降、「Ｓｐａｒｋ」）などの、一種のフリー且つオープンソースのソフトウェアのウェブ・アプリケーション・フレームワークであり得るが、これに限定されるものではない。少なくとも１つの実施例では、ジョブ・スケジューラ１５３２には、データ・センタ１５００の様々な層によってサポートされる、作業負荷のスケジューリングを容易にする、Ｓｐａｒｋドライバが含まれ得る。設定マネージャ１５３４は、大規模なデータ処理をサポートするための、Ｓｐａｒｋ及び分散ファイル・システム１５３８を含む、ソフトウェア層１５３０及びフレームワーク層１５２０などの、様々な層を設定することが可能であり得る。リソース・マネージャ１５３６は、分散ファイル・システム１５３８及びジョブ・スケジューラ１５３２のサポート用にマッピング又は割り当てられた、クラスタ化又はグループ化されたコンピュータ処理リソースを管理することが可能であり得る。少なくとも１つの実施例では、クラスタ化又はグループ化されたコンピュータ処理リソースには、データ・センタ・インフラ層１５１０でグループ化されたコンピュータ処理リソース１５１４が含まれ得る。リソース・マネージャ１５３６は、リソース・オーケストレータ１５１２と調整して、これらのマッピング又は割り当てられたコンピュータ処理リソースを管理することができる。

少なくとも１つの実施例では、ソフトウェア層１５３０に含まれるソフトウェア１５３２には、ノードＣ．Ｒ．１５１６（１）～１５１６（Ｎ）のうちの少なくとも一部、グループ化されたコンピュータ処理リソース１５１４、及び／又はフレームワーク層１５２０の分散ファイル・システム１５３８が使用するソフトウェアが含まれ得る。１種類又は複数種類のソフトウェアには、インターネット・ウェブ・ページ検索ソフトウェア、電子メール・ウイルス・スキャン・ソフトウェア、データベース・ソフトウェア、及びストリーミング・ビデオ・コンテンツ・ソフトウェアが含まれ得るが、これらに限定されるものではない。

少なくとも１つの実施例では、アプリケーション層１５４０に含まれるアプリケーション１５４２には、ノードＣ．Ｒ．１５１６（１）～１５１６（Ｎ）のうちの少なくとも一部、グループ化されたコンピュータ処理リソース１５１４、及び／又はフレームワーク層１５２０の分散ファイル・システム１５３８が使用する、１種類又は複数種類のアプリケーションが含まれ得る。１種類又は複数種類のアプリケーションには、任意の数のゲノム解析アプリケーション、コグニティブ・コンピュータ処理、並びに訓練若しくは推論ソフトウェア、機械学習フレームワーク・ソフトウェア（たとえば、ＰｙＴｏｒｃｈ、ＴｅｎｓｏｒＦｌｏｗ、Ｃａｆｆｅなど）、及び／又は１つ若しくは複数の実施例と組み合わせて使用される他の機械学習アプリケーションを含む、機械学習アプリケーションが含まれ得るが、これらに限定されるものではない。

少なくとも１つの実施例では、設定マネージャ１５３４、リソース・マネージャ１５３６、及びリソース・オーケストレータ１５１２のうちのいずれも、任意の技術的に実行可能なやり方で得られた任意の量及びタイプのデータに基づいて、任意の数及びタイプの自己修正措置を実施することができる。自己修正措置により、データ・センタ１５００のデータ・センタ技師は、誤っている可能性のある設定を判断し、データ・センタの一部が十分に利用されない、且つ／又は不適切に実行されるのをできる限り回避することから、解放され得る。

データ・センタ１５００には、本明細書で説明されている１つ又は複数の実施例による、１つ若しくは複数の機械学習モデルを訓練するか、又は１つ若しくは複数の機械学習モデルを使用して情報を予測若しくは推測するための、ツール、サービス、ソフトウェア、又は他のリソースが含まれ得る。たとえば、機械学習モデルは、データ・センタ１５００に関連して上記で説明されたソフトウェア及び／又はコンピュータ処理リソースを使用して、ニューラル・ネットワーク・アーキテクチャに従って重みパラメータを算出することにより、訓練され得る。少なくとも１つの実施例では、１つ又は複数のニューラル・ネットワークに対応する、訓練又は展開された機械学習モデルは、データ・センタ１５００に関連して上記で説明されたリソースを使用して、本明細書に説明されたものなどであるがこれらに限定されるものではない、１つ又は複数の訓練技法で計算された重みパラメータを使用することによって、情報を推論又は予測するために使用され得る。

少なくとも１つの実施例では、データ・センタ１５００は、ＣＰＵ、特定用途向け集積回路（ＡＳＩＣ）、ＧＰＵ、ＦＰＧＡ、及び／又は他のハードウェア（又はこれらに対応する仮想コンピュータ処理リソース）を使用して、訓練及び／又は推論を、上記で説明されたリソースを使用して実行することができる。さらに、上記で説明された１つ又は複数のソフトウェア及び／又はハードウェアのリソースは、ユーザが、画像認識、スピーチ認識、又は他の人工知能サービスなどの、情報の推論を訓練又は実行することを可能にするサービスとして設定され得る。

例示的なネットワーク環境
本開示の実施例を実施する際に使用するのに好適なネットワーク環境には、１つ又は複数のクライアント・デバイス、サーバ、ネットワーク接続記憶装置（ＮＡＳ：ｎｅｔｗｏｒｋａｔｔａｃｈｅｄｓｔｏｒａｇｅ）、他のバックエンド・デバイス、及び／又は他のデバイス・タイプが含まれ得る。クライアント・デバイス、サーバ、及び／又は他のデバイス・タイプ（たとえば、各デバイス）は、図１４のコンピュータ処理デバイス１４００の１つ又は複数のインスタンスに実装され得る。たとえば、各デバイスには、コンピュータ処理デバイス１４００の同様の構成要素、フィーチャ、及び／又は機能が含まれ得る。加えて、バックエンド・デバイス（たとえば、サーバ、ＮＡＳなど）が実装される場合、バックエンド・デバイスは、データ・センタ１５００の一部として含まれ得、その実例が、本明細書で図１５に関連してより詳細に説明されている。

ネットワーク環境の構成要素は、有線、無線、又はその両方であり得るネットワークを介して、互いに通信することができる。ネットワークには、複数のネットワーク、又はネットワークのネットワークが含まれ得る。実例として、ネットワークには、１つ若しくは複数の広域ネットワーク（ＷＡＮ）、１つ若しくは複数の構内ネットワーク（ＬＡＮ）、インターネット及び／若しくは公衆交換電話網（ＰＳＴＮ：ｐｕｂｌｉｃｓｗｉｔｃｈｅｄｔｅｌｅｐｈｏｎｅｎｅｔｗｏｒｋ）などの１つ若しくは複数の公衆ネットワーク、及び／又は１つ若しくは複数の私設ネットワークが含まれ得る。ネットワークに無線遠隔通信ネットワークが含まれる場合、基地局、通信塔、さらにはアクセス・ポイントなどの構成要素（並びに他の構成要素）が、無線接続性を提供することができる。

互換性のあるネットワーク環境には、サーバがネットワーク環境に含まれない場合がある、１つ又は複数のピアツーピア・ネットワーク環境、及び１台又は複数台のサーバがネットワーク環境に含まれる場合がある、１つ又は複数のクライアント・サーバ・ネットワーク環境が含まれ得る。ピアツーピア・ネットワーク環境では、サーバに関連して本明細書で説明された機能は、任意の数のクライアント・デバイスに実装され得る。

少なくとも１つの実施例では、ネットワーク環境には、１つ又は複数のクラウド・ベースのネットワーク環境、分散コンピュータ処理環境、これらの組合せなどが含まれ得る。クラウド・ベースのネットワーク環境には、フレームワーク層、ジョブ・スケジューラ、リソース・マネージャ、及び１台又は複数台のサーバに実装された分散ファイル・システムが含まれ得、クラウド・ベースのネットワーク環境には、１台又は複数台のコア・ネットワーク・サーバ及び／又はエッジ・サーバが含まれ得る。フレームワーク層には、ソフトウェア層のソフトウェア、及び／又はアプリケーション層の１つ若しくは複数のアプリケーションをサポートする、フレームワークが含まれ得る。ソフトウェア又はアプリケーションには、それぞれ、ウェブベースのサービス・ソフトウェア又はアプリケーションが含まれ得る。実施例では、クライアント・デバイスのうちの１つ又は複数は、ウェブベースのサービス・ソフトウェア又はアプリケーションを使用することができる（たとえば、１つ又は複数のアプリケーション・プログラミング・インタフェース（ＡＰＩ）を介して、サービス・ソフトウェア及び／又はアプリケーションにアクセスすることによって）。フレームワーク層は、大規模なデータ処理（たとえば、「ビッグ・データ」）用に分散ファイル・システムを使用できるものなどの、一種のフリー且つオープンソースのソフトウェアのウェブ・アプリケーション・フレームワークであり得るが、これに限定されるものではない。

クラウド・ベースのネットワーク環境は、本明細書で説明されているコンピュータ処理及び／又はデータ記憶機能（又はコンピュータ処理及び／若しくはデータ機能の一部分若しくは複数の部分）の任意の組合せを実行する、クラウド・コンピュータ処理及び／又はクラウド記憶装置を備えることができる。これらの様々な機能のいずれも、（たとえば、州、地域、国、世界などにわたって分散され得る、１つ又は複数のデータ・センタの）中央サーバ又はコア・サーバから、複数の位置にわたって分散され得る。ユーザ（たとえば、クライアント・デバイス）への接続が、エッジ・サーバの比較的近傍にある場合、コア・サーバは、機能の少なくとも一部を、エッジ・サーバに割り当てることができる。クラウド・ベースのネットワーク環境は、私設であり得るか（たとえば、ただ１つの組織に限定される）、公衆向けであり得るか（たとえば、多くの組織で利用可能である）、且つ／又はこれらの組合せ（たとえば、ハイブリッド・クラウド環境）であり得る。

クライアント・デバイスには、図１４に関して本明細書で説明された、例示的なコンピュータ処理デバイス１４００の構成要素、フィーチャ、及び機能のうちの少なくともいくつかが含まれ得る。クライアント・デバイスは、実例として、これらに限定されるものではないが、パーソナル・コンピュータ（ＰＣ：ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ラップトップ・コンピュータ、携帯型デバイス、スマートフォン、タブレット・コンピュータ、スマート・ウォッチ、装着可能なコンピュータ、パーソナル・デジタル・アシスタント（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＭＰ３プレーヤ、仮想現実ヘッドセット、全地球測位システム（ＧＰＳ：ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）若しくはデバイス、ビデオ・プレーヤ、ビデオ・カメラ、監視デバイス若しくはシステム、車両、ボート、飛行船、仮想マシン、ドローン、ロボット、ハンドヘルド通信デバイス、病院向けデバイス、ゲーム・デバイス若しくはシステム、エンターテインメント・システム、車両コンピュータ・システム、組込みシステム・コントローラ、遠隔制御装置、アプライアンス、家庭用電子デバイス、ワークステーション、エッジ・デバイス、これらの示したデバイスの任意の組合せ、又は他の任意の好適なデバイスとして具現化され得る。

本開示は、コンピュータ、又はパーソナル・データ・アシスタント若しくは他のハンドヘルド・デバイスなどの他の機械によって実行される、プログラム・モジュールなどのコンピュータ実行可能命令を含む、コンピュータ・コード又は機械使用可能命令という概括的な観点で説明され得る。ルーチン、プログラム、オブジェクト、構成要素、データ構造体などを含むプログラム・モジュールは、概して、特定のタスクを実行するか又は特定の抽象データ・タイプを実施するコードを指す。本開示は、ハンドヘルド・デバイス、家庭用電子装置、汎用コンピュータ、より特殊なコンピュータ処理デバイスなどを含む、様々なシステム設定で実践され得る。本開示はまた、通信ネットワークを介してリンクされている遠隔処理デバイスによってタスクが実行される、分散コンピュータ処理環境でも実践され得る。

本明細書で使用される場合、２つ以上の要素に関する「及び／又は」の列挙は、１つの要素のみ、又は要素の組合せを意味すると解釈されるべきである。たとえば、「要素Ａ、要素Ｂ、及び／又は要素Ｃ」には、要素Ａのみ、要素Ｂのみ、要素Ｃのみ、要素Ａ及び要素Ｂ、要素Ａ及び要素Ｃ、要素Ｂ及び要素Ｃ、又は要素Ａ、Ｂ、及びＣが含まれ得る。加えて、「要素Ａ又は要素Ｂのうちの少なくとも１つ」には、要素Ａのうちの少なくとも１つ、要素Ｂのうちの少なくとも１つ、又は要素Ａのうちの少なくとも１つ及び要素Ｂのうちの少なくとも１つのうちが含まれ得る。さらに、「要素Ａ及び要素Ｂのうちの少なくとも１つ」には、要素Ａのうちの少なくとも１つ、要素Ｂのうちの少なくとも１つ、又は要素Ａのうちの少なくとも１つ及び要素Ｂのうちの少なくとも１つが含まれ得る。

本開示の主題は、法定要件を満たすために、本明細書に具体的に説明されている。しかし、説明自体は、この開示の範囲を限定することを意図するものではない。むしろ、発明者らは、特許請求の範囲に記載された主題がまた、他のやり方でも具現化され、他の現在又は将来の技術と併せて、この文書で説明されたものと同様の、様々なステップ又はステップの組合せを含む可能性があることを企図している。さらに、「ステップ」及び／又は「ブロック」という用語は、本明細書では、使用される方法の様々な要素を含意するために使用され得るが、これらの用語は、個々のステップの順序が明示的に説明されていない限り、また説明されている場合を除いて、本明細書で開示された様々なステップの間又はステップ間の、どんな特定の順序も示唆すると解釈されるべきではない。

Claims

メモリと、
前記メモリに結合されたプロセッサと、
前記メモリに結合された分離式ルックアップ・テーブル（ＤＬＵＴ）アクセラレータと
を備えるシステムであって、前記ＤＬＵＴアクセラレータが、
前記プロセッサを使用して生成される設定情報に少なくとも部分的に基づいて、前記ＤＬＵＴアクセラレータの１つ又は複数のサブユニットを設定し、
前記メモリから読み取られたインデックスのストリームの、インデックスの第１のセットから、バンクの競合がないインデックスの第１のサブセットを判断し、
前記メモリから読み取られた前記インデックスのストリームの、インデックスの第２のセットから、前記インデックスの第１のサブセットとのバンクの競合がない、インデックスの第２のサブセットを判断し、
複数の値を取得するために、前記メモリからのただ１回の読取りサイクルで、前記インデックスの第１のサブセット及び前記インデックスの第２のサブセットを使用して、１つ又は複数のルックアップ・テーブルのルックアップを実行し、且つ
前記複数の値を前記メモリに書き込む、
システム。
前記設定情報が、前記プロセッサ又は前記メモリのうちの少なくとも１つから、前記ＤＬＵＴアクセラレータによって受信される、請求項１に記載のシステム。
前記設定情報が、インデックス及び前記１つ又は複数のルックアップ・テーブルを含む、１つ又は複数の入力バッファの１つ又は複数の位置を示す、請求項１に記載のシステム。
前記ＤＬＵＴアクセラレータがさらに、
前記インデックスのストリームが小数インデックス値を含むことを判断し、
各小数インデックス値の小数部分を、前記１つ又は複数のサブユニットの後処理サブユニットへ供給し、且つ
前記小数インデックス値の各小数インデックス値について、複数のインデックスを判断する、
請求項１に記載のシステム。
前記後処理サブユニットが、最終値を生成するために、各小数インデックスの前記複数のインデックスに対応する値、及び前記小数インデックス値の前記小数部分を使用し、前記複数の値を前記メモリに書き込むことが、各小数インデックス値に対応する前記最終値を前記メモリに書き込むことを含む、請求項４に記載のシステム。
前記最終値を生成することが、１Ｄ補間又は２Ｄ補間のうちの少なくとも１つを実行することを含む、請求項５に記載のシステム。
前記複数の値を前記メモリに書き込むことが、前記インデックスのストリームの元の構成に従って、前記インデックスの第１のセット及び前記インデックスの第２のセットに対応する値を再構成することと、前記再構成された値を前記メモリに書き込むこととを含む、請求項１に記載のシステム。
前記プロセッサが、前記インデックスのストリームに含まれるインデックス、及び前記メモリ内の前記１つ又は複数のルックアップ・テーブルを設定する、請求項１に記載のシステム。
前記システムが、
自律型若しくは半自律型の機械のための制御システム、
自律型若しくは半自律型の機械のための知覚システム、
シミュレーション動作を実行するためのシステム、
深層学習の演算を実行するためのシステム、
システム・オン・チップ（ＳｏＣ）、
プログラム可能なビジョン・アクセラレータ（ＰＶＡ）を含むシステム、
ビジョン処理ユニットを含むシステム、
エッジ・デバイスを使用して実装されるシステム、
ロボットを使用して実装されるシステム、
１つ若しくは複数の仮想マシン（ＶＭ）を組み込んだシステム、
データ・センタ内で少なくとも部分的に実装されるシステム、又は
クラウド・コンピュータ処理リソースを使用して少なくとも部分的に実装されるシステム
のうちの少なくとも１つに含まれる、請求項１に記載のシステム。
処理回路を備える分離式ルックアップ・テーブル（ＤＬＵＴ）アクセラレータであって、前記処理回路が、
プロセッサを使用して生成される設定情報に少なくとも部分的に基づいて、前記ＤＬＵＴアクセラレータの１つ又は複数のサブユニットを設定し、
メモリから読み取られたインデックスのストリームの、インデックスの第１のセットから、バンクの競合がないインデックスの第１のサブセットを判断し、
前記メモリから読み取られた前記インデックスのストリームの、インデックスの第２のセットから、前記インデックスの第１のサブセットとのバンクの競合がない、インデックスの第２のサブセットを判断し、
複数の値を取得するために、前記メモリからのただ１回の読取りサイクルで、前記インデックスの第１のサブセット及び前記インデックスの第２のサブセットを使用して、１つ又は複数のルックアップ・テーブルのルックアップを実行し、且つ
前記複数の値を前記メモリに書き込む、
ＤＬＵＴアクセラレータ。
前記設定情報が、前記プロセッサ又は前記メモリのうちの少なくとも１つから、前記ＤＬＵＴアクセラレータによって受信される、請求項１０に記載のＤＬＵＴアクセラレータ。
前記設定情報が、インデックス及び前記１つ又は複数のルックアップ・テーブルを含む、１つ又は複数の入力バッファの１つ又は複数の位置を示す、請求項１０に記載のＤＬＵＴアクセラレータ。
前記ＤＬＵＴアクセラレータがさらに、
前記インデックスのストリームが小数インデックス値を含むことを判断し、
各小数インデックス値の小数部分を、前記１つ又は複数のサブユニットの後処理サブユニットへ供給し、且つ
前記小数インデックス値の各小数インデックス値について、複数のインデックスを判断する、
請求項１０に記載のＤＬＵＴアクセラレータ。
前記後処理サブユニットが、最終値を生成するために、各小数インデックスの前記複数のインデックスに対応する値、及び前記小数インデックス値の前記小数部分を使用し、前記複数の値を前記メモリに書き込むことが、各小数インデックス値に対応する前記最終値を前記メモリに書き込むことを含む、請求項１３に記載のＤＬＵＴアクセラレータ。
前記最終値を生成することが、１Ｄ補間又は２Ｄ補間のうちの少なくとも１つを実行することを含む、請求項１４に記載のＤＬＵＴアクセラレータ。
前記複数の値を前記メモリに書き込むことが、前記インデックスのストリームの元の構成に従って、前記インデックスの第１のセット及び前記インデックスの第２のセットに対応する値を再構成することと、前記再構成された値を前記メモリに書き込むこととを含む、請求項１０に記載のＤＬＵＴアクセラレータ。
前記プロセッサが、前記インデックスのストリームに含まれるインデックス、及び前記メモリ内の前記１つ又は複数のルックアップ・テーブルを設定する、請求項１０に記載のＤＬＵＴアクセラレータ。
前記ＤＬＵＴアクセラレータが、
自律型若しくは半自律型の機械のための制御システム、
自律型若しくは半自律型の機械のための知覚システム、
シミュレーション動作を実行するためのシステム、
深層学習の演算を実行するためのシステム、
システム・オン・チップ（ＳｏＣ）、
プログラム可能なビジョン・アクセラレータ（ＰＶＡ）を含むシステム、
ビジョン処理ユニットを含むシステム、
エッジ・デバイスを使用して実装されるシステム、
ロボットを使用して実装されるシステム、
１つ若しくは複数の仮想マシン（ＶＭ）を組み込んだシステム、
データ・センタ内で少なくとも部分的に実装されるシステム、又は
クラウド・コンピュータ処理リソースを使用して少なくとも部分的に実装されるシステム
のうちの少なくとも１つに含まれる、請求項１０に記載のＤＬＵＴアクセラレータ。
プロセッサを使用して生成される設定情報に少なくとも部分的に基づいて、分離式ルックアップ・テーブル（ＤＬＵＴ）アクセラレータの１つ又は複数のサブユニットを設定するステップと、
メモリから読み取られたインデックスのストリームの、インデックスの第１のセットから、バンクの競合がないインデックスの第１のサブセットを判断するステップと、
前記メモリから読み取られた前記インデックスのストリームの、インデックスの第２のセットから、前記インデックスの第１のサブセットとのバンクの競合がない、インデックスの第２のサブセットを判断するステップと、
複数の値を取得するために、前記メモリからのただ１回の読取りサイクルで、前記インデックスの第１のサブセット及び前記インデックスの第２のサブセットを使用して、１つ又は複数のルックアップ・テーブルのルックアップを実行するステップと、
前記複数の値を前記メモリに書き込むステップと
を含む、方法。
前記設定情報が、前記プロセッサ又は前記メモリのうちの少なくとも１つから受信される、請求項１９に記載の方法。