JP2024514374A

JP2024514374A - データ・セットにおけるスパース性を増大させること

Info

Publication number: JP2024514374A
Application number: JP2022529708A
Authority: JP
Inventors: マイケルプール、ジェフリー; ユー、チョン; ミシケヴィシウス、パウリウス
Original assignee: エヌビディアコーポレーション
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2024-04-02
Also published as: US20220327101A1; WO2022213341A1; DE112021007476T5; CN115461759A; KR20220140694A

Abstract

スパース性及び／又は前記データ・セットの他の特性を大きくしてニューラル・ネットワーク計算などの計算における性能を向上させるため、ニューラル・ネットワークの層を表現する行列などの、データ・セットを変換するための、装置、システム、及び技法。少なくとも一実施例では、１つ又は複数のデータのセット内の１つ又は複数のデータのサブセットは、１つ又は複数の１つ又は複数の構造的スパース性制約を満たすために、前記１つ又は複数のデータのセットにおけるスパース性を大きくするためのプロセスの一部として並べ替えられる。

Description

少なくとも一実施例は、ニューラル・ネットワークの層を表現する行列などのデータ・セットを変換するために使用され、様々な計算における性能を向上させるために前記データ・セットのスパース性を増大させる処理リソースに関する。たとえば、少なくとも一実施例は、本明細書で説明される様々な新規な技法により、データのスパース性を増大させるプロセスの一部として枝刈されるデータ値のクラスを最大化して計算性能を向上させるために、１つ又は複数のデータのセットにおいて、１つ又は複数のデータのサブセットを並べ替えるために使用されるプロセッサ又はコンピューティング・システムに関する。

スパース・ニューラル・ネットワークは、それぞれのニューラル・ネットワーク層において、一部の重みがゼロ値を有するニューラル・ネットワークである。各層を表現する行列は、このようなゼロ値から構成される。スパース・ニューラル・ネットワークによりもたらされる潜在的な利点は、ストレージ要件の縮小、及び性能の向上である。コンピューティング・ハードウェアに対する近年の改善は、スパース・ニューラル・ネットワークを表現する行列と連携するように特別に構成された処理コアを含んでいる。このハードウェアは、ニューラル・ネットワークの層に対応する行列が特定の構造化スパース性制約（ｓｔｒｕｃｔｕｒａｌｓｐａｒｓｉｔｙｃｏｎｓｔｒａｉｎｔ）を満たす限り、計算速度に著しい高度化をもたらす。

少なくとも一実施例による、各層が行列を用いて表現されるニューラル・ネットワーク・アーキテクチャを示すブロック図である。少なくとも一実施例による、層が疎行列によって表現されるスパース・ニューラル・ネットワークの層同士の接続を示すブロック図である。少なくとも一実施例による、１つ又は複数の疎テンソル・コアを含む並列処理ユニット・アーキテクチャを示すブロック図である。は、少なくとも一実施例による、疎行列の行における２：４構造化スパース性（ｓｔｒｕｃｔｕｒｅｄｓｐａｒｓｉｔｙ）を示すブロック図である。少なくとも一実施例による、ニューラル・ネットワーク中の層を表現する行列の行における置換を示すブロック図である。少なくとも一実施例による、２：４構造化スパース性を満たすよう、枝刈されるデータ値のクラスを増やすための、行列の列に対する例示的な置換を示すブロック図である。少なくとも一実施例による、２：４構造化スパース性を満たすよう、枝刈されるデータ値のクラスを増やすための、行列に対する１つ又は複数の重み置換を決定するためのプロセスを示す図である。少なくとも一実施例による、推論及び／又は訓練論理を示す図である。少なくとも一実施例による、推論及び／又は訓練論理を示す図である。少なくとも一実施例による、ニューラル・ネットワークの訓練及び導入を示す図である。少なくとも一実施例による、例示的データ・センタ・システムを示す図である。少なくとも一実施例による、自律車両の実例を示す図である。少なくとも一実施例による、図１１Ａの自律車両のカメラのロケーション及び視野の実例を示す図である。少なくとも一実施例による、図１１Ａの自律車両の例示的システム・アーキテクチャを示すブロック図である。少なくとも一実施例による、クラウド・ベースのサーバと図１１Ａの自律車両との通信のためのシステムを示す図である。少なくとも一実施例による、コンピュータ・システムを示すブロック図である。少なくとも一実施例による、コンピュータ・システムを示すブロック図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、共有プログラミング・モデルを示す図である。少なくとも一実施例による、共有プログラミング・モデルを示す図である。少なくとも一実施例による、例示的な集積回路及び関連するグラフィックス・プロセッサを示す図である。少なくとも一実施例による、例示的な集積回路及び関連グラフィックス・プロセッサを示す図である。少なくとも一実施例による、例示的な集積回路及び関連グラフィックス・プロセッサを示す図である。少なくとも一実施例による、追加の例示的グラフィックス・プロセッサ論理を示す図である。少なくとも一実施例による、追加の例示的グラフィックス・プロセッサ論理を示す図である。少なくとも一実施例による、コンピュータ・システムを示す図である。少なくとも一実施例による、並列プロセッサを示す図である。少なくとも一実施例による、パーティション・ユニットを示す図である。少なくとも一実施例による、処理クラスタを示す図である。少なくとも一実施例による、グラフィックス・マルチプロセッサを示す図である。少なくとも一実施例による、マルチ・グラフィックス・プロセッシング・ユニット（ＧＰＵ：graphics processing unit）システムを示す図である。少なくとも一実施例による、グラフィックス・プロセッサを示す図である。少なくとも一実施例による、プロセッサ用のプロセッサ・マイクロ・アーキテクチャを示すブロック図である。少なくとも一実施例による、深層学習アプリケーション・プロセッサを示す図である。少なくとも一実施例による、例示的ニューロモーフィック・プロセッサを示すブロック図である。１つ又は複数の実施例による、グラフィックス・プロセッサの少なくとも一部分を示す図である。１つ又は複数の実施例による、グラフィックス・プロセッサの少なくとも一部分を示す図である。１つ又は複数の実施例による、グラフィックス・プロセッサの少なくとも一部分を示す図である。少なくとも一実施例によるグラフィックス・プロセッサのグラフィックス処理エンジンのブロック図である。少なくとも一実施例による、グラフィックス・プロセッサ・コアの少なくとも一部分のブロック図である。少なくとも一実施例による、グラフィックス・プロセッサ・コアの処理要素のアレイを含むスレッド実行論理を示す図である。少なくとも一実施例による、グラフィックス・プロセッサ・コアの処理要素のアレイを含むスレッド実行論理を示す図である。少なくとも一実施例による、並列処理ユニット（「ＰＰＵ」：parallel processing unit）を示す図である。少なくとも一実施例による、汎用処理クラスタ（「ＧＰＣ」：general processing cluster）を示す図である。少なくとも一実施例による、並列処理ユニット（「ＰＰＵ」）のメモリ・パーティション・ユニットを示す図である。少なくとも一実施例による、ストリーミング・マルチプロセッサを示す図である。少なくとも一実施例による、先進コンピューティング・パイプラインのための実例データ・フロー図である。少なくとも一実施例による、先進コンピューティング・パイプラインにおいて機械学習モデルを訓練、適応、インスタンス化、及び導入するための実例システムのシステム図である。少なくとも一実施例による、撮像データを処理するための先進コンピューティング・パイプライン３８１０Ａの実例を含む図である。少なくとも一実施例による、超音波デバイスをサポートする仮想器具の実例データ・フローを含む図である。少なくとも一実施例による、ＣＴスキャナをサポートする仮想器具の実例データ・フローを含む図である。少なくとも一実施例による、機械学習モデルを訓練するためのプロセスのデータ・フロー図である。少なくとも一実施例による、事前訓練済みアノテーション・モデルを用いてアノテーション・ツールを拡張するためのクライアント・サーバ・アーキテクチャの実例を示す図である。

図１は、各層１０２、１０６、１１４、１２４が、複数の要素を含み得るデータのセットを用いて表現されるニューラル・ネットワーク・アーキテクチャを示すブロック図であり、前記要素のセットのそれぞれの要素は、行インデックス及び列インデックスと称することが可能なインデックスなど、２つのポジション値を有する。少なくとも一実施例では、行列の要素は、数値などの値を含むことができ、行列の要素がベクトル、行列、又は他のオブジェクトである場合など、１つ又は複数の次元を有することができる。少なくとも一実施例では、行列など、ニューラル・ネットワークの層１０２、１０６、１１４、１２４を表現するために使用可能な構造化されたデータ・セットは、それぞれが２つのインデックスを有する整数、浮動小数点、又は他の値を含む。

少なくとも一実施例では、ニューラル・ネットワークは、一般的には１つ又は複数の層１０２、１０６、１１４、１２４で構成され、各層１０２、１０６、１１４、１２４は、１つ又は複数のニューロン１０４、１０８、１１０、１１２、１１６、１１８、１２０、１２２、１２６を含む。一実施例では、層１０２、１０６、１１４、１２４は、データ値であり、本明細書でさらに説明されるように、実行されると、ニューラル・ネットワーク内でニューロンのグループ化を実装するソフトウェア命令である。少なくとも一実施例では、ニューロン１０４、１０８、１１０、１１２、１１６、１１８、１２０、１２２、１２６は、本明細書でさらに説明されるように、データ値であり、実行されると、１つ又は複数のニューラル・ネットワーク層１０２、１０６、１１４、１２４の１つ又は複数のニューロン１０４、１０８、１１０、１１２、１１６、１１８、１２０、１２２、１２６同士の関係性を説明する数学的機能を実装するソフトウェア命令である。少なくとも一実施例では、ニューラル・ネットワークは、複数の層を含み、各層は、本明細書でさらに説明されるように、可視層か隠れ層である。

一実施例では、ニューラル・ネットワークは、入力層１０２、出力層１２４、又は１つ若しくは複数の中間層１０６、１１４を含む。少なくとも一実施例では、中間層１０６、１１４は、本明細書でさらに説明されるように、ニューラル・ネットワークに含まれる数学的な関係性を含むニューラル・ネットワーク層である。少なくとも一実施例では、入力層１０２は、入力としてデータ値を受け取り、それらをニューラル・ネットワーク内の後続の層１０６、１１４に伝播するニューラル・ネットワーク層１０２、１０６、１１４、１２４である少なくとも一実施例では、出力層１２４は、データ値を集約及び準備して、ニューラル・ネットワークの１つ又は複数の中間層１０６、１１４から出力する、ニューラル・ネットワーク層１０２、１０６、１１４、１２４である。少なくとも一実施例では、ニューラル・ネットワークは、本明細書でさらに説明されるあらゆる他の層の構成を含む。

少なくとも一実施例では、ニューラル・ネットワーク層１０２、１０６、１１４、１２４のニューロン１０４、１０８、１１０、１１２、１１６、１１８、１２０、１２２、１２６は、別のニューラル・ネットワーク層１０２、１０６、１１４、１２４のニューロン１０４、１０８、１１０、１１２、１１６、１１８、１２０、１２２、１２６に接続する。少なくとも一実施例では、個別の層１０２、１０６、１１４、１２４のすべてのニューロン１０４、１０８、１１０、１１２、１１６、１１８、１２０、１２２、１２６は、後続の層１０２、１０６、１１４、１２４のすべてのニューロン１０４、１０８、１１０、１１２、１１６、１１８、１２０、１２２、１２６に接続する。別の一実施例では、図２と関連して以下でさらに説明されるように、個別の層１０２、１０６、１１４、１２４内のニューロンのサブセット１０４、１０８、１１０、１１２、１１６、１１８、１２０、１２２、１２６は、後続の層１０２、１０６、１１４、１２４のニューロンのサブセット１０４、１０８、１１０、１１２、１１６、１１８、１２０、１２２、１２６に接続する。少なくとも一実施例では、ニューラル・ネットワーク層１０２、１０６、１１４、１２４のニューロン１０４、１０８、１１０、１１２、１１６、１１８、１２０、１２２、１２６と、別のニューラル・ネットワーク層１０２、１０６、１１４、１２４のニューロン１０４、１０８、１１０、１１２、１１６、１１８、１２０、１２２、１２６との間の接続は、本明細書でさらに説明されるように、前記ニューラル・ネットワーク層１０２、１０６、１１４、１２４の前記ニューロン１０４、１０８、１１０、１１２、１１６、１１８、１２０、１２２、１２６と前記別のニューラル・ネットワーク層１０２、１０６、１１４、１２４のニューロン１０４、１０８、１１０、１１２、１１６、１１８、１２０、１２２、１２６との間の数学的な関係性を表現する。

少なくとも一実施例では、訓練済みニューラル・ネットワークの層１０２、１０６、１１４、１２４は、数値を含む行列１２８、１３０によって表現される。少なくとも一実施例では、ニューラル・ネットワークの層１０２、１０６、１１４、１２４に対応する行列１２８、１３０は、ニューラル・ネットワークの層１０２、１０６、１１４、１２４とニューラル・ネットワークの別の層１０２、１０６、１１４、１２４のノード１０４、１０８、１１０、１１２、１１６、１１８、１２０、１２２、１２６同士の関係性を示す数値を含む。少なくとも一実施例では、ニューラル・ネットワークの層１０２、１０６、１１４、１２４に対応する行列１２８、１３０は、重みデータ値を含む。少なくとも一実施例では、ニューラル・ネットワークの層１０２、１０６、１１４、１２４に対応する行列１２８、１３０は、ニューラル・ネットワークの層１０２、１０６、１１４、１２４のノード１０４、１０８、１１０、１１２、１１６、１１８、１２０、１２２、１２６と前記ニューラル・ネットワークの別の層１０２、１０６、１１４、１２４のノード１０４、１０８、１１０、１１２、１１６、１１８、１２０、１２２、１２６との間の１つ又は複数の関係性を説明するために本明細書でさらに説明される、あらゆる他のタイプのデータ値を含む。

少なくとも一実施例では、ニューラル・ネットワークの層１０２、１０６、１１４、１２４に対応する行列１２８、１３０は、各ノード１０４、１０８、１１０、１１２、１１６、１１８、１２０、１２２、１２６が前記ニューラル・ネットワークの別の層１０２、１０６、１１４、１２４の各ノード１０４、１０８、１１０、１１２、１１６、１１８、１２０、１２２、１２６に接続されている場合、非ゼロ値を含み、密行列である。少なくとも一実施例では、ニューラル・ネットワークの層１０２、１０６、１１４、１２４に対応する行列１２８、１３０は、ノード１０４、１０８、１１０、１１２、１１６、１１８、１２０、１２２、１２６が前記ニューラル・ネットワークの別の層１０２、１０６、１１４、１２４のノード１０４、１０８、１１０、１１２、１１６、１１８、１２０、１２２、１２６のサブセットに接続されている場合、ゼロ値を含み、密行列ではない。少なくとも一実施例では、ニューラル・ネットワークの層１０２、１０６、１１４、１２４を表現するいくつかのゼロ値を含む行列１２８、１３０は、そのノード１０４、１０８、１１０、１１２、１１６、１１８、１２０、１２２、１２６が前記ニューラル・ネットワークの別の層１０２、１０６、１１４、１２４のノードの小さいサブセットに接続する場合、疎行列である。

図２は、少なくとも一実施例による、層２０２、２１２が疎行列２２２によって表現されるスパース・ニューラル・ネットワークの層２０２、２１２同士の接続を示すブロック図である。少なくとも一実施例では、ニューラル・ネットワークの層２０２、２１２は、図１と併せて上述したように、また本明細書でさらに説明されるように、１つ又は複数のノード２０４、２０６、２０８、２１０、２１４、２１６、２１８、２２０を含む。図１と併せて上述したような、完全に接続されたニューラル・ネットワークは、一実施例では、ニューラル・ネットワーク内の層２０２、２１２の各ノード２０４、２０６、２０８、２１０、２１４、２１６、２１８、２２０と前記ニューラル・ネットワーク内の別の層２０２、２１２の各ノード２０４、２０６、２０８、２１０、２１４、２１６、２１８、２２０との間に接続を含む。一実施例では、ニューラル・ネットワーク内の層２０４、２０６のノード２０４、２０６、２０８、２１０、２１４、２１６、２１８、２２０が、前記ニューラル・ネットワークの別の層２０２、２１２のノード２０４、２０６、２０８、２１０、２１４、２１６、２１８、２２０との、わずかな接続又は限られた接続を有する場合、ニューラル・ネットワークはスパース・ニューラル・ネットワークであり得る。

少なくとも一実施例では、スパース・ニューラル・ネットワークは、データ値であり、実行されると、前記ニューラル・ネットワークの層２０２、２１２のノード２０４、２０６、２０８、２１０、２１４、２１６、２１８、２２０と前記ニューラル・ネットワークの別の層２０２、２１２のノード２０４、２０６、２０８、２１０、２１４、２１６、２１８、２２０との間に、わずかな接続又は限られた接続を有するニューラル・ネットワークを実装するソフトウェア命令である。スパース・ニューラル・ネットワーク内の層２０２、２１２は、一実施例では、数値を含む行列２２２として表現され、各層２０２、２１２に含まれるノード２０４、２０６、２０８、２１０、２１４、２１６、２１８、２２０同士の関係性を示す。少なくとも一実施例では、スパース・ニューラル・ネットワーク内の層２０２、２１２を表現する行列２２２は、疎行列である。少なくとも一実施例では、疎行列２２２は、大部分がゼロ値の行列である。少なくとも一実施例では、疎行列２２２中のゼロ値は、スパース・ニューラル・ネットワーク内の層２０２、２１２のノード２０４、２０６、２０８、２１０、２１４、２１６、２１８、２２０で、前記スパース・ニューラル・ネットワーク内の別の層２０２、２１２のノード２０４、２０６、２０８、２１０、２１４、２１６、２１８、２２０に接続しないものを示す。

少なくとも一実施例では、疎行列２２２は、いくつかのデータ値がゼロ値である、データ値の行列である。少なくとも一実施例では、疎行列２２２のデータ値は、本明細書でさらに説明されるように、ニューラル・ネットワーク層２０２、２１２のノード２０４、２０６、２０８、２１０、２１４、２１６、２１８、２２０同士の関係性を定義するための、一次方程式又は任意の他の方程式の係数である。少なくとも一実施例では、疎行列２２２のデータ値は、本明細書でさらに説明されるように、スパース・ニューラル・ネットワークのノード２０４、２０６、２０８、２１０、２１４、２１６、２１８、２２０同士の関係性を定義する、一次方程式又は任意の他の方程式に対応する重み係数である。

図３は、少なくとも一実施例による、１つ又は複数の疎テンソル・コア３０６、３０８、３１０を含む並列処理ユニット（ＰＰＵ）３０２アーキテクチャを示すブロック図である。少なくとも一実施例では、ＰＰＵ３０２は、疎テンソル・コア３０６、３０８、３１０などの１つ若しくは複数の並列コンピューティング・コア及び／又は本明細書でさらに説明されるあらゆる他の並列処理コア３０４を使用して、１つ又は複数のコンピューティング動作を実行するためのハードウェアである。少なくとも一実施例では、他の処理コア３０４は、以下でさらに説明されるＰＰＵ３０２によって実装され、そのようなＰＰＵ３０２によって利用される、あらゆる他の計算ユニットである。たとえば、他の処理コア３０４は、本明細書でさらに説明されるような、並列計算を実行するための、ストリーミング・プロセッサ及び／又は他のグラフィックス・サブプロセッサを含む。

少なくとも一実施例では、疎テンソル・コア３０６、３０８、３１０は、図２と併せて上述したようなスパース・ニューラル・ネットワークにおいて疎行列の数学的性質を利用するためのコンピューティング・ハードウェアである。少なくとも一実施例では、疎テンソル・コア３０６、３０８、３１０は、ハードウェア、ソフトウェア、又はハードウェアで実行中のマイクロコードのいずれかにおいて、上述のようにスパース・ニューラル・ネットワークからの疎行列オペランドにおけるゼロ値を特に考慮する行列積和（ＭＭＡ：matrix-multiply-accumulate）演算を実装する。少なくとも一実施例では、疎テンソル・コア３０６、３０８、３１０は、スパース・ニューラル・ネットワークに関するニューラル・ネットワーク動作を加速させるために、グラフィックス・プロセッシング・ユニット（ＧＰＵ）などＰＰＵの他のリソースを連携する。

少なくとも一実施例では、疎テンソル・コア３０６、３０８、３１０は、スパース・ニューラル・ネットワークの性質を利用することによりニューラル・ネットワーク計算速度を改善する。たとえば、疎テンソル・コア３０６、３０８、３１０は、少なくとも１つのオペランドが特定のスパース性制約に従う場合、より高速でＭＭＡ演算を計算する。疎テンソル・コア３０６、３０８、３１０性能を向上するために、一実施例では、ニューラル・ネットワークの１つ又は複数の層を表現する行列又は他のデータ構造は枝刈され、前記行列又は他のデータ構造のスパース性を改善又は他のやり方で変化させる。少なくとも一実施例では、枝刈には、行列又は他のデータ構造中の数値をゼロに設定することが含まれる。少なくとも一実施例では、行列又は他のデータ構造中の数値は、図４と併せて以下で説明されるように、構造化スパース性制約を満たすために、ゼロに設定される。少なくとも一実施例では、枝刈は、深層学習フレームワーク又は他のソフトウェア・プログラムによって実施される。少なくとも一実施例では、深層学習フレームワークは、ニューラル・ネットワークの層を表現する行列又は他のデータ構造中のデータ値を、このようなデータ値に含まれるデータと無関係に枝刈する。別の実施例では、大きな数値、重みの大きさ、重み勾配、又は前記行列若しくは他のデータ構造に記憶されるあらゆる他の性質を有するデータなど、１つ又は複数のタイプのデータの枝刈を最小化するために、１つ又は複数の変換は、１つ又は複数の置換により行列中のデータ値を並べ替える。

図４は、少なくとも一実施例による、疎行列４０２の行４０４、４０６における２：４構造化スパース性を示すブロック図である。少なくとも一実施例では、本明細書で説明又は示唆される技法には、行列内の行４０４、４０６データなど、１つ又は複数のデータのセットのスパース性に、疎行列４０２における２：４構造化スパース性などのスパース性制約を満たすよう前記行列中のデータ値の１つ又は複数のクラスの枝刈を増やすために、前記行列内の列又は他のデータのグループ化の並べ替え、置換、又は他のやり方で変換によって変化を生じさせる命令を含む、プロセッサ、方法、システム、及び機械読取り可能媒体が含まれる。少なくとも一実施例では、列又は行列などデータ・セットにおける他のデータのグループ化の並べ替え、置換、又は他のやり方で変換には、前記データ・セット内の各データ値に関連付けられた１つ又は複数のインデックス又は他のポジション値を変更することが含まれる。たとえば、行列の列のデータ値を置換するために、前記列を示す第２のインデックス又は他のポジション値が変更される。

少なくとも一実施例では、疎テンソル・コアは、本明細書でさらに説明又は示唆されるような命令を含むプロセッサ、方法、システム及び機械読取り可能媒体を使用して１つ又は複数のデータのセットのスパース性を大きくすることによって満たされるスパース性制約など、少なくとも１つのオペランドが特定のスパース性制約に従う場合に、より高速に実行される改善された行列積和（ＭＭＡ）演算、又は他の改善された行列演算を実装する。少なくとも一実施例では、スパース性制約は、行列４０２中のデータ値のセットに強制される数学的な性質又は構造上の特性である。スパース性制約の実例は、一実施例では、２：４構造化スパース性である。少なくとも一実施例では、２：４構造化スパース性は、行４０４、４０６に沿って４つのデータ値ごとに２つのデータ値が、２つのゼロ値４１２、４１４を有する行列４０２中のデータ値のセットに適用される制約である。少なくとも一実施例では、２：４構造化スパース性に従うために、深層学習フレームワーク又は他のソフトウェア・プログラムは、行列の各行に沿って４つの値ごとに２つの値を枝刈する。枝刈の間、小さな数などデータ値の特定のクラスが好まれることを確実にするために、図５及び図６と併せて以下で説明するように、列スワッピングなどの１つ又は複数の変換又は置換が、深層学習フレームワーク又は他のソフトウェア・プログラムによって適用される。

少なくとも一実施例では、疎行列４０２中の行ｉ４０４は、ｎ個のデータ値及び次元１×ｎを有する。少なくとも一実施例では、データ値４０８、４１０、４１２、４１４は、上述のように、また本明細書でさらに説明されるように、一次方程式の係数を表現する数値である。少なくとも一実施例では、データ値４０８、４１０、４１２、４１４は、重み値である。少なくとも一実施例では、重み値は、スケール値０≦ｘ≦１を示すデータ値である。

少なくとも一実施例では、データ値４０８、４１０、４１２、４１４は、非ゼロ４０８、４１０であり、値０＜ｘ≦１を有する。少なくとも一実施例では、データ値４０８、４１０、４１２、４１４は、ゼロ４１４、４１４であり、値ｘ＝０を有する。少なくとも一実施例では、スパース性制約は、２：４構造化スパース性制約であり、それにより行列４０２のｉ番目の行４０４、４０６にある４つの連続データ値４０８、４１０、４１２、４１４は２つのゼロ・データ値４１２、４１４を有する。少なくとも一実施例では、スパース性制約は、ｎ：ｍ構造化スパース性制約である。少なくとも一実施例では、ｎ：ｍ構造化スパース性制約は、疎行列４０２の行４０４、４０６において、ｍ個の連続データ値４０８、４１０、４１２、４１４ごとにｎ個のゼロ・データ値４１２、４１４を強制する。少なくとも一実施例では、スパース性制約は、ゼロ・データ値４１２、４１４をほとんど持たないか、全く持たない１つ又は複数の密行列４０２に対して、図５及び図６と併せて以下で説明される重み置換及び枝刈などの変換の使用を通じて、課されるか、適用される。

図５は、少なくとも一実施例による、ニューラル・ネットワークの層を表現する行列の行５０２、５１４、５３０における置換５１２を示すブロック図である。少なくとも一実施例では、行列の行５０２、５１４、５３０における置換５１２は、上述のようなニューラル・ネットワークの１つ又は複数の層を表現する行列に対応するデータ又は構造化スパース性制約を課すことができるあらゆる他のデータなどの、１つ又は複数のデータのセットのスパース性に対する増大を生じしやすくする。少なくとも一実施例では、命令を含むプロセッサ、方法、システム、及び／又は機械読取り可能媒体は、本明細書で説明又は示唆される技法を使用して、置換５１２を１つ又は複数のデータのセットに適用する。少なくとも一実施例では、１つ又は複数のデータのセットは、ニューラル・ネットワークの１つ又は複数の層を表現する１つ又は複数の行列に対応する。別の実施例では、１つ又は複数のデータのセットは、行列積和（ＭＭＡ）又は１つ若しくは複数のデータのセットの処理を容易にするための他の計算など、組み合わされた計算を実行するために使用可能なあらゆる他のデータに対応する。このような行列が、ゼロ・データ値をわずかしか含まないか、含んでいない場合、一実施例では、前記行列は密行列であり、上述のような密なニューラル・ネットワークの層を表現する。一実施例では、密行列と疎行列の両方とも、構造化スパース性制約を課すため又は強制するための置換５１２の使用により、疎テンソル・コアによって提供される、改善された行列積和演算又は他の演算を利用することが可能である。一実施例では、密行列もやはり枝刈しなければならず、それにより行列内のデータがゼロに設定される。一実施例では、値又は重みの大きさが小さいデータ値は、精度の損失を最小化するために、枝刈される。

少なくとも一実施例では、行列又は他のデータのセットにおいてスパース性に対する増大を生じさせる命令を含むプロセッサ、方法、システム、及び／又は機械読取り可能媒体は、列など１つ又は複数のデータのサブセットを並べ替えるためのステップを含み、それにより、データ値の第１のクラスは枝刈用に、データ値の第２のクラスよりも好まれる。たとえば、一実施例では、深層学習フレームワークは、行列のスパース性に対する増大を生じさせるためのプロセスの別のステップの間、枝刈される小さなデータ値の数を最大化するために、１つ又は複数の変換を行列の列に適用する。行列の列は、深層学習フレームワークによって決定された変換又は置換のセットを使用して並べ替えられ、ニューラル・ネットワーク又は他のアプリケーションに関連付けられた１つ又は複数のメトリクスを前記行列を使用して最大化し、同様に一実施例では、小さなデータ値など枝刈されるデータ値のクラスを最大化する。

少なくとも一実施例では、密行列又はあらゆる他のタイプの行列に対して構造化スパース性制約を満たすべく、最適な数のデータ値の特定のクラスが枝刈されるように行列を変換するために、前記密行列又は他のタイプの行列中の任意の元の行５０２について、前記密行列又は他のタイプの行列の列に対する１つ又は複数の置換５１２は、前記元の行中のデータ値５０４、５０６、５０８、５１０の並び方を、前記元の行５０２と比較すると並び方が異なるデータ値５２０、５２２、５２４、５２６を有する置換された行５１４へと変える。少なくとも一実施例では、置換５１２は、実行されると、元の行５０２でのデータ値の並び方がスワップ又は他のやり方で変更されて置換された行５１４になるように、行列の列を置換５１２又は変換するソフトウェア命令である。少なくとも一実施例では、元の行５０２は、置換された５１２データ値５０４、５０６、５０８、５１０を持たない行列中の行である。少なくとも一実施例では、置換された行５１４は、データ値５２０、５２２、５２４、５２６の並び方が、元の行５０２のデータ値５０４、５０６、５０８、５１０を含む列に適用された１つ又は複数の重み置換５１２によって変換される、行列中の行である。

少なくとも一実施例では、ストライプは、行列の行５０２、５１４、５３０に含まれるデータ値のセット内のｍ個の連続データ値のサブセットであり、ｍはｎ：ｍ構造化スパース性制約を適用又は強制する連続データ値の数であり、ｍは行列の行５０２、５１４、５３０内のデータ値の総数以下である。たとえば、一実施例では、２：４構造化スパース性制約に対応するストライプは、データ値の１×４行列又はベクトルであり、より大きな二次元行列の行によって表現されるデータ値のセットのサブセットを表現する。少なくとも一実施例では、この１×４行列、すなわちストライプでは、２：４構造化スパース性制約を満たすために、２つのデータ値がゼロ（又は、後述のように、ゼロに枝刈されるような小さな値）でなければならず、２つのデータ値は大きな値５０４、５０６、５０８、５２０、５２２、５３２、５３４でなければならない。

少なくとも一実施例では、元の行５０２中のストライプは、大きな値５０４、５０６、５０８と小さな値５１０の両方を含む。少なくとも一実施例では、密行列の元の行５０２中の大きな値５０４、５０６、５０８は、数値データ値ｘであり、０．５≦ｘ≦１である。別の実施例では、密行列又はあらゆる他のタイプの行列の元の行５０２中の大きな値５０４、５０６、５０８は、あらゆる他の非ゼロ数値を有するデータ値ｘである。少なくとも一実施例では、元の行５０２のストライプ中の小さな値５１０は、数値データ値ｘであり、０≦ｘ＜０．５である。別の実施例では、元の行５０２のストライプ中の小さな値５１０は、前記小さな値５１０が元の行５０２中の他の大きな値５０４、５０６、５０８より相対的に低いあらゆる他の値を有する、数値データ値ｘである。

一実施例では、行列の元の行５０２のストライプにｎ：ｍ構造化スパース性を適用する、課す、又は他のやり方で強制するために、本明細書でさらに説明されるように、訓練フレームワーク又は他のニューラル・ネットワーク又は深層学習フレームワークは、ｍ個の大きな値５０４、５０６、５０８が連続しないように、また前記ストライプ中のｍ個のデータ値のうちｎ個が小さな値５１０となるように、１つ又は複数の置換５１２を適用して前記行列の列を変換する。少なくとも一実施例では、置換５１２には、列をスワップすること、又は行列内で列の並び方を変更するためのあらゆる他の技法が含まれる。少なくとも一実施例では、置換５１２は、所与のストライプの外側の行にあるデータ値を表現する、低くインデックス付けされた列５１６又は高くインデックス付けされた列５１８を有するストライプのデータ値を含む列を、スワップ又は他のやり方で交換する。少なくとも一実施例では、深層学習フレームワーク又は他のソフトウェア・プログラムは、ストライプ内の１つ又は複数のデータ値を、前記ストライプのデータ値を含む列を並べ替えることによって置換する。少なくとも一実施例では、元の行５０２に適用された１つ又は複数の置換５１２により、ｎ個の小さな値５２４、５２６及びｍ－ｎ個の大きな値５２０、５２２を有するｍ個のデータ値の１つ又は複数のストライプを有する置換された行５１４ができる。

少なくとも一実施例では、ｎ：ｍ構造化スパース性は、１行（又は１行内のストライプ）において、ｍ個の連続データ値のうちｎ個のデータ値がゼロであることを要求するため、枝刈５２８により、ゼロ値をわずかしか持たないか、ゼロ値を持たない密行列の置換された行５１４において非ゼロの小さな値５２４、５２６が、前記ｎ：ｍ構造化スパース性に従うことを確実にする。少なくとも一実施例では、枝刈５２８は、実行されると、密行列又はあらゆる他のタイプの行列などの行列の置換された行５１４など、一行中の小さな値５２４、５２６を、ゼロに設定するソフトウェア命令である。少なくとも一実施例では、枝刈５２８により、ｎ：ｍ構造化スパース性制約に従うｎ個のゼロ値５３６、５３８、及びｍ－ｎ個の大きな値５３２、５３４を有するｍ桁のストライプができる。

たとえば、一実施例では、２：４構造化スパース性に従うために、２つの大きな値５２０、５２２及び２つの小さな値５２４、５２６を有するように置換された置換された行５１４は、枝刈されて、２：４構造化スパース性によって要求される通り、２つの非ゼロ値５３２、５３４及び２つのゼロ値５３６、５３８を有する枝刈された行５３０となる。２：４構造化スパース性を持つ枝刈された行５３０は、一実施例では、上述のような、また本明細書でさらに説明されるような疎テンソル・コアによって、より高速なＭＭＡ演算を容易にする。少なくとも一実施例では、枝刈５２８により、ニューラル・ネットワークの精度は低下し、結果として、密行列又は疎行列におけるｎ：ｍ構造化スパース性のあらゆる影響を低減しつつ、前記密行列又は疎行列に関連付けられる１つ又は複数の他のメトリクスを最大化するために、置換５１２のセットを決定するための様々な方法が図７と併せて以下で説明される。

少なくとも一実施例では、ニューラル・ネットワークに関連付けられる行列又は他のデータのセットにおいてスパース性に対する増大を生じさせる命令を含むプロセッサ、方法、システム、及び／又は機械読取り可能媒体を、本明細書において説明目的で説明する。少なくとも一実施例では、様々な他の応用例が、本明細書において説明されるような行列又は他のデータのセットにおいてスパース性に対する増大を生じさせる命令を含むプロセッサ、方法、システム、及び／又は機械読取り可能媒体からの恩恵を被る。たとえば、本明細書で説明される１つ又は複数のデータのセット中のデータ値を並べ替えるための技法は、一実施例では、ブロックのような、あらゆる構造上の制約にあるデータ値の第１のクラスを収集してグループ化するために使用可能である。別の実施例では、特定のｎ：ｍスパース性制約又はブロックなどの他のグループ化に従うように他のやり方でクラスタ化することができない分散したゼロ・データ値を含む疎行列は、他の特性に従ってクラスタ化されてもよい。たとえば、ゼロ値のグループは、一実施例では、行列がサブ行列に部分分割されるようにクラスタ化してもよく、これは前記行列に関連する計算のワークロードを均等に又はそれ以外で分散させるために、２つ以上の並列処理ユニット又は他の計算処理ユニットにまたがる前記サブ行列を含むコンピューティング・ワークロードを分散させるためである。

図６は、少なくとも一実施例による、２：４構造化スパース性を満たすよう、枝刈されるデータ値６２０、６２２の特定のクラスを増やすための、行列６０２の列６０４、６０６、６０８、６１０、６１２、６１４、６１６、６１８に対する例示的な置換６２０を示すブロック図であり、これにより前記行列６０２のスパース性が変更される。少なくとも一実施例では、行列６０２中の列６０４、６０６、６０８、６１０、６１２、６１４、６１６、６１８などの１つ又は複数のデータのセット中の１つ又は複数のデータのサブセットを並べ替えることによって、スパース性に対する増大を生じさせる命令を含むプロセッサ、方法、システム、及び／又は機械読取り可能媒体は、１つ又は複数のスパース性制約を満たすために枝刈されるデータ値６２０、６２２の１つ又は複数のクラスの数を最大化又は改善するために、１つ又は複数の変換（置換６２４など）を前記１つ又は複数のデータのサブセットに適用する。たとえば、図６に示されるように、一実施例では、前記行列６０２におけるスパース性を変えるために、大きな値（ＬＶ：large value）６２０の代わりに、より多くの小さな値（ＳＶ：small value）６２２が枝刈されるように、行列６０２の列６０４、６０６、６０８、６１０、６１２、６１４、６１６、６１８は、前記列６０４、６０６、６０８、６１０、６１２、６１４、６１６、６１８を置換６２４又はスワップすることによって並べ替えられる。少なくとも一実施例では、行列６０２は、図１及び図２と併せて上述したような、また本明細書でさらに説明されるような、ニューラル・ネットワークの層を表現する密行列又は疎行列である。少なくとも一実施例では、行列６０２は、中央処理装置（ＣＰＵ：central processing unit）、グラフィックス・プロセッシング・ユニット（ＧＰＵ）などの並列処理ユニット（ＰＰＵ）、又は本明細書でさらに説明ようなあらゆる他の計算プロセッサによって実施される１つ又は複数の計算に対する、あらゆる他のアプリケーション又はオペランドに関連付けられるかそれらを表現する、あらゆる他のタイプの行列である。

少なくとも一実施例では、行列６０２は、二次元のデータ値のセット６２０、６２２である。少なくとも一実施例では、上述の通り、データ値６２０、６２２は、ゼロ値、大きな値（ＬＶ）６２０、又は小さな値（ＳＶ）６２２である。少なくとも一実施例では、大きな値（ＬＶ）６２０は、図５と併せて上述したような、行列６０２に含まれるデータ値の少なくとも半分より大きい数値データ値である。少なくとも一実施例では、小さな値（ＳＶ）６２２は、図５と併せて上述したような、行列６０２に含まれるデータ値の少なくとも半分より小さな数値データ値である。

少なくとも一実施例では、行列６０２は、行と列６０４、６０６、６０８、６１０、６１２、６１４、６１６、６１８に編成されたデータ値を含む。上述したように、２：４構造化スパース性は、一実施例では、疎テンソル・コアにおける行列積和（ＭＭＡ）演算を行なうために、行列６０２の一行において、４つの連続データ値のうち２つのデータ値がゼロであることを要求する。少なくとも一実施例では、深層学習フレームワーク又は他のソフトウェア・プログラムは、図５と併せて上述したように、ｍ個のデータ値ごとにｎ個のデータ値がゼロとなるように、行列６０２における複数のデータ値６２０、６２２を枝刈する（ゼロに設定する）。たとえば、一実施例では、２：４構造化スパース性に従うために、深層学習フレームワーク又は他のソフトウェア・プログラムは、図６で埋められるデータ値によって示されるように、行列６０２において４つのデータ値６２０、６２２ごとに２つのデータ値を枝刈する。

少なくとも一実施例では、行列６０２におけるスパース性を増大させるために、本明細書で説明されるような、訓練フレームワーク又は他の深層学習フレームワークは、図５と併せて上述したように、１つ又は複数の置換６２４を、訓練済みニューラル・ネットワーク中の層を表現する１つ又は複数の行列６０２に適用し、スパース性制約が満たされるように、特定の列６０４、６０６、６０８、６１０、６１２、６１４、６１６、６１８に沿ってすべてのデータ値を枝刈する。一実施例では、１つの可能な置換６２０とは、行列６０２の行内のデータ値の並び方を変えるために、列３（６０８）及び列６（６１４）などの列６０４、６０６、６０８、６１０、６１２、６１４、６１６、６１８をスワップすることである。少なくとも一実施例では、行列６０２の列３（６０８）及び列６（６１４）を置換すること６２４により、大きな値６２０の代わりに枝刈される小さな値（ＳＶ）６２２がずっと多い置換された行列６３０ができる（枝刈されるデータ値を網掛けで示す）。

少なくとも一実施例では、置換された行列６３０は、深層学習フレームワーク又は他のソフトウェア・プログラムが１つ又は複数の置換６２４を適用した後、非置換行列６０２のデータ値を含む。たとえば、一実施例では、非置換行列６０２の列３（６０８）及び列６（６１４）をスワップするための置換６２４により、２：４構造化スパース性に従うために、深層学習フレームワーク又は他のソフトウェア・プログラムによって大きな値（ＬＶ）６２０の代わりに枝刈される小さな値（ＳＶ）６２２の数が増えた置換された行列６２２ができる。少なくとも一実施例では、スワップされた列６（６２６）及び列３（６２８）は、深層学習フレームワーク又は他のソフトウェア・プログラムによって２つの大きな値（ＬＶ）６２０の代わりに枝刈される２つの小さな値（ＳＶ）６２２となり、２：４構造化スパース性に従うスパース性に変化が生じる。少なくとも一実施例では、深層学習フレームワーク又は他のソフトウェア・プログラムは、置換された行列６３０の網掛けした値を枝刈し、疎テンソル・コアの向上した性能が利用されるように、前記置換された行列６３０のスパース性に対する増大を生じさせる。

少なくとも一実施例では、深層学習フレームワーク又は他のソフトウェア・プログラムは、１つ又は複数の置換６２４を、訓練済みニューラル・ネットワークの層を表現する行列６０２の列６０４、６０６、６０８、６１０、６１２、６１４、６１６、６１８に適用し、置換された行列６３０を生ずる。少なくとも一実施例では、訓練済みニューラル・ネットワーク層を表現する行列６０２の入力チャネル、又は列を置換すること、及び前記訓練済みニューラル・ネットワークにおいて先行する層を表現する行列６０２の対応する出力チャネル、又は行を置換することによって、前記訓練済みニューラル・ネットワークを使用する推論の結果は変わらない。訓練済みニューラル・ネットワークの層を表現する１つ又は複数の行列に適用する１つ又は複数の置換を決定するために、訓練フレームワーク又は他の深層学習フレームワークは、ニューラル・ネットワークの層に対応する行列６０２においてｎ：ｍ構造化スパース性を改善しつつ、前記行列６０２内で小さなデータ値を枝刈することによって被るニューラル・ネットワーク精度の損失を最小化する置換のセットを探索する。

図７は、少なくとも一実施例による、２：４構造化スパース性を満たすよう、枝刈されるデータ値のクラスを増やすための、行列に対する１つ又は複数の置換を決定するためのプロセス７００を示す。少なくとも一実施例では、１つ又は複数のデータのセット中で１つ又は複数のデータのサブセットを並べ替えて、前記１つ又は複数のデータのセットにおいてスパース性に対する増大を容易にするための置換を含む変換のセットを決定するためのプロセス７００は、１つ又は複数の回路を有するプロセッサによって実施することができる。別の実施例では、１つ又は複数のデータのセット中で１つ又は複数のデータのサブセットを並べ替えて、前記１つ又は複数のデータのセットにおいてスパース性に対する増大を容易にするための置換を含む変換のセットを決定するためのプロセス７００は、訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムを実装する命令を含むシステム又は機械読取り可能媒体によって実施することができる。少なくとも一実施例では、命令を含むプロセッサ、方法、システム、及び／又は機械読取り可能媒体は、１つ又は複数のデータのセット中で１つ又は複数のデータのサブセットを並べ替えるための置換のセットを決定するためのプロセス７００を実装してもよく、それにより、前記１つ又は複数のデータのセットのスパース性に対する増大を容易にするべく、より多数のデータ値の第１のクラスが、訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムによってデータ値の第２のクラスの代わりに枝刈される。少なくとも一実施例では、訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムは、ｎ：ｍ構造化スパース性を容易にしつつ、ニューラル・ネットワークに関連付けられる１つ又は複数の行列など、前記１つ又は複数のデータのセットに関連付けられる１つ又は複数の他のメトリクスを最大化するために、ランダムなチャネル・スワップを実施して、１つ又は複数のデータのセットを並べ替える１つ又は複数の置換を決定するために、プロセス７００を実装する。少なくとも一実施例では、訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムは、訓練済みニューラル・ネットワークの層を表現する行列中の２つの列をランダムに選択すること７０４によって、開始する７０２。少なくとも一実施例では、これらの列は、ある行列に対する１回の置換によってスワップされる列を表現する。

少なくとも一実施例では、訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムは、スワップ７０６又は置換された選択された列を用いて推定行列を生成し、図５と併せて上述したように、前記推定行列７０８がｎ：ｍ制約をグローバルに満たすように、前記推定行列７０８中の値を枝刈する。少なくとも一実施例では、訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムは、スワップされた列を有する推定行列によって表現される層を含むニューラル・ネットワークに関連付けられる１つ又は複数のメトリクスが大きくなったかどうか７１０を判定する。少なくとも一実施例では、ニューラル・ネットワークに関連付けられるメトリクスは、前記ニューラル・ネットワークの精度である。別の実施例では、ニューラル・ネットワークに関連付けられるメトリクスは、ニューラル・ネットワークの層を表現する行列における、すべての重み値の合計重みの大きさの増大である。別の実施例では、ニューラル・ネットワークに関連付けられるメトリクスは、ニューラル・ネットワークの層を表現する行列における１つ又は複数の実際の重み値と、訓練データ又は前記ニューラル・ネットワークを訓練するために使用可能なあらゆる他のベースライン・データ中の行列における１つ又は複数の理想的な重み値との差を表現する１つ又は複数の重み勾配である。少なくとも一実施例では、メトリクスは、本明細書で説明される様々な技法を実施するための命令を含む様々なプロセッサ、システム、方法、及び／又は機械読取り可能媒体が実施される、行列を利用するあらゆる用途に対応する性能のあらゆるベースライン尺度である。

少なくとも一実施例では、１つ又は複数のメトリクスが大きくなると７１０、訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムは、図６と併せて上述したように、訓練済みニューラル・ネットワークの層を表現する実際の行列７１２中のこれらの選択された列をスワップする。一実施例では、訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムが、１つ又は複数のメトリクスが減少した７１０と判定した場合、前記訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムは、置換を決定するためのプロセス７００を完了するかどうかを判定する７１４。少なくとも一実施例では、プロセス７００は、事前決定された数の置換が見つかっている場合、又は１つ若しくは複数のメトリクスにおいて満足のいく増加が達成された場合、完了である。少なくとも一実施例では、プロセス７００は、分析の時間又は行列に対する変更の回数など、完了についてのあらゆる他のメトリクスが満たされると、完了である。

少なくとも一実施例では、訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムが、１つ又は複数の制約が満たされたことによってプロセス７００が完了した７１４と判定する場合、前記プロセス７００は終了する。或いは、一実施例では、訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムは、訓練済みニューラル・ネットワークの層を表現する行列から２つのさらなる列をランダムに選択すること７０４によって、継続される。

少なくとも一実施例では、１つ又は複数のデータのセット中で１つ又は複数のデータのサブセットを並べ替えるための置換のセットを決定するために、訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムによって追加の方法を使用し、それにより、ｎ：ｍ構造化スパース性及び１つ又は複数のメトリクスに従って前記１つ又は複数のデータのセットのスパース性に対する増大を容易にするべく、より多数のデータ値の第１のクラスが、訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムによってデータ値の第２のクラスの代わりに枝刈される。少なくとも一実施例では、訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムは、訓練済みニューラル・ネットワークの層を表現する行列中ですべての利用可能な列スワップの網羅的な探索を実装するプロセスを、プロセス７００におけるステップ７０４、７０５、及び７０６として採用する。少なくとも一実施例では、訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムは、訓練済みニューラル・ネットワークの層を表現する行列に適用することが可能な置換のセットをランダムに探索して、置換のセットを決定する。

少なくとも一実施例では、訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムは、貪欲な構築（ｇｒｅｅｄｙｃｏｎｓｔｒｕｃｔｉｏｎ）を実施して、訓練済みニューラル・ネットワークの層を表現する行列に適用される１つ又は複数の置換を決定する。少なくとも一実施例では、貪欲な構築の間、訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムは、行列の１列を固定し、残りすべての列置換の組合せを試験する。訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムは、一実施例では、ニューラル・ネットワーク精度を最も保つ列置換の組合せを選択する。

少なくとも一実施例では、訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムは、貪欲なチャネル・スワップを実施する。少なくとも一実施例では、Ｃ列を有する行列はｃ^２／２の可能な列スワップを有し、訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムは、列スワップ又は置換を、利益が最も大きなもの（１回のスワップによって、１つ又は複数のメトリクスにおいて最大の増大）から利益が最も小さなもの（１回のスワップによって、１つ又は複数のメトリクスにおいて最小の増大）の順で実施する。少なくとも一実施例では、訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムは、先行の置換に既に関与したストライプ（図５と併せて上述したようなもの）が関与する置換をスキップする。訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムが、いったんすべての有用な置換を実施し、その結果、精度が増大すると、一実施例では、前記訓練フレームワーク、深層学習フレームワーク、又は他のソフトウェア・プログラムは、所与の行列における貪欲なチャネル・スワップの実施を、訓練済みニューラル・ネットワークの層を表現する行列の精度が最大化されるまで、反復する。

推論及び訓練の論理
図８Ａは、１つ又は複数の実施例に関して推論及び／又は訓練の動作を実行するために使用される推論及び／又は訓練論理８１５を示す。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて以下に提供される。

少なくとも一実施例では、推論及び／又は訓練論理８１５は、１つ又は複数の実施例の態様において推論するように訓練及び／若しくは使用されるニューラル・ネットワークのニューロン若しくは層を構成するための順伝播及び／若しくは出力の重み、及び／若しくは入力／出力データ、及び／若しくは他のパラメータを記憶するためのコード並びに／又はデータ・ストレージ８０１を、限定することなく含んでもよい。少なくとも一実施例では、訓練論理８１５は、タイミング及び／又は順序を制御するためのグラフ・コード又は他のソフトウェアを記憶するためのコード及び／又はデータ・ストレージ８０１を含んでもよく、又はそれに結合されてもよく、コード及び／又はデータ・ストレージ８０１には、重み及び／又は他のパラメータ情報がロードされて、整数及び／又は浮動小数点ユニット（総称して算術論理演算ユニット（ＡＬＵ））を含む論理が構成される。少なくとも一実施例では、グラフ・コードなどのコードは、こうしたコードが対応するニューラル・ネットワークのアーキテクチャに基づき、重み又は他のパラメータ情報をプロセッサＡＬＵにロードする。少なくとも一実施例では、コード及び／又はデータ・ストレージ８０１は、１つ又は複数の実施例の態様を使用した訓練及び／又は推論中に、入力／出力データ及び／又は重みパラメータを順伝播する間に１つ又は複数の実施例と併せて訓練又は使用されるニューラル・ネットワークの各層の重みパラメータ及び／又は入力／出力データを記憶する。少なくとも一実施例では、コード及び／又はデータ・ストレージ８０１の任意の部分は、プロセッサのＬ１、Ｌ２、又はＬ３のキャッシュ、若しくはシステム・メモリを含む他のオン・チップ又はオフ・チップのデータ・ストレージとともに含められてもよい。

少なくとも一実施例では、コード及び／又はデータ・ストレージ８０１の任意の部分は、１つ若しくは複数のプロセッサ、又は他のハードウェア論理デバイス若しくは回路の内部にあっても外部にあってもよい。少なくとも一実施例では、コード及び／又はコード及び／又はデータ・ストレージ８０１は、キャッシュ・メモリ、ダイナミック・ランダム・アドレス可能メモリ（「ＤＲＡＭ」：dynamic randomly addressable memory）、スタティック・ランダム・アドレス可能メモリ（「ＳＲＡＭ」：static randomly addressable memory）、不揮発性メモリ（たとえば、フラッシュ・メモリ）、又は他のストレージであってもよい。少なくとも一実施例では、コード及び／又はコード及び／又はデータ・ストレージ８０１が、たとえばプロセッサの内部にあるか外部にあるかの選択、又はＤＲＡＭ、ＳＲＡＭ、フラッシュ、若しくは何らか他のタイプのストレージを含むかの選択は、オン・チップ対オフ・チップで利用可能なストレージ、実行される訓練及び／又は推論の機能のレイテンシ要件、ニューラル・ネットワークの推論及び／又は訓練で使用されるデータのバッチ・サイズ、又はこれらの要因の何からの組合せに応じて決められてもよい。

少なくとも一実施例では、推論及び／又は訓練論理８１５は、１つ又は複数の実施例の態様において推論するために訓練及び／若しくは使用されるニューラル・ネットワークのニューロン若しくは層に対応した、逆伝播及び／若しくは出力の重み、及び／若しくは入力／出力データを記憶するためのコード並びに／又はデータ・ストレージ８０５を、限定することなく含んでもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ８０５は、１つ又は複数の実施例の態様を使用した訓練及び／又は推論中に、入力／出力データ及び／又は重みパラメータを逆伝播する間に１つ又は複数の実施例と併せて訓練又は使用されるニューラル・ネットワークの各層の重みパラメータ及び／又は入力／出力データを記憶する。少なくとも一実施例では、訓練論理８１５は、タイミング及び／又は順序を制御するためのグラフ・コード又は他のソフトウェアを記憶するためのコード及び／又はデータ・ストレージ８０５を含んでもよく、又はそれに結合されてもよく、コード及び／又はデータ・ストレージ８０５には、重み及び／又は他のパラメータ情報がロードされて、整数及び／又は浮動小数点ユニット（総称して算術論理演算ユニット（ＡＬＵ））を含む論理が構成される。

少なくとも一実施例では、グラフ・コードなどのコードは、こうしたコードが対応するニューラル・ネットワークのアーキテクチャに基づき、重み又は他のパラメータ情報をプロセッサＡＬＵにロードさせる。少なくとも一実施例では、コード及び／又はデータ・ストレージ８０５の任意の部分は、プロセッサのＬ１、Ｌ２、又はＬ３のキャッシュ、若しくはシステム・メモリを含む他のオン・チップ又はオフ・チップのデータ・ストレージとともに含められてもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ８０５の任意の部分は、１つ若しくは複数のプロセッサ、又は他のハードウェア論理デバイス若しくは回路の内部にあっても外部にあってもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ８０５は、キャッシュ・メモリ、ＤＲＡＭ、ＳＲＡＭ、不揮発性メモリ（たとえば、フラッシュ・メモリ）、又は他のストレージであってもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ８０５が、たとえばプロセッサの内部にあるか外部にあるかの選択、又はＤＲＡＭ、ＳＲＡＭ、フラッシュ・メモリ、若しくは何らか他のタイプのストレージを含むかの選択は、オン・チップ対オフ・チップで利用可能なストレージ、実行される訓練及び／又は推論の機能のレイテンシ要件、ニューラル・ネットワークの推論及び／又は訓練で使用されるデータのバッチ・サイズ、又はこれらの要因の何からの組合せに応じて決められてもよい。

少なくとも一実施例では、コード及び／又はデータ・ストレージ８０１と、コード及び／又はデータ・ストレージ８０５は、別々のストレージ構造であってもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ８０１と、コード及び／又はデータ・ストレージ８０５は、組み合わされたストレージ構造であってもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ８０１と、コード及び／又はデータ・ストレージ８０５は、部分的に組み合わされ、部分的に別々であってもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ８０１と、コード及び／又はデータ・ストレージ８０５との任意の部分は、プロセッサのＬ１、Ｌ２、又はＬ３のキャッシュ、若しくはシステム・メモリを含む他のオン・チップ又はオフ・チップのデータ・ストレージとともに含められてもよい。

少なくとも一実施例では、推論及び／又は訓練論理８１５は、訓練及び／又は推論コード（たとえばグラフ・コード）に少なくとも部分的に基づく、又はそれにより示される論理演算及び／又は算術演算を実行するための、整数及び／又は浮動小数点ユニットを含む１つ又は複数の算術論理演算ユニット（「ＡＬＵ」）８１０を、限定することなく含んでもよく、その結果が、アクティブ化ストレージ８２０に記憶されるアクティブ化（たとえば、ニューラル・ネットワーク内の層若しくはニューロンからの出力値）を生成してもよく、これらは、コード及び／若しくはデータ・ストレージ８０１、並びに／又はコード及び／若しくはデータ・ストレージ８０５に記憶される入力／出力及び／又は重みパラメータのデータの関数である。少なくとも一実施例では、アクティブ化ストレージ８２０に記憶されるアクティブ化は、命令又は他のコードを実行したことに応答して、ＡＬＵ８１０によって実行される線形代数計算及び又は行列ベースの計算に従って生成され、ここでコード及び／又はデータ・ストレージ８０５並びに／若しくはデータ・ストレージ８０１に記憶された重み値は、バイアス値、勾配情報、運動量値などの他の値、又は他のパラメータ若しくはハイパーパラメータとともにオペランドとして使用され、これらのいずれか又はすべてが、コード及び／若しくはデータ・ストレージ８０５、又はコード及び／若しくはデータ・ストレージ８０１、又はオン・チップ若しくはオフ・チップの別のストレージに記憶されてもよい。

少なくとも一実施例では、ＡＬＵ８１０は、１つ若しくは複数のプロセッサ、又は他のハードウェア論理デバイス若しくは回路内に含まれるが、別の実施例では、ＡＬＵ８１０は、それらを使用するプロセッサ又は他のハードウェア論理デバイス若しくは回路の外部にあってもよい（たとえばコプロセッサ）。少なくとも一実施例では、ＡＬＵ８１０は、プロセッサの実行ユニット内に含まれてもよく、又は同じプロセッサ内にあるか異なるタイプの異なるプロセッサ（たとえば、中央処理装置、グラフィックス・プロセッシング・ユニット、固定機能ユニットなど）の間で分散されているかのいずれかであるプロセッサの実行ユニットによりアクセス可能なＡＬＵバンク内に、他のやり方で含まれてもよい。少なくとも一実施例では、コード及び／又はデータ・ストレージ８０１、コード及び／又はデータ・ストレージ８０５、並びにアクティブ化ストレージ８２０は、プロセッサ又は他のハードウェア論理デバイス若しくは回路を共有してもよく、別の実施例では、それらは異なるプロセッサ又は他のハードウェア論理デバイス若しくは回路にあってもよく、或いは同じプロセッサ又は他のハードウェア論理デバイス若しくは回路と、異なるプロセッサ又は他のハードウェア論理デバイス若しくは回路との何らかの組合せにあってもよい。少なくとも一実施例では、アクティブ化ストレージ８２０の任意の部分は、プロセッサのＬ１、Ｌ２、又はＬ３のキャッシュ、若しくはシステム・メモリを含む他のオン・チップ又はオフ・チップのデータ・ストレージとともに含められてもよい。さらに、推論及び／又は訓練コードが、プロセッサ又は他のハードウェア論理若しくは回路にアクセス可能な他のコードとともに記憶されてもよく、プロセッサのフェッチ、デコード、スケジューリング、実行、リタイア、及び／又は他の論理回路を使用してフェッチ及び／又は処理されてもよい。

少なくとも一実施例では、アクティブ化ストレージ８２０は、キャッシュ・メモリ、ＤＲＡＭ、ＳＲＡＭ、不揮発性メモリ（たとえば、フラッシュ・メモリ）、又は他のストレージであってもよい。少なくとも一実施例では、アクティブ化ストレージ８２０は、完全に又は部分的に、１つ若しくは複数のプロセッサ又は他の論理回路の内部にあってもよく、又は外部にあってもよい。少なくとも一実施例では、アクティブ化ストレージ８２０が、たとえばプロセッサの内部にあるか外部にあるかの選択、又はＤＲＡＭ、ＳＲＡＭ、フラッシュ・メモリ、若しくは何らか他のタイプのストレージを含むかの選択は、オン・チップ対オフ・チップの利用可能なストレージ、実行される訓練及び／又は推論機能のレイテンシ要件、ニューラル・ネットワークの推論及び／又は訓練で使用されるデータのバッチ・サイズ、又はこれらの要因の何からの組合せに応じて決められてもよい。

少なくとも一実施例では、図８Ａに示す推論及び／又は訓練論理８１５は、グーグルからのＴｅｎｓｏｒＦｌｏｗ（登録商標）処理ユニット、Ｇｒａｐｈｃｏｒｅ（商標）からの推論処理ユニット（ＩＰＵ：inference processing unit）、又はインテルコーポレーションからのＮｅｒｖａｎａ（登録商標）（たとえば「ＬａｋｅＣｒｅｓｔ」）プロセッサなどの特定用途向け集積回路（「ＡＳＩＣ」：ａｐｐｌｉｃａｔｉｏｎ－ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）と併せて使用されてもよい。少なくとも一実施例では、図８Ａに示す推論及び／又は訓練論理８１５は、中央処理装置（「ＣＰＵ」）ハードウェア、グラフィックス・プロセッシング・ユニット（「ＧＰＵ」）ハードウェア、又はフィールド・プログラマブル・ゲート・アレイ（「ＦＰＧＡ」：field programmable gate array）など他のハードウェアと併せて使用されてもよい。

図８Ｂは、少なくとも１つの実施例による、推論及び／又は訓練論理８１５を示す。少なくとも一実施例では、推論及び／又は訓練論理８１５は、ハードウェア論理を限定することなく含んでもよく、このハードウェア論理では、計算リソースが、ニューラル・ネットワーク内のニューロンの１つ若しくは複数の層に対応する重み値又は他の情報の専用のものであるか、又は他のやり方でそれらと併せてしか使用されない。少なくとも一実施例では、図８Ｂに示す推論及び／又は訓練論理８１５は、グーグルからのＴｅｎｓｏｒＦｌｏｗ（登録商標）処理ユニット、Ｇｒａｐｈｃｏｒｅ（商標）からの推論処理ユニット（ＩＰＵ）、又はインテルコーポレーションからのＮｅｒｖａｎａ（登録商標）（たとえば「ＬａｋｅＣｒｅｓｔ」）プロセッサなどの特定用途向け集積回路（ＡＳＩＣ）と併せて使用されてもよい。少なくとも一実施例では、図８Ｂに示す推論及び／又は訓練論理８１５は、中央処理装置（ＣＰＵ）ハードウェア、グラフィックス・プロセッシング・ユニット（ＧＰＵ）ハードウェア、又はフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）など他のハードウェアと併せて使用されてもよい。少なくとも一実施例では、推論及び／又は訓練論理８１５は、限定することなく、コード及び／又はデータ・ストレージ８０１、並びにコード及び／又はデータ・ストレージ８０５を含み、これらを使用して、コード（たとえばグラフ・コード）、重み値、並びに／又はバイアス値、勾配情報、運動量値、及び／若しくは他のパラメータ若しくはハイパーパラメータ情報を含む他の情報を記憶してもよい。図８Ｂに示す少なくとも一実施例では、コード及び／又はデータ・ストレージ８０１並びにコード及び／又はデータ・ストレージ８０５のそれぞれは、それぞれ計算ハードウェア８０２及び計算ハードウェア８０６などの専用計算リソースに関連付けられる。少なくとも一実施例では、計算ハードウェア８０２及び計算ハードウェア８０６のそれぞれは、線形代数関数などの数学的関数を、それぞれコード及び／又はデータ・ストレージ８０１並びにコード及び／又はデータ・ストレージ８０５に記憶された情報に対してのみ実行する１つ又は複数のＡＬＵを備え、その結果は、アクティブ化ストレージ８２０に記憶される。

少なくとも一実施例では、コード並びに／又はデータ・ストレージ８０１及び８０５のそれぞれ、並びに対応する計算ハードウェア８０２及び８０６は、ニューラル・ネットワークの異なる層にそれぞれ対応し、それにより、コード及び／又はデータ・ストレージ８０１並びに計算ハードウェア８０２との１つのストレージ／計算の対８０１／８０２から結果的に生じるアクティブ化は、ニューラル・ネットワークの概念的組織化を反映させるために、次のコード及び／又はデータ・ストレージ８０５並びに計算ハードウェア８０６とのストレージ／計算の対８０５／８０６への入力として提供される。少なくとも一実施例では、ストレージ／計算の対８０１／８０２、及び８０５／８０６のそれぞれは、２つ以上のニューラル・ネットワークの層に対応してもよい。少なくとも一実施例では、ストレージ／計算の対８０１／８０２、及び８０５／８０６の後に、又はそれと並列に、追加のストレージ／計算の対（図示せず）が、推論及び／又は訓練論理８１５に含まれてもよい。

ニューラル・ネットワークの訓練及び導入
図９は、少なくとも一実施例による、ディープ・ニューラル・ネットワークの訓練及び導入を示す。少なくとも一実施例では、未訓練ニューラル・ネットワーク９０６が、訓練データ・セット９０２を使用して訓練される。少なくとも一実施例では、訓練フレームワーク９０４は、ＰｙＴｏｒｃｈフレームワークであり、一方他の実施例では、訓練フレームワーク９０４は、ＴｅｎｓｏｒＦｌｏｗ、Ｂｏｏｓｔ、Ｃａｆｆｅ、マイクロソフトＣｏｇｎｉｔｉｖｅＴｏｏｌｋｉｔ／ＣＮＴＫ、ＭＸＮｅｔ、Ｃｈａｉｎｅｒ、Ｋｅｒａｓ、Ｄｅｅｐｌｅａｒｎｉｎｇ４ｊ、又は他の訓練フレームワークである。少なくとも一実施例では、訓練フレームワーク９０４は、未訓練ニューラル・ネットワーク９０６を訓練し、本明細書に記載の処理リソースを使用してそれが訓練されるのを可能にして、訓練済みニューラル・ネットワーク９０８を生成する。少なくとも一実施例では、重みは、ランダムに選択されてもよく、又はディープ・ビリーフ・ネットワークを使用した事前訓練によって選択されてもよい。少なくとも一実施例では、訓練は、教師あり、一部教師あり、又は教師なしのいずれかのやり方で実行されてもよい。

少なくとも一実施例では、未訓練ニューラル・ネットワーク９０６は教師あり学習を使用して訓練され、ここで訓練データ・セット９０２は、入力に対する所望の出力と対になった入力を含み、又は訓練データ・セット９０２は、既知の出力を有する入力を含み、ニューラル・ネットワーク９０６の出力が手動で採点される。少なくとも一実施例では、未訓練ニューラル・ネットワーク９０６は教師ありのやり方で訓練され、訓練データ・セット９０２からの入力を処理し、結果として得られた出力を、予想の又は所望の出力のセットと比較する。少なくとも一実施例では、次いで、誤差が、未訓練ニューラル・ネットワーク９０６を通って逆伝播される。少なくとも一実施例では、訓練フレームワーク９０４は、未訓練ニューラル・ネットワーク９０６を制御する重みを調節する。少なくとも一実施例では、訓練フレームワーク９０４は、未訓練ニューラル・ネットワーク９０６が、新規データ・セット９１２などの入力データに基づき、結果９１４などにおいて正しい答えを生成するのに好適な訓練済みニューラル・ネットワーク９０８などのモデルに向かって、どれだけ良好に収束しているかを監視するツールを含む。少なくとも一実施例では、訓練フレームワーク９０４は、未訓練ニューラル・ネットワーク９０６を繰り返し訓練する一方、損失関数、及び確率的勾配降下法などの調整アルゴリズムを使用して、未訓練ニューラル・ネットワーク９０６の出力を精緻化するように重みを調整する。少なくとも一実施例では、訓練フレームワーク９０４は、未訓練ニューラル・ネットワーク９０６が所望の精度に到達するまで未訓練ニューラル・ネットワーク９０６を訓練する。少なくとも一実施例では、次いで訓練済みニューラル・ネットワーク９０８を、任意の数の機械学習動作を実装するように導入することができる。

少なくとも一実施例では、未訓練ニューラル・ネットワーク９０６は、教師なし学習を使用して訓練され、ここで未訓練ニューラル・ネットワーク９０６は、ラベルなしデータを使用して自らを訓練しようとする。少なくとも一実施例では、教師なし学習の訓練データ・セット９０２は、いかなる関連出力データ又は「グラウンド・トゥルース」データもない入力データを含む。少なくとも一実施例では、未訓練ニューラル・ネットワーク９０６は、訓練データ・セット９０２内でグループ化を学習することができ、個々の入力が、未訓練データ・セット９０２にどのように関係しているかを判定することができる。少なくとも一実施例では、新規データ・セット９１２の次元を低減するのに有用な動作を実行することができる訓練済みニューラル・ネットワーク９０８内で教師なし訓練を使用して、自己組織化マップを生成することができる。少なくとも一実施例では、教師なし訓練を使用して異常検出を実行することもでき、異常検出は、新規データ・セット９１２の通常のパターンから逸脱した、新規データ・セット９１２内のデータ点を識別できるようにする。

少なくとも一実施例では、半教師あり学習が使用されてもよく、それは、ラベル付きデータとラベルなしデータが訓練データ・セット９０２に混在している技法である。少なくとも一実施例では、訓練フレームワーク９０４を使用して、伝達学習技法などによる漸次的学習が実行されてもよい。少なくとも一実施例では、漸次的学習により、訓練済みニューラル・ネットワーク９０８は、初期訓練中に訓練済みニューラル・ネットワーク９０８内に教え込まれた知識を忘れることなく、新規データ・セット９１２に適合できるようになる。

データ・センタ
図１０は、少なくとも一実施例が使用されてもよい例示的なデータ・センタ１０００を示す。少なくとも一実施例では、データ・センタ１０００は、データ・センタ・インフラストラクチャ層１０１０、フレームワーク層１０２０、ソフトウェア層１０３０、及びアプリケーション層１０４０を含む。

図１０に示すように、少なくとも一実施例では、データセンタ・インフラストラクチャ層１０１０は、リソース・オーケストレータ１０１２と、グループ化済みコンピューティング・リソース１０１４と、ノード・コンピューティング・リソース（「ノードＣ．Ｒ．」）１０１６（１）～１０１６（Ｎ）とを含んでもよく、ここで「Ｎ」は正の整数を表す（他の図で使用されるものとは異なる整数「Ｎ」であってもよい）。少なくとも一実施例では、ノードＣ．Ｒ．１０１６（１）～１０１６（Ｎ）は、任意の数の中央処理装置（「ＣＰＵ」）又は（アクセラレータ、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、グラフィックス・プロセッサなどを含む）他のプロセッサ、メモリ・ストレージ・デバイス１０１８（１）～１０１８（Ｎ）（たとえば、ダイナミック読取り専用メモリ、半導体ストレージ・ドライブ又はディスク・ドライブ）、ネットワーク入力／出力（「ＮＷＩ／Ｏ」：ｎｅｔｗｏｒｋｉｎｐｕｔ／ｏｕｔｐｕｔ）デバイス、ネットワーク・スイッチ、仮想機械（「ＶＭ」：virtual machine）、電源モジュール、及び冷却モジュールを含んでもよいが、これらに限定されない。少なくとも一実施例では、ノードＣ．Ｒ．１０１６（１）～１０１６（Ｎ）のうち１つ又は複数のノードＣ．Ｒ．は、上述したコンピューティング・リソースのうちの１つ又は複数を有するサーバであってもよい。

少なくとも一実施例では、グループ化済みコンピューティング・リソース１０１４は、１つ若しくは複数のラック（図示せず）内に収容されたノードＣ．Ｒ．の別々のグループ、又は様々な地理的ロケーション（同じく図示せず）においてデータ・センタに収容された多数のラックを含んでもよい。少なくとも一実施例では、グループ化済みコンピューティング・リソース１０１４内のノードＣ．Ｒ．の別々のグループは、１つ若しくは複数のワークロードをサポートするように構成又は配分されてもよいグループ化済みのコンピュート・リソース、ネットワーク・リソース、メモリ・リソース、又はストレージ・リソースを含んでもよい。少なくとも一実施例では、ＣＰＵ又はプロセッサを含むいくつかのノードＣ．Ｒ．は、１つ又は複数のラック内でグループ化されて、１つ又は複数のワークロードをサポートするためのコンピュート・リソースが提供されてもよい。少なくとも一実施例では、１つ又は複数のラックはまた、任意の数の電源モジュール、冷却モジュール、及びネットワーク・スイッチを任意の組合せで含んでもよい。

少なくとも一実施例では、リソース・オーケストレータ１０１２は、１つ又は複数のノードＣ．Ｒ．１０１６（１）～１０１６（Ｎ）及び／若しくはグループ化済みコンピューティング・リソース１０１４を構成してもよく、又は他のやり方で制御してもよい。少なくとも一実施例では、リソース・オーケストレータ１０１２は、データ・センタ１０００用のソフトウェア設計インフラストラクチャ（「ＳＤＩ」：software design infrastructure）管理エンティティを含んでもよい。少なくとも一実施例では、リソース・オーケストレータ８１２は、ハードウェア、ソフトウェア、又はこれらの何らかの組合せを含んでもよい。

図１０に示す少なくとも一実施例では、フレームワーク層１０２０は、ジョブ・スケジューラ１０２２、構成マネージャ１０２４、リソース・マネージャ１０２６、及び分配ファイル・システム１０２８を含む。少なくとも一実施例では、フレームワーク層１０２０は、ソフトウェア層１０３０のソフトウェア１０３２、及び／又はアプリケーション層１０４０の１つ若しくは複数のアプリケーション１０４２をサポートするためのフレームワークを含んでもよい。少なくとも一実施例では、ソフトウェア１０３２又はアプリケーション１０４２はそれぞれ、アマゾン・ウェブ・サービス、グーグル・クラウド、及びマイクロソフト・アジュールによって提供されるものなど、ウェブ・ベースのサービス・ソフトウェア又はアプリケーションを含んでもよい。少なくとも一実施例では、フレームワーク層１０２０は、大規模なデータ処理（たとえば「ビック・データ」）のために分配ファイル・システム１０２８を使用することができるＡｐａｃｈｅＳｐａｒｋ（登録商標）（以下「Ｓｐａｒｋ」）など、無料でオープン・ソースのソフトウェア・ウェブ・アプリケーション・フレームワークの一種であってもよいが、これに限定されない。少なくとも一実施例では、ジョブ・スケジューラ１０３２は、データ・センタ１０００の様々な層によってサポートされるワークロードのスケジューリングを容易にするために、Ｓｐａｒｋドライバを含んでもよい。少なくとも一実施例では、構成マネージャ１０２４は、ソフトウェア層１０３０、並びに大規模なデータ処理をサポートするためのＳｐａｒｋ及び分配ファイル・システム１０２８を含むフレームワーク層１０２０などの異なる層を構成することが可能であってもよい。少なくとも一実施例では、リソース・マネージャ１０２６は、分配ファイル・システム１０２８及びジョブ・スケジューラ１０２２をサポートするようにマッピング若しくは配分されたクラスタ化済み又はグループ化済みのコンピューティング・リソースを管理することが可能であってもよい。少なくとも一実施例では、クラスタ化済み又はグループ化済みのコンピューティング・リソースは、データ・センタ・インフラストラクチャ層１０１０にあるグループ化済みコンピューティング・リソース１０１４を含んでもよい。少なくとも一実施例では、リソース・マネージャ１０２６は、リソース・オーケストレータ１０１２と連携して、これらのマッピング又は配分されたコンピューティング・リソースを管理してもよい。

少なくとも一実施例では、ソフトウェア層１０３０に含まれるソフトウェア１０３２は、ノードＣ．Ｒ．１０１６（１）～１０１６（Ｎ）、グループ化済みコンピューティング・リソース１０１４、及び／又はフレームワーク層１０２０の分配ファイル・システム１０２８のうちの少なくとも一部分によって使用されるソフトウェアを含んでもよい。少なくとも一実施例では、１つ又は複数のタイプのソフトウェアは、インターネット・ウェブ・ページ検索ソフトウェア、電子メール・ウイルス・スキャン・ソフトウェア、データベース・ソフトウェア、及びストリーミング・ビデオ・コンテンツ・ソフトウェアを含んでもよいが、これらに限定されない。

少なくとも一実施例では、アプリケーション層１０４０に含まれるアプリケーション１０４２は、ノードＣ．Ｒ．１０１６（１）～１０１６（Ｎ）、グループ化済みコンピューティング・リソース１０１４、及び／又はフレームワーク層１０２０の分配ファイル・システム１０２８のうちの少なくとも一部分によって使用される１つ若しくは複数のタイプのアプリケーションを含んでもよい。少なくとも一実施例では、１つ若しくは複数のタイプのアプリケーションは、任意の数のゲノム学アプリケーション、認識コンピュート、並びに訓練若しくは推論のソフトウェア、機械学習フレームワーク・ソフトウェア（たとえば、ＰｙＴｏｒｃｈ、ＴｅｎｓｏｒＦｌｏｗ、Ｃａｆｆｅなど）を含むアプリケーション及び機械学習アプリケーション、又は１つ若しくは複数の実施例と併せて使用される他の機械学習アプリケーションを含んでもよいが、これらに限定されない。

少なくとも一実施例では、構成マネージャ１０２４、リソース・マネージャ１０２６、及びリソース・オーケストレータ１０１２のうちのいずれかは、任意の技術的に実行可能なやり方で取得された任意の量及びタイプのデータに基づき、任意の数及びタイプの自己修正措置を実装してもよい。少なくとも一実施例では、自己修正措置は、データ・センタ１０００のデータ・センタ演算子が、不良の恐れのある構成を決定しないようにし、十分に利用されていない且つ／又は性能の低いデータ・センタの部分をなくせるようにしてもよい。

少なくとも一実施例では、データ・センタ１０００は、１つ若しくは複数の機械学習モデルを訓練し、又は本明細書に記載の１つ若しくは複数の実施例による１つ若しくは複数の機械学習モデルを使用して情報を予測若しくは推論するためのツール、サービス、ソフトウェア、又は他のリソースを含んでもよい。たとえば、少なくとも一実施例では、機械学習モデルは、データ・センタ１０００に関して上述したソフトウェア及びコンピューティング・リソースを使用して、ニューラル・ネットワーク・アーキテクチャに従って重みパラメータを計算することによって、訓練されてもよい。少なくとも一実施例では、１つ又は複数のニューラル・ネットワークに対応する訓練済み機械学習モデルは、本明細書に記載の１つ又は複数の技法によって計算された重みパラメータを使用することにより、データ・センタ１０００に関して上述したリソースを使用して、情報を推論又は予測するために使用されてもよい。

少なくとも一実施例では、データ・センタは、上述したリソースを使用して訓練及び／又は推論を実行するために、ＣＰＵ、特定用途向け集積回路（ＡＳＩＣ）、ＧＰＵ、ＦＰＧＡ、又は他のハードウェアを使用してもよい。さらに、上述した１つ又は複数のソフトウェア及び／又はハードウェアのリソースは、画像認識、音声認識、又は他の人工知能サービスなどの情報の訓練又は推論の実行を、ユーザが行えるようにするためのサービスとして構成されてもよい。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１０のシステムにおいて使用されてもよい。

少なくとも一実施例では、ｎ：ｍ構造化スパース性を強化するための置換５１２及び枝刈５２８は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１０のシステムにおいて使用されてもよい。

自律車両
図１１Ａは、少なくとも一実施例による自律車両１１００の実例を示す。少なくとも一実施例では、自律車両１１００（或いは、本明細書において「車両１１００」と呼ばれる）は、限定することなく、車、トラック、バス、及び／又は１人若しくは複数の乗員を収容する別のタイプの車両などの乗用車とすることができる。少なくとも一実施例では、車両１１００は、貨物運搬用のセミ・トラクタのトレーラ・トラックであってもよい。少なくとも一実施例では、車両１１００は、航空機、ロボット車両、又は他の種類の車両であってもよい。

自律車両は、米国運輸省の一部門である全米高速道路交通安全局（「ＮＨＴＳＡ」：National Highway Traffic Safety Administration）、及び自動車技術者協会（「ＳＡＥ」：Society of Automotive Engineers）の「自動車用運転自動化システムのレベル分類及び定義（ＴａｘｏｎｏｍｙａｎｄＤｅｆｉｎｉｔｉｏｎｓｆｏｒＴｅｒｍｓＲｅｌａｔｅｄｔｏＤｒｉｖｉｎｇＡｕｔｏｍａｔｉｏｎＳｙｓｔｅｍｓｆｏｒＯｎ－ＲｏａｄＭｏｔｏｒＶｅｈｉｃｌｅｓ）」（たとえば、２０１８年６月１５日発行の規格Ｎｏ．Ｊ３０１６－２０１８０６、２０１６年９月３０日発行の規格Ｎｏ．Ｊ３０１６－２０１６０９、及びこの規格の旧版及び新版）により定義される自動化レベルという観点から説明されてもよい。１つ又は複数の実施例では、車両１１００は、自律運転レベルのレベル１～レベル５のうちの１つ又は複数による機能性に対応可能であってもよい。たとえば、少なくとも一実施例では、車両１１００は、実施例に応じて、条件付き自動化（レベル３）、高度自動化（レベル４）、及び／又は完全自動化（レベル５）に対応可能であってもよい。

少なくとも一実施例では、車両１１００は、限定することなく、シャシ、車両本体、ホイール（２本、４本、６本、８本、１８本など）、タイヤ、車軸、及び車両の他の構成要素などの構成要素を含んでもよい。少なくとも一実施例では、車両１１００は、限定することなく、内燃機関、ハイブリッド電力プラント、完全電気エンジン、及び／又は別のタイプの推進システムなどの推進システム１１５０を含んでもよい。少なくとも一実施例では、推進システム１１５０は、車両１１００のドライブ・トレインに連結されてもよく、ドライブ・トレインは、限定することなく、車両１１００の推進を可能にするためのトランスミッションを含んでもよい。少なくとも一実施例では、推進システム１１５０は、スロットル／アクセル１１５２からの信号を受信したことに応答して、制御されてもよい。

少なくとも一実施例では、限定することなくハンドルを含んでもよい操縦システム１１５４は、推進システム１１５０が動作しているときに（たとえば、車両１１００が動いているときに）車両１１００を（たとえば所望の経路又はルートに沿って）操縦するために使用される。少なくとも一実施例では、操縦システム１１５４は、操縦アクチュエータ１１５６から信号を受信してもよい。少なくとも一実施例では、ハンドルは、完全自動化（レベル５）の機能性に関しては任意選択であってもよい。少なくとも一実施例では、ブレーキ・アクチュエータ１１４８及び／又はブレーキ・センサからの信号を受信したことに応答して車両ブレーキを動作させるために、ブレーキ・センサ・システム１１４６が使用されてもよい。

少なくとも一実施例では、１つ又は複数のシステム・オン・チップ（「ＳｏＣ」：system on chip）（図１１Ａには示さず）及び／若しくはグラフィックス・プロセッシング・ユニット（「ＧＰＵ」）を限定することなく含んでもよいコントローラ１１３６は、車両１１００の１つ又は複数の構成要素及び／若しくはシステムに（たとえば、コマンドを表す）信号を提供する。たとえば、少なくとも一実施例では、コントローラ１１３６は、ブレーキ・アクチュエータ１１４８を介して車両ブレーキを動作させるための信号、操縦アクチュエータ１１５６を介して操縦システム１１５４を動作させるための信号、スロットル／アクセル１１５２を介して推進システム１１５０を動作させるための信号を送信してもよい。少なくとも一実施例では、コントローラ１１３６は、自律運転を可能にし、且つ／又は運転車両１１００において人間のドライバを支援するために、センサ信号を処理し、動作コマンド（たとえばコマンドを表す信号）を出力する１つ又は複数の搭載（たとえば一体型の）コンピューティング・デバイス（たとえば、スーパーコンピュータ）を含んでもよい。少なくとも一実施例では、コントローラ１１３６は、自律運転機能のための第１のコントローラ、機能的安全機能のための第２のコントローラ、人工知能機能（たとえば、コンピュータ・ビジョン）のための第３のコントローラ、インフォテイメント機能のための第４のコントローラ、緊急事態における冗長性のための第５のコントローラ、及び／又は他のコントローラを含んでもよい。少なくとも一実施例では、単一のコントローラが、上記機能性のうちの２つ以上に対処してもよく、２つ以上のコントローラが、単一の機能性に対処してもよく、且つ／又はこれらの何らかの組合せであってもよい。

少なくとも一実施例では、コントローラ１１３６は、１つ又は複数のセンサから受信したセンサ・データ（たとえば、センサ入力）に応答して、車両１１００の１つ又は複数の構成要素及び／若しくはシステムを制御するための信号を提供する。少なくとも一実施例では、センサ・データは、たとえば限定することなく、全地球的航法衛星システム（「ＧＮＳＳ」：global navigation satellite system）センサ１１５８（たとえば、全地球測位システム・センサ）、ＲＡＤＡＲセンサ１１６０、超音波センサ１１６２、ＬＩＤＡＲセンサ１１６４、慣性計測装置（「ＩＭＵ」：inertial measurement unit）センサ１１６６（たとえば、加速度計、ジャイロスコープ、磁気コンパス、磁力計など）、マイクロフォン１１９６、ステレオ・カメラ１１６８、広角カメラ１１７０（たとえば、魚眼カメラ）、赤外線カメラ１１７２、周囲カメラ１１７４（たとえば、３６０度カメラ）、長距離カメラ（図１１Ａには示さず）、中距離カメラ（図１１Ａには示さず）、（たとえば、車両１１００のスピードを計測するための）スピード・センサ１１４４、振動センサ１１４２、操縦センサ１１４０、（たとえば、ブレーキ・センサ・システム１１４６の一部分としての）ブレーキ・センサ、及び／又は他のタイプのセンサから、受信されてもよい。

少なくとも一実施例では、コントローラ１１３６のうちの１つ又は複数は、車両１１００の計器クラスタ１１３２からの（たとえば入力データによって表される）入力を受信し、ヒューマン・マシン・インターフェース（「ＨＭＩ」：ｈｕｍａｎ－ｍａｃｈｉｎｅｉｎｔｅｒｆａｃｅ）ディスプレイ１１３４、可聴アナンシエータ、拡声器を介して、且つ／又は車両１１００の他の構成要素を介して、（たとえば、出力データ、ディスプレイ・データなどによって表される）出力を提供してもよい。少なくとも一実施例では、出力は、車両速度、スピード、時間、地図データ（たとえば、ハイ・デフィニション・マップ（図１１Ａには示さず）、ロケーション・データ（たとえば、地図上などの車両１１００のロケーション）、方向、他車両のロケーション（たとえば、占有グリッド）、コントローラ１１３６が感知した物体及び物体の状態についての情報などの情報を含んでもよい。たとえば、少なくとも一実施例では、ＨＭＩディスプレイ１１３４は、１つ若しくは複数の物体（たとえば、道路標識、警告標識、信号の変化など）の存在についての情報、及び／又は車両が行った、行っている、又はこれから行う運転操作についての情報（たとえば、現在車線変更中、３．２２ｋｍ（２マイル）先の出口３４Ｂを出る、など）を表示してもよい。

少なくとも一実施例では、車両１１００はさらにネットワーク・インターフェース１１２４を含み、このネットワーク・インターフェースは、１つ又は複数のネットワークを介して通信するためのワイヤレス・アンテナ１１２６及び／又はモデムを使用してもよい。たとえば、少なくとも一実施例では、ネットワーク・インターフェース１１２４は、ロング・ターム・エボリューション（「ＬＴＥ」：Ｌｏｎｇ－ＴｅｒｍＥｖｏｌｕｔｉｏｎ）、広帯域符号分割多元接続（「ＷＣＤＭＡ（登録商標）」：Wideband Code Division Multiple Access）、ユニバーサル・モバイル・テレコミュニケーション・システム（「ＵＭＴＳ」：Universal Mobile Telecommunications System）、グローバル・システム・フォー・モバイル・コミュニケーション（「ＧＳＭ」：Global System for Mobile communication）、ＩＭＴ－ＣＤＭＡマルチ・キャリア（「ＣＤＭＡ２０００」）ネットワークなどを介して通信可能であってもよい。また、少なくとも一実施例では、ワイヤレス・アンテナ１１２６は、Ｂｌｕｅｔｏｏｔｈ、ＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙ（「ＬＥ」：Low Energy）、Ｚ－Ｗａｖｅ、ＺｉｇＢｅｅなどのローカル・エリア・ネットワーク、及び／又はＬｏＲａＷＡＮ、ＳｉｇＦｏｘなどの低電力広域ネットワーク（「ＬＰＷＡＮ」：ｌｏｗｐｏｗｅｒｗｉｄｅ－ａｒｅａｎｅｔｗｏｒｋ）のプロトコルを使用して、環境内の物体同士間（たとえば車両、モバイル・デバイスなど）での通信を可能にしてもよい。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１１Ａのシステムにおいて使用されてもよい。

少なくとも一実施例では、ｎ：ｍ構造化スパース性を強化するための置換５１２及び枝刈５２８は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１１Ａのシステムにおいて使用されてもよい。

図１１Ｂは、少なくとも一実施例による図１１Ａの自律車両１１００についてカメラのロケーション及び視野の例を示す。少なくとも一実施例では、カメラ及びそれぞれの視野は、一例の実施例であり、限定するものではない。たとえば、少なくとも一実施例では、追加及び／又は代替のカメラが含まれてもよく、且つ／又はカメラが車両１１００の異なるロケーションに位置付けられてもよい。

少なくとも一実施例では、カメラのカメラ・タイプは、車両１１００の構成要素及び／又はシステムとともに使用できるように適合されていてもよいデジタル・カメラを含んでもよいが、これに限定されない。少なくとも一実施例では、カメラは、自動車安全性要求レベル（「ＡＳＩＬ」：automotive safety integrity level）Ｂ及び／又は別のＡＳＩＬにおいて動作してもよい。少なくとも一実施例では、カメラ・タイプは、実施例に応じて、毎秒６０フレーム（ｆｐｓ：frames per second）、１２２０ｆｐｓ、２４０ｆｐｓなど、任意の画像捕捉率に対応可能であってもよい。少なくとも一実施例では、カメラは、ロール・シャッタ、グローバル・シャッタ、別のタイプのシャッタ、又はこれらの組合せを使用することが可能であってもよい。少なくとも一実施例では、カラー・フィルタ・アレイは、赤色、クリア、クリア、クリア（「ＲＣＣＣ」：red clear clear clear）のカラー・フィルタ・アレイ、赤色、クリア、クリア、青色（「ＲＣＣＢ：ｒｅｄｃｌｅａｒｃｌｅａｒｂｌｕｅ」）のカラー・フィルタ・アレイ、赤色、青色、緑色、クリア（「ＲＢＧＣ」：red blue green clear）のカラー・フィルタ・アレイ、ＦｏｖｅｏｎＸ３のカラー・フィルタ・アレイ、ベイヤー・センサ（「ＲＧＧＢ」）のカラー・フィルタ・アレイ、モノクロ・センサのカラー・フィルタ・アレイ、及び／又は別のタイプのカラー・フィルタ・アレイを含んでもよい。少なくとも一実施例では、光感度を上げるために、ＲＣＣＣ、ＲＣＣＢ、及び／又はＲＢＧＣのカラー・フィルタ・アレイを有するカメラなど、クリア・ピクセル・カメラが使用されてもよい。

少なくとも一実施例では、カメラのうちの１つ又は複数を使用して、先進ドライバ支援システム（「ＡＤＡＳ」：advanced driver assistance systems）機能が（たとえば、冗長設計又はフェイル・セーフ設計の一部として）実行されてもよい。たとえば、少なくとも一実施例では、多機能モノ・カメラが設置されて、車線逸脱警告、交通標識支援、及びインテリジェント・ヘッドライト制御を含む機能が提供されてもよい。少なくとも一実施例では、カメラのうちの１つ又は複数（たとえばすべてのカメラ）は、画像データ（たとえばビデオ）の記録と提供を同時に行ってもよい。

少なくとも一実施例では、１つ又は複数のカメラは、カメラの画像データ捕捉性能を妨げる恐れのある迷光及び車両１１００内部からの反射（たとえば、ダッシュボードからフロントガラスに反射される反射）をなくすために、カスタム設計の（３次元（「３Ｄ」：ｔｈｒｅｅ－ｄｉｍｅｎｓｉｏｎａｌ）印刷された）アセンブリなどの取付けアセンブリに取り付けられてもよい。ドアミラー取付けアセンブリを参照すると、少なくとも一実施例では、ドアミラー・アセンブリは、カメラ取付けプレートがドアミラーの形の合うように、カスタムで３Ｄ印刷されてもよい。少なくとも一実施例では、カメラは、ドアミラーと一体であってもよい。少なくとも一実施例では、サイド・ビュー・カメラについて、カメラはこの場合もキャビンの各角にある４本のピラーに一体化されてもよい。

少なくとも一実施例では、車両１１００前方の環境の一部分を含む視野を有するカメラ（たとえば正面カメラ）は周囲のビューに対して使用されて、正面の経路及び障害物を識別しやすくするとともに、コントローラ１１３６及び／又は制御ＳｏＣのうちの１つ又は複数とともに使用されて、占有グリッドの生成及び／又は好ましい車両経路の判定に不可欠な情報の提供を補助してもよい。少なくとも一実施例では、正面カメラを使用して、緊急ブレーキ、歩行者検出、及び衝突回避を限定することなく含む、ＬＩＤＡＲと同様のＡＤＡＳ機能のうちの多くが実行されてもよい。少なくとも一実施例では、正面カメラはまた、車線逸脱警告（「ＬＤＷ」：Lane Departure Warnings）、自律クルーズ・コントロール（「ＡＣＣ」：Autonomous Cruise Control）、及び／又は交通標識認識などの他の機能を限定することなく含むＡＤＡＳの機能及びシステムのために使用されてもよい。

少なくとも一実施例では、たとえばＣＭＯＳ：ｃｏｍｐｌｅｍｅｎｔａｒｙｍｅｔａｌｏｘｉｄｅｓｅｍｉｃｏｎｄｕｃｔｏｒ（「相補型金属酸化膜半導体」）カラー撮像装置を含む単眼カメラのプラットフォームを含む様々なカメラが、正面構成で使用されてもよい。少なくとも一実施例では、周囲からビューに入ってくる物体（たとえば歩行者、クロス・トラフィック、又は自転車）を感知するために、広角カメラ１１７０が使用されてもよい。図１１Ｂには１つの広角カメラ１１７０しか示していないが、他の実施例では、車両１１００には（ゼロを含む）任意の数の広角カメラが存在してもよい。少なくとも一実施例では、特にニューラル・ネットワークがそれに対してまだ訓練されていない物体について、深度ベースの物体検出のために、任意の数の長距離カメラ１１９８（たとえば、長距離ビューのステレオ・カメラの対）が使用されてもよい。少なくとも一実施例では、長距離カメラ１１９８はまた、物体検出及び分類、並びに基本的な物体追跡に使用されてもよい。

少なくとも一実施例では、任意の数のステレオ・カメラ１１６８は、正面構成にも含まれてよい。少なくとも一実施例では、１つ又は複数のステレオ・カメラ１１６８は、拡張可能な処理ユニットを備えた一体型制御ユニットを含んでもよく、この制御ユニットは、一体型のコントローラ・エリア・ネットワーク（「ＣＡＮ」：Controller Area Network）又はイーサネット（登録商標）・インターフェースを単一チップ上に有するプログラム可能論理（「ＦＰＧＡ」）及びマルチ・コア・マイクロプロセッサを提供してもよい。少なくとも一実施例では、こうしたユニットは、画像内のすべての点に対する距離推定を含め、車両１１００の環境の３Ｄマップを生成するのに使用されてもよい。少なくとも一実施例では、ステレオ・カメラ１１６８のうちの１つ又は複数は、限定することなくコンパクト・ステレオ・ビジョン・センサを含んでもよく、このセンサは、車両１１００からターゲット物体までの距離を測定し、生成された情報（たとえば、メタデータ）を使用して自律緊急ブレーキ及び車線逸脱警告の機能をアクティブ化することができる２つのカメラ・レンズ（左右に１つずつ）及び画像処理チップを、限定することなく含んでもよい。少なくとも一実施例では、本明細書に記載のものに加えて、又はその代わりに、他のタイプのステレオ・カメラ１１６８が使用されてもよい。

少なくとも一実施例では、車両１１００の側方の環境の一部分を含む視野を有するカメラ（たとえば、サイド・ビュー・カメラ）が、周囲のビューのために使用されて、占有グリッドの作製及び更新、並びに側面衝突警告の生成のために使用される情報を提供してもよい。たとえば、少なくとも一実施例では、周囲カメラ１１７４（たとえば図１１Ｂに示すように４つの周囲カメラ）を、車両１１００に配置することができる。少なくとも一実施例では、周囲カメラ１１７４は、限定することなく、任意の数及び組合せの広角カメラ、魚眼カメラ、３６０度カメラ及び／又は同様のカメラを含んでもよい。たとえば、少なくとも一実施例では、４つの魚眼カメラが、車両１１００の前方、後方、及び側方に配置されてもよい。少なくとも一実施例では、車両１１００は、３つの周囲カメラ１１７４（たとえば、左、右、及び後方）を使用してもよく、第４の周囲カメラとして、１つ又は複数の他のカメラ（たとえば正面カメラ）を活用してもよい。

少なくとも一実施例では、車両１１００後方の環境の一部分を含む視野を有するカメラ（たとえば、リア・ビュー・カメラ）が、駐車支援、周囲のビュー、後方衝突警告のために使用されて、占有グリッドの作製及び更新がなされてもよい。少なくとも一実施例では、本明細書に記載の正面カメラとしても好適なカメラ（たとえば、長距離カメラ１１９８、及び／又は中距離カメラ１１７６、ステレオ・カメラ１１６８、赤外線カメラ１１７２など）を含むが、これらに限定されない多種多様なカメラが使用されてもよい。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１１Ｂのシステムにおいて使用されてもよい。

少なくとも一実施例では、ｎ：ｍ構造化スパース性を強化するための置換５１２及び枝刈５２８は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１１Ｂのシステムにおいて使用されてもよい。

図１１Ｃは、少なくとも一実施例による図１１Ａの自律車両１１００の例示的システム・アーキテクチャを示すブロック図である。少なくとも一実施例では、図１１Ｃの車両１１００の構成要素、特徴、及びシステムのそれぞれは、バス１１０２を介して接続されるものとして示される。少なくとも一実施例では、バス１１０２は、限定することなく、ＣＡＮデータ・インターフェース（或いは、本明細書において（ＣＡＮバス）と呼ばれる）を含んでもよい。少なくとも一実施例では、ＣＡＮは、ブレーキの作動、加速、ブレーキ制御、操縦、フロントガラス・ワイパなど、車両１１００の様々な特徴及び機能の制御を補助するために使用される車両１１００内部のネットワークであってもよい。少なくとも一実施例では、バス１１０２は、それぞれが独自の一意の識別子（たとえばＣＡＮＩＤ）をもつ数十又はさらには数百のノードを有するように構成されてもよい。少なくとも一実施例では、バス１１０２は、ハンドル角度、対地スピード、エンジンの毎分回転数（「ＲＰＭ」：revolutions per minute）、ボタン位置、及び／又は他の車両状態インジケータを見いだすように読み取られてもよい。少なくとも一実施例では、バス１１０２は、ＡＳＩＬのＢに準拠したＣＡＮバスであってもよい。

少なくとも一実施例では、ＣＡＮに加えて、又はその代わりに、ＦｌｅｘＲａｙ及び／又はＥｔｈｅｒｎｅｔ（登録商標）プロトコルが使用されてもよい。少なくとも一実施例では、バス１１０２を形成する任意の数のバスが存在してもよく、これには、限定することなく、ゼロ以上のＣＡＮバス、ゼロ以上のＦｌｅｘＲａｙバス、ゼロ以上のＥｔｈｅｒｎｅｔ（登録商標）バス、及び／又は他のプロトコルを使用するゼロ以上の他のタイプのバスが含まれてもよい。少なくとも一実施例では、２つ以上のバスを使用して異なる機能が実行されてもよく、且つ／又はそれらを使用して冗長性が与えられてもよい。たとえば、第１のバスが衝突回避機能のために使用され、第２のバスが作動制御のために使用されてもよい。少なくとも一実施例では、バス１１０２の各バスは、車両１１００の構成要素のいずれかと通信してもよく、バス１１０２のうちの２つ以上のバスが対応する構成要素と通信してもよい。少なくとも一実施例では、任意の数のシステム・オン・チップ（「ＳｏＣ」）１１０４（ＳｏＣ１１０４（Ａ）及びＳｏＣ１１０４（Ｂ）などのそれぞれ、コントローラ１１３６のそれぞれ、及び／又は車両内の各コンピュータは、同じ入力データ（たとえば、車両１１００のセンサからの入力）にアクセス可能であってもよく、ＣＡＮバスなどの共通のバスに接続されてもよい。

少なくとも一実施例では、車両１１００は、図１１Ａに関して本明細書に記載するものなど、１つ又は複数のコントローラ１１３６を含んでもよい。少なくとも一実施例では、コントローラ１１３６は、様々な機能に使用されてもよい。少なくとも一実施例では、コントローラ１１３６は、車両１１００の様々な他の構成要素及びシステムのうちの任意のものに結合されてもよく、車両１１００、車両１１００の人工知能、車両１１００のインフォテイメント及び／又は他の機能の制御に使用されてもよい。

少なくとも一実施例では、車両１１００は、任意の数のＳｏＣ１１０４を含んでもよい。少なくとも一実施例では、ＳｏＣ１１０４のそれぞれは、限定することなく、中央処理装置（「ＣＰＵ」）１１０６、グラフィックス・プロセッシング・ユニット（「ＧＰＵ」）１１０８、プロセッサ１１１０、キャッシュ１１１２、アクセラレータ１１１４、データ・ストア１１１６、及び／又は図示していない他の構成要素及び特徴を含んでもよい。少なくとも一実施例では、車両１１００を様々なプラットフォーム及びシステムにおいて制御するために、ＳｏＣ１１０４が使用されてもよい。たとえば、少なくとも一実施例では、ＳｏＣ１１０４は、１つ又は複数のサーバ（図１１Ｃには示さず）からネットワーク・インターフェース１１２４を介して地図のリフレッシュ及び／又は更新を得ることができるハイ・デフィニション（「ＨＤ」：High Definition）マップ１１２２を有するシステム（たとえば車両１１００のシステム）に組み込まれてもよい。

少なくとも一実施例では、ＣＰＵ１１０６は、ＣＰＵクラスタ、又はＣＰＵコンプレックス（或いは本明細書において「ＣＣＰＬＥＸ」と呼ばれる）を含んでもよい。少なくとも一実施例では、ＣＰＵ１１０６は、複数のコア及び／又はレベル２（「Ｌ２」）キャッシュを含んでもよい。たとえば、少なくとも一実施例では、ＣＰＵ１１０６は、コヒーレントなマルチプロセッサ構成において８つのコアを含んでもよい。少なくとも一実施例では、ＣＰＵ１１０６は、４つのデュアル・コア・クラスタを含んでもよく、ここで各クラスタは、専用のＬ２キャッシュ（たとえば、２メガバイト（ＭＢ）のＬ２キャッシュ）を有する。少なくとも一実施例では、ＣＰＵ１１０６（たとえば、ＣＣＰＬＥＸ）は、ＣＰＵ１１０６のクラスタの任意の組合せを、任意の所与の時間にアクティブ化できるようにする同時のクラスタ動作をサポートするように構成されてもよい。

少なくとも一実施例では、ＣＰＵ１１０６のうちの１つ又は複数は、電力管理機能を実装してもよく、この機能は限定することなく、以下の特徴のうちの１つ又は複数を含む：個々のハードウェア・ブロックが、アイドル時に自動的にクロック・ゲート制御されて動的電力を節約することができる；割込み待ち（「ＷＦＩ」：Wait for Interrupt）／イベント待ち（「ＷＦＥ」：Wait for Event）命令の実行に起因してコアが能動的に命令を実行していないとき、各コア・クロックをゲート制御することができる；各コアを独立して電力ゲート制御することができる；すべてのコアがクロック・ゲート制御又は電力ゲート制御されるとき、各コア・クラスタを独立してクロック・ゲート制御することができる；且つ／又はすべてのコアが電力ゲート制御されるとき、各コア・クラスタを独立して電力ゲート制御することができる。少なくとも一実施例では、ＣＰＵ１１０６はさらに、電力状態を管理するための拡張アルゴリズムを実装してもよく、ここで、許容された電力状態及び予想されるウェイクアップ時間が指定され、コア、クラスタ、及びＣＣＰＬＥＸが入るべき最良の電力状態はどれかを、ハードウェア／マイクロコードが判定する。少なくとも一実施例では、処理コアは、作業がマイクロコードにオフロードされた状態で、電力状態に入る簡単なシーケンスをソフトウェアにおいてサポートしてもよい。

少なくとも一実施例では、ＧＰＵ１１０８は、統合されたＧＰＵ（或いは、本明細書において「ｉＧＰＵ」と呼ばれる）を含んでもよい。少なくとも一実施例では、ＧＰＵ１１０８は、プログラム可能であってもよく、並列なワークロードに対して効率的であってもよい。少なくとも一実施例では、ＧＰＵ１１０８は、拡張テンソル命令セットを使用してもよい。一実施例では、ＧＰＵ１１０８は、１つ又は複数のストリーミング・マイクロプロセッサを含んでもよく、ここで各ストリーミング・マイクロプロセッサは、レベル１（「Ｌ１」）キャッシュ（たとえば少なくとも９６ＫＢのストレージ容量を有するＬ１キャッシュ）を含んでもよく、２つ以上のストリーミング・マイクロプロセッサは、Ｌ２キャッシュ（たとえば、５１２ＫＢのストレージ容量を有するＬ２キャッシュ）を共有してもよい。少なくとも一実施例では、ＧＰＵ１１０８は、少なくとも８つのストリーミング・マイクロプロセッサを含んでもよい。少なくとも一実施例では、ＧＰＵ１１０８は、コンピュート・アプリケーション・プログラミング・インターフェース（ＡＰＩ：application programming interface）を使用してもよい。少なくとも一実施例では、ＧＰＵ１１０８は、１つ又は複数の並列なコンピューティング・プラットフォーム、及び／又はプログラミング・モジュール（たとえば、ＮＶＩＤＩＡのＣＵＤＡモデル）を使用してもよい。

少なくとも一実施例では、ＧＰＵ１１０８のうちの１つ又は複数は、自動車用及び組み込まれたユース・ケースにおいて最良の性能になるように電力最適化されてもよい。たとえば、一実施例では、ＧＰＵ１１０８は、フィン電界効果トランジスタ（「ＦｉｎＦＥＴ」：Ｆｉｎｆｉｅｌｄ－ｅｆｆｅｃｔｔｒａｎｓｉｓｔｏｒ）回路上で作製することができる。少なくとも一実施例では、各ストリーミング・マイクロプロセッサは、複数のブロックに区分けされた多数の混合精度の処理コアを組み込んでもよい。たとえば、限定することなく６４個のＰＦ３２コアと、３２個のＰＦ６４コアを、４つの処理ブロックに区分けすることができる。少なくとも一実施例では、各処理ブロックに、１６個のＦＰ３２コア、８個のＦＰ６４コア、１６個のＩＮＴ３２コア、深層学習の行列演算用の２つの混合精度のＮＶＩＤＩＡＴｅｎｓｏｒコア、レベルゼロ（「Ｌ０」）命令キャッシュ、ワープ・スケジューラ、ディスパッチ・ユニット、及び／又は６４ＫＢのレジスタ・ファイルを配分することができる。少なくとも一実施例では、ストリーミング・マイクロプロセッサは、整数と浮動小数点の独立した並列のデータ経路を含み、コンピュータ処理とアドレッシング計算を混用することによってワークロードの効率的な実行を実現してもよい。少なくとも一実施例では、ストリーミング・マイクロプロセッサは、独立したスレッド・スケジューリング機能を含み、並列スレッド間でよりきめ細かい同期及び連携を可能にしてもよい。少なくとも一実施例では、ストリーミング・マイクロプロセッサは、性能を向上させると同時にプログラミングを簡単にするために、Ｌ１データ・キャッシュと共有メモリ・ユニットの組合せを含んでもよい。

少なくとも一実施例では、ＧＰＵ１１０８のうちの１つ又は複数は、高帯域幅メモリ（「ＨＢＭ」：high bandwidth memory）及び／又は１６ＧＢのＨＢＭ２メモリ・サブシステムを含み、いくつかの実例では、約９００ＧＢ／秒のピーク・メモリ帯域幅を提供してもよい。少なくとも一実施例では、ＨＢＭメモリに加えて、又はその代わりに、グラフィックス・ダブル・データ・レート・タイプの５つの同期ランダム・アクセス・メモリ（「ＧＤＤＲ５」：graphics double data rate type five）などの同期グラフィックス・ランダム・アクセス・メモリ（「ＳＧＲＡＭ」：ｓｙｎｃｈｒｏｎｏｕｓｇｒａｐｈｉｃｓｒａｎｄｏｍ－ａｃｃｅｓｓｍｅｍｏｒｙ）が使用されてもよい。

少なくとも一実施例では、ＧＰＵ１１０８は、統合メモリ技術を含んでもよい。少なくとも一実施例では、アドレス・トランスレーション・サービス（「ＡＴＳ」：address translation services）サポートを使用して、ＧＰＵ１１０８が、ＣＰＵ１１０６のページ・テーブルに直接アクセスできるようにしてもよい。少なくとも一実施例では、ＧＰＵ１１０８メモリ管理ユニット（「ＭＭＵ」：memory management unit）のＧＰＵがミスに遭遇したときには、アドレス・トランスレーション要求が、ＣＰＵ１１０６に送信されてもよい。少なくとも一実施例では、それに応答して、ＣＰＵ１１０６のうちの２つのＣＰＵは、自らのページ・テーブルで、仮想から物理へのアドレスのマッピングを探し、トランスレーションをＧＰＵ１１０８に送り返してもよい。少なくとも一実施例では、統合メモリ技術は、ＣＰＵ１１０６とＧＰＵ１１０８の両方のメモリに対して単一の統合された仮想アドレス空間を与えることを可能にし得、それにより、ＧＰＵ１１０８のプログラミング、及びＧＰＵ１１０８へのアプリケーションの移植を簡単にする。

少なくとも一実施例では、ＧＰＵ１１０８は、他のプロセッサのメモリへのＧＰＵ１１０８のアクセス頻度を記録することができる任意の数のアクセス・カウンタを含んでもよい。少なくとも一実施例では、アクセス・カウンタは、最も頻繁にページにアクセスしているプロセッサの物理メモリに、メモリ・ページが確実に移動されるのを補助し、それにより、プロセッサ間で共有されるメモリ範囲の効率を向上させてもよい。

少なくとも一実施例では、ＳｏＣ１１０４のうちの１つ又は複数は、本明細書に記載のものを含む任意の数のキャッシュ１１１２を含んでもよい。たとえば、少なくとも一実施例では、キャッシュ１１１２は、ＣＰＵ１１０６もＧＰＵ１１０８も利用可能な（たとえば、ＣＰＵ１１０６とＧＰＵ１１０８の両方に接続された）レベル３（「Ｌ３」）キャッシュを含むことができる。少なくとも一実施例では、キャッシュ１１１２は、キャッシュ・コヒーレンス・プロトコルなど（たとえば、ＭＥＩ、ＭＥＳＩ、ＭＳＩなど）を使用することにより、線の状態を記録することができるライト・バック・キャッシュを含んでもよい。少なくとも一実施例では、Ｌ３キャッシュは、実施例に応じて４ＭＢのメモリ以上を含んでもよいが、より小さいキャッシュ・サイズが使用されてもよい。

少なくとも一実施例では、ＳｏＣ１１０４のうちの１つ又は複数は、１つ又は複数のアクセラレータ１１１４（たとえば、ハードウェア・アクセラレータ、ソフトウェアアクセラレータ、又はこれらの組合せ）を含んでもよい。少なくとも一実施例では、ＳｏＣ１１０４は、最適化されたハードウェア・アクセラレータ及び／又は大型のオン・チップ・メモリを含むことができるハードウェア加速クラスタを含んでもよい。少なくとも一実施例では、大型のオン・チップ・メモリ（たとえば、４ＭＢのＳＲＡＭ）は、ハードウェア加速クラスタが、ニューラル・ネットワーク及び他の計算を加速できるようにしてもよい。少なくとも一実施例では、ハードウェア加速クラスタを使用して、ＧＰＵ１１０８を補完し、ＧＰＵ１１０８のタスクのうちのいくつかをオフロードしてもよい（たとえば、他のタスクを実行できるようにＧＰＵ１１０８のサイクルをより多く解放してもよい）。少なくとも一実施例では、加速を受け入れるのに十分なほど安定している目的とするワークロード（たとえば、知覚、畳み込みニューラル・ネットワーク（「ＣＮＮ」：convolutional neural network）、再帰ニューラル・ネットワーク（「ＲＮＮ」：recurrent neural network）など）のために、アクセラレータ１１１４を使用することができる。少なくとも一実施例では、ＣＮＮは、領域ベースの、すなわち領域畳み込みニューラル・ネットワーク（「ＲＣＮＮ」：regional convolutional neural network）、及び（たとえば、物体検出に使用される）高速ＲＣＮＮ、又は他のタイプのＣＮＮを含んでもよい。

少なくとも一実施例では、アクセラレータ１１１４（たとえば、ハードウェア加速クラスタ）は、１つ又は複数の深層学習アクセラレータ（「ＤＬＡ」：deep learning accelerator）を含んでもよい。少なくとも一実施例では、ＤＬＡは、限定することなく、１つ又は複数のＴｅｎｓｏｒ処理ユニット（「ＴＰＵ」：Tensor processing units）を含んでもよく、このユニットは、深層学習アプリケーション及び推論のために、さらに毎秒１０兆の演算を提供するように構成されてもよい。少なくとも一実施例では、ＴＰＵは、画像処理機能（たとえば、ＣＮＮ、ＲＣＮＮなど）を実行するように構成され、そのために最適化されたアクセラレータであってもよい。少なくとも一実施例では、ＤＬＡはさらに、ニューラル・ネットワーク・タイプと浮動小数点演算の特定のセット、並びに推論のために最適化されてもよい。少なくとも一実施例では、ＤＬＡの設計により、典型的な汎用ＧＰＵよりもミリメートル当たりの性能を向上させることができ、典型的には、ＣＰＵの性能を大いに上回る。少なくとも一実施例では、ＴＰＵは、たとえば特徴と重みの両方のためのＩＮＴ８、ＩＮＴ１６、及びＦＰ１６のデータ型をサポートする単一インスタンスの畳み込み関数、並びに後処理関数を含む、いくつか関数を実行してもよい。少なくとも一実施例では、ＤＬＡは、たとえば、限定することなく、カメラ・センサからのデータを使用した物体識別及び検出のためのＣＮＮ、カメラ・センサからのデータを使用した距離推定のためのＣＮＮ、マイクロフォンからのデータを使用した緊急車両検出、及び識別、及び検出のためのＣＮＮ、カメラ・センサからのデータを使用した顔認識及び車両所有者識別ためのＣＮＮ、並びに／又はセキュリティ及び／若しくは安全に関するイベントのためのＣＮＮを含め、様々な機能のうちのいずれかのための処理済み若しくは未処理のデータに対して、迅速且つ効率的にニューラル・ネットワーク、特にＣＮＮを実行してもよい。

少なくとも一実施例では、ＤＬＡは、ＧＰＵ１１０８の任意の機能を実行してもよく、たとえば推論アクセラレータを使用することにより、設計者は、任意の機能のためにＤＬＡ又はＧＰＵ１１０８のいずれかをターゲットにしてもよい。たとえば、少なくとも一実施例では、設計者は、ＣＮＮ及び浮動小数点演算の処理をＤＬＡに集中させ、他の機能をＧＰＵ１１０８及び／又は他のアクセラレータ１１１４に任せてもよい。

少なくとも一実施例では、アクセラレータ１１１４は、プログラマブル・ビジョン・アクセラレータ（「ＰＶＡ」：programmable vision accelerator）を含んでもよく、このプログラマブル・ビジョン・アクセラレータは、本明細書において代替的にコンピュータ・ビジョン・アクセラレータと呼ばれてもよい。少なくとも一実施例では、ＰＶＡは、先進ドライバ支援システム（「ＡＤＡＳ」）１１３８、自律運転、拡張現実（「ＡＲ」：augmented reality）アプリケーション、及び／又は仮想現実（「ＶＲ」：virtual reality）アプリケーションのために、コンピュータ・ビジョン・アルゴリズムを加速するように設計及び構成されてもよい。少なくとも一実施例では、ＰＶＡにより、性能と融通性との均衡が保たれてもよい。たとえば、少なくとも一実施例では、各ＰＶＡは、たとえば限定することなく、任意の数の縮小命令セット・コンピュータ（「ＲＩＳＣ」：reduced instruction set computer）コア、ダイレクト・メモリ・アクセス（「ＤＭＡ」：direct memory access）、及び／又は任意の数のベクトル・プロセッサを含んでもよい。

少なくとも一実施例では、ＲＩＳＣコアは、画像センサ（たとえば、本明細書に記載の任意のカメラの画像センサ）、画像信号プロセッサなどと相互作用してもよい。少なくとも一実施例では、各ＲＩＳＣコアは、任意の量のメモリを含んでもよい。少なくとも一実施例では、ＲＩＳＣコアは、実施例に応じて複数のプロトコルのうちの任意のものを使用してもよい。少なくとも一実施例では、ＲＩＳＣコアは、リアル・タイム・オペレーティング・システム（「ＲＴＯＳ」：ｒｅａｌ－ｔｉｍｅｏｐｅｒａｔｉｎｇｓｙｓｔｅｍ）を実行してもよい。少なくとも一実施例では、ＲＩＳＣコアは、１つ又は複数の集積回路デバイス、特定用途向け集積回路（「ＡＳＩＣ」）、及び／又はメモリ・デバイスを使用して実装されてもよい。たとえば、少なくとも一実施例では、ＲＩＳＣコアは、命令キャッシュ及び／又は密結合ＲＡＭを含むことができる。

少なくとも一実施例では、ＤＭＡは、ＰＶＡの構成要素がＣＰＵ１１０６とは無関係にシステム・メモリにアクセスできるようにしてもよい。少なくとも一実施例では、ＤＭＡは、多次元アドレッシング、及び／又はサーキュラ・アドレッシングを含むがこれらに限定されない、ＰＶＡに最適化を提供するために使用される任意の数の特徴をサポートしてもよい。少なくとも一実施例では、ＤＭＡは、６つ以上のアドレッシング次元までをサポートしてもよく、これには、限定することなく、ブロック幅、ブロック高さ、ブロック深度、水平ブロック・ステッピング、垂直ブロック・ステッピング、及び／又は深度ステッピングが含まれてもよい。

少なくとも一実施例では、ベクトル・プロセッサは、コンピュータ・ビジョン・アルゴリズムのためのプログラミングを効率的でフレキシブルに実行するように設計されてもよいプログラム可能なプロセッサとすることができ、信号処理機能を提供する。少なくとも一実施例では、ＰＶＡは、ＰＶＡコアと、２つのベクトル処理サブシステム・パーティションを含んでもよい。少なくとも一実施例では、ＰＶＡコアは、プロセッサ・サブシステム、ＤＭＡエンジン（たとえば２つのＤＭＡエンジン）、及び／又は他の周辺装置を含んでもよい。少なくとも一実施例では、ベクトル処理サブシステムは、ＰＶＡの一次処理エンジンとして動作してもよく、ベクトル処理ユニット（「ＶＰＵ」：vector processing unit）、命令キャッシュ、及び／又はベクトル・メモリ（たとえば、「ＶＭＥＭ」）を含んでもよい。少なくとも一実施例では、ＶＰＵは、たとえば単一命令複数データ（「ＳＩＭＤ」：ｓｉｎｇｌｅｉｎｓｔｒｕｃｔｉｏｎ，ｍｕｌｔｉｐｌｅｄａｔａ）、超長命令語（「ＶＬＩＷ」：very long instruction word）のデジタル信号プロセッサなどのデジタル信号プロセッサを含んでもよい。少なくとも一実施例では、ＳＩＭＤとＶＬＩＷの組合せによって、スループット及びスピードが改善されてもよい。

少なくとも一実施例では、ベクトル・プロセッサのそれぞれは、命令キャッシュを含んでもよく、専用のメモリに結合されてもよい。その結果、少なくとも一実施例では、ベクトル・プロセッサのそれぞれは、他のベクトル・プロセッサとは無関係に実行されるように構成されてもよい。少なくとも一実施例では、特定のＰＶＡに含まれるベクトル・プロセッサは、データ並列処理を用いるように構成されてもよい。たとえば、少なくとも一実施例では、単一のＰＶＡに含まれる複数のベクトル・プロセッサは、共通のコンピュータ・ビジョン・アルゴリズムを画像の異なる領域上で実行してもよい。少なくとも一実施例では、特定のＰＶＡに含まれるベクトル・プロセッサは、異なるコンピュータ・ビジョン・アルゴリズムを１つの画像上で同時に実行してもよく、又はさらには、異なるアルゴリズムを連続した画像上で、若しくは画像の部分上で実行してもよい。少なくとも一実施例では、とりわけ、任意の数のＰＶＡがハードウェア加速クラスタに含まれてもよく、任意の数のベクトル・プロセッサが各ＰＶＡに含まれてもよい。少なくとも一実施例では、ＰＶＡは、システムの全体的な安全性を強化するために、追加のエラー訂正コード（「ＥＣＣ」：Error Correction Code）メモリを含んでもよい。

少なくとも一実施例では、アクセラレータ１１１４は、オン・チップのコンピュータ・ビジョン・ネットワーク、及びスタティック・ランダム・アクセス・メモリ（「ＳＲＡＭ」）を含み、アクセラレータ１１１４のための高帯域幅、低レイテンシのＳＲＡＭを提供してもよい。少なくとも一実施例では、オン・チップ・メモリは、たとえば限定することなく、８つのフィールド設定可能なメモリ・ブロックを含む少なくとも４ＭＢのＳＲＡＭを含んでもよく、これは、ＰＶＡからもＤＬＡからもアクセス可能であってもよい。少なくとも一実施例では、メモリ・ブロックの各対は、アドバンスト・ペリフェラル・バス（「ＡＰＢ」：advanced peripheral bus）インターフェース、構成回路、コントローラ、及びマルチプレクサを含んでもよい。少なくとも一実施例では、任意のタイプのメモリが使用されてもよい。少なくとも一実施例では、ＰＶＡ及びＤＬＡは、メモリへの高速アクセスをＰＶＡ及びＤＬＡに提供するバックボーンを介して、メモリにアクセスしてもよい。少なくとも一実施例では、バックボーンは、ＰＶＡ及びＤＬＡを（たとえばＡＰＢを使用して）メモリに相互接続するオン・チップのコンピュータ・ビジョン・ネットワークを含んでもよい。

少なくとも一実施例では、オン・チップのコンピュータ・ビジョン・ネットワークは、何らかの制御信号／アドレス／データを送信する前に、ＰＶＡとＤＬＡの両方が準備信号及び有効信号を提供することを判定するインターフェースを含んでもよい。少なくとも一実施例では、インターフェースは、制御信号／アドレス／データを送信するための別々の位相及び別々のチャネル、並びに継続的なデータ転送のためのバースト型通信を提供してもよい。少なくとも一実施例では、インターフェースは、国際標準化機構（「ＩＳＯ」：Organization for Standardization）２６２６２又は国際電気標準会議（「ＩＥＣ」：International Electrotechnical Commission）６１５０８の規格に準拠してもよいが、他の規格及びプロトコルが使用されてもよい。

少なくとも一実施例では、ＳｏＣ１１０４のうちの１つ又は複数は、リアル・タイム・レイ・トレーシングのハードウェア・アクセラレータを含んでもよい。少なくとも一実施例では、リアル・タイム・レイ・トレーシングのハードウェア・アクセラレータを使用して、物体の（たとえば世界モデル内での）位置及び範囲が迅速且つ効率的に判定されて、ＲＡＤＡＲ信号解釈のため、音伝播合成及び／若しくは分析のため、ＳＯＮＡＲシステムのシミュレーションのため、一般波形の伝播シミュレーションのため、ローカリゼーション及び／若しくは他の機能を目的としたＬＩＤＡＲデータとの比較のため、並びに／又は他の使用法のためのリアル・タイムの可視化シミュレーションが生成されてもよい。

少なくとも一実施例では、アクセラレータ１１１４は、自律運転のための多様な使用法を有することができる。少なくとも一実施例では、ＰＶＡは、ＡＤＡＳ及び自律車両の主要な処理ステージに使用することができる。少なくとも一実施例では、ＰＶＡの性能は、低電力及び低レイテンシの予測可能な処理を必要とするアルゴリズム・ドメインに良好に適合する。言い換えれば、ＰＶＡは、低レイテンシ及び低電力の予測可能なラン・タイムを必要とするかもしれない半稠密（ｓｅｍｉ－ｄｅｎｓｅ）又は稠密な規則的計算に対して、データ・セットが小さくても良好に機能する。少なくとも一実施例では、車両１１００内など、従来のコンピュータ・ビジョン・アルゴリズムを実行するようにＰＶＡが設計され得るが、これは、それらが、物体検出及び整数数値の演算に有効となり得るからである。

たとえば、技術の少なくとも一実施例によれば、ＰＶＡを使用して、コンピュータ・ステレオ・ビジョンが実行されてもよい。少なくとも一実施例では、いくつかの例においてセミ・グローバル・マッチングに基づくアルゴリズムが使用されてもよいが、これは限定するものではない。少なくとも一実施例では、レベル３～５の自律運転のためのアプリケーションは、動き推定／ステレオ・マッチング（たとえば、動きからの構造化、歩行者認識、車線検出など）をオン・ザ・フライで使用する。少なくとも一実施例では、ＰＶＡは、２つの単眼カメラからの入力に対して、コンピュータ・ステレオ・ビジョン機能を実行してもよい。

少なくとも一実施例では、ＰＶＡを使用して、高密度オプティカル・フローが実行されてもよい。たとえば、少なくとも一実施例では、ＰＶＡは、未加工のＲＡＤＡＲデータを（たとえば４Ｄの高速フーリエ変換を使用して）処理して、処理済みＲＡＤＡＲデータを提供することができる。少なくとも一実施例では、ＰＶＡは、飛行時間の深度処理に使用され、たとえば未加工の飛行時間データを処理することにより、処理済みの飛行時間データが提供される。

少なくとも一実施例では、たとえば限定することなく、物体検出ごとに信頼性の尺度を出力するニューラル・ネットワークを含む、制御及び運転の安全性を強化するための任意のタイプのネットワークを実行するために、ＤＬＡが使用されてもよい。少なくとも一実施例では、信頼性は、他の検出と比較した各検出の確率として、若しくはその相対的な「重み」を提供するものとして表されても、又は解釈されてもよい。少なくとも一実施例では、信頼性尺度によって、どの検出を誤検出ではなく正検出とみなすべきかに関して、システムがさらなる判定を下せるようになる。少なくとも一実施例では、システムは、信頼性に対して閾値を設定し、閾値を超える検出だけを正検出とみなしてもよい。自動緊急ブレーキ（「ＡＥＢ」：automatic emergency braking）が使用される実施例では、誤検出によって車両は自動的に緊急ブレーキをかけることになり、これは明らかに望ましくない。少なくとも一実施例では、非常に信頼性の高い検出が、ＡＥＢのトリガとみなされてもよい。少なくとも一実施例では、ＤＬＡは、信頼値を回帰するようにニューラル・ネットワークを実行してもよい。少なくとも一実施例では、ニューラル・ネットワークは、とりわけ境界ボックスの次元、（たとえば別のサブシステムから）取得した地面推定、車両１１００の配向と相関しているＩＭＵセンサ１１６６からの出力、距離、ニューラル・ネットワーク及び／又は他のセンサ（たとえば、ＬＩＤＡＲセンサ１１６４若しくはＲＡＤＡＲセンサ１１６０）から取得した物体の３Ｄロケーション推定などのパラメータの少なくともいくつかのサブセットを、その入力として取ってもよい。

少なくとも一実施例では、ＳｏＣ１１０４のうちの１つ又は複数は、データ・ストア１１１６（たとえばメモリ）を含んでもよい。少なくとも一実施例では、データ・ストア１１１６は、ＳｏＣ１１０４のオン・チップ・メモリであってもよく、このメモリは、ＧＰＵ１１０８及び／又はＤＬＡ上で実行されるニューラル・ネットワークを記憶してもよい。少なくとも一実施例では、データ・ストア１１１６の容量は、冗長性及び安全性のためにニューラル・ネットワークの複数のインスタンスを記憶するのに十分なほど大きくてもよい。少なくとも一実施例では、データ・ストア１１１６は、Ｌ２又はＬ３のキャッシュを備えてもよい。

少なくとも一実施例では、ＳｏＣ１１０４のうちの１つ又は複数は、任意の数のプロセッサ１１１０（たとえば、組み込みプロセッサ）を含んでもよい。少なくとも一実施例では、プロセッサ１１１０は、ブート電力並びに管理機能及び関連するセキュリティ執行に対処するための専用プロセッサ及びサブシステムであってもよいブート及び電力管理プロセッサを含んでもよい。少なくとも一実施例では、ブート及び電力管理プロセッサは、ＳｏＣ１１０４のブート・シーケンスの一部であってもよく、ラン・タイム電力管理サービスを提供してもよい。少なくとも一実施例では、ブート電力及び管理プロセッサは、クロックと電圧のプログラミング、システムの低電力状態への移行の支援、ＳｏＣ１１０４の熱及び温度センサの管理、並びに／又はＳｏＣ１１０４の電力状態の管理を提供してもよい。少なくとも一実施例では、各温度センサは、その出力周波数が温度に比例するリング発振器として実装されてもよく、ＳｏＣ１１０４は、リング発振器を使用して、ＣＰＵ１１０６、ＧＰＵ１１０８、及び／又はアクセラレータ１１１４の温度を検出してもよい。少なくとも一実施例では、温度が閾値を超えると判定された場合には、ブート及び電力管理プロセッサは、温度不良ルーチンに入り、ＳｏＣ１１０４を低電力状態にし、且つ／又は車両１１００を運転手－安全停止モードにしても（たとえば、車両１１００を安全停止させる）よい。

少なくとも一実施例では、プロセッサ１１１０はさらに、オーディオ処理エンジンとしての役割を果たすことができる組み込みプロセッサのセットを含んでもよく、これは、多重インターフェースを介した多チャネルのオーディオ、及び幅広くフレキシブルな様々なオーディオＩ／Ｏインターフェースのための、完全なハードウェア・サポートを可能にするオーディオ・サブシステムであってもよい。少なくとも一実施例では、オーディオ処理エンジンは、専用ＲＡＭのあるデジタル信号プロセッサを有する専用プロセッサ・コアである。

少なくとも一実施例では、プロセッサ１１１０はさらに、低電力センサ管理及び立ち上げのユース・ケースをサポートするのに必要なハードウェア特徴を提供することができる常時オン・プロセッサ・エンジンを含んでもよい。少なくとも一実施例では、常時オン・プロセッサ・エンジンは、限定することなく、プロセッサ・コア、密結合ＲＡＭ、サポート周辺装置（たとえば、タイマ、及び割込みコントローラ）、様々なＩ／Ｏコントローラ周辺装置、及びルーティング論理を含んでもよい。

少なくとも一実施例では、プロセッサ１１１０はさらに安全クラスタ・エンジンを含んでもよく、このエンジンは限定することなく、自動車用途の安全管理に対処するための専用のプロセッサ・サブシステムを含む。少なくとも一実施例では、安全クラスタ・エンジンは、限定することなく、２つ以上のプロセッサ・コア、密結合ＲＡＭ、サポート周辺装置（たとえば、タイマ、及び割込みコントローラなど）、及び／又はルーティング論理を含んでもよい。安全モードでは、少なくとも一実施例においてロックステップ・モードで２つ以上のコアが動作し、これらの動作間で何らかの差を検出するための比較論理を有する単一コアとして機能してもよい。少なくとも一実施例では、プロセッサ１１１０はさらにリアル・タイム・カメラ・エンジンを含んでもよく、このエンジンは限定することなく、リアル・タイムのカメラ管理に対処するための専用のプロセッサ・サブシステムを含んでもよい。少なくとも一実施例では、プロセッサ１１１０はさらに、高ダイナミック・レンジの信号プロセッサを含んでもよく、この信号プロセッサは、カメラ処理パイプラインの一部であるハードウェア・エンジンである画像信号プロセッサを限定することなく含んでもよい。

少なくとも一実施例では、プロセッサ１１１０は、ビデオ画像合成器を含んでもよく、この合成器は、再生装置のウインドウに最終画像を生成するのにビデオ再生アプリケーションが必要とするビデオ後処理機能を実装する（たとえばマイクロプロセッサに実装された）処理ブロックであってもよい。少なくとも一実施例では、ビデオ画像合成器は、広角カメラ１１７０、周囲カメラ１１７４、及び／又はキャビン内監視カメラ・センサに対して、レンズゆがみ補正を実行してもよい。少なくとも一実施例では、キャビン内監視カメラ・センサは、好ましくは、キャビン内のイベントを識別し、それに適宜応答するように構成された、ＳｏＣ１１０４の別のインスタンスで実行されているニューラル・ネットワークによって監視される。少なくとも一実施例では、キャビン内システムは、セルラー・サービスをアクティブ化し、電話をかけたり、電子メールを書いたり、車両の行き先を変更したり、車両のインフォテイメント・システム及び設定をアクティブ化又は変更したり、音声作動式のウェブ・サーフィンを提供したりするために、限定することなく読唇を実行してもよい。少なくとも一実施例では、ある一定の機能は、車両が自律モードで動作しているときにドライバにとって利用可能になり、それ以外のときには使用不可になる。

少なくとも一実施例では、ビデオ画像合成器は、空間と時間の両方のノイズ低減のための拡張された時間的ノイズ低減を含んでもよい。たとえば、少なくとも一実施例では、ビデオで動きが生じる場合には、ノイズ低減が空間情報に適切に重み付けして、隣接するフレームによって提供される情報の重みを軽くする。少なくとも一実施例では、画像又は画像の一部分が動きを含まない場合には、ビデオ画像合成器により実行される時間的ノイズ低減は、前の画像からの情報を使用して、現在の画像のノイズを低減してもよい。

少なくとも一実施例では、ビデオ画像合成器はまた、入力されたステレオ・レンズ・フレームに対してステレオ平行化を実行するように構成されてもよい。少なくとも一実施例では、ビデオ画像合成器はさらに、オペレーティング・システムのデスクトップが使用中のときに、ユーザ・インターフェースを合成するために使用されてもよく、ＧＰＵ１１０８は、新規の表面を継続的にレンダリングする必要がなくなる。少なくとも一実施例では、ＧＰＵ１１０８の電源が入れられ、アクティブで３Ｄレンダリングを行っているとき、性能及び応答性を向上させるために、ビデオ画像合成器を使用してＧＰＵ１１０８をオフロードしてもよい。

少なくとも一実施例では、ＳｏＣ１１０４のうちの１つ又は複数のＳｏＣはさらに、ビデオ及びカメラからの入力を受信するためのモバイル・インダストリ・プロセッサ・インターフェース（「ＭＩＰＩ」：mobile industry processor interface）のカメラ直列インターフェース、高速インターフェース、並びに／又はカメラ及び関連ピクセルの入力機能に使用されてもよいビデオ入力ブロックを含んでもよい。少なくとも一実施例では、ＳｏＣ１１０４のうちの１つ又は複数はさらに、入力／出力コントローラを含んでもよく、このコントローラはソフトウェアによって制御されてもよく、特定の役割に縛られていないＩ／Ｏ信号を受信するために使用されてもよい。

少なくとも一実施例では、ＳｏＣ１１０４のうちの１つ又は複数のＳｏＣはさらに、周辺装置、オーディオ・エンコーダ／デコーダ（「コーデック」）、電力管理、及び／又は他の装置との通信を可能にするための幅広い周辺装置インターフェースを含んでもよい。少なくとも一実施例では、ＳｏＣ１１０４は、（たとえば、ギガビット・マルチメディア・シリアル・リンク及びイーサネット（登録商標）チャネルを介して接続された）カメラからのデータ、センサ（たとえば、イーサネット（登録商標）チャネルを介して接続されてもよいＬＩＤＡＲセンサ１１６４、ＲＡＤＡＲセンサ１１６０など）からのデータ、バス１１０２からのデータ（たとえば、車両１１００のスピード、ハンドル位置など）、（たとえば、イーサネット（登録商標）バス又はＣＡＮバスを介して接続された）ＧＮＳＳセンサ１１５８からのデータなどを処理するために使用されてもよい。少なくとも一実施例では、ＳｏＣ１１０４のうちの１つ又は複数のＳｏＣはさらに、専用の高性能大容量ストレージ・コントローラを含んでもよく、このコントローラは独自のＤＭＡエンジンを含んでもよく、ルーチンのデータ管理タスクからＣＰＵ１１０６を解放するために使用されてもよい。

少なくとも一実施例では、ＳｏＣ１１０４は、自動化レベル３～５に及ぶフレキシブルなアーキテクチャを有するエンドツーエンドのプラットフォームであってもよく、それにより、多様性及び冗長性を得るためにコンピュータ・ビジョン及びＡＤＡＳ技法を活用し効率的に利用する包括的な機能的安全性アーキテクチャが提供され、フレキシブルで、信頼性の高い運転ソフトウェア・スタックが、深層学習ツールとともに提供される。少なくとも一実施例では、ＳｏＣ１１０４は、従来のシステムより高速で、信頼性が高く、さらにはエネルギー効率及び空間効率が高い。たとえば、少なくとも一実施例では、アクセラレータ１１１４は、ＣＰＵ１１０６、ＧＰＵ１１０８、及びデータ・ストア１１１６と組み合わされると、レベル３～５の自律車両のための高速で効率的なプラットフォームを実現することができる。

少なくとも一実施例では、コンピュータ・ビジョン・アルゴリズムはＣＰＵ上で実行されてもよく、このアルゴリズムは、Ｃなどの高レベル・プログラミング言語を使用して構成されて、多様な視覚データにわたって多様な処理アルゴリズムを実行してもよい。しかし、少なくとも一実施例では、ＣＰＵは、多くのコンピュータ・ビジョン・アプリケーションの性能要件、たとえば実行時間及び電力消費に関する要件などを満足できないことが多い。少なくとも一実施例では、多くのＣＰＵは、車両内のＡＤＡＳアプリケーション及び現実的なレベル３～５の自律車両において使用される複雑な物体検出アルゴリズムを、リアル・タイムで実行することができない。

本明細書に記載の実施例は、複数のニューラル・ネットワークを同時に且つ／又は順番に実行できるようにし、結果を組み合わせて、レベル３～５の自律運転機能を可能にすることができる。たとえば、少なくとも一実施例では、ＤＬＡ又は個別ＧＰＵ（たとえば、ＧＰＵ１１２０）上で実行しているＣＮＮは、テキスト及び単語認識を含んでもよく、ニューラル・ネットワークがそれについて特に訓練されてこなかった標識を含む交通標識を読み、理解できるようにする。少なくとも一実施例では、ＤＬＡはさらに、標識を識別し、解釈し、標識の意味的理解を提供することができ、その意味的理解を、ＣＰＵコンプレックス上で実行されている経路計画モジュールに渡すことができるニューラル・ネットワークを含んでもよい。

少なくとも一実施例では、レベル３、４、又は５の運転に関して、複数のニューラル・ネットワークが同時に実行されてもよい。たとえば、少なくとも一実施例では、電光と併せて「注意：点滅時は凍結状態」と示される警告標識は、いくつかのニューラル・ネットワークによって別々に解釈されても、集合的に解釈されてもよい。少なくとも一実施例では、こうした警告標識自体は、第１の導入済みニューラル・ネットワーク（たとえば、訓練されてきたニューラル・ネットワーク）によって交通標識として識別されてもよく、「点滅時は凍結状態」という文字は、第２の導入済みニューラル・ネットワークによって解釈されてもよく、点滅光が検出された場合には、このニューラル・ネットワークが、凍結状態が存在することを車両の（好ましくはＣＰＵコンプレックス上で実行している）経路計画ソフトウェアに通知する。少なくとも一実施例では、点滅光は、第３の導入済みニューラル・ネットワークを複数のフレームにわたって動作させることによって識別されてもよく、点滅光の存在（又は存在しないこと）が、車両の経路計画ソフトウェアに通知される。少なくとも一実施例では、３つすべてのニューラル・ネットワークが、ＤＬＡ内及び／又はＧＰＵ１１０８上などで同時に実行されてもよい。

少なくとも一実施例では、顔認識及び車両所有者識別のためのＣＮＮは、カメラ・センサからのデータを使用して、車両１１００の承認済みのドライバ及び／又は所有者の存在を識別してもよい。少なくとも一実施例では、常時オンのセンサ処理エンジンを使用して、所有者がドライバ用ドアに近づいてきたときに車両を解錠し、ライトを点灯させ、所有者がこうした車両から離れるときには、セキュリティ・モードでこうした車両を使用不可にしてもよい。こうして、ＳｏＣ１１０４は、窃盗及び／又は自動車乗っ取りに対するセキュリティを実現する。

少なくとも一実施例では、緊急車両の検出及び識別のためのＣＮＮは、マイクロフォン１１９６からのデータを使用して、緊急車両のサイレンを検出及び識別してもよい。少なくとも一実施例では、ＳｏＣ１１０４は、環境及び市街地の音を分類するとともに、視覚データを分類するためにＣＮＮを使用する。少なくとも一実施例では、ＤＬＡ上で実行されるＣＮＮは、緊急車両が近づいてくる相対的なスピードを（たとえばドップラ効果を使用することによって）識別するように訓練される。少なくとも一実施例では、ＣＮＮはまた、ＧＮＳＳセンサ１１５８によって識別される、車両が稼働している地域に特有の緊急車両を識別するように訓練されてもよい。少なくとも一実施例では、欧州で稼働している場合には、ＣＮＮは欧州のサイレンを検出しようとし、北米の場合には、北米のサイレンだけを識別しようとする。少なくとも一実施例では、緊急車両が検出されると、緊急車両安全ルーチンを実行するための制御プログラムを使用して、車両の速度を落とし、道路脇に寄せ、車両を停止させ、且つ／又は緊急車両が通過するまで、超音波センサ１１６２を併用して車両をアイドリングにしてもよい。

少なくとも一実施例では、車両１１００はＣＰＵ１１１８（たとえば、個別ＣＰＵ又はｄＣＰＵ）を含んでもよく、このＣＰＵは高速相互接続（たとえば、ＰＣＩｅ）を介してＳｏＣ１１０４に結合されてもよい。少なくとも一実施例では、ＣＰＵ１１１８は、たとえばＸ８６プロセッサを含んでもよい。ＣＰＵ１１１８は、たとえば、ＡＤＡＳセンサとＳｏＣ１１０４の間で潜在的に不整合な結果を調停すること、並びに／又はコントローラ１１３６及び／若しくはチップ上のインフォテイメント・システム（「インフォテイメントＳｏＣ」）１１３０の状態及び健全性を監視することを含め、様々な機能のうちの任意の機能を実行するために使用されてもよい。

少なくとも一実施例では、車両１１００はＧＰＵ１１２０（たとえば、個別ＧＰＵ又はｄＧＰＵ）を含んでもよく、このＧＰＵは高速相互接続（たとえば、ＮＶＩＤＩＡのＮＶＬＩＮＫチャネル）を介してＳｏＣ１１０４に結合されてもよい。少なくとも一実施例では、ＧＰＵ１１２０は、冗長な及び／又は異なるニューラル・ネットワークを実行することなどによって、追加の人工知能機能を提供してもよく、車両１１００のセンサからの入力（たとえば、センサ・データ）に少なくとも部分的に基づき、ニューラル・ネットワークを訓練及び／又は更新するために使用されてもよい。

少なくとも一実施例では、車両１１００はさらに、ネットワーク・インターフェース１１２４を含んでもよく、このインターフェースは限定することなく、ワイヤレス・アンテナ１１２６（たとえば、セルラー・アンテナ、Ｂｌｕｅｔｏｏｔｈアンテナなど、異なる通信プロトコル向けの１つ又は複数のワイヤレス・アンテナ）を含んでもよい。少なくとも一実施例では、他の車両、及び／又はコンピューティング・デバイス（たとえば、乗員のクライアント・デバイス）とのインターネット・クラウド・サービス（たとえば、サーバ及び／又は他のネットワーク・デバイス）へのワイヤレス接続を可能にするために、ネットワーク・インターフェース１１２４が使用されてもよい。少なくとも一実施例では、他の車両と通信するために、車両１１０と他の車両との間に直接リンクが確立されてもよく、且つ／又は（たとえば、ネットワークにわたって、且つインターネットを介して）間接リンクが確立されてもよい。少なくとも一実施例では、直接リンクは、車車間通信リンクを使用して提供されてもよい。少なくとも一実施例では、車車間通信リンクは、車両１１００の近傍の車両（たとえば、車両１１００の前方、側方、及び／又は後方の車両）についての情報を車両１１００に提供してもよい。少なくとも一実施例では、こうした前述した機能は、車両１１００の協調型アダプティブ・クルーズ・コントロール機能の一部であってもよい。

少なくとも一実施例では、ネットワーク・インターフェース１１２４は、変調及び復調の機能を提供し、コントローラ１１３６がワイヤレス・ネットワークを介して通信できるようにするＳｏＣを含んでもよい。少なくとも一実施例では、ネットワーク・インターフェース１１２４は、ベースバンドから無線周波数へのアップ・コンバージョン、及び無線周波数からベースバンドへのダウン・コンバージョンのための無線周波数フロント・エンドを含んでもよい。少なくとも一実施例では、周波数変換は、任意の技術的に実行可能なやり方で実行されてもよい。たとえば、周波数変換は、よく知られたプロセスにより、且つ／又はスーパー・ヘテロダイン・プロセスを使用して実行することができる。少なくとも一実施例では、無線周波数フロント・エンド機能は、別個のチップによって提供されてもよい。少なくとも一実施例では、ネットワーク・インターフェースは、ＬＴＥ、ＷＣＤＭＡ（登録商標）、ＵＭＴＳ、ＧＳＭ、ＣＤＭＡ２０００、Ｂｌｕｅｔｏｏｔｈ、ＢｌｕｅｔｏｏｔｈＬＥ、Ｗｉ－Ｆｉ、Ｚ－Ｗａｖｅ、ＺｉｇＢｅｅ、ＬｏＲａＷＡＮ、及び／又は他のワイヤレス・プロトコルを介して通信するためのワイヤレス機能を含んでもよい。

少なくとも一実施例では、車両１１００はさらにデータ・ストア１１２８を含んでもよく、このデータ・ストアは限定することなく、オフ・チップ（たとえばＳｏＣ１１０４上にない）ストレージを含んでもよい。少なくとも一実施例では、データ・ストア１１２８は、ＲＡＭ、ＳＲＡＭ、ダイナミック・ランダム・アクセス・メモリ（「ＤＲＡＭ」）、ビデオ・ランダム・アクセス・メモリ（「ＶＲＡＭ」：ｖｉｄｅｏｒａｎｄｏｍ－ａｃｃｅｓｓｍｅｍｏｒｙ）、フラッシュ・メモリ、ハード・ディスク、並びに／又は少なくとも１ビットのデータを記憶することができる他の構成要素及び／若しくはデバイスを含む１つ若しくは複数のストレージ要素を、限定することなく含んでもよい。

少なくとも一実施例では、車両１１００はさらに、マッピング、知覚、占有グリッド生成、及び／又は経路計画の機能を支援するためのＧＮＳＳセンサ１１５８（たとえば、ＧＰＳ及び／又は補助ＧＰＳセンサ）を含んでもよい。少なくとも一実施例では、イーサネット（登録商標）からシリアル（たとえばＲＳ－２３２）へのブリッジを有するＵＳＢコネクタを使用するＧＰＳをたとえば限定することなく含む任意の数のＧＮＳＳセンサ１１５８が使用されてもよい。

少なくとも一実施例では、車両１１００はさらに、ＲＡＤＡＲセンサ１１６０を含んでもよい。少なくとも一実施例では、ＲＡＤＡＲセンサ１１６０は、暗闇及び／又は厳しい気象条件の中でも、長距離の車両検出を行うために車両１１００によって使用されてもよい。少なくとも一実施例では、ＲＡＤＡＲの機能的安全性レベルは、ＡＳＩＬＢであってもよい。少なくとも一実施例では、ＲＡＤＡＲセンサ１１６０は、制御のために（たとえば、ＲＡＤＡＲセンサ１１６０によって生成されたデータを送信するために）、また物体追跡データにアクセスするために、ＣＡＮバス及び／又はバス１１０２を使用してもよく、いくつかの例では、未加工データにアクセスするためにイーサネット（登録商標）チャネルにアクセスできる。少なくとも一実施例では、多様なタイプのＲＡＤＡＲセンサが使用されてもよい。たとえば限定することなく、ＲＡＤＡＲセンサ１１６０は、前方、後方、及び側方のＲＡＤＡＲ使用に好適であってもよい。少なくとも一実施例では、ＲＡＤＡＲセンサ１１６０のうちの１つ又は複数のセンサは、パルス・ドップラＲＡＤＡＲセンサである。

少なくとも一実施例では、ＲＡＤＡＲセンサ１１６０は、狭視野の長距離、広視野の短距離、側面を網羅する短距離など、異なる構成を含んでもよい。少なくとも一実施例では、長距離ＲＡＤＡＲは、アダプティブ・クルーズ・コントロール機能のために使用されてもよい。少なくとも一実施例では、長距離ＲＡＤＡＲシステムは、２つ以上の独立した走査によって実現される２５０ｍ（メートル）の範囲内などの広視野を提供してもよい。少なくとも一実施例では、ＲＡＤＡＲセンサ１１６０は、静的物体と移動している物体とを区別しやすくしてもよく、緊急ブレーキ支援及び前方衝突警告を行うためにＡＤＡＳシステム１１３８によって使用されてもよい。少なくとも一実施例では、長距離ＲＡＤＡＲシステムに含まれるセンサ１１６０は、複数の（たとえば６つ以上の）固定ＲＡＤＡＲアンテナ、並びに高速ＣＡＮ及びＦｌｅｘＲａｙインターフェースを有するモノスタティックのマルチモードＲＡＤＡＲを、限定することなく含んでもよい。少なくとも一実施例では、６つのアンテナがある場合、中央の４つのアンテナは、隣接した車線内の交通からの干渉が最小の状態で、より高速で車両１１００の周囲を記録するように設計された集中したビーム・パターンを生成してもよい。少なくとも一実施例では、他の２つのアンテナは、視野を拡張してもよく、車両１１００の車線に入る又はそこから出る車両を迅速に検出するのを可能にする。

少なくとも一実施例では、中距離ＲＡＤＡＲシステムは、一例として最大１６０ｍ（前方）、又は８０ｍ（後方）の範囲、及び最大４２度（前方）、又は１５０度（後方）の視野を含んでもよい。少なくとも一実施例では、短距離ＲＡＤＡＲシステムは、限定することなく、後方バンパの両端部に設置されるように設計された任意の数のＲＡＤＡＲセンサ１１６０を含んでもよい。後方バンパの両端部に設置されたとき、少なくとも一実施例では、ＲＡＤＡＲセンサ・システムは、後方向及び車両隣の死角を常に監視する２本のビームを生成してもよい。少なくとも一実施例では、短距離ＲＡＤＡＲシステムは、死角検出及び／又は車線変更支援を行うために、ＡＤＡＳシステム１１３８において使用されてもよい。

少なくとも一実施例では、車両１１００はさらに、超音波センサ１１６２を含んでもよい。少なくとも一実施例では、超音波センサ１１６２は、車両１１００の前方、後方、及び／又は側方位置に配置されてもよく、駐車支援のため、且つ／又は占有グリッドを生成し更新するために使用されてもよい。少なくとも一実施例では、多様な超音波センサ１１６２が使用されてもよく、異なる検出範囲（たとえば、２．５ｍ、４ｍ）には異なる超音波センサ１１６２が使用されてもよい。少なくとも一実施例では、超音波センサ１１６２は、機能的安全性レベルＡＳＩＬＢで動作してもよい。

少なくとも一実施例では、車両１１００は、ＬＩＤＡＲセンサ１１６４を含んでもよい。少なくとも一実施例では、ＬＩＤＡＲセンサ１１６４は、物体及び歩行者の検出、緊急ブレーキ、衝突回避、及び／又は他の機能のために使用されてもよい。少なくとも一実施例では、ＬＩＤＡＲセンサ１１６４は、機能的安全性レベルＡＳＩＬＢで動作してもよい。少なくとも一実施例では、車両１１００は、複数のＬＩＤＡＲセンサ１１６４（たとえば、２つ、４つ、６つなど）を含んでもよく、これらのセンサは、（たとえばデータをギガビット・イーサネット（登録商標）・スイッチに提供するために）イーサネット（登録商標）チャネルを使用してもよい。

少なくとも一実施例では、ＬＩＤＡＲセンサ１１６４は、３６０度の視野について、物体及びそれらの距離のリストを提供可能であってもよい。少なくとも一実施例では、市販のＬＩＤＡＲセンサ１１６４は、たとえば宣伝された範囲がおおよそ１００ｍであり、精度が２ｃｍ～３ｃｍであり、１００Ｍｂｐｓのイーサネット（登録商標）接続をサポートしてもよい。少なくとも一実施例では、１つ又は複数の非突出型ＬＩＤＡＲセンサが使用されてもよい。こうした実施例では、ＬＩＤＡＲセンサ１１６４は、車両１１００の前方、後方、側方、及び／又は角位置に組み込むことができる小さいデバイスを含んでもよい。少なくとも一実施例では、こうした実施例のＬＩＤＡＲセンサ１１６４は、最大１２０度の水平視野、及び３５度の垂直視野を、低反射性の物体に対しても２００ｍの範囲で提供してもよい。少なくとも一実施例では、前方に取り付けられたＬＩＤＡＲセンサ１１６４は、４５度～１３５度の水平視野をもたらすように構成されてもよい。

少なくとも一実施例では、３ＤフラッシュＬＩＤＡＲなどのＬＩＤＡＲ技術も使用されてよい。少なくとも一実施例では、３ＤフラッシュＬＩＤＡＲは、レーザのフラッシュを送信源として使用して、車両１１００の周囲を最大でおおよそ２００ｍまで照射する。少なくとも一実施例では、フラッシュＬＩＤＡＲユニットは、限定することなくレセプタを含み、このレセプタは、レーザ・パルスの通過時間及び各ピクセルにおける反射光を記録し、それらは、車両１１００から物体までの範囲に対応する。少なくとも一実施例では、フラッシュＬＩＤＡＲによって、非常に正確でゆがみのない周囲画像が、レーザのフラッシュごとに生成できるようになり得る。少なくとも一実施例では、４つのフラッシュＬＩＤＡＲセンサが、車両１１００の各側面に１つ導入されてもよい。少なくとも一実施例では、３ＤフラッシュＬＩＤＡＲシステムは、ファン以外に可動部品のない半導体３Ｄ凝視アレイ（ｓｔａｒｉｎｇａｒｒａｙ）のＬＩＤＡＲカメラ（たとえば、非走査型ＬＩＤＡＲデバイス）を、限定することなく含む。少なくとも一実施例では、フラッシュＬＩＤＡＲデバイスは、フレーム当たり５ナノ秒のクラスＩ（目に安全な）レーザ・パルスを使用してもよく、３Ｄ範囲の点群及び位置同期された（ｃｏ－ｒｅｇｉｓｔｅｒｅｄ）強度データとして反射レーザ光を捕捉してもよい。

少なくとも一実施例では、車両１１００はさらに、ＩＭＵセンサ１１６６を含んでもよい。少なくとも一実施例では、ＩＭＵセンサ１１６６は、車両１１００の後方車軸の中央に位置付けられてもよい。少なくとも一実施例では、ＩＭＵセンサ１１６６は、たとえば限定することなく、加速度計、磁力計、ジャイロスコープ、磁気コンパス、複数の磁気コンパス及び／又は他のタイプのセンサを含んでもよい。６軸の用途など少なくとも一実施例では、ＩＭＵセンサ１１６６は限定することなく、加速度計及びジャイロスコープを含んでもよい。９軸の用途など少なくとも一実施例では、ＩＭＵセンサ１１６６は限定することなく、加速度計、ジャイロスコープ、及び磁力計を含んでもよい。

少なくとも一実施例では、ＩＭＵセンサ１１６６は、微小電気機械システム（「ＭＥＭＳ」：ｍｉｃｒｏ－ｅｌｅｃｔｒｏ－ｍｅｃｈａｎｉｃａｌｓｙｓｔｅｍｓ）慣性センサ、高感度ＧＰＳ受信機、及び先進のＫａｌｍａｎフィルタリング・アルゴリズムを組み合わせて、位置、速度、及び姿勢の推定値を提供する小型の高性能ＧＰＳ補強型慣性航法システム（「ＧＰＳ／ＩＮＳ」：ＧＰＳ－ＡｉｄｅｄＩｎｅｒｔｉａｌＮａｖｉｇａｔｉｏｎＳｙｓｔｅｍ）として実装されてもよい。少なくとも一実施例では、ＩＭＵセンサ１１６６により、車両１１００は、速度変化を直接観察しそれをＧＰＳからＩＭＵセンサ１１６６に相関させることによって、磁気センサからの入力を必要とせずに車両１１００の方位を推定できるようになる。少なくとも一実施例では、ＩＭＵセンサ１１６６及びＧＮＳＳセンサ１１５８は、単一の統合ユニットに組み合わされてもよい。

少なくとも一実施例では、車両１１００は、車両１１００の中及び／又はその周りに設置されたマイクロフォン１１９６を含んでもよい。少なくとも一実施例では、マイクロフォン１１９６は、とりわけ緊急車両の検出及び識別のために使用されてもよい。

少なくとも一実施例では、車両１１００はさらに、ステレオ・カメラ１１６８、広角カメラ１１７０、赤外線カメラ１１７２、周囲カメラ１１７４、長距離カメラ１１９８、中距離カメラ１１７６、及び／又は他のカメラ・タイプを含む任意の数のカメラ・タイプを含んでもよい。少なくとも一実施例では、カメラは、車両１１００の全周囲の周りで画像データを捕捉するために使用されてもよい。少なくとも一実施例では、どのタイプのカメラが使用されるかは、車両１１００に応じて異なる。少なくとも一実施例では、車両１１００の周りで必要な被写域を提供するために、カメラ・タイプの任意の組合せが使用されてもよい。少なくとも一実施例では、導入されるカメラの数は、実施例に応じて異なってもよい。たとえば、少なくとも一実施例では、車両１１００は６台のカメラ、７台のカメラ、１０台のカメラ、１２台のカメラ、又は別の数のカメラを含むことができる。少なくとも一実施例では、カメラは、一例として限定することなく、ギガビット・マルチメディア・シリアル・リンク（「ＧＭＳＬ」：Gigabit Multimedia Serial Link）及び／又はギガビット・イーサネット（登録商標）通信をサポートしてもよい。少なくとも一実施例では、各カメラは、図１１Ａ及び図１１Ｂに関して本明細書でさらに詳細に上で説明されているようであり得る。

少なくとも一実施例では、車両１１００はさらに、振動センサ１１４２を含んでもよい。少なくとも一実施例では、振動センサ１１４２は、車軸など、車両１１００の構成要素の振動を測定してもよい。たとえば、少なくとも一実施例では、振動の変化は、路面の変化を示すことがある。少なくとも一実施例では、２つ以上の振動センサ１１４２が使用される場合には、路面の摩擦又はすべり量を判定するために振動の差が使用されてもよい（たとえば、動力により駆動される車軸と自由回転する車軸との間に振動差がある場合）。

少なくとも一実施例では、車両１１００は、ＡＤＡＳシステム１１３８を含んでもよい。少なくとも一実施例では、ＡＤＡＳシステム１１３８は、限定することなく、いくつかの例においてＳｏＣを含んでもよい。少なくとも一実施例では、ＡＤＡＳシステム１１３８は、限定することなく、任意の数及び任意の組合せの、自律／アダプティブ／自動のクルーズ・コントロール（「ＡＣＣ」：ａｕｔｏｎｏｍｏｕｓ／ａｄａｐｔｉｖｅ／ａｕｔｏｍａｔｉｃｃｒｕｉｓｅｃｏｎｔｒｏｌ）システム、協調型アダプティブ・クルーズ・コントロール（「ＣＡＣＣ」：cooperative adaptive cruise control）システム、正面衝突警告（「ＦＣＷ」：forward crash warning）システム、自動緊急ブレーキ（「ＡＥＢ」：automatic emergency braking）システム、車線逸脱警告（「ＬＤＷ」：lane departure warning）システム、車線維持支援（「ＬＫＡ」：lane keep assist）システム、死角警告（「ＢＳＷ」：blind spot warning）システム、後方クロス・トラフィック警告（「ＲＣＴＷ」：ｒｅａｒｃｒｏｓｓ－ｔｒａｆｆｉｃｗａｒｎｉｎｇ）システム、衝突警告（「ＣＷ」：collision warning）システム、車線センタリング（「ＬＣ」：lane centering）システム、並びに／又は他のシステム、特徴、及び／若しくは機能を含んでもよい。

少なくとも一実施例では、ＡＣＣシステムは、ＲＡＤＡＲセンサ１１６０、ＬＩＤＡＲセンサ１１６４、及び／又は任意の数のカメラを使用してもよい。少なくとも一実施例では、ＡＣＣシステムは、縦方向ＡＣＣシステム及び／又は横方向ＡＣＣシステムを含んでもよい。少なくとも一実施例では、縦方向ＡＣＣシステムは、車両１１００の直前の別の車両までの距離を監視及び制御し、車両１１００のスピードを自動的に調節して、前の車両からの安全な距離を維持する。少なくとも一実施例では、横方向ＡＣＣシステムは、距離の維持を実行し、必要なときに車線変更するよう車両１１００に通知する。少なくとも一実施例では、横方向ＡＣＣは、ＬＣ及びＣＷなどの他のＡＤＡＳ用途に関係する。

少なくとも一実施例では、ＣＡＣＣシステムは、他の車両からの情報を使用し、この情報は、ワイヤレス・リンクにより、又は間接的にネットワーク接続を介して（たとえばインターネットを介して）、他の車両からネットワーク・インターフェース１１２４及び／又はワイヤレス・アンテナ１１２６により受信されてもよい。少なくとも一実施例では、車車間（「Ｖ２Ｖ」：ｖｅｈｉｃｌｅ－ｔｏ－ｖｅｈｉｃｌｅ）通信リンクによって直接リンクが提供されてもよく、一方インフラストラクチャ車間（「Ｉ２Ｖ」：ｉｎｆｒａｓｔｒｕｃｔｕｒｅ－ｔｏ－ｖｅｈｉｃｌｅ）通信リンクによって間接リンクが提供されてもよい。一般に、Ｖ２Ｖ通信は、すぐ前の先行車両（たとえば、車両１１００のすぐ前で同じ車線にいる車両）についての情報を提供し、Ｉ２Ｖ通信は、さらにその前の交通についての情報を提供する。少なくとも一実施例では、ＣＡＣＣシステムは、Ｉ２ＶとＶ２Ｖの情報源のいずれか又は両方を含んでもよい。少なくとも一実施例では、車両１１００の前の車両についての情報があれば、ＣＡＣＣシステムは信頼性をさらに高めることができ、交通の流れをより円滑にし、路上での渋滞を低減できる可能性を有する。

少なくとも一実施例では、ＦＣＷシステムは、危険物に対してドライバに忠告するように設計され、それによりこうしたドライバは修正措置を取ることができる。少なくとも一実施例では、ＦＣＷシステムは正面カメラ及び／又はＲＡＤＡＲセンサ１１６０を使用し、これらは、ディスプレイ、スピーカ、及び／又は振動構成要素などのドライバへのフィードバックを提供するように電気的に結合されている専用のプロセッサ、ＤＳＰ、ＦＰＧＡ、及び／又はＡＳＩＣに結合されている。少なくとも一実施例では、ＦＣＷシステムは、音、視覚的警告、振動、及び／又はクイック・ブレーキ・パルスなどの形で警告を提供してもよい。

少なくとも一実施例では、ＡＥＢシステムは、別の車両又は他の物体との差し迫った正面衝突を検出し、指定された時間内又は距離パラメータ内にドライバが修正措置を取らない場合には、自動でブレーキをかけてもよい。少なくとも一実施例では、ＡＥＢシステムは、専用のプロセッサ、ＤＳＰ、ＦＰＧＡ、及び／又はＡＳＩＣに結合された正面カメラ及び／又はＲＡＤＡＲセンサ１１６０を使用してもよい。少なくとも一実施例では、ＡＥＢシステムが危険物を検出したとき、ＡＥＢシステムは通常、修正措置を取って衝突を避けるよう最初にドライバに忠告し、ドライバが修正措置を取らない場合には、ＡＥＢシステムは、予測される衝突を防ぐ又は少なくともその衝撃を軽減するために自動的にブレーキをかけてもよい。少なくとも一実施例では、ＡＥＢシステムは、ダイナミック・ブレーキ・サポート及び／又は衝突直前ブレーキなどの技法を含んでもよい。

少なくとも一実施例では、ＬＤＷシステムは、車両１１００が車線の目印に交差したときにドライバに忠告するために、ハンドル又は座席の振動など、視覚的、聴覚的、及び／又は触覚的な警告を提供する。少なくとも一実施例では、ドライバが方向指示器を作動させることなどによって意図的な車線逸脱を示す場合には、ＬＤＷシステムは作動しない。少なくとも一実施例では、ＬＤＷシステムは、正面カメラを使用してもよく、これは、ディスプレイ、スピーカ、及び／又は振動構成要素などのドライバへのフィードバックを提供するように電気的に結合することができる専用のプロセッサ、ＤＳＰ、ＦＰＧＡ、及び／又はＡＳＩＣに結合されている。少なくとも一実施例では、ＬＫＡシステムは、ＬＤＷシステムの変形形態である。少なくとも一実施例では、ＬＫＡシステムは、車両１１００が車両１１００の車線からはみ出し始めた場合に、車両１１００を修正するように操縦入力又はブレーキ制御を提供する。

少なくとも一実施例では、ＢＳＷシステムは、自動車の死角にある車両を検出し、ドライバに警告する。少なくとも一実施例では、ＢＳＷシステムは、視覚的、聴覚的、及び／又は触覚的なアラートを提供して、合流又は車線変更が安全ではないことを示してもよい。少なくとも一実施例では、ＢＳＷシステムは、ドライバが方向指示器を使用したときに追加の警告を提供してもよい。少なくとも一実施例では、ＢＳＷシステムは、専用のプロセッサ、ＤＳＰ、ＦＰＧＡ、及び／又はＡＳＩＣに結合された背面カメラ及び／又はＲＡＤＡＲセンサ１１６０を使用してもよく、これらの専用のプロセッサ、ＤＳＰ、ＦＰＧＡ、及び／又はＡＳＩＣは、ディスプレイ、スピーカ、及び／又は振動構成要素などのドライバへのフィードバックに電気的に結合されている。

少なくとも一実施例では、ＲＣＴＷシステムは、車両１１００の後退時に、後方カメラの範囲外に物体が検出されたときに、視覚的、聴覚的、及び／又は触覚的な通知を提供してもよい。少なくとも一実施例では、ＲＣＴＷシステムは、衝突を回避するために確実に車両ブレーキがかけられるように、ＡＥＢシステムを含む。少なくとも一実施例では、ＲＣＴＷシステムは、１つ又は複数の背面ＲＡＤＡＲセンサ１１６０を使用してもよく、これはディスプレイ、スピーカ、及び／又は振動構成要素などのドライバへのフィードバックを提供するように電気的に結合された専用のプロセッサ、ＤＳＰ、ＦＰＧＡ、及び／又はＡＳＩＣに結合されている。

少なくとも一実施例では、従来のＡＤＡＳシステムは、誤検出結果を出しがちなことがあり、これはドライバにとっては迷惑で気が散るものであり得るが、通常は大したことにはならない。なぜなら、従来のＡＤＡＳシステムは、ドライバに忠告し、安全を要する状態が本当に存在し、それに適宜対応するかどうかを、ドライバが判断できるようにするからである。少なくとも一実施例では、結果が矛盾する場合、一次コンピュータ（たとえば、コントローラ１１３６の第１のコントローラ）からの結果に従うか、又は二次コンピュータ（たとえば、コントローラ１１３６の第２のコントローラ）からの結果に従うかどうかを、車両１１００自体が判断する。たとえば、少なくとも一実施例では、ＡＤＡＳシステム１１３８は、バックアップ・コンピュータの合理性モジュールに知覚情報を抵抗するための、バックアップ及び／又は二次コンピュータであってもよい。少なくとも一実施例では、バックアップ・コンピュータの合理性モニタが、ハードウェア構成要素上の冗長性の多様なソフトウェアを実行して、知覚の誤り及び動的な運転タスクを検出してもよい。少なくとも一実施例では、ＡＤＡＳシステム１１３８からの出力は、監視ＭＣＵに提供されてもよい。少なくとも一実施例では、一次コンピュータからの出力と二次コンピュータからの出力とが矛盾する場合には、監視ＭＣＵが、安全な動作を確保するために矛盾をどのように調和させるかを判定する。

少なくとも一実施例では、一次コンピュータは、一次コンピュータの選択した結果の信頼性を示す信頼性スコアを、監視ＭＣＵに提供するように構成されてもよい。少なくとも一実施例では、信頼性スコアが閾値を超える場合には、二次コンピュータが矛盾する又は一貫性のない結果を提供しているかどうかに関わらず、監視ＭＣＵは一次コンピュータの指示に従ってもよい。少なくとも一実施例では、信頼性スコアが閾値を満足せず、一次コンピュータと二次コンピュータが異なる結果（たとえば、矛盾）を示す場合には、監視ＭＣＵは、コンピュータ同士を調停して、適切な結果を判定してもよい。

少なくとも一実施例では、二次コンピュータが誤アラームを提供する条件を、一次コンピュータからの出力と二次コンピュータからの出力とに少なくとも部分的に基づき判定するように訓練及び構成されたニューラル・ネットワークを、監視ＭＣＵが実行するように構成されてもよい。少なくとも一実施例では、監視ＭＣＵのニューラル・ネットワークは、二次コンピュータの出力が信用されてもよいときと、信用できないときとを学習してもよい。たとえば、少なくとも一実施例では、二次コンピュータがＲＡＤＡＲベースのＦＣＷシステムである場合、監視ＭＣＵのニューラル・ネットワークは、アラームをトリガする排水溝の格子又はマンホール・カバーなど、実際には危険物ではない金属物体をＦＣＷシステムが識別するときを学習してもよい。少なくとも一実施例では、二次コンピュータがカメラ・ベースのＬＤＷシステムである場合、自転車や歩行者が存在し、車線逸脱が実際には最も安全な操作であるときに、監視ＭＣＵのニューラル・ネットワークはＬＤＷを無効にするように学習してもよい。少なくとも一実施例では、監視ＭＣＵは、ニューラル・ネットワークを関連するメモリとともに実行するのに好適なＤＬＡ又はＧＰＵのうちの少なくとも１つを含んでもよい。少なくとも一実施例では、監視ＭＣＵは、ＳｏＣ１１０４の構成要素を備えても、且つ／又はその構成要素として含まれてもよい。

少なくとも一実施例では、ＡＤＡＳシステム１１３８は、コンピュータ・ビジョンの従来のルールを使用してＡＤＡＳ機能を実行する二次コンピュータを含んでもよい。少なくとも一実施例では、二次コンピュータは、従来のコンピュータ・ビジョン・ルール（ｉｆ－ｔｈｅｎルール）を使用してもよく、ニューラル・ネットワークが監視ＭＣＵに存在することによって、信頼性、安全性、及び性能が向上してもよい。たとえば、少なくとも一実施例では、多様な実装及び意図的な非同一性により、特にソフトウェア（又はソフトウェアとハードウェアのインターフェース）の機能によって生じる誤りに対し、システム全体の誤り耐性が高まる。たとえば、少なくとも一実施例では、一次コンピュータ上で実行中のソフトウェアにバグ又はエラーがあり、二次コンピュータ上で実行中の非同一のソフトウェア・コードが、全体的に一貫性のある結果を提供する場合には、監視ＭＣＵは、全体的な結果が正しく、一次コンピュータ上のソフトウェア又はハードウェアのバグが重大なエラーを引き起こしていないという、より高い信頼性を有してもよい。

少なくとも一実施例では、ＡＤＡＳシステム１１３８の出力は、一次コンピュータの知覚ブロック、及び／又は一次コンピュータの動的運転タスクブロックに供給されてもよい。たとえば、少なくとも一実施例では、ＡＤＡＳシステム１１３８が、直前の物体に起因して正面衝突警告を示している場合には、知覚ブロックは、物体を識別するときにこの情報を使用してもよい。少なくとも一実施例では、二次コンピュータは、本明細書に記載するように、訓練済みの、したがって誤検出のリスクを低減する独自のニューラル・ネットワークを有してもよい。

少なくとも一実施例では、車両１１００はさらに、インフォテイメントＳｏＣ１１３０（たとえば、車両内インフォテイメント・システム（ＩＶＩ）：ｉｎ－ｖｅｈｉｃｌｅｉｎｆｏｔａｉｎｍｅｎｔｓｙｓｔｅｍ）を含んでもよい。インフォテイメント・システム１１３０はＳｏＣとして図示及び説明されるが、少なくとも一実施例では、ＳｏＣではなくてもよく、限定することなく２つ以上の個別の構成要素を含んでもよい。少なくとも一実施例では、インフォテイメントＳｏＣ１１３０は、限定することなく、ハードウェアとソフトウェアの組合せを含んでもよく、この組合せを使用して、オーディオ（たとえば、音楽、パーソナル・デジタル・アシスタント、ナビゲーション命令、ニュース、ラジオなど）、ビデオ（たとえば、ＴＶ、映画、ストリーミングなど）、電話（たとえば、ハンズフリー通話）、ネットワーク接続（たとえば、ＬＴＥ、Ｗｉ－Ｆｉなど）、及び／又は情報サービス（たとえば、ナビゲーション・システム、後方駐車支援、無線データ・システム、車両関連情報、たとえば燃料レベル、合計走行距離、ブレーキ燃料レベル、オイル・レベル、ドアの開閉、空気フィルタ情報など）を車両１１００に提供してもよい。たとえば、インフォテイメントＳｏＣ１１３０は、ラジオ、ディスク再生装置、ナビゲーション・システム、ビデオ再生装置、ＵＳＢ及びＢｌｕｅｔｏｏｔｈ接続、カーピュータ、車内エンタテイメント、Ｗｉ－Ｆｉ、ハンドル・オーディオ制御、ハンズフリー音声制御、ヘッド・アップ・ディスプレイ（「ＨＵＤ」：ｈｅａｄｓ－ｕｐｄｉｓｐｌａｙ）、ＨＭＩディスプレイ１１３４、テレマテックス・デバイス、（たとえば、様々な構成要素、特徴、及び／若しくはシステムを制御及び／若しくは相互作用するための）制御パネル、並びに／又は他の構成要素を含むことができる。少なくとも一実施例では、さらにインフォテイメントＳｏＣ１１３０を使用して、ＡＤＡＳシステム１１３８からの情報、車両操作計画、軌道などの自律運転情報、周囲環境情報（たとえば、交差点情報、車両情報、道路情報など）、及び／又は他の情報などの（たとえば、視覚的及び／又は聴覚的な）情報が、車両１１００のユーザに提供されてもよい。

少なくとも一実施例では、インフォテイメントＳｏＣ１１３０は、任意の量及びタイプのＧＰＵ機能を含んでもよい。少なくとも一実施例では、インフォテイメントＳｏＣ１１３０は、バス１１０２を介して、車両１１００の他のデバイス、システム、及び／又は構成要素と通信してもよい。少なくとも一実施例では、インフォテイメントＳｏＣ１１３０は監視ＭＣＵに結合されてもよく、それにより、一次コントローラ１１３６（たとえば、車両１１００の一次及び／又はバックアップのコンピュータ）が故障したときに、インフォテイメント・システムのＧＰＵが、一部の自己運転機能を実行してもよい。少なくとも一実施例では、インフォテイメントＳｏＣ１１３０は、本明細書に記載するように、車両１１００を運転手－安全停止モードにしてもよい。

少なくとも一実施例では、車両１１００はさらに、計器クラスタ１１３２（たとえば、デジタル・ダッシュボード、電子計器クラスタ、デジタル計器パネルなど）を含んでもよい。少なくとも一実施例では、計器クラスタ１１３２は、限定することなく、コントローラ、及び／又はスーパーコンピュータ（たとえば、個別のコントローラ又はスーパーコンピュータ）を含んでもよい。少なくとも一実施例では、計器クラスタ１１３２は、限定することなく、スピード・メータ、燃料レベル、油圧、タコメータ、オドメータ、方向指示器、シフトレバー位置インジケータ、シート・ベルト警告灯、バーキング・ブレーキ警告灯、エンジン故障灯、補助拘束システム（たとえば、エアバッグ）情報、ライト制御、安全システム制御、ナビゲーション情報など、任意の数及び組合せの計器セットを含んでもよい。いくつかの例では、インフォテイメントＳｏＣ１１３０と計器クラスタ１１３２との間で、情報が表示及び／又は共有されてもよい。少なくとも一実施例では、計器クラスタ１１３２は、インフォテイメントＳｏＣ１１３０の一部として含まれてもよく、又はその逆であってもよい。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１１Ｃのシステムにおいて使用されてもよい。

少なくとも一実施例では、ｎ：ｍ構造化スパース性を強化するための置換５１２及び枝刈５２８は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１１Ｃのシステムにおいて使用されてもよい。

図１１Ｄは、少なくとも一実施例による、クラウド・ベースのサーバと図１１Ａの自律車両１１００との間で通信するためのシステム１１７６の図である。少なくとも一実施例では、システム１１７６は、限定することなく、サーバ１１７８、ネットワーク１１９０、並びに車両１１００を含む任意の数及びタイプの車両を含んでもよい。少なくとも一実施例では、サーバ１１７８は、限定することなく、複数のＧＰＵ１１８４（Ａ）～１１８４（Ｈ）（本明細書ではまとめてＧＰＵ１１８４と呼ぶ）、ＰＣＩｅスイッチ１１８２（Ａ）～１１８２（Ｄ）（本明細書ではまとめてＰＣＩｅスイッチ１１８２と呼ぶ）、及び／又はＣＰＵ１１８０（Ａ）～１１８０（Ｂ）（本明細書ではまとめてＣＰＵ１１８０と呼ぶ）を含んでもよい。少なくとも一実施例では、ＧＰＵ１１８４、ＣＰＵ１１８０、及びＰＣＩｅスイッチ１１８２は、たとえば限定することなく、ＮＶＩＤＩＡにより開発されたＮＶＬｉｎｋインターフェース１１８８、及び／又はＰＣＩｅ接続１１８６などの高速相互接続によって、相互接続されてもよい。少なくとも一実施例では、ＧＰＵ１１８４同士は、ＮＶＬｉｎｋ及び／又はＮＶＳスイッチＳｏＣを介して接続され、ＧＰＵ１１８４とＰＣＩｅスイッチ１１８２は、ＰＣＩｅ相互接続を介して接続される。８個のＧＰＵ１１８４、２個のＣＰＵ１１８０、及び４個のＰＣＩｅスイッチ１１８２が図示してあるが、これは限定するものではない。少なくとも一実施例では、サーバ１１７８のそれぞれは、限定することなく、任意の数のＧＰＵ１１８４、ＣＰＵ１１８０、及び／又はＰＣＩｅスイッチ１１８２を任意の組合せで含んでもよい。たとえば、少なくとも一実施例では、サーバ１１７８は、それぞれが８個、１６個、３２個、及び／又はそれ以上のＧＰＵ１１８４を含むことができる。

少なくとも一実施例では、サーバ１１７８は、最近始まった道路工事などの予想外の又は変更された道路状態を示す画像を表す画像データを、ネットワーク１１９０を介して車両から受信してもよい。少なくとも一実施例では、サーバ１１７８は、更新済み若しくはそうではないニューラル・ネットワーク１１９２及び／又は、限定することなく交通状態及び道路状態に関する情報を含む地図情報１１９４を、ネットワーク１１９０を介して車両に送信してもよい。少なくとも一実施例では、地図情報１１９４の更新は、建築現場、穴、迂回路、洪水、及び／又は他の障害物に関する情報など、ＨＤマップ１１２２に対する更新を、限定することなく含んでもよい。少なくとも一実施例では、ニューラル・ネットワーク１１９２及び／又は地図情報１１９４は、環境内の任意の数の車両から受信したデータに表された新しい訓練及び／又は経験から得られたものであってもよく、且つ／又は、データ・センタにおいて（たとえば、サーバ１１７８及び／又は他のサーバを使用して）実行された訓練に少なくとも部分的に基づき、得られたものであってもよい。

少なくとも一実施例では、サーバ１１７８を使用して、訓練データに少なくとも部分的に基づき、機械学習モデル（たとえば、ニューラル・ネットワーク）が訓練されてもよい。少なくとも一実施例では、訓練データは車両によって生成されてもよく、且つ／又はシミュレーションで（たとえば、ゲーム・エンジンを使用して）生成されてもよい。少なくとも一実施例では、（たとえば、関連するニューラル・ネットワークが教師あり学習により恩恵を受ける場合には）任意の量の訓練データがタグ付けされ、且つ／又は他の前処理を受ける。少なくとも一実施例では、（たとえば、関連するニューラル・ネットワークが教師あり学習を必要としない場合には）任意の量の訓練データはタグ付け及び／又は前処理されない。少なくとも一実施例では、機械学習モデルが訓練されると、機械学習モデルは車両によって使用されてもよく（たとえば、ネットワーク１１９０を介して車両に送信されてもよく、且つ／又は機械学習モデルは、車両を遠隔監視するためにサーバ１１７８によって使用されてもよい。

少なくとも一実施例では、サーバ１１７８は車両からデータを受信し、リアル・タイムの知的推論ができるように、最新のリアル・タイムのニューラル・ネットワークにデータを適用してもよい。少なくとも一実施例では、サーバ１１７８は、ＮＶＩＤＩＡによって開発されたＤＧＸ及びＤＧＸステーション・マシンなど、ＧＰＵ１１８４によって動く深層学習スーパーコンピュータ及び／又は専用ＡＩコンピュータを含んでもよい。しかし、少なくとも一実施例では、サーバ１１７８は、ＣＰＵにより動くデータ・センタを使用する深層学習インフラストラクチャを含んでもよい。

少なくとも一実施例では、サーバ１１７８の深層学習インフラストラクチャは、高速のリアル・タイムの推論が可能であってもよく、その機能を使用して、車両１１００のプロセッサ、ソフトウェア、及び／又は関連ハードウェアの健全性を評価及び確認してもよい。たとえば、少なくとも一実施例では、深層学習インフラストラクチャは、一連の画像、及び／又はその一連の画像において（たとえば、コンピュータ・ビジョン及び／又は他の機械学習の物体分類技法により）車両１１００が位置特定した物体など、周期的な更新を車両１１００から受信してもよい。少なくとも一実施例では、深層学習インフラストラクチャは、独自のニューラル・ネットワークを実行して物体を識別し、それを車両１１００によって識別された物体と比較してもよく、結果が一致せず、車両１１００のＡＩが故障していると深層学習インフラストラクチャが結論づけた場合には、サーバ１１７８は、車両１１００のフェイル・セーフ・コンピュータに制御を掌握し、乗員に通知し、安全な停車操作を完了するよう命じる信号を車両１１００に送信してもよい。

少なくとも一実施例では、サーバ１１７８は、ＧＰＵ１１８４、及び１つ又は複数のプログラム可能な推論アクセラレータ（たとえば、ＮＶＩＤＩＡのＴｅｎｓｏｒＲＴ３デバイス）を含んでもよい。少なくとも一実施例では、ＧＰＵにより動くサーバと、推論の加速とを組み合わせることによって、リアル・タイムの応答を可能にすることができる。性能がそれほど重要ではない場合など、少なくとも一実施例では、ＣＰＵ、ＦＰＧＡ、及び他のプロセッサにより動くサーバが、推論に使用されてもよい。少なくとも一実施例では、１つ又は複数の実施例を実行するために、ハードウェア構造体８１５が使用される。ハードウェア構造体８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書に提供される。

コンピュータ・システム
図１２は、例示的なコンピュータ・システムを示すブロック図であり、このコンピュータ・システムは、少なくとも一実施例による、命令を実行するための実行ユニットを含んでもよいプロセッサとともに形成された、相互接続されたデバイス及び構成要素、システム・オン・チップ（ＳｏＣ）、又はこれらの何らかの組合せを有するシステムであってもよい。少なくとも一実施例では、コンピュータ・システム１２００は、本明細書に記載の実施例などにおいて本開示に従ってデータを処理するためのアルゴリズムを実行する論理を含む実行ユニットを使用するための、プロセッサ１２０２などの構成要素を、限定することなく含んでもよい。少なくとも一実施例では、コンピュータ・システム１２００は、カリフォルニア州サンタクララのインテルコーポレーションから入手可能なＰＥＮＴＩＵＭ（登録商標）プロセッサ・ファミリー、Ｘｅｏｎ（商標）、Ｉｔａｎｉｕｍ（登録商標）、ＸＳｃａｌｅ（商標）及び／又はＳｔｒｏｎｇＡＲＭ（商標）、Ｉｎｔｅｌ（登録商標）Ｃｏｒｅ（商標）、又はＩｎｔｅｌ（登録商標）Ｎｅｒｖａｎａ（商標）マイクロプロセッサなどのプロセッサを含んでもよいが、（他のマイクロプロセッサ、エンジニアリング・ワークステーション、セット・トップ・ボックスなどを有するＰＣを含め）他のシステムが使用されてもよい。少なくとも一実施例では、コンピュータ・システム１２００は、ワシントン州、レドモンドのマイクロソフトコーポレーションから入手可能なＷＩＮＤＯＷＳ（登録商標）のオペレーティング・システムのあるバージョンを実行してもよいが、他のオペレーティング・システム（たとえば、ＵＮＩＸ（登録商標）及びＬｉｎｕｘ（登録商標））、組み込みソフトウェア、及び／又はグラフィカル・ユーザ・インターフェースが使用されてもよい。

実施例は、携帯型デバイス及び組み込みアプリケーションなど、他のデバイスで使用されてもよい。携帯型デバイスのいくつかの例は、セルラー・フォン、インターネット・プロトコル・デバイス、デジタル・カメラ、パーソナル・デジタル・アシスタント（「ＰＤＡ」：personal digital assistants）、及び携帯型ＰＣを含む。少なくとも一実施例では、組み込みアプリケーションは、マイクロコントローラ、デジタル信号プロセッサ（「ＤＳＰ」：digital signal processor）、システム・オン・チップ、ネットワーク・コンピュータ（「ＮｅｔＰＣ」：network computers）、セット・トップ・ボックス、ネットワーク・ハブ、広域ネットワーク（「ＷＡＮ」：wide area network）スイッチ、又は少なくとも一実施例による１つ又は複数の命令を実行することができる任意の他のシステムを含んでもよい。

少なくとも一実施例では、コンピュータ・システム１２００は、限定することなくプロセッサ１２０２を含んでもよく、このプロセッサ１２０２は限定することなく、本明細書に記載の技法による機械学習モデルの訓練及び／又は推論を実行するための１つ又は複数の実行ユニット１２０８を含んでもよい。少なくとも一実施例では、コンピュータ・システム１２００は、シングル・プロセッサのデスクトップ又はサーバ・システムであるが、別の実施例では、コンピュータ・システム１２００はマルチプロセッサ・システムであってもよい。少なくとも一実施例では、プロセッサ１２０２は、限定することなく、複合命令セット・コンピュータ（「ＣＩＳＣ」：complex instruction set computer）マイクロプロセッサ、縮小命令セット・コンピューティング（「ＲＩＳＣ」）マイクロプロセッサ、超長命令語（「ＶＬＩＷ」）マイクロプロセッサ、命令セットの組合せを実装するプロセッサ、又は任意の他のプロセッサ・デバイス、たとえばデジタル信号プロセッサなどを含んでもよい。少なくとも一実施例では、プロセッサ１２０２は、プロセッサ・バス１２１０に結合されてもよく、このプロセッサ・バスは、プロセッサ１２０２とコンピュータ・システム１２００内の他の構成要素との間でデジタル信号を送信してもよい。

少なくとも一実施例では、プロセッサ１２０２は、限定することなく、レベル１（「Ｌ１」）の内部キャッシュ・メモリ（「キャッシュ」）１２０４を含んでもよい。少なくとも一実施例では、プロセッサ１２０２は、単一の内部キャッシュ又は複数レベルの内部キャッシュを有してもよい。少なくとも一実施例では、キャッシュ・メモリは、プロセッサ１２０２の外部にあってもよい。他の実施例は、特定の実装形態及び必要性に応じて、内部キャッシュと外部キャッシュの両方の組合せも含んでよい。少なくとも一実施例では、レジスタ・ファイル１２０６は、整数レジスタ、浮動小数点レジスタ、状態レジスタ、及び命令ポインタ・レジスタを限定することなく含む様々レジスタに、異なるタイプのデータを記憶してもよい。

少なくとも一実施例では、整数及び浮動小数点の演算を実行するための論理を限定することなく含む実行ユニット１２０８も、プロセッサ１２０２にある。少なくとも一実施例では、プロセッサ１２０２は、ある一定のマクロ命令のためのマイクロコードを記憶するマイクロコード（「ｕコード」）読取り専用メモリ（「ＲＯＭ」：read only memory）も含んでよい。少なくとも一実施例では、実行ユニット１２０８は、パック命令セット１２０９に対処する論理を含んでもよい。少なくとも一実施例では、パック命令セット１２０９を、命令を実行する関連回路とともに汎用プロセッサの命令セットに含めることにより、多くのマルチメディア・アプリケーションによって使用される演算を、プロセッサ１２０２のパック・データを使用して実行することができる。１つ又は複数の実施例では、プロセッサのデータ・バスの全幅を使用してパック・データの演算を実行することによって、多くのマルチメディア・アプリケーションを加速し、より効率的に実行することができ、これにより、１度に１つのデータ要素に対して１つ又は複数の演算を実行するためにプロセッサのデータ・バス間でより小さい単位のデータを転送する必要をなくすことができる。

少なくとも一実施例では、実行ユニット１２０８はまた、マイクロコントローラ、組み込みプロセッサ、グラフィックス・デバイス、ＤＳＰ、及び他のタイプの論理回路において使用されてもよい。少なくとも一実施例では、コンピュータ・システム１２００は、限定することなくメモリ１２２０を含んでもよい。少なくとも一実施例では、メモリ１２２０は、ダイナミック・ランダム・アクセス・メモリ（「ＤＲＡＭ」）デバイス、スタティック・ランダム・アクセス・メモリ（「ＳＲＡＭ」）デバイス、フラッシュ・メモリ・デバイス、又は他のメモリ・デバイスであってもよい。少なくとも一実施例では、メモリ１２２０は、プロセッサ１２０２によって実行されてもよいデータ信号によって表される命令１２１９、及び／又はデータ１２２１を記憶してもよい。

少なくとも一実施例では、システム論理チップが、プロセッサ・バス１２１０及びメモリ１２２０に結合されてもよい。少なくとも一実施例では、システム論理チップは、限定することなく、メモリ・コントローラ・ハブ（「ＭＣＨ」：memory controller hub）１２１６を含んでもよく、プロセッサ１２０２は、プロセッサ・バス１２１０を介してＭＣＨ１２１６と通信してもよい。少なくとも一実施例では、ＭＣＨ１２１６は、命令及びデータを記憶するため、及びグラフィックス・コマンド、データ、及びテクスチャを記憶するために、高帯域幅メモリ経路１２１８をメモリ１２２０に提供してもよい。少なくとも一実施例では、ＭＣＨ１２１６は、プロセッサ１２０２と、メモリ１２２０と、コンピュータ・システム１２００の他の構成要素との間でデータ信号を導き、プロセッサ・バス１２１０と、メモリ１２２０と、システムＩ／Ｏインターフェース１２２２との間でデータ信号をブリッジしてもよい。少なくとも一実施例では、システム論理チップは、グラフィックス・コントローラに結合するためのグラフィックス・ポートを提供してもよい。少なくとも一実施例では、ＭＣＨ１２１６は、高帯域幅メモリ経路１２１８を介してメモリ１２２０に結合されてもよく、グラフィックス／ビデオカード１２１２は、アクセラレーテッド・グラフィックス・ポート（「ＡＧＰ」：Accelerated Graphics Port）相互接続１２１４を介してＭＣＨ１２１６に結合されてもよい。

少なくとも一実施例では、コンピュータ・システム１２００は、ＭＣＨ１２１６をＩ／Ｏコントローラ・ハブ（「ＩＣＨ」：Ｉ／Ｏｃｏｎｔｒｏｌｌｅｒｈｕｂ）１２３０に結合するためのプロプライエタリ・ハブ・インターフェース・バスとしてシステムＩ／Ｏインターフェース１２２２を使用してもよい。少なくとも一実施例では、ＩＣＨ１２３０は、ローカルのＩ／Ｏバスを介していくつかのＩ／Ｏデバイスに直接接続を提供してもよい。少なくとも一実施例では、ローカルＩ／Ｏバスは、周辺装置をメモリ１２２０、チップセット、及びプロセッサ１２０２に接続するための高速Ｉ／Ｏバスを、限定することなく含んでもよい。例としては、オーディオ・コントローラ１２２９、ファームウェア・ハブ（「フラッシュＢＩＯＳ」）１２２８、ワイヤレス・トランシーバ１２２６、データ・ストレージ１２２４、ユーザ入力及びキーボードのインターフェースを含むレガシーＩ／Ｏコントローラ１２２３、ユニバーサル・シリアル・バス（「ＵＳＢ」：Universal Serial Bus）ポートなどのシリアル拡張ポート１２２７、及びネットワーク・コントローラ１２３４が、限定することなく含まれてもよい。少なくとも一実施例では、データ・ストレージ１２２４は、ハード・ディスク・ドライブ、フロッピー（登録商標）・ディスク・ドライブ、ＣＤ－ＲＯＭデバイス、フラッシュ・メモリ・デバイス、又は他の大容量ストレージ・デバイスを備えてもよい。

少なくとも一実施例では、図１２は、相互接続されたハードウェア・デバイス又は「チップ」を含むシステムを示すが、一方他の実施例では、図１２は例示的なＳｏＣを示してもよい。少なくとも一実施例では、図１２で示すデバイスは、プロプライエタリ相互接続、標準相互接続（たとえば、ＰＣＩｅ）、又はこれらの何らかの組合せで相互接続されてもよい。少なくとも一実施例では、コンピュータ・システム１２００の１つ又は複数の構成要素は、コンピュート・エクスプレス・リンク（ＣＸＬ：compute express link）相互接続を使用して相互接続されてもよい。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１２のシステムにおいて使用されてもよい。

少なくとも一実施例では、ｎ：ｍ構造化スパース性を強化するための置換５１２及び枝刈５２８は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１２のシステムにおいて使用されてもよい。

図１３は、少なくとも一実施例による、プロセッサ１３１０を利用するための電子デバイス１３００を示すブロック図である。少なくとも一実施例では、電子デバイス１３００は、たとえば限定することなく、ノートブック、タワー・サーバ、ラック・サーバ、ブレード・サーバ、ラップトップ、デスクトップ、タブレット、モバイル・デバイス、電話、組み込みコンピュータ、又は任意の他の好適な電子デバイスであってもよい。

少なくとも一実施例では、電子デバイス１３００は、任意の好適な数又は種類の構成要素、周辺装置、モジュール、若しくはデバイスに通信可能に結合されたプロセッサ１３１０を、限定することなく含んでもよい。少なくとも一実施例では、プロセッサ１３１０は、Ｉ２Ｃバス、システム・マネージメント・バス（「ＳＭＢｕｓ」：System Management Bus）、ロー・ピン・カウント（ＬＰＣ：Low Pin Count）バス、シリアル・ペリフェラル・インターフェース（「ＳＰＩ」：Serial Peripheral Interface）、ハイ・デフィニション・オーディオ（「ＨＤＡ」：High Definition Audio）バス、シリアル・アドバンス・テクノロジー・アタッチメント（「ＳＡＴＡ」：Serial Advance Technology Attachment）バス、ユニバーサル・シリアル・バス（「ＵＳＢ」）（バージョン１、２、３など）、又はユニバーサル非同期レシーバ／トランスミッタ（「ＵＡＲＴ」：ＵｎｉｖｅｒｓａｌＡｓｙｎｃｈｒｏｎｏｕｓＲｅｃｅｉｖｅｒ／Ｔｒａｎｓｍｉｔｔｅｒ）バスなどのバス若しくはインターフェースを使用して結合される。少なくとも一実施例では、図１３は、相互接続されたハードウェア・デバイス又は「チップ」を含むシステムを示すが、一方他の実施例では、図１３は例示的なＳｏＣを示してもよい。少なくとも一実施例では、図１３で示すデバイスは、プロプライエタリ相互接続、標準相互接続（たとえば、ＰＣＩｅ）、又はこれらの何らかの組合せで相互接続されてもよい。少なくとも一実施例では、図１３の１つ又は複数の構成要素は、コンピュート・エクスプレス・リンク（ＣＸＬ）相互接続を使用して相互接続されてもよい。

少なくとも一実施例では、図１３は、ディスプレイ１３２４、タッチ画面１３２５、タッチ・パッド１３３０、近距離無線通信ユニット（「ＮＦＣ」：Near Field Communications unit）１３４５、センサ・ハブ１３４０、熱センサ１３４６、エクスプレス・チップセット（「ＥＣ」：Express Chipset）１３３５、トラステッド・プラットフォーム・モジュール（「ＴＰＭ」：Trusted Platform Module）１３３８、ＢＩＯＳ／ファームウェア／フラッシュ・メモリ（「ＢＩＯＳ、ＦＷフラッシュ」：ＢＩＯＳ／ｆｉｒｍｗａｒｅ／ｆｌａｓｈｍｅｍｏｒｙ）１３２２、ＤＳＰ１３６０、ソリッド・ステート・ディスク（「ＳＳＤ」：Solid State Disk）若しくはハード・ディスク・ドライブ（「ＨＤＤ」：Hard Disk Drive）などのドライブ１３２０、ワイヤレス・ローカル・エリア・ネットワーク・ユニット（「ＷＬＡＮ」：wireless local area network unit）１３５０、Ｂｌｕｅｔｏｏｔｈユニット１３５２、ワイヤレス広域ネットワーク・ユニット（「ＷＷＡＮ」：Wireless Wide Area Network unit）１３５６、全地球測位システム（ＧＰＳ：Global Positioning System）ユニット１３５５、ＵＳＢ３．０カメラなどのカメラ（「ＵＳＢ３．０カメラ」）１３５４、及び／又は、たとえばＬＰＤＤＲ３規格に実装された低電力ダブル・データ・レート（「ＬＰＤＤＲ」：Low Power Double Data Rate）メモリ・ユニット（「ＬＰＤＤＲ３」）１３１５を含んでもよい。これらの構成要素は、それぞれ任意の好適なやり方で実装されてもよい。

少なくとも一実施例では、上述した構成要素を介して、他の構成要素がプロセッサ１３１０に通信可能に結合されてもよい。少なくとも一実施例では、加速度計１３４１、周囲光センサ（「ＡＬＳ」：Ambient Light Sensor）１３４２、コンパス１３４３、及びジャイロスコープ１３４４が、センサ・ハブ１３４０に通信可能に結合されてもよい。少なくとも一実施例では、熱センサ１３３９、ファン１３３７、キーボード１３３６、及びタッチ・パッド１３３０が、ＥＣ１３３５に通信可能に結合されてもよい。少なくとも一実施例では、スピーカ１３６３、ヘッドフォン１３６４、及びマイクロフォン（「ｍｉｃ」）１３６５が、オーディオ・ユニット（「オーディオ・コーデック及びクラスＤアンプ」）１３６２に通信可能に結合されてもよく、このオーディオ・ユニットが、ＤＳＰ１３６０に通信可能に結合されてもよい。少なくとも一実施例では、オーディオ・ユニット１３６２は、たとえば限定することなく、オーディオ・コーダ／デコーダ（「コーデック」）及びクラスＤアンプリファイアを含んでもよい。少なくとも一実施例では、ＳＩＭカード（「ＳＩＭ」）１３５７は、ＷＷＡＮユニット１３５６に通信可能に結合されてもよい。少なくとも一実施例では、ＷＬＡＮユニット１３５０及びＢｌｕｅｔｏｏｔｈユニット１３５２などの構成要素、並びにＷＷＡＮ１３５６は、次世代フォーム・ファクタ（「ＮＧＦＦ」：Next Generation Form Factor）に実装されてもよい。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１３のシステムにおいて使用されてもよい。

少なくとも一実施例では、ｎ：ｍ構造化スパース性を強化するための置換５１２及び枝刈５２８は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１３のシステムにおいて使用されてもよい。

図１４は、少なくとも一実施例による、コンピュータ・システム１４００を示す。少なくとも一実施例では、コンピュータ・システム１４００は、本開示全体を通して説明する様々なプロセス及び方法を実装するように構成される。

少なくとも一実施例では、コンピュータ・システム１４００は、限定することなく、少なくとも１つの中央処理装置（「ＣＰＵ」）１４０２を含み、この処理装置は、ＰＣＩ：ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ（「ペリフェラル・コンポーネント・インターコネクト」）、ペリフェラル・コンポーネント・インターコネクト・エクスプレス（「ＰＣＩ－Ｅｘｐｒｅｓｓ」：peripheral component interconnect express）、ＡＧＰ：ＡｃｃｅｌｅｒａｔｅｄＧｒａｐｈｉｃｓＰｏｒｔ（「アクセラレーテッド・グラフィックス・ポート」）、ハイパートランスポート、又は任意の他のバス若しくはポイントツーポイントの通信プロトコルなど、任意の好適なプロトコルを使用して実装された通信バス１４１０に接続される。少なくとも一実施例では、コンピュータ・システム１４００は、限定することなく、メイン・メモリ１４０４、及び（たとえば、ハードウェア、ソフトウェア、又はこれらの組合せとして実装される）制御論理を限定することなく含み、データは、ランダム・アクセス・メモリ（「ＲＡＭ」：random access memory）の形をとってもよいメイン・メモリ１４０４に記憶される。少なくとも一実施例では、ネットワーク・インターフェース・サブシステム（「ネットワーク・インターフェース」）１４２２は、コンピュータ・システム１４００を有する他のシステムからデータを受信し、コンピュータ・システム１４００を有する他のシステムにデータを送信するための他のコンピューティング・デバイス及びネットワークとのインターフェースを提供する。

少なくとも一実施例では、コンピュータ・システム１４００は、少なくとも一実施例では、限定することなく、入力デバイス１４０８、並列処理システム１４１２、及びディスプレイ・デバイス１４０６を含み、このディスプレイ・デバイスは、従来の陰極線管（「ＣＲＴ」：cathode ray tube）、液晶ディスプレイ（「ＬＣＤ」：liquid crystal display）、発光ダイオード（「ＬＥＤ」：light emitting diode）ディスプレイ、プラズマ・ディスプレイ、又は他の好適なディスプレイ技術を使用して実装することができる。少なくとも一実施例では、ユーザ入力は、キーボード、マウス、タッチ・パッド、マイクロフォンなどの入力デバイス１４０８から受け取る。少なくとも一実施例では、本明細書に記載の各モジュールを単一の半導体プラットフォームに置いて、処理システムを形成することができる。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１４のシステムにおいて使用されてもよい。

少なくとも一実施例では、ｎ：ｍ構造化スパース性を強化するための置換５１２及び枝刈５２８は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１４のシステムにおいて使用されてもよい。

図１５は、少なくとも一実施例による、コンピュータ・システム１５００を示す。少なくとも一実施例では、コンピュータ・システム１５００は、限定することなく、コンピュータ１５１０及びＵＳＢスティック１５２０を含んでもよい。少なくとも一実施例では、コンピュータ１５１０は、限定することなく、任意の数及びタイプのプロセッサ（図示せず）、並びにメモリ（図示せず）を含んでもよい。少なくとも一実施例では、コンピュータ１５１０は、限定することなく、サーバ、クラウド・インスタンス、ラップトップ、及びデスクトップ・コンピュータを含む。

少なくとも一実施例では、ＵＳＢスティック１５２０は、限定することなく、処理ユニット１５３０、ＵＳＢインターフェース１５４０、及びＵＳＢインターフェース論理１５５０を含む。少なくとも一実施例では、処理ユニット１５３０は、命令を実行することができる任意の命令実行システム、装置、又はデバイスであってもよい。少なくとも一実施例では、処理ユニット１５３０は、限定することなく、任意の数及びタイプの処理コア（図示せず）を含んでもよい。少なくとも一実施例では、処理ユニット１５３０は、機械学習に関連する任意の量及びタイプの演算を実行するように最適化された特定用途向け集積回路（「ＡＳＩＣ」）を備える。たとえば、少なくとも一実施例では、処理ユニット１５３０は、機械学習の推論演算を実行するように最適化されたテンソル処理ユニット（「ＴＰＣ」：tensor processing unit）である。少なくとも一実施例では、処理ユニット１５３０は、機械視覚及び機械学習の推論演算を実行するように最適化された視覚処理ユニット（「ＶＰＵ」）である。

少なくとも一実施例では、ＵＳＢインターフェース１５４０は、任意のタイプのＵＳＢコネクタ又はＵＳＢソケットであってもよい。たとえば、少なくとも一実施例では、ＵＳＢインターフェース１５４０は、データ及び電源用のＵＳＢ３．０Ｔｙｐｅ－Ｃのソケットである。少なくとも一実施例では、ＵＳＢインターフェース１５４０は、ＵＳＢ３．０Ｔｙｐｅ－Ａのコネクタである。少なくとも一実施例では、ＵＳＢインターフェース論理１５５０は、処理ユニット１５３０がＵＳＢコネクタ１５４０を介してデバイス（たとえばコンピュータ１５１０）と又はインターフェースをとることを可能にする任意の量及びタイプの論理を含んでもよい。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１５のシステムにおいて使用されてもよい。

少なくとも一実施例では、ｎ：ｍ構造化スパース性を強化するための置換５１２及び枝刈５２８は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図１５のシステムにおいて使用されてもよい。

図１６Ａは、複数のＧＰＵ１６１０（１）～１６１０（Ｎ）が、高速リンク１６４０（１）～１６４０（Ｎ）（たとえば、バス、ポイントツーポイント相互接続など）を介して複数のマルチ・コア・プロセッサ１６０５（１）～１６０５（Ｍ）に通信可能に結合されている例示的なアーキテクチャを示す。少なくとも一実施例では、高速リンク１６４０（１）～１６４０（Ｎ）は、４ＧＢ／秒、３０ＧＢ／秒、８０ＧＢ／秒、又はそれ以上の通信スループットをサポートする。少なくとも一実施例では、ＰＣＩｅ４．０又は５．０、及びＮＶＬｉｎｋ２．０を含むがこれらに限定されない様々な相互接続プロトコルが使用されてもよい。様々な図において、「Ｎ」及び「Ｍ」は、正の整数を表し、その値は図ごとに異なってもよい。

さらに、一実施例では、ＧＰＵ１６１０のうちの２つ以上は高速リンク１６２９（１）～１６２９（２）を介して相互接続され、これらは、高速リンク１６４０（１）～１６４０（Ｎ）に使用されたものと同様の又は異なるプロトコル／リンクを使用して実装されてもよい。同様に、マルチ・コア・プロセッサ１６０５のうちの２つ以上は、高速リンク１６２８を介して接続されてもよく、この高速リンク１６２８は、２０ＧＢ／秒、３０ＧＢ／秒、１２０ＧＢ／秒、又はそれ以上で動作する対称型マルチプロセッサ（ＳＭＰ）バスとすることができる。或いは、図１６Ａに示す様々なシステム構成要素間のすべての通信は、同様のプロトコル／リンクを使用して（たとえば、共通の相互接続ファブリックを介して）実現されてもよい。

一実施例では、各マルチ・コア・プロセッサ１６０５は、それぞれメモリ相互接続１６２６（１）～１６２６（Ｍ）を介してプロセッサ・メモリ１６０１（１）～１６０１（Ｍ）に通信可能に結合され、各ＧＰＵ１６１０（１）～１６１０（Ｎ）は、それぞれＧＰＵメモリ・相互接続１６５０（１）～１６５０（Ｎ）を介してＧＰＵメモリ１６２０（１）～１６２０（Ｎ）に通信可能に結合される。少なくとも一実施例では、メモリ相互接続１６２６及び１６５０は、同様の又は異なるメモリ・アクセス技術を利用してもよい。例として、限定ではなく、プロセッサ・メモリ１６０１（１）～１６０１（Ｍ）及びＧＰＵメモリ１６２０は、（積層ＤＲＡＭを含む）ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）、グラフィックスＤＤＲＳＤＲＡＭ（ＧＤＤＲ）（たとえば、ＧＤＤＲ５、ＧＤＤＲ６）、又は高帯域幅メモリ（ＨＢＭ）などの揮発性メモリであってもよく、且つ／又は３ＤＸＰｏｉｎｔ又はＮａｎｏ－Ｒａｍなどの不揮発性メモリであってもよい。少なくとも一実施例では、（たとえば、２レベルのメモリ（２ＬＭ）階層を使用して）、プロセッサ・メモリ１６０１のいくつかの部分は揮発性メモリであってもよく、別の部分は不揮発性メモリであってもよい。

本明細書に記載するように、様々なマルチ・コア・プロセッサ１６０５及びＧＰＵ１６１０は、それぞれ特定のメモリ１６０１、１６２０に物理的に結合されてもよい、及び／又は仮想システムのアドレス空間（「実効アドレス」空間とも呼ぶ）が様々な物理メモリ間に分配されている統合されたメモリ・アーキテクチャが実装されてもよい。たとえば、プロセッサ・メモリ１６０１（１）～１６０１（Ｍ）はそれぞれ、６４ＧＢのシステム・メモリ・アドレス空間を備えてもよく、ＧＰＵメモリ１６２０（１）～１６２０（Ｎ）はそれぞれ、３２ＧＢのシステム・メモリ・アドレス空間を備えてもよく、Ｍ＝２でＮ＝４の場合、合計２５６ＧＢのアドレス指定可能メモリが得られる。Ｎ及びＭについて他の値が考えられる。

図１６Ｂは、１つの例示的な実施例によるマルチ・コア・プロセッサ１６０７とグラフィックス加速モジュール１６４６との相互接続のさらなる詳細事項を示す。少なくとも一実施例では、グラフィックス加速モジュール１６４６は、高速リンク１６４０（たとえば、ＰＣＩｅバス、ＮＶＬｉｎｋなど）を介してプロセッサ１６０７に結合されるライン・カードに集積された１つ又は複数のＧＰＵチップを含んでもよい。少なくとも一実施例では、或いは、グラフィックス加速モジュール１６４６は、プロセッサ１６０７を有するパッケージ又はチップに集積されてもよい。

少なくとも一実施例では、プロセッサ１６０７は、複数のコア１６６０Ａ～１６６０Ｄを含み、それぞれのコアが、トランスレーション・ルックアサイド・バッファ（ＴＬＢ：translation lookaside buffer）１６６１Ａ～１６６１Ｄと、１つ又は複数のキャッシュ１６６２Ａ～１６６２Ｄとを有する。少なくとも一実施例では、コア１６６０Ａ～１６６０Ｄは、命令を実行しデータを処理するための、図示していない様々な他の構成要素を含んでもよい。少なくとも一実施例では、キャッシュ１６６２Ａ～１６６２Ｄは、レベル１（Ｌ１）及びレベル２（Ｌ２）のキャッシュを備えてもよい。さらに、１つ又は複数の共有キャッシュ１６５６が、キャッシュ１６６２Ａ～１６６２Ｄに含まれ、コア１６６０Ａ～１６６０Ｄのセットによって共有されてもよい。たとえば、プロセッサ１６０７の一実施例は、２４個のコアを含み、各コアが、独自のＬ１キャッシュ、１２個の共有Ｌ２キャッシュ、及び１２個の共有Ｌ３キャッシュを有する。この実施例では、１つ又は複数のＬ２及びＬ３のキャッシュが、２つの隣接するコアによって共有される。少なくとも一実施例では、プロセッサ１６０７及びグラフィックス加速モジュール１６４６は、システム・メモリ１６１４に接続されており、このシステム・メモリは、図１６Ａのプロセッサ・メモリ１６０１（１）～１６０１（Ｍ）を含んでもよい。

少なくとも一実施例では、様々なキャッシュ１６６２Ａ～１６６２Ｄ、１６５６、及びシステム・メモリ１６１４に記憶されたデータ及び命令については、コヒーレンス・バス１６６４を介したコア間通信によって、コヒーレンスが維持される。少なくとも一実施例では、たとえば、各キャッシュは、特定のキャッシュ・ラインに対する読取り又は書込みを検出したことに応答して、コヒーレンス・バス１６６４を介して通信するために、それに関連するキャッシュ・コヒーレンス論理／回路を有してもよい。少なくとも一実施例では、キャッシュ・アクセスを監視するために、コヒーレンス・バス１６６４を介してキャッシュ・スヌーピング・プロトコルが実装される。

少なくとも一実施例では、プロキシ回路１６２５が、グラフィックス加速モジュール１６４６をコヒーレンス・バス１６６４に通信可能に結合して、グラフィックス加速モジュール１６４６がコア１６６０Ａ～１６６０Ｄのピアとしてキャッシュ・コヒーレンス・プロトコルに参加できるようにする。特に、少なくとも一実施例では、インターフェース１６３５は、高速リンク１６４０を介してプロキシ回路１６２５への接続を提供し、インターフェース１６３７は、グラフィックス加速モジュール１６４６を高速リンク１６４０に接続する。

少なくとも一実施例では、アクセラレータ統合回路１６３６は、グラフィックス加速モジュール１６４６の複数のグラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）の代わりに、キャッシュ管理、メモリ・アクセス、コンテンツ管理、及び割込み管理のサービスを提供する。少なくとも一実施例では、グラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）はそれぞれ、別個のグラフィックス・プロセッシング・ユニット（ＧＰＵ）を備えてもよい。少なくとも一実施例では、或いは、グラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）は、ＧＰＵの中に、グラフィックス実行ユニット、メディア処理エンジン（たとえば、ビデオ・エンコーダ／デコーダ）、サンプラ、及びブリット・エンジンなど、異なるタイプのグラフィックス処理エンジンを備えてもよい。少なくとも一実施例では、グラフィックス加速モジュール１６４６は、複数のグラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）を有するＧＰＵであってもよく、又はグラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）は、共通のパッケージ、ライン・カード、若しくはチップに集積された個々のＧＰＵであってもよい。

少なくとも一実施例では、アクセラレータ統合回路１６３６は、仮想から物理のメモリ・トランスレーション（実効から実（ｅｆｆｅｃｔｉｖｅ－ｔｏ－ｒｅａｌ）のメモリ・トランスレーションとも呼ばれる）など、様々なメモリ管理機能を実行するためのメモリ管理ユニット（ＭＭＵ）１６３９、及びシステム・メモリ１６１４にアクセスするためのメモリ・アクセス・プロトコルを含む。少なくとも一実施例では、ＭＭＵ１６３９は、仮想／実効から物理／実へのアドレス・トランスレーションをキャッシュするためのトランスレーション・ルックアサイド・バッファ（ＴＬＢ）（図示せず）も含むことができる。少なくとも一実施例では、キャッシュ１６３８は、グラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）から効率的にアクセスできるように、コマンド及びデータを記憶することができる。少なくとも一実施例では、キャッシュ１６３８及びグラフィックス・メモリ１６３３（１）～１６３３（Ｍ）に記憶されたデータは、場合によりフェッチ・ユニット１６４４を使用して、コア・キャッシュ１６６２Ａ～１６６２Ｄ、１６５６、及びシステム・メモリ１６１４とコヒーレントに保たれる。述べたように、これは、キャッシュ１６３８及びメモリ１６３３（１）～１６３３（Ｍ）の代わりにプロキシ回路１６２５を介して（たとえば、プロセッサ・キャッシュ１６６２Ａ～１６６２Ｄ、１６５６におけるキャッシュ・ラインの修正／アクセスに関するアップデートをキャッシュ１６３８に送り、キャッシュ１６３８からのアップデートを受け取って）実現されてもよい。

少なくとも一実施例では、レジスタ１６４５のセットが、グラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）によって実行されるスレッドのためのコンテキスト・データを記憶し、コンテキスト管理回路１６４８が、スレッド・コンテキストを管理する。たとえば、コンテキスト管理回路１６４８は、コンテキスト・スイッチ中に様々なスレッドのコンテキストを保存及び復元するために、保存及び復元の動作を実行してもよい（たとえば、ここで、第２のスレッドをグラフィックス処理エンジンによって実行できるように、第１のスレッドが保存され、第２のスレッドが記憶される）。たとえば、コンテキスト・スイッチ時に、コンテキスト管理回路１６４８は、現在のレジスタ値を（たとえば、コンテキスト・ポインタによって識別された）メモリの指定領域に記憶してもよい。次いで、コンテキストに戻るときに、コンテキスト管理回路１６４８がレジスタ値を復元してもよい。少なくとも一実施例では、割込み管理回路１６４７は、システム・デバイスから受け取った割込みを受け取り、処理する。

一実装形態では、グラフィックス処理エンジン１６３１からの仮想／実効アドレスは、ＭＭＵ１６３９によってシステム・メモリ１６１４の実／物理アドレスにトランスレートされる。少なくとも一実施例では、アクセラレータ統合回路１６３６の一実施例は、複数（たとえば、４個、８個、１６個）のグラフィックス・アクセラレータ・モジュール１６４６、及び／又は他のアクセラレータ・デバイスをサポートする。少なくとも一実施例では、グラフィックス・アクセラレータ・モジュール１６４６は、プロセッサ１６０７上で実行される単一のアプリケーション専用のものであってもよく、又は複数のアプリケーション間で共有されてもよい。少なくとも一実施例では、グラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）のリソースが複数のアプリケーション又は仮想機械（ＶＭ）と共有される仮想化グラフィックス実行環境が存在する。少なくとも一実施例では、リソースは、「スライス」に細分化されてもよく、このスライスが、処理要件、並びにＶＭ及び／又はアプリケーションに関連付けられた優先度に基づき、異なるＶＭ及び／又はアプリケーションに割り振られる。

少なくとも一実施例では、アクセラレータ統合回路１６３６は、グラフィックス加速モジュール１６４６のためのシステムへのブリッジとして機能し、アドレス・トランスレーション及びシステム・メモリのキャッシュ・サービスを提供する。さらに、少なくとも一実施例では、アクセラレータ統合回路１６３６は、グラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）の仮想化、割込み、及びメモリ管理をホスト・プロセッサが管理するための仮想化設備を提供してもよい。

少なくとも一実施例では、グラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）のハードウェア・リソースは、ホスト・プロセッサ１６０７が見る実アドレス空間に明示的にマッピングされるので、いかなるホスト・プロセッサも、実効アドレス値を使用して、これらのリソースに直接アドレス指定することができる。少なくとも一実施例では、アクセラレータ統合回路１６３６の１つの機能は、グラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）を、システムにとって独立したユニットに見えるように物理的に分離することである。

少なくとも一実施例では、１つ又は複数のグラフィックス・メモリ１６３３（１）～１６３３（Ｍ）はそれぞれ、グラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）のそれぞれに結合され、Ｎ＝Ｍである。少なくとも一実施例では、グラフィックス・メモリ１６３３（１）～１６３３（Ｍ）は、それぞれのグラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）によって処理される命令及びデータを記憶する。少なくとも一実施例では、グラフィックス・メモリ１６３３（１）～１６３３（Ｍ）は、（積層ＤＲＡＭを含む）ＤＲＡＭ、ＧＤＤＲメモリ、（たとえば、ＧＤＤＲ５、ＧＤＤＲ６）、又はＨＢＭなどの揮発性メモリであってもよく、且つ／又は３ＤＸＰｏｉｎｔ又はＮａｎｏ－Ｒａｍなどの不揮発性メモリであってもよい。

一実施例では、高速リンク１６４０を介したデータ・トラフィックを低減するために、グラフィックス・メモリ１６３３（１）～１６３３（Ｍ）に記憶されるデータが、グラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）によって最も頻繁に使用されることになるデータであるようにし、好ましくはコア１６６０Ａ～１６６０Ｄによっては使用されない（少なくとも頻繁には使用されない）データであるようにするためのバイアス技法が使用される。同様に、少なくとも一実施例では、バイアス機構は、コアが必要とする（したがって、好ましくはグラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）は必要としない）データを、コアのキャッシュ１６６２Ａ～１６６２Ｄ、１６５６、及びシステム・メモリ１６１４の中に保つよう試みる。

図１６Ｃは、アクセラレータ統合回路１６３６がプロセッサ１６０７内に一体化されている別の例示的な実施例を示す。この実施例では、グラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）は、インターフェース１６３７及びインターフェース１６３５により、高速リンク１６４０を介して直接アクセラレータ統合回路１６３６と通信する（この場合も任意の形のバス又はインターフェース・プロトコルであり得る）。少なくとも一実施例では、アクセラレータ統合回路１６３６は、図１６Ｂに関して説明したのと同様の動作を実行してもよいが、コヒーレンス・バス１６６４及びキャッシュ１６６２Ａ～１６６２Ｄ、１６５６に近接していることを考えると、潜在的には、より高いスループットで動作してもよい。一実施例は、（グラフィックス加速モジュールの仮想化のない）専用プロセスのプログラミング・モデルと、（仮想化のある）共有プログラミング・モデルとを含む異なるプログラミング・モデルをサポートし、これらは、アクセラレータ統合回路１６３６によって制御されるプログラミング・モデルと、グラフィックス加速モジュール１６４６によって制御されるプログラミング・モデルとを含んでもよい。

少なくとも一実施例では、グラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）は、単一のオペレーティング・システムの下で単一のアプリケーション又はプロセスに専用のものである。少なくとも一実施例では、単一のアプリケーションは、他のアプリケーション要求をグラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）に集中させて、ＶＭ／パーティション内で仮想化を実現することができる。

少なくとも一実施例では、グラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）は、複数のＶＭ／アプリケーション・パーティションによって共有されてもよい。少なくとも一実施例では、共有モデルはシステム・ハイパーバイザを使用して、グラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）を仮想化して、各オペレーティング・システムによるアクセスを可能にしてもよい。少なくとも一実施例では、ハイパーバイザのない単一パーティションのシステムでは、グラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）は、オペレーティング・システムによって所有される。少なくとも一実施例では、オペレーティング・システムは、グラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）を仮想化して、各プロセス又はアプリケーションへのアクセスを提供することができる。

少なくとも一実施例では、グラフィックス加速モジュール１６４６又は個々のグラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）は、プロセス・ハンドルを使用して、プロセス要素を選択する。少なくとも一実施例では、プロセス要素は、システム・メモリ１６１４に記憶されており、本明細書に記載の実効アドレスから実アドレスへのトランスレーション技法を使用してアドレス指定可能である。少なくとも一実施例では、プロセス・ハンドルは、ホスト・プロセスのコンテキストをグラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）に登録する（すなわち、プロセス要素リンク・リストにプロセス要素を追加するためのシステム・ソフトウェアをコールする）ときに、ホスト・プロセスに提供される実装固有の値であってもよい。少なくとも一実施例では、プロセス・ハンドルの下位１６ビットは、プロセス要素リンク・リスト内のプロセス要素のオフセットであってもよい。

図１６Ｄは、例示的なアクセラレータ統合スライス１６９０を示す。少なくとも一実施例では、「スライス」は、アクセラレータ統合回路１６３６の処理リソースの指定部分を備える。少なくとも一実施例では、システム・メモリ１６１４内のアプリケーション実効アドレス空間１６８２は、プロセス要素１６８３を記憶する。少なくとも一実施例では、プロセス要素１６８３は、プロセッサ１６０７上で実行されているアプリケーション１６８０からのＧＰＵ呼出し１６８１に応答して、記憶される。少なくとも一実施例では、プロセス要素１６８３は、対応するアプリケーション１６８０のプロセス状態を収容する。少なくとも一実施例では、プロセス要素１６８３に収容されたワーク記述子（ＷＤ）１６８４は、アプリケーションによって要求される単一のジョブとすることができ、又はジョブのキューに対するポインタを収容してもよい。少なくとも一実施例では、ＷＤ１６８４は、アプリケーションの実効アドレス空間１６８２におけるジョブ要求キューに対するポインタである。

少なくとも一実施例では、グラフィックス加速モジュール１６４６及び／又は個々のグラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）は、システム内のプロセスのすべて又はサブセットによって共有されることが可能である。少なくとも一実施例では、プロセス状態を設定し、ＷＤ１６８４をグラフィックス加速モジュール１６４６に送信して、仮想化環境においてジョブを開始するためのインフラストラクチャが、含められてもよい。

少なくとも一実施例では、専用のプロセス・プログラミング・モデルは、実装固有である。少なくとも一実施例では、このモデルでは、単一のプロセスが、グラフィックス加速モジュール１６４６又は個々のグラフィックス処理エンジン１６３１を所有する。少なくとも一実施例では、グラフィックス加速モジュール１６４６が単一のプロセスによって所有されるとき、グラフィックス加速モジュール１６４６が割り当てられたときに、ハイパーバイザは、所有パーティションについてアクセラレータ統合回路１６３６を初期化し、オペレーティング・システムは、所有プロセスについてアクセラレータ統合回路１６３６を初期化する。

少なくとも一実施例では、動作時、アクセラレータ統合スライス１６９０内のＷＤフェッチ・ユニット１６９１は、グラフィックス加速モジュール１６４６の１つ又は複数のグラフィックス処理エンジンによって行われることになるワークの表示を含む次のＷＤ１６８４をフェッチする。少なくとも一実施例では、図示してあるように、ＷＤ１６８４からのデータは、レジスタ１６４５に記憶され、ＭＭＵ１６３９、割込み管理回路１６４７、及び／又はコンテキスト管理回路１６４８によって使用されてもよい。たとえば、ＭＭＵ１６３９の一実施例は、ＯＳ仮想アドレス空間１６８５内のセグメント／ページ・テーブル１６８６にアクセスするためのセグメント／ページ・ウォーク回路を含む。少なくとも一実施例では、割込み管理回路１６４７は、グラフィックス加速モジュール１６４６から受け取った割込みイベント１６９２を処理してもよい。少なくとも一実施例では、グラフィックス動作を実行するとき、グラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）によって生成された実効アドレス１６９３は、ＭＭＵ１６３９によって実アドレスにトランスレートされる。

一実施例では、レジスタ１６４５が、各グラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）、及び／又はグラフィックス加速モジュール１６４６について複製され、ハイパーバイザ又はオペレーティング・システムによって初期化されてもよい。少なくとも一実施例では、これらの複製されたレジスタのそれぞれは、アクセラレータ統合スライス１６９０に含まれてもよい。ハイパーバイザによって初期化されてもよい例示的なレジスタを、表１に示す。

オペレーティング・システムによって初期化されてもよい例示的なレジスタを、表２に示す。

少なくとも一実施例では、各ＷＤ１６８４は、特定のグラフィックス加速モジュール１６４６及び／又はグラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）に固有のものである。少なくとも一実施例では、ＷＤ１６８４は、グラフィックス処理エンジン１６３１（１）～１６３１（Ｎ）がワークを行うために必要とするすべての情報を収容し、又は完了すべきワークのコマンド・キューをアプリケーションがセットアップした場所であるメモリ・ロケーションを指すポインタとすることができる。

図１６Ｅは、共有モデルの例示的な一実施例のさらなる詳細事項を示す。この実施例は、プロセス要素リスト１６９９が記憶されているハイパーバイザ実アドレス空間１６９８を含む。少なくとも一実施例では、ハイパーバイザ実アドレス空間１６９８は、オペレーティング・システム１６９５のグラフィックス加速モジュール・エンジンを仮想化するハイパーバイザ１６９６を介してアクセス可能である。

少なくとも一実施例では、共有プログラミング・モデルは、システム内のすべて又はサブセットのパーティションからのすべて又はサブセットのプロセスが、グラフィックス加速モジュール１６４６を使用できるようにする。少なくとも一実施例では、グラフィックス加速モジュール１６４６が複数のプロセス及びパーティションによって共有されるプログラミング・モデルが、２つ、つまり時間スライス共有及びグラフィックス指定共有（ｇｒａｐｈｉｃｓ－ｄｉｒｅｃｔｅｄｓｈａｒｅｄ）が存在する。

少なくとも一実施例では、このモデルでは、システム・ハイパーバイザ１６９６がグラフィックス加速モジュール１６４６を所有しており、その機能をすべてのオペレーティング・システム１６９５にとって利用可能にする。少なくとも一実施例では、システム・ハイパーバイザ１６９６による仮想化をグラフィックス加速モジュール１６４６がサポートするために、グラフィックス加速モジュール１６４６は、（１）アプリケーションのジョブ要求は自律でなくてはならず（すなわち、ジョブ間で状態を維持する必要はなく）、又はグラフィックス加速モジュール１６４６が、コンテキストの保存及び復元の機構を提供しなくてはならない、（２）アプリケーションのジョブ要求は、あらゆるトランスレーション誤りも含めて指定された時間量で完了するようグラフィックス加速モジュール１６４６によって保証され、又はグラフィックス加速モジュール１６４６が、ジョブの処理をプリエンプションする機能を提供する、及び（３）グラフィックス加速モジュール１６４６は、指定の共有プログラミング・モデルで動作しているとき、プロセス間で公平性が保証されなくてはならないなどのいくつかの要件に準拠してもよい。

少なくとも一実施例では、アプリケーション１６８０は、グラフィックス加速モジュールのタイプ、ワーク記述子（ＷＤ）、権限マスク・レジスタ（ＡＭＲ）値、及びコンテキスト保存／復元エリア・ポインタ（ＣＳＲＰ）を伴って、オペレーティング・システム１６９５のシステム・コールを行う必要がある。少なくとも一実施例では、グラフィックス加速モジュールのタイプは、システム・コールで目的とする加速機能を記述している。少なくとも一実施例では、グラフィックス加速モジュールのタイプは、システム固有値であってもよい。少なくとも一実施例では、ＷＤは、グラフィックス加速モジュール１６４６のために特にフォーマット化されており、グラフィックス加速モジュール１６４６のコマンド、ユーザ定義の構造を指す実効アドレス・ポインタ、コマンドのキューを指す実効アドレス・ポインタ、又はグラフィックス加速モジュール１６４６によって行われるワークを記述するための任意の他のデータ構造の形とすることができる。

少なくとも一実施例では、ＡＭＲ値は、現在のプロセスに使用するためのＡＭＲ状態である。少なくとも一実施例では、オペレーティング・システムに渡される値は、ＡＭＲをセッティングするアプリケーションと同様である。少なくとも一実施例では、アクセラレータ統合回路１６３６（図示せず）及びグラフィックス加速モジュール１６４６の実装形態が、ユーザ権限マスク・オーバーライド・レジスタ（ＵＡＭＯＲ）をサポートしていない場合、オペレーティング・システムは、ＡＭＲ値に現在のＵＡＭＯＲ値を適用してから、ハイパーバイザ・コールにＡＭＲを渡してもよい。少なくとも一実施例では、ハイパーバイザ１６９６は、任意選択で、現在の権限マスク・オーバーライド・レジスタ（ＡＭＯＲ）値を適用してから、ＡＭＲをプロセス要素１６８３に入れてもよい。少なくとも一実施例では、ＣＳＲＰは、グラフィックス加速モジュール１６４６がコンテキスト状態を保存及び復元するためのアプリケーションの実効アドレス空間１６８２内のエリアの実効アドレスを収容するレジスタ１６４５のうちの１つである。少なくとも一実施例では、ジョブ間で、又はジョブがプリエンプションされるときに、いかなる状態も保存する必要のない場合は、このポインタは任意選択である。少なくとも一実施例では、コンテキスト保存／復元エリアは、ピン留めされたシステム・メモリであってもよい。

システム・コールを受け取ると、オペレーティング・システム１６９５は、アプリケーション１６８０が登録済みであり、グラフィックス加速モジュール１６４６を使用する権限が与えられていることを検証してもよい。少なくとも一実施例では、次いで、オペレーティング・システム１６９５は、表３に示す情報を伴ってハイパーバイザ１６９６にコールする。

少なくとも一実施例では、ハイパーバイザ・コールを受け取ると、ハイパーバイザ１６９６は、オペレーティング・システム１６９５が登録済みであり、グラフィックス加速モジュール１６４６を使用する権限が与えられていることを検証する。少なくとも一実施例では、次いでハイパーバイザ１６９６は、プロセス要素１６８３を、対応するグラフィックス加速モジュール１６４６のタイプのプロセス要素リンク・リストに入れる。少なくとも一実施例では、プロセス要素は、表４に示す情報を含んでもよい。

少なくとも一実施例では、ハイパーバイザは、複数のアクセラレータ統合スライス１６９０のレジスタ１６４５を初期化する。

図１６Ｆに示すように、少なくとも一実施例では、物理プロセッサ・メモリ１６０１（１）～１６０１（Ｎ）及びＧＰＵメモリ１６２０（１）～１６２０（Ｎ）にアクセスするために使用される共通の仮想メモリ・アドレス空間を介してアドレス指定可能である統合メモリが使用される。この実装形態では、ＧＰＵ１６１０（１）～１６１０（Ｎ）で実行される動作は、プロセッサ・メモリ１６０１（１）～１６０１（Ｎ）にアクセスするのと同じ仮想／実効メモリ・アドレス空間を利用し、且つその逆も同様であり、それによりプログラマビリティが簡単になる。少なくとも一実施例では、仮想／実効アドレス空間の第１の部分はプロセッサ・メモリ１６０１（１）に割り振られ、第２の部分は第２のプロセッサ・メモリ１６０１（Ｎ）に割り振られ、第３の部分はＧＰＵメモリ１６２０（１）に割り振られるというように続く。少なくとも一実施例では、仮想／実効メモリ空間全体（実効アドレス空間と呼ばれることもある）は、これによりプロセッサ・メモリ１６０１及びＧＰＵメモリ１６２０のそれぞれにわたって分配されて、仮想アドレスが物理メモリにマッピングされた状態で、いずれかのプロセッサ又はＧＰＵが、いずれかの物理メモリにアクセスできるようになる。

一実施例では、ＭＭＵ１６３９Ａ～１６３９Ｅのうちの１つ又は複数の中のバイアス／コヒーレンス管理回路１６９４Ａ～１６９４Ｅは、１つ又は複数のホスト・プロセッサ（たとえば、１６０５）のキャッシュとＧＰＵ１６１０のキャッシュとの間でキャッシュ・コヒーレンスを確保し、バイアス技法を実装して、ある特定のタイプのデータが記憶されるべき物理メモリを示す。少なくとも一実施例では、バイアス／コヒーレンス管理回路１６９４Ａ～１６９４Ｅの複数のインスタンスが図１６Ｆに示されるが、バイアス／コヒーレンス回路は、１つ又は複数のホスト・プロセッサ１６０５のＭＭＵ内に実装されてもよく、且つ／又はアクセラレータ統合回路１６３６内に実装されてもよい。

一実施例は、ＧＰＵメモリ１６２０をシステム・メモリの一部としてマッピングできるようにし、共有仮想メモリ（ＳＶＭ）技法を使用してアクセス可能にすることができるが、完全なシステム・キャッシュ・コヒーレンスに関連する性能の低下が生じることはない。少なくとも一実施例では、ＧＰＵメモリ１６２０が、面倒なキャッシュ・コヒーレンス・オーバーヘッドなく、システム・メモリとしてアクセス可能であることにより、ＧＰＵオフロードのための有益な動作環境が提供される。少なくとも一実施例では、この構成によって、従来のＩ／ＯＤＭＡデータ・コピーのオーバーヘッドがなくても、ホスト・プロセッサ１６０５ソフトウェアがオペランドを設定し、計算結果にアクセスすることが可能になる。少なくとも一実施例では、こうした従来のコピーは、ドライバ・コール、割込み、及びメモリ・マップドＩ／Ｏ（ＭＭＩＯ）アクセスを必要とし、これらはすべて、単純なメモリ・アクセスより非効率的である。少なくとも一実施例では、キャッシュ・コヒーレンス・オーバーヘッドなしでＧＰＵメモリ１６２０にアクセスできることが、オフロードされた計算の実行時間に不可欠であり得る。少なくとも一実施例では、たとえば、かなりのストリーミング書込みメモリ・トラフィックがある場合には、キャッシュ・コヒーレンス・オーバーヘッドは、ＧＰＵ１６１０が見る有効な書込み帯域幅を大幅に低減することある。少なくとも一実施例では、オペランド設定の効率、結果へのアクセスの効率、及びＧＰＵ計算の効率は、ＧＰＵオフロードの有効性を判定する際に役立つことがある。

少なくとも一実施例では、ＧＰＵバイアス及びホスト・プロセッサ・バイアスの選択は、バイアス・トラッカー・データ構造によって決められる。少なくとも一実施例では、たとえばバイアス・テーブルが使用されてもよく、このテーブルは、ＧＰＵ付きメモリ・ページ当たり１ビット又は２ビットを含むページ粒度構造であってもよい（たとえば、メモリ・ページの粒度で制御されてもよい）。少なくとも一実施例では、バイアス・テーブルは、（たとえば、バイアス・テーブルの頻繁に使用された／最近使用されたエントリをキャッシュするための）バイアス・キャッシュがＧＰＵ１６１０にある状態又はない状態で、１つ又は複数のＧＰＵメモリ１６２０の奪われたメモリ範囲（ｓｔｏｌｅｎｍｅｍｏｒｙｒａｎｇｅ）において実装されてもよい。或いは、少なくとも一実施例では、バイアス・テーブル全体が、ＧＰＵ内に維持されてもよい。

少なくとも一実施例では、ＧＰＵ付きメモリ１６２０への各アクセスに関連付けられたバイアス・テーブルのエントリが、ＧＰＵメモリへの実際のアクセスより先にアクセスされて、以下の動作を生じさせる。少なくとも一実施例では、ＧＰＵバイアス内での自らのページを見いだすＧＰＵ１６１０からのローカル要求が、対応するＧＰＵメモリ１６２０に直接転送される。少なくとも一実施例では、ホスト・バイアスにおいて自らのページを見いだすＧＰＵからのローカル要求は、（たとえば、上述した高速リンクを介して）プロセッサ１６０５に転送される。少なくとも一実施例では、要求されたページをホスト・プロセッサ・バイアスにおいて見いだすプロセッサ１６０５からの要求は、通常のメモリ読取りと同様に要求を完了させる。或いは、ＧＰＵバイアス化ページに向けられた要求は、ＧＰＵ１６１０に転送されてもよい。少なくとも一実施例では、次いでＧＰＵは、現在ページを使用していない場合、ホスト・プロセッサ・バイアスにページを移行してもよい。少なくとも一実施例では、ページのバイアス状態は、ソフトウェア・ベースの機構、ハードウェア支援型ソフトウェア・ベースの機構のいずれかによって、又は限られた事例のセットについては、単にハードウェア・ベースの機構によって、変更することができる。

少なくとも一実施例では、バイアス状態を変更するための１つの機構は、ＡＰＩコール（たとえば、ＯｐｅｎＣＬ）を利用し、このＡＰＩコールが、ＧＰＵのデバイス・ドライバをコールし、このデバイス・ドライバが、ＧＰＵにメッセージを送って（又はコマンド記述子をキューに加えて）、バイアス状態を変更し、一部の移行については、ホストにおいてキャッシュ・フラッシング動作を実行するよう、ＧＰＵを導く。少なくとも一実施例では、キャッシュ・フラッシング動作は、ホスト・プロセッサ１６０５のバイアスからＧＰＵバイアスへの移行のために使用されるが、反対向きの移行には使用されない。

一実施例では、キャッシュ・コヒーレンスは、ホスト・プロセッサ１６０５によってキャッシュできないＧＰＵバイアス化ページを一時的にレンダリングすることによって、維持される。少なくとも一実施例では、これらのページにアクセスするために、プロセッサ１６０５は、ＧＰＵ１６１０からのアクセスを要求してもよく、ＧＰＵ１６１０は、すぐにアクセスを許可してもよく、又は許可しなくてもよい。少なくとも一実施例では、したがって、プロセッサ１６０５とＧＰＵ１６１０との間の通信を低減するために、ＧＰＵバイアス化ページが、ＧＰＵによって要求されるが、ホスト・プロセッサ１６０５によっては要求されないようにすること、又はその逆にすることが有益である。

１つ又は複数の実施例を実行するために、ハードウェア構造体８１５が使用される。ハードウェア構造体８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書に提供され得る。

図１７は、本明細書に記載の様々な実施例による、１つ又は複数のＩＰコアを使用して作製することができる例示的な集積回路及び関連グラフィックス・プロセッサを示す。図示してあるものに加えて、少なくとも一実施例では、追加のグラフィックス・プロセッサ／コア、周辺装置インターフェース・コントローラ、若しくは汎用プロセッサ・コアを含む他の論理及び回路が含まれてもよい。

図１７は、少なくとも一実施例による１つ又は複数のＩＰコアを使用して作製することができる例示的なシステム・オン・チップ集積回路１７００を示すブロック図である。少なくとも一実施例では、集積回路１７００は、１つ又は複数のアプリケーション・プロセッサ１７０５（たとえば、ＣＰＵ）、少なくとも１つのグラフィックス・プロセッサ１７１０を含み、さらに、画像プロセッサ１７１５及び／又はビデオ・プロセッサ１７２０を含んでもよく、これらのいずれもが、モジュール式ＩＰコアであってもよい。少なくとも一実施例では、集積回路１７００は、ＵＳＢコントローラ１７２５、ＵＡＲＴコントローラ１７３０、ＳＰＩ／ＳＤＩＯコントローラ１７３５、及びＩ２２Ｓ／Ｉ２２Ｃコントローラ１７４０を含む周辺装置又はバス論理を含む。少なくとも一実施例では、集積回路１７００は、ハイ・デフィニション・マルチメディア・インターフェース（ＨＤＭＩ（登録商標）：ｈｉｇｈ－ｄｅｆｉｎｉｔｉｏｎｍｕｌｔｉｍｅｄｉａｉｎｔｅｒｆａｃｅ（登録商標））コントローラ１７５０及びモバイル・インダストリ・プロセッサ・インターフェース（ＭＩＰＩ）ディスプレイ・インターフェース１７５５のうちの１つ又は複数に結合されるディスプレイ・デバイス１７４５を含むことができる。少なくとも一実施例では、フラッシュ・メモリ及びフラッシュ・メモリ・コントローラを含むフラッシュ・メモリ・サブシステム１７６０によって、ストレージが提供されてもよい。少なくとも一実施例では、ＳＤＲＡＭ又はＳＲＡＭメモリ・デバイスにアクセスするために、メモリ・コントローラ１７６５を介してメモリ・インターフェースが提供されてもよい。少なくとも一実施例では、いくつかの集積回路はさらに、組み込みセキュリティ・エンジン１７７０を含む。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために集積回路１７００において使用されてもよい。

少なくとも一実施例では、ｎ：ｍ構造化スパース性を強化するための置換５１２及び枝刈５２８は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために集積回路１７００において使用されてもよい。

図１８Ａ～図１８Ｂは、本明細書に記載の様々実施例による、１つ又は複数のＩＰコアを使用して作製することができる例示的な集積回路及び関連グラフィックス・プロセッサを示す。図示してあるものに加えて、少なくとも一実施例では、追加のグラフィックス・プロセッサ／コア、周辺装置インターフェース・コントローラ、若しくは汎用プロセッサ・コアを含む他の論理及び回路が含まれてもよい。

図１８Ａ～図１８Ｂは、本明細書に記載の実施例による、ＳｏＣ内で使用するための例示的なグラフィックス・プロセッサを示すブロック図である。図１８Ａは、少なくとも一実施例による、１つ又は複数のＩＰコアを使用して作製することができるシステム・オン・チップ集積回路の例示的なグラフィックス・プロセッサ１８１０を示す。図１８Ｂは、少なくとも一実施例による、１つ又は複数のＩＰコアを使用して作製することができるシステム・オン・チップ集積回路のさらなる例示的なグラフィックス・プロセッサ１８４０を示す。少なくとも一実施例では、図１８Ａのグラフィックス・プロセッサ１８１０は、低電力グラフィックス・プロセッサ・コアである。少なくとも一実施例では、図１８Ｂのグラフィックス・プロセッサ１８４０は、高性能グラフィックス・プロセッサ・コアである。少なくとも一実施例では、グラフィックス・プロセッサ１８１０、１８４０のそれぞれは、図１７のグラフィックス・プロセッサ１７１０の変形形態とすることができる。

少なくとも一実施例では、グラフィックス・プロセッサ１８１０は、頂点プロセッサ１８０５と、１つ又は複数のフラグメント・プロセッサ１８１５Ａ～１８１５Ｎ（たとえば、１８１５Ａ、１８１５Ｂ、１８１５Ｃ、１８１５Ｄ～１８１５Ｎ－１、及び１８１５Ｎ）とを含む。少なくとも一実施例では、グラフィックス・プロセッサ１８１０は、別個の論理を介して異なるシェーダ・プログラムを実行することができ、それにより、頂点プロセッサ１８０５は、頂点シェーダ・プログラムのための動作を実行するように最適化され、一方、１つ又は複数のフラグメント・プロセッサ１８１５Ａ～１８１５Ｎは、フラグメント又はピクセルのシェーダ・プログラムのためのフラグメント（たとえば、ピクセル）シェーディング動作を実行する。少なくとも一実施例では、頂点プロセッサ１８０５は、３Ｄグラフィックス・パイプラインの頂点処理ステージを実行し、プリミティブ及び頂点データを生成する。少なくとも一実施例では、フラグメント・プロセッサ１８１５Ａ～１８１５Ｎは、頂点プロセッサ１８０５によって生成されたプリミティブ及び頂点データを使用して、ディスプレイ・デバイスに表示されるフレーム・バッファを生成する。少なくとも一実施例では、フラグメント・プロセッサ１８１５Ａ～１８１５Ｎは、ＯｐｅｎＧＬのＡＰＩにおいて提供されるフラグメント・シェーダ・プログラムを実行するように最適化され、ＯｐｅｎＧＬのＡＰＩは、Ｄｉｒｅｃｔ３ＤＡＰＩにおいて提供されるピクセル・シェーダ・プログラムと同様の動作を実行するために使用されてもよい。

少なくとも一実施例では、グラフィックス・プロセッサ１８１０はさらに、１つ又は複数のメモリ管理ユニット（ＭＭＵ）１８２０Ａ～１８２０Ｂ、キャッシュ１８２５Ａ～１８２５Ｂ、及び回路相互接続１８３０Ａ～１８３０Ｂを含む。少なくとも一実施例では、１つ又は複数のＭＭＵ１８２０Ａ～１８２０Ｂは、頂点プロセッサ１８０５及び／又はフラグメント・プロセッサ１８１５Ａ～１８１５Ｎを含め、グラフィックス・プロセッサ１８１０のための仮想から物理のアドレス・マッピングを提供し、それらは、１つ又は複数のキャッシュ１８２５Ａ～１８２５Ｂに記憶された頂点又は画像／テクスチャのデータに加えて、メモリに記憶された頂点又は画像／テキストのデータを参照してもよい。少なくとも一実施例では、１つ又は複数のＭＭＵ１８２０Ａ～１８２０Ｂは、図１７の１つ若しくは複数のアプリケーション・プロセッサ１７０５、画像プロセッサ１７１５、及び／又はビデオ・プロセッサ１７２０に関連付けられた１つ若しくは複数のＭＭＵを含む、システム内の他のＭＭＵと同期されてもよく、それにより各プロセッサ１７０５～１７２０は、共有の又は統合された仮想メモリ・システムに参加することができる。少なくとも一実施例では、１つ又は複数の回路相互接続１８３０Ａ～１８３０Ｂは、グラフィックス・プロセッサ１８１０が、ＳｏＣの内部バスを介して、又は直接接続を介して、ＳｏＣ内の他のＩＰコアとインターフェースをとることができるようにする。

少なくとも一実施例では、図１８Ｂに示すように、グラフィックス・プロセッサ１８４０は、１つ又は複数のシェーダ・コア１８５５Ａ～１８５５Ｎ（たとえば、１８５５Ａ、１８５５Ｂ、１８５５Ｃ、１８５５Ｄ、１８５５Ｅ、１８５５Ｆ～１８５５Ｎ－１、及び１８５５Ｎ）を含み、このシェーダ・コアは、単一のコア、又はタイプ、又はコアが、頂点シェーダ、フラグメント・シェーダ、及び／又はコンピュート・シェーダを実装するためのシェーダ・プログラム・コードを含むすべてのタイプのプログラム可能なシェーダ・コードを実行することができる統合されたシェーダ・コア・アーキテクチャを提供する。少なくとも一実施例では、シェーダ・コアの数は変えることができる。少なくとも一実施例では、グラフィックス・プロセッサ１８４０は、１つ又は複数のシェーダ・コア１８５５Ａ～１８５５Ｎに実行スレッドをディスパッチするためのスレッド・ディスパッチャとして作用するコア間タスク・マネージャ１８４５と、たとえばシーン内のローカル空間コヒーレンスを利用するため、又は内部キャッシュの使用を最適化するために、シーンのレンダリング動作が画像空間において細分化される、タイル・ベースのレンダリングのためのタイリング動作を加速するためのタイリング・ユニット１８５８とを含む。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために集積回路１８Ａ及び／又は１８Ｂにおいて使用されてもよい。

少なくとも一実施例では、ｎ：ｍ構造化スパース性を強化するための置換５１２及び枝刈５２８は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために集積回路１８Ａ及び／又は１８Ｂにおいて使用されてもよい。

図１９Ａ～図１９Ｂは、本明細書に記載の実施例による、さらなる例示的なグラフィックス・プロセッサ論理を示す。図１９Ａは、グラフィックス・コア１９００を示し、このグラフィックス・コア１９００は、少なくとも一実施例では図１７のグラフィックス・プロセッサ１７１０に含められてもよく、少なくとも一実施例では図１８Ｂのように、統合されたシェーダ・コア１８５５Ａ～１８５５Ｎであってもよい。図１９Ｂは、少なくとも一実施例におけるマルチ・チップ・モジュールに導入するのに適した高並列の汎用グラフィックス・プロセッシング・ユニット（「ＧＰＧＰＵ」）１９３０を示す。

少なくとも一実施例では、グラフィックス・コア１９００は、共有命令キャッシュ１９０２、テクスチャ・ユニット１９１８、及びキャッシュ／共有メモリ１９２０を含み、これらは、グラフィックス・コア１９００内の実行リソースに共通である。少なくとも一実施例では、グラフィックス・コア１９００は、複数のスライス１９０１Ａ～１９０１Ｎ、又はコアごとのパーティションを含むことができ、グラフィックス・プロセッサは、グラフィックス・コア１９００の複数のインスタンスを含むことができる。少なくとも一実施例では、スライス１９０１Ａ～１９０１Ｎは、ローカル命令キャッシュ１９０４Ａ～１９０４Ｎ、スレッド・スケジューラ１９０６Ａ～１９０６Ｎ、スレッド・ディスパッチャ１９０８Ａ～１９０８Ｎ、及びレジスタのセット１９１０Ａ～１９１０Ｎを含むサポート論理を含むことができる。少なくとも一実施例では、スライス１９０１Ａ～１９０１Ｎは、追加機能ユニット（ＡＦＵ１９１２Ａ～１９１２Ｎ）、浮動小数点ユニット（ＦＰＵ１９１４Ａ～１９１４Ｎ）、整数算術論理演算ユニット（ＡＬＵ１９１６～１９１６Ｎ）、アドレス計算ユニット（ＡＣＵ１９１３Ａ～１９１３Ｎ）、倍精度浮動小数点ユニット（ＤＰＦＰＵ１９１５Ａ～１９１５Ｎ）、及び行列処理ユニット（ＭＰＵ１９１７Ａ～１９１７Ｎ）のセットを含むことができる。

少なくとも一実施例では、ＦＰＵ１９１４Ａ～１９１４Ｎは、単精度（３２ビット）及び半精度（１６ビット）の浮動小数点演算を実行することができ、ＤＰＦＰＵ１９１５Ａ～１９１５Ｎは、倍精度（６４ビット）の浮動小数点演算を実行する。少なくとも一実施例では、ＡＬＵ１９１６Ａ～１９１６Ｎは、８ビット、１６ビット、及び３２ビットの精度で可変精度の整数演算を実行することができ、混合精度の演算ができるように構成されることが可能である。少なくとも一実施例では、ＭＰＵ１９１７Ａ～１９１７Ｎも、半精度浮動小数点及び８ビット整数演算を含む混合精度の行列演算ができるように構成されることが可能である。少なくとも一実施例では、ＭＰＵ１９１７～１９１７Ｎは、汎用行列－行列乗算（ＧＥＭＭ）の加速をサポートできるようにすることを含め、機械学習アプリケーション・フレームワークを加速するための様々な行列演算を実行することができる。少なくとも一実施例では、ＡＦＵ１９１２Ａ～１９１２Ｎは、三角関数演算（たとえば、サイン、コサインなど）を含む、浮動小数点ユニット又は整数ユニットにサポートされていない追加の論理演算を実行することができる。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにグラフィックス・コア１９００において使用されてもよい。

少なくとも一実施例では、ｎ：ｍ構造化スパース性を強化するための置換５１２及び枝刈５２８は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにグラフィックス・コア１９００において使用されてもよい。

図１９Ｂは、汎用処理ユニット（ＧＰＧＰＵ）１９３０を示し、この処理ユニットは、少なくとも一実施例において、グラフィックス・プロセッシング・ユニットのアレイによる高並列の計算動作を実行可能にするように構成されることが可能である。少なくとも一実施例では、ＧＰＧＰＵ１９３０は、ＧＰＧＰＵ１９３０の他のインスタンスに直接リンクされて、ディープ・ニューラル・ネットワークの訓練スピードを向上させるために複数のＧＰＵクラスタを生成することができる。少なくとも一実施例では、ＧＰＧＰＵ１９３０は、ホスト・プロセッサとの接続を可能にするためのホスト・インターフェース１９３２を含む。少なくとも一実施例では、ホスト・インターフェース１９３２は、ＰＣＩエクスプレス・インターフェースである。少なくとも一実施例では、ホスト・インターフェース１９３２は、ベンダー固有の通信インターフェース又は通信ファブリックとすることができる。少なくとも一実施例では、ＧＰＧＰＵ１９３０は、ホスト・プロセッサからコマンドを受け取り、グローバル・スケジューラ１９３４を使用して、これらのコマンドに関連付けられた実行スレッドを、コンピュート・クラスタ１９３６Ａ～１９３６Ｈのセットに分配する。少なくとも一実施例では、コンピュート・クラスタ１９３６Ａ～１９３６Ｈは、キャッシュ・メモリ１９３８を共有する。少なくとも一実施例では、キャッシュ・メモリ１９３８は、コンピュート・クラスタ１９３６Ａ～１９３６Ｈ内のキャッシュ・メモリ用の高レベル・キャッシュとして作用することができる。

少なくとも一実施例では、ＧＰＧＰＵ１９３０は、メモリ・コントローラ１９４２Ａ～１９４２Ｂのセットを介して、コンピュート・クラスタ１９３６Ａ～１９３６Ｈに結合されたメモリ１９４４Ａ～１９４４Ｂを含む。少なくとも一実施例では、メモリ１９４４Ａ～１９４４Ｂは、グラフィックス・ダブル・データ・レート（ＧＤＤＲ：graphics double data rate）メモリを含む同期グラフィックス・ランダム・アクセス・メモリ（ＳＧＲＡＭ）など、ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）又はグラフィックス・ランダム・アクセス・メモリを含む、様々なタイプのメモリ・デバイスを含むことができる。

少なくとも一実施例では、コンピュート・クラスタ１９３６Ａ～１９３６Ｈはそれぞれ、図１９Ａのグラフィックス・コア１９００などのグラフィックス・コアのセットを含み、このグラフィックス・コアのセットは、機械学習計算に適したものを含め、様々な精度で計算動作を実行することができる複数のタイプの整数及び浮動小数点の論理ユニットを含むことができる。たとえば、少なくとも一実施例では、コンピュート・クラスタ１９３６Ａ～１９３６Ｈのそれぞれにおける浮動小数点ユニットの少なくともサブセットは、１６ビット又は３２ビットの浮動小数点演算を実行するように構成されることが可能であり、一方、浮動小数点ユニットの別のサブセットは、６４ビットの浮動小数点演算を実行するように構成されることが可能である。

少なくとも一実施例では、ＧＰＧＰＵ１９３０の複数のインスタンスは、コンピュート・クラスタとして動作するように構成されることが可能である。少なくとも一実施例では、コンピュート・クラスタ１９３６Ａ～１９３６Ｈにより同期及びデータ交換のために使用される通信は、実施例にわたって異なる。少なくとも一実施例では、ＧＰＧＰＵ１９３０の複数のインスタンスは、ホスト・インターフェース１９３２を介して通信する。少なくとも一実施例では、ＧＰＧＰＵ１９３０は、Ｉ／Ｏハブ１９３９を含み、このハブは、ＧＰＧＰＵ１９３０の他のインスタンスへの直接接続を可能にするＧＰＵリンク１９４０に、ＧＰＧＰＵ１９３０を結合する。少なくとも一実施例では、ＧＰＵリンク１９４０は、ＧＰＧＰＵ１９３０の複数のインスタンス間での通信及び同期を可能にするＧＰＵからＧＰＵへの専用のブリッジに結合される。少なくとも一実施例では、ＧＰＵリンク１９４０は、他のＧＰＧＰＵ又は並列プロセッサにデータを送受信するための高速相互接続に結合される。少なくとも一実施例では、ＧＰＧＰＵ１９３０の複数のインスタンスは、別々のデータ処理システムに位置付けられ、ホスト・インターフェース１９３２を介してアクセス可能なネットワーク・デバイスを介して通信する。少なくとも一実施例では、ＧＰＵリンク１９４０は、ホスト・インターフェース１９３２に加えて、又はその代わりに、ホスト・プロセッサへの接続を可能にするように構成することができる。

少なくとも一実施例では、ＧＰＧＰＵ１９３０は、ニューラル・ネットワークを訓練するように構成されることが可能である。少なくとも一実施例では、ＧＰＧＰＵ１９３０は、推論プラットフォーム内で使用することができる。ＧＰＧＰＵ１９３０が推論のために使用される少なくとも一実施例では、ＧＰＧＰＵ１９３０は、ＧＰＧＰＵ１９３０がニューラル・ネットワークの訓練に使用されるときよりも少数のコンピュート・クラスタ１９３６Ａ～１９３６Ｈを含んでもよい。少なくとも一実施例では、メモリ１９４４Ａ～１９４４Ｂに関連するメモリ技術は、推論の構成と訓練の構成とで異なってもよく、高帯域幅のメモリ技術が、訓練構成に当てられる。少なくとも一実施例では、ＧＰＧＰＵ１９３０の推論構成は、推論固有の命令をサポートすることができる。たとえば、少なくとも一実施例では、推論構成は、１つ又は複数の８ビットの整数のドット積命令をサポートすることができ、これは、導入済みニューラル・ネットワークの推論動作中に使用されてもよい。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにＧＰＧＰＵ１９３０において使用されてもよい。

少なくとも一実施例では、ｎ：ｍ構造化スパース性を強化するための置換５１２及び枝刈５２８は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにＧＰＧＰＵ１９３０において使用されてもよい。

図２０は、少なくとも一実施例によるコンピューティング・システム２０００を示すブロック図である。少なくとも一実施例では、コンピューティング・システム２０００は、メモリ・ハブ２００５を含んでもよい相互接続経路を介して通信する１つ又は複数のプロセッサ２００２とシステム・メモリ２００４とを有する処理サブシステム２００１を含む。少なくとも一実施例では、メモリ・ハブ２００５は、チップセット構成要素内の別個の構成要素であってもよく、又は１つ若しくは複数のプロセッサ２００２内に一体化されていてもよい。少なくとも一実施例では、メモリ・ハブ２００５は、通信リンク２００６を介してＩ／Ｏサブシステム２０１１に結合される。少なくとも一実施例では、Ｉ／Ｏサブシステム２０１１は、コンピューティング・システム２０００が１つ又は複数の入力デバイス２００８からの入力を受け取れるようにすることができるＩ／Ｏハブ２００７を含む。少なくとも一実施例では、Ｉ／Ｏハブ２００７は、ディスプレイ・コントローラを有効にすることができ、このディスプレイ・コントローラは、１つ又は複数のプロセッサ２００２に含まれて、１つ又は複数のディスプレイ・デバイス２０１０Ａに出力を提供してもよい。少なくとも一実施例では、Ｉ／Ｏハブ２００７に結合された１つ又は複数のディスプレイ・デバイス２０１０Ａは、ローカルの、内部の、又は組み込まれたディスプレイ・デバイスを含むことができる。

少なくとも一実施例では、処理サブシステム２００１は、バス又は他の通信リンク２０１３を介してメモリ・ハブ２００５に結合された１つ又は複数の並列プロセッサ２０１２を含む。少なくとも一実施例では、通信リンク２０１３は、ＰＣＩエクスプレスなどであるがこれに限定されない任意の数の規格に基づく通信リンク技術若しくはプロトコルのうちの１つを使用することができ、又はベンダー固有の通信インターフェース若しくは通信ファブリックであってもよい。少なくとも一実施例では、１つ又は複数の並列プロセッサ２０１２は、メニー・インテグレーテッド・コア（ＭＩＣ：many integrated core）プロセッサなど、多数の処理コア及び／又は処理クラスタを含むことのできる、計算に集中した並列又はベクトルの処理システムを形成する。少なくとも一実施例では、いくつか又はすべての並列プロセッサ２０１２は、グラフィックス処理サブシステムを形成し、このサブシステムは、Ｉ／Ｏハブ２００７を介して結合された１つ又は複数のディスプレイ・デバイス２０１０Ａのうちの１つに、ピクセルを出力することができる。少なくとも一実施例では、並列プロセッサ２０１２はまた、１つ又は複数のディスプレイ・デバイス２０１０Ｂへの直接接続を可能にするディスプレイ・コントローラ及びディスプレイ・インターフェース（図示せず）を含むことができる。

少なくとも一実施例では、システム・ストレージ・ユニット２０１４は、Ｉ／Ｏハブ２００７に接続されて、コンピューティング・システム２０００のためのストレージ機構を提供することができる。少なくとも一実施例では、Ｉ／Ｏスイッチ２０１６を使用して、Ｉ／Ｏハブ２００７と、プラットフォームに一体化されてもよいネットワーク・アダプタ２０１８及び／又はワイヤレス・ネットワーク・アダプタ２０１９などの他の構成要素、並びに１つ又は複数のアドイン・デバイス２０２０を介して加えることができる様々な他のデバイスとの通信を可能にするためのインターフェース機構を提供することができる。少なくとも一実施例では、ネットワーク・アダプタ２０１８は、イーサネット（登録商標）・アダプタ、又は別の有線ネットワーク・アダプタとすることができる。少なくとも一実施例では、ワイヤレス・ネットワーク・アダプタ２０１９は、Ｗｉ－Ｆｉ、Ｂｌｕｅｔｏｏｔｈ、近距離無線通信（ＮＦＣ）、又は１つ若しくは複数のワイヤレス無線を含む他のネットワーク・デバイスのうちの１つ又は複数を含むことができる。

少なくとも一実施例では、コンピューティング・システム２０００は、ＵＳＢ又は他のポート接続、光学ストレージ・ドライブ、ビデオ捕捉デバイスなどを含む明示されていない他の構成要素を含むことができ、これらもＩ／Ｏハブ２００７に接続されてもよい。少なくとも一実施例では、図２０の様々な構成要素を相互接続する通信経路が、ＰＣＩ（ペリフェラル・コンポーネント・インターコネクト）ベースのプロトコル（たとえば、ＰＣＩ－エクスプレス）などの任意の好適なプロトコル、又はＮＶ－Ｌｉｎｋ高速相互接続などの他のバス若しくはポイントツーポイント通信インターフェース、又は他の相互接続プロトコルを使用して、実装されてもよい。

少なくとも一実施例では、並列プロセッサ２０１２は、たとえばビデオ出力回路を含むグラフィックス及びビデオの処理に最適化された回路を組み込んでおり、グラフィックス・プロセッシング・ユニット（ＧＰＵ）を構成する。少なくとも一実施例では、並列プロセッサ２０１２は、汎用処理に最適化された回路を組み込んでいる。少なくとも実施例では、コンピューティング・システム２０００の構成要素は、単一の集積回路上の１つ又は複数の他のシステム要素と一体化されてもよい。たとえば、少なくとも一実施例では、並列プロセッサ２０１２、メモリ・ハブ２００５、プロセッサ２００２、及びＩ／Ｏハブ２００７を、システム・オン・チップ（ＳｏＣ）集積回路に一体化することができる。少なくとも一実施例では、コンピューティング・システム２０００の構成要素は、単一のパッケージに一体化されて、システム・イン・パッケージ（ＳＩＰ：system in package）構成を形成することができる。少なくとも一実施例では、コンピューティング・システム２０００の構成要素の少なくとも一部分を、マルチ・チップ・モジュール（ＭＣＭ：ｍｕｌｔｉ－ｃｈｉｐｍｏｄｕｌｅ）に一体化することができ、このモジュールを、他のマルチ・チップ・モジュールと相互接続して、モジュール式コンピューティング・システムにすることができる。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図２０００のシステムにおいて使用されてもよい。

少なくとも一実施例では、ｎ：ｍ構造化スパース性を強化するための置換５１２及び枝刈５２８は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のために図２０００のシステムにおいて使用されてもよい。

プロセッサ
図２１Ａは、少なくとも一実施例による並列プロセッサ２１００を示す。少なくとも一実施例では、並列プロセッサ２１００の様々な構成要素は、プログラム可能なプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、又はフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）などの１つ又は複数の集積回路デバイスを使用して実装されてもよい。少なくとも一実施例では、図示してある並列プロセッサ２１００は、例示的な実施例による図２０に示す１つ又は複数の並列プロセッサ２０１２の変形形態である。

少なくとも一実施例では、並列プロセッサ２１００は並列処理ユニット２１０２を含む。少なくとも一実施例では、並列処理ユニット２１０２は、並列処理ユニット２１０２の他のインスタンスを含む他のデバイスとの通信を可能にするＩ／Ｏユニット２１０４を含む。少なくとも一実施例では、Ｉ／Ｏユニット２１０４は、他のデバイスに直接接続されてもよい。少なくとも一実施例では、Ｉ／Ｏユニット２１０４は、メモリ・ハブ２１０５などのハブ又はスイッチ・インターフェースの使用を介して、他のデバイスと接続される。少なくとも一実施例では、メモリ・ハブ２１０５とＩ／Ｏユニット２１０４との間の接続は、通信リンク２１１３を形成する。少なくとも一実施例では、Ｉ／Ｏユニット２１０４は、ホスト・インターフェース２１０６及びメモリ・クロスバー２１１６に接続され、ここでホスト・インターフェース２１０６は、処理動作の実行を対象とするコマンドを受け取り、メモリ・クロスバー２１１６は、メモリ動作の実行を対象とするコマンドを受け取る。

少なくとも一実施例では、ホスト・インターフェース２１０６が、Ｉ／Ｏユニット２１０４を介してコマンド・バッファを受け取るとき、ホスト・インターフェース２１０６は、これらのコマンドを実行するためのワーク動作をフロント・エンド２１０８に向けることができる。少なくとも一実施例では、フロント・エンド２１０８はスケジューラ２１１０に結合され、このスケジューラは、コマンド又は他のワーク・アイテムを処理クラスタ・アレイ２１１２に分配するように構成される。少なくとも一実施例では、スケジューラ２１１０は、処理クラスタ・アレイ２１１２のクラスタにタスクが分配される前に、処理クラスタ・アレイ２１１２が適切に構成され、有効な状態にあることを確実にする。少なくとも一実施例では、スケジューラ２１１０は、マイクロコントローラで実行しているファームウェア論理を介して実装される。少なくとも一実施例では、マイクロコントローラ実装スケジューラ２１１０は、複雑なスケジューリング及びワーク分配動作を、粗い粒度と細かい粒度で実行するように構成可能であり、処理アレイ２１１２で実行しているスレッドの迅速なプリエンプション及びコンテキストのスイッチングを可能にする。少なくとも一実施例では、ホスト・ソフトウェアは、処理クラスタ・アレイ２１１２でのスケジューリングのワークロードを、複数のグラフィックス処理の経路のうちの１つを介して証明することができる。少なくとも一実施例では、次いで、スケジューラ２１１０を含むマイクロコントローラ内のスケジューラ２１１０論理によって、ワークロードを自動的に処理クラスタ・アレイ２１１２全体に分配することができる。

少なくとも一実施例では、処理クラスタ・アレイ２１１２は、最大「Ｎ個」の処理クラスタ（たとえば、クラスタ２１１４Ａ、クラスタ２１１４Ｂ～クラスタ２１１４Ｎ）を含むことができ、ここで「Ｎ」は、正の整数を表す（他の図で使用されるものとは異なる整数「Ｎ」であってもよい）。少なくとも一実施例では、処理クラスタ・アレイ２１１２の各クラスタ２１１４Ａ～２１１４Ｎは、大量の同時スレッドを実行することができる。少なくとも一実施例では、スケジューラ２１１０は、様々なスケジューリング及び／又はワーク分配のアルゴリズムを使用して、処理クラスタ・アレイ２１１２のクラスタ２１１４Ａ～２１１４Ｎにワークを配分することができ、これらのアルゴリズムは、プログラム又は計算のタイプごとに生じるワークロードに応じて、異なってもよい。少なくとも一実施例では、スケジューリングは、スケジューラ２１１０によって動的に対処されてもよく、又は処理クラスタ・アレイ２１１２によって実行されるように構成されたプログラム論理のコンパイル中に、コンパイラ論理によって部分的に支援されてもよい。少なくとも一実施例では、処理クラスタ・アレイ２１１２の異なるクラスタ２１１４Ａ～２１１４Ｎは、異なるタイプのプログラムを処理するように、又は異なるタイプの計算を実行するように配分されることが可能である。

少なくとも一実施例では、処理クラスタ・アレイ２１１２は、様々なタイプの並列処理動作を実行するように構成されることが可能である。少なくとも一実施例では、処理クラスタ・アレイ２１１２は、汎用の並列コンピュート動作を実行するように構成される。たとえば、少なくとも一実施例では、処理クラスタ・アレイ２１１２は、ビデオ及び／又はオーディオ・データのフィルタリング、物理動作を含むモデリング動作の実行、及びデータ変換の実行を含む処理タスクを実行するための論理を含むことができる。

少なくとも一実施例では、処理クラスタ・アレイ２１１２は、並列グラフィックス処理動作を実行するように構成される。少なくとも一実施例では、処理クラスタ・アレイ２１１２は、テクスチャ動作を実行するためのテクスチャ・サンプリング論理、並びにモザイク論理、及び他の頂点処理論理を含むがこれらに限定されないこうしたグラフィックス処理動作の実行をサポートするための追加の論理を含むことができる。少なくとも一実施例では、処理クラスタ・アレイ２１１２は、頂点シェーダ、モザイク・シェーダ、ジオメトリ・シェーダ、及びピクセル・シェーダなどであるが、これらに限定されないグラフィックス処理関連のシェーダ・プログラムを実行するように構成されることが可能である。少なくとも一実施例では、並列処理ユニット２１０２は、処理できるようにデータをシステム・メモリからＩ／Ｏユニット２１０４を介して転送することができる。少なくとも一実施例では、処理中、転送されたデータを、処理中にオン・チップ・メモリ（たとえば、並列プロセッサ・メモリ２１２２）に記憶し、次いでシステム・メモリに書き戻すことができる。

少なくとも一実施例では、並列処理ユニット２１０２を使用してグラフィックス処理が実行される場合には、処理クラスタ・アレイ２１１２の複数のクラスタ２１１４Ａ～２１１４Ｎにグラフィックス処理動作をよりうまく分配できるようにするため、処理ワークロードをおおよそ等しい大きさのタスクに分割するようにスケジューラ２１１０を構成することができる。少なくとも一実施例では、処理クラスタ・アレイ２１１２の一部分は、異なるタイプの処理を実行するように構成されることが可能である。たとえば、少なくとも一実施例では、レンダリング画像を生成して表示するために、第１の部分は、頂点シェーディング及びトポロジ生成を実行するように構成されてもよく、第２の部分は、モザイク及びジオメトリのシェーディングを実行するように構成されてもよく、第３の部分は、ピクセル・シェーディング又は他の画面空間動作を実行するように構成されてもよい。少なくとも一実施例では、クラスタ２１１４Ａ～２１１４Ｎのうちの１つ又は複数によって生成される中間データをバッファに記憶して、さらなる処理ができるようにクラスタ２１１４Ａ～２１１４Ｎの間で中間データを送信できるようにしてもよい。

少なくとも一実施例では、処理クラスタ・アレイ２１１２は、実行される処理タスクをスケジューラ２１１０を介して受け取ることができ、スケジューラ２１１０は、処理タスクを定義するコマンドをフロント・エンド２１０８から受け取る。少なくとも一実施例では、処理タスクは、処理されるデータのインデックス、たとえば、表面（パッチ）データ、プリミティブ・データ、頂点データ、及び／又はピクセル・データ、並びに状態パラメータ、及びデータをどのように処理すべきかを定義するコマンド（たとえば、どのプログラムを実行すべきか）を含むことができる。少なくとも一実施例では、スケジューラ２１１０は、タスクに対応するインデックスをフェッチするように構成されてもよく、又はフロント・エンド２１０８からインデックスを受け取ってもよい。少なくとも一実施例では、フロント・エンド２１０８は、入ってくるコマンド・バッファ（たとえば、バッチ・バッファ、プッシュ・バッファなど）によって指定されるワークロードが開始される前に、処理クラスタ・アレイ２１１２が有効な状態に構成されていることを保証するように構成されることが可能である。

少なくとも一実施例では、並列処理ユニット２１０２の１つ又は複数のインスタンスのそれぞれは、並列プロセッサ・メモリ２１２２と結合することができる。少なくとも一実施例では、並列プロセッサ・メモリ２１２２には、メモリ・クロスバー２１１６を介してアクセスすることができ、メモリ・クロスバー２１１６は、処理クラスタ・アレイ２１１２並びにＩ／Ｏユニット２１０４からメモリ要求を受け取ることができる。少なくとも一実施例では、メモリ・クロスバー２１１６は、メモリ・インターフェース２１１８を介して並列プロセッサ・メモリ２１２２にアクセスすることができる。少なくとも一実施例では、メモリ・インターフェース２１１８は、複数のパーティション・ユニット（たとえば、パーティション・ユニット２１２０Ａ、パーティション・ユニット２１２０Ｂ～パーティション・ユニット２１２０Ｎ）を含むことができ、これらのユニットはそれぞれ、並列プロセッサ・メモリ２１２２の一部分（たとえば、メモリ・ユニット）に結合することができる。少なくとも一実施例では、パーティション・ユニット２１２０Ａ～２１２０Ｎの数は、メモリ・ユニットの数と等しくなるように構成され、それにより、第１のパーティション・ユニット２１２０Ａは、対応する第１のメモリ・ユニット２１２４Ａを有し、第２のパーティション・ユニット２１２０Ｂは、対応するメモリ・ユニット２１２４Ｂを有し、Ｎ番目のパーティション・ユニット２１２０Ｎは、対応するＮ番目のメモリ・ユニット２１２４Ｎを有する。少なくとも一実施例では、パーティション・ユニット２１２０Ａ～２１２０Ｎの数は、メモリ・ユニットの数に等しくなくてもよい。

少なくとも一実施例では、メモリ・ユニット２１２４Ａ～２１２４Ｎは、グラフィックス・ダブル・データ・レート（ＧＤＤＲ）メモリを含む同期グラフィックス・ランダム・アクセス・メモリ（ＳＧＲＡＭ）など、ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）又はグラフィックス・ランダム・アクセス・メモリを含む、様々なタイプのメモリ・デバイスを含むことができる。少なくとも一実施例では、またメモリ・ユニット２１２４Ａ～２１２４Ｎはまた、高帯域幅メモリ（ＨＢＭ）を含むがこれに限定されない３Ｄ積層メモリを含んでもよい。少なくとも一実施例では、並列プロセッサ・メモリ２１２２の利用可能な帯域幅を効率的に使用するために、フレーム・バッファ又はテクスチャ・マップなどのレンダー・ターゲットが、メモリ・ユニット２１２４Ａ～２１２４Ｎにわたって記憶されて、パーティション・ユニット２１２０Ａ～２１２０Ｎが、各レンダー・ターゲットの部分を並列に書き込みできるようにしてもよい。少なくとも一実施例では、システム・メモリとローカル・キャッシュ・メモリを併用する統合メモリ設計に有利なように、並列プロセッサ・メモリ２１２２のローカル・インスタンスは除外されてもよい。

少なくとも一実施例では、処理クラスタ・アレイ２１１２のクラスタ２１１４Ａ～２１１４Ｎのうちのいずれか１つは、並列プロセッサ・メモリ２１２２内のメモリ・ユニット２１２４Ａ～２１２４Ｎのいずれかに書き込まれることになるデータを処理することができる。少なくとも一実施例では、メモリ・クロスバー２１１６は、各クラスタ２１１４Ａ～２１１４Ｎの出力を、出力に対してさらなる処理動作を実行することができる任意のパーティション・ユニット２１２０Ａ～２１２０Ｎ、又は別のクラスタ２１１４Ａ～２１１４Ｎに転送するように構成されることが可能である。少なくとも一実施例では、各クラスタ２１１４Ａ～２１１４Ｎは、メモリ・クロスバー２１１６を通ってメモリ・インターフェース２１１８と通信して、様々な外部メモリ・デバイスからの読取り、又はそれへの書込みを行うことができる。少なくとも一実施例では、メモリ・クロスバー２１１６は、Ｉ／Ｏユニット２１０４と通信するためのメモリ・インターフェース２１１８への接続部、並びに並列プロセッサ・メモリ２１２２のローカル・インスタンスへの接続部を有して、異なる処理クラスタ２１１４Ａ～２１１４Ｎ内の処理ユニットが、システム・メモリ、又は並列処理ユニット２１０２のローカルにない他のメモリと通信できるようにする。少なくとも一実施例では、メモリ・クロスバー２１１６は、仮想チャネルを使用して、クラスタ２１１４Ａ～２１１４Ｎと、パーティション・ユニット２１２０Ａ～２１２０Ｎとの間でトラフィック・ストリームを分離することができる。

少なくとも一実施例では、並列処理ユニット２１０２の複数のインスタンスは、単一のアドイン・カードに提供されてもよく、又は複数のアドイン・カードが相互接続されてもよい。少なくとも一実施例では、異なるインスタンスが異なる数の処理コア、異なる量のローカル並列プロセッサ・メモリ、及び／又は他の異なる構成を有する場合でも、並列処理ユニット２１０２の異なるインスタンスは相互動作するように構成されることが可能である。たとえば、少なくとも一実施例では、並列処理ユニット２１０２のいくつかインスタンスは、他のインスタンスに比べて高い精度の浮動小数点ユニットを含むことができる。少なくとも一実施例では、並列処理ユニット２１０２又は並列プロセッサ２１００のうちの１つ又は複数のインスタンスを組み込んだシステムは、デスクトップ、ラップトップ、若しくは携帯型のパーソナル・コンピュータ、サーバ、ワークステーション、ゲーム・コンソール、及び／又は組み込みシステムを含むが、これらに限定されない様々な構成及びフォーム・ファクタで実装することができる。

図２１Ｂは、少なくとも一実施例によるパーティション・ユニット２１２０のブロック図である。少なくとも一実施例では、パーティション・ユニット２１２０は、図２１Ａのパーティション・ユニット２１２０Ａ～２１２０Ｎのうちの１つのパーティション・ユニットのインスタンスである。少なくとも一実施例では、パーティション・ユニット２１２０は、Ｌ２キャッシュ２１２１、フレーム・バッファ・インターフェース２１２５、及びＲＯＰ：ｒａｓｔｅｒｏｐｅｒａｔｉｏｎｓｕｎｉｔ２１２６（ラスタ演算ユニット）を含む。少なくとも一実施例では、Ｌ２キャッシュ２１２１は、メモリ・クロスバー２１１６及びＲＯＰ２１２６から受け取ったロード及びストアの動作を実行するように構成された読取り／書込みキャッシュである。少なくとも一実施例では、読取りミス及び至急の書戻し要求が、処理されるようにＬ２キャッシュ２１２１によってフレーム・バッファ・インターフェース２１２５に出力される。少なくとも一実施例では、更新も、処理されるようにフレーム・バッファ・インターフェース２１２５を介してフレームに送られる。少なくとも一実施例では、フレーム・バッファ・インターフェース２１２５は、図２１の（たとえば並列プロセッサ・メモリ２１２２内の）メモリ・ユニット２１２４Ａ～２１２４Ｎなど、並列プロセッサ・メモリのメモリ・ユニットのうちの１つとインターフェースをとる。

少なくとも一実施例では、ＲＯＰ２１２６は、ステンシル、ｚテスト、ブレンディングなどのラスタ演算を実行する処理ユニットである。少なくとも一実施例では、次いでＲＯＰ２１２６は、グラフィックス・メモリに記憶された処理済みグラフィックス・データを出力する。少なくとも一実施例では、ＲＯＰ２１２６は、メモリに書き込まれる深度又は色データを圧縮し、メモリから読み取られた深度又は色データを解凍するための圧縮論理を含む。少なくとも一実施例では、圧縮論理は、複数の圧縮アルゴリズムのうちの１つ又は複数を利用するロスレス圧縮論理とすることができる。少なくとも一実施例では、ＲＯＰ２１２６によって実行される圧縮のタイプは、圧縮されるデータの統計的特徴に基づき変更することができる。たとえば、少なくとも一実施例では、深度及び色データに対してはタイルごとにデルタ色圧縮が実行される。

少なくとも一実施例では、ＲＯＰ２１２６は、パーティション・ユニット２１２０内ではなく、各処理クラスタ内（たとえば、図２１Ａのクラスタ２１１４Ａ～２１１４Ｎ）に含まれる。少なくとも一実施例では、ピクセル・フラグメント・データではなく、ピクセル・データの読取り及び書込み要求が、メモリ・クロスバー２１１６を介して送信される。少なくとも一実施例では、処理済みグラフィックス・データは、図２０の１つ又は複数のディスプレイ・デバイス２０１０のうちの１つなどのディスプレイ・デバイスに表示されてもよく、プロセッサ２００２によってさらに処理できるようにルーティングされてもよく、又は図２１Ａの並列プロセッサ２１００内の処理エンティティのうちの１つによってさらに処理できるようにルーティングされてもよい。

図２１Ｃは、少なくとも一実施例による並列処理ユニット内の処理クラスタ２１１４のブロック図である。少なくとも一実施例では、処理クラスタは、図２１Ａの処理クラスタ２１１４Ａ～２１１４Ｎのうちの１つの処理クラスタのインスタンスである。少なくとも一実施例では、処理クラスタ２１１４は、多数のスレッドを並列で実行するように構成されてもよく、ここで「スレッド」とは、入力データの特定のセットに対して実行している特定のプログラムのインスタンスを指す。少なくとも一実施例では、複数の独立した命令ユニットを提供することなく、多数のスレッドの並列実行をサポートするために、単一命令複数データ（ＳＩＭＤ）の命令発行技法が使用される。少なくとも一実施例では、それぞれの処理クラスタ内の処理エンジンのセットに命令を発行するように構成された共通の命令ユニットを使用して、全体的に同期された多数のスレッドの並列実行をサポートするために、単一命令複数スレッド（ＳＩＭＴ：ｓｉｎｇｌｅ－ｉｎｓｔｒｕｃｔｉｏｎ，ｍｕｌｔｉｐｌｅ－ｔｈｒｅａｄ）の技法が使用される。

少なくとも一実施例では、処理クラスタ２１１４の動作は、ＳＩＭＴ並列プロセッサに処理タスクを分配するパイプライン・マネージャ２１３２を介して制御することができる。少なくとも一実施例では、パイプライン・マネージャ２１３２は、図２１Ａのスケジューラ２１１０から命令を受け取り、グラフィックス・マルチプロセッサ２１３４及び／又はテクスチャ・ユニット２１３６を介してこれらの命令の実行を管理する。少なくとも一実施例では、グラフィックス・マルチプロセッサ２１３４は、ＳＩＭＴ並列プロセッサの例示的なインスタンスである。しかし、少なくとも一実施例では、アーキテクチャの異なる様々なタイプのＳＩＭＴ並列プロセッサが、処理クラスタ２１１４内に含まれてもよい。少なくとも一実施例では、グラフィックス・マルチプロセッサ２１３４の１つ又は複数のインスタンスは、処理クラスタ２１１４内に含めることができる。少なくとも一実施例では、グラフィックス・マルチプロセッサ２１３４はデータを処理することができ、処理済みデータを、他のシェーダ・ユニットを含む複数の可能な宛先のうちの１つに分配するためにデータ・クロスバー２１４０が使用されてもよい。少なくとも一実施例では、パイプライン・マネージャ２１３２は、データ・クロスバー２１４０を通して分配されることになる処理済みデータの宛先を指定することによって、処理済みデータの分配を容易にすることができる。

少なくとも一実施例では、処理クラスタ２１１４内の各グラフィックス・マルチプロセッサ２１３４は、関数実行論理（たとえば、算術論理演算ユニット、ロード・ストア・ユニットなど）の同一のセットを含むことができる。少なくとも一実施例では、関数実行論理は、前の命令が完了する前に新規の命令を発行することができるパイプライン式に構成されることが可能である。少なくとも一実施例では、関数実行論理は、整数及び浮動小数点の算術、比較演算、ブール演算、ビット・シフト、及び様々な代数関数の計算を含む様々な演算をサポートする。少なくとも一実施例では、同じ関数ユニットのハードウェアを活用して、異なる演算を実行することができ、関数ユニットの任意の組合せが存在してもよい。

少なくとも一実施例では、処理クラスタ２１１４に送信される命令がスレッドを構成する。少なくとも一実施例では、並列処理エンジンのセットにわたって実行されているスレッドのセットが、スレッド・グループである。少なくとも一実施例では、スレッド・グループは、異なる入力データに対して共通のプログラムを実行する。少なくとも一実施例では、スレッド・グループ内の各スレッドを、グラフィックス・マルチプロセッサ２１３４内の異なる処理エンジンに割り当てることができる。少なくとも一実施例では、スレッド・グループは、グラフィックス・マルチプロセッサ２１３４内の処理エンジンの数よりも少ないスレッドを含んでもよい。少なくとも一実施例では、スレッド・グループが処理エンジンの数よりも少ないスレッドを含む場合、処理エンジンのうちの１つ又は複数は、そのスレッド・グループが処理されているサイクル中にはアイドルであってもよい。少なくとも一実施例では、スレッド・グループはまた、グラフィックス・マルチプロセッサ２１３４内の処理エンジンの数よりも多いスレッドを含んでもよい。少なくとも一実施例では、スレッド・グループがグラフィックス・マルチプロセッサ２１３４内の処理エンジンの数より多くのスレッドを含む場合には、連続したクロック・サイクルにわたって処理を実行することができる。少なくとも一実施例では、複数のスレッド・グループを、グラフィックス・マルチプロセッサ２１３４上で同時に実行することができる。

少なくとも一実施例では、グラフィックス・マルチプロセッサ２１３４は、ロード及びストアの動作を実行するための内部キャッシュ・メモリを含む。少なくとも一実施例では、グラフィックス・マルチプロセッサ２１３４は、内部キャッシュをやめて、処理クラスタ２１１４内のキャッシュ・メモリ（たとえば、Ｌ１キャッシュ２１４８）を使用することができる。少なくとも一実施例では、各グラフィックス・マルチプロセッサ２１３４は、パーティション・ユニット（たとえば、図２１Ａのパーティション・ユニット２１２０Ａ～２１２０Ｎ）内のＬ２キャッシュにもアクセスすることができ、これらのキャッシュが、すべての処理クラスタ２１１４間で共有され、スレッド間でデータを転送するために使用されてもよい。少なくとも一実施例では、グラフィックス・マルチプロセッサ２１３４は、オフ・チップのグローバル・メモリにもアクセスすることができ、このメモリは、ローカル並列プロセッサ・メモリ及び／又はシステム・メモリのうちの１つ又は複数を含むことができる。少なくとも一実施例では、並列処理ユニット２１０２の外部にある任意のメモリが、グローバル・メモリとして使用されてもよい。少なくとも一実施例では、処理クラスタ２１１４は、グラフィックス・マルチプロセッサ２１３４の複数のインスタンスを含み、共通の命令及びデータを共有することができ、これらはＬ１キャッシュ２１４８に記憶されてもよい。

少なくとも一実施例では、各処理クラスタ２１１４は、仮想アドレスを物理アドレスにマッピングするように構成されたＭＭＵ２１４５（メモリ管理ユニット）を含んでもよい。少なくとも一実施例では、ＭＭＵ２１４５の１つ又は複数のインスタンスは、図２１Ａのメモリ・インターフェース２１１８内にあってもよい。少なくとも一実施例では、ＭＭＵ２１４５は、仮想アドレスを、タイル及び任意選択でキャッシュ・ライン・インデックスの物理アドレスにマッピングするために使用されるページ・テーブル・エントリ（ＰＴＥ）のセットを含む。少なくとも一実施例では、ＭＭＵ２１４５は、アドレスのトランスレーション・ルックアサイド・バッファ（ＴＬＢ）又はキャッシュを含んでもよく、これらは、グラフィックス・マルチプロセッサ２１３４若しくはＬ１２１４８キャッシュ、又は処理クラスタ２１１４内にあってもよい。少なくとも一実施例では、表面データ・アクセスをローカルに分散するように物理アドレスを処理して、パーティション・ユニット間で要求の効率的なインターリーブが可能になる。少なくとも一実施例では、キャッシュ・ライン・インデックスを使用して、キャッシュ・ラインの要求がヒットかミスかが判定されてもよい。

少なくとも一実施例では、各グラフィックス・マルチプロセッサ２１３４がテクスチャ・ユニット２１３６に結合されて、テクスチャ・マッピング動作、たとえば、テクスチャ・サンプル位置の判定、テクスチャ・データの読取り、及びテクスチャ・データのフィルタリングが実行されるように、処理クラスタ２１１４が構成されてもよい。少なくとも一実施例では、テクスチャ・データは、内部テクスチャＬ１キャッシュ（図示せず）から、又はグラフィックス・マルチプロセッサ２１３４内のＬ１キャッシュから読み取られ、必要に応じて、Ｌ２キャッシュ、ローカル並列プロセッサ・メモリ、又はシステム・メモリからフェッチされる。少なくとも一実施例では、各グラフィックス・マルチプロセッサ２１３４は、処理済みタスクをデータ・クロスバー２１４０に出力して、さらなる処理ができるように別の処理クラスタ２１１４に処理済みタスクを提供し、又はメモリ・クロスバー２１１６を介して、Ｌ２キャッシュ、ローカル並列プロセッサ・メモリ、又はシステム・メモリに処理済みタスクを記憶する。少なくとも一実施例では、プレＲＯＰ２１４２（プレ・ラスタ演算ユニット）は、グラフィックス・マルチプロセッサ２１３４からデータを受け取り、ＲＯＰユニットにデータを仕向けるように構成されており、ＲＯＰユニットは、本明細書に記載のするように、パーティション・ユニット（たとえば、図２１Ａのパーティション・ユニット２１２０Ａ～２１２０Ｎ）内に位置付けられてもよい。少なくとも一実施例では、プレＲＯＰ２１４２ユニットは、色ブレンディングの最適化を実行し、ピクセル色データを組織化し、アドレス・トランスレーションを実行することができる。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにグラフィックス処理クラスタ２１１４において使用されてもよい。

少なくとも一実施例では、ｎ：ｍ構造化スパース性を強化するための置換５１２及び枝刈５２８は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにグラフィックス処理クラスタ２１１４において使用されてもよい。

図２１Ｄは、少なくとも一実施例によるグラフィックス・マルチプロセッサ２１３４を示す。少なくとも一実施例では、グラフィックス・マルチプロセッサ２１３４は、処理クラスタ２１１４のパイプライン・マネージャ２１３２と結合する。少なくとも一実施例では、グラフィックス・マルチプロセッサ２１３４は、命令キャッシュ２１５２、命令ユニット２１５４、アドレス・マッピング・ユニット２１５６、レジスタ・ファイル２１５８、１つ又は複数の汎用グラフィックス・プロセッシング・ユニット（ＧＰＧＰＵ）コア２１６２、及び１つ又は複数のロード／ストア・ユニット２１６６を含むがこれらに限定されない実行パイプラインを有する。少なくとも一実施例では、ＧＰＧＰＵコア２１６２、及びロード／ストア・ユニット２１６６は、メモリ及びキャッシュ相互接続２１６８を介して、キャッシュ・メモリ２１７２及び共有メモリ２１７０に結合される。

少なくとも一実施例では、命令キャッシュ２１５２は、実行すべき命令のストリームをパイプライン・マネージャ２１３２から受け取る。少なくとも一実施例では、命令は、命令キャッシュ２１５２にキャッシュされ、命令ユニット２１５４により実行されるようにディスパッチされる。少なくとも一実施例では、命令ユニット２１５４は、命令をスレッド・グループ（たとえば、ワープ）としてディスパッチすることができ、スレッド・グループの各スレッドは、ＧＰＧＰＵコア２１６２内の異なる実行ユニットに割り当てられる。少なくとも一実施例では、命令は、統一アドレス空間内のアドレスを指定することによって、ローカル、共有、又はグローバルのアドレス空間のいずれかにアクセスすることができる。少なくとも一実施例では、アドレス・マッピング・ユニット２１５６を使用して、統一アドレス空間のアドレスを、ロード／ストア・ユニット２１６６がアクセスできる個別メモリ・アドレスにトランスレーションすることができる。

少なくとも一実施例では、レジスタ・ファイル２１５８は、グラフィックス・マルチプロセッサ２１３４の機能ユニットにレジスタのセットを提供する。少なくとも一実施例では、レジスタ・ファイル２１５８は、グラフィックス・マルチプロセッサ２１３４の機能ユニット（たとえばＧＰＧＰＵコア２１６２、ロード／ストア・ユニット２１６６）のデータ経路に接続された、オペランドのための一時的なストレージを提供する。少なくとも一実施例では、レジスタ・ファイル２１５８は、レジスタ・ファイル２１５８の専用部分に各機能ユニットが配分されるように、それぞれの機能ユニット間で分割される。一実施例では、レジスタ・ファイル２１５８は、グラフィックス・マルチプロセッサ２１３４によって実行されている異なるワープ間で分割される。

少なくとも一実施例では、ＧＰＧＰＵコア２１６２はそれぞれ、グラフィックス・マルチプロセッサ２１３４の命令を実行するために使用される浮動小数点ユニット（ＦＰＵ）及び／又は整数算術論理演算ユニット（ＡＬＵ）を含むことができる。少なくとも一実施例では、ＧＰＧＰＵコア２１６２同士は、同様のアーキテクチャであってもよく、又は異なるアーキテクチャであってもよい。少なくとも一実施例では、ＧＰＧＰＵコア２１６２の第１の部分は、単精度ＦＰＵ及び整数ＡＬＵを含み、ＧＰＧＰＵコアの第２の部分は、倍精度ＦＰＵを含む。少なくとも一実施例では、ＦＰＵは、ＩＥＥＥ７５４－２００８規格浮動小数点演算を実装することができ、又は、可変精度の浮動小数点演算を有効にすることができる。少なくとも一実施例では、グラフィックス・マルチプロセッサ２１３４はさらに、矩形コピー又はピクセル・ブレンディングの動作などの特定の機能を実行するための、１つ若しくは複数の固定機能ユニット又は特別機能ユニットをさらに含むことができる。少なくとも一実施例では、ＧＰＧＰＵコア２１６２の１つ又は複数は、固定の又は特別な機能論理も含むことができる。

少なくとも一実施例では、ＧＰＧＰＵコア２１６２は、複数のデータ・セットに対して単一の命令を実行することができるＳＩＭＤ論理を含む。少なくとも一実施例では、ＧＰＧＰＵコア２１６２は、ＳＩＭＤ４、ＳＩＭＤ８、及びＳＩＭＤ１６の命令を物理的に実行することができ、ＳＩＭＤ１、ＳＩＭＤ２、及びＳＩＭＤ３２の命令を論理的に実行することができる。少なくとも一実施例では、ＧＰＧＰＵコアのためのＳＩＭＤ命令は、シェーダ・コンパイラによるコンパイル時に生成されてもよく、又は単一プログラム複数データ（ＳＰＭＤ：single program multiple data）又はＳＩＭＴのアーキテクチャ向けに書かれコンパイルされたプログラムを実行しているときに、自動的に生成されてもよい。少なくとも一実施例では、ＳＩＭＴ実行モデルのために構成されたプログラムの複数のスレッドは、単一のＳＩＭＤ命令を介して実行することができる。たとえば、少なくとも一実施例では、同じ又は同様の動作を実行する８個のＳＩＭＴスレッドを、単一のＳＩＭＤ８の論理ユニットを介して並列に実行することができる。

少なくとも一実施例では、メモリ及びキャッシュ相互接続２１６８は、グラフィックス・マルチプロセッサ２１３４の各機能ユニットをレジスタ・ファイル２１５８及び共有メモリ２１７０に接続する相互接続ネットワークである。少なくとも一実施例では、メモリ及びキャッシュ相互接続２１６８は、ロード／ストア・ユニット２１６６が、共有メモリ２１７０とレジスタ・ファイル２１５８の間でロード及びストアの動作を実装できるようにするクロスバー相互接続である。少なくとも一実施例では、レジスタ・ファイル２１５８は、ＧＰＧＰＵコア２１６２と同じ周波数で動作することができ、したがって、ＧＰＧＰＵコア２１６２とレジスタ・ファイル２１５８の間のデータ転送は非常に低レイテンシを有し得る。少なくとも一実施例では、共有メモリ２１７０を使用して、グラフィックス・マルチプロセッサ２１３４内の機能ユニットで実行されるスレッド間の通信を可能にすることができる。少なくとも一実施例では、キャッシュ・メモリ２１７２を、たとえばデータ・キャッシュとして使用して、機能ユニットとテクスチャ・ユニット２１３６の間で通信されるテクスチャ・データをキャッシュすることができる。少なくとも一実施例では、共有メモリ２１７０は、プログラム管理キャッシュとしても使用することができる。少なくとも一実施例では、ＧＰＧＰＵコア２１６２で実行されているスレッドは、キャッシュ・メモリ２１７２内に記憶される自動キャッシュ・データに加えて、共有メモリ内にプログラム的にデータを記憶することができる。

少なくとも一実施例では、本明細書に記載の並列プロセッサ又はＧＰＧＰＵは、ホスト／プロセッサ・コアに通信可能に結合されて、グラフィックス動作、機械学習動作、パターン分析動作、及び様々な汎用ＧＰＵ（ＧＰＧＰＵ）機能を加速する。少なくとも一実施例では、ＧＰＵは、バス又は他の相互接続（たとえば、ＰＣＩｅ又はＮＶＬｉｎｋなどの高速相互接続）を介してホスト・プロセッサ／コアに通信可能に結合されてもよい。少なくとも一実施例では、ＧＰＵは、コアとしてパッケージ又はチップに一体化されてもよく、パッケージ又はチップの内部の内部プロセッサ・バス／相互接続を介してコアに通信可能に結合されてもよい。少なくとも一実施例では、ＧＰＵの接続方法に関わらず、プロセッサ・コアは、ワーク記述子に含まれたコマンド／命令のシーケンスの形でワークをこうしたＧＰＵに配分してもよい。少なくとも一実施例では、次いでＧＰＵは、これらのコマンド／命令を効率的に処理するために専用の回路／論理を使用する。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにグラフィックス・マルチプロセッサ２１３４において使用されてもよい。

少なくとも一実施例では、ｎ：ｍ構造化スパース性を強化するための置換５１２及び枝刈５２８は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにグラフィックス・マルチプロセッサ２１３４において使用されてもよい。

図２２は、少なくとも一実施例による、マルチＧＰＵコンピューティング・システム２２００を示す。少なくとも一実施例では、マルチＧＰＵコンピューティング・システム２２００は、ホスト・インターフェース・スイッチ２２０４を介して複数の汎用グラフィックス・プロセッシング・ユニット（ＧＰＧＰＵ）２２０６Ａ～Ｄに結合されたプロセッサ２２０２を含むことができる。少なくとも一実施例では、ホスト・インターフェース・スイッチ２２０４は、プロセッサ２２０２をＰＣＩエクスプレス・バスに結合するＰＣＩエクスプレス・スイッチ・デバイスであり、このＰＣＩエクスプレス・バスを介して、プロセッサ２２０２は、ＧＰＧＰＵ２２０６Ａ～Ｄと通信することができる。少なくとも一実施例では、ＧＰＧＰＵ２２０６Ａ～Ｄは、高速ポイントツーポイントＧＰＵツーＧＰＵリンク２２１６のセットを介して相互接続することができる。少なくとも一実施例では、ＧＰＵツーＧＰＵリンク２２１６は、専用ＧＰＵリンクを介して、ＧＰＧＰＵ２２０６Ａ～Ｄのそれぞれに接続される。少なくとも一実施例では、Ｐ２ＰのＧＰＵリンク２２１６は、プロセッサ２２０２が接続されているホスト・インターフェース・バス２２０４を介した通信を必要とせずに、ＧＰＧＰＵ２２０６Ａ～Ｄのそれぞれの間で直接通信を可能にする。少なくとも一実施例では、Ｐ２ＰのＧＰＵリンク２２１６に仕向けられたＧＰＵツーＧＰＵトラフィックがあると、ホスト・インターフェース・バス２２０４は、システム・メモリへのアクセスができるように、又はたとえば１つ又は複数のネットワーク・デバイスを介して、マルチＧＰＵコンピューティング・システム２２００の他のインスタンスと通信するために、利用可能な状態に保たれる。少なくとも一実施例では、ＧＰＧＰＵ２２０６Ａ～Ｄは、ホスト・インターフェース・スイッチ２２０４を介してプロセッサ２２０２に接続され、少なくとも一実施例では、プロセッサ２２０２は、Ｐ２ＰのＧＰＵリンク２２１６のための直接サポートを含み、ＧＰＧＰＵ２２０６Ａ～Ｄに直接接続することができる。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにマルチＧＰＵコンピューティング・システム２２００において使用されてもよい。

少なくとも一実施例では、ｎ：ｍ構造化スパース性を強化するための置換５１２及び枝刈５２８は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにマルチＧＰＵコンピューティング・システム２２００において使用されてもよい。

図２３は、少なくとも一実施例によるグラフィックス・プロセッサ２３００のブロック図である。少なくとも一実施例では、グラフィックス・プロセッサ２３００は、リング相互接続２３０２、パイプライン・フロント・エンド２３０４、メディア・エンジン２３３７、及びグラフィックス・コア２３８０Ａ～２３８０Ｎを含む。少なくとも一実施例では、リング相互接続２３０２は、グラフィックス・プロセッサ２３００を、他のグラフィックス・プロセッサ又は１つ又は複数の汎用プロセッサ・コアを含む他の処理ユニットに結合する。少なくとも一実施例では、グラフィックス・プロセッサ２３００は、マルチ・コア処理システム内に一体化された多数のプロセッサのうちの１つである。

少なくとも一実施例では、グラフィックス・プロセッサ２３００は、リング相互接続２３０２を介してコマンドのバッチを受け取る。少なくとも一実施例では、入ってくるコマンドは、パイプライン・フロント・エンド２３０４のコマンド・ストリーマ２３０３によって解釈される。少なくとも一実施例では、グラフィックス・プロセッサ２３００は、グラフィックス・コア２３８０Ａ～２３８０Ｎを介して３Ｄジオメトリ処理及びメディア処理を実行するためのスケーラブルな実行論理を含む。少なくとも一実施例では、３Ｄジオメトリ処理コマンドについては、コマンド・ストリーマ２３０３はコマンドをジオメトリ・パイプライン２３３６に供給する。少なくとも一実施例では、少なくとも一部のメディア処理コマンドについては、コマンド・ストリーマ２３０３はコマンドをビデオ・フロント・エンド２３３４に供給し、ビデオ・フロント・エンド２３３４はメディア・エンジン２３３７に結合される。少なくとも一実施例では、メディア・エンジン２３３７は、ビデオ及び画像の後処理のためのＶｉｄｅｏＱｕａｌｉｔｙＥｎｇｉｎｅ（ＶＱＥ）２３３０と、ハードウェア加速されたメディア・データのエンコード及びデコードを提供するマルチ・フォーマット・エンコード／デコード（ＭＦＸ）２３３３エンジンとを含む。少なくとも一実施例では、ジオメトリ・パイプライン２３３６及びメディア・エンジン２３３７はそれぞれ、少なくとも１つのグラフィックス・コア２３８０によって提供されるスレッド実行リソースのための実行スレッドを生成する。

少なくとも一実施例では、グラフィックス・プロセッサ２３００は、グラフィックス・コア２３８０Ａ～２３８０Ｎ（モジュール式であり得、コア・スライスと呼ばれることもある）を特徴とするスケーラブルなスレッド実行リソースを含み、それぞれのグラフィックス・コア２３８０Ａ～２３８０Ｎは、複数のサブ・コア２３５０Ａ～５０Ｎ、２３６０Ａ～２３６０Ｎ（コア・サブ・スライスと呼ばれることもある）を有する。少なくとも一実施例では、グラフィックス・プロセッサ２３００は、任意の数のグラフィックス・コア２３８０Ａを有することができる。少なくとも一実施例では、グラフィックス・プロセッサ２３００は、少なくとも第１のサブ・コア２３５０Ａ及び第２のサブ・コア２３６０Ａを有するグラフィックス・コア２３８０Ａを含む。少なくとも一実施例では、グラフィックス・プロセッサ２３００は、単一のサブ・コア（たとえば、２３５０Ａ）を有する低電力プロセッサである。少なくとも一実施例では、グラフィックス・プロセッサ２３００は、複数のグラフィックス・コア２３８０Ａ～２３８０Ｎを含み、このそれぞれが、第１のサブ・コア２３５０Ａ～２３５０Ｎのセット、及び第２のサブ・コア２３６０Ａ～２３６０Ｎのセットを含む。少なくとも一実施例では、第１のサブ・コア２３５０Ａ～２３５０Ｎの各サブ・コアは、少なくとも、実行ユニット２３５２Ａ～２３５２Ｎとメディア／テクスチャ・サンプラ２３５４Ａ～２３５４Ｎの第１のセットを含む。少なくとも一実施例では、第２のサブ・コア２３６０Ａ～２３６０Ｎの各サブ・コアは、少なくとも、実行ユニット２３６２Ａ～２３６２Ｎとサンプラ２３６４Ａ～２３６４Ｎの第２のセットを含む。少なくとも一実施例では、各サブ・コア２３５０Ａ～２３５０Ｎ、２３６０Ａ～２３６０Ｎは、共有リソース２３７０Ａ～２３７０Ｎのセットを共有する。少なくとも一実施例では、共有リソースは、共有キャッシュ・メモリ及びピクセル動作論理を含む。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにグラフィックス・プロセッサ２３００において使用されてもよい。

少なくとも一実施例では、ｎ：ｍ構造化スパース性を強化するための置換５１２及び枝刈５２８は、本明細書に記載のニューラル・ネットワークの訓練動作、ニューラル・ネットワークの機能及び／若しくはアーキテクチャ、又はニューラル・ネットワークのユース・ケースを使用して計算された重みパラメータに少なくとも部分的に基づき、推論又は予測の動作のためにグラフィックス・プロセッサ２３００において使用されてもよい。

図２４は、少なくとも一実施例による、命令を実行するための論理回路を含んでもよいプロセッサ２４００のマイクロ・アーキテクチャを示すブロック図である。少なくとも一実施例では、プロセッサ２４００は、ｘ８６命令、ＡＭＲ命令、特定用途向け集積回路（ＡＳＩＣ）用の特別命令などを含む命令を実行してもよい。少なくとも一実施例では、プロセッサ２４００は、カリフォルニア州サンタクララのインテルコーポレーションによる、ＭＭＸ（商標）技術で有効化されたマイクロプロセッサ内の６４ビット幅ＭＭＸレジスタなど、パック・データを記憶するためのレジスタを含んでもよい。少なくとも一実施例では、整数形式と浮動小数点形式の両方で利用可能なＭＭＸレジスタは、単一命令複数データ（「ＳＩＭＤ」）及びストリーミングＳＩＭＤ拡張（「ＳＳＥ」：streaming SIMD extensions）命令を伴うパック・データ要素で動作してもよい。少なくとも一実施例では、ＳＳＥ２、ＳＳＥ３、ＳＳＥ４、ＡＶＸ、又はそれ以上（総称して「ＳＳＥｘ」と呼ばれる）の技術に関する１２８ビット幅のＸＭＭレジスタは、こうしたパック・データのオペランドを保持してもよい。少なくとも一実施例では、プロセッサ２４００は、機械学習若しくは深層学習のアルゴリズム、訓練、又は推論を加速するために命令を実行してもよい。

少なくとも一実施例では、プロセッサ２４００は、実行すべき命令をフェッチし、プロセッサ・パイプラインで後に使用すべき命令を準備するイン・オーダ・フロント・エンド（「フロント・エンド」）２４０１を含む。少なくとも一実施例では、フロント・エンド２４０１は、いくつかのユニットを含んでもよい。少なくとも一実施例では、命令プリフェッチャ２４２６が、メモリから命令をフェッチし、命令デコーダ２４２８に命令を供給し、命令デコーダが、命令をデコード又は解釈する。たとえば、少なくとも一実施例では、命令デコーダ２４２８は、受け取った命令を、機械が実行することのできる「マイクロ命令」又は「マイクロ・オペレーション」と呼ばれる（「マイクロ・オプス」又は「ｕｏｐｓ」とも呼ばれる）１つ又は複数のオペレーションにデコードする。少なくとも一実施例では、命令デコーダ２４２８は、命令を、オプコード及び対応するデータ、並びに制御フィールドに構文解析して、これらがマイクロ・アーキテクチャによって使用されて、少なくとも一実施例による動作が実行されてもよい。少なくとも一実施例では、トレース・キャッシュ２４３０は、デコードされたｕｏｐｓを、実行できるようにｕｏｐキュー２４３４においてプログラム順のシーケンス又はトレースにアセンブルしてもよい。少なくとも一実施例では、トレース・キャッシュ２４３０が複雑な命令に遭遇すると、マイクロコードＲＯＭ２４３２が、動作の完了に必要なｕｏｐｓを提供する。

少なくとも一実施例では、単一のマイクロ・オプスに変換できる命令もあれば、全動作を完了するためにいくつかのマイクロ・オプスを必要とする命令もある。少なくとも一実施例では、命令を完了するために５つ以上のマイクロ・オプスが要な場合、命令デコーダ２４２８は、マイクロコードＲＯＭ２４３２にアクセスして、命令を実行してもよい。少なくとも一実施例では、命令は、命令デコーダ２４２８において処理できるように、少数のマイクロ・オプスにデコードされてもよい。少なくとも一実施例では、こうした動作を完了するのに多数のマイクロ・オプスが必要な場合には、命令は、マイクロコードＲＯＭ２４３２に記憶されてもよい。少なくとも一実施例では、トレース・キャッシュ２４３０は、少なくとも一実施例によるマイクロコードＲＯＭ２４３２からの１つ又は複数の命令を完了するために、エントリ・ポイント・プログラマブル論理アレイ（「ＰＬＡ」：programmable logic array）を参照して、マイクロコード・シーケンスを読み取るための正しいマイクロ命令ポインタを判定する。少なくとも一実施例では、マイクロコードＲＯＭ２４３２が命令のためのマイクロ・オプスのシーケンシングを終了した後、機械のフロント・エンド２４０１は、トレース・キャッシュ２４３０からマイクロ・オプスのフェッチを再開してもよい。

少なくとも一実施例では、アウト・オブ・オーダ実行エンジン（「アウト・オブ・オーダ・エンジン」）２４０３は、実行できるように命令を準備してもよい。少なくとも一実施例では、アウト・オブ・オーダ実行論理は、命令のフローをなめらかにし、その順序を変更するために多数バッファを有し、命令がパイプラインを下り、実行されるようにスケジューリングされるときの性能を最適化する。少なくとも一実施例では、アウト・オブ・オーダ実行エンジン２４０３は、限定することなく、アロケータ／レジスタ・リネーマ２４４０、メモリｕｏｐキュー２４４２、整数／浮動小数点ｕｏｐキュー２４４４、メモリ・スケジューラ２４４６、高速スケジューラ２４０２、低速／汎用浮動小数点スケジューラ（「低速／汎用ＦＰ：ｆｌｏａｔｉｎｇｐｏｉｎｔスケジューラ」）２４０４、及び単純浮動小数点スケジューラ（「単純ＦＰスケジューラ」）２４０６を含む。少なくとも一実施例では、高速スケジューラ２４０２、低速／汎用浮動小数点スケジューラ２４０４、及び単純浮動小数点スケジューラ２４０６は、本明細書において集合的に「ｕｏｐスケジューラ２４０２、２４０４、２４０６」とも呼ばれる。少なくとも一実施例では、アロケータ／レジスタ・リネーマ２４４０は、実行するために各ｕｏｐが必要とする機械バッファ及びリソースを配分する。少なくとも一実施例では、アロケータ／レジスタ・リネーマ２４４０は、レジスタ・ファイルへのエントリ時に論理レジスタの名前を変更する。少なくとも一実施例では、アロケータ／レジスタ・リネーマ２４４０はまた、メモリ・スケジューラ２４４６及びｕｏｐスケジューラ２４０２、２４０４、２４０６の前の、２つのｕｏｐキュー、すなわちメモリ動作のためのメモリｕｏｐキュー２４４２と非メモリ動作のための整数／浮動小数点ｕｏｐキュー２４４４のうちの１つに、各ｕｏｐのエントリを配分する。少なくとも一実施例では、ｕｏｐスケジューラ２４０２、２４０４、２４０６は、ｕｏｐｓがいつ実行準備されるかを、それらの従属入力レジスタ・オペランドのソースが準備されていること、及びそれらの動作を完了するためにｕｏｐが必要とする実行リソースが利用可能であることに基づき、判定する。少なくとも一実施例では、高速スケジューラ２４０２は、メイン・クロック・サイクルの半分ごとにスケジューリングしてもよく、低速／汎用浮動小数点スケジューラ２４０４及び単純浮動小数点スケジューラ２４０６は、メイン・プロセッサのクロック・サイクル当たりに１回スケジューリングしてもよい。少なくとも一実施例では、ｕｏｐスケジューラ２４０２、２４０４、２４０６は、実行できるようにｕｏｐｓをスケジューリングするためにディスパッチ・ポートを調停する。

少なくとも一実施例では、実行ブロック２４１１は、限定することなく、整数レジスタ・ファイル／バイパス・ネットワーク２４０８、浮動小数点レジスタ・ファイル／バイパス・ネットワーク（「ＦＰレジスタ・ファイル／バイパス・ネットワーク」）２４１０、アドレス生成ユニット（「ＡＧＵ」：address generation units）２４１２及び２４１４、高速算術論理演算ユニット（ＡＬＵ）（「高速ＡＬＵ」）２４１６及び２４１８、低速算術論理演算ユニット（「低速ＡＬＵ」）２４２０、浮動小数点ＡＬＵ（「ＦＰ」）２４２２、並びに浮動小数点移動ユニット（「ＦＰ移動」）２４２４を含む。少なくとも一実施例では、整数レジスタ・ファイル／バイパス・ネットワーク２４０８及び浮動小数点レジスタ・ファイル／バイパス・ネットワーク２４１０は、本明細書において「レジスタ・ファイル２４０８、２４１０」とも呼ばれる。少なくとも一実施例では、ＡＧＵＳ２４１２及び２４１４、高速ＡＬＵ２４１６及び２４１８、低速ＡＬＵ２４２０、浮動小数点ＡＬＵ２４２２、及び浮動小数点移動ユニット２４２４は、本明細書において「実行ユニット２４１２、２４１４、２４１６、２４１８、２４２０、２４２２、及び２４２４」とも呼ばれる。少なくとも一実施例では、実行ブロック２４１１は、限定することなく、（ゼロを含む）任意の数及びタイプのレジスタ・ファイル、バイパス・ネットワーク、アドレス生成ユニット、及び実行ユニットを、任意の組合せで含んでもよい。

少なくとも一実施例では、レジスタ・ネットワーク２４０８、２４１０は、ｕｏｐスケジューラ２４０２、２４０４、２４０６と、実行ユニット２４１２、２４１４、２４１６、２４１８、２４２０、２４２２、及び２４２４との間に配置されてもよい。少なくとも一実施例では、整数レジスタ・ファイル／バイパス・ネットワーク２４０８は、整数演算を実行する。少なくとも一実施例では、浮動小数点レジスタ・ファイル／バイパス・ネットワーク２４１０は、浮動小数点演算を実行する。少なくとも一実施例では、レジスタ・ネットワーク２４０８、２４１０のそれぞれは、限定することなく、バイパス・ネットワークを含んでもよく、このバイパス・ネットワークは、レジスタ・ファイルにまだ書き込まれていない完了したばかりの結果を、新しい従属ｕｏｐｓにバイパス又は転送してもよい。少なくとも一実施例では、レジスタ・ネットワーク２４０８、２４１０は、互いにデータを通信してもよい。少なくとも一実施例では、整数レジスタ・ファイル／バイパス・ネットワーク２４０８は、限定することなく、２つの別々のレジスタ・ファイル、すなわち低次３２ビットのデータ用の１つのレジスタ・ファイル、及び高次３２ビットのデータ用の第２のレジスタ・ファイルを含んでもよい。少なくとも一実施例では、浮動小数点命令は、通常、６４～１２８ビット幅のオペランドを有することから、浮動小数点レジスタ・ファイル／バイパス・ネットワーク２４１０は、限定することなく、１２８ビット幅のエントリを含んでもよい。

少なくとも一実施例では、実行ユニット２４１２、２４１４、２４１６、２４１８、２４２０、２４２２、２４２４は、命令を実行してもよい。少なくとも一実施例では、レジスタ・ネットワーク２４０８、２４１０は、マイクロ命令が実行する必要のある整数及び浮動小数点のデータのオペランド値を記憶する。少なくとも一実施例では、プロセッサ２４００は、限定することなく、任意の数及び組合せの実行ユニット２４１２、２４１４、２４１６、２４１８、２４２０、２４２２、２４２４を含んでよい。少なくとも一実施例では、浮動小数点ＡＬＵ２４２２及び浮動小数点移動ユニット２４２４は、浮動小数点、ＭＭＸ、ＳＩＭＤ、ＡＶＸ、及びＳＥＥ、又は特別な機械学習命令を含む他の演算を実行してもよい。少なくとも一実施例では、浮動小数点ＡＬＵ２４２２は、限定することなく、６４ビットずつの浮動小数点デバイダを含み、除算、平方根、及び残りのマイクロ・オプスを実行してもよい。少なくとも一実施例では、浮動小数点値を含む命令は、浮動小数点ハードウェアによって対処されてもよい。少なくとも一実施例では、ＡＬＵ演算は、高速ＡＬＵ２４１６、２４１８に渡されてもよい。少なくとも一実施例では、高速ＡＬＵ２４１６、２４１８は、クロック・サイクルの半分の実効レイテンシで高速演算を実行してもよい。少なくとも一実施例では、低速ＡＬＵ２４２０は、乗数、シフト、フラグ論理、及びブランチ処理などの長レイテンシ・タイプの演算のための整数実行ハードウェアを、限定することなく含んでもよいことから、ほとんどの複雑な整数演算は低速ＡＬＵ２４２０に進む。少なくとも一実施例では、メモリのロード／ストア動作は、ＡＧＵ２４１２、２４１４によって実行されてもよい。少なくとも一実施例では、高速ＡＬＵ２４１６、高速ＡＬＵ２４１８、及び低速ＡＬＵ２４２０は、６４ビットのデータ・オペランドで整数演算を実行してもよい。少なくとも一実施例では、高速ＡＬＵ２４１６、高速ＡＬＵ２４１８、及び低速ＡＬＵ２４２０は、１６、３２、１２８、２５６などを含む様々なデータ・ビット・サイズをサポートするように実装されてもよい。少なくとも一実施例では、浮動小数点ＡＬＵ２４２２及び浮動小数点移動ユニット２４２４は、ＳＩＭＤ及びマルチメディア命令と併せた１２８ビット幅のパック・データ・オペランドなど様々なビット幅を有する幅広いオペランドをサポートするように実装されてもよい。

少なくとも一実施例では、ｕｏｐスケジューラ２４０２、２４０４、２４０６は、親ロードが実行を終了する前に、従属演算をディスパッチする。少なくとも一実施例では、ｕｏｐｓは、プロセッサ２４００において投機的にスケジューリング及び実行されてもよいので、プロセッサ２４００は、メモリ・ミスに対処するための論理も含んでよい。少なくとも一実施例では、データ・キャッシュにおいてデータ・ロードがミスした場合、一時的に不正確なデータを有するスケジューラを通り過ぎたパイプラインに、進行中の従属演算が存在してもよい。少なくとも一実施例では、リプレイ機構が、不正確なデータを使用する命令を追跡及び再実行する。少なくとも一実施例では、従属演算は、リプレイされる必要があってもよく、独立した演算は、完了が許容されてもよい。少なくとも一実施例では、プロセッサの少なくとも一実施例のスケジューラ及びリプレイ機構はまた、テキスト・ストリング比較演算のための命令シーケンスを捕捉するように設計されてもよい。

少なくとも一実施例では、「レジスタ」は、オペランドを識別するための命令の一部として使用することができるオンボード・プロセッサのストレージ・ロケーションを指してもよい。少なくとも一実施例では、レジスタは、（プログラマの視点から見て）プロセッサの外部から使用可能であり得るものであってもよい。少なくとも一実施例では、レジスタは、特定のタイプの回路に限定されなくてもよい。むしろ、少なくとも一実施例では、レジスタは、データを記憶し、データを提供し、本明細書に記載の機能を実行してもよい。少なくとも一実施例では、本明細書に記載のレジスタは、専用物理レジスタ、レジスタ・リネーミングを使用して動的に配分される物理レジスタ、専用物理レジスタと動的に配分される物理レジスタとの組合せなど、任意の数の異なる技法を使用して、プロセッサ内の回路によって実装されてもよい。少なくとも一実施例では、整数レジスタは、３２ビットの整数データを記憶する。少なくとも一実施例のレジスタ・ファイルは、パック・データのための８つのマルチメディアＳＩＭＤレジスタも含む。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５の一部又はすべてが、実行ブロック２４１１、及び図示してある若しくは図示していない他のメモリ又はレジスタに組み込まれてもよい。たとえば、少なくとも一実施例では、本明細書に記載の訓練及び／又は推論の技法は、実行ブロック２４１１に示すＡＬＵのうちの１つ又は複数を使用してもよい。さらに、重みパラメータは、本明細書に記載の１つ又は複数の機械学習アルゴリズム、ニューラル・ネットワーク・アーキテクチャ、ユース・ケース、又は訓練技法を実行するための実行ブロック２４１１のＡＬＵを構成するオン・チップ若しくはオフ・チップのメモリ及び／又はレジスタ（図示する又は図示せず）に記憶されてもよい。

図２５は、少なくとも一実施例による深層学習アプリケーション・プロセッサ２５００を示す。少なくとも一実施例では、深層学習アプリケーション・プロセッサ２５００は、深層学習アプリケーション・プロセッサ２５００によって実行される場合に、本開示全体を通して記載するプロセス及び技法の一部又はすべてを、深層学習アプリケーション・プロセッサ２５００に実行させる命令を使用する。少なくとも一実施例では、深層学習アプリケーション・プロセッサ２５００は、特定用途向け集積回路（ＡＳＩＣ）である。少なくとも一実施例では、アプリケーション・プロセッサ２５００は、１つ若しくは複数の命令又は両方を実行した結果としていずれもハードウェアに「ハード・ワイヤード」された行列乗算演算を実行する。少なくとも一実施例では、深層学習アプリケーション・プロセッサ２５００は、限定することなく、処理クラスタ２５１０（１）～２５１０（１２）、チップ間リンク（「ＩＣＬ」）２５２０（１）～２５２０（１２）、チップ間コントローラ（「ＩＣＣ」）２５３０（１）～２５３０（２）、高帯域幅メモリ第２世代（「ＨＢＭ２」）２５４０（１）～２５４０（４）、メモリ・コントローラ（「ＭｅｍＣｔｒｌｒｓ」）２５４２（１）～２５４２（４）、高帯域幅メモリ物理層（「ＨＢＭＰＨＹ」）２５４４（１）～２５４４（４）、管理－コントローラ中央処理装置（「管理－コントローラＣＰＵ」）２５５０、シリアル・ペリフェラル・インターフェース、集積回路間、及び汎用入力／出力ブロック（「ＳＰＩ、Ｉ２Ｃ、ＧＰＩＯ」）２５６０、周辺構成要素相互接続エクスプレス・コントローラ及びダイレクト・メモリ・アクセス・ブロック（「ＰＣＩｅコントローラ及びＤＭＡ」）２５７０、並びに１６レーン周辺構成要素相互接続エクスプレス・ポート（「ＰＣＩＥｘｐｒｅｓｓｘ１６」）２５８０を含む。

少なくとも一実施例では、処理クラスタ２５１０は、本明細書に記載の技法を含む１つ又は複数の訓練技法を使用して計算された重みパラメータに基づき、推論又は予測の演算を含む深層学習演算を実行してもよい。少なくとも一実施例では、各処理クラスタ２５１０は、限定することなく、任意の数及びタイプのプロセッサを含んでもよい。少なくとも一実施例では、深層学習アプリケーション・プロセッサ２５００は、任意の数及びタイプの処理クラスタ２５００を含んでもよい。少なくとも一実施例では、チップ間リンク２５２０は、双方向性である。少なくとも一実施例では、チップ間リンク２５２０及びチップ間コントローラ２５３０は、１つ又は複数のニューラル・ネットワークに具体化された１つ又は複数の機械学習アルゴリズムを実行した結果得られるアクティブ化情報を含む情報を、複数の深層学習アプリケーション・プロセッサ２５００が交換できるようにする。少なくとも一実施例では、深層学習アプリケーション・プロセッサ２５００は、（ゼロを含む）任意の数及びタイプのＩＣＬ２５２０及びＩＣＣ２５３０を含んでもよい。

少なくとも一実施例では、ＨＢＭ２２５４０は、合計３２ギガバイト（ＧＢ：Ｇｉｇａｂｙｔｅ）のメモリを提供する。少なくとも一実施例では、ＨＢＭ２２５４０（ｉ）は、メモリ・コントローラ２５４２（ｉ）とＨＢＭＰＨＹ２５４４（ｉ）の両方に関連付けられ、ここで「ｉ」は任意の整数である。少なくとも一実施例では、任意の数のＨＢＭ２２５４０が、任意のタイプ及び合計量の高帯域幅メモリを提供してもよく、（ゼロを含む）任意の数及びタイプのメモリ・コントローラ２５４２及びＨＢＭＰＨＹ２５４４に関連付けられてもよい。少なくとも一実施例では、ＳＰＩ、Ｉ２Ｃ、ＧＰＩＯ２５６０、ＰＣＩｅコントローラ及びＤＭＡ２５７０、並びに／又はＰＣＩｅ２５８０は、任意の技術的に実行可能なやり方で任意の数及びタイプの通信規格を有効にする任意の数及びタイプのブロックに置き換えられてもよい。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、深層学習アプリケーション・プロセッサは、深層学習アプリケーション・プロセッサ２５００に提供される情報を予測又は推論するようにニューラル・ネットワークなどの機械学習モデルを訓練するために使用される。少なくとも一実施例では、深層学習アプリケーション・プロセッサ２５００は、別のプロセッサ若しくはシステムによって、又は深層学習アプリケーション・プロセッサ２５００によって訓練されてきた訓練済み機械学習モデル（たとえば、ニューラル・ネットワーク）に基づき、情報を推論又は予測するために使用される。少なくとも一実施例では、プロセッサ２５００は、本明細書に記載の１つ又は複数のニューラル・ネットワークのユース・ケースを実行するために使用されてもよい。

図２６は、少なくとも一実施例による、ニューロモーフィック・プロセッサ２６００のブロック図である。少なくとも一実施例では、ニューロモーフィック・プロセッサ２６００は、ニューロモーフィック・プロセッサ２６００の外部のソースから１つ又は複数の入力を受信する。少なくとも一実施例では、これらの入力は、ニューロモーフィック・プロセッサ２６００内の１つ又は複数のニューロン２６０２に送信されてもよい。少なくとも一実施例では、ニューロン２６０２及びその構成要素は、１つ又は複数の算術論理演算ユニット（ＡＬＵ）を含む回路又は論理を使用して、実装されてもよい。少なくとも一実施例では、ニューロモーフィック・プロセッサ２６００は、限定することなく、ニューロン２６０２の数千又は数百万のインスタンスを含んでもよいが、任意の好適な数のニューロン２６０２が使用されてもよい。少なくとも一実施例では、ニューロン２６０２の各インスタンスは、ニューロン入力２６０４及びニューロン出力２６０６を含んでもよい。少なくとも一実施例では、ニューロン２６０２は出力を生成してもよく、この出力は、ニューロン２６０２の他のインスタンスの入力に送信されてもよい。たとえば、少なくとも一実施例では、ニューロン入力２６０４及びニューロン出力２６０６は、シナプス２６０８を介して相互接続されてもよい。

少なくとも一実施例では、ニューロン２６０２とシナプス２６０８は、ニューロモーフィック・プロセッサ２６００が受信した情報をニューロモーフィック・プロセッサ２６００が動作して処理又は分析するように、相互接続されてもよい。少なくとも一実施例では、ニューロン２６０２は、ニューロン入力２６０４を介して受信した入力が、閾値を超えているとき、出力パルス（又は「発火」若しくは「スパイク」）を送信してもよい。少なくとも一実施例では、ニューロン２６０２は、ニューロン入力２６０４において受信した信号を合計又は積分してもよい。たとえば、少なくとも一実施例では、ニューロン２６０２は、漏れ積分発火ニューロン（ｌｅａｋｙｉｎｔｅｇｒａｔｅ－ａｎｄ－ｆｉｒｅｎｅｕｒｏｎ）として実装されてもよく、ここで、合計（「膜電位」と呼ばれる）が閾値を超える場合には、ニューロン２６０２は、シグモイド関数又は閾値関数などの伝達関数を使用して、出力（又は「発火」）を生成してもよい。少なくとも一実施例では、漏れ積分発火ニューロンは、ニューロン入力２６０４で受信した信号を合計して膜電位にしてもよく、また、崩壊因子（又は漏れ）を適用して膜電位を低減してもよい。少なくとも一実施例では、複数の入力信号が、閾値を超えるほど十分に素早く（すなわち、膜電位の崩壊が少なすぎて発火できなくなる前に）ニューロン入力２６０４において受信された場合には、漏れ積分発火ニューロンが発火してもよい。少なくとも一実施例では、ニューロン２６０２は、入力を受信し、入力を積分して膜電位にし、膜電位を崩壊させる回路又は論理を使用して、実装されてもよい。少なくとも一実施例では、入力は平均化されてもよく、又は任意の他の好適な伝達関数が使用されてもよい。さらに、少なくとも一実施例では、ニューロン２６０２は、ニューロン入力２６０４に伝達関数を適用した結果が閾値を超えるとき、ニューロン出力２６０６において出力スパイクを生成するコンパレータ回路又は論理を、限定することなく含んでもよい。少なくとも一実施例では、ニューロン２６０２は発火すると、前に受信した入力情報を、たとえば膜電位を０又は他の好適なデフォルト値に再設定することによって、無視してもよい。少なくとも一実施例では、膜電位が０にリセットされると、ニューロン２６０２は、好適な期間（又は不応期）の後に通常の動作を再開してもよい。

少なくとも一実施例では、ニューロン２６０２は、シナプス２６０８を通して相互接続されてもよい。少なくとも一実施例では、シナプス２６０８は、第１のニューロン２６０２の出力から第２のニューロン２６０２の入力に信号を送信するように動作してもよい。少なくとも一実施例では、ニューロン２６０２は、シナプス２６０８の２つ以上のインスタンスを介して情報を送信してもよい。少なくとも一実施例では、ニューロン出力２６０６の１つ又は複数のインスタンスは、シナプス２６０８のインスタンスを介して、同じニューロン２６０２のニューロン入力２６０４のインスタンスに接続されてもよい。少なくとも一実施例では、シナプス２６０８のインスタンスを介して送信されることになる出力を生成するニューロン２６０２のインスタンスは、シナプス２６０８のそのインスタンスに対して「シナプス前ニューロン」と呼ばれてもよい。少なくとも一実施例では、シナプス２６０８のインスタンスを介して送信されることになる入力を受信するニューロン２６０２のインスタンスは、シナプス２６０８のそのインスタンスに対して「シナプス後ニューロン」と呼ばれてもよい。少なくとも一実施例では、ニューロン２６０２のインスタンスは、シナプス２６０８の１つ又は複数のインスタンスから入力を受信してもよく、また、シナプス２６０８の１つ又は複数のインスタンスを介して出力を送信してもよいので、ニューロン２６０２の単一のインスタンスは、したがって、シナプス２６０８の様々なインスタンスに対して「シナプス前ニューロン」と「シナプス後ニューロン」の両方であってもよい。

少なくとも一実施例では、ニューロン２６０２は、１つ又は複数の層に組織化されてもよい。少なくとも一実施例では、ニューロン２６０２の各インスタンスは、１つ又は複数のシナプス２６０８を通って１つ又は複数のニューロン入力２６０４にファン・アウトすることができる１つのニューロン出力２６０６を有してもよい。少なくとも一実施例では、第１の層２６１０のニューロン２６０２のニューロン出力２６０６は、第２の層２６１２のニューロン２６０２のニューロン入力２６０４に接続されてもよい。少なくとも一実施例では、層２６１０は、「フィード・フォワード層」と呼ばれてもよい。少なくとも一実施例では、第１の層２６１０のインスタンスにおけるニューロン２６０２の各インスタンスは、第２の層２６１２におけるニューロン２６０２の各インスタンスにファン・アウトしてもよい。少なくとも一実施例では、第１の層２６１０は、「完全に接続されたフィード・フォワード層」と呼ばれてもよい。少なくとも一実施例では、第２の層２６１２のインスタンスにおけるニューロン２６０２の各インスタンスは、第３の層２６１４におけるニューロン２６０２の全インスタンスより少ないインスタンスにファン・アウトしてもよい。少なくとも一実施例では、第２の層２６１２は、「疎に接続されたフィード・フォワード層」と呼ばれてもよい。少なくとも一実施例では、第２の層２６１２のニューロン２６０２は、第２の層２６１２におけるニューロン２６０２を含め、複数の他の層のニューロン２６０２にファン・アウトしてもよい。少なくとも一実施例では、第２の層２６１２は、「回帰層」と呼ばれてもよい。少なくとも一実施例では、ニューロモーフィック・プロセッサ２６００は、疎に接続されたフィード・フォワード層と完全に接続されたフィード・フォワード層の両方を限定することなく含む、回帰層とフィード・フォワード層の任意の好適な組合せを限定することなく含んでもよい。

少なくとも一実施例では、ニューロモーフィック・プロセッサ２６００は、シナプス２６０８をニューロン２６０２に接続するための再構成可能相互接続アーキテクチャ、又は専用ハード・ワイヤード相互接続を、限定することなく含んでもよい。少なくとも一実施例では、ニューロモーフィック・プロセッサ２６００は、ニューラル・ネットワーク・トポロジ、及びニューロンのファン・イン／ファン・アウトに基づき、必要に応じてシナプスを異なるニューロン２６０２に配分できるようにする回路又は論理を、限定することなく含んでもよい。たとえば、少なくとも一実施例では、シナプス２６０８は、ネットワーク・オン・チップなどの相互接続ファブリックを使用して、又は専用の接続を用いて、ニューロン２６０２に接続されてもよい。少なくとも一実施例では、シナプス相互接続及びその構成要素は、回路又は論理を使用して実装されてもよい。

図２７は、少なくとも一実施例による処理システムのブロック図である。少なくとも一実施例では、システム２７００は、１つ又は複数のプロセッサ２７０２、及び１つ又は複数のグラフィックス・プロセッサ２７０８を含み、単一プロセッサのデスクトップ・システム、マルチプロセッサのワークステーション・システム、又は多数のプロセッサ２７０２若しくはプロセッサ・コア２７０７を有するサーバ・システムであってもよい。少なくとも一実施例では、システム２７００は、モバイル・デバイス、携帯型デバイス、又は組み込みデバイスで使用するためのシステム・オン・チップ（ＳｏＣ）集積回路内に組み込まれた処理プラットフォームである。

少なくとも一実施例では、システム２７００は、サーバ・ベースのゲーミング・プラットフォーム、ゲーム及びメディアのコンソールを含むゲーム・コンソール、モバイル・ゲーミング・コンソール、携帯型ゲーム・コンソール、若しくはオンライン・ゲーム・コンソールを含んでもよく、又はそれらに組み込まれてもよい。少なくとも一実施例では、システム２７００は、モバイル・フォン、スマート・フォン、タブレット・コンピューティング・デバイス、又はモバイル・インターネット・デバイスである。少なくとも一実施例では、処理システム２７００はまた、スマート・ウォッチ・ウェアラブル・デバイス、スマート・アイウェア・デバイス、拡張現実デバイス、若しくは仮想現実デバイスなどのウェアラブル・デバイスを含んでもよく、それらに結合されてもよく、又はそれらの中に一体化されてもよい。少なくとも一実施例では、処理システム２７００は、１つ又は複数のプロセッサ２７０２と、１つ又は複数のグラフィックス・プロセッサ２７０８によって生成されるグラフィカル・インターフェースとを有するテレビ又はセット・トップ・ボックス・デバイスである。

少なくとも一実施例では、１つ又は複数のプロセッサ２７０２はそれぞれ、実行されたときにシステム及びユーザ・ソフトウェアのための動作を実行する命令を処理するための１つ又は複数のプロセッサ・コア２７０７を含む。少なくとも一実施例では、１つ又は複数のプロセッサ・コア２７０７のそれぞれは、特定の命令シーケンス２７０９を処理するように構成される。少なくとも一実施例では、命令シーケンス２７０９は、複合命令セット・コンピューティング（ＣＩＳＣ）、縮小命令セット・コンピューティング（ＲＩＳＣ）、又は超長命令語（ＶＬＩＷ）を介したコンピューティングを容易にしてもよい。少なくとも一実施例では、プロセッサ・コア２７０７はそれぞれ、異なる命令シーケンス２７０９を処理してもよく、この命令セットは、他の命令シーケンスのエミュレーションを容易にする命令を含んでもよい。少なくとも一実施例では、プロセッサ・コア２７０７はまた、デジタル信号プロセッサ（ＤＳＰ）などの他の処理デバイスを含んでもよい。

少なくとも一実施例では、プロセッサ２７０２はキャッシュ・メモリ２７０４を含む。少なくとも一実施例では、プロセッサ２７０２は、単一の内部キャッシュ又は複数レベルの内部キャッシュを有してもよい。少なくとも一実施例では、キャッシュ・メモリは、プロセッサ２７０２の様々な構成要素間で共有される。少なくとも一実施例では、プロセッサ２７０２はまた、外部キャッシュ（たとえば、レベル３（Ｌ３）キャッシュ又はラスト・レベル・キャッシュ（ＬＬＣ））（図示せず）を使用し、このキャッシュは、知られているキャッシュ・コヒーレンス技法を使用して、プロセッサ・コア２７０７間で共有されてもよい。少なくとも一実施例では、さらにレジスタ・ファイル２７０６がプロセッサ２７０２に含まれ、このレジスタ・ファイルは、異なるタイプのデータを記憶するための異なるタイプのレジスタ（たとえば、整数レジスタ、浮動小数点レジスタ、状態レジスタ、及び命令ポインタ・レジスタ）を含んでもよい。少なくとも一実施例では、レジスタ・ファイル２７０６は、汎用レジスタ又は他のレジスタを含んでもよい。

少なくとも一実施例では、１つ又は複数のプロセッサ２７０２は、１つ又は複数のインターフェース・バス２７１０に結合されて、アドレス、データ、又は制御信号などの通信信号を、プロセッサ２７０２とシステム２７００内の他の構成要素との間で送信する。少なくとも一実施例では、インターフェース・バス２７１０は、一実施例では、ダイレクト・メディア・インターフェース（ＤＭＩ）バスのバージョンなどのプロセッサ・バスとすることができる。少なくとも一実施例では、インターフェース２７１０は、ＤＭＩバスに限定されず、１つ又は複数のペリフェラル・コンポーネント・インターコネクト・バス（たとえば、ＰＣＩ、ＰＣＩエクスプレス）、メモリ・バス、又は他のタイプのインターフェース・バスを含んでもよい。少なくとも一実施例では、プロセッサ２７０２は、統合メモリ・コントローラ２７１６、及びプラットフォーム・コントローラ・ハブ２７３０を含む。少なくとも一実施例では、メモリ・コントローラ２７１６は、メモリ・デバイスとシステム２７００の他の構成要素との間の通信を容易にし、一方でプラットフォーム・コントローラ・ハブ（ＰＣＨ）２７３０は、ローカルＩ／Ｏバスを介してＩ／Ｏデバイスへの接続を提供する。

少なくとも一実施例では、メモリ・デバイス２７２０は、ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）デバイス、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）デバイス、フラッシュ・メモリ・デバイス、相変化メモリ・デバイス、又はプロセス・メモリとしての役割を果たすのに好適な性能を有する何らかの他のメモリ・デバイスとすることができる。少なくとも一実施例では、メモリ・デバイス２７２０は、システム２７００のためのシステム・メモリとして動作して、１つ又は複数のプロセッサ２７０２がアプリケーション若しくはプロセスを実行するときに使用するためのデータ２７２２及び命令２７２１を記憶することができる。少なくとも一実施例では、メモリ・コントローラ２７１６はまた、任意選択の外部グラフィックス・プロセッサ２７１２と結合しており、このグラフィックス・プロセッサは、プロセッサ２７０２内の１つ又は複数のグラフィックス・プロセッサ２７０８と通信して、グラフィックス及びメディアの動作を実行してもよい。少なくとも一実施例では、ディスプレイ・デバイス２７１１は、プロセッサ２７０２に接続することができる。少なくとも一実施例では、ディスプレイ・デバイス２７１１は、モバイル電子デバイス又はラップトップ・デバイスのような内部ディスプレイ・デバイス、又はディスプレイ・インターフェース（たとえば、ディスプレイ・ポートなど）を介して取り付けられる外部ディスプレイ・デバイスのうちの１つ又は複数を含むことができる。少なくとも一実施例では、ディスプレイ・デバイス２７１１は、仮想現実（ＶＲ）アプリケーション又は拡張現実（ＡＲ）アプリケーションで使用するための立体ディスプレイ・デバイスなどの頭部装着型ディスプレイ（ＨＭＤ）を含むことができる。

少なくとも一実施例では、プラットフォーム・コントローラ・ハブ２７３０は、周辺装置が高速Ｉ／Ｏバスを介してメモリ・デバイス２７２０及びプロセッサ２７０２に接続できるようにする。少なくとも一実施例では、Ｉ／Ｏ周辺装置は、オーディオ・コントローラ２７４６、ネットワーク・コントローラ２７３４、ファームウェア・インターフェース２７２８、ワイヤレス・トランシーバ２７２６、タッチ・センサ２７２５、データ・ストレージ・デバイス２７２４（たとえば、ハード・ディスク・ドライブ、フラッシュ・メモリなど）を含むが、これらに限定されない。少なくとも一実施例では、データ・ストレージ・デバイス２７２４は、ストレージ・インターフェース（たとえば、ＳＡＴＡ）を介して、又はペリフェラル・コンポーネント・インターコネクト・バス（たとえば、ＰＣＩ、ＰＣＩエクスプレス）などのペリフェラル・バスを介して、接続することができる。少なくとも一実施例では、タッチ・センサ２７２５は、タッチ画面センサ、圧力センサ、又は指紋センサを含むことができる。少なくとも一実施例では、ワイヤレス・トランシーバ２７２６は、ＷｉＦｉトランシーバ、Ｂｌｕｅｔｏｏｔｈトランシーバ、又は３Ｇ、４Ｇ、若しくはＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ（ＬＴＥ）トランシーバなどのモバイル・ネットワーク・トランシーバとすることができる。少なくとも一実施例では、ファームウェア・インターフェース２７２８は、システム・ファームウェアとの通信を可能にし、たとえば、ユニファイド・エクステンシブル・ファームウェア・インターフェース（ＵＥＦＩ）とすることができる。少なくとも一実施例では、ネットワーク・コントローラ２７３４は、有線ネットワークへのネットワーク接続を可能にすることができる。少なくとも一実施例では、高性能ネットワーク・コントローラ（図示せず）は、インターフェース・バス２７１０と結合する。少なくとも一実施例では、オーディオ・コントローラ２７４６は、多チャネル・ハイ・デフィニション・オーディオ・コントローラである。少なくとも一実施例では、システム２７００は、レガシー（たとえば、パーソナル・システム２（ＰＳ／２））デバイスをシステム２７００に結合するための任意選択のレガシーＩ／Ｏコントローラ２７４０を含む。少なくとも一実施例では、プラットフォーム・コントローラ・ハブ２７３０は、キーボードとマウス２７４３の組合せ、カメラ２７４４、又は他のＵＳＢ入力デバイスなど、１つ又は複数のユニバーサル・シリアル・バス（ＵＳＢ）コントローラ２７４２の接続入力デバイスにも接続することができる。

少なくとも一実施例では、メモリ・コントローラ２７１６及びプラットフォーム・コントローラ・ハブ２７３０のインスタンスは、外部グラフィックス・プロセッサ２７１２などの個別の外部グラフィックス・プロセッサに一体化されてもよい。少なくとも一実施例では、プラットフォーム・コントローラ・ハブ２７３０及び／又はメモリ・コントローラ２７１６は、１つ又は複数のプロセッサ２７０２の外部にあってもよい。たとえば、少なくとも一実施例では、システム２７００は、外部のメモリ・コントローラ２７１６及びプラットフォーム・コントローラ・ハブ２７３０を含むことができ、これらは、プロセッサ２７０２と通信するシステム・チップセット内のメモリ・コントローラ・ハブ及び周辺装置コントローラ・ハブとして構成されてもよい。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５の一部又はすべてが、グラフィックス・プロセッサ２７００に組み込まれてもよい。たとえば、少なくとも一実施例では、本明細書に記載の訓練及び／又は推論の技法は、３Ｄパイプラインに具体化されたＡＬＵのうちの１つ又は複数を使用してもよい。さらに、少なくとも一実施例では、本明細書に記載の推論及び／又は訓練の動作は、図８Ａ又は図８Ｂに示す論理以外の論理を使用して行われてもよい。少なくとも一実施例では、重みパラメータは、本明細書に記載の１つ又は複数の機械学習アルゴリズム、ニューラル・ネットワーク・アーキテクチャ、ユース・ケース、又は訓練技法を実行するためのグラフィックス・プロセッサ２７００のＡＬＵを構成するオン・チップ若しくはオフ・チップのメモリ及び／又はレジスタ（図示している又は図示せず）に記憶されてもよい。

図２８は、少なくとも一実施例による、１つ又は複数のプロセッサ・コア２８０２Ａ～２８０２Ｎ、統合メモリ・コントローラ２８１４、及び統合グラフィックス・プロセッサ２８０８を有するプロセッサ２８００のブロック図である。少なくとも一実施例では、プロセッサ２８００は、破線の四角によって表される追加コア２８０２Ｎを含むそれ以下の数の追加コアを含むことができる。少なくとも一実施例では、プロセッサ・コア２８０２Ａ～２８０２Ｎのそれぞれは、１つ又は複数の内部キャッシュ・ユニット２８０４Ａ～２８０４Ｎを含む。少なくとも一実施例では、各プロセッサ・コアはまた、１つ又は複数の共有キャッシュ・ユニット２８０６にアクセスできる。

少なくとも一実施例では、内部キャッシュ・ユニット２８０４Ａ～２８０４Ｎ、及び共有キャッシュ・ユニット２８０６は、プロセッサ２８００内のキャッシュ・メモリ階層を表す。少なくとも一実施例では、キャッシュ・メモリ・ユニット２８０４Ａ～２８０４Ｎは、各プロセッサ・コア内の命令及びデータのキャッシュの少なくとも１つのレベル、並びにレベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）などの共有中間レベル・キャッシュの１つ又は複数のレベル、又はキャッシュの他のレベルを含んでもよく、ここで外部メモリの前の最高レベルのキャッシュは、ＬＬＣとして分類される。少なくとも一実施例では、キャッシュ・コヒーレンス論理は、様々なキャッシュ・ユニット２８０６及び２８０４Ａ～２８０４Ｎ間でコヒーレンスを維持する。

少なくとも一実施例では、プロセッサ２８００はまた、１つ又は複数のバス・コントローラ・ユニット２８１６とシステム・エージェント・コア２８１０のセットを含んでもよい。少なくとも一実施例では、バス・コントローラ・ユニット２８１６は、１つ又は複数のＰＣＩ若しくはＰＣＩエクスプレス・バスなどのペリフェラル・バスのセットを管理する。少なくとも一実施例では、システム・エージェント・コア２８１０は、様々なプロセッサ構成要素のための管理機能を提供する。少なくとも一実施例では、システム・エージェント・コア２８１０は、様々な外部メモリ・デバイス（図示せず）へのアクセスを管理するための１つ又は複数の統合メモリ・コントローラ２８１４を含む。

少なくとも一実施例では、プロセッサ・コア２８０２Ａ～２８０２Ｎの１つ又は複数は、同時マルチスレッディングのサポートを含む。少なくとも一実施例では、システム・エージェント・コア２８１０は、マルチスレッドの処理中にコア２８０２Ａ～２８０２Ｎを調整し動作させるための構成要素を含む。少なくとも一実施例では、システム・エージェント・コア２８１０はさらに、電力制御ユニット（ＰＣＵ）を含んでもよく、このユニットは、プロセッサ・コア２８０２Ａ～２８０２Ｎ及びグラフィックス・プロセッサ２８０８の１つ又は複数の電力状態を調整するための論理及び構成要素を含む。

少なくとも一実施例では、プロセッサ２８００はさらに、グラフィックス処理動作を実行するためのグラフィックス・プロセッサ２８０８を含む。少なくとも一実施例では、グラフィックス・プロセッサ２８０８は、共有キャッシュ・ユニット２８０６と、１つ又は複数の統合メモリ・コントローラ２８１４を含むシステム・エージェント・コア２８１０とに結合する。少なくとも一実施例では、システム・エージェント・コア２８１０はまた、１つ又は複数の結合されたディスプレイに対してグラフィックス・プロセッサの出力を行わせるためのディスプレイ・コントローラ２８１１を含む。少なくとも一実施例では、ディスプレイ・コントローラ２８１１はまた、少なくとも１つの相互接続を介してグラフィックス・プロセッサ２８０８に結合された別個のモジュールであってもよく、又はグラフィックス・プロセッサ２８０８内に一体化されていてもよい。

少なくとも一実施例では、プロセッサ２８００の内部構成要素を結合するために、リング・ベースの相互接続ユニット２８１２が使用される。少なくとも一実施例では、ポイントツーポイント相互接続、スイッチ相互接続、又は他の技法などの代替的な相互接続ユニットが使用されてもよい。少なくとも一実施例では、グラフィックス・プロセッサ２８０８は、Ｉ／Ｏリンク２８１３を介してリング相互接続２８１２と結合する。

少なくとも一実施例では、Ｉ／Ｏリンク２８１３は、様々なプロセッサ構成要素と、ｅＤＲＡＭモジュールなどの高性能組み込みメモリ・モジュール２８１８との間の通信を容易にするオン・パッケージＩ／Ｏ相互接続を含む多様なＩ／Ｏ相互接続のうちの少なくとも１つを表す。少なくとも一実施例では、プロセッサ・コア２８０２Ａ～２８０２Ｎのそれぞれ及びグラフィックス・プロセッサ２８０８は、共有ラスト・レベル・キャッシュとして組み込みメモリ・モジュール２８１８を使用する。

少なくとも一実施例では、プロセッサ・コア２８０２Ａ～２８０２Ｎは、共通の命令セット・アーキテクチャを実行する同種のコアである。少なくとも一実施例では、プロセッサ・コア２８０２Ａ～２８０２Ｎは、命令セット・アーキテクチャ（ＩＳＡ）の観点から見れば異種であり、ここでプロセッサ・コア２８０２Ａ～２８０２Ｎのうちの１つ又は複数は、共通の命令セットを実行するが、プロセッサ・コア２８０２Ａ～２８０２Ｎのうちの１つ又は複数の他のコアは、共通の命令セットのサブセット、又は異なる命令セットを実行する。少なくとも一実施例では、プロセッサ・コア２８０２Ａ～２８０２Ｎは、マイクロ・アーキテクチャの観点から見れば異種であり、ここで電力消費量が相対的に高い１つ又は複数のコアは、電力消費量がより低い１つ又は複数のパワー・コアと結合する。少なくとも一実施例では、プロセッサ２８００は、１つ又は複数のチップ上に、又はＳｏＣ集積回路として実装することができる。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５の一部又はすべてが、グラフィックス・プロセッサ２８１０に組み込まれてもよい。たとえば、少なくとも一実施例では、本明細書に記載の訓練及び／又は推論の技法は、３Ｄパイプライン、グラフィックス・コア２８０２、共有機能論理、又は図２８の他の論理に具体化されたＡＬＵのうちの１つ又は複数を使用してもよい。さらに、少なくとも一実施例では、本明細書に記載の推論及び／又は訓練の動作は、図８Ａ又は図８Ｂに示す論理以外の論理を使用して行われてもよい。少なくとも一実施例では、重みパラメータは、本明細書に記載の１つ又は複数の機械学習アルゴリズム、ニューラル・ネットワーク・アーキテクチャ、ユース・ケース、又は訓練技法を実行するためのプロセッサ２８００のＡＬＵを構成するオン・チップ若しくはオフ・チップのメモリ及び／又はレジスタ（図示している又は図示せず）に記憶されてもよい。

図２９は、グラフィックス・プロセッサ２９００のブロック図であり、これは、個別グラフィックス・プロセッシング・ユニットであってもよく、又は複数の処理コアと統合されたグラフィックス・プロセッサであってもよい。少なくとも一実施例では、グラフィックス・プロセッサ２９００は、メモリにマッピングされたＩ／Ｏインターフェースを介して、メモリに入れられたコマンドを用いて、グラフィックス・プロセッサ２９００のレジスタと通信する。少なくとも一実施例では、グラフィックス・プロセッサ２９００は、メモリにアクセスするためのメモリ・インターフェース２９１４を含む。少なくとも一実施例では、メモリ・インターフェース２９１４は、ローカル・メモリ、１つ若しくは複数の内部キャッシュ、１つ若しくは複数の共有外部キャッシュ、及び／又はシステム・メモリへのインターフェースである。

少なくとも一実施例では、グラフィックス・プロセッサ２９００はまた、ディスプレイ出力データをディスプレイ・デバイス２９２０に向けて駆動するためのディスプレイ・コントローラ２９０２も含む。少なくとも一実施例では、ディスプレイ・コントローラ２９０２は、ディスプレイ・デバイス２９２０用の１つ又は複数の重なり平面、及び多層のビデオ若しくはユーザ・インターフェース要素の合成のためのハードウェアを含む。少なくとも一実施例では、ディスプレイ・デバイス２９２０は、内部又は外部のディスプレイ・デバイスとすることができる。少なくとも一実施例では、ディスプレイ・デバイス２９２０は、仮想現実（ＶＲ）ディスプレイ・デバイス又は拡張現実（ＡＲ）ディスプレイ・デバイスなどの頭部装着型ディスプレイ・デバイスである。少なくとも一実施例では、グラフィックス・プロセッサ２９００は、ＭＰＥＧ２などの動画エキスパート・グループ（ＭＰＥＧ）フォーマット、Ｈ．２６４／ＭＰＥＧ－４ＡＶＣなどのアドバンスト・ビデオ・コーディング（ＡＶＣ）フォーマット、並びに映画テレビ技術者協会（ＳＭＰＴＥ）４２１Ｍ／ＶＣ－１、及びＪＰＥＧなどのジョイント・フォトグラフィック・エキスパート・グループ（ＪＰＥＧ）フォーマット、及びモーションＪＰＥＧ（ＭＪＰＥＧ）フォーマットを含むがこれらに限定されない１つ又は複数のメディア符号化フォーマットに、それらのフォーマットから、又はそれらのフォーマット間で、メディアをエンコード、デコード、又はコード変換するためのビデオ・コーデック・エンジン２９０６を含む。

少なくとも一実施例では、グラフィックス・プロセッサ２９００は、たとえばビット境界ブロック転送を含む２次元（２Ｄ）ラスタライザ動作を実行するためのブロック画像転送（ＢＬＩＴ）エンジン２９０４を含む。しかし、少なくとも一実施例では、２Ｄグラフィックス動作は、グラフィックス処理エンジン（ＧＰＥ）２９１０の１つ又は複数の構成要素を使用して実行される。少なくとも一実施例では、ＧＰＥ２９１０は、３次元（３Ｄ）グラフィックス動作及びメディア動作を含むグラフィックス動作を実行するためのコンピュート・エンジンである。

少なくとも一実施例では、ＧＰＥ２９１０は、３Ｄのプリミティブ形状（たとえば、矩形、三角形など）に作用する処理関数を使用して、３次元画像及びシーンをレンダリングするなど、３Ｄ動作を実行するための３Ｄパイプライン２９１２を含む。少なくとも一実施例では、３Ｄパイプライン２９１２は、プログラム可能で固定された関数要素を含み、これは、３Ｄ／メディア・サブシステム２９１５に対して様々なタスクを実行し、且つ／又は実行スレッドをスポーンする。３Ｄパイプライン２９１２を使用してメディア動作を実行できるが、少なくとも一実施例では、ＧＰＥ２９１０は、ビデオの後処理及び画像強調などのメディア動作を実行するために使用されるメディア・パイプライン２９１６も含む。

少なくとも一実施例では、メディア・パイプライン２９１６は、ビデオ・コーデック・エンジン２９０６の代わりに、又はそれを代表して、ビデオ・デコード加速、ビデオ・インターレース解除、及びエンコード加速などの１つ又は複数の特別なメディア動作を実行するための固定機能又はプログラム可能論理ユニットを含む。少なくとも一実施例では、メディア・パイプライン２９１６は、３Ｄ／メディア・サブシステム２９１５で実行するためのスレッドをスポーンするためのスレッド・スポーニング・ユニットをさらに含む。少なくとも一実施例では、スポーンされたスレッドは、３Ｄ／メディア・サブシステム２９１５に含まれた１つ又は複数のグラフィックス実行ユニット上で、メディア動作のための計算を実行する。

少なくとも一実施例では、３Ｄ／メディア・サブシステム２９１５は、３Ｄパイプライン２９１２及びメディア・パイプライン２９１６によってスポーンされたスレッドを実行するための論理を含む。少なくとも一実施例では、３Ｄパイプライン２９１２及びメディア・パイプライン２９１６は、スレッド実行要求を３Ｄ／メディア・サブシステム２９１５に送信し、この３Ｄ／メディア・サブシステム２９１５は、様々な要求を調停し、利用可能なスレッド実行リソースにディスパッチするためのスレッド・ディスパッチ論理を含む。少なくとも一実施例では、実行リソースは、３Ｄ及びメディア・スレッドを処理するためのグラフィックス実行ユニットのアレイを含む。少なくとも一実施例では、３Ｄ／メディア・サブシステム２９１５は、スレッド命令及びデータのための１つ又は複数の内部キャッシュを含む。少なくとも一実施例では、サブシステム２９１５はまた、スレッド間でデータを共有し、出力データを記憶するための、レジスタ及びアドレス可能メモリを含む共有メモリも含む。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５の一部又はすべてが、グラフィックス・プロセッサ２９００に組み込まれてもよい。たとえば、少なくとも一実施例では、本明細書に記載の訓練及び／又は推論の技法は、３Ｄパイプライン２９１２に具体化されたＡＬＵのうちの１つ又は複数を使用してもよい。さらに、少なくとも一実施例では、本明細書に記載の推論及び／又は訓練の動作は、図８Ａ又は図８Ｂに示す論理以外の論理を使用して行われてもよい。少なくとも一実施例では、重みパラメータは、本明細書に記載の１つ又は複数の機械学習アルゴリズム、ニューラル・ネットワーク・アーキテクチャ、ユース・ケース、又は訓練技法を実行するためのグラフィックス・プロセッサ２９００のＡＬＵを構成するオン・チップ若しくはオフ・チップのメモリ及び／又はレジスタ（図示している又は図示せず）に記憶されてもよい。

図３０は、少なくとも一実施例によるグラフィックス・プロセッサのグラフィックス処理エンジン３０１０のブロック図である。少なくとも一実施例では、グラフィックス処理エンジン（ＧＰＥ）３０１０は、図２９に示すＧＰＥ２９１０の１つのバージョンである。少なくとも一実施例では、メディア・パイプライン３０１６は任意選択であり、ＧＰＥ３０１０内に明示的に含まれなくてもよい。少なくとも一実施例では、別個のメディア及び／又は画像のプロセッサが、ＧＰＥ３０１０に結合される。

少なくとも一実施例では、ＧＰＥ３０１０は、コマンド・ストリーマ３００３に結合され、又はそれを含み、このコマンド・ストリーマは、３Ｄパイプライン３０１２及び／又はメディア・パイプライン３０１６にコマンド・ストリームを提供する。少なくとも一実施例では、コマンド・ストリーマ３００３はメモリに結合され、このメモリは、システム・メモリであってもよく、又は内部キャッシュ・メモリ及び共有キャッシュ・メモリのうちの１つ若しくは複数であってもよい。少なくとも一実施例では、コマンド・ストリーマ３００３は、メモリからコマンドを受信し、３Ｄパイプライン３０１２及び／又はメディア・パイプライン３０１６にコマンドを送信する。少なくとも一実施例では、コマンドは、リング・バッファからフェッチされる命令、プリミティブ、又はマイクロ・オペレーションであり、このリング・バッファは、３Ｄパイプライン３０１２及びメディア・パイプライン３０１６のためのコマンドを記憶する。少なくとも一実施例では、リング・バッファはさらに、複数のコマンドのバッチを記憶するバッチ・コマンド・バッファを含むことができる。少なくとも一実施例では、３Ｄパイプライン３０１２用のコマンドはまた、３Ｄパイプライン３０１２用の頂点及び形状のデータ、並びに／又はメディア・パイプライン３０１６用の画像データ及びメモリ・オブジェクトなどであるがこれらに限定されないメモリに記憶されたデータへの参照も含むことができる。少なくとも一実施例では、３Ｄパイプライン３０１２及びメディア・パイプライン３０１６は、演算を実行することにより、又は１つ若しくは複数の実行スレッドをグラフィックス・コア・アレイ３０１４にディスパッチすることにより、コマンド及びデータを処理する。少なくとも一実施例では、グラフィックス・コア・アレイ３０１４は、グラフィックス・コア（たとえば、グラフィックス・コア３０１５Ａ、グラフィックス・コア３０１５Ｂ）の１つ又は複数のブロックを含み、各ブロックは、１つ又は複数のグラフィックス・コアを含む。少なくとも一実施例では、各グラフィックス・コアは、グラフィックス及びコンピュートの動作を実行するための汎用及びグラフィックス専用の実行論理、並びに、図８Ａ及び図８Ｂの推論及び／又は訓練論理８１５を含め、固定機能のテクスチャ処理及び／又は機械学習、及び人工知能の加速論理を含むグラフィックス実行リソースのセットを含む。

少なくとも一実施例では、３Ｄパイプライン３０１２は、命令を処理し、実行スレッドをグラフィックス・コア・アレイ３０１４にディスパッチすることにより、頂点シェーダ、ジオメトリ・シェーダ、ピクセル・シェーダ、フラグメント・シェーダ、コンピュート・シェーダ、又は他のシェーダ・プログラムなどの１つ又は複数のシェーダ・プログラムを処理するための固定機能及びプログラム可能論理を含む。少なくとも一実施例では、グラフィックス・コア・アレイ３０１４は、シェーダ・プログラムを処理する際に使用するための実行リソースの統合ブロックを提供する。少なくとも一実施例では、グラフィック・コア・アレイ３０１４のグラフィックス・コア３０１５Ａ～３０１５Ｂ内の多目的の実行論理（たとえば、実行ユニット）は、様々な３ＤのＡＰＩシェーダ言語のサポートを含み、複数のシェーダに関連付けられた複数の同時実行スレッドを実行することができる。

少なくとも一実施例では、グラフィックス・コア・アレイ３０１４はまた、ビデオ及び／又は画像の処理など、メディア機能を実行するための実行論理も含む。少なくとも一実施例では、実行ユニットはさらに、グラフィックス処理動作に加えて並列の汎用計算動作を実行するようにプログラム可能な汎用論理を含む。

少なくとも一実施例では、グラフィックス・コア・アレイ３０１４上で実行しているスレッドにより生成される出力データは、統合リターン・バッファ（ＵＲＢ）３０１８のメモリにデータを出力することができる。少なくとも一実施例では、ＵＲＢ３０１８は、複数のスレッド用のデータを記憶することができる。少なくとも一実施例では、グラフィックス・コア・アレイ３０１４上で実行している異なるスレッド間でデータを送信するために、ＵＲＢ３０１８を使用してもよい。少なくとも一実施例では、グラフィックス・コア・アレイ３０１４上のスレッドと、共有機能論理３０２０内の固定機能論理との間の同期のために、ＵＲＢ３０１８がさらに使用されてもよい。

少なくとも一実施例では、グラフィックス・コア・アレイ３０１４はスケーラブルであり、それにより、グラフィックス・コア・アレイ３０１４は、可変数のグラフィックス・コアを含み、それぞれのグラフィックス・コアが、ＧＰＥ３０１０の目的とする電力及び性能のレベルに基づき可変数の実行ユニットを有する。少なくとも一実施例では、実行リソースは動的にスケーラブルであり、それにより実行リソースは、必要に応じて有効化又は無効化されてもよい。

少なくとも一実施例では、グラフィックス・コア・アレイ３０１４は、グラフィックス・コア・アレイ３０１４のグラフィックス・コア間で共有される複数のリソースを含む共有機能論理３０２０に結合される。少なくとも一実施例では、共有機能論理３０２０によって実行される共有機能は、専用の補足機能をグラフィックス・コア・アレイ３０１４に提供するハードウェア論理ユニットに具体化される。少なくとも一実施例では、共有機能論理３０２０は、サンプラユニット３０２１、数理ユニット３０２２、及びスレッド間通信（ＩＴＣ）論理３０２３を含むが、これらに限定されない。少なくとも一実施例では、１つ又は複数のキャッシュ３０２５が、共有機能論理３０２０に含まれ、又はそれに結合される。

少なくとも一実施例では、専用機能の需要が不十分でグラフィックス・コア・アレイ３０１４内に含められない場合に、共有機能が使用される。少なくとも一実施例では、専用機能を１つにインスタンス化したものが、共有機能論理３０２０において使用され、グラフィックス・コア・アレイ３０１４内の他の実行リソース間で共有される。少なくとも一実施例では、共有機能論理３０２０内の、グラフィックス・コア・アレイ３０１４によってのみ使用される特定の共有機能は、グラフィックス・コア・アレイ３０１４内の共有機能論理３３１６内に含まれてもよい。少なくとも一実施例では、グラフィックス・コア・アレイ３０１４内の共有機能論理３３１６は、共有機能論理３０２０内の一部又はすべての論理を含むことができる。少なくとも一実施例では、共有機能論理３０２０内のすべての論理要素は、グラフィックス・コア・アレイ３０１４の共有機能論理３０２６内で複製されてもよい。少なくとも一実施例では、共有機能論理３０２０は、グラフィックス・コア・アレイ３０１４内の共有機能論理３０２６に有利なように除外される。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５の一部又はすべてが、グラフィックス・プロセッサ３０１０に組み込まれてもよい。たとえば、少なくとも一実施例では、本明細書に記載の訓練及び／又は推論の技法は、３Ｄパイプライン３０１２、グラフィックス・コア３０１５、共有機能論理３０２６、共有機能論理３０２０、又は図３０の他の論理に具体化されたＡＬＵのうちの１つ又は複数を使用してもよい。さらに、少なくとも一実施例では、本明細書に記載の推論及び／又は訓練の動作は、図８Ａ又は図８Ｂに示す論理以外の論理を使用して行われてもよい。少なくとも一実施例では、重みパラメータは、本明細書に記載の１つ又は複数の機械学習アルゴリズム、ニューラル・ネットワーク・アーキテクチャ、ユース・ケース、又は訓練技法を実行するためのグラフィックス・プロセッサ３０１０のＡＬＵを構成するオン・チップ若しくはオフ・チップのメモリ及び／又はレジスタ（図示している又は図示せず）に記憶されてもよい。

図３１は、本明細書に記載の少なくとも一実施例によるグラフィックス・プロセッサ・コア３１００のハードウェア論理のブロック図である。少なくとも一実施例では、グラフィックス・プロセッサ・コア３１００は、グラフィックス・コア・アレイ内に含まれる。少なくとも一実施例では、コア・スライスと呼ばれることもあるグラフィックス・プロセッサ・コア３１００は、モジュール式グラフィックス・プロセッサ内の１つ又は複数のグラフィックス・コアとすることができる。少なくとも一実施例では、グラフィックス・プロセッサ・コア３１００は、１つのグラフィックス・コア・スライスの例示であり、本明細書に記載のグラフィックス・プロセッサは、目的の電力及び性能のエンベロープに基づき、複数のグラフィックス・コア・スライスを含んでもよい。少なくとも一実施例では、各グラフィックス・コア３１００は、汎用及び固定の機能論理のモジュール式ブロックを含むサブ・スライスとも呼ばれる複数のサブ・コア３１０１Ａ～３１０１Ｆに結合された固定機能ブロック３１３０を含むことができる。

少なくとも一実施例では、固定機能ブロック３１３０は、たとえば低性能及び／又は低電力のグラフィックス・プロセッサ実装形態において、グラフィックス・プロセッサ３１００内のすべてのサブ・コアが共有できるジオメトリ及び固定機能パイプライン３１３６を含む。少なくとも一実施例では、ジオメトリ及び固定機能パイプライン３１３６は、３Ｄ固定機能パイプライン、ビデオ・フロント・エンド・ユニット、スレッド・スポーナ（ｓｐａｗｎｅｒ）及びスレッド・ディスパッチャ、並びに統合リターン・バッファを管理する統合リターン・バッファ・マネージャを含む。

少なくとも一実施例では、固定機能ブロック３１３０はまた、グラフィックスＳｏＣインターフェース３１３７、グラフィックス・マイクロコントローラ３１３８、及びメディア・パイプライン３１３９を含む。少なくとも一実施例では、グラフィックスＳｏＣインターフェース３１３７は、グラフィックス・コア３１００と、システム・オン・チップ集積回路内の他のプロセッサ・コアとのインターフェースを提供する。少なくとも一実施例では、グラフィックス・マイクロコントローラ３１３８は、スレッド・ディスパッチ、スケジューリング、及びプリエンプションを含め、グラフィックス・プロセッサ３１００の様々な機能を管理するように構成可能なプログラム可能サブ・プロセッサである。少なくとも一実施例では、メディア・パイプライン３１３９は、画像及びビデオのデータを含むマルチメディア・データのデコーディング、エンコーディング、前処理、及び／又は後処理を容易にする論理を含む。少なくとも一実施例では、メディア・パイプライン３１３９は、サブ・コア３１０１～３１０１Ｆ内のコンピュート論理又はサンプリング論理への要求を介して、メディア動作を実装する。

少なくとも一実施例では、ＳｏＣインターフェース３１３７は、汎用アプリケーション・プロセッサ・コア（たとえば、ＣＰＵ）、及び／又はＳｏＣ内の他の構成要素と、グラフィックス・コア３１００が通信できるようにし、ＳｏＣ内の他の構成要素には、共有ラスト・レベル・キャッシュ・メモリ、システムＲＡＭ、及び／又は組み込みオン・チップ若しくはオン・パッケージのＤＲＡＭなどのメモリ階層要素が含まれる。少なくとも一実施例では、ＳｏＣインターフェース３１３７はまた、カメラ・イメージング・パイプラインなど、ＳｏＣ内の固定機能デバイスとの通信を可能にし、グラフィックス・コア３１００とＳｏＣ内のＣＰＵとの間で共有することができるグローバル・メモリ・アトミックの使用を可能にし、且つ／又はそれを実装する。少なくとも一実施例では、グラフィックスＳｏＣインターフェース３１３７はまた、グラフィックス・プロセッサ・コア３１００の電力管理制御を実装することができ、グラフィックス・プロセッサ・コア３１００のクロック・ドメインと、ＳｏＣ内の他のクロック・ドメインとの間でインターフェースをとれるようにする。少なくとも一実施例では、ＳｏＣインターフェース３１３７は、グラフィックス・プロセッサ内の１つ又は複数のグラフィックス・コアのそれぞれにコマンド及び命令を提供するように構成されたコマンド・ストリーマ及びグローバル・スレッド・ディスパッチャから、コマンド・バッファを受信できるようにする。少なくとも一実施例では、コマンド及び命令は、メディア動作が実行されるときにはメディア・パイプライン３１３９にディスパッチされることが可能であり、又はグラフィックス処理動作が実行されるときには、ジオメトリ及び固定機能パイプライン（たとえば、ジオメトリ及び固定機能パイプライン３１３６及び／又はジオメトリ及び固定機能パイプライン３１１４）にディスパッチされることが可能である。

少なくとも一実施例では、グラフィックス・マイクロコントローラ３１３８は、グラフィックス・コア３１００のための様々なスケジューリング及び管理タスクを実行するように構成されることが可能である。少なくとも一実施例では、グラフィックス・マイクロコントローラ３１３８は、サブ・コア３１０１Ａ～３１０１Ｆ内の実行ユニット（ＥＵ：execution unit）アレイ３１０２Ａ～３１０２Ｆ、３１０４Ａ～３１０４Ｆ内の様々なグラフィックス並列エンジンで、グラフィックスを実行し、且つ／又はワークロードのスケジューリングをコンピュートすることができる。少なくとも一実施例では、グラフィックス・コア３１００を含むＳｏＣのＣＰＵコア上で実行されているホスト・ソフトウェアは、複数のグラフィックス・プロセッサ経路のうちの１つにワークロードを送出することができ、この経路が、適切なグラフィックス・エンジンに対するスケジューリング動作を呼び出す。少なくとも一実施例では、スケジューリング動作は、どのワークロードを次に実行すべきかを判定すること、コマンド・ストリーマにワークロードを送出すること、エンジン上で実行されている既存のワークロードをプリエンプションすること、ワークロードの進行を監視すること、及びワークロードが完了したときにホスト・ソフトウェアに通知することを含む。少なくとも一実施例では、グラフィックス・マイクロコントローラ３１３８はまた、グラフィックス・コア３１００の低電力又はアイドル状態を促進して、オペレーティング・システム及び／又はシステム上のグラフィックス・ドライバ・ソフトウェアとは無関係に、低電力状態の移行全体にわたってグラフィックス・コア３１００内のレジスタを保存及び復元する機能をグラフィックス・コア３１００に提供することができる。

少なくとも一実施例では、グラフィックス・コア３１００は、図示してあるサブ・コア３１０１Ａ～３１０１Ｆより多くの、又はそれより少ない、Ｎ個までのモジュール式サブ・コアを有してもよい。Ｎ個のサブ・コアのセットごとに、少なくとも一実施例では、グラフィックス・コア３１００はまた、共有機能論理３１１０、共有及び／又はキャッシュ・メモリ３１１２、ジオメトリ／固定機能パイプライン３１１４、並びに様々なグラフィックスを加速し、処理動作をコンピュートするための追加の固定機能論理３１１６を含むことができる。少なくとも一実施例では、共有機能論理３１１０は、グラフィックス・コア３１００内の各Ｎ個のサブ・コアが共有できる論理ユニット（たとえば、サンプラ、数理、及び／又はスレッド間通信の論理）を含むことができる。少なくとも一実施例では、共有の、及び／又はキャッシュのメモリ３１１２は、グラフィックス・コア３１００内のＮ個のサブ・コア３１０１Ａ～３１０１Ｆのためのラスト・レベル・キャッシュとすることができ、また、複数のサブ・コアがアクセスできる共有メモリとしての役割も果たすことができる。少なくとも一実施例では、ジオメトリ／固定機能パイプライン３１１４は、固定機能ブロック３１３０内のジオメトリ／固定機能パイプライン３１３６の代わりに含まれてもよく、同様の論理ユニットを含むことができる。

少なくとも一実施例では、グラフィックス・コア３１００は、グラフィックス・コア３１００が使用するための様々な固定機能加速論理を含むことができる追加の固定機能論理３１１６を含む。少なくとも一実施例では、追加の固定機能論理３１１６は、位置限定シェーディング（ｐｏｓｉｔｉｏｎｏｎｌｙｓｈａｄｉｎｇ）に使用するための追加のジオメトリ・パイプラインを含む。位置限定シェーディングでは、少なくとも２つのジオメトリ・パイプラインが存在しているが、ジオメトリ及び固定機能パイプライン３１１４、３１３６内の完全ジオメトリ・パイプラインと選別パイプライン（ｃｕｌｌｐｉｐｅｌｉｎｅ）においてであり、この選別パイプラインは、追加の固定機能論理３１１６内に含まれてもよい追加のジオメトリ・パイプラインである。少なくとも一実施例では、選別パイプラインは、完全ジオメトリ・パイプラインの縮小版である。少なくとも一実施例では、完全パイプライン及び選別パイプラインは、アプリケーションの異なるインスタンスを実行することができ、各インスタンスは別個のコンテキストを有する。少なくとも一実施例では、位置限定シェーディングは、切り捨てられた三角形の長い選別ランを隠すことができ、いくつかのインスタンスにおいてシェーディングを早く完了させることができる。たとえば、少なくとも一実施例では、選別パイプラインは、ピクセルをフレーム・バッファにラスタ化及びレンダリングすることなく、頂点の位置属性をフェッチしシェーディングするので、追加の固定機能論理３１１６内の選別パイプライン論理は、メイン・アプリケーションと並列で位置シェーダを実行することができ、完全パイプラインよりも全体的に早く臨界結果（ｃｒｉｔｉｃａｌｒｅｓｕｌｔ）を生成する。少なくとも一実施例では、選別パイプラインは、生成された臨界結果を使用して、すべての三角形について、これらの三角形が選別されているかどうかに関わらず、可視性情報をコンピュートすることができる。少なくとも一実施例では、（このインスタンスではリプレイ・パイプラインと呼ばれてもよい）完全パイプラインは、可視性情報を消費して、選別された三角形を飛ばして可視三角形だけをシェーディングすることができ、この可視性三角形が、最終的にラスタ化フェーズに渡される。

少なくとも一実施例では、追加の固定機能論理３１１６はまた、機械学習の訓練又は推論の最適化を含む実装形態のために、固定機能の行列乗算論理など、機械学習の加速論理を含むことができる。

少なくとも一実施例では、各グラフィックス・サブ・コア３１０１Ａ～３１０１Ｆ内において、実行リソースのセットを含み、このセットは、グラフィックス・パイプライン、メディア・パイプライン、又はシェーダ・プログラムからの要求に応答して、グラフィックス動作、メディア動作、及びコンピュート動作を実行するために使用されてもよい。少なくとも一実施例では、グラフィックス・サブ・コア３１０１Ａ～３１０１Ｆは、複数のＥＵアレイ３１０２Ａ～３１０２Ｆ、３１０４Ａ～３１０４Ｆ、スレッド・ディスパッチ及びスレッド間通信（ＴＤ／ＩＣ：ｔｈｒｅａｄｄｉｓｐａｔｃｈａｎｄｉｎｔｅｒ－ｔｈｒｅａｄｃｏｍｍｕｎｉｃａｔｉｏｎ）論理３１０３Ａ～３１０３Ｆ、３Ｄ（たとえば、テクスチャ）サンプラ３１０５Ａ～３１０５Ｆ、メディア・サンプラ３１０６Ａ～３１０６Ｆ、シェーダ・プロセッサ３１０７Ａ～３１０７Ｆ、及び共有ローカル・メモリ（ＳＬＭ：shared local memory）３１０８Ａ～３１０８Ｆを含む。少なくとも一実施例では、ＥＵアレイ３１０２Ａ～３１０２Ｆ、３１０４Ａ～３１０４Ｆはそれぞれ、複数の実行ユニットを含み、これらは、グラフィックス、メディア、又はコンピュート・シェーダ・プログラムを含むグラフィックス動作、メディア動作、又はコンピュート動作のサービスにおいて浮動小数点及び整数／固定小数点の論理演算を実行することができる汎用グラフィックス・プロセッシング・ユニットである。少なくとも一実施例では、ＴＤ／ＩＣ論理３１０３Ａ～３１０３Ｆは、サブ・コア内の実行ユニットのためのローカル・スレッド・ディスパッチ及びスレッド制御動作を実行し、サブ・コアの実行ユニット上で実行されているスレッド間の通信を容易にする。少なくとも一実施例では、３Ｄサンプラ３１０５Ａ～３１０５Ｆは、テクスチャ又は他の３Ｄグラフィックス関連のデータをメモリに読み取ることができる。少なくとも一実施例では、３Ｄサンプラは、所与のテクスチャに関連付けられた構成済みサンプル状態及びテクスチャ・フォーマットに基づき、テクスチャ・データを異なるやり方で読み取ることができる。少なくとも一実施例では、メディア・サンプラ３１０６Ａ～３１０６Ｆは、メディア・データに関連付けられたタイプ及びフォーマットに基づき、同様の読取り動作を実行することができる。少なくとも一実施例では、各グラフィックス・サブ・コア３１０１Ａ～３１０１Ｆは、代替的に３Ｄとメディアの統合サンプラを含むことができる。少なくとも一実施例では、各サブ・コア３１０１Ａ～３１０１Ｆ内の実行ユニット上で実行しているスレッドは、スレッド・グループ内で実行しているスレッドが、オン・チップ・メモリの共通プールを使用して実行できるようにするために、各サブ・コア内の共有ローカル・メモリ３１０８Ａ～３１０８Ｆを利用することができる。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５の一部又はすべてが、グラフィックス・プロセッサ３１１０に組み込まれてもよい。たとえば、少なくとも一実施例では、本明細書に記載の訓練及び／又は推論の技法は、３Ｄパイプライン、グラフィックス・マイクロコントローラ３１３８、ジオメトリ及び固定機能パイプライン３１１４及び３１３６、又は図３１の他の論理に具体化されたＡＬＵのうちの１つ又は複数を使用してもよい。さらに、少なくとも一実施例では、本明細書に記載の推論及び／又は訓練の動作は、図８Ａ又は図８Ｂに示す論理以外の論理を使用して行われてもよい。少なくとも一実施例では、重みパラメータは、本明細書に記載の１つ又は複数の機械学習アルゴリズム、ニューラル・ネットワーク・アーキテクチャ、ユース・ケース、又は訓練技法を実行するためのグラフィックス・プロセッサ３１００のＡＬＵを構成するオン・チップ若しくはオフ・チップのメモリ及び／又はレジスタ（図示している又は図示せず）に記憶されてもよい。

図３２Ａ～図３２Ｂは、少なくとも一実施例による、グラフィックス・プロセッサ・コアの処理要素のアレイを含むスレッド実行論理３２００を示す。図３２Ａは、スレッド実行論理３２００が使用される少なくとも一実施例を示す。図３２Ｂは、少なくとも一実施例による、グラフィックス実行ユニット３２０８の例示的な内側細部を示す図である。

図３２Ａに示すように、少なくとも一実施例では、スレッド実行論理３２００は、シェーダ・プロセッサ３２０２、スレッド・ディスパッチャ３２０４、命令キャッシュ３２０６、複数の実行ユニット３２０７Ａ～３２０７Ｎ、３２０８Ａ～３２０８Ｎを含むスケーラブル実行ユニット・アレイ、サンプラ３２１０、データ・キャッシュ３２１２、及びデータ・ポート３２１４を含む。少なくとも一実施例では、スケーラブル実行ユニット・アレイは、１つ又は複数の実行ユニット（たとえば、実行ユニット３２０８Ａ～Ｎ又は３２０７Ａ～Ｎのうちのいずれか）を、たとえばワークロードの計算要件に基づき有効又は無効にすることによって、動的に拡大縮小することができる。少なくとも一実施例では、スケーラブル実行ユニットは、実行ユニットのそれぞれにリンクされる相互接続ファブリックを介して相互接続される。少なくとも一実施例では、スレッド実行論理３２００は、命令キャッシュ３２０６、データ・ポート３２１４、サンプラ３２１０、及び実行ユニット３２０７又は３２０８のうちの１つ又は複数を介した、システム・メモリ又はキャッシュ・メモリなどのメモリへの１つ又は複数の接続を含む。少なくとも一実施例では、各実行ユニット（たとえば、３２０７Ａ）は、スレッドごとに複数のデータ要素を並列で処理しながら、複数の同時のハードウェア・スレッドを実行することができるスタンドアロンのプログラム可能な汎用計算ユニットである。少なくとも一実施例では、実行ユニット３２０７及び／又は３２０８のアレイは、任意の数の個々の実行ユニットを含むように拡大縮小可能である。

少なくとも一実施例では、実行ユニット３２０７及び／又は３２０８は、シェーダ・プログラムを実行するために主に使用される。少なくとも一実施例では、シェーダ・プロセッサ３２０２は、様々なシェーダ・プログラムを処理し、シェーダ・プログラムに関連付けられた実行スレッドを、スレッド・ディスパッチャ３２０４を介してディスパッチすることができる。少なくとも一実施例では、スレッド・ディスパッチャ３２０４は、グラフィックス及びメディア・パイプラインからのスレッド開始要求を調停し、要求されたスレッドを、実行ユニット３２０７及び／又は３２０８の１つ又は複数の実行ユニット上でインスタンス化するための論理を含む。たとえば、少なくとも一実施例では、ジオメトリ・パイプラインは、頂点シェーダ、モザイク・シェーダ、又はジオメトリ・シェーダを、処理できるようにスレッド実行論理にディスパッチすることができる。少なくとも一実施例では、スレッド・ディスパッチャ３２０４はまた、実行しているシェーダ・プログラムからのラン・タイム・スレッド・スポーニング要求（ｓｐａｗｎｉｎｇｒｅｑｕｅｓｔ）を処理することができる。

少なくとも一実施例では、実行ユニット３２０７及び／又は３２０８は、多くの標準的な３Ｄグラフィックス・シェーダ命令のネイティブ・サポートを含む命令セットをサポートし、それにより、グラフィックス・ライブラリ（たとえば、Ｄｉｒｅｃｔ３Ｄ及びＯｐｅｎＧＬ）からのシェーダ・プログラムが、最小のトランスレーションで実行される。少なくとも一実施例では、実行ユニットは、頂点及びジオメトリの処理（たとえば、頂点プログラム、ジオメトリ・プログラム、及び／又は頂点シェーダ）、ピクセル処理（たとえば、ピクセル・シェーダ、フラグメント・シェーダ）、及び汎用処理（たとえば、コンピュート及びメディアのシェーダ）をサポートする。少なくとも一実施例では、１つ又は複数の算術論理演算ユニット（ＡＬＵ）を含む各実行ユニット３２０７及び／又は３２０８のそれぞれは、単一命令複数データ（ＳＩＭＤ）の実行を複数発行することができ、マルチスレッド化された動作によって、メモリ・アクセスのレイテンシが高いにもかかわらず、効率的な実行環境が可能になる。少なくとも一実施例では、各実行ユニット内の各ハードウェア・スレッドは、専用の高帯域幅レジスタ・ファイル及び関連する独立したスレッド状態を有する。少なくとも一実施例では、実行は、整数演算、単精度及び倍精度の浮動小数点演算、ＳＩＭＤブランチ性能、論理演算、超越演算、及び他の種々の演算を行うことができるパイプラインに対して、クロック当たり複数発行される。少なくとも一実施例では、メモリ、又は共有機能のうちの１つからのデータを待機している間に、実行ユニット３２０７及び／又は３２０８内の従属論理は、要求したデータが戻されるまで、待機スレッドをスリープ状態にする。少なくとも一実施例では、待機スレッドがスリープ状態の間に、ハードウェア・リソースは他のスレッドの処理に専念してもよい。たとえば、少なくとも一実施例では、頂点シェーダ動作に関連する遅延中に、実行ユニットは、ピクセル・シェーダ、フラグメント・シェーダ、又は異なる頂点シェーダを含む別のタイプのシェーダ・プログラムのための動作を実行することができる。

少なくとも一実施例では、実行ユニット３２０７及び／又は３２０８の各実行ユニットは、データ要素のアレイに対して動作する。少なくとも一実施例では、データ要素の数は「実行サイズ」であり、又は命令に対するチャネルの数である。少なくとも一実施例では、実行チャネルは、データ要素のアクセス、マスキング、及び命令内のフロー制御に関する実行の論理ユニットである。少なくとも一実施例では、チャネルの数は、特定のグラフィックス・プロセッサのための物理的な算術論理演算ユニット（ＡＬＵ）又は浮動小数点ユニット（ＦＰＵ）の数とは無関係であってもよい。少なくとも一実施例では、実行ユニット３２０７及び／又は３２０８は、整数及び浮動小数点のデータ・タイプをサポートしてもよい。

少なくとも一実施例では、実行ユニット命令セットは、ＳＩＭＤ命令を含む。少なくとも一実施例では、様々なデータ要素が、パック・データ・タイプとしてレジスタに記憶されてもよく、実行ユニットは、要素のデータ・サイズに基づき様々な要素を処理する。たとえば、少なくとも一実施例では、２５６ビット幅ベクトルで動作しているとき、ベクトルの２５６ビットがレジスタに記憶され、実行ユニットは、４個の別々の６４ビット・パック・データ要素（クワッド・ワード（ＱＷ：Ｑｕａｄ－Ｗｏｒｄ）サイズのデータ要素）、８個の別々の３２ビット・パック・データ要素（ダブル・ワード（ＤＷ：Double Word）サイズのデータ要素）、１６個の別々の１６ビット・パック・データ要素（ワード（Ｗ：Ｗｏｒｄ）サイズのデータ要素）、又は３２個の別々の８ビット・データ要素（バイト（Ｂ：ｂｙｔｅ）サイズのデータ要素）としてベクトル上で動作する。しかし少なくとも一実施例では、異なるベクトル幅及びレジスタサイズが考えられる。

少なくとも一実施例では、実行ユニット３２０７Ａを実行ユニット３２０８Ａと融合して融合実行ユニット３２０９Ａにするなど、１つ又は複数の実行ユニットを組み合わせて、融合ＥＵに共通のスレッド制御論理（３２１１Ａ～３２１１Ｎ）を有する融合実行ユニット３２０９Ａ～３２０９Ｎにすることができる。少なくとも一実施例では、複数のＥＵを融合して、ＥＵグループにすることができる。少なくとも一実施例では、融合ＥＵグループの各ＥＵは、融合ＥＵグループのＥＵの数が、様々な実施例に応じて異なっている可能性がある状態で、別々のＳＩＭＤハードウェア・スレッドを実行するように構成されることが可能である。少なくとも一実施例では、ＳＩＭＤ８、ＳＩＭＤ１６、及びＳＩＭＤ３２を含むがこれに限定されない様々なＳＩＭＤ幅を、ＥＵごとに実行することができる。少なくとも一実施例では、各融合グラフィックス実行ユニット３２０９Ａ～３２０９Ｎは、少なくとも２つの実行ユニットを含む。たとえば、少なくとも一実施例では、融合実行ユニット３２０９Ａは、第１のＥＵ３２０７Ａ、第２のＥＵ３２０８Ｂ、及び第１のＥＵ３２０７Ａと第２のＥＵ３２０８Ａに共通のスレッド制御論理３２１１Ａを含む。少なくとも一実施例では、スレッド制御論理３２１１Ａは、融合グラフィックス実行ユニット３２０９Ａで実行されているスレッドを制御して、融合実行ユニット３２０９Ａ～３２０９Ｎ内の各ＥＵを、共通の命令ポインタ・レジスタを使用して実行できるようにする。

少なくとも一実施例では、１つ又は複数の内部命令キャッシュ（たとえば、３２０６）は、実行ユニットに対するスレッド命令をキャッシュするためにスレッド実行論理３２００に含まれる。少なくとも一実施例では、１つ又は複数のデータ・キャッシュ（たとえば、３２１２）は、スレッド実行中にスレッド・データをキャッシュするために含まれる。少なくとも一実施例では、サンプラ３２１０は、３Ｄ動作のためのテクスチャ・サンプリング、及びメディア動作のためのメディア・サンプリングを実行するために含まれる。少なくとも一実施例では、サンプラ３２１０は、特別なテクスチャ又はメディア・サンプリング機能を含み、サンプリングされたデータを実行ユニットに提供する前に、サンプリング処理中にテクスチャ又はメディアのデータを処理する。

実行中、少なくとも一実施例では、グラフィックス及びメディア・パイプラインは、スレッド開始要求を、スレッド・スポーニング及びディスパッチ論理を介してスレッド実行論理３２００に送る。少なくとも一実施例では、幾何学的物体のグループが処理され、ピクセル・データにラスタ化されたら、シェーダ・プロセッサ３２０２内のピクセル・プロセッサ論理（たとえば、ピクセル・シェーダ論理、フラグメント・シェーダ論理など）が呼び出されて、出力情報をさらにコンピュートし、結果を出力面（たとえば、色バッファ、深度バッファ、ステンシル・バッファなど）に書き込ませる。少なくとも一実施例では、ピクセル・シェーダ又はフラグメント・シェーダは、ラスタ化された物体間で補間されることになる様々な頂点属性の値を計算する。少なくとも一実施例では、次いで、シェーダ・プロセッサ３２０２内のピクセル・プロセッサ論理が、アプリケーション・プログラミング・インターフェース（ＡＰＩ）付きのピクセル・シェーダ・プログラム又はフラグメント・シェーダ・プログラムを実行する。少なくとも一実施例では、シェーダ・プログラムを実行するために、シェーダ・プロセッサ３２０２は、スレッド・ディスパッチャ３２０４を介してスレッドを実行ユニット（たとえば、３２０８Ａ）にディスパッチする。少なくとも一実施例では、シェーダ・プロセッサ３２０２は、サンプラ３２１０のテクスチャ・サンプリング論理を使用して、メモリに記憶されたテクスチャ・マップのテクスチャ・データにアクセスする。少なくとも一実施例では、テクスチャ・データ及び入力ジオメトリ・データに対する算術演算によって、各ジオメトリ・フラグメントのピクセル色データがコンピュートされ、又はさらに処理されないように１つ又は複数のピクセルが切り捨てられる。

少なくとも一実施例では、データ・ポート３２１４は、スレッド実行論理３２００のためのメモリ・アクセス機構を提供して、処理済みデータを、グラフィックス・プロセッサ出力パイプラインでさらに処理できるようにメモリに出力する。少なくとも一実施例では、データ・ポート３２１４は、１つ又は複数のキャッシュ・メモリ（たとえば、データ・キャッシュ３２１２）を含み、又はそれに結合されて、データ・ポートを介したメモリ・アクセスのためのデータをキャッシュする。

図３２Ｂに示してあるように、少なくとも一実施例では、グラフィック実行ユニット３２０８は、命令フェッチ・ユニット３２３７、汎用レジスタ・ファイル・アレイ（ＧＲＦ：general register file array）３２２４、アーキテクチャ・レジスタ・ファイル・アレイ（ＡＲＦ）３２２６、スレッド調停装置（ａｒｂｉｔｅｒ）３２２２、送信ユニット３２３０、ブランチ・ユニット３２３２、ＳＩＭＤ浮動小数点ユニット（ＦＰＵ）３２３４のセット、及び専用整数ＳＩＭＤＡＬＵ３２３５のセットを含むことができる。少なくとも一実施例では、ＧＲＦ３２２４及びＡＲＦ３２２６は、各同時ハードウェア・スレッドに関連付けられた汎用レジスタ・ファイルとアーキテクチャ・レジスタ・ファイルのセットを含み、このハードウェア・スレッドは、グラフィックス実行ユニット３２０８においてアクティブであってもよい。少なくとも一実施例では、スレッドごとのアーキテクチャ状態が、ＡＲＦ３２２６において維持され、スレッド実行中に使用されるデータが、ＧＲＦ３２２４に記憶される。少なくとも一実施例では、各スレッドに対する命令ポインタを含む各スレッドの実行状態は、ＡＲＦ３２２６のスレッド専用レジスタに保持することが可能である。

少なくとも一実施例では、グラフィックス実行ユニット３２０８は、同時マルチスレッディング（ＳＭＴ：ＳｉｍｕｌｔａｎｅｏｕｓＭｕｌｔｉ－Ｔｈｒｅａｄｉｎｇ）と微細化インターリーブ・マルチスレッディング（ＩＭＴ：ＩｎｔｅｒｌｅａｖｅｄＭｕｌｔｉ－Ｔｈｒｅａｄｉｎｇ）の組合せであるアーキテクチャを有する。少なくとも一実施例では、アーキテクチャは、実行ユニット当たりの同時スレッドのターゲット数及びレジスタ数に基づき設計時に微調整することができるモジュール式構成を有し、ここで実行ユニットのリソースは、複数の同時スレッドを実行するために使用される論理にわたって分割される。

少なくとも一実施例では、グラフィックス実行ユニット３２０８は複数の命令を共同発行することができ、この命令は、それぞれ異なる命令であってもよい。少なくとも一実施例では、グラフィックス実行ユニット・スレッド３２０８のスレッド調停装置３２２２は、送信ユニット３２３０、ブランチ・ユニット３２３２、又はＳＩＭＤＦＰＵ３２３４のうちの１つに命令をディスパッチして実行できるようにすることができる。少なくとも一実施例では、各実行スレッドは、ＧＲＦ３２２４内の１２８個の汎用レジスタにアクセスすることができ、ここで各レジスタは、３２ビットのデータ要素のＳＩＭＤ８要素のベクトルとしてアクセス可能な３２バイトを記憶することができる。少なくとも一実施例では、各実行ユニット・スレッドは、ＧＲＦ３２２４内の４キロバイトにアクセスすることができるが、実施例はこのように限定されず、他の実施例ではより多くの、又はより少ないリソースが提供されてもよい。少なくとも一実施例では、最大７個のスレッドを同時に実行できるが、実行ユニット当たりのスレッド数も、実施例に応じて変えることができる。７個のスレッドが４キロバイトにアクセスできる少なくとも一実施例では、ＧＲＦ３２２４は、合計２８キロバイトを記憶することができる。少なくとも一実施例では、フレキシブルなアドレッシング・モードにより、複数のレジスタがともにアドレスされてより幅広いレジスタを構築したり、ストライド設定された矩形ブロック・データ構造を表したりできるようにすることができる。

少なくとも一実施例では、メモリ動作、サンプラ動作、及び他のレイテンシの長いシステム通信は、メッセージ引渡し送信ユニット３２３０によって実行される「送信」命令を介してディスパッチされる。少なくとも一実施例では、ブランチ命令は、ＳＩＭＤの発散及び最終的な収束を容易にするために、ブランチ・ユニット３２３２にディスパッチされる。

少なくとも一実施例では、グラフィックス実行ユニット３２０８は、浮動小数点演算を実行するための１つ又は複数のＳＩＭＤ浮動小数点ユニット（ＦＰＵ）３２３４を含む。少なくとも一実施例では、ＦＰＵ３２３４は、整数計算もサポートする。少なくとも一実施例では、ＦＰＵ３２３４は、最大Ｍ個の３２ビット浮動小数点（若しくは整数）演算をＳＩＭＤで実行し、又は最大で２Ｍ個の１６ビット整数演算、若しくは１６ビット浮動小数点演算をＳＩＭＤで実行することができる。少なくとも一実施例では、少なくとも１つのＦＰＵは、拡張数理機能を提供して、高スループットの超越数理関数、及び倍精度の６４ビット浮動小数点をサポートする。少なくとも一実施例では、８ビットの整数ＳＩＭＤＡＬＵ３２３５のセットも存在し、機械学習計算に関連する動作を実行するように特に最適化されてもよい。

少なくとも一実施例では、グラフィックス実行ユニット３２０８の複数のインスタンスのアレイが、グラフィックス・サブ・コア・グループ（たとえば、サブ・スライス）においてインスタンス化されてもよい。少なくとも一実施例では、実行ユニット３２０８は、複数の実行チャネルにわたって命令を実行することができる。少なくとも一実施例では、グラフィックス実行ユニット３２０８で実行される各スレッドは、異なるチャネルで実行される。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、推論及び／又は訓練論理８１５の一部又はすべてが、スレッド実行論理３２００に組み込まれてもよい。さらに、少なくとも一実施例では、本明細書に記載の推論及び／又は訓練の動作は、図８Ａ又は図８Ｂに示す論理以外の論理を使用して行われてもよい。少なくとも一実施例では、重みパラメータは、本明細書に記載の１つ又は複数の機械学習アルゴリズム、ニューラル・ネットワーク・アーキテクチャ、ユース・ケース、又は訓練技法を実行するための実行論理３２００のＡＬＵスレッドを構成するオン・チップ若しくはオフ・チップのメモリ及び／又はレジスタ（図示する又は図示せず）に記憶されてもよい。

図３３は、少なくとも一実施例による並列処理ユニット（「ＰＰＵ」）３３００を示す。少なくとも一実施例では、ＰＰＵ３３００は、ＰＰＵ３３００によって実行された場合に、本開示全体を通して記載するプロセス及び技法の一部又はすべてを、ＰＰＵ３３００に実行させる機械可読コードで構成される。少なくとも一実施例では、ＰＰＵ３３００はマルチスレッド・プロセッサであり、このプロセッサは、１つ又は複数の集積回路デバイスに実装され、コンピュータ可読命令（機械可読命令若しくは単に命令とも呼ばれる）を、複数のスレッドで並列に処理するように設計されたレイテンシ隠蔽技法としてマルチスレッディングを利用する。少なくとも一実施例では、スレッドとは、実行スレッドを指し、ＰＰＵ３３００によって実行されるように構成された命令のセットをインスタンス化したものである。少なくとも一実施例では、ＰＰＵ３３００は、液晶ディスプレイ（「ＬＣＤ」）デバイスなどのディスプレイ・デバイスに表示できるように２次元（「２Ｄ」）画像データを生成するために、３次元（「３Ｄ」）グラフィックス・データを処理するためのグラフィックス・レンダリング・パイプラインを実装するように構成されたグラフィックス・プロセッシング・ユニット（「ＧＰＵ」）である。少なくとも一実施例では、ＰＰＵ３３００を利用して、線形代数演算及び機械学習演算などの計算が実行される。図３３は、単に例示を目的とした例示的な並列プロセッサを示しており、本開示の範囲内で企図されるプロセッサ・アーキテクチャの非限定的な例として解釈されるべきであり、同プロセッサに追加するため、且つ／又はそれを置き換えるために、任意の好適なプロセッサが利用されてもよいことが解釈されるべきである。

少なくとも一実施例では、１つ又は複数のＰＰＵ３３００は、高性能コンピューティング（「ＨＰＣ」：High Performance Computing）、データ・センタ、及び機械学習のアプリケーションを加速するように構成される。少なくとも一実施例では、ＰＰＵ３３００は、以下の非限定的な例を含む深層学習システム及びアプリケーションを加速するように構成される：自律車両プラットフォーム、深層学習、高精度音声、画像、テキスト認識システム、インテリジェント・ビデオ分析、分子シミュレーション、創薬、病気診断、天気予報、ビッグ・データ分析、天文学、分子動態シミュレーション、金融モデリング、ロボット工学、工場自動化、リアル・タイム言語翻訳、オンライン検索最適化、及び個別化ユーザ推奨など。

少なくとも一実施例では、ＰＰＵ３３００は、限定することなく、入力／出力（「Ｉ／Ｏ」）ユニット３３０６、フロント・エンド・ユニット３３１０、スケジューラ・ユニット３３１２、ワーク分配ユニット３３１４、ハブ３３１６、クロスバー（「Ｘｂａｒ」：ｃｒｏｓｓｂａｒ）３３２０、１つ又は複数の汎用処理クラスタ（「ＧＰＣ」）３３１８、及び１つ又は複数のパーティション・ユニット（「メモリ・パーティション・ユニット」）３３２２を含む。少なくとも一実施例では、ＰＰＵ３３００は、１つ又は複数の高速ＧＰＵ相互接続（「ＧＰＵ相互接続」）３３０８を介してホスト・プロセッサ又は他のＰＰＵ３３００に接続される。少なくとも一実施例では、ＰＰＵ３３００は、システム・バス３３０２を介してホスト・プロセッサ又は他の周辺デバイスに接続される。少なくとも一実施例では、ＰＰＵ３３００は、１つ又は複数のメモリ・デバイス（「メモリ」）３３０４を備えるローカル・メモリに接続される。少なくとも一実施例では、メモリ・デバイス３３０４は、限定することなく、１つ又は複数のダイナミック・ランダム・アクセス・メモリ（「ＤＲＡＭ」）デバイスを含む。少なくとも一実施例では、１つ又は複数のＤＲＡＭデバイスは、複数のＤＲＡＭダイが各デバイス内で積層された高帯域幅メモリ（「ＨＢＭ」）サブシステムとして構成されても、且つ／又は構成可能であってもよい。

少なくとも一実施例では、高速ＧＰＵ相互接続３３０８は、有線ベースのマルチ・レーン通信リンクを指してもよく、このリンクは、拡張縮小するためにシステムによって使用され、１つ又は複数の中央処理装置（「ＣＰＵ」）と組み合わされた１つ又は複数のＰＰＵ３３００を含み、ＰＰＵ３３００とＣＰＵとの間のキャッシュ・コヒーレンス、及びＣＰＵマスタリングをサポートする。少なくとも一実施例では、データ及び／又はコマンドは、高速ＧＰＵ相互接続３３０８により、ハブ３３１６を介して、１つ又は複数のコピー・エンジン、ビデオ・エンコーダ、ビデオ・デコーダ、電力管理ユニット、及び図３３に明示されていないこともある他の構成要素などのＰＰＵ３３００の別のユニットに／から送信される。

少なくとも一実施例では、Ｉ／Ｏユニット３３０６は、システム・バス３３０２を介してホスト・プロセッサ（図３３には示さず）から通信（たとえば、コマンド、データ）を送受信するように構成される。少なくとも一実施例では、Ｉ／Ｏユニット３３０６は、システム・バス３３０２を介して直接、又は１つ若しくは複数の、メモリ・ブリッジなどの中間デバイスを介して、ホスト・プロセッサと通信する。少なくとも一実施例では、Ｉ／Ｏユニット３３０６は、システム・バス３３０２を介してＰＰＵ３３００のうちの１つ又は複数などの１つ又は複数の他のプロセッサと通信してもよい。少なくとも一実施例では、Ｉ／Ｏユニット３３０６は、ペリフェラル・コンポーネント・インターコネクト・エクスプレス（「ＰＣＩｅ」）インターフェースを実装して、ＰＣＩｅバスを介して通信できるようにする。少なくとも一実施例では、Ｉ／Ｏユニット３３０６は、外部デバイスと通信するためのインターフェースを実装する。

少なくとも一実施例では、Ｉ／Ｏユニット３３０６は、システム・バス３３０２を介して受信したパケットをデコードする。少なくとも一実施例では、少なくともいくつかのパケットは、ＰＰＵ３３００に様々な動作を実行させるように構成されたコマンドを表す。少なくとも一実施例では、Ｉ／Ｏユニット３３０６は、デコードされたコマンドを、コマンドによって指定されるＰＰＵ３３００の様々な他のユニットに送信する。少なくとも一実施例では、コマンドは、フロント・エンド・ユニット３３１０に送信され、且つ／又はハブ３３１６、若しくは（図３３には明示していない）１つ若しくは複数のコピー・エンジン、ビデオ・エンコーダ、ビデオ・デコーダ、電力管理ユニットなどのＰＰＵ３３００の他のユニットに送信される。少なくとも一実施例では、Ｉ／Ｏユニット３３０６はＰＰＵ３３００の様々な論理ユニット間で、通信をルーティングするように構成される。

少なくとも一実施例では、ホスト・プロセッサによって実行されるプログラムは、ワークロードをＰＰＵ３３００に提供して処理できるようにするバッファにおいて、コマンド・ストリームをエンコードする。少なくとも一実施例では、ワークロードは、命令と、これらの命令によって処理されることになるデータとを含む。少なくとも一実施例では、バッファは、ホスト・プロセッサとＰＰＵ３３００の両方がアクセス（たとえば、書込み／読取り）可能なメモリ内の領域であり、ホスト・インターフェース・ユニットは、Ｉ／Ｏユニット３３０６によってシステム・バス３３０２を介して送信されるメモリ要求を介して、システム・バス３３０２に接続されたシステム・メモリ内のバッファにアクセスするように構成されてもよい。少なくとも一実施例では、ホスト・プロセッサは、バッファにコマンド・ストリームを書き込み、次いでコマンド・ストリームの開始点を指すポインタをＰＰＵ３３００に送信し、それによりフロント・エンド・ユニット３３１０は、１つ又は複数のコマンド・ストリームを指すポインタを受信し、１つ又は複数のコマンド・ストリームを管理して、コマンド・ストリームからコマンドを読み取り、コマンドをＰＰＵ３３００の様々なユニットに転送する。

少なくとも一実施例では、フロント・エンド・ユニット３３１０は、１つ又は複数のコマンド・ストリームによって定義されるタスクを処理するように様々なＧＰＣ３３１８を構成するスケジューラ・ユニット３３１２に結合される。少なくとも一実施例では、スケジューラ・ユニット３３１２は、スケジューラ・ユニット３３１２によって管理される様々タスクに関連する状態情報を追跡するように構成され、ここで状態情報は、どのＧＰＣ３３１８にタスクが割り当てられるか、タスクがアクティブか非アクティブか、タスクに関連付けられた優先レベルなどを示してもよい。少なくとも一実施例では、スケジューラ・ユニット３３１２は、ＧＰＣ３３１８のうちの１つ又は複数において、複数のタスクの実行を管理する。

少なくとも一実施例では、スケジューラ・ユニット３３１２は、ＧＰＣ３３１８で実行するためのタスクをディスパッチするように構成されたワーク分配ユニット３３１４に結合される。少なくとも一実施例では、ワーク分配ユニット３３１４は、スケジューラ・ユニット３３１２から受信したスケジュール済みタスクの数を追跡し、ワーク分配ユニット３３１４は、ＧＰＣ３３１８のそれぞれについて、ペンディング・タスク・プール、及びアクティブ・タスク・プールを管理する。少なくとも一実施例では、ペンディング・タスク・プールは、特定のＧＰＣ３３１８によって処理されるように割り当てられたタスクを含むいくつかのスロット（たとえば、３２スロット）を備え、アクティブ・タスク・プールは、ＧＰＣ３３１８によりアクティブに処理されているタスクのためのいくつかのスロット（たとえば、４スロット）を備え、それにより、ＧＰＣ３３１８のうちの１つがタスクの実行を完了すると、ＧＰＣ３３１８のアクティブ・タスク・プールからそのタスクが排除され、ペンディング・タスク・プールからの他のタスクが選択され、ＧＰＣ３３１８で実行されるようにスケジューリングされる。少なくとも一実施例では、データ依存性が解決されるのを待機している間など、アクティブ・タスクがＧＰＣ３３１８上でアイドルである場合には、アクティブ・タスクがＧＰＣ３３１８から排除され、ペンディング・タスク・プールに戻され、その間に、ペンディング・タスク・プールの別のタスクが選択され、ＧＰＣ３３１８で実行されるようにスケジューリングされる。

少なくとも一実施例では、ワーク分配ユニット３３１４は、Ｘバー３３２０を介して１つ又は複数のＧＰＣ３３１８と通信する。少なくとも一実施例では、Ｘバー３３２０は、ＰＰＵ３３００のユニットのうちの多くを、ＰＰＵ３３００の別のユニットに結合する相互接続ネットワークであり、ワーク分配ユニット３３１４を特定のＧＰＣ３３１８に結合するように構成されることが可能である。少なくとも一実施例では、ＰＰＵ３３００の１つ又は複数の他のユニットも、ハブ３３１６を介してＸバー３３２０に接続されてもよい。

少なくとも一実施例では、タスクはスケジューラ・ユニット３３１２によって管理され、ワーク分配ユニット３３１４によってＧＰＣ３３１８のうちの１つにディスパッチされる。少なくとも一実施例では、ＧＰＣ３３１８は、タスクを処理し、結果を生成するように構成される。少なくとも一実施例では、結果は、ＧＰＣ３３１８内の他のタスクによって消費されてもよく、Ｘバー３３２０を介して異なるＧＰＣ３３１８にルーティングされてもよく、又はメモリ３３０４に記憶されてもよい。少なくとも一実施例では、結果を、パーティション・ユニット３３２２を介してメモリ３３０４に書き込むことができ、パーティション・ユニット３３２２は、メモリ３３０４への／からのデータの読取り及び書込みを行うためのメモリ・インターフェースを実装する。少なくとも一実施例では、結果を、高速ＧＰＵ相互接続３３０８を介して別のＰＰＵ３３０４又はＣＰＵに送信することができる。少なくとも一実施例では、図３５と併せて本明細書でさらに詳細に説明されるように、ＰＰＵ３３００は、ＰＰＵ３３００に結合された別々の個別メモリ・デバイス３３０４の数に等しいＵ個のパーティション・ユニット３３２２を、限定することなく含む。

少なくとも一実施例では、ホスト・プロセッサはドライバ・カーネルを実行し、このカーネルは、ホスト・プロセッサで実行されている１つ又は複数のアプリケーションがＰＰＵ３３００で実行するための動作をスケジューリングできるようにするアプリケーション・プログラミング・インターフェース（「ＡＰＩ」）を実装している。少なくとも一実施例では、複数のコンピュート・アプリケーションが、ＰＰＵ３３００によって同時に実行され、ＰＰＵ３３００は、複数のコンピュート・アプリケーションに対して、隔離、サービス品質（「ＱｏＳ」：quality of service）、及び独立したアドレス空間を提供する。少なくとも一実施例では、アプリケーションは、ＰＰＵ３３００によって実行するための１つ又は複数のタスクをドライバ・カーネルに生成させる（たとえば、ＡＰＩコールの形の）命令を生成し、ドライバ・カーネルは、ＰＰＵ３３００によって処理されている１つ又は複数のストリームにタスクを出力する。少なくとも一実施例では、各タスクは、ワープと呼ばれてもよい関連スレッドの１つ又は複数のグループを備える。少なくとも一実施例では、ワープは、並列に実行することができる複数の関連スレッド（たとえば、３２個のスレッド）を備える。少なくとも一実施例では、連動スレッドとは、タスクを実行するための命令を含み、共有メモリを介してデータを交換する複数のスレッドを指してもよい。少なくとも一実施例では、スレッド及び連動スレッドは、図３５と併せてさらに詳細に説明される。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、深層学習アプリケーション・プロセッサは、ＰＰＵ３３００に提供される情報を予測又は推論するようにニューラル・ネットワークなどの機械学習モデルを訓練するために使用される。少なくとも一実施例では、深層学習アプリケーション・プロセッサ３３００は、別のプロセッサ若しくはシステムによって、又はＰＰＵ３３００によって訓練されてきた訓練済み機械学習モデル（たとえば、ニューラル・ネットワーク）に基づき、情報を推論又は予測するために使用される。少なくとも一実施例では、ＰＰＵ３３００は、本明細書に記載の１つ又は複数のニューラル・ネットワークのユース・ケースを実行するために使用されてもよい。

図３４は、少なくとも一実施例による汎用処理クラスタ（「ＧＰＣ」）３４００を示す。少なくとも一実施例では、ＧＰＣ３４００は、図３３のＧＰＣ３３１８である。少なくとも一実施例では、各ＧＰＣ３４００は、限定することなく、タスクを処理するためのいくつかのハードウェア・ユニットを含み、各ＧＰＣ３４００は、限定することなく、パイプライン・マネージャ３４０２、プレ・ラスタ演算ユニット（「プレＲＯＰ」：ｐｒｅ－ｒａｓｔｅｒｏｐｅｒａｔｉｏｎｓｕｎｉｔ）３４０４、ラスタ・エンジン３４０８、ワーク分配クロスバー（「ＷＤＸ」：work distribution crossbar）３４１６、メモリ管理ユニット（「ＭＭＵ」）３４１８、１つ又は複数のデータ処理クラスタ（「ＤＰＣ」：Data Processing Clusters）３４０６、及びパーツの任意の好適な組合せを含む。

少なくとも一実施例では、ＧＰＣ３４００の動作は、パイプライン・マネージャ３４０２によって制御される。少なくとも一実施例では、パイプライン・マネージャ３４０２は、ＧＰＣ３４００に配分されたタスクを処理するために１つ又は複数のＤＰＣ３４０６の構成を管理する。少なくとも一実施例では、パイプライン・マネージャ３４０２は、グラフィックス・レンダリング・パイプラインの少なくとも一部分を実装するように、１つ又は複数のＤＰＣ３４０６のうちの少なくとも１つを構成する。少なくとも一実施例では、ＤＰＣ３４０６は、プログラム可能なストリーミング・マルチプロセッサ（「ＳＭ」：ｓｔｒｅａｍｉｎｇｍｕｌｔｉ－ｐｒｏｃｅｓｓｏｒ）３４１４で頂点シェーダ・プログラムを実行するように構成される。少なくとも一実施例では、パイプライン・マネージャ３４０２は、少なくとも一実施例では、ワーク分配ユニットから受信したパケットを、ＧＰＣ３４００内の適切な論理ユニットにルーティングするように構成され、いくつかのパケットは、プレＲＯＰ３４０４の固定機能ハードウェア・ユニット及び／又はラスタ・エンジン３４０８にルーティングされてもよく、他のパケットは、プリミティブ・エンジン３４１２又はＳＭ３４１４によって処理されるようにＤＰＣ３４０６にルーティングされてもよい。少なくとも一実施例では、パイプライン・マネージャ３４０２は、ニューラル・ネットワーク・モデル及び／又はコンピューティング・パイプラインを実装するように、ＤＰＣ３４０６のうちの少なくとも１つを構成する。

少なくとも一実施例では、プレＲＯＰユニット３４０４は、少なくとも一実施例では、ラスタ・エンジン３４０８及びＤＰＣ３４０６によって生成されたデータを、図３３と併せて上でより詳細に説明したパーティション・ユニット３３２２のラスタ動作（ＲＯＰ）ユニットにルーティングするように構成される。少なくとも一実施例では、プレＲＯＰユニット３４０４は、色ブレンディングの最適化を実行し、ピクセル・データを組織化し、アドレス・トランスレーションを実行し、その他の動作を行うように構成される。少なくとも一実施例では、ラスタ・エンジン３４０８は、少なくとも一実施例では様々なラスタ動作を実行するように構成されたいくつかの固定機能ハードウェア・ユニットを、限定することなく含み、ラスタ・エンジン３４０８は、限定することなく、セットアップ・エンジン、粗いラスタ・エンジン、選別エンジン、クリッピング・エンジン、細かいラスタ・エンジン、タイル合体エンジン、及びこれらの任意の好適な組合せを含む。少なくとも一実施例では、セットアップ・エンジンは、変換された頂点を受信し、頂点によって定義された幾何プリミティブに関連付けられた平面方程式を生成し、平面方程式が、粗いラスタ・エンジンに送信されて、プリミティブに対するカバレッジ情報（たとえば、タイルのｘ、ｙカバレッジ・マスク）が生成され、粗いラスタ・エンジンの出力が、選別エンジンに送信され、ここでｚテストに落ちたプリミティブに関連付けられたフラグメントが選別され、クリッピング・エンジンに送信され、ここで視錐台の外側にあるフラグメントがクリップされる。少なくとも一実施例では、クリッピング及び選別を通過したフラグメントは、細かいラスタ・エンジンに渡されて、セットアップ・エンジンによって生成された平面方程式に基づき、ピクセル・フラグメントに対する属性が生成される。少なくとも一実施例では、ラスタ・エンジン３４０８の出力は、ＤＰＣ３４０６内に実装されたフラグメント・シェーダによってなど任意の好適なエンティティによって処理されることになるフラグメントを含む。

少なくとも一実施例では、ＧＰＣ３４００に含まれる各ＤＰＣ３４０６は、限定することなく、Ｍパイプ・コントローラ（「ＭＰＣ」：Ｍ－ＰｉｐｅＣｏｎｔｒｏｌｌｅｒ）３４１０、プリミティブ・エンジン３４１２、１つ又は複数のＳＭ３４１４、及びこれらの任意の好適な組合せを含む。少なくとも一実施例では、ＭＰＣ３４１０は、ＤＰＣ３４０６の動作を制御して、パイプライン・マネージャ３４０２から受信したパケットを、ＤＰＣ３４０６内の適切なユニットにルーティングする。少なくとも一実施例では、頂点に関連付けられたパケットは、頂点に関連付けられた頂点属性をメモリからフェッチするように構成されたプリミティブ・エンジン３４１２にルーティングされ、対照的に、シェーダ・プログラムに関連付けられたパケットは、ＳＭ３４１４に送信されてもよい。

少なくとも一実施例では、ＳＭ３４１４は、いくつかのスレッドにより表されたタスクを処理するように構成されたプログラム可能なストリーミング・プロセッサを、限定することなく含む。少なくとも一実施例では、ＳＭ３４１４はマルチスレッド化されており、スレッドの特定のグループからの複数のスレッド（たとえば、３２個のスレッド）を同時に実行するように構成され、単一命令複数データ（「ＳＩＭＤ」）アーキテクチャを実装し、ここでスレッドのグループ（ワープ）内の各スレッドは、同じ命令セットに基づき、異なるデータ・セットを処理するように構成される。少なくとも一実施例では、スレッド・グループ内のすべてのスレッドが命令の共通のセットを実行する。少なくとも一実施例では、ＳＭ３４１４は、単一命令複数スレッド（「ＳＩＭＴ」）アーキテクチャを実装し、ここで、スレッド・グループの各スレッドは、命令の共通セットに基づき、異なるデータ・セットを処理するように構成されるが、スレッド・グループ内の個々のスレッドは、実行中に発散することが許容される。少なくとも一実施例では、プログラム・カウンタ、コール・スタック、及び実行状態がワープごとに維持されて、ワープ内のスレッドが発散するときに、ワープ間の同時処理、及びワープ内での直列実行が可能になる。別の実施例では、プログラム・カウンタ、コール・スタック、及び実行状態が個々のスレッドごとに維持されて、すべてのスレッド間、ワープ内、及びワープ間で等しい同時処理が可能になる。少なくとも一実施例では、実行状態が個々のスレッドごとに維持され、共通の命令を実行しているスレッドが、より効率的になるように収束され並列に実行されてもよい。ＳＭ３４１４の少なくとも一実施例は、本明細書でさらに詳細に説明される。

少なくとも一実施例では、ＭＭＵ３４１８は、ＧＰＣ３４００とメモリ・パーティション・ユニット（たとえば、図３３のパーティション・ユニット３３２２）との間でインターフェースを提供し、ＭＭＵ３４１８は、仮想アドレスから物理アドレスへのトランスレーション、メモリ保護、及びメモリ要求の調停を提供する。少なくとも一実施例では、ＭＭＵ３４１８は、仮想アドレスからメモリの物理アドレスへのトランスレーションを実行するための１つ又は複数のトランスレーション・ルックアサイド・バッファ（「ＴＬＢ」）を提供する。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、深層学習アプリケーション・プロセッサは、ＧＰＣ３４００に提供される情報を予測又は推論するようにニューラル・ネットワークなどの機械学習モデルを訓練するために使用される。少なくとも一実施例では、ＧＰＣ３４００は、別のプロセッサ若しくはシステムによって、又はＧＰＣ３４００によって訓練されてきた訓練済み機械学習モデル（たとえば、ニューラル・ネットワーク）に基づき、情報を推論又は予測するために使用される。少なくとも一実施例では、ＧＰＣ３４００は、本明細書に記載の１つ又は複数のニューラル・ネットワークのユース・ケースを実行するために使用されてもよい。

図３５は、少なくとも一実施例による並列処理ユニット（「ＰＰＵ」）のメモリ・パーティション・ユニット３５００を示す。少なくとも一実施例では、パーティション・ユニット３５００は、限定することなく、ラスタ演算（「ＲＯＰ」）ユニット３５０２、レベル２（「Ｌ２」）キャッシュ３５０４、メモリ・インターフェース３５０６、及びそれらの任意の好適な組合せを含む。少なくとも一実施例では、メモリ・インターフェース３５０６はメモリに結合される。少なくとも一実施例では、メモリ・インターフェース３５０６は、高速データ転送のために、３２、６４、１２８、１０２４ビットのデータ・バスなどを実装してもよい。少なくとも一実施例では、ＰＰＵは、Ｕが正の整数である、Ｕ個のメモリ・インターフェース３５０６をパーティション・ユニット３５００の対当たりに１つのメモリ・インターフェース３５０６に組み込んでおり、ここでパーティション・ユニット３５００の各対は、対応するメモリ・デバイスに接続される。たとえば、少なくとも一実施例では、ＰＰＵは、高帯域幅メモリ・スタック、又はグラフィックス・ダブル・データ・レート、バージョン５、同期ダイナミック・ランダム・アクセス・メモリ（「ＧＤＤＲ５ＳＤＲＡＭ」）など、最大Ｙ個のメモリ・デバイスに接続されてもよい。

少なくとも一実施例では、メモリ・インターフェース３５０６は、高帯域幅メモリの第２世代（「ＨＢＭ２」：high bandwidth memory second generation）メモリ・インターフェースを実装し、ＹはＵの半分に等しい。少なくとも一実施例では、ＨＢＭ２メモリ・スタックは、ＰＰＵを有する物理パッケージに位置付けられて、従来のＧＤＤＲ５ＳＤＲＡＭシステムに比べて実質的な電力と面積の節約を実現する。少なくとも一実施例では、各ＨＢＭ２スタックは、限定することなく４個のメモリ・ダイを含み、Ｙ＝４であり、各ＨＢＭ２スタックは、１つのダイ当たりに２つの１２８ビット・チャネルの合計８チャネル、及び１０２４ビットのデータ・バス幅を含む。少なくとも一実施例では、メモリは、１ビット・エラー訂正２ビット・エラー検出（「ＳＥＣＤＥＤ」：Ｓｉｎｇｌｅ－ＥｒｒｏｒＣｏｒｒｅｃｔｉｎｇＤｏｕｂｌｅ－ＥｒｒｏｒＤｅｔｅｃｔｉｎｇ）エラー訂正コード（「ＥＣＣ」）をサポートしてデータを保護する。少なくとも一実施例では、ＥＣＣは、データ破損を受けやすいコンピュート・アプリケーションに、より高い信頼性を提供し得る。

少なくとも一実施例では、ＰＰＵは、マルチ・レベルのメモリ階層を実装する。少なくとも一実施例では、メモリ・パーティション・ユニット３５００は、統合されたメモリをサポートして、中央処理装置（「ＣＰＵ」）及びＰＰＵメモリに単一の統合された仮想アドレス空間を提供し、仮想メモリ・システム間でのデータの共有を可能にする。少なくとも一実施例では、他のプロセッサに位置付けられたメモリにＰＰＵがアクセスする頻度を追跡して、より頻繁にページにアクセスしているＰＰＵの物理メモリに、メモリ・ページが確実に移動されるようにする。少なくとも一実施例では、高速ＧＰＵ相互接続３３０８は、アドレス・トランスレーション・サービスをサポートして、ＰＰＵが直接ＣＰＵのページ・テーブルにアクセスできるようにし、ＰＰＵによるＣＰＵメモリへのフル・アクセスを実現する。

少なくとも一実施例では、コピー・エンジンは、複数のＰＰＵ間、又はＰＰＵとＣＰＵの間で、データを転送する。少なくとも一実施例では、コピー・エンジンは、ページ・テーブルにマッピングされていないアドレスについてページ誤りを生成することができ、次いでメモリ・パーティション・ユニット３５００がページ誤りに対応して、アドレスをページ・テーブルにマッピングし、その後で、コピー・エンジンが転送を実行する。少なくとも一実施例では、メモリは、複数のプロセッサ間でコピー・エンジンの複数の動作についてピン留めされて（たとえば、ページ移動不可能にされて）、実質的に利用可能なメモリを低減させる。少なくとも一実施例では、ハードウェアのページ誤りがある場合、メモリ・ページが常駐であるかどうかに関わらず、アドレスをコピー・エンジンに渡すことができ、コピー・プロセスは透過的である。

少なくとも一実施例によれば、図３３のメモリ３３０４又は他のシステム・メモリからのデータは、メモリ・パーティション・ユニット３５００によってフェッチされ、Ｌ２キャッシュ３５０４に記憶され、このＬ２キャッシュは、オン・チップに位置付けられ、様々ＧＰＣ間で共有される。少なくとも一実施例では、各メモリ・パーティション・ユニット３５００は、対応するメモリ・デバイスに関連付けられたＬ２キャッシュの少なくとも一部分を、限定することなく含む。少なくとも一実施例では、より低いレベルのキャッシュが、ＧＰＣ内の様々なユニットに実装される。少なくとも一実施例では、図３４のＳＭ３４１４のそれぞれは、レベル１（「Ｌ１」）キャッシュを実装してもよく、ここでＬ１キャッシュは、特定のＳＭ３４１４専用のプライベート・メモリであり、Ｌ２キャッシュ３５０４からのデータは、ＳＭ３４１４の機能ユニットで処理するために、Ｌ１キャッシュのそれぞれにフェッチされ記憶される。少なくとも一実施例では、Ｌ２キャッシュ３５０４は、メモリ・インターフェース３５０６及び図３３に示されるＸバー３３２０に結合される。

少なくとも一実施例では、ＲＯＰユニット３５０２は、色圧縮、ピクセル・ブレンディングなど、ピクセル色に関係するグラフィックス・ラスタ演算を実行する。ＲＯＰユニット３５０２は、少なくとも一実施例では、ラスタ・エンジン３４０８と併せて深度テストを実装して、ピクセル・フラグメントに関連付けられたサンプル・ロケーションの深度を、ラスタ・エンジン３４０８の選別エンジンから受信する。少なくとも一実施例では、深度は、フラグメントに関連付けられたサンプル・ロケーションの深度バッファにおける対応する深度と比べてテストされる。少なくとも一実施例では、フラグメントが、サンプル・ロケーションの深度テストを通過すると、ＲＯＰユニット３５０２は、深度バッファを更新し、深度テストの結果をラスタ・エンジン３４０８に送信する。パーティション・ユニット３５００の数はＧＰＣの数とは異なってもよく、したがって、各ＲＯＰユニット３５０２は、少なくとも一実施例では、ＧＰＣのそれぞれに結合されてもよいことが理解されよう。少なくとも一実施例では、ＲＯＰユニット３５０２は、異なるＧＰＣから受信したパケットを追跡し、ＲＯＰユニット３５０２によって生成された結果が、Ｘバー３３２０を通してルーティングされることになるかを判定する。

図３６は、少なくとも一実施例による、ストリーミング・マルチプロセッサ（「ＳＭ」）３６００を示す。少なくとも一実施例では、ＳＭ３６００は、図３４のＳＭである。少なくとも一実施例では、ＳＭ３６００は、限定することなく、命令キャッシュ３６０２、１つ又は複数のスケジューラ・ユニット３６０４、レジスタ・ファイル３６０８、１つ又は複数の処理コア（「コア」）３６１０、１つ又は複数の特殊機能ユニット（「ＳＦＵ」：special function unit）３６１２、１つ又は複数のロード／ストア・ユニット（「ＬＳＵ」：ｌｏａｄ／ｓｔｏｒｅｕｎｉｔ）３６１４、相互接続ネットワーク３６１６、共有メモリ／レベル１（「Ｌ１」）キャッシュ３６１８、及び／又はこれらの任意の好適な組合せを含む。

少なくとも一実施例では、ワーク分配ユニットは、並列処理ユニット（「ＰＰＵ」）の汎用処理クラスタ（「ＧＰＣ」）で実行するためにタスクをディスパッチし、各タスクは、ＧＰＣ内の特定のデータ処理クラスタ（「ＤＰＣ」）に配分され、タスクがシェーダ・プログラムに関連する場合には、タスクはＳＭ３６００のうちの１つに配分される。少なくとも一実施例では、スケジューラ・ユニット３６０４は、ワーク分配ユニットからタスクを受信し、ＳＭ３６００に割り当てられた１つ又は複数のスレッド・ブロックについて命令スケジューリングを管理する。少なくとも一実施例では、スケジューラ・ユニット３６０４は、並列スレッドのワープとして実行できるようにスレッド・ブロックをスケジューリングし、ここで各スレッド・ブロックは、少なくとも１つのワープに配分される。少なくとも一実施例では、各ワープは、スレッドを実行する。少なくとも一実施例では、スケジューラ・ユニット３６０４は、複数の異なるスレッド・ブロックを管理して、異なるスレッド・ブロックにワープを配分し、次いで複数の異なる連動グループからの命令を、各クロック・サイクル中に様々な機能ユニット（たとえば、処理コア３６１０、ＳＦＵ３６１２、及びＬＳＵ３６１４）にディスパッチする。

少なくとも一実施例では、連動グループとは、通信するスレッドのグループを組織化するためのプログラミング・モデルを指し、このモデルは、スレッドが通信する粒度をデベロッパが表せるようにして、より豊富でより効率的な並列分解の表現を可能にする。少なくとも一実施例では、連動した起動ＡＰＩは、並列アルゴリズムを実行できるようにスレッド・ブロック間の同期をサポートする。少なくとも一実施例では、従来のプログラミング・モデルのアプリケーションは、連動スレッドを同期するための単一の簡単な構造、すなわちスレッド・ブロックのすべてのスレッドにわたるバリア（たとえば、ｓｙｎｃｔｈｒｅａｄｓ（）関数）を提供する。しかし、少なくとも一実施例では、プログラマは、スレッド・ブロックの粒度よりも小さいスレッド・グループを定義し、定義されたグループ内で同期して、集合的なグループ全般にわたる機能インターフェースの形で、より高い性能、設計の融通性、及びソフトウェア再利用を可能にしてもよい。少なくとも一実施例では、連動グループによって、プログラマは、サブ・ブロック（すなわち、単一スレッドと同じ大きさ）の粒度及びマルチ・ブロックの粒度において、スレッドのグループを明示的に定義し、連動グループ内のスレッドに対する同期などの集合的な動作を実行できるようになる。少なくとも一実施例では、プログラミング・モデルは、ソフトウェア境界を横切るクリーンな合成をサポートし、それにより、ライブラリ及びユーティリティ関数を、収束について仮定する必要なくそれらのローカルなコンテキスト内で安全に同期することができる。少なくとも一実施例では、連動グループのプリミティブは、プロデューサ－コンシューマ並列性、日和見並列性（ｏｐｐｏｒｔｕｎｉｓｔｉｃｐａｒａｌｌｅｌｉｓｍ）、及びスレッド・ブロックのグリッド全体にわたるグローバルな同期を限定することなく含む新しいパターンの連動並列性を可能にする。

少なくとも一実施例では、ディスパッチ・ユニット３６０６は、１つ又は複数の機能ユニットおよびスケジューラ・ユニット３６０４に命令を送信するように構成され、共通のワープからの２つの異なる命令を、各クロック・サイクル中にディスパッチできるようにする２つのディスパッチ・ユニット３６０６を限定することなく含む。少なくとも一実施例では、各スケジューラ・ユニット３６０４は、単一のディスパッチ・ユニット３６０６又は追加のディスパッチ・ユニット３６０６を含む。

少なくとも一実施例では、各ＳＭ３６００は、少なくとも一実施例では、ＳＭ３６００の機能ユニットにレジスタのセットを提供するレジスタ・ファイル３６０８を限定することなく含む。少なくとも一実施例では、レジスタ・ファイル３６０８は、各機能ユニットがレジスタ・ファイル３６０８の専用部分に配分されるように、各機能ユニット間で分割される。少なくとも一実施例では、レジスタ・ファイル３６０８は、ＳＭ３６００によって実行されている異なるワープ間で分割され、レジスタ・ファイル３６０８は、機能ユニットのデータ経路に接続されたオペランド用の一時的なストレージを提供する。少なくとも一実施例では、各ＳＭ３６００は、限定することなく複数のＬ処理コア３６１０を含み、ここでＬは正の整数である。少なくとも一実施例では、各ＳＭ３６００は、限定することなく、多数の（たとえば、１２８個以上の）個別の処理コア３６１０を含む。少なくとも一実施例では、各処理コア３６１０は、浮動小数点算術論理演算ユニット及び整数算術論理演算ユニットを限定することなく含む完全にパイプライン化された、単精度の、倍精度の、及び／又は混合精度の処理ユニットを限定することなく含む。少なくとも一実施例では、浮動小数点算術論理演算ユニットは、浮動小数点演算のためのＩＥＥＥ７５４－２００８規格を実装する。少なくとも一実施例では、処理コア３６１０は、限定することなく、６４個の単精度（３２ビット）浮動小数点コア、６４個の整数コア、３２個の倍精度（６４ビット）浮動小数点コア、及び８個のテンソル・コアを含む。

テンソル・コアは、少なくとも一実施例による行列演算を実行するように構成される。少なくとも一実施例では、１つ又は複数のテンソル・コアは、処理コア３６１０に含まれる。少なくとも一実施例では、テンソル・コアは、ニューラル・ネットワークの訓練及び推論のための畳み込み演算など、深層学習の行列演算を実行するように構成される。少なくとも一実施例では、各テンソル・コアは、４×４の行列で動作し、行列の積和演算（ｍａｔｒｉｘｍｕｌｔｉｐｌｙａｎｄａｃｃｕｍｕｌａｔｅｏｐｅｒａｔｉｏｎ）Ｄ＝Ａ×Ｂ＋Ｃを実行し、ここでＡ、Ｂ、Ｃ、及びＤは４×４の行列である。

少なくとも一実施例では、行列乗算の入力Ａ及びＢは、１６ビットの浮動小数点行列であり、和の行列Ｃ及びＤは、１６ビットの浮動小数点又は３２ビットの浮動小数点行列である。少なくとも一実施例では、テンソル・コアは、３２ビットの浮動小数点の和を有する１６ビットの浮動小数点入力データで動作する。少なくとも一実施例では、１６ビットの浮動小数点乗算は、６４個の演算を使用し、結果的に完全精度の積をもたらし、次いでその積が、４×４×４の行列乗算の他の中間積との３２ビット浮動小数点加算を使用して加算される。テンソル・コアを使用して、少なくとも一実施例では、これらの小さい要素から構築される、はるかに大きい２次元又はさらに高次元の行列演算が実行される。少なくとも一実施例では、ＣＵＤＡ９Ｃ＋＋ＡＰＩなどのＡＰＩは、ＣＵＤＡ－Ｃ＋＋プログラムからテンソル・コアを効率的に使用するために、特殊な行列ロード演算、行列積和演算、及び行列ストア演算を公開している。少なくとも一実施例では、ＣＵＤＡレベルにおいて、ワープ・レベル・インターフェースは、ワープの３２スレッドすべてにわたる１６×１６のサイズの行列を仮定している。

少なくとも一実施例では、各ＳＭ３６００は、特殊関数（たとえば、属性評価、逆数平方根など）を実行するＭ個のＳＦＵ３６１２を、限定することなく含む。少なくとも一実施例では、ＳＦＵ３６１２は、限定することなく、階層ツリー・データ構造をトラバースするように構成されたツリー・トラバーサル・ユニットを含む。少なくとも一実施例では、ＳＦＵ３６１２は、テクスチャ・マップのフィルタリング動作を実行するように構成されたテクスチャ・ユニットを、限定することなく含む。少なくとも一実施例では、テクスチャ・ユニットは、メモリ及びサンプル・テクスチャ・マップからテクスチャ・マップ（たとえば、テクセルの２Ｄアレイ）をロードして、ＳＭ３６００により実行されるシェーダ・プログラムで使用するためのサンプリングされたテクスチャ値を生成するように構成される。少なくとも一実施例では、テクスチャ・マップは、共有メモリ／レベル１キャッシュ３６１８に記憶される。少なくとも一実施例では、テクスチャ・ユニットは、少なくとも一実施例によれば、ミップ・マップ（たとえば、詳細さのレベルが異なるテクスチャ・マップ）を使用したフィルタリング動作などのテクスチャ動作を実装する。少なくとも一実施例では、各ＳＭ３６００は、限定することなく、２つのテクスチャ・ユニットを含む。

各ＳＭ３６００は、少なくとも一実施例では、共有メモリ／Ｌ１キャッシュ３６１８とレジスタ・ファイル３６０８の間でロード及びストア動作を実装するＮ個のＬＳＵ３６１４を、限定することなく含む。少なくとも一実施例では、相互接続ネットワーク３６１６は、各機能ユニットをレジスタ・ファイル３６０８に接続し、ＬＳＵ３６１４をレジスタ・ファイル３６０８及び共有メモリ／Ｌ１キャッシュ３６１８に接続する。少なくとも一実施例では、相互接続ネットワーク３６１６はクロスバーであり、このクロスバーは、任意の機能ユニットをレジスタ・ファイル３６０８の任意のレジスタに接続し、ＬＳＵ３６１４をレジスタ・ファイル３６０８と共有メモリ／Ｌ１キャッシュ３６１８のメモリ・ロケーションとに接続するように構成されてもよい。

少なくとも一実施例では、共有メモリ／Ｌ１キャッシュ３６１８は、少なくとも一実施例では、ＳＭ３６００とプリミティブ・エンジンの間、及びＳＭ３６００のスレッド間でデータ・ストレージ及び通信を可能にするオン・チップ・メモリのアレイである。少なくとも一実施例では、共有メモリ／Ｌ１キャッシュ３６１８は、限定することなく、１２８ＫＢのストレージ容量を備え、ＳＭ３６００からパーティション・ユニットに向かう経路にある。少なくとも一実施例では、共有メモリ／Ｌ１キャッシュ３６１８は、少なくとも一実施例では、読取り及び書込みをキャッシュするために使用される。少なくとも一実施例では、共有メモリ／Ｌ１キャッシュ３６１８、Ｌ２キャッシュ、及びメモリのうちの１つ又は複数は、補助ストレージである。

少なくとも一実施例では、データ・キャッシュと共有メモリ機能とを単一のメモリ・ブロックに組み合わせることによって、両方のタイプのメモリ・アクセスについて性能が向上する。少なくとも一実施例では、容量は、共有メモリを使用しないプログラムによってキャッシュとして使用され、又は使用可能であり、それにより、共有メモリが容量の半分を使用するように構成されている場合、テクスチャ及びロード／ストア動作が、残りの容量を使用することができる。少なくとも一実施例によれば、共有メモリ／Ｌ１キャッシュ３６１８内に統合することによって、共有メモリ／Ｌ１キャッシュ３６１８が、データをストリームするための高スループットの管として機能しながら、同時に高帯域幅及び低レイテンシのアクセスを、頻繁に再使用されるデータに提供できるようになる。少なくとも一実施例では、汎用並列計算向けに構成されるときには、グラフィックス処理と比べてより簡単な構成を使用することができる。少なくとも一実施例では、固定機能のグラフィックス・プロセッシング・ユニットがバイパスされて、はるかに簡単なプログラミング・モデルが作製される。汎用並列計算の構成では、ワーク分配ユニットは、少なくとも一実施例においてスレッド・ブロックを直接ＤＰＣに割当て及び分配する。少なくとも一実施例では、ブロック内のスレッドは、各スレッドが確実に一意の結果を生成するように、計算において一意のスレッドＩＤを使用して共通のプログラムを実行し、ＳＭ３６００を使用して、プログラムを実行し計算を行い、共有メモリ／Ｌ１キャッシュ３６１８を使用してスレッド間で通信し、ＬＳＵ３６１４を使用して、共有メモリ／Ｌ１キャッシュ３６１８及びメモリ・パーティション・ユニットを介してグローバル・メモリを読み取り、書き込む。少なくとも一実施例では、汎用並列計算向けに構成されるときには、ＳＭ３６００は、ＤＣＰ上で新規のワークを起動するためにスケジューラ・ユニット３６０４が使用できるコマンドを書き込む。

少なくとも一実施例では、ＰＰＵは、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータ、サーバ、スーパーコンピュータ、スマート・フォン（たとえば、ワイヤレスの携帯型デバイス）、パーソナル・デジタル・アシスタント（「ＰＤＡ」）、デジタル・カメラ、車両、頭装着型ディスプレイ、携帯型電子デバイスなどに含まれ、又はこれらに結合される。少なくとも一実施例では、ＰＰＵは、単一の半導体基板に具体化される。少なくとも一実施例では、ＰＰＵは、追加のＰＰＵ、メモリ、縮小命令セット・コンピュータ（「ＲＩＳＣ」）ＣＰＵ、メモリ管理ユニット（「ＭＭＵ」）、デジタル－アナログ変換器（「ＤＡＣ」：ｄｉｇｉｔａｌ－ｔｏ－ａｎａｌｏｇｃｏｎｖｅｒｔｅｒ）などの１つ又は複数の他のデバイスとともにシステム・オン・チップ（「ＳｏＣ」）に含まれる。

少なくとも一実施例では、ＰＰＵは、１つ又は複数のメモリ・デバイスを含むグラフィックス・カードに含まれてもよい。少なくとも一実施例では、グラフィックス・カードは、デスクトップ・コンピュータのマザーボード上のＰＣＩｅスロットとインターフェースをとるように構成されてもよい。少なくとも一実施例では、ＰＰＵは、マザーボードのチップセットに含まれる統合グラフィックス・プロセッシング・ユニット（「ｉＧＰＵ」：integrated graphics processing unit）であってもよい。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。少なくとも一実施例では、深層学習アプリケーション・プロセッサは、ＳＭ３６００に提供される情報を予測又は推論するようにニューラル・ネットワークなどの機械学習モデルを訓練するために使用される。少なくとも一実施例では、ＳＭ３６００は、別のプロセッサ若しくはシステムによって、又はＳＭ３６００によって訓練されてきた訓練済み機械学習モデル（たとえば、ニューラル・ネットワーク）に基づき、情報を推論又は予測するために使用される。少なくとも一実施例では、ＳＭ３６００は、本明細書に記載の１つ又は複数のニューラル・ネットワークのユース・ケースを実行するために使用されてもよい。

医療用途における画像推論及び画像処理など、先進コンピューティングのための仮想化コンピューティング・プラットフォームに関する実施例が開示される。限定することなく、実施例は、放射線写真撮影、磁気共鳴撮像（ＭＲＩ）、核医学、超音波、ソノグラフィ、エラストグラフィ、光音響撮像、トモグラフィ、心エコー、機能的近赤外分光法、及び磁性粒子撮像、又はこれらの組合せを含んでもよい。少なくとも一実施例では、本明細書に記載の仮想化コンピューティング・プラットフォーム、及び関連するプロセスは、限定することなく、法科学分析、表面下検出及び撮像（たとえば、石油探査、考古学、古生物学など）、地形学、海洋学、地質学、骨学、気象学、知能分野、又は物体追跡及び監視、センサ・データ処理（たとえば、ＲＡＤＡＲ、ＳＯＮＡＲ、ＬＩＤＡＲなど）、並びに／又はゲノミクス及び遺伝子配列において、追加的又は代替的に使用されてもよい。

図３７を参照すると、図３７は、少なくとも一実施例による、画像処理及び推論のパイプラインを生成及び導入するプロセス３７００の実例データ・フロー図である。少なくとも一実施例では、プロセス３７００は、医療施設、病院、ヘルスケア機関、クリニック、リサーチ若しくは診断の研究所などの１つ又は複数の施設３７０２において、撮像デバイス、処理デバイス、ゲノミクス・デバイス、遺伝子配列デバイス、放射線デバイス、及び／又は他のタイプのデバイスとともに使用するために導入されてもよい。少なくとも一実施例では、プロセッサ３７００は、シーケンシング・データについてゲノミクスの分析及び推論を実行するために導入されてもよい。本明細書に記載のシステム及びプロセスを使用して実行することができるゲノム分析の実例は、限定することなく、バリアント・コール、変異検出、及び遺伝子発現の定量化を含む。

少なくとも一実施例では、プロセス３７００は、訓練システム３７０４内及び／又は導入システム３７０６内で実行されてもよい。少なくとも一実施例では、訓練システム３７０４を使用して、導入システム３７０６で使用するための機械学習モデル（たとえば、ニューラル・ネットワーク、物体検出アルゴリズム、コンピュータ・ビジョン・アルゴリズムなど）の訓練、導入、及び実装が実行されてもよい。少なくとも一実施例では、導入システム３７０６は、処理及び計算のリソースを分散コンピューティング環境間でオフロードするように構成されて、施設３７０２におけるインフラストラクチャ要件を低減してもよい。少なくとも一実施例では、導入システム３７０６は、施設３７０２において撮像デバイス（たとえば、ＭＲＩ、ＣＴスキャン、Ｘ線、超音波など）又はシーケンシング・デバイスとともに使用するための仮想機器を選択し、カスタマイズし、実装するための合理化されたプラットフォームを提供してもよい。少なくとも一実施例では、仮想機器は、撮像デバイス、シーケンシング・デバイス、放射線デバイス、及び／又は他のタイプのデバイスによって生成された撮像データに対して１つ又は複数の処理動作を実行するためのソフトウェア定義アプリケーションを含んでもよい。少なくとも一実施例では、パイプライン内の１つ又は複数のアプリケーションは、アプリケーションの実行中に導入システム３７０６のサービス（たとえば、推論、仮想化、計算、ＡＩなど）を使用又はコールしてもよい。

少なくとも一実施例では、先進処理及び推論パイプラインで使用されるアプリケーションのいくつかは、１つ又は複数の処理ステップを実行するために機械学習モデル又は他のＡＩを使用してもよい。少なくとも一実施例では、機械学習モデルは、施設３７０２で生成された（且つ、施設３７０２において１つ若しくは複数の画像アーカイブ及び通信システム（ＰＡＣＳ）サーバに記憶された）（撮像データなどの）データ３７０８を使用して、施設３７０２において訓練されてもよく、１つ又は複数の別の施設（たとえば、異なる病院、研究所、クリニックなど）からの撮像若しくはシーケンシングのデータ３７０８を使用して訓練されてもよく、又はそれらの組合せであってもよい。少なくとも一実施例では、訓練システム３７０４を使用して、導入システム３７０６向けの実用的で導入可能な機械学習モデルを生成するためのアプリケーション、サービス、及び／又は他のリソースが提供されてもよい。

少なくとも一実施例では、モデル・レジストリ３７２４は、バージョン管理及び物体メタデータをサポートすることができる物体ストレージによってバックアップされてもよい。少なくとも一実施例では、物体ストレージには、たとえば、クラウド・プラットフォーム内から、クラウド・ストレージ（たとえば、図３８のクラウド３８２６）の互換性アプリケーション・プログラミング・インターフェース（ＡＰＩ）を介してアクセス可能であってもよい。少なくとも一実施例では、モデル・レジストリ３７２４内の機械学習モデルは、システムの開発者又はパートナがＡＰＩと対話することによって、アップロード、リスト化、修正、又は削除されてもよい。少なくとも一実施例では、ＡＰＩは、適切な資格を有するユーザがモデルをアプリケーションに関連付けできるようにする方法へのアクセスを提供してもよく、それによりアプリケーションのコンテナ化されたインスタンスを実行することの一部として、モデルを実行できるようになる。

少なくとも一実施例では、訓練パイプライン３８０４（図３８）は、施設３７０２が独自の機械学習モデルを訓練している状況、又は最適化若しくは更新される必要がある既存の機械学習モデルを有している状況を含んでもよい。少なくとも一実施例では、撮像デバイス、シーケンシング・デバイス、及び／又は他のタイプのデバイスによって生成された撮像データ３７０８が受信されてもよい。少なくとも一実施例では、撮像データ３７０８が受信されると、機械学習モデルのグラウンド・トゥルース・データとして使用されることになる撮像データ３７０８に対応するアノテーションの生成を支援するために、ＡＩ支援アノテーション３７１０が使用されてもよい。少なくとも一実施例では、ＡＩ支援アノテーション３７１０は、１つ又は複数の機械学習モデル（たとえば、畳み込みニューラル・ネットワーク（ＣＮＮ））を含んでもよく、これは（たとえば特定のデバイスからの）特定のタイプの撮像データ３７０８、及び／又は撮像データ３７０８内の特定のタイプの異常に対応するアノテーションを生成するように訓練されてもよい。少なくとも一実施例では、次いでＡＩ支援アノテーション３７１０は、グラウンド・トゥルース・データを生成するために直接使用されてもよく、又は（たとえば、研究者、臨床医、医師、科学者などによって）アノテーション・ツールを使用して調節若しくは微調整されてもよい。少なくとも一実施例では、いくつかの実例において、ラベル付けされたクリニック・データ３７１２（たとえば、臨床医、医師、科学者、技術者などによって提供されたアノテーション）が、機械学習モデルを訓練するためのグラウンド・トゥルース・データとして使用されてもよい。少なくとも一実施例では、ＡＩ支援アノテーション３７１０、ラベル付けされたクリニック・データ３７１２、又はこれらの組合せが、機械学習モデルを訓練するためのグラウンド・トゥルース・データとして使用されてもよい。少なくとも一実施例では、訓練済み機械学習モデルは出力モデル３７１６と呼ばれてもよく、本明細書に記載の導入システム３７０６によって使用されてもよい。

少なくとも一実施例では、訓練パイプライン３８０４（図３８）は、施設３７０２が、導入システム３７０６内の１つ又は複数のアプリケーションのための１つ又は複数の処理タスクを実行する際に使用する機械学習モデルを必要としているが、施設３７０２は現在そのような機械学習モデルを有していないかもしれない（又はそうした目的のために最適化された、効率よい、若しくは有効なモデルを有していないかもしれない）という状況を含んでもよい。少なくとも一実施例では、既存の機械学習モデルが、モデル・レジストリ３７２４から選択されてもよい。少なくとも一実施例では、モデル・レジストリ３７２４は、撮像データに対して様々な異なる推論タスクを実行するように訓練された機械学習モデルを含んでもよい。少なくとも一実施例では、モデル・レジストリ３７２４の機械学習モデルは、施設３７０２とは異なる施設（たとえば、離れた場所にある施設）からの撮像データについて訓練されたものであってもよい。少なくとも一実施例では、機械学習モデルは、１つの場所、２つの場所、又は任意の数の場所からの撮像データについて訓練されたものであってもよい。少なくとも一実施例では、特定の場所からの撮像データについて訓練されるとき、訓練は、その場所で行われてもよく、又は少なくとも、撮像データの機密性を保護するようなやり方で、若しくは撮像データが構外へ転送されるのを制限するようなやり方で（たとえば、ＨＩＰＰＡ規定、プライバシー規定に準拠するように）行われてもよい。少なくとも一実施例では、１つの場所においてモデルが訓練されると、又は部分的に訓練されると、機械学習モデルはモデル・レジストリ３７２４に加えられてもよい。少なくとも一実施例では、次いで機械学習モデルは、任意の数の他の施設において再訓練又は更新されてもよく、再訓練又は更新されたモデルが、モデル・レジストリ３７２４において利用可能にされてもよい。少なくとも一実施例では、次いで機械学習モデルは、モデル・レジストリ３７２４から選択されてもよく、出力モデル３７１６と呼ばれてもよく、導入システム３７０６において使用されて、導入システムの１つ又は複数のアプリケーションのための１つ又は複数の処理タスクを実行してもよい。

少なくとも一実施例では、訓練パイプライン３８０４（図３８）は、施設３７０２が、導入システム３７０６内の１つ又は複数のアプリケーションのための１つ又は複数の処理タスクを実行する際に使用する機械学習モデルを必要としているが、施設３７０２は現在そのような機械学習モデルを有していないかもしれない（又はそうした目的のために最適化された、効率よい、若しくは有効なモデルを有していないかもしれない）という状況を含むシナリオで使用することができる。少なくとも一実施例では、モデル・レジストリ３７２４から選択された機械学習モデルは、母集団、遺伝的差異、機械学習モデルを訓練するために使用される訓練データの頑健性、訓練データの異常の多様性、及び／又は訓練データに伴う他の問題に違いがあることから、施設３７０２において生成される撮像データ３７０８向けに微調整又は最適化されていないことがある。少なくとも一実施例では、機械学習モデルを再訓練又は更新するためのグラウンド・トゥルース・データとして使用されることになる撮像データ３７０８に対応するアノテーションの生成を支援するために、ＡＩ支援アノテーション３７１０が使用されてもよい。少なくとも一実施例では、ラベル付けされたクリニック・データ３７１２（たとえば、臨床医、医師、科学者、技術者などによって提供されたアノテーション）が、機械学習モデルを訓練するためのグラウンド・トゥルース・データとして使用されてもよい。少なくとも一実施例では、機械学習モデルを再訓練又は更新することは、モデル訓練３７１４と呼ばれてもよい。少なくとも一実施例では、モデル訓練３７１４、たとえばＡＩ支援アノテーション３７１０、ラベル付けされたクリニック・データ３７１２、又はこれらの組合せは、機械学習モデルを再訓練若しくは更新するためのグラウンド・トゥルース・データとして使用されてもよい。

少なくとも一実施例では、導入システム３７０６は、ソフトウェア３７１８、サービス３７２０、ハードウェア３７２２、並びに／又は他の構成要素、特徴、及び機能を含んでもよい。少なくとも一実施例では、導入システム３７０６は、ソフトウェア「スタック」を含んでもよく、それによりソフトウェア３７１８は、サービス３７２０の上に構築されてもよく、サービス３７２０を使用して一部若しくはすべての処理タスクを実行してもよく、サービス３７２０及びソフトウェア３７１８は、ハードウェア３７２２の上に構築され、ハードウェア３７２２を使用して、導入システム３７０６の処理、ストレージ、及び／又は他の計算のタスクを実行してもよい。

少なくとも一実施例では、ソフトウェア３７１８は、任意の数の異なるコンテナを含んでもよく、ここで各コンテナは、アプリケーションのインスタンス化を実行してもよい。少なくとも一実施例では、各アプリケーションは、先進処理及び推論パイプラインの１つ又は複数の処理タスク（たとえば、推論、物体検出、特徴検出、セグメント化、画像強調、キャリブレーションなど）を実行してもよい。少なくとも一実施例では、撮像デバイス（たとえば、ＣＴ、ＭＲＩ、Ｘ線、超音波、ソノグラフィ、心エコーなど）、シーケンシング・デバイス、放射線デバイス、ゲノミクス・デバイスなどのタイプごとに、デバイスによって生成された撮像データ３７０８（又は、本明細書に記載のものなどの他のタイプのデータ）に対してデータ処理タスクを実行できる任意の数のコンテナが存在してもよい。少なくとも一実施例では、先進処理及び推論パイプラインは、（たとえば、医用におけるデジタル画像と通信（ｄｉｇｉｔａｌｉｍａｇｉｎｇａｎｄｃｏｍｍｕｎｉｃａｔｉｏｎｓｉｎｍｅｄｉｃｉｎｅ：ＤＩＣＯＭ）データ、放射線医学情報システム（ＲＩＳ）データ、臨床情報システム（ＣＩＳ）データ、リモート・プロシージャ・コール（ＲＰＣ）データ、表現状態転送（ＲＥＳＴ）インターフェースに実質的に準拠したデータ、ファイルベースのインターフェースに実質的に準拠したデータ、及び／又は生のデータなどの使用可能なタイプのデータに出力を再変換して、施設３７０２において記憶及び表示するように）パイプラインを通して処理した後に、各コンテナによって使用される、且つ／又は施設３７０２によって使用される撮像データを受信及び構成するコンテナに加えて、撮像データ３７０８を処理するのに所望される又は必要とされる異なるコンテナの選択に基づき定義されてもよい。少なくとも一実施例では、（たとえばパイプラインを構成する）ソフトウェア３７１８内のコンテナの組合せは、（本明細書においてより詳細に記載する）仮想機器と呼ばれてもよく、仮想機器は、サービス３７２０及びハードウェア３７２２を利用して、コンテナにおいてインスタンス化されたアプリケーションの一部又はすべての処理タスクを実行してもよい。

少なくとも一実施例では、データ処理パイプラインは、推論要求（たとえば、臨床医、医師、放射線医など、導入システム３７０６のユーザからの要求）に応答して、ＤＩＣＯＭ、ＲＩＳ、ＣＩＳ、ＲＥＳＴ準拠、ＲＰＣ、生、及び／又は他のフォーマットで入力データ（たとえば、撮像データ３７０８）を受け取ってもよい。少なくとも一実施例では、入力データは、１つ又は複数の撮像デバイス、シーケンシング・デバイス、放射線デバイス、ゲノミクス・デバイス、及び／又は他のタイプのデバイスによって生成される１つ又は複数の画像、ビデオ、及び／又は他のデータ表現を表してもよい。少なくとも一実施例では、データは、データ処理パイプラインの一部としての事前処理を受けて、１つ又は複数のアプリケーションによって処理できるようにデータが準備されてもよい。少なくとも一実施例では、パイプラインの１つ若しくは複数の推論タスク又は他の処理タスクの出力に対して後処理が実行されて、次のアプリケーション用に出力データが準備されてもよく、且つ／又は送信及び／若しくはユーザによる使用のために（たとえば、推論要求への応答として）出力データが準備されてもよい。少なくとも一実施例では、推論タスクは、訓練済み若しくは導入済みのニューラル・ネットワークなど、１つ又は複数の機械学習モデルによって実行されてもよく、このモデルは、訓練システム３７０４の出力モデル３７１６を含んでもよい。

少なくとも一実施例では、データ処理パイプラインのタスクはコンテナにカプセル化されてもよく、コンテナはそれぞれ、アプリケーションの個別の完全に機能的なインスタンス化、及び機械学習モデルを参照できる仮想化コンピューティング環境を表す。少なくとも一実施例では、コンテナ又はアプリケーションは、（本明細書においてより詳細に記載する）コンテナ・レジストリのプライベート（たとえば、アクセスの制限された）区域に発行されてもよく、訓練済み又は導入済みのモデルは、モデル・レジストリ３７２４に記憶され、１つ又は複数のアプリケーションに関連付けられてもよい。少なくとも一実施例では、アプリケーションの画像（たとえば、コンテナの画像）は、コンテナ・レジストリにおいて入手可能であってもよく、パイプラインに導入するためにユーザによってコンテナ・レジストリから選択されると、画像は、ユーザのシステムで使用できるようにアプリケーションをインスタンス化するためのコンテナを生成するために使用されてもよい。

少なくとも一実施例では、開発者（たとえば、ソフトウェア開発者、臨床医、医師など）は、供給されたデータに対して画像処理及び／又は推論を実行するために、アプリケーションを（たとえばコンテナとして）開発、公開、及び記憶してもよい。少なくとも一実施例では、開発、公開、及び／又は記憶は、（たとえば、開発されたアプリケーション及び／又はコンテナが、確実にシステムに準拠するように、又はシステムと互換性があるようにするために）システムに関連付けられたソフトウェア開発キット（ＳＤＫ）を使用して実行されてもよい。少なくとも一実施例では、開発されたアプリケーションは、システム（たとえば図３８のシステム３８００）としてサービス３７２０の少なくとも一部をサポートすることができるＳＤＫを用いて、ローカルに（たとえば第１の施設において、第１の施設からのデータについて）テストされてもよい。少なくとも一実施例では、ＤＩＣＯＭ物体は、１個から数百個にわたる画像又は他のタイプのデータをどこにでも含むことができるうえに、データのバリエーションがあることから、開発者は、入力されるＤＩＣＯＭデータの抽出及び準備を管理する（たとえば、アプリケーション用の構成を設定する、事前処理をアプリケーションに構築するなどの）責任を負うことがある。少なくとも一実施例では、システム３８００によって（たとえば、精度、安全性、患者のプライバシーなどが）検証されると、アプリケーションは、ユーザ（たとえば、病院、クリニック、研究所、ヘルスケア提供者など）によって選択及び／又は実装できるようにコンテナ・レジストリにおいて利用可能にされて、ユーザの施設（たとえば、第２の施設）におけるデータに対して１つ又は複数の処理タスクが実行されてもよい。

少なくとも一実施例では、次いで開発者は、アプリケーション又はコンテナを、システム（たとえば、図３８のシステム３８００）のユーザによってアクセス及び使用できるようにネットワークを通して共有してもよい。少なくとも一実施例では、完成し検証されたアプリケーション又はコンテナは、コンテナ・レジストリに記憶されてもよく、関連する機械学習モデルは、モデル・レジストリ３７２４に記憶されてもよい。少なくとも一実施例では、推論又は画像処理の要求を出す要求元エンティティ（たとえば、医療施設のユーザ）は、コンテナ・レジストリ及び／又はモデル・レジストリ３７２４をブラウジングしてアプリケーション、コンテナ、データセット、機械学習モデルなどを探し、データ処理パイプラインに含めるための要素の所望の組合せを選択し、撮像処理要求を送出してもよい。少なくとも一実施例では、要求は、要求を実行するために必要な入力データ（及びいくつかの実例では、関連する患者データ）を含んでもよく、且つ／又は要求を処理する際に実行されることになるアプリケーション及び／又は機械学習モデルの選択を含んでもよい。少なくとも一実施例では、次いで要求は、導入システム３７０６（たとえばクラウド）の１つ又は複数の構成要素に渡されて、データ処理パイプラインの処理が実行されてもよい。少なくとも一実施例では、導入システム３７０６による処理は、コンテナ・レジストリ及び／又はモデル・レジストリ３７２４から選択された要素（たとえば、アプリケーション、コンテナ、モデルなど）を参照することを含んでもよい。少なくとも一実施例では、パイプラインによって結果が生成されると、結果がユーザに返されて参照されてもよい（たとえば、ローカルで、構内のワークステーション又は端末で実行している視聴アプリケーション・スイートで視聴されてもよい）。少なくとも一実施例では、放射線医は、任意の数のアプリケーション及び／又はコンテナを含むデータ処理パイプラインから結果を受信してもよく、ここで結果は、Ｘ線、ＣＴスキャン、ＭＲＩなどにおける異常検出を含んでもよい。

少なくとも一実施例では、パイプラインにおけるアプリケーション又はコンテナの処理又は実行を支援するために、サービス３７２０が利用されてもよい。少なくとも一実施例では、サービス３７２０は、計算サービス、人工知能（ＡＩ）サービス、視覚化サービス、及び／又は他のタイプのサービスを含んでもよい。少なくとも一実施例では、サービス３７２０は、ソフトウェア３７１８の１つ又は複数のアプリケーションに共通の機能を提供してもよく、それにより機能は、アプリケーションによってコール又は利用されることが可能なサービスに対して抽象化されてもよい。少なくとも一実施例では、サービス３７２０によって提供される機能は、動的でより効率的に実行されてもよく、それと同時に、（たとえば、並列コンピューティング・プラットフォーム３８３０（図３８）を使用して）アプリケーションが並列にデータを処理できるようにすることにより、良好にスケーリングされてもよい。少なくとも一実施例では、サービス３７２０により提供される同じ機能を共有する各アプリケーションに、サービス３７２０のそれぞれのインスタンスを有するよう要求するのではなく、サービス３７２０が、様々なアプリケーション間で共有されてもよい。少なくとも一実施例では、サービスは、非限定的な実例として、検出又はセグメント化のタスクを実行するために使用されてもよい推論のサーバ又はエンジンを含んでもよい。少なくとも一実施例では、機械学習モデルの訓練及び／又は再訓練の機能を提供することができるモデル訓練サービスが含まれてもよい。少なくとも一実施例では、ＧＰＵ加速化データ（たとえば、ＤＩＣＯＭ、ＲＩＳ、ＣＩＳ、ＲＥＳＴ準拠、ＲＰＣ、生など）の抽出、リサイズ、スケーリング、及び／又は他の拡張を提供することができるデータ拡張サービスがさらに含まれてもよい。少なくとも一実施例では、レイ・トレーシング、ラスタ化、ノイズ除去、鮮鋭化などの画像レンダリング効果を加えることができる視覚化サービスが使用されて、２次元（２Ｄ）及び／又は３次元（３Ｄ）のモデルにリアル感が付加されてもよい。少なくとも一実施例では、仮想機器のパイプライン内の他のアプリケーションについてビーム形成、セグメント化、推論、撮像、及び／又はサポートを実現する仮想機器サービスが含まれてもよい。

少なくとも一実施例では、サービス３７２０がＡＩサービス（たとえば、推論サービス）を含む場合、異常検出（たとえば、腫瘍、発育異常、瘢痕化など）のためのアプリケーションに関連付けられた１つ又は複数の機械学習モデルは、機械学習モデル、又はその処理を、アプリケーション実行の一部として実行するように推論サービス（たとえば、推論サーバ）に（ＡＰＩコールとして）コールすることによって、実行されてもよい。少なくとも一実施例では、セグメント化タスクのための１つ又は複数の機械学習モデルを別のアプリケーションが含む場合、セグメント化タスクに関連付けられた処理動作のうちの１つ又は複数を実行するための機械学習モデルを実行するように、アプリケーションは推論サービスをコールしてもよい。少なくとも一実施例では、セグメント化アプリケーション及び異常検出アプリケーションを含む先進処理及び推論パイプラインを実装するソフトウェア３７１８は、１つ又は複数の推論タスクを実行するためにそれぞれのアプリケーションが同じ推論サービスをコールすることがあるので、合理化されてもよい。

少なくとも一実施例では、ハードウェア３７２２は、ＧＰＵ、ＣＰＵ、グラフィックス・カード、ＡＩ／深層学習システム（たとえば、ＮＶＩＤＩＡのＤＧＸスーパーコンピュータ・システムなどのＡＩスーパーコンピュータ）、クラウド・プラットフォーム、又はそれらの組合せを含んでもよい。少なくとも一実施例では、異なるタイプのハードウェア３７２２を使用して、導入システム３７０６のソフトウェア３７１８及びサービス３７２０のための効率的で専用のサポートが提供されてもよい。少なくとも一実施例では、画像処理、画像再構築、セグメント化、ＭＲＩ検査、脳卒中又は心臓発作の（たとえばリアル・タイムの）検出、レンダリングの画像品質などの効率、精度、及び有効性を向上させるために、ＡＩ／深層学習システム内、クラウド・システム、及び／又は導入システム３７０６の他の処理構成要素において、ローカルで（たとえば、施設３７０２で）処理を行うためのＧＰＵ処理の使用が実装されてもよい。少なくとも一実施例では、施設は、撮像デバイス、ゲノミクス・デバイス、シーケンシング・デバイス、及び／又は他のタイプのデバイスを構内に含んでもよく、これらは、ＧＰＵを利用して、対象者の解剖学的組織を表す撮像データを生成してもよい。

少なくとも一実施例では、ソフトウェア３７１８及び／又はサービス３７２０は、非限定的な実例として深層学習、機械学習、及び／又は高性能コンピューティングに関するＧＰＵ処理のために最適化されてもよい。少なくとも一実施例では、導入システム３７０６及び／又は訓練システム３７０４のコンピューティング環境のうちの少なくとも一部は、データセンタの１つ若しくは複数のスーパーコンピュータ、又は高性能コンピューティング・システムにおいて、ＧＰＵ最適化ソフトウェア（たとえば、ＮＶＩＤＩＡのＤＧＸシステムのハードウェアとソフトウェアの組合せ）を用いて実行されてもよい。少なくとも一実施例では、データセンサは、ＨＩＰＡＡの条項に準拠してもよく、したがって、撮像データ及び／又は他の患者データの受信、処理、及び送信は、患者データのプライバシーに関して安全に取り扱われる。少なくとも一実施例では、ハードウェア３７２２は、任意の数のＧＰＵを含んでもよく、これらのＧＰＵは、本明細書に記載するように、データの並列処理を実行するためにコールされてもよい。少なくとも一実施例では、クラウド・プラットフォームはさらに、深層学習タスク、機械学習タスク、又は他のコンピューティング・タスクのＧＰＵ最適化された実行のためのＧＰＵ処理を含んでもよい。少なくとも一実施例では、クラウド・プラットフォーム（たとえば、ＮＶＩＤＩＡのＮＧＣ）は、（たとえば、ＮＶＩＤＩＡのＤＧＸシステムによって提供される）ＡＩ／深層学習スーパーコンピュータ、及び／又はＧＰＵ最適化ソフトウェアをハードウェア抽象化及びスケーリングのプラットフォームとして使用して、実行されてもよい。少なくとも一実施例では、クラウド・プラットフォームは、シームレスなスケーリング及びロード・バランシングを可能にするために、複数のＧＰＵに対するアプリケーション・コンテナ・クラスタリング・システム又はオーケストレーション・システム（たとえば、ＫＵＢＥＲＮＥＴＥＳ）を統合してもよい。

図３８は、少なくとも一実施例による撮像導入パイプラインを生成及び導入するための実例システム３８００を示すシステム図である。少なくとも一実施例では、システム３８００は、図３７のプロセス３７００、及び／又は先進処理及び推論パイプラインを含む他のプロセスを実装するために使用されてもよい。少なくとも一実施例では、システム３８００は、訓練システム３７０４及び導入システム３７０６を含んでもよい。少なくとも一実施例では、訓練システム３７０４及び導入システム３７０６は、本明細書に記載するように、ソフトウェア３７１８、サービス３７２０、及び／又はハードウェア３７２２を使用して実装されてもよい。

少なくとも一実施例では、システム３８００（たとえば、訓練システム３７０４及び／又は導入システム３７０６）は、クラウド・コンピューティング環境（たとえば、クラウド３８２６）において実装されてもよい。少なくとも一実施例では、システム３８００は、ヘルスケア・サービス施設に関してローカルに実装されてもよく、又はクラウドとローカル・コンピューティング・リソースとの組合せとして実装されてもよい。少なくとも一実施例では、クラウド・コンピューティングが実装される実施例では、ＨＩＰＡＡ並びに／又は他のデータ取扱い及びプライバシーの規定若しくは法律に準拠していない処理を提供するシステム３８００の１つ又は複数の構成要素から、患者データは分離されてもよく、又はそれらによって処理されなくてもよい。少なくとも一実施例では、クラウド３８２６のＡＰＩへのアクセスは、制定されたセキュリティ対策又はプロトコルを介して許可されたユーザに限定されてもよい。少なくとも一実施例では、セキュリティ・プロトコルはウェブ・トークンを含んでもよく、このウェブ・トークンは、認証（たとえば、ＡｕｔｈＮ、ＡｕｔｈＺ、Ｇｌｕｅｃｏｎなど）のサービスによって署名されてもよく、適切な許可を持っていてもよい。少なくとも一実施例では、（本明細書に記載の）仮想機器のＡＰＩ、又はシステム３８００の他のインスタンス化は、対話について検査済み又は許可済みのパブリックＩＰのセットに限定されてもよい。

少なくとも一実施例では、システム３８００の様々な構成要素は、有線及び／又は無線の通信プロトコルを介して、ローカル・エリア・ネットワーク（ＬＡＮ）及び／又は広域ネットワーク（ＷＡＮ）を含むがこれらに限定されない様々な異なるタイプのネットワークのうちの任意のものを使用して、相互に通信してもよい。少なくとも一実施例では、（たとえば推論要求を送信するため、推論要求の結果を受信するためなど）施設とシステム３８００の構成要素との間の通信は、１つ又は複数のデータ・バス、無線データ・プロトコル（Ｗｉ－Ｆｉ）、有線データ・プロトコル（たとえば、イーサネット（登録商標））などを介して通信されてもよい。

少なくとも一実施例では、訓練システム３７０４は、図３７に関して本明細書に記載したものと同様の訓練パイプライン３８０４を実行してもよい。少なくとも一実施例では、１つ又は複数の機械学習モデルが導入システム３７０６により導入パイプライン３８１０において使用されることになる場合、訓練パイプライン３８０４を使用して、１つ又は複数の（たとえば、事前訓練された）モデルが訓練若しくは再訓練されてもよく、且つ／又は事前訓練されたモデル３８０６のうちの１つ又は複数が（たとえば再訓練若しくは更新を必要とせずに）実装されてもよい。少なくとも一実施例では、訓練パイプライン３８０４の結果として、出力モデル３７１６が生成されてもよい。少なくとも一実施例では、訓練パイプライン３８０４は、（たとえばＤＩＣＯＭ画像を、それぞれの機械学習モデルによって処理するのに適した別のフォーマット、たとえばＮｅｕｒｏｉｍａｇｉｎｇＩｎｆｏｒｍａｔｉｃｓＴｅｃｈｎｏｌｏｇｙＩｎｉｔｉａｔｉｖｅ（ＮＩｆＴＩ）フォーマットなどに変換するためのＤＩＣＯＭアダプタ３８０２Ａを使用した）撮像データ（若しくは他の入力データ）の変換若しくは適合、ＡＩ支援アノテーション３７１０、ラベル付きクリニック・データ３７１２を生成するための撮像データ３７０８のラベル付け又はアノテーション付け、モデル・レジストリからのモデル選択、モデル訓練３７１４、モデルの訓練、再訓練、若しくは更新、及び／又は他の処理ステップなどであるがこれらに限定されない任意の数の処理ステップを含んでもよい。少なくとも一実施例では、導入システム３７０６によって使用される異なる機械学習モデルについて、異なる訓練パイプライン３８０４が使用されてもよい。少なくとも一実施例では、図３７に関して記載した第１の実例と同様の訓練パイプライン３８０４は、第１の機械学習モデルに使用されてもよく、図３７に関して記載した第２の実例と同様の訓練パイプライン３８０４は、第２の機械学習モデルに使用されてもよく、図３７に関して記載した第３の実例と同様の訓練パイプライン３８０４は、第３の機械学習モデルに使用されてもよい。少なくとも一実施例では、それぞれの各機械学習モデルに要求されるものに応じて、訓練システム３７０４内のタスクの任意の組合せが使用されてもよい。少なくとも一実施例では、機械学習モデルのうちの１つ又は複数は、すでに訓練済みで導入の準備が整っていてもよく、それにより機械学習モデルは、訓練システム３７０４によるいかなる処理も受けなくてもよく、導入システム３７０６によって実装されてもよい。

少なくとも一実施例では、出力モデル３７１６及び／又は事前訓練されたモデル３８０６は、実装形態又は実施例に応じて任意のタイプの機械学習モデルを含んでもよい。少なくとも一実施例では、限定することなく、システム３８００によって使用される機械学習モデルは、線形回帰、ロジスティック回帰、決定木、サポート・ベクター・マシン（ＳＶＭ）、ナイーブ・ベイズ、ｋ近傍法（ｋ－ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒ：Ｋｎｎ）、ｋ平均クラスタリング、ランダム・フォレスト、次元縮小アルゴリズム、勾配ブースティング・アルゴリズム、ニューラル・ネットワーク（たとえば、オート・エンコーダ、畳み込み、再帰、パーセプトロン、長／短期メモリ（ＬＳＴＭ）、ホップフィールド、ボルツマン、ディープ・ビリーフ、逆畳み込み、敵対的生成、液体状態マシンなど）を使用する機械学習モデル、及び／又は他のタイプの機械学習モデルを含んでもよい。

少なくとも一実施例では、訓練パイプライン３８０４は、少なくとも図４１Ｂに関して、より詳細に本明細書に記載するＡＩ支援アノテーションを含んでもよい。少なくとも一実施例では、ラベル付きクリニック・データ３７１２（たとえば、従来のアノテーション）は、任意の数の技法によって生成されてもよい。少なくとも一実施例では、ラベル又は他のアノテーションは、描画プログラム（たとえば、アノテーション・プログラム）、コンピュータ支援設計（ＣＡＤ）プログラム、ラベル付けプログラム、グラウンド・トゥルース用のアノテーション若しくはラベルの生成に適した別のタイプのプログラム内で生成されてもよく、且つ／又はいくつかの実例では、手書きされてもよい。少なくとも一実施例では、グラウンド・トゥルース・データは、合成により生成されてもよく（たとえば、コンピュータ・モデル又はレンダリングから生成されてもよく）、現実的に生成されてもよく（たとえば、実世界のデータから設計及び生成されてもよく）、機械自動化されてもよく（たとえば、特徴の分析及び学習を使用して、データから特徴を抽出し、次いでラベルを生成してもよく）、人間によりアノテーション付けされてもよく（たとえば、ラベラ、又はアノテーション専門家がラベルのロケーションを定義してもよく）、且つ／又はこれらの組合せであってもよい。少なくとも一実施例では、撮像データ３７０８のインスタンス（又は機械学習モデルによって使用される他のタイプのデータ）ごとに、訓練システム３７０４によって生成される対応するグラウンド・トゥルース・データが存在してもよい。少なくとも一実施例では、訓練パイプライン３８０４に含まれるＡＩ支援アノテーションに加えて又はその代わりに、導入パイプライン３８１０の一部としてＡＩ支援アノテーションが実行されてもよい。少なくとも一実施例では、システム３８００は多層プラットフォームを含んでもよく、このプラットフォームは、１つ又は複数の医療用撮像及び診断の機能を実行することができる診断アプリケーション（又は他のタイプのアプリケーション）のソフトウェア層（たとえば、ソフトウェア３７１８）を含んでもよい。少なくとも一実施例では、システム３８００は、１つ又は複数の施設のＰＡＣＳサーバ・ネットワークに、（たとえば、暗号化リンクを介して）通信可能に結合されてもよい。少なくとも一実施例では、システム３８００は、ＰＡＣＳサーバからのデータ（たとえば、ＤＩＣＯＭデータ、ＲＩＳデータ、生データ、ＣＩＳデータ、ＲＥＳＴ準拠データ、ＲＰＣデータ、生データなど）に（たとえば、ＤＩＣＯＭアダプタ３８０２、又はＲＩＳ、ＣＩＳ、ＲＥＳＴ準拠、ＲＰＣ、生など別のタイプのデータ・アダプタを介して）アクセスし、それを参照するように構成されて、機械学習モデルの訓練、機械学習モデルの導入、画像処理、推論、及び／又は他の動作などの動作を実行してもよい。

少なくとも一実施例では、ソフトウェア層は、セキュアな、暗号化された、且つ／又は認証されたＡＰＩとして実装されてもよく、これを介して、アプリケーション又はコンテナが、外部環境（たとえば、施設３７０２）から呼び出し（たとえばコール）されてもよい。少なくとも一実施例では、次いでアプリケーションは、それぞれのアプリケーションに関連付けられた計算、ＡＩ、又は視覚化のタスクを実行するために１つ又は複数のサービス３７２０をコール又は実行してもよく、ソフトウェア３７１８及び／又はサービス３７２０は、ハードウェア３７２２を利用して、処理タスクを有効且つ効率的なやり方で実行してもよい。

少なくとも一実施例では、導入システム３７０６は、導入パイプライン３８１０を実行してもよい。少なくとも一実施例では、導入パイプライン３８１０は任意の数のアプリケーションを含んでもよく、これらは、上に記載のＡＩ支援アノテーションを含め、撮像デバイス、シーケンシング・デバイス、ゲノミクス・デバイスなどによって生成された撮像データ（及び／又は他のタイプのデータ）に連続的に、非連続的に、又は他のやり方で適用されてもよい。少なくとも一実施例では、本明細書に記載するように、個々のデバイス用の導入パイプライン３８１０は、デバイス用の仮想機器（たとえば、仮想超音波機器、仮想ＣＴスキャン機器、仮想シーケンシング機器など）と呼ばれてもよい。少なくとも一実施例では、デバイスによって生成されるデータに必要な情報に応じて、１つのデバイスにつき２つ以上の導入パイプライン３８１０が存在してもよい。少なくとも一実施例では、異常検出がＭＲＩマシンに必要とされる場合、第１の導入パイプライン３８１０が存在してもよく、画像強調がＭＲＩマシンの出力に必要とされる場合、第２の導入パイプライン３８１０が存在してもよい。

少なくとも一実施例では、導入パイプライン３８１０にとって利用可能なアプリケーションは、デバイスからの撮像データ又は他のデータに対して処理タスクを実行するために使用することができる任意のアプリケーションを含んでもよい。少なくとも一実施例では、画像強調、セグメント化、再構築、異常検出、物体検出、特徴検出、処置計画、線量測定、ビーム計画（又は他の放射線処置手順）、及び／又は他の分析、画像処理、又は推論のタスクを、異なるアプリケーションが担当してもよい。少なくとも一実施例では、導入システム３７０６は、それぞれのアプリケーションの構造を定義してもよく、それにより導入システム３７０６のユーザ（たとえば、医療施設、研修所、クリニックなど）は、構造を理解し、自らのそれぞれの施設内で実装できるようにアプリケーションを適応させてもよい。少なくとも一実施例では、導入パイプライン３８１０に含めるために、画像再構築用のアプリケーションが選択されてもよいが、撮像デバイスによって生成されるデータのタイプは、アプリケーション内で使用されるデータのタイプとは異なってもよい。少なくとも一実施例では、ＤＩＣＯＭアダプタ３８０２Ｂ（及び／又はＤＩＣＯＭリーダ）は、又は別のタイプのデータ・アダプタ若しくはリーダ（たとえば、ＲＩＳ、ＣＩＳ、ＲＥＳＴ準拠、ＲＰＣ、生など）が導入パイプライン３８１０内で使用されて、導入システム３７０６内のアプリケーションによって使用可能な形にデータを変換してもよい。少なくとも一実施例では、ＤＩＣＯＭ、ＲＩＳ、ＣＩＳ、ＲＥＳＴ準拠、ＲＰＣ、生、及び／又は他のタイプのデータ・ライブラリへのアクセスは、データに対する任意の畳み込み、色補正、鮮明度、ガンマ、及び／又は他の拡張を、デコード、抽出、及び／又は実行することを含め、累積され、事前処理されてもよい。少なくとも一実施例では、ＤＩＣＯＭ、ＲＩＳ、ＣＩＳ、ＲＥＳＴ準拠、ＲＰＣ、及び／又は生データは、順序なしであってもよく、収集されたデータを整理しソートするために、事前パスが実行されてもよい。少なくとも一実施例では、様々なアプリケーションは共通の画像動作を共有することがあるので、いくつかの実施例では、（たとえば、サービス３７２０の１つとして）データ拡張ライブラリを使用して、これらの動作が加速化されてもよい。少なくとも一実施例では、ＣＰＵ処理に依存する従来の処理手法のボトルネックを回避するために、並列コンピューティング・プラットフォーム３８３０を使用して、これらの処理タスクがＧＰＵ加速化されてもよい。

少なくとも一実施例では、画像再構築アプリケーションは、機械学習モデルの使用を含む処理タスクを含んでもよい。少なくとも一実施例では、ユーザは、独自の機械学習モデルを使用すること、又はモデル・レジストリ３７２４から機械学習モデルを選択することを望む場合がある。少なくとも一実施例では、ユーザは、処理タスクを実行するために、独自の機械学習モデルを実装してもよく、又は機械学習モデルを選択してアプリケーションに含めてもよい。少なくとも一実施例では、アプリケーションは選択可能及びカスタマイズ可能であってもよく、アプリケーションの構造を定義することにより、特定のユーザ向けのアプリケーションの導入及び実装が、よりシームレスなユーザ・エクスペリエンスとして提示される。少なくとも一実施例では、システム３８００の他の特徴、たとえばサービス３７２０及びハードウェア３７２２などを利用することにより、導入パイプライン３８１０は、さらによりユーザ・フレンドリになることができ、より容易な統合を実現でき、より正確で、効率的で、タイムリーな結果を生み出すことができる。

少なくとも一実施例では、導入システム３７０６はユーザ・インターフェース３８１４（たとえば、グラフィカル・ユーザ・インターフェース、ウェブ・インターフェースなど）を含んでもよく、これらは、アプリケーションを選択して導入パイプライン３８１０に含める、アプリケーションを構成する、アプリケーション又はそのパラメータ若しくは構造を修正又は変更する、セットアップ及び／又は導入中に導入パイプライン３８１０を使用しそれと対話する、且つ／又は他のやり方で導入システム３７０６と対話するために使用されてもよい。少なくとも一実施例では、訓練システム３７０４に関して図示されていないが、ユーザ・インターフェース３８１４（又は異なるユーザ・インターフェース）は、導入システム３７０６で使用するモデルを選択するため、訓練システム３７０４において訓練若しくは再訓練するモデルを選択するため、且つ／又は他のやり方で訓練システム３７０４と対話するために使用されてもよい。

少なくとも一実施例では、アプリケーション・オーケストレーション・システム３８２８に加えてパイプライン・マネージャ３８１２を使用して、導入パイプライン３８１０のアプリケーション又はコンテナと、サービス３７２０及び／又はハードウェア３７２２との間で対話が管理されてもよい。少なくとも一実施例では、パイプライン・マネージャ３８１２は、アプリケーションからアプリケーションへの対話、アプリケーションからサービス３７２０への対話、及び／又はアプリケーション若しくはサービスからハードウェア３７２２への対話を容易にするように構成されてもよい。少なくとも一実施例では、ソフトウェア３７１８に含まれるように図示してあるが、これは限定を意図しておらず、（たとえば、図３９に示すものなど）いくつかの事例では、パイプライン・マネージャ３８１２は、サービス３７２０に含まれてもよい。少なくとも一実施例では、アプリケーション・オーケストレーション・システム３８２８（たとえば、Ｋｕｂｅｒｎｅｔｅｓ、ＤＯＣＫＥＲなど）は、コンテナ・オーケストレーション・システムを含んでもよく、このシステムは、アプリケーションを、調整、管理、スケーリング、及び導入のための論理ユニットとして、コンテナにグループ化することができる。少なくとも一実施例では、導入パイプライン３８１０からのアプリケーション（たとえば、再構築アプリケーション、セグメント化アプリケーションなど）を個々のコンテナに関連付けることより、各アプリケーションは自己完結型環境内（たとえば、カーネル・レベル）で実行して、スピード及び効率を向上させることができる。

少なくとも一実施例では、各アプリケーション及び／又はコンテナ（又はその画像）は、個々に開発、修正、及び導入されてもよく（たとえば、第１のユーザ又は開発者が、第１のアプリケーションを開発、修正、及び導入し、第２のユーザ又は開発者が、第１のユーザ又は開発者とは別に第２のアプリケーションを開発、修正、及び導入してもよく）、これにより、別のアプリケーション又はコンテナのタスクに邪魔されることなく、１つのアプリケーション及び／又はコンテナのタスクに集中し、注意を払うことが可能になる。少なくとも一実施例では、異なるコンテナ間又はアプリケーション間の通信、及び協調が、パイプライン・マネージャ３８１２及びアプリケーション・オーケストレーション・システム３８２８によって支援されてもよい。少なくとも一実施例では、各コンテナ又はアプリケーションの予測される入力及び／又は出力が、（たとえば、アプリケーション又はコンテナの構造に基づき）システムによって知られている限り、アプリケーション・オーケストレーション・システム３８２８及び／又はパイプライン・マネージャ３８１２は、アプリケーション又はコンテナのそれぞれ間の通信、及びそれらの間でのリソースの共有を容易にすることができる。少なくとも一実施例では、導入パイプライン３８１０のアプリケーション又はコンテナのうちの１つ又は複数は、同じサービス及びリソースを共有することができるので、アプリケーション・オーケストレーション・システム３８２８は、様々なアプリケーション間又はコンテナ間でサービス又はリソースをオーケストレートし、ロード・バランシングを行い、共有を決定してもよい。少なくとも一実施例では、スケジューラを使用して、アプリケーション又はコンテナのリソース要件、これらのリソースの現在の使用量又は計画された使用量、及びリソースの利用可能性が追跡されてもよい。少なくとも一実施例では、こうしてスケジューラは、異なるアプリケーションにリソースを配分し、システムの要件及び利用可能性を考慮してアプリケーション間でリソースを分配してもよい。いくつかの実例では、スケジューラ（及び／又はアプリケーション・オーケストレーション・システム３８２８の他の構成要素）は、サービスの品質（ＱｏＳ）、（たとえば、リアル・タイム処理を実行するか、遅延処理を実行するかを決定するための）データ出力を必要とする緊急度など、システムに課される制約（たとえば、ユーザ制約）に基づき、リソースの利用可能性及び分配を決定してもよい。

少なくとも一実施例では、導入システム３７０６のアプリケーション又はコンテナによって利用及び共有されるサービス３７２０は、計算サービス３８１６、ＡＩサービス３８１８、視覚化サービス３８２０、及び／又は他のタイプのサービスを含んでもよい。少なくとも一実施例では、アプリケーションは、サービス３７２０のうちの１つ又は複数をコール（たとえば実行）して、アプリケーションのための処理動作を実行してもよい。少なくとも一実施例では、計算サービス３８１６は、スーパーコンピューティング又は他の高性能コンピューティング（ＨＰＣ）のタスクを実行するために、アプリケーションによって利用されてもよい。少なくとも一実施例では、アプリケーションのうちの１つ又は複数を介してデータを実質的に同時に処理するため、且つ／又は１つのアプリケーションの１つ又は複数のタスクを実質的に同時に処理するために、計算サービス３８１６を利用して（たとえば、並列コンピューティング・プラットフォーム３８３０を使用して）並列処理が実行されてもよい。少なくとも一実施例では、並列コンピューティング・プラットフォーム３８３０（たとえば、ＮＶＩＤＩＡのＣＵＤＡ）は、ＧＰＵ（たとえば、ＧＰＵ３８２２）上での汎用コンピューティング（ＧＰＧＰＵ）を可能にしてもよい。少なくとも一実施例では、並列コンピューティング・プラットフォーム３８３０のソフトウェア層は、計算カーネルを実行するために仮想命令セット及びＧＰＵの並列計算要素へのアクセスを提供してもよい。少なくとも一実施例では、並列コンピューティング・プラットフォーム３８３０はメモリを含んでもよく、いくつかの実施例では、メモリは、複数のコンテナ間で、且つ／又は１つのコンテナ内の異なる処理タスク間で共有されてもよい。少なくとも一実施例では、複数のコンテナ、及び／又はコンテナ内の複数のプロセスが、並列コンピューティング・プラットフォーム３８３０のメモリの共有セグメントからの同じデータを使用するために（たとえば、アプリケーションの複数の異なるステージ、又は複数のアプリケーションが、同じ情報を処理する場合）、プロセス間通信（ＩＰＣ）コールが生成されてもよい。少なくとも一実施例では、データのコピーを作成し、データをメモリの異なるロケーションに移動（たとえば、読取り／書込みの動作）させるのではなく、メモリの同じロケーションの同じデータが、任意の数の処理タスクに（たとえば、同じ時間、異なる時間などに）使用されてもよい。少なくとも一実施例では、データが使用されて、処理の結果として新規データが生成されるとき、データの新規ロケーションのこの情報は、様々なアプリケーションに記憶され、それらの間で共有されてもよい。少なくとも一実施例では、データのロケーション及び更新済み又は修正済みのデータのロケーションは、コンテナ内でペイロードがどのように理解されるかという定義の一部であってもよい。

少なくとも一実施例では、ＡＩサービス３８１８は、アプリケーションに関連付けられた（たとえば、アプリケーションの１つ又は複数の処理タスクを実行する役割を課された）機械学習モデルを実行するための推論サービスを実行するために利用されてもよい。少なくとも一実施例では、ＡＩサービス３８１８は、セグメント化、再構築、物体検出、特徴検出、分類、及び／又は他の推論タスクのための機械学習モデル（たとえば、ＣＮＮなどのニューラル・ネットワーク）を実行するために、ＡＩシステム３８２４を利用してもよい。少なくとも一実施例では、導入パイプライン３８１０のアプリケーションは、訓練システム３７０４からの出力モデル３７１６及び／又はアプリケーションの他のモデルのうちの１つ又は複数を使用して、撮像データ（たとえば、ＤＩＣＯＭデータ、ＲＩＳデータ、ＣＩＳデータ、ＲＥＳＴ準拠データ、ＲＰＣデータ、生データなど）について推論を実行してもよい。少なくとも一実施例では、アプリケーション・オーケストレーション・システム３８２８（たとえば、スケジューラ）を使用する推論の２つ以上の実例が利用可能であってもよい。少なくとも一実施例では、第１のカテゴリは、緊急時の緊急要求について推論を実行するため、又は診断時の放射線医のためなど、より高いサービス・レベル合意を達成できる高優先順位／低レイテンシの経路を含むことができる。少なくとも一実施例では、第２のカテゴリは、緊急ではない要求のため、又は分析が後で実行されてもよい場合に使用することができる標準優先順位の経路を含んでもよい。少なくとも一実施例では、アプリケーション・オーケストレーション・システム３８２８は、ＡＩサービス３８１８の異なる推論タスク向けの優先順位経路に基づき、リソース（たとえば、サービス３７２０及び／又はハードウェア３７２２）を分配してもよい。

少なくとも一実施例では、共有ストレージが、システム３８００内でＡＩサービス３８１８に取り付けられてもよい。少なくとも一実施例では、共有ストレージは、キャッシュ（又は他のタイプのストレージ・デバイス）として動作してもよく、アプリケーションからの推論要求を処理するために使用されてもよい。少なくとも一実施例では、推論要求が送出されたとき、要求は、導入システム３７０６のＡＰＩインスタンスのセットによって受信されてもよく、１つ又は複数のインスタンスが（たとえば、最良な適合のため、ロード・バランシングのためなどに）選択されて、要求が処理されてもよい。少なくとも一実施例では、要求を処理するために、要求がデータベースに入れられてもよく、機械学習モデルは、まだキャッシュにない場合には、モデル・レジストリ３７２４から特定されてもよく、検証ステップは、適切な機械学習モデルがキャッシュ（たとえば、共有ストレージ）に確実にロードされるようにしてもよく、且つ／又はモデルのコピーがキャッシュに保存されてもよい。少なくとも一実施例では、アプリケーションがまだ実行されていない場合、又はアプリケーションの充分なインスタンスが存在しない場合には、スケジューラ（たとえば、パイプライン・マネージャ３８１２）を使用して、要求において参照されたアプリケーションが起動されてもよい。少なくとも一実施例では、モデルを実行するための推論サーバがまだ起動されていない場合には、推論サーバが起動されてもよい。少なくとも一実施例では、任意の数の推論サーバがモデルごとに起動されてもよい。少なくとも一実施例では、推論サーバがクラスタ化済みであるプル・モデルでは、ロード・バランシングが有利な場合にはいつでもモデルがキャッシュされてもよい。少なくとも一実施例では、推論サーバは、対応する分散サーバに静的にロードされてもよい。

少なくとも一実施例では、推論は、コンテナ内で実行される推論サーバを使用して実行されてもよい。少なくとも一実施例では、推論サーバのインスタンスは、モデルに（任意選択でモデルの複数のバージョンに）関連付けられてもよい。少なくとも一実施例では、モデルに対して推論を実行する要求が受信されたとき、推論サーバのインスタンスが存在しない場合には、新規のインスタンスがロードされてもよい。少なくとも一実施例では、推論サーバをスタートするとき、モデルが推論サーバに渡されてもよく、それにより、推論サーバが異なるインスタンスとして実行されている限り、同じコンテナを使用して異なるモデルにサービス提供されてもよい。

少なくとも一実施例では、アプリケーションの実行中、所与のアプリケーションについて推論要求が受信されてもよく、（たとえば、推論サーバのインスタンスをホストする）コンテナが（まだロードされていなければ）ロードされてもよく、開始プロシージャがコールされてもよい。少なくとも一実施例では、コンテナの事前処理論理が、（たとえばＣＰＵ及び／又はＧＰＵを使用して）入力データに対する任意の追加的な事前処理をロード、デコード、及び／又は実行してもよい。少なくとも一実施例では、推論のためにデータが準備されると、コンテナは、必要に応じてデータに推論を実行してもよい。少なくとも一実施例では、これは１つの画像（たとえば手のＸ線）に対する単一の推論コールを含んでもよく、又は何百もの画像（たとえば胸のＣＴ）について推論を要求してもよい。少なくとも一実施例では、アプリケーションは、完了前に結果を要約してもよく、これは限定することなく、単一の信頼性スコア、ピクセル・レベルのセグメント化、ボクセル・レベルのセグメント化、視覚化の生成、又は所見を要約するためのテキストの生成を含んでもよい。少なくとも一実施例では、異なるモデル又はアプリケーションには、異なる優先順位が割り当てられてもよい。たとえば、リアル・タイム（ＴＡＴ１分未満）の優先順位を有するモデルもあれば、低優先順位（たとえば、ＴＡＴ１０分未満）を有するモデルもある。少なくとも一実施例では、モデル実行時間は、要求元の施設又はエンティティから測定されてもよく、推論サービスに対する実行に加えてパートナ・ネットワーク横断時間を含んでもよい。

少なくとも一実施例では、サービス３７２０と推論アプリケーションの間での要求の移行は、ソフトウェア開発キット（ＳＤＫ）の後ろに隠されてもよく、キューを通して頑健な移送が提供されてもよい。少なくとも一実施例では、個々のアプリケーション／テナントＩＤの組合せを求めて、要求がＡＰＩを介してキューに入れられ、ＳＤＫは、キューから要求を引き出し、要求をアプリケーションに与える。少なくとも一実施例では、ＳＤＫが要求をピックアップする環境において、キューの名称が提供されてもよい。少なくとも一実施例では、キューを介した非同期の通信は、その通信が利用可能になったときに、その通信によって、アプリケーションの任意のインスタンスがワークをピックアップできるようになるので、有用な場合がある。少なくとも一実施例では、結果はキューを介して返送されて、データが失われないようにしてもよい。少なくとも一実施例では、最高優先順位のワークは、アプリケーションのほとんどのインスタンスがキューに接続された状態のキューに進むことができ、一方で最低優先順位のワークは、１つのインスタンスがキューに接続された状態の、受信した順番にタスクを処理するキューに進むことができるので、キューは、ワークをセグメント化する機能も提供することができる。少なくとも一実施例では、アプリケーションは、クラウド３８２６に生成されたＧＰＵ加速インスタンス上で実行されてもよく、推論サービスは、ＧＰＵ上で推論を実行してもよい。

少なくとも一実施例では、視覚化サービス３８２０を利用して、アプリケーション及び／又は導入パイプライン３８１０の出力を見るための視覚化が生成されてもよい。少なくとも一実施例では、視覚化を生成するために、視覚化サービス３８２０によってＧＰＵ３８２２が利用されてもよい。少なくとも一実施例では、レイ・トレーシングなどのレンダリング効果が、視覚化サービス３８２０によって実装されて、より高品質の視覚化が生成されてもよい。少なくとも一実施例では、視覚化は、２Ｄ画像のレンダリング、３Ｄボリュームのレンダリング、３Ｄボリュームの再構築、２Ｄトモグラフィ・スライス、仮想現実表示、拡張現実表示などを、限定することなく含んでもよい。少なくとも一実施例では、仮想化された環境を使用して、システムのユーザ（たとえば、医師、看護師、放射線医）が対話するための仮想のインタラクティブ表示又はインタラクティブ環境（たとえば、仮想環境）が生成されてもよい。少なくとも一実施例では、視覚化サービス３８２０は、内部ビジュアライザ、シネマティクス、及び／又は他のレンダリング若しくは画像処理の能力若しくは機能（たとえば、レイ・トレーシング、ラスタ化、内部光学など）を含んでもよい。

少なくとも一実施例では、ハードウェア３７２２は、ＧＰＵ３８２２、ＡＩシステム３８２４、クラウド３８２６、並びに／又は訓練システム３７０４及び／若しくは導入システム３７０６を実行するために使用される任意の他のハードウェアを含んでもよい。少なくとも一実施例では、ＧＰＵ３８２２（たとえば、ＮＶＩＤＩＡのＴＥＳＬＡ及び／又はＱＵＡＤＲＯのＧＰＵ）は、任意の数のＧＰＵを含んでもよく、これらは、計算サービス３８１６、ＡＩサービス３８１８、視覚化サービス３８２０、他のサービス、及び／又はソフトウェア３７１８の任意の特徴若しくは機能の処理タスクを実行するために使用されてもよい。たとえば、ＡＩサービス３８１８に関して、ＧＰＵ３８２２を使用して、撮像データ（又は機械学習モデルによって使用される他のタイプのデータ）に対して事前処理が実行されてもよく、機械学習モデルの出力に対して事後処理が実行されてもよく、且つ／又は推論が実行されてもよい（たとえば、機械学習モデルが実行されてもよい）。少なくとも一実施例では、クラウド３８２６、ＡＩシステム３８２４、及び／又はシステム３８００の他の構成要素は、ＧＰＵ３８２２を使用してもよい。少なくとも一実施例では、クラウド３８２６は、深層学習タスクのためにＧＰＵ最適化されたプラットフォームを含んでもよい。少なくとも一実施例では、ＡＩシステム３８２４は、ＧＰＵを使用してもよく、クラウド３８２６、又は深層学習若しくは推論の役割を課された少なくとも一部分は、１つ又は複数のＡＩシステム３８２４を使用して実行されてもよい。したがって、ハードウェア３７２２は、個別構成要素として示されているが、これは限定を意図したものではなく、ハードウェア３７２２の任意の構成要素が、ハードウェア３７２２の任意の他の構成要素と組み合わされてもよく、それらによって利用されてもよい。

少なくとも一実施例では、ＡＩシステム３８２４は、推論、深層学習、機械学習、及び／又は他の人工知能タスク向けに構成された専用のコンピューティング・システム（たとえば、スーパーコンピュータ又はＨＰＣ）を含んでもよい。少なくとも一実施例では、ＡＩシステム３８２４（たとえば、ＮＶＩＤＩＡのＤＧＸ）は、ＧＰＵ最適化されたソフトウェア（たとえば、ソフトウェア・スタック）を含んでもよく、これは、ＣＰＵ、ＲＡＭ、ストレージ、及び／又は他の構成要素、特徴、若しくは機能に加えて、複数のＧＰＵ３８２２を使用して実行されてもよい。少なくとも一実施例では、１つ又は複数のＡＩシステム３８２４は、システム３８００の一部又はすべてのＡＩベースの処理タスクを実行するために、（たとえば、データ・センタにおいて）クラウド３８２６に実装されてもよい。

少なくとも一実施例では、クラウド３８２６は、ＧＰＵ加速化インフラストラクチャ（たとえば、ＮＶＩＤＩＡのＮＧＣ）を含んでもよく、これは、システム３８００の処理タスクを実行するためのＧＰＵ最適化されたプラットフォームを提供してもよい。少なくとも一実施例では、クラウド３８２６は、システム３８００のＡＩベースのタスクのうちの１つ又は複数を実行するためのＡＩシステム３８２４を（たとえば、ハードウェア抽象化及びスケーリングのプラットフォームとして）含んでもよい。少なくとも一実施例では、クラウド３８２６は、複数のＧＰＵを利用してアプリケーション・オーケストレーション・システム３８２８と統合されて、アプリケーションとサービス３７２０の間でシームレスなスケーリング及びロード・バランシングを可能にしてもよい。少なくとも一実施例では、クラウド３８２６は、本明細書に記載する計算サービス３８１６、ＡＩサービス３８１８、及び／又は視覚化サービス３８２０を含むシステム３８００のサービス３７２０の少なくとも一部を実行する役割を課されてもよい。少なくとも一実施例では、クラウド３８２６は、大小のバッチ推論（たとえば、ＮＶＩＤＩＡのテンソルＲＴの実行）を実行してもよく、加速化された並列コンピューティングのＡＰＩ及びプラットフォーム３８３０（たとえば、ＮＶＩＤＩＡのＣＵＤＡ）を提供してもよく、アプリケーション・オーケストレーション・システム３８２８（たとえば、ＫＵＢＥＲＮＥＴＥＳ）を実行してもよく、グラフィックス・レンダリングのＡＰＩ及びプラットフォーム（たとえば、高品質のシネマティクスを生成するためのレイ・トレーシング、２Ｄグラフィックス、３Ｄグラフィックス、及び／又は他のレンダリング技法）を提供してもよく、且つ／又はシステム３８００のための他の機能を提供してもよい。

少なくとも一実施例では、患者の機密性を保護するために（たとえば、患者のデータ又は記録が構外で使用されることになる場合）、クラウド３８２６は、深層学習コンテナ・レジストリなどのレジストリを含んでもよい。少なくとも一実施例では、レジストリは、患者データに対する事前処理、事後処理、又は他の処理タスクを実行できるアプリケーションのインスタンス化のためのコンテナを記憶してもよい。少なくとも一実施例では、クラウド３８２６は、患者データ並びにセンサ・データをコンテナに含むデータを受信してもよく、これらのコンテナにおいてセンサ・データについてのみ要求された処理を実行してもよく、次いで、いずれも患者データを抽出、記憶、又は他のやり方でそれにアクセスする必要なしに、結果の出力及び／又は視覚化を適切なパーティ及び／又はデバイス（たとえば、視覚化又は診断に使用される構内の医療デバイス）に転送してもよい。少なくとも一実施例では、患者データの機密性は、ＨＩＰＡＡ及び／又は他のデータ規定に準拠して保護される。

図３９は、少なくとも一実施例による、撮像データを処理するための導入パイプライン３８１０Ａの実例の図を含む。少なくとも一実施例では、システム３８００、具体的には導入システム３７０６は、導入パイプライン３８１０Ａをカスタマイズ、更新、及び／又は統合して１つ若しくは複数の生成環境にするために使用されてもよい。少なくとも一実施例では、図３９の導入パイプライン３８１０Ａは、施設（たとえば、病院、クリニック、研究所、リサーチ環境など）において特定のユーザ（又はユーザのチーム）によってカスタム定義できる導入パイプライン３８１０Ａの非限定的な実例を含む。少なくとも一実施例では、ＣＴスキャナ３９０２用に導入パイプライン３８１０Ａを定義するために、ユーザは、ＣＴスキャナ３９０２によって生成される撮像データに対して特定の機能又はタスクを実行する１つ又は複数のアプリケーションを、たとえばコンテナ・レジストリから選択してもよい。少なくとも一実施例では、アプリケーションは、システム３８００のサービス３７２０及び／又はハードウェア３７２２を利用できるコンテナとして、導入パイプライン３８１０Ａに適用されてもよい。さらに、導入パイプライン３８１０Ａは、アプリケーションによって使用されるデータを準備するように実装することができる追加の処理タスク又はアプリケーションを含んでもよい（たとえば、ＤＩＣＯＭアダプタ３８０２Ｂ及びＤＩＣＯＭリーダ３９０６が、導入パイプライン３８１０Ａにおいて使用されて、ＣＴ再構築３９０８、器官セグメント化３９１０などによって使用されるデータを準備してもよい）。少なくとも一実施例では、導入パイプライン３８１０Ａは、一貫性のある導入、１回限りの使用、又は別の頻度若しくは間隔に合わせてカスタマイズ又は選択されてもよい。少なくとも一実施例では、ユーザは、特定の間隔で何人かの対象者について、ＣＴ再構築３９０８及び器官セグメント化３９１０を行いたいと思うことがあり、したがって、その期間にわたってパイプライン３８１０Ａを導入してもよい。少なくとも一実施例では、ユーザはシステム３８００からの要求ごとに、その要求のためにそのデータに対してユーザが実行したい処理のアプリケーションを選択してもよい。少なくとも一実施例では、導入パイプライン３８１０Ａは、任意の間隔で調節されてもよく、システム３８００内のコンテナ構造は適応性及びスケーラビリティがあるので、これはシームレスなプロセスとすることができる。

少なくとも一実施例では、図３９の導入パイプライン３８１０Ａは、患者又は対象者の撮像データを生成するＣＴスキャナ３９０２を含んでもよい。少なくとも一実施例では、ＣＴスキャナ３９０２からの撮像データは、ＣＴスキャナ３９０２を収容する施設に関連付けられたＰＡＣＳサーバ３９０４に記憶されてもよい。少なくとも一実施例では、ＰＡＣＳサーバ３９０４は、ソフトウェア及び／又はハードウェアの構成要素を含んでもよく、これらは施設において撮像モダリティ（たとえば、ＣＴスキャナ３９０２）と直接インターフェースをとってもよい。少なくとも一実施例では、ＤＩＣＯＭアダプタ３８０２Ｂは、ＤＩＣＯＭプロトコルを使用してＤＩＣＯＭ物体の送信及び受信を可能にしてもよい。少なくとも一実施例では、ＤＩＣＯＭアダプタ３８０２Ｂは、導入パイプライン３８１０Ａによって使用するために、ＰＡＣＳサーバ３９０４からのＤＩＣＯＭデータの準備又は構成を支援してもよい。少なくとも一実施例では、ＤＩＣＯＭデータがＤＩＣＯＭアダプタ３８０２Ｂを介して処理されると、パイプライン・マネージャ３８１２は、導入パイプライン３８１０Ａを通るようにデータをルーティングしてもよい。少なくとも一実施例では、ＤＩＣＯＭリーダ３９０６は、画像ファイル及び関連する任意のメタデータをＤＩＣＯＭデータ（たとえば、視覚化３９１６Ａに示す生のシノグラム・データ）から抽出してもよい。少なくとも一実施例では、抽出された作業ファイルは、導入パイプライン３８１０Ａの他のアプリケーションによってより高速に処理できるようにキャッシュに記憶されてもよい。少なくとも一実施例では、ＤＩＣＯＭリーダ３９０６がデータの抽出及び／又は記憶を終了したら、完了信号がパイプライン・マネージャ３８１２に通信されてもよい。少なくとも一実施例では、次いでパイプライン・マネージャ３８１２は、導入パイプライン３８１０Ａ内の１つ又は複数の他のアプリケーション若しくはコンテナを開始してもよく、又はそれをコールしてもよい。

少なくとも一実施例では、ＣＴ再構築３９０８のアプリケーションによる処理のためにデータ（たとえば、生のシノグラム・データ）が利用可能になると、ＣＴ再構築３９０８のアプリケーション及び／又はコンテナが実行されてもよい。少なくとも一実施例では、ＣＴ再構築３９０８は、生のシノグラム・データをキャッシュから読み取り、生のシノグラム・データから（たとえば、視覚化３９１６Ｂに示す）画像ファイルを再構築し、結果として生じる画像ファイルをキャッシュに記憶してもよい。少なくとも一実施例では、再構築の完了時、パイプライン・マネージャ３８１２は、再構築タスクが完了したことを通知されてもよい。少なくとも一実施例では、再構築が完了し、再構築された画像ファイルがキャッシュ（又は他のストレージ・デバイス）に記憶されると、器官セグメント化３９１０のアプリケーション及び／又はコンテナが、パイプライン・マネージャ３８１２によってトリガされてもよい。少なくとも一実施例では、器官セグメント化３９１０のアプリケーション及び／又はコンテナは、キャッシュから画像ファイルを読み取り、画像ファイルを推論に適したフォーマットに正規化又は変換し（たとえば、画像ファイルを機械学習モデルの入力解像度に変換し）、正規化された画像に対して推論を実行してもよい。少なくとも一実施例では、正規化された画像に対して推論を実行するために、器官セグメント化３９１０のアプリケーション及び／又はコンテナは、サービス３７２０に依存してもよく、パイプライン・マネージャ３８１２及び／又はアプリケーション・オーケストレーション・システム３８２８は、器官セグメント化３９１０のアプリケーション及び／又はコンテナによるサービス３７２０の使用を容易にしてもよい。少なくとも一実施例では、たとえば器官セグメント化３９１０のアプリケーション及び／又はコンテナは、ＡＩサービス３８１８を利用して正規化画像に対して推論を実行してもよく、ＡＩサービス３８１８はハードウェア３７２２（たとえば、ＡＩシステム３８２４）を利用してＡＩサービス３８１８を実行してもよい。少なくとも一実施例では、推論の結果は（たとえば、視覚化３９１６Ｃに示す）マスク・ファイルであってもよく、このファイルはキャッシュ（又は他のストレージ・デバイス）に記憶されてもよい。

少なくとも一実施例では、ＤＩＣＯＭデータ及び／又はＤＩＣＯＭデータから抽出されたデータを処理するアプリケーションが処理を完了したら、パイプライン・マネージャ３８１２向けに信号が生成されてもよい。少なくとも一実施例では、次いでパイプライン・マネージャ３８１２は、ＤＩＣＯＭライタ３９１２を実行してキャッシュ（又は他のストレージ・デバイス）から結果を読み取り、要求を生成した施設のユーザによる使用のため、結果をＤＩＣＯＭフォーマットに（たとえば、ＤＩＣＯＭ出力３９１４として）パッケージ化してもよい。少なくとも一実施例では、次いでＤＩＣＯＭ出力３９１４は、ＤＩＣＯＭアダプタ３８０２Ｂに送信されて、（たとえば、施設のＤＩＣＯＭビューワによる視聴のために）ＰＡＣＳサーバ３９０４に記憶するようにＤＩＣＯＭ出力３９１４が準備されてもよい。少なくとも一実施例では、再構築及びセグメント化の要求に応答して、視覚化３９１６Ｂ及び３９１６Ｃが生成され、診断、リサーチ、及び／又は他の目的のためにユーザにとって利用可能にされてもよい。

導入パイプライン３８１０Ａでは連続したアプリケーションとして示されているが、ＣＴ再構築３９０８及び器官セグメント化３９１０のアプリケーションは、少なくとも一実施例において並列で処理されてもよい。少なくとも一実施例では、アプリケーションが互いに依存性を有しておらず、（たとえば、ＤＩＣＯＭリーダ３９０６がデータを抽出した後に）アプリケーションごとにデータが利用可能である場合、アプリケーションは同時に、実質的に同時に、又は一部が重なって実行されてもよい。少なくとも一実施例では、２つ以上のアプリケーションが同様のサービス３７２０を要求する場合、システム３８００のスケジューラを使用して、様々なアプリケーション間で計算又は処理のリソースのロード・バランシングが行われ、それらを分散させてもよい。少なくとも一実施例では、いくつかの実施例において、導入パイプライン３８１０Ａのランタイムを短縮してリアル・タイムの結果を提供するために、並列コンピューティング・プラットフォーム３８３０を使用してアプリケーションのための並列処理が実行されてもよい。

少なくとも一実施例では、図４０Ａ～図４０Ｂを参照すると、導入システム３７０６は、画像処理、セグメント化、強調、ＡＩ、視覚化、及び推論などの異なる機能を、撮像デバイス（たとえば、ＣＴスキャナ、Ｘ線機械、ＭＲＩ機械など）、シーケンシング・デバイス、ゲノミクス・デバイス、及び／又は他のタイプのデバイスを用いて実行するための１つ又は複数の仮想機器として実装されてもよい。少なくとも一実施例では、システム３８００は、ソフトウェア定義された導入パイプライン３８１０を含むことができる仮想機器の生成及び提供を可能にしてもよく、この導入パイプライン３８１０は、デバイスによって生成された生／未処理の入力データを受信し、処理済み／再構築済みのデータを出力してもよい。少なくとも一実施例では、仮想機器を表す導入パイプライン３８１０（たとえば、３８１０Ａ及び３８１０Ｂ）は、機械学習モデルを利用することなどにより、知能をパイプラインに実装して、コンテナ化された推論サポートをシステムに提供してもよい。少なくとも一実施例では、仮想機器は、アプリケーションのインスタンスをそれぞれが含む任意の数のコンテナを実行してもよい。少なくとも一実施例では、リアル・タイムの処理が望ましい場合などでは、仮想機器を表す導入パイプライン３８１０は静的であってもよく（たとえば、コンテナ及び／又はアプリケーションが設定されていてもよく）、一方他の実例では、仮想機器用のコンテナ及び／又はアプリケーションが、アプリケーション又はリソースのプール（たとえばコンテナ・レジストリ内）から（たとえば要求ごとに）選択されてもよい。

少なくとも一実施例では、システム３８００は、たとえば施設の放射線機械、撮像デバイス、及び／又は別のタイプのデバイスに隣接して導入された、又は他のやり方でそれらと通信するコンピューティング・システムにおいて、施設構内の１つ又は複数の仮想機器としてインスタンス化されてもよく、又は実行されてもよい。しかし少なくとも一実施例では、構内でのインストールは、（たとえば、撮像デバイスに統合されたコンピューティング・システム）デバイス自体のコンピューティング・システム内で、ローカルなデータセンタ（たとえば、構内のデータセンタ）で、及び／又はクラウド環境（たとえば、クラウド３８２６）でインスタンス化又は実行されてもよい。少なくとも一実施例では、仮想機器として動作する導入システム３７０６は、いくつかの実例においてスーパーコンピュータ又は他のＨＰＣシステムによってインスタンス化されてもよい。少なくとも一実施例では、構内でのインストールにより、リアル・タイムの処理のために（たとえば、イーサネット（登録商標）を介したＲＦなど、高スループットのローカル通信インターフェースを介した）広帯域の使用が可能になる。少なくとも一実施例では、リアル・タイム又はほぼリアル・タイムの処理は、正確な診断及び分析のために即時の視覚化が期待又は必要とされる超音波デバイス又は他の撮像モダリティを仮想機器がサポートする場合に、特に有用なことがある。少なくとも一実施例では、ローカルな要求が構内の容量又は能力を超過するとき、クラウド・コンピューティング・アーキテクチャは、クラウド・コンピューティングのサービス・プロバイダ又は他の計算クラスタに対する動的バーストを実行することができる。少なくとも一実施例では、クラウド・アーキテクチャは、実装されると、訓練システム３７０４に関して本明細書に記載のニューラル・ネットワーク又は他の機械学習モデルを訓練するように調整されてもよい。少なくとも一実施例では、訓練パイプラインが定位置にあるとき、機械学習モデルは、それがサポートするデバイスからの追加データを処理するとき、継続的に学習及び改善してもよい。少なくとも一実施例では、仮想機器は、追加データ、新規データ、既存の機械学習モデル、及び／又は新規若しくは更新済みの機械学習モデルを使用して、継続的に改善されてもよい。

少なくとも一実施例では、コンピューティング・システムは、本明細書に記載のハードウェア３７２２の一部又はすべてを含んでもよく、ハードウェア３７２２は、デバイス内、デバイスに結合され近位に位置するコンピューティング・デバイスの一部として、施設のローカル・データセンタ内、及び／又はクラウド３８２６内を含む複数のやり方のうちの任意のやり方で分散されてもよい。少なくとも一実施例では、導入システム３７０６及び関連付けられたアプリケーション又はコンテナは、ソフトウェアに（たとえば、アプリケーションの個別のコンテナ化インスタンスとして）生成されるので、仮想機器の挙動、動作、及び構成、並びに仮想機器によって生成される出力は、仮想機器がサポートするデバイスの生の出力を変える又は変更する必要なしに、望み通りに修正又はカスタマイズされることが可能である。

図４０Ａは、少なくとも一実施例による、超音波デバイスをサポートする仮想器具の実例データ・フロー図を含む。少なくとも一実施例では、導入パイプライン３８１０Ｂは、システム３８００のサービス３７２０のうちの１つ又は複数を利用してもよい。少なくとも一実施例では、導入パイプライン３８１０Ｂ及びサービス３７２０は、ローカルかクラウド３８２６のいずれかにおいて、システムのハードウェア３７２２を利用してもよい。少なくとも一実施例では、図示していないが、プロセス４０００は、パイプライン・マネージャ３８１２、アプリケーション・オーケストレーション・システム３８２８、及び／又は並列コンピューティング・プラットフォーム３８３０によって促進されてもよい。

少なくとも一実施例では、プロセス４０００は、超音波デバイス４００２から撮像データを受信することを含んでもよい。少なくとも一実施例では、撮像データは、ＤＩＣＯＭフォーマット（又はＲＩＳ、ＣＩＳ、ＲＥＳＴ準拠、ＲＰＣ、生などの他のフォーマット）でＰＡＣＳサーバに記憶されてもよく、超音波デバイス４００２用の仮想機器（たとえば仮想超音波）として選択又はカスタマイズされた導入パイプライン３８１０を通して処理するために、システム３８００によって受信されてもよい。少なくとも一実施例では、撮像データは、撮像デバイス（たとえば、超音波デバイス４００２）から直接受信されてもよく、仮想機器によって処理されてもよい。少なくとも一実施例では、撮像デバイスと仮想機器の間に通信可能に結合されたトランスデューサ又は他の信号変換器は、撮像デバイスによって生成された信号データを、仮想機器によって処理することができる画像データに変換してもよい。少なくとも一実施例では、生データ及び／又は画像データは、導入パイプライン３８１０Ｂのアプリケーション又はコンテナによって使用されるデータを抽出するために、ＤＩＣＯＭリーダ３９０６に適用されてもよい。少なくとも一実施例では、ＤＩＣＯＭリーダ３９０６は、アプリケーション又はコンテナによって使用されるデータを抽出、リサイズ、リスケーリング、及び／又は他のやり方で準備するためのサービス３７２０として（たとえば、計算サービス３８１６のうちの１つとして）、データ拡張ライブラリ４０１４（たとえば、ＮＶＩＤＩＡのＤＡＬＩ（登録商標））を利用してもよい。

少なくとも一実施例では、データが準備されると、再構築４００６のアプリケーション及び／又はコンテナが実行されて、超音波デバイス４００２からのデータが画像ファイルに再構築されてもよい。少なくとも一実施例では、再構築４００６の後、又は再構築４００６と同時に、検出４００８のアプリケーション及び／又はコンテナが、異常検出、物体検出、特徴検出、及び／又はデータに関する他の検出タスクのために実行されてもよい。少なくとも一実施例では、再構築４００６中に生成された画像ファイルは、検出４００８中に使用されて、異常、物体、特徴などが識別されてもよい。少なくとも一実施例では、検出４００８のアプリケーションは、推論エンジン４０１６を（たとえば、ＡＩサービス３８１８のうちの１つとして）利用して、データについて推論を実行して検出を生成してもよい。少なくとも一実施例では、（たとえば、訓練システム３７０４からの）１つ又は複数の機械学習モデルは、検出４００８のアプリケーションによって実行又はコールされてもよい。

少なくとも一実施例では、再構築４００６及び／又は検出４００８が完了すると、これらのアプリケーション及び／又はコンテナからのデータ出力を使用して、ワークステーション又はディスプレイ端末に表示される視覚化４０１２（たとえば、グレースケール出力）などの視覚化４０１０が生成されてもよい。少なくとも一実施例では、視覚化により、超音波デバイス４００２に対する導入パイプライン３８１０Ｂの結果を、技術者又は他のユーザが視覚化できるようになる。少なくとも一実施例では、視覚化４０１０は、システム３８００のレンダリング構成要素４０１８（たとえば、視覚化サービス３８２０のうちの１つ）を利用することによって、実行されてもよい。少なくとも一実施例では、レンダリング構成要素４０１８は、２Ｄ、ＯｐｅｎＧＬ、又はレイ・トレーシングのサービスを実行して、視覚化４０１２を生成してもよい。

図４０Ｂは、少なくとも一実施例による、ＣＴスキャナをサポートする仮想器具の実例データ・フロー図を含む。少なくとも一実施例では、導入パイプライン３８１０Ｃは、システム３８００のサービス３７２０のうちの１つ又は複数を利用してもよい。少なくとも一実施例では、導入パイプライン３８１０Ｃ及びサービス３７２０は、ローカルかクラウド３８２６のいずれかにおいて、システムのハードウェア３７２２を利用してもよい。少なくとも一実施例では、図示していないが、プロセス４０２０は、パイプライン・マネージャ３８１２、アプリケーション・オーケストレーション・システム３８２８、及び／又は並列コンピューティング・プラットフォーム３８３０によって促進されてもよい。

少なくとも一実施例では、プロセス４０２０は、生データを生成するＣＴスキャナ４０２２を含んでもよく、この生データは、ＤＩＣＯＭリーダ３９０６によって（たとえば、直接、ＰＡＣＳサーバ３９０４を介して、処理後になど）受信されてもよい。少なくとも一実施例では、（導入パイプライン３８１０Ｃによってインスタンス化された）仮想ＣＴは、患者を監視するため（たとえば、患者動き検出ＡＩ４０２６）且つ／又はＣＴスキャナ４０２２の露出を（たとえば、露出制御ＡＩ４０２４を使用して）調節又は最適化するための、第１のリアルタイム・パイプラインを含んでもよい。少なくとも一実施例では、アプリケーションのうちの１つ又は複数（たとえば、４０２４及び４０２６）は、ＡＩサービス３８１８などのサービス３７２０を利用してもよい。少なくとも一実施例では、露出制御ＡＩ４０２４のアプリケーション（又はコンテナ）及び／又は患者動き検出ＡＩ４０２６のアプリケーション（又はコンテナ）の出力は、ＣＴスキャナ４０２２及び／又は技術者に対するフィードバックとして使用されて、露出（又はＣＴスキャナ４０２２の他の設定）が調節されてもよく、且つ／又は患者にあまり動かないように伝えられてもよい。

少なくとも一実施例では、導入パイプライン３８１０Ｃは、ＣＴスキャナ４０２２によって生成されるデータを分析するための非リアルタイム・パイプラインを含んでもよい。少なくとも一実施例では、第２のパイプラインは、ＣＴ再構築３９０８のアプリケーション及び／又はコンテナ、粗検出ＡＩ４０２８のアプリケーション及び／又はコンテナ、（たとえば、粗検出ＡＩ４０２８によってある特定の結果が検出された場合の）精検出ＡＩ４０３２のアプリケーション及び／又はコンテナ、視覚化４０３０のアプリケーション及び／又はコンテナ、及びＤＩＣＯＭライタ３９１２（及び／又はＲＩＳ、ＣＩＳ、ＲＥＳＴ準拠、ＲＰＣ、生など他のデータ・タイプライタ）のアプリケーション及び／又はコンテナを含んでもよい。少なくとも一実施例では、ＣＴスキャナ４０２２によって生成された生データは、（仮想ＣＴ機器としてインスタンス化された）導入パイプライン３８１０Ｃのパイプラインに通されて、結果が生成されてもよい。少なくとも一実施例では、ＤＩＣＯＭライタ３９１２からの結果は、表示のために送信されてもよく、且つ／又は技術者、開業医、若しくは他のユーザによって後で検索、分析、又は表示できるようにＰＡＣＳサーバ３９０４に記憶されてもよい。

図４１Ａは、少なくとも一実施例による、機械学習モデルを訓練、再訓練、又は更新するためのプロセス４１００のデータ・フロー図を示す。少なくとも一実施例では、プロセス４１００は、図３８のシステム３８００を非限定的な実例として使用して、実行されてもよい。少なくとも一実施例では、プロセス４１００は、本明細書に記載のシステム３８００のサービス３７２０及び／又はハードウェア３７２２を利用してもよい。少なくとも一実施例では、プロセス４１００によって生成される精緻化モデル４１１２は、導入パイプライン３８１０内の１つ又は複数のコンテナ化アプリケーションのために、導入システム３７０６によって実行されてもよい。

少なくとも一実施例では、モデル訓練３７１４は、新規訓練データ（たとえば、顧客データセット４１０６、及び／又は入力データに関連付けられた新規グラウンド・トゥルース・データなどの新規入力データ）を使用して、初期モデル４１０４（たとえば、事前訓練済みモデル）を再訓練又は更新することを含んでもよい。少なくとも一実施例では、初期モデル４１０４を再訓練又は更新するために、初期モデル４１０４の出力又は損失層がリセットされてもよく、削除されてもよく、且つ／又は更新済み若しくは新規の出力若しくは損失層と置換されてもよい。少なくとも一実施例では、初期モデル４１０４は、以前に微調整された、前の訓練から残っているパラメータ（たとえば、重み及び／又はバイアス）を有してもよく、それにより、訓練又は再訓練３７１４は、最初からモデルを訓練するほど長い時間がかからず、又は多くの処理を必要としなくても済む。少なくとも一実施例では、モデル訓練３７１４の間に、初期モデル４１０４のリセット又は置換された出力又は損失層を有することにより、パラメータは、新規の顧客データセット４１０６（たとえば、図３７の画像データ３７０８）について予測を生成する際の出力又は損失層の精度に関連付けられた損失計算に基づき、新規データ・セットのために更新又は再調整されてもよい。

少なくとも一実施例では、事前訓練済みモデル３８０６は、データ・ストア又はレジストリ（たとえば、図３７のモデル・レジストリ３７２４）に記憶されてもよい。少なくとも一実施例では、事前訓練済みモデル３８０６は、少なくとも部分的に、プロセス４１００を実行する施設とは異なる１つ又は複数の施設において訓練済みであってもよい。少なくとも一実施例では、異なる施設の患者、対象者、顧客のプライバシー及び権利を保護するために、事前訓練済みモデル３８０６は、構内で生成された顧客又は患者のデータを使用して、構内で訓練されたものであってもよい。少なくとも一実施例では、事前訓練済みモデル３８０６は、クラウド３８２６及び／又は他のハードウェア３７２２を使用して訓練されてもよいが、プライバシー保護された機密の患者データは、クラウド３８２６（又は他の構外のハードウェア）の任意の構成要素に転送できず、それらの構成要素によって使用されず、又はアクセス不可能であってもよい。少なくとも一実施例では、事前訓練済みモデル３８０６が２つ以上の施設からの患者データを使用して訓練される場合、事前訓練済みモデル３８０６は、各施設について個々に訓練されてから、別の施設からの患者若しくは顧客のデータについて訓練されてもよい。少なくとも一実施例では、顧客又は患者のデータが（たとえば、実験での使用を目的とした権利放棄などによって）プライバシー問題から解放されている場合、又は顧客若しくは患者のデータがパブリック・データ・セットに含まれる場合などには、任意の数の施設からの顧客又は患者のデータを使用して、データセンタ又は他のクラウド・コンピューティング・インフラストラクチャなど、構内及び／又は構外で事前訓練済みモデル３８０６が訓練されてもよい。

少なくとも一実施例では、導入パイプライン３８１０で使用するアプリケーションを選択するとき、ユーザは、特定のアプリケーションで使用することになる機械学習モデルも選択することができる。少なくとも一実施例では、ユーザは、使用するモデルを有していないことがあり、したがって、ユーザはアプリケーションとともに使用する事前訓練済みモデル３８０６を選択してもよい。少なくとも一実施例では、事前訓練済みモデル３８０６は、（たとえば、患者の多様性、人口統計、使用される医療用撮像デバイスのタイプなどに基づき）ユーザの施設の顧客データセット４１０６について正確な結果を生成するように最適化されなくてもよい。少なくとも一実施例では、事前訓練済みモデル３８０６を、アプリケーションとともに使用するために導入パイプライン３８１０に導入する前に、事前訓練済みモデル３８０６は、それぞれの施設において使用するために更新、再訓練、及び／又は微調整されてもよい。

少なくとも一実施例では、ユーザは、更新、再訓練、及び／又は微調整されることになる事前訓練済みモデル３８０６を選択してもよく、事前訓練済みモデル３８０６は、プロセス４１００内でシステム３７０４を訓練するための初期モデル４１０４と呼ばれてもよい。少なくとも一実施例では、顧客データセット４１０６（たとえば、施設のデバイスによって生成された撮像データ、ゲノミクス・データ、シーケンシング・データ、又は他のタイプのデータ）を使用して、初期モデル４１０４について（限定することなく転送学習（ｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇ）を含んでもよい）モデル訓練３７１４が実行されて、精緻化モデル４１１２が生成されてもよい。少なくとも一実施例では、顧客データセット４１０６に対応するグラウンド・トゥルース・データが、訓練システム３７０４によって生成されてもよい。少なくとも一実施例では、グラウンド・トゥルース・データは、（たとえば、図３７のラベル付けされたクリニック・データ３７１２として）施設において臨床医、科学者、医師、開業医によって、少なくとも部分的に生成されてもよい。

少なくとも一実施例では、ＡＩ支援アノテーション３７１０がいくつかの実例において使用されて、グラウンド・トゥルース・データが生成されてもよい。少なくとも一実施例では、（たとえば、ＡＩ支援アノテーションＳＤＫを使用して実装された）ＡＩ支援アノテーション３７１０は、機械学習モデル（たとえば、ニューラル・ネットワーク）を利用して、顧客データセットについて示唆又は予測されるグラウンド・トゥルース・データを生成してもよい。少なくとも一実施例では、ユーザ４１１０は、コンピューティング・デバイス４１０８上のユーザ・インターフェース（グラフィカル・ユーザ・インターフェース（ＧＵＩ））内でアノテーション・ツールを使用してもよい。

少なくとも一実施例では、ユーザ４１１０は、コンピューティング・デバイス４１０８を介してＧＵＩと対話して、アノテーション又は自動アノテーションを編集又は微調整してもよい。少なくとも一実施例では、ポリゴン編集特徴を使用して、ポリゴンの頂点をより正確なロケーション又は微調整されたロケーションに移動させてもよい。

少なくとも一実施例では、顧客データセット４１０６が、関連付けられたグラウンド・トゥルース・データを得ると、（たとえば、ＡＩ支援アノテーション、手動ラベリングなどからの）グラウンド・トゥルース・データが、モデル訓練３７１４中に使用されて、精緻化モデル４１１２が生成されてもよい。少なくとも一実施例では、顧客データセット４１０６は、初期モデル４１０４に任意の回数、適用されてもよく、グラウンド・トゥルース・データは、精緻化モデル４１１２について許容可能なレベルの精度が達成されるまで、初期モデル４１０４のパラメータを更新するために使用されてもよい。少なくとも一実施例では、精緻化モデル４１１２が生成されると、精緻化モデル４１１２は、医療用撮像データに対して１つ又は複数の処理タスクを実行するために、施設において１つ又は複数の導入パイプライン３８１０内に導入されてもよい。

少なくとも一実施例では、精緻化モデル４１１２は、別の施設によって選択されることになるモデル・レジストリ３７２４の事前訓練済みモデル３８０６にアップロードされてもよい。少なくとも一実施例では、このプロセスは任意の数の施設において完了されてもよく、それにより精緻化モデル４１１２は、新規データセットについて任意の回数さらに精緻化されて、より普遍的なモデルが生成されてもよい。

図４１Ｂは、少なくとも一実施例による、事前訓練済みのアノテーション・モデルを用いてアノテーション・ツールを強化するためのクライアント・サーバのアーキテクチャの実例の図である。少なくとも一実施例では、ＡＩ支援アノテーション・ツール４１３６は、クライアント・サーバのアーキテクチャ４１３２に基づきインスタンス化されてもよい。少なくとも一実施例では、撮像アプリケーションのアノテーション・ツール４１３６は、たとえば放射線医が器官及び異常を識別するのを支援してもよい。少なくとも一実施例では、撮像アプリケーションは、非限定的な実例として（たとえば、３ＤのＭＲＩ又はＣＴスキャンの）生画像４１３４において、特定の対象器官上の数少ない極値点をユーザ４１１０が識別するのを援助し、特定の器官の２Ｄスライスすべてについて自動アノテーション付けされた結果を受信するソフトウェア・ツールを含んでもよい。少なくとも一実施例では、結果は、訓練データ４１３８としてデータストアに記憶されてもよく、（たとえば、限定することなく）訓練用のグラウンド・トゥルース・データとして使用されてもよい。少なくとも一実施例では、コンピューティング・デバイス４１０８が、ＡＩ支援アノテーション３７１０のために極値点を送るとき、たとえば深層学習モデルがこのデータを入力として受信してもよく、セグメント化された器官又は異常の推論結果を返してもよい。少なくとも一実施例では、図４１ＢのＡＩ支援アノテーション・ツール４１３６Ｂなどの事前インスタンス化されたアノテーション・ツールは、たとえばアノテーション・モデル・レジストリに記憶された事前訓練済みモデル４１４２のセットを含むことができるアノテーション支援サーバ４１４０などのサーバに、ＡＰＩコール（たとえば、ＡＰＩコール４１４４）を行うことによって、拡張されてもよい。少なくとも一実施例では、アノテーション・モデル・レジストリは、特定の器官又は異常に対してＡＩ支援アノテーションを実行するように事前訓練された事前訓練済みモデル４１４２（たとえば、深層学習モデルなどの機械学習モデル）を記憶してもよい。少なくとも一実施例では、これらのモデルは、訓練パイプライン３８０４を使用することにより、さらに更新されてもよい。少なくとも一実施例では、事前インストールされたアノテーション・ツールは、ラベル付けされた新規クリニック・データ３７１２が加えられるにつれて、経時的に改善されてもよい。

１つ又は複数の実施例に関連する推論及び／又は訓練の動作を実行するために、推論及び／又は訓練論理８１５が使用される。推論及び／又は訓練論理８１５に関する詳細事項は、図８Ａ及び／又は図８Ｂと併せて本明細書において提供される。

少なくとも一実施例では、単一の半導体プラットフォームとは、単独で単体の半導体ベースの集積回路又はチップを指してもよい。少なくとも一実施例では、マルチ・チップ・モジュールは、オン・チップ動作をシミュレートする接続性が向上した状態で使用されてもよく、従来の中央処理装置（「ＣＰＵ」）及びバスの実装形態の利用を大幅に改善する。少なくとも一実施例では、ユーザの希望に応じて、半導体プラットフォームとは別々に、又は半導体プラットフォームとの様々な組合せで、様々なモジュールがさらに設置されてもよい。

少なくとも一実施例では、図１４に戻って参照すると、機械読取り可能で実行可能なコード若しくはコンピュータ制御論理アルゴリズムの形のコンピュータ・プログラムが、メイン・メモリ１４０４及び／又は二次ストレージに記憶される。コンピュータ・プログラムは、１つ又は複数のプロセッサによって実行された場合に、少なくとも一実施例による様々な機能をシステム１４００が実行できるようにする。少なくとも一実施例では、メモリ１４０４、ストレージ、及び／又は任意の他のストレージが、コンピュータ読取り可能媒体の考えられる実例である。少なくとも一実施例では、二次ストレージとは、フロッピー（登録商標）・ディスク・ドライブ、磁気テープ・ドライブ、コンパクト・ディスク・ドライブ、デジタル多用途ディスク（「ＤＶＤ」：digital versatile disk）ドライブ、記録デバイス、ユニバーサル・シリアル・バス（「ＵＳＢ」）フラッシュ・メモリなどを表すハード・ディスク・ドライブ及び／若しくはリムーバブル・ストレージ・ドライブなどの任意の好適なストレージ・デバイス又はシステムを指してもよい。少なくとも一実施例では、様々な先の図面のアーキテクチャ及び／又は機能は、ＣＰＵ１４０２、並列処理システム１４１２、ＣＰＵ１４０２と並列処理システム１４１２の両方の機能の少なくとも一部分を実現可能な集積回路、チップセット（たとえば、関連機能を実行するためのユニットとして機能し、販売されるように設計された集積回路のグループなど）、及び／又は集積回路の任意の好適な組合せの文脈において実装される。

少なくとも一実施例では、様々な先の図面のアーキテクチャ及び／又は機能は、汎用コンピュータ・システム、回路板システム、エンタテイメント目的専用のゲーム・コンソール・システム、及び特定用途システムなどの文脈において実装される。少なくとも一実施例では、コンピュータ・システム１４００は、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータ、サーバ、スーパーコンピュータ、スマート・フォン（たとえば、ワイヤレスの携帯型デバイス）、パーソナル・デジタル・アシスタント（「ＰＤＡ」）、デジタル・カメラ、車両、頭装着型ディスプレイ、携帯型電子デバイス、モバイル・フォン・デバイス、テレビ、ワークステーション、ゲーム・コンソール、組み込みシステム、及び／又は任意の他のタイプの論理の形をとってもよい。

少なくとも一実施例では、並列処理システム１４１２は、限定することなく、複数の並列処理ユニット（「ＰＰＵ」）１４１４、及び関連メモリ１４１６を含む。少なくとも一実施例では、ＰＰＵ１４１４は、相互接続１４１８及びスイッチ１４２０又はマルチプレクサを介してホスト・プロセッサ又は他の周辺デバイスに接続される。少なくとも一実施例では、並列処理システム１４１２は、計算タスクをＰＰＵ１４１４にわたって分配し、これは、たとえば複数のグラフィックス・プロセッシング・ユニット（「ＧＰＵ」）のスレッド・ブロックにわたる計算タスクの分配の一部として、並列化可能とすることができる。少なくとも一実施例では、メモリは、ＰＰＵ１４１４の一部又は全部にわたって共有され、（たとえば、読取り及び／又は書込みアクセスのために）アクセス可能であるが、こうした共有メモリは、ＰＰＵ１４１４に常駐しているローカル・メモリ及びレジスタの使用に対して、性能に不利益をもたらすことがある。少なくとも一実施例では、ＰＰＵ１４１４の動作は、＿ｓｙｎｃｔｈｒｅａｄｓ（）などのコマンドを使用することによって同期され、ここで（たとえば、複数のＰＰＵ１４１４にわたって動作している）ブロック内のすべてのスレッドが、進行前にコードのある一定の実行ポイントに到達する。

他の変形形態は、本開示の範囲内にある。したがって、開示した技法は、様々な修正及び代替的な構成が可能であるが、それらのうち一定の例示的な実施例が図面に示され、上で詳細に説明されてきた。しかし、特定の１つ又は複数の開示された形に本開示を限定する意図はなく、その反対に、特許請求の範囲に定義される開示の趣旨及び範囲に入るすべての修正形態、代替的な構成、及び等価物を網羅することを意図していることが理解されるべきである。

本開示の少なくとも一実施例は、以下の条項を考慮して説明されてもよい。
１．プロセッサであって、
１つ又は複数のデータのセットのスパース性に対する増大を、少なくとも１つ又は複数のデータのセット内の要素を並べ替えることによって、生じさせ、それに対して、プロセッサによって１つ又は複数の計算が実行される、１つ又は複数の回路
を備える、プロセッサ。
２．１つ又は複数の回路が、１つ又は複数のデータのセットが、１つ又は複数の構造化スパース性制約に従う１つ又は複数のデータのサブセットを含むように、少なくとも１つ又は複数のデータのセット内の要素を並べ替えることによって、スパース性に対する増大を生じさせる、条項１に記載のプロセッサ。
３．１つ又は複数の構造化スパース性制約が、１つ又は複数のデータのセットに対して制限を課し、それにより、１つ又は複数のデータのサブセットが、少なくとも第１の数の非ゼロ・データ値及び第２の数のゼロ・データ値を含む、条項２に記載のプロセッサ。
４．１つ又は複数の回路が、１つ又は複数のデータのセット内の要素を、１つ又は複数のデータのセット内で第１のポジションを有する１つ又は複数のデータのサブセットの第１のサブセットを、１つ又は複数のデータのセット内で第２のポジションを有する１つ又は複数のデータのサブセットの第２のサブセットとスワップすることによって、並べ替える、条項２又は３に記載のプロセッサ。
５．
１つ又は複数のデータのセットが、少なくとも第１のインデックス及び第２のインデックスを使用してアクセス可能な数値を含み、
１つ又は複数のデータのセットが、第１のインデックスに関連付けられる第１のデータのサブセット、及び第２のインデックスに関連付けられる第２のデータのサブセットを含み、
１つ又は複数の回路が、少なくとも第１のインデックスに関連付けられる第１のデータのサブセットの数値を、第２の行列に関連付けられる第２のデータのサブセットと交換することによって、スパース性に対して増大を生じさせる、条項１から４までのいずれかに記載のプロセッサ。
６．１つ又は複数のデータのセットが、１つ又は複数のニューラル・ネットワークに関連付けられる重みパラメータに対応する数値を含む、条項１から５までのいずれかに記載のプロセッサ。
７．１つ又は複数のデータのセット内の各データ値が、第１のインデックス値及び第２のインデックス値に関連付けられ、第１のインデックス値及び第２のインデックス値が、１つ又は複数のデータのセット内の各データ値のポジションを示す、条項１から６までのいずれかに記載のプロセッサ。
８．１つ又は複数の回路が、変換のセットを決定して１つ又は複数のデータのセット内で２つ以上のデータのサブセットをスワップするために、深層学習フレームワークを使用して、１つ又は複数のデータのセットのスパース性に対する増大を生じさせ、深層学習フレームワークが、２つ以上のデータのサブセット内の１つ又は複数のデータ値をゼロにさらに設定する、条項１から７までのいずれかに記載のプロセッサ。
９．システムであって、
１つ又は複数のプロセッサと、
命令を含むメモリであって、命令が、１つ又は複数のプロセッサによって実行されると、コンピュータ・システムに、少なくとも、
１つ又は複数のデータのセットのスパース性に対する増大を、少なくとも１つ又は複数のデータのセット内の要素を並べ替えることによって、生じさせ、それに対して、１つ又は複数の計算が１つ又は複数のプロセッサによって実行される、メモリと
を備える、システム。
１０．命令が、１つ又は複数のプロセッサによって実行されると、深層学習フレームワークに、１つ又は複数のスパース性制約に少なくとも部分的に基づいて、１つ又は複数のデータのセットの変換を行なわせる命令をさらに含む、条項９に記載のシステム。
１１．１つ又は複数のスパース性制約が、少なくとも１つの制約を含み、１つ又は複数のデータのセットのサブセットが、
少なくとも第１の数の非ゼロ・データ値及び第２の数のゼロ・データ値を含む、条項１０に記載のシステム。
１２．深層学習フレームワークが、第１のポジション値に関連付けられる１つ又は複数のデータのセットの少なくとも第１のサブセットを、第２のポジション値に関連付けられる１つ又は複数のデータのセットの少なくとも第２のサブセットと交換することによって１つ又は複数のデータのセットを変換する、条項１０又は１１に記載のシステム。
１３．深層学習フレームワークが、変換のセットを決定し、
第１のポジション値に関連付けられる１つ又は複数のデータのセットの第１のサブセット、及び第２のポジション値に関連付けられる１つ又は複数のデータのセットの第２のサブセットをランダムに選択することと、
第１のサブセットと第２のサブセットとを交換することと、
第１のサブセット及び第２のサブセット中の１つ又は複数のデータ値を、ゼロ値に設定することと、
１つ又は複数のデータのセットに対応するニューラル・ネットワークに関連付けられるメトリクスを計算することと、
メトリクスが別のメトリクスより大きい結果として、第１のポジション値及び第２のポジション値を含む変換を、変換のセットに追加することと
によって、１つ又は複数のデータのセット中の要素を並べ替える、条項１０から１２までのいずれかに記載のシステム。
１４．１つ又は複数のデータのセットが、１つ又は複数のニューラル・ネットワークの層に関連付けられ、１つ又は複数のデータ値のセットが非ゼロ数値のみを含む、条項９から１３までのいずれかに記載のシステム。
１５．命令が、１つ又は複数のプロセッサによって実行されると、１つ又は複数のデータのセットのサブセット中の１つ又は複数のデータ値をゼロ値に設定することによって、スパース性に対する増大を生じさせる命令をさらに含み、サブセット中の１つ又は複数のデータ値がニューラル・ネットワークに関連付けられる１つ又は複数の重み値を表現する数値であり、サブセットがスパース性制約に少なくとも部分的に基づいて決定される、条項９から１４までのいずれかに記載のシステム。
１６．１つ又は複数のプロセッサが並列処理ユニットであり、並列処理ユニットが、１つ又は複数のデータのセットに対する１つ又は複数の構造上の制約に少なくとも部分的に基づいて１つ又は計算を加速させるための１つ又は複数の疎テンソル・コアを含む、条項９から１５までのいずれかに記載のシステム。
１７．
１つ又は複数のデータのセットのスパース性に対する増大を、少なくとも１つ又は複数のデータのセット内の要素を並べ替えることによって、生じさせることであって、それに対して、１つ又は複数の計算が実行される、増大を生じさせることを含む、方法。
１８．深層学習フレームワークを使用して、１つ又は複数のデータのセットのスパース性に対する増大を生じさせることをさらに含み、深層学習フレームワークが、１つ又は複数のデータのセットが、１つ又は複数の構造化スパース性制約に従う１つ又は複数のデータのサブセットを含むように、少なくとも１つ又は複数のデータのセット内の要素を並べ替える、条項１７に記載の方法。
１９．１つ又は複数の構造化スパース性制約が、少なくとも１つ又は複数のデータのセットに対して制限を含み、制限が、１つ又は複数のデータのサブセットが、少なくとも第１の数の非ゼロ・データ値及び第２の数のゼロ・データ値を含むことを要求する、条項１８に記載の方法。
２０．深層学習フレームワークが、１つ又は複数のデータのセット内の要素を、１つ又は複数のデータのセット内で第１のポジションを有する１つ又は複数のデータのサブセットの第１のサブセットを、１つ又は複数のデータのセット内で第２のポジションを有する１つ又は複数のデータのサブセットの第２のサブセットとスワップすることによって、並べ替える、条項１８又は１９に記載の方法。
２１．深層学習フレームワークが、変換のセットを決定し、
第１のポジション値に関連付けられる１つ又は複数のデータのサブセットの第１のサブセット、及び第２のポジション値に関連付けられる１つ又は複数のデータのサブセットの第２のサブセットをランダムに選択することと、
第１のサブセットと第２のサブセットとを交換することと、
第１のサブセット及び第２のサブセット中の１つ又は複数のデータ値を、ゼロ値に設定することと、
１つ又は複数のデータのセットに対応するニューラル・ネットワークに関連付けられるメトリクス値を計算することと、
メトリクス値が別のメトリクス値より大きい結果として、第１のポジション値及び第２のポジション値を含む変換を、変換のセットに追加することと
によって、１つ又は複数のデータのセット中の要素を並べ替える、条項１８から２０までのいずれかに記載の方法。
２２．深層学習フレームワークが、変換のセットを決定し、
１つ又は複数のデータのセットの第１のサブセット、及び１つ又は複数のデータのセットの第２のサブセットを選択することと、
第１のサブセットの１つ又は複数の第１の変換を決定することであって、１つ又は複数の第１の変換が、
ニューラル・ネットワークに関連付けられる第１のメトリクス値がニューラル・ネットワークに関連付けられる第２のメトリクス値よりも大きくなるように、第１のサブセット中の一連のデータ値の第１の１つ又は複数のセットを第１のサブセット中の一連のデータ値の第２の１つ又は複数のセットと交換する、決定することと、
第２のサブセットの１つ又は複数の第２の変換を決定することであって、１つ又は複数の第２の変換が、
ニューラル・ネットワークに関連付けられる第３のメトリクス値がニューラル・ネットワークに関連付けられる第２のメトリクス値よりも大きくなるように、第２のサブセット中の一連のデータ値の第１の１つ又は複数のセットを第２のサブセット中の一連のデータ値の第２の１つ又は複数のセットと交換する、決定することと、
１つ又は複数の第１の変換を１つ又は複数の第２の変換とともに変換のセットに結合することと
によって、１つ又は複数のデータのセット中の要素を並べ替える、条項１８から２１までのいずれかに記載の方法。
２３．１つ又は複数のデータのセットが、スパース性に対する増大の結果として改善されたメトリクス値を有する１つ又は複数のニューラル・ネットワークの層に関連付けられる、条項１７から２２までのいずれかに記載の方法。
２４．スパース性に対する増大が、１つ又は複数の計算の１つ又は複数のオペランドが１つ又は複数のスパース性制約を満たすように、１つ又は複数のデータのセットのサブセット中の１つ又は複数のデータ値をゼロ・データ値に設定することによって、さらに生じる、条項１７から２３までのいずれかに記載の方法。
２５．１つ又は複数の並列処理ユニットが、１つ又は複数の計算を実行し、１つ又は複数の並列処理ユニットが、スパース性に対する増大の結果として１つ又は複数の構造上の制約を利用するための１つ又は複数の疎テンソル・コアを含む、条項１７から２４までのいずれかに記載の方法。
２６．命令のセットが記憶された機械読取り可能媒体であって、命令のセットが１つ又は複数のプロセッサによって実行されると、１つ又は複数のプロセッサに、少なくとも、
１つ又は複数のデータのセットのスパース性に対する増大を、少なくとも１つ又は複数のデータのセット内の要素を並べ替えることによって、生じさせ、それに対して、１つ又は複数の計算が１つ又は複数のプロセッサによって実行される、機械読取り可能媒体。
２７．命令のセットが、１つ又は複数のプロセッサによって実行されると、１つ又は複数のプロセッサに、変換のセットを１つ又は複数の構造化スパース性制約に従って１つ又は複数のデータのセットに適用することによって、１つ又は複数のデータのセット中の要素を並べ替えさせる、命令をさらに含む、条項２６に記載の機械読取り可能媒体。
２８．１つ又は複数の構造化スパース性制約が、少なくとも１つ又は複数のデータのセットに対して制限を含み、制限が、１つ又は複数のデータのサブセットが、少なくとも第１の数の非ゼロ・データ値及び第２の数のゼロ・データ値を含むことを要求する、条項２７に記載の機械読取り可能媒体。
２９．変換のセットが、１つ又は複数のデータのセット内で第１のポジション値を有する１つ又は複数のデータのセットの第１のサブセットを、１つ又は複数のデータのセット内で第２のポジション値を有する１つ又は複数のデータのセットの第２のサブセットと交換する少なくとも１つの変換を含む、条項２７又は２８に記載の機械読取り可能媒体。
３０．命令のセットが、１つ又は複数のプロセッサによって実行されると、１つ又は複数のプロセッサに、変換のセットを決定させ、
第１のポジション値に関連付けられる１つ又は複数のデータのセットの第１のサブセット、及び第２のポジション値に関連付けられる１つ又は複数のデータのセットの第２のサブセットをランダムに選択することと、
第１のサブセットと第２のサブセットとを交換することと、
第１のサブセット及び第２のサブセット中の１つ又は複数のデータ値を、ゼロ値に設定することと、
１つ又は複数のデータのセットに対応するニューラル・ネットワークに関連付けられるメトリクス値を計算することと、
メトリクス値が別のメトリクス値より大きい結果として、第１のポジション値及び第２のポジション値を含む変換を、変換のセットに追加することと
によって、１つ又は複数のデータのセット中の要素を並べ替える命令をさらに含む、条項２６から２９までのいずれかに記載の機械読取り可能媒体。
３１．命令のセットが、１つ又は複数のプロセッサによって実行されると、１つ又は複数のプロセッサに、
第１のポジション値を有する１つ又は複数のデータのセットの第１のサブセット、及び第２のポジションを有する１つ又は複数のデータのセットの第２のサブセットを選択することと、
第１のサブセットと第２のサブセットとを交換して、１つ又は複数のスパース性制約に従って枝刈される１つ又は複数のデータのセットにおけるデータ値のクラスの数を増やすことと
によって、１つ又は複数のデータのセット中の要素を並べ替えさせる、命令をさらに含む、条項２６から３０までのいずれかに記載の機械読取り可能媒体。
３２．１つ又は複数のプロセッサが、少なくとも部分的に１つ又は複数のデータのセットのスパース性に対する増大に基づいて１つ又は複数の計算を実行するために、１つ又は複数の疎テンソル・コアをさらに含む、条項２６から３１までのいずれかに記載の機械読取り可能媒体。
３３．命令のセットが、１つ又は複数のプロセッサによって実行されると、１つ又は複数のプロセッサに、１つ又は複数の計算の１つ又は複数のオペランドが１つ又は複数のスパース性制約を満たすように、１つ又は複数のデータのセットのサブセット中の１つ又は複数のデータ値をゼロ・データ値に設定することによってスパース性に対する増大を生じさせる、命令をさらに含む、条項２６から３２までのいずれかに記載の機械読取り可能媒体。
３４．１つ又は複数のデータのセットが、スパース性に対する増大の結果として改善された精度を有する１つ又は複数のニューラル・ネットワークの層に関連付けられる、条項２６から３３までのいずれかに記載の機械読取り可能媒体。

開示される実施例を説明する文脈において（特に、以下の特許請求の範囲の文脈において）「ａ」及び「ａｎ」及び「ｔｈｅ」という用語、並びに同様の指示語を使用することは、本明細書に別段の記載のない限り、又は文脈によって明らかに否定されない限り、単数と複数の両方を網羅すると解釈されるべきであり、用語の定義であると解釈されるべきではない。「備える（ｃｏｍｐｒｉｓｉｎｇ）」、「有する（ｈａｖｉｎｇ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」、「収容する（ｃｏｎｔａｉｎｉｎｇ）」という用語は、別段の記載のない限り、オープンエンドの用語（「含むが、これに限定されない」を意味する）と解釈される。「接続される」は、修飾されずに物理的接続を指している場合には、何か介在するものがあったとしても、部分的に又は完全に中に収容される、取り付けられる、又は互いに接合されるものとして解釈される。本明細書において値の範囲を詳述することは、本明細書において別段の記載がない限り、またそれぞれ別々の値が、本明細書に個々に詳述されているかのように明細書に組み込まれていない限り、範囲内に含まれるそれぞれ別々の値を個々に参照する簡潔な方法として機能することを単に意図しているにすぎない。少なくとも一実施例では、「セット」（たとえば、「アイテムのセット」）又は「サブセット」という用語の使用は、文脈によって別段の記載がない、又は否定されていない限り、１つ又は複数の部材を備える空ではない集合として解釈されるべきである。さらに、文脈によって別段の記載がない、又は否定されていない限り、対応するセットの「サブセット」という用語は、対応するセットの厳密なサブセットを必ずしも指すのではなく、サブセットと対応するセットは等しくてもよい。

「Ａ、Ｂ、及びＣのうちの少なくとも１つ」又は「Ａ、Ｂ、及びＣのうちの少なくとも１つ」という形の言い回しなどの結合語は、別段の具体的な記載のない限り、又は文脈によって明確に否定されていない限り、項目、用語などが、ＡかＢかＣである、又はＡとＢとＣのセットのいずれかの空でないサブセットであることを提示するために一般に使用される文脈で理解される。たとえば、３つの部材を有するセットの説明的な例では、「Ａ、Ｂ、及びＣのうちの少なくとも１つ」並びに「Ａ、Ｂ、及びＣのうちの少なくとも１つ」という結合句は、次のセットのうちのいずれかを指す：｛Ａ｝、｛Ｂ｝、｛Ｃ｝、｛Ａ、Ｂ｝、｛Ａ、Ｃ｝、｛Ｂ、Ｃ｝、｛Ａ、Ｂ、Ｃ｝。したがって、こうした結合語は、ある一定の実施例が、少なくとも１つのＡ、少なくとも１つのＢ、及び少なくとも１つのＣのそれぞれの存在を必要とすることを全体的に暗示するものではない。さらに、別段の記載のない、又は文脈によって否定されていない限り、「複数」という用語は、複数である状態を示す（たとえば、「複数の項目（ａｐｌｕｒａｌｉｔｙｏｆｉｔｅｍｓ）」は複数の項目（ｍｕｌｔｉｐｌｅｉｔｅｍｓ）を示す）。少なくとも一実施例では、複数である項目の数は、少なくとも２つであるが、明示的に、又は文脈によって示されている場合にはそれより多くてもよい。さらに、別段の記載のない、又は文脈からそうでないことが明らかでない限り、「～に基づく」という言い回しは、「少なくとも部分的に～に基づく」を意味し、「～だけに基づく」を意味しない。

本明細書に記載のプロセスの動作は、本明細書に別段の記載のない、又は文脈によって明確に否定されない限り、任意の好適な順序で実行することができる。少なくとも一実施例では、本明細書に記載のプロセス（又はその変形及び／又は組合せ）などのプロセスは、実行可能命令で構成された１つ又は複数のコンピュータ・システムの制御下で実行され、１つ又は複数のプロセッサ上で、ハードウェアによって、又はそれらの組合せによって集合的に実行されるコード（たとえば、実行可能な命令、１つ若しくは複数のコンピュータ・プログラム、又は１つ若しくは複数のアプリケーション）として実装される。少なくとも一実施例では、コードは、たとえば１つ又は複数のプロセッサによって実行可能な複数の命令を備えるコンピュータ・プログラムの形で、コンピュータ読取り可能ストレージ媒体に記憶される。少なくとも一実施例では、コンピュータ読取り可能ストレージ媒体は、一時的な信号（たとえば、伝播する一時的な電気若しくは電磁送信）を除外するが、一時的な信号のトランシーバ内の非一時的なデータ・ストレージ回路（たとえば、バッファ、キャッシュ、及びキュー）を含む非一時的なコンピュータ読取り可能ストレージ媒体である。少なくとも一実施例では、コード（たとえば、実行可能コード又はソース・コード）は、１つ又は複数の非一時的なコンピュータ読取り可能ストレージ媒体のセットに記憶され、このストレージ媒体には、コンピュータ・システムの１つ又は複数のプロセッサによって実行されたときに（すなわち、実行された結果として）、コンピュータ・システムに本明細書に記載の動作を実行させる実行可能命令が記憶されている（又は、実行可能命令を記憶するための他のメモリを有する）。少なくとも一実施例では、非一時的なコンピュータ読取り可能ストレージ媒体のセットは、複数の非一時的なコンピュータ読取り可能ストレージ媒体を備え、複数の非一時的なコンピュータ読取り可能ストレージ媒体の個々の非一時的なストレージ媒体のうちの１つ又は複数には、すべてのコードがないが、複数の非一時的なコンピュータ読取り可能ストレージ媒体は、集合的にすべてのコードを記憶している。少なくとも一実施例では、実行可能命令は、異なる命令が異なるプロセッサによって実行されるように実行され、たとえば、非一時的なコンピュータ読取り可能ストレージ媒体は命令を記憶し、メインの中央処理装置（「ＣＰＵ」）は一部の命令を実行し、グラフィックス・プロセッシング・ユニット（「ＧＰＵ」）は他の命令を実行する。少なくとも一実施例では、コンピュータ・システムの異なる構成要素は、別々のプロセッサを有し、異なるプロセッサは、命令の異なるサブセットを実行する。

したがって、少なくとも一実施例では、コンピュータ・システムは、本明細書に記載のプロセスの動作を単独で又は集合的に実行する１つ又は複数のサービスを実装するように構成され、こうしたコンピュータ・システムは、動作の実行を可能にする適用可能なハードウェア及び／又はソフトウェアで構成される。さらに、本開示の少なくとも一実施例を実装するコンピュータ・システムは、単一のデバイスであり、別の実施例では、異なるやり方で動作する複数のデバイスを備える分散型のコンピュータ・システムであり、それにより単一のデバイスがすべての動作を実行しないように分散型のコンピュータ・システムが本明細書に記載の動作を実行する。

本明細書に提供されるあらゆる例、又は例示的な言葉（たとえば、「など」）の使用は、本開示の実施例をより明らかにすることだけを意図しており、別段の主張のない限り、本開示の範囲に制限を加えるものではない。本明細書のいかなる言葉も、特許請求されていない任意の要素を、本開示の実践に不可欠なものとして示すと解釈されるべきではない。

本明細書に引用される出版物、特許出願、及び特許を含むすべての参考文献は、各参考文献が参照により組み込まれることがあたかも個別に明確に示され、その全体が本明細書に記載されたかのように、それと同程度まで参照により本明細書に組み込まれる。

明細書及び特許請求の範囲において、「結合される」及び「接続される」という用語が、その派生語とともに使用されてもよい。これらの用語は、互いに同義語として意図されていない場合があることを理解すべきである。むしろ、特定の例では、「接続される」又は「結合される」は、２つ以上の要素が物理的又は電気的に互いに直接又は間接的に接触していることを示すために使用されてもよい。また「結合される」は、２つ以上の要素が直接互いに接触していないが、なお互いに連動又は相互作用することを意味してもよい。

別段の具体的な記載のない限り、明細書全体を通して「処理する」、「コンピューティング」、「計算する」、又は「判定する」などの用語は、コンピューティング・システムのレジスタ及び／又はメモリ内の、電子的などの物理的な量として表されるデータをコンピューティング・システムのメモリ、レジスタ、又は他のそのような情報ストレージ・デバイス、送信デバイス、若しくはディスプレイ・デバイス内の物理的な量として同様に表される他のデータになるよう操作及び／又は変換するコンピュータ若しくはコンピューティング・システム、又は同様の電子コンピューティング・デバイスの行為及び／又はプロセスを指すことが理解されよう。

同様に、「プロセッサ」という用語は、レジスタ及び／又はメモリからの電子データを処理し、その電子データを、レジスタ及び／又はメモリに記憶することができる他の電子データに変換する任意のデバイス、又はデバイスの一部分を指してもよい。非限定的な例として、「プロセッサ」は、ＣＰＵ又はＧＰＵであってもよい。「コンピューティング・プラットフォーム」は、１つ又は複数のプロセッサを備えてもよい。本明細書で使用する「ソフトウェア」プロセスは、たとえば、タスク、スレッド、及び知的エージェントなど、経時的にワークを実行するソフトウェア及び／又はハードウェアのエンティティを含んでもよい。また、各プロセスは、命令を直列で又は並列で連続的に又は断続的に実行するための複数のプロセスを指してもよい。少なくとも一実施例では、「システム」及び「方法」という用語は、１つ又は複数の方法をシステムが具体化することができ、方法がシステムと考えられてもよい場合に限り、本明細書において交換可能に使用される。

本明細書では、アナログ・データ又はデジタル・データを得る、取得する、受信する、又はそれらをサブシステム、コンピュータ・システム、又はコンピュータ実装機械に入力することに言及することができる。少なくとも一実施例では、アナログ・データ及びデジタル・データを得る、取得する、受信する、又は入力するプロセスは、関数呼出し、又はアプリケーション・プログラミング・インターフェースへの呼出しのパラメータとしてデータを受信するなど、様々なやり方で実現することができる。いくつかの実装形態では、アナログ・データ又はデジタル・データを得る、取得する、受信する、又は入力するプロセスは、直列又は並列のインターフェースを介してデータを転送することによって実現することができる。別の実装形態では、アナログ・データ又はデジタル・データを得る、取得する、受信する、又は入力するプロセスは、提供するエンティティから取得するエンティティにコンピュータ・ネットワークを介してデータを転送することによって実現することができる。アナログ・データ又はデジタル・データを提供する、出力する、送信する、送る、又は提示することにも言及することができる。様々な例では、アナログ・データ又はデジタル・データを提供する、出力する、送信する、送る、又は提示するプロセスは、関数呼出しの入力又は出力のパラメータ、アプリケーション・プログラミング・インターフェース若しくはプロセス間通信機構のパラメータとしてデータを転送することによって実現することができる。

上記議論は、記載した技法の例示的な実装形態について述べているが、記載した機能を実装するために他のアーキテクチャが使用されてもよく、この他のアーキテクチャは、本開示の範囲内にあることが意図される。さらに、議論を目的として、役割の具体的な分配が定義されるが、様々な機能及び役割は、状況に応じて異なるやり方で分配及び分割されてもよい。

さらに、主題は、構造的特徴及び／又は方法論的動作に特有の言語で説明されてきたが、添付の特許請求の範囲で特許請求される主題は、説明した特有の特徴又は動作に必ずしも限定されないことが理解されるべきである。むしろ、特有の特徴及び動作は、特許請求の範囲を実装する例示的な形として開示されている。

Claims

プロセッサであって、
１つ又は複数のデータのセットのスパース性に対する増大を、少なくとも前記１つ又は複数のデータのセット内の要素を並べ替えることによって生じさせる１つ又は複数の回路であって、その上で、前記プロセッサによって１つ又は複数の計算が実行される、１つ又は複数の回路
を有する、プロセッサ。
前記１つ又は複数の回路は、前記１つ又は複数のデータのセットが、１つ又は複数の構造的スパース性制約に従う１つ又は複数のデータのサブセットを含むように、少なくとも前記１つ又は複数のデータのセット内の要素を並べ替えることによって前記スパース性に対する増大を生じさせる、請求項１に記載のプロセッサ。
前記１つ又は複数の構造的スパース性制約は、前記１つ又は複数のデータのセットに対して制限を課し、それにより前記１つ又は複数のデータのサブセットが、少なくとも第１の数の非ゼロ・データ値及び第２の数のゼロ・データ値を含む、請求項２に記載のプロセッサ。
前記１つ又は複数の回路は、前記１つ又は複数のデータのセット内で第１のポジションを有する前記１つ又は複数のデータのサブセットの第１のサブセットを、前記１つ又は複数のデータのセット内で第２のポジションを有する前記１つ又は複数のデータのサブセットの第２のサブセットとスワップすることによって、前記１つ又は複数のデータのセット内の要素を並べ替える、請求項２に記載のプロセッサ。
前記１つ又は複数のデータのセットは、少なくとも第１のインデックス及び第２のインデックスを使用してアクセス可能な数値を含み、
前記１つ又は複数のデータのセットは、前記第１のインデックスに関連付けられる第１のデータのサブセット、及び前記第２のインデックスに関連付けられる第２のデータのサブセットを含み、また
前記１つ又は複数の回路は、少なくとも前記第１のインデックスに関連付けられる前記第１のデータのサブセットの前記数値を、第２の行列に関連付けられる前記第２のデータのサブセットと交換することによって、前記スパース性に対して増大を生じさせる、請求項１に記載のプロセッサ。
前記１つ又は複数のデータのセットは、１つ又は複数のニューラル・ネットワークに関連付けられる重みパラメータに対応する数値を含む、請求項１に記載のプロセッサ。
前記１つ又は複数のデータのセット内の各データ値が、第１のインデックス値及び第２のインデックス値に関連付けられ、前記第１のインデックス値及び前記第２のインデックス値が、前記１つ又は複数のデータのセット内の各データ値のポジションを示す、請求項１に記載のプロセッサ。
前記１つ又は複数の回路は、変換のセットを決定して前記１つ又は複数のデータのセット内で２つ以上のデータのサブセットをスワップするように深層学習フレームワークを使用して前記１つ又は複数のデータのセットの前記スパース性に対する増大を生じさせ、前記深層学習フレームワークは、前記２つ以上のデータのサブセット内の１つ又は複数のデータ値をゼロにさらに設定する、請求項１に記載のプロセッサ。
システムであって、
１つ又は複数のプロセッサと、
命令を含むメモリであって、前記命令は、前記１つ又は複数のプロセッサによって実行されると、コンピュータ・システムに、少なくとも、
１つ又は複数のデータのセットのスパース性に対する増大を、少なくとも前記１つ又は複数のデータのセット内の要素を並べ替えることによって生じさせ、その上で、１つ又は複数の計算が前記１つ又は複数のプロセッサによって実行される
メモリと
を有する、システム。
前記命令は、前記１つ又は複数のプロセッサによって実行されると、１つ又は複数のスパース性制約に少なくとも部分的に基づいて、深層学習フレームワークに前記１つ又は複数のデータのセットの変換を行なわせる命令をさらに含む、請求項９に記載のシステム。
前記１つ又は複数のスパース性制約は少なくとも１つの制約を含み、前記１つ又は複数のデータのセットのサブセットは、少なくとも第１の数の非ゼロ・データ値及び第２の数のゼロ・データ値を含む、請求項１０に記載のシステム。
前記深層学習フレームワークは、第１のポジション値に関連付けられる前記１つ又は複数のデータのセットの少なくとも第１のサブセットを、第２のポジション値に関連付けられる前記１つ又は複数のデータのセットの少なくとも第２のサブセットと交換することによって前記１つ又は複数のデータのセットを変換する、請求項１０に記載のシステム。
前記深層学習フレームワークは変換のセットを決定し、それにより、
第１のポジション値に関連付けられる前記１つ又は複数のデータのセットの第１のサブセット、及び第２のポジション値に関連付けられる前記１つ又は複数のデータのセットの第２のサブセットをランダムに選択することと、
前記第１のサブセットと前記第２のサブセットとを交換することと、
前記第１のサブセット及び前記第２のサブセット中の１つ又は複数のデータ値を、ゼロ値に設定することと、
前記１つ又は複数のデータのセットに対応するニューラル・ネットワークに関連付けられるメトリクスを計算することと、
前記メトリクスが別のメトリクスより大きい結果として、前記第１のポジション値及び前記第２のポジション値を含む変換を、前記変換のセットに追加することと
によって、前記１つ又は複数のデータのセット中の前記要素を並べ替える、請求項１０に記載のシステム。
前記１つ又は複数のデータのセットは、１つ又は複数のニューラル・ネットワークの層に関連付けられ、前記１つ又は複数のデータ値のセットが非ゼロ数値のみを含む、請求項９に記載のシステム。
前記命令は、前記１つ又は複数のプロセッサによって実行されると、前記１つ又は複数のデータのセットのサブセット中の１つ又は複数のデータ値をゼロ値に設定することによって、前記スパース性に対する増大を生じさせる命令をさらに含み、前記サブセット中の前記１つ又は複数のデータ値は、ニューラル・ネットワークに関連付けられる１つ又は複数の重み値を表現する数値であり、前記サブセットはスパース性制約に少なくとも部分的に基づいて決定される、請求項９に記載のシステム。
前記１つ又は複数のプロセッサは並列処理ユニットであり、前記並列処理ユニットは、少なくとも部分的に前記１つ又は複数のデータのセットに対する１つ又は複数の構造上の制約に基づいて１つ又は計算を加速させるための１つ又は複数の疎テンソル・コアを含む、請求項９に記載のシステム。
１つ又は複数のデータのセットのスパース性に対する増大を、少なくとも前記１つ又は複数のデータのセット内の要素を並べ替えることによって生じさせるステップであって、その上で、１つ又は複数の計算が実行されるステップを含む、方法。
深層学習フレームワークを使用して、前記１つ又は複数のデータのセットの前記スパース性に対する増大を生じさせるステップをさらに含み、前記深層学習フレームワークは、前記１つ又は複数のデータのセットが、１つ又は複数の構造的スパース性制約に従う１つ又は複数のデータのサブセットを含むように、少なくとも前記１つ又は複数のデータのセット内の前記要素を並べ替える、請求項１７に記載の方法。
前記１つ又は複数の構造的スパース性制約は、少なくとも前記１つ又は複数のデータのセットに対して制限を含み、前記制限は、前記１つ又は複数のデータのサブセットが、少なくとも第１の数の非ゼロ・データ値及び第２の数のゼロ・データ値を含むことを要求する、請求項１８に記載の方法。
前記深層学習フレームワークは、前記１つ又は複数のデータのセット内で第１のポジションを有する前記１つ又は複数のデータのサブセットの第１のサブセットを、前記１つ又は複数のデータのセット内で第２のポジションを有する前記１つ又は複数のデータのサブセットの第２のサブセットとスワップすることによって、前記１つ又は複数のデータのセット内の前記要素を並べ替える、請求項１８に記載の方法。
前記深層学習フレームワークは変換のセットを決定し、それにより、
第１のポジション値に関連付けられる前記１つ又は複数のデータのサブセットの第１のサブセット、及び第２のポジション値に関連付けられる前記１つ又は複数のデータのサブセットの第２のサブセットをランダムに選択することと、
前記第１のサブセットと前記第２のサブセットとを交換することと、
前記第１のサブセット及び前記第２のサブセット中の１つ又は複数のデータ値を、ゼロ値に設定することと、
前記１つ又は複数のデータのセットに対応するニューラル・ネットワークに関連付けられるメトリクス値を計算することと、
前記メトリクス値が別のメトリクス値より大きい結果として、前記第１のポジション値及び前記第２のポジション値を含む変換を、前記変換のセットに追加することと
によって、前記１つ又は複数のデータのセット中の前記要素を並べ替える、請求項１８に記載の方法。
前記深層学習フレームワークは変換のセットを決定し、それにより、
前記１つ又は複数のデータのセットの第１のサブセット、及び前記１つ又は複数のデータのセットの第２のサブセットを選択することと、
前記第１のサブセットの１つ又は複数の第１の変換を決定することであって、前記１つ又は複数の第１の変換は、ニューラル・ネットワークに関連付けられる第１のメトリクス値が前記ニューラル・ネットワークに関連付けられる第２のメトリクス値よりも大きくなるように、前記第１のサブセット中の一連のデータ値の第１の１つ又は複数のセットを前記第１のサブセット中の一連のデータ値の第２の１つ又は複数のセットと交換する、ことと、
前記第２のサブセットの１つ又は複数の第２の変換を決定することであって、前記１つ又は複数の第２の変換は、前記ニューラル・ネットワークに関連付けられる第３のメトリクス値が前記ニューラル・ネットワークに関連付けられる第２のメトリクス値よりも大きくなるように、前記第２のサブセット中の一連のデータ値の第１の１つ又は複数のセットを前記第２のサブセット中の一連のデータ値の第２の１つ又は複数のセットと交換する、ことと、
前記１つ又は複数の第１の変換を前記１つ又は複数の第２の変換とともに前記変換のセットに結合することと
によって、前記１つ又は複数のデータのセット中の前記要素を並べ替える、請求項１８に記載の方法。
前記１つ又は複数のデータのセットは、前記スパース性に対する増大の結果として改善されたメトリクス値を有する１つ又は複数のニューラル・ネットワークの層に関連付けられる、請求項１７に記載の方法。
前記スパース性に対する増大は、前記１つ又は複数の計算の１つ又は複数のオペランドが１つ又は複数のスパース性制約を満たすように、前記１つ又は複数のデータのセットのサブセット中の１つ又は複数のデータ値をゼロ・データ値に設定することによってさらに生じる、請求項１７に記載の方法。
１つ又は複数の並列処理ユニットが前記１つ又は複数の計算を実行し、前記１つ又は複数の並列処理ユニットは、前記スパース性に対する増大の結果として１つ又は複数の構造上の制約を利用するための１つ又は複数の疎テンソル・コアを含む、請求項１７に記載の方法。
命令のセットが記憶された機械読取り可能媒体であって、前記命令のセットは、１つ又は複数のプロセッサによって実行されると、前記１つ又は複数のプロセッサに、少なくとも、
少なくとも前記１つ又は複数のデータのセット内の要素を並べ替えることによって１つ又は複数のデータのセットのスパース性に対する増大を生じさせ、その上で、１つ又は複数の計算が前記１つ又は複数のプロセッサによって実行される、機械読取り可能媒体。
前記命令のセットは、前記１つ又は複数のプロセッサによって実行されると、前記１つ又は複数のプロセッサに、変換のセットを１つ又は複数の構造的スパース性制約に従って前記１つ又は複数のデータのセットに適用することによって、前記１つ又は複数のデータのセット中の前記要素を並べ替えさせる命令をさらに含む、請求項２６に記載の機械読取り可能媒体。
前記１つ又は複数の構造的スパース性制約は、少なくとも前記１つ又は複数のデータのセットに対して制限を含み、前記制限は、前記１つ又は複数のデータのサブセットが、少なくとも第１の数の非ゼロ・データ値及び第２の数のゼロ・データ値を含むことを要求する、請求項２７に記載の機械読取り可能媒体。
前記変換のセットは、前記１つ又は複数のデータのセット内で第１のポジション値を有する前記１つ又は複数のデータのセットの第１のサブセットを、前記１つ又は複数のデータのセット内で第２のポジション値を有する前記１つ又は複数のデータのセットの第２のサブセットと交換する少なくとも１つの変換を含む、請求項２７に記載の機械読取り可能媒体。
前記命令のセットは、前記１つ又は複数のプロセッサによって実行されると、前記１つ又は複数のプロセッサに変換のセットを決定させ、それにより、
第１のポジション値に関連付けられる前記１つ又は複数のデータのセットの第１のサブセット、及び第２のポジション値に関連付けられる前記１つ又は複数のデータのセットの第２のサブセットをランダムに選択することと、
前記第１のサブセットと前記第２のサブセットとを交換することと、
前記第１のサブセット及び前記第２のサブセット中の１つ又は複数のデータ値を、ゼロ値に設定することと、
前記１つ又は複数のデータのセットに対応するニューラル・ネットワークに関連付けられるメトリクス値を計算することと、
前記メトリクス値が別のメトリクス値より大きい結果として、前記第１のポジション値及び前記第２のポジション値を含む変換を、前記変換のセットに追加することと
によって、前記１つ又は複数のデータのセット中の前記要素を並べ替える命令をさらに含む、請求項２６に記載の機械読取り可能媒体。
前記命令のセットは、前記１つ又は複数のプロセッサによって実行されると、前記１つ又は複数のプロセッサに、
第１のポジション値を有する前記１つ又は複数のデータのセットの第１のサブセット、及び第２のポジションを有する前記１つ又は複数のデータのセットの第２のサブセットを選択することと、
前記第１のサブセットと第２のサブセットとを交換して、１つ又は複数のスパース性制約に従って枝刈される前記１つ又は複数のデータのセットにおけるデータ値のクラスの数を増やすことと
によって、前記１つ又は複数のデータのセット中の前記要素を並べ替えさせる命令をさらに含む、請求項２６に記載の機械読取り可能媒体。
前記１つ又は複数のプロセッサは、少なくとも部分的に前記１つ又は複数のデータのセットの前記スパース性に対する増大に基づいて前記１つ又は複数の計算を実行するために、１つ又は複数の疎テンソル・コアをさらに含む、請求項２６に記載の機械読取り可能媒体。
前記命令のセットは、前記１つ又は複数のプロセッサによって実行されると、前記１つ又は複数のプロセッサに、前記１つ又は複数の計算の１つ又は複数のオペランドが１つ又は複数のスパース性制約を満たすように、前記１つ又は複数のデータのセットのサブセット中の１つ又は複数のデータ値をゼロ・データ値に設定することによって前記スパース性に対する増大を生じさせる命令をさらに含む、請求項２６に記載の機械読取り可能媒体。
前記１つ又は複数のデータのセットは、前記スパース性に対する増大の結果として改善された精度を有する１つ又は複数のニューラル・ネットワークの層に関連付けられる、請求項２６に記載の機械読取り可能媒体。